一種語音處理方法,及裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種語音處理方法,及裝置,其中方法的實現(xiàn)包括:執(zhí)行場景模式檢測,獲取當(dāng)前的音頻應(yīng)用場景;配置與所述音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù);音頻質(zhì)量要求越高的應(yīng)用場景對應(yīng)的音頻處理參數(shù)的標(biāo)準(zhǔn)越高;按照所述音頻處理參數(shù)對采集的音頻信號進行語音處理得到音頻編碼包,向音頻接收端發(fā)送所述音頻編碼包。針對不同音頻質(zhì)量要求的音頻應(yīng)用場景對應(yīng)有不同的音頻處理參數(shù),從而確定與當(dāng)前的音頻應(yīng)用場景相適應(yīng)的音頻處理參數(shù)。采用與當(dāng)前的音頻應(yīng)用場景相適應(yīng)的音頻處理參數(shù)進行語音處理得到音頻編碼包,則可以使語音處理的方案適應(yīng)于當(dāng)前音頻應(yīng)用場景,因此可以實現(xiàn)在滿足音質(zhì)要求的前提下節(jié)省系統(tǒng)資源的技術(shù)效果。
【專利說明】—種語音處理方法,及裝置【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息【技術(shù)領(lǐng)域】,特別涉及一種語音處理方法,及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)語音通話的普及,語音通話逐漸成為了用戶日常生活中不可缺少的一部分。例如:網(wǎng)絡(luò)聊天室、游戲過程中的聊天以及網(wǎng)絡(luò)語音直播等均涉及網(wǎng)絡(luò)語音通話的技術(shù)。 [0003]要實現(xiàn)網(wǎng)絡(luò)語音通話,在語音的采集設(shè)備側(cè)需要執(zhí)行如下流程:
[0004]1、采集音頻信號;該步驟會采集用戶的語音,可以通過麥克風(fēng)等設(shè)備實現(xiàn)音頻信號的采集工作。
[0005]2、對音頻信號進行數(shù)字信號處理(Digital Signal Processing,DSP)得到音頻編碼包;該步驟是對采集的音頻信號進行的處理過程,可以有的處理包括:回聲消除、噪音抑制等。
[0006]如果采集到的是多路音頻信號,則在得到音頻編碼包之前,還可能需要進行混音處理。得到音頻編碼包之前還可以對音頻進行其他音效方面的處理。
[0007]3、向音頻接收端發(fā)送上述得到的音頻編碼包。
[0008]目前語音通話軟件對于不同的應(yīng)用場景,均按照統(tǒng)一處理方式處理音頻流,對于音質(zhì)要求高的場景不能達(dá)到音質(zhì)要求,對于音質(zhì)要求低的場景又因占用較多的系統(tǒng)資源造成資源浪費的現(xiàn)象,因此目前采用統(tǒng)一處理方式處理音頻流的方案并不能與目前多場景下的音頻需求相適應(yīng)。
【發(fā)明內(nèi)容】
[0009]本發(fā)明實施例提供了一種語音處理方法,及裝置,用于提供基于音頻應(yīng)用場景的語音處理方案,使語音處理方案與音頻應(yīng)用場景相適應(yīng),從而在滿足音質(zhì)要求的前提下節(jié)省系統(tǒng)資源。
[0010]一種語音處理方法,包括:
[0011]執(zhí)行場景模式檢測,獲取當(dāng)前的音頻應(yīng)用場景;配置與所述音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù);音頻質(zhì)量要求越高的應(yīng)用場景對應(yīng)的音頻處理參數(shù)的標(biāo)準(zhǔn)越高;
[0012]按照所述音頻處理參數(shù)對采集的音頻信號進行語音處理得到音頻編碼包,向音頻接收端發(fā)送所述音頻編碼包。
[0013]一種語音處理裝置,包括:
[0014]場景獲取單元,用于執(zhí)行場景模式檢測,獲取當(dāng)前的音頻應(yīng)用場景;
[0015]參數(shù)配置單元,用于配置與所述場景獲取單元獲取的音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù);音頻質(zhì)量要求越高的應(yīng)用場景對應(yīng)的音頻處理參數(shù)的標(biāo)準(zhǔn)越高;
[0016]音頻處理單元,用于按照所述參數(shù)配置單元配置的音頻處理參數(shù)對采集的音頻信號進行語音處理得到音頻編碼包;[0017]發(fā)送單元,用于向音頻接收端發(fā)送所述音頻處理單元得到的音頻編碼包。
[0018]從以上技術(shù)方案可以看出,本發(fā)明實施例具有以下優(yōu)點:針對不同音頻質(zhì)量要求的音頻應(yīng)用場景對應(yīng)有不同的音頻處理參數(shù),從而確定與當(dāng)前的音頻應(yīng)用場景相適應(yīng)的音頻處理參數(shù)。采用與當(dāng)前的音頻應(yīng)用場景相適應(yīng)的音頻處理參數(shù)進行語音處理得到音頻編碼包,則可以使語音處理的方案適應(yīng)于當(dāng)前音頻應(yīng)用場景,因此可以實現(xiàn)在滿足音質(zhì)要求的前提下節(jié)省系統(tǒng)資源的技術(shù)效果。
【專利附圖】
【附圖說明】
[0019]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0020]圖1為本發(fā)明實施例方法流程示意圖;
[0021]圖2為本發(fā)明實施例方法流程示意圖;
[0022]圖3為本發(fā)明實施例方法流程示意圖;
[0023]圖4為本發(fā)明實施例裝置結(jié)構(gòu)示意圖;
[0024]圖5為本發(fā)明實施例裝置結(jié)構(gòu)示意圖;
[0025]圖6為本發(fā)明實施例終端結(jié)構(gòu)示意圖。
【具體實施方式】
[0026]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進一步地詳細(xì)描述,顯然,所描述的實施例僅僅是本發(fā)明一部份實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
[0027]本發(fā)明實施例提供了一種語音處理方法,如圖1所示,包括:
[0028]101:執(zhí)行場景模式檢測,獲取當(dāng)前的音頻應(yīng)用場景;
[0029]上述場景模式檢測的過程,可以是設(shè)備執(zhí)行的自動檢測過程,也可以是用戶對于場景模式的設(shè)置,具體獲得音頻應(yīng)用場景的方式并不會影響到本發(fā)明實施例的實現(xiàn),因此本發(fā)明實施例對此不予限定。
[0030]上述音頻應(yīng)用場景是指語音處理所針對的當(dāng)前應(yīng)用場景,因此以上音頻應(yīng)用場景可以是目前計算機【技術(shù)領(lǐng)域】能夠應(yīng)用到音頻的各種應(yīng)用場景,本領(lǐng)域技術(shù)人員可以獲知的是目前能夠用到音頻的應(yīng)用場景有很多,本發(fā)明實施例對此無法窮舉,不過本發(fā)明實施例仍然就其中幾種有代表性的音頻應(yīng)用場景進行了舉例說明:可選地,上述音頻應(yīng)用場景包括:游戲場景(Game Talk Mode, GTM,也稱為游戲場景的聊天模式)、通話聊天場景(NormalTalk Mode, NTM,也稱為一般的通話聊天模式)、高音質(zhì)無視頻聊天場景(High QualityMode, HQM也可以稱為聞首質(zhì)場景下的無視頻聊天|旲式)、聞首質(zhì)直播場景或聞首質(zhì)視頻聊天場景(High Quality with Video Mode, HQVM,也稱為高音質(zhì)直播模式或者高音質(zhì)場景下的視頻聊天模式)、超高音質(zhì)直播場景或超高音質(zhì)視頻聊天場景(Super Quality withVideo Mode, SQV超高音質(zhì)直播模式:超高音質(zhì)場景下的視頻聊天模式)中的至少一項。[0031]對于不同的音頻應(yīng)用場景,對音頻的質(zhì)量會有所不同,例如:游戲場景對音頻質(zhì)量要求最低,但是要求對當(dāng)前的網(wǎng)速占用要求較高,并且音頻處理所用的CPU (CentralProcessor Unit,中央處理器)資源要較少。直播相關(guān)的場景則相對需要高保真,需要特殊的音效處理。高音質(zhì)模式下,則需要消耗更多的CPU資源和網(wǎng)絡(luò)流量來保證音質(zhì)滿足用戶需求。
[0032]102:配置與上述音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù);音頻質(zhì)量要求越高的應(yīng)用場景對應(yīng)的音頻處理參數(shù)的標(biāo)準(zhǔn)越高;
[0033]音頻處理參數(shù)是用來決定如何進行音頻處理的指導(dǎo)性標(biāo)準(zhǔn)參數(shù),本領(lǐng)域技術(shù)人員可以獲知的是對音頻處理的控制可以有很多種選擇,對于各種可能的選擇會導(dǎo)致音頻處理所占用的系統(tǒng)資源的變化本領(lǐng)域技術(shù)人員也是可以預(yù)知的,各種音頻處理將會導(dǎo)致音頻質(zhì)量的變化也是可以預(yù)知的,基于各種應(yīng)用場景對音頻質(zhì)量要求以及對資源消耗的要求本領(lǐng)域技術(shù)人員是可以確定音頻處理參數(shù)是如何選擇的。
[0034]在獲得音頻應(yīng)用場景以后需要確定相應(yīng)的音頻處理參數(shù),音頻處理參數(shù)可以是預(yù)置在本地的,例如采用配置表的形式存放,具體實現(xiàn)如下:可選地,在音頻處理設(shè)備中預(yù)置有各音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù),各音頻應(yīng)用場景對應(yīng)不同的音頻質(zhì)量;上述配置與上述音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù)包括:依據(jù)預(yù)置的各音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù),配置與上述音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù)。
[0035]本領(lǐng)域技術(shù)人員可以獲知對音頻處理的控制可以有很多種選擇,對于各種可能的選擇會導(dǎo)致音頻處理所占用的系統(tǒng)資源的變化本領(lǐng)域技術(shù)人員也是可以預(yù)知的,各種音頻處理將會導(dǎo)致音頻質(zhì)量的變化也是可以預(yù)知的,本發(fā)明實施例還對優(yōu)選用來進行控制決策的音頻處理參數(shù)進行了舉例說明,具體如下:可選地,上述音頻處理參數(shù)包括:音頻采樣率、聲學(xué)回聲抵消是否開啟、噪聲抑制(Noise Suppress,NS)是否開啟、噪聲衰減的強度、自動增益控制(Automatic Gain ControI, AGC)是否開啟、語音活性檢測是否開啟、靜音巾貞數(shù)、編碼碼率、編碼復(fù)雜度、前向糾錯是否開啟、網(wǎng)絡(luò)封包方式、網(wǎng)絡(luò)包發(fā)送方式中的至少一項。
[0036]依據(jù)以上舉例的音頻處理參數(shù),其參數(shù)結(jié)果的選擇會導(dǎo)致音頻處理所占用的系統(tǒng)資源的變化本領(lǐng)域技術(shù)人員也是可以預(yù)知的,各種音頻處理將會導(dǎo)致音頻質(zhì)量的變化也是可以預(yù)知的,基于前述實施例所舉例的各種應(yīng)用場景本發(fā)明實施例還給出了優(yōu)選的設(shè)置方案,具體如下:上述音頻質(zhì)量要求越高的應(yīng)用場景對應(yīng)的音頻處理參數(shù)的標(biāo)準(zhǔn)越高包括:
[0037]游戲場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消開啟、噪聲抑制開啟、噪聲衰減的強度強、自動增益控制開啟、語音活性檢測開啟、靜音幀數(shù)多、編碼碼率低、編碼復(fù)雜度高、前向糾錯開啟、網(wǎng)絡(luò)封包方式為2個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā);
[0038]通話聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消開啟、噪聲抑制開啟、噪聲衰減的強度低、自動增益控制開啟、語音活性檢測開啟、靜音幀數(shù)低、編碼碼率低、編碼復(fù)雜度高、前向糾錯開啟、網(wǎng)絡(luò)封包方式為3個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā);
[0039]高音質(zhì)無視頻聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消開啟、噪聲抑制開啟、噪聲衰減的強度低、自動增益控制開啟、語音活性檢測開啟、靜音幀數(shù)低、編碼碼率默認(rèn)值、編碼復(fù)雜度默認(rèn)值、前向糾錯開啟、網(wǎng)絡(luò)封包方式為I個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā);[0040]高音質(zhì)直播場景或高音質(zhì)視頻聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消是關(guān)閉、噪聲抑制關(guān)閉、自動增益控制關(guān)閉、語音活性檢測關(guān)閉、編碼碼率默認(rèn)值、編碼復(fù)雜度默認(rèn)值、前向糾錯開啟、網(wǎng)絡(luò)封包方式為I個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為雙發(fā);
[0041]超高音質(zhì)直播場景或超高音質(zhì)視頻聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消關(guān)閉、噪聲抑制關(guān)閉、自動增益控制關(guān)閉、語音活性檢測關(guān)閉、編碼碼率高、編碼復(fù)雜度默認(rèn)值、前向糾錯關(guān)閉、網(wǎng)絡(luò)封包方式為I個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā)。
[0042]對于音頻采樣率的控制還可以進一步通過控制聲道數(shù)來影響音頻采樣率,本發(fā)明實施例所稱的多聲道包含雙聲道或者更多的聲道數(shù),具體的聲道數(shù)本發(fā)明實施例可以不予限制,對于各種不同的應(yīng)用場景音頻采樣率的優(yōu)選設(shè)置方案具體如下:可選地,游戲場景和通話聊天場景下音頻采樣率設(shè)置為:單聲道低采樣率,低碼率;高音質(zhì)無視頻聊天場景、高音質(zhì)直播場景或高音質(zhì)視頻聊天場景以及超高音質(zhì)直播場景或超高音質(zhì)視頻聊天場景下音頻采樣率設(shè)置為:多聲道高采樣率,高碼率;上述高碼率為高于上述低碼率的碼率。
[0043]103:按照上述音頻處理參數(shù)對采集的音頻信號進行語音處理得到音頻編碼包,向音頻接收端發(fā)送上述音頻編碼包。
[0044]以上實施例,針對不同音頻質(zhì)量要求的音頻應(yīng)用場景對應(yīng)有不同的音頻處理參數(shù),從而確定與當(dāng)前的音頻應(yīng)用場景相適應(yīng)的音頻處理參數(shù)。采用與當(dāng)前的音頻應(yīng)用場景相適應(yīng)的音頻處理參數(shù)進行語音處理得到音頻編碼包,則可以使語音處理的方案適應(yīng)于當(dāng)前音頻應(yīng)用場景,因此可以實現(xiàn)在滿足音質(zhì)要求的前提下節(jié)省系統(tǒng)資源的技術(shù)效果。
[0045]對采集的音頻信號進行語音處理得到音頻編碼包的過程,依據(jù)不同需要可以選用控制參數(shù),對應(yīng)不同的控制參數(shù)則會有不同的控制流程,本發(fā)明實施例給出了其中的一種可選方案的舉例,本領(lǐng)域技術(shù)人員可以獲知的是以下舉例并不是可選方案的窮舉,因此不應(yīng)理解為對本發(fā)明實施例的限定,具體如下:可選地,上述對采集的音頻信號進行語音處理得到音頻編碼包括:
[0046]若當(dāng)前開啟有背景音,則確定是否為麥克風(fēng)輸入的音頻,如是麥克風(fēng)輸入的音頻則進行數(shù)字信號處理,在對麥克風(fēng)輸入的音頻流進行數(shù)字信號處理完畢后與背景音進行混音、音頻編碼以及打包得到音頻編碼包;若不是麥克風(fēng)輸入的音頻則在音頻采集完畢后進行混音、音頻編碼以及打包得到音頻編碼包;
[0047]若當(dāng)前未開啟背景音,則采集的音頻信號進行數(shù)字信號處理得到音頻幀,對得到的音頻幀進行語音活性檢測確定是否為靜音幀,對非靜音幀進行音頻編碼并打包得到音頻編碼包。
[0048]可選地,上述數(shù)字信號處理包括:音頻信號預(yù)處理、回聲消除、噪聲抑制、自動增益控制中的至少一項。
[0049]以下實施例將就本發(fā)明實施例的具體應(yīng)用場景,進行更詳細(xì)的舉例說明。
[0050]不同場景的語音通話是語音設(shè)計者要面臨的一個問題,比如游戲聊天場景、普通聊天場景、高音質(zhì)聊天場景、高音質(zhì)直播場景(一般的視頻模式)、超高音質(zhì)直播場景(主要是針對演唱會的)等等,由于不同場景對音質(zhì)音效、CPU效率、上下行流量等參數(shù)指標(biāo)的要求不同,所以需要分場景設(shè)計語音引擎算法以滿足不同的用戶需要。然而現(xiàn)有的語音通話軟件都不區(qū)分這些應(yīng)用場景,按照統(tǒng)一處理方式去處理音頻流,這會導(dǎo)致在以上應(yīng)用場景中存在如下的具體問題:1、游戲模式場景下,不需要太高的音質(zhì),但是要求不能卡游戲,所以如果不區(qū)別處理就會造成過高的CPU開銷,過大的上下行流量開銷,影響到游戲的體驗;
2、高音質(zhì)模式場景下,如果按照普通的語音聊天模式處理,音質(zhì)會明顯滿足不了用戶需求;
3、在演唱會的時候,需要高保真的音樂,需要特殊的音效處理;基于以上技術(shù)問題,本發(fā)明實施例將根據(jù)不同的應(yīng)用場景,設(shè)計不同的音頻處理方法,達(dá)到各中場景下在滿足效果要求的前提下實現(xiàn)資源代價的最合理要求。
[0051]基于多場景語音引擎技術(shù)發(fā)送端具體流程,如圖2所示,該圖2只是一個一般性的框架圖,不同模式各步驟是可選的(即可以不需要執(zhí)行),在圖2所示的各步驟中將會使用到的具體參數(shù)請參閱模式配置表I。
[0052]201:場景模式檢測,確定當(dāng)前的音頻應(yīng)用場景;
[0053]本步驟的場景模式檢測執(zhí)行的是檢測語音的音頻應(yīng)用場景,在本發(fā)明實施例的舉例中主要如下5個場景:普通聊天場景、游戲聊天場景、高音質(zhì)聊天場景、高音質(zhì)直播場景、超高音質(zhì)直播場景。
[0054]202:音頻信號采集;
[0055]對于語音處理端而言,采集可以通過麥克風(fēng)來進行采集。
[0056]本步驟會啟動采集線程,根據(jù)引擎的配置進行音頻采集,其中普通聊天場景、游戲聊天場景采用單聲道低采樣率;其他幾種應(yīng)用場景采用雙聲道高采樣率;
[0057]203:確定是否開啟背景音;如果是,進入204,如果否,進入210 ;
[0058]有的應(yīng)用場景是有背景音的,例如音樂會的伴奏。有些應(yīng)用場景則沒有背景音,例如語音聊天的場景。
[0059]204:確定是否是麥克風(fēng)信號;如果是進入205,否則進入206 ;
[0060]本步驟執(zhí)行的是對音頻來源的確定。
[0061]205:進行 DSP 處理;
[0062]DSP的具體處理流程,在后續(xù)實施例中將給出更詳細(xì)的說明;
[0063]206:確定音頻數(shù)據(jù)的采集是否完畢;如果是,進入207,否則進入202 ;
[0064]對于采用麥克風(fēng)采集音頻的方案來說,此步驟需要確定的是各路麥克風(fēng)的音頻數(shù)據(jù)采集是否均完畢。
[0065]207:混音處理;
[0066]本步驟中,混音是對背景音和麥克風(fēng)音的混音。另外,本步驟也可以不執(zhí)行混音,混音的步驟在對端,即音頻編碼包的接收端進行混音也是可以的,例如在聊天室場景下,各音頻編碼包的接收端接收到的背景音可以是相同的,也即是時候音頻編碼包的接收端也有上述背景音,此時完全可以在音頻編碼包的接收端執(zhí)行混音處理。
[0067]208:音頻編碼;
[0068]本步驟執(zhí)行的是對混音處理后的音頻信號進行壓縮,從而節(jié)省了流量,編碼模塊會根據(jù)不同的應(yīng)用場景選擇最合適的算法,游戲模式或普通的聊天模式一般開啟FEC(Forward Error Correction,前向糾錯),降低上下行流量的同時,提高了抗丟包能力;而且在游戲模式或普通的聊天模式一般都選擇低碼率、低復(fù)雜度的編碼器;在高音質(zhì)模式下會選擇高碼率、高復(fù)雜度的編碼器。具體如何配置音頻編碼參數(shù)可以參考表I。[0069]209:音頻幀打包,得到音頻編碼包。打包完成以后則可以發(fā)送給音頻編碼包對應(yīng)的接收端。
[0070]在本步驟中,會根據(jù)不同的場景選擇不同的打包長度和打包方式,具體參數(shù)控制請參閱表1。
[0071]210:進行 DSP 處理;
[0072]211:進行語音活性檢測(Voice Active Detect, VAD);
[0073]212:通過211步驟的語音活性檢測可以確定當(dāng)前幀是否是靜音幀,是靜音幀,則可以丟棄掉,如果確定結(jié)果為否,則進入208的音頻編碼。
[0074]表1各音頻應(yīng)用場景語音引擎算法配置信息表
[0075]
【權(quán)利要求】
1.一種語音處理方法,其特征在于,包括: 執(zhí)行場景模式檢測,獲取當(dāng)前的音頻應(yīng)用場景;配置與所述音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù);音頻質(zhì)量要求越高的應(yīng)用場景對應(yīng)的音頻處理參數(shù)的標(biāo)準(zhǔn)越高; 按照所述音頻處理參數(shù)對采集的音頻信號進行語音處理得到音頻編碼包,向音頻接收端發(fā)送所述音頻編碼包。
2.根據(jù)權(quán)利要求1所述方法,其特征在于,在音頻處理設(shè)備中預(yù)置有各音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù),各音頻應(yīng)用場景對應(yīng)不同的音頻質(zhì)量;所述配置與所述音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù)包括: 依據(jù)預(yù)置的各音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù),配置與所述音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù)。
3.根據(jù)權(quán)利要求1或2所述方法,其特征在于,所述音頻處理參數(shù)包括: 音頻采樣率、聲學(xué)回聲抵消是否開啟、噪聲抑制是否開啟、噪聲衰減的強度、自動增益控制是否開啟、語音活性檢測是否開啟、靜音幀數(shù)、編碼碼率、編碼復(fù)雜度、前向糾錯是否開啟、網(wǎng)絡(luò)封包方式、網(wǎng)絡(luò)包發(fā)送方式中的至少一項。
4.根據(jù)權(quán)利要求3所述方法,其特征在于,所述對采集的音頻信號進行語音處理得到音頻編碼包包括: 若當(dāng)前開啟有背景音,則確定是否為麥克風(fēng)輸入的音頻,如是麥克風(fēng)輸入的音頻則進行數(shù)字信號處理,在對麥克風(fēng)輸入的音頻流進行數(shù)字信號處理完畢后與背景音進行混音、音頻編碼以及打包得到音頻編碼包;若不是麥克風(fēng)輸入的音頻則在音頻采集完畢后進行混音、音頻編碼以及打包得到音頻編碼包; 若當(dāng)前未開啟背景音,則采集的音頻信號進行數(shù)字信號處理得到音頻幀,對得到的音頻幀進行語音活性檢測確定是否為靜音幀,對非靜音幀進行音頻編碼并打包得到音頻編碼包。
5.根據(jù)權(quán)利要求4所述方法,其特征在于,所述數(shù)字信號處理包括: 音頻信號預(yù)處理、回聲消除、噪聲抑制、自動增益控制中的至少一項。
6.根據(jù)權(quán)利要求3所述方法,其特征在于,所述音頻應(yīng)用場景包括: 游戲場景、通話聊天場景、高音質(zhì)無視頻聊天場景、高音質(zhì)直播場景或高音質(zhì)視頻聊天場景、超高音質(zhì)直播場景或超高音質(zhì)視頻聊天場景中的至少一項;所述音頻質(zhì)量要求越高的應(yīng)用場景對應(yīng)的音頻處理參數(shù)的標(biāo)準(zhǔn)越高包括: 游戲場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消開啟、噪聲抑制開啟、噪聲衰減的強度強、自動增益控制開啟、語音活性檢測開啟、靜音幀數(shù)多、編碼碼率低、編碼復(fù)雜度高、前向糾錯開啟、網(wǎng)絡(luò)封包方式為2個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā); 通話聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消開啟、噪聲抑制開啟、噪聲衰減的強度低、自動增益控制開啟、語音活性檢測開啟、靜音幀數(shù)低、編碼碼率低、編碼復(fù)雜度高、前向糾錯開啟、網(wǎng)絡(luò)封包方式為3個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā); 高音質(zhì)無視頻聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消開啟、噪聲抑制開啟、噪聲衰減的強度低、自動增益控制開啟、語音活性檢測開啟、靜音幀數(shù)低、編碼碼率默認(rèn)值、編碼復(fù)雜度默認(rèn)值、前向糾錯開啟、網(wǎng)絡(luò)封包方式為I個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā);高音質(zhì)直播場景或高音質(zhì)視頻聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消是關(guān)閉、噪聲抑制關(guān)閉、自動增益控制關(guān)閉、語音活性檢測關(guān)閉、編碼碼率默認(rèn)值、編碼復(fù)雜度默認(rèn)值、前向糾錯開啟、網(wǎng)絡(luò)封包方式為I個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為雙發(fā); 超高音質(zhì)直播場景或超高音質(zhì)視頻聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消關(guān)閉、噪聲抑制關(guān)閉、自動增益控制關(guān)閉、語音活性檢測關(guān)閉、編碼碼率高、編碼復(fù)雜度默認(rèn)值、前向糾錯關(guān)閉、網(wǎng)絡(luò)封包方式為I個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā)。
7.根據(jù)權(quán)利要求6所述方法,其特征在于, 游戲場景和通話聊天場景下音頻采樣率設(shè)置為:單聲道低采樣率,低碼率; 聞首質(zhì)無視頻聊天場景、聞首質(zhì)直播場景或聞首質(zhì)視頻聊天場景以及超聞首質(zhì)直播場景或超高音質(zhì)視頻聊天場景下音頻采樣率設(shè)置為:多聲道高采樣率,高碼率;所述高碼率為高于所述低碼率的碼率。
8.一種語音處理裝置,其特征在于,包括: 場景獲取單元,用于執(zhí)行場景模式檢測,獲取當(dāng)前的音頻應(yīng)用場景; 參數(shù)配置單元,用于配置與所述場景獲取單元獲取的音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù);音頻質(zhì)量要求越高的應(yīng)用場景對應(yīng)的音頻處理參數(shù)的標(biāo)準(zhǔn)越高; 音頻處理單元,用于按照所述參數(shù)配置單元配置的音頻處理參數(shù)對采集的音頻信號進行語音處理得到音頻編碼包; 發(fā)送單元,用于向音頻接收端發(fā)送所述音頻處理單元得到的音頻編碼包。
9.根據(jù)權(quán)利要求8所述裝置,其特征在于,在音頻處理設(shè)備中預(yù)置有各音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù),各音頻應(yīng)用場景對應(yīng)不同的音頻質(zhì)量; 所述參數(shù)配置單元,用于依據(jù)預(yù)置的各音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù),配置與所述音頻應(yīng)用場景對應(yīng)的音頻處理參數(shù)。
10.根據(jù)權(quán)利要求8或9所述裝置,其特征在于, 所述參數(shù)配置單元,用于配置的音頻處理參數(shù)包括:音頻采樣率、聲學(xué)回聲抵消是否開啟、噪聲抑制是否開啟、噪聲衰減的強度、自動增益控制是否開啟、語音活性檢測是否開啟、靜音幀數(shù)、編碼碼率、編碼復(fù)雜度、前向糾錯是否開啟、網(wǎng)絡(luò)封包方式、網(wǎng)絡(luò)包發(fā)送方式中的至少一項。
11.根據(jù)權(quán)利要求10所述裝置,其特征在于, 所述音頻處理單元,用于若當(dāng)前開啟有背景音,則確定是否為麥克風(fēng)輸入的音頻,如是麥克風(fēng)輸入的音頻則進行數(shù)字信號處理,在對麥克風(fēng)輸入的音頻流進行數(shù)字信號處理完畢后與背景音進行混音、音頻編碼以及打包得到音頻編碼包;若不是麥克風(fēng)輸入的音頻則在音頻采集完畢后進行混音、音頻編碼以及打包得到音頻編碼包;若當(dāng)前未開啟背景音,則采集的音頻信號進行數(shù)字信號處理得到音頻幀,對得到的音頻幀進行語音活性檢測確定是否為靜音幀,對非靜音幀進行音頻編碼并打包得到音頻編碼包。
12.根據(jù)權(quán)利要求11所述裝置,其特征在于, 所述音頻處理單元,用于進行的所述數(shù)字信號處理包括:進行音頻信號預(yù)處理、回聲消除、噪聲抑制、自動增益控制中的至少一項。
13.根據(jù)權(quán)利要求10所述裝置,其特征在于,所述場景獲取單元,用于獲取的音頻應(yīng)用場景包括:游戲場景、通話聊天場景、高音質(zhì)無視頻聊天場景、高音質(zhì)直播場景或高音質(zhì)視頻聊天場景、超高音質(zhì)直播場景或超高音質(zhì)視頻聊天場景中的至少一項; 所述參數(shù)配置單元,用于配置的音頻處理參數(shù)包括: 游戲場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消開啟、噪聲抑制開啟、噪聲衰減的強度強、自動增益控制開啟、語音活性檢測開啟、靜音幀數(shù)多、編碼碼率低、編碼復(fù)雜度高、前向糾錯開啟、網(wǎng)絡(luò)封包方式為2個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā); 通話聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消開啟、噪聲抑制開啟、噪聲衰減的強度低、自動增益控制開啟、語音活性檢測開啟、靜音幀數(shù)低、編碼碼率低、編碼復(fù)雜度高、前向糾錯開啟、網(wǎng)絡(luò)封包方式為3個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā); 高音質(zhì)無視頻聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消開啟、噪聲抑制開啟、噪聲衰減的強度低、自動增益控制開啟、語音活性檢測開啟、靜音幀數(shù)低、編碼碼率默認(rèn)值、編碼復(fù)雜度默認(rèn)值、前向糾錯開啟、網(wǎng)絡(luò)封包方式為I個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā); 高音質(zhì)直播場景或高音質(zhì)視頻聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消是關(guān)閉、噪聲抑制關(guān)閉、自動增益控制關(guān)閉、語音活性檢測關(guān)閉、編碼碼率默認(rèn)值、編碼復(fù)雜度默認(rèn)值、前向糾錯開啟、網(wǎng)絡(luò)封包方式為I個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為雙發(fā); 超高音質(zhì)直播場景或超高音質(zhì)視頻聊天場景下音頻處理參數(shù)設(shè)置為:聲學(xué)回聲抵消關(guān)閉、噪聲抑制關(guān)閉、自動增益控制關(guān)閉、語音活性檢測關(guān)閉、編碼碼率高、編碼復(fù)雜度默認(rèn)值、前向糾錯關(guān)閉、網(wǎng)絡(luò)封包方式為I個音頻幀封I個音頻編碼包、網(wǎng)絡(luò)包發(fā)送方式為單發(fā)。
14.根據(jù)權(quán)利要求13所述裝置,其特征在于, 所述參數(shù)配置單元,用于配置的音頻處理參數(shù)包括:游戲場景和通話聊天場景下音頻采樣率設(shè)置為:單聲道低采樣率,低碼率;高音質(zhì)無視頻聊天場景、高音質(zhì)直播場景或高音質(zhì)視頻聊天場景以及超高音質(zhì)直播場景或超高音質(zhì)視頻聊天場景下音頻采樣率設(shè)置為:多聲道高采樣率,高碼率;所述高碼率為高于所述低碼率的碼率。
【文檔編號】G10L21/02GK103617797SQ201310661273
【公開日】2014年3月5日 申請日期:2013年12月9日 優(yōu)先權(quán)日:2013年12月9日
【發(fā)明者】劉洪
申請人:騰訊科技(深圳)有限公司