專(zhuān)利名稱(chēng):在通信網(wǎng)絡(luò)中從話音頻帶數(shù)據(jù)中鑒別語(yǔ)音的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,更具體地涉及在通信網(wǎng)絡(luò)中從話音頻帶中鑒別語(yǔ)音的方法和設(shè)備。
眾所周知在通信網(wǎng)絡(luò)中鑒別語(yǔ)音與例如發(fā)自調(diào)制解調(diào)器或傳真機(jī)的話音頻帶數(shù)據(jù)的能力可以改善網(wǎng)絡(luò)效率和/或保證業(yè)務(wù)要求的質(zhì)量。例如,盡管常規(guī)電話網(wǎng)絡(luò)的每個(gè)信道攜帶64kbps,無(wú)論信道攜帶語(yǔ)音或VBD,在電話網(wǎng)絡(luò)信道與高帶寬綜合業(yè)務(wù)通信系統(tǒng)之間的接口處,例如在ATM(異步轉(zhuǎn)移模式)集群設(shè)備或IP(互聯(lián)網(wǎng)協(xié)議)電話網(wǎng)絡(luò)網(wǎng)關(guān),語(yǔ)音可以被壓縮到例如8kbps或5.3kbps。因此,因?yàn)樵谶@種接口設(shè)備上所接收的業(yè)務(wù)類(lèi)型可以指示所執(zhí)行的信號(hào)處理,所以已經(jīng)提出了幾種鑒別語(yǔ)音和VBD信號(hào)的技術(shù)。這種技術(shù)常規(guī)地依賴(lài)于在連續(xù)信號(hào)段之間從VDB中鑒別語(yǔ)音的參數(shù),例如零點(diǎn)交叉速率,信號(hào)極數(shù),高/低頻率功率速率,和/或功率變化。
盡管鑒語(yǔ)音和VBD信號(hào)的常規(guī)技術(shù)一般實(shí)現(xiàn)相對(duì)低速率VBD的低錯(cuò)誤率,對(duì)于在高速VBD傳輸中鑒別語(yǔ)音這種技術(shù)的錯(cuò)誤率明顯增加,例如來(lái)自使用更高碼元速率和復(fù)雜編碼/調(diào)制技術(shù)并產(chǎn)生具有與低速傳輸不同的許多特性的信號(hào)的V.32,V.32bis,V.34和V.90調(diào)制解調(diào)器。對(duì)于高速VBD,因?yàn)樵S多參數(shù)值的分配例如零點(diǎn)交叉速率,信號(hào)極數(shù),和功率變化往往與語(yǔ)音參數(shù)值重疊而出現(xiàn)更高的錯(cuò)誤率。
本發(fā)明是根據(jù)至少表示輸入信號(hào)段的周期性特性的自相似性比值(SSR)、表示輸入信號(hào)段頻譜特性以產(chǎn)生語(yǔ)音/VBD鑒別結(jié)果的自相關(guān)系數(shù)之一,在通信網(wǎng)絡(luò)中鑒別語(yǔ)音和VBD的一種方法和一個(gè)設(shè)備。
通常,話音語(yǔ)音特性在于相對(duì)高能量的成分和周期性即音調(diào)(pitch),非話音語(yǔ)音呈現(xiàn)很少或沒(méi)有周期性,而出現(xiàn)在話音和非話音語(yǔ)音段之間的過(guò)渡段通常具有話音和非話音語(yǔ)音兩者的特性在正常傳輸期間,對(duì)高速VBD進(jìn)行加擾,編碼,和調(diào)制,因此如同噪聲一樣呈現(xiàn)無(wú)周期性。某些低速VBD信號(hào)例如在啟動(dòng)過(guò)程中使用的控制信號(hào)呈現(xiàn)周期性。本發(fā)明通過(guò)確認(rèn)周期性的VBD信號(hào)一般具有比話音語(yǔ)音更快的重復(fù)速率并計(jì)算短期延遲和長(zhǎng)期延遲SSR值指示輸入信號(hào)幀的重復(fù)速率來(lái)鑒別周期性語(yǔ)音和VBD信號(hào)。
本發(fā)明也確認(rèn)對(duì)輸入幀周期性特征的分析可能不能保證準(zhǔn)確的語(yǔ)音/VBD鑒別,而輸入幀的某些頻譜特性可以顯示輸入幀是否是語(yǔ)音或VBD。例如,典型的調(diào)制解調(diào)器/傳真機(jī)使用的載波頻率在一個(gè)窄范圍內(nèi),反之語(yǔ)音是通常呈現(xiàn)功率頻譜中大變化的非靜態(tài)隨機(jī)信號(hào)。本發(fā)明計(jì)算短期自相關(guān)系數(shù)以確定輸入幀的頻譜包絡(luò)有助于準(zhǔn)確鑒別語(yǔ)音/VBD。
按照本發(fā)明的一個(gè)實(shí)施例,本發(fā)明的語(yǔ)音/VBD鑒別技術(shù)是以連續(xù)判決邏輯算法實(shí)施的,該算法通過(guò)確認(rèn)在通信媒體上從語(yǔ)音到VBD或相反方向的變化不可靠而改善了分類(lèi)性能。因此,在根據(jù)SSR值和/或自相關(guān)系數(shù)已經(jīng)對(duì)預(yù)定數(shù)量幀進(jìn)行分類(lèi)后,連續(xù)判決邏輯算法進(jìn)入“語(yǔ)音狀態(tài)”或“VBD狀態(tài)”,在這些狀態(tài)中除非一定數(shù)量的連續(xù)分類(lèi)結(jié)果表明當(dāng)前狀態(tài)是錯(cuò)誤的,語(yǔ)音/VBD鑒別輸出不改變。在本發(fā)明的一個(gè)示范性實(shí)施例中,連續(xù)判決邏輯算法減弱了對(duì)相對(duì)低功率信號(hào)部分的鑒別結(jié)果,該部分信號(hào)更容易被錯(cuò)誤影響,而改善了鑒別準(zhǔn)確性。
根據(jù)下列詳細(xì)說(shuō)明和附圖,本發(fā)明的其它方面和優(yōu)點(diǎn)將變得更清楚,其中
圖1是按照本發(fā)明的實(shí)施例用于鑒別語(yǔ)音和VBD信號(hào)的設(shè)備的方框圖;圖2是流程圖,表示按照本發(fā)明的實(shí)施例根據(jù)SSR值和自相關(guān)系數(shù)鑒別語(yǔ)音/VED;和圖3A-3C是流程圖,表示按照本發(fā)明的實(shí)施例用于將輸入信號(hào)段分類(lèi)成為語(yǔ)音或VBD的連續(xù)判決邏輯算法。
本發(fā)明是一種方法和設(shè)備,用于在通信網(wǎng)絡(luò)中鑒別語(yǔ)音和VBD。圖1是總方框圖,表示按照本發(fā)明實(shí)施例的示范性語(yǔ)音/VBD鑒別器100,本發(fā)明可以在網(wǎng)絡(luò)接口設(shè)備中實(shí)施,例如ATM集群設(shè)備或IP電話網(wǎng)絡(luò)網(wǎng)關(guān)。如圖1所示,語(yǔ)音/VBD鑒別器包括一個(gè)輸入幀緩存器,一個(gè)高通濾波器120和一個(gè)語(yǔ)音/VBD鑒別單元130。應(yīng)當(dāng)確認(rèn),結(jié)構(gòu)圖1的總方框圖表示了多個(gè)分離元件,VBD/鑒別器100可以各種方式實(shí)現(xiàn),例如以軟件驅(qū)動(dòng)的處理器,例如數(shù)字信號(hào)處理器(DSP),以可編程邏輯設(shè)備,以使用特定集成電路,或以實(shí)現(xiàn)設(shè)備的組合實(shí)現(xiàn)。
輸入緩存器110接收輸入信號(hào),例如來(lái)自以8kHz時(shí)鐘速率對(duì)常規(guī)電話網(wǎng)絡(luò)信道的信號(hào)進(jìn)行采樣的網(wǎng)卡,將每幀N個(gè)連續(xù)語(yǔ)音樣本的幀緩存。名義上由輸入幀緩存器所接收的輸入信號(hào)已經(jīng)以8kHz時(shí)鐘速率被采樣,幀的尺寸在10毫秒(即N=80樣本以8kHz采樣速率)到30毫秒(即N=240樣本以8kHz采樣速率)范圍,而16位線性二進(jìn)制字代表輸入采樣的幅度(即輸入采樣比多于215)。高通濾器120濾除N個(gè)采樣的每個(gè)幀以從中消除DC成分。因?yàn)镈C信號(hào)成分只有很少對(duì)鑒別語(yǔ)音/VBD有用的信息并且當(dāng)計(jì)算上面所討論的信號(hào)特征值時(shí)可以引起偏置誤差,所以對(duì)輸入幀進(jìn)行高通濾波。由高通濾波器120使用的以Z變換域表示的示范性濾波器傳遞函數(shù)表示如下 其中(Z-1=e-jw)。語(yǔ)音/VBD識(shí)別單元130接收高通濾波器120的輸出,并以下面更詳細(xì)地描述的方式執(zhí)行語(yǔ)音/VBD鑒別。
通常,語(yǔ)音包括話音區(qū),該區(qū)特征為相對(duì)高能量?jī)?nèi)容和周期性(一般稱(chēng)為“音調(diào)”),非話音區(qū)只有很少或沒(méi)有周期性,而過(guò)渡區(qū)出現(xiàn)在話音和非話音區(qū)之間而因此具有話音和非話音兩者的特性。在正常傳輸期間,對(duì)高速VBD加擾,編碼和調(diào)制,由此呈現(xiàn)為沒(méi)有周期性的噪聲。某些低速VBD信號(hào)例如在啟動(dòng)過(guò)程中使用的控制信號(hào)呈現(xiàn)周期性。
本發(fā)明認(rèn)為呈現(xiàn)周期性的VBD信號(hào)一般具有比話音語(yǔ)音更快的重復(fù)率,和也認(rèn)為某些頻譜特性可以有效地用于鑒別VBD和語(yǔ)音。例如,由典型的調(diào)制解調(diào)器/傳真使用的載波頻率在一個(gè)窄范圍內(nèi),例如在1kHz到3kHz之間,以致VBD信號(hào)的功率譜以載波頻率為中心,例如一般中心大約為1kHz。另一方面,語(yǔ)音是非靜態(tài)的隨機(jī)信號(hào),一般呈現(xiàn)大的功率譜變化。本發(fā)明計(jì)算短期自相關(guān)系數(shù)以確定輸入信號(hào)的頻譜特性而輔助語(yǔ)音/VBD鑒別。為能夠按照這些原理鑒別語(yǔ)音/VBD,語(yǔ)音/VBD鑒別單元130對(duì)每個(gè)緩存和濾波后的N采樣幀執(zhí)行下面描述的計(jì)算。
語(yǔ)音/VDB單元鑒別單元130利用N個(gè)采樣的窗口以下式計(jì)算輸入幀短期功率,Ps 其中n是幀數(shù)量,而x(i)是采樣I的幅度,語(yǔ)音/VBD鑒別單元130也計(jì)算SSR值以計(jì)量連續(xù)信號(hào)段之間的相似性。更具體地,對(duì)每個(gè)幀進(jìn)行兩個(gè)單獨(dú)的SSR計(jì)算以提取它們的周期性特性。SSR1(n)代表對(duì)如下計(jì)算出的相對(duì)小采樣延遲范圍的SSR,按如下計(jì)算SSR1(n)Max{COL(n,j)} 3≤j≤17公式(3)其中j是采樣延遲,并如下計(jì)算COL(n,j) SSR2(n)代表對(duì)相對(duì)大采樣延遲范圍的SSR,計(jì)算如下SSR2(n)=Max{COL(n,j)} 18≤j≤143 (5)對(duì)于話音語(yǔ)音,延遲即引起最大(max)SSR的j的值被估計(jì)為音調(diào)(或其倍數(shù))。人類(lèi)話音的音調(diào)一般在2.225毫秒到17.7毫秒范圍或以8kHz采樣信號(hào)的18-122個(gè)采樣。因此,如果SSR2(n)大于某個(gè)閾值,往往表示對(duì)應(yīng)的幀是話音語(yǔ)音。如果SSR1(n)是大的值,可是,輸入信號(hào)幀可以是具有高重復(fù)率的非語(yǔ)音靜態(tài)信號(hào)。
語(yǔ)音/VBD鑒別單元130也計(jì)算自相關(guān)系數(shù),該系數(shù)代表感興趣幀的某些頻譜特性。因?yàn)樾盘?hào)自相關(guān)函數(shù)是其功率譜的反付氏變換,短期自相關(guān)函數(shù)或低延遲自相關(guān)系數(shù)代表了幀的頻譜包絡(luò)。本發(fā)明使用分別具有2、3和4采樣延遲的三個(gè)自相關(guān)系數(shù),來(lái)分析感興趣幀的頻譜特性。對(duì)于具有k個(gè)采樣延遲使用N個(gè)連續(xù)采樣窗口的輸入幀以下式表示 為建立信號(hào)功率譜與自相關(guān)系數(shù)之間的關(guān)系,可以假設(shè)輸入信號(hào)是如下表示的單音x(k)=A*sin(2*π*f*k/fs+Θ)公式(7)其中fs=8kHz,和k=0,1,2,……。在此情況下,具有兩個(gè)采樣延遲的自相關(guān)系數(shù)R2d如下R2d=COS(4*π*f/fs) (8)根據(jù)公式(8),可以看出對(duì)于1kHz<f<3kHz的R2d將是負(fù)數(shù)。大多數(shù)VBD載波頻率位于該范圍。如果輸入是單音,或具有圍繞2kHz為中心功率譜的窄帶信號(hào),則R2d將幾乎是-1。另一方面,如果輸入信號(hào)是具有圍繞0kHz或4kHz為中心功率譜的單音或窄帶信號(hào),則R2d幾乎是+1。
按照公式(7),R3d和R4d可以分別如下計(jì)算出R3d=COS(6*π*f/fs) (9)R2d=COS(8*π*f/fs) (10)根據(jù)公式(9),可以看出當(dāng)輸入信號(hào)是具有圍繞1.33kHz接近4kHz或兩者為中心的功率譜的窄帶信號(hào),R3d接近是-1。如果R4d接近-1,則輸入信號(hào)應(yīng)當(dāng)是具有圍繞1kHz、3kHz或兩者的為中心的功率譜的窄帶信號(hào)。因此,R3d和R4d是對(duì)于將單音、多音和非常低速VBD即由許多傳真/調(diào)制解調(diào)器系統(tǒng)使用的那些信號(hào)與語(yǔ)音鑒別的有效參數(shù)。作為一個(gè)實(shí)際示例,V.21,300bps,F(xiàn)SK雙工調(diào)制解調(diào)器對(duì)于不同方向傳輸使用不同載波頻率(H,L)。較低信道V.21(L)具有標(biāo)稱(chēng)平均頻率1080Hz和帶有+/-100Hz的頻率偏移。根據(jù)公式(10),這種傳輸產(chǎn)生f=1180HzR4d=COS(8*1180*π/80000)=-0.844;f=980Hz R4d=COS(8*980*π/80000)=-0.998;因此,V.21(L)信號(hào)的R4d值將少于-0.80。較高信道V.21(H)具有1750Hz的標(biāo)稱(chēng)平均頻率和帶有+/-100Hz的偏移。根據(jù)公式(8),V.21(H)信號(hào)的R2d將也少于-0.8。
如同另一個(gè)示例,V.22,600Hz碼元速率的QPSK/DPSK雙工調(diào)制解調(diào)器對(duì)其較低信道使用1200Hz載波而對(duì)其較高信道使用2400Hz載波和1800Hz保護(hù)單音。對(duì)于V.22(L)信號(hào),根據(jù)公式(9),具有f=1200Hz,R3d=COS(6*1200*π/8000)=-0.95因此,R3d將接近-1。V.22(H)信號(hào)的R2d也將少于-0.8。
圖2表示了使用上述計(jì)算出的特性對(duì)將單一輸入幀分類(lèi)為語(yǔ)音或VBD的“初步判決”系列。在計(jì)算出上述Ps,SSR1,SSR2,R2d,R3d和R4d之后(步驟150),語(yǔ)音/VBD鑒別單元130開(kāi)始嘗試將感興趣的幀根據(jù)R2d分類(lèi)為語(yǔ)音或/VBD(步驟152)。具體地,如果R2d少于或等于低閾值TR2L,例如TR2L=-0.75,輸入幀將被分類(lèi)為VBD。如果R2d大于或等于高閾值TR2H,例如TR2H=0.55,輸入幀被分類(lèi)為語(yǔ)音。
如果R2d在TR2L和TR2H之間,則語(yǔ)音/VBD鑒別單元130接著嘗試根據(jù)SSR1完成鑒別結(jié)論(步驟158)。具體地,如果SSR1大于或等于第一相似性閾值TS1,例如TS1=0.96,輸入幀被分類(lèi)為VBD。如果SSR1小于TS1,語(yǔ)音/VBD鑒別單元130接著試圖根據(jù)R3d和R4d鑒別(步驟162)。具體地,如果R3d小于或等于閾值TR3,例如TR3=-0.8,如果R4d少于或等于閾值TR4,例如TR4=-0.85,或如果R3d+R4d少于或等于閾值TR34,例如TR34=-1.73,輸入幀被分類(lèi)為VBD。
如果這些條件沒(méi)有一個(gè)滿足,語(yǔ)音/VBD鑒別單元130接著試圖根據(jù)SSR2鑒別(步驟166)。具體地,如果SSR2大于或等于閾值TS2,例如TR2=0.51,輸入幀被分類(lèi)為語(yǔ)音。如果SSR2小于TS2,輸入幀被分類(lèi)為VBD。
認(rèn)為一旦幀被分類(lèi)為語(yǔ)音或VBD,緊接著的幀將具有相同分類(lèi),按照本發(fā)明實(shí)施例用連續(xù)判決邏輯算法實(shí)現(xiàn)上述語(yǔ)音/VBD鑒別技術(shù)以改善判決可靠性。
圖3A-3C是流程圖,該圖表示由語(yǔ)音/VBD鑒別單元130鑒別語(yǔ)音和VBD而實(shí)現(xiàn)的示范性連續(xù)判決邏輯算法。圖3A-3C所示的連續(xù)判決邏輯算法必須具有六個(gè)狀態(tài)(1)初始狀態(tài);(2)單個(gè)幀被分類(lèi)為語(yǔ)音或VBD的確定狀態(tài);(3)分類(lèi)結(jié)果保持為語(yǔ)音直到后續(xù)分類(lèi)結(jié)果表示語(yǔ)音狀態(tài)是錯(cuò)誤的語(yǔ)音狀態(tài);(4)在進(jìn)入語(yǔ)音狀態(tài)后出現(xiàn)低功率周期的“過(guò)去是語(yǔ)音狀態(tài)”;(5)分類(lèi)結(jié)果保持為VBD直到后續(xù)分類(lèi)結(jié)果表示VBD狀態(tài)是錯(cuò)誤的VBD狀態(tài);(6)在進(jìn)入VBD狀態(tài)后出現(xiàn)低功率周期的“過(guò)去是VBD”狀態(tài)。根據(jù)下面的說(shuō)明這些分類(lèi)狀態(tài)的意義將更明顯。
參照?qǐng)D3A,在初始步驟期間,在連續(xù)判決邏輯算法中使用的每個(gè)計(jì)數(shù)器被設(shè)置為0(步驟202)。接著,鑒別單元130對(duì)感興趣幀計(jì)算Ps(步驟204),并確定Ps是否大于或等于能量閾值ETh1(步驟206)。當(dāng)Ps小于ETh1時(shí),鑒別單元不試圖確定該幀是否為語(yǔ)音或VBD,而反之返回步驟204以計(jì)算下個(gè)幀的Ps。換句話說(shuō),鑒別單元130不開(kāi)始試圖將輸入幀分類(lèi)為語(yǔ)音或VBD,直到Ps達(dá)到Eth1。連續(xù)判決邏輯算法保持在初始狀態(tài)直到Ps達(dá)到ETh1。
當(dāng)鑒別單元130確定Ps大于或答應(yīng)ETh1時(shí),連續(xù)判決邏輯算法進(jìn)入確定狀態(tài),在該狀態(tài)中語(yǔ)音/VBD鑒別單元130對(duì)感興趣的幀計(jì)算鑒別特征值(步驟208)并且決定這些鑒別特征值表示感興趣的幀是否是語(yǔ)音或VBD(步驟210)。換句話說(shuō),鑒別單元130執(zhí)行上面參照?qǐng)D2討論的初始判決邏輯,以將感興趣的幀分類(lèi)為語(yǔ)音或VBD。當(dāng)感興趣的幀被分類(lèi)為語(yǔ)音時(shí),語(yǔ)音計(jì)數(shù)器Spc遞進(jìn)1(步驟212),并將Spc比喻為語(yǔ)音計(jì)數(shù)閾值Spy,例如Spy=1(步驟214)。如果Spc小于Spy,連續(xù)判決邏輯保持在確定狀態(tài),而鑒別單元130對(duì)下個(gè)幀計(jì)算鑒別特征值(步驟208)。如果Spc至少等于Spy,連續(xù)判決邏輯進(jìn)入語(yǔ)音狀態(tài),將參照下面圖3B描述該狀態(tài)。
如果在步驟210輸入幀被分類(lèi)為VBD,VBD計(jì)數(shù)器Mdc將遞增1(步驟216),而Mdc被比喻為VBD計(jì)數(shù)閾值Mdy,例如Mdy=4。如果Mdc小于Mdy,連續(xù)判決邏輯保持在確定狀態(tài),而且鑒別單元130計(jì)算下個(gè)幀的鑒別特征值(步驟208)。如果Mdc至少等于Mdy,連續(xù)判決邏輯進(jìn)入VBD狀態(tài),將參照下面圖3C詳細(xì)描述。按照?qǐng)D3B所示的連續(xù)判決邏輯,在預(yù)定數(shù)量的幀已經(jīng)按照SSR和/或自相關(guān)系數(shù)被分類(lèi)為語(yǔ)音/VBD之后,以致連續(xù)判決邏輯算法進(jìn)入語(yǔ)音/VBD狀態(tài),語(yǔ)音/VBD鑒別輸出不改變,直到一定數(shù)量的后續(xù)分類(lèi)結(jié)果表示語(yǔ)音/VBD狀態(tài)是錯(cuò)誤的。
參照?qǐng)D3B,當(dāng)連續(xù)判決邏輯進(jìn)入語(yǔ)音狀態(tài)(步驟230)時(shí),對(duì)下個(gè)幀計(jì)算Ps(步驟204)和與能量閾值ETh1比較(步驟234)。如果Ps至少等于ETh1,一個(gè)靜默計(jì)數(shù)器Sic被設(shè)置為0(步驟236),和語(yǔ)音/VBD鑒別單元130計(jì)算下個(gè)幀的鑒別特征值(步驟238)以便輸入幀可以被分類(lèi)為語(yǔ)言或VBD(步驟240),即執(zhí)行“初始判決”。如果在步驟240輸入幀被分類(lèi)為語(yǔ)音,VBD計(jì)數(shù)器Mdc被除以2(步驟242),連續(xù)判決邏輯保持在語(yǔ)音狀態(tài),而分類(lèi)序列返回到步驟230以便鑒別單元130對(duì)下個(gè)幀計(jì)算Ps。在步驟240如果輸入幀被認(rèn)為VBD,VBD計(jì)數(shù)器Mdc遞增“功率補(bǔ)償?shù)摹边f增值x(下面詳細(xì)描述)(步驟244),而Mdc與VBD昨天改變閾值Mdx比較,例如Mdx=8(步驟246)。如果Mdc至少等于Mdx,連續(xù)判決邏輯保持在語(yǔ)音狀態(tài),和判決序列返回到步驟232,以便語(yǔ)音/VBD鑒別單元130對(duì)下個(gè)幀計(jì)算Ps。可是,當(dāng)Mdc至少等于Mdx時(shí),VBD計(jì)數(shù)器Mdc被重新設(shè)置為0(步驟248),和連續(xù)判決邏輯切換到VBD狀態(tài)。
當(dāng)語(yǔ)音/VBD鑒別單元130在步驟234確定Ps少于Ethl時(shí),靜默計(jì)數(shù)器Sic遞增1(步驟250)并被比喻為靜默計(jì)數(shù)器閾值Siy,例如Siy=8(步驟252)。如果Sic沒(méi)有達(dá)到Siy,連續(xù)判決邏輯保持在語(yǔ)音狀態(tài),和前進(jìn)到步驟238以便鑒別單元130計(jì)算感興趣的幀的鑒別值??墒钱?dāng)Sic達(dá)到Siy時(shí),連續(xù)判決邏輯進(jìn)入“過(guò)去是語(yǔ)音”狀態(tài),該狀態(tài)將參照流程圖塊253到257描述。在“過(guò)去是語(yǔ)音”狀態(tài),鑒別單元130對(duì)下個(gè)幀開(kāi)始計(jì)算Ps(步驟253),和比較Ps與能量閾值ETh1(步驟254)。如果Ps大于或等于ETh1,靜默計(jì)數(shù)器Sic被重新設(shè)置為0(步驟255)和連續(xù)判決邏輯返回到語(yǔ)音狀態(tài)步驟238。在步驟254當(dāng)鑒別單元130確定Ps小于ETh1時(shí),靜默計(jì)數(shù)器Sic遞增1(步驟256)和Sic被比喻為第二靜默計(jì)數(shù)器閾值Six(步驟257),例如Six=200。如果Sic沒(méi)有達(dá)到Six,連續(xù)判決邏輯保持在“過(guò)去是語(yǔ)音”狀態(tài),和在步驟253對(duì)下個(gè)幀計(jì)算Ps。當(dāng)Sic達(dá)到Six時(shí),連續(xù)判決邏輯返回到步驟202的其初始狀態(tài),即發(fā)生重新設(shè)置。
接著參照?qǐng)D3C,可以看出連續(xù)判決邏輯在VBD狀態(tài)期間以與針對(duì)圖3B所述語(yǔ)音狀態(tài)相類(lèi)似的方式工作。具體地,在根據(jù)步驟218或步驟246的鑒別進(jìn)入VBD狀態(tài)(步驟260)后,鑒別單元130對(duì)下個(gè)幀計(jì)算Ps(步驟262)和比較Ps與能量閾值ETh1(步驟264)。如果Ps大于或等于ETh1,靜默計(jì)數(shù)器Sic被設(shè)置等于0(步驟265),和鑒別單元130根據(jù)圖2的“初始判決”確定感興趣的幀是否為語(yǔ)音或VBD(步驟270)。如果鑒別單元130在步驟270確定感興趣的幀是VBD,語(yǔ)音計(jì)數(shù)器Spc被除以二(步驟272),連續(xù)判決邏輯保持在VBD狀態(tài),和對(duì)下個(gè)幀計(jì)算Ps(步驟262)。如果鑒別單元130在步驟270確定感興趣的幀是語(yǔ)音,語(yǔ)音計(jì)數(shù)器Spc遞增一個(gè)“功率補(bǔ)償?shù)摹边f增值X(步驟274),和比較Spc與語(yǔ)音計(jì)數(shù)器閾值SPX,例如SPX=4(步驟276)。如果Spc不是至少等于SPX,連續(xù)判決邏輯保持在VBD狀態(tài)和返回到步驟262以便鑒別單元130對(duì)下個(gè)幀計(jì)算Ps。如果在步驟276Spc被確定為至少等于SPX,語(yǔ)音計(jì)數(shù)器Spc被重新設(shè)置為0(步驟278)和連續(xù)判決邏輯進(jìn)入上面參照?qǐng)D3B討論的語(yǔ)音狀態(tài)。
當(dāng)在步驟264,Ps小于ETh1時(shí),靜默計(jì)數(shù)器Sic遞增1(步驟280)和比較靜默計(jì)數(shù)器閾值Siy(步驟282)。如果Sic不是至少等于Siy,連續(xù)判決邏輯保持在VBD狀態(tài)和前進(jìn)到步驟268以對(duì)感興趣的幀計(jì)算鑒別特征值。可是在步驟282當(dāng)Sic達(dá)到Siy時(shí),連續(xù)判決邏輯進(jìn)入“過(guò)去是VBD”狀態(tài),接著參照?qǐng)D3C所示塊283-287描述。
具體地,鑒別單元130對(duì)下個(gè)幀計(jì)算Ps(步驟283)和比較Ps與ETh1(步驟284)。如果Ps大于或等于ETh1,靜默計(jì)數(shù)器Sic被重新設(shè)置為0(步驟285),和連續(xù)判決邏輯返回到VBD狀態(tài)的步驟268以對(duì)感興趣的幀計(jì)算鑒別特征值。在步驟284當(dāng)Ps小于ETh1時(shí),靜默計(jì)數(shù)器Sic遞增1(步驟286)和Sic與第二靜默計(jì)數(shù)器閾值Six比較(步驟287)。在步驟287當(dāng)Sic被確定少于Six時(shí),連續(xù)判決邏輯保持在“過(guò)去是VBD”狀態(tài)和對(duì)下個(gè)幀計(jì)算Ps(步驟283)。在步驟287當(dāng)Sic達(dá)到Six時(shí),可是,連續(xù)判決邏輯返回到步驟202的初始狀態(tài)。
對(duì)于參照語(yǔ)音狀態(tài)和VBD狀態(tài)判決邏輯所討論的“功率補(bǔ)償?shù)摹边f增值x,本發(fā)明認(rèn)為對(duì)于相對(duì)低功率信號(hào)部分語(yǔ)音與VBD之間的鑒別更傾向是錯(cuò)誤的。對(duì)于語(yǔ)音,低功率信號(hào)部分可以是非話音語(yǔ)音或語(yǔ)音之間的間隔。對(duì)于VBD,低功率部分可以代表傳輸之間的間隔,或在握手過(guò)程期間的等待時(shí)間段。這些信號(hào)部分更傾向于受噪聲和串音影響,因?yàn)榈托盘?hào)功率產(chǎn)生低的信噪比。因此,當(dāng)連續(xù)判決邏輯從語(yǔ)音狀態(tài)切換到VBD狀態(tài)或相反時(shí),用于控制的“功率補(bǔ)償?shù)摹边f增值x是Ps的函數(shù)。對(duì)于相對(duì)低Ps,指定小的x。反之,使用較大Ps。另外的適當(dāng)功率閾值ETh2用于確定是否使用相對(duì)大或小的x值。ETh2的計(jì)算如下Pmax=max(α·Pmax,Ps(n))ETh2β·Pmax,公式(11)ETh2∈[Ebnd,Ebup]其中Ebup和Ebnd分別是ETh2的上限和下限。Ebnd可以小到ETh1幾倍,例如Ebnd=10*ETh1,而Ebup可以是例如=1.2*107。符號(hào)α代表常數(shù),該常數(shù)接近1,例如α=0.995,和β也是常數(shù)可以在1/50到/10之間,例如β=1/12。PMAX是該信號(hào)峰值功率的運(yùn)行期間估計(jì)值。
使用ETh2,“功率補(bǔ)償?shù)摹弊兞縳可以如下確定If Ps<ETh1x=0Else if Ps<ETh2x=γ公式(12)Else x=1其中γ是在
范圍的常數(shù),例如γ=0.2。應(yīng)當(dāng)意識(shí)到可以為不同應(yīng)用改變上述鑒別技術(shù)。例如,上面討論的某些參數(shù)可以根據(jù)單個(gè)系統(tǒng)的要求調(diào)節(jié),例如如果系統(tǒng)需要快速判決,或極低的錯(cuò)分類(lèi)比率。
前述僅說(shuō)明本發(fā)明的原理。本領(lǐng)域技術(shù)人員能夠設(shè)計(jì)出沒(méi)有在此明確描述或表示但包含本發(fā)明原理而因此屬于本發(fā)明范圍的各種設(shè)計(jì)。
權(quán)利要求
1.一種在通信網(wǎng)絡(luò)中從話音頻帶數(shù)據(jù)中鑒別語(yǔ)音的方法,包括對(duì)一個(gè)輸入信號(hào)段計(jì)算至少一個(gè)代表周期性特性的自相似比值和一個(gè)代表頻譜特性的自相關(guān)系數(shù)值之一;和根據(jù)至少所述自相似值和所述自相關(guān)系數(shù)值之一確定所述輸入信號(hào)段是否是語(yǔ)音或話音頻帶數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所限定的發(fā)明,其中所述輸入信號(hào)段是N個(gè)采樣的一個(gè)幀。
3.根據(jù)權(quán)利要求1所限定的發(fā)明,其中所述計(jì)算步驟計(jì)算一個(gè)對(duì)應(yīng)一個(gè)第一采樣延遲的第一自相似比值作為一個(gè)第一周期性特性值;和所述確定步驟確定如果所述第一自相似比值大于第一相似性閾值則所述輸入信號(hào)段是話音頻帶數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所限定的發(fā)明,其中所述計(jì)算步驟計(jì)算一個(gè)對(duì)應(yīng)一個(gè)第二采樣延遲的第二自相似比值作為一個(gè)第二周期性特性值,所述第二采樣延遲大于所述第一采樣延遲;和所述確定步驟確定如果所述第二自相似比值大于一個(gè)第二相似性閾值,則所述輸入信號(hào)段是語(yǔ)音。
5.根據(jù)權(quán)利要求1所限定的發(fā)明,其中所述計(jì)算步驟計(jì)算一個(gè)第一自相關(guān)系數(shù)作為一個(gè)第一頻譜特性值;和所述確定步驟確定如果所述第一自相關(guān)系數(shù)小于一個(gè)第一自相關(guān)閾值,則所述輸入信號(hào)段是話音頻帶數(shù)據(jù),如果所述自相關(guān)系數(shù)大于一個(gè)第二自相關(guān)閾值,則所述輸入信號(hào)段是語(yǔ)音,所述第二自相關(guān)閾值大于所述第一自相關(guān)閾值。
6.根據(jù)權(quán)利要求5所限定的發(fā)明,其中所述計(jì)算步驟計(jì)算第二和第三自相關(guān)系數(shù)分別作為第二和第三頻譜特性值,和所述確定步驟確定如果所述第二自相關(guān)系數(shù)小于第三自相關(guān)閾值或所述第三自相關(guān)系數(shù)小于一個(gè)第四自相關(guān)閾值則所述輸入信號(hào)段是話音頻帶數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所限定的發(fā)明,其中所述確定步驟確定如果所述第二自相關(guān)系數(shù)與所述第三自相關(guān)系數(shù)的和小于一個(gè)第五自相關(guān)閾值,則所述輸入信號(hào)段是話音頻帶數(shù)據(jù)。
8.根據(jù)權(quán)利要求1所限定的發(fā)明,其中按照一個(gè)連續(xù)判決邏輯序列對(duì)多個(gè)輸入信號(hào)段執(zhí)行所述計(jì)算和確定步驟,該序列在語(yǔ)音狀態(tài)期間指定輸入信號(hào)段為語(yǔ)音而在話音頻帶數(shù)據(jù)狀態(tài)期間指定輸入信號(hào)段為話音頻帶數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所限定的發(fā)明,其中當(dāng)對(duì)多個(gè)輸入信號(hào)段的所述確定步驟結(jié)果指示所述語(yǔ)音狀態(tài)是錯(cuò)誤時(shí),所述連續(xù)判決邏輯序列從所述語(yǔ)音狀態(tài)切換到所述話音頻帶數(shù)據(jù)狀態(tài),和當(dāng)對(duì)多個(gè)輸入信號(hào)段的所述確定步驟結(jié)果指示所述話音頻帶數(shù)據(jù)狀態(tài)是錯(cuò)誤時(shí),所述連續(xù)判決邏輯序列從所述話音頻帶數(shù)據(jù)狀態(tài)切換到所述語(yǔ)音狀態(tài)。
10.根據(jù)權(quán)利要求8所限定的發(fā)明,其中根據(jù)相應(yīng)輸入信號(hào)段的能量?jī)?nèi)容對(duì)所述確定步驟的結(jié)果加權(quán),以便當(dāng)確定是否從所述語(yǔ)音狀態(tài)切換到所述話音頻帶數(shù)據(jù)狀態(tài)或從所述話音頻帶數(shù)據(jù)狀態(tài)切換到所述語(yǔ)音狀態(tài)時(shí),低能量輸入信號(hào)段的確定結(jié)果被指定相對(duì)低的權(quán)重。
11.一種在通信網(wǎng)絡(luò)中從話音頻帶數(shù)據(jù)中鑒別語(yǔ)音的設(shè)備,包括計(jì)算裝置,用于計(jì)算至少代表一個(gè)周期性特性的一個(gè)自相似比值和代表一個(gè)頻譜特性的一個(gè)自相關(guān)系數(shù)值之一;和確定裝置,用于根據(jù)所述自相似值和所述自相關(guān)系數(shù)值至少之一確定所述輸入信號(hào)段是否是語(yǔ)音或話音頻帶數(shù)據(jù)。
12.根據(jù)權(quán)利要求11所限定的發(fā)明,其中所述輸入信號(hào)段是N個(gè)采樣的一個(gè)幀。
13.根據(jù)權(quán)利要求11所限定的發(fā)明,其中所述計(jì)算裝置計(jì)算一個(gè)對(duì)應(yīng)一個(gè)第一采樣延遲的第一自相似比值作為一個(gè)第一周期性特性值;和所述確定裝置確定如果所述第一自相似比值大于第一相似性閾值則所述輸入信號(hào)段是話音頻帶數(shù)據(jù)。
14.根據(jù)權(quán)利要求13所限定的發(fā)明,其中所述計(jì)算裝置計(jì)算一個(gè)對(duì)應(yīng)一個(gè)第二采樣延遲的第二自相似比值作為一個(gè)第二周期性特性值,所述第二采樣延遲大于所述第一采樣延遲;和所述確定裝置確定如果所述第二自相似比值大于一個(gè)第二相似性閾值則所述輸入信號(hào)段是語(yǔ)音。
15.根據(jù)權(quán)利要求1所限定的發(fā)明,其中所述計(jì)算裝置計(jì)算一個(gè)第一自相關(guān)系數(shù)作為一個(gè)第一頻譜特性值;和所述確定裝置確定如果所述第一自相關(guān)系數(shù)小于一個(gè)第一自相關(guān)閾值則所述輸入信號(hào)段是話音頻帶數(shù)據(jù),如果所述自相關(guān)系數(shù)大于一個(gè)第二自相關(guān)閾值則所述輸入信號(hào)段是語(yǔ)音,所述第二自相關(guān)閾值大于所述第一自相關(guān)閾值。
16.根據(jù)權(quán)利要求15所限定的發(fā)明,其中所述計(jì)算裝置計(jì)算第二和第三自相關(guān)系數(shù)分別作為第二和第三頻譜特性值,和所述確定裝置確定如果所述第二自相關(guān)系數(shù)小于第三自相關(guān)閾值或所述第三自相關(guān)系數(shù)小于一個(gè)第四自相關(guān)閾值則所述輸入信號(hào)段是話音頻帶數(shù)據(jù)。
17.根據(jù)權(quán)利要求16所限定的發(fā)明,其中所述確定裝置確定如果所述第二自相關(guān)系數(shù)與所述第三自相關(guān)系數(shù)的和小于一個(gè)第五自相關(guān)閾值則所述輸入信號(hào)段是話音頻帶數(shù)據(jù)。
18.根據(jù)權(quán)利要求11所限定的發(fā)明,其中所述設(shè)備按照一個(gè)連續(xù)判決邏輯序列對(duì)多個(gè)輸入信號(hào)段進(jìn)行分類(lèi)為是語(yǔ)音或是話音頻帶數(shù)據(jù),該序列在話音狀態(tài)期間指定輸入信號(hào)段為語(yǔ)音而在話音頻帶數(shù)據(jù)狀態(tài)期間指定輸入信號(hào)段為話音頻帶數(shù)據(jù)。
19.根據(jù)權(quán)利要求18所限定的發(fā)明,其中當(dāng)所述確定裝置對(duì)多個(gè)輸入信號(hào)段的結(jié)果指示所述語(yǔ)音狀態(tài)是錯(cuò)誤時(shí),所述設(shè)備按照所述連續(xù)判決邏輯序列從所述語(yǔ)音狀態(tài)切換到所述話音頻帶數(shù)據(jù)狀態(tài),和當(dāng)所述確定裝置對(duì)多個(gè)輸入信號(hào)段的結(jié)果指示所述話音頻帶數(shù)據(jù)狀態(tài)是錯(cuò)誤時(shí),所述設(shè)備按照所述連續(xù)判決邏輯序列從所述話音頻帶數(shù)據(jù)狀態(tài)切換到所述語(yǔ)音狀態(tài)。
20.根據(jù)權(quán)利要求18所限定的發(fā)明,其中所述設(shè)備對(duì)所述確定裝置根據(jù)相應(yīng)輸入信號(hào)段的能量?jī)?nèi)容的結(jié)果加權(quán),以便當(dāng)確定是否從所述語(yǔ)音狀態(tài)切換到所述話音頻帶數(shù)據(jù)狀態(tài)或從所述話音頻帶數(shù)據(jù)狀態(tài)切換到所述語(yǔ)音狀態(tài)時(shí),低能量輸入信號(hào)段的確定結(jié)果被指定相對(duì)低的權(quán)重。
全文摘要
一種方法和一個(gè)設(shè)備,在通信網(wǎng)絡(luò)中通過(guò)計(jì)算指示輸入信號(hào)段周期性特性的自相似比值(SSR)和/或指示輸入信號(hào)段頻譜特性的自相關(guān)系數(shù),準(zhǔn)確地鑒別語(yǔ)音和話音頻帶數(shù)據(jù)(VBD),以產(chǎn)生語(yǔ)音/VBD鑒別結(jié)果。在一個(gè)實(shí)施例中,語(yǔ)音-VBD鑒別設(shè)備計(jì)算短期延遲和長(zhǎng)期延遲的SSR值以分析輸入信號(hào)段的重復(fù)率,由此指示輸入信號(hào)幀是否具有典型語(yǔ)音信號(hào)或VBD信號(hào)的周期性特性。該語(yǔ)音-VBD鑒別設(shè)備進(jìn)一步計(jì)算多個(gè)短期自相關(guān)系數(shù)以確定輸入幀的頻譜包絡(luò),由此有助于準(zhǔn)確的語(yǔ)音/VBD鑒別。
文檔編號(hào)G10L15/00GK1332441SQ0012265
公開(kāi)日2002年1月23日 申請(qǐng)日期2000年7月4日 優(yōu)先權(quán)日2000年7月4日
發(fā)明者張鵬杰 申請(qǐng)人:朗迅科技公司