專利名稱:語(yǔ)音區(qū)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音檢測(cè)方法,并且更為具體地,涉及有效地確定包括語(yǔ)音和噪聲數(shù)據(jù)的輸入話音信號(hào)中的語(yǔ)音和非語(yǔ)音(例如,噪聲)部分的語(yǔ)音區(qū)別方法。
背景技術(shù):
先前的研究指出,兩個(gè)人之間的一般電話交談大約包括40%的語(yǔ)音和60%的靜音。而且,噪聲數(shù)據(jù)可以比用舒適的噪聲生成(CNG)技術(shù)的語(yǔ)音數(shù)據(jù)更低的比特率編碼。以不同的編碼率對(duì)輸入話音信號(hào)(包括噪聲和語(yǔ)音數(shù)據(jù))進(jìn)行編碼稱為可變速率編碼。此外,可變速率語(yǔ)音編碼通常用于無(wú)線電話通信中。為了有效地完成可變速率的語(yǔ)音編碼,用話音活動(dòng)檢波器(VAD)來(lái)確定語(yǔ)音部分和噪聲部分。
在國(guó)際電信聯(lián)盟(ITU-T)的電信標(biāo)準(zhǔn)部分提出的G.729標(biāo)準(zhǔn)中,可以獲得如線譜密度(LSF)、全頻帶能量(Ef)、低頻帶能量(E1)、零點(diǎn)交叉速率(ZC)等的輸入信號(hào)的參數(shù)。也可以獲得該信號(hào)的頻譜失真(ΔS)。然后,獲得的值與先前由實(shí)驗(yàn)結(jié)果確定的特定常量進(jìn)行比較,以確定輸入的信號(hào)的特定部分是語(yǔ)音部分還是噪聲部分。
此外,在GSM(全球移動(dòng)通信系統(tǒng))網(wǎng)絡(luò)中,當(dāng)輸入話音信號(hào)(包括噪聲和語(yǔ)音)時(shí),估計(jì)噪聲的頻譜,使用估計(jì)的頻譜構(gòu)造噪聲抑制濾波器,且該輸入的話音信號(hào)穿越噪聲抑制濾波器。然后,計(jì)算該信號(hào)的能量,并把計(jì)算出的能量與預(yù)設(shè)的閾值進(jìn)行比較,以確定特定部分是語(yǔ)音部分還是噪聲部分。
上述方法要求多個(gè)不同的參數(shù),并基于先前確定的經(jīng)驗(yàn)數(shù)據(jù),即,過(guò)去的數(shù)據(jù)確定輸入信號(hào)的該特殊部分是語(yǔ)音部分還是噪聲部分。然而,語(yǔ)音的特性對(duì)每個(gè)特定的人來(lái)說(shuō)是非常不同的。例如,不同年齡的人的語(yǔ)音的特性,無(wú)論是男性還是女性等等,會(huì)改變語(yǔ)音的特性。因此,因?yàn)閂AD使用先前確定的經(jīng)驗(yàn)數(shù)據(jù),故VAD不提供最佳的語(yǔ)音分析性能。
改善經(jīng)驗(yàn)主義方法的另一種語(yǔ)音分析方法使用概率理論來(lái)確定輸入信號(hào)的特定部分是否為語(yǔ)音部分。然而,這種方法也是有缺點(diǎn)的,因?yàn)樗豢紤]基于任一特定談話而具有各種頻譜的噪聲的不同特性。
發(fā)明內(nèi)容
因此,本發(fā)明的一個(gè)目標(biāo)是解決上述以及其他問(wèn)題。
本發(fā)明的另一個(gè)目標(biāo)是提供有效確定包括語(yǔ)音和噪聲數(shù)據(jù)的輸入話音信號(hào)中的語(yǔ)音和噪聲部分的語(yǔ)音區(qū)別方法。
為了達(dá)到根據(jù)本發(fā)明的目的的這些以及其他優(yōu)點(diǎn),作為這里體現(xiàn)并廣泛描述的,提供了一種語(yǔ)音區(qū)別方法。根據(jù)本發(fā)明的一個(gè)方面的語(yǔ)音檢測(cè)方法包括把輸入話音信號(hào)分為多個(gè)幀、從分開(kāi)的幀中獲得參數(shù)、使用獲得的參數(shù)為每個(gè)幀在狀態(tài)j下的特征矢量建立一概率密度函數(shù)模型、從所建的PDF模型和獲得的參數(shù)中獲得相應(yīng)的幀為噪聲幀的概率P0和相應(yīng)的幀為語(yǔ)音幀的概率P1。而且,使用獲得的概率P0和P1完成假設(shè)檢驗(yàn)以確定相應(yīng)的幀是噪聲幀還是語(yǔ)音幀。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種用于執(zhí)行計(jì)算機(jī)指令的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)指令包括配置成把輸入話音信號(hào)分成多個(gè)幀的第一計(jì)算機(jī)代碼、配置成獲得為這些分開(kāi)的幀的參數(shù)的第二計(jì)算機(jī)代碼、配置成使用獲得的參數(shù)為每個(gè)在狀態(tài)j的特征矢量建立概率密度函數(shù)模型的第三計(jì)算機(jī)代碼、以及配置成從所建的PDF模型和獲得的參數(shù)中獲得相應(yīng)的幀為噪聲幀的概率P0和相應(yīng)的幀為語(yǔ)音幀的概率P1的第四計(jì)算機(jī)代碼。該計(jì)算機(jī)指令也包括配置成使用獲得的概率P0和P1執(zhí)行假設(shè)檢驗(yàn)以確定相應(yīng)的幀是噪聲幀還是語(yǔ)音幀的第五計(jì)算機(jī)代碼。
從此后給出的詳細(xì)描述中,本發(fā)明的適用性的又一個(gè)范圍將變得明顯。然而,應(yīng)該理解,詳細(xì)描述和特定的例子盡管指出了本發(fā)明優(yōu)選的實(shí)施例,但僅是為了說(shuō)明,因?yàn)閺倪@種詳細(xì)描述中的各種變化和修改都在本發(fā)明的精神和范圍之內(nèi),這對(duì)本發(fā)明的技術(shù)人員來(lái)說(shuō)是顯而易見(jiàn)的。
從下面給出的詳細(xì)描述及相應(yīng)的附圖中,本發(fā)明將變得更能全面理解。詳細(xì)描述和相應(yīng)的附圖僅是為了說(shuō)明,因此并非是本發(fā)明的限制,并且其中
圖1是顯示根據(jù)本發(fā)明的一個(gè)實(shí)施例的語(yǔ)音區(qū)別方法的流程圖;以及圖2A和圖2B是顯示完成的試驗(yàn)結(jié)果以分別確定許多狀態(tài)和混和物的圖表。
具體實(shí)施例方式
現(xiàn)在,將對(duì)本發(fā)明優(yōu)選的實(shí)施例做詳細(xì)描述,附圖示出其例子。
根據(jù)本發(fā)明的一方面的語(yǔ)音區(qū)別方法的算法使用下面兩個(gè)假設(shè)H0為只包括噪聲數(shù)據(jù)的噪聲部分。
H1為包括語(yǔ)音和噪聲的語(yǔ)音部分。
為了檢驗(yàn)以上假設(shè),執(zhí)行自反(reflexive)算法,將參考圖1顯示的流程圖討論該算法。
參考圖1,輸入話音信號(hào)被分為多個(gè)幀(S10)。在一個(gè)例子中,輸入話音信號(hào)被分為10毫秒間隔的幀。進(jìn)一步,當(dāng)整個(gè)話音信號(hào)被分為10毫米間隔的幀時(shí),每個(gè)幀的值被稱為概率過(guò)程內(nèi)的“狀態(tài)”。
在輸入信號(hào)被劃分為多個(gè)幀后,從劃分的幀(S20)中獲得一組參數(shù)。這些參數(shù)包括,例如,從相應(yīng)的幀中獲得的語(yǔ)音特征矢量0;在狀態(tài)j的第k個(gè)混合物的特征的均值矢量mjk;在狀態(tài)j的第k個(gè)混合物的權(quán)值矢量cjk;在狀態(tài)j的第k個(gè)混合物的協(xié)方差矩陣Cjk;一幀將對(duì)應(yīng)于靜音幀或噪聲幀的先驗(yàn)概率P(H0);一幀將對(duì)應(yīng)于語(yǔ)音幀的的先驗(yàn)概率P(H1);假設(shè)該幀包括靜音,當(dāng)前狀態(tài)將為靜音幀或噪聲幀的第j個(gè)狀態(tài)的當(dāng)前狀態(tài)的先驗(yàn)概率P(H0,j|H1);以及假設(shè)該語(yǔ)音幀包括語(yǔ)音,當(dāng)前狀態(tài)將為語(yǔ)音幀的第j個(gè)狀態(tài)的先驗(yàn)概率P(H1,j|H1)。
可通過(guò)訓(xùn)練過(guò)程獲得上述參數(shù),其中記錄實(shí)際話音和噪聲并將其存儲(chǔ)在語(yǔ)音數(shù)據(jù)庫(kù)內(nèi)。由相應(yīng)的應(yīng)用、參數(shù)文件的大小以及試驗(yàn)獲得的許多狀態(tài)和性能要求間的關(guān)系確定要被分配給語(yǔ)音和噪聲的狀態(tài)數(shù)量。類似地確定混合物的數(shù)量。
例如,圖2A和圖2B是示出用于確定狀態(tài)和混合物數(shù)量的試驗(yàn)結(jié)果的圖表。具體地,圖2A和圖2B是分別顯示根據(jù)狀態(tài)和混合物的數(shù)量的語(yǔ)音區(qū)別速率的圖表。如圖2A所示,當(dāng)狀態(tài)數(shù)量過(guò)小或過(guò)大時(shí),語(yǔ)音區(qū)別率降低。類似地,如圖2B所示,當(dāng)混合物的數(shù)量過(guò)小或過(guò)大時(shí),語(yǔ)音區(qū)別率降低。因此,使用試驗(yàn)過(guò)程來(lái)確定狀態(tài)和混和物的數(shù)量。此外,可以使用各種參數(shù)估計(jì)技術(shù)來(lái)確定上述參數(shù),如期望最大值算法(E-M算法)。
進(jìn)一步,參考圖1,在步驟(S20)提取參數(shù)后,由使用提取的參數(shù)的高斯混合物建立狀態(tài)j的特征矢量的概率密度函數(shù)(PDF)模型(S30)。也可以使用log凹函數(shù)或橢圓對(duì)稱函數(shù)來(lái)計(jì)算PDF。
L.R.Rabiner和B-H.HWANG所寫的“Fundamentals of Speech Recoginition”(Englewood Cliffs,新澤西.Prentice Hall,1993),以及由S.E.Levinson、L.R.Rabiner和M.M.Sondhi所寫的“An introduction to the application of thetheory of probabilistic functions of a Markov process to automatic speechrecognition(貝爾系統(tǒng)技術(shù).J,1983年4月)”中描述了使用高斯混合物的PDF方法,兩者因此整體結(jié)合與此。因?yàn)樵摲椒ū娝苤适÷粤嗽敿?xì)描述。
此外,使用高斯混合物在狀態(tài)j的特征矢量的PDF由下列等式表示bj(o_)=Σk=1NmixcjkN(o_,m_jk,Cjk)]]>這里,N表示采樣矢量的總數(shù)。
接著,使用計(jì)算出的PDF和其他參數(shù)獲得概率P0和P1。具體地,從提取的參數(shù)中獲得對(duì)應(yīng)幀為靜音幀或噪聲幀的概率P0(S40),以及從提取的參數(shù)中獲得對(duì)應(yīng)幀為語(yǔ)音幀的概率P1(S60)。進(jìn)一步,計(jì)算概率P0和P1,因?yàn)椴⒉恢涝搸钦Z(yǔ)音幀還是噪聲幀。
進(jìn)一步,可使用下列等式計(jì)算概率P0和P1P0=maxj(bj(o_)·P(H0,j|H0))=maxj(Σk=1NmixcjkN(o_,m_jk,Cjk)·P(H0,j|H0))]]>P1=maxj(bj(o_)·P(H1,j|H1))=maxj(Σk=1NmizcjkN(o_,m_jk,Cjk)·P(H1,j|H1))]]>同樣地,如圖1所示,在計(jì)算概率P1之前,在分開(kāi)的幀上執(zhí)行噪聲頻譜相減過(guò)程(S50)。相減技術(shù)使用先前獲得的噪聲頻譜。
此外,在計(jì)算概率P0和P1后,執(zhí)行假設(shè)檢驗(yàn)(S70)。使用計(jì)算出的概率P0和P1及來(lái)自估計(jì)統(tǒng)計(jì)值標(biāo)準(zhǔn)的特定準(zhǔn)則,用該假設(shè)檢驗(yàn)來(lái)確定相應(yīng)的幀是噪聲幀還是語(yǔ)音幀。例如,該準(zhǔn)則可能為由以下等式定義的MAP(最大后驗(yàn))準(zhǔn)則 這里,η=P(H1)P(H0).]]>也可以使用其他準(zhǔn)則,如最大似然性(ML)極小極大準(zhǔn)則、Neman-Pearson檢驗(yàn)、CFAR(恒定虛警率)(Constant False Alarm Rate)檢驗(yàn)等等。
然后,在假設(shè)檢驗(yàn)后,應(yīng)用延遲釋放模式(Hang Over Scheme)(S80)。使用延遲釋放模式來(lái)阻止低能量的聲音,如“f”、“th”、“h”等等因其他高能量的聲音被錯(cuò)誤地確定為噪聲,以及阻止中止聲音,如“k”、“p”、“t”等等(開(kāi)始為高能量后來(lái)為低能量的聲音)在用低能量發(fā)音時(shí)被確定為靜音。進(jìn)一步,如果幀被確定為噪聲幀,且該幀在被確定為語(yǔ)音幀的多個(gè)幀之間,則延遲釋放模式任意決定該靜音幀為語(yǔ)音幀,因?yàn)楫?dāng)考慮很小的10毫秒間隔的幀時(shí),語(yǔ)音不會(huì)突然變?yōu)殪o音。
此外,如果應(yīng)用延遲釋放模式后,相應(yīng)的幀被確定為噪聲幀,則為確定的噪聲幀計(jì)算噪聲頻譜。因此,根據(jù)本發(fā)明的一個(gè)實(shí)施例,可使用計(jì)算出的噪聲頻譜來(lái)升級(jí)步驟S50執(zhí)行的噪聲頻譜相減過(guò)程(S90)。進(jìn)一步,可有選擇地執(zhí)行分別在S80和S50的延遲釋放模式和噪聲頻譜相減過(guò)程。即,這一個(gè)或兩個(gè)步驟可省略。
正如迄今為止所述,在根據(jù)本發(fā)明的實(shí)施例的語(yǔ)音區(qū)別方法中,分別將語(yǔ)音和噪聲(靜音)部分作為狀態(tài)處理,從而適合具有各種頻譜的語(yǔ)音或噪聲。同樣,在數(shù)據(jù)庫(kù)內(nèi)集合的噪聲數(shù)據(jù)上使用訓(xùn)練過(guò)程,以提供對(duì)不同類型噪聲的有效響應(yīng)。此外,在本發(fā)明中,因?yàn)橛扇鏓-M算法的方法可獲得隨機(jī)優(yōu)化參數(shù),故確定幀為語(yǔ)音幀還是噪聲幀的過(guò)程得到改善。
進(jìn)一步,也可通過(guò)在話音記錄中只記錄語(yǔ)音部分而不記錄噪聲部分,使用本發(fā)明來(lái)節(jié)省存儲(chǔ)空間,或者本發(fā)明也可被用作有線或無(wú)線電話中為可變速率編碼器的算法的一部分。
根據(jù)本發(fā)明的教義,使用傳統(tǒng)的通用數(shù)字計(jì)算機(jī)或編程的微處理器可方便地實(shí)現(xiàn)本發(fā)明,這對(duì)本領(lǐng)域的技術(shù)人員而言是明顯的。熟練的程序員根據(jù)本發(fā)明的教義,可輕易地進(jìn)行適當(dāng)?shù)能浖幋a,這對(duì)本領(lǐng)域的技術(shù)人員而言是明顯的。本發(fā)明也可準(zhǔn)備用由此互聯(lián)傳統(tǒng)計(jì)算機(jī)電路的適當(dāng)網(wǎng)絡(luò)的應(yīng)用專用集成電路來(lái)實(shí)現(xiàn),這對(duì)本領(lǐng)域的技術(shù)人員而言是明顯的。
在通用數(shù)字計(jì)算機(jī)或微處理器上實(shí)現(xiàn)的本發(fā)明的任何部分包括計(jì)算機(jī)程序產(chǎn)品,該產(chǎn)品是包括能被用于對(duì)計(jì)算機(jī)編程以執(zhí)行本發(fā)明的過(guò)程的指令的存儲(chǔ)介質(zhì)。該存儲(chǔ)介質(zhì)包括但不限于,包括軟盤、光盤、CD-ROM、以及磁性光盤、ROM、EEPROM、磁卡或光卡的任何類型的磁盤,或者適于存儲(chǔ)電子指令的任何類型的介質(zhì)。
本發(fā)明可以許多形式實(shí)現(xiàn),而不會(huì)脫離其精神或基本特性,也應(yīng)該理解,除非另外指明,上述實(shí)施例不作為前面詳細(xì)描述的限制,但應(yīng)寬泛地被認(rèn)為處在附加的權(quán)利要求的精神和范圍內(nèi),并且因此所有的變化和修改都落入權(quán)利要求的界限和范圍內(nèi),或者因此附加的權(quán)利要求也意圖包含這種界限和范圍的等價(jià)物。
權(quán)利要求
1.一種語(yǔ)音區(qū)別方法,該方法包含把輸入話音信號(hào)劃分為多個(gè)幀;從劃分的幀中獲得參數(shù);使用獲得的參數(shù),為每個(gè)幀在狀態(tài)j的特征矢量建立概率密度函數(shù)模型;從所建的PDF模型和獲得的參數(shù)中獲得相應(yīng)幀是噪聲幀的概率P0以及相應(yīng)幀是語(yǔ)音幀的概率P1;以及使用獲得的概率P0和P1,執(zhí)行假設(shè)檢驗(yàn),以確定相應(yīng)的幀為噪聲幀還是語(yǔ)音幀。
2.如權(quán)利要求1所述的方法,其特征在于,所述參數(shù)包含從幀中獲得的語(yǔ)音特征矢量0;在狀態(tài)j下第k個(gè)混合物的特征的均值矢量mjk;在狀態(tài)j下第k個(gè)混合物的權(quán)值矢量cjk;在狀態(tài)j下第k個(gè)混合物的協(xié)方差矩陣Cjk;一幀將是靜音幀或噪聲幀的的先驗(yàn)概率P(H0);一幀將是語(yǔ)音幀的先驗(yàn)概率P(H1);假設(shè)該幀是噪聲幀,當(dāng)前狀態(tài)將是噪聲幀的第j個(gè)狀態(tài)的先驗(yàn)概率P(H0,j|H0);以及假設(shè)該幀是語(yǔ)音幀,當(dāng)前狀態(tài)將為語(yǔ)音幀的第j個(gè)狀態(tài)的先驗(yàn)概率P(H1,j|H1)。
3.如權(quán)利要求2所述的方法,其特征在于,基于要求的性能、參數(shù)文件的大小以及實(shí)驗(yàn)獲得的在狀態(tài)和混合物的數(shù)量與所要求性能間的關(guān)系確定狀態(tài)和混合物的數(shù)量。
4.如權(quán)利要求1所述的方法,其特征在于,使用包含收集并記錄的實(shí)際語(yǔ)音和噪聲的數(shù)據(jù)庫(kù)來(lái)獲得所述參數(shù)。
5.如權(quán)利要求1所述的方法,其特征在于,使用高斯混合物、log凹函數(shù)或橢圓對(duì)稱函數(shù)來(lái)建立所述概率密度函數(shù)的模型。
6.如權(quán)利要求5所述的方法,其特征在于,使用所述高斯混合物的所述概率密度函數(shù)用下列等式表示bj(o‾)=Σk=1NmixcjkN(o‾,m‾jk,Cjk).]]>
7.如權(quán)利要求1所述的方法,其特征在于,由下列等式獲得所述幀將是噪聲幀的概率P0P0=maxj(bj(o‾)·P(H0,j|H0))=maxj(Σk=1NmixcjkN(o‾,m‾jk,Cjk)·P(H0,j|H0)).]]>
8.如權(quán)利要求1所述的方法,其特征在于,由下列等式獲得所述幀將是語(yǔ)音幀的概率P1P1=maxj(bj(o‾)·P(H1,j|H1))=maxj(Σk=1NmixcjkN(o‾,m‾jk,Cjk)·P(H1,j|H1)).]]>
9.如權(quán)利要求1所述的方法,其特征在于,使用概率P0和P1以及選擇的準(zhǔn)則,所述假設(shè)檢驗(yàn)確定相應(yīng)的幀是語(yǔ)音幀還是噪聲幀。
10.如權(quán)利要求9所述的方法,其特征在于,所述準(zhǔn)則是MAP(最大后驗(yàn))準(zhǔn)則、最大似然性(ML)極小極大準(zhǔn)則、Neman-Pearson檢驗(yàn)、恒定虛警率檢驗(yàn)中之一種。
11.如權(quán)利要求10所述的方法,其特征在于,所述MAP準(zhǔn)則由下列等式定義H0P0P1><ηH1,η=P(H1)P(H0).]]>
12.如權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包含使用在獲得概率P1前先前獲得的噪聲頻譜結(jié)果,有選擇地在相應(yīng)的幀上執(zhí)行噪聲頻譜相減過(guò)程。
13.如權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包含在執(zhí)行假設(shè)檢驗(yàn)后有選擇地應(yīng)用延遲釋放模式。
14.如權(quán)利要求12所述的方法,其特征在于,當(dāng)相應(yīng)的幀被確定為噪聲幀時(shí),用確定的噪聲幀的當(dāng)前噪聲頻譜來(lái)更新噪聲頻譜相減過(guò)程。
15.一種用于執(zhí)行計(jì)算機(jī)指令的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)指令包括配置成把輸入話音信號(hào)劃分成多個(gè)幀的第一計(jì)算機(jī)代碼;配置成為這些劃分的幀獲得參數(shù)的第二計(jì)算機(jī)代碼;配置成使用獲得的參數(shù)為每個(gè)幀在狀態(tài)j下建立特征矢量的概率密度函數(shù)模型的第三計(jì)算機(jī)代碼;配置成從所建的PDF模型和獲得的參數(shù)獲得相應(yīng)的幀是噪聲幀的概率P0和相應(yīng)的幀是語(yǔ)音幀的概率P1的第四計(jì)算機(jī)代碼;以及配置成使用獲得的概率P0和P1執(zhí)行假設(shè)檢驗(yàn)以確定相應(yīng)的幀是噪聲幀還是語(yǔ)音幀的第五計(jì)算機(jī)代碼。
16.如權(quán)利要求15所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述參數(shù)包含從幀中獲得的語(yǔ)音特征矢量0;在狀態(tài)j下第k個(gè)混合物的特征的均值矢量mjk;在狀態(tài)j下第k個(gè)混合物的權(quán)值矢量cjk;在狀態(tài)j下第k個(gè)混合物的協(xié)方差矩陣Cjk;一幀將是靜音幀或噪聲幀的的先驗(yàn)概率P(H0);一幀將是語(yǔ)音幀的先驗(yàn)概率P(H1);假設(shè)該幀是噪聲幀,當(dāng)前狀態(tài)將是噪聲幀的第j個(gè)狀態(tài)的先驗(yàn)概率P(H0,j|H0);以及假設(shè)該幀是語(yǔ)音真,當(dāng)前狀態(tài)將是語(yǔ)音幀的第j個(gè)狀態(tài)的先驗(yàn)概率P(H1,j|H1)。
17.如權(quán)利要求15所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于,使用所述高斯混合物建立所述概率密度函數(shù)模型用下列等式表示bj(o‾)=Σk=1NmixcjkN(o‾,m‾jk,Cjk).]]>
18.如權(quán)利要求15所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于,由下列等式獲得將所述幀是噪聲幀的概率P0P0=maxj(bj(o‾)·P(H0,j|H0))=maxj(Σk=1NmixcjkN(o‾,m‾jk,Cjk)·P(H0,j|H0)).]]>
19.如權(quán)利要求15所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于,由下列等式獲得將所述幀是語(yǔ)音幀的概率P1P1=maxj(bj(o‾)·P(H1,j|H1))=maxj(Σk=1NmixcjkN(o‾,m‾jk,Cjk)·P(H1,j|H1)).]]>
20.如權(quán)利要求15所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于,使用概率P0和P1以及一選擇的準(zhǔn)則,所述第五計(jì)算機(jī)代碼確定相應(yīng)的幀為語(yǔ)音幀還是噪聲幀
21.如權(quán)利要求20所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述準(zhǔn)則是MAP(最大后驗(yàn))準(zhǔn)則、最大似然性(ML)極小極大準(zhǔn)則、Neman-Pearson檢驗(yàn)、恒定虛警率檢驗(yàn)中之一種。
22.如權(quán)利要求21所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述MAP準(zhǔn)則由下列等式定義H0P0P1><ηH1,η=P(H1)P(H0).]]>
23.如權(quán)利要求15所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品進(jìn)一步包含第六計(jì)算機(jī)代碼,配置成使用在獲得概率P1前先前獲得的噪聲頻譜結(jié)果,有選擇地在相應(yīng)的幀上執(zhí)行噪聲頻譜相減過(guò)程。
24.如權(quán)利要求23所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品進(jìn)一步包含配置成當(dāng)相應(yīng)的幀被確定為噪聲幀時(shí),用確定的噪聲幀的當(dāng)前噪聲頻譜來(lái)更新所述噪聲頻譜相減過(guò)程的第七計(jì)算機(jī)代碼。
全文摘要
一種語(yǔ)音區(qū)別方法,它包括把輸入話音信號(hào)劃分多個(gè)幀;從劃分的幀中獲得參數(shù);使用獲得的參數(shù),為每個(gè)幀建立狀態(tài)j的特征矢量的概率密度函數(shù)模型;從所建的PDF模型和獲得的參數(shù)獲得相應(yīng)幀將是噪聲幀的概率P
文檔編號(hào)G10L11/06GK1783211SQ200510128718
公開(kāi)日2006年6月7日 申請(qǐng)日期2005年11月25日 優(yōu)先權(quán)日2004年11月25日
發(fā)明者金燦佑 申請(qǐng)人:Lg電子株式會(huì)社