專利名稱:用于連續(xù)視聽語音識別的耦合隱馬爾可夫模型(chmm)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的實施方案涉及語音識別系統(tǒng)領(lǐng)域;且更具體地說,涉及用于評估視聽材料的耦合隱馬爾可夫模型技術(shù)。
背景技術(shù):
當(dāng)前可以獲得的語音識別系統(tǒng)的成功被局限在相對受控的環(huán)境以及被很好定義的應(yīng)用中,例如基于口頭指令或者小到中型詞匯集語音的控制命令(例如免提撥號等)。近年來,與對幾種聲學(xué)降噪技術(shù)的研究一道,對組合聽覺和視覺特征的系統(tǒng)的研究逐漸成為在較少約束的環(huán)境下實現(xiàn)語音識別的一種有吸引力的解決方案。已經(jīng)提出了許多技術(shù)來解決視聽集成問題,它們大致可被分為特征融合(fusion)方法和決策融合方法。
然而,特征融合方法可能受到過度適配(over-fitting)問題的困擾,而決策融合方法無法完整地捕獲聽覺特征和視覺特征之間的相依性(dependency)。在一個視聽特征融合系統(tǒng)中,通過連接聽覺觀測向量和視覺觀測向量,接著再進(jìn)行降維變換,從而獲得觀測向量。然后使用一種隱馬爾可夫模型(HMM)為產(chǎn)生的觀測向量建模。然而,這種方法無法為聽覺特征和視覺特征之間的天然異步性建模。另一方面,決策融合系統(tǒng)相互獨立地為聽覺序列和視覺序列建模,并且只在模型邊界上實施聽覺特征和視覺特征的同步。這些系統(tǒng)沒有完整地捕獲視覺特征和聽覺特征之間的相依性。使用多流式HMM的特征融合系統(tǒng)假定聽覺特征和視覺特征是狀態(tài)同步的,但是允許聽覺分量和視覺分量對整體觀測似然率(likelihood)有不同的貢獻(xiàn)。
參考以下描述和附圖,可以最好地理解本發(fā)明,其中附圖被用來圖示說明本發(fā)明的實施方案。在附圖中圖1A是圖示了視聽連續(xù)語音識別(AVCSR)系統(tǒng)的示例性實施方案的框圖。
圖1B是圖示了視聽連續(xù)語音識別(AVCSR)系統(tǒng)的嘴部檢測和跟蹤模塊的示例性實施方案的框圖。
圖2是圖示了單詞網(wǎng)絡(luò)的示例性實施方案的框圖。
圖3是圖示了耦合隱馬爾可夫模型(CHMM)的示例性實施方案的狀態(tài)表示的框圖。
圖4是圖示了CHMM的示例性實施方案的框圖。
圖5是圖示了根據(jù)一個實施方案的示例性錯詞率(WER)的圖。
圖6是圖示了AVCSR系統(tǒng)使用CHMM的過程的示例性實施方案的流程圖。
圖7是圖示了用于訓(xùn)練CHMM參數(shù)的過程的示例性實施方案的流程圖。
圖8是可以與一個實施方案一起使用的示例性計算機系統(tǒng)的框圖。
具體實施例方式
這里將描述用于連續(xù)視聽語音識別的耦合隱馬爾可夫模型(CHMM)。在以下描述中,闡述了很多具體的細(xì)節(jié)。然而,可以理解,沒有這些具體的細(xì)節(jié)也可以實現(xiàn)本發(fā)明的實施方案。此外,沒有詳細(xì)地示出公知的電路、結(jié)構(gòu)和技術(shù),以免模糊了對這一部分的理解。
下面利用對計算機存儲器內(nèi)數(shù)據(jù)位進(jìn)行操作的算法和符號表示來給出一部分具體實施方式
。這些算法描述和表示被數(shù)據(jù)處理領(lǐng)域內(nèi)的技術(shù)人員用來向本領(lǐng)域內(nèi)的其他技術(shù)人員最有效地表述他們工作的實質(zhì)內(nèi)容。算法在這里并且在通常意義上都被認(rèn)為是導(dǎo)致預(yù)期結(jié)果的自相一致的操作序列。操作是指需要對物理量進(jìn)行物理操縱的步驟。這些量一般但不一定采用能夠被存儲、傳輸、合并、比較以及其他方式操縱的電信號或磁信號的形式。主要出于通用的原因,用位、值、元素、符號、字符、術(shù)語、數(shù)字等來指代這些信號一般來說是很方便的。
然而應(yīng)當(dāng)記住的是,所有這些以及類似的術(shù)語都是和適當(dāng)?shù)奈锢砹肯嚓P(guān),都僅僅是應(yīng)用于這些量的方便標(biāo)簽。在以下討論中除非特別指出,否則很清楚的知道,在整篇說明書中,使用諸如“處理”或“計算”或“運算”或“確定”或“顯示”等術(shù)語的討論都是指計算機系統(tǒng)或類似數(shù)據(jù)處理設(shè)備的動作和過程,所述系統(tǒng)或設(shè)備將計算機系統(tǒng)的寄存器和存儲器內(nèi)表示為物理(例如,電子學(xué)的)量的數(shù)據(jù)操縱并且變換為在計算機系統(tǒng)的存儲器或寄存器內(nèi)或其他這樣的信息存儲、傳輸或顯示設(shè)備內(nèi)被類似地表示為物理量的其他數(shù)據(jù)。
本發(fā)明的實施方案還涉及用于執(zhí)行這里所述的操作的裝置。可以出于需要的目的專門來構(gòu)建裝置,或者裝置可以包括通用計算機,它可以被存儲在自身內(nèi)的計算機程序有選擇地激活或重新配置。這樣的計算機程序可以被存儲在計算機可讀存儲介質(zhì)中,例如但不限于包括軟盤、光盤、CD-ROM和磁光盤在內(nèi)的任何類型的盤,只讀存儲器(ROM),隨機訪問存儲器(RAM),例如動態(tài)RAM(DRAM)、EPROM、EEPROM、磁卡或光卡,或者適于存儲電子指令的任何類型介質(zhì),并且以上每種存儲元件都耦合到計算機系統(tǒng)總線。
這里給出的算法和顯示不是固有地與任何具體的計算機或其他裝置有關(guān)。各種通用系統(tǒng)可以與根據(jù)這里教導(dǎo)的程序一同使用,或者構(gòu)建更專用的裝置來實現(xiàn)各種方法可能是方便的。各種系統(tǒng)的結(jié)構(gòu)可以從以下描述中看出來。另外,沒有參考具體的編程語言來描述本發(fā)明的實施方案。將認(rèn)識到,可以使用多種編程語言來實現(xiàn)這里所描述的本發(fā)明實施方案的教導(dǎo)。
機器可讀介質(zhì)包括用于以機器(例如計算機)可讀的形式來存儲或傳輸信息的機構(gòu)。例如,機器可讀介質(zhì)包括只讀存儲器(“ROM”);隨機訪問存儲器(“RAM”);磁盤存儲介質(zhì);光存儲介質(zhì);閃存器件;電、光、聲或其他形式的傳播信號(例如載波、紅外信號、數(shù)字信號等);諸如此類。
圖1A是圖示了視聽連續(xù)語音識別(AVCSR)系統(tǒng)的實施方案的框圖。在一個實施方案中,系統(tǒng)100包括面部檢測模塊102、嘴部檢測模塊103、嘴部跟蹤模塊104、視覺特征提取模塊105、聲學(xué)特征提取模塊106和視聽模型模塊107。
如參考圖1A所示,視聽語音識別系統(tǒng)100能夠?qū)崿F(xiàn)在基于計算機的視聽記錄和處理系統(tǒng)上??梢蕴峁﹩为毜幕蚣傻恼障鄼C和聲音系統(tǒng),用于實時地或以先記錄隨后再進(jìn)行語音處理的方式來視聽記錄面部特征以及一個或多個講話者的語音,但是它們都和本發(fā)明的實施方案無關(guān)。視聽信息可以用模擬格式來記錄并存儲,或者優(yōu)選地,可以被轉(zhuǎn)換為適當(dāng)?shù)臄?shù)字形式,包括但不限于MPEG-2、MPEG-4、JPEG、運動JPEG或者其他常用于數(shù)字圖像存儲的可順序表示的轉(zhuǎn)換編碼圖像??梢允褂玫统杀尽⒌头直媛实幕贑CD(耦合電荷器件)或CMOS的攝像機系統(tǒng),盡管對于某些應(yīng)用而言,支持更高幀率和分辨率的攝像機可能是有用的。聲音數(shù)據(jù)可以通過低成本的麥克風(fēng)系統(tǒng)采集,并且可以接受各種聲音處理技術(shù)的處理,以去除間歇式的突發(fā)(burst)噪音、環(huán)境噪音、靜電噪音、在正常語音頻率范圍之外記錄的聲音、或者任何其他非語音數(shù)據(jù)信號。
根據(jù)一個實施方案,被捕獲(所存儲的或?qū)崟r的)視聽數(shù)據(jù)101經(jīng)由聲學(xué)特征處理模塊106,使用本領(lǐng)域公知的技術(shù)來單獨進(jìn)行聲音處理,所述公知技術(shù)例如是MFCC(Mel倒譜系數(shù))特征提取。此外,所捕獲的視聽數(shù)據(jù)可以接受視覺特征提取,例如面部檢測、嘴部檢測、嘴部跟蹤和視覺特征提取,這些處理可以分別由面部檢測模塊102、嘴部檢測模塊103、嘴部跟蹤模塊104和視覺特征提取模塊105來完成。使用視聽融合模型,例如A/V模型105將兩個或更多的數(shù)據(jù)流合并到一起,并且訓(xùn)練網(wǎng)絡(luò)和語音識別模塊108被用來產(chǎn)生預(yù)期的文本數(shù)據(jù)流,該數(shù)據(jù)流反映了所捕獲的語音??梢栽谧銐驈姶蟮挠嬎阆到y(tǒng)上以接近實時的方式來處理數(shù)據(jù)流??商鎿Q地,可以在一定延遲后或者按批處理模式來處理數(shù)據(jù)流,或者可以在多個計算機系統(tǒng)或并行處理的計算機上處理數(shù)據(jù)流,或者使用可用于數(shù)字信號處理的任何其他適當(dāng)?shù)臋C制來處理數(shù)據(jù)流。
實現(xiàn)適當(dāng)?shù)倪^程、系統(tǒng)和方法的軟件可以被存儲在計算機系統(tǒng)的存儲器中,作為一組將被執(zhí)行的指令。另外,執(zhí)行上述過程的指令可以被另外存儲在其他形式的機器可讀介質(zhì)中,包括磁盤和光盤。例如,實現(xiàn)方法的指令可以被存儲在機器可讀介質(zhì)上,例如磁盤或光盤,可以通過盤驅(qū)動器(或者計算機可讀介質(zhì)驅(qū)動器)對其進(jìn)行訪問。此外,指令可以通過數(shù)據(jù)網(wǎng)絡(luò),以編譯并且鏈接后的形式被下載到計算機設(shè)備中??商鎿Q地,所述邏輯可以實現(xiàn)在附加的計算機和/或機器可讀介質(zhì)中,例如分立硬件元件,如大規(guī)模集成電路(LSI)、專用集成電路(ASIC),或者諸如電可擦除可編程只讀存儲器(EEPROM)的固件。
圖1B是圖示了嘴部檢測和跟蹤模塊的示例性實施方案的框圖,所述模塊可被用作嘴部檢測模塊103和嘴部跟蹤模塊104。參考圖1B,嘴部檢測和跟蹤模塊130包括在視頻序列中對講話者面部的面部檢測132。在一個實施方案中,面部檢測可以由單獨的模塊完成,例如圖1A中的面部檢測模塊102。嘴部檢測和跟蹤模塊130還可以包括線性SVM(支持向量機)分類器模塊133、嘴部分類器134、嘴部/胡須分類器135、最大匹配分?jǐn)?shù)選擇模塊136、嘴部跟蹤器137和嘴部跟蹤器平滑模塊138。
多種面部檢測過程或算法都適用于面部檢測132,包括但不限于模式匹配、形狀相關(guān)、基于光流的技術(shù)或者分層分段。在一個實施方案中,一種適當(dāng)?shù)拿娌繖z測過程需要使用高斯混合模型來為面部區(qū)域的顏色分布建模。所生成的顏色區(qū)分面部模板,連同用于使所述模板變形以基于預(yù)定的目標(biāo)函數(shù)最優(yōu)地與面部適配的背景區(qū)對數(shù)搜索,可被用來識別在視覺場景中的一張或多張臉。在另一個實施方案中,基于神經(jīng)網(wǎng)絡(luò)的技術(shù)可用于面部檢測。
在檢測到面部后,可能需要嘴部區(qū)域的鑒別,因為臉上的其他部分通常與語音不太相關(guān)或相關(guān)度很低。由于對嘴部的搜索范圍可以利用面部檢測的結(jié)果大大減小,所以一個級聯(lián)的支持向量機(SVM)分類器133可被用來在面部的下部區(qū)域中定位嘴部。SVM級聯(lián)(使用兩個或更多的標(biāo)準(zhǔn)SVM分類器)在計算上是有效率的,并且有利于實現(xiàn)嘴部識別的準(zhǔn)確實時系統(tǒng)操作。典型地,第一SVM分類器尋找嘴部的大致區(qū)域。在這個階段訓(xùn)練分類器時所使用的子圖像的典型大小是16×16像素。通過對嘴部訓(xùn)練集合的下采樣(downsampling),獲得子圖像。由分類器將除嘴部區(qū)域之外的其余大多數(shù)區(qū)域都去除。然而,有幾個“假警報”可能被當(dāng)作嘴部的真實位置而通過。第二SVM分類器(在大小為32×32像素的嘴部區(qū)域上被訓(xùn)練)的作用就是查看被第一SVM歸類為嘴部的區(qū)域,并且進(jìn)一步去除所有的虛假警報。通常,第一SVM分類器更快,而第二SVM分類器更精確。
為了適應(yīng)比例變化,以恒定因子對源圖像重復(fù)進(jìn)行再抽樣,從而實現(xiàn)在估計范圍內(nèi)的多比例搜索。預(yù)處理步驟經(jīng)由直方圖均衡和梯度照度校正,相對于照度的方差(variation)來歸一化源圖像。接著,具有線性內(nèi)核的、大小為16×14像素的SVM濾波器可以應(yīng)用于面部的下部區(qū)域,以確定嘴部的大致位置。最后,兩個具有大小為32×28像素的高斯內(nèi)核的SVM分類器被應(yīng)用于圖像平面中的每個測試圖案及其旋轉(zhuǎn)后的圖案,其中所述兩個SVM分類器在帶和/或不帶面部胡須的嘴部區(qū)域的樣本上進(jìn)行訓(xùn)練。在所有旋轉(zhuǎn)圖案中的最高嘴部分類分?jǐn)?shù)以及SVM分類器被用來確定嘴部的精細(xì)位置。用于SVM分類器訓(xùn)練的正例子由一個手動標(biāo)記的嘴部圖像集合和一個負(fù)例子集合(例如除嘴部區(qū)域以外的面部區(qū)域)組成。使用在正集合中的標(biāo)記點,包括角落、上部和下部點、以及嘴部的中心,就用在圖像平面中的幾種幾何變化(例如縮放、水平鏡像映射和旋轉(zhuǎn))而言增強了訓(xùn)練集合的大小。由比例歸一化、直方圖均衡和照度校正組成的預(yù)處理操作可以應(yīng)用于訓(xùn)練集合中的正例子和負(fù)例子。在一個實施方案中,經(jīng)由以下自舉過程來訓(xùn)練高斯內(nèi)核SVM濾波器1.使用正訓(xùn)練集合和負(fù)訓(xùn)練集合來訓(xùn)練SVM濾波器,2.在驗證集合上運行SVM濾波器,并且增強具有未檢測嘴部區(qū)域的正集合以及具有虛假警報的負(fù)集合,并且
3.重復(fù)操作1和2,直到嘴部檢測器達(dá)到期望的性能。
在一個試驗中,在自舉過程后獲得的訓(xùn)練集合由分別大約為8000個非嘴部采樣,9000個嘴部采樣和6000個嘴部和胡須采樣組成。嘴部采樣是通過對250幅和800幅分別帶胡須和不帶胡須的用戶圖像進(jìn)行鏡像映射、旋轉(zhuǎn)和重新縮放而獲得的。
在對面部和嘴部進(jìn)行檢測并由SVM模塊和嘴部或嘴部/胡須分類器134和135進(jìn)行分類后,由嘴部跟蹤模塊137在連續(xù)多幀上對嘴部位置進(jìn)行跟蹤。由前一幀來估計嘴部的中心,并且將嘴部檢測算法應(yīng)用于在嘴部的估計中心附近的縮小范圍內(nèi)。如果在搜索范圍內(nèi)的所有測試圖案都未能被指定給嘴部區(qū)域,則系統(tǒng)重新初始化面部和嘴部檢測算法,或者估計新的嘴部中心并且嘴部跟蹤繼續(xù)。使用嘴部平滑模塊138來進(jìn)一步平滑嘴部跟蹤。模塊138可以使用緊跟有高斯濾波器的中位數(shù)濾波器。所述方法曾在代表從95名講話者記錄而來的190段序列的數(shù)據(jù)庫上進(jìn)行測試。嘴部檢測和跟蹤系統(tǒng)的總體準(zhǔn)確率為95.26%,其中對于長胡須的人的30段序列是86.67%,對于其余的序列是96.85%。
在嘴部跟蹤模塊130的成功操作之后,嘴部的視覺特征被提取出來,以由用于視覺特征提取模塊142的軟件或硬件模塊使用主分量分析(PCA)來處理。在一個實施方案中,使用級聯(lián)算法從以嘴部為中心的64×64像素的區(qū)域中提取出一個視覺觀測向量的集合。在一個操作中,使用主分量分析(PCA)機制將嘴部區(qū)域中的灰度級像素映射到一個32維特征空間中。PCA分解是從一個從嘴部跟蹤模塊130獲得的大約200,000幅嘴部區(qū)域圖像中計算出來的。所得到的大小為32的向量被上采樣(upsampled),以匹配聽覺特征的頻率(例如,約100Hz),并且使用特征均值歸一化或其他常規(guī)技術(shù)來標(biāo)準(zhǔn)化。接著,多塊N個視覺觀測向量被級連在一起,并被投影到13類別的線性判別空間上,以獲得一個新的大小為13的視覺觀測向量的集合。在線性判別分析中使用的類別信息對應(yīng)于13個英文視素(viseme)(英語講話者所使用的公共嘴部位置,聲學(xué)音素在視覺上的相似物)。利用具有三個狀態(tài),每個狀態(tài)12個高斯分量的隱馬爾可夫模型以及對角線協(xié)方差矩陣來為這些視素建模。
在面部檢測,處理,并將數(shù)據(jù)上采樣到音頻數(shù)據(jù)率(如果必要的話)之后,可以使用適當(dāng)?shù)娜诤夏P蛯⑺傻囊曨l數(shù)據(jù)與音頻數(shù)據(jù)融合起來。在一個實施方案中,所采用的是耦合隱馬爾可夫模型(CHMM)。CHMM是適合于將兩個或更多的數(shù)據(jù)流合并到一起的大規(guī)模多媒體應(yīng)用的廣義HMM。CHMM可以被視為一組HMM,一個HMM用于一個數(shù)據(jù)流,其中每個HMM在t時刻的離散節(jié)點以所有相關(guān)HMM在t1時刻的離散節(jié)點為條件。下面將進(jìn)一步描述CHMM。
圖2是圖示了連續(xù)語音識別過程的單詞網(wǎng)絡(luò)的框圖。在一個實施方案中,單詞網(wǎng)絡(luò)的節(jié)點λi是CHMM。在一個實施方案中,網(wǎng)絡(luò)200包括入口節(jié)點201和出口節(jié)點203。入口節(jié)點和出口節(jié)點也被稱為非發(fā)射節(jié)點,它們與觀測無關(guān)。
當(dāng)在入口節(jié)點201接收到分段的視聽數(shù)據(jù)流時,所述數(shù)據(jù)基于將在下面詳細(xì)描述的一種或多種算法來與一個或多個CHMM進(jìn)行匹配。數(shù)據(jù)然后被傳遞給出口節(jié)點203,出口節(jié)點203接著又將數(shù)據(jù)(例如經(jīng)由路徑204)傳遞到另一個模型的入口節(jié)點。一旦在給定所有模型(例如CHMM)的情況下數(shù)據(jù)的所有似然率都被計算出來,就獲得了模型的最大可能序列。在一個實施方案中,經(jīng)由反向跟蹤機制,例如維特比算法來獲得模型的最大可能序列。最大可能序列代表了識別出的語音。
圖3是圖示了根據(jù)一個實施方案的CHMM的狀態(tài)表示的框圖。在這個實施方案中,參考圖3,CHMM300是一個雙流CHMM,包括音頻流304和視頻流303。在一個實施方案中,CHMM300包括入口節(jié)點301和出口節(jié)點302,它們也被稱為非發(fā)射節(jié)點。在這個實施方案中,CHMM300包括在入口節(jié)點301和出口節(jié)點302之間用三個圓圈表示的三種狀態(tài)??梢岳斫獾氖?,在CHMM300中可以包括多于或少于三種的狀態(tài)。
與在傳統(tǒng)方法中用于視聽數(shù)據(jù)的獨立隱馬爾可夫模型(HMM)不同,CHMM可以通過狀態(tài)之間的轉(zhuǎn)移概率來捕獲音頻流和視頻流之間的交互。根據(jù)一個實施方案,CHMM的每種狀態(tài)可以受前面狀態(tài)(包括視頻狀態(tài)和音頻狀態(tài))的條件的影響。例如,視頻流303中的狀態(tài)307受相關(guān)的前面狀態(tài)的影響,例如視頻流303的節(jié)點305和音頻流304的節(jié)點306。
根據(jù)一個實施方案中,視聽CHMM允許異步狀態(tài)的音頻和視頻狀態(tài),例如狀態(tài)305到307,同時保持它們的自然相依性。
入口節(jié)點301和出口節(jié)點302在連續(xù)語音識別中允許模型級聯(lián),并且在模型的邊界強制音頻狀態(tài)和視頻狀態(tài)同步。除CHMM之外,可以獨立地計算出視頻和音頻觀測似然率,與傳統(tǒng)方法所采用的需要級聯(lián)音頻和視頻觀測結(jié)果的那些模型相比,這大大減小了參數(shù)空間以及模型的復(fù)雜性。
圖4是可以與一個實施方案一起使用的連續(xù)混合雙流CHMM的時間表示的動態(tài)貝葉斯表示??驁D400圖示了用在視聽語音識別系統(tǒng)中的連續(xù)混合雙流耦合HMM。諸如403-405的方框代表了隱藏離散節(jié)點,而圓圈描述了連續(xù)可觀測節(jié)點。隱藏節(jié)點可以在時間上被條件化為耦合節(jié)點,并且對于其余隱藏節(jié)點可被條件化為混合節(jié)點。
參考圖4,CHMM400包括視頻流401和音頻流402。每個流都包括一個或多個觀測節(jié)點以及一個或多個隱藏節(jié)點。方框代表隱藏離散節(jié)點,而圓圈描述了連續(xù)的可觀測節(jié)點。隱藏節(jié)點可以在時間上被條件化為耦合節(jié)點,并且對于其余隱藏節(jié)點可被條件化為混合節(jié)點。
根據(jù)一個實施方案,CHMM400通過節(jié)點之間的轉(zhuǎn)移概率來捕獲音頻流和視頻流之間的交互。根據(jù)一個實施方案,在某一時刻上CHMM的每個節(jié)點都可能受到在前面某一時刻上所有相關(guān)節(jié)點(包括音頻節(jié)點和視頻節(jié)點)的條件的影響。例如,視頻流401中在某一時隙(例如t=1)上的節(jié)點405受到前面某一時隙(例如t=0)上的相關(guān)節(jié)點的影響,所述相關(guān)節(jié)點例如是視頻流401的節(jié)點403和音頻流402的節(jié)點404。
在數(shù)學(xué)上,根據(jù)一個實施方案,CHMM的元素可以被定義為πoc(i)=P(qoc=i)]]>(公式1)btc(i)=P(Otc|qtc=i)]]>(公式2)ai|j,kc=P(qtc=i|qt-10=j,qt-11=k)]]>(公式3)其中qtc是在t時刻在第c流中的耦合節(jié)點的狀態(tài)。πoc(i)代表在第c流上的初始條件。btc(i)代表在條件qtc=i]]>的條件下,在第c流上在t時刻給定觀測結(jié)果Otc的觀測概率。 代表在給定qt-10=j]]>并且qt-11=k]]>的條件下,從狀態(tài)時刻t-1轉(zhuǎn)移到t的轉(zhuǎn)移概率。
在與高斯分量的連續(xù)混合中,所觀測節(jié)點的概率可以表示為btc(i)=Σm=1MiCwi,mcN(Otc,μi,mc,Ui,mc)]]>(公式4)其中μi,mc和Ui,mc是一個耦合節(jié)點的第i狀態(tài)的平均和協(xié)方差矩陣以及在第c信道中的關(guān)聯(lián)混合節(jié)點的第m分量。Mic是與第c流中的耦合節(jié)點的第i狀態(tài)相對應(yīng)的混合數(shù)量,并且權(quán)重wi,mc代表條件概率P(stc=m|qtc=i),]]>其中stc是在t時刻在第c流中的混合節(jié)點的分量。與在傳統(tǒng)方法中所使用的隔離單詞視聽語音識別不同,在傳統(tǒng)方法中,一個CHMM被用來為每個視聽單詞建模,而在視聽連續(xù)語音識別中,每個CHMM為可能的音素-視素對之一建模。
CHMM需要被訓(xùn)練來識別音素-視素對??梢岳脛討B(tài)貝葉斯網(wǎng)絡(luò)的最大似然率(ML)訓(xùn)練過程來訓(xùn)練CHMM。由隱馬爾可夫鏈約束的任何離散時間和空間動態(tài)系統(tǒng)都發(fā)射一個序列的可觀測輸出,其中在這些狀態(tài)的軌跡中每個狀態(tài)有一個輸出(例如,觀測結(jié)果)。根據(jù)可觀測的序列或輸出,可以計算出最有可能的動態(tài)系統(tǒng)。結(jié)果是用于底層處理過程的一個模型??商鎿Q地,給定一個輸出序列,可以確定最大可能的狀態(tài)序列。在視聽連續(xù)語音識別任務(wù)中,可以生成音素-視素對的數(shù)據(jù)庫,連同用于每一對的單獨訓(xùn)練集合。
不幸的是,對參數(shù)的迭代最大似然率估計僅僅收斂到一個局部最優(yōu),使得模型初始參數(shù)的選擇成為一個很棘手的問題。為了獲得滿意的結(jié)果,需要一種用于ML初始化的有效方法。一種這樣的方法是基于維特比算法,該算法為音頻流和視頻流的耦合節(jié)點確定最優(yōu)狀態(tài)序列,該序列使觀測似然率最大化。
根據(jù)一個實施方案,用于AVCSR的CHMM參數(shù)的訓(xùn)練分兩個階段來完成,并且可被認(rèn)為是在只有音頻的連續(xù)語音識別中所使用的訓(xùn)練的擴展。在第一階段中,為隔離的音素-視素對估計CHMM參數(shù)。在這個階段中,使用只有音頻的語音識別系統(tǒng)以及音素-視素對應(yīng)關(guān)系表來標(biāo)記訓(xùn)練序列,例如在由Final Workshop 2000 Report于2000年出版,C.Neti等所著的名為“視聽語音識別(Audio Visual Speech Recognition)”中所定義的那些。一開始可以使用基于維特比的初始化過程來估計隔離音素-視素CHMM的參數(shù),例如在聲學(xué)、語音和信號處理的國際會議(2002)上,由A.V.Nefian等人發(fā)表的名為“用于視聽語音識別的耦合隱馬爾可夫模型”中所描述的那些,特別將這篇文章按參考的方式包括進(jìn)來。
緊隨所述過程之后可以是本領(lǐng)域中公知的估計-最大化(EM)算法,例如由英國倫敦的UCL出版公司于1998年出版的、由Finn V.Jensen等人編著的名為“貝葉斯網(wǎng)絡(luò)介紹”中所描述的那些。為了解決連續(xù)語音識別系統(tǒng)的需求,根據(jù)一個實施方案,訓(xùn)練兩個附加的CHMM,以為連續(xù)單詞和句子之間的沉寂期建模。
在第二階段中,通過對來自連續(xù)視聽語音的所有CHMM的嵌入式訓(xùn)練,來精煉在第一階段中個別估計的CHMM的參數(shù)。在這個階段中,訓(xùn)練序列的標(biāo)簽僅在音素-視素的序列上存在,所有的邊界信息都被忽略了。在一個實施方案中,處理過程可類似于用于HMM的嵌入式訓(xùn)練方法,如英國劍橋的Entropic Cambridge Research Laboratory出版的、由S.Young等人所著的名為“The HTK Book”中所定義的,在第一階段中獲得的模型中的每一個都被擴展為具有一個入口和一個出口的非發(fā)射狀態(tài)。非發(fā)射狀態(tài)的使用也在模型邊界上強制實現(xiàn)了音素-視素同步。
嵌入式訓(xùn)練跟在用于連續(xù)視聽語音的EM算法的操作之后,并且可以包括兩個子階段。在第一子階段中,前向概率αt(i,j)=P(Ol,...,Ot,qt0=i,qt1=j)]]>和后向概率βt(i,j)=P(Ot+1,...,OT|qt0=i,qt1=j)]]>被計算出來。從初始條件開始,例如α1(i,j)=π10(i)π11(j)b10(i)b11(j),]]>(公式5)從以下公式6中遞歸地計算出前向概率αt(i,j)=bt-10(j)bt-11(j)Σl,kai,j|l,kat-1(l,k)]]>(公式6)其中t=2,3,...,T。類似地,從初始條件βT(i,j)=1出發(fā),從以下公式7中遞歸地計算出后向概率
βt(i,j)=Σl,kbt+10(l)bt+11(k)al,k|i,j>βt-1(l,k)]]>(公式7)其中t=T-1,T-2,...,1,i和j分別是音頻鏈和視頻鏈的狀態(tài),并且ai,j|k,l=ai|k,1aj|k,l是視聽狀態(tài)i,j和k,l的集合之間的轉(zhuǎn)移概率。第r觀測序列Or=[O1r,...OTr]]]>的概率被計算為Pr=αT(N,M)=β1(1,1)其中,N,M分別是音頻鏈和視頻鏈中的狀態(tài)數(shù),Tr是觀測序列Or的長度。
在第二子階段中,在第一階段中獲得的前向概率和后向概率被用來重新估計狀態(tài)參數(shù),如下所示μ‾i,mc=ΣrΣtγtr,c(i,m)OtrΣrΣtγtr,c(i,m)]]>(公式8)U‾i,mc=ΣrΣtγtr,c(i,m)(Otr-μi,mc)(Otr-μi,mc)1ΣrΣtγtr,c(i,m)]]>(公式9)W‾i,mc=ΣrΣtγtr,c(i,m)ΣrΣtΣmγtr,c(i,m)]]>(公式10)其中γtr,c(i,m)=Σj1Prαtr(i,j)βtr(i,j)Σi,j1Prαt(i,j)βt(i,j)]]>Wi,mcN(Otr,μi,mc,Ui,mc)Σmwi,mcN(Otr,μi,mc,Ui,mc)]]>(公式11)可以使用以下公式來估計狀態(tài)轉(zhuǎn)移概率a‾i|k,l0,1=Σr1PrΣtαtr(k,l)ai|k,lbt0,1(i)Σjβt+1r(i,j)bt1,0(j)Σr1PrΣtαtr(k,l)βtr(k,l)]]>(公式12)假設(shè)ai|k,l0,1=P(qt0,1=i|qt0,1=k)P(qt0,1=i|qt1,0=1),]]>可以簡化對轉(zhuǎn)移概率的重新估計。例如,P(qt0=i|qt1=k)]]>可以被估計為
P(qt0=i|qt1=k)=Σr1PrΣtΣjΣlαtr(k,l)ai,j|k,lbt0(i)bt1(k)βt+1r(i,j)Σr1PrΣtΣjΣlαtr(k,l)βtr(k,l)]]>(公式13)從一個非發(fā)射入口狀態(tài)i向任意一對視聽狀態(tài)(k,l)的轉(zhuǎn)移由下式給出ai|k,l=1RΣr1Prα1r(k,l)β1r(k,l)]]>(公式14)并且從狀態(tài)對(k,l)向離開的非發(fā)射出口狀態(tài)0的轉(zhuǎn)移由下式給出ak,l|o=Σr1PrαTr(k,l)βTr(k,l)Σr1PrΣtαtr(k,l)βtr(k,l)]]>(公式15)根據(jù)一個實施方案,可以經(jīng)由應(yīng)用于單詞網(wǎng)絡(luò)的圖解碼器來實現(xiàn)視聽連續(xù)語音識別,所述單詞網(wǎng)絡(luò)例如是在圖2中所示的單詞網(wǎng)絡(luò)200,它由詞典中的全部單詞組成。單詞網(wǎng)絡(luò)中的每個單詞都可以被存儲為一序列的音素-視素CHMM,并且可以通過應(yīng)用于視聽數(shù)據(jù)的令牌傳遞(token passing)算法的擴展來獲得單詞的最佳序列??梢詮腟.Young等人所著的“HTK Book”中所定義的那些算法中選擇所述令牌傳遞算法??商鎿Q地,可以從M.Oerder等人所著的“詞圖在連續(xù)語音識別和語言理解之間的有效接口”中所定義的算法中選擇所述令牌傳遞算法,上文是由IEEE聲學(xué)、語音和處理信號國際會議出版的,第2卷,1993。
為了處理音頻信道中不同級別的噪聲,音頻和視頻觀測概率被修改以滿足bt0,1~(i)=[bt0,1(i)]α0,1]]>其中α0+α1=1并且α0,α1>=0分別是音頻流和視頻流的指數(shù)。對應(yīng)于特定聲學(xué)SNR(信噪比)級的α0和α1值通過實驗獲得,以使平均誤詞率最小。
已經(jīng)在一些周知的數(shù)據(jù)庫上對視聽連續(xù)語音識別系統(tǒng)進(jìn)行實驗,例如J.Luettin等人的名稱為“用于XM2FDB數(shù)據(jù)庫的估值協(xié)議”,在IDIAP-COM 98-05(1998)中所給出的XM2VTS數(shù)據(jù)庫。在這些實驗中,從約200名講話者捕獲而來的一組約1450個數(shù)字枚舉序列被用于訓(xùn)練,而從其他的約95名講話者捕獲而來的一組約700個序列被用于解碼。以“干凈的”音頻(例如SNR約為30dB)來記錄訓(xùn)練序列。用幾種級別的噪聲(例如白噪聲)來破壞實驗序列的音頻數(shù)據(jù),從而能夠在較少約束的聲學(xué)條件下研究AVSR。
在一個實施方案中,聲學(xué)觀測向量包括13個MFCC系數(shù),這是從約25.6毫秒(ms)的窗口中提取的,有約15.6ms的交疊,利用它們的第一和第二階時間導(dǎo)數(shù)。視覺特征是使用上述方法之一,從嘴部區(qū)域中獲得的,具體地說,它們可以經(jīng)由級聯(lián)算法獲得,例如A.V.Nefian等人所著的名稱為“與講話者無關(guān)的視聽連續(xù)語音識別”中所定義的那些算法,該文收錄于在多媒體國際會議和展覽會,2002中,這里通過參考被明確地包含進(jìn)來。
視覺特征的提取是從基于神經(jīng)網(wǎng)絡(luò)的面部檢測系統(tǒng)開始,緊接著使用一組支持向量機分類器來對嘴部區(qū)域進(jìn)行檢測和跟蹤。使用主分量分析將嘴部區(qū)域中的像素映射到32維特征空間。然后,約15個視覺觀測向量的塊被連接在一起,并被投影到13類別(13-class)的線性判別空間上,例如在由John Wiley Sons公司,紐約,NY,2000出版的,R.O.Duda等人所著的“模式分類”中所定義的那些。所得到的大小為13的向量以及它們的第一和第二階時間導(dǎo)數(shù)被用作視覺觀測序列。如上所述,使用在不帶后向轉(zhuǎn)移的音頻鏈和視頻鏈中具有三個狀態(tài),每個狀態(tài)32個混合的CHMM以及對角線協(xié)方差矩陣來合并聽覺特征和視覺特征。
下面描述實驗視聽語音識別系統(tǒng)針對幾種SNR級的誤詞率(WER)
表1圖5示出了只有音頻的、只有視頻的以及視聽語音識別系統(tǒng)在不同SNR級下的誤詞率。表1和圖5將當(dāng)前AVSR系統(tǒng)的WER與只有音頻的語音識別系統(tǒng)進(jìn)行比較。為了公平比較,在只有音頻的語音識別系統(tǒng)中,所有的音素都使用與在視聽CHMM中的音頻HMM具有相似特征的HMM來建模。
圖6是圖示了使用一個或多個CHMM進(jìn)行連續(xù)視聽語音識別的過程的示例性實施方案的流程圖。該過程可以由硬件(例如電路、專用邏輯等)、軟件(例如運行在通用計算機或?qū)S脵C器上的程序)、或者兩者的組合來實現(xiàn)。在一個實施方案中,示例性的過程600包括接收音頻數(shù)據(jù)流和視頻數(shù)據(jù)流,并且使用耦合隱馬爾可夫模型(CHMM),基于所述音頻和視頻數(shù)據(jù)流來執(zhí)行連續(xù)語音識別。
參考圖6,在框601,接收到視聽數(shù)據(jù)流。視聽信息可以用模擬格式來收集并存儲,或者優(yōu)選地,可以被轉(zhuǎn)換為適當(dāng)?shù)臄?shù)字形式,包括但不限于MPEG-2、MPEG-4、JPEG、運動JPEG或通常用于數(shù)字圖像存儲的其他可順序表示的變換編碼圖像??梢允褂玫统杀?、低分辨率的基于CCD(耦合電荷器件)或CMOS的攝像系統(tǒng),盡管對于某些應(yīng)用而言,支持更高幀率和分辨率的攝像機可能是有用的。音頻數(shù)據(jù)可以由低成本的麥克風(fēng)系統(tǒng)采集,并且可受到各種音頻處理技術(shù)的處理,以去除間歇式的突發(fā)噪音、環(huán)境噪音、靜電噪音、在正常語音頻率范圍之外記錄的聲音、或者任何其他非語音數(shù)據(jù)信號。
在框602,使用MFCC提取過程將聲學(xué)特征提取出來,并且從視聽數(shù)據(jù)中提取出視覺特征。在一個實施方案中,使用上述技術(shù)之一,使用來自嘴部區(qū)域的LDA或/和PCA(主分量分析)系數(shù)來提取視覺特征。在框603,計算出在給定每一個音素-視素模型(例如CHMM)的情況下,視聽數(shù)據(jù)流的每一段的似然率。在框604,如上所述,通過維特比算法選擇出最佳序列的模型(例如CHMM)。如果還有更多的數(shù)據(jù)段(框605),則重復(fù)以上處理,直到處理了所有的數(shù)據(jù)段。
圖7是圖示了在連續(xù)語音識別系統(tǒng)中用于訓(xùn)練一個或多個CHMM的參數(shù)的過程的示例性實施方案的流程圖。該過程可以由硬件(例如電路、專用邏輯等)、軟件(例如運行在通用計算機或?qū)S脵C器上的程序)、或者兩者的組合來實現(xiàn)。在一個實施方案中,示例性的過程700包括使用維特比算法,逐個地基于一個訓(xùn)練序列的隔離音素-視素對來估計耦合隱馬爾可夫模型(CHMM)的參數(shù),并且使用維特比算法,對來自連續(xù)視聽語音的所述CHMM的參數(shù)進(jìn)行訓(xùn)練。
參考圖7,在框701,使用只有音頻的語音識別機制以及音素-視素對應(yīng)表來標(biāo)記一個訓(xùn)練序列的隔離音素-視素對。在框702,使用維特比訓(xùn)練算法來初始化隔離音素-視素對的參數(shù)。在框703,對隔離音素-視素對的所述參數(shù)執(zhí)行估計-最大化(EM)算法。在框704,使用一個或多個CHMM來為連續(xù)單詞和句子之間的沉寂期建模。在框705,和音素-視素對的邊界有關(guān)的標(biāo)記被去除。在框706,對每個音素-視素對計算前向概率和后向概率。在框707,基于前向概率和后向概率來重新估計CHMM的狀態(tài)參數(shù)。
圖8示出了可以與本發(fā)明的實施方案一起使用的示例性計算機的框圖。例如,在圖8中所示的系統(tǒng)800可以包括硬件、軟件或兩者的組合,用以執(zhí)行在圖6和7中所示出的上述過程。注意,雖然圖8示出了計算機系統(tǒng)的各種組件,但這并不是要代表互連組件的任何具體體系結(jié)構(gòu)或方式,因為這些細(xì)節(jié)都和本發(fā)明關(guān)系不大。同樣可以理解的是,網(wǎng)絡(luò)計算機、手持計算機、蜂窩電話以及具有更少組件或者更多組件的其他數(shù)據(jù)處理系統(tǒng)也可以和本發(fā)明一起使用。
如圖8所示,計算機系統(tǒng)800是一種形式的數(shù)據(jù)處理系統(tǒng),它包括與微處理器803、ROM807、易失性RAM805和非易失性存儲器806耦合的總線802。微處理器803可以是英特爾公司生產(chǎn)的奔騰處理器,它被耦合到在圖8的實施例中所示的緩存存儲器804。總線802將這些不同的組件互連在一起,還將這些組件803、807、805和806連接到顯示控制器和顯示設(shè)備808以及輸入/輸出(I/O)設(shè)備810,所述輸入/輸出設(shè)備810可以是鼠標(biāo)、鍵盤、調(diào)制解調(diào)器、網(wǎng)絡(luò)接口、打印機以及本領(lǐng)域中公知的其他設(shè)備。一般,輸入/輸出設(shè)備810通過輸入/輸出控制器809被耦合到系統(tǒng)。易失性RAM805被典型地實現(xiàn)為動態(tài)RAM(DRAM),它需要連續(xù)供電,以刷新或保持存儲器中的數(shù)據(jù)。非易失性存儲器806典型地是磁硬盤驅(qū)動器、磁光盤驅(qū)動器、光盤驅(qū)動器、或者DVD RAM或其他類型的存儲器系統(tǒng),這些存儲器系統(tǒng)即使在去除電源之后也能保持?jǐn)?shù)據(jù)。典型地,非易失性存儲器也將是隨機訪問存儲器,雖然這不是必要的。雖然圖8示出非易失性存儲器是直接耦合到數(shù)據(jù)處理系統(tǒng)中的其余組件的本地設(shè)備,但是將會理解,本發(fā)明也可以使用位于本系統(tǒng)遠(yuǎn)程的非易失性存儲器,例如通過諸如調(diào)制解調(diào)器或以太網(wǎng)接口的網(wǎng)絡(luò)接口耦合到所述數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò)存儲設(shè)備??偩€802可以包括通過本領(lǐng)域中公知的各種橋、控制器和/或適配器彼此連接的一條或多條總線。在一個實施方案中,I/O控制器809包括用于控制USB(通用串行總線)外設(shè)的USB適配器。
這樣就描述了用于視聽連續(xù)語音識別的耦合HMM。將會理解,準(zhǔn)確的視聽數(shù)據(jù)到文本的處理可被用來實現(xiàn)多種應(yīng)用,包括提供用于人機交互和機器人系統(tǒng)的魯棒性框架。在高噪聲環(huán)境中的準(zhǔn)確語音識別實現(xiàn)了在非受控環(huán)境下的連續(xù)語音識別、諸如免提電話的語音命令和控制設(shè)備、以及其他移動設(shè)備。此外,耦合HMM可以應(yīng)用于大量多媒體應(yīng)用中,其中包括兩個或更多的相關(guān)數(shù)據(jù)流,例如語音、一種或兩種手勢和面部表情。此外,耦合HMM可以被很容易地配置來發(fā)揮并行計算的優(yōu)勢,不同的處理器控制不同的建模/訓(xùn)練數(shù)據(jù)流。
在以上說明書中,參考本發(fā)明特定的示例性實施方案描述了本發(fā)明。很顯然,在不偏離如權(quán)利要求書中所闡述的本發(fā)明的更廣精神和范圍的情況下,可以對這些實施方案進(jìn)行各種修改。因此,說明書和附圖應(yīng)被視為示意性的而非限制性的。
權(quán)利要求
1.一種方法,包括接收音頻數(shù)據(jù)流和視頻數(shù)據(jù)流;以及使用多個隱馬爾可夫模型(HMM),基于所述音頻數(shù)據(jù)流和視頻數(shù)據(jù)流來執(zhí)行連續(xù)語音識別,在某一時隙處所述HMM中每一個的節(jié)點都受到前一時隙處相關(guān)HMM的一個或多個節(jié)點的影響。
2.如權(quán)利要求1所述的方法,其中所述音頻和視頻數(shù)據(jù)流具有異步狀態(tài)。
3.如權(quán)利要求1所述的方法,還包括并行處理所述音頻和視頻數(shù)據(jù)流。
4.如權(quán)利要求1所述的方法,其中所述多個HMM為所述音頻和視頻數(shù)據(jù)流的音素-視素對建模。
5.如權(quán)利要求1所述的方法,還包括共同地基于所述音頻和視頻數(shù)據(jù)流的至少一部分來計算某一節(jié)點的轉(zhuǎn)移概率。
6.如權(quán)利要求1所述的方法,還包括獨立地為所述音頻和視頻數(shù)據(jù)流計算觀測似然率。
7.如權(quán)利要求1所述的方法,還包括使用維特比算法來訓(xùn)練所述多個HMM。
8.如權(quán)利要求1所述的方法,還包括從所述視頻數(shù)據(jù)流中執(zhí)行視覺特征提取。
9.一種方法,包括使用維特比算法,基于一個訓(xùn)練序列的隔離音素-視素對逐個地估計多個隱馬爾可夫模型(HMM)的參數(shù),在某一時隙處所述HMM中每一個的節(jié)點都受到前一時隙處相關(guān)HMM的一個或多個節(jié)點的影響;以及使用維特比算法,對來自連續(xù)視聽語音的所述HMM的參數(shù)進(jìn)行訓(xùn)練。
10.如權(quán)利要求9所述的方法,其中所述的估計參數(shù)的操作包括使用只有音頻的語音識別機制以及音素-視素對應(yīng)關(guān)系表來標(biāo)記所述訓(xùn)練序列。
11.如權(quán)利要求9所述的方法,其中所述的估計參數(shù)包括對所述隔離音素-視素對的參數(shù)執(zhí)行基于維特比的初始化過程。
12.如權(quán)利要求11所述的方法,其中所述的估計參數(shù)還包括對所述隔離音素-視素對的參數(shù)執(zhí)行估計-最大化(EM)操作。
13.如權(quán)利要求9所述的方法,其中所述的估計操作還包括使用一個或多個HMM為連續(xù)單詞和句子之間的沉寂期建模。
14.如權(quán)利要求9所述的方法,其中執(zhí)行訓(xùn)練包括去除和所述訓(xùn)練序列的音素-視素對的邊界有關(guān)的標(biāo)記。
15.如權(quán)利要求9所述的方法,其中執(zhí)行訓(xùn)練包括在HMM的邊界同步所述音素-視素對。
16.如權(quán)利要求15所述的方法,其中同步所述音素-視素對包括將所述HMM中的每一個和一個入口非發(fā)射狀態(tài)和一個出口非發(fā)射狀態(tài)關(guān)聯(lián)起來。
17.如權(quán)利要求9所述的方法,其中執(zhí)行訓(xùn)練包括關(guān)于所述訓(xùn)練序列遞歸地為每一個音素-視素對計算前向和后向概率。
18.如權(quán)利要求17所述的方法,其中所述前向和后向概率是基于各個音素-視素對的一組音頻和視頻狀態(tài)而計算出來的。
19.如權(quán)利要求17所述的方法,還包括基于所述前向和后向概率來估計所述HMM的狀態(tài)參數(shù)。
20.一種具有可執(zhí)行代碼的機器可讀介質(zhì),所述可執(zhí)行代碼使得機器執(zhí)行一種方法,所述方法包括接收音頻數(shù)據(jù)流和視頻數(shù)據(jù)流;以及使用多個隱馬爾可夫模型(HMM),基于所述音頻數(shù)據(jù)流和視頻數(shù)據(jù)流來執(zhí)行連續(xù)語音識別,在某一時隙處所述HMM中每一個的節(jié)點都受到前一時隙處相關(guān)HMM的一個或多個節(jié)點的影響。
21.如權(quán)利要求20所述的機器可讀介質(zhì),其中所述方法還包括共同地基于音頻和視頻數(shù)據(jù)流的至少一部分來計算某一節(jié)點的轉(zhuǎn)移概率。
22.如權(quán)利要求20所述的機器可讀介質(zhì),其中所述方法還包括獨立地為所述音頻和視頻數(shù)據(jù)流計算觀測似然率。
23.一種具有可執(zhí)行代碼的機器可讀介質(zhì),所述可執(zhí)行代碼使得機器執(zhí)行一種方法,所述方法包括使用維特比算法,基于一個訓(xùn)練序列的隔離音素-視素對逐個地估計多個隱馬爾可夫模型(HMM)的參數(shù),在某一時隙處所述HMM中每一個的節(jié)點都受到前一時隙處相關(guān)HMM的一個或多個節(jié)點的影響;以及使用維特比算法,對來自連續(xù)視聽語音的所述HMM的參數(shù)進(jìn)行訓(xùn)練。
24.如權(quán)利要求23所述的機器可讀介質(zhì),其中所述的估計參數(shù)包括對所述隔離音素-視素對的參數(shù)執(zhí)行基于維特比的初始化過程。
25.如權(quán)利要求23所述的機器可讀介質(zhì),其中執(zhí)行訓(xùn)練包括在HMM的邊界同步所述音素-視素對。
26.一種系統(tǒng),包括處理器;以及耦合到所述處理器的存儲器,所述存儲器存儲指令,所述指令在被所述處理器執(zhí)行時使得所述處理器執(zhí)行以下操作接收音頻數(shù)據(jù)流和視頻數(shù)據(jù)流;以及使用多個隱馬爾可夫模型(HMM),基于所述音頻數(shù)據(jù)流和視頻數(shù)據(jù)流來執(zhí)行連續(xù)語音識別,在某一時隙處所述HMM中每一個的節(jié)點都受到前一時隙處相關(guān)HMM的一個或多個節(jié)點的影響。
27.如權(quán)利要求26所述的系統(tǒng),其中所述操作還包括共同地基于所述音頻和視頻數(shù)據(jù)流的至少一部分來計算某一節(jié)點的轉(zhuǎn)移概率。
28.一種系統(tǒng),包括處理器;以及耦合到所述處理器的存儲器,所述存儲器存儲指令,所述指令在被所述處理器執(zhí)行時使得所述處理器執(zhí)行以下操作使用維特比算法,基于一個訓(xùn)練序列的隔離音素-視素對逐個地估計多個隱馬爾可夫模型(HMM)的參數(shù),在某一時隙處所述HMM中每一個的節(jié)點都受到前一時隙處相關(guān)HMM的一個或多個節(jié)點的影響;以及使用維特比算法,對來自連續(xù)視聽語音的所述HMM的參數(shù)進(jìn)行訓(xùn)練。
29.如權(quán)利要求28所述的系統(tǒng),其中所述的估計參數(shù)包括對所述隔離音素-視素對的參數(shù)執(zhí)行基于維特比的初始化過程。
30.如權(quán)利要求28所述的系統(tǒng),其中執(zhí)行訓(xùn)練包括在HMM的邊界同步所述音素-視素對。
全文摘要
這里描述了用于使用耦合隱馬爾可夫模型(CHMM)的視聽連續(xù)語音識別(AVCSR)系統(tǒng)的方法和裝置。在一個方面,一個示例性的過程包括接收音頻數(shù)據(jù)流和視頻數(shù)據(jù)流,并且使用多個隱馬爾可夫模型(HMM),基于所述音頻數(shù)據(jù)流和視頻數(shù)據(jù)流來執(zhí)行連續(xù)語音識別,在某一時隙處HMM中每一個的節(jié)點都受到前一時隙處相關(guān)HMM的一個或多個節(jié)點的影響。還描述了其他方法和裝置。
文檔編號G10L15/24GK1761997SQ200480007461
公開日2006年4月19日 申請日期2004年2月26日 優(yōu)先權(quán)日2003年3月19日
發(fā)明者阿拉·內(nèi)夫安, 劉曉星, 皮小波, 梁路宏, 趙義寶 申請人:英特爾公司