一種使用動態(tài)貝葉斯網(wǎng)絡(luò)模型的語音識別系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的目標(biāo)是實(shí)現(xiàn)一種使用貝葉斯網(wǎng)絡(luò)的語音識別系統(tǒng)和方法。特別地,設(shè)及 一種自動語音識別系統(tǒng),其可W在用于廣告和信息意圖的對話系統(tǒng)中應(yīng)用。對話系統(tǒng)的實(shí) 施可W采用報(bào)亭或貨攤的形式,其與顧客或觀眾開始一對話,并且將呈現(xiàn)適當(dāng)?shù)亩嗝襟w內(nèi) 容。
【背景技術(shù)】
[0002] 語音識別系統(tǒng)在日常生活中變得越來越常見。比如,它們可W被用于信息電話中 屯、,比如為公共交通所用。然而,該些系統(tǒng)仍然經(jīng)常依賴于鍵盤和文本作為輸入信息源,而 不是使用語音作為輸入信息源而運(yùn)行。
[0003] 已知各種類型的計(jì)算機(jī)化的交互報(bào)亭被用于與用戶進(jìn)行對話。比如,美國專利 US6256046公開了一種在計(jì)算機(jī)化的報(bào)亭內(nèi)的有源公共用戶交互接口,其通過處理視覺數(shù) 據(jù)、通過使用動作和色彩分析W檢測表示用戶出現(xiàn)的環(huán)境中的改變來感知用戶。交互空間 被定義,系統(tǒng)記錄其環(huán)境的初始模型,該環(huán)境隨著時(shí)間更新,W反映出不活動對象的添加或 減去,并且補(bǔ)償光的改變。該系統(tǒng)研發(fā)了針對移動對象的模型,因此當(dāng)他們在交互空間的附 近移動時(shí),該系統(tǒng)能夠跟蹤用戶。一立體攝像系統(tǒng)進(jìn)一步增強(qiáng)了該系統(tǒng)感知位置和移動的 能力。該報(bào)亭呈現(xiàn)出音頻和視頻的反饋來反映其"看到"了什么。
[0004] 美國專利申請US20080204450公開了一種用于提供虛擬世界的系統(tǒng)、方法和程序 產(chǎn)品,其中主動提供的廣告被嵌入在自動虛擬角色中。所提供的系統(tǒng)包括:用于將廣告虛擬 角色引入虛擬世界的注冊系統(tǒng);用于定向用戶虛擬角色W實(shí)現(xiàn)廣告虛擬角色所傳遞的廣告 內(nèi)容的定向系統(tǒng);用于定義廣告虛擬角色如何在虛擬世界中移動的移動系統(tǒng);W及用于定 義廣告虛擬角色如何將廣告內(nèi)容傳遞給用戶虛擬角色的廣告?zhèn)鬟f系統(tǒng)。
[0005] 諸如上述的已知的對話系統(tǒng)的缺陷包括,在與用戶進(jìn)行復(fù)雜對話時(shí)缺乏足夠的語 音識別能力。
[0006] 美國專利US7203368公開了一種模式識別程序,其使用HMM(隱馬爾科夫模型)和 CHMM(禪合隱馬爾科夫模型)形成了分級的統(tǒng)計(jì)模型。分級的統(tǒng)計(jì)模型支持具有多個(gè)超節(jié) 點(diǎn)的父層和具有與每一個(gè)父層的超節(jié)點(diǎn)相關(guān)聯(lián)的多個(gè)節(jié)點(diǎn)的子層。經(jīng)過訓(xùn)練之后,分級統(tǒng) 計(jì)模型使用從數(shù)據(jù)集中提取的觀察矢量來尋找基本的最優(yōu)狀態(tài)序列片段。對該過程進(jìn)行改 進(jìn)是很有利的。
[0007] 一個(gè)比基于HMM的方案少一些限制的、更加通用的方案,是將貝葉斯網(wǎng)絡(luò)用于語 音識別。使用貝葉斯網(wǎng)絡(luò)的方案包括動態(tài)貝葉斯網(wǎng)絡(luò)值BN),已經(jīng)在W下出版物中被公開: -M. Wester,J. Frankel,W及 S. King所著的;"Asynchronous articulatory feature recognition using dynamic Bayesian networks" (Proceedings of lEICI Beyond HMM Workshop, 2004)("使用動態(tài)貝葉斯網(wǎng)絡(luò)的異步分節(jié)特征識別",公開于2004年HMM研討會 的IEICI會議錄); -J. A. Bilmes 和 C. Bartels 所著的"Graphical model architectures for speech reco即ition",IE邸 Si即al Processing Magazine, vol. 22,pp.89-100,2005("用于語 音識別的圖形模型構(gòu)造",公開于IE邸信號處理雜志,2005年,vol. 22, pp. 89-100); -J. Frankel,M. Wester 和 S. King 所著的"Articulator/feature recognition using dynamic Bayesian networks" , Computer speech and Language,vol. 21,no. 4, pp. 620-640, October 2007 ("使用動態(tài)貝葉斯網(wǎng)絡(luò)的發(fā)音器/特征識別",公開于2007年 10月,計(jì)算機(jī)語音和語言vol. 21,no. 4,卵.620-640)。 使用貝葉斯網(wǎng)絡(luò)的語音識別方法依據(jù)特征矢量對聲音時(shí)長進(jìn)行建模。在DBN中,使用 表示聲音的變量替換表示時(shí)長的變量已經(jīng)變得可能。然而,所有的現(xiàn)有技術(shù)的方案都在預(yù) 定的時(shí)間范圍內(nèi)進(jìn)行語音分析。
[000引考慮到之前的現(xiàn)有技術(shù),有必要設(shè)計(jì)和實(shí)現(xiàn)一種允許提高人類和機(jī)器之間的對話 效率的語音識別系統(tǒng)和方法。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的在于提供一種用于自動語音識別的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括W下步 驟;通過輸入設(shè)備記錄表示語音的電信號,并將該信號轉(zhuǎn)換至頻域或時(shí)-頻域,基于DBN在 模塊分析中分析信號,被配置為基于觀察到的信號特征(0A,0V)生成單詞(W)的假設(shè)和它 們的概率,基于特定單詞(W)假設(shè)和它們的概率識別出表示語音的電信號所對應(yīng)的文本。 該方法的特征在于,將觀察到的信號特征輸入到分析模塊中,該觀察到的信號是對于多個(gè) 時(shí)間段、在至少兩條并行信號處理線上的頻域或時(shí)-頻域中為信號而確定的,其中在每條 線上的時(shí)間片段都不同,并且,在分析模塊中對至少兩個(gè)不同的時(shí)間片段分析觀察到的信 號特征之間的關(guān)系。
[0010] 優(yōu)選地,時(shí)間片段具有預(yù)定的時(shí)長。
[0011] 優(yōu)選地,時(shí)間片段取決于語音片段的內(nèi)容,比如音素(phonemes)、音節(jié) (syll油les)、單詞(words)。
[0012] 優(yōu)選地,該方法進(jìn)一步包括在分析模塊定義描述模型的變量之間的確定性和概率 性關(guān)系,而概率性關(guān)系至少被定義用于將觀察到的信號特征與當(dāng)前狀態(tài)(Sti)進(jìn)行關(guān)聯(lián)。
[0013] 優(yōu)選地,該方法進(jìn)一步包括同時(shí)分析不同的觀察到的信號特征(0A,0V)。
[0014] 本發(fā)明的另一個(gè)目標(biāo)是實(shí)現(xiàn)用于語音識別的、計(jì)算機(jī)實(shí)現(xiàn)的系統(tǒng),包括用于將 代表語音的電信號進(jìn)行記錄的輸入設(shè)備,用于將表示語音的記錄的電信號轉(zhuǎn)換為頻域或 時(shí)-頻域的模塊,基于DBN的分析模塊,被配置為分析表示語音的信號,并且,被配置為基于 觀察到的信號特征(0A,0V)生成單詞(W)的假設(shè)和它們的概率,用于基于已定義的單詞(W) 的假設(shè)與它們的概率識別表示語音的電信號所對應(yīng)的文本的模塊。該系統(tǒng)進(jìn)一步包括至少 兩個(gè)信號參數(shù)化模塊,用于為分析模塊在至少兩條并行信號處理線上為每條線上不同的時(shí) 間片段確定至少兩個(gè)觀察到的信號特征,其中分析模塊被配置為分析在至少兩個(gè)不同的時(shí) 間片段上,觀察到的信號特征之間的相關(guān)性。
[0015] 本發(fā)明的目標(biāo)是還提供一種計(jì)算機(jī)程序,包括當(dāng)所述程序在計(jì)算機(jī)上運(yùn)行時(shí),用 于執(zhí)行根據(jù)本發(fā)明的計(jì)算機(jī)實(shí)現(xiàn)的方法的所有步驟的程序代碼裝置,還有存儲計(jì)算機(jī)可執(zhí) 行指令的計(jì)算機(jī)可讀介質(zhì),當(dāng)在計(jì)算機(jī)上執(zhí)行該指令時(shí),該指令執(zhí)行根據(jù)本發(fā)明的計(jì)算機(jī) 實(shí)現(xiàn)的方法的所有步驟。 附圖簡要說明
[0016] 已經(jīng)在附圖中的示例性實(shí)施例中公開了本發(fā)明的目標(biāo),其中:
[0017] 附圖1示出了依據(jù)本發(fā)明的系統(tǒng)的方框圖;
[001引附圖2示出了自動語音識別過程的方框圖;
[0019] 附圖3示出了在不同長度的并行時(shí)間周期內(nèi)使用DBN對語音進(jìn)行模型化;
[0020] 附圖4描述了使用與附圖3中示出的DBN相似的DBN進(jìn)行單詞序列解碼的例子 (為了示例性目的,已經(jīng)被簡化的版本)。
【具體實(shí)施方式】
[0021] 附圖1示出了依據(jù)本發(fā)明的系統(tǒng)的方框圖。該系統(tǒng)可W被用于交互性廣告或其它 提供信息的對話系統(tǒng)中。對話盡可能地接近現(xiàn)實(shí)中的對話。由于使用諸如模式識別、語義 分析的技術(shù),使用語音合成所伴隨的本體認(rèn)知和自然語言生成,該種