具有互補(bǔ)語言模型的識(shí)別引擎的制作方法

文檔序號(hào)：2825707閱讀：256來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：具有互補(bǔ)語言模型的識(shí)別引擎的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種識(shí)別口語單詞序列的巨大詞匯量識(shí)別系統(tǒng)，該系統(tǒng)包括用于接收表示口語單詞序列的時(shí)序輸入模式的輸入裝置；利用與語音識(shí)別器關(guān)聯(lián)的大詞匯量識(shí)別模型按照詞匯表中的單詞序列識(shí)別輸入模式的大詞匯量語音識(shí)別器。
US5819220公開了一種用于識(shí)別因特網(wǎng)環(huán)境中的語音的系統(tǒng)。該系統(tǒng)具體以利用語音訪問萬維網(wǎng)(WWW)上的信息資源為目標(biāo)。從傳統(tǒng)語音識(shí)別領(lǐng)域中遇到的問題來看，將語音識(shí)別系統(tǒng)建立成Web的接口面臨著非常困難的問題。由于用戶實(shí)際上能虛擬地訪問任何主題的任何文件，因此主要問題是系統(tǒng)需要支持巨大的詞匯量。如果不能支持巨大詞匯量，就很難建立適合巨大詞匯量的諸如語言模型等適當(dāng)識(shí)別模型。在已知系統(tǒng)中利用了包括統(tǒng)計(jì)學(xué)上為N個(gè)單詞符列的語言模型和聲模型的預(yù)定識(shí)別模型。利用Web-觸發(fā)的單詞組可動(dòng)態(tài)地改變識(shí)別模型。HTML(超文本鏈接標(biāo)示語言)文件包括諸如超文本鏈接的鏈接，它用于識(shí)別將包括到可能促進(jìn)單詞識(shí)別搜索的最終詞組中的詞組。以這種方式通過結(jié)合萬維網(wǎng)-觸發(fā)的詞組使用于計(jì)算語音識(shí)別計(jì)分的詞組產(chǎn)生移置。
已知的系統(tǒng)需要適當(dāng)?shù)木薮笤~匯量模型作為能在適配后獲得增階模型的起動(dòng)模型。實(shí)際上，可將增階模型看成是對(duì)當(dāng)前識(shí)別語境(context)最佳的傳統(tǒng)大詞匯量模型。正如前面所指出的，很難建立合適的巨大詞匯量模型，如果其僅用作起動(dòng)模型也是如此。對(duì)諸如識(shí)別特定萬維網(wǎng)網(wǎng)點(diǎn)或HTML文件的輸入而言，某種識(shí)別任務(wù)又產(chǎn)生了另一個(gè)問題，其類似于在搜索引擎或諸如書店等大型電子商店中出現(xiàn)的問題。在該情況下所能說出的單詞的數(shù)量巨大。傳統(tǒng)大詞匯量模型通常不能有效覆蓋可能單詞的整個(gè)范圍。利用較少的單詞移置起動(dòng)模型不會(huì)產(chǎn)生良好的識(shí)別模型。假設(shè)起動(dòng)模型已經(jīng)相當(dāng)好，但是適當(dāng)?shù)囊浦脮?huì)需要巨大數(shù)量的附加詞組和相當(dāng)大數(shù)量的處理。
本發(fā)明的一個(gè)目的是提供一種能更好地處理巨大詞匯量的識(shí)別系統(tǒng)。
為實(shí)現(xiàn)該目的，系統(tǒng)的特征在于該系統(tǒng)包括數(shù)量為N的多個(gè)大詞匯量語音識(shí)別器，每個(gè)識(shí)別器都與相應(yīng)的、不同的大詞匯量識(shí)別模型關(guān)聯(lián)；每個(gè)識(shí)別模型都以巨大詞匯量的特定部分為目標(biāo)；而且該系統(tǒng)包括控制器，所述控制器能將輸入模式導(dǎo)入多個(gè)語音識(shí)別器，并從被多個(gè)語音識(shí)別器識(shí)別的單詞序列中選擇被識(shí)別的單詞序列。
通過利用若干個(gè)識(shí)別器，其中每個(gè)識(shí)別器具有以巨大詞匯量的一部分為目標(biāo)的特定識(shí)別模型，可將為巨大詞匯量建立識(shí)別模型的任務(wù)分解成為特定語境建立大詞匯量模型的易管理任務(wù)。這些語境可包括健康、娛樂、計(jì)算機(jī)、藝術(shù)、商務(wù)、教育、行政管理、科學(xué)、新聞、旅游等?？梢岳斫獾氖峭ǔ＿@些語境中的每個(gè)會(huì)在詞匯上重疊，例如在語言的常用單詞上。在這些通用單詞的統(tǒng)計(jì)上或在這些語境所特有的行話上這些語境會(huì)有差別。通過利用若干個(gè)這種模型識(shí)別輸入，利用適當(dāng)受過訓(xùn)練的模型可識(shí)別較寬范圍的話語。利用若干模型的另一個(gè)優(yōu)點(diǎn)是能允許識(shí)別過程中進(jìn)行更好的鑒別。如果使用一個(gè)巨大的詞匯表，則僅能識(shí)別某一話語的一種特定含義(和拼寫)。舉例來說，如果用戶發(fā)出一個(gè)聲音類似“color”的單詞，大部分被識(shí)別的單詞序列將包括非常常用的單詞“color”。不太可能識(shí)別出單詞“collar”(時(shí)裝語境)，或醋漬鱈魚卷中的“collar”(食物語境)，或鎖骨(健康語境)。這些特定詞匯在巨大詞匯表中不會(huì)有太多被識(shí)別的機(jī)會(huì)，其中不可避免地由頻繁出現(xiàn)的常用單詞的單詞序列占據(jù)優(yōu)勢(shì)。通過利用若干模型，每個(gè)模型將從中識(shí)別一個(gè)或多個(gè)候選單詞序列，然后據(jù)此能進(jìn)行選擇。即使在最終的選擇中選擇了單詞序列“color”，也可以將可選擇的單詞序列“collar”呈現(xiàn)給用戶。
優(yōu)選地，在用戶不經(jīng)歷識(shí)別過程中明顯延遲的意義上，識(shí)別器要并行操作。這可通過利用分離的識(shí)別引擎且每個(gè)引擎具有自己的處理資源來實(shí)現(xiàn)?？蛇x擇的是，這可通過利用功率足夠大的串行處理器、且串行處理器利用傳統(tǒng)時(shí)間分段技術(shù)并行地執(zhí)行識(shí)別任務(wù)來實(shí)現(xiàn)。
應(yīng)當(dāng)注意的是，利用并行語音識(shí)別引擎是公知的。US5754978描述了并行利用識(shí)別引擎的內(nèi)容。所有引擎具有較高精度，例如95％。如果引擎的5％的不準(zhǔn)確度不重疊，就能提高識(shí)別精度。為確保不準(zhǔn)確度不會(huì)完全重疊，引擎是不同的?？梢赃x擇的是，引擎可以類似，在該情況下，一個(gè)引擎的輸入信號(hào)會(huì)受到輕微干擾或一個(gè)引擎受到輕微干擾。比較器根據(jù)引擎輸出之間的一致度比較被識(shí)別的文本并接受或拒絕該文本。由于該系統(tǒng)需要精確的識(shí)別引擎，其不存在巨大詞匯表，因此該系統(tǒng)不能提供解決巨大詞匯量識(shí)別的方案。系統(tǒng)也不使用以巨大詞匯表的特定部分為目標(biāo)的不同模型。
WO98/10413描述了一種對(duì)話系統(tǒng)，該系統(tǒng)具有任選數(shù)量的且能并行操作的語音識(shí)別模塊。該模塊以語音識(shí)別的特定類型為目標(biāo)，這些特定類型是例如孤立的數(shù)單詞識(shí)別、連續(xù)數(shù)識(shí)別、少量詞匯的單詞識(shí)別、孤立的大詞匯量識(shí)別、連續(xù)詞匯識(shí)別、關(guān)鍵詞識(shí)別、單詞序列識(shí)別、字母識(shí)別等。對(duì)話系統(tǒng)預(yù)先知道用戶將提供哪種類型的輸入，于是起動(dòng)一個(gè)或多個(gè)特定模塊。例如，如果用戶需要說一個(gè)數(shù)，對(duì)話引擎就起動(dòng)孤立的數(shù)字識(shí)別和連續(xù)數(shù)識(shí)別，允許用戶說出作為數(shù)單詞或作為連續(xù)數(shù)的數(shù)碼。該系統(tǒng)沒有提供處理巨大詞匯量的方案。
可以預(yù)先確定根據(jù)本發(fā)明的系統(tǒng)識(shí)別模型。優(yōu)選地，正如從屬權(quán)利要求2所限定的，利用模型選擇器動(dòng)態(tài)地選擇至少一個(gè)可有效用于識(shí)別的模型。該選擇取決于用戶輸入的語境，其類似于詢問或命令主題。優(yōu)選地，模型選擇器選擇許多識(shí)別模型。實(shí)際上，至少一個(gè)模型會(huì)代表普通主題的常用日常詞匯。一般該模型經(jīng)常會(huì)用到。
在根據(jù)從屬權(quán)利要求3限定的實(shí)施例中，文件定義識(shí)別語境。正如從屬權(quán)利要求5所述的，這可以通過掃描文件中出現(xiàn)的單詞并確定最適合識(shí)別這些單詞的識(shí)別模型(例如，與文件共同的單詞或單詞系列最多的那些模型)來完成。
在根據(jù)從屬權(quán)利要求4限定的實(shí)施例中，在網(wǎng)頁中顯示語境(或多個(gè)語境)，例如利用嵌入標(biāo)記來識(shí)別語境。例如，網(wǎng)頁還可以通過鏈接來顯示語境(或語境識(shí)別符)。
在依照從屬權(quán)利要求6限定的實(shí)施例中，系統(tǒng)有效地試圖識(shí)別適合當(dāng)前識(shí)別任務(wù)的那些識(shí)別模型。除當(dāng)時(shí)有效用于識(shí)別的識(shí)別模型外，還要檢驗(yàn)其它模型的適用性。通過利用一個(gè)或多個(gè)附加識(shí)別器可將該檢驗(yàn)作為后臺(tái)任務(wù)執(zhí)行，其檢查未用模型能否比有效使用的一個(gè)模型給出更好的結(jié)果?？梢赃x擇的是，例如當(dāng)用戶不說話時(shí)，現(xiàn)行識(shí)別器可用于檢驗(yàn)識(shí)別器的大量性能被留置時(shí)的檢驗(yàn)?zāi)Ｐ汀Ｔ摍z驗(yàn)可包括用戶的所有輸入。特別是如果用戶已經(jīng)給出了大量語音輸入，檢驗(yàn)優(yōu)選地限于最近的輸入。通過這種方式，無論用戶多快地改變主題，也能選擇到適當(dāng)模型。確定哪一個(gè)模型最適合、即提供最高識(shí)別精度的模型的標(biāo)準(zhǔn)最好基于類似記分或置信量度的識(shí)別性能指標(biāo)進(jìn)行。
在根據(jù)從屬權(quán)利要求7限定的實(shí)施例中，識(shí)別模型分層設(shè)置。這會(huì)簡(jiǎn)化選擇合適模型。優(yōu)選地，識(shí)別從若干個(gè)相對(duì)普通的模型開始。如果某個(gè)普通模型證明能給出良好的識(shí)別結(jié)果，則檢驗(yàn)較特別模型以進(jìn)一步提高識(shí)別。若干較普通模型可共用一些較特別模型。如果某一時(shí)刻特別模型的識(shí)別結(jié)果變差，就可嘗試等級(jí)位于特定模型之上的若干較普通模型。這就能實(shí)現(xiàn)從一個(gè)語境到一個(gè)語境的平穩(wěn)變換。舉例來說，用戶從提供有關(guān)普通健康語境的輸入開始。在某一時(shí)刻可以檢測(cè)到，開始用戶集中在較特定的醫(yī)療中心或機(jī)構(gòu)的語境上，甚至涉及到最特定的健康農(nóng)莊語境。具體地，如果健康農(nóng)莊處于有吸引力的區(qū)域，這將鼓勵(lì)用戶移至較普通的度假或旅游語境，或者更準(zhǔn)確地說是健康農(nóng)莊區(qū)域的旅游。
正如從屬權(quán)利要求8所限定的，可通過分離的識(shí)別服務(wù)器進(jìn)行識(shí)別。在因特網(wǎng)語境中，這種服務(wù)器可以是網(wǎng)絡(luò)上的分散站，或該服務(wù)器與諸如搜索引擎或類似于電子書店等服務(wù)提供者的現(xiàn)有網(wǎng)站結(jié)合。具體地，為許多用戶操作的識(shí)別服務(wù)器需要能夠支持適合于大部分用戶的詞匯表。若干特定大詞匯量模型的使用使該系統(tǒng)能更好地、高識(shí)別精度地執(zhí)行該任務(wù)。
參照附圖中示出的實(shí)施例的說明將使本發(fā)明的這些和其它方面更清楚。

圖1表示大/巨大詞匯量識(shí)別器的結(jié)構(gòu)；圖2表示完整的單詞模型；圖3表示根據(jù)本發(fā)明的系統(tǒng)的方框圖；圖4表示識(shí)別模型的層級(jí)；以及圖5表示根據(jù)本發(fā)明分布的系統(tǒng)的方框圖。
諸如大詞匯量連續(xù)語音識(shí)別系統(tǒng)的語音識(shí)別系統(tǒng)通常使用識(shí)別模型集合來識(shí)別輸入模式。例如，可利用聲模型和詞匯表識(shí)別單詞，并利用語言模型改進(jìn)基本識(shí)別結(jié)果。圖1表示大詞匯量連續(xù)語音識(shí)別系統(tǒng)100的典型結(jié)構(gòu)〔參見L.Rabiner，B-H.Juang，“Fundamental ofspeech recognition”，Prentice Hall 1993，434到454頁〕。系統(tǒng)100包括頻譜分析子系統(tǒng)110和單元匹配子系統(tǒng)120。在頻譜分析子系統(tǒng)110中對(duì)語音輸入信號(hào)(SIS)進(jìn)行頻譜和/或時(shí)間(temporally)分析，以便計(jì)算特征的表示向量(觀測(cè)向量，0V)。通常，對(duì)語音信號(hào)進(jìn)行數(shù)字化處理(例如以6.67kHz的速度采樣)，并例如通過實(shí)施預(yù)強(qiáng)調(diào)對(duì)其進(jìn)行預(yù)處理。例如將連續(xù)樣值集合(批處理)成與32毫秒的語音信號(hào)相對(duì)應(yīng)的幀。例如，幀相繼局部重疊16微秒。通常利用線性預(yù)測(cè)編碼(LPC)的頻譜分析方法為每個(gè)幀計(jì)算特征表示向量(觀測(cè)向量)。例如，特征向量可具有24、32或63個(gè)分量。大詞匯量連續(xù)語音識(shí)別的標(biāo)準(zhǔn)方法是假定語音生成的概率模型，借此確定的單詞序列W＝w1w2w3…wq產(chǎn)生聲觀測(cè)向量序列Y＝y(tǒng)1y2y3…yT。通過確定單詞序列w1w2w3…wq可從統(tǒng)計(jì)學(xué)上減小識(shí)別誤差，所述單詞序列最可能形成觀測(cè)向量的觀測(cè)序列Y＝y(tǒng)1y2y3…yT(隨時(shí)間t＝1，…，T)，其中觀測(cè)向量是頻譜分析子程序110的輸出。這導(dǎo)致確定了最大后驗(yàn)概率max P(W|Y)，對(duì)于所有可能的單詞序列W。
通過對(duì)條件概率施用Baye定理，P(W|Y)將由下式給出P(W|Y)＝P(W|Y).P(W)/P(Y)由于P(Y)與W無關(guān)，因此最可能的單詞序列給出如下arg max P(Y|W).P(W)適合對(duì)所有可能的單詞序列W在單元匹配子系統(tǒng)120中，聲模型構(gòu)成了等式(1)的第一項(xiàng)。聲模型可用于為給定單詞串W估算觀測(cè)向量序列Y的概率P(Y|W)。對(duì)于大詞匯量系統(tǒng)，這通常通過將觀測(cè)向量與語音識(shí)別單元的目錄進(jìn)行匹配來執(zhí)行。語音識(shí)別單元由聲參考序列表示。可以使用各種形式的語音識(shí)別單元。舉例來說，可用一個(gè)語音識(shí)別單元表示整個(gè)單詞或甚至一組單詞。單詞模型(WM)為給定詞匯表的每個(gè)單詞提供聲參考序列的錄音。對(duì)于整個(gè)單詞用語音識(shí)別單元表示的系統(tǒng)，在單詞模型與語音識(shí)別單元之間存在直接關(guān)系。其它系統(tǒng)，特別是大詞匯量的系統(tǒng)，可用于層級(jí)基于諸如音素、雙音素或音節(jié)等的子單詞單元以及諸如fenenes和fenones的派生單元的語言識(shí)別單元。對(duì)于這種系統(tǒng)，單詞模型由字典134和子單詞模型132給定，所述字典134描述了與詞匯表中的單詞相關(guān)的子單詞序列，子單詞模型132描述了涉及語音識(shí)別單元的聲參考序列。單詞模型合成器136根據(jù)子單詞模型132和字典134合成單詞模型。圖2表示基于子單詞單元得到系統(tǒng)單詞模型220，其中通過三個(gè)每個(gè)具有四個(gè)聲參考序列(251，252，253，254；261到264；271到274)的子單詞模型序列(250，260，270)為所示單詞建立模型。圖2所示的單詞模型是基于Hidden MarkovModel(HMM)，該模型廣泛用于隨機(jī)建立模型語音信號(hào)。利用這種模型，每個(gè)識(shí)別單元(單詞模型或子單詞模型)通常以HMM為特征，其參數(shù)由訓(xùn)練數(shù)據(jù)組估算出來。對(duì)于大詞匯量的語音識(shí)別系統(tǒng)，由于需要大量訓(xùn)練數(shù)據(jù)為較大單元充分訓(xùn)練HMM，因此通常使用有限的子單詞單元組，其數(shù)量例如為40。HMM狀態(tài)與聲參考對(duì)應(yīng)。已知有多種為參考建立模型的技術(shù)，它們包括不連續(xù)的或連續(xù)的概率密度。與一個(gè)特定話語相關(guān)的每個(gè)聲參考序列也稱為發(fā)音的聲錄音?？梢岳斫獾氖?，如果使用除HMM外的其它識(shí)別技術(shù)，聲錄音的細(xì)節(jié)將會(huì)不同。
圖1的單詞級(jí)別匹配系統(tǒng)130將觀測(cè)向量與所有語音識(shí)別單元的序列進(jìn)行匹配，并提供向量與序列之間的匹配可能性。如果使用子單詞單元，則可通過利用字典134對(duì)匹配進(jìn)行約束，以便使可能的子單詞單元序列限于字典134中的序列。這減少了可能的單詞序列輸出。
對(duì)于完全識(shí)別，優(yōu)選的是也利用句子級(jí)別匹配系統(tǒng)140，該匹配系統(tǒng)基于語言模型(LM)進(jìn)一步對(duì)匹配進(jìn)行限制，以便使被研究的路徑是與作為正確序列的單詞序列相對(duì)應(yīng)的那些路徑，其中所述正確序列是由語言模型確定的。因而這些語言模型構(gòu)成了等式(1)的第二項(xiàng)P(W)。將聲模型與語言模型的結(jié)果相結(jié)合產(chǎn)生了單元匹配子系統(tǒng)120的輸出，該輸出就是被識(shí)別的句子(RS)152。模式識(shí)別中使用的語言模型可包括語言和識(shí)別任務(wù)的句法和/或語義約束142?；诰浞s束的語言模型通常是指語法144。語言模型使用的語法144提供了單詞序列W＝w1w2w3…wq的概率，原則上其由下式給出P(W)＝P(w1)P(w2|w1).P(w3|w1w2)…P(wq|w1w2w3…wq)由于實(shí)際上不能為給定語言中的所有單詞和所有序列長(zhǎng)度可靠地估算條件單詞概率，因此廣泛使用N個(gè)字母組的單詞模型。在N個(gè)字母組模型中，項(xiàng)P(wj|w1w2w3…wj-1)與P(wj|wj-N+1…wj-1)接近。實(shí)際上使用雙字母組或三字母組。在三字母組中，項(xiàng)P(wj|w1w2w3…wj-1)與P(wj|wj-2wj-1)接近。
圖3表示根據(jù)本發(fā)明的語音識(shí)別系統(tǒng)300的方框圖。為將被識(shí)別的語音轉(zhuǎn)換成文本或類似表達(dá)的應(yīng)用而具體描述了系統(tǒng)工作的例子。這些原文表達(dá)可用于口授目的，其中將文本表達(dá)輸入(enter)到例如單詞處理器或用于確定數(shù)據(jù)庫中的字段等的文本字段中。對(duì)于口授，當(dāng)前大詞匯量識(shí)別器可支持高達(dá)60000個(gè)單詞的有效詞匯表和字典。很難獲得足夠的相關(guān)數(shù)據(jù)建立精度足夠高地識(shí)別更大量單詞的模型。通常，用戶可將有限數(shù)量的單詞增添到有效詞匯表/字典中。這些單詞可從300000到500000個(gè)單詞的后臺(tái)詞匯表(其還包括單詞的聲錄音)中檢索到。為了口授或類似目的，例如巨大詞匯表可由至少100000個(gè)有效單詞或甚至超過300000個(gè)有效單詞組成?？梢岳斫獾氖?，具體對(duì)于通過單擊鏈接產(chǎn)生完全不同語境的因特網(wǎng)環(huán)境來說，優(yōu)選的是能有效地識(shí)別許多后臺(tái)詞匯表的單詞。對(duì)于其它諸如識(shí)別名稱的識(shí)別任務(wù)，通常將其模型建立成具有附屬于它的某種優(yōu)先命名概率形式的平面目錄，但對(duì)于它不具備高質(zhì)量的語言模型，因此總是將超過50000個(gè)單詞的詞匯表歸入巨大詞匯表。
可以理解的是，識(shí)別結(jié)果不需要用于口授目的。其同樣可用作諸如對(duì)話系統(tǒng)等其它系統(tǒng)的輸入，其中根據(jù)被識(shí)別的語音從數(shù)據(jù)庫中檢索信息，或象訂一本書或預(yù)定旅行那樣進(jìn)行操作。
在圖3中示出了獨(dú)立系統(tǒng)300，其優(yōu)選利用諸如PC的計(jì)算機(jī)實(shí)施。標(biāo)記310表示用于從用戶處接收語音表示信號(hào)的互連裝置。例如，話筒可與互連裝置310連接?？梢岳斫獾氖?，例如，也可以通過電話或網(wǎng)絡(luò)從遠(yuǎn)處預(yù)先錄下或檢索語音表示信號(hào)。系統(tǒng)300包括接口320，用以接收來自用戶的輸入。例如，這也可以利用傳統(tǒng)的聲卡實(shí)現(xiàn)。如果接口具有用于接收模擬形式語音的輸入端，則接口優(yōu)選包括用于將模擬語音轉(zhuǎn)化成適合于語音識(shí)別系統(tǒng)330進(jìn)一步處理的格式的數(shù)字樣本。如果接口具有用于接收數(shù)字形式語音的輸入端，優(yōu)選地，轉(zhuǎn)換器能夠?qū)?shù)字?jǐn)?shù)據(jù)轉(zhuǎn)化成可進(jìn)一步處理的合適的數(shù)字格式。例如，正象針對(duì)圖1的頻譜分析子系統(tǒng)110所描述的，語音識(shí)別系統(tǒng)330通常分析輸入信號(hào)。根據(jù)本發(fā)明，語音識(shí)別系統(tǒng)330包括多個(gè)大詞匯量的語音識(shí)別器，每個(gè)識(shí)別器都與對(duì)應(yīng)的、不同的大詞匯量識(shí)別模型關(guān)聯(lián)。正如圖3的標(biāo)記335所示，對(duì)于圖1所述的典型識(shí)別，各識(shí)別器可共用圖1中不受模型約束的頻譜分析子系統(tǒng)110。圖3表示利用三個(gè)分離的識(shí)別器331、332和333。識(shí)別器可使用相同算法，其中差別在于所用的諸如詞匯表和語言模型的模型。語言識(shí)別最好與說話者無關(guān)，并能允許連續(xù)語音輸入。實(shí)質(zhì)上，語音識(shí)別是公知的，而在許多文件中已經(jīng)公開了該內(nèi)容，這些文件包括例如與US序列號(hào)08/425304(PDH91136)對(duì)應(yīng)的EP92202782.6，與US序列號(hào)08/751377(PDH91138)對(duì)應(yīng)的EP92202783.4，與US5634083(PDH93034)對(duì)應(yīng)的EP94200475.5，所有這些申請(qǐng)都轉(zhuǎn)讓給本申請(qǐng)的受讓人。從識(shí)別器幾乎在同一時(shí)刻獨(dú)立識(shí)別同一語音輸入的意義上看，識(shí)別器“并行”操作。這可利用每個(gè)識(shí)別器的單獨(dú)資源來實(shí)現(xiàn)，這些資源例如是“并行”操作處理器中的單獨(dú)處理器或處理單元，其中并行操作處理器例如是VLIW處理器。利用具有足夠高性能的傳統(tǒng)順序處理器也可能獲得類似的“并行”性能，其中每個(gè)識(shí)別器執(zhí)行獨(dú)立任務(wù)。優(yōu)選地，在系統(tǒng)已經(jīng)接收到單詞后的單詞識(shí)別過程中不會(huì)出現(xiàn)明顯延遲的意義上，識(shí)別是實(shí)時(shí)的。
根據(jù)本發(fā)明，每個(gè)大詞匯量的語音識(shí)別器與各自的、不同的大詞匯量識(shí)別模型關(guān)聯(lián)，其中每個(gè)識(shí)別模型以巨大詞匯表的特定部分為目標(biāo)。優(yōu)選地從存儲(chǔ)器340裝載模型。在此為了說明，識(shí)別模型意指用于一個(gè)識(shí)別任務(wù)的相關(guān)模型組。例如，參照?qǐng)D1，巨大詞匯表一個(gè)特定部分的識(shí)別模型由單詞模型(字典134和子單詞模型132)和語言模型(語法144和語義約束142)構(gòu)成。當(dāng)然，在各識(shí)別模型之間通常會(huì)存在重疊。這些重疊通常發(fā)生在部分詞匯上。語言模型也可能局部甚至完全相同。在簡(jiǎn)單系統(tǒng)中，識(shí)別模型的數(shù)量對(duì)應(yīng)于識(shí)別器的數(shù)量；每個(gè)識(shí)別器與專有的識(shí)別模型關(guān)聯(lián)成固定的一對(duì)一關(guān)系。優(yōu)選地，正如在下面將詳細(xì)描述的那樣，系統(tǒng)包括的模型比有效識(shí)別器多。圖中示出了8個(gè)模型341到348。
識(shí)別器的輸入被導(dǎo)入到控制器350中，以便作出對(duì)被識(shí)別單詞序列的最終選擇。各識(shí)別器331到333可僅產(chǎn)生一個(gè)被識(shí)別的單詞序列?？梢赃x擇的是，也可以產(chǎn)生多個(gè)序列(例如可用詞序表示)。優(yōu)選地，各識(shí)別器的結(jié)果可包括諸如可能性或置信量度的信息，以使控制器350選擇最可能的單詞序列?？刂破?50也擔(dān)負(fù)著將語音輸入導(dǎo)入識(shí)別器的任務(wù)。如果有效識(shí)別器的數(shù)量不變，該導(dǎo)入就是固定的，在該情況下控制器350沒有導(dǎo)入的特定任務(wù)。
在優(yōu)選實(shí)施例中，系統(tǒng)包括的識(shí)別模型(M)比有效識(shí)別器(N)多。模型選擇器360用于根據(jù)識(shí)別語境為至少一個(gè)語音識(shí)別器從M個(gè)模型中選擇關(guān)聯(lián)的識(shí)別模型。模型選擇器360可為每個(gè)有效識(shí)別器選擇模型。然而，優(yōu)選的是覆蓋常用詞匯的基礎(chǔ)識(shí)別模型總是有效。在該情況下，至少一個(gè)模型不需由模型選擇器360來選擇，它被固定地指配給某個(gè)識(shí)別器。
在另一實(shí)施例中，根據(jù)與語音輸入相關(guān)的文件確定的語境選擇至少一個(gè)識(shí)別模型。例如，如果用戶口授有關(guān)健康主題的文件，則一個(gè)識(shí)別器可裝載對(duì)識(shí)別有關(guān)健康的語音最佳的特定識(shí)別模型。例如，用戶可通過從與系統(tǒng)模型相對(duì)應(yīng)的可能語境目錄中進(jìn)行選擇來明確確定文件的語境。在該情況下，例如，系統(tǒng)300可利用窗口中的選擇箱以傳統(tǒng)方式將這樣一種目錄呈現(xiàn)給用戶。例如，系統(tǒng)也可以通過掃描已在文件中出現(xiàn)的文本或至此為止的口語并檢查哪一個(gè)模型最適合識(shí)別該文本(例如，哪一個(gè)模型與此范圍的文本具有最多的相同單詞或單詞序列)自動(dòng)地確定語境。另外，語境識(shí)別符也可以與文件關(guān)聯(lián)起來，系統(tǒng)300獲得該識(shí)別符以確定最適合的模型。對(duì)于涉及諸如HTML網(wǎng)頁的網(wǎng)頁的語音，優(yōu)選的是，在文件中確定文件的語境，或使文件語境與文件相關(guān)聯(lián)。這能以標(biāo)簽的形式來完成，并由與語音相關(guān)的初始網(wǎng)頁的創(chuàng)建者將其密封起來。例如標(biāo)簽?zāi)芤灶愃七\(yùn)動(dòng)、健康、娛樂等的文本主題形式明確確定語境。該確定也可以是非直接的，例如它可以是諸如語境編號(hào)的識(shí)別符的形式，或者甚至是確定語境位置的鏈接(例如超文本鏈接)。在后一種情況下，系統(tǒng)300能從隱含的語境確定中導(dǎo)出實(shí)際語境(例如通過將語境編號(hào)映射給一個(gè)識(shí)別模型，或通過訪問超文本鏈接而獲得語境信息)。
在一個(gè)優(yōu)選實(shí)施例中，模型選擇器360通過檢查哪一個(gè)可用識(shí)別模型最適合當(dāng)時(shí)的識(shí)別，從而能積極設(shè)法改進(jìn)識(shí)別。為此模型選擇器360至少控制一個(gè)檢驗(yàn)識(shí)別器，該識(shí)別器示為識(shí)別器334。檢驗(yàn)識(shí)別器334與一個(gè)還沒有被有效識(shí)別器331到333利用的識(shí)別模型耦合。也將部分(或者甚至全部)接收到的語音饋入到檢驗(yàn)識(shí)別器中。將檢驗(yàn)識(shí)別的輸出與控制器350的選擇輸出或各有效識(shí)別器331到333的輸出作比較。如果檢驗(yàn)識(shí)別器334的識(shí)別結(jié)果優(yōu)于有效識(shí)別器331到333中一個(gè)的識(shí)別結(jié)果，則裝入該檢驗(yàn)識(shí)別模型(即，檢驗(yàn)識(shí)別器334使用時(shí)的模型)，使其供一個(gè)有效識(shí)別器使用。優(yōu)選地，換掉給出最差識(shí)別結(jié)果的識(shí)別模型(可能除基礎(chǔ)識(shí)別模型以外，該模型總是被使用著)。
優(yōu)選的是，按照從具有較普通語境的模型到具有更特定語境的模型的順序?qū)ψR(shí)別模型進(jìn)行分層設(shè)置。圖4表示這樣一個(gè)層級(jí)體系，其具有四個(gè)最普通的模型410、420、430和440，例如它們分別覆蓋了普通主題娛樂、健康、旅游和計(jì)算機(jī)。通過分析主題內(nèi)所有發(fā)表的表示文本而建立普通模型。實(shí)際上，如何由表示文本建立模型是公知的。健康普通模型可與諸如涉及醫(yī)藥、外科、食物/膳食、醫(yī)院/醫(yī)療中心的這些較低層級(jí)(即更特殊的模型)關(guān)聯(lián)。通過利用涉及那些更特定主題的文本創(chuàng)建這些模型中的每一個(gè)。在該圖中，模型422可涉及醫(yī)院/醫(yī)療中心。在這些語境中可進(jìn)行進(jìn)一步細(xì)分，其中，例如，模型424可覆蓋健康農(nóng)莊。通過分析涉及健康農(nóng)莊的文本，將自動(dòng)創(chuàng)建一個(gè)識(shí)別模型，由于健康農(nóng)莊的文件通常描述了周圍區(qū)域，因此該識(shí)別模型還適于識(shí)別涉及某個(gè)旅行主題的語音。這使同一模型適于作為層級(jí)在旅游模型類目中的模型432下面的模型。如果利用某一模型的識(shí)別獲得了良好的識(shí)別結(jié)果，則模型選擇器360利用更特定的模型進(jìn)行識(shí)別。該更特定的模型(即等級(jí)較低的模型)可用作較普通模型的代替模型。也可以除使用較普通模型外還使用該更特定模型。優(yōu)選的是，與層級(jí)系統(tǒng)中和較普通模型等級(jí)相同的其它在層級(jí)上無關(guān)連的模型相比，僅利用較特定模型取代較普通模型來增加識(shí)別會(huì)更好。例如，如果運(yùn)動(dòng)和健康模型在層級(jí)上無關(guān)聯(lián)(例如兩個(gè)都在最高級(jí))，利用運(yùn)動(dòng)模型可得到較好的識(shí)別結(jié)果，然后利用更特定的運(yùn)動(dòng)模型。這其中不需要使用較特定的健康模型。實(shí)際上，如果健康模型的識(shí)別結(jié)果非常低，則終止利用該模型的識(shí)別，這有利于利用較特定的運(yùn)動(dòng)模型增加識(shí)別。如果存在若干較特定的運(yùn)動(dòng)模型，例如足球、籃球、田徑運(yùn)動(dòng)、汽車賽等，則檢驗(yàn)所有這些模型。也可以簡(jiǎn)單地基于特定模型的詞匯與已被識(shí)別語音的一致性進(jìn)行選擇。如果在某一時(shí)刻利用特定模型的識(shí)別給出較低的結(jié)果，則優(yōu)選地利用至少一個(gè)層級(jí)高于該特定模型的模型繼續(xù)進(jìn)行識(shí)別。
在優(yōu)選實(shí)施例中，如圖5所示，識(shí)別系統(tǒng)是分布式的。分布式系統(tǒng)包括服務(wù)器站540和至少一個(gè)用戶站。所示為三個(gè)用戶站510、520和530，其中僅為用戶站520示出了進(jìn)一步的細(xì)節(jié)?？衫脗鹘y(tǒng)計(jì)算機(jī)技術(shù)實(shí)現(xiàn)該站。例如，用戶站520可由臺(tái)式個(gè)人計(jì)算機(jī)或工作站構(gòu)成，而服務(wù)器站540可由PC服務(wù)器或工作站服務(wù)器構(gòu)成。計(jì)算機(jī)可在計(jì)算機(jī)處理器中裝載的適當(dāng)程序的控制下運(yùn)行。服務(wù)器站540和用戶站510、520和530通過網(wǎng)絡(luò)550連接。例如，網(wǎng)絡(luò)550可以是office環(huán)境下的局域網(wǎng)、或?qū)捰蚓W(wǎng)、優(yōu)選為因特網(wǎng)的任何合適網(wǎng)絡(luò)。為了通過網(wǎng)絡(luò)550進(jìn)行通信，這些站分別包括通信裝置522和542。可以使用任何適于結(jié)合網(wǎng)絡(luò)550一起使用的通信裝置。通常，通過結(jié)合硬件和軟件構(gòu)成通信裝置，所述硬件是例如通信接口或調(diào)制解調(diào)器，軟件是支持諸如因特網(wǎng)TCP/IP協(xié)議的特定通信協(xié)議的軟件驅(qū)動(dòng)器的形式。用戶站520包括例如通過接口528從用戶處接收語音的裝置。用戶站520進(jìn)一步包括對(duì)語音信號(hào)進(jìn)行預(yù)處理以便使其適合于向服務(wù)器站540傳送的裝置。例如，用戶站可包括與圖1的頻譜分析子系統(tǒng)110類似的頻譜分析子系統(tǒng)526。服務(wù)器站540執(zhí)行如針對(duì)圖3的系統(tǒng)300描述的所有其它任務(wù)。例如，服務(wù)器站540包括具有多個(gè)識(shí)別器的識(shí)別系統(tǒng)543(與圖3的識(shí)別系統(tǒng)335類似)、控制器544(與圖3的控制器350類似)、模型選擇器545(與圖3的選擇器360類似)、和存儲(chǔ)模型的存儲(chǔ)器546(與圖3的存儲(chǔ)器340類似)。
權(quán)利要求
1.一種識(shí)別語音單詞序列的巨大詞匯量語音識(shí)別系統(tǒng)，該系統(tǒng)包括輸入裝置，用于接收表示語音單詞序列的時(shí)序輸入模式；以及大詞匯量語音識(shí)別器，用于利用與語音識(shí)別器相關(guān)聯(lián)的大詞匯表識(shí)別模型從詞匯表識(shí)別單詞序列的輸入模型；其特征在于該系統(tǒng)包括數(shù)量為N的多個(gè)大詞匯量語音識(shí)別器，每個(gè)識(shí)別器與各自的不同大詞匯量識(shí)別模型相關(guān)聯(lián)；每個(gè)識(shí)別模型以巨大詞匯表的一個(gè)特定部分為目標(biāo)；以及該系統(tǒng)包括控制器，控制器用于將輸入模式導(dǎo)入多個(gè)語音識(shí)別器中，并從多個(gè)語音識(shí)別器識(shí)別的單詞序列中選擇被識(shí)別的單詞序列。
2.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中所述系統(tǒng)包括M個(gè)大詞匯量識(shí)別模型，M＞N，而且所述系統(tǒng)包括模型選擇器，該模型選擇器用于根據(jù)識(shí)別語境為至少一個(gè)語音識(shí)別器從M個(gè)模型中選擇相關(guān)聯(lián)的識(shí)別模型。
3.根據(jù)權(quán)利要求2所述的系統(tǒng)，其中與語音輸入相關(guān)的文件確定至少一個(gè)識(shí)別語境。
4.根據(jù)權(quán)利要求3所述的系統(tǒng)，其中文件為諸如HTML頁的Web頁，在文件中確定文件的語境，或使文件語境與文件相關(guān)聯(lián)。
5.根據(jù)權(quán)利要求3所述的系統(tǒng)，其中模型選擇器用于根據(jù)文件中的單詞或與文件相關(guān)的單詞選擇識(shí)別模型。
6.根據(jù)權(quán)利要求2所述的系統(tǒng)，其中模型選擇器用于從還沒有被一個(gè)識(shí)別器使用的N-M個(gè)識(shí)別模型中選擇檢驗(yàn)識(shí)別模型；控制檢驗(yàn)識(shí)別器利用檢驗(yàn)識(shí)別模型識(shí)別至少部分輸入模式；以及如果檢驗(yàn)識(shí)別器的識(shí)別結(jié)果優(yōu)于一個(gè)識(shí)別器的識(shí)別結(jié)果，則利用檢驗(yàn)識(shí)別模型進(jìn)行識(shí)別。
7.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中將識(shí)別模型按從具有較普通語境的模型到具有較特定語境的模型的順序進(jìn)行分層排列，其中，如果與關(guān)聯(lián)于另一個(gè)識(shí)別模型的至少一個(gè)識(shí)別器的識(shí)別結(jié)果相比，利用層級(jí)中較高級(jí)別的與層級(jí)有關(guān)聯(lián)的較普通模型的識(shí)別獲得了較好的識(shí)別結(jié)果，則模型選擇器可利用更特定的模型進(jìn)行識(shí)別。
8.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中系統(tǒng)包括通過諸如因特網(wǎng)等網(wǎng)絡(luò)相連的用戶站和服務(wù)器站；用戶站可用于從用戶處接收輸入模式，并將表示輸入模式的信號(hào)傳輸?shù)椒?wù)器站中；服務(wù)器站包括識(shí)別器和控制器。
全文摘要
一種用于識(shí)別口語單詞序列的巨大詞匯量語音識(shí)別系統(tǒng)(300),它包括輸入裝置,用于接收表示口語單詞序列的時(shí)序的輸入模式(320)。該系統(tǒng)進(jìn)一步包括多個(gè)大詞匯量的語音識(shí)別器(331、332、333),每個(gè)識(shí)別器與對(duì)應(yīng)的不同大詞匯量識(shí)別模型相關(guān)聯(lián)。每個(gè)識(shí)別模型以巨大詞匯量的一個(gè)特定部分為目標(biāo)。所述系統(tǒng)包括控制器(350),該控制器用于將輸入模式導(dǎo)入多個(gè)語音識(shí)別器中,并用于從多個(gè)語音識(shí)別器識(shí)別的單詞序列中選擇被識(shí)別的單詞序列。
文檔編號(hào)G10L15/18GK1351744SQ00807940
公開日2002年5月29日申請(qǐng)日期2000年3月7日優(yōu)先權(quán)日1999年3月26日
發(fā)明者E·特倫, S·貝斯林, M·烏爾里希申請(qǐng)人:皇家菲利浦電子有限公司

完整全部詳細(xì)技術(shù)資料下載