專利名稱:基于傳感器的語(yǔ)音識(shí)別器選擇、自適應(yīng)和組合的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)化語(yǔ)音識(shí)別的領(lǐng)域。
背景技術(shù):
特別地,本發(fā)明涉及操作大詞匯量語(yǔ)音識(shí)別系統(tǒng)的方法,其中程控識(shí)別器執(zhí)行下述步驟1.把語(yǔ)音信號(hào)分解成長(zhǎng)度不必相等的短的時(shí)間間隔,即幀,得到每幀的抽取的特征向量,例如包括譜系數(shù),2.用字符或字符組標(biāo)記幀,每幀產(chǎn)生多個(gè)標(biāo)記,3.對(duì)所述標(biāo)記解碼,從而構(gòu)成一個(gè)或多個(gè)單詞或者一個(gè)單詞的多個(gè)片段,4.在該方法中,多個(gè)識(shí)別器是可訪問(wèn)的,以便被激活進(jìn)行語(yǔ)音識(shí)別,并且所述多個(gè)識(shí)別器基于請(qǐng)求被組合,以便改進(jìn)單個(gè)識(shí)別器的語(yǔ)音識(shí)別結(jié)果。
更特別地,上述這種連續(xù)語(yǔ)音識(shí)別器通過(guò)把依賴于上下文的子字單元,比如音子或三音子模擬成基本的隱馬可夫模型(也稱為“HMM”),捕捉語(yǔ)聲的許多變化。這些模型的統(tǒng)計(jì)參數(shù)一般由數(shù)百小時(shí)的被標(biāo)記訓(xùn)練數(shù)據(jù)估計(jì)得到。雖然如果訓(xùn)練數(shù)據(jù)與應(yīng)用場(chǎng)景的聲學(xué)特性充分相符,那么這提供高的識(shí)別精度,但是可以看出如果語(yǔ)音識(shí)別器不得不應(yīng)付具有顯著不同,并且可能高度動(dòng)態(tài)變化的特性的聲學(xué)環(huán)境,那么識(shí)別準(zhǔn)確性顯著降低。
在線和(無(wú))監(jiān)督的批次自適應(yīng)技術(shù)通過(guò)重新估計(jì)聲學(xué)模型參數(shù)解決該問(wèn)題,但是如果只存在很少量的數(shù)據(jù)和/或計(jì)算資源稀少,那么它們都是不可行的,或者-在批次自適應(yīng)的情況下-不能正確地處理聲學(xué)環(huán)境中的動(dòng)態(tài)變化。
目前的大詞匯量連續(xù)語(yǔ)音識(shí)別器采用隱馬可夫模型(HiddenMarkov Models(HMM))來(lái)根據(jù)語(yǔ)音信號(hào),計(jì)算具有最大后驗(yàn)概率的單詞序列w。
隱馬可夫模型是處理狀態(tài)的有限集S={S1,...,SN},并且為狀態(tài)被占用的每個(gè)時(shí)間t(t=1,2,...,T)的輸出的觀察創(chuàng)造條件的隨機(jī)自動(dòng)機(jī)A=(π,A,B)。
初始狀態(tài)向量π=[πi]=[P(s(1)=si)],1≤i≤N(1)給出在時(shí)間t=1時(shí),HMM處于狀態(tài)s1的概率,轉(zhuǎn)換矩陣A=[aij]=[P(s(t+1)=sj|s(t)=si)],1≤i,j≤N(2)保持描述從狀態(tài)si到sj的轉(zhuǎn)換的一階時(shí)間不變性過(guò)程的概率。觀測(cè)值是從語(yǔ)音信號(hào)得到的連續(xù)取值的特征向量x∈R,輸出概率由一組概率密度函數(shù)(這里也稱為pdfs)定義B[bi]=[P(x|s(t)=si)],1≤i≤N(3)對(duì)于任意給定的HMM狀態(tài)si,未知分布p(x|si)通常由基本高斯pdfs的混合物近似p(x|si)=Σj∈Mi(wji·N(x|μji,Γji))]]>=Σj∈Mi(wji·|2πΓji|-1/2·exp(-(x-μji)TΓji-1(x-μji)/2))---(4)]]>其中Mi是與狀態(tài)si相關(guān)的高斯函數(shù)的集合。此外,x表示觀測(cè)的特征向量,wji是第i個(gè)輸出分布的第j個(gè)混合分量權(quán)重,μji和Γji是狀態(tài)si下的第j個(gè)高斯函數(shù)的平均矩陣和協(xié)方差矩陣。要注意為了符號(hào)的簡(jiǎn)單性,從等式4省略了均值向量的狀態(tài)和混合分量下標(biāo)。
現(xiàn)有技術(shù)的語(yǔ)音識(shí)別器通常由下述組件組成·計(jì)算允許信號(hào)的短小部分(幀)的分類的參數(shù)表示的特征抽取。頻繁使用的特征是通常由能量值和它們的時(shí)間導(dǎo)數(shù)富集(enrich)的譜參數(shù)或Mel頻標(biāo)倒譜系數(shù)(MFCC)。
·“打標(biāo)記器”用表示可能有意義的子字單元,例如依賴于上下文的音子(phone)或子音子的許多標(biāo)記標(biāo)識(shí)每個(gè)特征向量。常見(jiàn)的特征向量的分類技術(shù)包括利用高斯混合密度的統(tǒng)計(jì)分類或者使用神經(jīng)網(wǎng)絡(luò)的分類。
·“解碼器”截取每個(gè)標(biāo)記作為HMM的輸出,并計(jì)算最大后驗(yàn)概率的單詞序列。為了有效地處理來(lái)自標(biāo)記步驟的可選擇結(jié)果,采用搜索策略和修剪技術(shù)。流行的例子是異步棧解碼和時(shí)間同步Viterbi(維特比)解碼或集束搜索。
最近已證明通過(guò)組合來(lái)自并行運(yùn)行的幾個(gè)基本識(shí)別器的(中間)結(jié)果,能夠顯著降低錯(cuò)字率。可以分出三種主要方法·計(jì)算特征的不同集合,并把它們組成為被傳遞給打標(biāo)記器的單個(gè)特征向量的特征組合方法。
·似然組合方法還計(jì)算不同的特征向量,但是獨(dú)立地對(duì)它們分類。源于不同的標(biāo)記步驟的結(jié)果根據(jù)其證據(jù)被組合,對(duì)于每一幀,備選標(biāo)記的單一向量被傳送給解碼器。
·ROVER(識(shí)別器輸出表決錯(cuò)誤減少)是一種使用動(dòng)態(tài)編程技術(shù)把來(lái)自幾個(gè)解碼器傳遞的輸出合并到單字假設(shè)網(wǎng)絡(luò)中的后處理方法。在組合網(wǎng)絡(luò)的每個(gè)分支點(diǎn),后續(xù)的表決機(jī)構(gòu)為最終的抄錄選擇分?jǐn)?shù)最高的單詞。
這里提出的發(fā)明的主要目的是克服與這些方法相關(guān)的一些問(wèn)題,同時(shí)保持增大的識(shí)別準(zhǔn)確性。
現(xiàn)有技術(shù)中已知如果用在未用訓(xùn)練數(shù)據(jù)正確表示的聲學(xué)環(huán)境中,那么語(yǔ)音識(shí)別器的識(shí)別準(zhǔn)確性顯著降低。在諸如桌面口述之類的應(yīng)用中,通過(guò)允許最終用戶在不同的環(huán)境中登記到該系統(tǒng)中,能夠容易地解決該問(wèn)題,也可考慮輸入特征向量的歸一化的方法。但是,面對(duì)語(yǔ)音作為普遍計(jì)算中的輸入媒介的重要作用,不允許提前的自適應(yīng)步驟的應(yīng)用的數(shù)目日益增大。此外,如果識(shí)別器不得不處理可能大量的動(dòng)態(tài)變化的聲學(xué)環(huán)境,那么由于缺少足夠數(shù)量的在線自適應(yīng)數(shù)據(jù),或者由于計(jì)算資源有限,自適應(yīng)方法可能變得不可行。
具有極大量的參數(shù)的更準(zhǔn)確的聲學(xué)模型有助于克服這種情況,但是在這里報(bào)告的發(fā)明中針對(duì)的典型應(yīng)用中是不可行的。除了其它許多應(yīng)用之外,這些應(yīng)用是諸如交互式話音響應(yīng)解決方案,消費(fèi)設(shè)備(移動(dòng)電話機(jī)、PDA、家用電器)用話音驅(qū)動(dòng)接口,和汽車中的資源短缺語(yǔ)音識(shí)別之類的應(yīng)用。
文獻(xiàn)中已證明和單個(gè)基本識(shí)別器相比,上面提及的組合方法能夠在嘈雜環(huán)境中產(chǎn)生明顯更好的準(zhǔn)確性。但是,這些方法對(duì)CPU施加了不斷增大的計(jì)算負(fù)載,還需要數(shù)量增大的存儲(chǔ)器來(lái)存儲(chǔ)幾個(gè)聲學(xué)模型和中間結(jié)果;于是,它們不適合于資源短缺的語(yǔ)音識(shí)別器。
發(fā)明內(nèi)容
于是,本發(fā)明的目的是提供一種語(yǔ)音識(shí)別方法和系統(tǒng),它適合于說(shuō)話者的環(huán)境中的動(dòng)態(tài)改變的噪聲,以及在由于資源有限,因此只具有有限的計(jì)算能力的(嵌入式)系統(tǒng)中運(yùn)行的特定要求。
本發(fā)明的目的由在公開(kāi)的獨(dú)立權(quán)利要求中陳述的特征實(shí)現(xiàn)。在各個(gè)從屬權(quán)利要求中陳述了本發(fā)明的其它有利方案和實(shí)施例?,F(xiàn)在應(yīng)參考附加的權(quán)利要求。
根據(jù)本發(fā)明的基本方面,提出在語(yǔ)音識(shí)別系統(tǒng)內(nèi)執(zhí)行下述步驟a)用傳感器裝置收集表征語(yǔ)音識(shí)別邊界條件的選擇基礎(chǔ)數(shù)據(jù),例如說(shuō)話人,環(huán)境噪聲,b)利用程序控制的傳感裝置評(píng)估收集的數(shù)據(jù),即判定引擎,包括軟件機(jī)構(gòu),物理傳感器,它們的組合等,c)根據(jù)所述評(píng)估,從多個(gè)可用的識(shí)別器中選擇最適合的識(shí)別器或者它們的組合。
這樣,在具有不斷變化的噪聲水平,并且其中已存在多個(gè)“檢測(cè)裝置”的環(huán)境中能夠獲得顯著的優(yōu)點(diǎn)。從而,傳感器裝置要被非常廣泛地理解為能夠提供所述選擇基礎(chǔ)數(shù)據(jù)的物理的或者呈邏輯程序形式的任意結(jié)構(gòu),所述選擇基礎(chǔ)數(shù)據(jù)可在存在或者不存在額外的用戶輸入的情況下被評(píng)估,以便由增加的知識(shí)將增大識(shí)別率的思想所啟發(fā),增加定義當(dāng)前的講話情景的細(xì)節(jié)的知識(shí)。從而,有利的是,傳感器裝置可以是判定邏輯,包括軟件程序,它解釋可由任何物理傳感器,比如可檢測(cè)以特定速度行駛,在特定車型中安裝冬季和/或夏季輪胎(pneus)等而產(chǎn)生的噪聲的麥克風(fēng),照相機(jī),可從其它可用數(shù)據(jù)評(píng)估的噪聲產(chǎn)生設(shè)備(例如通風(fēng)機(jī),音響設(shè)備)的ON/OFF位置檢測(cè)的,或者可向用戶請(qǐng)求的一些基礎(chǔ)數(shù)據(jù)。當(dāng)然,也可使用它們的組合。從而,收集的檢測(cè)數(shù)據(jù)的一些處理被認(rèn)為包括在傳感器裝置內(nèi)。
此外,對(duì)于有效的評(píng)估來(lái)說(shuō),最好增加下述步驟a)在實(shí)現(xiàn)下述一個(gè)或多個(gè)的判定邏輯中處理物理傳感器輸出統(tǒng)計(jì)檢驗(yàn),判定樹(shù),模糊隸屬關(guān)系函數(shù),b)從所述處理返回將用在傳感器選擇/組合判定中的置信度值。
此外,通過(guò)增加表達(dá)在根據(jù)上面提及的處理定義的一組條件下,語(yǔ)音識(shí)別有多“好”的評(píng)級(jí)標(biāo)準(zhǔn),例如基于數(shù)標(biāo)的標(biāo)準(zhǔn)或者“優(yōu)”、“中”、“差”任意之一等,用戶也可對(duì)該過(guò)程產(chǎn)生影響。
此外,導(dǎo)致識(shí)別器選擇判定的所述選擇基礎(chǔ)數(shù)據(jù)最好被保存在數(shù)據(jù)庫(kù)中,以便于識(shí)別器的反復(fù)快速選擇。這能夠主要基于數(shù)據(jù)庫(kù)中的查尋,可能還有一些額外的似真性檢驗(yàn)來(lái)進(jìn)行識(shí)別器選擇判定,而不是運(yùn)行完成的選擇判定邏輯。從而,能夠節(jié)約計(jì)算資源。
此外,根據(jù)本發(fā)明的優(yōu)選方面,提出根據(jù)當(dāng)前的系統(tǒng)負(fù)載選擇識(shí)別器的數(shù)目。在具有有限計(jì)算資源的嵌入式系統(tǒng),例如部署在汽車中的嵌入式系統(tǒng)中,這是有利的。
此外,根據(jù)本發(fā)明的另一優(yōu)選方面,提出對(duì)所考慮的應(yīng)用特有的各種條件提供模型變換的提前估計(jì)。這最好通過(guò)只保存一個(gè)識(shí)別模型如何被變換成另一識(shí)別模型的變換規(guī)則,而不是保存多個(gè)模型本身來(lái)實(shí)現(xiàn)。這有助于節(jié)省存儲(chǔ)空間,并且在語(yǔ)音識(shí)別系統(tǒng)的運(yùn)行時(shí)間期間,能夠在傳輸中計(jì)算不同的模型。
從而,提供選擇最適合于當(dāng)前聲學(xué)環(huán)境中的操作的一個(gè)或多個(gè)變換的機(jī)構(gòu),并且提出識(shí)別器的動(dòng)態(tài)組合的方法,所述方法在隨著時(shí)間相當(dāng)頻繁地改變的嘈雜環(huán)境中得到改進(jìn)的識(shí)別準(zhǔn)確性。
本發(fā)明的體系結(jié)構(gòu)提供不得不處理高度變化的聲學(xué)環(huán)境的語(yǔ)音識(shí)別應(yīng)用的改進(jìn)準(zhǔn)確性,此外,通過(guò)限制組合的識(shí)別器的數(shù)目,它還在計(jì)算資源可變的情況下,提供可縮放的識(shí)別準(zhǔn)確性。
這里介紹的發(fā)明目的在于在不利的聲學(xué)環(huán)境中,增大通用的基于HMM的語(yǔ)音識(shí)別器的穩(wěn)健性。通過(guò)把基于傳感器的方法用于聲學(xué)模型的動(dòng)態(tài)創(chuàng)建以及它們的組合,本發(fā)明解決了在上面的背景技術(shù)中描述的問(wèn)題。
通過(guò)把一個(gè)或多個(gè)模型變換應(yīng)用于初始的聲學(xué)模型,動(dòng)態(tài)創(chuàng)建特定于環(huán)境的識(shí)別器。和在線自適應(yīng)技術(shù)不同,適合的變換不是在運(yùn)行時(shí)間期間計(jì)算的,而是在提前的訓(xùn)練步驟中確定的。通用的聲學(xué)模型和特定于環(huán)境的變換與相關(guān)的指標(biāo)函數(shù)一起被保存,所述指標(biāo)函數(shù)允許運(yùn)行時(shí)間期間,變換的基于傳感器的選擇。這確保最匹配當(dāng)前聲學(xué)環(huán)境的特征的模型的創(chuàng)建和使用。由于在識(shí)別過(guò)程的組合中,不使用未被傳感器識(shí)別的模型變換,因此在不必不必要地增大計(jì)算資源的情況下,得到更好的準(zhǔn)確性。此外,和自適應(yīng)模型的存儲(chǔ)相比,保存預(yù)先計(jì)算的變換需要少得多的存儲(chǔ)器。
根據(jù)本發(fā)明,提出借助一個(gè)或多個(gè)外部存儲(chǔ)器取回表征語(yǔ)音識(shí)別器工作的聲學(xué)環(huán)境的信息,并把該信息和于一個(gè)或多個(gè)聲學(xué)模型的動(dòng)態(tài)創(chuàng)建和組合。
模型的加權(quán)組合的方法不在本發(fā)明的范圍中。但是,通過(guò)利用特定于環(huán)境的,預(yù)先計(jì)算的模型變換來(lái)創(chuàng)建這些模型是這里描述的發(fā)明的一個(gè)獨(dú)創(chuàng)思想。除了已提及的需要較小存儲(chǔ)容量的優(yōu)點(diǎn)之外,這還避免不同特征向量的計(jì)算,不同特征向量的計(jì)算是基于子帶的方法中的一個(gè)計(jì)算費(fèi)用高的步驟。
附圖中舉例說(shuō)明了本發(fā)明,但是本發(fā)明并不受附圖的限制,其中圖1是表示根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,說(shuō)明發(fā)明原理的概述的示意塊圖,圖2是表示在汽車中的嵌入式系統(tǒng)中應(yīng)用的遠(yuǎn)程信息處理領(lǐng)域中的例證應(yīng)用的發(fā)明基本原理的概述的示意塊圖。
具體實(shí)施例方式
現(xiàn)在參考附圖,尤其參考圖1,更詳細(xì)地說(shuō)明本發(fā)明的方法和系統(tǒng)的優(yōu)選實(shí)施例。
通用基準(zhǔn)語(yǔ)音識(shí)別器1被用于從為某一應(yīng)用特有的各種聲學(xué)環(huán)境Ej收集訓(xùn)練語(yǔ)音數(shù)據(jù)y-附圖標(biāo)記2。特定于環(huán)境的訓(xùn)練數(shù)據(jù)y被監(jiān)督地或者不受監(jiān)督地收集,并被用于所考慮的每個(gè)工作環(huán)境的聲學(xué)模型變換的計(jì)算,參見(jiàn)塊3。下面,給出舉例說(shuō)明利用預(yù)存儲(chǔ)變換的特征的兩個(gè)例子。
·MLLR(最大似然線性回歸)自適應(yīng)通過(guò)使用線性變換更新HMM均值向量(參見(jiàn)等式4)。
·μ(adapt)=Wμ(base)+ω,這里變換參數(shù)W和ω被確定,以使自適應(yīng)數(shù)據(jù)y的似然性達(dá)到最大。應(yīng)注意為使符號(hào)簡(jiǎn)單起見(jiàn),從等式4省略了均值向量的狀態(tài)和混合分量下標(biāo)(index)。不同的變換可被應(yīng)用于屬于不同(音子或音位變體)類別的均值向量;例如,把語(yǔ)音和靜默均值向量的具體變換看作一個(gè)簡(jiǎn)單例子。在任何情況下,對(duì)于每個(gè)環(huán)境Ej,這導(dǎo)致一組變換參數(shù)Tj={Wi,ωi|i=1,...,nj}·并行模型組合(PMC)估計(jì)“噪聲”HMMλj(noise)=(π,A,B)j的參數(shù),參考等式1-3,“噪聲”HMM模擬環(huán)境Ej的影響,并且與基準(zhǔn)識(shí)別器的“干凈”(或者與環(huán)境無(wú)關(guān)的)HMM組合。于是,變換參數(shù)由“噪聲”HMM的參數(shù)給出,即Tj={(p,A,B)i}運(yùn)行時(shí)間期間預(yù)計(jì)算的特定于環(huán)境的變換的應(yīng)用和所得到的聲學(xué)模型要求識(shí)別器訓(xùn)練期間和運(yùn)行時(shí)間期間的聲學(xué)環(huán)境的表征。對(duì)于根據(jù)本發(fā)明實(shí)施例的用途,使用一個(gè)傳感器,所述傳感器可被看作計(jì)算在本發(fā)明的范圍中有意義的量值的外部(物理)設(shè)備或者計(jì)算機(jī)程序(軟件)或它們的組合。
在塊6中執(zhí)行的應(yīng)用于基準(zhǔn)模型的一個(gè)或多個(gè)模型變換的運(yùn)行時(shí)間選擇以連續(xù)監(jiān)視環(huán)境的相關(guān)參數(shù)的一組傳感器dk5提供的輸出為基礎(chǔ)。為此,傳感器輸出經(jīng)過(guò)可采用諸如統(tǒng)計(jì)檢驗(yàn),(二元)判定樹(shù),或者模糊隸屬關(guān)系函數(shù)之類的方法的判定邏輯,并且對(duì)于所考慮的每個(gè)環(huán)境,返回置信度分?jǐn)?shù)χj,1≤j≤n。應(yīng)注意用于這些檢驗(yàn)的參數(shù)最好在模型變換估計(jì)的自適應(yīng)數(shù)據(jù)的處理期間獲得。同樣,作為描述如何確定環(huán)境Ej的模糊隸屬關(guān)系函數(shù)的參數(shù)的例子,舉例說(shuō)明該原理·在識(shí)別器訓(xùn)練期間,自適應(yīng)數(shù)據(jù)y被傳送給一組傳感器5,該組傳感器5可測(cè)量源于語(yǔ)音信號(hào)本身的任何特征,或者有用的任何外部量值,以便描述自適應(yīng)數(shù)據(jù)的環(huán)境的聲學(xué)。
·傳感器輸出z=dk(y)被量化并以直方圖形式保存,所述直方圖給出在環(huán)境Ej中觀察z的相對(duì)頻率。隨后,直方圖可由(多變量)概率密度函數(shù)近似,或者可被用于在運(yùn)行時(shí)間期間充當(dāng)置信度量度的相對(duì)頻率的直接查找。
·用于傳感器dk和環(huán)境Ej的模糊隸屬關(guān)系函數(shù)χjk可通過(guò)特征z內(nèi)分段線性函數(shù)的定義的選擇,由直方圖構(gòu)成χjk(z)=0,如果z小于或等于z1,或者z大于或等于z4;χjk(z)=z/(z2-z1),如果z1小于z,并且z小于z2;χjk(z)=1,如果z2小于或等于z,并且z小于或等于z3;χjk(z)=1-z/(z4-z3),如果z2小于或等于z,并且z小于或等于z3;這里特征值z(mì)i,i≤i≤4被選擇成使p(z≤zi)=qi。概率qi一般被選擇成識(shí)別z的非常少見(jiàn)的值(例如q1=0.05,q2=0.20,q3=0.85,和q4=0.95)。同樣,這應(yīng)被理解為只是一種例證定義。
·如果幾個(gè)傳感器被用于監(jiān)視環(huán)境,那么它們各自的置信分?jǐn)?shù)χjk被組合,以便獲得特定環(huán)境Ej的最終分?jǐn)?shù);例如在通過(guò)采用最小值的模糊分?jǐn)?shù)的情況下χj=mink{χjk},它對(duì)應(yīng)于邏輯“與”運(yùn)算。當(dāng)然,也可使用關(guān)于模糊集合定義的任何其它運(yùn)算。
此外,環(huán)境(或變換)選擇的特征可利用除語(yǔ)音識(shí)別器使用的幀速率之外的幀速率來(lái)計(jì)算,并且一般將在某一時(shí)間間隔內(nèi)被求平均數(shù),以便獲得防止離群值的穩(wěn)健性。它們可由語(yǔ)音信號(hào)本身或者已知的影響聲學(xué)環(huán)境的任意其它量值計(jì)算得到。雖然信噪比(SNR)可被看作將從語(yǔ)音信號(hào)本身計(jì)算的最重要參數(shù)之一,不過(guò)也可考慮諸如移動(dòng)汽車的實(shí)際速度或路面之類的特征,或者關(guān)于說(shuō)話人的性別或語(yǔ)速的知識(shí)的利用。于是,對(duì)于關(guān)聯(lián)參數(shù)的計(jì)算和抽取,我們主張全自動(dòng)方法和需要用戶交互作用的方法的使用。
只要置信度分?jǐn)?shù)不顯著改變,那么當(dāng)前的HMM聲學(xué)模型7被識(shí)別器用于輸入的語(yǔ)音信號(hào)8的解碼。如果在6中檢測(cè)到一個(gè)或多個(gè)新環(huán)境,那么應(yīng)用與這些環(huán)境相關(guān)的變換Tj,變換后的聲學(xué)模型被用于解碼。為此,置信度分?jǐn)?shù)被分級(jí),只有M個(gè)最佳得分的環(huán)境的變化被考慮用于未來(lái)的處理。重要的是注意考慮中的環(huán)境的數(shù)目M可變化·如果置信度分?jǐn)?shù)不允許環(huán)境的明確識(shí)別,那么M可能較大。
·如果設(shè)備或(遠(yuǎn)程)識(shí)別服務(wù)器的工作負(fù)載-其計(jì)算和分布在現(xiàn)有技術(shù)中已知,并且存在于任何現(xiàn)代操作系統(tǒng)中-已分別較高,那么M將較小,以便實(shí)現(xiàn)可接受的響應(yīng)時(shí)間(以識(shí)別準(zhǔn)確性為代價(jià))。
此外,獲得的置信度分?jǐn)?shù)還在識(shí)別器組合8期間被使用,識(shí)別器組合8可被用于獲得更好的識(shí)別準(zhǔn)確性。如上所述,現(xiàn)有技術(shù)的語(yǔ)音識(shí)別器包括三個(gè)主要的處理階段特征抽取,語(yǔ)音幀的標(biāo)記和解碼。而在本發(fā)明中,提出單個(gè)特征向量的使用,組合可在圖1中的打標(biāo)記器8a或解碼器8b中進(jìn)行。在第一種情況下,歸一化的置信度分?jǐn)?shù)被用于增大等式4中的HMM輸出概率^p(χ|Si)=χjk(z)·p(xk|Si)在單詞假設(shè)的組合的情況下,置信度量度可被用于解析結(jié)(tie),如果每個(gè)識(shí)別器對(duì)于指定的語(yǔ)音信號(hào)范圍產(chǎn)生不同的結(jié)果,那么會(huì)發(fā)生結(jié)。這種情況下,提出把從最佳得分的識(shí)別器獲得的副本(transcription)分配給所考慮的該部分語(yǔ)音信號(hào)。
另外參見(jiàn)圖2,以前述實(shí)施例在應(yīng)用于汽車中的嵌入式系統(tǒng)中的遠(yuǎn)程信息處理領(lǐng)域中的例證應(yīng)用,給出了發(fā)明基本原理的概述。
在第一塊205中,傳感器數(shù)據(jù)-來(lái)自四個(gè)傳感器設(shè)備的選擇基礎(chǔ)數(shù)據(jù)從物理設(shè)備被讀出并被量化,以致數(shù)據(jù)可用于程序評(píng)估。
從而,收集的選擇基礎(chǔ)數(shù)據(jù)表示下述可評(píng)估的陳述1.“駕駛員是女性”,來(lái)自具有封閉的圖像識(shí)別器工具的照相機(jī),-210,2.“車速為130公里/小時(shí)”;-220,3.“空調(diào)打開(kāi),并且通風(fēng)機(jī)以75%功率運(yùn)轉(zhuǎn)”,230。
4.無(wú)線電打開(kāi),并且音量為8級(jí)中的4級(jí),并且播放古典音樂(lè),-240。
隨后在步驟250中,在數(shù)據(jù)庫(kù)中進(jìn)行查尋,得到其中滿足4個(gè)條件中的3個(gè)的數(shù)據(jù)集被保存的判斷。從而,與該數(shù)據(jù)集相關(guān)的模型組合被保留為最可能的識(shí)別器組件之一。
隨后在步驟260中,本發(fā)明提供的程序控制的仲裁器被用于評(píng)估收集的數(shù)據(jù),在步驟270中,對(duì)本例中有意義的多個(gè)模型組合確定分?jǐn)?shù)。隨后在步驟280中,確定當(dāng)前可用的計(jì)算負(fù)載。結(jié)果可能得到最多2模型組合被允許用于語(yǔ)音識(shí)別,不過(guò)三個(gè)最佳得分的提議建議4模型的組合。由于其它兩個(gè)活動(dòng)的優(yōu)先權(quán)高于語(yǔ)音識(shí)別,因此這種限制可被采取。
從而在下一步驟290中,選擇只具有兩個(gè)模型的最適合的識(shí)別器組合。這需要新的評(píng)分過(guò)程。
隨后在步驟300中,選擇變換,以便計(jì)算選擇的最佳兩個(gè)模型。其它步驟根據(jù)上面的說(shuō)明進(jìn)行。
可用硬件,軟件,或硬件和軟件的組合來(lái)實(shí)現(xiàn)本發(fā)明??杉械卦谝粋€(gè)計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)根據(jù)本發(fā)明的工具,或者按照分布式方式實(shí)現(xiàn)本發(fā)明的工具,在這種情況下,不同的部件被散布在數(shù)個(gè)互連的計(jì)算機(jī)系統(tǒng)中。適合于實(shí)現(xiàn)這里描述的方法的任意類型的計(jì)算機(jī)系統(tǒng)或其它設(shè)備都是適合的。硬件和軟件的典型組合可以是具有計(jì)算機(jī)程序的通用計(jì)算機(jī)系統(tǒng),當(dāng)被加載和執(zhí)行時(shí),所述計(jì)算機(jī)程序控制計(jì)算機(jī)系統(tǒng)執(zhí)行這里描述的方法。
本發(fā)明也能嵌入計(jì)算機(jī)程序產(chǎn)品中,所述計(jì)算機(jī)程序產(chǎn)品包含能夠?qū)崿F(xiàn)這里描述的方法的全部特征,并且當(dāng)被裝入計(jì)算機(jī)系統(tǒng)時(shí),能夠?qū)崿F(xiàn)這些方法。
本文中的計(jì)算機(jī)程序意味著一組指令的用任意語(yǔ)言、代碼或符號(hào)表示的任意表述,所述一組指令意圖使具有信息處理能力的系統(tǒng)直接地,或者在下述任一或下述二者之后執(zhí)行特定的功能a)轉(zhuǎn)換成另一種語(yǔ)言,代碼或符號(hào);b)用不同的材料形式再現(xiàn)。
權(quán)利要求
1.一種操作語(yǔ)音識(shí)別系統(tǒng)的方法,其中程序控制的識(shí)別器(1)執(zhí)行下述步驟把語(yǔ)音信號(hào)分成多幀,并計(jì)算每幀的任意類型的特征向量,用字符或字符組標(biāo)記所述幀,每個(gè)音素產(chǎn)生多個(gè)標(biāo)記,根據(jù)預(yù)定的聲學(xué)模型對(duì)所述標(biāo)記解碼,構(gòu)成一個(gè)或多個(gè)單詞或者一個(gè)單詞的多個(gè)片段,在所述方法中,多個(gè)識(shí)別器是可訪問(wèn)的,以便被激活進(jìn)行語(yǔ)音識(shí)別,并且被組合以平衡由單個(gè)語(yǔ)音識(shí)別器進(jìn)行的語(yǔ)音識(shí)別的結(jié)果,其特征在于下述步驟a)用傳感器裝置(5)收集(210、220、230、240)表征語(yǔ)音識(shí)別邊界條件的選擇基礎(chǔ)數(shù)據(jù),b)利用(260)程序控制的判優(yōu)裝置(6)評(píng)估收集的數(shù)據(jù),c)根據(jù)所述評(píng)估,從多個(gè)可用的識(shí)別器中選擇(290)最適合的識(shí)別器或其組合。
2.按照權(quán)利要求1所述的方法,其中所述傳感器裝置(5)是下述一個(gè)或多個(gè)判定邏輯,包括軟件程序,物理傳感器或者它們的組合。
3.按照權(quán)利要求1所述的方法,還包括下述步驟a)在實(shí)現(xiàn)下述一個(gè)或多個(gè)的判定邏輯中處理(260)物理傳感器(5)輸出統(tǒng)計(jì)檢驗(yàn),判定樹(shù),模糊隸屬關(guān)系函數(shù),b)從所述處理返回(270)將用在傳感器選擇/組合判定中的置信度值。
4.按照權(quán)利要求1所述的方法,其中導(dǎo)致識(shí)別器選擇判定的所述選擇基礎(chǔ)數(shù)據(jù)被保存在數(shù)據(jù)庫(kù)中以便反復(fù)快速訪問(wèn)(250),從而獲得識(shí)別器的快速選擇。
5.按照權(quán)利要求1所述的方法,還包括下述步驟根據(jù)(280)當(dāng)前的處理器負(fù)載,選擇(290)識(shí)別器的數(shù)目和/或組合。
6.按照權(quán)利要求1所述的方法,還包括下述步驟保存一個(gè)識(shí)別模型如何被變換成另一識(shí)別模型的變換規(guī)則(7),而不是保存多個(gè)模型本身。
7.一種具有執(zhí)行根據(jù)前述權(quán)利要求1-6之一所述的方法的步驟的裝置的計(jì)算機(jī)系統(tǒng)。
8.一種在數(shù)據(jù)處理系統(tǒng)中執(zhí)行的計(jì)算機(jī)程序,包括當(dāng)在計(jì)算機(jī)上執(zhí)行時(shí),完成根據(jù)前述權(quán)利要求1-6任意之一所述的方法的相應(yīng)步驟的計(jì)算機(jī)程序代碼部分。
9.一種保存在計(jì)算機(jī)可用介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品,包括當(dāng)所述計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上執(zhí)行時(shí),使計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-6任意之一所述的方法的計(jì)算機(jī)可讀程序單元。
全文摘要
本發(fā)明涉及一種操作語(yǔ)音識(shí)別系統(tǒng)的方法和相應(yīng)的系統(tǒng),其中多個(gè)識(shí)別器程序是可訪問(wèn)的,以便被激活進(jìn)行語(yǔ)音識(shí)別,并且根據(jù)需要被組合,以便有效地改進(jìn)單個(gè)識(shí)別器完成的語(yǔ)音識(shí)別的結(jié)果。為了適應(yīng)各種工作環(huán)境的動(dòng)態(tài)變化的聲學(xué)條件,以及只具有有限的可用計(jì)算能力的嵌入式系統(tǒng),提出用傳感器裝置收集(210、220、230、240)表征語(yǔ)音識(shí)別邊界條件的選擇基礎(chǔ)數(shù)據(jù),例如講話人和環(huán)境噪聲等,b)利用(260)程序控制的仲裁裝置評(píng)估收集的數(shù)據(jù),例如包括軟件機(jī)構(gòu)和物理傳感器的判定引擎,從而從多個(gè)可用的識(shí)別器中選擇(290)最適合的識(shí)別器或其組合。
文檔編號(hào)G10L15/26GK1726532SQ200380106508
公開(kāi)日2006年1月25日 申請(qǐng)日期2003年10月31日 優(yōu)先權(quán)日2002年12月20日
發(fā)明者沃爾克·菲舍爾, 謝格弗里德·昆茲曼 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司