国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      使用聲學(xué)特征矢量修正的分布式語音識別系統(tǒng)的制作方法

      文檔序號:2835056閱讀:499來源:國知局
      專利名稱:使用聲學(xué)特征矢量修正的分布式語音識別系統(tǒng)的制作方法
      背景領(lǐng)域本發(fā)明涉及語音信號處理。說得更詳細(xì)些,本發(fā)明涉及使用聲學(xué)特征矢量修正的分布式語音識別的新穎方法和系統(tǒng)。
      背景語音識別代表著把模擬智能賦予機(jī)器以識別用戶的語音命令以及便于人與機(jī)器聯(lián)系的最為重要的技術(shù)之一。使用一些技術(shù)從聲學(xué)語音信號中恢復(fù)語言消息的系統(tǒng)稱為語音識別(VR)系統(tǒng)。

      圖1示出基本的VR系統(tǒng),它具有預(yù)加重濾波器102、聲學(xué)特征提取(AFE)單元104和模式匹配引擎110。AFE單元104把一系列的數(shù)字語音樣本轉(zhuǎn)換成被稱為聲學(xué)特征矢量的一組測量值(例如,提取的頻率分量)。模式匹配引擎110把包含在VR聲學(xué)模型112中的模式與一系列聲學(xué)特征矢量相匹配。VR模式匹配引擎通常使用本領(lǐng)域內(nèi)公知的維特比(Viterbi)譯碼技術(shù)。當(dāng)從聲學(xué)模型112識別一系列模式時(shí),對此系列進(jìn)行分析以得出想要的輸出格式,譬如相應(yīng)于輸入發(fā)言的經(jīng)識別的語言學(xué)單詞序列。
      可以把聲學(xué)模型112描述為從各種語音聲音和相關(guān)統(tǒng)計(jì)分布信息中提取的聲學(xué)特征矢量的數(shù)據(jù)庫。這些聲學(xué)特征矢量模式相應(yīng)于短的語音分段,諸如音素、三單音和全字模型?!坝?xùn)練”指的是為了產(chǎn)生聲學(xué)模型112中的模式而采集來自一個(gè)或多個(gè)說話者的特殊語音分段或音節(jié)的語音采樣的過程?!皽y試”指的是把從終端用戶語音樣本提取的一系列聲學(xué)特征矢量與聲學(xué)模型112的內(nèi)容進(jìn)行相關(guān)的過程。給定系統(tǒng)的性能在很大程度上取決于終端用戶的語音與數(shù)據(jù)庫內(nèi)容間的相關(guān)程度。
      比較理想的是,終端用戶在訓(xùn)練和測試期間都提供語音聲學(xué)特征矢量,從而使聲學(xué)模型112將與終端用戶進(jìn)行高度語音匹配。然而,由于聲學(xué)模型112一般必須代表大量語音分段的模式,因此它時(shí)常占有大量的內(nèi)存。此外,收集來自所有可能說話者的聲學(xué)模型所需的所有數(shù)據(jù)是不切實(shí)際的。因此,許多現(xiàn)有的VR系統(tǒng)使用用許多代表性說話者訓(xùn)練的聲學(xué)模型。如此設(shè)計(jì)這些模型,使之對于大量的用戶具有最好的性能,但不對任何單個(gè)用戶進(jìn)行優(yōu)化。在使用這樣一個(gè)聲學(xué)模型的VR系統(tǒng)中,其識別一個(gè)特殊用戶的語音的能力將比使用對該特殊用戶優(yōu)化的聲學(xué)模型的VR系統(tǒng)來識別該特殊用戶的語音的能力差。對于某些用戶,諸如具有濃重的外來口音的用戶而言,使用共享的聲學(xué)模型的VR系統(tǒng)的性能可能很差,以至他們完全不能有效地使用VR服務(wù)。
      自適應(yīng)是一種減輕由于訓(xùn)練和測試條件不匹配引起的識別性能劣化的有效方法。在測試期間,自適應(yīng)修正VR聲學(xué)模型以與測試環(huán)境緊密匹配。,諸如最大似然線性回歸和貝葉斯(Bayes)自適應(yīng)等這些自適應(yīng)方案中的數(shù)種方案是本領(lǐng)域中公知的。
      當(dāng)語音識別任務(wù)的復(fù)雜性增加時(shí),在無線裝置中容納整個(gè)識別系統(tǒng)也變得更加困難。因此,位于中央通信中心的一個(gè)共享的聲學(xué)模型對于所有的用戶提供聲學(xué)模型。中央基站也對在計(jì)算上花費(fèi)很大的聲學(xué)匹配負(fù)責(zé)。在分布VR系統(tǒng)中,聲學(xué)模型由許多個(gè)說話者共享,因而不能對任何單個(gè)的說話者進(jìn)行優(yōu)化。因此,在本領(lǐng)域中需要這樣一種VR系統(tǒng),它既對多個(gè)單獨(dú)的用戶具有改進(jìn)的性能又減少了所需的計(jì)算資源。
      概述這里揭示的方法和設(shè)備引向一種新穎和改進(jìn)的分布語音識別系統(tǒng),在該系統(tǒng)中使用了依賴于說話者的處理,以在語音識別模式匹配之前變換聲學(xué)特征矢量。按照具有根據(jù)說話者而改變的參數(shù)的變換函數(shù),按照使用一種自適應(yīng)模型的中間模式匹配處理的結(jié)果,或按照它們二者,進(jìn)行依賴于說話者的處理??梢栽谝苿?dòng)站,在通信中心,或在二者的組合中進(jìn)行依賴于說話者的處理。也可以在語音識別模式匹配前使用依賴于環(huán)境的處理對聲學(xué)特征矢量進(jìn)行變換??梢孕拚晫W(xué)特征矢量以適應(yīng)運(yùn)行的聲學(xué)環(huán)境(環(huán)境噪聲、話筒的頻率響應(yīng)、等等)的改變。也可以在移動(dòng)站,在通信中心,或在二者的組合中進(jìn)行依賴于環(huán)境的處理。
      這里使用“示范的”一詞來表示“用作例子、情況或說明”。不必把作為“示范的實(shí)施例”描述的任何實(shí)施例認(rèn)作是較佳實(shí)施例或者比另外的實(shí)施例更有利。
      附圖簡述通過下面結(jié)合附圖的詳細(xì)描述將使得現(xiàn)在揭示的方法和設(shè)備的特征、目的和優(yōu)點(diǎn)變得更加明顯,附圖中的相同的附圖標(biāo)記始終對應(yīng)相同的組成部分,其中圖1示出基本的語音識別系統(tǒng);圖2示出按照一個(gè)示范實(shí)施例圖3示出進(jìn)行分布VR的一種方法的流程圖,其中聲學(xué)特征矢量修正以及特征矢量修正函數(shù)的選擇完全在移動(dòng)站內(nèi)發(fā)生;圖4示出進(jìn)行分布VR的一種方法的流程圖,其中聲學(xué)特征矢量修正以及特征矢量修正函數(shù)的選擇完全在通信中心內(nèi)發(fā)生;圖5示出進(jìn)行分布VR的一種方法的流程圖,其中使用中央聲學(xué)模型以優(yōu)化特征矢量修正函數(shù)或自適應(yīng)模型。
      詳述在標(biāo)準(zhǔn)的語音識別器中,無論在識別中還是在訓(xùn)練中,大多數(shù)的計(jì)算復(fù)雜性集中在語音識別器的模式匹配子系統(tǒng)中。在無線系統(tǒng)的上下文中,為了把由語音識別應(yīng)用所消費(fèi)的經(jīng)空中的帶寬減至最小,語音識別器是作為分布系統(tǒng)來實(shí)施的。此外,分布VR系統(tǒng)避免了由于語音數(shù)據(jù)的有耗源編碼而造成的性能劣化,這在諸如使用聲碼器時(shí)常出現(xiàn)。這樣一種分布的構(gòu)造在名為“分布語音識別系統(tǒng)”的第5,956,683號美國專利中有詳細(xì)的描述,該專利轉(zhuǎn)讓給了本發(fā)明的受讓人,并在這里稱為′683專利。
      在一個(gè)示范的無線通信系統(tǒng)中,諸如在數(shù)字無線電話系統(tǒng)中,通過在移動(dòng)電話或移動(dòng)站中的擴(kuò)音器接收用戶語音信號。然后把模擬語音信號進(jìn)行數(shù)字取樣以產(chǎn)生數(shù)字樣本流,例如每秒鐘8000個(gè)8位語音樣本。直接把語音樣本經(jīng)無線信道發(fā)送是很不經(jīng)濟(jì)的,因此一般在傳送之前把信息加以壓縮。通過稱之為語音編碼(vocoding)的技術(shù),聲碼器把語音樣本流壓縮為一系列小得多的聲碼器包。然后通過無線信道發(fā)送較小的聲碼器包而不是它們所代表的語音樣本。然后由無線基站接收聲碼器包,然后進(jìn)行語音譯碼以產(chǎn)生語音樣本流,然后通過揚(yáng)聲器提供給聆聽者。
      聲碼器的一個(gè)主要目的是盡可能壓縮說話者的語音樣本,同時(shí)使得聆聽者在對語音樣本進(jìn)行語音譯碼時(shí)能夠明白發(fā)言。聲碼器算法一般是有耗壓縮算法,從而經(jīng)語音譯碼的語音樣本與原先語音編碼的樣本不嚴(yán)格匹配。此外,時(shí)常對聲碼器算法進(jìn)行優(yōu)化,這樣盡管在通過無線信道的傳輸中丟失一個(gè)或多個(gè)聲碼器包,仍能產(chǎn)生可以理解的經(jīng)語音譯碼的發(fā)言。這種優(yōu)化能夠?qū)е螺斎肼暣a器的語音樣本和由語音譯碼得到的結(jié)果之間進(jìn)一步的失配。一般,由于語音編碼和語音譯碼的語音樣本的變更使得語音識別算法的性能變壞,雖然變壞的程度在不同的聲碼器算法之間變化很大。
      在′683專利描述的系統(tǒng)中,遠(yuǎn)端站完成聲學(xué)特征提取并且經(jīng)無線信道發(fā)送聲學(xué)特征矢量而不是聲碼器包至基站。由于聲學(xué)特征矢量占用的帶寬要比聲碼器包小一些,因此能夠通過相同的無線信道以更強(qiáng)的抗通信信道差錯(cuò)能力(例如,使用前向糾錯(cuò)(FEC)技術(shù))發(fā)送聲學(xué)特征矢量。當(dāng)使用依賴于說話者的特征矢量修正函數(shù)對特征矢量作如下所述的進(jìn)一步的優(yōu)化時(shí),能夠?qū)崿F(xiàn)的VR性能甚至超出了在′683專利中描述的基本系統(tǒng)的性能。
      圖2示出按照一個(gè)示范的實(shí)施例的分布VR系統(tǒng)。聲學(xué)特征提取(AFE)在遠(yuǎn)端站202內(nèi)發(fā)生,而通過無線信道206傳送聲學(xué)特征矢量至基站和VR通信中心204。本領(lǐng)域的技術(shù)人員將理解,這里描述的技術(shù)同樣可以應(yīng)用于一個(gè)不包含無線信道的VR系統(tǒng)。
      在所示的實(shí)施例中,來自用戶的語音信號在擴(kuò)音器(MIC)210中轉(zhuǎn)換成電信號,而在模一數(shù)轉(zhuǎn)換器(ADC)212中轉(zhuǎn)換成數(shù)字語音樣本。然后用預(yù)加強(qiáng)(PE)濾波器214(例如,衰減低頻信號分量的有限脈沖響應(yīng)(FIR)濾波器)對于數(shù)字樣本流進(jìn)行濾波。
      然后在AFE單元216中分析經(jīng)過濾波的樣本。AFE單元216把數(shù)字語音樣本轉(zhuǎn)換為聲學(xué)特征矢量。在示范的實(shí)施例中,AFE單元216對一段連續(xù)的數(shù)字樣本進(jìn)行富里葉(Fourier)變換,以產(chǎn)生相應(yīng)于不同的頻率箱的信號強(qiáng)度矢量。在示范的實(shí)施例中,頻率箱按照巴克標(biāo)尺(bark scale)具有不同的帶寬。在巴克標(biāo)尺中,每個(gè)頻率箱的帶寬與該箱的中心頻率有這樣的關(guān)系,從而頻率較高的頻率箱比頻率較低的頻率箱有較寬的頻帶。在Rabiner,L.R.和Juang,B.H.所著的《語音識別基礎(chǔ)》(Prentice Hall出版社,1993年)中描述了巴克標(biāo)尺,它在本領(lǐng)域中是公知的。
      在示范的實(shí)施例中,每個(gè)聲學(xué)特征矢量是在固定的時(shí)間間隔內(nèi)從一系列語音樣本中提取的。在示范的實(shí)施例中,這些時(shí)間間隔是重疊的。例如,聲學(xué)特征可以從每隔10毫秒開始的時(shí)間間隔為20毫秒的語音數(shù)據(jù)獲得的,這樣每兩個(gè)連續(xù)的時(shí)間間隔共享10毫秒的分段。本領(lǐng)域的技術(shù)人員理解,可以用非重疊的或具有不固定的持續(xù)時(shí)間的時(shí)間間隔來取代所述的時(shí)間間隔而不偏離這里描述的實(shí)施例的范圍。
      由AFE單元216產(chǎn)生的每個(gè)聲學(xué)特征矢量(在圖12中用X來表示)提供給自適應(yīng)引擎224,它完成模式匹配以根據(jù)自適應(yīng)模型228的內(nèi)容來表征聲學(xué)特征矢量。根據(jù)模式匹配的結(jié)果,自適應(yīng)引擎224從存儲(chǔ)器227中選出一組特征矢量修正函數(shù)f()中的一個(gè)并且用它來產(chǎn)生經(jīng)修正的聲學(xué)特征矢量f(X)。
      這里用X來描述單個(gè)聲學(xué)特征矢量或者一系列連續(xù)的聲學(xué)特征矢量。類似地,用f(X)來描述單個(gè)經(jīng)修正的聲學(xué)特征矢量或一系列連續(xù)的經(jīng)修正的聲學(xué)特征矢量。
      在示范的實(shí)施例中,并且如圖2所示,于是在無線調(diào)制解調(diào)器218中調(diào)制經(jīng)修正的矢量f(X),通過無線信道206傳送它,并在通信中心204內(nèi)的無線調(diào)制解調(diào)器230中對其進(jìn)行解調(diào),再由中央VR引擎234把它對照中央聲學(xué)模型238進(jìn)行匹配。無線調(diào)制解調(diào)器218、230和無線信道206可以使用包括CDMA、TDMA或FDMA等多種無線接口中的任何接口。此外,無線調(diào)制解調(diào)器218、230可以用其他類型的經(jīng)非無線通信信道通信的通信接口來代替而不偏離所描述的實(shí)施例的范圍。例如,遠(yuǎn)端站202可以通過多種類型的通信信道(包括陸上通信線調(diào)制解調(diào)器、T1/E1、ISDN、DSL、以太網(wǎng)或者甚至是在印刷電路板(PCB)上的線路)任何通信信道與通信中心204通信。
      在示范的實(shí)施例中,對于特殊的用戶或說話者優(yōu)化矢量修正函數(shù)f(),并且如此設(shè)計(jì)該函數(shù),使得當(dāng)把它對照中央聲學(xué)模型238(它由多個(gè)用戶共享)進(jìn)行匹配時(shí),正確識別發(fā)言的可能性達(dá)到最大。遠(yuǎn)端站202中的自適應(yīng)模型228要比中央聲學(xué)模型238小得多,使得有可能保持對特殊用戶優(yōu)化的單獨(dú)的自適應(yīng)模型228。用于一個(gè)或多個(gè)說話者的特征矢量修正函數(shù)f()的參數(shù)也小得足以存儲(chǔ)在遠(yuǎn)端站202的存儲(chǔ)器227中。
      在示范的實(shí)施例中,在存儲(chǔ)器227中還存儲(chǔ)著依賴于環(huán)境的特征矢量修正函數(shù)的一組附加參數(shù)。依賴于環(huán)境的特征矢量修函數(shù)的選擇和優(yōu)化更具有全局性,因此可以在每個(gè)呼叫期間進(jìn)行。很簡單的依賴于環(huán)境的特征矢量修正函數(shù)的一個(gè)例子是對每個(gè)聲學(xué)特征矢量施加一個(gè)恒定的增益k以適應(yīng)有噪聲的環(huán)境。
      矢量修正函數(shù)f()可以具有數(shù)種形式中的任何形式。例如,矢量修正函數(shù)f()可以是形如AX+b的仿射變換。或者,矢量修正函數(shù)f()可以是一組有限脈沖響應(yīng)(FIR)濾波器。對于本領(lǐng)域的技術(shù)人員而言,其他形式的矢量修正函數(shù)f()是顯而易見的,因此它們在這里描述的實(shí)施例的范圍之內(nèi)。
      在示范的實(shí)施例中,根據(jù)一組連續(xù)的聲學(xué)特征矢量來選擇矢量修正函數(shù)f()。例如,為了確定自適應(yīng)模型228中的聲學(xué)特征矢量流與多個(gè)發(fā)言模式之間的相關(guān)度,自適應(yīng)引擎224可以應(yīng)用Viterbi譯碼或網(wǎng)格譯碼技術(shù)。一旦檢測到高的相關(guān)度,就根據(jù)檢測到的模式選擇矢量修正函數(shù)f()并把它應(yīng)用于聲學(xué)特征矢量的相應(yīng)的分段。這種方法要求自適應(yīng)引擎224存儲(chǔ)一系列聲學(xué)特征矢量,并在選擇要施加至每個(gè)聲學(xué)特征矢量的f()之前完成該系列對照自適應(yīng)模型228的模式匹配。在示范的實(shí)施例中,自適應(yīng)引擎保持未修正的聲學(xué)特征矢量的彈性緩沖器,然后在傳送之前把選出的f()施加至彈性緩沖器的內(nèi)容。把彈性緩沖器的內(nèi)容與自適應(yīng)模型228中的模式進(jìn)行比較,而對于與彈性緩沖器的內(nèi)容有最大相關(guān)度的模式產(chǎn)生最大相關(guān)性度量。把這個(gè)最大相關(guān)性與一個(gè)或多個(gè)閾值作比較。如果最大相關(guān)性超過檢測閾值,則把與最大相關(guān)性有關(guān)的模式相對應(yīng)的f()施加至緩沖器中的聲學(xué)特征矢量并加以傳送。如果在最大相關(guān)性超過檢測閾值之前彈性緩沖器已滿,則不作修正地傳送彈性緩沖器的內(nèi)容或者用默認(rèn)的f()來修正。
      可以用許多方法中的任何方法來完成f()的依賴于說話者的優(yōu)化。在第一示范實(shí)施例中,控制處理器222監(jiān)視用戶發(fā)言與自適應(yīng)模型228在多個(gè)發(fā)音上的相關(guān)度。當(dāng)控制處理器222確定f()的改變將改善VR性能時(shí),則它修正f()的參數(shù)并且把新的參數(shù)存儲(chǔ)在存儲(chǔ)器227中。另一種做法是,控制處理器222可以直接修正自適應(yīng)模型228以提高VR性能。
      如圖2所示,遠(yuǎn)端站202可以額外包括單獨(dú)的VR引擎220和遠(yuǎn)端站聲學(xué)模型226。由于存儲(chǔ)器的容量有限,遠(yuǎn)端站202(諸如無線電話)中的遠(yuǎn)端站聲學(xué)模型226一般必須很小,因此限于少量的短語或音素。另一方面,由于它包含在由少量用戶使用的遠(yuǎn)端站中,為了提高VR性能,可以把遠(yuǎn)端站聲學(xué)模型226對一個(gè)或多個(gè)特殊的用戶優(yōu)化。例如,對于如“call”等詞語的語音模式以及十個(gè)阿拉伯?dāng)?shù)字中的每一個(gè)數(shù)字可以適合該電話的所有者。這樣一個(gè)局部的遠(yuǎn)端站聲學(xué)模型226使得遠(yuǎn)端站202對于一組很少的詞語具有很好的VR性能。此外,遠(yuǎn)端站聲學(xué)模型226使得遠(yuǎn)端站202不建立至通信中心204的無線鏈路就能完成VR。
      通過監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)可以發(fā)生f()的優(yōu)化。監(jiān)督學(xué)習(xí)一般是指在用戶對于預(yù)定詞語或句子發(fā)音時(shí)發(fā)生的訓(xùn)練,以對遠(yuǎn)端站聲學(xué)模型進(jìn)行準(zhǔn)確優(yōu)化。由于VR系統(tǒng)具有用作輸入的詞語或句子的在先的知識,因此在監(jiān)督學(xué)習(xí)期間無需進(jìn)行VR來識別預(yù)定的詞語和句子。一般認(rèn)為監(jiān)督學(xué)習(xí)是產(chǎn)生特殊用戶的聲學(xué)模型的最準(zhǔn)確的方法。監(jiān)督學(xué)習(xí)的一個(gè)例子是當(dāng)用戶首次把十個(gè)阿拉伯?dāng)?shù)字的語音編程為遠(yuǎn)端站202的遠(yuǎn)端站聲學(xué)模型226。由于遠(yuǎn)端站202具有與說這些數(shù)字相應(yīng)的語音模式的在先知識,因此遠(yuǎn)端站聲學(xué)模型226可以適應(yīng)特殊用戶而使VR性能劣化的風(fēng)險(xiǎn)很小。
      與監(jiān)督學(xué)習(xí)相反,無需具有語音模式或發(fā)音詞語的在先知識的VR系統(tǒng)即可發(fā)生無監(jiān)督學(xué)習(xí)。由于有把發(fā)音與不正確的語音模式進(jìn)行匹配的風(fēng)險(xiǎn),因此必須以更為保守的方式進(jìn)行基于無監(jiān)督學(xué)習(xí)的遠(yuǎn)端站聲學(xué)模型的修正。例如,可能出現(xiàn)了許多過去的發(fā)音,它們互相很相似,并且比任何其他的語音模式更接近聲學(xué)模型中的一個(gè)語音模式。如果所有的那些過去的發(fā)音正確地與模型中的一個(gè)語音模式相匹配,則能夠修正聲學(xué)模型中的一個(gè)語音模式以與一組類似的發(fā)音更接近地匹配。然而,如果許多那些過去的發(fā)音不與模型中的一個(gè)語音模式相對應(yīng),則修正該語音模式將使得VR性能變壞。最理想的是,VR系統(tǒng)能夠從用戶那里收集到關(guān)于以往模式匹配準(zhǔn)確性的反饋信息,但是時(shí)常得不到這種反饋信息。
      遺憾的是,對于用戶而言監(jiān)督學(xué)習(xí)是冗長的,因此用它來產(chǎn)生具有大量語音模式的聲學(xué)模型是不切實(shí)際的。然而,在優(yōu)化一組矢量修正函數(shù)f(),或者甚至在優(yōu)化自適應(yīng)模型228中的更有限的語音模式監(jiān)督學(xué)習(xí)仍然是有用的。由用戶的濃重的口音造成的語音模式的差異是在其中可能需要監(jiān)督學(xué)習(xí)的一個(gè)應(yīng)用的例子。由于可能需要顯著修正聲學(xué)特征矢量來補(bǔ)償一種口音,因此非常需要準(zhǔn)確的修正。
      對于特殊的用戶也可使用無監(jiān)督學(xué)習(xí)來優(yōu)化矢量修正函數(shù)f(),如果優(yōu)化不容易成為VR差錯(cuò)的直接原因。例如,為適應(yīng)一個(gè)元音區(qū)的長度或平均元音pitch較長的說話者而對矢量修正函數(shù)f()的調(diào)整要比為補(bǔ)償口音而需的調(diào)整更具有全局性。對這些全局的矢量的修正可能失準(zhǔn)較為嚴(yán)重,但這對VR的效力并不產(chǎn)生劇烈的影響。
      一般,自適應(yīng)引擎224只使用小的自適應(yīng)模型228來選擇矢量修正函數(shù)f(),而不作全部的VR。由于其規(guī)模小,因此類似地自適應(yīng)模型228也不適合作訓(xùn)練以優(yōu)化自適應(yīng)模型228或矢量修正函數(shù)f()。為改進(jìn)說話者的語音數(shù)據(jù)與自適應(yīng)模型228的匹配程度而出現(xiàn)的自適應(yīng)模型228或矢量修正函數(shù)f()的調(diào)整實(shí)際上可能使對照較大的中央聲學(xué)模型238的匹配程度變壞。由于中央聲學(xué)模型238是一種實(shí)際用于VR的模型,這樣的調(diào)整將是錯(cuò)誤而不是優(yōu)化。
      在示范的實(shí)施例中,當(dāng)使用無監(jiān)督學(xué)習(xí)以修正自適應(yīng)模型228或矢量修正函數(shù)f()時(shí),遠(yuǎn)端站202與通信中心204合作。根據(jù)改進(jìn)的對照中央聲學(xué)模型238的匹配,作出是修正自適應(yīng)模型228還是矢量修正函數(shù)f()的決定。例如,遠(yuǎn)端站202可以發(fā)送多組聲學(xué)特征矢量、未經(jīng)修正的聲學(xué)特征矢量X和經(jīng)修正的聲學(xué)特征矢量f(X)至通信中心204。另一種做法,遠(yuǎn)端站202可以發(fā)送經(jīng)修正的聲學(xué)特征矢量f1(X)和f2(X),這里f2()是試驗(yàn)性的經(jīng)修正的特征矢量修正函數(shù)。在另一個(gè)實(shí)施例中,遠(yuǎn)端站202發(fā)送X以及兩個(gè)特征矢量修正函數(shù)f1()和f2()的參數(shù)。根據(jù)固定的時(shí)間間隔,遠(yuǎn)端站202可以發(fā)送是否發(fā)送第二組信息至通信中心204的多組決定。
      在接收到多組聲學(xué)特征信息(它們可以是經(jīng)修正的聲學(xué)特征矢量或特征矢量修正函數(shù))之后,通信中心204使用其自己的VR引擎234和中央聲學(xué)模型238估計(jì)最終的經(jīng)修正的聲學(xué)特征矢量的匹配程度。然后通信中心204把信息送回遠(yuǎn)端站202以指出此改變是否導(dǎo)致VR性能的提高。例如,通信中心204把對于每組聲學(xué)特征矢量的語音模式相關(guān)性度量送回遠(yuǎn)端站202。一組聲學(xué)遏制矢量的語音模式相關(guān)性度量指出了一組聲學(xué)特征矢量與中央聲學(xué)模型238的相關(guān)度。根據(jù)兩組矢量之間的相關(guān)度的比較,遠(yuǎn)端站202可以調(diào)整其自適應(yīng)模型228或者調(diào)整一個(gè)或多個(gè)特征矢量修正函數(shù)f()。遠(yuǎn)端站202可以規(guī)定使用哪個(gè)將用于實(shí)際識別詞語的矢量組,或者通信中心204可以根據(jù)相關(guān)性度量來選擇矢量組。在另一個(gè)實(shí)施例中,遠(yuǎn)端站202在從通信中心204接收到最后的相關(guān)性度量之后識別將要用于VR的聲學(xué)特征矢量組。
      在另一個(gè)實(shí)施例中,遠(yuǎn)端站202使用其自己的本地自適應(yīng)引擎224和自適應(yīng)模型228來識別特征矢量修正函數(shù)f(),并且把未修正的聲學(xué)特征矢量X連同f()送至通信中心204。然后通信中心204把f()應(yīng)用于X并使用經(jīng)修正的和未修正的矢量進(jìn)行測試。然后通信中心204把測試結(jié)果送回遠(yuǎn)端站202,使遠(yuǎn)端站202能更準(zhǔn)確地調(diào)整特征矢量修正函數(shù)。
      在另一個(gè)實(shí)施例中,自適應(yīng)引擎224和自適應(yīng)模型228被合并在通信中心204內(nèi),而不是在遠(yuǎn)端站202內(nèi)。通信中心204內(nèi)的控制處理器232通過調(diào)制解調(diào)器230接收未修正的聲學(xué)特征矢量流,并且把它們提供給通信中心204內(nèi)的自適應(yīng)引擎和自適應(yīng)模型。根據(jù)此中間模式匹配的結(jié)果,控制處理器232從存儲(chǔ)在通信中心存儲(chǔ)器236內(nèi)的數(shù)據(jù)庫選出一個(gè)特征矢量修正函數(shù)。在示范的實(shí)施例中,通信中心存儲(chǔ)器236包含有相應(yīng)于特定用戶的特征矢量修正函數(shù)f()組。如上所述,這可以增添或替代存儲(chǔ)在遠(yuǎn)端站202中的特征矢量修正函數(shù)信息。通信中心204能夠使用許多種說話者識別信息中的任何信息來識別特殊的說話者,該說話者提供從其提取特征矢量的語音數(shù)據(jù)。例如,用來選擇一組特征矢量修正函數(shù)的說話者識別信息可以是無線信道206相對端的無線電話移動(dòng)識別號(MIN)。另一種做法是,為了加強(qiáng)VR服務(wù)的目的,用戶可以鍵入口令以識別本人。此外,基于語音數(shù)據(jù)的測量,在無線電話呼叫期間可以使依賴于環(huán)境的特征矢量修正函數(shù)自適應(yīng)和應(yīng)用它。也可以使用許多其他的方法來選擇一組依賴于說話者的矢量修正函數(shù)而不偏離這里描述的實(shí)施例的范圍。
      本領(lǐng)域的技術(shù)人員也將理解可以把遠(yuǎn)端站202內(nèi)的多個(gè)模式匹配引擎220、224加以組合而不偏離這里描述的實(shí)施例的范圍。此外,也可以把遠(yuǎn)端站202內(nèi)的不同的聲學(xué)模型226、228類似地加以組合。還有,可以把以一個(gè)或多個(gè)模式匹配引擎220、224合并入遠(yuǎn)端站202的控制處理器222。也可以把一個(gè)或多個(gè)聲學(xué)模型226、228合并入由控制處理器222使用的存儲(chǔ)器227。
      如果自適應(yīng)引擎(未示出)在通信中心204中存在的話,中央語音模式匹配引擎234可以與之相組合而不偏離這里描述的實(shí)施例的范圍。此外,中央聲學(xué)模型238可以與一個(gè)自適應(yīng)模型(未示出)相組合。還有,如果中央語音模式匹配引擎234和自適應(yīng)引擎(未示出)在通信中心存在的話,則可以把它們之中的任何一個(gè)或兩者都合并入通信中心204的控制處理器232。如果中央聲學(xué)模型238和自適應(yīng)模型(未示出)在通信中心204存在的話,則可以把它們之中的任何一個(gè)或兩者都合并入通信中心204的控制處理器232。
      圖3是進(jìn)行分布VR方法的流程圖,這里,根據(jù)對于遠(yuǎn)端自適應(yīng)模型的收斂性,X和f()的改變完全出現(xiàn)在遠(yuǎn)端站202中。在步驟302,遠(yuǎn)端站202對來自擴(kuò)音器的模擬語音信號取樣以產(chǎn)生數(shù)字語音樣本。在步驟304,例如使用如上所述的預(yù)加強(qiáng)濾波器接著對語音樣本進(jìn)行濾波。在步驟306,從經(jīng)濾波的語音樣本提取聲學(xué)特征矢量X流。如上所述,可以從持續(xù)時(shí)間為固定或可變的語音樣本的重疊或不重疊的間隔提取聲學(xué)特征矢量。
      在步驟308,遠(yuǎn)端站202進(jìn)行模式匹配以確定聲學(xué)特征矢量流和在自適應(yīng)模型中容納的多個(gè)模式(諸如圖2中的228)之間的相關(guān)度。在步驟310,遠(yuǎn)端站202選擇與聲學(xué)特征矢量X流最接近匹配的自適應(yīng)模型中的模式。被選中的模式稱為目標(biāo)模式。如上面所討論的,可以把X和目標(biāo)模式之間的相關(guān)度對照檢測閾值作比較。如果相關(guān)度大于檢測閾值,則遠(yuǎn)端站202選擇與該目標(biāo)模式相應(yīng)的特征矢量修正函數(shù)f()。如果相關(guān)度小于檢測閾值,則遠(yuǎn)端站或是選擇這樣的聲學(xué)特征矢量特性函數(shù),從而f(X)=X,或者選擇某個(gè)默認(rèn)的f()。在一個(gè)示范的實(shí)施例中,遠(yuǎn)端站20從特征矢量修正函數(shù)的本地?cái)?shù)據(jù)庫中選出一個(gè)特征矢量修正函數(shù)f(),特征矢量修正函數(shù)與在其本地自適應(yīng)模型中的各種模式相對應(yīng)。遠(yuǎn)端站202把選出的特征矢量修正函數(shù)f()應(yīng)用于聲學(xué)特征矢量X流,于是產(chǎn)生f(X)。
      在示范的實(shí)施例中,遠(yuǎn)端站202產(chǎn)生指出X和目標(biāo)模式之間的性程度的相關(guān)性度量。遠(yuǎn)端站202還產(chǎn)生指出f(X)和目標(biāo)模式之間的性程度的相關(guān)性度量。在不監(jiān)督學(xué)習(xí)的一個(gè)例子中,遠(yuǎn)端站202使用兩個(gè)相關(guān)性度量以及以往的相關(guān)性度量值,以在步驟314確定是否修正一個(gè)或多個(gè)特征矢量修正函數(shù)f()。如果在步驟314作出修正f()的決定,則在步驟316修正f()。在示范的實(shí)施例中,在步驟318立即把經(jīng)修正的f()應(yīng)用于X以形成新的經(jīng)修正的聲學(xué)特征矢量f(X)。在另一個(gè)實(shí)施例中,省去步驟318,而新的特征矢量修正函數(shù)f()直到下一組聲學(xué)特征矢量X出現(xiàn)時(shí)才生效。
      如果在步驟318或者在其后的步驟316和318作出不修正f()的決定,則在步驟320遠(yuǎn)端站202把當(dāng)前的f(X)通過無線信道206傳送至通信中心204。然后在步驟322在通信中心內(nèi)發(fā)生VR模式匹配。
      在另一個(gè)實(shí)施例中,在VR模式匹配步驟322通信中心204產(chǎn)生語音模式相關(guān)性度量并且把這些度量送回到遠(yuǎn)端站302以幫助f()的優(yōu)化。可以用多種方法中的任何方法來格式化語音模式相關(guān)性度量。例如,通信中心204可以返回一個(gè)聲學(xué)特征矢量修正誤差函數(shù)fE(),它可應(yīng)用于f(X)以與在中央聲學(xué)模型中找到的一個(gè)模型產(chǎn)生嚴(yán)格的相關(guān)。另一種做法是,通信中心204可以只返還一組與在中央聲學(xué)模型中的一個(gè)或一些目標(biāo)模式相應(yīng)的聲學(xué)特征矢量,發(fā)現(xiàn)這些模式與f(X)有最高的相關(guān)度。或者,通信中心204能返回分支度量,它是從用于選擇目標(biāo)模式的硬判決或軟判決Viterbi譯碼過程導(dǎo)出的。語音模式相關(guān)性度量也可以包括這些類型的信息的組合。然后由遠(yuǎn)端站202在優(yōu)化f()時(shí)使用這個(gè)返回的信息。在示范的實(shí)施例中,省略在步驟318的再產(chǎn)生f(),而遠(yuǎn)端站202在接收到來自通信中心204的反饋之后進(jìn)行f()的修正(步驟314和316)。
      圖4是示出進(jìn)行分布VR的方法的流程圖,這里,根據(jù)對于遠(yuǎn)端自適應(yīng)模型的收斂性,X和f()的改變完全出現(xiàn)在通信中心204中。在步驟402,遠(yuǎn)端站202對來自擴(kuò)音器的模擬語音信號取樣以產(chǎn)生數(shù)字語音樣本。在步驟404,例如使用如上所述的預(yù)加強(qiáng)濾波器接著對語音樣本進(jìn)行濾波。在步驟406,從經(jīng)濾波的語音樣本提取聲學(xué)特征矢量X流。如上所述,可以從持續(xù)時(shí)間為固定或可變的語音樣本的重疊或不重疊的間隔提取聲學(xué)特征矢量。
      在步驟408,遠(yuǎn)端站202通過無線信道206傳送未修正的聲學(xué)特征矢量X流。在步驟410,通信中心204進(jìn)行自適應(yīng)模式匹配。如上所述,可以使用單獨(dú)的自適應(yīng)模型或者使用大的中央聲學(xué)模型238進(jìn)行自適應(yīng)模式匹配。在步驟412,通信中心204在自適應(yīng)模型中選擇與聲學(xué)特征矢量X流最接近匹配的模式。被選中的模式稱為目標(biāo)模式。如上面所討論的,如果X和目標(biāo)模式之間的相關(guān)性超出閾值,則選擇與該目標(biāo)模式相應(yīng)的f()。否則,選擇默認(rèn)的f()或零f()。在步驟414,把選出的特征矢量修正函數(shù)f()應(yīng)用于聲學(xué)特征矢量X流,以形成經(jīng)修正的聲學(xué)特征矢量f(X)流。
      在示范的實(shí)施例中,從位于通信中心204的打的特征矢量修正函數(shù)數(shù)據(jù)庫的子組選擇特征矢量修正函數(shù)f()。對于選擇有用的特征矢量修正函數(shù)的子組是依賴于說話者的,從而使用中央聲學(xué)模型(諸如圖2中的238)的模式匹配在用f(X)比用X作為輸入時(shí)更加準(zhǔn)確。如上所述,通信中心204可以如何選擇依賴于說話者的特征矢量修正函數(shù)的子組的例子包括使用說話者的無線電話的MIN或者由說話者輸入的口令。
      在示范的實(shí)施例中,通信中心204對于X和目標(biāo)模式之間以及f(X)和目標(biāo)模式之間的相關(guān)性產(chǎn)生相關(guān)性度量。然后在步驟416,通信中心204使用兩個(gè)相關(guān)性度量連同以往的相關(guān)性度量值來確定是否修正一個(gè)或多個(gè)特征矢量修正函數(shù)f()。如果在步驟416作出修正f()的決定,則在步驟418修正f()。在示范的實(shí)施例中,在步驟420立即把經(jīng)修正的f()應(yīng)用于X以形成新的經(jīng)修正的聲學(xué)特征矢量f(X)。在另一個(gè)實(shí)施例中,省去步驟420,而新的特征矢量修正函數(shù)f()直到下一組聲學(xué)特征矢量X出現(xiàn)時(shí)才生效。
      如果在步驟416或者在其后的步驟418和420作出不修正f()的決定,則在步驟422,通信中心204使用中央聲學(xué)模型238進(jìn)行VR模式匹配。
      圖5示出進(jìn)行分布VR的方法的流程圖,其中使用通信中心204內(nèi)的中央聲學(xué)模型來優(yōu)化特征矢量修正函數(shù)或自適應(yīng)模型。在示范的實(shí)施例中,遠(yuǎn)端站202和通信中心204在需要時(shí)交換信息,并且相互合作,使特征矢量修正函數(shù)的優(yōu)化達(dá)到最高的準(zhǔn)確度。在步驟402,遠(yuǎn)端站202對來自擴(kuò)音器的模擬語音信號取樣以產(chǎn)生數(shù)字語音樣本。
      在步驟502,遠(yuǎn)端站202對來自擴(kuò)音器的模擬語音信號取樣以產(chǎn)生數(shù)字語音樣本。在步驟504,例如使用如上所述的預(yù)加強(qiáng)濾波器接著對語音樣本進(jìn)行濾波。在步驟506,從經(jīng)濾波的語音樣本提取聲學(xué)特征矢量X流。如上所述,可以從持續(xù)時(shí)間為固定或可變的語音樣本的重疊或不重疊的間隔提取聲學(xué)特征矢量。
      在步驟508,遠(yuǎn)端站202進(jìn)行模式匹配以確定聲學(xué)特征矢量流和和包含在自適應(yīng)模型中的多個(gè)模式(諸如圖2中的228)之間的相關(guān)度。在步驟510,遠(yuǎn)端站202在自適應(yīng)模型中選擇與聲學(xué)特征矢量X流最接近匹配的模式。被選中的模式稱為目標(biāo)模式。如上面所討論的,如果X和目標(biāo)模式之間的相關(guān)性超出閾值,則選擇與該目標(biāo)模式相應(yīng)的第一特征矢量修正函數(shù)f1()。否則,選擇默認(rèn)的f()或零f()。相應(yīng)于在其本地自適應(yīng)模型中的各種模式,遠(yuǎn)端站202從本地的特征矢量修正函數(shù)數(shù)據(jù)庫選擇特征矢量修正函數(shù)f()。在步驟512,遠(yuǎn)端站202把選出的特征矢量修正函數(shù)f()應(yīng)用于聲學(xué)特征矢量X流,于是產(chǎn)生f(X)。
      與結(jié)合圖3和圖4描述的方法形成對照,在步驟514,遠(yuǎn)端站通過信道206送出兩組聲學(xué)特征矢量f1(X)和f2(X)至通信中心204。在步驟506,通信中心204使用f1(X)作為輸入對照其中央聲學(xué)模型進(jìn)行模式匹配。作為這個(gè)VR模式匹配的結(jié)果,通信中心204識別與f1(X)具有最大相關(guān)度的一個(gè)或一組目標(biāo)模式。在步驟518,通信中心204產(chǎn)生指出f1(X)與目標(biāo)模式的相關(guān)度的第一語音模式相關(guān)性度量以及指出f2(X)與目標(biāo)模式的相關(guān)度的第二語音模式相關(guān)性度量。
      雖然為進(jìn)行對照中央聲學(xué)模型的模式匹配使用了兩組聲學(xué)特征矢量,但對于實(shí)際的VR只使用一組。于是,遠(yuǎn)端站202能夠估計(jì)建議的特征矢量修正函數(shù)的性能而沒有料想不到的劣化性能的風(fēng)險(xiǎn)。還有,當(dāng)優(yōu)化f()時(shí),遠(yuǎn)端站202完全無需依靠其小的本地的自適應(yīng)模型。在另一個(gè)實(shí)施例中,對于f2(X)遠(yuǎn)端站202可以使用零函數(shù),從而f2(X)=X。這個(gè)方法允許遠(yuǎn)端站202對照達(dá)到的VR性能證實(shí)f()的性能而不進(jìn)行聲學(xué)特征矢量修正。
      在步驟520,通信中心204通過無線信道206把兩個(gè)語音模式相關(guān)性度量送回遠(yuǎn)端站202。在步驟522,根據(jù)接收到的語音模式相關(guān)性度量,遠(yuǎn)端站202決定是否在步驟524修正f1(X)。可以根據(jù)一組語音模式相關(guān)性度量或者可以根據(jù)一組語音模式相關(guān)性度量(它們與來自本地自適應(yīng)模型的相同的語音模式有關(guān))來確定是否在步驟522修正f1(X)。如上面所討論的,語音模式相關(guān)性度量可以包括這樣的信息,如聲學(xué)特征矢量修正誤差函數(shù)fE()、相應(yīng)于中央聲學(xué)模型中與f(X)有最高相關(guān)度的模式或者Viterbi譯碼分支度量。
      本領(lǐng)域的技術(shù)人員將理解,上面描述的技術(shù)同樣可以應(yīng)用于各種類型的無線信道206中的任何無線信道。例如,無線信道206(因而調(diào)制解調(diào)器218,230)可以使用碼分多址(CDMA)技術(shù)、模擬蜂窩、時(shí)分多址(TDMA)或其他類型的無線信道。另一種做法是,信道206可以是除了無線信道之外的一種信道,包括但不限于光、紅外和以太網(wǎng)信道。在又一個(gè)實(shí)施例中,把遠(yuǎn)端站202和通信中心204組合成單個(gè)系統(tǒng),在使用中央聲學(xué)模型238進(jìn)行VR測試之前,該系統(tǒng)完全避免信道206進(jìn)行依賴于說話者的聲學(xué)特征矢量的修正。
      本領(lǐng)域的技術(shù)人員將明白,使用許多種技術(shù)中的任何技術(shù)可以表示信息和信號。例如,在上面的描述中可以被引用的數(shù)據(jù)、指令、命令、信息、信號、位、碼元和碼片可以用電壓、電流、電磁波、磁場或粒子、光場和粒子或者它們的任何組合來表示。
      本領(lǐng)域的技術(shù)人員還將理解,針對這里揭示的實(shí)施例描述的各種示范的邏輯塊、模塊、電路和算法步驟可以作為電子硬件、計(jì)算機(jī)軟件或者它們的組合而實(shí)施。為了清楚地描述硬件和軟件的可互換性,一般已經(jīng)在上面按其功能描述了各種示范的元件、塊、模塊、電路和步驟。該功能是作為硬件還是軟件來實(shí)施取決于特殊的應(yīng)用和加在整個(gè)系統(tǒng)上的設(shè)計(jì)約束。對于每個(gè)特殊的應(yīng)用,本領(lǐng)域的技術(shù)人員可以用不同的方法來實(shí)施所描述的功能,但不應(yīng)把這些實(shí)施決定解釋為造成偏離本發(fā)明的范圍。
      針對這里揭示的實(shí)施例描述的各種說明性的邏輯塊、模塊和電路可以用通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其他可編程邏輯器件、分立的門或晶體管邏輯、分立的硬件元件或者設(shè)計(jì)例完成這里描述的功能的它們的任何組合來實(shí)施或完成。通用處理器可以是微處理器,但在其他場合,處理器可以是任何傳統(tǒng)的處理器、控制器、微控制器或狀態(tài)機(jī)。處理器也可以作為計(jì)算裝置的組合(例如DSP和微處理器、多個(gè)微處理器、一個(gè)或多個(gè)微處理器與一個(gè)DSP核心或者任何其他這樣的構(gòu)造的組合)來實(shí)施。
      針對這里揭示的實(shí)施例描述的方法或算法的步驟可以直接用硬件、用由處理器執(zhí)行的軟件模塊或者兩者的組合來實(shí)施。軟件模塊可以駐留在RAM存儲(chǔ)器、閃存存儲(chǔ)器、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬盤、可拆卸盤、CD-ROM或本領(lǐng)域中公知的任何其他形式的存儲(chǔ)媒體中。把一個(gè)示范的存儲(chǔ)媒體耦合至處理器,該處理器能夠從該存儲(chǔ)媒體讀信息并把信息寫至該存儲(chǔ)媒體中。在另一個(gè)例子中,可以把存儲(chǔ)媒體合并至處理器。處理器和存儲(chǔ)媒體可以駐留在ASIC中。ASIC可以駐留在遠(yuǎn)端站中。在另一個(gè)例子中,處理器和存儲(chǔ)媒體可以作為分立元件駐留在遠(yuǎn)端站中。
      提供了上述對于所揭示的實(shí)施例的描述,以使本領(lǐng)域中的任何技術(shù)人員能夠做出或使用本發(fā)明。對于本領(lǐng)域的技術(shù)人員而言,對這些實(shí)施例的各種變更是很明顯的,可以把在這里確定的一般原理應(yīng)用于其他的實(shí)施例而不偏離本發(fā)明的精神和范圍。這樣,不打算把本發(fā)明局限于在這里示出的實(shí)施例,而是打算使在這里揭示的原理和新特征與最廣的范圍相符合。
      權(quán)利要求
      1.一種語音識別系統(tǒng),包括一個(gè)包含聲學(xué)模式信息的自適應(yīng)模型;以及一個(gè)自適應(yīng)引擎,用于聲學(xué)特征矢量與聲學(xué)模式信息的模式匹配,以識別選出的特征矢量修正函數(shù)。
      2.如權(quán)利要求1所述的語音識別系統(tǒng),其特征在于進(jìn)一步構(gòu)造自適應(yīng)引擎以將選出的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量,以產(chǎn)生一組經(jīng)修正的聲學(xué)特征矢量。
      3.如權(quán)利要求1所述的語音識別系統(tǒng),其特征在于還包括語音識別引擎,用于把該組經(jīng)修正的聲學(xué)特征矢量與聲學(xué)模型進(jìn)行匹配。
      4.如權(quán)利要求1所述的語音識別系統(tǒng),其特征在于還包括控制處理器,用于評估選出的特征矢量修正函數(shù)的性能以及根據(jù)評估來調(diào)整選出的特征矢量修正函數(shù)。
      5.如權(quán)利要求1所述的語音識別系統(tǒng),其特征在于還包括存儲(chǔ)器,用于存儲(chǔ)相應(yīng)于一組特征矢量修正函數(shù)的至少一組參數(shù),其中選出的特征矢量修正函數(shù)是特征修正函數(shù)組的一個(gè)部分。
      6.如權(quán)利要求5所述的語音識別系統(tǒng),其特征在于所述存儲(chǔ)器包含相應(yīng)于一組特征矢量修正函數(shù)的一組以上的參數(shù),其中每組參數(shù)相應(yīng)于一個(gè)特殊的說話者。
      7.如權(quán)利要求5所述的語音識別系統(tǒng),其特征在于所述存儲(chǔ)器包含相應(yīng)于一組特征矢量修正函數(shù)的一組以上的參數(shù),其中每組參數(shù)相應(yīng)于一個(gè)不同的聲學(xué)環(huán)境。
      8.一種語音識別系統(tǒng),包括一個(gè)包含聲學(xué)模式信息的自適應(yīng)模型;以及一個(gè)自適應(yīng)引擎,用于進(jìn)行聲學(xué)特征矢量與聲學(xué)模式信息的模式匹配,以識別依賴于說話者的特征矢量修正函數(shù),并把依賴于說話者的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量。
      9.一種語音識別系統(tǒng),包括一個(gè)自適應(yīng)引擎,用于分析聲學(xué)特征矢量以識別選出的特征矢量修正函數(shù)以及把選出的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量以產(chǎn)生一組經(jīng)修正的聲學(xué)特征矢量;一個(gè)聲學(xué)模型;以及一個(gè)語音識別引擎,用于把該組經(jīng)修正的聲學(xué)特征矢量與聲學(xué)模型進(jìn)行匹配。
      10.如權(quán)利要求9所述的語音識別系統(tǒng),其特征在于還包括自適應(yīng)模型,其中所述自適應(yīng)引擎通過把聲學(xué)特征矢量與存儲(chǔ)在自適應(yīng)模型中的聲學(xué)模型相匹配而對聲學(xué)特征矢量進(jìn)行分析。
      11.如權(quán)利要求9所述的語音識別系統(tǒng),其特征在于還包括控制處理器,用于評估選出的特征矢量修正函數(shù)的性能以及根據(jù)評估來調(diào)整選出的特征矢量修正函數(shù)。
      12.如權(quán)利要求9所述的語音識別系統(tǒng),其特征在于還包括存儲(chǔ)器,用于存儲(chǔ)相應(yīng)于一組特征矢量修正函數(shù)的至少一組參數(shù),其中選出的特征矢量修正函數(shù)是特征修正函數(shù)組的一個(gè)部分。
      13.如權(quán)利要求12所述的語音識別系統(tǒng),其特征在于所述存儲(chǔ)器包含相應(yīng)于一組特征矢量修正函數(shù)的一組以上的參數(shù),其中每組參數(shù)相應(yīng)于一個(gè)特殊的說話者。
      14.如權(quán)利要求12所述的語音識別系統(tǒng),其特征在于所述存儲(chǔ)器包含相應(yīng)于一組特征矢量修正函數(shù)的一組以上的參數(shù),其中每組參數(shù)相應(yīng)于一個(gè)不同的聲學(xué)環(huán)境。
      15.一種遠(yuǎn)端站設(shè)備,包括一個(gè)包含聲學(xué)模式信息的自適應(yīng)模型;以及一個(gè)自適應(yīng)引擎,用于進(jìn)行聲學(xué)特征矢量對照聲學(xué)模式信息的模式匹配,以識別選出的特征矢量修正函數(shù),并把選出的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量以產(chǎn)生一組經(jīng)修正的聲學(xué)特征矢量。
      16.如權(quán)利要求15所述的遠(yuǎn)端站設(shè)備,其特征在于還包括控制處理器,用于評估選出的特征矢量修正函數(shù)的性能以及根據(jù)評估來調(diào)整選出的特征矢量修正函數(shù)。
      17.如權(quán)利要求15所述的遠(yuǎn)端站設(shè)備,其特征在于還包括存儲(chǔ)器,用于存儲(chǔ)相應(yīng)于一組特征矢量修正函數(shù)的至少一組參數(shù),其中選出的特征矢量修正函數(shù)是特征修正函數(shù)組的一個(gè)部分。
      18.如權(quán)利要求17所述的遠(yuǎn)端站設(shè)備,其特征在于所述存儲(chǔ)器包含相應(yīng)于一組特征矢量修正函數(shù)的一組以上的參數(shù),其中每組參數(shù)相應(yīng)于一個(gè)特殊的說話者。
      19.如權(quán)利要求17所述的遠(yuǎn)端站設(shè)備,其特征在于所述存儲(chǔ)器包含相應(yīng)于一組特征矢量修正函數(shù)的一組以上的參數(shù),其中每組參數(shù)相應(yīng)于一個(gè)不同的聲學(xué)環(huán)境。
      20.如權(quán)利要求15所述的遠(yuǎn)端站設(shè)備,其特征在于還包括通信接口,用于把經(jīng)修正的聲學(xué)特征矢量傳遞至通信中心。
      21.一種語音識別通信中心設(shè)備,包括一個(gè)用于接收聲學(xué)特征矢量的通信接口,其中聲學(xué)特征矢量已經(jīng)用特征矢量修正函數(shù)修正過;一個(gè)包含聲學(xué)模式的聲學(xué)模型,其中不對單個(gè)說話者訓(xùn)練聲學(xué)模型;一個(gè)語音識別引擎,用于把該組經(jīng)修正的聲學(xué)特征矢量與聲學(xué)模型相匹配;以及一個(gè)控制處理器,用于根據(jù)匹配來估計(jì)特征修正函數(shù)。
      22.一種語音識別通信中心設(shè)備,包括一個(gè)通信接口,用于至少從一個(gè)遠(yuǎn)端站接收聲學(xué)特征矢量和說話者識別信息;一個(gè)包含依賴于說話者的特征矢量修正函數(shù)參數(shù)的存儲(chǔ)器;以及一個(gè)自適應(yīng)引擎,用于進(jìn)行聲學(xué)特征矢量與聲學(xué)模型的模式匹配,根據(jù)模式匹配和說話者識別信息識別選出的依賴于說話者的特征矢量修正函數(shù),以及把選出的依賴于說話者的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量,以產(chǎn)生一組經(jīng)修正的聲學(xué)特征矢量。
      23.如權(quán)利要求22所述的語音識別通信中心設(shè)備,其特征在于所述自適應(yīng)引擎還包括語音識別引擎,用于把該組經(jīng)修正的聲學(xué)特征矢量與中央聲學(xué)模型進(jìn)行匹配,其中中央聲學(xué)模型不對單個(gè)說話者進(jìn)行訓(xùn)練。
      24.如權(quán)利要求22所述的語音識別通信中心設(shè)備,其特征在于還包括中央聲學(xué)模型,其中中央聲學(xué)模型不對單個(gè)說話者進(jìn)行訓(xùn)練,并且所述自適應(yīng)引擎還被構(gòu)造成對經(jīng)修正的聲學(xué)特征矢量組與中央聲學(xué)模型進(jìn)行模式匹配。
      25.如權(quán)利要求22所述的語音識別通信中心設(shè)備,其特征在于還包括語音識別引擎,用于把經(jīng)修正的聲學(xué)特征矢量組與中央聲學(xué)模型進(jìn)行匹配。
      26.如權(quán)利要求22所述的語音識別通信中心設(shè)備,其特征在于還包括控制處理器,用于評估選出的依賴于說話者的特征矢量修正函數(shù)的性能以及根據(jù)評估來調(diào)整選出的依賴于說話者的特征矢量修正函數(shù)的參數(shù)。
      27.一種進(jìn)行語音識別的方法,包括提取聲學(xué)特征矢量;進(jìn)行聲學(xué)特征矢量與自適應(yīng)模型的自適應(yīng)模式匹配;根據(jù)自適應(yīng)模式匹配選擇特征矢量修正函數(shù);把選出的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量以形成一組經(jīng)修正的聲學(xué)特征矢量;以及進(jìn)行經(jīng)修正的聲學(xué)特征矢量組與聲學(xué)模型的語音識別模式匹配。
      28.如權(quán)利要求27所述的方法,其特征在于從一組依賴于說話者的特征矢量修正函數(shù)中選出所述特征矢量修正函數(shù)。
      29.如權(quán)利要求28所述的方法,其特征在于還包括根據(jù)自適應(yīng)模式匹配來修正該組依賴于說話者的特征矢量修正函數(shù)。
      30.如權(quán)利要求28所述的方法,其特征在于還包括根據(jù)語音識別模式匹配來修正依賴于說話者的特征矢量修正函數(shù)組。
      31.如權(quán)利要求27所述的方法,其特征在于所述特征矢量修正函數(shù)對于聲學(xué)環(huán)境是特定的。
      32.一種進(jìn)行語音識別的方法,包括在遠(yuǎn)端站,進(jìn)行聲學(xué)特征矢量與存儲(chǔ)在遠(yuǎn)端站中的自適應(yīng)模型的自適應(yīng)模式匹配;在遠(yuǎn)端站,從存儲(chǔ)在遠(yuǎn)端站中的特征矢量修正函數(shù)信息中選擇特征矢量修正函數(shù),其中選擇特征矢量修正函數(shù)是基于模式匹配的;在遠(yuǎn)端站,把選出的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量,以形成一組經(jīng)修正的聲學(xué)特征矢量;以及從遠(yuǎn)端站把經(jīng)修正的聲學(xué)特征矢量發(fā)送至通信中心。
      33.如權(quán)利要求32所述的方法,其特征在于所述特征矢量修正函數(shù)信息是依賴于說話者的。
      34.如權(quán)利要求32所述的方法,其特征在于還包括根據(jù)自適應(yīng)模式匹配來修正特征矢量修正函數(shù)信息。
      35.如權(quán)利要求32所述的方法,其特征在于還包括根據(jù)從通信中心接收到的信息在遠(yuǎn)端站處修正特征矢量修正函數(shù)信息。
      36.如權(quán)利要求32所述的方法,其特征在于還包括在遠(yuǎn)端站進(jìn)行語音識別,其中所述進(jìn)行語音識別包括進(jìn)行經(jīng)修正的聲學(xué)特征矢量與存儲(chǔ)在遠(yuǎn)端站中的聲學(xué)模型的語音識別模式匹配。
      37.如權(quán)利要求36所述的方法,其特征在于還包括根據(jù)語音識別模式匹配在遠(yuǎn)端站處修正特征矢量修正函數(shù)信息。
      38.如權(quán)利要求32所述的方法,其特征在于所述特征矢量修正函數(shù)信息是依賴于環(huán)境的。
      39.一種在包括至少一個(gè)遠(yuǎn)端站和一個(gè)通信中心的系統(tǒng)中進(jìn)行語音識別的方法,該方法包括在遠(yuǎn)端站,提取聲學(xué)特征矢量;從遠(yuǎn)端站把聲學(xué)特征矢量發(fā)送至通信中心;在通信中心,進(jìn)行聲學(xué)特征矢量與存儲(chǔ)在通信中心內(nèi)的自適應(yīng)模型的自適應(yīng)模式匹配;在通信中心,從存儲(chǔ)在通信中心內(nèi)的數(shù)據(jù)庫中選擇特征矢量修正函數(shù),其中選擇特征矢量修正函數(shù)是基于自適應(yīng)模式匹配的;在通信中心,把選出的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量,以形成一組經(jīng)修正的聲學(xué)特征矢量;以及在通信中心,進(jìn)行該組經(jīng)修正的聲學(xué)特征矢量與存儲(chǔ)在通信中心內(nèi)的聲學(xué)模型的語音識別模式匹配。
      40.如權(quán)利要求39所述的方法,其特征在于還包括,在通信中心處選擇一組依賴于說話者的特征矢量修正函數(shù),其中選出的特征矢量修正函數(shù)是從該組依賴于說話者的特征矢量修正函數(shù)中選出的。
      41.如權(quán)利要求40所述的方法,其特征在于還包括根據(jù)自適應(yīng)模式匹配來修正該組依賴于說話者的特征矢量修正函數(shù)。
      42.如權(quán)利要求40所述的方法,其特征在于還包括根據(jù)語音識別模式匹配來修正該組依賴于說話者的特征矢量修正函數(shù)。
      43.如權(quán)利要求40所述的方法,其特征在于還包括從遠(yuǎn)端站把說話者識別信息發(fā)送至通信中心,其中選擇一組依賴于說話者的特征矢量修正函數(shù)是基于說話者識別信息的。
      44.一種在包括至少一個(gè)遠(yuǎn)端站和一個(gè)通信中心的系統(tǒng)中進(jìn)行語音識別的方法,該方法包括在遠(yuǎn)端站,提取聲學(xué)特征矢量;在遠(yuǎn)端站,進(jìn)行未修正的聲學(xué)特征矢量與存儲(chǔ)在遠(yuǎn)端站內(nèi)的自適應(yīng)模型的自適應(yīng)模式匹配;在遠(yuǎn)端站,根據(jù)自適應(yīng)模式匹配來選擇依賴于說話者的特征矢量修正函數(shù);在遠(yuǎn)端站,把選出的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量,以形成一組經(jīng)修正的聲學(xué)特征矢量;從遠(yuǎn)端站把經(jīng)修正的聲學(xué)特征矢量發(fā)送至通信中心;在通信中心,進(jìn)行該組經(jīng)修正的聲學(xué)特征矢量與存儲(chǔ)在通信中心內(nèi)的聲學(xué)模型的語音識別模式匹配。
      45.如權(quán)利要求44所述的方法,其特征在于還包括根據(jù)自適應(yīng)模式匹配來修正選出的依賴于說話者的特征矢量修正函數(shù)。
      46.如權(quán)利要求44所述的方法,其特征在于還包括從遠(yuǎn)端站把未修正的聲學(xué)特征矢量發(fā)送至通信中心;在通信中心,使用經(jīng)修正的聲學(xué)特征矢量和未修正的聲學(xué)特征矢量來分析選出的依賴于說話者的特征矢量修正函數(shù);以及在遠(yuǎn)端站,根據(jù)分析來修正選出的依賴于說話者的特征矢量修正函數(shù)。
      47.如權(quán)利要求44所述的方法,其特征在于還包括根據(jù)語音識別模式匹配來修正該組依賴于說話者的特征矢量修正函數(shù)。
      48.一種語音識別系統(tǒng),包括用于提取聲學(xué)特征矢量的裝置;用于進(jìn)行聲學(xué)特征矢量與自適應(yīng)模型的自適應(yīng)模式匹配的裝置;用于根據(jù)自適應(yīng)模式匹配來選擇特征矢量修正函數(shù)的裝置;用于把選出的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量以形成一組經(jīng)修正的聲學(xué)特征矢量的裝置;以及用于進(jìn)行該組經(jīng)修正的聲學(xué)特征矢量與聲學(xué)模型的語音識別模式匹配的裝置。
      49.一種遠(yuǎn)端站設(shè)備,包括用于進(jìn)行聲學(xué)特征矢量與存儲(chǔ)在遠(yuǎn)端站內(nèi)的自適應(yīng)模型的自適應(yīng)模式匹配的裝置;用于從存儲(chǔ)在遠(yuǎn)端站內(nèi)的特征矢量修正函數(shù)信息中選擇特征矢量修正函數(shù)的裝置,其中選擇特征矢量修正函數(shù)是基于模式匹配的;用于把選出的特征矢量修正函數(shù)應(yīng)用于聲學(xué)特征矢量以形成一組經(jīng)修正的聲學(xué)特征矢量的裝置;以及用于把經(jīng)修正的聲學(xué)特征矢量發(fā)送至通信中心的裝置。
      全文摘要
      語音識別系統(tǒng)在對照依賴于說話者的聲學(xué)模型(238)進(jìn)行語音識別模式匹配之前把依賴于說話者的修正函數(shù)應(yīng)用于聲學(xué)特征矢量。自適應(yīng)引擎(224)把一組聲學(xué)特征矢量X與自適應(yīng)模型(228)進(jìn)行匹配,以選出依賴于說話者的特征矢量修正函數(shù)f(),然后把它應(yīng)用于X以形成一組經(jīng)修正的聲學(xué)特征矢量f(X)。然后通過經(jīng)修正的聲學(xué)特征矢量f(X)與依賴于說話者的聲學(xué)模型(238)的相關(guān)來進(jìn)行語音識別。
      文檔編號G10L15/00GK1494712SQ02806068
      公開日2004年5月5日 申請日期2002年1月30日 優(yōu)先權(quán)日2001年1月31日
      發(fā)明者C·張, N·馬拉亞, B·Y·雅福索, , C 張, 雅福索 申請人:高通股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1