專利名稱:基于客戶機(jī)-服務(wù)器的分布式語音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及分布式語音識別(DSR)系統(tǒng)和構(gòu)架。更加具體來說,本發(fā)明涉及一種新的DSR系統(tǒng)和方法,其在客戶機(jī)設(shè)備執(zhí)行語音識別的聲音處理部分和在服務(wù)器設(shè)備的語言處理部分。
背景技術(shù):
自從有了現(xiàn)代計(jì)算機(jī)的思想開始,工程師和語言學(xué)家已經(jīng)共同工作,以使得通過一個(gè)機(jī)器完美地實(shí)現(xiàn)人的語音識別。自動(dòng)語音識別的一個(gè)目標(biāo)是使得一個(gè)系統(tǒng)接收輸入的人的語音、把其轉(zhuǎn)換為可識別的形式,并且用所識別的語音執(zhí)行有用的功能。
目前,存在各種用于語音識別技術(shù)的商業(yè)應(yīng)用程序。聽寫機(jī)例如可以“聽”人口述,并且“實(shí)時(shí)地”把“所聽到”的文本傳送到監(jiān)視器上。另一個(gè)應(yīng)用程序涉及能夠接收和執(zhí)行由人的語音而不是通過鼠標(biāo)或鍵盤所發(fā)出的控制命令的機(jī)器。例如,一個(gè)人可以對計(jì)算機(jī)說“讀我的電子郵件”。該應(yīng)用程序可以使用語音識別技術(shù)來識別由說話人所發(fā)出的字串。執(zhí)行所需任務(wù)的一系列命令然后可以被發(fā)出,導(dǎo)致計(jì)算機(jī)讀取該人的電子郵件。
另一種應(yīng)用程序已經(jīng)被開發(fā)用于基于客戶機(jī)-服務(wù)器的語音系統(tǒng)和構(gòu)架。通常,語音識別的任務(wù)被分布在客戶機(jī)和服務(wù)器之間。例如,移動(dòng)電話或個(gè)人數(shù)字助理(PDA)可以被用作為客戶機(jī),其捕獲語音,獲得語音特征,并且把該特征發(fā)送到位于一個(gè)中央位置的服務(wù)器。該通信可以在例如互聯(lián)網(wǎng)這樣的網(wǎng)絡(luò)上發(fā)生。一旦該語音特征被該服務(wù)器所接收,則它們被處理,用于聲音識別和用于所用的給定人的語言的語言處理。
更加具體來說,人的語音被例如麥克風(fēng)這樣的設(shè)備在客戶機(jī)方所捕獲。該語音信號被轉(zhuǎn)換為數(shù)字形式,以便于被數(shù)字計(jì)算機(jī)所分析。該數(shù)字信號被通過一個(gè)特征提取模塊,其將提取該語音信號的聲音特征,例如在周期采樣點(diǎn)處的能量集中。所提取的特征然后被通過例如Mel頻率對數(shù)倒頻譜系數(shù)(Mel Frequency Cepstral Coefficients)這樣的數(shù)學(xué)模型而量化。該被量化的特征被組織為一個(gè)數(shù)據(jù)包,用于發(fā)送到一個(gè)服務(wù)器。
然后,該服務(wù)器接收包含量化特征的數(shù)據(jù)包,并且執(zhí)行聲音和語言處理,以提供一個(gè)字串。由于該服務(wù)器服務(wù)于多個(gè)客戶機(jī),因此該聲音處理被一個(gè)與說話人無關(guān)(SI)的模型所模擬。
在傳統(tǒng)的DSR方法的缺點(diǎn)中的一個(gè)缺點(diǎn)是它不能夠利用與說話人相關(guān)(SD)的模型所提供的改進(jìn)的字錯(cuò)誤率(WER)的優(yōu)點(diǎn)。在兩種模型之間的差別在于一個(gè)SD模型已經(jīng)被特定人的語音所訓(xùn)練,結(jié)果用于該特定人的WER較低。這是因?yàn)閬碜圆煌Z言背景的人對于相同的字詞發(fā)出顯著不同的聲音信號。來自不同區(qū)域的人可能具有不同的口音和發(fā)音。
相反,當(dāng)該系統(tǒng)由各種說話人所使用時(shí),例如一個(gè)自動(dòng)出納機(jī)(ATM),使用一個(gè)SI模型并且其被指定為處理任何說話人,而與說話人的語言特征無關(guān),例如說話人的發(fā)音,由于性別和年齡以及說話人的聲音的強(qiáng)度所導(dǎo)致的語音變化,SD模型具有比SI模型低2-3倍的WER。由于傳統(tǒng)的DSR方法處理在該服務(wù)器而不是在客戶機(jī)處處理的聲音,因此使得系統(tǒng)構(gòu)架采用具有較低的WER的SD聲音識別模型來提高整體識別精確度是不現(xiàn)實(shí)和沒有效率的。
圖1示出采用本發(fā)明的一個(gè)實(shí)施例的新的DSR方法的示意通信網(wǎng)絡(luò)的方框圖。
圖2示出采用本發(fā)明一個(gè)實(shí)施例的新的DSR方法的示意基于客戶機(jī)-服務(wù)器的DSR系統(tǒng)的方框圖。
圖3示出采用本發(fā)明一個(gè)實(shí)施例的新的DSR方法的示意圖。
圖4示出在一個(gè)基于客戶機(jī)-服務(wù)器系統(tǒng)的客戶機(jī)節(jié)點(diǎn)處采用本發(fā)明的一個(gè)實(shí)施例的新的DSR方法的示意圖。
圖5示出采用根據(jù)本發(fā)明一個(gè)實(shí)施例的方法的在一個(gè)客戶機(jī)節(jié)點(diǎn)處產(chǎn)生的示意音標(biāo)字圖(phonetic word graph)。
圖6A示出根據(jù)本發(fā)明一個(gè)實(shí)施例的一個(gè)音標(biāo)字圖的發(fā)送處理的示意流程圖。
圖6B示出用于發(fā)送根據(jù)本發(fā)明一個(gè)實(shí)施例的方法的示意音標(biāo)字圖的示意數(shù)據(jù)報(bào)(datagram)。
圖7A示出在一個(gè)基于客戶機(jī)-服務(wù)器系統(tǒng)的服務(wù)器節(jié)點(diǎn)處根據(jù)本發(fā)明一個(gè)實(shí)施例的方法的新的DSR方法的示意圖。
圖7B示出根據(jù)本發(fā)明一個(gè)實(shí)施例的方法的在一個(gè)客戶機(jī)-服務(wù)器網(wǎng)絡(luò)系統(tǒng)的服務(wù)器節(jié)點(diǎn)處產(chǎn)生的示意音標(biāo)字圖。
圖7C示出從圖5中所示的音標(biāo)字圖擴(kuò)展的一個(gè)示意音標(biāo)字圖。
圖8示出采用根據(jù)本發(fā)明一個(gè)實(shí)施例的新的DSR方法的示意系統(tǒng)的方框圖。
具體實(shí)施例方式
在下文對本發(fā)明的詳細(xì)描述中,給出各種具體細(xì)節(jié),以提供對本發(fā)明的徹底理解。但是,本領(lǐng)域的普通技術(shù)人員顯然將認(rèn)識到可以在沒有這些具體細(xì)節(jié)的情況下實(shí)現(xiàn)根據(jù)本發(fā)明的方法。在其他方面,沒有描述公知的方法、處理、部件和電路,以避免對本發(fā)明的各個(gè)方面造成混淆。
根據(jù)本發(fā)明的方法包括將在下文中描述的各種步驟。這些步驟可以用硬件部件來實(shí)現(xiàn),或者可以體現(xiàn)機(jī)器可執(zhí)行的指令中,其可以被用于使用該指令編程的通用處理器來執(zhí)行該步驟。另外,該步驟可以通過硬件和軟件的組合來執(zhí)行。
本發(fā)明揭示了一種新的DSR方法,其不同于傳統(tǒng)的DSR方法,并且獲得改進(jìn)的識別精度。該新的DSR方法利用與SD聲音識別模型相關(guān)的較低WER的優(yōu)點(diǎn)。這通過把該語音識別處理分割和分布到在客戶機(jī)設(shè)備的聲音識別和在服務(wù)器設(shè)備的語言處理來實(shí)現(xiàn)。因此在一個(gè)客戶機(jī)設(shè)備捕獲語音之后,其根據(jù)一種SD個(gè)性化的聲音模型來進(jìn)行聲音處理。該處理獲得關(guān)于最可能說出的內(nèi)容的一個(gè)N個(gè)最佳假設(shè)(N-besthypothesis)。接著,形成一個(gè)字圖包,并且通過網(wǎng)絡(luò)發(fā)送到一個(gè)服務(wù)器設(shè)備。最后,該服務(wù)器設(shè)備接收該字圖包,對其進(jìn)行解碼,并且進(jìn)行語言處理,獲得一個(gè)所識別的字串。
一旦人的語音被在一個(gè)客戶機(jī)設(shè)備處捕獲,則它將被進(jìn)行聲音分析。聲音識別涉及提取所捕獲的語音信號的特征,以及在一個(gè)聲音模型中搜索在所捕獲語音的所提取特征和在該聲音模型中存儲的已知以前記錄的語音特征之間的一個(gè)或多個(gè)可能的匹配。在一個(gè)優(yōu)選實(shí)施例中,一個(gè)音標(biāo)字圖可以被用于表示該語音。該聲音模型可以是一個(gè)個(gè)性化的SD模型,其由用戶,例如移動(dòng)電話或PDA的所有者,進(jìn)行個(gè)人訓(xùn)練。從而,該字圖被包裝并且通過一個(gè)網(wǎng)絡(luò)發(fā)送到一個(gè)中央服務(wù)器。該服務(wù)器然后可以利用所選擇的語言模型來對該音標(biāo)字圖進(jìn)行語言處理,并且產(chǎn)生一個(gè)所識別的字串。
現(xiàn)在參見圖1,其中示出一個(gè)示意的DSR系統(tǒng)。客戶機(jī)1、客戶機(jī)2和C1-C4是采用根據(jù)本發(fā)明一個(gè)實(shí)施例的新的DSR方法的不同客戶機(jī)設(shè)備的例子。客戶機(jī)1是一個(gè)個(gè)人數(shù)字助理110。客戶機(jī)2是一個(gè)移動(dòng)電話120,以及C1-C4是作為在一個(gè)示意的LAN 138中的節(jié)點(diǎn)的計(jì)算機(jī)終端。在每種情況中,該客戶機(jī)設(shè)備被配置為捕獲人的語音。例如,對于PDA 110的人的語音112以及對于移動(dòng)電話120的。所捕獲的信號然后被進(jìn)行聲音處理,并且在該客戶機(jī)設(shè)備產(chǎn)生所獲得的包含一系列音標(biāo)字圖的所獲得數(shù)據(jù)包。
然后,該數(shù)據(jù)包被通過網(wǎng)絡(luò)100發(fā)送,例如通過互聯(lián)網(wǎng)發(fā)送。對于在PDA 110所發(fā)出的語音,處理服務(wù)器150接收該數(shù)據(jù)包(未示出),然后對包含在該數(shù)據(jù)包中的數(shù)據(jù)執(zhí)行聲音處理,產(chǎn)生所識別的字串152。類似地,主機(jī)180和主機(jī)160從移動(dòng)電話120(客戶機(jī)2)和C1130接收數(shù)據(jù)包,并且分別產(chǎn)生所識別的字串182和162??蛻?可以通過最初讀出一個(gè)字串和訓(xùn)練PDA來對PDA 110進(jìn)行訓(xùn)練。類似地,客戶2可以通過讀出一個(gè)字串并且對該移動(dòng)電話提供所他所說的文本來訓(xùn)練移動(dòng)電話120。一旦客戶機(jī)設(shè)備已經(jīng)被訓(xùn)練,其可以形成一個(gè)個(gè)性化的聲音模型,其可以被客戶機(jī)設(shè)備用作為檢索和比較所說的內(nèi)容的基礎(chǔ)。
現(xiàn)在參見圖2,其中示出一個(gè)示意的DSR系統(tǒng)的方框圖。該圖示出在客戶機(jī)設(shè)備220所說出的人的語音信號200如何在服務(wù)器設(shè)備252被轉(zhuǎn)換為所識別字串260。該信號200被在一個(gè)基于客戶機(jī)-服務(wù)器系統(tǒng)的客戶機(jī)220節(jié)點(diǎn)處捕獲,并且在該客戶機(jī)設(shè)備220處執(zhí)行聲音處理和識別230。如圖2中所示,客戶機(jī)220可以是一個(gè)計(jì)算機(jī)終端210。但是,客戶機(jī)220還可以是一個(gè)移動(dòng)電話、PDA等等。實(shí)際上,該客戶機(jī)設(shè)備是具有接收人的語音信號200,對其進(jìn)行聲音處理并且識別其音標(biāo)構(gòu)成,以及準(zhǔn)備所獲得的音標(biāo)數(shù)據(jù)用于通過例如通信網(wǎng)絡(luò)240這樣的網(wǎng)絡(luò)242發(fā)送的功能的任何設(shè)備。、仍然參見圖2,該處理服務(wù)器254處理該新的DSR系統(tǒng)的語言處理250階段。該處理服務(wù)器254可以是一個(gè)服務(wù)器計(jì)算機(jī)系統(tǒng)252,其能夠接收音標(biāo)數(shù)據(jù)并且對其進(jìn)行語言分析,以獲得字串260。一旦該服務(wù)器252已經(jīng)完成語言處理250,則該服務(wù)器252產(chǎn)生一個(gè)所識別的字串260,然后其可以被通過網(wǎng)絡(luò)242發(fā)送回客戶機(jī)220。
現(xiàn)在參見圖3,其中示出根據(jù)本發(fā)明一個(gè)實(shí)施例的方法而設(shè)計(jì)的新的DSR系統(tǒng)的示意圖。該圖表示當(dāng)采用新的DSR方法時(shí)人的語音信號300所經(jīng)受的一個(gè)示意操作序列。
在功能塊310處,在該客戶機(jī)設(shè)備340接收人的語音信號300。例如,一個(gè)人可以對麥克風(fēng)說話,其將捕獲人的語音信號300。在一個(gè)示意實(shí)施例中,人可能被限于可以被用作為控制命令的單詞命令,即,一個(gè)自動(dòng)語音識別(ASR)系統(tǒng)。在另一個(gè)實(shí)施例中,該系統(tǒng)可以包括大詞匯連續(xù)語音識別(LVCSR)。根據(jù)本實(shí)施例的方法采用ASR和LVCSR。
在功能塊310處,所捕獲的人的語音信號300被一個(gè)模數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字信號。在功能塊320中,所獲得數(shù)字化信號的特征例如被一個(gè)特征參數(shù)提取模塊820所提取(參見圖8)。功能塊320可以被進(jìn)一步細(xì)分為如功能塊322所示的結(jié)束點(diǎn)檢測、如功能塊324中所示的預(yù)先強(qiáng)調(diào)濾波(pre-emphasizing filtration),以及在功能塊326所示的特征計(jì)算。在結(jié)束點(diǎn)檢測過程中,對于一個(gè)語音特征的開始和結(jié)束進(jìn)行檢測。換句話說,對一個(gè)特征何時(shí)結(jié)束以及另一個(gè)特征何時(shí)開始進(jìn)行判斷。在預(yù)先強(qiáng)調(diào)濾波過程中,該語音信號被濾波,以放大該語音信號的重要特征。最后,在該特征計(jì)算過程中,該語音信號的特征被計(jì)算,以形成一系列可能的候選項(xiàng)。
相應(yīng)地,在已經(jīng)提取語音特征之后,在功能塊342處對所捕獲的人的語音信號進(jìn)行聲音處理。該聲音處理是提供在功能塊320識別的語音特征與已知的音標(biāo)單元(phonetic unit)的匹配。因此,聲音處理包括接收一個(gè)人的語音信號,并且使用一個(gè)聲音模型來重新產(chǎn)生最接近于表示該輸入語音的一系列聲音。該聲音模型可以由例如音標(biāo)級、半音節(jié)或音節(jié)單元這樣的子字單元來組織。但是,也可以應(yīng)用使用其他音標(biāo)單元的聲音模型。
執(zhí)行聲音處理的一個(gè)方法是通過利用隱藏馬爾可夫模型(HMM)。本領(lǐng)域所公知的HMM是由聲音狀態(tài)的一個(gè)馬爾可夫鏈所構(gòu)成的隨機(jī)有限狀態(tài)自動(dòng)控制。這些狀態(tài)模擬語音的瞬時(shí)結(jié)構(gòu),即,該狀態(tài)如何隨時(shí)間而變化。用于每個(gè)這些狀態(tài)的概率函數(shù)、模擬發(fā)射和聲音矢量的觀察由HMM所表示。
一旦一個(gè)HMM被用于表示該語音特征,則一個(gè)搜索空間被確定,并且可以在一個(gè)聲音模型內(nèi)對以前形成的HMM進(jìn)行搜索。該HMM可以在一個(gè)客戶機(jī)設(shè)備的訓(xùn)練階段過程中形成,該訓(xùn)練階段可能在一個(gè)人第一次使用該客戶機(jī)設(shè)備340時(shí)出現(xiàn)。例如,當(dāng)一個(gè)人購買一個(gè)移動(dòng)電話時(shí),該電話可以具有一個(gè)這樣的按鍵,當(dāng)該按鍵被按下時(shí)可以把該電話置于訓(xùn)練模型。在該模型的過程中,該人可能被要求說出字、音素或者其他出現(xiàn)在屏幕上的音標(biāo)單元。然后該移動(dòng)電話可以捕獲由該用戶所產(chǎn)生的聲音,并且通過圖3的功能塊322-326來運(yùn)行它,以提取與該聲音相關(guān)的特征并且形成一個(gè)HMM。在該訓(xùn)練階段過程中,由于客戶機(jī)設(shè)備340確切地已知該聲音所表達(dá)的字,因此它可以存儲兩塊信息(所讀出的字及其提取的特征),并且創(chuàng)建對該移動(dòng)電話的用戶個(gè)性化的聲音模型。
通過創(chuàng)建一個(gè)個(gè)性化的聲音音標(biāo)模型,該移動(dòng)電話可以利用一個(gè)SD聲音模型,其具有比SI聲音模型好2-3倍的WER。
在功能塊334中,配置一個(gè)優(yōu)化處理。可以使用任何知識來源來對所說的字進(jìn)行判斷。例如,由客戶機(jī)設(shè)備的用戶所訓(xùn)練的單個(gè)音素的聲音音標(biāo)模型可以被單獨(dú)使用或者與其他知識來源相結(jié)合使用,該知識來源例如為發(fā)音詞典。但是,如果該用戶不是實(shí)際使用該客戶機(jī)設(shè)備的人,則實(shí)際使用該設(shè)備的人應(yīng)當(dāng)訓(xùn)練該設(shè)備,因?yàn)檫@是該人的語音特征,這會導(dǎo)致更加精確的識別處理。
在功能塊336處,在完成聲音模型的搜索之后確定一個(gè)N個(gè)最佳假設(shè)。但是,除了N個(gè)最佳假設(shè)之外,可以利用一個(gè)單獨(dú)最佳假設(shè)策略(single-best hypothesis strategy)。在功能塊338中,產(chǎn)生一個(gè)音標(biāo)字圖(Pword圖)。該pword圖的主要思想是在關(guān)于實(shí)際說出的音素的不確定性較高的的語音信號的區(qū)域中提出音標(biāo)的替換選項(xiàng)。所期望獲得的優(yōu)點(diǎn)是聲音識別處理與復(fù)雜語言模型的應(yīng)用相分離。該語言模型可以被隨后根據(jù)本發(fā)明的實(shí)施例的方法應(yīng)用于在服務(wù)器計(jì)算機(jī)處執(zhí)行的后處理中。字替換選項(xiàng)的數(shù)目是可以根據(jù)用戶所需的不確定性級別或精度而變化的設(shè)計(jì)參數(shù)。
一旦一個(gè)Pword圖已經(jīng)在功能塊338處產(chǎn)生,則Pword圖可以被打包并且發(fā)送到該服務(wù)器設(shè)備。任何發(fā)送介質(zhì)以及任何打包方案可以被用于把該P(yáng)word圖發(fā)送到該服務(wù)器。例如,一個(gè)網(wǎng)際協(xié)議數(shù)據(jù)報(bào)可以通過把該P(yáng)word圖打包為數(shù)據(jù)報(bào)而在所示的功能塊354處產(chǎn)生。該數(shù)據(jù)報(bào)然后可以通過網(wǎng)絡(luò)350發(fā)送,如功能塊352所示。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,網(wǎng)絡(luò)350可以是互聯(lián)網(wǎng),但是可以使用例如局域網(wǎng)這樣的任何其他類型的網(wǎng)絡(luò)。
在功能塊356中,包含Pword圖的數(shù)據(jù)報(bào)被一個(gè)服務(wù)器所接收,并且該P(yáng)word圖被從該數(shù)據(jù)報(bào)上除去。在功能塊382處,可以在Pword圖上執(zhí)行語言處理。該語言處理涉及把該系列聲音組織在一個(gè)Pword圖中,并且把其轉(zhuǎn)換為實(shí)際的字。所接收的Pword圖被一個(gè)節(jié)點(diǎn)接著一個(gè)節(jié)點(diǎn)地分析。對于每個(gè)節(jié)點(diǎn),對可用和由用戶所選擇的特定語言模型檢查該字典和語法規(guī)則。在一個(gè)實(shí)施例中,該客戶機(jī)設(shè)備可以具有一個(gè)語言選擇按鍵,使得用戶用英語或漢語或者該系統(tǒng)可以支持的任何其他語言來說話。在功能塊390處,根據(jù)由該客戶機(jī)設(shè)備所發(fā)送的Pword圖形成一個(gè)實(shí)際Pword圖(參見圖5)。最后,在功能塊386處,采用一種搜索算法來通過一個(gè)字典和語法詞典來確定所識別的字串。
現(xiàn)在參見圖4,其中示出一個(gè)客戶機(jī)設(shè)備的方框圖。該客戶機(jī)設(shè)備可以是多個(gè)便攜式設(shè)備,例如移動(dòng)電話、PDA、便攜式計(jì)算機(jī)或者可以由與位于不同地理位置的另一個(gè)設(shè)備通信的用戶所使用的任何其他設(shè)備。
一旦一個(gè)人決定與一個(gè)遠(yuǎn)程服務(wù)器進(jìn)行通信,則該人將具有與例如麥克風(fēng)這樣的客戶機(jī)設(shè)備的接收器模塊說話的選項(xiàng)。但是,該客戶機(jī)設(shè)備對所捕獲的人的語音信號400執(zhí)行一系列操作。這些操作在圖4中的功能塊420和450中示出。在人的語音信號400上執(zhí)行的操作通??梢员环譃閮煞N。在功能塊422、424、426和428處表示的第一系列功能過程中,人的語音信號被經(jīng)過一個(gè)處理,其中該人的語音信號被根據(jù)本領(lǐng)域所公知的方法轉(zhuǎn)換為數(shù)字信號。然后,在功能塊412處,該數(shù)字化的信號被顯示給一個(gè)特征提取模塊,其提取在該人的語音信號中存在的特征。這些特征可以表示在被定期測量的語音信號中的集中的能量,并且可以被表示為聲音矢量的總和,例如在功能塊428中所示為x1、x2、...、xT。但是,還可以提取本領(lǐng)域所公知的該聲音信號的其他特征。
在功能塊450處,聲音矢量x1、x2、...、xT被提供給一個(gè)聲音處理器,其可以識別產(chǎn)生該x1、x2、...、xT聲音矢量的語音。為了實(shí)現(xiàn)該任務(wù),該聲音處理器可以參考一個(gè)聲音模型,其包含用于由使用該客戶機(jī)設(shè)備的人以前發(fā)出的各種語音的聲音矢量。該模型可以容易地由將最初使用該客戶機(jī)設(shè)備的人所訓(xùn)練。例如,當(dāng)?shù)谝淮钨徺I的人可以編程或訓(xùn)練該客戶機(jī)設(shè)備。該設(shè)備可以具有一個(gè)“訓(xùn)練我(train me)”的開關(guān),當(dāng)該開關(guān)被激活時(shí),將在其屏幕上閃現(xiàn)文字,提示用戶對該文字發(fā)音。該設(shè)備例如可以根據(jù)特定的設(shè)計(jì)參數(shù)閃現(xiàn)文字、音素、音節(jié)、半音節(jié)或者任何字的其他單元。音標(biāo)單元的選擇對基于本發(fā)明的實(shí)施例的方法沒有影響。
因此,例如該設(shè)備閃現(xiàn)單詞“apple”,并且用戶說出“apple”。該設(shè)備將例如通過麥克風(fēng)捕獲由該用戶所說出的語音產(chǎn)生的語音信號。本領(lǐng)域的普通技術(shù)人員知道該信號是一個(gè)模擬信號,當(dāng)在一個(gè)示波器上觀看時(shí),該信號可能類似于語音信號400。在捕獲該信號之后,該聲音處理器可以使用在功能塊412、422、424、426和428的功能,以提取由說出單詞“apple”的用戶所產(chǎn)生的信號的特征,導(dǎo)致產(chǎn)生一組聲音矢量。然后,該表達(dá)被與該單詞“apple”的表示一同存儲在一個(gè)數(shù)據(jù)庫中。該處理可以一個(gè)單詞接著一個(gè)單詞地連續(xù)進(jìn)行。顯示給該設(shè)備的單詞越多,則用于該用戶或設(shè)備擁有者的聲音模型越完整。一旦該模型被完成,則該設(shè)備被準(zhǔn)備用于在功能塊450出現(xiàn)的聲音識別。
該聲音處理器現(xiàn)在負(fù)責(zé)識別所說出的語音的任務(wù)。它通過對包含被訓(xùn)練的聲音模型的數(shù)據(jù)庫進(jìn)行搜索而完成該任務(wù)。在功能塊446處,進(jìn)行搜索,以發(fā)現(xiàn)用于該語音的一個(gè)或多個(gè)匹配。對所說出的單詞的判斷可以通過一個(gè)優(yōu)化處理來實(shí)現(xiàn)。幾種搜索處理方法已經(jīng)被開發(fā)并且是本領(lǐng)域所公知的。例如,可以使用具有修改選項(xiàng)的一個(gè)定向搜索策略。另外,可以應(yīng)用一個(gè)樹詞典或一次完成的算法。特定搜索策略的選擇不影響或改變根據(jù)本發(fā)明的實(shí)施例的方法。
在功能塊442處,包含聲音模型的數(shù)據(jù)庫被收集。本實(shí)施例的語音識別系統(tǒng)的訓(xùn)練階段發(fā)生在該功能塊處。在功能塊444處,一個(gè)語言模型被考慮,以連接到在功能塊446處使用的搜索策略。但是,在客戶機(jī)方添加一個(gè)語言模型可以是一種設(shè)計(jì)選擇。不必包含一個(gè)語言模型來實(shí)現(xiàn)根據(jù)本實(shí)施例的方法。
該搜索結(jié)果在功能塊448處產(chǎn)生。在此,產(chǎn)生一個(gè)N個(gè)最佳假設(shè)。盡管,還可以在一個(gè)優(yōu)選實(shí)施例中使用單個(gè)最佳假設(shè),但是N個(gè)最佳假設(shè)產(chǎn)生更高的精度,因?yàn)樗坏珜λf出的內(nèi)容提供單一的猜測,而是多個(gè)猜測。在功能塊452處,從該信息可以產(chǎn)生一個(gè)字圖。一個(gè)字圖的主要思想是字的替換。字圖必須被證明在需要高精度的情況下是有效的。實(shí)際上,在圖5中所示的一個(gè)字圖顯示具有類似聲音、或特征、或聲音矢量的字詞。這種相似性可能造成混淆。例如,在漢語中的字“duo”和“dao”和“yao”在頻譜分析器上看起來幾乎相同。類似地,參見圖5,字“dai”、“nai”和“mai”除了一個(gè)字母或音素之外相類似。這些在大多數(shù)語言中普遍的相似性可以通過使用在下文將參照圖7A討論的語言模型中給出的語法詞典作進(jìn)一步的分析。
參見圖4,一旦產(chǎn)生表示所說出的字的替換選項(xiàng)的字圖,該設(shè)備可以把該信息作為一個(gè)二進(jìn)制文件發(fā)送到一個(gè)遠(yuǎn)程服務(wù)器。該字圖可以被表示為如圖6B中所示的一個(gè)數(shù)據(jù)報(bào)中。但是,可以采用該數(shù)據(jù)的任何其他形式的打包。
現(xiàn)在參見圖5,其中示出具有兩級替換選項(xiàng)容量的字圖的一個(gè)例子。在本例中,該實(shí)際讀出的字詞的漢語為“wo yao mai zhong ke jian”,其含義“我要買中科健”(中科健是在中國股票市場上的一種股票的名稱)。該字圖是如圖4中所示的聲音處理器的輸出,在功能塊452處。該聲音處理器把該設(shè)備所捕獲的聲音矢量與該聲音模型相比較,并且對該聲音處理器提供為每個(gè)字詞提供三個(gè)替換選項(xiàng)。字512、511和510表示“yao”及其替換選項(xiàng)。字514、515和516表示“mai”及其替換選項(xiàng),相應(yīng)地,在圖5中所示的字圖可以與一個(gè)語言模型相結(jié)合而使用,其包括一個(gè)字典和語法詞典,以確定由該字圖所表示的單個(gè)最佳句子。把一個(gè)語言模型應(yīng)用到該字圖可以在一個(gè)服務(wù)器節(jié)點(diǎn)處進(jìn)行,因?yàn)樵撜Z言處理是相當(dāng)復(fù)雜的處理并且與聲音識別處理無關(guān)。因此,本實(shí)施例的方法通過產(chǎn)生具有兩級字替換選項(xiàng)的字圖而利用SD聲音模型的優(yōu)點(diǎn)。該字圖將被傳送到一個(gè)服務(wù)器,其然后完成該識別處理,并且確定單個(gè)最佳句子。
現(xiàn)在參見圖6A,其中示出根據(jù)本發(fā)明一個(gè)實(shí)施例的發(fā)送處理。在功能塊602處,由客戶機(jī)設(shè)備產(chǎn)生一個(gè)音標(biāo)字圖。在功能塊604處,該字圖被轉(zhuǎn)換為一個(gè)二進(jìn)制文件,并且被打包用于通過網(wǎng)絡(luò)發(fā)送。例如,在功能塊604,一個(gè)TCP/IP數(shù)據(jù)報(bào)被用作為用于發(fā)送的載體。但是,可以使用對該字圖打包以便于發(fā)送的任何其他方法,并且該特定的選擇對于根據(jù)本發(fā)明的實(shí)施例的方法沒有影響。在功能塊606處,該數(shù)據(jù)報(bào)被發(fā)送到該服務(wù)器,并且在功能塊608處,該數(shù)據(jù)報(bào)被在該服務(wù)器處接收。
現(xiàn)在參見圖6B,其中示出一個(gè)示意的網(wǎng)際協(xié)議數(shù)據(jù)報(bào)。在該數(shù)據(jù)報(bào)600的報(bào)頭612部分中,包含本領(lǐng)域所公知的客戶機(jī)設(shè)備的邏輯地址和服務(wù)器設(shè)備的邏輯地址以及任何其他控制信息。該數(shù)據(jù)區(qū)域610可以包括由該客戶機(jī)設(shè)備所產(chǎn)生的音標(biāo)字圖的二進(jìn)制表示。
現(xiàn)在參見圖7a,其中示出服務(wù)器節(jié)點(diǎn)700的示意方框圖。在功能塊710處,如圖6B中所示的TCP/IP數(shù)據(jù)報(bào)由服務(wù)器700所接收。在功能塊712處,從其二進(jìn)制形式對該字圖解碼,并且形成在相應(yīng)的客戶機(jī)節(jié)點(diǎn)(未示出)說出的內(nèi)容的實(shí)際字圖表示。在這一點(diǎn)處,該服務(wù)器具有該語音的N個(gè)假設(shè)表示的等價(jià)物。如本領(lǐng)域所公知那樣,該服務(wù)器可以使用在該功能塊720的一個(gè)語言模型以及如功能塊718所示的字典,以進(jìn)行搜索并且判斷最可能的語音。
在該處理過程中,對于每個(gè)音標(biāo)字圖節(jié)點(diǎn)(參見圖7b和7c),該服務(wù)器700通過檢查該字典和語法詞典而查找所選擇的音標(biāo)字。但是,本發(fā)明不限于該字典和語法模型。任何其他語言模型,例如還可以使用基于高速緩存的語言模型、基于觸發(fā)器的語言模型以及長范圍的三元語言模型(編入詞典的無上下文的語法)。無論所使用的特定語言模型,在功能塊720的結(jié)果是可以被存儲的一個(gè)被識別的字串,或者可以被用作為該服務(wù)器700的命令。
現(xiàn)在參見圖7b,其中示出一個(gè)示意的真實(shí)音標(biāo)字圖。該音標(biāo)字圖表示所說出的字串“我要買中科健(wo yao mai zhong ke jian)”。從該字圖中,可以產(chǎn)生如圖7c中所示的一個(gè)相應(yīng)字圖。在該處理中,該服務(wù)器對于每個(gè)音標(biāo)字圖(例如“yao”)搜索聲音類似于“yao”的字。作為另一個(gè)例子,對于該音標(biāo)字“zhong”,實(shí)際的字可能是“中”或者“重”或“種”(這是發(fā)音類似于“zhong”的字)。這些字的發(fā)音在英語上不類似,但是在漢語中它們是類似的。根據(jù)本實(shí)施例的方法不限于英語或漢語??梢允褂媚軌驑?gòu)造一個(gè)語言模型的任何語言。
再參見圖7b,一旦對于每個(gè)音標(biāo)字節(jié)點(diǎn)獲得字替換選項(xiàng),該服務(wù)器可以根據(jù)被查找到的這些字產(chǎn)生多個(gè)實(shí)際字的節(jié)點(diǎn)。然后在該音標(biāo)字圖中復(fù)制該拓?fù)潢P(guān)系,以獲得如圖7c中所示的擴(kuò)展的音標(biāo)字圖,該圖示出從圖7b中所示的字圖獲得的音標(biāo)字圖。
現(xiàn)在參見圖7c,該擴(kuò)展的音標(biāo)字圖被示出。在此,該服務(wù)器將根據(jù)一個(gè)語言模型考慮所讀出序列的不同可能。例如,在該字“I”(主語)之后,該語言模型可能檢測一個(gè)動(dòng)詞,例如“want”,而不是一個(gè)名詞。相應(yīng)地,可以采用一個(gè)修正策略,其中在“I”之后的名詞不被進(jìn)一步考慮,例如名詞“medicine”可能不會跟隨在作為主語的字“I”之后。按照這種方式,結(jié)果的搜索空間可能被大大地減小。類似地,一個(gè)詞典可以被用于消除其他類似讀音的字。在此,可以使用基于二元語言模型或三元語言模型的語言模型。該二元或三元語言模型的選擇不影響根據(jù)現(xiàn)在參見圖8,其中示出包括客戶機(jī)設(shè)備、服務(wù)器設(shè)備和一個(gè)通信網(wǎng)絡(luò)的語音識別系統(tǒng)的示意框圖。語音輸入800可以是一個(gè)用戶的名字,例如John。該語音輸入800可以被連接到屬于John的一個(gè)客戶機(jī)設(shè)備的麥克風(fēng)所捕獲,例如John的移動(dòng)電話或PDA。John可以使用其設(shè)備的訓(xùn)練模型來訓(xùn)練他的設(shè)備識別他的語音。位于客戶機(jī)設(shè)備810的聲音模型824被用于該訓(xùn)練模型中。當(dāng)John被提示說出不同的字、短語或句子時(shí),該語言模型收集對應(yīng)于每個(gè)語言的數(shù)據(jù)。當(dāng)John準(zhǔn)備通過一個(gè)通信網(wǎng)絡(luò)840與一個(gè)遠(yuǎn)程服務(wù)器850進(jìn)行通信時(shí),他可以切斷該訓(xùn)練模式,并且開始說話,就好像他與另一個(gè)人進(jìn)行普通對話那樣。該客戶機(jī)設(shè)備810將捕獲John的語音并且使其通過特征提取模塊822,以按照如本領(lǐng)域普通技術(shù)人員所公知那樣對該模擬人的語音信號800執(zhí)行一系列前端處理。而在現(xiàn)有技術(shù)的模型中,根據(jù)本發(fā)明一個(gè)實(shí)施例,所提取的特征被發(fā)送到該服務(wù)器,用于語言處理,一個(gè)附加功能出現(xiàn)在該服務(wù)器設(shè)備處,即,導(dǎo)致產(chǎn)生一個(gè)音標(biāo)字圖的聲音處理。由此,一個(gè)實(shí)施例利用SD聲音模型的優(yōu)點(diǎn),因?yàn)镴ohn能夠個(gè)性化地訓(xùn)練該設(shè)備,因此導(dǎo)致獲得一個(gè)SD個(gè)性化的聲音模型?,F(xiàn)有技術(shù)不能夠利用與SD模型相關(guān)的較低WER的優(yōu)點(diǎn),在該客戶機(jī)收集的特征被直接發(fā)送到該服務(wù)器,并且該服務(wù)器執(zhí)行聲音識別和分析。通過該現(xiàn)有技術(shù)使用SD模型是不實(shí)際的,因?yàn)樵摲?wù)器服務(wù)于許多用戶而不知道他們的身份。因此,該現(xiàn)有技術(shù)被限于SI模型,這容易導(dǎo)致較高的錯(cuò)誤率。
一旦該聲音處理器接收所提取的特征,它搜索由John的聲音所訓(xùn)練的與說話者相關(guān)的聲音模型。所獲得匹配是可以用數(shù)據(jù)報(bào)發(fā)送到該服務(wù)器850的已知音標(biāo)單元830。該數(shù)據(jù)報(bào)被在服務(wù)器850處所接收,并且提供到一個(gè)與讀音詞典857相結(jié)合的一個(gè)語言處理器855,并且語言模型859確定所識別的字串。
權(quán)利要求
1.一種方法包括在一個(gè)客戶機(jī)節(jié)點(diǎn)接收人的語音信號;識別所述人的語音信號的特征;識別對應(yīng)于所述被識別的特征的已知音標(biāo)單元;形成包含至少一個(gè)所述已知音標(biāo)單元的數(shù)據(jù)包;以及把所述數(shù)據(jù)包發(fā)送到一個(gè)服務(wù)器節(jié)點(diǎn)。
2.根據(jù)權(quán)利要求1所述的方法,其中所述客戶機(jī)節(jié)點(diǎn)選自移動(dòng)電話、個(gè)人數(shù)字助理以及便攜式計(jì)算機(jī)系統(tǒng)。
3.根據(jù)權(quán)利要求1所述的方法,其中識別所述人的語音信號的特征包括對所述人的語音信號執(zhí)行結(jié)束點(diǎn)檢測;對所述人的語音信號執(zhí)行預(yù)先強(qiáng)調(diào)濾波;以及量化所述人的語音信號。
4.根據(jù)權(quán)利要求1所述的方法,其中識別對應(yīng)于所述被識別的特征的已知音標(biāo)單元包括搜索一個(gè)聲音模型,其中包括由包含一個(gè)聲音狀態(tài)的馬爾可夫鏈的隱藏馬爾可夫模型所模擬的子字單元。
5.根據(jù)權(quán)利要求1所述的方法,其中識別對應(yīng)于所述被識別的特征的已知音標(biāo)單元包括使用一個(gè)與說話者相關(guān)的聲音模型。
6.根據(jù)權(quán)利要求1所述的方法,其中所述已知音標(biāo)單元形成一個(gè)音標(biāo)字圖。
7.根據(jù)權(quán)利要求1所述的方法,其中所述數(shù)據(jù)包包括一個(gè)源地址、目標(biāo)地址和所述已知音標(biāo)單元的二進(jìn)制表示。
8.根據(jù)權(quán)利要求1所述的方法,其中所述數(shù)據(jù)包被通過互聯(lián)網(wǎng)發(fā)送。
9.一種系統(tǒng)包括客戶機(jī)節(jié)點(diǎn),其中包括識別人的語音信號的特征的特征提取模塊,連接到所述特征提取模塊的聲音處理模塊,該聲音處理模塊從所述被識別的特征識別已知音標(biāo)單元,以及連接到所述聲音處理模塊的發(fā)送器模塊,該發(fā)送器模塊形成包含至少一個(gè)所述音標(biāo)單元的數(shù)據(jù)包并且把所述數(shù)據(jù)包發(fā)送到一個(gè)服務(wù)器;以及服務(wù)器,其中包括接收器模塊,用于接收所述數(shù)據(jù)包并且從所述數(shù)據(jù)包中除去所述至少一個(gè)所述已知音標(biāo)單元;以及語言處理模塊,用于識別與所述至少一個(gè)所述已知音標(biāo)單元相關(guān)的字。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述客戶機(jī)節(jié)點(diǎn)選自移動(dòng)電話、個(gè)人數(shù)字助理以及便攜式計(jì)算機(jī)系統(tǒng)。
11.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述特征提取模塊還被配置為對所述人的語音信號執(zhí)行結(jié)束點(diǎn)檢測、預(yù)先強(qiáng)調(diào)濾波以及量化。
12.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述聲音處理模塊包括一個(gè)與說話者相關(guān)的聲音模型。
13.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述聲音處理模塊根據(jù)所述已知聲音單元形成一個(gè)聲音字圖。
14.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述發(fā)送器模塊形成所述字圖的二進(jìn)制表示,并且在發(fā)送所述字圖之前,把所述二進(jìn)制表示與一個(gè)源地址和目標(biāo)地址一同置于一個(gè)數(shù)據(jù)報(bào)中。
15.一種客戶機(jī)設(shè)備,其中包括接收器模塊,用于接收人的語音信號;特征提取模塊,其連接到所述接收器模塊,用于識別所述人的語音信號的特征;聲音處理模塊,其連接到所述特征提取模塊,用于從所述被識別的特征中識別已知音標(biāo)單元,并且形成包含至少一個(gè)所述音標(biāo)單元的數(shù)據(jù)包;以及發(fā)送器模塊,其連接到所述聲音處理模塊,用于把所述數(shù)據(jù)包發(fā)送到一個(gè)服務(wù)器節(jié)點(diǎn)。
16.根據(jù)權(quán)利要求15所述的客戶機(jī)設(shè)備,其中所述特征提取模塊還被配置為對所述人的語音信號執(zhí)行結(jié)束點(diǎn)檢測、預(yù)先強(qiáng)調(diào)濾波以及量化。
17.根據(jù)權(quán)利要求15所述的客戶機(jī)設(shè)備,其中所述聲音處理模塊包括一個(gè)與說話者相關(guān)的聲音模型。
18.根據(jù)權(quán)利要求15所述的客戶機(jī)設(shè)備,其中所述聲音處理模塊從所述被識別的已知音標(biāo)單元形成一個(gè)字圖。
19.根據(jù)權(quán)利要求18所述的客戶機(jī)設(shè)備,其中所述字圖是一個(gè)音標(biāo)字圖。
20.一種服務(wù)器,其中包括接收器模塊,用于從一個(gè)客戶機(jī)節(jié)點(diǎn)接收包含至少一個(gè)已知音標(biāo)單元的數(shù)據(jù)包,并且從所述數(shù)據(jù)包中除去所述至少一個(gè)已知音標(biāo)單元;以及語言處理模塊,其連接到所述接收器模塊,用于確定與所述至少一個(gè)已知音標(biāo)單元相關(guān)的字。
21.根據(jù)權(quán)利要求20所述的服務(wù)器,其中通過互聯(lián)網(wǎng)接收所述數(shù)據(jù)包。
22.根據(jù)權(quán)利要求20所述的服務(wù)器,其中所述數(shù)據(jù)包是一個(gè)數(shù)據(jù)報(bào),其中包含具有所述客戶機(jī)節(jié)點(diǎn)的地址、所述服務(wù)器的地址以及所述已知音標(biāo)單元的報(bào)頭部分。
23.一種包含可由一個(gè)處理器執(zhí)行的程序的計(jì)算機(jī)可讀介質(zhì),其中包括第一子例程,用于在一個(gè)客戶機(jī)節(jié)點(diǎn)接收人的語音信號;第二子例程,用于識別所述人的語音信號的特征;第三子例程,用于識別對應(yīng)于所述被識別的特征的已知音標(biāo)單元;第四子例程,用于形成包含至少一個(gè)所述已知音標(biāo)單元的數(shù)據(jù)包;以及第五子例程,用于把所述數(shù)據(jù)包發(fā)送到一個(gè)服務(wù)器節(jié)點(diǎn)。
24.根據(jù)權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì),其中所述第三子例程從所述已知音標(biāo)單元形成一個(gè)音標(biāo)字圖。
25.根據(jù)權(quán)利要求24所述的計(jì)算機(jī)可讀介質(zhì),其中所述數(shù)據(jù)包是包含所述音標(biāo)字圖、所述客戶機(jī)節(jié)點(diǎn)的地址和所述服務(wù)器節(jié)點(diǎn)的地址的數(shù)據(jù)報(bào)。
26.根據(jù)權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì),其中所述第三子例程還形成一個(gè)與說話者相關(guān)的聲音模型。
27.根據(jù)權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì),其中所述第五子例程把所述數(shù)據(jù)報(bào)通過互聯(lián)網(wǎng)發(fā)送到所述服務(wù)器節(jié)點(diǎn)。
28.一種包含可由一個(gè)處理器所執(zhí)行的程序的計(jì)算機(jī)可讀介質(zhì),其中包括第一子例程,用于從一個(gè)客戶機(jī)節(jié)點(diǎn)接收包含至少一個(gè)已知音標(biāo)單元的數(shù)據(jù)包;第二子例程,用于從所述數(shù)據(jù)包除去所述至少一個(gè)已知音標(biāo)單元;以及第三子例程,用于識別與所述至少一個(gè)已知音標(biāo)單元相關(guān)的字。
29.根據(jù)權(quán)利要求28所述的計(jì)算機(jī)可讀介質(zhì),其中所述數(shù)據(jù)包被一個(gè)客戶機(jī)節(jié)點(diǎn)通過互聯(lián)網(wǎng)發(fā)送。
30.根據(jù)權(quán)利要求28所述的計(jì)算機(jī)可讀介質(zhì),其中所述數(shù)據(jù)包是包含所述至少一個(gè)已知音標(biāo)單元和所述客戶機(jī)節(jié)點(diǎn)的地址的數(shù)據(jù)報(bào)。
全文摘要
一般來說,新的基于客戶機(jī)-服務(wù)器的分布式語音識別系統(tǒng)(DSR)在一個(gè)客戶機(jī)設(shè)備提供識別由人所發(fā)出的語音的有效方法,并且通過網(wǎng)絡(luò)發(fā)送到一個(gè)遠(yuǎn)程服務(wù)器。該系統(tǒng)在該客戶機(jī)和服務(wù)器之間分布該語音識別處理,使得一個(gè)與說話者相關(guān)的語言模型可以被利用,與該傳統(tǒng)的DSR系統(tǒng)相比產(chǎn)生更高的精度。相應(yīng)地,該客戶機(jī)設(shè)備被配置為通過使用一個(gè)由要被識別語音的相同終端用戶所訓(xùn)練的聲音模型執(zhí)行聲音識別而產(chǎn)生一個(gè)音標(biāo)字圖。所獲得的音標(biāo)字圖被發(fā)送到該服務(wù)器,其將進(jìn)行該語言處理,并且產(chǎn)生所識別的字串。當(dāng)與使用傳統(tǒng)DSR的設(shè)計(jì)相比,該新的DSR方法和系統(tǒng)產(chǎn)生小2-3倍的字誤碼率,獲得更高精度的識別系統(tǒng)。
文檔編號G10L15/30GK1545694SQ01823555
公開日2004年11月10日 申請日期2001年6月19日 優(yōu)先權(quán)日2001年6月19日
發(fā)明者趙慶偉, 張向東, 楊永紅, 袁寶勝 申請人:英特爾公司, 英特爾中國有限公司