用于自動語音識別系統(tǒng)的自適應(yīng)語境的制作方法

文檔序號：2837516閱讀：351來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于自動語音識別系統(tǒng)的自適應(yīng)語境的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及通信系統(tǒng)，更具體地，涉及改善語音識別的系統(tǒng)。

背景技術(shù)：
某些語音識別系統(tǒng)通過交換與應(yīng)用進行交互。這些系統(tǒng)理解有限數(shù)量的口頭請求和命令。由于存在多種語音模式、說話者口音和應(yīng)用環(huán)境，某些語音識別系統(tǒng)不一定總是能識別出用戶的語音。某些系統(tǒng)試圖通過在使用前要求用戶朗讀多個單詞和句子來訓(xùn)練系統(tǒng)，將錯誤減到最少。其它系統(tǒng)在系統(tǒng)的使用過程中自適應(yīng)調(diào)整它們的語音模型。由于存在多種可以得到請求和命令的方法，語音識別系統(tǒng)的開發(fā)者必須生成初始的識別語法。
盡管有這種編程方法，某些系統(tǒng)仍不能有效地自適應(yīng)調(diào)整可獲得的語境信息。因此，存在著對于可改善語音識別的系統(tǒng)的需要。

發(fā)明內(nèi)容
一種改善語音識別的系統(tǒng)，包括連接到語音識別引擎的接口。連接到接口的識別后處理器將語音識別引擎處理的識別語音與保留在存儲器中的語境信息進行比較。該識別后處理器生成修正的識別語音數(shù)據(jù)，并將該修正的識別語音數(shù)據(jù)發(fā)送到解析部件。
對于本領(lǐng)域技術(shù)人員來說，一經(jīng)研究如下的附圖和詳細(xì)說明，其它的系統(tǒng)、方法、特征和優(yōu)點就會或者將會變得顯而易見。想要將所有這些附加的系統(tǒng)、方法、特征和優(yōu)點包括在該描述中，落入本發(fā)明的保護范圍中，并且由如下的權(quán)利要求來保護。

參照如下附圖和說明，將能更好地理解該系統(tǒng)。圖中的部件不一定是按比例的，其重點在于解釋本發(fā)明的原理。并且，在附圖中，相同的附圖標(biāo)記在不同視圖中代表相對應(yīng)的部分。
圖1是連接到識別后系統(tǒng)的自動語音識別系統(tǒng)的框圖。
圖2是識別后系統(tǒng)的框圖。
圖3是n最佳列表的圖。
圖4是連接到外圍設(shè)備的識別后系統(tǒng)的框圖。
圖5是可選的識別后系統(tǒng)的框圖。
圖6是可選的自動語音識別系統(tǒng)的框圖。
圖7是第二可選的自動語音識別系統(tǒng)的框圖。
圖8是改善語音識別的流程圖。

具體實施例方式 自適應(yīng)識別后系統(tǒng)能夠自適應(yīng)調(diào)整詞匯、短語和/或句子。該系統(tǒng)可以編輯從音頻信號識別的語音，或者修正與識別語音相關(guān)聯(lián)的識別分?jǐn)?shù)(score)。某些識別后系統(tǒng)通過交互實時地或接近實時地編輯或修正數(shù)據(jù)。其它識別后系統(tǒng)通過用戶修改，或者將用戶修改與實時的或接近實時的用戶交互相結(jié)合來編輯或修正數(shù)據(jù)。識別后系統(tǒng)可以與依賴說話者的和/或不依賴說話者的自動語音識別系統(tǒng)(SRS)通過接口連接。
圖1是自適應(yīng)自動語音識別系統(tǒng)100的框圖。該自適應(yīng)自動語音識別系統(tǒng)100可包括語音識別引擎102、自適應(yīng)識別后系統(tǒng)104、翻譯器106和對話管理器108。該語音識別引擎102接收數(shù)字音頻信號，并通過匹配處理生成由自適應(yīng)識別后系統(tǒng)104接收的識別語音數(shù)據(jù)。某些語音識別引擎102可接收模擬音頻信號，該模擬音頻信號在匹配處理前可被數(shù)字化。在某些自適應(yīng)自動語音識別系統(tǒng)100中，識別語音數(shù)據(jù)可包括一個或更多文本串、對于每個文本串的概率或置信值/等級(例如，分?jǐn)?shù))，和/或向內(nèi)部或外部硬件和/或軟件傳達(dá)意思的其它數(shù)據(jù)段。某些自適應(yīng)自動語音識別系統(tǒng)100將識別語音數(shù)據(jù)表達(dá)為n個最有可能與用戶說話匹配的n最佳文本串列表，其中該最佳列表中的條目個數(shù)(“n”)可由用戶、初始設(shè)備制造商和/或售后市場供應(yīng)商來配置?？商娲兀承┳赃m應(yīng)自動語音識別系統(tǒng)100可以將識別語音數(shù)據(jù)表達(dá)為表現(xiàn)一個或更多可能的用戶說話的詞匯圖、詞匯矩陣或詞匯點陣。
自適應(yīng)識別后系統(tǒng)104包括連接到語音識別引擎102或者是作為語音識別引擎102的一個整體部分的軟件和/或硬件。該自適應(yīng)識別后系統(tǒng)104鑒于可得到的語境對象分析識別語音數(shù)據(jù)，并確定是否要修正部分或所有識別語音數(shù)據(jù)。當(dāng)授權(quán)修正后，該自適應(yīng)識別后處理器104可改變與文本串相關(guān)聯(lián)的分?jǐn)?shù)、文本串和/或其它數(shù)據(jù)段，以便生成修正的識別語音數(shù)據(jù)。
翻譯器106接收修正的識別語音數(shù)據(jù)，并將該數(shù)據(jù)轉(zhuǎn)換為可以由第二層軟件和/或硬件處理的形式。在某些自適應(yīng)自動語音識別系統(tǒng)100中，翻譯器106可以是解析器。對話管理器108可以從翻譯器106接收數(shù)據(jù)輸出，并可以翻譯數(shù)據(jù)，以便向一個或更多連接的設(shè)備或應(yīng)用提供控制和/或輸入信號。另外，對話管理器108可以向自適應(yīng)識別后系統(tǒng)104和/或語音識別引擎102提供響應(yīng)反饋數(shù)據(jù)。該響應(yīng)反饋數(shù)據(jù)可存儲在外部和/或內(nèi)部的易失性或非易失性存儲器中，并且可包括修正的文本串的可接受水平。在某些自適應(yīng)自動語音識別系統(tǒng)100中，該響應(yīng)反饋可包括指示肯定接受(例如，是、正確、繼續(xù)、進行等)或否定接受(例如，否、錯誤、停止、重做、取消等)的數(shù)據(jù)。
圖2是自適應(yīng)識別后系統(tǒng)104的框圖。該自適應(yīng)識別后系統(tǒng)104可包括輸入接口202、識別后處理器204、存儲器206和輸出接口208。輸入接口將語音識別引擎102連接到識別后處理器204，并將識別語音數(shù)據(jù)傳遞到識別后處理器204，該識別后處理器將識別語音數(shù)據(jù)存儲在易失性或非易失性存儲器206中。存儲器206還可存儲語境對象和/或一個或更多應(yīng)用規(guī)則，該應(yīng)用規(guī)則可由終端用戶、開發(fā)者、初始設(shè)備制造商和/或售后市場供應(yīng)商配置或自適應(yīng)調(diào)整。在某些自適應(yīng)識別后系統(tǒng)104中，語境對象包括響應(yīng)反饋數(shù)據(jù)、頻繁說出的詞匯、短語或句子(例如，識別文本串和/或修正的識別文本串)、分?jǐn)?shù)、時間數(shù)據(jù)(例如，數(shù)據(jù)何時被恰當(dāng)?shù)貙ぶ?、頻率數(shù)據(jù)(例如，數(shù)據(jù)被尋址的頻繁程度)和/或最新數(shù)據(jù)(例如，數(shù)據(jù)最近一次被尋址是何時)。
識別后處理器204可以將一個或更多應(yīng)用規(guī)則應(yīng)用到識別語音數(shù)據(jù)和一個或更多語境對象中?；谒鶓?yīng)用的應(yīng)用規(guī)則的結(jié)果，識別后處理器204可生成修正的識別語音數(shù)據(jù)。該修正的識別語音數(shù)據(jù)可包括分?jǐn)?shù)、修正的分?jǐn)?shù)、識別文本串、修正的識別文本串，和/或向內(nèi)部或輔助硬件和/或其它軟件傳達(dá)意思的其它數(shù)據(jù)段。在某些自適應(yīng)識別后系統(tǒng)104中，該修正的識別語音數(shù)據(jù)可被表達(dá)為n最佳列表。修正的識別語音數(shù)據(jù)可被傳送到連接到輸出接口208的第二層軟件和/或設(shè)備中，諸如翻譯器106。
在將識別語音數(shù)據(jù)表達(dá)為n最佳列表的自適應(yīng)自動語音識別系統(tǒng)100中，分?jǐn)?shù)的修正可以改變文本串的位置及其相關(guān)聯(lián)的數(shù)據(jù)。圖3是響應(yīng)于說出的電話號碼“6041234”，由語音識別引擎102生成的n最佳電話數(shù)字撥號列表。在圖3中，文本串“6241234”具有92％的置信分?jǐn)?shù)，文本串“6041234”具有89％的置信分?jǐn)?shù)，而文本串“6341234”具有84％的置信分?jǐn)?shù)。識別后處理器204可將應(yīng)用規(guī)則應(yīng)用到文本串“6241234”。該應(yīng)用規(guī)則可包括語境邏輯。在某些系統(tǒng)中，該應(yīng)用規(guī)則可以確定否定的響應(yīng)反饋是否之前已經(jīng)與該文本串相關(guān)聯(lián)，或者該文本串是否代表頻繁撥號的電話號碼。如果用戶之前已經(jīng)提供了對該文本串的否定響應(yīng)，該文本串作為語境對象被存儲在存儲器中，則識別后處理器204可利用負(fù)加權(quán)來修正相關(guān)聯(lián)的置信分?jǐn)?shù)。該負(fù)加權(quán)可以包括將相關(guān)聯(lián)的置信分?jǐn)?shù)降低預(yù)先確定的數(shù)量。如果相關(guān)聯(lián)的置信分?jǐn)?shù)降低的數(shù)量大于n最佳列表中的第二個最佳條目(例如，如圖3所示的3％)，則文本串“6241234”將變成圖3所示的n最佳列表中的第二個條目。可以將另外的應(yīng)用規(guī)則應(yīng)用到該文本串中，這樣會導(dǎo)致另外的位置變化。
應(yīng)用到其它文本串中的應(yīng)用規(guī)則可能返回不同的結(jié)果。例如，604-1234可能是被頻繁撥打的號碼，其具有存儲在如此指示的存儲器206中的語境對象。當(dāng)識別后處理器204將應(yīng)用規(guī)則應(yīng)用到文本串“6041234”中時，指示這是頻繁撥打的號碼的語境對象可以使識別后處理器204用正加權(quán)來修正該相關(guān)聯(lián)的置信分?jǐn)?shù)。該正加權(quán)可以包括將相關(guān)聯(lián)的置信分?jǐn)?shù)提高預(yù)先確定的數(shù)量。正和/或負(fù)加權(quán)值可以基于頻率數(shù)據(jù)、時間數(shù)據(jù)、最新數(shù)據(jù)和/或其它與語境對象或語境對象的子分量相關(guān)聯(lián)的時間指示符來配置。在某些自適應(yīng)自動語音識別系統(tǒng)100中，識別后處理器204可被配置為使應(yīng)用規(guī)則傳送識別語音數(shù)據(jù)，而不進行任何修正。在這些自適應(yīng)語音識別系統(tǒng)100中，自適應(yīng)識別后系統(tǒng)104可實現(xiàn)為直通邏輯(pass through logic)。
在某些自適應(yīng)識別后系統(tǒng)104中，語境對象可被用于將新的信息插入到識別語音數(shù)據(jù)中。例如，如果電話號碼765-4321最近已經(jīng)被重復(fù)撥打，則如此指示的語境對象就被存儲在存儲器中。如果識別語音數(shù)據(jù)包括n最佳列表，其中將文本串“7694321”作為第一條目(例如，最有可能的結(jié)果)，而該文本串沒有語境對象存儲在存儲器中，則應(yīng)用規(guī)則會致使識別后處理器204將文本串“7654321”插入到n最佳列表中。新數(shù)據(jù)被插入的位置和/或相關(guān)聯(lián)的分?jǐn)?shù)將取決于多個因素。這些因素可包括頻率數(shù)據(jù)、時間數(shù)據(jù)和/或要被添加的新信息的最新數(shù)據(jù)。
在某些自適應(yīng)識別后系統(tǒng)104中，語境對象可被用于從識別語音數(shù)據(jù)中去除數(shù)據(jù)。某些語音識別引擎102可能會將環(huán)境噪聲，諸如瞬時的車輛噪聲(例如，車身振動、風(fēng)的吹打、雨的噪聲等)和/或背景噪聲(例如，鍵盤的咔噠聲、音樂噪聲等)誤識別為所說出話語的一部分。這些環(huán)境噪聲會將不希望有的數(shù)據(jù)添加到包括在識別語音數(shù)據(jù)中的文本串中。一旦應(yīng)用了應(yīng)用規(guī)則和語境對象，通過識別出不想要的數(shù)據(jù)并將其從文本串中提取出來，識別后處理器204可生成修正的識別數(shù)據(jù)。
在識別后系統(tǒng)104中，存儲在存儲器中的應(yīng)用規(guī)則可通過用戶交互而被預(yù)先編程、獲得或者修正，也可通過本地(例如，規(guī)則語法、對話管理器等)或諸如外部設(shè)備的遠(yuǎn)端源通過無線或硬連接而獲得或修正。該應(yīng)用規(guī)則可被自適應(yīng)調(diào)整，例如基于來自更高層應(yīng)用軟件和/或硬件的反饋，或者通過用戶操作。如果應(yīng)用規(guī)則引起了錯誤，則該應(yīng)用規(guī)則會被動態(tài)更新或修正并被存儲在存儲器中。
其它語境對象可從一個或更多外部設(shè)備上下載到存儲器上。圖4是連接到外部設(shè)備的自適應(yīng)識別后系統(tǒng)。該自適應(yīng)識別后系統(tǒng)104可通過由有線或無線連接所使用的一個或更多協(xié)議而被連接到外部設(shè)備402。一些協(xié)議可包括J1850VPW、J1850PWM、ISO、ISO9141-2、ISO14230、CAN、高速CAN、MOST、LIN、IDB-1394、IDB-C、藍(lán)牙、TTCAN、TTP、802.x、串行數(shù)據(jù)傳輸和/或并行數(shù)據(jù)傳輸。該外部設(shè)備可以包括蜂窩或無線電話、車載計算機、信息娛樂系統(tǒng)、諸如MP3播放器的便攜式音頻/可視設(shè)備、個人數(shù)字助理和/或其它可以運行一個或更多軟件應(yīng)用的處理或數(shù)據(jù)存儲計算機。當(dāng)自適應(yīng)識別后系統(tǒng)104連接到外部設(shè)備時，其它語境對象可被外部設(shè)備推到自適應(yīng)識別后系統(tǒng)104中。其它語境對象可以包括聯(lián)絡(luò)信息和列表、個人身份號碼或編碼、日歷信息、地址、無線電頻率、無線電臺呼號、無線電臺預(yù)設(shè)位置、歌曲名稱(壓縮的或未壓縮的)、氣候控制命令、全球定位信息或任意其它的與語音識別、個人通信、車輛操作或司機或乘客舒適度相關(guān)的要素。當(dāng)用戶改正、接受或拒絕由自適應(yīng)自動語音識別系統(tǒng)所提供的語音輸出時，語境對象可被添加到存儲器或被自動更新。
某些自適應(yīng)識別后系統(tǒng)104通過在有限的條件下添加或修正語境對象，避免了對于某些語音識別系統(tǒng)而言很普通的加強錯誤。在某些系統(tǒng)中，可以添加新的語境對象，或者已有的語境對象僅在得到用戶確認(rèn)之后才進行更新。在某些系統(tǒng)中，未經(jīng)確認(rèn)的添加或改變可在存儲器中存儲為單獨的語境對象；然而，這些未經(jīng)確認(rèn)的語境對象可能具有比經(jīng)過確認(rèn)的選擇更低的分?jǐn)?shù)。在某些系統(tǒng)中，未經(jīng)確認(rèn)的和/或被拒絕的條目可被添加或者用負(fù)加權(quán)來更新，用于在某些時間段中降低可能性或壓縮潛在錯誤的結(jié)果。
圖5是可選的自適應(yīng)識別后系統(tǒng)502。在圖5中，外部存儲器504與識別后處理器202進行通信。內(nèi)部存儲器206和/或外部存儲器504可存儲識別語音數(shù)據(jù)、應(yīng)用規(guī)則、語境對象和/或修正的識別語音數(shù)據(jù)。內(nèi)部存儲器206和/或外部存儲器504可以是易失性或非易失性存儲器，并可包括一個或更多存儲空間。
圖6是可選的自適應(yīng)自動語音識別系統(tǒng)。在圖6中，識別后系統(tǒng)204或502可以與語音識別引擎102集成或者形成語音識別引擎102的整體部分。圖7是第二可選自適應(yīng)自動語音識別系統(tǒng)。在圖7中，識別后系統(tǒng)204或502可以與翻譯器106集成，或者形成翻譯器106的整體部分。
圖8是改善語音識別的方法的流程圖。在步驟802，自適應(yīng)識別后系統(tǒng)可將由語音識別引擎生成的識別語音數(shù)據(jù)與語境對象進行比較。識別語音數(shù)據(jù)可以由依賴說話者的和/或不依賴說話者的系統(tǒng)生成，使得語境對象可以是當(dāng)前用戶最近說出的語音，也可以是不同于當(dāng)前用戶的用戶在預(yù)先確定或編程的時間段內(nèi)說出的語音?？商娲?，語境對象可以是從一個或更多外部設(shè)備獲得的信息。在進行比較時，識別后系統(tǒng)可以使用一個或更多應(yīng)用規(guī)則。在改善語音識別的某些方法中，識別語音數(shù)據(jù)、語境對象和/或應(yīng)用規(guī)則可被存儲在易失性或非易失性存儲器中。識別語音數(shù)據(jù)可包括一個或更多文本串、對于每個文本串的概率或置信值/等級(例如分?jǐn)?shù))，和/或向內(nèi)部或外部硬件和/或軟件傳達(dá)意思的其它數(shù)據(jù)段。語境對象可用于消除與識別語音數(shù)據(jù)有關(guān)的模糊性，并可包括響應(yīng)反饋數(shù)據(jù)、經(jīng)常說出的詞匯、短語或句子(例如，識別文本串和/或修正的識別文本串)、分?jǐn)?shù)、時間數(shù)據(jù)、頻率數(shù)據(jù)和/或最新數(shù)據(jù)。其它語境對象可包括聯(lián)絡(luò)信息和列表、個人身份號碼或編碼、日歷信息、地址、無線電頻率、無線電臺呼號、無線電臺預(yù)設(shè)位置、歌曲名稱(壓縮的或未壓縮的)、氣候控制命令、全球定位信息和/或任意其它的可以從一個或更多外圍設(shè)備載入到存儲器的與語音識別、個人通信、車輛操作或司機或乘客舒適度相關(guān)的要素。
在步驟804，基于一個或更多應(yīng)用規(guī)則和/或語境對象，一些或所有識別語音數(shù)據(jù)可以被改變。改變識別語音數(shù)據(jù)可包括，通過應(yīng)用正或負(fù)加權(quán)值來修正與文本串相關(guān)聯(lián)的分?jǐn)?shù)；添加、去除或改變文本串的一部分，和/或添加新的文本串和/或與文本串相關(guān)聯(lián)的分?jǐn)?shù)。
在步驟806，一些或所有經(jīng)改變的識別語音數(shù)據(jù)可被發(fā)送到更高級別的軟件和/或設(shè)備。更高級別的設(shè)備可包括翻譯器，該翻譯器可將經(jīng)改變的識別語音數(shù)據(jù)轉(zhuǎn)換為可由其它更高級別軟件和/或硬件處理的形式。
在步驟808，語境對象和/或應(yīng)用規(guī)則可被更新。在某些方法中，當(dāng)用戶改正、接受或拒絕自適應(yīng)自動語音識別系統(tǒng)的輸出時，語境對象和/或應(yīng)用規(guī)則可被自動更新。如果經(jīng)改正的輸出包括存儲為語境對象的詞匯或短語，則可將該詞匯添加到語境對象。如果應(yīng)用規(guī)則造成了錯誤，則該應(yīng)用規(guī)則可被靜態(tài)或動態(tài)地更新或修正并被存儲在存儲器中。
某些方法通過在有限的條件下添加或修正語境對象，避免了對于某些語音識別系統(tǒng)而言很普通的加強錯誤。在某些系統(tǒng)中，可以添加新的語境對象，或者已有的語境對象僅在得到用戶確認(rèn)之后才進行更新。在某些方法中，未經(jīng)確認(rèn)的添加或改變可在存儲器中存儲為單獨的語境對象；然而，這些未經(jīng)確認(rèn)的語境對象可能具有比經(jīng)過確認(rèn)的選擇更低的分?jǐn)?shù)。
上述系統(tǒng)和方法可被編碼在計算機可讀介質(zhì)中，諸如CD-Rom、磁盤、閃存、RAM或ROM或其它如處理器執(zhí)行的指令的機器可讀介質(zhì)。因此，處理器可以執(zhí)行指令來進行識別后處理?？商娲鼗蚋郊拥?，該方法可利用硬件實現(xiàn)為模擬或數(shù)字邏輯，其中硬件諸如一個或更多集成電路，或一個或更多執(zhí)行采樣率自適應(yīng)調(diào)整指令的處理器；或者在應(yīng)用程序接口(API)或動態(tài)鏈接庫(DLL)中的軟件、共享存儲器中或定義為本地或遠(yuǎn)程程序調(diào)用中可用的函數(shù)中實現(xiàn)；或者實現(xiàn)為硬件和軟件的組合。
該方法可被編碼在計算機可讀介質(zhì)、機器可讀介質(zhì)、傳播信號介質(zhì)和/或信號承載介質(zhì)上。該介質(zhì)可包括包含、存儲、通信、傳播或傳送由指令可執(zhí)行系統(tǒng)、裝置或設(shè)備使用或與其連接的軟件的任何設(shè)備。該機器可讀介質(zhì)可以選擇性地而非限制性地是電的、磁的、光的、電磁的、紅外的或半導(dǎo)體系統(tǒng)、裝置、設(shè)備或傳播介質(zhì)。機器可讀介質(zhì)實例的非窮舉列表包括具有一個或更多線路的電連接、便攜式磁盤或光盤、諸如隨機存取存儲器“RAM”、只讀存儲器“ROM”、可擦除可編程只讀存儲器(例如EPROM)或閃存的的易失性存儲器，或者光纖。機器可讀介質(zhì)還可包括其上可印刷可執(zhí)行指令的有形介質(zhì)，比如邏輯可被電存儲為圖像或其它格式(例如通過光學(xué)掃描)，然后被匯編和/或翻譯或進行其它處理。經(jīng)處理的介質(zhì)然后可被存儲在計算機和/或機器存儲器中。
上面的系統(tǒng)可包括附加的或不同的邏輯，并且可以很多不同方式實現(xiàn)。處理器可以實現(xiàn)為微處理器、微控制器、專用集成電路(ASIC)、離散邏輯或其它類型的電路或邏輯的組合。相似地，存儲器可以是DRAM、SRAM、閃存或其它類型的存儲器。參數(shù)(例如條件和閾值)和其它數(shù)據(jù)結(jié)構(gòu)可以分別存儲和管理，也可以合并為具有一個或更多數(shù)據(jù)庫的單一存儲器，還可以邏輯地和物理地分布到很多組件中。程序和指令集可以是單個程序的各部分、單獨的程序，也可以分布在若干存儲器和處理器中。上述系統(tǒng)和方法可應(yīng)用于對識別語音數(shù)據(jù)進行重新打分和/或重新加權(quán)，其中該語音識別數(shù)據(jù)是用詞匯圖路徑、詞匯矩陣和/或詞匯點陣格式，或者用于表達(dá)來自語音識別系統(tǒng)的結(jié)果的通常所識別的任何其它格式來表示的。
雖然已經(jīng)描述了本發(fā)明的各實施例，但對于本領(lǐng)域普通技術(shù)人員來說顯而易見的是，在本發(fā)明保護范圍中還有很多實施例和實現(xiàn)方式是可行的。因此，除了根據(jù)所附權(quán)利要求和它們的等價物，本發(fā)明不受限制。
權(quán)利要求
1.一種改善語音識別性能的系統(tǒng)，包括
被配置成連接語音識別引擎的接口；和
被連接到所述接口的識別后處理器，所述識別后處理器將由所述語音識別引擎生成的識別語音數(shù)據(jù)與保留在存儲器中的語境對象進行比較，生成修正的識別語音數(shù)據(jù)，并將所述修正的識別語音數(shù)據(jù)發(fā)送到翻譯部件。
2.如權(quán)利要求1所述的系統(tǒng)，其中所述識別語音數(shù)據(jù)包括文本串和相關(guān)分?jǐn)?shù)。
3.如權(quán)利要求2所述的系統(tǒng)，其中所述相關(guān)分?jǐn)?shù)包括所述文本串的置信值。
4.如權(quán)利要求3所述的系統(tǒng)，其中所述修正的識別語音數(shù)據(jù)包括用負(fù)加權(quán)值改變后的相關(guān)分?jǐn)?shù)。
5.如權(quán)利要求3所述的系統(tǒng)，其中所述修正的識別語音數(shù)據(jù)包括用正加權(quán)值改變后的相關(guān)分?jǐn)?shù)。
6.如權(quán)利要求1所述的系統(tǒng)，其中所述修正的識別語音數(shù)據(jù)包括修正的文本串，所述修正的文本串包括語境對象的一部分。
7.如權(quán)利要求2所述的系統(tǒng)，其中所述修正的識別語音數(shù)據(jù)包括所述文本串的一部分。
8.如權(quán)利要求1所述的系統(tǒng)，其中所述存儲器被進一步配置為存儲響應(yīng)反饋數(shù)據(jù)，所述響應(yīng)反饋數(shù)據(jù)包括修正的文本串的接受水平。
9.如權(quán)利要求2所述的系統(tǒng)，其中修正的識別語音數(shù)據(jù)包括多個文本串，所述多個文本串的次序與所述識別語音數(shù)據(jù)的文本串的次序不同。
10.如權(quán)利要求1所述的系統(tǒng)，其中所述語境對象是從一個或更多外圍設(shè)備載入所述存儲器中的。
11.如權(quán)利要求1所述的系統(tǒng)，進一步包括存儲在存儲器中的用戶可修改的規(guī)則，所述用戶可修改的規(guī)則被配置為作用在所述識別語音數(shù)據(jù)和所述語境對象上。
12.一種改善語音識別的方法，包括
將由語音識別引擎生成的識別語音數(shù)據(jù)與保留在存儲器中的語境對象進行比較；
基于一個或更多語境對象，改變識別語音數(shù)據(jù)；和
將改變的識別語音數(shù)據(jù)發(fā)送到翻譯部件，
其中所述識別語音數(shù)據(jù)包括文本串、矩陣或點陣和相關(guān)置信等級。
13.如權(quán)利要求12所述的方法，其中改變識別語音數(shù)據(jù)包括調(diào)節(jié)與文本串、矩陣或點陣相關(guān)聯(lián)的相關(guān)置信等級。
14.如權(quán)利要求13所述的方法，其中調(diào)節(jié)與文本串相關(guān)聯(lián)的置信等級包括對相關(guān)置信等級應(yīng)用負(fù)加權(quán)值。
15.如權(quán)利要求13所述的方法，其中調(diào)節(jié)與文本串相關(guān)聯(lián)的置信等級包括對相關(guān)置信等級應(yīng)用正加權(quán)值。
16.如權(quán)利要求12所述的方法，其中改變識別語音數(shù)據(jù)包括提取文本串的一部分。
17.如權(quán)利要求12所述的方法，其中改變識別語音數(shù)據(jù)包括向識別語音數(shù)據(jù)添加新的文本串。
18.如權(quán)利要求12所述的方法，其中在接收到確認(rèn)數(shù)據(jù)后，向保留在存儲器中的語境對象添加新的文本串。
19.如權(quán)利要求12所述的方法，進一步包括用改變后的識別語音數(shù)據(jù)的一部分來更新所述語境對象。
20.如權(quán)利要求12所述的方法，其中將由語音識別引擎生成的識別語音數(shù)據(jù)與保留在存儲器中的語境對象進行比較包括評估與所述語境對象相關(guān)聯(lián)的時間數(shù)據(jù)。
21.如權(quán)利要求12所述的方法，其中將由語音識別引擎生成的識別語音數(shù)據(jù)與保留在存儲器中的語境對象進行比較包括評估與所述語境對象相關(guān)聯(lián)的頻率數(shù)據(jù)。
22.一種計算機可讀存儲介質(zhì)，包括一組用于執(zhí)行以下操作的處理器可執(zhí)行指令
將由語音識別引擎生成的識別語音數(shù)據(jù)與保留在存儲器中的語境對象進行比較；
基于一個或更多語境對象，改變識別語音數(shù)據(jù)；和
將改變的識別語音數(shù)據(jù)發(fā)送到翻譯部件，
其中所述識別語音數(shù)據(jù)包括文本串和相關(guān)置信等級。
23.如權(quán)利要求22所述的計算機可讀存儲介質(zhì)，其中所述改變識別語音數(shù)據(jù)的指令對相關(guān)置信等級應(yīng)用負(fù)加權(quán)值。
24.如權(quán)利要求22所述的計算機可讀存儲介質(zhì)，其中所述改變識別語音數(shù)據(jù)的指令對相關(guān)置信等級應(yīng)用正加權(quán)值。
全文摘要
一種改善語音識別的系統(tǒng)，包括連接到語音識別引擎的接口。連接到該接口的識別后處理器將由語音識別引擎生成的識別語音數(shù)據(jù)與保留在存儲器中的語境對象進行比較，生成修正的識別語音數(shù)據(jù)，并將修正的識別語音數(shù)據(jù)發(fā)送到解析部件。
文檔編號G10L15/00GK101183525SQ200710192999
公開日2008年5月21日申請日期2007年10月11日優(yōu)先權(quán)日2006年10月12日
發(fā)明者R·倫佩爾, P·A·赫瑟林頓, M·亨內(nèi)克, D·威利特申請人:Qnx軟件操作系統(tǒng)(威美科)有限公司, 哈曼貝克自動系統(tǒng)股份有限公司

完整全部詳細(xì)技術(shù)資料下載