国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      把詞表外語音與詞表內(nèi)語音區(qū)別開的制作方法

      文檔序號(hào):2837252閱讀:344來源:國(guó)知局
      專利名稱:把詞表外語音與詞表內(nèi)語音區(qū)別開的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及自動(dòng)語音識(shí)別(ASR),更特別地涉及預(yù)定義詞匯的識(shí)別。
      背景技術(shù)
      ASR技術(shù)使裝備話筒的計(jì)算裝置能夠解釋語音,從而提供對(duì)常規(guī)的人-計(jì)算機(jī)輸入裝置比如鍵盤或小鍵盤的替代。許多電信裝置裝備有ASR技術(shù)來檢測(cè)分立語音(比如口頭名簽或控制詞匯,象數(shù)字、關(guān)鍵字或命令)的存在。例如,ASR可以將口頭命令字與在遠(yuǎn)程通信裝置的存儲(chǔ)器中存儲(chǔ)的相應(yīng)命令相匹配以執(zhí)行某一動(dòng)作,象撥電話號(hào)碼。此外,ASR系統(tǒng)通常用預(yù)定義的可接受詞匯來編程,該詞匯是系統(tǒng)期望在任何給定時(shí)間從用戶聽到的詞匯,稱作詞表內(nèi)語音。例如,ASR系統(tǒng)可能期望聽到例如在與用戶對(duì)話的主菜單上的命令字,比如呼叫、撥號(hào)、目錄、退出、刪除等等。
      相比之下,詞表外語音出現(xiàn)在用戶講到不在命令、數(shù)字、關(guān)鍵字或名簽的預(yù)定義詞匯之內(nèi)的字或子字時(shí)。詞表外語音在用戶不熟悉預(yù)定義的可接受詞匯時(shí)特別頻繁出現(xiàn)。例如,新的用戶可能講詞表外說某事的詞象“Okay(好)”,而不是象“Yes(是)”的期望詞,并且ASR系統(tǒng)也許把該語音錯(cuò)誤地解釋為某一其它期望命令字象“Goodbye(再見)”。因此,ASR系統(tǒng)可能處理錯(cuò)誤的命令,或者可能反復(fù)要求用戶重復(fù)該命令。在任一情況下,用戶變得泄氣。這個(gè)問題的一個(gè)解決方案是在ASR對(duì)話的每個(gè)時(shí)機(jī)用可接受的命令來可聽地提示用戶。但是該方法過于反復(fù),并且使已經(jīng)熟悉可接受命令的用戶泄氣。

      發(fā)明內(nèi)容
      根據(jù)本發(fā)明的一個(gè)方面,提供一種包括以下步驟的語音識(shí)別方法(a)從用戶接收輸入語音;(b)使用第一語法處理輸入語音,以獲得詞匯的第一N最佳列表的參數(shù)值;(c)將第一N最佳列表的頂部(top)結(jié)果的至少一個(gè)參數(shù)值與至少一個(gè)預(yù)定閾值進(jìn)行比較;以及(d)如果所比較的至少一個(gè)參數(shù)值低于所述至少一個(gè)預(yù)定閾值,則隨后使用第二語法處理輸入語音,以獲得詞匯的第二N最佳列表的參數(shù)值。
      優(yōu)選地,該語音識(shí)別方法還可包括以下附加步驟之一或二者(e)如果第一N最佳列表的結(jié)果中的任何一個(gè)還出現(xiàn)在第二N最佳列表之內(nèi),則確定輸入語音是在詞表內(nèi),但是如果第一N最佳列表的結(jié)果中沒有一個(gè)在第二N最佳列表之內(nèi),則確定輸入語音是在詞表外;或者(f)如果輸入語音被確定為在詞表外,則向用戶提供可聽反饋。


      在下文將結(jié)合附圖來描述本發(fā)明的優(yōu)選典型實(shí)施例,其中類似標(biāo)記表示類似元素,以及其中圖1是描繪遠(yuǎn)程信息處理(telematics)系統(tǒng)的實(shí)例的框圖,該系統(tǒng)可以用來實(shí)施把詞表外語音與詞表內(nèi)語音區(qū)別開的典型方法;圖2是說明示例ASR架構(gòu)的框圖,該ASR架構(gòu)可被嵌入圖1的遠(yuǎn)程信息處理系統(tǒng)內(nèi),并且用來實(shí)施把詞表外語音與詞表內(nèi)語音區(qū)別開的典型方法;以及圖3是把詞表外語音與詞表內(nèi)語音區(qū)別開的典型方法的實(shí)施例的流程圖,該方法可以利用圖1和圖2的遠(yuǎn)程信息處理系統(tǒng)和ASR架構(gòu)來執(zhí)行。
      具體實(shí)施例方式
      利用自動(dòng)語音識(shí)別來使能的典型操作環(huán)境在圖1和圖2中被說明,并且可以用來實(shí)施把詞表外語音與詞表內(nèi)語音區(qū)別開的多個(gè)方法的典型實(shí)施例。這些方法會(huì)對(duì)識(shí)別分立語音比如名簽或控制詞匯象數(shù)字、關(guān)鍵字或命令特別有用。這些方法可以包括使用多個(gè)詞匯來有效檢索所存儲(chǔ)的詞表內(nèi)術(shù)語或者與其關(guān)聯(lián),并且以下結(jié)合圖3進(jìn)一步詳細(xì)地討論。
      可以使用任何合適的ASR使能系統(tǒng)來執(zhí)行這些方法。然而優(yōu)選地,結(jié)合ASR使能的遠(yuǎn)程信息處理系統(tǒng)100來執(zhí)行這些方法,該系統(tǒng)100可以包括運(yùn)送一個(gè)或多個(gè)乘客或用戶的機(jī)動(dòng)車輛102;用于與車輛102無線地通信的無線通信系統(tǒng)104;以及再與呼叫中心108通信的第二通信系統(tǒng)106,該呼叫中心108通過處理和存儲(chǔ)數(shù)據(jù)以及與車輛102通信來向車輛102提供服務(wù)。另外,該遠(yuǎn)程信息處理系統(tǒng)100還可以包括與車輛102和呼叫中心108通信以用于向其提供因特網(wǎng)服務(wù)的web服務(wù)器109;以及與上述部件通信以向車輛102提供服務(wù)的車輛服務(wù)中心111。
      該典型遠(yuǎn)程信息處理系統(tǒng)100通常促進(jìn)對(duì)車輛102的乘客的眾多服務(wù),包括車輛導(dǎo)航、路線規(guī)劃(turn-by-turn)駕駛方向、包括與乘客自動(dòng)音頻交互的電話、緊急業(yè)務(wù)、車輛診斷、車輛系統(tǒng)更新、以及ASR。為此目的,遠(yuǎn)程信息處理系統(tǒng)100處理數(shù)據(jù)和指令,以及促使無線話音和數(shù)據(jù)在位于車輛102上的硬件與遠(yuǎn)程呼叫中心108中的硬件之間傳送。例如,遠(yuǎn)程信息處理系統(tǒng)100使車輛乘客能夠啟動(dòng)例如與呼叫中心108或服務(wù)中心111的話音通信。此外,遠(yuǎn)程信息處理系統(tǒng)100為了各種目的而啟用車輛102與web服務(wù)器109之間的電子通信,比如發(fā)射和/接收諸如更新的話音消息、電子郵件、新聞等等之類的信息。
      機(jī)動(dòng)車輛機(jī)動(dòng)車輛102在所示的實(shí)施例中被描繪為客車,并且將會(huì)認(rèn)識(shí)到,包括水上運(yùn)載工具、飛行器和其它汽車比如大篷貨車、卡車等的任何其它移動(dòng)交通工具可以被使用,而不背離本發(fā)明的范圍。各種電子模塊都被設(shè)置在車輛102上,并且包括一個(gè)或多個(gè)車輛子系統(tǒng)或車輛系統(tǒng)模塊(VSM)110、車載車輛通信總線112、以及通過總線112連接到VSM 110的一個(gè)或多個(gè)車輛遠(yuǎn)程信息處理單元114。
      VSMVSM 110促進(jìn)合適的車載功能,比如車輛診斷、監(jiān)視、控制、報(bào)告、和/或其它功能。例如,VSM 110可以用來控制發(fā)動(dòng)機(jī)操作、監(jiān)視和展開空氣袋或其它安全裝置、和/或經(jīng)由各種車輛傳感器來診斷車輛系統(tǒng)。VSM 110概括地表示與遠(yuǎn)程信息處理單元114交互的車輛中的所有子系統(tǒng)。在特定實(shí)例中,如果呼叫中心108向車輛102發(fā)送信號(hào)以打開車門的鎖,則遠(yuǎn)程信息處理單元114指示門鎖VSM打開門的鎖。
      車輛通信總線車輛通信總線112促進(jìn)在各種車輛系統(tǒng)比如VSM 110和遠(yuǎn)程信息處理單元114之間的交互,并且使用任何合適的網(wǎng)絡(luò)通信配置,比如控制器區(qū)域網(wǎng)(CAN)、面向媒體的系統(tǒng)傳輸(MOST)、本地互連網(wǎng)(LIN)、以太網(wǎng)(10 base T、100 base T)、局域網(wǎng)(LAN)、ISO標(biāo)準(zhǔn)9141、用于高速應(yīng)用的ISO標(biāo)準(zhǔn)11898、用于較低速應(yīng)用的ISO標(biāo)準(zhǔn)11519、用于高速和較低速應(yīng)用的SAE標(biāo)準(zhǔn)J1850等等。
      車輛遠(yuǎn)程信息處理單元車輛遠(yuǎn)程信息處理單元114促進(jìn)在車輛102或其乘客與各種遠(yuǎn)程位置(包括呼叫中心108、web服務(wù)器109、和/或服務(wù)中心111)之間的通信和交互。遠(yuǎn)程信息處理單元114經(jīng)由車輛通信總線112連接各種VSM 110。遠(yuǎn)程信息處理單元114以任何合適的配置來實(shí)施,并且優(yōu)選地包括處理器116、經(jīng)由一個(gè)或多個(gè)天線120與車輛102無線通信的通信裝置118、存儲(chǔ)程序124和/或一個(gè)或多個(gè)數(shù)據(jù)庫(kù)126的存儲(chǔ)器122、以及用戶接口128。遠(yuǎn)程信息處理單元114還包括用于使上述裝置互相通信的任何合適的裝置。
      遠(yuǎn)程信息處理處理器遠(yuǎn)程信息處理處理器116以本領(lǐng)域技術(shù)人員知道的各種方式來實(shí)施,比如以控制器、微處理器、微控制器、主處理器、車輛通信處理器、專用集成電路(ASIC)、或者作為任何其它適當(dāng)?shù)奶幚砥黝愋偷男问?。作為選擇,處理器116可以與執(zhí)行通用計(jì)算機(jī)功能的中央處理單元(未示出)一起工作。處理器116可以與其它合適裝置(未示出)比如實(shí)時(shí)時(shí)鐘相關(guān)聯(lián),以提供精確的日期和時(shí)間信息。處理器116運(yùn)行存儲(chǔ)在存儲(chǔ)器122中的一個(gè)或多個(gè)計(jì)算機(jī)程序124以執(zhí)行各種功能,比如監(jiān)視和處理數(shù)據(jù)、以及使遠(yuǎn)程信息處理單元114與VSM 110、車輛乘客和遠(yuǎn)程位置通信。例如,處理器116運(yùn)行一個(gè)或多個(gè)語音識(shí)別程序,并且處理語音識(shí)別數(shù)據(jù)以執(zhí)行ASR。此外,處理器116控制、生成和接受經(jīng)由通信系統(tǒng)104、106在遠(yuǎn)程信息處理單元114與呼叫中心108之間以及在遠(yuǎn)程信息處理單元114與車輛通信總線112之間傳輸?shù)男盘?hào),所述車輛通信總線112被連接到各種機(jī)械和/或電子VSM110。在一種模式中,這些信號(hào)用來激活VSM 110的編程和操作模式。
      遠(yuǎn)程信息處理存儲(chǔ)器遠(yuǎn)程信息處理存儲(chǔ)器122是任何電子存儲(chǔ)裝置,用于提供由處理器116使用的數(shù)據(jù)和程序的計(jì)算機(jī)可讀存儲(chǔ)。存儲(chǔ)器122包括易失性、和/或非易失性存儲(chǔ)器,比如RAM、NVRAM、硬盤、閃存等,并且可以被實(shí)施為一個(gè)或多個(gè)獨(dú)立的物理裝置。程序124包括一個(gè)或多個(gè)計(jì)算機(jī)程序,其由處理器116運(yùn)行以執(zhí)行遠(yuǎn)程信息處理單元114的各種功能。例如,駐留在存儲(chǔ)器122中并由處理器116運(yùn)行的軟件或程序124用于監(jiān)視、識(shí)別和/或記錄車輛乘客經(jīng)由用戶接口128送入的說話或語音。數(shù)據(jù)庫(kù)126用來存儲(chǔ)話音消息數(shù)據(jù)、診斷故障碼數(shù)據(jù)、或其它診斷數(shù)據(jù)。例如,數(shù)據(jù)庫(kù)126包括語音識(shí)別數(shù)據(jù)庫(kù),比如聲學(xué)模型、詞匯、語法等等。該數(shù)據(jù)庫(kù)126可以被實(shí)施為能夠?qū)Υ鎯?chǔ)在數(shù)據(jù)庫(kù)126中的數(shù)據(jù)執(zhí)行查找的數(shù)據(jù)庫(kù)表,并且這可以使用已知的標(biāo)引技術(shù)和/或數(shù)據(jù)庫(kù)查詢來完成,或者通過經(jīng)由這種表的直接串行搜索來完成。這些和其它的數(shù)據(jù)庫(kù)存儲(chǔ)和查找技術(shù)是本領(lǐng)域技術(shù)人員公知的。
      遠(yuǎn)程信息處理通信裝置遠(yuǎn)程信息處理通信裝置118經(jīng)由蜂窩衛(wèi)星或其它無線路徑提供無線通信,并且促進(jìn)話音和數(shù)據(jù)通信。例如,無線通信裝置118和相關(guān)的天線120向/從無線通信系統(tǒng)104發(fā)射/接收語音和數(shù)據(jù),以使遠(yuǎn)程信息處理單元114經(jīng)由第二通信系統(tǒng)106與呼叫中心108通信。因此,無線通信裝置118優(yōu)選裝備有蜂窩通信軟件和硬件比如無線調(diào)制解調(diào)器或嵌入式蜂窩電話,其可以是模擬、數(shù)字、雙模、雙頻帶、多模和/或多頻帶的,并且可以包括獨(dú)立的處理器和存儲(chǔ)器。此外,無線通信裝置118優(yōu)選使用蜂窩技術(shù)比如CDMA或GSM,但是還可以利用專用或其它無線技術(shù)來與無線通信系統(tǒng)104通信。無線通信裝置118可以包括附加或集成的功能,例如衛(wèi)星通信軟件和包括全球定位系統(tǒng)(GPS)接收機(jī)的硬件。這種GPS接收機(jī)從無線通信系統(tǒng)104接收位置和時(shí)間數(shù)據(jù),并且把相應(yīng)經(jīng)度和緯度信息傳送給遠(yuǎn)程信息處理單元114,以使遠(yuǎn)程信息處理單元114能夠處理、存儲(chǔ)和發(fā)送位置信息,以便執(zhí)行諸如導(dǎo)航、駕駛方向和緊急業(yè)務(wù)之類的服務(wù)。
      遠(yuǎn)程信息處理用戶接口遠(yuǎn)程信息處理用戶接口128包括一個(gè)或多個(gè)輸入和輸出模塊和/或裝置,以從車輛乘客接收輸入和向車輛乘客發(fā)射輸出。如在此所用,術(shù)語接口泛指任何合適形式的電子裝置或適配器、或者甚至軟件模塊或適配器,其使用戶或一臺(tái)設(shè)備能夠與另一臺(tái)設(shè)備通信或者控制該設(shè)備。在此所述的接口可以是單個(gè)接口,或者可以被實(shí)施為獨(dú)立接口或其任何組合。
      輸入裝置包括以下裝置中的一個(gè)或多個(gè)一個(gè)或多個(gè)觸覺裝置130,比如一個(gè)或多個(gè)按鈕開關(guān)、小鍵盤、或鍵盤;一個(gè)或多個(gè)話筒132;或者任何其它類型的輸入裝置。觸覺輸入裝置130啟用遠(yuǎn)程信息處理單元114的一個(gè)或多個(gè)功能的用戶激活,并且包括按鈕開關(guān)、小鍵盤、鍵盤、或者位于車輛內(nèi)車輛乘客夠得著的其它合適的輸入裝置。例如,觸覺輸入裝置130可以用來啟動(dòng)與遠(yuǎn)程位置(比如呼叫中心108或蜂窩電話)的遠(yuǎn)程通信和/或啟動(dòng)車輛更新、診斷等。話筒132允許車輛乘客把話音命令或其它口頭輸入提供給遠(yuǎn)程信息處理單元114,以及經(jīng)由通信裝置122與各種遠(yuǎn)程位置話音通信。來自車輛乘客的話音命令是使用合適的模數(shù)接口或數(shù)字信號(hào)處理器(比如在話筒132與處理器116之間的聲卡(未示出))以及存儲(chǔ)在存儲(chǔ)器122內(nèi)的話音識(shí)別程序和數(shù)據(jù)來解釋。
      輸出裝置包括一個(gè)或多個(gè)揚(yáng)聲器134、可視顯示裝置例如液晶或等離子屏幕(未示出)、或者任何其它類型的輸出裝置。揚(yáng)聲器134使遠(yuǎn)程信息處理單元114能夠通過可聽語音、信號(hào)或音頻文件與車輛乘客通信,并且可以是專供遠(yuǎn)程信息處理單元114使用的獨(dú)立揚(yáng)聲器,或者它們可以是車輛音頻系統(tǒng)的一部分。合適的接口裝置比如聲卡(未示出)可以被放入揚(yáng)聲器134與遠(yuǎn)程信息處理處理器116之間。
      盡管在圖1中被描繪為獨(dú)立的各個(gè)模塊,但是本領(lǐng)域技術(shù)人員將會(huì)認(rèn)識(shí)到,遠(yuǎn)程信息處理單元114的許多部件可以被集成在一起,或者與其它車輛系統(tǒng)集成和/或共享。例如,存儲(chǔ)器122可以被結(jié)合到處理器116中或者位于遠(yuǎn)程信息處理單元114之外,并且與一個(gè)或多個(gè)其它車輛系統(tǒng)比如車輛中央處理單元共享。盡管VSM 110被示出為與遠(yuǎn)程信息處理單元114分離,但是把這些VSM 110的任何組合集成在遠(yuǎn)程信息處理單元114內(nèi)是可能的。此外,遠(yuǎn)程信息處理單元114可以包括這里未示出的附加部件,或者可以省略這里示出的一些部件。
      通信系統(tǒng)無線通信系統(tǒng)104包括模擬或數(shù)字蜂窩網(wǎng)絡(luò)136、無線計(jì)算機(jī)網(wǎng)絡(luò)比如廣域網(wǎng)(未示出)、或者用來在車輛102與各種遠(yuǎn)程位置比如呼叫中心108和/或服務(wù)中心111之間發(fā)射話音和數(shù)據(jù)信號(hào)的任何其它合適的無線網(wǎng)絡(luò)。在一個(gè)實(shí)施例中,蜂窩網(wǎng)絡(luò)136被實(shí)施為CDMA、GSM或在車輛102與第二通信系統(tǒng)106之間交換話音和數(shù)據(jù)的其它蜂窩通信網(wǎng)絡(luò)。此外或作為選擇,通過利用一個(gè)或多個(gè)衛(wèi)星138的衛(wèi)星傳輸可以執(zhí)行無線通信,以便經(jīng)由中央的基于地面的衛(wèi)星收發(fā)信機(jī)140把車輛102連接到第二通信系統(tǒng)106。
      第二通信系統(tǒng)106可以是另一個(gè)無線通信系統(tǒng),或者可以是基于陸地的有線系統(tǒng),例如公共交換電話網(wǎng)(PTSN)、因特網(wǎng)協(xié)議(IP)網(wǎng)絡(luò)、光網(wǎng)絡(luò)、光纖網(wǎng)絡(luò)、或其它電纜網(wǎng)絡(luò),和/或上述實(shí)例的任何組合,其中的任何一個(gè)可以用于話音和/或數(shù)據(jù)通信。本領(lǐng)域技術(shù)人員將會(huì)認(rèn)識(shí)到,通信系統(tǒng)104、106可以被分別實(shí)施,或者可以被組合為整體系統(tǒng)。
      呼叫中心呼叫中心108包括一個(gè)或多個(gè)位置,并且可以自動(dòng)操作和/或由顧問142充當(dāng)職員,以處理來自車輛乘客的呼叫和/或監(jiān)視各種車輛狀況比如空氣袋展開。呼叫中心108包括一個(gè)或多個(gè)話音和/或數(shù)據(jù)接口144例如調(diào)制解調(diào)器、交換機(jī)和/或路由器,以通過通信系統(tǒng)104、106在車輛遠(yuǎn)程信息處理單元114與呼叫中心108之間發(fā)射和接收話音和/或數(shù)據(jù)信號(hào)。呼叫中心108還包括一個(gè)或多個(gè)通信服務(wù)管理器146、處理數(shù)據(jù)的一個(gè)或多個(gè)服務(wù)器148、存儲(chǔ)用戶數(shù)據(jù)和任何其它合適數(shù)據(jù)的的一個(gè)或多個(gè)合適數(shù)據(jù)庫(kù)150、以及一個(gè)或多個(gè)網(wǎng)絡(luò)152比如把呼叫中心部件連同由一個(gè)或多個(gè)顧問142使用的任何計(jì)算機(jī)連接在一起的LAN。例如,服務(wù)器148和數(shù)據(jù)庫(kù)150運(yùn)行并存儲(chǔ)一個(gè)或多個(gè)語音識(shí)別程序和語音識(shí)別數(shù)據(jù),以單獨(dú)或與車輛102的遠(yuǎn)程信息處理單元114一起執(zhí)行ASR。合適的呼叫中心設(shè)施是已知的,并且當(dāng)前在使用中通過人類顧問與車輛內(nèi)安全和防衛(wèi)系統(tǒng)相結(jié)合來提供遠(yuǎn)程援助。除了使用人類顧問之外,顧問142還可以被實(shí)施為自動(dòng)機(jī)或可操作地設(shè)置以響應(yīng)用戶請(qǐng)求的運(yùn)行在計(jì)算機(jī)上的程序。
      web服務(wù)器web服務(wù)器109與系統(tǒng)100的集成使車輛乘客能夠利用自動(dòng)語音識(shí)別技術(shù)和文本到話音技術(shù)(例如VoiceXML等等)都從車輛經(jīng)由因特網(wǎng)訪問網(wǎng)站和其它內(nèi)容。例如,車輛乘客比如通過發(fā)聲象“天氣”的命令或者通過說出與特定網(wǎng)站地址關(guān)聯(lián)的名簽,可以使用遠(yuǎn)程信息處理單元114和嵌入式語音識(shí)別來尋找信息。語音識(shí)別技術(shù)識(shí)別命令或名簽,并且把請(qǐng)求翻譯成web語言例如XML(可擴(kuò)展標(biāo)記語言)和/或?qū)⒄?qǐng)求與所存儲(chǔ)的用戶簡(jiǎn)檔相關(guān)聯(lián),這使請(qǐng)求與特定網(wǎng)站相關(guān)聯(lián)。web服務(wù)器109解釋該請(qǐng)求,根據(jù)該請(qǐng)求從網(wǎng)站訪問和檢索合適信息,并且將該信息翻譯成VoiceXML,然后將相應(yīng)話音數(shù)據(jù)文件發(fā)射給車輛102,在那里通過遠(yuǎn)程信息處理單元114對(duì)其進(jìn)行處理,并經(jīng)由用戶接口128輸出給乘客。
      利用一個(gè)或多個(gè)位于獨(dú)立遠(yuǎn)程位置或者例如在呼叫中心108的計(jì)算機(jī)服務(wù)器來實(shí)施web服務(wù)器109。如果期望的話,web服務(wù)器109可以被集成到呼叫中心108中,而不是利用兩個(gè)獨(dú)立的系統(tǒng)。典型服務(wù)器109包括合適的通信接口154,比如調(diào)制解調(diào)器、交換機(jī)和/或路由器;計(jì)算機(jī)156;以及數(shù)據(jù)庫(kù)158,它們都通過合適的網(wǎng)絡(luò)比如以太網(wǎng)LAN來連接。數(shù)據(jù)庫(kù)158可以利用獨(dú)立的網(wǎng)絡(luò)附加存儲(chǔ)(NAS)裝置來實(shí)施,或者可以被存儲(chǔ)在計(jì)算機(jī)156本身上,或者按照期望可以位于別處。計(jì)算機(jī)156可以具有服務(wù)器應(yīng)用程序,該程序經(jīng)由通信系統(tǒng)104、106控制車輛102與數(shù)據(jù)庫(kù)158之間的數(shù)據(jù)交換。web服務(wù)器109還可以經(jīng)由第二通信系統(tǒng)106或者通過某一更直接路徑與呼叫中心108和/或服務(wù)中心111通信。合適的服務(wù)器硬件和軟件配置是本領(lǐng)域技術(shù)人員已知的。
      服務(wù)中心服務(wù)中心111可以是車輛服務(wù)中心,例如執(zhí)行車輛維護(hù)和修理的經(jīng)銷商。服務(wù)中心111通過通信系統(tǒng)104、106與車輛102連接,以使車輛乘客可以利用在服務(wù)中心111處的技術(shù)人員或服務(wù)調(diào)度器來啟動(dòng)電話呼叫。
      典型ASR系統(tǒng)通常,人類用戶為了一個(gè)或多個(gè)基本目的與自動(dòng)語音識(shí)別系統(tǒng)口頭交互訓(xùn)練系統(tǒng)理解用戶話音;存儲(chǔ)分立語音比如口頭名簽或口頭控制字象數(shù)字或關(guān)鍵字;或者使用識(shí)別系統(tǒng)使用戶的語音被識(shí)別,以及用于某一有用的最終目的,例如話音撥號(hào)、菜單導(dǎo)航、轉(zhuǎn)錄等等。通常,ASR從人類語音提取聲學(xué)數(shù)據(jù),將聲學(xué)數(shù)據(jù)與存儲(chǔ)的子字?jǐn)?shù)據(jù)進(jìn)行比較/對(duì)照,選擇可以與其它選擇的子字級(jí)聯(lián)的適當(dāng)?shù)淖幼?,并輸出相?yīng)的子字或字,以用于后處理比如口述或轉(zhuǎn)錄、地址簿撥號(hào)、存儲(chǔ)到存儲(chǔ)器、訓(xùn)練ASR模塊等等。
      ASR系統(tǒng)通常是本領(lǐng)域人員已知的,并且圖2說明了ASR系統(tǒng)210的典型的特定架構(gòu),以提供用于在下文所述方法的典型環(huán)境。系統(tǒng)210包括接收語音的裝置,比如遠(yuǎn)程信息處理話筒132;以及聲學(xué)接口133,比如把語音數(shù)字化成聲學(xué)數(shù)據(jù)的遠(yuǎn)程信息處理聲卡。該架構(gòu)210還包括存儲(chǔ)器,例如用于存儲(chǔ)聲學(xué)數(shù)據(jù)以及存儲(chǔ)語音識(shí)別軟件和數(shù)據(jù)庫(kù)的遠(yuǎn)程信息處理存儲(chǔ)器122;以及處理器,例如處理聲學(xué)數(shù)據(jù)的遠(yuǎn)程信息處理處理器116。處理器116使用語音識(shí)別數(shù)據(jù)庫(kù);前端處理器或預(yù)處理器軟件模塊212,用于把聲學(xué)數(shù)據(jù)流分析成參數(shù)表示(比如聲學(xué)特征);解碼器軟件模塊214,用于解碼聲學(xué)特征以產(chǎn)生對(duì)應(yīng)于輸入語音說話的數(shù)字子字或字輸出數(shù)據(jù);以及后處理器軟件模塊216,用于為任何合適的目的而使用來自解碼器模塊214的輸出數(shù)據(jù),包括向其它ASR模塊提供訓(xùn)練反饋。
      一個(gè)或多個(gè)模塊或模型可以被用作解碼器模塊214的輸入。首先,語法或詞典模型218提供了支配哪些字或子字可以在邏輯上跟隨其它字或子字以形成有效句子的規(guī)則。在廣義上,語法還定義了系統(tǒng)在任何給定ASR模式下在任何給定時(shí)間期望的詞匯的領(lǐng)域。例如,如果210處于用于訓(xùn)練命令的訓(xùn)練模式,則有效語法模型218可以包括系統(tǒng)210知道和使用的所有命令。在另一個(gè)實(shí)例中,如果系統(tǒng)210處于主菜單模式,則有效語法模型218可以包括系統(tǒng)210期望的所有主菜單命令,比如呼叫、撥號(hào)、退出、刪除、目錄等等。第二,聲學(xué)模型220幫助對(duì)應(yīng)于來自預(yù)處理器模塊212的輸入的最可能的子字或字的選擇。第三,字模型222和句子/語言模型224提供把選擇的子字或字放入字或句子語境的句法和/或語義。此外,句子/語言模型可以定義系統(tǒng)在任何給定ASR模式下在任何給定時(shí)間期望的句子的領(lǐng)域,和/或可以提供支配哪些句子可以在邏輯上跟隨其它句子以形成有效擴(kuò)展說話的規(guī)則。
      根據(jù)一個(gè)可選典型實(shí)施例,ASR系統(tǒng)210的一些或全部可以駐留在遠(yuǎn)離車輛102的位置比如呼叫中心108、web服務(wù)器109等等的計(jì)算設(shè)備上,并且使用該計(jì)算設(shè)備進(jìn)行處理。例如,語法模型、聲學(xué)模型等等可以被存儲(chǔ)在呼叫中心108的服務(wù)器148之一的存儲(chǔ)器和/或數(shù)據(jù)庫(kù)150中,并且被傳送到用于車輛內(nèi)語音處理的車輛遠(yuǎn)程信息處理單元114。同樣,語音識(shí)別軟件例如HMM解碼器可以使用呼叫中心108中的服務(wù)器148之一的處理器來處理。換言之,ASR系統(tǒng)210可以以任何期望的方式被分布在呼叫中心108和車輛102上。同樣,在此所述的方法可以完全由車輛102的遠(yuǎn)程信息處理單元114、由呼叫中心108中的計(jì)算設(shè)備以及由其任何組合來執(zhí)行。
      提取聲學(xué)數(shù)據(jù)首先,從人類語音中提取聲學(xué)數(shù)據(jù),其中用戶把話音送入話筒132,該話筒把說話轉(zhuǎn)換成電信號(hào)并把這種信號(hào)傳送給聲學(xué)接口133。話筒132中的聲音響應(yīng)元件按照空氣壓力的變化捕獲用戶的語音發(fā)聲,并且把發(fā)聲轉(zhuǎn)換成模擬電信號(hào)比如直流電流或電壓的相應(yīng)變化。聲學(xué)接口133接收模擬電信號(hào),該模擬電信號(hào)首先被采樣,以使模擬信號(hào)的值在離散的時(shí)刻被捕獲,然后進(jìn)行量化,以使模擬信號(hào)的幅度在每個(gè)采樣時(shí)刻被轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)流。換言之,聲學(xué)接口133把模擬信號(hào)轉(zhuǎn)換成數(shù)字電信號(hào)。數(shù)字?jǐn)?shù)據(jù)是二進(jìn)制比特,該二進(jìn)制比特被緩沖在遠(yuǎn)程信息處理存儲(chǔ)器122中,然后由遠(yuǎn)程信息處理處理器116處理,或者可以在它們被處理器116初始接收時(shí)被實(shí)時(shí)處理。
      預(yù)處理第二,預(yù)處理器模塊212把數(shù)字化語音數(shù)據(jù)的連續(xù)流變換成聲學(xué)參數(shù)的離散序列。更具體而言,處理器116運(yùn)行預(yù)處理器模塊212,以把數(shù)字語音數(shù)據(jù)分段成例如10-30ms持續(xù)時(shí)間的重疊語音幀。這些幀對(duì)應(yīng)于聲學(xué)子字,例如音節(jié)、半音節(jié)、音素、雙音素、音位等等。預(yù)處理器模塊212還執(zhí)行語音分析以從每幀內(nèi)提取聲學(xué)參數(shù),例如時(shí)變特征向量。用戶語音內(nèi)的發(fā)聲被表示為這些特征向量的序列。例如,如本領(lǐng)域技術(shù)人員所知,39個(gè)特征向量可以被提取,并且可以包括例如音調(diào)、能量圖、或頻譜屬性、和/或倒頻譜系數(shù),其可以通過執(zhí)行幀的傅里葉變換和利用正弦變換來解相關(guān)聲學(xué)頻譜而被得到。因此,語音的未知測(cè)試模式(pattern)是覆蓋特定持續(xù)時(shí)間的語音的有關(guān)聲學(xué)幀和相應(yīng)參數(shù)的級(jí)聯(lián)。
      解碼第三,處理器運(yùn)行解碼器模塊214以處理每個(gè)測(cè)試模式的輸入特征向量。解碼器模塊214還被稱作識(shí)別引擎或分類器,并且使用存儲(chǔ)的已知語音參考模式。類似于測(cè)試模式,參考模式被定義為有關(guān)聲學(xué)幀和相應(yīng)參數(shù)的級(jí)聯(lián)。解碼器模塊214將待識(shí)別的子字的聲學(xué)特征向量與存儲(chǔ)的子字模型或模式進(jìn)行比較和對(duì)照,評(píng)估其間的差異或相似性的幅度,并且最終使用判定邏輯把來自模型的最佳匹配子字選作識(shí)別的子字。最佳匹配子字通常是對(duì)應(yīng)于存儲(chǔ)的已知參考模式的子字,其具有與測(cè)試模式的最小相異或者是測(cè)試模式的最高概率。
      識(shí)別的子字可以被用來借助于字模型222構(gòu)造字以及借助于語言模型224構(gòu)造句子。解碼器模塊214可以利用本領(lǐng)域技術(shù)人員已知的各種技術(shù)來分析和識(shí)別子字,這些技術(shù)包括但不限于動(dòng)態(tài)時(shí)間歸整(time-warping)分類器,人工智能技術(shù),神經(jīng)網(wǎng)絡(luò),自由音位識(shí)別器,以及概率模式匹配器比如隱含馬爾可夫模型(HMM)。
      隱含馬爾可夫模型是本領(lǐng)域技術(shù)人員已知的,并且產(chǎn)生聲學(xué)輸入的多個(gè)語音識(shí)別假設(shè),在最終識(shí)別表示聲學(xué)輸入的最可能正確的解碼的識(shí)別輸出中,考慮該假設(shè)。更具體而言,HMM是一個(gè)統(tǒng)計(jì)模型,該統(tǒng)計(jì)模型產(chǎn)生根據(jù)在給定一個(gè)或另一個(gè)子字的條件下所觀察的聲學(xué)數(shù)據(jù)序列的HMM計(jì)算的置信或概率(例如通過應(yīng)用貝葉斯定理)來排列的子字假設(shè)的“N最佳”列表。貝葉斯HMM過程對(duì)于聲學(xué)特征向量的給定觀察序列識(shí)別最可能的發(fā)聲或子字序列,并且其置信值可以取決于各種因素,包括與輸入聲學(xué)數(shù)據(jù)關(guān)聯(lián)的聲學(xué)信噪比。HMM還可以包括稱作對(duì)角高斯的混合(mixture)的統(tǒng)計(jì)分布,它產(chǎn)生每個(gè)子字的每個(gè)被觀察特征向量的似然得分(score),該得分可以用來重新排序假設(shè)的N最佳列表。為了識(shí)別字,用于子字序列的各個(gè)HMM可以被級(jí)聯(lián)以建立字HMM。
      區(qū)別語音的方法在此提供了將詞表外語音與詞表內(nèi)語音區(qū)別開的方法,并且可以使用在上述的遠(yuǎn)程信息處理系統(tǒng)100的操作環(huán)境內(nèi)的ASR系統(tǒng)210的架構(gòu)來執(zhí)行該方法。本領(lǐng)域技術(shù)人員還將認(rèn)識(shí)到,可以使用在其它操作環(huán)境內(nèi)的其它ASR系統(tǒng)來執(zhí)行所述方法。
      通常,用戶可能期望說命令,以使ASR或其主裝置采取某一動(dòng)作,比如進(jìn)行電話呼叫、瀏覽因特網(wǎng)、或者聽到名稱的列表。例如,用戶可以說“目錄”,以便聽到在用戶的地址列表中所有被存儲(chǔ)的地址的列表。在ASR系統(tǒng)210的分立語音存儲(chǔ)模式中,用戶通過發(fā)聲命令到話筒132中來把口頭命令輸入到系統(tǒng)210中。在系統(tǒng)210中,命令字首先被預(yù)處理,然后被解碼,隨后與詞表內(nèi)命令的列表進(jìn)行比較。
      命令字可以被預(yù)處理,并且可以在字級(jí)或者子字級(jí)上被解碼。對(duì)于字級(jí)識(shí)別,預(yù)處理器模塊212把命令字發(fā)聲劃分成特征向量的組成系列。然后語音識(shí)別解碼器214接收該特征向量,并使用合適的聲學(xué)模型和算法處理該特征向量,以生成字模板的N最佳列表。作為選擇,對(duì)于子字識(shí)別,預(yù)處理模塊212把命令字發(fā)聲劃分成它的聲學(xué)組成子字,然后將其再劃分成特征向量的組成系列。語音識(shí)別解碼器214然后接收該特征向量,并使用合適的聲學(xué)模型和算法處理該特征向量,以生成子字模板的N最佳列表。此后,最佳模板被彼此級(jí)聯(lián)并且用來生成被識(shí)別的字。
      如在此所用,術(shù)語模板與模型、波形、參考模式、樣板、假設(shè)或其它類型的參考是可互換的。模板可以包括表示字或子字的一系列特征向量,并且可以基于特定的揚(yáng)聲器、說話風(fēng)格以及可聽環(huán)境條件。本領(lǐng)域技術(shù)人員將會(huì)認(rèn)識(shí)到,這些模板可以通過ASR系統(tǒng)的合適的模板訓(xùn)練來生成,并被存儲(chǔ)在存儲(chǔ)器中。本領(lǐng)域技術(shù)人員還將認(rèn)識(shí)到,存儲(chǔ)的模板可以被操作,其中模板的參數(shù)值基于語音輸入信號(hào)在ASR系統(tǒng)的模板訓(xùn)練與實(shí)際使用之間的差異來適應(yīng)。例如,基于來自新的ASR用戶或新的聲學(xué)條件的有限量的訓(xùn)練數(shù)據(jù),為一個(gè)ASR用戶或某些聲學(xué)條件所訓(xùn)練的一組模板可以被適應(yīng),并且作為用于新的ASR用戶或者新的聲學(xué)條件的另一組模板而被保存。換言之,模板不一定是固定的,而是可以在語音識(shí)別期間被處理。
      通過使用多遍識(shí)別技術(shù)把詞表內(nèi)語音與詞表外語音區(qū)別開可以改進(jìn)字識(shí)別。通常,執(zhí)行第一遍語音識(shí)別,其中使用解碼器根據(jù)第一組詞匯來處理語音。該詞匯可以包括在某一語法之內(nèi)可接受或期望的字。如果語音解碼中的置信度不夠高,則執(zhí)行第二遍語音識(shí)別,其中使用解碼器根據(jù)包括不可接受或未期望的字的第二組詞匯來處理語音。如果來自第二遍的語音的解碼沒有一個(gè)在來自第一遍的解碼的列表中,則把該語音確定為在詞表外。因此,通過在詞表外拒絕中的這種改進(jìn),可以增加語音識(shí)別性能,因?yàn)椴恍枰诿總€(gè)時(shí)機(jī)用可接受命令的列表來提示用戶,并且不需要重復(fù)要求用戶正確的命令。圖3說明了把詞表內(nèi)語音與詞表外語音區(qū)別開的典型方法300,正如以下所詳細(xì)討論。
      在步驟310,車輛用戶開始與遠(yuǎn)程信息處理單元114的用戶接口的交互,優(yōu)選是通過按下用戶接口按鈕130來開始會(huì)話,其中用戶輸入話音命令,該話音命令由遠(yuǎn)程信息處理單元114在語音識(shí)別模式下操作時(shí)進(jìn)行解釋。使用揚(yáng)聲器134,遠(yuǎn)程信息處理單元114通過播放聲音或者提供由用戶或乘客對(duì)命令的口頭請(qǐng)求來確認(rèn)按鈕激活。遠(yuǎn)程信息處理單元114優(yōu)選接收話音輸入或者進(jìn)一步的按鈕輸入,以向遠(yuǎn)程信息處理單元114請(qǐng)求某個(gè)期望的功能。例如,遠(yuǎn)程信息處理單元114可以經(jīng)由用戶接口話筒132接收來自用戶的可聽命令比如來自乘客的“日常電話(Phone Home)”。ASR使能的遠(yuǎn)程信息處理單元114從用戶接收命令發(fā)聲,比如通過用戶接口話筒132。
      在步驟315,執(zhí)行第一遍的語音識(shí)別。這里,遠(yuǎn)程信息處理單元114使用任何合適的解碼器模塊處理命令發(fā)聲,以識(shí)別定義口頭命令的字或子字比如音位。如在此所用,術(shù)語命令包括單個(gè)命令和/或一個(gè)或多個(gè)命令模板。本領(lǐng)域技術(shù)人員會(huì)認(rèn)識(shí)到,命令模板是給定命令的替代解釋或表示。
      用戶的輸入語音或命令發(fā)聲使用詞表內(nèi)的語法來處理,該語法被存儲(chǔ)在存儲(chǔ)器中,并且與用戶的當(dāng)前對(duì)話相關(guān)聯(lián)。例如,如果用戶在與系統(tǒng)對(duì)話的主菜單中,則詞表內(nèi)語法將包括有限量的主菜單選項(xiàng)命令,比如呼叫、撥號(hào)、退出、刪除、目錄等等。
      使用詞表內(nèi)語法以及任何合適的解碼器算法和聲學(xué)模型,處理器從存儲(chǔ)器訪問解釋口頭命令的若干模板。例如,處理器可以生成N最佳詞匯結(jié)果的列表或模板,并將其與相應(yīng)參數(shù)值一起存儲(chǔ)到存儲(chǔ)器中。典型參數(shù)值可以包括在詞匯的N最佳列表中每個(gè)模板的置信度得分以及關(guān)聯(lián)分段的持續(xù)時(shí)間、似然得分、信噪比(SNR)值、和/或類似物。詞匯的N最佳列表可以按照參數(shù)值的遞減幅度來排序。例如,具有最高置信度得分的詞匯模板是第一最佳模板,等等。
      在步驟320,包括N最佳詞匯的列表以及關(guān)聯(lián)的參數(shù)值的識(shí)別結(jié)果被保存以用于進(jìn)一步處理。
      在步驟325,分析N最佳列表的第一最佳詞匯結(jié)果或模板,以確定該詞匯是否將被用作用戶的語音中包含的識(shí)別的語音或詞匯。更具體而言,與第一最佳模板關(guān)聯(lián)的一個(gè)或多個(gè)參數(shù)值與一組閾值進(jìn)行比較。任何合適的閾值被使用,并且不同的閾值可以用于在用戶與ASR系統(tǒng)之間的不同對(duì)話。以這種方式,識(shí)別引擎解碼器算法可以被“調(diào)諧”以用于期望的性能。例如,置信度得分閾值在某些對(duì)話(比如名簽識(shí)別對(duì)話)中可以被設(shè)置到25%,并且可以被設(shè)置為70%以用于某些其它對(duì)話,比如需要“是”或“否”回答的那些對(duì)話??梢赃M(jìn)行比較的其它典型參數(shù)值包括似然得分、SNR等等。
      如果在步驟325確定參數(shù)值大于閾值,則第一最佳模板將被用作在用戶的語音中所包含的詞匯,如在步驟330所示。此后,本方法300在步驟335終止,然后進(jìn)行任何其它合適的ASR處理或后處理。
      然而,如果在步驟325確定參數(shù)值不大于閾值,則方法300前進(jìn)到步驟340。例如,命令字“電話”不是詞表外字,因而將很可能不產(chǎn)生具有大于閾值的參數(shù)值的字模板。
      在步驟340,確定第二遍識(shí)別路徑是否被激活或啟用。例如,第二遍識(shí)別路徑可以被啟用或停用,這取決于在任何給定對(duì)話期間用戶說出詞表外發(fā)聲的似然性。在一個(gè)變型中,對(duì)于需要可容易識(shí)別的響應(yīng)比如“是”或“否”的例行對(duì)話可以停用第二遍。
      在步驟340的另一變型中,可以按照默認(rèn)啟用第二遍,監(jiān)視詞表外發(fā)聲的頻率,并且如果監(jiān)視的詞表外發(fā)聲的頻率降到任何合適的預(yù)定閾值之下,則自動(dòng)停用第二遍。作為一個(gè)特定實(shí)例,如果在任何給定對(duì)話中和/或?qū)τ谌魏谓o定用戶而言遇到詞表外發(fā)聲小于時(shí)間的10%,則可以停用第二遍。
      根據(jù)步驟340的附加變型,第二遍可以被停用,這取決于用戶特征,比如用戶是否為ASR系統(tǒng)的新手。在這種情況下,對(duì)于每個(gè)對(duì)話可以啟用第二遍,并且可以通過允許新手說些似乎對(duì)該用戶有意義的話來鼓勵(lì)新手學(xué)會(huì)使用該系統(tǒng)。隨著時(shí)間的過去,并且通過系統(tǒng)的偶然校正和指導(dǎo),從而系統(tǒng)的使用對(duì)用戶將變得直觀。
      在步驟340的再一個(gè)變型中,僅僅為某些預(yù)定語法類型,比如系統(tǒng)設(shè)計(jì)者根據(jù)經(jīng)驗(yàn)知道易于異常高出現(xiàn)詞表外語音的那些語法,可以啟用第二遍。例如,可以為需要非典型命令的較少見對(duì)話啟用第二遍。不過,可以為任何、所有的對(duì)話啟用第二遍,或者不為對(duì)話啟用第二遍。
      如果在步驟340確定第二遍被停用,則方法300前進(jìn)到步驟330,其中第一最佳模板被用作在用戶的語音中包含的詞匯。否則,如果第二遍被啟用,則方法300前進(jìn)到步驟345。
      在步驟345,執(zhí)行第二遍語音識(shí)別。這里,命令發(fā)聲再次由遠(yuǎn)程信息處理單元114利用任何合適的解碼器模塊來處理,以識(shí)別定義口頭命令的字或子字比如音位。此外,可以以字級(jí)或子字級(jí)來執(zhí)行識(shí)別。然而對(duì)于該遍,可以從存儲(chǔ)器檢索用戶的輸入語音或命令發(fā)聲并使用詞表外字模板進(jìn)行處理,該詞表外字模板可以被存儲(chǔ)在存儲(chǔ)器中并與用戶當(dāng)前對(duì)話關(guān)聯(lián)。
      第二遍的語法或詞匯優(yōu)選被預(yù)定義,并且可以以任何合適的方式來建立。在一種變型中,詞匯可以包括用戶可能說或者可能合理地期望用戶說的所有詞表外字。在另一變型中,來自其它語法和對(duì)話的期望的字的一些或全部可以被使用。在另一個(gè)變型中,該方法可以使用有限的大詞匯集,該詞匯集不包含詞表內(nèi)字或者不包含詞表內(nèi)字的三音素或五音素。無論如何,詞表內(nèi)字優(yōu)選被添加到編輯的詞表外字上,以完成第二遍語法或詞匯。換言之,第二遍語法優(yōu)選包括第一遍語法。ASR系統(tǒng)可以包括許多不同的第二遍詞匯列表,這些列表可以由語法修改并且可以自動(dòng)地或者通過請(qǐng)求更新。
      使用第二遍詞匯以及任何合適的解碼器算法和聲學(xué)模型,處理器識(shí)別解釋口頭命令的幾個(gè)模板。例如,處理器可以生成N最佳詞匯結(jié)果的列表或模板,并且將其與相應(yīng)參數(shù)值一起存儲(chǔ)到存儲(chǔ)器中??梢砸匀魏魏线m的方式來確定詞匯的N最佳列表的大小或者在其中模板的數(shù)量。例如,大小可以取決于任何給定ASR應(yīng)用的特定需求和當(dāng)前語法等等。典型參數(shù)值可以包括N最佳列表中的每個(gè)詞匯結(jié)果或模板的置信度得分以及關(guān)聯(lián)分段的持續(xù)時(shí)間、似然得分、SNR值、和/或類似物。詞匯的N最佳列表可以按照參數(shù)值的遞減幅度來排序。
      在步驟350,第二遍識(shí)別結(jié)果被保存,該結(jié)果包括N最佳詞匯模板和關(guān)聯(lián)的參數(shù)值。這些模板和參數(shù)值被保存,以根據(jù)來自第一遍的模板和參數(shù)值來進(jìn)行進(jìn)一步分析,如關(guān)于步驟355所討論的那樣。
      在步驟355,分析第一和第二遍的N最佳列表,以確定來自第一遍的模板之一是否將在步驟330被用作在用戶的語音中所包含的詞匯,或者用戶的語音是否將在步驟360被拒絕為在詞表外。在一個(gè)變型中,如果來自第二遍N最佳列表的任何詞匯結(jié)果或模板也出現(xiàn)在第一遍的N最佳列表中,則該詞匯結(jié)果或模板將被用作在用戶的語音中所包含的詞匯。在另一變型中,如果來自第一遍的頂部詞匯結(jié)果或模板之一在第二遍N最佳列表之內(nèi)的任何地方,則該頂部結(jié)果或模板可以被用作在用戶的語音中所包含的詞匯。更具體而言,如果來自第一遍的第一最佳模板在第二遍N最佳列表之內(nèi)的任何地方,則該頂部模板可以被用作在用戶的語音中所包含的詞匯。作為選擇,如果來自第一遍的頂部模板在來自第二遍的頂部模板之內(nèi)的任何地方,比如頂部五個(gè)模板,則第一遍頂部模板可以被用作在用戶的語音中所包含的詞匯。無論如何,第二遍可以用來加強(qiáng)在步驟325的第一遍識(shí)別產(chǎn)生最精確解碼的似然,即使該解碼導(dǎo)致模板具有小于閾值的值。
      然而,如果在步驟355確定在N最佳列表之間沒有任何重疊或公共性,則第一或第二遍模板都將不用作在用戶的語音中所包含的詞匯。代之以,用戶的發(fā)聲相對(duì)于當(dāng)前語法將被看作在詞表外。此后,在步驟360,上下文敏感幫助消息被可聽地播放給用戶。例如,系統(tǒng)可以把在存儲(chǔ)器中所保存的預(yù)先錄制的消息播放給用戶,比如“你可能在當(dāng)前對(duì)話中說了無效的命令,請(qǐng)?jiān)谝韵旅钪羞x擇...”。而且,系統(tǒng)可以向用戶提供任何其它合適的指導(dǎo)。所以,用戶將接收來自系統(tǒng)的有效的上下文敏感的指導(dǎo),這優(yōu)選地被限制到某些情況,比如當(dāng)用戶已經(jīng)講錯(cuò)時(shí)。
      根據(jù)方法300的另一變型,可以進(jìn)行任何合適數(shù)量的附加遍。換言之,在步驟355之后和在步驟360之前,可以執(zhí)行類似于第二遍的第三遍。
      根據(jù)方法300的再一變型,如果第二遍與第一遍之間的等待時(shí)間對(duì)于用戶是無法接受的負(fù)擔(dān),則可以停用多遍過程。在用戶與ASR系統(tǒng)之間存在進(jìn)行中的對(duì)話并且不期望系統(tǒng)響應(yīng)的延遲的情況下,這可能是有用的。因此,例如確定在步驟325與步驟345之間的等待時(shí)間是否超出定義的周期,如果是,則跳過步驟345-365,并且重新定義第一語法以便還包括第二語法。在該變型中,除了幾個(gè)例外,語音識(shí)別將基本上如相對(duì)于步驟310至335所述來執(zhí)行。首先在步驟315,第一遍詞匯將被擴(kuò)展或者被重新定義以包括第二遍詞匯。第二,在步驟325,如果參數(shù)值不大于設(shè)定閾值,則該方法跳過步驟340至355,并且直接前進(jìn)到步驟360。該方法變型可以通過用戶請(qǐng)求來人工展開,或者在任何期望的預(yù)定義情況下自動(dòng)展開。
      應(yīng)當(dāng)理解,上述描述不是本發(fā)明自身的描述,而是本發(fā)明的一個(gè)或多個(gè)優(yōu)選典型變型的描述。本發(fā)明不限于在此公開的特定變型,而是僅僅由以下的權(quán)利要求書來限定。此外,在上述描述中所包含的陳述涉及特定變型,并且不應(yīng)解釋為對(duì)本發(fā)明范圍或者在權(quán)利要求書中所用的術(shù)語的定義的限制,上面專門定義的術(shù)語或短語除外。對(duì)所公開變型的各種其它變型以及各種變化和修改對(duì)于本領(lǐng)域技術(shù)人員將變得顯而易見。所有這種其它的變型、變化以及修改打算在所附權(quán)利要求書的范圍內(nèi)。
      如在本說明書和權(quán)利要求書中所用,術(shù)語“例如”和“比如”以及動(dòng)詞“比較”、“具有”、“包括”和它們的其它動(dòng)詞形式,當(dāng)結(jié)合一個(gè)或多個(gè)部件或其它項(xiàng)目的列表被使用時(shí),每個(gè)應(yīng)被解釋為無限制的,這意味著該列表不被認(rèn)為排除其它附加的部件或項(xiàng)目。其它術(shù)語也應(yīng)使用其最寬合理的含義來解釋,除非它們被用在要求不同解釋的上下文中。
      權(quán)利要求
      1.一種語音識(shí)別方法,包括以下步驟(a)從用戶接收輸入語音;(b)使用第一語法處理輸入語音,以獲得詞匯的第一N最佳列表的參數(shù)值;(c)將第一N最佳列表的頂部結(jié)果的至少一個(gè)參數(shù)值與至少一個(gè)預(yù)定閾值進(jìn)行比較;以及(d)如果所比較的至少一個(gè)參數(shù)值低于所述至少一個(gè)預(yù)定閾值,則使用第二語法處理輸入語音,以獲得詞匯的第二N最佳列表的參數(shù)值。
      2.根據(jù)權(quán)利要求1所述的方法,其中所述至少一個(gè)參數(shù)值是置信度得分、分段持續(xù)時(shí)間、似然得分、或信噪比中的至少一個(gè)。
      3.根據(jù)權(quán)利要求1所述的方法,其中如果詞表外發(fā)聲的頻率降到預(yù)定閾值之下,則停用步驟(d)。
      4.根據(jù)權(quán)利要求3所述的方法,其中來自步驟(c)的頂部結(jié)果被確定為在用戶的語音中所包含的詞匯。
      5.根據(jù)權(quán)利要求1所述的方法,其中根據(jù)用戶的特征來啟用步驟(d)。
      6.根據(jù)權(quán)利要求1所述的方法,其中對(duì)于預(yù)定類型的語法來啟用步驟(d)。
      7.根據(jù)權(quán)利要求1所述的方法,還包括以下步驟(e)如果第一N最佳列表的結(jié)果中任何一個(gè)還出現(xiàn)在第二N最佳列表之內(nèi),則確定輸入語音在詞表內(nèi),但是如果第一N最佳列表的結(jié)果中任何一個(gè)不在第二N最佳列表之內(nèi),則確定輸入語音在詞表外。
      8.根據(jù)權(quán)利要求7所述的方法,還包括通過生成包括在第一語法內(nèi)的詞表內(nèi)的有限組詞匯來創(chuàng)建第二語法的步驟。
      9.根據(jù)權(quán)利要求7所述的方法,還包括通過組合由用來實(shí)施該方法的語音識(shí)別系統(tǒng)所使用的兩個(gè)或更多個(gè)其它語法來創(chuàng)建第二語法的步驟。
      10.根據(jù)權(quán)利要求7所述的方法,還包括通過生成不包括第一語法的詞表內(nèi)的有限組詞匯來創(chuàng)建第二語法的步驟。
      11.根據(jù)權(quán)利要求7所述的方法,還包括通過生成不包括詞表內(nèi)第一語法的字的三音素或五音素的有限組詞匯來創(chuàng)建第二語法的步驟。
      12.根據(jù)權(quán)利要求8所述的方法,其中步驟(e)包括如果第一N最佳列表的頂部結(jié)果之一也出現(xiàn)在第二N最佳列表之內(nèi),則確定輸入語音在詞表內(nèi);但是如果第一N最佳列表的頂部結(jié)果中沒有一個(gè)在第二N最佳列表之內(nèi),則確定輸入語音在詞表外。
      13.根據(jù)權(quán)利要求12所述的方法,其中步驟(e)包括如果第一N最佳列表的頂部結(jié)果也出現(xiàn)在第二N最佳列表之內(nèi),則確定輸入語音在詞表內(nèi);但是如果第一N最佳列表的頂部結(jié)果沒有在第二N最佳列表之內(nèi),則確定輸入語音在詞表外。
      14.根據(jù)權(quán)利要求12所述的方法,其中步驟(e)包括如果第一N最佳列表的頂部結(jié)果也出現(xiàn)在第二N最佳列表的頂部結(jié)果之內(nèi),則確定輸入語音在詞表內(nèi);但是如果第一N最佳列表的頂部結(jié)果沒有在第二N最佳列表的頂部結(jié)果內(nèi),則確定輸入語音在詞表外。
      15.根據(jù)權(quán)利要求7所述的方法,還包括以下步驟(f)如果輸入語音被確定為在詞表外,則向用戶提供可聽反饋。
      16.根據(jù)權(quán)利要求15所述的方法,其中步驟(f)包括指示用戶使用在第一語法內(nèi)的詞匯。
      17.根據(jù)權(quán)利要求16所述的方法,其中步驟(f)還包括提供在第一語法內(nèi)可接受詞匯的列表。
      18.根據(jù)權(quán)利要求1所述的方法,還包括確定在步驟(b)與(d)之間的等待時(shí)間是否超出預(yù)定義的周期,如果是,則跳過步驟(d),并且重新定義第一語法以便也包括第二語法。
      19.一種用于具有語音識(shí)別系統(tǒng)的遠(yuǎn)程信息處理系統(tǒng)的語音識(shí)別方法,所述方法包括以下步驟(a)從用戶接收將被處理成識(shí)別的語音的輸入語音;(b)使用第一語法處理輸入語音,以獲得解碼器所建議的可能詞匯的第一N最佳列表的參數(shù)值;(c)將第一N最佳列表的頂部結(jié)果的至少一個(gè)參數(shù)值與至少一個(gè)預(yù)定閾值進(jìn)行比較;(d)如果所比較的至少一個(gè)參數(shù)值低于所述至少一個(gè)預(yù)定閾值,則隨后使用第二語法處理輸入語音,以獲得解碼器所建議的可能詞匯的第二N最佳列表的參數(shù)值;以及(e)如果第一N最佳列表的結(jié)果中任何一個(gè)還出現(xiàn)在第二N最佳列表之內(nèi),則確定輸入語音在詞表內(nèi),但是如果第一N最佳列表的結(jié)果中沒有一個(gè)在第二N最佳列表之內(nèi),則確定輸入語音在詞表外。
      20.一種用于具有遠(yuǎn)程信息處理單元的車輛的語音識(shí)別方法,所述遠(yuǎn)程信息處理單元具有嵌入式語音識(shí)別系統(tǒng),所述方法包括以下步驟(a)從用戶接收將被處理成識(shí)別的語音的輸入語音;(b)使用第一語法處理輸入語音,以獲得解碼器所建議的可能詞匯的第一N最佳列表的參數(shù)值;(c)將第一N最佳列表的頂部結(jié)果的至少一個(gè)參數(shù)值與至少一個(gè)預(yù)定閾值進(jìn)行比較,其中所述至少一個(gè)參數(shù)值是置信度得分、分段持續(xù)時(shí)間、似然得分或信噪比中的至少一個(gè);(d)如果所比較的至少一個(gè)參數(shù)值低于所述至少一個(gè)預(yù)定閾值,則使用第二語法處理輸入語音,以獲得解碼器所建議的可能詞匯的第二N最佳列表的參數(shù)值;(e)如果第一N最佳列表的頂部結(jié)果還出現(xiàn)在第二N最佳列表之內(nèi),則確定輸入語音在詞表內(nèi),但是如果第一N最佳列表的頂部結(jié)果不在第二N最佳列表之內(nèi),則確定輸入語音在詞表外;以及(f)如果輸入語音被確定為在詞表外,則向用戶提供可聽反饋。
      全文摘要
      一種語音識(shí)別方法包括從用戶接收輸入語音;使用第一語法處理輸入語音,以獲得詞匯的第一N最佳列表的參數(shù)值;將第一N最佳列表的頂部結(jié)果的一個(gè)參數(shù)值與預(yù)定閾值進(jìn)行比較;以及如果所比較的參數(shù)值低于所述預(yù)定閾值,則使用第二語法來另外處理輸入語音,以獲得詞匯的第二N最佳列表的參數(shù)值。其它優(yōu)選步驟包括如果第一N最佳列表的結(jié)果中任何一個(gè)還出現(xiàn)在第二N最佳列表之內(nèi),則確定輸入語音在詞表內(nèi),但是如果第一N最佳列表的結(jié)果中沒有一個(gè)在第二N最佳列表之內(nèi),則確定輸入語音在詞表外;以及如果輸入語音被確定為在詞表外,則向用戶提供可聽反饋。
      文檔編號(hào)G10L15/22GK101071564SQ20071010290
      公開日2007年11月14日 申請(qǐng)日期2007年5月11日 優(yōu)先權(quán)日2006年5月11日
      發(fā)明者T·J·格羅斯特, R·陳加爾瓦拉彥 申請(qǐng)人:通用汽車公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1