国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音識別中的快速搜索的制作方法

      文檔序號:2835607閱讀:255來源:國知局
      專利名稱:語音識別中的快速搜索的制作方法
      背景技術
      計算機化連續(xù)語音識別的目的是確定最可能相當于語音信號的一系列被觀測片段的字碼序列。每個字碼由被生成的作為語音信號代表的狀態(tài)序列表示。因此識別包括搜索對應于不同字碼的不同序列中的狀態(tài)序列中的較可能的組合序列。語音識別的主要性能特性是該搜索結果的可靠性以及執(zhí)行搜索所需的計算量。這兩個特性以相反的方式依賴于包括在搜索中的序列(搜索空間)的數(shù)量較大數(shù)量的序列可給出更可靠的結果但是需要更多的計算量,反之亦然。識別技術致力于成為用可靠性的最小損失來限定搜索規(guī)模的有效的搜索技術。
      美國專利No.5995930公開了一種應用狀態(tài)級搜索的語音識別技術,其在可能的狀態(tài)序列中搜索較可能的狀態(tài)序列。該狀態(tài)級搜索與被觀測的語音信號具有最接近的聯(lián)系。該搜索包括在對應于被觀測語音信號的連續(xù)幀的可能的狀態(tài)序列中搜索。不同序列的似然度作為被觀測的語音信號的函數(shù)被計算出來。從中選擇較可能的序列。
      似然度的計算是基于模型的。這個模型通常具有描述字碼的不同序列的先驗似然度的語言成分,以及描述不同的狀態(tài)序列出現(xiàn),即給定字碼出現(xiàn)的先驗似然度的詞匯成分。最后,該模型確定該似然度,其給出一狀態(tài),在一時間間隔(幀)內的語音信號的屬性將具有確定的值。因此,語音信號由狀態(tài)序列和字碼序列表示,該狀態(tài)序列被分成連續(xù)字碼的(子)序列。計算這些序列的后驗似然度,用連續(xù)幀給出該被觀測語音信號的屬性。
      為了將計算量保持在合理的限度內,公開在美國專利No.5995930中的搜索不是窮舉的。只有侯選的狀態(tài)序列和期望成為較可能的字碼才被考慮。這是通過漸進的似然度受限搜索來實現(xiàn)的,在該搜索中,新的侯選序列通過用新狀態(tài)擴展在先序列來生成。只有較可能的在先序列被擴展在先序列的似然度用來限制搜索空間的大小。但是,限制搜索空間會影響可靠性,因為被刪除的較小可能的在先序列在被擴展時,通常只在對應于一個或更多字碼的一些狀態(tài)之后仍可能變成較可能的序列。
      美國專利No.5995930將該狀態(tài)級搜索分為其中分別實施似然度限制的不同的搜索,即,在一個搜索中擴展較可能序列而不管其他的搜索是否包含較可能的序列。為了理解是如何區(qū)分不同的搜索的,假設在一個字碼的最終狀態(tài)的終點已經(jīng)生成了一個狀態(tài)序列,以致于該狀態(tài)序列的最后的部分相當于字碼序列。該字碼序列的這些最后的N個字碼被用來確定隨后的狀態(tài)序列的搜索。(N是連續(xù)的字碼的數(shù)量,語言模型對這些數(shù)量的字碼確定似然度;N=1,2,...,但是典型地為3或更大的數(shù))。開始不同的搜索,每個搜索是對于N個字碼的不同的以前的“歷史記錄”的。因此,每個搜索包含以跟隨對應于N個字碼的相同的歷史記錄的序列開始的狀態(tài)序列。同一搜索中的不同序列可以具有不同的開始時間。因此,在每個搜索內可能在最近產生的這些N個字碼的終點對最可能時間點進行搜索。
      這樣,對將要被擴展的較可能序列的搜索會執(zhí)行多次,狀態(tài)序列的每次搜索對應于N個最近字碼的不同的歷史記錄。從搜索中刪除的序列單獨地被每個搜索所刪除如果狀態(tài)序列足夠可能跟隨N個字碼,則跟隨N個特定字碼的該狀態(tài)序列在跟隨N個字碼的搜索中不被刪除,即使根據(jù)N個字碼的最可能的序列,該狀態(tài)序列是較小可能的,也不被刪除。
      除了考慮到字碼識別之外,分成字碼級搜索和狀態(tài)級搜索有助于用最小增加的計算量來限定可靠性的損失,這是由于字碼級歷史記錄的應用使得在語音信號中序列選擇的控制比狀態(tài)級搜索需要更長的時間間隔。一些較小可能的狀態(tài)序列在搜索空間沒有額外增加時被保護以不被刪除,由于其字碼上下文關系的似然度,這些狀態(tài)序列在長時間內可能會變成較可能的序列。
      但是,由于必須對最近的字碼的不同組執(zhí)行不同的搜索,搜索空間仍會有相當大的增加。這意味著可靠性和計算量之間有一個折衷如果用更多的最近的字碼來區(qū)分不同的搜索,則可靠性增加,但是需要更多的搜索,因此需要更多的計算量。如果只用一個最近的字碼或幾個字碼來區(qū)分搜索,則可靠性減少,因為可能成為較可能狀態(tài)序列的狀態(tài)序列有被刪除的風險。
      另一種可靠性和計算量之間的折衷可以通過雙路方法來實現(xiàn)。所描述的方法被稱為單路方法是由于一旦語音信號處理到一定時間時,搜索的結果被直接應用。在雙路算法中,將搜索結果應用到第二路來發(fā)現(xiàn)在第一路中已發(fā)現(xiàn)的字碼的替換。在關于聲學語音和信號處理的1991年國際會議的論文集中發(fā)表了Schwartz和Austin的一篇論文(Toronto 1991),其中描述了各種有效并可靠地執(zhí)行字碼序列搜索的雙路技術。
      Schwartz和Austin描述了一種改進單路技術的解決方案。在這個解決方案中,在字碼級搜索中刪除的字碼與保留的字碼被互相關聯(lián)地存儲,以有助于字碼的刪除。此外,被刪除字碼的似然度在其被刪除點被存儲。一旦在第一路中已發(fā)現(xiàn)最可能的字碼序列,就執(zhí)行第二路,其計算通過用被刪除的字碼代替保留的字碼得到的字碼序列的似然度(將該被計算的似然度用于在第一路中那些被刪除的字碼)。該技術降低了丟失最可能的字碼序列的風險,但是該結果仍是不可靠的,因為該技術對于被刪除的字碼之后的字碼之間的最優(yōu)時間點不執(zhí)行狀態(tài)級搜索。
      Schwartz和Austin描述了該技術第一路的改進,其中他們搜索跟隨對應于在先字碼的最可能的狀態(tài)序列。執(zhí)行單獨的搜索,每個都是對不同的在先字碼來執(zhí)行,而不是只對最可能的在先字碼執(zhí)行的。即,代表較小可能的在先字碼的狀態(tài)序列之后的狀態(tài)的似然度的計算在這些在先字碼的最終狀態(tài)時沒有立即停止,但是只有當已發(fā)現(xiàn)最可能的下一個字碼時,才繼續(xù)每個較小可能的在先字碼的似然度計算。這樣由于延遲了被刪除的字碼序列所在的點,降低了初始時較小可能字碼序列在其變成更可能之前被刪除的風險,所以增加了搜索的可靠性。此外,其可以搜索在在先字碼之后開始字碼計算的最優(yōu)時間點。但是由于詞匯狀態(tài)必須搜索許多在先字碼中的每個字碼,所以可靠性的增加是以花費更大量的搜索為代價的。

      發(fā)明內容
      本發(fā)明的一個目的是在對應于被觀測語音信號的最可能的狀態(tài)序列的搜索中可實現(xiàn)可靠性和計算量之間的更好的折衷。
      在本發(fā)明的一個實施例中提供了一種語音識別方法,該方法包括在分別由連續(xù)的狀態(tài)序列組成的組合序列中搜索這些組合序列中的至少一個比組合序列中的其他序列更可能的序列以表示一個觀測語音信號,所述的搜索包括
      漸進的、似然度受限搜索,每個被限制在各搜索空間中的似然度包括一個該狀態(tài)序列的子集,這些組合序列將包含該狀態(tài)序列的子集;每個不同搜索的搜索空間包括將要構成類型組合序列的一部分的狀態(tài)序列,確定不同搜索空間的不同的類型基于相同的一些字碼或其一部分被區(qū)分出來,這些字碼由相當于搜索空間中的狀態(tài)序列的組合序列中的狀態(tài)序列表示,字碼或其一部分的數(shù)目的同一性被用于區(qū)分不同的類型,所述數(shù)目根據(jù)由相當于搜索空間中的序列的組合序列表示的一個或更多的最后的字碼的長度而變化,如果一個或更多的最后的字碼相對較短,則相當于相同的一個或更多的最后的字碼的組合序列被區(qū)分成不同的類型,但是如果一個或更多的最后的字碼相對較長,則不區(qū)分成不同的類型。
      在該實施例中,對由不同類型的在先序列分別處于其前的狀態(tài)序列執(zhí)行不同的狀態(tài)級搜索。優(yōu)選為,這些類型是基于不同的語音歷史記錄被區(qū)分,而不是基于不同的字碼歷史記錄被區(qū)分的。可靠性和計算量之間的平衡是通過靈活地采用被用于區(qū)分不同類型從而區(qū)分不同搜索的字碼信息的長度來實現(xiàn)的。該字碼數(shù)量或字碼片段的長度依賴于所應用的特定的字碼。如果幾個在先狀態(tài)序列相當于在相同的短字碼(或N個字碼)結束的字碼序列,則對這些在不太近的字碼上不同的序列中的不同的序列執(zhí)行單獨的狀態(tài)級搜索。另一方面,如果最近的字碼或N個字碼較長,可對所有的在那個字碼或N個字碼結束的候選字碼序列執(zhí)行一個狀態(tài)級搜索。
      這避免了執(zhí)行過多搜索的需要。如果在先字碼是長的,則幾個字碼或字碼的一部分足以形成具有良好可靠性的不同的搜索。如果在先字碼的不同的序列以一個短字碼結束,則在以較早字碼的較多部分為區(qū)別特征的不同的在先序列之后,使用單獨搜索。因此,在這種情況下例如由于在搜索中,最可能序列的開始時間點的選擇受到執(zhí)行相同的搜索之后的不同的在先序列的較早字碼的影響,所以避免了可靠性的降低。
      優(yōu)選為,執(zhí)行不同搜索之后的在先序列的類型選擇依賴于語音歷史記錄并獨立于用于選擇在語言類型上更可能的序列的字碼歷史記錄的長度。典型地,語言模型識別三個或更多字碼序列的似然度,而對于享有比字碼的數(shù)量跨距更小的音素數(shù)量的序列執(zhí)行相同的搜索。
      在一個實施例中,在在先序列中被識別的字碼的預定數(shù)量的音素被用于區(qū)分不同的搜索。不考慮包括這些音素作為其部分的實際的字碼,對于在相同的N個音素結束的字碼歷史記錄執(zhí)行聯(lián)合搜索,而對于N個最后的音素不同的字碼歷史記錄執(zhí)行單獨的搜索。這樣做的結果是搜索的劃分是根據(jù)語音級而不是根據(jù)字碼級來確定的,因此更可靠。這樣,對于在許多最近音素上,即字碼的片段上不同的最近的候選字碼序列可以形成單獨的狀態(tài)級搜索。
      在另一個實施例中,用于區(qū)分不同搜索的音素的數(shù)量適用于音素的性質中,例如使得用于區(qū)分不同搜索的音素包含至少一個音節(jié)結尾,或至少一個元音,或至少一個輔音。
      在根據(jù)本發(fā)明的方法的另一個實施例中,通過執(zhí)行應用代表類型復合序列的單個狀態(tài)序列的狀態(tài)級搜索的至少一部分,不必增加搜索空間就可增加可靠性。該類型的具有代表性的似然度信息被用于在搜索期間控制較小可能狀態(tài)序列的刪除。搜索(或部分搜索)之后,分別再生該類型的各個成員的似然度,用在進一步的搜索中。即,具有代表性的似然度的選擇不具有持久的效果在隨后的狀態(tài)級搜索中的刪除不需要受由該代表性確定的似然度的控制。因此,當具有兩路搜索時實現(xiàn)了可靠性的類似的增加,其中刪除的字碼被重新考慮,但是這已經(jīng)在第一路中實現(xiàn)了。由于不選擇單個的成員來排除其他的成員,該類型的各個成員的似然度在搜索的最后被再生并應用在進一步搜索中,所以可靠性有一個額外的增加。這樣降低了基于具有代表性的后來變成較小可能的字碼序列的錯誤的狀態(tài)級刪除被減少的風險。
      優(yōu)選為,在這個實施例中,在從具有代表性的似然度開始的搜索期間,對于最后狀態(tài)計算的似然度被用于再生不同成員的似然度。可以選擇地,可能對從初始狀態(tài)開始的每個單獨的成員重新計算這些似然度,但是這樣會包含更多的計算量。
      這個實施例優(yōu)選為與其中語音歷史記錄被用于選擇形成搜索的類型的實施例相結合。這樣,由于再生了各個類型的成員的似然度,所以基于語言信息不會明顯受到類型信息的影響,類型的語音選擇不會妨礙隨后的序列刪除。
      在另一個實施例中,通過處理單個的狀態(tài)序列來執(zhí)行在許多不同的在先狀態(tài)序列中的子字碼終點之后的一部分狀態(tài)級搜索,降低了搜索量。優(yōu)選為,通過在先序列的情況對應于最近的子字碼共有組來區(qū)分被執(zhí)行的單個搜索的序列類型。這個組可以延伸過字碼的邊界,使得可靠性和計算量之間的折衷不依賴于是否經(jīng)過字碼的邊界。
      附圖簡述應用以下的附圖,更詳細地描述本發(fā)明的這些以及其他的目的和優(yōu)勢。


      圖1表示一個語音識別系統(tǒng);圖2表示另一個語音識別系統(tǒng);圖3圖解的是狀態(tài)序列;圖4圖解的是另外的狀態(tài)序列;圖5圖解的是應用在子字碼級的技術。
      優(yōu)選實施例描述圖1是一個語音識別系統(tǒng)的例子。該系統(tǒng)包括連接語音采樣單元11、存儲器13、處理器14和顯示控制單元15的總線12。麥克風10連接到采樣單元11。監(jiān)視器16連接到顯示控制單元15。
      操作中,麥克風10接收語聲并將這些聲音轉換為電信號,該電信號被采樣單元11采樣。采樣單元11將該信號的采樣存儲到存儲器13。處理器14從存儲器13中讀取這些采樣并計算及輸出確定最可能地符合這些語聲的字碼(例如,代表這些字的特征的代碼)序列的數(shù)據(jù)。顯示控制單元15控制監(jiān)視器16以顯示代表該字碼的圖形特征。
      當然,直接從麥克風10輸入并輸出到監(jiān)視器16只是語音識別應用中的一個例子。我們可以用預先錄下的語音代替從麥克風接收的語音,而且被識別的字碼可應用于任何目的。圖1中的系統(tǒng)執(zhí)行的各種功能可以用任何方法分配到不同的硬件單元。
      圖2表示在串聯(lián)的麥克風20、采樣單元21、第一存儲器22、參數(shù)提取單元23、第二存儲器24、識別單元25、第三存儲器26以及結果處理器27上的功能分配。圖2可以被視為執(zhí)行不同功能的不同硬件單元的表示,但是該圖作為軟件單元的表示也是有用的,這些軟件單元可以用各種適當?shù)挠布考韴?zhí)行,例如圖1中的部件。
      在操作中,采樣單元21將表示語聲信號的采樣存儲到第一存儲器22中。參數(shù)提取單元23將語音分割成時間間隔并提取參數(shù)集,每個參數(shù)集針對連續(xù)的時間間隔。參數(shù)描述采樣,例如根據(jù)在相應的時間間隔中,由采樣表示的信號譜峰的強度和相對頻率。參數(shù)提取單元23將提取的參數(shù)存儲在第二存儲器24中。識別單元25從第二存儲器24中讀取該參數(shù)并搜索最可能的字碼序列,該字碼序列是對應于一系列時間間隔的參數(shù)的字碼序列。識別單元25將確定這個最可能序列的數(shù)據(jù)輸出到第三存儲器26。結果處理器27讀取這個數(shù)據(jù)以進一步應用,例如在字處理中或用于計算機的控制功能。
      本發(fā)明主要涉及識別單元25的操作,或由處理器14執(zhí)行的識別功能或其等效功能。識別單元25根據(jù)語音信號的連續(xù)片段的參數(shù)來計算字碼序列。這個計算是基于語音信號模型的。
      在語音識別技術中,這種模型的例子是眾所周知的。作為參考,在此對這種模型的例子進行簡要描述,但是本領域的技術人員可以根據(jù)現(xiàn)有技術來定義該模型。模型的例子是根據(jù)狀態(tài)的類型定義的。特定類型的狀態(tài)對應于片段中參數(shù)的可能值的某種可能性。這個可能性依賴于狀態(tài)的類型和參數(shù)值并由模型來確定,例如,學習階段后可能性可從例子信號中估計出來。本發(fā)明不涉及如何獲得這些可能性。
      狀態(tài)和字碼之間的關系應用狀態(tài)級模型(詞匯模型)和字碼級模型(語言模型)來建摸。該語言模型確定將要表達的某些字碼序列的先驗似然度。例如,根據(jù)某些通常應用的詞匯出現(xiàn)的可能性或特定詞匯后跟隨另一個特定詞匯的可能性或N個連續(xù)的詞匯集合一起出現(xiàn)的可能性等來確定。例如,應用這些在學習階段得到的估計,這些可能性參與在模型中。本發(fā)明不涉及如何獲得這些可能性。
      詞匯模型為每個字碼確定在狀態(tài)序列中的對應于該字碼的狀態(tài)連續(xù)類型,并且利用先驗似然度為該字碼產生這種序列。典型地,如果在語音信號中出現(xiàn)某個字碼,則該模型為每個狀態(tài)確定跟隨其后的下一狀態(tài),并利用可能性產生不同的下一狀態(tài)。可以為不同的字碼將該模型提供為一組單獨的子模型,或者為一堆字碼將該模型提供為一個單樹狀模型。典型地,馬爾可夫模型中利用了例如在學習階段確定的可能性。本發(fā)明不涉及如何獲得這些可能性。
      在識別期間,識別單元25從字碼序列出現(xiàn)的先驗似然度、對應于狀態(tài)序列的字碼序列的先驗似然度和對應于已經(jīng)為不同片段確定的參數(shù)的狀態(tài)的似然度中計算狀態(tài)和字碼的不同序列的后驗似然性。這里應用的“似然度”描述可能性的任何量度表示。例如,將表示可能性的數(shù)乘以一個已知的系數(shù)稱為似然度,類似地,似然度的對數(shù)或任何其他函數(shù)之一也稱為似然度。實際應用的似然度視情況而定,并且對本發(fā)明沒有影響。
      識別單元25不計算字碼所有可能的序列以及狀態(tài)序列的似然度,而只有識別單元25認為較可能的那些序列是最可能的序列。
      圖3圖解的是用于似然度計算的字碼和狀態(tài)序列。該圖用節(jié)點30a-c、32a-f和34a-g表示語音的不同片段的狀態(tài)(為了清楚起見,只將一些節(jié)點加上標記)。節(jié)點對應于在用于識別的詞匯模型中被確定的狀態(tài)。來自節(jié)點30a的不同的分支31a-b指示到隨后的節(jié)點30b-c的可能的躍遷。這些躍遷相當于詞匯模型中被確定的在狀態(tài)序列中的狀態(tài)的連續(xù)。因此,時間的方向是從左到右起始時間越遲的片段節(jié)點被顯示越靠近右側。
      當識別單元25搜索狀態(tài)的序列來代表字碼時,其確定它要考慮哪些狀態(tài)。它為這些狀態(tài)預留出存儲空間。在該存儲空間內它存儲關于狀態(tài)類型(例如,參考詞匯模型)、它的似然度以及它是如何被產生的信息。圖3中所示的節(jié)點表示識別單元已經(jīng)預留存儲器并已存儲相應狀態(tài)的信息。因此,字碼的節(jié)點以及狀態(tài)將被交替地使用。從已經(jīng)為之存儲了信息的狀態(tài)30a開始,識別單元25決定是否為以下的模型容許的狀態(tài)預留存儲空間(其被稱為“生成節(jié)點”)。識別單元25已經(jīng)為之預留空間的狀態(tài)30b-c被表示為從前一節(jié)點30a開始的被分支31a-b連接的節(jié)點。識別單元25可以在存儲器中存儲關于前一節(jié)點30a的信息,該存儲器是為表示節(jié)點30a、b的狀態(tài)預留的,但是相關的信息(例如被識別的字碼的開始時間的確定以及開始時間以前的字碼歷史記錄)可以從前一節(jié)點30a拷貝來替代。
      從節(jié)點30b-c到隨后的節(jié)點可能出現(xiàn)躍遷。因此,不同的狀態(tài)序列用序列中表示連續(xù)狀態(tài)的節(jié)點之間的躍遷來表示。這些序列到達字碼的終點狀態(tài)(由最終的節(jié)點32a-f表示),為此,詞匯模型指示特殊的字碼終點的狀態(tài)序列。
      每個最終節(jié)點32a-f表示為對于下一個字碼的狀態(tài)序列的起始節(jié)點34a-f具有躍遷33a-f。不同的起始節(jié)點34a-f用不同的稱為“搜索區(qū)”的帶區(qū)35a-g表示,隨后將要對此進行更詳細的描述。在每個搜索區(qū)35a-g中出現(xiàn)狀態(tài)序列,其終點在最終節(jié)點32a-f。從這些最終節(jié)點32a-f到隨后的搜索34a-f等內的起始節(jié)點出現(xiàn)其他的躍遷。
      從搜索區(qū)35a-g內的最終節(jié)點32a-f開始,可以在搜索區(qū)35a-g內回溯到(子)序列開始處的起始節(jié)點34a-f,該序列在最終節(jié)點32a-f結束并且從那里回溯到以前的最終節(jié)點32a-f。因此,可以為任何最終節(jié)點32a-f確定最終節(jié)點32a-f序列。在這種序列中的每個最終節(jié)點32a-f相當于暫時地被識別的字碼。因此每個最終節(jié)點32a-f也相當于暫時地被識別字碼的序列。應用語言模型從這些字碼序列中選擇較可能的字碼序列并刪除較小可能的序列。例如在一種現(xiàn)有技術中,這是通過每次從一些序列中刪除最可能序列(或一些較可能的序列)之外的所有序列來實現(xiàn)的,除了包含相同字碼的序列之外,這些序列以不同的非最近的字碼作為開始。
      在一個例子中,識別單元25生成作為時間函數(shù)的節(jié)點,在圖中是從左到右,并且對于每個新生成的節(jié)點,識別單元選擇一個以前的節(jié)點,為其生成一個到新生成的節(jié)點的躍遷。選擇以前的節(jié)點使得當被新生成的節(jié)點跟隨時,使該序列具有最高的似然度。例如,如果我們根據(jù)以下公式L(S,t)=P(S,S′)L(S,t-1)計算時間t處狀態(tài)S的序列的似然度,(其中S′是在先狀態(tài),P(S,S′)是由類型S的狀態(tài)跟隨的狀態(tài)類型S′的狀態(tài)的可能性)然后,為狀態(tài)S從可用狀態(tài)中選擇在先狀態(tài)S′,該在先狀態(tài)導致最高的L(S,t)并且生成S和這個S′之間的狀態(tài)躍遷。因此,不選擇代表較小可能的狀態(tài)序列的躍遷。即,在搜索最可能的序列時不考慮(或“刪除”)這些躍遷。在不偏離本發(fā)明的情況下,可以應用其他的刪除狀態(tài)序列的方法,例如計算相當于一個時間點的狀態(tài)序列的似然度并且將這些狀態(tài)只加到其似然度距最可能序列的似然度的距離在門限距離范圍內的那些序列(在這種情況下,相同的狀態(tài)可能出現(xiàn)在相同的時間點不只一次)。
      一旦識別單元25生成搜索區(qū)35a-g內的最終狀態(tài)32a-f,識別單元25就確定相當于該最終狀態(tài)32a-f的字碼。這樣,識別過程已經(jīng)暫時地識別了結束于為其生成最終狀態(tài)32a-f的時間點的字碼。由于在相同的搜索區(qū)35a-g內識別單元25可以在許多時間點生成許多最終狀態(tài),所以在一個搜索區(qū)35a-g內,通常不會識別單個字碼或甚至相同字碼的單個結束時間點。
      現(xiàn)在詳細討論搜索區(qū)35a-g的意義。檢測最終狀態(tài)32a-f之后,識別單元25將進入一個新的搜索區(qū)35a-g以得到在時間上的前一搜索區(qū)35a-g的最終狀態(tài)32a-f之后的較可能的狀態(tài)子序列(這種狀態(tài)子序列被稱為在該處不會引起混淆的序列組)。新的搜索區(qū)優(yōu)選為其中應用樹狀模型的“樹狀搜索區(qū)”,其允許在相同的搜索區(qū)中立刻搜索所有可能的字碼的狀態(tài)序列組。這就是圖中所述的情況。但是在不偏離本發(fā)明的情況下,新的搜索區(qū)也可以是對于代表所選擇的字碼或一組字碼的可能狀態(tài)的搜索區(qū)。
      在相同的新搜索區(qū)35a-g中,在不同的最終狀態(tài)32a-f之后生成起始狀態(tài)34a-f。這些不同的最終狀態(tài)包括例如相當于在相同的搜索中的相同字碼,但出現(xiàn)在不同時間點的不同最終狀態(tài)32a-f。在新搜索區(qū)中,起始狀態(tài)34a-f也可包括來自各搜索區(qū)35a-g的在最終狀態(tài)32a-f之后的起始狀態(tài)34a-f。通常,來自預定的序列類型的在最后狀態(tài)32a-b之后的起始狀態(tài)34a-f將被包括在相同的搜索區(qū)35a-g中。在不同的搜索區(qū)35a-g中,來自不同類型的最終狀態(tài)32a-f對于起始狀態(tài)將有躍遷。
      在搜索區(qū)35a-g內以及在將要計算似然度的狀態(tài)序列的選擇期間,識別單元25將刪除(不延長)較小可能的序列。因此在搜索區(qū)35a-g中,當從其他起始狀態(tài)開始的序列是較可能時,從搜索區(qū)35a-g中一個起始狀態(tài)開始的狀態(tài)序列可能被刪除。只有在相同搜索區(qū)35a-g內的起始狀態(tài)34a-f以這種方式相互競爭。因此,例如,如果不同開始時間的起始狀態(tài)34a-f被包括在搜索區(qū)中,那么最可能的開始時間可以通過比較在最終狀態(tài)32a-f之后的從起始狀態(tài)34a-f開始的序列的似然度來選擇,該最終狀態(tài)32a-f相當于來自以前相同的搜索區(qū)的不同時間的相同的字碼。(如果在每個搜索區(qū)中只允許有一個開始時間,那么在每個搜索區(qū)35a-g內,仍然可以做前一個最后狀態(tài)的最優(yōu)選擇。這樣,當來自不同搜索區(qū)的序列可以被組合成新搜索區(qū)時,最佳開始時間的選擇發(fā)生在搜索區(qū)35a-g的終點之后)。在一個搜索區(qū)35a-g中的序列的似然度不會影響在其他搜索區(qū)35a-g中的將要被刪除的個別序列的選擇。
      換句話說,識別單元25執(zhí)行不同的被相互有效隔離的搜索區(qū)35a-g。這意味著至少到達最終狀態(tài)32a-g以前,一個搜索區(qū)35a-g中的序列生成和刪除不會影響另一個搜索區(qū)35a-g中的生成和刪除。例如,在一個例子中,在一時間點為每個新生成的狀態(tài)選擇一個預先狀態(tài),為每個搜索區(qū)35a-g生成新狀態(tài)并且在每個搜索區(qū)35a-g為每個新生成的狀態(tài)從那個搜索區(qū)中選擇一個預先狀態(tài)。
      應當注意的是,雖然搜索區(qū)35a-g在感覺上是“隔離”的,即一個搜索區(qū)中的生成和刪除不會影響其他的搜索區(qū),但是搜索區(qū)35a-g也不應該用其他方式被隔離。例如,來自不同搜索的代表節(jié)點的信息可以被相互混合地存儲在存儲器中,信息中的數(shù)據(jù)例如通過確定節(jié)點之前的字碼的歷史記錄(或字碼歷史記錄的類型)指示節(jié)點屬于哪個搜索區(qū)。在另一個例子中,只要考慮該節(jié)點屬于哪個搜索區(qū)35a-g,生成和刪除不同搜索區(qū)35a-g中的節(jié)點就可以通過處理相互混合的不同搜索區(qū)35a-g的節(jié)點來執(zhí)行。
      本發(fā)明的第一方面涉及對于相同的新搜索區(qū)35a-g具有躍遷的序列類型的選擇。在現(xiàn)有技術中,相同的新搜索跟隨在相當于N個字碼的相同歷史記錄的最終狀態(tài)之后(這一點可以通過沿形成最終節(jié)點32a-f的序列回溯來確定)。在現(xiàn)有技術中,從相當于最近的N個特定字碼歷史紀錄的最終節(jié)點32a-f中,對搜索空間產生一個躍遷,該搜索空間相當于這些特定的N個字碼中除了最遠的一個之外的N-1個之前的字碼W。
      因此,在現(xiàn)有技術中,如果最終節(jié)點相當于N個相同的在先字碼,那么來自不同搜索區(qū)35a-g的這些最終節(jié)點32a-f可以具有到特定的下一個搜索區(qū)的躍遷。從這些為在時間上相同的點產生的最終節(jié)點中選擇最可能的最終節(jié)點,并且給該節(jié)點一個到下一搜索區(qū)的起始節(jié)點的躍遷33a-f。該步驟分別對每個時間點執(zhí)行。每個時間點(來自這些搜索區(qū)35a-g中的任何一個)的最可能的最終節(jié)點32a-f到新搜索區(qū)35a-g中的其起始節(jié)點具有一個躍遷。這允許新搜索區(qū)35a-g搜索開始時間與新字碼的最可能的組合。
      這樣,歷史記錄中的字碼數(shù)目N對于計算結果具有重要的作用。當N被設置為逐漸增大時,不同的歷史記錄數(shù)增加從而搜索區(qū)的數(shù)目增加。但是使N為小數(shù)目(使計算結果在范圍之內)會降低可靠性,因為其可能導致在隨后的語音信號中的可能已被證實為較可能的字碼序列的刪除。此外,在現(xiàn)有技術中,如果應用單路技術,N決定語言模型為N-gram模型。選擇一個較小的數(shù)N會降低這個模型的質量。
      本發(fā)明的目的是減少搜索的數(shù)目而不過分降低質量。根據(jù)本發(fā)明,對于相同的搜索區(qū)35a-g具有躍遷33a-f的序列的類型是根據(jù)語音的歷史記錄選擇的,而不是根據(jù)最近的被識別的字碼的整體數(shù)量來選擇的。
      本發(fā)明是基于觀測的,即對結束于相同的語音歷史記錄的不同的歷史記錄來說字碼的最可能的開始時間通常是相同的。實際上,每個新搜索區(qū)35a-g只在這些以前的搜索區(qū)35a-g確定新字碼的不同開始時間的似然度時,受到以前搜索區(qū)35a-g的影響。這允許新搜索區(qū)搜索新字碼的開始時間以及同一性的最可能的組合。對結束于相同的語音歷史記錄的不同的歷史記錄來說字碼的最可能的開始時間通常是相同的,并且搜索區(qū)中建立的開始時間的可靠性依賴于被考慮的語音歷史記錄的長度。如果字碼是長的,則字碼的固定數(shù)目的字碼歷史記錄可能包含一個較長的語音歷史記錄,如果字碼是短的,則包含較短的語音歷史記錄。因此,與現(xiàn)有技術中一樣,如果固定長度的字碼歷史記錄被用來選擇一個搜索區(qū),那么可靠性就會隨字碼的長度而改變。為了得到最小的可靠性,現(xiàn)有技術需要為最壞的情況(短字碼)設置歷史記錄的長度,從而導致如果歷史記錄中出現(xiàn)較長的字碼,計算結果就會不必要的大。通過選擇基于語音歷史記錄的搜索區(qū),可以較好地控制搜索區(qū)的數(shù)量以達到最小的可靠性。
      為了根據(jù)語音歷史記錄來辨別,識別單元25例如應用確定組成不同字碼的語音的被存儲的信息并檢查該類型中的序列,該類型中所有序列都相當于字碼歷史記錄,其中在被識別的字碼中,最近的語音的預定數(shù)目是相同的。該預定數(shù)目的選擇與是否這些語音以單個字碼出現(xiàn)或不止一個字碼出現(xiàn)無關,或與是否這些語音一起組成整個字碼或一個字碼的不完全的一部分無關。因此,與如果最終節(jié)點32a-f相當于一個長字碼相比,如果最終節(jié)點32a-f相當于一個短字碼,則識別單元25將應用來自產生最終節(jié)點32a-f的狀態(tài)序列中的更多字碼的語音來選擇最終節(jié)點32a-f所屬的類型。
      在一個實施例中,用來區(qū)分類型的語音的該預定數(shù)目被預先設置。在另一個實施例中,用來確定類型的語音數(shù)目依賴于語音的性質,例如,使得這些語音包括至少一個輔音,或至少一個元音或至少一個音節(jié)或其組合。
      圖4顯示了一個搜索區(qū),其中不同的最終節(jié)點40可以都具有到新搜索區(qū)46中相同的起始節(jié)點44的躍遷42。根據(jù)本發(fā)明的一個方面,那些最終節(jié)點40的最可能節(jié)點的似然度(或例如第n個最可能的最終節(jié)點的似然度,或許多較可能節(jié)點的似然度的平均)用來控制從新搜索區(qū)46中的起始節(jié)點44開始的序列的刪除。關于較小可能的最終節(jié)點40的似然度和搜索區(qū)中應用的似然度之間的關聯(lián)的信息被保留,例如,以較小可能節(jié)點i的似然度Li、Lm之間的比Ri的方式,并且似然度Lm被應用在搜索區(qū)46中Ri=Li/Lm當搜索區(qū)46到達最終節(jié)點48時,這個信息被用于生成在先序列的類型的各個成員的似然度信息,該在先序列在結束于最終節(jié)點48的序列的開始都具有到起始節(jié)點44的躍遷42。例如,這是通過重新引入系數(shù)Ri來得到的。令L’m是在搜索區(qū)46中對最終節(jié)點48計算的似然度,對從起始節(jié)點44開始的序列計算的似然度,例如,其具有基于到起始節(jié)點44具有躍遷42的較可能的最終節(jié)點40的似然度。然后從新建立的最終節(jié)點48的似然度L’m中,相當于與最終節(jié)點40相關的字碼歷史記錄的多個字碼歷史記錄“i”的似然度用下面的公式計算L’i=Ri L’m該最終節(jié)點40是由搜索區(qū)46中被識別的字碼所跟隨的。(Ri是為與相應的歷史記錄相關的最終節(jié)點40確定的系數(shù))。當應用語言模型計算對應于最終節(jié)點的不同序列的似然度時,為不同的歷史記錄“i”再生的似然度被采用。因此,搜索區(qū)46中的每個單個的序列實際上代表歷史記錄的類型,但是在搜索區(qū)46中只需要單個歷史記錄的計算結果。這樣用可靠性的嚴重損失大大降低了計算量。
      可以看出,如果假定搜索區(qū)35a-g的最可能的開始時間對于所有的類型是相同的,則對節(jié)點生成似然度信息的這種方法重新得到了正確的似然度。
      第二種技術(為類型中的一個成員執(zhí)行搜索,并且在為類型中最可能的成員執(zhí)行的搜索的最后,再生該類型的各個成員的似然度)優(yōu)選為與第一種技術(執(zhí)行共用相同的語音歷史記錄的字碼歷史記錄類型的結合搜索區(qū)35a-g)相結合。因此,第一種技術可以與按照發(fā)音選擇的類型的不同成員的各個不同似然度的應用相結合,該選擇的類型開始于相同時間點的起始節(jié)點。但是,第二種技術也可以被應用于不同的類型,不需要用第一種技術來選擇,以降低搜索量。
      圖5顯示了第二種技術在子字碼級的應用。該圖顯示了搜索區(qū)中節(jié)點的序列以及躍遷。在用于生成序列的詞匯模型中,某些狀態(tài)被標記為子字碼的邊界。例如,這些相當于語音之間躍遷的點。在圖中指出了代表這種狀態(tài)的邊界節(jié)點50。
      對于搜索區(qū)中的每個時間點,識別單元檢測是否已經(jīng)生成了邊界節(jié)點50。如果已生成,則識別單元確定邊界節(jié)點的類型52a-d,其中之前相當于具體類型的常用的語音歷史記錄的狀態(tài)序列,例如預定數(shù)目的語音在相同類型52a-d中的所有邊界節(jié)點50。識別單元從每個類型(優(yōu)選為具有最高似然度的節(jié)點)中選擇一個典型的邊界節(jié)點并且只從類型52a-d的被選邊界節(jié)點50繼續(xù)搜索。對于該類型中的每個其他的邊界節(jié)點50存儲信息,例如將相關的邊界節(jié)點的似然度與繼續(xù)搜索的邊界節(jié)點的似然度聯(lián)系起來的因子。
      當搜索隨后到達另一個邊界節(jié)點54或來自該類型的典型邊界節(jié)點的最終節(jié)點56時,通過將新邊界節(jié)點54或最終節(jié)點56的似然度用其他類型成員的不同因子作因式分解,為該類型中的其他成員再生似然度。隨后類型選擇過程被重復等。
      可以理解,由于只對典型的節(jié)點類型必須生成新節(jié)點,所以用這種方法可大大降低計算量。
      權利要求
      1.一種語音識別方法,該方法包括在分別由連續(xù)的狀態(tài)序列組成的組合序列中搜索這些組合序列中的至少一個比組合序列中的其他序列更可能的序列以表示一個觀測語音信號,所述的搜索包括漸進的、似然度受限搜索,每個被限制在各搜索空間中的似然度包括一個該狀態(tài)序列的子集,這些組合序列將包含該狀態(tài)序列的子集;每個不同搜索的搜索空間包括將要構成類型組合序列的一部分的狀態(tài)序列,確定不同搜索空間的不同的類型基于相同的一些字碼或其一部分被區(qū)分出來,這些字碼或其一部分由相當于搜索空間中的狀態(tài)序列的組合序列中的狀態(tài)序列表示,字碼或其一部分的數(shù)目的同一性被用于區(qū)分不同的類型,所述數(shù)目根據(jù)由相當于搜索空間中的序列的組合序列表示的一個或更多的最后的字碼的長度而變化,如果一個或更多的最后的字碼相對較短,則相當于相同的一個或更多的最后的字碼的組合序列被區(qū)分成不同的類型,但是如果一個或更多的最后的字碼相對較長,則不區(qū)分成不同的類型。
      2.根據(jù)權利要求1的語音識別方法,其特征在于不同的類型是基于語音被區(qū)分的,以致于每個類型包含相當于固有的最后音素組的組合序列,由包含相當于搜索中的狀態(tài)序列的組合序列的狀態(tài)序列表示,不同的類型相當于不同的最后音素組,不考慮包括這些音素作為其部分的一個或多個字碼,組合序列被區(qū)分成不同的類型和/或放入一個相同的類型。
      3.根據(jù)權利要求1的語音識別方法,其特征在于區(qū)分不同的類型使得每個類型包含最后音素的預定數(shù)量N相同的組合序列,由包含相當于搜索中的狀態(tài)序列的組合序列的狀態(tài)序列表示,不考慮包括這些音素作為其部分的一個或多個字碼,不同的類型對應于不同的N個最后音素。
      4.根據(jù)權利要求1的語音識別方法,其特征在于區(qū)分不同的類型使得每個類型包含最后音素的數(shù)量相同的組合序列,由包含相當于搜索中的狀態(tài)序列的組合序列的狀態(tài)序列表示,選擇最后音素的數(shù)量使得它包含至少一個音節(jié)的終點,不考慮包括這些音素作為其部分的一個或多個字碼,不同的類型對應于具有一個音節(jié)終點的不同的最后音素。
      5.根據(jù)權利要求1的語音識別方法,包括根據(jù)確定M個字碼序列似然度的字碼級的模型,選擇較可能的組合序列并從下一個搜索中刪除其他的組合序列,M個字碼序列相當于組合序列中的M個各自連續(xù)的狀態(tài)序列,M個字碼長于將組合序列區(qū)分成不同類型的字碼或字碼一部分的數(shù)目,對于這些類型中的一個特定類型的至少一個搜索包括對相當于不同的N個最后字碼的不同組合序列的搜索的聯(lián)合似然度極限,這些最后字碼由相當于搜索中的狀態(tài)序列的組合序列的狀態(tài)序列表示,在到達這些搜索中的至少一個搜索的最終狀態(tài)后執(zhí)行所述的選擇或特定類型內組合序列中的下一個搜索的較可能組合序列。
      6.根據(jù)權利要求1的語音識別方法,其特征在于這些搜索中的一個特定的搜索包括進入多個組合序列搜索中的一個特定的搜索內的聯(lián)合狀態(tài)序列,這些組合序列在最后的狀態(tài)序列終點到該聯(lián)合序列都具有相同的時間點的最終節(jié)點,該聯(lián)合狀態(tài)序列被分配一個代表多個組合序列的起始似然度;基于狀態(tài)序列內的狀態(tài)的似然度信息,刪除搜索中的一個特定搜索內的較小可能的狀態(tài)序列并保留一個或多個可能的狀態(tài)序列;遞增地為作為被觀測的語音信號的函數(shù)的被保留的狀態(tài)序列內的每個連續(xù)的狀態(tài)計算每個被保留的狀態(tài)序列的似然度信息以及被保留的狀態(tài)序列內在先狀態(tài)的似然度信息,并重復上述刪除步驟;該方法包括當?shù)竭_搜索中的一個特定搜索的最終狀態(tài)時,為多個組合序列內的單獨的組合序列再生下一個似然度信息,當單獨的組合序列中的各個序列位于導致最終狀態(tài)的聯(lián)合序列的起始狀態(tài)之前時,下一個似然度相當于最終狀態(tài)似然度;執(zhí)行下一個搜索,其中在下一個狀態(tài)級搜索期間,所述的計算和刪除是基于下一個似然度信息的。
      7.根據(jù)權利要求6的語音識別方法,其特征在于下一個似然度信息是通過將單獨的組合序列的校正系數(shù)應用到最終似然度信息,從最終的似然度信息中計算出來的,該最終似然度信息是基于典型的似然度對于最終狀態(tài)遞增計算的。
      8.一種語音識別方法,該方法包括在由連續(xù)的狀態(tài)序列組成的組合序列中搜索這些組合序列中的至少一個比組合序列中的其他序列更可能的序列以表示一個觀測語音信號,所述的搜索包括漸進的、似然度受限搜索,每個被限制在各搜索空間中的似然度包括一個該狀態(tài)序列的子集,這些組合序列將包含該狀態(tài)序列的子集;其中這些搜索中的第一個搜索包括進入多個組合序列搜索中的第一個搜索內的聯(lián)合狀態(tài)序列,這些組合序列在最后的狀態(tài)序列終點到該聯(lián)合序列都具有相同時間點的最終節(jié)點,該聯(lián)合狀態(tài)序列被分配一個代表多個組合序列的起始似然度;基于狀態(tài)序列內的狀態(tài)的似然度信息,刪除搜索中的第一個搜索內的較小可能的狀態(tài)序列并保留一個或多個可能的狀態(tài)序列;遞增地為作為被觀測的語音信號的函數(shù)的被保留的狀態(tài)序列內的每個連續(xù)的狀態(tài)計算每個被保留的狀態(tài)序列的似然度信息以及被保留的狀態(tài)序列內在先狀態(tài)的似然度信息,并重復上述刪除步驟;該方法包括當?shù)竭_搜索中的第一個搜索的最終狀態(tài)時,為多個組合序列內的單獨的組合序列再生下一個似然度信息,當多個組合序列的單獨的組合序列中的各個序列位于導致最終狀態(tài)的序列的起始狀態(tài)之前時,下一個似然度相當于最終狀態(tài)似然度;執(zhí)行下一個搜索,其中在下一個狀態(tài)級搜索期間,所述的計算和刪除是基于單獨的組合序列的下一個似然度信息的。
      9.一種語音識別方法,該方法包括在由連續(xù)的狀態(tài)序列組成的組合序列中搜索這些組合序列中的至少一個比組合序列中的其他序列更可能的序列以表示一個觀測語音信號,每個狀態(tài)序列代表一個字碼,所述的搜索包括漸進的、似然度受限搜索,每個被限制在各搜索空間中的似然度包括一個該狀態(tài)序列的子集,這些組合序列將包含該狀態(tài)序列的子集;在所述的狀態(tài)序列中,確定相當于子字碼邊界狀態(tài)的狀態(tài);為這些狀態(tài)序列中的各個序列確定所述的子字碼邊界狀態(tài)的類型,并發(fā)生在語音信號內的共用時間點,這些狀態(tài)序列中的各個序列都是相應的組合序列的部分,這些組合序列由共用的時間點上的在語音上代表等價的歷史記錄終點的狀態(tài)序列組成;從類型中的所有的子字碼邊界狀態(tài)共有的單個隨后的狀態(tài)繼續(xù)進行漸進的、似然度受限搜索,用于表示該類型的所述單個隨后的狀態(tài)似然度信息,從而對以后的狀態(tài)計算似然度信息并控制以后的搜索直到下一個子字碼邊界狀態(tài)或最終狀態(tài)被確定;為所述的下一個子字碼邊界狀態(tài)或最終狀態(tài)計算多似然度信息,該最終狀態(tài),當包括子字碼邊界狀態(tài)類型的各個成員時,相當于在所述的下一個子字碼邊界狀態(tài)或最終狀態(tài)之前的狀態(tài)序列;執(zhí)行下一個搜索,所述的下一個搜索單獨地應用為各個成員計算的似然度信息。
      10.根據(jù)權利要求9的語音識別方法,其特征在于根據(jù)在先狀態(tài)序列之間的區(qū)別,將不屬于該類型成員的子字碼邊界狀態(tài)與屬于該類型成員的子字碼邊界狀態(tài)區(qū)分開來,其在先狀態(tài)越過包括該子字碼邊界狀態(tài)作為其部分的狀態(tài)序列的開始狀態(tài),延伸穿過該組合序列,以致于不管語音的歷史記錄是否超越字碼的邊界,這些類型被基于一預定量的語音歷史記錄來區(qū)分。
      11.一種語音識別系統(tǒng),該系統(tǒng)包括一個用于接收語音信號的入口;一個識別單元,該識別單元用于在每個由連續(xù)的狀態(tài)序列組成的組合序列中搜索這些組合序列中的至少一個比組合序列中的其他序列更可能的序列以表示一個觀測語音信號,所述的搜索包括漸進的、似然度受限搜索,每個被限制在各搜索空間中的似然度包括一個該狀態(tài)序列的子集,這些組合序列將包含該狀態(tài)序列的子集;該識別單元開始搜索空間的不同的搜索,每個不同搜索的搜索空間包括將要構成類型組合序列的一部分的狀態(tài)序列,確定不同的搜索空間的不同的類型,該不同類型基于相同的一些字碼或其一部分的數(shù)目被區(qū)分出來,這些字碼或其一部分由相當于搜索空間中的狀態(tài)序列的組合序列中的狀態(tài)序列表示,字碼或其一部分的數(shù)目的同一性被用于區(qū)分不同的類型,該數(shù)目根據(jù)由相當于搜索空間中的序列的組合序列表示的一個或更多的最后的字碼的長度而變化,如果一個或更多的最后的字碼相對較短,則相當于相同的一個或更多的最后的字碼的組合序列被區(qū)分成不同的類型,但是如果一個或更多的最后的字碼相對較長,則不區(qū)分成不同的類型。
      12.根據(jù)權利要求11的語音識別系統(tǒng),其特征在于識別單元基于語音區(qū)分不同的類型,以致于每個類型包含相當于固有的最后音素組的組合序列,由包含相當于搜索中的狀態(tài)序列的組合序列的狀態(tài)序列表示,不同的類型相當于不同的最后音素組,不考慮包括這些音素作為其部分的一個或多個字碼,組合序列被區(qū)分成不同的類型和/或放入一個相同的類型。
      13.根據(jù)權利要求11的語音識別系統(tǒng),其特征在于識別單元區(qū)分不同的類型使得每個類型包含最后音素的預定數(shù)量N相同的組合序列,由包含相當于搜索中的狀態(tài)序列的組合序列的狀態(tài)序列表示,不考慮包括這些音素作為其部分的一個或多個字碼,不同的類型對應于不同的N個最后音素。
      14.根據(jù)權利要求11的語音識別系統(tǒng),其特征在于語音識別單元區(qū)分不同的類型使得每個類型包含最后音素的數(shù)量相同的組合序列,由包含相當于搜索中的狀態(tài)序列的組合序列的狀態(tài)序列表示,選擇最后音素的數(shù)量使得它包含至少一個音節(jié)的終點,不考慮包括這些音素作為其部分的一個或多個字碼,不同的類型對應于具有一個音節(jié)終點的不同的最后音素。
      15.根據(jù)權利要求11的語音識別系統(tǒng),該識別單元根據(jù)確定M個字碼序列似然性的字碼級模型,選擇較可能的組合序列并從下一個搜索中刪除其他的組合序列,M個字碼序列相當于組合序列中的M個各自連續(xù)的狀態(tài)序列,M個字碼長于將組合序列區(qū)分成不同類型的字碼或字碼一部分的數(shù)量,這些搜索中的至少一個對這些類型中的一個特定類型的搜索包括對相當于不同的N個最后字碼的不同組合序列的搜索的聯(lián)合似然度極限,這些最后字碼由包含相當于搜索中的狀態(tài)序列的組合序列的狀態(tài)序列表示,在到達這些搜索中的至少一個搜索的最終狀態(tài)后執(zhí)行所述的選擇或特定類型內組合序列中的下一個搜索的較可能組合序列。
      16.根據(jù)權利要求11的語音識別系統(tǒng),該識別單元被安置用于執(zhí)行這些搜索中的一個特定的搜索,從而進入多個組合序列搜索中的一個特定的搜索內的聯(lián)合狀態(tài)序列,這些組合序列在最后的狀態(tài)序列終點到該聯(lián)合序列都具有相同時間點的最終節(jié)點,該聯(lián)合狀態(tài)序列被分配一個代表多個組合序列的起始似然度;基于狀態(tài)序列內的狀態(tài)的似然度信息,刪除搜索中的一個特定搜索內的較小可能的狀態(tài)序列,并保留一個或多個可能的狀態(tài)序列;遞增地為作為被觀測的語音信號的函數(shù)的被保留的狀態(tài)序列內的每個連續(xù)的狀態(tài)計算每個被保留的狀態(tài)序列的似然度信息以及被保留的狀態(tài)序列內在先狀態(tài)的似然度信息,并重復上述刪除步驟;該識別單元當?shù)竭_搜索中的一個特定搜索的最終狀態(tài)時,為多個組合序列內的單獨的組合序列再生下一個似然度信息,當單獨的組合序列中的各個序列位于導致最終狀態(tài)的聯(lián)合序列的起始狀態(tài)之前時,下一個似然度相當于最終狀態(tài)似然度;執(zhí)行下一個搜索,其中在下一個狀態(tài)級搜索期間,所述的計算和刪除是基于下一個似然度信息的。
      17.根據(jù)權利要求16的語音識別系統(tǒng),其特征在于下一個似然度信息是通過將單獨的組合序列的校正系數(shù)應用到最終似然度信息,從最終的似然度信息中計算出來的,該最終似然度信息是基于典型的似然度為最終狀態(tài)遞增計算的。
      18.一種語音識別系統(tǒng),包括一用于接收語音信號的入口;一識別單元,該識別單元被安置用于在由連續(xù)的狀態(tài)序列組成的組合序列中搜索這些組合序列中的至少一個比組合序列中的其他序列更可能的序列以表示一個觀測語音信號,所述的搜索包括漸進的、似然度受限搜索,每個被限制在各搜索空間中的似然度包括一個狀態(tài)序列的子集,這些組合序列將包含該狀態(tài)序列的子集;其特征在于這些搜索中的第一個搜索包括進入多個組合序列搜索中的第一個搜索內的聯(lián)合狀態(tài)序列,這些組合序列在最后的狀態(tài)序列終點到該聯(lián)合序列都具有相同時間點的最終節(jié)點,該聯(lián)合狀態(tài)序列被分配一個代表多個組合序列的起始似然度;基于狀態(tài)序列內的狀態(tài)的似然度信息,刪除搜索中的第一個搜索內的較小可能的狀態(tài)序列并保留一個或多個可能的狀態(tài)序列;遞增地為作為被觀測的語音信號的函數(shù)的被保留的狀態(tài)序列內的每個連續(xù)的狀態(tài)計算每個被保留的狀態(tài)序列的似然度信息以及被保留的狀態(tài)序列內以前狀態(tài)的似然度信息,并重復上述刪除步驟;該識別單元當?shù)竭_搜索中的第一個搜索的最終狀態(tài)時,為多個組合序列內的單獨的組合序列再生下一個似然度信息,當多個組合序列的單獨的組合序列中的各個序列產生位于最終狀態(tài)的序列的起始狀態(tài)之前時,下一個似然度相當于最終狀態(tài)似然度;執(zhí)行下一個搜索,其中在下一個搜索期間,所述的計算和刪除是基于單獨的組合序列的下一個似然度信息的。
      19.一種語音識別系統(tǒng),包括一用于接收語音信號的入口;一識別單元,該識別單元被安置用于在由連續(xù)的狀態(tài)序列組成的組合序列中搜索這些組合序列中的至少一個比組合序列中的其他序列更可能的序列以表示一個觀測語音信號,每個狀態(tài)序列表示一個字碼,所述的搜索包括漸進的、似然度受限搜索,每個被限制在各搜索空間中的似然度包括一個該狀態(tài)序列的子集,這些組合序列將包含該狀態(tài)序列的子集,該識別單元被安置用于在所述的狀態(tài)序列中,確定相當于子字碼邊界狀態(tài)的狀態(tài);為這些狀態(tài)序列中的各個序列確定所述的子字碼邊界狀態(tài)的類型,并發(fā)生在語音信號內的共用時間點,這些狀態(tài)序列中的各個序列都是相應的組合序列的部分,這些組合序列由共用的時間點上的在語音上代表等價的歷史記錄終點的狀態(tài)序列組成;從類型中的所有的子字碼邊界狀態(tài)共有的單個隨后的狀態(tài)繼續(xù)進行漸進的、似然度受限搜索,用于表示該類型的所述單個隨后的狀態(tài)似然度信息,從而對以后的狀態(tài)計算似然度信息并控制以后的搜索直到下一個子字碼邊界狀態(tài)或最終狀態(tài)被確定;為所述的下一個子字碼邊界狀態(tài)或最終狀態(tài)計算多似然度信息,該最終狀態(tài),當包括子字碼邊界狀態(tài)類型的各個成員時,相當于在所述的下一個子字碼邊界狀態(tài)或最終狀態(tài)之前的狀態(tài)序列;執(zhí)行下一個搜索,所述的下一個搜索單獨地應用為各個成員計算的似然度信息。
      20.根據(jù)權利要求19的語音識別系統(tǒng),其特征在于根據(jù)在先狀態(tài)序列之間的區(qū)別,將不屬于該類型成員的子字碼邊界狀態(tài)與屬于該類型成員的子字碼邊界狀態(tài)區(qū)分開來,其在先狀態(tài)在越過包括該子字碼狀態(tài)作為其部分的狀態(tài)序列的開始狀態(tài),延伸穿過該組合序列,以致于不管語音的歷史記錄是否超越字碼的邊界,這些類型被基于預定量的語音歷史記錄來區(qū)分。
      全文摘要
      語音識別包括搜索語音信號給出的許多字碼序列中的最可能的一個序列。每個這種序列是一個組合序列,其包括連續(xù)的狀態(tài)序列。在搜索過程中包括許多搜索區(qū),各搜索空間中的每個搜索區(qū)包括狀態(tài)序列的一個子集。在相應搜索空間中的每個搜索區(qū)中,只考慮較可能的狀態(tài)序列。在第一個實施例中,不同的搜索空間是由來自一個字碼的序列類型的跟隨在先序列的狀態(tài)序列組成的。不同的類型形成不同的搜索空間。類型是基于語音的歷史記錄而不是基于字碼的歷史記錄區(qū)分的,這些字碼由相當于搜索空間中的狀態(tài)序列的組合序列中的狀態(tài)序列表示。因此,字碼或其一部分的數(shù)目的同一性被用于區(qū)分不同的類型,該數(shù)目根據(jù)由組合序列表示的一個或更多的最后的字碼的長度而變化。在第二個實施例中,多個不同的組合序列通過一個聯(lián)合狀態(tài)序列被包括在一個搜索中,在該搜索中多個具有代表性的似然度信息被用于確定是否要刪除該聯(lián)合狀態(tài)序列。如果沒有刪除,則在搜索的最后從聯(lián)合序列再生不同組合序列的似然度,并且基于再生成的似然度進行進一步的搜索。在第三個實施例中,該技術被應用于搜索區(qū)內的子字碼級。
      文檔編號G10L15/06GK1524260SQ02813499
      公開日2004年8月25日 申請日期2002年6月21日 優(yōu)先權日2001年7月6日
      發(fā)明者F·T·B·賽德, F T B 賽德 申請人:皇家菲利浦電子有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1