專利名稱:多語言非母語語音識別的制作方法
技術(shù)領(lǐng)域:
5 本發(fā)明涉及一種用于經(jīng)由語音輸入從元素列表選擇列表元素的方 法及其系統(tǒng)。
背景技術(shù):
很多電子應(yīng)用具有由用戶的語音支配或語音控制的設(shè)計過程或順 10 序。這些電子應(yīng)用包括用于交通工具的目的引導(dǎo)系統(tǒng)、電話和/或地址 系統(tǒng)等。交通工具包括汽車、火車、輪船、飛機等。在這些過程或順序中,用戶向語音識別單元提供語音輸入。該語 音輸入能夠?qū)?yīng)于用戶希望從列表元素的列表或組中選擇的列表元 素。語音識別單元處理語音輸入,并響應(yīng)于處理的語音輸入,選擇所 15 需的列表元素。WO 2004/077405公開了一種對用戶的語音輸入實施兩步識別過 程的語音識別系統(tǒng)。 一個識別過程將整個詞的語音輸入分離成至少一 個語音子單元序列以產(chǎn)生列表元素的詞匯表。接下來的識別過程將整 個詞的語音輸入與列表元素的詞匯表進(jìn)行比較。 20 本方法需要列表元素和識別系統(tǒng)的語言相同。舉例來說,在導(dǎo)航應(yīng)用中,當(dāng)使用德語導(dǎo)航系統(tǒng)的用戶在法國駕駛時可能在目的地點的 語音驅(qū)動選擇中存在困難。發(fā)明內(nèi)容25 因此,存在這樣的一種需要為來自不同于語音識別系統(tǒng)訓(xùn)練的語言的另一自然語言的列表元素的語音驅(qū)動選擇提供可能。本發(fā)明通過提供獨立的權(quán)利要求中提及的方法和語音識別系統(tǒng)來 克服這種需要。在相關(guān)權(quán)利要求中描述了本發(fā)明的優(yōu)選實施例。根據(jù)本發(fā)明的第一方面,提供一種用于經(jīng)由語音輸入從元素列表30選擇列表元素的方法。該方法包括為語音輸入識別子詞單元(subword unit)串的步驟。在另一步驟中,識別的子詞單元串與元素列表相比較,且基于比較結(jié)果產(chǎn)生最佳匹配元素的候選列表。為產(chǎn)生最佳匹配元素的候選列表,使用包含矩陣元素的混淆矩陣(confusion matrix),所述矩陣元素包括關(guān)于不同語言的子詞單元的混淆概率的信息。在常規(guī)系 統(tǒng)中,在語音識別系統(tǒng)中使用的混淆矩陣比較相同語言的子詞單元。 5 現(xiàn)在,本發(fā)明的一個方面是要建立和使用能夠比較不同語言的混淆矩 陣?;煜仃囃ㄟ^用于每個子詞單元的識別系統(tǒng)為給定的子詞單元組 定義可能被錯誤識別的子詞單元組。子詞單元可以對應(yīng)于語言的音素 或音節(jié)或任意其他單元,諸如較大組音素或較小組音素(諸如半音素 (demiphoneme))。當(dāng)子詞單元是音素時,音素序列被確定為最好地匹io 配所述語音輸入的子詞單元串。優(yōu)選地,混淆矩陣的每個矩陣元素代表特定子詞單元對的混淆概 率,所述子詞單元對包含第一語言的子詞單元和不同于第一語言的第 二語言的子詞單元。矩陣的每個元素代表特定子詞單元對的混淆概率。 每個矩陣元素數(shù)字地指定了子詞單元對的第一子詞單元與子詞單元對15 的另一子詞單元的混淆程度。優(yōu)選地,混淆矩陣包含第一語言的可能 子詞單元以及第一語言的這些可能子詞單元與第二語言的可能子詞單 元的混淆概率。因為兩種語言的子詞單元典型地在子詞單元或音素的 數(shù)量上不同,混淆矩陣不再是正方的。只包括一種語言的子詞單元的 混淆矩陣是正方的,因為矩陣具有相同的列數(shù)和行數(shù)。20 根據(jù)本發(fā)明的另一方面,使用被訓(xùn)練成識別第一語言的子詞單元的子詞單元語言識別單元來識別子詞單元串,以識別與第一語言不同 的語言的語音輸入。該方面的思想是使用相同的識別器訓(xùn)練用于識別 的混淆矩陣,但是針對外語。舉例來說,被訓(xùn)練成理解德語語音輸入 的子詞單元語音識別單元用于識別諸如法語或英語的另一語言中的子25 詞單元序列,以評估混淆矩陣的混淆概率。該方法的優(yōu)點在于它隱含 地得知了這兩種不同語言之間的最典型的子詞單元混淆。根據(jù)本發(fā)明的一個方面,不同的混淆矩陣可以設(shè)置有用于不同語 言對的混淆概率。在本實施方案中,若干混淆矩陣將可用于不同的語 言對。這允許匹配不同的語言。當(dāng)可以使用不同的語言對和不同的混30 淆矩陣時,必須選擇用于產(chǎn)生最佳匹配元素的候選列表的混淆矩陣。為此,優(yōu)選地通過確定用戶的語言和通過確定元素列表的語言確定語音輸入的語言對,并相應(yīng)地選擇混淆矩陣。在大多數(shù)語音識別應(yīng) 用中,語音識別系統(tǒng)的用戶語言是已知的。如果可以確定元素列表的 語言,則語言對是已知的。當(dāng)元素列表是用于引導(dǎo)用戶到列表的目的地點之一的導(dǎo)航系統(tǒng)中 5 使用的目的地點列表時,可以以下面的方式確定語言對的語言之一。 首先,例如,通過確定交通工具的當(dāng)前位置并通過將它與地圖數(shù)據(jù)相 比較,確定導(dǎo)航系統(tǒng)用在哪個國家。當(dāng)交通工具的位置已知時,可以 推斷出交通工具所行駛的國家。當(dāng)國家已知時,能夠確定該國家的官 方語言。舉例來說,當(dāng)交通工具在德國行駛時,能夠推斷出目的地點 10 的列表包括德語名稱,當(dāng)交通工具在法國行駛時,所述列表可以包括 諸如城市或其他目的地點的名稱的法語列表元素。在本發(fā)明的另一方面中,確定導(dǎo)航系統(tǒng)的用戶語言,該語言用作 所述語言對的另一語言。導(dǎo)航系統(tǒng)的所有者通??赡苓x擇預(yù)定的語言 作為該導(dǎo)航系統(tǒng)的用戶語言,在操作過程中,只要沒有選擇其他語言, 15 該語言用作缺省值。當(dāng)用戶的語言且當(dāng)元素列表的語言己知時,語言 對是已知的,使得可以選擇合適的混淆矩陣。當(dāng)用戶的語言已知且當(dāng)列表元素的語言也已知時,能夠確定混淆 矩陣。當(dāng)語音識別方法與導(dǎo)航系統(tǒng)相結(jié)合使用時,交通工具也可能行駛 20 在具有多于一種官方語言的國家,例如具有德語、意大利語和法語作為官方語言的瑞士,或具有兩種官方語言的比利時。在這種情況下, 可以以不同語言提供不同元素列表,并且必須確定最佳匹配項目的候 選列表。語音識別系統(tǒng)的用戶語言是已知的。然而在這種情況下,必 須確定是使用用戶語言與德語、用戶語言與法語還是用戶語言與意大25 利語的混淆矩陣。除了這三個混淆矩陣之外,提供三種不同的元素列 表,德語的目的地點列表、法語的目的地點列表和意大利語的目的地 點列表?,F(xiàn)在出現(xiàn)的問題是哪個列表和哪個混淆矩陣用于匹配歩驟。 一種方法是組合不同的列表并使用這三個不同的混淆矩陣從所有三個 列表中編輯最佳匹配條目。該方法的缺點在于必須搜索多于一個的元30 素列表,極大地增加了搜索時間。而且,在每種語言中可能選擇相同 的條目,減少了最佳匹配元素列表中的獨特條目的數(shù)目。根據(jù)另一方法,當(dāng)不同的混淆矩陣具有不同的語言對并提供多個 列表且當(dāng)必須選擇混淆矩陣之一以用于確定最佳元素的候選列表時, 可以選擇具有最小平均混淆數(shù)的混淆矩陣。這意味著選擇了最匹配用 戶語言的語言。
一旦己經(jīng)選擇了混淆矩陣,能夠根據(jù)所選的混淆矩陣 5 選擇不同列表的元素列表。可以通過計算每個矩陣的分?jǐn)?shù)確定最小平均混淆數(shù),所述分?jǐn)?shù)表 示與用戶語言的符合度。舉例來說,分?jǐn)?shù)能夠用于通過優(yōu)選級對可用 的語言進(jìn)行分類。如果用戶指示某些語言偏好,g卩,用戶能夠說出他 正旅行的國家的語言之一,也可考慮這些偏好來選擇合適的混淆矩陣 10 和合適的對應(yīng)元素列表??赡艿恼Z言對是提前知道的。因而,不必在使用過程中計算分?jǐn)?shù)。 可以預(yù)先計算分?jǐn)?shù)并與不同的矩陣一起存儲各自的分?jǐn)?shù)。在正方矩陣 的情況下,主對角線上的條目對應(yīng)于自混淆概率,而對角線以外的元 素對應(yīng)于不正確的識別,即識別錯誤。計算矩陣中的所有錯誤將是確 15 定列表和識別系統(tǒng)之間的符合度的一種方法。不幸的是,因為矩陣比 較具有不同音素組的不同語言,該方法可能導(dǎo)致當(dāng)前情況中的難題。根據(jù)本發(fā)明的一個實施例,可以通過確定每個矩陣的熵來確定分 數(shù),熵越低,與用戶語言的符合度越好。在這里使用的統(tǒng)計學(xué)方法中, 熵是微觀結(jié)構(gòu)的數(shù)目的測量。在本方法中,能夠為矩陣的每行確定熵。 20如果熵大,這意味著該行的所有不同矩陣元素的混淆概率大約相等。 在當(dāng)前上下文中,這意味著第一音素或子詞單元被理解為其他語言的 音素或子詞單元的概率大約與其他語言的所有音素相同。在當(dāng)前上下 文中,通過添加不同的列,每個列和完整矩陣的熵越低,與用戶語言 的符合度越好,且混淆概率越低。25 另外,可以通過確定共有信息(mutual information)計算分?jǐn)?shù),共有信息越高,與用戶語言的符合度越好。為了評估用于混淆矩陣的 混淆概率,必須完成識別運行(recognitionrun)。因而,對于訓(xùn)練組中 的每次發(fā)聲,正確的和識別的音素序列都是可用的。這使得能夠計算 音素序列之間的相互信息。共有信息越高,識別的音素串的預(yù)測能力30 越好且矩陣越好。然而另一方法是對真實數(shù)據(jù)進(jìn)行實際識別試驗。在本實施方式屮,通過使用不同矩陣并使用測試數(shù)據(jù)實施識別試驗來確定分?jǐn)?shù),具有最高識別率的矩陣用于產(chǎn)生候選列表。盡管到現(xiàn)在為止該方法是最昂貴的一個,它也提供了最精確的分?jǐn)?shù)。根據(jù)本發(fā)明的另一方面,后面涉及用于使用語音輸入從元素列表5 選擇列表元素的語音識別系統(tǒng)。該系統(tǒng)包括識別用于語音輸入的子詞單元串的子詞單元語音識別單元。子詞單元比較單元將識別的子詞單 元串與元素列表進(jìn)行比較且基于比較結(jié)果產(chǎn)生最佳匹配元素的候選列表。此外,在存儲器中提供包含矩陣元素的混淆矩陣,所述矩陣元素 包括關(guān)于第一語言的子詞單元與第二語音的子詞單元混淆的混淆概率10的信息。子詞單元比較單元基于所述至少一個多語言混淆矩陣產(chǎn)生最 佳匹配元素的列表。上述語音識別系統(tǒng)允許通過聲音以不同于列表元 素的語言的其他語言從列表選擇條目。該語音識別系統(tǒng)具有這樣的優(yōu) 點它在存儲器和CPU方面是有效率的,從而工作在嵌入式設(shè)備上。 所述矩陣可以以這種方式設(shè)計混淆矩陣的每個矩陣元素代表特15 定子詞單元對的混淆概率,所述子詞單元對包含第一語言的子詞單元和第二語言的子詞單元。語音識別系統(tǒng)可以是如WO 2004/077405中描 述的兩步語音識別系統(tǒng)。在這種實施例中,語音識別系統(tǒng)的第一步驟 產(chǎn)生最佳匹配項目的候選列表,即,較大元素列表中的較小列表。第 二語音識別步驟從最匹配語音輸入的候選列表中識別和選擇項目。一20 旦已經(jīng)產(chǎn)生了短的候選列表,必須在識別系統(tǒng)中登記該短的候選列表以用于第二識別步驟。以前是這樣做的,然而現(xiàn)在識別系統(tǒng)處理不同 語言的條目。例如,德語識別系統(tǒng)可以接收英語音素。在本技術(shù)領(lǐng)域 中,用于執(zhí)行從一組外語音素到識別器的語言的音素組的映射的方法 對于本領(lǐng)域技術(shù)人員而言是可用的且已知的。備選地,識別器能夠與25 不同語言的聲學(xué)模型結(jié)合使用以處理外語音素。兩種方法是可行的,因為短列表僅包含整個列表條目的一部分。返回使用多語言混淆矩陣的語音識別系統(tǒng)和第一識別步驟,子詞 單元語音識別單元能夠被訓(xùn)練,以識別第一語言的子詞單元,且可以 為不同于第一語言的語言的語音輸入產(chǎn)生子詞單元串。如上所述,該同混淆矩陣的存儲單元。為了確定使用哪個矩陣和哪個元素列表,語音識別系統(tǒng)可以包括 確定子詞單元對的兩種語言的語言對確定單元。在導(dǎo)航應(yīng)用的情況下,提供包含能夠引導(dǎo)用戶的用于不同國家的 5 不同元素列表或不同目的地點的數(shù)據(jù)庫。為了確定語言對,可以提供 確定語音識別系統(tǒng)的用戶語言的用戶語言確定單元,該用戶語言用于 確定子詞對的語言之一。此外,可以提供確定交通工具行駛的國家的 官方語言的國家確定單元,所述語言用于確定語言對的另一語言。當(dāng)已知語言對時,提供從多個混淆矩陣中選擇混淆矩陣的混淆矩10 陣選擇單元,所述混淆矩陣選擇單元根據(jù)從語言對確定單元接收的信 息選擇混淆矩陣。當(dāng)考慮用戶語言和交通工具正在行駛的國家的官方 語言,混淆矩陣選擇單元不能選擇混淆矩陣(即,當(dāng)所述國家具有多 于一種的官方語音)時,能夠使用混淆確定單元來確定每個混淆矩陣 的混淆平均數(shù)?;煜仃囘x擇單元然后選擇具有最小混淆數(shù)的矩陣。15為此,能夠提供為每個混淆矩陣確定分?jǐn)?shù)的分?jǐn)?shù)確定單元,所述分?jǐn)?shù) 表示與用戶語言的符合度。應(yīng)當(dāng)理解并不需要整個時間都在語音識別 系統(tǒng)中提供分?jǐn)?shù)確定單元。只需提供一次,用于確定不同的分?jǐn)?shù)。在 己經(jīng)計算出分?jǐn)?shù)和為每個混淆矩陣確定分?jǐn)?shù)并且分?jǐn)?shù)被存儲到相應(yīng)的 矩陣之后,就不再需要分?jǐn)?shù)確定單元。根據(jù)不同矩陣的分?jǐn)?shù),混淆矩20 陣選擇單元從所述多個混淆矩陣選擇混淆矩陣。優(yōu)選地,語音識別系 統(tǒng)根據(jù)如上所述的方法工作。
參考下面的附圖和描述將更好地理解本發(fā)明。附圖中的部件不必 25成比例,而是用于強調(diào)說明本發(fā)明的原理。 附圖中圖1呈現(xiàn)了本發(fā)明的語音識別系統(tǒng)的示意圖;圖2示出了混淆矩陣,其包含圖1的系統(tǒng)中使用的兩種不同語言 的混淆概率;30 圖3是圖1中所示的語音識別系統(tǒng)的更詳細(xì)的視圖;圖4示出了使用圖2的矩陣識別語音以從元素列表中選擇列表元素的方法的流程圖;圖5示出了另一流程圖,更詳細(xì)地說明了對元素列表的多語言非 母語識別的方法步驟。
具體實施方式
在圖1中示出了一種允許語音輸入的多語言識別的語音識別系 統(tǒng)。圖1中所示的系統(tǒng)尤其允許通過語音以不同于用戶語言的另一語 言從列表中選擇條目。在所示實施例中,示出了與引導(dǎo)用戶到預(yù)定目 的地點的導(dǎo)航系統(tǒng)相結(jié)合的系統(tǒng)。然而,本發(fā)明并不限制于經(jīng)由語音 10 輸入的目的地點的選擇。本發(fā)明能夠用在各種情況,其中與用戶語言 不同的語言的語音輸入將被正確地識別。在很多語音識別系統(tǒng)中,聲 學(xué)信號的最可能的譯碼被作為識別輸出向用戶輸出,或最佳匹配結(jié)果 被輸出給用戶,使得用戶能夠選擇最佳匹配結(jié)果之一。本系統(tǒng)保持了 在識別處理中考慮的多種假定,這些多種假定,在當(dāng)前上下文中被稱15為最佳匹配元素,提供了用于附加信息的已經(jīng)被檢索系統(tǒng)(retrieval system)探究的基礎(chǔ)。語音識別系統(tǒng)中的一個問題是已知和未知詞匯術(shù) 語的概念,詞匯表是語音識別系統(tǒng)用于將語音轉(zhuǎn)換成文本的一組詞。 作為譯碼處理的一部分,語音識別系統(tǒng)將來自語音輸入的聲音與詞匯 表中的詞進(jìn)行比較。因此,僅詞匯表中的詞能夠被識別。不在詞匯表20中的詞通常將被錯誤地識別為發(fā)音與語音識別系統(tǒng)未知的另一詞類似 的已知的詞匯表的詞。詞匯表可以是任意詞匯表,例如,姓名、地址 或諸如一種語言的完整的一組詞之類的任意其他詞匯表。因此,詞匯 表不限于描述目的地址的列表元素,詞匯表能夠包含任意類型的列表 元素。25 圖1示意性地示出了一種語音識別系統(tǒng),其中語音輸入被輸入到子詞語音識別單元10。子詞語音識別單元10處理該語音輸入且產(chǎn)生子 詞單元串,在所示實施例中為音素串。音素串被饋入到匹配器11,在那里音素串與存儲在數(shù)據(jù)庫12中的元素列表相比較。在所示實施例中, 數(shù)據(jù)庫12包括在不同列表中的目的地址。舉例來說,對于列表A中的 30國家A,包含能夠在該國家中到達(dá)的所有可能的目的地址。這種列表 能夠具有大量的條目,例如,多于50000或150000個列表元素。在所示實施例中,列表包含導(dǎo)航數(shù)據(jù)。然而,列表也可以包括人名或電話 號碼或任意其他數(shù)據(jù)。在數(shù)據(jù)庫12中,以相應(yīng)國家的官方語言提供列 表。在所示的實施例中,國家A和B具有一種官方語言,使得為每個 國家提供一個列表。國家C具有兩種官方語言,使得對于第一和第二 5官方語言,存在不同的目的地列表。當(dāng)用戶想要選擇列表元素之一時, 語音輸入將包含該列表元素。匹配器比較從子詞語音識別單元接收的 音素串且產(chǎn)生最佳匹配項目的候選列表,因而,如果最佳匹配項目的 候選列表包含少量元素,它能夠被直接呈現(xiàn)給用戶。然而,候選列表也可能包含更多的列表元素,例如500或2000個。在這種情況下,最 io佳匹配元素的候選列表形成第二識別步驟的基礎(chǔ),在該第二識別步驟 中,語音輸入與這個較小的列表進(jìn)行比較。導(dǎo)航系統(tǒng)的用戶現(xiàn)在可以在使用與用戶語言不同的其他語言的國 家中旅行。舉例來說,使用英語導(dǎo)航系統(tǒng)的英語司機能夠在德國或法 國旅行,或者德語用戶可以在法國或英國旅行。在這些示例中,存儲15 在列表中的目的地址是不同于用戶語音的另一語言的列表元素。為了允許較高的識別率,當(dāng)用戶發(fā)出另一語言的城市名稱時,提供包括不同混淆矩陣的存儲器13。在所示的實施例中,存儲器13包括 第一混淆矩陣(包括德語子詞單元和意大利語子詞單元)。而且,提供 比較德語和英語子詞單元的混淆矩陣和包括法語和英語音素組或子詞20 單元的混淆矩陣。也參考更詳細(xì)地示出混淆矩陣20的圖2?;煜仃嚢ǘ鄠€矩陣 元素21,混淆矩陣表示假定聲音屬于一個子詞單元時另一子詞單元被 識別的概率。每個矩陣元素21 Cij代表特定子詞單元對的混淆概率, 即,Cij=P(j/i),其中Cij數(shù)字地指定了子詞單元i與子詞單元j的混淆25 程度。P(j/i)是假定聲音屬于子詞單元i時子詞單元j被識別的概率。在 所示實施例中,左上部矩陣元素21代表了子詞單元對22的混淆概率。 在圖2中所示的實施例中,大寫字符代表一種語言的子詞單元或音素, 小寫字符代表另一語言的子詞單元或音素。第一語言具有可能的子詞 單元AA-ZZ,第二語言具有子詞單元ba-zz。因為兩種不同語言的音素30組通常在音素的數(shù)目中不同,因此混淆矩陣不再是正方的。圖1所示的系統(tǒng)現(xiàn)在包括這些混淆矩陣中的若干個,每個混淆矩陣表示一種語言的子詞單元與另一語言的子詞單元的混淆概率。結(jié)合圖3,它更詳細(xì)地解釋了怎樣確定使用哪個混淆矩陣和哪個 列表。為了確定哪個混淆矩陣應(yīng)該用于確定最佳匹配結(jié)果,必須確定 語言對。語言對的一種語言能夠被確定,因為用戶語言對于系統(tǒng)而言 5 是已知的,例如,系統(tǒng)知道用戶說德語,因為該語言被設(shè)置為缺省值。 現(xiàn)在以下面的方式確定語言對的另一語言。為此,提供語言對確定單 元31,語言對確定單元接收作為一個輸入的用戶語言。語言對確定單 元進(jìn)一步包括確定在哪個國家使用語音識別系統(tǒng)的國家確定單元32。 在導(dǎo)航應(yīng)用中,系統(tǒng)一般包括確定系統(tǒng)(當(dāng)用在交通工具中時,為交io通工具)的當(dāng)前位置的位置確定單元33。當(dāng)交通工具或系統(tǒng)位置己知時,通過比較交通工具位置與地圖數(shù)據(jù),能夠容易地確定國家。語言對確定單元現(xiàn)在知道語言對的兩種語言且然后能夠訪問存儲器13以檢 索對應(yīng)的混淆矩陣。舉例而言,英語用戶正在法國旅行。因此,語言 對確定單元將檢索包含英語和法語子詞單元的混淆概率的混淆矩陣。 15 該混淆矩陣被發(fā)送到匹配器,在那里它與數(shù)據(jù)庫12的列表之一結(jié)合使 用。由于已知交通工具正在行駛的國家,列表也是已知的。在上述示 例中,這意味著英語用戶使用目的地址的法語列表在具有法語名稱的 法國選擇目的地點。為此,使用包含英語一法語對的混淆矩陣。通常,這些混淆矩陣被提前確定且被存儲在系統(tǒng)中。為了確定混20 淆概率,系統(tǒng)必須被訓(xùn)練。根據(jù)本發(fā)明的另一方面,通過使用相同的但是用于外語的匹配器,能夠確定混淆矩陣的混淆概率。舉例而言, 英語匹配器用于識別法語數(shù)據(jù)的音素序列以評估混淆矩陣的混淆概 率。該方法的優(yōu)點在于它可以隱含地得知法語和英語之間最典型的語音混淆(phonetic confusion)。通過提供具有不同語言對的不同的混淆25 矩陣,系統(tǒng)允許與不同的語言匹配。然而,情況可能更加復(fù)雜。舉例而言,用戶可能正在具有多于一 種語言的外國使用語音識別系統(tǒng)。在所示實施例中,數(shù)據(jù)庫包括具有三種不同列表C1、 C2禾nC3的國家C。例如,當(dāng)系統(tǒng)用在瑞士時,元 素(即,目的地)的瑞士語的列表可以以德語、法語和意大利語獲得。 30然而,在瑞士的英語旅行者可能不會說這些語言中的任意一種。不過, 存在用于英語-意大利語、英語-法語和英語-德語的語言對的任意一個的混淆矩陣?,F(xiàn)在的問題是使用哪個列表用于匹配。一種方法將是簡單地使用所有的列表并從所有的列表中編輯最佳 匹配條目。然而,該方法的缺點是必須搜索多于一個的列表,因而極大地增加了搜索時間??紤]到每個列表具有大于50000個條目,這種5 方法將并不是有效的。該方法的另一缺點在于將在每種語言中選擇相 同的條目,因而減小了最佳匹配結(jié)果中獨特條目的數(shù)目。現(xiàn)在用戶可 能已經(jīng)指示了某些語言偏好(例如,英語旅行者能夠在瑞士說官方語 言之一)。該偏好則能用于選擇合適的混淆矩陣和相應(yīng)的列表。舉例而 言,當(dāng)英語旅行者說德語時,英語-德語混淆矩陣和條目的德語列表將10 用于確定最佳匹配結(jié)果。然而,也可能不存在偏好。在這種情況下,該過程能夠如下進(jìn)行。 系統(tǒng)能夠以選擇具有最小平均混淆數(shù)的語言對的方式進(jìn)行配置。對于 上述示例,這意味著在英語-德語、英語-法語和英語-意大利語之間選 擇語言對。語言對和相應(yīng)的混淆矩陣以及相關(guān)列表必須被確定。通過15 提前確定代表與用戶語言符合度的分?jǐn)?shù)能夠選擇最好地匹配用戶語言 的語言。在圖3所示的實施例中,分?jǐn)?shù)與混淆矩陣一起存儲。為確定 分?jǐn)?shù),可以提供分?jǐn)?shù)確定單元。如果分?jǐn)?shù)與矩陣一起存儲,在使用過 程中不需要計算分?jǐn)?shù)。然而,在語音識別系統(tǒng)的設(shè)計過程中必須以某 種方式確定分?jǐn)?shù)??梢允褂枚喾N方法來計算分?jǐn)?shù)。在正方矩陣的情況20 下,主對角線的條目對應(yīng)于自混淆概率,而對角線外的元素對應(yīng)于不 正確的識別,即存在識別錯誤。計算矩陣中的所有錯誤將是確定兩種 語言之間或列表與識別器之間的符合度的一種方法。不幸的是,可能 難以實現(xiàn)這種方法,因為在當(dāng)前情況下矩陣比較具有不同子詞單元組 的兩種不同語言。矩陣通常不再是正方的,所以難以確定非對角矩陣25元素。確定分?jǐn)?shù)的另一種可能是使用矩陣的熵測量。矩陣的熵是在矩 陣應(yīng)用之后剩余的不確定性的測量。不確定性剩余越少,符合度越好。 另一種可能的方法是計算共有信息。為了評估混淆矩陣的混淆概率,必須完成識別運行(recognition run)。對于訓(xùn)練組中的每次發(fā)聲,正確 的和識別的音素序列是可用的。這使得可以計算音素序列之間的共有 30信息。共有信息越高,識別的音素序列的預(yù)測能力越好,且矩陣越好。 另一方法是對真實數(shù)據(jù)進(jìn)行實際的識別試驗。盡管到目前為止該方法是最昂貴的,但它也獲得了最精確的分?jǐn)?shù)。在這種情況下,具有最高 識別率的矩陣勝出。為了選擇正確的矩陣,可以提供在可能存在若干混淆矩陣和若干 列表的情況下確定所需的矩陣和相應(yīng)列表的混淆矩陣選擇單元34?;?5 淆矩陣選擇單元選擇具有最小平均混淆數(shù)的混淆矩陣。用戶語言是已 知的,且當(dāng)前通過從使用系統(tǒng)的國家的官方語音中選擇最符合用戶語 言的語言確定語言對的另一語言。現(xiàn)在語言對的第二語言是已知的并 且相應(yīng)的列表用于從列表確定最佳匹配元素。最佳匹配元素可以被包括在列表元素的較小列表中,例如,100和2000個元素的列表中。第10 二語音識別步驟(在附圖中沒有示出)對較小列表條目應(yīng)用語音識別。在該第二步驟中,通過將候選列表中列出的條目的語音聲音表示與聲 音輸入進(jìn)行匹配并確定最佳匹配條目,為相同的語音輸入確定列表中 的最可能的條目。該方法節(jié)省了計算資源,因為對在第一步驟中進(jìn)行 的音素識別要求較少,且計算昂貴的第二步驟僅在元素的大列表的小15的子集上進(jìn)行。這種兩步識別系統(tǒng)從DE 102 07 895 A1獲知,弓l用該 文獻(xiàn)以獲知兩步識別方案的進(jìn)一步的細(xì)節(jié)。在第二識別步驟中,再次比較兩種不同的語言。例如,德語識別 器可能接收英語音素。用于進(jìn)行從外語音素組到識別器的語言的音素 組的映射的方法可以在文獻(xiàn)中獲得。備選地,識別器能夠與不同語言 20的聲音模型一起使用以處理外語音素。兩種方法是可行的,因為短列 表僅包含列表元素的大列表的條目的一部分。在圖4示出了這種兩步識別方案。在歩驟41中啟動處理之后,說話者說出所需列表元素的完整描述。當(dāng)從電話列表中選擇時,所述列 表元素例如包括城市或街道名稱或人名。該語音輸入在步驟41中被記25錄,用于第二識別步驟中的附加用途。在第一識別步驟中,在步驟42 中產(chǎn)生音素串。通常,獨立于數(shù)據(jù)庫12中存儲的列表元素的詞匯表產(chǎn) 生第一音素串。構(gòu)建包括連續(xù)音素部分序列、音素序列、字母序列、 音節(jié)序列等的語音子詞單元序列。在步驟43中,如上所述,使用多語 言混淆矩陣實施映射過程。在歩驟44中,產(chǎn)生的子詞單元串與元素列30表相比較且產(chǎn)生最佳匹配元素的候選列表。在步驟45中,實施第二識 別步驟,第二識別步驟基于最佳匹配結(jié)果的候選列表而不是第一匹配步驟43中使用的整個列表。在步驟45中,記錄的語音輸入被遞送到 配備有最佳匹配項目的候選列表的識別單元(未示出)。在步驟46中, 最可能的列表元素然后被呈現(xiàn)給用戶,或者最可能的列表元素被使用 且能夠被進(jìn)一步處理。本方法在步驟47中結(jié)束。 5 在圖5中,以流程圖的形式總結(jié)了圖3中解釋的混淆矩陣和相應(yīng)的元素列表的選擇。在步驟51中啟動處理之后并且在步驟52中已經(jīng) 從子詞語音識別單元接收音素串之后,必須確定用戶語言以確定語言 對的一種語言(步驟53)。語言對的確定對于混淆矩陣和元素列表的選 擇是必須的。在下一步驟中,在步驟54中確定使用識別系統(tǒng)的官方語io 音。在步驟55中,詢問使用系統(tǒng)的國家是否存在多于一種的官方語音。 如果不存在,官方語音是己知的且可以在步驟56中確定語言對。 一旦 語言對己知,能夠在步驟57中確定相應(yīng)的混淆矩陣,并且能在步驟58 中確定最佳匹配元素的候選列表。如結(jié)合圖4所討論的,該候選列表 能夠被輸入到第二識別步驟(步驟59)。在一步識別過程的情況下,最15佳匹配元素被呈現(xiàn)給用戶,以用于確認(rèn)或進(jìn)一步的選擇。在一個國家 中存在多于一種官方語言的情況下,在步驟60必須確定可用于識別處 理的可能的混淆矩陣。在上述示例中,對于在瑞士旅行的英語旅行者, 已確定的組包含英語-德語、英語-法語和英語-意大利語的矩陣元素。 為了確定哪個混淆矩陣將用于匹配過程,在步驟61中確定哪個矩陣具20 有最小混淆數(shù),表示哪種語言是最好地匹配用戶語言的語言。這能夠 通過比較矩陣的分?jǐn)?shù)完成。在步驟62中,根據(jù)分?jǐn)?shù)選擇矩陣。當(dāng)通過 計算分?jǐn)?shù)獲知最佳匹配語言時,選擇所述語言的列表元素的列表且使 用所選的矩陣和相應(yīng)的元素列表確定最佳匹配條目的候選列表(步驟 63)。在步驟65中處理結(jié)束之前,在步驟64中能夠輸出結(jié)果以用于進(jìn)25 —步的處理??偠灾景l(fā)明通過使用比較不同語言的混淆矩陣允許存儲器 和CPU有效地通過語音從不同于用戶語言的語言的列表選擇條目。
權(quán)利要求
1.用于經(jīng)由語音輸入從元素列表選擇列表元素的方法,該方法包括以下步驟為所述語音輸入識別子詞單元串,將識別的子詞單元串與所述元素列表相比較,并且基于比較結(jié)果產(chǎn)生最佳匹配元素的候選列表,其中為產(chǎn)生最佳匹配元素的候選列表,使用包含矩陣元素的混淆矩陣,所述矩陣元素包括關(guān)于不同語言的子詞單元的混淆概率的信息。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述混淆矩陣中的每個矩陣元 素表示特定子詞單元對的混淆概率,所述子詞單元對包含第一語言的 子詞單元和第二語言的子詞單元。15
3.根據(jù)權(quán)利要求1或2所述的方法,其中所述混淆矩陣包含第一語言 的可能子詞單元以及所述第一語言的可能子詞單元與另一語言的子詞 單元混淆的概率。
4. 根據(jù)前面權(quán)利要求中任意一個所述的方法,其中使用被訓(xùn)練成識別 20第一語言的子詞單元的子詞單元語音識別單元來識別子詞單元串,以識別與第一語言不同的語言的語音輸入。
5. 根據(jù)前面權(quán)利要求中任意一個所述的方法,其中提供不同的混淆矩 陣,所述混淆矩陣提供用于不同語言對的混淆概率。25
6. 根據(jù)前面權(quán)利要求中任意一個所述的方法,其中通過確定用戶語言 和通過確定元素列表的語言來確定語言對和相應(yīng)的混淆矩陣。
7. 根據(jù)前面權(quán)利要求中任意一個所述的方法,其中所述元素列表包括 30用于引導(dǎo)用戶到列表的目的地點之一的導(dǎo)航系統(tǒng)中使用的不同目的地點.
8. 根據(jù)權(quán)利要求5或7所述的方法,其中為確定使用哪個混淆矩陣, 確定使用導(dǎo)航系統(tǒng)的國家,所述信息用于確定包括不同目的地點的元 素列表的語言和/或用于確定語言對中的一種語言。5
9. 根據(jù)權(quán)利要求6至8中任意一個所述的方法,其中為了確定使用哪 個混淆矩陣,確定導(dǎo)航系統(tǒng)的用戶語言,并且所述用戶語言用于確定 語言對的另一語 曰。io
10.根據(jù)權(quán)利要求8或9所述的方法,其中,根據(jù)使用導(dǎo)航系統(tǒng)的國 家的語言且根據(jù)用戶語言選擇所述混淆矩陣。
11. 據(jù)前面權(quán)利要求中任意一個所述的方法,其中當(dāng)以不同的語言提供不同的元素列表并要確定最佳匹配項目的候選列表時,不同的列15 表被組合并且基于來自于不同列表的元素產(chǎn)生最佳匹配項目的候選列表。
12. 根據(jù)前面權(quán)利要求中任意一個所述的方法,其中當(dāng)存在具有不同 的語言對的不同的混淆矩陣并且提供多個列表元素時,并且當(dāng)必須選20擇混淆矩陣之一以用于確定候選列表時,選擇具有最小平均混淆數(shù)的 混淆矩陣。
13. 根據(jù)權(quán)利要求12所述的方法,其中當(dāng)已經(jīng)選擇所述混淆矩陣之一 時,根據(jù)所選的混淆矩陣選擇所述不同列表的元素列表。25
14. 根據(jù)權(quán)利要求12或13所述的方法,其中為確定所述最小平均混 淆數(shù),為每個矩陣計算分?jǐn)?shù),所述分?jǐn)?shù)表示與用戶語言的符合度。
15. 根據(jù)權(quán)利要求14所述的方法,其中通過確定每個矩陣的熵來確定 30所述分?jǐn)?shù),所述熵越低,與用戶語言的符合度越好。
16. 根據(jù)權(quán)利要求14或15所述的方法,其中通過確定共有信息來確定所述分?jǐn)?shù),共有信息越高,與用戶語言的符合度越好。
17. 根據(jù)權(quán)利要求14至16中任意一個所述的方法,其中通過使用不 同矩陣和使用測試數(shù)據(jù)實施識別試驗來確定所述分?jǐn)?shù),具有最高識別5 率的矩陣用于產(chǎn)生候選列表。
18. 用于經(jīng)由語音輸入從元素列表選擇列表元素的語音識別系統(tǒng),該系統(tǒng)包括為所述語音輸入識別子詞單元串的子詞單元語音識別單元, 10 將識別的子詞單元串與所述元素列表進(jìn)行比較并且基于比較結(jié)果 產(chǎn)生最佳匹配元素的候選列表的子詞單元比較單元,存儲至少一個混淆矩陣的存儲器,每個混淆矩陣包含矩陣元素, 所述矩陣元素包括關(guān)于第一語言的子詞單元與另一語音的子詞單元混 淆的混淆概率的信息, 15 其中所述子詞單元比較單元基于所述至少一個混淆矩陣產(chǎn)生最佳 匹配元素的列表。
19. 根據(jù)權(quán)利要求18所述的語音識別系統(tǒng),其中所述混淆矩陣中的每個矩陣元素表示特定子詞單元對的混淆概率,所述子詞單元對包含20 第一語言的子詞單元和第二語言的子詞單元。
20. 根據(jù)權(quán)利要求18或19所述的語音識別系統(tǒng),其中所述混淆矩陣 包含表示第一語言的可能子詞單元與第二語言的子詞單元的混淆概率 的矩陣元素。25
21. 根據(jù)權(quán)利要求18至20中任意一個所述的語音識別系統(tǒng),其中所 述子詞單元語音識別單元被訓(xùn)練成識別第一語言的子詞單元并且產(chǎn)生 用于不同于第一語言的語言的語音輸入的子詞單元串。
22.根據(jù)權(quán)利要求18至21中任意一個所述的語音識別系統(tǒng),其中所 述存儲器包含不同的混淆矩陣,所述混淆矩陣提供用于不同語言的不 同子詞單元對的混淆概率。
23.根據(jù)權(quán)利要求22所述的語音識別系統(tǒng),其中所述系統(tǒng)進(jìn)一步包括確定子詞單元對的兩種語言的語言對確定單元。
24.根據(jù)權(quán)利要求18至23中任意一個所述的語音識別系統(tǒng),其中提 供包含所述元素列表的數(shù)據(jù)庫,所述元素列表對應(yīng)于用于引導(dǎo)用戶到 列表的目的地址之一的導(dǎo)航系統(tǒng)中使用的不同目的地點。
25. 根據(jù)權(quán)利要求23或24所述的語音識別系統(tǒng),其中所述語言對確 io定單元包括確定語音識別系統(tǒng)的用戶語言的用戶語言確定單元,所述用戶語言用于確定子詞單元對的語言之一。
26. 根據(jù)權(quán)利要求18至25中任意一個所述的語音識別系統(tǒng),其中所 述語言對確定單元進(jìn)一步包括確定交通工具正在行駛的國家的官方語15言的國家確定單元,所述語言用于確定語言對的另一語言。
27. 根據(jù)權(quán)利要求26所述的語音識別系統(tǒng),其中所述國家確定單元包 括確定實際交通工具位置和推斷出交通工具正在行駛的國家的官方語 言的交通工具位置確定單元。20
28. 根據(jù)權(quán)利要求18至27中任意一個所述的語音識別系統(tǒng),其中提 供從多個混淆矩陣選擇混淆矩陣的混淆矩陣選擇單元,所述混淆矩陣 選擇單元根據(jù)從語言對確定單元接收的信息選擇混淆矩陣。
29.根據(jù)權(quán)利要求18至28中任意一個所述的語音識別系統(tǒng),進(jìn)一步 包括確定交通工具正在行駛的國家的官方語言的官方語言確定單元, 從混淆矩陣組中選擇混淆矩陣的混淆矩陣選擇單元,所述組包含 混淆矩陣,在混淆矩陣中,語言對中的一種語言是用戶語言并且語言30 對中的另一語言是交通工具正在行駛的國家的官方語言之一。
30.根據(jù)權(quán)利要求18至29中任意一個所述的語音識別系統(tǒng),其中提5供確定每個混淆矩陣的混淆平均數(shù)的混淆確定單元。
31. 根據(jù)權(quán)利要求29或30所述的語音識別系統(tǒng),其中如果提供具有語言對的多個混淆矩陣,在其中語言對中的一種語言是用戶語言并且另一語言是使用所述語音識別系統(tǒng)的國家的官方語言,則所述混淆矩陣選擇單元選擇具有最小混淆數(shù)的矩陣。
32. 根據(jù)權(quán)利要求29至31中任意一個所述的語音識別系統(tǒng),其中所 述混淆矩陣選擇單元依照提供具有最小混淆數(shù)的矩陣的信息的混淆確定單元的信息來選擇所述混淆矩陣。
33. 根據(jù)權(quán)利要求18至32中任意一個所述的語音識別系統(tǒng),其中提 供為每個混淆矩陣確定分?jǐn)?shù)的分?jǐn)?shù)確定單元,所述分?jǐn)?shù)表示與用戶語 言的符合度。
34. 根據(jù)權(quán)利要求29至33中任意一個所述的語音識別系統(tǒng),其中所 述混淆矩陣選擇單元根據(jù)不同矩陣的分?jǐn)?shù)從所述多個混淆矩陣中選擇 混淆矩陣。
35.根據(jù)權(quán)利要求18至34中任意一個所述的語音識別系統(tǒng),其中所 述語音識別系統(tǒng)根據(jù)權(quán)利要求1至17中任意一個所述的方法工作。
36.從元素列表產(chǎn)生最佳匹配元素的候選列表的方法,包括根據(jù)語音輸入產(chǎn)生子詞單元串; 25 使用將一種語言的子詞單元與另一語言的子詞單元相關(guān)聯(lián)的混淆 矩陣轉(zhuǎn)換所述子詞單元串;將轉(zhuǎn)換的串與所述元素列表進(jìn)行比較;以及基于比較結(jié)果創(chuàng)建最佳匹配元素的候選列表。
37.用于經(jīng)由語音輸入從元素列表選擇列表元素的語音識別系統(tǒng),所 述系統(tǒng)包括用于從所述語音輸入產(chǎn)生子詞單元串的裝置;用于存儲包括與不同語言的子詞單元相關(guān)的概率的至少一個混淆 矩陣的裝置;用于將所述子詞單元串與所述元素列表進(jìn)行比較的裝置,所述比 較利用所述至少一個混淆矩陣;以及 5 用于基于比較結(jié)果產(chǎn)生最佳匹配元素的候選列表的裝置。
38. 根據(jù)權(quán)利要求37所述的系統(tǒng),其中所述子詞單元串的語言不同于 元素列表的元素的語言,并且其中所述混淆矩陣包括用于所述兩種語 言的子詞單元的混淆概率。10
39. 根據(jù)權(quán)利要求38所述的系統(tǒng),進(jìn)一步包括 用于從候選列表選擇元素的識別裝置;以及 用于向識別裝置登記所述候選列表的裝置。
40. —種處理器可讀介質(zhì),具有用于經(jīng)由語音輸入從元素列表選擇列 表元素的處理器可執(zhí)行指令,當(dāng)所述指令在設(shè)備的處理器上執(zhí)行時, 進(jìn)行以下步驟,包括為所述語音輸入識別子詞單元串,將識別的子詞單元串與所述元素列表進(jìn)行比較,并且基于比較結(jié) 20 果產(chǎn)生最佳匹配元素的候選列表,其中為了產(chǎn)生最佳匹配元素的候選 列表,使用包含矩陣元素的混淆矩陣,所述矩陣元素包括關(guān)于不同語 言的子詞單元的混淆概率的信息。
全文摘要
本發(fā)明涉及多語言非母語語音識別,具體涉及一種用于經(jīng)由語音輸入從元素列表選擇列表元素的方法,該方法包括以下步驟為所述語音輸入識別子詞單元串,將識別的子詞單元串與元素列表進(jìn)行比較,且基于比較結(jié)果產(chǎn)生最佳匹配元素的候選列表,其中為產(chǎn)生最佳匹配元素的候選列表,使用包含矩陣元素的混淆矩陣,所述矩陣元素包括關(guān)于不同語言的子詞單元(包括不同自然語言的子詞單元)的混淆概率的信息。
文檔編號G10L15/00GK101276585SQ200810086920
公開日2008年10月1日 申請日期2008年3月28日 優(yōu)先權(quán)日2007年3月28日
發(fā)明者D·威利特, G·維爾申, M·亨內(nèi)克, M·施瓦茨 申請人:哈曼貝克自動系統(tǒng)股份有限公司