專利名稱:不同語言的現(xiàn)有語音識(shí)別方案的快速原形化的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識(shí)別領(lǐng)域。
背景技術(shù):
說明書中使用的術(shù)語的定義以下是本領(lǐng)域已知的并在說明書中使用的術(shù)語的定義 字素(grapheme)是書面語言的基本單位。 音素(phoneme)是聲音的最小部分單位,其用以形成話語之間的有意義的對 比。眷翻譯(translate)是文本的意義的理解以及用另一語言傳達(dá)相同消息的同等 文本的后期制作。 音譯(transliterate)是以系統(tǒng)化方式將文本從一個(gè)書寫系統(tǒng)轉(zhuǎn)換成另一書 寫系統(tǒng)的處理。如今,為了提高客戶服務(wù),交互技術(shù)扮演了關(guān)鍵角色。如IVR(交互式語音應(yīng)答) 交互技術(shù)接受口頭的用戶輸入和/或請求,并響應(yīng)于用戶的請求提供預(yù)記錄的或動(dòng)態(tài)生成 的輸出。典型地,IVR應(yīng)用使用語音識(shí)別系統(tǒng)識(shí)別并將口語單詞或口語單詞序列轉(zhuǎn)換成機(jī) 器可讀形式,用于進(jìn)一步處理和/或應(yīng)答用戶查詢。典型地,這些語音識(shí)別系統(tǒng)被部署用于 特定語言,因此當(dāng)必須部署相同系統(tǒng)用于不同語言時(shí),必須移植(port)現(xiàn)有系統(tǒng),使其能 夠理解新語言,這等同于建立新的應(yīng)用。由于以下原因,大部分現(xiàn)有系統(tǒng)以英語來部署(a)語言的更廣泛的可接受性;以及(b)英語的信息和其他資源的隨時(shí)性。然而,隨著在本國語言并非英語的各個(gè)國家中基于語音的方案的可接受性增加, 急切地需要將源語言(例如英語)的基于現(xiàn)有語音識(shí)別的應(yīng)用轉(zhuǎn)換成目標(biāo)語言(例如印地 語)ο典型地,基于現(xiàn)有語音識(shí)別的方案需要以下組件 具有用于聲學(xué)識(shí)別的聲學(xué)模型的語音識(shí)別(SR)引擎; 必須識(shí)別的單詞的發(fā)音詞典; 語音文法或語言模型;以及 用于產(chǎn)生來自用戶的響應(yīng)的語音提示,S卩,提示用戶提交他們的查詢。前三個(gè)組件在一起協(xié)作將口語語音轉(zhuǎn)換成文本,而第四個(gè)組件幫助基于現(xiàn)有語音 識(shí)別的方案與用戶交流。典型地,從源語言將基于現(xiàn)有語音識(shí)別的方案轉(zhuǎn)換成目標(biāo)語言需 要將這四個(gè)組件移植到目標(biāo)語言。但是,如果以目標(biāo)語言適當(dāng)?shù)貙?shí)現(xiàn)了其他兩個(gè)組件(即發(fā)音詞典和語音文法),則 為了特定語言調(diào)整聲學(xué)模型,并使用聲學(xué)模型以滿意的精度識(shí)別另一語言的語音。實(shí)質(zhì)上,從一個(gè)語言將基于現(xiàn)有語音識(shí)別的方案轉(zhuǎn)換成另一語言必須創(chuàng)建用于目
4標(biāo)語言的新的發(fā)音詞典,其包含基于語音識(shí)別的方案要識(shí)別的所有單詞以及目標(biāo)語言的語 音文法模型。此外,必須將源語言的提示轉(zhuǎn)換成目標(biāo)語言的提示。用于將源語言的基于現(xiàn)有語音識(shí)別的方案移植成目標(biāo)語言的這些修改需要等同 于建立完全新的基于語音識(shí)別的方案的工作量。在現(xiàn)有技術(shù)中存在各種嘗試,以開發(fā)能夠 容易地將應(yīng)用從一個(gè)語言移植成另一語言的系統(tǒng)。具體地,美國專利7406417公開了一種調(diào)節(jié)用于自動(dòng)語音處理的數(shù)據(jù)庫的方法。 該文檔公開了一種神經(jīng)網(wǎng)絡(luò),其可被訓(xùn)練以借助于通過自動(dòng)匹配字素和音素所生成的數(shù)據(jù) 庫來合成或識(shí)別語音。首先,對于具有相同數(shù)目的字素和音素的單詞來匹配字素和音素。 接下來,在將字素與先前音素組合的一系列步驟中,對于具有比音素更多字素的單詞來匹 配字素和音素。然后,對于具有比音素更少字素的單詞來匹配字素和音素。在每個(gè)步驟之 后,清除在先前步驟中做出的較少的和未成功的匹配。在這個(gè)處理完成之后,可使用數(shù)據(jù)庫 來訓(xùn)練神經(jīng)網(wǎng)絡(luò)和字素,或者可借助于訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)將文本的字母轉(zhuǎn)換成相應(yīng)的音素ο此外,美國專利申請2005197835公開了一種方法和裝置,用于生成由非本國演講 者發(fā)出的外語單詞的演講者獨(dú)立語音識(shí)別的聲學(xué)模型。該文檔公開了自動(dòng)生成的并利用來 自本國語言和外國語言的訓(xùn)練聲學(xué)模型的用于語音識(shí)別的聲學(xué)模型。利用音素到音素的映 射來實(shí)現(xiàn)通過本國語言音素對外國語言單詞的描述。使用音素到音素的映射來訓(xùn)練外國語 言單詞,這通過本國語言音素以外國語言語音素材來描述。創(chuàng)建新的音素詞典,其包含外國語言單詞以及由本國語言音素轉(zhuǎn)錄的本國語言單 詞??衫猛鈬Z言和本國語言訓(xùn)練素材導(dǎo)出健壯的本國語言聲學(xué)模型??墒褂盟鲇成?來訓(xùn)練字素到音素轉(zhuǎn)換器(即外國語言到本國語言),以生成對于新的外國語言單詞的本 國語言發(fā)音。此外,美國專利申請2009150153公開了使用聲學(xué)數(shù)據(jù)的字素到音素的轉(zhuǎn)換。該文 檔公開了使用聲學(xué)數(shù)據(jù)來改進(jìn)用于語音識(shí)別的字素到音素的轉(zhuǎn)換,例如用以在語音撥號(hào)系 統(tǒng)中更精確地識(shí)別口語名稱。描述了聲學(xué)和音素的聯(lián)合模型(聲學(xué)數(shù)據(jù)、音素序列、字素序 列以及音素序列和字素序列之間的排列),使用聲學(xué)數(shù)據(jù)通過適配字素模型參數(shù)的最大可 能性訓(xùn)練和區(qū)別性訓(xùn)練對所述模型進(jìn)行重新訓(xùn)練。還描述了用于接收的聲學(xué)數(shù)據(jù)的字素標(biāo) 簽的非監(jiān)督集合,從而自動(dòng)獲得可在重新訓(xùn)練時(shí)使用的大量實(shí)際采樣。可過濾出不滿足信 任閾值的語音輸入,而不被重新訓(xùn)練的模型使用。此外,世界知識(shí)產(chǎn)權(quán)組織文檔No. 2009/150591公開了一種方法和設(shè)備,用于生成 主題特定的詞匯表和計(jì)算機(jī)程序產(chǎn)品。該文檔公開了一種方法,用于從公用文本而計(jì)算機(jī) 輔助生成主題特定的詞匯表。在該文檔中公開的步驟如下語言和主題特定文本的自動(dòng)選 擇;詞匯表項(xiàng)目的自動(dòng)生成,其每個(gè)包括基于所選文本的單詞以及標(biāo)音;采用詞匯表項(xiàng)目 的基于字素結(jié)構(gòu)的分類來實(shí)現(xiàn)詞匯表項(xiàng)目的自動(dòng)生成,以根據(jù)多個(gè)預(yù)定類型來分類詞匯表 項(xiàng)目;詞匯表項(xiàng)目類型特定的字素到音素的轉(zhuǎn)換;以及獲得用于單詞的標(biāo)音。然而,上述文檔不適于在現(xiàn)有部署中通過最小的改變將現(xiàn)有語音識(shí)別方案移植到 多個(gè)目標(biāo)語言。因此,需要一種系統(tǒng),通過重用現(xiàn)有應(yīng)用的語音識(shí)別引擎使得現(xiàn)有應(yīng)用被快 速移植和/或修改,從而以多個(gè)目標(biāo)語言工作。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種系統(tǒng),能夠?qū)F(xiàn)有語音識(shí)別方案快速移植到以另一目 標(biāo)語言工作。本發(fā)明的另一目的在于提供一種系統(tǒng),用于精確的源到目標(biāo)語言詞典和語音文法 音譯和翻譯。本發(fā)明的另一目的在于提供一種系統(tǒng),其自動(dòng)生成目標(biāo)語言單詞的源語言音素發(fā)
曰°一種用于移植源語言的語音識(shí)別方案以識(shí)別目標(biāo)語言的系統(tǒng),所述語音識(shí)別方案 包括語音識(shí)別引擎、源語言的發(fā)音詞典、源語言的語音文法文件、源語言的提示,所述系統(tǒng) 包括 詞典轉(zhuǎn)換裝置,適于將源語言的發(fā)音詞典轉(zhuǎn)換成在目標(biāo)語言中使用的等同詞 典,所述詞典轉(zhuǎn)換裝置具有i.第一數(shù)據(jù)庫,用于存儲(chǔ)與目標(biāo)語言的相似單詞相應(yīng)的源語言的單詞的詞典;ii.與所述第一數(shù)據(jù)庫協(xié)作的翻譯裝置,適于接收源語言的每個(gè)單詞,以及提供目 標(biāo)語言的其相應(yīng)單詞;iii.音譯裝置,適于接收所述翻譯的單詞并將其映射至源語言字素;iv.字素到音素轉(zhuǎn)換裝置,適于針對所述源語言字素中的每個(gè)生成源語言音素,以 獲得源語言的目標(biāo)語言單詞的音素發(fā)音;v.查詢表生成裝置,適于從所述字素到音素轉(zhuǎn)換裝置接收源語言的音譯的目標(biāo)語 言單詞,以及還接收所述單詞的等同音素發(fā)音,并且制備查詢表;眷文法轉(zhuǎn)換裝置,適于修改源語言的語音文法文件,以處理目標(biāo)語言的基于自由 語音的語音識(shí)別方案,所述文法轉(zhuǎn)換裝置具有i.翻譯裝置,適于接收源語言的語音文法文件,以及將所述文法文件翻譯成目標(biāo)
語曰 ;ii.音譯裝置,適于接收所述翻譯的文法文件,以及將所述翻譯的文法文件音譯成 源語言,以及用源語言提供針對目標(biāo)語言的音譯文法文件; 提示生成裝置,適于將源語言的話音提示轉(zhuǎn)換成目標(biāo)語言,所述提示生成裝置 具有i.翻譯裝置,適于將可包含在源語言的話音提示中的單詞轉(zhuǎn)換成目標(biāo)語言的單 詞;ii.識(shí)別裝置,適于使用所述詞典轉(zhuǎn)換裝置的所述查詢表中的單詞以識(shí)別與可包 含在目標(biāo)語言的提示中的單詞相應(yīng)的音素發(fā)音,并提供可包含在源語言的提示中的單詞的 音素序列;iii.文本到語音轉(zhuǎn)換裝置,適于接收所述單詞的音素序列,并生成可包含在源語 言的提示中的單詞串;iv.文法調(diào)節(jié)裝置,適于接收所轉(zhuǎn)換的可包含在源語言的提示中的單詞串,并根據(jù) 針對目標(biāo)語言的音譯文法文件設(shè)置單詞,以及提供基于文法修改的文本的提示;v.語音生成裝置,適于接收所述基于文法修改的文本的提示,以及針對所述基于 文法修改的文本的提示生成基于語音的輸出;
6
與所述提示生成裝置協(xié)作的提示裝置,適于輸出與目標(biāo)語言的提示相應(yīng)的所生 成的語音,以引導(dǎo)用戶提交他們的查詢; 接收裝置,適于從用戶接收目標(biāo)語言的基于語音的查詢,所述查詢適于被接收, 并通過所述語音識(shí)別引擎使用針對目標(biāo)語言的所述查詢表和所述音譯文法文件轉(zhuǎn)換成源 語言文本和源語言表示; 處理裝置,適于處理所述源語言文本和執(zhí)行預(yù)定操作,并進(jìn)一步適于提供處理 的輸出; 編譯裝置,與所述詞典轉(zhuǎn)換裝置、所述語音文法轉(zhuǎn)換裝置、所述提示生成裝置、 和所述處理裝置協(xié)作,以及適于編譯目標(biāo)語言的最終輸出;以及 回放裝置,適于播放目標(biāo)語言的所述最終輸出。根據(jù)本發(fā)明,提供一種用于移植源語言的語音識(shí)別方案以用目標(biāo)語言工作的方 法,所述方法包括以下步驟 修改源語言的發(fā)音詞典,以提供目標(biāo)語言的發(fā)音詞典;眷修改源語言的語音文法文件,以提供目標(biāo)語言的語音文法文件;眷轉(zhuǎn)換源語言的話音提示,以提供目標(biāo)語言的話音提示;目標(biāo)語言方案然后 提示用戶用目標(biāo)語言提交他們的查詢; 從用戶接收目標(biāo)語言的基于語音的查詢; 使用目標(biāo)語言的修改的發(fā)音詞典將接收的查詢轉(zhuǎn)換成目標(biāo)語言; 查詢與識(shí)別的目標(biāo)語言文本等同的源語言文本;眷處理基于轉(zhuǎn)換的源語言文本的查詢,以執(zhí)行預(yù)定操作和提供處理的輸出;以及 編譯目標(biāo)語言的最終輸出;以及 播放目標(biāo)語言的所述最終輸出。典型地,修改源語言的發(fā)音詞典,以提供目標(biāo)語言的發(fā)音詞典的步驟包括以下步 驟 提供第一數(shù)據(jù)庫,其用于存儲(chǔ)源語言的單詞的詞典; 翻譯源語言的每個(gè)單詞,并提供目標(biāo)語言的其相應(yīng)單詞; 將所述翻譯的單詞中的每個(gè)音譯成源語言字素; 針對所述源語言字素的每個(gè)生成源語言音素序列,以獲得源語言的目標(biāo)語言單 詞的音素發(fā)音;以及 通過將目標(biāo)語言的音譯單詞與其等同的音素發(fā)音映射來創(chuàng)建目標(biāo)語言的單詞 的查詢表。優(yōu)選地,修改源語言的語音文法文件,以提供目標(biāo)語言的語音文法文件的步驟包 括以下步驟將源語言的語音文法文件翻譯成目標(biāo)語言,以及將所述翻譯的語音文法文件 從目標(biāo)語言音譯成源語言。此外,將源語言的話音提示轉(zhuǎn)換成目標(biāo)語言的步驟包括以下步驟 將源語言的話音提示翻譯成目標(biāo)語言; 識(shí)別與可包含在目標(biāo)語言的提示中的單詞相應(yīng)的音素發(fā)音,以及提供可包含在 源語言的提示中的單詞的音素序列;以及
生成針對單詞的所述音素序列的語音,以及生成針對單詞提示的所述音素序列 的基于語音的輸出。
現(xiàn)在將參照附圖描述本發(fā)明,其中圖1示出根據(jù)本發(fā)明的提出的系統(tǒng)的概況及其具有現(xiàn)有語音識(shí)別方案的接口 ;圖2示出根據(jù)本發(fā)明的詞典轉(zhuǎn)換裝置的示意圖;圖3示出根據(jù)本發(fā)明的文法轉(zhuǎn)換裝置的示意圖;圖4示出根據(jù)本發(fā)明的提示生成裝置的示意圖;以及圖5示出根據(jù)本發(fā)明的將語音識(shí)別方案從源語言移植到目標(biāo)語言的方法的流程 圖。
具體實(shí)施例方式典型地,針對特定源語言(典型地英語)建立傳統(tǒng)的語音識(shí)別方案,然而,隨著在 本國語言不同于源語言的各個(gè)國家中基于語音的方案的可接受性增加,需要以最小開發(fā)工 作量將以源語言工作的現(xiàn)有語音方案轉(zhuǎn)換成目標(biāo)語言。為了克服現(xiàn)有語音識(shí)別方案的這些 缺點(diǎn),本發(fā)明設(shè)想從源語言的基于現(xiàn)有語音識(shí)別的方案建立目標(biāo)語言的語音識(shí)別系統(tǒng)。具體地,本發(fā)明所設(shè)想的系統(tǒng)能夠?qū)⒃凑Z言的任意現(xiàn)有語音識(shí)別方案移植到目標(biāo) 語言,因此最小化了在開發(fā)過程中涉及的時(shí)間和工作量,并且能夠重用現(xiàn)有語音識(shí)別方案 組件。參照附圖,圖1示出將現(xiàn)有語音識(shí)別方案從語言移植到目標(biāo)語言的本發(fā)明的概況 及其具有源語言的現(xiàn)有語音識(shí)別方案的接口。建立具有一個(gè)或多個(gè)調(diào)用流單元(一般地,通過圖1的標(biāo)號(hào)10代表)的傳統(tǒng)的語 音識(shí)別應(yīng)用。每個(gè)傳統(tǒng)的調(diào)用流單元10包括執(zhí)行以下功能的模塊·由提示裝置12執(zhí)行的提示用戶說話/提交他們的請求/查詢;·由接收裝置14執(zhí)行的接收用戶請求;·由語音識(shí)別引擎16執(zhí)行的識(shí)別用戶請求;·由處理裝置18執(zhí)行的處理所識(shí)別的文本,以應(yīng)答用戶請求; 由編譯裝置20執(zhí)行的編譯向用戶提供的結(jié)果;以及 由回放裝置22執(zhí)行的向用戶提供響應(yīng)。典型地,所識(shí)別的文本的處理的步驟包括兩種類型數(shù)據(jù)的處理1.語音(聲學(xué))數(shù)據(jù);以及2.文本數(shù)據(jù)。在與用戶交互時(shí)使用語音數(shù)據(jù),而為了處理從語音數(shù)據(jù)提取的信息內(nèi)部處理文本 數(shù)據(jù)。為了將這樣的現(xiàn)有語音識(shí)別方案移植到目標(biāo)語言,本發(fā)明提出了通過采用以下步 驟移植現(xiàn)有方案 保持文本數(shù)據(jù)以及由現(xiàn)有語音識(shí)別調(diào)用流單元對其進(jìn)行的處理不變;
眷保持(源/英語語言的)語音數(shù)據(jù)的文本數(shù)據(jù)表示不變,而不管目標(biāo)語言;以及眷修改源語音識(shí)別資源(即音素詞典和語音文法),以處理目標(biāo)語言。根據(jù)本發(fā)明,參照圖1,調(diào)用流單元與應(yīng)用數(shù)據(jù)24 —起在目標(biāo)語言中保持不變。由 框100表示本發(fā)明所執(zhí)行的修改。為了有效地將任意現(xiàn)有語音識(shí)別方案移植到目標(biāo)語言,本發(fā)明提出修改音素詞 典、語音文法和話音提示。系統(tǒng)100包括用于將現(xiàn)有語音識(shí)別方案從源語言移植到目標(biāo)語言的以下組件 詞典轉(zhuǎn)換裝置102,適于將源語言的發(fā)音詞典轉(zhuǎn)換成目標(biāo)語言的等同發(fā)音詞
Ffti. ·
ZN 文法轉(zhuǎn)換裝置104,適于轉(zhuǎn)換源語言的語音文法文件,以處理目標(biāo)語言的基于自 由語音的語音識(shí)別方案;以及 提示生成裝置106,適于將源語言的話音提示轉(zhuǎn)換成目標(biāo)語言。本發(fā)明的上述組件結(jié)合現(xiàn)有語音識(shí)別方案的組件運(yùn)行,移植現(xiàn)有方案以識(shí)別目標(biāo) 語言?,F(xiàn)有語音識(shí)別方案的組件如下 應(yīng)用數(shù)據(jù)24,提供基于源語音識(shí)別方案的數(shù)據(jù),包括源語言發(fā)音詞典、語音文法 文件和提示; 提示裝置12,適于引導(dǎo)用戶提交他們的查詢; 接收裝置14,適于從用戶接收目標(biāo)語言的基于語音的查詢; 現(xiàn)有語音識(shí)別方案的語音識(shí)別引擎16,接收基于語音的查詢,并使用詞典修改 裝置102將其轉(zhuǎn)換成源語言音素; 處理裝置18,適于處理源語言文本并執(zhí)行預(yù)定的操作,以及還適于提供所處理 的輸出; 編譯裝置20,適于通過編譯來自詞典修改裝置102、語音文法修改裝置104、提 示生成裝置12和處理裝置18的結(jié)果來編譯目標(biāo)語言的最終輸出;以及·回放裝置22,適于播放最終編譯的輸出。圖2示出根據(jù)本發(fā)明的詞典轉(zhuǎn)換裝置102的示意圖。詞典轉(zhuǎn)換裝置102從源語言詞典提取每個(gè)單詞,并使用翻譯裝置202確定其翻譯。 翻譯裝置202檢查單詞是否存在于第一數(shù)據(jù)庫200中,如果單詞存在,則從第一數(shù)據(jù)庫200 提取目標(biāo)語言的相應(yīng)翻譯的單詞。如果單詞不存在于第一數(shù)據(jù)庫200中,則使用音譯裝置 204將單詞音譯成目標(biāo)語言字素?;趩卧~是專有名詞的假設(shè)來執(zhí)行到目標(biāo)語言的音譯。 因此,詞典轉(zhuǎn)換裝置102可處理普通名詞和專有名詞。此外,通過音譯裝置204將翻譯的/音譯的單詞音譯成源語言字素。將源語言的 音譯單詞提供至字素到音素轉(zhuǎn)換裝置206,其接收音譯的單詞,并生成源語言音素序列,獲 得源語言的目標(biāo)語言單詞的音素發(fā)音?,F(xiàn)在,將借助于以下實(shí)例描述源語言詞典到目標(biāo)語言的移植。例如,如果我們必須 將單詞“gold”從源語言英語移植到目標(biāo)語言印地語,這可通過以下步驟實(shí)現(xiàn)首先,本發(fā) 明設(shè)想的系統(tǒng)檢查單詞“gold”的類似單詞是否存在于第一數(shù)據(jù)庫200中,如果存在,則通 過翻譯裝置202從第一數(shù)據(jù)庫200選擇翻譯的目標(biāo)語言單詞“―”。然后,通過音譯裝置 204進(jìn)行音譯,將目標(biāo)語言翻譯的單詞“㈣”轉(zhuǎn)換成“sona”。接下來,如表1所示,使用字素到音素轉(zhuǎn)換裝置206通過源語言從sona確定發(fā)音為“s/ow/n/aa”。
表1為了避免每次處理目標(biāo)語言單詞以及獲得源語言的其發(fā)音的開銷,詞典轉(zhuǎn)換裝置 102使用查詢表創(chuàng)建裝置208制備查詢表。查詢表創(chuàng)建裝置208接收用源語言表示的音譯 的目標(biāo)語言單詞以及用源語言的其音素發(fā)音,并創(chuàng)建將兩者映射的查詢表。因此,下一次,語音識(shí)別方案需要識(shí)別目標(biāo)語言的單詞,并且可跳過字素到音素轉(zhuǎn) 換的步驟。該方案可針對作為源語言的發(fā)音詞典一部分的任意音譯單詞直接獲得源語言的 字素序列。這個(gè)處理加速了目標(biāo)語言的詞典創(chuàng)建的處理。參照圖1,詞典轉(zhuǎn)換裝置102將查詢表提供至“音素詞典”26,后者將目標(biāo)語言單詞 發(fā)音提供至調(diào)用流單元10的語音識(shí)別引擎16。因此,語音識(shí)別引擎16通過基于源語言的 腳本將語音識(shí)別方案所識(shí)別的源語言單詞移植成目標(biāo)語言的單詞來僅理解/識(shí)別源語言, 該系統(tǒng)可快速和健壯地識(shí)別目標(biāo)語言單詞。這樣,語音識(shí)別引擎16可在無需開發(fā)開銷的情 況下被有效地重用,從而節(jié)省了移植現(xiàn)有語音識(shí)別應(yīng)用以理解目標(biāo)語言的時(shí)間。圖3示出根據(jù)本發(fā)明的文法轉(zhuǎn)換裝置104的示意圖。根據(jù)本發(fā)明,因?yàn)閷τ诂F(xiàn)有菜單驅(qū)動(dòng)的語音識(shí)別方案來說,該方案僅期望一個(gè)單 詞或單詞的小序列作為來自用戶的輸入,所以通常不需要文法轉(zhuǎn)換裝置104。在期望語音 識(shí)別方案處理自由語音用戶查詢的情況下,需要語音文法修改(源到目標(biāo))。文法轉(zhuǎn)換裝 置104通過采用翻譯裝置300實(shí)現(xiàn)對于目標(biāo)語言的語音文法創(chuàng)建,所述翻譯裝置300接收 源語言的語音文法文件,并將文法文件翻譯成目標(biāo)語言。由音譯裝置302音譯目標(biāo)語言的 這個(gè)翻譯的文件,用源語言提供針對目標(biāo)語言的音譯的文法文件。參照圖1,文法轉(zhuǎn)換裝置104執(zhí)行這些翻譯和音譯,并向調(diào)用流單元10的語音識(shí)別 引擎16給出作為框28表示的針對目標(biāo)語言的語音文法文件的輸出。圖4示出根據(jù)本發(fā)明的提示生成裝置106的示意圖。根據(jù)本發(fā)明,如果在現(xiàn)有方案中使用記錄的提示,則創(chuàng)建目標(biāo)語言的提示的類似 數(shù)據(jù)庫,并且現(xiàn)有語音識(shí)別方案指示用于提示和響應(yīng)于用戶的這個(gè)數(shù)據(jù)庫,另外通過翻譯
10裝置500將源語言的文本提示翻譯成目標(biāo)語言。將翻譯的提示提供至識(shí)別裝置502,后者使 用詞典轉(zhuǎn)換裝置102的查詢表中的單詞以識(shí)別與可包含在目標(biāo)語言的提示中的單詞相應(yīng) 的音素發(fā)音,并提供可包含在源語言的提示中的單詞的音素序列。通過文本到語音轉(zhuǎn)換裝 置504排列單詞的這個(gè)音素序列,以形成可包含在源語言的提示中的單詞串。然后,將排列 的串繼續(xù)傳遞至文法調(diào)節(jié)裝置506,后者根據(jù)針對目標(biāo)語言的音譯文法文件轉(zhuǎn)換可包含在 源語言的提示中的單詞串并設(shè)置單詞,以及提供基于文法修改的文本的提示,由語音生成 裝置508將其實(shí)時(shí)地轉(zhuǎn)換成語音。參照圖1,現(xiàn)有語音識(shí)別方案的提示裝置12與本發(fā)明的提示生成裝置106協(xié)作,向 用戶提供目標(biāo)語言的語音提示。通過接收裝置14接收響應(yīng)于提示的用戶查詢,并且通過語 音識(shí)別引擎16在音素26和文法文件28的幫助下識(shí)別這個(gè)查詢。然后,處理識(shí)別的查詢, 如同通過處理裝置18用源語言進(jìn)行處理。由編譯裝置20提供向用戶的最終處理的輸出, 并且回放裝置22典型地以基于話音的格式向用戶提供編譯的輸出?;胤叛b置22還適于以 文本和/或多媒體格式提供編譯的輸出。因此,通過增加本發(fā)明提出的修改,可將源語言的工作語音識(shí)別方案移植到目標(biāo) 語言的工作語音識(shí)別方案。根據(jù)本發(fā)明,提供一種方法,用于移植源語言的語音識(shí)別方案以 識(shí)別目標(biāo)語言,該方法包括如圖5所示的以下步驟 將源語言的發(fā)音詞典修改成目標(biāo)語言的發(fā)音詞典,1000 ;眷將源語言的語音文法文件修改成目標(biāo)語言的語音文法文件,1002 ; 將源語言的話音提示轉(zhuǎn)換成目標(biāo)語言,1004 ; 提示用戶提交他們的查詢,1006 ; 從用戶接收目標(biāo)語言的基于語音的查詢,1008 ; 使用目標(biāo)語言的修改的發(fā)音詞典將接收的查詢轉(zhuǎn)換成基于目標(biāo)語言的源語言 文本,1010 ; 查詢與識(shí)別的目標(biāo)語言文本等同的源語言文本并處理轉(zhuǎn)換的源語言文本查詢, 以執(zhí)行預(yù)定操作和提供處理的輸出,1012 ; 編譯目標(biāo)語言的最終輸出,1014;以及 播放目標(biāo)語言的所述最終輸出,1016。技術(shù)進(jìn)步本發(fā)明的技術(shù)進(jìn)步包括 提供了建立多語言語音識(shí)別系統(tǒng)的系統(tǒng); 提供了能夠快速移植現(xiàn)有應(yīng)用以通過另一語言工作的系統(tǒng); 提供了保持文本數(shù)據(jù)及其由現(xiàn)有語言識(shí)別調(diào)用流單位的處理不變并生成目標(biāo) 語言單詞的源語言音素發(fā)音的系統(tǒng); 提供了當(dāng)期望用目標(biāo)語言“移植”源語言的現(xiàn)有應(yīng)用時(shí)最小化與設(shè)計(jì)目標(biāo)語言 的新應(yīng)用等同的工作量的系統(tǒng);以及 提供了重用原始應(yīng)用和商業(yè)邏輯的系統(tǒng)。盡管這里主要強(qiáng)調(diào)了優(yōu)選實(shí)施例的組件和組件部分,但是應(yīng)理解,可實(shí)現(xiàn)許多實(shí) 施例并且在不脫離本發(fā)明的原理的情況下可在優(yōu)選實(shí)施例中進(jìn)行許多修改。根據(jù)這里公開 的內(nèi)容,對于本領(lǐng)域普通技術(shù)人員來說,本發(fā)明的優(yōu)選實(shí)施例以及其他實(shí)施例中的這些和其他修改將變得清楚,從而可清楚地理解,以上描述性主題僅被理解為本發(fā)明的說明,而并 非限制。
權(quán)利要求
一種用于移植源語言的語音識(shí)別方案以識(shí)別目標(biāo)語言的系統(tǒng),所述語音識(shí)別方案包括語音識(shí)別引擎、源語言的發(fā)音詞典、源語言的語音文法文件、源語言的提示,所述系統(tǒng)包括●詞典轉(zhuǎn)換裝置,適于將源語言的發(fā)音詞典轉(zhuǎn)換成在目標(biāo)語言中使用的等同詞典,所述詞典轉(zhuǎn)換裝置具有i.第一數(shù)據(jù)庫,用于存儲(chǔ)與目標(biāo)語言的相似單詞相應(yīng)的源語言的單詞的詞典;ii.與所述第一數(shù)據(jù)庫協(xié)作的翻譯裝置,適于接收源語言的每個(gè)單詞,以及提供目標(biāo)語言的其相應(yīng)單詞;iii.音譯裝置,適于接收所述翻譯的單詞并將其映射至源語言字素;iv.字素到音素轉(zhuǎn)換裝置,適于針對所述源語言字素中的每個(gè)生成源語言音素,以獲得源語言的目標(biāo)語言單詞的音素發(fā)音;v.查詢表生成裝置,適于從所述字素到音素轉(zhuǎn)換裝置接收源語言的音譯的目標(biāo)語言單詞,以及還接收所述單詞的等同音素發(fā)音,并且制備查詢表;●文法轉(zhuǎn)換裝置,適于修改源語言的語音文法文件,以處理目標(biāo)語言的基于自由語音的語音識(shí)別方案,所述文法轉(zhuǎn)換裝置具有i.翻譯裝置,適于接收源語言的語音文法文件,以及將所述文法文件翻譯成目標(biāo)語言;ii.音譯裝置,適于接收所述翻譯的文法文件,以及將所述翻譯的文法文件音譯成源語言,以及用源語言提供針對目標(biāo)語言的音譯文法文件;●提示生成裝置,適于將源語言的話音提示轉(zhuǎn)換成目標(biāo)語言,所述提示生成裝置具有i.翻譯裝置,適于將可包含在源語言的話音提示中的單詞轉(zhuǎn)換成目標(biāo)語言的單詞;ii.識(shí)別裝置,適于使用所述詞典轉(zhuǎn)換裝置的所述查詢表中的單詞以識(shí)別與可包含在目標(biāo)語言的提示中的單詞相應(yīng)的音素發(fā)音,并提供可包含在源語言的提示中的單詞的音素序列;iii.文本到語音轉(zhuǎn)換裝置,適于接收所述單詞的音素序列,并生成可包含在源語言的提示中的單詞串;iv.文法調(diào)節(jié)裝置,適于接收所轉(zhuǎn)換的可包含在源語言的提示中的單詞串,并根據(jù)針對目標(biāo)語言的音譯文法文件設(shè)置單詞,以及提供基于文法修改的文本的提示;v.語音生成裝置,適于接收所述基于文法修改的文本的提示,以及針對所述基于文法修改的文本的提示生成基于語音的輸出;●與所述提示生成裝置協(xié)作的提示裝置,適于輸出與目標(biāo)語言的提示相應(yīng)的所生成的語音,以引導(dǎo)用戶提交他們的查詢;●接收裝置,適于從用戶接收目標(biāo)語言的基于語音的查詢,所述查詢適于被接收,并通過所述語音識(shí)別引擎使用針對目標(biāo)語言的所述查詢表和所述音譯文法文件轉(zhuǎn)換成源語言文本和源語言表示;●處理裝置,適于處理所述源語言文本和執(zhí)行預(yù)定操作,并進(jìn)一步適于提供處理的輸出;●編譯裝置,與所述詞典轉(zhuǎn)換裝置、所述語音文法轉(zhuǎn)換裝置、所述提示生成裝置、和所述處理裝置協(xié)作,以及適于編譯目標(biāo)語言的最終輸出;以及●回放裝置,適于播放目標(biāo)語言的所述最終輸出。
2.一種用于移植源語言的語音識(shí)別方案以識(shí)別目標(biāo)語言的方法,所述方法包括以下步驟 修改源語言的發(fā)音詞典,以提供目標(biāo)語言的發(fā)音詞典;眷修改源語言的語音文法文件,以提供目標(biāo)語言的語音文法文件;眷轉(zhuǎn)換源語言的話音提示,以提供目標(biāo)語言的話音提示; 提示用戶用目標(biāo)語言提交他們的查詢; 從用戶接收目標(biāo)語言的基于語音的查詢; 使用目標(biāo)語言的修改的發(fā)音詞典將接收的查詢轉(zhuǎn)換成目標(biāo)語言; 查詢與識(shí)別的目標(biāo)語言文本等同的源語言文本;眷處理基于轉(zhuǎn)換的源語言文本的查詢,以執(zhí)行預(yù)定操作和提供處理的輸出;以及 編譯目標(biāo)語言的最終輸出;以及 播放目標(biāo)語言的所述最終輸出。
3.如權(quán)利要求2所述的方法,其中修改源語言的發(fā)音詞典,以提供目標(biāo)語言的發(fā)音詞 典的步驟包括以下步驟 提供第一數(shù)據(jù)庫,其用于存儲(chǔ)源語言的單詞的詞典; 翻譯源語言的每個(gè)單詞,并提供目標(biāo)語言的其相應(yīng)單詞; 將所述翻譯的單詞中的每個(gè)音譯成源語言字素; 針對所述源語言字素的每個(gè)生成源語言音素序列,以獲得源語言的目標(biāo)語言單詞的 音素發(fā)音;以及 通過將目標(biāo)語言的音譯單詞與其等同的音素發(fā)音映射來創(chuàng)建目標(biāo)語言的單詞的查 詢表。
4.如權(quán)利要求2所述的方法,其中修改源語言的語音文法文件,以提供目標(biāo)語言的語 音文法文件的步驟包括以下步驟將源語言的語音文法文件翻譯成目標(biāo)語言,以及將所述 翻譯的語音文法文件從目標(biāo)語言音譯成源語言。
5.如權(quán)利要求2所述的方法,其中將源語言的話音提示轉(zhuǎn)換成目標(biāo)語言的步驟包括以 下步驟 將源語言的話音提示翻譯成目標(biāo)語言的單詞; 識(shí)別與可包含在目標(biāo)語言的提示中的單詞相應(yīng)的音素發(fā)音,以及提供可包含在源語 言的提示中的單詞的音素序列;以及 生成針對可包含在提示中的單詞的所述音素序列的語音,以及生成針對可包含在提 示中的單詞的所述音素序列的基于語音的輸出。
全文摘要
公開一種將源語言的現(xiàn)有語音識(shí)別方案移植到目標(biāo)語言的系統(tǒng)和方法。本發(fā)明設(shè)想的系統(tǒng)能夠?qū)⒃凑Z言的工作語音識(shí)別方案移植到目標(biāo)語言的工作系統(tǒng),由此最小化開發(fā)過程和重用現(xiàn)有語音識(shí)別方案,以識(shí)別多種語言。
文檔編號(hào)G10L15/26GK101901599SQ201010182828
公開日2010年12月1日 申請日期2010年5月19日 優(yōu)先權(quán)日2009年5月19日
發(fā)明者A·S·法蘭德, I·A·謝赫, S·K·科帕拉普 申請人:塔塔咨詢服務(wù)有限公司