專利名稱:用于消除語言轉(zhuǎn)換中的多個讀法的歧義的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語言轉(zhuǎn)換,尤其涉及消除語言轉(zhuǎn)換中的多個讀法的歧義。
背景技術(shù):
例如N元語法模型的統(tǒng)計語言模型通常用以通過使用概率分布將概率Pr (W)指配給一序列字W來將一種語言轉(zhuǎn)換或翻譯成另一種語言。這些語言模型通常是從一大堆文本 (稱作語料庫)訓(xùn)練且,一般地,俘獲每一個字的出現(xiàn)頻率和/或語料庫內(nèi)的兩個或兩個以上字的每一序列。按照慣例,通過訓(xùn)練語言模型而不管語言模型在每一特定上下文中的用法和/或讀法來考慮語料庫中的特定字的出現(xiàn)。雖然語料庫中的大多數(shù)字且一般地各自與一種意義相關(guān)聯(lián)且可能地與一個以上正確發(fā)音相關(guān)聯(lián),但是某些字是以完全相同方式書寫而具有不同意義和發(fā)音/讀法(即,同形異音異義詞)。舉例來說,英文語言中的同形異音異義詞的實例為“desert”,其在一種上下文和用法/發(fā)音中意味“拋棄”且在另一種上下文和用法/發(fā)音中意味“干燥的荒蕪陸地區(qū)域”。因此,通過考慮字“desert”的頻率而不管字 “desert”在語料庫中的用法的上下文,常規(guī)語言模型最可能看漏第一種含義(“拋棄”)和第二種含義(“干燥的荒蕪陸地區(qū)域”)的字的使用頻率的任何差別。
拼音是使用羅馬字母表抄錄中國國語的標(biāo)準(zhǔn)方法。在拼音音譯中,將中文字符的語音發(fā)音/讀法映射到由羅馬字母組成的音節(jié)。拼音通常用以經(jīng)由轉(zhuǎn)換系統(tǒng)將中文字符輸入到計算機中。這種系統(tǒng)常常并有統(tǒng)計語言模型以改進轉(zhuǎn)換準(zhǔn)確度。某些中文字符具有多個發(fā)音/讀法(即,同形異音異義中文字符)。然而,并不區(qū)別同形異音異義詞的不同發(fā)音 /讀法的常規(guī)語言模型有時可產(chǎn)生用于與同形異音異義中文字符相關(guān)聯(lián)的拼音的不合需要的中文轉(zhuǎn)換候選者。發(fā)明內(nèi)容
本發(fā)明的一個實施例涉及一種方法。所述方法包括在包括存儲器和一個或一個以上處理器的裝置處接收待轉(zhuǎn)換成一組字符的輸入數(shù)據(jù),所述組字符包括所述輸入數(shù)據(jù)在目標(biāo)符號系統(tǒng)中的符號表示;以及使用區(qū)別所述目標(biāo)符號系統(tǒng)的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數(shù)據(jù)的對應(yīng)部分的相應(yīng)概率。
本發(fā)明的另一實施例涉及一種電子裝置。所述電子裝置包括輸入接收單元,其經(jīng)配置以接收待轉(zhuǎn)換成一組字符的輸入數(shù)據(jù),所述組字符包括所述輸入數(shù)據(jù)在目標(biāo)符號系統(tǒng)中的符號表示;以及耦合到所述輸入接收單元的轉(zhuǎn)換單元,所述轉(zhuǎn)換單元經(jīng)配置以使用區(qū)別所述目標(biāo)符號系統(tǒng)的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數(shù)據(jù)的對應(yīng)部分的相應(yīng)概率。
在以下詳細(xì)描述和附隨圖式中揭示本發(fā)明的各種實施例。
圖I為用于語言轉(zhuǎn)換的系統(tǒng)的實施例的圖。
圖2為展示經(jīng)配置以將輸入數(shù)據(jù)轉(zhuǎn)換成目標(biāo)符號表示的輸出的裝置的實施例的圖。
圖3為展示執(zhí)行語言轉(zhuǎn)換的程序的實施例的流程圖。
圖4A展示在語料庫中發(fā)現(xiàn)的一序列文本的實例。
圖4B展示存儲于從語料庫訓(xùn)練的語言模型處的一些數(shù)據(jù)的實例,圖4A的文本是從所述語料庫發(fā)現(xiàn)。
圖5為展示用于建立已加以注釋的語料庫的系統(tǒng)的實施例的圖,所述已加以注釋的語料庫待用以訓(xùn)練待用于語言轉(zhuǎn)換的語言模型。
圖6為展示用于對語言模型加以注釋并使用語言模型的程序的實施例的流程圖。
圖7A為展示句子702和句子704的實例,句子702呈現(xiàn)于不包含關(guān)于同形異音異義字符的注釋的語料庫中,句子704呈現(xiàn)于確實包含關(guān)于同形異音異義字符的注釋的語料庫中。
圖7B為展示句子710和句子712的實例,句子710呈現(xiàn)于不包含關(guān)于同形異音異義字符的注釋的語料庫中,句子712呈現(xiàn)于確實包含關(guān)于同形異音異義字符的注釋的語料庫中。
圖8A展示使用未加以注釋以用于同形異音異義字符的中文字符語料庫(“不具有注釋的語料庫”)的實例。
圖SB展示使用已加以注釋以用于同形異音異義字符的中文字符語料庫(“具有注釋的語料庫”)的實例。
圖9為展示語言轉(zhuǎn)換的程序的實施例的流程圖。
圖10為展示用于將拼音轉(zhuǎn)換成中文字符的程序的實施例的流程圖。
具體實施方式
本發(fā)明可以眾多方式來實施,眾多方式包含呈現(xiàn)以下各者的形式程序;設(shè)備;系統(tǒng);物質(zhì)組成;體現(xiàn)于計算機可讀存儲媒體上的計算機程序產(chǎn)品;和/或處理器,例如,經(jīng)配置以執(zhí)行存儲于耦合到處理器的存儲器上的和/或由耦合到處理器的存儲器提供的指令的處理器。在此說明書中,這些實施方案或本發(fā)明可采用的任何其它形式可被稱作技術(shù)。一般地說,可在本發(fā)明的范圍內(nèi)變更所揭示程序的步驟的次序。除非另外陳述,否則,例如描述為經(jīng)配置以執(zhí)行任務(wù)的處理器或存儲器的組件可實施為經(jīng)暫時配置以在給定時間執(zhí)行任務(wù)的一般組件或經(jīng)制造以執(zhí)行任務(wù)的特定組件。如本文中所使用,術(shù)語“處理器”指代經(jīng)配置以處理數(shù)據(jù)(例如,計算機程序指令)的一個或一個以上裝置、電路和/或處理芯。
下文連同說明本發(fā)明的原理的隨附圖一起提供本發(fā)明的一個或一個以上實施例的詳細(xì)描述。結(jié)合這些實施例描述本發(fā)明,但本發(fā)明不限于任何實施例。本發(fā)明的范圍僅通過權(quán)利要求書來限制且本發(fā)明包括眾多替代例、修改和等效物。在以下描述中闡述眾多特定細(xì)節(jié)以便提供對本發(fā)明的透徹理解。提供這些細(xì)節(jié)以用于實例的目的且可在無這些特定細(xì)節(jié)中的一些特定細(xì)節(jié)或全部的情況下根據(jù)權(quán)利要求書實踐本發(fā)明。為了清晰的目的, 未詳細(xì)描述與本發(fā)明有關(guān)的技術(shù)領(lǐng)域中已知的技術(shù)材料,以使得不會不必要地使本發(fā)明難理解。
揭示使用語言模型的方法,所述語言模型是針對已加以注釋以區(qū)別與某些字符相關(guān)聯(lián)的不同讀法的語料庫訓(xùn)練。在一些實施例中,呈現(xiàn)于與一個以上讀法/發(fā)音/用法/ 含義相關(guān)聯(lián)的語料庫中的字符的例子是用適合于字符的彼例子的讀法/發(fā)音/用法/含義加以注釋。在一些實施例中,使用針對此已加以注釋的語料庫訓(xùn)練的語言模型將拼音轉(zhuǎn)換成中文字符。
圖I為用于語言轉(zhuǎn)換的系統(tǒng)的實施例的圖。在實例中,系統(tǒng)100包含裝置102、網(wǎng)絡(luò)104,和轉(zhuǎn)換服務(wù)器106。網(wǎng)絡(luò)104可包含各種高速數(shù)據(jù)和/或電信網(wǎng)絡(luò)。
裝置102經(jīng)配置以接收輸入數(shù)據(jù)。在一些實施例中,輸入數(shù)據(jù)可包含輸入文本(例如,羅馬字母表)。舉例來說,輸入數(shù)據(jù)可包含拼音。雖然將裝置102展示為iPhone ,但裝置102的其它實例可為桌上型計算機、膝上型計算機(例如,MacBook )、智能電話、移動裝置、平板裝置(例如,iPad 或iPad 2 ),以及任何其它類型的計算裝置。裝置102經(jīng)配置以包含輸入?yún)^(qū)域,在輸入?yún)^(qū)域中,可由裝置102來俘獲/接收鍵打和/或手寫的字符。 這種輸入?yún)^(qū)域的實例包含觸摸屏鍵盤(例如,平板和/或移動電話裝置的觸摸屏鍵盤)、實體鍵盤、軌跡墊(例如,Apple的Magic Trackpad,或MacBook Pro的內(nèi)置式軌跡墊)、電子書寫表面,以及觸控板。在各種實施例中,用戶可通過與裝置102的輸入?yún)^(qū)域互動(例如, 通過鍵打到實體和/或觸摸屏鍵盤中)在裝置102處選擇輸入。在一些實施例中,裝置102 包含顯示區(qū)域,在顯示區(qū)域中,可顯示從轉(zhuǎn)換服務(wù)器106接收的輸出。
在一些實施例中,裝置102經(jīng)配置以經(jīng)由網(wǎng)絡(luò)104將所接收輸入發(fā)送到轉(zhuǎn)換服務(wù)器106以供轉(zhuǎn)換服務(wù)器106將所接收輸入轉(zhuǎn)換成目標(biāo)符號表不的輸出(例如,一組字符)。 在一些實施例中,裝置102包含與執(zhí)行類似轉(zhuǎn)換相關(guān)聯(lián)的邏輯、代碼和/或所存儲數(shù)據(jù),且因此可執(zhí)行輸入數(shù)據(jù)到目標(biāo)符號表示的輸出的轉(zhuǎn)換,而無需經(jīng)由網(wǎng)絡(luò)104將數(shù)據(jù)傳輸?shù)竭h(yuǎn)程轉(zhuǎn)換服務(wù)器106。
轉(zhuǎn)換服務(wù)器106經(jīng)配置以接收數(shù)據(jù)并將數(shù)據(jù)轉(zhuǎn)換成另一種形式(例如,目標(biāo)符號表示的字符)。舉例來說,目標(biāo)符號表示可為中文字符。在一些實施例中,轉(zhuǎn)換服務(wù)器106 可包含語言模型(例如,從中文字符的語料庫訓(xùn)練的)和/或數(shù)據(jù)庫,所述數(shù)據(jù)庫用以存儲輸入數(shù)據(jù)的文本與目標(biāo)符號表示的字符集之間的關(guān)聯(lián)(例如,輸入數(shù)據(jù)到目標(biāo)符號表示詞典)。在一些實施例中,轉(zhuǎn)換服務(wù)器106的輸出可包含來自輸入的轉(zhuǎn)換候選者。舉例來說, 用于輸出的轉(zhuǎn)換候選者可為從語言模型和輸入拼音確定的某數(shù)目個統(tǒng)計上最可能的(即, 很可能的)中文字符。在一些實施例中,將轉(zhuǎn)換服務(wù)器106的輸出發(fā)送回到裝置102且在裝置102處顯示輸出(例如,供用戶檢視和/或關(guān)于所顯示信息作出進一步選擇)。
圖2為展示經(jīng)配置以將輸入數(shù)據(jù)轉(zhuǎn)換成目標(biāo)符號表示的輸出的裝置的實施例的圖。在一些實施例中,可使用圖2的實例來實施系統(tǒng)100的裝置102。在一些實施例中,如圖2中所說明的裝置局部地包含轉(zhuǎn)換服務(wù)器106的一個或一個以上功能性,以使得其可執(zhí)行轉(zhuǎn)換而無需經(jīng)由網(wǎng)絡(luò)將數(shù)據(jù)傳輸?shù)竭h(yuǎn)程服務(wù)器。實例中的裝置的所展示組件(例如,顯示器202、轉(zhuǎn)換引擎206、詞典204、語言模型208,和輸入?yún)^(qū)域210)可使用硬件和軟件中的一者或兩者來實施。在一些實施例中,裝置可具有比實例中所展示的彼等組件多或少的組件。
輸入?yún)^(qū)域210經(jīng)配置以俘獲/接收第一符號表示的一組字符。如上文所敘述,輸入?yún)^(qū)域210的實例包含觸摸屏鍵盤(例如,平板和/或移動電話裝置的觸摸屏鍵盤)、實體鍵盤、軌跡墊(例如,Apple的Magic Trackpad,或MacBook Pro的內(nèi)置式軌跡墊)、與語音辨識/轉(zhuǎn)換/抄錄功能相關(guān)聯(lián)的接收器(例如,麥克風(fēng))、電子書寫表面,以及觸控板。在一些實施例中,輸入?yún)^(qū)域210經(jīng)配置以從羅馬字母表(例如,a、b、c,……等等)接收一個或一個以上文本字符。舉例來說,輸入?yún)^(qū)域210可接收拼音,拼音為用于以羅馬字母表音譯中國國語的系統(tǒng)。用戶可(例如)將拼音輸入到裝置的輸入?yún)^(qū)域210中,以使得裝置呈現(xiàn)用戶可選擇以在裝置上以中文“鍵打”的中文轉(zhuǎn)換候選者。在一些實施例中,輸入?yún)^(qū)域210 將輸入字符存儲為其對應(yīng)文本編碼對應(yīng)物。文本編碼方案的實例包含ASCII、Big5、UTF-8、 UTF-16、HKSCS、GB18030 和 JIS X 0213。
轉(zhuǎn)換引擎206經(jīng)配置以使用 從輸入?yún)^(qū)域210所接收的輸入且確定目標(biāo)符號表示的轉(zhuǎn)換候選者。在一些實施例中,目標(biāo)符號表示可包含中文字符。在一些實施例中,轉(zhuǎn)換引擎206經(jīng)配置以在轉(zhuǎn)換輸入之前對輸入執(zhí)行預(yù)處理。舉例來說,如果輸入為拼音,那么轉(zhuǎn)換引擎206可將拼音解析成對應(yīng)于單音節(jié)的一個或一個以上字符群組,以準(zhǔn)備用于將每一單音節(jié)映射到中文轉(zhuǎn)換候選者,這是因為典型地,每一中文字符是以單音節(jié)形式來讀法/發(fā)音。轉(zhuǎn)換引擎206經(jīng)配置以存取詞典204和語言模型208。詞典204可包含用以存儲輸入數(shù)據(jù)的字符集與目標(biāo)符號表示的字符集之間的映射/關(guān)聯(lián)的一個或一個以上數(shù)據(jù)庫。語言模型208可為針對目標(biāo)符號表示的文本的語料庫訓(xùn)練的N元語法模型。在一些實施例中, 對用以訓(xùn)練語言模型208的語料庫加以注釋,以區(qū)別目標(biāo)符號表示的同形異音異義字符的不同讀法。舉例來說,轉(zhuǎn)換引擎206可首先使用詞典204將輸入數(shù)據(jù)的已解析拼音映射到一或多個潛在中文字符轉(zhuǎn)換,且接著從語言模型208中檢索對應(yīng)于彼等潛在中文字符轉(zhuǎn)換的統(tǒng)計信息,以確定候選轉(zhuǎn)換的哪些組合為最可能的??山又陲@示器202處顯示字符的最可能組合(例如,供用戶檢視和/或互動)。顯示器202的實例可包含可俘獲來自用戶的互動的觸摸屏,或無法俘獲用戶互動的其它類型的顯示器。
舉例來說,如果輸入為拼音“nihao”,那么轉(zhuǎn)換引擎206可首先將輸入解析成兩個單音節(jié)字符群組“ni”和“hao”。因為中文字符當(dāng)中存在許多同音異義詞(即,發(fā)音相同但具有不同意義的字),所以輸入拼音內(nèi)的每一單音節(jié)群組可潛在地通過詞典204映射到若干個可能的中文字符(每一個此字符可以對應(yīng)單音節(jié)拼音群組的語音發(fā)音讀法)。接著,轉(zhuǎn)換引擎206可檢索與中文字符中的每一者和/或其組合有關(guān)的統(tǒng)計信息,以確定具有最高概率的字符組合為用戶意欲的字符組合。
圖3為展示執(zhí)行語言轉(zhuǎn)換的程序的實施例的流程圖。在一些實施例中,可在系統(tǒng)處實施程序300,所述系統(tǒng)構(gòu)建語言模型且也使用所構(gòu)建語言模型執(zhí)行語言轉(zhuǎn)換。
在302處,接收文本的語料庫。文本的語料庫可包含大的和結(jié)構(gòu)化文本集(例如, 從各種源搜集)??梢詳?shù)字方式存儲和處理文本的語料庫。典型地,語料庫含有單一語言文本和/或具有類似于待針對語料庫訓(xùn)練的語言模型的輸入的形式。舉例來說,為了訓(xùn)練用于拼音到中文字符轉(zhuǎn)換的語言模型,語料庫可包含呈中文字符形式的文本。
在304處,使用語料庫訓(xùn)練語言模型。在一些實施例中,可使用語言模型化工具 (例如,IRST語言模型工具箱)來從語料庫訓(xùn)練和構(gòu)建語言模型。舉例來說,語言模型化工具可針對在語料庫中發(fā)現(xiàn)的字符中的每一者和/或字符的每一序列產(chǎn)生N元語法概率。 舉例來說,可為在語料庫中發(fā)現(xiàn)的字符的每一序列(例如,長度為2個或3個或3個以上字符)指配出現(xiàn)概率。分析字符序列,以使得稍后可借助于通過鄰近/周圍字符供應(yīng)的上下文辨識用于序列內(nèi)的字符的上下文(例如,在語言轉(zhuǎn)換階段期間)。因此,對于從未呈現(xiàn)于語料庫中或很少呈現(xiàn)(例如,歸因于印刷上錯誤或缺少意義)的一序列字符,針對彼等序列產(chǎn)生的概率為零或極低(以指示其表示輸入數(shù)據(jù)之后所隱藏的用戶的所要意圖的不可能性)。所得語言模型至少包含到在語料庫(模型是針對語料庫訓(xùn)練)中發(fā)現(xiàn)的一個或一個以上字符(例如,或表示彼等字符的基礎(chǔ)符號)的序列的概率的一組指配。返回到中文字符的語料庫的實例,所得語言模型將包含指配給在語料庫中發(fā)現(xiàn)的一個或一個以上中文字符的序列的概率。
在306處,使用語言模型執(zhí)行語言轉(zhuǎn)換。舉例來說,語言模型可供轉(zhuǎn)換引擎(例如, 轉(zhuǎn)換引擎206)或轉(zhuǎn)換服務(wù)器(例如,轉(zhuǎn)換服務(wù)器106)使用,以將一種形式(例如,語音或文本)的輸入轉(zhuǎn)換成第二種形式(例如,目標(biāo)符號表示)的一個或一個以上輸出。在一些實施例中,輸入數(shù)據(jù)映射到一個正確輸出(例如,鍵入輸入的用戶所要的輸出)。更準(zhǔn)確的語言模型可針對給定輸入數(shù)據(jù)檢索待從輸入數(shù)據(jù)轉(zhuǎn)換的潛在輸出,所述潛在輸出更可能包含用戶所要的一個輸出。舉例來說,可將輸入數(shù)據(jù)(例如,正確拼寫的拼音)映射(例如,使用詞典)到一個或一個以上字符(例如,中文字符),通過語言模型來維持關(guān)于所述一個或一個以上字符(例如,中文字符)的統(tǒng)計信息(例如,概率)。接著使用已檢索的概率來確定潛在地映射到輸入的字符中的哪些字符更可能為準(zhǔn)確映射。在一些實施例中,語言模型包含用以匹配輸入與輸出的其它統(tǒng)計工具,例如,從輸入數(shù)據(jù)到目標(biāo)符號表示的字符級和/ 或字級和/或句子(例如,句子的開頭和句子的結(jié)尾)和/或短語級分辨率。
圖4A和4B為說明語言模型的建立和使用中的一些步驟的實例。
圖4A展示在語料庫中發(fā)現(xiàn)的文本序列的實例。如實例中所使用,字符(例如,A、 F、S,……等等)中的每一者可用以表示任何語言的字符或字;僅出于示范性目的而選擇大寫字母開頭的羅馬字母。舉例來說,圖4A中所展示的字符中的每一者可表示呈現(xiàn)于中文字符語料庫中的中文字符。可在訓(xùn)練語言模型期間將語料庫的文本分成N元語法(例如, 長度為N個字符的字符序列)。子序列或N元語法402 (包含“A ”)、404(包含叩3 D”) 和406(包含“W G S J”)為在語料庫中發(fā)現(xiàn)的序列的一些實例,所述序列可在構(gòu)建語言模型的N元語法概率產(chǎn)生和/或訓(xùn)練階段中加以使用。舉例來說,可通過語言模型化工具和 /或語言模型的設(shè)計者來選擇待針對特定語言模型產(chǎn)生的N元語法概率所針對的序列的字符長度。
圖4B展示存儲于從語料庫訓(xùn)練的語言模型處的一些數(shù)據(jù)的實例,圖4A的文本是從所述語料庫發(fā)現(xiàn)。如實例中所展示,計算并存儲(例如,在表條目中)在語料庫中發(fā)現(xiàn)的各種序列(具有變化的長度)的概率(對應(yīng)于其相應(yīng)字符序列)。舉例來說,408表示示范性表中的條目,其指示通過語言模型指配的關(guān)于序列“A F”在語料庫中的出現(xiàn)的N元語法概率(0.0324)。在一些實施例中,除圖4B中所展示的示范性數(shù)據(jù)之外,語言模型也可包含其它類型的信息(例如,輸入數(shù)據(jù)到目標(biāo)符號表示詞典、字、若干字符的單位,以及像名稱和地點的信息類別)。
在一些實施例中,可使用語言模型來轉(zhuǎn)換輸入數(shù)據(jù)(例如,與第一符號或其它表不有關(guān)的一組字符),以產(chǎn)生輸出數(shù)據(jù)(例如,形成與目標(biāo)符號表不有關(guān)的一個或一個以上轉(zhuǎn)換候選者的一組字符)。舉例來說,可使用語言模型經(jīng)由輸入裝置將拼音文本輸入轉(zhuǎn)換成對應(yīng)中文字符。剖析輸入拼音字符序列,以確定可映射到一個或一個以上潛在中文字符的音節(jié)(例如,通過語言模型或某一其它技術(shù)),且這些中文字符的相應(yīng)概率可用以確定充當(dāng)來自輸入拼音的所要映射的更可能的中文字符轉(zhuǎn)換。
一般地,雖然字符的常規(guī)語料庫可包含某些注釋(例如,語音標(biāo)記的部分),但其典型地并不包含關(guān)于以下各者的注釋字符的讀法/發(fā)音/用法/含義(有時在本文中被稱作僅“讀法”),或針對字符所用于的上下文的特定讀法/發(fā)音/用法/含義(如果存在與字符相關(guān)聯(lián)的一個以上可能的讀法/發(fā)音/用法/含義)。舉例來說,中文字符的常規(guī)語料庫并不典型地包含關(guān)于讀法/發(fā)音/含義/拼音對應(yīng)物的注釋。換句話說,常規(guī)中文字符語料庫并不區(qū)別同形異音異義中文字符的多個讀法,其中每一讀法適合于不同上下文。舉例來說,在語料庫的一部分中的上下文可使用第一種含義(讀法/發(fā)音/拼音對應(yīng)物)的同形異音異義字符,而在相同語料庫的另一部分上的上下文可使用不同于第一種含義的第二種含義的同形異音異義字符(讀法/發(fā)音/拼音對應(yīng)物)。然而,在語料庫中無注釋的情況下,為了區(qū)別同形異音異義字符的兩個(或兩個以上)含義,接著將僅針對彼同形異音異義字符(包括多個讀法),基于字符呈現(xiàn)于語料庫中的任何時間而執(zhí)行N元語法概率產(chǎn)生, 而不是針對彼同形異音異義字符的每一個讀法,基于彼同形異音異義字符的特定讀法呈現(xiàn)于語料庫中的每一時間而確定單獨的含義特定概率。作為未能區(qū)別常規(guī)語料庫中的某些字符的可能的多個讀法的結(jié)果,在將數(shù)據(jù)輸入轉(zhuǎn)換成包含同形異音異義字符的輸出中,使用這種語料庫訓(xùn)練的語言模型可能較不準(zhǔn)確。揭示消除語言模型中的字符的不同讀法之間的歧義的方法,如下文將論述。
圖5為展示用于建立已加以注釋的語料庫的系統(tǒng)的實施例的圖,所述已加以注釋的語料庫待用以訓(xùn)練待用于語言轉(zhuǎn)換的語言模型。在各種實施例中,語料庫的注釋促進區(qū)別用以指示語料庫中的第一讀法/發(fā)音/拼音/含義的同形異音異義詞的一種用法與用以指示語料庫中的第二讀法/發(fā)音/拼音/含義的相同同形異音異義詞的另一種用法。網(wǎng)絡(luò) 508可包含各種高速數(shù)據(jù)和/或電信網(wǎng)絡(luò)。在一些實施例中,語言模型訓(xùn)練引擎510、語料庫512和語言模型514可實施為轉(zhuǎn)換服務(wù)器(例如,轉(zhuǎn)換服務(wù)器106)的部分。
在一些實施例中,語言模型訓(xùn)練引擎510經(jīng)由網(wǎng)絡(luò)508從(例如)由第三方托管的服務(wù)器檢索文本源502、504和506。在一些實施例中,語言模型訓(xùn)練引擎510在不使用網(wǎng)絡(luò)508的情況下接收文本(例如,通過經(jīng)由本地存儲器或源獲得文本)。在一些實施例中,語言模型訓(xùn)練引擎510經(jīng)配置以將所檢索和/或所接收文本存儲于語料庫512處。語料庫512是由從各種源提取的文本形成,各種源例如文本源502、文本源504和文本源506。 在一些實施例中,語料庫512處所搜集的文本主要包含一種語言的文本。舉例來說,語料庫 512的文本可主要呈中文字符形式。文本源502、504和506的實例包含報紙、網(wǎng)站、書籍、 期刊、社會媒體(例如,F(xiàn)acebook 、Twitter ),和雜志。舉例來說,從文本源502、504和 506收集的文本可總共大約800百萬個中文字符。而且,舉例來說,中文字符的語料庫可包含8000個不同字符,其中大約50個字符為同形異音異義字符。在一些實施例中,在無語料庫512的注釋的情況下,通過語料庫512中的一個相異符號表示從文本源提取的每一相異字符,且將多次從文本源提取的相同字符存儲為對應(yīng)于彼字符的符號的多個例子。
在一些實施例中,語言模型訓(xùn)練引擎510經(jīng)配置以接收語料庫512中的對字符的手動注釋。在一些實施例中,語言模型514的系統(tǒng)管理員和/或設(shè)計者(例如,人類用戶)掃描語料庫512的文本以尋找同形異音異義字符,且基于用戶對同形異音異義字符所用于的上下文的理解(例如,基于字符所用于的句子和/或周圍文本),對同形異音異義字符的彼例子加以注釋以指示其適當(dāng)讀法/發(fā)音/拼音/含義。舉例來說,為了執(zhí)行這種注釋,可用語料庫512中的新符號(例如,文本編碼)替換特定讀法(兩個或兩個以上可能讀法中的) 的同形異音異義字符的例子,所述新符號可區(qū)別于表示存在于語料庫512中的所有其它字符的符號,且也可區(qū)別于與彼相同同形異音異義字符的另一讀法相關(guān)聯(lián)的另一個符號。換句話說,語料庫512中具有一讀法的同形異音異義字符將與語料庫512中的第一符號相關(guān)聯(lián),且具有第二讀法的相同同形異音異義字符將與語料庫512中的第二符號相關(guān)聯(lián)。因此, 當(dāng)同形異音異義字符用于與第一讀法相關(guān)聯(lián)的上下文中時,將字符的彼例子存儲為語料庫 512中的第一符號,且當(dāng)同形異音異義字符用于與第二讀法相關(guān)聯(lián)的上下文中時,將字符的彼例子存儲為第二符號。由于注釋,同形異音異義字符將不再在整個語料庫512中呈現(xiàn)為相同符號的各種例子,而是同形異音異義字符的每一不同讀法將由語料庫中的相異符號替換。因此,舉例來說,與三個可能讀法相關(guān)聯(lián)的同形異音異義字符可在整個語料庫512中呈現(xiàn)為已加以注釋的語料庫中的三個不同符號的各種例子。在一些實施例中,雖然一個以上符號可表示語料庫中的同形異音異義字符,但彼等符號中的每一者仍與相同同形異音異義字符相關(guān)聯(lián)。
舉例來說,在用于英文字的這種已加以注釋的語料庫中,“desert”為具有兩個可能讀法的同形異音異義字/字符一種讀法為動詞,意味“拋棄”,所述讀法與一種意義相關(guān)聯(lián),且一種讀法為名詞,意味“干燥的 荒蕪陸地區(qū)域”,所述讀法與不同意義相關(guān)聯(lián)。在對語料庫加以注釋之前,在語料庫的文本中的“desert”的呈現(xiàn)將與用于“desert”的符號相關(guān)聯(lián)。但在注釋之后,語料庫中的“desert”的呈現(xiàn)將取決于用于“desert”的兩種意義中的哪一種意義適合于“desert”的彼例子呈現(xiàn)于文本中的上下文而與用于動詞或名詞的符號相關(guān)聯(lián)。
在一些實施例中,通過用以編碼用于所有出現(xiàn)的符號的原始符號來表示字的可能讀法或符號或符號序列中的一者,且僅對與一個或一個以上其它可能讀法相關(guān)聯(lián)的例子加以注釋。在前述實例中,舉例來說,將不對以與desert^(動詞,意味“拋棄”)相關(guān)聯(lián)的方式使用的“desert”加以注釋,但對于以deSert_n(名詞,意味“干燥的荒蕪陸地區(qū)域”)含義使用的“desert”的例子,將用對應(yīng)于deSert_n (意味“干燥的荒蕪陸地區(qū)域”)的新近定義的符號替換用以編碼“desert”的符號。隨后,在訓(xùn)練語言模型中,將未加以注釋的 “desert”的出現(xiàn)理解為與desert_v(意味“拋棄”)相關(guān)聯(lián),而將desert_n(意味“干燥的荒蕪陸地區(qū)域”)的出現(xiàn)理解為指代第二讀法。
在一些實施例中,用戶手動地對語料庫512的文本的子集加以注釋,且以類似方式(例如,基于通過手動注釋建立的注釋模式)自動地對語料庫512的剩余部分加以注釋 (例如,使用呈軟件和/或硬件形式的機器獲悉技術(shù))。舉例來說,自動程序可使用從手動注釋獲悉的模式來識別用于同形異音異義字符的第一上下文以及在彼上下文中的彼字符的對應(yīng)適當(dāng)讀法,且對語料庫中的字符的彼例子加以注釋為與字符的彼特定讀法相關(guān)聯(lián)(例如,通過將與語料庫中的同形異音異義字符相關(guān)聯(lián)的符號替換為相異于表示彼字符的另一讀法的符號且相異于表示語料庫512中的另一字符的符號的符號)。
用以在對語料庫512加以注釋之后考慮語料庫512的一種方式是符號集變得擴展;而在所揭示注釋之前,同形異音異義字符映射到用以以機器可理解方式表示字符的一機器可讀值(例如,統(tǒng)一代碼碼點或其它值),在所揭示注釋之后,同形異音異義字符映射到用于已加以注釋的語料庫512中的一個以上機器可讀值,其中與同形異音異義字符相關(guān)聯(lián)的每一機器可讀值表示同形異音異義字符的特定讀法。
在一些實施例中,使用(例如)語言模型化工具(例如,IRST語言模型工具箱)針對已加以注釋的語料庫512訓(xùn)練語言模型514。舉例來說,語言模型化工具可產(chǎn)生關(guān)于字符(或其符號)和字符序列的N元語法概率,包含針對已加以注釋的語料庫512的同形異音異義字符的多個讀法添加的新符號。
在一些實施例中,轉(zhuǎn)換引擎(例如,圖2的轉(zhuǎn)換引擎206)經(jīng)配置以接收輸入數(shù)據(jù), 以使用針對讀法已加以注釋的語料庫訓(xùn)練的語言模型(例如,語言模型514),產(chǎn)生目標(biāo)符號表示中的一個或一個以上轉(zhuǎn)換候選者。舉例來說,假定輸入數(shù)據(jù)與拼音相關(guān)聯(lián),且語言模型514與中文字符相關(guān)聯(lián)。接著,使用針對語言模型514中的字符/符號和其序列所產(chǎn)生的概率,轉(zhuǎn)換引擎206可產(chǎn)生一個或一個以上中文字符作為輸出,所述一個或一個以上中文字符相對來說更可能匹配給定拼音輸入且特別避免過高估計以下情形的可能性通過使用提供同形異音異義字符的特定讀法所特有的概率的模型,意欲特定同形異音異義字符。
圖6為展示用于對語言模型加以注釋并使用語言模型的程序的實施例的流程圖。 在一些實施例中,可至少部分使用系統(tǒng)500來實施程序600。
在602處,接收對與語料庫相關(guān)聯(lián)的文本子集的注釋的一個或一個以上手動輸入,其中對于與一個以上讀法相關(guān)聯(lián)的字符的例子,對注釋的手動輸入至少部分基于與例子相關(guān)聯(lián)的上下文而指示字符的適當(dāng)讀法。
舉例來說,用戶可讀完語料庫的文本的子集以定位同形異音異義字符/字的例子。在尋找到同形異音異義字符/字的例子后,用戶便可基于字符的例子所呈現(xiàn)于的上下文(例如,字符所呈現(xiàn)于的句子,環(huán)繞彼字符的字符)以及用戶對彼上下文中的字符的用法的了解,確定用于字符的彼例子的適當(dāng)讀法并對適當(dāng)讀法加以注釋。很少有適合于語料庫中的字符的例子的同形異音異義字符的一個以上讀法(如果有的話)。因而,僅需要針對語料庫中的同形異音異義字符的每一個例子的一個確定的讀法??蓪⑨槍ν萎愐舢惲x字符的例子的此確定的適當(dāng)讀法鍵入到轉(zhuǎn)換引擎中作為注釋且也將適當(dāng)讀法存儲于語料庫中。 在一些實施例中,可將與同形異音異義詞的例子相關(guān)聯(lián)的用以指示同形異音異義詞的特定讀法的注釋存儲為語料庫中的新符號(例如,不同于用以表示語料庫中的任何其它字符的符號且也不同于用以表不相同同形異音異義字符的另一讀法的符號的符號,例如,先前未指配的統(tǒng)一代碼值或?qū)S檬褂脜^(qū)域字符),所述新符號替換表示字符的原始例子的語料庫中的符號(例如,文本編碼)。在一些實施例中,與同形異音異義詞的例子相關(guān)聯(lián)的用以指示同形異音異義詞的特定讀法的注釋可為添加到符號的表示語料庫中的字符的彼例子的標(biāo)簽。在一些實施例中,語料庫可包含從各種源獲得的文本(大部分為一種語言)。
因為手動地對整個語料庫(其可包含成千上萬個文本)加以注釋將是不足的,所以可針對語料庫的小子集執(zhí)行手動注釋,且可使用自動化程序?qū)φZ料庫的剩余部分加以注釋,如下文所描述。
在604處,至少部分基于對注釋的所接收的一個或一個以上手動輸入,自動地對與語料庫相關(guān)聯(lián)的文本的未加以手動地注釋的至少一部分加以注釋。
在一些實施例中,可使用自動化程序?qū)⒆⑨屘砑拥缴形词謩拥丶右宰⑨尩恼Z料庫的整個剩余部分中的同形異音異義字符的例子的各種不同讀法。舉例來說,可用軟件建立自動化程序,所述軟件使用機器獲悉技術(shù)和602處的手動注釋輸入。
在606處,使用已加以注釋的語料庫訓(xùn)練語言模型。
在一些實施例中,已加以注釋的語料庫包含相異符號,以表示在對語料庫加以注釋之前出現(xiàn)于語料庫中的同形異音異義字符的每一個例子的不同讀法。在一些實施例中, 通過對在已加以注釋的語料庫中發(fā)現(xiàn)的字符/字和其序列執(zhí)行N元語法概率產(chǎn)生,針對已加以注釋的語料庫建立語言模型并訓(xùn)練語言模型。在一些實施例中,也可針對在語料庫內(nèi)發(fā)現(xiàn)的句子的開頭和結(jié)尾訓(xùn)練語言模型。所得語言模型將包含與同形異音異義字符的每一讀法相關(guān)聯(lián)的概率。
舉例來說,假定在已加以注釋的語料庫中,通過符號“word_readingl”或“word_ reading2”來表示貫穿文本的同形異音異義“字”的出現(xiàn)。因而,針對已加以注釋的語料庫訓(xùn)練的語言模型將包含包含字符/符號“word_readingl”或“word_reading2”的概率(例如,可使用Pr (word_readingl)來表示與一元語法“wording_readingl”相關(guān)聯(lián)的概率,且可使用Pr (word_reading2)來表示與一元語法“word_reading2”相關(guān)聯(lián)的概率;也可產(chǎn)生與N元語法相關(guān)聯(lián)的概率,例如Pr (wordN, wordN-1,…,word_readingl)和 Pr(wordN, wordN-Ι,…,word_reading2))。
舉例來說,對于具有兩個讀法的同形異音異義字“desert”,可針對每一讀法確定單獨概率。舉例來說,可針對“desert_v” (例如,Pr (desert_v) >Pr (he, would, desert_v)、Pr (soldier, said, he, would, desert_v))確定用于與一元語法、二元語法、......N元語法相關(guān)聯(lián)的概率,且可針對“desert_n” (例如,Pr (desert_n)、Pr (crossed, through, a, desert_n)、Pr (camel, crossed, through, a, desert_n))石角定用于與一元語法、二元語法、......N 元語法相關(guān)聯(lián)的概率。通過采用序列(長度比一個字符長)的概率,可使用這些概率來消除字符的歧義以確定字符可呈現(xiàn) 于的適當(dāng)上下文。
圖7A和7B為中文語料庫中的文本的實例,已對所述中文語料庫加以注釋以區(qū)別同形異音異義中文字符的不同讀法。雖然在這些實例中展示中文字符的語料庫,但語料庫可改為包含不同語言(例如,日文)的字符。
圖7A為展示句子702和句子704的實例,句子702呈現(xiàn)于不包含關(guān)于同形異音異義字符的注釋的語料庫中,句子704呈現(xiàn)于確實包含關(guān)于同形異音異義字符的注釋的語料庫中。在句子702中,同形異音異義字符706 ( “長”)為與以下至少兩個不同讀法/發(fā)音/ 拼音/含義相關(guān)聯(lián)的同形異音異義字符“zhang”和“chang”。舉例來說,當(dāng)朗讀為“zhang” 時,“長”的意義意味“首領(lǐng)或領(lǐng)導(dǎo)者”。舉例來說,當(dāng)朗讀為“chang”時,“長”的意義意味 “長”。句子702的英文翻譯(在不包含關(guān)于同形異音異義字符的注釋的語料庫中)為“he is one ofthe candidates running for mayor. ”。因而,在句子 702 中,字符 706 ( “長,,) 是以與“zhang”的讀法/拼音相關(guān)聯(lián)的含義使用。在不包含關(guān)于同形異音異義字符的注釋的語料庫中,句子702中的字符706( “長”)的呈現(xiàn)將映射到語料庫中的一個符號(例如,使用“長”的某一形式的文本編碼)。然而,在執(zhí)行注釋之后,句子702變成句子704,句子704將呈現(xiàn)于確實包含關(guān)于同形異音異義字符的注釋的語料庫中。在句子704中,字符 (“長”)現(xiàn)在由語料庫中的表示讀法708( “長_zhang”)的符號替換(例如,使用新近針對“長_zhang”建立的某一形式的文本編碼或先前未用于呈現(xiàn)于語料庫中的任何其它字符的文本編碼)。
圖7B為展示句子710和句子712的實例,句子710呈現(xiàn)于不包含關(guān)于同形異音異義字符的注釋的語料庫中,句子712呈現(xiàn)于確實包含關(guān)于同形異音異義字符的注釋的語料庫中。在不包含關(guān)于同形異音異義字符的注釋的語料庫中的句子710的英文翻譯為“Ihave been here for a long time already·”。因而,在句子 710 中,字符 706 ( “長”)是以與 “chang”的讀法/拼音相關(guān)聯(lián)的含義使用。在不包含關(guān)于同形異音異義字符的注釋的語料庫中,句子710中的同形異音異義字符706( “長”)的呈現(xiàn)將映射到語料庫中的一個符號 (例如,使用“長”的某一形式的文本編碼)。然而,在執(zhí)行注釋之后,句子710變成句子712, 句子712將呈現(xiàn)于確實包含關(guān)于同形異音異義字符的注釋的語料庫中。在句子712中,字符(“長”)現(xiàn)在由語料庫中的表示讀法716( “長_chang”)的符號替換(例如,使用新近針對“*_chang ”建立的某一形式的文本編碼或先前未用于呈現(xiàn)于語料庫中的任何其它字符的文本編碼)。
圖8A和SB說明在將拼音輸入轉(zhuǎn)換成某一形式的中文字符輸出中使用未加以注釋以用于同形異音異義字符的語料庫和已加以注釋以用于同形異音異義字符的語料庫的實例。雖然在這些實例中展示中文字符的語料庫,但語料庫可改為包含不同語言(例如,日文)的字符。在圖7A和7B的實例中,可在裝置(例如,裝置102)的輸入?yún)^(qū)域處接收拼音輸入。
在實例中,同形異音異義字符“長”與兩個潛在讀法/拼音“chang”和“zhang”相關(guān)聯(lián)。
圖8A展示使用未加以注釋以用于同形異音異義字符的中文字符語料庫(“不具有注釋的語料庫”)的實例。在此實例中,不管是輸入拼音“chang”還是“zhang”,對不具有注釋的語料庫訓(xùn)練的語言模型將(例如,在拼音映射到“長”的潛在中文轉(zhuǎn)換候選者之后) 檢索與“長”相關(guān)聯(lián)的概率,例如,一元語法“長”的概率(Pr(長))。盡管如此,也可檢索與包含“長”的一序列字符(例如,N元語法,其中N>1)相關(guān)聯(lián)的概率(例如,Pr (市,長))。 因此,在提供統(tǒng)計信息以區(qū)分使用“zhang”的讀法/含義(意味“首領(lǐng)”)的“長”和使用 “chang”的讀法/含義(意味“長”)的“長”的短語和/或句子中,語言模型可能較不準(zhǔn)確。
假定(例如)“zhang”的讀法/含義的“長”在語料庫中遠(yuǎn)不如也與“zhang”的拼音相關(guān)聯(lián)的其它中文字符(例如,章、掌)常用。然而,對語料庫訓(xùn)練的所得語言模型將相同概率歸因于“長”(例如,對應(yīng)于包含“長”的N元語法),而不管“長”在語料庫內(nèi)以多少種含義使用。因為指配給“長”的概率可包含語料庫中的“chang”的讀法/含義的“長” 的至少一些用途,所以語言模型中的“長”的概率相對于與映射到拼音“chang”的其它中文轉(zhuǎn)換候選者相關(guān)聯(lián)的概率來說可能不正確地較高,此情形可導(dǎo)致語言轉(zhuǎn)換中的總的較低準(zhǔn)確度。
圖SB展示使用已加以注釋以用于同形異音異義字符的中文字符語料庫(“具有注釋的語料庫”)的實例。在此實例中,對于拼音輸入“chang”(例如,在拼音映射到“長” 的潛在中文轉(zhuǎn)換候選者之后),語言模型將檢索與字符的彼讀法相關(guān)聯(lián)的概率,例如,“長_ chang”的一元語法的概率(Pr (長_chang))。盡管如此,也可檢索與包含“長_chang”的一序列字符(例如,N元語法,其中N>1)相關(guān)聯(lián)的概率(例如,Pr (市,長_chang))。類似地, 對于拼音輸入“zhang”,語言模型將檢索與字符的彼讀法相關(guān)聯(lián)的概率,例如,一元語法“長_zhang”的概率(例如,Pr (長_zhang))。由于對語言模型訓(xùn)練所針對的語料庫加以注釋, 因此可將概率歸因于相同同形異音異義詞的每一不同讀法,此情形可允許更準(zhǔn)確的轉(zhuǎn)換。
返回到先前實例,其中假定“zhang”的讀法/含義的“長”在語料庫中遠(yuǎn)不如也與拼音“zhang”相關(guān)聯(lián)的其它中文字符(例如,章、掌)常用,現(xiàn)在在針對具有注釋的語料庫訓(xùn)練語言模型之后,存在可歸因于“長”的不同讀法(“chang”和“zhang”)的單獨概率。 現(xiàn)在,指配給“長_zhang”的概率將不包含在語料庫內(nèi)的“chang”含義的“長”的任何用途, 且類似地,指配給“長_chang”的概率將不包含在語料庫內(nèi)的“zhang”含義的“長”的任何用途。因而,語言模型中的“長”的概率相對于與映射到拼音“zhang”或“chang”的其它中文轉(zhuǎn)換候選者相關(guān)聯(lián)的概率來說將更準(zhǔn)確,此情形將導(dǎo)致語言轉(zhuǎn)換中的總的較高準(zhǔn)確度。
圖9為展示語言轉(zhuǎn)換的程序的實施例的流程圖。在一些實施例中,可至少部分對系統(tǒng)100實施程序900。在一些實施例中,可至少部分在裝置102處實施程序900。
在902處,接收待轉(zhuǎn)換成一組字符的輸入數(shù)據(jù),所述組字符包括輸入數(shù)據(jù)在目標(biāo)符號系統(tǒng)中的符號表示。在一些實施例中,在裝置(例如,裝置102)處接收輸入數(shù)據(jù),轉(zhuǎn)換將在所述裝置處發(fā)生。在一些實施例中,將輸入數(shù)據(jù)發(fā)送到將執(zhí)行轉(zhuǎn)換的遠(yuǎn)程服務(wù)器(例如,轉(zhuǎn)換服務(wù)器106)。在一些實施例中,輸入數(shù)據(jù)包括輸入文本(例如,羅馬字母表的輸入文本)。舉例來說,輸入數(shù)據(jù)可為一組拼音。
在904處,在轉(zhuǎn)換輸入數(shù)據(jù)所來自的目標(biāo)符號表示中產(chǎn)生一個或一個以上轉(zhuǎn)換候選者。在一些實施例中,目標(biāo)符號表示包括中文字符。在一些實施例中,輸入數(shù)據(jù)或其子集映射到目標(biāo)符號表不的一個或一個以上可能字符(例如,轉(zhuǎn)換候選者)。舉例來說,假定輸入數(shù)據(jù)與語音讀法相關(guān)聯(lián),目標(biāo)符號表示的多個字符可映射到與輸入數(shù)據(jù)的字符群組相關(guān)聯(lián)的一個讀法。在一些實施例中,使用呈到目標(biāo)符號表示的字符(或其集合)的輸入數(shù)據(jù)的形式的字符詞典(或其集合),以基于所接收輸入數(shù)據(jù)而確定轉(zhuǎn)換候選者。在一些實施例中,輸入數(shù)據(jù)可映射到為目標(biāo)符號表示的同形異音異義字符的轉(zhuǎn)換候選者,這是因為(例如)輸入數(shù)據(jù)或其一部分形成與彼字符相關(guān)聯(lián)的讀法中的一者。
在906處,使用區(qū)別目標(biāo)符號系統(tǒng)的字符的第一讀法與第二讀法的語言模型,以確定同形異音異義字符應(yīng)用以表示輸入數(shù)據(jù)的對應(yīng)部分的概率。在各種實施例中,所使用語言模型是針對已加以注釋以用于同形異音異義字符的語料庫訓(xùn)練(例如,使用程序600 的至少部分)。因此,訓(xùn)練語言模型以區(qū)別在已加以注釋的語料庫中發(fā)現(xiàn)的同形異音異義字符的不同讀法。在一些實施例中,語言模型使同形異音異義字符的每一讀法與一個或一個以上概率的集合相關(guān)聯(lián)(例如,與一元語法、二元語法、三元語法等等相關(guān)聯(lián),包含彼讀法)。舉例來說,在評估轉(zhuǎn)換候選者中,轉(zhuǎn)換候選者的相關(guān)聯(lián)的概率(例如,一元語法、二元語法、三元語法等等)供語言使用以確定轉(zhuǎn)換候選者中的哪些轉(zhuǎn)換候選者具有最高相對概率(例如,對于給定上下文/基于鄰近或周圍字符)。具有相對較高概率的轉(zhuǎn)換候選者更可能為所要轉(zhuǎn)換輸出。舉例來說,如果轉(zhuǎn)換候選者中的一者為同形異音異義字符(例如,因為輸入數(shù)據(jù)的至少一部分形成與彼字符相關(guān)聯(lián)的讀法中的一者),那么在評估彼轉(zhuǎn)換候選者中,檢索與同形異音異義字符的彼特定讀法(例如,一元語法、二元語法、三元語法等等,包含彼特定讀法)相關(guān)聯(lián)的概率且使用所述概率與與其它轉(zhuǎn)換候選者相關(guān)聯(lián)的概率相比較。
圖10為展示用于將拼音轉(zhuǎn)換成中文字符的程序的實施例的流程圖。在一些實施例中,可使用系統(tǒng)100來實施程序1000。在一些實施例中,可使用程序1000來實施程序900(例如,904和906)。
在1002處,將與拼音相關(guān)聯(lián)的輸入字符集解析成一個或一個以上字符群組,其中每一字符群組待轉(zhuǎn)換成一中文字符。在一些實施例中,在裝置(例如,裝置102)的輸入?yún)^(qū)域處接收與拼音相關(guān)聯(lián)的字符集。在一些實施例中,將輸入拼音轉(zhuǎn)換成一個或一個以上中文字符。在一些實施例中,正確地拼寫輸入拼音(例如,羅馬字母串,字母中的至少一些字母之間具有或不具有一個或一個以上空間)。通常,每一中文字符通常為單音節(jié)的且因此映射到朗讀為單音節(jié)的拼音輸入中的鄰近字母群組。因此,在可將輸入拼音映射到中文轉(zhuǎn)換候選者之前,在一些實施例中,必須將輸入拼音解析成朗讀為單音節(jié)的字母群組。
舉例來說,假定輸入拼音為“shizhang”。輸入包含兩個音節(jié)(“shi”和“zhang”) 且因此將輸入解析成兩個單音節(jié)字母群組“shi”和“zhang”。
在1004處,確定對應(yīng)于一個或一個以上拼音群組中的每一者的一個或一個以上中文轉(zhuǎn)換候選者。在中文語言中,存在若干同音中文字符,所述同音中文字符為以相同方式朗讀/發(fā)音但意義不同的字符。同音字符將與相同拼音相關(guān)聯(lián)。在將拼音轉(zhuǎn)換成中文字符的程序中,可針對每一單音節(jié)拼音群組識別若干同音字符(例如,具有相同或不同音調(diào))。 然而,僅一個字符為用于拼音群組的所要轉(zhuǎn)換??赏ㄟ^使用語言模型獲得此所要字符,所述語言模型使相關(guān)聯(lián)于每一中文轉(zhuǎn)換候選者的一個或一個以上概率相關(guān)聯(lián)以確定哪些一個或一個以上轉(zhuǎn)換候選者與最聞概率相關(guān)聯(lián)。
繼續(xù)先前實例,舉例來說,用于“shi ”的中文轉(zhuǎn)換候選者包含“是”、“市”和“十”。 舉例來說,用于“zhang”的中文轉(zhuǎn)換候選者包含“章”、“掌”和“長”。
在1006處,確定一拼音字符群組是否與同形異音異義中文字符的一讀法相關(guān)聯(lián); 在確定拼音群組與相關(guān)聯(lián)于同形異音異義字符的第一讀法相關(guān)聯(lián)的情況下,檢索與彼第一讀法相關(guān)聯(lián)的信息。在一些實施例中,確定所解析的單音節(jié)拼音群組中的一者或一個以上者是否與同形異音異義字符的一讀法相關(guān)聯(lián)。如果確定此種群組,那么檢索與同形異音異義字符的彼讀法相關(guān)聯(lián)的概率且使用所述概率(例如,通過針對已加以注釋以區(qū)別同形異音異義中文字符的不同讀法的語料庫訓(xùn)練的語言模型)來評估對應(yīng)中文轉(zhuǎn)換候選者。
繼續(xù)先前實例,可確定拼音“zhang”與同形異音異義字符“長”的一讀法相關(guān)聯(lián)且因此在評估用于“shi”和“zhang”的中文轉(zhuǎn)換候選者中,可檢索與“*_zhang”相關(guān)聯(lián)的概率(例如,Pr (長_zhang))。此外,假定輸入“shizhang”用以形成一個短語(包括兩個中文字符),那么評估與“shi”和“zhang”的中文轉(zhuǎn)換候選者的各種組合相關(guān)聯(lián)的概率 (例如,Pr (是,章);Pr (是,掌);Pr (是,長_zhang) ;Pr (市,章);Pr (市,掌);Pr (市,長 _zhang) ;Pr (十,章);Pr (十,掌);Pr (十,長 _zhang) ;Pr (十,章);Pr (十,掌);Pr (十, *_zhang)),以確定具有最高概率的組合。假定語料庫已加以適當(dāng)?shù)刈⑨屒艺Z言模型已得到適當(dāng)訓(xùn)練,那么關(guān)于與中文轉(zhuǎn)換候選者的可能組合相關(guān)聯(lián)的概率,Pr (市,長_zhang)的值應(yīng)為最大的(例如,因為中文字符的剩余組合無意義和/或并不常呈現(xiàn)于已加以注釋的語料庫中)。因而,在此實例中,“市長”(意味英文的“mayor”)為用于“shizhang”輸入的輸出中文轉(zhuǎn)換。在語料庫未加以注釋以區(qū)別同形異音異義中文字符的不同讀法的情況下, 那么Pr (市,長)的值(如從未加以注釋的語料庫確定)可能不與Pr (市,長_zhang)的值一般高(且因此,可能不會選擇“市長”作為輸出中文轉(zhuǎn)換),這是因為(例如)用于所有讀法(“chang”和“zhang”)中的“長”更通常地呈現(xiàn)為貼近未加以注釋的語料庫中的除“市”之外的中文字符。
盡管為了理解的清晰的目的稍詳細(xì)地描述了前述實施例,但本發(fā)明不限于所提供的細(xì)節(jié)。存在實施本發(fā)明的許多替代方式。所揭示實施例為說明性的且并非限制性的。
權(quán)利要求
1.一種方法,其包括 在包括存儲器和一個或一個以上處理器的裝置處 接收待轉(zhuǎn)換成一組字符的輸入數(shù)據(jù),所述組字符包括所述輸入數(shù)據(jù)在目標(biāo)符號系統(tǒng)中的符號表不;以及 使用區(qū)別所述目標(biāo)符號系統(tǒng)的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數(shù)據(jù)的對應(yīng)部分的相應(yīng)概率。
2.根據(jù)權(quán)利要求I所述的方法,其進一步包括 在待將所述輸入數(shù)據(jù)轉(zhuǎn)換到的所述目標(biāo)符號系統(tǒng)中產(chǎn)生一個或一個以上轉(zhuǎn)換候選者。
3.根據(jù)權(quán)利要求I到2中任一權(quán)利要求所述的方法,其中所述輸入數(shù)據(jù)包括以拼音書寫的輸入文本。
4.根據(jù)權(quán)利要求I到3中任一權(quán)利要求所述的方法,其中所述輸入數(shù)據(jù)包括以羅馬字母表的字符書寫的輸入文本。
5.根據(jù)權(quán)利要求I到4中任一權(quán)利要求所述的方法,其中將所述輸入數(shù)據(jù)解析成一個或一個以上單音節(jié)字符群組。
6.根據(jù)權(quán)利要求I到5中任一權(quán)利要求所述的方法,其中所述目標(biāo)符號系統(tǒng)包含中文字符。
7.根據(jù)權(quán)利要求I到6中任一權(quán)利要求所述的方法,其中使用已加以注釋以區(qū)別所述同形異音異義字符的所述第一讀法與所述同形異音異義字符的所述第二讀法的語料庫來訓(xùn)練所述語言模型,且其中對于所述同形異音異義字符的所述第一讀法和所述第二讀法中的至少一者,建立對應(yīng)新符號或其經(jīng)編碼表示并將所述對應(yīng)新符號或其經(jīng)編碼表示添加到所述已加以注釋的語料庫。
8.根據(jù)權(quán)利要求I到7中任一權(quán)利要求所述的方法,其進一步包括 接收對與語料庫相關(guān)聯(lián)的文本子集的注釋的一個或一個以上手動輸入,其中對于相應(yīng)同形異音異義字符的例子,對注釋的每一所述手動輸入至少部分基于與所述例子相關(guān)聯(lián)的上下文而指示所述相應(yīng)同形異音異義字符的相應(yīng)適當(dāng)讀法,其中每一所述注釋與相關(guān)聯(lián)于所述相應(yīng)同形異音異義字符的相應(yīng)符號相關(guān)聯(lián);以及 至少部分基于對注釋的所述所接收的一個或一個以上手動輸入,自動地對與所述語料庫相關(guān)聯(lián)的所述文本的未加以手動地注釋的至少一部分加以注釋。
9.根據(jù)權(quán)利要求I到8中任一權(quán)利要求所述的方法,其中訓(xùn)練所述語言模型以使對應(yīng)于所述同形異音異義字符的所述第一讀法的第一概率與對應(yīng)于所述同形異音異義字符的所述第二讀法的第二概率相關(guān)聯(lián)。
10.根據(jù)權(quán)利要求I到9中任一權(quán)利要求所述的方法,其中訓(xùn)練所述語言模型以使對應(yīng)于第一字符序列的第一概率與對應(yīng)于第二字符序列的第二概率相關(guān)聯(lián),所述第一字符序列包含所述同形異音異義字符的所述第一讀法,所述第二字符序列包含所述同形異音異義字符的所述第二讀法,其中所述第一序列與所述第二序列各自包含兩個或兩個以上字符。
11.一種電子裝置,其包括 輸入接收單元,其經(jīng)配置以接收待轉(zhuǎn)換成一組字符的輸入數(shù)據(jù),所述組字符包括所述輸入數(shù)據(jù)在目標(biāo)符號系統(tǒng)中的符號表不;以及 耦合到所述輸入接收單元的轉(zhuǎn)換單元,所述轉(zhuǎn)換單元經(jīng)配置以使用區(qū)別所述目標(biāo)符號系統(tǒng)的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數(shù)據(jù)的對應(yīng)部分的相應(yīng)概率。
12.根據(jù)權(quán)利要求11所述的電子裝置,其中所述轉(zhuǎn)換單元經(jīng)進一步配置以在待將所述輸入數(shù)據(jù)轉(zhuǎn)換到的所述目標(biāo)符號系統(tǒng)中產(chǎn)生一個或一個以上轉(zhuǎn)換候選者。
13.根據(jù)權(quán)利要求11到12中任一權(quán)利要求所述的電子裝置,其中所述輸入數(shù)據(jù)包括以拼音書寫的輸入文本。
14.根據(jù)權(quán)利要求11到13中任一權(quán)利要求所述的電子裝置,其中所述輸入數(shù)據(jù)包括以羅馬字母表的字符書寫的輸入文本。
15.根據(jù)權(quán)利要求11到14中任一權(quán)利要求所述的電子裝置,其中所述輸入數(shù)據(jù)被解析成一個或一個以上單音節(jié)字符群組。
16.根據(jù)權(quán)利要求11到15中任一權(quán)利要求所述的電子裝置,其中所述目標(biāo)符號系統(tǒng)包含中文字符。
17.根據(jù)權(quán)利要求11到16中任一權(quán)利要求所述的電子裝置,其中所述語言模型是使用已加以注釋以區(qū)別所述同形異音異義字符的所述第一讀法與所述同形異音異義字符的所述第二讀法的語料庫來訓(xùn)練,且其中對于所述同形異音異義字符的所述第一讀法和所述第二讀法中的至少一者,建立對應(yīng)新符號或其經(jīng)編碼表示并將所述對應(yīng)新符號或其經(jīng)編碼表示添加到所述已加以注釋的語料庫。
18.根據(jù)權(quán)利要求11到17中任一權(quán)利要求所述的電子裝置,其進一步包括 語言模型訓(xùn)練單元,其經(jīng)配置以 接收對與語料庫相關(guān)聯(lián)的文本子集的注釋的一個或一個以上手動輸入,其中對于相應(yīng)同形異音異義字符的例子,對注釋的每一所述手動輸入至少部分基于與所述例子相關(guān)聯(lián)的上下文而指示所述相應(yīng)同形異音異義字符的相應(yīng)適當(dāng)讀法,其中每一所述注釋與相關(guān)聯(lián)于所述相應(yīng)同形異音異義字符的相應(yīng)符號相關(guān)聯(lián);以及 至少部分基于對注釋的所述所接收的一個或一個以上手動輸入,自動地對與所述語料庫相關(guān)聯(lián)的所述文本的未加以手動地注釋的至少一部分加以注釋。
19.根據(jù)權(quán)利要求11到18中任一權(quán)利要求所述的電子裝置,其中所述語言模型經(jīng)訓(xùn)練以使對應(yīng)于所述同形異音異義字符的所述第一讀法的第一概率與對應(yīng)于所述同形異音異義字符的所述第二讀法的第二概率相關(guān)聯(lián)。
20.根據(jù)權(quán)利要求11到19中任一權(quán)利要求所述的電子裝置,其中所述語言模型經(jīng)訓(xùn)練以使對應(yīng)于第一字符序列的第一概率與對應(yīng)于第二字符序列的第二概率相關(guān)聯(lián),所述第一字符序列包含所述同形異音異義字符的所述第一讀法,所述第二字符序列包含所述同形異音異義字符的所述第二讀法,其中所述第一序列與所述第二序列各自包含兩個或兩個以上字符。
全文摘要
本發(fā)明揭示消除語言轉(zhuǎn)換中的多個讀法的歧義的方法,所述方法包含接收待轉(zhuǎn)換成一組字符的輸入數(shù)據(jù),所述組字符包括所述輸入數(shù)據(jù)在目標(biāo)符號系統(tǒng)中的符號表示;以及使用區(qū)別所述目標(biāo)符號系統(tǒng)的字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符應(yīng)用以表示所述輸入數(shù)據(jù)的對應(yīng)部分的概率。
文檔編號G06F17/28GK102982021SQ20121028734
公開日2013年3月20日 申請日期2012年8月13日 優(yōu)先權(quán)日2011年8月11日
發(fā)明者布倫特·D·拉梅爾斯, 戴王·K·奈克, 道格拉斯·R·戴維森, 亞內(nèi)斯·G·A·多爾芬, 樸佳 申請人:蘋果公司