專利名稱:組合句法轉(zhuǎn)換模型與詞匯轉(zhuǎn)換模型的機(jī)器翻譯裝置和機(jī)器翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及統(tǒng)計(jì)機(jī)器翻譯,更具體地說,涉及通過將翻譯步驟建模為句法轉(zhuǎn)換處理和詞翻譯處理這兩個(gè)步驟,并且將該模型應(yīng)用于實(shí)時(shí)輸入的源語言句子,來經(jīng)由句法轉(zhuǎn)換器與詞翻譯器的解碼處理,將句法轉(zhuǎn)換模型與詞翻譯模型組合以生成目標(biāo)語言句子的機(jī)器翻譯以及機(jī)器翻譯方法。
背景技術(shù):
自動(dòng)翻譯技術(shù)指的是將一種語言自動(dòng)轉(zhuǎn)換為另一種語言的軟件技術(shù)。從20世紀(jì)中期,美國出于軍事目的已經(jīng)開始研究該項(xiàng)技術(shù)。近來,在全世界,多個(gè)實(shí)驗(yàn)室和私人公司出于擴(kuò)展信息獲取范圍以及對(duì)人機(jī)接口進(jìn)行創(chuàng)新的目的積極地研究該項(xiàng)技術(shù)。在自動(dòng)翻譯技術(shù)的初始階段,基于由專家手工準(zhǔn)備的雙語字典以及將一種語言轉(zhuǎn)換為另一種語言的規(guī)則,開發(fā)了自動(dòng)翻譯技術(shù)。然而,從計(jì)算能力迅速發(fā)展的21世紀(jì)初期以來,從大量數(shù)據(jù)以統(tǒng)計(jì)方式自動(dòng)學(xué)習(xí)翻譯算法的統(tǒng)計(jì)翻譯技術(shù)的開發(fā)取得了積極進(jìn)展。統(tǒng)計(jì)機(jī)器翻譯(SMT)系統(tǒng)根據(jù)大量平行語料庫以統(tǒng)計(jì)方式對(duì)翻譯處理進(jìn)行建模,并且學(xué)習(xí)翻譯知識(shí)和翻譯概率以及針對(duì)目標(biāo)語言的創(chuàng)建概率,以生成最適合于基于此輸入的源句子的目標(biāo)句子。最近的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)總體上可以分為基于短語的SMT (下文稱作PBSMT)型和基于句法(語法)的SMT (下文稱作SBSMT )型。將連續(xù)詞串(下文稱作短語)作為一個(gè)單元進(jìn)行翻譯而不是執(zhí)行單獨(dú)的逐詞翻譯的PBSMT是一種在學(xué)習(xí)了逐個(gè)短語的翻譯知識(shí)和翻譯概率之后,在解碼期間生成具有最大概率的短語組合的方法。最具代表性的PBSMT模型是Koehn等人(2003)以及Och和Ney (2004a)提出的模型。該模型比較簡單,并且其特征在于容易改變短距離詞序,并且自然地執(zhí)行利用多個(gè)詞表達(dá)的翻譯。然而,在該模型中,不容易改變長距離詞序,具體地說,在詞序彼此明顯不同的語言對(duì)(例如,英語-韓語翻譯)中會(huì)導(dǎo)致較大問題。原因在于,在PBSMT的翻譯模型中,僅考慮了短語之間的所有可用排列中的一些排列來確定句子中的詞序,而未明確地對(duì)語法間(intergrammer)轉(zhuǎn)換進(jìn)行建模。因此,近年來,主要研究了一種對(duì)基于語法的句法的轉(zhuǎn)換進(jìn)行建模的方法,并且將該方法稱作SBSMT。為了學(xué)習(xí)句法轉(zhuǎn)換知識(shí),SBSMT從平行語料庫中的與兩種語言對(duì)應(yīng)的句法樹,學(xué)習(xí)逐個(gè)樹或樹到字符串轉(zhuǎn)換知識(shí)和概率。SBSMT的特征在于,與PBSMT相比,更容易改變長距離詞序并且更容易翻譯非連續(xù)短語。然而,由于SBSMT嚴(yán)重依賴于句法分析器的性能并且翻譯知識(shí)局限于語法短語單元,所以自身要使用的翻譯知識(shí)非常少。結(jié)果,當(dāng)不存在要使用的翻譯知識(shí)時(shí),連續(xù)詞串的翻譯變?yōu)椴慌c連接詞(linked word)匹配的簡單的逐詞翻譯或不自然的翻譯。代表性的方法包括Gal Iey等人(2004、2006 )、Lavie等人(2008 )、Yamada和Knight、Gildea等人提出的方法等。
與此相似,在現(xiàn)有技術(shù)中的統(tǒng)計(jì)機(jī)器翻譯技術(shù)中,PBSMT型改進(jìn)了連續(xù)詞翻譯的流暢性,但是未能改變長距離詞序,從而生成完全不同的句子。在SBSMT型中,生成的目標(biāo)句子的詞序是正確的,但是由于翻譯知識(shí)的缺乏而執(zhí)行簡單的逐詞翻譯,結(jié)果,翻譯是不自然的。
發(fā)明內(nèi)容
技術(shù)問題本發(fā)明致力于解決該問題,本發(fā)明的目的在于提供一種機(jī)器翻譯裝置和機(jī)器翻譯方法,該機(jī)器翻譯裝置和機(jī)器翻譯方法通過從平行語料庫提取句法轉(zhuǎn)換知識(shí)和詞翻譯知識(shí)來在提取相應(yīng)轉(zhuǎn)換概率的同時(shí),從單語料庫獲取針對(duì)目標(biāo)語言的創(chuàng)建概率;通過利用翻譯模型學(xué)習(xí)裝置使得能夠?qū)W習(xí)各個(gè)轉(zhuǎn)換知識(shí)和各個(gè)概率,來對(duì)加權(quán)的翻譯模型進(jìn)行建模;以及通過將翻譯模型應(yīng)用于實(shí)時(shí)輸入的源句子,來經(jīng)由句法轉(zhuǎn)換器和詞翻譯器的解碼處理生成目標(biāo)句子,從而解決現(xiàn)有的基于短語的SMT和基于句法的SMT的缺點(diǎn)并組合這些SMT的優(yōu)點(diǎn)。技術(shù)方案根據(jù)本發(fā)明的第一方面,一種統(tǒng)計(jì)機(jī)器翻譯裝置包括:翻譯模型構(gòu)造器,該翻譯模型構(gòu)造器利用多個(gè)平行語料庫中的源句子與目標(biāo)句子之間的詞重新排序信息和源句子的句法分析信息來提取目標(biāo)句子的句法轉(zhuǎn)換知識(shí)和詞翻譯知識(shí),并且針對(duì)相應(yīng)的提取的知識(shí)計(jì)算轉(zhuǎn)換概率;翻譯模型學(xué)習(xí)裝置,該翻譯模型學(xué)習(xí)裝置通過學(xué)習(xí)經(jīng)由翻譯模型構(gòu)造器提取的相應(yīng)翻譯知識(shí)和轉(zhuǎn)換概率,來生成句法轉(zhuǎn)換模型和詞翻譯模型;以及翻譯句子(translated sentence)生成器,該翻譯句子生成器通過針對(duì)實(shí)時(shí)輸入的源句子應(yīng)用經(jīng)由翻譯模型學(xué)習(xí)裝置學(xué)習(xí)的句法轉(zhuǎn)換模型和詞翻譯模型,將源句子解碼為目標(biāo)句子。根據(jù)本發(fā)明的第二方面,一種翻譯模型構(gòu)造裝置包括:句法轉(zhuǎn)換知識(shí)提取器,該句法轉(zhuǎn)換知識(shí)提取器利用多個(gè)平行語料庫中的源句子與目標(biāo)句子之間的詞重新排序信息和源句子的句法分析信息來提取針對(duì)目標(biāo)句子的句法轉(zhuǎn)換知識(shí),并且針對(duì)所提取的知識(shí)計(jì)算轉(zhuǎn)換概率;以及詞翻譯知識(shí)提取器,該詞翻譯知識(shí)提取器利用多個(gè)平行語料庫中的源句子與目標(biāo)句子之間的詞重新排序信息和源句子的句法分析信息來提取詞翻譯知識(shí),并且針對(duì)所提取的知識(shí)計(jì)算轉(zhuǎn)換概率。根據(jù)本發(fā)明的第三方面,一種翻譯句子生成裝置包括:句法轉(zhuǎn)換器,該句法轉(zhuǎn)換器對(duì)實(shí)時(shí)輸入的源句子進(jìn)行句法分析,從經(jīng)分析的源句子的句法提取目標(biāo)句子的句法轉(zhuǎn)換知識(shí),并且使得針對(duì)所提取的知識(shí)學(xué)習(xí)轉(zhuǎn)換概率;詞翻譯器,該詞翻譯器基于詞翻譯模型生成目標(biāo)詞匯串,在該詞翻譯模型中,約束條件被施加于經(jīng)由句法轉(zhuǎn)換器提取的目標(biāo)句子的句法;以及概率計(jì)算器,該概率計(jì)算器將經(jīng)由詞翻譯器提取的目標(biāo)詞匯串的創(chuàng)建概率與經(jīng)由句法轉(zhuǎn)換器提取的轉(zhuǎn)換概率進(jìn)行組合,并且此后,將具有最高概率的目標(biāo)詞匯串生成為翻譯句子。根據(jù)本發(fā)明的第四方面,一種翻譯模型構(gòu)造方法包括以下步驟:(a)利用多個(gè)平行語料庫中的源句子與目標(biāo)句子之間的詞重新排序信息和源句子的句法分析信息來提取針對(duì)目標(biāo)句子的句法轉(zhuǎn)換知識(shí);(b)利用多個(gè)平行語料庫中的源句子與目標(biāo)句子之間的詞重新排序信息和源句子的句法分析信息來提取詞翻譯知識(shí);以及(c)分別計(jì)算針對(duì)句法轉(zhuǎn)換知識(shí)和詞翻譯知識(shí)的轉(zhuǎn)換概率,并且使得針對(duì)各個(gè)轉(zhuǎn)換概率學(xué)習(xí)權(quán)重。根據(jù)本發(fā)明的第五方面,一種機(jī)器翻譯方法包括以下步驟:(a)對(duì)實(shí)時(shí)輸入的源句子進(jìn)行句法分析,并且從經(jīng)分析的源句子的句法提取目標(biāo)句子的句法轉(zhuǎn)換知識(shí)和轉(zhuǎn)換概率;(b)基于詞翻譯模型生成目標(biāo)詞匯串,在該詞翻譯模型中,約束條件被施加于從目標(biāo)句子的句法轉(zhuǎn)換知識(shí)提取的目標(biāo)句子的句法;以及(C)通過將目標(biāo)句子的句法轉(zhuǎn)換概率與目標(biāo)詞匯串的創(chuàng)建概率進(jìn)行組合,來將具有最高概率的目標(biāo)詞匯串生成為翻譯句子。有益效果根據(jù)本發(fā)明,可以解決現(xiàn)有的基于詞匯的翻譯模型和基于句法的翻譯模型的缺點(diǎn),并且可以組合這些模型的優(yōu)點(diǎn)。S卩,根據(jù)本發(fā)明,可以經(jīng)由句法轉(zhuǎn)換模型來改進(jìn)長距離詞重新排布的性能,并且因?yàn)槭褂昧舜罅糠蔷浞ㄞD(zhuǎn)換知識(shí),所以執(zhí)行適合于上下文的適當(dāng)翻譯,以改進(jìn)翻譯句子的適當(dāng)性和自然性。
圖1是例示根據(jù)本發(fā)明的示例性實(shí)施方式的機(jī)器翻譯裝置的構(gòu)造的圖。圖2是例示根據(jù)本發(fā)明的示例性實(shí)施方式的機(jī)器翻譯裝置被分為句法轉(zhuǎn)換模型和詞翻譯模型的構(gòu)造的圖。圖3是例示根據(jù)本發(fā)明的示例性實(shí)施方式的翻譯句子生成器的構(gòu)造的圖。圖4是例示圖2所示的句法轉(zhuǎn)換知識(shí)提取器的詳細(xì)構(gòu)造的圖。圖5是例示根據(jù)本發(fā)明的示例性實(shí)施方式的翻譯句子生成器的詞翻譯器的圖。圖6是用于描述根據(jù)本發(fā)明的示例性實(shí)施方式的句法轉(zhuǎn)換模型與詞翻譯模型之間的差別的示例性圖。圖7是完整描述根據(jù)本發(fā)明的另一示例性實(shí)施方式的機(jī)器翻譯方法的流程圖。圖8是描述根據(jù)本發(fā)明的示例性實(shí)施方式的構(gòu)造針對(duì)機(jī)器翻譯的翻譯模型的方法的流程圖。主要附圖標(biāo)記說明100:翻譯模型構(gòu)造器110:句法轉(zhuǎn)換知識(shí)提取器120:句法轉(zhuǎn)換知識(shí)數(shù)據(jù)庫130:詞翻譯知識(shí)提取器140:詞翻譯知識(shí)數(shù)據(jù)庫150:語言模型生成器160:語言模型300:翻譯模型學(xué)習(xí)裝置400:翻譯句子生成器410:句法轉(zhuǎn)換器420:詞翻譯器111:句子選擇器113:源樹生成器115:樹節(jié)點(diǎn)重新排序器117:樹轉(zhuǎn)換知識(shí)提取器119:概率計(jì)算器421:特征提取器422:翻譯選項(xiàng)生成器423:翻譯選項(xiàng)約束裝置424:假設(shè)(hypothesis)搜索425:翻譯失真約束裝置
具體實(shí)施方式
下文將參照附圖詳細(xì)描述本發(fā)明的示例性實(shí)施方式。通過以下詳細(xì)描述,將清楚地理解本發(fā)明的構(gòu)造及其操作效果。在詳細(xì)描述本發(fā)明之前,應(yīng)當(dāng)注意,附圖中任何可能的位置上的相同的標(biāo)號(hào)對(duì)應(yīng)于相同的部件,并且當(dāng)公知的構(gòu)造可能使得本發(fā)明的主旨不必要地模糊時(shí),將省略詳細(xì)描述。下面要描述的源句子或源語言句子是要翻譯的源語言的句子,目標(biāo)句子或目標(biāo)語言句子指的是通過將源句子翻譯為期望語言而輸出的目標(biāo)語言的句子。圖1是例示根據(jù)本發(fā)明的示例性實(shí)施方式的機(jī)器翻譯裝置的構(gòu)造的圖。圖2是例示根據(jù)本發(fā)明的示例性實(shí)施方式的機(jī)器翻譯裝置被分為句法轉(zhuǎn)換模型和詞翻譯模型的構(gòu)造的圖。參照?qǐng)D1和圖2,根據(jù)本發(fā)明的示例性實(shí)施方式的機(jī)器翻譯裝置總體上包括翻譯模型構(gòu)造器100、翻譯模型學(xué)習(xí)裝置300和翻譯句子生成器400。翻譯模型構(gòu)造器100包括句法轉(zhuǎn)換知識(shí)提取器110和詞翻譯知識(shí)提取器130,該句法轉(zhuǎn)換知識(shí)提取器Iio和詞翻譯知識(shí)提取器130從由源語言和目標(biāo)語言構(gòu)成的平行語料庫提取句法轉(zhuǎn)換知識(shí)和詞翻譯知識(shí),并且計(jì)算各個(gè)轉(zhuǎn)換概率。所提取的句法轉(zhuǎn)換知識(shí)和詞翻譯知識(shí)分別存儲(chǔ)在句法轉(zhuǎn)換知識(shí)數(shù)據(jù)庫(DB) 120和詞翻譯知識(shí)數(shù)據(jù)庫(DB) 140中。進(jìn)一步地,翻譯模型構(gòu)造器100包括語言模型生成器150,該語言模型生成器150從由目標(biāo)語言構(gòu)成的單語料庫提取語言的創(chuàng)建概率。所提取的語言的創(chuàng)建概率被存儲(chǔ)在語言模型數(shù)據(jù)庫(DB) 160中,以構(gòu)造語言模型。翻譯模型學(xué)習(xí)裝置300學(xué)習(xí)經(jīng)由翻譯模型構(gòu)造器100提取的各個(gè)特征的權(quán)重。翻譯模型學(xué)習(xí)裝置300可以類似地使用Bertold1、Haddow和Fouet (2009)提出的最小誤差學(xué)習(xí)(MERT)方法。翻譯句子生成器400執(zhí)行解碼處理的兩個(gè)步驟。即,第一步驟是句法轉(zhuǎn)換處理,第二步驟是詞翻譯處理。在圖3所示的句法轉(zhuǎn)換器410、詞翻譯器420和概率計(jì)算器430中執(zhí)行各個(gè)步驟。S卩,執(zhí)行第一步驟的句法轉(zhuǎn)換器410生成具有高概率的N個(gè)目標(biāo)句法,并且基于該結(jié)果,執(zhí)行第二步驟的詞翻譯器420從可用的目標(biāo)詞匯串選擇具有最高概率的M個(gè)目標(biāo)詞匯串。概率計(jì)算器430在將句法轉(zhuǎn)換器410中生成的N個(gè)概率與詞翻譯器420中生成的M個(gè)概率進(jìn)行組合之后,最終將具有最高概率的目標(biāo)詞匯串輸出為翻譯句子。因此,根據(jù)本發(fā)明的示例性實(shí)施方式的機(jī)器翻譯裝置從由源語言和目標(biāo)語言構(gòu)成的平行語料庫提取句法轉(zhuǎn)換知識(shí)和詞翻譯知識(shí)以及各個(gè)轉(zhuǎn)換概率,并且通過學(xué)習(xí)各個(gè)轉(zhuǎn)換知識(shí)和概率,來從單語料庫獲取目標(biāo)語言的創(chuàng)建概率,以對(duì)經(jīng)加權(quán)的翻譯模型進(jìn)行建模。另夕卜,通過將完成建模的翻譯模型應(yīng)用于實(shí)時(shí)輸入的源句子,來經(jīng)由句法轉(zhuǎn)換器410和詞翻譯器420的兩個(gè)解碼處理生成最終的目標(biāo)句子。將詳細(xì)描述機(jī)器翻譯裝置的組成部件。如圖2所示,翻譯模型構(gòu)造器100是提取翻譯知識(shí)和翻譯概率的模塊。具體地說,根據(jù)本發(fā)明的示例性實(shí)施方式的翻譯模型構(gòu)造器100是基于下面要描述的統(tǒng)計(jì)翻譯模型的。假設(shè)句子e由句法S(e)和詞匯串L(e)構(gòu)成,則可以利用所有可用的句法S(e)來如式I所示表示該句子。式I
權(quán)利要求
1.一種統(tǒng)計(jì)機(jī)器翻譯裝置,該統(tǒng)計(jì)機(jī)器翻譯裝置包括: 翻譯模型構(gòu)造器,該翻譯模型構(gòu)造器利用多個(gè)平行語料庫中的源句子與目標(biāo)句子之間的詞重新排序信息和句法分析信息來提取所述目標(biāo)句子的句法轉(zhuǎn)換知識(shí)和詞翻譯知識(shí),并且針對(duì)所述各個(gè)提取的知識(shí)計(jì)算轉(zhuǎn)換概率; 翻譯模型學(xué)習(xí)裝置,該翻譯模型學(xué)習(xí)裝置通過學(xué)習(xí)經(jīng)由所述翻譯模型構(gòu)造器提取的所述各個(gè)翻譯知識(shí)和轉(zhuǎn)換概率,來生成句法轉(zhuǎn)換模型和詞翻譯模型;以及 翻譯句子生成器,該翻譯句子生成器通過針對(duì)實(shí)時(shí)輸入的源句子應(yīng)用經(jīng)由所述翻譯模型學(xué)習(xí)裝置學(xué)習(xí)的所述句法轉(zhuǎn)換模型和所述詞翻譯模型,來將所述源句子解碼為所述目標(biāo)句子。
2.根據(jù)權(quán)利要求1所述的統(tǒng)計(jì)機(jī)器翻譯裝置,其中, 所述翻譯模型構(gòu)造器還包括語言模型生成器,該語言模型生成器通過從所述目標(biāo)句子的單語料庫提取目標(biāo)詞匯串的創(chuàng)建概率,來生成語言模型。
3.根據(jù)權(quán)利要求1所述的統(tǒng)計(jì)機(jī)器翻譯裝置,其中, 所述翻譯句子生成器通過將由所述句法轉(zhuǎn)換模型輸出的多個(gè)句法轉(zhuǎn)換概率與由所述詞翻譯模型輸出的多個(gè)詞翻譯概率進(jìn)行組合,來將具有高概率的目標(biāo)詞匯串生成為最終的翻譯句子。
4.一種翻譯模型構(gòu)造裝置,該翻譯模型構(gòu)造裝置包括: 句法轉(zhuǎn)換知識(shí)提取器,該句法轉(zhuǎn)換知識(shí)提取器利用多個(gè)平行語料庫中的源句子與目標(biāo)句子之間的詞重新排序信息和所述源句子的句法分析信息來提取針對(duì)目標(biāo)句子的句法轉(zhuǎn)換知識(shí),并且針對(duì)所提取的知識(shí)計(jì)算轉(zhuǎn)換概率;以及 詞翻譯知識(shí)提取器,該詞翻譯知識(shí)提取器利用所述多個(gè)平行語料庫中的所述源句子與所述目標(biāo)句子之間的所述詞重新排序信息和所述源句子的所述句法分析信息來提取詞翻譯知識(shí),并且針對(duì)所提取的知識(shí)計(jì)算所述轉(zhuǎn)換概率。
5.根據(jù)權(quán)利要求4所述的翻譯模型構(gòu)造裝置,其中, 所述句法轉(zhuǎn)換提取器包括: 樹生成器,該樹生成器利用所述多個(gè)平行語料庫中的所述源句子和所述目標(biāo)句子的所述詞重新排序信息來生成所述目標(biāo)句子的句法樹(目標(biāo)樹); 樹節(jié)點(diǎn)重新排序器,該樹節(jié)點(diǎn)重新排序器基于在所述樹生成器中生成的所述目標(biāo)樹和根據(jù)所述源句子的所述句法分析信息的源樹,來對(duì)節(jié)點(diǎn)重新排序; 樹轉(zhuǎn)換知識(shí)提取器,該樹轉(zhuǎn)換知識(shí)提取器提取各個(gè)節(jié)點(diǎn)中的子樹的轉(zhuǎn)換知識(shí);以及 概率計(jì)算器,該概率計(jì)算器針對(duì)由所述樹轉(zhuǎn)換知識(shí)提取器提取的所述知識(shí),以統(tǒng)計(jì)方式計(jì)算所述轉(zhuǎn)換概率。
6.根據(jù)權(quán)利要求4所述的翻譯模型構(gòu)造裝置,其中, 所述詞翻譯提取器通過應(yīng)用特征函數(shù)來提取所述詞翻譯概率,在該特征函數(shù)中,在所述源句子與所述目標(biāo)句子之間的所述詞重新排序信息和所述源句子的所述句法分析信息中限定預(yù)定的約束條件。
7.根據(jù)權(quán)利要求6所述的翻譯模型構(gòu)造裝置,其中, 所述特征函數(shù)是根據(jù)所述目標(biāo)句子的句法和所述源句子的句法以及句法間排布信息來約束所述目標(biāo)句子的語音串的一部分和包括在所述源句子中的詞的翻譯順序,并且將所述受約束的語音串的一部分和翻譯順序作為特征輸出的函數(shù)。
8.根據(jù)權(quán)利要求6所述的翻譯模型構(gòu)造裝置,其中, 所述特征函數(shù)是僅將包括在所述源句子中的所述詞的根據(jù)所述目標(biāo)句子的所述句法和所述源句子的所述句法以及所述句法間排布信息的所述翻譯順序作為所述特征輸出的函數(shù)。
9.一種翻譯句子生成裝置,該翻譯句子生成裝置包括: 句法轉(zhuǎn)換器,該句法轉(zhuǎn)換器對(duì)實(shí)時(shí)輸入的源句子進(jìn)行句法分析,從所述經(jīng)分析的源句子的句法提取目標(biāo)句子的句法轉(zhuǎn)換知識(shí),并且使得針對(duì)所提取的知識(shí)學(xué)習(xí)轉(zhuǎn)換概率; 詞翻譯器,該詞翻譯器基于詞翻譯模型生成目標(biāo)詞匯串,在該詞翻譯模型中,約束條件被施加于經(jīng)由所述句法轉(zhuǎn)換器提取的所述目標(biāo)句子的所述句法;以及 概率計(jì)算器,該概率計(jì)算器將經(jīng)由所述詞翻譯器生成的所述目標(biāo)詞匯串的創(chuàng)建概率與經(jīng)由所述句法轉(zhuǎn)換器學(xué)習(xí)的所述轉(zhuǎn)換概率進(jìn)行組合,并且此后,將具有最高概率的目標(biāo)詞匯串生成為翻譯句子。
10.根據(jù)權(quán)利要求9所述的翻譯句子生成裝置,其中, 所述詞翻譯器包括: 特征提取器,該特征提取器基于句法分析信息、所述目標(biāo)句子的句法分析信息以及從所述句法轉(zhuǎn)換器輸入的所述源句子的詞重新排序信息,來提取特征; 翻譯選項(xiàng)約束裝置, 該翻譯選項(xiàng)約束裝置根據(jù)由所述特征提取器提取的語音串的一部分和翻譯順序來約束翻譯選項(xiàng); 翻譯失真約束裝置,該翻譯失真約束裝置通過對(duì)由所述特征提取器提取的所述詞序進(jìn)行約束,來重新排布所述翻譯順序; 假設(shè)搜索器,該假設(shè)搜索器通過將經(jīng)由所述翻譯選項(xiàng)約束裝置和所述翻譯失真約束裝置確定的約束條件反映到經(jīng)由所述特征提取器提取的所述特征,來搜索假設(shè);以及 M-最佳跟蹤器,該M-最佳跟蹤器通過針對(duì)在所述假設(shè)搜索器中搜索的所述假設(shè)計(jì)算創(chuàng)建目標(biāo)詞匯串的概率,來選擇具有高概率的該同一目標(biāo)詞匯串。
11.一種機(jī)器翻譯方法,該機(jī)器翻譯方法包括以下步驟: Ca)對(duì)實(shí)時(shí)輸入的源句子進(jìn)行句法分析,并且從所述經(jīng)分析的源句子的句法提取目標(biāo)句子的句法轉(zhuǎn)換知識(shí)和轉(zhuǎn)換概率; (b)基于詞翻譯模型生成目標(biāo)詞匯串,在該詞翻譯模型中,約束條件被施加于從所述目標(biāo)句子的所述句法轉(zhuǎn)換知識(shí)提取的所述目標(biāo)句子的所述句法;以及 (c)通過將所述目標(biāo)句子的所述句法轉(zhuǎn)換概率與所述目標(biāo)詞匯串的創(chuàng)建概率進(jìn)行組合,來將具有高概率的目標(biāo)詞匯串生成為翻譯句子。
12.根據(jù)權(quán)利要求11所述的機(jī)器翻譯方法,其中, 步驟(b)包括以下步驟: 基于句法分析信息、所述目標(biāo)句子的句法分析信息以及從所述句法轉(zhuǎn)換器輸入的所述源句子的詞重新排序信息,來提取特征; 設(shè)置翻譯選項(xiàng),以約束所述特征; 通過將所述翻譯選項(xiàng)反映到所述特征,來搜索假設(shè);以及 通過針對(duì)所搜索的假設(shè)計(jì)算生成目標(biāo)詞匯串的概率來選擇具有高概率的該同一目標(biāo)詞匯串。
13.根據(jù)權(quán)利要求11所述的機(jī)器翻譯方法,其中, 所述翻譯選項(xiàng)選擇性地包括語音串的一部分和翻譯順序中的至少一個(gè)。
14.一種翻譯模型構(gòu)造方法,該翻譯模型構(gòu)造方法包括以下步驟: Ca)利用多個(gè)平行語料庫中的源句子與目標(biāo)句子之間的詞重新排序信息和所述源句子的句法分析信息來提取針對(duì)目標(biāo)句子的句法轉(zhuǎn)換知識(shí); (b)利用所述多個(gè)平行語料庫中的所述源句子與所述目標(biāo)句子之間的所述詞重新排序信息和所述源句子的所述句法分析信息來提取詞翻譯知識(shí);以及 (c)分別計(jì)算針對(duì)所述 句法轉(zhuǎn)換知識(shí)和所述詞翻譯知識(shí)的轉(zhuǎn)換概率,并且使得針對(duì)各個(gè)轉(zhuǎn)換概率學(xué)習(xí)權(quán)重。
15.根據(jù)權(quán)利要求14所述的翻譯模型構(gòu)造方法,其中, 步驟(a)包括以下步驟: 利用所述多個(gè)平行語料庫中的所述源句子的所述詞重新排序信息和所述目標(biāo)句子的詞重新排序信息來生成所述目標(biāo)句子的句法樹; 基于所述目標(biāo)句子的句法樹和根據(jù)所述源句子的句法分析信息的源樹,來排布節(jié)點(diǎn);以及 提取各個(gè)節(jié)點(diǎn)中的子樹的轉(zhuǎn)換知識(shí)。
16.根據(jù)權(quán)利要求14所述的翻譯模型構(gòu)造方法,其中, 在步驟(C)中的所述詞翻譯概率的計(jì)算過程中, 通過應(yīng)用特征函數(shù)來提取信息,在該特征函數(shù)中,在所述源句子的所述詞重新排序信息和所述目標(biāo)句子的所述詞重新排序信息以及所述目標(biāo)句子的所述句法分析信息中限定預(yù)定的約束條件。
17.根據(jù)權(quán)利要求16所述的翻譯模型構(gòu)造方法,其中, 所述特征函數(shù)使用根據(jù)所述目標(biāo)句子的句法和所述源句子的句法以及句法間排布信息約束所述目標(biāo)句子的語音串的一部分和包括在所述源句子中的詞的翻譯順序,并且將所述受約束的語音串的一部分和翻譯順序作為特征輸出的函數(shù)。
18.根據(jù)權(quán)利要求1 6所述的翻譯模型構(gòu)造方法,其中, 所述特征函數(shù)使用僅將包括在所述源句子中的所述詞的根據(jù)所述目標(biāo)句子的所述句法和所述源句子的所述句法以及所述句法間排布信息的所述翻譯順序作為所述特征輸出的函數(shù)。
19.一種計(jì)算機(jī)可讀記錄介質(zhì),該計(jì)算機(jī)可讀記錄介質(zhì)中記錄有用于執(zhí)行根據(jù)權(quán)利要求11至18中的任一項(xiàng)所述的處理的程序。
全文摘要
本發(fā)明涉及統(tǒng)計(jì)機(jī)器翻譯以及用于對(duì)傳.統(tǒng)的基于短語的統(tǒng)計(jì)機(jī)器翻譯(SMT)和基于句法的SMT的缺點(diǎn)進(jìn)行補(bǔ)充并將其優(yōu)點(diǎn)進(jìn)行組合的機(jī)器翻譯裝置和機(jī)器翻譯方法。為此,從平行語料庫提取句法轉(zhuǎn)換知識(shí)和詞匯轉(zhuǎn)換知識(shí),以提取各個(gè)轉(zhuǎn)換概率,并且同時(shí)從單語料庫獲取目標(biāo)語言的生成概率,通過利用翻譯模型學(xué)習(xí)裝置使得能夠?qū)W習(xí)各個(gè)轉(zhuǎn)換知識(shí)和各個(gè)概率,來對(duì)加權(quán)的翻譯模型進(jìn)行建模,并且將經(jīng)建模的翻譯模型應(yīng)用于實(shí)時(shí)輸入的源句子,以經(jīng)由句法轉(zhuǎn)換器和詞匯轉(zhuǎn)換器的解碼處理生成目標(biāo)句子。
文檔編號(hào)G06F17/28GK103189860SQ201180053404
公開日2013年7月3日 申請(qǐng)日期2011年7月20日 優(yōu)先權(quán)日2010年11月5日
發(fā)明者黃永淑, 金尚范, 尹昌浩, 李娟修, 李承昱, 林海彰 申請(qǐng)人:Sk 普蘭尼特有限公司