本發(fā)明涉及機(jī)器翻譯領(lǐng)域,具體涉及一種優(yōu)先翻譯固定搭配的兩段式統(tǒng)計(jì)機(jī)器翻譯方法。
背景技術(shù):
統(tǒng)計(jì)機(jī)器翻譯是一種數(shù)據(jù)驅(qū)動(dòng)的翻譯方法,它把自然語(yǔ)言的翻譯看作是機(jī)器學(xué)習(xí)問(wèn)題,用數(shù)學(xué)模型對(duì)譯文建模,并利用具備一定規(guī)模的雙語(yǔ)平行語(yǔ)料庫(kù)訓(xùn)練這個(gè)模型和參數(shù),最后使用這個(gè)模型來(lái)生成概率最大的譯文。相比基于規(guī)則的翻譯方法,統(tǒng)計(jì)機(jī)器翻譯無(wú)需人類(lèi)專(zhuān)家撰寫(xiě)翻譯規(guī)則,其翻譯規(guī)則可以通過(guò)訓(xùn)練過(guò)程從平行語(yǔ)料庫(kù)中自動(dòng)獲取。另外統(tǒng)計(jì)機(jī)器翻譯具有語(yǔ)言無(wú)關(guān)性,只要提供對(duì)應(yīng)語(yǔ)言對(duì)的平行語(yǔ)料庫(kù),統(tǒng)計(jì)機(jī)器翻譯就能訓(xùn)練出對(duì)應(yīng)的翻譯模型,無(wú)需對(duì)翻譯方法做根本性的修改。上文提到的三種統(tǒng)計(jì)機(jī)器翻譯方法是目前主流的統(tǒng)計(jì)機(jī)器翻譯方法,有比較多針對(duì)這三種方法進(jìn)行實(shí)現(xiàn)的開(kāi)源軟件和工具包,其翻譯效果達(dá)到了一定水平,已經(jīng)發(fā)展得較為成熟了。從以上特點(diǎn)可以看出,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)比較靈活、開(kāi)發(fā)代價(jià)低、性能較好,是目前被廣泛應(yīng)用的翻譯方法。
基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯從雙語(yǔ)平行語(yǔ)料庫(kù)中抽取短語(yǔ),得到短語(yǔ)翻譯概率表,其中的短語(yǔ)是指連續(xù)的詞語(yǔ)串。短語(yǔ)翻譯概率表中的短語(yǔ)包含了大塊的、緊密相鄰的詞語(yǔ)序列,既包含具有語(yǔ)法意義的習(xí)慣用語(yǔ)、固定搭配,也包含一些無(wú)語(yǔ)法意義的構(gòu)成句子的詞語(yǔ)序列。這種翻譯方法具有極強(qiáng)的語(yǔ)言無(wú)關(guān)性且不需要進(jìn)行復(fù)雜的語(yǔ)法分析,還能取得一定的效果,是目前比較適合一些小語(yǔ)種的機(jī)器翻譯方法。
然而基于短語(yǔ)統(tǒng)計(jì)的機(jī)器翻譯方法也有其與生俱來(lái)的不足。一方面,盡管短語(yǔ)包含了大量的上下文信息,自然解決了短語(yǔ)內(nèi)部詞語(yǔ)排列順序的問(wèn)題,但是該方法對(duì)于句子的一種短語(yǔ)劃分中的多個(gè)短語(yǔ)的順序調(diào)整并不理想,特別是句子成分順序差異較大的語(yǔ)種翻譯情形,這就是所謂的遠(yuǎn)距離調(diào)序問(wèn)題;另一方面,在翻譯過(guò)程中,對(duì)于一個(gè)具體的短語(yǔ),從短語(yǔ)翻譯概率表中尋找對(duì)應(yīng)的翻譯是使用完全匹配的方法,即如果能從短語(yǔ)翻譯概率表中找到一樣的短語(yǔ),則能獲得對(duì)應(yīng)的翻譯;如果找不到,則不能翻譯。以中英翻譯為例,對(duì)于具體的短語(yǔ)“與上文一致”,如果在短語(yǔ)翻譯概率表中無(wú)法找到“與上文一致”的短語(yǔ)項(xiàng),即使存在差一個(gè)字的短語(yǔ)“與前文一致”,仍然無(wú)法翻譯該短語(yǔ),這就是所謂的數(shù)據(jù)稀疏問(wèn)題;最后,短語(yǔ)翻譯概率表中短語(yǔ)均為連續(xù)短語(yǔ),然而實(shí)際語(yǔ)言中還包含一類(lèi)詞語(yǔ)不連續(xù)的但具有語(yǔ)法意義的固定搭配,比如某些包含介詞的固定搭配,例如“與…一致”這類(lèi)非連續(xù)短語(yǔ),因該方法中的短語(yǔ)長(zhǎng)度受到限制,故而其中短語(yǔ)通常無(wú)法完整地包含這類(lèi)不連續(xù)的固定搭配,從而導(dǎo)致翻譯效果的降低,以中英翻譯為例,假設(shè)短語(yǔ)翻譯概率表中的短語(yǔ)長(zhǎng)度上限為4,則對(duì)于“與上文提到的觀(guān)點(diǎn)一致”這個(gè)包含6個(gè)詞語(yǔ)的短語(yǔ),并不會(huì)存在于短語(yǔ)翻譯概率表中,反而存在“與上文提到的”這類(lèi)不完整短語(yǔ),從而最終譯文就與正確譯文“consistent with opinion mentioned above”有所差異。也就是說(shuō)基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法無(wú)法翻譯“與…一致”這類(lèi)非連續(xù)短語(yǔ)。
其中后兩個(gè)缺陷在語(yǔ)料庫(kù)規(guī)模較小時(shí)更加顯著,因而探索如何深入挖掘現(xiàn)有語(yǔ)料、充分利用有限語(yǔ)料這樣的問(wèn)題是非常必要的。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)上述現(xiàn)有技術(shù),本發(fā)明目的在于提供一種基于統(tǒng)計(jì)的機(jī)器翻譯方法,其旨在解決現(xiàn)有技術(shù)基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯中因語(yǔ)料庫(kù)規(guī)模有限以及其限制被抽取短語(yǔ)長(zhǎng)度導(dǎo)致的數(shù)據(jù)稀疏問(wèn)題。
為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案如下:
一種固定搭配型短語(yǔ)優(yōu)先的兩段式機(jī)器翻譯方法,包括如下步驟,
步驟1、在短語(yǔ)模板庫(kù)中,根據(jù)其中的短語(yǔ)模板標(biāo)記出待翻譯源語(yǔ)言句子中存在的固定搭配;
步驟2、在固定搭配中,獲得與短語(yǔ)模板相匹配的詞語(yǔ)譯文,再將與短語(yǔ)模板相匹配的詞語(yǔ)去除后的剩余部分作為新的待翻譯句子,發(fā)送至步驟1后迭代得出新的待翻譯句子的譯文,將該譯文、與短語(yǔ)模板相匹配的詞語(yǔ)譯文合并成固定搭配的譯文;
步驟1和2為翻譯的第一個(gè)階段;
步驟3、獲取雙語(yǔ)短語(yǔ)翻譯概率表,再將待翻譯源語(yǔ)言句子中未被標(biāo)記的其余部分進(jìn)行短語(yǔ)劃分,并根據(jù)所劃分的短語(yǔ)在雙語(yǔ)短語(yǔ)翻譯概率表中進(jìn)行檢索及匹配;
步驟4、如果所劃分的短語(yǔ)與雙語(yǔ)短語(yǔ)翻譯概率表中短語(yǔ)完全匹配,則將雙語(yǔ)短語(yǔ)翻譯概率表中匹配到的相應(yīng)短語(yǔ)作為解碼過(guò)程的候選短語(yǔ);
步驟5、通過(guò)將固定搭配的譯文對(duì)應(yīng)替換待翻譯源語(yǔ)言句子,得到部分翻譯的待翻譯句子,并根據(jù)候選短語(yǔ)利用啟發(fā)式解碼器對(duì)部分翻譯的待翻譯句子進(jìn)行翻譯,最后生成譯文。
步驟3、4和5為翻譯的第二個(gè)階段。
上述方法中,所述的步驟1,其短語(yǔ)模板包括終結(jié)符和非終結(jié)符,終結(jié)符為固定搭配的主干詞語(yǔ),非終結(jié)符是固定搭配的可替換部分。
上述方法中,所述的步驟1,標(biāo)記固定搭配的步驟包括:
步驟1.1、遍歷待翻譯源語(yǔ)言句子中的詞語(yǔ),檢索短語(yǔ)模板庫(kù)中是否存在以一詞語(yǔ)開(kāi)始的短語(yǔ)模板,如果其存在,則將該詞語(yǔ)作為標(biāo)記的短語(yǔ)模板的開(kāi)始部分并執(zhí)行下一步驟;
步驟1.2、從該詞語(yǔ)開(kāi)始,遍歷待翻譯源語(yǔ)言句子余下部分,檢索是否存在另一詞語(yǔ)能夠匹配當(dāng)前標(biāo)記的短語(yǔ)模板剩余部分的詞語(yǔ),如果存在,則得到的詞語(yǔ)作為標(biāo)記的短語(yǔ)模板的結(jié)尾,并對(duì)應(yīng)標(biāo)記出在待翻譯源語(yǔ)言句子中的固定搭配。
上述方法中,所述的步驟2,其中,
獲取固定搭配譯文是將固定搭配的可替換部分作為一個(gè)新的待翻譯句子,通過(guò)迭代的方式得到譯文;
再根據(jù)固定搭配內(nèi)的詞語(yǔ)位置對(duì)應(yīng)關(guān)系,將可替換部分譯文、與短語(yǔ)模板相匹配的詞語(yǔ)譯文合并得到固定搭配的譯文。
上述方法中,所述的步驟3中的雙語(yǔ)短語(yǔ)翻譯概率表獲取步驟包括:
步驟3.1、對(duì)雙語(yǔ)平行語(yǔ)料庫(kù)進(jìn)行詞對(duì)齊訓(xùn)練,獲得包含詞對(duì)齊信息的語(yǔ)料庫(kù);
步驟3.2、從所獲得的語(yǔ)料庫(kù)中抽取短語(yǔ)對(duì),獲得雙語(yǔ)短語(yǔ)翻譯概率表。
上述方法中,所述的上述步驟3.2可分為以下步驟:
步驟3.2.1、從所獲得語(yǔ)料庫(kù)中的詞語(yǔ)對(duì)齊的句子中抽取短語(yǔ)對(duì);
步驟3.2.2、計(jì)算抽取出的短語(yǔ)對(duì)的翻譯概率,獲得短語(yǔ)翻譯概率表。
上述方法中,所述的步驟3.2.2,其翻譯概率包含正、反向短語(yǔ)翻譯概率和正、反向詞匯化概率。
上述方法中,所述的步驟5,其步驟包括,
步驟5.1、通過(guò)將固定搭配的譯文對(duì)應(yīng)替換待翻譯源語(yǔ)言句子,得到部分翻譯的待翻譯句子;
步驟5.2、將篩選得到的候選短語(yǔ)以及部分翻譯的待翻譯句子交給啟發(fā)式解碼器,啟發(fā)式解碼器生成譯文。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
本發(fā)明通過(guò)事先提取源語(yǔ)言句子中的詞語(yǔ)數(shù)量較多的固定搭配并將之提前翻譯,從而彌補(bǔ)了短語(yǔ)翻譯模型對(duì)復(fù)雜的短語(yǔ)調(diào)序的不足,同時(shí)克服了因短語(yǔ)長(zhǎng)度限制使得短語(yǔ)無(wú)法完整覆蓋較長(zhǎng)的固定搭配這一缺陷,從而提高了翻譯效果;本發(fā)明通過(guò)深入挖掘語(yǔ)料庫(kù)獲得短語(yǔ)模板,并使用外部模板,充分地利用了有限的語(yǔ)料庫(kù),模板的使用一定程度上緩解了數(shù)據(jù)稀疏問(wèn)題。本發(fā)明能利用現(xiàn)有的啟發(fā)式解碼器生成譯文。
附圖說(shuō)明
圖1為本發(fā)明的翻譯原理圖;
圖2為本發(fā)明的三大訓(xùn)練過(guò)程示意圖;
圖3為本發(fā)明的短語(yǔ)翻譯概率表的獲??;
圖4為本發(fā)明的雙語(yǔ)語(yǔ)料預(yù)處理過(guò)程;
圖5為本發(fā)明的短語(yǔ)抽取過(guò)程;
圖6為本發(fā)明的句子翻譯。
具體實(shí)施方式
本說(shuō)明書(shū)中公開(kāi)的所有特征,或公開(kāi)的所有方法或過(guò)程中的步驟,除了互相排斥的特征和/或步驟以外,均可以以任何方式組合。
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明:
實(shí)施例1
基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯包含訓(xùn)練和翻譯兩部分,訓(xùn)練部分主要是獲取解碼器所需的模型,其中步驟S3中的短語(yǔ)翻譯概率表即由訓(xùn)練部分獲得;獲得短語(yǔ)翻譯概率表等訓(xùn)練結(jié)果后,解碼器利用短語(yǔ)翻譯概率表等訓(xùn)練結(jié)果對(duì)待翻譯句子進(jìn)行翻譯。
1、訓(xùn)練部分的具體實(shí)施如下:
訓(xùn)練主要包括三部分,即翻譯模型訓(xùn)練、語(yǔ)言模型訓(xùn)練和調(diào)優(yōu)訓(xùn)練,具體參見(jiàn)圖2;本領(lǐng)域內(nèi)的技術(shù)人員可以理解,翻譯模型訓(xùn)練主要是獲得短語(yǔ)翻譯概率表,現(xiàn)有的訓(xùn)練方式存在多種,其中一種如圖3所示,分為以下三個(gè)步驟:
步驟301,雙語(yǔ)語(yǔ)料預(yù)處理。見(jiàn)圖4,首先是分詞處理,對(duì)于沒(méi)有自然分詞的語(yǔ)言需要利用分詞工具進(jìn)行分詞;然后句子過(guò)濾,對(duì)分詞后的語(yǔ)料庫(kù)中每個(gè)句子進(jìn)行長(zhǎng)度過(guò)濾,這一步將舍棄詞語(yǔ)數(shù)超過(guò)30的句子,較短的句子能得到更好的結(jié)果;接著是將全角字符轉(zhuǎn)換為半角字符,對(duì)過(guò)濾后得到的語(yǔ)料庫(kù)中句子進(jìn)行編碼轉(zhuǎn)換能使得語(yǔ)料庫(kù)更為規(guī)范統(tǒng)一。
步驟302,詞對(duì)齊訓(xùn)練。詞對(duì)齊是一項(xiàng)比較成熟的技術(shù),本實(shí)施例中利用Peter Brown論文中的期望最大化算法以迭代的方式從平行語(yǔ)料庫(kù)中獲得A語(yǔ)言到B語(yǔ)言的詞語(yǔ)對(duì)應(yīng)關(guān)系。這個(gè)步驟使用是經(jīng)過(guò)雙語(yǔ)語(yǔ)料預(yù)處理后的語(yǔ)料庫(kù),利用的是免費(fèi)使用的實(shí)現(xiàn)了IBM模型的詞對(duì)齊軟件GIZA++。為了獲得對(duì)稱(chēng)的多多詞對(duì)齊,首先利用GIZA++進(jìn)行A語(yǔ)言到B語(yǔ)言的詞對(duì)齊,再進(jìn)行B語(yǔ)言到A語(yǔ)言的詞對(duì)齊,在這種雙向詞對(duì)齊之后應(yīng)用啟發(fā)式方法grow-diag-final獲得多對(duì)多的對(duì)稱(chēng)的詞語(yǔ)對(duì)應(yīng)關(guān)系。由這個(gè)詞對(duì)齊關(guān)系可以統(tǒng)計(jì)出詞語(yǔ)翻譯概率,即w(e|f)和w(f|e),表示兩種語(yǔ)言詞語(yǔ)互為翻譯的概率。詞對(duì)齊信息用于后續(xù)的短語(yǔ)抽取過(guò)程。
步驟303,短語(yǔ)抽取。短語(yǔ)抽取是抽取翻譯規(guī)則的核心步驟,這個(gè)步驟利用詞對(duì)齊信息來(lái)抽取短語(yǔ)對(duì)并計(jì)算概率得到短語(yǔ)翻譯概率表。見(jiàn)圖5,該步驟包含如下步驟:
首先,抽取雙語(yǔ)短語(yǔ)。從句首的詞語(yǔ)開(kāi)始,遍歷可能的短語(yǔ)組合,并通過(guò)詞對(duì)齊信息判定當(dāng)前短語(yǔ)組合得到的短語(yǔ)對(duì)是否滿(mǎn)足詞對(duì)齊一致性,即A短語(yǔ)中的詞語(yǔ)與B短語(yǔ)中的詞語(yǔ)至少相互對(duì)齊并且不能對(duì)齊到其他短語(yǔ)中的詞語(yǔ)。例如,雙語(yǔ)句對(duì)“長(zhǎng)城從秦朝開(kāi)始修建,the great wall was built since qin dynasty”,其中詞語(yǔ)對(duì)齊信息為“1:1 1:2 1:3 2:6 3:7 3:8 4:6 5:4 5:5”,則根據(jù)該詞對(duì)齊信息可抽取短語(yǔ)對(duì)“長(zhǎng)城|||the great wall|||1:1 1:2 1:3”,“秦朝|||qin dynasty|||3:7 4:8”,“從秦朝開(kāi)始修建|||was built since qin dynasty”等。
然后,計(jì)算短語(yǔ)對(duì)翻譯概率。包含正向短語(yǔ)翻譯概率φ(e|f)、反向短語(yǔ)翻譯概率φ(f|e)、正向詞匯化翻譯概率lex(e|f)和反向詞匯化翻譯概率lex(f|e)等。
短語(yǔ)翻譯概率φ(f|e)表示短語(yǔ)e翻譯成短語(yǔ)f的概率,計(jì)算方法如下:
其中,count((e,fk))表示短語(yǔ)對(duì)(e,fk)在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的次數(shù),K表示與目標(biāo)語(yǔ)言短語(yǔ)e對(duì)齊的源短語(yǔ)的個(gè)數(shù)。同理可以計(jì)算φ(e|f)。
詞匯化翻譯概lex(e|f)表示短語(yǔ)f翻譯成短語(yǔ)e的詞匯化概率,計(jì)算方法如下:
其中,fj表示源語(yǔ)言短語(yǔ)f中的詞語(yǔ),ei表示目標(biāo)語(yǔ)言短語(yǔ)e中的詞語(yǔ),w(ei|fj)表示詞匯翻譯概率。當(dāng)ei與源語(yǔ)言短語(yǔ)f中的k個(gè)詞語(yǔ)對(duì)齊時(shí),公式中的分?jǐn)?shù)為1/k。同理可計(jì)算lex(f|e)。
本領(lǐng)域的技術(shù)人員可以理解,現(xiàn)有語(yǔ)言模型訓(xùn)練技術(shù)有多種,其中一種訓(xùn)練方式分為兩個(gè)步驟:
1)單語(yǔ)語(yǔ)料預(yù)處理。單語(yǔ)語(yǔ)料處理與翻譯模型訓(xùn)練過(guò)程中的預(yù)處理過(guò)程類(lèi)似,只是這里只針對(duì)雙語(yǔ)平行語(yǔ)料庫(kù)的其中一方語(yǔ)言。首先是分詞處理,對(duì)于沒(méi)有自然分詞的語(yǔ)言需要利用分詞工具進(jìn)行分詞;然后句子過(guò)濾,對(duì)分詞后的語(yǔ)料庫(kù)中每個(gè)句子進(jìn)行長(zhǎng)度過(guò)濾,這一步將舍棄詞語(yǔ)數(shù)超過(guò)30的句子,較短的句子能得到更好的結(jié)果;接著是將全角字符轉(zhuǎn)換為半角字符,對(duì)過(guò)濾后得到的語(yǔ)料庫(kù)中句子進(jìn)行編碼轉(zhuǎn)換能使得語(yǔ)料庫(kù)更為規(guī)范統(tǒng)一。
2)語(yǔ)言模型訓(xùn)練。語(yǔ)言模型訓(xùn)練是對(duì)翻譯中的目標(biāo)語(yǔ)言進(jìn)行n-gram建模,這個(gè)過(guò)程使用KenLM工具生成符合ARPA標(biāo)準(zhǔn)的語(yǔ)言模型文件,本步驟訓(xùn)練目標(biāo)語(yǔ)言的3元語(yǔ)言模型。
本領(lǐng)域的技術(shù)人員可以理解,現(xiàn)有調(diào)優(yōu)訓(xùn)練有多種,其中一種分為兩個(gè)步驟:
1)雙語(yǔ)語(yǔ)料預(yù)處理。調(diào)優(yōu)訓(xùn)練使用一個(gè)小規(guī)模的雙語(yǔ)語(yǔ)料作為開(kāi)發(fā)集來(lái)訓(xùn)練各個(gè)子模型的最佳參數(shù),其預(yù)處理過(guò)程與翻譯模型訓(xùn)練中的一致。
2)最小錯(cuò)誤率訓(xùn)練。為了獲得最好的翻譯效果,這一步使用Och的最大化BLEU訓(xùn)練算法MERT來(lái)對(duì)模型的權(quán)重進(jìn)行訓(xùn)練,獲得模型的最佳權(quán)重。
2、翻譯部分的具體實(shí)施如下:
如圖1所示,步驟S1標(biāo)記固定搭配。遍歷待翻譯句子中每一個(gè)詞語(yǔ),如果能夠匹配到短語(yǔ)模板庫(kù)中的短語(yǔ)模板,則可以根據(jù)模板的起始位置詞語(yǔ)標(biāo)記出待翻譯源語(yǔ)言句子中存在的固定搭配。
步驟S2翻譯固定搭配。對(duì)于標(biāo)記出來(lái)的固定搭配,去除短語(yǔ)模板所占用詞語(yǔ)的剩余部分稱(chēng)為可替換部分,可替換部分作為新的待翻譯句子,轉(zhuǎn)到步驟S1,通過(guò)迭代的方式,最終得到其譯文,根據(jù)可替換部分在短語(yǔ)模板源文與譯文中位置的對(duì)應(yīng)關(guān)系,將該部分譯文與短語(yǔ)模板的譯文合并從而獲得固定搭配的譯文。
步驟S3短語(yǔ)劃分。對(duì)于源語(yǔ)言句子,去除固定搭配之后,即待翻譯源語(yǔ)言句子其余部分,將其進(jìn)行短語(yǔ)劃分,下一步將根據(jù)劃分的短語(yǔ)檢索短語(yǔ)翻譯概率表,而固定搭配部分作為已翻譯部分不處理。
步驟S4構(gòu)造候選短語(yǔ)表。在步驟S3劃分得到的短語(yǔ)中,如果所劃分的短語(yǔ)與短語(yǔ)翻譯概率表中短語(yǔ)完全匹配,則將短語(yǔ)翻譯概率表中的相應(yīng)短語(yǔ)對(duì)作為解碼過(guò)程的候選短語(yǔ)對(duì),從而得到候選短語(yǔ)表。
步驟S5執(zhí)行句子翻譯,見(jiàn)圖6,將固定搭配部分替換為其譯文得到部分翻譯的待翻譯句子,并根據(jù)上述候選短語(yǔ)利用啟發(fā)式解碼器來(lái)翻譯?;趩l(fā)式算法的解碼器利用訓(xùn)練過(guò)程中得到的短語(yǔ)翻譯表、語(yǔ)言模型文件和參數(shù)配置以及構(gòu)成一個(gè)生成譯文的部件。翻譯單元可以對(duì)一個(gè)待翻譯句子進(jìn)行解碼,即從短語(yǔ)翻譯表中查找可能的翻譯擴(kuò)展譯文,并在這個(gè)過(guò)程中保存概率較大的譯文和舍棄概率較小的譯文,最后得到最優(yōu)譯文。
舉例來(lái)說(shuō),將中文句子“這個(gè)觀(guān)點(diǎn)與上文提到的觀(guān)點(diǎn)一致”翻譯為英文,首先執(zhí)行步驟S1,根據(jù)第4個(gè)詞語(yǔ)“與”和最后一個(gè)詞語(yǔ)“一致”匹配到短語(yǔ)模板“與X一致”,其中終結(jié)符部分“與…一致”是模板的主干,非終結(jié)符部分“X”是模板的可替換部分,根據(jù)這個(gè)模板可以標(biāo)記出句子中的固定搭配“與上文提到的觀(guān)點(diǎn)一致”,固定搭配的可替換部分為“上文提到的觀(guān)點(diǎn)”,這是新的待翻譯句子。
然后執(zhí)行步驟S2,將步驟S1得到的新的待翻譯句子作為本發(fā)明的輸入,迭代得到其譯文,由于其中不包含固定搭配,所以可以直接通過(guò)短語(yǔ)統(tǒng)計(jì)機(jī)器翻譯獲得其譯文“the opinion mentioned above”,根據(jù)短語(yǔ)模板中非終結(jié)符的位置對(duì)應(yīng)關(guān)系,即“與X一致”和“is consistent with X”中X是對(duì)應(yīng)的,從而得到組合之后固定搭配的譯文“is consistent with the opinion mentioned above”。
接著執(zhí)行步驟S3,對(duì)句子其余部分進(jìn)行短語(yǔ)劃分,除去“與上文提到的觀(guān)點(diǎn)一致”之后,剩余部分為“這個(gè)觀(guān)點(diǎn)”,可以得到兩種短語(yǔ)劃分“[這個(gè)觀(guān)點(diǎn)]”和“[這個(gè)][觀(guān)點(diǎn)]”。
接著執(zhí)行步驟S4,從短語(yǔ)翻譯概率表中檢索步驟S3劃分得到的短語(yǔ),如果完全匹配則將對(duì)應(yīng)的雙語(yǔ)短語(yǔ)對(duì)加入候選短語(yǔ)表中,例如從短語(yǔ)翻譯概率表中存在短語(yǔ)“這個(gè)觀(guān)點(diǎn)”,則將雙語(yǔ)短語(yǔ)對(duì)“這個(gè)觀(guān)點(diǎn)|||the opinion|||1:1 2:2|||0.41 0.63”加入候選短語(yǔ)表。
最后執(zhí)行步驟S5,這一步生成譯文,局部翻譯的句子為“這個(gè)觀(guān)點(diǎn)is consistent with the opinion mentioned above”,以及包含雙語(yǔ)短語(yǔ)對(duì)“這個(gè)觀(guān)點(diǎn)|||the opinion|||1:1 2:2|||0.41 0.63”的候選短語(yǔ)表,啟發(fā)式解碼器從候選短語(yǔ)表中選取候選短語(yǔ)來(lái)生成譯文,并最終選擇得分最高的譯文。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何屬于本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。