一種雙語最大名詞組塊分離-融合的翻譯方法
【專利摘要】本發(fā)明公開了一種雙語最大名詞組塊分離-融合的翻譯方法,屬于計算機(jī)科學(xué)中的自然語言處理【技術(shù)領(lǐng)域】。在基于樹的統(tǒng)計機(jī)器翻譯模型的中引入了BMNCs分離-融合翻譯的思想,把句子翻譯轉(zhuǎn)化為句子中所有雙語最大名詞組塊的翻譯和句子骨架的翻譯。本方法降低了翻譯難度和翻譯時間,提升了翻譯準(zhǔn)確率,尤其適合在即時翻譯中針對較長句子的翻譯。
【專利說明】—種雙語最大名詞組塊分離-融合的翻譯方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種雙語最大名詞組塊分離-融合的翻譯方法,尤其適用于較長句子的翻譯,屬于計算機(jī)科學(xué)中的自然語言處理(NLP)【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]最大名詞短語(MNP)是指不被其他任何名詞短語所包含的名詞短語。從句法功能上來看,MNP 一般出現(xiàn)在句子的主語或賓語的位置,如果能夠很好地識別出句子中所有的MNP,就可以很方便地把握句子的整體結(jié)構(gòu)框架。作為一項重要的應(yīng)用基礎(chǔ)研究,MNP的自動識別與分析對于自然語言處理領(lǐng)域中的許多應(yīng)用研究,包括句法分析、信息檢索、信息抽取、機(jī)器翻譯等,都具有重要的實踐意義。
[0003]在計算機(jī)語言處理【技術(shù)領(lǐng)域】中,不同語言之間的機(jī)器翻譯問題本質(zhì)上還是語言問題,所以機(jī)器翻譯問題的最終解決也必須依靠語言學(xué)知識的運(yùn)用。語言學(xué)知識一般指的是源或目的語言的句法分析結(jié)構(gòu)。典型的基于語言學(xué)語法的統(tǒng)計翻譯模型是基于樹的統(tǒng)計翻譯機(jī)器翻譯模型,指的是在漢語端,或者英語端,或者兩端同時利用語言學(xué)意義上的句法結(jié)構(gòu),是統(tǒng)計機(jī)器翻譯的一種新趨勢。
[0004]目前,研究人員對MNP和基于樹的統(tǒng)計翻譯都進(jìn)行了大量的研究,但是仍然存在諸多的問題。
[0005]第一,在基于樹的統(tǒng)計機(jī)器翻譯中,句法分析錯誤會傳遞到翻譯解碼節(jié)點(diǎn),使得翻譯準(zhǔn)確率嚴(yán)重下降,中文句法分析不盡人意。因此,句法分析問題成為基于樹的統(tǒng)計機(jī)器翻譯的瓶頸。
[0006]第二,在基于樹的統(tǒng)計翻譯模型中,翻譯解碼時間加上漢語句法分析的時間,其時間復(fù)雜度是句子長度的三次方。隨著句子的長度增加,翻譯時間將明顯增長,這對在線翻譯的影響顯而易見。所以,長句子的翻譯一直是個難點(diǎn)。
[0007]第三,目前對漢英MNP的識別研究較多,但是由于漢英的語言差異比較大,MNP在機(jī)器翻譯中的一直沒有得到廣泛的應(yīng)用。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的是為了克服已有技術(shù)的缺陷,針對現(xiàn)有基于樹的統(tǒng)計機(jī)器翻譯模型在翻譯質(zhì)量和翻譯實時性上的不足,通過定義一種比現(xiàn)有的MNP更具有應(yīng)用性的雙語最大名詞組塊(BMNC),并在此基礎(chǔ)上提出一種雙語最大名詞組塊分離-融合的翻譯方法。
[0009]本發(fā)明方法的基本原理是:采用一種分而治之的翻譯策略,把句子翻譯轉(zhuǎn)化為句子中所有雙語最大名詞組塊的翻譯和句子骨架的翻譯。首先,對待翻譯的句子進(jìn)行BMNC識另O,把所有BMNC抽取出來組成BMNC集合(用BMNCs表示);在原來的句子中,用BMNC的中心詞的詞性來代替BMNC整體,形成句子骨架。然后,對BMNCs和句子骨架分別進(jìn)行句法分析。利用BMNC翻譯模型翻譯BMNC,得到英語BMNCs的n-best輸出;利用句子骨架翻譯模型翻譯句子骨架得到英語句子骨架的n-best輸出。最后,融合英語BMNCs和句子骨架,形成最后的翻譯結(jié)果。
[0010]所述BMNC,是指具備雙語一致性的MNP。在雙語句對中,漢英MNP會存在不完全對譯的情況。BMNC不僅是一個完整的句法單元和語義單元,在句子中有穩(wěn)定的外部修飾結(jié)構(gòu),還具備雙語可互譯性和雙語識別的一致性。在單語中它可能被其它名詞短語包含,但是它不能被可互譯的其它名詞短語包含。
[0011]具體地,本發(fā)明方法包括以下步驟:
[0012]步驟一、對待翻譯的句子進(jìn)行BMNC識別,并將所有BMNC抽取出來組成BMNC集合;同時,在原來的句子中用BMNC的中心詞的詞性來代替BMNC整體,形成句子骨架。
[0013]首先,從句法樹庫中隨機(jī)抽取2000句,提取BMNC并標(biāo)注其中心詞,作為訓(xùn)練語料。通過機(jī)器學(xué)習(xí)的方法,訓(xùn)練BMNC及其中心詞的識別模型。然后,利用識別模型,對待翻譯的句子進(jìn)行BMNC及其中心詞識別標(biāo)注,提取句子中所有BMNC并組成BMNC集合——BMNCs,同時,將句子中的BMNC用其中心詞詞性代替形成句子骨架。
[0014]所述識別模型可選用條件隨機(jī)域模型(CRF)或者支持向量機(jī)(SVM)。
[0015]所述句法樹庫可選用賓州句法樹庫或者清華大學(xué)句法樹庫等。
[0016]步驟二、建立BMNC和句子骨架的翻譯模型,翻譯經(jīng)步驟一得到的BMNCs和句子骨架。
[0017]為了翻譯步驟一中得到的BMNCs和句子骨架,首先訓(xùn)練BMNC和句子骨架的翻譯模型。其流程如圖2所示,具體如下:
[0018]在句子級別對齊的語料中抽取對齊的BMNC,建立BMNC平行語料庫。首先,分別對漢英句子進(jìn)行BMNC粗識別,然后對BMNC進(jìn)行識別對齊修正,最后通過一個貪心算法,得到句對最優(yōu)的BMNC對集合。
[0019]平行語料中提取到的所有BMNC對構(gòu)成了 BMNC平行語料;把每個句子中的BMNC用對應(yīng)的中心詞的詞性代替,組成句子骨架平行語料。由此將句子級對齊的平行語料分解為BMNC平行語料和句子骨架平行語料,并在這兩個語料上分別訓(xùn)練BMNC翻譯模型和句子骨架翻譯模型。
[0020]利用上述BMNC翻譯模型,對步驟一得到的BMNCs進(jìn)行翻譯,得到英語BMNCs的n-best輸出;利用句子骨架翻譯模型翻譯待翻譯句子的句子骨架,得到句子骨架的英語n-best 輸出。
[0021]所述n-best是指最優(yōu)的前η個結(jié)果。
[0022]步驟三、融合英語的BMNCs和句子骨架,形成翻譯結(jié)果。
[0023]把經(jīng)步驟二得到的英語端BMNCs的n_best輸出和英語端句子骨架的n_best輸出進(jìn)行交叉組合,產(chǎn)生待翻譯句子的一系列翻譯候選。利用線性加權(quán)模型,融合n-gram特征和句子長度懲罰特征為每個翻譯候選打分,把翻譯任務(wù)轉(zhuǎn)換為一個排序任務(wù),選取得分最高的翻譯假設(shè)作為最優(yōu)句子翻譯結(jié)果。
[0024]所述n-gram是指η元語法模型。
[0025]有益效果
[0026]本發(fā)明通過在基于樹的統(tǒng)計機(jī)器翻譯模型的中引入了 BMNCs分離-融合翻譯的思想,把整句翻譯任務(wù)分解為,BMNCs翻譯和句子骨架翻譯兩個獨(dú)立的任務(wù),降低了翻譯難度和翻譯時間。本方法對比現(xiàn)有技術(shù),BMNCs分離-融合翻譯減低了最大名詞組塊對句子翻譯的負(fù)面影響,降低了句子的結(jié)構(gòu)復(fù)雜度,從而句法分析錯誤傳遞到翻譯解碼節(jié)點(diǎn)的幾率減少,使得翻譯準(zhǔn)確率得到提升。用中心詞的詞性來代替BMNC整體,使句子的平均長度降低一半左右,而且剔除了部分底層的結(jié)構(gòu)歧義,給句法分析帶來了極大的便利,也使得基于語言學(xué)語法的翻譯模型能更好地發(fā)揮它長距離調(diào)序的優(yōu)勢。另外,句子長度的縮短,減小了翻譯搜索空間,降低了翻譯算法的復(fù)雜度,降低了翻譯時間。本發(fā)明尤其適合在即時翻譯中針對較長句子的翻譯。
【專利附圖】
【附圖說明】
[0027]圖1為本發(fā)明方法中BMNCs分離-融合翻譯方法示意圖;
[0028]圖2為本發(fā)明方法中BMNC翻譯模型和句子Skeleton翻譯模型的訓(xùn)練過程流程示意圖;
【具體實施方式】
[0029]下面結(jié)合附圖和實例對本發(fā)明的【具體實施方式】做進(jìn)一步詳細(xì)說明。
[0030]一種雙語最大名詞組塊分離翻譯的統(tǒng)計機(jī)器翻譯模型,包括以下步驟:
[0031]步驟一、識別待翻譯句子的BMNC及其中心詞。首先,采用機(jī)器學(xué)習(xí)的方法訓(xùn)練一個標(biāo)注模型,對待翻譯的句子進(jìn)行BMNC及其中心詞標(biāo)注。
[0032]在雙語句對中,漢英最大名詞短語(MNP)會存在不完全對譯的情況,例如: [0033]【上海浦東開發(fā)與法制建設(shè)】同步【Thedevelopment of Shanghai’s Pudong】is in step with【the establishment of its legal system】。漢語端將【上海浦東開發(fā)與法制建設(shè)】識別為一個最大名詞短語,而在英語端則被拆分為【The development ofShanghai’s Pudong】和【the establishment of its legal system】兩個不連續(xù)的名詞短語。
[0034]針對漢英語言的特點(diǎn),定義一個面向機(jī)器翻譯的實際需要的雙語最大名詞組塊BMNC概念,它不僅是一個完整的句法單元和語義單元,在句子中有穩(wěn)定的外部修飾結(jié)構(gòu),還具備雙語可互譯性和雙語識別的一致性。在單語中,它可能被其它名詞短語包含,但是它不能被可互譯的其它名詞短語包含。漢英BMNC形式化定義如下:
[0035]對于句對SP=〈S, T>, S表示漢語詞序列S = WS1WSfWSns, T表示英語詞序列T = Wt1WtfWtnt ;其中ns和nt分別表示S和T的長度。若存在< MNCc, MNCe>,MNCc cz S,MNCe cz 并且滿足下列條件時,稱< MNCc, MNCe >為漢英BMNC:{ < MNCc, MNCe > MNCc = ws0, Ws1,…,wsm, MNCe = wt0, Wt1,…,wtn; MNCc <r^MNCe; m< ns, η < nt}
[0036](I)非空性。MNCc 幸 null, MNCe 幸 null
[0037](2)互譯性。MNCc OMNCe,MNCe和MNCc具有翻譯上的轉(zhuǎn)換充分性。
[0038](3)代表性。MNCc和MNCe的語義核心由一個或多個名詞組成,該語義核心的成分特征決定了整個BMNC短語結(jié)構(gòu)的特征。
[0039](4)最大性:不存在另外一個< MVCc,MVCe >,MNCc c SiMNCe c ,且滿足
【權(quán)利要求】
1.一種雙語最大名詞組塊分離-融合的翻譯方法,其特征在于包括以下步驟: 步驟一、對待翻譯的句子進(jìn)行BMNC識別,并將所有BMNC抽取出來組成BMNC集合;同時,在原來的句子中用BMNC的中心詞的詞性來代替BMNC整體,形成句子骨架;具體過程如下: 首先,定義一個面向機(jī)器翻譯的實際需要的雙語最大名詞組塊BMNC概念,它不僅是一個完整的句法單元和 語義單元,在句子中有穩(wěn)定的外部修飾結(jié)構(gòu),還具備雙語可互譯性和雙語識別的一致性;在單語中,它可能被其它名詞短語包含,但是它不能被可互譯的其它名詞短語包含; 從句法樹庫中隨機(jī)抽取2000句,提取BMNC并標(biāo)注其中心詞,作為訓(xùn)練語料;通過機(jī)器學(xué)習(xí)的方法,訓(xùn)練BMNC及其中心詞的識別模型; 然后,利用識別模型,對待翻譯的句子進(jìn)行BMNC及其中心詞識別標(biāo)注,提取句子中所有BMNC并組成BMNC集合——BMNCs,同時,將句子中的BMNC用其中心詞詞性代替形成句子骨架; 步驟二、建立BMNC和句子骨架的翻譯模型,翻譯經(jīng)步驟一得到的BMNCs和句子骨架; 為翻譯步驟一中得到的BMNCs和句子骨架,首先訓(xùn)練BMNC和句子骨架的翻譯模型,其流程具體如下: 在句子級別對齊的語料中抽取對齊的BMNC,建立BMNC平行語料庫;首先,分別對漢英句子進(jìn)行BMNC粗識別,然后對BMNC進(jìn)行識別對齊修正,最后通過一個貪心搜索,得到句對最優(yōu)的BMNC對集合; 平行語料中提取到的所有BMNC對構(gòu)成了 BMNC平行語料;把每個句子中的BMNC用對應(yīng)的中心詞的詞性代替,組成句子骨架平行語料,由此將句子級對齊的平行語料分解為BMNC平行語料和句子骨架平行語料,并在這兩個語料上分別訓(xùn)練BMNC翻譯模型和句子骨架翻譯模型; 利用上述BMNC翻譯模型,對步驟一得到的BMNCs進(jìn)行翻譯,得到英語BMNCs的n_best輸出;利用句子骨架翻譯模型翻譯待翻譯句子的句子骨架,得到句子骨架的英語n-best輸出;所述n-best是指最優(yōu)的前η個結(jié)果; 步驟三、融合英語的BMNCs和句子骨架,形成翻譯結(jié)果; 把經(jīng)步驟二得到的英語端BMNCs的n-best輸出和英語端句子骨架的n-best輸出進(jìn)行交叉組合,產(chǎn)生待翻譯句子的一系列翻譯候選;利用線性加權(quán)模型,融合n-gram特征和句子長度懲罰特征為每個翻譯候選打分,把翻譯任務(wù)轉(zhuǎn)換為一個排序任務(wù),選取得分最高的翻譯假設(shè)作為最優(yōu)句子翻譯結(jié)果;所述n-gram是指η元語法模型。
2.如權(quán)利要求1所述的一種雙語最大名詞組塊分離-融合的翻譯方法,其特征在于,所述步驟二中,針對漢英平行語料,融合BMNC識別與對齊,采取一種漢英BMNC —體化交互式識別對齊方法,具體如下: 首先,在2000句標(biāo)注好的漢英雙語語料上訓(xùn)練兩個初始BMNC識別模型,利用識別模型分別對漢英平行語料進(jìn)行BMNC粗識別,產(chǎn)生漢語端句子的BMNC集合MNCxT;,英語端句子的 BMNC 集合MVCe ? ; 然后,將漢英雙語句對中的BMNC兩兩組合,即M = MNCclxMNCetl,mk(MNCci, MNCej),i ^ [1,s], j ^ [1,t]是其一個 BMNC 對,即 mk ^ M,M 就是粗對齊的候選集合;以BMNC內(nèi)部詞對齊的比率作為粗對齊的置信度;粗對齊置信度的計算如公式(I)所示:
3.如權(quán)利要求1所述的一種雙語最大名詞組塊分離-融合的翻譯方法,其特征在于,所述步驟三中翻譯假設(shè)的分值計算如下:E, =VW^wj 其中,V和μ分別是高階語言模型和句子長度懲罰的權(quán)重,它們的值可以在開發(fā)集上進(jìn)行優(yōu)化調(diào)整,W表示句子長度。
【文檔編號】G06F17/28GK103942192SQ201310593728
【公開日】2014年7月23日 申請日期:2013年11月21日 優(yōu)先權(quán)日:2013年11月21日
【發(fā)明者】黃河燕, 史樹敏, 李業(yè)剛 申請人:北京理工大學(xué)