一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置制造方法
【專(zhuān)利摘要】一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置,本發(fā)明涉及機(jī)器翻譯的相關(guān)領(lǐng)域。本發(fā)明是要實(shí)現(xiàn)對(duì)多個(gè)機(jī)器翻譯系統(tǒng)進(jìn)行后處理式融合,且在融合的過(guò)程中提高單語(yǔ)對(duì)齊的質(zhì)量,實(shí)現(xiàn)混淆網(wǎng)絡(luò)高效訓(xùn)練和解碼,而提供了一種使用詞義消歧的機(jī)器翻譯系統(tǒng)與融合方法。一、確定詞義;二、對(duì)句子相似度進(jìn)行計(jì)算;(1)采用路徑長(zhǎng)度計(jì)算單詞在句子中語(yǔ)義相似度;(2)采用語(yǔ)義矩陣計(jì)算兩個(gè)句子的語(yǔ)義相似度;三、混淆網(wǎng)絡(luò)的構(gòu)建;四、混淆網(wǎng)絡(luò)的訓(xùn)練;混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機(jī)器翻譯MERT訓(xùn)練方法;五、混淆網(wǎng)絡(luò)解碼,從混淆網(wǎng)絡(luò)中解碼出最好的翻譯,采用經(jīng)典自左向右的Beam-Search解碼。本發(fā)明應(yīng)用于機(jī)器翻譯領(lǐng)域。
【專(zhuān)利說(shuō)明】一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置,屬于機(jī)器翻譯領(lǐng)域。
【背景技術(shù)】
[0002]機(jī)器翻譯系統(tǒng)融合技術(shù)通過(guò)融合多個(gè)機(jī)器翻譯系統(tǒng)的輸出結(jié)果來(lái)獲得更好性能。系統(tǒng)融合技術(shù)可以認(rèn)為是多個(gè)機(jī)器翻譯結(jié)果的后處理過(guò)程?;谠~的系統(tǒng)融合與基于句子/短語(yǔ)的系統(tǒng)融合技術(shù)相比,在性能上得到了大幅提高?;谠~的系統(tǒng)融合與模型級(jí)系統(tǒng)融合相比,有更低的復(fù)雜度,能融合更多系統(tǒng)。本發(fā)明使用開(kāi)放本體庫(kù)資源WordNet進(jìn)行詞義消歧,使得計(jì)算語(yǔ)義相似度更加準(zhǔn)確。
[0003]WordNet最初是1985年由普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室建立,它是在當(dāng)前基于人類(lèi)詞匯記憶的心理語(yǔ)言學(xué)理論推動(dòng)下產(chǎn)生的。它是一部在線(xiàn)詞典數(shù)據(jù)庫(kù)系統(tǒng),采用了與傳統(tǒng)詞典不同的方式,即按照詞義而不是詞形來(lái)組織詞匯信息。經(jīng)過(guò)十幾年的發(fā)展,它將逐漸成為一種國(guó)際標(biāo)準(zhǔn),許多國(guó)家在籌劃和建立與英文WordNet兼容的本國(guó)語(yǔ)言WordNet系統(tǒng),如Euro-WordNet,中文的HowNet。WordNet有很多應(yīng)用,如詞義標(biāo)注、詞義消歧、建立基于詞義分類(lèi)的統(tǒng)計(jì)模型、基于概念的文本檢索、文本校對(duì)、知識(shí)推理、知識(shí)工程及概念建模等等。
[0004]WordNet使用同義詞集合(Synset)來(lái)代表詞匯概念,將英語(yǔ)的名詞、動(dòng)詞、形容詞和副詞組織為Synset,并描述詞匯矩陣模型,即在詞的形式和意義之間建立起映射關(guān)系。每一個(gè)Synset表示一個(gè)基本的詞匯概念,并在這些概念之間建立四種關(guān)系:
[0005](I)同義關(guān)系(synonymy):兩個(gè)詞在句子中可以互相替代,貝U是同義關(guān)系,如heavy和weighty是一對(duì)同義詞;
[0006](2)反義關(guān)系(antonymy):反義關(guān)系并不是WordNet的基本組織形式,是一種詞形關(guān)系,如wet和dry就是形容詞的反義關(guān)系;
[0007](3)上-下位關(guān)系(hypernymy&hyponymy):是詞匯間的語(yǔ)義關(guān)系,這種關(guān)系也稱(chēng)為下屬-上屬或子集-超集關(guān)系,如松樹(shù)是樹(shù)的下位詞,而樹(shù)稱(chēng)為松樹(shù)的上位詞;
[0008](4)整體-部分關(guān)系(holonym&meronymy):該關(guān)系不具有對(duì)稱(chēng)關(guān)系,且不一定滿(mǎn)足傳遞性,如wing是bird的部分詞,bird是wing的整體詞;
[0009]等多種語(yǔ)義關(guān)系。上-下位關(guān)系和整體-局部關(guān)系的Synset集合見(jiàn)圖3。WordNet中的詞由Synset組成,Synset之間用關(guān)系指針指示它們的語(yǔ)義關(guān)系。關(guān)系指針代表了一個(gè)Synset跟另一個(gè)Synset之間的關(guān)系如:同義、反義、上-下位以及整體_部分關(guān)系。
【發(fā)明內(nèi)容】
[0010]本發(fā)明是要實(shí)現(xiàn)對(duì)多個(gè)機(jī)器翻譯系統(tǒng)進(jìn)行后處理式融合,且在融合過(guò)程中提高單語(yǔ)對(duì)齊的質(zhì)量,實(shí)現(xiàn)混淆網(wǎng)絡(luò)高效訓(xùn)練和解碼,而提供了一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置。
[0011]一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的裝置包括預(yù)處理器,詞義和語(yǔ)義計(jì)算器,混淆網(wǎng)絡(luò)訓(xùn)練器與解碼器;
[0012]所述預(yù)處理器對(duì)翻譯結(jié)果進(jìn)行分詞,過(guò)濾等處理;詞義和語(yǔ)義計(jì)算器使用WordNet系統(tǒng)和多個(gè)機(jī)器翻譯的結(jié)果生成混淆網(wǎng)絡(luò);混淆網(wǎng)絡(luò)的訓(xùn)練過(guò)程是一個(gè)迭代的過(guò)程,在訓(xùn)練的過(guò)程中需要用到語(yǔ)言模型;訓(xùn)練得到的特征權(quán)重被輸入到解碼器中,對(duì)于測(cè)試語(yǔ)料生成最終翻譯結(jié)果,并進(jìn)行測(cè)試輸出得分。
[0013]一種使用詞義消歧技術(shù)的融合機(jī)器翻譯系統(tǒng)的方法包括以下步驟:
[0014]一、使用預(yù)處理器對(duì)多個(gè)機(jī)器翻譯結(jié)果進(jìn)行預(yù)處理,使用詞義分析器確定詞義:
[0015]通過(guò)加入多種重疊打分機(jī)制對(duì)原Lesk算法進(jìn)行改進(jìn),然后采用改進(jìn)后的Lesk算法進(jìn)行詞義消歧,確定每個(gè)詞的詞義;其中所述對(duì)原Lesk算法進(jìn)行改進(jìn)具體為:
[0016](I)在搜索過(guò)程的每個(gè)階段,搜索器將限制左右各K和J個(gè)最有前景的候選,而K和J是根據(jù)當(dāng)前詞所在短語(yǔ)所確定的數(shù);
[0017](2)通過(guò)Beam的局部搜索來(lái)優(yōu)化詞義組合,通過(guò)應(yīng)用啟發(fā)式技巧來(lái)縮減搜索空間;
[0018](3)加入各種重疊打分以引入更多的相關(guān)信息;
[0019]二、使用詞義和語(yǔ)義計(jì)算器對(duì)句子相似度進(jìn)行計(jì)算:
[0020](I)采用路徑長(zhǎng)度計(jì)算單詞在句子中語(yǔ)義相似度;
[0021](2)采用語(yǔ)義矩陣計(jì)算兩個(gè)句子的語(yǔ)義相似度;
[0022]三、混淆網(wǎng)絡(luò)的構(gòu)建;
[0023](I)骨架翻譯的選擇:通過(guò)改進(jìn)后的Lesk算法和Hungarian算法計(jì)算語(yǔ)義相似度,找到與其他句子最相似的句子;
[0024]選擇所有系統(tǒng)的最好翻譯作為候選骨架翻譯,計(jì)算任意候選骨架翻譯和其他句子的句子相似度并取平均,把擁有最高分?jǐn)?shù)的句子作為骨架翻譯;
[0025]其中,所述計(jì)算句子相似度的流程如下:
[0026](a)斷詞;
[0027](b)對(duì)每個(gè)單詞進(jìn)行還原詞根;
[0028](C)詞義消歧;
[0029](d)將每一個(gè)詞義對(duì)建立一個(gè)語(yǔ)義相關(guān)矩陣S [m,n],S [i,j]表示在假設(shè)翻譯X中位置i和在假設(shè)翻譯Y中位置j最相似詞義的語(yǔ)義相關(guān)度;因此s[i,j]也是從i到j(luò)的邊上的權(quán)重;如果字典中不存在這個(gè)詞則使用編輯距離計(jì)算相似性,輸出單詞之間的編輯距離;
[0030](e)把計(jì)算兩個(gè)句子的句子相似度看成二分圖的最大權(quán)匹配,其中X和Y是兩個(gè)不相交的集合;使用Hungarian算法求最大加權(quán)的匹配;
[0031](f)以上步驟的匹配結(jié)果形成了兩個(gè)句子的相似度分?jǐn)?shù);
[0032](2)采用改進(jìn)TER算法假設(shè)對(duì)齊:在骨架翻譯和每個(gè)假設(shè)翻譯中建立對(duì)齊關(guān)系,通過(guò)計(jì)算每對(duì)單詞的相似度得分得到對(duì)齊結(jié)果;
[0033](3)混淆網(wǎng)絡(luò)的構(gòu)建:假設(shè)翻譯和骨架翻譯通過(guò)加入null進(jìn)行拉伸和對(duì)齊,從而構(gòu)建混淆網(wǎng)絡(luò);
[0034]四、混淆網(wǎng)絡(luò)的訓(xùn)練:混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機(jī)器翻譯MERT訓(xùn)練方法;
[0035]五、混淆網(wǎng)絡(luò)解碼:從混淆網(wǎng)絡(luò)中解碼出最好的翻譯,采用經(jīng)典自左向右的Beam-Search解碼,完成混淆網(wǎng)絡(luò)的解碼,即完成了一種使用詞義消歧技術(shù)的融合機(jī)器翻譯系統(tǒng)的方法。
[0036]發(fā)明效果:
[0037]本發(fā)明比原有單系統(tǒng)明顯的提高了 6個(gè)百分點(diǎn)BLEU分?jǐn)?shù),特別是把多個(gè)不同的機(jī)器翻譯進(jìn)行融合在一起,互相提高性能,是機(jī)器翻譯系統(tǒng)的實(shí)用化手段。隨著并行化技術(shù)的發(fā)展,算法時(shí)間復(fù)雜度和空間復(fù)雜度都可以接受。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0038]圖1是使用詞義消歧的融合機(jī)器翻譯的裝置圖;
[0039]圖2是本發(fā)明流程圖;
[0040]圖3是【背景技術(shù)】中的WordNet中上下位的關(guān)系圖;
[0041]圖4是確定每個(gè)詞義消歧的左右語(yǔ)境圖;
[0042]圖5是骨架翻譯的選擇圖;
[0043]圖6是二分圖最大匹配的匈牙利算法偽代碼圖;
[0044]圖7是二分圖匹配的示例圖;
[0045]圖8是假設(shè)翻譯與骨架翻譯的對(duì)齊圖;
[0046]圖9是假設(shè)翻譯與骨架翻譯的拉伸圖;
[0047]圖1O是混淆網(wǎng)絡(luò)的構(gòu)建圖;
[0048]圖11是基于轉(zhuǎn)移的改進(jìn)TER算法偽代碼圖;
[0049]圖12是核心Find_Best_Shift算法的偽代碼圖;
[0050]圖13是改進(jìn)TER對(duì)齊的動(dòng)態(tài)規(guī)劃表圖;
[0051]圖14是圖13的改進(jìn)TER對(duì)齊結(jié)果圖;
[0052]圖15是混淆網(wǎng)絡(luò)解碼中剪枝算法的偽代碼;
[0053]圖16是混淆網(wǎng)絡(luò)解碼過(guò)程描述圖。
【具體實(shí)施方式】
[0054]結(jié)合圖1?16說(shuō)明以下實(shí)施方式:
[0055]【具體實(shí)施方式】一:本實(shí)施方式的使用詞義消歧的機(jī)器翻譯系統(tǒng)包括預(yù)處理器,WordNet系統(tǒng),詞義和語(yǔ)義計(jì)算器,混淆網(wǎng)絡(luò)訓(xùn)練器與解碼器;
[0056]所述預(yù)處理器對(duì)翻譯結(jié)果進(jìn)行分詞,過(guò)濾等處理;詞義和語(yǔ)義計(jì)算器使用WordNet系統(tǒng)和多個(gè)機(jī)器翻譯的結(jié)果生成混淆網(wǎng)絡(luò),對(duì)于混淆網(wǎng)絡(luò)的訓(xùn)練過(guò)程是一個(gè)迭代的過(guò)程,在訓(xùn)練的過(guò)程中需要用到語(yǔ)言模型,訓(xùn)練得到的特征權(quán)重被輸入到解碼器中,對(duì)于測(cè)試語(yǔ)料生成最終翻譯結(jié)果,并進(jìn)行測(cè)試輸出得分。
[0057]【具體實(shí)施方式】二:本實(shí)施方式的使用詞義消歧技術(shù)的機(jī)器翻譯系統(tǒng)融合方法包括以下步驟:
[0058]一、使用詞義和語(yǔ)義計(jì)算器對(duì)句子相似度進(jìn)行計(jì)算:
[0059]通過(guò)加入多種重疊打分機(jī)制對(duì)原Lesk算法進(jìn)行改進(jìn),然后采用改進(jìn)后的Lesk算法進(jìn)行詞義消歧,確定每個(gè)詞的詞義;其中所述對(duì)原Lesk算法進(jìn)行改進(jìn)具體為:
[0060](I)在搜索過(guò)程的每個(gè)階段,搜索器將限制左右各K和J個(gè)最有前景的候選,而K和J是根據(jù)當(dāng)前詞所在短語(yǔ)所確定的數(shù);
[0061](2)通過(guò)Beam的局部搜索來(lái)優(yōu)化詞義組合,通過(guò)應(yīng)用啟發(fā)式的技巧來(lái)縮減搜索空間;
[0062](3)加入各種重疊打分以引入更多的相關(guān)信息;
[0063]二、使用詞義和語(yǔ)義計(jì)算器對(duì)句子相似度進(jìn)行計(jì)算:
[0064](I)采用路徑長(zhǎng)度計(jì)算單詞在句子中語(yǔ)義相似度;
[0065](2)采用語(yǔ)義矩陣計(jì)算兩個(gè)句子的語(yǔ)義相似度;
[0066]三、混淆網(wǎng)絡(luò)的構(gòu)建;
[0067](I)骨架翻譯的選擇:通過(guò)改進(jìn)后的Lesk算法和Hungarian算法計(jì)算語(yǔ)義相似度,找到與其他句子最相似的句子;
[0068]選擇所有系統(tǒng)的最好翻譯作為候選骨架翻譯,計(jì)算任意候選骨架翻譯和其他句子的句子相似度并取平均,把擁有最高分?jǐn)?shù)的句子作為骨架翻譯;
[0069]其中,所述計(jì)算句子相似度的流程如下:
[0070](a)斷詞;
[0071](b)對(duì)每個(gè)單詞進(jìn)行還原詞根;
[0072](C)詞義消歧;
[0073](d)將每一個(gè)詞義對(duì)建立一個(gè)語(yǔ)義相關(guān)矩陣S [m,n],S [i,j]表示在假設(shè)翻譯X中位置i和在假設(shè)翻譯Y中位置j最相似詞義的語(yǔ)義相關(guān)度;因此S[i,j]也是從i到j(luò)的邊上的權(quán)重;如果字典中不存在這個(gè)詞則使用編輯距離計(jì)算相似性,輸出單詞之間的編輯距離;
[0074](e)把計(jì)算兩個(gè)句子的句子相似度看成二分圖的最大權(quán)匹配,其中X和Y是兩個(gè)不相交的集合;使用Hungarian算法求最大加權(quán)的匹配;其偽代碼見(jiàn)圖6 ;給定兩個(gè)句子的最大匹配的示例見(jiàn)圖7,紅線(xiàn)代表最終最大匹配的結(jié)果,黑線(xiàn)代表所有可能的匹配,每個(gè)單詞斜杠后面是詞性;
[0075](f)以上步驟的匹配結(jié)果形成了兩個(gè)句子的相似度分?jǐn)?shù);
[0076](2)采用改進(jìn)TER算法假設(shè)對(duì)齊:在骨架翻譯和每個(gè)假設(shè)翻譯中建立對(duì)齊關(guān)系,通過(guò)計(jì)算每對(duì)單詞的相似度得分得到對(duì)齊結(jié)果,示例見(jiàn)圖8 ;
[0077](3)混淆網(wǎng)絡(luò)的構(gòu)建:假設(shè)翻譯和骨架翻譯通過(guò)加入null進(jìn)行拉伸和對(duì)齊,示例見(jiàn)圖9 ;混淆網(wǎng)絡(luò)的表示形式見(jiàn)圖10 ;
[0078]四、混淆網(wǎng)絡(luò)的訓(xùn)練:混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機(jī)器翻譯MERT訓(xùn)練方法;
[0079]五、混淆網(wǎng)絡(luò)解碼:從混淆網(wǎng)絡(luò)中解碼出最好的翻譯,采用經(jīng)典自左向右的Beam-Search解碼,完成了混淆網(wǎng)絡(luò)的解碼;即完成了一種使用詞義消歧技術(shù)的融合機(jī)器翻譯系統(tǒng)的方法。
[0080]本實(shí)施方式中,步驟一中詞義消歧是找出在給定語(yǔ)境下一個(gè)詞的最合適意思,改進(jìn)后的Lesk算法是在句子語(yǔ)境下來(lái)消歧句子中的單詞。主要的目的是計(jì)算在兩個(gè)解釋中共享的詞數(shù),重疊的單詞越多,語(yǔ)義就越相關(guān)。為了詞義消歧,每一個(gè)單詞的解釋被和在短語(yǔ)中的其他單詞的解釋來(lái)作比較。
[0081]例如:在執(zhí)行短語(yǔ)“people person”的消歧過(guò)程中,按照WordNet3.0的解釋:
[0082]名詞people有四個(gè)意思:[0083](I)any group of human beings;
[0084](2)the body of citizens of a state or country;
[0085](3)the common people generally;
[0086](4)members of a family line;
[0087]動(dòng)詞people有兩個(gè)意思:
[0088](I) fill with people or supply with inhabitants;"people a room〃;
[0089](2)furnish with people
[0090]名詞person有三個(gè)意思:
[0091](I)a human being;
[0092](2)a human body(usually including the clothing);
[0093](3) a grammatical category of pronouns and verb forms;
[0094]由于people除了名詞以外,還有動(dòng)詞詞性,而person只有名詞詞性,只比較兩個(gè)名詞詞性,比較分為兩步:
[0095](I)為了提高單詞的匹配率,首先使用Porter Stemming進(jìn)行還原詞根;
[0096](2)進(jìn)行匹配公共的子串來(lái)確定詞義;
[0097]通過(guò)比較單詞“people”的四個(gè)解釋意思中的每一個(gè)和單詞“person”的三個(gè)解釋意思中的每一個(gè),發(fā)現(xiàn)單詞“human being”出現(xiàn)在兩個(gè)單詞中一個(gè)詞義中,human出現(xiàn)在person的兩個(gè)詞義中,human出現(xiàn)在people的一個(gè)詞義中。當(dāng)單詞“people和person”一同使用時(shí),則將包含“human being”或“human”的兩個(gè)詞義選擇為最合適的詞義。
[0098]本實(shí)施方式中,步驟二中句子相似度計(jì)算方法是通過(guò)詞義來(lái)計(jì)算兩個(gè)句子中所有匹配詞的相似得分。
[0099]在WordNet中每個(gè)詞性被組織在一個(gè)分類(lèi)中,代表一個(gè)意思的每個(gè)節(jié)點(diǎn)是一系列同義詞。如果一個(gè)詞含有超過(guò)一個(gè)意思,它將出現(xiàn)在分類(lèi)不同的多個(gè)同義詞集合。在Synset之間的關(guān)系是語(yǔ)義關(guān)系,在詞義間的關(guān)系是詞匯關(guān)系。不同是詞匯關(guān)系是兩個(gè)不同Synset集合中成員間的關(guān)系,但語(yǔ)義關(guān)系是兩個(gè)整個(gè)Synset集合的關(guān)系。
[0100]例如:語(yǔ)義關(guān)系是上下位關(guān)系等;
[0101]詞匯關(guān)系是反義關(guān)系和推導(dǎo)關(guān)系;
[0102]使用下面示例進(jìn)行說(shuō)明一下:
[0103]名詞light第十個(gè)意思(light#n#10)的反義詞在WordNet中是名詞dark的第一意思(dark#n#l)。這個(gè) Synset 集合是{light#n#10, lighting#n#l},清楚的是 light#n#10是dark#n#l的反義詞,但是lighting#n#l不是dark#n#l的反義詞。因此反義關(guān)系需要一個(gè)詞匯關(guān)系,不是語(yǔ)義關(guān)系。語(yǔ)義相似性是語(yǔ)義關(guān)系的一個(gè)特例,僅僅是IS-A關(guān)系。
[0104]為了衡量?jī)蓚€(gè)Synset集合的語(yǔ)義相似性,使用hyponym/hypernym(即IS-A關(guān)系)。衡量?jī)蓚€(gè)Synset集合的語(yǔ)義相似性簡(jiǎn)單方法是把分類(lèi)看成一個(gè)無(wú)向圖,在WordNet中衡量它們的距離。P.Resnik說(shuō):“從一個(gè)節(jié)點(diǎn)到另一個(gè)路徑越短,它們就越相似”。注意這個(gè)路徑長(zhǎng)度通過(guò)節(jié)點(diǎn)而不是通過(guò)邊衡量。為了衡量語(yǔ)義相似度得分,給定下面定義:
[0105](I)兩個(gè)詞的路徑長(zhǎng)度(Path Length):在同一個(gè)Synset集合中兩個(gè)成員的路徑長(zhǎng)度為I。圖3展示了用路徑長(zhǎng)度相似度來(lái)計(jì)算上位分類(lèi)的實(shí)例,圖3中可以看到motor和auto的長(zhǎng)度是1,auto和bike的長(zhǎng)度為3, motor和fork的長(zhǎng)度為11。[0106](2)兩個(gè)詞的公共父親(Sub-Summer):這兩個(gè)詞所在Synset的公共父親。
[0107](3)兩個(gè)詞的最短公共父親(Least Common Sub-summer):也是兩個(gè)詞的最短路徑,且需要經(jīng)過(guò)公共父親。圖3的例子{motor, auto…}和{truck…}的LCS是{wheeledvehicle},因?yàn)閧wheeled vehicle,…}是比普通的 Sub-Sumer {vehicle,…}更具體。
[0108]路徑長(zhǎng)度給了計(jì)算兩個(gè)詞義關(guān)系的方法.有一些實(shí)際問(wèn)題需要說(shuō)明:
[0109](a)來(lái)自于同一詞性的兩個(gè)Synset集合可能沒(méi)有公共的Sub-Sumer。因?yàn)闆](méi)有把每一個(gè)詞性分類(lèi)的所有不同最高節(jié)點(diǎn)連接在一起。在兩個(gè)Synset集合中之間的路徑不是一直都能發(fā)現(xiàn)的。但是如果唯一的根節(jié)點(diǎn)被使用,在兩個(gè)Synset集合將一直存在一條路徑。
[0110](b)注意在WordNet中是允許多繼承的;一些Synset集合屬于多個(gè)分類(lèi)。所以在兩個(gè)Synset集合中有兩種分類(lèi)下可能有兩條路徑,本實(shí)施方式選擇最短的路徑。
[0111](c)當(dāng)在WordNet中查找一個(gè)單詞時(shí),詞首先被詞根化。因此“book”和” books”的距離為0,因?yàn)樗鼈兪峭粋€(gè)詞,這種不同于在同一個(gè)Synset集合中的詞,因?yàn)橥粋€(gè)詞比在同一 Synset集合中更相似。
[0112](d)這個(gè)方法僅僅比較有同樣詞性的兩個(gè)詞義。這意味著不比較noun和verb,因?yàn)樗鼈兾挥诓煌姆诸?lèi)。由于使用了詞性標(biāo)注器,需要按照詞性標(biāo)注結(jié)果考慮一個(gè)詞,由于WordNet中只有四種詞性(名詞,動(dòng)詞,形容詞,副詞),而詞性標(biāo)注結(jié)果要比WordNet更加細(xì)致,所以使用最相近的詞性來(lái)進(jìn)行計(jì)算。
[0113](e)如果WordNet沒(méi)有這個(gè)詞,本實(shí)施方式使用最大公共串匹配來(lái)計(jì)算。根據(jù)詞的長(zhǎng)度和公共串的長(zhǎng)度來(lái)確定兩個(gè)詞的路徑長(zhǎng)度。
[0114]有許多方法來(lái)衡量?jī)蓚€(gè)Synset集合的語(yǔ)義相似性,經(jīng)典的方法主要有兩種:
[0115](I)傳統(tǒng)的衡量距離方法:
[0116]Sim(s, t) =1/Distance (s, t)
[0117]距離是節(jié)點(diǎn)計(jì)數(shù)從s到t的最短路徑長(zhǎng)度。但是這種方法沒(méi)有考慮到最短公共祖先的深度,最短公共祖先的深度也會(huì)影響到兩個(gè)Synset集合的語(yǔ)義相似性。
[0118](2)基于公共父親節(jié)點(diǎn)衡量距離的方法:是Wu&Palmer提出的方法,這個(gè)方法考慮了路徑長(zhǎng)度和LCS的深度:
[0119]Sim(s, t) =2*Depth (LCS) / (Depth (s) +Depth (t))
[0120]這里s和t表示被比較的源和目標(biāo)單詞。Depth(s)表示s所在Synset分類(lèi)中從根節(jié)點(diǎn)到節(jié)點(diǎn)s的距離,LCS表示s和t的最小公共Sub-Submer,經(jīng)實(shí)驗(yàn)比對(duì)這種方法更好。
[0121]本實(shí)施方式步驟三中混淆網(wǎng)絡(luò)的構(gòu)建:
[0122](e)中給定兩個(gè)句子的最大匹配實(shí)例見(jiàn)圖7,紅線(xiàn)代表最終最大匹配的結(jié)果,黑線(xiàn)代表所有可能的匹配,每個(gè)單詞斜杠后面是詞性;
[0123]匹配(Matching):是邊集的子集(M c= £,:E是邊集),VveF (V是頂點(diǎn)集合)在M中最多有一個(gè)邊;
[0124]可選路徑(Alternating Path):如果路徑中邊輪換的出現(xiàn)在M和E-M中;
[0125]增廣路徑(Augmenting Path):如果可選路徑的兩個(gè)端點(diǎn)都是自由頂點(diǎn)f e F (非匹配頂點(diǎn));[0126]可選樹(shù)(Alternating Tree):是一棵根節(jié)點(diǎn)為某個(gè)自由頂點(diǎn)的樹(shù),且樹(shù)中的每個(gè)路徑都是可選路徑;
[0127]可行標(biāo)簽(feasiblelabeling):對(duì)于VU ∈L,v∈R,,l (u) +1 (v) ≥ w(u, v);
[0128]關(guān)于可行標(biāo)簽I的等價(jià)圖(Equality Graph):是一個(gè)圖G= (V,E1),其中E1= {(χ, y) 11 (χ) +1 (y) =w (x, y)};
[0129]頂點(diǎn)u 和集合 S 的鄰居(neighbor) N1(U) = {v| (u, V) ∈E1},N1(S)=∪u∈sN1(U);
[0130]上面最大匹配結(jié)果形成了兩個(gè)句子的相似度分?jǐn)?shù),有很多策略來(lái)獲得兩個(gè)句子的總相似度數(shù)值。本專(zhuān)利提出了兩個(gè)新的公式來(lái)計(jì)算詞義的語(yǔ)義相似度,對(duì)于每一個(gè)公式用一個(gè)適當(dāng)?shù)牟呗詠?lái)計(jì)算總得分:
[0131](1)DICE 系數(shù):2*( χ ∩ Y )/|χ| + |Y|,這里(χ ∩ Y )是χ和Y匹配的詞次。這個(gè)相似性是兩個(gè)句子中所有匹配候選的相似度和除以詞次的和。
[0132](2)Tanimoto測(cè)度:
【權(quán)利要求】
1.一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的裝置,其特征在于使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的裝置包括預(yù)處理器,WordNet系統(tǒng),詞義和語(yǔ)義計(jì)算器,混淆網(wǎng)絡(luò)訓(xùn)練器與解碼器; 所述預(yù)處理器對(duì)翻譯結(jié)果進(jìn)行分詞,過(guò)濾處理;詞義和語(yǔ)義計(jì)算器使用WordNet系統(tǒng)和多個(gè)機(jī)器翻譯的結(jié)果生成混淆網(wǎng)絡(luò);混淆網(wǎng)絡(luò)的訓(xùn)練過(guò)程是一個(gè)迭代的過(guò)程,在訓(xùn)練的過(guò)程中需要用到語(yǔ)言模型;訓(xùn)練得到的特征權(quán)重被輸入到解碼器中,對(duì)于測(cè)試語(yǔ)料生成最終翻譯結(jié)果,并進(jìn)行測(cè)試輸出得分。
2.應(yīng)用權(quán)利要求1的使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法,其特征在于一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法包括以下步驟: 一、使用預(yù)處理器對(duì)多個(gè)機(jī)器翻譯結(jié)果進(jìn)行預(yù)處理,使用詞義分析器確定詞義: 通過(guò)加入多種重疊打分機(jī)制對(duì)原Lesk算法進(jìn)行改進(jìn),然后采用Lesk算法進(jìn)行詞義消歧,確定每個(gè)詞的詞義;其中所述對(duì)原Lesk算法進(jìn)行改進(jìn)具體為: (1)在搜索過(guò)程的每個(gè)階段,搜索器將限制左右各K和J個(gè)最有前景的候選,而K和J是根據(jù)當(dāng)前詞所在的短語(yǔ)進(jìn)行確定的數(shù); (2)通過(guò)Beam的局部搜索來(lái)優(yōu)化詞義組合,通過(guò)應(yīng)用啟發(fā)式的技巧來(lái)縮減搜索空間; (3)加入各種重疊打分以引入更多的相關(guān)信息; 二、使用詞義和語(yǔ)義計(jì)算器對(duì)句子相似度進(jìn)行計(jì)算: (1)采用路徑長(zhǎng)度計(jì)算單詞在句子中語(yǔ)義相似度; (2)采用語(yǔ)義矩陣計(jì)算兩個(gè)句子的語(yǔ)義相似度; 三、混淆網(wǎng)絡(luò)的構(gòu)建; (1)骨架翻譯的選擇:通過(guò)改進(jìn)后的Lesk算法和Hungarian算法計(jì)算語(yǔ)義相似度,找到與其他句子最相似的句子; 選擇所有系統(tǒng)的最好翻譯作為候選骨架翻譯,計(jì)算任意候選骨架翻譯和其他句子的句子相似度并取平均,把擁有最高分?jǐn)?shù)的句子作為骨架翻譯; 其中,所述計(jì)算句子相似度的流程如下: (a)斷詞; (b)對(duì)每個(gè)單詞進(jìn)行還原詞根; (C)詞義消歧; (d)將每一個(gè)詞義對(duì)建立一個(gè)語(yǔ)義相關(guān)矩陣S[m,n],S [i,j]表示在假設(shè)翻譯X中位置i和在假設(shè)翻譯Y中位置j最相似詞義的語(yǔ)義相關(guān)度;因此s[i,j]也是從i到j(luò)邊上的權(quán)重;如果字典中不存在這個(gè)詞則使用編輯距離計(jì)算相似性,輸出單詞之間的編輯距離; (e)把計(jì)算兩個(gè)句子的句子相似度看成二分圖的最大權(quán)匹配,其中句子X(jué)和Y是兩個(gè)不相交的集合;使用Hungarian算法求最大加權(quán)的匹配; (f)以上步驟的匹配結(jié)果形成了兩個(gè)句子的相似度分?jǐn)?shù); (2)采用改進(jìn)TER算法假設(shè)對(duì)齊:在骨架翻譯和每個(gè)假設(shè)翻譯中建立對(duì)齊關(guān)系,通過(guò)計(jì)算每對(duì)單詞的相似度得分得到對(duì)齊結(jié)果; (3)混淆網(wǎng)絡(luò)的構(gòu)建:假設(shè)翻譯和骨架翻譯通過(guò)加入null進(jìn)行拉伸和對(duì)齊,從而構(gòu)建混淆網(wǎng)絡(luò); 四、混淆網(wǎng)絡(luò)的訓(xùn)練:混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機(jī)器翻譯MERT訓(xùn)練方法,使用混淆網(wǎng)絡(luò)訓(xùn)練器進(jìn)行迭代式訓(xùn)練,直到收斂為止; 五、混淆網(wǎng)絡(luò)解碼:使用解碼器從混淆網(wǎng)絡(luò)中解碼出最好的翻譯,采用經(jīng)典自左向右的Beam-Search解碼,完成混淆網(wǎng)絡(luò)的解碼,即完成一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法。
3.根據(jù)權(quán)利要求2所述的一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法,其特征在于所述步驟一中采用改進(jìn)后的Lesk算法進(jìn)行詞義消歧,確定每個(gè)詞的詞義具體為: (1)選擇一個(gè)語(yǔ)境:在目標(biāo)詞的周?chē)xK個(gè)語(yǔ)境詞; (2)對(duì)于在選定語(yǔ)境下的每一個(gè)詞,將先進(jìn)行詞性標(biāo)注,列出這個(gè)詞性的所有詞義; (3)對(duì)于一個(gè)詞的每個(gè)詞義,訪(fǎng)問(wèn)下列關(guān)系: (a)由WordNet提供的解釋,包含實(shí)例項(xiàng); (b)Synset通過(guò)上位關(guān)系連接到的解釋?zhuān)绻粋€(gè)詞義有超過(guò)一個(gè)上位詞,每個(gè)上位詞的解釋被連接成單個(gè)解釋串; (C)Synset通過(guò)下位關(guān)系連接到的解釋?zhuān)? (d)Synset通過(guò)整體關(guān)系連接到的解釋?zhuān)? (e)Synset通過(guò)局部關(guān)系連接到的解釋?zhuān)? (4)組合在第(3)步驟提供的所有可能解釋對(duì),通過(guò)搜索重疊來(lái)計(jì)算相關(guān)得分,當(dāng)計(jì)算兩個(gè)Synset集合cl和c2之間的關(guān)系時(shí),syn_syn意味著兩個(gè)同義詞之間解釋的比較;hype-hype意味著cl的hypernym的解釋可以和c2的hypernym的解釋作比較;hype_hypo意味著cl的hypernym的解釋和c2的hyponym的解釋作比較;并通過(guò)得分函數(shù)Score計(jì)算匹配詞的個(gè)數(shù),為了給重疊打分,使用新的打分機(jī)制,總得分為:
score_overall= Σ cl;c2 e c;g e Gscore (g) (5)其中C是cl和c2的在所有解釋對(duì)上的比較函數(shù),G={syn-syn, hype-hype, hype-hypo,…},即所有解釋形成的集合,一旦每個(gè)組合被打分,選擇有最高得分作為目標(biāo)詞在特定語(yǔ)境下目標(biāo)詞的最合適意思,輸出結(jié)果給出了消歧后的意思:
4.根據(jù)權(quán)利要求3所述的一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法,其特征在于所述步驟二中計(jì)算語(yǔ)義相似度具體為: 對(duì)于每一個(gè)公式應(yīng)用一個(gè)適當(dāng)?shù)牟呗詠?lái)計(jì)算總得分: (1)DICE系數(shù):2*(X η Y )/|χ| + |υ|,這里(χ η Y )是χ和Y匹配的詞次;這個(gè)相似性是兩個(gè)句子中所有匹配候選的相似度和除以詞次的和; (2)丁&11加0如測(cè)度:
5.根據(jù)權(quán)利要求4所述的一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法,其特征在于步驟三(2)中改進(jìn)TER算法具體為: 一、基于混淆網(wǎng)絡(luò)的系統(tǒng)融合步驟為: (1)從機(jī)器翻譯系統(tǒng)中抽出N-best結(jié)果,選擇的翻譯結(jié)果數(shù)量N越大,結(jié)果越好; (2)挑選出一個(gè)與其他翻譯結(jié)果最相似的骨架翻譯; (3)把所有的假設(shè)翻譯與骨架翻譯進(jìn)行對(duì)齊,以調(diào)整假設(shè)翻譯的順序; (4)用重排序的翻譯來(lái)建立混淆網(wǎng)絡(luò); (5)使用句子級(jí)特征和詞后驗(yàn)概率特征作為解碼的特征,來(lái)對(duì)混淆網(wǎng)絡(luò)進(jìn)行解碼; (6)用開(kāi)發(fā)集來(lái)優(yōu)化參數(shù),為了使得訓(xùn)練更加可行,選擇訓(xùn)練集中和非訓(xùn)練集中的一部分句子作為開(kāi)發(fā)集,最終在測(cè)試集上進(jìn)行解碼; 二、解碼過(guò)程中采用柱搜索的剪枝;其中整個(gè)算法中有一個(gè)關(guān)鍵步驟Find_Best_Shift對(duì)于每種轉(zhuǎn)移需要計(jì)算最小編輯距離;計(jì)算最小編輯距離的時(shí)間復(fù)雜度為0(Ν*Μ),進(jìn)行回溯的時(shí)間復(fù)雜度O(N+M),空間復(fù)雜度為0(Ν*Μ),其中N是參考翻譯的長(zhǎng)度,M為假設(shè)翻譯的長(zhǎng)度; 三、在構(gòu)建混淆網(wǎng)絡(luò)過(guò)程中,對(duì)于TER進(jìn)行改進(jìn);給定兩個(gè)字符串計(jì)算改進(jìn)TER對(duì)齊結(jié)果,改進(jìn)TER得分計(jì)算為:
6.根據(jù)權(quán)利要求5所述的一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法,其特征在于所述步驟五中混淆網(wǎng)絡(luò)解碼具體為:
7.根據(jù)權(quán)利要求6所述的一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法,其特征在于步驟五中解碼采用了三種剪枝方法: 重合并方法:把具有同樣翻譯結(jié)果的翻譯路徑進(jìn)行合并,只留下得分較高的翻譯結(jié)果的路徑,而把得分較低的排除到搜索路徑以外; 柱狀圖剪枝:在搜索的每個(gè)棧中保留最好的N個(gè)結(jié)果,把其他的搜索路徑剪枝掉,這種剪枝方法可以在多項(xiàng)式時(shí)間內(nèi)完成搜索; 束搜索剪枝:將目前路徑的最高得分除以某個(gè)大于I的閾值,在閾值以下的路徑都將被丟棄,由于當(dāng)前的最高得分不一定是最終得分中最高得分;把每個(gè)翻譯假設(shè)的結(jié)果存儲(chǔ)在棧中,翻譯結(jié)果的信息存儲(chǔ)在翻譯假設(shè)中,搜索的過(guò)程也就是擴(kuò)展翻譯假設(shè)的過(guò)程,對(duì)于翻譯假設(shè)的數(shù)據(jù)結(jié)構(gòu)如下: (1)回溯到父親節(jié)點(diǎn)的指針; (2)各項(xiàng)特征函數(shù)的得分; (3)特征的總得分; (4)未來(lái)的總得分; (5)被再合并后的翻譯路徑的得分; (6)目前產(chǎn)生的翻譯結(jié)果的后`兩個(gè)詞。
【文檔編號(hào)】G06F17/27GK103699529SQ201310751048
【公開(kāi)日】2014年4月2日 申請(qǐng)日期:2013年12月31日 優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】劉宇鵬 申請(qǐng)人:哈爾濱理工大學(xué)