一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置制造方法

文檔序號(hào)：6526919閱讀：268來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置制造方法
【專(zhuān)利摘要】一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置，本發(fā)明涉及機(jī)器翻譯的相關(guān)領(lǐng)域。本發(fā)明是要實(shí)現(xiàn)對(duì)多個(gè)機(jī)器翻譯系統(tǒng)進(jìn)行后處理式融合，且在融合的過(guò)程中提高單語(yǔ)對(duì)齊的質(zhì)量，實(shí)現(xiàn)混淆網(wǎng)絡(luò)高效訓(xùn)練和解碼，而提供了一種使用詞義消歧的機(jī)器翻譯系統(tǒng)與融合方法。一、確定詞義；二、對(duì)句子相似度進(jìn)行計(jì)算；（1）采用路徑長(zhǎng)度計(jì)算單詞在句子中語(yǔ)義相似度；（2）采用語(yǔ)義矩陣計(jì)算兩個(gè)句子的語(yǔ)義相似度；三、混淆網(wǎng)絡(luò)的構(gòu)建；四、混淆網(wǎng)絡(luò)的訓(xùn)練；混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機(jī)器翻譯MERT訓(xùn)練方法；五、混淆網(wǎng)絡(luò)解碼，從混淆網(wǎng)絡(luò)中解碼出最好的翻譯，采用經(jīng)典自左向右的Beam-Search解碼。本發(fā)明應(yīng)用于機(jī)器翻譯領(lǐng)域。
【專(zhuān)利說(shuō)明】一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置，屬于機(jī)器翻譯領(lǐng)域。
【背景技術(shù)】
[0002]機(jī)器翻譯系統(tǒng)融合技術(shù)通過(guò)融合多個(gè)機(jī)器翻譯系統(tǒng)的輸出結(jié)果來(lái)獲得更好性能。系統(tǒng)融合技術(shù)可以認(rèn)為是多個(gè)機(jī)器翻譯結(jié)果的后處理過(guò)程?；谠~的系統(tǒng)融合與基于句子/短語(yǔ)的系統(tǒng)融合技術(shù)相比，在性能上得到了大幅提高?；谠~的系統(tǒng)融合與模型級(jí)系統(tǒng)融合相比，有更低的復(fù)雜度，能融合更多系統(tǒng)。本發(fā)明使用開(kāi)放本體庫(kù)資源WordNet進(jìn)行詞義消歧，使得計(jì)算語(yǔ)義相似度更加準(zhǔn)確。
[0003]WordNet最初是1985年由普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室建立，它是在當(dāng)前基于人類(lèi)詞匯記憶的心理語(yǔ)言學(xué)理論推動(dòng)下產(chǎn)生的。它是一部在線(xiàn)詞典數(shù)據(jù)庫(kù)系統(tǒng)，采用了與傳統(tǒng)詞典不同的方式，即按照詞義而不是詞形來(lái)組織詞匯信息。經(jīng)過(guò)十幾年的發(fā)展，它將逐漸成為一種國(guó)際標(biāo)準(zhǔn)，許多國(guó)家在籌劃和建立與英文WordNet兼容的本國(guó)語(yǔ)言WordNet系統(tǒng)，如Euro-WordNet,中文的HowNet。WordNet有很多應(yīng)用，如詞義標(biāo)注、詞義消歧、建立基于詞義分類(lèi)的統(tǒng)計(jì)模型、基于概念的文本檢索、文本校對(duì)、知識(shí)推理、知識(shí)工程及概念建模等等。
[0004]WordNet使用同義詞集合(Synset)來(lái)代表詞匯概念,將英語(yǔ)的名詞、動(dòng)詞、形容詞和副詞組織為Synset，并描述詞匯矩陣模型，即在詞的形式和意義之間建立起映射關(guān)系。每一個(gè)Synset表示一個(gè)基本的詞匯概念，并在這些概念之間建立四種關(guān)系:
[0005](I)同義關(guān)系(synonymy):兩個(gè)詞在句子中可以互相替代，貝U是同義關(guān)系，如heavy和weighty是一對(duì)同義詞；
[0006](2)反義關(guān)系(antonymy):反義關(guān)系并不是WordNet的基本組織形式,是一種詞形關(guān)系，如wet和dry就是形容詞的反義關(guān)系；
[0007](3)上-下位關(guān)系(hypernymy&hyponymy):是詞匯間的語(yǔ)義關(guān)系,這種關(guān)系也稱(chēng)為下屬-上屬或子集-超集關(guān)系，如松樹(shù)是樹(shù)的下位詞，而樹(shù)稱(chēng)為松樹(shù)的上位詞；
[0008](4)整體-部分關(guān)系(holonym&meronymy):該關(guān)系不具有對(duì)稱(chēng)關(guān)系,且不一定滿(mǎn)足傳遞性，如wing是bird的部分詞，bird是wing的整體詞；
[0009]等多種語(yǔ)義關(guān)系。上-下位關(guān)系和整體-局部關(guān)系的Synset集合見(jiàn)圖3。WordNet中的詞由Synset組成，Synset之間用關(guān)系指針指示它們的語(yǔ)義關(guān)系。關(guān)系指針代表了一個(gè)Synset跟另一個(gè)Synset之間的關(guān)系如:同義、反義、上-下位以及整體_部分關(guān)系。

【發(fā)明內(nèi)容】

[0010]本發(fā)明是要實(shí)現(xiàn)對(duì)多個(gè)機(jī)器翻譯系統(tǒng)進(jìn)行后處理式融合，且在融合過(guò)程中提高單語(yǔ)對(duì)齊的質(zhì)量，實(shí)現(xiàn)混淆網(wǎng)絡(luò)高效訓(xùn)練和解碼，而提供了一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置。
[0011]一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的裝置包括預(yù)處理器，詞義和語(yǔ)義計(jì)算器，混淆網(wǎng)絡(luò)訓(xùn)練器與解碼器；
[0012]所述預(yù)處理器對(duì)翻譯結(jié)果進(jìn)行分詞，過(guò)濾等處理；詞義和語(yǔ)義計(jì)算器使用WordNet系統(tǒng)和多個(gè)機(jī)器翻譯的結(jié)果生成混淆網(wǎng)絡(luò)；混淆網(wǎng)絡(luò)的訓(xùn)練過(guò)程是一個(gè)迭代的過(guò)程，在訓(xùn)練的過(guò)程中需要用到語(yǔ)言模型；訓(xùn)練得到的特征權(quán)重被輸入到解碼器中，對(duì)于測(cè)試語(yǔ)料生成最終翻譯結(jié)果，并進(jìn)行測(cè)試輸出得分。
[0013]一種使用詞義消歧技術(shù)的融合機(jī)器翻譯系統(tǒng)的方法包括以下步驟:
[0014]一、使用預(yù)處理器對(duì)多個(gè)機(jī)器翻譯結(jié)果進(jìn)行預(yù)處理，使用詞義分析器確定詞義:
[0015]通過(guò)加入多種重疊打分機(jī)制對(duì)原Lesk算法進(jìn)行改進(jìn),然后采用改進(jìn)后的Lesk算法進(jìn)行詞義消歧，確定每個(gè)詞的詞義；其中所述對(duì)原Lesk算法進(jìn)行改進(jìn)具體為:
[0016](I)在搜索過(guò)程的每個(gè)階段，搜索器將限制左右各K和J個(gè)最有前景的候選，而K和J是根據(jù)當(dāng)前詞所在短語(yǔ)所確定的數(shù)；
[0017](2)通過(guò)Beam的局部搜索來(lái)優(yōu)化詞義組合，通過(guò)應(yīng)用啟發(fā)式技巧來(lái)縮減搜索空間；
[0018](3)加入各種重疊打分以引入更多的相關(guān)信息；
[0019]二、使用詞義和語(yǔ)義計(jì)算器對(duì)句子相似度進(jìn)行計(jì)算:
[0020](I)采用路徑長(zhǎng)度計(jì)算單詞在句子中語(yǔ)義相似度；
[0021](2)采用語(yǔ)義矩陣計(jì)算兩個(gè)句子的語(yǔ)義相似度；
[0022]三、混淆網(wǎng)絡(luò)的構(gòu)建；
[0023](I)骨架翻譯的選擇:通過(guò)改進(jìn)后的Lesk算法和Hungarian算法計(jì)算語(yǔ)義相似度，找到與其他句子最相似的句子；
[0024]選擇所有系統(tǒng)的最好翻譯作為候選骨架翻譯，計(jì)算任意候選骨架翻譯和其他句子的句子相似度并取平均，把擁有最高分?jǐn)?shù)的句子作為骨架翻譯；
[0025]其中，所述計(jì)算句子相似度的流程如下:
[0026](a)斷詞；
[0027](b)對(duì)每個(gè)單詞進(jìn)行還原詞根；
[0028](C)詞義消歧；
[0029](d)將每一個(gè)詞義對(duì)建立一個(gè)語(yǔ)義相關(guān)矩陣S [m，n]，S [i，j]表示在假設(shè)翻譯X中位置i和在假設(shè)翻譯Y中位置j最相似詞義的語(yǔ)義相關(guān)度；因此s[i，j]也是從i到j(luò)的邊上的權(quán)重；如果字典中不存在這個(gè)詞則使用編輯距離計(jì)算相似性，輸出單詞之間的編輯距離；
[0030](e)把計(jì)算兩個(gè)句子的句子相似度看成二分圖的最大權(quán)匹配，其中X和Y是兩個(gè)不相交的集合；使用Hungarian算法求最大加權(quán)的匹配；
[0031](f)以上步驟的匹配結(jié)果形成了兩個(gè)句子的相似度分?jǐn)?shù)；
[0032](2)采用改進(jìn)TER算法假設(shè)對(duì)齊:在骨架翻譯和每個(gè)假設(shè)翻譯中建立對(duì)齊關(guān)系，通過(guò)計(jì)算每對(duì)單詞的相似度得分得到對(duì)齊結(jié)果；
[0033](3)混淆網(wǎng)絡(luò)的構(gòu)建:假設(shè)翻譯和骨架翻譯通過(guò)加入null進(jìn)行拉伸和對(duì)齊，從而構(gòu)建混淆網(wǎng)絡(luò)；
[0034]四、混淆網(wǎng)絡(luò)的訓(xùn)練:混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機(jī)器翻譯MERT訓(xùn)練方法；
[0035]五、混淆網(wǎng)絡(luò)解碼:從混淆網(wǎng)絡(luò)中解碼出最好的翻譯，采用經(jīng)典自左向右的Beam-Search解碼，完成混淆網(wǎng)絡(luò)的解碼，即完成了一種使用詞義消歧技術(shù)的融合機(jī)器翻譯系統(tǒng)的方法。
[0036]發(fā)明效果:
[0037]本發(fā)明比原有單系統(tǒng)明顯的提高了 6個(gè)百分點(diǎn)BLEU分?jǐn)?shù)，特別是把多個(gè)不同的機(jī)器翻譯進(jìn)行融合在一起，互相提高性能，是機(jī)器翻譯系統(tǒng)的實(shí)用化手段。隨著并行化技術(shù)的發(fā)展，算法時(shí)間復(fù)雜度和空間復(fù)雜度都可以接受。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0038]圖1是使用詞義消歧的融合機(jī)器翻譯的裝置圖；
[0039]圖2是本發(fā)明流程圖；
[0040]圖3是【背景技術(shù)】中的WordNet中上下位的關(guān)系圖；
[0041]圖4是確定每個(gè)詞義消歧的左右語(yǔ)境圖；
[0042]圖5是骨架翻譯的選擇圖；
[0043]圖6是二分圖最大匹配的匈牙利算法偽代碼圖；
[0044]圖7是二分圖匹配的示例圖；
[0045]圖8是假設(shè)翻譯與骨架翻譯的對(duì)齊圖；
[0046]圖9是假設(shè)翻譯與骨架翻譯的拉伸圖；
[0047]圖1O是混淆網(wǎng)絡(luò)的構(gòu)建圖；
[0048]圖11是基于轉(zhuǎn)移的改進(jìn)TER算法偽代碼圖；
[0049]圖12是核心Find_Best_Shift算法的偽代碼圖；
[0050]圖13是改進(jìn)TER對(duì)齊的動(dòng)態(tài)規(guī)劃表圖；
[0051]圖14是圖13的改進(jìn)TER對(duì)齊結(jié)果圖；
[0052]圖15是混淆網(wǎng)絡(luò)解碼中剪枝算法的偽代碼；
[0053]圖16是混淆網(wǎng)絡(luò)解碼過(guò)程描述圖。
【具體實(shí)施方式】
[0054]結(jié)合圖1?16說(shuō)明以下實(shí)施方式:
[0055]【具體實(shí)施方式】一:本實(shí)施方式的使用詞義消歧的機(jī)器翻譯系統(tǒng)包括預(yù)處理器，WordNet系統(tǒng)，詞義和語(yǔ)義計(jì)算器，混淆網(wǎng)絡(luò)訓(xùn)練器與解碼器；
[0056]所述預(yù)處理器對(duì)翻譯結(jié)果進(jìn)行分詞，過(guò)濾等處理；詞義和語(yǔ)義計(jì)算器使用WordNet系統(tǒng)和多個(gè)機(jī)器翻譯的結(jié)果生成混淆網(wǎng)絡(luò)，對(duì)于混淆網(wǎng)絡(luò)的訓(xùn)練過(guò)程是一個(gè)迭代的過(guò)程，在訓(xùn)練的過(guò)程中需要用到語(yǔ)言模型，訓(xùn)練得到的特征權(quán)重被輸入到解碼器中，對(duì)于測(cè)試語(yǔ)料生成最終翻譯結(jié)果，并進(jìn)行測(cè)試輸出得分。
[0057]【具體實(shí)施方式】二:本實(shí)施方式的使用詞義消歧技術(shù)的機(jī)器翻譯系統(tǒng)融合方法包括以下步驟:
[0058]一、使用詞義和語(yǔ)義計(jì)算器對(duì)句子相似度進(jìn)行計(jì)算:
[0059]通過(guò)加入多種重疊打分機(jī)制對(duì)原Lesk算法進(jìn)行改進(jìn),然后采用改進(jìn)后的Lesk算法進(jìn)行詞義消歧，確定每個(gè)詞的詞義；其中所述對(duì)原Lesk算法進(jìn)行改進(jìn)具體為:
[0060](I)在搜索過(guò)程的每個(gè)階段，搜索器將限制左右各K和J個(gè)最有前景的候選，而K和J是根據(jù)當(dāng)前詞所在短語(yǔ)所確定的數(shù)；
[0061](2)通過(guò)Beam的局部搜索來(lái)優(yōu)化詞義組合，通過(guò)應(yīng)用啟發(fā)式的技巧來(lái)縮減搜索空間；
[0062](3)加入各種重疊打分以引入更多的相關(guān)信息；
[0063]二、使用詞義和語(yǔ)義計(jì)算器對(duì)句子相似度進(jìn)行計(jì)算:
[0064](I)采用路徑長(zhǎng)度計(jì)算單詞在句子中語(yǔ)義相似度；
[0065](2)采用語(yǔ)義矩陣計(jì)算兩個(gè)句子的語(yǔ)義相似度；
[0066]三、混淆網(wǎng)絡(luò)的構(gòu)建；
[0067](I)骨架翻譯的選擇:通過(guò)改進(jìn)后的Lesk算法和Hungarian算法計(jì)算語(yǔ)義相似度，找到與其他句子最相似的句子；
[0068]選擇所有系統(tǒng)的最好翻譯作為候選骨架翻譯，計(jì)算任意候選骨架翻譯和其他句子的句子相似度并取平均，把擁有最高分?jǐn)?shù)的句子作為骨架翻譯；
[0069]其中，所述計(jì)算句子相似度的流程如下:
[0070](a)斷詞；
[0071](b)對(duì)每個(gè)單詞進(jìn)行還原詞根；
[0072](C)詞義消歧；
[0073](d)將每一個(gè)詞義對(duì)建立一個(gè)語(yǔ)義相關(guān)矩陣S [m，n]，S [i，j]表示在假設(shè)翻譯X中位置i和在假設(shè)翻譯Y中位置j最相似詞義的語(yǔ)義相關(guān)度；因此S[i，j]也是從i到j(luò)的邊上的權(quán)重；如果字典中不存在這個(gè)詞則使用編輯距離計(jì)算相似性，輸出單詞之間的編輯距離；
[0074](e)把計(jì)算兩個(gè)句子的句子相似度看成二分圖的最大權(quán)匹配，其中X和Y是兩個(gè)不相交的集合；使用Hungarian算法求最大加權(quán)的匹配；其偽代碼見(jiàn)圖6 ;給定兩個(gè)句子的最大匹配的示例見(jiàn)圖7，紅線(xiàn)代表最終最大匹配的結(jié)果，黑線(xiàn)代表所有可能的匹配，每個(gè)單詞斜杠后面是詞性；
[0075](f)以上步驟的匹配結(jié)果形成了兩個(gè)句子的相似度分?jǐn)?shù)；
[0076](2)采用改進(jìn)TER算法假設(shè)對(duì)齊:在骨架翻譯和每個(gè)假設(shè)翻譯中建立對(duì)齊關(guān)系，通過(guò)計(jì)算每對(duì)單詞的相似度得分得到對(duì)齊結(jié)果，示例見(jiàn)圖8 ；
[0077](3)混淆網(wǎng)絡(luò)的構(gòu)建:假設(shè)翻譯和骨架翻譯通過(guò)加入null進(jìn)行拉伸和對(duì)齊，示例見(jiàn)圖9 ;混淆網(wǎng)絡(luò)的表示形式見(jiàn)圖10 ；
[0078]四、混淆網(wǎng)絡(luò)的訓(xùn)練:混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機(jī)器翻譯MERT訓(xùn)練方法；
[0079]五、混淆網(wǎng)絡(luò)解碼:從混淆網(wǎng)絡(luò)中解碼出最好的翻譯，采用經(jīng)典自左向右的Beam-Search解碼，完成了混淆網(wǎng)絡(luò)的解碼；即完成了一種使用詞義消歧技術(shù)的融合機(jī)器翻譯系統(tǒng)的方法。
[0080]本實(shí)施方式中，步驟一中詞義消歧是找出在給定語(yǔ)境下一個(gè)詞的最合適意思，改進(jìn)后的Lesk算法是在句子語(yǔ)境下來(lái)消歧句子中的單詞。主要的目的是計(jì)算在兩個(gè)解釋中共享的詞數(shù)，重疊的單詞越多，語(yǔ)義就越相關(guān)。為了詞義消歧，每一個(gè)單詞的解釋被和在短語(yǔ)中的其他單詞的解釋來(lái)作比較。
[0081]例如:在執(zhí)行短語(yǔ)“people person”的消歧過(guò)程中，按照WordNet3.0的解釋:
[0082]名詞people有四個(gè)意思:[0083](I)any group of human beings;
[0084](2)the body of citizens of a state or country;
[0085](3)the common people generally;
[0086](4)members of a family line;
[0087]動(dòng)詞people有兩個(gè)意思:
[0088](I) fill with people or supply with inhabitants;"people a room〃；
[0089](2)furnish with people
[0090]名詞person有三個(gè)意思:
[0091](I)a human being;
[0092](2)a human body(usually including the clothing);
[0093](3) a grammatical category of pronouns and verb forms;
[0094]由于people除了名詞以外,還有動(dòng)詞詞性,而person只有名詞詞性,只比較兩個(gè)名詞詞性，比較分為兩步:
[0095](I)為了提高單詞的匹配率,首先使用Porter Stemming進(jìn)行還原詞根；
[0096](2)進(jìn)行匹配公共的子串來(lái)確定詞義；
[0097]通過(guò)比較單詞“people”的四個(gè)解釋意思中的每一個(gè)和單詞“person”的三個(gè)解釋意思中的每一個(gè)，發(fā)現(xiàn)單詞“human being”出現(xiàn)在兩個(gè)單詞中一個(gè)詞義中，human出現(xiàn)在person的兩個(gè)詞義中，human出現(xiàn)在people的一個(gè)詞義中。當(dāng)單詞“people和person”一同使用時(shí)，則將包含“human being”或“human”的兩個(gè)詞義選擇為最合適的詞義。
[0098]本實(shí)施方式中，步驟二中句子相似度計(jì)算方法是通過(guò)詞義來(lái)計(jì)算兩個(gè)句子中所有匹配詞的相似得分。
[0099]在WordNet中每個(gè)詞性被組織在一個(gè)分類(lèi)中，代表一個(gè)意思的每個(gè)節(jié)點(diǎn)是一系列同義詞。如果一個(gè)詞含有超過(guò)一個(gè)意思，它將出現(xiàn)在分類(lèi)不同的多個(gè)同義詞集合。在Synset之間的關(guān)系是語(yǔ)義關(guān)系，在詞義間的關(guān)系是詞匯關(guān)系。不同是詞匯關(guān)系是兩個(gè)不同Synset集合中成員間的關(guān)系，但語(yǔ)義關(guān)系是兩個(gè)整個(gè)Synset集合的關(guān)系。
[0100]例如:語(yǔ)義關(guān)系是上下位關(guān)系等；
[0101]詞匯關(guān)系是反義關(guān)系和推導(dǎo)關(guān)系；
[0102]使用下面示例進(jìn)行說(shuō)明一下:
[0103]名詞light第十個(gè)意思(light#n#10)的反義詞在WordNet中是名詞dark的第一意思(dark#n#l)。這個(gè) Synset 集合是{light#n#10, lighting#n#l}，清楚的是 light#n#10是dark#n#l的反義詞，但是lighting#n#l不是dark#n#l的反義詞。因此反義關(guān)系需要一個(gè)詞匯關(guān)系，不是語(yǔ)義關(guān)系。語(yǔ)義相似性是語(yǔ)義關(guān)系的一個(gè)特例，僅僅是IS-A關(guān)系。
[0104]為了衡量?jī)蓚€(gè)Synset集合的語(yǔ)義相似性，使用hyponym/hypernym(即IS-A關(guān)系)。衡量?jī)蓚€(gè)Synset集合的語(yǔ)義相似性簡(jiǎn)單方法是把分類(lèi)看成一個(gè)無(wú)向圖,在WordNet中衡量它們的距離。P.Resnik說(shuō):“從一個(gè)節(jié)點(diǎn)到另一個(gè)路徑越短，它們就越相似”。注意這個(gè)路徑長(zhǎng)度通過(guò)節(jié)點(diǎn)而不是通過(guò)邊衡量。為了衡量語(yǔ)義相似度得分，給定下面定義:
[0105](I)兩個(gè)詞的路徑長(zhǎng)度(Path Length):在同一個(gè)Synset集合中兩個(gè)成員的路徑長(zhǎng)度為I。圖3展示了用路徑長(zhǎng)度相似度來(lái)計(jì)算上位分類(lèi)的實(shí)例，圖3中可以看到motor和auto的長(zhǎng)度是1，auto和bike的長(zhǎng)度為3, motor和fork的長(zhǎng)度為11。[0106](2)兩個(gè)詞的公共父親(Sub-Summer):這兩個(gè)詞所在Synset的公共父親。
[0107](3)兩個(gè)詞的最短公共父親(Least Common Sub-summer):也是兩個(gè)詞的最短路徑，且需要經(jīng)過(guò)公共父親。圖3的例子{motor, auto…}和{truck…}的LCS是{wheeledvehicle},因?yàn)閧wheeled vehicle,…}是比普通的 Sub-Sumer {vehicle,…}更具體。
[0108]路徑長(zhǎng)度給了計(jì)算兩個(gè)詞義關(guān)系的方法.有一些實(shí)際問(wèn)題需要說(shuō)明:
[0109](a)來(lái)自于同一詞性的兩個(gè)Synset集合可能沒(méi)有公共的Sub-Sumer。因?yàn)闆](méi)有把每一個(gè)詞性分類(lèi)的所有不同最高節(jié)點(diǎn)連接在一起。在兩個(gè)Synset集合中之間的路徑不是一直都能發(fā)現(xiàn)的。但是如果唯一的根節(jié)點(diǎn)被使用，在兩個(gè)Synset集合將一直存在一條路徑。
[0110](b)注意在WordNet中是允許多繼承的；一些Synset集合屬于多個(gè)分類(lèi)。所以在兩個(gè)Synset集合中有兩種分類(lèi)下可能有兩條路徑，本實(shí)施方式選擇最短的路徑。
[0111](c)當(dāng)在WordNet中查找一個(gè)單詞時(shí)，詞首先被詞根化。因此“book”和” books”的距離為0，因?yàn)樗鼈兪峭粋€(gè)詞，這種不同于在同一個(gè)Synset集合中的詞，因?yàn)橥粋€(gè)詞比在同一 Synset集合中更相似。
[0112](d)這個(gè)方法僅僅比較有同樣詞性的兩個(gè)詞義。這意味著不比較noun和verb,因?yàn)樗鼈兾挥诓煌姆诸?lèi)。由于使用了詞性標(biāo)注器，需要按照詞性標(biāo)注結(jié)果考慮一個(gè)詞，由于WordNet中只有四種詞性(名詞，動(dòng)詞，形容詞，副詞)，而詞性標(biāo)注結(jié)果要比WordNet更加細(xì)致，所以使用最相近的詞性來(lái)進(jìn)行計(jì)算。
[0113](e)如果WordNet沒(méi)有這個(gè)詞，本實(shí)施方式使用最大公共串匹配來(lái)計(jì)算。根據(jù)詞的長(zhǎng)度和公共串的長(zhǎng)度來(lái)確定兩個(gè)詞的路徑長(zhǎng)度。
[0114]有許多方法來(lái)衡量?jī)蓚€(gè)Synset集合的語(yǔ)義相似性，經(jīng)典的方法主要有兩種:
[0115](I)傳統(tǒng)的衡量距離方法:
[0116]Sim(s, t) =1/Distance (s, t)
[0117]距離是節(jié)點(diǎn)計(jì)數(shù)從s到t的最短路徑長(zhǎng)度。但是這種方法沒(méi)有考慮到最短公共祖先的深度，最短公共祖先的深度也會(huì)影響到兩個(gè)Synset集合的語(yǔ)義相似性。
[0118](2)基于公共父親節(jié)點(diǎn)衡量距離的方法:是Wu&Palmer提出的方法，這個(gè)方法考慮了路徑長(zhǎng)度和LCS的深度:
[0119]Sim(s, t) =2*Depth (LCS) / (Depth (s) +Depth (t))
[0120]這里s和t表示被比較的源和目標(biāo)單詞。Depth(s)表示s所在Synset分類(lèi)中從根節(jié)點(diǎn)到節(jié)點(diǎn)s的距離，LCS表示s和t的最小公共Sub-Submer,經(jīng)實(shí)驗(yàn)比對(duì)這種方法更好。
[0121]本實(shí)施方式步驟三中混淆網(wǎng)絡(luò)的構(gòu)建:
[0122](e)中給定兩個(gè)句子的最大匹配實(shí)例見(jiàn)圖7，紅線(xiàn)代表最終最大匹配的結(jié)果，黑線(xiàn)代表所有可能的匹配，每個(gè)單詞斜杠后面是詞性；
[0123]匹配(Matching):是邊集的子集(M c= ￡,:E是邊集)，VveF (V是頂點(diǎn)集合)在M中最多有一個(gè)邊；
[0124]可選路徑(Alternating Path):如果路徑中邊輪換的出現(xiàn)在M和E-M中；
[0125]增廣路徑(Augmenting Path):如果可選路徑的兩個(gè)端點(diǎn)都是自由頂點(diǎn)f e F (非匹配頂點(diǎn))；[0126]可選樹(shù)(Alternating Tree):是一棵根節(jié)點(diǎn)為某個(gè)自由頂點(diǎn)的樹(shù),且樹(shù)中的每個(gè)路徑都是可選路徑；
[0127]可行標(biāo)簽(feasiblelabeling):對(duì)于VU ∈L,v∈R,，l (u) +1 (v) ≥ w(u, v)；
[0128]關(guān)于可行標(biāo)簽I的等價(jià)圖(Equality Graph):是一個(gè)圖G= (V，E1)，其中E1= {(χ, y) 11 (χ) +1 (y) =w (x, y)}；
[0129]頂點(diǎn)u 和集合 S 的鄰居(neighbor) N1(U) = {v| (u, V) ∈E1},N1(S)=∪u∈sN1(U)；
[0130]上面最大匹配結(jié)果形成了兩個(gè)句子的相似度分?jǐn)?shù)，有很多策略來(lái)獲得兩個(gè)句子的總相似度數(shù)值。本專(zhuān)利提出了兩個(gè)新的公式來(lái)計(jì)算詞義的語(yǔ)義相似度，對(duì)于每一個(gè)公式用一個(gè)適當(dāng)?shù)牟呗詠?lái)計(jì)算總得分:
[0131](1)DICE 系數(shù):2*( χ ∩ Y )/|χ| + |Y|，這里(χ ∩ Y )是χ和Y匹配的詞次。這個(gè)相似性是兩個(gè)句子中所有匹配候選的相似度和除以詞次的和。
[0132](2)Tanimoto測(cè)度:
【權(quán)利要求】
1.一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的裝置，其特征在于使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的裝置包括預(yù)處理器，WordNet系統(tǒng)，詞義和語(yǔ)義計(jì)算器，混淆網(wǎng)絡(luò)訓(xùn)練器與解碼器；所述預(yù)處理器對(duì)翻譯結(jié)果進(jìn)行分詞，過(guò)濾處理；詞義和語(yǔ)義計(jì)算器使用WordNet系統(tǒng)和多個(gè)機(jī)器翻譯的結(jié)果生成混淆網(wǎng)絡(luò)；混淆網(wǎng)絡(luò)的訓(xùn)練過(guò)程是一個(gè)迭代的過(guò)程，在訓(xùn)練的過(guò)程中需要用到語(yǔ)言模型；訓(xùn)練得到的特征權(quán)重被輸入到解碼器中，對(duì)于測(cè)試語(yǔ)料生成最終翻譯結(jié)果，并進(jìn)行測(cè)試輸出得分。
2.應(yīng)用權(quán)利要求1的使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法，其特征在于一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法包括以下步驟: 一、使用預(yù)處理器對(duì)多個(gè)機(jī)器翻譯結(jié)果進(jìn)行預(yù)處理，使用詞義分析器確定詞義: 通過(guò)加入多種重疊打分機(jī)制對(duì)原Lesk算法進(jìn)行改進(jìn)，然后采用Lesk算法進(jìn)行詞義消歧，確定每個(gè)詞的詞義；其中所述對(duì)原Lesk算法進(jìn)行改進(jìn)具體為: (1)在搜索過(guò)程的每個(gè)階段，搜索器將限制左右各K和J個(gè)最有前景的候選，而K和J是根據(jù)當(dāng)前詞所在的短語(yǔ)進(jìn)行確定的數(shù)； (2)通過(guò)Beam的局部搜索來(lái)優(yōu)化詞義組合，通過(guò)應(yīng)用啟發(fā)式的技巧來(lái)縮減搜索空間； (3)加入各種重疊打分以引入更多的相關(guān)信息；二、使用詞義和語(yǔ)義計(jì)算器對(duì)句子相似度進(jìn)行計(jì)算: (1)采用路徑長(zhǎng)度計(jì)算單詞在句子中語(yǔ)義相似度； (2)采用語(yǔ)義矩陣計(jì)算兩個(gè)句子的語(yǔ)義相似度；三、混淆網(wǎng)絡(luò)的構(gòu)建； (1)骨架翻譯的選擇:通過(guò)改進(jìn)后的Lesk算法和Hungarian算法計(jì)算語(yǔ)義相似度,找到與其他句子最相似的句子；選擇所有系統(tǒng)的最好翻譯作為候選骨架翻譯，計(jì)算任意候選骨架翻譯和其他句子的句子相似度并取平均，把擁有最高分?jǐn)?shù)的句子作為骨架翻譯；其中，所述計(jì)算句子相似度的流程如下: (a)斷詞； (b)對(duì)每個(gè)單詞進(jìn)行還原詞根； (C)詞義消歧； (d)將每一個(gè)詞義對(duì)建立一個(gè)語(yǔ)義相關(guān)矩陣S[m，n]，S [i，j]表示在假設(shè)翻譯X中位置i和在假設(shè)翻譯Y中位置j最相似詞義的語(yǔ)義相關(guān)度；因此s[i，j]也是從i到j(luò)邊上的權(quán)重；如果字典中不存在這個(gè)詞則使用編輯距離計(jì)算相似性，輸出單詞之間的編輯距離； (e)把計(jì)算兩個(gè)句子的句子相似度看成二分圖的最大權(quán)匹配，其中句子X(jué)和Y是兩個(gè)不相交的集合；使用Hungarian算法求最大加權(quán)的匹配； (f)以上步驟的匹配結(jié)果形成了兩個(gè)句子的相似度分?jǐn)?shù)； (2)采用改進(jìn)TER算法假設(shè)對(duì)齊:在骨架翻譯和每個(gè)假設(shè)翻譯中建立對(duì)齊關(guān)系，通過(guò)計(jì)算每對(duì)單詞的相似度得分得到對(duì)齊結(jié)果； (3)混淆網(wǎng)絡(luò)的構(gòu)建:假設(shè)翻譯和骨架翻譯通過(guò)加入null進(jìn)行拉伸和對(duì)齊，從而構(gòu)建混淆網(wǎng)絡(luò)；四、混淆網(wǎng)絡(luò)的訓(xùn)練:混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機(jī)器翻譯MERT訓(xùn)練方法，使用混淆網(wǎng)絡(luò)訓(xùn)練器進(jìn)行迭代式訓(xùn)練，直到收斂為止；五、混淆網(wǎng)絡(luò)解碼:使用解碼器從混淆網(wǎng)絡(luò)中解碼出最好的翻譯，采用經(jīng)典自左向右的Beam-Search解碼，完成混淆網(wǎng)絡(luò)的解碼，即完成一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法。
3.根據(jù)權(quán)利要求2所述的一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法，其特征在于所述步驟一中采用改進(jìn)后的Lesk算法進(jìn)行詞義消歧，確定每個(gè)詞的詞義具體為: (1)選擇一個(gè)語(yǔ)境:在目標(biāo)詞的周?chē)xK個(gè)語(yǔ)境詞； (2)對(duì)于在選定語(yǔ)境下的每一個(gè)詞，將先進(jìn)行詞性標(biāo)注，列出這個(gè)詞性的所有詞義； (3)對(duì)于一個(gè)詞的每個(gè)詞義，訪(fǎng)問(wèn)下列關(guān)系: (a)由WordNet提供的解釋,包含實(shí)例項(xiàng)； (b)Synset通過(guò)上位關(guān)系連接到的解釋?zhuān)绻粋€(gè)詞義有超過(guò)一個(gè)上位詞，每個(gè)上位詞的解釋被連接成單個(gè)解釋串； (C)Synset通過(guò)下位關(guān)系連接到的解釋?zhuān)? (d)Synset通過(guò)整體關(guān)系連接到的解釋?zhuān)? (e)Synset通過(guò)局部關(guān)系連接到的解釋?zhuān)? (4)組合在第(3)步驟提供的所有可能解釋對(duì)，通過(guò)搜索重疊來(lái)計(jì)算相關(guān)得分，當(dāng)計(jì)算兩個(gè)Synset集合cl和c2之間的關(guān)系時(shí)，syn_syn意味著兩個(gè)同義詞之間解釋的比較；hype-hype意味著cl的hypernym的解釋可以和c2的hypernym的解釋作比較；hype_hypo意味著cl的hypernym的解釋和c2的hyponym的解釋作比較；并通過(guò)得分函數(shù)Score計(jì)算匹配詞的個(gè)數(shù)，為了給重疊打分，使用新的打分機(jī)制，總得分為:
score_overall= Σ cl；c2 e c；g e Gscore (g) (5)其中C是cl和c2的在所有解釋對(duì)上的比較函數(shù)，G={syn-syn, hype-hype, hype-hypo,…}，即所有解釋形成的集合，一旦每個(gè)組合被打分，選擇有最高得分作為目標(biāo)詞在特定語(yǔ)境下目標(biāo)詞的最合適意思，輸出結(jié)果給出了消歧后的意思:

4.根據(jù)權(quán)利要求3所述的一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法，其特征在于所述步驟二中計(jì)算語(yǔ)義相似度具體為: 對(duì)于每一個(gè)公式應(yīng)用一個(gè)適當(dāng)?shù)牟呗詠?lái)計(jì)算總得分: (1)DICE系數(shù):2*(X η Y )/|χ| + |υ|，這里(χ η Y )是χ和Y匹配的詞次；這個(gè)相似性是兩個(gè)句子中所有匹配候選的相似度和除以詞次的和； (2)丁&11加0如測(cè)度:
5.根據(jù)權(quán)利要求4所述的一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法，其特征在于步驟三(2)中改進(jìn)TER算法具體為: 一、基于混淆網(wǎng)絡(luò)的系統(tǒng)融合步驟為: (1)從機(jī)器翻譯系統(tǒng)中抽出N-best結(jié)果，選擇的翻譯結(jié)果數(shù)量N越大，結(jié)果越好； (2)挑選出一個(gè)與其他翻譯結(jié)果最相似的骨架翻譯； (3)把所有的假設(shè)翻譯與骨架翻譯進(jìn)行對(duì)齊，以調(diào)整假設(shè)翻譯的順序； (4)用重排序的翻譯來(lái)建立混淆網(wǎng)絡(luò)； (5)使用句子級(jí)特征和詞后驗(yàn)概率特征作為解碼的特征，來(lái)對(duì)混淆網(wǎng)絡(luò)進(jìn)行解碼； (6)用開(kāi)發(fā)集來(lái)優(yōu)化參數(shù)，為了使得訓(xùn)練更加可行，選擇訓(xùn)練集中和非訓(xùn)練集中的一部分句子作為開(kāi)發(fā)集，最終在測(cè)試集上進(jìn)行解碼；二、解碼過(guò)程中采用柱搜索的剪枝；其中整個(gè)算法中有一個(gè)關(guān)鍵步驟Find_Best_Shift對(duì)于每種轉(zhuǎn)移需要計(jì)算最小編輯距離；計(jì)算最小編輯距離的時(shí)間復(fù)雜度為0(Ν*Μ)，進(jìn)行回溯的時(shí)間復(fù)雜度O(N+M)，空間復(fù)雜度為0(Ν*Μ)，其中N是參考翻譯的長(zhǎng)度，M為假設(shè)翻譯的長(zhǎng)度；三、在構(gòu)建混淆網(wǎng)絡(luò)過(guò)程中，對(duì)于TER進(jìn)行改進(jìn)；給定兩個(gè)字符串計(jì)算改進(jìn)TER對(duì)齊結(jié)果，改進(jìn)TER得分計(jì)算為:
6.根據(jù)權(quán)利要求5所述的一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法，其特征在于所述步驟五中混淆網(wǎng)絡(luò)解碼具體為:
7.根據(jù)權(quán)利要求6所述的一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法，其特征在于步驟五中解碼采用了三種剪枝方法: 重合并方法:把具有同樣翻譯結(jié)果的翻譯路徑進(jìn)行合并，只留下得分較高的翻譯結(jié)果的路徑，而把得分較低的排除到搜索路徑以外；柱狀圖剪枝:在搜索的每個(gè)棧中保留最好的N個(gè)結(jié)果，把其他的搜索路徑剪枝掉，這種剪枝方法可以在多項(xiàng)式時(shí)間內(nèi)完成搜索；束搜索剪枝:將目前路徑的最高得分除以某個(gè)大于I的閾值，在閾值以下的路徑都將被丟棄，由于當(dāng)前的最高得分不一定是最終得分中最高得分；把每個(gè)翻譯假設(shè)的結(jié)果存儲(chǔ)在棧中，翻譯結(jié)果的信息存儲(chǔ)在翻譯假設(shè)中，搜索的過(guò)程也就是擴(kuò)展翻譯假設(shè)的過(guò)程，對(duì)于翻譯假設(shè)的數(shù)據(jù)結(jié)構(gòu)如下: (1)回溯到父親節(jié)點(diǎn)的指針； (2)各項(xiàng)特征函數(shù)的得分； (3)特征的總得分； (4)未來(lái)的總得分； (5)被再合并后的翻譯路徑的得分； (6)目前產(chǎn)生的翻譯結(jié)果的后`兩個(gè)詞。
【文檔編號(hào)】G06F17/27GK103699529SQ201310751048
【公開(kāi)日】2014年4月2日申請(qǐng)日期:2013年12月31日優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】劉宇鵬申請(qǐng)人:哈爾濱理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉宇鵬
技術(shù)所有人：哈爾濱理工大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

詞義消歧相關(guān)技術(shù)

實(shí)體消歧相關(guān)技術(shù)

消費(fèi)歧視相關(guān)技術(shù)

消歧義相關(guān)技術(shù)

命名實(shí)體消歧相關(guān)技術(shù)

語(yǔ)義消歧相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種使用詞義消歧的融合機(jī)器翻譯系統(tǒng)的方法及裝置制造方法