專利名稱:一種文本數(shù)據(jù)的對齊方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機器翻譯領(lǐng)域,特別涉及一種文本數(shù)據(jù)的對齊方法和裝置。
背景技術(shù):
基于統(tǒng)計方法的機器翻譯、信息檢索和信息抽取依賴于雙語或多語語料庫,在上述語料庫中一般包括大量互為對齊的句對。在互聯(lián)網(wǎng)上,存在大量的可比(comparable)的雙語或者多語的語料資源,可通過對上述語料資源進行對齊來形成雙語或多語語料庫??杀鹊碾p語或者多語的語料資源是指用不同的語言和文字描述同一個事件,比如雙語或多語新聞就是其中的一個例子。這些可比語料資源可以是完全互為翻譯,或者只是在描述相同
的事件,但是具體的段落和句子不是--對應(yīng)的。比如,在中英文維基百科中,“威廉莎士
比亞”和“William Shakespeare”的頁面內(nèi)容是對應(yīng)的比較好的,“色比娃娃”和“barbiedoll”中就只有部分段落是對應(yīng)的,但是“丑小鴨”和“The Ugly Duckling”中的內(nèi)容就基本不對應(yīng)?,F(xiàn)有技術(shù)中,在對上述可比語料資源進行對齊時,主要根據(jù)詞典進行標題對齊或者根據(jù)文本結(jié)構(gòu)進行對齊,這兩種方法的主要缺點就是局限于詞典的覆蓋率和文本本身的結(jié)構(gòu),往往會存在不準確的問題。因此,亟需提供一種文本數(shù)據(jù)的對齊方法和裝置,以解決上述問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種文本數(shù)據(jù)的對齊方法和裝置,通過獲取不同語言的文本數(shù)據(jù)的跨語言主題,并對跨語言主題進行相似度分析,以建立高準確度的語料庫。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種文本數(shù)據(jù)的對齊方法,對齊方法包括a.獲取第一語言文本數(shù)據(jù)和第二語言文本數(shù)據(jù);b.對第一語言文本數(shù)據(jù)和第二語言文本數(shù)據(jù)進行跨語言語義分析,以獲取多個跨語言主題;c.計算第一語言文本數(shù)據(jù)屬于每一跨語言主題的概率,以形成第一特征向量,并計算第二語言文本數(shù)據(jù)屬于每一跨語言主題的概率,以形成第二特征向量;d.根據(jù)第一特征向量和第二特征向量計算第一語言文本數(shù)據(jù)和第二語言數(shù)據(jù)的相似度;e.根據(jù)相似度對第一語言文本數(shù)據(jù)和第二語言文本數(shù)據(jù)進行對齊。根據(jù)本發(fā)明之一優(yōu)選實施例,在步驟b中,利用跨語言概率潛在語義分析方法或跨語言隱含狄利克雷分配方法獲取多個跨語言主題。根據(jù)本發(fā)明之一優(yōu)選實施例,在步驟d中,根據(jù)如下公式計算相似度權(quán)利要求
1.一種文本數(shù)據(jù)的對齊方法,其特征在于,所述對齊方法包括 a.獲取第一語言文本數(shù)據(jù)和第二語言文本數(shù)據(jù); b.對所述第一語言文本數(shù)據(jù)和所述第二語言文本數(shù)據(jù)進行跨語言語義分析,以獲取多個跨語目主題; c.計算所述第一語言文本數(shù)據(jù)屬于每一所述跨語言主題的概率,以形成第一特征向量,并計算所述第二語言文本數(shù)據(jù)屬于每一所述跨語言主題的概率,以形成第二特征向量; d.根據(jù)所述第一特征向量和所述第二特征向量計算所述第一語言文本數(shù)據(jù)和所述第二語言文本數(shù)據(jù)的相似度; e.根據(jù)所述相似度對所述第一語言文本數(shù)據(jù)和所述第二語言文本數(shù)據(jù)進行對齊。
2.如權(quán)利要求I所述的文本數(shù)據(jù)的對齊方法,其特征在于,在所述步驟b中,利用跨語言概率潛在語義分析方法或跨語言隱含狄利克雷分配方法獲取所述多個跨語言主題。
3.如權(quán)利要求I所述的文本數(shù)據(jù)的對齊方法,其特征在于,在所述步驟d中,根據(jù)如下公式計算所述相似度
4.如權(quán)利要求I所述的文本數(shù)據(jù)的對齊方法,其特征在于,在所述步驟e中,將所述相似度作為一個特征加入機器學習模型中,并利用所述機器學習模型對所述第一語言文本數(shù)據(jù)和所述第二語言文本數(shù)據(jù)進行對齊。
5.如權(quán)利要求4所述的文本數(shù)據(jù)的對齊方法,其特征在于,在所述步驟e中,所述機器學習模型中進一步包括詞典特征和文本結(jié)構(gòu)特征。
6.如權(quán)利要求I所述的文本數(shù)據(jù)的對齊方法,其特征在于,所述第一語言文本數(shù)據(jù)為第一語言文本文檔,所述第二語言文本數(shù)據(jù)為第二語言文本文檔。
7.如權(quán)利要求I所述的文本數(shù)據(jù)的對齊方法,其特征在于,所述第一語言文本數(shù)據(jù)為第一語言文本段落,所述第二語言文本數(shù)據(jù)為第二語言文本段落。
8.如權(quán)利要求I所述的文本數(shù)據(jù)的對齊方法,其特征在于,所述第一語言文本數(shù)據(jù)為第一語言文本句子,所述第二語言文本數(shù)據(jù)為第二語言文本句子。
9.如權(quán)利要求8所述的文本數(shù)據(jù)的對齊方法,其特征在于,在所述步驟b中,對所述第一語言文本句子和所述第二語言文本句子進行同義詞擴展,并對擴展后的所述第一語言文本句子和所述第二語言文本句子進行跨語言語義分析。
10.如權(quán)利要求9所述的文本數(shù)據(jù)的對齊方法,其特征在于,在所述步驟b中,所述同義詞擴展方法包括語義網(wǎng)絡(luò)擴展方法、雙語詞典擴展方法以及語料庫擴展方法中的至少一種。
11.一種文本數(shù)據(jù)的對齊裝置,其特征在于,所述對齊裝置包括 文本數(shù)據(jù)獲取模塊,用于獲取第一語言文本數(shù)據(jù)和第二語言文本數(shù)據(jù); 跨語言主題獲取模塊,用于對所述第一語言文本數(shù)據(jù)和所述第二語言文本數(shù)據(jù)進行跨語言語義分析,以獲取多個跨語言主題; 特征向量獲取模塊,用于計算所述第一語言文本數(shù)據(jù)屬于每一所述跨語言主題的概率,以形成第一特征向量,并計算所述第二語言文本數(shù)據(jù)屬于每一所述跨語言主題的概率,以形成第二特征向量; 相似度計算模塊,用于根據(jù)所述第一特征向量和所述第二特征向量計算所述第一語言文本數(shù)據(jù)和所述第二語言數(shù)據(jù)的相似度; 對齊模塊,用于根據(jù)所述相似度對所述第一語言文本數(shù)據(jù)和所述第二語言文本數(shù)據(jù)進行對齊。
12.如權(quán)利要求11所述的文本數(shù)據(jù)的對齊裝置,其特征在于,所述跨語言主題獲取模塊利用跨語言概率潛在語義分析方法或跨語言隱含狄利克雷分配方法獲取所述多個跨語S主題。
13.如權(quán)利要求11所述的文本數(shù)據(jù)的對齊裝置,其特征在于,所述相似度計算模塊根據(jù)如下公式計算所述相似度
14.如權(quán)利要求11所述的文本數(shù)據(jù)的對齊裝置,其特征在于,所述對齊模塊將所述相似度作為一個特征加入機器學習模型中,并利用所述機器學習模型對所述第一語言文本數(shù)據(jù)和所述第二語言文本數(shù)據(jù)進行對齊。
15.如權(quán)利要求14所述的文本數(shù)據(jù)的對齊裝置,其特征在于,所述機器學習模型中進一步包括詞典特征和文本結(jié)構(gòu)特征。
16.如權(quán)利要求11所述的文本數(shù)據(jù)的對齊裝置,其特征在于,所述第一語言文本數(shù)據(jù)為第一語言文本文檔,所述第二語言文本數(shù)據(jù)為第二語言文本文檔。
17.如權(quán)利要求11所述的文本數(shù)據(jù)的對齊裝置,其特征在于,所述第一語言文本數(shù)據(jù)為第一語言文本段落,所述第二語言文本數(shù)據(jù)為第二語言文本段落。
18.如權(quán)利要求11所述的文本數(shù)據(jù)的對齊裝置,其特征在于,所述第一語言文本數(shù)據(jù)為第一語言文本句子,所述第二語言文本數(shù)據(jù)為第二語言文本句子。
19.如權(quán)利要求18所述的文本數(shù)據(jù)的對齊裝置,其特征在于,所述跨語言主題獲取模塊對所述第一語言文本句子和所述第二語言文本句子進行同義詞擴展,并對擴展后的所述第一語言文本句子和所述第二語言文本句子進行跨語言語義分析。
20.如權(quán)利要求19所述的文本數(shù)據(jù)的對齊裝置,其特征在于,所述跨語言主題獲取模塊采用語義 網(wǎng)絡(luò)、雙語詞典以及語料庫中的至少一種進行同義詞擴展。
全文摘要
本發(fā)明提供了一種文本數(shù)據(jù)的對齊方法及裝置,該方法包括獲取第一語言文本數(shù)據(jù)和第二語言文本數(shù)據(jù);對第一語言文本數(shù)據(jù)和第二語言文本數(shù)據(jù)進行跨語言語義分析,以獲取多個跨語言主題;計算第一語言文本數(shù)據(jù)屬于每一跨語言主題的概率,以形成第一特征向量,并計算第二語言文本數(shù)據(jù)屬于每一跨語言主題的概率,以形成第二特征向量;根據(jù)第一特征向量和第二特征向量計算第一語言文本數(shù)據(jù)和第二語言文本數(shù)據(jù)的相似度;根據(jù)相似度對第一語言文本數(shù)據(jù)和第二語言文本數(shù)據(jù)進行對齊。通過上述方式,本發(fā)明提供的文本數(shù)據(jù)的對齊方法及裝置基于跨語言主題進行相似度分析,進而可建立高準確度的語料庫。
文檔編號G06F17/27GK102681983SQ20111005388
公開日2012年9月19日 申請日期2011年3月7日 優(yōu)先權(quán)日2011年3月7日
發(fā)明者吳華, 沈文竹, 藍翔 申請人:北京百度網(wǎng)訊科技有限公司