漢印雙語平行語料自動采集的系統(tǒng)及實現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機應用技術(shù)領(lǐng)域,尤其是涉及一種漢印雙語平行語料自動采集的系統(tǒng)及實現(xiàn)方法。
【背景技術(shù)】
[0002]“平行語料”〈Parallel Tferte)是指使用不同語言撰寫、相互間具有“翻譯關(guān)系”的文本。在計算語言學界,它有別于“對比語料” {Comparable Tferte),后者也使用不同的語言撰寫、并且針對同一主題,但相互之間卻不存在直接的“翻譯關(guān)系”。
[0003]人類歷史上曾有過各式各樣的平行語料。埃及出土的羅塞塔石碑,其碑文用兩種語言、三種文字刻成,是頗具盛名的古代的平行語料。通過比較石碑上的文字,法國古代語學者商博良解讀了古埃及的象形文字。此外,用不同語言對照書寫的契約協(xié)議、宗教經(jīng)典、文學作品也在不同的時期和不同的領(lǐng)域影響著人們的生活。20世紀50年代末,平行語料開始出現(xiàn)在機器翻譯研究中。由于當時計算機的存儲空間和計算能力有限,而大量文本數(shù)據(jù)的輸入又相當困難,平行語料庫的作用并沒有得到太多的關(guān)注。70年代末期,翻譯資源的收集工作在Xerox PARC、Brigham Young等研究中心廣泛地開展起來。1987年,MartinKay和Martin Roscheisen提出了最早的平行語料自動對齊算法。之后各種對齊方法層出不窮,對齊后的平行語料也被系統(tǒng)地應用到自然語言處理中,包括建立翻譯記憶、編纂詞典和雙語術(shù)語表、跨語言信息檢索、計算機輔助教學、語言對比研究等。
[0004]語料庫的建設(shè)是統(tǒng)計學習方法的重要基礎(chǔ),近年來,語料庫資源對于自然語言處理研究的巨大價值已經(jīng)得到越來越多的認可。特別是雙語語料庫(Bilingual Corpus),已經(jīng)成為機器翻譯、機器輔助翻譯以及翻譯知識獲取研究不可或缺的重要資源。一方面,雙語語料庫的出現(xiàn)直接推動了機器翻譯新技術(shù)的發(fā)展,像平行語料庫為統(tǒng)計機器翻譯的模型構(gòu)建提供了必不可少的訓練數(shù)據(jù)(e.g.,Brown et al.1990; Melamed 2000; Och and Ney2002),基于統(tǒng)計(Statistic-Based)和基于實例(Example-Based)等基于語料庫的翻譯方法為機器翻譯研究提供了新的思路,有效改善了翻譯質(zhì)量,在機器翻譯研究領(lǐng)域掀起了新的高潮。另一方面,雙語語料庫又是獲取翻譯知識的重要來源,從中可以挖掘?qū)W習各種細粒度的翻譯知識,如翻譯詞典(e.g.,Gale and Church 1991; Melamed 1997)和翻譯模板,從而改進傳統(tǒng)的機器翻譯技術(shù)。此外,雙語語料庫也是跨語言信息檢索(e.g.,Davis andDunning 1995; Jian-Yun Nie, TREC8;),翻譯詞典編撰、雙語術(shù)語自動提取以及多語言對比研究等的重要基礎(chǔ)資源。雙語平行語料庫建設(shè)與獲取存在著很大的困難,各國都投入了大量的人力、物力和財力,但是雙語平行語料庫的來源主要集中在政府報告、新聞法律等特定領(lǐng)域,不適合真實文本應用。同時,互聯(lián)網(wǎng)上的大規(guī)模雙語文本并且具有很好的時效性和覆蓋性,這為雙語平行語料庫的獲取提供了潛在的解決途徑。
加拿大蒙特利爾大學的研究者聶建云開發(fā)的系統(tǒng)PT Miner (Parallel Text Miner,1999):通過搜索引擎查找含有特定錨文本的網(wǎng)站構(gòu)成雙語候選網(wǎng)站,再依賴預先定義的語言的前后綴表,抽取出具有URL命名相似性的候選網(wǎng)頁即如果某一 URL含有一種語言的前后綴,則將這些前后綴替換為另一種語言的,構(gòu)建出一個URL,如果這樣構(gòu)建出來的URL存在。則找到了一對候選網(wǎng)頁對,最后再根據(jù)文本長度,網(wǎng)頁的HTML標記結(jié)構(gòu),網(wǎng)頁的語言等特征過濾掉候選網(wǎng)頁中不平行的網(wǎng)頁對。PT Miner系統(tǒng)在中英平行網(wǎng)頁文本挑出幾百對的中英平行網(wǎng)頁對,經(jīng)過人工的評價,有將近90%的準確率。獲取到的英文文本有137M,中文文本有117M。
美國馬里蘭大學的研究者Resnik開發(fā)的系統(tǒng)STRAND (Structural Translat1nRecognit1n, Acquiring Natural Data,2003)也是利用搜索引擎和定義的挑選候選網(wǎng)站的規(guī)則來得到雙語候選網(wǎng)站。同PT Miner相比,STRAND再利用URL命名相似性來查找一個網(wǎng)站內(nèi)的候選網(wǎng)頁對時,采取在中、英URL中刪去預先定義與語言相關(guān)的字符串的方式,如果去除語言相關(guān)的字串后,中、英URL相等,則說明當前的中英URL是一對候選雙語平行網(wǎng)頁。此外,STRAND更加細致深入的研究了平行網(wǎng)頁在結(jié)構(gòu)上具有的相似性,采用了更多的基于網(wǎng)頁結(jié)構(gòu)的特征來過濾掉候選平行網(wǎng)頁中不是互為翻譯的網(wǎng)頁對。人工評估了大約400對的中英平行網(wǎng)頁對,取得了 98%的準確率和61%的召回率。STRAND系統(tǒng)獲取到大約3,500 對中英平行網(wǎng)頁對。BITS (Bilingual Internet Text Search, Ma and Liberman1999),下載指定域名下的所有網(wǎng)站作為候選網(wǎng)站,定義了一種計算中英網(wǎng)頁內(nèi)容之間相似度的計算方式即互翻譯詞占文本總詞數(shù)的比例,來進行中英平行網(wǎng)頁對的確定。澳大利亞莫納什大學陳紀?松等人開發(fā)的 PTI (The Parallel Text Identificat1n System, 2004)通過網(wǎng)頁采集器下載了大量的雙語網(wǎng)頁之后,首先通過了文件名比較模型即根據(jù)URL命名的相似性來得到雙語平行網(wǎng)頁對,原理同PT Miner,在這一過程沒有相應對齊鏈接的網(wǎng)頁再通過一個文件內(nèi)容分析模型,定義了計算網(wǎng)頁文本內(nèi)容之間的相似度計算方式,從而得到雙語平行的網(wǎng)頁對。PTI系統(tǒng)總共獲取到193對的中英平行文本,其中180對是正確的,正確率為93%,召回率為96%。
亞洲微軟研究院的吳克等人開發(fā)的WPDE (Web Parallel Data Extract1n,2006)在利用搜索引擎獲取候選網(wǎng)站時,不僅利用了錨文本還采用了圖片的ALT信息。在根據(jù)URL命名相似性獲取候選雙語平行網(wǎng)頁對時,采用將URL分成pathname和basename,pathname的配對查找上也利用預先定義的啟發(fā)式字符串,在具體的查找時定義了一些匹配規(guī)則;basename的查找配對不用于前面系統(tǒng)采用的基于預先定義的字符串形式,而是基于改進的最小編輯距離算法,這樣的方式經(jīng)過試驗證明取得了更好的效果。候選雙語平行網(wǎng)頁對的過濾時除采用了文本長度,網(wǎng)頁html結(jié)構(gòu)等特征,還引入了一個基于網(wǎng)頁內(nèi)容的特征即候選雙語平行網(wǎng)頁文本句子對齊的好壞。在同PTI同樣的測試集合上,WPDE系統(tǒng)取得了 97%的正確率與94%的召回率。
[0005]隨著網(wǎng)絡(luò)信息時代的高速發(fā)展,網(wǎng)絡(luò)資源正以爆炸式的方式不斷增長?;ヂ?lián)網(wǎng)是現(xiàn)代信息的重要來源,人們可以通過互聯(lián)網(wǎng)得到大量的信息資源,但互聯(lián)網(wǎng)中混雜著大量各式各樣的數(shù)據(jù),如何從互聯(lián)網(wǎng)中的海量信息中提取有價值的雙語數(shù)據(jù),是目前數(shù)據(jù)采集人員和相關(guān)企業(yè)所面臨的重要問題。研究基于Web的大規(guī)模雙語平行語料庫獲取技術(shù)對于解決雙語語料庫獲取難題,推動相關(guān)技術(shù)發(fā)展和實用化具有重要的意義。目前,針對漢印雙語平行語料的語料采集工具和方法還非常欠缺,能進行自動采集的就更寥寥無幾。所以現(xiàn)急需一種能自動采集漢印雙語平行語料的方法來解放語料采集人員繁瑣的采集工作和為企業(yè)提供有價值的語料資源。
【發(fā)明內(nèi)容】
[0006]針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種漢印雙語平行語料自動采集的系統(tǒng)及實現(xiàn)方法,建立了一個基于Web的雙語語料自動獲取系統(tǒng),從互聯(lián)網(wǎng)中自動采集網(wǎng)絡(luò)漢印雙語平行語料,能夠自動獲取文本級漢印雙語平行語料庫和句子級的漢印雙語平行語料庫,實現(xiàn)了漢印雙語平行信息自動發(fā)現(xiàn)、自動提取、自動整理的雙語平行語料采集系統(tǒng)。
[0007]本發(fā)明是采用以下技術(shù)方案實現(xiàn)的:
一種漢印雙語平行語料自動采集的系統(tǒng),包括漢印雙語平行信息的自動發(fā)現(xiàn)模塊、自動提取模塊、自動整理模塊,其中:
(1)自動發(fā)現(xiàn)模塊:實現(xiàn)漢印雙語平行語料自動發(fā)現(xiàn)的功能,制定需要采集語料的關(guān)鍵詞組,通過搜索引擎搜索網(wǎng)站,采集網(wǎng)頁得到搜索結(jié)果,對搜索結(jié)果的信息進行過濾和篩選后,將經(jīng)過濾得搜索結(jié)果存儲于搜索結(jié)果數(shù)據(jù)庫;
(2)自動提取模塊:實現(xiàn)漢印雙語平行語料自動提取的功能,通過訪問搜索結(jié)果數(shù)據(jù)庫里的網(wǎng)頁,自動提取漢印雙語平行信息;
(3)自動整理模塊:針對自動提取的漢印雙語平