国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種統(tǒng)計機器翻譯方法和系統(tǒng)的制作方法

      文檔序號:6464355閱讀:207來源:國知局
      專利名稱:一種統(tǒng)計機器翻譯方法和系統(tǒng)的制作方法
      技術(shù)領域
      本發(fā)明涉及機器翻譯技術(shù)領域,特別涉及一種基于短語的統(tǒng)計機器翻
      i奪方法和系統(tǒng)。
      背景技術(shù)
      隨著社會的不斷進步和經(jīng)濟的飛速發(fā)展,國際間的交流和合作日益密 切,對不同語種之間的翻譯提出了更高的要求。借助于計算機強大的存儲 和計算能力進行自然語言之間的翻譯(又稱機器翻譯)可以極大地降低翻 譯成本,提高工作效率。另外,蓬勃發(fā)展的互聯(lián)網(wǎng)絡以及多語種的文檔資 料等為我們提供了大量的平行語料庫,為統(tǒng)計機器翻譯奠定了深厚的基 礎。
      統(tǒng)計機器翻譯是一種基于語料庫的翻譯方法,其主要思想是對翻譯過 程構(gòu)建數(shù)學模型,并利用計算機從龐大的雙語語料庫中自動學習模型參 數(shù),最終完成翻譯。與傳統(tǒng)的基于規(guī)則的翻譯方法相比,統(tǒng)計機器翻譯無 需人類專家撰寫大量規(guī)則,其翻譯知識可以全自動的從雙語語料庫中獲 取;統(tǒng)計機器翻i奪具有語言無關(guān)性的特點, 一個統(tǒng)計才幾器翻i奪系統(tǒng)可以翻 譯多種語言對,而無需做大量的改動,而基于規(guī)則的方法需要針對特定的 語言對撰寫特定的翻譯規(guī)則。由于以上特點,統(tǒng)計機器翻譯系統(tǒng)開發(fā)周期 短,翻譯質(zhì)量好,是目前被廣泛使用的翻i奪方法。
      由于統(tǒng)計機器翻譯系統(tǒng)需要從雙語平行語料庫中學習翻譯知識,因 此,對于雙語語料庫的數(shù)量和質(zhì)量要求都比較高。理論上來說,只要有足 夠多并且足夠好的雙語語料,統(tǒng)計機器翻譯系統(tǒng)就能夠輸出高質(zhì)量的譯 文。然而,在實踐中,這樣的條件往往4艮難達到。 一方面,有些語言對本 身存在的雙語語料就比較少,例如蒙古語-漢語,這樣訓練出來的模型就面 臨很嚴重的數(shù)據(jù)稀疏問題;另一方面,在具體的應用中,對于計算資源會 有比較多的限制,例如在手機或者掌上電腦中,其內(nèi)存和硬盤空間非常有 限,限制了統(tǒng)計機器翻譯系統(tǒng)的知識庫。
      目前,在統(tǒng)計機器翻譯領域,基于短語的統(tǒng)計機器翻譯方法表現(xiàn)出了很好的性能,其中短語是指連續(xù)的詞語串。該方法的翻譯知識是從雙語平 行語料庫中自動學習的雙語短語,稱之為雙語短語表。利用雙語短語表, 翻譯系統(tǒng)能夠很好的翻譯固定搭配、習慣用語,輸出準確度和流利度都很 高的譯文。在翻譯過程中,對于一個具體的短語翻譯,普遍采用的方法是 完全匹配策略,即如果它和短語表中的某個短語完全一樣,那么就能夠找 到該短語的翻譯,否則,即便是只有一個詞語不一樣,也不能翻譯該短語。 這就是所謂的數(shù)據(jù)稀疏問題。當雙語語料庫規(guī)模受限時,數(shù)據(jù)稀疏問題尤 為嚴重。
      因此,如何有效的利用有限的雙語語料資源,減輕實際應用中的數(shù)據(jù) 稀疏問題,提高翻譯的質(zhì)量,是一個亟待解決的問題。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于克服現(xiàn)有的利用短語進行翻譯的統(tǒng)計機器翻譯系 統(tǒng)在雙語語料庫受限時面臨的數(shù)據(jù)稀疏問題,提供一種基于短語的統(tǒng)計機 器翻譯方法和系統(tǒng),從而使統(tǒng)計機器翻譯系統(tǒng)在雙語語料庫受限時能夠輸 出高質(zhì)量的譯文。
      為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,本發(fā)明提供了一種基于
      短語相似度的統(tǒng)計機器翻i,方法,包括以下步驟
      1)對源語言句進行短語劃分,根據(jù)所述劃分的短語從雙語短語表中 檢索雙語短語;
      2 )檢查所述劃分的短語與所述雙語短語匹配程度,如果完全匹配將所 述雙語短語加入候選短語表,執(zhí)行步驟4),如果部分匹配,執(zhí)行步驟3);
      3) #4居所述雙語短語的詞語對齊,刪除所述雙語短語中與所述劃分 的短語不同的詞語,"te所述劃分的短語中與所述雙語短語不同詞語的翻辯, 填入所述雙語短語的目標語言短語,生成新雙語短語,并加入所述候選短 語表;
      4) 根據(jù)所述候選短語表翻譯所述待翻譯源語言句。 根據(jù)本發(fā)明的第二方面,所述雙語短語包括源語言短語、目標語言短
      語,源語言短語和目標語言短語內(nèi)部的詞語對齊,短語翻譯分數(shù)。
      根據(jù)本發(fā)明的第三方面,所述步驟2)根據(jù)相似度檢查所述劃分的短
      語與所述又又i吾短語的匹配#呈度。
      其中,所述相似度才艮據(jù)所述劃分的短語和所述雙語短語的源語言短語中相同詞語數(shù)量占所述劃分的短語長度的比例進行計算。
      其中,優(yōu)選的,所述步驟2)的部分匹配是相似度屬于(0.3, 1)。
      根據(jù)本發(fā)明的第四方面,所述步驟3)進一步包括以下步驟 31)比較所述劃分的短語和所述雙語短語的源語言短語中的詞語,記 錄詞語不同的位置;
      32 )刪除所述雙語短語的源語言短語和目標語言短語的步驟31 )所述 位置的詞語,形成所述翻譯模板;
      33 )翻i斧與所述雙語短語的源語言短語中詞語不同的所述劃分的短語 中的詞語,并將翻譯結(jié)果填入所述翻譯模板,生成新雙語短語,將所述新 雙語短語加入所述候選短語表。
      根據(jù)本發(fā)明的第五方面,所述步驟l)進一步包括
      11) 對源語言句進行短語劃分;
      12) 根據(jù)所述雙語短語的源語言短語建立索引,索引項是源語言短語, 索引值是雙語短語在所述雙語短語表中的位置;
      13) 根據(jù)所述劃分的短語和所述索引從雙語短語表中檢索雙語短語。 根據(jù)本發(fā)明的第六方面,所述步驟1 )對源語言句進行短語劃分,列
      舉該句子所有劃分;
      所述步驟4)根據(jù)所述候選短語表翻譯所述待翻譯源語言句,根據(jù)所 述候選短語的翻譯分數(shù)選擇翻譯結(jié)果。
      根據(jù)本發(fā)明的第七方面,步驟l)的雙語短語表通過下列步驟獲得
      a) 對句子對齊的訓練語料庫進行詞語對齊,得到詞語對齊的訓練語 料庫;
      b) 從所述詞語對齊的訓練語料庫中抽取雙語短語形成所述雙語短語表。
      根據(jù)本發(fā)明的第八方面,所述步驟b)包括下列步驟 bl )從所述詞語對齊的訓練語料庫中抽取雙語短語; b2)計算所述抽取的雙語短語的翻譯分數(shù),生成所述雙語短語表。 根據(jù)本發(fā)明的第九方面,所述步驟b2)的翻譯分數(shù)包括短語翻譯概率 和詞匯化翻i奪和X率。
      根據(jù)本發(fā)明的第十方面,還提供了一種統(tǒng)計機器翻譯系統(tǒng),包括 短語劃分裝置,其用于對源語言句進行短語劃分;短語;
      確定匹配程度裝置,其用于檢查所述劃分的短語與所述雙語短語的匹
      配程度,并記錄完全匹配的雙語短語;
      部分匹配短語翻i爭裝置,其用于翻譯與所述雙語短語部分匹配的劃分
      的短語,生成新雙語短語;
      源語言句翻i奪裝置,其用于根據(jù)完全匹配的雙語短語和/或所述部分匹 配短語翻譯裝置生成的新雙語短語翻譯所述源語言句。
      根據(jù)上述裝置,所述部分匹配短語翻譯裝置進一步包含如下裝置
      比較裝置,其用于比較所述部分匹配的劃分的短語和所述雙語短語的 源語言短語中的詞語,并記錄詞語不同的位置;
      翻譯模板生成裝置,其用于刪除所述雙語短語的源語言短語和目標語
      言短語的所述比較裝置記錄位置的詞語,形成所述翻譯模板;
      新雙語短語生成裝置,其用于翻i奪與雙語短語的源語言短語中詞語不
      同的所述部分匹配的劃分的短語中的詞語,并將翻譯結(jié)果填入所述翻譯模
      板生成裝置生成的翻i奪模板,生成新雙語短語。 本發(fā)明的優(yōu)點在于
      本發(fā)明4是供的基于短語的統(tǒng)計才幾器翻"i奪方法和系統(tǒng),可以深入挖掘已 有的雙語語料資源,有效地提高短語表的利用程度,緩解數(shù)據(jù)稀疏問題;
      本發(fā)明提供的基于短語的統(tǒng)計機器翻譯方法和系統(tǒng),能夠在語料資源 受限的情況下,獲得較高的翻譯質(zhì)量;
      本發(fā)明提供的基于短語的統(tǒng)計機器翻譯方法和系統(tǒng),適用于任何使用 短語進行翻譯的統(tǒng)計機器翻譯系統(tǒng),例如基于短語的系統(tǒng)、基于句法的系 統(tǒng)等。


      下面結(jié)合附圖對本發(fā)明的具體實施方式
      作進一步詳細的說明,其中 圖1是/人雙語語料庫中獲取雙語短語表的流程圖。 圖2是短語翻譯的流程圖。 圖3是句子翻譯的流程圖。
      具體實施例方式
      基于短語的統(tǒng)計機器翻i奪方法首先需要獲得雙語短語表,然后對源語言句子進行翻譯?,F(xiàn)有技術(shù)中,翻譯源語言句子具體包括下列步驟首先,
      對待翻譯源語言句子i^(其中,/"'=1...//)表示源語言詞語)進
      行短語劃分,得到所劃分的短語序列i^ = /^ = (其中,/;"表示源
      語言短語,其含有X個源語言詞語;y^與yf類似,如公式所示該源語言 句子被劃分為K個短語),優(yōu)選地,列舉該句子中所有可能的短語劃分; 然后,根據(jù)待翻譯源語言句子從雙語短語表中一全索雙語短語,如果檢索到 完全匹配的雙語短語則將該雙語短語加入候選短語表,完成短語翻譯;最 后,如圖3所示,根據(jù)該候選短語表翻譯該待翻譯源語言句子,如果在短 語劃分時列舉了待翻譯句子中所有可能的短語劃分,則通過短語翻譯可以 為待翻譯句子找到所有可用的雙語短語,根據(jù)各個雙語短語的翻譯分數(shù)選 擇待翻譯句子的最優(yōu)翻譯結(jié)果。從此實施步驟可知,如果;f企索不到完全匹 配的雙語短語,則翻"i奪失敗。在雙語語料受限的情況下,短語完全匹配的 可能性較小,則必然造成翻譯質(zhì)量差,也即造成數(shù)據(jù)稀疏問題。本發(fā)明對 短語翻譯步驟進行研究,完成了部分匹配的短語翻譯,從而成功解決了數(shù) 據(jù)稀疏問題。
      本領域內(nèi)技術(shù)人員可以理解,現(xiàn)有技術(shù)中存在多種雙語短語表的獲得 方式,例如對句子對齊的訓練語料庫進行詞語對齊訓練然后進行短語抽 取的方式。本發(fā)明在此給出一種訓練的實施方式。如圖l的流程圖所示, 根據(jù)本實施例,訓練進一步包括以下步驟
      步驟101是對句子對齊的訓練語料庫進行詞語對齊,得到詞語對齊的 訓練語料庫。其中句子對齊的訓練語料庫是雙語的,且經(jīng)過了詞語切分, 并且對源語言句子進行了詞性標注;句子對齊是指在語料庫中,按照從前 到后的順序,相同序號的源語言的一個句子和目標語言的一個句子互為翻 譯。
      詞語對齊是一項比較成熟的技術(shù),本實施例中可采用參考文獻1 "Peter F.Brown, Stephen A.Della Pietra, Vincent J.Della Pietra,and Pobert L.Mercer. 1993 , The Mathematics of Statistical Machine Translation:Parameter Estimation, Computational Linguistics [J] , vol.19, no.2, pages263陽311" 中 的EM算法。
      步驟102是乂人詞語對齊的訓練語料庫中抽取雙語短語形成雙語短語 表。其中所述的雙語短語包括以下四部分包含J個詞的源語言短語f、 包含/個詞語的目標語言短語^ 、源語言短語和目標語言短語內(nèi)部的詞語對齊。和短語翻譯分數(shù)p,表示為(7;W,",/0。此步驟進一步包括如下步驟
      首先,從詞語對齊的語料庫中抽耳又雙語短語。例如,雙語句對"給我
      一杯茶,Give me a cup of tea"中的詞語對齊關(guān)系為"給^ Give","我 eme,,, "一ea","杯Ocup,,,"茶otea",即"i:i, 2:2, 3:3, 4:4, 5:6", 其中":,,前的數(shù)字表示漢語詞位置,":,,后的數(shù)字表示英語詞位置。則可 抽耳又短語如"纟會我HI Give me HI 1:1, 2:2","—杯茶||| a cup of tea ||| 1:1, 2:2, 3:4"等。
      然后,計算短語翻譯分數(shù)(可以采用文獻2"Philipp Koehn, Franz Joseph Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of the Human Language Technology and North American Association for Computational Linguistics Conference, pagesl27 133"中的方
      法)。它包含四部分短語翻譯概率^(一 W)和^"K),詞匯化翻譯概率
      A(e?!?")和A(《k/,a)。
      短語翻譯概率1《)表示f翻譯為e/的概率,計算如下
      彥)=《力.
      同理,可以計算"(乂 k)。其中,,A)表示短語對(,A)在語料庫
      中出現(xiàn)的次數(shù),ee/表示《對應的所有可能的目標語言短語,AA(《,ee/)與 AA"、〖)同理。
      詞匯化翻譯概率計算如下
      ,=,l{j|(W)ea}|v(f^ea
      同理,可以計算A"K")。其中,P(e'i,)表示源語言詞語,01…^7)
      翻譯為目標語言詞語e,,"l…/的概率,"表示(7/,<)中的詞語對齊關(guān)系。
      作為一個具體實施例,圖2示出了根據(jù)上述獲得的雙語短語表進行短
      語翻^i奪的方法,包括下列步驟
      如圖中步驟201所示,根據(jù)待翻譯源語言句子從雙語短語表中檢索雙語短語。為了加快檢索速度,優(yōu)選的,可以對雙語短語表建立索引,索引 項是雙語短語的源語言短語《,索引值是檢索到的雙語短語(,W,",p)在 雙語短語表中的位置。為了加快檢索速度,規(guī)定所劃分的短語/'Z和,必需含有相同的詞語 個數(shù),并且具有相同的詞性序列,即兩個短語中相同位置上的詞語詞性必 須相同。如圖中步驟202所示,檢查短語匹配的程度,本發(fā)明使用短語相似度來衡量待翻譯源語言短語與雙語短語中的源語言短語的匹配程度。短語相似度可以由戴斯系數(shù)(DiceCoefficient)法、余弦函數(shù)法等計算得到。在本實 施例中,對戴斯系數(shù)法進行了改進。具體說明如下對于任意兩個源語言短語#=乂,/2一厶,/V = ,1,,2 — /:,相似度計算如下<formula>formula see original document page 11</formula>其中,<formula>formula see original document page 11</formula>,否則如果步驟202判斷匹配為完全匹配,也即相似度為1.0,則將檢索到 的雙語短語直接加入候選短語表中,其中候選短語表是指待翻譯源語言句 子所有可用的雙語短語的集合。如果是部分匹配,也即相似度大于0小于 1.0,則執(zhí)行步驟203,優(yōu)選的,選擇相似度大于閾值a的所有雙語短語, 其中閾值a最優(yōu)取值范圍是(0.3, 0.5)。步驟203執(zhí)行短語翻譯。當為一個待翻譯源語言短語/'/檢索到部分匹配的雙語短語(《,e厶",^后,可以為其構(gòu)造新的短語對(,'i",e'/',",力。這一過程稱為短語翻譯,通過以下步驟可以完成比較《和/'/每個位置上的詞語,得到二者詞語不同的位置的集合 <formula>formula see original document page 11</formula>從源短語//中刪除,,并根據(jù)詞語對齊a ,從目標短語e/中刪除力對應的詞語、.,其中yei^Se,;此時,得到一個翻i,才莫^反;
      從雙語短語表中找到詞語/;' ( yePoW")的翻譯結(jié)果e',并根據(jù)詞語 對齊a將其放到翻譯模板中對應的目標語言位置 。
      例如,對于源語言短語/'^ "于昨晚抵達泰國", 一全索到的部分匹 配的短語對是(/4,£14,0,/ )="于日乍天抵達布4立才各HI arrived in Prague yesterday HI 1:2 2:4 3:1 4:3 ||| 0.1 0.2 0.3 0.4"。
      比較源語言短語每個位置上的詞語,第2個位置的詞語"昨晚"和"昨 天"以及第4個位置的詞語"泰國,,和"布拉格,,不同,則^^" = {2,4};
      從(中刪除第2個詞語"昨天"和第4個詞語"布拉格",并根據(jù)詞 語對齊"="1:2 2:4 3:1 4:3",從e/中刪掉第4個詞語"yesterday"和 第3個詞語"Prague",得到翻譯模板"于XI抵達X2, arrived in X2 XI", 其中,X1和X2是變量,在下一步驟中可以被替換為詞語。
      從雙語短語表中查找詞語"昨晚"和"泰國"的翻i奪,分別是"last evening"和"Thailand",根據(jù)詞語對齊,分別填入翻譯模板目標語言的第 4個位置和第3個位置,則短語翻譯的結(jié)果是"于昨晚抵達泰國川 arrived in Thailand last evening"。
      計算短語的4個翻i奪分^:。在本實施例中,新構(gòu)造短語的短語翻i奪概 率等于它所對應的部分匹配短語的短語翻i奪概率,即新構(gòu)造短語的詞匯化翻i奪概率計算如下
      &(《I /' =-n("肖");-
      (y>)es{(/,e)}
      其中,/和/'表示源語言詞語,e和e'表示目標語言詞語,"(/',0}替
      換的詞對集合是,^/,魂是被替換掉的詞對集合。
      例如,在上例中
      ;y i w0'/ I /'/,")x; w(last eveningl昨晚)x j^(Thailandl泰國) 義, &(yesterdayl昨天)x凡(Prague|布拉格) 。
      對于本領域普通技術(shù)人員來說,本發(fā)明可以采用統(tǒng)計機器翻譯系統(tǒng)來 實現(xiàn),該系統(tǒng)包含如下幾個部分短語劃分裝置,其用于對源語言句進行短語劃分。短語檢索裝置,其用于根據(jù)劃分的短語從雙語短語表中檢索雙語短語。確定匹配程度裝置,其用于檢查劃分的短語與雙語短語的匹配程度, 并記錄完全匹配的雙語短語。部分匹配短語翻譯裝置,其用于翻譯與雙語短語部分匹配的所述劃分 的短語,生成新雙語短語。進一步包含如下裝置比較裝置,其用于比較部分匹配的劃分的短語和雙語短語的源語言短語中的詞語,并記錄詞語不同的位置;翻譯模板生成裝置,其用于刪除雙語短語的源語言短語和目標語言短語的比較裝置所記錄位置的詞語,形成所述翻譯模板;新雙語短語生成裝置,其用于翻譯與雙語短語的源語言短語中詞語不 同的所述部分匹配的劃分的短語中的詞語,并將翻譯結(jié)果填入所述翻譯模 板生成裝置生成的翻^^莫^1,生成新雙語短語。源語言句翻譯裝置,其用于根據(jù)完全匹配的雙語短語或部分匹配短語 翻i奪裝置生成的新雙語短語翻i,待翻譯源語言句。對于本領域普通技術(shù)人員來說,上述的每個功能都可以采用硬件、軟 件或硬件和軟件的適當組合的方式實現(xiàn)。應說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡 管參照實施例對本發(fā)明進行了詳細說明,本領域的普通技術(shù)人員應當理 解,對本發(fā)明的技術(shù)方案進行修改或者等同替換,都不脫離本發(fā)明技術(shù)方 案的精神和范圍,其均應涵蓋在本發(fā)明的權(quán)利要求范圍當中。
      權(quán)利要求
      1.一種基于短語的統(tǒng)計機器翻譯方法,包括下列步驟1)對源語言句進行短語劃分,根據(jù)所述劃分的短語從雙語短語表中檢索雙語短語;2)檢查所述劃分的短語與所述雙語短語匹配程度,如果完全匹配將所述雙語短語加入候選短語表,執(zhí)行步驟4),如果部分匹配,執(zhí)行步驟3);3)根據(jù)所述雙語短語的詞語對齊,刪除所述雙語短語中與所述劃分的短語不同的詞語,把所述劃分的短語中與所述雙語短語不同詞語的翻譯填入所述雙語短語的目標語言短語,生成新雙語短語,并加入所述候選短語表;4)根據(jù)所述候選短語表翻譯所述待翻譯源語言句。
      2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述雙語短語包括源語 言短—語、目標i吾言4豆i吾,源i吾言《豆i吾和目標i吾言少豆i吾內(nèi)部的詞i吾對齊,承豆 語翻譯分數(shù)。
      3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟2)根據(jù)相似 度檢查所述劃分的短語與所述雙語短語的匹配程度。
      4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述相似度根據(jù)所述劃 分的短語和所述雙語短語的源語言短語中相同詞語數(shù)量占所述劃分的短 語長度的比例進行計算。
      5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟2)的部分匹 配是相似度屬于(0.3, 1 )。
      6. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟3)進一步包 括以下步驟31)比較所述劃分的短語和所述雙語短語的源語言短語中的詞語,記 錄詞語不同的位置;32 )刪除所述雙語短語的源語言短語和目標語言短語的步驟31 )所述 位置的詞語,形成所述翻譯模板;33 )翻i奪與所述雙語短語的源語言短語中詞語不同的所述劃分的短語 中的詞語,并將翻譯結(jié)果填入所述翻譯模板,生成新雙語短語,將所述新 雙語短語加入所述候選短語表。
      7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟l)包括(11) 對源語言句進ff短語劃分;(12) 根據(jù)所述雙語短語的源語言短語建立索引,索引項是源語言短語, 索引值是雙語短語在所述雙語短語表中的位置;(13) 根據(jù)所述劃分的短語和所述索引從雙語短語表中檢索雙語短語。
      8. 根據(jù)權(quán)利要求2至7中任一項所述的方法,其特征在于, 所述步驟1 )對源語言句進行短語劃分,列舉該句子所有劃分; 所述步驟4)根據(jù)所述候選短語表翻譯所述待翻譯源語言句,根據(jù)所述候選短語的翻譯分數(shù)選擇翻譯結(jié)果。
      9. 根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟l)的雙語短語表 通過下列步驟獲得a) 對句子對齊的訓練語料庫進行詞語對齊,得到詞語對齊的訓練語 料庫;b) 從所述詞語對齊的訓練語料庫中抽耳又雙語短語形成所述雙語短語表。
      10. 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述步驟b)包括下 列步驟bl )從所述詞語對齊的訓練語料庫中抽耳又雙語短語;b2)計算所述抽取的雙語短語的翻i奪分凄t,生成所述雙語短語表。
      11. 根據(jù)權(quán)利要求10所述的方法,其特征在于,所述步驟b2)的翻 譯分數(shù)包括短語翻譯概率和詞匯化翻譯概率。
      12. —種統(tǒng)計才幾器翻"^奪系統(tǒng),包括 短語劃分裝置,其用于對源語言句進行短語劃分;短語;確定匹配程度裝置,其用于檢查所述劃分的短語與所述雙語短語的匹 配程度,并記錄完全匹配的雙語短語;部分匹配短語翻"^裝置,其用于翻譯與所述雙語短語部分匹配的劃分 的短語,生成新雙語短語;源語言句翻i奪裝置,其用于根據(jù)完全匹配的雙語短語和/或所述部分匹 配短語翻i奪裝置生成的新雙語短語翻i奪所述源語言句。
      13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于所述部分匹配短語翻譯 裝置進一步包含如下裝置比較裝置,其用于比較所述部分匹配的劃分的短語和所述雙語短語的 源語言短語中的詞語,并記錄詞語不同的位置;翻:^奪模板生成裝置,其用于刪除所述雙語短語的源語言短語和目標語言短語的所述比較裝置記錄位置的詞語,形成所述翻譯模板;新雙語短語生成裝置,其用于翻譯與雙語短語的源語言短語中詞語不 同的所述部分匹配的劃分的短語中的詞語,并將翻譯結(jié)果填入所述翻譯模 板生成裝置生成的翻譯模板,生成新雙語短語。
      全文摘要
      本發(fā)明公開了一種統(tǒng)計機器翻譯方法和系統(tǒng),其中該方法包括下列步驟1)對源語言句進行短語劃分,根據(jù)劃分的短語從雙語短語表中檢索雙語短語;2)檢查劃分的短語與雙語短語匹配程度,如果完全匹配將雙語短語加入候選短語表,執(zhí)行步驟4),如果部分匹配,執(zhí)行步驟3);3)根據(jù)劃分的短語和雙語短語構(gòu)造翻譯模板,把劃分的短語與雙語短語不同的詞語翻譯填入翻譯模板,生成新雙語短語,并加入所述候選短語表;4)根據(jù)候選短語表翻譯所述待翻譯源語言句。本發(fā)明能夠在雙語語料受限的情況下有效的提高翻譯質(zhì)量,解決了統(tǒng)計機器翻譯系統(tǒng)面臨的數(shù)據(jù)稀疏問題。
      文檔編號G06F17/28GK101290616SQ20081011473
      公開日2008年10月22日 申請日期2008年6月11日 優(yōu)先權(quán)日2008年6月11日
      發(fā)明者何中軍, 群 劉, 林守勛 申請人:中國科學院計算技術(shù)研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1