專利名稱:一種基于依存句法樹的翻譯規(guī)則抽取方法和翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,尤其涉及一種基于依存句法樹的統(tǒng)計機器翻譯方法。
背景技術(shù):
依存文法是自然語言處理中最為流行的文法之一。與短語結(jié)構(gòu)文法相比,依存文法兼具語法和語義信息,具有以下特點依存結(jié)構(gòu)具有最好的短語結(jié)合性質(zhì)(phrasalcohesion properties);依存邊給出了語義信息。因此,依存文法是機器翻譯領(lǐng)域中非常具有吸引力的資源。但是現(xiàn)有的依存句法樹到串模型(參考文獻I =Deyi Xiong, Qun Liu, andShouxun Lin. ADependency Treelet String Correspondence Model for StatisticalMachine Translation. In Proceedings of Second Workshop on Statistical Machine Translation. 2007.)以源語言依存句法樹中的任意連通子圖作為翻譯規(guī)則的基本結(jié)構(gòu),這種翻譯規(guī)則沒有明確的語言學(xué)意義,更重要的是這種翻譯規(guī)則不能表達全部的調(diào)序關(guān)系,需要借助啟發(fā)式或調(diào)序模型來約束翻譯得到的串的詞序以完成整個翻譯過程。此外,即使引入啟發(fā)式或調(diào)序模型來約束翻譯結(jié)果的詞序,現(xiàn)有依存句法樹到串模型的性能依然落后于主流的成分樹到串模型(參考文獻2 :Yang Liu, Qun Liu, and Shouxun Lin. 2006.Tree-to-String Alignment Template for Statistical Machine Translation. InProceedings of C0LING/ACL 2006,pages 609-616, Sydney, Australia, July. )
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種基于依存句法樹的翻譯方法,通過將調(diào)序關(guān)系直接表示于翻譯規(guī)則中來提高翻譯的性能。本發(fā)明的目的是通過下述技術(shù)方案實現(xiàn)的一方面,本發(fā)明提供了一種基于依存句法樹的翻譯規(guī)則抽取方法,包括以下步驟步驟I)對于三元組(源語言依存句法樹、目標(biāo)語言串、源語言與目標(biāo)語言間的詞語對齊關(guān)系),利用所述對齊關(guān)系對源語言依存句法樹的每個節(jié)點η標(biāo)記中心詞跨度和依存跨度,所述中心詞跨度是與η對齊的所有目標(biāo)詞的位置的集合;所述依存跨度指以η為根的子樹中,所有對齊一致節(jié)點的中心詞跨度的并集的閉包,所述對齊一致節(jié)點是指該節(jié)點的中心詞跨度與依存句法樹中其他節(jié)點的中心詞跨度的交集為空;步驟2)對源語言依存樹中對齊一致的節(jié)點,生成中心詞規(guī)則;步驟3)對所標(biāo)記的源語言依存句法樹中的中心詞-修飾詞片段生成中心詞-修飾詞規(guī)則;其中所述中心詞-修飾詞片段為以中心(head)詞為根節(jié)點,以修飾(dependent)詞為孩子節(jié)點的依存句法樹片段,所述中心詞-修飾詞規(guī)則的源語言端為中心詞-修飾詞(head-dependent)片段對應(yīng)句子模式或短語模式的實例,其目標(biāo)語言端為串,所述中心詞-修飾詞規(guī)則源語言端和目標(biāo)語言端的變量的對應(yīng)關(guān)系代表了源語言端和目標(biāo)語言端之間的調(diào)序關(guān)系,所述變量包括詞匯化約束變量和詞性約束變量,對應(yīng)詞匯化約束變量的節(jié)點可由以該節(jié)點為根的子樹替換,對應(yīng)詞性約束變量的節(jié)點可由與該節(jié)點詞性相同的詞替換。根據(jù)本發(fā)明實施例的翻譯規(guī)則抽取方法,其中步驟3)對所標(biāo)記的源語言依存句法樹中滿足如下條件的中心詞-修飾詞片段生成中心詞-修飾詞規(guī)則,所述條件包括(i)中心詞節(jié)點的中心詞跨度對齊一致,(ii)所有修飾詞的依存跨度不為空,(iii)中心詞節(jié)點的中心詞跨度與所有修飾詞的依存跨度不相交;根據(jù)本發(fā)明實施例的翻譯規(guī)則抽取方法,步驟3)包括以下步驟
(3-1)將中心詞-修飾詞片段中對應(yīng)于依存句法樹中內(nèi)部節(jié)點的節(jié)點標(biāo)記為詞匯化約束的變量,得到詞匯化中心詞-修飾詞片段規(guī)則的源語言端;(3-2)按照中心詞節(jié)點的中心詞跨度及修飾詞的依存跨度排列中心詞-修飾詞片段中的所有節(jié)點,對于其中的每個節(jié)點,a)如果該節(jié)點是詞匯化的,且該節(jié)點為中心詞節(jié)點或者對應(yīng)于依存句法樹的葉子節(jié)點,則用該節(jié)點中心詞跨度對應(yīng)的目標(biāo)語言串替換該節(jié)點;b)如果該節(jié)點為依存句法樹的內(nèi)部節(jié)點,則用該節(jié)點對應(yīng)的變量替換該節(jié)點;從而得到詞匯化中心詞-修飾詞片段規(guī)則的目標(biāo)語言端。根據(jù)本發(fā)明實施例的翻譯規(guī)則抽取方法,步驟3)還包括以下步驟(3-3)改變詞匯化中心詞-修飾詞規(guī)則的源語言端的一個或多個節(jié)點為非詞匯化約束變量,得到非詞匯化中心詞-修飾詞規(guī)則的源語言端;(3-4)如果被改變的節(jié)點對應(yīng)于依存句法樹的內(nèi)部節(jié)點,則目標(biāo)語言端不變;否貝U,將該節(jié)點對應(yīng)的目標(biāo)語言端端變?yōu)橐粋€新的變量,得到非詞匯化中心詞-修飾詞片段規(guī)則的目標(biāo)語言端。又一方面,本發(fā)明還提供了一種基于依存句法樹的翻譯方法,包括以下步驟步驟5-1)通過分析源語言串得到源語言串的依存句法樹;步驟5-2)遍歷源語言串的依存句法樹,通過枚舉中心詞-修飾詞片段所對應(yīng)修飾關(guān)系的所有實例的來對翻譯規(guī)則集合和依存句法樹進行匹配,直到訪問源語言串的依存句法樹的所有節(jié)點為止;其中,所述的翻譯規(guī)則集合包括中心詞-修飾詞規(guī)則,所述中心詞-修飾詞規(guī)則的源語言端為中心詞-修飾詞片段對應(yīng)句子模式或短語模式的實例,目標(biāo)語言端為串,所述中心詞-修飾詞片段為以中心詞為根節(jié)點,以修飾詞為孩子節(jié)點的依存句法樹片段,所述中心詞-修飾詞規(guī)則源語言端和目標(biāo)語言端的變量的對應(yīng)關(guān)系代表了源語言端和目標(biāo)語言端之間的調(diào)序關(guān)系,所述變量包括詞匯化約束變量和詞性約束變量,對應(yīng)詞匯化約束變量的節(jié)點可由以該節(jié)點為根的子樹替換,對應(yīng)詞性約束變量的節(jié)點可由與該節(jié)點詞性相同的詞替換。根據(jù)本發(fā)明實施例的翻譯方法,所述步驟5-1)中通過依存句法分析器對源語言串進行分析獲得源語言串的依存句法樹。根據(jù)本發(fā)明實施例的翻譯方法,所述步驟5-1)中通過成分樹句法分析器分析源語言串得到成分句法樹并將其映射為源語言串依存句法樹。根據(jù)本發(fā)明實施例的翻譯方法,所述步驟5-2)中所述的翻譯規(guī)則是根據(jù)上面的實施例的翻譯規(guī)則抽取方法得到的規(guī)則。根據(jù)本發(fā)明實施例的翻譯方法,所述步驟5-2)包括以下步驟后序遍歷源語言依存句法樹,對于訪問到的每個源語言串依存句法樹的節(jié)點,步驟5-2-1)若該節(jié)點為葉子節(jié)點,則在翻譯規(guī)則集合中查找以該節(jié)點為源端的翻譯規(guī)則,使用找到的翻譯規(guī)則翻譯該節(jié)點,如果翻譯規(guī)則中沒有匹配的規(guī)則,則保持該節(jié)點不變;步驟5-2-2)如果該節(jié)點為內(nèi)部節(jié)點,則枚舉以該節(jié)點為中心詞的中心詞-修飾詞 片段所對應(yīng)修飾關(guān)系的所有詞匯化與非詞匯化實例,在翻譯規(guī)則集合查找匹配的規(guī)則,使用找到的翻譯規(guī)則進行翻譯;步驟5-2-3)如果在步驟5-2-2)中沒有找到匹配的翻譯規(guī)則,則根據(jù)中心詞-修飾詞片段的詞序進行順序翻譯;重復(fù)步驟5-2-1)、5-2_2)和5_2_3)直到訪問了源語言串依存句法樹的所有節(jié)點為止。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于直接將翻譯調(diào)序信息表示于源端為中心(head)節(jié)點及其所有修飾(cbpendent)節(jié)點組成的樹片段、目標(biāo)端為串的翻譯規(guī)則中,更好的利用了依存句法樹包含的語法和語義知識,從而使翻譯規(guī)則可以明確地指導(dǎo)翻譯過程。在154萬平行雙語語料數(shù)據(jù)集上,本發(fā)明實施例中的依存句法樹到串翻譯模型的性能較成分樹到串模型提高I. 68個BLEU點。
以下參照附圖對本發(fā)明實施例作進一步說明,其中圖I為依存句法樹的一個不例;圖2 (a)、圖2 (b)和圖2 (C)為圖I所示的依存句法樹所包含的三個中心詞-修飾詞片段的示意圖;圖3 (a)為根據(jù)本發(fā)明實施例的兼具翻譯和調(diào)序兩種功能的中心詞-修飾詞規(guī)則的不意圖;圖3 (b)為根據(jù)本發(fā)明實施例的中心詞規(guī)則的示意圖;圖4為根據(jù)本發(fā)明實施例的為每個節(jié)點標(biāo)記了中心詞跨度和依存跨度的依存句法樹的示意圖;圖5為根據(jù)本發(fā)明實施例的詞匯化中心詞-修飾詞規(guī)則生成過程的示意圖;圖6為根據(jù)本發(fā)明實施例的具有一個非詞匯化節(jié)點的非詞匯化中心詞-修飾詞規(guī)則生成過程的示意圖;圖7為根據(jù)本發(fā)明實施例提供的基于依存句法樹的翻譯方法的流程示意圖;圖8為根據(jù)本發(fā)明實施例提供的翻譯方法中規(guī)則匹配的示意圖。
具體實施例方式為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖通過具體實施例對本發(fā)明進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。在本發(fā)明的一個實施例中,提供了一種基于依存句法樹的翻譯規(guī)則抽取方法。該方法從包含三元組的語料庫中抽取翻譯規(guī)則,所述三元組為源語言依存句法樹、目標(biāo)語言串以及源語言與目標(biāo)語言間的詞語對齊關(guān)系,即(源語言依存句法樹,目標(biāo)語言串,對齊)。在本實施例中,源語言和目標(biāo)語言間的對齊關(guān)系通過對齊工具GIZA++ (參考文獻3 =FranzJosef Och, Hermann Ney. Systematic Comparison of Various Statistical AlignmentModels'Computational Linguistics, volume 29, number I, pp. 19-51 March2003.)自動獲得。本領(lǐng)域普通技術(shù)人員應(yīng)理解在其他實施例中可以采用現(xiàn)有的其他對齊工具來獲得源語言和目標(biāo)語言間的詞語對齊關(guān)系。下面以圖I為例來具 體說明本實施例的基于依存句法樹抽取翻譯規(guī)則的方法。圖I給出了一個中文句子“2010年FIFA世界杯在南非成功舉行”的依存句法樹(也可簡稱為依存樹)。為了便于下文中對抽取翻譯規(guī)則方法的說明,對圖I所示的依存句法樹的每個節(jié)點標(biāo)記了對應(yīng)詞的詞性。所述詞性標(biāo)記為美國賓州大學(xué)中文語言處理計劃定義的標(biāo)記(參考文獻 4 :Xia, Fei. 2000. The Part-of-Speech Tagging Guidelines forthe Penn ChineseTreebank(3. 0). http://www. cis. upenn. edu/ chinese/posguide. 3rd.ch. pdf.)。例如,節(jié)點“舉行/VV”指“舉行”的詞性為動詞,“成功/AD”指“成功”的詞性為副詞,“2010年/NT”指“2010年”的詞性為表示時間的名詞,“世界杯/NR”指“世界杯”為專有名詞等。在本實施例中要抽取的翻譯規(guī)則包括中心詞-修飾詞規(guī)則和中心詞規(guī)則兩種類型的規(guī)則。其中,中心詞規(guī)則的源語言端為中心詞,目標(biāo)語言端為串,用于翻譯詞語。中心詞-修飾詞規(guī)則的源語言端為中心詞-修飾詞片段對應(yīng)句子模式或短語模式的實例,目標(biāo)語言端為串,其給出了源語言端和目標(biāo)語言之間的調(diào)序關(guān)系,同時兼有翻譯和調(diào)序的功能。所述中心詞-修飾詞片段為中心詞節(jié)點與其孩子節(jié)點組成的依存句法樹片段(如圖2所示)。圖2給出了圖I所示的依存句法樹中包含的三個中心詞-修飾詞片段。其中,圖2 (a)是以“舉行”為中心詞,“世界杯”、“在”和“成功”為修飾詞組成的中心詞-修飾詞片段,其中指明節(jié)點為依存句法樹的內(nèi)部節(jié)點。該中心詞-修飾詞片段對應(yīng)一個句子模式,由依存邊及各節(jié)點的詞性確定。例如,該中心詞-修飾詞片段對應(yīng)由一個“專有名詞短語”、一個“介詞短語”、一個“副詞”及一個“動詞”組成的句子模式,說明如下修飾關(guān)系動詞被一個名詞短語(做為主語),一個介詞短語和一個副詞修飾;圖2 (b)是以“世界杯”為中心詞,“2010年”和“FIFA”為修飾詞組成的中心詞-修飾詞片段。該中心詞-修飾詞對應(yīng)一個短語模式。即由兩個“專有名詞”和一個“表示時間的名詞”組成的名詞短語模式,說明如下修飾關(guān)系一個“專有名詞”可以被一個“表示時間的名詞”和另一個“專有名詞”修飾組成名詞短語。圖2 (c)是以“在”為中心詞,“南非”為修飾詞組成的中心詞-修飾詞片段。該中心詞-修飾詞對應(yīng)一個短語模式。即由一個“介詞”和一個“專有名詞”組成的介詞短語模式,說明如下修飾關(guān)系一個“介詞”可以被一個“專有名詞”修飾組成介詞短語。圖3 (a)為中心詞-修飾詞規(guī)則的示例。圖3 (a)所示規(guī)則的源語言端(左端)對應(yīng)的中心詞節(jié)點與其孩子節(jié)點組成的依存句法樹片段;其中,下劃線表示該節(jié)點為葉子節(jié)點;“xl:世界杯”和“x2:在”為詞匯化約束變量,表明節(jié)點可分別由以“世界杯”和“在”為根的子樹替換;“x3:AD”為詞性約束變量,表明節(jié)點可以由詞性為AD的詞替換。圖3 (a)所示規(guī)則的目標(biāo)語言端(右端)為串“xl was held x3 x2”。該中心詞-修飾詞規(guī)則左右兩端的變量的對應(yīng)關(guān)系說明了源語言端和目標(biāo)語言端之間的調(diào)序關(guān)系,其中源語言端的“xl:世界杯”,“ x2:在”和“ x3: AD ”分別與目標(biāo)語言端的“ XI ”、“ x2 ”和“ x3 ”對應(yīng)。該中心詞-修飾詞規(guī)則捕捉了這樣的語言現(xiàn)象,漢語中介詞短語和副詞通常放在動詞之前,而在英語中介詞短語和副詞通常放在動詞之后。與現(xiàn)有工作將翻譯規(guī)則表示在源語言依存句法樹中任意連通子圖的方法相比,中心詞-修飾詞規(guī)則具有以下優(yōu)點1)語言學(xué)意義更加清晰明確,直接捕捉源語言的句式和短語模式,而這些模式已經(jīng)被語言學(xué)家廣泛接受;2)負(fù)責(zé)全部的調(diào)序工作,與中心詞規(guī)則配合,不需要借助啟發(fā)式或調(diào)序模型即可完成整個翻譯過程。例如,圖3 (a)的中心詞-修飾詞規(guī)則捕捉到句式“名詞短語+介詞短語+副詞+動詞”的一個實例的翻譯方式,其明確指明了動詞為“舉行”、名詞短語為“世界杯”組成的名詞短語、介詞短語為“在”組成的介詞短語時的翻譯方法。 圖3 (b)為中心詞規(guī)則的示例,這類規(guī)則的源語言端為中心詞,目標(biāo)段為串,用于翻譯詞語。如圖3 (b)所示的規(guī)則指明“成功”可以翻譯為“successfully”?,F(xiàn)參考圖4、圖5和圖6來說明基于依存樹抽取翻譯規(guī)則的方法,具體包括如下步驟步驟1),對于給定的三元組,利用源語言和目標(biāo)語言間的詞語對齊關(guān)系對源語言依存句法樹的每個節(jié)點n標(biāo)記如下兩個屬性中心詞跨度■ 與n對齊的所有目標(biāo)詞的位置的集合;依存跨度以n為根的子樹中,所有對齊一致節(jié)點的中心詞跨度的并集的閉包。當(dāng)以n為根的子樹中不存在對齊一致的節(jié)點時,該節(jié)點的依存跨度為空。圖4所示的是為每個節(jié)點標(biāo)記了中心詞跨度和依存跨度的依存句法樹的一個實施例的不意圖。其中,例如目標(biāo)語言串為“2010 FIFA World Cup was held successfullyin South Africa”,為了說明的方便,對目標(biāo)語言串中的每個詞的位置分別編號為1_10,例
如2010對應(yīng)位置I, FIFA對應(yīng)位置2,World對應(yīng)位置3,Cup對應(yīng)位置4,......,Africa對
應(yīng)位置10。源語言串為“2010年FIFA世界杯在南非成功舉行”。那么對于這個源語言串的依存句法樹的節(jié)點“世界杯”,與其對齊的目標(biāo)詞為“World Cup”,與其對齊的目標(biāo)詞的位置的集合為{3,4},因此該節(jié)點的中心詞跨度為{3,4}。對于每個節(jié)點標(biāo)記兩個跨度,前一個跨度為中心詞跨度,后一個跨度為依存跨度,例如以節(jié)點“舉行/VV”為例,{6}為中心詞跨度,而{2-10}為依存跨度。如上所述,對于每個節(jié)點的依存跨度是以該節(jié)點為根的子樹中,所有對齊一致節(jié)點的中心詞跨度的并集的閉包。所述對齊一致節(jié)點是指該節(jié)點的中心詞跨度與依存句法樹中其他節(jié)點的中心詞跨度的交集為空。例如,由于GIZA++的對齊通常帶有錯誤,如圖4中“2010年”和“在”均被錯誤地對齊到目標(biāo)語言中的“was”,這導(dǎo)致這兩個節(jié)點的中心跨度交集不為空,因此這兩個節(jié)點都不是對齊一致的。除這兩個節(jié)點之外,其他節(jié)點的中心詞跨度均不與依存句法樹中的除該節(jié)點外的其他節(jié)點的中心詞跨度相交,因此是對齊一致的。所述集合的閉包是包含該集合所有位置的、最小的連續(xù)位置組成的集合?,F(xiàn)以圖5中節(jié)點“世界杯”和“2010年”為例說明依存跨度。以“世界杯”為根的子樹包含“2010年”、“FIFA”和“世界杯”三個節(jié)點,其中“2010年”對齊不一致,而節(jié)點“FIFA”和“世界杯”對齊一致,兩個節(jié)點的中心詞跨度分別為{2}和{3,4},因此節(jié)點“世界杯”的依存跨度為{2,3,4}。為便于書寫面,圖4中將{2,3,4}記為{2-4}。節(jié)點“2010年”是葉子節(jié)點,且不是對齊一致的,所以其依存跨度為空,圖4中以{}表示。在本發(fā)明的實施例中的依存跨度不同于GHKM方法(參考文獻5 :M. Galley,M.Hopkins, K. Knight, and D. Marcu. 2004. What^ s in a translation rule In Proc.of HLT/NAACL-04)及短語系統(tǒng)(參考文獻 6 :Philipp Koehn, Franz Josef Och, DanielMarcu, Statistical phrase-based translation, Proceedings of the 2003 Conferenceof the North American Chapter of the Association for Computational Linguisticson Human Language Technology, p. 48-54, May27-June 01,2003,Edmonton,Canada.)中的跨度的概念。由于GHKM中的跨度和短語系統(tǒng)中的跨度本質(zhì)上是相同的,此處僅比較本發(fā)明所提出的依存跨度和GHKM跨度的區(qū)別。首先,依存跨度和GHKM跨度基于不同的語言學(xué)直覺,依存跨度的直覺是“語義上近鄰的詞傾向于在不同的語言中保持近鄰”,而GHKM跨度的直覺是“連續(xù)短語傾向于在不同語言中保持連續(xù)”。其次,使用GHKM跨度會失去一些捕捉有用語言學(xué)句式的機會。以圖4的對齊關(guān)系為例,由于節(jié)點“2010年”和“在”的對齊錯誤,對于中心詞“舉行”和修飾詞“世界杯”、“在”和“成功”組成的中心詞-修飾詞片段,節(jié)點“世·界杯”和“在”的GHKM跨度將分別為{1-5}和{5-10},兩個節(jié)點的GHKM跨度均與中心詞節(jié)點“舉行”中心詞跨度{6}重疊,且節(jié)點“在”的GHKM跨度與節(jié)點“成功”的GHKM跨度(同中心詞跨度){9,10}重疊,從而導(dǎo)致無法獲得該中心詞-修飾詞片段相關(guān)的翻譯規(guī)則。步驟2)對對齊一致的節(jié)點生成中心詞規(guī)則,例如,對于“成功” “世界杯” “南非”等節(jié)點采用與短語系統(tǒng)相同的方法(參考文獻7 F. Och, H. Ney, The Alignment TemplateApproach to Statistical Machine Translation, Computational Linguistics, 2004.)來生成翻譯規(guī)則,例如“成功一successfully”;“世界杯一World Cup’*‘南非一South Africa”
坐寸o步驟3)對所標(biāo)記的源語言依存句法樹中滿足如下條件的中心詞-修飾詞片段生成具有相同修飾關(guān)系的所有詞匯化和非詞匯化翻譯規(guī)則i)中心詞節(jié)點的中心詞跨度對齊一致,ii)所有修飾詞的依存跨度不為空,iii)中心詞節(jié)點的中心詞跨度與所有修飾詞的依存跨度不相交。圖4中用陰影標(biāo)記了所有對齊一致的節(jié)點,方框標(biāo)記了所有依存跨度不為空的節(jié)點??梢院苋菀椎呐袛喑觯瑘D4中僅有一個中心詞-修飾詞片段滿足如上條件,即由節(jié)點“世界杯”、“在”、“成功”和“舉行”組成的中心詞-修飾詞片段。從該中心詞-修飾詞片段中,可以生成一系列詞匯化和非詞匯化中心詞-修飾詞規(guī)則,具體過程如下( I)詞匯化中心詞-修飾詞規(guī)則生成提取中心詞-修飾詞片段對應(yīng)的詞匯化修飾關(guān)系,即完全由中心詞-修飾詞片段的依存邊和各節(jié)點的詞組成的修飾關(guān)系,將對應(yīng)于源語言依存句法樹中內(nèi)部節(jié)點的節(jié)點標(biāo)記為詞匯化約束的變量,得到翻譯規(guī)則的源語言端。所述修飾關(guān)系是指中心詞-修飾詞片段所對應(yīng)的句子或短語模式實例?,F(xiàn)以圖5為例說明該過程,例如,提取出對應(yīng)的修飾關(guān)系,例如,(世界杯)(在)(成功)舉行,將對應(yīng)于源語言依存句法樹的內(nèi)部節(jié)點的“世界杯”和“在”兩個節(jié)點分別標(biāo)記為詞匯化約束的變量“xl 世界杯”和“x2:在”,從而得到中心詞-修飾詞規(guī)則的源語言端。按照如下過程生成詞匯化中心詞-修飾詞規(guī)則的目標(biāo)端。首先,按照中心詞節(jié)點的中心詞跨度及修飾詞的依存跨度排列中心詞-修飾詞片段中的所有節(jié)點。對于上述修飾關(guān)系實例中的每個節(jié)點如果該節(jié)點是詞匯化的,且該節(jié)點為中心詞節(jié)點或者依存句法樹的葉子節(jié)點,則用該節(jié)點中心詞跨度對應(yīng)的目標(biāo)語言串替換該節(jié)點;如果該節(jié)點為依存句法樹的內(nèi)部節(jié)點,則用該節(jié)點對應(yīng)的詞匯化約束變量替換該節(jié)點?,F(xiàn)以圖5為例說明說明該過程。按照集合中最小元素從小到大排序?qū)χ行脑~“舉行”的中心詞跨度及修飾詞“世界杯”、“在”和“成功”的依存跨度進行排序,排序得到的序列為{2-4}(世界杯)、{6}(舉行)、{7}(成功)和{9,10}(在)。為了清晰起見,在圖5中直接給出了排序后各跨度對應(yīng)的英文串(見圖5左下部的英文串)。虛線表明了英文串與中心詞-修飾詞片段中各節(jié)點的對應(yīng)關(guān)系。由于節(jié)點“世界杯”和“在”為依存句法樹的內(nèi)部節(jié)點,對應(yīng)部分替換為變量xl和x2,從而得到規(guī)則的目標(biāo)端“xlheld successfully x2”。(2)非詞匯化中心詞-修飾詞規(guī)則生成由于完全使用詞匯化規(guī)則會帶來數(shù)據(jù)稀疏問題,為了緩解這一問題,從詞匯化的中心詞-修飾詞規(guī)則中生成了一系列非詞匯化中心詞-修飾詞規(guī)則,具體方法如下改變詞匯化中心詞-修飾詞規(guī)則的源語言端,將一個或多個節(jié)點修改為非詞匯化約束變量(例如詞性約束變量、依存類型約束變量),得到非詞匯化中心詞-修飾詞規(guī)則的源語言端;如果被改變的節(jié)點為依存句法樹的內(nèi)部節(jié)點,則目標(biāo)端不變;否則,將該節(jié)點對應(yīng)的目標(biāo)端變?yōu)橐粋€新的變量。對于包含m個節(jié)點的中心詞-修飾詞片段,通過這一過程可以得到2m_l個非詞匯化中心詞-修飾詞規(guī)則。圖6示例了將一個節(jié)點轉(zhuǎn)變?yōu)榉窃~匯化約束的變量得到四條非詞匯化中心詞-修飾詞規(guī)則的過程。四條規(guī)則中,第一條通過將中心詞“舉行”轉(zhuǎn)變?yōu)樵~性約束變量“x4:W”、對應(yīng)目標(biāo)端轉(zhuǎn)變?yōu)樽兞縳4得到;第二條通過詞匯化約束變量“xl:世界杯”轉(zhuǎn)變?yōu)樵~性約束變量“xl:NR”得到;第三條通過詞匯化約束變量“x2:在”轉(zhuǎn)變?yōu)樵~性約束變量“x2:P”得到;第四條通過將修飾詞“成功”轉(zhuǎn)變?yōu)樵~性約束變量“x4:AD”得到,下劃線表示該變量為葉子節(jié)點。同理,可以得到同時改變兩個、三個和四個節(jié)點為詞性約束變量的非詞匯化中心詞-修飾詞規(guī)則。表I給出了通過上述步驟可以從圖4所示的三元組(源語言依存句法樹樹,目標(biāo)語言串,對齊)抽取的部分翻譯規(guī)則實例。表I
權(quán)利要求
1.一種基于依存句法樹的翻譯規(guī)則抽取方法,包括以下步驟 步驟I)對于三元組(源語言依存句法樹、目標(biāo)語言串、源語言與目標(biāo)語言間的詞語對齊關(guān)系),利用所述對齊關(guān)系對源語言依存句法樹的每個節(jié)點η標(biāo)記中心詞跨度和依存跨度,所述中心詞跨度是與η對齊的所有目標(biāo)詞的位置的集合;所述依存跨度指以η為根的子樹中,所有對齊一致節(jié)點的中心詞跨度的并集的閉包,所述對齊一致節(jié)點是指該節(jié)點的中心詞跨度與依存句法樹中其他節(jié)點的中心詞跨度的交集為空; 步驟2)對源語言依存樹中對齊一致的節(jié)點,生成中心詞規(guī)則; 步驟3)對所標(biāo)記的源語言依存句法樹中的中心詞-修飾詞片段生成中心詞-修飾詞規(guī)則; 其中所述中心詞-修飾詞片段為以中心詞為根節(jié)點,以修飾詞為孩子節(jié)點的依存句法樹片段,所述中心詞-修飾詞規(guī)則的源語言端為中心詞-修飾詞片段對應(yīng)句子模式或短語模式的實例,其目標(biāo)語言端為串,所述中心詞-修飾詞規(guī)則源語言端和目標(biāo)語言端的變量的對應(yīng)關(guān)系代表了源語言端和目標(biāo)語言端之間的調(diào)序關(guān)系,所述變量包括詞匯化約束變量和詞性約束變量,對應(yīng)詞匯化約束變量的節(jié)點可由以該節(jié)點為根的子樹替換,對應(yīng)詞性約束變量的節(jié)點可由與該節(jié)點詞性相同的詞替換。
2.根據(jù)權(quán)利要求I所述的翻譯規(guī)則抽取方法,其中步驟3)對所標(biāo)記的源語言依存句法樹中滿足如下條件的中心詞-修飾詞片段生成中心詞-修飾詞規(guī)則,所述條件包括 (i)中心詞節(jié)點的中心詞跨度對齊一致, (ii)所有修飾詞的依存跨度不為空, (iii)中心詞節(jié)點的中心詞跨度與所有修飾詞的依存跨度不相交。
3.根據(jù)權(quán)利要求I或2所述的翻譯規(guī)則抽取方法,步驟3)包括以下步驟 (3-1)將中心詞-修飾詞片段中對應(yīng)于依存句法樹中內(nèi)部節(jié)點的節(jié)點標(biāo)記為詞匯化約束的變量,得到詞匯化中心詞-修飾詞片段規(guī)則的源語言端; (3-2)按照中心詞節(jié)點的中心詞跨度及修飾詞的依存跨度排列中心詞-修飾詞片段中的所有節(jié)點,對于其中的每個節(jié)點, a)如果該節(jié)點是詞匯化的,且該節(jié)點為中心詞節(jié)點或者對應(yīng)于依存句法樹的葉子節(jié)點,則用該節(jié)點中心詞跨度對應(yīng)的目標(biāo)語言串替換該節(jié)點; b)如果該節(jié)點為依存句法樹的內(nèi)部節(jié)點,則用該節(jié)點對應(yīng)的變量替換該節(jié)點;從而得到詞匯化中心詞-修飾詞片段規(guī)則的目標(biāo)語言端。
4.根據(jù)權(quán)利要求3所述的翻譯規(guī)則抽取方法,步驟3)還包括以下步驟 (3-3)改變詞匯化中心詞-修飾詞規(guī)則的源語言端的一個或多個節(jié)點為非詞匯化約束變量,得到非詞匯化中心詞-修飾詞規(guī)則的源語言端; (3-4)如果被改變的節(jié)點對應(yīng)于依存句法樹的內(nèi)部節(jié)點,則目標(biāo)語言端不變;否則,將該節(jié)點對應(yīng)的目標(biāo)語言端端變?yōu)橐粋€新的變量,得到非詞匯化中心詞-修飾詞片段規(guī)則的目標(biāo)語言端。
5.一種基于依存句法樹的翻譯方法,包括以下步驟 步驟5-1)通過分析源語言串得到源語言串的依存句法樹; 步驟5-2)遍歷源語言串的依存句法樹,通過枚舉中心詞-修飾詞片段所對應(yīng)修飾關(guān)系的所有實例的來對翻譯規(guī)則集合和依存句法樹進行匹配,直到訪問源語言串的依存句法樹的所有節(jié)點為止; 其中,所述的翻譯規(guī)則集合包括中心詞-修飾詞規(guī)則,所述中心詞-修飾詞規(guī)則的源語言端為中心詞-修飾詞片段對應(yīng)句子模式或短語模式的實例,目標(biāo)語言端為串,所述中心詞-修飾詞片段為以中心詞為根節(jié)點,以修飾詞為孩子節(jié)點的依存句法樹片段,所述中心詞-修飾詞規(guī)則源語言端和目標(biāo)語言端的變量的對應(yīng)關(guān)系代表了源語言端和目標(biāo)語言端之間的調(diào)序關(guān)系,所述變量包括詞匯化約束變量和詞性約束變量,對應(yīng)詞匯化約束變量的節(jié)點可由以該節(jié)點為根的子樹替換,對應(yīng)詞性約束變量的節(jié)點可由與該節(jié)點詞性相同的詞替換。
6.根據(jù)權(quán)利要求5所述的翻譯方法,所述步驟5-1)中通過依存句法分析器對源語言串進行分析獲得源語言串的依存句法樹。
7.根據(jù)權(quán)利要求5所述的翻譯方法,所述步驟5-1)中通過成分樹句法分析器分析源語言串得到成分句法樹并將其映射為源語言串依存句法樹。
8.根據(jù)權(quán)利要求5所述的翻譯方法,所述步驟5-2)中所述的翻譯規(guī)則是根據(jù)權(quán)利要求1、2、3或4所述的翻譯規(guī)則抽取方法得到的規(guī)則。
9.根據(jù)權(quán)利要求5所述的翻譯方法,所述步驟5-2)包括以下步驟 后序遍歷源語言依存句法樹,對于訪問到的每個源語言串依存句法樹的節(jié)點, 步驟5-2-1)若該節(jié)點為葉子節(jié)點,則在翻譯規(guī)則集合中查找以該節(jié)點為源端的翻譯規(guī)則,使用找到的翻譯規(guī)則翻譯該節(jié)點,如果翻譯規(guī)則中沒有匹配的規(guī)則,則保持該節(jié)點不變; 步驟5-2-2)如果該節(jié)點為內(nèi)部節(jié)點,則枚舉以該節(jié)點為中心詞的中心詞-修飾詞片段所對應(yīng)修飾關(guān)系的所有詞匯化與非詞匯化實例,在翻譯規(guī)則集合查找匹配的規(guī)則,使用找到的翻譯規(guī)則進行翻譯; 步驟5-2-3)如果在步驟5-2-2)中沒有找到匹配的翻譯規(guī)則,則根據(jù)中心詞-修飾詞片段的詞序進行順序翻譯; 重復(fù)步驟5-2-1)、5-2-2)和5-2-3)直到訪問了源語言串依存句法樹的所有節(jié)點為止。
全文摘要
本發(fā)明提供基于依存句法樹的翻譯規(guī)則抽取方法及翻譯方法,將翻譯調(diào)序關(guān)系直接表示于源端為中心詞及其所有修飾成分組成的依存句法樹片段、目標(biāo)端為串的翻譯規(guī)則中,從而使翻譯規(guī)則可以明確地指導(dǎo)翻譯過程。通過這種方法抽取的翻譯規(guī)則,可以提高了基于依存句法樹的翻譯方法的性能。在154萬平行雙語語料數(shù)據(jù)集上,本發(fā)明的依存句法樹到串翻譯模型的性能較成分樹到串模型提高1.68個BLEU點。
文檔編號G06F17/28GK102799578SQ20121022797
公開日2012年11月28日 申請日期2012年7月2日 優(yōu)先權(quán)日2011年7月22日
發(fā)明者謝軍, 米海濤, 劉群 申請人:中國科學(xué)院計算技術(shù)研究所