一種基于句法樹的規(guī)則抽取及翻譯方法
【專利摘要】本發(fā)明提供一種基于句法樹的規(guī)則抽取方法,包括:1)對(duì)于源語言成分句法樹,源語言依存句法樹,目標(biāo)語言串以及源語言與目標(biāo)語言間的詞語對(duì)齊關(guān)系的四元組,在源語言依存句法樹中找出并標(biāo)記與源語言成分句法樹中的成分短語節(jié)點(diǎn)相對(duì)應(yīng)的依存句法樹片段;2)遍歷步驟1)標(biāo)記好的源語言依存句法樹,抽取中心-修飾片段,在遍歷過程中,對(duì)于與成分短語節(jié)點(diǎn)相對(duì)應(yīng)的依存句法樹片段,將該依存句法樹片段視為一個(gè)節(jié)點(diǎn)來抽取中心-修飾片段,得到含成分短語節(jié)點(diǎn)的中心-修飾片段;3)依據(jù)所抽取的含成分短語節(jié)點(diǎn)的中心-修飾片段,生成含成分短語的中心-修飾規(guī)則。本發(fā)明具有較強(qiáng)的長(zhǎng)距離翻譯調(diào)序能力和較好的短語兼容性。
【專利說明】一種基于句法樹的規(guī)則抽取及翻譯方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理【技術(shù)領(lǐng)域】,具體地說,本發(fā)明涉及一種基于句法樹的規(guī)則抽取及翻譯方法。
【背景技術(shù)】
[0002] 當(dāng)前,句法樹到串的翻譯模型是統(tǒng)計(jì)機(jī)器翻譯的熱點(diǎn)。根據(jù)語言學(xué)結(jié)構(gòu)的差異,這些模型可分為兩大類:成分句法樹到串模型(參考文獻(xiàn)1:Yang Liu, Qun Liu, andShouxun Lin.2006.Tree—to—String Alignment Template for Statistical MachineTranslation.1n Proceedings of C0LING/ACL2006,pages609-616, Sydney, Australia, July.)和依存句法樹到串模型(參考文獻(xiàn)2:Jun Xie, Haitao Mi, and Qun Liu.2011.A NovelDependency-to-String Model for Statistical Machine Translation.1n Proceedingsof EMNLP2011, pages216-226, Edinburgh, UK, July.)。這兩種模型能夠分別捕獲不同的語言學(xué)現(xiàn)象。成分句法樹描述句子中詞語以及詞語序列(sequence of words)的句法成分組成,具有良好的短語兼容性,然而其長(zhǎng)距離調(diào)序的表達(dá)不如依存句法樹直接。依存句法樹描述句子中詞語之間的文法關(guān)系,能夠更簡(jiǎn)單、直接地描述詞語間的長(zhǎng)距離依賴,然而,它的短語兼容性又有所不足,對(duì)于整塊短語的翻譯效果、流利度不如成分句法樹的效果好。
【發(fā)明內(nèi)容】
[0003]因此,本發(fā)明的任務(wù)是克服現(xiàn)有技術(shù)的缺陷,提出一種既具有較強(qiáng)的長(zhǎng)距離調(diào)序能力,又具有很好的短語兼容性的基于句法樹的規(guī)則抽取及翻譯方法。
[0004]為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種基于句法樹的規(guī)則抽取方法,包括下列步驟:
[0005]本發(fā)明還提供了相應(yīng)的基于句法樹的翻譯方法,包括下列步驟:
[0006]與現(xiàn)有技術(shù)相比,本發(fā)明具有下列技術(shù)效果:
[0007]1、本發(fā)明具有較強(qiáng)的長(zhǎng)距離翻譯調(diào)序能力;具有較好的短語兼容性,彌補(bǔ)了單純用依存句法樹指導(dǎo)翻譯的不足。
[0008]2、本發(fā)明使得短語的翻譯和短語級(jí)別的長(zhǎng)距離調(diào)序更好地表達(dá)。
【專利附圖】
【附圖說明】
[0009]以下,結(jié)合附圖來詳細(xì)說明本發(fā)明的實(shí)施例,其中:
[0010]圖1 (a)示出了成分句法樹的一個(gè)示例;
[0011]圖1 (b)示出了依存句法樹的一個(gè)示例;
[0012]圖1 (C)示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的標(biāo)記了成分短語節(jié)點(diǎn)的依存句法樹的一個(gè)示例;
[0013]圖2 (a)示出了一個(gè)無成分短語節(jié)點(diǎn)的中心-修飾片段的示例;
[0014]圖2 (b)示出了一個(gè)含成分短語節(jié)點(diǎn)的中心-修飾片段的示例;[0015]圖2 (C)示出了另一個(gè)含成分短語節(jié)點(diǎn)的中心-修飾片段的示例;
[0016]圖3 (a)示出了一個(gè)無成分短語節(jié)點(diǎn)的中心-修飾規(guī)則示例;
[0017]圖3 (b)示出了一個(gè)含成分短語節(jié)點(diǎn)的中心-修飾規(guī)則示例;
[0018]圖3 (C)示出了一個(gè)雙語短語規(guī)則示例;
[0019]圖4示出了為每個(gè)依存樹節(jié)點(diǎn)標(biāo)記了節(jié)點(diǎn)跨度和子樹跨度,并為每個(gè)成分短語節(jié)點(diǎn)標(biāo)記了短語跨度的依存句法樹示例;
[0020]圖5 (a)示出了詞匯化的無成分短語節(jié)點(diǎn)的中心-修飾規(guī)則的示例;
[0021]圖5 (b)示出了半詞匯化的含成分短語節(jié)點(diǎn)的中心-修飾規(guī)則的示例;
[0022]圖6 (a)示出了非詞匯化的無成分短語節(jié)點(diǎn)的中心-修飾規(guī)則的示例;
[0023]圖6 (b)示出了非詞匯化的含成分短語節(jié)點(diǎn)的中心-修飾規(guī)則的示例;
[0024]圖7示出了本發(fā)明一個(gè)實(shí)施例的流程示意圖;
[0025]圖8示出了一個(gè)翻譯森林的示例。
【具體實(shí)施方式】
[0026]為了使發(fā)明目的,技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖通過具體實(shí)施例對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,并不用于限定本發(fā)明。
[0027]根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供了一種基于成分句法樹和依存句法樹相結(jié)合的翻譯規(guī)則抽取方法,具體包括下列步驟:
[0028]步驟1:對(duì)于四元組(源語言成分句法樹,源語言依存句法樹,目標(biāo)語言串,源語言與目標(biāo)語言間的詞語對(duì)齊關(guān)系),遍歷源語言成分句法樹上的每個(gè)成分短語節(jié)點(diǎn)m,若以m為根的子樹所覆蓋的源語言端連續(xù)詞序列A,能夠在源語言依存句法樹上找到恰好完全覆蓋A的依存句法樹連續(xù)節(jié)點(diǎn)片段d,則將成分短語節(jié)點(diǎn)m標(biāo)記到依存句法樹的片段d上。
[0029]本實(shí)施例是從包含四元組的語料庫中抽取翻譯規(guī)則。四元組為源語言成分句法樹,源語言依存句法樹,目標(biāo)語言串,以及源語言與目標(biāo)語言之間的詞語對(duì)齊關(guān)系的組合。源語言和目標(biāo)語言之間的對(duì)齊關(guān)系可以通過對(duì)齊工具GIZA++ (參考文獻(xiàn)3:Franz JosefOch, Hermann Ney.“A Syste matic Comparison of Various Statistical AlignmentModels,,,Computational Linguistics, volume29, numberl, pagesl9-51, March2003.)自動(dòng)獲得。本領(lǐng)域普通技術(shù)人員應(yīng)該理解在其他實(shí)施例中可以采用現(xiàn)有的其他對(duì)齊工具來獲得源語言和目標(biāo)語言間的詞語對(duì)齊關(guān)系。
[0030]圖1 (a)給出了中文句子“英特爾將推出亞洲第一款超級(jí)筆記本”的成分句法樹(也可稱成分樹),圖1 (b)給出了該句子的依存句法樹(也可稱依存樹)。為了便于下文中對(duì)規(guī)則抽取方法的說明,對(duì)圖1 (b)中的依存樹的每個(gè)節(jié)點(diǎn)標(biāo)記了對(duì)應(yīng)詞的詞性。圖1(a)中的節(jié)點(diǎn)標(biāo)記為美國賓州大學(xué)中文語言處理計(jì)劃定義的成分句法樹短語節(jié)點(diǎn)標(biāo)記和詞性標(biāo)記,其中每個(gè)詞語的直接父親為詞性標(biāo)記(參考文獻(xiàn)4:Nianwen Xue, Fei Xia.2000.The Bracketing Guidelines for the Penn Chinese Tr eebank(3.0).http://www.cis.upenn.edu/ ?chinese/parseguide.3rd.ch.pdf)。例如節(jié)點(diǎn) “NP” 表示以該節(jié)點(diǎn)為根的子樹覆蓋的源語言詞為名詞短語,“VP”表示以該節(jié)點(diǎn)為根的子樹覆蓋的源語言詞為動(dòng)詞短語,等等。圖1 (b)中的詞性標(biāo)記為美國賓州大學(xué)中文語言處理計(jì)劃定義的詞性標(biāo)記,依存句法樹的節(jié)點(diǎn)除了詞以外還標(biāo)記了詞性(參考文獻(xiàn)5:Fei Xia.2000.The Part-of-SpeechTagging Guidelines for the Penn Chinese Treebank(3.0).http://www.cis.upenn.edu/?chinese/posguide.3rd.ch.pdf.)。例如節(jié)點(diǎn)“推出/VV”指“推出”的詞性為動(dòng)詞,“將/AD”指“將”的詞性為副詞,“筆記本/NN”指“筆記本”的詞性為名詞,等等。
[0031]參考圖1 (a),遍歷源語言成分句法樹上的每個(gè)成分短語節(jié)點(diǎn),即遍歷IP、VP3、VP2> NP、QP、NP1等節(jié)點(diǎn),其中,以成分短語節(jié)點(diǎn)VP3為根的子樹所覆蓋的源語言端連續(xù)詞序列為“將推出亞洲第一款超級(jí)筆記本”),而參考圖1 (b),依存句法樹連續(xù)節(jié)點(diǎn)片段{ “將/AD、” “推出/W、” “亞洲/NR、” “第一 /0D、” “款/M、” “超級(jí)/JJ、” “筆記本/NN”}恰好完全覆蓋源語言端連續(xù)詞序列“將推出亞洲第一款超級(jí)筆記本”,因此將成分短語節(jié)點(diǎn)VP3標(biāo)記到依存句法樹的片段{ “將/AD、” “推出/W、” “亞洲/NR、” “第一 /0D、” “款/M、” “超級(jí)/JJ、” “筆記本/NN” }上。同理,以成分短語節(jié)點(diǎn)VP2為根的子樹所覆蓋的源語言端連續(xù)詞序列為“推出亞洲第一款超級(jí)筆記本”,而依存句法樹連續(xù)節(jié)點(diǎn)片段{ “推出/W、” “亞洲/NR、” “第一 /0D、” “款/M、” “超級(jí)/JJ、” “筆記本/NN” }恰好完全覆蓋源語言端連續(xù)詞序列“推出亞洲第一款超級(jí)筆記本”,因此將成分短語節(jié)點(diǎn)VP2標(biāo)記到依存句法樹的片段{ “推出/W、” “亞洲/NR、” “第一 /0D、” “款/M、” “超級(jí)/JJ、” “筆記本/NN” }上。以成分短語節(jié)點(diǎn)NP1為根的子樹所覆蓋的源語言端連續(xù)詞序列為“超級(jí)筆記本”,而依存句法樹連續(xù)節(jié)點(diǎn)片段{ “超級(jí)/JJ”、“筆記本/NN”}恰好完全覆蓋源語言端連續(xù)詞序列“超級(jí)筆記本”,因此將成分短語節(jié)點(diǎn)NP1標(biāo)記到依存句法樹的片段{ “超級(jí)/JJ”、“筆記本/NN”}上。圖1 (c)示出標(biāo)記了成分短語節(jié)點(diǎn)的依存句法樹的示例。
[0032]步驟2:遍歷標(biāo)記好的源語言依存句法樹,抽取中心-修飾片段,在遍歷過程中,當(dāng)遇到標(biāo)記為成分短語節(jié)點(diǎn)的依存句法樹的片段時(shí),在抽取中心-修飾片段時(shí)將該依存句法樹的片段視為中心-修飾片段的一個(gè)節(jié)點(diǎn)。為方便描述,將所抽取的中心-修飾片段稱為成分短語化的中心-修飾片段。
[0033]成分短語化的中心-修飾片段是由中心成分和修飾成分兩部分組成的成分短語化的依存句法樹片段。本實(shí)施例中,成分短語化的中心-修飾片段包括含成分短語節(jié)點(diǎn)的中心-修飾片段和無成分短語節(jié)點(diǎn)的中心-修飾片段。
[0034]圖1 (C)所示的成分短語化的依存句法樹是將圖1 (a)所示的成分短語節(jié)點(diǎn)NP1,VP2和VP3S記于圖1 (b)所示的依存句法樹而得到。成分短語化的中心-修飾片段包括含成分短語節(jié)點(diǎn)的中心-修飾片段,如圖2 (b)和圖2 (C)所示。圖2 (b)以VP2為根節(jié)點(diǎn),作為中心,以“英特爾”和“將”為孩子節(jié)點(diǎn),作為修飾成分,所述中心和修飾成分組成含成分短語節(jié)點(diǎn)的中心-修飾片段。圖2 (c)是以VP3S根節(jié)點(diǎn),作為中心,以“英特爾”為孩子節(jié)點(diǎn),作為修飾成分所組成的含成分短語節(jié)點(diǎn)的中心-修飾片段。
[0035]圖2 (a)所示為無成分短語節(jié)點(diǎn)的中心-修飾片段,它是以“推出”為根節(jié)點(diǎn),作為中心,以“英特爾”、“將”和“筆記本”為孩子節(jié)點(diǎn),作為修飾成分所組成的無成分短語節(jié)點(diǎn)的中心-修飾片段。對(duì)于無成分短語節(jié)點(diǎn)的中心-修飾片段,其抽取方案與現(xiàn)有的依存句法樹抽取中心-修飾片段的方案是一致的。根據(jù)本發(fā)明的另一個(gè)實(shí)施例,步驟2中也可以僅抽取含成分短語節(jié)點(diǎn)的中心-修飾片段,這是本領(lǐng)域技術(shù)人員易于理解的。
[0036]步驟3:依據(jù)所抽取的中心-修飾片段、目標(biāo)語言串以及源語言與目標(biāo)語言間的詞語對(duì)齊關(guān)系,生成成分短語化的中心-修飾規(guī)則。成分短語化的中心-修飾規(guī)則的源語言端為成分短語化的中心-修飾片段對(duì)應(yīng)句子模式或短語模式的實(shí)例,目標(biāo)語言端為串,并給出了源語言和目標(biāo)語言之間調(diào)序關(guān)系,同時(shí)兼有詞以及短語的翻譯和調(diào)序功能。
[0037]圖3 Ca)為無成分短語節(jié)點(diǎn)的中心-修飾規(guī)則示例,圖3 (b)為含成分短語節(jié)點(diǎn)的中心-修飾規(guī)則示例,二者合稱為成分短語化的中心-修飾規(guī)則。圖3 (a)所示的源語言端(左端)對(duì)應(yīng)的無成分短語的中心-修飾片段,其中下劃線表示葉子節(jié)點(diǎn);“xl:AD”為詞性約束標(biāo)量,可以由以詞性為“AD”的詞替換;“x2:筆記本”為詞匯化約束變量,可以由以“筆記本”為根的子樹替換。圖3 (a)所示的目標(biāo)語言端(右端)為串“Intel xl la unchx2”,源語言端的“xl:AD”和“x2:筆記本”分別與目標(biāo)語言端的“xl”和“x2”對(duì)應(yīng)。圖3(b)所示的源語言端(左端)對(duì)應(yīng)的含成分短語的中心-修飾片段,其中下劃線表示葉子節(jié)點(diǎn);“xl:AD”為詞性約束變量,可以由以詞性為“AD”的詞替換;“x2:VP2”為短語約束變量,可以由以“VP2 ”為根的短語替換。圖3 (b)所示的目標(biāo)語言端(右端)為串“Int el xlx2”,源語言端的“ x 1: AD ”和“ x2: VP2 ”分別與目標(biāo)語言端的“ XI ”和“ x2 ”對(duì)應(yīng)。
[0038]與現(xiàn)有的依存樹到串翻譯規(guī)則相比,成分短語化的中心-修飾規(guī)則可以捕獲原始依存句法樹到串無法表示的非依存句法短語信息。如圖3 (b)所示的“VP2”包含了“推出”和“筆記本”這兩個(gè)節(jié)點(diǎn),在現(xiàn)有方法的依存樹到串翻譯規(guī)則中,無法將這兩個(gè)節(jié)點(diǎn)以組合的形式捕獲進(jìn)來,而本發(fā)明提供的方法可以捕獲這種信息。
[0039]根據(jù)本發(fā)明的另一個(gè)實(shí)施例,步驟3還包括:抽取雙語短語規(guī)則。雙語短語規(guī)則的源語言端和目標(biāo)語言端都是串,用于翻譯詞語和短語。圖3 (C)為雙語短語(包括一個(gè)詞或多個(gè)詞)示例,指明“將”可以翻譯成“will”。
[0040]根據(jù)本發(fā)明的再一個(gè)實(shí)施例,還提供了一種基于成分句法樹和依存句法樹相結(jié)合的翻譯規(guī)則抽取方法,具體包括如下步驟:
[0041]步驟1:對(duì)于四元組(源語言成分句法樹,源語言依存句法樹,目標(biāo)語言串,源語言與目標(biāo)語言間的詞語對(duì)齊關(guān)系),遍歷源語言成分句法樹上的每個(gè)成分短語節(jié)點(diǎn)m,若以m為根的子樹所覆蓋的源語言端連續(xù)詞序列A,能夠在源語言依存句法樹上找到恰好完全覆蓋A的依存句法樹連續(xù)節(jié)點(diǎn)片段d,則將成分短語節(jié)點(diǎn)m標(biāo)記到依存句法樹的片段d上。其中,將源語言成分句法樹上的成分短語節(jié)點(diǎn)m依據(jù)源語言跨度標(biāo)記到源語言依存句法樹上,所述源語言跨度,對(duì)應(yīng)于成分句法樹,是以m為根的子樹覆蓋的源語言詞位置的集合,對(duì)應(yīng)于依存句法樹,是連續(xù)的節(jié)點(diǎn)(一個(gè)或多個(gè))覆蓋的源語言詞位置的集合。
[0042]根據(jù)本發(fā)明的一個(gè)實(shí)施例,在標(biāo)記成分短語節(jié)點(diǎn)m時(shí),還需要滿足以下兩個(gè)限定條件:
[0043]( i )成分短語節(jié)點(diǎn)m依據(jù)源語言跨度對(duì)應(yīng)到源語言依存句法樹上不是恰好覆蓋一個(gè)依存句法樹節(jié)點(diǎn)。
[0044](ii)成分短語節(jié)點(diǎn)m依據(jù)源語言跨度對(duì)應(yīng)到源語言依存句法樹上不是恰好覆蓋完整的依存句法子樹。
[0045]增加上述兩個(gè)限定條件,可以減少抽取不必要的規(guī)則,在不降低翻譯性能的情況下,減小翻譯規(guī)則表的規(guī)模,提升翻譯解碼的速度。
[0046]對(duì)于已經(jīng)標(biāo)記成分短語節(jié)點(diǎn)的源語言依存句法樹,對(duì)于每個(gè)依存句法樹節(jié)點(diǎn)n,利用所述對(duì)齊關(guān)系標(biāo)記節(jié)點(diǎn)跨度和子樹跨度;對(duì)于每個(gè)成分短語節(jié)點(diǎn)m標(biāo)記短語節(jié)點(diǎn)跨度;所述節(jié)點(diǎn)跨度是與η對(duì)齊的所有目標(biāo)詞的位置的集合;所述子樹跨度是指以η為根的子樹中所有節(jié)點(diǎn)的節(jié)點(diǎn)跨度的并集的閉包;所述短語跨度是指m包含的所有依存句法樹節(jié)點(diǎn)的節(jié)點(diǎn)跨度的并集的閉包。標(biāo)記成分短語節(jié)點(diǎn)和節(jié)點(diǎn)跨度,即可在依存句法樹中清楚地表達(dá)對(duì)應(yīng)于成分短語節(jié)點(diǎn)的依存句法樹片段,便于后續(xù)處理。
[0047]圖4示出了為每個(gè)依存樹節(jié)點(diǎn)標(biāo)記了節(jié)點(diǎn)跨度和子樹跨度,并為每個(gè)成分短語節(jié)點(diǎn)標(biāo)記了短語跨度的依存句法樹示例。其中,目標(biāo)語言串為“Intel will launch the firstUltrabook in Asia”,為了說明方便,對(duì)目標(biāo)語言串的每個(gè)詞位置分別標(biāo)記為1_8,其中,“Intel”對(duì)應(yīng)的位置為1,“will”對(duì)應(yīng)的位置為2,...,“Asia”對(duì)應(yīng)的位置為8。源語言串為“英特爾將推出亞洲第一款超級(jí)筆記本”。依存樹節(jié)點(diǎn)每個(gè)節(jié)點(diǎn)標(biāo)記了節(jié)點(diǎn)跨度以及子樹跨度,成分短語節(jié)點(diǎn)標(biāo)記短語跨度。例如,對(duì)于節(jié)點(diǎn)“筆記本”,其對(duì)應(yīng)的目標(biāo)語言詞為“Ultrabook”,因此其節(jié)點(diǎn)跨度為{6-6},節(jié)點(diǎn)“筆記本”作為子樹的根,其對(duì)應(yīng)的子樹跨度為{4-8},節(jié)點(diǎn)“NP/’對(duì)應(yīng)的短語跨度為〈6-6>。若節(jié)點(diǎn)對(duì)應(yīng)目標(biāo)端為空,則比較為“null”,例如“款”對(duì)應(yīng)的節(jié)點(diǎn)跨度為{null}。
[0048]步驟2:遍歷標(biāo)記好的源語言依存句法樹,抽取中心-修飾片段,在遍歷過程中,當(dāng)遇到標(biāo)記為成分短語節(jié)點(diǎn)的依存句法樹的片段時(shí),在抽取中心-修飾片段時(shí)將該依存句法樹的片段當(dāng)作一個(gè)完整的節(jié)點(diǎn)。其中,
[0049](i)對(duì)于無成分短語節(jié)點(diǎn)的中心-修飾片段,根節(jié)點(diǎn)的節(jié)點(diǎn)跨度對(duì)齊一致,并且所有孩子節(jié)點(diǎn)的子樹跨度對(duì)齊一致。
[0050](ii)對(duì)于含成分短語節(jié)點(diǎn)的中心-修飾片段,
[0051]a)若成分短語節(jié)點(diǎn)覆蓋根節(jié)點(diǎn),要求根節(jié)點(diǎn)的短語跨度對(duì)齊一致,孩子節(jié)點(diǎn)的子樹跨度對(duì)齊一致;
[0052]b)若成分短語節(jié)點(diǎn)不覆蓋根節(jié)點(diǎn),要求根節(jié)點(diǎn)的節(jié)點(diǎn)跨度對(duì)齊一致,孩子節(jié)點(diǎn)中,成分短語節(jié)點(diǎn)的短語跨度對(duì)齊一致,其他孩子節(jié)點(diǎn)的子樹跨度對(duì)齊一致。
[0053]圖4中標(biāo)記了實(shí)心框的節(jié)點(diǎn)為節(jié)點(diǎn)跨度對(duì)齊不一致的節(jié)點(diǎn),其它依存樹節(jié)點(diǎn)的節(jié)點(diǎn)跨度和子樹跨度對(duì)齊一致,成分短語節(jié)點(diǎn)的短語跨度對(duì)齊一致。
[0054]步驟3:依據(jù)所抽取的中心-修飾片段,生成成分短語化的中心-修飾規(guī)則。從成分短語化的中心-修飾片段,可以生成一系列詞匯化、半詞匯化和非詞匯化的成分短語化的中心-修飾規(guī)則,具體生成過程如下:
[0055](I)詞匯化的無成分短語節(jié)點(diǎn)的中心-修飾規(guī)則
[0056]對(duì)于無成分短語節(jié)點(diǎn)的中心-修飾片段,對(duì)應(yīng)于依存句法樹內(nèi)部節(jié)點(diǎn)的節(jié)點(diǎn),標(biāo)記為詞匯化約束變量,得到無成分短語節(jié)點(diǎn)的詞匯化中心-修飾片段規(guī)則的源語言端;按照根節(jié)點(diǎn)的節(jié)點(diǎn)跨度及孩子節(jié)點(diǎn)的子樹跨度排列中心-修飾片段中所有節(jié)點(diǎn),對(duì)于其中的依存句法樹內(nèi)部節(jié)點(diǎn),用該節(jié)點(diǎn)對(duì)應(yīng)的變量替換該節(jié)點(diǎn),從而得到無成分短語節(jié)點(diǎn)的詞匯化中心-修飾片段規(guī)則的目標(biāo)語言端。如圖5(a)所示,左端為無成分短語節(jié)點(diǎn)的中心-修飾片段,右端上部分為規(guī)則源端,右端下部分為規(guī)則目標(biāo)端。規(guī)則片段中心為“推出”,修飾部分為“英特爾”、“將”和“筆記本”,目標(biāo)端分別為“l(fā)aunCh”、“Intel”、“Will”和“the firstUltrabook in Asia”, “xl:筆記本”作為替換節(jié)點(diǎn),規(guī)則目標(biāo)端對(duì)應(yīng)為xl。
[0057](2)半詞匯化的含成分短語節(jié)點(diǎn)的中心-修飾規(guī)則
[0058]對(duì)于含成分短語節(jié)點(diǎn)的中心-修飾片段,對(duì)應(yīng)于依存句法樹內(nèi)部節(jié)點(diǎn)的節(jié)點(diǎn),標(biāo)記為詞匯化約束變量;對(duì)應(yīng)于成分短語節(jié)點(diǎn),標(biāo)記為短語類別約束變量,得到含成分短語節(jié)點(diǎn)的中心-修飾片段規(guī)則的源語言端;構(gòu)造含成分短語節(jié)點(diǎn)的詞匯化中心-修飾片段規(guī)則的目標(biāo)語言端按如下步驟:若成分短語節(jié)點(diǎn)覆蓋根節(jié)點(diǎn),按照根節(jié)點(diǎn)的短語跨度及孩子節(jié)點(diǎn)的子樹跨度排列中心-修飾片段中所有節(jié)點(diǎn),對(duì)于其中的依存句法樹內(nèi)部節(jié)點(diǎn)以及成分短語節(jié)點(diǎn),用該節(jié)點(diǎn)對(duì)應(yīng)的變量替換該節(jié)點(diǎn);若成分短語節(jié)點(diǎn)不覆蓋根節(jié)點(diǎn),按照根節(jié)點(diǎn)的節(jié)點(diǎn)跨度,孩子節(jié)點(diǎn)中,成分短語節(jié)點(diǎn)的短語跨度以及其他孩子節(jié)點(diǎn)的子樹跨度排列中心-修飾片段中所有節(jié)點(diǎn),對(duì)于其中的依存句法樹內(nèi)部節(jié)點(diǎn)以及成分短語節(jié)點(diǎn),用該節(jié)點(diǎn)對(duì)應(yīng)的變量替換該節(jié)點(diǎn)。所述詞匯化約束變量表示對(duì)應(yīng)該節(jié)點(diǎn)的詞匯化約束變量的節(jié)點(diǎn)可由一棵子樹替換,要求這個(gè)子樹的根節(jié)點(diǎn)與該節(jié)點(diǎn)的詞匯化信息相同,短語類別約束變量表示對(duì)應(yīng)該短語類別約束變量的節(jié)點(diǎn)可由與該節(jié)點(diǎn)短語類別相同的短語替換。如圖5 (b)所示,左端為含成分短語節(jié)點(diǎn)的中心-修飾片段,右端上部分為規(guī)則源端,右端下部分為規(guī)則目標(biāo)端。規(guī)則片段中心為“VP2”,修飾部分為“英特爾”和“將”,目標(biāo)端分別為“l(fā)aunchthe first Ultrabook in Asia”、“ Intel ”、“will ” 和 “ launch”, “xl:VP2” 作為替換節(jié)點(diǎn),規(guī)則目標(biāo)端對(duì)應(yīng)為xl。
[0059](3)非詞匯化的無/含成分短語節(jié)點(diǎn)的中心-修飾規(guī)則
[0060]改變?cè)~匯化的無成分短語節(jié)點(diǎn)的中心-修飾規(guī)則中的詞匯化約束變量為其相應(yīng)的非詞匯化約束變量(例如詞性約束變量),得到無成分短語節(jié)點(diǎn)的非詞匯化中心-修飾規(guī)則的源語言端;改變半詞匯化的含成分短語節(jié)點(diǎn)的中心-修飾規(guī)則中的詞匯化約束變量為其相應(yīng)的非詞匯化約束變量,得到非詞匯化的含成分短語節(jié)點(diǎn)的中心-修飾規(guī)則的源語言端。對(duì)于以上兩種規(guī)則的目標(biāo)語言端生成方式如下:如果被改變的節(jié)點(diǎn)對(duì)應(yīng)于依存句法樹的內(nèi)部節(jié)點(diǎn)或者成分短語節(jié)點(diǎn),則其目標(biāo)語言端保持不變;否則,將該節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)語言端變?yōu)橐粋€(gè)新變量將該節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)語言端變?yōu)橐粋€(gè)與源語言端變化后的變量相對(duì)應(yīng)的新變量(在目標(biāo)端,每個(gè)變量均與源語言端的一個(gè)變量存在對(duì)應(yīng)關(guān)系,表示此處可以被替換,目標(biāo)端的變量不需要用短語類別、詞性以及詞匯化信息約束),得到非詞匯化無/含成分短語節(jié)點(diǎn)的中心-修飾規(guī)則的目標(biāo)語言端。詞性約束變量表示:對(duì)應(yīng)該詞性約束變量的節(jié)點(diǎn)可由一棵子樹替換,要求這個(gè)子樹的根節(jié)點(diǎn)與該節(jié)點(diǎn)的詞性相同。圖6 (a)示例了圖5 (a)對(duì)應(yīng)的非詞匯化的無成分短語節(jié)點(diǎn)的中心-修飾規(guī)則,圖6 (b)示例了圖5 (b)對(duì)應(yīng)的非詞匯化的含成分短語 節(jié)點(diǎn)的中心-修飾規(guī)則。對(duì)于圖6 (a)是由圖5 (a)的詞匯化的無成分短語節(jié)點(diǎn)的中心-修飾規(guī)則生成了四個(gè)非詞匯化的無成分短語節(jié)點(diǎn)的中心-修飾規(guī)則,第一條通過將中心詞“推出”轉(zhuǎn)變?yōu)樵~性約束變量“xl: W”,第二條通過將中間節(jié)點(diǎn)“xl:筆記本”轉(zhuǎn)變?yōu)樵~性約束變量“xl:NN”,第三條通過將葉子節(jié)點(diǎn)“英特爾”轉(zhuǎn)變?yōu)樵~性約束變量“xl:NR”,第四條通過將葉子節(jié)點(diǎn)“將”轉(zhuǎn)變?yōu)樵~性約束變量“xl:AD”。同理,可以得到同時(shí)改變兩個(gè)、三個(gè)、四個(gè)…節(jié)點(diǎn)為詞性約束變量的非詞匯化的無成分短語節(jié)點(diǎn)的中心-修飾規(guī)則。圖6 (b)的生成示例類似于圖6 (a)。
[0061]步驟3還包括:抽取雙語短語規(guī)則,雙語短語規(guī)則的源語言端和目標(biāo)語言端都是串,抽取雙語短語規(guī)則的具體實(shí)現(xiàn)可以參考基于短語的翻譯模型采用的方法(Philipp Koehnj Franz Josef Ochj and Daniel Marcu.2003.Statistical phrase-basedtranslation.Proceedings of ACL2003,pages48_54,Sapporo,Japan.)。
[0062]根據(jù)本發(fā)明的又一個(gè)實(shí)施例,還提供了一種基于成分短語化的中心-修飾規(guī)則的翻譯方法,圖7示出了該實(shí)施例的流程示意圖,包括下列步驟:[0063]步驟101:利用句法分析器分析源語言串并輸出成分句法樹和依存句法樹。句法分析的主要任務(wù)是對(duì)輸入的源語言串進(jìn)行分析得到相應(yīng)的成分句法樹和依存句法樹。
[0064]句法分析器包括成分句法分析器和依存句法分析器,通過句法分析器分析源語言串得到成分句法樹和依存句法樹,其中,可以只用成分句法分析器,先生成源語言串的成分句法樹,然后通過適當(dāng)?shù)挠成浞椒?參考文獻(xiàn):Collins, Michael, 1999.Head-DrivenStatistical Models for Natural Language Parsing.Ph.D.thesis, University of Pennsylvania, Philadephia,PA.;Marie-Catherine de Marneffe, Bill MacCartney andChristopher D.Manning.2006.Generating Typed Dependency Parses from PhraseStructure Parses.1n LREC2006.)得到依存句法樹,其中所采用的成分句法分析器可以是 Charniak parser、Charniak-Johnson Parser、Berkeley Parser、Bikel Parser、Stanford parser、Collins Parser、MuskCpars句法分析器等。在另一個(gè)實(shí)施例中,可以直接采用依存句法分析器生成依存樹,如MSTParser、MaltParser等。在本實(shí)施例中,米用的是成分句法分析器Stanford parser (參考文獻(xiàn):Dan Klein and ChristopherD.Manning.2003.Accurate Unlexicalized Parsing.Proceedings of the41st Meetingof the Association for Computational Linguistics, pp.423-430)。Stanford parser工具包中已經(jīng)集成相應(yīng)的轉(zhuǎn)換工具,通過在輸入命令中設(shè)置-outputFormat選項(xiàng)的值為typedDependencies,可以直接得到輸入串的依存句法樹。
[0065]為了說明的方便,還是以中文句子“英特爾將推出亞洲第一款超級(jí)筆記本”為例進(jìn)行說明,經(jīng)過Stanford parser分析得到的成分句法樹和依存句法樹,分別如圖1 (a)、(b)所示。其中,在圖1 (a)和圖1 (b)所示的每個(gè)節(jié)點(diǎn)標(biāo)記對(duì)應(yīng)詞的詞性和短語標(biāo)記是為了說明上文中討論的基于成分樹和依存樹的翻譯規(guī)則的生成方法,僅起示例作用而不進(jìn)行任何限制。
[0066]步驟102:根據(jù)源語言與目標(biāo)語言之間的翻譯規(guī)則集合,使用解碼算法對(duì)源語言依存句法樹解碼。解碼過程將生成翻譯森林,并輸出最終的翻譯結(jié)果(即目標(biāo)語言串)。其中,所述翻譯規(guī)則集合中的規(guī)則包括上文所述的成分短語化的中心-修飾規(guī)則和雙語短語。
[0067]在本發(fā)明的一個(gè)實(shí)施例中,使用的解碼算法后序遍歷輸入的成分短語化的依存句法樹的每個(gè)節(jié)點(diǎn),直到根節(jié)點(diǎn)完成翻譯過程。具體步驟包括:對(duì)于訪問到的每個(gè)節(jié)點(diǎn)依存樹n,若該節(jié)點(diǎn)為葉子節(jié)點(diǎn),則在翻譯規(guī)則集合中查找以該節(jié)點(diǎn)為源端的雙語短語,使用找到的雙語短語翻譯該節(jié)點(diǎn),如果雙語短語中沒有匹配的規(guī)則,則保持該節(jié)點(diǎn)不變;如果該節(jié)點(diǎn)為內(nèi)部節(jié)點(diǎn),則枚舉以η為中心的成分短語化的中心-修飾片段所對(duì)應(yīng)修飾關(guān)系的所有詞匯化與非詞匯化實(shí)例,然后在翻譯規(guī)則集合查找匹配的規(guī)則,如果翻譯規(guī)則中沒有匹配的規(guī)則,根據(jù)成分短語化的中心-修飾片段的詞序構(gòu)造偽翻譯規(guī)則,然后利用CubePruning 算法(參考文獻(xiàn):D.Chiang.2007.Hierarchical phrase-based translation.Computational Linguistics, 33 (2).)完成該中心-修飾片段的翻譯。
[0068]上述實(shí)施例所提供的解碼算法具有以下特點(diǎn):1、規(guī)則匹配只涉及一層,不涉及多層規(guī)則匹配;2、若訪問的節(jié)點(diǎn)η為輸入依存句法樹的內(nèi)部節(jié)點(diǎn),則規(guī)則匹配不是簡(jiǎn)單的字面匹配,而是由以η為中心的成分短語化的中心-修飾片段出發(fā),生成所有該成分短語化的中心-修飾片段所對(duì)應(yīng)修飾關(guān)系的所有實(shí)例,然后查找規(guī)則集合獲得匹配的翻譯規(guī)則。[0069]下面參考圖8來說明具體的匹配和翻譯步驟(即解碼算法)。其中翻譯過程使用的翻譯規(guī)則及翻譯超邊(el,e2, e3)的對(duì)應(yīng)關(guān)系如下:
[0070]el:(英特爾)(將)推出(xl:筆記本)->Intel will launch xl
[0071]e2: (xl:亞洲)(x2:款)(超級(jí))筆記本->x2super laptop xl
[0072]e3: (xl:亞洲)(x2:款)x3:NP1- >x2x3xl
[0073]e4: (xl:第一)款->xl
[0074]雙語短語:
[0075]第一->the first
[0076]亞洲->inAsia
[0077]英特爾->Intel
[0078]將->will
[0079]超級(jí)->super
[0080]亞洲->inAsia
[0081]超級(jí)筆記本->Ultrabook
[0082]其中,所述翻譯超邊是一個(gè)三元組:(翻譯規(guī)則,頭結(jié)點(diǎn),尾節(jié)點(diǎn)集合),翻譯規(guī)則描述了源語言與目標(biāo)語言對(duì)應(yīng)關(guān)系。應(yīng)指出,上述中心-修飾規(guī)則和雙語短語是從語料庫三元組集合中抽取得到,并不限制與圖4所示例四元組所抽取出的規(guī)則范圍。
[0083]解碼算法包括:
[0084]步驟1021:后序遍歷源語言成分短語化的依存句法樹,對(duì)于訪問到的每個(gè)依存樹節(jié)點(diǎn)η,
[0085]I)如果V為葉子節(jié)點(diǎn),則在翻譯規(guī)則集合中查找所有以V對(duì)應(yīng)的詞為源端的雙語短語,使用查找到的雙語短語翻譯該節(jié)點(diǎn)。例如,圖8中節(jié)點(diǎn)“第一”為葉子節(jié)點(diǎn),從規(guī)則表集合中查找以“第一”為源端的雙語短語,找到“第一 -Hhe first”,翻譯節(jié)點(diǎn)“第一”,翻譯結(jié)果標(biāo)記于節(jié)點(diǎn)下方的方框內(nèi)。圖8中其他葉子節(jié)點(diǎn)使用同樣的方法進(jìn)行翻譯,結(jié)果標(biāo)記于節(jié)點(diǎn)下方的方框內(nèi)。
[0086]2)如果V為內(nèi)部節(jié)點(diǎn),則枚舉所有以V為中心的成分短語化的中心-修飾片段對(duì)應(yīng)的修飾關(guān)系的所有詞匯化和非詞匯化實(shí)例,在翻譯規(guī)則集合中查找所有匹配的成分短語化的中心-修飾翻譯規(guī)則。為書寫方便,此處使用括號(hào)表示方法來表示一個(gè)成分短語化的中心-修飾片段。如“NP/’、“亞洲”和“款”組成的成分短語化的中心-修飾片段可以表示為“(亞洲)(款)NP/’,其中括號(hào)內(nèi)部的為修飾部分,括號(hào)外部的為中心。為了便于表示這種關(guān)系,圖8中每個(gè)節(jié)點(diǎn)標(biāo)記有兩個(gè)狀態(tài):詞和“/”引導(dǎo)的詞性。如邊e2對(duì)應(yīng)非詞匯化的實(shí)例“(xl:亞洲)(x2:款)χ3:ΝΡ/’表示一個(gè)名詞短語。在圖8的示例中,用el和e2可以得至Ij “亞洲第一款超級(jí)筆記本”翻譯為“the first Ultrabook in Asia”。
[0087]3)如果2)中所有詞匯化和非詞匯化實(shí)例在翻譯規(guī)則集合中均找不到匹配的規(guī)則,則根據(jù)節(jié)點(diǎn)V及其所有修飾詞的詞序生成偽翻譯規(guī)則,即認(rèn)為以V為中心詞的中心詞-修飾詞片段進(jìn)行順序翻譯。圖8中,如果中心-修飾片段“(英特爾)(將)(筆記本)推出”對(duì)應(yīng)的修飾關(guān)系的所有詞匯化和非詞匯化實(shí)例都不能在規(guī)則集合中找到匹配的翻譯規(guī)則。于是,不改變?cè)凑Z言中的次序關(guān)系,即根據(jù)“(英特爾)(將)(筆記本)推出”的次序關(guān)系來構(gòu)建偽翻譯規(guī)則“(xl:英特爾)(x2:將)(χ3:筆記本)χ4:推出->xlx2x3x4”,將對(duì)應(yīng)節(jié)點(diǎn)的翻譯結(jié)果順序拼接起來,得到該片段的翻譯假設(shè),進(jìn)而得到最終翻譯結(jié)果候選willlaunch the first Ultrabook in Asia”和“Intel will launch the first super laptopin Asia,,。
[0088]步驟1022:重復(fù)步驟1021,直到訪問輸入的源語言成分短語的依存句法樹的所有節(jié)點(diǎn)。此時(shí)翻譯過程結(jié)束,根節(jié)點(diǎn)上具有最高分?jǐn)?shù)的翻譯假設(shè)即為最終翻譯結(jié)果。圖8中,使用規(guī)則“(英特爾)(將)推出(xl:筆記本)->Intel will launch xl”完成以根節(jié)點(diǎn)“推出”為中心的中心-修飾片段,得到最終翻譯結(jié)果“Intel will launch the firstUltrabook in Asia,,。
[0089]本發(fā)明結(jié)合成分句法樹到串模型兼容短語的優(yōu)勢(shì)和依存句法樹到串模型善于長(zhǎng)距離調(diào)序的優(yōu)勢(shì),將成分句法樹的成分短語信息融入到依存句法樹,并將二者的優(yōu)勢(shì)融合于成分短語化的中心-修飾翻譯規(guī)則中,從而更好的指導(dǎo)翻譯過程。在125萬平行雙語語料數(shù)據(jù)集上,本發(fā)明的基于成分句法樹和依存句法樹相結(jié)合的翻譯模型的性能較成分樹到串模型提高2.37個(gè)BLEU點(diǎn),較依存樹到串模型提高0.91個(gè)點(diǎn)。
[0090]雖然本發(fā)明已經(jīng)通過優(yōu)選實(shí)施例進(jìn)行了描述,然而本發(fā)明并非局限于這里所描述的實(shí)施例,在不脫離本發(fā)明范圍的情況下還包括所作出的各種改變以及變化。
【權(quán)利要求】
1.一種基于句法樹的規(guī)則抽取方法,其特征在于,包括下列步驟: 1)對(duì)于源語言成分句法樹,源語言依存句法樹,目標(biāo)語言串以及源語言與目標(biāo)語言間的詞語對(duì)齊關(guān)系的四元組,在源語言依存句法樹中找出并標(biāo)記與源語言成分句法樹中的成分短語節(jié)點(diǎn)相對(duì)應(yīng)的依存句法樹片段; 2)遍歷步驟I)標(biāo)記好的源語言依存句法樹,抽取中心-修飾片段,在遍歷過程中,對(duì)于與成分短語節(jié)點(diǎn)相對(duì)應(yīng)的依存句法樹片段,將該依存句法樹片段視為一個(gè)節(jié)點(diǎn)來抽取中心-修飾片段,得到含成分短語節(jié)點(diǎn)的中心-修飾片段; 3)依據(jù)所抽取的含成分短語節(jié)點(diǎn)的中心-修飾片段、目標(biāo)語言串以及源語言與目標(biāo)語言間的詞語對(duì)齊關(guān)系,生成含成分短語的中心-修飾規(guī)則。
2.根據(jù)權(quán)利要求1所述的基于句法樹的規(guī)則抽取方法,其特征在于,所述步驟I)中,如果以成分句法樹中某個(gè)成分短語節(jié)點(diǎn)為根的子樹所覆蓋的源語言端連續(xù)詞序列恰好被一個(gè)依存句法樹片段完全覆蓋,則該依存句法樹片段與所述成分短語節(jié)點(diǎn)相對(duì)應(yīng)。
3.根據(jù)權(quán)利要求2所述的基于句法樹的規(guī)則抽取方法,其特征在于,所述步驟3)中,所述含成分短語的中心-修飾規(guī)則中包括短語類別約束變量,所述短語類別約束變量表示對(duì)應(yīng)該短語類別約束變量的節(jié)點(diǎn)可由與該節(jié)點(diǎn)短語類別相同的成分短語替換。
4.根據(jù)權(quán)利要求3所述的基于句法樹的規(guī)則抽取方法,其特征在于,所述步驟2)中,在抽取含成分短語節(jié)點(diǎn)的中心-修飾片段時(shí),若成分短語節(jié)點(diǎn)覆蓋依存中心詞節(jié)點(diǎn),則以成分短語節(jié)點(diǎn)作為中心-修飾片段的根節(jié)點(diǎn),以依存修飾詞為中心-修飾片段的孩子節(jié)點(diǎn);若成分短語節(jié)點(diǎn)不覆蓋依 存中心詞,則以依存中心詞節(jié)點(diǎn)為中心-修飾片段的根節(jié)點(diǎn),以成分短語節(jié)點(diǎn)及不被成分短語節(jié)點(diǎn)覆蓋的其它依存修飾節(jié)點(diǎn)作為為中心-修飾片段的孩子節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求4所述的基于句法樹的規(guī)則抽取方法,其特征在于,所述步驟2)還包括:抽取無成分短語節(jié)點(diǎn)的中心-修飾片段; 所述步驟3)還包括:依據(jù)所抽取的無成分短語節(jié)點(diǎn)的中心-修飾片段、目標(biāo)語言串以及源語言與目標(biāo)語言間的詞語對(duì)齊關(guān)系,生成無成分短語的中心-修飾規(guī)則。
6.根據(jù)權(quán)利要求5所述的基于句法樹的規(guī)則抽取方法,其特征在于,所述步驟3)還包括:抽取雙語短語規(guī)則,雙語短語規(guī)則的源語言端和目標(biāo)語言端都是串。
7.根據(jù)權(quán)利要求2所述的基于句法樹的規(guī)則抽取方法,其特征在于,對(duì)于已經(jīng)標(biāo)記成分短語節(jié)點(diǎn)的源語言依存句法樹,對(duì)于每個(gè)依存句法樹節(jié)點(diǎn)n,利用所述對(duì)齊關(guān)系標(biāo)記依存句法樹節(jié)點(diǎn)跨度和子樹跨度;所述依存句法樹節(jié)點(diǎn)跨度是與依存句法樹節(jié)點(diǎn)η對(duì)齊的所有目標(biāo)詞的位置的集合;所述子樹跨度是指以依存句法樹節(jié)點(diǎn)η為根的子樹中所有節(jié)點(diǎn)的節(jié)點(diǎn)跨度的并集的閉包;對(duì)于每個(gè)成分短語節(jié)點(diǎn)m,標(biāo)記短語節(jié)點(diǎn)跨度,所述短語跨度是成分短語節(jié)點(diǎn)m包含的所有依存句法樹節(jié)點(diǎn)的節(jié)點(diǎn)跨度的并集的閉包。
8.根據(jù)權(quán)利要求7所述的基于句法樹的規(guī)則抽取方法,其特征在于,所述步驟2)中,在抽取含成分短語節(jié)點(diǎn)的中心-修飾片段時(shí),若成分短語節(jié)點(diǎn)覆蓋依存中心詞節(jié)點(diǎn),則以成分短語節(jié)點(diǎn)作為中心-修飾片段的根節(jié)點(diǎn),以依存修飾詞為中心-修飾片段的孩子節(jié)點(diǎn);若成分短語節(jié)點(diǎn)不覆蓋依存中心詞,則以依存中心詞節(jié)點(diǎn)為中心-修飾片段的根節(jié)點(diǎn),以成分短語節(jié)點(diǎn)及不被成分短語節(jié)點(diǎn)覆蓋的其它依存修飾節(jié)點(diǎn)作為為中心-修飾片段的孩子節(jié)點(diǎn);對(duì)于含成分短語節(jié)點(diǎn)的中心-修飾片段,若成分短語節(jié)點(diǎn)覆蓋根節(jié)點(diǎn),根節(jié)點(diǎn)的短語跨度對(duì)齊一致,孩子節(jié)點(diǎn)的子樹跨度對(duì)齊一致;若成分短語節(jié)點(diǎn)不覆蓋根節(jié)點(diǎn),根節(jié)點(diǎn)的節(jié)點(diǎn)跨度對(duì)齊一致,孩子節(jié)點(diǎn)中,成分短語節(jié)點(diǎn)的短語跨度對(duì)齊一致,其它孩子節(jié)點(diǎn)的子樹跨度對(duì)齊一致。
9.根據(jù)權(quán)利要求8所述的基于句法樹的規(guī)則抽取方法,其特征在于,所述步驟3)中,所述含成分短語的中心-修飾規(guī)則包括半詞匯化的含成分短語的中心-修飾規(guī)則,其構(gòu)造方法為:構(gòu)造半詞匯化的含成分短語的中心-修飾規(guī)則源語言端,將依存句法樹內(nèi)部節(jié)點(diǎn)標(biāo)記為詞匯化約束變量;將成分短語節(jié)點(diǎn)標(biāo)記為短語類別約束變量;構(gòu)造半詞匯化的含成分短語的中心-修飾規(guī)則目標(biāo)語言端:按照含成分短語節(jié)點(diǎn)的中心-修飾片段中各個(gè)節(jié)點(diǎn)所標(biāo)記的跨度排列中心-修飾片段中所有節(jié)點(diǎn),并用詞匯化約束變量替換其中依存句法樹內(nèi)部節(jié)點(diǎn),用短語類別約束變量替換其中成分短語節(jié)點(diǎn);短語類別約束變量表示對(duì)應(yīng)該短語類別約束變量的節(jié)點(diǎn)可由與該節(jié)點(diǎn)短語類別相同的短語替換。
10.根據(jù)權(quán)利要求9所述的基于句法樹的規(guī)則抽取方法,其特征在于,所述步驟3)中,所述含成分短語的中心-修飾規(guī)則還包括非詞匯化的含成分短語的中心-修飾規(guī)則,其構(gòu)造方法為:將半詞匯化的含成分短語的中心-修飾規(guī)則中的一個(gè)或多個(gè)節(jié)點(diǎn)的詞匯化約束變量轉(zhuǎn)換為詞性約束變量。
11.一種基于句法樹的翻譯方法,其特征在于,包括下列步驟: a)分析待翻譯的源語言串,得到其成分句法樹和依存句法樹,在源語言依存句法樹中找出并標(biāo)記與源語言成分句法樹中的成分短語節(jié)點(diǎn)相對(duì)應(yīng)的依存句法樹片段; b)根據(jù)源語言與目標(biāo)語言之間的翻譯規(guī)則集合,基于步驟a)標(biāo)記好的源語言依存句法樹生成翻譯森林,并輸出最終的翻譯結(jié)果;其中,所述翻譯規(guī)則集合中的規(guī)則包括:基于權(quán)利要求I~10任意一項(xiàng)所述的基.于句法樹的規(guī)則抽取方法所得到的規(guī)則。
【文檔編號(hào)】G06F17/28GK103473223SQ201310450616
【公開日】2013年12月25日 申請(qǐng)日期:2013年9月25日 優(yōu)先權(quán)日:2013年9月25日
【發(fā)明者】謝軍, 孟凡東, 呂雅娟, 劉群 申請(qǐng)人:中國科學(xué)院計(jì)算技術(shù)研究所