本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,更具體地說,涉及一種基于雙語語義映射的事件短語學(xué)習(xí)方法及裝置。
背景技術(shù):
事件識別(eventrecognition)是信息抽取(informationextraction,ie)領(lǐng)域中一個非常重要的研究方向,也是自然語言處理(naturallanguageprocessing,nlp)任務(wù)的一項基礎(chǔ)工作,主要是為了通過識別文檔中的事件,從而判斷文檔是否與某一特定類型的事件相關(guān)。
目前事件識別方法主要分為兩類,一類是基于監(jiān)督機器學(xué)習(xí)的方法,依賴于大量的人工標注數(shù)據(jù),獲取較好抽取效果的同時,耗時耗力,并且可移植性較差。另一類是基于半監(jiān)督學(xué)習(xí)的自舉(bootstrapping)方法,該方法能夠解決監(jiān)督機器學(xué)習(xí)的方法中存在的上述缺點,但是抽取的效果高度依賴于初始種子的質(zhì)量和迭代過程中的條件約束,并且在自舉迭代的后期,錯誤增長非常的快速;為了克服上述缺陷,取得較高的事件抽取準確率,對自舉方法做了嚴格的句法結(jié)構(gòu)限制,在此限制之下,會導(dǎo)致很多描述需要識別出的特定類型事件的事件短語無法學(xué)習(xí)到,進而導(dǎo)致事件識別性能較差。
綜上所述,如何提供一種事件識別性能較好的事件短語學(xué)習(xí)技術(shù)方案,是目前本領(lǐng)域技術(shù)人員亟待解決的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種基于雙語語義映射的事件短語學(xué)習(xí)方法及裝置,以提升事件識別性能。
為了實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于雙語語義映射的事件短語學(xué)習(xí)方法,包括:
獲取學(xué)習(xí)到的動賓結(jié)構(gòu)的事件短語,并提取出所述事件短語中包含的動詞結(jié)構(gòu)及名詞結(jié)構(gòu);
利用預(yù)先獲取的包含有多個paraphrase對的數(shù)據(jù)集確定出與每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合及每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合中每一個paraphrase對的質(zhì)量分數(shù),從每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合中獲取具有相同詞性的轉(zhuǎn)述詞;
確定所述質(zhì)量分數(shù)大于分數(shù)閾值的paraphrase對對應(yīng)轉(zhuǎn)述詞為對應(yīng)動詞結(jié)構(gòu)或名詞結(jié)構(gòu)的替換詞,將同一事件短語中包含的動詞結(jié)構(gòu)、名詞結(jié)構(gòu)及對應(yīng)替換詞重新組成擴展短語,并利用所述事件短語及對應(yīng)擴展短語實現(xiàn)事件短語學(xué)習(xí)。
優(yōu)選的,利用所述擴展短語實現(xiàn)事件短語學(xué)習(xí)之前,還包括:
確定每個擴展短語在預(yù)先獲取的語料集中出現(xiàn)的頻率,并將該頻率小于頻率閾值的擴展短語刪除。
優(yōu)選的,將同一事件短語中包含的動詞結(jié)構(gòu)、名詞結(jié)構(gòu)及對應(yīng)替換詞組成擴展短語,包括:
將同一事件短語中包含的動詞結(jié)構(gòu)與該事件短語中包含的名詞結(jié)構(gòu)的各替換詞分別組成擴展短語,并將同一事件短語中包含的名詞結(jié)構(gòu)與該事件短語中包含的動詞結(jié)構(gòu)的各替換詞分別組成擴展短語。
優(yōu)選的,利用所述擴展短語實現(xiàn)事件短語學(xué)習(xí)之前,還包括:
將與事件短語相同的擴展短語刪除。
一種基于雙語語義映射的事件短語學(xué)習(xí)裝置,包括:
提取模塊,用于:獲取學(xué)習(xí)到的動賓結(jié)構(gòu)的事件短語,并提取出所述事件短語中包含的動詞結(jié)構(gòu)及名詞結(jié)構(gòu);
分析模塊,用于:利用預(yù)先獲取的包含有多個paraphrase對的數(shù)據(jù)集確定出與每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合及每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合中每一個paraphrase對的質(zhì)量分數(shù),從每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合中獲取具有相同詞性的轉(zhuǎn)述詞;
學(xué)習(xí)模塊,用于:確定所述質(zhì)量分數(shù)大于分數(shù)閾值的paraphrase對對應(yīng)轉(zhuǎn)述詞為對應(yīng)動詞結(jié)構(gòu)或名詞結(jié)構(gòu)的替換詞,將同一事件短語中包含的動詞結(jié)構(gòu)、名詞結(jié)構(gòu)及對應(yīng)替換詞重新組成擴展短語,并利用所述事件短語及對應(yīng)擴展短語實現(xiàn)事件短語學(xué)習(xí)。
優(yōu)選的,還包括:
約束模塊,用于:利用所述擴展短語實現(xiàn)事件短語學(xué)習(xí)之前,確定每個擴展短語在預(yù)先獲取的語料集中出現(xiàn)的頻率,并將該頻率小于頻率閾值的擴展短語刪除。
優(yōu)選的,所述學(xué)習(xí)模塊包括:
重組單元,用于:將同一事件短語中包含的動詞結(jié)構(gòu)與該事件短語中包含的名詞結(jié)構(gòu)的各替換詞分別組成擴展短語,并將同一事件短語中包含的名詞結(jié)構(gòu)與該事件短語中包含的動詞結(jié)構(gòu)的各替換詞分別組成擴展短語。
優(yōu)選的,還包括:
去重模塊,用于:利用所述擴展短語實現(xiàn)事件短語學(xué)習(xí)之前,將與事件短語相同的擴展短語刪除。
本發(fā)明提供了一種基于雙語語義映射的事件短語學(xué)習(xí)方法及裝置,其中該方法包括:獲取學(xué)習(xí)到的動賓結(jié)構(gòu)的事件短語,并提取出所述事件短語中包含的動詞結(jié)構(gòu)及名詞結(jié)構(gòu);利用預(yù)先獲取的包含有多個paraphrase對的數(shù)據(jù)集確定出與每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合及每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合中每一個paraphrase對的質(zhì)量分數(shù),從每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合中獲取具有相同詞性的轉(zhuǎn)述詞;確定所述質(zhì)量分數(shù)大于分數(shù)閾值的paraphrase對對應(yīng)轉(zhuǎn)述詞為對應(yīng)動詞結(jié)構(gòu)或名詞結(jié)構(gòu)的替換詞,將同一事件短語中包含的動詞結(jié)構(gòu)、名詞結(jié)構(gòu)及對應(yīng)替換詞重新組成擴展短語,并利用所述事件短語及對應(yīng)擴展短語實現(xiàn)事件短語學(xué)習(xí)。本申請公開的技術(shù)方案中,獲取自舉方法中學(xué)習(xí)到的事件短語并由中提取到名詞結(jié)構(gòu)及動詞結(jié)構(gòu),通過paraphrase雙語語義映射確定出與每個名詞結(jié)構(gòu)及動詞結(jié)構(gòu)對應(yīng)的替換詞,從而通過動詞結(jié)構(gòu)、名詞結(jié)構(gòu)及對應(yīng)的替換詞泛化出更多的同類事件短語,即擴展短語,并將得到的擴展短語及事件短語用于事件短語學(xué)習(xí)中,通過這種方法不僅擴展事件短語原有的語義,還通過包含句法結(jié)構(gòu)的短語一定程度上實現(xiàn)了事件短語結(jié)構(gòu)上的擴展,從而有效解決了現(xiàn)有技術(shù)中由于嚴格的句法結(jié)構(gòu)限制導(dǎo)致無法學(xué)習(xí)到很多特定事件的事件短語的問題,且實驗表明,本申請公開的上述技術(shù)方案可以有效的學(xué)習(xí)到新的事件短語,即擴展短語,在事件識別性能上得到了顯著的提升。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法的流程圖;
圖2為本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法中及物動詞后接直接賓語的示意圖;
圖3為本發(fā)明實施例提供的本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法中不及物動詞后加介詞后再接賓語的示意圖;
圖4為本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法中動詞結(jié)構(gòu)與名詞結(jié)構(gòu)抽取示例圖;
圖5為本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法中paraphrase抽取示例圖;
圖6為本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法中paraphrase中n-gram特征抽取示例圖;
圖7為本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法中語言學(xué)約束上的特征抽取示例圖;
圖8為本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
請參閱圖1,其示出了本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法的流程圖,可以包括:
s11:獲取學(xué)習(xí)到的動賓結(jié)構(gòu)的事件短語,并提取出事件短語中包含的動詞結(jié)構(gòu)及名詞結(jié)構(gòu)。
本申請公開的技術(shù)方案可以從huang和riloff(即文獻ruihonghuangandellenriloff,2013.multi-facetedeventrecognitionwithbootstrappeddictionaries.inhlt-naacl,pages41–51;后文簡稱h&r)中的自舉方法展開,通過雙語語義映射來學(xué)習(xí)出更多事件短語,以克服自舉方法中固有的局限性。其中對于識別任務(wù)的對象具體可以根據(jù)實際需要進行確定,如可以主要識別社會動亂(civilunrest)這一特定主題的事件。具體來說,本申請中獲取到的事件短語具體可以是在h&r方法中第四輪迭代時學(xué)習(xí)到的,包括事件表示短語(eventphrases,ep)和事件目的短語(purposephrases,pp),這是因為在h&r方法的第四輪迭代中學(xué)習(xí)到的短語在事件識別效果上達到了最高,從而有利于提高本申請?zhí)峁┑募夹g(shù)方案的事件識別性能。
另外在h&r自舉迭代學(xué)習(xí)方法中,為了減少噪聲在自動迭代過程增長過快,對短語的格式進行了嚴格的限定,要求事件表示短語和事件目的短語必須為動賓結(jié)構(gòu),具體表現(xiàn)形式有兩種,其一是及物動詞后接直接賓語,如圖2,其二是不及物動詞后加介詞后再接賓語,如圖3。其中,賓語為一個名詞短語的核心詞(nounhead),因此可以根據(jù)短語的已知結(jié)構(gòu)進行動詞結(jié)構(gòu)提取與名詞結(jié)構(gòu)提取,圖4展示了幾種短語類型的動詞結(jié)構(gòu)與名詞結(jié)構(gòu)的抽取方法:由于短語最后一個單詞均為名詞的核心詞,因此,可以將除了最后一個單詞以外的部分都看作動詞結(jié)構(gòu)的部分,例如p1中,動詞結(jié)構(gòu)為單個單詞“stage”,p2中,動詞結(jié)構(gòu)為一個不及物動詞連接介詞的結(jié)構(gòu)“callfor”,p3中,動詞結(jié)構(gòu)為一個動詞不定式結(jié)構(gòu)“tovoice”。
s12:利用預(yù)先獲取的包含有多個paraphrase對的數(shù)據(jù)集確定出與每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合及每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合中每一個paraphrase對的質(zhì)量分數(shù),并獲取與每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)組成對應(yīng)paraphrase對的具有相同詞性的轉(zhuǎn)述詞。
其中數(shù)據(jù)集可以為預(yù)先獲取的,該數(shù)據(jù)集中包含有數(shù)量非常多的paraphrase對,由此通過該數(shù)據(jù)集中可以確定與每個動詞結(jié)構(gòu)或名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合及每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合中每一個paraphrase對的質(zhì)量分數(shù),質(zhì)量分數(shù)越高表明paraphrase對中包含的兩個詞結(jié)構(gòu)越可以互換,以及互相作為彼此的轉(zhuǎn)述詞時轉(zhuǎn)述效果越好,對應(yīng)的動詞結(jié)構(gòu)或名詞結(jié)構(gòu)組成的paraphrase對中另一詞結(jié)構(gòu)即為該動詞結(jié)構(gòu)或名詞結(jié)構(gòu)的轉(zhuǎn)述詞(paraphrase)。也即本申請是利用paraphrase基于雙語映射學(xué)習(xí)到的同義轉(zhuǎn)述單詞、短語和句法結(jié)構(gòu)進行事件短語的擴展學(xué)習(xí),具體來說paraphrase是通過單詞、短語等結(jié)構(gòu)在雙語之間進行映射,繼而學(xué)習(xí)到原有單詞、短語的轉(zhuǎn)述表達形式的方法。paraphrase的定義是指某一語言上兩個不同的單詞(word)、短語(phrase)或模式(pattern)在另一語言中有相同的翻譯結(jié)果,則認為這兩個單詞、短語或模式是一對paraphrase。paraphrase可以看做是描述某一實體、特征、事件等的一種備選方案,可以是詞匯級的、短語級的、句法級的,其中詞匯級的paraphrase通常表示兩個相似相近或是可以相互替換的單詞,而短語級和句法級別的paraphrase除了是同義轉(zhuǎn)述以外,還蘊含了許多句法結(jié)構(gòu)信息。2013年paraphrasedatabase1.0(ppdb1.0)數(shù)據(jù)集被發(fā)布,該數(shù)據(jù)集包含了2.2億paraphrase對,其中包括800萬詞匯級paraphrase對、7300萬短語級paraphrase對和1.4億的模式級paraphrase對。其后,在ppdb1.0數(shù)據(jù)集基礎(chǔ)上通過改進原有的打分模型的排序算法、增加了蘊含關(guān)系識別模塊以及單詞的wordembedding相似度計算方法和完善了類別標注模型,于2015年發(fā)布了升級版的ppdb2.0數(shù)據(jù)集。本申請公開的上述技術(shù)方案的數(shù)據(jù)集可以為選取ppdb系列,首先可以組建如表1所示的字典數(shù)據(jù)結(jié)構(gòu):
表1paraphrase存放數(shù)據(jù)結(jié)構(gòu)示例
其中,key為待擴展的原始結(jié)構(gòu)(即由事件短語中提取出的動詞結(jié)構(gòu)或名詞結(jié)構(gòu)),value為一個列表,其每一項由三部分組成:原始結(jié)構(gòu)的一個候選paraphrase、候選paraphrase詞性標注(part-of-speechtags,postags)、與原始結(jié)構(gòu)的相似度分值(即質(zhì)量分數(shù))。詞性標注的作用是為了區(qū)別結(jié)構(gòu)的詞性,很多結(jié)構(gòu)同時具有多種詞性,當要抽取一個結(jié)構(gòu)的paraphrase時,要根據(jù)原始結(jié)構(gòu)的詞性作為依據(jù),也即需要選取與原始結(jié)構(gòu)的詞性相同的paraphrase;相似度分值的作用,是為了過濾掉一些質(zhì)量不太高的paraphrase,對于相似度分值較低的paraphrase,其質(zhì)量往往較差。
具體來說,針對動詞結(jié)構(gòu)組成的列表中的每一個動詞結(jié)構(gòu)抽取其paraphrase列表,特別的,抽取時,必須保證其詞性標注(pos_tag)為動詞結(jié)構(gòu),才進行抽??;抽取結(jié)果示例如表2:
表2動詞結(jié)構(gòu)paraphrase抽取示例
由于篇幅限制,這里僅展示每個動詞結(jié)構(gòu)相似度分值最高的3個paraphrase,在實際操作中,有些詞結(jié)構(gòu)可以有幾十個paraphrase,而有些詞,僅有一兩個,同時也存在一些動詞結(jié)構(gòu),沒有學(xué)習(xí)得到paraphrase。
針對名詞結(jié)構(gòu)組成的列表中的每一個名詞結(jié)構(gòu)抽取其paraphrase列表,特別的,抽取時,必須保證其詞性標注(pos_tag)為名詞結(jié)構(gòu),才進行抽?。怀槿〗Y(jié)果示例如表3:
表3名詞結(jié)構(gòu)paraphrase抽取示例
表3為每個示例名詞結(jié)構(gòu)列出了相似度分值最高的3個paraphrase。
s13:確定質(zhì)量分數(shù)大于分數(shù)閾值的paraphrase對對應(yīng)轉(zhuǎn)述詞為對應(yīng)動詞結(jié)構(gòu)或名詞結(jié)構(gòu)的替換詞,將同一事件短語中包含的動詞結(jié)構(gòu)、名詞結(jié)構(gòu)及對應(yīng)替換詞組成擴展短語,并利用事件短語及對應(yīng)擴展短語實現(xiàn)事件短語學(xué)習(xí)。
其中分數(shù)閾值可以根據(jù)實際需要進行設(shè)定,質(zhì)量分數(shù)大于分數(shù)閾值則說明對應(yīng)的paraphrase對質(zhì)量較好,其中包含的結(jié)構(gòu)互相之間可以作為替換詞,否則,則說明對應(yīng)的paraphrase對質(zhì)量相對較低,實驗中不選取其中包含的結(jié)構(gòu)作為替換詞。具體來說,如表2所示,即使是相似度分值較高的詞,抽取出的paraphrase也會混雜一些噪聲,例如“oppose”的第二個paraphrase為“am”,這時候就需要用上其質(zhì)量分數(shù)過濾掉這樣的paraphrase。當然還可以根據(jù)實際需要進行其他設(shè)置,如對于任一名詞結(jié)構(gòu)或動詞結(jié)構(gòu),選取其對應(yīng)質(zhì)量分數(shù)最大的預(yù)設(shè)數(shù)量個(如15個,如果對應(yīng)的轉(zhuǎn)述詞不足預(yù)設(shè)數(shù)量個則全部保留)轉(zhuǎn)述詞作為替換詞等,均在本發(fā)明的保護范圍之內(nèi)。獲取替換詞后,可以將動詞結(jié)構(gòu)、名詞結(jié)構(gòu)及對應(yīng)替換詞組成新的短語,即擴展短語,從而泛化出更多具有相似含義的同類事件短語,并將得到的這些擴展短語及事件短語同時用于h&r方法的事件識別任務(wù),完成對應(yīng)的測評。
本申請公開的技術(shù)方案中,獲取自舉方法中學(xué)習(xí)到的事件短語并由中提取到名詞結(jié)構(gòu)及動詞結(jié)構(gòu),通過paraphrase雙語語義映射確定出與每個名詞結(jié)構(gòu)及動詞結(jié)構(gòu)對應(yīng)的替換詞,從而通過動詞結(jié)構(gòu)、名詞結(jié)構(gòu)及對應(yīng)的替換詞泛化出更多的同類事件短語,即擴展短語,并將得到的擴展短語及事件短語用于事件短語學(xué)習(xí)中,通過這種方法不僅擴展事件短語原有的語義,還通過包含句法結(jié)構(gòu)的短語一定程度上實現(xiàn)了事件短語結(jié)構(gòu)上的擴展,從而有效解決了現(xiàn)有技術(shù)中由于嚴格的句法結(jié)構(gòu)限制導(dǎo)致無法學(xué)習(xí)到很多特定事件的事件短語的問題,且實驗表明,本申請公開的上述技術(shù)方案可以有效的學(xué)習(xí)到新的事件短語,即擴展短語,在事件識別性能上得到了顯著的提升。
以下對如何獲取包含有多個paraphrase對的數(shù)據(jù)集以及各paraphrase對的質(zhì)量分數(shù)進行具體說明:
paraphrase對基于雙語平行語料抽取得到,在ppdb中,采用了一個加權(quán)的同步上下文無關(guān)語法(synchronouscontext-freegrammar,scfg),同時采用非終結(jié)符標簽語法。一條scfg規(guī)則的形式如下:
該式中,規(guī)則的左端c是一個非終結(jié)符,規(guī)則的右端的f和e是終結(jié)符與非終結(jié)符中間的兩個字符串,~代表f與e之間一對一的對應(yīng)關(guān)系,
為了抽取paraphrase的句法語法規(guī)則,首先通過句法機器翻譯系統(tǒng)在雙語平行文本上抽取英文(e)到另一語言(f)的翻譯規(guī)則,若兩條翻譯規(guī)則中具有相同的c和f,如下式:
則可以根據(jù)此兩條規(guī)則抽取出一條paraphrase的規(guī)則rp,如下:
該式中,兩個英文字符串e1和e2在另一語言中具有相同的翻譯f。整個抽取的思想可以用圖5展示的例子來說明:
圖5中,“held”(e1)與“staged”(e2)在中文端具有相同的翻譯“舉行”(f),則可以抽取出一對paraphrase,“held”和“staged”。
針對每一對e1與e2,可以計算其映射概率p(e2|e1),該條件概率等于e1與e2在另一語言上共享的全部的翻譯f的集合的條件概率乘積之和,即下式所示:
由上述原理可知,在抽取paraphrase轉(zhuǎn)譯短語對時,運用了大量的語言學(xué)和句法結(jié)構(gòu)信息作為特征,抽取出的短語級的、句法級的paraphrase對中包含了豐富的結(jié)構(gòu)信息,因此,采用paraphrase擴展事件短語,不單單可以進行一個單詞的同義替換,還可以進行短語中部分結(jié)構(gòu)的同義轉(zhuǎn)換,從而獲得語義更加豐富的短語和結(jié)構(gòu)更多樣化的短語。
完成paraphrase抽取工作以后,就可以得到規(guī)模龐大的paraphrase對,然而,并非每一個轉(zhuǎn)譯詞對的質(zhì)量都很高,因此,還需要對抽取得到的paraphrase對進行打分。受到具有相似含義的短語在文本中往往具有相似的上下文這一靈感的啟發(fā),可以采用短語在單語語料中的分布相似度來對抽取出的paraphrase對進行重排序。
為了描述一個短語e在單語語料中上下文的分布特征,為e在語料中的每一次出現(xiàn)情況統(tǒng)計了一個基于上下文特征的集合,用上下文向量
大量的特征可以用作表示一個短語在文本中的分布特性,包括很多語言學(xué)特征,例如依存關(guān)系、句法結(jié)構(gòu)組成、詞性標注或詞干信息等。實驗中使用的特征具體表現(xiàn)形式例如:動詞的主語是什么?有哪些形容詞修飾該短語?或者僅采用簡化的n-gram模型,這個單詞的左邊一個或幾個單詞是什么,右邊一個或幾個單詞是什么?
在ppdb中,為n-gram語料中最高頻的2億多短語計算了一個基于n-gram的上下文特征,在語言學(xué)約束上,采用了蘊含豐富語言學(xué)特征的標注過的gigaword語料作為數(shù)據(jù)集,實驗中具體抽取的特征如下:
采用短語左右各一個詞作為特征作為基于n-gram模型的特征;
位置感知詞匯(position-awarelexical)、基于詞干(lemma-based)、詞性標注、命名實體類一元和二元特征,創(chuàng)建一個三個詞的窗口,包含當前詞和當前詞前一個詞和后一個詞;
短語的依存關(guān)系特征,對應(yīng)的入度和出度的單詞結(jié)點和詞性標注等;
短語的句法結(jié)構(gòu)組成特征,按照ccg風格標識短語成分標簽。
下面分別用兩張圖展示paraphrase在語言學(xué)約束上抽取特征的方法。圖6展示了n-gram特征抽取的一個例子:
如圖6所示,模型記錄了短語“thelong-term”在語料中出現(xiàn)在單詞“revise”后面43次,出現(xiàn)在單詞“plans”前面97次,保留這些計數(shù)信息作為短語“thelong-term”的分布特征的一部分。
圖7展示了一個語言學(xué)約束上的特征抽取示例,其中包括位置感知詞匯、n-gram的詞性標注特征,依存關(guān)系連接信息,和短語的ccg風格成分標簽(np/nn)。
本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法,利用擴展短語實現(xiàn)事件短語學(xué)習(xí)之前,還可以包括:
確定每個擴展短語在預(yù)先獲取的語料集中出現(xiàn)的頻率,并將該頻率小于頻率閾值的擴展短語刪除。
通過paraphrase替換生成的擴展短語,并非就一定是一個合理的真實存在的短語搭配,因此需要進行語言學(xué)約束,只保留常用的短語搭配,過濾掉不符合語言學(xué)習(xí)慣的短語搭配。具體可以選取gigaword第四版英文語料作為語料集,將在語料集中出現(xiàn)的頻率小于頻率閾值的擴展短語刪除,從而進一步保證了事件識別準確性。其中頻率閾值可以根據(jù)實際需要進行設(shè)定,對于任一擴展短語的出現(xiàn)頻率的計算具體可以為該擴展短語在訓(xùn)練語料中出現(xiàn)的次數(shù)與訓(xùn)練語料中包含的全部短語出現(xiàn)的總次數(shù)之比。
本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法,將同一事件短語中包含的動詞結(jié)構(gòu)、名詞結(jié)構(gòu)及對應(yīng)替換詞組成擴展短語,可以包括:
將同一事件短語中包含的動詞結(jié)構(gòu)與該事件短語中包含的名詞結(jié)構(gòu)的各替換詞分別組成擴展短語,并將同一事件短語中包含的名詞結(jié)構(gòu)與該事件短語中包含的動詞結(jié)構(gòu)的各替換詞分別組成擴展短語。
需要說明的是,實現(xiàn)擴展短語的重組的方法可以根據(jù)實際需要進行設(shè)置,此處以一個事件短語進行說明,如可以將該事件短語中包含的名詞結(jié)構(gòu)及該名詞結(jié)構(gòu)對應(yīng)的替換詞均稱為名詞,動詞結(jié)構(gòu)及該動詞結(jié)構(gòu)對應(yīng)的替換詞均稱為動詞,從而將每個名詞與每個動詞分別組成擴展短語;也可以將名詞結(jié)構(gòu)與動詞結(jié)構(gòu)的每個替換詞分別組成擴展短語,將動詞結(jié)構(gòu)與名詞結(jié)構(gòu)的每個替換詞分別組成擴展短語,當然還可以根據(jù)實際需要進行其他設(shè)定,均在本發(fā)明的保護范圍之內(nèi)。而通過實驗證明,上述舉例中的第二種,即將同一事件短語中包含的動詞結(jié)構(gòu)與該事件短語中包含的名詞結(jié)構(gòu)的各替換詞分別組成擴展短語,并將同一事件短語中包含的名詞結(jié)構(gòu)與該事件短語中包含的動詞結(jié)構(gòu)的各替換詞分別組成擴展短語,得到的擴展短語包含噪聲較小,有利于提升事件識別準確率。
本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法,利用擴展短語實現(xiàn)事件短語學(xué)習(xí)之前,還包括:
將與事件短語相同的擴展短語刪除。
如果組成的擴展短語成為已經(jīng)存在的事件短語,則這樣的擴展短語并不是新的詞語,需要將其刪除,從而避免了短語重復(fù)性,保證了本發(fā)明提供的上述技術(shù)方案的實施效率。
另外采用以下實驗證明本申請公開的上述技術(shù)方案的良好性能:
本實驗在ppdb1.0和ppdb2.0兩個版本的數(shù)據(jù)集上作對比實驗,進行本申請公開的上述基于paraphrase的方法擴展學(xué)習(xí)事件短語的實驗。采用gigaword英文第四版語料集作為語言學(xué)約束的語料集。實驗中,針對paraphrase對質(zhì)量分數(shù)閾值的選擇,經(jīng)調(diào)試集上評測設(shè)定為2.8。
實驗結(jié)果測評采用h&r標注400篇文檔作為測評數(shù)據(jù)集,其中300篇作為測試集,100篇作為調(diào)試集,整個測評系統(tǒng)使用準確率、召回率和f值作為評價指標。
首先,進行動詞結(jié)構(gòu)的替換擴展實驗,采用提取到的動詞結(jié)構(gòu)列表作為要擴展的結(jié)構(gòu)列表,分別在ppdb1.0和ppdb2.0數(shù)據(jù)集上進行其paraphrase結(jié)構(gòu)的抽取,并針對擴展top1~10相近的結(jié)構(gòu)獲得的短語列表在測試集上進行事件識別任務(wù)的效果測評,其結(jié)果如表3所示:
表3動詞結(jié)構(gòu)paraphrase替換擴展事件短語實驗結(jié)果
由表3可以看出,在ppdb1.0和ppdb2.0數(shù)據(jù)集上,f值最好結(jié)果分別為81.0%和81.3%,再分析擴展top1~10短語的準確率和召回率可以發(fā)現(xiàn),ppdb1.0數(shù)據(jù)集上,f值的提升,依靠的是召回率的增長,同時損失了很大一部分準確率,因此隨著擴展短語數(shù)量不斷增多時取得最好的f值,而ppdb2.0數(shù)據(jù)集上,f值的增長,依靠的是較高的準確率,而到后面,隨著短語數(shù)量的增加,準確率降低,召回率不再繼續(xù)提升,導(dǎo)致f值下降。造成這個結(jié)果的原因,分析是因為ppdb1.0和ppdb2.0采用的對paraphrase打分策略和排序策略的調(diào)整,ppdb2.0可以提供更精準質(zhì)量更好的paraphrase。因此可以得出結(jié)論,若想從提升短語數(shù)量,提升召回率的角度出發(fā),應(yīng)該采用ppdb1.0數(shù)據(jù)集進行短語的擴展,若想獲得更高準確率的短語,則應(yīng)該在ppdb2.0數(shù)據(jù)集上進行擴展。
進行名詞結(jié)構(gòu)的替換擴展實驗,采用提取得到的名詞結(jié)構(gòu)列表作為要擴展的結(jié)構(gòu)列表,分別在ppdb1.0和ppdb2.0數(shù)據(jù)集上進行其paraphrase結(jié)構(gòu)的抽取,并針對擴展top1~10相近的結(jié)構(gòu)獲得的短語列表在測試集上進行事件識別任務(wù)的效果測評,其結(jié)果如表4所示:
表4名詞結(jié)構(gòu)paraphrase替換擴展事件短語實驗結(jié)果
實驗結(jié)果顯示,采用ppdb2.0擴展名詞結(jié)構(gòu)的結(jié)果總體都高于采用ppdb1.0的擴展效果,f值的最好結(jié)果分別為80.6%和80.2%。在ppdb2.0上具有更高的準確率,但是召回率的表現(xiàn)相對較差(僅74.3%),而ppdb1.0擴展,依舊在召回率上比較突出(83.2%),然而隨著短語數(shù)量的增加,其準確率的值降低的速度太快。因此,可以得到與擴展動詞結(jié)構(gòu)類似的結(jié)論。如果目標是獲得更多的短語,則采用ppdb1.0進行擴展,若想獲得更高準確率的短語,則應(yīng)當在ppdb2.0上進行擴展學(xué)習(xí)。
通過用paraphrase替換原事件短語中的部分結(jié)構(gòu)來擴展新的事件短語的方法,可以有效地獲取很多新短語,通過對學(xué)習(xí)到的新短語進行分析發(fā)現(xiàn),該方法提升事件識別召回率的同時,還通過結(jié)構(gòu)的替換,短語的結(jié)構(gòu)或形態(tài)發(fā)生了一些新的變化,有一些新的結(jié)構(gòu)產(chǎn)生。通過分析歸納,我們將通過paraphrase擴展出的短語分為4種類型。
1.單個動詞的同義轉(zhuǎn)述
動詞結(jié)構(gòu)為單個動詞的,通過該動詞的paraphrase進行同義轉(zhuǎn)述生成的短語。例如表5中“blocked”與“blockaded”的替換。
2.動詞短語的同義轉(zhuǎn)述
動詞結(jié)構(gòu)為多個單詞的,通過動詞組合的paraphrase進行同義轉(zhuǎn)述生成的短語。例如表5中“participatingin”與“takepartin”的替換。
3.動詞時態(tài)的變化
動詞的原型、過去式、過去分詞、現(xiàn)在進行時、動詞不定式和被動式等形態(tài)的轉(zhuǎn)變生成的短語。例如表5中“begun”與“arebeginning”的替換。
4.非動賓結(jié)構(gòu)短語的產(chǎn)生
少量的具有新型結(jié)構(gòu)的短語產(chǎn)生,比如名詞結(jié)構(gòu)的短語。例如表5中“topressforreforms”的轉(zhuǎn)述短語“requirementsforreforms”就是一個名詞結(jié)構(gòu)的短語。
絕大多數(shù)通過paraphrase擴展的短語都屬于以上四種類別,也有部分是它們的組合情況,更多的例子可以參考表5。
表5基于paraphrase學(xué)習(xí)的新事件短語示例
本申請針對自舉算法中的句法結(jié)構(gòu)限制,提出了一種采用paraphrase擴展學(xué)習(xí)事件短語的方法,paraphrase利用上雙語之間的互補信息,有效地獲得了很多英文結(jié)構(gòu)的同義轉(zhuǎn)述表示,且實驗結(jié)果證明,通過paraphrase進行事件短語的擴展學(xué)習(xí),可以有效地提升事件識別任務(wù)的效果,分別在ppdb1.0數(shù)據(jù)集上,可以顯著提升事件識別的召回率(83.2%),在ppdb2.0數(shù)據(jù)集上,則可以學(xué)習(xí)出較高質(zhì)量的事件短語,在損失少量準確率的同時,提升了召回率,最終將f值提升到了81.3%。除以之外,由于短語級和句法級的paraphrase中蘊含了很多結(jié)構(gòu)信息,因此,本方法還有效地學(xué)習(xí)出了具有新結(jié)構(gòu)的事件短語,例如少量名詞結(jié)構(gòu)的事件短語,一定程度上緩解了自舉算法中對短語結(jié)構(gòu)所作的嚴格的限制。
本發(fā)明實施例公開的技術(shù)方案中與現(xiàn)有技術(shù)中對應(yīng)技術(shù)方案原理一致的部分并未詳細說明,以免過多贅述。
本發(fā)明實施例還提供了一種基于雙語語義映射的事件短語學(xué)習(xí)裝置,如圖8所示,可以包括:
提取模塊11,用于:獲取學(xué)習(xí)到的動賓結(jié)構(gòu)的事件短語,并提取出事件短語中包含的動詞結(jié)構(gòu)及名詞結(jié)構(gòu);
分析模塊12,用于:利用預(yù)先獲取的包含有多個paraphrase對的數(shù)據(jù)集確定出與每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合及每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合中每一個paraphrase對的質(zhì)量分數(shù),從每個動詞結(jié)構(gòu)及名詞結(jié)構(gòu)對應(yīng)的paraphrase對集合中獲取具有相同詞性的轉(zhuǎn)述詞;
學(xué)習(xí)模塊13,用于:確定質(zhì)量分數(shù)大于分數(shù)閾值的paraphrase對對應(yīng)轉(zhuǎn)述詞為對應(yīng)動詞結(jié)構(gòu)或名詞結(jié)構(gòu)的替換詞,將同一事件短語中包含的動詞結(jié)構(gòu)、名詞結(jié)構(gòu)及對應(yīng)替換詞組成擴展短語,并利用事件短語及對應(yīng)擴展短語實現(xiàn)事件短語學(xué)習(xí)。
本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)裝置,還可以包括:
約束模塊,用于:利用擴展短語實現(xiàn)事件短語學(xué)習(xí)之前,確定每個擴展短語在預(yù)先獲取的語料集中出現(xiàn)的頻率,并將該頻率小于頻率閾值的擴展短語刪除。
本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)裝置,學(xué)習(xí)模塊可以包括:
重組單元,用于:將同一事件短語中包含的動詞結(jié)構(gòu)與該事件短語中包含的名詞結(jié)構(gòu)的各替換詞分別組成擴展短語,并將同一事件短語中包含的名詞結(jié)構(gòu)與該事件短語中包含的動詞結(jié)構(gòu)的各替換詞分別組成擴展短語。
本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)裝置,還可以包括:
去重模塊,用于:利用擴展短語實現(xiàn)事件短語學(xué)習(xí)之前,將與事件短語相同的擴展短語刪除。
本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)裝置中相關(guān)部分的說明請參見本發(fā)明實施例提供的一種基于雙語語義映射的事件短語學(xué)習(xí)方法中對應(yīng)部分的詳細說明,在此不再贅述。
對所公開的實施例的上述說明,使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。