本發(fā)明涉及自然語(yǔ)言處理應(yīng)用領(lǐng)域,具體涉及一種新型實(shí)體指代消解的方法及其系統(tǒng)。
背景技術(shù):
隨著人工智能的發(fā)展和自然語(yǔ)言處理技術(shù)的深化,漢語(yǔ)中指代消解是文本理解不可或缺的內(nèi)容,也是自然語(yǔ)言處理應(yīng)用領(lǐng)域的一個(gè)關(guān)鍵問(wèn)題,指代消解在機(jī)器翻譯、信息抽取、自動(dòng)文摘以及自動(dòng)解題等領(lǐng)域中都有重要應(yīng)用。指代消解有時(shí)也叫參照消解,其核心就是確定照應(yīng)語(yǔ)與先行語(yǔ)之間的相互關(guān)系,從而明確照應(yīng)詞指代的是什么對(duì)象;在自動(dòng)解題中,可以發(fā)現(xiàn),代詞的消解效果將直接影響著題目語(yǔ)義的理解程度。
而在現(xiàn)有的實(shí)體指代消解方法中,單純實(shí)體替代已經(jīng)解決不了在自動(dòng)解題中的一些問(wèn)題,在解題推理中還需用到實(shí)體的一些性質(zhì)、屬性,而這是傳統(tǒng)的指代消解方法滿足不了的。
由此可見(jiàn),一種新的實(shí)體指代消解方法在人工智能及其相關(guān)的自動(dòng)解題系統(tǒng)中有著至關(guān)重要的作用。
技術(shù)實(shí)現(xiàn)要素:
基于此,針對(duì)上述問(wèn)題,有必要提出一種新型實(shí)體指代消解的方法及其系統(tǒng),其在針對(duì)自動(dòng)解題系統(tǒng)自然語(yǔ)言處理方面,效果顯著;在指代消解過(guò)程中,融入了實(shí)體屬性的概念,讓指代消解過(guò)程帶著屬性;對(duì)于自然語(yǔ)言處理有著極大的推動(dòng)作用。
為解決上述問(wèn)題,本發(fā)明提供一種新型實(shí)體指代消解的方法,其技術(shù)方案如下:
一種新型實(shí)體指代消解的方法,包括以下步驟:
a、確定某一原始文本,并對(duì)該原始文本進(jìn)行文本分詞操作;
b、判斷分詞是否成功,如果是,則進(jìn)入步驟c;如果否,則重新進(jìn)入步驟a;
c、對(duì)分詞成功的文本進(jìn)行文本標(biāo)注;
d、判斷標(biāo)注后的文本是否存在實(shí)體指代問(wèn)題,如果是,則進(jìn)行實(shí)體替換操作,進(jìn)入步驟e;如果否,則進(jìn)入步驟f;
e、判斷實(shí)體替換操作是否成功,如果是,則進(jìn)入步驟f;如果否,則重新進(jìn)入步驟d;
f、獲取屬性齊全的實(shí)體,將需要替代的實(shí)體替換為新的屬性齊全的實(shí)體。
作為上述方案的進(jìn)一步優(yōu)化,所述步驟d和e中的實(shí)體替換操作具體包括以下步驟:
執(zhí)行實(shí)體指代存操作,遍歷標(biāo)注后的文本,找出文本中的實(shí)體,并將這些實(shí)體及其屬性分別存入對(duì)應(yīng)的類中。
作為上述方案的更進(jìn)一步優(yōu)化,所述步驟d和e中的實(shí)體替換操作還包括以下步驟:
執(zhí)行實(shí)體指代取操作,在實(shí)體指代存操作完成后,再次遍歷標(biāo)注后的文本,獲取需要進(jìn)行替代的實(shí)體,并從存儲(chǔ)的實(shí)體中找到與之對(duì)應(yīng)的實(shí)體,將存儲(chǔ)實(shí)體的屬性賦值給該需要替代的實(shí)體。
在本發(fā)明中提到的指代、指代消解、分詞以及標(biāo)注作出如下解釋:
指代,是指在文本中用一個(gè)指代詞回指某個(gè)之前提到過(guò)的實(shí)體,也成為照應(yīng)語(yǔ),所指的實(shí)體成為先行詞。
指代消解,確定照應(yīng)語(yǔ)與先行詞之間的相互關(guān)系,從而明確照應(yīng)語(yǔ)指代的是什么對(duì)象,確定指代語(yǔ)的先行詞的過(guò)程稱為指代消解過(guò)程。
分詞,給定一個(gè)字的序列,找出最可能的標(biāo)簽序列,將數(shù)學(xué)文本按字逐行展開(kāi)后,對(duì)于每個(gè)字進(jìn)行位置標(biāo)注,即表示該字在詞中的位置,例如:該字在詞的詞首、詞中間亦或是在詞尾的位置,相應(yīng)的表示方法為b(開(kāi)頭),m(中間),e(結(jié)尾),s(獨(dú)立成詞)。
標(biāo)注,詞性是詞匯基本的語(yǔ)法屬性,通常也稱為詞類,標(biāo)注是在給定文本中判定每個(gè)詞的語(yǔ)法范疇,確定其詞性并加以標(biāo)注的過(guò)程,標(biāo)注該詞的詞性,表示該詞是動(dòng)詞、名詞或是其他的連接詞等等。
在本發(fā)明中,首先對(duì)選定的原始文本進(jìn)行分詞,得到一組標(biāo)簽序列;再對(duì)具有標(biāo)簽的文本進(jìn)行標(biāo)注,確定其語(yǔ)法范疇;然后對(duì)需要替換的實(shí)體實(shí)施屬性替換,用屬性齊全的實(shí)體代替需要替換的實(shí)體;實(shí)現(xiàn)實(shí)體指代消解。其在指代消解過(guò)程中,融入了實(shí)體屬性的概念,讓指代消解過(guò)程帶著屬性,對(duì)于自然語(yǔ)言處理有著極大的推動(dòng)作用;針對(duì)自動(dòng)解題系統(tǒng)自然語(yǔ)言處理方面,效果顯著。
本發(fā)明還提供一種新型實(shí)體指代消解的系統(tǒng),其技術(shù)方案如下:
一種新型實(shí)體指代消解的系統(tǒng),包括文本分詞模塊、分詞判斷模塊、文本標(biāo)注模塊、指代判斷模塊、實(shí)體替換模塊和替換完成模塊,其中:
文本分詞模塊,用于確定某一原始文本,并對(duì)該原始文本進(jìn)行文本分詞操作;
分詞判斷模塊,判斷分詞是否成功,如果是,則跳轉(zhuǎn)到文本標(biāo)注模塊,對(duì)文本進(jìn)行標(biāo)注;如果否,則重新對(duì)原始文本進(jìn)行文本分詞操作;
文本標(biāo)注模塊,用于對(duì)分詞成功的文本進(jìn)行文本標(biāo)注;
指代判斷模塊,判斷標(biāo)注后的文本是否存在實(shí)體指代問(wèn)題,如果是,則進(jìn)行實(shí)體替換操作;如果否,則結(jié)束判斷,獲得屬性齊全的實(shí)體;
實(shí)體替換模塊,判斷實(shí)體替換操作是否成功,如果是,則獲得屬性齊全的實(shí)體;如果否,則重新進(jìn)行實(shí)體替換操作;
替換完成模塊,用于獲取屬性齊全的實(shí)體,將需要替代的實(shí)體替換為新的屬性齊全的實(shí)體。
作為上述方案的進(jìn)一步優(yōu)化,所述實(shí)體替換模塊包括實(shí)體指代存子模塊,用于執(zhí)行實(shí)體指代存操作,遍歷標(biāo)注后的文本,找出文本中的實(shí)體,并將這些實(shí)體及其屬性分別存入對(duì)應(yīng)的類中。
作為上述方案的更進(jìn)一步優(yōu)化,所述實(shí)體替換模塊包括實(shí)體指代取子模塊,用于執(zhí)行實(shí)體指代取操作,在實(shí)體指代存操作完成后,再次遍歷標(biāo)注后的文本,獲取需要進(jìn)行替代的實(shí)體,并從存儲(chǔ)的實(shí)體中找到與之對(duì)應(yīng)的實(shí)體,將存儲(chǔ)實(shí)體的屬性賦值給該需要替代的實(shí)體。
本發(fā)明的有益效果是:由于在指代消解過(guò)程中,被替代的實(shí)體缺乏一些解題所要求的性質(zhì)、屬性;所以本發(fā)明針對(duì)現(xiàn)有的實(shí)體指代消解過(guò)程中出現(xiàn)的問(wèn)題,給出了新的實(shí)體指代消解思路;本發(fā)明在指代消解過(guò)程中,融入了實(shí)體屬性的概念,讓指代消解過(guò)程帶著屬性,對(duì)于自然語(yǔ)言處理有著極大的推動(dòng)作用;且在針對(duì)自動(dòng)解題系統(tǒng)自然語(yǔ)言處理方面,效果顯著。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例所述新型實(shí)體指代消解的方法的流程圖;
圖2是本發(fā)明實(shí)施例所述新型實(shí)體指代消解的系統(tǒng)的原理框圖。
附圖標(biāo)記說(shuō)明:
10-文本分詞模塊;20-分詞判斷模塊;30-文本標(biāo)注模塊;40-指代判斷模塊;50-實(shí)體替換模塊;501-實(shí)體指代存子模塊;502-實(shí)體指代取子模塊;60-替換完成模塊。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說(shuō)明。
實(shí)施例1
如圖1所示,一種新型實(shí)體指代消解的方法,包括以下步驟:
a、確定某一原始文本,并對(duì)該原始文本進(jìn)行文本分詞操作;
b、判斷分詞是否成功,如果是,則進(jìn)入步驟c;如果否,則重新進(jìn)入步驟a;
c、對(duì)分詞成功的文本進(jìn)行文本標(biāo)注;
d、判斷標(biāo)注后的文本是否存在實(shí)體指代問(wèn)題,如果是,則進(jìn)行實(shí)體替換操作,進(jìn)入步驟e;如果否,則進(jìn)入步驟f;
e、判斷實(shí)體替換操作是否成功,如果是,則進(jìn)入步驟f;如果否,則重新進(jìn)入步驟d;
f、獲取屬性齊全的實(shí)體,將需要替代的實(shí)體替換為新的屬性齊全的實(shí)體。
實(shí)施例2
本實(shí)施例在實(shí)施例1的基礎(chǔ)上,
所述步驟d和e中的實(shí)體替換操作具體包括以下步驟:
執(zhí)行實(shí)體指代存操作,遍歷標(biāo)注后的文本,找出文本中的實(shí)體,并將這些實(shí)體及其屬性分別存入對(duì)應(yīng)的類中。
實(shí)施例3
本實(shí)施例在實(shí)施例2的基礎(chǔ)上,
所述步驟d和e中的實(shí)體替換操作還包括以下步驟:
執(zhí)行實(shí)體指代取操作,在實(shí)體指代存操作完成后,再次遍歷標(biāo)注后的文本,獲取需要進(jìn)行替代的實(shí)體,并從存儲(chǔ)的實(shí)體中找到與之對(duì)應(yīng)的實(shí)體,將存儲(chǔ)實(shí)體的屬性賦值給該需要替代的實(shí)體。
在本發(fā)明中提到的指代、指代消解、分詞以及標(biāo)注作出如下解釋:
指代,是指在文本中用一個(gè)指代詞回指某個(gè)之前提到過(guò)的實(shí)體,也成為照應(yīng)語(yǔ),所指的實(shí)體成為先行詞。
指代消解,確定照應(yīng)語(yǔ)與先行詞之間的相互關(guān)系,從而明確照應(yīng)語(yǔ)指代的是什么對(duì)象,確定指代語(yǔ)的先行詞的過(guò)程稱為指代消解過(guò)程。
分詞,給定一個(gè)字的序列,找出最可能的標(biāo)簽序列,將數(shù)學(xué)文本按字逐行展開(kāi)后,對(duì)于每個(gè)字進(jìn)行位置標(biāo)注,即表示該字在詞中的位置,例如:該字在詞的詞首、詞中間亦或是在詞尾的位置,相應(yīng)的表示方法為b(開(kāi)頭),m(中間),e(結(jié)尾),s(獨(dú)立成詞)。
標(biāo)注,詞性是詞匯基本的語(yǔ)法屬性,通常也稱為詞類,標(biāo)注是在給定文本中判定每個(gè)詞的語(yǔ)法范疇,確定其詞性并加以標(biāo)注的過(guò)程,標(biāo)注該詞的詞性,表示該詞是動(dòng)詞、名詞或是其他的連接詞等等。
在本發(fā)明中,首先對(duì)選定的原始文本進(jìn)行分詞,得到一組標(biāo)簽序列;再對(duì)具有標(biāo)簽的文本進(jìn)行標(biāo)注,確定其語(yǔ)法范疇;然后對(duì)需要替換的實(shí)體實(shí)施屬性替換,用屬性齊全的實(shí)體代替需要替換的實(shí)體;實(shí)現(xiàn)實(shí)體指代消解。其在指代消解過(guò)程中,融入了實(shí)體屬性的概念,讓指代消解過(guò)程帶著屬性,對(duì)于自然語(yǔ)言處理有著極大的推動(dòng)作用;針對(duì)自動(dòng)解題系統(tǒng)自然語(yǔ)言處理方面,效果顯著。
實(shí)施例4
本實(shí)施例為實(shí)施例1的系統(tǒng),
如圖2所示,一種新型實(shí)體指代消解的系統(tǒng),包括文本分詞模塊10、分詞判斷模塊20、文本標(biāo)注模塊30、指代判斷模塊40、實(shí)體替換模塊50和替換完成模塊60,其中:
文本分詞模塊10,用于確定某一原始文本,并對(duì)該原始文本進(jìn)行文本分詞操作;
分詞判斷模塊20,判斷分詞是否成功,如果是,則跳轉(zhuǎn)到文本標(biāo)注模塊30,對(duì)文本進(jìn)行標(biāo)注;如果否,則重新對(duì)原始文本進(jìn)行文本分詞操作;
文本標(biāo)注模塊30,用于對(duì)分詞成功的文本進(jìn)行文本標(biāo)注;
指代判斷模塊40,判斷標(biāo)注后的文本是否存在實(shí)體指代問(wèn)題,如果是,則進(jìn)行實(shí)體替換操作;如果否,則結(jié)束判斷,獲得屬性齊全的實(shí)體;
實(shí)體替換模塊50,判斷實(shí)體替換操作是否成功,如果是,則獲得屬性齊全的實(shí)體;如果否,則重新進(jìn)行實(shí)體替換操作;
替換完成模塊60,用于獲取屬性齊全的實(shí)體,將需要替代的實(shí)體替換為新的屬性齊全的實(shí)體。
實(shí)施例5
本實(shí)施例為實(shí)施例2的系統(tǒng),其在實(shí)施例4的基礎(chǔ)上,
所述實(shí)體替換模塊50包括實(shí)體指代存子模塊501,用于執(zhí)行實(shí)體指代存操作,遍歷標(biāo)注后的文本,找出文本中的實(shí)體,并將這些實(shí)體及其屬性分別存入對(duì)應(yīng)的類中。
實(shí)施例6
本實(shí)施例為實(shí)施例3的系統(tǒng),其在實(shí)施例5的基礎(chǔ)上,
所述實(shí)體替換模塊50包括實(shí)體指代取子模塊502,用于執(zhí)行實(shí)體指代取操作,在實(shí)體指代存操作完成后,再次遍歷標(biāo)注后的文本,獲取需要進(jìn)行替代的實(shí)體,并從存儲(chǔ)的實(shí)體中找到與之對(duì)應(yīng)的實(shí)體,將存儲(chǔ)實(shí)體的屬性賦值給該需要替代的實(shí)體。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的具體實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。