一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法
【專利摘要】本發(fā)明公開了一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法,具體步驟如下:(1)人物識別。對文本進(jìn)行預(yù)處理,所述預(yù)處理包括:段落、語句識別、命名實(shí)體識別、詞性標(biāo)注;對處理后的文本,確定人物及代詞在文本內(nèi)中的位置。(2)語義特征提取。對識別出的人物及代詞根據(jù)其各自所在語句及段落信息,提取語義關(guān)聯(lián)詞,構(gòu)建人名及代詞語義特征。(3)候選人物選擇。針對人物及代詞的性別、單復(fù)數(shù)、距離進(jìn)行過濾,為代詞選擇若干符合條件的候選人物。(3)指代關(guān)系計(jì)算。計(jì)算代詞與候選人物的語義特征相關(guān)度,結(jié)合語義特征相關(guān)度及兩者間的距離,確定代詞的指代人物。本發(fā)明方法實(shí)現(xiàn)了文本內(nèi)的人稱代詞指代消解。
【專利說明】一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息系統(tǒng)建模和知識工程領(lǐng)域,具體地說是文本內(nèi)的基于語義特征的 人稱代詞指代消解方法。
【背景技術(shù)】
[0002] 隨著社會信息化的迅猛發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要來源。而網(wǎng)絡(luò)信 息具有海量,復(fù)雜,非結(jié)構(gòu)化等特點(diǎn),為網(wǎng)絡(luò)信息的獲取以及基于網(wǎng)絡(luò)信息搜集的分析與研 究工作都帶來了很大困難。本體(Ontology)的概念起源于哲學(xué)領(lǐng)域,指的是對客觀存在系 統(tǒng)的解釋和說明,近幾十年來,在人工智能、計(jì)算機(jī)科學(xué)和知識工程等諸多領(lǐng)域得到了迅速 發(fā)展。本體可以實(shí)現(xiàn)某種程度的知識共享和重用,使得計(jì)算機(jī)對信息和對語言的理解上升 到語義層次,并在一定程度上解決語義異構(gòu)問題,在信息互操作、知識理解和信息集成等領(lǐng) 域具有很大的應(yīng)用前景。
[0003] 文本內(nèi)的基于語義特征的人稱代詞指代消解方法,一方面應(yīng)用于輿情管理領(lǐng)域, 對搜索采集進(jìn)行擴(kuò)展;另一方面,可以根據(jù)本體對采集信息的進(jìn)行分類。
[0004] 現(xiàn)有構(gòu)建本體方法主要分為兩類:手工構(gòu)建和半自動構(gòu)建。手工構(gòu)建是以本體描 述捕獲方法為代表,將本體構(gòu)建的過程分為目標(biāo)和團(tuán)隊(duì)建立、原始素材采集、素材分析、本 體初步構(gòu)建、本體精化和驗(yàn)證等5個步驟,每一步都由人手工完成。半自動構(gòu)建又稱本體 學(xué)習(xí),由計(jì)算機(jī)程序自動地從文本中抽取出表示概念、概念間關(guān)系等的術(shù)語,形成初步的本 體,再經(jīng)過人手工精化和驗(yàn)證。然而,目前計(jì)算機(jī)程序自動構(gòu)建的初步本體在質(zhì)量上通常很 差,并不能有效降低對人工的依賴,因此手工構(gòu)建仍是主流方法。
【發(fā)明內(nèi)容】
[0005] 鑒于以上所述現(xiàn)有技術(shù)存在的問題和不足,本發(fā)明要解決的技術(shù)問題是提供一種 可以有效的指導(dǎo)搜索采集信息的文本內(nèi)的基于語義特征的人稱代詞指代消解方法。
[0006] 本發(fā)明所要解決的技術(shù)問題是通過下述技術(shù)方案來實(shí)現(xiàn)的,本發(fā)明是一種文本內(nèi) 的基于語義特征的人稱代詞指代消解方法,其特點(diǎn)是:首先識別文本中的人物;其次提取 人物語義特征;再次選擇代詞的候選人物;最終計(jì)算代詞與候選人物的指代關(guān)系確定代詞 的指代人物,其具體步驟如下: A :人物識別:對文本進(jìn)行預(yù)處理,所述預(yù)處理包括:分詞、命名實(shí)體識別、詞性標(biāo)注;對 處理后的文本,確定人物(包括人名及代詞)在文本內(nèi)中的位置;其操作步驟如下: Al :對文本進(jìn)行分詞處理,其中包括詞性標(biāo)注; A2:順序提取詞性標(biāo)注為nr (代表人名)及r (代表代詞)的人物詞語,并確定人物詞語 在文本中的位置; B :語義特征提?。簩ψR別出的人物根據(jù)其各自所在語句及段落信息,提取語義關(guān)聯(lián) 詞,構(gòu)建人名及代詞語義特征;其操作步驟如下: Bl :確定當(dāng)如人物在文本中的有效關(guān)聯(lián)范圍; B2 :在人物有效關(guān)聯(lián)范圍內(nèi)的字符串中,根據(jù)分詞結(jié)果,去停用詞,提取人物關(guān)聯(lián)詞,構(gòu) 建人物的語義特征; C :候選人物選擇:針對人名及代詞的性別、單復(fù)數(shù)、距離進(jìn)行過濾,為代詞選擇若干符 合條件的候選人物;其操作步驟如下: Cl :判斷代詞的性別、單復(fù)數(shù)屬性; C2 :選擇代詞的先遣人物,判斷先遣人物的性別、單復(fù)數(shù)屬性及先遣人物與代詞的句子 距離屬性; C3 :根據(jù)候選人物選擇規(guī)則,過濾不滿足條件的先遣人物; D :指代關(guān)系計(jì)算:計(jì)算代詞與候選人物的語義特征相關(guān)度,結(jié)合語義特征相關(guān)度及兩 者間的距離,確定代詞的指代人物;其操作步驟如下: Dl :計(jì)算代詞與每一個候選人物的語義特性相關(guān)度; D2 :根據(jù)相關(guān)度閾值及兩者間的距離屬性,確定代詞的指代人物; 一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法到此結(jié)束。
[0007] 本發(fā)明的一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法,在處理過程中利 用分詞、詞性標(biāo)注等文本預(yù)處理方法,充分利用代詞與候選人物在文本中的語義環(huán)境,以及 它們的屬性特征。根據(jù)規(guī)則及語義相關(guān)性計(jì)算方法,選擇候選人物,計(jì)算代詞與候選人物的 語義特征相關(guān)度。將計(jì)算得到的語義特征相關(guān)度與代詞、候選人物之間的句子距離,一同 引入指代消解的判斷過程。在收集整理的新聞類文本中,實(shí)驗(yàn)結(jié)果能夠達(dá)到準(zhǔn)確率不低于 68. 0%,F(xiàn)值不低于66. 3%。結(jié)果表明,采用本發(fā)明的方法獲得的指代消解性能是穩(wěn)定的。
【專利附圖】
【附圖說明】
[0008] 圖1是本發(fā)明的一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法的流程圖。
[0009] 圖2是圖1中步驟02所述的候選人物選擇的流程圖。
【具體實(shí)施方式】
[0010] 下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明作進(jìn)一步詳細(xì)的描述。
[0011] 實(shí)施例1,一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法,首先識別文本中 的人物;其次提取人物語義特征;再次選擇代詞的候選人物;最終計(jì)算代詞與候選人物的 指代關(guān)系確定代詞的指代人物,其具體步驟如下: A :人物識別:對文本進(jìn)行預(yù)處理,所述預(yù)處理包括:分詞、命名實(shí)體識別、詞性標(biāo)注;對 處理后的文本,確定人物(包括人名及代詞)在文本內(nèi)中的位置;其操作步驟如下: Al :對文本進(jìn)行分詞處理,其中包括詞性標(biāo)注; A2:順序提取詞性標(biāo)注為nr (代表人名)及r (代表代詞)的人物詞語,并確定人物詞語 在文本中的位置; B :語義特征提?。簩ψR別出的人物根據(jù)其各自所在語句及段落信息,提取語義關(guān)聯(lián) 詞,構(gòu)建人名及代詞語義特征;其操作步驟如下: Bl :確定當(dāng)如人物在文本中的有效關(guān)聯(lián)范圍; B2 :在人物有效關(guān)聯(lián)范圍內(nèi)的字符串中,根據(jù)分詞結(jié)果,去停用詞,提取人物關(guān)聯(lián)詞,構(gòu) 建人物的語義特征; C :候選人物選擇:針對人名及代詞的性別、單復(fù)數(shù)、距離進(jìn)行過濾,為代詞選擇若干符 合條件的候選人物;其操作步驟如下: Cl :判斷代詞的性別、單復(fù)數(shù)屬性; C2:選擇代詞的先遣人物,判斷先遣人物的性別、單復(fù)數(shù)屬性及先遣人物與代詞的句子 距離屬性; C3 :根據(jù)候選人物選擇規(guī)則,過濾不滿足條件的先遣人物; D :指代關(guān)系計(jì)算:計(jì)算代詞與候選人物的語義特征相關(guān)度,結(jié)合語義特征相關(guān)度及兩 者間的距離,確定代詞的指代人物;其操作步驟如下: Dl :計(jì)算代詞與每一個候選人物的語義特性相關(guān)度; D2 :根據(jù)相關(guān)度閾值及兩者間的距離屬性,確定代詞的指代人物。
[0012] 實(shí)施例2,參照圖1,一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法進(jìn)行的 操作實(shí)驗(yàn),步驟如下: 步驟01 :人物識別。對文本進(jìn)行預(yù)處理,所述預(yù)處理包括:分詞、命名實(shí)體識別、詞性標(biāo) 注;對處理后的文本,確定人物(包括人名及代詞)在文本內(nèi)中的位置。
[0013] 步驟02 :語義特征提取。對識別出的人物根據(jù)其各自所在語句及段落信息,提取 語義關(guān)聯(lián)詞,構(gòu)建人名及代詞語義特征。
[0014] 步驟03 :候選人物選擇。針對人名及代詞的性別、單復(fù)數(shù)、距離進(jìn)行過濾,為代詞 選擇若干符合條件的候選人物。
[0015] 步驟04 :指代關(guān)系計(jì)算。計(jì)算代詞與候選人物的語義特征相關(guān)度,結(jié)合語義特征 相關(guān)度及兩者間的距離,確定代詞的指代人物。
[0016] 步驟01、人物及代詞識別,其具體如下: 使用中科院計(jì)算所漢語分詞軟件系統(tǒng)ICTCLAS,對文本進(jìn)行分詞,識別人名及代詞相關(guān) 人物命名實(shí)體。即順序提取人名nr及人稱代詞r,記錄其在文本中的位置。
[0017] 在人稱代詞的提取中,去除中文人稱代詞有特殊用法。例如"管他冬夏與春秋"中 "他,,不需要消解。排除"他鄉(xiāng),,、"他傷,,、"管他,,,"自我,,等代詞特殊用法。
[0018] 步驟02、語義特征提取,其具體如下: 選擇文本內(nèi)人物所在位置前后限定關(guān)聯(lián)范圍內(nèi)的特定詞性詞語。對于同一個句子出現(xiàn) 的人名及代詞,區(qū)分當(dāng)前人物與先遣人物及后續(xù)人物之間的各自有效關(guān)聯(lián)范圍。在人物有 效關(guān)聯(lián)范圍內(nèi)提取關(guān)聯(lián)詞,判斷方法如下: 1)首先對于第一個出現(xiàn)人物,判斷人物位置前部的重要詞語為該人物的關(guān)聯(lián)詞。
[0019] 2)如果該人物不是最后一個出現(xiàn),那提取當(dāng)前人物與后續(xù)人物之間的文本字符 串;判斷字符串中當(dāng)前人物與后續(xù)人物的關(guān)聯(lián)范圍,在各自的關(guān)聯(lián)范圍內(nèi)提取關(guān)聯(lián)詞; 3)如果是最后一個出現(xiàn)的人物,其所在句子中位置后部的字符串中重要詞語,均為其 關(guān)聯(lián)詞。
[0020] 步驟03、候選人物選擇,參照圖2,其具體如下: 代詞候選人物,可能包括人名(如張三)和已被消解的人稱代詞,并且在代詞的前部。利 用人物的性別、單復(fù)數(shù)、距離相關(guān)屬性構(gòu)建判斷規(guī)則,對出現(xiàn)在代詞前的人物進(jìn)行過濾。
[0021] ?性別一致性Sl 通過"先生、妹妹"等明顯的人物關(guān)聯(lián)性別特征詞來進(jìn)行人名的性別識別。如果代詞與 該人物的性別是一致的為1,有一項(xiàng)性別無法判斷的為0. 5,兩項(xiàng)的性別不一致為0。
[0022] ?單復(fù)數(shù)一致性S2 單復(fù)數(shù)主要分為單數(shù)、復(fù)數(shù)和無單復(fù)數(shù)三類,對于那些無法判斷單復(fù)數(shù)屬性的待消解 項(xiàng)就賦值為無單復(fù)數(shù)。比較代詞與候選先行詞的單復(fù)數(shù),兩者單復(fù)數(shù)一致的話,為1。若有 一方無單復(fù)數(shù)屬性則為〇. 5,不一致則為0。
[0023] ?距離屬性S3 該屬性值可能的值是〇, 1,2…為代詞與先遣人物間隔句子個數(shù)??疾榇~與先遣人物 的句子距離,取值為它們所屬句子編號之差的絕對值。
[0024] 判斷規(guī)則如下: a.若S3>2,該人物不為當(dāng)前代詞候選人物。
[0025] b.若Sl或S2屬性詞均為0,該人物不為代詞的候選人物,排除。
[0026] 步驟04、指代關(guān)系計(jì)算,其具體如下: (1)計(jì)算代詞與候選人物的語義特征相關(guān)度 如果計(jì)算得到的相關(guān)度大于閾值,則表示代詞與候選先行詞的語義聯(lián)系很緊密。而語 義聯(lián)系最高者即為該代詞的最優(yōu)指代結(jié)果。
[0027] 本方法中利用知網(wǎng)作為語義特征相關(guān)度計(jì)算的工具,對于兩個人物Rl和R2,如果 Rl 有 η 個關(guān)聯(lián)詞:Wll,W12,......,Win,R2 有 m 個關(guān)聯(lián)詞:W21,W22,......,12111,1?1和1?2的 相似度是各個概念的相似度之最大值:
【權(quán)利要求】
1. 一種文本內(nèi)的基于語義特征的人稱代詞指代消解方法,其特征在于:首先識別文本 中的人物;其次提取人物語義特征;再次選擇代詞的候選人物;最終計(jì)算代詞與候選人物 的指代關(guān)系確定代詞的指代人物,其具體步驟如下: A ;人物識別;對文本進(jìn)行預(yù)處理,所述預(yù)處理包括;分詞、命名實(shí)體識別、詞性標(biāo)注;對 處理后的文本,確定人物的人名及代詞在文本內(nèi)中的位置;其操作步驟如下: A1 ;對文本進(jìn)行分詞處理,其中包括詞性標(biāo)注; A2 ;順序提取詞性標(biāo)注為人名nr及代詞r的人物詞語,并確定人物詞語在文本中的位 置; B ;語義特征提取;對識別出的人物根據(jù)其各自所在語句及段落信息,提取語義關(guān)聯(lián) 詞,構(gòu)建人名及代詞語義特征;其操作步驟如下: B1 ;確定當(dāng)前人物在文本中的有效關(guān)聯(lián)范圍; B2 ;在人物有效關(guān)聯(lián)范圍內(nèi)的字符串中,根據(jù)分詞結(jié)果,去停用詞,提取人物關(guān)聯(lián)詞,構(gòu) 建人物的語義特征; C ;候選人物選擇:針對人名及代詞的性別、單復(fù)數(shù)、距離進(jìn)行過濾,為代詞選擇若干符 合條件的候選人物;其操作步驟如下: C1 ;判斷代詞的性別、單復(fù)數(shù)屬性; C2;選擇代詞的先遣人物,判斷先遣人物的性別、單復(fù)數(shù)屬性及先遣人物與代詞的句子 距離屬性; C3 ;根據(jù)候選人物選擇規(guī)則,過濾不滿足條件的先遣人物; D ;指代關(guān)系計(jì)算:計(jì)算代詞與候選人物的語義特征相關(guān)度,結(jié)合語義特征相關(guān)度及兩 者間的距離,確定代詞的指代人物;其操作步驟如下: D1 ;計(jì)算代詞與每一個候選人物的語義特性相關(guān)度; D2 ;根據(jù)相關(guān)度闊值及兩者間的距離屬性,確定代詞的指代人物。
【文檔編號】G06F17/27GK104462053SQ201310431571
【公開日】2015年3月25日 申請日期:2013年9月22日 優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】仲兆滿, 姜劍, 陳宗華, 陳永江, 喬磊 申請人:江蘇金鴿網(wǎng)絡(luò)科技有限公司