本發(fā)明屬于計(jì)算機(jī)自然語(yǔ)言處理或模式識(shí)別技術(shù)領(lǐng)域,更具體地,涉及一種面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法。
背景技術(shù):
現(xiàn)有的基于中文構(gòu)詞規(guī)則的語(yǔ)言學(xué)術(shù)語(yǔ)抽取方法,針對(duì)整個(gè)自由文本進(jìn)行候選術(shù)語(yǔ)的抽取和過(guò)濾,通過(guò)分析不同詞匯的搭配和出現(xiàn)規(guī)律,總結(jié)出術(shù)語(yǔ)的詞性匹配模板,再通過(guò)該模板來(lái)抽取候選術(shù)語(yǔ);其中,忽略了不同類(lèi)型文本塊之間術(shù)語(yǔ)的特點(diǎn),不能充分利用術(shù)語(yǔ)的位置信息,降低了術(shù)語(yǔ)抽取的質(zhì)量;另一方面,在某些特定語(yǔ)料庫(kù)的情況下,如學(xué)術(shù)論文中包含了不同的文本塊,如標(biāo)題、摘要、關(guān)鍵字等,不同的文本塊中術(shù)語(yǔ)分布的規(guī)律不同,對(duì)整篇學(xué)術(shù)論文采用同樣的術(shù)語(yǔ)抽取方法使得術(shù)語(yǔ)抽取的準(zhǔn)確率不高。
抽取候選術(shù)語(yǔ)庫(kù)后,需要對(duì)其進(jìn)行篩選以得到正確術(shù)語(yǔ);過(guò)濾方法有很多種,主要是通過(guò)術(shù)語(yǔ)的單元性和領(lǐng)域相關(guān)度進(jìn)行篩選;如:TF-IDF(詞頻-逆文檔頻率,Term Frequency-Inverse Document Frequency)方法是利用候選術(shù)語(yǔ)在本文中出現(xiàn)的頻率以及在整個(gè)語(yǔ)料庫(kù)中的頻率來(lái)判斷候選術(shù)語(yǔ)的領(lǐng)域相關(guān)度;SCP(Symmetrical Conditional Probability,對(duì)稱(chēng)條件概率)用于判斷復(fù)合型術(shù)語(yǔ)的搭配合理性;C-VALUE(C值,Content-Value)用于判斷復(fù)合型術(shù)語(yǔ)的領(lǐng)域相關(guān)度;這些方法在候選術(shù)語(yǔ)的篩選上具有很好的效果,但是在某些特定語(yǔ)料庫(kù)下,如學(xué)術(shù)論文,其類(lèi)別屬性非常明確,而這些方法沒(méi)有考慮到該屬性,在針對(duì)學(xué)術(shù)論文的術(shù)語(yǔ)篩選時(shí)沒(méi)有利用類(lèi)別信息,對(duì)候選術(shù)語(yǔ)的領(lǐng)域相關(guān)度考量不夠充分,導(dǎo)致術(shù)語(yǔ)抽取準(zhǔn)確度不高。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明提供了一種面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法,其目的在于提高學(xué)術(shù)論文術(shù)語(yǔ)抽取的準(zhǔn)確率。
為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個(gè)方面,提供了一種面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法,包括預(yù)處理、候選術(shù)語(yǔ)抽取、候選術(shù)語(yǔ)篩選、候選術(shù)語(yǔ)綜合評(píng)分排序;具體包括如下步驟:
(1)預(yù)處理:對(duì)學(xué)術(shù)論文語(yǔ)料庫(kù)進(jìn)行預(yù)處理,包括文本塊標(biāo)注、文本塊篩選、分詞及詞性標(biāo)注和噪聲詞過(guò)濾;確定標(biāo)題文本塊、摘要文本塊和關(guān)鍵字文本塊;
(2)候選術(shù)語(yǔ)抽?。簩?duì)標(biāo)題文本塊、摘要文本塊和關(guān)鍵字文本塊分別進(jìn)行候選術(shù)語(yǔ)抽取,由抽取獲得的候選術(shù)語(yǔ)構(gòu)成候選術(shù)語(yǔ)集;
(3)候選術(shù)語(yǔ)篩選:對(duì)候選術(shù)語(yǔ)集中的單詞型術(shù)語(yǔ)和復(fù)合詞型術(shù)語(yǔ)分別進(jìn)行篩選過(guò)濾;
(4)候選術(shù)語(yǔ)綜合評(píng)分排序:根據(jù)各文本塊的位置權(quán)重對(duì)篩選后的候選術(shù)語(yǔ)集中的候選術(shù)語(yǔ)進(jìn)行評(píng)分,并按照評(píng)分從高到低的順序?qū)λ龊蜻x術(shù)語(yǔ)進(jìn)行排序,根據(jù)排序結(jié)果抽取出術(shù)語(yǔ)集。
優(yōu)選地,上述面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法,其步驟(1)的預(yù)處理包括如下子步驟:
(1.1)文本塊標(biāo)注:將學(xué)術(shù)論文中的文本塊進(jìn)行分割標(biāo)注,分割成標(biāo)題、摘要、關(guān)鍵字、正文和超自然語(yǔ)言符號(hào);
(1.2)文本塊篩選:從標(biāo)注好的文本塊中,去除含術(shù)語(yǔ)概率低的正文和參考文獻(xiàn),獲取所需的文本塊,包括標(biāo)題、摘要和關(guān)鍵字;
(1.3)分詞及詞性標(biāo)注:對(duì)篩選出的標(biāo)題、摘要和關(guān)鍵字中所含文本進(jìn)行分詞及詞性標(biāo)注;
(1.4)噪聲詞過(guò)濾:結(jié)合停用詞典以及無(wú)用詞性字典,對(duì)分詞及詞性標(biāo)注后的語(yǔ)料進(jìn)行無(wú)用詞及詞性的過(guò)濾;其中,無(wú)用詞包括擬聲詞、語(yǔ)氣詞。
優(yōu)選地,上述面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法,其步驟(2)中,對(duì)標(biāo)題、摘要、關(guān)鍵字三個(gè)文本塊分別采用不同的方法進(jìn)行候選術(shù)語(yǔ)抽取,具體如下:
(a)對(duì)標(biāo)題文本塊:采用基于邊界標(biāo)記集的抽取方法,根據(jù)標(biāo)題文本塊中術(shù)語(yǔ)的上、下邊界詞性模板,以及上、下邊界常用詞匯模板,對(duì)語(yǔ)料庫(kù)中的標(biāo)題文本塊進(jìn)行匹配,從標(biāo)題文本塊中抽取候選術(shù)語(yǔ);
標(biāo)題長(zhǎng)度短,包含術(shù)語(yǔ)量多,其前后邊界具有規(guī)律性;通過(guò)統(tǒng)計(jì)同類(lèi)學(xué)術(shù)論文標(biāo)題中術(shù)語(yǔ)上、下邊界詞性與詞的規(guī)律性,獲得標(biāo)題文本塊中術(shù)語(yǔ)的上、下邊界詞性模板,以及上、下邊界常用詞匯模板;
(b)對(duì)摘要文本塊:采用基于中文術(shù)語(yǔ)構(gòu)詞規(guī)則的抽取方法,根據(jù)術(shù)語(yǔ)詞性搭配模板對(duì)語(yǔ)料庫(kù)中的摘要文本進(jìn)行匹配,從摘要文本中抽取候選術(shù)語(yǔ);
摘要文本塊屬于自由文本,但是專(zhuān)業(yè)術(shù)語(yǔ)的詞性搭配構(gòu)成具有規(guī)律性;通過(guò)統(tǒng)計(jì)術(shù)語(yǔ)詞性搭配規(guī)則,得到術(shù)語(yǔ)詞性搭配模板;
(c)對(duì)關(guān)鍵字文本塊:直接將關(guān)鍵字作為候選術(shù)語(yǔ)。
優(yōu)選地,上述面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法,其步驟(3)的候選術(shù)語(yǔ)篩選,對(duì)單詞型候選術(shù)語(yǔ)的篩選方法具體如下:
(I.1)采用TF-IDF算法,結(jié)合CF(CategoryFrequency,類(lèi)別頻率)綜合考慮術(shù)語(yǔ)分布的類(lèi)別特征,獲取單詞型候選術(shù)語(yǔ)的領(lǐng)域相關(guān)度
其中,tf(t)是指詞語(yǔ)t在語(yǔ)料中出現(xiàn)的頻次,N(C)是指語(yǔ)料中包含的文檔總數(shù),N(t,Cl)是指類(lèi)別l中包含詞語(yǔ)t的文檔頻次,是指除類(lèi)別l以外的其他類(lèi)別中包含詞語(yǔ)t的文檔頻次,N(Cl)指語(yǔ)料中包含的類(lèi)別l的總數(shù);
(I.2)去除領(lǐng)域相關(guān)度CF(t)低于第一篩選閾值的單詞型候選術(shù)語(yǔ);第一篩選閾值則根據(jù)學(xué)術(shù)論文所涉技術(shù)領(lǐng)域具體設(shè)定。
學(xué)術(shù)論文術(shù)語(yǔ)的重要特點(diǎn)是:若某個(gè)詞語(yǔ)只在某個(gè)類(lèi)別范圍內(nèi)的論文中出現(xiàn),則該詞語(yǔ)對(duì)該論文類(lèi)別具有較強(qiáng)的表征能力,應(yīng)該賦予更好的權(quán)重值;
對(duì)于上述步驟中獲取的CF(t)而言,當(dāng)前類(lèi)別l中含有詞語(yǔ)t的文檔越多,t的權(quán)值越大;其他類(lèi)別中含有詞語(yǔ)t的文檔越多,t的權(quán)值越??;當(dāng)詞語(yǔ)t在文檔集的每個(gè)文檔中都出現(xiàn)時(shí),權(quán)值為0,表明該詞語(yǔ)不具備領(lǐng)域特征性。
優(yōu)選地,上述面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法,其步驟(3)的候選術(shù)語(yǔ)篩選,對(duì)復(fù)合詞型候選術(shù)語(yǔ)的篩選方法具體如下:
(II.1)通過(guò)SCP算法獲取復(fù)合詞型候選術(shù)語(yǔ)s的單元性指標(biāo)
其中,s是指候選術(shù)語(yǔ),s=w1w2…wn(n≥2);f(s)是指候選術(shù)語(yǔ)s的詞頻,f(w1,…,wi)是指術(shù)語(yǔ)子串(w1,…,wi)的詞頻,f(wi+1,…,wn)是指術(shù)語(yǔ)子串(w1,…,wi)的詞頻;wi是組成候選術(shù)語(yǔ)s的詞;
(II.2)通過(guò)C-VALUE算法獲取復(fù)合詞型候選術(shù)語(yǔ)領(lǐng)域相關(guān)度
其中,t是指候選術(shù)語(yǔ),|Ct|是候選術(shù)語(yǔ)的父串集合中父串的個(gè)數(shù),|t|是候選術(shù)語(yǔ)t的長(zhǎng)度,f(t)是候選術(shù)語(yǔ)t在語(yǔ)料中出現(xiàn)的頻率;f(a)候選術(shù)語(yǔ)a在語(yǔ)料中出現(xiàn)的頻率;
當(dāng)術(shù)語(yǔ)子串(w1,…,wi)和(w1,…,wi)只作為候選術(shù)語(yǔ)的子串出現(xiàn)時(shí),f(w1,…,wi)=f(wi+1,…,wn)=f(s),候選術(shù)語(yǔ)的SCP值為1,候選術(shù)語(yǔ)的單元性最強(qiáng),詞語(yǔ)搭配最合理;通過(guò)候選術(shù)語(yǔ)的SCP值,可有效判斷該候選術(shù)語(yǔ)的結(jié)構(gòu)是否穩(wěn)定;
C-value方法是一種領(lǐng)域相關(guān)度計(jì)算方法,采用C-value作為復(fù)合詞型候選術(shù)語(yǔ)的領(lǐng)域相關(guān)度計(jì)算方法,可有效判斷候選術(shù)語(yǔ)的領(lǐng)域關(guān)聯(lián)強(qiáng)度,提高術(shù)語(yǔ)抽取的準(zhǔn)確率;
(II.3)根據(jù)上述單元性指標(biāo)和領(lǐng)域相關(guān)度,獲取復(fù)合詞型候選術(shù)語(yǔ)t的權(quán)重指標(biāo)
其中,SCPmax是指所有候選術(shù)語(yǔ)的單元性指標(biāo)SCP(t)的最大值,Cmax是指所有候選術(shù)語(yǔ)領(lǐng)域相關(guān)度C(t)的最大值;
(II.4)獲取各復(fù)合詞型候選術(shù)語(yǔ)的權(quán)重指標(biāo),去除權(quán)重指標(biāo)低于第二篩選閾值的復(fù)合詞型候選術(shù)語(yǔ),第二篩選閾值跟根據(jù)學(xué)術(shù)論文所涉技術(shù)領(lǐng)域具體設(shè)定。
優(yōu)選地,上述面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法,其步驟(4)包括如下子步驟:
(4.1)采用層次分析法,根據(jù)候選術(shù)語(yǔ)的位置確定候選術(shù)語(yǔ)的位置權(quán)重;其中,標(biāo)題文本塊、摘要文本塊、關(guān)鍵字文本塊分別具有不同的位置權(quán)重;
(4.2)根據(jù)上述位置權(quán)重,對(duì)步驟(3)獲得的候選術(shù)語(yǔ)集中的候選術(shù)語(yǔ)進(jìn)行處理,獲得候選術(shù)語(yǔ)里各文本塊的評(píng)分
Score(t)=0.6232*keyword(t)+0.2395*title(t)+0.1373*abstract(t);
其中,
其中,TF-IDF-CF是指單詞型候選術(shù)語(yǔ)的領(lǐng)域相關(guān)度;SCP-CV是指復(fù)合詞型候選術(shù)語(yǔ)的權(quán)重指標(biāo);
(4.3)根據(jù)評(píng)分對(duì)候選術(shù)語(yǔ)進(jìn)行排序,取前N個(gè)候選術(shù)語(yǔ)或者評(píng)分大于閾值α的候選術(shù)語(yǔ)作為抽取出的術(shù)語(yǔ);其中,N為正整數(shù),N與α的取值根據(jù)學(xué)術(shù)論文所涉的技術(shù)領(lǐng)域的文本特性靈活設(shè)定。
為實(shí)現(xiàn)本發(fā)明目的,按照本發(fā)明的另一方面,還提供了一種面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取系統(tǒng),包括預(yù)處理模塊、候選術(shù)語(yǔ)抽取模塊、候選術(shù)語(yǔ)篩選模塊和候選術(shù)語(yǔ)評(píng)分模塊;
其中,預(yù)處理模塊用于對(duì)學(xué)術(shù)論文語(yǔ)料庫(kù)進(jìn)行預(yù)處理,包括文本塊標(biāo)注、文本塊篩選、分詞及詞性標(biāo)注以及噪聲詞過(guò)濾;
候選術(shù)語(yǔ)抽取模塊用于對(duì)預(yù)處理后的語(yǔ)料庫(kù)中的文本塊進(jìn)行抽取,形成候選術(shù)語(yǔ)集;
候選術(shù)語(yǔ)篩選模塊用于根據(jù)單元性和領(lǐng)域相關(guān)度對(duì)候選術(shù)語(yǔ)集進(jìn)行篩選;
候選術(shù)語(yǔ)評(píng)分模塊用于根據(jù)位置信息權(quán)重對(duì)篩選后的候選術(shù)語(yǔ)進(jìn)行綜合評(píng)分;并根據(jù)評(píng)分對(duì)候選術(shù)語(yǔ)進(jìn)行排序,取TopN或者大于閾值α的候選術(shù)語(yǔ)作為抽取出的術(shù)語(yǔ)。
總體而言,通過(guò)本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:
(1)本發(fā)明提供的面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法及系統(tǒng),對(duì)于候選術(shù)語(yǔ)抽取,根據(jù)不同的文本塊采用不同的抽取方法,充分考慮了學(xué)術(shù)論文不同文本塊的術(shù)語(yǔ)分布特點(diǎn),提高了正確術(shù)語(yǔ)被準(zhǔn)確識(shí)別出來(lái)的概率;
(2)本發(fā)明提供的面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法及系統(tǒng),對(duì)于候選術(shù)語(yǔ)篩選,對(duì)單詞型術(shù)語(yǔ)與復(fù)合詞型術(shù)語(yǔ)分別采用不同的策略進(jìn)行篩選過(guò)濾,引入了學(xué)術(shù)論文的類(lèi)別信息,大大提高了單詞型候選術(shù)語(yǔ)的篩選準(zhǔn)確率;
(3)本發(fā)明提供的面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法及系統(tǒng),在候選術(shù)語(yǔ)綜合評(píng)分排序過(guò)程中,采用層次分析法,根據(jù)候選術(shù)語(yǔ)中文本塊的位置信息確定各文本塊的權(quán)重,充分考慮了不同文本塊中術(shù)語(yǔ)的重要性比重,提高了術(shù)語(yǔ)抽取的準(zhǔn)確率;
綜上而言,本發(fā)明解決了現(xiàn)有的術(shù)語(yǔ)抽取方法沒(méi)有考慮學(xué)術(shù)論文的術(shù)語(yǔ)分布特點(diǎn)以及學(xué)術(shù)論文的類(lèi)別信息的問(wèn)題,提高了學(xué)術(shù)論文術(shù)語(yǔ)抽取的準(zhǔn)確率和召回率。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例的面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法的流程示意圖;
圖2是本發(fā)明實(shí)施例中預(yù)處理的流程示意圖;
圖3是本發(fā)明實(shí)施例中候選術(shù)語(yǔ)抽取方法的示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個(gè)實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。
本發(fā)明實(shí)施例所提供的面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取方法,其流程如圖1所示,包括預(yù)處理步驟、候選術(shù)語(yǔ)抽取步驟、候選術(shù)語(yǔ)篩選步驟和候選術(shù)語(yǔ)綜合評(píng)分排序步驟;具體如下:
(1)預(yù)處理步驟:其流程如圖2所示,包括文本塊標(biāo)注、文本塊篩選、分詞及詞性標(biāo)注、噪聲詞去除;
(1.1)文本塊標(biāo)注:將學(xué)術(shù)論文中的文本塊進(jìn)行切割標(biāo)注,分割成標(biāo)題、摘要、關(guān)鍵字、正文和超自然語(yǔ)言符號(hào);
實(shí)施例中,切割標(biāo)準(zhǔn)采用國(guó)家標(biāo)準(zhǔn)GB7713-87,學(xué)術(shù)論文的結(jié)構(gòu)由三大部分九個(gè)基本要素組成;文本塊類(lèi)別標(biāo)注如表1所列:
表1文本塊類(lèi)別標(biāo)注
(1.2)文本塊篩選:從標(biāo)注好的文本塊中,去除正文、參考文獻(xiàn);獲取所需的文本塊,包括標(biāo)題文本塊、摘要文本塊和關(guān)鍵字文本塊;
(1.3)分詞及詞性標(biāo)注:對(duì)篩選出的標(biāo)題、摘要和關(guān)鍵字中所含文本進(jìn)行分詞及詞性標(biāo)注;實(shí)施例中,采用中科院分詞系統(tǒng)ICTCLAS對(duì)文本進(jìn)行分詞及詞性標(biāo)注;
(1.4)噪聲詞過(guò)濾:結(jié)合停用詞典以及無(wú)用詞性字典,將上一步分詞及詞性標(biāo)注后的語(yǔ)料進(jìn)行無(wú)用詞及詞性的過(guò)濾;其中,無(wú)用詞包括擬聲詞、語(yǔ)氣詞。
(2)候選術(shù)語(yǔ)抽取步驟:其流程如圖3所示,對(duì)不同的文本塊采用不同的候選術(shù)語(yǔ)抽取方法:
具體地,對(duì)標(biāo)題文本塊采用基于邊界標(biāo)記集的抽取方法;對(duì)摘要文本塊采用基于中文術(shù)語(yǔ)構(gòu)詞規(guī)則的抽取方法;對(duì)關(guān)鍵字文本塊采用基于關(guān)鍵字的抽取方法;分別通過(guò)這三種抽取方法對(duì)文本塊進(jìn)行抽取,形成候選術(shù)語(yǔ)集。
(3)候選術(shù)語(yǔ)篩選步驟:對(duì)步驟(2)形成的候選術(shù)語(yǔ)集進(jìn)行篩選過(guò)濾,針對(duì)候選術(shù)語(yǔ)集中的單詞型術(shù)語(yǔ)和復(fù)合詞型術(shù)語(yǔ),采用不同的篩選方法;單詞型術(shù)語(yǔ)只考量其領(lǐng)域相關(guān)度,而復(fù)合詞性術(shù)語(yǔ)需要同時(shí)考量其單元性和領(lǐng)域相關(guān)度兩個(gè)指標(biāo)。
(4)候選術(shù)語(yǔ)綜合評(píng)分排序步驟:針對(duì)步驟(3)篩選后候選術(shù)語(yǔ)集,再引入每一個(gè)候選術(shù)語(yǔ)的位置信息,即根據(jù)其出現(xiàn)的位置,如標(biāo)題、摘要、關(guān)鍵字,分別賦予不同的權(quán)重;根據(jù)權(quán)重得到候選術(shù)語(yǔ)的評(píng)分,根據(jù)評(píng)分進(jìn)行排序,得到抽取出的術(shù)語(yǔ)集;其中,權(quán)重值采用層次分析法確定。
實(shí)施例還提供了一種面向?qū)W術(shù)論文的術(shù)語(yǔ)抽取系統(tǒng),包括預(yù)處理模塊、候選術(shù)語(yǔ)抽取模塊、候選術(shù)語(yǔ)篩選模塊和候選術(shù)語(yǔ)評(píng)分模塊;
預(yù)處理模塊用于對(duì)學(xué)術(shù)論文語(yǔ)料庫(kù)進(jìn)行預(yù)處理,包括文本塊標(biāo)注、文本塊篩選、分詞及詞性標(biāo)注、噪聲詞過(guò)濾;候選術(shù)語(yǔ)抽取模塊用于從預(yù)處理后的語(yǔ)料庫(kù)中抽取形成候選術(shù)語(yǔ)集;候選術(shù)語(yǔ)篩選模塊用于從候選術(shù)語(yǔ)集中根據(jù)單元性和領(lǐng)域相關(guān)度兩個(gè)特性篩選術(shù)語(yǔ);候選術(shù)語(yǔ)評(píng)分模塊用于根據(jù)位置權(quán)重對(duì)篩選后的候選術(shù)語(yǔ)進(jìn)行綜合評(píng)分,根據(jù)評(píng)分對(duì)候選術(shù)語(yǔ)進(jìn)行排序,取TopN或者大于閾值α的候選術(shù)語(yǔ)作為抽取出的術(shù)語(yǔ)。
以下結(jié)合學(xué)術(shù)論文術(shù)語(yǔ)抽取的實(shí)例,來(lái)具體闡述本發(fā)明提供的術(shù)語(yǔ)抽取方法,具體包括如下子步驟:
(1)預(yù)處理:首先從學(xué)術(shù)論文中抽取出文本信息,并將其標(biāo)注為標(biāo)題、摘要、關(guān)鍵詞、各級(jí)子標(biāo)題、正文和參考文獻(xiàn)等不同類(lèi)型的文本塊;
從中篩選出標(biāo)題、摘要和關(guān)鍵詞三類(lèi)文本塊;采用中科院分詞系統(tǒng)ICTCLAS對(duì)這三類(lèi)文本塊進(jìn)行分詞及詞性標(biāo)注;
結(jié)合停用詞典以及無(wú)用詞性字典,將分詞后的語(yǔ)料進(jìn)行無(wú)用詞及詞性的過(guò)濾,無(wú)用詞性包括擬聲詞、語(yǔ)氣詞等等,如“呀”、“啊”。
(2)候選術(shù)語(yǔ)抽?。横槍?duì)不同類(lèi)型的文本塊采用不同的候選術(shù)語(yǔ)抽取方法;
具體地,對(duì)標(biāo)題文本塊采用基于邊界標(biāo)記集的抽取方法;例如,將“面向海量數(shù)據(jù)的云存儲(chǔ)技術(shù)”中“面向”、“的”和“技術(shù)”作為邊界標(biāo)記,提取出候選術(shù)語(yǔ)“海量數(shù)據(jù)”和“云存儲(chǔ)”;
對(duì)摘要文本塊采用基于中文術(shù)語(yǔ)構(gòu)詞規(guī)則的抽取方法,首先分析候選術(shù)語(yǔ)的詞性與詞長(zhǎng)搭配規(guī)律,然后設(shè)計(jì)對(duì)應(yīng)的匹配模板;例如,雙詞型候選術(shù)語(yǔ)的常見(jiàn)詞性搭配有“n+v”、“n+n”和“v+v”等,根據(jù)這些特征,提取出摘要文本塊中的候選術(shù)語(yǔ);
對(duì)關(guān)鍵字文本塊采用基于關(guān)鍵字的抽取方法,通常關(guān)鍵詞都是采用分號(hào)、逗號(hào)、頓號(hào)或空格進(jìn)行分割,將切分后的關(guān)鍵字作為候選術(shù)語(yǔ);
通過(guò)上述三種抽取方法對(duì)文本塊進(jìn)行抽取,形成候選術(shù)語(yǔ)集。
(3)候選術(shù)語(yǔ)篩選:對(duì)候選術(shù)語(yǔ)集進(jìn)行篩選過(guò)濾,針對(duì)候選術(shù)語(yǔ)集中的單詞型術(shù)語(yǔ)和復(fù)合詞型術(shù)語(yǔ)采用不同的篩選方法;
對(duì)單詞型術(shù)語(yǔ)只考量其領(lǐng)域相關(guān)度,在TF-IDF的基礎(chǔ)上,引入類(lèi)別頻率因子CF,綜合考慮論文類(lèi)別信息,從而提高學(xué)術(shù)論文術(shù)語(yǔ)抽取的效果;而對(duì)復(fù)合詞性術(shù)語(yǔ),結(jié)合C-VALUE和SCP兩種指標(biāo)進(jìn)行綜合過(guò)濾,同時(shí)考量其單元性和領(lǐng)域相關(guān)度兩個(gè)指標(biāo)。
(4)候選術(shù)語(yǔ)綜合評(píng)分排序:
針對(duì)篩選后的候選術(shù)語(yǔ)集,根據(jù)每一個(gè)候選術(shù)語(yǔ)的位置信息確定每個(gè)候選術(shù)語(yǔ)的位置權(quán)重;即根據(jù)候選術(shù)語(yǔ)出現(xiàn)的位置,如標(biāo)題位置、摘要位置、關(guān)鍵字位置,對(duì)候選術(shù)語(yǔ)賦予不同的權(quán)重,根據(jù)候選術(shù)語(yǔ)的綜合權(quán)重指標(biāo)獲取各術(shù)語(yǔ)的評(píng)分;根據(jù)評(píng)分進(jìn)行排序,根據(jù)排序結(jié)果確定最終抽取出的術(shù)語(yǔ)集。
實(shí)施例中,權(quán)重值根據(jù)層次分析法確定;針對(duì)關(guān)鍵字、標(biāo)題、摘要,這三個(gè)順序有可能出現(xiàn)術(shù)語(yǔ)的可能性由高到低,定義每個(gè)位置的權(quán)值;根據(jù)層次分析法得到各術(shù)語(yǔ)的評(píng)分
Score(t)=0.6232*keyword(t)+0.2395*title(t)+0.1373*abstract(t);
其中,keyword(t)、title(t)和abstract(t)分別根據(jù)候選術(shù)語(yǔ)t是否被關(guān)鍵詞、標(biāo)題和摘要所包含而有不同取值,如若不被包含,則取0值;若被包含,則根據(jù)候選術(shù)語(yǔ)為單詞型或復(fù)合詞型來(lái)區(qū)別。
實(shí)驗(yàn)數(shù)據(jù)表明采用實(shí)施例的方法,對(duì)單詞性術(shù)語(yǔ)抽取的準(zhǔn)確率、召回率以及F度量指標(biāo)相較采用TF-IDF方法進(jìn)行單次性術(shù)語(yǔ)抽取,分別提高了7.85%、11.54%、9.35%;對(duì)復(fù)合詞型術(shù)語(yǔ)抽取的準(zhǔn)確率、召回率以及F度量指標(biāo)相較采用SCP-CV方法進(jìn)行復(fù)合詞型術(shù)語(yǔ)抽取,分別提高了11.62%,9.71%、10.58%。
本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。