一種面向?qū)@闹形姆衷~方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于中文信息處理技術(shù)領(lǐng)域,具體涉及一種面向?qū)@闹形姆衷~方 法。
【背景技術(shù)】
[0002] 專利文獻(xiàn)作為反映發(fā)明創(chuàng)造的技術(shù)特征及法律狀態(tài)的信息載體,是當(dāng)今時(shí)代最重 要的技術(shù)文獻(xiàn)和知識(shí)寶庫(kù),在傳播專利技術(shù)、推動(dòng)社會(huì)經(jīng)濟(jì)技術(shù)進(jìn)步方面做出了很大的貢 獻(xiàn)。據(jù)世界知識(shí)產(chǎn)權(quán)組織統(tǒng)計(jì),世界上每年發(fā)明創(chuàng)造成果的90%~95%能在專利文獻(xiàn)中查 到,專利文獻(xiàn)公開(kāi)的技術(shù)有80%以上未出現(xiàn)在其他技術(shù)文獻(xiàn)中,全世界90%以上的發(fā)明創(chuàng) 造信息都是首先通過(guò)專利文獻(xiàn)反映出來(lái)的 [2]。因此,如何高效、充分地利用專利文獻(xiàn)擁有的 如此巨大的信息資源成為專利研究的重點(diǎn),針對(duì)專利文獻(xiàn)的中文信息處理系統(tǒng)也應(yīng)運(yùn)而 生。在中文專利信息處理中,分詞是一個(gè)最基礎(chǔ)并且最重要的環(huán)節(jié),專利分詞的好壞將直接 影響到專利文獻(xiàn)的信息檢索、機(jī)器翻譯等應(yīng)用的效率。
[0003] 中文分詞的難點(diǎn)在于歧義識(shí)別和未登錄詞的識(shí)別。由于專利文獻(xiàn)中用詞遵循一定 的規(guī)則,語(yǔ)言嚴(yán)謹(jǐn),一般很少出現(xiàn)歧義現(xiàn)象。因此,對(duì)專利文獻(xiàn)分詞的研究主要集中在未登 錄詞的識(shí)別上。而專利文獻(xiàn)中存在著大量的專業(yè)術(shù)語(yǔ),為了提高專利分詞的精度,首先要研 究專利文獻(xiàn)中術(shù)語(yǔ)的特點(diǎn)。其特點(diǎn)如下:(1)詞性組合:術(shù)語(yǔ)一般是由名詞、動(dòng)詞和形容詞等 詞性組合而成,一般都是以名詞性的字符串作為術(shù)語(yǔ)的中心詞。比如:無(wú)軌/b無(wú)線電/n 動(dòng)/V公交車/n;(2)嵌套現(xiàn)象:術(shù)語(yǔ)存在嵌套現(xiàn)象較多。比如:"直流-交流逆變器系統(tǒng)"、"石 墨質(zhì)子交換膜燃料電池";(3)重復(fù)性:專利文獻(xiàn)帶有很強(qiáng)的專業(yè)性,術(shù)語(yǔ)在某一特定的專業(yè) 領(lǐng)域重復(fù)出現(xiàn),而在其他領(lǐng)域很少出現(xiàn);(4)術(shù)語(yǔ)長(zhǎng)度:專利術(shù)語(yǔ)的長(zhǎng)度不一,主要由2-6個(gè) 詞組成。比如:液體電解質(zhì)、非織物纖維網(wǎng)板、直流-交流逆變器系統(tǒng)。
[0004] 目前,比較成熟且實(shí)用的分詞系統(tǒng)主要是針對(duì)新聞?wù)Z料的,對(duì)專利文獻(xiàn)的分詞效 果卻較差?,F(xiàn)在針對(duì)中文專利的分詞的研究不多,存在分詞效率較低、對(duì)于在專利文獻(xiàn)中出 現(xiàn)頻率較低的術(shù)語(yǔ)的識(shí)別精度不高以及沒(méi)有充分考慮術(shù)語(yǔ)的單元性(即字符之間的緊密結(jié) 合程度)從而使得抽取出來(lái)的術(shù)語(yǔ)的正確率不高的缺陷。
【發(fā)明內(nèi)容】
[0005] 針對(duì)上述現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明的目的在于提供一種可避免出現(xiàn)上述技 術(shù)缺陷的面向?qū)@闹形姆衷~方法。
[0006] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案如下:
[0007] -種面向?qū)@闹形姆衷~方法,包括以下步驟:
[0008] 步驟A:構(gòu)建專利停用詞表;
[0009] 步驟B:抽取候選術(shù)語(yǔ);
[0010] 步驟C:過(guò)濾候選術(shù)語(yǔ);
[0011]步驟D:抽取低頻專業(yè)術(shù)語(yǔ)。
[0012] 進(jìn)一步地,所述面向?qū)@闹形姆衷~方法還包括步驟E:運(yùn)用抽取的術(shù)語(yǔ)構(gòu)建 專利領(lǐng)域詞典,然后再將專利領(lǐng)域詞典添加到ICTCLAS分詞系統(tǒng)的用戶詞典中對(duì)專利文獻(xiàn) 進(jìn)行分詞。
[0013] 進(jìn)一步地,所述步驟A具體包括以下步驟:
[0014] 步驟一:將基礎(chǔ)停用詞表中的所有詞加入到專利停用詞表中;
[0015] 步驟二:對(duì)經(jīng)過(guò)預(yù)處理的文本以空格為分隔符進(jìn)行分割,分別統(tǒng)計(jì)每個(gè)詞在語(yǔ)料 中出現(xiàn)的總次數(shù),即詞頻,最后按照詞頻從大到小排序;選取一個(gè)合適的閾值,當(dāng)詞頻大于 該閾值并且詞性不屬于名詞、動(dòng)詞和形容詞中的任一種時(shí),將該詞加入到專利停用詞表中。 [0016 ] 進(jìn)一步地,所述步驟B具體包括以下步驟:
[0017] 步驟一:以專利停用詞表中的停用詞為分隔符對(duì)專利文獻(xiàn)中的摘要進(jìn)行分割;
[0018] 步驟二:分別統(tǒng)計(jì)2詞、3詞、4詞、5詞和6詞術(shù)語(yǔ)的詞性組合及其詞頻,按照詞頻從 大到小進(jìn)行排序;
[0019] 步驟三:選取每一種術(shù)語(yǔ)類別下的top-2作為最終的術(shù)語(yǔ)構(gòu)詞規(guī)則。
[0020] 進(jìn)一步地,所述步驟C具體包括以下步驟:
[0021]步驟一:將候選術(shù)語(yǔ)分解為多個(gè)二元組,求各個(gè)二元組的互信息,最后將求得的各 個(gè)二元組的平均值作為該候選術(shù)語(yǔ)的平均互信息,其中平均互信息的計(jì)算公式如下:
[0023]
其中,3 < η < 6,f(wiW2. · .wn) 代表字符串W1W2. . .Wn在語(yǔ)料中出現(xiàn)的總次數(shù),f (W1W2. . .Wi)代表字符串W1W2. . .Wi在語(yǔ)料中 出現(xiàn)的總次數(shù),f(Wi+l. . .Wn)代表字符串Wi+1. . .Wn在語(yǔ)料中出現(xiàn)的總次數(shù);
[0024] 步驟二:計(jì)算C-value值,計(jì)算公式如下
[0025]
其中,a表示候選的字符串,|a|表示 字符串a(chǎn)的長(zhǎng)度,f (a)表示字符串a(chǎn)的詞頻,Ta表示包含字串a(chǎn)的候選術(shù)語(yǔ),b表示1中任意的 包含字串a(chǎn)的術(shù)語(yǔ),P(Ta)表示包含字串a(chǎn)的術(shù)語(yǔ)總數(shù);
[0026] 步驟三:計(jì)算NC-va Iue值,計(jì)算公式如下
[0027]
_其中,a+β= I,fa(b)表示b 在字串a(chǎn)的上下文中出現(xiàn)的次數(shù),通過(guò)NC-va I ue算法來(lái)評(píng)價(jià)候選術(shù)語(yǔ)的術(shù)語(yǔ)性。
[0028] 進(jìn)一步地,所述α和p的值分別為〇. 8和0.2。
[0029] 進(jìn)一步地,所述步驟D具體如下:
[0030]采用鏈?zhǔn)綗o(wú)向圖結(jié)構(gòu)計(jì)算給定觀察值條件下輸出狀態(tài)的條件概率,標(biāo)記序列的條 件概率計(jì)算公式為
[0031 ]
1 其中,tk(yi-i,yi, x,i)為轉(zhuǎn)移函數(shù),表示觀察序列和標(biāo)記序列在i-1及i時(shí)刻的特征,sk(yi,x,i)為狀態(tài)函數(shù), 表示觀察序列和標(biāo)記序列在i時(shí)刻的特征;Z(X)為歸一化因子AdPuk是由訓(xùn)練樣本得到的 特征函數(shù)權(quán)重,計(jì)算特征權(quán)重函數(shù)采用極大似然估計(jì)方法。
[0032] 本發(fā)明提供的面向?qū)@闹形姆衷~方法,采用規(guī)則的方法來(lái)抽取專利文獻(xiàn)的 術(shù)語(yǔ),然后利用平均互信息和NC-value算法對(duì)候選術(shù)語(yǔ)進(jìn)行過(guò)濾,通過(guò)條件隨機(jī)場(chǎng)進(jìn)一步 識(shí)別專利文獻(xiàn)中出現(xiàn)頻率較低的術(shù)語(yǔ),最后將抽取的術(shù)語(yǔ)加入到用戶詞典中對(duì)專利文獻(xiàn)進(jìn) 行分詞,本發(fā)明的分詞方法的準(zhǔn)確率和召回率都很高,可以很好地滿足實(shí)際應(yīng)用的需要。
【附圖說(shuō)明】
[0033] 圖1為本發(fā)明提出的面向?qū)@闹形姆衷~方法的流程框架示意圖。
【具體實(shí)施方式】
[0034]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,下面結(jié)合附圖和具體實(shí)施 例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用 于限定本發(fā)明。
[0035] -種面向?qū)@闹形姆衷~方法,包括以下步驟:
[0036] 步驟A:構(gòu)建專利停用詞表;
[0037]步驟B:抽取候選術(shù)語(yǔ);
[0038]步驟C:過(guò)濾候選術(shù)語(yǔ);
[0039] 步驟D:抽取低頻專業(yè)術(shù)語(yǔ);
[0040] 步驟E :運(yùn)用抽取的術(shù)語(yǔ)構(gòu)建專利領(lǐng)域詞典,然后再將專利領(lǐng)域詞典添加到 ICTCLAS分詞系統(tǒng)的用戶詞典中對(duì)專利文獻(xiàn)進(jìn)行分詞。
[0041 ]進(jìn)一步地,如圖1所示,本發(fā)明提出的面向?qū)@闹形姆衷~方法的具體詳細(xì)過(guò) 程如下:
[0042]首先對(duì)專利摘要進(jìn)行預(yù)處理;專利摘要作為對(duì)整個(gè)專利的介紹說(shuō)明,是整篇專利 文檔的核心內(nèi)容,蘊(yùn)含了豐富的有價(jià)值的信息。專利摘要的主要內(nèi)容有以下幾項(xiàng):發(fā)明或?qū)?用新型的名稱、所屬技術(shù)領(lǐng)域、需要解決的技術(shù)問(wèn)題、主要技術(shù)特征和用途。正是因?yàn)閷@?摘要包含了如此豐富的領(lǐng)域知識(shí),使得其具有很高的科研價(jià)值。
[0043]本發(fā)明選用中科院自主研發(fā)的ICTCLAS Java版對(duì)大量專利文獻(xiàn)的摘要進(jìn)行分詞 及詞性標(biāo)注的處理。預(yù)處理的語(yǔ)料結(jié)果形式如下所示:
[0044] 本/r發(fā)明/n涉及/V無(wú)軌/b無(wú)線電/n動(dòng)/V公交車/n后/f懸/V架裝置/n,/ w屬于/v車輛/n前/f懸/v架裝置/n結(jié)構(gòu)技術(shù)/n領(lǐng)域/ru/w無(wú)軌/b無(wú)線電/n動(dòng)/v 公交車/n后/f懸/v架裝置/n,/w其/r特征/n在于/v后/f鋼板/n彈簧/n總成/n 固定/v在/p鋼板/n彈簧/n支架/n上/f,/w后/f減震器/n總成/n設(shè)在/V車架/n 總成/n與/p后/f鋼板/n彈簧/n總成/n之間/f,/w后/f懸/V架裝置/n安裝高度/n 降低/v。/?本/r發(fā)明/n的/u無(wú)軌/b無(wú)線電/n動(dòng)/V公交車/n后/f懸/V架裝置/n,/ w可以/v將/p電源/n總成/n后移/vn,/w降低/v乘客/n區(qū)/n地板/n高度/n、/w實(shí) 現(xiàn)/v乘客/n二/m級(jí)/q或/c 一/m級(jí)/q踏步/V上下車/vn,/w提高/V 了Ai運(yùn)輸/Vn 效率/ru/w
[0045] 接下來(lái),進(jìn)行步驟A:構(gòu)建專利停用詞表;停用詞是指那些在專業(yè)領(lǐng)域內(nèi)廣泛使用、 具有較高的詞頻,但是不具備區(qū)分性的詞語(yǔ),或者是在專業(yè)領(lǐng)域內(nèi)不希望作為術(shù)語(yǔ)出現(xiàn)的 詞語(yǔ),去除停用詞可以過(guò)濾掉那些明確在領(lǐng)域內(nèi)不是術(shù)語(yǔ)的詞語(yǔ),以提高抽取的準(zhǔn)確率。因 此,在抽取專利領(lǐng)域的術(shù)語(yǔ)之前,首先要構(gòu)建專利領(lǐng)域的停用詞表。
[0046] 所述步驟A具體包括以下步驟:
[0047] 步驟一:將基礎(chǔ)停用詞表中的所有詞加入到專利停用詞表中;
[0048] 步驟二:對(duì)經(jīng)過(guò)預(yù)處理的文本以空格為分隔符進(jìn)行分割,分別統(tǒng)計(jì)每個(gè)詞在語(yǔ)料 中出現(xiàn)的總次數(shù),即詞頻,最后按照詞頻從大到小排序。選取一個(gè)合適的閾值,當(dāng)詞頻大于 該閾值并且詞性不屬于名詞(n、vn)、動(dòng)詞(V)和形容詞(a)中的任一種時(shí),將該詞加入到專 利停用詞表中。
[0049]然后,進(jìn)行步驟B:抽取候選術(shù)語(yǔ);
[0050] 所述步驟B具體包括以下步驟:
[0051] 步驟一:以專利停用詞表中的停用詞為分隔符對(duì)專利文獻(xiàn)中的摘要進(jìn)行分割;
[0052] 步驟二:分別統(tǒng)計(jì)2詞、3詞、4詞、5詞和6詞術(shù)語(yǔ)的詞性組合及其詞頻,按照詞頻從 大到小進(jìn)行排序;
[0053]步驟三:選取每一種術(shù)語(yǔ)類別下的top-2作為最終的術(shù)語(yǔ)構(gòu)詞規(guī)則。
[0054] 專利術(shù)語(yǔ)構(gòu)詞規(guī)則如表1所示,如下:
[0055] 表1專利術(shù)語(yǔ)構(gòu)詞規(guī)則
[0058] 表1中,η代表名詞,vn代表名動(dòng)詞,V代表動(dòng)詞,m代表數(shù)詞,b代表區(qū)別詞,u代表助 詞。將表中的多術(shù)語(yǔ)的構(gòu)詞規(guī)則作為模板在專利文獻(xiàn)中匹配得到候選術(shù)語(yǔ)集。
[0059]接下來(lái)進(jìn)行步驟C:過(guò)濾候選術(shù)語(yǔ);本發(fā)明采用平均互信息和NC-value算法相結(jié)合 的方法對(duì)候選術(shù)語(yǔ)進(jìn)行過(guò)濾,它們分別從術(shù)語(yǔ)的單元性和術(shù)語(yǔ)度方面來(lái)度量是否是術(shù)語(yǔ), 從而增加了抽取術(shù)語(yǔ)的準(zhǔn)確性。互信息是信息論中的一個(gè)概念,它是用來(lái)度量?jī)蓚€(gè)事件之 間的相互依賴程度。本發(fā)明將互信息應(yīng)用到術(shù)語(yǔ)抽取中,用來(lái)表示兩個(gè)詞語(yǔ)之間的緊密結(jié) 合程度?;バ畔⒌闹翟礁?,說(shuō)明兩個(gè)詞語(yǔ)之間的內(nèi)部結(jié)合強(qiáng)度越高,兩個(gè)詞語(yǔ)組合成短語(yǔ)的 可能