專利名稱:基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法,屬于信息技術(shù)領(lǐng)域。
背景技術(shù):
國家標準GB/T15237. 1-2000《術(shù)語工作詞匯》的定義,術(shù)語是特定專業(yè)領(lǐng)域中一般概念的詞語指稱,是在一個學(xué)科領(lǐng)域內(nèi)使用、表示該學(xué)科領(lǐng)域內(nèi)的概念或關(guān)系的詞或詞組。術(shù)語可以分為日常生活中使用的一般性術(shù)語和特定領(lǐng)域中使用的領(lǐng)域術(shù)語。一般性術(shù)語多是按人們的生活和工作習慣形成的,不要求它在概念的表達上嚴格準確,其含義往往比較模糊;領(lǐng)域術(shù)語是對一個專業(yè)概念的系統(tǒng)性、概括性的描述,不允許模棱兩可,每一個專業(yè)術(shù)語表達的概念都必須準確無誤,不能因使用人的不同而不同。領(lǐng)域術(shù)語識別是指從特定的科學(xué)或技術(shù)領(lǐng)域的語料庫中抽出專業(yè)領(lǐng)域術(shù)語。領(lǐng)域術(shù)語自動識別作為信息抽取的重要內(nèi)容,在自然語言處理領(lǐng)域有著廣泛的應(yīng)用,對于提高領(lǐng)域文本索引與檢索、文本挖掘、本體構(gòu)建、文本分類和聚類、潛在語義分析等的處理精度有著重要的意義。現(xiàn)有的中文文本信息中的領(lǐng)域術(shù)語識別方法主要有
(I)基于統(tǒng)計方法的中文領(lǐng)域術(shù)語識別方法,主要思想是利用領(lǐng)域術(shù)語內(nèi)部各組成成分之間較高的關(guān)聯(lián)程度以及術(shù)語的領(lǐng)域特征信息來抽取領(lǐng)域術(shù)語?;诮y(tǒng)計的方法一般流程是首先利用統(tǒng)計學(xué)或信息論中的方法,建立起各種統(tǒng)計信息,并根據(jù)統(tǒng)計結(jié)果,確定比較準確的種子詞;然后在此基礎(chǔ)上不斷擴展,獲取最終的領(lǐng)域術(shù)語。詞語頻率、均值和方差是比較常用的統(tǒng)計方法,更多的學(xué)者使用假設(shè)檢驗的方法,主要有T檢驗、卡方檢驗、對數(shù)似然比、點互信息等。用統(tǒng)計方法識別領(lǐng)域術(shù)語,不需要句法、語義上的信息,不局限于某一專門領(lǐng)域,也不依賴任何資源,通用性較強。其中,基于統(tǒng)計的互信息算法應(yīng)用最為廣泛。例如有文章報道,其題目為“基于互信息的中文術(shù)語抽取系統(tǒng)”(該文作者是張鋒許云侯艷樊孝忠,發(fā)表于2005年出版的《計算機應(yīng)用研究》第22卷第5期第72-73,77頁),該文公開了一種中文術(shù)語自動抽取系統(tǒng),該系統(tǒng)首先基于互信息計算字串的內(nèi)部結(jié)合強度,從而得到術(shù)語候選集;接著從術(shù)語候選集中去除基本詞,并利用普通詞語搭配前綴、后綴信息進一步過濾;最后對術(shù)語候選進行詞法分析,利用術(shù)語的詞性構(gòu)成規(guī)則進行判別,得到最終的術(shù)語抽取結(jié)果。實驗結(jié)果表明,利用互信息算法對術(shù)語抽取的準確率為72. 19%,召回率為77. 98%,F(xiàn)測量值為74.97%。例如有文獻報道,“C值和互信息相結(jié)合的術(shù)語抽取”(作者是梁穎紅張文靜張有承,發(fā)表于2010年出版的《計算機應(yīng)用與軟件》第27卷第4期第108-110頁),該文公開了一種將C值和互信息相結(jié)合的術(shù)語抽取方法,該方法提出綜合C-value參數(shù)在長術(shù)語抽取方面具有優(yōu)勢,實驗結(jié)果表明,該方法對長術(shù)語抽取的準確率為75. 7%,召回率為68.4%,F(xiàn)測量值為71. 9%,高于相同語料下的其他方法。但是該算法性能直接依賴于語料庫的規(guī)模和候選領(lǐng)域術(shù)語的詞頻,針對有些低頻率候選術(shù)語也可能是合法術(shù)語的數(shù)據(jù)稀疏問題難以解決,所以單純利用互信息算法對領(lǐng)域術(shù)語進行識別,識別的準確率、召回率以及F測量值均難以達到80%以上,很難獲得理想的識別效果;
(2)基于機器學(xué)習的中文領(lǐng)域術(shù)語識別方法的主要步驟為采用手工或半自動方式構(gòu)建訓(xùn)練語料,根據(jù)某種機器學(xué)習算法對訓(xùn)練語料學(xué)習生成模型,然后再利用模型對測試語料進行領(lǐng)域術(shù)語抽取實驗,以驗證本算法的有效性。目前已用于中文領(lǐng)域術(shù)語識別的機器學(xué)習理論主要包括決策樹、支持向量機、隱馬爾科夫模型、最大熵模型、最大熵馬爾科夫模型和條件隨機場算法等?;跈C器學(xué)習的術(shù)語識別方法無需專家的領(lǐng)域知識和語言知識,實現(xiàn)可行性大,在考慮多種術(shù)語特征的情況下可以得到較好的識別或抽取效果。目前,基于機器學(xué)習的中文領(lǐng)域術(shù)語識別方法中條件隨機場模型應(yīng)用最為廣泛。例如有文獻報道,“一種中醫(yī)名詞術(shù)語自動抽取方法”(作者是張五輩白宇王裴巖張桂平,發(fā)表于2011年出版的《沈陽航空航天大學(xué)學(xué)報》第28卷第I期第72-75頁),該文公開了一種針對中醫(yī)領(lǐng)域的基于條件隨機場的術(shù)語抽取方法,該方法將中醫(yī)領(lǐng)域術(shù)語抽取看作一個序列標注問題,將中醫(yī)領(lǐng)域術(shù)語分布的特征量化作為訓(xùn)練的特征,利用CRF工具包訓(xùn)練出一個領(lǐng)域術(shù)語模型,然后利用該模型進行術(shù)語抽取。選擇《名醫(yī)類案》作為中醫(yī)領(lǐng)域文本進行術(shù)語抽取實驗,準確率達到83. 11%,召回率達到81.04%,F(xiàn)測量值達到82. 06%。以及文章“采用CRF技術(shù)的軍事情報術(shù)語自動抽取研究”(作者是賈美英楊炳儒鄭德權(quán)楊靖,發(fā)表于2009年出版的《計算機工程與應(yīng)用》第45卷第32期第126-129頁),該文公開了一種針對軍事情報領(lǐng)域的基于條件隨機場的術(shù)語抽取方法,該方法將領(lǐng)域術(shù)語識別看作一個序列標注問題,將領(lǐng)域術(shù)語分布的特征量化作為訓(xùn)練的特征,利用CRF工具包訓(xùn)練出一個領(lǐng)域術(shù)語特征模板,然后利用該模板進行領(lǐng)域術(shù)語抽取。實驗表明,該方法對軍事情報領(lǐng)域術(shù)語的識別結(jié)果良好,準確率可達到73. 24%,召回率達到69. 57%,F(xiàn)測量值達到71. 36%。利用條件隨機場算法進行領(lǐng)域術(shù)語識別時,訓(xùn)練語料基本上都為手動和半自動標注的,人為參與度都高,工作量大,導(dǎo)致普遍識別量不大,制約了該算法的識別精度和應(yīng)用。同時,需要先利用通用的分詞工具對語料進行分詞,然后再對分詞后的語料進行條件隨機場訓(xùn)練和測試,最終才能實現(xiàn)術(shù)語的識別。所以利用條件隨機場算法進行領(lǐng)域術(shù)語識別的前提是,假設(shè)現(xiàn)有的通用分詞工具可以對該領(lǐng)域的詞匯進行準確地分詞,并認為領(lǐng)域術(shù)語比分詞工具所分的詞粒度大。但是,由于專業(yè)領(lǐng)域術(shù)語與普通詞匯存在差距,用一般性分詞工具很難實現(xiàn)對專業(yè)領(lǐng)域語料的準確分詞。因此,目前互信息和條件隨機場方法在領(lǐng)域術(shù)語識別過程中自動識別程度較低,且識別精度不高。
發(fā)明內(nèi)容
鑒于以上所述現(xiàn)有技術(shù)存在的問題,本發(fā)明的目的是提供一種基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法,該方法在術(shù)語識別時,不僅能克服合法術(shù)語的數(shù)據(jù)稀疏,降低了條件隨機場算法的運算量,而且能夠提高中文領(lǐng)域術(shù)語識別精度。為了達到上述目的,本發(fā)明采用下述技術(shù)方案
本發(fā)明的基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法,具體步驟如下
(I )、收集領(lǐng)域文本語料,對語料中所有的標點符號、空格、數(shù)字、ASCII字符以及漢字以外字符進行標記;
(2)、設(shè)置字串F,計算字串τ的互信息值;(3)、計算字串Ir左右信息熵;
(4)、定義字串W評價函數(shù),設(shè)置評價函數(shù)閾值,計算各字串的評價函數(shù)值,確定字串"力詞,依次比較該字串〖F中前一字,的評價函數(shù)值與后一字Ip1評價函數(shù)值相比較,得到各字串Ir中對應(yīng)的比值,其比值再與評價函數(shù)閾值比較,逐一對字義字串w分詞;
(5)、以詞、詞性、詞的出現(xiàn)頻率的隨機場的訓(xùn)練特征,利用條件隨機場方法訓(xùn)練出一個領(lǐng)域術(shù)語條件隨機場模型,用該模型對進行領(lǐng)域術(shù)語識別。上述步驟(2)中所述的(2)設(shè)置字串Ir,計算字串Ir的互信息值,其計算公式如下
假設(shè)一個領(lǐng)域術(shù)語是由η個字組成,如果字串Ir為一個領(lǐng)域術(shù)語,那么字串,由巧、X2、巧… 個字組成,字串W的互信息值計算公式如下
權(quán)利要求
1.一種基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法,具體步驟如下 (I )、收集領(lǐng)域文本語料,對語料中所有的標點符號、空格、數(shù)字、ASCII字符以及漢字以外字符進行標記; (2)、設(shè)置字串W,計算字串T的互信息值; (3)、計算字串JT左右信息熵; (4)、定義字串W評價函數(shù),設(shè)置評價函數(shù)《 料,)閾值,計算各字串的評價函數(shù)值,確定字串IT力詞,依次比較該字串W中前一字的評價函數(shù)值與后一字評價函數(shù)值相比較,得到各字串『中對應(yīng)的比值,其比值再與評價函數(shù)-4,)閾值比較,逐一對字義字串,分詞; (5)、以詞、詞性、詞的出現(xiàn)頻率的隨機場的訓(xùn)練特征,利用條件隨機場方法訓(xùn)練出一個領(lǐng)域術(shù)語條件隨機場模型,用該模型對進行領(lǐng)域術(shù)語識別。
2.根據(jù)權(quán)利要求1所述的基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法,其特征在于,上述步驟(2)中所述的設(shè)置字串『,計算字串JT的互信息值,其計算公式如下 假設(shè)一個領(lǐng)域術(shù)語是由n個字組成,如果字串T力一個領(lǐng)域術(shù)語,那么字串fT由珥、&、A......A個字組成,字串W的互信息值計算公式如下
3.根據(jù)權(quán)利要求1所述的基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法,其特征在于,上述步驟(3)中所述的計算左右信息熵,其計算公式如下
4.根據(jù)權(quán)利要求1所述的基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法,其特征在于,上述步驟(4)中所述的定義字串W評價函數(shù),并利用評價函數(shù)對語料進行分詞,是指利用步驟(2)和步驟(3)計算得到的互信息和左右信息熵值,對語料中的字串n力詞的可信度進行評價,判斷該字串是否為詞,其中,字串W評價函數(shù)計算公式如下
5.根據(jù)權(quán)利要求1所述的基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法,其特征在于,上述步驟(5)中所述的以詞、詞性、詞的出現(xiàn)頻率的隨機場的訓(xùn)練特征,利用條件隨機場方法訓(xùn)練出一個領(lǐng)域術(shù)語條件隨機場模型,利用該模型對進行領(lǐng)域術(shù)語識別,其操作步驟如下 (51 )、以詞本身、詞性、詞的出現(xiàn)頻率在語料中進行標注; (52)、利用CRF++0. 53工具包對已標注的特征序列訓(xùn)練,獲取條件隨機場參數(shù),該條件隨機場參數(shù)為該領(lǐng)域術(shù)語識別的條件隨機場模型; (53)、用領(lǐng)域術(shù)語識別的的條件隨機場模型對測試已標注的特征序列的領(lǐng)域術(shù)語識別。
全文摘要
本發(fā)明公開了一種基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法,其步驟如下(1)收集領(lǐng)域文本語料,對語料中所有的標點符號、空格、數(shù)字、ASCII字符以及漢字以外字符進行標記;(2)設(shè)置字串,計算字串的互信息值;(3)計算字串左右信息熵;(4)定義字串評價函數(shù),設(shè)置評價函數(shù)閾值,計算各字串的評價函數(shù)值,確定字串為詞,依次比較該字串中前一字的評價函數(shù)值與后一字評價函數(shù)值相比較,逐一對字義字串分詞;(5)利用條件隨機場訓(xùn)練出一個領(lǐng)域術(shù)語條件隨機場模型,用該模型對進行領(lǐng)域術(shù)語識別。該方法在術(shù)語識別時,不僅能克服合法術(shù)語的數(shù)據(jù)稀疏,降低了條件隨機場算法的運算量,而且能夠提高中文領(lǐng)域術(shù)語識別精度。
文檔編號G06F17/30GK103049501SQ20121052873
公開日2013年4月17日 申請日期2012年12月11日 優(yōu)先權(quán)日2012年12月11日
發(fā)明者彭琳, 劉宗田, 楊林楠, 張立敏 申請人:上海大學(xué)