国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于改進信息熵特征的中文未登錄詞識別系統(tǒng)及方法

      文檔序號:6617089閱讀:315來源:國知局
      專利名稱:一種基于改進信息熵特征的中文未登錄詞識別系統(tǒng)及方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于中文詞的識別的技術(shù)領(lǐng)域,具體涉及一種基于改進信息熵特征的中文未登錄詞識別系統(tǒng)及方法,其中涉及一種中文未登錄詞的識別系統(tǒng)及方法,特別是在這種方法是完全基于統(tǒng)計特征的,而且在統(tǒng)計過程中使用本發(fā)明提出的改進的信息熵特征。
      背景技術(shù)
      隨著網(wǎng)絡(luò)時代的發(fā)展與web2. O概念的興起,未登錄詞的大量出現(xiàn)已經(jīng)成為不可避免的語言現(xiàn)象。這種現(xiàn)象在SNS的UGC(user generate content)當(dāng)中尤為明顯,社交網(wǎng)絡(luò)中,用戶用詞十分隨意,極不規(guī)范,造詞速度很快。未登錄詞識別在很大程度上影響著相關(guān)信息處理的效果,在中文分詞領(lǐng)域,未登錄詞的識別性能已經(jīng)成為提高分詞效果的瓶頸。研究表明,在過去20多年中每年會產(chǎn)生800個以上的新詞,而正是這些未收錄進詞庫的新詞,導(dǎo)致了中文分詞60%以上的錯誤,可見提高未登錄詞的識別率對中文分詞具有重要意義。傳統(tǒng)的未登錄詞識別系統(tǒng)總是先對文本進行詞典分詞,提取出詞典中不存在的文本片段,然后猜測這些片段就是未登錄詞。這類方法的明顯不足之處在于未登錄詞的識別結(jié)果本身就依賴于詞典的質(zhì)量。

      發(fā)明內(nèi)容
      本發(fā)明要解決的技術(shù)問題為克服現(xiàn)有技術(shù)方案的不足,提供一種基于改進信息熵特征的中文未登錄詞識別系統(tǒng)及方法,該系統(tǒng)及方法充分利用中文文本的統(tǒng)計特征,彌補傳統(tǒng)未登錄詞識別方法的不足,降低了對詞典質(zhì)量的依賴,使該系統(tǒng)應(yīng)用具有實用性強、準(zhǔn)確度高、以及實現(xiàn)方便的優(yōu)點。為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為一種基于改進信息熵特征的中文未登錄詞識別系統(tǒng),包括字符序列提取模塊該模塊從中文文本中切分成許多字符序列,字符序列最短兩個字符,字符序列中必須有且僅有中文漢字字符,如果包含非漢字的其他字符,則不統(tǒng)計該非漢字的其他字符序列;特征計算模塊該模塊計算所有字符序列的統(tǒng)計特征,包括字符序列的左鄰接字的改進信息熵、字符序列的右鄰接字的改進信息熵,字符序列的出現(xiàn)頻率,字符序列的互信息,字符序列的序列長度;其中在字符序列的左、右鄰接字符信息熵特征計算過程中,并不是直接計算信息熵特征,而是先用一個隨機的不重復(fù)字符代替標(biāo)點符號字符,然后再使用一般的信息熵的計算方法,得到改進的信息熵特征。公式為H(x) = - Σ P(Xi) Iog(PUi)),其中H (X)是鄰接字符的信息熵,P (Xi)是鄰接字符取Xi的概率;字符序列的出現(xiàn)頻率是指字符在整個文本中的出現(xiàn)次數(shù);
      字符序列的互信息是指假設(shè)有漢字串Wlw2,則漢字wl和《2間的互信息定義為
      權(quán)利要求
      1.一種基于改進信息熵特征的中文未登錄詞識別系統(tǒng),其特征在于包括 字符序列提取模塊該模塊從中文文本中切分成許多字符序列,字符序列最短兩個字符,字符序列中必須有且僅有中文漢字字符,如果包含非漢字的其他字符,則不統(tǒng)計該非漢字的其他字符序列; 特征計算模塊該模塊計算所有字符序列的統(tǒng)計特征,包括字符序列的左鄰接字的改進信息熵、字符序列的右鄰接字的改進信息熵,字符序列的出現(xiàn)頻率,字符序列的互信息,字符序列的序列長度;其中 在字符序列的左、右鄰接字符信息熵特征計算過程中,并不是直接計算信息熵特征,而是先用一個隨機的不重復(fù)字符代替標(biāo)點符號字符,然后再使用一般的信息熵的計算方法,得到改進的信息熵特征; 公式為
      2.一種基于改進信息熵特征的中文未登錄詞識別方法,其特征在于包括 字符序列提取步驟該步驟從中文文本中切分成許多字符序列,字符序列最短兩個字符,字符序列中必須有且僅有中文漢字字符,如果包含非漢字的其他字符,則不統(tǒng)計該非漢字的其他字符序列; 特征計算步驟該步驟計算所有字符序列的統(tǒng)計特征,包括字符序列的左鄰接字的改進信息熵、字符序列的右鄰接字的改進信息熵,字符序列的出現(xiàn)頻率,字符序列的互信息,字符序列的序列長度;其中 在字符序列的左、右鄰接字符信息熵特征計算過程中,并不是直接計算信息熵特征,而是先用一個隨機的不重復(fù)字符代替標(biāo)點符號字符,然后再使用一般的信息熵的計算方法,得到改進的信息熵特征; 公式為
      全文摘要
      本發(fā)明提出了一種基于改進信息熵特征的中文未登錄詞識別系統(tǒng)及方法,該系統(tǒng)包含字符序列提取模塊從中文文本中切分成許多字符序列,字符序列最短兩個字符,字符序列中必須有且僅有中文漢字字符;特征計算模塊計算所有字符序列的統(tǒng)計特征,包括左鄰接字的改進信息熵,右鄰接字的改進信息熵等;成詞識別模塊使用訓(xùn)練好的成詞識別的分類器進行分類處理,判斷字符序列成詞或者不成詞;詞典比對模塊將成詞識別模塊獲得的成詞字符序列與詞典文件對比,詞典文件中不存在字符序列的即是未登錄的詞匯。本發(fā)明充分利用中文文本的統(tǒng)計特征,彌補傳統(tǒng)未登錄詞識別方法的不足,降低對詞典質(zhì)量的依賴,具有實用性強、準(zhǔn)確度高、以及實現(xiàn)方便的優(yōu)點。
      文檔編號G06F17/27GK103020022SQ201210473340
      公開日2013年4月3日 申請日期2012年11月20日 優(yōu)先權(quán)日2012年11月20日
      發(fā)明者李超, 李想, 呂志強 申請人:北京航空航天大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1