国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      采用特征擴(kuò)展分類文本及構(gòu)造文本分類器的方法和裝置的制作方法

      文檔序號(hào):6598146閱讀:201來源:國知局
      專利名稱:采用特征擴(kuò)展分類文本及構(gòu)造文本分類器的方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及計(jì)算機(jī)信息處理系統(tǒng),尤其涉及通過對(duì)訓(xùn)練集的文本信息對(duì)象進(jìn)行特
      征擴(kuò)展處理,構(gòu)造文本分類器的方法和裝置。
      背景技術(shù)
      短文本分類就是對(duì)長度短的文本(通常文本長度小于160字符),例如即時(shí)通訊系統(tǒng)QQ, MSN中的文本,手機(jī)短消息中的文本,利用計(jì)算機(jī)進(jìn)行自動(dòng)分類,以確定其是否屬于某一類別。 短文本分類技術(shù)是基于短文本應(yīng)用領(lǐng)域必須解決的具有挑戰(zhàn)性的關(guān)鍵技術(shù),具有重要的應(yīng)用前景。例如短文本分類是解決手機(jī)短信息過濾這一現(xiàn)實(shí)任務(wù)的基礎(chǔ)。手機(jī)短信息在最近幾年進(jìn)入了爆發(fā)式的快速增長時(shí)期,已經(jīng)成為互聯(lián)網(wǎng)技術(shù)與移動(dòng)通信相結(jié)合的一種重要的信息傳播渠道。短信息在給用戶帶來極大便利的同時(shí),也成為信息安全的重大隱患。通過手機(jī)短信這一新興的信息工具,各種色情暴力、政治謠言、反動(dòng)言論、詐騙信息和非法廣告的傳播,已經(jīng)成為影響社會(huì)穩(wěn)定的重要因素之一。因此必須對(duì)短信息中的有害信息進(jìn)行及時(shí)攔截和過濾。手機(jī)短信息過濾問題是一個(gè)典型的兩類短文本分類任務(wù)。
      短文本具有一種固有屬性短文本所描述概念的信號(hào)弱,這是由短文本的長度短引起的,它使短文本分類具有極大的挑戰(zhàn)性。由于短文本分具有的上述特點(diǎn),當(dāng)將現(xiàn)行主流文本分類技術(shù)(即那些對(duì)長文本分類性能好的分類技術(shù),如中國專利,"用于分類文本以及構(gòu)造文本分類器的方法和裝置",專利申請(qǐng)?zhí)?9808930. 3,)用于短文本時(shí),分類器的性能變壞。這表明現(xiàn)有文本分類技術(shù)不適用于短文本分類。由于短文本具有長度短、所描述概念信號(hào)弱的固有缺陷,短文本分類的可行途徑是利用外部資源中的額外信息來輔助分類。

      發(fā)明內(nèi)容
      本發(fā)明針對(duì)現(xiàn)有技術(shù)構(gòu)造的文本分類器,適用于長文本,而對(duì)短文本進(jìn)行分類時(shí),分類器的性能變壞的缺陷 本發(fā)明解決上述技術(shù)問題的技術(shù)方案是,利用訓(xùn)練語料集和人工構(gòu)造的資源(例如知網(wǎng)等)挖掘出具有特定關(guān)系的特征組合等有用信息,構(gòu)成特征擴(kuò)展模式,用于對(duì)短文本進(jìn)行擴(kuò)展,彌補(bǔ)其概念信號(hào)弱的固有缺陷,通過對(duì)訓(xùn)練集的文本信息對(duì)象進(jìn)行特征擴(kuò)展處理來構(gòu)造分類器,和先對(duì)文本信息對(duì)象進(jìn)行特征擴(kuò)展處理,進(jìn)而將其分類成屬于某個(gè)種類還是不屬于某個(gè)種類。 依據(jù)本發(fā)明的一個(gè)方面,提供一種通過對(duì)訓(xùn)練集的文本信息對(duì)象進(jìn)行特征擴(kuò)展處理來構(gòu)造分類器的方法,所述分類器確定一個(gè)文本信息對(duì)象是否屬于一個(gè)種類,該方法包括以下步驟 a)特征抽取處理模塊從待分類的文本信息對(duì)象中抽取特征,生成一個(gè)包含多個(gè)特征的特征序列集; b)特征精簡模塊根據(jù)標(biāo)準(zhǔn)確定閾值,對(duì)特征序列集進(jìn)行特征選擇處理,生成特征集的子集一精簡特征集; c)特征擴(kuò)展模式抽取處理模塊對(duì)特征序列集和精簡特征集進(jìn)行處理,抽取特征擴(kuò)
      展模式,構(gòu)成特征擴(kuò)展模式集,所述特征擴(kuò)展模式包括左部和右部兩部分,左部由特征序列
      集中的一個(gè)或者多個(gè)特征構(gòu)成,右部由精簡特征集中的一個(gè)精簡特征構(gòu)成; d)特征擴(kuò)展處理模塊對(duì)精簡特征集和特征擴(kuò)展模式集進(jìn)行特征擴(kuò)展處理,生成僅
      由精簡特征構(gòu)成的精簡特征序列,精簡特征序列中的元素為單個(gè)精簡特征或者多個(gè)精簡特
      征構(gòu)成; e)生成處理模塊對(duì)精簡特征序列中的每個(gè)精簡特征調(diào)整權(quán)重,生成精簡特征向 量,構(gòu)成簡特征向量集; f)分類器構(gòu)造處理模塊根據(jù)精簡特征向量集構(gòu)造文本分類器。 本發(fā)明提供一種抽取特征擴(kuò)展模式的方法,該方法包括如下子步驟 (a)從該訓(xùn)練集的多個(gè)文本信息對(duì)象抽取候選特征擴(kuò)展模式,構(gòu)成候選特征擴(kuò)展
      模式集,所述候選特征擴(kuò)展模式包括左部和右部兩部分,左部由特征集中的一個(gè)或者多個(gè)
      特征構(gòu)成,右部僅由特征集中的一個(gè)特征構(gòu)成; (b)利用精簡特征集過濾候選特征擴(kuò)展模式集,生成特征擴(kuò)展模式集。 本發(fā)明提供一種特征擴(kuò)展模式過濾方法利用從特征擴(kuò)展模式左部和右部在訓(xùn)練
      集中的類別分布定義的類別趨同性標(biāo)準(zhǔn),來過濾特征擴(kuò)展模式集。 本發(fā)明利用關(guān)聯(lián)規(guī)則挖掘算法來抽取候選特征擴(kuò)展模式,具體包括,從特征序列 中抽取滿足支持度要求的X階頻繁項(xiàng),構(gòu)造2至N階特征頻繁項(xiàng)集;模式處理模塊對(duì)每個(gè)特 征頻繁項(xiàng)進(jìn)行處理構(gòu)成候選特征擴(kuò)展模式集;抽取處理模塊將候選特征擴(kuò)展模式集元素中 右部不為精簡特征的候選特征擴(kuò)展模式過濾掉,生成特征擴(kuò)展模式集,其中,N為特征擴(kuò)展 模式左部最多所能包含的特征數(shù)目。 本發(fā)明還利用知識(shí)詞典抽取特征擴(kuò)展模式,具體包括,抽取處理模塊計(jì)算特征序 列中兩詞語的位置之差,抽取詞語對(duì)間位置之差小于詞語對(duì)之間的距離閾值e的詞語對(duì), 生成詞語對(duì)集合;掃描模塊掃描詞語對(duì)集合,如果構(gòu)成詞語對(duì)的兩個(gè)詞語中,有且僅有一個(gè) 詞語為精簡特征,則以該精簡特征詞語為右部,非精簡特征詞語為左部,生成候選特征擴(kuò)展 模式,構(gòu)成候選特征擴(kuò)展模式集;根據(jù)知識(shí)詞典將候選特征擴(kuò)展模式集中左部詞語和右部 詞語之間不存在上下位關(guān)系的候選特征擴(kuò)展模式從候選特征擴(kuò)展模式集中過濾掉,生成特 征擴(kuò)展模式集。 通過上述方法對(duì)文本信息對(duì)象進(jìn)行特征擴(kuò)展處理,進(jìn)而通過本發(fā)明構(gòu)造的分類器 將其分類成屬于某個(gè)種類還是不屬于某個(gè)種類,具體包括 從該文本信息對(duì)象中抽取特征,生成一個(gè)僅由多個(gè)特征構(gòu)成的特征序列;
      利用特征擴(kuò)展模式集,對(duì)文本信息對(duì)象對(duì)應(yīng)的特征序列進(jìn)行特征擴(kuò)展處理,生成 僅由精簡特征構(gòu)成的精簡特征序列,精簡特征序列中的元素為單個(gè)精簡特征或者多個(gè)精簡 特征構(gòu)成的集合; 對(duì)文本信息對(duì)象對(duì)應(yīng)的精簡特征序列中的每個(gè)精簡特征調(diào)整權(quán)重,生成精簡特征 向量; 將精簡特征向量輸入分類器構(gòu)造處理模塊進(jìn)行處理;分類器構(gòu)造處理模塊根據(jù)與 訓(xùn)練語料集的文本信息對(duì)象相對(duì)應(yīng)的精簡特征向量集構(gòu)造文本分類器;文本分類器根據(jù)與
      6待分類文本信息對(duì)象相對(duì)應(yīng)的精簡特征向量對(duì)文本信息對(duì)象進(jìn)行分類處理。 依據(jù)本發(fā)明的另一個(gè)方面,本發(fā)明提供了一種通過對(duì)文本信息對(duì)象的訓(xùn)練集進(jìn)行
      特征擴(kuò)展處理來構(gòu)造分類器的裝置,該裝置包括, 特征抽取處理模塊從待分類的文本信息對(duì)象中抽取特征,生成一個(gè)包含多個(gè)特征 的特征序列集;特征精簡模塊根據(jù)標(biāo)準(zhǔn)確定閾值,對(duì)特征集中的特征進(jìn)行特征選擇處理,生 成特征集的子集一精簡特征集;特征擴(kuò)展模式抽取處理模塊對(duì)特征序列集和精簡特征集進(jìn) 行處理,抽取特征擴(kuò)展模式,構(gòu)成特征擴(kuò)展模式集,所述特征擴(kuò)展模式包括左部和右部兩部 分,左部由特征集中的一個(gè)或者多個(gè)特征構(gòu)成,右部由精簡特征集中的一個(gè)精簡特征構(gòu)成; 特征擴(kuò)展處理模塊對(duì)精簡特征集和特征擴(kuò)展模式集進(jìn)行特征擴(kuò)展處理,生成僅由精簡特征 構(gòu)成的精簡特征序列,精簡特征序列中的元素為單個(gè)精簡特征或者多個(gè)精簡特征構(gòu)成的集 合;生成處理模塊對(duì)精簡特征序列中的每個(gè)精簡特征調(diào)整權(quán)重,生成精簡特征向量,構(gòu)成精 簡特征向量集;分類器構(gòu)造處理模塊根據(jù)精簡特征向量集構(gòu)造文本分類器,所述文本分類 器用于確定一個(gè)文本信息對(duì)象是否屬于一個(gè)種類。 本發(fā)明針對(duì)短文本信號(hào)弱等特點(diǎn),通過對(duì)文本進(jìn)行特征擴(kuò)展處理來分類文本,以 及對(duì)訓(xùn)練文本進(jìn)行特征擴(kuò)展處理來構(gòu)造分類器,改善了分類器性能,能夠?qū)Χ涛谋拘畔⒅?的有害信息進(jìn)行及時(shí)攔截和過濾。利用本發(fā)明提供的分類器對(duì)短文本進(jìn)行分類處理,對(duì)短 文本具有良好的識(shí)別能力,達(dá)到良好的短文本分類能力。


      圖1對(duì)訓(xùn)練文本進(jìn)行特征擴(kuò)展處理來構(gòu)造分類器示意流程圖
      圖2通過對(duì)文本進(jìn)行特征擴(kuò)展處理分類文本的過程示意圖
      圖3利用關(guān)聯(lián)規(guī)則算法抽取特征擴(kuò)展模式示意流程圖
      圖4為利用《知網(wǎng)》抽取特征擴(kuò)展模式流程圖
      具體實(shí)施例方式
      本發(fā)明通過對(duì)文本進(jìn)行特征擴(kuò)展處理來分類文本,以及對(duì)訓(xùn)練文本進(jìn)行特征擴(kuò)展 處理來構(gòu)造分類器。特別適用于即時(shí)通訊系統(tǒng)QQ,MSN和手機(jī)短消息中的文本,以及網(wǎng)絡(luò)評(píng) 論中的文本的處理。對(duì)熟練技術(shù)人員而言,對(duì)所公開實(shí)施方式的各種更改是顯而易見的,并 且可以將下面闡述的一般原則應(yīng)用于其它實(shí)施方式和應(yīng)用中。因此,本發(fā)明并不僅用所示 實(shí)施方式來限制。 以下針對(duì)附圖對(duì)本發(fā)明的實(shí)施方式進(jìn)行具體描述。關(guān)于附圖中,一般箭頭表示輸
      入,"帽子"箭頭表示輸出。 基于特征擴(kuò)展的分類器構(gòu)造 圖1所示為對(duì)訓(xùn)練文本進(jìn)行特征擴(kuò)展處理來構(gòu)造分類器的過程示意圖。在文本信 息對(duì)象訓(xùn)練實(shí)例集115中給定一組訓(xùn)練數(shù)據(jù),即具有類別標(biāo)簽的文本的集合,分類器構(gòu)造 步驟如下 步驟1.抽取處理110 掃描訓(xùn)練語料集中的每個(gè)文本對(duì)象,特征抽取處理模塊提取每個(gè)文本對(duì)象出現(xiàn)的 特征構(gòu)成初始特征集A,統(tǒng)計(jì)每個(gè)特征在文本中出現(xiàn)次數(shù),并記錄下每個(gè)特征出現(xiàn)的頻率。例如,假設(shè)特征為詞語,有n個(gè)不同的詞語在訓(xùn)練數(shù)據(jù)中出現(xiàn)過,則初始特征集A就由n個(gè) 詞語構(gòu)成。 預(yù)先構(gòu)建停用詞列表L,停用詞列表由一些沒有類別區(qū)分能力的詞語構(gòu)成,例如助 動(dòng)詞"的"、"地"、"得"等,或者英文中的"is", "a", "an"等。掃描模塊在停用詞列表中掃 描,比較初始特征集A中的特征,利用停用詞列表L,過濾掉初始特征集A中的停用詞,構(gòu)成 新的特征集B。根據(jù)Zipf(給出Zipf的中文含義?)定律,將特征集B中的頻率低于Zipf 頻率閾值的特征過濾掉,構(gòu)成特征序列集。 Zipf定律涉及文本中不同詞語(單詞)的分布,它表明單詞的秩(r)和頻率的
      乘積為常數(shù)。即,許多單詞在特征集中僅出現(xiàn)一次,在特征集中該數(shù)目有一半的單詞出現(xiàn)兩
      次,在特征集中該數(shù)目三分之一的單詞出現(xiàn)三次,等等。由此設(shè)置Zipf頻率閾值,在特征集
      中出現(xiàn)次數(shù)低于閾值的單詞沒有類別區(qū)分能力,過濾模塊將其過濾掉。 掃描模塊再次掃描訓(xùn)練語料集中的每個(gè)文本對(duì)象,將每個(gè)文本看成由一個(gè)個(gè)特征
      構(gòu)成的特征序列,將該序列中不在特征集中的特征過濾掉,將其轉(zhuǎn)變?yōu)槲谋居?xùn)練實(shí)例的特
      征序列,構(gòu)造文本信息對(duì)象訓(xùn)練實(shí)例的特征序列集125。例如,對(duì)給定文本"掃描訓(xùn)練數(shù)據(jù)
      集中的每個(gè)文本",其特征序列為"掃描訓(xùn)練數(shù)據(jù)集中的每個(gè)文本",根據(jù)特征集過濾后的特
      征序列為"掃描訓(xùn)練數(shù)據(jù)集每個(gè)文本"。應(yīng)當(dāng)說明當(dāng)訓(xùn)練文本為中文文本、特征類型為詞語
      時(shí),先采用中文分詞系統(tǒng)進(jìn)行分詞。然后再按照步驟1進(jìn)行特征抽取。 步驟2.特征精簡處理120 特征集中的特征太多,可能包含數(shù)百萬個(gè)特征元素,需要進(jìn)行特征選擇處理(即 特征精簡處理),來選擇較少的、具有強(qiáng)類別區(qū)分能力的特征,用于構(gòu)建分類器和分類文本 處理。特征精簡模塊利用種類相關(guān)特征精簡技術(shù),或種類不相關(guān)特征精簡技術(shù),根據(jù)標(biāo)準(zhǔn) 確定閾值,對(duì)特征集中與訓(xùn)練語料集的文本信息對(duì)象相對(duì)應(yīng)的特征序列集進(jìn)行特征選擇處 理,生成特征集的子集一精簡特征集。特征精簡過程為特征精簡模塊根據(jù)標(biāo)準(zhǔn)確定閾值, 計(jì)算特征集中的每個(gè)特征對(duì)應(yīng)標(biāo)準(zhǔn)的值,每個(gè)特征至少對(duì)應(yīng)一條標(biāo)準(zhǔn),如果其特征對(duì)應(yīng)標(biāo) 準(zhǔn)的值大于根據(jù)標(biāo)準(zhǔn)確定的閾值,則所對(duì)應(yīng)的特征為精減特征,從而構(gòu)造精減特征集。其標(biāo) 準(zhǔn)可采用(a)互信息,(b)信息增益,(c) x、平方),(d)相關(guān)系數(shù),(e)貝葉斯評(píng)分,以及 (f)單值分解。至于選用哪幾條標(biāo)準(zhǔn)進(jìn)行計(jì)算,可預(yù)先設(shè)定參數(shù)進(jìn)行選擇。
      步驟3.特征擴(kuò)展模式抽取處理130 將訓(xùn)練語料集中文本訓(xùn)練實(shí)例的特征序列集和精減特征集輸入到特征擴(kuò)展模式 抽取處理模塊進(jìn)行處理,抽取特征擴(kuò)展模式集。特征擴(kuò)展模式包括左部和右部兩部分,左部 由特征集中的一個(gè)或者多個(gè)特征構(gòu)成,右部由精簡特征集中的一個(gè)精簡特征構(gòu)成。特征擴(kuò) 展模式抽取處理的輸入為文本訓(xùn)練實(shí)例的特征序列集和精簡特征集,輸出為特征擴(kuò)展模式 集。本實(shí)施方式以兩種抽取處理方式為例進(jìn)行說明利用關(guān)聯(lián)規(guī)則算法抽取特征擴(kuò)展模式, 以及利用《知網(wǎng)》等知識(shí)詞典抽取特征擴(kuò)展模式。
      步驟4.文本特征擴(kuò)展處理140 將文本訓(xùn)練實(shí)例的特征序列集125、精簡特征集和特征擴(kuò)展模式集作為輸入,由特 征擴(kuò)展處理模塊處理,輸出為文本訓(xùn)練實(shí)例的精簡特征序列集135。精簡特征序列集中的元 素為單個(gè)精簡特征或者多個(gè)精簡特征構(gòu)成的集合。處理過程為掃描文本訓(xùn)練實(shí)例的特征 序列集,對(duì)每個(gè)文本訓(xùn)練實(shí)例的特征序列進(jìn)行如下處理(a)根據(jù)精簡特征集,將特征序列中的所有特征分成精簡特征集A和非精簡特征集B兩部分;(b)對(duì)非精簡特征集B中的每個(gè) 特征bi,搜索特征擴(kuò)展模式集,進(jìn)行匹配判定處理,找出左部與其相匹配的所有特征擴(kuò)展模
      式,并取出每個(gè)特征擴(kuò)展模式右部的精簡特征構(gòu)成對(duì)應(yīng)于特征bi的擴(kuò)展精簡特征集Ci;(C)
      將特征序列中的所有非精簡特征用其對(duì)應(yīng)的擴(kuò)展精簡特征集替換,從而轉(zhuǎn)化為精簡特征序 列。在步驟(b)的匹配判定處理中,只要特征擴(kuò)展模式的左部包含特征bi,且左部中的每個(gè) 特征都在特征序列中出現(xiàn),則認(rèn)為匹配成功。 步驟5.精簡特征向量生成處理150 將文本訓(xùn)練實(shí)例的精簡特征序列集135輸入特征向量生成處理模塊進(jìn)行相關(guān)處 理,對(duì)精簡特征序列中的每個(gè)精簡特征調(diào)整權(quán)重,生成精簡特征向量145。精簡特征向量采 用稀疏數(shù)組表示,形如((A,fr叫),(a2,freq2),…,(an,freqn)),其中n表示精簡特征序列 中精簡特征的數(shù)目,A表示精簡特征,freqi表示ai對(duì)應(yīng)的頻率。處理過程為掃描文本訓(xùn) 練實(shí)例的精簡特征序列集,特征向量生成處理模塊對(duì)每個(gè)精簡特征序列進(jìn)行如下處理(a) 對(duì)精簡特征序列的每個(gè)擴(kuò)展精簡特征集Ci中的精簡特征分配頻率。假設(shè)擴(kuò)展精簡特征集Ci 中有n個(gè)精簡特征,則每個(gè)精簡特征分配頻率1/n ;(b)對(duì)精簡特征序列中的每個(gè)精簡特征 分配頻率a 。 a是設(shè)定的參數(shù),用于調(diào)節(jié)由非精簡特征擴(kuò)展而來的擴(kuò)展精簡特征集與精簡 特征之間的相對(duì)重要性關(guān)系。通常a設(shè)定為1. 2至1. 5之間;(c)將精簡特征序列的每個(gè) 擴(kuò)展精簡特征集&打散,構(gòu)成一個(gè)由精簡特征及其對(duì)應(yīng)頻率組成的特征一頻率對(duì)的集合; (d)對(duì)集合中的特征一頻率對(duì)進(jìn)行合并處理,即具有相同精簡特征的特征一頻率對(duì)中的頻 率相加,合并為一個(gè)特征一頻率對(duì)。將合并處理后的特征一頻率對(duì)用稀疏數(shù)組表示,生成精 簡特征向量。 例如,假設(shè)精簡特征序列為〈a, (a, b) , b, a〉, a設(shè)定為1. 2,對(duì)擴(kuò)展精簡特征集 (a, b)分配頻率(a 1/2, b 1/2),對(duì)精簡特征a和b分配頻率al. 2, b 1. 2, a 1. 2,構(gòu)成特 征一頻率對(duì)集合Ka 1.2), (a,1/2), (b,1/2), (b 1. 2) , (a, 1. 2)},生成精簡特征向量((a, 2.9), (b,1.7))。 步驟6.分類器構(gòu)造處理160 : 文本訓(xùn)練實(shí)例的精簡特征向量集145輸入分類器構(gòu)造處理模塊,分類器構(gòu)造處理 模塊根據(jù)與訓(xùn)練語料集的文本信息對(duì)象相對(duì)應(yīng)的精簡特征向量集構(gòu)造文本分類器。分類器 構(gòu)造處理模塊可采用(a)樸素貝葉斯,(b)貝葉斯網(wǎng)絡(luò),(c)支持向量機(jī),(d)k-近鄰等本領(lǐng) 域技術(shù)人員熟知的處理方式對(duì)精簡特征向量集進(jìn)行處理,構(gòu)造分類器Classifies可預(yù)先 設(shè)置參數(shù),選擇分類器的構(gòu)造方法。
      以下具體描述特征擴(kuò)展模式的抽取處理過程。 將文本訓(xùn)練實(shí)例的特征序列集和精簡特征集輸入到特征擴(kuò)展模式抽取處理模塊 進(jìn)行處理,輸出特征擴(kuò)展模式集。特征擴(kuò)展模式集中包含一系列特征擴(kuò)展模式,特征擴(kuò)展模 式包括左部和右部兩部分,左部由特征集中的一個(gè)或者多個(gè)特征構(gòu)成,右部由精簡特征集 中的一個(gè)精簡特征構(gòu)成。本實(shí)施例以兩種特征擴(kuò)展模式抽取的實(shí)施方式和一種對(duì)抽取出的 特征擴(kuò)展模式進(jìn)行精選的方法為例具體說明抽取過程。 實(shí)施方式1 :利用關(guān)聯(lián)規(guī)則算法抽取特征擴(kuò)展模式。如圖2所示為利用關(guān)聯(lián)規(guī)則 算法抽取特征擴(kuò)展模式的流程圖,抽取過程如下
      步驟1. 2至N階特征頻繁項(xiàng)抽取處理310
      9
      設(shè)置輸入特征擴(kuò)展模式左部信息表,信息表中包括輸入特征擴(kuò)展模式左部最多所 能包含的特征數(shù)目N、支持度和置信度的閾值,掃描模塊掃描文本訓(xùn)練實(shí)例的特征序列集 125',對(duì)每個(gè)特征序列進(jìn)行如下處理,利用關(guān)聯(lián)規(guī)則挖掘算法(可選用經(jīng)典的FP-Growth算 法),從特征序列中抽取滿足支持度要求的X階頻繁項(xiàng),構(gòu)造2至N階特征頻繁項(xiàng)集,其中 2《X《N+l。 步驟2.候選特征擴(kuò)展模式生成處理320 掃描模塊掃描2至N階特征頻繁項(xiàng)集,模式處理模塊對(duì)每個(gè)特征頻繁項(xiàng)進(jìn)行如下 處理,將特征頻繁項(xiàng)分解為多個(gè)特征構(gòu)成的集合A,(例如將3階頻繁項(xiàng)變成3個(gè)特征構(gòu)成 的集合),任意提取集合A中的一個(gè)元素,以集合A中的一個(gè)元素作為右部,其它元素作為左 部構(gòu)成候選特征擴(kuò)展模式集,將左部和右部進(jìn)行置信度比較,如果由左部和右部構(gòu)成的關(guān) 聯(lián)規(guī)則滿足置信度的要求,則將其組合成候選特征擴(kuò)展模式。將該處理產(chǎn)生的所有候選特 征擴(kuò)展模式中的重復(fù)項(xiàng)去掉,就構(gòu)成了候選特征擴(kuò)展模式集。 一個(gè)X階頻繁項(xiàng)最多可以構(gòu) 造出X個(gè)候選特征擴(kuò)展模式。例如,頻繁項(xiàng)"abcd"可構(gòu)成4個(gè)〈bcd, a>, 〈acd, b>, 〈abd, c>, 〈abc, d>。 步驟3.特征擴(kuò)展模式生成處理330 掃描模塊掃描候選特征擴(kuò)展模式集,并進(jìn)行比較、識(shí)別和判斷,抽取處理模塊將候 選特征擴(kuò)展模式集元素中右部不為精減特征的候選特征擴(kuò)展模式過濾掉,生成特征擴(kuò)展模 式集。 實(shí)施方式2 :利用知識(shí)詞典(如《知網(wǎng)》)來抽取特征擴(kuò)展模式。本實(shí)施方式中,特 征集中的類型限定為詞語。如圖3所示為利用《知網(wǎng)》抽取特征擴(kuò)展模式流程圖,具體過程 如下 步驟1.詞語對(duì)抽取處理410 將文本訓(xùn)練實(shí)例的特征序列集作為輸入,輸入到抽取處理模塊進(jìn)行處理,輸出為 詞語對(duì)集合。 設(shè)置詞語對(duì)之間的距離閾值9 。掃描模塊掃描文本訓(xùn)練實(shí)例的特征序列集125', 抽取處理模塊對(duì)每個(gè)特征序列作如下處理獲取特征序列中兩詞語的位置,計(jì)算兩詞語位
      置之差,將差值與距離閾值e進(jìn)行比較,從特征序列中抽取詞語對(duì)間距離小于閾值e的詞
      語對(duì)。將抽取的所有詞語對(duì)中的重復(fù)項(xiàng)去掉,生成詞語對(duì)集合。 步驟2.候選特征擴(kuò)展模式生成處理420 詞語對(duì)集合和精簡特征集輸入候選特征擴(kuò)展模式生成處理模塊,經(jīng)該模塊處理后 輸出候選特征擴(kuò)展模式集。掃描模塊掃描詞語對(duì)集合,并對(duì)詞語對(duì)進(jìn)行識(shí)別判斷,如果構(gòu)成 詞語對(duì)的兩個(gè)詞語中,有且僅有一個(gè)詞語為精簡特征集中的精簡特征,則以該詞語對(duì)中的 非精簡特征詞語為左部,精簡特征詞語為右部,生成候選特征擴(kuò)展模式。將生成的所有候選 特征擴(kuò)展模式中的重復(fù)項(xiàng)去掉,生成候選特征擴(kuò)展模式集。
      步驟3.詞語(特征)對(duì)之間的上下位關(guān)系判定430 輸入為候選特征擴(kuò)展模式集和知識(shí)詞典《知網(wǎng)》,輸出為特征擴(kuò)展模式集。
      由于一個(gè)詞語可能有多個(gè)概念,本實(shí)施方式中知識(shí)詞典《知網(wǎng)》用于判定給定的兩 個(gè)概念是否具有上下位關(guān)系。"知網(wǎng)"HowNet是一部通用常識(shí)資源詞典,它描述了詞語所代 表的概念,揭示了概念與概念之間以及概念所具有的屬性和屬性之間的關(guān)系(這些關(guān)系中
      10就包含上下位關(guān)系)。"知網(wǎng)"使用一種知識(shí)表示語言KDML來描述概念,這種知識(shí)表示語言
      所用的"詞匯"叫做"義原"。"義原"是用于描述一個(gè)"概念"的最小意義單位。"知網(wǎng)"的義
      原以樹形結(jié)構(gòu)存在于特征文件中,即特征文件中包含了義原之間的上下位關(guān)系,如下表所
      示為表示義原之間的上下位關(guān)系的舉例。 entity I實(shí)體卜thing I萬物 (-physical |物質(zhì) I卜animate |生物 II卜AnimalH咖an I云力物 III卜human I人 IIII i_ humanized I擬人"知網(wǎng)"中的概念使用多個(gè)義原按照知識(shí)表示語言KDML的格式來進(jìn)行描述。 預(yù)先設(shè)置上下位關(guān)系強(qiáng)度閾值,掃描模塊掃描候選特征擴(kuò)展模式集,上下位關(guān)系
      判定模塊根據(jù)上下位關(guān)系強(qiáng)度閾值e ,對(duì)每個(gè)候選特征擴(kuò)展模式進(jìn)行如下處理。 (a)查詢模塊查詢"知網(wǎng)",確定左部詞語的概念集合A = K|i = 1,2, ...,n}和
      右部詞語的概念集合B = {bi I i = 1, 2,, m} , n和m分別表示左部詞語和右部詞語的概
      念的個(gè)數(shù)。 (b)配對(duì)模塊將左部詞語概念集合中的每個(gè)概念和右部詞語概念集合中的每個(gè)概 念配對(duì),生成概念對(duì)集合AB = {aibj I ai G A, bj G B}}。 (c)查詢模塊查詢知識(shí)詞典《知網(wǎng)》,對(duì)概念對(duì)集合中的所有概念進(jìn)行判斷,確定概 念對(duì)〈ai, bj>之間的上下位關(guān)系強(qiáng)度。 如果概念ai和bj的首義元不同,且它們都能在"知網(wǎng)"的義元層次樹中找到。則 利用首義元的層次結(jié)構(gòu)來計(jì)算上下位關(guān)系強(qiáng)度,計(jì)算公式為<formula>formula see original document page 11</formula> 3是一設(shè)定參數(shù),根據(jù)經(jīng)驗(yàn)本實(shí)施例中取值為1。 d為概念ai和bj在"知網(wǎng)"的義 元層次樹中的距離。其確定規(guī)則為(l)如果一個(gè)義元是另一個(gè)義元的子節(jié)點(diǎn),或通過子節(jié) 點(diǎn)又一條路徑到達(dá)另一個(gè)義元,則d為它們之間的路徑距離。(2)其它情況,則認(rèn)為義元之 間不存在上下位關(guān)系,d設(shè)為①。 如果概念ai和bj的首義元相同,則將概念&和bj的義元描述式分別轉(zhuǎn)化為L ={獨(dú)立義原集合} 、 I2 = {關(guān)系義原集合}和I3 = {符號(hào)義元集合}三部分。則利用集 合的包含關(guān)系來計(jì)算上下位關(guān)系強(qiáng)度。當(dāng)ai為bj的下位時(shí),即集合/,?!砠、 /2?!砠和 乜〕^時(shí),計(jì)算公式為
      <formula>formula see original document page 11</formula>
      當(dāng)ai為bj的上位時(shí),即集合、C /16 、 /2a C /26和/3(] C /36時(shí),計(jì)算公式為
      <formula>formula see original document page 11</formula> 其中,I I I表示集合I種元素的個(gè)數(shù),a p a 2和a 3為設(shè)定的經(jīng)驗(yàn)參數(shù),本實(shí)施例 中,它們都設(shè)置為1。
      (d)根據(jù)下述公式確定概念對(duì)〈ai, bj>在文本訓(xùn)練實(shí)例集中的概率分布P (ai, bj)
      0< 其中,F(xiàn)req(ai, b》為概念對(duì)〈^, 在文本訓(xùn)練實(shí)例集中的頻率。
      (e)利用概念對(duì)〈ai,bj>的上下位關(guān)系強(qiáng)度及概率分布,確定左部詞語和右部詞語
      之間具有的上下位關(guān)系強(qiáng)度Degree (A, B)。
      0< (f)根據(jù)上下位關(guān)系強(qiáng)度閾值9 ,判定左部詞語A和右部詞語B之間是否具有上 下位關(guān)系。判定規(guī)則,如果Degree (A, B) > 9 ,則左部詞語A和右部詞語B之間存在上下 位關(guān)系,否則不存在上下位關(guān)系。 將那些左部詞語和右部詞語之間不存在上下位關(guān)系的候選特征擴(kuò)展模式從候選 特征擴(kuò)展模式集中過濾掉,就生成了特征擴(kuò)展模式集。 應(yīng)當(dāng)說明,當(dāng)換作其它的知識(shí)詞典(例如"詞網(wǎng)"WordNet)時(shí),處理過程是類似的。 即,實(shí)施方式2是不依賴于知識(shí)詞典"知網(wǎng)"的。
      特征擴(kuò)展模式的精選處理 當(dāng)抽取出特征擴(kuò)展模式集以后,精選處理模塊利用類別趨同性標(biāo)準(zhǔn)對(duì)其進(jìn)行精選 處理,以獲得高品質(zhì)的特征擴(kuò)展模式集。 假設(shè)特征擴(kuò)展模式的左部為A,右部為B,文本類別集C二 {CpCy 列公式確定左部和右部條件下的概率分布:Pa(C」A)和PB(CilB), (i = 1,2,
      苴山Pa(Ci|A) = ^^1_, pb(cjb) = —f一b,。
      ,CJ,根據(jù)下 .,n)。
      中,
      ZFreq(a,c')
      /=1
      SFreq(b,。
      Freq(A, C》、
      Freq(B, C》分別表示左部A和右部B在文本訓(xùn)練實(shí)例集中出現(xiàn)的類別為&的文本的數(shù)目 (即文本頻率)。 左部和右部概率分布PA(CilA)、PB(CilB)中的最大值、次大值(第二大)即其對(duì)應(yīng) 的類別標(biāo)簽為(最大值,類別):左部(Pa(CFIA),Lf),右部(Pb(CF|B),Rf);(次大值,類別):左部
      (Pa(CSIA),Ls),右部(pb(cs|b),rs)。則類別趨同性標(biāo)準(zhǔn)定義為 如果(最大值,類別)對(duì)中,左部和右部的類別標(biāo)簽相同(即W二R》,且它們的
      類別指示強(qiáng)度滿足
      pa(cf|a)-pa(cs|a) pa(cf|a)
      A和
      pb(cf|b)-pb(cs|b) pb(cf|b)
      & ,則認(rèn)為特征擴(kuò)
      展模式的左部和右部是趨同的;其它情況,則認(rèn)為它們是不趨同的。其中,94和9e是設(shè)定 的類別指示強(qiáng)度閾值。本實(shí)施例中,它們可設(shè)置為15%。 掃描特征擴(kuò)展模式集,精選處理模塊對(duì)每個(gè)特征擴(kuò)展模式根據(jù)類別趨同性標(biāo)準(zhǔn)判 定它的左部和右部類別是否趨同,將那些類別不趨同的特征擴(kuò)展模式去掉,生成高品質(zhì)的 特征擴(kuò)展模式集。 基于特征擴(kuò)展的文本分類處理過程
      12
      圖4所示為通過對(duì)文本進(jìn)行特征擴(kuò)展處理來分類文本的過程。給定待分類的文本 205和分類器M,基于特征擴(kuò)展的分類步驟如下
      步驟1.特征抽取處理210 將待分類的文本205和特征集送入特征抽取處理模塊,抽取待分類文本的特征序 列215。 處理過程將待分類文本看成由一個(gè)個(gè)特征構(gòu)成的特征序列,將該序列中不在特 征集中的特征過濾掉,獲取待分類文本的特征序列215。
      步驟2.文本特征擴(kuò)展處理220 將待分類文本的特征序列215、精簡特征集和特征擴(kuò)展模式集輸入文本特征擴(kuò)展 處理模塊進(jìn)行特征擴(kuò)展處理,輸出待分類文本的精簡特征序列225,精簡特征序列中的元素 為單個(gè)精簡特征或者多個(gè)精簡特征構(gòu)成的集合。 具體方法為(a)根據(jù)精簡特征集,將特征序列中的所有特征分成精簡特征集A和 非精簡特征集B兩部分;(b)對(duì)非精簡特征集B中的每個(gè)特征bi,搜索特征擴(kuò)展模式集,找 出左部與其相匹配的所有特征擴(kuò)展模式,并取出每個(gè)特征擴(kuò)展模式右部的精簡特征構(gòu)成對(duì) 應(yīng)于特征bi的擴(kuò)展精簡特征集Ci ;(c)將特征序列中的所有非精簡特征用其對(duì)應(yīng)的擴(kuò)展精 簡特征集替換,從而轉(zhuǎn)化為待分類文本的精簡特征序列225。在步驟(b)的匹配判定處理 中,只要特征擴(kuò)展模式的左部包含特征bi,且左部中的每個(gè)特征都在特征序列中出現(xiàn),則認(rèn) 為匹配成功。 步驟3.精簡特征向量生成處理230 特征向量生成處理模塊提取待分類文本的精簡特征序列225中的待分類文本的 精簡特征向量235,精簡特征向量采用稀疏數(shù)組表示,形如((ai, freq》,(a2, freq2),…, (an, freq》),其中n表示精簡特征序列中精簡特征的數(shù)目,ai表示精簡特征,freq,表示&i 對(duì)應(yīng)的頻率。 處理過程具體為(a)對(duì)精簡特征序列的每個(gè)擴(kuò)展精簡特征集&中的精簡特征分 配頻率。假設(shè)擴(kuò)展精簡特征集&中有n個(gè)精簡特征,則每個(gè)精簡特征分配頻率1/n ; (b)對(duì) 精簡特征序列中的每個(gè)精簡特征分配預(yù)先設(shè)定的頻率a 。參數(shù)a用于調(diào)節(jié)由非精簡特征 擴(kuò)展而來的擴(kuò)展精簡特征集與精簡特征之間的相對(duì)重要性關(guān)系。根據(jù)經(jīng)驗(yàn)通常a設(shè)定為 1.2至1.5之間;(c)將精簡特征序列的每個(gè)擴(kuò)展精簡特征集Ci打散,構(gòu)成一個(gè)由精簡特征 及其對(duì)應(yīng)頻率組成的特征一頻率對(duì)的集合;(d)對(duì)集合中的特征一頻率對(duì)進(jìn)行合并處理, 即具有相同精簡特征的特征一頻率對(duì)中的頻率相加,合并為一個(gè)特征一頻率對(duì)。將合并處 理后的特征一頻率對(duì)用稀疏數(shù)組表示,生成待分類文本的精簡特征向量235。
      步驟4.分類處理240 將待分類文本的精簡特征向量235輸入分類器M,分類器輸出待分類文本的類別 245。 處理過程為文本分類器根據(jù)與待分類文本信息對(duì)象相對(duì)應(yīng)的精簡特征向量對(duì)文 本信息對(duì)象進(jìn)行分類處理,將待分類文本的精簡特征向量235輸入分類器M,分類器經(jīng)過運(yùn) 算后輸出待分類文本的類別245。 應(yīng)當(dāng)說明,本實(shí)施方式中的分類器M可以是通過對(duì)訓(xùn)練文本進(jìn)行特征擴(kuò)展,從而 構(gòu)造的分類器,也可以是按照技術(shù)人員熟知的方法構(gòu)造的分類器。利用分類器M計(jì)算待分
      13類文本屬于某個(gè)類別的度量值,并將其和一個(gè)閾值進(jìn)行比較,如果大于等于該閾值,則認(rèn)為 文本屬于該類別。不同分類器的區(qū)別在于它們計(jì)算待分類文本屬于某個(gè)類別度量值的計(jì)算 公式不同。
      權(quán)利要求
      一種通過對(duì)文本信息對(duì)象進(jìn)行特征擴(kuò)展處理構(gòu)造分類器的方法,所述分類器用于確定一個(gè)文本信息對(duì)象是否屬于一個(gè)種類,其特征在于,該方法包括以下步驟a)特征抽取處理模塊從文本信息對(duì)象中抽取特征,生成一個(gè)包含多個(gè)特征的特征序列;b)特征精簡模塊根據(jù)標(biāo)準(zhǔn)確定閾值,對(duì)與訓(xùn)練語料集的文本信息對(duì)象相對(duì)應(yīng)的特征序列集進(jìn)行特征選擇處理,生成特征集的子集—精簡特征集;c)特征擴(kuò)展模式抽取處理模塊對(duì)特征序列集和精簡特征集進(jìn)行處理,抽取特征擴(kuò)展模式,構(gòu)成特征擴(kuò)展模式集,所述特征擴(kuò)展模式包括左部和右部兩部分,左部由特征序列集中的一個(gè)或者多個(gè)特征構(gòu)成,右部由精簡特征集中的一個(gè)精簡特征構(gòu)成;d)特征擴(kuò)展處理模塊利用精簡特征集和特征擴(kuò)展模式集對(duì)特征序列進(jìn)行特征擴(kuò)展處理,生成僅由精簡特征構(gòu)成的精簡特征序列,精簡特征序列中的元素為單個(gè)精簡特征或者多個(gè)精簡特征構(gòu)成;e)生成處理模塊對(duì)精簡特征序列中的每個(gè)精簡特征調(diào)整權(quán)重,生成精簡特征向量。f)分類器構(gòu)造處理模塊根據(jù)與訓(xùn)練語料集的文本信息對(duì)象相對(duì)應(yīng)的精簡特征向量集構(gòu)造文本分類器;文本分類器根據(jù)與待分類文本信息對(duì)象相對(duì)應(yīng)的精簡特征向量對(duì)文本信息對(duì)象進(jìn)行分類處理。
      2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,其特征序列集中的每個(gè)特征滿足,Zipf定 律,且為非停用詞列表中的元素。
      3. 根據(jù)權(quán)利要求l所述的方法,其特征在于,步驟b)中所述標(biāo)準(zhǔn)包括互信息,信息增 益,平方,相關(guān)系數(shù),貝葉斯評(píng)分,以及單值分解。
      4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,利用關(guān)聯(lián)規(guī)則算法抽取特征擴(kuò)展模式, 具體包括,從特征序列中抽取滿足支持度要求的X階頻繁項(xiàng),構(gòu)造2至N階特征頻繁項(xiàng)集; 模式處理模塊對(duì)每個(gè)特征頻繁項(xiàng)進(jìn)行處理構(gòu)成候選特征擴(kuò)展模式集;抽取處理模塊將候選 特征擴(kuò)展模式集元素中右部不為精簡特征的候選特征擴(kuò)展模式過濾掉,生成特征擴(kuò)展模式 集,其中,N-1為特征擴(kuò)展模式左部最多所能包含的特征數(shù)目。
      5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,利用知識(shí)詞典抽取特征擴(kuò)展模式,具體包 括,抽取處理模塊計(jì)算特征序列中兩詞語的位置之差,抽取詞語對(duì)間位置之差小于詞語對(duì) 之間的距離閾值e的詞語對(duì),生成詞語對(duì)集合;掃描模塊掃描詞語對(duì)集合,如果構(gòu)成詞語 對(duì)的兩個(gè)詞語中,有且僅有一個(gè)詞語為精簡特征,則以該精簡特征詞語為右部,非精簡特征 詞語為左部,生成候選特征擴(kuò)展模式,構(gòu)成候選特征擴(kuò)展模式集;根據(jù)知識(shí)詞典將候選特征 擴(kuò)展模式集中左部詞語和右部詞語之間不存在上下位關(guān)系的候選特征擴(kuò)展模式從候選特 征擴(kuò)展模式集中過濾掉,生成特征擴(kuò)展模式集。
      6. 根據(jù)權(quán)利要求l所述的方法,其特征在于,所述步驟c)進(jìn)一步包括,精選處理模塊對(duì) 特征擴(kuò)展模式集中每個(gè)特征擴(kuò)展模式根據(jù)類別趨同性標(biāo)準(zhǔn)判定它的左部和右部類別是否 趨同,將那些類別不趨同的特征擴(kuò)展模式去掉,生成高品質(zhì)的特征擴(kuò)展模式集。
      7. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述構(gòu)成候選特征擴(kuò)展模式集的具體步 驟為任意提取特征頻繁項(xiàng)集中的一個(gè)元素作為右部,特征頻繁項(xiàng)集中的其它元素作為左 部,如果由左部和右部構(gòu)成的關(guān)聯(lián)規(guī)則滿足置信度的要求,則將其組合成候選特征擴(kuò)展模 式,將其中的重復(fù)項(xiàng)去掉,構(gòu)成候選特征擴(kuò)展模式集。
      8. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)知識(shí)詞典確定上下位關(guān)系具體為,(a) 查詢知識(shí)詞典,確定左部詞語的概念集合和右部詞語的概念集合;(b) 將左部詞語概念集合中的每個(gè)概念和右部詞語概念集合中的每個(gè)概念配對(duì),生成 概念對(duì)集合;(c) 查詢知識(shí)詞典,對(duì)概念對(duì)集合中的所有概念對(duì)進(jìn)行判斷,確定概念對(duì)之間的上下位 關(guān)系強(qiáng)度;(d) 確定概念對(duì)在文本訓(xùn)練實(shí)例集中的概率分布;(e) 利用概念對(duì)的上下位關(guān)系強(qiáng)度及概率分布,確定左部詞語和右部詞語之間具有的 上下位關(guān)系強(qiáng)度;(f) 將上下位關(guān)系強(qiáng)度與上下位關(guān)系強(qiáng)度閾值比較,判定左部詞語和右部詞語之間是 否具有上下位關(guān)系。
      9. 一種通過對(duì)文本信息對(duì)象進(jìn)行特征擴(kuò)展處理構(gòu)造分類器的裝置,其特征在于,該裝 置包括特征抽取處理模塊從文本信息對(duì)象中抽取特征,生成一個(gè)包含多個(gè)特征的特征序列;特征精簡模塊根據(jù)標(biāo)準(zhǔn)確定閾值,對(duì)特征集中的特征進(jìn)行特征選擇處理,生成特征集 的子集一精簡特征集;特征擴(kuò)展模式抽取處理模塊對(duì)特征序列集和精簡特征集進(jìn)行處理,抽取特征擴(kuò)展模 式,構(gòu)成特征擴(kuò)展模式集,所述特征擴(kuò)展模式包括左部和右部兩部分,左部由特征集中的一 個(gè)或者多個(gè)特征構(gòu)成,右部由精簡特征集中的一個(gè)精簡特征構(gòu)成;特征擴(kuò)展處理模塊對(duì)精簡特征集和特征擴(kuò)展模式集進(jìn)行特征擴(kuò)展處理,生成僅由精簡 特征構(gòu)成的精簡特征序列,精簡特征序列中的元素為單個(gè)精簡特征或者多個(gè)精簡特征構(gòu)成 的集合;生成處理模塊對(duì)精簡特征序列中的每個(gè)精簡特征調(diào)整權(quán)重,生成精簡特征向量。 分類器構(gòu)造處理模塊根據(jù)與訓(xùn)練語料集的文本信息對(duì)象相對(duì)應(yīng)的精簡特征向量集構(gòu)造文本分類器;文本分類器根據(jù)與待分類文本信息對(duì)象相對(duì)應(yīng)的精簡特征向量對(duì)文本信息對(duì)象進(jìn)行分類處理。
      10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,特征擴(kuò)展模式抽取處理模塊利用關(guān)聯(lián)規(guī) 則算法抽取特征擴(kuò)展模式,或利用知識(shí)詞典抽取特征擴(kuò)展模式。
      11. 根據(jù)權(quán)利要求io所述的裝置,其特征在于,利用關(guān)聯(lián)規(guī)則算法抽取特征擴(kuò)展模式具體包括,特征擴(kuò)展模式抽取處理模塊從特征序列中抽取滿足支持度要求的X階頻繁項(xiàng), 構(gòu)造2至N階特征頻繁項(xiàng)集;模式處理模塊對(duì)每個(gè)特征頻繁項(xiàng)進(jìn)行處理構(gòu)成候選特征擴(kuò)展 模式集;抽取處理模塊將候選特征擴(kuò)展模式集元素中右部不為精簡特征的候選特征擴(kuò)展模 式過濾掉,生成特征擴(kuò)展模式集。
      12. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,利用知識(shí)詞典抽取特征擴(kuò)展模式具體 包括,特征擴(kuò)展模式抽取處理模塊計(jì)算特征序列中兩詞語的位置之差,抽取詞語對(duì)間位置 之差小于詞語對(duì)之間的距離閾值e的詞語對(duì),生成詞語對(duì)集合;掃描模塊掃描詞語對(duì)集 合,如果構(gòu)成詞語對(duì)的兩個(gè)詞語中,有且僅有一個(gè)詞語為精簡特征,則以該精簡特征詞語為 右部,非精簡特征詞語為左部,生成候選特征擴(kuò)展模式,構(gòu)成候選特征擴(kuò)展模式集;掃描模塊掃描候選特征擴(kuò)展模式集,根據(jù)知識(shí)詞典將左部詞語和右部詞語之間不存在上下位關(guān)系 的候選特征擴(kuò)展模式從候選特征擴(kuò)展模式集中過濾掉,生成特征擴(kuò)展模式集。
      全文摘要
      一種通過對(duì)訓(xùn)練集的文本信息對(duì)象進(jìn)行特征擴(kuò)展處理來構(gòu)造文本分類器的方法,以及對(duì)應(yīng)于該方法的文本分類裝置。通過對(duì)文本進(jìn)行特征擴(kuò)展處理來分類文本,以及對(duì)訓(xùn)練文本進(jìn)行特征擴(kuò)展處理來構(gòu)造分類器,改善了分類器性能,能夠?qū)Χ涛谋拘畔⒅械挠泻π畔⑦M(jìn)行及時(shí)攔截和過濾。對(duì)短文本具有良好的識(shí)別能力及分類能力。本發(fā)明特別適合于對(duì)即時(shí)通訊系統(tǒng)QQ,MSN和手機(jī)短消息中的文本,以及網(wǎng)絡(luò)評(píng)論中的文本的處理。
      文檔編號(hào)G06K9/62GK101794303SQ201010109188
      公開日2010年8月4日 申請(qǐng)日期2010年2月11日 優(yōu)先權(quán)日2010年2月11日
      發(fā)明者樊興華 申請(qǐng)人:重慶郵電大學(xué);樊興華
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1