基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng)及方法。本發(fā)明系統(tǒng)包括依次相聯(lián)的數(shù)據(jù)收集及預(yù)處理單元、特征選擇單元、特征權(quán)重計(jì)算單元、分類器單元、分類選優(yōu)單元;數(shù)據(jù)收集及預(yù)處理單元,用于從互聯(lián)網(wǎng)上收集不同類別語(yǔ)料,分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,并對(duì)語(yǔ)料進(jìn)行預(yù)處理,預(yù)處理包括文本分詞和去停用詞;特征選擇單元,用于選擇語(yǔ)料中的特征項(xiàng),根據(jù)特征選擇評(píng)估函數(shù)從特征項(xiàng)表中選擇出不同數(shù)目的特征項(xiàng),組成特征項(xiàng)集合;特征權(quán)重計(jì)算單元,用于計(jì)算特征項(xiàng)的權(quán)重值;分類單元,用于對(duì)語(yǔ)料文本進(jìn)行分類;分類選優(yōu)單元,用于對(duì)比不同分類結(jié)果,找到最佳分類效果時(shí)的特征項(xiàng)數(shù)目。本發(fā)明能夠提高文本分類的精度,改善分類效果。
【專利說(shuō)明】
基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng)及方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域,具體涉及一種基于信息熵的期望交叉熵特征 選擇文本分類系統(tǒng)及方法。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的信息呈爆炸式增長(zhǎng)。文本自動(dòng) 分類已逐漸成為獲取知識(shí)和信息的有效手段,因?yàn)樗梢蕴幚砗徒M織大量的文本數(shù)據(jù)。目 前,文本分類廣泛應(yīng)用于郵件分類、信息檢索、網(wǎng)頁(yè)查重、數(shù)字圖書館等。文本以向量空間模 型形式進(jìn)行結(jié)構(gòu)化表示。在向量模型下,文本分類的主要問(wèn)題是特征空間的高維性以及數(shù) 據(jù)稀疏性問(wèn)題。高維特征空間不僅會(huì)增加分類過(guò)程的開銷,而且影響分類精度。因此,特征 維度約減成為文本自動(dòng)分類技術(shù)研究的核心問(wèn)題,而特征選擇是文本特征維度約減的一種 主要模式。特征選擇是從原始特征集中依據(jù)某種評(píng)估函數(shù)選擇出對(duì)分類貢獻(xiàn)較大的特征 項(xiàng),用這些特征項(xiàng)來(lái)組成文本特征子集,用于文本的表示。
[0003] 目前,常用的特征選擇方法有文檔頻率(DF)、信息增益(IG)、互信息(MI)、x2統(tǒng)計(jì)、 期望交叉熵(CEC)和文本證據(jù)權(quán)等過(guò)濾式特征選擇算方法。該類算法不依賴具體的分類器, 提供一個(gè)評(píng)估函數(shù),通過(guò)比較特征項(xiàng)的函數(shù)值,將特征項(xiàng)按照函數(shù)值從高到低進(jìn)行排序,從 而選擇出重要的特征項(xiàng)。在這些特征選擇方法中,期望交叉熵具有較低復(fù)雜度和較好的降 維效果,因此,該算法是目前應(yīng)用比較廣泛的特征選擇算法。但是,該算法最明顯的不足在 于其只考慮了特征與類別之間的相關(guān)性,而忽略了特征項(xiàng)詞頻在類內(nèi)和類別間分布情況。
【發(fā)明內(nèi)容】
[0004] 基于現(xiàn)有期望交叉熵方法只考慮了特征項(xiàng)的文檔頻率,并沒(méi)有考慮特征項(xiàng)詞頻在 類別中分布的差異性問(wèn)題,本發(fā)明公開了一種基于信息熵的期望交叉熵文本分類特征選擇 方法,利用類間信息熵來(lái)修正現(xiàn)有期望交叉熵在特征選擇時(shí),特征項(xiàng)在類間分布的集中性 考慮不足的缺陷;利用類內(nèi)信息熵來(lái)修正現(xiàn)有期望交叉熵在特征選擇時(shí),特征項(xiàng)在類內(nèi)分 布的均勻性考慮不足的缺陷。
[0005] 為了達(dá)到上述發(fā)明目的,本發(fā)明提供如下技術(shù)方案:
[0006] 基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng),包括依次相聯(lián)的數(shù)據(jù)收集及預(yù) 處理單元、特征選擇單元、特征權(quán)重計(jì)算單元、分類器單元、分類選優(yōu)單元;
[0007] 數(shù)據(jù)收集及預(yù)處理單元,用于從互聯(lián)網(wǎng)上收集不同類別語(yǔ)料,分為訓(xùn)練語(yǔ)料和測(cè) 試語(yǔ)料,并對(duì)語(yǔ)料進(jìn)行預(yù)處理,預(yù)處理包括文本分詞和去停用詞;
[0008] 特征選擇單元,用于選擇語(yǔ)料中的特征項(xiàng),根據(jù)特征選擇評(píng)估函數(shù)從特征項(xiàng)表中 選擇出不同數(shù)目的特征項(xiàng),組成特征項(xiàng)集合;
[0009] 特征權(quán)重計(jì)算單元,用于計(jì)算特征項(xiàng)的權(quán)重值;
[0010] 分類單元,用于對(duì)語(yǔ)料文本進(jìn)行分類;
[0011] 分類選優(yōu)單元,用于對(duì)比不同分類結(jié)果,找到最佳分類效果時(shí)的特征項(xiàng)數(shù)目。
[0012] 本發(fā)明還公開了一種基于信息熵的期望交叉熵特征選擇文本分類方法,按如下步 驟:
[0013] ⑴、收集不同類別文本,分析整理后按類別歸入語(yǔ)料訓(xùn)練集。
[0014] (2)、對(duì)訓(xùn)練集進(jìn)行預(yù)處理,包括中文分詞、去停用詞等來(lái)過(guò)濾噪聲數(shù)據(jù)、改善文本 數(shù)據(jù)質(zhì)量等。
[0015] (3)、利用基于信息熵的期望交叉熵方法計(jì)算特征向量空間中特征項(xiàng)評(píng)估函數(shù)值, 基于信息熵的期望交叉熵函數(shù)公式為:
[0016]
[0017] 其中
_示特征項(xiàng)tk在期望交叉熵評(píng)估函數(shù) 中的得分值。p(tk)表示出現(xiàn)特征項(xiàng)tk的文檔概率,p(Ci)表示屬于Ci類的文本在整個(gè)文本集 中出現(xiàn)的概率,P(ci|tk)表示文本包含特征項(xiàng)tk時(shí)屬于類別ci的概率,η表示類別總數(shù);
[0018]表示特征項(xiàng)tk在類別c j中的類內(nèi)信息熵。f j (tk)表
^ / \ n. / ^ / \ λ- / 示特征項(xiàng)tk在類cj中出現(xiàn)的頻率,m為類Cj中的文本數(shù)目,fji(tk)表示特征項(xiàng)tk在類cj第i篇
H r|=i山糊的掘歲
[0019] 良示特征項(xiàng)tk的類間信息熵。fj(tk)表示特征項(xiàng) j=i :/=i tk在類cj中出現(xiàn)的頻率,η為文本類別個(gè)數(shù)
表示特征項(xiàng)tk在整個(gè)文本集中出現(xiàn)的頻 率。
[0020] 計(jì)算特征向量空間每個(gè)特征項(xiàng)的評(píng)估函數(shù)值,并進(jìn)行降序排列,選擇出得分較大 的前N個(gè)特征項(xiàng)。
[0021] (4 )、使用特征向量權(quán)重TF-IDF算法來(lái)計(jì)算特征向量表中包含的特征向量詞的權(quán) 重。
[0022]特征權(quán)重計(jì)算
[0023]本發(fā)明采用最常用的TF-IDF權(quán)重計(jì)算方法,根據(jù)TF-IDF權(quán)重,候選特征項(xiàng)fi在文 本d中的權(quán)重通過(guò)以下公式來(lái)計(jì)算:
[0024]
[0025] 其中,TF(fi,dj)表示候選特征項(xiàng)fi在文本dj中出現(xiàn)的頻率,N表示訓(xùn)練文本集合的 總文本數(shù),m表示候選特征項(xiàng)fi在文本集中出現(xiàn)的文本頻率,這樣,語(yǔ)料庫(kù)中的文本集合表 示為一個(gè)矩陣。
[0026] (5)、構(gòu)造相應(yīng)的文本分類器,利用分類器對(duì)測(cè)試語(yǔ)料進(jìn)行計(jì)算,得到分類結(jié)果。 [00 27]分類器
[0028]采用KNN分類器,KNN是指給定一個(gè)測(cè)試文檔,計(jì)算測(cè)試文檔和訓(xùn)練文本集中文檔 的相似度,從中找到K個(gè)與測(cè)試文檔最為相似的訓(xùn)練文本。相似度計(jì)算公式一般使用向量夾 角余弦值等來(lái)進(jìn)行計(jì)算。依據(jù)這Κ個(gè)訓(xùn)練文本的類別信息來(lái)判定測(cè)試文檔應(yīng)該屬于哪個(gè)類 別。ΚΝΝ算法的決策規(guī)則為:
[0029]
[0030] 其中,KNN(d)表不Κ個(gè)最鄰近訓(xùn)練文本的集合。當(dāng)文檔dj屬于Ci類時(shí),y(dj,Ci)的值 等于1,當(dāng)文檔dj不屬于Ci類時(shí),y(dj,ci)的值等于0。5;[111((1,山)表示測(cè)試文檔(1與訓(xùn)練文本山 的相似度值。
[0031] (6)、采用評(píng)價(jià)函數(shù)計(jì)算各種分類器的性能評(píng)價(jià)參數(shù),依據(jù)分類器評(píng)價(jià)參數(shù)結(jié)果確 定最優(yōu)的特征向量集合。
[0032] 評(píng)價(jià)函數(shù)
[0033] 目前國(guó)際上比較流行的判別文本分類效果的評(píng)價(jià)函數(shù)主要包括查全率、查準(zhǔn)率、 F1測(cè)量值,其定義如下:
[0034] 查準(zhǔn)率:P = TP/(TP+FP)查全率:R = TP/(TP+FN)
[0035] F1 測(cè)量值 JfSPRAP+R)
[0036] TP表示屬于某個(gè)類別且被判別為該類別的文本數(shù);
[0037] FP表示實(shí)際不屬于某個(gè)類別卻被判別為該類別的文本數(shù);
[0038] FN表示實(shí)際屬于某個(gè)類別卻被判別為其它類別的文本數(shù)。
[0039] 對(duì)于不同數(shù)目的特征項(xiàng)向量,使得評(píng)價(jià)函數(shù)F1測(cè)度最優(yōu)的那組數(shù)目,即是該分類 方法在該語(yǔ)料下的最優(yōu)的特征項(xiàng)數(shù)目。
[0040] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和有益效果:
[0041] 本發(fā)明在現(xiàn)有的期望交叉熵方法中加入類內(nèi)信息熵、類間信息熵,修正了現(xiàn)有期 望交叉熵方法對(duì)特征項(xiàng)詞頻考慮不足的缺陷,使在文本集合中特征項(xiàng)類間分布集中性、類 內(nèi)分布均勻性的這一特性得到了充分體現(xiàn)。相對(duì)現(xiàn)有期望交叉熵方法,本發(fā)明能夠提高文 本分類的精度,改善分類效果。
[0042]本發(fā)明涉及一種基于信息熵的期望交叉熵特征選擇文本分類方法(簡(jiǎn)稱ECE_IE), 該方法在期望交叉熵方法基礎(chǔ)上通過(guò)引入特征項(xiàng)詞頻的類間信息熵、類內(nèi)信息熵因子,彌 補(bǔ)了特征項(xiàng)詞頻對(duì)類別考慮不足的缺陷,其中,利用類間信息熵來(lái)修正現(xiàn)有期望交叉熵在 特征選擇時(shí),特征項(xiàng)在類間分布的集中性考慮不足的缺陷;利用類內(nèi)信息熵來(lái)修正現(xiàn)有期 望交叉熵在特征選擇時(shí),特征項(xiàng)在類內(nèi)分布的均勻性考慮不足的缺陷。本發(fā)明證明新方法 的采用在文本分類的準(zhǔn)確率有明顯提高,充分證明了它的有效性。
【附圖說(shuō)明】
[0043] 圖1是本發(fā)明基于信息熵的期望交叉熵算法的文本分類方法的流程圖。
[0044] 圖2是本發(fā)明基于信息熵的期望交叉熵算法的文本分類裝置的單元構(gòu)成圖。
【具體實(shí)施方式】
[0045] 下面結(jié)合附圖和實(shí)施例,做進(jìn)一步詳細(xì)說(shuō)明,應(yīng)理解下述具體實(shí)施方法僅用于說(shuō) 明本發(fā)明而不用于限制本發(fā)明的范圍。
[0046]如圖1所示,該圖為基于信息熵的期望交叉熵算法的文本分類方法的流程圖,具體 步驟如下:
[0047]步驟S101,從互聯(lián)網(wǎng)上收集語(yǔ)料文本。例如:訓(xùn)練語(yǔ)料1812篇,測(cè)試語(yǔ)料906篇,訓(xùn) 練語(yǔ)料與測(cè)試語(yǔ)料所占的比例為2 :1。在訓(xùn)練語(yǔ)料中,包括政治(300 )、經(jīng)濟(jì)(216 )、體育 (250)、軍事(162)、藝術(shù)(168)、計(jì)算機(jī)(156)、教育(150)、環(huán)境(138)、醫(yī)藥(138)、交通 (134)。測(cè)試語(yǔ)料各類別數(shù)量為訓(xùn)練語(yǔ)料的一半。
[0048] 步驟S102,對(duì)訓(xùn)練語(yǔ)料進(jìn)行預(yù)處理,對(duì)文本進(jìn)行分詞處理和停用詞過(guò)濾。
[0049] 步驟S103,根據(jù)基于信息熵的期望交叉熵特征選擇方法(即ECE_IE)來(lái)計(jì)算每個(gè)特 征向量的評(píng)估函數(shù)值,選定不同閾值,得到不同數(shù)目的特征向量表。
[0050] 步驟S104,使用特征向量權(quán)重TF-IDF計(jì)算特征向量詞權(quán)重。
[00511步驟S105,構(gòu)造相應(yīng)的文本分類器。
[0052]步驟S106,對(duì)測(cè)試文本進(jìn)行分類,得到不同數(shù)目特征向量下的分類結(jié)果。
[0053]步驟S107,計(jì)算分類器的性能評(píng)價(jià)參數(shù)。
[0054]步驟S108,根據(jù)評(píng)價(jià)函數(shù)的值判定該系統(tǒng)最優(yōu)的特征向量數(shù)目。
[0055]如圖2所示,該圖為基于信息熵的期望交叉熵算法的文本分類裝置的單元構(gòu)成圖, 所述裝置包含:
[0056]語(yǔ)料收集及預(yù)處理單元,用于從互聯(lián)網(wǎng)上收集不同類別語(yǔ)料,分為訓(xùn)練語(yǔ)料和測(cè) 試語(yǔ)料,并對(duì)語(yǔ)料進(jìn)行預(yù)處理,預(yù)處理包括文本分詞和去停用詞;特征選擇單元,用于選擇 語(yǔ)料中的特征項(xiàng),根據(jù)特征選擇評(píng)估函數(shù)從特征項(xiàng)表中選擇出不同數(shù)目的特征項(xiàng),組成特 征項(xiàng)集合;特征權(quán)重計(jì)算單元,用于計(jì)算特征項(xiàng)的權(quán)重值;分類單元,用于對(duì)語(yǔ)料文本進(jìn)行 分類;分類選優(yōu)單元,用于對(duì)比不同分類結(jié)果,找到最佳分類效果時(shí)的特征項(xiàng)數(shù)目。
[0057]下面詳細(xì)說(shuō)明本發(fā)明技術(shù)方案中所涉及到的各個(gè)細(xì)節(jié)問(wèn)題:
[0058] 1、特征選擇:
[0059] 期望交叉熵算法是信息增益的一種特例,與信息增益不同之處在于它僅僅考慮特 征項(xiàng)在文檔中發(fā)生的情況。它反映的是文檔類別的概率分布與出現(xiàn)某個(gè)特征條件下文檔類 別的概率分布之間的距離,又稱KL距。KL距離越大,說(shuō)明了特征項(xiàng)在文本分類中的貢獻(xiàn)程度 越高,期望交叉熵記為ECE( tk)可計(jì)算為:
[0060]
[0061] p(tk)代表特征項(xiàng)tk在文檔中發(fā)生的概率,p( Cj)代表在訓(xùn)練集中隸屬于類別(^的 文檔發(fā)生的概率,P(Cj|tk)代表訓(xùn)練集中含有特征項(xiàng)t k的文檔隸屬于類別的概率,η為類 另II總數(shù)。若特征項(xiàng)tk與類別關(guān)聯(lián)性越大,則P(Cj I tk)值越大。當(dāng)P(Cj I tk)越大且P(Cj)值越小 時(shí),則相應(yīng)特征項(xiàng)tk的ECE(tk)值就越大,當(dāng)特征集合中的特征項(xiàng)tk的排名比較靠前時(shí),特征 項(xiàng)tk對(duì)文本分類影響較大。
[0062] 本發(fā)明對(duì)期望交叉熵方法的改進(jìn)方法主要體現(xiàn)在引入類間信息熵、類內(nèi)信息熵參 數(shù)因子,有效地利用特征項(xiàng)表征類別信息進(jìn)行計(jì)算,用來(lái)調(diào)整特征選擇的評(píng)估函數(shù)值。這是 由于:現(xiàn)有期望交叉熵方法只考慮了特征項(xiàng)的文檔頻率,并沒(méi)有考慮特征項(xiàng)詞頻在類別中 分布的差異性問(wèn)題。利用類間信息熵來(lái)修正現(xiàn)有期望交叉熵在特征選擇時(shí),特征項(xiàng)在類間 分布的集中性考慮不足的缺陷;利用類內(nèi)信息熵來(lái)修正現(xiàn)有期望交叉熵在特征選擇時(shí),特 征項(xiàng)在類內(nèi)分布的均勻性考慮不足的缺陷。
[0063] 本發(fā)明將類間信息熵描述為某個(gè)特征項(xiàng)詞頻在類間的概率分布情況。若存在特征 項(xiàng)tk集中地分布在一個(gè)或幾個(gè)類別中,而在其它類中分布的較少,則說(shuō)明特征項(xiàng)t k所在類別 可以很好的與其它類別進(jìn)行區(qū)分,此時(shí)特征項(xiàng)tk的類間信息熵較小。相反,特征項(xiàng)t k的類間 信息熵值較大。類內(nèi)信息熵描述為某個(gè)特征項(xiàng)詞頻在類內(nèi)的概率分布情況。若存在特征項(xiàng) tk在類別W內(nèi)所有文本中分布的比較均勻,則說(shuō)明特征項(xiàng)tk能夠較好地表征類別信息,可 以有效地將該類別與其它類別進(jìn)行區(qū)分,此時(shí)特征項(xiàng)t k的類內(nèi)信息熵值較大。特征項(xiàng)tk的類 內(nèi)信息熵值較小。在進(jìn)行特征選擇時(shí),我們將類內(nèi)各文本中詞頻分布比較均勻的特征項(xiàng)進(jìn) 行保留,以提高文本分類效果。通過(guò)下式計(jì)算特征項(xiàng)的類間與類內(nèi)信息熵:
[0064]
η
[0065] 其中,f j(tk)表示特征項(xiàng)tk在類Cj中出現(xiàn)的頻率,η為文本類別個(gè)數(shù),Σ./:_(^ )表示 Μ 特征項(xiàng)tk在整個(gè)文本集中出現(xiàn)的頻率,m為類Cj中的文本數(shù)目,fji(tk)表示特征項(xiàng)tk在類cj 第i篇文本中出現(xiàn)的頻率。
[0066] 因此,本專利將基于信息熵的期望交叉熵的特征選擇評(píng)估函數(shù)表示為:
[0067]
[0068] 基于信息熵的期望交叉熵的特征選擇方法,既考慮了特征項(xiàng)在類內(nèi)分布的均勻 性,又考慮了特征項(xiàng)在類間分布的集中性。
[0069] 2、特征權(quán)重計(jì)算
[0070]本發(fā)明采用最常用的TF-IDF權(quán)重計(jì)算方法,根據(jù)TF-IDF權(quán)重,候選特征項(xiàng)fi在文 本d中的權(quán)重通過(guò)以下公式來(lái)計(jì)算:
[0071]
[0072] 其中,TF(fi,dj)表示候選特征項(xiàng)fi在文本dj中出現(xiàn)的頻率,N表示訓(xùn)練文本集合的 總文本數(shù),m表示候選特征項(xiàng)fi在文本集中出現(xiàn)的文本頻率,這樣,語(yǔ)料庫(kù)中的文本集合表 示為一個(gè)矩陣。
[0073] 3、分類器
[0074]本發(fā)明采用KNN分類器,KNN是指給定一個(gè)測(cè)試文檔,計(jì)算測(cè)試文檔和訓(xùn)練文本集 中文檔的相似度,從中找到K個(gè)與測(cè)試文檔最為相似的訓(xùn)練文本。相似度計(jì)算公式一般使用 向量夾角余弦值等來(lái)進(jìn)行計(jì)算。依據(jù)這K個(gè)訓(xùn)練文本的類別信息來(lái)判定測(cè)試文檔應(yīng)該屬于 哪個(gè)類別。KNN算法的決策規(guī)則為:
[0075]
[0076] 其中,KNN⑷表示K個(gè)最鄰近訓(xùn)練文本的集合。當(dāng)文檔山屬于(^類時(shí),y(山,Cl)的值 等于1,當(dāng)文檔dj不屬于ci類時(shí),y(dj,ci)的值等于0。5;[111((1,山)表示測(cè)試文檔(1與訓(xùn)練文本山 的相似度值。
[0077] 4、評(píng)價(jià)函數(shù)
[0078] 目前國(guó)際上比較流行的判別文本分類效果的評(píng)價(jià)函數(shù)主要包括查全率、查準(zhǔn)率、 F1測(cè)量值,其定義如下:
[0079] 查準(zhǔn)率:P = TP/(TP+FP)查全率:R = TP/(TP+FN)
[0080] F1 測(cè)量值:Fi = 2PR/(P+R)
[0081] TP表示屬于某個(gè)類別且被判別為該類別的文本數(shù);
[0082] FP表示實(shí)際不屬于某個(gè)類別卻被判別為該類別的文本數(shù);
[0083] FN表示實(shí)際屬于某個(gè)類別卻被判別為其它類別的文本數(shù)。
[0084]對(duì)于不同數(shù)目的特征項(xiàng)向量,使得評(píng)價(jià)函數(shù)F1測(cè)度最優(yōu)的那組數(shù)目,即是該分類 方法在該語(yǔ)料下的最優(yōu)的特征項(xiàng)數(shù)目。
[0085] 5、實(shí)驗(yàn)結(jié)果
[0086]下表是本實(shí)驗(yàn)的結(jié)果:
[0087]
12 從實(shí)驗(yàn)結(jié)果可以看出,在不同的特征數(shù)量情況下,基于信息熵的期望交叉熵方法 優(yōu)于現(xiàn)有期望交叉熵方法,證明了該方法的有效性。同時(shí)可以看出,采用基于信息熵的期望 交叉熵特征選擇方法時(shí),在特征數(shù)目為3000時(shí)分類效果達(dá)到最佳。 2 以上所述僅為本發(fā)明的優(yōu)選實(shí)施而已,并不用與限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù) 人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。在本發(fā)明的精神和原則之內(nèi),所作的任何修改、 等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 基于信息賭的期望交叉賭特征選擇文本分類系統(tǒng),其特征是包括依次相聯(lián)的數(shù)據(jù)收 集及預(yù)處理單元、特征選擇單元、特征權(quán)重計(jì)算單元、分類器單元、分類選優(yōu)單元; 數(shù)據(jù)收集及預(yù)處理單元,用于從互聯(lián)網(wǎng)上收集不同類別語(yǔ)料,分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ) 料,并對(duì)語(yǔ)料進(jìn)行預(yù)處理,預(yù)處理包括文本分詞和去停用詞; 特征選擇單元,用于選擇語(yǔ)料中的特征項(xiàng),根據(jù)特征選擇評(píng)估函數(shù)從特征項(xiàng)表中選擇 出不同數(shù)目的特征項(xiàng),組成特征項(xiàng)集合; 特征權(quán)重計(jì)算單元,用于計(jì)算特征項(xiàng)的權(quán)重值; 分類單元,用于對(duì)語(yǔ)料文本進(jìn)行分類; 分類選優(yōu)單元,用于對(duì)比不同分類結(jié)果,找到最佳分類效果時(shí)的特征項(xiàng)數(shù)目。2. 基于信息賭的期望交叉賭特征選擇文本分類方法,其按如下步驟: (1 )、收集不同類別文本,分析整理后按類別歸入語(yǔ)料訓(xùn)練集; (2) 、對(duì)語(yǔ)料訓(xùn)練集的文本進(jìn)行預(yù)處理,包括分詞和去停用詞; (3) 、利用期望交叉賭特征評(píng)估函數(shù)進(jìn)行特征值評(píng)估,基于信息賭的期望交叉賭函數(shù)公 式為:其中: ECE_IE (tk)表示特征項(xiàng)tk評(píng)估函數(shù)值;衰示特征項(xiàng)tk在期望交叉賭評(píng)估函數(shù)中的得分 值,其中,所述P(tk)表示出現(xiàn)特征項(xiàng)tk的文檔概率,所述P(Ci)表示屬于Cl類的文本在整個(gè) 文本集中出現(xiàn)的概率,所述P(cj I tk)表示文本包含特征項(xiàng)tk時(shí)屬于類別ci的概率,所述I C 表示類別總數(shù);表示特征項(xiàng)tk在類別Cj中的類內(nèi)信息賭,其中,所述。 (tk)表示特征項(xiàng)tk在類Cj中出現(xiàn)的頻率,所述m為類Cj中的文本數(shù)目,所述fji(tk)表示特征 項(xiàng)tk在類Cj第i篇文本中出現(xiàn)的頻率;'表示特征項(xiàng)tk的類間信息賭,其中,所述。(tk)表示特 征項(xiàng)tk在類cj中出現(xiàn)的頻率,所述η為文本類別個(gè)數(shù),所述表示特征項(xiàng)tk在整個(gè)文本 集中出現(xiàn)的頻率; 計(jì)算特征向量空間每個(gè)特征項(xiàng)的評(píng)估函數(shù)值,并進(jìn)行降序排列,選擇出得分最大的前N 個(gè)特征項(xiàng); (4) 、使用特征向量權(quán)重算法TF-IDF計(jì)算特征向量表包含的特征向量詞的權(quán)重; 巧)、構(gòu)造相應(yīng)的文本分類器,利用分類器對(duì)測(cè)試語(yǔ)料進(jìn)行計(jì)算,得到分類結(jié)果; (6)、采用評(píng)價(jià)函數(shù)計(jì)算各種分類器的性能評(píng)價(jià)參數(shù),根據(jù)分類器評(píng)價(jià)參數(shù)結(jié)果確定最 優(yōu)的特征向量集合。3. 根據(jù)權(quán)利要求2所述的基于信息賭的期望交叉賭特征選擇文本分類方法,其特征在 于,步驟(4)中,TF-IDF權(quán)重,候選特征詞fi在文本d中的權(quán)重通過(guò)W下公式來(lái)計(jì)算:其中,TF(fi,山)表示候選特征詞fi在文本d沖出現(xiàn)的頻率,N表示訓(xùn)練文本集合的總文 本數(shù),m表示候選特征詞fi在文本集中出現(xiàn)的文本頻率。4. 根據(jù)權(quán)利要求2所述的基于信息賭的期望交叉賭特征選擇文本分類方法,其特征在 于,步驟(5)中,分類器采用KNN最近鄰算法構(gòu)建分類器,計(jì)算待分類文本測(cè)試集所有文本的 相似度,按相似度從高到低將訓(xùn)練集文本排序,選取前K篇訓(xùn)練集文本,按照運(yùn)K篇文本的類 別對(duì)待分類文本進(jìn)行歸類,其中K值根據(jù)實(shí)際情況設(shè)定。
【文檔編號(hào)】G06F17/30GK105975518SQ201610278141
【公開日】2016年9月28日
【申請(qǐng)日】2016年4月28日
【發(fā)明人】吳國(guó)華, 王劉陽(yáng), 張禎, 王玉娟
【申請(qǐng)人】吳國(guó)華