基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng)及方法

文檔序號(hào)：10612845閱讀：1486來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng)及方法。本發(fā)明系統(tǒng)包括依次相聯(lián)的數(shù)據(jù)收集及預(yù)處理單元、特征選擇單元、特征權(quán)重計(jì)算單元、分類器單元、分類選優(yōu)單元；數(shù)據(jù)收集及預(yù)處理單元，用于從互聯(lián)網(wǎng)上收集不同類別語(yǔ)料，分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料，并對(duì)語(yǔ)料進(jìn)行預(yù)處理，預(yù)處理包括文本分詞和去停用詞；特征選擇單元，用于選擇語(yǔ)料中的特征項(xiàng)，根據(jù)特征選擇評(píng)估函數(shù)從特征項(xiàng)表中選擇出不同數(shù)目的特征項(xiàng)，組成特征項(xiàng)集合；特征權(quán)重計(jì)算單元，用于計(jì)算特征項(xiàng)的權(quán)重值；分類單元，用于對(duì)語(yǔ)料文本進(jìn)行分類；分類選優(yōu)單元，用于對(duì)比不同分類結(jié)果，找到最佳分類效果時(shí)的特征項(xiàng)數(shù)目。本發(fā)明能夠提高文本分類的精度，改善分類效果。
【專利說(shuō)明】
基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng)及方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域，具體涉及一種基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng)及方法。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展，互聯(lián)網(wǎng)上的信息呈爆炸式增長(zhǎng)。文本自動(dòng) 分類已逐漸成為獲取知識(shí)和信息的有效手段，因?yàn)樗梢蕴幚砗徒M織大量的文本數(shù)據(jù)。目前，文本分類廣泛應(yīng)用于郵件分類、信息檢索、網(wǎng)頁(yè)查重、數(shù)字圖書館等。文本以向量空間模型形式進(jìn)行結(jié)構(gòu)化表示。在向量模型下，文本分類的主要問(wèn)題是特征空間的高維性以及數(shù) 據(jù)稀疏性問(wèn)題。高維特征空間不僅會(huì)增加分類過(guò)程的開銷，而且影響分類精度。因此，特征維度約減成為文本自動(dòng)分類技術(shù)研究的核心問(wèn)題，而特征選擇是文本特征維度約減的一種主要模式。特征選擇是從原始特征集中依據(jù)某種評(píng)估函數(shù)選擇出對(duì)分類貢獻(xiàn)較大的特征項(xiàng)，用這些特征項(xiàng)來(lái)組成文本特征子集，用于文本的表示。
[0003] 目前，常用的特征選擇方法有文檔頻率(DF)、信息增益（IG)、互信息(MI)、x2統(tǒng)計(jì)、期望交叉熵(CEC)和文本證據(jù)權(quán)等過(guò)濾式特征選擇算方法。該類算法不依賴具體的分類器，提供一個(gè)評(píng)估函數(shù)，通過(guò)比較特征項(xiàng)的函數(shù)值，將特征項(xiàng)按照函數(shù)值從高到低進(jìn)行排序，從而選擇出重要的特征項(xiàng)。在這些特征選擇方法中，期望交叉熵具有較低復(fù)雜度和較好的降維效果，因此，該算法是目前應(yīng)用比較廣泛的特征選擇算法。但是，該算法最明顯的不足在于其只考慮了特征與類別之間的相關(guān)性，而忽略了特征項(xiàng)詞頻在類內(nèi)和類別間分布情況。

【發(fā)明內(nèi)容】

[0004] 基于現(xiàn)有期望交叉熵方法只考慮了特征項(xiàng)的文檔頻率，并沒(méi)有考慮特征項(xiàng)詞頻在類別中分布的差異性問(wèn)題，本發(fā)明公開了一種基于信息熵的期望交叉熵文本分類特征選擇方法，利用類間信息熵來(lái)修正現(xiàn)有期望交叉熵在特征選擇時(shí)，特征項(xiàng)在類間分布的集中性考慮不足的缺陷；利用類內(nèi)信息熵來(lái)修正現(xiàn)有期望交叉熵在特征選擇時(shí)，特征項(xiàng)在類內(nèi)分布的均勻性考慮不足的缺陷。
[0005] 為了達(dá)到上述發(fā)明目的，本發(fā)明提供如下技術(shù)方案：
[0006] 基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng)，包括依次相聯(lián)的數(shù)據(jù)收集及預(yù) 處理單元、特征選擇單元、特征權(quán)重計(jì)算單元、分類器單元、分類選優(yōu)單元；
[0007] 數(shù)據(jù)收集及預(yù)處理單元，用于從互聯(lián)網(wǎng)上收集不同類別語(yǔ)料，分為訓(xùn)練語(yǔ)料和測(cè) 試語(yǔ)料，并對(duì)語(yǔ)料進(jìn)行預(yù)處理，預(yù)處理包括文本分詞和去停用詞；
[0008] 特征選擇單元，用于選擇語(yǔ)料中的特征項(xiàng)，根據(jù)特征選擇評(píng)估函數(shù)從特征項(xiàng)表中選擇出不同數(shù)目的特征項(xiàng)，組成特征項(xiàng)集合；
[0009] 特征權(quán)重計(jì)算單元，用于計(jì)算特征項(xiàng)的權(quán)重值；
[0010] 分類單元，用于對(duì)語(yǔ)料文本進(jìn)行分類；
[0011] 分類選優(yōu)單元，用于對(duì)比不同分類結(jié)果，找到最佳分類效果時(shí)的特征項(xiàng)數(shù)目。
[0012] 本發(fā)明還公開了一種基于信息熵的期望交叉熵特征選擇文本分類方法，按如下步驟：
[0013] ⑴、收集不同類別文本，分析整理后按類別歸入語(yǔ)料訓(xùn)練集。
[0014] (2)、對(duì)訓(xùn)練集進(jìn)行預(yù)處理，包括中文分詞、去停用詞等來(lái)過(guò)濾噪聲數(shù)據(jù)、改善文本數(shù)據(jù)質(zhì)量等。
[0015] (3)、利用基于信息熵的期望交叉熵方法計(jì)算特征向量空間中特征項(xiàng)評(píng)估函數(shù)值，基于信息熵的期望交叉熵函數(shù)公式為：
[0016]
[0017] 其中
_示特征項(xiàng)tk在期望交叉熵評(píng)估函數(shù) 中的得分值。p(tk)表示出現(xiàn)特征項(xiàng)tk的文檔概率，p(Ci)表示屬于Ci類的文本在整個(gè)文本集中出現(xiàn)的概率，P(ci|tk)表示文本包含特征項(xiàng)tk時(shí)屬于類別ci的概率，η表示類別總數(shù)；
[0018]表示特征項(xiàng)tk在類別c j中的類內(nèi)信息熵。f j (tk)表
^ / \ n. / ^ / \ λ- / 示特征項(xiàng)tk在類cj中出現(xiàn)的頻率，m為類Cj中的文本數(shù)目，fji(tk)表示特征項(xiàng)tk在類cj第i篇
H r|=i山糊的掘歲
[0019] 良示特征項(xiàng)tk的類間信息熵。fj(tk)表示特征項(xiàng) j=i ：/=i tk在類cj中出現(xiàn)的頻率，η為文本類別個(gè)數(shù)
表示特征項(xiàng)tk在整個(gè)文本集中出現(xiàn)的頻率。
[0020] 計(jì)算特征向量空間每個(gè)特征項(xiàng)的評(píng)估函數(shù)值，并進(jìn)行降序排列，選擇出得分較大的前N個(gè)特征項(xiàng)。
[0021] (4 )、使用特征向量權(quán)重TF-IDF算法來(lái)計(jì)算特征向量表中包含的特征向量詞的權(quán) 重。
[0022]特征權(quán)重計(jì)算
[0023]本發(fā)明采用最常用的TF-IDF權(quán)重計(jì)算方法，根據(jù)TF-IDF權(quán)重，候選特征項(xiàng)fi在文本d中的權(quán)重通過(guò)以下公式來(lái)計(jì)算：
[0024]
[0025] 其中，TF(fi，dj)表示候選特征項(xiàng)fi在文本dj中出現(xiàn)的頻率，N表示訓(xùn)練文本集合的總文本數(shù)，m表示候選特征項(xiàng)fi在文本集中出現(xiàn)的文本頻率，這樣，語(yǔ)料庫(kù)中的文本集合表示為一個(gè)矩陣。
[0026] (5)、構(gòu)造相應(yīng)的文本分類器，利用分類器對(duì)測(cè)試語(yǔ)料進(jìn)行計(jì)算，得到分類結(jié)果。 [00 27]分類器
[0028]采用KNN分類器，KNN是指給定一個(gè)測(cè)試文檔，計(jì)算測(cè)試文檔和訓(xùn)練文本集中文檔的相似度，從中找到K個(gè)與測(cè)試文檔最為相似的訓(xùn)練文本。相似度計(jì)算公式一般使用向量夾角余弦值等來(lái)進(jìn)行計(jì)算。依據(jù)這Κ個(gè)訓(xùn)練文本的類別信息來(lái)判定測(cè)試文檔應(yīng)該屬于哪個(gè)類別。ΚΝΝ算法的決策規(guī)則為：
[0029]
[0030] 其中，KNN(d)表不Κ個(gè)最鄰近訓(xùn)練文本的集合。當(dāng)文檔dj屬于Ci類時(shí)，y(dj，Ci)的值等于1，當(dāng)文檔dj不屬于Ci類時(shí)，y(dj，ci)的值等于0。5;[111((1，山)表示測(cè)試文檔(1與訓(xùn)練文本山的相似度值。
[0031] (6)、采用評(píng)價(jià)函數(shù)計(jì)算各種分類器的性能評(píng)價(jià)參數(shù)，依據(jù)分類器評(píng)價(jià)參數(shù)結(jié)果確定最優(yōu)的特征向量集合。
[0032] 評(píng)價(jià)函數(shù)
[0033] 目前國(guó)際上比較流行的判別文本分類效果的評(píng)價(jià)函數(shù)主要包括查全率、查準(zhǔn)率、 F1測(cè)量值，其定義如下：
[0034] 查準(zhǔn)率:P = TP/(TP+FP)查全率:R = TP/(TP+FN)
[0035] F1 測(cè)量值 JfSPRAP+R)
[0036] TP表示屬于某個(gè)類別且被判別為該類別的文本數(shù)；
[0037] FP表示實(shí)際不屬于某個(gè)類別卻被判別為該類別的文本數(shù)；
[0038] FN表示實(shí)際屬于某個(gè)類別卻被判別為其它類別的文本數(shù)。
[0039] 對(duì)于不同數(shù)目的特征項(xiàng)向量，使得評(píng)價(jià)函數(shù)F1測(cè)度最優(yōu)的那組數(shù)目，即是該分類方法在該語(yǔ)料下的最優(yōu)的特征項(xiàng)數(shù)目。
[0040] 與現(xiàn)有技術(shù)相比，本發(fā)明具有如下優(yōu)點(diǎn)和有益效果：
[0041] 本發(fā)明在現(xiàn)有的期望交叉熵方法中加入類內(nèi)信息熵、類間信息熵，修正了現(xiàn)有期望交叉熵方法對(duì)特征項(xiàng)詞頻考慮不足的缺陷，使在文本集合中特征項(xiàng)類間分布集中性、類內(nèi)分布均勻性的這一特性得到了充分體現(xiàn)。相對(duì)現(xiàn)有期望交叉熵方法，本發(fā)明能夠提高文本分類的精度，改善分類效果。
[0042]本發(fā)明涉及一種基于信息熵的期望交叉熵特征選擇文本分類方法(簡(jiǎn)稱ECE_IE)，該方法在期望交叉熵方法基礎(chǔ)上通過(guò)引入特征項(xiàng)詞頻的類間信息熵、類內(nèi)信息熵因子，彌補(bǔ)了特征項(xiàng)詞頻對(duì)類別考慮不足的缺陷，其中，利用類間信息熵來(lái)修正現(xiàn)有期望交叉熵在特征選擇時(shí)，特征項(xiàng)在類間分布的集中性考慮不足的缺陷；利用類內(nèi)信息熵來(lái)修正現(xiàn)有期望交叉熵在特征選擇時(shí)，特征項(xiàng)在類內(nèi)分布的均勻性考慮不足的缺陷。本發(fā)明證明新方法的采用在文本分類的準(zhǔn)確率有明顯提高，充分證明了它的有效性。
【附圖說(shuō)明】
[0043] 圖1是本發(fā)明基于信息熵的期望交叉熵算法的文本分類方法的流程圖。
[0044] 圖2是本發(fā)明基于信息熵的期望交叉熵算法的文本分類裝置的單元構(gòu)成圖。
【具體實(shí)施方式】
[0045] 下面結(jié)合附圖和實(shí)施例，做進(jìn)一步詳細(xì)說(shuō)明，應(yīng)理解下述具體實(shí)施方法僅用于說(shuō) 明本發(fā)明而不用于限制本發(fā)明的范圍。
[0046]如圖1所示，該圖為基于信息熵的期望交叉熵算法的文本分類方法的流程圖，具體步驟如下：
[0047]步驟S101，從互聯(lián)網(wǎng)上收集語(yǔ)料文本。例如：訓(xùn)練語(yǔ)料1812篇，測(cè)試語(yǔ)料906篇，訓(xùn) 練語(yǔ)料與測(cè)試語(yǔ)料所占的比例為2 :1。在訓(xùn)練語(yǔ)料中，包括政治（300 )、經(jīng)濟(jì)（216 )、體育 (250)、軍事（162)、藝術(shù)（168)、計(jì)算機(jī)（156)、教育（150)、環(huán)境（138)、醫(yī)藥（138)、交通 (134)。測(cè)試語(yǔ)料各類別數(shù)量為訓(xùn)練語(yǔ)料的一半。
[0048] 步驟S102,對(duì)訓(xùn)練語(yǔ)料進(jìn)行預(yù)處理，對(duì)文本進(jìn)行分詞處理和停用詞過(guò)濾。
[0049] 步驟S103,根據(jù)基于信息熵的期望交叉熵特征選擇方法（即ECE_IE)來(lái)計(jì)算每個(gè)特征向量的評(píng)估函數(shù)值，選定不同閾值，得到不同數(shù)目的特征向量表。
[0050] 步驟S104，使用特征向量權(quán)重TF-IDF計(jì)算特征向量詞權(quán)重。
[00511步驟S105,構(gòu)造相應(yīng)的文本分類器。
[0052]步驟S106,對(duì)測(cè)試文本進(jìn)行分類，得到不同數(shù)目特征向量下的分類結(jié)果。
[0053]步驟S107,計(jì)算分類器的性能評(píng)價(jià)參數(shù)。
[0054]步驟S108,根據(jù)評(píng)價(jià)函數(shù)的值判定該系統(tǒng)最優(yōu)的特征向量數(shù)目。
[0055]如圖2所示，該圖為基于信息熵的期望交叉熵算法的文本分類裝置的單元構(gòu)成圖，所述裝置包含：
[0056]語(yǔ)料收集及預(yù)處理單元，用于從互聯(lián)網(wǎng)上收集不同類別語(yǔ)料，分為訓(xùn)練語(yǔ)料和測(cè) 試語(yǔ)料，并對(duì)語(yǔ)料進(jìn)行預(yù)處理，預(yù)處理包括文本分詞和去停用詞；特征選擇單元，用于選擇語(yǔ)料中的特征項(xiàng)，根據(jù)特征選擇評(píng)估函數(shù)從特征項(xiàng)表中選擇出不同數(shù)目的特征項(xiàng)，組成特征項(xiàng)集合;特征權(quán)重計(jì)算單元，用于計(jì)算特征項(xiàng)的權(quán)重值;分類單元，用于對(duì)語(yǔ)料文本進(jìn)行分類;分類選優(yōu)單元，用于對(duì)比不同分類結(jié)果，找到最佳分類效果時(shí)的特征項(xiàng)數(shù)目。
[0057]下面詳細(xì)說(shuō)明本發(fā)明技術(shù)方案中所涉及到的各個(gè)細(xì)節(jié)問(wèn)題：
[0058] 1、特征選擇：
[0059] 期望交叉熵算法是信息增益的一種特例，與信息增益不同之處在于它僅僅考慮特征項(xiàng)在文檔中發(fā)生的情況。它反映的是文檔類別的概率分布與出現(xiàn)某個(gè)特征條件下文檔類別的概率分布之間的距離，又稱KL距。KL距離越大，說(shuō)明了特征項(xiàng)在文本分類中的貢獻(xiàn)程度越高，期望交叉熵記為ECE( tk)可計(jì)算為：
[0060]
[0061] p(tk)代表特征項(xiàng)tk在文檔中發(fā)生的概率，p( Cj)代表在訓(xùn)練集中隸屬于類別(^的文檔發(fā)生的概率，P(Cj|tk)代表訓(xùn)練集中含有特征項(xiàng)t k的文檔隸屬于類別的概率，η為類另II總數(shù)。若特征項(xiàng)tk與類別關(guān)聯(lián)性越大，則P(Cj I tk)值越大。當(dāng)P(Cj I tk)越大且P(Cj)值越小時(shí)，則相應(yīng)特征項(xiàng)tk的ECE(tk)值就越大，當(dāng)特征集合中的特征項(xiàng)tk的排名比較靠前時(shí)，特征項(xiàng)tk對(duì)文本分類影響較大。
[0062] 本發(fā)明對(duì)期望交叉熵方法的改進(jìn)方法主要體現(xiàn)在引入類間信息熵、類內(nèi)信息熵參數(shù)因子，有效地利用特征項(xiàng)表征類別信息進(jìn)行計(jì)算，用來(lái)調(diào)整特征選擇的評(píng)估函數(shù)值。這是由于:現(xiàn)有期望交叉熵方法只考慮了特征項(xiàng)的文檔頻率，并沒(méi)有考慮特征項(xiàng)詞頻在類別中分布的差異性問(wèn)題。利用類間信息熵來(lái)修正現(xiàn)有期望交叉熵在特征選擇時(shí)，特征項(xiàng)在類間分布的集中性考慮不足的缺陷；利用類內(nèi)信息熵來(lái)修正現(xiàn)有期望交叉熵在特征選擇時(shí)，特征項(xiàng)在類內(nèi)分布的均勻性考慮不足的缺陷。
[0063] 本發(fā)明將類間信息熵描述為某個(gè)特征項(xiàng)詞頻在類間的概率分布情況。若存在特征項(xiàng)tk集中地分布在一個(gè)或幾個(gè)類別中，而在其它類中分布的較少，則說(shuō)明特征項(xiàng)t k所在類別可以很好的與其它類別進(jìn)行區(qū)分，此時(shí)特征項(xiàng)tk的類間信息熵較小。相反，特征項(xiàng)t k的類間信息熵值較大。類內(nèi)信息熵描述為某個(gè)特征項(xiàng)詞頻在類內(nèi)的概率分布情況。若存在特征項(xiàng) tk在類別W內(nèi)所有文本中分布的比較均勻，則說(shuō)明特征項(xiàng)tk能夠較好地表征類別信息，可以有效地將該類別與其它類別進(jìn)行區(qū)分，此時(shí)特征項(xiàng)t k的類內(nèi)信息熵值較大。特征項(xiàng)tk的類內(nèi)信息熵值較小。在進(jìn)行特征選擇時(shí)，我們將類內(nèi)各文本中詞頻分布比較均勻的特征項(xiàng)進(jìn) 行保留，以提高文本分類效果。通過(guò)下式計(jì)算特征項(xiàng)的類間與類內(nèi)信息熵：
[0064]
η
[0065] 其中，f j(tk)表示特征項(xiàng)tk在類Cj中出現(xiàn)的頻率，η為文本類別個(gè)數(shù)，Σ./:_(^ )表示 Μ 特征項(xiàng)tk在整個(gè)文本集中出現(xiàn)的頻率，m為類Cj中的文本數(shù)目，fji(tk)表示特征項(xiàng)tk在類cj 第i篇文本中出現(xiàn)的頻率。
[0066] 因此，本專利將基于信息熵的期望交叉熵的特征選擇評(píng)估函數(shù)表示為：
[0067]
[0068] 基于信息熵的期望交叉熵的特征選擇方法，既考慮了特征項(xiàng)在類內(nèi)分布的均勻性，又考慮了特征項(xiàng)在類間分布的集中性。
[0069] 2、特征權(quán)重計(jì)算
[0070]本發(fā)明采用最常用的TF-IDF權(quán)重計(jì)算方法，根據(jù)TF-IDF權(quán)重，候選特征項(xiàng)fi在文本d中的權(quán)重通過(guò)以下公式來(lái)計(jì)算：
[0071]
[0072] 其中，TF(fi，dj)表示候選特征項(xiàng)fi在文本dj中出現(xiàn)的頻率，N表示訓(xùn)練文本集合的總文本數(shù)，m表示候選特征項(xiàng)fi在文本集中出現(xiàn)的文本頻率，這樣，語(yǔ)料庫(kù)中的文本集合表示為一個(gè)矩陣。
[0073] 3、分類器
[0074]本發(fā)明采用KNN分類器，KNN是指給定一個(gè)測(cè)試文檔，計(jì)算測(cè)試文檔和訓(xùn)練文本集中文檔的相似度，從中找到K個(gè)與測(cè)試文檔最為相似的訓(xùn)練文本。相似度計(jì)算公式一般使用向量夾角余弦值等來(lái)進(jìn)行計(jì)算。依據(jù)這K個(gè)訓(xùn)練文本的類別信息來(lái)判定測(cè)試文檔應(yīng)該屬于哪個(gè)類別。KNN算法的決策規(guī)則為：
[0075]
[0076] 其中，KNN⑷表示K個(gè)最鄰近訓(xùn)練文本的集合。當(dāng)文檔山屬于(^類時(shí)，y(山，Cl)的值等于1，當(dāng)文檔dj不屬于ci類時(shí)，y(dj，ci)的值等于0。5;[111((1，山)表示測(cè)試文檔(1與訓(xùn)練文本山的相似度值。
[0077] 4、評(píng)價(jià)函數(shù)
[0078] 目前國(guó)際上比較流行的判別文本分類效果的評(píng)價(jià)函數(shù)主要包括查全率、查準(zhǔn)率、 F1測(cè)量值，其定義如下：
[0079] 查準(zhǔn)率:P = TP/(TP+FP)查全率:R = TP/(TP+FN)
[0080] F1 測(cè)量值：Fi = 2PR/(P+R)
[0081] TP表示屬于某個(gè)類別且被判別為該類別的文本數(shù)；
[0082] FP表示實(shí)際不屬于某個(gè)類別卻被判別為該類別的文本數(shù)；
[0083] FN表示實(shí)際屬于某個(gè)類別卻被判別為其它類別的文本數(shù)。
[0084]對(duì)于不同數(shù)目的特征項(xiàng)向量，使得評(píng)價(jià)函數(shù)F1測(cè)度最優(yōu)的那組數(shù)目，即是該分類方法在該語(yǔ)料下的最優(yōu)的特征項(xiàng)數(shù)目。
[0085] 5、實(shí)驗(yàn)結(jié)果
[0086]下表是本實(shí)驗(yàn)的結(jié)果：
[0087]
12 從實(shí)驗(yàn)結(jié)果可以看出，在不同的特征數(shù)量情況下，基于信息熵的期望交叉熵方法優(yōu)于現(xiàn)有期望交叉熵方法，證明了該方法的有效性。同時(shí)可以看出，采用基于信息熵的期望交叉熵特征選擇方法時(shí)，在特征數(shù)目為3000時(shí)分類效果達(dá)到最佳。 2 以上所述僅為本發(fā)明的優(yōu)選實(shí)施而已，并不用與限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù) 人員來(lái)說(shuō)，本發(fā)明可以有各種更改和變化。在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 基于信息賭的期望交叉賭特征選擇文本分類系統(tǒng)，其特征是包括依次相聯(lián)的數(shù)據(jù)收集及預(yù)處理單元、特征選擇單元、特征權(quán)重計(jì)算單元、分類器單元、分類選優(yōu)單元；數(shù)據(jù)收集及預(yù)處理單元，用于從互聯(lián)網(wǎng)上收集不同類別語(yǔ)料，分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ) 料，并對(duì)語(yǔ)料進(jìn)行預(yù)處理，預(yù)處理包括文本分詞和去停用詞；特征選擇單元，用于選擇語(yǔ)料中的特征項(xiàng)，根據(jù)特征選擇評(píng)估函數(shù)從特征項(xiàng)表中選擇出不同數(shù)目的特征項(xiàng)，組成特征項(xiàng)集合；特征權(quán)重計(jì)算單元，用于計(jì)算特征項(xiàng)的權(quán)重值；分類單元，用于對(duì)語(yǔ)料文本進(jìn)行分類；分類選優(yōu)單元，用于對(duì)比不同分類結(jié)果，找到最佳分類效果時(shí)的特征項(xiàng)數(shù)目。2. 基于信息賭的期望交叉賭特征選擇文本分類方法，其按如下步驟： (1 )、收集不同類別文本，分析整理后按類別歸入語(yǔ)料訓(xùn)練集； (2) 、對(duì)語(yǔ)料訓(xùn)練集的文本進(jìn)行預(yù)處理，包括分詞和去停用詞； (3) 、利用期望交叉賭特征評(píng)估函數(shù)進(jìn)行特征值評(píng)估，基于信息賭的期望交叉賭函數(shù)公式為：其中： ECE_IE (tk)表示特征項(xiàng)tk評(píng)估函數(shù)值；衰示特征項(xiàng)tk在期望交叉賭評(píng)估函數(shù)中的得分值，其中，所述P(tk)表示出現(xiàn)特征項(xiàng)tk的文檔概率，所述P(Ci)表示屬于Cl類的文本在整個(gè) 文本集中出現(xiàn)的概率，所述P(cj I tk)表示文本包含特征項(xiàng)tk時(shí)屬于類別ci的概率，所述I C 表示類別總數(shù)；表示特征項(xiàng)tk在類別Cj中的類內(nèi)信息賭，其中，所述。 (tk)表示特征項(xiàng)tk在類Cj中出現(xiàn)的頻率，所述m為類Cj中的文本數(shù)目，所述fji(tk)表示特征項(xiàng)tk在類Cj第i篇文本中出現(xiàn)的頻率；'表示特征項(xiàng)tk的類間信息賭，其中，所述。（tk)表示特征項(xiàng)tk在類cj中出現(xiàn)的頻率，所述η為文本類別個(gè)數(shù)，所述表示特征項(xiàng)tk在整個(gè)文本集中出現(xiàn)的頻率；計(jì)算特征向量空間每個(gè)特征項(xiàng)的評(píng)估函數(shù)值，并進(jìn)行降序排列，選擇出得分最大的前N 個(gè)特征項(xiàng)； (4) 、使用特征向量權(quán)重算法TF-IDF計(jì)算特征向量表包含的特征向量詞的權(quán)重；巧）、構(gòu)造相應(yīng)的文本分類器，利用分類器對(duì)測(cè)試語(yǔ)料進(jìn)行計(jì)算，得到分類結(jié)果； (6)、采用評(píng)價(jià)函數(shù)計(jì)算各種分類器的性能評(píng)價(jià)參數(shù)，根據(jù)分類器評(píng)價(jià)參數(shù)結(jié)果確定最優(yōu)的特征向量集合。3. 根據(jù)權(quán)利要求2所述的基于信息賭的期望交叉賭特征選擇文本分類方法，其特征在于，步驟(4)中，TF-IDF權(quán)重，候選特征詞fi在文本d中的權(quán)重通過(guò)W下公式來(lái)計(jì)算：其中，TF(fi，山)表示候選特征詞fi在文本d沖出現(xiàn)的頻率，N表示訓(xùn)練文本集合的總文本數(shù)，m表示候選特征詞fi在文本集中出現(xiàn)的文本頻率。4. 根據(jù)權(quán)利要求2所述的基于信息賭的期望交叉賭特征選擇文本分類方法，其特征在于，步驟(5)中，分類器采用KNN最近鄰算法構(gòu)建分類器，計(jì)算待分類文本測(cè)試集所有文本的相似度，按相似度從高到低將訓(xùn)練集文本排序，選取前K篇訓(xùn)練集文本，按照運(yùn)K篇文本的類別對(duì)待分類文本進(jìn)行歸類，其中K值根據(jù)實(shí)際情況設(shè)定。
【文檔編號(hào)】G06F17/30GK105975518SQ201610278141
【公開日】2016年9月28日
【申請(qǐng)日】2016年4月28日
【發(fā)明人】吳國(guó)華, 王劉陽(yáng), 張禎, 王玉娟
【申請(qǐng)人】吳國(guó)華

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳國(guó)華;王劉陽(yáng);張禎;王玉娟;
技術(shù)所有人：吳國(guó)華;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本特征提取相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于信息熵的期望交叉熵特征選擇文本分類系統(tǒng)及方法