基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法

文檔序號(hào)：6460337閱讀：274來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及人工智能
技術(shù)領(lǐng)域：
，特別是一種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法。
背景技術(shù)：
：文本分類是當(dāng)前自然語言處理研究的熱點(diǎn)問題，如何識(shí)別一個(gè)文本是否屬于某一特定領(lǐng)域文本問題，是當(dāng)前垂直搜索引擎、問答系統(tǒng)等研究的關(guān)鍵問題。通常在文本分類中，特征選擇是最重要的一個(gè)部分，其直接影響文本分類的準(zhǔn)確率。常規(guī)的特征選擇方法大多采用各種評(píng)估函數(shù)如文檔頻率(DocumentFrequency，DF)、信息增益(InformationGain,IG)、互信息(MutualInforma-tion,MI)、統(tǒng)計(jì)(CHI)等進(jìn)行特征提取。這些特征選擇方法都是基于統(tǒng)計(jì)學(xué)算法，在獲取特征空間時(shí)通常采用大量的語料，經(jīng)過統(tǒng)計(jì)計(jì)算和降維處理選擇特征空間。這些特征選取方法可能會(huì)導(dǎo)致選擇出來的一些統(tǒng)計(jì)特征對分類貢獻(xiàn)較小，反而會(huì)降低分類的準(zhǔn)確率；而對于領(lǐng)域文本分類來說，文本中經(jīng)常會(huì)出現(xiàn)一些領(lǐng)域術(shù)語，這些領(lǐng)域術(shù)語對領(lǐng)域文本分類的區(qū)分度較高，然而利用常規(guī)的特征選擇方法，這些對分類效果有重要作用的特征可能獲得較低的權(quán)重，甚至被作為噪聲被去掉，這樣將大大影響了分類的準(zhǔn)確率。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種基于領(lǐng)域知識(shí)關(guān)系的領(lǐng)域文本分類特征選擇及權(quán)重計(jì)算方法。本發(fā)明提出了并實(shí)現(xiàn)了一種基于領(lǐng)域知識(shí)關(guān)系的領(lǐng)域文本分類特征選擇及權(quán)重計(jì)算方法，該方法結(jié)合樣本統(tǒng)計(jì)與領(lǐng)域術(shù)語構(gòu)造領(lǐng)域分類特征空間，利用領(lǐng)域內(nèi)部知識(shí)關(guān)系，計(jì)算術(shù)語間的相似度，依此來調(diào)整分類特征向量相應(yīng)特征維權(quán)重，并采用支持向量機(jī)學(xué)習(xí)算法，建立領(lǐng)域文本分類模型，實(shí)現(xiàn)領(lǐng)域文本分類。云南旅游領(lǐng)域與非旅游領(lǐng)域文本分類實(shí)驗(yàn)結(jié)果表明，該方法分類準(zhǔn)確率比改進(jìn)TFIDF方法提高4個(gè)百分點(diǎn)。發(fā)明技術(shù)方案如下基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法進(jìn)行文本分類的步驟(1)實(shí)驗(yàn)語料收集收集領(lǐng)域文本和非領(lǐng)域文本作為訓(xùn)練語料和測試語料，實(shí)驗(yàn)采用從網(wǎng)絡(luò)隨機(jī)搜索的云南旅游領(lǐng)域文檔700篇作為領(lǐng)域訓(xùn)練文本，復(fù)旦大學(xué)語料庫文檔700篇(環(huán)境、計(jì)算機(jī)、交通、教育、經(jīng)濟(jì)、軍事、體育、醫(yī)藥、藝術(shù)、政治文檔各70篇)作為非領(lǐng)域訓(xùn)練文本，測試語料采用從網(wǎng)絡(luò)隨機(jī)搜索的云南旅游領(lǐng)域的文檔200篇作為領(lǐng)域測試文本，復(fù)旦大學(xué)語料庫文檔200篇(環(huán)境、計(jì)算機(jī)、交通、教育、經(jīng)濟(jì)、軍事、體育、醫(yī)藥、藝術(shù)、政治文檔各20篇)作為非領(lǐng)域測試文本。(2)文本預(yù)處理文本的預(yù)處理包括，分詞，去除停用詞(stopwords),詞頻統(tǒng)計(jì)，文檔頻率統(tǒng)計(jì)等。首先對文本進(jìn)行中文分詞處理，采用中科院計(jì)算所的分詞系統(tǒng)接口實(shí)現(xiàn)，并在此基礎(chǔ)上借助于領(lǐng)域詞庫，進(jìn)行領(lǐng)域詞分詞處理，并進(jìn)行領(lǐng)域詞標(biāo)識(shí)。文本分詞完成后，去掉文本中經(jīng)常出現(xiàn)的"了"、"呢"、"的"、"怎樣"等停用詞。然后掃描文檔，統(tǒng)計(jì)出每個(gè)詞的詞頻、領(lǐng)域內(nèi)文檔頻率及非領(lǐng)域內(nèi)文檔頻率。G)TFIDF特征權(quán)重計(jì)算方法在文本預(yù)處理完成后，初步利用文檔頻率(DF)去掉低頻詞，選取1000個(gè)特征詞，構(gòu)成分類特征空間。特征詞的權(quán)重計(jì)算采用重慶大學(xué)計(jì)算機(jī)學(xué)院張玉芳副教授等2006年發(fā)表在《計(jì)算機(jī)工程》上的"基于文本分類TFIDF方法的改進(jìn)與應(yīng)用"中提出的改進(jìn)后的TF/Z)F方法，W^^-^x^(附+(附+QxW)，其中rF表示某一特征項(xiàng)的詞頻，附表示該特征項(xiàng)的領(lǐng)域內(nèi)文檔頻率，^表示該特征項(xiàng)的非領(lǐng)域內(nèi)文檔頻率，^表示全部文檔數(shù)。(4)擴(kuò)展領(lǐng)域術(shù)語特征選取及特征權(quán)重計(jì)算方法(DTFIDF):擴(kuò)展領(lǐng)域術(shù)語特征選取權(quán)重計(jì)算方法(DTFIDF)是將領(lǐng)域詞庫中出現(xiàn)的所有領(lǐng)域術(shù)語直接擴(kuò)展到分類特征空間中，并采用改進(jìn)TFIDF方法進(jìn)行特征權(quán)重計(jì)算。(5)借助領(lǐng)域知識(shí)的特征選取及特征權(quán)重計(jì)算方法(WTFIDF):通過DF方法獲取特征空間后，利用領(lǐng)域術(shù)語與特征詞之間的相關(guān)性對特征詞權(quán)重進(jìn)行調(diào)整，在有限的特征空間內(nèi)對特征詞權(quán)重進(jìn)行調(diào)整進(jìn)而改進(jìn)文本分類效果。權(quán)重調(diào)整方法采用了中國科學(xué)院計(jì)算所劉群教授等發(fā)表在《第三屆中文詞匯語義學(xué)研討會(huì)》上的"基于《知網(wǎng)》的詞匯語義相似度計(jì)算"中提出的基于《知網(wǎng)》的詞匯語義相似度計(jì)算方法，4i,=1)=1特征詞的權(quán)重計(jì)算方法采用以下公式進(jìn)行計(jì)算其中TFIDF表示沒有經(jīng)過權(quán)值調(diào)整時(shí)特征空間中特征詞的權(quán)重，TFn表示文本中出現(xiàn)的第n個(gè)與特征詞相似度大于^的領(lǐng)域詞的詞頻，w表示文本中出現(xiàn)的領(lǐng)域詞的領(lǐng)域內(nèi)文檔頻率，^表示文本中出現(xiàn)的領(lǐng)域詞的非領(lǐng)域內(nèi)文檔頻率，^表示全部文檔數(shù)，表示領(lǐng)域詞詞和特征詞的相似度。(6)領(lǐng)域文本分類模型構(gòu)建-分類算法SVM-采用了支持向量機(jī)(SVM)算法進(jìn)行領(lǐng)域文本分類，SVM是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)模型，它在解決小樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢，由于SVM的特點(diǎn)，其在小樣本分類問題上的效果已經(jīng)在文本分類、手寫體識(shí)別、自然語言處理等方面得到了驗(yàn)證。SVM的原理是通過事先選擇的非線性映射(核函數(shù))將輸入向量X映射到一個(gè)高維特征空間，在這個(gè)空間構(gòu)造最優(yōu)分類超平面，以將兩類樣本無錯(cuò)誤地分開，而且要使兩類的分類空隙最大，前者保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小，后者使推廣性的界中的置信范圍最小(即分類器的結(jié)構(gòu)風(fēng)險(xiǎn)最小)，這樣可使在原始空間非線性可分的問題變?yōu)楦呔S空間中線性可分的問題。文本向量表示與分類對文檔進(jìn)行訓(xùn)練和分類前，把文檔表示成計(jì)算機(jī)可以處理的形式。文本被表示成<label><indexl>:<valuel><index2>:<value2>...的格式。其中〈label〉是訓(xùn)練數(shù)據(jù)集的目標(biāo)值，對于分類，它是標(biāo)識(shí)某類的整數(shù)，在實(shí)驗(yàn)中領(lǐng)域文本即云南旅游領(lǐng)域文本的目標(biāo)值設(shè)為+1，非領(lǐng)域文本包括復(fù)旦大學(xué)語料庫中十個(gè)類別的文本的目標(biāo)值設(shè)為-l;<index>是以l開始的整數(shù)，可以是不連續(xù)的，表示在一篇文檔中出現(xiàn)第幾個(gè)特征項(xiàng)；〈value〉為實(shí)數(shù)，在此設(shè)為該特征項(xiàng)的權(quán)重。通過以上幾種方法可以對每個(gè)訓(xùn)練和測試文本構(gòu)建出一個(gè)表示文本的特征向量，并通過國立臺(tái)灣大學(xué)LIBSVM接口實(shí)現(xiàn)訓(xùn)練和分類。用本發(fā)明的方法對云南旅游領(lǐng)域與非旅游領(lǐng)域文本分類實(shí)驗(yàn)結(jié)果表明，采用基于領(lǐng)域知識(shí)關(guān)系的領(lǐng)域文本分類特征選擇及權(quán)重計(jì)算方法進(jìn)行文本分類的準(zhǔn)確率比改進(jìn)TFIDF方法提高4個(gè)百分點(diǎn)。圖1是本發(fā)明的基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法的流程圖。具體實(shí)施例方式針對提出的以上方法在云南旅游領(lǐng)域進(jìn)行了實(shí)驗(yàn)驗(yàn)證，具體步驟如圖l:步驟al:實(shí)驗(yàn)訓(xùn)練語料選取了云南旅游領(lǐng)域文檔700篇作為領(lǐng)域訓(xùn)練文本，復(fù)旦大學(xué)語料庫文檔700篇(環(huán)境、計(jì)算機(jī)、交通、教育、經(jīng)濟(jì)、軍事、體育、醫(yī)藥、藝術(shù)、政治文檔各70篇)作為非領(lǐng)域訓(xùn)練文本。測試語料采用了云南旅游領(lǐng)域的文檔200篇作為領(lǐng)域測試文本，復(fù)旦大學(xué)語料庫文檔200篇(環(huán)境、計(jì)算機(jī)、交通、教育、經(jīng)濟(jì)、軍事、體育、醫(yī)藥、藝術(shù)、政治文檔各20篇)作為非領(lǐng)域測試文本。步驟a2:文本預(yù)處理，包括，分詞，去除停用詞(stopwords)，詞頻統(tǒng)計(jì)，文檔頻率統(tǒng)計(jì)等。首先對文本進(jìn)行中文分詞處理，采用中科院計(jì)算所的分詞系統(tǒng)接口實(shí)現(xiàn)，并在此基礎(chǔ)上借助于領(lǐng)域詞庫，進(jìn)行領(lǐng)域詞分詞處理，并進(jìn)行領(lǐng)域詞標(biāo)識(shí)。文本分詞完成后，去掉文本中經(jīng)常出現(xiàn)的"了"、"呢"、"的"、"怎樣"等停用詞。然后掃描文檔，統(tǒng)計(jì)出每個(gè)詞的詞頻、領(lǐng)域內(nèi)文檔頻率及非領(lǐng)域內(nèi)文檔頻率。步驟a3:采用不同特征空間選擇及特征權(quán)重計(jì)算方法進(jìn)行特征空間選擇及特征權(quán)重計(jì)算。(1)TFIDF特征權(quán)重計(jì)算方法初步利用文檔頻率(DF)去掉低頻詞，選取1000個(gè)特征詞，構(gòu)成分類特征空間。特征詞的權(quán)重計(jì)算采用重慶大學(xué)計(jì)算機(jī)學(xué)院張玉芳副教授改進(jìn)后的7F/DF方法，7F/￡^=7^xlQg(W+(m+"xA0，其中TF表示某一特征項(xiàng)的詞頻，w表示該特征項(xiàng)的領(lǐng)域內(nèi)文檔頻率，^表示該特征項(xiàng)的非領(lǐng)域內(nèi)文檔頻率，^表示全部文檔數(shù)。采用該方法一些出現(xiàn)頻率較低的對領(lǐng)域文本分類卻有較強(qiáng)的區(qū)分度領(lǐng)域術(shù)語，在特征選擇和權(quán)值計(jì)算的時(shí)候很可能被忽略或者賦予一個(gè)很小的權(quán)值。(2)擴(kuò)展領(lǐng)域術(shù)語特征選取及特征權(quán)重計(jì)算方法(DTFIDF):擴(kuò)展領(lǐng)域術(shù)語特征選取權(quán)重計(jì)算方法(DTFIDF)是將領(lǐng)域詞庫中出現(xiàn)的所有領(lǐng)域術(shù)語直接擴(kuò)展到分類特征空間中。這樣特征空間的構(gòu)成就是利用文檔頻率(DF)去掉低頻詞后獲取的特征詞與領(lǐng)域詞庫中的領(lǐng)域術(shù)語合并得到，特征詞權(quán)重計(jì)算采用THDF方法。這種方法在特征空間選取時(shí)，不會(huì)將類別區(qū)分度高的領(lǐng)域術(shù)語去掉，但會(huì)增大特征空間的維數(shù)，導(dǎo)致數(shù)據(jù)稀疏，可能會(huì)在一定程度上影響分類效果。(3)借助領(lǐng)域知識(shí)的特征選取及特征權(quán)重計(jì)算方法(WTFIDF):利用文檔頻率(DF)去掉低頻詞獲取特征空間后，利用領(lǐng)域術(shù)語與特征詞之間的相關(guān)性對特征詞權(quán)重進(jìn)行調(diào)整，在有限的特征空間內(nèi)對特征詞權(quán)重進(jìn)行調(diào)整進(jìn)而改進(jìn)文本分類效果。在此方法中特征詞權(quán)重的調(diào)整是借助于"知網(wǎng)"來計(jì)算特征詞與領(lǐng)域術(shù)語之間的相似度來實(shí)現(xiàn)。"知網(wǎng)"HowNet是一部通用常識(shí)資源，其描述了漢語和英語的詞語所代表的概念，揭示概念與概念之間以及概念所具有的屬性和屬性之間的關(guān)系。采用"知網(wǎng)"的概念描述語言KDML規(guī)則，對云南旅游領(lǐng)域的2012個(gè)概念進(jìn)行了精確描述，如概念"玉龍雪山"和"麗江"的精確描述如下N0.=141008W—c二玉龍雪山G_C=NE一C—艮漂亮W—E=YulongxueshanG—E=NE—E=~isabeautifulplaceDEF=PLACEI地方，PROPERNAMEI專，(SCENEI景區(qū))，(LIJIANGI麗江)，(YUNNAN|云南)；NO.=141001W—。=麗江GC=NE—O很漂亮W—E=LijiangG_E=NE—E=~isbeautifulplaceDEF:PLACEI地方，PROPERNAMEI專，CITYI市，(YUNNANI云南)；通過"知網(wǎng)"概念描述方法，將領(lǐng)域詞匯在"知網(wǎng)"中建立聯(lián)系。將沒有被選擇作為特征詞的低頻領(lǐng)域術(shù)語，對文本分類的貢獻(xiàn)體現(xiàn)于特征空間中和這些領(lǐng)域術(shù)語有相關(guān)性的特征詞的權(quán)重上。如將"玉龍雪山"等這些沒有被選擇作為特征詞的領(lǐng)域術(shù)語，對文本分類的貢獻(xiàn)體現(xiàn)于"麗江"等等這些經(jīng)過權(quán)重調(diào)整的特征詞。權(quán)重調(diào)整方法采用了中國科學(xué)院計(jì)算所劉群教授等發(fā)表在《第三屆中文詞匯語義學(xué)研討會(huì)》上的"基于《知網(wǎng)》的詞匯語義相似度計(jì)算"中提出的基于《知網(wǎng)》的詞匯語義相似度計(jì)算方法，其中TFIDF表示沒有經(jīng)過權(quán)值調(diào)整時(shí)特征空間中特征詞的權(quán)重，TFn表示文本中出現(xiàn)的第n個(gè)與特征詞相似度大于^的領(lǐng)域詞的詞頻，^表示文本中出現(xiàn)的領(lǐng)域詞的領(lǐng)域內(nèi)文檔頻率，^表示文本中出現(xiàn)的領(lǐng)域詞的非領(lǐng)域內(nèi)文檔頻率，^表示全部文檔數(shù)，表示領(lǐng)域詞詞和特征詞的相似度。步驟a4:領(lǐng)域文本分類模型構(gòu)建對文檔進(jìn)行訓(xùn)練和分類前，把文檔表示成計(jì)算機(jī)可以處理的形式。文本被表示成<label><indexl>:<valuel><index2>:<value2>...的格式。其中〈label〉是訓(xùn)練數(shù)據(jù)集的目標(biāo)值，對于分類，它是標(biāo)識(shí)某類的整數(shù)，在實(shí)驗(yàn)中領(lǐng)域文本即云南旅游領(lǐng)域文本的目標(biāo)值設(shè)為+1，非領(lǐng)域文本包括復(fù)旦大學(xué)語料庫中十個(gè)類別的文本的目標(biāo)值設(shè)為-l;<indeX>是以l開始的整數(shù)，可以是不連續(xù)的，表示在一篇文檔中出現(xiàn)第幾個(gè)特征項(xiàng)；〈value〉為實(shí)數(shù)，在此設(shè)為該特征項(xiàng)的權(quán)重。通過以上幾種方法可以對每個(gè)訓(xùn)練和測試文本構(gòu)建出一個(gè)表示文本的特征向量，并通過國立臺(tái)灣大學(xué)LIBSVM接口實(shí)現(xiàn)訓(xùn)練和分類。步驟a5:針對云南旅游領(lǐng)域利用文本分類模型進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)采用DF方法選擇特征空間，選取了文檔頻率較大的前1000個(gè)詞做為特征空間。分別采用改進(jìn)TFIDF、DTFIDF方法、WTFIDF方法進(jìn)行特征空間選擇和特征權(quán)重計(jì)算。實(shí)驗(yàn)訓(xùn)練了一個(gè)兩類分類器，實(shí)現(xiàn)領(lǐng)域文本和非領(lǐng)域文本分類，特征詞的權(quán)重計(jì)算方法采用以下公式進(jìn)行計(jì)算:<formula>formulaseeoriginaldocumentpage9</formula>表1為分別采用不同特征空間及特征權(quán)重計(jì)算方法文本分類實(shí)驗(yàn)結(jié)果<table>tableseeoriginaldocumentpage10</column></row><table>以上數(shù)據(jù)可以看出，采用TFIDF方法，領(lǐng)域內(nèi)文本分類準(zhǔn)確率為90.5%,采用DTFIDF方法，領(lǐng)域內(nèi)文本分類準(zhǔn)確率比TFIDF方法提高了3%，所有文本的分類準(zhǔn)確率比改進(jìn)TFIDF方法提高了1.75°/。，采用WTFIDF方法，領(lǐng)域內(nèi)文本分類準(zhǔn)確率比TFIDF方法提高了7.5%，所有文本的分類準(zhǔn)確率比改進(jìn)TFIDF提高了4%。但是非領(lǐng)域文本的準(zhǔn)確率沒有很明顯的提高。以上數(shù)據(jù)說明提出的借助領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法對領(lǐng)域文本分類的準(zhǔn)確率的改進(jìn)是很大的。通過以上實(shí)驗(yàn)和實(shí)例數(shù)據(jù)分析，僅采用TFIDF方法選擇特征詞進(jìn)行實(shí)驗(yàn)，旅游領(lǐng)域的一些低頻特征詞并沒有被選擇，一些含有領(lǐng)域詞的文本被表示為向量形式后一些具有強(qiáng)的類別區(qū)分能力的維就被忽略，文本分類結(jié)果不太理想。采用DTFIDF方法，含有領(lǐng)域詞的文本中的具有類別區(qū)分能力的維被體現(xiàn)出來，分類的效果有了改善。但是引入領(lǐng)域詞后，特征空間維數(shù)變大，造成數(shù)據(jù)稀疏，分類性能也受到一定的影響。采用WTFIDF方法，特征空間維數(shù)限定的情況下，沒有出現(xiàn)在特征空間中的領(lǐng)域詞，對文本分類的貢獻(xiàn)體現(xiàn)于與領(lǐng)域詞具有相關(guān)性的特征詞的權(quán)重中。分類準(zhǔn)確率有了一定的提高。說明這種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法在領(lǐng)域文本和非領(lǐng)域文本的分類中是可實(shí)用的。權(quán)利要求1.一種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法，其特征在于按以下步驟進(jìn)行(1)收集領(lǐng)域文本和非領(lǐng)域文本作為訓(xùn)練語料和測試語料；(2)文本的預(yù)處理分詞，去除停用詞，詞頻統(tǒng)計(jì)，文檔頻率統(tǒng)計(jì)；首先對文本進(jìn)行中文分詞處理，采用中科院計(jì)算所的分詞系統(tǒng)接口實(shí)現(xiàn)，并在此基礎(chǔ)上借助于領(lǐng)域詞庫，進(jìn)行領(lǐng)域詞分詞處理，并進(jìn)行領(lǐng)域詞標(biāo)識(shí)，文本分詞完成后，去掉文本中經(jīng)常出現(xiàn)的“了”、“呢”、“的”、“怎樣”等停用詞，然后掃描文檔，統(tǒng)計(jì)出每個(gè)詞的詞頻、領(lǐng)域內(nèi)文檔頻率及非領(lǐng)域內(nèi)文檔頻率；(3)去掉DF值小于一定閾值的詞選取分類特征空間，并采用TFIDF方法進(jìn)行特征權(quán)重計(jì)算；在文本預(yù)處理完成后，初步利用文檔頻率去掉低頻詞，選取1000個(gè)特征詞，構(gòu)成分類特征空間；特征詞的權(quán)重計(jì)算采用改進(jìn)TFIDF＝TF×log(m÷(m+k)×N)方法，其中TF表示某一特征項(xiàng)的詞頻，m表示該特征項(xiàng)的領(lǐng)域內(nèi)文檔頻率，k表示該特征項(xiàng)的非領(lǐng)域內(nèi)文檔頻率，N表示全部文檔數(shù)；(4)在步驟(3)的基礎(chǔ)上選取特征空間并擴(kuò)展領(lǐng)域術(shù)語到特征空間，形成分類特征空間并采用改進(jìn)TFIDF方法進(jìn)行特征權(quán)重計(jì)算；即將領(lǐng)域詞庫中出現(xiàn)的所有領(lǐng)域術(shù)語直接擴(kuò)展到分類特征空間中；(5)在步驟(3)的基礎(chǔ)上選取分類特征空間，并利用改進(jìn)TFIDF方法結(jié)合領(lǐng)域知識(shí)關(guān)系對特征權(quán)重進(jìn)行計(jì)算和調(diào)整；即通過DF方法獲取特征空間后，利用“知網(wǎng)”中領(lǐng)域術(shù)語與特征詞之間的相關(guān)性對特征詞權(quán)重進(jìn)行調(diào)整，在有限的特征空間內(nèi)對特征詞權(quán)重進(jìn)行調(diào)整進(jìn)而改進(jìn)文本分類效果；(6)利用不同特征空間選擇及特征權(quán)重計(jì)算方法，用SVM機(jī)器學(xué)習(xí)算法，訓(xùn)練文本分類器，構(gòu)建領(lǐng)域文本分類模型，并對領(lǐng)域文本進(jìn)行文本分類實(shí)驗(yàn)驗(yàn)證。2.根據(jù)權(quán)利要求1所述的基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法，其特征在于，歩驟(5)中所述的利用改進(jìn)TFIDF方法結(jié)合領(lǐng)域知識(shí)關(guān)系對文本中出現(xiàn)而特征空間中沒有出現(xiàn)的領(lǐng)域術(shù)語與特征空間中的特征詞進(jìn)行相似度計(jì)算，對相似度大于一定閾值的特征詞權(quán)重進(jìn)行調(diào)整。3.根據(jù)權(quán)利要求1所述的基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法，其特征在于步驟(5)中所述的利用"知網(wǎng)"中領(lǐng)域術(shù)語與特征詞之間的相關(guān)性對特征詞權(quán)重進(jìn)行調(diào)整，詞匯語義相似度計(jì)算方法<formula>formulaseeoriginaldocumentpage3</formula>特征詞的權(quán)重計(jì)算方法采用以下公式進(jìn)行計(jì)算<formula>formulaseeoriginaldocumentpage3</formula>其中TFIDF表示沒有經(jīng)過權(quán)值調(diào)整時(shí)特征空間中特征詞的權(quán)重，TFn表示文本中出現(xiàn)的第n個(gè)與特征詞相似度大于y的領(lǐng)域術(shù)語的詞頻，m表示文本中出現(xiàn)的領(lǐng)域術(shù)語的領(lǐng)域內(nèi)文檔頻率，A:表示文本中出現(xiàn)的領(lǐng)域術(shù)語的非領(lǐng)域內(nèi)文檔頻率，W表示全部文檔數(shù)，S/w(&，表示領(lǐng)域術(shù)語和特征詞的相似度。4.根據(jù)權(quán)利要求1所述的基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法，其特征在于，在步驟(6)所述的訓(xùn)練文本分類器中，分別對步驟(3)、(4)、(5)中提到的三種不同的特征空間選擇及特征權(quán)重計(jì)算方法進(jìn)行了領(lǐng)域文本分類模型的構(gòu)建。全文摘要本發(fā)明涉及人工智能
技術(shù)領(lǐng)域：
，特別是一種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法。該方法結(jié)合樣本統(tǒng)計(jì)與領(lǐng)域術(shù)語構(gòu)造領(lǐng)域分類特征空間，利用領(lǐng)域內(nèi)部知識(shí)關(guān)系，計(jì)算術(shù)語間的相似度，依此來調(diào)整分類特征向量相應(yīng)特征維權(quán)重。并采用支持向量機(jī)學(xué)習(xí)算法，建立領(lǐng)域文本分類模型，實(shí)現(xiàn)領(lǐng)域文本分類。云南旅游領(lǐng)域與非旅游領(lǐng)域文本分類實(shí)驗(yàn)結(jié)果表明，該方法分類準(zhǔn)確率比改進(jìn)TFIDF特征權(quán)重方法的文本分類效果提高了4個(gè)百分點(diǎn)。文檔編號(hào)G06F17/30GK101290626SQ20081005851公開日2008年10月22日申請日期2008年6月12日優(yōu)先權(quán)日2008年6月12日發(fā)明者舟萬,余正濤,向鳳紅,新熊,露韓申請人:昆明理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余正濤;韓露;向鳳紅;萬舟;熊新
技術(shù)所有人：昆明理工大學(xué)
我是此專利的發(fā)明人

上一篇：基于信息增益改進(jìn)貝葉斯詞義消歧方法
上一篇：一種漢字輸入方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

特征權(quán)重計(jì)算方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法