專利名稱::基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及人工智能
技術(shù)領(lǐng)域:
,特別是一種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法。
背景技術(shù):
:文本分類是當(dāng)前自然語言處理研究的熱點(diǎn)問題,如何識(shí)別一個(gè)文本是否屬于某一特定領(lǐng)域文本問題,是當(dāng)前垂直搜索引擎、問答系統(tǒng)等研究的關(guān)鍵問題。通常在文本分類中,特征選擇是最重要的一個(gè)部分,其直接影響文本分類的準(zhǔn)確率。常規(guī)的特征選擇方法大多采用各種評(píng)估函數(shù)如文檔頻率(DocumentFrequency,DF)、信息增益(InformationGain,IG)、互信息(MutualInforma-tion,MI)、統(tǒng)計(jì)(CHI)等進(jìn)行特征提取。這些特征選擇方法都是基于統(tǒng)計(jì)學(xué)算法,在獲取特征空間時(shí)通常采用大量的語料,經(jīng)過統(tǒng)計(jì)計(jì)算和降維處理選擇特征空間。這些特征選取方法可能會(huì)導(dǎo)致選擇出來的一些統(tǒng)計(jì)特征對分類貢獻(xiàn)較小,反而會(huì)降低分類的準(zhǔn)確率;而對于領(lǐng)域文本分類來說,文本中經(jīng)常會(huì)出現(xiàn)一些領(lǐng)域術(shù)語,這些領(lǐng)域術(shù)語對領(lǐng)域文本分類的區(qū)分度較高,然而利用常規(guī)的特征選擇方法,這些對分類效果有重要作用的特征可能獲得較低的權(quán)重,甚至被作為噪聲被去掉,這樣將大大影響了分類的準(zhǔn)確率。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種基于領(lǐng)域知識(shí)關(guān)系的領(lǐng)域文本分類特征選擇及權(quán)重計(jì)算方法。本發(fā)明提出了并實(shí)現(xiàn)了一種基于領(lǐng)域知識(shí)關(guān)系的領(lǐng)域文本分類特征選擇及權(quán)重計(jì)算方法,該方法結(jié)合樣本統(tǒng)計(jì)與領(lǐng)域術(shù)語構(gòu)造領(lǐng)域分類特征空間,利用領(lǐng)域內(nèi)部知識(shí)關(guān)系,計(jì)算術(shù)語間的相似度,依此來調(diào)整分類特征向量相應(yīng)特征維權(quán)重,并采用支持向量機(jī)學(xué)習(xí)算法,建立領(lǐng)域文本分類模型,實(shí)現(xiàn)領(lǐng)域文本分類。云南旅游領(lǐng)域與非旅游領(lǐng)域文本分類實(shí)驗(yàn)結(jié)果表明,該方法分類準(zhǔn)確率比改進(jìn)TFIDF方法提高4個(gè)百分點(diǎn)。發(fā)明技術(shù)方案如下基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法進(jìn)行文本分類的步驟(1)實(shí)驗(yàn)語料收集收集領(lǐng)域文本和非領(lǐng)域文本作為訓(xùn)練語料和測試語料,實(shí)驗(yàn)采用從網(wǎng)絡(luò)隨機(jī)搜索的云南旅游領(lǐng)域文檔700篇作為領(lǐng)域訓(xùn)練文本,復(fù)旦大學(xué)語料庫文檔700篇(環(huán)境、計(jì)算機(jī)、交通、教育、經(jīng)濟(jì)、軍事、體育、醫(yī)藥、藝術(shù)、政治文檔各70篇)作為非領(lǐng)域訓(xùn)練文本,測試語料采用從網(wǎng)絡(luò)隨機(jī)搜索的云南旅游領(lǐng)域的文檔200篇作為領(lǐng)域測試文本,復(fù)旦大學(xué)語料庫文檔200篇(環(huán)境、計(jì)算機(jī)、交通、教育、經(jīng)濟(jì)、軍事、體育、醫(yī)藥、藝術(shù)、政治文檔各20篇)作為非領(lǐng)域測試文本。(2)文本預(yù)處理文本的預(yù)處理包括,分詞,去除停用詞(stopwords),詞頻統(tǒng)計(jì),文檔頻率統(tǒng)計(jì)等。首先對文本進(jìn)行中文分詞處理,采用中科院計(jì)算所的分詞系統(tǒng)接口實(shí)現(xiàn),并在此基礎(chǔ)上借助于領(lǐng)域詞庫,進(jìn)行領(lǐng)域詞分詞處理,并進(jìn)行領(lǐng)域詞標(biāo)識(shí)。文本分詞完成后,去掉文本中經(jīng)常出現(xiàn)的"了"、"呢"、"的"、"怎樣"等停用詞。然后掃描文檔,統(tǒng)計(jì)出每個(gè)詞的詞頻、領(lǐng)域內(nèi)文檔頻率及非領(lǐng)域內(nèi)文檔頻率。G)TFIDF特征權(quán)重計(jì)算方法在文本預(yù)處理完成后,初步利用文檔頻率(DF)去掉低頻詞,選取1000個(gè)特征詞,構(gòu)成分類特征空間。特征詞的權(quán)重計(jì)算采用重慶大學(xué)計(jì)算機(jī)學(xué)院張玉芳副教授等2006年發(fā)表在《計(jì)算機(jī)工程》上的"基于文本分類TFIDF方法的改進(jìn)與應(yīng)用"中提出的改進(jìn)后的TF/Z)F方法,W^^-^x^(附+(附+QxW),其中rF表示某一特征項(xiàng)的詞頻,附表示該特征項(xiàng)的領(lǐng)域內(nèi)文檔頻率,^表示該特征項(xiàng)的非領(lǐng)域內(nèi)文檔頻率,^表示全部文檔數(shù)。(4)擴(kuò)展領(lǐng)域術(shù)語特征選取及特征權(quán)重計(jì)算方法(DTFIDF):擴(kuò)展領(lǐng)域術(shù)語特征選取權(quán)重計(jì)算方法(DTFIDF)是將領(lǐng)域詞庫中出現(xiàn)的所有領(lǐng)域術(shù)語直接擴(kuò)展到分類特征空間中,并采用改進(jìn)TFIDF方法進(jìn)行特征權(quán)重計(jì)算。(5)借助領(lǐng)域知識(shí)的特征選取及特征權(quán)重計(jì)算方法(WTFIDF):通過DF方法獲取特征空間后,利用領(lǐng)域術(shù)語與特征詞之間的相關(guān)性對特征詞權(quán)重進(jìn)行調(diào)整,在有限的特征空間內(nèi)對特征詞權(quán)重進(jìn)行調(diào)整進(jìn)而改進(jìn)文本分類效果。權(quán)重調(diào)整方法采用了中國科學(xué)院計(jì)算所劉群教授等發(fā)表在《第三屆中文詞匯語義學(xué)研討會(huì)》上的"基于《知網(wǎng)》的詞匯語義相似度計(jì)算"中提出的基于《知網(wǎng)》的詞匯語義相似度計(jì)算方法,4i,=1)=1特征詞的權(quán)重計(jì)算方法采用以下公式進(jìn)行計(jì)算其中TFIDF表示沒有經(jīng)過權(quán)值調(diào)整時(shí)特征空間中特征詞的權(quán)重,TFn表示文本中出現(xiàn)的第n個(gè)與特征詞相似度大于^的領(lǐng)域詞的詞頻,w表示文本中出現(xiàn)的領(lǐng)域詞的領(lǐng)域內(nèi)文檔頻率,^表示文本中出現(xiàn)的領(lǐng)域詞的非領(lǐng)域內(nèi)文檔頻率,^表示全部文檔數(shù),表示領(lǐng)域詞詞和特征詞的相似度。(6)領(lǐng)域文本分類模型構(gòu)建-分類算法SVM-采用了支持向量機(jī)(SVM)算法進(jìn)行領(lǐng)域文本分類,SVM是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)模型,它在解決小樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢,由于SVM的特點(diǎn),其在小樣本分類問題上的效果已經(jīng)在文本分類、手寫體識(shí)別、自然語言處理等方面得到了驗(yàn)證。SVM的原理是通過事先選擇的非線性映射(核函數(shù))將輸入向量X映射到一個(gè)高維特征空間,在這個(gè)空間構(gòu)造最優(yōu)分類超平面,以將兩類樣本無錯(cuò)誤地分開,而且要使兩類的分類空隙最大,前者保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,后者使推廣性的界中的置信范圍最小(即分類器的結(jié)構(gòu)風(fēng)險(xiǎn)最小),這樣可使在原始空間非線性可分的問題變?yōu)楦呔S空間中線性可分的問題。文本向量表示與分類對文檔進(jìn)行訓(xùn)練和分類前,把文檔表示成計(jì)算機(jī)可以處理的形式。文本被表示成<label><indexl>:<valuel><index2>:<value2>...的格式。其中〈label〉是訓(xùn)練數(shù)據(jù)集的目標(biāo)值,對于分類,它是標(biāo)識(shí)某類的整數(shù),在實(shí)驗(yàn)中領(lǐng)域文本即云南旅游領(lǐng)域文本的目標(biāo)值設(shè)為+1,非領(lǐng)域文本包括復(fù)旦大學(xué)語料庫中十個(gè)類別的文本的目標(biāo)值設(shè)為-l;<index>是以l開始的整數(shù),可以是不連續(xù)的,表示在一篇文檔中出現(xiàn)第幾個(gè)特征項(xiàng);〈value〉為實(shí)數(shù),在此設(shè)為該特征項(xiàng)的權(quán)重。通過以上幾種方法可以對每個(gè)訓(xùn)練和測試文本構(gòu)建出一個(gè)表示文本的特征向量,并通過國立臺(tái)灣大學(xué)LIBSVM接口實(shí)現(xiàn)訓(xùn)練和分類。用本發(fā)明的方法對云南旅游領(lǐng)域與非旅游領(lǐng)域文本分類實(shí)驗(yàn)結(jié)果表明,采用基于領(lǐng)域知識(shí)關(guān)系的領(lǐng)域文本分類特征選擇及權(quán)重計(jì)算方法進(jìn)行文本分類的準(zhǔn)確率比改進(jìn)TFIDF方法提高4個(gè)百分點(diǎn)。圖1是本發(fā)明的基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法的流程圖。具體實(shí)施例方式針對提出的以上方法在云南旅游領(lǐng)域進(jìn)行了實(shí)驗(yàn)驗(yàn)證,具體步驟如圖l:步驟al:實(shí)驗(yàn)訓(xùn)練語料選取了云南旅游領(lǐng)域文檔700篇作為領(lǐng)域訓(xùn)練文本,復(fù)旦大學(xué)語料庫文檔700篇(環(huán)境、計(jì)算機(jī)、交通、教育、經(jīng)濟(jì)、軍事、體育、醫(yī)藥、藝術(shù)、政治文檔各70篇)作為非領(lǐng)域訓(xùn)練文本。測試語料采用了云南旅游領(lǐng)域的文檔200篇作為領(lǐng)域測試文本,復(fù)旦大學(xué)語料庫文檔200篇(環(huán)境、計(jì)算機(jī)、交通、教育、經(jīng)濟(jì)、軍事、體育、醫(yī)藥、藝術(shù)、政治文檔各20篇)作為非領(lǐng)域測試文本。步驟a2:文本預(yù)處理,包括,分詞,去除停用詞(stopwords),詞頻統(tǒng)計(jì),文檔頻率統(tǒng)計(jì)等。首先對文本進(jìn)行中文分詞處理,采用中科院計(jì)算所的分詞系統(tǒng)接口實(shí)現(xiàn),并在此基礎(chǔ)上借助于領(lǐng)域詞庫,進(jìn)行領(lǐng)域詞分詞處理,并進(jìn)行領(lǐng)域詞標(biāo)識(shí)。文本分詞完成后,去掉文本中經(jīng)常出現(xiàn)的"了"、"呢"、"的"、"怎樣"等停用詞。然后掃描文檔,統(tǒng)計(jì)出每個(gè)詞的詞頻、領(lǐng)域內(nèi)文檔頻率及非領(lǐng)域內(nèi)文檔頻率。步驟a3:采用不同特征空間選擇及特征權(quán)重計(jì)算方法進(jìn)行特征空間選擇及特征權(quán)重計(jì)算。(1)TFIDF特征權(quán)重計(jì)算方法初步利用文檔頻率(DF)去掉低頻詞,選取1000個(gè)特征詞,構(gòu)成分類特征空間。特征詞的權(quán)重計(jì)算采用重慶大學(xué)計(jì)算機(jī)學(xué)院張玉芳副教授改進(jìn)后的7F/DF方法,7F/£^=7^xlQg(W+(m+"xA0,其中TF表示某一特征項(xiàng)的詞頻,w表示該特征項(xiàng)的領(lǐng)域內(nèi)文檔頻率,^表示該特征項(xiàng)的非領(lǐng)域內(nèi)文檔頻率,^表示全部文檔數(shù)。采用該方法一些出現(xiàn)頻率較低的對領(lǐng)域文本分類卻有較強(qiáng)的區(qū)分度領(lǐng)域術(shù)語,在特征選擇和權(quán)值計(jì)算的時(shí)候很可能被忽略或者賦予一個(gè)很小的權(quán)值。(2)擴(kuò)展領(lǐng)域術(shù)語特征選取及特征權(quán)重計(jì)算方法(DTFIDF):擴(kuò)展領(lǐng)域術(shù)語特征選取權(quán)重計(jì)算方法(DTFIDF)是將領(lǐng)域詞庫中出現(xiàn)的所有領(lǐng)域術(shù)語直接擴(kuò)展到分類特征空間中。這樣特征空間的構(gòu)成就是利用文檔頻率(DF)去掉低頻詞后獲取的特征詞與領(lǐng)域詞庫中的領(lǐng)域術(shù)語合并得到,特征詞權(quán)重計(jì)算采用THDF方法。這種方法在特征空間選取時(shí),不會(huì)將類別區(qū)分度高的領(lǐng)域術(shù)語去掉,但會(huì)增大特征空間的維數(shù),導(dǎo)致數(shù)據(jù)稀疏,可能會(huì)在一定程度上影響分類效果。(3)借助領(lǐng)域知識(shí)的特征選取及特征權(quán)重計(jì)算方法(WTFIDF):利用文檔頻率(DF)去掉低頻詞獲取特征空間后,利用領(lǐng)域術(shù)語與特征詞之間的相關(guān)性對特征詞權(quán)重進(jìn)行調(diào)整,在有限的特征空間內(nèi)對特征詞權(quán)重進(jìn)行調(diào)整進(jìn)而改進(jìn)文本分類效果。在此方法中特征詞權(quán)重的調(diào)整是借助于"知網(wǎng)"來計(jì)算特征詞與領(lǐng)域術(shù)語之間的相似度來實(shí)現(xiàn)。"知網(wǎng)"HowNet是一部通用常識(shí)資源,其描述了漢語和英語的詞語所代表的概念,揭示概念與概念之間以及概念所具有的屬性和屬性之間的關(guān)系。采用"知網(wǎng)"的概念描述語言KDML規(guī)則,對云南旅游領(lǐng)域的2012個(gè)概念進(jìn)行了精確描述,如概念"玉龍雪山"和"麗江"的精確描述如下N0.=141008W—c二玉龍雪山G_C=NE一C—艮漂亮W—E=YulongxueshanG—E=NE—E=~isabeautifulplaceDEF=PLACEI地方,PROPERNAMEI專,(SCENEI景區(qū)),(LIJIANGI麗江),(YUNNAN|云南);NO.=141001W—。=麗江GC=NE—O很漂亮W—E=LijiangG_E=NE—E=~isbeautifulplaceDEF:PLACEI地方,PROPERNAMEI專,CITYI市,(YUNNANI云南);通過"知網(wǎng)"概念描述方法,將領(lǐng)域詞匯在"知網(wǎng)"中建立聯(lián)系。將沒有被選擇作為特征詞的低頻領(lǐng)域術(shù)語,對文本分類的貢獻(xiàn)體現(xiàn)于特征空間中和這些領(lǐng)域術(shù)語有相關(guān)性的特征詞的權(quán)重上。如將"玉龍雪山"等這些沒有被選擇作為特征詞的領(lǐng)域術(shù)語,對文本分類的貢獻(xiàn)體現(xiàn)于"麗江"等等這些經(jīng)過權(quán)重調(diào)整的特征詞。權(quán)重調(diào)整方法采用了中國科學(xué)院計(jì)算所劉群教授等發(fā)表在《第三屆中文詞匯語義學(xué)研討會(huì)》上的"基于《知網(wǎng)》的詞匯語義相似度計(jì)算"中提出的基于《知網(wǎng)》的詞匯語義相似度計(jì)算方法,其中TFIDF表示沒有經(jīng)過權(quán)值調(diào)整時(shí)特征空間中特征詞的權(quán)重,TFn表示文本中出現(xiàn)的第n個(gè)與特征詞相似度大于^的領(lǐng)域詞的詞頻,^表示文本中出現(xiàn)的領(lǐng)域詞的領(lǐng)域內(nèi)文檔頻率,^表示文本中出現(xiàn)的領(lǐng)域詞的非領(lǐng)域內(nèi)文檔頻率,^表示全部文檔數(shù),表示領(lǐng)域詞詞和特征詞的相似度。步驟a4:領(lǐng)域文本分類模型構(gòu)建對文檔進(jìn)行訓(xùn)練和分類前,把文檔表示成計(jì)算機(jī)可以處理的形式。文本被表示成<label><indexl>:<valuel><index2>:<value2>...的格式。其中〈label〉是訓(xùn)練數(shù)據(jù)集的目標(biāo)值,對于分類,它是標(biāo)識(shí)某類的整數(shù),在實(shí)驗(yàn)中領(lǐng)域文本即云南旅游領(lǐng)域文本的目標(biāo)值設(shè)為+1,非領(lǐng)域文本包括復(fù)旦大學(xué)語料庫中十個(gè)類別的文本的目標(biāo)值設(shè)為-l;<indeX>是以l開始的整數(shù),可以是不連續(xù)的,表示在一篇文檔中出現(xiàn)第幾個(gè)特征項(xiàng);〈value〉為實(shí)數(shù),在此設(shè)為該特征項(xiàng)的權(quán)重。通過以上幾種方法可以對每個(gè)訓(xùn)練和測試文本構(gòu)建出一個(gè)表示文本的特征向量,并通過國立臺(tái)灣大學(xué)LIBSVM接口實(shí)現(xiàn)訓(xùn)練和分類。步驟a5:針對云南旅游領(lǐng)域利用文本分類模型進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)采用DF方法選擇特征空間,選取了文檔頻率較大的前1000個(gè)詞做為特征空間。分別采用改進(jìn)TFIDF、DTFIDF方法、WTFIDF方法進(jìn)行特征空間選擇和特征權(quán)重計(jì)算。實(shí)驗(yàn)訓(xùn)練了一個(gè)兩類分類器,實(shí)現(xiàn)領(lǐng)域文本和非領(lǐng)域文本分類,特征詞的權(quán)重計(jì)算方法采用以下公式進(jìn)行計(jì)算:<formula>formulaseeoriginaldocumentpage9</formula>表1為分別采用不同特征空間及特征權(quán)重計(jì)算方法文本分類實(shí)驗(yàn)結(jié)果<table>tableseeoriginaldocumentpage10</column></row><table>以上數(shù)據(jù)可以看出,采用TFIDF方法,領(lǐng)域內(nèi)文本分類準(zhǔn)確率為90.5%,采用DTFIDF方法,領(lǐng)域內(nèi)文本分類準(zhǔn)確率比TFIDF方法提高了3%,所有文本的分類準(zhǔn)確率比改進(jìn)TFIDF方法提高了1.75°/。,采用WTFIDF方法,領(lǐng)域內(nèi)文本分類準(zhǔn)確率比TFIDF方法提高了7.5%,所有文本的分類準(zhǔn)確率比改進(jìn)TFIDF提高了4%。但是非領(lǐng)域文本的準(zhǔn)確率沒有很明顯的提高。以上數(shù)據(jù)說明提出的借助領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法對領(lǐng)域文本分類的準(zhǔn)確率的改進(jìn)是很大的。通過以上實(shí)驗(yàn)和實(shí)例數(shù)據(jù)分析,僅采用TFIDF方法選擇特征詞進(jìn)行實(shí)驗(yàn),旅游領(lǐng)域的一些低頻特征詞并沒有被選擇,一些含有領(lǐng)域詞的文本被表示為向量形式后一些具有強(qiáng)的類別區(qū)分能力的維就被忽略,文本分類結(jié)果不太理想。采用DTFIDF方法,含有領(lǐng)域詞的文本中的具有類別區(qū)分能力的維被體現(xiàn)出來,分類的效果有了改善。但是引入領(lǐng)域詞后,特征空間維數(shù)變大,造成數(shù)據(jù)稀疏,分類性能也受到一定的影響。采用WTFIDF方法,特征空間維數(shù)限定的情況下,沒有出現(xiàn)在特征空間中的領(lǐng)域詞,對文本分類的貢獻(xiàn)體現(xiàn)于與領(lǐng)域詞具有相關(guān)性的特征詞的權(quán)重中。分類準(zhǔn)確率有了一定的提高。說明這種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法在領(lǐng)域文本和非領(lǐng)域文本的分類中是可實(shí)用的。權(quán)利要求1.一種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法,其特征在于按以下步驟進(jìn)行(1)收集領(lǐng)域文本和非領(lǐng)域文本作為訓(xùn)練語料和測試語料;(2)文本的預(yù)處理分詞,去除停用詞,詞頻統(tǒng)計(jì),文檔頻率統(tǒng)計(jì);首先對文本進(jìn)行中文分詞處理,采用中科院計(jì)算所的分詞系統(tǒng)接口實(shí)現(xiàn),并在此基礎(chǔ)上借助于領(lǐng)域詞庫,進(jìn)行領(lǐng)域詞分詞處理,并進(jìn)行領(lǐng)域詞標(biāo)識(shí),文本分詞完成后,去掉文本中經(jīng)常出現(xiàn)的“了”、“呢”、“的”、“怎樣”等停用詞,然后掃描文檔,統(tǒng)計(jì)出每個(gè)詞的詞頻、領(lǐng)域內(nèi)文檔頻率及非領(lǐng)域內(nèi)文檔頻率;(3)去掉DF值小于一定閾值的詞選取分類特征空間,并采用TFIDF方法進(jìn)行特征權(quán)重計(jì)算;在文本預(yù)處理完成后,初步利用文檔頻率去掉低頻詞,選取1000個(gè)特征詞,構(gòu)成分類特征空間;特征詞的權(quán)重計(jì)算采用改進(jìn)TFIDF=TF×log(m÷(m+k)×N)方法,其中TF表示某一特征項(xiàng)的詞頻,m表示該特征項(xiàng)的領(lǐng)域內(nèi)文檔頻率,k表示該特征項(xiàng)的非領(lǐng)域內(nèi)文檔頻率,N表示全部文檔數(shù);(4)在步驟(3)的基礎(chǔ)上選取特征空間并擴(kuò)展領(lǐng)域術(shù)語到特征空間,形成分類特征空間并采用改進(jìn)TFIDF方法進(jìn)行特征權(quán)重計(jì)算;即將領(lǐng)域詞庫中出現(xiàn)的所有領(lǐng)域術(shù)語直接擴(kuò)展到分類特征空間中;(5)在步驟(3)的基礎(chǔ)上選取分類特征空間,并利用改進(jìn)TFIDF方法結(jié)合領(lǐng)域知識(shí)關(guān)系對特征權(quán)重進(jìn)行計(jì)算和調(diào)整;即通過DF方法獲取特征空間后,利用“知網(wǎng)”中領(lǐng)域術(shù)語與特征詞之間的相關(guān)性對特征詞權(quán)重進(jìn)行調(diào)整,在有限的特征空間內(nèi)對特征詞權(quán)重進(jìn)行調(diào)整進(jìn)而改進(jìn)文本分類效果;(6)利用不同特征空間選擇及特征權(quán)重計(jì)算方法,用SVM機(jī)器學(xué)習(xí)算法,訓(xùn)練文本分類器,構(gòu)建領(lǐng)域文本分類模型,并對領(lǐng)域文本進(jìn)行文本分類實(shí)驗(yàn)驗(yàn)證。2.根據(jù)權(quán)利要求1所述的基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法,其特征在于,歩驟(5)中所述的利用改進(jìn)TFIDF方法結(jié)合領(lǐng)域知識(shí)關(guān)系對文本中出現(xiàn)而特征空間中沒有出現(xiàn)的領(lǐng)域術(shù)語與特征空間中的特征詞進(jìn)行相似度計(jì)算,對相似度大于一定閾值的特征詞權(quán)重進(jìn)行調(diào)整。3.根據(jù)權(quán)利要求1所述的基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法,其特征在于步驟(5)中所述的利用"知網(wǎng)"中領(lǐng)域術(shù)語與特征詞之間的相關(guān)性對特征詞權(quán)重進(jìn)行調(diào)整,詞匯語義相似度計(jì)算方法<formula>formulaseeoriginaldocumentpage3</formula>特征詞的權(quán)重計(jì)算方法采用以下公式進(jìn)行計(jì)算<formula>formulaseeoriginaldocumentpage3</formula>其中TFIDF表示沒有經(jīng)過權(quán)值調(diào)整時(shí)特征空間中特征詞的權(quán)重,TFn表示文本中出現(xiàn)的第n個(gè)與特征詞相似度大于y的領(lǐng)域術(shù)語的詞頻,m表示文本中出現(xiàn)的領(lǐng)域術(shù)語的領(lǐng)域內(nèi)文檔頻率,A:表示文本中出現(xiàn)的領(lǐng)域術(shù)語的非領(lǐng)域內(nèi)文檔頻率,W表示全部文檔數(shù),S/w(&,表示領(lǐng)域術(shù)語和特征詞的相似度。4.根據(jù)權(quán)利要求1所述的基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法,其特征在于,在步驟(6)所述的訓(xùn)練文本分類器中,分別對步驟(3)、(4)、(5)中提到的三種不同的特征空間選擇及特征權(quán)重計(jì)算方法進(jìn)行了領(lǐng)域文本分類模型的構(gòu)建。全文摘要本發(fā)明涉及人工智能
技術(shù)領(lǐng)域:
,特別是一種基于領(lǐng)域知識(shí)的文本分類特征選擇及權(quán)重計(jì)算方法。該方法結(jié)合樣本統(tǒng)計(jì)與領(lǐng)域術(shù)語構(gòu)造領(lǐng)域分類特征空間,利用領(lǐng)域內(nèi)部知識(shí)關(guān)系,計(jì)算術(shù)語間的相似度,依此來調(diào)整分類特征向量相應(yīng)特征維權(quán)重。并采用支持向量機(jī)學(xué)習(xí)算法,建立領(lǐng)域文本分類模型,實(shí)現(xiàn)領(lǐng)域文本分類。云南旅游領(lǐng)域與非旅游領(lǐng)域文本分類實(shí)驗(yàn)結(jié)果表明,該方法分類準(zhǔn)確率比改進(jìn)TFIDF特征權(quán)重方法的文本分類效果提高了4個(gè)百分點(diǎn)。文檔編號(hào)G06F17/30GK101290626SQ20081005851公開日2008年10月22日申請日期2008年6月12日優(yōu)先權(quán)日2008年6月12日發(fā)明者舟萬,余正濤,向鳳紅,新熊,露韓申請人:昆明理工大學(xué)