專利名稱:一種對于文本智能分類的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人工智能領(lǐng)域數(shù)據(jù)挖掘的分類技術(shù),特別涉及應(yīng)用于互聯(lián)網(wǎng)產(chǎn)品中對于文本的分類的分類技術(shù)。
背景技術(shù):
互聯(lián)網(wǎng)的迅猛發(fā)展導致了網(wǎng)絡(luò)中的文本數(shù)據(jù)成指數(shù)級的增長,因此如何高效處理這些文本信息成為一個重要的研究課題。而自動分類技術(shù)作為文本信息處理中的一個重要環(huán)節(jié)引起了人們的廣泛關(guān)注。隨著我國的網(wǎng)絡(luò)普及率越來越高,網(wǎng)絡(luò)用戶越來越多,各種各樣的網(wǎng)站中蘊涵著海量的中文信息,這些信息絕大多數(shù)是以文本的形式存在著,因此能否準確地對文本進行分類具有非常重要的現(xiàn)實意義。在互聯(lián)網(wǎng)產(chǎn)品中很多地方也都使用到分類技術(shù),比如在百度知道、天涯知道等產(chǎn)品中都涉及到分類,但是這些產(chǎn)品在使用中都存在分類不準確而且分類速度慢的問題。
發(fā)明內(nèi)容
本發(fā)明針對互聯(lián)網(wǎng)上的產(chǎn)品在文本分類過程中存在分類不準確和分類速度慢等問題,提供一種對于本文的智能分類的方法。本發(fā)明的目的是可以實現(xiàn)自動的將某段文本分到某個特定的類別。本發(fā)明的另一個目的是解決文本分類不夠準確的問題和加快提取速度。為此,本發(fā)明公開了一種對于文本智能分類的方法。所述文本智能分類的方法步驟如下步驟一、準備一定數(shù)量的訓練文本,并將這些訓練文本分成多個類別;步驟二、對每一件訓練文本通過中文分詞算法進行分詞,并根據(jù)分詞的特征屬性, 計算各分詞的權(quán)重值W;步驟三、將所有訓練文本中的所有分詞的權(quán)重值統(tǒng)一進行排序,并取權(quán)重值位于前N名的N個分詞作為特征項,各特征項均具有自己的權(quán)重值Wi (i = 1 N);步驟四、將任意一件訓練文本中所有分詞與上述N個特征項進行比對,形成文本向量{al,a2, a3…ai…aN},在該文本向量中,未匹配到該件訓練文本中的任一個分詞的第 i個特征項對應(yīng)的ai值被定義為一個統(tǒng)一的數(shù)值B,而匹配到該件訓練文本中的一個分詞的第i個特征項對應(yīng)的ai值被定義為與該第i個特征項的權(quán)重值Wi相關(guān)的數(shù)值;步驟五、建立訓練文本向量數(shù)據(jù)庫,其中存儲有包含各訓練文本的識別碼、所屬類別和文本向量信息;步驟六、取待分類文本,進行中文算法分詞處理,隨后根據(jù)上述N個特征項形成文本向量;步驟七、將待分類文本的文本向量與訓練文本的文本向量進行比較,找出最相似的訓練文本,將待分類文本劃入最相似的訓練文本所屬的類別。優(yōu)選的是,所述的對文本進行智能分類的方法中,在所述步驟二中,分詞的特征屬性包括分詞的詞性、詞頻和詞長。優(yōu)選的是,所述的對文本進行智能分類的方法中,在所述步驟三中,N為1000。優(yōu)選的是,所述的對文本進行智能分類的方法中,在所述步驟四中,統(tǒng)一的數(shù)值B 為0。優(yōu)選的是,所述的對文本進行智能分類的方法中,在所述步驟四中,與該第i個特征項的權(quán)重值Wi相關(guān)的數(shù)值為相匹配的分詞在該件訓練文本中出現(xiàn)的頻率X該第i個特征項的權(quán)重值Wi。優(yōu)選的是,所述的對文本進行智能分類的方法中,在所述步驟七中,通過余弦相似度算法從訓練文本向量數(shù)據(jù)庫中找到最相似的文本向量。優(yōu)選的是,所述的對文本進行智能分類的方法中,所有文本向量和分詞結(jié)果均保存在計算機內(nèi)存中。優(yōu)選的是,所述的對文本進行智能分類的方法中,所有文本保存為TXT格式。本發(fā)明的有益效果是可以人工進行訓練文本分類數(shù)據(jù),也可以采用自動采集數(shù)據(jù)的方式進行分類訓練,在處理獲取數(shù)據(jù)和分類數(shù)據(jù)的時候,可以配合數(shù)據(jù)挖掘中的其他算法一起使用比如分類算法、聚類算法,可以做到靈活配置。本發(fā)明提供了一種針對海量數(shù)據(jù)進行分類訓練的方式,在經(jīng)過文本搜集、特征提取、文本向量轉(zhuǎn)化等過程后,對于任何一篇文本的分類都能有效的進行分類,應(yīng)用領(lǐng)域非常廣泛。
附圖1為該方法的流程圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明做進一步說明,以使本領(lǐng)域普通技術(shù)人員參照本說明書后能夠據(jù)以實施。如圖1所示,本發(fā)明的一種對于文本智能分類的方法,包括如下步驟步驟一、準備一定數(shù)量的訓練文本,并將這些訓練文本分成多個類別,并在系統(tǒng)內(nèi)存中建立一個文本信息鏈表LIST<TEXTINFO>m_TextInf0LISt,將所有的文本字符串以TXT 格式保存在內(nèi)存里,其中TEXTINF0數(shù)據(jù)類型為
public class TextInfo
{
public Guid id { get; set; } public string Text { get; set; }
public string CategoryName { get; set; }
}步驟二、在系統(tǒng)中建立分詞鏈表LIST<String>,遍歷文本信息鏈表,對每個文本通過中文分詞算法進行分詞,并根據(jù)分詞的詞頻、詞長和詞性等屬性,計算各分詞的權(quán)重值W,保存在分詞鏈表中。步驟三、建立分詞權(quán)重字典Dictionary<string,double>,將每個分詞的權(quán)重保存在權(quán)重字典里,然后根據(jù)權(quán)重對字典進行升序排序,取出權(quán)重值最大的前1000個作為特征項。步驟四、將任意一件訓練文本中所有分詞與上述1000個特征項進行比對,形成文本向量{3 ,32,33···3 ···3 000},在該文本向量中,未匹配到該件訓練文本中的任一個分詞的第i個特征項對應(yīng)的ai值被定義為一個統(tǒng)一的數(shù)值0,而匹配到該件訓練文本中的一個分詞的第i個特征項對應(yīng)的ai值被定義為與該第i個特征項的權(quán)重值Wi相關(guān)的數(shù)值。例如文本為“明天去北京出差”,轉(zhuǎn)化成文本向量描述為{3,0,1}。步驟五、建立訓練文本向量數(shù)據(jù)庫,其中存儲有包含各訓練文本的識別碼、所屬類別和文本向量信息。步驟六、取待分類文本,進行中文算法分詞處理,隨后根據(jù)上述1000個特征項進行比對形成文本向量,將這些文本向量保存在數(shù)據(jù)結(jié)構(gòu)里
public class TextVector
publieGuid id { get; set; }
publiestring CatetgoryName { get; set; }
publieList<double> VectorList { get; set; }
publiedouble simiIarDegree { get; set; }
publie TextVector ()
{
CatetgoryName 二 〃〃; VectorList = new List<double> (); similarDegree 二 0.0;
}
}步驟七、將待分類文本的文本向量與訓練文本的文本向量進行比較,通過標準的余弦相似度算法從分類器鏈表中進行遍歷匹配,找出最相似的訓練文本,將待分類文本劃入最相似的訓練文本所屬的類別。另一種實現(xiàn)形式是步驟一、搜集大量的訓練文集,將所有文本保存為TXT格式,預(yù)先設(shè)定若干分類,將文本分別保存在不同的分類下。步驟二、在系統(tǒng)內(nèi)存中建立一個文本信息鏈表LIST<TEXTINFO>m_TextInfoLIst, 其中TEXTINF0數(shù)據(jù)類型為
public class TextInfo
public Guid id { get; set; } public string Text { get; set; }
public string CategoryName { get; set; }
} 在該鏈表中將所有的文本字符串加載到內(nèi)存里。 步驟三、在系統(tǒng)中建立分詞鏈表LIST<Mring>,遍歷文本信息鏈表,對每個文本通過中文分詞算法進行分詞,將分詞保存在分詞鏈表中。同時建立分詞權(quán)重字典 Dictionary<string, double〉,將每個分詞的權(quán)重保存在權(quán)重字典里,然后對字典進行根據(jù)權(quán)重進行升序排序,取出權(quán)重值最大的前1000個作為特征項。步驟四、遍歷文本信息鏈表,取出每一個文本進行特征維度的1000個維度的描述,對于每個特征項進行權(quán)重計算。步驟五、將每個文本進行進行文本向量轉(zhuǎn)化,形成數(shù)字維度權(quán)重的描述方式,比如文本為“明天去北京出差”,轉(zhuǎn)化成文本向量描述為{3,0,1}。在數(shù)據(jù)庫中建立一個文本向量表用于存儲所有的文本的向量,字段包括(ID、分類、向量)。步驟六、以上步驟都進行完后,大量的文本最后形成了特征項集合和分類器集合, 對于文本的訓練結(jié)束。步驟七、系統(tǒng)接收一文本字符串,并加載到內(nèi)存的臨時變量進行保存。步驟八、通過中文分詞算法對該文本字符串進行中文分詞處理。步驟九、將已經(jīng)訓練好的1000特征取出,保存在內(nèi)存的特征鏈表中。步驟十、在內(nèi)存中定義數(shù)組,將該文本進行1000個維度權(quán)重的描述并存儲在數(shù)組里。步驟十一、將該文本進行文本向量處理,然后默認特征項集合里面的特征都是符合待分類文本,然后進行特征項權(quán)重計算,不符合的過濾掉,符合的留下作為該文本的特征。步驟十二、在內(nèi)存中形成數(shù)字維度權(quán)重的保存形式,存放在如下數(shù)據(jù)結(jié)構(gòu)里public class TextVector
{
publicGuid id { get; set; }
publicstring CatetgoryName ( get; set; }
publicList<double> VectorList { get; set; }
publicdouble similarDegree { get; set; }
public TextVector()
{
CatetgoryName 二 〃"; VectorList 二 new List<double> (); similarDegree 二 0·0;
}
}步驟十三、通過標準的余弦相似度算法從分類器鏈表中進行遍歷匹配找到最相似的文本向量。步驟十四、根據(jù)文本向量確定分類。盡管本發(fā)明的實施方案已公開如上,但其并不僅僅限于說明書和實施方式中所列運用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對于熟悉本領(lǐng)域的人員而言,可容易地實現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細節(jié)和這里示出與描述的圖例。
權(quán)利要求
1.一種對文本進行智能分類的方法,其特征在于,包括以下步驟步驟一、準備一定數(shù)量的訓練文本,并將這些訓練文本分成多個類別;步驟二、對每一件訓練文本通過中文分詞算法進行分詞,并根據(jù)分詞的特征屬性,計算各分詞的權(quán)重值W;步驟三、將所有訓練文本中的所有分詞的權(quán)重值統(tǒng)一進行排序,并取權(quán)重值位于前N 名的N個分詞作為特征項,各特征項均具有自己的權(quán)重值Wi (i = 1 N);步驟四、將任意一件訓練文本中所有分詞與上述N個特征項進行比對,形成文本向量 {al, a2, a3…ai…aN},在該文本向量中,未匹配到該件訓練文本中的任一個分詞的第i個特征項對應(yīng)的ai值被定義為一個統(tǒng)一的數(shù)值B,而匹配到該件訓練文本中的一個分詞的第 i個特征項對應(yīng)的ai值被定義為與該第i個特征項的權(quán)重值Wi相關(guān)的數(shù)值;步驟五、建立訓練文本向量數(shù)據(jù)庫,其中存儲有包含各訓練文本的識別碼、所屬類別和文本向量信息;步驟六、取待分類文本,進行中文算法分詞處理,隨后根據(jù)上述N個特征項形成文本向量;步驟七、將待分類文本的文本向量與訓練文本的文本向量進行比較,找出最相似的訓練文本,將待分類文本劃入最相似的訓練文本所屬的類別。
2.如權(quán)利要求1所述的對文本進行智能分類的方法,其特征在于,在所述步驟二中,分詞的特征屬性包括分詞的詞性、詞頻和詞長。
3.如權(quán)利要求1所述的對文本進行智能分類的方法,其特征在于,在所述步驟三中,N 為 1000。
4.如權(quán)利要求1所述的對文本進行智能分類的方法,其特征在于,在所述步驟四中,統(tǒng)一的數(shù)值B為0。
5.如權(quán)利要求1所述的對文本進行智能分類的方法,其特征在于,在所述步驟四中,與該第i個特征項的權(quán)重值Wi相關(guān)的數(shù)值為相匹配的分詞在該件訓練文本中出現(xiàn)的頻率χ 該第i個特征項的權(quán)重值Wi。
6.如權(quán)利要求1所述的對文本進行智能分類的方法,其特征在于,在所述步驟七中,通過余弦相似度算法從訓練文本向量數(shù)據(jù)庫中找到最相似的文本向量。
7.如權(quán)利要求1所述的對文本進行智能分類的方法,其特征在于,所有文本向量和分詞結(jié)果均保存在計算機內(nèi)存中。
8.如權(quán)利要求1所述的對文本進行智能分類的方法,其特征在于,所有文本保存為TXT 格式。
全文摘要
本發(fā)明公開了一種對于文本智能分類的方法。包括步驟先準備大量的訓練文本集,然后對每篇的文本進行文本分詞,接著進行特征項提取并存儲,然后對于每個特征項進行權(quán)重計算,把該文本轉(zhuǎn)換成文本向量并存儲到分類器中,最后形成了特征項集合和分類器集合。把需要確定分類的文本進行分詞,默認特征項集合里面的特征都是符合待分類文本,然后進行特征項權(quán)重計算,不符合的過濾掉,符合的留下作為該文本的特征。將這些特征項轉(zhuǎn)化成為該文本向量。通過相似度算法將該文本向量和分類器中的向量進行比對,根據(jù)相似文本向量來確定該文本的分類所屬。本發(fā)明提供了一套有效的方法來使文本的分類提取更加準確,而且在速度上也優(yōu)于現(xiàn)有的同類技術(shù)。
文檔編號G06F17/27GK102289522SQ20111027881
公開日2011年12月21日 申請日期2011年9月19日 優(yōu)先權(quán)日2011年9月19日
發(fā)明者呂福軍, 李軍鋒, 李躍海 申請人:北京金和軟件股份有限公司