專利名稱:文本分類方法和裝置及文本分類的特征處理方法和裝置的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種文本分類方法和裝置及文本分類的特征處理方法和裝置。
背景技術(shù):
機(jī)器學(xué)習(xí)算法依靠提取有效的特征數(shù)據(jù)才能得到的一個(gè)好的學(xué)習(xí)效果,如何提取有效特征及避免噪音特征的干擾是提高機(jī)器學(xué)習(xí)效果的重要途徑。目前,在獲取機(jī)器學(xué)習(xí)的學(xué)習(xí)特征時(shí),常常將所有詞作為特征,使得特征庫(kù)龐大,從而在機(jī)器學(xué)習(xí)時(shí)占用內(nèi)存巨大,而且夾雜很多噪音特征,文本分類效果差。為了去除噪音特征,將停用詞刪除后的詞作為特征,但是只能夠在一定程度消除噪音特征,并且特征庫(kù)仍然較大,從而在機(jī)器學(xué)習(xí)時(shí)占用內(nèi)存仍然較大,由于噪音特征流入,文本分類效果沒有得到較大的改善。針對(duì)相關(guān)技術(shù)中文本分類的特征庫(kù)大,導(dǎo)致機(jī)器學(xué)習(xí)時(shí)占用內(nèi)存大的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本申請(qǐng)的主要目的在于提供一種文本分類方法和裝置及文本分類的特征處理方法和裝置,以解決文本分類的特征庫(kù)大,導(dǎo)致機(jī)器學(xué)習(xí)時(shí)占用內(nèi)存大的問題。為了實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種文本分類的特征處理方法。根據(jù)本申請(qǐng)的文本分類的特征處理方法包括:獲取用于文本分類的學(xué)習(xí)資料的特征集合,其中,特征集合包括多 個(gè)特征詞;計(jì)算每個(gè)特征詞在所有分類類別中的信息增益值之和;以及提取特征集合中預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征,以使用于文本分類的學(xué)習(xí)特征為特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對(duì)應(yīng)的信息增益值之和大于未提取的特征詞對(duì)應(yīng)的信息增益值之和。為了實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)的另一方面,提供了一種文本分類方法。根據(jù)本申請(qǐng)的文本分類方法包括:采用本申請(qǐng)?zhí)峁┑娜我庖环N文本分類的特征處理方法進(jìn)行特征提取,得到用于文本分類的學(xué)習(xí)特征;對(duì)學(xué)習(xí)特征進(jìn)行訓(xùn)練,得到分類模型;以及采用分類模型對(duì)待分類文本進(jìn)行文本分類。為了實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)的又一方面,提供了一種文本分類的特征處理裝置。根據(jù)本申請(qǐng)的文本分類的特征處理裝置用于執(zhí)行本申請(qǐng)?zhí)岢龅娜我庖环N文本分類的特征處理方法。為了實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)的又一方面,提供了一種文本分類的特征處理裝置。根據(jù)本申請(qǐng)的文本分類的特征處理裝置包括:獲取模塊,用于獲取用于文本分類的學(xué)習(xí)資料的特征集合,其中,特征集合包括多個(gè)特征詞;計(jì)算模塊,用于計(jì)算每個(gè)特征詞在所有分類類別中的信息增益值之和;以及提取模塊,用于提取特征集合中預(yù)訂數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征,以使用于文本分類的學(xué)習(xí)特征為特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對(duì)應(yīng)的信息增益值之和大于未提取的特征詞對(duì)應(yīng)的信息增益值之和。為了實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)的又一方面,提供了一種文本分類裝置。根據(jù)本申請(qǐng)的文本分類裝置用于執(zhí)行本申請(qǐng)?zhí)岢龅娜我庖环N文本分類方法。為了實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)的又一方面,提供了一種文本分類裝置。根據(jù)本申請(qǐng)的文本分類裝置包括:本申請(qǐng)?zhí)峁┑娜我庖环N文本分類的特征處理裝置,用于特征提取,得到用于文本分類的學(xué)習(xí)特征;訓(xùn)練模塊,用于對(duì)學(xué)習(xí)特征進(jìn)行訓(xùn)練,得到分類模型;以及分類模塊,用于采用分類模型對(duì)待分類文本進(jìn)行文本分類。通過本申請(qǐng),采用本申請(qǐng)?zhí)峁┑奈谋痉诸惖奶卣魈幚矸椒?,按照信息增益值之和大小,提取預(yù)定數(shù)量的部分特征詞作為文本分類的學(xué)習(xí)特征,將整個(gè)特征集合中去除停用詞后的剩余特征詞中的部分特征詞組成特征庫(kù),縮小了特征庫(kù),減小了占用內(nèi)存。進(jìn)一步地,由于特征集合中的噪聲詞對(duì)應(yīng)的信息增益值之和小于非噪聲詞對(duì)應(yīng)的信息增益值之和,因此,只要采用特征集合中信息增益值之和較大的部分特征詞作為特征庫(kù),便能夠去除非停用詞中的部分或全部噪聲詞,從而使得文本分類的學(xué)習(xí)特征中不包含或包含較少噪聲詞,提高了文本訓(xùn)練的效果,使得采用該特征處理方法進(jìn)行特征提取的文本分類方法的分類精度更高,解決了現(xiàn)有技術(shù)中文本分類的特征庫(kù)大,導(dǎo)致機(jī)器學(xué)習(xí)時(shí)占用內(nèi)存大的問題,進(jìn)而達(dá)到減小文本分類的特征庫(kù),減小機(jī)器學(xué)習(xí)時(shí)占用內(nèi)存的效果。
為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。在附圖中:圖1是根據(jù)本申請(qǐng)實(shí)施例的文本分類裝置的框
圖2是根據(jù)本申請(qǐng)第一實(shí)施例的文本分類的特征處理裝置的框圖;圖3是根據(jù)本申請(qǐng)第二實(shí)施例的文本分類的特征處理裝置的框圖;圖4是根據(jù)本申請(qǐng)實(shí)施例的文本分類方法的流程圖;圖5是根據(jù)本申請(qǐng)第一實(shí)施例的文本分類的特征處理方法的流程圖;以及圖6是根據(jù)本申請(qǐng)第二實(shí)施例的文本分類的特征處理方法的流程圖。
具體實(shí)施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)中的技術(shù)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。首先,對(duì)本申請(qǐng)實(shí)施例的一種文本分類裝置進(jìn)行說明,如圖1所示,該文本分類裝置包括:特征處理裝置20,訓(xùn)練模塊40和分類模塊60。在文本分類的機(jī)器學(xué)習(xí)任務(wù)之前,必須要有一定量的學(xué)習(xí)資料提供給機(jī)器,這里的機(jī)器指一種能夠按照程序運(yùn)行,自動(dòng)、高速處理海量數(shù)據(jù)的現(xiàn)代化智能電子設(shè)備。比如說我們常見的PC,服務(wù)器等。所謂學(xué)習(xí)資料,可以是指經(jīng)過人工標(biāo)注類別的文本資料。這些文本一般來(lái)自我們實(shí)際使用的環(huán)境。以對(duì)圖書館的圖書進(jìn)行分門別類為例,需要隨機(jī)抽取涵蓋所有類別圖書,通過人工先標(biāo)注這些圖書的類別,這部分標(biāo)注好的書籍就可以作為機(jī)器學(xué)習(xí)的資料了。獲取到學(xué)習(xí)資料后,特征處理裝置20用于對(duì)這些學(xué)習(xí)資料進(jìn)行特征提取,得到用于文本分類的學(xué)習(xí)特征。本實(shí)施例的特征處理裝置20與現(xiàn)有技術(shù)不同,不是直接將對(duì)學(xué)習(xí)資料進(jìn)行分詞得到特征詞去掉停用詞后作為文本分類的學(xué)習(xí)特征,而是將由學(xué)習(xí)資料分詞得到的特征詞進(jìn)行選取,選取部分特征詞作為文本分類的學(xué)習(xí)特征。其中,選取的判斷條件為特征詞在所有分類類別中的信息增益值之和的大小,將較大的信息增益值之和對(duì)應(yīng)的特征詞作為用于文本分類的學(xué)習(xí)特征,其中,用于文本分類的學(xué)習(xí)特征為去掉停用詞后的剩余特征詞中的部分特征詞,提取到的特征詞對(duì)應(yīng)的信息增益值之和均大于未提取的特征詞對(duì)應(yīng)的信息增益值之和。其中,停用詞可以是電腦檢索用的虛字,即非檢索用詞,例如,中文中的“的”、“了”等詞,英文中的“a”、“of”等詞。停用詞對(duì)文本分類沒有特別貢獻(xiàn),因?yàn)閹缀跛械奈谋局卸紩?huì)出現(xiàn)該類詞,不具有顯著的區(qū)分性。訓(xùn)練模塊40用于對(duì)特征處理裝置20提取到的學(xué)習(xí)特征進(jìn)行訓(xùn)練,得到分類模型,該處的訓(xùn)練模塊40用于完成機(jī)器學(xué)習(xí)過程,訓(xùn)練時(shí)可以采用任意的模式識(shí)別方法,例如支持向量機(jī),神經(jīng)網(wǎng)絡(luò)等。在通過訓(xùn)練模塊40得到文本分類的分類模型后,分類模塊60用于采用分類模型對(duì)待分類文本進(jìn)行文本分類。機(jī)器可以通過對(duì)部分作為學(xué)習(xí)資料的圖書進(jìn)行學(xué)習(xí),得到圖書分類的分類模型后,便可實(shí)現(xiàn)其他的圖書的分類。在本申請(qǐng)技術(shù)方案中,特征處理裝置20提取預(yù)定數(shù)量的、較大的信息增益值之和對(duì)應(yīng)的特征詞作為文本分類的學(xué)習(xí)特征,訓(xùn)練模塊40對(duì)該學(xué)習(xí)特征進(jìn)行訓(xùn)練,得到分類模型,分類模塊60采用該分類模型對(duì)待分類文本進(jìn)行文本分類。應(yīng)用本申請(qǐng)技·術(shù)方案,在文本分類時(shí),特征處理裝置20提取預(yù)定數(shù)量的特征詞組成特征庫(kù),采用合適大小的預(yù)訂數(shù)量,使特征庫(kù)在去除停用詞的基礎(chǔ)上進(jìn)一步縮小,從而減小了訓(xùn)練模塊40學(xué)習(xí)時(shí)的占用內(nèi)存。進(jìn)一步地,特征處理裝置20能夠?qū)崿F(xiàn)提取包含較少或不包含噪聲詞的學(xué)習(xí)特征,從而能夠提高訓(xùn)練模塊40的訓(xùn)練精度,進(jìn)而使得分類模塊60的分類精度提聞。其次,對(duì)本申請(qǐng)實(shí)施例的一種文本分類的特征處理裝置進(jìn)行說明,如圖2所示,該文本分類的特征處理裝置包括:獲取模塊22,計(jì)算模塊24和提取模塊26。獲取模塊22用于獲取用于文本分類的學(xué)習(xí)資料的特征集合,其中,特征集合包括多個(gè)特征詞,獲取模塊22可直接接收用戶輸入的特征集合,也可接收用戶輸入的學(xué)習(xí)資料,對(duì)學(xué)習(xí)資料進(jìn)行分詞得到特征詞。計(jì)算模塊24用于計(jì)算每個(gè)特征詞在所有文本類別中的信息增益值之和。其中,信息增益值是指期望信息或者信息熵的有效減少量(通常用“字節(jié)”衡量),根據(jù)它能夠確定在什么樣的層次上選擇什么樣的變量來(lái)分類。信息增益值用來(lái)表示一個(gè)特征詞對(duì)該類別帶來(lái)的信息量,信息增益值越大越表示該特征詞對(duì)于該類別越好,也即該特征詞越歸屬于該類別,從而采用該特征詞進(jìn)行分類時(shí),分類的準(zhǔn)確性越高,具體地,可采用如下的方法計(jì)算一個(gè)特征詞在所有分類類別中的信息增益值之和:假設(shè)特征為t,類別為Cl Cn,則特征t的信息增益之和為:
權(quán)利要求
1.一種文本分類的特征處理方法,其特征在于,包括: 獲取用于文本分類的學(xué)習(xí)資料的特征集合,其中,所述特征集合包括多個(gè)特征詞; 計(jì)算每個(gè)特征詞在所有分類類別中的信息增益值之和;以及 提取所述特征集合中預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征,以使所述用于文本分類的學(xué)習(xí)特征為所述特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對(duì)應(yīng)的信息增益值之和大于未提取的特征詞對(duì)應(yīng)的信息增益值之和。
2.根據(jù)權(quán)利要求1所述的文本分類的特征處理方法,其特征在于, 在獲取所述多個(gè)特征詞之后,所述方法還包括:去除所述多個(gè)特征詞中的停用詞, 其中,計(jì)算每個(gè)特征詞在所有分類類別中的信息增益值之和的步驟包括:計(jì)算去除停用詞后的每個(gè)特征詞在所有分類類別中的信息增益值之和。
3.根據(jù)權(quán)利要求1所述的文本分類的特征處理方法,其特征在于,獲取文本分類的學(xué)習(xí)資料的特征集合的步驟包括: 獲取用于文本分類的學(xué)習(xí)資料; 對(duì)所述用于文本分類的學(xué)習(xí)資料進(jìn)行分詞處理,得到多個(gè)特征詞;以及 統(tǒng)計(jì)所述多個(gè)特征詞,得到用于文本分類的學(xué)習(xí)資料的特征集合。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的文本分類的特征處理方法,其特征在于,提取所述特征集合中 預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征的步驟包括: 按照信息增益值之和的大小對(duì)所述特征集合中的特征詞進(jìn)行排序;以及按照信息增益值之和的大小順序,提取所述特征集合中預(yù)設(shè)百分比數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征。
5.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的文本分類的特征處理方法,其特征在于,提取所述特征集合中預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征的步驟包括: 判斷所述每個(gè)特征詞對(duì)應(yīng)的信息增益值之和是否大于預(yù)設(shè)值;以及提取所述特征集合中信息增益值之和大于所述預(yù)設(shè)值的特征詞作為用于文本分類的學(xué)習(xí)特征。
6.一種文本分類方法,其特征在于,包括: 采用權(quán)利要求1至5中任一項(xiàng)所述的文本分類的特征處理方法進(jìn)行特征提取,得到用于文本分類的學(xué)習(xí)特征; 對(duì)所述學(xué)習(xí)特征進(jìn)行訓(xùn)練,得到分類模型;以及 采用所述分類模型對(duì)待分類文本進(jìn)行文本分類。
7.一種文本分類的特征處理裝置,其特征在于,包括: 獲取模塊,用于獲取用于文本分類的學(xué)習(xí)資料的特征集合,其中,所述特征集合包括多個(gè)特征詞; 計(jì)算模塊,用于計(jì)算每個(gè)特征詞在所有分類類別中的信息增益值之和;以及提取模塊,用于提取所述特征集合中預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征,以使所述用于文本分類的學(xué)習(xí)特征為所述特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對(duì)應(yīng)的信息增益值之和大于未提取的特征詞對(duì)應(yīng)的信息增益值之和。
8.根據(jù)權(quán)利要求7所述的文本分類的特征處理裝置,其特征在于,所述獲取模塊還包括:篩選子模塊,用于在獲取所述多個(gè)特征詞后,去除所述多個(gè)特征詞中的停用詞, 其中,所述計(jì)算模塊用于計(jì)算去除停用詞后的每個(gè)特征詞在所有分類類別中的信息增益值之和。
9.根據(jù)權(quán)利要求7所述的文本分類的特征處理裝置,其特征在于,所述獲取模塊包括: 獲取子模塊,用于獲取用于文本分類的學(xué)習(xí)資料; 分詞子模塊,用于對(duì)所述用于文本分類的學(xué)習(xí)資料進(jìn)行分詞處理,得到多個(gè)特征詞;以及 統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)所述多個(gè)特征詞,得到用于文本分類的學(xué)習(xí)資料的特征集合。
10.一種文本分類裝置,其特征在于,包括: 權(quán)利要求7至9中任一項(xiàng)所述的文本分類的特征處理裝置,用于特征提取,得到用于文本分類的學(xué)習(xí)特征 ; 訓(xùn)練模塊,用于對(duì)所述學(xué)習(xí)特征進(jìn)行訓(xùn)練,得到分類模型;以及 分類模塊,用于采用所述分類模型對(duì)待分類文本進(jìn)行文本分類。
全文摘要
本申請(qǐng)公開了一種文本分類方法和裝置及文本分類的特征處理方法和裝置。該文本分類的特征處理方法包括獲取用于文本分類的學(xué)習(xí)資料的特征集合;計(jì)算每個(gè)特征詞在所有分類類別中的信息增益值之和;以及提取特征集合中預(yù)定數(shù)量的特征詞作為用于文本分類的學(xué)習(xí)特征,以使用于文本分類的學(xué)習(xí)特征為特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對(duì)應(yīng)的信息增益值之和大于未提取的特征詞對(duì)應(yīng)的信息增益值之和。應(yīng)用本申請(qǐng)方案,在文本分類的特征提取時(shí),能夠有效地避免將噪聲特征納入機(jī)器學(xué)習(xí)流程,提高了文本分類的精度,同時(shí)極大地縮減了特征庫(kù)規(guī)模,降低了內(nèi)存占用。
文檔編號(hào)G06F17/30GK103246686SQ201210033208
公開日2013年8月14日 申請(qǐng)日期2012年2月14日 優(yōu)先權(quán)日2012年2月14日
發(fā)明者許文奇 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司