專利名稱:對文檔進行分類的方法及裝置的制作方法
技術領域:
本發(fā)明實施例涉及信息技術領域,尤其涉及一種對文檔進行分類的方法及裝置。
背景技術:
隨著互聯(lián)網的快速發(fā)展,互聯(lián)網上出現(xiàn)了海量的、異質的Web (網絡)信息資源,其 中Web文本信息占了主要地位。如何從龐大的web文本信息中獲得高質量的準確信息,并 有效地加以利用已經成為一個重要的研究課題。Web文本分類技術作為web信息挖掘的關 鍵部分得到了人們的廣泛關注。web文本分類技術帶來的各種應用已經廣泛到應用到多個領域,比如新聞出版 按照欄目分類,實現(xiàn)通過新聞內容自動對新聞分類,如政治、體育、軍事、...;通過對用戶 的網頁瀏覽歷史記錄分類獲得用戶的興趣愛好,實現(xiàn)個性化新聞推薦、個性化廣告等相關 個性化推薦;對郵件內容進行分析歸類實現(xiàn)垃圾郵件的過濾。現(xiàn)有技術中的第一種對文檔進行分類的方法為采用相似度模型、概率模型、線性 模型、非線性模型和組合模型等模型的傳統(tǒng)分類方法。該傳統(tǒng)分類方法需要人工標注大量 訓練語料,人工標注的訓練語料的優(yōu)劣直接影響到分類器的性能指標。人工標注訓練語料 指通過人為判斷整理得到屬于某個類的文檔集合。通過人工標注的大量訓練語料來訓練分 類器模型,當分類器模型訓練好后,就可以用分類器模型對待分類文檔進行文本分類了。在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)上述現(xiàn)有技術中的第一種對文檔進行分類的方 法中至少存在如下問題訓練語料的獲取需要大量的專業(yè)領域的人工整理和收集工作,在很大程度上提高 了文本分類的成本。現(xiàn)有技術中用提前收集整理的訓練語料得到的分類器很難對新生事物進行正確 的分類,該方法分類的成本和投入較高,效率不高。
發(fā)明內容
本發(fā)明的實施例提供了一種對文檔進行分類的方法及裝置,以提高文檔分類的效率。一種對文檔進行分類的方法,包括基于待分類文檔的各個目標類對應的知識信息,對所述待分類文檔的文本信息和 詞語集合執(zhí)行協(xié)同聚類處理,獲得知識信息聚類結果和所述待分類文檔的詞語聚類結果;將所述待分類文檔的詞語聚類結果與所述待分類文檔的各個目標類的關鍵詞組 進行相似度計算,得到第一計算結果;或者,將所述待分類文檔的詞語聚類結果與所述知識 信息聚類結果進行相似度計算,得到第二計算結果;根據(jù)所述第一計算結果或第二計算結 果對所述待分類文檔進行分類。一種對文檔進行分類的裝置,包括協(xié)同聚類處理模塊,用于基于待分類文檔的各個目標類對應的知識信息,對所述待分類文檔的文本信息和詞語集合進行協(xié)同聚類處理,獲得知識信息聚類結果和所述待分 類文檔的詞語聚類結果;基于相似度的分類處理模塊,用于將所述待分類文檔的詞語聚類結果與所述待分 類文檔的各個目標類的關鍵詞組進行相似度計算,得到第一計算結果;或者,將所述待分類 文檔的詞語聚類結果與所述知識信息聚類結果進行相似度計算,得到第二計算結果;根據(jù) 所述第一計算結果或第二計算結果對所述待分類文檔進行分類。一種網絡系統(tǒng),包括至少一個計算機和至少一個服務器,所述計算機和服務器中 至少有一個所述的對文檔進行分類的裝置。由上述本發(fā)明的實施例提供的技術方案可以看出,本發(fā)明實施例通過基于知識監(jiān) 督的協(xié)同聚類算法和相似度計算方法,完成待分類文擋的分類過程,提高了文檔分類的效率。
為了更清楚地說明本發(fā)明實施例的技術方案,下面將對實施例描述中所需要使用 的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本 領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。圖1為本發(fā)明實施例一提供的對文本信息進行分類的方法的實現(xiàn)原理示意圖;圖2為本發(fā)明實施例一提供的對文本信息進行分類的方法的具體處理流程圖;圖3為本發(fā)明實施例提供的對文本信息進行分類的裝置的具體實現(xiàn)結構圖;圖4為本發(fā)明實施例提供的一種網絡系統(tǒng)的結構示意圖。
具體實施例方式在本發(fā)明實施例中,基于待分類文檔的各個目標類對應的知識信息,對所述待分 類文檔的文本信息和詞語集合執(zhí)行協(xié)同聚類處理,獲得所述待分類文檔的詞語聚類結果和 知識信息聚類結果。之后,將所述待分類文檔的詞語聚類結果與所述待分類文檔的各個目 標類的關鍵詞組進行相似度計算,得到第一計算結果;或者,將所述待分類文檔的詞語聚類 結果與所述知識信息聚類結果進行相似度計算,得到第二計算結果;根據(jù)所述第一計算結 果或第二計算結果對所述待分類文檔進行分類。進一步地,確定待分類文檔的類別體系,該類別體系中包括各個目標類和相應的 子類,并定義各個目標類的關鍵詞組;通過各個目標類的關鍵詞組,搜索獲取知識數(shù)據(jù)庫中能夠描述各個目標類的純文 本的知識信息,將所述知識信息和相應的目標類進行關聯(lián)存儲。進一步地,實時地從互聯(lián)網中獲取網頁和文檔信息,對所述網頁和文檔信息進行 解析,將解析后獲取的純文本的數(shù)據(jù)信息存放在知識數(shù)據(jù)庫中。進一步地,對待分類文檔的內容進行解析,獲得待分類文檔的文本信息,對該文本 信息進行分詞、去停用詞、去生僻詞的處理后,獲得待分類文檔的詞語集合。進一步地,對所述文本信息和詞語集合進行協(xié)同聚類處理,并對所述知識信息和 所述詞語集合執(zhí)行協(xié)同聚類處理;
6
計算基于知識信息的所述文本信息和詞語集合的協(xié)同聚類互信息損失,當判斷所 述協(xié)同聚類互信息損失不是最小時,則繼續(xù)對所述文本信息和詞語集合、知識信息和詞語 集合執(zhí)行協(xié)同聚類處理,并繼續(xù)判斷所述協(xié)同聚類互信息損失是不是最??;當判斷所述協(xié) 同聚類互信息損失為最小時,則輸出最優(yōu)的待分類文檔的詞語集合和文本聚類結果,并輸 出知識信息聚類結果。進一步地,取出所述詞語聚類結果中的文本簇,將該文本簇分別與所述待分類文 檔的每個目標類的關鍵詞組進行相似度計算,將最高的相似度值對應的目標類作為所述文 本簇的分類結果;依次將所述詞語聚類結果中的每個文本簇進行分類,從而完成所述待分 類文擋的分類;或者,取出所述詞語聚類結果中的文本簇,將該文本簇分別與所述知識信息聚類結果中 的每個目標類的文本簇進行相似度計算,將最高的相似度值對應的所述知識信息聚類結果 中的目標類作為所述文本簇的分類結果;依次將所述詞語聚類結果中的每個文本簇進行分 類,從而完成所述待分類文擋的分類。為便于對本發(fā)明實施例的理解,下面將結合附圖以幾個具體實施例為例做進一步 的解釋說明,且各個實施例并不構成對本發(fā)明實施例的限定。實施例一該實施例提供的對文檔進行分類的方法的實現(xiàn)原理示意圖如圖1所示,具體處理 流程如圖2所示,包括如下處理步驟步驟21 確定文檔分類的類別體系,定義描述類別體系中的各個目標類的關鍵詞組。首先確定文檔分類的類別體系,該類別體系中包括所有目標類和相應的子類。上 述類別體系可以是一個樹狀多層分類體系,其中包括多個節(jié)點(對應目標類),每個節(jié)點可 以劃分為多個子節(jié)點(對應子類)。如“體育類”_>“球類” _>籃球;“體育類”-> “田 徑,,->“110 米欄,,。然后,定義描述上述類別體系中所有目標類的關鍵詞組,定義關鍵詞組需要盡可 能從多個方面、多個領域、多個角度來對目標類進行相應地描述。例如“體育”類的關鍵詞
組可以定義為“足球、籃球、乒乓球、110米欄、F1、花樣游泳......”等體育項目,也還可以
定義為“世錦賽、世界杯、黃金聯(lián)賽......,,等體育賽事,也還可以定義為“梅開二度、帽子
戲法、烏龍球、本壘打、興奮劑、禁賽、傷病.......”等體育名詞。步驟22、通過各個目標類的關鍵詞組,搜索知識數(shù)據(jù)庫中能夠描述各個目標類的 對應的知識信息。知識數(shù)據(jù)庫是一個大規(guī)模的數(shù)據(jù)集合,該知識數(shù)據(jù)庫的建立過程主要包括利用 網絡實時爬取工具,實時地從互聯(lián)網中抓取網頁,對網頁的內容、主題、關鍵字等相關內容 進行解析,也實時地從互聯(lián)網中抓取word、excel、pdf等格式文檔,對該格式文檔的內容進 行解析。然后,將解析后獲取的純文本的數(shù)據(jù)信息存放在知識數(shù)據(jù)庫中。上述知識數(shù)據(jù)庫中還需要建立高效查詢索引機制,并對外提供查詢接口,接收查 詢請求,將查詢結果排序輸出。然后,利用上述知識數(shù)據(jù)庫的查詢接口,以上述目標類的關鍵詞組為查找索引,對知識庫中的純文本的數(shù)據(jù)信息進行搜索,并按照索引算法對搜索結果排序,將排序靠前的 一定數(shù)量的知識信息作為描述該目標類的知識信息,將該知識信息以文檔的格式和相應的 目標類進行關聯(lián)存儲。并依次獲取和存儲各個目標類的知識信息。上述知識數(shù)據(jù)庫也可以借鑒傳統(tǒng)的搜索引擎如谷哥、雅虎、百度等來實現(xiàn)知識信 息的獲取,但是最好的辦法是建立本地針對性、概括性更強的本地知識數(shù)據(jù)庫來實現(xiàn)文本 分類。步驟23、在知識信息的監(jiān)督下,對待分類文檔和詞語集合執(zhí)行協(xié)同聚類處理,基于 協(xié)同聚類互信息損失最小,得到最優(yōu)的待分類文檔的文本聚類結果、詞語聚類結果和知識 信息聚類結果。在獲取了一個待分類文檔后,需要對該待分類文檔進行預處理,該預處理包括對 待分類文檔的內容進行解析,進行文本內容的分詞、或去停用詞、或去生僻詞的處理過程。 經過該預處理之后,得到待分類文檔的文本信息,該文本信息主要表現(xiàn)為離散的單詞集合, 并為每個出現(xiàn)的單詞標上權重信息。比如,一個待分類文檔d,經過預處理之后,可以表示為D = {wl,hl ;w2,h2 ;w3, h3......},其中,D為預處理之后的待分類文檔,wi表示
D中的第i個單詞,hi表示第i個單詞的權重。上述D中的各個wi組成詞語集合W,即W = {wl,w2,w3......}對各個目標類的知識信息也進行上述預處理,得到預處理之后的各個目標類的知 iMfn 息 K。然后,對上述預處理之后的待分類文檔D和詞語集合W執(zhí)行協(xié)同聚類處理,預處理 之后的詞語集合w和各個目標類的知識信息K執(zhí)行協(xié)同聚類處理,獲得優(yōu)化的待分類文檔 的文本聚類結果D’、詞語聚類結果r和知識信息聚類結果K。上述協(xié)同聚類和傳統(tǒng)的聚類的最大區(qū)別在于,協(xié)同聚類在縱向聚類(文檔聚類) 的過程中,引入了橫向聚類(詞語聚類)的內容,可以實現(xiàn)橫向和縱向兩個方向的互信息引 入。而傳統(tǒng)的單邊聚類(文檔聚類)在聚類的過程中沒有引入其他的信息。因此,在上述D和W、W和K的協(xié)同聚類處理過程中,在完成文檔聚類的同時也獲得 了橫向的單詞聚類,在單詞聚類的過程中通過知識信息K加強了單詞與單詞之間的關系, 增強了看似無關聯(lián)的W的信息,同時關聯(lián)了 K與D之間的共同信息。相當于在上述知識信 息K的監(jiān)督下,對D和W進行了協(xié)同聚類處理。并且,得到的聚類結果D’攜帶了大量的關 于w的信息,聚類結果r中攜帶了大量的關于K的信息。比如,待分類文檔D組成了下面的距陣f (X,Y) 其中Xi縱向表示每一篇文檔,橫向Yi表示文檔中的某個單詞,p(x, y)表示單詞 y在文檔x中的權重。對上述D和W執(zhí)行協(xié)同聚類處理后,得到的D’組成了下面的距陣f (X,Y)
比較上述兩個距陣,發(fā)現(xiàn)p (3,5) =0優(yōu)化為p(3,5) = 0. 28,強化了橫向和縱向變
量的關系。然后,判斷基于所述知識信息的D和W之間的協(xié)同聚類互信息損失是否為最小,當 該協(xié)同聚類互信息損失不是為最小時,則繼續(xù)執(zhí)行上述在知識信息K的監(jiān)督下,對D和W執(zhí) 行協(xié)同聚類處理的過程。再繼續(xù)判斷D和W之間的協(xié)同聚類互信息損失是否為最小,當通 過多次迭代處理,上述協(xié)同聚類互信息損失為最小時,則輸出最優(yōu)的待分類文檔的文本聚 類結果d’、詞語聚類結果r和知識信息聚類結果K’。上述D和W之間的協(xié)同聚類互信息損失的計算方法如下 上述公式(1)可以表示為
上述公式(2)可以表示為
f (d,w),g(k,w)是(D,W)和(K,W)的原始概率分布。
f(.),g(.)是f( , )和g( , )的邊緣分布。通過對上述公式⑵求解,當/(玖W)為最小時,最終得到 上述在知識信息的監(jiān)督下的待分類文檔D和詞語集合W的協(xié)同聚類處理過程,還 可以得到最優(yōu)的知識信息聚類結果K’。步驟24、將最優(yōu)的詞語聚類結果或知識信息聚類結果中的文本簇與每個目標類對 應的關鍵詞組進行相似度計算,將最高的相似度值對應的目標類作為上述某個文本簇的分 類結果,完成了待分類文擋的分類過程。上述通過協(xié)同聚類處理獲得的最優(yōu)的詞語集合的聚類結果W’可以表示為 W = {^1, -W-2 ■ Wn}上述W’包括了 n個文本簇,取出其中某個文本簇,與上述類別體系中的每個目標 類對應的關鍵詞組進行相似度計算,分別獲取相應的相似度值,將最高的相似度值對應的 目標類作為上述某個文本簇的分類結果。按照上述處理過程,依次將W’中的每個文本簇進 行分類,從而完成了待分類文擋D的分類過程。
為
上述相似度的計算過程可以采用余弦法(標準化點積法)來實現(xiàn),具體計算方法
4
上述da為某類的關鍵詞組集合,db為最優(yōu)的詞語集合的聚類結果w’中某個文本 簇,cos (da,db)為da和db之間的相似度值。實施例二在實施例在首先通過上述實施例一提供的協(xié)同聚類處理過程,獲得了最優(yōu)的待分 類文檔的文本聚類結果D’、詞語聚類結果r和知識信息聚類結果r。上述最優(yōu)的知識信息聚類結果K’中攜帶了待分類文檔的詞語集合信息,K’也可 以表示為多個文本簇的集合,每個文本簇對應一個目標類。取出詞語聚類結果W’中的某個文本簇,分別與上述知識信息聚類結果K’中的各 個目標類的文本簇進行相似度計算,分別獲取相應的相似度值,將最高的相似度值對應的 知識信息聚類結果K’中的目標類作為上述W’中的某個文本簇的分類結果。按照上述處理 過程,依次將詞語聚類結果W’中的每個文本簇進行分類,從而完成了待分類文擋D的分類 過程。該實施例中的上述相似度的計算過程也可以采用余弦法來實現(xiàn)。本發(fā)明實施例還提供了一種對文檔進行分類的裝置,其具體實現(xiàn)結構如圖3所 示,包括如下模塊協(xié)同聚類處理模塊34,用于基于待分類文檔的各個目標類對應的知識信息,對所 述待分類文檔的文本信息和詞語集合進行協(xié)同聚類處理,獲得知識信息聚類結果和所述待 分類文檔的詞語聚類結果;
基于相似度的分類處理模塊35,用于將所述待分類文檔的詞語聚類結果與所述待 分類文檔的各個目標類的關鍵詞組進行相似度計算,得到第一計算結果;或者,將所述待分 類文檔的詞語聚類結果與所述知識信息聚類結果進行相似度計算,得到第二計算結果;根 據(jù)所述第一計算結果或第二計算結果對所述待分類文檔進行分類。所述裝置還可以包括類別體系確定模塊31,用于確定待分類文檔的類別體系,該類別體系中包括各個 目標類和相應的子類,定義各個目標類的關鍵詞組;知識信息獲取模塊32,用于通過所述待分類文檔的類別體系中的各個目標類的關 鍵詞組,搜索獲取知識數(shù)據(jù)庫中能夠描述各個目標類的純文本的知識信息,將所述知識信 息和相應的目標類進行關聯(lián)存儲。預處理模塊33,用于對待分類文檔進行預處理,獲得待分類文檔的文本信息和詞
;五隹A
P口朱 口。所述協(xié)同聚類處理模塊34具體可以包括執(zhí)行計算模塊341,用于對所述文本信息和詞語集合進行協(xié)同聚類處理,并對所述 知識信息和所述詞語集合執(zhí)行協(xié)同聚類處理,計算基于知識信息的所述文本信息和詞語集 合的協(xié)同聚類互信息損失,并傳輸給判斷輸出模塊;判斷輸出模塊342,用于當判斷所述執(zhí)行計算模塊傳輸過來的協(xié)同聚類互信息損 失不是最小時,指示所述執(zhí)行計算模塊對所述文本信息和詞語集合、知識信息和詞語集合 執(zhí)行協(xié)同聚類處理,判斷所述執(zhí)行計算模塊傳輸過來的協(xié)同聚類互信息損失是不是最?。划斉袛嗨鰠f(xié)同聚類互信息損失為最小時,則輸出最優(yōu)的待分類文檔的詞語集合 和文本聚類結果,并輸出知識信息聚類結果。所述基于相似度的分類處理模塊35具體可以包括相似度計算模塊351和分類處 理模塊352,其中,相似度計算模塊351,用于取出所述詞語聚類結果中的文本簇,將該文本簇分別與 所述待分類文檔的每個目標類的關鍵詞組進行相似度計算,分別獲取相應的相似度值,傳 輸給分類處理模塊;分類處理模塊352,用于將所述相似度計算模塊傳輸過來的最高的相似度值對應 的目標類作為所述文本簇的分類結果;依次將所述詞語聚類結果中的每個文本簇進行分 類,從而完成所述待分類文擋的分類;或者,相似度計算模塊351,用于取出所述詞語聚類結果中的文本簇,將該文本簇分別與 所述知識信息聚類結果中的每個目標類的文本簇進行相似度計算,分別獲取相應的相似度 值,并傳輸給分類處理模塊;分類處理模塊352,用于將所述相似度計算模塊傳輸過來的最高的相似度值對應 的所述知識信息聚類結果中的目標類作為所述文本簇的分類結果;依次將所述詞語聚類結 果中的每個文本簇進行分類,從而完成所述待分類文擋的分類。上述本發(fā)明實施例所述方法和裝置通過對待分類文檔的文本信息和詞語集合執(zhí) 行基于知識信息的協(xié)同聚類處理,獲得知識信息聚類結果和待分類文檔的詞語聚類結果。 然后,利用上述知識信息聚類結果、詞語聚類結果,以及待分類文檔的各個目標類的關鍵詞
11組,執(zhí)行相似度計算方法,完成待分類文擋的分類過程,從而避開了傳統(tǒng)的分類方法中的人 工標注大規(guī)模訓練語料的環(huán)節(jié),提高了文檔分類的效率,為文擋分類節(jié)省了大量的人力成 本和項目開發(fā)時間。本發(fā)明實施例提供一種網絡系統(tǒng),如圖4所示,該網絡系統(tǒng)可以包括計算機401、 路由器402、服務器403和存儲設備404。在圖4所示的網絡系統(tǒng)中,計算機401、路由器402、 服務器403和存儲設備404中的任意一個設備可以包括如圖3所示的文檔分類裝置,該文 檔分類裝置包括協(xié)同聚類處理模塊和基于相似度的分類處理模塊、類別體系確定模塊、知 識信息獲取模塊和預處理模塊。其中各個單元的作用與上述實施例類似,此處不再重復描 述。本領域技術人員可在圖4所示的網絡系統(tǒng)中增設交換機、基站等其它電子設備, 并且增設的任意一種設備可以包括協(xié)同聚類處理模塊和基于相似度的分類處理模塊等。本發(fā)明實施例系統(tǒng)的各個單元可以集成于一個裝置,也可以分布于多個裝置。上 述單元可以合并為一個單元,也可以進一步拆分成多個子單元。綜上所述,本發(fā)明實施例通過基于知識監(jiān)督的協(xié)同聚類算法和相似度計算方法, 完成待分類文擋的分類過程,從而避開了傳統(tǒng)的分類方法中的人工標注大規(guī)模訓練語料的 環(huán)節(jié),為文擋分類節(jié)省了大量的人力成本和項目開發(fā)時間。本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以 通過計算機程序來指令相關的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質 中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質可為磁 碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random Access Memory, RAM)等。以上所述,僅為本發(fā)明較佳的具體實施方式
,但本發(fā)明的保護范圍并不局限于此, 任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,可輕易想到的變化或替換, 都應涵蓋在本發(fā)明的保護范圍之內。因此,本發(fā)明的保護范圍應該以權利要求的保護范圍 為準。
權利要求
一種對文檔進行分類的方法,其特征在于,包括基于待分類文檔的各個目標類對應的知識信息,對所述待分類文檔的文本信息和詞語集合進行協(xié)同聚類處理,獲得知識信息聚類結果和所述待分類文檔的詞語聚類結果;將所述待分類文檔的詞語聚類結果與所述待分類文檔的各個目標類的關鍵詞組進行相似度計算,得到第一計算結果;或者,將所述待分類文檔的詞語聚類結果與所述知識信息聚類結果進行相似度計算,得到第二計算結果;根據(jù)所述第一計算結果或第二計算結果對所述待分類文檔進行分類。
2.根據(jù)權利要求1所述的對文檔進行分類的方法,其特征在于,所述方法還包括確定待分類文檔的類別體系,該類別體系中包括各個目標類和相應的子類,定義各個 目標類的關鍵詞組;通過各個目標類的關鍵詞組,搜索獲取知識數(shù)據(jù)庫中能夠描述各個目標類的純文本的 知識信息,將所述知識信息和相應的目標類進行關聯(lián)存儲。
3.根據(jù)權利要求2所述的對文檔進行分類的方法,其特征在于,所述方法還包括從互聯(lián)網中獲取網頁和文檔信息,對所述網頁和文檔信息進行解析,將解析后獲取的 純文本的數(shù)據(jù)信息存放在知識數(shù)據(jù)庫中。
4.根據(jù)權利要求1所述的對文檔進行分類的方法,其特征在于,所述的方法還包括對待分類文檔的內容進行解析,獲得待分類文檔的文本信息,對該文本信息進行分詞、或去停用詞、或去生僻詞的處理后,獲得待分類文檔的詞語集合。
5.根據(jù)權利要求1至4任一項所述的對文檔進行分類的方法,其特征在于,所述的基于 所述待分類文檔的各個目標類對應的知識信息,對所述文本信息和詞語集合執(zhí)行協(xié)同聚類 處理,獲得所述待分類文檔的詞語聚類結果和知識信息聚類結果包括對所述文本信息和詞語集合執(zhí)行協(xié)同聚類處理,對所述知識信息和所述詞語集合執(zhí)行 協(xié)同聚類處理;確定基于知識信息的所述文本信息和詞語集合的協(xié)同聚類互信息損失,當判斷所述協(xié) 同聚類互信息損失不是最小時,繼續(xù)對所述文本信息和詞語集合、知識信息和詞語集合執(zhí) 行協(xié)同聚類處理,繼續(xù)判斷所述協(xié)同聚類互信息損失是不是最小;當判斷所述協(xié)同聚類互 信息損失為最小時,輸出最優(yōu)的待分類文檔的詞語集合和文本聚類結果,輸出知識信息聚 類結果。
6.根據(jù)權利要求5所述的方法,其特征在于,所述的將所述待分類文檔的詞語聚類結 果與所述待分類文檔的各個目標類的關鍵詞組或者與所述知識信息聚類結果進行相似度 計算,根據(jù)所述相似度計算的結果對所述待分類文檔進行分類包括獲取所述詞語聚類結果中的文本簇,將該文本簇分別與所述待分類文檔的每個目標 類的關鍵詞組進行相似度計算,將最高的相似度值對應的目標類作為所述文本簇的分類結 果;依次將所述詞語聚類結果中的每個文本簇進行分類,完成所述待分類文擋的分類;或者,獲取所述詞語聚類結果中的文本簇,將該文本簇分別與所述知識信息聚類結果中的每 個目標類的文本簇進行相似度計算,將最高的相似度值對應的所述知識信息聚類結果中的目標類作為所述文本簇的分類結果;依次將所述詞語聚類結果中的每個文本簇進行分類, 完成所述待分類文擋的分類。
7.一種文檔分類裝置,其特征在于,包括協(xié)同聚類處理模塊,用于基于待分類文檔的各個目標類對應的知識信息,對所述待分 類文檔的文本信息和詞語集合進行協(xié)同聚類處理,獲得知識信息聚類結果和所述待分類文 檔的詞語聚類結果;基于相似度的分類處理模塊,用于將所述待分類文檔的詞語聚類結果與所述待分類文 檔的各個目標類的關鍵詞組進行相似度計算,得到第一計算結果;或者,將所述待分類文檔 的詞語聚類結果與所述知識信息聚類結果進行相似度計算,得到第二計算結果;根據(jù)所述 第一計算結果或第二計算結果對所述待分類文檔進行分類。
8.根據(jù)權利要求7所述的對文檔進行分類的裝置,其特征在于,所述裝置還包括預處理模塊,用于對待分類文檔進行預處理,獲得待分類文檔的文本信息和詞語集合。
9.根據(jù)權利要求7所述的對文檔進行分類的裝置,其特征在于,所述裝置還包括類別體系確定模塊,用于確定待分類文檔的類別體系,該類別體系中包括各個目標類 和相應的子類,定義各個目標類的關鍵詞組;知識信息獲取模塊,用于通過所述待分類文檔的類別體系中的各個目標類的關鍵詞 組,搜索獲取知識數(shù)據(jù)庫中能夠描述各個目標類的純文本的知識信息,將所述知識信息和 相應的目標類進行關聯(lián)存儲。
10.根據(jù)權利要求7所述的對文檔進行分類的裝置,其特征在于,所述協(xié)同聚類處理模 塊包括執(zhí)行計算模塊,用于對所述文本信息和詞語集合進行協(xié)同聚類處理,并對所述知識信 息和所述詞語集合執(zhí)行協(xié)同聚類處理,確定基于知識信息的所述文本信息和詞語集合的協(xié) 同聚類互信息損失,傳輸給判斷輸出模塊;判斷輸出模塊,用于當判斷所述執(zhí)行計算模塊傳輸過來的協(xié)同聚類互信息損失不是最 小時,指示所述執(zhí)行計算模塊對所述文本信息和詞語集合、知識信息和詞語集合執(zhí)行協(xié)同 聚類處理,判斷所述執(zhí)行計算模塊傳輸過來的協(xié)同聚類互信息損失是否為最小;當所述協(xié)同聚類互信息損失為最小時,輸出最優(yōu)的待分類文檔的詞語集合和文本聚類 結果,輸出知識信息聚類結果。
11.根據(jù)權利要求7至10任一項所述的對文檔進行分類的裝置,其特征在于,所述基于 相似度的分類處理模塊包括相似度計算模塊和分類處理模塊,其中,相似度計算模塊,用于取出所述詞語聚類結果中的文本簇,將該文本簇分別與所述待 分類文檔的每個目標類的關鍵詞組進行相似度計算,分別獲取相應的相似度值,傳輸給分 類處理模塊;分類處理模塊,用于將所述相似度計算模塊傳輸過來的最高的相似度值對應的目標類 作為所述文本簇的分類結果;依次將所述詞語聚類結果中的每個文本簇進行分類,完成所 述待分類文擋的分類;或者,相似度計算模塊,用于取出所述詞語聚類結果中的文本簇,將該文本簇分別與所述知 識信息聚類結果中的每個目標類的文本簇進行相似度計算,分別獲取相應的相似度值,傳輸給分類處理模塊;分類處理模塊,用于將所述相似度計算模塊傳輸過來的最高的相似度值對應的所述知 識信息聚類結果中的目標類作為所述文本簇的分類結果;依次將所述詞語聚類結果中的每 個文本簇進行分類,完成所述待分類文擋的分類。
12. —種網絡系統(tǒng),其特征在于,包括至少一個計算機和至少一個服務器,所述計算機 和服務器中至少有一個包括如權利要求7 11任一項所述的對文檔進行分類的裝置。
全文摘要
本發(fā)明實施例提供了一種對文檔進行分類的方法及裝置。該方法主要包括基于待分類文檔的各個目標類對應的知識信息,對所述待分類文檔的文本信息和詞語集合進行協(xié)同聚類處理,獲得所述待分類文檔的詞語聚類結果和知識信息聚類結果。然后,將所述待分類文檔的詞語聚類結果與所述待分類文檔的各個目標類的關鍵詞組或者與所述知識信息聚類結果進行相似度計算,根據(jù)所述相似度計算的結果對所述待分類文檔進行分類。本發(fā)明實施例通過基于知識監(jiān)督的協(xié)同聚類算法和相似度計算方法,完成待分類文擋的分類過程,從而避開了傳統(tǒng)的分類方法中的人工標注大規(guī)模的訓練語料數(shù)據(jù)的環(huán)節(jié)。
文檔編號G06F17/30GK101853250SQ20091008115
公開日2010年10月6日 申請日期2009年4月3日 優(yōu)先權日2009年4月3日
發(fā)明者萬嘉, 劉存?zhèn)? 薛貴榮, 陸元飛, 黃西華 申請人:華為技術有限公司