国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種融合成對約束和關(guān)鍵詞的半監(jiān)督文本聚類方法及裝置的制作方法

      文檔序號:6607377閱讀:426來源:國知局
      專利名稱:一種融合成對約束和關(guān)鍵詞的半監(jiān)督文本聚類方法及裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及文本聚類方法,尤其是指一種融合成對約束和關(guān)鍵詞的半監(jiān)督文本聚類方法及裝置。
      背景技術(shù)
      傳統(tǒng)的文本聚類通常采用無監(jiān)督學(xué)習(xí)機(jī)制,自動將主題相近的文本劃分在一起, 而將主題不同的文本劃分開。然而,這種文本聚類方法的表現(xiàn)常常不令人滿意。這由很多原因?qū)е?,比如,無法與用戶交互,劃分結(jié)果難于理解等等。近些年,許多研究者采用半監(jiān)督學(xué)習(xí)策略,融合先驗信息以輔助文本聚類,有效提高了聚類質(zhì)量以及劃分結(jié)果的可理解性。先驗信息主要包含實例層信息和屬性層信息。實例層信息包括類標(biāo)簽,成對約束(pairwise constraints)等形式的數(shù)據(jù)。成對約束信息由被確定屬于同一類的關(guān)系(關(guān)聯(lián)關(guān)系)和被確定不屬于同一類的關(guān)系(非關(guān)聯(lián)關(guān)系) 組成。關(guān)聯(lián)關(guān)系(χ,y)表示實例χ和y相似、必須被劃分在一起;非關(guān)聯(lián)關(guān)系(χ,ζ)表示實例1和ζ不同、必須被劃分開。相比于類標(biāo)簽,成對約束更易獲得。文獻(xiàn)[Jim Sun, Wenbo Zhao,Jiangwei Xue,ZhiyongShen,Yi-Dong Shen. Clustering with feature order preferences. PRICAI 2008,pp. 382-393]定義了一種屬性層信息——屬性排序,該形式信息用(s,t,δ)(δ >0), ws-wt ^ δ進(jìn)行表示,即屬性s的權(quán)重比屬性t的權(quán)重大δ,也即說明屬性s比t要重要得多。屬性排序是一種常見的屬性層信息。對應(yīng)到文本聚類中,即表示某個詞(詞組)比另一個詞(詞組)的重要性程度,這些重要詞通常也即一些關(guān)鍵詞, 然而,在文本聚類中,難以準(zhǔn)確指出關(guān)鍵詞s的權(quán)重究竟比其它詞重要多少。因此,往往用
      二元組(s,δ)來表示關(guān)鍵詞信息(本發(fā)明令3=4,d表示文本數(shù)據(jù)集中的特征詞總數(shù))。
      a在實際應(yīng)用中,用戶往往會同時提供成對約束和關(guān)鍵詞這兩種不同性質(zhì)的信息。 雖然單純基于其中一種限制性信息的半監(jiān)督文本聚類方法可有效提高聚類質(zhì)量,但它們在處理時均未綜合考慮這兩種不同種類信息的融合問題,導(dǎo)致聚類結(jié)果的準(zhǔn)確性和穩(wěn)定性都不高。

      發(fā)明內(nèi)容
      有鑒于此,本發(fā)明提供一種融合成對約束和關(guān)鍵詞的半監(jiān)督文本聚類方法,充分利用這兩種不同性質(zhì)的信息,有效提高聚類結(jié)果的準(zhǔn)確性。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的本發(fā)明的實施提供了一種融合成對約束和關(guān)鍵詞的半監(jiān)督文本聚類方法,該方法包括以下步驟A、利用融合成對約束的半監(jiān)督文本聚類方法對文本數(shù)據(jù)集進(jìn)行劃分,并得到初始特征詞權(quán)重;B、基于初始特征詞權(quán)重,同時融合成對約束和關(guān)鍵詞兩種信息對文本數(shù)據(jù)集進(jìn)行聚類劃分;C、以用戶滿意度為指標(biāo),評價所產(chǎn)生的文本劃分的質(zhì)量,并選擇質(zhì)量高的聚類結(jié)果輸出。由上述的技術(shù)方案可知,本發(fā)明中的半監(jiān)督文本聚類方法,由于在融合成對約束的基礎(chǔ)上,繼續(xù)添加關(guān)鍵詞,在運(yùn)用成對約束學(xué)習(xí)特征詞權(quán)重的同時,利用關(guān)鍵詞對相應(yīng)的特征詞權(quán)重進(jìn)行調(diào)整,使這兩種先驗信息相互影響,相互促進(jìn),所以可獲得更準(zhǔn)確的聚類結(jié)
      : O


      圖1為本發(fā)明實施例中融合成對約束和關(guān)鍵詞的半監(jiān)督文本聚類方法的流程圖。圖2為本發(fā)明實施例中基于初始特征詞權(quán)重,同時融合兩種信息對文本數(shù)據(jù)集進(jìn)行劃分的流程圖。圖3為本發(fā)明實例中一種融合成對約束和關(guān)鍵詞的半監(jiān)督文本聚類裝置的結(jié)構(gòu)圖。
      具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)表達(dá)得更加清楚明白,下面結(jié)合附圖及具體實施例對本發(fā)明再作進(jìn)一步詳細(xì)說明。本發(fā)明提供了一種半監(jiān)督文本聚類方法,該方法首先融合成對約束形式的實例層信息以輔助劃分文本數(shù)據(jù)集,并學(xué)習(xí)得到初始特征詞權(quán)重。然后,繼續(xù)添加關(guān)鍵詞形式的屬性層信息,以有效融合這兩種不同性質(zhì)的先驗信息進(jìn)行文本聚類。最后,依據(jù)用戶滿意度評估上述兩步的聚類質(zhì)量,并選擇質(zhì)量高的文本劃分為最終的聚類結(jié)果。在文本聚類前,需對文本數(shù)據(jù)集進(jìn)行預(yù)處理,將文本數(shù)據(jù)集轉(zhuǎn)化為聚類方法可以處理的形式。文本預(yù)處理主要由分詞處理、特征詞提取、文本向量化、規(guī)整數(shù)據(jù)集四個步驟組成。具體的處理過程如下所述1)分詞處理。分詞是依據(jù)某種規(guī)則(如英文中的空格),將指定文本劃分為若干獨(dú)立的詞,并統(tǒng)計每個詞在該文本中出現(xiàn)的次數(shù)。2)特征詞提取。文本集中的詞非常多,因此需去除不常用的、不重要的詞,保留更具代表性的詞。 在特征詞提取時,本發(fā)明去除停用詞、出現(xiàn)頻率過低或過高的詞,并依據(jù)特征詞構(gòu)建文本集的詞典。3)文本向量化。文本向量化,即將文本集中的文本表示為高維歐幾里德空間中的向量,文本向量的所有維度與詞典中的特征詞一一對應(yīng)。本發(fā)明使用詞頻逆文本頻率(TFIDF)方法來表示文本集
      權(quán)利要求
      1.一種融合成對約束和關(guān)鍵詞的半監(jiān)督文本聚類方法及裝置,其特征在于,該方法及裝置包括以下步驟A、利用融合成對約束的半監(jiān)督文本聚類方法對文本數(shù)據(jù)集進(jìn)行劃分,并得到初始特征詞權(quán)重;B、基于初始特征詞權(quán)重,同時融合成對約束和關(guān)鍵詞兩種信息對文本數(shù)據(jù)集進(jìn)行聚類劃分;C、以用戶滿意度為指標(biāo),評價所產(chǎn)生的文本劃分的質(zhì)量,并選擇質(zhì)量高的聚類結(jié)果輸出ο
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于步驟A中初始特征詞權(quán)重通過測度學(xué)習(xí)得到。
      3.根據(jù)權(quán)利要求1所述的方法,其特征在于步驟B中半監(jiān)督文本聚類采用廣義I散度對文本距離進(jìn)行度量。
      4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A和步驟B中半監(jiān)督聚類為軟限制性優(yōu)化聚類方法。
      5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟C中用戶滿意度采用對用戶所提供成對約束信息的滿足程度度量。
      6.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A之前還包括對所述文本集進(jìn)行預(yù)處理;所述預(yù)處理包括文本分詞、特征詞提取、文本向量化和規(guī)整數(shù)據(jù)集。
      7.一種融合成對約束和關(guān)鍵詞的半監(jiān)督文本聚類裝置,其特征在于,該裝置包括預(yù)處理模塊、融合成對約束的文本聚類模塊、融合成對約束和關(guān)鍵詞兩種信息的半監(jiān)督文本聚類模塊和評價及選擇結(jié)果模塊;所述預(yù)處理模塊,用于對文本數(shù)據(jù)集進(jìn)行預(yù)處理,以得到向量化的文本數(shù)據(jù)集;所述融合成對約束的文本聚類模塊通過學(xué)習(xí)成對約束,得到初始特征詞權(quán)重,并對文本數(shù)據(jù)集進(jìn)行劃分;所述融合成對約束和關(guān)鍵詞兩種信息的半監(jiān)督文本聚類模塊利用所獲得的特征詞權(quán)重進(jìn)行初始化,同時融合成對約束和關(guān)鍵詞兩種信息進(jìn)行文本聚類;所述評價及選擇結(jié)果模塊以用戶滿意度為標(biāo)準(zhǔn)評價文本劃分結(jié)果,并選擇其中質(zhì)量高的結(jié)果作為最終聚類結(jié)果進(jìn)行輸出。
      8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述預(yù)處理模塊包括文本分詞單元、特征詞提取單元、文本向量化單元和規(guī)整數(shù)據(jù)集單元;所述文本分詞單元,用于將文本集中的所有文本劃分為若干獨(dú)立的單詞,并統(tǒng)計每個單詞在相應(yīng)文本中出現(xiàn)的次數(shù);所述特征詞提取單元,用于去除停用詞、出現(xiàn)頻率過高或過低的詞,提取出重要的詞, 并構(gòu)建文本集的詞典;所述文本向量化單元,利用詞頻逆文本頻率方法將文本數(shù)據(jù)集表示為高維歐幾里德空間中的文本向量;所述規(guī)整數(shù)據(jù)集單元,用于對向量化后的文本數(shù)據(jù)進(jìn)行規(guī)整。
      9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述融合成對約束的文本聚類模塊包括 初始化特征詞權(quán)重單元和文本聚類單元;所述初始化特征詞權(quán)重單元,利用成對約束構(gòu)建優(yōu)化問題,而后求解得到初始特征詞權(quán)重;所述文本聚類單元,依據(jù)初始特征詞權(quán)重對文本數(shù)據(jù)集進(jìn)行投影,而后對其進(jìn)行聚類。
      全文摘要
      本發(fā)明公開了一種融合成對約束和關(guān)鍵詞的半監(jiān)督文本聚類方法及裝置。本發(fā)明的方法包括融合成對約束輔助文本聚類并得到初始特征詞權(quán)重;基于所獲得的初始特征詞權(quán)重,同時融合成對約束和關(guān)鍵詞進(jìn)行半監(jiān)督聚類;依據(jù)用戶滿意度評估并選擇聚類結(jié)果。本發(fā)明的裝置包括預(yù)處理模塊、融合成對約束的文本聚類模塊、融合成對約束和關(guān)鍵詞兩種信息的半監(jiān)督文本聚類模塊和評價及選擇結(jié)果模塊。由于本發(fā)明所提供的半監(jiān)督文本聚類方法在融合成對約束信息的基礎(chǔ)上,繼續(xù)添加關(guān)鍵詞信息,在運(yùn)用成對約束學(xué)習(xí)特征詞權(quán)重的同時,利用關(guān)鍵詞信息對相應(yīng)的特征詞權(quán)重進(jìn)行調(diào)整,使兩種先驗信息相互影響,相互促進(jìn),所以可獲得更準(zhǔn)確的聚類結(jié)果。
      文檔編號G06F17/30GK102346753SQ20101024762
      公開日2012年2月8日 申請日期2010年8月1日 優(yōu)先權(quán)日2010年8月1日
      發(fā)明者吳舜堯, 李剛, 王金龍 申請人:青島理工大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1