国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于微博內(nèi)容的關鍵詞挖掘方法及系統(tǒng)的制作方法

      文檔序號:6638564閱讀:573來源:國知局
      基于微博內(nèi)容的關鍵詞挖掘方法及系統(tǒng)的制作方法
      【專利摘要】本發(fā)明提供一種基于微博內(nèi)容的關鍵詞挖掘方法,對于所有微博文本經(jīng)分詞得到的所有詞的集合中的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉發(fā)的次數(shù)來計算該詞的權重;并選取其權重大于預定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。該方法即考慮了詞語在各個微博文本中出現(xiàn)的頻率,又考慮了同一微博文本在微博數(shù)據(jù)集中轉發(fā)情況對挖掘關鍵詞的準確性的影響,因此提高了獲取微博文本關鍵詞的精確度。
      【專利說明】基于微博內(nèi)容的關鍵詞挖掘方法及系統(tǒng)

      【技術領域】
      [0001] 本發(fā)明屬于數(shù)據(jù)挖掘領域,尤其設及對用戶微博內(nèi)容的關鍵詞挖掘方法。

      【背景技術】
      [0002] 隨著互聯(lián)網(wǎng)在中國的不斷曬起與發(fā)展,微博已經(jīng)成為中國目前比較流行的社交網(wǎng) 絡服務平臺。在國內(nèi)新浪微博注冊用戶已經(jīng)超過5億。微博用戶在使用微博的時候,經(jīng)常 W短文本的形式來描述一些感興趣的事情,來表達自己的一些觀點。微博用戶在微博上發(fā) 送大量微博,產(chǎn)生大量有價值的信息,并且網(wǎng)民喜歡通過微博來獲取信息,表達觀點和傳播 思想。因此需要提取微博中有價值的信息的方法。
      [0003] 關鍵詞挖掘是數(shù)據(jù)挖掘領域中很重要的一種關鍵技術。文本的關鍵詞是文本知 識獲取與表示的基本單元之一。對文本進行分詞來獲取關鍵詞在文本分類、聚類、資源服 務等領域有著廣泛的應用。現(xiàn)有的獲取文本關鍵詞的方法主要包括;TF-IDF方法、互信 息方法、樸素貝葉斯分類方法、最大滴模型法、最大似然性等方法。目前較常用的方法是 TF-IDF (term frequency - inverse document frequency,詞步巧-逆向文檔步巧率)方法,該 方法對文檔進行分詞后統(tǒng)計每個詞的詞頻TF和逆向文檔頻率IDF。其中詞頻TF指的是某 一個給定的詞語在一個文檔中出現(xiàn)的次數(shù)。逆向文檔頻率IDF是一個詞語普遍重要性的度 量。某一特定詞語的IDF,可W由總文件數(shù)目除W包含該詞語的文件的數(shù)目,再將得到的商 取對數(shù)得到。某一特定文檔內(nèi)詞語的高的TF,W及該詞語在整個文檔集合中低的IDF,可W 產(chǎn)生出高權重的TF-IDF。也就是說,TF-IDF傾向于保留文檔中較為特別的詞語,過濾常用 詞。但是該方法提取關鍵詞的精度并不是很好,并且該方法僅是針對規(guī)范或格式化的常規(guī) 文檔,并沒有考慮微博文本所具有的實時更新、用詞不規(guī)范,各種新詞不斷出現(xiàn)、某些微博 文本不斷被轉發(fā)等特點。


      【發(fā)明內(nèi)容】

      [0004] 因此,本發(fā)明的目的在于克服上述現(xiàn)有技術的缺陷,提供一種基于微博內(nèi)容的關 鍵詞挖掘方法。
      [0005] 本發(fā)明的目的是通過W下技術方案實現(xiàn)的:
      [0006] 一方面,本發(fā)明提供了一種基于微博內(nèi)容的關鍵詞挖掘方法,包括:
      [0007] 步驟1,對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞,并統(tǒng)計每個詞在該 微博文本中出現(xiàn)的次數(shù)W及該微博文本被轉發(fā)的次數(shù);
      [000引步驟2,對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該 微博文本被轉發(fā)的次數(shù)來計算該詞的權重;
      [0009] 步驟3,選取其權重大于預定闊值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。 N
      [0010] 在上述方法中,在所述步驟2,對于任一個詞語t,其權重可W為:,其中N i=l 為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),ti是詞語t在第i個微博文本中出現(xiàn)的次數(shù), 6/ = ^,fi是第i個微博文本被轉發(fā)的次數(shù),fm"是微博數(shù)據(jù)集中微博文本的最大轉發(fā) J max 數(shù)。
      [0011] 在上述方法中,在所述步驟2,對于任一個詞語t,其權重可W為:

      【權利要求】
      1. 一種基于微博內(nèi)容的關鍵詞挖掘方法,所述方法包括: 步驟1,對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞,并統(tǒng)計每個詞在該微博 文本中出現(xiàn)的次數(shù)以及該微博文本被轉發(fā)的次數(shù); 步驟2,對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博 文本被轉發(fā)的次數(shù)來計算該詞的權重; 步驟3,選取其權重大于預定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。
      2. 根據(jù)權利要求1所述的方法,在所述步驟2中,對于任一個詞語t,其權重為:
      本的最大轉發(fā)數(shù)。
      5. 根據(jù)權利要求1、2、3或4所述的方法,還包括在步驟1之前實時抓取微博網(wǎng)絡數(shù)據(jù), 以及定期地對所抓取的微博網(wǎng)絡數(shù)據(jù)的步驟。
      6. 根據(jù)權利要求1、2、3或4所述的方法,還包括將所挖掘的關鍵詞以詞云的形式提供 給用戶。
      7. -種基于微博內(nèi)容的關鍵詞挖掘系統(tǒng),所述系統(tǒng)包括: 微博文本分詞和統(tǒng)計裝置,用于對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分 詞,并統(tǒng)計每個詞在該微博文本中出現(xiàn)的次數(shù)以及該微博文本被轉發(fā)的次數(shù);
      關鍵詞挖掘裝置,用于對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn) 的次數(shù)及該微博文本被轉發(fā)的次數(shù)來計算該詞的權重,以及選取其權重大于預定閾值的詞 作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。
      8. 根據(jù)權利要求7所述的系統(tǒng),其中,對于任一個詞語t,其權重為 中N為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),&是詞語t在第i個微博文本中出現(xiàn)的次
      fi是第i個微博文本被轉發(fā)的次數(shù),是微博數(shù)據(jù)集中微博文本的最大轉 發(fā)數(shù)。
      9. 根據(jù)權利要求7或8所述的系統(tǒng),還包括微博數(shù)據(jù)抓取裝置,用于實時抓取微博網(wǎng)絡 數(shù)據(jù),并定期地將所抓取的微博網(wǎng)絡數(shù)據(jù)傳遞給微博文本分詞和統(tǒng)計裝置進行處理。
      10. 根據(jù)權利要求7或8所述的系統(tǒng),還包括關鍵詞展示裝置,用于將關鍵詞挖掘裝置 所挖掘的關鍵詞以詞云的形式提供給用戶。
      【文檔編號】G06F17/30GK104504024SQ201410768704
      【公開日】2015年4月8日 申請日期:2014年12月11日 優(yōu)先權日:2014年12月11日
      【發(fā)明者】高寶強, 吳波, 曹娟, 張勇東, 李錦濤 申請人:中國科學院計算技術研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1