基于微博內(nèi)容的關鍵詞挖掘方法及系統(tǒng)的制作方法

文檔序號：6638564閱讀：573來源：國知局

基于微博內(nèi)容的關鍵詞挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于微博內(nèi)容的關鍵詞挖掘方法，對于所有微博文本經(jīng)分詞得到的所有詞的集合中的每個詞，基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉發(fā)的次數(shù)來計算該詞的權重；并選取其權重大于預定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。該方法即考慮了詞語在各個微博文本中出現(xiàn)的頻率，又考慮了同一微博文本在微博數(shù)據(jù)集中轉發(fā)情況對挖掘關鍵詞的準確性的影響，因此提高了獲取微博文本關鍵詞的精確度。
【專利說明】基于微博內(nèi)容的關鍵詞挖掘方法及系統(tǒng)

【技術領域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領域，尤其設及對用戶微博內(nèi)容的關鍵詞挖掘方法。

【背景技術】
[0002] 隨著互聯(lián)網(wǎng)在中國的不斷曬起與發(fā)展，微博已經(jīng)成為中國目前比較流行的社交網(wǎng) 絡服務平臺。在國內(nèi)新浪微博注冊用戶已經(jīng)超過5億。微博用戶在使用微博的時候，經(jīng)常 W短文本的形式來描述一些感興趣的事情，來表達自己的一些觀點。微博用戶在微博上發(fā) 送大量微博，產(chǎn)生大量有價值的信息，并且網(wǎng)民喜歡通過微博來獲取信息，表達觀點和傳播思想。因此需要提取微博中有價值的信息的方法。
[0003] 關鍵詞挖掘是數(shù)據(jù)挖掘領域中很重要的一種關鍵技術。文本的關鍵詞是文本知識獲取與表示的基本單元之一。對文本進行分詞來獲取關鍵詞在文本分類、聚類、資源服務等領域有著廣泛的應用。現(xiàn)有的獲取文本關鍵詞的方法主要包括；TF-IDF方法、互信息方法、樸素貝葉斯分類方法、最大滴模型法、最大似然性等方法。目前較常用的方法是 TF-IDF (term frequency - inverse document frequency，詞步巧-逆向文檔步巧率）方法，該方法對文檔進行分詞后統(tǒng)計每個詞的詞頻TF和逆向文檔頻率IDF。其中詞頻TF指的是某一個給定的詞語在一個文檔中出現(xiàn)的次數(shù)。逆向文檔頻率IDF是一個詞語普遍重要性的度量。某一特定詞語的IDF，可W由總文件數(shù)目除W包含該詞語的文件的數(shù)目，再將得到的商取對數(shù)得到。某一特定文檔內(nèi)詞語的高的TF，W及該詞語在整個文檔集合中低的IDF，可W 產(chǎn)生出高權重的TF-IDF。也就是說，TF-IDF傾向于保留文檔中較為特別的詞語，過濾常用詞。但是該方法提取關鍵詞的精度并不是很好，并且該方法僅是針對規(guī)范或格式化的常規(guī) 文檔，并沒有考慮微博文本所具有的實時更新、用詞不規(guī)范，各種新詞不斷出現(xiàn)、某些微博文本不斷被轉發(fā)等特點。

【發(fā)明內(nèi)容】

[0004] 因此，本發(fā)明的目的在于克服上述現(xiàn)有技術的缺陷，提供一種基于微博內(nèi)容的關鍵詞挖掘方法。
[0005] 本發(fā)明的目的是通過W下技術方案實現(xiàn)的：
[0006] 一方面，本發(fā)明提供了一種基于微博內(nèi)容的關鍵詞挖掘方法，包括：
[0007] 步驟1，對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞，并統(tǒng)計每個詞在該微博文本中出現(xiàn)的次數(shù)W及該微博文本被轉發(fā)的次數(shù)；
[000引步驟2,對于經(jīng)分詞后得到的每個詞，基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉發(fā)的次數(shù)來計算該詞的權重；
[0009] 步驟3,選取其權重大于預定闊值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。 N
[0010] 在上述方法中，在所述步驟2,對于任一個詞語t，其權重可W為：，其中N i=l 為該微博數(shù)據(jù)集所包含的微博文本的總數(shù)，ti是詞語t在第i個微博文本中出現(xiàn)的次數(shù)， 6/ = ^，fi是第i個微博文本被轉發(fā)的次數(shù)，fm"是微博數(shù)據(jù)集中微博文本的最大轉發(fā) J max 數(shù)。
[0011] 在上述方法中，在所述步驟2,對于任一個詞語t，其權重可W為：

【權利要求】
1. 一種基于微博內(nèi)容的關鍵詞挖掘方法，所述方法包括：步驟1，對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞，并統(tǒng)計每個詞在該微博文本中出現(xiàn)的次數(shù)以及該微博文本被轉發(fā)的次數(shù)；步驟2,對于經(jīng)分詞后得到的每個詞，基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉發(fā)的次數(shù)來計算該詞的權重；步驟3,選取其權重大于預定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。
2. 根據(jù)權利要求1所述的方法，在所述步驟2中，對于任一個詞語t，其權重為：
本的最大轉發(fā)數(shù)。
5. 根據(jù)權利要求1、2、3或4所述的方法，還包括在步驟1之前實時抓取微博網(wǎng)絡數(shù)據(jù)，以及定期地對所抓取的微博網(wǎng)絡數(shù)據(jù)的步驟。
6. 根據(jù)權利要求1、2、3或4所述的方法，還包括將所挖掘的關鍵詞以詞云的形式提供給用戶。
7. -種基于微博內(nèi)容的關鍵詞挖掘系統(tǒng)，所述系統(tǒng)包括：微博文本分詞和統(tǒng)計裝置，用于對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞，并統(tǒng)計每個詞在該微博文本中出現(xiàn)的次數(shù)以及該微博文本被轉發(fā)的次數(shù)；
關鍵詞挖掘裝置，用于對于經(jīng)分詞后得到的每個詞，基于該詞在每個微博文本中出現(xiàn) 的次數(shù)及該微博文本被轉發(fā)的次數(shù)來計算該詞的權重，以及選取其權重大于預定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。
8. 根據(jù)權利要求7所述的系統(tǒng)，其中，對于任一個詞語t，其權重為中N為該微博數(shù)據(jù)集所包含的微博文本的總數(shù)，&是詞語t在第i個微博文本中出現(xiàn)的次
fi是第i個微博文本被轉發(fā)的次數(shù)，是微博數(shù)據(jù)集中微博文本的最大轉發(fā)數(shù)。
9. 根據(jù)權利要求7或8所述的系統(tǒng)，還包括微博數(shù)據(jù)抓取裝置，用于實時抓取微博網(wǎng)絡數(shù)據(jù)，并定期地將所抓取的微博網(wǎng)絡數(shù)據(jù)傳遞給微博文本分詞和統(tǒng)計裝置進行處理。
10. 根據(jù)權利要求7或8所述的系統(tǒng)，還包括關鍵詞展示裝置，用于將關鍵詞挖掘裝置所挖掘的關鍵詞以詞云的形式提供給用戶。
【文檔編號】G06F17/30GK104504024SQ201410768704
【公開日】2015年4月8日申請日期:2014年12月11日優(yōu)先權日:2014年12月11日
【發(fā)明者】高寶強, 吳波, 曹娟, 張勇東, 李錦濤申請人:中國科學院計算技術研究所

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：高寶強;吳波;曹娟;張勇東;李錦濤;
技術所有人：中國科學院計算技術研究所;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

百度關鍵詞挖掘相關技術

百度關鍵詞挖掘工具相關技術

關鍵詞挖掘工具相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于微博內(nèi)容的關鍵詞挖掘方法及系統(tǒng)的制作方法