基于微博內(nèi)容的關鍵詞挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于微博內(nèi)容的關鍵詞挖掘方法,對于所有微博文本經(jīng)分詞得到的所有詞的集合中的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉發(fā)的次數(shù)來計算該詞的權重;并選取其權重大于預定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。該方法即考慮了詞語在各個微博文本中出現(xiàn)的頻率,又考慮了同一微博文本在微博數(shù)據(jù)集中轉發(fā)情況對挖掘關鍵詞的準確性的影響,因此提高了獲取微博文本關鍵詞的精確度。
【專利說明】基于微博內(nèi)容的關鍵詞挖掘方法及系統(tǒng)
【技術領域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領域,尤其設及對用戶微博內(nèi)容的關鍵詞挖掘方法。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)在中國的不斷曬起與發(fā)展,微博已經(jīng)成為中國目前比較流行的社交網(wǎng) 絡服務平臺。在國內(nèi)新浪微博注冊用戶已經(jīng)超過5億。微博用戶在使用微博的時候,經(jīng)常 W短文本的形式來描述一些感興趣的事情,來表達自己的一些觀點。微博用戶在微博上發(fā) 送大量微博,產(chǎn)生大量有價值的信息,并且網(wǎng)民喜歡通過微博來獲取信息,表達觀點和傳播 思想。因此需要提取微博中有價值的信息的方法。
[0003] 關鍵詞挖掘是數(shù)據(jù)挖掘領域中很重要的一種關鍵技術。文本的關鍵詞是文本知 識獲取與表示的基本單元之一。對文本進行分詞來獲取關鍵詞在文本分類、聚類、資源服 務等領域有著廣泛的應用。現(xiàn)有的獲取文本關鍵詞的方法主要包括;TF-IDF方法、互信 息方法、樸素貝葉斯分類方法、最大滴模型法、最大似然性等方法。目前較常用的方法是 TF-IDF (term frequency - inverse document frequency,詞步巧-逆向文檔步巧率)方法,該 方法對文檔進行分詞后統(tǒng)計每個詞的詞頻TF和逆向文檔頻率IDF。其中詞頻TF指的是某 一個給定的詞語在一個文檔中出現(xiàn)的次數(shù)。逆向文檔頻率IDF是一個詞語普遍重要性的度 量。某一特定詞語的IDF,可W由總文件數(shù)目除W包含該詞語的文件的數(shù)目,再將得到的商 取對數(shù)得到。某一特定文檔內(nèi)詞語的高的TF,W及該詞語在整個文檔集合中低的IDF,可W 產(chǎn)生出高權重的TF-IDF。也就是說,TF-IDF傾向于保留文檔中較為特別的詞語,過濾常用 詞。但是該方法提取關鍵詞的精度并不是很好,并且該方法僅是針對規(guī)范或格式化的常規(guī) 文檔,并沒有考慮微博文本所具有的實時更新、用詞不規(guī)范,各種新詞不斷出現(xiàn)、某些微博 文本不斷被轉發(fā)等特點。
【發(fā)明內(nèi)容】
[0004] 因此,本發(fā)明的目的在于克服上述現(xiàn)有技術的缺陷,提供一種基于微博內(nèi)容的關 鍵詞挖掘方法。
[0005] 本發(fā)明的目的是通過W下技術方案實現(xiàn)的:
[0006] 一方面,本發(fā)明提供了一種基于微博內(nèi)容的關鍵詞挖掘方法,包括:
[0007] 步驟1,對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞,并統(tǒng)計每個詞在該 微博文本中出現(xiàn)的次數(shù)W及該微博文本被轉發(fā)的次數(shù);
[000引步驟2,對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該 微博文本被轉發(fā)的次數(shù)來計算該詞的權重;
[0009] 步驟3,選取其權重大于預定闊值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。 N
[0010] 在上述方法中,在所述步驟2,對于任一個詞語t,其權重可W為:,其中N i=l 為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),ti是詞語t在第i個微博文本中出現(xiàn)的次數(shù), 6/ = ^,fi是第i個微博文本被轉發(fā)的次數(shù),fm"是微博數(shù)據(jù)集中微博文本的最大轉發(fā) J max 數(shù)。
[0011] 在上述方法中,在所述步驟2,對于任一個詞語t,其權重可W為:
【權利要求】
1. 一種基于微博內(nèi)容的關鍵詞挖掘方法,所述方法包括: 步驟1,對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞,并統(tǒng)計每個詞在該微博 文本中出現(xiàn)的次數(shù)以及該微博文本被轉發(fā)的次數(shù); 步驟2,對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博 文本被轉發(fā)的次數(shù)來計算該詞的權重; 步驟3,選取其權重大于預定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。
2. 根據(jù)權利要求1所述的方法,在所述步驟2中,對于任一個詞語t,其權重為:
本的最大轉發(fā)數(shù)。
5. 根據(jù)權利要求1、2、3或4所述的方法,還包括在步驟1之前實時抓取微博網(wǎng)絡數(shù)據(jù), 以及定期地對所抓取的微博網(wǎng)絡數(shù)據(jù)的步驟。
6. 根據(jù)權利要求1、2、3或4所述的方法,還包括將所挖掘的關鍵詞以詞云的形式提供 給用戶。
7. -種基于微博內(nèi)容的關鍵詞挖掘系統(tǒng),所述系統(tǒng)包括: 微博文本分詞和統(tǒng)計裝置,用于對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分 詞,并統(tǒng)計每個詞在該微博文本中出現(xiàn)的次數(shù)以及該微博文本被轉發(fā)的次數(shù);
關鍵詞挖掘裝置,用于對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn) 的次數(shù)及該微博文本被轉發(fā)的次數(shù)來計算該詞的權重,以及選取其權重大于預定閾值的詞 作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。
8. 根據(jù)權利要求7所述的系統(tǒng),其中,對于任一個詞語t,其權重為 中N為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),&是詞語t在第i個微博文本中出現(xiàn)的次
fi是第i個微博文本被轉發(fā)的次數(shù),是微博數(shù)據(jù)集中微博文本的最大轉 發(fā)數(shù)。
9. 根據(jù)權利要求7或8所述的系統(tǒng),還包括微博數(shù)據(jù)抓取裝置,用于實時抓取微博網(wǎng)絡 數(shù)據(jù),并定期地將所抓取的微博網(wǎng)絡數(shù)據(jù)傳遞給微博文本分詞和統(tǒng)計裝置進行處理。
10. 根據(jù)權利要求7或8所述的系統(tǒng),還包括關鍵詞展示裝置,用于將關鍵詞挖掘裝置 所挖掘的關鍵詞以詞云的形式提供給用戶。
【文檔編號】G06F17/30GK104504024SQ201410768704
【公開日】2015年4月8日 申請日期:2014年12月11日 優(yōu)先權日:2014年12月11日
【發(fā)明者】高寶強, 吳波, 曹娟, 張勇東, 李錦濤 申請人:中國科學院計算技術研究所