国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于關(guān)鍵詞提取和基尼系數(shù)的微博用戶分類方法

      文檔序號:6502594閱讀:314來源:國知局
      基于關(guān)鍵詞提取和基尼系數(shù)的微博用戶分類方法
      【專利摘要】基于關(guān)鍵詞提取和基尼系數(shù)的微博用戶分類方法。在本發(fā)明中,我們對微博用戶發(fā)表的內(nèi)容進行關(guān)鍵詞的提取與聚類以得到興趣領(lǐng)域,由用戶在不同興趣領(lǐng)域的興趣度,使用洛倫茲曲線和基尼系數(shù)對其進行分類。計算用戶基尼系數(shù)的均值μ和標準差σ,以(μ-2σ)、(μ-σ)、μ、(μ+σ)和(μ+2σ)作為分界值,將微博用戶分為六種類型:興趣極廣泛型、興趣較廣泛型、興趣中庸偏廣泛型、興趣中庸偏狹窄型、興趣較狹窄型、興趣極狹窄型。在投放廣告時,按照投放廣告的大眾程度,對基尼系數(shù)排名使用控制值進行投放。通過使用控制值,能夠避免胡亂投發(fā)廣告,引起用戶反感。本發(fā)明對微博用戶的分類提供了一種全新的方法,并為微博營銷、個性化服務(wù)等提供了一種新的參考,具有較強的實用性與實踐價值。
      【專利說明】基于關(guān)鍵詞提取和基尼系數(shù)的微博用戶分類方法

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于用戶分類技術(shù),具體涉及一種基于關(guān)鍵詞提取、洛倫茲曲線以及基尼 系數(shù)的微博用戶分類方法。

      【背景技術(shù)】
      [0002] 隨著信息技術(shù)以及網(wǎng)絡(luò)的高速發(fā)展,越來越多的Web2. 0服務(wù)出現(xiàn)在人們的生活 中。微博是一個基于用戶關(guān)注與微博轉(zhuǎn)發(fā)的信息分享與傳播平臺,用戶可以通過網(wǎng)頁客戶 端,手機客戶端和第三方應用程序等多種方式,隨時隨地發(fā)布140個字符以內(nèi)的微博信息, 實現(xiàn)用戶之間的即時分享。3G技術(shù)的發(fā)展和手機移動上網(wǎng)功能逐步完善,為微博"井噴式" 的發(fā)展提供了便利的條件。2013年1月,中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布《第31次中國互聯(lián)網(wǎng) 絡(luò)發(fā)展統(tǒng)計報告》,統(tǒng)計結(jié)果顯示,截至2012年12月底,我國微博用戶規(guī)模為3. 09億,較 2011年底增幅達到23. 5%。
      [0003] 現(xiàn)如今,微博已經(jīng)成為中國網(wǎng)民使用的主流應用。微博具有的龐大用戶規(guī)模,進一 步地鞏固了其網(wǎng)絡(luò)輿論傳播中心的地位。微博以其龐大的用戶規(guī)模和影響力進一步鞏固加 強了微博作為網(wǎng)絡(luò)輿論的傳播中心的地位,無論是普通網(wǎng)民,草根用戶,還是傳統(tǒng)媒體或意 見領(lǐng)袖,其獲取消息、傳播新聞、制造輿論、發(fā)表觀點的途徑都不同程度地向微博平臺傾斜 轉(zhuǎn)向,微博正重新塑造著輿論的產(chǎn)生和傳播機制。微博持續(xù)增長的人氣使得對其內(nèi)容的分 析十分重要,以便于在此類事件中,微博的信息可以被有效地利用。
      [0004] 作為一個用戶基數(shù)極大、用戶活躍度很高的社交平臺,微博是一個非常有潛力的 市場。通過對微博進行分析,可以挖掘出很多有用的信息,從而發(fā)揮其商業(yè)價值?;谟脩?興趣、行為習慣和在網(wǎng)絡(luò)中的位置等,對微博用戶進行劃分,可以幫助商品的制造商和銷售 商更加準確地找到自己產(chǎn)品的潛在購買者,也便于進行更加精準的市場營銷;挖掘出其中 最有影響力、最受關(guān)注的用戶,對其進行有針對性地投放一些市場調(diào)查或商業(yè)廣告,可以取 得更好的效果。
      [0005] 隨著微博在國內(nèi)的普及,微博用戶數(shù)量的急劇增加,對微博用戶的研究也逐漸展 開。目前國內(nèi)對于微博用戶興趣的研究大多為根據(jù)用戶以往的歷史行為如關(guān)注信息等對其 進行興趣建模,在此基礎(chǔ)上對用戶進行分類。但是,用戶不僅有不同的興趣領(lǐng)域,他們對不 同興趣領(lǐng)域的興趣程度也是不同的。有些用戶興趣廣泛,對很多領(lǐng)域內(nèi)的事物都保持著相 當?shù)呐d趣,且樂于接受相關(guān)領(lǐng)域內(nèi)的新事物。而有些用戶非常專一,只喜歡特定的少部分的 事物,并且只希望在該領(lǐng)域內(nèi)繼續(xù)深入,而不希望拓展自己的興趣領(lǐng)域。所以,很多時候會 出現(xiàn)這樣的情況。例如,雖然兩個用戶都喜歡音樂,但一名用戶是愛好廣泛型,而另一名用 戶為愛好狹窄型,則對這兩名用戶所做的推薦就應該有所區(qū)別。另外,如果一名用戶只喜歡 音樂,而另一名用戶只喜歡電影,那么這兩名用戶也擁有著相同的興趣模式,而已有的劃分 方法往往將他們分到不同的類別中去。因此有必要找到一種能夠劃分用戶興趣領(lǐng)域并度量 用戶對各個興趣領(lǐng)域的興趣度的方法,從而對用戶進行分類。
      [0006] 本發(fā)明新提出基于關(guān)鍵詞提取和基尼系數(shù)的微博用戶劃分方法,在對微博用戶發(fā) 表的內(nèi)容進行關(guān)鍵詞提取并聚類得到興趣領(lǐng)域的基礎(chǔ)上,計算用戶的基尼系數(shù)并對其進行 客觀的劃分。在本發(fā)明中,我們使用API接口,抓取微博數(shù)據(jù),對用戶發(fā)表的微博內(nèi)容進行 關(guān)鍵詞提取并聚類以得到興趣領(lǐng)域,使用空間向量模型表示用戶對興趣領(lǐng)域的興趣度,利 用洛倫茲曲線和基尼系數(shù)對用戶興趣度進行定性與定量的度量,并據(jù)此對用戶進行分類。 本發(fā)明對微博用戶的分類從新的角度提供了一種新的方法,并為以后對微博用戶進行推薦 提供了參考。


      【發(fā)明內(nèi)容】

      [0007] 本發(fā)明是使用微博開放平臺提供的API接口,抓取數(shù)據(jù),對每個用戶發(fā)表的最近 一個月的微博內(nèi)容進行關(guān)鍵詞提取,使用K-均值聚類算法對關(guān)鍵詞進行聚類以得到興趣 領(lǐng)域,并對各個領(lǐng)域進行分析。使用空間向量模型表示用戶對興趣領(lǐng)域的興趣度,首次提出 將國民經(jīng)濟研究中的洛倫茲曲線和基尼系數(shù)應用到對微博用戶的興趣模式建立中,并據(jù)此 對用戶進行分類。以此考察用戶在每個月內(nèi)的興趣分布情況,以及隨著時間的推移,用戶興 趣分布的改變情況。
      [0008] 目前很多主流的用戶權(quán)限認證都使用Oauth協(xié)議認證。用戶向服務(wù)器請求數(shù)據(jù) 時,使用Oauth協(xié)議認證可以避免每次都需要傳輸用戶名和密碼,通過access_token和 accessjecret使得用戶正常訪問數(shù)據(jù)的同時保證了用戶賬號的安全性。國內(nèi)所有的微博 平臺都是開放的,并為廣大開發(fā)者和用戶提供了開放數(shù)據(jù)分享與傳播的微博開放平臺,其 上有許多供用戶使用的API。通過Oauth認證后,基于這些API,可以進行微博數(shù)據(jù)的抓取。
      [0009] 在取得數(shù)據(jù)之后,對微博內(nèi)容經(jīng)過預處理,并對微博進行分詞處理與去除停用詞。 然后使用TF-IDF算法進行關(guān)鍵詞的提取。具體公式與方法如下:
      [0010]

      【權(quán)利要求】
      1. 每次抓取數(shù)據(jù),只選取微博用戶在最近1個月發(fā)布的微博,每個月都實現(xiàn)一次本發(fā) 明方法,以此來觀察用戶興趣分布的變化情況。
      2. 對每個微博用戶使用TF-IDF算法進行關(guān)鍵詞的提取,剔除重復的關(guān)鍵詞,并進行頻 數(shù)的統(tǒng)計,按照頻數(shù)的降序排列,這里的頻數(shù)指的是有多少個不同用戶出現(xiàn)了該關(guān)鍵詞,對 頻數(shù)設(shè)定閾值為3,去掉頻數(shù)為1和2的關(guān)鍵詞。
      3. 統(tǒng)計所有關(guān)鍵詞的共現(xiàn)次數(shù),以此建立維度分別為關(guān)鍵詞、內(nèi)容為兩個關(guān)鍵詞之間 共現(xiàn)次數(shù)的關(guān)鍵詞共現(xiàn)矩陣,將關(guān)鍵詞共現(xiàn)矩陣導入UCINET軟件中計算兩兩之間的相似 度,然后使用K-均值聚類算法對整體關(guān)鍵詞進行聚類,得到的聚類即為興趣領(lǐng)域。
      4. 使用空間向量模型表示微博用戶對每個興趣領(lǐng)域的興趣度,這里的興趣度指的是每 個用戶關(guān)鍵詞列表中所有關(guān)鍵詞在各個領(lǐng)域中的數(shù)目比重,第一步將用戶對各個領(lǐng)域的興 趣度由低到高排序,第二步由第一步得到的向量模型計算每個用戶在每個領(lǐng)域興趣度的百 分比,第三步對每一個用戶計算第二步中第1組的百分比累加到第t組1 < τ < 7)興趣 度之和占全體興趣度的百分比得到Ueini向量,以全體興趣領(lǐng)域為橫坐標,用戶的興趣度亦 即用戶的U eini向量中的數(shù)值作為縱坐標繪制所有用戶的洛倫茲曲線,然后利用洛倫茲曲線 計算基尼系數(shù)。
      5. 計算整體用戶基尼系數(shù)的均值μ和標準差〇,以(μ-2σ)、(μ-σ)、μ、(μ + σ) 和(μ +2 σ )作為分界值,將微博用戶分為六種類型:興趣極廣泛型:0 < Gini < ( μ -2 〇 ); 興趣較廣泛型:(μ -2 〇 ) < Gini < ( μ - σ );興趣中庸偏廣泛型:(μ - σ ) < Gini < μ ; 興趣中庸偏狹窄型:μ < Gini < ( μ + σ );興趣較狹窄型:(μ + σ ) < Gini < ( μ +2 σ ); 興趣極狹窄型:(μ+2 σ )< Gini < 1. 0。針對不同的用戶類型,可以采取不同的推薦與營 銷策略以及個性化服務(wù)。
      【文檔編號】G06F17/30GK104142950SQ201310169655
      【公開日】2014年11月12日 申請日期:2013年5月10日 優(yōu)先權(quán)日:2013年5月10日
      【發(fā)明者】施曉菁, 梁循, 張海燕 申請人:中國人民大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1