国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于改進(jìn)的lda的微博話題發(fā)現(xiàn)方法

      文檔序號(hào):6636253閱讀:765來(lái)源:國(guó)知局
      一種基于改進(jìn)的lda的微博話題發(fā)現(xiàn)方法
      【專利摘要】本發(fā)明請(qǐng)求保護(hù)一種基于改進(jìn)的LDA的微博話題發(fā)現(xiàn)方法涉及自然語(yǔ)言處理領(lǐng)域,具體是一種基于改進(jìn)的LDA的微博話題發(fā)現(xiàn)的方法。本發(fā)明采用高斯加權(quán)處理對(duì)LDA進(jìn)行改進(jìn),根據(jù)LDA得出的結(jié)果,選取出最有可能跟話題相關(guān)的微博文本,然后用兩層的K均值和層次聚類的混合聚類方法,對(duì)那些最有可能跟話題相關(guān)的微博文本進(jìn)行聚類,從而檢測(cè)出新聞話題。本發(fā)明能較好地解決微博短文本的數(shù)據(jù)稀疏性及數(shù)據(jù)量巨大的問(wèn)題,還能提高熱點(diǎn)話題發(fā)現(xiàn)的準(zhǔn)確度。
      【專利說(shuō)明】一種基于改進(jìn)的LDA的微博話題發(fā)現(xiàn)方法

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于一種微博話題挖掘方法,具體是一種基于改進(jìn)的LDA的微博話題發(fā)現(xiàn) 方法。

      【背景技術(shù)】
      [0002] 隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,我們逐漸步入大數(shù)據(jù)時(shí)代,越來(lái)越多的人在網(wǎng)上發(fā) 表自己的觀點(diǎn)、評(píng)論、看法等。微博是一個(gè)基于用戶關(guān)系的信息分享傳播及獲取平臺(tái)。微博 內(nèi)容簡(jiǎn)單傳播迅速,有利于熱點(diǎn)話題在其中快速擴(kuò)散。因此從微博中檢測(cè)出的熱點(diǎn)話題,對(duì) 輿情監(jiān)控信息安全金融證券行業(yè)調(diào)研都有十分重要的意義。目前,已經(jīng)有許多微博話題發(fā) 現(xiàn)的方法,但是其準(zhǔn)確率都不是很高。文獻(xiàn)檢索:[1]、10. 1145/290941. 290954,1998-08. [2],1000-3428 (2011)04-0067-03,2011-02. [3],1001-9081 (2011)03-0674-03,2011-03.
      [4]、10.1145/1498759. 1498809,2009. [5]、1673-0291 (2010)02-0111-04,2010-04.
      [0003] 近幾年里,已經(jīng)有許多關(guān)于話題發(fā)現(xiàn)的研宄[1],大多數(shù)研宄的方向都是如何改進(jìn) 聚類算法來(lái)提高文本聚類的準(zhǔn)確率。雖然最近的許多基于LDA的話題模型研宄方法已經(jīng)不 再是研宄聚類算法性能的提升,都是關(guān)于削弱標(biāo)準(zhǔn)LDA里的假設(shè)條件的,但是這些方法都 沒(méi)考慮到加權(quán)策略,而合理的加權(quán)策略已經(jīng)廣泛應(yīng)用于主題模型中,比如[2,3]都是采用 了加權(quán)策略的主題模型。
      [0004] 標(biāo)準(zhǔn)的LDA模型同等對(duì)待每個(gè)詞項(xiàng)而不考慮它們的權(quán)重,LDA是一種文檔主題生 成模型,也稱為一個(gè)三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu),從信息理論學(xué)和 語(yǔ)言學(xué)的觀點(diǎn)角度來(lái)講,這種假設(shè)是不成立的,不同權(quán)重的詞項(xiàng)對(duì)熱點(diǎn)話題的貢獻(xiàn)程度是 不一樣的。[4]提出一種基于LDA模型的文檔標(biāo)簽詞頻加權(quán)策略,目的是對(duì)具有相同語(yǔ)義的 標(biāo)簽進(jìn)行合并來(lái)表示文檔,提出LDA加權(quán)的合理性。[5]證明文檔中的特征詞符合冪律分 布,會(huì)使得LDA模型的主題分布向高頻詞傾斜,導(dǎo)致能夠代表主題的多數(shù)詞被少量高頻詞 淹沒(méi),使主題表達(dá)能力降低,這也證明LDA模型中考慮權(quán)重是必要的。
      [0005] 盡管上述研宄應(yīng)用LDA模型體現(xiàn)出很多優(yōu)點(diǎn),也能抓住語(yǔ)料庫(kù)的語(yǔ)義信息,但是 其結(jié)果還是會(huì)受詞頻影響,這樣對(duì)于話題發(fā)現(xiàn)的質(zhì)量有很大影響。本發(fā)明是采用高斯加權(quán) 處理對(duì)LDA進(jìn)行改進(jìn),不但能有效地降低復(fù)雜度,還可以很好地提高微博話題發(fā)現(xiàn)的準(zhǔn)確 度。


      【發(fā)明內(nèi)容】

      [0006] 針對(duì)以上現(xiàn)有技術(shù)中的不足,本發(fā)明的目的在于提供一種能有效地降低復(fù)雜度, 還可以很好地提高微博話題發(fā)現(xiàn)的準(zhǔn)確度的基于改進(jìn)的LDA的微博話題發(fā)現(xiàn)方法,本發(fā)明 的技術(shù)方案如下:
      [0007] -種基于改進(jìn)的LDA的微博話題發(fā)現(xiàn)方法,其包括以下步驟:101、獲取微博數(shù)據(jù), 根據(jù)微博的轉(zhuǎn)發(fā)數(shù)N_rel b和評(píng)論數(shù)N_com b對(duì)每條微博進(jìn)行評(píng)分Score b= a N_rel b+ β N_ comb,其中α和β是加權(quán)因子,選取所有Scoreb多t的微博文本;
      [0008] 102、采用改進(jìn)的三層貝葉斯概率模型LDA確定主題,具體包括以下步驟:
      [0009] A1、采用三層貝葉斯概率模型LDA的分詞系統(tǒng)對(duì)文檔進(jìn)行分詞,并過(guò)濾停用詞形 成微博文檔集;
      [0010] B1、統(tǒng)計(jì)步驟Al中微博文檔集中所有出現(xiàn)的詞匯,并統(tǒng)計(jì)詞頻;
      [0011] C1、采用高斯加權(quán)公式對(duì)文檔中的每個(gè)詞匯m加權(quán),其中fm 是詞m的詞頻,A是平均詞頻;

      【權(quán)利要求】
      1. 一種基于改進(jìn)的LDA的微博話題發(fā)現(xiàn)方法,其特征在于:包括以下步驟:101、獲取 微博數(shù)據(jù),根據(jù)微博的轉(zhuǎn)發(fā)數(shù)N_relb和評(píng)論數(shù)N_comb對(duì)每條微博進(jìn)行評(píng)分Scoreb=αN_ relb+0N_comb,其中α和β是加權(quán)因子,選取所有Scoreb彡t的微博文本; 102、 采用改進(jìn)的三層貝葉斯概率模型LDA確定主題,具體包括以下步驟: A1、采用三層貝葉斯概率模型LDA的分詞系統(tǒng)對(duì)文檔進(jìn)行分詞,并過(guò)濾停用詞形成微 博文檔集; B1、統(tǒng)計(jì)步驟Al中微博文檔集中所有出現(xiàn)的詞匯,并統(tǒng)計(jì)詞頻; Cl、采用高斯加權(quán)公式對(duì)文檔中的每個(gè)詞匯m加權(quán)=exp(-( /": .5.)),其中f;是詞 2σ- m的詞頻,A是平均詞頻; D1、給定參數(shù)N作為微博中包含的主題數(shù),一般取Ne[200,500]且N為整數(shù),并采用 改進(jìn)的LDA主題模型訓(xùn)練文檔集; 103、 采用混合聚類法發(fā)現(xiàn)話題,具體步驟為: A2、經(jīng)過(guò)步驟102中改進(jìn)的三層貝葉斯概率模型LDA處理后,得到文檔-主題矩陣; B2、用K均值聚類方法做第一層聚類,選取一個(gè)類數(shù)目K,K<<選取出來(lái)的微博數(shù)量;B3、對(duì)經(jīng)過(guò)步驟B2K均值聚類的結(jié)果,給定閾值,再進(jìn)行層次聚類,最后獲得熱點(diǎn)話題。
      2. 根據(jù)權(quán)利要求1所述的基于改進(jìn)的LDA的微博話題發(fā)現(xiàn)方法,其特征在于:步驟101 中獲取微博數(shù)據(jù)采用微博平臺(tái)Twitter的數(shù)據(jù)集。
      【文檔編號(hào)】G06F17/30GK104462286SQ201410704252
      【公開日】2015年3月25日 申請(qǐng)日期:2014年11月27日 優(yōu)先權(quán)日:2014年11月27日
      【發(fā)明者】周由勝, 彭恩偉, 劉宴兵, 肖云鵬 申請(qǐng)人:重慶郵電大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1