一種基于時(shí)間窗口的lda微博主題趨勢(shì)檢測(cè)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘、自然語言處理和信息檢索領(lǐng)域,具體涉及短文本處理、主題 檢測(cè)與跟蹤,以及網(wǎng)絡(luò)輿情分析的相關(guān)領(lǐng)域,尤其涉及一種基于時(shí)間窗口的LDA微博主題 趨勢(shì)檢測(cè)方法及裝置。
【背景技術(shù)】
[0002] 主題檢測(cè)與跟蹤(TopicDetectionandTracking,TDT)技術(shù)是由美國國防部 高級(jí)研究規(guī)劃署(DARPA)和國家標(biāo)準(zhǔn)技術(shù)局(NIST)發(fā)起的,旨在發(fā)展一系列基于時(shí)間 的信息組織技術(shù),幫助人們應(yīng)對(duì)信息過載問題。國外對(duì)于TDT的研究和起步較早,CMU, Cambridge等一流大學(xué)以及IBM公司在TDT評(píng)測(cè)中已經(jīng)取得了很好的成績(jī)。陸續(xù)地,TDT主 題檢測(cè)的技術(shù)被應(yīng)用到實(shí)踐中;一種基于增量TF-IDF(TermFrequency-InverseDocument Frequency,詞頻-逆向文件頻率)的事件檢測(cè)系統(tǒng)被成功開發(fā);自然語言處理技術(shù)被引入 到主題檢測(cè)中,且有效提高了主題檢測(cè)的質(zhì)量。國內(nèi)在TDT方面的研究相繼起步:TDT系統(tǒng) 評(píng)測(cè)會(huì)議從1999年開始引入漢語;中國臺(tái)灣大學(xué)參加了 1999年的TDT主題檢測(cè)任務(wù)的評(píng) 測(cè);各大學(xué)相關(guān)專業(yè)人士相繼關(guān)注主題檢測(cè)與跟蹤的評(píng)測(cè)及研究;中科院的駱衛(wèi)華等人提 出一種基于多策略優(yōu)化的分治多層聚類算法比基準(zhǔn)方法有了較大的該進(jìn);復(fù)旦大學(xué)的閔可 銳等人采用一種基于知識(shí)庫和網(wǎng)絡(luò)流算法更好地實(shí)現(xiàn)了主題的聚合。
[0003] 潛在狄利克雷(LatentDirichletAllocation,LDA)模型是一種主題檢測(cè)模型, 能夠識(shí)別大規(guī)模文檔集(documentcollection)或者語料庫(corpus)中潛在的主題信息。 LDA模型是Blei等人在2003年提出的一種無監(jiān)督機(jī)器學(xué)習(xí)技術(shù),是一種三層貝葉斯概率 模型,包含:詞語、主題和文檔三層結(jié)構(gòu)。模型的生成過程首先假設(shè)不同主題下詞語按照不 用的概率分布隨機(jī)產(chǎn)生,一個(gè)主題下詞語服從多項(xiàng)式分布;其次假設(shè)不同文檔下主題依照 不同的概率隨機(jī)分布產(chǎn)生;最后對(duì)每一個(gè)文檔從Dirichlet分布中抽樣產(chǎn)生該文檔的主 題分布,結(jié)合主題詞的概率分布隨機(jī)生成文檔中的每一個(gè)詞。這種方法更針對(duì)微博文本的 特點(diǎn)。實(shí)際上LDA模型的主題檢測(cè)過程是上述生成過程的逆過程,在已知文檔中每個(gè)詞的 前提下,采用Gibbs抽樣算法估計(jì)相關(guān)參數(shù),從而獲得文檔集的主題概率分布(BleiDM, NgAY,JordanΜI.Latentdirichletallocation[J].JournalofMachineLearning Researrch,2003, (3) :2003-2003)〇
[0004] 目前已有LDA與時(shí)序信息結(jié)合進(jìn)行主題檢測(cè)的模型,相比傳統(tǒng)LDA模型能產(chǎn)生更 精準(zhǔn)的主題檢測(cè)結(jié)果。但此時(shí)獲得的主題結(jié)果數(shù)量仍較多,信息相對(duì)分散,不利于對(duì)熱點(diǎn) 主題的建模與分析,而且缺乏一個(gè)有力的指標(biāo)表達(dá)熱點(diǎn)事件的發(fā)展趨勢(shì)信息,無法供研究 人員分析熱點(diǎn)事件基于時(shí)間的演化規(guī)律。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種基于時(shí)間窗口的LDA微博主題趨勢(shì)檢測(cè)方法及裝置,本發(fā)明提 高了微博主題檢測(cè)的精度,使得趨勢(shì)指標(biāo)更具有表現(xiàn)力,為分析熱點(diǎn)主題趨勢(shì)提供更精準(zhǔn) 的依據(jù),詳見下文描述:
[0006] -種基于時(shí)間窗口的LDA微博主題趨勢(shì)檢測(cè)方法,所述檢測(cè)方法包括以下步驟:
[0007] 在各個(gè)時(shí)間窗口利用LDA主題模型從詞集中抽取主題詞,獲取全局各主題;
[0008] 對(duì)所述全局各主題進(jìn)行相似度計(jì)算,并進(jìn)行K-means聚類,獲取符合輿情分析的 熱點(diǎn)主題;
[0009] 通過LDA主題模型,結(jié)合所述熱點(diǎn)主題,依次在各個(gè)時(shí)間窗口提取每個(gè)熱點(diǎn)主題 的特征詞;
[0010] 結(jié)合所述特征詞的結(jié)果,計(jì)算所述熱點(diǎn)主題在各時(shí)間窗口的熱度值,并繪制所述 熱點(diǎn)主題的趨勢(shì)圖。
[0011] 其中,所述檢測(cè)方法還包括:
[0012] 通過網(wǎng)絡(luò)爬蟲獲取微博數(shù)據(jù)集;
[0013] 對(duì)所述微博數(shù)據(jù)集進(jìn)行文本分詞、去除停用詞等預(yù)處理,獲取所述詞集。
[0014] 其中,所述在各個(gè)時(shí)間窗口利用LDA主題模型從詞集中抽取主題詞,獲取全局各 主題的步驟具體為:
[0015] 將全局時(shí)間劃分為若干時(shí)間窗口;通過基于時(shí)間窗口的LDA主題模型,對(duì)各時(shí)間 窗口內(nèi)的所有文檔建立文檔-主題概率分布、以及主題-詞語概率分布,獲取每個(gè)文檔對(duì)應(yīng) 到不同主題的概率、以及每個(gè)主題生成單詞的概率。
[0016] 其中,所述對(duì)所述全局各主題進(jìn)行相似度計(jì)算,并進(jìn)行K-means聚類,獲取符合輿 情分析的熱點(diǎn)主題的步驟具體為:
[0017] 利用概率分布的相對(duì)熵表示兩個(gè)主題的差異性,所述差異性使用相對(duì)熵差分來計(jì) 算,再糾正相對(duì)熵差分距離的不對(duì)稱性,得到兩個(gè)主題的相似度值;
[0018] 結(jié)合相似度值對(duì)獲取到的全局主題應(yīng)用K-means聚類,聚類結(jié)果則代表符合輿情 分析的熱點(diǎn)主題。
[0019] -種基于時(shí)間窗口的LDA微博主題趨勢(shì)檢測(cè)裝置,所述檢測(cè)裝置包括:
[0020] 第一獲取模塊,用于在各個(gè)時(shí)間窗口利用LDA主題模型從詞集中抽取主題詞,獲 取全局各主題;
[0021] 第二獲取模塊,對(duì)所述全局各主題進(jìn)行相似度計(jì)算,并進(jìn)行K-means聚類,獲取符 合輿情分析的熱點(diǎn)主題;
[0022] 提取模塊,用于通過LDA主題模型,結(jié)合所述熱點(diǎn)主題,依次在各個(gè)時(shí)間窗口提取 每個(gè)熱點(diǎn)主題的特征詞;
[0023] 繪制模塊,用于結(jié)合所述特征詞的結(jié)果,計(jì)算所述熱點(diǎn)主題在各時(shí)間窗口的熱度 值,并繪制所述熱點(diǎn)主題的趨勢(shì)圖。
[0024] 其中,所述檢測(cè)裝置還包括:
[0025] 第三獲取模塊,用于通過網(wǎng)絡(luò)爬蟲獲取微博數(shù)據(jù)集;
[0026] 第四獲取模塊,用于對(duì)所述微博數(shù)據(jù)集進(jìn)行文本分詞、去除停用詞等預(yù)處理,獲取 所述詞集。
[0027] 其中,所述第一獲取模塊包括:
[0028] 劃分子模塊,用于將全局時(shí)間劃分為若干時(shí)間窗口;
[0029] 建立子模塊,用于通過基于時(shí)間窗口的LDA主題模型,對(duì)各時(shí)間窗口內(nèi)的所有文 檔建立文檔-主題概率分布、以及主題-詞語概率分布;
[0030] 第一獲取子模塊,用于獲取每個(gè)文檔對(duì)應(yīng)到不同主題的概率、以及每個(gè)主題生成 單詞的概率。
[0031] 其中,所述第二獲取模塊包括:
[0032] 第二獲取子模塊,用于利用概率分布的相對(duì)熵表示兩個(gè)主題的差異性,所述差異 性使用相對(duì)熵差分來計(jì)算,再糾正相對(duì)熵差分距離的不對(duì)稱性,得到兩個(gè)主題的相似度 值;
[0033] 聚類分析子模塊,用于結(jié)合相似度值對(duì)獲取到的全局主題應(yīng)用K-means聚類,聚 類結(jié)果則代表符合輿情分析的熱點(diǎn)主題。
[0034] 本發(fā)明提供的技術(shù)方案的有益效果是:本發(fā)明為微博主題檢測(cè)結(jié)果的利用與分析 提供了一種新思路,通過相似度聚類縮小主題范圍,并考慮將熱度值作為表示熱點(diǎn)主題趨 勢(shì)的指標(biāo),從而確定熱點(diǎn)主題作為輿情分析對(duì)象,與未經(jīng)處理的LDA主題檢測(cè)結(jié)果相比,主 題精度得到提升,趨勢(shì)指標(biāo)更具有表現(xiàn)力,為分析熱點(diǎn)主題趨勢(shì)提供更精準(zhǔn)的依據(jù),具有較 大實(shí)用特點(diǎn)。
【附圖說明】
[0035] 圖1為一種基于時(shí)間窗口的LDA微博主題趨勢(shì)檢測(cè)方法的流程圖;
[0036] 圖2為K-means聚類結(jié)果的示意圖;
[0037] 圖3為熱點(diǎn)主題趨勢(shì)圖;
[0038] 圖4為一種基于時(shí)間窗口的LDA微博主題趨勢(shì)檢測(cè)裝置的示意圖;
[0039] 圖5為一種基于時(shí)間窗口的LDA微博主題趨勢(shì)檢測(cè)裝置的另一示意圖;
[0040] 圖6為第一獲取模塊的不意圖;
[0041]圖7為第二獲取模塊的示意圖。
[0042] 附圖中,各部件的列表如下:
[0043]1 :第一獲取模塊; 2 :第二獲取模塊;
[0044] 3 :提取_旲塊; 4 :繪制_旲塊;
[0045]5 :第三獲取模塊; 6 :第四獲取模塊;
[0046]11 :劃分子模塊; 12 :建立子模塊;
[0047] 13 :第一獲取子模塊; 21 :第二獲取子模塊;
[0048]22 :聚類分析子模塊。
【具體實(shí)施方式】
[0049] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面對(duì)本發(fā)明實(shí)施方式作進(jìn)一步 地詳細(xì)描述。
[0050] 本發(fā)明實(shí)施例針對(duì)現(xiàn)有主題檢測(cè)結(jié)果數(shù)量較多且含義相對(duì)分散這一缺陷,在基于 時(shí)間窗口的LDA主題模型檢測(cè)的主題結(jié)果之上,應(yīng)用相似度聚類縮小主題范圍,確定熱點(diǎn) 主題,并提出熱度值計(jì)算方法,從而建立微博的熱點(diǎn)主題檢測(cè)和主題時(shí)間演化體系,并進(jìn)行 趨勢(shì)分析,詳見下文描述:
[0051] 實(shí)施例1
[0052] -種基于時(shí)間窗