一種基于tmpp模型的摘要生成方法
【專利摘要】本發(fā)明公開了一種基于TMPP模型的摘要生成方法,其特征在于:該方法將標(biāo)準(zhǔn)的LDA中表示文檔?主題的參數(shù)θ擴展為(aspect,rating)集,使用基于短語參數(shù)學(xué)習(xí)的主題模型TMPP對aspect和rating同時建模,并引入潛在聚類變量c表示領(lǐng)域先驗知識,以指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面,本發(fā)明采用TMPP模型生成(aspect,rating)摘要,保證了挖掘主題的質(zhì)量,有效地克服了LDA無指導(dǎo)式的學(xué)習(xí)方式,避免了無意義主題產(chǎn)生的現(xiàn)象。
【專利說明】
一種基于TMPP模型的摘要生成方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別是涉及一種基于TMPP模型的摘要生成方法。
【背景技術(shù)】
[0002]目前,標(biāo)準(zhǔn)的主題模型LDA(Latent Dirichlet Allocation)能實現(xiàn)在線評論中某 一主題和與之相關(guān)的情感等級的同時預(yù)測,因而,LDA自然就成為能廣泛使用于在線評論行 挖掘領(lǐng)域中產(chǎn)生(aspect,rat ing)摘要的方法。
[0003] 標(biāo)準(zhǔn)的主題模型LDA常用"詞袋"表示在線評論文本,把評論視為潛在主題的集合, 每個潛在主題又當(dāng)作是詞聚類的集合,它提供了一種挖掘在線評論中被評價實體摘要的通 用方法。但該模型的研究重心是將識別的方面按情感進(jìn)行分類,然而,產(chǎn)生(aspect, rating)(方面,等級)摘要的目標(biāo)是嘗試從同一被評價實體的評論集合中推斷出被評價實 體的方面(aspect)和與其相關(guān)的情感等級(rating)。因而,針對該問題不能直接使用LDA模 型,另一方面,由于標(biāo)準(zhǔn)的主題模型LDA是一種無監(jiān)督的主題模型,所以輸出的主題質(zhì)量往 往不高,這就要求為主題模型提供一些先驗領(lǐng)域知識,指導(dǎo)模型產(chǎn)生更好的主題。
【發(fā)明內(nèi)容】
[0004] 為克服上述現(xiàn)有技術(shù)存在的不足,本發(fā)明之目的在于提供一種基于TMPP模型的摘 要生成方法,通過使用"短語袋"表示評論,將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)0擴展為 (aspect,rating)集,使用基于短語參數(shù)學(xué)習(xí)的主題模型TMPP(Topic Model based on Phrase Parameter,基于短語參數(shù)的主題模型)對aspect和rating同時建模,以減少錯誤累 積,并引入潛在聚類變量c表示領(lǐng)域先驗知識,指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。
[0005] 為達(dá)上述及其它目的,本發(fā)明提出一種基于TMPP模型的摘要生成方法,該方法將 標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)0擴展為(asp ect,rating)集,使用基于短語參數(shù)學(xué)習(xí)的 主題模型TMPP對aspect和rating同時建模,并引入潛在聚類變量c表示領(lǐng)域先驗知識,以指 導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。
[0006] 進(jìn)一步地,該方法包括如下步驟:
[0007] 步驟一,利用整合了領(lǐng)域先驗知識的TMPP模型尋找被評價實體中語義上更連貫的 各個方面;
[0008] 步驟二,通過聚類算法對相同聚類的等級預(yù)測對數(shù)量和不同聚類的等級預(yù)測對數(shù) 量進(jìn)行分類。x表示相同聚類的等級預(yù)測對數(shù)量,y表示不同聚類的等級預(yù)測對數(shù)量;
[0009] 步驟三,引用等級預(yù)測的聚類相似度的度量標(biāo)準(zhǔn)公式來預(yù)測等級相似度值;
[0010] 步驟四,獲取被評價實體的評論摘要表。
[0011] 進(jìn)一步地,于步驟一之前,還包括引入潛在聚類變量c生成該TMPP模型的步驟。
[0012] 進(jìn)一步地,該TMPP模型使用一個潛在聚類變量c連接潛在方面a和被觀察詞t。
[0013] 進(jìn)一步地,假設(shè)該TMPP模型的輸入是N篇評論,T個方面,C個聚類,每一篇評論有M 個短語,P用隨機變量也對p(cluster | aspect)分布建模,也是服從參數(shù)為0的Dirichlet分布, 用隨機變量.夢對口(1:|38口6〇1:,〇1118丨61')分布建模,參是服從參數(shù)為丫的0;[1';[011161:分布,隨機 變量9服從參數(shù)為a的Dirichlet分布,該模型把它視為高層的(aspect,rating)集,對于每 一對(aspect,rating), 9包含了產(chǎn)生aspect和rating組合的概率,每一篇評論抽樣一次9, 固定0后,再為該評論產(chǎn)生觀點短語,且假定潛在變量 &41被獨立抽樣,該TMPP模型的生成 步驟如下:
[0014] (1)選擇0~Dir(a),也~Dir(P),擊.~:復(fù)
[0015] (2)選擇 c ~Multi(it)
[0016] (3)對于每一對觀點短語(tm,sm),me {1,2,…,M}
[0017] (4)選擇am~P(am| 9)和rm~P(rm| 9)
[0018] (5)選擇c~P(c | am)
[0019 ] (6)選擇燃?xì)?>級.|~一,#和~~P (sm | ,n)
[0020] ( 7 ) PH!A.游和P ( Sm I rm,n )分別是以am,c和rm為條件的多項式分布,聯(lián)合概率 分布為
[0022]進(jìn)一步地,對于該TMPP模型,已知一篇評論有M個短語,關(guān)鍵的推斷是計算如下所 示潛在變量的后驗概率:
[0024] 進(jìn)一步地,該領(lǐng)域先驗知識從Web上獲取。
[0025] 進(jìn)一步地,利用基于頻率的方法識別頻繁出現(xiàn)的詞作為先驗知識。
[0026] 進(jìn)一步地,該先驗知識獲取包括如下步驟:
[0027]在每一個領(lǐng)域的語料上運行LDA;
[0028] 對LDA運行得到的主題集進(jìn)行聚類;
[0029]從每一個聚類中挖掘出頻繁模式。
[0030]進(jìn)一步地,在LDA模型的運行過程中,使用阻塞式Gibbs抽樣器實現(xiàn)先驗知識的使 用。
[0031] 與現(xiàn)有技術(shù)相比,本發(fā)明一種基于TMPP模型的摘要生成方法,通過使用"短語袋" 表示評論,將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)竺擴展為(aspect, rating)集,使用基于短 語參數(shù)學(xué)習(xí)的主題模型TMPP(Topic Model based on Phrase Parameter,基于短語參數(shù)的 主題模型)對aspect和rating同時建模,以減少錯誤累積,并引入潛在聚類變量c表示領(lǐng)域 先驗知識,指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。
【附圖說明】
[0032] 圖1為本發(fā)明一種基于TMPP模型的摘要生成方法的步驟流程圖;
[0033] 圖2為本發(fā)明較佳實施例中TMPP模型的生成過程示意圖。
【具體實施方式】
[0034] 以下通過特定的具體實例并結(jié)合【附圖說明】本發(fā)明的實施方式,本領(lǐng)域技術(shù)人員可 由本說明書所揭示的內(nèi)容輕易地了解本發(fā)明的其它優(yōu)點與功效。本發(fā)明亦可通過其它不同 的具體實例加以施行或應(yīng)用,本說明書中的各項細(xì)節(jié)亦可基于不同觀點與應(yīng)用,在不背離 本發(fā)明的精神下進(jìn)行各種修飾與變更。
[0035] 本發(fā)明為了減少評論挖掘過程中累積的錯誤和產(chǎn)生質(zhì)量更好的方面,使用"短語 袋"表示評論,將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)0擴展為(asp ect,rating)集,使用基于 短語參數(shù)學(xué)習(xí)的主題模型TMPP(Topic Model based on Phrase Parameter,基于短語參數(shù) 的主題模型)對aspect和rating同時建模,以減少錯誤累積,并引入潛在聚類變量c表示領(lǐng) 域先驗知識,以指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。
[0036] 基于短語參數(shù)學(xué)習(xí)的主題模型TMPP在對評論中被評價實體的aspect和與它對應(yīng) 的rating進(jìn)行挖掘時,整合了一個潛在的聚類變量用于指導(dǎo)產(chǎn)生質(zhì)量更高的方面。聚類變 量表示從大量已知領(lǐng)域中學(xué)習(xí)到的知識。這種知識的獲取包含三個步驟:1)在已知評論語 料上運行標(biāo)準(zhǔn)的LDA模型,產(chǎn)生主題集;2)對主題集進(jìn)行聚類;3)對每一聚類實施頻繁模式 挖掘
[0037]圖1為本發(fā)明一種基于TMPP模型的摘要生成方法的步驟了流程圖。如圖1所示,本 發(fā)明一種基于TMPP模型的摘要生成方法,包括如下步驟:
[0038]步驟101,利用整合了先驗知識的TMPP模型尋找被評價實體中語義上更連貫的各 個方面;
[0039] 步驟102,通過聚類算法對相同聚類的等級預(yù)測對數(shù)量和不同聚類的等級預(yù)測對 數(shù)量進(jìn)行分類。x表示相同聚類的等級預(yù)測對數(shù)量,y表示不同聚類的等級預(yù)測對數(shù)量。
[0040] 步驟103,引用等級預(yù)測的聚類相似度的度量標(biāo)準(zhǔn)公式來預(yù)測等級相似度值。具體 地,該等級預(yù)測的聚類相似度的度量標(biāo)準(zhǔn)公式為
[0043] 其中,k值固定為5,表示方面等級的聚類數(shù)量;Pi表示主題模型i所產(chǎn)生的等級預(yù) 測;Pm表示人工標(biāo)注所產(chǎn)生的等級預(yù)測。P4PP m的一致性要在kX (k_l)個等級預(yù)測對上進(jìn)行 檢驗。對每兩個等級預(yù)測對,PdPlV^能把它分配到相同的聚類或不同的聚類。
[0044] 步驟104,獲取被評價實體的評論摘要表。
[0045] 較佳地,,在步驟101之前,還包括引入潛在聚類變量c生成TMPP模型的步驟。
[0046] 具體地說,TMPP模型使用一個潛在聚類變量c連接潛在方面a和被觀察詞t。模型的 輸入是N篇評論,T個方面,C個聚類。每一篇評論有M個短語。P用隨機變量也對pkluster aspect)分布建模,也是服從參數(shù)為0的Dirich let分布;用隨機變量對p(t | aspect, cluster)分布建模,擎是服從參數(shù)為y的Dirichiet分布。隨機變量0服從參數(shù)為a的 Dirichlet分布,模型把它視為高層的(aspect,rating)集。對于每一對(aspect,rating),0 包含了產(chǎn)生aspect和rating組合的概率。每一篇評論抽樣一次 9,固定9后,再為該評論產(chǎn)生 觀點短語,且假定潛在變量&41被獨立抽樣。基于以上描述,TMPP模型的生成過程如下:
[0047] (1)選擇0~Dir(c〇 紳~Dir(P),
[0048] (2)選擇 c ~Multi(il〇
[0049] (3)對于每一對觀點短語(tm,sm),me {1,2,…,M}
[0050] (4)選擇am~P(am| 9)和rm~P(rm| 9)
[0051] (5)選擇c~P(c | am)
[0052] (6)選擇 和 Sm~P(Sm | rm,q)
[0053] 驗LP(Sm | rm,n)分別是以am,c和rm為條件的多項式分布。因此,聯(lián) 合概率分布如公式(1)所示。
_
[0055]已知一篇評論有M個短語,關(guān)鍵的推斷是計算公式(2)所示的潛在變量的后驗概 率。
P)
[0057]圖2為本發(fā)明較佳實施例中TMPP模型的生成過程示意圖。其中
[0058] a:表示潛在方面(aspect);
[0059] r:表示對方面a對應(yīng)的潛在等級(rating);
[0060] c:表示潛在的聚類變量;
[0061] t:表示重要的方面詞,是被觀察變量;
[0062] s:表示重要方面詞所對應(yīng)的情感詞,是被觀察變量;
[0063] (tm,sm):表示第m對觀點短語,m=l,2,…,M;
[0064] a,0:表示 Dirichlet 參數(shù);
[0065] 0 :表示服從參數(shù)為a的狄利克雷分布的隨機變量,是文檔層的(aspect,rating) 集。對每一對(aspect,rating ),9包含了產(chǎn)生aspect和rating組合的概率,每一篇評論抽樣 一次9。固定9后,再為該評論產(chǎn)生觀點短語,且假定潛變量&4卩^被獨立抽樣;
[0066] T X C:表示聚類結(jié)果,T為方面的個數(shù),C為聚類的個數(shù);
[0067] y,n:表不多項式分布參數(shù);
[0068] ih表示隨機變量對p(cluster | aspect)分布建模,也是服從參數(shù)為0的Dirichlet分 布;
[0069] ..表示隨機變量對p(t | aspect,cluster)分布建模,麥?zhǔn)欠膮?shù)為y的 Dirichlet 分布。
[0070] 較佳地,領(lǐng)域先驗知識從Web上獲取??砂褟牟煌I(lǐng)域集中挖掘出的相同方面作為 主題模型的先驗知識,讓這些先驗知識指導(dǎo)TMPP模型產(chǎn)生高質(zhì)量的方面。先驗知識獲取算 法包含三個步驟:1)在每一個領(lǐng)域的語料上運行LDA;2)對LDA運行得到的主題集進(jìn)行聚類; 3)從每一個聚類中挖掘出頻繁模式。算法在每一個領(lǐng)域語料上運行LDA后,獲得一個主題 集。每一個主題集是詞上的一個分布。該技術(shù)只選取每一主題下概率較高,即排序在前的詞 表示主題。顯然,質(zhì)量高的知識應(yīng)該跨領(lǐng)域共享主題。因此,可利用基于頻率的方法識別頻 繁出現(xiàn)的詞作為先驗知識,以保證知識的質(zhì)量。
[0071]以下將通過一具體實施例來進(jìn)一步說明本發(fā)明之TMPP模型生成摘要的步驟:
[0072]步驟1:獲取先驗領(lǐng)域知識
[0073]具體過程:1)首先,確定要處理領(lǐng)域的在線評論數(shù)據(jù)集D,然后從Web上收集與D相 關(guān)的一些其它領(lǐng)域(選5個領(lǐng)域)的在線評論,記為?142^3 44^5。2)分別在口142^3,口4, P5的語料上運行LDA模型,并對運行LDA后得到的主題集進(jìn)行聚類(31,(32,(:3,(34,(35;3)在(31, (32,(:3,(34,(35上執(zhí)行關(guān)聯(lián)挖掘,得到的有意義的頻繁2-模式作為110^模型所需要的先驗領(lǐng) 域知識c〇
[0074]例如:針對某一品牌的數(shù)碼相機,獲取的先驗領(lǐng)域知識的可用如下的方式表示: [0075] 聚類1:{電池,壽命},{電池,小時},{電池,長}
[0076]聚類2: {服務(wù),支持},{支持,顧客},{服務(wù),顧客}
[0077]步驟2:對D進(jìn)行分詞,獲取表示評價實體的名詞短語t,且找到與這個名詞短語最 近的形容詞或副詞m,并用這些信息對<t,m>表示D中的每一篇評論,得到D'。
[0078] 步驟3:在D'上運行LDA模型,得到(Aspect,Rating)。在LDA模型的運行過程中,使 用Gibbs抽樣器實現(xiàn)先驗知識c的使用,通過迭代改進(jìn)模型輸出結(jié)果,即將步驟2中可能不精 確的〈t,m>修改為(Aspect,Rating)。
[0079] 步驟4:對步驟3得到的(Aspect,Rat ing)集合,按Aspect進(jìn)行分類,且可視化表示。
[0080] 綜上所述,本發(fā)明一種基于TMPP模型的摘要生成方法,通過使用"短語袋"表示評 論,將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)對廣展為(asp ect,rating)集,使用基于短語參數(shù) 學(xué)習(xí)的主題模型TMPP(Topic Model based on Phrase Parameter,基于短語參數(shù)的主題模 型)對aspect和rating同時建模,以減少錯誤累積,并引入潛在聚類變量c表示領(lǐng)域先驗知 識,指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。
[0081] 本發(fā)明通過從Web上獲取不同領(lǐng)域的先驗知識,把從不同領(lǐng)域集中挖掘出的相同 方面作為先驗知識,讓這些先驗知識指導(dǎo)其產(chǎn)生高質(zhì)量的方面。與此同時,TMPP在處理先驗 知識時,采用阻塞式Gibbs抽樣器推理解決了兩個方面的問題:1) 一般的方面可能被多個領(lǐng) 域所共享,但特定的方面可能僅出現(xiàn)在該方面所在領(lǐng)域。這意味不同的方面有特定的頻率, 如果在基于頻率的方法中使用一個簡單的頻率閾值,將無法區(qū)分一般的方面和特定的方 面;2)詞在不同的領(lǐng)域可能具有不同的意,可見本發(fā)明采用TMPP模型生成(aspect,rating) 摘要,保證了挖掘主題的質(zhì)量,有效地克服了 LDA無指導(dǎo)式的學(xué)習(xí)方式,避免了無意義主題 產(chǎn)生的現(xiàn)象。
[0082]上述實施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何本 領(lǐng)域技術(shù)人員均可在不違背本發(fā)明的精神及范疇下,對上述實施例進(jìn)行修飾與改變。因此, 本發(fā)明的權(quán)利保護(hù)范圍,應(yīng)如權(quán)利要求書所列。
【主權(quán)項】
1. 一種基于TMPP模型的摘要生成方法,其特征在于:該方法將標(biāo)準(zhǔn)的LDA中表示文檔- 主題的參數(shù)巧廣展為(aspect, rating)集,使用基于短語參數(shù)學(xué)習(xí)的主題模型TMPP對aspect 和rating同時建模,并引入潛在聚類變量C表示領(lǐng)域先驗知識,W指導(dǎo)模型產(chǎn)生質(zhì)量更好的 方面。2. 如權(quán)利要求1所述的一種基于TMPP模型的摘要生成方法,其特征在于,該方法包括如 下步驟: 步驟一,利用整合了領(lǐng)域先驗知識的TMPP模型尋找被評價實體中語義上更連貫的各個 方面; 步驟二,通過聚類算法對相同聚類的等級預(yù)測對數(shù)量和不同聚類的等級預(yù)測對數(shù)量進(jìn) 行分類,X表示相同聚類的等級預(yù)測對數(shù)量,y表示不同聚類的等級預(yù)測對數(shù)量; 步驟=,引用等級預(yù)測的聚類相似度的度量標(biāo)準(zhǔn)公式來預(yù)測等級相似度值; 步驟四,獲取被評價實體的評論摘要表。3. 如權(quán)利要求2所述的一種基于TMPP模型的摘要生成方法,其特征在于:于步驟一之 前,還包括引入潛在聚類變量C生成該TMPP模型的步驟。4. 如權(quán)利要求3所述的一種基于TMPP模型的摘要生成方法,其特征在于:該TMPP模型使 用一個潛在聚類變量C連接潛在方面a和被觀察詞t。5. 如權(quán)利要求3所述的一種基于TMPP模型的摘要生成方法,其特征在于:假設(shè)該TMPP模 型的輸入是N篇評論,T個方面,C個聚類,每一篇評論有M個短語,P用隨機變量4對9 (cluster aspect)分布建模,4是服從參數(shù)為0的Dirichlet分布,用隨機變量P對p(t I aspect, cluster)分布建模,'P是服從參數(shù)為丫的Dirichlet分布,隨機變量0服從參數(shù)為a的 Dirich let分布,該模型把它視為高層的(aspect ,rating)集,對于每一對(aspect, rating),目包含了產(chǎn)生aspect和rating組合的概率,每一篇評論抽樣一次目,固定目后,再為 該評論產(chǎn)生觀點短語,且假定潛在變量am和rm被獨立抽樣,該TMPP模型的生成步驟如下: (1) 選;(2) 選擇。~]\11111:;[(4) (3) 對于每一對觀點短語(tm,sm),me {1,2,…,M} (4) 選擇am~P(amI目)和打!~P(打11白) (5) 選擇C~P(c I am)(6 (7 :和rm為條件的多項式分布,聯(lián)合概率分布 為6. 如權(quán)利要求5所述的一種基于TMPP模型的摘要生成方法,其特征在于:對于該TMPP模 型,已知一篇評論有M個短語,關(guān)鍵的推斷是計算如下所示潛在變量的后驗概率:7. 如權(quán)利要求5所述的一種基于TMPP模型的摘要生成方法,其特征在于:該領(lǐng)域先驗知 識從Web上獲取。8. 如權(quán)利要求7所述的一種基于TMPP模型的摘要生成方法,其特征在于:利用基于頻率 的方法識別頻繁出現(xiàn)的詞作為先驗知識。9. 如權(quán)利要求8所述的一種基于TMPP模型的摘要生成方法,其特征在于:該先驗知識獲 取包括如下步驟: 在每一個領(lǐng)域的語料上運行LDA; 對LDA運行得到的主題集進(jìn)行聚類; 從每一個聚類中挖掘出頻繁模式。10. 如權(quán)利要求8所述的一種基于TMPP模型的摘要生成方法,其特征在于:在LDA模型的 運行過程中,使用阻塞式Gi化S抽樣器實現(xiàn)先驗知識的使用。
【文檔編號】G06F17/30GK105912700SQ201610263574
【公開日】2016年8月31日
【申請日】2016年4月26日
【發(fā)明人】呂品, 鐘忺
【申請人】上海電機學(xué)院