一種基于tmpp模型的摘要生成方法

文檔序號：10553051閱讀：355來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于tmpp模型的摘要生成方法
【專利摘要】本發(fā)明公開了一種基于TMPP模型的摘要生成方法，其特征在于：該方法將標(biāo)準(zhǔn)的LDA中表示文檔?主題的參數(shù)θ擴展為(aspect,rating)集，使用基于短語參數(shù)學(xué)習(xí)的主題模型TMPP對aspect和rating同時建模，并引入潛在聚類變量c表示領(lǐng)域先驗知識，以指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面，本發(fā)明采用TMPP模型生成(aspect,rating)摘要，保證了挖掘主題的質(zhì)量，有效地克服了LDA無指導(dǎo)式的學(xué)習(xí)方式，避免了無意義主題產(chǎn)生的現(xiàn)象。
【專利說明】
一種基于TMPP模型的摘要生成方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域，特別是涉及一種基于TMPP模型的摘要生成方法。
【背景技術(shù)】
[0002]目前，標(biāo)準(zhǔn)的主題模型LDA(Latent Dirichlet Allocation)能實現(xiàn)在線評論中某一主題和與之相關(guān)的情感等級的同時預(yù)測，因而，LDA自然就成為能廣泛使用于在線評論行挖掘領(lǐng)域中產(chǎn)生(aspect，rat ing)摘要的方法。
[0003] 標(biāo)準(zhǔn)的主題模型LDA常用"詞袋"表示在線評論文本，把評論視為潛在主題的集合，每個潛在主題又當(dāng)作是詞聚類的集合，它提供了一種挖掘在線評論中被評價實體摘要的通用方法。但該模型的研究重心是將識別的方面按情感進(jìn)行分類，然而，產(chǎn)生（aspect， rating)(方面，等級）摘要的目標(biāo)是嘗試從同一被評價實體的評論集合中推斷出被評價實體的方面(aspect)和與其相關(guān)的情感等級(rating)。因而，針對該問題不能直接使用LDA模型，另一方面，由于標(biāo)準(zhǔn)的主題模型LDA是一種無監(jiān)督的主題模型，所以輸出的主題質(zhì)量往往不高，這就要求為主題模型提供一些先驗領(lǐng)域知識，指導(dǎo)模型產(chǎn)生更好的主題。

【發(fā)明內(nèi)容】

[0004] 為克服上述現(xiàn)有技術(shù)存在的不足，本發(fā)明之目的在于提供一種基于TMPP模型的摘要生成方法，通過使用"短語袋"表示評論，將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)0擴展為 (aspect,rating)集，使用基于短語參數(shù)學(xué)習(xí)的主題模型TMPP(Topic Model based on Phrase Parameter，基于短語參數(shù)的主題模型)對aspect和rating同時建模，以減少錯誤累積，并引入潛在聚類變量c表示領(lǐng)域先驗知識，指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。
[0005] 為達(dá)上述及其它目的，本發(fā)明提出一種基于TMPP模型的摘要生成方法，該方法將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)0擴展為(asp ect，rating)集，使用基于短語參數(shù)學(xué)習(xí)的主題模型TMPP對aspect和rating同時建模，并引入潛在聚類變量c表示領(lǐng)域先驗知識，以指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。
[0006] 進(jìn)一步地，該方法包括如下步驟：
[0007] 步驟一，利用整合了領(lǐng)域先驗知識的TMPP模型尋找被評價實體中語義上更連貫的各個方面；
[0008] 步驟二，通過聚類算法對相同聚類的等級預(yù)測對數(shù)量和不同聚類的等級預(yù)測對數(shù) 量進(jìn)行分類。x表示相同聚類的等級預(yù)測對數(shù)量，y表示不同聚類的等級預(yù)測對數(shù)量；
[0009] 步驟三，引用等級預(yù)測的聚類相似度的度量標(biāo)準(zhǔn)公式來預(yù)測等級相似度值；
[0010] 步驟四，獲取被評價實體的評論摘要表。
[0011] 進(jìn)一步地，于步驟一之前，還包括引入潛在聚類變量c生成該TMPP模型的步驟。
[0012] 進(jìn)一步地，該TMPP模型使用一個潛在聚類變量c連接潛在方面a和被觀察詞t。
[0013] 進(jìn)一步地，假設(shè)該TMPP模型的輸入是N篇評論，T個方面，C個聚類，每一篇評論有M 個短語，P用隨機變量也對p(cluster | aspect)分布建模，也是服從參數(shù)為0的Dirichlet分布，用隨機變量.夢對口(1：|38口6〇1：，〇1118丨61')分布建模，參是服從參數(shù)為丫的0；[1'；[011161：分布，隨機變量9服從參數(shù)為a的Dirichlet分布，該模型把它視為高層的（aspect，rating)集，對于每一對(aspect，rating)， 9包含了產(chǎn)生aspect和rating組合的概率，每一篇評論抽樣一次9，固定0后，再為該評論產(chǎn)生觀點短語，且假定潛在變量 &41被獨立抽樣，該TMPP模型的生成步驟如下：
[0014] (1)選擇0~Dir(a)，也~Dir(P)，擊.~:復(fù)
[0015] (2)選擇 c ~Multi(it)
[0016] (3)對于每一對觀點短語(tm，sm)，me {1，2，…，M}
[0017] (4)選擇am~P(am| 9)和rm~P(rm| 9)
[0018] (5)選擇c~P(c | am)
[0019 ] (6)選擇燃?xì)?>級.|~一,#和~~P (sm | ，n)
[0020] ( 7 ) PH!A.游和P ( Sm I rm，n )分別是以am，c和rm為條件的多項式分布，聯(lián)合概率分布為
[0022]進(jìn)一步地，對于該TMPP模型，已知一篇評論有M個短語，關(guān)鍵的推斷是計算如下所示潛在變量的后驗概率：
[0024] 進(jìn)一步地，該領(lǐng)域先驗知識從Web上獲取。
[0025] 進(jìn)一步地，利用基于頻率的方法識別頻繁出現(xiàn)的詞作為先驗知識。
[0026] 進(jìn)一步地，該先驗知識獲取包括如下步驟：
[0027]在每一個領(lǐng)域的語料上運行LDA;
[0028] 對LDA運行得到的主題集進(jìn)行聚類；
[0029]從每一個聚類中挖掘出頻繁模式。
[0030]進(jìn)一步地，在LDA模型的運行過程中，使用阻塞式Gibbs抽樣器實現(xiàn)先驗知識的使用。
[0031] 與現(xiàn)有技術(shù)相比，本發(fā)明一種基于TMPP模型的摘要生成方法，通過使用"短語袋" 表示評論，將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)竺擴展為(aspect, rating)集，使用基于短語參數(shù)學(xué)習(xí)的主題模型TMPP(Topic Model based on Phrase Parameter，基于短語參數(shù)的主題模型）對aspect和rating同時建模，以減少錯誤累積，并引入潛在聚類變量c表示領(lǐng)域先驗知識，指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。
【附圖說明】
[0032] 圖1為本發(fā)明一種基于TMPP模型的摘要生成方法的步驟流程圖；
[0033] 圖2為本發(fā)明較佳實施例中TMPP模型的生成過程示意圖。
【具體實施方式】
[0034] 以下通過特定的具體實例并結(jié)合【附圖說明】本發(fā)明的實施方式，本領(lǐng)域技術(shù)人員可由本說明書所揭示的內(nèi)容輕易地了解本發(fā)明的其它優(yōu)點與功效。本發(fā)明亦可通過其它不同的具體實例加以施行或應(yīng)用，本說明書中的各項細(xì)節(jié)亦可基于不同觀點與應(yīng)用，在不背離本發(fā)明的精神下進(jìn)行各種修飾與變更。
[0035] 本發(fā)明為了減少評論挖掘過程中累積的錯誤和產(chǎn)生質(zhì)量更好的方面，使用"短語袋"表示評論，將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)0擴展為(asp ect，rating)集，使用基于短語參數(shù)學(xué)習(xí)的主題模型TMPP(Topic Model based on Phrase Parameter，基于短語參數(shù) 的主題模型）對aspect和rating同時建模，以減少錯誤累積，并引入潛在聚類變量c表示領(lǐng) 域先驗知識，以指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。
[0036] 基于短語參數(shù)學(xué)習(xí)的主題模型TMPP在對評論中被評價實體的aspect和與它對應(yīng) 的rating進(jìn)行挖掘時，整合了一個潛在的聚類變量用于指導(dǎo)產(chǎn)生質(zhì)量更高的方面。聚類變量表示從大量已知領(lǐng)域中學(xué)習(xí)到的知識。這種知識的獲取包含三個步驟：1)在已知評論語料上運行標(biāo)準(zhǔn)的LDA模型，產(chǎn)生主題集;2)對主題集進(jìn)行聚類;3)對每一聚類實施頻繁模式挖掘
[0037]圖1為本發(fā)明一種基于TMPP模型的摘要生成方法的步驟了流程圖。如圖1所示，本發(fā)明一種基于TMPP模型的摘要生成方法，包括如下步驟：
[0038]步驟101，利用整合了先驗知識的TMPP模型尋找被評價實體中語義上更連貫的各個方面；
[0039] 步驟102,通過聚類算法對相同聚類的等級預(yù)測對數(shù)量和不同聚類的等級預(yù)測對數(shù)量進(jìn)行分類。x表示相同聚類的等級預(yù)測對數(shù)量，y表示不同聚類的等級預(yù)測對數(shù)量。
[0040] 步驟103,引用等級預(yù)測的聚類相似度的度量標(biāo)準(zhǔn)公式來預(yù)測等級相似度值。具體地，該等級預(yù)測的聚類相似度的度量標(biāo)準(zhǔn)公式為
[0043] 其中，k值固定為5,表示方面等級的聚類數(shù)量;Pi表示主題模型i所產(chǎn)生的等級預(yù) 測;Pm表示人工標(biāo)注所產(chǎn)生的等級預(yù)測。P4PP m的一致性要在kX (k_l)個等級預(yù)測對上進(jìn)行檢驗。對每兩個等級預(yù)測對，PdPlV^能把它分配到相同的聚類或不同的聚類。
[0044] 步驟104,獲取被評價實體的評論摘要表。
[0045] 較佳地，，在步驟101之前，還包括引入潛在聚類變量c生成TMPP模型的步驟。
[0046] 具體地說，TMPP模型使用一個潛在聚類變量c連接潛在方面a和被觀察詞t。模型的輸入是N篇評論，T個方面，C個聚類。每一篇評論有M個短語。P用隨機變量也對pkluster aspect)分布建模，也是服從參數(shù)為0的Dirich let分布；用隨機變量對p(t | aspect， cluster)分布建模，擎是服從參數(shù)為y的Dirichiet分布。隨機變量0服從參數(shù)為a的 Dirichlet分布，模型把它視為高層的（aspect，rating)集。對于每一對(aspect，rating)，0 包含了產(chǎn)生aspect和rating組合的概率。每一篇評論抽樣一次 9，固定9后，再為該評論產(chǎn)生觀點短語，且假定潛在變量&41被獨立抽樣。基于以上描述，TMPP模型的生成過程如下：
[0047] (1)選擇0~Dir(c〇紳~Dir(P)，
[0048] (2)選擇 c ~Multi(il〇
[0049] (3)對于每一對觀點短語(tm，sm)，me {1，2，…，M}
[0050] (4)選擇am~P(am| 9)和rm~P(rm| 9)
[0051] (5)選擇c~P(c | am)
[0052] (6)選擇和 Sm~P(Sm | rm，q)
[0053] 驗LP(Sm | rm，n)分別是以am，c和rm為條件的多項式分布。因此，聯(lián) 合概率分布如公式(1)所示。
_
[0055]已知一篇評論有M個短語，關(guān)鍵的推斷是計算公式（2)所示的潛在變量的后驗概率。
P)
[0057]圖2為本發(fā)明較佳實施例中TMPP模型的生成過程示意圖。其中
[0058] a:表示潛在方面(aspect);
[0059] r:表示對方面a對應(yīng)的潛在等級(rating);
[0060] c:表示潛在的聚類變量；
[0061] t:表示重要的方面詞，是被觀察變量；
[0062] s:表示重要方面詞所對應(yīng)的情感詞，是被觀察變量；
[0063] (tm，sm):表示第m對觀點短語，m=l，2,…，M;
[0064] a，0:表示 Dirichlet 參數(shù)；
[0065] 0 :表示服從參數(shù)為a的狄利克雷分布的隨機變量，是文檔層的（aspect,rating) 集。對每一對(aspect，rating )，9包含了產(chǎn)生aspect和rating組合的概率，每一篇評論抽樣一次9。固定9后，再為該評論產(chǎn)生觀點短語，且假定潛變量&4卩^被獨立抽樣；
[0066] T X C:表示聚類結(jié)果，T為方面的個數(shù)，C為聚類的個數(shù)；
[0067] y，n:表不多項式分布參數(shù)；
[0068] ih表示隨機變量對p(cluster | aspect)分布建模，也是服從參數(shù)為0的Dirichlet分布；
[0069] ..表示隨機變量對p(t | aspect，cluster)分布建模，麥?zhǔn)欠膮?shù)為y的 Dirichlet 分布。
[0070] 較佳地，領(lǐng)域先驗知識從Web上獲取?？砂褟牟煌I(lǐng)域集中挖掘出的相同方面作為主題模型的先驗知識，讓這些先驗知識指導(dǎo)TMPP模型產(chǎn)生高質(zhì)量的方面。先驗知識獲取算法包含三個步驟：1)在每一個領(lǐng)域的語料上運行LDA;2)對LDA運行得到的主題集進(jìn)行聚類； 3)從每一個聚類中挖掘出頻繁模式。算法在每一個領(lǐng)域語料上運行LDA后，獲得一個主題集。每一個主題集是詞上的一個分布。該技術(shù)只選取每一主題下概率較高，即排序在前的詞表示主題。顯然，質(zhì)量高的知識應(yīng)該跨領(lǐng)域共享主題。因此，可利用基于頻率的方法識別頻繁出現(xiàn)的詞作為先驗知識，以保證知識的質(zhì)量。
[0071]以下將通過一具體實施例來進(jìn)一步說明本發(fā)明之TMPP模型生成摘要的步驟：
[0072]步驟1:獲取先驗領(lǐng)域知識
[0073]具體過程：1)首先，確定要處理領(lǐng)域的在線評論數(shù)據(jù)集D，然后從Web上收集與D相關(guān)的一些其它領(lǐng)域(選5個領(lǐng)域)的在線評論，記為？142^3 44^5。2)分別在口142^3，口4， P5的語料上運行LDA模型，并對運行LDA后得到的主題集進(jìn)行聚類(31，(32，(：3，(34，(35;3)在(31， (32，(：3，(34，(35上執(zhí)行關(guān)聯(lián)挖掘，得到的有意義的頻繁2-模式作為110^模型所需要的先驗領(lǐng) 域知識c〇
[0074]例如:針對某一品牌的數(shù)碼相機，獲取的先驗領(lǐng)域知識的可用如下的方式表示： [0075] 聚類1:{電池，壽命}，{電池，小時}，{電池，長}
[0076]聚類2: {服務(wù)，支持}，{支持，顧客}，{服務(wù)，顧客}
[0077]步驟2:對D進(jìn)行分詞，獲取表示評價實體的名詞短語t，且找到與這個名詞短語最近的形容詞或副詞m，并用這些信息對<t，m>表示D中的每一篇評論，得到D'。
[0078] 步驟3:在D'上運行LDA模型，得到(Aspect，Rating)。在LDA模型的運行過程中，使用Gibbs抽樣器實現(xiàn)先驗知識c的使用，通過迭代改進(jìn)模型輸出結(jié)果，即將步驟2中可能不精確的〈t，m>修改為(Aspect,Rating)。
[0079] 步驟4:對步驟3得到的(Aspect，Rat ing)集合，按Aspect進(jìn)行分類，且可視化表示。
[0080] 綜上所述，本發(fā)明一種基于TMPP模型的摘要生成方法，通過使用"短語袋"表示評論，將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)對廣展為(asp ect，rating)集，使用基于短語參數(shù) 學(xué)習(xí)的主題模型TMPP(Topic Model based on Phrase Parameter，基于短語參數(shù)的主題模型）對aspect和rating同時建模，以減少錯誤累積，并引入潛在聚類變量c表示領(lǐng)域先驗知識，指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。
[0081] 本發(fā)明通過從Web上獲取不同領(lǐng)域的先驗知識，把從不同領(lǐng)域集中挖掘出的相同方面作為先驗知識，讓這些先驗知識指導(dǎo)其產(chǎn)生高質(zhì)量的方面。與此同時，TMPP在處理先驗知識時，采用阻塞式Gibbs抽樣器推理解決了兩個方面的問題：1) 一般的方面可能被多個領(lǐng) 域所共享，但特定的方面可能僅出現(xiàn)在該方面所在領(lǐng)域。這意味不同的方面有特定的頻率，如果在基于頻率的方法中使用一個簡單的頻率閾值，將無法區(qū)分一般的方面和特定的方面;2)詞在不同的領(lǐng)域可能具有不同的意，可見本發(fā)明采用TMPP模型生成(aspect，rating) 摘要，保證了挖掘主題的質(zhì)量，有效地克服了 LDA無指導(dǎo)式的學(xué)習(xí)方式，避免了無意義主題產(chǎn)生的現(xiàn)象。
[0082]上述實施例僅例示性說明本發(fā)明的原理及其功效，而非用于限制本發(fā)明。任何本領(lǐng)域技術(shù)人員均可在不違背本發(fā)明的精神及范疇下，對上述實施例進(jìn)行修飾與改變。因此，本發(fā)明的權(quán)利保護(hù)范圍，應(yīng)如權(quán)利要求書所列。
【主權(quán)項】
1. 一種基于TMPP模型的摘要生成方法，其特征在于：該方法將標(biāo)準(zhǔn)的LDA中表示文檔- 主題的參數(shù)巧廣展為(aspect, rating)集，使用基于短語參數(shù)學(xué)習(xí)的主題模型TMPP對aspect 和rating同時建模，并引入潛在聚類變量C表示領(lǐng)域先驗知識，W指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面。2. 如權(quán)利要求1所述的一種基于TMPP模型的摘要生成方法，其特征在于，該方法包括如下步驟：步驟一，利用整合了領(lǐng)域先驗知識的TMPP模型尋找被評價實體中語義上更連貫的各個方面；步驟二，通過聚類算法對相同聚類的等級預(yù)測對數(shù)量和不同聚類的等級預(yù)測對數(shù)量進(jìn) 行分類，X表示相同聚類的等級預(yù)測對數(shù)量，y表示不同聚類的等級預(yù)測對數(shù)量；步驟=，引用等級預(yù)測的聚類相似度的度量標(biāo)準(zhǔn)公式來預(yù)測等級相似度值；步驟四，獲取被評價實體的評論摘要表。3. 如權(quán)利要求2所述的一種基于TMPP模型的摘要生成方法，其特征在于：于步驟一之前，還包括引入潛在聚類變量C生成該TMPP模型的步驟。4. 如權(quán)利要求3所述的一種基于TMPP模型的摘要生成方法，其特征在于:該TMPP模型使用一個潛在聚類變量C連接潛在方面a和被觀察詞t。5. 如權(quán)利要求3所述的一種基于TMPP模型的摘要生成方法，其特征在于:假設(shè)該TMPP模型的輸入是N篇評論，T個方面，C個聚類，每一篇評論有M個短語，P用隨機變量4對9 (cluster aspect)分布建模，4是服從參數(shù)為0的Dirichlet分布，用隨機變量P對p(t I aspect， cluster)分布建模，'P是服從參數(shù)為丫的Dirichlet分布，隨機變量0服從參數(shù)為a的 Dirich let分布，該模型把它視為高層的（aspect ,rating)集，對于每一對（aspect, rating),目包含了產(chǎn)生aspect和rating組合的概率，每一篇評論抽樣一次目，固定目后，再為該評論產(chǎn)生觀點短語，且假定潛在變量am和rm被獨立抽樣，該TMPP模型的生成步驟如下： (1) 選；(2) 選擇。~]\11111:;[(4) (3) 對于每一對觀點短語(tm，sm)，me {1，2,…，M} (4) 選擇am~P(amI目）和打!~P(打11白） (5) 選擇C~P(c I am)(6 (7 :和rm為條件的多項式分布，聯(lián)合概率分布為6. 如權(quán)利要求5所述的一種基于TMPP模型的摘要生成方法，其特征在于:對于該TMPP模型，已知一篇評論有M個短語，關(guān)鍵的推斷是計算如下所示潛在變量的后驗概率：7. 如權(quán)利要求5所述的一種基于TMPP模型的摘要生成方法，其特征在于:該領(lǐng)域先驗知識從Web上獲取。8. 如權(quán)利要求7所述的一種基于TMPP模型的摘要生成方法，其特征在于:利用基于頻率的方法識別頻繁出現(xiàn)的詞作為先驗知識。9. 如權(quán)利要求8所述的一種基于TMPP模型的摘要生成方法，其特征在于:該先驗知識獲取包括如下步驟：在每一個領(lǐng)域的語料上運行LDA; 對LDA運行得到的主題集進(jìn)行聚類；從每一個聚類中挖掘出頻繁模式。10. 如權(quán)利要求8所述的一種基于TMPP模型的摘要生成方法，其特征在于:在LDA模型的運行過程中，使用阻塞式Gi化S抽樣器實現(xiàn)先驗知識的使用。
【文檔編號】G06F17/30GK105912700SQ201610263574
【公開日】2016年8月31日
【申請日】2016年4月26日
【發(fā)明人】呂品, 鐘忺
【申請人】上海電機學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂品;鐘忺;
技術(shù)所有人：上海電機學(xué)院;
我是此專利的發(fā)明人

上一篇：一種用于智能機器人的文件處理方法
上一篇：一種數(shù)據(jù)分析方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

自動生成摘要相關(guān)技術(shù)

wps自動生成摘要相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于tmpp模型的摘要生成方法