一種話題信息展現(xiàn)方法和裝置的制作方法

文檔序號(hào)：6443064閱讀：133來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種話題信息展現(xiàn)方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種信息技術(shù)，尤其涉及一種話題信息展現(xiàn)方法和裝置。
背景技術(shù)：
互聯(lián)網(wǎng)因即時(shí)性強(qiáng)、互動(dòng)性好成為人們?nèi)粘＋@取新聞的重要途徑之一，并受到政府、金融、企業(yè)、情報(bào)等各領(lǐng)域關(guān)注。由于網(wǎng)絡(luò)中的重要信息常會(huì)被海量數(shù)據(jù)淹沒(méi)，因此建立以話題為主線的信息組織模式、快速有效地檢測(cè)出并展現(xiàn)網(wǎng)上新話題和熱點(diǎn)話題有著重要的意義。微博的出現(xiàn)為話題的發(fā)現(xiàn)和跟蹤提供了另一應(yīng)用前景。微博用戶呈現(xiàn)非常廣闊的興趣，用戶關(guān)注的焦點(diǎn)隨事件發(fā)生而遷移；由于大量繁雜無(wú)用信息的充斥，有很多有興趣的內(nèi)容無(wú)法及時(shí)浮現(xiàn)出來(lái)；話題自動(dòng)識(shí)別和跟蹤可以及時(shí)發(fā)現(xiàn)用戶感興趣的話題，來(lái)吸引更多人參與、討論；通過(guò)跟蹤來(lái)挖掘原創(chuàng)及其作者，提升用戶的成就感和滿意度，特別是草根用戶。從商業(yè)意義來(lái)講，有關(guān)話題內(nèi)容展現(xiàn)地方，更容易投放廣告。同時(shí)對(duì)于熱門(mén)話題，還可引起領(lǐng)導(dǎo)層的關(guān)注，為國(guó)家治理提供及時(shí)信息。因此，展現(xiàn)熱門(mén)話題有著十分重大的意義。為了展現(xiàn)熱門(mén)話題，必須首先發(fā)現(xiàn)話題，下面簡(jiǎn)要介紹發(fā)現(xiàn)話題的方法。話題發(fā)現(xiàn)及追蹤通常以大規(guī)模新聞流為研究對(duì)象，通過(guò)分析新聞報(bào)道，發(fā)現(xiàn)熱點(diǎn)話題并持續(xù)跟蹤下去，最后將涉及某個(gè)話題的新聞報(bào)道組織起來(lái)以某種方式呈現(xiàn)給用戶，方便用戶及時(shí)了解當(dāng)前熱點(diǎn)話題以及事件的發(fā)展，在應(yīng)對(duì)當(dāng)前信息爆炸問(wèn)題方面有著重要的意義。在話題發(fā)現(xiàn)的實(shí)踐中，話題發(fā)現(xiàn)主要有以下方式:1、人工編輯，通過(guò)監(jiān)視媒體或相關(guān)微博可以找出可能的熱門(mén)話題。2、用戶用特定符號(hào)(如#)設(shè)定話題。人工編輯整理的話題雖然準(zhǔn)確度比較高，但是話題的及時(shí)性、覆蓋面都有不足之處，同時(shí)人工編輯有較大的主觀性，整理的話題基本都是眾所周知的話題，對(duì)于某些話題的子話題以及還未傳播開(kāi)的次重要話題不能有效并及時(shí)地發(fā)現(xiàn)。同時(shí)，很多話題隨著時(shí)間的推移討論重點(diǎn)也在發(fā)生變化，而人工編輯難于及時(shí)捕捉話題的談?wù)摻裹c(diǎn)(子話題)。在微博中系統(tǒng)規(guī)定用戶可以使用特定符號(hào)(如#)來(lái)確定完整的語(yǔ)義單位(兩個(gè)#之間的內(nèi)容可以為“話題”或“類(lèi)別”關(guān)鍵詞)，但使用#的用戶只占極少數(shù)，而且使用量在下降，同時(shí)濫用#進(jìn)行作弊的用戶也很多。還可通過(guò)詞頻統(tǒng)計(jì)的方法從某種程度上識(shí)別話題，但是我們知道詞和話題具有本質(zhì)意義上的區(qū)別。詞是廣泛的語(yǔ)義單位，而話題通常由若干個(gè)詞組合而成，如“日本地震”、“溫州動(dòng)車(chē)追尾事故”等代表特定的內(nèi)容。所以用詞來(lái)代表話題很明顯不夠精確。綜上所述，現(xiàn)有技術(shù)發(fā)現(xiàn)的話題還存在著許多不足之處，如話題不準(zhǔn)確、話題發(fā)現(xiàn)不及時(shí)。因此，由于話題發(fā)現(xiàn)是話題展現(xiàn)的前提，話題展現(xiàn)的過(guò)程也同樣存在上述缺點(diǎn)。

發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供了一種話題信息展現(xiàn)方法和裝置，可解決現(xiàn)有技術(shù)話題展現(xiàn)不準(zhǔn)確、不及時(shí)的問(wèn)題。本發(fā)明的實(shí)施例提供了一種話題信息展現(xiàn)方法，其特征在于，包括:接收信息；對(duì)接收的信息進(jìn)行預(yù)處理；對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)；展現(xiàn)發(fā)現(xiàn)的話題信息。所述接收信息是指接收預(yù)定時(shí)間片內(nèi)的信息。所述對(duì)接收的信息進(jìn)行預(yù)處理具體包括:對(duì)所述信息進(jìn)行分詞。所述對(duì)接收的信息進(jìn)行預(yù)處理還包括:對(duì)分詞獲得的詞進(jìn)行詞性標(biāo)注。在對(duì)接收的信息進(jìn)行預(yù)處理之前，還執(zhí)行步驟:對(duì)所接收的信息進(jìn)行文本分類(lèi)和/或廣告及作弊過(guò)濾。所述對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)具體包括:采用增量聚類(lèi)和主題模型對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)。所述步驟采用增量聚類(lèi)和主題模型對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)具體包括:利用主題模型對(duì)預(yù)處理后的信息進(jìn)行主題分析，得到每個(gè)信息的主題向量；根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)，該聚類(lèi)即為話題。所述根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)具體包括:判斷當(dāng)前信息的主題向量與每一個(gè)聚類(lèi)中所有信息的平均主題向量的相似度是否大于預(yù)定值，若是，將當(dāng)前信息填加到該聚類(lèi)中，否則，將當(dāng)前信息作為一個(gè)新的聚類(lèi)。在執(zhí)行根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)步驟之后，還執(zhí)行步驟:對(duì)聚類(lèi)按其包含的信息數(shù)進(jìn)行排序。所述展現(xiàn)發(fā)現(xiàn)的話題信息步驟具體包括:在網(wǎng)頁(yè)上或在電子屏上展現(xiàn)包含的信息數(shù)排名最多的預(yù)定個(gè)數(shù)話題。在執(zhí)行根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)步驟之后，還執(zhí)行下述任一步驟或下述步驟的任意組合:抽取話題包含的關(guān)鍵詞；話題去噪；抽取話題的摘要；抽取話題的發(fā)起人、意見(jiàn)領(lǐng)袖及傳播關(guān)系；追蹤話題。所述展現(xiàn)發(fā)現(xiàn)的話題信息步驟具體包括:在網(wǎng)頁(yè)上或在電子屏上展現(xiàn)抽取話題包含的關(guān)鍵詞和/或抽取話題的摘要。本發(fā)明還提供了一種話題信息展現(xiàn)裝置，包括:接收單元，用于接收信息；預(yù)處理單元，用于對(duì)接收的信息進(jìn)行預(yù)處理；話題發(fā)現(xiàn)單元，用于對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)；展現(xiàn)單元，用于展現(xiàn)發(fā)現(xiàn)的話題信息。根據(jù)本發(fā)明實(shí)施例，可以及時(shí)地發(fā)現(xiàn)新話題及其子話題(相關(guān)焦點(diǎn))，一定程度上解決了人工整理話題帶來(lái)的及時(shí)性及覆蓋面不足的缺點(diǎn)，具有重要的現(xiàn)實(shí)意義。話題的自動(dòng)追蹤可以串聯(lián)相關(guān)話題及事件，從而讓用戶了解某個(gè)話題的來(lái)龍去脈，也有著重要的意義。

圖1示出了本發(fā)明實(shí)施例話題信息展現(xiàn)的流程；圖2示出了本發(fā)明實(shí)施例展現(xiàn)話題信息裝置。
具體實(shí)施例方式為了便于本領(lǐng)域一般技術(shù)人員理解和實(shí)現(xiàn)本發(fā)明，現(xiàn)結(jié)合附圖描繪本發(fā)明的實(shí)施例。對(duì)于話題發(fā)現(xiàn)的問(wèn)題，在理論上有兩類(lèi)算法:(I)基于聚類(lèi)的方法:如增量信息聚類(lèi)、基于全局信息的聚類(lèi)(K-means，層次聚類(lèi))等。(2)基于主題模型的方法。話題發(fā)現(xiàn)及追蹤通常以大規(guī)模新聞流為研究對(duì)象，所以單路徑聚類(lèi)算法是一種普遍采用的算法。此外主題模型方法近年來(lái)得到了充分的重視和深入的研究，普林斯頓大學(xué)的David M-Blei首先提出了 LDA模型，用一個(gè)服從Dirichlet分布的K維隱含隨機(jī)變量表示文檔的主題混合比例，模擬文檔的產(chǎn)生過(guò)程，利用LDA產(chǎn)生的不同隱含主題(每個(gè)主題都可以用不同的詞來(lái)表示，它可以將詞形不同，但意義相同的詞關(guān)聯(lián)到一起)來(lái)決定話題的方法近年來(lái)也被普遍采用。本實(shí)施例提供了一種話題信息展現(xiàn)方法，包括步驟:接收信息；對(duì)接收的信息進(jìn)行預(yù)處理；從預(yù)處理的信息中進(jìn)行話題發(fā)現(xiàn)；展現(xiàn)所發(fā)現(xiàn)的話題信息。圖1示出了本實(shí)施例的話題信息展現(xiàn)方法。下面對(duì)各個(gè)步驟進(jìn)行詳細(xì)介紹。1、接收信息接收信息可以是接收各種信息，尤指接收某一時(shí)間片內(nèi)的某一類(lèi)信息，如某個(gè)時(shí)間片內(nèi)的所有行業(yè)或某一特定行業(yè)的信息，更具體地說(shuō)，某個(gè)時(shí)間片的化學(xué)行業(yè)、計(jì)算機(jī)行業(yè)、物理行業(yè)、軍事行業(yè)、財(cái)經(jīng)行業(yè)等行業(yè)的信息。上述信息通常以若干個(gè)文本方式存在，如一條微博就是一條信息，兩個(gè)小時(shí)片內(nèi)的所有信息(微博)可能有數(shù)百萬(wàn)之多。在本發(fā)明中，以微博作為信息為例說(shuō)明話題發(fā)現(xiàn)方法。2、對(duì)接收的信息進(jìn)行預(yù)處理即對(duì)接收的信息進(jìn)行分詞和詞性標(biāo)注，然后取名詞、動(dòng)詞等詞性的詞作為關(guān)鍵詞。分詞及詞性標(biāo)注主要用于選擇每個(gè)信息文本的核心關(guān)鍵詞，拋棄停用詞等非核心關(guān)鍵詞，關(guān)鍵詞的選擇一方面可以提高后續(xù)文本處理的速度，另一方面可以降低非核心詞引起的噪聲問(wèn)題。為了實(shí)現(xiàn)只針對(duì)某類(lèi)信息進(jìn)行話題發(fā)現(xiàn)，我們需要對(duì)接收的所有信息進(jìn)行分類(lèi)，如化學(xué)類(lèi)、計(jì)算機(jī)類(lèi)、物理類(lèi)、軍事類(lèi)、財(cái)經(jīng)類(lèi)等。為了加快預(yù)處理過(guò)程，在進(jìn)行預(yù)處理之前，還要對(duì)所接收的所有信息進(jìn)行廣告及作弊過(guò)濾。文本分類(lèi)我們利用文本分類(lèi)來(lái)限定待分析信息的類(lèi)別，實(shí)現(xiàn)對(duì)某一行業(yè)的話題發(fā)現(xiàn)。隨著互聯(lián)網(wǎng)的飛速發(fā)展，網(wǎng)上電子文檔的信息量成爆炸趨勢(shì)，大規(guī)模的文本處理已經(jīng)成為一個(gè)挑戰(zhàn)，而文本自動(dòng)分類(lèi)是將文本劃分到預(yù)定義的類(lèi)中，幫助人們檢索、查詢、過(guò)濾和利用信息的有效手段。分類(lèi)算法有兩大類(lèi):基于規(guī)則的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。基于規(guī)則的方法費(fèi)時(shí)費(fèi)力，難以保證一致性和準(zhǔn)確性，而且領(lǐng)域移植性差；基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法快速，領(lǐng)域移植性好。統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法主要有羅基奧方法(Rocchio method)、貝葉斯方法、KNN方法、決策樹(shù)方法(decision tree)、決策規(guī)則分類(lèi)方法(Decision RuleClassifier)、神經(jīng)網(wǎng)絡(luò)方法(Neural Networks)、支持向量機(jī)(SVM)、基于投票的方法(voting method)等。經(jīng)典的貝葉斯分類(lèi)法分類(lèi)速度快，本申請(qǐng)中我們即采用了這種分類(lèi)法對(duì)某一時(shí)間片內(nèi)的微博文本集進(jìn)行分類(lèi)，如將微博文本集分為:時(shí)政類(lèi)、財(cái)經(jīng)類(lèi)、體育類(lèi)、娛樂(lè)類(lèi)等22個(gè)類(lèi)別。然后對(duì)不同類(lèi)別的微博文本集合進(jìn)行話題識(shí)別，這樣便于我們得到不同類(lèi)別的話題。廣告及作弊過(guò)濾微博信息量大，充斥著大量的廣告和作弊微博，而所謂的話題并不包含廣告，所以過(guò)濾掉這些廣告和作弊微博不僅可以降低需要處理的數(shù)據(jù)量，同時(shí)可以降低這些微博對(duì)后續(xù)處理產(chǎn)生的干擾，有利于后續(xù)話題挖掘和追蹤。3、從預(yù)處理的信息中進(jìn)行話題發(fā)現(xiàn)話題發(fā)現(xiàn)和追蹤系統(tǒng)通常采用增量聚類(lèi)或主題模型的方法?；谠隽烤垲?lèi)的算法將相似度大于一定閾值的樣本聚到一起，相似度計(jì)算通常是基于詞特征的相似度，所以對(duì)屬于同一話題但詞特征相似度小于閾值的樣本卻無(wú)能為力，一定程度上造成了話題的重復(fù)，但是增量聚類(lèi)方法聚類(lèi)速度快，同時(shí)不需要事先指定聚類(lèi)數(shù)，可以有效地保證話題的召回率?；谥黝}模型的方法需要人工預(yù)先指定主題數(shù)K，然后通過(guò)無(wú)監(jiān)督的學(xué)習(xí)，得到K個(gè)主題，將得到的主題作為話題，K值指定的過(guò)大會(huì)造成識(shí)別出的話題之間出現(xiàn)冗余，需要進(jìn)行去重，K值指定的過(guò)小會(huì)造成識(shí)別出的話題召回率較低，所以確定合理的K值難度較大。實(shí)際上這種將主題作為話題方式是不妥的，因?yàn)樵掝}與某個(gè)事件相關(guān)，而主題可以涵蓋多個(gè)類(lèi)似的事件，也就是說(shuō)主題涵蓋的范圍比話題大，直接將主題作為話題并不能真正地表示一個(gè)話題。然而主題模型可以進(jìn)行潛在語(yǔ)義分析，每個(gè)主題對(duì)應(yīng)一系列關(guān)鍵詞，主題可以認(rèn)為是位于文檔和詞之間的潛在語(yǔ)義特征，這種潛在語(yǔ)義特征可以對(duì)詞空間起到降維的作用，可以關(guān)聯(lián)詞形不同但語(yǔ)義相同或相關(guān)的詞，尤其是在短文本相似度計(jì)算過(guò)程中，潛在語(yǔ)義特征(主題向量)效果要優(yōu)于詞向量，這也是我們利用主題模型的原因。基于以上兩種算法的優(yōu)缺點(diǎn)，結(jié)合微博數(shù)據(jù)量大，噪聲多的特點(diǎn)，本發(fā)明將兩種算法進(jìn)行了結(jié)合，采用基于主題模型和增量聚類(lèi)相結(jié)合的話題發(fā)現(xiàn)算法，首先利用主題模型對(duì)某個(gè)時(shí)間片的分類(lèi)別信息進(jìn)行主題分析，得到每個(gè)主題的主題詞列表以及每篇博文的主題向量，然后基于每篇博文的主題向量采用余弦相似度公式進(jìn)行增量聚類(lèi)，進(jìn)而得到多個(gè)不同的聚類(lèi)，通過(guò)對(duì)這些聚類(lèi)進(jìn)行打分排序，最終選擇一定數(shù)量的聚類(lèi)作為話題。下面介紹主題模型和增量聚類(lèi)話題相結(jié)合以發(fā)現(xiàn)話題的方法。(I)、主題模型一個(gè)文本通常包括討論的若干主題，而文本中的特定詞匯體現(xiàn)出所討論的特定主題。在統(tǒng)計(jì)自然語(yǔ)言處理中，為文本主題建模的方法是視主題為詞匯的概率分布，文本為這些主題的隨機(jī)混合。PLSA(Probabilistic Latent Semantic Analysis,概率潛在語(yǔ)義分析)和LDA(Latent Dirichlet Allocation,語(yǔ)義狄利克雷分配)是目前較常用的主題模型。目前的主題模型一般基于同樣的思想-文本是若干主題的隨機(jī)混合。不同的模型會(huì)進(jìn)一步作不同的統(tǒng)計(jì)假設(shè)，以不同的方式獲取模型參數(shù)。與PLSA模型相比，LDA稱得上是完全的生成模型。LDA在文本到主題一層引入了dirichlet (狄利克雷)分布，這是它優(yōu)于PLSA的地方，使得模型參數(shù)的數(shù)量不會(huì)隨著語(yǔ)料庫(kù)的擴(kuò)大而增多。本文采用LDA主題模型進(jìn)行博文主題向量分析，下面我們簡(jiǎn)要介紹LDA主題模型。
LDA 模型假設(shè)有T個(gè)主題，則所給文本中的第i個(gè)詞匯Wi在這篇文本中的概率可以表示如下:
權(quán)利要求
1.一種話題信息展現(xiàn)方法，其特征在于，包括: 接收信息；對(duì)接收的信息進(jìn)行預(yù)處理；對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)；展現(xiàn)發(fā)現(xiàn)的話題信息。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述接收信息是指接收預(yù)定時(shí)間片段內(nèi)的信息。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)接收的信息進(jìn)行預(yù)處理具體包括:對(duì)所述信息進(jìn)行分詞。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述對(duì)接收的信息進(jìn)行預(yù)處理還包括:對(duì)分詞獲得的詞進(jìn)行詞性標(biāo)注。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，在對(duì)接收的信息進(jìn)行預(yù)處理之前，還執(zhí)行步驟:對(duì)所接收的信息進(jìn)行文本分類(lèi)和/或廣告及作弊過(guò)濾。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)具體包括:采用增量聚類(lèi)和主題模型對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述步驟采用增量聚類(lèi)和主題模型對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)具體包括: 利用主題模型對(duì)預(yù)處理的信息進(jìn)行主題分析，得到每個(gè)信息的主題向量；根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)，該聚類(lèi)即為話題。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)具體包括: 判斷當(dāng)前信息的主題向量與每一個(gè)聚類(lèi)中所有信息的平均主題向量的相似度是否大于預(yù)定值，若是，將當(dāng)前信息填加到該聚類(lèi)中，否則，將當(dāng)前信息作為一個(gè)新的聚類(lèi)。
9.根據(jù)權(quán)利要求7所述的方法，其特征在于，在執(zhí)行根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)步驟之后，還執(zhí)行步驟:對(duì)聚類(lèi)按其包含的信息數(shù)進(jìn)行排序。
10.根據(jù)權(quán)利要求9所述的方法，其特征在于，所述展現(xiàn)發(fā)現(xiàn)的話題信息步驟具體包括:在網(wǎng)頁(yè)上或在電子屏上展現(xiàn)包含的信息數(shù)排名最多的預(yù)定個(gè)數(shù)話題。
11.根據(jù)權(quán)利要求7所述的方法，其特征在于，在執(zhí)行根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)步驟之后，還執(zhí)行下述任一步驟或下述步驟的任意組合:抽取話題包含的關(guān)鍵詞；話題去噪；抽取話題的摘要；抽取話題的發(fā)起人、意見(jiàn)領(lǐng)袖及傳播關(guān)系；追蹤話題。
12.根據(jù)權(quán)利要求11所述的方法，其特征在于，所述展現(xiàn)發(fā)現(xiàn)的話題信息步驟具體包括:在網(wǎng)頁(yè)上或在電子屏上展現(xiàn)抽取話題包含的關(guān)鍵詞和/或抽取話題的摘要。
13.一種話題信息展現(xiàn)裝置，其特征在于，包括: 接收單元，用于接收信息；預(yù)處理單元，用于對(duì)接收的信息進(jìn)行預(yù)處理；話題發(fā)現(xiàn)單元，用于對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)；展現(xiàn)單元，用于展現(xiàn)發(fā)現(xiàn)的話題信息。
14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述話題發(fā)現(xiàn)單元具體包括: 主題模型單元，用于利用主題模型對(duì)預(yù)處理的信息進(jìn)行主題分析，得到每個(gè)信息的主題向量；聚類(lèi)單元，用于根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)，該聚類(lèi)即為話題。
15.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述裝置還包括:排序單元:用于對(duì)聚類(lèi)按其包含的信息數(shù)進(jìn)行排序。
16.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述裝置還包括:話題處理單元，用于執(zhí)行下述任一步驟或下述步驟的任意組合:抽取話題包含的關(guān)鍵詞；話題去噪；抽取話題的摘要；抽取話題的發(fā)起人、意見(jiàn)領(lǐng)袖及傳播關(guān)系；追蹤話題。
全文摘要
本發(fā)明的實(shí)施例提供了一種話題信息展現(xiàn)方法和裝置，可解決現(xiàn)有技術(shù)話題展現(xiàn)不準(zhǔn)確、不及時(shí)的問(wèn)題。所述方法包括接收信息；對(duì)接收的信息進(jìn)行預(yù)處理；對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)；展現(xiàn)發(fā)現(xiàn)的話題信息。根據(jù)本發(fā)明實(shí)施例，可以及時(shí)地發(fā)現(xiàn)新話題及其子話題(相關(guān)焦點(diǎn))，一定程度上解決了人工整理話題帶來(lái)的及時(shí)性及覆蓋面不足的缺點(diǎn)，具有重要的現(xiàn)實(shí)意義。話題的自動(dòng)追蹤可以串聯(lián)相關(guān)話題及事件，從而讓用戶了解某個(gè)話題的來(lái)龍去脈，也有著重要的意義。
文檔編號(hào)G06F17/30GK103177024SQ201110439258
公開(kāi)日2013年6月26日申請(qǐng)日期2011年12月23日優(yōu)先權(quán)日2011年12月23日
發(fā)明者伏圣國(guó), 董恭謹(jǐn), 朱紅壘, 井輝, 白栓虎申請(qǐng)人:微夢(mèng)創(chuàng)科網(wǎng)絡(luò)科技(中國(guó))有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：伏圣國(guó);董恭謹(jǐn);朱紅壘;井輝;白栓虎
技術(shù)所有人：微夢(mèng)創(chuàng)科網(wǎng)絡(luò)科技（中國(guó)）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用戶信息傳輸裝置相關(guān)技術(shù)

消防用戶信息傳輸裝置相關(guān)技術(shù)

讀裝置信息錯(cuò)相關(guān)技術(shù)

思迪用戶信息傳輸裝置相關(guān)技術(shù)

測(cè)控裝置采集哪些信息相關(guān)技術(shù)

檢查裝置氣密性的方法相關(guān)技術(shù)

裝置氣密性檢查方法相關(guān)技術(shù)

檢驗(yàn)裝置氣密性的方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種話題信息展現(xiàn)方法和裝置的制作方法