專利名稱:一種話題信息展現(xiàn)方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息技術(shù),尤其涉及一種話題信息展現(xiàn)方法和裝置。
背景技術(shù):
互聯(lián)網(wǎng)因即時(shí)性強(qiáng)、互動(dòng)性好成為人們?nèi)粘+@取新聞的重要途徑之一,并受到政府、金融、企業(yè)、情報(bào)等各領(lǐng)域關(guān)注。由于網(wǎng)絡(luò)中的重要信息常會(huì)被海量數(shù)據(jù)淹沒(méi),因此建立以話題為主線的信息組織模式、快速有效地檢測(cè)出并展現(xiàn)網(wǎng)上新話題和熱點(diǎn)話題有著重要的意義。微博的出現(xiàn)為話題的發(fā)現(xiàn)和跟蹤提供了另一應(yīng)用前景。微博用戶呈現(xiàn)非常廣闊的興趣,用戶關(guān)注的焦點(diǎn)隨事件發(fā)生而遷移;由于大量繁雜無(wú)用信息的充斥,有很多有興趣的內(nèi)容無(wú)法及時(shí)浮現(xiàn)出來(lái);話題自動(dòng)識(shí)別和跟蹤可以及時(shí)發(fā)現(xiàn)用戶感興趣的話題,來(lái)吸引更多人參與、討論;通過(guò)跟蹤來(lái)挖掘原創(chuàng)及其作者,提升用戶的成就感和滿意度,特別是草根用戶。從商業(yè)意義來(lái)講,有關(guān)話題內(nèi)容展現(xiàn)地方,更容易投放廣告。同時(shí)對(duì)于熱門(mén)話題,還可引起領(lǐng)導(dǎo)層的關(guān)注,為國(guó)家治理提供及時(shí)信息。因此,展現(xiàn)熱門(mén)話題有著十分重大的意義。為了展現(xiàn)熱門(mén)話題,必須首先發(fā)現(xiàn)話題,下面簡(jiǎn)要介紹發(fā)現(xiàn)話題的方法。話題發(fā)現(xiàn)及追蹤通常以大規(guī)模新聞流為研究對(duì)象,通過(guò)分析新聞報(bào)道,發(fā)現(xiàn)熱點(diǎn)話題并持續(xù)跟蹤下去,最后將涉及某個(gè)話題的新聞報(bào)道組織起來(lái)以某種方式呈現(xiàn)給用戶,方便用戶及時(shí)了解當(dāng)前熱點(diǎn)話題以及事件的發(fā)展,在應(yīng)對(duì)當(dāng)前信息爆炸問(wèn)題方面有著重要的意義。在話題發(fā)現(xiàn)的實(shí)踐中,話題發(fā)現(xiàn)主要有以下方式:1、人工編輯,通過(guò)監(jiān)視媒體或相關(guān)微博可以找出可能的熱門(mén)話題。2、用戶用特定符號(hào)(如#)設(shè)定話題。人工編輯整理的話題雖然準(zhǔn)確度比較高,但是話題的及時(shí)性、覆蓋面都有不足之處,同時(shí)人工編輯有較大的主觀性,整理的話題基本都是眾所周知的話題,對(duì)于某些話題的子話題以及還未傳播開(kāi)的次重要話題不能有效并及時(shí)地發(fā)現(xiàn)。同時(shí),很多話題隨著時(shí)間的推移討論重點(diǎn)也在發(fā)生變化,而人工編輯難于及時(shí)捕捉話題的談?wù)摻裹c(diǎn)(子話題)。在微博中系統(tǒng)規(guī)定用戶可以使用特定符號(hào)(如#)來(lái)確定完整的語(yǔ)義單位(兩個(gè)#之間的內(nèi)容可以為“話題”或“類(lèi)別”關(guān)鍵詞),但使用#的用戶只占極少數(shù),而且使用量在下降,同時(shí)濫用#進(jìn)行作弊的用戶也很多。還可通過(guò)詞頻統(tǒng)計(jì)的方法從某種程度上識(shí)別話題,但是我們知道詞和話題具有本質(zhì)意義上的區(qū)別。詞是廣泛的語(yǔ)義單位,而話題通常由若干個(gè)詞組合而成,如“日本地震”、“溫州動(dòng)車(chē)追尾事故”等代表特定的內(nèi)容。所以用詞來(lái)代表話題很明顯不夠精確。綜上所述,現(xiàn)有技術(shù)發(fā)現(xiàn)的話題還存在著許多不足之處,如話題不準(zhǔn)確、話題發(fā)現(xiàn)不及時(shí)。因此,由于話題發(fā)現(xiàn)是話題展現(xiàn)的前提,話題展現(xiàn)的過(guò)程也同樣存在上述缺點(diǎn)。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供了一種話題信息展現(xiàn)方法和裝置,可解決現(xiàn)有技術(shù)話題展現(xiàn)不準(zhǔn)確、不及時(shí)的問(wèn)題。本發(fā)明的實(shí)施例提供了一種話題信息展現(xiàn)方法,其特征在于,包括:接收信息;對(duì)接收的信息進(jìn)行預(yù)處理;對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn);展現(xiàn)發(fā)現(xiàn)的話題信息。所述接收信息是指接收預(yù)定時(shí)間片內(nèi)的信息。所述對(duì)接收的信息進(jìn)行預(yù)處理具體包括:對(duì)所述信息進(jìn)行分詞。所述對(duì)接收的信息進(jìn)行預(yù)處理還包括:對(duì)分詞獲得的詞進(jìn)行詞性標(biāo)注。在對(duì)接收的信息進(jìn)行預(yù)處理之前,還執(zhí)行步驟:對(duì)所接收的信息進(jìn)行文本分類(lèi)和/或廣告及作弊過(guò)濾。所述對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)具體包括:采用增量聚類(lèi)和主題模型對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)。所述步驟采用增量聚類(lèi)和主題模型對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)具體包括:利用主題模型對(duì)預(yù)處理后的信息進(jìn)行主題分析,得到每個(gè)信息的主題向量;根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi),該聚類(lèi)即為話題。所述根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)具體包括:判斷當(dāng)前信息的主題向量與每一個(gè)聚類(lèi)中所有信息的平均主題向量的相似度是否大于預(yù)定值,若是,將當(dāng)前信息填加到該聚類(lèi)中,否則,將當(dāng)前信息作為一個(gè)新的聚類(lèi)。在執(zhí)行根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)步驟之后,還執(zhí)行步驟:對(duì)聚類(lèi)按其包含的信息數(shù)進(jìn)行排序。所述展現(xiàn)發(fā)現(xiàn)的話題信息步驟具體包括:在網(wǎng)頁(yè)上或在電子屏上展現(xiàn)包含的信息數(shù)排名最多的預(yù)定個(gè)數(shù)話題。在執(zhí)行根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)步驟之后,還執(zhí)行下述任一步驟或下述步驟的任意組合:抽取話題包含的關(guān)鍵詞;話題去噪;抽取話題的摘要;抽取話題的發(fā)起人、意見(jiàn)領(lǐng)袖及傳播關(guān)系;追蹤話題。所述展現(xiàn)發(fā)現(xiàn)的話題信息步驟具體包括:在網(wǎng)頁(yè)上或在電子屏上展現(xiàn)抽取話題包含的關(guān)鍵詞和/或抽取話題的摘要。本發(fā)明還提供了一種話題信息展現(xiàn)裝置,包括:接收單元,用于接收信息;預(yù)處理單元,用于對(duì)接收的信息進(jìn)行預(yù)處理;話題發(fā)現(xiàn)單元,用于對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn);展現(xiàn)單元,用于展現(xiàn)發(fā)現(xiàn)的話題信息。根據(jù)本發(fā)明實(shí)施例,可以及時(shí)地發(fā)現(xiàn)新話題及其子話題(相關(guān)焦點(diǎn)),一定程度上解決了人工整理話題帶來(lái)的及時(shí)性及覆蓋面不足的缺點(diǎn),具有重要的現(xiàn)實(shí)意義。話題的自動(dòng)追蹤可以串聯(lián)相關(guān)話題及事件,從而讓用戶了解某個(gè)話題的來(lái)龍去脈,也有著重要的意義。
圖1示出了本發(fā)明實(shí)施例話題信息展現(xiàn)的流程;圖2示出了本發(fā)明實(shí)施例展現(xiàn)話題信息裝置。
具體實(shí)施例方式為了便于本領(lǐng)域一般技術(shù)人員理解和實(shí)現(xiàn)本發(fā)明,現(xiàn)結(jié)合附圖描繪本發(fā)明的實(shí)施例。對(duì)于話題發(fā)現(xiàn)的問(wèn)題,在理論上有兩類(lèi)算法:(I)基于聚類(lèi)的方法:如增量信息聚類(lèi)、基于全局信息的聚類(lèi)(K-means,層次聚類(lèi))等。(2)基于主題模型的方法。話題發(fā)現(xiàn)及追蹤通常以大規(guī)模新聞流為研究對(duì)象,所以單路徑聚類(lèi)算法是一種普遍采用的算法。此外主題模型方法近年來(lái)得到了充分的重視和深入的研究,普林斯頓大學(xué)的David M-Blei首先提出了 LDA模型,用一個(gè)服從Dirichlet分布的K維隱含隨機(jī)變量表示文檔的主題混合比例,模擬文檔的產(chǎn)生過(guò)程,利用LDA產(chǎn)生的不同隱含主題(每個(gè)主題都可以用不同的詞來(lái)表示,它可以將詞形不同,但意義相同的詞關(guān)聯(lián)到一起)來(lái)決定話題的方法近年來(lái)也被普遍采用。本實(shí)施例提供了一種話題信息展現(xiàn)方法,包括步驟:接收信息;對(duì)接收的信息進(jìn)行預(yù)處理;從預(yù)處理的信息中進(jìn)行話題發(fā)現(xiàn);展現(xiàn)所發(fā)現(xiàn)的話題信息。圖1示出了本實(shí)施例的話題信息展現(xiàn)方法。下面對(duì)各個(gè)步驟進(jìn)行詳細(xì)介紹。1、接收信息接收信息可以是接收各種信息,尤指接收某一時(shí)間片內(nèi)的某一類(lèi)信息,如某個(gè)時(shí)間片內(nèi)的所有行業(yè)或某一特定行業(yè)的信息,更具體地說(shuō),某個(gè)時(shí)間片的化學(xué)行業(yè)、計(jì)算機(jī)行業(yè)、物理行業(yè)、軍事行業(yè)、財(cái)經(jīng)行業(yè)等行業(yè)的信息。上述信息通常以若干個(gè)文本方式存在,如一條微博就是一條信息,兩個(gè)小時(shí)片內(nèi)的所有信息(微博)可能有數(shù)百萬(wàn)之多。在本發(fā)明中,以微博作為信息為例說(shuō)明話題發(fā)現(xiàn)方法。2、對(duì)接收的信息進(jìn)行預(yù)處理即對(duì)接收的信息進(jìn)行分詞和詞性標(biāo)注,然后取名詞、動(dòng)詞等詞性的詞作為關(guān)鍵詞。分詞及詞性標(biāo)注主要用于選擇每個(gè)信息文本的核心關(guān)鍵詞,拋棄停用詞等非核心關(guān)鍵詞,關(guān)鍵詞的選擇一方面可以提高后續(xù)文本處理的速度,另一方面可以降低非核心詞引起的噪聲問(wèn)題。為了實(shí)現(xiàn)只針對(duì)某類(lèi)信息進(jìn)行話題發(fā)現(xiàn),我們需要對(duì)接收的所有信息進(jìn)行分類(lèi),如化學(xué)類(lèi)、計(jì)算機(jī)類(lèi)、物理類(lèi)、軍事類(lèi)、財(cái)經(jīng)類(lèi)等。為了加快預(yù)處理過(guò)程,在進(jìn)行預(yù)處理之前,還要對(duì)所接收的所有信息進(jìn)行廣告及作弊過(guò)濾。文本分類(lèi)我們利用文本分類(lèi)來(lái)限定待分析信息的類(lèi)別,實(shí)現(xiàn)對(duì)某一行業(yè)的話題發(fā)現(xiàn)。隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)上電子文檔的信息量成爆炸趨勢(shì),大規(guī)模的文本處理已經(jīng)成為一個(gè)挑戰(zhàn),而文本自動(dòng)分類(lèi)是將文本劃分到預(yù)定義的類(lèi)中,幫助人們檢索、查詢、過(guò)濾和利用信息的有效手段。分類(lèi)算法有兩大類(lèi):基于規(guī)則的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。基于規(guī)則的方法費(fèi)時(shí)費(fèi)力,難以保證一致性和準(zhǔn)確性,而且領(lǐng)域移植性差;基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法快速,領(lǐng)域移植性好。統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法主要有羅基奧方法(Rocchio method)、貝葉斯方法、KNN方法、決策樹(shù)方法(decision tree)、決策規(guī)則分類(lèi)方法(Decision RuleClassifier)、神經(jīng)網(wǎng)絡(luò)方法(Neural Networks)、支持向量機(jī)(SVM)、基于投票的方法(voting method)等。經(jīng)典的貝葉斯分類(lèi)法分類(lèi)速度快,本申請(qǐng)中我們即采用了這種分類(lèi)法對(duì)某一時(shí)間片內(nèi)的微博文本集進(jìn)行分類(lèi),如將微博文本集分為:時(shí)政類(lèi)、財(cái)經(jīng)類(lèi)、體育類(lèi)、娛樂(lè)類(lèi)等22個(gè)類(lèi)別。然后對(duì)不同類(lèi)別的微博文本集合進(jìn)行話題識(shí)別,這樣便于我們得到不同類(lèi)別的話題。廣告及作弊過(guò)濾微博信息量大,充斥著大量的廣告和作弊微博,而所謂的話題并不包含廣告,所以過(guò)濾掉這些廣告和作弊微博不僅可以降低需要處理的數(shù)據(jù)量,同時(shí)可以降低這些微博對(duì)后續(xù)處理產(chǎn)生的干擾,有利于后續(xù)話題挖掘和追蹤。3、從預(yù)處理的信息中進(jìn)行話題發(fā)現(xiàn)話題發(fā)現(xiàn)和追蹤系統(tǒng)通常采用增量聚類(lèi)或主題模型的方法?;谠隽烤垲?lèi)的算法將相似度大于一定閾值的樣本聚到一起,相似度計(jì)算通常是基于詞特征的相似度,所以對(duì)屬于同一話題但詞特征相似度小于閾值的樣本卻無(wú)能為力,一定程度上造成了話題的重復(fù),但是增量聚類(lèi)方法聚類(lèi)速度快,同時(shí)不需要事先指定聚類(lèi)數(shù),可以有效地保證話題的召回率?;谥黝}模型的方法需要人工預(yù)先指定主題數(shù)K,然后通過(guò)無(wú)監(jiān)督的學(xué)習(xí),得到K個(gè)主題,將得到的主題作為話題,K值指定的過(guò)大會(huì)造成識(shí)別出的話題之間出現(xiàn)冗余,需要進(jìn)行去重,K值指定的過(guò)小會(huì)造成識(shí)別出的話題召回率較低,所以確定合理的K值難度較大。實(shí)際上這種將主題作為話題方式是不妥的,因?yàn)樵掝}與某個(gè)事件相關(guān),而主題可以涵蓋多個(gè)類(lèi)似的事件,也就是說(shuō)主題涵蓋的范圍比話題大,直接將主題作為話題并不能真正地表示一個(gè)話題。然而主題模型可以進(jìn)行潛在語(yǔ)義分析,每個(gè)主題對(duì)應(yīng)一系列關(guān)鍵詞,主題可以認(rèn)為是位于文檔和詞之間的潛在語(yǔ)義特征,這種潛在語(yǔ)義特征可以對(duì)詞空間起到降維的作用,可以關(guān)聯(lián)詞形不同但語(yǔ)義相同或相關(guān)的詞,尤其是在短文本相似度計(jì)算過(guò)程中,潛在語(yǔ)義特征(主題向量)效果要優(yōu)于詞向量,這也是我們利用主題模型的原因。基于以上兩種算法的優(yōu)缺點(diǎn),結(jié)合微博數(shù)據(jù)量大,噪聲多的特點(diǎn),本發(fā)明將兩種算法進(jìn)行了結(jié)合,采用基于主題模型和增量聚類(lèi)相結(jié)合的話題發(fā)現(xiàn)算法,首先利用主題模型對(duì)某個(gè)時(shí)間片的分類(lèi)別信息進(jìn)行主題分析,得到每個(gè)主題的主題詞列表以及每篇博文的主題向量,然后基于每篇博文的主題向量采用余弦相似度公式進(jìn)行增量聚類(lèi),進(jìn)而得到多個(gè)不同的聚類(lèi),通過(guò)對(duì)這些聚類(lèi)進(jìn)行打分排序,最終選擇一定數(shù)量的聚類(lèi)作為話題。下面介紹主題模型和增量聚類(lèi)話題相結(jié)合以發(fā)現(xiàn)話題的方法。(I)、主題模型一個(gè)文本通常包括討論的若干主題,而文本中的特定詞匯體現(xiàn)出所討論的特定主題。在統(tǒng)計(jì)自然語(yǔ)言處理中,為文本主題建模的方法是視主題為詞匯的概率分布,文本為這些主題的隨機(jī)混合。PLSA(Probabilistic Latent Semantic Analysis,概率潛在語(yǔ)義分析)和LDA(Latent Dirichlet Allocation,語(yǔ)義狄利克雷分配)是目前較常用的主題模型。目前的主題模型一般基于同樣的思想-文本是若干主題的隨機(jī)混合。不同的模型會(huì)進(jìn)一步作不同的統(tǒng)計(jì)假設(shè),以不同的方式獲取模型參數(shù)。與PLSA模型相比,LDA稱得上是完全的生成模型。LDA在文本到主題一層引入了dirichlet (狄利克雷)分布,這是它優(yōu)于PLSA的地方,使得模型參數(shù)的數(shù)量不會(huì)隨著語(yǔ)料庫(kù)的擴(kuò)大而增多。本文采用LDA主題模型進(jìn)行博文主題向量分析,下面我們簡(jiǎn)要介紹LDA主題模型。
LDA 模型假設(shè)有T個(gè)主題,則所給文本中的第i個(gè)詞匯Wi在這篇文本中的概率可以表示如下:
權(quán)利要求
1.一種話題信息展現(xiàn)方法,其特征在于,包括: 接收信息; 對(duì)接收的信息進(jìn)行預(yù)處理; 對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn); 展現(xiàn)發(fā)現(xiàn)的話題信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述接收信息是指接收預(yù)定時(shí)間片段內(nèi)的信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)接收的信息進(jìn)行預(yù)處理具體包括:對(duì)所述信息進(jìn)行分詞。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對(duì)接收的信息進(jìn)行預(yù)處理還包括:對(duì)分詞獲得的詞進(jìn)行詞性標(biāo)注。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在對(duì)接收的信息進(jìn)行預(yù)處理之前,還執(zhí)行步驟:對(duì)所接收的信息進(jìn)行文本分類(lèi)和/或廣告及作弊過(guò)濾。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)具體包括:采用增量聚類(lèi)和主題模型對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟采用增量聚類(lèi)和主題模型對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn)具體包括: 利用主題模型對(duì)預(yù)處理的信息進(jìn)行主題分析,得到每個(gè)信息的主題向量; 根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi),該聚類(lèi)即為話題。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)具體包括: 判斷當(dāng)前信息的主題向量與每一個(gè)聚類(lèi)中所有信息的平均主題向量的相似度是否大于預(yù)定值,若是,將當(dāng)前信息填加到該聚類(lèi)中,否則,將當(dāng)前信息作為一個(gè)新的聚類(lèi)。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,在執(zhí)行根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)步驟之后,還執(zhí)行步驟:對(duì)聚類(lèi)按其包含的信息數(shù)進(jìn)行排序。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述展現(xiàn)發(fā)現(xiàn)的話題信息步驟具體包括:在網(wǎng)頁(yè)上或在電子屏上展現(xiàn)包含的信息數(shù)排名最多的預(yù)定個(gè)數(shù)話題。
11.根據(jù)權(quán)利要求7所述的方法,其特征在于,在執(zhí)行根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi)步驟之后,還執(zhí)行下述任一步驟或下述步驟的任意組合:抽取話題包含的關(guān)鍵詞;話題去噪;抽取話題的摘要;抽取話題的發(fā)起人、意見(jiàn)領(lǐng)袖及傳播關(guān)系;追蹤話題。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述展現(xiàn)發(fā)現(xiàn)的話題信息步驟具體包括:在網(wǎng)頁(yè)上或在電子屏上展現(xiàn)抽取話題包含的關(guān)鍵詞和/或抽取話題的摘要。
13.一種話題信息展現(xiàn)裝置,其特征在于,包括: 接收單元,用于接收信息; 預(yù)處理單元,用于對(duì)接收的信息進(jìn)行預(yù)處理; 話題發(fā)現(xiàn)單元,用于對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn); 展現(xiàn)單元,用于展現(xiàn)發(fā)現(xiàn)的話題信息。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述話題發(fā)現(xiàn)單元具體包括: 主題模型單元,用于利用主題模型對(duì)預(yù)處理的信息進(jìn)行主題分析,得到每個(gè)信息的主題向量; 聚類(lèi)單元,用于根據(jù)每個(gè)信息的主題向量的相似度進(jìn)行增量聚類(lèi),該聚類(lèi)即為話題。
15.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括:排序單元:用于對(duì)聚類(lèi)按其包含的信息數(shù)進(jìn)行排序。
16.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括:話題處理單元,用于執(zhí)行下述任一步驟或下述步驟的任意組合:抽取話題包含的關(guān)鍵詞;話題去噪;抽取話題的摘要;抽取話題的發(fā)起人、 意見(jiàn)領(lǐng)袖及傳播關(guān)系;追蹤話題。
全文摘要
本發(fā)明的實(shí)施例提供了一種話題信息展現(xiàn)方法和裝置,可解決現(xiàn)有技術(shù)話題展現(xiàn)不準(zhǔn)確、不及時(shí)的問(wèn)題。所述方法包括接收信息;對(duì)接收的信息進(jìn)行預(yù)處理;對(duì)預(yù)處理的信息進(jìn)行話題發(fā)現(xiàn);展現(xiàn)發(fā)現(xiàn)的話題信息。根據(jù)本發(fā)明實(shí)施例,可以及時(shí)地發(fā)現(xiàn)新話題及其子話題(相關(guān)焦點(diǎn)),一定程度上解決了人工整理話題帶來(lái)的及時(shí)性及覆蓋面不足的缺點(diǎn),具有重要的現(xiàn)實(shí)意義。話題的自動(dòng)追蹤可以串聯(lián)相關(guān)話題及事件,從而讓用戶了解某個(gè)話題的來(lái)龍去脈,也有著重要的意義。
文檔編號(hào)G06F17/30GK103177024SQ201110439258
公開(kāi)日2013年6月26日 申請(qǐng)日期2011年12月23日 優(yōu)先權(quán)日2011年12月23日
發(fā)明者伏圣國(guó), 董恭謹(jǐn), 朱紅壘, 井輝, 白栓虎 申請(qǐng)人:微夢(mèng)創(chuàng)科網(wǎng)絡(luò)科技(中國(guó))有限公司