本發(fā)明涉及信息技術領域,尤其涉及一種信息處理方法、服務平臺及客戶端。
背景技術:
與同一主題相關的信息可能有很多種;例如,針對同一明星從戀愛、結婚、婚變再到離婚,就是關于同一明星的婚戀主題的信息。在現(xiàn)有技術中這些信息都是分散的。當用戶在搜索引擎中輸入對應的關鍵詞之后,搜索引擎給出逐條列出與該關鍵詞相關的新聞或發(fā)布內(nèi)容。圖1顯示的為以“天津爆炸”為關鍵詞進行搜索,現(xiàn)有搜索引擎輸出的與該關鍵詞相關的信息,顯然用戶很難看出這種信息排布方式的內(nèi)在邏輯,用戶需要找到自己想要看到信息,必須提供更加詳細的關鍵詞,或在海量信息中逐條在這些信息中去查找,顯然這種信息的顯示方式,導致信息檢索效率低、效果差,用戶使用滿意度差。
技術實現(xiàn)要素:
有鑒于此,本發(fā)明實施例期望提供一種信息處理方法、服務平臺及客戶端,至少部分解決信息檢索效率低的問題。
為達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的:
本發(fā)明實施例第一方面提供一種信息處理方法,包括:
根據(jù)用戶行為信息,獲取關鍵詞的信息熱度;
選擇所述信息熱度滿足預設事件條件的所述關鍵詞,生成信息事件;
根據(jù)所述關鍵詞確定與所述信息事件關聯(lián)的關聯(lián)信息;
對所述關聯(lián)信息進行信息分析,提取出所述信息事件的事件脈絡并確定各所述關聯(lián)信息歸屬的事件節(jié)點;其中,所述事件脈絡至少包括兩個所述事件節(jié) 點;
根據(jù)歸屬于所述事件節(jié)點的所述關聯(lián)信息,生成所述事件節(jié)點的節(jié)點摘要信息。
基于上述方案,所述選擇所述信息熱度滿足預設事件條件的關鍵詞,生成信息事件,包括:
選擇所述信息熱度滿足所述預設事件條件的關鍵詞,生成備選信息事件;
計算所述備選信息事件與歷史信息事件的相似度;其中,所述歷史信息事件為當前時間以前已確定的信息事件;
若所述備選信息事件與所述歷史信息事件的相似度低于指定閾值,則確定所述備選信息事件為新產(chǎn)生的信息事件;其中,所述新產(chǎn)生的信息事件為不同于所述歷史信息事件的信息事件。
基于上述方案,所述選擇所述信息熱度滿足預設事件條件的所述關鍵詞,生成信息事件,還包括:
當所述備選信息事件與所述歷史信息事件的相似度不低于所述指定閾值時,確定所述備選信息事件為所述歷史信息事件的進一步發(fā)展形成的子事件;
所述根據(jù)所述關鍵詞確定與所述信息事件關聯(lián)的關聯(lián)信息,包括:
根據(jù)所述子事件的關鍵詞確定出與所述子事件關聯(lián)的關聯(lián)信息;
所述對所述關聯(lián)信息進行信息分析,提取出所述信息事件的事件脈絡并確定各所述關聯(lián)信息歸屬的事件節(jié)點,包括:
根據(jù)與所述子事件關聯(lián)的關聯(lián)信息,更新所述歷史信息事件的事件脈絡;
確定與所述子事件關聯(lián)的關聯(lián)信息歸屬的事件節(jié)點;
所述根據(jù)歸屬于所述事件節(jié)點的所述關聯(lián)信息,生成所述事件節(jié)點的節(jié)點摘要信息,包括:
根據(jù)歸屬于所述新增的事件節(jié)點的關聯(lián)信息,更新所述歷史信息事件的事件節(jié)點的節(jié)點摘要信息。
基于上述方案,所述根據(jù)與所述子事件關聯(lián)的關聯(lián)信息,更新所述歷史信息事件的事件脈絡,包括:
根據(jù)與所述子事件關聯(lián)的關聯(lián)信息,更新所述歷史信息事件的事件脈絡;更新后的所述事件脈絡至少包括一個新增的事件節(jié)點;
確定與所述子事件關聯(lián)的關聯(lián)信息歸屬的事件節(jié)點;
所述根據(jù)歸屬于所述事件節(jié)點的所述關聯(lián)信息,生成所述事件節(jié)點的節(jié)點摘要信息,包括:
根據(jù)歸屬于所述新增的事件節(jié)點的關聯(lián)信息,生成所述新增的事件節(jié)點的節(jié)點摘要信息。
基于上述方案,所述計算所述備選信息事件與歷史信息事件的相似度,包括:
將同一備選信息事件的關鍵詞,按照關鍵詞的信息熱度進行排序生成所述備選信息事件的第一中心向量;
提取所述歷史信息事件的第二中心向量;其中,所述第二中心向量為所述歷史信息事件的關鍵詞按照關鍵詞的信息熱度排序形成的;
計算所述第一中心向量和所述第二中心向量的相似度。
基于上述方案,所述方法還包括:
若所述備選信息事件與所述歷史信息事件的相似度不低于所述指定閾值,則根據(jù)所述關鍵詞調(diào)整所述歷史信息事件用于計算相似度的關鍵詞或中心向量;其中,所述中心向量為由至少兩個關鍵詞組成的向量。
基于上述方案,所述對所述關聯(lián)信息進行信息分析,提取出所述信息事件的事件脈絡并確定各所述關聯(lián)信息歸屬的事件節(jié)點,包括以下至少其中之一:
根據(jù)所述關鍵詞進行信息整合,確定出所述信息事件在時間維度上的時間脈絡;
根據(jù)所述關鍵詞進行信息整合,確定出所述信息事件在空間維度上的空間脈絡。
基于上述方案,所述方法還包括:
分析所述事件節(jié)點的關聯(lián)信息,生成子脈絡;所述子脈絡可包括至少n層子節(jié)點;其中,每一層所述子節(jié)點至少包括1個子節(jié)點;所述n為不小于1的 整數(shù);
根據(jù)歸屬于每一給所述子節(jié)點的所述關聯(lián)信息,生成子節(jié)點摘要信息;其中,第i層子節(jié)點的子節(jié)點摘要信息是進入第i+1層子節(jié)點的接口信息;其中,所述i為不小于1且不大于n的整數(shù)。
基于上述方案,所述根據(jù)歸屬于所述事件節(jié)點的所述關聯(lián)信息,生成所述事件節(jié)點的節(jié)點摘要信息,包括:
根據(jù)所述關聯(lián)信息的信息內(nèi)容,生成所述節(jié)點摘要信息;其中,所述節(jié)點摘要信息在進行所述事件脈絡展示時,作為連接到與該節(jié)點摘要信息歸屬于同一所述事件節(jié)點的關聯(lián)信息的鏈接。
本發(fā)明實施例第二方面提供一種信息事件處理方法,包括:
接收檢索詞條;
根據(jù)所述檢索詞條,顯示與所述檢索詞條滿足預設關聯(lián)度的信息事件的事件脈絡;其中,所述事件脈絡至少包括兩個事件節(jié)點及與每一個所述事件節(jié)點對應的節(jié)點摘要信息;
接收作用于所述節(jié)點摘要信息的查詢操作;
響應所述響應查詢操作,顯示與所述節(jié)點摘要信息所在的所述事件節(jié)點滿足預設相似度的關聯(lián)信息。
本發(fā)明實施例第三方面提供一種服務平臺,包括:
獲取單元,用于根據(jù)用戶行為信息,獲取關鍵詞的信息熱度;
選擇單元,用于選擇所述信息熱度滿足預設事件條件的所述關鍵詞,生成信息事件;
確定單元,用于根據(jù)所述關鍵詞確定與所述信息事件關聯(lián)的關聯(lián)信息;
提取單元,用于對所述關聯(lián)信息進行信息分析,提取出所述信息事件的事件脈絡并確定各所述關聯(lián)信息歸屬的事件節(jié)點;其中,所述事件脈絡至少包括兩個所述事件節(jié)點;
生成單元,用于根據(jù)歸屬于所述事件節(jié)點的所述關聯(lián)信息,生成所述事件節(jié)點的節(jié)點摘要信息。
基于上述方案,所述選擇單元,用于選擇所述信息熱度滿足所述預設事件條件的所述關鍵詞,生成備選信息事件;計算所述備選信息事件與歷史信息事件的相似度;其中,所述歷史信息事件為當前時間以前已確定的信息事件;若所述備選信息事件與所述歷史信息事件的相似度低于指定閾值,則確定所述備選信息事件為新產(chǎn)生的信息事件;其中,所述新產(chǎn)生的信息事件為不同于所述歷史信息事件的信息事件。
基于上述方案,所述選擇單元,具體用于當所述備選信息事件與所述歷史信息事件的相似度不低于所述指定閾值時,確定所述備選信息事件為所述歷史信息事件的進一步發(fā)展形成的子事件;
所述確定單元,具體用于根據(jù)所述子事件的關鍵詞確定出與所述子事件關聯(lián)的關聯(lián)信息;
所述提取單元,具體用于根據(jù)與所述子事件關聯(lián)的關聯(lián)信息,更新所述歷史信息事件的事件脈絡;確定與所述子事件關聯(lián)的關聯(lián)信息歸屬的事件節(jié)點;
所述生成單元,具體用于根據(jù)歸屬于所述新增的事件節(jié)點的關聯(lián)信息,更新所述歷史信息事件的事件節(jié)點的節(jié)點摘要信息。
基于上述方案,所述提取單元,具體用于根據(jù)與所述子事件關聯(lián)的關聯(lián)信息,更新所述歷史信息事件的事件脈絡;更新后的所述事件脈絡至少包括一個新增的事件節(jié)點;確定與所述子事件關聯(lián)的關聯(lián)信息歸屬的事件節(jié)點;
所述生成單元,具體用于根據(jù)歸屬于所述新增的事件節(jié)點的關聯(lián)信息,生成所述新增的事件節(jié)點的節(jié)點摘要信息。
基于上述方案,所述選擇單元,具體用于將同一備選信息事件的所述關鍵詞按照關鍵詞的信息熱度進行排序,生成備選信息事件的第一中心向量;提取所述歷史信息事件的第二中心向量;計算所述第一中心向量和所述第二中心向量的相似度。
基于上述方案,所述服務平臺還包括:
調(diào)整單元,用于若所述備選信息事件與所述歷史信息事件的相似度不低于所述指定閾值,則根據(jù)所述關鍵詞調(diào)整所述歷史信息事件用于計算相似度的關 鍵詞或由中心向量;其中,所述中心向量為由至少兩個關鍵詞組成的向量。
基于上述方案,所述提取單元,具體用于根據(jù)所述關鍵詞進行信息整合,確定出所述信息事件在時間維度上的時間脈絡,和/或,根據(jù)所述關鍵詞進行信息整合,確定出所述信息事件在空間維度上的空間脈絡。
基于上述方案,所述提取單元,還用于分析所述事件節(jié)點的關聯(lián)信息,生成子脈絡;所述子脈絡可包括至少n層子節(jié)點;其中,每一層所述子節(jié)點至少包括1個子節(jié)點;所述n為不小于1的整數(shù);
所述生成單元,還用于根據(jù)歸屬于每一給所述子節(jié)點的所述關聯(lián)信息,生成子節(jié)點摘要信息;其中,第i層子節(jié)點的子節(jié)點摘要信息是進入第i+1層子節(jié)點的接口信息;其中,所述i為不小于1且不大于n的整數(shù)。
基于上述方案,所述生成單元,還用于根據(jù)所述關聯(lián)信息的信息內(nèi)容,生成所述節(jié)點摘要信息;其中,所述節(jié)點摘要信息在進行所述事件脈絡展示時,作為連接到與該節(jié)點摘要信息歸屬于同一所述事件節(jié)點的關聯(lián)信息的鏈接。
本發(fā)明實施例第四方面提供一種客戶端,包括接收單元、顯示單元及響應單元:
所述接收單元,用于接收檢索詞條;
所述顯示單元,用于根據(jù)所述檢索詞條,顯示與所述檢索詞條滿足預設關聯(lián)度的信息事件的事件脈絡;其中,所述事件脈絡至少包括兩個事件節(jié)點及與每一個所述事件節(jié)點對應的節(jié)點摘要信息;
所述接收單元,還用于接收作用于所述摘要信息的查詢操作;
所述響應單元,還用于響應所述查詢操作,顯示與所述節(jié)點摘要信息所在的所述事件節(jié)點滿足預設相似度的關聯(lián)信息。
本發(fā)明實施例提供的信息處理方法、服務平臺及客戶端,會根據(jù)關鍵詞的信息熱度生成信息事件,再通過分析與該信息事件關聯(lián)的關聯(lián)信息,能夠獲得事件脈絡及節(jié)點摘要信息的生成。在響應搜索請求時,返回事件脈絡及對應的節(jié)點摘要信息,能夠更有調(diào)理的,更有邏輯的向用戶展示用戶想要搜索的信息,避免用戶花時間和精力思索精確的檢索詞條,或,在海量的信息中通過人眼查 找自己感興趣的信息,提高信息檢索的效率、精確度及用戶使用滿意度。
附圖說明
圖1為現(xiàn)有技術中一種檢索信息的顯示方式的效果示意圖;
圖2為本發(fā)明實施例提供的一種信息處理方法的流程示意圖;
圖3為本發(fā)明實施例提供的確定備選信息事件是否為新產(chǎn)生的信息事件的示意圖;
圖4為本發(fā)明實施例提供的一種時間脈絡的效果示意圖;
圖5為本發(fā)明實施例提供的一種時間脈絡的一個時間節(jié)點的展開效果示意圖;
圖6為本發(fā)明實施例提供的一種同時包括主脈絡和子脈絡的事件脈絡示意圖;
圖7為本發(fā)明實施例提供的一種信息事件信息處理方法的流程示意圖;
圖8為本發(fā)明實施例提供的另一種信息處理方法的流程示意圖;
圖9為本發(fā)明實施例提供的一種服務平臺的結構示意圖;
圖10為本發(fā)明實施例提供的一種客戶端的結構示意圖;
圖11為本發(fā)明實施例提供的又一種信息處理方法的流程示意圖;
圖12為本發(fā)明實施例提供的一種信息事件的數(shù)據(jù)量演化圖;
圖13為本發(fā)明實施例提供的一種神經(jīng)網(wǎng)絡的訓練示意圖。
具體實施方式
以下結合說明書附圖及具體實施例對本發(fā)明的技術方案做進一步的詳細闡述。
如圖2所示,本實施例提供一種信息處理方法,包括:
步驟s110:根據(jù)用戶行為信息,獲取關鍵詞的信息熱度;
步驟s120:選擇所述信息熱度滿足預設事件條件的所述關鍵詞,生成信息事件;
步驟s130:根據(jù)所述關鍵詞確定與所述信息事件關聯(lián)的關聯(lián)信息;
步驟s140:對所述關聯(lián)信息進行信息分析,提取出所述信息事件的事件脈絡并確定各所述關聯(lián)信息歸屬的事件節(jié)點;其中,所述事件脈絡至少包括兩個所述事件節(jié)點;
步驟s150:根據(jù)歸屬于所述事件節(jié)點的所述關聯(lián)信息,生成所述事件節(jié)點的節(jié)點摘要信息。
本實施例所述的信息處理方法,可應用于各種服務平臺中,例如搜索引擎信息平臺,各種應用平臺。這的應用平臺可包括微信應用平臺。
這里的用戶行為信息可包括基于用戶行為產(chǎn)生的各種行為信息,例如,基于用戶分享行為、用戶評價行為、用戶討論行為、用戶閱讀行為、用戶發(fā)布行為產(chǎn)生的各種行為信息。當然不同的用戶行為可對應不同的熱度值,這樣就可以獲得單位時間內(nèi)每一個用戶行為數(shù)量和該行為對應的熱度值,計算單個用戶行為產(chǎn)生的信息熱度,再相加各個用戶行為產(chǎn)生的信息熱度,得到了某一信息的總信息熱度。例如,微信應用中,大量用戶轉發(fā)某一篇文章,還有大量用戶參與該文章的點評,還有大量用戶閱讀了該文章,并且最終由于用戶的轉發(fā)分享行為、討論評價行為,導致該文章成了一個信息事件。這里的信息事件可以是新聞事件。例如,明星的婚戀事件等。
當然在具體的實現(xiàn)過程中,所述信息熱度還可以由點擊量、閱讀量、轉發(fā)量、評論量、討論參與人數(shù)等能夠反映一個信息在用戶之間的熱度的參數(shù)來表示。選擇上述一個或多個參數(shù)視為所述信息熱度,來用于確定信息事件。
一次上述用戶行為的累積,將導致信息熱度的增加,當信息熱度達到一定的程度顯然就會導致熱門新聞等熱門信息。例如,以檢索為例,一個新聞被檢索的次數(shù)和被點擊的次數(shù),就是表征所述信息熱度的參數(shù)。
所述關鍵詞可以來自于用戶行為中伴隨或產(chǎn)生的詞條。例如,當天津發(fā)生大爆炸之后,有大量的用戶開始搜索“天津”“爆炸”、“天津爆炸”、“塘沽爆炸”、“爆炸救援”等各種詞條。在本實施例中可以利用隱性語義分析(latentdirichletallocation,lda)進行信息聚合,得到k個備選信息事件,每一個備選信息事 件都對應于一個中心向量表示。這些向量是由lda產(chǎn)生的多個權重較大的關鍵詞,或出現(xiàn)頻率高的高頻詞組成。當然,通常權重較大的關鍵詞,也就會是信息中出現(xiàn)頻率較高的高頻詞。例如,天津大爆炸的信息事件高頻詞會有:爆炸、塘沽、遇難、求救、巨響。
在步驟s110中獲取所述關鍵詞的信息熱度可以具體可有多種方法,以下提供兩種可實現(xiàn)方式:
方式一:
根據(jù)用戶行為信息,例如,用戶點評信息、用戶閱讀行為信息、用戶檢索行為信息,直接確定出關鍵詞的信息熱度。例如,用戶大量的以“天津大爆炸”為檢索詞條進行檢索,而“天津大爆炸”本身就是一個關鍵詞,就可以根據(jù)用戶檢索、點評和轉發(fā)等各種行為,直接確定出該關鍵詞的信息熱度。顯然此時,關鍵詞是作為信息的一種,可以直接計算出信息熱度。
方式二:
例如,當前網(wǎng)絡上有文章a轉發(fā)量和閱讀量特別大,可以先計算出文章a的信息熱度;然后提取文章a的關鍵詞,文章a的關鍵詞的信息熱度,可等于文章a的信息熱度。
在本實施例的步驟s120中將根據(jù)關鍵詞的所述信息熱度,確定出信息事件。在步驟s120還將包括:根據(jù)所述備選信息事件的中心向量等信息,確定所述備選信息事件是否是一個新產(chǎn)生的事件,或是一個歷史事件的持續(xù)發(fā)酵。在步驟s120中最終會確定出或更新該信息事件。
在步驟s130中,將根據(jù)所述關鍵詞回溯與這些關鍵詞相關聯(lián)的信息。例如,利用所述關鍵詞,定位相關的新聞、論壇、彈幕或視頻等各種關聯(lián)信息。在本實施例中可以直接利用關鍵詞形成檢索詞條,檢索出與包括該檢索詞條的各種信息。這里的信息,可以是文本信息、圖片信息、視頻信息、音頻信息、社交應用信息、社交網(wǎng)站信息、評論信息的一種。值得注意的是:當利用關鍵詞定位了這些關聯(lián)信息之后,還可以根據(jù)關聯(lián)信息進行信息分析和提取,重新確定該信息事件的關鍵詞,以使該信息事件的關鍵詞更加精確的反映該信息事件的 主旨內(nèi)容,以提高后續(xù)周期進行信息事件確定的精確度。
在步驟s140中將會對這些關聯(lián)信息進行信息分析,通常包括根據(jù)關聯(lián)度進行關聯(lián)度低的信息篩選以及重復信息的去除等信息整合處理。通過分析這些關聯(lián)信息,將提取出該信息事件的事件脈絡。在本實施例中所述事件脈絡可包括該事件發(fā)展的時間脈絡、空間脈絡、人物遷移脈絡等能夠表征該信息事件在不同維度上發(fā)展趨勢的脈絡。
例如,針對天津大爆炸事件,服務平臺可以根據(jù)信息的發(fā)布時間,信息自身攜帶的時間(例如,針對天津大爆炸的新聞,在該新聞內(nèi)有描述天津大爆炸的時間,該時間就是為信息內(nèi)容自身攜帶的時間),整理出一個天津大爆炸事件的時間脈絡。該時間脈絡至少包括兩個事件節(jié)點,這些事件節(jié)點,在時間脈絡中可對應于時間節(jié)點。例如,大爆炸發(fā)生的時間、大爆炸一天后、大爆炸兩天后、大爆炸三天后、大爆炸四天后……依次類推。
在本實施例中將根據(jù)每一個時間節(jié)點對應的關聯(lián)信息,在步驟s150中總結出節(jié)點摘要信息。這里的節(jié)點摘要信息,通常會包括時間、地點、主體及事件內(nèi)容等要素中的一個或者多個。例如,大爆炸發(fā)生的當前這一個時間節(jié)點對應的節(jié)點摘要信息直接可為:天津發(fā)生大爆炸。在大爆炸發(fā)生之后第一天對應的節(jié)點信息摘要可為:大爆炸導致的傷亡人數(shù)目前確定為xxx人。這樣的話,用戶輸入天津大爆炸,將輸出該信息事件的時間脈絡,時間脈絡被客戶端顯示之后,用戶看到了就知道整個事件隨時間發(fā)展的整個過程,且通過節(jié)點摘要信息的閱讀,知道每一個時間節(jié)點上發(fā)生的最主要事情。
在步驟s150中可以根據(jù)所有歸屬于該事件節(jié)點的關聯(lián)信息總結出節(jié)點摘要信息,也可以根據(jù)與所述事件節(jié)點滿足指定關聯(lián)度的所述關聯(lián)信息,生成所述事件節(jié)點的節(jié)點摘要信息。例如,歸屬于事件節(jié)點a的關聯(lián)信息有m條,這m條關聯(lián)信息中,有m1條關聯(lián)信息與該事件節(jié)點a的關聯(lián)更加緊密,在本實施例中可以,僅根據(jù)這m1條關聯(lián)信息總結出所述事件節(jié)點a的節(jié)點摘要信息。所述m1條關聯(lián)信息即為所述滿足指定關聯(lián)度的所述關聯(lián)信息。
值得注意的是:在本實施例中所述節(jié)點摘要信息可以作為與所述事件節(jié)點 對應的關聯(lián)信息的鏈接,方便用戶通過節(jié)點摘要信息,查閱到關聯(lián)信息,從而獲得通過關聯(lián)信息的閱讀獲得關于該節(jié)點摘要信息對應的詳細內(nèi)容。
在具體的實現(xiàn)過程中,在所述步驟s150之后,還可包括:
以下分別結合圖2所示的方法,分別闡述步驟s110至步驟s150對應的可選子步驟。
所述步驟s120可包括:
步驟s121:選擇所述信息熱度滿足所述預設事件條件的所述關鍵詞,生成備選信息事件;
步驟s122:計算所述備選信息事件與歷史信息事件的相似度;其中,所述歷史信息事件為當前時間以前已確定的信息事件;
步驟s123:若所述備選信息事件與所述歷史信息事件的相似度低于指定閾值,則確定所述備選信息事件為新產(chǎn)生的信息事件;其中,所述新產(chǎn)生的信息事件為不同于所述歷史信息事件的信息事件。
在本實施例中信息熱度滿足所述預設事件條件的關鍵詞,生成備選信息事件。例如,通過信息熱度的計算,選擇信息熱度大于閾值的關鍵詞,通過關鍵詞的組合,確定出備選信息事件。例如,通過“天津”、“大爆炸”的關鍵詞組合,確定產(chǎn)生了信息事件“天津大爆炸”。再比如,通過關鍵詞的熱度信息的排序,選擇出熱度信息最高的關鍵詞,通過關鍵詞的組合,生成備選信息事件。當然,確定備選信息事件還可包括:根據(jù)關鍵詞,檢索與該關鍵詞關聯(lián)的關聯(lián)信息,從這些關聯(lián)信息中提取出備選信息事件的主旨,從而確定出備選信息事件。如何從一個信息中提取信息主旨可以參見現(xiàn)有技術各種語義分析和主旨提取等信息處理方法,再此就不一一詳細描述了。
當確定了備選信息事件以后,需要區(qū)分該備選信息事件是歷史信息事件的進一步發(fā)展,還是新產(chǎn)生的信息事件。在本實施例中會計算備選信息事件與歷史信息事件的相似度。若相似度很高,則認為該備選信息事件是歷史信息事件的進一步發(fā)展,若相似度很低,則認為是新產(chǎn)生的信息事件。這里的歷史信息事件是在當前時刻以前已經(jīng)確定好的信息事件。在本實施例中,通過相似度的 計算,將相似度與預設的指定閾值進行比較來確定。在本實施例中所述指定閾值可為預先存儲的值;所述指定閾值可為經(jīng)驗值或仿真值。
故本實施例所述方法還包括:
步驟s124:若所述備選信息事件與所述歷史信息事件的相似度不低于所述指定閾值,則根據(jù)所述關鍵詞調(diào)整所述歷史信息事件用于計算相似度的關鍵詞或中心向量;其中,所述中心向量為由至少兩個關鍵詞組成的向量。
當歷史信息事件經(jīng)過時間的流逝,已經(jīng)開始有大量新的信息涌入,這個時候將新的信息與歷史信息事件整合之后,新整合到歷史信息事件中的信息,可提煉出新的關鍵詞、或導致關鍵詞的頻率高低排序的變化,故為了提高后續(xù)進行信息事件整合的精確度,在本實施例中還會調(diào)整歷史信息事件用于計算相似度的關鍵詞或中心向量,以方便后確定是否有新產(chǎn)生與該歷史信息事件關聯(lián)的信息產(chǎn)生和新信息事件。這里的調(diào)整關鍵詞,可以包括:增加關鍵詞、刪除關鍵詞等關鍵詞的調(diào)整。調(diào)整所述中心向量可包括:調(diào)整形成中心向量的關鍵詞,根據(jù)關鍵詞在該信息事件中出現(xiàn)的頻次等信息調(diào)整中心向量中關鍵詞的排序。
在本實施例中,通過步驟s120確定出備選信息事件是新產(chǎn)生的信息事件,就對新產(chǎn)生的信息事件執(zhí)行步驟s130至步驟s150;若確定未產(chǎn)生新的信息事件,就結合新產(chǎn)生的信息,通過步驟s130至步驟s150更新歷史信息事件。具體地如,所述步驟s120可包括:當所述備選信息事件與所述歷史信息事件的相似度不低于所述指定閾值時,確定所述備選信息事件為所述歷史信息事件的進一步發(fā)展形成的子事件;所述步驟s130可包括:根據(jù)所述子事件的關鍵詞確定出與所述子事件關聯(lián)的關聯(lián)信息;所述步驟s140可包括:根據(jù)與所述子事件關聯(lián)的關聯(lián)信息,更新所述歷史信息事件的事件脈絡;確定與所述子事件關聯(lián)的關聯(lián)信息歸屬的事件節(jié)點;所述步驟s150可包括:根據(jù)歸屬于所述新增的事件節(jié)點的關聯(lián)信息,更新所述歷史信息事件的事件節(jié)點的節(jié)點摘要信息。
當在步驟s120中確定出未產(chǎn)生新的信息事件時,則當前出現(xiàn)的備選信息事件對應的應該為歷史信息事件的子事件。將根據(jù)備選信息事件的關聯(lián)信息來更新歷史信息事件。更新歷史信息事件的過程中可能會出現(xiàn)以下兩種情況:
第一種情況:
在根據(jù)備選信息事件對應的關聯(lián)信息,進行信息分析時,發(fā)現(xiàn)歷史信息時間的事件脈絡并沒有產(chǎn)生新的事件節(jié)點;此時,在步驟s130至步驟s150中,盡是確定備選信息事件對應的關聯(lián)信息所歸屬的事件節(jié)點,并更新原來就已有的事件節(jié)點的節(jié)點摘要信息即可。
第二種情況:
在根據(jù)備選信息事件對應的關聯(lián)信息,進行信息分析時,發(fā)現(xiàn)歷史信息時間的事件脈絡有產(chǎn)生新的事件節(jié)點。在這種情況下,所述步驟s140可包括:根據(jù)與所述子事件關聯(lián)的關聯(lián)信息,更新所述歷史信息事件的事件脈絡;更新后的所述事件脈絡至少包括一個新增的事件節(jié)點;確定與所述子事件關聯(lián)的關聯(lián)信息歸屬的事件節(jié)點;所述步驟s150可包括:根據(jù)歸屬于所述新增的事件節(jié)點的關聯(lián)信息,生成所述新增的事件節(jié)點的節(jié)點摘要信息。當然在這種情況下,所述步驟s150還可包括更新原來已有的事件節(jié)點的節(jié)點摘要信息。
以下列舉一個具體示例:例如,一個明星婚戀的過程,當前發(fā)現(xiàn)明星a的離婚的消息特別多,明星a離婚可能是一個新的信息事件產(chǎn)生,當前明星a的離婚的這些消息是明星a之前婚戀事件的后續(xù)發(fā)展。若之前已經(jīng)通過信息聚合等操作,建立明星a婚戀事件或婚變事件,則離婚這一個子信息事件是明星a婚戀事件或婚變事件的后續(xù)發(fā)展部分。在本實施例中通過步驟s130至步驟s150進一步提取a婚戀事件的事件脈絡和事件節(jié)點對應的節(jié)點摘要信息。
圖3所示的為采用上述步驟s121至步驟s124的效果示意圖,備選信息事件1與歷史信息事件之間的相似度低于指定閾值,備選信息事件1將作為新的信息事件1;備選信息事件2與歷史信息事件之間的相似度不低于指定閾值,備選信息事件2其實是歷史信息事件的子事件或進一步發(fā)展,可通過執(zhí)行步驟s130至步驟s150,形成更新后的信息事件。
在上述步驟中涉及到了相似度的計算,以下提供幾種可選的相似度計算的方式:
可選方式一:
所述步驟s122可包括:
將所述關鍵詞按照信息熱度進行排序,生成備選信息事件的第一中心向量;
提取所述歷史信息事件的第二中心向量;
計算所述第一中心向量和所述第二中心向量的相似度。
在本實施例中通過向量計算方法,來計算相似度。所述第一中心向量可是由通過lda等信息處理方法,確定的關鍵詞構成的。這些關鍵詞依次排序。所述第二中心向量也可以采用與第一中心向量相同或類似的方法形成。然后計算這兩個向量運算來確定所述相似性。具體地如,所述第一中心向量和第二中心向量都可包括m個關鍵詞,這些關鍵詞根據(jù)被用戶行為操作的頻次,分別從高到低進行排序,形成了所述第一中心向量和第二中心向量,然后分別比較第一中心向量和第二中心向量對應位置處的關鍵詞的差異度,根據(jù)差異度將第一中心向量和第二中心向量轉換成由數(shù)值表示的數(shù)值向量;再通過計算數(shù)值向量的余弦值等向量計算,確定出第一中心向量和第二中心向量的相似性。當然以上僅是一個示例,具體在利用兩個中心向量計算相似性時,不局限于上述方式。
可選方式二:
所述步驟s122可包括:
計算所述備選信息事件與所述歷史信息事件的相對熵kl距離。
所述kl距離有稱之為kl散度。在概率論或信息論中,kl散度(kullback–leiblerdivergence),又稱相對熵(relativeentropy),能夠用于描述信息之間的相似度。所述kl距離具體如何計算可以參見現(xiàn)有技術中,但是在本實施例中值得注意的是:在計算備選信息事件和歷史信息事件的kl距離時,可為計算的備選信息事件的事件主旨和歷史信息事件的事件主旨之間的kl距離。上述事件主旨可為對應信息事件的關鍵詞構成的。
用kl距離衡量備選信息事件j和歷史信息事件i的相似度,函數(shù)關系如下,其中θ表示“信息事件--詞”的分布參數(shù)。所述k為信息事件的個數(shù)。
可選方式三:
所述步驟s122還可包括:
計算所述備選信息事件與所述歷史信息事件的杰卡德系數(shù)。
在本實施例中還可以通過計算備選信息事件和歷史信息事件之間的杰卡德系數(shù),再利用杰卡德系數(shù)來表征備選信息事件與歷史信息事件之間的相似度。所述杰卡德系數(shù)又稱為jaccard系數(shù)。jaccard系數(shù)主要用于計算符號度量或布爾值度量的個體間的相似度,因為個體的特征屬性都是由符號度量或者布爾值標識,因此無法衡量差異具體值的大小,只能獲得“是否相同”這個結果,所以jaccard系數(shù)只關心個體間共同具有的特征是否一致這個問題。這里的個體對應于信息事件中的備選信息事件和歷史信息事件。具體的如,jaccard系數(shù)等于樣本集交集與樣本集合集的比值,即j=|e∩f|/|e∪f|;在本實施例中,公式中若e表示備選信息事件,則f表示歷史信息事件;若e表示歷史信息事件,則f表示備選信息事件。
總之上述提供了幾種計算備選信息事件和歷史信息事件之間相似度的方法,具有實現(xiàn)簡便及計算結果精確的特點。
在步驟s140中將梳理出信息事件的事件脈絡;以下提供幾種具體的可選方式:
第一種可選方式:
所述步驟s140可包括:
根據(jù)所述關鍵詞進行信息整合,確定出所述信息事件在時間維度上的時間脈絡。時間脈絡是至少由兩個時間節(jié)點按照時間先后順序排列而成。在本實施例中所述時間節(jié)點即為所述事件節(jié)點。在本實施例中所述時間脈絡還包括再各個時間節(jié)點上的節(jié)點摘要信息。通常該節(jié)點摘要信息能夠反映該時間節(jié)點上信息事件的主旨信息。
第二種可選方式:
所述步驟s140可包括:
根據(jù)所述關鍵詞進行信息整合,確定出所述信息事件在空間維度上的空間 脈絡。時間脈絡是至少由兩個時間節(jié)點按照時間先后順序排列而成。在本實施例中所述空間節(jié)點即為所述事件節(jié)點。在本實施例中所述空間脈絡還包括與各個空間節(jié)點對應的節(jié)點摘要信息。通常節(jié)點摘要信息能夠反映對應空間節(jié)點的主旨信息。
例如,爆發(fā)了禽流感;在禽流感從發(fā)生到最終控制的時間周期內(nèi),可以形成時間脈絡,當然也可以根據(jù)禽流感的蔓延空間范圍,形成空間脈絡。例如,該空間脈絡的第一個空間節(jié)點,應該是確診第一個出現(xiàn)禽流感的位置,然后通過根據(jù)禽流感蔓延的區(qū)域范圍,形成空間節(jié)點。且在各個空間節(jié)點上還將生成對應的節(jié)點摘要信息。該節(jié)點摘要信息可包括在該空間節(jié)點內(nèi)發(fā)現(xiàn)的禽流感例數(shù)等信息。
第三種可選方式:
所述步驟s140可包括:
根據(jù)所述關鍵詞進行信息整合,確定出所述信息事件在所涉及主體維度上的主體遷移脈絡。在本實施例中所述主體可以包括涉及該信息事件的人、動物或組織等。若主體為人,則該事件脈絡可稱之為人物遷移脈絡,若是為組織則可認為是組織遷移脈絡。
例如,當爆出一個丑聞事件,在該丑聞事件從爆發(fā)第一天開始,就有不斷有新的人被牽涉進去,此時,可以根據(jù)這些被牽涉的人的先后順序,形成一個人物遷移脈絡。在人物遷移脈絡可包括至少兩個人物節(jié)點,在每一個人物節(jié)點上都生成有與該人物相關的節(jié)點摘要信息,通過該節(jié)點摘要信息,可以獲取該人物相關的關聯(lián)信息。
當然這里的組織可包括公司、學?;蚱渌M織等。
在具體的應用過程中,具體對關聯(lián)信息進行分析的過程中,具體生成哪種事件脈絡,將決定于信息事件本身。通常一般的信息事件都可以按照時間發(fā)展順序,形成時間脈絡。例如,當信息事件包括空間的輻射,這個時候是可以梳理分析出空間脈絡的。當信息事件涉及的信息人物,不斷增加或變化時,是可以梳理分析出人物遷移脈絡的。這里的典型的可輸出人物遷移脈絡的可包括反 腐貪官絡脈的反腐事件的人物遷移脈絡。
為了更加精細細分信息事件,方便用戶在進行信息檢索時,有邏輯層次的向用戶返回信息,在本實施例中,所述方法還包括:
分析所述事件節(jié)點的關聯(lián)信息,生成子脈絡;所述子脈絡可包括至少n層子節(jié)點;其中,每一層所述子節(jié)點至少包括1個子節(jié)點;所述n為不小于1的整數(shù);
根據(jù)歸屬于每一給所述子節(jié)點的所述關聯(lián)信息,生成子節(jié)點摘要信息;其中,第i層子節(jié)點的子節(jié)點摘要信息是進入第i+1層子節(jié)點的接口信息;其中,所述i為不小于1且不大于n的整數(shù)。
在本實施例中還會梳理事件脈絡中一個或多個事件節(jié)點對應的子脈絡。當一個事件節(jié)點有n層子節(jié)點時,所述第n層子節(jié)點的子節(jié)點摘要信息是鏈接到關聯(lián)信息的鏈接。這樣用戶就可以根據(jù)自己的需求,點擊或操作對應的子節(jié)點摘要信息,從而能夠閱讀到對應的關聯(lián)信息。
在本實施例中由子節(jié)點形成的子脈絡與由事件節(jié)點組成的主脈絡,可以是不同類型的脈絡。例如,主脈絡是時間脈絡,而子脈絡為人物脈絡或人物遷移脈絡。
圖4所示的為一種時間脈絡。在該時間脈絡中包括從2014.09.01開始至2015.09.09的6個時間節(jié)點。對應的時間節(jié)點右側顯示有對應的節(jié)點摘要信息。
圖5為圖4所示的時間脈絡中,節(jié)點時間為2015.02.15的時間節(jié)點的節(jié)點摘要信息被點擊后,顯示的關聯(lián)信息。關聯(lián)信息的一側為關聯(lián)信息的標題。
圖6為對于明星a先生與b小姐的婚戀事件的另一個時間脈絡。在該信息事件中,主脈絡為時間脈絡,其中一個時間節(jié)點的子脈絡為人物脈絡。
所述步驟s140具體可包括:
根據(jù)所述關聯(lián)信息的信息內(nèi)容,生成所述節(jié)點摘要信息;其中,所述節(jié)點摘要信息在進行所述事件脈絡展示時,還作為信息鏈接,能夠鏈接到與該節(jié)點摘要信息歸屬于同一所述事件節(jié)點的關聯(lián)信息。
為了簡化所述節(jié)點摘要信息的生成,在具體實現(xiàn)過程中,可以先提取各個 關聯(lián)信息的主旨信息,然后通過各個關聯(lián)信息的主旨信息的處理,生成所述節(jié)點摘要信息。在排除標題檔以外的劣質(zhì)信息之后,也可以直接根據(jù)信息的標題,來生成所述節(jié)點摘要信息。而如何檢索出標題檔這樣的劣質(zhì)信息,在現(xiàn)有技術中有現(xiàn)成的方法,例如,通過檢索標題中的詞在文檔正文中出現(xiàn)的頻次,來確定該文檔是否為標題檔的劣質(zhì)信息。
上述信息處理方法,可以為應用于服務器或服務平臺中的方法。聚合形成的事件脈絡可以用于響應用戶的檢索請求。在本實施例中還提供一種可應用于客戶端的信息事件信息處理方法。如圖7所示,本實施例還提供一種信息事件信息處理方法,包括:
步驟s210:接收檢索詞條;
步驟s220:根據(jù)所述檢索詞條,顯示與所述檢索詞條滿足預設關聯(lián)度的信息事件的事件脈絡;其中,所述事件脈絡至少包括兩個事件節(jié)點及與每一個所述事件節(jié)點對應的摘要信息;
步驟s230:接收作用于所述節(jié)點摘要信息的查詢操作;
步驟s240:響應所述查詢操作,顯示與所述摘要信息所在的所述事件節(jié)點滿足預設相似度的關聯(lián)信息。
上述客戶端可包括手機、平板電腦、筆記本電腦、臺式電腦、電子閱讀器、可穿戴式設備等各種電子設備。
在步驟s210接收檢索詞條,這里的檢索詞條可為用戶手動、鍵盤、鼠標或語音輸入的檢索詞條。在步驟s220中將顯示與該檢索詞條匹配的信息事件的事件脈絡。在本實施例通過確定該檢索詞條與該信息事件的關鍵詞是否匹配,就可以判斷該檢索詞條是否與該信息事件滿足預設關聯(lián)度。例如,所述檢索詞條可以拆分成一個個詞,而這些詞是否是某一信息事件的關鍵詞或關鍵詞的另一種表述方式。
當客戶端顯示事件脈絡之后,用戶可以通過人機交互接口,輸入針對于事件脈絡上各個節(jié)點摘要信息的查詢操作;這個時候,客戶端就會認為用戶想要查詢與該節(jié)點相關的關聯(lián)信息,就會顯示這些關聯(lián)信息的標題或信息摘要,方 便用戶再次通過這些標題或信息摘要進入到這些關聯(lián)信息的正文,進行詳細信息的閱讀。
在本實施例中,用戶在進行信息檢索時,返回的關聯(lián)信息不再是滿屏層疊著,需要用戶自己在海量信息中一個個查看,使得信息檢索的邏輯性更強,條理更加清晰,能夠提升檢索效率和用戶的檢索滿意度。
在具體的實現(xiàn)過程中,上述信息事件檢索方法至少包括以下幾種可實現(xiàn)方式:
方式一:
所述步驟s220可包括:客戶端當接收到檢索詞條之后,向服務器或服務平臺發(fā)送攜帶有所述檢索詞條的檢索請求;服務器或服務平臺至少會向客戶端返回所述事件脈絡,這樣步驟s220還將包括接收服務器或服務平臺返回的事件脈絡并顯示所述事件脈絡。
在步驟s230中接收到查詢操作之后,客戶端向服務器或服務平臺發(fā)送對應的節(jié)點摘要信息或對應事件節(jié)點的標識信息,再從服務器或服務平臺接收基于節(jié)點摘要信息或事件節(jié)點的標識信息返回的關聯(lián)信息。
方式二:
所述步驟s220可包括:客戶端當接收到檢索詞條之后,向服務器或客戶端發(fā)送攜帶有所述檢索詞條的檢索請求;服務器或服務平臺至少會向客戶端返回所述事件脈絡及關聯(lián)信息,這樣步驟s220還將包括接收服務器或服務平臺返回的事件脈絡并顯示所述事件脈絡;在步驟s240中顯示已接收或正在接收的關聯(lián)信息。
采用方式一的話,僅需向客戶端發(fā)送用戶想要查詢的事件節(jié)點對應的關聯(lián)信息,相對于向客戶端發(fā)送所有事件節(jié)點的關聯(lián)信息,能夠減少信息交互量,這樣的話,客戶端與服務器或服務平臺之間交互的信息,僅為根據(jù)用戶的查詢操作需要查詢的關聯(lián)信息。采用方式二的話,客戶端接收的關聯(lián)信息可能會有用戶沒有指示要查詢的信息,但是這種方式一定程度上能夠提升客戶端響應用戶操作的響應速度。
在具體的實現(xiàn)過程中是采用方式一還是采用方式二:可以根據(jù)當前客戶端與服務器或服務平臺之間的網(wǎng)絡連接來確定。例如,當前客戶端是通過流量計費網(wǎng)絡與服務器或服務平臺建立連接,則可選擇方式一;若當前客戶端是通過非流量計費網(wǎng)絡與服務器會或服務器平臺建立連接,則可選擇方式二。當然也可以根據(jù)客戶端的緩存能力來確定,若客戶端的緩存能力較低,可以選擇方式一,緩存能力較強,可以選擇方式二。
基于上述信息事件信息處理方法,如圖8(圖上的序號有誤)所示,提供一個具體示例,包括:
步驟s1:客戶端接收檢索詞條;
步驟s2:客戶端向服務平臺發(fā)送檢索詞條;
步驟s3:服務平臺利用檢索詞條進行檢索,確定與檢索詞條匹配的信息事件;
步驟s4:服務平臺向客戶端返回事件脈絡、節(jié)點摘要信息及關聯(lián)信息。
步驟s5:客戶端顯示信息脈絡及節(jié)點摘要信息;
步驟s6:客戶端接收查詢操作;
步驟s7:客戶端顯示關聯(lián)信息。
以下結合上述方法實施例,提供服務平臺和客戶端的設備實施例。
如圖9所示,本實施例提供一種服務平臺,包括:
獲取單元110,用于根據(jù)用戶行為信息,獲取關鍵詞的信息熱度;
選擇單元120,用于選擇所述信息熱度滿足預設事件條件的所述關鍵詞,生成信息事件;
確定單元130,用于根據(jù)所述關鍵詞確定與所述信息事件關聯(lián)的關聯(lián)信息;
提取單元140,用于對所述關聯(lián)信息進行信息分析,提取出所述信息事件的事件脈絡并確定各所述關聯(lián)信息歸屬的事件節(jié)點;其中,所述事件脈絡至少包括兩個所述事件節(jié)點;
生成單元150,用于根據(jù)歸屬于所述事件節(jié)點的所述關聯(lián)信息,生成所述事件節(jié)點的節(jié)點摘要信息。
本實施例提供的所述服務平臺可以有一臺或多臺設置在網(wǎng)絡側的服務器構成。所述服務平臺可以為搜索引擎服務平臺及應用服務平臺。所述應用服務平臺可包括微信服務平臺、qq服務平臺、新聞客戶端服務平臺等。
所述獲取單元110可對應于采集傳感器或采集設備,能夠采集各種用戶行為信息,這里的用戶行為信息為由用戶行為觸發(fā)生成的信息,這里的用戶行為可以參見前述實施例,在此就不重復了。所述信息熱度,為當前處理周期內(nèi)被用戶行為熱門操作的信息,例如,熱門新聞,熱門娛樂人物等信息。
所述選擇單元120、確定單元130、提取單元140及生成單元150,都可以對應于服務器或服務平臺中的處理器或處理電路。本實施例中的處理器可包括中央處理器、微處理器、數(shù)字信號處理器、應用處理器或可編程陣列等;所述處理電路可包括專用集成電路等。
所述處理電路可包括專用集成電路等。
上述選擇單元120、確定單元130、提取單元140及生成單元150可集成對應于同一個處理器或處理電路,也可以對應于不同的處理器或處理電路。
總之,本實施例提供的服務平臺,能夠自動的生成信息事件,并根據(jù)梳理出信息事件的事件脈絡,這樣在響應用戶的搜索請求時,可以直接向客戶端發(fā)送事件脈絡,避免層疊式返回信息,導致的信息搜索效率低及用戶滿意度低的現(xiàn)象。
進一步地,所述選擇單元120,用于選擇所述信息熱度滿足所述預設事件條件的所述關鍵詞,生成備選信息事件;計算所述備選信息事件與歷史信息事件的相似度;若所述備選信息事件與所述歷史信息事件的相似度低于指定閾值,則確定所述備選信息事件為新產(chǎn)生的信息事件;其中,所述歷史信息事件為當前時間以前已確定的信息事件;所述新產(chǎn)生的信息事件為不同于所述歷史信息事件的信息事件。
本實施例中所述選擇單元120,可包括比較器或具有排序功能的處理器,所述比較器或具有排序功能的處理器,能夠選擇出對應的關鍵詞,并生成備選信息事件。所述選擇單元120還可包括計算器,能夠計算備選信息事件和歷史 信息事件的相似度。所述選擇單元120還包括比較器,通過相似度與指定閾值的比較,確定是歷史信息事件的進一步發(fā)展,還是新的信息事件。
具體地如,所述選擇單元120,具體用于當所述備選信息事件與所述歷史信息事件的相似度不低于所述指定閾值時,確定所述備選信息事件為所述歷史信息事件的進一步發(fā)展形成的子事件;所述確定單元130,具體用于根據(jù)所述子事件的關鍵詞確定出與所述子事件關聯(lián)的關聯(lián)信息;所述提取單元140,具體用于根據(jù)與所述子事件關聯(lián)的關聯(lián)信息,更新所述歷史信息事件的事件脈絡;確定與所述子事件關聯(lián)的關聯(lián)信息歸屬的事件節(jié)點;所述生成單元150,具體用于根據(jù)歸屬于所述新增的事件節(jié)點的關聯(lián)信息,更新所述歷史信息事件的事件節(jié)點的節(jié)點摘要信息。
所述備選信息事件為歷史信息事件的子事件時,表示備選信息事件是歷史信息事件的進一步發(fā)展。本實施例所述的服務平臺將至少用于梳理與所述備選信息事件對應的關聯(lián)信息,以更新所述歷史信息事件的事件脈絡。在更新事件脈絡時,可能會新增事件節(jié)點,也可以能不會新增事件節(jié)點;但是不掛哪種情況,所述提取單元140都可用于確定出關聯(lián)信息歸屬的事件節(jié)點,所述生成單元150都可用于更新節(jié)點的節(jié)點摘信息。當所述事件脈絡出現(xiàn)了新的事件節(jié)點時,所述提取單元140,可具體用于根據(jù)與所述子事件關聯(lián)的關聯(lián)信息,更新所述歷史信息事件的事件脈絡;更新后的所述事件脈絡至少包括一個新增的事件節(jié)點;確定與所述子事件關聯(lián)的關聯(lián)信息歸屬的事件節(jié)點;所述生成單元150,可具體用于根據(jù)歸屬于所述新增的事件節(jié)點的關聯(lián)信息,生成所述新增的事件節(jié)點的節(jié)點摘要信息。
以下結合上述實施例提供幾種所述選擇單元120生成信息事件的可選結構。
可選結構一:
所述選擇單元120,具體用于將所述關鍵詞按照信息熱度進行排序,生成備選信息事件的第一中心向量;提取所述歷史信息事件的第二中心向量;計算所述第一中心向量和所述第二中心向量的相似度。
本實施例中所述選擇單元120的可包括具有向量運算功能的設備,能夠通過第一中心向量和第二中心向量的計算,確定出備選信息事件與歷史信息事件的相似度。
可選結構二:
所述選擇單元120,具體用于計算所述備選信息事件與所述歷史信息事件的相對熵kl距離。
可選結構三:
所述選擇單元120,具體用于計算計算所述備選信息事件與所述歷史信息事件的杰卡德系數(shù)。
本實施例中所述選擇單元120可為能夠計算kl距離或杰卡德系數(shù)的計算器或具有計算功能的處理器。所述相對熵kl距離及杰卡德系數(shù)均為能夠表征備選信息事件與歷史信息事件相似度的參數(shù)。
在本實施例中所述選擇單元120通過kl距離和杰卡德系數(shù)的計算,來確定備選信息事件是歷史信息事件的進一步發(fā)展,還是新產(chǎn)生的信息事件。
此外,所述服務平臺還包括:調(diào)整單元,用于若所述備選信息事件與所述歷史信息事件的相似度不低于所述指定閾值,則根據(jù)所述關鍵詞調(diào)整所述歷史信息事件用于計算相似度的關鍵詞或由中心向量;其中,所述中心向量為由至少兩個關鍵詞組成的向量。
這里的調(diào)整單元同樣可對應于處理器或處理電路,能夠確定出未產(chǎn)生新的信息事件以后,根據(jù)當前的關鍵詞調(diào)整歷史信息事件的關鍵詞,更新信息事件的關鍵詞或中心向量。
在調(diào)整關鍵詞或中心向量時,可以直接根據(jù)確立備選信息時事件的關鍵詞引入到歷史信息事件中,實現(xiàn)對歷史信息事件的關鍵詞的更新。當然也可以還可以利用所述確定單元130及提取單元140及生成單元150來在歷史信息事件已經(jīng)完成的事件脈絡的基礎上,追加上后續(xù)的事件脈絡及節(jié)點摘要信息的生成。
進一步地,所述提取單元140,具體用于根據(jù)所述關鍵詞進行信息整合,確定出所述信息事件在時間維度上的時間脈絡。所述事件脈絡可為信息事件的 時間脈絡。在本實施例中所述提取單元140能夠用于梳理出時間脈絡。
在進一步地,所述提取單元140,具體用于根據(jù)所述關鍵詞進行信息整合,確定出所述信息事件在空間維度上的空間脈絡。本實施例所述提取單元140,還可以為在空間維度上進行空間脈絡梳理的信息。
在具體的實現(xiàn)過程中,在進行事件脈絡的提取時,可以通過一個維度參數(shù),來確定提取事件脈絡的維度,從而方便服務平臺的信息處理。
此外,所述提取單元140,還用于分析所述事件節(jié)點的關聯(lián)信息,生成子脈絡;所述子脈絡可包括至少n層子節(jié)點;其中,每一層所述子節(jié)點至少包括1個子節(jié)點;所述n為不小于1的整數(shù);所述生成單元150,還用于根據(jù)歸屬于每一給所述子節(jié)點的所述關聯(lián)信息,生成子節(jié)點摘要信息;其中,第i層子節(jié)點的子節(jié)點摘要信息是進入第i+1層子節(jié)點的接口信息;其中,所述i為不小于1且不大于n的整數(shù)。
在本實施例中所述服務平臺不僅能夠梳理出信息事件的主脈絡,還可以梳理出一個或多個或每一個事件節(jié)點的子脈絡,從而建立層次足夠細分,調(diào)理足夠清晰的時間脈絡網(wǎng),從而方便用戶可以在各個事件節(jié)點或子節(jié)點上找到自己想要看到的信息,提升信息檢索的精確度和效率性。
此外,所述生成單元150,還用于根據(jù)所述關聯(lián)信息的信息內(nèi)容,生成所述節(jié)點摘要信息;其中,所述節(jié)點摘要信息在進行所述事件脈絡展示時,作為連接到與該節(jié)點摘要信息歸屬于同一所述事件節(jié)點的關聯(lián)信息的鏈接。
在本實施例中所述節(jié)點摘要信息,一方面通過顯示向用戶提供事件節(jié)點在不同發(fā)展階段的特征,另一方面還可以作為檢索信息的鏈接,進行后續(xù)關聯(lián)信息的最終檢索。
此外,如圖10所示,本實施例還提供一種客戶端,包括:
接收單元210,用于接收檢索詞條;
顯示單元220,用于根據(jù)所述檢索詞條,顯示與所述檢索詞條滿足預設關聯(lián)度的信息事件的事件脈絡;其中,所述事件脈絡至少包括兩個事件節(jié)點及與每一個所述事件節(jié)點對應的節(jié)點摘要信息;
所述接收單元210,還用于接收作用于所述節(jié)點摘要信息的查詢操作;
所述響應單元220,還用于響應所述查詢操作,顯示與所述節(jié)點摘要信息所在的所述事件節(jié)點滿足預設相似度的關聯(lián)信息。
本實施例所述的客戶端可為各種用戶終端,這里的用戶終端可為移動終端或固定終端等。
本實施例中所述接收單元210可包括人機交互接口。這里的人機交互接口可包括鍵盤、鼠標、觸控屏、或懸浮觸控屏等電子設備。這樣客戶端就能夠從人機交互接口接收到檢索詞條。
所述顯示單元220可為各種形式的顯示屏,例如,液晶顯示屏、電子墨水顯示屏、投影顯示屏、有機發(fā)光二極管oled顯示屏等能夠顯示檢索結果的設備。在本實施例中所述事件脈絡及所述節(jié)點摘要信息都是作為所述檢索結果被顯示。
在具體的實現(xiàn)過程中,所述客戶端還可包括通信單元。這里的通信接口能夠對應于各種有線接口或無線接口,能夠與服務平臺或服務器進行信息交互。所述通信單元,具體可用于將所述檢索詞條發(fā)送給服務平臺,從服務平臺接收所述事件脈絡及節(jié)點摘要信息,及關聯(lián)信息。
總之,本實施例提供的這種客戶端,在響應用戶的檢索請求時,會顯示事件脈絡及節(jié)點摘要信息這樣邏輯條理清楚的呈現(xiàn)搜索結果,提高搜索效率和用戶滿意度。
結合上述實施例,以下提供幾個具體示例:
示例一:
本示例提供一種信息事件的發(fā)現(xiàn)和跟蹤方法,包括:
步驟1:發(fā)現(xiàn)信息事件;
步驟2:信息事件聚合和新信息事件的檢測。
步驟3:由關鍵詞回溯關聯(lián)信息。
步驟4:節(jié)點摘要生成。
所述步驟1可包括:按照預設間隔時間進行信息整合,以發(fā)現(xiàn)信息事件, 具體可包括:每小時對數(shù)據(jù)用lda聚出k個信息事件,假設每個信息事件由一個中心向量表示,該向量由lda產(chǎn)生的n個權重高的信息事件關鍵詞表示。如天津大爆炸的信息事件高頻詞會有:爆炸、塘沽、遇難、求救、巨響。
所述步驟2可包括:確定發(fā)現(xiàn)的信息事件是否為新的信息事件;具體可包括:對每小時聚出的信息事件,與歷史信息事件進行相似度計算,超過某個閾值,則認為與歷史信息事件關聯(lián),則將其添加到歷史信息事件的事件脈絡上,并更新該事件的中心向量。若低于某個閾值,則認為是潛在的新信息事件。
對于其中的信息事件的相似度計算,可以簡化為對信息事件的中心向量計算jaccard值;也可以用kl距離。
所述步驟3可通過步驟1中形成的關鍵詞來回溯關聯(lián)信息。由信息事件的中心向量的關鍵詞定位對應的原數(shù)據(jù),從而對數(shù)據(jù)進行事件生成。對于關鍵詞,如果某個詞在某個時間窗口內(nèi)相比前一個時間窗口內(nèi)出現(xiàn)的次數(shù)明顯增多,可以認為它和一些新的信息事件相聯(lián)系;如果某個詞在某個時間窗口內(nèi),出現(xiàn)的次數(shù)比該時間窗口內(nèi)其他詞明顯多,那么認為它和一些重大的熱門信息事件關聯(lián)。此處的,原數(shù)據(jù)或原信息都是所述關聯(lián)信息的另一種說法。
在步驟4中將生成每一個事件節(jié)點的節(jié)點摘要。例如,在生成“天津大爆炸”這個信息事件的節(jié)點摘要信息之前,先對“爆炸”、“塘沽”、“天津”等關鍵詞進行原數(shù)據(jù)追溯,從相關的原數(shù)據(jù)中抽取話題的時間、地點、人物、事件等要素進行節(jié)點摘要信息生成。
圖12展示的“天津大爆炸”信息事件的數(shù)據(jù)量量化圖。在圖12中縱軸為數(shù)據(jù)量,橫軸為日期。顯然隨著時間的推移,與天津大爆炸的信息量出現(xiàn)如圖12的演化。根據(jù)數(shù)據(jù)量演化圖可以看出用戶對天津大爆炸的關注熱度的遷移,根據(jù)關注熱度的遷移,可以用于確定是否持續(xù)跟蹤該信息事件,例如,當某關注熱度低于指定值時,停止追蹤該信息事件,若關注熱度大于指定值,則繼續(xù)最終該信息事件。這的關注熱度可認為是前述信息熱度的另一種表述。
在現(xiàn)實過程中,用戶的信息檢索時輸入的檢索詞條,與信息事件的關鍵詞可能出現(xiàn)一些偏差,例如,用戶輸入的關鍵詞對應的同義詞,或輸入的是英文 的檢索詞條,而關鍵詞本身是中文的。
為了提升精確度。當服務器接收到一個檢索詞條之后,可能需要將從客戶端接收的檢索詞條進行轉換,及與關鍵詞進行匹配,以盡可能提升匹配精確度。在本實施例中可以采用如圖13所示的神經(jīng)網(wǎng)絡,通過訓練數(shù)據(jù)進行訓練,形成分類模型。在接收到檢索詞條時,將該檢索詞條輸入該分類模型,將獲得該檢索詞條與服務平臺中存儲的關鍵詞的匹配度,并根據(jù)該匹配度給該檢索詞條設置分類標簽。這樣就可以根據(jù)該分類標簽,給相應的客戶端返回對應的檢索結果。
以圖13所為例,進行訓練時,以真實的檢索詞條和檢索詞條對應的搜索意圖標簽為訓練數(shù)據(jù),訓練深層神經(jīng)網(wǎng)絡,獲得神經(jīng)網(wǎng)絡對應的最小化分類的交叉熵損失函數(shù),利用該交叉熵損失函數(shù)使得檢索詞條和檢索詞條對應標簽的cos距離較小。
在預測時,首先利用訓練好的網(wǎng)絡模型,將用戶的檢索詞條轉化為128維的向量,然后將此向量與所有標簽對應的128維向量分別求cos距離,將cos距離最小的標簽作為預測輸出。
在本申請所提供的幾個實施例中,應該理解到,所揭露的設備和方法,可以通過其它的方式實現(xiàn)。以上所描述的設備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,如:多個單元或組件可以結合,或可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些接口,設備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。
上述作為分離部件說明的單元可以是、或也可以不是物理上分開的,作為單元顯示的部件可以是、或也可以不是物理單元,即可以位于一個地方,也可以分布到多個網(wǎng)絡單元上;可以根據(jù)實際的需要選擇其中的部分或全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各實施例中的各功能單元可以全部集成在一個處理模塊 中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。
本領域普通技術人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:移動存儲設備、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應以所述權利要求的保護范圍為準。