一種基于本體模型庫的新聞推薦方法及裝置的制造方法
【專利摘要】本發(fā)明提供了一種基于本體庫和知識圖譜的新聞推薦方法及裝置。所述方法包括以下步驟:(1)預(yù)處理,包括斷句、分詞、詞性標(biāo)注等;(2)新聞本體識別,對輸入新聞文本中的新聞本體信息進(jìn)行識別;(3)關(guān)鍵信息挖掘,結(jié)合識別出來的新聞本體信息對輸入新聞篇章中的關(guān)鍵信息(關(guān)鍵詞、關(guān)鍵本體等)進(jìn)行挖掘;(4)屬性獲取,基于前面步驟獲取的信息,查詢知識圖譜獲取知識點(diǎn)屬性信息,并根據(jù)知識圖譜關(guān)系進(jìn)行拓展,進(jìn)一步挖掘?qū)傩孕畔ⅲ?5)維度生成,基于前面步驟獲得的信息(本體、關(guān)鍵詞、屬性等)生成推薦維度;(6)推薦知識召回,基于推薦維度,在新聞文檔庫以及知識庫中進(jìn)行推薦知識的獲取。
【專利說明】
一種基于本體模型庫的新聞推薦方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及自然語言處理、智能推薦技術(shù)領(lǐng)域,尤其涉及一種基于新聞本體知識 庫以及知識圖譜的智能新聞推薦方法及其裝置。
【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)時(shí)代,特別是剛剛興起的移動互聯(lián)網(wǎng)、大數(shù)據(jù)時(shí)代,新聞推薦是新聞閱讀 服務(wù)中一個(gè)關(guān)鍵功能,對提升用戶體驗(yàn),增加用戶粘性具有極大作用。
[0003] 現(xiàn)有技術(shù)中新聞推薦技術(shù)一般有兩種。
[0004] -種是基于內(nèi)容的推薦技術(shù),主要基于詞袋的向量空間模型實(shí)現(xiàn)文檔相似度衡 量。另外一種是基于用戶行為的協(xié)同過濾技術(shù),主要是基于用戶歷史行為數(shù)據(jù),進(jìn)行潛在用 戶感興趣新聞的預(yù)測。
[0005] 現(xiàn)有技術(shù)的問題在于: 一、 基于內(nèi)容推薦的技術(shù),只基于關(guān)鍵詞信息,無法發(fā)現(xiàn)深層語義的相似度。對語言中 的一詞多義、一義多詞現(xiàn)象無法進(jìn)行很好的建模; 二、 基于內(nèi)容推薦技術(shù),所推薦的所有文檔是基于一個(gè)統(tǒng)一相似度衡量方法獲取的 (如,一般取Top 10)。推薦文檔和原文以及推薦文檔之間都存在極大的相似性,甚至都是不 同來源的互相轉(zhuǎn)載,對用戶不能帶來有效信息增益; 三、 基于用戶行為的協(xié)同過濾技術(shù),也存在上述兩項(xiàng)問題。另外,還存在冷啟動的問題。 因?yàn)檫@種技術(shù)方案需要基于用戶的歷史行為進(jìn)行訓(xùn)練建模。對于沒有用戶行為數(shù)據(jù)的場 景,難以有效開展。
[0006] 現(xiàn)有技術(shù)(包含上述兩種)難以解決推薦深度以及廣度的問題。推薦深度指對輸入 新聞文檔,無法獲取其背景知識以及關(guān)聯(lián)因果信息。推薦廣度是指對于輸入文檔,無法對橫 向相關(guān)的新聞或者知識進(jìn)行推薦(比如,巴黎暴恐?jǐn)U展到中國的類似事件)。而推薦深度以 及推薦廣度,對于專業(yè)的新聞從業(yè)者(如編輯、記者等)尤為重要。他們在日常工作中需要人 工耗費(fèi)大量時(shí)間精力對深度、廣度的關(guān)聯(lián)信息知識進(jìn)行搜集挖掘,也造成了這類工作對從 業(yè)者經(jīng)驗(yàn)積累以及知識廣博程度的高要求,使得新聞從業(yè)成本較高。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明要解決的技術(shù)問題是如何對輸入一篇或多篇新聞文檔,自動推薦出維度豐 富的,同時(shí)具備一定深度和廣度的相關(guān)的文檔或者知識。
[0008] 所述方法包括以下步驟:(1)預(yù)處理,包括斷句、分詞、詞性標(biāo)注等;(2)新聞本體識 另IJ,對輸入新聞文本中的新聞本體信息進(jìn)行識別;(3)關(guān)鍵信息挖掘,結(jié)合識別出來的新聞 本體信息對輸入新聞篇章中的關(guān)鍵信息(關(guān)鍵詞、關(guān)鍵本體等)進(jìn)行挖掘;(4)屬性獲取,基 于前面步驟獲取的信息,查詢知識圖譜獲取知識點(diǎn)屬性信息,并根據(jù)知識圖譜關(guān)系進(jìn)行拓 展發(fā)現(xiàn),進(jìn)一步挖掘?qū)傩孕畔?;?)維度生成,基于前面步驟獲得的信息(本體、關(guān)鍵詞、屬性 等)生成推薦維度;(6)推薦知識召回,基于推薦維度,在新聞文檔庫以及知識庫中進(jìn)行推薦 知識的獲取。
[0009] 所述裝置包括以下幾個(gè)單元:(1)預(yù)處理單元,實(shí)現(xiàn)輸入文本的斷句、分詞、詞性 標(biāo)注等;(2)新聞本體識別單元,實(shí)現(xiàn)輸入新聞文本中的新聞本體信息識別過程;(3)關(guān)鍵信 息挖掘單元,實(shí)現(xiàn)新聞篇章中的關(guān)鍵信息(關(guān)鍵詞、關(guān)鍵本體等)的自動挖掘;(4)屬性獲取 單元,實(shí)現(xiàn)知識圖譜查詢以及基于知識圖譜關(guān)系的知識拓展,獲取相關(guān)屬性信息;(5)維度 生成單元,實(shí)現(xiàn)推薦維度的生成,主要是基于前繼單元的輸出信息(本體、關(guān)鍵詞、屬性等) 進(jìn)行優(yōu)化組合,以生成推薦維度;(6)推薦知識召回單元,實(shí)現(xiàn)基于前繼單元輸出的推薦維 度,在新聞文檔庫以及知識庫中進(jìn)行推薦知識的獲取。
[0010] 本發(fā)明實(shí)施例提供的基于新聞本體庫以及知識圖譜的智能新聞推薦方法及裝置, 通過新聞本體識別以及基于知識圖譜的屬性挖掘,可以脫離輸入文本字詞限制,獲得在廣 度和深度上非常豐富的關(guān)聯(lián)信息;通過這些關(guān)聯(lián)信息,再基于維度生成算法,在文檔集以及 知識圖譜中進(jìn)行相關(guān)文檔以及知識點(diǎn)的召回,可以獲得具有更大廣度和深度的信息。使大 眾用戶能享受到內(nèi)容廣泛、關(guān)聯(lián)深入且有知識含量的信息服務(wù),特別地,對新聞專業(yè)從業(yè)人 士來講,可以極大地提高其工作效率,提升其業(yè)務(wù)產(chǎn)出水平。
【附圖說明】
[0011] 圖1是一種基于本體模型庫的新聞推薦方法流程圖;
[0012] 圖2是新聞本體庫示意圖;
[0013]圖3是新聞本體發(fā)現(xiàn)流程圖;
[0014]圖4是一種新聞知識圖譜示意圖;
[0015] 圖5是一種基于本體模型庫的新聞推薦裝置框架圖;
[0016] 圖6是一種新聞知識圖譜屬性拓展示意圖。
【具體實(shí)施方式】
[0017] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0018] 圖1是本發(fā)明提出的智能新聞推薦方法的示意圖。
[0019] 如圖1所示的智能新聞推薦方法100的輸入是新聞文檔111,可以是一篇也可以是 多篇。這里所說的"新聞文檔"泛指各種媒體刊發(fā)的新聞文本,具體格式可以是網(wǎng)頁形式,也 可以是純文本形式或者其他任何半結(jié)構(gòu)的格式(如xml格式)。
[0020] 步驟S120,對新聞文檔111進(jìn)行預(yù)處理,包括斷句處理、分詞、詞性標(biāo)注。斷句處理 是把文本111以句號斷開,分成多個(gè)句子進(jìn)行后續(xù)處理。分詞、詞性標(biāo)注把中文文本進(jìn)行詞 語切分處理,并給每個(gè)詞語標(biāo)注上其對應(yīng)的詞性,詞性包括名詞、動詞等。
[0021] 步驟S121,對預(yù)處理后的文本111,進(jìn)行本體識別,這里的"本體"指的是文本中涉 及到的新聞領(lǐng)域內(nèi)的概念。比如"新聞主題"、"新聞地域"、"新聞事件"等。而且這些本體具 有層次性。
[0022]圖2是新聞本體庫示意圖。
[0023]如圖2所示,新聞本體知識庫的第一層子節(jié)點(diǎn)包含"新聞主題"、"新聞地域"、"新聞 事件"、"新聞人物"、"其他"等。其中每個(gè)子節(jié)點(diǎn)又是一顆子樹。篇幅所限,圖2只是局部示 意圖。舉例來說,"新聞事件"又可以分為"延緩性事件"、"突發(fā)性事件"、"其他事件"等等。其 中,"突發(fā)事件"又可以進(jìn)一步分層細(xì)分。比如在本例中可以細(xì)分到"新聞事件-> 突發(fā)事件-> 突發(fā)公共安全事件-> 社會安全事件-> 恐怖襲擊-> 槍擊事件"。
[0024] 每個(gè)本體節(jié)點(diǎn)都對應(yīng)一組屬性定義,用于描述這一本體對應(yīng)的新聞概念在新聞報(bào) 道時(shí)所關(guān)注的要點(diǎn)。在圖2中,用一組橢圓形表示節(jié)點(diǎn)對應(yīng)的屬性。比如,"恐怖襲擊"這個(gè)本 體點(diǎn)的屬性在本實(shí)施例中為("襲擊者","受襲者","時(shí)間","地點(diǎn)")。在其他具體實(shí)施中,可 以根據(jù)實(shí)施例的應(yīng)用需求進(jìn)行定制。
[0025] 本體子節(jié)點(diǎn)默認(rèn)繼承本體父節(jié)點(diǎn)的屬性,也可以根據(jù)具體實(shí)施需求進(jìn)行增加、刪 除、修改。
[0026] 圖3是新聞本體識別流程圖。
[0027] 如圖3所示的新聞本體識別方法300,能經(jīng)過預(yù)處理S120的分詞與詞性標(biāo)注結(jié)果進(jìn) 行本體識別。
[0028]步驟S311,對每個(gè)詞匯進(jìn)行同義擴(kuò)展,利用同義詞表發(fā)現(xiàn)同義詞。比如"京城"是 "北京"的同義,"遺失"是"丟失"的同義。
[0029] 步驟S312,進(jìn)行最底層本體發(fā)現(xiàn)。利用詞匯的上下文發(fā)現(xiàn)用一種表達(dá)方式或一句 話表示的復(fù)雜概念。比如"*個(gè)小時(shí)之內(nèi)、兩天"是時(shí)間概念,"等了兩天了"是"未及時(shí)"概念。 這個(gè)發(fā)現(xiàn)過程基于底層本體知識庫支持,用正則表達(dá)式來進(jìn)行模式匹配。常用模式由人工 總結(jié),也可以輔以機(jī)器自動發(fā)現(xiàn)技術(shù),但此項(xiàng)技術(shù)不是本發(fā)明重點(diǎn),不做展開。
[0030] 步驟S313,進(jìn)行本體上溯,將上層本體進(jìn)行召回。如,對于上述步驟發(fā)現(xiàn)的最底層 本體"冷辦貧害',可以召回"冷辦貧害_>突發(fā)公共事件_>突發(fā)事件_>新聞事件"這個(gè)本體樹 路徑。
[0031] 另外,每個(gè)本體節(jié)點(diǎn),都相應(yīng)有屬性的定義。比如對于"自然災(zāi)難"這一本體點(diǎn),對 應(yīng)屬性有"發(fā)生日期","發(fā)生地點(diǎn)","成因","災(zāi)情規(guī)模","善后救援","上級指示","后期影 響"等。
[0032] 步驟S122,對本體識別后的文本進(jìn)行關(guān)鍵信息挖掘。所述的關(guān)鍵信息包含關(guān)鍵 詞、關(guān)鍵本體。關(guān)鍵詞來自輸入文本中出現(xiàn)的詞匯,關(guān)鍵本體來自S121步驟獲得的本體信 息。關(guān)鍵詞挖掘(有的文獻(xiàn)稱之為關(guān)鍵詞抽取,英文為keyword extract ion)的經(jīng)典方法如
:t表示當(dāng)前考慮被打分的詞匯,d表示當(dāng)前考慮的文檔,η表示在整體文檔集中包含t的 文檔數(shù),N表示整體文檔集的文檔數(shù)。在本發(fā)明中的具體實(shí)施例中,對此算法進(jìn)行了優(yōu)化,考 慮了本體的信息。
其中,s和|為權(quán)重參數(shù),用來調(diào)整原始詞匯TFIDF信息和本體TFIDF信息之間的重要 性,優(yōu)選地,均為0.5。0(〇是t所有對應(yīng)的本體A表示1和〇之間相差的層級數(shù)。采用階乘倒 數(shù)作為加權(quán)的形式來確保隨著本體的抽象程度升高其影響度下降。
[0034]假設(shè)本實(shí)施例的輸入新聞文本中包含一個(gè)詞匯t為"巴黎恐怖襲擊",而它在本體 識別階段識別得到本體信息為新傾事#->突發(fā)##->突發(fā)公炎安全安全# #-λ恐蔽襲志->松志事# ",那么"槍擊事件"這個(gè)本體對t的權(quán)重增量為rvr>"/」7Fi7F r襝志事#"人而"恐怖襲擊"這個(gè)本體對t的權(quán)重增量為rvr>w/」77^F「惣筱襲志"h 本實(shí)施例所提的優(yōu)化方法可以通過綜合本體的信息,來解決多詞同義導(dǎo)致的統(tǒng)計(jì)量分 散的問題,也可以從一定程度上考慮相同或者相近語義詞匯的互相增益,以挖掘出更加合 理的關(guān)鍵信息。
[0035] 關(guān)鍵本體的挖掘與關(guān)鍵詞的挖掘類似,只不過,關(guān)鍵本體的挖掘只考慮其上層本 體對其的影響,而不需要考慮具體詞匯的影響。
[0036]本步驟也可以使用TextRank等其他關(guān)鍵詞挖掘方法,并且可以類似地進(jìn)行結(jié)合本 體知識的優(yōu)化。
[0037]步驟S123,根據(jù)前面步驟獲得的信息,基于新聞知識圖譜進(jìn)行屬性的獲取。所述前 面步驟獲得的信息包含輸入文本中包含的詞匯、識別出來的本體以及挖掘出來的關(guān)鍵信 息。優(yōu)選地,利用挖掘出來的關(guān)鍵信息(關(guān)鍵詞以及關(guān)鍵本體)在新聞本體知識圖譜中進(jìn)行 查詢,找到對應(yīng)的知識卡片,獲取其中的屬性信息。
[0038]圖4是新聞知識圖譜示意圖。
[0039]所述的新聞知識圖譜采用通用的RDF三元組(實(shí)體1,關(guān)系,實(shí)體2)進(jìn)行描述,但其 是根據(jù)新聞領(lǐng)域的專業(yè)特性進(jìn)行描述的。三元組中的實(shí)體可以是名實(shí)體(如人名、地名、機(jī) 構(gòu)名等),也可以是新聞事件。
[0040] 知識表示按照圖2所示的新聞本體庫定義的模式(層次以及屬性列表)進(jìn)行。假設(shè) 輸入文本在前面步驟可以獲得"巴黎","槍擊事件","ISIS","法國"等相關(guān)信息,把這些信 息作為查詢,可以在知識圖譜中找到對應(yīng)的實(shí)體。
[0041] 每個(gè)實(shí)體對應(yīng)有屬性值。然后根據(jù)這些屬性值以及結(jié)合實(shí)體與實(shí)體之間的關(guān)系, 繼續(xù)在知識圖譜中進(jìn)行進(jìn)一步查詢,可以召回更多實(shí)體,進(jìn)而獲得更多的屬性信息。這一過 程簡稱為屬性拓展過程。圖6演示了一個(gè)屬性拓展的過程。
[0042] 步驟S124,根據(jù)前面步驟獲取的信息,進(jìn)行推薦維度的生成。所述推薦維度指文檔 的類別或者標(biāo)簽。比如"中國+恐怖襲擊事件"這一維度代表在中國范圍內(nèi)發(fā)生的恐怖襲擊 事件的相關(guān)信息。
[0043] 而其中的"中國","恐怖襲擊事件"就是在前面步驟獲得的信息。推薦維度的生成 主要是一個(gè)信息項(xiàng)組合優(yōu)選的過程。
[0044] 優(yōu)選地,本步驟的輸入信息包含從輸入文本中獲取的關(guān)鍵詞、關(guān)鍵本體、屬性等信 息項(xiàng)。輸出的維度即是這些信息項(xiàng)的組合。優(yōu)選地,維度生成遵循以下指導(dǎo)原則: 1) 名實(shí)體性的信息項(xiàng),如人物名,可以單獨(dú)作為一個(gè)維度; 2) 組合項(xiàng)越多,分?jǐn)?shù)越高。比如"中國+恐怖襲擊"優(yōu)于"恐怖襲擊"; 3) 異質(zhì)信息項(xiàng)組合,分?jǐn)?shù)越高。比如"新三板+體育產(chǎn)業(yè)"優(yōu)于"新三板+增發(fā)"; 4) 結(jié)合前面步驟中對于關(guān)鍵信息的評分。
[0045] 本實(shí)施例維度生成過程就是一個(gè)在所有信息項(xiàng)進(jìn)行組合的過程,為了防止組合過 多,采用棧搜索策略進(jìn)行剪枝。只保留得分最高的k個(gè)維度。優(yōu)選地,k設(shè)定為5。
[0046]步驟S125,根據(jù)S124生成的若干推薦維度,分別在整體新聞文檔中進(jìn)行檢索,召 回相關(guān)文檔,形成各個(gè)維度對應(yīng)的推薦信息。優(yōu)選地,還可以根據(jù)生成維度中的單維度信息 在新聞知識圖譜中進(jìn)行知識點(diǎn)的檢索召回。
[0047]圖5是智能新聞推薦裝置示意圖。
[0048]智能新聞推薦裝置500包括4個(gè)處理單元以及一個(gè)建模單元。
[0049] 建模單元510,負(fù)責(zé)整個(gè)裝置所需要的新聞本體庫、新聞知識圖譜的管理,用戶可 以由此單元對新聞本體庫、新聞知識圖譜進(jìn)行增加、刪除、修改等操作。
[0050] 預(yù)處理單元521,負(fù)責(zé)提供分詞、詞性標(biāo)注等預(yù)處理功能。對非結(jié)構(gòu)化文本111進(jìn)行 預(yù)處理,包括斷句處理、分詞、詞性標(biāo)注。斷句處理是把文本111以句號斷開,分成多個(gè)句子 進(jìn)行后續(xù)處理。分詞、詞性標(biāo)注把中文文本進(jìn)行詞語切分處理,并給每個(gè)詞語標(biāo)注上其對應(yīng) 的詞性,詞性包括名詞、動詞等。
[0051] 本體識別單元522,負(fù)責(zé)根據(jù)單元521輸出的預(yù)處理結(jié)果,進(jìn)行新聞本體的識別。首 先對每個(gè)詞匯進(jìn)行同義擴(kuò)展,利用同義詞表發(fā)現(xiàn)同義詞。然后,基于正則表達(dá)式匹配模式, 發(fā)現(xiàn)最底層本體。最后通過本體樹的上溯操作,獲得本體路徑。
[0052]關(guān)鍵信息挖掘單元523,負(fù)責(zé)挖掘輸入文本111中的關(guān)鍵信息。如關(guān)鍵詞以及關(guān)鍵 本體。關(guān)鍵詞挖掘(有的文獻(xiàn)稱之為關(guān)鍵詞抽取,英文為keyword extract ion)的經(jīng)典方法
t表示當(dāng)前考慮被打分的詞匯,d表示當(dāng)前考慮的文檔,η表示在整體文檔集中包含t的 文檔數(shù),N表示整體文檔集的文檔數(shù)。在本發(fā)明中的具體實(shí)施例中,對此算法進(jìn)行了優(yōu)化,考 慮了本體的信息。
其中,8和I為權(quán)重參數(shù),用來調(diào)整原始詞匯TFIDF信息和本體TFIDF信息之間的重要 性,優(yōu)選地,均為0.5。0(〇是t所有對應(yīng)的本體上表示1和〇之間相差的層級數(shù)。采用階乘倒 數(shù)作為加權(quán)的形式來確保隨著本體的抽象程度升高其影響度下降。
[0054] 假設(shè)本實(shí)施例的輸入新聞文本中包含一個(gè)詞匯t為"巴黎恐怖襲擊",而它在本體 識別階段識別得到本體信息為新傾事#->突發(fā)##_>突發(fā)公炎安全安全# 恐蔽襲志->松志事# 那么"槍擊事件"這個(gè)本體對t的權(quán)重增量為 r襝志事#"人而"恐怖襲擊"這個(gè)本體對t的權(quán)重增量為惣筱襲志"h
[0055] 關(guān)鍵本體的挖掘與關(guān)鍵詞的挖掘類似,只不過,關(guān)鍵本體的挖掘只考慮其上層本 體對其的影響,而不需要考慮具體詞匯的影響。
[0056] 本步驟也可以使用TextRank等其他關(guān)鍵詞挖掘方法,并且可以類似地進(jìn)行結(jié)合本 體知識的優(yōu)化。
[0057] 屬性獲取單元524,負(fù)責(zé)基于知識圖譜進(jìn)行屬性的獲取。前面步驟獲得的信息包含 輸入文本中包含的詞匯、識別出來的本體以及挖掘出來的關(guān)鍵信息。
[0058]新聞本體知識圖譜中對這些信息進(jìn)行查詢,找到對應(yīng)的知識卡片,獲取其中的屬 性信息。每個(gè)實(shí)體對應(yīng)有屬性值。然后根據(jù)這些屬性值以及結(jié)合實(shí)體與實(shí)體之間的關(guān)系,繼 續(xù)在知識圖譜中進(jìn)行進(jìn)一步查詢,可以召回更多實(shí)體,進(jìn)而獲得更多的屬性信息。
[0059]維度生成單元525,負(fù)責(zé)根據(jù)前面步驟獲取的信息,進(jìn)行推薦維度的生成。推薦維 度的生成主要是一個(gè)信息項(xiàng)組合優(yōu)選的過程。
[0060] 優(yōu)選地,本步驟的輸入信息包含從輸入文本中獲取的關(guān)鍵詞、關(guān)鍵本體、屬性等信 息項(xiàng)。輸出的維度即是這些信息項(xiàng)的組合。優(yōu)選地,維度生成遵循以下指導(dǎo)原則: 1) 名實(shí)體性的信息項(xiàng),如人物名,可以單獨(dú)作為一個(gè)維度; 2) 組合項(xiàng)越多,分?jǐn)?shù)越高。比如"中國+恐怖襲擊"優(yōu)于"恐怖襲擊"; 3) 異質(zhì)信息項(xiàng)組合,分?jǐn)?shù)越高。比如"新三板+體育產(chǎn)業(yè)"優(yōu)于"新三板+增發(fā)"; 4) 結(jié)合前面步驟中對于關(guān)鍵信息的評分。
[0061] 本實(shí)施例維度生成過程就是一個(gè)在所有信息項(xiàng)進(jìn)行組合的過程,為了防止組合過 多,采用棧搜索策略進(jìn)行剪枝。只保留得分最高的k個(gè)維度。優(yōu)選地,k設(shè)定為5。
[0062] 推薦知識召回單元526,負(fù)責(zé)根據(jù)單元525生成的若干推薦維度,分別在整體新聞 文檔中進(jìn)行檢索,召回相關(guān)文檔,形成各個(gè)維度對應(yīng)的推薦信息。優(yōu)選地,還可以根據(jù)生成 維度中的單維度信息在新聞知識圖譜中進(jìn)行知識點(diǎn)的檢索召回。
[0063] 以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于本體庫和知識圖譜的新聞推薦方法,其特征在于,包括W下步驟: 對輸入新聞文本進(jìn)行新聞本體識別; 對輸入新聞文本進(jìn)行關(guān)鍵信息挖掘; 基于新聞知識圖譜進(jìn)行屬性獲??; 基于從輸入新聞文本中挖掘出的關(guān)鍵信息W及屬性信息進(jìn)行推薦維度生成; 根據(jù)推薦維度進(jìn)行推薦信息的召回W及輸出。2. 如權(quán)利要求1所述的新聞本體識別,其特征在于,包含W下步驟: 對每個(gè)詞匯進(jìn)行同義擴(kuò)展,利用同義詞表發(fā)現(xiàn)同義詞; 根據(jù)正則匹配模式對新聞本體庫進(jìn)行檢索,發(fā)現(xiàn)最底層本體; 根據(jù)本體樹的層次結(jié)構(gòu),對每個(gè)最底層本體進(jìn)行上溯,獲得本體匹配路徑。3. 如權(quán)利要求2所述的新聞本體庫,其特征在于: 面向新聞專業(yè)領(lǐng)域的層次劃分,比如劃分為"新聞事件"、"新聞人物"、"新聞主題"等大 類W及每個(gè)大類又分為若干小類;每個(gè)本體節(jié)點(diǎn)代表一個(gè)新聞報(bào)道中經(jīng)常設(shè)及的類別;每 個(gè)本體節(jié)點(diǎn)都對應(yīng)一個(gè)屬性列表,對應(yīng)運(yùn)個(gè)新聞類別中的一些基本要素點(diǎn)。4. 如權(quán)利要求1所述的關(guān)鍵信息挖掘,其特征在于: 評價(jià)方法結(jié)合了詞匯信息和本體信息: 關(guān)鍵詞挖掘經(jīng)典方法如TFIDF:t表示當(dāng)前考慮被打分的詞匯,d表示當(dāng)前考慮的文檔,η表示在整體文檔集中包含t的 文檔數(shù),N表示整體文檔集的文檔數(shù),在本發(fā)明中的具體實(shí)施例中,對此算法進(jìn)行了優(yōu)化,考 慮了本體的信息;本發(fā)明所提計(jì)算詞匯權(quán)重公式為:其中,α和β為權(quán)重參數(shù),用來調(diào)整原始詞匯TFIDF信息和本體TFIDF信息之間的重要性, 優(yōu)選地,均為0.5;0(t)是t所有對應(yīng)的本體;1〇表示*和〇之間相差的層級數(shù);采用階乘倒數(shù) 作為加權(quán)的形式來確保隨著本體的抽象程度升高其影響度下降。5. 如權(quán)利要求1所述的新聞知識圖譜,其特征在于: 采用通用的RDFS元組(實(shí)體1,關(guān)系,實(shí)體2)進(jìn)行描述,但其是根據(jù)新聞領(lǐng)域的專業(yè)特 性進(jìn)行描述的; Ξ元組中的實(shí)體可W是名實(shí)體(如人名、地名、機(jī)構(gòu)名等),也可W是新聞事件; 知識表示按照權(quán)利要求3所述的新聞本體庫定義的模式(層次W及屬性列表)進(jìn)行。6. 如權(quán)利要求1所述的屬性獲取,其特征在于: 利用挖掘出來的關(guān)鍵信息在新聞本體知識圖譜中進(jìn)行查詢,找到對應(yīng)的知識卡片,獲 取其中的屬性信息; 具有屬性拓展過程;每個(gè)實(shí)體對應(yīng)有屬性值,然后根據(jù)運(yùn)些屬性值W及結(jié)合實(shí)體與實(shí) 體之間的關(guān)系,繼續(xù)在知識圖譜中進(jìn)行進(jìn)一步查詢,可W召回更多實(shí)體,進(jìn)而獲得更多的屬 性信息。7. 如權(quán)利要求1所述的推薦維度生成,其特征在于: 其是一個(gè)基于權(quán)利要求4所獲得的關(guān)鍵信息項(xiàng)進(jìn)行的組合優(yōu)選的過程; 其遵循W下指導(dǎo)原則: 1) 名實(shí)體性的信息項(xiàng),如人物名,可W單獨(dú)作為一個(gè)維度; 2) 組合項(xiàng)越多,分?jǐn)?shù)越高;比如"中國+恐怖襲擊"優(yōu)于"恐怖襲擊"; 3) 異質(zhì)信息項(xiàng)組合,分?jǐn)?shù)越高;比如"新Ξ板+體育產(chǎn)業(yè)"優(yōu)于"新Ξ板+增發(fā)"; 4) 結(jié)合前面步驟中對于關(guān)鍵信息的評分。8. -種基于本體庫和知識圖譜的新聞推薦裝置,其特征在于,包括: 建模單元,負(fù)責(zé)整個(gè)裝置所需要的新聞本體庫、新聞知識圖譜的管理,用戶可W由此單 元對新聞本體庫、新聞知識圖譜進(jìn)行增加、刪除、修改等操作; 預(yù)處理單元,負(fù)責(zé)提供分詞、詞性標(biāo)注等預(yù)處理功能; 本體識別單元,負(fù)責(zé)進(jìn)行新聞本體的識別; 關(guān)鍵信息挖掘單元,負(fù)責(zé)挖掘輸入文本中的關(guān)鍵信息; 屬性獲取單元,負(fù)責(zé)基于知識圖譜進(jìn)行屬性的獲??; 維度生成單元,負(fù)責(zé)根據(jù)前面單元獲取的信息,進(jìn)行推薦維度的生成; 推薦知識召回單元,負(fù)責(zé)根據(jù)前面單元生成的推薦維度,分別在整體新聞文檔中進(jìn)行 檢索,召回相關(guān)文檔,形成各個(gè)維度對應(yīng)的推薦信息,根據(jù)生成維度中的單維度信息在新聞 知識圖譜中進(jìn)行知識點(diǎn)的檢索召回。
【文檔編號】G06F17/30GK106095762SQ201610081578
【公開日】2016年11月9日
【申請日】2016年2月5日 公開號201610081578.3, CN 106095762 A, CN 106095762A, CN 201610081578, CN-A-106095762, CN106095762 A, CN106095762A, CN201610081578, CN201610081578.3
【發(fā)明人】不公告發(fā)明人
【申請人】中科鼎富(北京)科技發(fā)展有限公司