專利名稱:利用計算機的基于多媒體分析的新聞人物檢索方法
技術領域:
本發(fā)明屬于圖像處理及信息處理技術領域,涉及多媒體內容分析與理解的技術處理,具體涉及利用計算機的基于多媒體分析的新聞人物檢索的架構。
背景技術:
隨著信息技術的發(fā)展和網絡的全球化,在線新聞越來越多并且也越來越受歡 迎。因此,有效地管理大量的來自多個網站的新聞文檔是非常有必要的。一篇新聞文檔通常定義為由特定人或者機構發(fā)起的、發(fā)生在某個時間和地點的 特定事件。也就是說,對應一個特定新聞事件的新聞文檔可以根據(jù)以下的‘4W’元素 唯一標識人或者機構(Who)、時間(When)、地點(Where)和事件(What)。其中,作 為新聞實體的人應該予以特別的關注,因為不同新聞人物之間的社會關系網絡可以認為 是新聞事件之間一種間接聯(lián)系。因此,新聞事件和新聞人物應該認為是新聞檢索中的兩 個基本要素,尤其在本專利的新聞人物檢索中,這兩個要素是相互關聯(lián)的。當不同的新 聞事件發(fā)生在同樣的新聞人物或機構時,我們可以認為這些新聞事件可能是相關的;另 一方面,同時出現(xiàn)在某一新聞事件中的新聞人物也可認為是相關的。對有效且準確組織 和檢索可能相關的新聞事件而言,如何挖掘這兩個要素的內部關系和相互關系是一個非 常重要并且具有挑戰(zhàn)性的問題。在多種新聞相關的應用中,一些研究者已經關注挖掘新聞事件或者新聞實體的 內部關系了。但是,大部分工作采用文本分析和忽略了事件和實體之間的關系。通常, 新聞網頁包含了圖片,更加生動地描述一個新聞事件。新聞人物或者機構可能出現(xiàn)在這 些圖片當中。因此,新聞圖片對理解新聞文檔的重要性和新聞文本一樣的,并且描述的 更精確。目前,幾乎沒有研究工作試圖采用多模態(tài)信息分析新聞,在新聞檢索中也沒有 相關工作開發(fā)可利用的事件_實體關系來挖掘或者糾正一些隱含的相關性。微軟亞洲研究院研發(fā)的微軟人立方關系檢索從超過十億的中文網頁中自動的抽 取出人名、地名、機構名以及中文短語,并且通過算法自動的計算出它們之間存在關系 的可能性。此外,人立方關系檢索還自動的找出人名之間最可能的關系描述詞、與人名 最可能相關的稱呼、作品詞條等。人立方關系檢索從這些中文網頁中自動的辨別出人名 所對應的人物簡介文字,并按照這些文字是人物簡介的可能性進行排序。人立方改變了 傳統(tǒng)呈現(xiàn)模式,提供了一種新的瀏覽網絡信息的體驗以人與人之間的關系為紐帶,將 埋藏在網絡信息海洋中的“人”的信息連接匯總,圖文并茂地展現(xiàn)出來。人立方的任務是識別相關的新聞實體對和檢測出表示關系的關鍵詞。它采用引 導結構降低人為標注樣本的個數(shù)和一般關系模型——馬爾可夫邏輯網絡在不同層次上抽 取實體(人名、地名、機構和中文短語)關系。但是,人立方依賴于文本分析只計算實體之間的關系,尤其是人物_人物之間 的關系,忽略了目前網頁的多媒體特性。另外,新聞人物之間是可以通過新聞事件產生 關系的,并且新聞人物的社會網絡關系和新聞事件之間的關系以及事件_人物關系不是獨立的,而是相關的。人立方的檢索結果只展示了人物之間的關系圖,沒有將人物與事 件的關系和事件之間的關系展示出來。
發(fā)明內容
有鑒于此,本發(fā)明的主要目的在于采用目前網頁的多媒體特性和綜合無縫地考 慮事件_人物、人物-人物和事件-事件的關系來挖掘潛在的事件-人物、人物-人物 和事件_事件的關系,給用戶提供更加豐富的信息;另外,本發(fā)明的檢索結果展示界面 中展示了新聞人物、新聞事件與查詢的關系,還提供了與新聞事件相關的新聞人物和事 件,使用戶更生動地了解到更豐富的信息,為此而提供一種利用計算機的基于多媒體分 析的新聞人物檢索方法。為達到上述目的,本發(fā)明提供利用計算機的基于多媒體分析的新聞人物檢索方 法的技術方案包括步驟如下步驟Si:利用計算機提取新聞圖像,用自然語言處理技術提取出新聞文檔的標 題、時間、網站、摘要和正文以及對應的網址,提取出圖像的網址和圖像對應的文本信 息,并去除重復文檔和從新聞文檔中提取出任命,為后續(xù)工作提供數(shù)據(jù)支持;步驟S2:多模態(tài)融合的關系初始化基于步驟Sl提供的數(shù)據(jù),一是統(tǒng)計人物在 事件中出現(xiàn)的頻率,采用二值關系作為人物-事件的初始關系,即人物在事件中出現(xiàn)則 二者的關系為1,否則為0; 二是利用當前新聞網頁的文本信息和圖像信息計算人物之間 的關系,利用 統(tǒng)計語言處理技術統(tǒng)計新聞人物在新聞文本中的共生關系,以及利用人臉 識別技術統(tǒng)計新聞人物在新聞圖片中的共生關系,將這兩種共生關系線性加權作為新聞 人物的初始關系;三是利用一篇新聞文檔的標題、摘要和正文部分的不同重要性;對一 篇文檔而言,標題是最重要的,摘要次之,最后是正文;分別統(tǒng)計文檔的標題、摘要和 正文的相似關系,然后將這三種相似關系分別賦予不同的權重進行加權,得到的結果作 為新聞文檔之間的初始關系;步驟S3:關系重構基于步驟S2計算出來的人物-事件、人物-人物以及事 件-事件的初始關系,采用綜合多種關系的概率矩陣分解模型挖掘出潛在的人物特征矩 陣和潛在的事件特征矩陣,利用得到的潛在矩陣對人物_事件、人物-人物和事件-事件 關系進行重構;在矩陣分解的過程中,并通過矩陣之間共享因子將事件-人物、人物-人 物和事件-事件這三種關系矩陣無縫地結合起來,最后利用通過優(yōu)化目標函數(shù)得到矩陣 因子重構和細化關系矩陣,挖掘出潛在的關系;步驟S4 根據(jù)用戶提交的查詢關鍵詞和已重構出來的關系對新聞人物和新聞事 件按照與查詢關鍵詞的相關性進行排序;步驟S5:檢索結果瀏覽界面用戶向計算機提交的人物名字為檢索關鍵詞,提 供了一個以查詢人物為中心的關系視圖和一個相關新聞事件列表視圖,將檢索結果反饋 給用戶。其中,采用多模態(tài)信息計算人物之間的關系方法,綜合利用所述新聞網頁中的 文本信息和圖像信息,分別計算人物在文本、圖像中的關系,并將這兩種模態(tài)信息中的 關系組合。其中,所述事件關系的計算是考慮所述一篇文檔的標題、摘要和正文的不同重要性,分別計算文檔之間的這三部分的相似性,并將這三部分相似性的線性組合作為事 件之間的相似性。其中,基 于多種關系概率矩陣分解模型挖掘潛在的關系,在矩陣分解過程當 中,通過矩陣之間的共享因子矩陣將這三種關系矩陣無縫地結合起來,同時綜合了三種 關系矩陣挖掘潛在的人物特征矩陣和事件特征矩陣。其中,所述以查詢人物為中心的關系視圖的節(jié)點是查詢、與查詢最相關的前10 個新聞人物和前10個新聞事件;該關系視圖中不但包含了新聞人物之間的社會網絡圖, 即最相關的前10個新聞人物之間的關系以及與查詢的關系,還包含了最相關的前10個新 聞事件之間的關系以及與查詢的關系。其中,在所述相關新聞事件列表視圖中,每一個相關事件都提供了該事件的標 題、圖片、簡短摘要、最相關的前3個新聞人物以及最相關的前3個新聞事件,用戶通過 點擊每一個新聞事件的標題來瀏覽該事件的全文。本發(fā)明的有益效果本發(fā)明為了解決綜合考慮網頁的多媒體信息而提出使用自 然語言處理技術和人臉檢測識別,為解決綜合考慮事件_人物、人物-人物和事件-事件 的關系來挖掘潛在的事件_人物、人物_人物和事件_事件的關系而提出了多關系的概率 矩陣分解模型,為使用戶更生動地了解到更豐富的信息而提出了一個多視圖的結果瀏覽 界面。本發(fā)明采用自然語言處理技術提出新聞人名、統(tǒng)計新聞人物在文檔中的頻率、 新聞人物在文本信息的共生關系和線性加權新聞文檔的標題、摘要和正文的相似性,采 用人臉檢測識別技術統(tǒng)計新聞人物在新聞圖像中的共生關系,再將新聞人物在文本和圖 像中的共生關系線性組合。這樣,本發(fā)明綜合利用了新聞網頁的多媒體信息和新聞文檔 不同部分的重要性,使得統(tǒng)計出來的初始人物_人物關系和事件_事件關系更加可靠。本發(fā)明提出了多關系概率矩陣分解模型,將事件_人物、人物-人物和事件-事 件的關系綜合無縫地結合起來,更好地挖掘新聞人物與新聞事件之間或其內部的各種潛 在關系,能夠提供給用戶更多、更準確的信息。本發(fā)明提出了一種多視圖檢索結果瀏覽界面,將新聞人物、新聞事件與用戶檢 索人物的關系圖展示給用戶,另外還將相關的新聞事件的簡要信息(標題、摘要和圖像) 以及與事件相關的前3個新聞人物和前3個新聞事件展示給用戶。用戶能夠立體地更加 生動地瀏覽到需要的更豐富的信息。
圖1是本發(fā)明的流程圖。圖2是人臉檢測和匹配實例示意圖。圖3是多關系概率矩陣分解模型。圖4是利用本發(fā)明方法實現(xiàn)多視圖瀏覽界面實例的圖片。圖5是性能比較實例圖。圖6給出了用戶對本發(fā)明系統(tǒng)的整體滿意度的平均分數(shù)。圖7給了參數(shù)的影響結果。
具體實施例方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并 參照附圖,對本發(fā)明進一步詳細說明。本發(fā)明的框架綜合利用了文本信息和圖像信息,同時綜合了新聞人物_新聞事 件的關系、新聞人物的共生關系以及新聞事件之間的關系。本發(fā)明以用戶向計算機提 交的人物名字為檢索關鍵詞,以兩種視圖將檢索結果展示給用戶,提供給用戶一個更生 動、更富信息的新聞人物檢索。檢索結果展示的兩種視圖分別是查詢?yōu)橹行牡亩嚓P系視 圖和帶有簡單描述(包括新聞圖像、標題、摘要、中心人物和相關事件)的新聞事件列表 視圖。本發(fā)明中還提出多關系概率矩陣分解算法進行關系挖掘。該算法在因子分解過 程中不但考慮了新聞事件-人物的關系,還考慮了新聞事件之間的關系和人物之間的關 系。本發(fā)明提出了一個利用計算機的基于多媒體分析的新聞人物檢索框架,綜合利 用多模態(tài)信息,通過本發(fā)明提出的多關系概率矩陣分解關系挖掘技術發(fā)現(xiàn)潛在的新聞人 物與新聞事件之間或其內部的各種關系,并給據(jù)用戶的查詢關鍵詞,將新聞檢索結果進 行立體展示反饋給用戶。該系統(tǒng)使用戶不但能獲取所關心的新聞人物的社會關系信息以 及與所關心的新聞人物相關的新聞事件之間的關系信息,而且還能了解相關新聞事件的 詳細信息,比如與新聞事件相關的人物和其他新聞事件。下面敘述圖1給出本發(fā)明的流程。步驟Sl 數(shù)據(jù)預處理編寫網絡爬蟲程序并從互聯(lián)網上爬取新聞數(shù)據(jù);先采用 網絡爬蟲從ABC、BBC和CNN新聞網站上爬取新聞文檔和對應的新聞圖像,然后采用 自然語言處理技術提取出新聞文檔的標題、時間、網站、摘要和正文以及對應的網址, 提取出圖像的網址和圖像對應的文本信息,最后采用自然語言處理技術去除重復文檔和 從新聞文檔中提取出任命。步驟S2:多模態(tài)融合的關系初始化多媒體分析和關系初始化,包含了人 物-事件關系初始化、多模態(tài)融合的人物關系初始化和事件關系初始化一是統(tǒng)計新聞 人物在各個新聞文檔中出現(xiàn)的頻率,采用二值關系作為人物-事件的初始關系,即如果 一個新聞人物在一個新聞事件中出現(xiàn)則二者的關系為1,否則為0; 二是利用當前網頁 的文本信息和圖像信息計算人物之間的關系,利用統(tǒng)計語言處理技術統(tǒng)計新聞人物在新 聞文本中的共生關系,以及利用人臉識別技術統(tǒng)計新聞人物在新聞圖片中的共生關系, 將這兩種共生關系線性加權作為新聞人物的初始關系;三是利用一篇新聞文檔的標題、 摘要和正文部分的不同重要性,分別統(tǒng)計文檔的標題、摘要和正文的相似關系,然后將 這三種相似關系分別賦予不同的權重進行加權,得到的結果作為新聞文檔之間的初始關 系;人物關系矩陣和事件關系矩陣的每個元素都是介于0和1之間的實數(shù)值,是根據(jù)相似 性函數(shù)計算出來的相似值; 步驟S3 關系重構基于多關系概率矩陣分解的關系挖掘挖掘潛在關系過程 中采用了的綜合多種關系的概率矩陣分解模型,在矩陣分解的過程中,并通過共享因子 將事件_人物、人物-人物和事件-事件關系無縫地結合起來。最后利用通過優(yōu)化目標 函數(shù)得到矩陣因子重構和細化關系矩陣,挖掘出潛在的關系;該算法在因子分解過程中 不但考慮了新聞事件_人物的關系,還考慮了新聞事件之間的關系和人物之間的關系。
步驟S4 根據(jù)用戶提交的查詢關鍵詞(新聞人物名)和已重構出來的關系對新 聞人物和新聞事件按照與查詢關鍵詞的相關性進行排序。步驟S5 檢索結果瀏覽界面提供一個以查詢人物為中心的關系視圖和一個相 關新聞事件列表視圖將檢索結果立體地反饋展示給用戶。下面以英文檢索為例對本專利涉及的主要技術(1)多模態(tài)融合的人物關系初始 化,(2)事件關系初始化,(3)基于多關系概率矩陣分解的關系挖掘及(4)檢索結果瀏覽 界面進行解釋和說明如下(1)多模態(tài)融合的人物關系初始化第一,文本信息處理。利用自然語言處理技術從數(shù)據(jù)庫的新聞文檔中抽取出新 聞人名,得到人名列表;然后利用已得到的人名列表統(tǒng)計各人名在數(shù)據(jù)庫新聞文檔中的 出現(xiàn)頻率;最后利用已得到的人名頻率矩陣計算人名之間的共生關系。這樣就得到了人 物在文本模態(tài)中的共生關系。第二,圖像信息處理。利用已得到的人名列表從維基百科(Wikipedia)上爬取對 應的人物正面圖像。利用人臉檢測技術從中檢測出每個人的人臉部分,然后利用人臉匹 配技術(例如尺度不變特征轉換流SIFT Flow算法)計算新聞人物在新聞圖片中的頻率, 再計算新聞人 物在圖像模態(tài)中的共生關系。利用圖像信息計算共生關系如圖2人臉檢測 和匹配示例所示,首先根據(jù)人名列表(圖2中的(a))從維基百科上爬取包含人臉的圖像, 利用人臉檢測算法檢測出每個圖像中的人臉部分(圖2中的(b))。也對已有的新聞圖像 進行人臉檢測處理,檢測出每幅圖像中的人臉部分(圖2中的(C)),然后采用人臉匹配算 法將人名和新聞圖像中的人臉對應起來(圖2中的實線),從而得到人物在新聞圖像中出 現(xiàn)的頻率矩陣,計算出基于圖像信息的人物共生關系(圖2中的(d))。第三,融合多模態(tài)信息。將利用文本信息和圖像信息得到的共生關系采用線性 加權的形式進行融合,得到基于多模態(tài)信息的共生關系C= (I-Y) XCText+ Y XClms其中C、CTrat和Clmg分別表示多模態(tài)共生關系、文本共生關系和圖像共生關系, Y表示加權系數(shù)。(2)事件關系初始化在事件關系的計算中,本發(fā)明考慮了一篇新聞文檔的標題、摘要和正文的不同 重要性。一般而言,一篇新聞文檔分為三部分標題、摘要和正文。標題是全文中心思 想的凝結,集中體現(xiàn)了全文的主旨,對全文信息的貢獻最大。摘要包含了全文的主要部 分。針對一個事件而言,摘要部分一般包含了該事件的人物、時間、地點和事件的簡短 說明。正文部分是對標題和摘要的詳細說明,提供給讀者更多的細節(jié)信息。因此,本發(fā) 明采用線性加權的形式計算兩篇新聞文檔之間的相似關系S = α X Stltle+ β X Ssummary+ (1-α-β) X Stext其中S、S·、Ssummaiy和Stext分別表示兩篇新聞文檔之間的相似性、這兩篇新聞 文檔標題之間的相似性、這兩篇新聞文檔摘要之間的相似性和這兩篇新聞文檔正文之間 的相似性,α和β表示加權系數(shù)。(3)多關系概率矩陣分解的關系挖掘為了更好地挖掘新聞人物與新聞事件之間或其內部的各種潛在關系,本發(fā)明提出了一種融合多關系的概率矩陣分解模型(Multi-correlationProbabilistic Matrix Factorization,簡寫為MPMF)。該模型如圖3多關系概率矩陣分解模型的實例中所示, 下面對圖3做詳細描述假設具有m個人物,η個事件。R、C和S分別表示事件-人物關系矩陣、人 物共生關系矩陣和事件相似矩陣。采用矩陣分解的思想挖掘潛在的高質量的特征空間, 即采用PtE近似R。R和C共享一個矩陣因子——潛人物特征空間P ; R和S也共享一 個矩陣因子——潛在事件特征空間Ε。X和Z是對應的系數(shù)矩陣;下面公式中i、q表示 新聞人物對應的索引號,j、k表示新聞事件對應的索引號;#表示高斯分布。假設事 件-人物、人物-人物和事件-事件關系的近似誤差分別服從均值為0、方差為σ〗、和 「1的高斯分布,則有
權利要求
1.利用計算機的基于多媒體分析的新聞人物檢索方法,其特征在于包括步驟如下 步驟Si:利用計算機提取新聞圖像,用自然語言處理技術提取出新聞文檔的標題、時間、網站、摘要和正文以及對應的網址,提取出圖像的網址和圖像對應的文本信息, 并去除重復文檔和從新聞文檔中提取出任命,為后續(xù)工作提供數(shù)據(jù)支持;步驟S2:多模態(tài)融合的關系初始化基于步驟Sl提供的數(shù)據(jù),一是統(tǒng)計人物在事 件中出現(xiàn)的頻率,采用二值關系作為人物-事件的初始關系,即人物在事件中出現(xiàn)則二 者的關系為1,否則為0; 二是利用當前新聞網頁的文本信息和圖像信息計算人物之間的 關系,利用統(tǒng)計語言處理技術統(tǒng)計新聞人物在新聞文本中的共生關系,以及利用人臉識 別技術統(tǒng)計新聞人物在新聞圖片中的共生關系,將這兩種共生關系線性加權作為新聞人 物的初始關系;三是利用一篇新聞文檔的標題、摘要和正文部分的不同重要性;對一篇 文檔而言,標題是最重要的,摘要次之,最后是正文;分別統(tǒng)計文檔的標題、摘要和正 文的相似關系,然后將這三種相似關系分別賦予不同的權重進行加權,得到的結果作為 新聞文檔之間的初始關系;步驟S3:關系重構基于步驟S2計算出來的人物-事件、人物-人物以及事件-事 件的初始關系,采用綜合多種關系的概率矩陣分解模型挖掘出潛在的人物特征矩陣和潛 在的事件特征矩陣,利用得到的潛在矩陣對人物_事件、人物-人物和事件-事件關系進 行重構;在矩陣分解的過程中,并通過矩陣之間共享因子將事件-人物、人物-人物和事 件-事件這三種關系矩陣無縫地結合起來,最后利用通過優(yōu)化目標函數(shù)得到矩陣因子重 構和細化關系矩陣,挖掘出潛在的關系;步驟S4 根據(jù)用戶提交的查詢關鍵詞和已重構出來的關系對新聞人物和新聞事件按 照與查詢關鍵詞的相關性進行排序;步驟S5:檢索結果瀏覽界面用戶向計算機提交的人物名字為檢索關鍵詞,提供了 一個以查詢人物為中心的關系視圖和一個相關新聞事件列表視圖,將檢索結果反饋給用 戶。
2.如權利要求1所述利用計算機的基于多媒體分析的新聞人物檢索方法,其特征在 于,采用多模態(tài)信息計算人物之間的關系方法,綜合利用所述新聞網頁中的文本信息和 圖像信息,分別計算人物在文本、圖像中的關系,并將這兩種模態(tài)信息中的關系組合。
3.如權利要求1所述利用計算機的基于多媒體分析的新聞人物檢索方法,其特征在 于,所述事件關系的計算是考慮所述一篇文檔的標題、摘要和正文的不同重要性,分別 計算文檔之間的這三部分的相似性,并將這三部分相似性的線性組合作為事件之間的相 似性。
4.如權利要求1所述利用計算機的基于多媒體分析的新聞人物檢索方法,其特征在 于,基于多種關系概率矩陣分解模型挖掘潛在的關系,在矩陣分解過程當中,通過矩陣 之間的共享因子矩陣將這三種關系矩陣無縫地結合起來,同時綜合了三種關系矩陣挖掘 潛在的人物特征矩陣和事件特征矩陣。
5.如權利要求1所述利用計算機的基于多媒體分析的新聞人物檢索方法,其特征在 于,所述以查詢人物為中心的關系視圖的節(jié)點是查詢、與查詢最相關的前10個新聞人物 和前10個新聞事件;該關系視圖中不但包含了新聞人物之間的社會網絡圖,即最相關的 前10個新聞人物之間的關系以及與查詢的關系,還包含了最相關的前10個新聞事件之間的關系以及與查詢的關系。
6.如權利要求1所述利用計算機的基于多媒體分析的新聞人物檢索方法,其特征在 于,在所述相關新聞事件列表視圖中,每一個相關事件都提供了該事件的標題、圖片、 簡短摘要、最相關的前3個新聞人物以及最相關的前3個新聞事件,用戶通過點擊每一個 新聞事件的標題來瀏覽該事件的全文。
全文摘要
本發(fā)明是一種利用計算機的基于多媒體分析的新聞人物檢索方法,包括對新聞圖像做數(shù)據(jù)預處理;多模態(tài)融合人物關系初始化;事件關系初始化,提出了多關系的概率矩陣分解模型挖掘潛在的關系,根據(jù)用戶提交的查詢關鍵詞和已重構出來的關系對新聞人物和新聞事件按照與查詢關鍵詞的相關性進行排序;檢索結果瀏覽界面用戶向計算機提交的人物名字為檢索關鍵詞,提供了一個以查詢人物為中心的關系視圖和一個相關新聞事件列表視圖,將檢索結果反饋給用戶。
文檔編號G06F17/30GK102024056SQ20101060583
公開日2011年4月20日 申請日期2010年12月15日 優(yōu)先權日2010年12月15日
發(fā)明者劉靜, 盧漢清, 李澤超 申請人:中國科學院自動化研究所