国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于實體映射的異構(gòu)媒體相似性計算方法及檢索方法

      文檔序號:9911196閱讀:471來源:國知局
      一種基于實體映射的異構(gòu)媒體相似性計算方法及檢索方法
      【技術領域】
      [0001] 本發(fā)明涉及多媒體檢索技術領域,具體涉及一種基于實體映射的異構(gòu)媒體相似性 計算方法,以及相應的異構(gòu)媒體檢索方法。
      【背景技術】
      [0002] 近年來,隨著多媒體技術和互聯(lián)網(wǎng)技術的迅速發(fā)展和普及,互聯(lián)網(wǎng)上的文本、圖 像、視頻和音頻等不同模態(tài)的媒體數(shù)據(jù)呈快速增長趨勢。網(wǎng)絡信息已經(jīng)由傳統(tǒng)的單一文本、 圖像為主的模式逐漸轉(zhuǎn)變?yōu)槲谋?、圖像、視頻以及音頻的異構(gòu)媒體綜合體,并已成為人們傳 播知識、獲取信息和休閑娛樂的主要方式。面對海量且高速增長的異構(gòu)媒體數(shù)據(jù),如何對之 進行有效的管理,使用戶能夠迅速檢索到想要的信息,成為了一個亟待解決的關鍵問題。
      [0003] 現(xiàn)有的檢索方式一般局限于單一媒體檢索,如基于關鍵字的檢索和基于內(nèi)容的圖 像檢索?;陉P鍵字的檢索起源于文本檢索領域,隨后擴展到其他模態(tài)的媒體數(shù)據(jù),主要是 通過關鍵字關聯(lián)索引數(shù)據(jù),用戶提供文本查詢,檢索系統(tǒng)再根據(jù)關鍵字提取準則處理并進 行檢索?;趦?nèi)容的圖像檢索是指用戶提供查詢圖像,檢索系統(tǒng)依據(jù)圖像內(nèi)容在圖像數(shù)據(jù) 庫中檢索出符合查詢條件的結(jié)果,一般需要對媒體數(shù)據(jù)提取特征,以此來描述媒體數(shù)據(jù)的 內(nèi)容。上述兩種檢索方式都限制了用戶的查詢輸入,同時返回結(jié)果也局限于單一媒體數(shù)據(jù), 而用戶常常希望能夠檢索得到所有相關數(shù)據(jù),包括文本、圖像、視頻和音頻等不同模態(tài)的媒 體數(shù)據(jù)。因此,異構(gòu)媒體檢索獲得了研究者的廣泛關注。異構(gòu)媒體檢索提供了靈活的檢索方 式,不限制用戶提交查詢的媒體類型;同時提供了全面的檢索結(jié)果,能夠返回不同模態(tài)的媒 體數(shù)據(jù)。
      [0004] 現(xiàn)有的異構(gòu)媒體相似性計算方法主要有兩類:第一類是基于統(tǒng)一圖模型的方法; 第二類是基于統(tǒng)一特征子空間的方法?;诮y(tǒng)一圖模型的方法主要是利用不同模態(tài)媒體數(shù) 據(jù)的共存關系,將不同模態(tài)媒體數(shù)據(jù)作為結(jié)點,構(gòu)建異構(gòu)媒體的統(tǒng)一圖模型,利用圖模型來 度量不同模態(tài)媒體數(shù)據(jù)之間的相似度。每個媒體對象對應于統(tǒng)一圖模型中的一個結(jié)點,結(jié) 點之間邊的權值表示兩個媒體對象之間的相似度。通過標簽傳遞算法,可以計算出用戶查 詢與所有結(jié)點的相似度。這類方法當用戶查詢在數(shù)據(jù)庫之外時,算法效果會大大降低,需要 依賴人工反饋來提升檢索準確率,自動化程度大大降低。基于統(tǒng)一特征子空間的方法將不 同模態(tài)的特征顯式映射到統(tǒng)一特征子空間,然后在其上進行相似性計算。這類方法一般把 統(tǒng)一特征子空間作為從底層特征到高層特征過渡的統(tǒng)一表示層,但往往沒有明確的語義, 將會較大程度地忽視原始媒體數(shù)據(jù)的語義信息。

      【發(fā)明內(nèi)容】

      [0005] 針對現(xiàn)有技術的不足,本發(fā)明提出了一種基于實體映射的異構(gòu)媒體相似性計算方 法,以及相應的異構(gòu)媒體檢索方法,在底層特征和高層語義之間構(gòu)建細粒度實體層來過渡, 一定程度上減少了高層語義概念的歧義性,同時能夠充分挖掘具有相同語義的異構(gòu)媒體數(shù) 據(jù)之間的關聯(lián)關系,提高異構(gòu)媒體檢索的準確率。
      [0006] 本發(fā)明采用的技術方案如下:
      [0007] -種基于實體映射的異構(gòu)媒體相似性計算方法,用于計算不同模態(tài)媒體數(shù)據(jù)之間 的異構(gòu)媒體相似性,實現(xiàn)異構(gòu)媒體檢索,包括以下步驟:
      [0008] (1)建立包含不同模態(tài)媒體數(shù)據(jù)的異構(gòu)媒體數(shù)據(jù)庫,并標注一定數(shù)量的異構(gòu)媒體 數(shù)據(jù)作為訓練集,提取不同模態(tài)媒體數(shù)據(jù)的特征向量;
      [0009] (2)對訓練集數(shù)據(jù)提取并篩選實體,構(gòu)建實體層,作為從底層特征到高層語義之間 的中間層;
      [0010] (3)利用訓練集的不同模態(tài)媒體數(shù)據(jù)的特征向量以及對應的標注,考慮單一模態(tài) 媒體數(shù)據(jù)以及不同模態(tài)媒體數(shù)據(jù)之間的關聯(lián),學習得到實體映射,進而得到不同模態(tài)媒體 數(shù)據(jù)在實體層的統(tǒng)一表示;
      [0011] (4)在實體層的統(tǒng)一表示基礎上生成語義抽象,得到高層語義概念的概率向量表 示,最終得到異構(gòu)媒體相似性計算結(jié)果。
      [0012] 進一步,上述一種基于實體映射的異構(gòu)媒體相似性計算方法,所述步驟(1):不同 模態(tài)媒體數(shù)據(jù)為文本和圖像,對于文本數(shù)據(jù),提取隱狄利克雷分布(Latent Dirichlet Allocation,LDA)特征向量;對于圖像數(shù)據(jù),提取尺度不變特征變換(Seale-Invariant Feature Transform,SIFT)特征,然后聚類量化得到視覺詞袋特征向量。
      [0013] 進一步,上述一種基于實體映射的異構(gòu)媒體相似性計算方法,所述步驟(2):使用 文本領域的實體抽取工具,對文本數(shù)據(jù)提取得到實體?;谔幱谕粋€異構(gòu)媒體文檔的異 構(gòu)媒體包含相同實體的共存假設,得到與文本對應的其他模態(tài)媒體數(shù)據(jù)的實體。針對訓練 集抽取得到的實體集合,基于工具特性和分類信息篩選出有助于分類的實體,構(gòu)建得到實 體層。
      [0014] 上述一種基于實體映射的異構(gòu)媒體相似性計算方法,所述步驟(3):通過考慮異構(gòu) 媒體關聯(lián)誤差,挖掘具有相同語義的不同模態(tài)媒體數(shù)據(jù)之間的關聯(lián);通過考慮單一媒體重 構(gòu)誤差,保證媒體數(shù)據(jù)與所屬高層語義概念之間的關聯(lián);最終通過迭代優(yōu)化求解得到實體 映射。
      [0015] 上述一種基于實體映射的異構(gòu)媒體相似性計算方法,所述步驟(4):在實體層的統(tǒng) 一表示基礎上,采用邏輯回歸算法進行語義抽象,計算每一個高層語義概念的后驗概率,從 而得到高層語義概念的概率向量表示,以此來計算不同模態(tài)媒體數(shù)據(jù)在高層語義概念上的 相似性。
      [0016] -種采用上述相似性計算方法的基于實體映射的異構(gòu)媒體檢索方法,用于實現(xiàn)異 構(gòu)媒體檢索,包括以下步驟:
      [0017] (1)采用上述相似性計算方法,得到不同模態(tài)媒體數(shù)據(jù)在高層語義概念上的相似 性計算結(jié)果;
      [0018] (2)基于相似性計算結(jié)果大小對查詢結(jié)果進行排序,得到異構(gòu)媒體檢索結(jié)果。
      [0019] 本發(fā)明的效果在于:與現(xiàn)有方法相比,本發(fā)明能夠更好地實現(xiàn)異構(gòu)媒體檢索,同時 取得更高的異構(gòu)媒體檢索準確率。本發(fā)明之所以具有上述效果,其原因在于:本發(fā)明在底層 特征和高層語義之間構(gòu)建了具有明確語義的實體層,以此作為從底層特征到高層語義的過 渡橋梁,減少了高層語義概念的歧義性,同時有效地減小了直接從底層特征到高層語義的 困難;考慮異構(gòu)媒體關聯(lián)誤差和單一媒體重構(gòu)誤差,使得不同模態(tài)媒體數(shù)據(jù)能夠互相促進。 因為實體層的稀疏性,選取線性映射作為實體映射,通過迭代學習得到實體映射,然后采用 邏輯回歸學習得到高層語義概念的概率向量表示,這些簡潔有效的算法在保證效率的基礎 上也能取得較高的準確率。
      【附圖說明】
      [0020] 圖1是本發(fā)明的技術流程圖。
      [0021] 圖2是本發(fā)明的框架示意圖。
      [0022] 圖3是實體層構(gòu)建流程圖。
      【具體實施方式】
      [0023]下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細的描述。
      [0024] 本發(fā)明是一種基于實體映射的異構(gòu)媒體相似性計算方法,其技術流程如圖1所示, 框架示意圖如圖2所示,具體包含以下步驟:
      [0025] (1)建立包含文本和圖像的異構(gòu)媒體數(shù)據(jù)庫,并標注一定數(shù)量的異構(gòu)媒體數(shù)據(jù)作 為訓練集,提取不同模態(tài)媒體數(shù)據(jù)的特征向量。
      [0026] 本實施例中,對于文本數(shù)據(jù),提取隱狄利克雷分布特征向量;對于圖像數(shù)據(jù),提取 尺度不變特征變換特征,然后聚類量化得到視覺詞袋特征向量。本實施例的方法同樣支持 其他特征,例如文本詞袋特征、圖像顏色特征、紋理特征等。此外,本實施例的方法同樣可以 擴展到視頻、音頻等其他模態(tài)的異構(gòu)媒體數(shù)據(jù)。
      [0027] (2)對訓練集數(shù)據(jù)使用實體抽取工具抽取實體,基于工具特性以及分類信息篩選 出有用實體,構(gòu)建得到實體層。
      [0028] 本實施例中,實體層構(gòu)建流程圖如圖3所示,首先采用文本領域的實體抽取工具 Wikifier作為實體抽取工具,對文本數(shù)據(jù)提取得到初始實體。同時,基于處于同一個異構(gòu)媒 體文檔的異構(gòu)媒體包含相同實體的共存假設,得到與文本對應的其他模態(tài)媒體數(shù)據(jù)的實 體。
      [0029]基于工具特性進行實體篩選,根據(jù)Wikifier抽取得到實體的情況,制定了兩條啟 發(fā)式規(guī)則:首先選取預測得分大于一定閾值的實體;其次排除含有數(shù)字的實體,比如抽取得 到的一些特定年份和時間結(jié)點。
      [0030] 基于分類信息進行實體篩選,采用互信息特征選擇算法計算出每個實體關于每個 高層語義概念的互信息,計算方法如下所示:
      [0031]
      [0032] 其中,'\^已{61卜=1,2,...,1^}表示實體變量,1^表示實體數(shù)量;¥(;已{(^卜=1, 2,. . .,nc}表示高層語義概念變量,nc表示概念數(shù)量。當ei = l和ci = l時,可以使用如下公式 計算公式(1)中的概率:
      [0033] P(ei=l,Ci = l)=n(ei = l,Ci=l)/N
      [0034] P(ei=l)=n(ei = l)/N (2)
      [0035] P(ci= 1) =n(ci = 1 )/N
      [0036] 其中,11(61=1,(^ = 1)表示既包含實體61又屬于概念(^的異構(gòu)媒體的數(shù)目;11(61 = 1)表示包含實體ei的異構(gòu)媒體的數(shù)目;n(Cl = l)屬于概念(^的異構(gòu)媒體的數(shù)目,N表示異構(gòu) 媒體的總數(shù)目。
      [0037] 根據(jù)公式(1)和(2)計算得到每個實體關于每個高層語義概念的互信息,再取平均 得到每個實體的互信息,以此來度量實體包含分類信息的大小,最后排序篩選出合適數(shù)目 的實體,構(gòu)建得到實體層。
      [0038] (3)考慮單一模態(tài)媒體數(shù)據(jù)以及不同模態(tài)媒體數(shù)據(jù)之間的關聯(lián),學習得到實體映 射,得到不同模態(tài)媒體數(shù)據(jù)在實體層的統(tǒng)一表示。
      [0039] 考慮到實體層的稀疏性以及檢索效率,本實施例中選取線性映射作為實體映射, 通過考慮異構(gòu)媒體關聯(lián)誤差,挖掘具有相同語義的不同模態(tài)媒體數(shù)據(jù)之間的關聯(lián);通過考 慮單一媒體重構(gòu)誤差,保證媒體數(shù)據(jù)與所屬高層語義概念之間的關聯(lián)。從而可以得到如下 目標函數(shù):
      [0040]
      (3)
      [0041 ] 其中,||?表示弗羅貝尼烏斯范數(shù)(Frobenius norm) Jt和Χι分別表示文本特征和 圖像特征,PdPP:分別表示文本特征和圖像特征對應的實體映射,Ye表示抽取得到的實體層 標簽。||xr4 - f表示異構(gòu)媒體關聯(lián)誤差,||1力-和
      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1