国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法_2

      文檔序號:9922108閱讀:來源:國知局
      取每種媒體類型數(shù)據(jù)的特征向量。
      [0025] 本實施例中,所述的多種媒體類型為文本、圖像、視頻、音頻和3D模型。對于不同媒 體類型的特征向量提取方法如下:文本數(shù)據(jù)是提取隱狄雷克雷分布特征向量;圖像數(shù)據(jù)是 提取詞袋特征向量;視頻數(shù)據(jù)是提取關(guān)鍵幀后,對關(guān)鍵幀提取詞袋特征向量;音頻數(shù)據(jù)是提 取其梅爾頻率倒譜系數(shù)特征向量;3D數(shù)據(jù)是提取其光場特征向量。
      [0026]本方法同樣支持其它種類的特征,例如圖像紋理特征、顏色特征、深度學(xué)習(xí)特征, 視頻運動特征、音頻均方根、3D形狀特征等。
      [0027]用s表示媒體跨媒體訓(xùn)練集中的媒體類型數(shù)量,對于第r種媒體類型,我們定義1^> 為其數(shù)據(jù)個數(shù)。訓(xùn)練集中的每個數(shù)據(jù)有且只有一個語義類別。
      [0028] 定義為第r種媒體類型中的第p個數(shù)據(jù)的特征向量,其表示結(jié)構(gòu)為一XI 的向量,其表示第r種媒體的特征向量維度。
      [0029] 定義xf的語義標(biāo)簽為其表示結(jié)構(gòu)為一個c XI的向量,其中c表示語義類別 的總量。5中有且只有一維為1,其余為0,表示該數(shù)據(jù)的語義類別值為1的列所對應(yīng)的標(biāo) 簽。
      [0030] (2)通過訓(xùn)練集的數(shù)據(jù),同時為所有媒體類型學(xué)習(xí)得到統(tǒng)一特征表示映射矩陣。 [0031] 建立目標(biāo)函數(shù)如下:
      [0033]其中P(1),...,P(S)為跨媒體數(shù)據(jù)集中所有s種媒體類型的映射矩陣,其中上標(biāo)(s) 表示第s種媒體類型的映射矩陣,矩陣的維度為d(s)Xc,可以將原始的特征向量從d(s)維的 空間映射到一個統(tǒng)一的c維的統(tǒng)一空間中。?7表示矩陣P的轉(zhuǎn)置。/即為數(shù)據(jù)通過 映射矩陣產(chǎn)Z變換到統(tǒng)一空間中后的向量(維度為C XI)。1。表示一個C XI的全1列向量,b 為偏移項,用于構(gòu)造線性規(guī)約模型。I |z| If表示矩陣Z的Frobenius范數(shù),其定義為:
      上式中λ表示權(quán)重參數(shù),I |z| |2>1表示矩陣z的12>1范數(shù),其定義為:
      ,最小化I |z| |2>1能夠使得矩陣z具有稀疏性。上述公式的第一項使得 原始數(shù)據(jù)通過映射矩陣,映射到統(tǒng)一空間后的統(tǒng)一特征表示能夠盡可能與其類別標(biāo)簽一 致。另外,通過12>1范數(shù),使得學(xué)習(xí)到的統(tǒng)一特征表示具有稀疏性,起到抑制噪聲的作用。
      [0034] Ω(〇)為跨媒體統(tǒng)一關(guān)聯(lián)超圖規(guī)約項,〇代表所有映射到統(tǒng)一空間后的媒體數(shù)據(jù)。 圖2以4種媒體為例,示意了本發(fā)明的超圖構(gòu)建過程和統(tǒng)一特征表示學(xué)習(xí)過程。下面先介紹 統(tǒng)一關(guān)聯(lián)超圖的構(gòu)建方法:
      [0035] 定義統(tǒng)一關(guān)聯(lián)超圖6={¥4,!1,《},其中¥為點集4為超邊集,!1為關(guān)聯(lián)矩陣,《為超 邊權(quán)重集。V,E,H,w的構(gòu)造方法如下:
      [0036] V:所有映射到統(tǒng)一空間后的媒體數(shù)據(jù)。
      [0037] E:對于V中的任意一點Vi,將其k近鄰使用一條超邊連接,如此構(gòu)成超邊集。
      [0038] H:對于V中的任意一點Vi及E中任意一條超邊ej,若ViEej,貝1J令Hij = l,否則Hij = 0。
      [0039] w:本方法中,令所有超邊的權(quán)重Wj均為1。
      [0040] 我們根據(jù)文南犬"Learning with hypergraphs:Clustering,classification,and embedding"中的推導(dǎo),定義該統(tǒng)一關(guān)聯(lián)超圖G的拉普拉斯:
      [0042]其中,I為單位矩陣,Dv為所有頂點的度數(shù)構(gòu)成的對角矩陣,設(shè)共有p個頂點,則該 矩陣大小為P X P,對角線上的值為對應(yīng)點的度數(shù)。為所有超邊度數(shù)構(gòu)成的對角矩陣,設(shè)共 有q條超邊,則該矩陣大小為qXq,對角線上的值為對應(yīng)超邊的度數(shù)。其它符號上述已經(jīng)介 紹過。
      [0043] 推導(dǎo)得到:
      [0045] 其中,if分別代表第r種、第k種媒體的所有數(shù)據(jù)構(gòu)成的矩陣。以第r種媒 體為例,該矩陣的大小應(yīng)*(1ΜΧηΜ。!^代表在統(tǒng)一關(guān)聯(lián)超圖的拉普拉斯L中,按照對應(yīng)媒 體類型r的行以及對應(yīng)媒體類型k的列所取出的子矩陣。
      [0046] 該目標(biāo)函數(shù)通過迭代求解,經(jīng)過推導(dǎo),迭代求解公式為:
      [0047]
      [0048] 其中,PW代表第r中媒體類型在該輪迭代的結(jié)果,戶⑶代表第」種媒體類型在上一 輪迭代的結(jié)果3(1:)為第r種媒體所有數(shù)據(jù)對應(yīng)的標(biāo)簽構(gòu)成的矩陣。D w為對角矩陣,第i行對
      角線上的值定義為
      。/C1為中心矩陣,定義為 們初始化所有Pw為隨機值,之后每次迭代更新所有的Pw,即可得到對應(yīng)每種媒體類型的 映射矩陣。
      [0049] (3)根據(jù)映射矩陣,將不同媒體類型映射到統(tǒng)一空間,在統(tǒng)一空間中計算媒體數(shù)據(jù) 間的相似性。
      [0050] 該步驟首先將測試集中的每種媒體類型數(shù)據(jù),通過上述學(xué)習(xí)的映射矩陣映射到一 個統(tǒng)一空間中,以獲得多種媒體類型的統(tǒng)一特征表示:
      [0051] 設(shè)我們要求第r種媒體的第p個數(shù)據(jù)的統(tǒng)一特征表示,則。
      [0052] 由于在統(tǒng)一空間中已經(jīng)不存在媒體類型的區(qū)別,在后面的公式中我們省略媒體類 型,僅僅用&代表一個媒體數(shù)據(jù),用yP代表其語義類別, 0[)代表其統(tǒng)一特征表示。
      [0053] 定義一個數(shù)據(jù)屬于概念t的概率為:
      [0055] 其中,Nk(oP)表示數(shù)據(jù)〇p在統(tǒng)一空間中的k近鄰,〇(z) = (l+exp(_z))-1為sigmoid函 數(shù)。
      [0056]定義兩個數(shù)據(jù)的相似性為:
      [0058] (4)任取測試集中的兩種媒體類型A與B,將A中的每個數(shù)據(jù)作為查詢樣例,B為查詢 目標(biāo)進(jìn)行檢索,計算查詢樣例和B中數(shù)據(jù)的相似性,將相似性按照從大到小排序,得到媒體 類型B的相關(guān)結(jié)果列表。
      [0059]該步驟中使用的測試方式是一種媒體到另一種媒體的檢索,跨媒體統(tǒng)一檢索是指 提交任意一種媒體類型作為查詢,返回的結(jié)果是另一種媒體的數(shù)據(jù),并對返回的數(shù)據(jù)進(jìn)行 相似性的排序,用戶所看到的是返回數(shù)據(jù)及其相似性構(gòu)成的列表,按相似度從大到小排序。 用戶提交任意媒體數(shù)據(jù)作為查詢樣例,系統(tǒng)自動從跨媒體數(shù)據(jù)集中檢索出另一種媒體的相 關(guān)結(jié)果。例如提交一段北京大學(xué)的介紹音頻作為查詢,除了能搜索出相關(guān)的音頻結(jié)果以外, 還能自動檢索出所有相關(guān)的文本、圖像、視頻和3D。
      [0060] 下面的實驗結(jié)果表明,與現(xiàn)有方法相比,本發(fā)明基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體 檢索方法,可以取得更高的檢索準(zhǔn)確率。
      [0061] 本實施例中的數(shù)據(jù)集為XMedia異構(gòu)媒體數(shù)據(jù)集進(jìn)行實驗,該數(shù)據(jù)集由文獻(xiàn) "Learning cross-media joint representation with sparse and semi-supervised regularization"(作者X.Zhai,Y.Peng,and J.Xiao,發(fā)表在2014年的IEEE Transactions on Circuits and Systems for Video Technology)提出,包括5種媒體類型:圖像、文本、 視頻、音頻、3D。數(shù)據(jù)量分別為:5000段文本,5000張圖像,1000段音頻,500段視頻和500個3D 模型。該數(shù)據(jù)集包含20個不同的類別,每個類別具有同樣的媒體類型數(shù)量,即250段文本, 250張圖像,50段音頻,25段視頻和25個3D模型。通過隨機選取,將數(shù)據(jù)集的80 %作為訓(xùn)練 集,剩余20%作為測試集。我們測試了以下3種方法作為實驗對比:
      [0062] 現(xiàn)有方法一:文獻(xiàn) "Relations between two sets of variates"(作者 H.Hotelling.)中的典型相關(guān)分析(CCA)方法,可以同時分析兩組變量之間的相關(guān)性,學(xué)習(xí) 出映射子空間使得在子空
      當(dāng)前第2頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1