基于弱匹配概率典型相關性模型的圖像標注方法
【技術領域】
[0001] 本發(fā)明涉及網絡跨媒體信息處理技術領域,特別涉及基于弱匹配概率典型相關性 模型的圖像標注方法。
【背景技術】
[0002] 物聯網、互聯網等擁有豐富的文本、圖像、視頻和音頻等多媒體信息資源,這 些信息資源是異構的,很難直接發(fā)現它們之間的關聯,典型相關性分析(Canonical correlationanalysis,CCA)是一種用來分析兩組隨機變量之間相關性的統(tǒng)計分析工具, 其相關性保持特征己經在理論上得到證明,應用于經濟學、氣象和基因組數據分析等領域, CCA通過統(tǒng)計方法找到兩組異構多模態(tài)特征之間的潛在關系,從底層特征上用統(tǒng)一的模型 將不同類型的多模態(tài)數據關聯起來,同時盡可能地發(fā)現和保持數據間潛在的相關性。
[0003] 典型相關性分析中兩組相關的隨機變量可以來自多種信息來源(如同一個人的 聲音和圖像),也可以是從同一來源的信息中抽取的不同特征(如圖像的顏色特征和紋理 特征),但訓練數據必須一對一嚴格匹配,很多原因造成這種嚴格匹配的訓練數據難以獲 得,如多傳感器采集系統(tǒng)中傳感器采樣頻率不同步或傳感器故障,會造成不同通道采集來 的數據不同步或丟失某一通道數據;單模態(tài)數據比較容易獲得,但人工匹配卻非常地費時 費力,實際中,面對的多模態(tài)數據經常是只有少量一對一嚴格匹配,其余大量數據未匹配, 稱之為弱匹配多模態(tài)數據。
[0004] 面向弱匹配多模態(tài)數據的典型相關性分析有兩種基本的方法:丟棄未匹配數據, 只使用典型相關性分析處理嚴格匹配的多模態(tài)數據;根據特定準則,匹配多模態(tài)數據,但這 兩種方法都不可能獲得理想的結果。
【發(fā)明內容】
[0005] 針對現有技術的不足,本發(fā)明提出一種基于弱匹配概率典型相關性模型的圖像標 注方法及系統(tǒng)。
[0006] 本發(fā)明提出一種基于弱匹配概率典型相關性模型的圖像標注方法,包括:步驟1, 獲取圖像數據庫中已標注圖像與未標注圖像,分別提取所述已標注圖像與所述未標注圖像 的圖像特征和文本特征,生成已匹配樣本集合和未匹配樣本集合,所述已匹配樣本集合包 括已標注圖像特征集合與已標注文本特征集合,所述未匹配樣本集合包括未標注圖像特征 集合與未標注文本特征集合;
[0007] 步驟2,根據所述已匹配樣本集合與所述未匹配樣本集合,訓練所述弱匹配概率典 型相關性模型;
[0008] 步驟3,通過所述弱匹配概率典型相關性模型,對待標注圖像進行標注。
[0009] 所述的基于弱匹配概率典型相關性模型的圖像標注方法,所述弱匹配概率典型相 關性模型的公式為:
[0010]
[0011]
r · J- ·· ·ρ ' · '''p 1 ·
[0012]其中,
i表示完整的觀察樣本集合,包含了匹配 和未匹配樣本,Np為成對觀察樣本集合的樣本數量
5其中每一 個樣本4 丨代表一個維向量,
.,表不未匹配樣本集 合,其中Xp與相互獨立生成。,假設樣本之間相互獨立,其極大似然值L(θ),P(?;0) 服從概率典型相關性分析模型,p(4岣和分別表示未匹配樣本集合硭匕卜忙^和 =丨(4)丨_+1的概率分布。
[0013] 所述的基于弱匹配概率典型相關性模型的圖像標注方法,所述已匹配樣本集合通 過概率典型相關性分析模型計算4和4 s:
[0014] 所述的基于弱匹配概率典型相關性模型的圖像標注方法,對應所述未匹配樣本集 合
,W和4通過以下公式獲得:
[0015]
[0016]
[0017] 其中對于未匹配樣本集合
和讀則分別由隱變量 彳和4通過線性變換1和12附加高斯噪聲ε郴ε2獲得,ΦηΦ2,Φ2分別表示隨 機變量xJPX2觀察樣本集合的協方差和均值。
[0018] 所述的基于弱匹配概率典型相關性模型的圖像標注方法,通過以下公式獲取所述 弱匹配概率典型相關性模型中成對樣本的投影:
[0019]
[0020]
[0021] 其中,E(#),丨構成了成對樣本(《)在SemiPCCA隱空間的典型投影,%和 A表示線性變換矩陣,^和ε2表示高斯噪聲,私,A和A分別表示隨機變量xJPx2 觀察樣本集合的協方差和均值。
[0022] 本發(fā)明還提出一種基于弱匹配概率典型相關性模型的圖像標注系統(tǒng),包括:獲取 已匹配樣本集與未匹配樣本集模塊,用于獲取圖像數據庫中已標注圖像與未標注圖像,分 別提取所述已標注圖像與所述未標注圖像的圖像特征和文本特征,生成已匹配樣本集合和 未匹配樣本集合,所述已匹配樣本集合包括已標注圖像特征集合與已標注文本特征集合, 所述未匹配樣本集合包括未標注圖像特征集合與未標注文本特征集合;
[0023] 訓練模型模塊,用于根據所述已匹配樣本集合與所述未匹配樣本集合,訓練所述 弱匹配概率典型相關性模型;
[0024] 標注模塊,用于通過所述弱匹配概率典型相關性模型,對待標注圖像進行標注。
[0025] 所述的基于弱匹配概率典型相關性模型的圖像標注方法,所述弱匹配概率典型相 關性模型的公式為:
^--1 ;=/Vp-r! A--iVp^.I·
[0026]
[0027]
[0028] 其中,
=t表示完整的觀察樣本集合,包含了匹配 和未匹配樣本,Νρ為成對觀察樣本集合的樣本數量,
》其中每一 個樣本X丨(4^代表一個mi(1?)維向量:
I表不未匹配樣本集 合,其中文與if?相互獨立生成,假設樣本之間相互獨立,其極大似然值L(Θ),4 服從概率典型相關性分析模型,Ρ^;0)和分別表示未匹配樣本集合 的概率分布。
[0029] 所述的基于弱匹配概率典型相關性模型的圖像標注方法,所述已匹配樣本集合通 過概率典型相關性分析模型計算蛛i和<。
[0030] 所述的基于弱匹配概率典型相關性模型的圖像標注方法,對應所述未匹配樣本集 名
#和;ci通過以下公式獲得:
[0031]
[0032] ......
[0033] 其中對于未匹配樣本集〇
,.卻和_4則分別由隱變量 <和4通過線性變換W#W2附加高斯噪聲ε郴ε2獲得,ΦηΦ2,Φ2分別表示隨 機變量xJPX2觀察樣本集合的協方差和均值。
[0034] 所述的基于弱匹配概率典型相關性模型的圖像標注方法,通過以下公式獲取所述 弱匹配概率典型相關性模型中成對樣本的投影:
[0035]
[0036]
[0037] 其中,E(z>;'),E(^)構成了成對樣本:在SemiPCCA隱空間的典型投影,#(和 略表示線性變換矩陣,ε^Ρε2表示高斯噪聲,免:,#2,A和爲分別表示隨機變量&和^ 觀察樣本集合的協方差和均值。
[0038] 由以上方案可知,本發(fā)明的優(yōu)點在于:
[0039] 本發(fā)明關注于各模態(tài)內部的全局結構,模型參數的估計受到了未匹配樣本的影 響,而未匹配樣本則揭示了各模態(tài)樣本空間的全局結構;
[0040] 在人工弱匹配多模態(tài)數據集上的實驗表明,本發(fā)明可以有效克服傳統(tǒng)CCA和PCCA 在匹配樣本不足的情況下出現的過擬合問題,取得了很好的效果;
[0041] 基于本發(fā)明的圖像自動標注方法,同時使用標注圖像及其關鍵詞和未標注圖像學 習視覺模態(tài)和文本模態(tài)之間的關聯,從而能更準確地對未知圖像進行標注。
【附圖說明】