一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法
【專利摘要】一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法:采集不同物體的多視角彩色視圖,處理后得到各物體的初始視圖集構(gòu)成數(shù)據(jù)庫(kù),將數(shù)據(jù)庫(kù)分為訓(xùn)練庫(kù)與測(cè)試庫(kù);提取數(shù)據(jù)庫(kù)中各物體的初始視圖集的任意視覺(jué)特征,以Zernike矩為視覺(jué)特征,得到各物體的初始特征向量集;選定訓(xùn)練庫(kù)中的一物體的初始視圖集作為檢索目標(biāo),再選取測(cè)試庫(kù)中的一物體的初始視圖集作為比較目標(biāo),將檢索目標(biāo)與比較目標(biāo)作為觀測(cè)數(shù)據(jù),建立圖結(jié)構(gòu),計(jì)算檢索目標(biāo)與比較目標(biāo)之間的相似度;判斷是否將測(cè)試庫(kù)中的所有物體的初始視圖集已作為比較目標(biāo);降序排列檢索目標(biāo)和比較目標(biāo)的相似度,將相似度最高的比較目標(biāo)作為檢索結(jié)果。本發(fā)明消除了采集初始視圖時(shí)對(duì)攝像機(jī)陣列的空間限制。
【專利說(shuō)明】
一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種多視角目標(biāo)檢索方法。特別是涉及一種基于隱含狀態(tài)模型的多視 角目標(biāo)檢索方法。
【背景技術(shù)】
[0002] 我們生活在三維的世界中,人類的視覺(jué)感知具有立體的三維特性。三維目標(biāo)是物 體的多邊形表示,它既可以顯示現(xiàn)實(shí)世界中的實(shí)體,也可以描繪虛構(gòu)的模型。繼聲音、圖像、 視頻之后,三維目標(biāo)作為第四代媒體信息載體吸引了大量研究者的目光。MPEG(Moving Pictures Experts Group/Motion Pictures Experts Group,MPEG)國(guó)際標(biāo)準(zhǔn)中規(guī)定,媒體 數(shù)據(jù)除了包括一維和二維信息之外,還包含三維場(chǎng)景和三維模型等信息[1]。三維模型能夠 多角度地描繪物體的紋理、色彩、形狀信息,而三維場(chǎng)景可以全方位地真實(shí)還原生活場(chǎng)景中 的立體環(huán)境、物體擺放、空間結(jié)構(gòu)等基本設(shè)置。
[0003] 近年來(lái)圖形硬件傳感器、三維建模工具和計(jì)算機(jī)視覺(jué)技術(shù)的飛速發(fā)展,使得三維 信息獲取設(shè)備的價(jià)格穩(wěn)步降低,與此同時(shí)可用性大幅增加,因而大規(guī)模的三維目標(biāo)數(shù)據(jù)庫(kù) 得以應(yīng)用于各科學(xué)領(lǐng)域,如計(jì)算機(jī)輔助制圖 [2]、醫(yī)學(xué)圖像分析[3]、分子生物學(xué)[4]和數(shù)字娛樂(lè) 產(chǎn)業(yè) [5]?;ヂ?lián)網(wǎng)的興起加速了三維模型的傳播,使得人們對(duì)于計(jì)算機(jī)檢索工具的依賴愈加 迫切,并且規(guī)模性和復(fù)雜性日益增強(qiáng)。如何快速有效地從大規(guī)模三維目標(biāo)數(shù)據(jù)庫(kù)中檢索到 符合用戶需求的模型,提高三維模型的檢索效率,最大可能地實(shí)現(xiàn)資源重用已成為時(shí)下最 新研究熱點(diǎn)。
[0004] 多視角目標(biāo)檢索是基于數(shù)字多媒體處理、計(jì)算機(jī)視覺(jué)和模式識(shí)別等技術(shù),借助于 計(jì)算機(jī)處理技術(shù),分析檢索目標(biāo)的多視角視圖并從數(shù)據(jù)庫(kù)中尋找相似物體的過(guò)程。通常多 視角目標(biāo)檢索技術(shù)主要分為兩類:基于模型的檢索和基于視圖的檢索 [6]?;谀P偷臋z索 是直接從虛擬的三維模型中采集其紋理、色彩、體積、形狀等信息構(gòu)造特征描述符,并利用 各級(jí)描述符進(jìn)行相似度比較的方法 [7]。雖然基于模型的檢索能夠綜合利用三維目標(biāo)的局部 和全局有效信息,但巨大的計(jì)算量和繁瑣的步驟限制了它的應(yīng)用。基于視圖的檢索是利用 攝像機(jī)陣列從不同的方位捕捉一系列三維目標(biāo)的二維視圖,而后從多視角視圖中提取視覺(jué) 特征進(jìn)行相似度比較的方法 [8]。此方法原理簡(jiǎn)單、描述特征豐富多樣且具有較高的實(shí)用性。 兩種方法各有利弊,但由于基于視圖的檢索方法操作性強(qiáng),能夠利用成熟的二維圖像處理 技術(shù)而得到更加廣泛的應(yīng)用。
[0005] 多視角目標(biāo)檢索領(lǐng)域目前面臨的主要挑戰(zhàn)為:(1)采集初始視圖時(shí),大多數(shù)方法高 度依賴于攝像機(jī)陣列所在的空間位置與角度,嚴(yán)格的攝像機(jī)陣列限制使得當(dāng)錄制環(huán)境或數(shù) 據(jù)采集方式不符合要求時(shí)無(wú)法進(jìn)行相互檢索,限制了實(shí)際應(yīng)用范圍。(2)大部分基于視圖的 檢索方法只利用了視圖特征間的顯性特征關(guān)系,而忽略了其內(nèi)在的隱含結(jié)構(gòu)與隱含空間上 下文聯(lián)系。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明所要解決的技術(shù)問(wèn)題是,提供一種可以應(yīng)用于任何基于視圖的三維目標(biāo)數(shù) 據(jù)庫(kù)的基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法。
[0007] 本發(fā)明所采用的技術(shù)方案是:一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法,包 括以下步驟:
[0008] 1)利用攝像機(jī)或任意的攝像機(jī)陣列采集不同物體的多視角彩色視圖,經(jīng)過(guò)圖像處 理后得到各物體的初始視圖集構(gòu)成數(shù)據(jù)庫(kù),根據(jù)物體是否具有類別標(biāo)簽將數(shù)據(jù)庫(kù)分為訓(xùn)練 庫(kù)與測(cè)試庫(kù);
[0009] 2)提取數(shù)據(jù)庫(kù)中各物體的初始視圖集的任意視覺(jué)特征,以Zernike矩為視覺(jué)特征, 得到各物體的初始特征向量集;
[0010] 3)選定訓(xùn)練庫(kù)中的一物體的初始視圖集作為檢索目標(biāo),再選取測(cè)試庫(kù)中的一物體 的初始視圖集作為比較目標(biāo),將檢索目標(biāo)與比較目標(biāo)作為觀測(cè)數(shù)據(jù),建立圖結(jié)構(gòu),計(jì)算檢索 目標(biāo)與比較目標(biāo)之間的相似度;
[0011] 4)判斷是否將測(cè)試庫(kù)中的所有物體的初始視圖集已作為比較目標(biāo),是則進(jìn)入下一 步驟,否則返回步驟3);
[0012] 5)降序排列檢索目標(biāo)和比較目標(biāo)的相似度,將相似度最高的比較目標(biāo)作為檢索結(jié) 果。
[0013] 步驟1)所述的處理是,提取各彩色視圖的掩膜,即將目標(biāo)物體與背景分離,保持物 體的彩色性質(zhì)不變,將背景統(tǒng)一為黑色。
[0014]步驟1)中將有類別標(biāo)簽的物體初始視圖集歸為訓(xùn)練庫(kù),將無(wú)類別標(biāo)簽的物體初始 視圖集歸為測(cè)試庫(kù)。
[0015] 步驟3)是給定檢索目標(biāo)的初始視圖集和類別標(biāo)簽,比較目標(biāo)的初始視圖集,計(jì)算 檢索目標(biāo)和比較目標(biāo)的相似度;具體包括:比較目標(biāo)的初始視圖集表示為x={ xl,X2,..., Xj, . . .,xm},其中每張初始視圖Xj由它的特征向量Φ (Xj) eRd表示,d表示特征維度,Zernike 矩的d = 49;用y表示比較目標(biāo)的初始視圖集X的類別標(biāo)簽,y = 1表示和檢索目標(biāo)的初始視圖 集同類,y = 〇表示和檢索目標(biāo)的初始視圖集不同類;對(duì)于比較目標(biāo)的初始視圖集X,進(jìn)一步 定義了隱含狀態(tài)矢量l = {li,l2,.. .lj,...,U表示隱含代表性視圖集,其中l(wèi)j表示第j張初 始視圖對(duì)應(yīng)的隱含代表性視圖,由第ji到第j+w張初始視圖的初始特征向量決定,取值于 隱含狀態(tài)有限集合L;
[0016] 根據(jù)比較目標(biāo)的初始視圖集X,類別標(biāo)簽y和隱含狀態(tài)矢量1,定義以下條件概率模 型:
[0017] Ρ(γ = 1,?|Χ,ρ)=θδ(γ>1>χ;ρ)/ΣΥΜθδ(γ,>1>χ;ρ) (1)
[0018] 其中ρ表示模型參數(shù),而S(y,l,X;p)eR是由模型參數(shù)ρ引導(dǎo)的勢(shì)函數(shù),y'表示所有 比較目標(biāo)的類別標(biāo)簽,得到目標(biāo)函數(shù)P (y = 11X,P),
[0019] p(y = l |χ,ρ)= Σ?θδ(γ>1>Χ;ρ)/ΣΥΜθδ(γ,>1>Χ;ρ) (2)
[0020] 給定新的比較目標(biāo)的初始視圖集X后,把目標(biāo)函數(shù)P(y=l|X,p)作為比較目標(biāo)和檢 索目標(biāo)的相似度;訓(xùn)練集中的第i個(gè)訓(xùn)練物體的初始視圖集t和它的類別標(biāo)簽7 1組成訓(xùn)練對(duì) (Xi,yi),i = l,2,. . .,n,其中Xi={xu,xi2,. . .,xij,. . .,xim},xij表示第i個(gè)訓(xùn)練物體初始視 圖集的第j張初始視圖,表示第i個(gè)訓(xùn)練物體初始視圖集的類別標(biāo)簽,Y表示類別標(biāo)簽 所有可能的取值;利用訓(xùn)練集生成模型參數(shù)Ρ,模型參數(shù)Ρ通過(guò)下式生成:
[0022] S(p)由兩部分構(gòu)成:第一部分為訓(xùn)練物體初始視圖集的對(duì)數(shù)似然函數(shù),第二項(xiàng)為 高斯先驗(yàn)概率的對(duì)數(shù)函數(shù);使用牛頓梯度下降法尋找最優(yōu)模型參數(shù)P$ = argmaXp S(p),第i 個(gè)訓(xùn)練物體初始視圖集對(duì)應(yīng)的似然函數(shù)為:
[0024]計(jì)算Sdp)關(guān)于δ(γ,1,Χ;ρ)的梯度關(guān)系,構(gòu)建無(wú)向圖E,其中每個(gè)頂點(diǎn)表示隱含代 表性視圖,而頂點(diǎn)之間對(duì)應(yīng)的邊〈luh〉表示隱含代表性視圖的潛在空間結(jié)構(gòu),采用以下形 式的3(y,l,X;p):
[0026] 其中P(lj)eRd⑴EL)是關(guān)于第j個(gè)隱含代表性視圖的參數(shù),Φ(&) ·ρ(1」)表示初 始視圖1」和隱含代表性視圖1」之間的聯(lián)系$(7,1」)卽(1盧1^^)表示隱含代表性視圖込 和類別標(biāo)簽y的聯(lián)系;P(y山,11〇61?(1」,1 1{^,^¥)對(duì)應(yīng)于類別標(biāo)簽7下,隱含代表性視圖 lj和lk之間的潛在空間關(guān)系。
[0027] 假設(shè)無(wú)向圖E中的邊形成樹(shù)狀結(jié)構(gòu),利用梯度下降法得到51(0)關(guān)于模型參數(shù)p (ω、Ρ(7,ω和p(y山,lk)的導(dǎo)數(shù),從而得到模型參數(shù)p的取值,再根據(jù)式目標(biāo)函數(shù)P(y = i x,p)計(jì)算比較目標(biāo)和檢索目標(biāo)的相似度。
[0028] 本發(fā)明的一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法,消除了采集初始視圖時(shí) 對(duì)攝像機(jī)陣列的空間限制,可以應(yīng)用于任何基于視圖的三維目標(biāo)數(shù)據(jù)庫(kù)。即當(dāng)檢索目標(biāo)的 初始視圖數(shù)目與數(shù)據(jù)庫(kù)中的物體不一致時(shí),也可以使用本方法進(jìn)行檢索。采用圖模型分析 初始視圖之間的深層結(jié)構(gòu),提高了檢索的準(zhǔn)確率。
【附圖說(shuō)明】
[0029] 圖1是本發(fā)明基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法的流程圖;
[0030]圖2a是本發(fā)明中物體的多視角視圖第一種姿態(tài)的示意圖;
[0031] 圖2b是本發(fā)明中物體的多視角視圖第二種姿態(tài)的示意圖;
[0032] 圖2c是本發(fā)明中物體的多視角視圖第三種姿態(tài)的示意圖;
[0033] 圖2d是本發(fā)明中物體的多視角視圖第四種姿態(tài)的示意圖;
[0034]圖3a是本發(fā)明中物體的初始視圖第一種姿態(tài)的示意圖;
[0035]圖3b是本發(fā)明中物體的初始視圖第二種姿態(tài)的示意圖;
[0036]圖3c是本發(fā)明中物體的初始視圖第三種姿態(tài)的示意圖;
[0037] 圖3d是本發(fā)明中物體的初始視圖第四種姿態(tài)的示意圖;
[0038] 圖4是本發(fā)明中初始視圖集、隱含狀態(tài)和類別標(biāo)簽之間的結(jié)構(gòu)示意圖;
[0039]圖5是六種算法的查準(zhǔn)-查全曲線。
【具體實(shí)施方式】
[0040]下面結(jié)合實(shí)施例和附圖對(duì)本發(fā)明的一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方 法做出詳細(xì)說(shuō)明。
[0041] 研究表明,多視角目標(biāo)的視圖特征與其相似性具有非常密切的關(guān)聯(lián),可以利用圖 模型擬合視圖特征之間的相似度來(lái)判斷兩物體是否匹配。
[0042] 如圖1所示,本發(fā)明的一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法,包括以下步 驟:
[0043] 1)利用攝像機(jī)或任意的攝像機(jī)陣列采集不同物體的多視角彩色視圖,經(jīng)過(guò)圖像處 理后得到各物體的初始視圖集構(gòu)成數(shù)據(jù)庫(kù),根據(jù)物體是否具有類別標(biāo)簽將數(shù)據(jù)庫(kù)分為訓(xùn)練 庫(kù)與測(cè)試庫(kù),將有類別標(biāo)簽的物體初始視圖集歸為訓(xùn)練庫(kù),將無(wú)類別標(biāo)簽的物體初始視圖 集歸為測(cè)試庫(kù)。所述的處理是,提取各彩色視圖的掩膜,即將目標(biāo)物體與背景分離,保持物 體的彩色性質(zhì)不變,將背景統(tǒng)一為黑色。
[0044] 本發(fā)明實(shí)施例首先采集N個(gè)物體的多視角彩色視圖(本例中N = 505)構(gòu)成多視角目 標(biāo)數(shù)據(jù)庫(kù),采集過(guò)程描述如下:將物體置于可旋轉(zhuǎn)工作臺(tái)的中央,一個(gè)KINECT攝像頭(此攝 像頭為本領(lǐng)域所公知,全稱為"ΧΒ0Χ 360第一代KINECT",型號(hào)為1414,美國(guó)專利號(hào)為 6483918和6775708)位于與水平工作臺(tái)夾角60°,距離物體45cm處,當(dāng)物體旋轉(zhuǎn)一圈時(shí)均勻 拍攝360張彩色視圖。
[0045]根據(jù)采集背景為綠色的特點(diǎn),通過(guò)Matlab中的圖像處理工具包提取各彩色視圖的 掩膜,即將目標(biāo)物體與背景分離,保持物體的彩色性質(zhì)不變,將背景統(tǒng)一為黑色,得到各物 體的初始視圖集構(gòu)成數(shù)據(jù)庫(kù)。隨機(jī)挑選1/3的物體標(biāo)上類別標(biāo)簽作為訓(xùn)練庫(kù),其余未標(biāo)記物 體作為測(cè)試庫(kù)。
[0046] 2)提取數(shù)據(jù)庫(kù)中各物體的初始視圖集的任意視覺(jué)特征,以Zernike矩為視覺(jué)特征, 得到各物體的初始特征向量集;
[0047] 特征提取是計(jì)算機(jī)視覺(jué)中的一個(gè)概念,它是指利用計(jì)算機(jī)提取圖像信息,包括紋 理、顏色、形狀等低層視覺(jué)特征和高級(jí)語(yǔ)義特征。Zernike矩特征是在數(shù)字圖像處理領(lǐng)域應(yīng) 用范圍較廣泛的一種主流特征,它既能夠描述圖像的整體形狀,也可以捕捉圖像的微小細(xì) 節(jié),并且具有收縮、平移、旋轉(zhuǎn)不變性,易于識(shí)別。根據(jù)參考文獻(xiàn)[9]和[10]提取各物體初始 視圖的Zernike特征后,物體的每張初始視圖轉(zhuǎn)化為一個(gè)49維的特征向量,初始視圖集的特 征向量構(gòu)成初始特征向量集。
[0048] 3)選定訓(xùn)練庫(kù)中的一物體的初始視圖集作為檢索目標(biāo),再選取測(cè)試庫(kù)中的一物體 的初始視圖集作為比較目標(biāo),將檢索目標(biāo)與比較目標(biāo)作為觀測(cè)數(shù)據(jù),建立圖結(jié)構(gòu),計(jì)算檢索 目標(biāo)與比較目標(biāo)之間的相似度;是給定檢索目標(biāo)的初始視圖集和類別標(biāo)簽,比較目標(biāo)的初 始視圖集,計(jì)算檢索目標(biāo)和比較目標(biāo)的相似度;具體包括:
[0049] 比較目標(biāo)的初始視圖集表示為X={X1,X2, . . .,Xj,. . .,Xm},其中每張初始視圖X油 它的特征向量Φ (xj) e Rd表示,d表示特征維度,Zernike矩的d = 49;用y表示比較目標(biāo)的初 始視圖集X的類別標(biāo)簽,y=l表示和檢索目標(biāo)的初始視圖集同類,y = 〇表示和檢索目標(biāo)的初 始視圖集不同類;對(duì)于比較目標(biāo)的初始視圖集X,進(jìn)一步定義了隱含狀態(tài)矢量1 = (1:, 12, . . .lj, . . .,lm}表不隱含代表性視圖集,其中l(wèi)j表不第j張初始視圖對(duì)應(yīng)的隱含代表性視 圖,由第jl到第j+W張初始視圖的初始特征向量決定,取值于隱含狀態(tài)有限集合L;隱含狀 態(tài)之間的轉(zhuǎn)換傳達(dá)了視角轉(zhuǎn)換的變化過(guò)程,如圖4所示。
[0050] 根據(jù)比較目標(biāo)的初始視圖集X,類別標(biāo)簽y和隱含狀態(tài)矢量1,定義以下條件概率模 型:
[0051] Ρ(γ = 1,?|Χ,ρ)=θδ(γ>1>χ;ρ)/ΣΥΜθδ(γ,>1>χ;ρ) (1)
[0052] 其中ρ表示模型參數(shù),而S(y,l,X;p)eR是由模型參數(shù)ρ引導(dǎo)的勢(shì)函數(shù),y'表示所有 比較目標(biāo)的類別標(biāo)簽,得到目標(biāo)函數(shù)P (y = 11X,P),
[0053] p(y = l |χ,ρ)= Σ?θδ(γ>1>Χ;ρ)/ΣΥΜθδ(γ,>1>Χ;ρ) (2)
[0054] 給定新的比較目標(biāo)的初始視圖集X后,把目標(biāo)函數(shù)P(y=l|X,p)作為比較目標(biāo)和檢 索目標(biāo)的相似度;訓(xùn)練集中的第i個(gè)訓(xùn)練物體的初始視圖集t和它的類別標(biāo)簽7 1組成訓(xùn)練對(duì) (Xi,yi),i = l,2,. . .,n,其中Xi={xu,xi2,. . .,xij,. . .,xim},xij表示第i個(gè)訓(xùn)練物體初始視 圖集的第j張初始視圖,表示第i個(gè)訓(xùn)練物體初始視圖集的類別標(biāo)簽,Y表示類別標(biāo)簽 所有可能的取值;利用訓(xùn)練集生成模型參數(shù)Ρ,模型參數(shù)Ρ通過(guò)下式生成:
[0056] S(p)由兩部分構(gòu)成:第一部分為訓(xùn)練物體初始視圖集的對(duì)數(shù)似然函數(shù),第二項(xiàng)為 高斯先驗(yàn)概率的對(duì)數(shù)函數(shù);使用牛頓梯度下降法尋找最優(yōu)模型參數(shù)P$ = argmaXp S(p),第i 個(gè)訓(xùn)練物體初始視圖集對(duì)應(yīng)的似然函數(shù)為:
[0058]計(jì)算Sjp)關(guān)于δ(γ,1,Χ;ρ)的梯度關(guān)系,構(gòu)建無(wú)向圖E,其中每個(gè)頂點(diǎn)表示隱含代 表性視圖,而頂點(diǎn)之間對(duì)應(yīng)的邊〈lblj〉表示隱含代表性視圖的潛在空間結(jié)構(gòu),采用以下形 式的3(y,l,x;p):
[0060] 其中P(lj)eRd⑴EL)是關(guān)于第j個(gè)隱含代表性視圖的參數(shù),Φ(&) ·ρ(1」)表示初 始視圖1」和隱含代表性視圖1」之間的聯(lián)系$(7,1」)卽(1盧1^^)表示隱含代表性視圖込 和類別標(biāo)簽y的聯(lián)系;P(y山,11〇61?(1」,1 1{^,^¥)對(duì)應(yīng)于類別標(biāo)簽7下,隱含代表性視圖 lj和lk之間的潛在空間關(guān)系。
[0061] 假設(shè)無(wú)向圖E中的邊形成樹(shù)狀結(jié)構(gòu),根據(jù)文獻(xiàn)[16],利用梯度下降法得到SJ0)關(guān) 于模型參數(shù)Ρ(ω、Ρ(7,ω和P(y山,lk)的導(dǎo)數(shù),從而得到模型參數(shù)P的取值,再根據(jù)式目標(biāo) 函數(shù)P(y = l|X,p)計(jì)算比較目標(biāo)和檢索目標(biāo)的相似度。
[0062] 4)判斷是否將測(cè)試庫(kù)中的所有物體的初始視圖集已作為比較目標(biāo),是則進(jìn)入下一 步驟,否則返回步驟3);
[0063] 5)降序排列檢索目標(biāo)和比較目標(biāo)的相似度,將相似度最高的比較目標(biāo)作為檢索結(jié) 果。
[0064] 具體實(shí)例
[0065] 下面結(jié)合具體的實(shí)例,對(duì)實(shí)施例中的方案進(jìn)行實(shí)驗(yàn)驗(yàn)證,詳見(jiàn)下文描述:
[0066] -、數(shù)據(jù)庫(kù)
[0067] 本實(shí)驗(yàn)使用的數(shù)據(jù)庫(kù)為由步驟1)構(gòu)建的基于真實(shí)三維物體的多視角目標(biāo)數(shù)據(jù)庫(kù), 共包含61類505個(gè)物體,如飛機(jī)、鞋子、輪船、牙刷、盆栽、蘋果等。每個(gè)物體有360張初始視 圖,分辨率為640*480。隨機(jī)選擇1/3物體標(biāo)記類別標(biāo)簽作為訓(xùn)練庫(kù),其余作為測(cè)試庫(kù)。
[0068] 二、對(duì)比算法
[0069] 適應(yīng)性聚類算法AVC[n](Adaptive views clustering)是根據(jù)"并不是所有視圖 都具有同等重要性"的原則提出的代表性視圖最優(yōu)選擇方法,它使用了貝葉斯模型改進(jìn)檢 索性能。
[0070] 豪斯多夫距離算法HAUS[12](HaUSdorff)重點(diǎn)關(guān)注不同三維目標(biāo)的多視角視圖的 距離計(jì)算問(wèn)題。它使用豪斯多夫距離來(lái)表示兩個(gè)物體間的相似性關(guān)系。
[0071 ]最近鄰算法NN[13](Nearest Neighbor)類似于豪斯多夫算法,不同的是在計(jì)算特 征空間的距離時(shí)依據(jù)最近鄰距離的原則。
[0072] 加權(quán)二分圖算法冊(cè)61\1[14](Weighted Bipartite Graph Matching)在得到多視角 視圖并提取視覺(jué)特征后,首先通過(guò)層級(jí)化聚類的方法選擇代表性視圖,在此基礎(chǔ)上構(gòu)建了 加權(quán)二分圖并實(shí)現(xiàn)了最佳匹配,依據(jù)所得相似度值降序排列得到檢索結(jié)果。
[0073] 無(wú)攝像機(jī)陣列限制算法CCFV[15] (Camera Constraint-Free View-Based 3D Object Retrieval)提出利用高斯模型擬合相似物體的視圖集之間的匹配關(guān)系,并結(jié)合正 負(fù)匹配樣例提尚檢索性能。
[0074] 三、評(píng)估標(biāo)準(zhǔn)
[0075]不失一般性的,采用查準(zhǔn)-查全曲線(Precision-Recall)來(lái)衡量本發(fā)明方法的檢 索性能。查準(zhǔn)-查全曲線能夠系統(tǒng)地、綜合地評(píng)估一個(gè)多視角目標(biāo)方法的性能優(yōu)劣。當(dāng)查全 查準(zhǔn)曲線與坐標(biāo)軸圍成的面積越大時(shí),檢索性能越優(yōu)異。它以查全率(Recal 1)為橫坐標(biāo),查 準(zhǔn)率(Precision)為縱坐標(biāo),根據(jù)以下公式得到曲線值:
[0077]其中Recall是查全率,Nz是正確檢索對(duì)象的數(shù)量,Nr是所有相關(guān)對(duì)象的數(shù)量。
[0079]其中Precision是查準(zhǔn)率,Naii是所有檢索對(duì)象的數(shù)量。
[0080]四、實(shí)驗(yàn)結(jié)果
[0081 ]六種算法的查全-查準(zhǔn)曲線結(jié)果如圖5所示。當(dāng)查全查準(zhǔn)曲線與坐標(biāo)軸圍成的面積 越大時(shí),檢索性能越優(yōu)異。
[0082]由圖5可知,本方法的檢索性能優(yōu)于其它所有算法。由于和NN、HAUS算法相比,本 算法采用了結(jié)構(gòu)化模型深入探索視圖之間的潛在聯(lián)系,NN和HAUS只是單一地計(jì)算特征向量 之間的距離。和AVC,CCFV算法相比,本發(fā)明的方法采用了圖模型來(lái)模擬多視角視圖之間的 相似性,充分挖掘了它們之間的空間結(jié)構(gòu),而AVC只是簡(jiǎn)單地采用貝葉斯概率模型、CCFV只 是簡(jiǎn)單地采用高斯模型進(jìn)行相似度比較;和WBGM相比,雖然兩者均采用了圖模型,但是WBGM 是基于二分圖匹配的方法,本發(fā)明在圖模型的基礎(chǔ)上引入了隱含變量表示潛在代表性視圖 和潛在空間結(jié)構(gòu)。
[0083] 本領(lǐng)域技術(shù)人員可以理解附圖只是一個(gè)優(yōu)選實(shí)施例的示意圖,上述本發(fā)明實(shí)施例 序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0084] 以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
[0085] 參考文獻(xiàn):
[0086] [1]Jeannin S,Cieplinski L, Ohm J R,et al.Mpeg-7vi sual part of experimentation model version 9.0[J].IS0/IEC JTCl/SC29/ffGllN,2001,3914.
[0087] [2]Bosche F,Haas C T.Automated retrieval of 3D CAD model objects in construction range images[J].Automation in Construction,2008,17(4):499-512.
[0088] [3]Guetat G,Maitre M,Joly L,et al.Automatic 3-D grayscale volume matching and shape analysis[J]. Information Technology in Biomedicine,IEEE Transactions on,2006,10(2):362-376.
[0089] [4]Yeh J S,Chen D Y,Chen B Y,et al .A web-based three-dimensional protein retrieval system by matching visual similarity[J]. Bioinformatics , 2005,21(13):3056-3057.
[0090] [5]ffong H S,Ma B,Yu Z,et al.3-D head model retrieval using a single face view query[J].Multimedia,IEEE Transactions on,2007,9(5):1026-1036.
[0091] [6]Gao Y,Tang J,Hong R,et al.Camera constraint-free view-based 3-d object retrieval[J]. Image Processing,IEEE Transactions on,2012,21(4):2269-2281.
[0092] [7]Li B,Johan H.3D model retrieval using hybrid features and class information[J].Multimedia tools and applications,2013,62(3):821-846.
[0093] [8]ffang M,Gao Y,Lu K,et al.View-based discriminative probabilistic modeling for 3d object retrieval and recognition[J]. Image Processing,IEEE Transactions on,2013,22(4):1395-1407.
[0094] [9]Tahmasbi A,Saki F,Shokouhi S B.Classification of benign and malignant masses based on Zernike moments[J]. Computers in Biology and Medicine,2011,41(8):726-735.
[0095] [10]Tahmasbi A,Saki F,Aghapanah H,et al.A novel breast mass diagnosis system based on Zernike moments as shape and density descriptors[C]// Biomedical Engineering(ICBME),201118th Iranian Conference of.IEEE,2011:100-104.
[0096] [ll]T.F.Ansary,M.Daoudi,and J.-P.Vandeborre,"A bayesian 3_d search engine using adaptive views clustering/'Multimedia,IEEE Transactions on, vol·9,no·1,pp·78-88,2007·
[0097] [12]Y.Gao,J.Tang,H.Li,Q.Dai,and N.Zhang,"View_based 3d model retrieval with probabilistic graph model,',Neurocomputing,νο1·73,ηο·10, pp.1900-1905,2010.
[0098] [ 13]T.M.Cover and P.E.Hart,''Nearest neighbor pattern classification," Information Theory,IEEE Transactions on,vol.13,no.1,pp.21-27,1967.
[0099] [14]Y.Gao,Q.Dai,M.Wang,and N.Zhang,"3d model retrieval using weighted bipartite graph matching,',Signal Processing: Image Communication, vol. 26,no. 1, pp.39-47,2011.
[0100] [15]Gao Y.Camera constraint-free view-based 3-D object retrieval.[J] .IEEE Transactions on Image Processing,2012,21(4):2269-2281.
[0101] [16]Kumar S,Hebert M.Discriminative random fields : Adiscriminative framework for contextual interaction in classification[C]//Computer Vision, 2003.Proceedings.Ninth IEEE International Conference on.IEEE,2003:1150-1157.
[0102] [17]Lafferty J,McCallum A,Pereira F C N.Conditional random fields : Probabilistic models for segmenting and labeling sequence data[J]·2001〇
【主權(quán)項(xiàng)】
1. 一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法,其特征在于,包括以下步驟: 1) 利用攝像機(jī)或任意的攝像機(jī)陣列采集不同物體的多視角彩色視圖,經(jīng)過(guò)圖像處理后 得到各物體的初始視圖集構(gòu)成數(shù)據(jù)庫(kù),根據(jù)物體是否具有類別標(biāo)簽將數(shù)據(jù)庫(kù)分為訓(xùn)練庫(kù)與 測(cè)試庫(kù); 2) 提取數(shù)據(jù)庫(kù)中各物體的初始視圖集的任意視覺(jué)特征,以Zernike矩為視覺(jué)特征,得到 各物體的初始特征向量集; 3) 選定訓(xùn)練庫(kù)中的一物體的初始視圖集作為檢索目標(biāo),再選取測(cè)試庫(kù)中的一物體的初 始視圖集作為比較目標(biāo),將檢索目標(biāo)與比較目標(biāo)作為觀測(cè)數(shù)據(jù),建立圖結(jié)構(gòu),計(jì)算檢索目標(biāo) 與比較目標(biāo)之間的相似度; 4) 判斷是否將測(cè)試庫(kù)中的所有物體的初始視圖集已作為比較目標(biāo),是則進(jìn)入下一步 驟,否則返回步驟3); 5) 降序排列檢索目標(biāo)和比較目標(biāo)的相似度,將相似度最高的比較目標(biāo)作為檢索結(jié)果。2. 根據(jù)權(quán)利要求1所述的一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法,其特征在于, 步驟1)所述的處理是,提取各彩色視圖的掩膜,即將目標(biāo)物體與背景分離,保持物體的彩色 性質(zhì)不變,將背景統(tǒng)一為黑色。3. 根據(jù)權(quán)利要求1所述的一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法,其特征在于, 步驟1)中將有類別標(biāo)簽的物體初始視圖集歸為訓(xùn)練庫(kù),將無(wú)類別標(biāo)簽的物體初始視圖集歸 為測(cè)試庫(kù)。4. 根據(jù)權(quán)利要求1所述的一種基于隱含狀態(tài)模型的多視角目標(biāo)檢索方法,其特征在于, 步驟3)是給定檢索目標(biāo)的初始視圖集和類別標(biāo)簽,比較目標(biāo)的初始視圖集,計(jì)算檢索目標(biāo) 和比較目標(biāo)的相似度;具體包括:比較目標(biāo)的初始視圖集表示為Χ={ Χ1,χ2,...,以,..., xm},其中每張初始視圖xj由它的特征向量Φ (xj) eRd表示,d表示特征維度,Zernike矩的d = 49;用y表示比較目標(biāo)的初始視圖集X的類別標(biāo)簽,y=l表示和檢索目標(biāo)的初始視圖集同 類,y = 〇表示和檢索目標(biāo)的初始視圖集不同類;對(duì)于比較目標(biāo)的初始視圖集X,進(jìn)一步定義 了隱含狀態(tài)矢量l = lh,l2,..山,...山}表示隱含代表性視圖集,其中1謙示第j張初始視 圖對(duì)應(yīng)的隱含代表性視圖,由第ji到第j+w張初始視圖的初始特征向量決定,取值于隱含 狀態(tài)有限集合L; 根據(jù)比較目標(biāo)的初始視圖集X,類別標(biāo)簽y和隱含狀態(tài)矢量1,定義以下條件概率模型: Ρ(γ=1,?|Χ,ρ) = θδ(γ>1>χ;ρ)/ΣΥΜθδ(γ,>1>χ;ρ) (1) 其中Ρ表示模型參數(shù),而3(y ,1 ,X;p) eR是由模型參數(shù)ρ引導(dǎo)的勢(shì)函數(shù),y'表示所有比較 目標(biāo)的類別標(biāo)簽,得到目標(biāo)函數(shù)P(y = l|X,P), P(y=l|X,p)= Σ?θδ(γ>1>χ;ρ)/ΣΥΜθδ(γ,>1>χ;ρ) (2) 給定新的比較目標(biāo)的初始視圖集X后,把目標(biāo)函數(shù)P(y = l|X,P)作為比較目標(biāo)和檢索目 標(biāo)的相似度;訓(xùn)練集中的第i個(gè)訓(xùn)練物體的初始視圖集Xi和它的類別標(biāo)簽又:組成訓(xùn)練對(duì)(Xu yi),i = l,2,. . .,n,其中Xi={xu,xi2,. . .,xij,. . .,xim},xij表示第i個(gè)訓(xùn)練物體初始視圖集 的第j張初始視圖,yieY表示第i個(gè)訓(xùn)練物體初始視圖集的類別標(biāo)簽,Y表示類別標(biāo)簽所有 可能的取值;利用訓(xùn)練集生成模型參數(shù)P,模型參數(shù)P通過(guò)下式生成:S(p)由兩部分構(gòu)成:第一部分為訓(xùn)練物體初始視圖集的對(duì)數(shù)似然函數(shù),第二項(xiàng)為高斯 先驗(yàn)概率的對(duì)數(shù)函數(shù);使用牛頓梯度下降法尋找最優(yōu)模型參數(shù)!/ = arg maXp S(p),第i個(gè)訓(xùn) 練物體初始視圖集對(duì)應(yīng)的似然函數(shù)為:計(jì)算SKp)關(guān)于δ(γ,1,Χ;ρ)的梯度關(guān)系,構(gòu)建無(wú)向圖E,其中每個(gè)頂點(diǎn)表示隱含代表性視 圖,而頂點(diǎn)之間對(duì)應(yīng)的邊〈1^1』〉表示隱含代表性視圖的潛在空間結(jié)構(gòu),采用以下形式的S (y,l,x;p): j j\j, 其中pajeRda盧u是關(guān)于第j個(gè)隱含代表性視圖的參數(shù),φ(&) ·ρ(ω表示初始視 圖和隱含代表性視圖込之間的聯(lián)系;P(y,lj)eR(l盧L,yeY)表示隱含代表性視圖lj和類 別標(biāo)簽y的聯(lián)系;p(y山,11〇[1?(1」,1 1{^,5^¥)對(duì)應(yīng)于類別標(biāo)簽7下,隱含代表性視圖込和 lk之間的潛在空間關(guān)系。 假設(shè)無(wú)向圖E中的邊形成樹(shù)狀結(jié)構(gòu),利用梯度下降法得到51(0)關(guān)于模型參數(shù)ρ(1〇、 ρ (y山)和p(y山,lk)的導(dǎo)數(shù),從而得到模型參數(shù)ρ的取值,再根據(jù)式目標(biāo)函數(shù)P(y=i|x,p)計(jì) 算比較目標(biāo)和檢索目標(biāo)的相似度。
【文檔編號(hào)】G06F17/30GK105868324SQ201610181271
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2016年3月28日
【發(fā)明人】劉安安, 李希茜, 聶為之
【申請(qǐng)人】天津大學(xué)