專利名稱:利用形狀進(jìn)行目標(biāo)表示與檢索的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于利用形狀對(duì)圖像中的目標(biāo)進(jìn)行表示的方法和設(shè)備,特別在檢索中使用。本發(fā)明還涉及用于利用形狀表示法對(duì)圖像中的目標(biāo)進(jìn)行檢索的方法和設(shè)備。
背景技術(shù):
眾所周知,利用出現(xiàn)在圖像中的目標(biāo)的表示來存儲(chǔ)靜止或者視頻圖像,例如在圖像庫(kù)中。在檢索方法中使用這些表示使得圖像包含供以后要恢復(fù)的令人感興趣的目標(biāo)。這些表示可以基于目標(biāo)的各種不同的特征包括色彩、紋理和形狀。
已知有許多方法用于表示圖像中目標(biāo)的形狀。已知的方法包括鏈?zhǔn)骄幋a(chain coding)、四樹法(quad-tree)和曲率比例空間表示法(curvature scale space representation)。
為了在圖像檢索系統(tǒng)中進(jìn)行檢索,用戶通過給系統(tǒng)提供被搜尋目標(biāo)的草圖或圖像,或者選擇一幅存儲(chǔ)在系統(tǒng)中目標(biāo)的視圖(view)來輸入查詢。然后,該系統(tǒng)導(dǎo)出或獲得該查詢目標(biāo)的一個(gè)表示并且通過適當(dāng)?shù)钠ヅ渌惴▽⒃摬樵儽硎九c存儲(chǔ)在數(shù)據(jù)庫(kù)中的表示進(jìn)行比較。將最接近的匹配表示在顯示單元上。
在大多數(shù)情況下,出現(xiàn)在視頻圖像中的目標(biāo)是三維真實(shí)目標(biāo)在二維圖像平面上的投影。所以,出現(xiàn)在圖像中目標(biāo)的二維形狀或外形依賴于諸如觀察位置、觀察角度以及拍攝裝置和光學(xué)系統(tǒng)參數(shù)等因素。因此,目標(biāo)將具有與不同的觀察視圖相關(guān)的不同的外形。
已知的圖像數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)缺點(diǎn)是具有不同外形的一個(gè)目標(biāo)的不同的視圖被處理成了不同的目標(biāo)。作為結(jié)果,例如,如果用戶輸入一個(gè)基于目標(biāo)A的前視圖的查詢,并且該目標(biāo)A只出現(xiàn)在來自后視圖和側(cè)視圖的視頻序列中,結(jié)果無法成功匹配并且無法恢復(fù)該目標(biāo)。
發(fā)明內(nèi)容
本發(fā)明提供了一種對(duì)出現(xiàn)在數(shù)字圖像中的目標(biāo)進(jìn)行表示的方法,該方法包括導(dǎo)出對(duì)應(yīng)于該目標(biāo)的多個(gè)不同的二維視圖的表示。
本發(fā)明還提供了一種匹配目標(biāo)的方法,該方法包括通過處理對(duì)應(yīng)于目標(biāo)圖像的信號(hào)來輸入查詢和將該查詢與目標(biāo)的不同視圖的多個(gè)表示進(jìn)行比較,以找到最接近的一個(gè)匹配或一些匹配。
下面將參照以下附圖描述本發(fā)明的實(shí)施方案,其中圖1是根據(jù)本發(fā)明的實(shí)施方案的系統(tǒng)的方框圖;圖2是展示如何獲得針對(duì)一個(gè)目標(biāo)的描述符的示意圖;圖3是展示如何獲得針對(duì)目標(biāo)的描述符的流程圖;圖4是展示用于檢索的設(shè)備和方法示意圖;圖5是展示檢索方法的流程圖。
具體實(shí)施例方式
圖1展示了一個(gè)根據(jù)本發(fā)明的實(shí)施方案的系統(tǒng)。該系統(tǒng)包括控制單元2諸如用于控制系統(tǒng)運(yùn)行的計(jì)算機(jī)、與控制單元2相連接的用于顯示包括圖像和文本的輸出的顯示單元4例如監(jiān)視器、以及用于給控制單元2輸入指令的指示裝置6例如鼠標(biāo)。該系統(tǒng)還包括存儲(chǔ)多個(gè)視頻序列的數(shù)字版本的圖像數(shù)據(jù)庫(kù)8以及存儲(chǔ)描述符信息的描述符數(shù)據(jù)庫(kù)10,這將在下文中針對(duì)出現(xiàn)在存儲(chǔ)圖像數(shù)據(jù)庫(kù)8中的視頻序列中的每一個(gè)的目標(biāo)進(jìn)行更詳細(xì)的描述。圖像數(shù)據(jù)庫(kù)8和描述符數(shù)據(jù)庫(kù)10均與控制單元2相連接。
在該實(shí)施方案中,系統(tǒng)的單元(element)在單個(gè)一位置(例如圖像庫(kù))上被提供,在該位置上系統(tǒng)的組成部分被永久地鏈接。
參照?qǐng)D2和圖3將對(duì)根據(jù)本發(fā)明的實(shí)施方案的目標(biāo)的描述符的導(dǎo)出方法進(jìn)行描述。將針對(duì)一個(gè)具有相對(duì)簡(jiǎn)單形狀的的目標(biāo),目前情況下是一個(gè)圓柱形目標(biāo)對(duì)該方法進(jìn)行描述。
在該實(shí)例中,該圓柱形目標(biāo)在存儲(chǔ)在圖像數(shù)據(jù)庫(kù)8中的視頻序列中出現(xiàn)二次。參照?qǐng)D2,第一次出現(xiàn)時(shí)該目標(biāo)外形對(duì)應(yīng)視圖1,該視圖是一個(gè)側(cè)視圖,第二次出現(xiàn)時(shí)該目標(biāo)的外形對(duì)應(yīng)于視圖3,該視圖是側(cè)視圖和俯視圖。
現(xiàn)在參照?qǐng)D3對(duì)該方法的步驟進(jìn)行描述。
數(shù)據(jù)庫(kù)索引器(database indexer)識(shí)別二個(gè)外形屬于同一個(gè)目標(biāo)以及該三維目標(biāo)對(duì)應(yīng)的外形是一個(gè)圓柱形(步驟10)。對(duì)于視圖1和視圖3中的每一個(gè),采用曲率比例空間(CSS)表示來導(dǎo)出形狀描述符(步驟20)。另外,該數(shù)據(jù)庫(kù)索引器選擇任意另外的被認(rèn)為代表目標(biāo)的視圖,即使它們不在被考慮的視頻序列中出現(xiàn)(步驟30)。在該實(shí)例中,選擇視圖2即該圓柱體的俯視圖作為代表。也獲得了該視圖的CSS表示(步驟40)。
Farzin Mokhtarian,Sadegh Abbassi,Josef Kittler等人的“通過曲率比例空間進(jìn)行加強(qiáng)和有效的形狀索引”大不列顛機(jī)器版本大會(huì)會(huì)議錄,53頁-62頁,愛丁堡,英國(guó),1996年(“Robust andEfficient Shape Indexing through Curvature Scale Space”FarzinMokhtarian,Sadegh Abbassi,Josef Kittler,Proc.BritishMachine Vision Conference,pp.53-62,Edinburgh,UK,1996)一文對(duì)曲率比例空間表示進(jìn)行了描述并且結(jié)合在此作為參考。簡(jiǎn)要說來,形狀外形的曲率表示是采用對(duì)曲線平滑來進(jìn)行的。該曲線被考慮成許多的不同的演化階段。更具體而言,在演化的每一個(gè)階段的曲率函數(shù)中確認(rèn)曲率的零交叉。通過將這些來自所有演化步驟的零交叉組合得到一個(gè)曲率零交叉圖。該圖的一個(gè)軸對(duì)應(yīng)σ,它代表曲線的演化參數(shù)并且另一個(gè)軸對(duì)應(yīng)曲線的弧長(zhǎng)參數(shù)υ。那么形狀由圖形中的輪廓線最大值的位置表示。
除了該目標(biāo)的代表視圖的CSS形狀表示,還獲得了一個(gè)獨(dú)立于該目標(biāo)視圖的全局三維形狀參數(shù)(步驟50)。在該實(shí)例中,該全局參數(shù)是目標(biāo)在現(xiàn)實(shí)生活中的體積。該體積可能已知,或者參照出現(xiàn)在視頻序列中的其它目標(biāo)可以大致估計(jì),例如可以大致估計(jì)人的外形尺寸。
將全局參數(shù)與該視圖形狀描述符組合,以形成三維目標(biāo)形狀描述符(步驟60)。
對(duì)所有令人感興趣的出現(xiàn)在圖像數(shù)據(jù)庫(kù)8中的圖像中的目標(biāo)可以通過上述方式獲得三維目標(biāo)形狀描述符。根據(jù)任何給定目標(biāo)的復(fù)雜程度來使用該目標(biāo)的視圖的數(shù)目以及這些視圖。有些目標(biāo)在三維目標(biāo)描述符中可能沒有全局參數(shù),例如如果不知道或者不容易導(dǎo)出體積值。每一視圖有一個(gè)參考指針指明它在視頻序列中的哪一幀中出現(xiàn),以及是該幀中的哪一個(gè)目標(biāo),例如,目標(biāo)的視圖可以具有一個(gè)指針指明它出現(xiàn)在第1000幀中并且是第3號(hào)目標(biāo)。
在采用不同形狀表示方法中的其它實(shí)施方案中,該視圖的數(shù)目和特征依賴于所使用的形狀表示。例如,對(duì)由于視圖幾何變化引起的形狀變形不敏感的方法需要較小的視圖數(shù)目。
該描述符數(shù)據(jù)庫(kù)10為存儲(chǔ)在圖像數(shù)據(jù)庫(kù)8中的視頻序列中的目標(biāo)存儲(chǔ)三維目標(biāo)形狀描述符。
現(xiàn)在參照?qǐng)D4和圖5對(duì)在視頻序列中進(jìn)行目標(biāo)檢索的方法進(jìn)行描述。
用戶通過輸入查詢來啟動(dòng)檢索。該查詢通過指示裝置6在顯示單元4上畫出一個(gè)或者更多的形狀外形(步驟62)。在該實(shí)例中,輸入了二個(gè)查詢外形100。這些是查詢視圖。該用戶還輸入了代表他正在檢索的目標(biāo)的體積參數(shù)(步驟64)。
然后,控制單元2對(duì)每一個(gè)查詢視圖導(dǎo)出CSS視圖描述符(步驟66)。
在另一個(gè)實(shí)施方案中,用戶通過選擇一個(gè)查詢形狀或者從由控制單元2在顯示單元4上顯示的形狀菜單中選擇形狀來輸入查詢。在該實(shí)施方案中,有可能在描述符數(shù)據(jù)庫(kù)10中已經(jīng)能夠獲得該視圖描述符。
該查詢體積參數(shù)與該查詢視圖描述符被組合形成一個(gè)三維的目標(biāo)描述符。
然后系統(tǒng)為確定該查詢目標(biāo)描述符與存儲(chǔ)在描述符數(shù)據(jù)庫(kù)10中的目標(biāo)描述符之間的相似性進(jìn)行匹配操作,這在下文中被描述為模型目標(biāo)描述符(model object descriptor)。在描述符數(shù)據(jù)庫(kù)中有選擇器205按照順序選擇每一個(gè)模型目標(biāo)描述符(步驟68)并且對(duì)每一個(gè)目標(biāo)描述符按照其順序進(jìn)行以下步驟。
首先,由比較器200獲得一個(gè)全局相似測(cè)量(global similaritymeasure)GS(步驟70),對(duì)查詢目標(biāo)描述符和模型目標(biāo)描述符使用該全局參數(shù)。在該實(shí)施方案中,通過將查詢體積參數(shù)與模型體積參數(shù)之比作為從數(shù)據(jù)庫(kù)中采用的描述符來導(dǎo)出GS。如果該比位于間隔(1/c,c)中其中c>1,那么認(rèn)為目標(biāo)相似并且GS取值為0。不然的話,GS取值為無窮大。C的值根據(jù)應(yīng)用而定。例如,對(duì)電影片,c=5。
如果至少查詢描述符和模型目標(biāo)描述符中的一個(gè)不具有全局參數(shù)值,那么GS=0。
如果GS≠0那么從該描述符數(shù)據(jù)庫(kù)中選一個(gè)新的模型目標(biāo)描述符;如果GS=0,那么進(jìn)行如下的視圖描述符比較(步驟72)。
利用匹配功能在比較器810中將每一個(gè)查詢視圖描述符與每一個(gè)針對(duì)被考慮的模型目標(biāo)描述符的視圖描述符進(jìn)行比較以導(dǎo)出視圖相似測(cè)量(步驟74)。第i個(gè)查詢視圖描述符與第j模型視圖描述符的比較導(dǎo)致產(chǎn)生一個(gè)視圖相似測(cè)量sij。
更詳細(xì)的描述如下,利用選擇器600選擇該查詢視圖描述符并且利用選擇器700選擇該數(shù)據(jù)庫(kù)視圖描述符。首先,將針對(duì)第一查詢視圖的視圖描述符與來自數(shù)據(jù)庫(kù)的模型目標(biāo)描述符中的每一個(gè)視圖描述符進(jìn)行比較。為每一對(duì)利用合適的匹配算法計(jì)算視圖相似值s。在本實(shí)施方案中,利用在上述Mokhtarian,Abbasi和Kittler一文中所描述的匹配算法計(jì)算視圖相似值s。在使用該具體的相似測(cè)量時(shí),該視圖相似值越小,該匹配就越接近。這導(dǎo)致對(duì)該第一查詢視圖產(chǎn)生一組k個(gè)視圖相似測(cè)量,這里k是被考慮模型目標(biāo)描述符中的視圖描述符的數(shù)目,并且該k個(gè)測(cè)量被存儲(chǔ)在全局和局部相似組合器(combiner)820中。
然后計(jì)算視圖相似值并將其存儲(chǔ)以便采用相似的方式對(duì)第二查詢視圖描述符和來自數(shù)據(jù)庫(kù)的模型視圖描述符進(jìn)行處理,由此得到另外k個(gè)視圖相似測(cè)量。
對(duì)于每一個(gè)查詢視圖,選擇考慮的數(shù)據(jù)庫(kù)描述符值的最小視圖相似值(步驟76)。該最小值是相應(yīng)查詢視圖與被考慮的目標(biāo)描述符中的視圖之一之間最接近匹配的測(cè)量。這導(dǎo)致產(chǎn)生p個(gè)最小視圖相似值,這里p是查詢視圖的數(shù)目。在該實(shí)例中,p=2。
針對(duì)該查詢描述符和被考慮的模型目標(biāo)描述符采用一個(gè)總體相似測(cè)量S作為p個(gè)相似值的中值(median)(步驟78)。它表示該查詢描述符與考慮了所有視圖的模型目標(biāo)描述符之間的匹配接近程度。因此,如果一個(gè)查詢視圖與該數(shù)據(jù)庫(kù)描述符中的一個(gè)視圖緊密地匹配,而其它查詢視圖與數(shù)據(jù)庫(kù)描述符中的任何視圖不緊密地匹配,那么這在S中以一個(gè)中間值反映出來。
對(duì)描述符數(shù)據(jù)庫(kù)8中的每一個(gè)目標(biāo)描述符重復(fù)上述步驟,結(jié)果產(chǎn)生n個(gè)相似測(cè)量S,其中n是該描述符數(shù)據(jù)庫(kù)中的三維目標(biāo)描述符的數(shù)目(步驟80)。然后從表示最接近匹配的最低值開始對(duì)這n個(gè)相似測(cè)量進(jìn)行排序(步驟82)。然后選定m個(gè)最低值,其中m是由用戶選定或者控制單元的設(shè)置所確定的一個(gè)值,并且在顯示單元4上顯示來自對(duì)應(yīng)于包括該目標(biāo)的m個(gè)視頻序列中的每一個(gè)的圖像(步驟84)。
根據(jù)本發(fā)明,將單個(gè)目標(biāo)的多個(gè)視圖進(jìn)行存儲(chǔ),以形成一個(gè)完整的或者準(zhǔn)完整的外形形狀的描述。如果僅存儲(chǔ)被認(rèn)為對(duì)于恢復(fù)是重要的視圖,那么該表示可以準(zhǔn)完整的。例如,對(duì)典型的存儲(chǔ)正片的數(shù)據(jù)庫(kù),只將汽車的前、后和俯視圖作為統(tǒng)一的表示來存儲(chǔ),但是沒有將汽車的底視圖存儲(chǔ),因?yàn)椴豢赡懿捎迷撘晥D作為查詢。
根據(jù)本發(fā)明的系統(tǒng)可以提供給,例如圖像庫(kù)。另一種情況,該數(shù)據(jù)庫(kù)與系統(tǒng)控制單元的距離可以很遠(yuǎn),該數(shù)據(jù)庫(kù)通過臨時(shí)連接如電話線或者互聯(lián)網(wǎng)與控制單元相連接??梢栽谟谰么鎯?chǔ)或者便攜式數(shù)據(jù)存儲(chǔ)介質(zhì)諸如CD-ROM或者DVD中提供圖像和描述符數(shù)據(jù)庫(kù)。
所述系統(tǒng)的部件諸如選擇器和比較器可以以軟件或者硬件的形式提供。盡管對(duì)本發(fā)明以計(jì)算機(jī)系統(tǒng)的形式進(jìn)行了描述,但是它可以以其它的形式實(shí)施,例如采用專用芯片。
雖然給出了表示二維形狀目標(biāo)的方法以及計(jì)算表示2個(gè)形狀之間相似值的方法的具體實(shí)例,但是可以采用任何適合的這種方法。
構(gòu)成完整或者準(zhǔn)完整的形狀描述的各種目標(biāo)視圖可以由例如制片商提供。例如,在影片中包括一輛汽車,制片商可以安排拍攝20張不同的汽車視圖供在數(shù)據(jù)庫(kù)中對(duì)影片標(biāo)注索引使用。另一種情況,可以在目標(biāo)的所有不同的視圖之間按照順序提供鏈接使得可以找到該視圖,并且當(dāng)包括了該目標(biāo)的第一幅視圖的數(shù)據(jù)時(shí),例如,可以提供不出現(xiàn)在該序列中的任何有用視圖的形狀。
例如,本發(fā)明還可以用于出于檢驗(yàn)或者過濾的目的而進(jìn)行的圖像匹配。
本發(fā)明可以應(yīng)用于單一圖像,以及按照?qǐng)D像順序的圖像,諸如來自影片或者視頻圖像的圖像,或者以某種方式相關(guān)聯(lián)的圖像集,諸如位于相同網(wǎng)頁上的圖像。
權(quán)利要求
1.通過處理對(duì)應(yīng)于圖像或圖像序列的信號(hào)來檢索圖像或圖像序列中的目標(biāo)的一種方法,該方法包括以下步驟以一個(gè)目標(biāo)的至少一個(gè)二維外形的形式輸入查詢,和導(dǎo)出查詢目標(biāo)的描述符;或以至少一個(gè)二維目標(biāo)的描述符的形式輸入查詢;將所述查詢描述符與存儲(chǔ)的用于圖像中的目標(biāo)的目標(biāo)描述符進(jìn)行比較;和選擇和顯示對(duì)應(yīng)于包含其相應(yīng)描述符與查詢描述符之間的比較指示該查詢與所述目標(biāo)之間的相似程度的目標(biāo)的圖像的至少一個(gè)結(jié)果,其中對(duì)于至少存儲(chǔ)的描述符,一個(gè)目標(biāo)的描述符包括此目標(biāo)的第一外形的視圖描述符和在不同視圖中此目標(biāo)的外形的至少一個(gè)附加視圖描述符,將這兩個(gè)或多個(gè)視圖描述符進(jìn)行相關(guān),以形成目標(biāo)描述符,和/或此描述符包括與此目標(biāo)的形狀和/或大小相關(guān)并且與此目標(biāo)在圖像中的視圖無關(guān)的描述符。
2.如權(quán)利要求1所述的方法,其中對(duì)于存儲(chǔ)的對(duì)應(yīng)于是一個(gè)圖像序列一部分的一個(gè)圖像的描述符,至少一個(gè)附加視圖描述符對(duì)應(yīng)于出現(xiàn)在此圖像序列中的其他地方的此目標(biāo)的視圖。
3.如權(quán)利要求2所述的方法,其中對(duì)應(yīng)于存儲(chǔ)描述符的圖像來自視頻。
4.如任何一項(xiàng)前面權(quán)利要求所述的方法,其中使用曲率比例空間表示法來導(dǎo)出所述視圖描述符。
5.如權(quán)利要求1所述的方法,其中相關(guān)的視圖描述符索引相應(yīng)的圖像或圖像序列。
6.如權(quán)利要求1所述的方法,其中所述視圖無關(guān)的描述符對(duì)應(yīng)于所述目標(biāo)的體積。
7.如權(quán)利要求1所述的方法,其中以一個(gè)目標(biāo)的2個(gè)或多個(gè)二維外形的形式輸入查詢,和其中為每一個(gè)所述外形導(dǎo)出一個(gè)查詢視圖描述符,并且其中比較步驟包括將每一個(gè)所述查詢視圖描述符與每一個(gè)存儲(chǔ)的目標(biāo)描述符中的每一個(gè)視圖描述符進(jìn)行比較,以導(dǎo)出多個(gè)視圖相似值。
8.如權(quán)利要求7所述的方法,其中分析所述視圖相似值,以導(dǎo)出目標(biāo)相似值。
9.如權(quán)利要求1,7或8之一所述的方法,其中至少一些目標(biāo)描述符包括視圖無關(guān)的描述符,所述視圖無關(guān)的描述符與所述目標(biāo)的形狀和/或大小相關(guān)而與所述目標(biāo)的視圖無關(guān),并且其中所述方法包括輸入視圖無關(guān)的查詢值,以及比較步驟包括將所述查詢值與用于存儲(chǔ)的目標(biāo)描述符的視圖無關(guān)的描述符進(jìn)行比較。
10.一種控制裝置,用于導(dǎo)出圖像中的目標(biāo)的表示,所述控制裝置被編程為執(zhí)行如權(quán)利要求1所述的方法。
11.用于導(dǎo)出圖像中的目標(biāo)的表示的一種設(shè)備,包括如權(quán)利要求10所述的控制裝置和用于存儲(chǔ)圖像和/或圖像表示的存儲(chǔ)裝置。
12.如權(quán)利要求11所述的設(shè)備,其中所述存儲(chǔ)裝置是圖像數(shù)據(jù)庫(kù)和/或描述符數(shù)據(jù)庫(kù)。
13.如權(quán)利要求11或12所述的設(shè)備,還包括顯示裝置。
14.如權(quán)利要求11所述的設(shè)備,還包括指示裝置。
全文摘要
本發(fā)明涉及供檢索使用的對(duì)出現(xiàn)在靜止或視頻圖像中的目標(biāo)進(jìn)行表示的方法,其中的目標(biāo)出現(xiàn)在具有第一的二維外形的圖像中,通過對(duì)相應(yīng)圖像的信號(hào)進(jìn)行處理,包括導(dǎo)出該目標(biāo)第一外形的視圖描述符以及導(dǎo)出至少一個(gè)在不同視圖中的目標(biāo)的外形的視圖描述符,并且將二個(gè)或者更多的視圖描述符進(jìn)行關(guān)聯(lián)以形成一個(gè)目標(biāo)描述符。
文檔編號(hào)G06K9/00GK1534521SQ20041003439
公開日2004年10月6日 申請(qǐng)日期2000年4月28日 優(yōu)先權(quán)日1999年4月29日
發(fā)明者M·博貝, M 博貝 申請(qǐng)人:三菱電機(jī)信息技術(shù)中心歐洲有限公司