專利名稱:利用形狀進行目標表示與檢索的方法和裝置的制作方法
技術(shù)領域:
本發(fā)明涉及利用形狀對圖像中的目標進行表示的方法和裝置,特別在檢索中使用。本發(fā)明還涉及利用形狀表示對圖像中的目標進行檢索的方法和裝置。
眾所周知,利用出現(xiàn)在圖像中的目標的表示來存儲靜止或者視頻圖像,例如在圖像庫中。在檢索方法中使用這些表示使得圖像包含供以后要恢復的令人感興趣的目標。這些表示可以基于目標的各種不同的特征包括色彩、紋理和形狀。
已知有許多方法用于表示圖像中目標的形狀。已知的方法包括鏈式編碼(chain coding)、四樹法(quad-tree)和曲率標度表示(curvature scale space representation)法。
為了在圖像檢索系統(tǒng)中進行檢索,用戶通過給系統(tǒng)提供被搜尋目標的草圖或圖像,或者選擇一幅存儲在系統(tǒng)中目標的視圖來輸入查詢。然后,該系統(tǒng)導出或獲得該查詢目標的一個表示并且通過適當?shù)钠ヅ渌惴▽⒃摬樵儽硎九c存儲在數(shù)據(jù)庫中的表示進行比較。將最接近的匹配表示在顯示單元上。
在大多數(shù)情況下,出現(xiàn)在視頻圖像中的目標是三維真實目標在二維圖像平面上的投影。所以,出現(xiàn)在圖像中目標的二維形狀或外形依賴于諸如觀察位置、觀察角度以及拍攝裝置和光學系統(tǒng)參數(shù)等因素。因此,目標將具有與不同的觀察視圖相關的不同的外形。
已知的圖像數(shù)據(jù)庫系統(tǒng)的一個缺點是具有不同外形的一個目標的不同的視圖被處理成了不同的目標。作為結(jié)果,例如,如果用戶輸入一個基于目標A的前視圖的查詢,并且該目標A只出現(xiàn)在來自后視圖和側(cè)視圖的視頻序列中,結(jié)果無法成功匹配并且無法恢復該目標。
本發(fā)明提供了一種對出現(xiàn)在數(shù)字圖像中的目標進行表示的方法,該方法包括導出對應于該目標的多個不同的二維視圖的表示。
本發(fā)明還提供了一種匹配目標的方法,該方法包括通過處理對應于目標圖像的信號,輸入查詢和將該查詢與目標的不同視圖的多個表示進行比較,以發(fā)現(xiàn)最接近的一個匹配或一些匹配。
下面將參照以下附圖描述本發(fā)明的實施方案
圖1是根據(jù)本發(fā)明的實施方案的系統(tǒng)的方框圖;圖2是展示如何獲得針對一個目標的描述符的示意圖;圖3是展示如何獲得針對目標的描述符的流程圖;圖4是展示用于檢索的設備和方法示意圖;圖5是展示檢索方法的流程圖。
圖1展示了一個根據(jù)本發(fā)明的實施方案的系統(tǒng)。該系統(tǒng)包括控制單元2例如用于控制系統(tǒng)運行的計算機、與控制單元2相連接用于顯示包括圖像和文字的輸出的顯示單元4例如監(jiān)視器、以及給控制單元2輸入指令的指示裝置6例如鼠標。該系統(tǒng)還包括存儲多個視頻序列的數(shù)字版本的圖像數(shù)據(jù)庫8以及存儲描述符信息的描述符數(shù)據(jù)庫10,這將在下文中針對出現(xiàn)在存儲圖像數(shù)據(jù)庫中的視頻序列中的每一個的目標進行更詳細的描述。圖像數(shù)據(jù)庫8和描述符數(shù)據(jù)庫10中的每一個數(shù)據(jù)庫都與控制單元2相連接。
在該實施方案中,系統(tǒng)元在一個單一位置例如圖像庫被提供,在該位置上系統(tǒng)部件被永久鏈接。
參照圖2和圖3將對根據(jù)本發(fā)明的實施方案的目標的描述符的導出方法進行描述。將針對一個具有相對簡單形狀的的目標,目前情況下是一個圓柱形目標對該方法進行描述。
在該實例中,該圓柱形目標在存儲在圖像數(shù)據(jù)庫8中的視頻序列中出現(xiàn)二次。參照圖2,第一次出現(xiàn)時該目標外形對應視圖1,該視圖是一個側(cè)視圖,第二次出現(xiàn)時該目標的外形對應于視圖3,該視圖是側(cè)視圖和俯視圖。
現(xiàn)在參照圖3對該方法的步驟進行描述。
數(shù)據(jù)庫索引器(database indexer)認為二個外形屬于同一個目標以及該三維目標對應的外形是一個圓柱形(步驟10)。對于視圖1和視圖3中的每一個,采用曲率標度空間(CSS)表示來導出形狀描述符(步驟20)。另外,該數(shù)據(jù)庫索引器選擇任意另外的被認為能代表目標的視圖,即使它們不在被考慮的視頻序列中出現(xiàn)(步驟30)。在該實例中,選擇視圖2即該圓柱體的俯視圖作為代表。也獲得了該視圖的CSS表示(步驟40)。
Farzin Mokhtarian,Sadegh Abbassi,Josef Kittler等人的“通過曲率標度空間進行加強和有效的形狀指標化”不列顛機器版本大會會議錄,53頁-62頁,愛丁堡,英國,1964年(“Robust andEfficient Shape Indexing through Curvature Scale Space”FarzinMokhtarian,Sadegh Abbassi,Josef Kittler,Proc.BritishMachine Vision Conference,pp.53-62,Edinburgh,UK,1964)一文對曲率標度空間表示進行了描述并且結(jié)合在此作為參考。簡要說來,形狀外形的曲率表示是采用對曲線平滑來進行的。該曲線被考慮成許多的不同的演化階段。更具體而言,在演化的每一個階段的曲率函數(shù)中確認曲率的零交叉。通過將這些來自所有演化步驟的零交叉組合得到一個曲率零交叉圖。該圖的一個軸對應σ,它代表曲線的演化參數(shù)并且另一個軸對應曲線的弧長參數(shù)υ。那么形狀由圖形中的輪廓線最大值的位置表示。
除了該目標的代表視圖的CSS形狀表示,還獲得了一個獨立于該目標視圖的全局三維形狀參數(shù)(步驟50)。在該實例中,該全局參數(shù)是目標在現(xiàn)實生活中的體積。該體積可能已知,或者參照出現(xiàn)在視頻序列中的其它目標可以大致估計,例如可以大致估計人的外形尺寸。
將全局參數(shù)與該視圖形狀描述符組合形成三維目標形狀描述符(步驟60)。
對所有令人感興趣的出現(xiàn)在圖像數(shù)據(jù)庫8中的圖像中的目標可以通過上述方式獲得三維目標形狀描述符。根據(jù)任何給定目標的復雜程度來使用該目標的視圖的數(shù)目以及這些視圖。有些目標在三維目標描述符中可能沒有全局參數(shù),例如如果不知道或者不容易導出體積值。每一視圖有一個參考指針指明它在視頻序列中的哪一幀中出現(xiàn),以及是該幀中的哪一個目標,例如,目標的視圖可以具有一個指針指明它出現(xiàn)在第1000幀中并且是第3號目標。
在采用不同形狀表示方法中的其它實施方案中,該視圖的數(shù)目和特征依賴于所使用的形狀表示。例如,對由于視圖幾何變化引起的形狀變形不敏感的方法需要較小的視圖數(shù)目。
該描述符數(shù)據(jù)庫10為存儲在圖像數(shù)據(jù)庫8中的視頻序列中的目標存儲三維目標形狀描述符。
現(xiàn)在參照圖4和圖5對在視頻序列中進行目標檢索的方法進行描述。
用戶通過輸入查詢來啟動檢索。該查詢通過指示裝置6在顯示單元4上畫出一個或者更多的形狀外形(步驟62)。在該實例中,輸入了二個查詢外形100。這些是查詢視圖。該用戶還輸入了代表他正在檢索的目標的體積參數(shù)(步驟64)。
然后,控制單元2對每一個查詢視圖導出CSS視圖描述符(步驟66)。
在另一個實施方案中,用戶通過選擇一個查詢形狀或者從由控制單元2在顯示單元4上顯示的形狀菜單中選擇形狀來輸入查詢。在該實施方案中,有可能在描述符數(shù)據(jù)庫10中已經(jīng)能夠獲得該視圖描述符。
該查詢體積參數(shù)與該查詢視圖描述符被組合形成一個三維的目標描述符。
然后系統(tǒng)為確定該查詢目標描述符與存儲在描述符數(shù)據(jù)庫10中的目標描述符之間的相似性進行匹配操作,這在下文中被描述為模型目標描述符(model object descriptor)。在描述符數(shù)據(jù)庫中有選擇器205按照順序選擇每一個模型目標描述符(步驟68)并且對每一個目標描述符按照其順序進行以下步驟。
首先,由比較器200獲得一個全局相似測度(global similaritymeasure)GS(步驟70),對查詢目標描述符和模型目標描述符使用該全局參數(shù)。在該實施方案中,通過將查詢體積參數(shù)與模型體積參數(shù)之比作為從數(shù)據(jù)庫中采用的描述符來導出GS。如果該比位于間隔(1/c,c)中其中c>1,那么認為目標相似并且GS取值為0。不然的話,GS取值為無窮大。C的值根據(jù)應用而定。例如,對電影片,c=5。
如果至少查詢描述符和模型目標描述符中的一個不具有全局參數(shù)值,那么GS=0。
如果GS≠0那么從該描述符數(shù)據(jù)庫中選一個新的模型目標描述符;如果GS=0,那么進行如下的視圖描述符比較(步驟72)。
利用匹配功能在比較器810中將每一個查詢視圖描述符與每一個針對被考慮的模型目標描述符的視圖描述符進行比較以導出視圖相似測度(步驟74)。第i個查詢視圖描述符與第j模型視圖描述符的比較導致產(chǎn)生一個視圖相似測度sij。
更詳細的描述如下,利用選擇器600選擇該查詢視圖描述符并且利用選擇器700選擇該數(shù)據(jù)庫視圖描述符。首先,將針對第一查詢視圖的視圖描述符與來自數(shù)據(jù)庫的模型目標描述符中的每一個視圖描述符進行比較。為每一對利用合適的匹配算法計算視圖相似值s。在本實施方案中,利用在上述Mokhtarian,Abbasi和Kittler一文中所描述的匹配算法計算視圖相似值s。在使用該具體的相似測度時,該視圖相似值越小,該匹配就越接近。這導致對該第一查詢視圖產(chǎn)生一組k個視圖相似測度,這里k是被考慮模型目標描述符中的視圖描述符的數(shù)目,并且該k個測度被存儲在全局和局部相似組合器(combiner)820中。
然后計算視圖相似值并將其存儲以便采用相似的方式對第二查詢視圖描述符和來自數(shù)據(jù)庫的模型視圖描述符進行處理,由此得到另外k個視圖相似測度。
對于每一個查詢視圖,選擇最小的視圖相似值給被考慮數(shù)據(jù)描述符(步驟76)。該最小值是各自查詢視圖與被考慮的目標描述符中的視圖中的一個之間匹配最為接近的測度。這導致產(chǎn)生p個最小視圖相似值,這里p是查詢視圖的數(shù)目。在該實例中,p=2。
針對該查詢描述符和該被考慮模型目標描述符采用一個總相似測度S作為p個相似值的媒介(步驟78)。它表示該查詢描述符與考慮了所有視圖的模型目標描述符之間的匹配接近程度。因此,如果一個查詢視圖與該數(shù)據(jù)庫描述符中的一個視圖緊密地匹配而其它查詢視圖不能與數(shù)據(jù)庫描述符中的任何視圖緊密地匹配,那么這在S中以一個中間值反映出來。
對描述符數(shù)據(jù)庫8中的每一個目標描述符重復上述步驟,結(jié)果產(chǎn)生n個相似測度S,其中n是該描述符數(shù)據(jù)庫中的三維目標描述符的數(shù)目(步驟80)。然后從指明最接近的最低值開始對這n個相似測度進行排序(步驟82)。然后選定m個最低值,其中m是由用戶選定或者控制單元裝置確定的一個值,并且在顯示單元4上顯示來自對應于包括該目標的m個視頻序列中的每一個的圖像(步驟84)。
根據(jù)本發(fā)明,將一個單一目標的多個視圖進行存儲以形成一個完整的或者半完整的外形形狀的描述。如果僅存儲被認為是對恢復重要的視圖,那么該表示可以半完整的。例如,對典型的存儲正片的數(shù)據(jù)庫,只將汽車的前、后和俯視圖作為統(tǒng)一的表示來存儲,但是沒有將汽車的底視圖存儲,因為不可能采用該視圖作為查詢。
根據(jù)本發(fā)明的系統(tǒng)可以提供給,例如圖像庫。另一種情況,該數(shù)據(jù)庫與系統(tǒng)控制單元的距離可以很遠,該數(shù)據(jù)庫通過臨時連接如電話線或者互聯(lián)網(wǎng)與控制單元相連接。可以在永久存儲或者便攜式數(shù)據(jù)存儲介質(zhì)諸如,CD-ROM或者DVD中提供圖像和描述符數(shù)據(jù)庫。
所述系統(tǒng)的部件諸如選擇器和比較器可以以軟件或者硬件的形式提供。盡管對本發(fā)明以計算機系統(tǒng)的形式進行了描述,但是它可以以其它的形式實施,例如采用專用芯片。
雖然給出了表示二維形狀目標的方法以及計算表示2個形狀之間相似值的方法的具體實例,但是可以采用任何適合的這種方法。
構(gòu)成完整或者半完整的形狀描述的各種目標視圖可以由例如制片商提供。例如,在影片中包括一輛汽車,制片商可以安排拍攝20張不同的汽車視圖供在數(shù)據(jù)庫中對影片標注索引使用。另一種情況,可以在目標的所有不同的視圖之間按照順序提供鏈接使得可以找到該視圖,并且當包括了該目標的第一幅視圖的數(shù)據(jù)時,例如,可以提供不出現(xiàn)在該序列中的任何有用視圖的形狀。
例如,本發(fā)明還可以用于出于檢驗或者過濾的目的而進行的圖像匹配。
本發(fā)明可以應用于單一圖像,以及按照圖像順序的圖像,諸如來自影片或者視頻圖像的圖像,或者以某種方式相關聯(lián)的圖像集,諸如位于相同網(wǎng)頁上的圖像。
權(quán)利要求
1.對出現(xiàn)在圖像中的目標進行表示的一種方法,其中通過處理對應于該圖像的信號,出現(xiàn)在圖像中的目標具有一個第一的二維外形,該方法包括導出一個該目標的第一外形的視圖描述符并且導出至少一個在不同視圖中的該目標外形的另外的視圖描述符,并且將這二個或者更多的視圖描述符進行關聯(lián)以形成目標描述符。
2.如權(quán)利要求1所述的方法,其中的圖像是一序列圖像的一部分,并且至少一個另外的對應于出現(xiàn)在該圖像序列中的其它地方的目標的視圖的視圖描述符。
3.如權(quán)利要求1或者權(quán)利要求2所述的方法,其中的圖像來自視頻。
4.如權(quán)利要求1至3中的任何一項權(quán)利要求所述的方法,其中通過曲率標度空間表示導出該視圖描述符。
5.如權(quán)利要求1至4中的任何一項權(quán)利要求所述的方法,還包括導出一個該目標的描述符,該目標描述符與該目標的形狀和/或者尺寸相關,而該目標描述符與該目標在該圖像中的視圖無關。
6.一種對出現(xiàn)在圖像中的目標進行表示的方法以便對用于檢索的各個圖像或者圖像序列標注索引,該方法包括通過處理對應于這些外形的信號,導出對應于該目標在不同視圖中的多個二維外形的多個視圖描述符,并且將這些視圖描述符進行關聯(lián)以形成一個對各個圖像或者圖像序列標注索引的目標描述符。
7.一種對出現(xiàn)在靜止或者視頻圖像中的目標的表示方法,該方法包括導出一個描述符,該描述符與該目標的形狀和/或者尺寸相關,而與該目標在該圖像中的視圖無關。
8.如權(quán)利要求5或者權(quán)利要求7所述的方法,其中所述與視圖無關的描述符對應于該目標的體積。
9.通過處理對應于該圖像的信號進行圖像中目標檢索的一種方法,該方法包括以至少一個目標的二維外形的形式輸入查詢,導出該查詢目標的描述符,將所述查詢描述符與根據(jù)權(quán)利要求1至8中的任何一項所述的方法導出的存儲的圖像中的目標描述符進行比較,并且對至少一個對應于包含目標的圖像的結(jié)果進行選擇和顯示,各個描述符與該查詢描述符之間的比較為該目標指明了該查詢與所述目標之間的相似程度。
10.如權(quán)利要求9所述的并根據(jù)權(quán)利要求1至6中任何一項的方法,其中以目標的2個或者更多的二維外形的形式輸入查詢,并且其中為每一個所述外形導出一個查詢視圖描述符,并且其中的比較步驟包括將每一個所述查詢視圖描述符與每一個在每一個存儲的目標描述符中的視圖描述符進行比較以導出多個視圖相似值。
11.如權(quán)利要求9所述的方法,其中對視圖相似值進行分析以導出目標相似值。
12.如權(quán)利要求9至11中任何一項所述的方法,其中至少這些目標描述符中的一些包括根據(jù)權(quán)利要求5、權(quán)利要求7或權(quán)利要求8所述的方法導出的與視圖無關的描述符,并且其中該方法包括輸入一個與視圖無關的查詢值,以及該比較步驟包括將該查詢值同該存儲的目標描述符的與該視圖無關的描述符進行比較。
13.如權(quán)利要求9至12中的任何一項所述的方法,其中使用該查詢的目標外形的曲率標度空間表示導出該查詢描述符。
14.通過處理對應于所述圖像的信號來表示出現(xiàn)在圖像中目標的一種方法,該方法包括導出對應于該目標的不同二維視圖的表示。
15.一種適合實施權(quán)利要求1至14中任何一項所述的方法的圖像檢索和恢復系統(tǒng)。
16.一種用于實施權(quán)利要求1至14中任何一項所述的方法的計算機程序。
17.一種被編程的根據(jù)權(quán)利要求1至14中任何一項所述的方法運行的計算機系統(tǒng)。
18.一種計算機可讀的存儲介質(zhì),存儲用于實施權(quán)利要求1至14中任何一項所述的方法的計算機可執(zhí)行過程步驟。
19.一種用于檢索在靜止或視頻圖像中的目標的方法,該方法基本上如前文參照附圖所述。
20.一種基本上如前文參照附圖所述的計算機系統(tǒng)。
全文摘要
本發(fā)明涉及供檢索使用的對出現(xiàn)在靜止或視頻圖像中的目標進行表示的方法,其中的目標出現(xiàn)在具有第一的二維外形的圖像中,通過對相應圖像的信號進行處理,包括導出該目標第一外形的視圖描述符以及導出至少一個在不同視圖中的目標的外形的視圖描述符,并且將二個或者更多的視圖描述符進行關聯(lián)以形成一個目標描述符。
文檔編號G06T1/00GK1359499SQ0080978
公開日2002年7月17日 申請日期2000年4月28日 優(yōu)先權(quán)日1999年4月29日
發(fā)明者M·博貝 申請人:三菱電機信息技術(shù)中心歐洲有限公司