專利名稱:表示和搜索圖像中的對象的方法和裝置的制作方法
技術(shù)領域:
本發(fā)明涉及用于表示圖像中的對象的方法和裝置,尤其是用于例如在多媒體數(shù)據(jù)庫中搜索的方法和裝置。本發(fā)明還涉及用于搜索圖像中的對象的方法和裝置。
眾所周知,利用出現(xiàn)在圖像中的對象的表示,例如在圖像庫中存儲靜止或視頻圖像。表示用在搜索方法中使包含感興趣的對象的圖像能夠被檢索。表示可能基于對象的各種特征,包括色彩、紋理和形狀。
已知各種用于表示圖像中對象的形狀的方法。已知方法包括鏈碼法、四元樹法以及曲率標度空間表示法。
為了在圖像搜索系統(tǒng)中進行搜索,用戶通過向系統(tǒng)提供所找對象的草圖或圖像,或者通過選擇存儲在系統(tǒng)中的對象的視圖,從而輸入查詢。然后系統(tǒng)導出或獲取查詢對象的表示,并且把查詢表示與存儲在數(shù)據(jù)庫中的圖像表示通過適當?shù)钠ヅ浞椒ㄟM行比較。把最接近的匹配結(jié)果顯示在顯示器上。
在大多數(shù)情況下,出現(xiàn)在視頻圖像中的對象是三維實物在二維像平面上的投影。因而,出現(xiàn)在圖像中的對象的二維形狀或輪廓以及可見對象表面的色彩和紋理取決于諸如觀察位置、觀察角度以及攝相機和光學系統(tǒng)參數(shù)之類的因素。因此,對象具有與不同視圖相關(guān)的諸如輪廓、形狀、色彩、紋理等不同的特征。
將本申請的共同待審的專利申請PCT/GB00/01662通過引用結(jié)合于此,該申請公開了一種用于表示出現(xiàn)在圖像中的對象的方法和裝置,其中,導出對象在多個不同二維視圖中的表示并使之相關(guān)而構(gòu)成對象表示。所述表示最好是對象形狀的表示,但是也可以是例如不同視圖中的色彩或紋理的表示。
當對靜止圖像或電影等中的對象運用上述方法時,會有與圖像相關(guān)的若干形狀或其它描述符來表示與不同視圖相關(guān)的對象特征。但是,通常這些視圖中任何一個在原始圖像中都是可見的。其中一些特征可能與對象的不可見部分相關(guān),而且僅用于描述對象的三維屬性。
如果無法確定對象的多個視圖中哪些可見、哪些不可見,搜索方法就不能準確地找到指定視圖。例如,利用側(cè)視圖搜索描述汽車的圖像,還會找到汽車的頂視圖和正視圖。
本發(fā)明的思想在于使用可見性標記,標明哪些描述符實際上是關(guān)于這些描述符所鏈接到的圖像或電影內(nèi)的可見特征。
因此,本發(fā)明提供一種表示圖像中出現(xiàn)的對象的方法,所述方法包括導出對象的多個視圖描述符,各視圖描述符對應于對象的不同視圖;以及指明何時視圖對應于圖像中出現(xiàn)的對象的一個視圖。
在PCT/GB00/01662中公開的發(fā)明中,形狀描述符與一段多媒體內(nèi)容內(nèi)出現(xiàn)的對象相關(guān)。這些描述符描述了不同視圖中對象的形狀。這些視圖可以是多媒體素材中或者可見的或者不可見的。可見性標記存儲這種可見性信息。
當?shù)玫礁鱾€視圖的可見性數(shù)據(jù)時,所述搜索方法能夠在需要時濾出不可見視圖內(nèi)的對象。
下面參照附圖描述本發(fā)明的實施例,圖中
圖1是根據(jù)本發(fā)明的一個實施例的系統(tǒng)的框圖;圖2是說明視頻序列中對象的表示的示意圖;圖3是說明靜止圖像中對象的表示的示意圖;圖4是說明第一搜索方法的結(jié)果的示意圖;圖5是說明第二搜索方法的結(jié)果的示意圖。
圖1中表示根據(jù)本發(fā)明的實施例的系統(tǒng)。所述系統(tǒng)包括控制單元2,比如用于控制系統(tǒng)操作的計算機;顯示單元4,比如監(jiān)視器,它與控制單元2相連,用于顯示包括圖像和文本的輸出;以及指示裝置6,比如鼠標,用于向控制單元2輸入指令。所述系統(tǒng)還包括圖像數(shù)據(jù)庫8,它存儲多個靜止圖像的數(shù)字形式,并且以視頻序列的形式存儲圖像組;以及描述符數(shù)據(jù)庫10,它存儲關(guān)于圖像數(shù)據(jù)庫8中存儲的靜止圖像和視頻序列的每一個中出現(xiàn)的對象的描述符信息,下文會詳細描述。圖像數(shù)據(jù)庫8和描述符數(shù)據(jù)庫10各連接到控制單元2。
在本實施例中,系統(tǒng)的各要素在單個位置上提供,如圖像庫,其中系統(tǒng)的各部分是永久地鏈接的。
下面描述根據(jù)本發(fā)明的實施例導出對象的描述符的方法。首先,就具有相對簡單形狀的對象(本例中為圓柱形對象)描述本方法。
在本例中,在圖像數(shù)據(jù)庫8中存儲的視頻序列中,圓柱形對象出現(xiàn)兩次。參照圖2,在第一次出現(xiàn)時,對象輪廓對應于視圖1,這是從側(cè)面看的視圖,在第二次出現(xiàn)時,對象輪廓對應于視圖3,這是從側(cè)面上方看的透視圖。
數(shù)據(jù)庫索引器(indexer)識別出這兩個輪廓是同一對象的,并且對應于這些輪廓的三維對象是圓柱體。對于視圖1和視圖3中的每一個,導出采用曲率標度空間(CSS)表示的形狀描述符。而且,數(shù)據(jù)庫索引器選擇被認為是代表該對象的任何附加視圖,即使它們未出現(xiàn)在所考慮的視頻序列中。在本例中,選擇視圖2作為代表,視圖2是從上方看的圓柱體的視圖。還獲取該視圖的CSS表示。
論文“通過曲率標度空間的健壯和有效的形狀索引”(由FarzinMokhtarian,Sadegh Abbassi和Josef Kittler發(fā)表,見于Proc.BritishMachine Vision Conference,第53-62頁,Edinburgh,UK1996)描述了一種曲率標度空間表示的方法,現(xiàn)將其通過引用結(jié)合于此。簡言之,表示形狀的輪廓的曲線通過平滑該曲線而得到演化。在演化的多個不同階段上考慮曲線。更明確地說,在演化的各階段上,在曲率函數(shù)中識別曲率過零點。通過將來自演化的所有階段的過零點組合,得到曲率過零點的曲線圖。該曲線圖的一條軸對應于σ,它表示曲線的演化參數(shù),另一條軸對應于曲線弧長參數(shù)u。形狀則由曲線圖中輪廓的最大值的位置來表示。
對于每個視圖,形成視圖描述符,包括適當?shù)腃SS表示。視圖描述符可包括其他信息,諸如PCT/GB00/01662中描述的全程參數(shù),或者相應可見表面的色彩/紋理屬性。
將視圖形狀描述符組合而形成3D對象形狀描述符。此外,可見性標記與對象描述符相關(guān),指示在視頻序列中的至少一幀中給定視圖是否是可見的。在本實例中,可見性標記構(gòu)成各視圖描述符的一部分。因此,這里,視圖1和視圖3的視圖描述符均包括可見性標記“1”,指示該視圖在視頻的一幀中是可見的,視圖2的視圖描述符具有可見性標記“0”,指示該視圖在任何幀中都不可見。
對于出現(xiàn)在圖像數(shù)據(jù)庫8中的圖像或圖像組中的所有感興趣的對象,以上述方式得到3D對象形狀描述符。
作為另一實例,參照圖3,對圖片中出現(xiàn)的汽車導出三個視圖。對各視圖中的汽車輪廓,按照上述方式獲得包括CSS表示的相應的視圖描述符。第一視圖對應于圖片中的視圖,因而,相關(guān)的視圖描述符具有可見性標記“1”,指明這是一個可見視圖。另兩個視圖的視圖描述符具有可見性標記“0”,指明它們對應于圖片中未示出的視圖。在本例中,當從圖片中抽取輪廓時,確定可見性標記。換言之,如果一個形狀是直接從圖片中抽取的,則它得到可見性標記“1”,但如果該形狀是通過索引器選擇的,則它具有可見性標記“0”。另外,可見性標記可以在后來通過查看來手工添加。
各視圖描述符還具有參考指針,指示它出現(xiàn)在哪個圖像中或者哪個視頻序列中的哪一幀中,還指示它是圖像或幀中的哪個對象,例如,一個對象的視圖可能具有指針,指示它出現(xiàn)在視頻181的幀1000中,它是第3號對象。
描述符數(shù)據(jù)庫10存儲關(guān)于圖像數(shù)據(jù)庫8中存儲的圖像和視頻序列中的對象的3D對象形狀描述符。
在上述實施例中,對于出現(xiàn)在視頻序列中的對象,對整個序列導出一組視圖描述符,并且用視圖描述符來指示相關(guān)視圖是否出現(xiàn)在該序列的至少一幀中。在另一實施例中,分別處理各幀。更具體地說,對出現(xiàn)在幀中的對象導出一組視圖描述符,并且可見性標記指示相關(guān)視圖是否出現(xiàn)在該幀中,而不管它是否出現(xiàn)在該序列的另一幀中。在另一備選實施例中,對出現(xiàn)在視頻序列中的對象導出一組視圖描述符,而且對各幀導出并存儲一組相應的可見性標記。
在搜索圖像中的對象的方法中使用可見性標記,如下所述。
用戶通過輸入查詢發(fā)起搜索。該查詢是利用指示裝置6在顯示單元4上畫出一個或多個形狀輪廓而輸入的。然后,控制單元2對查詢視圖導出CSS視圖描述符。或者,用戶可在由控制單元2在顯示單元4上顯示的形狀菜單中選擇一個或多個查詢形狀而輸入查詢。在這種情況下,描述符數(shù)據(jù)庫10中可能已有視圖描述符。用戶還通過檢查一個框來指示是否搜索應當限制在與查詢視圖相同的視圖中。如果不這樣限定搜索,則基本上按照PCT/GB00/01662中描述的,通過確定查詢對象描述符與描述符數(shù)據(jù)庫10中存儲的對象描述符(下文稱為模型對象描述符)之間的相似性,執(zhí)行搜索和匹配程序。
簡言之,在比較器中,對于所考慮的模型對象描述符,將各個查詢視圖描述符與各個模型視圖描述符相比,使用匹配函數(shù)導出視圖相似性度量。第i個查詢視圖描述符與第j個模型視圖描述符的比較產(chǎn)生視圖相似性度量Si,j。當有一個以上的查詢視圖時,取視圖相似性度量的中值作為對象相似性度量S。
匹配程序產(chǎn)生n個相似性度量S,其中n是描述符數(shù)據(jù)庫中的3D對象描述符的數(shù)量。然后,從指示最接近匹配的最小值開始對n個相似性度量進行排序。然后選擇m個最小值,其中m是用戶選擇的值或者由控制單元的設置所確定的值,而且在顯示單元4上顯示包括對象的相應的m個圖像(其中的一些可以是視頻序列中的圖像)。
如果搜索限制在與查詢視圖相同的視圖,則在搜索過程中濾出不可見模型視圖。這可以通過利用匹配函數(shù)來匹配查詢視圖描述符與模型視圖描述符來完成,其中該模型視圖描述符指明相應的視圖在圖像中是可見的。換言之,當利用匹配函數(shù)計算相似性度量時,具有可見性標記“0”的模型視圖描述符被省去?;蛘?,可以對所有模型視圖描述符計算視圖相似性度量,但是從進一步處理中省去關(guān)于可見性標記為零的模型視圖描述符的結(jié)果?;蛘?,當選擇供顯示的搜索結(jié)果時,可以考慮該可見性標記。當顯示匹配程序的結(jié)果時,在視頻序列的情況下,顯示包含匹配視圖的幀。
圖4表示PCT/GB00/01662中公開的多視圖搜索方法如何尋找和返回同樣形狀但不是與查詢項相同的視圖的結(jié)果。圖5從另一方面說明各視圖描述符內(nèi)的可見性標記如何能幫助返回同樣形狀而且是與查詢項相同的視圖的結(jié)果。
根據(jù)本發(fā)明的系統(tǒng)可以例如設置在圖像庫中。或者,數(shù)據(jù)庫可以遠離系統(tǒng)的控制單元,通過臨時連接(如電話線)或網(wǎng)絡(比如因特網(wǎng))連接到控制單元??梢岳缭谟谰么鎯ζ骰虮銛y式數(shù)據(jù)存儲媒體、如CD-ROM或DVD中設置圖像和描述符數(shù)據(jù)庫。
所述系統(tǒng)的各部件、如選擇器和比較器可以軟件或硬件形式設置。盡管本發(fā)明以計算機系統(tǒng)的形式來描述,但是它可以用其它形式、如利用專用芯片來實現(xiàn)。
已經(jīng)給出表示對象的2D形狀的方法和計算表示兩形狀之間相似性的值的方法的特定實例,但是,可以使用任何適當?shù)倪@類方法。
構(gòu)成完整或準完整形狀描述的對象的各種視圖可以由制片人來提供。例如,在包括汽車的電影中,制片人可以安排拍攝20個不同的汽車場景,用以在數(shù)據(jù)庫中為該電影編索引?;蛘撸梢栽谛蛄兄械膶ο蟮乃胁煌晥D之間設置鏈接,使這些視圖能夠被找到,序列中未出現(xiàn)的任何有用視圖的形狀可以例如在包括對象的第一視圖的數(shù)據(jù)時提供。
本發(fā)明還可用于例如為驗證目的而匹配各對象的圖像,或者用于濾波。
本發(fā)明適用于單個圖像、圖像序列中的圖像(如電影或視頻中的圖像)、或者以某種方式(如在同一網(wǎng)頁上)相聯(lián)系的圖像集。
在上述實施例中,視圖描述符是從不同視圖中的對象形狀導出的。可以從對象的其它特征、比如或者代替形狀或者作為形狀的一部分的色彩或紋理導出。對象的各種特征如形狀、色彩、紋理可以單獨或結(jié)合起來構(gòu)成視圖描述符的基礎,并且視圖描述符可以基于不同視圖的不同特征。
權(quán)利要求
1.一種表示圖像中出現(xiàn)的對象的方法,該方法包括導出所述對象的多個視圖描述符,各個視圖描述符對應于所述對象的不同視圖,所述方法包括為每個視圖描述符指明何時相應的視圖對應于圖像中出現(xiàn)的對象的視圖。
2.如權(quán)利要求1所述的方法,其特征在于包括將標記與每個視圖描述符相聯(lián)系,從而指明相應的視圖是否對應于圖像中出現(xiàn)的對象的視圖。
3.一種表示一組圖像中出現(xiàn)的對象的方法,該方法包括導出所述對象的多個視圖描述符,各個視圖描述符對應于所述對象的不同視圖,所述方法包括為各個視圖描述符指明何時相應的視圖對應于所述一組圖像中出現(xiàn)的對象的視圖。
4.如權(quán)利要求3所述的方法,其特征在于包括將標記與各個視圖描述符相聯(lián)系,從而指明相應的視圖是否出現(xiàn)在所述一組圖像中的至少一個圖像中。
5.如權(quán)利要求3所述的方法,其特征在于包括對于各個視圖描述符,為所述一組圖像中的每個圖像指明相應的視圖是否對應于所述圖像中出現(xiàn)的對象的視圖。
6.如權(quán)利要求3至5中任一個所述的方法,其特征在于,所述一組圖像是圖像序列。
7.如權(quán)利要求6所述的方法,其特征在于,所述圖像序列是來自一段視頻信號或電影。
8.如任一個前述權(quán)利要求所述的方法,其特征在于,至少一個視圖描述符包括相應視圖中的對象的可見特征的表示。
9.如權(quán)利要求8所述的方法,其特征在于,至少一個視圖描述符包括相應視圖中對象的形狀的表示。
10.如權(quán)利要求9所述的方法,其特征在于,所述形狀視圖描述符是利用曲率標度空間表示導出的。
11.如權(quán)利要求8所述的方法,其特征在于,至少一個視圖描述符包括相應視圖中對象的色彩的表示。
12.如權(quán)利要求8所述的方法,其特征在于,至少一個視圖描述符包括相應視圖中對象的紋理的表示。
13.如任何前述權(quán)利要求所述的方法,其特征在于,該方法是用于為搜索的目的而給圖像或圖像集編索引。
14.一種為搜索的目的而給存儲在數(shù)據(jù)庫中的圖像或圖像組編索引的方法,該方法包括識別圖像或圖像組中出現(xiàn)的對象;導出所述對象的多個不同視圖的表示;以及指明何時所表示的視圖對應于圖像中出現(xiàn)的對象的視圖。
15.一種搜索存儲在圖像和圖像組中的查詢對象的方法,所述方法包括輸入查詢;將所述查詢與利用任何前述權(quán)利要求所述的方法導出的存儲圖像的表示相匹配;檢索最接近的匹配,其中所述查詢輸入包括指示所述搜索是否應當限制在表明所述查詢對象在與查詢視圖相同的視圖中的圖像或圖像組。
16.適合于實現(xiàn)如任何前述權(quán)利要求所述的方法的圖像搜索和檢索系統(tǒng)。
17.一種用于實現(xiàn)如權(quán)利要求1至15中任一個所述的方法的計算機程序。
18.被編程以按照權(quán)利要求1至15中任一個所述的方法工作的計算機系統(tǒng)。
19.一種計算機可讀存儲媒體,它存儲用于實現(xiàn)如權(quán)利要求1至15中任一個所述的方法的計算機可執(zhí)行的處理步驟。
全文摘要
一種表示圖像中出現(xiàn)的對象的方法,該方法包括導出所述對象的多個視圖描述符,各個視圖描述符對應于所述對象的不同視圖,并將兩個或兩個以上視圖描述符相聯(lián)系,所述方法包括為各個視圖描述符指示何時相應的視圖對應于圖像中出現(xiàn)的對象的視圖。
文檔編號G06F17/30GK1451128SQ0181232
公開日2003年10月22日 申請日期2001年7月6日 優(yōu)先權(quán)日2000年7月7日
發(fā)明者M·博伯, J·庫珀 申請人:三菱電機株式會社