專利名稱:采用多加權(quán)特征的多媒體檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及采用多個描述符的多媒體檢索方法。具體地說,本發(fā)明涉及根據(jù)用于以用戶要求格式進行查詢的描述符的組合,通過使用自動選擇最佳加權(quán)數(shù)據(jù),提供更高級檢索功能的多媒體檢索方法。
在相關(guān)技術(shù)中,一種典型多媒體檢索技術(shù)是使用用戶界面,利用用戶界面,在用戶每次進行多媒體檢索時,用戶可以指定他或她希望使用的描述符數(shù)。
通過指定各描述符的重要性,例如色彩為50%,紋理為30%,用戶可以進行多媒體檢索。
在相關(guān)技術(shù)中,另一個多媒體檢索技術(shù)的例子是提供與用戶所查找圖像相似的圖像的反饋數(shù)據(jù),并自動計算此描述符的權(quán)重。然而,此方法存在缺陷,因為只在用戶每次查詢提供反饋時應(yīng)用權(quán)重。
從另一方面來說,最近試圖使檢索所需的數(shù)據(jù)實現(xiàn)標(biāo)準(zhǔn)化,例如,MPEG-7等等。這樣,使得對描述符的加權(quán)數(shù)據(jù)實現(xiàn)標(biāo)準(zhǔn)化成為可能,并將標(biāo)準(zhǔn)數(shù)據(jù)添加到多媒體數(shù)據(jù)。在這種情況下,可以將各種數(shù)據(jù)的加權(quán)數(shù)據(jù)始終應(yīng)用于查詢,而與用戶請求無關(guān),這樣就成功實現(xiàn)高級檢索功能。
由此可見,可以在標(biāo)準(zhǔn)數(shù)據(jù)內(nèi)指定大量描述符,因為它指定在可能應(yīng)用范圍內(nèi)需要的所有種類的描述符。然而,實際上,只有部分描述符可以用于根據(jù)應(yīng)用程序進行查詢和檢索。
例如,用于解釋視頻片段的描述符可以包括如文本數(shù)據(jù)一類的各種語義數(shù)據(jù)和如色彩直方圖一類的低級描述符。
由于考慮到在這種情況下視頻用于多媒體并且包括靜止圖像描述符(例如色彩數(shù)據(jù)、紋理數(shù)據(jù)和形狀數(shù)據(jù)),所以一些低級描述符尤其可以用于描述運動數(shù)據(jù),因為從某種意義上說視頻圖像是靜止圖像的集合。
如果多媒體檢索與用于對視頻片段與其它分段進行比較的應(yīng)用程序有關(guān),則可以使用包括運動數(shù)據(jù)、色彩數(shù)據(jù)、紋理數(shù)據(jù)和形狀數(shù)據(jù)在內(nèi)的所有數(shù)據(jù)類型。
然而,如果多媒體檢索與對視頻片段與靜止圖像的比較過程有關(guān),則不需要運動數(shù)據(jù)。
因此,實際用于多媒體檢索的描述符可以根據(jù)各應(yīng)用程序而有所不同。在這種情況下,可以改變各描述符之間的相對權(quán)重。
舉另一個實例,假定包括在視頻片段內(nèi)的描述符是色彩直方圖、代表性色彩數(shù)據(jù)以及紋理直方圖,則應(yīng)用程序1使用所有三個描述符,而應(yīng)用程序2僅使用色彩直方圖和紋理直方圖。
然后,對于應(yīng)用程序1,在使用所有3個描述符(色彩直方圖、代表性色彩數(shù)據(jù)以及紋理直方圖)情況下,可以將特定多媒體數(shù)據(jù)的各描述符的權(quán)重分別指定為0.5、0.3和0.2。同時,對于應(yīng)用程序2,由于對于相同數(shù)據(jù)不使用色彩直方圖,所以其余兩個描述符的相對權(quán)重為0.3和0.2,即將代表性色彩數(shù)據(jù)和紋理直方圖分別轉(zhuǎn)換并指定為0.6和0.4。
然而,實際上上述方法并不是那樣應(yīng)用的,因為只有當(dāng)視頻片段內(nèi)的所有描述符互相無關(guān)并且互相正交時,才適于使用上述方法。不幸地是,在許多情況下,并非如此。
即,不同于紋理直方圖,色彩直方圖和代表性色彩數(shù)據(jù)在色彩方面互相之間關(guān)系密切。
因此,當(dāng)象在具有關(guān)于色彩的兩種數(shù)據(jù)(色彩直方圖和代表性色彩數(shù)據(jù))和一種紋理數(shù)據(jù)的應(yīng)用程序1中那樣,使用所有3個描述符(色彩直方圖、代表性色彩數(shù)據(jù)以及紋理直方圖)時,與僅采用一種色彩數(shù)據(jù)的應(yīng)用程序2比較,出乎意料,實際上可以使用色彩數(shù)據(jù)。
假定這3個描述符的權(quán)重分別是0.5、0.3和0.2。與以0.8∶0.2(色彩∶紋理)的比例使用色彩相關(guān)數(shù)據(jù)(2)和紋理相關(guān)數(shù)據(jù)(1)相似,使用所有3個標(biāo)識符非常恰當(dāng)。
正如對應(yīng)用程序2說明的那樣,如果代表性色彩數(shù)據(jù)和紋理直方圖根據(jù)重要性以0.6∶0.4的比例組合,則與使用所有3個描述符的情況比較(色彩∶紋理=0.8∶0.2),使用更少的色彩數(shù)據(jù)。
因為上述原因,為了提高代表性色彩數(shù)據(jù)的重要性,使用所有3個描述符比使用諸如代表性色彩數(shù)據(jù)和紋理直方圖的兩種描述符要好。
因此,如果使用多個組合描述符,根據(jù)各描述符的組合,可以應(yīng)用互相之間具有不同比例的最佳權(quán)重。
根據(jù)各種可能的描述符組合,使用不同描述符組合的多媒體數(shù)據(jù)內(nèi)的權(quán)重數(shù)據(jù)尤其應(yīng)該獨立具有適當(dāng)?shù)臋?quán)重數(shù)據(jù),因而可以實現(xiàn)高效檢索。
再回到此實例,當(dāng)根據(jù)色彩直方圖、代表性色彩數(shù)據(jù)和紋理直方圖中的代表性色彩數(shù)據(jù)和紋理直方圖的組合,實現(xiàn)多媒體檢索時,可以認為組合的權(quán)重依賴于色彩和紋理,并且色彩數(shù)據(jù)的權(quán)重被設(shè)置得相對較高,即0.8∶0.2或者0.7∶0.3。因此,為了獲得更高級的檢索功能,重要地是使描述符的各組合具有適當(dāng)?shù)臋?quán)重數(shù)據(jù)。
與此同時,根據(jù)查詢意圖,即使相同的多媒體數(shù)據(jù)同樣可以產(chǎn)生不同的檢索結(jié)果。
例如,如果進行查詢是為了查找小船圖像,則檢索過程會搜索任何有小船和不必要的海面背景的圖像,然而,如果進行查詢是為了查找具有海面背景的圖像,則檢索過程最后會得到任何一種沒有小船的海面背景,也可能是它們二者的組合。
同樣,如果利用特定查詢過程來檢索相同數(shù)據(jù),結(jié)果會隨查詢的種類(意向、著眼點)而變化。然而,如果利用不同的權(quán)重來表示查詢著眼點,則可以獲得預(yù)期的結(jié)果。
因此,為了獲得與查詢一致的正確檢索結(jié)果,多媒體數(shù)據(jù)應(yīng)該具有多個權(quán)重特征。此外,多媒體數(shù)據(jù)還應(yīng)該提供一種通過弄明白用戶希望查詢什么來對查詢著眼點自動選擇正確權(quán)重的方法,以及一種用于提取多個權(quán)重的方法。
因此,本發(fā)明的一個目的是提供一種為了獲得更高級檢索功能采用多加權(quán)特征的多媒體檢索方法。
本發(fā)明的另一個目的是提供一種用于檢索多媒體對象的多媒體檢索媒介。
為了實現(xiàn)上述目的,提供了一種采用多個用于檢索對象的描述符的多媒體檢索方法,該方法包括如下步驟根據(jù)用于查詢的多個描述符中各描述符的組合,對描述符權(quán)重進行分析;并將此權(quán)重添加到多媒體描述符;以及根據(jù)進行多媒體檢索時,用于查詢的描述符組合,根據(jù)與描述符組合相應(yīng)的選擇權(quán)重,進行檢索。
在此,通過利用相應(yīng)描述符組合對圖像進行檢索的檢索結(jié)果,或者通過由用戶給定的有關(guān)相似對象的反饋與事先定義的任何相似對象的組群數(shù)據(jù)相結(jié)合,根據(jù)描述符組合對權(quán)重進行分析。
在上述描述符組合內(nèi)含有的其它描述符當(dāng)中,當(dāng)描述符提高相似對象之間的相似性時,就獲得更高的權(quán)重。
根據(jù)在多媒體檢索期間用于進行查詢的描述符組合來檢索與描述符組合相應(yīng)的選擇權(quán)重的步驟進一步包括如下步驟利用包括在多媒體描述符內(nèi)的每個權(quán)重,根據(jù)在相似對象或檢索結(jié)果的組群數(shù)據(jù)中所做的選擇后,對用戶提供反饋的相似對象的相似性進行測度;以及根據(jù)在所測得的其它相似性中最高相似性的選擇權(quán)重進行檢索。
在根據(jù)在多媒體檢索期間進行查詢使用的描述符組合的相應(yīng)權(quán)重進行檢索的步驟中,當(dāng)用戶選擇特定描述符進行檢索時,只有對從包括在多媒體描述符內(nèi)的多個權(quán)重中選擇的描述符分析權(quán)重用于進行檢索。
此外,在根據(jù)在多媒體檢索期間進行查詢使用的描述符組合的相應(yīng)權(quán)重進行檢索的步驟中,當(dāng)用戶指定查詢對象和檢索對象時,只有對根據(jù)檢索對象和查詢對象種類預(yù)先指定的描述符進行權(quán)重分析用于進行檢索。
此外,為了利用多個描述符檢索多媒體對象,根據(jù)本發(fā)明的多媒體檢索方法包括步驟將根據(jù)為了檢索進行查詢的各著眼點分析的描述符權(quán)重包括在多媒體描述符內(nèi);以及通過從包括在多媒體描述符內(nèi)的描述符權(quán)重中選擇查詢著眼點的相應(yīng)權(quán)重,進行檢索。
此外,根據(jù)本發(fā)明的多媒體檢索媒介包括多個描述符,用于檢索多媒體對象;以及數(shù)據(jù)特征,包括根據(jù)在多個描述符中特別用于進行查詢的各描述符組合的最佳權(quán)重。
在此,根據(jù)每次進行查詢的著眼點對描述符進行不同組合,并且根據(jù)每次進行查詢的著眼點對權(quán)重進行區(qū)別。
圖6示出根據(jù)本發(fā)明另一個優(yōu)選實施例,包括查詢著眼點的描述數(shù)據(jù)在內(nèi)的權(quán)重特征的示意圖;圖7示出根據(jù)本發(fā)明另一個優(yōu)選實施例的查詢圖像和查詢著眼點的例;以及圖8示出根據(jù)本發(fā)明另一個優(yōu)選實施例,包括描述符數(shù)據(jù)的權(quán)重特征的示意圖。
為了更好地理解多媒體檢索和權(quán)重分析方法,可以將本發(fā)明劃分為4個類別(1)根據(jù)描述符組合的多權(quán)重分析方法;(2)根據(jù)描述符組合的多權(quán)重應(yīng)用方法;(3)根據(jù)查詢著眼點的多權(quán)重分析方法;以及(4)根據(jù)查詢著眼點的多權(quán)重應(yīng)用方法。
1.一種根據(jù)描述符組合的多權(quán)重分析方法假定用于進行多媒體檢索的全部描述符集合為集合A=[C1、C2、C3、…、CN],并且用于當(dāng)前描述符組合的描述符集合為集合B=[Ci1、Ci2、Ci3、…、CM]集合A。在示出圖像檢索過程的
圖1中,對用于提取集合B的權(quán)重的算法進行了解釋。
首先,將集合B[Ci1、Ci2、Ci3、…、CM]的各描述符設(shè)置為具有相同重要性,并對其相似性進行測度和排列(S101)。
對排列檢索結(jié)果內(nèi)的任何差錯進行檢索并用E表示差錯數(shù)。換句話說,如果正確圖像數(shù)是K,則差錯意味著比高等級K低的低等級圖像,而與差錯是正確圖像無關(guān)。將差錯數(shù)設(shè)置為E。
利用兩種方法可以獲得正確圖像數(shù)據(jù)第一種方法是,用戶以在步驟101獲得的第一檢索結(jié)果的形式給出關(guān)于正確圖像數(shù)據(jù)的反饋;第二種方法是,從數(shù)據(jù)塊中采集相同等級的正確圖像并預(yù)先把該圖像分組,之后,利用采樣組找出正確圖像數(shù)據(jù)。
接著,如果差錯E(或E/K,其中E是差錯圖像數(shù),E/K是根據(jù)精確點的百分比差錯度)低于特定臨界值Th1,則結(jié)束分析方法(S103)。
如果差錯不低于上述臨界值,則利用差錯E判定反饋所需的圖像數(shù),n=2×E(S104)。
提供與之前判定的反饋圖像數(shù)相同數(shù)目的反饋。在此,在步驟102所用的差錯頁中任意選擇差錯最多的差錯頁的數(shù)目n,并被自動指定為反饋圖像。圖像的等級越低,存在的差錯就越多。
根據(jù)提供的反饋,對各描述符的權(quán)重進行更新(S106)。
利用更新的權(quán)重,再一次檢索圖像并進行排列(S107),并且檢索結(jié)果列表內(nèi)所列的任何差錯均被指定為E’(S108)。如果差錯E’(或者E’/K)低于特定臨界值Th1,則結(jié)束分析方法,否則,則進入下一步驟(S109)。
檢驗差錯的減少度是否超過特定臨界值(S110)。即,如果E-E’大于特定臨界值(Th2)(或者E×Th2’>E),則在下列步驟,利用當(dāng)前差錯E’,確定反饋圖像數(shù)n,例如n=E’×2(S111)。如果E-E’不大于特定臨界值(Th2),則將反饋圖像數(shù)確定為比先前反饋數(shù)小的數(shù),例如,n=n×b,0<b<1(S112)。
此時,如果反饋所需的圖像數(shù)比最小數(shù)(在本發(fā)明中,最小數(shù)為2,2=相似圖像1+不相似圖像1)還要小,則將反饋圖像數(shù)指定為2。
最后,重新將當(dāng)前E’指定為E,并且分析方法返回步驟105(S113)。
這樣,就可以提取根據(jù)描述符組合的權(quán)重,即集合B的權(quán)重,并在步驟106利用反饋對此權(quán)重進行更新。以下將對更新權(quán)重的方法進行說明。
首先計算待更新的新權(quán)重(New_W)New_W=(可靠性×Old_W+Cur_W)/(可靠性+1)其中,Cur_W是根據(jù)當(dāng)前給定的反饋計算的相對權(quán)重;Old_W是更新前的權(quán)重;可靠性是當(dāng)前權(quán)重的可靠性值。
顯然,可靠性表示權(quán)重可靠程度。并且,計算新可靠性(new_W)(待更新的新可靠性)如下New_R=old_R(1+增加R)+a增加R=f(#反饋)×(精度(t)-精度(t-1))其中,#反饋是在一級中的反饋數(shù),old_R是先前的可靠性。
此外,如果f(#反饋)小,則返回接近0的值,并且如果f變大,它返回一個增量。此函數(shù)示于圖2,并且在這種情況下,可以采用調(diào)整的反曲線函數(shù)。
如上所述,以下根據(jù)當(dāng)前給定的反饋計算相對權(quán)重(Cur_W)
Cur_W=a Sim(RI,F(xiàn)I),假定FI是相關(guān)圖像Cur_W=a Dist(RI,F(xiàn)I),假定FI是非相關(guān)圖像其中,F(xiàn)I是反饋圖像;RI是基準(zhǔn)圖像;W是打印權(quán)重(Wk)、單元權(quán)重(We)或位置權(quán)重(Wp);a是Wk、We和Wp的歸一化系數(shù)。
此外,如果采用描述符k、e和p,則Sim(FI,RI)表示基準(zhǔn)圖像(RI)與反饋圖像(FI)之間的相似性。另一方面,如果采用描述符k、e和p,則Dist(FI,RI)表示基準(zhǔn)圖像(RI)與反饋圖像(FI)之間的非相似性。
因此,當(dāng)利用集合B內(nèi)的描述符組合進行檢索時,可以象上述說明的那樣成功地對圖像的相應(yīng)權(quán)重進行分析。
同樣,如果存在另一個描述符組合,集合C,則可以利用集合C內(nèi)的描述符對正確權(quán)重進行檢索和分析。此時,各描述符權(quán)重的大小與集合內(nèi)的組元數(shù)相同。
2.根據(jù)描述符組合的多權(quán)重應(yīng)用方法如上所述,可以將根據(jù)各描述符組合分析的不同多權(quán)重應(yīng)用于其它情況。
首先,利用圖3所示的用戶界面,用戶可以選擇用于進行多媒體檢索的描述符。
尤其在圖3中,例如可以從5個描述符(色彩直方圖、紋理直方圖、代表性色彩數(shù)據(jù)、運動直方圖以及形狀數(shù)據(jù))中選擇色彩直方圖、代表性色彩數(shù)據(jù)以及運動直方圖。
一旦用戶通過用戶界面選擇了進行多媒體檢索所需的描述符,則根據(jù)選擇描述符組合,根據(jù)圖1所示的方法,自動選擇其權(quán)重用于進行檢索。
以下將對根據(jù)對選擇的描述符的分析,從多個權(quán)重中選擇權(quán)重的方法進行說明。
權(quán)重特征包括各權(quán)重和表示一個權(quán)重從屬于一個描述符的數(shù)據(jù)。
根據(jù)上述數(shù)據(jù),可以發(fā)現(xiàn)描述符權(quán)重包括在當(dāng)前權(quán)重內(nèi),并且權(quán)重表示的描述符包括選擇與選擇的描述符相應(yīng)的權(quán)重。
選擇權(quán)重的另一種方法是,用戶從先前的檢索結(jié)果中選擇他或她希望查找的相似對象。
對于選擇的相似對象,利用根據(jù)描述符組合分析的各權(quán)重,對相似性進行測度,并且選擇產(chǎn)生基于最高相似性結(jié)果的權(quán)重。
如果多媒體對象已經(jīng)含有例如屬于相似類的對象的數(shù)據(jù),則該檢索方法顯示具有查詢對象的相同類對象(在這種情況下,它是一幅圖像),如圖4所示,并幫助用戶選擇他或她希望查找的對象。
換句話說,該方法顯示具有查詢圖像的相同類圖像作為相似圖像,并使得用戶可以選擇他或她所希望的圖像。
圖4中用粗線框包圍的相似圖像是用戶選擇作為相似圖像的圖像。一旦選擇了對象,根據(jù)描述符組合,利用分析權(quán)重,可以對用戶選擇的相似圖像與查詢圖像之間的相似性進行測度,并選擇產(chǎn)生最高相似性的權(quán)重。
同時,利用事先指定的不同類型的查詢選擇權(quán)重。
例如,可以將查詢劃分為幾類,例如視頻與視頻檢索、或者視頻與靜止圖像檢索。確定各種情況的描述符,并為了根據(jù)用戶查詢的類型選擇正確權(quán)重,指定相應(yīng)的權(quán)重。
一旦確定了查詢對象和檢索對象,就可以確定用戶請求的查詢類型。例如,如果查詢類型是視頻片段,并且檢索對象是圖像數(shù)據(jù)庫,則關(guān)掉視頻和靜止圖像檢索。
3.根據(jù)查詢著眼點的多權(quán)重分析方法圖5示出用于解釋根據(jù)特定查詢的著眼點用于提取權(quán)重的算法的實例。
首先,將所擁有的描述符設(shè)置為同等重要性,然后對其相似性進行測度和排列(S500)。
接著,在先前檢索結(jié)果中,根據(jù)當(dāng)前查詢的著眼點,用戶給出相似圖像的反饋(S501)。在下列步驟中,可以將根據(jù)反饋的相似圖像看作正確答案,并從此開始進行分析。
特別是在步驟500和步驟501內(nèi),根據(jù)用戶根據(jù)先前檢索結(jié)果給出的反饋,對根據(jù)特定查詢的著眼點的正確答案的數(shù)據(jù)進行檢索。如果每個對象均含有屬于同一類的圖像實例的數(shù)據(jù),則不象步驟500那樣進行先前檢索,而首先顯示屬于同一類的圖像實例,用戶可以從顯示的圖像中選擇相似圖像。
從現(xiàn)在開始,重復(fù)圖1中步驟102之后的相同過程。
也就是說,通過在排列的檢索結(jié)果內(nèi)檢索任何差錯,來確定差錯數(shù)E(S502)。如果差錯數(shù)E(或者E/k)低于特定臨界值Th1,則分析方法結(jié)束,否則,利用差錯數(shù)E判定反饋所需的圖像數(shù)(n=2×E)(S503和S504)。根據(jù)上述的方法,給出的反饋數(shù)與圖像數(shù)n相同(S505)此后,利用給出的反饋對各描述符權(quán)重進行更新(S506),并根據(jù)更新的權(quán)重,再一次檢索和排列圖像(S507)。在檢索結(jié)果列表內(nèi)檢索差錯后,指定另一個差錯E’(S508)。在此,如果E’(或者E’/k)低于特定臨界值Th1,則結(jié)束此方法,否則,進行下一步(S509)。
檢驗差錯的減少度是否超過特定臨界值(S510),并根據(jù)在此獲得的結(jié)果,利用當(dāng)前差錯E’,確定反饋所需的圖像數(shù)n(n=E’×2)(S511)。否則,在下一步512判定用于反饋的圖像數(shù)小于先前反饋數(shù)(n=n×b,0<b<1),并且在將當(dāng)前差錯E’重新指定為E之后,重復(fù)步驟505(S513)。
4.根據(jù)查詢著眼點的多權(quán)重應(yīng)用方法如上所述,可以將根據(jù)各描述符組合分析的不同多媒體應(yīng)用于其它情況。
首先,用戶在先前檢索結(jié)果內(nèi)選擇他或她希望查找的對象的相似對象。
對于選擇的相似對象,利用根據(jù)描述符組合分析的各權(quán)重測度相似性,并且選擇產(chǎn)生基于最高相似性結(jié)果的權(quán)重。
如果多媒體對象已經(jīng)含有屬于相似類的對象實例的數(shù)據(jù),則檢索方法顯示具有查詢對象的相同類對象,如圖4所示,并幫助用戶選擇他或她希望查找的對象。
一旦選擇了對象,利用各權(quán)重測度相似性,并且選擇適合查詢的相應(yīng)著眼點、產(chǎn)生最高相似性結(jié)果的權(quán)重。
圖6示出含有查詢著眼點方案的權(quán)重特征的實例。
根據(jù)圖6,權(quán)重方案600包括用于描述權(quán)重601的描述符ID 602、相應(yīng)權(quán)重值603以及查詢著眼點方案604。
如果以圖6所示的文本形式描述權(quán)重特征內(nèi)相應(yīng)查詢的著眼點,則也可以應(yīng)用這種方法。
換句話說,現(xiàn)有權(quán)重的查詢著眼點(特別是文本內(nèi)描述的查詢著眼點)排列為如圖7所示那樣供用戶選擇。圖7具體示出包括木屋的風(fēng)景畫圖像,在此,查詢著眼點可以是如木屋、藍天或原野的事物。
另一方面,圖8示出含有描述符組合數(shù)據(jù)的權(quán)重特征。
根據(jù)圖8,權(quán)重方案800包括原野描述權(quán)重801的描述符ID 802、相應(yīng)權(quán)重值以及相關(guān)描述符列表804。
利用含有描述符組合數(shù)據(jù)的權(quán)重特征,通過直接使用該數(shù)據(jù),就可以容易地選擇合適的權(quán)重。
到現(xiàn)在為止,已經(jīng)對根據(jù)查詢著眼點的多權(quán)重特征和根據(jù)描述符組合的多權(quán)重特征進行了解釋。
因此,利用根據(jù)描述符組合的多權(quán)重特征和根據(jù)查詢著眼點的多權(quán)重特征,可以自動選擇和使用相應(yīng)權(quán)重,盡管各權(quán)重特征不必具有描述符組合數(shù)據(jù)或查詢著眼點本身。
然而,如果各權(quán)重特征含有當(dāng)前用于圖8所示的權(quán)重的描述符組合的數(shù)據(jù),或者如果以圖6所示的各權(quán)重特征形式描述查詢著眼點,則通過直接使用該數(shù)據(jù),可以更容易地選擇正確權(quán)重。
在這種情況下,盡管應(yīng)用更容易了,但是由于需要額外數(shù)據(jù),所以在數(shù)據(jù)大小方面,同樣存在缺陷。
如上所述,通過為各對象提供適于各種應(yīng)用的最佳描述符權(quán)重,根據(jù)本發(fā)明的多媒體檢索方法可以實現(xiàn)非常先進的檢索功能。此外,即使對于同一個對象,通過提取用戶要求查詢的著眼點的最佳權(quán)重,本發(fā)明可以使用戶根據(jù)不同的著眼點進行不同檢索,從而實現(xiàn)以用戶為中心進行檢索。
盡管參考特定優(yōu)選實施例對本發(fā)明進行了說明和描述,但是,本技術(shù)領(lǐng)域內(nèi)的熟練技術(shù)人員明白,在所附權(quán)利要求所述的本發(fā)明實質(zhì)范圍內(nèi),可以在細節(jié)和形式方面進行各種變更。
權(quán)利要求
1.一種利用多個描述符檢索多媒體對象的多媒體檢索方法,該方法包括以下各步驟根據(jù)在查詢所需的多個描述符中各描述符的組合,分析描述符權(quán)重并將該權(quán)重添加到多媒體描述符中;以及在進行多媒體檢索時,根據(jù)用于查詢的描述符組合,根據(jù)與描述符組合相應(yīng)地選擇的權(quán)重,進行檢索。
2.根據(jù)權(quán)利要求1所述的方法,其中利用通過相應(yīng)描述符組合對圖像進行檢索的檢索結(jié)果,或者通過由用戶給定的有關(guān)相似對象的反饋與事先定義的任何相似對象的組群數(shù)據(jù)相結(jié)合,根據(jù)描述符組合對權(quán)重進行分析。
3.根據(jù)權(quán)利要求2所述的方法,其中提高相似對象之間的相似性的描述符獲得高權(quán)重。
4.根據(jù)權(quán)利要求2所述的方法,該方法進一步包括步驟利用包括在多媒體描述符內(nèi)的各權(quán)重,根據(jù)從相似對象或檢索結(jié)果的組群數(shù)據(jù)中所做的選擇,對用戶提供反饋的相似對象的相似性進行測度;以及根據(jù)產(chǎn)生其它測得的相似性中最高相似性的選擇權(quán)重進行檢索。
5.根據(jù)權(quán)利要求1所述的方法,其中如果用戶選擇特定描述符進行檢索,則僅使用對從包括在多媒體描述符內(nèi)的多個權(quán)重中選擇的描述符進行權(quán)重分析來進行檢索。
6.根據(jù)權(quán)利要求1所述的方法,其中如果用戶指定查詢對象和檢索對象,則僅使用對根據(jù)檢索對象和查詢對象種類預(yù)定的描述符進行權(quán)重分析來進行檢索。
7.一種利用多個描述符檢索多媒體對象的多媒體檢索方法,該方法包括以下各步驟根據(jù)為了檢索進行查詢的各著眼點,對描述符權(quán)重進行分析并將該權(quán)重添加到多媒體描述符;以及在進行多媒體檢索時,根據(jù)在包括在多媒體描述符內(nèi)的其它描述符權(quán)重中與查詢著眼點的相應(yīng)選擇權(quán)重,進行檢索。
8.根據(jù)權(quán)利要求7所述的方法,其中通過對圖像進行檢索的檢索結(jié)果,或者利用用戶與關(guān)于事先定義的任何相似對象的組群數(shù)據(jù)而進行相應(yīng)查詢的著眼點相聯(lián)系,而給定的關(guān)于相似對象的反饋,根據(jù)查詢著眼點對權(quán)重進行分析。
9.根據(jù)權(quán)利要求8所述的方法,其中提高相似對象之間的相似性的描述符獲得高權(quán)重。
10.根據(jù)權(quán)利要求7所述的方法,該方法進一步包括步驟利用包括在多媒體描述符內(nèi)的各權(quán)重,根據(jù)從相似對象或檢索結(jié)果的組群數(shù)據(jù)中所做的選擇,對用戶提供反饋的相似對象的相似性進行測度;以及根據(jù)產(chǎn)生其它測得的相似性中最高相似性的選擇權(quán)重進行檢索。
11.根據(jù)權(quán)利要求7所述的方法,該方法進一步包括步驟顯示權(quán)重方案中描述的查詢著眼點;以及通過從顯示的其它著眼點中選擇用戶進行查詢的著眼點,根據(jù)利用此查詢著眼點選擇的權(quán)重進行檢索。
12.一種基于查詢著眼點的多權(quán)重產(chǎn)生方法,該方法包括以下各步驟產(chǎn)生并保存用于表示包括在多媒體對象內(nèi)的描述符的重要性的權(quán)重值;以及產(chǎn)生并保存計算權(quán)重值所需查詢著眼點的技術(shù)數(shù)據(jù)。
13.一種基于查詢著眼點的多權(quán)重產(chǎn)生方法,該方法包括以下各步驟產(chǎn)生并保存用于表示包括在多媒體對象內(nèi)的描述符的重要性的權(quán)重值;以及產(chǎn)生并保存與用于表示各描述符要描述什么樣的權(quán)重值的描述符相應(yīng)的數(shù)據(jù)。
14.一種多媒體檢索媒介,該媒介包括多個描述符,用于檢索多媒體對象;以及數(shù)據(jù)特征,含有根據(jù)在多個描述符中進行查詢所需的各描述符組合的最佳權(quán)重數(shù)據(jù)。
15.根據(jù)權(quán)利要求14所述的媒介,其中根據(jù)各查詢著眼點,描述符組合和權(quán)重互相不同。
全文摘要
本發(fā)明涉及多媒體檢索方法和權(quán)重分析方法,它們通過將多個權(quán)重用作描述多媒體數(shù)據(jù)特征的數(shù)據(jù),并通過根據(jù)描述符的不同組合選擇正確權(quán)重數(shù)據(jù),實現(xiàn)非常先進的多媒體檢索功能。此外,本發(fā)明還涉及多媒體檢索方法和權(quán)重分析方法,它們通過將多個權(quán)重用作描述多媒體數(shù)據(jù)特征的數(shù)據(jù),并通過根據(jù)查詢著眼點的不同選擇正確權(quán)重數(shù)據(jù),實現(xiàn)非常高級的多媒體檢索功能。
文檔編號G06F17/30GK1356651SQ0113960
公開日2002年7月3日 申請日期2001年11月23日 優(yōu)先權(quán)日2000年11月25日
發(fā)明者李振秀, 金賢俊 申請人:Lg電子株式會社