專利名稱:融合偽相關(guān)反饋與檢索技術(shù)的自動圖像標(biāo)注方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種新型的自動圖像標(biāo)注方法,尤其涉及一種融合偽相關(guān)反饋與檢索技術(shù)的自動圖像標(biāo)注方法。
背景技術(shù):
隨著大量多媒體的出現(xiàn),對其進(jìn)行有效地管理和檢索成為目前一個(gè)重要的研究課題。在上世紀(jì)70到80年代,對圖像的檢索主要是基于文本的檢索,與圖像相關(guān)的文本都是手工標(biāo)注上去的,標(biāo)注的工作量大,而且依賴于標(biāo)注者的個(gè)人主觀判斷。在1992年首次提出了基于內(nèi)容的圖像檢索(CBIR-Content Based Image Retrieval)技術(shù),它可以自動提取圖像的底層特征、自動檢索?,F(xiàn)在有許多CBIR系統(tǒng)已經(jīng)被開發(fā)出來。然而,由于“語義鴻溝”問題的存在,使得檢索結(jié)果的精度不高,不能滿足用戶的需求。因此,最近提出了自動圖像標(biāo)注方法,可以有效地緩解這個(gè)問題,減少了工作量與標(biāo)注的主觀性,又可以保留基于文本檢索的優(yōu)點(diǎn)。
在自動圖像標(biāo)注研究中,如何學(xué)習(xí)建立圖像內(nèi)容與關(guān)鍵詞之間的關(guān)系模型是一項(xiàng)關(guān)鍵技術(shù)。通常來說,在已經(jīng)標(biāo)注好的訓(xùn)練圖像集合中,關(guān)鍵詞是標(biāo)注給整幅圖像的,由于將圖像分割成了區(qū)域的集合,因此并未標(biāo)注到區(qū)域上。首先,在每幅圖像中,找到區(qū)域與標(biāo)注詞之間的一個(gè)對應(yīng)關(guān)系。然后,根據(jù)這個(gè)對應(yīng)關(guān)系,建立圖像內(nèi)容與關(guān)鍵詞之間的關(guān)系模型。因此,研究的目的在于如何找到區(qū)域與關(guān)鍵詞之間的對應(yīng)關(guān)系,使之盡可能的準(zhǔn)確。
在現(xiàn)有技術(shù)中,已經(jīng)有許多成熟的自動圖像標(biāo)注方法,一類標(biāo)注是基于概率模型的方法。其中,早期的Barnard and Duygulu等人提出的基于翻譯模型(TM)的標(biāo)注策略是比較經(jīng)典的方法。根據(jù)關(guān)鍵詞與區(qū)域的共現(xiàn)信息,使用了經(jīng)典的統(tǒng)計(jì)機(jī)器翻譯模型,將圖像的一系列關(guān)鍵詞翻譯成區(qū)域符號的集合。為了進(jìn)一步提高建立區(qū)域與關(guān)鍵詞的概率關(guān)系模型,人們相繼引入了隱變量的概率模型、相關(guān)圖像與標(biāo)注詞之間概率模型等一系列的基于概率模型的標(biāo)注方法,具有更好的標(biāo)注性能。這類方法要求不斷的估計(jì)概率模型中的參數(shù),而且在圖像內(nèi)容與關(guān)鍵詞之間存在的“語義鴻溝”,使得標(biāo)注性能受到很大的制約。
第二類標(biāo)注是基于分類的方法,在這類方法中,每一個(gè)關(guān)鍵詞作為一個(gè)獨(dú)立的語義類別。具有代表性的工作有應(yīng)用支持向量機(jī)(SVM-Support Vector Machine)進(jìn)行的分類、貝葉斯點(diǎn)機(jī)制、自動語言索引、以及估計(jì)每個(gè)關(guān)鍵詞的視覺特征的分布等標(biāo)注方法。由于每個(gè)關(guān)鍵詞建立一個(gè)分類器,因此這類方法不太適用大量關(guān)鍵詞的情況,限制了標(biāo)注方法的可移植性。
第三類標(biāo)注是基于圖的方法,這類方法將圖像描述成一個(gè)圖的連接關(guān)系。其中,Pan等首次提出了基于圖的自動標(biāo)注(CCap-Graph-basedautomatic caption)方法,他們將所有圖像、區(qū)域和關(guān)鍵詞表達(dá)成為一個(gè)節(jié)點(diǎn)的三種數(shù)據(jù)類型,并根據(jù)三者內(nèi)在的聯(lián)系連接建立成一個(gè)圖。另外,基于流行排序的圖像標(biāo)注方法也被提出。這類方法受到訓(xùn)練圖像集合大小的制約,如果訓(xùn)練集增大,那么建立的圖也會變得很龐大。
第四類標(biāo)注是融合了檢索技術(shù)的標(biāo)注方法,該方法有效地融合了當(dāng)前的檢索技術(shù)進(jìn)行標(biāo)注,進(jìn)而提高了圖像標(biāo)注的性能。在這種圖像標(biāo)注方法里,將未標(biāo)注的圖像看作是查詢圖像。首先,根據(jù)檢索技術(shù)找到查詢圖像的一些相關(guān)圖像集合。然后,從相關(guān)圖像的標(biāo)注詞的集合中,可以應(yīng)用一些文本技術(shù)挖掘出標(biāo)注結(jié)果。首次提出融合檢索技術(shù)進(jìn)行標(biāo)注的方法,即AnnoSearch方法,該方法要求用戶給查詢圖像一個(gè)初始標(biāo)注詞,可以說該方法是一個(gè)半自動的過程。為了簡化標(biāo)注過程,進(jìn)行改進(jìn),提出了基于檢索的標(biāo)注算法(SBIA-Search Based Image Annotation),該方法無須用戶提供初始標(biāo)注詞,實(shí)現(xiàn)了檢索與標(biāo)注的全自動化。基于檢索的標(biāo)注方法避免了復(fù)雜的參數(shù)學(xué)習(xí)的過程。而且,由于通過檢索找到相關(guān)的圖像,因此,該方法不受訓(xùn)練集或者標(biāo)注詞集合的限制。最近,這種標(biāo)注方法受到很大的關(guān)注。
下面,對現(xiàn)有的基于檢索的標(biāo)注策略做一介紹性的比較。
(1)AnnoSearch方法在AnnoSearch方法中,將未標(biāo)注圖像作為查詢圖像。首先,由用戶給查詢圖像提供一個(gè)初始的標(biāo)注詞。然后,根據(jù)基于文本的圖像檢索技術(shù),在Web中檢索到與查詢圖像相關(guān)的圖像集合,同時(shí)也得到一個(gè)相關(guān)圖像的標(biāo)注詞集合。最后,對這個(gè)標(biāo)注詞集合上進(jìn)行聚類,給出相關(guān)標(biāo)注詞的排序列表,從中決定查詢圖像的標(biāo)注結(jié)果。該方法的檢索精度依賴于用戶提供的初始標(biāo)注詞,因此,在一定程度增加了用戶的負(fù)擔(dān),而且還具有用戶的主觀性。
(2)SBIA方法在SBIA方法中,同樣將未標(biāo)注圖像作為查詢圖像,但不需要用戶提供任何的初始標(biāo)注詞。首先,根據(jù)基于內(nèi)容的圖像檢索方法,在Web中檢索到與查詢圖像相關(guān)的圖像集合,同樣得到一個(gè)相關(guān)圖像的標(biāo)注詞集合。然后,根據(jù)文本檢索技術(shù),分析標(biāo)注詞集合的每個(gè)標(biāo)注詞的相關(guān)性,并融合詞典中該標(biāo)注詞的重要性,給每個(gè)標(biāo)注詞進(jìn)行排序。該方法實(shí)現(xiàn)了完全自動化的標(biāo)注方法,與AnnoSearch方法比較,該方法減輕了用戶的負(fù)擔(dān),但缺陷在于標(biāo)注性能仍然很低。
從這兩個(gè)融合檢索的標(biāo)注方法的實(shí)驗(yàn)結(jié)果中可以看出,檢索結(jié)果的優(yōu)劣,在很大程度上決定了標(biāo)注的性能。一般來講,由于減少了用戶的負(fù)擔(dān),消除了用戶的主觀性,完全自動的圖像標(biāo)注優(yōu)于半自動的圖像標(biāo)注方法。而且,對圖像內(nèi)容的適應(yīng)能力越強(qiáng),標(biāo)注性能越好。另外,檢索效果佳的標(biāo)注方法優(yōu)于粗糙檢索的標(biāo)注方法。
然而,現(xiàn)有的這兩種融合檢索的標(biāo)注方法中,都是進(jìn)行簡單地初始檢索,這嚴(yán)重的限制了相關(guān)標(biāo)注詞集合的準(zhǔn)確性,制約了標(biāo)注性能的提高。分析其內(nèi)在原因,現(xiàn)有的簡單檢索技術(shù)不能獲得較多的相關(guān)圖像;而且,對標(biāo)注詞的排序也是一次性的,缺乏對標(biāo)注詞的本身文本特性較好的利用。
發(fā)明內(nèi)容
基于現(xiàn)有技術(shù)中存在的上述缺陷,本發(fā)明提供了一種融合偽相關(guān)反饋與檢索的自動圖像標(biāo)注方法,較好的解決了所述問題。該方法包含步驟1在已標(biāo)注的圖像庫中對未標(biāo)注的查詢圖像Iq進(jìn)行檢索,得到k個(gè)相關(guān)圖像Ir及相關(guān)圖像的標(biāo)注詞集合Ψw;步驟2計(jì)算每個(gè)標(biāo)注詞w(w∈Ψw)標(biāo)注查詢圖像Iq的后驗(yàn)概率p(w|Iq);步驟3根據(jù)k個(gè)相關(guān)圖像提取均值向量Imean作為新的查詢向量,重復(fù)步驟1、2,直到最大迭代次數(shù)N;步驟4計(jì)算每個(gè)標(biāo)注詞w(w∈Ui=1NΨw(i))]]>在每輪標(biāo)注詞集合中的穩(wěn)定性因子λi(w),i=1,2,...,N;步驟5根據(jù)后驗(yàn)概率p(w|Iq)及穩(wěn)定性因子λi(w),i=1,2,...,N的值,計(jì)算每個(gè)標(biāo)注詞w(w∈Ui=1NΨw(i))]]>標(biāo)注查詢圖像Iq的排序概率f(w),對查詢圖像Iq進(jìn)行標(biāo)注。
一種自動圖像標(biāo)注方法,其中,步驟1進(jìn)一步包含確定相關(guān)圖像Ir與查詢圖像Iq之間的相似性,由相似性度量公式p(Ir|Iq)=ωr·S(Ir|Iq)給出。
一種自動圖像標(biāo)注方法,其中,S(Ir|Iq)=exp(-D(Ir,Iq)),ωr=exp(-D(Ir,Imean)22σ2).]]>一種自動圖像標(biāo)注方法,其中,步驟2進(jìn)一步包含后驗(yàn)概率p(w|Iq)由相似性度量p(Ir|Iq)及每個(gè)標(biāo)注詞w(w∈Ψw)標(biāo)注相關(guān)圖像Ir的概率 確定,p(w|Iq)=p(w|Ir)·p(Ir|Iq)。
一種自動圖像標(biāo)注方法,其中,Imean=1kΣr=1kIr.]]>一種自動圖像標(biāo)注方法,其中,λi(w)=tfi×idf=tfiln(n+1).]]>一種自動圖像標(biāo)注方法,其中,f(w)=Σi=1Nλi(w)·pi(w|Iq).]]>本發(fā)明的優(yōu)點(diǎn)在于(1)在保證標(biāo)注速度的情況下,應(yīng)用偽相關(guān)反饋技術(shù)提高了檢索的性能。(2)本發(fā)明采用的是完全自動的標(biāo)注方法。(3)考慮了標(biāo)注詞自身的文本屬性,對標(biāo)注詞列表進(jìn)行了重新排序。
圖1為本發(fā)明的自動圖像標(biāo)注方法的框架模型;圖2為本發(fā)明的自動圖像標(biāo)注方法的與現(xiàn)有技術(shù)的標(biāo)注方法的性能比較。
具體實(shí)施例方式
有關(guān)本發(fā)明的技術(shù)內(nèi)容及詳細(xì)說明,現(xiàn)配合
如下圖1為本發(fā)明的融合偽相關(guān)反饋與檢索的自動圖像標(biāo)注方法的框架模型圖。如圖所示,步驟1設(shè)定未標(biāo)注圖像Iq為查詢圖像,在已標(biāo)注的圖像庫中進(jìn)行檢索,找到k個(gè)最鄰近的圖像,他們構(gòu)成了相關(guān)圖像的集合Ψq及相關(guān)圖像的標(biāo)注詞集合Ψw。假設(shè)排在最前的幾個(gè)圖像為相關(guān)圖像,用Ir表示。相關(guān)圖像Ir與查詢圖像Iq之間的相似性度量p(Ir|Iq)由下式給出p(Ir|Iq)=ωr·S(Ir|Iq) (1)(a)S(Ir|Iq)為相關(guān)圖像Ir與查詢圖像Iq之間的相似度,它的定義如下式S(Ir|Iq)=exp(-D(Ir,Iq)) (2)其中,D(Ir,Iq)是相關(guān)圖像Ir與查詢圖像Iq之間的歐式距離。
(b)ωr為相關(guān)圖像Ir的權(quán)重,反映相關(guān)圖像Ir自身的可靠性,且滿足Σr=1kωr=1.]]>ωr=exp(-D(Ir,Imean)22σ2)---(3)]]>其中,Imean和σ分別是k個(gè)相關(guān)圖像的均值與方差,D(Ir,Imean)是相關(guān)圖像Ir與均值向量Imean之間的歐式距離。ωr越大,Ir的可靠性越大。
其次,為了簡化計(jì)算,由下式計(jì)算每個(gè)標(biāo)注詞w(w∈Ψw)標(biāo)注相關(guān)圖像Ir的概率p(w|Ir) 步驟2根據(jù)k個(gè)相關(guān)圖像自動提取具有更強(qiáng)表達(dá)能力的查詢向量,以便進(jìn)行下一輪的檢索,這部分工作被稱為查詢的修改。即均值向量Imean作為新的查詢向量。
Imean=1kΣr=1kIr---(5)]]>步驟3綜合公式(1)和公式(4),依據(jù)下式計(jì)算每個(gè)標(biāo)注詞w(w∈Ψw)標(biāo)注查詢圖像Iq的后驗(yàn)概率p(w|Iq)p(w|Iq)=p(w|Ir)·p(Ir|Iq) (6)
步驟4重復(fù)執(zhí)行步驟1至3,直到預(yù)先設(shè)定的最大迭代次數(shù)N。具體地說,設(shè)定在第i(i=1,2,...,N)輪檢索中,查詢圖像標(biāo)記為Iq(i),得到的相關(guān)圖像標(biāo)記為Ir(i),他們構(gòu)成的相關(guān)圖像集合標(biāo)記為Ψq(i),相關(guān)圖像的標(biāo)注詞集合標(biāo)記為Ψw(i),相關(guān)圖像Ir(i)與查詢圖像Iq(i)之間的相似性度量標(biāo)記為p(Ir(i)|Iq(i)),標(biāo)注詞集合Ψw(i)內(nèi)的每個(gè)標(biāo)注詞w標(biāo)注相關(guān)圖像Ir(i)的概率標(biāo)記為p(w|Ir(i)),以及根據(jù)公式(6)計(jì)算得到的標(biāo)注詞w標(biāo)注查詢圖像Iq的后驗(yàn)概率標(biāo)記為pi(w|Iq)。
步驟5綜合N輪的標(biāo)注詞集合Ψw(i),i=1,2,...,N,計(jì)算每個(gè)標(biāo)注詞w(w∈Ui=1NΨw(i))]]>在每輪標(biāo)注詞集合中的穩(wěn)定性λi(w),i=1,2,...,N。本發(fā)明采用了文本檢索技術(shù)中的tf-idf權(quán)重框架,將關(guān)鍵詞作為文本檢索中的短語,將每輪的關(guān)鍵詞集合Ψw(i)作為文檔,讓tfi表達(dá)標(biāo)注詞w在Ψw(i)中出現(xiàn)的頻率,讓idf表示標(biāo)注詞w出現(xiàn)在Ψw(i),i=1,2,...,N的逆文檔頻率。定義如下式λi(w)=tfi×idf=tfiln(n+1)---(7)]]>其中,n是包含關(guān)鍵詞w的標(biāo)注詞集合的個(gè)數(shù)。這樣,盡管一個(gè)可用的標(biāo)注詞出現(xiàn)的次數(shù)少,穩(wěn)定性因子λi(w)也確保了該標(biāo)注詞具有標(biāo)注該查詢圖像的可能性。
步驟6綜合N輪的檢索結(jié)果,依據(jù)公式(6)公式(7)的輸出值,計(jì)算每個(gè)標(biāo)注詞w(w∈Ui=1NΨw(i))]]>標(biāo)注查詢圖像Iq的排序概率,即f(w)=Σi=1Nλi(w)·pi(w|Iq)---(8)]]>步驟7根據(jù)公式(8)得到的每個(gè)標(biāo)注詞w的輸出概率進(jìn)行排序,選擇最后的標(biāo)注詞列表。一般來講,標(biāo)注詞的選擇策略有兩種方式一是事先設(shè)定一個(gè)實(shí)驗(yàn)的閾值,根據(jù)每個(gè)標(biāo)注詞的排序函數(shù)f(w)的輸出值,選擇其值大于該閾值的關(guān)鍵詞來標(biāo)注圖像,這種方法確保了標(biāo)注的可伸縮性。二是根據(jù)標(biāo)注詞的排序函數(shù)f(w)的輸出值,選擇排在最靠前的5個(gè)關(guān)鍵詞來標(biāo)注圖像。本發(fā)明采用第二種的標(biāo)注詞選擇策略。
如圖2為本發(fā)明的自動圖像標(biāo)注方法的與現(xiàn)有技術(shù)的標(biāo)注方法的性能比較,其中MBRM方法是基于經(jīng)典的概率模型的標(biāo)注方法,SBIA方法是融合了檢索技術(shù)的標(biāo)注方法,但該方法中的檢索是簡單的基于內(nèi)容的圖像檢索方法。如圖2所示,融合檢索技術(shù)的標(biāo)注方法的性能要比經(jīng)典的概率模型的標(biāo)注性能要高,而且,本發(fā)明的的融合偽相關(guān)反饋與檢索的標(biāo)注方法,還要比融合一般的檢索方法的標(biāo)注方法的性能——平均準(zhǔn)確率和平均標(biāo)全率都能夠提高10%左右。其原因在于,通過檢索技術(shù)找到未標(biāo)注圖像的相關(guān)圖像的集合,進(jìn)而找到了相關(guān)的標(biāo)注詞集合,在此基礎(chǔ)上根據(jù)文本的特性挖掘的標(biāo)注結(jié)果,效果要提高很多,這在一定程度上是基于高層語義層面的標(biāo)注方法。另外,通過偽相關(guān)反饋技術(shù),在一定程度上提高了檢索的性能,進(jìn)而更提高了標(biāo)注的準(zhǔn)確性。而且,本發(fā)明對更大的圖像訓(xùn)練集具有更強(qiáng)的適應(yīng)力,極大地改善了標(biāo)注的可伸縮性,避免了復(fù)雜的參數(shù)估計(jì)的監(jiān)督學(xué)習(xí)過程,是一個(gè)靈活可靠、有實(shí)用價(jià)值的標(biāo)注方法。
權(quán)利要求
1.一種融合偽相關(guān)反饋與檢索的自動圖像標(biāo)注方法,其特征在于,包含步驟1在已標(biāo)注的圖像庫中對未標(biāo)注的查詢圖像Iq進(jìn)行檢索,得到k個(gè)相關(guān)圖像Ir及相關(guān)圖像的標(biāo)注詞集合Ψw;步驟2計(jì)算每個(gè)標(biāo)注詞w(w∈Ψw)標(biāo)注查詢圖像Iq的后驗(yàn)概率p(w|Iq);步驟3根據(jù)k個(gè)相關(guān)圖像提取均值向量Imean作為新的查詢向量,重復(fù)步驟1、2,直到最大迭代次數(shù)N;步驟4計(jì)算每個(gè)標(biāo)注詞w(w∈Σi=1NΨw(i))]]>在每輪標(biāo)注詞集合中的穩(wěn)定性因子λi(w),i=1,2,...,N;步驟5根據(jù)后驗(yàn)概率p(w|Iq)及穩(wěn)定性因子λi(w),i=1,2,...,N的值,計(jì)算每個(gè)標(biāo)注詞w(w∈Σi=1NΨw(i))]]>標(biāo)注查詢圖像Iq的排序概率f(w),對查詢圖像Iq進(jìn)行標(biāo)注。
2.根據(jù)權(quán)利要求1所述的一種自動圖像標(biāo)注方法,其特征在于,步驟1進(jìn)一步包含確定相關(guān)圖像Ir與查詢圖像Iq之間的相似性,由相似性度量公式p(Ir|Iq)=ωr·S(Ir|Iq)給出。
3.根據(jù)權(quán)利要求2所述的一種自動圖像標(biāo)注方法,其特征在于,S(Ir|Iq)=exp(-D(Ir,Iq)),ωr=exp(-D(Ir,Imean)22σ2).]]>
4.根據(jù)權(quán)利要求2所述的一種自動圖像標(biāo)注方法,其特征在于,步驟2進(jìn)一步包含后驗(yàn)概率p(w|Iq)由相似性度量p(Ir|Iq)及每個(gè)標(biāo)注詞w(w∈Ψw)標(biāo)注相關(guān)圖像Ir的概率 確定,p(w|Iq)=p(w|Ir)·p(Ir|Iq)。
5.根據(jù)權(quán)利要求1所述的一種自動圖像標(biāo)注方法,其特征在于,Imean=1kΣr=1kIr.]]>
6.根據(jù)權(quán)利要求1所述的一種自動圖像標(biāo)注方法,其特征在于,λi(w)=tfi×idf=tfiln(n+1).]]>
全文摘要
本發(fā)明提供一種融合偽相關(guān)反饋與檢索技術(shù)的自動圖像標(biāo)注方法,包含步驟1,在已標(biāo)注的圖像庫中對未標(biāo)注的查詢圖像進(jìn)行檢索,得到k個(gè)相關(guān)圖像及相關(guān)圖像的標(biāo)注詞集合;步驟2,計(jì)算每個(gè)標(biāo)注詞標(biāo)注查詢圖像的后驗(yàn)概率;步驟3,根據(jù)k個(gè)相關(guān)圖像提取均值向量作為新的查詢向量,重復(fù)步驟1、2,直到最大迭代次數(shù)N;步驟4,計(jì)算每個(gè)標(biāo)注詞在每輪標(biāo)注詞集合中的穩(wěn)定性因子;步驟5,根據(jù)后驗(yàn)概率及穩(wěn)定性因子的值,計(jì)算每個(gè)標(biāo)注詞標(biāo)注查詢圖像的排序概率,對查詢圖像進(jìn)行標(biāo)注。本發(fā)明的優(yōu)點(diǎn)在于提高了檢索性能及標(biāo)注的準(zhǔn)確性,極大地改善了標(biāo)注的可伸縮性,是一個(gè)靈活可靠、有實(shí)用價(jià)值的標(biāo)注方法。
文檔編號G06F17/30GK101075263SQ20071011810
公開日2007年11月21日 申請日期2007年6月28日 優(yōu)先權(quán)日2007年6月28日
發(fā)明者趙耀, 趙玉鳳, 朱振峰 申請人:北京交通大學(xué)