基于空間金字塔稀疏編碼的自然場(chǎng)景多標(biāo)記分類(lèi)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,特別涉及圖像平移、旋轉(zhuǎn)、亮度和尺度變化的自然 場(chǎng)景分類(lèi)方法,具體是一種基于空間金字塔稀疏編碼的自然場(chǎng)景多標(biāo)記分類(lèi)方法,可用于 圖像的自然場(chǎng)景匹配、分類(lèi)和識(shí)別。
【背景技術(shù)】
[0002] 在過(guò)去的十年里,自然場(chǎng)景圖像分類(lèi)已經(jīng)成為圖像處理領(lǐng)域里一個(gè)很重要的技術(shù) 問(wèn)題。自然場(chǎng)景圖像分類(lèi)有很廣泛的應(yīng)用,如目標(biāo)識(shí)別與檢測(cè)、智能車(chē)輛或機(jī)器人導(dǎo)航等領(lǐng) 域。由于自然場(chǎng)景圖像類(lèi)內(nèi)差異性、照明條件差異性和圖像本身尺度差異性較大,使得自然 場(chǎng)景圖像分類(lèi)問(wèn)題仍然較難處理。早期的一些自然場(chǎng)景圖像分類(lèi)方法大多數(shù)是應(yīng)用低層信 息建立模型的,這些方法采用全局統(tǒng)計(jì)信息,如運(yùn)用全局的顏色或者紋理特征直方圖表示 圖像。盡管這些方法的時(shí)間復(fù)雜性較低,但是它們通常應(yīng)用于人為場(chǎng)景圖像和室內(nèi)場(chǎng)景圖 像分類(lèi),對(duì)自然場(chǎng)景的描述不夠完全,并且分類(lèi)結(jié)果較差。
[0003] 多標(biāo)記學(xué)習(xí)是針對(duì)現(xiàn)實(shí)世界中普遍存在的多義性對(duì)象而提出的一種學(xué)習(xí)框架。在 該學(xué)習(xí)框架下,每個(gè)對(duì)象由一個(gè)示例描述,該示例具有多個(gè)類(lèi)別標(biāo)記,學(xué)習(xí)的目的是將所有 合適的類(lèi)別標(biāo)記賦予未標(biāo)記示例。在自然場(chǎng)景分類(lèi)問(wèn)題中,圖像可能同時(shí)隸屬于多個(gè)類(lèi)別, 例如同一幅圖像中,既有"山"也有"樹(shù)",或者既有"沙漠"也有"海洋",而單標(biāo)記學(xué)習(xí)只能 對(duì)圖像標(biāo)記成一種類(lèi)別,多標(biāo)記學(xué)習(xí)可對(duì)圖像標(biāo)記成多個(gè)類(lèi)別。該問(wèn)題可以很自然地利用 多標(biāo)記學(xué)習(xí)框架進(jìn)行建模,且描述較完全。
[0004] 目前已經(jīng)出現(xiàn)了大量的多標(biāo)記分類(lèi)方法,并在自然場(chǎng)景分類(lèi)領(lǐng)域得到了廣泛應(yīng) 用。Boutell等人將自然場(chǎng)景多標(biāo)記分類(lèi)問(wèn)題轉(zhuǎn)化為多個(gè)獨(dú)立的二分類(lèi)問(wèn)題,并給出了多種 預(yù)測(cè)準(zhǔn)則用于從各個(gè)二分類(lèi)的支持矢量機(jī)SVM分類(lèi)器中確定測(cè)試樣本的類(lèi)別。該方法使用 顏色信息(colorinformation)作為特征向量來(lái)描述圖像,在圖像平移、旋轉(zhuǎn)、亮度和尺度 變化時(shí)適應(yīng)性較差,并且存在對(duì)自然場(chǎng)景描述不完全的情況。
[0005] Zhang和Zhou提出了一種基于懶惰學(xué)習(xí)(lazylearning)技術(shù)的多標(biāo)記學(xué)習(xí)算 法--多標(biāo)記K近鄰(ML-KNN),該算法直接使用測(cè)試樣本與訓(xùn)練樣本的相似度來(lái)對(duì)概念標(biāo) 記進(jìn)行預(yù)測(cè)。該方法也同樣使用顏色信息作為特征向量來(lái)描述圖像,存在適應(yīng)性較差的問(wèn) 題。
[0006] 圖像的有效信息除了有顏色信息,還有紋理、輪廓、尺度信息等深層涵義信息。上 述方法在多標(biāo)記分類(lèi)問(wèn)題中均僅使用顏色信息作為特征向量,因此在圖像平移、旋轉(zhuǎn)、亮度 和尺度變化時(shí)很難獲得圖像的完整正確分類(lèi)。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于針對(duì)上述現(xiàn)有技術(shù)方法的不足,提出了一種基于空間金字塔稀 疏編碼的自然場(chǎng)景多標(biāo)記分類(lèi)方法,以減少由于圖像平移、旋轉(zhuǎn)、亮度和尺度變化帶來(lái)的誤 分,且該方法對(duì)于光線、噪聲、微視角改變、部分物體遮蔽的容忍度也相當(dāng)高,提高了自然場(chǎng) 景多標(biāo)記分類(lèi)的正確率和魯棒性。
[0008] 為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案包括如下步驟:
[0009] (1)建立自然場(chǎng)景圖像多標(biāo)記類(lèi)別庫(kù);
[0010] (2)對(duì)自然場(chǎng)景圖像多標(biāo)記類(lèi)別庫(kù)中的每幅圖像,提取圖像的尺度不變SIFT特征 矩陣F:
[0011] 以k像素為步長(zhǎng)均勻采樣,并提取每個(gè)采樣點(diǎn)周?chē)?6X16像素大小圖像塊的d維 尺度不變特征SIFT,得到圖像的SIFT特征矩陣F= {yi,y2,…,yi,…,yn}GRdxn,其中R表 示實(shí)數(shù)集合,表示圖像的第i個(gè)圖像塊的SIFT特征向量,i= 1,2,…,n,n表示圖像中 圖像塊的個(gè)數(shù),d表示SIFT特征維數(shù);
[0012] (3)對(duì)所有圖像的SIFT特征矩陣,從中隨機(jī)選取M個(gè)特征向量,構(gòu)成新特征矩陣 Y,將其通過(guò)K-奇異值分解方法K-SVD訓(xùn)練字典D,M取值為100000-1000000之間的整數(shù);
[0013] (4)對(duì)每幅圖像的特征矩陣F,通過(guò)已經(jīng)訓(xùn)練好的字典D進(jìn)行稀疏編碼,得到圖像 的稀疏矩陣W;
[0014] (5)對(duì)每幅圖像的稀疏矩陣W,利用空間金字塔最大池化方法,得到圖像的稀疏編 碼向量X;
[0015] (6)將每幅圖像的稀疏編碼向量X分別通過(guò)多分類(lèi)支持矢量機(jī)SVM和排序支持矢 量機(jī)Rank-SVM進(jìn)行分類(lèi),通過(guò)多分類(lèi)支持矢量機(jī)SVM的分類(lèi)結(jié)果為S,通過(guò)排序支持矢量機(jī) Rank-SVM的分類(lèi)結(jié)果為R:
[0016] (6a)把圖像的稀疏編碼向量X輸入到多分類(lèi)支持矢量機(jī)SVM中,通過(guò)一對(duì)多的正 項(xiàng)準(zhǔn)則策略,經(jīng)過(guò)訓(xùn)練、測(cè)試,得到圖像的分類(lèi)結(jié)果S=以,S2,…,S1,…,S丄其中S1表示 在該分類(lèi)策略中第i幅圖像的分類(lèi)結(jié)果,m表示測(cè)試圖像的總數(shù);
[0017](6b)把圖像的稀疏編碼向量X輸入到排序支持矢量機(jī)Rank-SVM中,經(jīng)過(guò)訓(xùn)練、測(cè) 試,得到圖像的分類(lèi)結(jié)果R=取,R2,…,R1,…,RnJ,其中民表示在該分類(lèi)策略中第i幅圖 像的分類(lèi)結(jié)果;
[0018] (7)通過(guò)多分類(lèi)支持矢量機(jī)SVM的分類(lèi)結(jié)果S輔助校正排序支持矢量機(jī)Rank-SVM 的分類(lèi)結(jié)果R,得到自然場(chǎng)景圖像多標(biāo)記類(lèi)別庫(kù)中圖像的最終分類(lèi)結(jié)果C:
[0019] 多分類(lèi)SVM的分類(lèi)結(jié)果S= (S1,S2,…,S1,…,SJ中找到非零向量的位置為j,j =1,2,. .m,用位置為j的非零向量Sj替換Rank-SVM的分類(lèi)結(jié)果R={RuR2,…,R1,…,RJ 中對(duì)應(yīng)位置j的向量R,,得到自然場(chǎng)景圖像多標(biāo)記類(lèi)別庫(kù)中圖像的最終分類(lèi)結(jié)果C= (R1,R2,…,Sj,…,R1J,其中Sj為替換向量Rj的非零向量。
[0020] 本發(fā)明與現(xiàn)有的技術(shù)相比具有以下優(yōu)點(diǎn):
[0021] 本發(fā)明首先輸入自然場(chǎng)景圖像多標(biāo)記類(lèi)別庫(kù)中的圖像,提取它的尺度不變特征 SIFT。其次,用K-奇異值分解方法K-SVD對(duì)初始字典進(jìn)行學(xué)習(xí)得到稀疏字典D,利用空間金 字塔最大池化方法和稀疏字典對(duì)圖像進(jìn)行稀疏編碼。最后,通過(guò)多標(biāo)記分類(lèi)方法和判定準(zhǔn) 則對(duì)自然場(chǎng)景圖像進(jìn)行分類(lèi)。本發(fā)明在不限制分類(lèi)類(lèi)別數(shù)目的同時(shí),有效地提高了自然場(chǎng) 景圖像的分類(lèi)精度和魯棒性,并且有效的利用了圖像的局部信息。與現(xiàn)有的技術(shù)相比,本發(fā) 明具有以下優(yōu)點(diǎn):
[0022] 1、本發(fā)明提取了自然場(chǎng)景圖像的SIFT特征,其作為圖像特征有效地獲取了圖像 的局部信息,能適應(yīng)圖像平移、旋轉(zhuǎn)、亮度和尺度變化帶來(lái)的影響;
[0023] 2、本發(fā)明利用K-SVD算法得到較好的稀疏字典,使分類(lèi)結(jié)果有更好的魯棒性;
[0024] 3、本發(fā)明利用多分類(lèi)支持矢量機(jī)SVM和排序支持矢量機(jī)Rank-SVM進(jìn)行分類(lèi),并利 用多分類(lèi)支持矢量機(jī)SVM的分類(lèi)結(jié)果輔助校正排序支持矢量機(jī)Rank-SVM的分類(lèi)結(jié)果,使得 最終的分類(lèi)結(jié)果準(zhǔn)確率更高,分類(lèi)魯棒性更好。
【附圖說(shuō)明】
[0025] 圖1是本發(fā)明的實(shí)現(xiàn)流程圖;
[0026]圖2是本發(fā)明仿真采用的自然場(chǎng)景圖像多標(biāo)記類(lèi)別庫(kù)中的樣例圖像。
【具體實(shí)施方式】
[0027] 以下結(jié)合附圖對(duì)本發(fā)明的實(shí)施例和效果作進(jìn)一步詳細(xì)描述:
[0028]圖像分類(lèi)問(wèn)題是圖像處理技術(shù)領(lǐng)域中重要的分支,圖像分類(lèi)問(wèn)題中普遍存在著一 幅圖像對(duì)應(yīng)多個(gè)類(lèi)別的情況,圖像分類(lèi)要解決的問(wèn)題不僅是按照以圖為單位進(jìn)行分類(lèi),也 要以圖的種類(lèi)進(jìn)行標(biāo)注。圖像分類(lèi)可應(yīng)用于目標(biāo)識(shí)別與檢測(cè)、智能車(chē)輛或機(jī)器人導(dǎo)航等領(lǐng) 域。目前對(duì)于自然場(chǎng)景圖像多標(biāo)記分類(lèi)方法還存在圖像特征提取不充分的問(wèn)題。本發(fā)明是 在這一技術(shù)領(lǐng)域進(jìn)行的研究。
[0029] 實(shí)施例1
[0030] 本發(fā)明是一種基于空間金字塔稀疏編碼的自然場(chǎng)景多標(biāo)記分類(lèi)方法。參照?qǐng)D1,本 發(fā)明的具體實(shí)施步驟如下:
[0031] 步驟1,建立自然場(chǎng)景圖像多標(biāo)記類(lèi)別庫(kù),將圖像作為輸入數(shù)據(jù)。
[0032] 將自然場(chǎng)景圖像多標(biāo)記類(lèi)別庫(kù)original作為本發(fā)明實(shí)驗(yàn)使用圖像庫(kù),該圖像庫(kù) 包含2000幅自然場(chǎng)景圖像,所有可能的概念標(biāo)記為沙漠、山、海洋、落日和樹(shù),每幅圖像被 人工標(biāo)注了一組概念標(biāo)記集合。具有兩個(gè)或兩個(gè)以上概念標(biāo)記(例如"海洋+落日")的圖 像約占圖像庫(kù)的22 %,每幅圖像平均對(duì)應(yīng)于1. 24 ±0. 44個(gè)概念標(biāo)記。
[0033] 步驟2,對(duì)自然場(chǎng)景圖像多標(biāo)記類(lèi)別庫(kù)中的每幅圖像,提取圖像的尺度不變SIFT 特征矩陣F。
[0034] 以k像素為步長(zhǎng)均勻采樣,并提取每個(gè)采樣點(diǎn)周?chē)?6X16像素大小圖像塊的d 維尺度不變特征SIFT,本例中以8像素為步長(zhǎng)均勻采樣,并提取每個(gè)采樣點(diǎn)周?chē)?6X16像 素大小圖像塊的d維尺度不變特征SIFT,得到圖像的SIFT特征矩陣F=Iy1,y2, -^yi,… ,yJGRdxn,其中R表示實(shí)數(shù)集合,yi表示圖像的第i個(gè)圖像塊的SIFT特征向量,i= 1,2,…,n,n表示圖像中圖像塊的個(gè)