本發(fā)明涉及一種行人再辨識中結(jié)構(gòu)特征提取和度量學(xué)習(xí)技術(shù),尤其是涉及一種最大粒度結(jié)構(gòu)描述符的行人再辨識方法。
背景技術(shù):
行人再辨識是指在一個多攝像機組成的監(jiān)控網(wǎng)絡(luò)中,針對不同攝像機下的行人進行識別并匹配的問題。它對鑒別行人身份、分析行人行為等方面的研究提供了關(guān)鍵性的幫助,并且發(fā)展成為了智能監(jiān)控領(lǐng)域中的重要組成部分。
行人再辨識的方法主要分為兩類:1)基于特征表示的行人再辨識方法;2)基于度量學(xué)習(xí)的方法。其中多數(shù)方法主要集中于尋找一種魯棒性強的特征來描述行人,例如:顏色直方圖,共生矩陣,特征主軸,最大穩(wěn)定極值區(qū)域,概率直方圖,協(xié)方差描述符,圖形匹配,顯著性匹配,深度學(xué)習(xí)模型等等。這些特征的優(yōu)點在于計算時簡單,時間開銷低,然而卻沒有明顯區(qū)分不同類的行人圖片,使得行人再辨識仍存在識別率低、穩(wěn)定性差等問題。
在選取特征表示之后,如何度量不同行人圖片的距離也是行人再辨識領(lǐng)域的關(guān)鍵問題?,F(xiàn)有的距離度量主要分為非學(xué)習(xí)方法和學(xué)習(xí)方法兩類。對于簡單的非學(xué)習(xí)方法,由于提取出來的特征信息具有冗余性,使得最后的識別效果并不理想,然而基于學(xué)習(xí)的距離度量方法通常學(xué)習(xí)不同攝像機下相同行人與不同行人鑒別信息,最大化不同行人圖片的距離同時最小化相同行人圖片的距離,因此往往可以有著較為理想的辨識結(jié)果。這種方法主要包括:RankSVM,相對距離比較(RDC),基于核方法的度量學(xué)習(xí),馬氏距離學(xué)習(xí),深度度量學(xué)習(xí)、度量集成、交叉二次判別分析、非線性局部度量學(xué)習(xí)、自適應(yīng)度量學(xué)習(xí)方法等等。這些基于學(xué)習(xí)的距離度量往往將行人再辨識分為了兩步:特征表示和距離度量。
專利CN104992142A提出了一種基于深度學(xué)習(xí)和屬性學(xué)習(xí)相結(jié)合的行人識別方法,能夠從更高語義層描述行人特征,然而,訓(xùn)練模型過于復(fù)雜,并且受限于行人屬性的選擇。進一步,由于光照變化、姿態(tài)、視角、遮擋、圖像分辨率等各方面因素的影響,這使得在監(jiān)控視頻智能分析中行人再辨識性能依然不佳。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種特征維數(shù)低、度量效果魯棒性好的最大粒度結(jié)構(gòu)描述符的行人再辨識方法。
本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):
一種最大粒度結(jié)構(gòu)描述符的行人再辨識方法,包括以下步驟:
S1,獲取圖像集中彩色的行人圖像,使用Gabor濾波器處理行人圖像,獲得多個尺度圖像;
S2,獲取各尺度圖像的顏色差分直方圖CDH,利用交疊的滑動子窗口提取CDH的局部最大交叉編碼描述符,即LMCC描述符;
S3,針對步驟S1獲得的不同尺度下行人圖像,使用滑動窗口提取局部塊(即滑動窗口范圍內(nèi)圖像)中的2個SILTP(Scale Invariant Local Ternary Pattern)直方圖,以顏色直方圖作為滑動窗口對應(yīng)塊下的局部特征,針對同一水平方向的各個局部塊特征,同一維度上,提取最大值作為局部最大出現(xiàn)描述符,即LOMO描述符;優(yōu)選的,使用大小為10×10的滑動窗口、步長為5的交疊策略提取局部塊中的2個SILTP直方圖,以8×8×8標(biāo)準(zhǔn)量化的顏色直方圖作為滑動窗口對應(yīng)塊下的局部特征;
S4,使用LDA算法進行度量學(xué)習(xí),獲得特征空間的最優(yōu)子空間,用于計算圖像之間的相似性;
S5,輸入待辨識的行人圖像,計算待辨識的行人圖像與圖像集中行人圖像的相似性,得到辨識結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種最大粒度結(jié)構(gòu)描述符的行人再辨識方法,其特征在于,所述的步驟S1包括以下步驟:
S11,將行人圖像的RGB顏色空間變換成HSV顏色空間;
S12,分別在三個通道上,使用Gabor濾波器對HSV顏色空間進行μ種尺度的變換,每個通道得到μ個尺度圖像;
S13,分別在三個通道上,對μ個尺度圖像兩兩分組,每組包括2個鄰域尺度圖像,利用max-pooling算法,獲得每組圖像中的最大算子的尺度圖像,每個通道得到μ/2個尺度圖像。
所述的步驟S12中,同一尺度上的變換具有多個核函數(shù)方向,該尺度變換的結(jié)果取各核函數(shù)方向上的平均值。
所述的步驟S2包括以下步驟:
S21,獲取尺度圖像的CDH;
S22,提取CDH的描述符并將其視為在子窗口下發(fā)生的概率,然后選擇在同一水平位置上的所有子窗口的顏色差分直方圖的最大值作為提取出來的特征描述符,從而獲取行人圖像的局部特征。
所述的步驟S4包括以下步驟:
S41,利用主成分分析法分別對LMCC描述符和LOMO描述符降維;
S42,將LMCC描述符與LOMO描述符進行多尺度融合;
S43,利用線性判別分析LDA計算投影方向,得到緊湊的特征子空間,即特征空間的最優(yōu)子空間,從而最大化類間差異性和最小化類內(nèi)相似性。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:
(1)受人類顯著視覺注意啟發(fā),利用局部顏色差分直方圖(關(guān)注局部塊內(nèi)量化顏色相同或者紋理方向相同)和Max Pooling算子(關(guān)注局部塊內(nèi)最大出現(xiàn)直方圖特征點),提出了一種最大粒度結(jié)構(gòu)的特征描述符(MGSD),此特征對于光照、旋轉(zhuǎn)、平動等因素變化有著較好的魯棒性,能夠提取圖像的本質(zhì)特征,具有良好的行人辨識性能,并且對光照、視角、遮擋等變化具有不敏感性。
(2)采用交疊的滑動窗口分析水平位置上的局部特征并利用最大化算子的優(yōu)點來提取突出特征,這種方法對視角變化有較好的穩(wěn)定性和魯棒性。
(3)MGSD描述符結(jié)合了LMCC描述符與LOMO描述符的優(yōu)點,彌補了信息的缺失,同時利用主成分分析算法降低了信息的冗余度。
(4)利用LDA算法計算投影方向,最優(yōu)化類內(nèi)相似性和類間差異性,進而取得了更加優(yōu)越的辨識效果。
附圖說明
圖1為本實施例方法的流程圖;
圖2為本實施例中利用Gabor濾波器對圖片3個通道上16個尺度與8個方向進行預(yù)處理的過程;
圖3為本實施例中利用均值處理Gabor濾波后的圖像;
圖4為本實施例中利用最大算子對多尺度圖片預(yù)處理的過程;
圖5為本實施例中LMCC描述符尋找顯著特征像素的過程;
圖6(a)、6(b)分別為本實施例算法和其他算法在VIPeR行人再辨識公開數(shù)據(jù)集上的CMC、SD/R曲線性能比較,p=316;
圖7(a)、7(b)分別為本實施例算法和其他算法在CHUK-01行人再辨識公開數(shù)據(jù)集上的CMC、SD/R曲線性能比較,p=485;
圖8(a1)、8(a2)、8(a3)、8(b1)、8(b2)、8(b3)分別為本實施例算法和其他算法在WARD行人再辨識公開數(shù)據(jù)集不同視角組合(1-2,1-3,2-3)上的CMC、SD/R曲線性能比較,p=50;
圖9為本發(fā)明方法的流程圖。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細說明。本實施例以本發(fā)明技術(shù)方案為前提進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。
實施例
步驟一:利用Gabor濾波器和最大算子預(yù)處理圖片,具體描述如下:Gabor濾波器可以反映局部地區(qū)的特征并且考慮到了圖像不同粒度的多尺度與多方向。使用Gabor濾波器可以從多粒度上獲取更多的邊緣信息融合到的特征表示中,進一步說,圖片預(yù)處理過程從行人圖片的三個通道(HSV)來獲取更多的顏色信息。因此通過以下來定義Gabor濾波器:
其中x和y是位置坐標(biāo),σ是對指定為2π的高斯函數(shù)的標(biāo)準(zhǔn)偏差,μ表示16個不同尺度,θ則表示8個不同方向。
然后利用Gabor濾波器計算圖像的I(x,y)并獲取Gμ,θ(x,y)(如圖2),具體如下:
Gμ,θ(x,y)=I(x,y)*ψμ,θ(x,y) (2)
在本發(fā)明中,提取特征Gμ(x,y)來代替Gμ,θ(x,y),方法如下:
其中Gμ(x,y)是Gμ,θ(x,y)在所有方向上的平均值,并且由16個不同的尺度得到了3*16張圖片(如圖3)。然后將16張圖片分為8組,每組包括2個鄰域尺度圖像,并且利用MAX pooling的優(yōu)點來獲取每一組中受到生物學(xué)啟發(fā)的特征,定義如下:
Bi=max(G(2i-1),G(2i)),i∈[1,...,8] (4)
Bi,i∈[1,...,8]是通過MAX pooling得到的BIF((Biologically Inspired Features,受生物學(xué)啟發(fā)的特征)圖,其提升了對小尺度變化的適應(yīng)性。圖4展示了對于一個行人的三個通道提取的一對生物學(xué)啟發(fā)的圖像特征。
步驟二:局部最大交叉編碼,具體描述如下:對于顏色差分直方圖(CDH),將其粒度化并將HSV顏色空間統(tǒng)一編碼成4×4×4=64-bins,然后獲取彩色圖像Ci(x,y),其表示為w∈0,1...,W-1,其中W被定義為64。在紋理方向空間上,將其統(tǒng)一粒度化為36-bin,并獲取紋理方向圖像θi(x,y),其表示為v∈0,1...,V-1,其中V被定義為36。如圖5所示,這個CDH描述符考慮了中心像素點和它的d=n×n-1個鄰近鄰居,然后提取與中心像素點相同顏色值的邊界像素點的顏色差分直方圖,或者是與中心像素點方向相同的邊界點的顏色差分直方圖。其具體定義如下:
然后利用滑動的子窗口來提取行人圖片的局部特征。對于圖片的每個子窗口,提取CDH描述符并將其視為在子窗口下發(fā)生的概率,然后選擇在同一水平位置上的所有子窗口的CDH直方圖的最大值作為提取出來的特征,將這個方法定義為局部最大交叉編碼(LMCC)直方圖。
因此,對于利用Gabor濾波器和最大算子預(yù)處理的多粒度行人圖片,可以提取得到特征向量LMCCh:
其中m是行數(shù),是從顏色圖像Ci(x,y)和紋理方向圖像θi(x,y)提取得到的特征向量。
步驟三:度量學(xué)習(xí),具體描述如下:在本發(fā)明中,提出了一個低緯度的判別子空間W=(w1,w2,...,wr)∈Rd×r,其可以使不同類圖片的距離最大化并使同類圖片的距離最小化??紤]到訓(xùn)練集X=(x1,x2,...,xn)∈Rd×n在d維空間上包含了n個樣本,在r維子空間上的距離函數(shù)可以被定義為:
其中xi,xj∈X,Σ'I=WTΣIW,Σ'E=WTΣEW。
為了提升識別率,在本發(fā)明中將LMCC描述符與LOMO描述符融合成了多尺度信息,同時考慮到LMCC描述符與LOMO描述符的維數(shù)十分大,利用主成分分析(PCA)算法來降低這2個描述符的維數(shù)。為了計算投影方向w,在本發(fā)明中利用廣義特征值分解來解決這個問題,由經(jīng)典LDA(線性判別分析)算法的啟發(fā),可以定義目標(biāo)優(yōu)化函數(shù):
因為ΣI是對稱且正定的,則存在一個如下的分解:
ΣI=UUT (11)
其可以由特征分解來得到。更進一步說,U是正交的但不是標(biāo)準(zhǔn)正交。通過定義一個新的變量W=UTV,同時將(U-1)T簡單表示為U-T,式(10)等價于:
可以通過來計算事實上,式(12)等價于U-1AU-T的特征值問題,并且由于U-1AU-T是一個實對稱矩陣,則有以下分解:
其中D=diag(d1,d2,...,dk)的對角線是特征值,則由特征向量組成,最后將XQDA度量算法同上述度量算法進行線性組合,計算最后的相似度量距離,用于對相似結(jié)果進行排序,得到對待識別行人圖像的判定結(jié)果。