本發(fā)明涉及計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域,具體涉及一種基于相似度保留堆疊自編碼器的人臉姿態(tài)重建與識(shí)別方法。
背景技術(shù):
人臉姿態(tài)重建與識(shí)別由于其巨大的理論研究空間以及在廣泛的實(shí)際應(yīng)用中具有良好的應(yīng)用潛力,成為了目前的一個(gè)熱點(diǎn)研究領(lǐng)域?,F(xiàn)實(shí)中,人臉在不同環(huán)境中易受姿態(tài)變化的影響,使得基于姿態(tài)變化的人臉識(shí)別問(wèn)題成為了一個(gè)研究難點(diǎn)。識(shí)別帶有不同姿態(tài)角度變化的非配合主體對(duì)于公安刑偵破案、出入口控制、邊界安防等領(lǐng)域發(fā)揮著至關(guān)重要的作用。
在實(shí)際應(yīng)用中,如視頻監(jiān)控和圖像采集等場(chǎng)合,由于用戶的非配合,致使采集到的圖像存在不同程度的角度旋轉(zhuǎn),從而導(dǎo)致人臉被部分遮擋以及臉部紋理形變,最后提取到的姿態(tài)特征不能很好和原始正臉圖像的特征相匹配,從而降低了識(shí)別率。
為了解決姿態(tài)變化帶來(lái)的人臉重建和識(shí)別問(wèn)題,目前現(xiàn)有的技術(shù)主要為2d和3d兩類方法。2d方法中的經(jīng)典方法是運(yùn)用堆疊步進(jìn)自編碼器網(wǎng)絡(luò)結(jié)構(gòu)來(lái)將較大姿態(tài)的人臉圖像逐步地轉(zhuǎn)換為較小姿態(tài)的圖像,從而完成正臉姿態(tài)的重建。這種方法雖然能夠提取到魯棒性較強(qiáng)的姿態(tài)不變特征,但是其在某種程度上,使得在姿態(tài)重建過(guò)程中,人臉的局部紋理信息丟失太多,導(dǎo)致重建后的正臉圖像質(zhì)量下降,從而影響了后續(xù)的識(shí)別性能;在3d方法中,則主要是運(yùn)用基于三維人臉建模的方法來(lái)處理姿態(tài)變化帶來(lái)的識(shí)別性能降低等問(wèn)題?;?d建模的方法其計(jì)算量較大,且在某些情況下,運(yùn)用3d方法進(jìn)行姿態(tài)重建后的人臉其識(shí)別率沒(méi)有得到很大程度上的提升。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,而提供一種基于相似度保留堆疊自編碼器的人臉姿態(tài)重建與識(shí)別方法。這種方法能夠消除人臉圖像的姿態(tài)角度偏轉(zhuǎn)影響、能夠提取到人臉對(duì)于多姿態(tài)變化更具魯棒性的特征,且提取到的姿態(tài)特征能和原始正臉圖像的特征相匹配,從而提高識(shí)別率。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是:
一種基于相似度保留堆疊自編碼器的人臉姿態(tài)重建與識(shí)別方法,包括如下步驟:
1)多角度人臉圖像的姿態(tài)角度步進(jìn)減小:給定多角度姿態(tài)輸入圖像x(1)以及圖像x(1)下一級(jí)小姿態(tài)角度圖像
2)目標(biāo)姿態(tài)特征提?。簩⒉襟E1)中第一步進(jìn)自編碼器的目標(biāo)姿態(tài)角度圖像
3)構(gòu)建相似度保留自編碼器的總損失函數(shù):步驟1)中的第一步進(jìn)自編碼器和步驟2)中的第二半自編碼器構(gòu)成一個(gè)相似度保留自編碼器,在第一步進(jìn)自編碼器的損失函數(shù)lpose中加入相似度保留約束項(xiàng),即對(duì)輸入圖像的隱含層特征h1和目標(biāo)姿態(tài)的隱含層特征
4)堆疊相似度保留自編碼器:步驟3)中得到了第一個(gè)相似度保留自編碼器的總損失函數(shù)ltrain,通過(guò)最小化損失函數(shù),采用隨機(jī)梯度下降法來(lái)訓(xùn)練網(wǎng)絡(luò)參數(shù){w1(1),b1(1)}、{w1(2),b1(2)}和{w1(3),b1(3)},之后將多角度姿態(tài)輸入圖像x(1)通過(guò)訓(xùn)練好的參數(shù){w1(1),b1(1)}得到隱含層特征h1,接著將h1作為第二步進(jìn)自編碼的輸入,取
5)訓(xùn)練并微調(diào)網(wǎng)絡(luò):經(jīng)過(guò)上述的4個(gè)步驟預(yù)訓(xùn)練過(guò)程后,網(wǎng)絡(luò)的參數(shù)有了初始值,以多角度姿態(tài)圖像x(1)作為微調(diào)網(wǎng)絡(luò)的輸入,在最終的輸出端,以正臉姿態(tài)圖像
6)重建與識(shí)別:即重建測(cè)試圖像的正臉圖片,并提取網(wǎng)絡(luò)最高隱含層特征,最后識(shí)別多姿態(tài)人臉圖像,將帶有不同姿態(tài)角度的測(cè)試圖像輸入到訓(xùn)練好的微調(diào)網(wǎng)絡(luò)中,通過(guò)連接訓(xùn)練好的參數(shù),將測(cè)試圖像步進(jìn)映射到多個(gè)隱含層中,在輸出端得到重建好的正臉圖像,接著將重建好的正臉圖像和網(wǎng)絡(luò)的最高隱含層特征分別使用線性判別分析法,即lda法進(jìn)行降維來(lái)提取具有判別性的人臉特征,并用最近鄰分類器完成人臉識(shí)別。
這種方法通過(guò)在步進(jìn)自編碼器的隱含層中引入相似度保留項(xiàng),即讓每一個(gè)步進(jìn)自編碼器的隱含層特征和這個(gè)自編碼器的目標(biāo)姿態(tài)特征做相似度約束,使得在姿態(tài)逐層減小的同時(shí),又能夠讓每一個(gè)人對(duì)應(yīng)的姿態(tài)特征相似,從而使得提取到的隱含層表達(dá)對(duì)姿態(tài)變化更具魯棒性,則網(wǎng)絡(luò)能夠很好重建人臉圖片的細(xì)節(jié)信息,且重建后的正臉圖片整體光滑,噪點(diǎn)少,主觀視覺(jué)和客觀結(jié)構(gòu)相似度表現(xiàn)都很好;由于多姿態(tài)角度圖像重建后的正臉圖像獲得了較好的重建質(zhì)量,則將重建后的正臉圖像通過(guò)降維提取特征并分類,一定程度上提高了識(shí)別率;此外,由于引入相似度保留約束項(xiàng),使得網(wǎng)絡(luò)的最高隱含層特征含有的冗余信息少,則將最高隱含層特征同樣通過(guò)降維特征提取和分類過(guò)程,也能很大程度上提高識(shí)別率。
這種方法使用步進(jìn)自編碼器,能夠有效地消除人臉圖像的姿態(tài)角度偏轉(zhuǎn)影響、使用相似度保留項(xiàng),對(duì)隱含層做相似度約束,增強(qiáng)了同一個(gè)人對(duì)應(yīng)的人臉特征的相似度,使得人臉特征的魯棒性更強(qiáng),重建圖像整體光滑,噪點(diǎn)少,提取到的姿態(tài)特征能和原始正臉圖像的特征相匹配,從而提高識(shí)別率。
附圖說(shuō)明
圖1為實(shí)施例的流程示意圖;
圖2為實(shí)施例中相似度保留自編碼器人臉姿態(tài)重建結(jié)構(gòu)圖;
圖3為實(shí)施例中相似度保留自編碼器網(wǎng)絡(luò)微調(diào)結(jié)構(gòu)圖。
圖4為實(shí)施例的算法識(shí)別率性能圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明內(nèi)容作進(jìn)一步的詳細(xì)說(shuō)明,但不是對(duì)本發(fā)明的限定。
實(shí)施例:
參照?qǐng)D1、圖2、圖3、圖4,一種基于相似度保留堆疊自編碼器的人臉姿態(tài)重建與識(shí)別方法,包括如下步驟:
1)多角度人臉圖像的姿態(tài)角度步進(jìn)減?。航o定多角度姿態(tài)輸入圖像x(1)以及圖像x(1)下一級(jí)小姿態(tài)角度圖像
(1)如圖1所示,首先給定多姿態(tài)人臉圖像x(1),其包含姿態(tài)角度p1~pk,且pk>pk-1>...>p1>0,與此對(duì)稱的角度為-pi(i=1,2...k),以p0表示正臉姿態(tài),所以共2k+1種姿態(tài)。這里設(shè)k=3,則輸入圖像共包含7種姿態(tài)角度,分別為{-45°,-30°,-15°,0°,+15°,+30°,+45°};
(2)將x(1)作為第一步進(jìn)自編碼器的輸入,經(jīng)編碼函數(shù)f(x)和編碼參數(shù){w1(1),b1(1)}映射到隱含層h1中,接著隱含層特征h1經(jīng)解碼函數(shù)g(h)和解碼參數(shù){w1(2),b1(2)}又映射到了輸出層y(1)中。編解碼過(guò)程如下所示,
h1=f(x(1))=s(w1(1)x(1)+b1(1))
y(1)=g(h1)=s(w1(2)h1+b1(2))
式中的s(x)是非線性映射sigmoid激活函數(shù),且
(3)經(jīng)過(guò)網(wǎng)絡(luò)的編解碼過(guò)程,接下來(lái)要通過(guò)最小化均方誤差函數(shù)lpose來(lái)實(shí)現(xiàn)姿態(tài)角度的步進(jìn)減小,即將較大姿態(tài)角度-pk(-45°)和pk(+45°)圖像分別映射到下一級(jí)小姿態(tài)角度-pk-1(-30°)和pk-1(+30°)圖像,其余角度分別映射到本身,則在第一步進(jìn)自編碼器中期望輸出圖像的角度范圍為-pk-1-pk-1(-30°-+30°),記為
式中,n是訓(xùn)練樣本個(gè)數(shù);
2)目標(biāo)姿態(tài)特征提?。簩⒉襟E1)中第一步進(jìn)自編碼器的目標(biāo)姿態(tài)角度圖像
將
式中的函數(shù)f和s同步驟1)中的步進(jìn)自編碼器函數(shù),分別為編碼函數(shù)和sigmoid激活函數(shù);
3)構(gòu)建相似度保留自編碼器的總損失函數(shù):步驟1)中第一步進(jìn)自編碼器和步驟2)中的第二半自編碼器構(gòu)成一個(gè)相似度保留自編碼器,在第一步進(jìn)自編碼器的損失函數(shù)lpose中加入相似度保留約束項(xiàng),即對(duì)輸入圖像的隱含層特征h1和目標(biāo)姿態(tài)的隱含層特征
(1)將目標(biāo)姿態(tài)特征
式中的n同樣為訓(xùn)練樣本個(gè)數(shù);
(2)分別對(duì)隱含層特征h1和
接著引入相對(duì)熵(kullback-leiblerdivergence)來(lái)限制隱藏單元的激活度,隱含層特征h1和
式中,ρ0是稀疏度參數(shù),是一個(gè)接近于0的數(shù),這里取值為0.05,通過(guò)施加限制
(3)將步進(jìn)自編碼器的均方誤差損失函數(shù)lpose,相似度保留約束項(xiàng)lhidden以及隱含層的稀疏性正則項(xiàng)lsparse1與lsparse2合起來(lái)構(gòu)成相似度保留自編碼器的總損失函數(shù)ltrain,
ltrain=lpose+αlhidden+β(lsparse1+lsparse2)
式中的α和β是平衡損失函數(shù)中不同項(xiàng)之間的參數(shù),可以分別取值為1,0.001,同時(shí)在本實(shí)施例中,網(wǎng)絡(luò)中隱含層節(jié)點(diǎn)數(shù)取值為2000;
(4)通過(guò)求解總的目標(biāo)函數(shù)式ltrain的最小值點(diǎn),并運(yùn)用共軛梯度(conjugategradients,cg)優(yōu)化算法來(lái)學(xué)習(xí)網(wǎng)絡(luò)參數(shù){w1(i),b1(i)},網(wǎng)絡(luò)參數(shù)的更新公式如下式所示:
上式中,η>0是學(xué)習(xí)速率;
4)堆疊相似度保留自編碼器:步驟3)中得到了第一個(gè)相似度保留自編碼器的總損失函數(shù)ltrain,通過(guò)最小化損失函數(shù),采用隨機(jī)梯度下降法來(lái)訓(xùn)練網(wǎng)絡(luò)參數(shù){w1(1),b1(1)}、{w1(2),b1(2)}和{w1(3),b1(3)},之后將多角度姿態(tài)輸入圖像x(1)通過(guò)訓(xùn)練好的參數(shù){w1(1),b1(1)}得到隱含層特征h1,接著將h1作為第二步進(jìn)自編碼的輸入,取
(1)訓(xùn)練好第一相似度保留自編碼器后,再以多姿態(tài)人臉圖像x(1)作為輸入,計(jì)算隱含層特征h1,此時(shí)的隱含層h1已經(jīng)完成了小姿態(tài)角度的映射,其包含-pk-1-pk-1(-30°-+30°)姿態(tài)范圍內(nèi)圖像的特征;
(2)接著將h1作為第二步進(jìn)自編碼器的輸入,按步驟1)中的第(2)步來(lái)將h1映射到h2,h2又被映射到輸出層y(2);同時(shí)又按照第(3)步來(lái)最小化均方誤差函數(shù)lpose,實(shí)現(xiàn)將角度-pk-1(-30°)和pk-1(+30°)圖像分別映射到下一級(jí)小姿態(tài)角度-pk-2(-15°)和pk-2(+15°)圖像,其余角度分別映射到本身,則在第二步進(jìn)自編碼器中期望輸出圖像的角度范圍為-pk-2-pk-2(-15°-+15°),記為
(3)將h2作為第三步進(jìn)自編碼器的輸入,重復(fù)上述步驟,來(lái)訓(xùn)練第三相似度保留自編碼器網(wǎng)絡(luò),使得最后的姿態(tài)角度均為0°;
5)訓(xùn)練并微調(diào)網(wǎng)絡(luò):經(jīng)過(guò)上述的4個(gè)步驟預(yù)訓(xùn)練過(guò)程后,網(wǎng)絡(luò)的參數(shù)有了初始值,以多角度姿態(tài)圖像x(1)作為微調(diào)網(wǎng)絡(luò)的輸入,在最終的輸出端,以正臉姿態(tài)圖像
當(dāng)預(yù)訓(xùn)練好相似度保留堆疊自編碼器后,網(wǎng)絡(luò)中各層參數(shù){w1(i),b1(i)}有了初始值,在微調(diào)過(guò)程中,以各姿態(tài)角度人臉圖像x(1)再次作為微調(diào)網(wǎng)絡(luò)的輸入,通過(guò)運(yùn)用如下公式逐層將輸入圖像映射到各個(gè)隱含層中,并在輸出層得到重建后的正臉圖像,
h1=f(x(1))=s(w1(1)x(1)+b1(1))
h2=f(h1)=s(w2(1)h1+b2(1))
h3=f(h2)=s(w3(1)h2+b3(1))
y0=f(h3)=s(w3(2)h3+b3(2))
上述各式中,h1,h2,h3為微調(diào)網(wǎng)絡(luò)的隱含層特征,y0為輸出層表達(dá),其包含的圖像角度均為0°,此時(shí),在微調(diào)網(wǎng)絡(luò)的輸出端,以各姿態(tài)角度人臉圖像x(1)所對(duì)應(yīng)的正臉圖像作為網(wǎng)絡(luò)的期望輸出,表示為
接著最小化上式,同樣使用共軛梯度優(yōu)化算法來(lái)學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。經(jīng)過(guò)微調(diào)過(guò)程,進(jìn)一步修正網(wǎng)絡(luò)中的參數(shù),使得參數(shù)達(dá)到最優(yōu)取值;
6)重建與識(shí)別:即重建測(cè)試圖像的正臉圖片,并提取網(wǎng)絡(luò)最高隱含層特征,最后識(shí)別多姿態(tài)人臉圖像。將帶有不同姿態(tài)角度的測(cè)試圖像輸入到訓(xùn)練好的微調(diào)網(wǎng)絡(luò)中,通過(guò)連接訓(xùn)練好的參數(shù),將測(cè)試圖像步進(jìn)映射到多個(gè)隱含層中,在輸出端得到重建好的正臉圖像,接著將正臉圖像和網(wǎng)絡(luò)的最高隱含層特征分別使用線性判別分析法,即lda法進(jìn)行降維來(lái)提取具有判別性的人臉特征,并用最近鄰分類器完成人臉識(shí)別,具體地:
(1)經(jīng)過(guò)訓(xùn)練和微調(diào)后,網(wǎng)絡(luò)獲得了最優(yōu)的參數(shù)取值,在測(cè)試時(shí),輸入多角度姿態(tài)測(cè)試圖像,經(jīng)各層參數(shù)連接將測(cè)試圖像映射到隱含層,在網(wǎng)絡(luò)輸出端得到了重建后的正臉圖像;
(2)將重建后的正臉圖片和網(wǎng)絡(luò)中提取的最高隱含層特征h3分別通過(guò)線性判別分析法降維來(lái)提取具有判別性的人臉特征,然后再通過(guò)最近鄰分類器來(lái)識(shí)別多姿態(tài)人臉圖像;
通過(guò)上述的實(shí)施例步驟,可以將多姿態(tài)人臉圖像重建為正臉圖像,并能夠提取到網(wǎng)絡(luò)的最高隱含層特征,圖4為分別用相似度保留堆疊自編碼器重建后的正臉圖像和網(wǎng)絡(luò)的最高隱含層特征做識(shí)別的結(jié)果圖,從圖中可以看出,用網(wǎng)絡(luò)提取的最高隱含層特征來(lái)做多姿態(tài)人臉識(shí)別后,其識(shí)別率要高于用重建出的正臉圖像做識(shí)別的識(shí)別結(jié)果;但是用重建后的正臉圖像做識(shí)別,其識(shí)別率也相對(duì)較優(yōu)。