本發(fā)明涉及計算機視覺領域,更具體地,涉及一種基于深度局部特征的人臉屬性識別方法。
背景技術:
:在大規(guī)模人臉檢索、圖像理解和人臉識別等應用中,對圖像中人臉的屬性進行結構化分析是非常有用的?;谌四槍傩?,不僅可以構建人臉描述子、更深層次地理解人臉圖像,還可以進一步開展由屬性到圖片再生等有趣的新任務。然而,人臉屬性識別這個問題卻又是極具挑戰(zhàn)性的,因為在現實世界中所捕獲到的人臉往往受到諸如光照和姿態(tài)變化等不利的影響。目前的人臉屬性識別方法通常是對整張人臉圖像提取特征描述,然后再訓練相應的分類器對屬性進行識別的。然而,這些方法所提取到的特征都是全局特征,對于大多數局部屬性而言,存在大量冗余、甚至是不利干擾。技術實現要素:本發(fā)明為解決以上現有技術在進行人臉屬性識別時存在提取的全局特征存在大量冗余、甚至是不利干擾的缺陷,提供了一種基于深度局部特征的人臉屬性識別方法,該方法能夠得到更有魯棒性、更有判別力的特征,從而對非控條件下的人臉屬性具有更高的識別率。為實現以上發(fā)明目的,采用的技術方案是:基于深度局部特征的人臉屬性識別方法,包括以下步驟:一、訓練階段s1.對于訓練集中的每一幅人臉圖像,利用深度卷積神經網絡的不同卷積層計算得到多個尺度下的特征圖;s2.利用得到的多個尺度下的特征圖和人臉圖像n個局部區(qū)域的邊界框類標,分別為n個局部區(qū)域訓練相應的局部區(qū)域定位網絡;其中n為大于2的整數;s3.根據訓練集中的每一幅人臉圖像的多尺度特征圖和n個局部區(qū)域的邊界框類標,計算各個局部區(qū)域的多尺度特征圖;s4.將計算得到的各個局部區(qū)域的多尺度特征圖進行降維,然后將降維后得到的各個局部區(qū)域的特征圖按其局域區(qū)域所在的位置拼接在一起然后進行特征融合;s5.將步驟s4得到的融合特征送入各局部區(qū)域的識別網絡,訓練局部屬性分類器;二、測試階段s6.利用步驟s1提取測試集中人臉圖像多個尺度下的特征圖,然后利用步驟s2得到的局部區(qū)域定位網絡從多個尺度下的特征圖中定位出n個局部區(qū)域;s7.利用定位出的n各局部區(qū)域的邊界框類標及人臉圖像多個尺度下的特征圖算各個局部區(qū)域的多尺度特征圖;s8.對計算得到的各個局部區(qū)域的多尺度特征圖進行降維,然后將降維后得到的各個局部區(qū)域的特征圖按其局域區(qū)域所在的位置拼接在一起然后進行特征融合;s9.利用步驟s5訓練好的局部屬性分類器對融合特征進行屬性識別,得到各局部區(qū)域相關的人臉屬性,將各個局部區(qū)域相關的人臉屬性組合起來,得到測試集中人臉圖像的人臉屬性。與現有技術相比,本發(fā)明的有益效果是:本發(fā)明提供的方法是基于局部區(qū)域特征來進行人臉屬性識別的,局部區(qū)域特征與全部區(qū)域特征相比更有魯棒性和判別力;再者,利用降維和多尺度特征融合,比傳統(tǒng)的降維方式和僅使用最后一層特征的方式,能得到更多有用的深度層級視覺特征;利用局部區(qū)域定位、分類和局部屬性識別,能夠更好的找到各屬性所對應的人臉關鍵特征區(qū)域。附圖說明圖1為訓練階段的示意圖。圖2為測試階段的示意圖。圖3為邊界框差值定義圖。圖4為9個局部區(qū)域的定義圖。具體實施方式附圖僅用于示例性說明,不能理解為對本專利的限制;以下結合附圖和實施例對本發(fā)明做進一步的闡述。實施例1本發(fā)明提供的基于深度局部特征的人臉屬性識別方法可分為訓練階段(包含三個任務)和測試階段:(1)訓練階段的局部區(qū)域定位和分類任務:首先利用深度卷積神經網絡提取訓練集中人臉圖像的多尺度特征,然后利用得到的特征和9個局部區(qū)域的邊界框類標,進行局部區(qū)域定位和分類任務的訓練;(2)訓練階段的局部屬性識別任務:根據訓練集中每個人臉圖像9個局部區(qū)域的邊界框類標和用深度卷積神經網絡提取的多尺度特征,映射計算各局部區(qū)域的多尺度特征,分別進行2dpca降維和特征融合后,送入各自的局部屬性識別網絡進行局部屬性分類器訓練;(3)測試階段:將測試的人臉圖像輸入深度卷積神經網絡得到整幅圖像的多尺度特征,將得到的特征送入局部區(qū)域定位網絡定位得到9個局部區(qū)域位置坐標,根據得到的位置坐標和整圖多尺度特征,映射計算各局部區(qū)域多尺度特征,分別做2dpca降維和特征融合后,送入局部屬性分類器,識別得到局部屬性,組合即為全部人臉屬性。如圖1、2所示,本發(fā)明具體包括下述步驟:步驟1:將人臉圖像數據集中的圖片,部分作為訓練集,剩下的作為測試集;步驟2:對于訓練集中每一個人臉圖像,用深度卷積神經網絡的不同卷積層計算得到不同尺度的特征圖;步驟3:利用得到的特征圖和每個人臉的額頭至頭頂、眉毛、眼睛、鼻子、嘴巴、下巴、脖頸、面部、頭部等9個局部區(qū)域的邊界框類標,訓練局部區(qū)域定位網絡;所述局部區(qū)域定位網絡在進行邊界框回歸訓練時,利用候選邊界框與真值之間的重疊率和9個局部區(qū)域固有的位置關系作為約束條件:記第i個局部區(qū)域邊界框的左上角坐標(xi,yi),寬和高分別為wi,hi;對一給定的像素點(x',y'),記它與第i個局部區(qū)域邊界框(xi,yi,wi,hi)左上角、右下角的坐標差值分別為:(δxli,δyli)和(δxri,δyri),如圖3所示,則顯然:δxli=x'-xi;δyli=y(tǒng)'-yi;δxri=xi+wi-x';δyri=y(tǒng)i+hi-y'若記該點與真值邊界框左上角、右下角的坐標差值分別為和真值邊界框與候選邊界框重疊區(qū)域的寬、高分別為δxi、δyi,則可得:候選邊界框的面積為:si=(δxli+δxri)×(δyli+δyri)真值邊界框的面積為:候選邊界框與真值邊界框重疊面積為:s∩i=δxi×δyi其中,而且,若重疊面積為0,即若或則δxi=0,δyi=0;則可以計算出,第i個局部區(qū)域候選邊界框與真值邊界框的重疊率為:則對于任何一個局部區(qū)域i,真值邊界框的約束關系在loss函數中可以表示為此外,如圖4所示,根據9個局部區(qū)域的標記規(guī)則和人臉圖像固有的生理構造,各局部區(qū)域邊界框之間存在如下約束關系:記額頭至頭頂的區(qū)域、眉毛區(qū)域、眼睛區(qū)域、鼻子區(qū)域、嘴巴區(qū)域、下巴區(qū)域、脖頸區(qū)域、面部區(qū)域、頭部區(qū)域9個局部區(qū)域的邊界框坐標分別為(xi,yi,wi,hi)(i=1,2,...,9),則存在:y1+h1=y(tǒng)2;x2=x3;y2=y(tǒng)3;x3<x4<x4+w4<x3+w3;y3<y4<y5;y5+h5=y(tǒng)6;y6+h6=y(tǒng)7;y8+h8=y(tǒng)9+h9;x8=x9;w8=w9;y9=y(tǒng)1記像素點(x',y')與第i個局部區(qū)域邊界框(xi,yi,wi,hi)左上角、右下角的坐標差值分別為:(δxli,δyli)和(δxri,δyri),則以上約束關系可對應轉化為:δyr1=-δyl2;δxl2=δxl3;δyl2=δyl3;-δxl3<-δxl4<δxr4<δxr3;δyl3>δyl4>δyl5;δyr5=-δyl6;δyr6=-δyl7;δyr8=-δyl9;δxl8=δxl9;δxl8+δxr8=δxl9+δxr9;δyl9=δyl1定義條件函數則:以δyr1=-δyl2;δyr5=-δyl6;δyr6=-δyl7;δyr8=-δyl9作為約束,取相應loss函數為l″loc1i=β1(i)|δyri+δyli+1|以δyl2=δyl3;-δxl3<-δxl4;δxr4<δxr3;δyl3>δyl4作為約束,取相應loss函數為l″loc2i=β3(i)(|δyli-1-δyli|+θ(δxli-δxli+1)+θ(δxri-δri+1)+θ(δyli-δyli+1))以δxl2=δxl3;δxl8=δxl9作為約束,取相應loss函數為l″loc3i=β2(i)|δxli-δxli+1|以δyl9=δyl1作為約束,取loss函數為l″loc4i=β4(i)(δyli-δyli-8|+|δxri-1-δxri|)以-δxl4<δxr4;δyl4>δyl5作為約束,取相應loss函數為l″loc5i=β5(i)(θ(δxri+δxli)+θ(δyli-δyli+1))以上約束均為兩個局部區(qū)域相對位置關系的局部約束,組合起來,即可做為整個人臉9個局部區(qū)域間的邊界框約束條件:l″loci=l″loc1i+l″loc2i+l″loc3i+l″loc4i+l″loc5i=β1(i)|δyri+δyli+1|+β3(i)(|δyli-1-δyli|+θ(δxli-δxli+1)+θ(δxri-δxri+1)+θ(δyli-δyli+1))+β2(i)|δxli-δxli+1|+β4(i)(|δyli-δyli-8|+|δxri-1-δxri|)+β5(i)(θ(δxri+δxli)+θ(δyli-δyli+1))綜上,利用候選邊界框與真值之間的重疊率和9個局部區(qū)域固有的位置關系作為約束條件,可得第i個局部區(qū)邊界框回歸的loss函數為:步驟4:根據訓練集每個人臉圖像的多尺度特征圖和局部區(qū)域的邊界框類標,計算各局部區(qū)域的多尺度特征圖;對于一幅w×h的人臉圖像,定義第i個局部區(qū)域的邊界框坐標為(xi,yi,wi,hi)(i=1,2,...,9),若該人臉圖像經過第j個卷積層之后,所得到的特征圖尺寸為wj×hj(j=1,2,...),則該人臉圖像第i個局部區(qū)域在第j個特征圖上所對應的特征區(qū)域坐標為:由此即可得到全部9個局部區(qū)域各自的多尺度特征圖。步驟5:對步驟4得到各局部區(qū)域的多尺度特征圖進行2dpca降維,并把降維后得到的特征按區(qū)域連接到一起進行特征融合;對于任一尺度,記訓練樣本的數目為n,sni為第n個樣本的第i個局部區(qū)域在該尺度下的特征圖,表示該尺度下所有樣本第i個局部區(qū)域的特征圖均值,則可以得到,該尺度下第i個局部區(qū)域在整個樣本集的協方差矩陣為:則按照廣義總體散布準則,第i個局部區(qū)域所對應的投影矩陣的目標函數可以表示為:選取協方差矩陣ci的前d個較大的特征值所對應的特征向量作為最優(yōu)投影軸:則可得第i個局部區(qū)域所對應的的最優(yōu)投影矩陣xi=[xi1,xi2,...,xid],則所選尺度下,第n個樣本的第i個局部區(qū)域投影后的特征圖為yni=snixi,即為降維后的新的特征圖。把降維后得到的新的多尺度特征,分別按區(qū)域連接為一個列向量來進行特征融合,作為各局部區(qū)域提取的總特征。步驟6:把步驟5得到的融合特征送入各局部區(qū)域的識別網絡,訓練局部屬性分類器;三個訓練任務同時進行:局部區(qū)域邊界框回歸、局部區(qū)域類別識別、局部區(qū)域屬性識別??傮w目標損失函數是三個任務損失函數的加權和:其中,n為訓練樣本的數目,m為第i個局部區(qū)域相關的屬性個數,λ1,λ2,λ3是三個任務的loss權重;(1)llocji:局部區(qū)域邊界框回歸loss根據步驟3的詳細推導:(2)lconfji:局部區(qū)域類別識別loss定義表示第j張樣本圖片的第i個邊界框區(qū)域是真類u的概率,表示真值標記,則(3)lattrjim:局部區(qū)域屬性識別loss定義第j張樣本圖片的第i個邊界框內包含m個人臉屬性,yjim和fm(xji)分別表示第m個屬性的真值類標和預測值,則lattrjim=||fm(xji)-yjim||2步驟7:將測試集人臉圖像通過步驟2提取多尺度特征,輸入步驟3定位得到9個局部區(qū)域,利用步驟4計算得到各局部區(qū)域的多尺度特征,并利用步驟5進行2dpca降維和特征融合,然后用步驟6訓練好的分類器進行屬性識別,得到各局部區(qū)域相關的人臉屬性,組合起來即得到全部人臉屬性。本實施例通過以下實驗對本發(fā)明的效果進行說明:選擇celeba人臉數據庫,該數據庫共有202599張人臉圖像,每張均標注40個人臉屬性。按6:3:1的比例,隨機選取相應數目的圖片,分別用于訓練、驗證和測試。按照本發(fā)明算法的步驟,首先用深度卷積神經網絡提取訓練集人臉圖像的多尺度特征,進行局部區(qū)域定位和分類任務、局部屬性識別任務的訓練,然后用訓練得到的多任務屬性識別模型對測試集圖像40個人臉屬性進行識別,得到最終的識別結果。對于該實驗,一共評估了5種不同的方法,它們是:triplet-knn、panda、anet、lmle-knn和本發(fā)明提出的方法。5種方法對40個人臉屬性的識別準確率和平均準確率如表1所示,其中前四種方法的準確率數據引自2016年發(fā)表在cvpr的《learningdeeprepresentationforimbalancedclassification》。由表1可知,本發(fā)明所提出方法的平均檢測準確率最高,而且對于局部屬性的識別準確率普遍遠遠高于其他四種方法,說明有針對性地提取人臉局部區(qū)域的特征,比用整幅人臉圖像來做屬性識別效果要好。表1:本發(fā)明方法在celeba數據庫上與其他方法的比較attributetriplet-knnpandaanetlmle-knn本發(fā)明5_o_clock_shadow6676818287arched_eyebrows7377767982attractive8385878883bags_under_eyes6367707380bald7574739097bangs8192909894big_lips5556576069big_nose6872788080black_hair8284909289blond_hair8191909994blurry4350565989brown_hair7685838782bushy_eyebrows6874828286chubby6465707988double_chin6064687484eyeglasses8288959899goatee7384869595gray_hair7279859191heavy_makeup8895969892high_cheekbones8689899288male9199999999mouth_slightly_open9293969694mustache5763617393narrow_eyes4751575979no_beard8287939693oval_face6166676866pale_skin6369778091pointy_nose6167697272receding_hairline6067707685rosy_cheeks6468767889sideburns7181798896smiling9298979994straight_hair6366697372wavy_hair7778818376wearing_earrings6977838386wearing_hat8490909996wearing_lipstick9197959991wearing_necklace5051595978wearing_necktie7385799092young7578848777average7277808487顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于所屬領域的普通技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發(fā)明權利要求的保護范圍之內。當前第1頁12