一種小樣本情況下多稀疏表示的人臉識別方法
【專利摘要】一種小樣本情況下多稀疏表示的人臉識別方法,該方法采用兩種方式來解決人臉識別中的小樣本情況,一是由給定的原始訓(xùn)練樣本產(chǎn)生“虛擬樣本”,增加訓(xùn)練樣本數(shù);二是在產(chǎn)生虛擬樣本的基礎(chǔ)上,用三種非線性特征抽取方法,即核主成分分析、核鑒別分析和核局部保持投影算法,抽取樣本的特征;這樣就會得到三類特征模式,對每種特征模式構(gòu)建稀疏表示模型;對每個樣本總共構(gòu)建三個稀疏表示模型,最后根據(jù)表示結(jié)果來分類。本發(fā)明提供的多稀疏表示分類方法通過對稱鏡像產(chǎn)生虛擬人臉,再構(gòu)建基于L1范數(shù)的多稀疏表示模型并分類。本方法與其它分類方法相比,該方法魯棒性強,分類效果好,特別適用于很多數(shù)據(jù)維數(shù)高且訓(xùn)練樣本少的分類場合。
【專利說明】一種小樣本情況下多稀疏表示的人臉識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種小樣本情況下多稀疏表示的人臉識別方法,屬模式識別與機器學(xué) 習(xí)【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] 隨著計算機、網(wǎng)絡(luò)和多媒體等技術(shù)的發(fā)展,人們需要處理的高維復(fù)雜數(shù)據(jù)如圖像 和視頻等數(shù)據(jù)日益增多,對這些數(shù)據(jù)處理大多是分類或識別。近年來,圖像識別的一個重要 分支即生物特征識別方興未艾,是當(dāng)前模式識別領(lǐng)域的一個研究熱點。相對于其他生物特 征識別技術(shù)如指紋識別,人臉識別由于其使用方便被廣泛關(guān)注和使用。例如,911之后,美 國在多個機場采用人臉識別系統(tǒng),2008年北京奧運會和2012年的倫敦奧運會均使用了人 臉識別系統(tǒng),這些系統(tǒng)極大地提高了對觀眾和其他相關(guān)人員的身份認(rèn)證和識別等工作的效 率。
[0003] 最近一二十年來,涌現(xiàn)了許多人臉識別方法。典型的算法有基于幾何特征的方法 和基于統(tǒng)計學(xué)習(xí)的算法等。基于幾何特征的識別方法目的是提取人臉圖像的二維特征如形 狀和紋理,以及三維模型,它們主要用于匹配來識別人臉?;诮y(tǒng)計學(xué)習(xí)方法主要抽取人臉 圖像的統(tǒng)計特征,再用某一分類器對人臉分類。這類方法的經(jīng)典代表有主成分分析法,線性 鑒別分析方法和基于核的人臉識別方法等。我們知道,現(xiàn)實生活中的很多事物都具有稀疏 性這一普遍特點。在人臉識別領(lǐng)域,最新研究表明,在每一類人臉圖像樣本較充分的情況 下,這些人臉樣本可以張成一個人臉子空間,此類人臉的每一幅圖像都能由這個子空間線 性表示或逼近。也就是說,來自這一類的人臉圖像可以用此類全體人臉圖像的線性組合來 表示,至少可以近似表示。因此,當(dāng)用訓(xùn)練樣本的全體表示一測試樣本時,和測試樣本同類 的訓(xùn)練樣本的表示系數(shù)中非零的個數(shù)較多,而其他類的訓(xùn)練樣本的表示系數(shù)大都是零或接 近零,也即表示系數(shù)是稀疏的?;谶@樣的思想,經(jīng)典的基于稀疏表示的人臉識別方法被提 出,并引起了很多關(guān)注。
[0004] 經(jīng)典稀疏表示方法對人臉圖像帶有噪聲情況如遮擋等識別效果比較好,即可以達 到魯棒的人臉識別效果,這也是該方法在人臉識別領(lǐng)域受到廣泛關(guān)注的主要原因。不過,該 方法取得好的識別效果需要有下面的假設(shè),即對測試樣本的表示需充分稀疏。然而,這個假 設(shè)在很多應(yīng)用場合并不滿足,特別是在訓(xùn)練樣本個數(shù)很少,甚至是單幅訓(xùn)練樣本圖像時,經(jīng) 典稀疏表示方法的分類效果會不理想。但是,在現(xiàn)實生活中,有很多應(yīng)用領(lǐng)域獲取訓(xùn)練圖像 比較困難或代價比較大。比如,安全部門在采集人臉圖像時,由于條件受限,一般很難采集 充分多的人臉圖像,有時甚至是在人們不知情的情況下采集的,大都只采集一張圖像樣本。 其中,最典型的代表就是身份證的人臉正面圖像,每人一張。在這種情況下,雖然稀疏表示 分類方法仍可以使用。但是,由于訓(xùn)練樣本個數(shù)很少,用它們表示測試樣本將很難得到稀疏 的表示模型。根據(jù)稀疏表示理論,如果對測試樣本的表示模型越稀疏,則基于此模型的分類 或識別效果會越好。因此,經(jīng)典稀疏表示分類算法,對訓(xùn)練樣本個數(shù)很少甚至只有一個(為 簡便起見,在此稱為"小樣本"),將不能很好發(fā)揮作用。
[0005] -般地,人臉識別時需要把人臉圖像拉成一列或一行向量,每個像素點對應(yīng)向量 的一個分量。由于人臉圖像包含有成千上萬個像素點,因此,把人臉樣本圖像拉成向量后, 此樣本向量的維數(shù)往往都很高。在很多人臉識別方法包括經(jīng)典的稀疏表示分類算法,都需 要將樣本向量的維數(shù)降低,這既可以降低算法的時間復(fù)雜度,又在某種程度上去除噪聲。降 維的過程其實也是特征抽取的過程,根據(jù)機器學(xué)習(xí)和模式識別理論,特征抽取有很多種,其 中近年來比較流行的經(jīng)典的方法是基于子空間學(xué)習(xí)的特征抽取,它有線性與非線性兩類方 法。第一類線性方法主要有主成分分析,線性鑒別分析和局部保持投影等算法。第二類非 線性方法主要是基于核的子空間特征抽取方法,如核主成分分析、核鑒別分析和基于核的 局部保持投影方法。與線性特征抽取方法相比,非線性特征抽取算法實現(xiàn)起來稍顯復(fù)雜,但 是它可以抽取數(shù)據(jù)中的有利于分類的非線性信息。
[0006] 我們知道,人臉圖像數(shù)據(jù)分布都比較復(fù)雜,其類別之間的邊界一般是非線性的。也 可以說,人臉樣本數(shù)據(jù)含有很多非線性信息。如果在降維的時候能夠獲取這些有利于分類 的非線性信息,則能使分類器獲得更好的效果。因此,在本發(fā)明中,采用非線性特征抽取算 法對數(shù)據(jù)降維,同時,又能獲取數(shù)據(jù)中的非線性信息,從而提高分類效果。
[0007] 如前所述,小樣本情況下的稀疏表示分類算法的識別效果并不理想,其主要原因 就是訓(xùn)練樣本或訓(xùn)練樣本的特征模式過少導(dǎo)致。解決此問題的辦法就是增加訓(xùn)練樣本或特 征模式。因為在不少場合,訓(xùn)練樣本不容易采集,直接增加樣本往往比較困難。但是,一個 訓(xùn)練樣本可以看作是由訓(xùn)練樣本集抽樣得到。這個訓(xùn)練樣本集的其他樣本和所給的訓(xùn)練樣 本有很多相似之處,對所給定的訓(xùn)練樣本做一些變換,得到的新的樣本仍然可以當(dāng)作訓(xùn)練 集中的一個元素。這一新樣本在此稱為"虛擬樣本",在訓(xùn)練中,它和實際樣本的地位應(yīng)是相 等的,也可以用來被訓(xùn)練。另一方面,對于一個樣本,每使用一個特征抽取方法,就會得到一 個特征模式。
[0008] 綜上所述,稀疏表示分類在人臉識別中是有很大優(yōu)勢的。盡管會遇到小樣本情況, 但只要處理得當(dāng),比如,增加訓(xùn)練樣本或特征模式,將會有效提高經(jīng)典稀疏表示分類精度, 并能擴展其應(yīng)用范圍。最近,中國專利公開了一種基于核函數(shù)與稀疏編碼的高清圖像分類 方法(
【發(fā)明者】范自柱, 倪明, 康利攀 申請人:華東交通大學(xué)