基于有監(jiān)督圖的直推式數(shù)據(jù)降維方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,特別涉及一種高維數(shù)據(jù)降維方法,可用于數(shù)據(jù)與 計算機圖像識別。
【背景技術(shù)】
[0002] 近些年來,隨著計算機技術(shù)和制造業(yè)的發(fā)展,智能設(shè)備已經(jīng)全面普及,比如智能手 機,智能手環(huán)等等。幾乎每臺智能設(shè)備都有大量的傳感器,從而采集各方面的數(shù)據(jù)。大量智 能設(shè)備的普及隨之而來的是原始數(shù)據(jù)的爆炸性增長。當(dāng)我們獲得越來越多的數(shù)據(jù),如何充 分利用數(shù)據(jù)中的信息,已經(jīng)成為學(xué)術(shù)界研究的焦點。數(shù)據(jù)降維就是用于解決這些問題的有 效手段。數(shù)據(jù)降維旨在利用普及的計算機自動的探索原始數(shù)據(jù)中的信息,發(fā)現(xiàn)潛藏在大量 的混亂數(shù)據(jù)背后的本質(zhì)特征。數(shù)據(jù)降維的主要代表方法有主成分分析PCA,局部保持投影 LPP,線性判別分析LDA等。
[0003] 隨著信息技術(shù)以及傳感器技術(shù)的發(fā)展,通過傳感器可直接獲取的大量無標(biāo)記樣 本,相比之下,有標(biāo)記的樣本則難以獲得。比如醫(yī)學(xué)圖像處理,通過現(xiàn)代化的儀器獲取數(shù)量 龐大的醫(yī)學(xué)影像是容易的,但是讓醫(yī)生人工標(biāo)注全部圖像,需要耗費昂貴的人力物力。而直 推式降維方法最顯著的優(yōu)點是自動地結(jié)合少量的標(biāo)記樣本和大量的未標(biāo)記樣本進行訓(xùn)練 來完成數(shù)據(jù)降維,明顯的提高了效率并且降低了人力成本,具有重要的現(xiàn)實意義。目前,直 推式降維方法已經(jīng)成功地應(yīng)用于人臉識別、圖像分類、圖像檢索等領(lǐng)域中。
[0004] 直推式降維方法的基本模型如下:給定一個d維隨機向量X,它的η個觀察值被記作 xj(j = l,2, · · ·η),構(gòu)成矩陣Χ=(χι,χ2, · · ·,χη)。其中有標(biāo)記數(shù)據(jù)集為V={(xi,ki),(X2, k2), · · · , (Xi,ki)},無標(biāo)記數(shù)據(jù)集為υ= {χι+ι,χι+2, · · · ,Χη},并有X = VUU,其中,kj是數(shù)據(jù)Xj 的類標(biāo),1是有標(biāo)記樣本數(shù)量。將矩陣X投影到r (r << d)維的子空間中去,并且有Y = XE。其 中降維后的矩陣,EeRd&是投影矩陣。這種方法通過選擇合適投影矩陣可以壓縮原 始數(shù)據(jù)的維度,找出數(shù)據(jù)的本質(zhì)特征。
[0005] Sugiyama等人于2010年提出了半監(jiān)督局部費舍爾判別分析SELF方法,SELF的基本 思想是用基于全局分布結(jié)構(gòu)的PCA來懲罰LFDA在標(biāo)記樣本很少的情況下地過度擬合。但是 該方法沒有考慮全部樣本的局部結(jié)構(gòu)信息。
[0006] 劉威等人提出了一種同時訓(xùn)練標(biāo)記樣本和預(yù)測樣本的直推式成分分析TCA。該TCA 方法是利用雙重優(yōu)化準(zhǔn)則來訓(xùn)練基于幾何圖框架的特征子空間。但是該方法在投影k近鄰 圖時沒有考慮樣本的類標(biāo)信息。
[0007] 因此,上述SELF和TCA方法降維后數(shù)據(jù)的分類識別效果均不理想。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的在于針對上述已有技術(shù)的不足,提出一種基于有監(jiān)督圖的直推式數(shù) 據(jù)降維方法,以在無標(biāo)記樣本數(shù)量較多和有標(biāo)記樣本數(shù)量較少的情況下,有效地實現(xiàn)對數(shù) 據(jù)的特征提取及降維,進而提高后續(xù)的數(shù)據(jù)分類效果。
[0009] 本發(fā)明的技術(shù)思路是:通過在全部樣本上構(gòu)建一個K近鄰圖,并利用樣本類標(biāo)信息 構(gòu)建類間無向圖與類內(nèi)無向圖,以Κ近鄰圖和類內(nèi)無向圖作為約束,將樣本投影到新的特征 空間中去,得到具有更好分布結(jié)構(gòu)的有監(jiān)督投影圖,通過在保持有監(jiān)督圖結(jié)構(gòu)信息時加入 類間無向圖作為約束,有效地實現(xiàn)對數(shù)據(jù)的特征提取及降維。其實現(xiàn)方案包括如下:
[0010] (1)輸入n = FXP幅原始圖像,對這些圖像進行校準(zhǔn)和對齊,將其裁剪為相同尺寸, 其中F為原始圖像類別數(shù),P為每一類圖像的張數(shù);
[0011] (2)將每幅圖像像素點的灰度特征值按行取出并順序排列形成一個d維行向量Xj, 組成一個nXd的矩陣,對該矩陣的每一行進行歸一化,得到原始矩陣X=(xi,x2,. . .,χη);
[0012] ⑶將每幅圖像的類標(biāo)順序排列形成一個η維列向量,即類標(biāo)向量G,其中無標(biāo)記樣 本的類標(biāo)為〇;
[0013] (4)根據(jù)原始矩陣X,計算第一拉普拉斯矩陣L;
[0014] (5)根據(jù)類標(biāo)向量G,計算第二拉普拉斯矩陣L1;
[0015] (6)根據(jù)第一拉普拉斯矩陣L和第二拉普拉斯矩陣L1,計算有監(jiān)督圖的相似度矩陣 S:
[0016]
[0017] 其中,I為單位矩陣,α是K近鄰圖影響因子,β是類內(nèi)無向圖影響因子;
[0018] (7)根據(jù)類標(biāo)向量G,計算類間權(quán)重矩陣
[0019] (8)根據(jù)有監(jiān)督圖的相似度矩陣S和類間權(quán)重矩陣F,計算投影矩陣E:
[0020] 選取特征維數(shù)r= {5,10, ...,50},利用下式求解廣義特征值:
[0021] XTSXa = AXT(D-yffc)Xa,
[0022] 其中,a是特征向量,λ是特征值,γ是類間無向圖影響因子;
[0023] 將求解得到的特征值按絕對值從大到小的順序排列,選擇前r個絕對值大的特征 值對應(yīng)的特征向量ai,順序排列得到投影矩陣E=(ai,a2, . . .,ai, . . .ar);
[0024] (9)根據(jù)投影矩陣E計算降維后的矩陣Y=XE。
[0025] 本發(fā)明與現(xiàn)有技術(shù)對比,具有如下優(yōu)點:
[0026] 第一,本發(fā)明利用類標(biāo)信息構(gòu)建有監(jiān)督圖,有效地兼顧了樣本的分布信息和類標(biāo) ?目息,提尚了識別性能。
[0027] 第二,本發(fā)明以類間無向圖作為約束,使得相鄰的不同類樣本在分布空間中更加 疏遠(yuǎn),提高后續(xù)數(shù)據(jù)分類效果。
【附圖說明】
[0028]圖1為本發(fā)明的實現(xiàn)流程圖;
[0029]圖2為本發(fā)明仿真使用的0RL人臉庫的圖像樣本;
[0030]圖3為本發(fā)明與現(xiàn)有三種方法在0RL人臉庫中選擇2個標(biāo)記樣本時分類準(zhǔn)確率隨維 數(shù)變化曲線;
[0031] 圖4為本發(fā)明與現(xiàn)有三種方法在0RL人臉庫中選擇3個標(biāo)記樣本時分類準(zhǔn)確率隨維 數(shù)變化曲線;
[0032] 圖5為本發(fā)明仿真使用的BANCA人臉庫的圖像樣本;
[0033]圖6為本發(fā)明與現(xiàn)有三種方法在BANCA人臉庫中選擇3個標(biāo)記樣本時分類準(zhǔn)確率隨 維數(shù)變化曲線;
[0034] 圖7為本發(fā)明與現(xiàn)有三種方法在BANCA人臉庫中選擇4個標(biāo)記樣本時分類準(zhǔn)確率隨 維數(shù)變化曲線;
[0035] 圖8為本發(fā)明仿真使用的雷達輻射源信號模糊函數(shù)特征數(shù)據(jù)庫中的樣本;
[0036] 圖9為本發(fā)明與現(xiàn)有三種方法在雷達輻射源信號模糊函數(shù)特征數(shù)據(jù)庫中選擇4個 標(biāo)記樣本時分類準(zhǔn)確率隨維數(shù)變化曲線;
[0037] 圖10為本發(fā)明與現(xiàn)有三種方法在雷達輻射源信號模糊函數(shù)特征數(shù)據(jù)庫中選擇8個 標(biāo)記樣本時分類準(zhǔn)確率隨維數(shù)變化曲線;
【具體實施方式】
[0038]下面結(jié)合附圖對本發(fā)明的具體實施步驟和效果做進一步的詳細(xì)描述。
[0039]參照圖1,本發(fā)明的實現(xiàn)步驟如下:
[0040] 步驟1.輸入原始圖像。
[0041] 輸入n = FXP幅原始圖像,并對這些圖像進行校準(zhǔn)和對齊后,裁剪為大小相同的尺 寸,其中F為原始圖像類別數(shù),P為每一類圖像的張數(shù)。
[0042] 步驟2.利用原始圖像得到原始矩陣X。
[0043] 將每幅原始圖像像素點的灰度特征值按行取出,并順序排列形成一個d維行向量, 組成一個η X d的矩陣X ',對矩陣X '的每一行進行歸一化,使得矩陣X '的每一行各元素的和 等于1即:
其中,V'j是矩陣X'的第j行向量,x'i是行向量V'j第i個元素,Vj是歸一 化后矩陣X的第j行,」= 1,2···,η;
[0044] 將歸一化后的行向量vj按順序排列構(gòu)成原始矩陣X,即X= {vi,···,vj,…,vn}。
[0045] 步驟3.利用原始圖像得到類標(biāo)向量G。
[0046] 每類圖像有P個樣本,從中隨機選擇m個樣本作為有標(biāo)記樣本,余下的為無標(biāo)記樣 本,其中無標(biāo)記樣本的類標(biāo)為〇,將每幅圖像的類標(biāo)順序排列形成一個η維列向量,即類標(biāo)向 量G。
[0047]步驟4.根據(jù)原始矩陣X計算第一拉普拉斯矩陣L。
[0048] (4.1)選取最近鄰系數(shù)Κ = 5,計算Κ近鄰圖的權(quán)重矩陣
[0049]
[0050]其中w(Xl,Xj)是W中第i行,第j列的元素項,
[0051]
[0052]其中,σ是平滑因子;
[0053] (4.2)根據(jù)Κ近鄰圖的權(quán)重矩陣W,計算第一拉普拉斯矩陣L = D-W,D為對角矩陣,該 對角矩陣的第j行第j列元素叫=Σ 1Wjl;
[0054] 步驟5.根據(jù)類標(biāo)向量G計算第二拉普拉斯矩陣L1。
[0055] (5.1)在不同數(shù)據(jù)庫下每類圖像隨機選取2~10幅作為標(biāo)記樣本,計算類內(nèi)無向圖 的權(quán)重矩陣
[0056]其中^(Χι,&)是W1中第i行,第j列的元素項:
[0057]
[0058] 其中,Ci是樣本點Xi所在類別;
[0059] (5.2)根據(jù)類內(nèi)無向圖的權(quán)重矩陣W1,計算第二拉普拉斯矩陣為對角 矩陣,該對角矩陣的第j行第j列元素
[0060] 步驟6.計算有監(jiān)督圖的相似度矩陣S。
[0061] (6.1)由第一拉普拉斯矩陣L和第二拉普拉斯矩陣L1,構(gòu)建原始矩陣X的有監(jiān)督投 影目標(biāo)函數(shù):
[0062] J(h,f)=| |XTh-f| 12+af TLf+0f Vf <1>
[0063] 其中,f是投影函數(shù),a是近鄰圖影響因子,β是類內(nèi)無向圖影響因子,h是投影向量;
[0064] (6.2)由投影的目標(biāo)函數(shù)推導(dǎo)出相似度矩陣:
[0065] 對〈1>式計算投影函數(shù)f的偏導(dǎo)數(shù)并令結(jié)果等于零,得到:
[0066]
<2>
[0067]根據(jù)〈2>式求解得到:
[0068]
_<3_>
[0069] 其中,I為單位矩陣,a是K近鄰圖影響因子,β是類內(nèi)無向圖影響因子;
[0070] 將f*代入〈1>式中消除f,得到:
[0071] J(h)=J(h,f*) = | | (aL+eL1)^! | ^af^Lf^f^Vf*
[0072] = f*τ (aL) (I +αΙ+β?:) f *+f*τ (PL1) (I +αΙ+β?:) f* <4>
[0073 ] = hTX (I+aL+PL1)-1 (aL+虬1 )XTh = hTXSXTh
[0074] 由〈4>得到相似度矩陣S:
[0075]
[0076] 步驟7.根據(jù)類標(biāo)向量G計算類間權(quán)重拓陡W、
[0077] 根據(jù)類標(biāo)向量G,計算類間權(quán)重矩P 其中F中第i行,第j列的元素項^Χι,Χι):
[0078]
[0079] 步驟8·計算投影矩陣E=(an,an-l,…a n-r+l)。
[0080] 選取特征維數(shù)r= {5,10,...,50},求解廣義特征值公式:
[0081] XTSXa = AXT(D-yffc)Xa,
[0082] 其中,a是特征向量,λ是特征值,γ是類間無向圖影響因子;
[0