基于局部約束的圖優(yōu)化維數(shù)約簡方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明屬于數(shù)字圖像處理領(lǐng)域。
【背景技術(shù)】
[0002] 真實世界中的很多數(shù)據(jù)都是高維的,盡管高維數(shù)據(jù)擁有更多的信息量,但在實際 應(yīng)用中對高維數(shù)據(jù)進行直接操作會帶來維數(shù)災(zāi)難、空空間現(xiàn)象和集中現(xiàn)象等。為了解決高 維數(shù)據(jù)所面臨的問題,維數(shù)約簡是一個有效的方法,通過降維能夠有效地消除無關(guān)和冗余 特征,可以提高挖掘任務(wù)的效率,揭示數(shù)據(jù)的本質(zhì)規(guī)律,改善預(yù)測性能等。因此,維數(shù)約簡通 常是很多實踐應(yīng)用的重要環(huán)節(jié),具有重要的現(xiàn)實研究價值。
[0003] 目前,現(xiàn)有的維數(shù)約簡方法可分為兩類:線性方法和非線性方法。線性方法通過 學(xué)習(xí)一個線性變換將高維空間中的數(shù)據(jù)點映射到低維度空間中。具有代表性的線性降維方 法有主成分分析(PCA)和線性判別分析(LDA)。盡管這類方法能夠得到低維表示并且具有 操作簡單的特點,但是它們不能挖掘高維數(shù)據(jù)的本征非線性結(jié)構(gòu)。因此,學(xué)者們提出了大量 的非線性流形方法,如等距離特征映射(IS0MAP),局部線性嵌入(LLE)和拉普拉斯特征映 射(LE)等。雖然這類方法在一些基準人工數(shù)據(jù)集上得到了理想的效果,但是它們只能獲得 訓(xùn)練樣本的低維表示而不能給出高維到低維的顯示函數(shù)映射,即不能獲得測試樣本的低維 表示。因此,這些非線性降維方法不適合分類和識別任務(wù)。為了克服這個限制,一系列線性 化的流形學(xué)習(xí)方法相繼被提出,該類方法都是基于圖構(gòu)建的降維方法,且能夠?qū)W習(xí)到一個 從高維數(shù)據(jù)變換到低維子空間的投影矩陣,如鄰域保持嵌入(NPE)和局部保持投影(LPP)。 具體地說,首先根據(jù)輸入數(shù)據(jù)或先驗知識構(gòu)建一個圖,然后基于構(gòu)建的圖得到低維表示。因 此,圖的構(gòu)建在維數(shù)約簡方法中變得尤為重要。
[0004] 然而,在實際中,構(gòu)建一個高質(zhì)量的圖通常十分困難。基于k近鄰和ε圖是兩種 簡單且應(yīng)用廣泛的構(gòu)圖方法,如ISOMAP,LLE,ΝΡΕ和LPP方法。在這些方法中,k和ε的 值經(jīng)常需要經(jīng)驗地給出,如果這兩個參數(shù)值設(shè)置得不合適,就不能很好地挖掘高維數(shù)據(jù)的 本征結(jié)構(gòu)。而且,這兩種方法通常對所有樣本都設(shè)置相同的近鄰參數(shù)而忽略每個樣本的不 同局部結(jié)構(gòu),進而降低方法的性能。針對這一問題,Yang和Chen等提出一個樣本相關(guān)方法 構(gòu)建圖,該方法根據(jù)樣本對間的相似性自適應(yīng)地決定每個樣本的鄰域?;谙∈璞硎纠碚?, Qiao等人提出了一種稀疏保持投影降維方法(SPP),該方法利用L1范數(shù)正則化的最小二乘 方法自動的進行圖構(gòu)建。Liu等人提出低秩表示的方法進行圖構(gòu)建(LRR),通過強制稀疏表 示系數(shù)是低秩的,可以聯(lián)合地獲得所有高維數(shù)據(jù)的低維表示,進而保持了數(shù)據(jù)的全局結(jié)構(gòu)。 雖然這類方法能夠在一定從程度上能夠克服k近鄰和4圖方法的限制,其主要缺點是圖的 構(gòu)建過程是獨立于后續(xù)的維數(shù)約簡任務(wù)。也就是說,在維數(shù)約簡過程中圖是固定的,進而降 低維數(shù)約簡任務(wù)的性能。
[0005] 最近,圖優(yōu)化成為研究的一個熱點。Zhang等人提出了一個圖優(yōu)化的局部保持投影 方法(GoLPP),該方法將圖構(gòu)建和維數(shù)約簡過程集成到一個統(tǒng)一的框架。Qiao等人提出自 適應(yīng)圖的維數(shù)約簡方法(DRAG),該方法聯(lián)合地構(gòu)建圖和學(xué)習(xí)投影矩陣。Zhang等人提出基 于稀疏約束的圖優(yōu)化算法進行維數(shù)約簡(GODRSC),通過加入L1正則項,該方法能夠獲得一 個更靈活的稀疏圖。這三種方法將圖構(gòu)建和維數(shù)約簡聯(lián)合在一起,在學(xué)習(xí)投影矩陣過程中 自動的更新圖并且獲得了良好的性能。然而,這些方法忽略了原始高維數(shù)據(jù)的局部信息,即 沒有考慮原始高維數(shù)據(jù)的相似性,進而不能保證相近的高維樣本在低維空間中也相近,導(dǎo) 致降維效果不是很理想。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提出一種基于局部約束的圖優(yōu)化維數(shù)約簡方法,以解決降維效果不很理想 的問題。
[0007] 本發(fā)明采取的技術(shù)方案包括以下步驟:
[0008] 1、讀取高維數(shù)據(jù)=ix15x2,...,x"}e叱其中,Xi為第i個樣本,D為樣本維數(shù),η 為樣本個數(shù);
[0009] 2、構(gòu)建基于近鄰重構(gòu)關(guān)系的局部約束;
[0010] 為了使高維數(shù)據(jù)的低維表示能夠保持原始數(shù)據(jù)的局部關(guān)系,在求投影矩陣過程中 需構(gòu)建一個圖矩陣S,利用一個樣本的近鄰重構(gòu)該樣本能夠有效地捕捉數(shù)據(jù)的局部信息,因 此在構(gòu)建圖矩陣S過程中考慮如下約束關(guān)系:
[0011]
⑴
[0012] 其中,圾代表對應(yīng)元素相乘操作,Ae3Txl為樣本Xi 的指示向量,exp(||χ?-χ」II2/σ)
"xn為圖矩陣,S 為圖矩陣S的第i列;
[0013] 3、構(gòu)建基于樣本相似性的局部約束;
[0014] 考慮到在高維空間中相近的樣本應(yīng)該具有相似的重構(gòu)系數(shù),因此在構(gòu)建圖矩陣S 過程中考慮如下約束關(guān)系:
[0015]
[0016] 其中,S.jPS.為圖矩陣S的第i列和第j列,分別表示樣本X占X郝重構(gòu)系 數(shù),exp(_ | |X?-χ」| |2/ 〇 )為熱核函數(shù);
[0017] 4、構(gòu)建基于兩種局部約束的維數(shù)約簡目標函數(shù):
[0018]
[0019] s.t.P'P=I
[0020] 其中,戶ed/J? 為投影矩陣,Oq-XS.J表示樣本\被X中其它樣本重構(gòu) 誤差,?1表示矩陣P的轉(zhuǎn)置,I為單位矩陣,λ>〇為折中參數(shù);
[0021] 5、通過迭代策略優(yōu)化目標函數(shù),首先固定投影矩陣Ρ,更新圖矩陣S;然后固定圖 矩陣S,更新投影矩陣P;最后,經(jīng)過N(N彡15)迭代,得到優(yōu)化的投影矩陣P和圖矩陣S;
[0022] 6、為了后續(xù)的識別與聚類等任務(wù),將高維數(shù)據(jù)X向矩陣P投影,得到高維數(shù)據(jù)的低 維表示,從而達到維數(shù)約簡的目的;
[0023] Xlow=PTX(13)
[0024] 其中,嚴eCiXH為高維數(shù)據(jù)X的低維表示,即高維空間中每個 樣本由原來的D維為變成低維空間的d維。
[0025] 發(fā)明將投影矩陣學(xué)習(xí)和圖構(gòu)建過程統(tǒng)一到一個框架下,在維數(shù)約簡過程中能夠自 動的更新圖,同時,通過建立近鄰重建關(guān)系和樣本相似性兩種局部約束關(guān)系,能夠有效地挖 掘并保持高維數(shù)據(jù)的局部信息。特別地,提出一種基于迭代更新策略的算法求解投影矩陣 和圖,實現(xiàn)高維數(shù)據(jù)的有效約簡。大量的實驗和比較結(jié)果表明,該方法具有良好性能并且由 于現(xiàn)有的具有代表性的維數(shù)約簡方法,適用于目標識別、聚類與數(shù)據(jù)可視化等。
[0026] 本發(fā)明針對3個標準人臉數(shù)據(jù)庫和3個標準聚類數(shù)據(jù)集進行了實驗對比與分析, 并且定量地評價了提出方法的有效性和優(yōu)越性。大量的對比實驗結(jié)果表明,本發(fā)明提出的 方法不僅能夠進行有效地人臉識別和數(shù)據(jù)自動聚類,而且具有較好的穩(wěn)定性。
[0027] 本發(fā)明具有下述有益效果:
[0028] (1)本發(fā)明是針對高維數(shù)據(jù)的進行有效維數(shù)約簡方法;
[0029] (2)建立兩種局部約束而非單一的約束進行維數(shù)約簡,使得低維數(shù)據(jù)能夠更好的 保持高維數(shù)據(jù)的局部關(guān)系;
[0030] (3)將投影矩陣學(xué)習(xí)和圖優(yōu)化過程統(tǒng)一到一個框架下,使得構(gòu)建的圖能夠自適應(yīng) 的更新,提高維數(shù)約簡的性能;
[0031] (4)提出了一種有效且快速的迭代更新求解方法,使得目標函數(shù)在較少的迭代數(shù) 次內(nèi)即可收斂;
[0032] (5)本發(fā)明可廣泛應(yīng)用于高維數(shù)據(jù)的維數(shù)約簡,有助于后續(xù)識別、聚類和數(shù)據(jù)可視 化等任務(wù)。
【附圖說明】
[0033] 圖1 (a)是本發(fā)明中使用的人臉數(shù)據(jù)庫Yale中的部分人臉圖像;
[0034] 圖1 (b)是本發(fā)明中使用的人臉數(shù)據(jù)庫ExtendedYaleB中的部分人臉圖像;
[0035] 圖1 (c)是本發(fā)明中使用的人臉數(shù)據(jù)庫CMUPIE中的部分人臉圖像;
[0036] 圖2是本發(fā)明中使用的COIL20數(shù)據(jù)集中的部分圖像;
[0037] 圖3(a)是人臉數(shù)據(jù)庫Yale上不同方法在不同維數(shù)下的對比結(jié)果;
[0038] 圖3(b)是人臉數(shù)據(jù)庫ExtendedYale