專利名稱:一種基于圖像數(shù)據(jù)結構保護的嵌入式降維方法
技術領域:
本發(fā)明涉及一種基于圖像數(shù)據(jù)結構保護的嵌入式降維方法,該方法主要應用于搜索引擎的聚類及圖像識別應用,屬于計算機科學技術領域。
背景技術:
隨著信息技術的不斷發(fā)展,網(wǎng)絡內(nèi)容在以驚人的速度增長,人們對網(wǎng)絡內(nèi)容的需求也越來越大,網(wǎng)絡內(nèi)容捜索成為目前應用最為廣泛的ー種互聯(lián)網(wǎng)服務。搜索引擎是進行網(wǎng)絡內(nèi)容捜索的主要渠道,各國都在發(fā)展具有自主知識產(chǎn)權的搜索引擎,不斷開展對捜索引擎關鍵技術的研究。在大數(shù)據(jù)時代,如何對越來越多的高維數(shù)據(jù)進行數(shù)據(jù)挖掘分析成為搜索引擎中的ー個極為關鍵也是極富挑戰(zhàn)性的工作。高維不僅使數(shù)據(jù)難以被人們直觀理解,而且難以被現(xiàn)有機器學習和數(shù)據(jù)挖掘算法有效地處理。這就是所謂的“維數(shù)災難”。為了解決這ー問 題,必須采用ー些特殊的手段對高維數(shù)據(jù)進行處理,數(shù)據(jù)降維就是其中一種有效的方法。數(shù)據(jù)降維是以犧牲一部分信息為代價的,把高維數(shù)據(jù)通過投影映射到低維空間中,在最優(yōu)的保持原始數(shù)據(jù)的本質(zhì)的前提下,實現(xiàn)高維數(shù)據(jù)的低維表示,以降低系統(tǒng)的計算復雜度。降維方法主要分為兩類線性降維與非線性降維。目前已經(jīng)存在的線性降維方法有主成分分析法、線性判別法等;非線性降維方法有多維尺度分析法、等距映射、局部線性嵌入法、拉普拉斯特征映射等。但是,這些方法在降維的過程中大都忽略了對于原始數(shù)據(jù)的結構保護,使得降維后的數(shù)據(jù)結構區(qū)分度遠遠低于原始數(shù)據(jù)。本發(fā)明提出一種基于圖像數(shù)據(jù)結構保護的嵌入式降維方法。該發(fā)明通過定義相似度子集與非相似度子集,對不同的子集做不同的距離嵌入轉(zhuǎn)換處理,從而在降維中達到對原始數(shù)據(jù)結構的保護。
發(fā)明內(nèi)容
針對背景技術所述,本發(fā)明的目的在于提出一種基于圖像數(shù)據(jù)結構保護的嵌入式降維方法。技術方案如下本發(fā)明方法主要包括子集劃分、距離嵌入轉(zhuǎn)換、多維尺度分析三部分功能。參照圖I (I)子集劃分該功能完成圖像點陣轉(zhuǎn)化成的數(shù)字矩陣U(多維數(shù)據(jù)集)計算,針對U中的向量(η維向量),計算各個η維向量間的距離。從多維數(shù)據(jù)集U中提取任意兩個向量組成向量對,按照向量對的距離大小將所有兩兩向量對分成兩個子集相似子集D1與非相似子集D2。這些子集在后面會被分別處理,該部分是基于圖像數(shù)據(jù)結構保護的嵌入式降維處理的第一歩。(2)距離嵌入轉(zhuǎn)換該部分是基于圖像數(shù)據(jù)結構保護的嵌入式降維處理的重要部分。該功能完成對非相似子集的距離矩陣的嵌入操作,達到距離轉(zhuǎn)換的目的,之后才能做高維到低維的投影。(3)多維尺度分析該部分是基于圖像處理結構保護的嵌入式降維處理的最后ー步,通過這一部分具體完成多維數(shù)據(jù)集從高維到低維的投影操作,得到低維數(shù)據(jù)集,達到降維目的。多維尺度分析在背景技術中已經(jīng)提到過,是ー種現(xiàn)有的應用于降維的基礎方法。參見圖2,給出該發(fā)明的具體實現(xiàn)步驟步驟I :子集劃分部分通過原始圖像數(shù)據(jù)輸入,得到對應圖像的多維數(shù)據(jù)集U,U含有η維的向量,子集劃分部分采用歐式距離計算η維的向量之間的距離,方法如下設向量Xi = (xn, xi2,…xin)、Xj = (Xj1, Xj2,…Xjn)是多維數(shù)據(jù)集里的兩個η維
向量元素,那么它們間的距離計算方法是
權利要求
1.一種基于圖像數(shù)據(jù)結構保護的嵌入式降維方法采用歐式距離計算多維數(shù)據(jù)集的距離矩陣,由多維數(shù)據(jù)集內(nèi)各向量組成的兩兩向量對根據(jù)它們之間的距離關系劃分相似子集與非相似子集,對非相似子集做距離嵌入轉(zhuǎn)換,對完整數(shù)據(jù)距離矩陣做多維尺度分析,得到降維后的低維數(shù)據(jù)。該方法的特點在干 (1)子集劃分,該功能完成圖像點陣轉(zhuǎn)化成的數(shù)字矩陣U(多維數(shù)據(jù)集)的計算,針對U中的向量(η維向量),計算各個向量間的距離,從多維數(shù)據(jù)集U中提取任意兩個向量組成向量對,按照向量對的距離大小將所有兩兩向量對分成兩個子集相似子集D1與非相似子集D2。
(2)距離嵌入轉(zhuǎn)換,該功能完成非相似子集D2的距離矩陣的嵌入操作,原始向量對的距離為Clij,根據(jù)嵌入轉(zhuǎn)換公式<=/Wy (ス>1 )得到轉(zhuǎn)換后的距離<,相似子集D1不做嵌入操作。
全文摘要
本發(fā)明提出一種基于圖像數(shù)據(jù)結構保護的嵌入式降維方法。包括由多維數(shù)據(jù)集內(nèi)各向量組成的兩兩向量對根據(jù)它們之間的距離關系劃分相似子集與非相似子集,對非相似子集進行距離嵌入轉(zhuǎn)換操作,對轉(zhuǎn)換后的數(shù)據(jù)集進行多維尺度分析,最終得到降維后的低維數(shù)據(jù)。通過該發(fā)明可以在保證降維成功的同時,很好的保持原始數(shù)據(jù)的相似結構,不破壞原理的結構區(qū)分度。
文檔編號G06F17/30GK102867027SQ20121030844
公開日2013年1月9日 申請日期2012年8月28日 優(yōu)先權日2012年8月28日
發(fā)明者陸月明, 牛艷婷 申請人:北京郵電大學