四步:根據(jù)鄰接關(guān)系,計算相似度矩陣W以及拉普拉斯矩陣L,對L進行譜聚類 分割,獲得最終的聚類結(jié)果。
[0104] 參見圖2,展示了本發(fā)明提供的技術(shù)方案在進行2類、3類、5類以及10類聚類實驗 時的準確率和計算效率,每個結(jié)果均為100次隨機實驗的平均值。由圖2可以得知,和傳統(tǒng) 方法相比較,本發(fā)明提供的方法在具有較高的聚類精度和較高的運算效率。
[0105] 因此,基于本發(fā)明提供的一種基于子空間聚類的數(shù)據(jù)處理方法,其相比現(xiàn)有的基 于優(yōu)化的子空間聚類方法的運算復雜度大大降低,更加適應于大規(guī)模數(shù)據(jù)的處理,本發(fā)明 可以在保證高精度的同時,快速、有效地對大規(guī)模的數(shù)據(jù)進行聚類處理,可以滿足人們的大 規(guī)模數(shù)據(jù)處理需求,節(jié)約人們寶貴的時間,可以很好地適用于圖像處理、計算機視覺和圖像 運動分割等數(shù)據(jù)處理領(lǐng)域,具有重大的生產(chǎn)實踐意義。
[0106] 以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人 員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應 視為本發(fā)明的保護范圍。
【主權(quán)項】
1. 一種基于子空間聚類的數(shù)據(jù)處理方法,其特征在于,包括以下步驟: 第一步:對于需要進行子空間聚類的全部數(shù)據(jù),提取其中的特征點; 第二步:對所提取的全部特征點進行歸一化處理,獲得特征點矩陣; 第三步:為經(jīng)過歸一化處理的每個特征點X建立一個近鄰集n,每個所述近鄰集Q包 含與其所歸屬特征點X所在的子空間距離最近的、預設數(shù)量的樣本特征點; 第四步:根據(jù)每個特征點X的近鄰集Q,對應構(gòu)建全部特征點間的相似度矩陣W ; 第五步:計算全部特征點間的相似度矩陣W對應的拉普拉斯矩陣L,并對每個拉普拉斯 矩陣L進行譜聚類分割,獲得每個特征點的類別標號,實現(xiàn)對全部數(shù)據(jù)的子空間聚類處理。2. 如權(quán)利要求1所述的方法,其特征在于,所述第二步具體為:將全部特征點分別除以 自己的模長,獲得對應的單位向量,然后以獲得的單位向量代替原特征點作為新的特征點, 最終獲得特征點矩陣X G RDXN; 其中,D為特征維度,N為特征點數(shù)量,X的每一列即對應一個特征點的特征向量。3. 如權(quán)利要求1所述的方法,其特征在于,所述第三步具體包括以下步驟: 步驟A)以經(jīng)過歸一化處理的每個特征點X為中心樣本特征點,為每個特征點X構(gòu)建初 始化的近鄰集Q ; 步驟B)根據(jù)近鄰集Q內(nèi)包含的樣本特征點,確定所述中心樣本特征點X所在子空間 U的正交基,實現(xiàn)對子空間U張成的更新; 步驟C)對于不在中心樣本特征點X近鄰集Q內(nèi)的所有特征點,逐一計算它們到中心 樣本特征點X的子空間U的投影,在子空間U上投影長度最大的特征點即為距離子空間U 最近的樣本特征點,將與當前所述中心樣本特征點X所在的子空間距離最近的樣本特征點 新添加到近鄰集Q中; 步驟D)計算所述近鄰集Q中的每個樣本特征點與中心樣本特征點X的親和力,如果 所述近鄰集Q中與中心樣本特征點X的親和力最低的樣本特征點不是新添加到近鄰集Q 中的樣本特征點,則從近鄰集Q中刪除該樣本特征點,然后返回執(zhí)行步驟B),直到所述近 鄰集Q中所有樣本特征點的數(shù)量達到預設數(shù)量。4. 如權(quán)利要求3所述的方法,其特征在于,所述步驟A)包括以下步驟: 首先將每個特征點X作為中心樣本特征點,并將自身加入到初始化的近鄰集Q內(nèi); 對于除中心樣本特征點X外的其余特征點,選取距中心樣本特征點X最近的P個特征 點,P為預設的大于1的整數(shù),根據(jù)稀疏表示目標函數(shù)minIICI11 s. t.X= X(P)c,逐一計算 所述距中心樣本特征點X最近的P個特征點對中心樣本特征點X的重構(gòu)系數(shù),并選擇其中 重構(gòu)系數(shù)c最大項對應的特征點作為除中心樣本特征點X外加入近鄰集Q的第一個樣本 特征點,從而為每個中心樣本特征點X構(gòu)建初始化的近鄰集Q。5. 如權(quán)利要求4所述的方法,其特征在于,在所述步驟B)中,所述子空間U的正交基按 增量方式計算得到,具體正交基的計算公式如下:其中,為加入近鄰集的最后一個特征點,,急〉為I,與正交基Tlk的內(nèi)積。。6. 如權(quán)利要求5所述的方法,其特征在于,在所述步驟C)中,對于不在中心樣本特征點 X近鄰集Q內(nèi)的所有特征點,其在子空間U上的投影長度按以下公式計算:其中,m為當前中心樣本特征點X的子空間的維度,〈X,nk>為X與正交基n k的內(nèi)積。。7. 如權(quán)利要求6所述的方法,其特征在于,在所述步驟D)中,計算所述近鄰集n中的 每個樣本特征點與中心樣本特征點X的親和力的公式如下: Ok =^kX, 其中,XfiS由位于近鄰集Q內(nèi)的特征點構(gòu)成的矩陣,Z^SXd^Moore-Penrose偽逆 矩陣,(A)i指A的第k行,Ck即為近鄰集Q中第k個特征點與中心樣本特征點X的親和 力。8. 如權(quán)利要求1至7中任意一項所述的方法,其特征在于,所述第四步具體包括以下步 驟: 計算特征點間的毗鄰矩陣Z,所述毗鄰矩陣Z的計算公式為其中,i,j = 1,2,…,N; 然后,根據(jù)特征點間的毗鄰矩陣Z,計算對應的相似度矩陣W = Z+ZT,其中,Zt為毗鄰矩 陣Z的轉(zhuǎn)置。9. 如權(quán)利要求1至7中任意一項所述的方法,其特征在于,所述第五步具體包括以下步 驟: 步驟Al)計算度矩陣D,D為一對角矩陣,其對角線上的元素為其中,i = 1,2,…,N; 步驟A2)根據(jù)所述度矩陣D和相似度矩陣W,計算拉普拉斯矩陣L = D-W ; 步驟A3)計算拉普拉斯矩陣L的前k個最大特征值所對應的特征向量Iv1, V2,…,vk}, 其中k為用戶指定的分割類別數(shù),然后將這k個N維特征向量排列在一起組成第一矩陣V, N為大于0的整數(shù); 步驟A4)將第一矩陣V中的每一行IV1, V2,…,VJ當做k維空間的一個向量,對這N 個向量采用K-means聚類算法進行聚類,聚類結(jié)果記為S1, S2,…,Sk; 步驟A5)對于全部特征點中第i個樣本特征點,若V1G S j,則第i個樣本特征點的輸 出類別標號為j,其中I < i < N,且i為整數(shù),I < j < k,且j為整數(shù),從而獲得每個特征 點的類別標號,實現(xiàn)對全部數(shù)據(jù)的子空間聚類處理。
【專利摘要】本發(fā)明公開了一種基于子空間聚類的數(shù)據(jù)處理方法,包括步驟:對于需要進行子空間聚類的全部數(shù)據(jù),提取其中的特征點;對所提取的全部特征點歸一化處理,獲得特征點矩陣;為經(jīng)過歸一化處理的每個特征點x建立一個近鄰集Ω;根據(jù)每個特征點x的近鄰集Ω,構(gòu)建全部特征點間的相似度矩陣W;計算全部特征點間的相似度矩陣W對應的拉普拉斯矩陣L,并對每個拉普拉斯矩陣L進行譜聚類分割,獲得每個特征點的類別標號,實現(xiàn)對全部數(shù)據(jù)的子空間聚類處理。本發(fā)明公開的一種基于子空間聚類的數(shù)據(jù)處理方法,其在保證高精度的同時,高效地對大規(guī)模數(shù)據(jù)進行聚類處理,滿足大規(guī)模數(shù)據(jù)處理需求,很好地適用于圖像處理、計算機視覺和圖像運動分割等數(shù)據(jù)處理領(lǐng)域。
【IPC分類】G06K9/62
【公開號】CN105139031
【申請?zhí)枴緾N201510520771
【發(fā)明人】孫哲南, 譚鐵牛, 宋凌霄, 張曼, 赫然
【申請人】天津中科智能識別產(chǎn)業(yè)技術(shù)研究院有限公司
【公開日】2015年12月9日
【申請日】2015年8月21日