国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種多維特征向量的聚類方法

      文檔序號:6598543閱讀:733來源:國知局
      專利名稱:一種多維特征向量的聚類方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于模式識別領(lǐng)域,具體涉及一種對多維特征向量聚類的方法。
      背景技術(shù)
      對特征空間中的樣本數(shù)據(jù)進行聚類是模式識別、計算機視覺、數(shù)據(jù)挖掘等領(lǐng)域內(nèi) 的一項重要的信息處理手段。對數(shù)據(jù)進行聚類之后,不但可以減少所需處理的數(shù)據(jù)量,同時 從聚類結(jié)果中,也可發(fā)現(xiàn)數(shù)據(jù)之間的相似性規(guī)律。 一個魯棒性良好的聚類方法應(yīng)該能夠?qū)?特征空間中的數(shù)據(jù)點分割成為一些不相交的子集(每一個子集視為一類),屬于同一子集 (類)中的數(shù)據(jù)點之間的距離盡可能的小,而屬于不同子集(類)的數(shù)據(jù)點之間的距離盡可 能的大。本發(fā)明將上述魯棒性良好的性質(zhì)稱為空間一致性(spatiallycoherent)。
      目前,經(jīng)典的聚類方法有,K-means聚類算法(參考J. MacQueen, "SomeMethods for Classification and Analysis of Multivariate Observations", Proc. Fifth Berkeley Symp. Math. , Statistics, and Probability,1967 :281-297), Normalized Cut 聚類算法(參考J. Shi and J. Malik, "Normalized cuts andimage segmentation,,, IEEE Trans. Pattern Anal. Mach. Intell. , 2000, 22 (8) :888-905),以及均值漂移聚類算法(參 考D.Comaniciu and P.Meer,"Meanshift:A robust approach toward feature space analysis", IEEE Trans. PatternAnal. Mach. Intell. ,2002,24(5) :603-619)等。通常,給定 待聚類的特征向量,在使用K-means聚類算法和Normalized Cut聚類算法時,通過指定希 望產(chǎn)生的類別個數(shù),即可得到一個聚類結(jié)果。而在使用均值漂移聚類算法時,需要指定一個 特征帶寬參數(shù)(feature bandwidth),通過該參數(shù),均值漂移聚類算法通過非參數(shù)密度估計 不斷尋找特征空間中的局部高密度區(qū)域,將屬于某個局部高密度區(qū)域內(nèi)的特征向量歸為同 一類別。如果待聚類的數(shù)據(jù)在特征空間中呈現(xiàn)出分散的團狀分布(scattering blob-like distribution),即每一個數(shù)據(jù)點都分布在某一個高密度區(qū)域( 一個團),并且這些高密度 區(qū)域之間數(shù)據(jù)點非常稀疏(高密度區(qū)域之間出現(xiàn)密度不連續(xù)),在這種情況下,上述經(jīng)典聚 類算法能夠有效地輸出一個具有空間一致性的聚類結(jié)果(事實上,具有分散的團狀分布的 數(shù)據(jù)本身已具有空間一致性了 )。然而,在實際應(yīng)用中,待聚類的數(shù)據(jù)集合在特征空間中往 往并非呈現(xiàn)出分散的團狀分布,例如,在計算機視覺領(lǐng)域內(nèi),從圖像中提取的特征向量往往 呈現(xiàn)出復(fù)雜的流型分布。直接用上述經(jīng)典聚類方法對這些呈現(xiàn)復(fù)雜分布的數(shù)據(jù)進行聚類, 往往無法得到具有空間一致性的結(jié)果。 一個最主要的原因就是,在這些呈現(xiàn)復(fù)雜分布的實 際數(shù)據(jù)中,高密度區(qū)域之間往往沒有一個明顯的邊界,高密度區(qū)域之間仍存在一些相對密 度較低的數(shù)據(jù)點,這些低密度數(shù)據(jù)點并沒有達(dá)到足夠的稀疏。目前,在模式分類與機器學(xué)習(xí) 領(lǐng)域,人們對于聚類的研究已達(dá)成共識,即,聚類結(jié)果的不確定性往往出現(xiàn)在特征空間中低 密度區(qū)域的數(shù)據(jù)點上。 此外,如果特征向量在原有特征空間中很難得到良好的聚類結(jié)果時,將特征向量 轉(zhuǎn)換到另外一個新的特征空間上再進行聚類不失為一種很好的思路。目前現(xiàn)有技術(shù)中出現(xiàn) 了一禾中半監(jiān)督判別算法(參考D. Cai,X. He,and J. Han. "Semi—supervised discriminantanalysis, in Proc. IEEE Int. Conf. Computer Vision, Rio de Janeiro, Brazil", J皿.2007.),采用該算法對原始特征空間進行轉(zhuǎn)換后,特征向量在新的特征空間中往往具 有良好的可分離性,這將非常有利與特征向量的聚類。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于提供一種多維特征向量的聚類方法,由該方法得到的聚類結(jié)果 更具有空間一致性,即聚類結(jié)果更加魯棒。從而,更為客觀的描述特征向量之間的類別所屬 情況。 (2)對上述特征向量集合X建立一個k-近鄰圖Gk,其中,采用歐式距離l|Xi-Xj||2 來度量X中的任意兩個特征向量Xi和Xj之間的距離遠(yuǎn)近關(guān)系; (3)求出步驟(2)中k-近鄰圖Gk的鄰接矩陣A,其中矩陣A的每個元素Aij由下
      述公式(1)計算得到
      J 一 / 如果》eiV*(^)或
      ="i 0 (1) aff(ij)是特征向量Xi與特征向量Xj鄰接程度,Nk(Xj)表示向量Xj的k個鄰居, Nk(Xi)表示向量&的k個鄰居,其中aff(ij)由下述公式(2)計算 其次,將新的種子集合Xseedsn 中的當(dāng)前種子集合Xseeds視為已具有類別標(biāo)識的數(shù) 據(jù),A X視為沒有類別標(biāo)識的數(shù)據(jù),對所述X_ds,應(yīng)用半監(jiān)督判別式分析方法求出X_ds, 的一個最優(yōu)投影空間的基U。Dt,并將X_ds,投影到U。Dt生成的空間中,投影后的數(shù)據(jù)為義=.=,其中u。ptT標(biāo)識矩陣u。pt的轉(zhuǎn)置; 然后,利用均值漂移算法對XseedsSDA進行聚類,將所得到的類別標(biāo)識賦給Xseedsn 中 對應(yīng)的數(shù)據(jù),Xseedsn 的類別標(biāo)識集合記為Lseeds,,并更新Xseeds和Lseeds,即令A(yù)^ =C ,
      鄉(xiāng)t/s 一 h咖t/j o 循環(huán)上述過程,直至AX = 0 ,循環(huán)停止,得到更新的當(dāng)前種子集合X_ds和聚類結(jié) 果L^ds,其中0為空集。
      (8)獲取X的類別標(biāo)識集合L,完成聚類 如果{1-《^} * 0 ,那么將{X-Xsrads}中的數(shù)據(jù)共同賦予一個新的類別標(biāo)識lMst, 類別標(biāo)識集合Z = Z,ws U {、 }, j , n G {1 ,. . . , m},其中、=活則,類別標(biāo)識集合L
      Ls66ds o


      圖1為本發(fā)明方法的流程圖; 圖2為1071個三位特征向量,其中3種顏色的標(biāo)識,代表了 3個類別,一個有效的
      聚類算法得到的聚類結(jié)果應(yīng)與圖2中三個類別的分布一致。 圖3為K-means算法的聚類結(jié)果。 圖4Normalized Cut算法的聚類結(jié)果。 圖5均值漂移算法的聚類結(jié)果。 圖6本發(fā)明中聚類算法的聚類結(jié)果。
      具體實施例方式
      下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細(xì)的說明。
      在本實施例中,如圖1所示,具體過程為 (1)將m個待聚類的特征向量記為特征向量集合X = {Xl, x2, . . . , xj,其中Xi為 一個特征向量,i = 1, . . . , m。通常特征向量的個數(shù)m的取值范圍在102 103數(shù)量級上。 圖2中示出的是m = 1071, Xi為一個3維特征向量時的空間分布圖。 (2)對特征向量集合X建立一個k-近鄰圖Gk, k取值一般為5-7 ,本實施例中k取 值為7。在建立圖Gk時,對于X中的任意兩個特征向量Xi和Xj,采用歐式距離||&-^.||2來 度量二值的距離遠(yuǎn)近關(guān)系。 (3)求出步驟(2)中k-近鄰圖Gk的鄰接矩陣A。其中矩陣A的每個元素、.由公
      式(1)計算:
      J — J 如果、e^(x,)或勺eA^(x,)
      4/ =i 0 (1)
      aff(ij)是特征向量Xi與特征向量Xj鄰接程度,Nk(Xj)表示向量Xj的k個鄰居, Nk(Xi)表示向量Xi的k個鄰居。其中aff(ij)由公式(2)計算《)=exp{—"2} (2) o為常數(shù),其取值根據(jù)特征向量的類型不同而不同,通常其取值范圍比特征向量的取值范圍小兩個數(shù)量級。本實施例中,特征向量Xi取值范圍為0-255,我們選取o =3。
      (4)計算X = {Xl, x2, . . . , xj中每個特征向量的密度den(Xi),計算公式如下
      附 選取所有特征向量密度{(161100}1 = 1,..., 1的第96個百分位(96th-perCentile)的 密度值,記為閾值Tge。 (5)選取種子集合Xseeds,其中Xseeds = {Xi I den (x》> T96, Xi G X}。 (6)利用均值漂移算法(參考:D. Comaniciu and P. Meer, "Mean shift :A
      robustapproach toward feature space analysis,,, IEEE Trans. Pattern Anal. Mach.
      Intell. ,2002,24(5) :603-619)對當(dāng)前種子集合Xsrads進行聚類,得到當(dāng)前種子集合的類別
      標(biāo)識集合1^i,其中L_ds中的每個元素為屬于當(dāng)前種子集合X_ds中的特征向量的類別標(biāo)
      識,通常用自然數(shù)區(qū)分。 (7)增量迭代聚類 首先,從步驟(2)的k-近鄰Gk中選取當(dāng)前種子集合X_ds的所有k近鄰數(shù)據(jù),其定 義為AX = {Xi|Xi G Nk(Xj),或,Xj G Nk(Xi),其中Xj G XyJ,將當(dāng)前已具有類別標(biāo)識的種 子集合Xsrads與沒有類別標(biāo)識的A X合并為一個新的種子集合,記為X:二 = Ximfc U AX 。
      其次,對Xsradsn 應(yīng)用半監(jiān)督判別式分析方法(參考D. Cai, X. He, and J.Han. "Semi_supervised discriminant analysis, in Proc. IEEE Int.Conf. Computer Vision,Rio de Janeiro,Brazil", Jun. 2007.),求出Xseedsnew的一個最優(yōu)投影空間的基U。pt。 并將X^^投影到U。pt生成的空間中,投影后的數(shù)據(jù)為J=f =f/iC ,其中U標(biāo)識矩 陣U一的轉(zhuǎn)置。 然后,利用均值漂移算法對XseedsSDA進行聚類,將所得到的類別標(biāo)識賦給Xseedsn 中 對應(yīng)的數(shù)據(jù)。將Xsradsn 的類別標(biāo)識集合記為Lsradsn 。
      更新Xseeds和Lseeds,令義鄉(xiāng)A.=《=,,丄鄉(xiāng)A = Z:必。 循環(huán)上述過程,直至AZ = 0 ,循環(huán)停止,得到最終的種子集合Xseeds和聚類結(jié)果
      Ls66ds o (8)獲取X的類別標(biāo)識集合L,完成聚類如果{"-%鄉(xiāng)力} * 0 ,那么將{X_XseedJ 中的數(shù)據(jù)共同賦予 一 個新的類別標(biāo)識lMst,類別標(biāo)識集合丄=丄ww U仏 }^(x-x_sl , n G {1, . . . , m},其中4 =/re ;否則,類別標(biāo)識集合L = Lsrads。 圖6是由本發(fā)明算法得到的聚類結(jié)果,圖3-5是其它3種經(jīng)典聚類算法得到的聚 類結(jié)果,可以看出本發(fā)明的到結(jié)果與圖2中原本的類別分布更為一致,從而說明了本發(fā)明 的有效性。 本發(fā)明中根據(jù)具體特征向量的數(shù)值范圍選取均值漂移算法中的特征帶寬 (feature bandwidth)參數(shù)、,通常其取值范圍比特征向量的取值范圍小一個數(shù)量級。在 上述實施例中,選取的特征帶寬參數(shù)hr = 10. 5。 根據(jù)本發(fā)明的典型實施例,用于實現(xiàn)本發(fā)明的計算機系統(tǒng)可以包括,特別是,中央 處理器(CPU)、存儲器和輸入/輸出(1/0)接口。計算機系統(tǒng)通常通過I/0接口與顯示器和 諸如鼠標(biāo)和鍵盤此類的各種輸入設(shè)備相連,配套電路可以包括像高速緩存、電源、時鐘電路 和通信總線這樣的電路。存儲器可以包括隨機存儲器(RAM)、只讀存儲器(R0M)、磁盤驅(qū)動
      6器、磁帶機等,或它們的組合。計算機平臺還包括操作系統(tǒng)和微指令代碼。此處所述各種過 程和功能可以是通過操作系統(tǒng)執(zhí)行的微指令代碼或應(yīng)用程序(或它們的組合)的一部分。 此外,各種其他外圍設(shè)備可以連接到該計算機平臺,如附加數(shù)據(jù)存儲設(shè)備和打印設(shè)備。
      還應(yīng)理解,因為附圖中所述的某些構(gòu)成系統(tǒng)的組件和方法步驟可以軟件形式來實 現(xiàn),所以系統(tǒng)組件(或過程步驟)之間的實際連接可能有所不同,具體視本發(fā)明的編程方式 而定。基于此處提出的本發(fā)明原理,相關(guān)領(lǐng)域的普通專業(yè)人員可以設(shè)想本發(fā)明的這些以及 類似實施方案或配置。
      權(quán)利要求
      一種多維特征向量的聚類方法,包括如下步驟(1)將m個待聚類的特征向量記為特征向量集合X={x1,x2,...,xm},其中xi為一個特征向量,i=1,...,m;(2)對上述上述特征向量集合X建立一個k-近鄰圖Gk,其中,采用歐式距離‖xi-xj‖2來度量X中的任意兩個特征向量xi和xj之間的距離遠(yuǎn)近關(guān)系;(3)求出步驟(2)中k-近鄰圖Gk的鄰接矩陣A,其中矩陣A的每個元素Aij由下述公式(1)計算得到aff(ij)是特征向量xi與特征向量xj鄰接程度,Nk(xj)表示向量xj的k個鄰居,Nk(xi)表示向量xi的k個鄰居,其中aff(ij)由下述公式(2)計算 <mrow><msub> <mi>aff</mi> <mrow><mo>(</mo><mi>ij</mi><mo>)</mo> </mrow></msub><mo>=</mo><mi>exp</mi><mo>{</mo><mfrac> <msub><mrow> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msub><mi>x</mi><mi>i</mi> </msub> <mo>-</mo> <msub><mi>x</mi><mi>j</mi> </msub> <mo>|</mo> <mo>|</mo></mrow><mn>2</mn> </msub> <msup><mrow> <mn>2</mn> <mi>&sigma;</mi></mrow><mn>2</mn> </msup></mfrac><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo></mrow> </mrow>其中σ為常數(shù);(4)計算X={x1,x2,...,xm}中每個特征向量的密度den(xi),計算公式如下 <mrow><mi>den</mi><mrow> <mo>(</mo> <msub><mi>x</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><msub> <mi>A</mi> <mi>ij</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo></mrow> </mrow>選取所有特征向量密度{den(xi)}i=1,...,m的第96個百分位(96th-percentile)的密度值,記為閾值T96;(5)獲取種子集合Xseeds,其中Xseeds={xi|den(xi)>T96,xi∈X};(6)利用均值漂移算法對當(dāng)前種子集合Xseeds進行聚類,得到當(dāng)前種子集合的類別標(biāo)識集合Lseeds,其中Lseeds中的每個元素為屬于當(dāng)前種子集合Xseeds中的特征向量的類別標(biāo)識,通常用自然數(shù)區(qū)分;(7)對當(dāng)前種子集合Xseeds進行增量迭代聚類首先,從步驟(2)的k-近鄰圖Gk中選取當(dāng)前種子集合Xseeds的所有k近鄰數(shù)據(jù)ΔX,其定義為ΔX={xi|xi∈Nk(xj),或,xj∈Nk(xi),其中xj∈Xseeds},將當(dāng)前種子集合Xseeds與ΔX合并為一個新的種子集合,記為其次,將新的種子集合Xseedsnew中的當(dāng)前種子集合xseeds視為已具有類別標(biāo)識的數(shù)據(jù),ΔX視為沒有類別標(biāo)識的數(shù)據(jù),對所述Xseedsnew應(yīng)用半監(jiān)督判別式分析方法求出Xseedsnew的一個最優(yōu)投影空間的基Uopt,并將Xseedsnew投影到Uopt生成的空間中,投影后的數(shù)據(jù)為其中UoptT標(biāo)識矩陣Uopt的轉(zhuǎn)置;然后,利用均值漂移算法對XseedsSDA進行聚類,將所得到的類別標(biāo)識賦給Xseedsnew中對應(yīng)的數(shù)據(jù),Xseedsnew的類別標(biāo)識集合記為Lseedsnew,再更新Xseeds和Lseeds,即令循環(huán)上述過程,直至循環(huán)停止,得到更新的當(dāng)前種子集合Xseeds和聚類結(jié)果Lseeds,其中為空集。(8)獲取X的類別標(biāo)識集合L,完成聚類如果那么將{X-Xseeds}中的數(shù)據(jù)共同賦予一個新的類別標(biāo)識lrest,類別標(biāo)識集合n∈{1,...,m},其中否則,類別標(biāo)識集合L=Lseeds。FSA00000045056300011.tif,FSA00000045056300021.tif,FSA00000045056300022.tif,FSA00000045056300023.tif,FSA00000045056300024.tif,FSA00000045056300025.tif,FSA00000045056300026.tif,FSA00000045056300027.tif,FSA00000045056300028.tif,FSA00000045056300029.tif
      全文摘要
      本發(fā)明公開了一種對多維特征向量聚類的方法,基于對特征空間數(shù)據(jù)分布的觀察,本發(fā)明從最容易聚類并產(chǎn)生空間一致性結(jié)果的高密度區(qū)域數(shù)據(jù)入手,提出了一種增量迭代方式下的聚類方法,每一步迭代選取密度較高的數(shù)據(jù)作為種子集合,通過種子生長的過程,對數(shù)據(jù)進行組織,使得迭代過程中每一步的聚類都在密度相對最高的數(shù)據(jù)上完成。結(jié)果顯示,本發(fā)明的聚類方法能夠產(chǎn)生經(jīng)典聚類算法無法得到的良好結(jié)果。
      文檔編號G06K9/62GK101777126SQ201010114138
      公開日2010年7月14日 申請日期2010年2月10日 優(yōu)先權(quán)日2010年2月10日
      發(fā)明者唐奇伶, 桑農(nóng), 高俊, 高常鑫, 黃銳 申請人:華中科技大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1