国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于超度量距離矩陣的半監(jiān)督層次聚類方法

      文檔序號:6638407閱讀:790來源:國知局
      一種基于超度量距離矩陣的半監(jiān)督層次聚類方法
      【專利摘要】本發(fā)明提供一種基于超度量距離矩陣的半監(jiān)督層次聚類方法,包括以下步驟:步驟1,定義不等式約束的閉凸集,并將參數(shù)估計投影到該閉凸集上;步驟2,通過減去投影中形成的變化向量的方法更新估計解向量;步驟3,進(jìn)行迭代投影直到給定的約束固定集收斂到最小二乘最優(yōu)解。本發(fā)明基于超度量樹狀圖距離的半監(jiān)督層次聚類構(gòu)架為研究背景,采用基于優(yōu)化的方式,提供一種基于超度量距離矩陣的半監(jiān)督層次聚類方法,用于提高半監(jiān)督層次聚類問題的效率和準(zhǔn)確性。
      【專利說明】一種基于超度量距離矩陣的半監(jiān)督層次聚類方法

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于數(shù)據(jù)挖掘中的聚類技術(shù),特別是一種通過優(yōu)化技術(shù)實現(xiàn)的基于超度量 距離矩陣的半監(jiān)督層次聚類方法。

      【背景技術(shù)】
      [0002] 將物理或抽象對象的集合分成相似的對象類的過程稱為聚類。聚類問題出現(xiàn)在了 許多學(xué)科中并且得到了廣泛應(yīng)用。基本上,聚類的目的就是將給定樣本分到相應(yīng)的簇,使得 同一個簇的樣本彼此相似、不同簇的樣本彼此不同?;诖禺a(chǎn)生的方式,聚類方法可以分為 兩類:劃分聚類和層次聚類。劃分聚類一般將數(shù)據(jù)集分解成一些不相交的簇,且就一些預(yù)先 定義的目標(biāo)函數(shù)而言,這種分解通常是最優(yōu)的。層次聚類通過自底向上(凝聚)或自頂向下 (分裂)的方法將數(shù)據(jù)點(diǎn)分組到層次樹狀框架中。典型的自底向上方法初始時將每個數(shù)據(jù) 點(diǎn)作為一個獨(dú)立的簇,然后將相似的簇組合在一起,從而建立更大的簇,直到整個數(shù)據(jù)集最 終成為一個簇。自頂向下的方法初始時將所有數(shù)據(jù)點(diǎn)放在一個簇中,然后不斷地分裂最大 的簇。許多研究成果都報道過算法級上的層次聚類過程的改進(jìn)以及對于層次聚類的理解。
      [0003] 近年來,半監(jiān)督聚類(即基于知識約束的聚類)已經(jīng)作為傳統(tǒng)聚類范型的重要變 體出現(xiàn)。給定數(shù)據(jù)表示,現(xiàn)有的半監(jiān)督聚類方法多利用背景知識來學(xué)習(xí)距離/相異性度量, 從而修正評估聚類的客觀標(biāo)準(zhǔn),并改進(jìn)優(yōu)化過程。
      [0004] 近期的半監(jiān)督聚類研究存在兩方面局限性。第一,絕大多數(shù)現(xiàn)有的半監(jiān)督聚類算 法都是為劃分聚類設(shè)計的,幾乎沒有報道出半監(jiān)督的層次聚類的研究工作。與劃分聚類結(jié) 果易于使用向量、聚類指標(biāo)或優(yōu)化連接矩陣表示不同,層次聚類結(jié)果更加復(fù)雜典型地表示 成樹狀圖或樹。此外,層次聚類方法沒有全局目標(biāo)函數(shù)。層次聚類的這些性質(zhì)使得半監(jiān)督 的層次聚類問題更具挑戰(zhàn)性。第二,約束的類型?,F(xiàn)有的半監(jiān)督聚類方法都關(guān)注于實例級 必須鏈接和無法鏈接約束形式的背景信息的使用。一個必須鏈接(ML)約束迫使兩個實例 必須放在同一個簇里,而無法鏈接(CL)約束迫使兩個實例必須不放在相同的簇里。然而ML 約束和CL約束都不適用于層次聚類,因為對象鏈接在不同的層次框架級別。
      [0005] 整合背景知識到聚類過程中的方法得到了廣泛的研究。許多研究者研究了實例級 背景信息的使用,例如將實力級背景信息用于研究距離/相異性度量、修正客觀標(biāo)準(zhǔn)、提升 優(yōu)化程序的成對必須鏈接約束和無法鏈接約束。其他類型的知識提示(如,簇的大小、數(shù)據(jù) 點(diǎn)的部分標(biāo)簽以及用戶提供的外部原型/代表)也已經(jīng)被用于聚類過程中。然而,絕大多數(shù) 現(xiàn)有的半監(jiān)督聚類算法都是為劃分聚類設(shè)計的,幾乎沒有報道出半監(jiān)督的層次聚類的研究 工作。我們注意到,近期Zhao和Bade等人的研究是關(guān)于用順序約束和部分已知層次框架完 成層次聚類的。H. Zhao和Z. Qi在《排序約束下的分層凝聚聚類》(WKDD,2010, pp. 195-199) 中提出了兩種基本算法:無約束的標(biāo)準(zhǔn)凝聚層次聚類(HAC)和基于約束的HAC (HACoc)。HAC 算法開始時將每個實例作為一個單獨(dú)的組,然后將相似的組組合在一起,從而形成更大的 組,最終形成一個組。
      [0006] HAC算法在簇對象中是很簡單的,它能用類似的方法找出不同形狀的簇,但HAC 也存在著一些缺點(diǎn):(I)HAC有很高的時間復(fù)雜性,例如,對于質(zhì)心點(diǎn)算法(優(yōu)先隊列法), 其時間復(fù)雜性為〇(N21ogN) ; (2)用譜系圖獲得簇的有效性是有限的。簇的有效性主要用來 決定在大型數(shù)據(jù)量中最優(yōu)簇的數(shù)目。很多有效性方法對譜系圖的低層顯示出轉(zhuǎn)移模式,這 就會導(dǎo)致評估不出不精確的最優(yōu)簇數(shù)。HACoc算法是對HAC算法的改進(jìn)。它可以處理障礙 和聯(lián)鎖并且通過結(jié)合側(cè)面信息提高聚類問題的效率和準(zhǔn)確性。然而,與他們的研究不同的 是,本發(fā)明中的半監(jiān)督層次聚類框架是基于超度量樹狀圖距離的。超度量是特殊的樹狀度 量,將樹狀度量擬合成給定集合上(非)相似性的成對對象數(shù)據(jù)的問題已經(jīng)得到了廣泛研 究。其中,所有輸入數(shù)據(jù)集的元素都是底層樹的葉子并且所有葉子到根的距離都相同。超 度量相當(dāng)于數(shù)據(jù)聚類的層次結(jié)構(gòu)。給定成對對象的相異性D,尋找最佳超度量4的問題,使 得I |D-du| |p的最小值是一個NP難題。


      【發(fā)明內(nèi)容】

      [0007] 為了解決現(xiàn)有技術(shù)存在的問題,本發(fā)明基于超度量樹狀圖距離的半監(jiān)督層次聚類 構(gòu)架為研究背景,采用基于優(yōu)化的方式,提供一種基于超度量距離矩陣的半監(jiān)督層次聚類 方法,用于提高半監(jiān)督層次聚類問題的效率和準(zhǔn)確性。
      [0008] -種基于超度量距離矩陣的半監(jiān)督層次聚類方法,包括以下步驟:
      [0009] 步驟1,將L C,E投影到不等式約束Q/d的閉凸集,其中^為一個m*l向量,用 于表示n*n對稱相異性矩陣D ;C為一個m*r相異性矩陣,r為相對約束的個數(shù);E為一個m*m 單位矩陣;m = n*(n_l/2)。
      [0010] 步驟2,通過減去投影中形成的變化向量的方法更新估計解向量,具體過程為:
      [0011] 步驟2.1,定義
      [0012] a(t) = a(t -1) + EcpHit -1)/; / 2 - EcqS(f)tl / 2 ①,

      【權(quán)利要求】
      1. 一種基于超度量距離矩陣的半監(jiān)督層次聚類方法,其特征在于,包括以下步驟: 步驟1,定義不等式約束的閉凸集,并將參數(shù)估計投影到該閉凸集上; 步驟2,通過減去投影中形成的變化向量的方法更新估計解向量; 步驟3,進(jìn)行迭代投影直到給定的約束固定集收斂到最小二乘最優(yōu)解。
      2. 根據(jù)權(quán)利要求1所述的基于超度量距離矩陣的半監(jiān)督層次聚類方法,其特征在于, 步驟1中將參數(shù)<?, C,E投影到其中J為一個m*l向量,用于表示η*η對稱相異性 矩陣D ;C為一個m*r相異性矩陣r為相對約束的個數(shù);E為一個m*m 單位矩陣;m = n*(n_l/2)。
      3. 根據(jù)權(quán)利要求1所述的基于超度量距離矩陣的半監(jiān)督層次聚類方法,其特征在于, 步驟2的具體過程為: 步驟2. 1,定義

      其中,p = tmodr, q e [1,r],F(xiàn)為矩陣C中第p個相對約束的m*l向量 》弋為 P H 矩陣C中第q個相對約束的m*l向量
      步驟2.2,初始化,5 (0) = ff (0),5 = 3,/ = 1,其中3為a(t)在迭代t中的表示,?為 Kuhn-Tucker向量u (t)在迭代t中的表示; 步驟2. 3,令q = 1,根據(jù)公式①②計算
      其中
      為投影形成的變化向量; 步驟2. 4, q = q+1,若q尹r,重復(fù)步驟2. 3 ;若q = r,轉(zhuǎn)步驟2. 5 ; 步驟 2. 5, t = t+1。
      4. 根據(jù)權(quán)利要求1所述的基于超度量距離矩陣的半監(jiān)督層次聚類方法,其特征在于, 步驟3的具體過程如下: 步驟3.1,求
      的最優(yōu)解,其中|?ν_5||為向量的范數(shù),將其按范數(shù)展 開得
      步驟3. 2,由步驟3. 1得到的最小二乘最優(yōu)解判斷給定的約束固定集C是否收斂,若給 定的約束固定集收斂到最小二乘最優(yōu)解,跳至步驟3. 3 ;若未收斂,跳至步驟2. 3 ; 步驟3. 3,輸出5?
      【文檔編號】G06F17/30GK104391988SQ201410764758
      【公開日】2015年3月4日 申請日期:2014年12月12日 優(yōu)先權(quán)日:2014年12月12日
      【發(fā)明者】徐建, 李濤, 周文強(qiáng), 張宏, 許福, 李千目 申請人:南京理工大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1