一種復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法

文檔序號：6608821閱讀：215來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一種復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法
技術(shù)領(lǐng)域：
：本發(fā)明屬于復(fù)雜系統(tǒng)科學(xué)和數(shù)據(jù)挖掘領(lǐng)域，涉及一種基于改進(jìn)關(guān)聯(lián)度系數(shù)的復(fù)雜系統(tǒng)熵聚堆方法。
背景技術(shù)：
：復(fù)雜系統(tǒng)熵分劃是目前唯一一個復(fù)雜系統(tǒng)的非監(jiān)督聚類方法，此方法基于傳統(tǒng)的關(guān)聯(lián)度系數(shù)法畫出信息連通圖，然后人為分類，每一個類對應(yīng)一個子系統(tǒng)?？墒谴朔椒ㄓ袃蓚€缺點(1)它不是自組織的，需要人為確定，而且實現(xiàn)"剛性"分類，不能實現(xiàn)某些特征變量在不同的子系統(tǒng)里面出現(xiàn)。(2)此方法缺少驗證，使得對得到的許多結(jié)果無法給出最優(yōu)的結(jié)果。
發(fā)明內(nèi)容本發(fā)明欲解決的傳統(tǒng)技術(shù)關(guān)聯(lián)度不能區(qū)分正相關(guān)和負(fù)相關(guān)的技術(shù)問題，為此，本發(fā)明提出一種快速、自組織、不但能實現(xiàn)聚類,還能實現(xiàn)某些變量在不同的子系統(tǒng)里面出現(xiàn)復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法。為了實現(xiàn)所述的目的，本發(fā)明復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法的技術(shù)方案如下步驟Sh根據(jù)復(fù)雜系統(tǒng)樣本的原始信息確定離散的特征變量和類變量；特征變量用于描述此復(fù)雜系統(tǒng)屬性的自變量；步驟S2:用改進(jìn)的關(guān)聯(lián)度系數(shù)算出兩兩特征變量之間的關(guān)聯(lián)度；步驟S3:確定每個特征變量的"親友團"；步驟S4:根據(jù)聚堆方法自組織對特征變量進(jìn)行非監(jiān)督聚堆，得到特征變量的組合；步驟S5:將每個堆回代到原數(shù)據(jù)中，得到算法的敏感性；步驟S6:判斷敏感性的大小，如果敏感性為最大，轉(zhuǎn)入步驟7，如果敏感性不是最大，轉(zhuǎn)入步驟2;步驟S7:利用系統(tǒng)的類變量對非監(jiān)督聚堆方法進(jìn)行驗證，得到特征變量最優(yōu)的組合。根據(jù)本發(fā)明的實施例，所述兩兩特征變量間的改進(jìn)關(guān)聯(lián)度的確定方法具體為<formula>formulaseeoriginaldocumentpage5</formula>其中，M《,A)表示特征變量X,和A之間的關(guān)聯(lián)度；WO-i塵i。g塵為特征變量《的信息熵；//(J^J^-Z/d^h-XZ^iog^為特征變量《和^的聯(lián)合熵；<formula>formulaseeoriginaldocumentpage5</formula>/M/,y')表示特征變量Z,和^的陽性出現(xiàn)頻率；6和3是實數(shù)；其中，ftn,M)為特征變量《屬于C,第"類的數(shù)量，q為y,，/=1，2,..,W，分類的集合；M為樣本的數(shù)量。根據(jù)本發(fā)明的實施例對于每一個特征變量X,，根據(jù)關(guān)聯(lián)度的值，確定與其最相關(guān)的Z個特征變量，這Z個特征變量就叫做變量X,的"親友團"，Z為自然數(shù)。根據(jù)本發(fā)明的實施例，利用類變量數(shù)據(jù)對聚堆進(jìn)行驗證的步驟包括(1)對于每一個堆S，把它回代到變量數(shù)據(jù)中，如果這個堆的所有變量都出現(xiàn)在一個樣本上，那么記下此樣本的編號，遍歷,部樣本,統(tǒng)計出例數(shù)z,記錄下來，列在堆s后面,并得到一個z維的向量^,其每一個元素表示樣本的編號；(2)把與向量^中編號對應(yīng)的類變量的^個向量提取出來并把這些向量相加得到一個向量^;,中的每一個元素w'表示在這z個樣本中有w'個樣本是得第^個類變量；顯然w^、找出^中最大的數(shù)w;，記錄下這個數(shù)和相應(yīng)的類變量；<formula>formulaseeoriginaldocumentpage6</formula>(3)定義并算出堆S的敏感性為^^T，所有的堆的敏感性的平均<formula>formulaseeoriginaldocumentpage6</formula>就是本非監(jiān)督聚堆方法的敏感性，即—p臺\其中r表示方法的敏感性7是堆的個數(shù)；如果實際結(jié)果對應(yīng)于最高的敏感性，非監(jiān)督方法就得到驗證。本發(fā)明的技術(shù)效果或優(yōu)點本發(fā)明解決了傳統(tǒng)關(guān)聯(lián)度不能區(qū)分正相關(guān)和負(fù)相關(guān)的技術(shù)問題，在此基礎(chǔ)上，提出了一種復(fù)雜系統(tǒng)非監(jiān)督聚堆的方法，優(yōu)點是(1)方法是自組織的，不用人為干預(yù)。(2)方法運行速度很快，適合大量數(shù)據(jù)甚至海量數(shù)據(jù)。(3)方法不但能實現(xiàn)聚類，而且能實現(xiàn)某些變量在某些不同的類里面出現(xiàn)。(4)如果有因變量數(shù)據(jù)，本方法能對非監(jiān)督聚出來的堆進(jìn)行驗證，以找到最優(yōu)堆。本發(fā)明在生態(tài)分劃和臨床醫(yī)學(xué)數(shù)據(jù)分析等領(lǐng)域有著廣泛的應(yīng)用價值。圖l是本發(fā)明方法流程圖圖2是本發(fā)明方法的敏感性和閾值的關(guān)系，從中可以看出在閾值取15/4215的時候方法最好。具體實施例方式下面將結(jié)合附圖對本發(fā)明加以詳細(xì)說明，應(yīng)指出的是，所描述的實6施例僅旨在便于對本發(fā)明的理解，而對其不起任何限定作用。1.1方法概述(overviewofapproach)本發(fā)明的主要方法是基于關(guān)聯(lián)度系數(shù)法的復(fù)雜系統(tǒng)熵分劃的改進(jìn)，先改進(jìn)傳統(tǒng)的關(guān)聯(lián)度系數(shù)法以使得能從數(shù)值上區(qū)分正相關(guān)和負(fù)相關(guān)，然后在此基礎(chǔ)上得到每個變量的"親友團"，通過自定義的關(guān)聯(lián)原則和收斂條件自組織地聚出堆來，堆中變量的個數(shù)和總的堆的堆數(shù)都由方法自組織確定，沒有加入任何人為干預(yù)。如果數(shù)據(jù)有相應(yīng)的因變量，就把得到的堆回代到原來數(shù)據(jù)中，參考因變量對每個堆自動對應(yīng)上某個因變量，并算出每個堆的敏感性，然后把每個堆的敏感性相加求平均，得到方法的敏感性，敏感性最大的為最優(yōu)參數(shù)，在此參數(shù)下得到的堆即為最優(yōu)堆。本發(fā)明方法的核心在于對傳統(tǒng)的關(guān)聯(lián)度系數(shù)的改進(jìn)和在此基礎(chǔ)上提出的聚堆方法。如圖l所示本發(fā)明方法的具體實施例包括7個步驟1、首先輸入特征變量數(shù)據(jù)。2、初始化參數(shù)，用改進(jìn)的關(guān)聯(lián)度系數(shù)法算出兩兩變量之間的關(guān)聯(lián)系數(shù)。3、根據(jù)關(guān)聯(lián)系數(shù)值的大小，每個變量選擇和它最相關(guān)的前N個變量，記作此變量的"親友團"。4、利用聚堆方法規(guī)則自組織地聚出堆來。5、如果有因變量數(shù)據(jù),把每個堆回代到自變量數(shù)據(jù)中，算出每個堆的敏感性,并求平均，記錄下此方法的敏感性的數(shù)值，如果比上次記錄的敏感值大，則覆蓋上次的值，同時記錄下相應(yīng)的參數(shù)。6、微調(diào)一下參數(shù)，返回2。7、敏感性最大對應(yīng)的參數(shù)下得到的堆為最優(yōu)特征變量的組合。1.2變量之間相關(guān)性的度量1.2.1關(guān)聯(lián)度和關(guān)聯(lián)度系數(shù)對于一個復(fù)雜系統(tǒng)，可以表示為矢量其中，《—A)(^1，2，…，M"-1，2，…，M)是描述系統(tǒng)特征的變量。令《為A，^1，2，…^，分類的集合，G'的第a個元素e'。=a，則有"。C,H1,2,…一,…化"M，并令。^r?！篂槭录i屬于c,第a類的數(shù)量，則變量Xj的熵定義為',仝MSM(2)Xi和Xj的聯(lián)合熵定義為草,,^)=-SZ》g^其中表示事件A屬于G'的第。類同時Xj屬于Cj的第b類的數(shù)量。有了上述熵的定義，下面給出基于互信息的關(guān)聯(lián)度的定義。定義1.假設(shè)^^A，則稱熵為Xi和^之間的關(guān)聯(lián)度。定義2.假設(shè)《^A—，則稱"';叫)(5)為Xi和^之間的關(guān)聯(lián)度系數(shù)。1.2.2改進(jìn)的關(guān)聯(lián)度系數(shù)上述定義的關(guān)聯(lián)度系數(shù)在實際應(yīng)用時會碰到一些問題。比如中醫(yī)臨床中兩個強相關(guān)的癥狀(比如神疲和乏力)之間的關(guān)聯(lián)度系數(shù)是很大，但是兩個相反的癥狀之間(比如浮脈和沉脈)的關(guān)聯(lián)度系數(shù)也很大，甚至可能是最大的。這是因為關(guān)聯(lián)度的定義可以另外表示為=//(Z,)K|X》(6)8從(6)可以看出A'和、之間的關(guān)聯(lián)度實際上表示為在確定、后所提供的關(guān)于《的信息。所以一對強相關(guān)的癥狀之間的關(guān)聯(lián)度和另外一對完全相反的癥狀之間的關(guān)聯(lián)度都很大，而且都大于0，這就導(dǎo)致我們后面聚堆方法無法把這兩種類型的情況區(qū)分開。所以這里我們提出一種改進(jìn)的關(guān)聯(lián)度系數(shù)法來解決這個問題。強相關(guān)癥狀之間與相反癥狀之間可以用陽性出現(xiàn)率來區(qū)分開。陽性出現(xiàn)率是指兩個變量同時都為O的概率。強相關(guān)癥狀之間的陽性出現(xiàn)率很大，而相反癥狀之間的陽性出現(xiàn)率理論上應(yīng)該是O，即不可能一個病人同時出現(xiàn)這兩個相反癥狀。所以我們把關(guān)聯(lián)度己經(jīng)關(guān)聯(lián)度系數(shù)的定義重新寫成f<formula>formulaseeoriginaldocumentpage9</formula>(8)其中，6是大于1的實數(shù)，是懲罰系數(shù)。^是閾值。選取合適的閾值不但可以把正相關(guān)和負(fù)相關(guān)分開，而且可以避免一些錯誤數(shù)據(jù)帶來的干擾。,^)表示特征變量X,和&之間的關(guān)聯(lián)度；H(《)=-i:，iog~為特征變量義,的信息熵；<formula>formulaseeoriginaldocumentpage9</formula>為特征變量義,和^的聯(lián)合熵；尸o(/,/)表示特征變量X,和A的陽性出現(xiàn)頻率；6和5是實數(shù)；<formula>formulaseeoriginaldocumentpage9</formula>)為特征變量兀屬于C,第a類的數(shù)量，C,為z,，"1,2,…,;V分類的集合；M為樣本的數(shù)量。1.3聚堆方法1.3.1"親友團"我們這里只算出兩兩變量之間的關(guān)聯(lián)度系數(shù)，這樣就形成一個WxiV的矩陣，記為7^(A一(/,_/))。對角線的元素表示變量自己與自己的關(guān)聯(lián)，設(shè)置為0。一般的方法都是選擇一個全體的閾值來確定是否相關(guān)，但是這種做法有點"剛性"，而且這個閾值的確定帶有太大的主觀性而且太絕對。所以我們這里采取一種相對的做法，選定一個特定的變量/，在集合5*"(/)={厶//力,)),/=1,2—中取出值最大的前Z，1SZSW-1，個變量，形成一個有Z個元素的集合，記作Z)(/)。Z—般相對iV來說是很小的，所以這個集合可以叫做變量/的"親友團"，因為它其中的每個元素都與/很相關(guān)。對于每一個特征變量《，根據(jù)關(guān)聯(lián)度的值，確定與其最相關(guān)的Z個特征變量，這Z個特征變量就叫做變量X,的"親友團"，z為自然數(shù)。在"親友團"基礎(chǔ)上，自組織地聚出由特征變量組合成堆的步驟包括(1)如果兩個特征變量互在對方的"親友團"里面，這兩個特征變量相關(guān)，則聚在一起，把所有兩兩相關(guān)的變量都提取出來；(2)在此基礎(chǔ)上，如果有三個特征變量，它們之間兩兩都相關(guān)，則這三個變量就是相關(guān)，依此規(guī)則直到不能往里面加特征變量，則為收斂，這些相關(guān)特征變量的組合成非監(jiān)督聚出的堆。1.3.2聚堆方法對每個變量，我們都取它們各自的"親友團"WV-1,2』。如果兩個變量互相在各自的親友團里面，那么我們就認(rèn)為這兩個變量是強相關(guān)的。形式化描述就是變量/和/是強相關(guān)當(dāng)且僅當(dāng)/eD(y)且/eD(/)。只有強相關(guān)才能聚在一起。以此類推，三個變量聚在一堆里的當(dāng)且僅當(dāng)任意兩個變量都是強相關(guān)的。由于Z是有限的，所以這個方法肯定收斂。堆的個數(shù)是方法自動確定的，是變量個數(shù)W和"親友團"個數(shù)Z的函數(shù)。1.3.3N-class相關(guān)這個方法大大減少了復(fù)雜度，因為它只要求出變量之間的兩兩相關(guān)就行。如果算三個甚至三個以上變量之間的相關(guān)性的話，那么有時候會面臨一個組合爆炸的困境，比如在這里面，如果沒有聚堆方法的話，至少要算《"個組合，這個復(fù)雜度太高了，而且結(jié)果未必好。我們在這里介紹一個N-dss相關(guān)的概念。它是這樣定義的，對于N個變量，如果任意N—l個變量都是相關(guān)的，那么我們就說這N個變量就是N-class相關(guān)。這個概念意味著要判斷N個變量是否相關(guān)，我們只要判斷N—1個變量的是不是相關(guān)就可以。這樣理論上我們只要判斷兩兩變量之間是否相關(guān)就行。定理l:如果N個變量之間是相關(guān)的，第N+1個變量和N個變量之間任意一個都相關(guān)，那么，這N+1個變量就是相關(guān)的證明我們知道，N個變量之間的關(guān)聯(lián)度是這么定義的<formula>formulaseeoriginaldocumentpage11</formula>(9)那么我們就有<formula>formulaseeoriginaldocumentpage11</formula>(10)(10)式的第二項表示A+'和A，^，…，A的關(guān)聯(lián)。它意味著這N+1個變量之間的關(guān)聯(lián)等于前N個變量的關(guān)聯(lián)加上^"和A，^，…，A的關(guān)。如果A"是與前面相關(guān)的，那么這N+1個變量也是相關(guān)的。證明完畢。這個定理大大地較少了復(fù)雜性，實踐證明，在奔騰2G的PC上此方法運行所需時間少于50s。實驗結(jié)果1.1在生態(tài)區(qū)劃中的運用生態(tài)系統(tǒng)的區(qū)劃就是根據(jù)一定的規(guī)則把一個大區(qū)域分成若干小區(qū)域，使得每個小區(qū)域都有各自的相對獨立的特征，從而使得這個大區(qū)域內(nèi)各種不同類型的小區(qū)域分布以及它們之間的相互關(guān)系表現(xiàn)得更為清晰。.l丄l生態(tài)數(shù)據(jù)要分劃的區(qū)域由五個鎮(zhèn)(自變量),Xi,i^,2,…,5,組成，每一個鎮(zhèn)分別調(diào)察九種資源(能源,水資源，人口,動物,植物,微生物,自然地理,經(jīng)濟地理,環(huán)境質(zhì)量)情況，得到了一個9x5的矩陣。通過對這個數(shù)據(jù)的挖掘把五個鎮(zhèn)自動分層幾個類(區(qū)域)，使得資源利用等最優(yōu)。所述復(fù)雜系統(tǒng)樣本的原始信息為每個鄉(xiāng)鎮(zhèn)資源的量化取值，特征變量為每個鄉(xiāng)鎮(zhèn)的資源。l丄2方法運用選擇"親友團"個數(shù)Z為3，閾值為0，因為在這里面不涉及到完全相反的情況。所有的實驗都是在一臺P42.0G、512MB內(nèi)存、操作系統(tǒng)為Windows2000的PC機上，用C語言編程或用Matlab語言實現(xiàn)了本發(fā)明所描述的方法。聚出兩類出來,s,={x2,x5};s2={Xl,x3,x丄此結(jié)果與以前關(guān)于這部分?jǐn)?shù)據(jù)權(quán)威的結(jié)果完全一樣，說明了方法的有效性。由于無法得到相應(yīng)的因變量數(shù)據(jù)，所以方法的特點還沒有完全體現(xiàn)出現(xiàn)。1.2在中醫(yī)臨床數(shù)據(jù)分析中的運用1.2.1數(shù)據(jù)描述數(shù)據(jù)分成兩部分，一部分是248個四診信息(特征變量)的數(shù)據(jù)，由4215x248的矩陣來表示。另外一部分是臨床醫(yī)生給出的結(jié)果，分成風(fēng)，火，濕，痰，淤，氣滯，氣虛，陰虛，陽虛，陽亢，閉證，脫證，內(nèi)閉外脫這十三個證候(類變量)。如果有某個證候，就在其下面填上1,反之則填O。一般一個病人都是有幾個證候同時存在的。所以這部分?jǐn)?shù)據(jù)由4215x13的矩陣來表示。所有的實驗都是在一臺P42.0G、512MB內(nèi)存、操作系統(tǒng)為Windows2000的PC機上，用C語言編程實現(xiàn)。1.2.2數(shù)據(jù)的預(yù)處理以及參數(shù)選擇所述的復(fù)雜系統(tǒng)樣本的原始信息為人體癥狀所對應(yīng)的取值，特征變量為人體的癥狀，類變量為病人所屬的證候類型。所有的變量都變成0和1，O代表不出現(xiàn)，l代表出現(xiàn)。由于調(diào)查的四診信息是248個，所以中風(fēng)病這個復(fù)雜系統(tǒng)就是由248個矢量組成，每一個矢量都是4215維，由0和1組成。^=248，M=4215。選擇"親友團"個數(shù)Z需要參考臨床經(jīng)驗。一般在臨床上三個到四個變量就可以確定一個證候。所以Z取5或者6比較合適?？紤]到在同樣的參數(shù)下，2=5參數(shù)下聚出的堆是2=6的子集。所以在這里我們?nèi)-6。最關(guān)鍵的參數(shù)是閾值^的選擇，太小了會讓一些不太相關(guān)的變量聚在一個堆里；太大了又會使得雖然出現(xiàn)頻次都低但是卻緊密相關(guān)的變量之間的相關(guān)性變小，最后導(dǎo)致不在任何一個堆里面出現(xiàn)，大大損失了信息量。在下面我們將介紹這個值的選擇以及對這個方法的驗證。1.2.2聚堆結(jié)果1.2.2.1方法實現(xiàn)聚類我們選擇閾值為"^J，"親友團"個數(shù)Z如上所述選為6，在此參數(shù)下方法自組織地聚出了46個相互獨立的堆，顯然，堆的個數(shù)(記作尸)是S和Z的函數(shù)，即^=/(&"。每個堆分別對應(yīng)于中醫(yī)臨床的9個證候中的某一個，我們?nèi)〕?個有代表性的堆對應(yīng)上這9個證候，列在表l里。以前的方法最多只能提取出6個證候，在這里我們提取出了9個證候，為提高治療中風(fēng)病療效奠定了數(shù)理基礎(chǔ)。同時，這9個堆之間屬于不同的證候，可見復(fù)雜系統(tǒng)熵聚堆方法可以實現(xiàn)分類，而且分類的結(jié)果十分很符合臨床。表1:聚堆方法能實現(xiàn)分類,分出9個類，對應(yīng)9個不同的證候<table>tableseeoriginaldocumentpage14</column></row><table>1.2.2.2方法實現(xiàn)一個變量在不同的堆里出現(xiàn)方法不但可以實現(xiàn)分類，而且可以實現(xiàn)一個變量在不同的堆里出現(xiàn)，而且不同的堆會對應(yīng)不同的證候。如表2所示，堆1和堆2是46個堆中的兩個，它們由兩個變量是相同的，但是卻對應(yīng)不同的證候，此方法在分類的基礎(chǔ)上，亦能實現(xiàn)變量在不同的堆里出現(xiàn)，結(jié)果也十分吻合臨床。是目前能實現(xiàn)這個效果的唯一非監(jiān)督方法。表2:聚堆方法能實現(xiàn)一些變量在不同的堆里面出現(xiàn)<table>tableseeoriginaldocumentpage15</column></row><table>1.2.2.3方法驗證和敏感性如果復(fù)雜系統(tǒng)有相應(yīng)的類變量數(shù)據(jù)，利用類變量數(shù)據(jù)對聚堆進(jìn)行驗證的步驟包括(1)對于每一個堆s，把它回代到變量數(shù)據(jù)中，如果這個堆的所有變量都出現(xiàn)在一個樣本上，那么記下此樣本的編號，遍歷全部，本，統(tǒng)計出例數(shù)z，記錄下來，列在堆s后面，并得到一個z維的向量^，其每一個元素表示樣本的編號；(2)把與向量？中編號對應(yīng)的類變量的l個向量提取出來并把這些向量相加得到一個向量^;^中的每一個元素w'表示在這Z個樣本中有^個樣本是得第/個類變量；顯然w^、找出^中最大的數(shù)氣,記錄下這個數(shù)和相應(yīng)的類變量；(3)定義并算出堆5的敏感性為^=^"，所有的堆的敏感性的平均就是本非監(jiān)督聚堆方法的敏感性，即p^S，其中^表示方法的敏感性,尸是堆的個數(shù)；如果實際結(jié)果對應(yīng)于最高的敏感性，非監(jiān)督方法就得到驗證。把聚到的堆都回代到原來4215個病例中，把同時有這些癥狀的人都統(tǒng)計起來。比如第一個序號，在4215個病例中有148個病人同時得這個四個癥狀，然后我們把這148個病例單獨拿出來，同時也把這些病例對應(yīng)的辨證結(jié)果都取出來，然后加起來，我們發(fā)現(xiàn)這148個病人有140個是氣虛，所以我們就可以認(rèn)為這個堆是氣虛，同時我們也得到了方法關(guān)于聚出這些堆來的敏感性，就是140/148=96%.把所有的堆的敏感性加起來就是方法的敏感性，圖2中顯示了方法和閾值的關(guān)系。從中可以看出在閾值取15/4215的時候方法最好。通過定義敏感性來尋找最優(yōu)參數(shù)和由此產(chǎn)生的唯"^一個最優(yōu)堆，也是方法的精確率達(dá)到97.3°/。，這是目前為止任何方法都無法達(dá)到的。上面描述是用于實現(xiàn)本發(fā)明的實施例，本領(lǐng)域的技術(shù)人員應(yīng)該理解，在不脫離本發(fā)明的范圍的任何修改或局部替換，均屬于本發(fā)明權(quán)利要求來限定的范圍。權(quán)利要求1、一種復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法，其特征在于，包括步驟步驟S1根據(jù)復(fù)雜系統(tǒng)樣本的原始信息確定離散的特征變量和類變量；特征變量用于描述此復(fù)雜系統(tǒng)屬性的自變量；步驟S2用改進(jìn)的關(guān)聯(lián)度系數(shù)算出兩兩特征變量之間的關(guān)聯(lián)度；步驟S3確定每個特征變量的“親友團”；步驟S4根據(jù)聚堆方法自組織對特征變量進(jìn)行非監(jiān)督聚堆，得到特征變量的組合；步驟S5將每個堆回代到原數(shù)據(jù)中，得到算法的敏感性；步驟S6判斷敏感性的大小，如果敏感性為最大，轉(zhuǎn)入步驟7，如果敏感性不是最大，轉(zhuǎn)入步驟2；步驟S7利用系統(tǒng)的類變量對非監(jiān)督聚堆方法進(jìn)行驗證，得到特征變量最優(yōu)的組合。2、根據(jù)權(quán)利要求1所述的復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法，其特征在于，所述兩兩特征變量間的改進(jìn)關(guān)聯(lián)度的確定包括<formula>formulaseeoriginaldocumentpage2</formula>叫)単,)其中，一(X,，A)表示特征變量X,和A之間的關(guān)聯(lián)度;i^og^為特征變量Z,的信息熵；/f(X,,X》=W(;J^)=-SZSl0gS為特征變量X,和A的聯(lián)合熵；尸o(/,力表示特征變量X,和^的陽性出現(xiàn)頻率；6和5是實數(shù)；其中，"1>。=肘)為特征變量X屬于C,第a類的數(shù)量，C,為;r,，/",2,…,;V，分類的集合；M為樣本的數(shù)]3、根據(jù)權(quán)利要求2所述的復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法，其特征在于，對于每一個特征變量Z,，根據(jù)關(guān)聯(lián)度的值，確定與其最相關(guān)的z個特征變量，這Z個特征變量就叫做變量義,的"親友團"，Z為自然數(shù)。4、根據(jù)權(quán)利要求3所述的復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法，其特征在于，在"親友團"基礎(chǔ)上，自組織地聚出由特征變量組合成堆的步驟包括(1)如果兩個特征變量互在對方的"親友團"里面，這兩個特征變量相關(guān)，則聚在一起，把所有兩兩相關(guān)的變量都提取出來；(2)在此基礎(chǔ)上，如果有三個特征變量，它們之間兩兩都相關(guān)，則這三個變量就是相關(guān)，依此規(guī)則直到不能往里面加特征變量，則為收斂，這些相關(guān)特征變量的組合成非監(jiān)督聚出的堆。5、根據(jù)權(quán)利要求4所述的復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法，其特征在于，利用類變量數(shù)據(jù)對聚堆進(jìn)行驗證的步驟包括(1)對于每一個堆S，把它回代到變量數(shù)據(jù)中，如果這個堆的所有變量都出現(xiàn)在一個樣本上，那么記下此樣本的編號，遍歷全部樣本，統(tǒng)計出例數(shù)Z，記錄下來，列在堆S后面，并得到一個Z維的向量^其每一個元素表示樣本的編號；(2)把與向量^中編號對應(yīng)的類變量的i個向量提取出來并把這些向量相加得到一個向量^;^中的每一個元素w'表示在這Z個樣本中有w'個樣本是得第7個類變量；顯然W>Z，找出^中最大的數(shù)w'匪，記錄下這個數(shù)和相應(yīng)的類變量；(3)定義并算出堆s的敏感性為^^"T，所有的堆的敏感性的平1尸，均就是本非監(jiān)督聚堆方法的敏感性，即7^^，其中r表示方法的敏感性，P是堆的個數(shù)；如果實際結(jié)果對應(yīng)于最高的敏感性，非監(jiān)督方法就得到驗證。全文摘要本發(fā)明公開一種復(fù)雜系統(tǒng)中的非監(jiān)督聚堆方法，根據(jù)復(fù)雜系統(tǒng)樣本的原始信息確定離散的特征變量和類變量；計算兩兩特征變量之間的關(guān)聯(lián)度；確定每個特征變量的“親友團”；根據(jù)聚堆自組織對特征變量進(jìn)行非監(jiān)督聚堆，得到特征變量的組合；將每個堆回代到原數(shù)據(jù)中，得到敏感性；判斷敏感性的大?。焕孟到y(tǒng)的類變量對非監(jiān)督聚堆方法驗證，得到特征變量最優(yōu)組合。解決了傳統(tǒng)關(guān)聯(lián)度不能區(qū)分正相關(guān)和負(fù)相關(guān)的問題，本發(fā)明自組織、不用人為干預(yù)、運行速度快，適合大量數(shù)據(jù)甚至海量數(shù)據(jù)。能實現(xiàn)聚類，能實現(xiàn)某些變量在某些不同的類里面出現(xiàn)。本方法能對非監(jiān)督聚堆進(jìn)行驗證，以找到最優(yōu)堆。本發(fā)明在生態(tài)分劃和臨床醫(yī)學(xué)數(shù)據(jù)分析等領(lǐng)域有著廣泛應(yīng)用價值。文檔編號G06F17/30GK101315626SQ20071009987公開日2008年12月3日申請日期2007年5月31日優(yōu)先權(quán)日2007年5月31日發(fā)明者西廣成,靜陳,陳建新申請人:中國科學(xué)院自動化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：西廣成;陳建新;陳靜
技術(shù)所有人：中國科學(xué)院自動化研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

聚堆相關(guān)技術(shù)

復(fù)雜系統(tǒng)相關(guān)技術(shù)

復(fù)雜系統(tǒng)與復(fù)雜性科學(xué)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種復(fù)雜系統(tǒng)中非監(jiān)督聚堆方法