專利名稱:動(dòng)態(tài)數(shù)據(jù)聚類算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息數(shù)據(jù)處理的技術(shù)領(lǐng)域,具體涉及一種對(duì)動(dòng)態(tài)關(guān)系數(shù)據(jù)進(jìn)行聚類的 動(dòng)態(tài)數(shù)據(jù)聚類算法。
背景技術(shù):
隨著信息時(shí)代的到來,數(shù)據(jù)已經(jīng)實(shí)現(xiàn)了爆炸性的增長(zhǎng)。得益于信息技術(shù)和數(shù)據(jù)庫 技術(shù)的迅猛發(fā)展,同時(shí)海量數(shù)據(jù)中也充滿了各種關(guān)系信息,比如Internet、社會(huì)關(guān)系網(wǎng)、通 信網(wǎng)以及市場(chǎng)客戶間購買模式等等。我們?nèi)绾螒?yīng)用現(xiàn)有的技術(shù)和工具來有效地管理、檢索 和分析這些關(guān)系數(shù)據(jù)是一個(gè)令人關(guān)注的問題。關(guān)系數(shù)據(jù)聚類作為數(shù)據(jù)挖掘中一種數(shù)據(jù)分析技術(shù),同時(shí)也是一種重要的人類行 為。早在我們的兒童時(shí)代,我們就通過不斷改進(jìn)意識(shí)中的聚類模式來學(xué)會(huì)如何區(qū)分現(xiàn)實(shí)中 的關(guān)系事物。目前,關(guān)系數(shù)據(jù)聚類分析已經(jīng)廣泛應(yīng)用到各種領(lǐng)域,包括模式識(shí)別、圖像處理、 統(tǒng)計(jì)分析,以及市場(chǎng)研究。通過聚類,我們能夠識(shí)別密集和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分 布模式,以及數(shù)據(jù)屬性之間的有趣的相互關(guān)系。在醫(yī)學(xué)上,聚類可以根據(jù)病人的癥狀及指標(biāo) 對(duì)病人進(jìn)行分類。在商務(wù)上,聚類能夠幫助市場(chǎng)分析人員依據(jù)客戶特有的購買模式和客戶 間的關(guān)系信息對(duì)客戶數(shù)據(jù)庫中客戶群進(jìn)行有效地劃分。在生物上,聚類通過蛋白質(zhì)分子結(jié) 構(gòu)或者基因片段的分析,來尋找相似結(jié)構(gòu)的單元。同時(shí)隨著互聯(lián)網(wǎng)的普及,我們習(xí)慣于在互 聯(lián)網(wǎng)上搜索信息和與人交流。聚類分析也可以用于互聯(lián)網(wǎng)數(shù)據(jù)的分析,用戶在網(wǎng)站上的行 為反映了他們的興趣和需求,如果對(duì)用戶的行為加以分析,就有可能發(fā)現(xiàn)一些潛在的規(guī)律。 了解用戶的訪問模式和興趣愛好,對(duì)用戶進(jìn)行一定的群分,有助于優(yōu)化網(wǎng)站的組織結(jié)構(gòu)和 空間設(shè)計(jì)。同時(shí),現(xiàn)實(shí)中很多的海量關(guān)系數(shù)據(jù)其實(shí)是動(dòng)態(tài)的關(guān)系數(shù)據(jù)。數(shù)據(jù)中的內(nèi)在關(guān)系會(huì) 隨著時(shí)間的變化而變化。當(dāng)前關(guān)系數(shù)據(jù)的結(jié)構(gòu)信息又往往受影響于歷史數(shù)據(jù)的結(jié)構(gòu)信息。 因此,在聚類分析動(dòng)態(tài)關(guān)系數(shù)據(jù)時(shí),僅僅使用靜態(tài)的算法來分析當(dāng)前時(shí)刻的數(shù)據(jù)會(huì)丟失數(shù) 據(jù)的時(shí)變性。在未考慮歷史信息的前提下,當(dāng)前時(shí)刻數(shù)據(jù)的聚類結(jié)果并不能準(zhǔn)確地反映動(dòng) 態(tài)數(shù)據(jù)的變化規(guī)律,自然也沒法準(zhǔn)確挖掘數(shù)據(jù)中隱含的模式和知識(shí)。只有應(yīng)用動(dòng)態(tài)算法來 處理動(dòng)態(tài)關(guān)系數(shù)據(jù)才能準(zhǔn)確挖掘數(shù)據(jù)的模式和知識(shí),同時(shí)也能預(yù)測(cè)數(shù)據(jù)未來時(shí)刻的發(fā)展趨 勢(shì)。因此,動(dòng)態(tài)關(guān)系數(shù)據(jù)的聚類分析已經(jīng)成為當(dāng)前數(shù)據(jù)挖掘領(lǐng)域一個(gè)非?;钴S的研究方向。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提供一種動(dòng)態(tài)數(shù)據(jù)聚類算法的技 術(shù)方案,對(duì)動(dòng)態(tài)關(guān)系數(shù)據(jù)進(jìn)行聚類分析,并根據(jù)分析結(jié)果揭示數(shù)據(jù)個(gè)體未來時(shí)刻的發(fā)展趨勢(shì)。所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于包括如下步驟1)選擇一個(gè)關(guān)系網(wǎng)絡(luò),對(duì)關(guān)系網(wǎng)絡(luò)內(nèi)的η個(gè)動(dòng)態(tài)關(guān)系數(shù)據(jù)進(jìn)行預(yù)處理,用帶權(quán)值 的無向圖表征,邊的權(quán)重代表網(wǎng)絡(luò)中結(jié)點(diǎn)間相似程度,權(quán)重越大,相似性越大;
2)對(duì)一定連續(xù)時(shí)間內(nèi)變化的動(dòng)態(tài)關(guān)系網(wǎng)絡(luò)數(shù)據(jù),以相同的時(shí)間間隔采集T個(gè)時(shí)間 點(diǎn)的離散數(shù)據(jù)來擬合連續(xù)時(shí)間數(shù)據(jù),每個(gè)時(shí)間點(diǎn)數(shù)據(jù)表示為無向圖的網(wǎng)絡(luò)形式,然后將無 向圖以關(guān)系矩陣的形式表示;3)對(duì)步驟2)中得到的關(guān)系矩陣進(jìn)行分解,建立一種基于矩陣分解的全局代價(jià)函 數(shù),采用循環(huán)迭代加載更新代價(jià)函數(shù),求得最優(yōu)解,修正聚類結(jié)果。所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于步驟2)中采集T個(gè)時(shí)間點(diǎn)的離散數(shù)據(jù)來擬 合連續(xù)時(shí)間數(shù)據(jù),將每個(gè)時(shí)間點(diǎn)數(shù)據(jù)表示為無向圖的網(wǎng)絡(luò)形式,邊的權(quán)重代表網(wǎng)絡(luò)中結(jié)點(diǎn) 間的相似程度,權(quán)重越大,相似性越大,然后將無向圖以關(guān)系矩陣的形式來表示,得到一系 列的關(guān)系矩陣序列A1, . . .,At,. . . AT, At代表t時(shí)刻的nXn關(guān)系矩陣,η是結(jié)點(diǎn)數(shù)目。所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于步驟3)中所述的全局代價(jià)函數(shù)包括現(xiàn)時(shí) 數(shù)據(jù)代價(jià)函數(shù)和歷史數(shù)據(jù)與現(xiàn)時(shí)關(guān)聯(lián)信息產(chǎn)生的代價(jià)函數(shù)。所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其 特征在于對(duì)某一 t時(shí)刻的數(shù)據(jù)At利用矩陣分解的方法得到聚類矩陣丄=CBJ C::,其 中C1, ...,Ct表示在相應(yīng)時(shí)刻聚類后得到的類矩陣,Ct e {0,l}nxk, Σ A j = 1, k是總共 的類數(shù),Cy = 1表示結(jié)點(diǎn)i經(jīng)過聚類后成為第j類的元素,每個(gè)結(jié)點(diǎn)在每個(gè)時(shí)間點(diǎn)只能被 隸屬于一個(gè)類,即Σ ,.Ci, j = 1,B1, ...,Bt表示對(duì)應(yīng)時(shí)刻的類間關(guān)系矩陣,Biij表示i類與j 類的權(quán)重關(guān)系,分解的結(jié)果使原有數(shù)據(jù)不失真,即i > Al0所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于所述的全局代價(jià)函數(shù)的建立方法如下全 局代價(jià)函數(shù)包含兩部分,一部分為現(xiàn)時(shí)數(shù)據(jù)的聚類的代價(jià)函數(shù),表示為Costsnapsh。t,另一部 分為歷史數(shù)據(jù)與現(xiàn)時(shí)關(guān)聯(lián)信息產(chǎn)生的代價(jià)函數(shù),表示為Costhistoy ;首先,考慮現(xiàn)時(shí)數(shù)據(jù)的聚類,Costsnapsh0t用來衡量每一時(shí)刻數(shù)據(jù)的聚類結(jié)果
權(quán)利要求
動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于包括如下步驟1)選擇一個(gè)關(guān)系網(wǎng)絡(luò),對(duì)關(guān)系網(wǎng)絡(luò)內(nèi)的n個(gè)動(dòng)態(tài)關(guān)系數(shù)據(jù)進(jìn)行預(yù)處理,用帶權(quán)值的無向圖表征,邊的權(quán)重代表網(wǎng)絡(luò)中結(jié)點(diǎn)間相似程度,權(quán)重越大,相似性越大;2)對(duì)一定連續(xù)時(shí)間內(nèi)變化的動(dòng)態(tài)關(guān)系網(wǎng)絡(luò)數(shù)據(jù),以相同的時(shí)間間隔采集T個(gè)時(shí)間點(diǎn)的離散數(shù)據(jù)來擬合連續(xù)時(shí)間數(shù)據(jù),每個(gè)時(shí)間點(diǎn)數(shù)據(jù)表示為無向圖的網(wǎng)絡(luò)形式,然后將無向圖以關(guān)系矩陣的形式表示;3)對(duì)步驟2)中得到的關(guān)系矩陣進(jìn)行分解,建立一種基于矩陣分解的全局代價(jià)函數(shù),采用循環(huán)迭代加載更新代價(jià)函數(shù),求得最優(yōu)解,修正聚類結(jié)果。
2.如權(quán)利要求1所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于步驟2)中采集T個(gè)時(shí)間點(diǎn)的 離散數(shù)據(jù)來擬合連續(xù)時(shí)間數(shù)據(jù),將每個(gè)時(shí)間點(diǎn)數(shù)據(jù)表示為無向圖的網(wǎng)絡(luò)形式,邊的權(quán)重代 表網(wǎng)絡(luò)中結(jié)點(diǎn)間的相似程度,權(quán)重越大,相似性越大,然后將無向圖以關(guān)系矩陣的形式來表 示,得到一系列的關(guān)系矩陣序列A1, . . .,At,. . . AT, At代表t時(shí)刻的nXn關(guān)系矩陣,η是結(jié) 點(diǎn)數(shù)目。
3.如權(quán)利要求1所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于步驟3)中所述的全局代價(jià)函數(shù) 包括現(xiàn)時(shí)數(shù)據(jù)代價(jià)函數(shù)和歷史數(shù)據(jù)與現(xiàn)時(shí)關(guān)聯(lián)信息產(chǎn)生的代價(jià)函數(shù)。
4.如權(quán)利要求2所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于對(duì)某一t時(shí)刻的數(shù)據(jù)At利用矩 陣分解的方法得到聚類矩陣Λ. - CBtICt廠,其中C1,...,Ct表示在相應(yīng)時(shí)刻聚類后得到 的類矩陣,Ct e {0,l}nxk, Σ ,.Ci, j = 1,k是總共的類數(shù),Ciij = 1表示結(jié)點(diǎn)i經(jīng)過聚類后成 為第j類的元素,每個(gè)結(jié)點(diǎn)在每個(gè)時(shí)間點(diǎn)只能被隸屬于一個(gè)類,即Σ ,.Ci,j = 1,B1;...,Bt表 示對(duì)應(yīng)時(shí)刻的類間關(guān)系矩陣,By表示i類與j類的權(quán)重關(guān)系,分解的結(jié)果使原有數(shù)據(jù)不失
5.如權(quán)利要求3或4所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于所述的全局代價(jià)函數(shù)的 建立方法如下全局代價(jià)函數(shù)包含兩部分,一部分為現(xiàn)時(shí)數(shù)據(jù)的聚類的代價(jià)函數(shù),表示為 Costsnapsh。t,另一部分為歷史數(shù)據(jù)與現(xiàn)時(shí)關(guān)聯(lián)信息產(chǎn)生的代價(jià)函數(shù),表示為Costhistoy ;首先,考慮現(xiàn)時(shí)數(shù)據(jù)的聚類,Costsnapsh0t用來衡量每一時(shí)刻數(shù)據(jù)的聚類結(jié)果
6.如權(quán)利要求5所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于對(duì)全局代價(jià)函數(shù)的聚類結(jié)果進(jìn) 行迭代修正的方法如下利用矩陣跡的運(yùn)算來化簡(jiǎn)F3,先節(jié)選一個(gè)時(shí)間點(diǎn)的全局代價(jià)函數(shù)
7.如權(quán)利要求6所述的動(dòng)態(tài)數(shù)據(jù)聚類算法,其特征在于采用循環(huán)迭代加載更新Bt和Ct 的方法如下1)首先對(duì)矩陣B的數(shù)據(jù)進(jìn)行初始化,根據(jù)初始化的B矩陣序列,對(duì)C矩陣序列中每個(gè) Ct逐行優(yōu)化,并判斷是否遍歷Ct矩陣的所有行,若每行都已經(jīng)進(jìn)行過優(yōu)化,則執(zhí)行下一步, 若沒有則繼續(xù)執(zhí)行本步驟;2)對(duì)C矩陣序列內(nèi)T個(gè)時(shí)間點(diǎn)的矩陣數(shù)據(jù)進(jìn)行優(yōu)化,并判斷是否遍歷整個(gè)C矩陣序列, 若每個(gè)時(shí)間點(diǎn)矩陣數(shù)據(jù)Ct都已經(jīng)進(jìn)行過優(yōu)化,則執(zhí)行下一步,若沒有則繼續(xù)執(zhí)行本步驟,得 到一系列優(yōu)化過的C矩陣序列;3)對(duì)步驟2)中的C矩陣序列,利fflF5:Bt = C.TA,C來修正得到B矩陣序列,利用更 新后B矩陣序列重新循環(huán)執(zhí)行步驟1)、2),讓算法不斷修正B和C矩陣序列,最終達(dá)到收斂 條件后,即直到前后兩次迭代得到的全局代價(jià)函數(shù)差值IF3I < ε,其中ε e (0,1)是一個(gè) 預(yù)先設(shè)定的閾值,算法終止,輸出B和C矩陣序列。
全文摘要
動(dòng)態(tài)數(shù)據(jù)聚類算法,屬于信息數(shù)據(jù)處理的技術(shù)領(lǐng)域。包括如下步驟選擇一個(gè)關(guān)系網(wǎng)絡(luò),對(duì)關(guān)系網(wǎng)絡(luò)內(nèi)的動(dòng)態(tài)關(guān)系數(shù)據(jù)進(jìn)行預(yù)處理;對(duì)一定連續(xù)時(shí)間關(guān)系網(wǎng)絡(luò)內(nèi)的動(dòng)態(tài)關(guān)系數(shù)據(jù),以相同的時(shí)間間隔采集離散數(shù)據(jù),表示為無向圖的網(wǎng)絡(luò)形式,然后將無向圖以關(guān)系矩陣的形式表示;對(duì)矩陣進(jìn)行分解,建立基于矩陣分解的全局代價(jià)函數(shù),采用循環(huán)迭代加載更新代價(jià)函數(shù)修正聚類結(jié)果。本發(fā)明提出將聚類算法應(yīng)用于動(dòng)態(tài)關(guān)系數(shù)據(jù),考慮關(guān)系數(shù)據(jù)時(shí)序上的關(guān)聯(lián)性,利用歷史數(shù)據(jù)信息來修正現(xiàn)時(shí)數(shù)據(jù)的分析結(jié)果,根據(jù)結(jié)點(diǎn)在不同時(shí)刻聚類結(jié)果的變化,跟蹤數(shù)據(jù)個(gè)體的聚類結(jié)果。在不同的網(wǎng)絡(luò)數(shù)據(jù)中,揭示結(jié)點(diǎn)不同的行為特性,對(duì)測(cè)試結(jié)點(diǎn)未來發(fā)展趨勢(shì)可根據(jù)歷史數(shù)據(jù)信息作有效估計(jì)。
文檔編號(hào)G06F17/30GK101957850SQ20101029057
公開日2011年1月26日 申請(qǐng)日期2010年9月25日 優(yōu)先權(quán)日2010年9月25日
發(fā)明者張仲非, 楊名, 王躍, 祁仲昂, 金永波 申請(qǐng)人:浙江大學(xué)