1.一種多元數(shù)據(jù)微融合的方法,其特征在于,包括如下步驟:
步驟一,多元變量數(shù)據(jù)集X={x1,x2,...,xN},其中每一個(gè)數(shù)據(jù)元素xi是一個(gè)n元變量xi={yi1,yi2,...,yin},為了匿名保護(hù),將數(shù)據(jù)集X分組,每一組的數(shù)據(jù)數(shù)量不小于k;
步驟二,計(jì)算數(shù)據(jù)集的全局中心以及各個(gè)數(shù)據(jù)之間的歐式距離;
步驟三,判斷數(shù)據(jù)集中剩余數(shù)據(jù)的數(shù)量,如果小于k,轉(zhuǎn)到步驟六,否則計(jì)算距離全局中心最遠(yuǎn)的數(shù)據(jù),并生成一個(gè)新的分組;
步驟四,依次選擇距離分組數(shù)據(jù)中心最近的數(shù)據(jù)加入到分組,新的數(shù)據(jù)加入后重新計(jì)算分組中心,直至分組數(shù)據(jù)數(shù)量為k;
步驟五,對(duì)分組進(jìn)行擴(kuò)展,使用分組的中心判斷新的數(shù)據(jù)是否加入,并保證每一個(gè)分組的數(shù)量不超過(guò)2k-1,轉(zhuǎn)至步驟二;
步驟六,將剩余的數(shù)據(jù)分別添加到信息損失增加最小的分組,并輸出分組結(jié)果。
2.根據(jù)權(quán)利要求1所述的多元數(shù)據(jù)微融合的方法,其特征在于,所述步驟一包括如下步驟:
步驟1.1,數(shù)據(jù)集大小N遠(yuǎn)大于k,分組的目的為了保護(hù)匿名隱私,信息損失衡量分組帶來(lái)的數(shù)據(jù)信息丟失程度,信息損失越小數(shù)據(jù)的保真度越高;
步驟1.2,假設(shè)得到Nk個(gè)分組G={g1,g2,...,gNk},對(duì)于分組gi,其組內(nèi)平方和為:
其中ni為數(shù)據(jù)數(shù)量,T是轉(zhuǎn)置,xij與分別為gi中第j個(gè)元素和中心,所有的組內(nèi)平方和為:
SSE描述了數(shù)據(jù)分組后的一致性;
步驟1.3,數(shù)據(jù)集X的所有平方和為:
其中為數(shù)據(jù)集的全局中心,可以知道SST與數(shù)據(jù)的分組無(wú)關(guān),當(dāng)數(shù)據(jù)集給定后SST也就確定了;
步驟1.4,分組的信息損失定義為SSE與SST的比值:
可以知道IL僅與SSE相關(guān),最小化IL只需要最小SSE。
3.根據(jù)權(quán)利要求1所述的多元數(shù)據(jù)微融合的方法,其特征在于,所述步驟二包括如下步驟:
步驟2.1,對(duì)于數(shù)據(jù)集X,其全局中心為:
即:
步驟2.2,對(duì)于數(shù)據(jù)集X中的任意兩個(gè)元素xi,xj其歐式距離定義為:
4.根據(jù)權(quán)利要求1所述的多元數(shù)據(jù)微融合的方法,其特征在于,所述步驟四包括如下步驟:
步驟4.1,對(duì)于分組gi,假設(shè)已經(jīng)有ni個(gè)數(shù)據(jù),則該分組的中心為:
選擇距離最近的數(shù)據(jù)加入到分組gi中,并更新直至gi的數(shù)據(jù)數(shù)量為k;
步驟4.2,對(duì)于分組gi,其中心的更新按照如下方式:
其中x′是新加入的數(shù)據(jù);
步驟4.3,選擇距離分組中心最近的數(shù)據(jù)元素加入是為了減少信息損失的增加量,假設(shè)x′需要加入到分組gi中,原組內(nèi)平方和ssei為:
當(dāng)x′加入時(shí),組內(nèi)平方和變?yōu)椋?/p>
這里將x′看做是第(ni+1)個(gè)元素,那么組內(nèi)平方和的增加為:
即,選擇距離分組中心最近的數(shù)據(jù)加入能夠減少組內(nèi)平方和的增加,也就減少信息損失的增加。
5.根據(jù)權(quán)利要求1所述的多元數(shù)據(jù)微融合的方法,其特征在于,所述步驟五包括如下步驟:
步驟5.1,在每個(gè)分組數(shù)據(jù)數(shù)量不小k時(shí),最優(yōu)分組大小應(yīng)該在k與2k-1之間,因此,在擴(kuò)展分組的大小時(shí)不能超過(guò)2k-1;
步驟5.2,假設(shè)距離gi中心最近的數(shù)據(jù)為xout,其距離為在沒(méi)有被加入分組的數(shù)據(jù)集中,距離xout最近距離為dout,如果滿(mǎn)足:
則將xout加入到gi;
步驟5.3,當(dāng)上式不滿(mǎn)足或者分組大小到達(dá)2k-1則終止。
6.根據(jù)權(quán)利要求1所述的多元數(shù)據(jù)微融合的方法,其特征在于,所述步驟六包括如下步驟:
步驟6.1,對(duì)于剩余的數(shù)據(jù),比較其距離已有的分組的中心,選擇最小的分組加入;
步驟6.2,其中是數(shù)據(jù)加入分組時(shí)組內(nèi)平方和增加的系數(shù),加入后更新該分組的中心。