基于云服務(wù)的社交網(wǎng)絡(luò)相似分組匿名方法
【專利摘要】一種基于云服務(wù)的社交網(wǎng)絡(luò)相似分組匿名方法,本發(fā)明在社交網(wǎng)絡(luò)圖G中節(jié)點(diǎn)的集合V={v1,v2,…vn}中提取所有帶有敏感屬性的節(jié)點(diǎn)作為敏感標(biāo)簽節(jié)點(diǎn)并組成集合其中:vn表示社交網(wǎng)絡(luò)圖G中節(jié)點(diǎn),vsk表示敏感標(biāo)簽節(jié)點(diǎn);將集合Vs中每一個(gè)節(jié)點(diǎn)進(jìn)行分組,形成組集合C={g1,g2…gi},其中:gi代表各個(gè)組,1≤i≤k;將集合C中每組中的節(jié)點(diǎn)的鄰居標(biāo)簽圖進(jìn)行匿名成相同的鄰居標(biāo)簽圖,從而得到匿名的社交網(wǎng)絡(luò)圖G’,本發(fā)明可以有效的防止社交網(wǎng)絡(luò)中的鄰居標(biāo)簽攻擊,保護(hù)用戶的身份,確保敏感信息和鄰居網(wǎng)絡(luò)結(jié)構(gòu)不被攻擊者所識(shí)別,能夠顯著的提高匿名后的社交網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量的可用性。
【專利說明】
基于云服務(wù)的社交網(wǎng)絡(luò)相似分組匿名方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及的是一種社交網(wǎng)絡(luò)安全領(lǐng)域的技術(shù),具體是一種基于云服務(wù)的社交網(wǎng) 絡(luò)相似分組匿名方法。
【背景技術(shù)】
[0002] 公司將社交網(wǎng)絡(luò)數(shù)據(jù)外包到云計(jì)算服務(wù)提供商,W便節(jié)省公司開支和管理。但運(yùn) 也帶來了隱私泄露的問題,用戶的隱私信息很容易被攻擊。
[0003] 社交網(wǎng)絡(luò)能夠用節(jié)點(diǎn)和邊來表示,其中節(jié)點(diǎn)表示社交網(wǎng)絡(luò)中的用戶,他們之間的 邊來表示用戶與用戶之間的社交網(wǎng)絡(luò)關(guān)系。
[0004] 現(xiàn)有技術(shù)中,有許多方法來保護(hù)社交網(wǎng)絡(luò)中的用戶隱私信息,都主要關(guān)于用戶身 份識(shí)別和他們之間的邊信息的掲露,使得一個(gè)攻擊者在發(fā)布的社交網(wǎng)絡(luò)中不能W-個(gè)高的 概率去識(shí)別目標(biāo)用戶。但現(xiàn)實(shí)社交網(wǎng)絡(luò)中的用戶通常具有很多的屬性信息,W上方法不能 防止鄰居標(biāo)簽(label-nei曲borhood)攻擊因此,需要保證運(yùn)些具有敏感屬性信息的用戶, 使其敏感信息不被竊取。
[0005] 經(jīng)過對(duì)現(xiàn)有技術(shù)的檢索發(fā)現(xiàn),中國專利文獻(xiàn)號(hào)CN103279713A,【公開日】為2013年9月 04日,公開了一種優(yōu)化的社交網(wǎng)絡(luò)圖數(shù)據(jù)發(fā)布隱私保護(hù)方法,其首先將社交網(wǎng)絡(luò)的數(shù)據(jù)抽 象為無向圖,并將該無向圖生成度序列;然后對(duì)度序列進(jìn)行分組,構(gòu)建出匿名度序列;最后 再對(duì)匿名度序列進(jìn)行增加邊和增加頂點(diǎn)的處理,使社交網(wǎng)絡(luò)數(shù)據(jù)中每個(gè)個(gè)人或團(tuán)體數(shù)據(jù)都 具有至少k和他屬性相同的其他個(gè)人或團(tuán)體,攻擊者根據(jù)背景信息只能定位到至少k個(gè)體, 能夠很好的保護(hù)社交網(wǎng)絡(luò)參與者的個(gè)人或團(tuán)體隱私信息。但該技術(shù)并未保護(hù)社交網(wǎng)絡(luò)用戶 的個(gè)人敏感屬性信息,且僅考慮的是節(jié)點(diǎn)度的信息。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明針對(duì)現(xiàn)有技術(shù)存在的上述不足,提出一種基于云服務(wù)的社交網(wǎng)絡(luò)相似分組 匿名方法。
[0007] 本發(fā)明是通過W下技術(shù)方案實(shí)現(xiàn)的:
[000引本發(fā)明包括W下步驟:
[0009] 1)在社交網(wǎng)絡(luò)圖G中節(jié)點(diǎn)的集合V={vl,V2,…Vn}中提取所有帶有敏感屬性的節(jié)點(diǎn) 作為敏感標(biāo)簽節(jié)點(diǎn)并組成集合^ =把1,"。切},其中:Vn表示社交網(wǎng)絡(luò)圖G中節(jié)點(diǎn),vsk表 示敏感標(biāo)簽節(jié)點(diǎn);
[0010] 2)將集合Vs中每一個(gè)節(jié)點(diǎn)進(jìn)行分組,形成組集合〔={的瓜.'常},其中:的代表各個(gè) 組,<k;
[0011] 3)將集合C中每組中的節(jié)點(diǎn)的鄰居標(biāo)簽圖進(jìn)行匿名成相同的鄰居標(biāo)簽圖,從而得 到匿名的社交網(wǎng)絡(luò)圖G'。
[0012] 所述的步驟2)具體包括W下步驟:
[OOK] 2.1)將集合V和集合Vs中各個(gè)節(jié)點(diǎn)按照各自的度降序排序,i的初值為0;
[0014] 2.2)選擇集合Vs中未被分組的節(jié)點(diǎn)Vs建立新的分組gi,作為該分組的種子節(jié)點(diǎn),且 i 二 1+i;
[001引2.3)將集合¥中與巾3的鄰居標(biāo)簽序列相似度化55最高的1個(gè)節(jié)點(diǎn)加入旨1,并將該1個(gè) 節(jié)點(diǎn)從集合V中除去,當(dāng)集合V的節(jié)點(diǎn)數(shù)不足1時(shí),則1取集合V中實(shí)際剩余的節(jié)點(diǎn)數(shù);
[0016] 2.4)將gi加入集合C中,如果V和Vs都不為空,則回到步驟2.2);
[0017] 2.5)當(dāng)最后一組中的節(jié)點(diǎn)數(shù)量不足1,將該組中每一個(gè)節(jié)點(diǎn)加入到該節(jié)點(diǎn)與帥有 最大鄰居標(biāo)簽序列相似度值的組中,最后得到集合C。
[0018] 所述的鄰居標(biāo)簽序列相似度
,其中:V1和V2為任意節(jié) 點(diǎn),化Sv謝化SV2為節(jié)點(diǎn)VI和V2的鄰居標(biāo)簽序列的集合。
[0019] 所述的步驟3)具體包括W下步驟:
[0020] 3.1)對(duì)集合C中的各個(gè)組g中任意兩個(gè)節(jié)點(diǎn)進(jìn)行匿名操作,得到每一組中任意兩個(gè) 節(jié)點(diǎn)的匿名損失值;
[0021] 3.2)將集合C中各個(gè)組按照節(jié)點(diǎn)數(shù)量降序排列,在各組中將除第一個(gè)節(jié)點(diǎn)之外的 所有節(jié)點(diǎn)按照其與第一個(gè)節(jié)點(diǎn)之間的匿名損失值降序排列;
[0022] 3.3)采用標(biāo)簽優(yōu)先,后進(jìn)行度數(shù)匹配來匹配各組中的節(jié)點(diǎn),將每組中各個(gè)節(jié)點(diǎn)的 鄰居標(biāo)簽圖都匿名成相同的鄰居標(biāo)簽圖,得到匿名的社交網(wǎng)絡(luò)圖G'。
[0023] 所述的匿名損失值包括:標(biāo)簽信息泛化損失值化CG)、加邊信息損失值W及加點(diǎn)信 息損失值,匿名損失值
(IF(r) I - I巧巧 I),τ = Gi (U1) U Gi (化),Τ' = G' 1 (U1) U G' 1 (U2),其中:U1和U2為集合C中的各個(gè) 組內(nèi)任意兩個(gè)節(jié)點(diǎn),Gl(Ul),Gi(U2)分別為U1和U2的鄰居標(biāo)簽圖,G'l (山),G'1(U2)分別為U1和 U2匿名后的鄰居標(biāo)簽圖,E(T)表示鄰居標(biāo)簽圖T的邊的數(shù)量,ν(Τ)表示鄰居標(biāo)簽圖中節(jié)點(diǎn)的 數(shù)量,3, 丫,β分別表示標(biāo)簽信息泛化損失值,加邊信息損失值W及加點(diǎn)信息損失值的權(quán)值。 技術(shù)效果
[0024] 與現(xiàn)有技術(shù)相比,本發(fā)明可W有效的防止社交網(wǎng)絡(luò)中的鄰居標(biāo)簽攻擊,保護(hù)用戶 的身份,確保敏感信息和鄰居網(wǎng)絡(luò)結(jié)構(gòu)不被攻擊者所識(shí)別,能夠顯著的提高匿名后的社交 網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量的可用性。
【附圖說明】
[0025] 圖1為本發(fā)明流程圖;
[0026] 圖2為任意兩個(gè)節(jié)點(diǎn)匿名過程示意圖;
[0027] 圖3為原始圖G實(shí)驗(yàn)中數(shù)據(jù)集的平均節(jié)點(diǎn)度在不同取值下的度的分布情況;
[0028] 圖4為已匿名圖護(hù)實(shí)驗(yàn)中數(shù)據(jù)集的平均節(jié)點(diǎn)度在不同取值下的度的分布情況;
[0029] 圖5為實(shí)驗(yàn)中原始圖G和已匿名圖G/在不同隱私參數(shù)下的平均最短路徑值的分布;
[0030] 圖6為實(shí)驗(yàn)中原始圖G和已匿名圖G/在不同隱私參數(shù)下的聚類系數(shù)的分布;
[0031] 圖7為實(shí)驗(yàn)中k-匿名方法和GSGA方法在不同隱私參數(shù)下回答聚集查詢的誤差;
[0032] 圖8為實(shí)驗(yàn)中數(shù)據(jù)集的平均節(jié)點(diǎn)度為4的信息損失值情況;
[0033] 圖9為實(shí)驗(yàn)中數(shù)據(jù)集的平均節(jié)點(diǎn)度為6的信息損失值情況。
【具體實(shí)施方式】
[0034] 下面對(duì)本發(fā)明的實(shí)施例作詳細(xì)說明,本實(shí)施例在W本發(fā)明技術(shù)方案為前提下進(jìn)行 實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施 例。 實(shí)施例1
[0035] 本實(shí)施例首先將社交網(wǎng)絡(luò)圖G中每個(gè)敏感標(biāo)簽節(jié)點(diǎn)單獨(dú)分為一組,將其它所有節(jié) 點(diǎn)中與敏感標(biāo)簽節(jié)點(diǎn)的鄰居標(biāo)簽序列相似度最高的1個(gè)節(jié)點(diǎn)補(bǔ)入各組,得到一個(gè)組集合C, 然后先采用標(biāo)簽優(yōu)先和度數(shù)匹配來匹配節(jié)點(diǎn),最后將每組中各個(gè)節(jié)點(diǎn)的鄰居標(biāo)簽圖都匿名 成相同的鄰居標(biāo)簽圖,得到匿名的社交網(wǎng)絡(luò)圖G'。
[0036] 如圖1所示,本實(shí)施例具體包括W下步驟:
[0037] 步驟1、在社交網(wǎng)絡(luò)圖G=(V,E)中節(jié)點(diǎn)的集合V={vl,v2,…vn}中提取所有帶有敏 感屬性的節(jié)點(diǎn)作為敏感標(biāo)簽節(jié)點(diǎn)并組成集合^ =板1,做U山其中:Vn表示社交網(wǎng)絡(luò)圖G 中節(jié)點(diǎn),vsk表示敏感標(biāo)簽節(jié)點(diǎn),E為每個(gè)節(jié)點(diǎn)的度。
[003引步驟2、將集合Vs每一個(gè)節(jié)點(diǎn)進(jìn)行分組,形成組集合〔={的,邑2.'常},其中:邑1代表各 個(gè)組,1 ^ i ^ k,具體包括W下步驟:
[0039] 步驟2.1、將集合V和集合Vs各個(gè)節(jié)點(diǎn)按照各自的度降序排序,設(shè)數(shù)值i = 0。
[0040] 步驟2.2、選擇Vs中未被分組的節(jié)點(diǎn)vsi標(biāo)記為vsf,建立新的分組gi,作為該分組的 種子節(jié)點(diǎn),其中i = l+i。
[0041 ] 步驟2.3、令候選集化]1山(1日163為空。
[00創(chuàng)步驟2.4、將集合V中除節(jié)點(diǎn)Vsf之外未包含在gi的節(jié)點(diǎn)v加入候選集化ndidates。
[0043] 步驟2.5、計(jì)算化11山(1曰*63中每個(gè)節(jié)點(diǎn)與節(jié)點(diǎn)巾3:的鄰居標(biāo)簽序列相似度化55。
[0044] 步驟2.6、選取化11扣(1曰*日3中鄰居標(biāo)簽序列相識(shí)度化55最高的節(jié)點(diǎn)作為加入邑1并 在集合V中除去該節(jié)點(diǎn)。
[0045] 步驟2.7、如果gi中節(jié)點(diǎn)數(shù)目小于1,且集合V不為空,則回到步驟2.3,否則將gi加入 集合C。
[0046] 步驟2.8、如果集合V和集合Vs都不為空,則回到步驟2.2。
[0047] 步驟2.9、如果最后一組中的節(jié)點(diǎn)數(shù)量不足1,將該組中每一個(gè)節(jié)點(diǎn)加入到該節(jié)點(diǎn) 和集合C某一組的種子節(jié)點(diǎn)具有最大的鄰居標(biāo)簽序列相似度值的組中,最后得到集合C。
[004引所述的鄰居標(biāo)簽序列相似度
其中:VI和V2為任意節(jié) 點(diǎn),NLSv謝化Sv2為節(jié)點(diǎn)VI和V2的鄰居標(biāo)簽序列的集合。
[0049] 步驟3、將集合C中每組中的節(jié)點(diǎn)的鄰居標(biāo)簽圖進(jìn)行匿名成相同的鄰居標(biāo)簽圖,從 而得到匿名的社交網(wǎng)絡(luò)圖G'。
[0050] 如圖2所示,P和q為任意節(jié)點(diǎn),圖G巧為節(jié)點(diǎn)P的鄰居標(biāo)簽圖,圖Giq為節(jié)點(diǎn)q的鄰居標(biāo) 簽圖。節(jié)點(diǎn)P1、P2、P3和P4為節(jié)點(diǎn)P的鄰居節(jié)點(diǎn),節(jié)點(diǎn)qi、C12和Q3為節(jié)點(diǎn)q的鄰居節(jié)點(diǎn)。節(jié)點(diǎn)匹配 按照圖Gip中節(jié)點(diǎn)的度降序排列進(jìn)行處理,即節(jié)點(diǎn)P1、P2、P3首先分別與qi、Q2、q砸配。而節(jié)點(diǎn) P4無法與圖Giq中的任意節(jié)點(diǎn)匹配,增加一個(gè)與節(jié)點(diǎn)P4具有相同標(biāo)簽值,即14的節(jié)點(diǎn)并插入 Giq中,再在Gip和Giq中插入邊,使得兩幅鄰居標(biāo)簽圖經(jīng)匿名處理后相同,并記為Giw。
[0051] 所述的步驟3具體包括W下步驟:
[0052] 步驟3.1、通過對(duì)集合C中的各個(gè)組g中任意兩個(gè)節(jié)點(diǎn)進(jìn)行匿名操作,來得到每一組 中任意兩個(gè)節(jié)點(diǎn)的匿名損失值。運(yùn)里的匿名操作并不是為了得到最終的結(jié)果匿名圖,僅僅 是為了得到匿名損失值,后續(xù)會(huì)根據(jù)盡量降低匿名損失值運(yùn)一原則重新對(duì)原始圖進(jìn)行匿 名。
[0化3]所述的匿名損失值
/? * (|F(r)| - |l/(r)|),T = Gi(ui) UGi(U2),Τ' =G' 1(山)UG' i(U2),其中:ui和U2為集合C中的 各個(gè)組內(nèi)任意兩個(gè)節(jié)點(diǎn),Gi(U1),Gi(U2)分別為U1和U2的鄰居標(biāo)簽圖,6'1(111),6'1(化)分別為 U1和U2匿名后的鄰居標(biāo)簽圖,E(T)表示鄰居標(biāo)簽圖T的邊的數(shù)量,V(T)表示鄰居標(biāo)簽圖中節(jié) 點(diǎn)的數(shù)量,參數(shù)東γ,β分別表示標(biāo)簽信息泛化損失值,加邊信息損失值W及加點(diǎn)信息損失 值的權(quán)值。
[0054]所述的匿名損失值由Ξ部分組成:標(biāo)簽信息泛化損失值化CG)、加邊信息損失值W 及加點(diǎn)信息損失值
lu為任意節(jié)點(diǎn)U在原始圖G中的標(biāo)簽的集合,而 I'u是節(jié)點(diǎn)U在匿名后的社交網(wǎng)絡(luò)圖G/中的標(biāo)簽的集合。加邊信息損失值由原始圖G和已匿 名圖G/中的邊的數(shù)量變化來測量,加點(diǎn)信息損失值由原始圖G和已匿名圖G/中的節(jié)點(diǎn)的數(shù) 量變化來測量。
[0化日]步驟3.2、將組候選集Candidates置為空集,集合C中的各個(gè)分組按照節(jié)點(diǎn)數(shù)量降 序排列。
[0化6] 步驟3.3、將集合C中的每個(gè)分組和節(jié)點(diǎn)標(biāo)記為unanonymi zed。
[0化7]步驟3.4、將每組中的第一個(gè)節(jié)點(diǎn)作為種子節(jié)點(diǎn)Uf。
[005引步驟3.5、將每組中其余節(jié)點(diǎn)按照其與種子節(jié)點(diǎn)Uf之間的匿名損失值降序排列。
[0059] 步驟3.6、通過標(biāo)簽優(yōu)先,后進(jìn)行度數(shù)匹配將每個(gè)節(jié)點(diǎn)匿名,依次通過標(biāo)簽優(yōu)先,其 次是度數(shù)匹配方法來把種子節(jié)點(diǎn)Uf和每組中的其它節(jié)點(diǎn)的鄰居標(biāo)簽圖都匿名成相同的圖, 為了維持一組內(nèi)節(jié)點(diǎn)的1-graphic-di verse特性,對(duì)于種子節(jié)點(diǎn)的鄰居標(biāo)簽圖任何修改操 作同樣會(huì)作用于已匿名的節(jié)點(diǎn)上。
[0060] 所述的1-graphic-diverse特性為,對(duì)于圖G中任意一個(gè)攜帶敏感標(biāo)簽的節(jié)點(diǎn),至 少有(1-1)個(gè)節(jié)點(diǎn)和該節(jié)點(diǎn)具有相同的鄰居標(biāo)簽圖,但具有不同的標(biāo)簽值。
[0061] 所述的標(biāo)簽優(yōu)先是指任意節(jié)點(diǎn)U1和U2,首先在U1的鄰居標(biāo)簽圖中的其它節(jié)點(diǎn)和在 U2的鄰居標(biāo)簽圖中的其它節(jié)點(diǎn),按照他們是否有相同的標(biāo)簽值進(jìn)行匹配,假如在U2的鄰居標(biāo) 簽圖中有多個(gè)節(jié)點(diǎn)被發(fā)現(xiàn),我們選擇一個(gè)節(jié)點(diǎn),該節(jié)點(diǎn)滿足它的度是與在U1的鄰居標(biāo)簽圖 中未匹配節(jié)點(diǎn)的度最接近。然后,考慮U1的鄰居標(biāo)簽圖中剩余的未匹配的節(jié)點(diǎn),運(yùn)些節(jié)點(diǎn)與 U2的鄰居標(biāo)簽圖中節(jié)點(diǎn)有相同的度數(shù)。
[0062] 步驟3.7、將匿名后的節(jié)點(diǎn)和其對(duì)應(yīng)的分組g標(biāo)記成anonymized,并把加入到組候 選集化ndidates中。
[0063] 步驟3.8、重新檢查化ndidates集合中的所有組是否已匿名,對(duì)于未匿名的組將其 從Candidates集合中移除。
[0064] 步驟3.9、集合C全部處理完,最后得到匿名后的社交網(wǎng)絡(luò)圖G/,該圖每一組內(nèi)敏感 標(biāo)簽節(jié)點(diǎn)的鄰居標(biāo)簽圖都相同,且標(biāo)簽種類至少為1。
[0065] 針對(duì)已匿名圖護(hù)的數(shù)據(jù)質(zhì)量,做W下測量:
[0066] 實(shí)驗(yàn)是使用化jek工具來生成一些具有無尺度特性的隨機(jī)圖,且圖中節(jié)點(diǎn)的度服 從幕律定理。我們生成的隨機(jī)圖中節(jié)點(diǎn)的數(shù)量默認(rèn)是1000個(gè),節(jié)點(diǎn)的平均度數(shù)分別是4和6。 另外,由于圖中缺乏節(jié)點(diǎn)標(biāo)簽,我們生成一個(gè)范圍在0到1000平均分布的隨機(jī)數(shù),分配到每 一個(gè)節(jié)點(diǎn)作為它的標(biāo)簽值。然后,我們再次使用運(yùn)個(gè)隨機(jī)數(shù)生成器來把所有節(jié)點(diǎn)中的一半 設(shè)置成敏感標(biāo)簽,剩下的節(jié)點(diǎn)則攜帶的標(biāo)簽是非敏感的,通過運(yùn)種方式我們得到了帶有敏 感標(biāo)簽節(jié)點(diǎn)的數(shù)據(jù)集。
[0067] 1)分別在原始圖G和已匿名圖G/中統(tǒng)計(jì)節(jié)點(diǎn)度的分布情況。
[006引如圖3~4所示,比較原始圖G和已匿名圖(1 = 2,4,6, 8)的度的分布 (distribution of degree)^及節(jié)點(diǎn)頻率(frequen巧of nodes)的分布情況,低度的節(jié)點(diǎn) 的數(shù)量少于在原始圖中該類型的節(jié)點(diǎn)的數(shù)量,尤其是當(dāng)節(jié)點(diǎn)的度是1和2時(shí)。主要原因是由 于按照節(jié)點(diǎn)度的降序順序來處理節(jié)點(diǎn),很多具有低度數(shù)的節(jié)點(diǎn)都被用來匿名了高度數(shù)的節(jié) 點(diǎn)。從圖的整體情況來看,匿名后圖的節(jié)點(diǎn)度分布和原始圖是非常相似的,尤其在1小的時(shí) 候。
[0069] 2)如圖5所示,計(jì)算原始圖G(o;riginal)和已匿名圖(anonymized)在不同隱私參 數(shù)(privacy parameter)下的平均最短路徑長度(average path length),平均最短路徑長 度是把所有任意兩個(gè)節(jié)點(diǎn)之間的最短路徑求和再取平均值,
[0070] 3)如圖6所示,計(jì)算原始圖G和已匿名圖G/在不同隱私參數(shù)下的聚類系數(shù)(CC)。當(dāng)1 =8,10時(shí),已匿名圖護(hù)的聚類系數(shù)逐漸趨向于穩(wěn)定。
[0071 ] 4)如圖7所示,計(jì)算k-匿名算法化-anonymity)和1-graphic-diverse算法在回答 聚集查詢上的誤差情況。k-匿名方法并不能保護(hù)用戶的敏感信息。當(dāng)1值接近于25時(shí),k-匿 名的錯(cuò)誤率為12.6%算法能夠保護(hù)用戶敏感信息的前提下,錯(cuò)誤率 也同樣比較小,僅僅為16.3%。
[0072] 5)如圖8、9所示,分別在不同平均節(jié)點(diǎn)度的數(shù)據(jù)集中測量匿名期間總的信息損失 值(information loss)。
[0073] 將本發(fā)明和基準(zhǔn)算法比較,該基準(zhǔn)算法為:匿名兩個(gè)節(jié)點(diǎn)的鄰居標(biāo)簽圖時(shí),使用度 優(yōu)先,標(biāo)簽其次的匹配方法來盡量去匹配運(yùn)兩個(gè)圖鄰居標(biāo)簽中的節(jié)點(diǎn),也就是說當(dāng)去匹配 兩個(gè)圖中的節(jié)點(diǎn)時(shí),首先去選擇圖中度相同的節(jié)點(diǎn),然后才是標(biāo)簽值相同的節(jié)點(diǎn)。該基準(zhǔn)算 法的其余部分和我們的方法相同,參數(shù)α,β和丫分別為65,10和25。
[0074] 當(dāng)1值不斷增加時(shí),信息損失值也不斷增加,從圖中看出本發(fā)明的方法好過于基準(zhǔn) 算法,除此之外,當(dāng)平均節(jié)點(diǎn)度增加時(shí),信息損失值也會(huì)相應(yīng)的增加,圖9中兩種算法的匿名 損失值比圖8中的差距還要大。
[0075] 由W上測量可知,本方法得到的匿名圖數(shù)據(jù)的可用性依然很強(qiáng),能夠很好地保持 圖的一些特性,與此同時(shí)也能夠在圖上進(jìn)行準(zhǔn)確地聚集查詢。
[0076] 與現(xiàn)有技術(shù)相比,本發(fā)明可W有效地防止社交網(wǎng)絡(luò)中的鄰居標(biāo)簽攻擊,保護(hù)用戶 的身份和敏感信息不被攻擊者所識(shí)別,與此同時(shí)也能夠顯著地提高匿名后的社交網(wǎng)絡(luò)數(shù)據(jù) 質(zhì)量的可用性,準(zhǔn)確地回答用戶提出的聚集查詢。
【主權(quán)項(xiàng)】
1. 一種基于云服務(wù)的社交網(wǎng)絡(luò)相似分組匿名方法,其特征在于,包括以下步驟: 1) 在社交網(wǎng)絡(luò)圖G中節(jié)點(diǎn)的集合V = {V1,V2,…Vn}中提取所有帶有敏感屬性的節(jié)點(diǎn)作為 敏感標(biāo)簽節(jié)點(diǎn)并組成集合1^ = ^2,…,l/J,其中:vn表示社交網(wǎng)絡(luò)圖G中節(jié)點(diǎn),vsk表示敏 感標(biāo)簽節(jié)點(diǎn); 2) 將集合Vs中每一個(gè)節(jié)點(diǎn)進(jìn)行分組,形成組集合C = {gi,g2…gi},其中:gi代表各個(gè)組,1 < i <k; 3) 將集合C中每組中的節(jié)點(diǎn)的鄰居標(biāo)簽圖進(jìn)行匿名成相同的鄰居標(biāo)簽圖,從而得到匿 名的社交網(wǎng)絡(luò)圖G'。2. 根據(jù)權(quán)利要求1所述的基于云服務(wù)的社交網(wǎng)絡(luò)相似分組匿名方法,其特征是,所述的 步驟2)具體包括以下步驟: 2.1) 將集合V和集合1中各個(gè)節(jié)點(diǎn)按照各自的度降序排序,i的初值為0; 2.2) 選擇集合Vs中未被分組的節(jié)點(diǎn)vs建立新的分組gi,作為該分組的種子節(jié)點(diǎn),且i = 1 +i; 2.3) 將集合¥中與1的鄰居標(biāo)簽序列相似度亂55最高的1個(gè)節(jié)點(diǎn)加入8^并將該1個(gè)節(jié)點(diǎn) 從集合V中除去,當(dāng)集合V的節(jié)點(diǎn)數(shù)不足1時(shí),則1取集合V中實(shí)際剩余的節(jié)點(diǎn)數(shù); 2.4) 將&加入集合C中,如果V和1都不為空,則回到步驟2.2); 2.5) 當(dāng)最后一組中的節(jié)點(diǎn)數(shù)量不足1,將該組中每一個(gè)節(jié)點(diǎn)加入到該節(jié)點(diǎn)與C中有最大 鄰居標(biāo)簽序列相似度值的組中,最后得到集合C。3. 根據(jù)權(quán)利要求2所述的基于云服務(wù)的社交網(wǎng)絡(luò)相似分組匿名方法,其特征是,所述的 鄰居標(biāo)簽序列相似度,其中:vjPv2為任意節(jié)點(diǎn),NLSvdPNLSv 2為 節(jié)點(diǎn)VI和V2的鄰居標(biāo)簽序列的集合。4. 根據(jù)權(quán)利要求1所述的基于云服務(wù)的社交網(wǎng)絡(luò)相似分組匿名方法,其特征是,所述的 步驟3)具體包括以下步驟: 3.1) 對(duì)集合C中的各個(gè)組g中任意兩個(gè)節(jié)點(diǎn)進(jìn)行匿名操作,得到每一組中任意兩個(gè)節(jié)點(diǎn) 的匿名損失值; 3.2) 將集合C中各個(gè)組按照節(jié)點(diǎn)數(shù)量降序排列,在各組中將除第一個(gè)節(jié)點(diǎn)之外的所有 節(jié)點(diǎn)按照其與第一個(gè)節(jié)點(diǎn)之間的匿名損失值降序排列; 3.3) 采用標(biāo)簽優(yōu)先,后進(jìn)行度數(shù)匹配來匹配各組中的節(jié)點(diǎn),將每組中各個(gè)節(jié)點(diǎn)的鄰居 標(biāo)簽圖都匿名成相同的鄰居標(biāo)簽圖,得到匿名的社交網(wǎng)絡(luò)圖G'。5. 根據(jù)權(quán)利要求3所述的基于云服務(wù)的社交網(wǎng)絡(luò)相似分組匿名方法,其特征是,所述的 匿名損失值包括:標(biāo)簽信息泛化損失值、加邊信息損失值以及加點(diǎn)信息損失值,匿名損失值 costal,:?2) = d * lutETrWi) + β:* (\?(Τ')\ - \Ε(Τ)I) +γ*β* (|F(Tf)| - |F(F)|) ? Τ = Gi(ui) UGi(U2) =G' i(ui) UG' i(U2),其中:ui和U2為集合C中的各個(gè)組內(nèi)任意兩個(gè)節(jié)點(diǎn),Gi (Ul),Gl(U2)分別為U1和U2的鄰居標(biāo)簽圖,G' 1(U1),G' 1(U2)分別為U1和U2匿名后的鄰居標(biāo)簽 圖,Ε(τ)表示鄰居標(biāo)簽圖T的邊的數(shù)量,V(T)表示鄰居標(biāo)簽圖中節(jié)點(diǎn)的數(shù)量,仏γ,β分別表 不標(biāo)簽?目息泛化損失值,加邊?目息損失值以及加點(diǎn)?目息損失值的權(quán)值。
【文檔編號(hào)】H04L29/06GK105825147SQ201610223472
【公開日】2016年8月3日
【申請日】2016年4月12日
【發(fā)明人】吳帆, 王洋, 邱富東, 陳貴海
【申請人】上海交通大學(xué)