一種帶權(quán)重社會網(wǎng)絡(luò)的泛化方法
【專利摘要】本發(fā)明公開了一種帶權(quán)重社會網(wǎng)絡(luò)的泛化方法,包括:對節(jié)點依節(jié)點度進行降序排序并分組;泛化已經(jīng)存在的邊的權(quán)重,并計算邊存在概率;根據(jù)匿名組內(nèi)節(jié)點度數(shù)不相同的情況尋找候選節(jié)點作為新鄰居,增加邊、安排新邊權(quán)重并計算邊存在概率;遍歷所有匿名組集后抽取所有節(jié)點敏感屬性形成敏感屬性包;計算節(jié)點間的敏感屬性包的最大相似性,根據(jù)泛化樹,得到敏感屬性包的泛化包;遍歷K-權(quán)重匿名組集,得到滿足K-Weighted-inv-l-diversityanonymous圖。與現(xiàn)有技術(shù)相比,本發(fā)明考慮了邊的權(quán)重,并且考慮了多敏感屬性的問題,使得隱私保護方法更加適用于實際的社會網(wǎng)絡(luò),可以更好地保護帶權(quán)重圖中的多敏感屬性。
【專利說明】一種帶權(quán)重社會網(wǎng)絡(luò)的泛化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于網(wǎng)絡(luò)信息隱私保護【技術(shù)領(lǐng)域】,具體涉及一種帶權(quán)重的社會網(wǎng)絡(luò)一如 人人網(wǎng)、合著網(wǎng)中對多敏感屬性信息進行保護的方法。
【背景技術(shù)】
[0002] 社會網(wǎng)絡(luò),又稱作社交網(wǎng)絡(luò)或社會關(guān)系網(wǎng)絡(luò),是互相關(guān)聯(lián)的社會角色的集合。社會 角色可以是個人、團體、組織、公司甚至國家,他們之間的關(guān)系也多種多樣,可以是朋友、合 作者、交易、外交關(guān)系等。
[0003] 隨著數(shù)據(jù)庫和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,各組織機構(gòu)產(chǎn)生了大量的個人數(shù)據(jù),這為各 種組織機構(gòu)間的信息共享和科學研究工作提供了巨大的便利,同時數(shù)據(jù)挖掘等技術(shù)的不斷 進步也增加了數(shù)據(jù)中敏感信息泄漏的風險。因此,如何確保個人的隱私信息不泄露同時又 使得發(fā)布數(shù)據(jù)具有較高的可用性已經(jīng)成為眾多學者關(guān)注的問題,數(shù)據(jù)發(fā)布中的隱私保護技 術(shù)應(yīng)運而生。
[0004] Sweeney等人首先提出了 k-anonymity模型,它要求把數(shù)據(jù)集中的記錄劃分 為若干個等價類且每個等價類中至少有k條記錄,這樣鏈接攻擊的概率便不大于1/k。 Machanavajjhala等人為了解決分組中含有同種敏感屬性值的問題,提出了 1-diversity 模型。國內(nèi)學者對于社會網(wǎng)絡(luò)的隱私保護研究也有不少進展,蘭麗輝等人首先對國外研究 進展進行了總結(jié)描述,在此基礎(chǔ)上,楊俊等人提出了一種基于圖自同構(gòu)的K-Secure社會網(wǎng) 絡(luò)隱私保護模型,解決了 K-自同構(gòu)模型對于路徑長度泄露和邊泄露存在的隱私安全問題。 張曉琳等人使用聚類技術(shù),通過確保每個聚類中的節(jié)點數(shù)目不少于K個,且聚類中任一敏 感屬性值相關(guān)的節(jié)點的百分比不高于a實現(xiàn)了(a,k)_匿名技術(shù)。
[0005]在多敏感屬性數(shù)據(jù)的隱私保護方面,楊曉春等人提出一種基于多維桶的面向多敏 感屬性數(shù)據(jù)發(fā)布的隱私保護技術(shù)。它能很好的對多敏感屬性數(shù)據(jù)進行分組并且使其滿足 1-多樣性。劉善成等人提出一種基于敏感度的(g,1)-分組模型,它不僅解決了多敏感屬性 隱私數(shù)據(jù)發(fā)布的問題,同時還可以有效抵制相似性攻擊。徐勇等人提出一種考慮屬性權(quán)重 的隱私保護數(shù)據(jù)發(fā)布方法,在權(quán)重圖中考慮隱私數(shù)據(jù)的保護,提出一個考慮準標識符屬性 權(quán)重的數(shù)據(jù)表匿名算法WAK (QI Weight-aware k-anonymity)。該算法通過準標識符屬性的 泛化過程體現(xiàn)數(shù)據(jù)主體的個性化隱私保護需求。
[0006]但目前,上述這些針對敏感屬性數(shù)據(jù)集隱私保護的算法大多是只考慮單敏感屬 性,對于多敏感屬性的數(shù)據(jù)集的算法又大多是不考慮邊權(quán)重的(邊權(quán)重是指朋友網(wǎng)絡(luò)中共 同朋友的數(shù)量,合著網(wǎng)絡(luò)中合著的次數(shù)等數(shù)據(jù)),這些邊權(quán)重可能會被當作攻擊者的背景知 識,導致隱私泄漏。而傳統(tǒng)的隱私保護算法不考慮在權(quán)重圖中進行屬性保護,以及只保護單 個敏感屬性,不考慮多個敏感屬性,對于敏感數(shù)據(jù)的保護不夠全面,可能會導致敏感數(shù)據(jù)泄 露。
【發(fā)明內(nèi)容】
[0007] 為解決上述問題,本發(fā)明公開了一種帶權(quán)重社會網(wǎng)絡(luò)的泛化方法,基于匿名圖中 增加不確定性可以提高隱私保護這一出發(fā)點,過程中使用K-匿名和反L-多樣性分別對權(quán) 重和多敏感屬性進行保護,使得節(jié)點在權(quán)重圖中能夠抵御多敏感屬性泄露的危險,同時提 高了原始圖中數(shù)據(jù)的可用性。
[0008] 為了達到上述目的,本發(fā)明提供如下技術(shù)方案:
[0009] -種帶權(quán)重社會網(wǎng)絡(luò)的泛化方法,包括如下步驟:
[0010] 步驟1),對原始圖中節(jié)點依節(jié)點度進行降序排列,劃分為N個組,其中 N =IjW丨/Kj,I W|表示權(quán)重包個數(shù),K表示K-匿名的參數(shù),得到匿名組集合,每個組至少K 個節(jié)點;
[0011] 步驟2),在步驟1)產(chǎn)生的每個匿名組內(nèi),對目前已存在的邊,進行邊權(quán)重泛化,使 不同的權(quán)重泛化為一個區(qū)間值,并計算邊的存在概率;
[0012] 步驟3),根據(jù)匿名組內(nèi)節(jié)點度數(shù)不相同的情況,為組內(nèi)度數(shù)小的節(jié)點尋找候選節(jié) 點作為新鄰居,增加原節(jié)點和候選節(jié)點之間的邊,給新增加邊安排權(quán)重,并計算邊的存在概 率。
[0013] 步驟4),依次對剩余匿名組進行步驟2)和步驟3),直到剩余匿名組集為空,得到 滿足K-匿名的K-權(quán)重匿名圖;
[0014] 步驟5),對步驟4)生成的K-權(quán)重匿名圖中所有節(jié)點提取敏感屬性,形成敏感屬性 包;
[0015] 步驟6),計算節(jié)點間的敏感屬性包的最大相似性,根據(jù)泛化樹來泛化敏感屬性,得 到敏感屬性包的泛化包;
【權(quán)利要求】
1. 一種帶權(quán)重社會網(wǎng)絡(luò)的泛化方法,其特征在于,包括如下步驟: 步驟1),對原始圖中節(jié)點依節(jié)點度進行降序排列,劃分為N個組,其中N=IIWI/KJ, Iw|表示權(quán)重包個數(shù),κ表示K-匿名的參數(shù),得到匿名組集合,每個組至少κ個節(jié)點; 步驟2),在步驟1)產(chǎn)生的每個匿名組內(nèi),對目前已存在的邊,進行邊權(quán)重泛化,使不同 的權(quán)重泛化為一個區(qū)間值,并計算邊的存在概率; 步驟3),根據(jù)匿名組內(nèi)節(jié)點度數(shù)不相同的情況,為組內(nèi)度數(shù)小的節(jié)點尋找候選節(jié)點作 為新鄰居,增加原節(jié)點和候選節(jié)點之間的邊,給新增加邊安排權(quán)重,并計算邊的存在概率。 步驟4),依次對剩余匿名組進行步驟2)和步驟3),直到剩余匿名組集為空,得到滿足K-匿名的K-權(quán)重匿名圖; 步驟5),對步驟4)生成的K-權(quán)重匿名圖中所有節(jié)點提取敏感屬性,形成敏感屬性包; 步驟6),計算節(jié)點間的敏感屬性包的最大相似性,根據(jù)泛化樹來泛化敏感屬性,得到敏 感屬性包的泛化包; 步驟7),對每個K-權(quán)重匿名中的匿名組進行步驟5)和步驟6),直到剩余K-權(quán)重匿名 組集為空,得到滿足K-Weighted-inv-l-diversityanonymous圖。
2. 根據(jù)權(quán)利要求1所述的帶權(quán)重社會網(wǎng)絡(luò)的泛化方法,其特征在于:所述步驟 1)中劃分組時,如果度數(shù)相同的節(jié)點個數(shù)大于該組最多需要的節(jié)點個數(shù),則根據(jù)公式 =v (w£, -W,? (?V,-%v; - ·- (iv:,s ~w.,)"if |1] 后選擇距離小的加入組中,其中,Vi,Vj表示節(jié)點,Wi,j表示i節(jié)點的第j個權(quán)重。
3. 根據(jù)權(quán)利要求1或2所述的帶權(quán)重社會網(wǎng)絡(luò)的泛化方法,其特征在于,所述步驟2) 具體包括如下過程: 對于每一個組內(nèi)節(jié)點,將各節(jié)點權(quán)重包內(nèi)每個權(quán)重值與組內(nèi)第一個節(jié)點的權(quán)重值進 行匹配,如果相同,兩個權(quán)重則做標記,直到該節(jié)點的權(quán)重值全部匹配結(jié)束;針對沒做標 記的權(quán)重值,要和第一個節(jié)點未標記權(quán)重值中差距最小的權(quán)重值進行泛化,得到泛化區(qū)間 [Min,Max],根據(jù)盡=g,計算未標記權(quán)重邊的存在概率,Pi,k表示第i個組中的第j 個節(jié)點的第k個權(quán)重的邊存在概率,IAGiI表示第i個組中節(jié)點的個數(shù),然后給這兩個節(jié)點 添加標記,表示已經(jīng)泛化。
4. 根據(jù)權(quán)利要求1或2所述的帶權(quán)重社會網(wǎng)絡(luò)的泛化方法,其特征在于:所述步驟3) 中選擇候選節(jié)點時,首先考慮同組內(nèi)度數(shù)小的節(jié)點,如果同組內(nèi)節(jié)點度達到最大或者兩節(jié) 點已經(jīng)是鄰居,則考慮下一個組內(nèi)節(jié)點度較小的節(jié)點為候選節(jié)點。
【文檔編號】G06F17/30GK104317904SQ201410579139
【公開日】2015年1月28日 申請日期:2014年10月24日 優(yōu)先權(quán)日:2014年10月24日
【發(fā)明者】馬廷淮, 索夏菲, 唐美麗, 曹杰, 薛羽, 鐘水明 申請人:南京信息工程大學