国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于頻繁項(xiàng)檢索的云平臺(tái)隱私保護(hù)方法

      文檔序號(hào):6551527閱讀:319來(lái)源:國(guó)知局
      一種基于頻繁項(xiàng)檢索的云平臺(tái)隱私保護(hù)方法
      【專利摘要】本發(fā)明涉及一種基于頻繁項(xiàng)檢索的云平臺(tái)隱私保護(hù)方法,該方法包括:根據(jù)關(guān)聯(lián)規(guī)則算法抽取出數(shù)據(jù)的頻繁項(xiàng)集;通過(guò)多關(guān)鍵字并行檢索建立頻繁項(xiàng)模型庫(kù);使用并行分布式排序算法對(duì)檢索結(jié)果排序,找出敏感記錄;在云平臺(tái)上使用聚類算法對(duì)敏感記錄進(jìn)行差分隱私保護(hù)。本發(fā)明方法根據(jù)數(shù)據(jù)的頻繁項(xiàng)的情況,檢索出會(huì)暴露出用戶信息的敏感記錄,并針對(duì)性的做差分隱私保護(hù)。從而避免根據(jù)已知的非敏感信息推測(cè)出相關(guān)敏感信息。本方法只對(duì)敏感記錄進(jìn)行保護(hù),未影響到其他信息量,在提高發(fā)布數(shù)據(jù)的效用的同時(shí),減少了數(shù)據(jù)泄漏風(fēng)險(xiǎn),保證了云平臺(tái)上的數(shù)據(jù)安全。
      【專利說(shuō)明】一種基于頻繁項(xiàng)檢索的云平臺(tái)隱私保護(hù)方法

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及云安全領(lǐng)域,具體是指一種基于頻繁項(xiàng)檢索的云平臺(tái)隱私保護(hù)方法。

      【背景技術(shù)】
      [0002] 隱私保護(hù)方法是一種伴隨著數(shù)據(jù)應(yīng)用而提出的,由實(shí)際應(yīng)用所決定的數(shù)據(jù)保護(hù)方 法,最先被用于統(tǒng)計(jì)領(lǐng)域。一般是通過(guò)引入統(tǒng)計(jì)模型和概率模型來(lái)實(shí)現(xiàn)保護(hù)在較低應(yīng)用層 次上數(shù)據(jù)的隱私。對(duì)于較高層次的數(shù)據(jù)應(yīng)用,主要是用面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù),根據(jù) 不同數(shù)據(jù)挖掘操作的特性來(lái)實(shí)現(xiàn)對(duì)應(yīng)用上隱私的保護(hù)。而各類應(yīng)用中可以通用的隱私保護(hù) 方法,一般由基于隱私保護(hù)的數(shù)據(jù)發(fā)布技術(shù)來(lái)實(shí)現(xiàn)。
      [0003] 目前,面對(duì)大數(shù)據(jù),在云平臺(tái)上的數(shù)據(jù)隱私保護(hù)方法,并不能滿足對(duì)數(shù)據(jù)保護(hù)的需 求,無(wú)法針對(duì)一些攻擊模型。隨著互聯(lián)網(wǎng)技術(shù)不斷的、飛速的發(fā)展,數(shù)據(jù)的共享變得越來(lái)越 便捷,隱私數(shù)據(jù)泄露事件越來(lái)越多。個(gè)人隱私安全得不到保障?,F(xiàn)有的大多數(shù)隱私保護(hù)都 是針對(duì)保護(hù)敏感信息,沒(méi)有考慮到敏感屬性與特定實(shí)體的關(guān)聯(lián),無(wú)法阻止由非敏感信息對(duì) 敏感信息的推測(cè),但對(duì)全部信息進(jìn)行保護(hù)又會(huì)失去數(shù)據(jù)本身的效用。
      [0004] 為了解決這個(gè)問(wèn)題,需要研究怎樣去在提高發(fā)布數(shù)據(jù)的效用的同時(shí),減少數(shù)據(jù)泄 露風(fēng)險(xiǎn),保障云平臺(tái)上的數(shù)據(jù)安全。依據(jù)頻繁項(xiàng)對(duì)數(shù)據(jù)做差分隱私保護(hù)是一種有效的手段。 依據(jù)頻繁項(xiàng)的差分保護(hù)是指,根據(jù)頻繁項(xiàng)的情況,檢索出可能會(huì)被推測(cè)出的敏感記錄,然后 對(duì)這些敏感記錄做差分隱私保護(hù),從而保證其他數(shù)據(jù)的有效性和完整性。在保障數(shù)據(jù)效用 的同時(shí),減少了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。


      【發(fā)明內(nèi)容】

      [0005] 鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明目的旨在提供一種基于頻繁項(xiàng)檢索的云平臺(tái)隱 私保護(hù)方法,該方法在云計(jì)算平臺(tái)上,通過(guò)抽取出數(shù)據(jù)的頻繁項(xiàng),將可能被推測(cè)出的敏感記 錄檢索出來(lái),然后針對(duì)性的做數(shù)據(jù)差分隱私保護(hù),本發(fā)明只保護(hù)需要被特別保護(hù)的數(shù)據(jù),在 提高發(fā)布數(shù)據(jù)的效用的同時(shí),減少了數(shù)據(jù)泄露的風(fēng)險(xiǎn),保障了數(shù)據(jù)安全,特別是能保障云平 臺(tái)上數(shù)據(jù)的安全。
      [0006] 實(shí)現(xiàn)本發(fā)明目的采用的技術(shù)方案是一種基于頻繁項(xiàng)檢索的云平臺(tái)隱私保護(hù)方法, 該方法包括:
      [0007] (1)根據(jù)關(guān)聯(lián)規(guī)則算法抽取出數(shù)據(jù)的頻繁項(xiàng)集;
      [0008] (2)通過(guò)多關(guān)鍵字并行檢索建立頻繁項(xiàng)模型庫(kù);
      [0009] (3)使用并行分布式排序算法對(duì)檢索結(jié)果排序,找出敏感記錄;
      [0010] (4)在云平臺(tái)上使用聚類算法對(duì)敏感記錄進(jìn)行差分隱私保護(hù)。
      [0011] 在上述技術(shù)方案中,所述步驟(1)包括:
      [0012] (1-1)根據(jù)數(shù)據(jù)情況和用戶需要設(shè)定最小支持度和第1項(xiàng)候選集;
      [0013] (1-2)分析原始數(shù)據(jù)的數(shù)據(jù)項(xiàng),構(gòu)建鍵值對(duì)序列集,通過(guò)鍵對(duì)序列集合第k項(xiàng)候選 集的關(guān)聯(lián),找出頻繁k項(xiàng)集;
      [0014] (1-3)對(duì)頻繁k項(xiàng)集的單表關(guān)聯(lián),并進(jìn)行分布式剪枝,得出第k+1項(xiàng)候選集;
      [0015] (1-4)對(duì)步驟(1-2)和(1-3)中的作業(yè)任務(wù)進(jìn)行組合式鏈接執(zhí)行,直到不能找出 k+Ι項(xiàng)候選集。
      [0016] 在上述技術(shù)方案中,所述步驟(2)包括:
      [0017] 在云平臺(tái)上,使用針對(duì)頻繁項(xiàng)的多關(guān)鍵字并行檢索,根據(jù)頻繁項(xiàng)集中的各頻繁項(xiàng) 及其權(quán)值,以倒排索引的形式建立頻繁項(xiàng)模型庫(kù)。
      [0018] 在上述技術(shù)方案中,所述步驟(3)包括:
      [0019] 在云平臺(tái)上,根據(jù)頻繁項(xiàng)權(quán)值的分布情況,給評(píng)分設(shè)定一個(gè)閾值,以頻繁項(xiàng)及其權(quán) 值為關(guān)鍵字,使用并行分布式排序算法對(duì)檢索結(jié)果進(jìn)行排序,找出評(píng)分大于閾值的敏感記 錄。
      [0020] 在上述技術(shù)方案中,所述步驟(4)包括:
      [0021] 在云平臺(tái)上,使用并行化的聚類算法對(duì)敏感記錄進(jìn)行聚類,從而將敏感記錄劃分 為若干個(gè)簇,每個(gè)簇中的記錄用該簇的中心點(diǎn)差分替換,達(dá)到差分隱私保護(hù)的目的。
      [0022] 現(xiàn)有的差分隱私保護(hù)方法無(wú)法解決云平臺(tái)上數(shù)據(jù)安全性和數(shù)據(jù)效用的協(xié)調(diào)問(wèn)題, 不能做到既保障數(shù)據(jù)的安全又保障數(shù)據(jù)的效用。而本發(fā)明不同之處在于能夠根據(jù)數(shù)據(jù)的頻 繁項(xiàng)針對(duì)性的做差分隱私保護(hù),首先使用關(guān)聯(lián)規(guī)則算法抽取出數(shù)據(jù)的頻繁項(xiàng),然后根據(jù)頻 繁項(xiàng)的情況檢索出敏感數(shù)據(jù),并對(duì)敏感數(shù)據(jù)做差分隱私保護(hù)。
      [0023] 本發(fā)明方法根據(jù)數(shù)據(jù)的頻繁項(xiàng)的情況,檢索出會(huì)暴露出用戶信息的敏感記錄,并 針對(duì)性的做差分隱私保護(hù)。從而避免根據(jù)已知的非敏感信息推測(cè)出相關(guān)敏感信息。本方法 只對(duì)敏感記錄進(jìn)行保護(hù),未影響到其他信息量,在提高發(fā)布數(shù)據(jù)的效用的同時(shí),減少了數(shù)據(jù) 泄漏風(fēng)險(xiǎn),保證了云平臺(tái)上的數(shù)據(jù)安全。

      【專利附圖】

      【附圖說(shuō)明】
      [0024] 圖1為本發(fā)明基于頻繁項(xiàng)檢索的云平臺(tái)隱私保護(hù)方法的流程圖。

      【具體實(shí)施方式】
      [0025] 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
      [0026] 如圖1,本發(fā)明基于頻繁項(xiàng)檢索的云平臺(tái)差分隱私保護(hù)方法,包括以下步驟:
      [0027] 步驟S100、根據(jù)關(guān)聯(lián)規(guī)則算法抽取出數(shù)據(jù)的頻繁項(xiàng)集,具體步驟為:
      [0028] 步驟S101、根據(jù)數(shù)據(jù)中項(xiàng)目的集合,數(shù)據(jù)集的大小等情況,以及使用該數(shù)據(jù)的用戶 的需要,來(lái)設(shè)定一個(gè)較為合理的最小支持度,作為支持度的比較標(biāo)準(zhǔn)。對(duì)原始的項(xiàng)目集合進(jìn) 行成分分析,排成頻數(shù)低的項(xiàng)目,余下項(xiàng)目作為第1項(xiàng)候選集。
      [0029] 步驟S102、在hadoop云平臺(tái)上,使用MapReduce技術(shù),對(duì)原始數(shù)據(jù)集合進(jìn)行處理, 將其分割成鍵值對(duì)序列。在其他節(jié)點(diǎn)上,使用MapReduce對(duì)第k項(xiàng)候選集進(jìn)行處理,并進(jìn)行 標(biāo)記,當(dāng)Map任務(wù)通過(guò)標(biāo)示符識(shí)別出輸入的行屬于哪個(gè)階段之后,對(duì)其進(jìn)行分割,將連接的 列作為key,其他列和標(biāo)識(shí)符作為value輸出。經(jīng)Reduce任務(wù)解析后輸出,計(jì)算出第k項(xiàng)候 選集中各元素的支持度,將它們分別和步驟S101中設(shè)定的最小支持度做比較,找出對(duì)應(yīng)支 持度大于最小支持度的元素,這些元素組成頻繁k項(xiàng)集。
      [0030] 步驟S103、通過(guò)頻繁k項(xiàng)集的單表關(guān)聯(lián),將頻繁k項(xiàng)集作為左右兩表,在hadoop 云平臺(tái)上,使用MapReduce技術(shù)進(jìn)行單表關(guān)聯(lián),先由map端識(shí)別分割,然后通過(guò)定制的 Combiner進(jìn)行剪枝,剪枝后交由reduce解析,實(shí)現(xiàn)頻繁k項(xiàng)集中事務(wù)列表的求笛卡爾積運(yùn) 算。從而得到第k+Ι項(xiàng)候選集。
      [0031] 步驟S104、使用hadoop云平臺(tái)上的Job和JobControl控制步驟S102和步驟S103 中的作業(yè)任務(wù)。Job用來(lái)維護(hù)子任務(wù)的位置信息和依賴關(guān)系,JobControl用來(lái)控制整個(gè)作 用的執(zhí)行過(guò)程。
      [0032] 步驟S200、通過(guò)多關(guān)鍵字并行檢索建立頻繁項(xiàng)模型庫(kù):在hadoop云平臺(tái)上,使用 MapReduce技術(shù),以頻繁項(xiàng)為關(guān)鍵字,進(jìn)行多關(guān)鍵字并行檢索。根據(jù)頻繁項(xiàng)使用的情況作為 權(quán)值,將頻繁項(xiàng)集中的各頻繁項(xiàng)及其權(quán)值組成鍵值對(duì)序列,以倒排索引的形式建立頻繁項(xiàng) 模型庫(kù);
      [0033] 步驟S300、使用并行分布式排序?qū)z索結(jié)果排序,找出敏感記錄,具體步驟為:在 hadoop云平臺(tái)上,獲取頻繁項(xiàng)權(quán)值的均值,給評(píng)分設(shè)定一個(gè)閾值。以頻繁項(xiàng)為主題,通過(guò)離 線計(jì)算出一個(gè)PageRank向量集合。這個(gè)集合中,每個(gè)向量與一個(gè)頻繁項(xiàng)相關(guān)。使用主題敏 感的PageRank算法對(duì)檢索結(jié)果進(jìn)行排序,并計(jì)算數(shù)據(jù)記錄與主題的匹配情況,找出評(píng)分大 于閾值的敏感記錄。
      [0034] 步驟S400、在云平臺(tái)上使用聚類算法對(duì)敏感記錄進(jìn)行差分隱私保護(hù),具體步驟為: 在hadoop云平臺(tái)上,使用MapReduce技術(shù),通過(guò)基于劃分的并行化Kmeans聚類算法對(duì)敏感 記錄進(jìn)行聚類,從而將敏感記錄劃分為若干個(gè)簇,每個(gè)簇中的記錄用該簇的中心點(diǎn)差分替 換,使得同一簇中記錄無(wú)法區(qū)分,達(dá)到差分隱私保護(hù)的目的。
      [0035] 上述方法中,對(duì)數(shù)據(jù)的頻繁項(xiàng)進(jìn)行了抽取獲得頻繁項(xiàng)集。然后檢索這些頻繁項(xiàng),以 倒排索引形式建立頻繁項(xiàng)模型庫(kù)。然后對(duì)頻繁項(xiàng)模型庫(kù)進(jìn)行排序,找出會(huì)推測(cè)出敏感信息 的敏感記錄,針對(duì)這部分記錄作差分隱私保護(hù)。這樣就避免了不必要的信息損失,在保障數(shù) 據(jù)效用的同時(shí),減少數(shù)據(jù)隱私泄露,保障數(shù)據(jù)安全。更重要的是,面對(duì)云平臺(tái)上的大數(shù)據(jù)的 數(shù)據(jù),可以使用此方法來(lái)進(jìn)行數(shù)據(jù)保護(hù),能夠在保證數(shù)據(jù)效用的同時(shí),減少數(shù)據(jù)隱私泄露, 具有很大的價(jià)值,可以有效的加強(qiáng)數(shù)據(jù)保護(hù)方面的云安全。
      【權(quán)利要求】
      1. 一種基于頻繁項(xiàng)檢索的云平臺(tái)隱私保護(hù)方法,其特征在于: (1) 根據(jù)關(guān)聯(lián)規(guī)則算法抽取出數(shù)據(jù)的頻繁項(xiàng)集; (2) 通過(guò)多關(guān)鍵字并行檢索建立頻繁項(xiàng)模型庫(kù); (3) 使用并行分布式排序算法對(duì)檢索結(jié)果排序,找出敏感記錄; (4) 在云平臺(tái)上使用聚類算法對(duì)敏感記錄進(jìn)行差分隱私保護(hù)。
      2. 根據(jù)權(quán)利要求1所述基于頻繁項(xiàng)檢索的云平臺(tái)隱私保護(hù)方法,其特征在于,所述步 驟(1)包括: (1-1)根據(jù)數(shù)據(jù)情況和用戶需要設(shè)定最小支持度和第1項(xiàng)候選集; (1-2)分析原始數(shù)據(jù)的數(shù)據(jù)項(xiàng),構(gòu)建鍵值對(duì)序列集,通過(guò)鍵值對(duì)序列集合第k項(xiàng)候選集 的關(guān)聯(lián),找出頻繁k項(xiàng)集; (1-3)對(duì)頻繁k項(xiàng)集的單表關(guān)聯(lián),并進(jìn)行分布式剪枝,得出第k+Ι項(xiàng)候選集; (1-4)對(duì)步驟(1-2)和(1-3)中的作業(yè)任務(wù)進(jìn)行組合式鏈接執(zhí)行,直到不能找出k+Ι項(xiàng) 候選集。
      3. 根據(jù)權(quán)利要求1所述基于頻繁項(xiàng)檢索的云平臺(tái)差分隱私保護(hù)方法,其特征在于,所 述步驟⑵包括: 在云平臺(tái)上,使用針對(duì)頻繁項(xiàng)的多關(guān)鍵字并行檢索,根據(jù)頻繁項(xiàng)集中的各頻繁項(xiàng)及其 權(quán)值,以倒排索引的形式建立頻繁項(xiàng)模型庫(kù)。
      4. 根據(jù)權(quán)利要求1所述基于頻繁項(xiàng)檢索的云平臺(tái)差分隱私保護(hù)方法,其特征在于,所 述步驟(3)包括: 在云平臺(tái)上,根據(jù)頻繁項(xiàng)權(quán)值的分布情況,給評(píng)分設(shè)定一個(gè)閾值,以頻繁項(xiàng)及其權(quán)值為 關(guān)鍵字,使用并行分布式排序算法對(duì)檢索結(jié)果進(jìn)行排序,找出評(píng)分大于閾值的敏感記錄。
      5. 根據(jù)權(quán)利要求1所述基于頻繁項(xiàng)檢索的云平臺(tái)差分隱私保護(hù)方法,其特征在于,所 述步驟⑷包括: 在云平臺(tái)上,使用并行化的聚類算法對(duì)敏感記錄進(jìn)行聚類,從而將敏感記錄劃分為若 干個(gè)簇,每個(gè)簇中的記錄用該簇的中心點(diǎn)差分替換,達(dá)到差分隱私保護(hù)的目的。
      【文檔編號(hào)】G06F17/30GK104123504SQ201410305357
      【公開(kāi)日】2014年10月29日 申請(qǐng)日期:2014年6月27日 優(yōu)先權(quán)日:2014年6月27日
      【發(fā)明者】鐘珞, 楊光, 李琳, 唐琨皓 申請(qǐng)人:武漢理工大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1