一種基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)系統(tǒng)及方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)系統(tǒng)及方法,采用客戶(hù)端—服務(wù)器兩層體系架構(gòu),運(yùn)用多種混淆技術(shù)保障移動(dòng)廣告生態(tài)系統(tǒng)中用戶(hù)的隱私安全??蛻?hù)端應(yīng)用可以獲取手機(jī)應(yīng)用列表、應(yīng)用程序的使用信息以及配置文件,然后發(fā)送給服務(wù)器。服務(wù)器根據(jù)收集到的信息分析、提取出用戶(hù)的偏好特征,生成對(duì)應(yīng)的用戶(hù)偏好文件,還可以提醒用戶(hù)存在的潛在威脅。同時(shí)還提出了基于相似度、定制化以及隨機(jī)化的混淆策略,用戶(hù)可以根據(jù)實(shí)際情況選擇相應(yīng)的混淆策略?;煜娓鶕?jù)用戶(hù)選擇的混淆策略來(lái)混淆用戶(hù)偏好分類(lèi),增加了配置文件中隱私偏好的噪音,減少了用戶(hù)隱私偏好的主導(dǎo)地位。既可以有效地保護(hù)用戶(hù)隱私,又不會(huì)影響廣告定向投放的效果。
【專(zhuān)利說(shuō)明】
一種基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)系統(tǒng)及方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于移動(dòng)互聯(lián)網(wǎng)安全技術(shù)領(lǐng)域,涉及一種基于移動(dòng)用戶(hù)配置文件混淆的隱 私保護(hù)系統(tǒng)及方法,尤其涉及一種運(yùn)用多種混淆策略來(lái)保護(hù)移動(dòng)用戶(hù)配置文件中用戶(hù)隱私 信息同時(shí)又保證了定向廣告投放效果的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)系統(tǒng)及方 法。
【背景技術(shù)】
[0002] 隨著移動(dòng)設(shè)備的數(shù)量急劇增長(zhǎng),許多用戶(hù)傾向于使用移動(dòng)設(shè)備,而且更加頻繁地 活躍在移動(dòng)網(wǎng)絡(luò)上。由于A(yíng)ndroid采用開(kāi)源的操作系統(tǒng),其安全問(wèn)題十分令人憂(yōu)慮。尤其是 隨著現(xiàn)在指紋技術(shù)的不斷升級(jí),用戶(hù)隱私安全更加突出。目前關(guān)于指紋技術(shù)的研究主要集 中在網(wǎng)站指紋攻擊、防御以及移動(dòng)平臺(tái)的指紋識(shí)別上,而在移動(dòng)廣告生態(tài)系統(tǒng)中利用指紋 攻擊、防御技術(shù)保護(hù)用戶(hù)隱私并不多見(jiàn)。
[0003] 移動(dòng)應(yīng)用中的配置文件在移動(dòng)網(wǎng)絡(luò)環(huán)境中顯得極為重要,因?yàn)榕渲梦募?huì)收集用 戶(hù)的指紋信息并且發(fā)送到分析公司,如Google Analytics和Flurry等。由于配置文件能夠 增加廣告與用戶(hù)之間的契合度,定向廣告作為促進(jìn)廣告生態(tài)系統(tǒng)發(fā)展的主要?jiǎng)恿?,因此?huì) 愈發(fā)地依賴(lài)于用戶(hù)的配置文件。
[0004] 許多廣告服務(wù)商為了有針對(duì)性地投放廣告,并且讓投放的廣告產(chǎn)生最佳效益,不 得不花大量的時(shí)間去搜集用戶(hù)的指紋信息,然后對(duì)收集到的信息進(jìn)行分析得出每個(gè)用戶(hù)的 偏好特征,最后根據(jù)用戶(hù)的偏好去投遞相應(yīng)的廣告,如此一來(lái)才可以保證廣告與用戶(hù)之間 的契合度達(dá)到最佳。細(xì)細(xì)看來(lái)發(fā)現(xiàn)其間隱藏著一個(gè)十分令人憂(yōu)慮的問(wèn)題:指紋信息包括了 許多敏感信息,如性別、年齡、收入等,主要用來(lái)標(biāo)識(shí)、識(shí)別每個(gè)用戶(hù),如果廣告服務(wù)商獲取 了用戶(hù)的敏感信息并且不遵守隱私規(guī)范的話(huà),用戶(hù)的隱私將面臨著極大的威脅。
[0005] 因此需要一種方法既可以保護(hù)移動(dòng)廣告生態(tài)系統(tǒng)中用戶(hù)的隱私又不會(huì)影響定向 廣告投放的影響。
【發(fā)明內(nèi)容】
[0006] 為了解決上述技術(shù)問(wèn)題,本發(fā)明提出了一種運(yùn)用多種混淆策略來(lái)保護(hù)移動(dòng)用戶(hù)配 置文件中用戶(hù)隱私信息同時(shí)又保證了定向廣告投放效果的基于移動(dòng)用戶(hù)配置文件混淆的 隱私保護(hù)系統(tǒng)及方法。
[0007] 本發(fā)明的系統(tǒng)所采用的技術(shù)方案是:一種基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù) 系統(tǒng),其特征在于:采用客戶(hù)端、服務(wù)器兩層體系架構(gòu);所述客戶(hù)端用于收集用戶(hù)的應(yīng)用列 表、應(yīng)用程序的使用信息以及配置文件,并將這些信息上傳到服務(wù)器,同時(shí)自動(dòng)化安裝、運(yùn) 行應(yīng)用程序;所述服務(wù)器對(duì)收集到的信息進(jìn)行分析、提取出用戶(hù)的偏好特征,為每個(gè)用戶(hù)生 成對(duì)應(yīng)的偏好文件,同時(shí)提醒用戶(hù)潛在的隱私威脅。
[0008] 本發(fā)明的方法所采用的技術(shù)方案是:一種基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù) 方法,其特征在于,包括以下步驟:
[0009] 步驟1:收集手機(jī)用戶(hù)的配置文件;
[0010] 步驟2:提取用戶(hù)的行為數(shù)據(jù);
[0011]步驟3:對(duì)行為數(shù)據(jù)進(jìn)行預(yù)處理;
[0012] 步驟4:對(duì)預(yù)處理后的行為數(shù)據(jù)建立用戶(hù)標(biāo)簽,建立偏好預(yù)測(cè)模型,包括用戶(hù)性別 預(yù)測(cè)模型,年齡預(yù)測(cè)模型,收入預(yù)測(cè)模型以及興趣愛(ài)好預(yù)測(cè)模型;建立偏好預(yù)測(cè)模型采用了 邏輯回歸算法,因?yàn)檫壿嫽貧w算法通過(guò)聚類(lèi)分析將一些非線(xiàn)性特征轉(zhuǎn)化為線(xiàn)性特征;而且 比較抗噪,適用于數(shù)據(jù)特別大的場(chǎng)景,算法效率特別高;
[0013] 步驟5:通過(guò)建立的偏好預(yù)測(cè)模型提取用戶(hù)多個(gè)維度的興趣偏好特征,包括用戶(hù)維 度以及應(yīng)用程序維度的興趣偏好特征;并判斷是夠提取成功;
[0014]若是,則執(zhí)行下述步驟6;
[0015] 若否,則回轉(zhuǎn)執(zhí)行上述步驟2,需要重新提取用戶(hù)行為數(shù)據(jù),再次建立預(yù)測(cè)模型;
[0016] 步驟6:判斷用戶(hù)的偏好特征是否為用戶(hù)的隱私偏好特征;
[0017]若是,則執(zhí)行下述步驟7;
[0018] 若否,則投放廣廣告,并回轉(zhuǎn)執(zhí)行上述步驟1;
[0019] 步驟7:選擇混淆策略,包括基于相似度的混淆策略、基于隨機(jī)化的混淆策略以及 基于定制化的混淆策略;
[0020] 步驟8:對(duì)移動(dòng)用戶(hù)配置文件進(jìn)行混淆,降低用戶(hù)隱私偏好的優(yōu)勢(shì)比,保護(hù)用戶(hù)隱 私。
[0021] 作為優(yōu)選,步驟1中所述配置文件包括移動(dòng)用戶(hù)信息、移動(dòng)網(wǎng)絡(luò)服務(wù)信息、上下文 信息、移動(dòng)用戶(hù)使用移動(dòng)網(wǎng)絡(luò)服務(wù)的行為日志信息。
[0022] 作為優(yōu)選,步驟2中是通過(guò)客戶(hù)端收集用戶(hù)的行為數(shù)據(jù),所述用戶(hù)行為數(shù)據(jù)包括用 戶(hù)身份信息、用戶(hù)社會(huì)生活信息、用戶(hù)行為偏好信息、人口學(xué)特征信息,這些信息根據(jù) Google提供的數(shù)據(jù)集分類(lèi)標(biāo)準(zhǔn)來(lái)區(qū)分。
[0023]作為優(yōu)選,步驟3中所述對(duì)行為數(shù)據(jù)進(jìn)行預(yù)處理,即對(duì)原始數(shù)據(jù)進(jìn)行ETL加工處理, 首先需要處理掉存儲(chǔ)的無(wú)效重復(fù)數(shù)據(jù),對(duì)于用戶(hù)行為沒(méi)有影響或重復(fù)數(shù)據(jù),對(duì)非結(jié)構(gòu)化數(shù) 據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,并對(duì)數(shù)據(jù)進(jìn)行補(bǔ)缺、替換、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)加 載和異常處理。
[0024]作為優(yōu)選,步驟5中所述提取用戶(hù)多個(gè)維度的興趣偏好特征,具體實(shí)現(xiàn)包括以下步 驟:
[0025] 步驟5.1:對(duì)于步驟5中預(yù)處理后的數(shù)據(jù),利用開(kāi)源的機(jī)器學(xué)習(xí)分類(lèi)包(CardMagic-Classifier)對(duì)數(shù)據(jù)進(jìn)行分類(lèi);
[0026] 步驟5.2:根據(jù)Google設(shè)計(jì)的用戶(hù)偏好分類(lèi)對(duì)用戶(hù)的行為特征計(jì)算特征值;
[0027] 步驟5.3:根據(jù)步驟5.2計(jì)算的特征值進(jìn)行排序,選取排名靠前10個(gè)特征值為用戶(hù) 的偏好特征。
[0028]作為優(yōu)選,步驟7中所述基于相似度的混淆策略,首先利用改進(jìn)的TF-IDF算法,提 取出應(yīng)用程序的關(guān)鍵詞;然后進(jìn)行相似度判斷;最后找到相似應(yīng)用,并進(jìn)行混淆。
[0029]作為優(yōu)選,所述改進(jìn)的TF - IDF算法,其具體實(shí)現(xiàn)過(guò)程是:
[0030] (1)文本預(yù)處理;
[0031]首先對(duì)語(yǔ)料庫(kù)進(jìn)行分詞,接著進(jìn)行停用詞剔除;然后進(jìn)行未登錄詞識(shí)別;最后統(tǒng)計(jì) 分析;統(tǒng)計(jì)詞語(yǔ)的詞頻、詞語(yǔ)位置及出現(xiàn)該詞語(yǔ)的段落數(shù);
[0032] (2)計(jì)算跨度權(quán)值
;其中,Li表示詞語(yǔ)出現(xiàn)的段數(shù),L代表段落總數(shù)??缍螖?shù) 越多,說(shuō)明該詞越重要,全局性越強(qiáng);
[0033] (3)計(jì)算逆文檔頻率IDF:
其中,心表示文檔中出現(xiàn)詞語(yǔ)i的文檔 數(shù),β為經(jīng)驗(yàn)值;β-般取0 · 01、0 · 1、1;
[0034] (4)計(jì)算 TF-IDF:
[0036] 其中,fij表示詞語(yǔ)i在文檔dj中出現(xiàn)的頻率,mi詞語(yǔ)在文本中的位置權(quán)重,si是詞 語(yǔ)i在文檔中的跨度;
[0037] (5)根據(jù)TF-IDF提取出關(guān)鍵詞。
[0038]作為優(yōu)選,所述進(jìn)行相似度判斷,假設(shè)文本X和y,則其具體實(shí)現(xiàn)過(guò)程是:
[0039] (1)通過(guò)TF-IDF提取出文本X,y中的關(guān)鍵詞;
[0040] (2)列舉出所有出現(xiàn)的關(guān)鍵詞,得到集合S;
[0041] (3)標(biāo)出集合S中,每個(gè)關(guān)鍵詞在文本X和y中各自的詞頻,得到兩個(gè)向量A[Ai,A2, Α3,···Αη]^ΡΒ[Β?,Β2,Β3,···Βη];
[0042] (4)利用下面改進(jìn)的余弦相似度公式計(jì)算向量Α和Β之間的夾角,夾角越小越相似;
[0044] 其中ΝαΝβ表示Α,Β中公共的關(guān)鍵詞數(shù)量,而組以仏一表示六^中所含關(guān)鍵詞較少的 文本中的關(guān)鍵詞數(shù)
f就表示Α,Β兩個(gè)文本相互覆蓋的程度,其取值為[0,1 ],如果為0 貝1JA,B沒(méi)有交集,即相似度為0,若A中的關(guān)鍵詞在B中都出現(xiàn)了,那么其值就是1。
[0045] 作為優(yōu)選,所述找到相似應(yīng)用并進(jìn)行混淆,其中混淆集合S。包含的應(yīng)用都與當(dāng)前 手機(jī)所安裝的應(yīng)用程序33的相似度值大于70 %。
[0046] 對(duì)于單個(gè)混淆應(yīng)用來(lái)說(shuō),基于單個(gè)私人應(yīng)用分類(lèi)0[)與私人偏好分類(lèi)ΨΡ2間的對(duì) 應(yīng)關(guān)系,混淆集合S。如下定義:
[0048] 其中,a°表示要混淆的應(yīng)用,&^表示私人應(yīng)用,aq, r表示非私人應(yīng)用,Φ表示應(yīng)用 分類(lèi),表示非私人應(yīng)用分類(lèi),Sa表示當(dāng)前用戶(hù)所安裝的應(yīng)用集合。
[0049] 作為優(yōu)選,步驟7中所述基于隨機(jī)化的混淆策略,首先從個(gè)人應(yīng)用中得到應(yīng)用程序 配置文件與偏好配置文件之間的匹配關(guān)系M;然后選擇已知的偏好候選混淆應(yīng)用,而且所選 的混淆應(yīng)用屬于特定用戶(hù)的偏好配置文件S g的偏好集合所表示的分類(lèi);
[0050] 假設(shè)單個(gè)混淆應(yīng)用以及私人應(yīng)用分類(lèi)〇[),則混淆集合S。如下定義:
[0052] 其中,私人應(yīng)用分類(lèi)ΦΡ與私人偏好分類(lèi)ΨΡ-致,a°為要混淆的應(yīng)用,gk,r為非私人 偏好,a q,r為非私人應(yīng)用,Sa為當(dāng)前用戶(hù)所安裝的應(yīng)用集合。
[0053] 作為優(yōu)選,步驟7中所述基于定制化的混淆策略,是從任何非私有的個(gè)人應(yīng)用分類(lèi) Φ j辛Φp中隨機(jī)選擇待選的混淆應(yīng)用程序;混淆集合S。如下定義:
[0055] 其中,a°為要混淆的應(yīng)用,aq,r為非私人應(yīng)用,Sa為當(dāng)前用戶(hù)所安裝的應(yīng)用集合,Φτ 非私人應(yīng)用分類(lèi),Φ4Α人應(yīng)用分類(lèi)。
[0056] 作為優(yōu)選,步驟8中所述對(duì)移動(dòng)用戶(hù)配置文件進(jìn)行混淆,是通過(guò)隱私保護(hù)系統(tǒng)混淆 移動(dòng)用戶(hù)配置文件,系統(tǒng)中包括應(yīng)用程序、應(yīng)用程序關(guān)鍵詞、配置文件、偏好配置文件、配置 文件與偏好文件之間的匹配關(guān)系、優(yōu)勢(shì)比的表示方法;
[0057] 假設(shè)t/l表不移動(dòng)應(yīng)用程序集合,Φ表不應(yīng)用分類(lèi),ai,j,i = l,. . .Aj來(lái)表不一個(gè)應(yīng) 用,、表示屬于〇」,」=1,...,〇類(lèi)別的應(yīng)用程序數(shù)量,〇」代表應(yīng)用市場(chǎng)中應(yīng)用的所有分 類(lèi)數(shù);
[0058] 則所述應(yīng)用程序的關(guān)鍵詞表示方法就是應(yīng)用程序&^={{',^}:&^£4},其中 是根據(jù)移動(dòng)應(yīng)用市場(chǎng)中,開(kāi)發(fā)者對(duì)每個(gè)應(yīng)用所定義的描述信息得到,k m>1u中的m = 1,· · ·Μυ,Μυ代表應(yīng)用程序ai,j,i = l,· · .Aj,j = l,· · ·,Φ的關(guān)鍵詞數(shù)量;
[0059] 所述應(yīng)用配置文件表示方法就是用1={{{1,^},〇^}:&^£53}來(lái)表示配置文 件,其中Sa為市場(chǎng)應(yīng)用集合4的子集,km, i,j是其對(duì)應(yīng)的關(guān)鍵詞;
[0060] 所述偏好配置文件表示方法就是通過(guò)Ig = {{gk, i,Ψ i: gk, i e Sg}來(lái)表示偏好配置 文件,其中81<,1,1^=1,...,61,6 1表示屬于偏好分類(lèi)%,1 = 1,...*中偏好的數(shù)量,*表示分 析公司定義的偏好分類(lèi)數(shù)量,gk, 1是某種偏好分類(lèi)中的某個(gè)偏好;
[0061] 所述應(yīng)用配置文件和偏好配置文件之間的匹配關(guān)系就是用M:{Ka-Ig}來(lái)表示,其 中Φ』是應(yīng)用程序分類(lèi),Ψ1是偏好分類(lèi);
[0062] 所述優(yōu)勢(shì)比就是某個(gè)事件存在某個(gè)特定條件時(shí)的成功幾率和存在另一個(gè)條件時(shí) 的成功幾率的比率,用^>111111({|知-.4|}/{|你.,}|}):/¥/,¥; ?,盡^&來(lái)表示,屯?是配置文 件中用戶(hù)所選擇的分類(lèi),{|{gk,p}}是用戶(hù)所選擇的分類(lèi)中的偏好數(shù)量與任意其他類(lèi)別$1 中的最大偏好數(shù)量的比例。
[0063] 本發(fā)明采用客戶(hù)端一服務(wù)器兩層體系架構(gòu),運(yùn)用多種混淆技術(shù)保障移動(dòng)廣告生態(tài) 系統(tǒng)中用戶(hù)的隱私安全??蛻?hù)端應(yīng)用可以獲取手機(jī)應(yīng)用列表、應(yīng)用程序的使用信息以及配 置文件,然后發(fā)送給服務(wù)器。服務(wù)器根據(jù)收集到的信息分析、提取出用戶(hù)的偏好特征,生成 對(duì)應(yīng)的用戶(hù)偏好文件,還可以提醒用戶(hù)存在的潛在威脅。同時(shí)還提出了基于相似度、定制化 以及隨機(jī)化的混淆策略,用戶(hù)可以根據(jù)實(shí)際情況選擇相應(yīng)的混淆策略。混淆引擎根據(jù)用戶(hù) 選擇的混淆策略來(lái)混淆用戶(hù)偏好分類(lèi),增加了配置文件中隱私偏好的噪音,減少了用戶(hù)隱 私偏好的主導(dǎo)地位。既可以有效地保護(hù)用戶(hù)隱私,又不會(huì)影響廣告定向投放的效果。
[0064] 本發(fā)明相比現(xiàn)有的技術(shù),其優(yōu)點(diǎn)和積極效果主要體現(xiàn)在以下幾個(gè)方面:
[0065] 1)本方案在移動(dòng)廣告生態(tài)系統(tǒng)中既保護(hù)了用戶(hù)隱私信息的安全又維持了移動(dòng)廣 告生態(tài)系統(tǒng)的平衡;
[0066] 2)改進(jìn)了原有的TF-IDF和余弦相似度的算法,提高了相似度匹配的準(zhǔn)確率;
[0067] 3)提出了基于相似度、定制化以及隨機(jī)化的混淆策略大大降低了配置文件中個(gè)人 隱私信息的優(yōu)勢(shì)比;
[0068] 4)相比于傳統(tǒng)的針對(duì)移動(dòng)廣告系統(tǒng)中的隱私保護(hù)方案,本文的方案更加方便、有 效而且成本低廉。
【附圖說(shuō)明】
[0069]圖1為本發(fā)明實(shí)施的系統(tǒng)原理圖。
[0070] 圖2為本發(fā)明實(shí)施例的方法流程圖。
[0071] 圖3為本發(fā)明實(shí)施例的偏好特征提取流程圖。
[0072]圖4為本發(fā)明實(shí)施例中提出的改進(jìn)的TF - IDF算法流程圖。
[0073] 圖5為本發(fā)明實(shí)施例的混淆模型示意圖。
[0074] 圖6為本發(fā)明實(shí)施例中應(yīng)用程序與偏好配置文件之間匹配關(guān)系示意圖。
[0075]圖7為本發(fā)明實(shí)施例中三種混淆策略示意圖。
[0076] 圖8為本發(fā)明實(shí)施例中相似度策略流程圖。
[0077] 圖9為本發(fā)明實(shí)施例中定制化策略流程圖。
[0078] 圖10為本發(fā)明實(shí)施例中移動(dòng)應(yīng)用分類(lèi)示意圖。
【具體實(shí)施方式】
[0079] 為了使本發(fā)明的目的、技術(shù)方案及有益效果更佳清楚明白,以下結(jié)合附圖即實(shí)施 例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā) 明,并不限于本發(fā)明。
[0080] 請(qǐng)參閱圖1,本發(fā)明的系統(tǒng)架構(gòu),采用客戶(hù)端一服務(wù)器兩層體系架構(gòu),運(yùn)用多種混 淆技術(shù)保障移動(dòng)廣告生態(tài)系統(tǒng)中用戶(hù)的隱私安全??蛻?hù)端應(yīng)用可以獲取手機(jī)應(yīng)用列表、應(yīng) 用程序的使用信息以及配置文件,然后發(fā)送給服務(wù)器。服務(wù)器根據(jù)收集到的信息分析、提取 出用戶(hù)的偏好特征,生成對(duì)應(yīng)的用戶(hù)偏好文件,還可以提醒用戶(hù)存在的潛在威脅。同時(shí)還提 出了基于相似度、定制化以及隨機(jī)化的混淆策略,用戶(hù)可以根據(jù)實(shí)際情況選擇相應(yīng)的混淆 策略?;煜娓鶕?jù)用戶(hù)選擇的混淆策略來(lái)混淆用戶(hù)偏好分類(lèi),增加了配置文件中隱私偏 好的噪音,減少了用戶(hù)隱私偏好的主導(dǎo)地位。
[0081] 請(qǐng)見(jiàn)圖2,本發(fā)明提供的一種基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,包括以 下步驟:
[0082] 步驟1:收集手機(jī)用戶(hù)的配置文件(移動(dòng)用戶(hù)信息、移動(dòng)網(wǎng)絡(luò)服務(wù)信息、上下文信 息、移動(dòng)用戶(hù)使用移動(dòng)網(wǎng)絡(luò)服務(wù)的行為日志信息);
[0083] 步驟2:提取用戶(hù)的行為數(shù)據(jù)(用戶(hù)身份信息、用戶(hù)社會(huì)生活信息、用戶(hù)行為偏好信 息、人口學(xué)特征信息);
[0084]步驟3:對(duì)行為數(shù)據(jù)進(jìn)行預(yù)處理,即對(duì)原始數(shù)據(jù)進(jìn)行ETL加工處理,首先需要處理掉 存儲(chǔ)的無(wú)效重復(fù)數(shù)據(jù),對(duì)于用戶(hù)行為沒(méi)有影響或重復(fù)數(shù)據(jù),對(duì)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù) 據(jù)進(jìn)行結(jié)構(gòu)化處理,并對(duì)數(shù)據(jù)進(jìn)行補(bǔ)缺、替換、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)加載和異常處理; [0085]步驟4:對(duì)預(yù)處理后的行為數(shù)據(jù)建立用戶(hù)標(biāo)簽,建立偏好預(yù)測(cè)模型,包括用戶(hù)性別 預(yù)測(cè)模型,年齡預(yù)測(cè)模型,收入預(yù)測(cè)模型以及興趣愛(ài)好預(yù)測(cè)模型;建立偏好預(yù)測(cè)模型采用了 邏輯回歸算法,因?yàn)檫壿嫽貧w算法通過(guò)聚類(lèi)分析將一些非線(xiàn)性特征轉(zhuǎn)化為線(xiàn)性特征;而且 比較抗噪,適用于數(shù)據(jù)特別大的場(chǎng)景,算法效率特別高。
[0086] 步驟5:通過(guò)建立的偏好預(yù)測(cè)模型提取用戶(hù)多個(gè)維度的興趣偏好特征,包括用戶(hù)維 度以及應(yīng)用程序維度的興趣偏好特征;并判斷是夠提取成功;
[0087] 若是,則執(zhí)行下述步驟6;
[0088] 若否,則回轉(zhuǎn)執(zhí)行上述步驟2;需要重新提取用戶(hù)行為數(shù)據(jù),再次建立預(yù)測(cè)模型。
[0089] 步驟6:判斷用戶(hù)的偏好特征是否為用戶(hù)的隱私偏好特征;
[0090] 若是,則執(zhí)行下述步驟7 ;
[0091] 若否,則投放廣廣告,并回轉(zhuǎn)執(zhí)行上述步驟1;
[0092] 步驟7:選擇混淆策略,包括基于相似度的混淆策略、基于隨機(jī)化的混淆策略以及 基于定制化的混淆策略;
[0093] 步驟8:對(duì)移動(dòng)用戶(hù)配置文件進(jìn)行混淆,降低用戶(hù)隱私偏好的優(yōu)勢(shì)比,保護(hù)用戶(hù)隱 私。
[0094]本實(shí)施例的基于相似度的混淆策略,首先利用改進(jìn)的TF-IDF算法,提取出應(yīng)用程 序的關(guān)鍵詞;然后進(jìn)行相似度判斷;最后找到相似應(yīng)用,并進(jìn)行混淆。
[0095]請(qǐng)參閱圖3,本發(fā)明實(shí)施例的偏好特征提取流程圖。首先獲取移動(dòng)用戶(hù)信息、移動(dòng) 網(wǎng)絡(luò)服務(wù)信息、上下文信息、移動(dòng)用戶(hù)使用移動(dòng)網(wǎng)絡(luò)服務(wù)的行為日志等信息;接著對(duì)數(shù)據(jù)進(jìn) 行預(yù)處理計(jì)算;然后對(duì)預(yù)處理的數(shù)據(jù)進(jìn)行建模分析,最后提取得出用戶(hù)的偏好特征。具體包 括如下步驟:
[0096] 步驟1:對(duì)于步驟5中預(yù)處理后的數(shù)據(jù),利用開(kāi)源的機(jī)器學(xué)習(xí)分類(lèi)包(CardMagic-Classifier)對(duì)數(shù)據(jù)進(jìn)行分類(lèi);
[0097] 步驟2:根據(jù)Google設(shè)計(jì)的用戶(hù)偏好分類(lèi)對(duì)用戶(hù)的行為特征計(jì)算特征值;
[0098] 步驟3:根據(jù)步驟2計(jì)算的特征值進(jìn)行排序,選取排名靠前10個(gè)特征值為用戶(hù)的偏 好特征。
[0099] 請(qǐng)參閱圖4,本發(fā)明實(shí)施例提出的改進(jìn)的TF-IDF算法流程圖。改進(jìn)的方法就是在 文本預(yù)處理中加入詞語(yǔ)段落標(biāo)注技術(shù)。具體步驟如下:
[0100] 步驟1:文本預(yù)處理就是在執(zhí)行過(guò)程中,使用四元組<?146,111 1,11>表示預(yù)處理后 的文本集,其中^是詞語(yǔ),〖6是詞語(yǔ)的詞頻,ΠΗ是詞語(yǔ)在文本中的位置權(quán)重,h是文檔中出 現(xiàn)該詞語(yǔ)的段落數(shù)。
[0101 ]步驟1.1:對(duì)語(yǔ)料庫(kù)進(jìn)行分詞。
[0102] 步驟1.2:停用詞剔除(去除文檔中出現(xiàn)頻率很高,但是對(duì)文章主題不具有代表性 或者代表性很小的詞。諸如的、也、嗎等一類(lèi)的虛詞和逗號(hào)、頓號(hào)等一類(lèi)的標(biāo)點(diǎn)。
[0103] 步驟1.3:未登錄詞識(shí)別(未登錄詞是指文檔中那些不能由詞典識(shí)別的詞匯,包括 人名、地名、術(shù)語(yǔ)等。未登錄詞基本都是名詞,大多是專(zhuān)有名詞或新詞,往往說(shuō)明該文章描述 的特定對(duì)象,是文章表達(dá)的特征詞,一般具有較高的重要性。
[0104] 步驟1.4:統(tǒng)計(jì)分析。統(tǒng)計(jì)詞語(yǔ)的詞頻、詞語(yǔ)位置及出現(xiàn)該詞語(yǔ)的段落數(shù),得到<Wl, tfnmnh〉四元組。最后得到的四元組為改進(jìn)文本預(yù)處理后的結(jié)果。
[0105] 步驟2:計(jì)算跨度權(quán)值,一個(gè)詞的跨段落情況說(shuō)明這個(gè)詞是描述局部的還是表達(dá)全 文的??缍螖?shù)越多,說(shuō)明該詞越重要,全局性越強(qiáng)。詞跨度公式:
[0107]其中,Li表示詞語(yǔ)出現(xiàn)的段數(shù),L代表段落總數(shù)。
[0108]步驟3:計(jì)算逆文檔頻率(IDF),此時(shí)需要一個(gè)語(yǔ)料庫(kù)(corpus),用來(lái)模擬語(yǔ)言的使 用環(huán)境。如果一個(gè)詞出現(xiàn)的頻率比較高就越常見(jiàn),那么分母就越大,逆文檔頻率就會(huì)越小甚 至接近〇。分母之所以要加1,是為了避免分母為〇 (即所有文檔都不包含該詞)。log表示對(duì)得 到的值取對(duì)數(shù)。
[0110] 其中K表示文檔中出現(xiàn)詞語(yǔ)i的文檔數(shù),β為經(jīng)驗(yàn)值,β-般取0.01、0.1、1。
[0111] 步驟 4:計(jì)算 TF-IDF:
[0113] 其中fij表示詞語(yǔ)i在文檔dj中出現(xiàn)的頻率,mi詞語(yǔ)在文本中的位置權(quán)重,si是詞語(yǔ)i 在文檔中的跨度。
[0114]本實(shí)施例相似度判斷,假設(shè)文本X和y,則其具體實(shí)現(xiàn)過(guò)程是:
[0115] (1)通過(guò)TF-IDF提取出文本X,y中的關(guān)鍵詞;
[0116] (2)列舉出所有出現(xiàn)的關(guān)鍵詞,得到集合S;
[0117] (3)標(biāo)出集合S中,每個(gè)關(guān)鍵詞在文本X和y中各自的詞頻,得到兩個(gè)向量 Α3,···Αη]^ΡΒ[Β?,Β2,Β3,···Βη];
[0118] (4)利用下面改進(jìn)的余弦相似度公式計(jì)算向量Α和Β之間的夾角,夾角越小越相似;
[0120] 其中ΝαΝβ表示Α,Β中公共的關(guān)鍵詞數(shù)量,而Min(NA,B)表示Α,Β中所含關(guān)鍵詞較少的 文本中的關(guān)鍵詞數(shù):
·就表示A,Β兩個(gè)文本相互覆蓋的程度,其取值為[0,1 ],如果為0 貝1JA,B沒(méi)有交集,即相似度為0,若A中的關(guān)鍵詞在B中都出現(xiàn)了,那么其值就是1。
[0121] 本實(shí)施例的混淆策略就是通過(guò)混淆系統(tǒng)混淆移動(dòng)用戶(hù)配置文件。系統(tǒng)模型中包括 應(yīng)用程序,應(yīng)用程序關(guān)鍵詞,配置文件,偏好配置文件,配置文件與偏好文件之間的匹配關(guān) 系,優(yōu)勢(shì)比的表示方法。假設(shè)4表示移動(dòng)應(yīng)用程序集合,Φ表示應(yīng)用分類(lèi)。aw,i = l,...、來(lái) 表示一個(gè)應(yīng)用,其中、表示屬于Φ j,j = l,. . .,Φ類(lèi)別的應(yīng)用程序數(shù)量,Φ代表應(yīng)用市場(chǎng)中 應(yīng)用的所有分類(lèi)數(shù)。
[0122] 應(yīng)用程序的關(guān)鍵詞表示方法就是應(yīng)用程序&^={{1^,」}^^},其中1^,^是 根據(jù)移動(dòng)應(yīng)用市場(chǎng)中,開(kāi)發(fā)者對(duì)每個(gè)應(yīng)用所定義的描述信息得到。k m>1,沖的πι=1,...Μ^, Mi,j代表應(yīng)用程序ai,j,i = l,· · .Aj,j = l,· · ·,Φ的關(guān)鍵詞數(shù)量。
[0123] 應(yīng)用配置文件表示方法就是用1= {{{Km,i, j},Φ j} : ai, j e Sa}來(lái)表示配置文件,其 中Sa為市場(chǎng)應(yīng)用集合c/Z的子集,是其對(duì)應(yīng)的關(guān)鍵詞。
[0124] 偏好配置文件表示方法就是通過(guò)Ig = {{gk, i,ψ i: gk, i e sg}來(lái)表示偏好配置文件, 其中g(shù)k,i,k=l, . . .,Gi,Gi表示屬于偏好分類(lèi)Ψι,1 = 1, . . .ψ中偏好的數(shù)量,ψ表示分析公 司定義的偏好分類(lèi)數(shù)量。giU簡(jiǎn)單說(shuō)來(lái)就是某種偏好分類(lèi)中的某個(gè)偏好。
[0125] 應(yīng)用配置文件和偏好配置文件之間的匹配關(guān)系就是用M:{KdIg}來(lái)表示,其中Φ」 是應(yīng)用程序分類(lèi),Ψ1是偏好分類(lèi)。
[0126] 優(yōu)勢(shì)比就是某個(gè)事件存在某個(gè)特定條件時(shí)的成功幾率和存在另一個(gè)條件時(shí)的成 功幾率的比率
,i£Sg來(lái)表示,Ψρ是配置文件中 用戶(hù)所選擇的分類(lèi),{I {gk,p} |}是用戶(hù)所選擇的分類(lèi)中的偏好數(shù)量與任意其他類(lèi)別Ψ:* 的最大偏好數(shù)量的比例。
[0127] 請(qǐng)參閱圖5,本發(fā)明實(shí)施例的混淆模型示意圖。假設(shè)應(yīng)用配置文件和偏好配置文件 具有一定的匹配關(guān)系,在此定義匹配函數(shù)M,M:{K a-Ig},其中包括應(yīng)用程序分類(lèi)Φ」與偏好 分類(lèi)Ψι之間的匹配關(guān)系。混淆策略的目標(biāo)就是最大限度降低用戶(hù)配置文件I g中選擇的私人 分類(lèi)優(yōu)勢(shì)比,主要是通過(guò)生成新的混淆配置文件1'8來(lái)實(shí)現(xiàn)。
[0128] 請(qǐng)參閱圖6,本發(fā)明實(shí)施例中應(yīng)用程序與偏好配置文件之間匹配關(guān)系示意圖。首先 需要找到應(yīng)用程序配置文件的表示方法,即從移動(dòng)應(yīng)用市場(chǎng)到應(yīng)用分類(lèi)在到具體的應(yīng)用程 序,通過(guò)關(guān)鍵詞來(lái)表示應(yīng)用程序,最后表示出應(yīng)用程序配置文件。同樣地,應(yīng)用偏好也是如 此,從偏好集合到偏好分類(lèi)再到具體的偏好,最后得到偏好配置文件的表示方法。再通過(guò)匹 配關(guān)系Μ來(lái)表示應(yīng)用程序與偏好配置文件之間的關(guān)系。
[0129] 請(qǐng)參閱圖7,本發(fā)明實(shí)施例中三種混淆策略示意圖。首先表示出應(yīng)用程序配置文 件,根據(jù)用戶(hù)所選擇的混淆應(yīng)用程序,在通過(guò)合適的混淆策略對(duì)應(yīng)用進(jìn)行混淆,降低私人偏 好在配置文件中的優(yōu)勢(shì)比,即增加用戶(hù)隱私信息的噪音,從而達(dá)到保護(hù)用戶(hù)隱私的目的。
[0130] 請(qǐng)參閱圖8,本發(fā)明實(shí)施例中相似度策略流程圖。根據(jù)相似度的高低來(lái)選擇合適的 混淆應(yīng)用?;煜蟂。包含的應(yīng)用都與當(dāng)前手機(jī)所安裝的應(yīng)用程序5 3具有最高的相似度(基 于改進(jìn)的余弦相似度來(lái)計(jì)算)。對(duì)于單個(gè)混淆應(yīng)用來(lái)說(shuō),單個(gè)私人應(yīng)用分類(lèi)ΦΡ與私人偏好 分類(lèi)Ψ Ρ2間的對(duì)應(yīng)關(guān)系,可以如下定義:
[0132] 其中,a°為要混淆的應(yīng)用,ai,P為私人應(yīng)用,aq,r為非私人應(yīng)用,Φ表示應(yīng)用分類(lèi),Φτ 為非私人應(yīng)用分類(lèi),Sa為當(dāng)前用戶(hù)所安裝的應(yīng)用集合。
[0133] 請(qǐng)參閱圖9,本發(fā)明實(shí)施例中定制化策略流程圖。假設(shè)可以從個(gè)人應(yīng)用中得到應(yīng)用 程序配置文件(關(guān)鍵詞和分類(lèi))與偏好配置文件之間的匹配關(guān)系M。實(shí)際上,有關(guān)特定應(yīng)用的 一系列測(cè)試是根據(jù)用戶(hù)特定應(yīng)用的偏好配置文件來(lái)設(shè)計(jì)的。然后選擇可以生成(已知的)偏 好的候選混淆應(yīng)用,而且所選的混淆應(yīng)用屬于特定用戶(hù)的偏好配置文件3 8的偏好集合所表 示的分類(lèi)。假設(shè)單個(gè)混淆應(yīng)用以及私人應(yīng)用分類(lèi)ΦΡ(與私人偏好分類(lèi)Ψ Ρ-致):
[0135] 其中,a°為要混淆的應(yīng)用,gk,r為非私人偏好,aq,r為非私人應(yīng)用,Sa*當(dāng)前用戶(hù)所安 裝的應(yīng)用集合。
[0136] 然而,隨機(jī)策略旨在從任何非私有的個(gè)人應(yīng)用分類(lèi)Φ」#ΦΡ中隨機(jī)選擇待選的混 淆應(yīng)用程序。
[0138] 其中,a°為要混淆的應(yīng)用,aq,r為非私人應(yīng)用,Sa為當(dāng)前用戶(hù)所安裝的應(yīng)用集合,Φτ 為非私人應(yīng)用分類(lèi),ΦΡ為私人應(yīng)用分類(lèi)。
[0139] 請(qǐng)參閱圖10,本發(fā)明實(shí)施例中移動(dòng)應(yīng)用分類(lèi)示意圖。選取了Google Play應(yīng)用商店 中移動(dòng)應(yīng)用分類(lèi)規(guī)則,具體包括財(cái)務(wù)、個(gè)性化、購(gòu)物、教育等27中,此外還對(duì)家庭、游戲進(jìn)行 了更加細(xì)膩度地分類(lèi)。
[0140] 本發(fā)明從廣告商的角度出發(fā)來(lái)保護(hù)用戶(hù)的隱私信息,通過(guò)基于用戶(hù)配置文件的混 淆系統(tǒng)對(duì)用戶(hù)的配置文件進(jìn)行混淆,增加了個(gè)人隱私信息的噪音。這避免了個(gè)人指紋信息 被泄露給廣告生態(tài)系統(tǒng)中的第三方,或者被移動(dòng)分析平臺(tái)惡意使用。既達(dá)到了保護(hù)用戶(hù)隱 私的目的,又不會(huì)嚴(yán)重影響定向廣告投放的效果,在用戶(hù)隱私和廣告定向投放兩方面達(dá)到 合理平衡。
[0141] 本文中所描述的具體實(shí)施例僅僅是對(duì)本發(fā)明精神作舉例說(shuō)明。本發(fā)明所屬技術(shù)領(lǐng) 域的技術(shù)人員可以對(duì)所描述的具體實(shí)施例做各種各樣的修改或補(bǔ)充或采用類(lèi)似的方式替 代,但并不會(huì)偏離本發(fā)明的精神或者超越所附權(quán)利要求書(shū)所定義的范圍。
【主權(quán)項(xiàng)】
1. 一種基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)系統(tǒng),其特征在于:采用客戶(hù)端、服務(wù)器 兩層體系架構(gòu);所述客戶(hù)端用于收集用戶(hù)的應(yīng)用列表、應(yīng)用程序的使用信息W及配置文件, 并將運(yùn)些信息上傳到服務(wù)器,同時(shí)自動(dòng)化安裝、運(yùn)行應(yīng)用程序;所述服務(wù)器對(duì)收集到的信息 進(jìn)行分析、提取出用戶(hù)的偏好特征,為每個(gè)用戶(hù)生成對(duì)應(yīng)的偏好文件,同時(shí)提醒用戶(hù)潛在的 隱私威脅。2. -種基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于,包括W下步驟: 步驟1:收集手機(jī)用戶(hù)的配置文件; 步驟2:提取用戶(hù)的行為數(shù)據(jù); 步驟3:對(duì)行為數(shù)據(jù)進(jìn)行預(yù)處理; 步驟4:對(duì)預(yù)處理后的行為數(shù)據(jù)建立用戶(hù)標(biāo)簽,建立偏好預(yù)測(cè)模型,包括用戶(hù)性別預(yù)測(cè) 模型,年齡預(yù)測(cè)模型,收入預(yù)測(cè)模型W及興趣愛(ài)好預(yù)測(cè)模型; 步驟5:通過(guò)建立的偏好預(yù)測(cè)模型提取用戶(hù)多個(gè)維度的興趣偏好特征,包括用戶(hù)維度W 及應(yīng)用程序維度的興趣偏好特征;并判斷是夠提取成功; 若是,則執(zhí)行下述步驟6; 若否,則回轉(zhuǎn)執(zhí)行上述步驟2; 步驟6:判斷用戶(hù)的偏好特征是否為用戶(hù)的隱私偏好特征; 若是,則執(zhí)行下述步驟7; 若否,則投放廣告,并回轉(zhuǎn)執(zhí)行上述步驟1; 步驟7:選擇混淆策略,包括基于相似度的混淆策略、基于隨機(jī)化的混淆策略W及基于 定制化的混淆策略; 步驟8:對(duì)移動(dòng)用戶(hù)配置文件進(jìn)行混淆,降低用戶(hù)隱私偏好的優(yōu)勢(shì)比,保護(hù)用戶(hù)隱私。3. 根據(jù)權(quán)利要求2所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于:步 驟1中所述配置文件包括移動(dòng)用戶(hù)信息、移動(dòng)網(wǎng)絡(luò)服務(wù)信息、上下文信息、移動(dòng)用戶(hù)使用移 動(dòng)網(wǎng)絡(luò)服務(wù)的行為日志信息。4. 根據(jù)權(quán)利要求2所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于:步 驟2中是通過(guò)客戶(hù)端收集用戶(hù)的行為數(shù)據(jù),所述用戶(hù)行為數(shù)據(jù)包括用戶(hù)身份信息、用戶(hù)社會(huì) 生活信息、用戶(hù)行為偏好信息、人口學(xué)特征信息。5. 根據(jù)權(quán)利要求2所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于:步 驟3中所述對(duì)行為數(shù)據(jù)進(jìn)行預(yù)處理,即對(duì)原始數(shù)據(jù)進(jìn)行ETL加工處理,首先需要處理掉存儲(chǔ) 的無(wú)效重復(fù)數(shù)據(jù),對(duì)于用戶(hù)行為沒(méi)有影響或重復(fù)數(shù)據(jù),對(duì)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進(jìn) 行結(jié)構(gòu)化處理,并對(duì)數(shù)據(jù)進(jìn)行補(bǔ)缺、替換、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)加載和異常處理。6. 根據(jù)權(quán)利要求2所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于:步 驟5中所述提取用戶(hù)多個(gè)維度的興趣偏好特征,具體實(shí)現(xiàn)包括W下步驟: 步驟5.1:對(duì)于步驟3中預(yù)處理后的數(shù)據(jù),利用開(kāi)源的機(jī)器學(xué)習(xí)分類(lèi)包對(duì)數(shù)據(jù)進(jìn)行分類(lèi); 步驟5.2:根據(jù)Google設(shè)計(jì)的用戶(hù)偏好分類(lèi)對(duì)用戶(hù)的行為特征計(jì)算特征值; 步驟5.3:根據(jù)步驟5.2計(jì)算的特征值進(jìn)行排序,選取排名靠前10個(gè)特征值為用戶(hù)的偏 好特征。7. 根據(jù)權(quán)利要求2所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于:步 驟7中所述基于相似度的混淆策略,首先利用改進(jìn)的TF-IDF算法,提取出應(yīng)用程序的關(guān)鍵 詞;然后進(jìn)行相似度判斷;最后找到相似應(yīng)用,并進(jìn)行混淆。8. 根據(jù)權(quán)利要求7所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于:所 述改進(jìn)的TF-IDF算法,其具體實(shí)現(xiàn)過(guò)程是: (1) 文本預(yù)處理; 首先對(duì)語(yǔ)料庫(kù)進(jìn)行分詞,接著進(jìn)行停用詞剔除;然后進(jìn)行未登錄詞識(shí)別;最后統(tǒng)計(jì)分 析;統(tǒng)計(jì)詞語(yǔ)的詞頻、詞語(yǔ)位置及出現(xiàn)該詞語(yǔ)的段落數(shù); f .· (2) 計(jì)算跨度權(quán)值S=^·;其中,Li表示詞語(yǔ)出現(xiàn)的段數(shù),L代表段落總數(shù)??缍螖?shù)越多, 說(shuō)明該詞越重要,全局性越強(qiáng); (3) 計(jì)算逆文檔頻率多]其中,Ni表示文檔中出現(xiàn)詞語(yǔ)i的文檔數(shù),β ? 為經(jīng)驗(yàn)值; (4) 計(jì)算 TF-IDF:其中,fu表示詞語(yǔ)i在文檔山中出現(xiàn)的頻率,mi詞語(yǔ)在文本中的位置權(quán)重,Si是詞語(yǔ)i在 文檔中的跨度; (5) 根據(jù)TF-IDF提取出關(guān)鍵詞。9. 根據(jù)權(quán)利要求7所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于:所 述進(jìn)行相似度判斷,假設(shè)文本X和y,則其具體實(shí)現(xiàn)過(guò)程是: (1) 通過(guò)TF-IDF提取出文本X,y中的關(guān)鍵詞; (2) 列舉出所有出現(xiàn)的關(guān)鍵詞,得到集合S; (3) 標(biāo)出集合S中,每個(gè)關(guān)鍵詞在文本X和y中各自的詞頻,得到兩個(gè)向量A[Ai,A2,A3,… An]和 B[Bl,B2,B3,...Bn]; (4) 利用下面改進(jìn)的余弦相似度公式計(jì)算向量A和B之間的夾角,夾角越小越相似;其中NaNb表示A,B中公共的關(guān)鍵詞數(shù)量,而Min ( Να, B)表示A,B中所含關(guān)鍵詞較少的文本 中的關(guān)鍵詞數(shù),-就表示A,B兩個(gè)文本相互覆蓋的程度,其取值為[0,1 ],如果為0則A, B沒(méi)有交集,即相似度為0,若A中的關(guān)鍵詞在B中都出現(xiàn)了,那么其值就是1。10. 根據(jù)權(quán)利要求7所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于: 所述找到相似應(yīng)用并進(jìn)行混淆,其中混淆集合S。包含的應(yīng)用都與當(dāng)前手機(jī)所安裝的應(yīng)用程 序Sa的相似度值大于70 %; 對(duì)于單個(gè)混淆應(yīng)用來(lái)說(shuō),基于單個(gè)私人應(yīng)用分類(lèi)Φρ與私人偏好分類(lèi)Ψρ之間的對(duì)應(yīng)關(guān) 系,混淆集合S。如下定義:其中,a°表示要混淆的應(yīng)用,ai,p表示私人應(yīng)用,aq,r表示非私人應(yīng)用,Φ表示應(yīng)用分類(lèi), Φτ表示非私人應(yīng)用分類(lèi),Sa表示當(dāng)前用戶(hù)所安裝的應(yīng)用集合。11. 根據(jù)權(quán)利要求2所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于: 步驟7中所述基于隨機(jī)化的混淆策略,首先從個(gè)人應(yīng)用中得到應(yīng)用程序配置文件與偏好配 置文件之間的匹配關(guān)系M;然后選擇已知的偏好候選混淆應(yīng)用,而且所選的混淆應(yīng)用屬于特 定用戶(hù)的偏好配置文件Sg的偏好集合所表示的分類(lèi); 假設(shè)單個(gè)混淆應(yīng)用W及私人應(yīng)用分類(lèi)Φ P,則混淆集合S。如下定義:其中,私人應(yīng)用分類(lèi)Φρ與私人偏好分類(lèi)Ψρ-致,a°表示要混淆的應(yīng)用,gk,r表示非私人 偏好,aq,r表示非私人應(yīng)用,Sa表示當(dāng)前用戶(hù)所安裝的應(yīng)用集合。12. 根據(jù)權(quán)利要求2所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于: 步驟7中所述基于定制化的混淆策略,是從任何非私有的個(gè)人應(yīng)用分類(lèi)聲Φρ中隨機(jī)選擇 待選的混淆應(yīng)用程序;混淆集合S。如下定義:其中,a°表示要混淆的應(yīng)用,aq,r表示非私人應(yīng)用,Sa表示當(dāng)前用戶(hù)所安裝的應(yīng)用集合, Φτ表示非私人應(yīng)用分類(lèi),φρ表示私人應(yīng)用分類(lèi)。13. 根據(jù)權(quán)利要求2所述的基于移動(dòng)用戶(hù)配置文件混淆的隱私保護(hù)方法,其特征在于: 步驟8中所述對(duì)移動(dòng)用戶(hù)配置文件進(jìn)行混淆,是通過(guò)隱私保護(hù)系統(tǒng)混淆移動(dòng)用戶(hù)配置文件, 系統(tǒng)中包括應(yīng)用程序、應(yīng)用程序關(guān)鍵詞、配置文件、偏好配置文件、配置文件與偏好文件之 間的匹配關(guān)系、優(yōu)勢(shì)比的表示方法; 假設(shè)?Λ表示移動(dòng)應(yīng)用程序集合,Φ表示應(yīng)用分類(lèi),ai,j,i = l, . . .Aj來(lái)表示一個(gè)應(yīng)用,Aj 表示屬于〇j,j = l,...,Φ類(lèi)別的應(yīng)用程序數(shù)量,Oj代表應(yīng)用市場(chǎng)中應(yīng)用的所有分類(lèi)數(shù); 則所述應(yīng)用程序的關(guān)鍵詞表示方法就是應(yīng)用程序化./=U心化,G 4,其中km,i,j是 根據(jù)移動(dòng)應(yīng)用市場(chǎng)中,開(kāi)發(fā)者對(duì)每個(gè)應(yīng)用所定義的描述信息得到;km,1,沖的Ml,J, Ml, j代表應(yīng)用程序ai, j,i = 1,. . . Aj,j = 1,. . .,Φ的關(guān)鍵詞數(shù)量; 所述應(yīng)用配置文件表示方法就是用1(3={{化。山山〇北曰1^門(mén)3}來(lái)表示配置文件,其 中Sa為市場(chǎng)應(yīng)用集合^的子集,km,是其對(duì)應(yīng)的關(guān)鍵詞; 所述偏好配置文件表示方法就是通過(guò)Ig = {{gk, 1,Ψ1}: gk, 1 e Sg}來(lái)表示偏好配置文件, 其中g(shù)k,i,k=l, . . .,Gi,G讀示屬于偏好分類(lèi)Ψι,1 = 1, . . .Ψ中偏好的數(shù)量,Ψ表示分析公 司定義的偏好分類(lèi)數(shù)量,gk, 1是某種偏好分類(lèi)中的某個(gè)偏好; 所述應(yīng)用配置文件和偏好配置文件之間的匹配關(guān)系就是用M:化a^Ig}來(lái)表示,其中Oj 是應(yīng)用程序分類(lèi),Ψ1是偏好分類(lèi); 所述優(yōu)勢(shì)比就是某個(gè)事件存在某個(gè)特定條件時(shí)的成功幾率和存在另一個(gè)條件時(shí)的成 功幾率的比率,用公可山?({|{巧.p}|}/{|{織.句}): νΨ? #¥f,gk, 1 e Sg來(lái)表示,ΨP是配置文件中 用戶(hù)所選擇的分類(lèi),{I {泌,p} I}是用戶(hù)所選擇的分類(lèi)中的偏好數(shù)量與任意其他類(lèi)別Ψι中 的最大偏好數(shù)量的比例。
【文檔編號(hào)】G06F21/62GK106096439SQ201610392798
【公開(kāi)日】2016年11月9日
【申請(qǐng)日】2016年6月3日 公開(kāi)號(hào)201610392798.8, CN 106096439 A, CN 106096439A, CN 201610392798, CN-A-106096439, CN106096439 A, CN106096439A, CN201610392798, CN201610392798.8
【發(fā)明人】陳晶, 杜瑞穎, 何琨, 劉亞國(guó)
【申請(qǐng)人】武漢大學(xué)