專利名稱::一種追蹤隱私信息泄露的方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種在網(wǎng)絡(luò)環(huán)境下,追蹤隱私信息泄露的方法。本發(fā)明成果可以用于互聯(lián)網(wǎng)中隱私信息泄露的追蹤,屬于計(jì)算機(jī)網(wǎng)絡(luò)安全領(lǐng)域。
背景技術(shù):
:Web技術(shù)的發(fā)展和廣泛應(yīng)用為用戶共享信息和使用各種服務(wù)提供了方便,但是由此帶來(lái)了隱私信息保護(hù)的問(wèn)題。用戶在享用Web站點(diǎn)提供的服務(wù)之前,往往需要在站點(diǎn)注冊(cè),注冊(cè)過(guò)程中站點(diǎn)一般要求用戶提交一些包含個(gè)人隱私的信息,如用戶名、電子郵箱地址等。隱私信息包含個(gè)人的敏感信息,如果被泄露會(huì)造成個(gè)人名譽(yù)損失、經(jīng)濟(jì)損失和精神傷害。雖然站點(diǎn)一般都聲稱不會(huì)泄露用戶的隱私信息,但是有的站點(diǎn)為了其商業(yè)利益而將用戶隱私信息泄露給第三方。之后,用戶會(huì)經(jīng)常收到一些廣告性質(zhì)的垃圾郵件?,F(xiàn)有的針對(duì)Web服務(wù)的隱私信息保護(hù)方法通過(guò)一些技術(shù)手段或者站點(diǎn)的隱私策略來(lái)對(duì)用戶隱私信息進(jìn)行保護(hù),但是存在以下的缺點(diǎn)第一,現(xiàn)有的技術(shù)方法如使用匿名技術(shù)在一定程度上阻斷了用戶隱私信息與其身份之間的聯(lián)系,但是如果用戶身份信息被泄露,用戶的所有相關(guān)信息也就都泄露了。此外,由于各種因素如背景信息等的存在,使得匿名破解非常容易。第二,現(xiàn)有隱私策略和隱私保護(hù)方法雖然能夠?qū)﹄[私信息進(jìn)行一定的保護(hù),但是一旦站點(diǎn)違背隱私策略,用戶的隱私信息還是會(huì)被泄露出去。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種追蹤隱私信息泄露的方法,針對(duì)Web服務(wù)站點(diǎn)泄露用戶隱私信息給第三方后,用戶經(jīng)常收到帶有廣告性質(zhì)的垃圾郵件的問(wèn)題。使用本發(fā)明的方法可以追蹤到泄露用戶隱私信息的網(wǎng)站,使得用戶可以改變對(duì)隱私信息泄露站點(diǎn)的信任或交互模式,甚至訴諸于法律,從而達(dá)到對(duì)用戶隱私信息的保護(hù)。本發(fā)明采用一個(gè)分析中心,當(dāng)用戶收到垃圾郵件以后向分析中心舉報(bào)垃圾郵件,并告知分析中心最近注冊(cè)過(guò)的網(wǎng)站的信息,如果分析不成功,則分析中心要求用戶進(jìn)一步提交最近交互過(guò)的網(wǎng)站的信息。其中,“最近”在實(shí)際應(yīng)用中可以具體確定實(shí)際期限,如兩周、一個(gè)月等,在此不做特殊規(guī)定。分析中心根據(jù)分析算法對(duì)泄露用戶隱私信息的網(wǎng)站進(jìn)行分析和追蹤,并將結(jié)果告知用戶。本發(fā)明的應(yīng)用框架結(jié)構(gòu)如圖1所示。站點(diǎn)泄露的用戶的隱私信息分為兩類一是注冊(cè)信息(其中可能包括用戶名、電子郵件地址、興趣等),二是通過(guò)用戶和站點(diǎn)的歷史交互行為,站點(diǎn)分析出的用戶行為信息。本發(fā)明采取如下的技術(shù)方案。追蹤隱私信息泄露的方法,實(shí)現(xiàn)本方法的整個(gè)框架包括用戶、隱私信息泄露站點(diǎn)、得到用戶隱私信息的第三方(以下簡(jiǎn)稱第三方)和分析中心,其中分析中心的分析算法包括郵件分類模塊、站點(diǎn)分類模塊和分析模塊。追蹤隱私信息泄露的方法,其特征在于,包括以下步驟1.用戶收到垃圾郵件后,向分析中心舉報(bào),該分析中心為包括郵件分類模塊、站點(diǎn)分類模塊和分析模塊三個(gè)軟件的服務(wù)器1.1)用戶在分析中心注冊(cè)一個(gè)賬號(hào),該注冊(cè)過(guò)程只需提交用戶名(用戶自己選定的名稱)和密碼(供用戶登錄分析中心使用),不需提交其他任何信息,最大限度的保護(hù)用戶的隱私;1.2)用戶登錄分析中心,將自己要舉報(bào)的垃圾郵件和最近注冊(cè)過(guò)的站點(diǎn)的網(wǎng)址提交分析中心;2.分析中心收到用戶的舉報(bào)后,做如下處理(分析流程如圖3,分析流程圖所示)2.1)調(diào)用郵件分類模塊對(duì)用戶舉報(bào)的垃圾郵件做分類處理,郵件分類模塊中使用一個(gè)郵件分類軟件對(duì)郵件進(jìn)行分類處理,其實(shí)現(xiàn)的步驟包括2.1.1)刪除郵件正文中出現(xiàn)頻率很高但與郵件特征無(wú)關(guān)的詞(如連接詞、語(yǔ)氣助詞等),其中“特征”是指能夠把一個(gè)郵件內(nèi)容與其他郵件內(nèi)容區(qū)分開(kāi)來(lái)的信息;2.1.2)在詞典(包括中文詞典、英文詞典等詞典,根據(jù)郵件中出現(xiàn)的語(yǔ)言類型選擇相應(yīng)的詞典)的支持下,把郵件文本分成有意義的詞條;2.1.3)對(duì)2.1.2)中切分好的有意義的詞條,通過(guò)提取語(yǔ)義的方法確定該郵件的類型,即該郵件是為哪一種或哪幾種商品或服務(wù)做廣告,用集合Ie1,e2,....ej(me(1,2,....))表示,其中m表示一個(gè)郵件類型的總個(gè)數(shù)。比如,一個(gè)郵件為化妝品和服裝作廣告,該郵件的類型表示為{e1;e2},其中el表示“化妝品”,e2表示“服裝”,則m=2。其中“提取語(yǔ)義的方法”在實(shí)際應(yīng)用中是采用機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)。2.2)調(diào)用站點(diǎn)分類模塊對(duì)用戶提交的站點(diǎn)進(jìn)行分類,站點(diǎn)分類模塊中使用一個(gè)站點(diǎn)分類軟件對(duì)用戶提交的站點(diǎn)進(jìn)行分類處理,站點(diǎn)分類軟件采用機(jī)器學(xué)習(xí)的方法對(duì)這些站點(diǎn)(如是提供學(xué)習(xí)交流的站點(diǎn)或是提供電子商務(wù)服務(wù)的站點(diǎn)類型等)以及站點(diǎn)通過(guò)和用戶的交互可能收集到的用戶的信息進(jìn)行分類,分類結(jié)果記為站點(diǎn)類型,用集合Ic1,C2,....cj(ne(1,2,....))表示,其中η表示站點(diǎn)類型的總個(gè)數(shù)。比如,一個(gè)銷售電子產(chǎn)品的電子商務(wù)網(wǎng)站類型表示為Ic1,C2,c3},其中C1表示“手機(jī)”,C2表示“電腦”,C3表示“移動(dòng)硬盤”,則η=3。2.3)調(diào)用分析模塊分析泄露用戶隱私信息的網(wǎng)站,分析模塊中使用一個(gè)分析軟件來(lái)分析泄露用戶隱私信息的網(wǎng)站,其實(shí)現(xiàn)步驟包括2.3.1)把一個(gè)時(shí)間區(qū)間之內(nèi)的(如一個(gè)小時(shí)之內(nèi)、一天之內(nèi)等,實(shí)際應(yīng)用中可以根據(jù)具體情況而確定)、垃圾郵件內(nèi)容相同的每一條用戶舉報(bào),表示成一個(gè)舉報(bào)條目,其中舉報(bào)條目包括用戶提交的站點(diǎn)名稱、該站點(diǎn)的類型、垃圾郵件的類型。將這些垃圾郵件內(nèi)容相同的舉報(bào)條目組織成一個(gè)表,記為分析表,如圖2所示;2.3.2)掃描分析表中的每一個(gè)舉報(bào)條目,如果舉報(bào)條目滿足以下的條件eig(Cl,c2,....cn)(eie(ei,e2,····em),me(1,2,····),ie(1,2,····m)),即經(jīng)過(guò)分析的垃圾郵件的類型不屬于注冊(cè)站點(diǎn)的類型,則刪除該站點(diǎn)。這是因?yàn)?,垃圾郵件類型不屬于站點(diǎn)類型,表示站點(diǎn)不能獲得用戶與垃圾郵件廣告目的相關(guān)的信息,因此將其刪除。其中,“屬于”表示包含與被包含的關(guān)系;2.3.3)掃描分析表,記錄每個(gè)站點(diǎn)出現(xiàn)的頻率,按照出現(xiàn)頻率的高低對(duì)注冊(cè)站點(diǎn)排序,記錄在一張排序表中;2.3.4)對(duì)于排序表,記錄前ρ個(gè)站點(diǎn),刪除后q個(gè)的站點(diǎn)(其中P、q的取值根據(jù)舉報(bào)的總數(shù)選定);2.3.5)在下一個(gè)時(shí)間區(qū)間之內(nèi)接收垃圾郵件內(nèi)容相同的用戶舉報(bào),重復(fù)2.3.1)-2.3.4),直到對(duì)于內(nèi)容相同的垃圾郵件,不再接收到用戶舉報(bào)或超過(guò)設(shè)定的時(shí)間門限(如8個(gè)小時(shí)、兩天等,根據(jù)實(shí)際應(yīng)用選擇時(shí)間門限);2.3.6)對(duì)于2.3.5)形成的每個(gè)排序表中記錄的前ρ個(gè)站點(diǎn),取前t個(gè)(t為整數(shù),且t<ρ)作為隱私泄露候選站點(diǎn),記為{k1;k2,....kx}(1e(1,2,....)),其中1表示選擇的隱私泄露候選站點(diǎn)的總個(gè)數(shù)。如果一共有Hr為大于0的整數(shù))張排序表,則隱私泄露站點(diǎn)的候選者數(shù)量是rXt。其中的t的具體取值根據(jù)排序表的情況選定,在此不做特殊要求;2.4)對(duì)于候選的隱私泄露站點(diǎn){k1;k2,....Ic1)(1e(1,2,....)),分析中心對(duì)這些站點(diǎn)用不同的郵箱分別進(jìn)行注冊(cè)和交互,如果在注冊(cè)和交互之后,測(cè)試郵箱很快開(kāi)始收到垃圾郵件,則確定該站點(diǎn)為泄露用戶隱私信息的網(wǎng)站,轉(zhuǎn)向3.1)。如果對(duì)于所有的候選站點(diǎn)進(jìn)行測(cè)試注冊(cè)后,測(cè)試郵箱沒(méi)有收到垃圾郵件,則轉(zhuǎn)向2.5);2.5)分析中心要求用戶把最近交互的站點(diǎn)和最近注冊(cè)的站點(diǎn)一起提交到分析中心,做2.1)-2.4),如果成功轉(zhuǎn)向3.1),否則分析失敗轉(zhuǎn)向3.2);3.分析中心告知用戶分析結(jié)果,其中包括3.1)成功找到泄露用戶隱私信息的網(wǎng)站;3.2)分析失敗。本發(fā)明提出一種追蹤隱私信息泄露的方法,該方法針對(duì)Web服務(wù)站點(diǎn)泄露用戶隱私信息給第三方后,用戶經(jīng)常收到帶有廣告性質(zhì)的垃圾郵件的問(wèn)題。通過(guò)分析中心對(duì)用戶舉報(bào)的垃圾郵件的分析,能夠找出泄露用戶隱私信息的站點(diǎn)并通知用戶。用戶在分析中心注冊(cè)時(shí)只需提交其自由設(shè)定的用戶名和密碼,以及開(kāi)始只需向分析中心提交最近注冊(cè)的站點(diǎn)名稱,分析不成功才需向分析中心提交最近交互的站點(diǎn),最大限度的保護(hù)了用戶的隱私fn息ο圖1本發(fā)明的應(yīng)用框架結(jié)構(gòu)2本發(fā)明的分析算法中的分析表結(jié)構(gòu)3本發(fā)明的分析過(guò)程流程圖具體實(shí)施例方式本發(fā)明的具體實(shí)施方式以一個(gè)電子商務(wù)網(wǎng)站泄露用戶的購(gòu)買傾向的隱私信息為例,說(shuō)明本發(fā)明的追蹤隱私信息泄露的方法。用戶A于本月之中在電子商務(wù)網(wǎng)站S1瀏覽化妝品、服裝的購(gòu)買信息,S1是用戶A兩個(gè)月以前注冊(cè)的站點(diǎn)。該電子商務(wù)網(wǎng)站通過(guò)分析用戶A的瀏覽歷史,把用戶對(duì)服裝和化妝品感興趣的隱私信息與A的電子郵件地址泄露給第三方P,第三方P開(kāi)始給A發(fā)送一些廣告化妝品的垃圾郵件。A常常收到關(guān)于化妝品的垃圾郵件,于是A在分析中心注冊(cè)一個(gè)賬號(hào),并把收到的垃圾郵件E以及A在一個(gè)月之內(nèi)注冊(cè)過(guò)的網(wǎng)站{S2,S3,S4,SJ向分析中心舉報(bào)。分析收到用戶A的舉報(bào),對(duì)A舉報(bào)的垃圾郵件E做分類處理(通過(guò)機(jī)器學(xué)習(xí)的方法,提取郵件內(nèi)容的語(yǔ)義),得出該郵件類型是{化妝品},即該垃圾郵件的廣告目的是為化妝品做廣告。分析中心對(duì)A提交的網(wǎng)站做分類處理(通過(guò)機(jī)器學(xué)習(xí)的方法,對(duì)站點(diǎn)類型做分析),得到結(jié)果如下<table>tableseeoriginaldocumentpage7</column></row><table>因此A的舉報(bào)條目為<table>tableseeoriginaldocumentpage7</column></row><table>對(duì)于一天之內(nèi),舉報(bào)內(nèi)容和A相同的垃圾郵件,經(jīng)過(guò)郵件分類和站點(diǎn)分類處理,組織成一個(gè)分析表如下<table>tableseeoriginaldocumentpage7</column></row><table>將站點(diǎn)類別不包含垃圾郵件類別“化妝品”的站點(diǎn)刪除,因此刪除S2和S7,將分析表中剩下的站點(diǎn)排序,取頻率最高的前2個(gè)S2,S3,刪除頻率最低的一個(gè)S6。等待下一個(gè)時(shí)間區(qū)間,即下一天的舉報(bào),但是沒(méi)有出現(xiàn)的該內(nèi)容的垃圾郵件新的舉報(bào)。取t=2,即把選出來(lái)的頻率最高的2個(gè)站點(diǎn)都作為候選站點(diǎn),進(jìn)行測(cè)試。測(cè)試中心使用兩個(gè)郵箱在S2,S3分別注冊(cè),但是注冊(cè)后沒(méi)有收到垃圾郵件。因此,分析中心要求A把一個(gè)月之內(nèi)注冊(cè)和交互的過(guò)的站點(diǎn)作為報(bào)告站點(diǎn),告知分析中心。分析中心通過(guò)用戶A新提交的站點(diǎn)(包括本月注冊(cè)、交互的站點(diǎn))分類,形成了A的新的舉報(bào)條目<table>tableseeoriginaldocumentpage8</column></row><table>根據(jù)該新的舉報(bào)條目,形成新的分析表,用同樣的方法作分析。得出頻率最高的站點(diǎn)是S1S2,因?yàn)镾2經(jīng)過(guò)測(cè)試已經(jīng)排除是泄露隱私信息的站點(diǎn),因此分析中心對(duì)站點(diǎn)S1做測(cè)試。分析中心用測(cè)試郵箱在站點(diǎn)S1注冊(cè)后,站點(diǎn)S1很快收到了廣告化妝品的垃圾郵件,于是分析中心告知用戶Aj1泄露其隱私信息。于是用戶A可以采取改變對(duì)站點(diǎn)S1的信任等,出站點(diǎn)S1泄露隱私信息對(duì)出響應(yīng)。采用本發(fā)明可以追蹤到泄露用戶隱私信息的網(wǎng)站,使得用戶可以改變對(duì)隱私信息泄露站點(diǎn)的信任或交互模式,甚至訴諸于法律,從而達(dá)到對(duì)用戶隱私信息的保護(hù)。權(quán)利要求一種追蹤隱私信息泄露的方法,其特征在于,包括以下步驟1.)用戶收到垃圾郵件后,向分析中心舉報(bào),該分析中心為包括郵件分類模塊、站點(diǎn)分類模塊和分析模塊三個(gè)軟件的服務(wù)器1.1)用戶在分析中心注冊(cè)一個(gè)賬號(hào),該注冊(cè)過(guò)程只需提交一個(gè)自己選定的用戶名和供用戶登錄分析中心使用的密碼;1.2)用戶登錄分析中心,將自己要舉報(bào)的垃圾郵件和最近注冊(cè)過(guò)的站點(diǎn)的網(wǎng)址提交分析中心;2.)分析中心收到用戶的舉報(bào)后,做如下處理2.1)調(diào)用郵件分類模塊對(duì)用戶舉報(bào)的垃圾郵件做分類處理,郵件分類模塊中使用一個(gè)郵件分類軟件對(duì)郵件進(jìn)行分類處理,其實(shí)現(xiàn)的步驟包括2.1.1)刪除郵件正文中出現(xiàn)頻率很高但與郵件特征無(wú)關(guān)的詞,特征是能夠把一個(gè)郵件內(nèi)容與其他郵件內(nèi)容區(qū)分開(kāi)來(lái)的信息;2.1.2)在詞典的支持下,把郵件文本分成有意義的詞條;2.1.3)對(duì)2.1.2)中切分好的有意義的詞條,通過(guò)提取語(yǔ)義的方法確定該郵件的類型,用集合{e1,e2,....em}(m∈(1,2,....))表示,m表示一個(gè)郵件類型的總個(gè)數(shù);;2.2)調(diào)用站點(diǎn)分類模塊對(duì)用戶提交的站點(diǎn)進(jìn)行分類,站點(diǎn)分類模塊中使用一個(gè)站點(diǎn)分類軟件對(duì)用戶提交的站點(diǎn)進(jìn)行分類處理;站點(diǎn)分類軟件對(duì)這些站點(diǎn)以及站點(diǎn)通過(guò)和用戶的交互可能收集到的用戶的信息進(jìn)行分類,分類結(jié)果記為站點(diǎn)類型,用集合{c1,c2,....cn}(n∈(1,2,....))表示,n是站點(diǎn)類型的總個(gè)數(shù);2.3)調(diào)用分析模塊分析泄露用戶隱私信息的網(wǎng)站,分析模塊中使用一個(gè)分析軟件來(lái)分析泄露用戶隱私信息的網(wǎng)站,其實(shí)現(xiàn)步驟包括2.3.1)把一個(gè)時(shí)間區(qū)間之內(nèi)的、垃圾郵件內(nèi)容相同的每一條用戶舉報(bào),表示成一個(gè)舉報(bào)條目,舉報(bào)條目包括用戶提交的站點(diǎn)名稱、該站點(diǎn)的類型、垃圾郵件的類型;將這些垃圾郵件內(nèi)容相同的舉報(bào)條目組織成一個(gè)表,記為分析表;2.3.2)掃描分析表中的每一個(gè)舉報(bào)條目,如果舉報(bào)條目滿足以下的條件即經(jīng)過(guò)分析的垃圾郵件的類型不屬于注冊(cè)站點(diǎn)的類型,則刪除該站點(diǎn);屬于表示包含與被包含的關(guān)系;2.3.3)掃描分析表,記錄每個(gè)站點(diǎn)出現(xiàn)的頻率,按照出現(xiàn)頻率的高低對(duì)注冊(cè)站點(diǎn)排序,記錄在一張排序表中;2.3.4)對(duì)于排序表,記錄前p個(gè)站點(diǎn),刪除后q個(gè)的站點(diǎn),p、q的取值根據(jù)舉報(bào)的總數(shù)選定;2.3.5)在下一個(gè)時(shí)間區(qū)間之內(nèi)接收垃圾郵件內(nèi)容相同的用戶舉報(bào),重復(fù)2.3.1)-2.3.4),直到對(duì)于內(nèi)容相同的垃圾郵件,不再接收到用戶舉報(bào)或超過(guò)設(shè)定的時(shí)間門限;2.3.6)對(duì)于2.3.5)形成的每個(gè)排序表中記錄的前p個(gè)站點(diǎn),取前t個(gè),t為整數(shù),且t<p,作為隱私泄露候選站點(diǎn),記為{k1,k2,....kl}(l∈(1,2,....)),l是選擇的隱私泄露候選站點(diǎn)的總個(gè)數(shù);如果一共有r張排序表,r為大于0的整數(shù),則隱私泄露站點(diǎn)的候選者數(shù)量是r×t;2.4)對(duì)于候選的隱私泄露站點(diǎn){k1,k2,....kl}(l∈(1,2,....)),分析中心對(duì)這些站點(diǎn)用不同的郵箱分別進(jìn)行注冊(cè)和交互,如果在注冊(cè)和交互之后,測(cè)試郵箱很快開(kāi)始收到垃圾郵件,則確定該站點(diǎn)為泄露用戶隱私信息的網(wǎng)站,轉(zhuǎn)向3.1);如果對(duì)于所有的候選站點(diǎn)進(jìn)行測(cè)試注冊(cè)后,測(cè)試郵箱沒(méi)有收到垃圾郵件,則轉(zhuǎn)向2.5);2.5)分析中心要求用戶把最近交互的站點(diǎn)和最近注冊(cè)的站點(diǎn)一起提交到分析中心,做2.1)-2.4),如果成功轉(zhuǎn)向3.1),否則分析失敗轉(zhuǎn)向3.2);3.)分析中心告知用戶分析結(jié)果,其中包括3.1)成功找到泄露用戶隱私信息的網(wǎng)站;3.2)分析失敗。FSA00000060013900011.tif全文摘要一種追蹤隱私信息泄露的方法,屬于計(jì)算機(jī)網(wǎng)絡(luò)安全領(lǐng)域,用于網(wǎng)絡(luò)環(huán)境中隱私信息泄露的追蹤。本發(fā)明的目的是提供一種追蹤隱私信息泄露的方法。針對(duì)Web服務(wù)站點(diǎn)泄露用戶隱私信息給第三方后,用戶經(jīng)常收到帶有廣告性質(zhì)的垃圾郵件的問(wèn)題。本發(fā)明采用一個(gè)分析中心,當(dāng)用戶收到垃圾郵件以后向分析中心舉報(bào)垃圾郵件,通過(guò)分析中心的分析方法找到隱私信息泄露的網(wǎng)站,告知用戶。使用本發(fā)明的方法可以追蹤到泄露用戶隱私信息的網(wǎng)站,使得用戶可以改變對(duì)隱私信息泄露站點(diǎn)的信任或交互模式,甚至訴諸于法律,從而達(dá)到對(duì)用戶隱私信息的保護(hù)。文檔編號(hào)G06F21/00GK101819616SQ201010130590公開(kāi)日2010年9月1日申請(qǐng)日期2010年3月22日優(yōu)先權(quán)日2010年3月22日發(fā)明者何涇沙,吳旭,高楓申請(qǐng)人:北京工業(yè)大學(xué)