基于棧式稀疏自編碼器的托攻擊檢測方法

文檔序號：9631733閱讀：754來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于棧式稀疏自編碼器的托攻擊檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息安全領(lǐng)域，特別涉及一種托攻擊檢測方法，可用于檢測互聯(lián)網(wǎng)系統(tǒng)中的惡意攻擊用戶。
【背景技術(shù)】
[0002] 20世紀(jì)末，互聯(lián)網(wǎng)開始萌芽，隨著網(wǎng)上信息量的飛速增長，人們在網(wǎng)上尋找自己所需的信息需耗費(fèi)較大精力，正是這個(gè)需求催生了雅虎公司的成立，其將網(wǎng)上的信息分門別類創(chuàng)立了門戶網(wǎng)站，為人們帶來了福祉。然而未經(jīng)多久，全社會的信息量開始呈現(xiàn)指數(shù)級增長，門戶網(wǎng)站開始難以處理如此規(guī)模龐大的內(nèi)容。谷歌應(yīng)運(yùn)而生，搜索業(yè)務(wù)較完美的解決了在海量信息中查找自己所需內(nèi)容的問題，開始了其黃金發(fā)展時(shí)期。進(jìn)入21世紀(jì)，世界范圍內(nèi)隨著互聯(lián)網(wǎng)的進(jìn)一步普及與移動設(shè)備的興起，每時(shí)每刻產(chǎn)生的信息量令人難以想象，這一切都促使著大數(shù)據(jù)時(shí)代的到來。
[0003] 尤其以電子商務(wù)為代表，它的產(chǎn)生極大的促進(jìn)了社會的進(jìn)步與人民的生活水平。但是隨著用戶與產(chǎn)品數(shù)量的爆炸式增加，使人們難以實(shí)時(shí)的發(fā)現(xiàn)自己感興趣的物品，所以，推薦系統(tǒng)概念的提出是時(shí)代的必然要求。
[0004] 推薦系統(tǒng)是利用用戶與系統(tǒng)之間的交互信息、個(gè)人與項(xiàng)目屬性信息和用戶與系統(tǒng) 之間發(fā)生交互時(shí)的環(huán)境信息，比如時(shí)間、地點(diǎn)和天氣等等，為用戶主動推薦其可能感興趣的項(xiàng)目列表。例如用戶在進(jìn)行搜索時(shí)，搜索引擎如何在上億級數(shù)量的網(wǎng)頁中進(jìn)行篩選，在首頁展示該用戶最可能感興趣的網(wǎng)頁？現(xiàn)在其中所包含的算法除了傳統(tǒng)的搜索技術(shù)更是囊括了推薦算法。國內(nèi)具體的成功案例如豆瓣FM，其可以根據(jù)用戶的收聽歷史為用戶推薦其可能喜歡的曲目，增強(qiáng)了用戶黏性，以穩(wěn)固商業(yè)地位為其帶來營收。國外案例如Amazon利用用戶的購物歷史，主動為用戶推薦列表，減少物品的長尾分布特性；Netflix的策略和上述兩家企業(yè)大致相同，為其用戶推薦影片等等。然而，由于商業(yè)利益與用戶屬性不穩(wěn)定性的驅(qū) 動，使其推薦列表的精度大大限制，這是學(xué)術(shù)界與業(yè)界亟需解決的問題。
[0005] 首先簡要闡述用戶屬性特征的不穩(wěn)定性，對推薦系統(tǒng)造成的影響。第一，因?yàn)橛脩?興趣是隨時(shí)間變化的，所以其對相近屬性項(xiàng)目的評價(jià)會出現(xiàn)前后差別較大的現(xiàn)象，加大了推薦算法的設(shè)計(jì)難度；第二，用戶對相同項(xiàng)目的評價(jià)，會因?yàn)楫?dāng)時(shí)環(huán)境的差異而出現(xiàn)偏差，比如在風(fēng)和日麗的早晨，也許會對厭惡的項(xiàng)目給予好評，反之如果心情恰好不悅，也許會對心儀的產(chǎn)品差評；第三，以Netflix為例，很多家庭中，其家庭成員是共享一個(gè)賬號的，所以其對影片的借閱與觀看歷史會出現(xiàn)龐雜而無特定模式的現(xiàn)象。以上所述為最常見的自然噪聲現(xiàn)象，本因在于人的屬性的不穩(wěn)定性與社會現(xiàn)象的復(fù)雜性。但是人為噪聲卻具有一定的模式，某些個(gè)人或者企業(yè)由于利益的驅(qū)動，在系統(tǒng)中注入大量的虛假交互數(shù)據(jù)，其目的不是為了表達(dá)個(gè)人的喜好，而是為了操控推薦系統(tǒng)的推薦結(jié)果向著其利益傾斜，或者只是為了擾亂推薦系統(tǒng)的工作，使用戶對其失望，從而造成用戶的流失。所以近年來眾多學(xué)者一直在此領(lǐng)域努力，致力于提高推薦系統(tǒng)的魯棒性。目前有兩種思路解決該問題。其一，不對原始數(shù)據(jù)集做修改，設(shè)計(jì)魯棒性推薦算法，降低噪聲對推薦系統(tǒng)性能的擾動，但是目前實(shí)踐證明該策略泛化能力強(qiáng)，但始終推薦精度不高。所以另外一種解決策略是托攻擊檢測，即在數(shù)據(jù) 預(yù)處理中，根據(jù)一定的甄別方法剔除被認(rèn)為是托的用戶。由于這種方法，可以根據(jù)托攻擊行為的變化，從而對分類器進(jìn)行相對應(yīng)的訓(xùn)練，使其保持著一定的分類精度的同時(shí)，也可以維持其對新類型攻擊的適應(yīng)性，所以一直是學(xué)術(shù)領(lǐng)域內(nèi)研究的熱點(diǎn)。
[0006] 托攻擊檢測領(lǐng)域最常用的方法是有監(jiān)督與無監(jiān)督算法。例如現(xiàn)有的基于決策樹 (C4. 5)的有監(jiān)督托攻擊檢測算法，該算法需要知道托攻擊類型，以提取相對應(yīng)的托用戶特征數(shù)據(jù)作為輸入特征以訓(xùn)練分類器，所以缺點(diǎn)是需要實(shí)時(shí)的掌握新的托攻擊類型以提取相對應(yīng)的用戶特征，缺乏適應(yīng)性。還有基于主成分分析（PCA)的無監(jiān)督托攻擊檢測算法，該算法表現(xiàn)優(yōu)異的前提是提前預(yù)知托攻擊用戶數(shù)量，否則性能一般，但是現(xiàn)實(shí)世界中很多時(shí)候是無法確定具體的托攻擊用戶數(shù)量的。而ZhiangWu等人在"HySAD:ASemi-Supervised HybridShillingAttackDetectorforTrustworthyProductRecommendation'，(《The ACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining》，2012，pages 985-993)提出的HySAD半監(jiān)督算法，其認(rèn)為在現(xiàn)實(shí)世界中，是可以人為的辨別出少量托攻擊用戶，雖然數(shù)量相對于真實(shí)的用戶數(shù)目很少，但是其參考價(jià)值彌足珍貴。所以，無監(jiān)督方式?jīng)]有利用已知的先驗(yàn)知識是不妥當(dāng)?shù)?，若用有監(jiān)督的方式進(jìn)行訓(xùn)練也是不妥的，因?yàn)楦?據(jù)少量的已知數(shù)據(jù)，難以泛化到整個(gè)數(shù)據(jù)集，而且他們在AmazonChina數(shù)據(jù)集上做了測試，證明了半監(jiān)督方式對推薦精度有顯著的提升。
[0007] 然而，在以分類為基本策略的托攻擊檢測算法中，無論是有監(jiān)督、無監(jiān)督或者半監(jiān) 督方式，其特征的提取與選擇一直以來是重點(diǎn)。目前學(xué)術(shù)界已經(jīng)提出且被驗(yàn)證了的用戶評分向量的屬性特征有用戶評分向量的熵、用戶模型與其K近鄰的平均相似度、用戶評分向量的長度變化、用戶模型評過分項(xiàng)目與其平均值之間的一階矩關(guān)系WDA、用戶模型評過分項(xiàng)目與其平均值之間的二階矩關(guān)系FMV、評最高分項(xiàng)目集合與剩余項(xiàng)目集合的平均分偏差 FMTD和用戶模型對目標(biāo)項(xiàng)目的關(guān)注度TMF。之所以眾多學(xué)者提出這么多檢測用戶評分向量的屬性特征，就在于托攻擊類型的多變。而在傳統(tǒng)的分類托攻擊檢測算法中，其難以應(yīng)對更多類型的托攻擊。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明的目的在于針對上述已有技術(shù)的不足，提出一種基于棧式稀疏自編碼器的托攻擊檢測方法，以提升對用戶屬性特征提取的通用性，可以檢測出更多類型的托攻擊用戶。
[0009] 本發(fā)明的技術(shù)方案是：將每個(gè)原始用戶評分?jǐn)?shù)據(jù)作為輸入，用棧式稀疏自編碼器對每個(gè)用戶提取特征數(shù)據(jù)，然后將獲得的特征數(shù)據(jù)作為輸入，以半監(jiān)督的方式訓(xùn)練樸素貝葉斯分類器，最終對未知類型的用戶進(jìn)行分類，找出托攻擊用戶。其實(shí)現(xiàn)步驟包括如下： [0010] ⑴輸入用戶對項(xiàng)目的評分?jǐn)?shù)據(jù)：R= |D|X|I|，其中R是指規(guī)模為|D|X|I 的評分矩陣，d是指全體用戶，I是指全體項(xiàng)目，|d|與|ι|分別指d與I的數(shù)量，且d= DuU…UDqU…UD%其中Du是指未知類型的用戶集合，D1是指已知的正常用戶集合，Dq是指已知的q類型托攻擊用戶集合，2彡q彡c，c是指已知的用戶類型總數(shù)；
[0011] (2)初始化評分矩陣R:歸一化每個(gè)用戶的評分?jǐn)?shù)據(jù)，使評分在0~1之間；
[0012] (3)以歸一化后的評分?jǐn)?shù)據(jù)作為輸入，訓(xùn)練棧式稀疏自編碼器；
[0013] (4)用棧式稀疏自編碼器提取的用戶特征數(shù)據(jù)作為輸入，訓(xùn)練樸素貝葉斯分類器；
[0014] (5)根據(jù)樸素貝葉斯分類器計(jì)算每個(gè)未知類型用戶屬于每個(gè)類型的概率，再對其進(jìn)行分類找出托攻擊用戶。
[0015] 本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn)：
[0016] 第一，本發(fā)明利用棧式稀疏自編碼器直接對用戶的初始評分?jǐn)?shù)據(jù)進(jìn)行特征提取，克服了針對特定類型的托攻擊用戶時(shí)需要提取特定的特征數(shù)據(jù)的問題。
[0017] 第二，由于本發(fā)明引入了用棧式稀疏自編碼器對用戶進(jìn)行特征提取的方法，克服了現(xiàn)有技術(shù)對用戶進(jìn)行特征提取時(shí)缺乏適應(yīng)性的問題，從而在檢測不同類型的托攻擊用戶時(shí)表現(xiàn)均衡。
【附圖說明】
[0018] 圖1為本發(fā)明的實(shí)現(xiàn)流程圖；
[0019] 圖2為本發(fā)明與現(xiàn)有SNB算法對平均多尺度托攻擊檢測效果比較圖；
[0020] 圖3為本發(fā)明與現(xiàn)有SNB算法對隨機(jī)多尺度托攻擊檢測效果比較圖。
【具體實(shí)施方式】
[0021 ] 參照圖1，本發(fā)明的實(shí)現(xiàn)步驟如下：
[0022] 步驟1，輸入評分?jǐn)?shù)據(jù)集。
[0023] 評分?jǐn)?shù)據(jù)集分為大量未知類型的用戶和少量已知類型的用戶，兩部分均包含托攻擊用戶與正常用戶，全部評分?jǐn)?shù)據(jù)為R= |D|X|I|，其中R是指規(guī)模為|D

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬文萍;馬進(jìn);焦李成;馬晶晶;聞澤聯(lián);任琛;
技術(shù)所有人：西安電子科技大學(xué);
我是此專利的發(fā)明人

上一篇：一種提高輸入安全性的方法和裝置的制造方法
上一篇：一種軟件監(jiān)控處理方法以及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

棧式自動編碼器相關(guān)技術(shù)

棧式自編碼器相關(guān)技術(shù)

堆棧自編碼器相關(guān)技術(shù)

棧式降噪自編碼器相關(guān)技術(shù)

堆棧式自動編碼器相關(guān)技術(shù)

堆棧自動編碼器相關(guān)技術(shù)

稀疏自動編碼器相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于棧式稀疏自編碼器的托攻擊檢測方法