国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法

      文檔序號:6424914閱讀:672來源:國知局
      專利名稱:基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法
      技術領域
      本發(fā)明屬于信息安全領域,具體地說是一種基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法。
      背景技術
      因特網(wǎng)規(guī)模和覆蓋面的迅速增長帶來了信息超載,我們生活在數(shù)據(jù)時代,據(jù)IDC 估計2011年數(shù)據(jù)總量將達到1.8 (IZB= 1,000,000PB),用戶面對海量數(shù)據(jù)束手無策,難以順利從中找到有用的信息。推薦系統(tǒng)(recommender system)是信息過濾的重要手段,是解決信息超載問題非常有潛力的方法。推薦算法是整個推薦系統(tǒng)中最核心的部分,協(xié)同過濾(collaborative filtering)是應用最廣泛的推薦算法,在日常生活中,我們往往會利用好朋友的推薦進行一些選擇,協(xié)同過濾正是基于這一思想,即基于其他相似用戶對某一對象的評價向目標用戶進行推薦。目前,很多著名的電子商務推薦系統(tǒng)都是基于協(xié)同過濾的,如亞馬遜網(wǎng)絡書店、 GroupLens, TiVo, Netflix, YouTube和!^acebook等。然而,基于協(xié)同過濾的推薦系統(tǒng)極易受到托攻擊(shilling attack),托攻擊者通過偽造用戶模型(user profile)干預系統(tǒng)的推薦結(jié)果,增加或減少目標對象的推薦頻率。比如,某些惡意生產(chǎn)商或店主為了使自己的產(chǎn)品更加暢銷,利用托攻擊使得推薦系統(tǒng)頻繁推薦自己的商品,而減少或不推薦競爭對手的商品。托攻擊檢測是捍衛(wèi)推薦系統(tǒng)安全性的重要手段,也是近年來信息安全應用領域的一個研究熱點。從機器學習的角度,以往的托攻擊檢測方法可以分為兩類,第一類托攻擊檢測方法是基于監(jiān)督學習的,如Chirite,Burke, McAasher等學者提出利用決策樹來檢測托攻擊;第二類方法是基于無監(jiān)督學習的,以Mehta提出的基于主元分析(principal component analysis, PCA)的豸實際的推薦系統(tǒng)中往往存在大量無法確定身份的用戶(稱為無標記數(shù)據(jù)),而只有少量用戶的身份可以確定(稱為標記數(shù)據(jù)),比如淘寶網(wǎng)上好評率極高或極低的用戶、黃冠用戶等的身份容易確定,大量好評率適中用戶的身份難以確定。由于標記數(shù)據(jù)量非常小,基于監(jiān)督學習的托攻擊檢測方法的誤差較大。而無監(jiān)督學習則沒有利用現(xiàn)有的標記數(shù)據(jù)集, 忽視了標記數(shù)據(jù)集對未標記數(shù)據(jù)集的影響,訓練出來的結(jié)果往往很難具有強泛化的學習能力。

      發(fā)明內(nèi)容
      為了克服現(xiàn)有的托攻擊檢測方法存在的問題,本發(fā)明的目的是提供一種基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法。該方法首先使用樸素貝葉斯分類器(Na'ive Bayesian classifier)作為初始分類器,然后使用Expectation Maximization (EM)算法來改進分類器。本發(fā)明用于發(fā)現(xiàn)推薦系統(tǒng)中的托攻擊用戶,具有高效性、靈敏性和特效性,具有高檢測率和低錯誤率。
      本發(fā)明的目的是通過以下技術方案來實現(xiàn)的
      一種基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法,其特征在于該方法包括以下階段
      1)托攻擊檢測預處理階段;該階段通過對標記數(shù)據(jù)集和未標記數(shù)據(jù)集的數(shù)據(jù)進行預處理,獲得標記和未標記數(shù)據(jù)集的托攻擊檢測指標,然后在標記數(shù)據(jù)集上訓練初始的樸素貝葉斯分類器;
      如果用戶的類別已知,則其屬于標記數(shù)據(jù)集L,否則屬于未標記數(shù)據(jù)集U; L={(ul,cl),(u2,c2),···,(u|L|,c|L|)}為標記數(shù)據(jù)集,(ul,u2,,…,u|L|)表示用戶集合,(cl,c2,,…,c I L|)表示該用戶的類型集合,而U=IV 1,U’ 2,···,u’|U|}為未標記數(shù)據(jù)集;
      2)ΕΜ-λ算法階段;該階段通過EM-λ算法不斷迭代獲取一個穩(wěn)定的分類器,最終得到未標記數(shù)據(jù)集的類型;通過函數(shù)f: U —C來預測未標記用戶屬于正常用戶normal (N)還是托攻擊用戶shi 11 ing (S),完成推薦系統(tǒng)托攻擊檢測。本發(fā)明提出了基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法,用于發(fā)現(xiàn)推薦系統(tǒng)中的托攻擊用戶。本發(fā)明的初始輸入是用戶對項目的評分矩陣,由標記數(shù)據(jù)集和未標記數(shù)據(jù)集組成,如果用戶的類別已知,則其屬于標記數(shù)據(jù)集L,否則屬于未標記數(shù)據(jù)集U。 L={(ul,cl),(u2,c2),···,(u|L|,c|L|)}為標記數(shù)據(jù)集,(ul,u2,,…,u|L|)表示用戶集合,(cl,c2,,…,c I L|)表示該用戶的類型集合,而U=IV 1,U’ 2,···,u’|U|}為未標記數(shù)據(jù)集。本發(fā)明的托攻擊檢測算法通過函數(shù)f: U —C來預測未標記用戶屬于正常用戶 normal (N)還是托攻擊用戶shilling(S)。本發(fā)明第一階段為托攻擊檢測預處理階段,該階段主要通過對標記數(shù)據(jù)集和未標記數(shù)據(jù)集的數(shù)據(jù)進行預處理,獲得標記和未標記數(shù)據(jù)集的托攻擊檢測指標,然后在標記數(shù)據(jù)集上訓練初始的樸素貝葉斯分類器,第二階段通過ΕΜ-λ算法不斷迭代獲取一個穩(wěn)定的分類器,最終得到未標記數(shù)據(jù)集的類型。本發(fā)明兩個階段的具體內(nèi)容如下
      1、托攻擊檢測預處理
      為了從大量的未標記用戶集合中找出托攻擊用戶,預處理階段需要獲得標記數(shù)據(jù)集和未標記數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu),其數(shù)據(jù)結(jié)構(gòu)如

      圖1所示,圖中UID為用戶號,class是用戶類型, 指標1-5是5個托攻擊檢測指標。其中UID為用戶的唯一標記,類型class包括正常用戶和托攻擊用戶,對于標記數(shù)據(jù)集來說class是已知的,而未標記用戶需要通過托攻擊檢測算法決定未標記用戶的類別。5個指標用于描述屬于正常用戶或托攻擊用戶的分類屬性,是檢測托攻擊的有效指標,由于單個指標無法有效的檢測未標記用戶類型,所以本發(fā)明定義5 種托攻擊檢測指標
      定義1熵用戶模型Pu可表示為統(tǒng)計集合Xu={ni,i=l, 2,. . .,rmax},其中i是評分值,ni是評分值i在Pu中出現(xiàn)的次數(shù)。熵H(Xu)的計算公式如式(1)所示
      權(quán)利要求
      1.一種基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法,其特征在于該方法包括以下階段1)托攻擊檢測預處理階段;該階段通過對標記數(shù)據(jù)集和未標記數(shù)據(jù)集的數(shù)據(jù)進行預處理,獲得標記和未標記數(shù)據(jù)集的托攻擊檢測指標,然后在標記數(shù)據(jù)集上訓練初始的樸素貝葉斯分類器;如果用戶的類別已知,則其屬于標記數(shù)據(jù)集L,否則屬于未標記數(shù)據(jù)集U; L={(ul,cl),(u2,c2),···,(u|L|,c|L|)}為標記數(shù)據(jù)集,(ul,u2,,…,u|L|)表示用戶集合,(cl,c2,,…,c I L|)表示該用戶的類型集合,而U=IV 1,U’ 2,···,u’|U|}為未標記數(shù)據(jù)集;2)ΕΜ-λ算法階段;該階段通過EM-λ算法不斷迭代獲取一個穩(wěn)定的分類器,最終得到未標記數(shù)據(jù)集的類型;通過函數(shù)f: U —C來預測未標記用戶屬于正常用戶normal (N)還是托攻擊用戶shi 11 ing (S),完成推薦系統(tǒng)托攻擊檢測。
      2.根據(jù)權(quán)利要求1所述的基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法,其特征在于 在托攻擊檢測預處理階段定義5種托攻擊檢測指標,具有如下定義1、熵用戶模型Pu可表示為統(tǒng)計集合Xu={ni,i=l, 2,. . .,rmax},其中i是評分值,ni是評分值i在Pu中出現(xiàn)的次數(shù);熵H(Xu)的計算公式如式(1)所示
      3.根據(jù)權(quán)利要求2所述的基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法,其特征在于 獲得標記和未標記數(shù)據(jù)集的5個指標后,可以在標記數(shù)據(jù)集上初始樸素貝葉斯分類器,然后根據(jù)此分類器屬于normal (N)和shilling(S)的概率,由于5個檢測指標都是相互獨立的,使用樸素貝葉斯分類來初始化未標記用戶屬于類別C的概率,其中C={S,N};首先計算u的5個指標值,記為{xl,x2,. . . , x5},而用戶u的第i個指標Mi符合均值為yi,標準差為oi的高斯分布,P(XilC)表示未標記用戶u的第i個指標Mi屬于類C 的概率,故其可用式(6)所示 (6)μ Ci和ο Ci為標記數(shù)據(jù)集的第i個指標Mi屬于類C的均值和標準差,然后可通過式 (7)獲得用戶u屬于類C的概率,式(7)如下所示
      4.根據(jù)權(quán)利要求2所述的基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法,其特征在于 在EM- λ算法階段,EM算法主要包括E步驟和M步驟,通過交替使用這兩個步驟,EM算法逐步調(diào)整屬于N和S的參數(shù),即均值μ Ci和標準差σ Ci,直至這兩個評估參數(shù)不再改變,兩步驟具體為E步驟使用式(8)計算每個用戶屬于類C的概率P (UkiC),式(8)如下所示
      全文摘要
      本發(fā)明公開了一種基于半監(jiān)督學習的推薦系統(tǒng)托攻擊檢測方法,包括以下階段托攻擊檢測預處理階段;通過對標記數(shù)據(jù)集和未標記數(shù)據(jù)集的數(shù)據(jù)進行預處理,獲得標記和未標記數(shù)據(jù)集的托攻擊檢測指標,然后在標記數(shù)據(jù)集上訓練初始的樸素貝葉斯分類器;EM-λ算法階段;通過EM-λ算法不斷迭代獲取一個穩(wěn)定的分類器,最終得到未標記數(shù)據(jù)集的類型;通過函數(shù)f:U→C來預測未標記用戶屬于正常用戶normal(N)還是托攻擊用戶shilling(S),完成推薦系統(tǒng)托攻擊檢測。本發(fā)明用于發(fā)現(xiàn)推薦系統(tǒng)中的托攻擊用戶,具有高效性、靈敏性和特效性,具有高檢測率和低錯誤率。
      文檔編號G06F21/00GK102184364SQ20111013842
      公開日2011年9月14日 申請日期2011年5月26日 優(yōu)先權(quán)日2011年5月26日
      發(fā)明者伍之昂, 曹杰, 毛波, 王有權(quán) 申請人:南京財經(jīng)大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1