專利名稱:一種基于人工免疫與行為特征的垃圾郵件識別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),具體涉及一種郵件行為特征庫生成方法及裝置、垃圾郵件判斷 方法、裝置及系統(tǒng)、垃圾郵件特征庫更新方法及裝置。
背景技術(shù):
近年來,隨著互連網(wǎng)的發(fā)展,垃圾郵件問題越來越引起人們的重視。垃圾郵件無時無刻 的困擾著互連網(wǎng)用戶,浪費網(wǎng)絡(luò)資源,甚至可能引起其他更加嚴重的社會問題。隨著技術(shù)的 發(fā)展,垃圾郵件過濾技術(shù)也得到了越來越多的關(guān)注和發(fā)展。
大部分防垃圾郵件產(chǎn)品都還在采用IP過濾,關(guān)鍵字過濾,基于貝葉斯統(tǒng)計算法的智能內(nèi) 容過濾以及RBL過濾等方法進行垃圾郵件的區(qū)分。但是它們誤報率高,處理性能很低,語言 依賴性強。因為這些技術(shù),沒有跳出內(nèi)容匹配過濾的技術(shù)局限,它們需要將郵件完整接收下 來后,對郵件按照指定語言進行分詞處理,并與一個有著數(shù)以百萬計的詞庫進行逐一匹配, 從而估計該郵件是否為垃圾郵件。
對比垃圾郵件和正常郵件,二者最根本的區(qū)別在于各自的目的不同。為了達到其非法目 的,不法分子在使用電子郵件的過程中就會表現(xiàn)出與正常使用行為不同的特征,并在網(wǎng)絡(luò)上 留下相應(yīng)的痕跡?;谶@一點,采用基于垃圾郵件行為識別的原理和方法,可提高郵件過濾 速度,同時避免了內(nèi)容過濾技術(shù)不可避免的誤報率問題,使得垃圾郵件過濾更加高效和準確。
近年來,智能型的垃圾郵件檢測技術(shù)和傳統(tǒng)方法相比體現(xiàn)出了更強的學習能力和調(diào)整特 性。在智能型的郵件處理方法中,機器學習和人工神經(jīng)網(wǎng)絡(luò)的方法已得到了深入的研究。目 前主要的垃圾郵件檢測方法有樸素貝葉斯(Naive Bayes)、支持向量機(SVM)、人工神經(jīng)網(wǎng) 絡(luò)(ANN)、基于免疫的垃圾郵件過濾方法等。
將人工免疫模型應(yīng)用于垃圾郵件處理,主要利用免疫中自己/非己的檢測原理和檢測器的 概念。提取n個垃圾郵件行為特征,每個特征作為一個染色體,每一封郵件都可轉(zhuǎn)化為一個 有n位染色體的基因細胞。先用已知類別垃圾郵件訓練出一個抗體(antibody)集,即是抗 體庫,每一封未識別郵件為抗原(antigen)。然后計算該抗原和抗體庫中每一個抗體的相似 度(affinity),如果得出的最大的相似度大于預(yù)先設(shè)定的某一閾值,那么認為抗體識別出了 該抗原并將其歸類為垃圾郵件。且隨著被識別抗原的不同相似度,對抗體庫進行克隆變異更 新,即保證抗體集的高識別性能,又使之更能適應(yīng)新垃圾郵件的更新趨勢。
發(fā)明內(nèi)容
本發(fā)明實施例的目的是提供一種郵件行為特征庫生成方法及裝置、垃圾郵件判斷方法、 裝置及系統(tǒng)、垃圾郵件特征庫更新方法及裝置,使用本發(fā)明提供的實施例,可以對垃圾郵件 信息類型進行判斷,從而過濾垃圾郵件信息。
首先,為了解決現(xiàn)有技術(shù)存在的問題,本發(fā)明的實施方式提出一種郵件行為特征庫生成 方法,該方法的步驟包括
讀取分類已知郵件信息的內(nèi)容;
將所述郵件信息內(nèi)容使用預(yù)置行為特征提取算法得到抗體集合;
采用所述的抗體集合使用預(yù)置分析算法進行概率分析得到最終抗體庫;
將所述抗體庫使用預(yù)置分析算法進行分數(shù)計算得到最終分數(shù)集。
相應(yīng)地,本發(fā)明的實施方式提出了一種郵件行為特征庫生成裝置,該裝置包括
郵件信息讀取單元,用于讀取分類已知郵件的信息內(nèi)容;
特征提取單元,用于從所述郵件內(nèi)容中提取符合預(yù)置條件的行為特征;
抗體庫生成單元,用于將所述行為特征進行概率分析得到最終的抗體集合; 特征分數(shù)生成單元,用于將所述特征概率進行計算得到最終的分數(shù)集合。
其次,本發(fā)明的實施方式還提供了一種垃圾郵件判斷方法,該方法的步驟包括
讀取分類未知郵件信息的內(nèi)容; 對所述郵件信息內(nèi)容進行格式解析;
將解析后的郵件信息內(nèi)容使用預(yù)置行為特征提取算法得到抗原;
讀取所述的郵件信息特征行為特征提取算法及概率算法得到的抗體庫和分數(shù)集;
對所述抗原使用預(yù)置識別算法進行計算; 根據(jù)計算結(jié)果對所述郵件進行判斷。
《H應(yīng)地,不漢W的失刀1B刀工、:PeCD J —1T"H農(nóng)WP'I干力畫J^T表直,"衣旦.ti:ra:
郵件信息讀取單元,用于讀取分類未知郵件信息內(nèi)容; 信息內(nèi)容解析單元,用于解析分類未知郵件信息內(nèi)容;特征提取單元,用于從所述郵件內(nèi)容中提取符合預(yù)置條件的行為特征; 抗體庫與分數(shù)集讀取單元,用于讀取抗體庫與對應(yīng)分數(shù)集內(nèi)容;
計算單元,用于以所述行為特征、抗體庫和分數(shù)集作為輸入,采用預(yù)置識別算法進行計
算;
判斷單元,用于根據(jù)所述計算單元的計算結(jié)果對所述分類未知郵件信息類型進行判斷。
接著,本發(fā)明的實施方式還提供了垃圾郵件特征庫更新方法,該方法的步驟包括-
讀取已被識別的垃圾郵件的行為特征信息;
判斷識別出所述垃圾郵件的抗體的相似度;
采用所述的抗體使用預(yù)置克隆變異算法進行抗體的克隆和變異;
所述抗原與變異生產(chǎn)的新抗體使用預(yù)置識別算法進行計算; 根據(jù)判斷計算結(jié)果,對郵件抗體庫更新。
相應(yīng)地,本發(fā)明的實施方式提出了一種垃圾郵件特征庫更新裝置,該裝置包括 垃圾郵件信息讀取單元,用于讀取已被識別的垃圾郵件的行為特征信息; 相似度判斷單元,用于判斷識別出所述垃圾郵件的抗體的相似度,判斷是否克隆變異; 克隆變異單元,用于所述的抗體進行抗體的克隆和變異,生產(chǎn)新的抗體; 計算單元,用于對所述抗原與變異生產(chǎn)的新抗體使用預(yù)置識別算法進行計算; 判斷更新單元,用于根據(jù)所述計算單元的計算結(jié)果,判斷更新抗體庫。
最后,實施本發(fā)明具有以下有益效果
從本發(fā)明實施例提供的以上技術(shù)方案可以看出,本發(fā)明實施例采用分類已知的郵件的行 為特征庫生成方法,并使用生成的特征對分類未知的郵件進行判斷。在識別未分類郵件時, 除了計算未知郵件與抗體庫中已知垃圾郵件的行為特征相似度外,還設(shè)置分數(shù)集。通過計算 總分數(shù),査看未知郵件其行為特征趨近與垃圾郵件的程度。通過雙重標準可以更準確的識別 垃圾郵件。在數(shù)據(jù)庫更新時,用已經(jīng)識別垃圾郵件,通過克隆變異算法實現(xiàn)抗體庫的更新, 叉目5迫/亢—定口、J別r」^旦狄口pt卞iJ yviinii:又'i^;t3^rTw^^成閨P it又tuw3^t。
圖1為本發(fā)明郵件行為特征庫生成方法實施例一的具體流程圖;
圖2為本發(fā)明垃圾郵件判斷方法實施例一的具體流程圖3為本發(fā)明垃圾郵件特征庫更新方法實施例一的具體流程圖;
圖4為本發(fā)明郵件行為特征庫生成裝置實施例一的結(jié)構(gòu)圖5為本發(fā)明垃圾郵件判斷裝置實施例一的結(jié)構(gòu)圖6為本發(fā)明垃圾郵件特征庫更新裝置實施例一的結(jié)構(gòu)圖7為本發(fā)明垃圾郵件判斷系統(tǒng)實施例一的結(jié)構(gòu)圖。
具體實施例方式
為使本發(fā)明的目的、技術(shù)方案、及優(yōu)點更加清楚明白,以下參照附圖并舉實施例,對本 發(fā)明進一步詳細說明。
如圖1所示,本發(fā)明提供的郵件行為特征庫生成方法實施例一包括
步驟IOI、讀取分類巳知郵件信息的內(nèi)容
分類已知郵件信息是指該郵件分類是已知的,也就是該郵件是正常郵件還是垃圾郵件是 已經(jīng)確定的。
步驟102、將所述郵件信息內(nèi)容使用預(yù)置行為特征提取算法得到抗體集合
這里所使用的預(yù)置行為提取算法是指將垃圾內(nèi)容(包括郵件頭和郵件體)進行特征提取; 針對郵件可能出現(xiàn)的行為特征進行提取,如郵件頭中的容易偽造的字段、DNS解析的字段、 郵件書寫不規(guī)范的字段、路由信息中偽造的字段;郵件體中帶有的"www"或"http:〃"、以 及"@"等字段。具有某特征記為1,反之記為0,所以郵件可記為每一項寫了 0或1的定長 數(shù)組形式。
將所述可識別郵件提取出的特征信息分別生成垃圾郵件抗體集和正常郵件抗體集。 步驟103、采用所述的抗體集合使用預(yù)置分析算法進行概率分析得到最終抗體庫 使用垃圾郵件抗體集和正常郵件抗體集,通過分析計算生成有效的識別垃圾郵件的抗體庫。
本發(fā)明使用免疫原理中的耐受原則和反向選擇算法方法。
步驟104、將所述抗體庫使用預(yù)置分析算法進行分數(shù)計算得到最終分數(shù)集
讀入垃圾郵件抗體集和正常郵件抗體集;計算所述各個特征項的分數(shù)并得到最終的分數(shù)本發(fā)明進一步提供了一種計算分數(shù)方法。當垃圾郵件集與正常郵件集數(shù)量相等時,累加 每一項特征在垃圾郵件集合中出現(xiàn)的次數(shù),同時累加每一項特征在正常郵件集合中出現(xiàn)的次 數(shù),求出兩次數(shù)相減的絕對值。則體現(xiàn)出每種特征在區(qū)分垃圾郵件和正常郵件中起到的作用 大小,將每一個特征所求到的值保存成一個分數(shù)集。
如圖2所示,本發(fā)明提供的垃圾郵件判斷方法實施例一包括 步驟201、讀取分類未知郵件信息的內(nèi)容
對于需要判定的未知郵件,讀取其郵件信息以便于對下一步的格式解析。
步驟202、對所述郵件信息內(nèi)容進行格式解析
這里的格式解析是指將按照該信息協(xié)議進行解析,把該信息表示成能夠識別的信息文本 內(nèi)容,如對郵件利用因特網(wǎng)郵件擴展協(xié)議格式(MIME)形成郵件格式樹等。
步驟203、將解析后的郵件信息內(nèi)容使用預(yù)置行為特征提取算法得到抗原
這里所使用的預(yù)置行為提取算法是指將垃圾內(nèi)容(包括郵件頭和郵件體)進行特征提?。?具有某特征記為1,反之記為0,所以郵件可記為每一項寫了 0或1的定長數(shù)組形式。
步驟204、讀取所述的郵件信息特征行為特征提取算法及概率算法得到的抗體庫和分數(shù)
集
將讀入抗體庫中的抗體集形成數(shù)個抗體的形式,并將所述分數(shù)集按照對應(yīng)特征匹配。 步驟205、對所述抗原使用預(yù)置識別算法進行計算
計算抗體和抗原每一位特征的相似度,且累加該相似的特征的分數(shù),最后可以得到該郵 件的總相似度和總分數(shù)。
步驟206、根據(jù)計算結(jié)果對所述郵件進行判斷
判斷總相似度和總分數(shù)是否大于特定閾值,從而識別郵件類型。如果得到的信息的總相 似度和總分數(shù)大于規(guī)定的閾值,則判斷該信息為垃圾信息,反之為非垃圾信息。這里的閾值 為用戶自定義,可以根據(jù)不斷的實驗結(jié)果得出。
如圖3所示,本發(fā)明提供的垃圾郵件特征庫更新方法實施例一包括: 步驟301、讀取已被識別的垃圾郵件的行為特征信息讀取已被識別為垃圾郵件的抗原信息和識別該抗原的抗體的信息。 步驟302、判斷識別出所述垃圾郵件的抗體的相似度
判斷識別出該抗原時相似度的大小是否等于最大相似度,若等于則不需要克隆變異,若 不相等則進入克隆變異。
步驟303、釆用所述的抗體使用預(yù)置克隆變異算法進行抗體的克隆和變異 對識別出該抗原的抗體進行克隆算法和變異算法,生成新的抗體。 步驟304、所述抗原與變異生產(chǎn)的新抗體使用預(yù)置識別算法進行計算
將所述抗原和新的抗體進行識別計算,計算每一位特征的相似度,且累加該相似的特征 的分數(shù),最后可以得到該郵件的總相似度和總分數(shù)。 步驟305、根據(jù)判斷計算結(jié)果,對郵件抗體庫更新
如果總相似度大于原抗體識別時的相似度,則新抗體替換原抗體,實現(xiàn)抗體的更新。
如圖4所示,本發(fā)明提供郵件行為特征庫生成裝置實施例一包括 郵件信息讀取單元401,用于讀取分類己知郵件的信息內(nèi)容
分類已知郵件信息既要有正常郵件信息也要有垃圾郵件信息,從而可以保證郵件信息特 征庫的全面性,因而能夠保證郵件信息行為特征的準確性。
特征提取單元402,用于從所述郵件內(nèi)容中提取符合預(yù)置條件的行為特征
這些特征應(yīng)該是具有代表性的郵件頭和郵件體中出現(xiàn)的行為特征。盡可能的總結(jié)統(tǒng)計到 垃圾郵件會表現(xiàn)出的行為特征,如郵件頭中的容易偽造的字段、DNS解析的字段、郵件書 寫不規(guī)范的字段、路由信息中偽造的字段;郵件體中帶有的"www"或"http:〃"、以及"@" 等。具有某特征記為l,反之記為0,所以郵件可記為每一項寫了0或1的定長數(shù)組形式。
抗體庫生成單元403,用于將所述行為特征進行概率分析得到最終的抗體集合
根據(jù)已知郵件的不同,將郵件提取行為特征生產(chǎn)抗體,分別存入垃圾郵件抗體庫和正常 郵件抗體庫。
特征分數(shù)生成單元404,用于將所述特征概率進行計算得到最終的分數(shù)集合
本發(fā)明提供了一種計算分數(shù)方法。當垃圾郵件集與正常郵件集數(shù)量相等時,累加每一項
特征在垃圾郵件集合中出現(xiàn)的次數(shù),同時累加每一項特征在正常郵件集合中出現(xiàn)的次數(shù),求
出兩次數(shù)相減的絕對值。則體現(xiàn)出每種特征在區(qū)分垃圾郵件和正常郵件中起到的作用大小,將每一個特征所求到的值看做一個分數(shù),合起來保存成一個分數(shù)集。
從上可以看出,由于這些抗體可以動態(tài)的調(diào)整和修改,同時垃圾郵件過濾器利用了統(tǒng)計 原理,可以自動地"學習"接收信息的特點,來調(diào)整垃圾信息的分值。這使得該過濾能根據(jù) 不同階段的垃圾郵件行為特征趨勢的不斷變化來更新。
如圖5所示,本發(fā)明提供垃圾郵件判斷裝置實施例一包括 郵件信息讀取單元501,用于讀取分類未知郵件信息內(nèi)容 讀取未知屬性郵件的內(nèi)容,為內(nèi)容解析做準備。 信息內(nèi)容解析單元502,用于解析分類未知郵件信息內(nèi)容
對所述郵件內(nèi)容進行格式解析,這里的格式解析是指將按照該信息協(xié)議進行解析,把該
信息表示成能夠識別的信息文本內(nèi)容,如對郵件利用因特網(wǎng)郵件擴展協(xié)議格式(MIME)形成 郵件格式樹等。
特征提取單元503,用于從所述郵件內(nèi)容中提取符合預(yù)置條件的行為特征
這里所使用的預(yù)置行為提取算法是指將垃圾內(nèi)容(包括郵件頭和郵件體)進行行為特征 提取。具有某特征記為l,反之記為0,所以郵件可記為每一項寫了0或1的定長數(shù)組形式。
抗體庫與分數(shù)集讀取單元504,用于讀取抗體庫與對應(yīng)分數(shù)集內(nèi)容 將讀入抗體庫中的抗體集形成數(shù)個抗體的形式,并將所述分數(shù)集按照對應(yīng)特征匹配。 計算單元505,用于以所述行為特征、抗體庫和分數(shù)集作為輸入,采用預(yù)置識別算法進 行計算
應(yīng)用識別算法,比較抗體數(shù)組與抗原數(shù)組之間,每一位的數(shù)組是否相等(相似),計算抗 體和抗原每一位特征的相似度,且累加該相似的特征的分數(shù),最后可以得到該郵件的總相似 度和總分數(shù)。
判斷單元506,用于根據(jù)所述計算單元的計算結(jié)果對所述分類未知郵件信息類型進行判
斷
判斷總相似度和總分數(shù)是否大于特定閾值,從而識別郵件類型。如果得到的信息的總相 似度和總分數(shù)大于規(guī)定的閾值,則判斷該信息為垃圾信息,反之為非垃圾信息。這里的閾值 為用戶自定義,可以根據(jù)不斷的實驗結(jié)果得出。
從上可以看出,由于我們在進行匹配的時候預(yù)先將郵件提取成數(shù)組形式,同時分數(shù)集記
11為數(shù)組的形式,且由于總行為特征數(shù)量一定,所以在應(yīng)用過程中,匹配判斷的速度將不會很 慢,滿足實際的需要。
如圖6所示,本發(fā)明提供垃圾郵件特征庫更新裝置實施例一包括 垃圾郵件信息讀取單元601,用于讀取已被識別的垃圾郵件的行為特征信息 讀取已被識別的垃圾郵件的行為特征信息以及識別出該垃圾郵件的抗體信息。 相似度判斷單元602,用于判斷識別出所述垃圾郵件的抗體的相似度,判斷是否克隆變
異
判斷識別出所述垃圾郵件時抗體計算的相似度,判斷其是否等于最大相似度。如果相等,
則不需要進入后續(xù)模塊操作;如果不相等,則進入克隆變異模塊。
克隆變異單元603,用于所述的抗體進行抗體的克隆和變異,產(chǎn)生新的抗體
采用所述的抗體使用預(yù)置克隆變異算法??寺≈笇⒖贵w復(fù)制成若干個(其復(fù)制的多少與 相似度成反比,即相似度越高復(fù)制數(shù)越少);對每個被復(fù)制體進行變異,即數(shù)組a中某一位從 0變?yōu)?、或從1變?yōu)?;為了模擬出生物免疫的隨機性和全面性,變異的位是隨機決定的。
計算單元604,用于對所述抗原與變異生產(chǎn)的新抗體使用預(yù)置識別算法進行計算
所述抗原分別與變異后的新的抗體們使用識別算法計算相似度。
判斷更新單元605,用于根據(jù)所述計算單元的計算結(jié)果,判斷更新抗體庫
如果有相似度大于原抗體識別時的相似度,則新抗體替換原抗體,實現(xiàn)抗體的更新。
從上可以看出,由于我們采用了克隆變異的方法,在識別郵件之后對抗體庫實行了相應(yīng) 的更新,更能適應(yīng)一定時期內(nèi)垃圾郵件行為特征變化趨勢。
進一步,本發(fā)明提供了網(wǎng)絡(luò)信息類型判斷系統(tǒng)的實施例一,如圖7所示,包括 郵件行為特征庫生成裝置701,用于生成郵件的特征庫和分數(shù)集
包括讀取分類己知郵件的信息內(nèi)容;從所述郵件內(nèi)容中提取符合預(yù)置條件的行為特征; 將所述行為特征進行概率分析得到最終的抗體集合;將所述特征概率進行計算得到最終的分 數(shù)集合。
垃圾郵件判斷裝置702,用于垃圾郵件自動識別
包括讀取分類未知郵件信息內(nèi)容;解析分類未知郵件信息內(nèi)容;從所述郵件內(nèi)容中提取符合預(yù)置條件的行為特征;讀取抗體庫與對應(yīng)分數(shù)集內(nèi)容;以所述行為特征、抗體庫和分數(shù) 集作為輸入,采用預(yù)置識別算法進行計算;根據(jù)所述計算單元的計算結(jié)果對所述分類未知郵 件信息類型進行判斷。
垃圾郵件特征庫更新裝置703,用于及時更新垃圾郵件特征庫
包括讀取已被識別的垃圾郵件的行為特征信息;判斷識別出所述垃圾郵件的抗體的相似 度,判斷是否克隆變異;所述的抗體進行抗體的克隆和變異,生產(chǎn)新的抗體;對所述抗原與 變異生產(chǎn)的新抗體使用預(yù)置識別算法進行計算;根據(jù)所述計算單元的計算結(jié)果,判斷更新抗 體庫。
以上對本發(fā)明實施例所提供的郵件行為特征庫生成方法及裝置、垃圾郵件判斷方法、裝 置及系統(tǒng)、垃圾郵件特征庫更新方法及裝置進行了詳細介紹,以上實施例的說明只是用于幫 助理解本發(fā)明的方法及其思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在
具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明 的限制。
權(quán)利要求
1、一種郵件行為特征庫生成方法,其特征在于,包括讀取分類已知郵件信息的內(nèi)容;將所述郵件信息內(nèi)容使用預(yù)置行為特征提取算法得到抗體集合;采用所述的抗體集合使用預(yù)置分析算法進行概率分析得到最終抗體庫;將所述抗體庫使用預(yù)置分析算法進行分數(shù)計算得到最終分數(shù)集。
2、 如權(quán)利要求l所述的郵件行為特征庫生成方法,其特征在于,所述預(yù)置行為特征提 取算法包括首先,將垃圾內(nèi)容(包括郵件頭和郵件體)進行特征提取;針對郵件可能出 現(xiàn)的行為特征進行提取,將郵件頭中的容易偽造的字段、DNS解析的字段、郵件書寫不規(guī)范 的字段、路由信息中偽造的字段;郵件體中帶有的或"http:〃"、以及"@"等字 段。具有某特征記為l,反之記為0,所以郵件可記為每一項寫了0或1的定長數(shù)組形式。 將所述可識別郵件提取出的特征信息分別生成垃圾郵件抗體集和正常郵件抗體集。其次, 使用垃圾郵件抗體集和正常郵件抗體集,通過分析計算生成有效的識別垃圾郵件的抗體庫。 將所述可識別郵件提取出的特征信息分別生成垃圾郵件抗體集和正常郵件抗體集。根據(jù)已 知郵件的不同,將郵件提取行為特征生產(chǎn)抗體,分別存入垃圾郵件抗體庫和正常郵件抗體 庫。郵件識別時,使用的抗體庫為垃圾郵件抗體庫。然后,進一步提供了一種計算分數(shù)方 法。讀入垃圾郵件抗體集和正常郵件抗體集;計算所述各個特征項的分數(shù)并得到最終的分 數(shù)集合。當垃圾郵件集與正常郵件集數(shù)量相等時,累加每一項特征在垃圾郵件集合中出現(xiàn) 的次數(shù),同時累加每一項特征在正常郵件集合中出現(xiàn)的次數(shù),求出兩次數(shù)相減的絕對值。 則體現(xiàn)出每種特征在區(qū)分垃圾郵件和正常郵件中起到的作用大小,將每一個特征所求到的 值看做一個分數(shù),合起來保存成一個分數(shù)集。
3、 一種垃圾郵件判斷方法,其特征在于,包括讀取分類未知郵件信息的內(nèi)容;對所 述郵件信息內(nèi)容進行格式解析;將解析后的郵件信息內(nèi)容使用預(yù)置行為特征提取算法得到 抗原;讀取所述的郵件信息特征行為特征提取算法及概率算法得到的抗體庫和分數(shù)集;對 所述抗原使用預(yù)置識別算法進行計算;根據(jù)計算結(jié)果對所述郵件進行判斷。
4、 如權(quán)利要求3所述的垃圾郵件判斷方法,其特征在于,包括這里所使用的預(yù)置行 為提取算法是指將垃圾內(nèi)容(包括郵件頭和郵件體)進行特征提?。痪哂心程卣饔洖?,反 之記為0,所以郵件可記為每一項寫了 0或1的定長數(shù)組形式。使用人工免疫中的免疫識別 原理進行未分類郵件的識別。將讀入抗體庫中的抗體集形成數(shù)個抗體的形式,并將所述分 數(shù)集按照對應(yīng)特征匹配;比較抗體數(shù)組與抗原數(shù)組之間,每一位的數(shù)組是否相等(相似), 計算抗體和抗原每一位特征的相似度,且累加該相似的特征的分數(shù),最后可以得到該郵件的總相似度和總分數(shù)。判斷總相似度和總分數(shù)是否大于特定閾值,從而識別郵件類型。如 果得到的信息的總相似度和總分數(shù)大于規(guī)定的閾值,則判斷該信息為垃圾信息,反之為非 垃圾信息。這里的閾值為用戶自定義,可以根據(jù)不斷的實驗結(jié)果得出。
5、 垃圾郵件特征庫更新方法,其特征在于,包括讀取已被識別的垃圾郵件的行為特 征信息;判斷識別出所述垃圾郵件的抗體的相似度;采用所述的抗體使用預(yù)置克隆變異算 法進行抗體的克隆和變異;所述抗原與變異生產(chǎn)的新抗體使用預(yù)置識別算法進行計算;根 據(jù)判斷計算結(jié)果,對郵件抗體庫更新。
6、 如權(quán)利要求5所述的垃圾郵件判斷方法,其特征在于,所述的預(yù)置克隆變異算法包 括讀取己被識別為垃圾郵件的抗原信息和識別該抗原的抗體的信息;判斷識別出所述垃 圾郵件時抗體計算的相似度,判斷其是否等于最大相似度,如果等于,則不需要進入后續(xù) 模塊操作;如果不相等,則進入克隆變異模塊;采用所述的抗體使用預(yù)置克隆變異算法。 克隆指的是抗體的復(fù)制成若干個(其復(fù)制的多少與相似度成反比,即相似度越高復(fù)制數(shù)越 少);對每個被復(fù)制體進行變異,即數(shù)組a其中某一位從O變?yōu)?、或從1變?yōu)?;為了模 擬出生物免疫的隨機性和全面性,變異的位是隨機決定的;所述抗原分別與變異后的新的 抗體們使甩識別算法計算相似度。如果有相似度大于原抗體識別時的相似度,則新抗體替 換原抗體,實現(xiàn)抗體的更新。
7、 一種郵件行為特征庫生成裝置,其特征在于,包括郵件信息讀取單元,用于讀取 分類已知郵件的信息內(nèi)容;特征提取單元,用于從所述郵件內(nèi)容中提取符合預(yù)置條件的行 為特征;抗體庫生成單元,用于將所述行為特征進行概率分析得到最終的抗體集合;特征 分數(shù)生成單元,用于將所述特征概率進行計算得到最終的分數(shù)集合。
8、 一種垃圾郵件判斷裝置,其特征在于,包括郵件信息讀取單元,用于讀取分類未 知郵件信息內(nèi)容;信息內(nèi)容解析單元,用于解析分類未知郵件信息內(nèi)容;特征提取單元, 用于從所述郵件內(nèi)容中提取符合預(yù)置條件的行為特征;抗體庫與分數(shù)集讀取單元,用于讀 取抗體庫與對應(yīng)分數(shù)集內(nèi)容;計算單元,用于以所述行為特征、抗體庫和分數(shù)集作為輸入,采用預(yù)置識別算法進行計算;判斷單元,用于根據(jù)所述計算單元的計算結(jié)果對所述分類未 知郵件信息類型進行判斷。
9、 一種垃圾郵件特征庫更新裝置,其特征在于,包括垃圾郵件信息讀取單元,用于 讀取已被識別的垃圾郵件的行為特征信息;相似度判斷單元,用于判斷識別出所述垃圾郵 件的抗體的相似度,判斷是否克隆變異;克隆變異單元,用于所述的抗體進行抗體的克隆和變異,生產(chǎn)新的抗體;計算單元,用于對所述抗原與變異生產(chǎn)的新抗體使用預(yù)置識別算 法進行計算;判斷更新單元,用于根據(jù)所述計算單元的計算結(jié)果,判斷更新抗體庫。
10、 一種垃圾郵件判斷系統(tǒng),其特征在于,包括1.郵件行為特征庫生成裝置,用于 讀取分類己知郵件的信息內(nèi)容;從所述郵件內(nèi)容中提取符合預(yù)置條件的行為特征;將所述 行為特征進行概率分析得到最終的抗體集合;將所述特征概率進行計算得到最終的分數(shù)集 合。2.垃圾郵件判斷裝置,用于讀取分類未知郵件信息內(nèi)容;解析分類未知郵件信息內(nèi)容; 從所述郵件內(nèi)容中提取符合預(yù)置條件的行為特征;讀取抗體庫與對應(yīng)分數(shù)集內(nèi)容;以所述 行為特征、抗體庫和分數(shù)集作為輸入,采用預(yù)置識別算法進行計算;根據(jù)所述計算單元的 計算結(jié)果對所述分類未知郵件信息類型進行判斷。3.垃圾郵件特征庫更新裝置,用于讀取已被識別的垃圾郵件的行為特征信息;判斷識別出所述垃圾郵件的抗體的相似度,判斷是 否克隆變異;所述的抗體進行抗體的克隆和變異,生產(chǎn)新的抗體;對所述抗原與變異生產(chǎn) 的新抗體使用預(yù)置識別算法進行計算;根據(jù)所述計算單元的計算結(jié)果,判斷更新抗體庫。
全文摘要
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),公開了一種郵件行為特征庫生成方法及裝置、垃圾郵件判斷方法、裝置及系統(tǒng)、垃圾郵件特征庫更新方法及裝置。從本發(fā)明實施例提供的以上技術(shù)方案可以看出,本發(fā)明實施例采用分類已知的郵件的行為特征庫生成方法,并使用生成的特征對分類未知的郵件進行判斷。在識別未分類郵件時,除了計算未知郵件與抗體庫中已知垃圾郵件的行為特征相似度外,還設(shè)置分數(shù)集。通過計算總分數(shù),查看未知郵件其行為特征趨近于垃圾郵件的程度。通過雙重標準可以更準確的識別垃圾郵件。在數(shù)據(jù)庫更新時,用已經(jīng)識別垃圾郵件,通過克隆變異算法實現(xiàn)抗體庫的更新,更能適應(yīng)一定時期內(nèi)垃圾郵件行為特征變化趨勢和垃圾郵件變化趨勢。
文檔編號H04L12/58GK101594312SQ20081004448
公開日2009年12月2日 申請日期2008年5月30日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者何興高, 文思群, 曾志華, 程紅蓉, 婷 鐘, 佳 陳 申請人:電子科技大學