国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置的制作方法

      文檔序號:6610887閱讀:308來源:國知局
      專利名稱:郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),具體涉及郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置。
      背景技術(shù)
      電子郵件作為互聯(lián)網(wǎng)的第一大應(yīng)用,一直受到廣大網(wǎng)民的青睞。但是,近些年來,垃圾郵件問題日益嚴(yán)重。垃圾郵件的基本特征是“不請自來”,而且大部分垃圾郵件都帶有商業(yè)或者其他宣傳目的。同時,垃圾郵件的判定和郵件的接收者有很大關(guān)系,不同用戶對同一郵件的判斷結(jié)果可能會存在差異。隨著技術(shù)的進(jìn)步,垃圾郵件的過濾技術(shù)正由單一基于靜態(tài)規(guī)則和統(tǒng)計分類向著基于行為的過濾技術(shù)方向轉(zhuǎn)變。
      現(xiàn)有的主流的垃圾郵件過濾方法都是基于郵件內(nèi)容的,一種垃圾郵件的過濾方法是基于學(xué)習(xí)矢量量化(Learning Vector Quantization,LVQ)的,LVQ是一種由芬蘭學(xué)者提出的有監(jiān)督神經(jīng)網(wǎng)絡(luò),是一種在監(jiān)督狀態(tài)下對競爭層進(jìn)行訓(xùn)練的一種學(xué)習(xí)方法,通過學(xué)習(xí),LVQ將輸入向量中與目標(biāo)向量相近的分離出來。LVQ是一種根據(jù)樣本模式的特性進(jìn)行“獎/懲”的迭代學(xué)習(xí)算法。
      其基本思想是先要設(shè)置一個訓(xùn)練集,訓(xùn)練集的數(shù)據(jù)是由分類已知郵件的郵件體部分向量化后得到的,對于來自訓(xùn)練集中的矢量,如果與最近神經(jīng)元屬同一類,則無需學(xué)習(xí),具體過程是這樣的將來自訓(xùn)練集中的向量作為輸入,采用LVQ算法進(jìn)行計算,如果計算結(jié)果符合預(yù)置的要求,則說明與最近神經(jīng)元屬同一類,則不用對算法的參數(shù)進(jìn)行修改。否則將懲罰分類錯誤的神經(jīng)元,獎勵分類正確的神經(jīng)元,如果計算結(jié)果不符合預(yù)置的規(guī)定,則需要對LVQ算法中的參數(shù)進(jìn)行修改,神經(jīng)網(wǎng)絡(luò)是由多個神經(jīng)元構(gòu)成的,對于計算結(jié)果正確的神經(jīng)元,則可以對其進(jìn)行獎勵,采用與獎勵對應(yīng)的迭代公式進(jìn)行迭代;如果計算結(jié)果錯誤,則對其進(jìn)行懲罰,采用與懲罰對應(yīng)的迭代公式進(jìn)行迭代。經(jīng)若干次迭代,所得矢量集合不再有明顯變化,即計算結(jié)果都符合預(yù)置要求,說明對這個訓(xùn)練集的訓(xùn)練完成。
      在對郵件進(jìn)行過濾時,對郵件內(nèi)容進(jìn)行分詞,計算每個詞的詞頻,然后以每個詞的詞頻作為輸入值,使用訓(xùn)練得到的參數(shù),采用LVQ算法進(jìn)行計算,對計算得到的值進(jìn)行判斷,如果值與1相近則該郵件為垃圾郵件,反之如果與0接近則該郵件為非垃圾郵件,從而完成對垃圾郵件的過濾。
      在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下缺陷郵件體內(nèi)容多,且變化多,將會導(dǎo)致訓(xùn)練慢且訓(xùn)練集不完整等問題,可能導(dǎo)致過濾得準(zhǔn)確率不高;并且,由于郵件體的內(nèi)容及格式都是不定的,可能會造成郵件判斷速度慢;進(jìn)一步,非中文郵件等郵件的郵件體會被表示成零向量,從而認(rèn)為該郵件為正常郵件,因而當(dāng)垃圾郵件也被表示成零向量時,無法對其進(jìn)行過濾,進(jìn)一步降低了過濾的正確率。

      發(fā)明內(nèi)容
      本發(fā)明實施例提供郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置,提高對郵件的郵件類型判斷的速度。
      本發(fā)明實施例的目的是通過以下技術(shù)方案實現(xiàn)的本發(fā)明實施例提供了一種郵件類型判斷方法,包括讀取分類未知郵件的郵件頭;從所述郵件頭提取符合預(yù)置條件一的字段一;將所述字段一與其表現(xiàn)形式組合向量化,得到預(yù)置數(shù)量一的特征向量一;以所述特征向量一為輸入,采用預(yù)先建立的行為模型保存的數(shù)據(jù),使用預(yù)置預(yù)測算法進(jìn)行計算,得到計算結(jié)果;根據(jù)所述計算結(jié)果對所述分類未知郵件的郵件類型進(jìn)行判斷。
      本發(fā)明實施例還提供了一種行為模型建立裝置,包括郵件頭讀取單元,用于讀取分類已知郵件的郵件頭;
      字段提取單元,用于從所述郵件頭提取符合預(yù)置條件的字段;向量化單元,用于將所述字段向量化得到預(yù)置數(shù)量的特征向量;行為模型建立單元,用于將所述特征向量按預(yù)置學(xué)習(xí)算法建立行為模型。
      與方法實施例對應(yīng)的,本發(fā)明實施例還提供了一種郵件類型判斷裝置,包括郵件頭讀取單元,用于讀取分類未知郵件的郵件頭;字段一提取單元,用于從所述郵件頭提取符合預(yù)置條件一的字段一;第一向量化單元,用于將所述字段一向量化得到預(yù)置數(shù)量一的特征向量一;計算單元,用于以所述特征向量一作為輸入,采用預(yù)先建立的行為模型保存的數(shù)據(jù),使用預(yù)置預(yù)測算法進(jìn)行計算,得到計算結(jié)果;判斷單元,用于根據(jù)所述計算結(jié)果對所述分類未知郵件的郵件類型進(jìn)行判斷。
      相應(yīng)的,本發(fā)明實施例還提供了一種郵件類型判斷系統(tǒng),包括行為模型建立裝置,用于建立用于郵件類型判斷的行為模型,所述行為模型的建立是通過讀取分類已知郵件的郵件頭,從所述分類已知郵件的郵件頭中提取符合預(yù)置條件的字段,將所述字段向量化后得到的預(yù)置數(shù)量的特征向量,按照預(yù)置的學(xué)習(xí)算法建立的;郵件類型判斷裝置,用于讀取分類未知郵件的郵件頭,從所述分類未知郵件的郵件頭提取符合所述預(yù)置條件的字段,將所述字段向量化得到所述預(yù)置數(shù)量的特征向量,以所述特征向量作為輸入,采用所述行為模型保存的數(shù)據(jù)使用預(yù)置預(yù)測算法進(jìn)行計算,根據(jù)計算結(jié)果對郵件類型進(jìn)行判斷。
      從本發(fā)明實施例提供的以上技術(shù)方案可以看出,本發(fā)明實施例采用分類已知郵件的郵件頭建立行為模型,并且使用該行為模型對分類未知郵件的郵件類型進(jìn)行判斷,由于是將郵件頭中特定字段向量化,而郵件頭需要符合SMTP協(xié)議,所以在郵件類型判斷時,需要判斷的字段都是預(yù)先設(shè)定的,對郵件類型進(jìn)行判斷時,判斷速度較快;進(jìn)一步,因為是采用郵件頭建立的行為模型,因而不管郵件體是采用哪種語言,都可以采用該行為模型進(jìn)行判斷。


      圖1為本發(fā)明實施例中行為模型建立裝置實施例一的結(jié)構(gòu)圖;圖2為本發(fā)明實施例中郵件類型判斷方法實施例一的流程圖;圖3為本發(fā)明實施例中郵件類型判斷方法實施例三的流程圖;圖4為本發(fā)明實施例中郵件類型判斷裝置實施例一的結(jié)構(gòu)圖;圖5為本發(fā)明實施例中郵件類型判斷裝置實施例二的結(jié)構(gòu)圖;圖6為本發(fā)明實施例中郵件類型判斷系統(tǒng)實施例一的結(jié)構(gòu)圖。
      具體實施例方式
      為使本發(fā)明的目的、技術(shù)方案、及優(yōu)點更加清楚明白,以下參照附圖并舉實施例,對本發(fā)明進(jìn)一步詳細(xì)說明。
      如圖1所示,本發(fā)明提供的行為模型建立裝置實施例一包括郵件頭讀取單元101,用于讀取分類已知郵件的郵件頭;先介紹郵件頭,郵件頭是在郵件傳遞過程中,按照簡單郵件傳輸協(xié)議(SMTPSimple Message Transfer Protocol)由郵件服務(wù)器之間傳輸?shù)囊恍┬帕罱换ィ话闱闆r下,這些內(nèi)容對郵件撰寫者和郵件接收者是不可見的;因為是按照SMTP協(xié)議傳輸,因而為了保證郵件的正常傳遞,郵件頭部分的內(nèi)容是格式化的,并且其中的一些字段也是按照SMTP協(xié)議要求預(yù)先設(shè)置好的;分類已知郵件是指郵件的分類是已知的,也就是該郵件是正常郵件還是垃圾郵件是已經(jīng)確定的;字段提取單元102,用于從郵件頭提取符合預(yù)置條件的字段;郵件頭都是符合SMTP協(xié)議要求的,因而一些字段是在每一個郵件的郵件頭中都有的,按照SMTP協(xié)議,在郵件頭中如下一些字段是容易被偽造的來自域字段(From field)、接收域字段(To field)、應(yīng)答地址域字段(Reply-Tofield)、傳輸域字段(Delivered-To field)、回復(fù)路徑域字段(Return-Path field)、接收地址域字段(Received field)和時間域字段(Date field);其中From Field包括發(fā)送人郵件地址,To Field包括接收人郵件地址,Reply-To Field包括答復(fù)郵件地址(即讓收件人應(yīng)答的郵件地址),Return-Path Field包括由郵件轉(zhuǎn)發(fā)過程中由最后一個服務(wù)器添加的最終發(fā)信人的郵件地址;因為這些字段容易被偽造,所以在對郵件分類的時候使用的預(yù)置條件就可以全部或部分選取這些字段,當(dāng)然也不僅限于這些字段;向量化單元103,用于將字段向量化得到預(yù)置數(shù)量的特征向量;在提取了符合預(yù)置條件的字段后,根據(jù)每個字段不同情況組合得到若干種組合,例如,對于一封郵件,如果其某些字段滿足某個組合,則這個組合的值就為1,否則為0;這樣每封郵件都得到一系列的值,這一系列的值就是特征向量值,這個計算過程為向量化的過程;例如,在郵件頭中的前述字段可能會出現(xiàn)如下情況,即表現(xiàn)形式1)沒有這個字段;2)有這個字段,但是該字段的值為空;3)發(fā)送人郵件地址的用戶名為空,比如@zhangsan.com;4)發(fā)送人郵件地址的域名為空;5)發(fā)送人郵件地址的格式不正確,比如包含“*”,等非法字符;6)根據(jù)其郵件地址域名查不到其DNS記錄;7)發(fā)送人郵件地址中包含有兩個@符號;8)發(fā)送人郵件地址中沒有@符號;9)發(fā)送人郵件地址中只有@符號,而沒有用戶名和域名;10)Date里面的數(shù)據(jù)值過老;11)Received個數(shù)太多,也就是經(jīng)過的路由太多;這樣就有11種情況,再對應(yīng)7個字段,這樣就可以組合成77種特征,因而可以將這些字段向量化可以得到77個特征向量,但是,在實際應(yīng)用中,有的字段并不會出現(xiàn)上述的全部11種情況,例如Date Field只能對應(yīng)上面的1)、2)和10)這三種情況;并且,對有的字段進(jìn)行組合判斷的效果更好;因而77種的效果不一定是最好,可以根據(jù)具體的情況確定應(yīng)該選取多少種;行為模型建立單元104,用于將特征向量按預(yù)置學(xué)習(xí)算法建立行為模型;
      在得到了字段向量化的特征向量后,就可以將這些特征向量組成一個特征向量組作為輸入,采用預(yù)置的學(xué)習(xí)算法進(jìn)行計算,從而得到參數(shù),將這些參數(shù)保存在行為模型中,行為模型可見的是一個文件,保存了在郵件類型判斷過程中需要用到的參數(shù),這些參數(shù)是與預(yù)置算法相關(guān)的,使用預(yù)置預(yù)測算法對郵件類型進(jìn)行判斷時就會調(diào)用這些參數(shù);這些參數(shù)是在建立該行為模型時保存的,即在使用預(yù)置學(xué)習(xí)算法學(xué)習(xí)的過程中計算得到的,隨著學(xué)習(xí)過程中的輸入數(shù)據(jù)不斷的改變,這些參數(shù)也是不斷的改變的,隨著學(xué)習(xí)樣本的不斷完善,輸入數(shù)據(jù)的不斷合理化,這些參數(shù)的準(zhǔn)確性及有效性會不斷的提高,因而相應(yīng)的提高預(yù)置預(yù)測算法計算的準(zhǔn)確率。
      從上可知,采用本發(fā)明實施例提供的行為模型的建立裝置,可以采用郵件頭的信息建立起進(jìn)行郵件類型判斷時需要的行為模型,由于郵件頭需要符合SMTP協(xié)議,不會出現(xiàn)建立行為模型是訓(xùn)練慢或訓(xùn)練集不完整等問題;進(jìn)一步,在郵件類型判斷時,需要判斷的字段都是可以預(yù)先設(shè)定的,因而對郵件類型進(jìn)行判斷時,速度較快;進(jìn)一步,因為是采用郵件頭建立行為模型,因而不管郵件體是采用哪種語言,都可以采用該行為模型進(jìn)行判斷。
      本發(fā)明進(jìn)一步提供了一種采用支持向量機(SVMSupport VectorMachine)建立行為模型的實施例,先介紹一下SVM,SVM是一種基于數(shù)據(jù)的機器學(xué)習(xí)方法,是建立在統(tǒng)計學(xué)習(xí)理論的VC維(Vapnik-ChervonenkisDimension)理論和結(jié)構(gòu)風(fēng)險最小原理(Structural Risk Minimization InductivePrinciple)基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(Generalization Ability),主要有如下優(yōu)點首先,它是專門針對有限樣本情況的,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無窮大時的最優(yōu)值;其次,算法最終將轉(zhuǎn)化成為一個二次型尋優(yōu)問題,從理論上說,得到的將是全局最優(yōu)點,解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題;再次,算法將實際問題通過非線性變換轉(zhuǎn)換到高維的特征空間(Feature Space),在高維空間中構(gòu)造線性判別函數(shù)來實現(xiàn)原空間中的非線性判別函數(shù),特殊性質(zhì)能保證機器有較好的推廣能力,同時它巧妙地解決了維數(shù)問題,其算法復(fù)雜度與樣本維數(shù)無關(guān);在SVM方法中,只要定義不同的內(nèi)積函數(shù),就可以實現(xiàn)多項式逼近、貝葉斯分類器、徑向基函數(shù)(Radial Basic Function或RBF)方法、多層感知器網(wǎng)絡(luò)等許多現(xiàn)有學(xué)習(xí)算法,能較好地解決小樣本、非線性、高維數(shù)和局部極小點等實際問題。
      在采用SVM建立行為模型的本實施例中,采用實施例一中描述的7個字段,因為From field、To field、Reply-To field、Delivered-To field和Return-Pathfield的表示格式相同,在此我們可以將這5個字段兩兩結(jié)合成十種組合;加上上述的7個字段就是17個組合,再與實施例一中描述的11種情況結(jié)合就可以提取若干種特征;當(dāng)然在實際應(yīng)用中可能不止有上述的11種情況,同時也可以根據(jù)具體應(yīng)用情況選取不同的特征數(shù)量。在本實例中,經(jīng)過不斷的測試,選取的特征數(shù)量為106。
      這樣在建立行為模型時,從郵件頭中提取出上述的7個字段,組成17種組合,然后與11種情況結(jié)合就可以將郵件頭拆分成106種特征向量;然后就可以使用拆分成的106種特征向量采用SVM學(xué)習(xí)算法建立行為模型。
      如圖2所示,本發(fā)明提供的郵件類型判斷的實施例一包括步驟201、讀取分類未知郵件的郵件頭;步驟202、從郵件頭提取符合預(yù)置條件一的字段一;字段一可以是From field、To field、Reply-To field、Delivered-To field、Return-Path field、Received field和Date field中任一及其組合,當(dāng)然也可以不限于這些字段,而為了能夠準(zhǔn)確的識別出分類未知郵件的郵件類型,需要對提取的字段一設(shè)置預(yù)置條件一,即要與建立行為模型時所提取的字段相同;步驟203、將字段一與其表現(xiàn)形式組合向量化,得到預(yù)置數(shù)量一的特征向量一;向量化的過程與建立行為模型時一樣,當(dāng)然得到的特征向量的數(shù)量也與建立行為模型時一樣,從而能夠與行為模型對應(yīng),保證判斷的正確率;步驟204、以特征向量一為輸入,采用預(yù)先建立的行為模型保存的數(shù)據(jù),使用預(yù)置預(yù)測算法進(jìn)行計算,得到計算結(jié)果;在得到郵件頭向量化后得到的向量后,將這些特征向量組成一個特征向量組作為輸入,采用預(yù)置的預(yù)測算法計算得到計算結(jié)果,其中預(yù)測算法的參數(shù)是采用行為模型中的參數(shù),因為行為模型是經(jīng)過不斷的訓(xùn)練得出的,并且其中的參數(shù)是隨著訓(xùn)練不斷的優(yōu)化,因而采用這些參數(shù)可以正確的進(jìn)行計算;進(jìn)一步,使行為模型中經(jīng)過優(yōu)化的特征向量組的各個特征向量值參與預(yù)測算法運算,從而使計算結(jié)果更為準(zhǔn)確;其中預(yù)置的預(yù)測算法要與建立行為模型時采用的學(xué)習(xí)算法對應(yīng),例如建立行為模型時采用的是SVM學(xué)習(xí)算法,那么該預(yù)測算法可以采用SVM預(yù)測算法;當(dāng)建立行為模型時采用基于徑向基函數(shù)(RBFRadial Basis Function)學(xué)習(xí)算法,相應(yīng)的,該預(yù)測算法也可以采用RBF預(yù)測算法;當(dāng)然,在實際應(yīng)用中,學(xué)習(xí)算法和預(yù)測算法并不一定需要對應(yīng),例如采用SVM學(xué)習(xí)算法建立了行為模型,在實際應(yīng)用中如果有一種預(yù)測算法的計算效果比SVM預(yù)測算法的效果更好,就可以在判斷時采用這種預(yù)測算法;以只將郵件分為垃圾郵件和非垃圾郵件這兩個類型為例,以SVM預(yù)測算法進(jìn)行計算的主要過程是這樣的因為只有兩個類型,所以將數(shù)據(jù)分為兩類,數(shù)據(jù)所屬的類標(biāo)號被重新標(biāo)記為1或0,針對這兩類訓(xùn)練出一個模型。預(yù)測時,將測試樣本用所有訓(xùn)練好的模型進(jìn)行預(yù)測,根據(jù)預(yù)測值為0還是1,表明測試樣本的歸屬;用數(shù)學(xué)問題表示如下目標(biāo)找到一個超平面,使得它能夠盡可能多的將兩類數(shù)據(jù)點正確的分開,同時使分開的兩類數(shù)據(jù)點距離分類面最遠(yuǎn);假設(shè)該平面方程為y=wx+b。則最主要是求出w和b;解決方法構(gòu)造一個在約束條件下的優(yōu)化問題,具體的說是一個受限二次規(guī)劃問題(constrained quadratic programming),求解該問題,得到分類器;模型建立子模塊先對訓(xùn)練集中的郵件進(jìn)行郵件向量化,然后利用支持向量機的思想進(jìn)行建模;具體可以采用C-支持向量(c-svc)分類機,利用該分類機的對偶函數(shù)計算以下主要參數(shù);r1=&Sigma;0&lt;&alpha;&lt;C,yi=1&dtri;f(&alpha;)i&Sigma;0&lt;&alpha;&lt;C,yi=11]]>&rho;=r1+r22]]>最后得到分類機的決策函數(shù),并將主要參數(shù)和決策信息存入模型文件中,供后面的判斷模塊調(diào)用;其中模型文件中的內(nèi)容包括主要參數(shù)即為行為模型中的參數(shù),決策信息為經(jīng)過修改的郵件特征向量的值;預(yù)測過程首先對待處理的郵件進(jìn)行郵件向量化,然后讀取模型文件中的上述兩部分內(nèi)容,并將其代入決策函數(shù)f(x)=sgn(&Sigma;i=0l&alpha;iyiK(x,xi)+b)]]>其中K(xi,xj)=exp(-γ‖xi-xj‖2),γ>0最后根據(jù)獲得的f(x)的值來確定分類結(jié)果;步驟205、根據(jù)計算結(jié)果對分類未知郵件的郵件類型進(jìn)行判斷;通過預(yù)測算法計算后,就可以得到一個值,根據(jù)預(yù)置行為模型中的郵件頭向量化時的規(guī)定,可以得到該郵件的分類。例如,在建立行為模型時正常郵件的值為1,則當(dāng)計算結(jié)果為1是認(rèn)定分類未知郵件為正常郵件;反之,當(dāng)計算結(jié)果為0是認(rèn)定分類未知郵件為垃圾郵件;當(dāng)然,也可以任意選取其他整數(shù)值進(jìn)行分類標(biāo)識,主要由建立行為模型時正常郵件和垃圾郵件所采用的值確定。
      從上可知,本實施例在將郵件頭向量化后,使用預(yù)先訓(xùn)練建立的行為模型保存的數(shù)據(jù),采用與建立行為模型采用的學(xué)習(xí)算法對應(yīng)的預(yù)測算法進(jìn)行計算,得出計算結(jié)果,從而根據(jù)計算結(jié)果對郵件類型進(jìn)行判斷,由于郵件頭需要符合SMTP協(xié)議,所以在郵件類型判斷時,需要判斷的字段都是預(yù)先設(shè)定的,對郵件類型進(jìn)行判斷時,判斷速度較快;進(jìn)一步,因為是采用郵件頭建立的行為模型,因而不管郵件體是采用哪種語言,都可以采用該行為模型進(jìn)行判斷。
      與建立行為模型的實施例二對應(yīng),本發(fā)明也提供了判斷郵件類型的方法實施例二在接收到一個郵件后,從郵件頭中提取對應(yīng)的7個字段,將這些字段向量化得到106個特征向量,然后將這些向量作為輸入,使用建立好的行為模型保存的數(shù)據(jù),采用SVM預(yù)測算法進(jìn)行計算,然后對計算結(jié)果進(jìn)行判斷,如果為1,則說明該郵件為正常郵件,反之為垃圾郵件。
      如圖3所示,本發(fā)明提供的判斷郵件類型的方法實施例三包括步驟301、讀取分類未知郵件的郵件頭和郵件體;步驟302、從郵件頭提取符合預(yù)置條件一的字段一,從郵件體提取符合預(yù)置條件二的字段二;郵件體的操作與郵件頭的操作過程類似,但是對郵件體所選取的字段是與現(xiàn)有技術(shù)相類似的,即從郵件體中選取相應(yīng)的關(guān)鍵字;步驟303、將字段一與其表現(xiàn)形式組合向量化,得到預(yù)置數(shù)量一的特征向量一,將字段二與其表現(xiàn)形式組合向量化,得到預(yù)置數(shù)量二的特征向量二;關(guān)鍵字的表現(xiàn)形式有有這個關(guān)鍵字,沒有這個關(guān)鍵字,這個關(guān)鍵字出現(xiàn)的次數(shù)等;步驟304、以特征向量一和特征向量二為輸入,采用預(yù)先建立的行為模型保存的數(shù)據(jù),使用預(yù)置預(yù)測算法進(jìn)行計算,得到計算結(jié)果;步驟305、根據(jù)計算結(jié)果對分類未知郵件的郵件類型進(jìn)行判斷;在本實施例中,增加了對分類未知郵件的郵件體的處理,使對郵件類型進(jìn)行判斷時,可以綜合郵件頭和郵件體的內(nèi)容進(jìn)行判斷,從而使判斷更加準(zhǔn)確。
      圖4描述的是本發(fā)明提供的郵件類型判斷裝置的實施例一,包括郵件頭讀取單元401,用于讀取分類未知郵件的郵件頭;字段一提取單元402,用于從郵件頭提取符合預(yù)置條件一的字段一;這些字段也可以是From field、To field、Reply-To field、Delivered-To field、Return-Path field、Received field和Date field中任一及其組合,當(dāng)然也可以不限于這些字段,但是要與建立行為模型時提取的字段相同;第一向量化單元403,用于將字段一向量化得到預(yù)置數(shù)量一的特征向量一;向量化的過程與建立行為模型時一樣,得到的特征向量的數(shù)量也與建立行為模型時相同;計算單元404,用于以特征向量一作為輸入,采用預(yù)先建立的行為模型保存的數(shù)據(jù),使用預(yù)置預(yù)測算法進(jìn)行計算,得到計算結(jié)果;其中預(yù)置的預(yù)測算法的相關(guān)信息是由建立行為模型時采用的學(xué)習(xí)算法決定的,保存在行為模型中,在得到郵件頭向量化后得到的向量后,將這些向量作為輸入,使用預(yù)先建立的行為模型保存的數(shù)據(jù),采用預(yù)置的預(yù)測算法計算得到計算結(jié)果;判斷單元405,用于根據(jù)計算結(jié)果對所述分類未知郵件的郵件類型進(jìn)行判斷;通過預(yù)測算法計算后,就可以得到一個值,一般情況下,這個值可以是1或0,根據(jù)行為模型中參數(shù)的不同,當(dāng)計算結(jié)果為1是認(rèn)定該郵件為正常郵件,也可以當(dāng)計算結(jié)果為0時認(rèn)定該郵件為垃圾郵件,當(dāng)然在實際應(yīng)用中也可以不限于1或0,具體如何取值由建立行為模型時正常郵件和垃圾郵件所采用的值確定;從上可知,本實施例在將郵件頭向量化后,使用預(yù)先訓(xùn)練建立的行為模型保存的數(shù)據(jù),采用與建立行為模型采用的學(xué)習(xí)算法對應(yīng)的預(yù)測算法進(jìn)行計算,得出計算結(jié)果,從而根據(jù)計算結(jié)果對郵件類型進(jìn)行判斷,由于郵件頭需要符合SMTP協(xié)議,所以在郵件類型判斷時,需要判斷的字段都是預(yù)先設(shè)定的,對郵件類型進(jìn)行判斷時,速度不會很慢;進(jìn)一步,因為是采用郵件頭建立的行為模型,因而不管郵件體是采用哪種語言,都可以采用該行為模型進(jìn)行判斷。
      進(jìn)一步,本發(fā)明還提供了判斷郵件類型的裝置實施例二,如圖5所示,包括郵件頭讀取單元501,用于讀取分類未知郵件的郵件頭;郵件體讀取單元502,用于讀取分類未知郵件的郵件體;字段一提取單元503,用于從郵件頭提取符合預(yù)置條件一的字段一;字段二提取單元504,用于從郵件體提取符合預(yù)置條件二的字段二;第一向量化單元505,用于將字段一向量化得到預(yù)置數(shù)量一的特征向量一;第二向量化單元506,用于將字段二向量化得到預(yù)置數(shù)量二的特征向量二;計算單元507,用于以特征向量一和特征向量二為輸入,采用行為模型保存的數(shù)據(jù)使用預(yù)置預(yù)測算法進(jìn)行計算,得到計算結(jié)果;判斷單元508,用于根據(jù)計算結(jié)果對所述分類未知郵件的郵件類型進(jìn)行判斷;在本實施例中,增加了對分類未知郵件的郵件體的處理,使對郵件類型進(jìn)行判斷時,可以綜合郵件頭和郵件體的內(nèi)容進(jìn)行判斷,從而使判斷更加準(zhǔn)確。
      進(jìn)一步,本發(fā)明提供了郵件類型判斷系統(tǒng)的實施例一,如圖6所示,包括行為模型建立裝置601,用于建立用于郵件類型判斷的行為模型,所述行為模型的建立是通過讀取分類已知郵件的郵件頭,從所述分類已知郵件的郵件頭中提取符合預(yù)置條件的字段,將所述字段向量化后得到的預(yù)置數(shù)量的特征向量,按照預(yù)置的學(xué)習(xí)算法建立的;郵件類型判斷裝置602,用于讀取分類未知郵件的郵件頭,從所述分類未知郵件的郵件頭提取符合所述預(yù)置條件的字段,將所述字段向量化得到所述預(yù)置數(shù)量的特征向量,以所述特征向量作為輸入,采用所述行為模型保存的數(shù)據(jù)使用預(yù)置預(yù)測算法進(jìn)行計算,根據(jù)計算結(jié)果對郵件類型進(jìn)行判斷;在實際應(yīng)用中,行為模型建立裝置和郵件類型判斷裝置中的提取郵件頭、提取字段、以及向量化所采用的功能單元可以共用,從而減少郵件類型判斷系統(tǒng)的投入;使用郵件類型判斷系統(tǒng)的該實施例,可以采用分類已知郵件的郵件頭建立行為模型,并且可以采用該行為模型對分類未知郵件的郵件類型進(jìn)行判斷,由于是將郵件頭中特定字段向量化,而郵件頭需要符合SMTP協(xié)議,所以在郵件類型判斷時,需要判斷的字段都是預(yù)先設(shè)定的,對郵件類型進(jìn)行判斷時,速度不會很慢;進(jìn)一步,因為是采用郵件頭建立的行為模型,因而不管郵件體是采用哪種語言,都可以采用該行為模型進(jìn)行判斷。
      以上對本發(fā)明實施例所提供的郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置進(jìn)行了詳細(xì)介紹,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
      及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
      權(quán)利要求
      1.一種郵件類型判斷方法,其特征在于,包括讀取分類未知郵件的郵件頭;從所述郵件頭提取符合預(yù)置條件一的字段一;將所述字段一與其表現(xiàn)形式組合向量化,得到預(yù)置數(shù)量一的特征向量一;以所述特征向量一為輸入,采用預(yù)先建立的行為模型保存的數(shù)據(jù),使用預(yù)置預(yù)測算法進(jìn)行計算,得到計算結(jié)果;根據(jù)所述計算結(jié)果對所述分類未知郵件的郵件類型進(jìn)行判斷。
      2.如權(quán)利要求1所述的郵件類型判斷方法,其特征在于進(jìn)一步讀取所述分類未知郵件的郵件體;從所述郵件體提取符合預(yù)置條件二的字段二;將所述字段二向量化得到預(yù)置數(shù)量二的特征向量二;以所述特征向量一為輸入時,進(jìn)一步以所述特征向量二為輸入,采用所述行為模型保存的數(shù)據(jù),使用預(yù)置預(yù)測算法進(jìn)行計算,得到所述計算結(jié)果。
      3.如權(quán)利要求1所述的郵件類型判斷方法,其特征在于,所述行為模型是采用如下步驟建立的讀取分類已知郵件的郵件頭;從所述分類已知郵件的郵件頭提取符合預(yù)置條件三的字段三;將所述字段三向量化得到預(yù)置數(shù)量三的特征向量三;將所述特征向量三按預(yù)置學(xué)習(xí)算法一建立所述行為模型。
      4.如權(quán)利要求3所述的郵件類型判斷方法,其特征在于,所述字段三與所述字段一相同。
      5.如權(quán)利要求1至4任一所述的郵件類型判斷方法,其特征在于,所述字段一包括來自域字段、接收域字段、應(yīng)答地址域字段、傳輸域字段、回復(fù)路徑域字段、接收地址域字段和時間域字段中任一或其組合。
      6.如權(quán)利要求3或4所述的郵件類型判斷方法,其特征在于,所述數(shù)量三與所述數(shù)量一相同。
      7.一種行為模型建立裝置,其特征在于,包括郵件頭讀取單元,用于讀取分類已知郵件的郵件頭;字段提取單元,用于從所述郵件頭提取符合預(yù)置條件的字段;向量化單元,用于將所述字段向量化得到預(yù)置數(shù)量的特征向量;行為模型建立單元,用于將所述特征向量按預(yù)置學(xué)習(xí)算法建立行為模型。
      8.一種郵件類型判斷裝置,其特征在于,包括郵件頭讀取單元,用于讀取分類未知郵件的郵件頭;字段一提取單元,用于從所述郵件頭提取符合預(yù)置條件一的字段一;第一向量化單元,用于將所述字段一向量化得到預(yù)置數(shù)量一的特征向量一;計算單元,用于以所述特征向量一作為輸入,采用預(yù)先建立的行為模型保存的數(shù)據(jù),使用預(yù)置預(yù)測算法進(jìn)行計算,得到計算結(jié)果;判斷單元,用于根據(jù)所述計算結(jié)果對所述分類未知郵件的郵件類型進(jìn)行判斷。
      9.如權(quán)利要求8所述的郵件類型判斷裝置,其特征在于,還包括郵件體讀取單元,用于讀取所述分類未知郵件的郵件體;字段二提取單元,用于從所述郵件體提取符合預(yù)置條件二的字段二;第二向量化單元,用于將所述字段二向量化得到預(yù)置數(shù)量二的特征向量二;所述計算單元,用于以所述特征向量一和特征向量二為輸入,采用所述行為模型保存的數(shù)據(jù)使用預(yù)置預(yù)測算法進(jìn)行計算,得到計算結(jié)果。
      10.一種郵件類型判斷系統(tǒng),其特征在于,包括行為模型建立裝置,用于建立用于郵件類型判斷的行為模型,所述行為模型的建立是通過讀取分類已知郵件的郵件頭,從所述分類已知郵件的郵件頭中提取符合預(yù)置條件的字段,將所述字段向量化后得到的預(yù)置數(shù)量的特征向量,按照預(yù)置的學(xué)習(xí)算法建立的;郵件類型判斷裝置,用于讀取分類未知郵件的郵件頭,從所述分類未知郵件的郵件頭提取符合所述預(yù)置條件的字段,將所述字段向量化得到所述預(yù)置數(shù)量的特征向量,以所述特征向量作為輸入,采用所述行為模型保存的數(shù)據(jù)使用預(yù)置預(yù)測算法進(jìn)行計算,根據(jù)計算結(jié)果對郵件類型進(jìn)行判斷。
      全文摘要
      本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),公開了郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置,其中郵件類型判斷方法,其特征在于,包括讀取分類未知郵件的郵件頭;從所述郵件頭提取符合預(yù)置條件一的字段一;將所述字段一與其表現(xiàn)形式組合向量化,得到預(yù)置數(shù)量一的特征向量一;以所述特征向量一為輸入,采用預(yù)先建立的行為模型保存的數(shù)據(jù),使用預(yù)置預(yù)測算法進(jìn)行計算,得到計算結(jié)果;根據(jù)所述計算結(jié)果對所述分類未知郵件的郵件類型進(jìn)行判斷。與方法對應(yīng)的,本發(fā)明實施例還提供了相應(yīng)的裝置、系統(tǒng)。使用本發(fā)明提供的實施例,提高對郵件的郵件類型判斷的速度。
      文檔編號G06F17/30GK101079851SQ20071012808
      公開日2007年11月28日 申請日期2007年7月9日 優(yōu)先權(quán)日2007年7月9日
      發(fā)明者劉竟, 劉嶠, 秦志光, 鄭志彬 申請人:華為技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1