一種垃圾電子郵件意圖識別系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種垃圾電子郵件意圖識別系統(tǒng),包括意圖抽取單元、意圖判斷及意圖庫維護單元,和意圖庫。本發(fā)明的一種垃圾電子郵件意圖識別系統(tǒng)通過抽取電子郵件的顯式URL地址、隱式URL地址、顯示郵箱地址、隱式郵箱地址、QQ號碼、銀行賬號、信用卡號、電話號碼和公司名稱等多種類型的意圖,并在預先創(chuàng)建的意圖庫中對每個意圖進行查詢,之后將當前電子郵件的所有意圖查詢結果整合在一起進行綜合分析判斷,從而能夠判斷出當前電子郵件是否為垃圾郵件。本發(fā)明無需一一進入郵件正文中的超鏈接,并分析所鏈接的文本的意圖,只需利用所述意圖庫即可高效地完成對電子郵件的意圖分析和郵件屬性判斷,且所抽取的意圖種類更多,意圖分析結果更準確。
【專利說明】一種垃圾電子郵件意圖識別系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及反垃圾郵件技術,特別涉及一種垃圾電子郵件意圖識別系統(tǒng)。
【背景技術】
[0002]電子郵件作為當今互聯(lián)網(wǎng)應用最廣泛的服務之一,其方便、快捷和經(jīng)濟等特點,得到了無數(shù)商務人士的青睞。人們用它來辦公,娛樂等等,郵件逐漸成為日常生活中不可缺少的通信工具。但隨著信息化的發(fā)展,由于互聯(lián)網(wǎng)的開放性與傳播性,垃圾郵件的泛濫也成為用戶尤其是企業(yè)機構不可忽視的巨大威脅。垃圾郵件中的某些消息具有很強的循環(huán)性和攻擊性。垃圾電子郵件正開始逐步的減弱電子郵件的可靠性。對于個人用戶和企業(yè)用戶來說,垃圾郵件收發(fā)浪費了大量的網(wǎng)絡帶寬,區(qū)分垃圾郵件和正常郵件也浪費了用戶的大量時間,尤其對企業(yè)機構來說,垃圾郵件已造成了極大的經(jīng)濟效益損失。
[0003]大部分垃圾郵件背后的動機是使郵件接收者接受某物,例如登陸某個站點,撥打某個電話,或者購買某支股票。這些動機被稱為該郵件的“意圖”,而對郵件的這些特點的觀察和分析稱為“意圖分析”。郵件的意圖是一種不同于傳統(tǒng)技術中所指的內容或行為的全新特征,它具有穩(wěn)定性、不可偽裝性和必要性。
[0004]現(xiàn)有的垃圾郵件意圖分析方案,通常需要點擊進入郵件中的URL超鏈接地址所指向的網(wǎng)站,并分析該網(wǎng)站的內容。該方案效率低下,且所抽取的意圖類型單一,同時,許多垃圾郵件通常采用混淆手段(如在郵件中加入隨機噪聲)來避免被識別,而該方案并不能處理這種問題。
【發(fā)明內容】
[0005]本發(fā)明的目的在于克服現(xiàn)有技術之不足,提供一種垃圾電子郵件意圖識別系統(tǒng),通過抽取電子郵件的顯式URL地址、隱式URL地址、顯示郵箱地址、隱式郵箱地址、QQ號碼、銀行賬號、信用卡號、電話號碼和公司名稱等多種類型的意圖,并在預先創(chuàng)建的意圖庫中對斷,從而能夠判斷出當前電子郵件是否為垃圾郵件,而所述意圖庫可通過所述意圖判斷及意圖庫維護單元實現(xiàn)更新和維護。
[0006]本發(fā)明解決其技術問題所采用的技術方案為:一種垃圾電子郵件意圖識別系統(tǒng),包括意圖抽取單元、意圖判斷及意圖庫維護單元,和由所述意圖判斷及意圖庫維護單元創(chuàng)建的意圖庫;
[0007]所述意圖抽取單元接收來自上級單元的電子郵件全文和包括意圖分析命令或反饋學習命令的操作指令;若所述操作指令為意圖分析命令,則所述意圖抽取單元抽取該電子郵件中指定類型的意圖、形成意圖串,并將該意圖串連同該操作指令一起傳送給所述意圖判斷及意圖庫維護單元,之后接收來自意圖判斷及意圖庫維護單元的郵件屬性判斷結果,并將該判斷結果反饋給上級單元;若所述操作指令為反饋學習命令,則所述意圖抽取單元抽取該電子郵件中指定類型的意圖、形成意圖串,并抽取該電子郵件中預先標記的郵件屬性,之后將該意圖串、該郵件屬性連同該操作指令一起傳送給所述意圖判斷及意圖庫維護單元;
[0008]所述意圖判斷及意圖庫維護單元接收來自意圖抽取單元的意圖串和意圖分析命令,或意圖串、郵件屬性和反饋學習命令;若所述意圖判斷及意圖庫維護單元接收到意圖分析命令,則通過對接收到的意圖串中的所有意圖在所述意圖庫中進行查詢而分析判斷出郵件屬性,并向所述意圖抽取單元反饋郵件屬性判斷結果;若所述意圖判斷及意圖庫維護單元接收到反饋學習命令,則基于接收到的意圖串和郵件屬性進行反饋學習并更新意圖庫;
[0009]所述意圖判斷及意圖庫維護單元還包括在預置的時間間隔內自動維護意圖庫;
[0010]所述指定類型的意圖包括顯式URL地址、隱式URL地址、顯示郵箱地址、隱式郵箱地址、QQ號碼、銀行賬號、信用卡號、電話號碼和公司名稱;
[0011 ] 所述郵件屬性包括垃圾郵件、正常郵件和未知郵件三種屬性。
[0012]作為一種優(yōu)選,所述意圖庫中存有意圖文件,每個意圖文件包括意圖內容、意圖種類、總頻數(shù)、ham頻數(shù)、spam頻數(shù)、總文檔數(shù)、ham文檔數(shù)、spam文檔數(shù)、生命值、ham %、spam %和特征向量;所述總頻數(shù)為對應的意圖內容在所述意圖識別系統(tǒng)之前處理過的所有郵件中出現(xiàn)的次數(shù),所述ham頻數(shù)為對應的意圖內容在所述意圖識別系統(tǒng)之前處理過的正常郵件中出現(xiàn)的次數(shù),所述spam頻數(shù)為對應的意圖內容在所述意圖識別系統(tǒng)之前處理過的垃圾郵件中出現(xiàn)的次數(shù),所述總文檔數(shù)為所述意圖識別系統(tǒng)之前處理過的所有郵件中存在對應的意圖內容的郵件數(shù),所述ham文檔數(shù)為所述意圖識別系統(tǒng)之前處理過的所有郵件中存在對應的意圖內容的正常郵件數(shù),所述spam文檔數(shù)為所述意圖識別系統(tǒng)之前處理過的所有郵件中存在對應的意圖內容的垃圾郵件數(shù),所述ham%為ham頻數(shù)/總頻數(shù),所述spam %為spam頻數(shù)/總頻數(shù),所述特征向量用于區(qū)分各個意圖文件。
[0013]作為一種優(yōu)選,所述意圖抽取單元對所述指定類型的意圖的抽取順序為:首先抽取隱式URL地址和隱式郵箱地址,其次抽取顯式URL地址和顯示郵箱地址,然后抽取QQ號碼、銀行賬號、信用卡號和電話號碼,最后抽取公司名稱。
[0014]作為一種優(yōu)選,所述隱式URL地址和隱式郵箱地址的抽取過程包括如下步驟:
[0015]首先,讀入一封電子郵件的html代碼,并將該郵件的html代碼整合為一個字符串;
[0016]其次,掃描當前的字符串,截取其中以“<a”開始、以“/a>”結尾的子字符串,若所述子字符串含有“href =”,則截取該子字符串中的href = “**”中引號間所包含的內容;
[0017]最后,若該截取內容中包括“mailto: ”,則以預先統(tǒng)計的郵箱后綴庫為截斷標準截取出“mailto: ”之后的郵箱地址,作為要抽取的隱式郵箱地址類意圖;若該截取內容中包括“http”、“https”或“www.”,則以預先統(tǒng)計的域名后綴庫為截斷標準截取出“http”、“https”或“www.”之后的內容,作為要抽取的隱式URL地址類意圖。
[0018]作為一種優(yōu)選,所述顯式URL地址和顯式郵箱地址的抽取過程包括:讀入一封電子郵件的正文,以一行為一個處理單元,按從上到下的順序,抽取其中含有“http ”、“https”或“www.”的行,并以現(xiàn)有的域名后綴庫為截斷標準截取出“http”、“https”或“WWW.”之后的內容,作為要抽取的顯式URL地址類意圖;抽取其中含有“O”的行,從該行中的“O”往前和往后、以郵箱用戶名的命名標準和現(xiàn)有的郵箱后綴庫為截斷依據(jù),截取出郵箱地址段,作為要抽取的顯式郵箱地址類意圖。
[0019]作為一種優(yōu)選,所述意圖抽取單元對QQ號碼、銀行賬號、信用卡號、電話號碼這4種意圖采用如下抽取算法:
[0020]I)預處理,包括:
[0021]Al.通過預先統(tǒng)計,建立QQ號碼、銀行賬號、信用卡號、電話號碼這4種意圖的前綴庫,和電話號碼類意圖的后綴庫;
[0022]A2.針對已抽取所述顯式URL地址和顯示郵箱地址的電子郵件的正文,以一行為一個處理單元,將其中除了字母、數(shù)字、“:和”之外所有的單字節(jié)符號去掉,然后將其中用文字表示的數(shù)字和全角數(shù)字全部替換為半角數(shù)字,之后將和“/”都替換為“:”,最后消除日期、系統(tǒng)時間和IP地址;
[0023]2)提取:提取所述經(jīng)過預處理的正文中所有僅包含數(shù)字的純數(shù)字段,以及每個純數(shù)字段的前綴和后綴;
[0024]3)針對所提取的所有純數(shù)字段及其前綴和后綴,采用如下步驟:
[0025]B1.若其中一個純數(shù)字段的前綴屬于QQ號碼的前綴庫,則在所述經(jīng)過預處理的正文中從該純數(shù)字段的第一位開始,連續(xù)提取數(shù)字,直到遇到漢字或回車,所提取的純數(shù)字段作為一個QQ號碼類意圖;
[0026]B2.若其中一個純數(shù)字段的前綴屬于銀行卡號的前綴庫,則在所述經(jīng)過預處理的正文中從該純數(shù)字段的第一位開始,連續(xù)提取19個數(shù)字,所提取的純數(shù)字段作為一個銀行賬號類意圖;
[0027]B3.若其中一個純數(shù)字段的前綴屬于信用卡號的前綴庫,則在所述經(jīng)過預處理的正文中從該純數(shù)字段的第一位開始,連續(xù)提取數(shù)字,每增加一個數(shù)字就計算所提取的純數(shù)字段是否符合Luhn算法,直到符合為止,則所提取的純數(shù)字段作為一個信用卡號類意圖;
[0028]B4.若其中一個純數(shù)字段的前綴屬于電話號碼的前綴庫或后綴屬于電話號碼的后綴庫,則在經(jīng)過所述預處理的正文中從該純數(shù)字段的第一位開始往后連續(xù)提取11到14位數(shù)字、或從該純數(shù)字段的最后一位開始往前連續(xù)提取11到14位數(shù)字,并結合國內電話號碼區(qū)號、對應的電話號碼位數(shù)表和手機號碼位數(shù)判斷所提取的純數(shù)字段的合法性,若合法,則所提取的純數(shù)字段作為一個電話號碼類意圖。
[0029]作為一種優(yōu)選,所述公司名稱意圖的提取過程包括:
[0030]首先,針對已抽取顯式URL地址、顯不郵箱地址、QQ號碼、銀行賬號、信用卡號和電話號碼的電子郵件的正文,以一行為一個處理單元,抽取其中含有屬于預先統(tǒng)計的外國公司名后綴庫的關鍵詞的行,以該關鍵詞為截斷依據(jù),截取出公司名稱;
[0031]其次,針對剩下的正文,去除其中所有的單字節(jié)符,并將所有漢字表示的數(shù)字和全角數(shù)字都替換為半角數(shù)字,之后,以一行為一個處理單元,按從上到下的順序抽取其中含有屬于預先統(tǒng)計的公司名前綴庫的關鍵詞的行,從該行中的該關鍵詞開始往后查找,若找到屬于預先統(tǒng)計的中國公司名后綴庫的關鍵詞,記為中國公司名后綴,則以所述中國公司名后綴為截斷依據(jù),截取出一個或多個公司名稱;若找不到,則忽略該行;
[0032]最后,針對剩下的正文,以一行為一個處理單元,按從上到下的順序,抽取其中含有屬于預先統(tǒng)計的中國公司名后綴庫的關鍵詞的行,以該關鍵詞為截斷依據(jù),并結合中國區(qū)域地理名稱截取出公司名稱。
[0033]作為一種優(yōu)選,所述意圖判斷及意圖庫維護單元包括意圖查詢模塊、意圖反饋學習模塊和意圖庫維護模塊;若所述意圖判斷及意圖庫維護單元接收到來自意圖抽取單元的意圖串和意圖分析命令,則調用所述意圖查詢模塊;若所述意圖判斷及意圖庫維護單元接收到來自意圖抽取單元的意圖串、郵件屬性和反饋學習命令,則調用意圖反饋學習模塊;所述意圖庫維護模塊每隔所述預置的時間間隔,將所述意圖庫中所有意圖文件的生命值都減1,并將所述意圖庫中生命值小于O且ham文檔數(shù)小于第一預設值的意圖文件刪除。
[0034]作為一種優(yōu)選,所述意圖查詢模塊將接收到的意圖串分割獲取單個意圖,并在所述意圖庫中查詢每個意圖;若所述意圖庫存在包含該意圖的意圖文件,則根據(jù)該意圖文件向所述意圖查詢模塊返回該意圖的spam%和ham% ;所述意圖查詢模塊查詢完所有意圖后,將所有意圖的spam%相加得到spam%和,并將所有意圖的ham%相加得到ham%和,如此,若所述spam%和大于第二預設值,則判斷當前電子郵件為垃圾郵件,若所述spam%和小于所述ham%和,則判斷當前電子郵件為正常郵件,其他情況,則判斷當前電子郵件為郵件屬性未知;其中所述第二預設值大于或等于0.5。
[0035]作為一種優(yōu)選,所述意圖反饋學習模塊將接收到的意圖串分割獲取單個意圖,并在所述意圖庫中查詢每個意圖,則:
[0036]若所述意圖庫存在包含該意圖的意圖文件,且當前電子郵件為垃圾郵件,則將相應的意圖文件更新為原來的總頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),spam頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),總文檔數(shù)加1,spam文檔數(shù)加1,生命值加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),并對應更新spam% ;若總文檔數(shù)大于第三預設值,則總文檔數(shù)減半、spam文檔數(shù)減半、ham文檔數(shù)減半;
[0037]若所述意圖庫存在包含該意圖的意圖文件,且當前電子郵件為正常郵件,則將相應的意圖文件更新為原來的總頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),ham頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),總文檔數(shù)加上一個第四預設值,ham文檔數(shù)也加上所述第四預設值,生命值減去此條意圖在當前郵件中出現(xiàn)的頻數(shù),并對應更新ham% ;若總文檔數(shù)大于所述第三預設值,則總文檔數(shù)減半、spam文檔數(shù)減半、ham文檔數(shù)減半;
[0038]若所述意圖庫中不存在包含該意圖的意圖文件,且當前電子郵件為垃圾郵件,則在所述意圖庫中添加一個新的意圖文件,將生命值賦值為一個第五預設值,總頻數(shù)被賦值為此條意圖在當前郵件中出現(xiàn)的頻數(shù),spam頻數(shù)被賦值為此條意圖在當前郵件中出現(xiàn)的頻數(shù),總文檔數(shù)被賦值為I,spam文檔數(shù)被賦值為I,并對應更新spam% ;
[0039]若所述意圖庫不存在包含該意圖的意圖文件,且當前電子郵件為正常郵件,則不對當前意圖庫做任何改變。
[0040]由上述對本發(fā)明的描述可知,與現(xiàn)有技術相比,本發(fā)明具有如下有益效果:
[0041]1.本發(fā)明的一種垃圾電子郵件意圖識別系統(tǒng),通過抽取電子郵件的顯式URL地址、隱式URL地址、顯示郵箱地址、隱式郵箱地址、QQ號碼、銀行賬號、信用卡號、電話號碼和公司名稱等多種類型的意圖,并在預先創(chuàng)建的意圖庫中對每個意圖進行查詢,之后將當前電子郵件的所有意圖查詢結果整合在一起進行綜合分析判斷,從而能夠判斷出當前電子郵件是否為垃圾郵件,而所述意圖庫可通過所述意圖判斷及意圖庫維護單元實現(xiàn)更新和維護。本發(fā)明無需一一進入當前電子郵件正文中的超鏈接,并分析所鏈接的文本的意圖,只需利用所述意圖庫即可高效地完成對電子郵件的意圖分析和郵件屬性判斷,且本發(fā)明所抽取的意圖種類更多,意圖分析結果更準確。
[0042]2.本發(fā)明的一種垃圾電子郵件意圖識別系統(tǒng)的QQ號碼、銀行賬號、信用卡號和電話號碼抽取算法能夠有效抽取出各種正確的意圖,即使在電子郵件的意圖中加入干擾符號、半角數(shù)字用漢字或全角數(shù)字表示,也能夠識別出來。
[0043]3.本發(fā)明的一種垃圾電子郵件意圖識別系統(tǒng)的公司名稱抽取算法能夠有效抽取出各種正確的意圖,即使在電子郵件的意圖中加入干擾符號、半角數(shù)字用漢字或全角數(shù)字表示,也能夠識別出來。
[0044]4.本發(fā)明的一種垃圾電子郵件意圖識別系統(tǒng)還包括反饋學習機制,運維人員定期對電子郵件進行人工判斷,并將該判斷結果和該電子郵件以及反饋學習命令一起通過上級單元傳給本發(fā)明所述的垃圾電子郵件意圖識別系統(tǒng),本發(fā)明的系統(tǒng)通過意圖抽取單元接收這些內容,并抽取該電子郵件的指定類型的意圖、形成意圖串,之后將該意圖串、該判斷結果和反饋學習命令一起傳送給意圖判斷及意圖庫維護單元,意圖判斷及意圖庫維護單元調用意圖反饋學習模塊,該模塊根據(jù)接收到的意圖串中的各個意圖及該判斷結果,更新意圖庫中的意圖文件,從而能夠提高本發(fā)明的系統(tǒng)對垃圾電子郵件的判斷的正確率。
【專利附圖】
【附圖說明】
[0045]圖1為本發(fā)明實施例的一種垃圾電子郵件意圖識別系統(tǒng)示意圖。
【具體實施方式】
[0046]實施例,
[0047]如圖1所示,本發(fā)明提供了一種垃圾電子郵件意圖識別系統(tǒng),包括意圖抽取單元
1、意圖判斷及意圖庫維護單元2,和由所述意圖判斷及意圖庫維護單元2創(chuàng)建的意圖庫3 ;
[0048]所述意圖抽取單元I接收來自上級單元4的電子郵件全文和包括意圖分析命令或反饋學習命令的操作指令;若所述操作指令為意圖分析命令,則所述意圖抽取單元I抽取該電子郵件中指定類型的意圖、形成意圖串,并將該意圖串連同該操作指令一起傳送給所述意圖判斷及意圖庫3維護單元2,之后接收來自意圖判斷及意圖庫3維護單元2的郵件屬性判斷結果,并將該判斷結果反饋給上級單元4 ;若所述操作指令為反饋學習命令,則所述意圖抽取單元I抽取該電子郵件中指定類型的意圖、形成意圖串,并抽取該電子郵件中預先標記的郵件屬性,之后將該意圖串、該郵件屬性連同該操作指令一起傳送給所述意圖判斷及意圖庫3維護單元2;
[0049]所述意圖判斷及意圖庫3維護單元2接收來自意圖抽取單元I的意圖串和意圖分析命令,或意圖串、郵件屬性和反饋學習命令;若所述意圖判斷及意圖庫3維護單元2接收到意圖分析命令,則通過對接收到的意圖串中的所有意圖在所述意圖庫3中進行查詢而分析判斷出郵件屬性,并向所述意圖抽取單元I反饋郵件屬性判斷結果;若所述意圖判斷及意圖庫3維護單元2接收到反饋學習命令,則基于接收到的意圖串和郵件屬性進行反饋學習并更新意圖庫3 ;
[0050]所述意圖判斷及意圖庫3維護單元2還包括在預置的時間間隔內自動維護意圖庫
3;
[0051]所述指定類型的意圖包括顯式URL地址、隱式URL地址、顯示郵箱地址、隱式郵箱地址、QQ號碼、銀行賬號、信用卡號、電話號碼和公司名稱;
[0052]所述郵件屬性包括垃圾郵件、正常郵件和未知郵件三種屬性。[0053]本實施例中,所述隱式URL地址和隱式郵箱地址為從電子郵件的html代碼中提取的意圖,所述顯式URL地址、顯式URL地址、QQ號碼、銀行賬號、信用卡號、電話號碼和公司名稱為從電子郵件的正文中提取的意圖。
[0054]作為一種優(yōu)選,所述意圖庫3中存有意圖文件,每個意圖文件包括意圖內容、意圖種類、總頻數(shù)、ham頻數(shù)、spam頻數(shù)、總文檔數(shù)、ham文檔數(shù)、spam文檔數(shù)、生命值、ham%>spam%和特征向量;所述總頻數(shù)為對應的意圖內容在所述意圖識別系統(tǒng)之前處理過的所有郵件中出現(xiàn)的次數(shù),所述ham頻數(shù)為對應的意圖內容在所述意圖識別系統(tǒng)之前處理過的正常郵件中出現(xiàn)的次數(shù),所述spam頻數(shù)為對應的意圖內容在所述意圖識別系統(tǒng)之前處理過的垃圾郵件中出現(xiàn)的次數(shù),所述總文檔數(shù)為所述意圖識別系統(tǒng)之前處理過的所有郵件中存在對應的意圖內容的郵件數(shù),所述ham文檔數(shù)為所述意圖識別系統(tǒng)之前處理過的所有郵件中存在對應的意圖內容的正常郵件數(shù),所述spam文檔數(shù)為所述意圖識別系統(tǒng)之前處理過的所有郵件中存在對應的意圖內容的垃圾郵件數(shù),所述ham%為ham頻數(shù)/總頻數(shù),所述spam%為spam頻數(shù)/總頻數(shù),所述特征向量用于區(qū)分各個意圖文件。本實施例中,所述意圖庫3中還包括意圖索引文件,所述意圖索引文件中的每條索引記錄包括單個意圖文件的意圖內容及該意圖文件在意圖庫3中的位置,所述意圖索引文件中的索引記錄與所述意圖文件為一一映射關系。因此,所述意圖判斷及意圖庫3維護單元2只需在意圖索引文件中查找意圖,找到相應的索引記錄,即可查找到相應的意圖文件。
[0055]作為一種優(yōu)選,所述意圖抽取單元I對所述指定類型的意圖的抽取順序為:首先抽取隱式URL地址和隱式郵箱地址,其次抽取顯式URL地址和顯示郵箱地址,然后抽取QQ號碼、銀行賬號、信用卡號和電話號碼,最后抽取公司名稱。
[0056]作為一種優(yōu)選,所述隱式URL地址和隱式郵箱地址的抽取過程包括如下步驟:
[0057]首先,讀入一封電子郵件的html代碼,并將該郵件的html代碼整合為一個字符串;
[0058]其次,掃描當前的字符串,截取其中以“<a”開始、以“/a>”結尾的子字符串,若所述子字符串含有“href =”,則截取該子字符串中的href = “**”中引號間所包含的內容;
[0059]最后,若該截取內容中包括“mailto: ”,則以預先統(tǒng)計的郵箱后綴庫為截斷標準截取出“mailto: ”之后的郵箱地址,作為要抽取的隱式郵箱地址類意圖;若該截取內容中包括“http”、“https”或“www.”,則以預先統(tǒng)計的域名后綴庫為截斷標準截取出“http”、“https”或“www.”之后的內容,作為要抽取的隱式URL地址類意圖。
[0060]所述預先統(tǒng)計的郵箱后綴庫包括各種類型的郵箱后綴,所述預先統(tǒng)計的域名后綴庫包括各個國家的國家域名、各類公司或組織的域名,還有電腦中各種文件的擴展名。
[0061]作為一種優(yōu)選,所述顯式URL地址和顯式郵箱地址的抽取過程包括:讀入一封電子郵件的正文,以一行為一個處理單元,按從上到下的順序,抽取其中含有“http ”、“https”或“www.”的行,并以現(xiàn)有的域名后綴庫為截斷標準截取出“http”、“https”或“WWW.”之后的內容,作為要抽取的顯式URL地址類意圖;抽取其中含有“O”的行,從該行中的“O”往前和往后、以郵箱用戶名的命名標準和現(xiàn)有的郵箱后綴庫為截斷依據(jù),截取出郵箱地址段,作為要抽取的顯式郵箱地址類意圖。
[0062]本實施例中結合域名后綴庫、利用boost庫中正則表達式功能、構造一個正則表達式如下:[0063]" ( ?:(( ?:http https):\/\/) ? www\\.(( ?:http |https):\/\/))([0-9a-zA-Z\\.\/\\-_:] {3,100} ( ?: " + 域名后綴庫中的詞條
[0064]從而能夠實現(xiàn)對顯式URL地址的提取。
[0065]作為一種優(yōu)選,所述意圖抽取單元I對QQ號碼、銀行賬號、信用卡號、電話號碼這4種意圖采用如下抽取算法:
[0066]I)預處理,包括:
[0067]Al.通過預先統(tǒng)計,建立QQ號碼、銀行賬號、信用卡號、電話號碼這4種意圖的前綴庫,和電話號碼類意圖的后綴庫;
[0068]A2.針對已抽取所述顯式URL地址和顯示郵箱地址的電子郵件的正文,以一行為一個處理單元,將其中除了字母、數(shù)字、“:和”之外所有的單字節(jié)符號去掉,然后將其中用文字表示的數(shù)字和全角數(shù)字全部替換為半角數(shù)字,之后將和“/”都替換為“:”,最后消除日期、系統(tǒng)時間和IP地址;
[0069]2)提取:提取所述經(jīng)過預處理的正文中所有僅包含數(shù)字的純數(shù)字段,以及每個純數(shù)字段的前綴和后綴;
[0070]3)針對所提取的所有純數(shù)字段及其前綴和后綴,采用如下步驟:
[0071]B1.若其中一個純數(shù)字段的前綴屬于QQ號碼的前綴庫,則在所述經(jīng)過預處理的正文中從該純數(shù)字段的第一位開始,連續(xù)提取數(shù)字,直到遇到漢字或回車,所提取的純數(shù)字段作為一個QQ號碼類意圖;
[0072]B 2.若其中一個純數(shù)字段的前綴屬于銀行卡號的前綴庫,則在所述經(jīng)過預處理的正文中從該純數(shù)字段的第一位開始,連續(xù)提取19個數(shù)字,所提取的純數(shù)字段作為一個銀行賬號類意圖;
[0073]B3.若其中一個純數(shù)字段的前綴屬于信用卡號的前綴庫,則在所述經(jīng)過預處理的正文中從該純數(shù)字段的第一位開始,連續(xù)提取數(shù)字,每增加一個數(shù)字就計算所提取的純數(shù)字段是否符合Luhn算法,直到符合為止,則所提取的純數(shù)字段作為一個信用卡號類意圖;
[0074]B4.若其中一個純數(shù)字段的前綴屬于電話號碼的前綴庫或后綴屬于電話號碼的后綴庫,則在經(jīng)過所述預處理的正文中從該純數(shù)字段的第一位開始往后連續(xù)提取11到14位數(shù)字、或從該純數(shù)字段的最后一位開始往前連續(xù)提取11到14位數(shù)字,并結合國內電話號碼區(qū)號、對應的電話號碼位數(shù)表和手機號碼位數(shù)判斷所提取的純數(shù)字段的合法性,若合法,則所提取的純數(shù)字段作為一個電話號碼類意圖。
[0075]作為一種優(yōu)選,所述公司名稱意圖的提取過程包括:
[0076]首先,針對已抽取顯式URL地址、顯示郵箱地址、QQ號碼、銀行賬號、信用卡號和電話號碼的電子郵件的正文,以一行為一個處理單元,抽取其中含有屬于預先統(tǒng)計的外國公司名后綴庫的關鍵詞的行,以該關鍵詞為截斷依據(jù),截取出公司名稱;
[0077]其次,針對剩下的正文,去除其中所有的單字節(jié)符,并將所有漢字表示的數(shù)字和全角數(shù)字都替換為半角數(shù)字,之后,以一行為一個處理單元,按從上到下的順序抽取其中含有屬于預先統(tǒng)計的公司名前綴庫的關鍵詞的行,從該行中的該關鍵詞開始往后查找,若找到屬于預先統(tǒng)計的中國公司名后綴庫的關鍵詞,記為中國公司名后綴,則以所述中國公司名后綴為截斷依據(jù),截取出一個或多個公司名稱;若找不到,則忽略該行;
[0078]最后,針對剩下的正文,以一行為一個處理單元,按從上到下的順序,抽取其中含有屬于預先統(tǒng)計的中國公司名后綴庫的關鍵詞的行,以該關鍵詞為截斷依據(jù),并結合中國區(qū)域地理名稱截取出公司名稱。
[0079]作為一種優(yōu)選,所述意圖判斷及意圖庫3維護單元2包括意圖查詢模塊、意圖反饋學習模塊和意圖庫3維護模塊;若所述意圖判斷及意圖庫3維護單元2接收到來自意圖抽取單元I的意圖串和意圖分析命令,則調用所述意圖查詢模塊;若所述意圖判斷及意圖庫3維護單元2接收到來自意圖抽取單元I的意圖串、郵件屬性和反饋學習命令,則調用意圖反饋學習模塊;所述意圖庫3維護模塊每隔所述預置的時間間隔,將所述意圖庫3中所有意圖文件的生命值都減1,并將所述意圖庫3中生命值小于O且ham文檔數(shù)小于第一預設值的意圖文件刪除,以防止意圖庫3中“過期”意圖文件殘留,導致意圖庫3中意圖文件數(shù)目激增。本實施例中,所述預置的時間間隔為I天,所述第一預設值為3。 [0080]作為一種優(yōu)選,所述意圖查詢模塊將接收到的意圖串分割獲取單個意圖,并在所述意圖庫3中查詢每個意圖;若所述意圖庫3存在包含該意圖的意圖文件,則根據(jù)該意圖文件向所述意圖查詢模塊返回該意圖的spam%和ham% ;所述意圖查詢模塊查詢完所有意圖后,將所有意圖的spam1^相加得到spam1^和,并將所有意圖的ham1^相加得到ham1^和,如此,若所述spam%和大于第二預設值,則判斷當前電子郵件為垃圾郵件,若所述spam%和小于所述ham%和,則判斷當前電子郵件為正常郵件,其他情況,則判斷當前電子郵件為郵件屬性未知;其中所述第二預設值大于或等于0.5。
[0081]作為一種優(yōu)選,所述意圖反饋學習模塊將接收到的意圖串分割獲取單個意圖,并在所述意圖庫3中查詢每個意圖,則:
[0082]若所述意圖庫3存在包含該意圖的意圖文件,且當前電子郵件為垃圾郵件,則將相應的意圖文件更新為原來的總頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),spam頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),總文檔數(shù)加1,spam文檔數(shù)加1,生命值加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),并對應更新spam% ;若總文檔數(shù)大于第三預設值,則總文檔數(shù)減半、spam文檔數(shù)減半、ham文檔數(shù)減半;本實施例中,所述第三預設值為50000 ;
[0083]若所述意圖庫3存在包含該意圖的意圖文件,且當前電子郵件為正常郵件,則將相應的意圖文件更新為原來的總頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),ham頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),總文檔數(shù)加上一個第四預設值,ham文檔數(shù)也加上所述第四預設值,生命值減去此條意圖在當前郵件中出現(xiàn)的頻數(shù),并對應更新ham% ;若總文檔數(shù)大于所述第三預設值,則總文檔數(shù)減半、spam文檔數(shù)減半、ham文檔數(shù)減半;本實施例中,所述第四預設值為100;
[0084]若所述意圖庫3中不存在包含該意圖的意圖文件,且當前電子郵件為垃圾郵件,則在所述意圖庫3中添加一個新的意圖文件,將生命值賦值為一個第五預設值,總頻數(shù)被賦值為此條意圖在當前郵件中出現(xiàn)的頻數(shù),spam頻數(shù)被賦值為此條意圖在當前郵件中出現(xiàn)的頻數(shù),總文檔數(shù)被賦值為1,spam文檔數(shù)被賦值為I,并對應更新spam% ;本實施例中,所述第五預設值為200 ;
[0085]若所述意圖庫3不存在包含該意圖的意圖文件,且當前電子郵件為正常郵件,則不對當前意圖庫3做任何改變。
[0086]本發(fā)明的一種垃圾電子郵件意圖識別系統(tǒng)的反饋機制是,運維人員定期對電子郵件進行人工判斷,并將該判斷結果和該電子郵件以及反饋學習命令一起通過上級單元4傳給本發(fā)明所述的垃圾電子郵件意圖識別系統(tǒng),本發(fā)明的系統(tǒng)通過意圖抽取單元I接收這些內容,并抽取該電子郵件的指定類型的意圖、形成意圖串,之后將該意圖串、該判斷結果和反饋學習命令一起傳送給意圖判斷及意圖庫3維護單元2,意圖判斷及意圖庫3維護單元2調用意圖反饋學習模塊,該模塊根據(jù)接收到的意圖串中的各個意圖及該判斷結果,更新意圖庫3中的意圖文件,從而能夠提高本發(fā)明的系統(tǒng)對垃圾電子郵件的判斷的正確率。
[0087] 上述實施例僅用來進一步說明本發(fā)明的一種垃圾電子郵件意圖識別系統(tǒng),但本發(fā)明并不局限于實施例,凡是依據(jù)本發(fā)明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾,均落入本發(fā)明技術方案的保護范圍內。
【權利要求】
1.一種垃圾電子郵件意圖識別系統(tǒng),其特征在于,包括意圖抽取單元、意圖判斷及意圖庫維護單元,和由所述意圖判斷及意圖庫維護單元創(chuàng)建的意圖庫; 所述意圖抽取單元接收來自上級單元的電子郵件全文和包括意圖分析命令或反饋學習命令的操作指令;若所述操作指令為意圖分析命令,則所述意圖抽取單元抽取該電子郵件中指定類型的意圖、形成意圖串,并將該意圖串連同該操作指令一起傳送給所述意圖判斷及意圖庫維護單元,之后接收來自意圖判斷及意圖庫維護單元的郵件屬性判斷結果,并將該判斷結果反饋給上級單元;若所述操作指令為反饋學習命令,則所述意圖抽取單元抽取該電子郵件中指定類型的意圖、形成意圖串,并抽取該電子郵件中預先標記的郵件屬性,之后將該意圖串、該郵件屬性連同該操作指令一起傳送給所述意圖判斷及意圖庫維護單元; 所述意圖判斷及意圖庫維護單元接收來自意圖抽取單元的意圖串和意圖分析命令,或意圖串、郵件屬性和反饋學習命令;若所述意圖判斷及意圖庫維護單元接收到意圖分析命令,則通過對接收到的意圖串中的所有意圖在所述意圖庫中進行查詢而分析判斷出郵件屬性,并向所述意圖抽取單元反饋郵件屬性判斷結果;若所述意圖判斷及意圖庫維護單元接收到反饋學習命令,則基于接收到的意圖串和郵件屬性進行反饋學習并更新意圖庫; 所述意圖判斷及意圖庫維護單元還包括在預置的時間間隔內自動維護意圖庫; 所述指定類型的意圖包括顯式URL地址、隱式URL地址、顯示郵箱地址、隱式郵箱地址、QQ號碼、銀行賬號、信 用卡號、電話號碼和公司名稱; 所述郵件屬性包括垃圾郵件、正常郵件和未知郵件三種屬性。
2.如權利要求1所述的一種垃圾電子郵件意圖識別系統(tǒng),其特征在于,所述意圖庫中存有意圖文件,每個意圖文件包括意圖內容、意圖種類、總頻數(shù)、ham頻數(shù)、spam頻數(shù)、總文檔數(shù)、ham文檔數(shù)、spam文檔數(shù)、生命值、ham%、spam%和特征向量;所述總頻數(shù)為對應的意圖內容在所述意圖識別系統(tǒng)之前處理過的所有郵件中出現(xiàn)的次數(shù),所述ham頻數(shù)為對應的意圖內容在所述意圖識別系統(tǒng)之前處理過的正常郵件中出現(xiàn)的次數(shù),所述spam頻數(shù)為對應的意圖內容在所述意圖識別系統(tǒng)之前處理過的垃圾郵件中出現(xiàn)的次數(shù),所述總文檔數(shù)為所述意圖識別系統(tǒng)之前處理過的所有郵件中存在對應的意圖內容的郵件數(shù),所述ham文檔數(shù)為所述意圖識別系統(tǒng)之前處理過的所有郵件中存在對應的意圖內容的正常郵件數(shù),所述spam文檔數(shù)為所述意圖識別系統(tǒng)之前處理過的所有郵件中存在對應的意圖內容的垃圾郵件數(shù),所述ham %為ham頻數(shù)/總頻數(shù),所述spam %為spam頻數(shù)/總頻數(shù),所述特征向量用于區(qū)分各個意圖文件。
3.如權利要求1所述的一種垃圾電子郵件意圖識別系統(tǒng),其特征在于,所述意圖抽取單元對所述指定類型的意圖的抽取順序為:首先抽取隱式URL地址和隱式郵箱地址,其次抽取顯式URL地址和顯示郵箱地址,然后抽取QQ號碼、銀行賬號、信用卡號和電話號碼,最后抽取公司名稱。
4.如權利要求3所述的一種垃圾電子郵件意圖識別系統(tǒng),其特征在于,所述隱式URL地址和隱式郵箱地址的抽取過程包括如下步驟: 首先,讀入一封電子郵件的html代碼,并將該郵件的html代碼整合為一個字符串; 其次,掃描當前的字符串,截取其中以“<a”開始、以“/a>”結尾的子字符串,若所述子字符串含有“href =”,則截取該子字符串中的href = “**”中引號間所包含的內容;最后,若該截取內容中包括“mailto: ”,則以預先統(tǒng)計的郵箱后綴庫為截斷標準截取出“mailto: ”之后的郵箱地址,作為要抽取的隱式郵箱地址類意圖;若該截取內容中包括“http”、“https”或“www.”,則以預先統(tǒng)計的域名后綴庫為截斷標準截取出“http”、“https”或“穩(wěn).”之后的內容,作為要抽取的隱式URL地址類意圖。
5.如權利要求3所述的一種垃圾電子郵件意圖識別系統(tǒng),其特征在于,所述顯式URL地址和顯式郵箱地址的抽取過程包括:讀入一封電子郵件的正文,以一行為一個處理單元,按從上到下的順序,抽取其中含有“http”、“https”或“WWW.”的行,并以現(xiàn)有的域名后綴庫為截斷標準截取出“http”、“https”或“WWW.”之后的內容,作為要抽取的顯式URL地址類意圖;抽取其中含有“ @”的行,從該行中的“ @”往前和往后、以郵箱用戶名的命名標準和現(xiàn)有的郵箱后綴庫為截斷依據(jù),截取出郵箱地址段,作為要抽取的顯式郵箱地址類意圖。
6.如權利要求3所述的一種垃圾電子郵件意圖識別系統(tǒng),其特征在于,所述意圖抽取單元對QQ號碼、銀行賬號、信用卡號、電話號碼這4種意圖采用如下抽取算法: 1)預處理,包括: Al.通過預先統(tǒng)計,建立QQ號碼、銀行賬號、信用卡號、電話號碼這4種意圖的前綴庫,和電話號碼類意圖的后綴庫; A2.針對已抽取所述顯式URL地址和顯示郵箱地址的電子郵件的正文,以一行為一個處理單元,將其中除了字母、數(shù)字、“:和”之外所有的單字節(jié)符號去掉,然后將其中用文字表示的數(shù)字和全角數(shù)字全部替換為半角數(shù)字,之后將和“/”都替換為“:”,最后消除日期、系統(tǒng)時間和IP地址; 2)提取:提取所述經(jīng)過 預處理的正文中所有僅包含數(shù)字的純數(shù)字段,以及每個純數(shù)字段的前綴和后綴; 3)針對所提取的所有純數(shù)字段及其前綴和后綴,采用如下步驟: B1.若其中一個純數(shù)字段的前綴屬于QQ號碼的前綴庫,則在所述經(jīng)過預處理的正文中從該純數(shù)字段的第一位開始,連續(xù)提取數(shù)字,直到遇到漢字或回車,所提取的純數(shù)字段作為一個QQ號碼類意圖; B2.若其中一個純數(shù)字段的前綴屬于銀行卡號的前綴庫,則在所述經(jīng)過預處理的正文中從該純數(shù)字段的第一位開始,連續(xù)提取19個數(shù)字,所提取的純數(shù)字段作為一個銀行賬號類意圖; B3.若其中一個純數(shù)字段的前綴屬于信用卡號的前綴庫,則在所述經(jīng)過預處理的正文中從該純數(shù)字段的第一位開始,連續(xù)提取數(shù)字,每增加一個數(shù)字就計算所提取的純數(shù)字段是否符合Luhn算法,直到符合為止,則所提取的純數(shù)字段作為一個信用卡號類意圖; B4.若其中一個純數(shù)字段的前綴屬于電話號碼的前綴庫或后綴屬于電話號碼的后綴庫,則在經(jīng)過所述預處理的正文中從該純數(shù)字段的第一位開始往后連續(xù)提取11到14位數(shù)字、或從該純數(shù)字段的最后一位開始往前連續(xù)提取11到14位數(shù)字,并結合國內電話號碼區(qū)號、對應的電話號碼位數(shù)表和手機號碼位數(shù)判斷所提取的純數(shù)字段的合法性,若合法,則所提取的純數(shù)字段作為一個電話號碼類意圖。
7.如權利要求3所述的一種垃圾電子郵件意圖識別系統(tǒng),其特征在于,所述公司名稱意圖的提取過程包括: 首先,針對已抽取顯式URL地址、顯示郵箱地址、QQ號碼、銀行賬號、信用卡號和電話號碼的電子郵件的正文,以一行為一個處理單元,抽取其中含有屬于預先統(tǒng)計的外國公司名后綴庫的關鍵詞的行,以該關鍵詞為截斷依據(jù),截取出公司名稱; 其次,針對剩下的正文,去除其中所有的單字節(jié)符,并將所有漢字表示的數(shù)字和全角數(shù)字都替換為半角數(shù)字,之后,以一行為一個處理單元,按從上到下的順序抽取其中含有屬于預先統(tǒng)計的公司名前綴庫的關鍵詞的行,從該行中的該關鍵詞開始往后查找,若找到屬于預先統(tǒng)計的中國公司名后綴庫的關鍵詞,記為中國公司名后綴,則以所述中國公司名后綴為截斷依據(jù),截取出一個或多個公司名稱;若找不到,則忽略該行; 最后,針對剩下的正文,以一行為一個處理單元,按從上到下的順序,抽取其中含有屬于預先統(tǒng)計的中國公司名后綴庫的關鍵詞的行,以該關鍵詞為截斷依據(jù),并結合中國區(qū)域地理名稱截取出公司名稱。
8.如權利要求2所述的一種垃圾電子郵件意圖識別系統(tǒng),其特征在于,所述意圖判斷及意圖庫維護單元包括意圖查詢模塊、意圖反饋學習模塊和意圖庫維護模塊;若所述意圖判斷及意圖庫維護單元接收到來自意圖抽取單元的意圖串和意圖分析命令,則調用所述意圖查詢模塊;若所述意圖判斷及意圖庫維護單元接收到來自意圖抽取單元的意圖串、郵件屬性和反饋學習命令,則調用意圖反饋學習模塊;所述意圖庫維護模塊每隔所述預置的時間間隔,將所述意圖庫中所有意圖文件的生命值都減1,并將所述意圖庫中生命值小于O且ham文檔數(shù)小于第一預設值的意圖文件刪除。
9.如權利要求8所述的一種垃圾電子郵件意圖識別系統(tǒng),其特征在于,所述意圖查詢模塊將接收到的意圖串分割獲取單個意圖,并在所述意圖庫中查詢每個意圖;若所述意圖庫存在包含該意圖的意圖文件,則根據(jù)該意圖文件向所述意圖查詢模塊返回該意圖的spam%和ham% ;所述意圖查詢模塊查詢完所有意圖后,將所有意圖的spam%相加得到spam%和,并將所有意圖的ham%相加得到ham%和,如此,若所述spam%和大于第二預設值,則判斷當前電子郵件為垃圾郵件,若所述spam%和小于所述ham%和,則判斷當前電子郵件為正常郵件,其他情況,則判斷當前電子郵件為郵件屬性未知;其中所述第二預設值大于或等于0.5。
10.如權利要求8所述的一種垃圾電子郵件意圖識別系統(tǒng),其特征在于,所述意圖反饋學習模塊將接收到的意圖串分割獲取單個意圖,并在所述意圖庫中查詢每個意圖,則: 若所述意圖庫存在包含該意圖的意圖文件,且當前電子郵件為垃圾郵件,則將相應的意圖文件更新為原來的總頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),spam頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),總文檔數(shù)加1,spam文檔數(shù)加1,生命值加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),并對應更新spam% ;若總文檔數(shù)大于第三預設值,則總文檔數(shù)減半、spam文檔數(shù)減半、ham文檔數(shù)減半; 若所述意圖庫存在包含該意圖的意圖文件,且當前電子郵件為正常郵件,則將相應的意圖文件更新為原來的總頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),ham頻數(shù)加上此條意圖在當前郵件中出現(xiàn)的頻數(shù),總文檔數(shù)加上一個第四預設值,ham文檔數(shù)也加上所述第四預設值,生命值減去此條意圖在當前郵件中出現(xiàn)的頻數(shù),并對應更新ham% ;若總文檔數(shù)大于所述第三預設值,則總文檔數(shù)減半、spam文檔數(shù)減半、ham文檔數(shù)減半; 若所述意圖庫中不存在包含該意圖的意圖文件,且當前電子郵件為垃圾郵件,則在所述意圖庫中添加一個新的意圖文件,將生命值賦值為一個第五預設值,總頻數(shù)被賦值為此條意圖在當前郵件中出現(xiàn)的頻數(shù),spam頻數(shù)被賦值為此條意圖在當前郵件中出現(xiàn)的頻數(shù),總文檔數(shù)被賦值為1,spam文檔數(shù)被賦值為I,并對應更新spam% ; 若所述意圖庫不存在包含該意圖的意圖文件,且當前電子郵件為正常郵件,則不對當前意圖庫做任何改變。
【文檔編號】H04L12/58GK103944810SQ201410187923
【公開日】2014年7月23日 申請日期:2014年5月6日 優(yōu)先權日:2014年5月6日
【發(fā)明者】李紹滋, 郭鋒, 曹冬林 申請人:廈門大學