專利名稱:電子郵件過濾系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種網(wǎng)絡(luò)通信技術(shù)領(lǐng)域的系統(tǒng),具體是一種電子郵件過濾系統(tǒng)。
背景技術(shù):
垃圾郵件的泛濫已嚴(yán)重影響個人通信、浪費信息資源、威脅網(wǎng)絡(luò)安全。同時各種不良信息的傳播也對社會造成相當(dāng)?shù)奈:ΑR虼?,研究郵件自動過濾方法具有十分重要的現(xiàn)實意義。在實際應(yīng)用中,現(xiàn)有的郵件過濾系統(tǒng)一般根據(jù)已知的垃圾郵件來源封鎖郵件。這種垃圾郵件黑名單是由企業(yè)或者獨立的反垃圾郵件組織編輯的。這些黑名單包括已知的屬于垃圾郵件制造者的系統(tǒng)和網(wǎng)絡(luò)的IP地址、安全性較差,很容易被垃圾郵件制造者通過所謂開放式中繼和開放式代理服務(wù)器的IP地址以及托管垃圾郵件制造者或者支持垃圾郵件服務(wù)的網(wǎng)站的IP地址來繞過。并且這種基于規(guī)則的郵件過濾系統(tǒng)需要不斷維護更新其數(shù)據(jù)庫,純粹的基于規(guī)則的郵件過濾系統(tǒng)對于垃圾信件的查準(zhǔn)率已經(jīng)不能滿足日益提高的過濾系統(tǒng)用戶的產(chǎn)品需求。
經(jīng)對現(xiàn)有技術(shù)的文獻檢索發(fā)現(xiàn),中國專利申請?zhí)?00410031692.2,專利名稱防垃圾郵件系統(tǒng),該專利自述為“一種防垃圾郵件系統(tǒng),包括能夠收發(fā)郵件數(shù)據(jù)包的緩沖器,所述緩沖器用于對接收的郵件數(shù)據(jù)包進行緩沖處理,并對接收的郵件數(shù)據(jù)包添加包頭信息后進行轉(zhuǎn)發(fā);和與所述緩沖器連接的防垃圾郵件服務(wù)器,所述防垃圾郵件服務(wù)器用于接收緩沖器轉(zhuǎn)發(fā)來的郵件數(shù)據(jù)包,并通過分析經(jīng)所述緩沖器添加了包頭信息的郵件數(shù)據(jù)包,判斷郵件數(shù)據(jù)包是否合法”。該系統(tǒng)可以識別出可以對郵件頭部信息進行分析,以實現(xiàn)過濾垃圾郵件的目的。但是該系統(tǒng)只對郵件信頭進行分析,未能分析郵件主體內(nèi)容。對于那些不在系統(tǒng)黑名單中的垃圾郵件就無力查殺,對于那些通過代理服務(wù)器發(fā)送的垃圾郵件無法識別。并且系統(tǒng)不具備自學(xué)習(xí)能力,需要不斷更新維護數(shù)據(jù)庫,已經(jīng)不能適應(yīng)不斷發(fā)展變化的反垃圾郵件應(yīng)用需求。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中上述不足和缺陷,提出了一種電子郵件過濾系統(tǒng)。本發(fā)明能夠?qū)﹄娮余]件主體內(nèi)容進行分析,通過預(yù)分類模塊,鄰近類別分類模塊對電子郵件進行兩級分類,通過特征庫實現(xiàn)對垃圾郵件的自學(xué)習(xí)功能,實現(xiàn)基于內(nèi)容的電子郵件智能分類。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的,本發(fā)明包括預(yù)處理模塊、特征提取模塊、特征選擇模塊、特征庫、預(yù)分類模塊、鄰近類別分類模塊。預(yù)處理模塊首先獲取待處理信息內(nèi)容,并將獲取結(jié)果送入特征提取模塊,特征提取模塊從待處理信息中提取出特征選項,并分兩路分別送入特征選擇模塊與預(yù)分類模塊,特征選擇模塊對特征選項進行選擇并將結(jié)果送入特征庫,特征庫存儲特征選項,預(yù)分類模塊根據(jù)特征選項對信息進行預(yù)分類并將結(jié)果遞交給鄰近類別分類模塊,鄰近類別分類模塊從特征庫提取特征選項并完成對信息的分類。
所述的預(yù)處理模塊負責(zé)對電子郵件進行分析,取出郵件主體部分,并對郵件主體文本中的無意義字符進行濾除。將處理好的文本內(nèi)容送入特征提取模塊。
所述的特征提取模塊使用重復(fù)模式識別算法抽取重復(fù)的字符串組成詞表,并刪除了包含停止字表的詞匯。將對于文本表示幫助不明顯的一般詞匯去掉,對應(yīng)提取操作的結(jié)果是保留特定數(shù)量能夠表征文本屬性的特征選項。并將這些特征選項分別送入特征選擇模塊與預(yù)分類模塊。
所述的特征選擇模塊采用特征詞匯詞頻統(tǒng)計和特征詞與所屬類別互信息相結(jié)合的方法,對于前期獲得的特征選項實行特征選擇。并將這些選擇過的特征選項存入特征庫。
所述的預(yù)分類模塊直接放行不含任何特征選項的正常電子郵件,同時根據(jù)對應(yīng)郵件的特征選項繼續(xù)判斷疑似垃圾信件的類別歸屬,將疑似垃圾信件分類為病毒郵件,疑似色情郵件、疑似反動郵件和疑似廣告郵件,對于病毒郵件直接做攔截處理,對于疑似色情郵件、疑似反動郵件和疑似廣告郵件則送交鄰近類別分類模塊。
所述的鄰近類別分類模塊分別過濾疑似色情郵件、疑似反動郵件和疑似廣告郵件,攔截其中的色情、反動和廣告郵件,同時放行屬于對應(yīng)鄰近類別的誤攔信件。
本發(fā)明的工作過程和工作原理是所有需過濾的郵件首先通過預(yù)處理模塊,預(yù)處理模塊對電子郵件進行分析,取出郵件主體部分,并對郵件主體文本中的無意義字符進行濾除,將處理好的文本內(nèi)容送入特征提取模塊;特征提取模塊使用重復(fù)模式識別算法抽取重復(fù)的字符串組成詞表,并刪除了包含停止字表的詞匯。對應(yīng)提取操作的結(jié)果是保留特定數(shù)量能夠表征文本屬性的特征選項。并將這些特征選項分別送入特征選擇模塊與預(yù)分類模塊。特征選擇模塊采用特征詞匯詞頻統(tǒng)計和特征詞與所屬類別互信息相結(jié)合的方法,對于前期獲得的特征選項實行特征選擇,并將這些選擇過的特征選項存入特征庫;預(yù)分類模塊根據(jù)特征庫匹配結(jié)果,直接放行不含任何特征選項的正常電子郵件,同時根據(jù)對應(yīng)郵件的特征選項繼續(xù)判斷疑似垃圾信件的類別歸屬,若判定是病毒信件則直接丟棄,若郵件中特征選項小于閥值則直接放行,若均否,則將結(jié)果遞交鄰近類別分類模塊;鄰近類別分類模塊根據(jù)預(yù)分類模塊輸出的結(jié)果分別過濾疑似色情郵件、疑似反動郵件和疑似廣告郵件,攔截其中的色情、反動和廣告郵件,同時放行屬于對應(yīng)鄰近類別的誤攔信件。
本發(fā)明的有益結(jié)果是能夠?qū)︵]件主體內(nèi)容進行分析,對于通過代理服務(wù)器發(fā)送的垃圾郵件同樣能夠進行過濾;系統(tǒng)具有自學(xué)習(xí)能力,能夠通過對郵件的過濾自動維護更新系統(tǒng)特征庫,不需要人工進行更新維護;采用兩級分類模式與鄰近類別分類技術(shù),提高了系統(tǒng)對垃圾郵件的查準(zhǔn)濾和查全率。
圖1是本發(fā)明的系統(tǒng)結(jié)構(gòu)圖具體實施方式
如圖1所示,本發(fā)明包括預(yù)處理模塊、特征提取模塊、特征選擇模塊、特征庫、預(yù)分類模塊、鄰近類別分類模塊。預(yù)處理模塊首先獲取待處理信息內(nèi)容,并將獲取結(jié)果送入特征提取模塊,特征提取模塊從待處理信息中提取出特征選項,并分兩路分別送入特征選擇模塊與預(yù)分類模塊,特征選擇模塊對特征選項進行選擇并將結(jié)果送入特征庫,特征庫存儲特征選項,預(yù)分類模塊根據(jù)特征選項對信息進行預(yù)分類并將結(jié)果遞交給鄰近類別分類模塊,鄰近類別分類模塊從特征庫提取特征選項并完成對信息的分類。
所述的預(yù)處理模塊負責(zé)對電子郵件進行分析,取出郵件主體部分,并對郵件主體文本中的無意義字符進行濾除。將處理好的文本內(nèi)容送入特征提取模塊。
所述的特征提取模塊使用重復(fù)模式識別算法抽取重復(fù)的字符串組成詞表,并刪除了包含停止字表的詞匯。將對于文本表示幫助不明顯的一般詞匯去掉,對應(yīng)提取操作的結(jié)果是保留特定數(shù)量能夠表征文本屬性的特征選項。并將這些特征選項分別送入特征選擇模塊與預(yù)分類模塊。
所述的特征選擇模塊采用特征詞匯詞頻統(tǒng)計和特征詞與所屬類別互信息相結(jié)合的方法,對于前期獲得的特征選項實行特征選擇。并將這些選擇過的特征選項存入特征庫。
所述的預(yù)分類模塊直接放行不含任何特征選項的正常電子郵件,同時根據(jù)對應(yīng)郵件的特征選項繼續(xù)判斷疑似垃圾信件的類別歸屬,將疑似垃圾信件分類為病毒郵件、疑似色情郵件、疑似反動郵件和疑似廣告郵件,對于病毒郵件直接做攔截處理,對于疑似色情郵件、疑似反動郵件和疑似廣告郵件則送交鄰近類別分類模塊。
所述的鄰近類別分類模塊負責(zé)過濾疑似色情郵件、疑似反動郵件和疑似廣告郵件,攔截其中的色情、反動和廣告郵件,同時放行屬于對應(yīng)鄰近類別的誤攔信件。
權(quán)利要求
1.一種電子郵件過濾系統(tǒng),包括預(yù)處理模塊、特征提取模塊、特征選擇模塊、特征庫,其特征在于,還包括預(yù)分類模塊、鄰近類別分類模塊,預(yù)處理模塊首先獲取待處理信息內(nèi)容,并將獲取結(jié)果送入特征提取模塊,特征提取模塊從待處理信息中提取出特征選項,并分兩路分別送入特征庫與預(yù)分類模塊,特征庫存儲特征選項,預(yù)分類模塊根據(jù)特征選項對信息進行預(yù)分類并將結(jié)果遞交給鄰近類別分類模塊,鄰近類別分類模塊從特征庫提取特征選項并完成對信息的分類,所述的預(yù)分類模塊直接放行正常電子郵件,同時根據(jù)對應(yīng)郵件的特征選項繼續(xù)判斷疑似垃圾信件的類別歸屬,將疑似垃圾信件分類為病毒郵件,疑似色情郵件、疑似反動郵件和疑似廣告郵件,對于病毒郵件直接做攔截處理,對于疑似色情郵件、疑似反動郵件和疑似廣告郵件則送交鄰近類別分類模塊;所述的鄰近類別分類模塊分別過濾疑似色情郵件、疑似反動郵件和疑似廣告郵件,攔截其中的色情、反動和廣告郵件,同時放行屬于對應(yīng)鄰近類別的誤攔信件。
2.根據(jù)權(quán)利要求1所述的這種電子郵件過濾系統(tǒng),其特征是,所述的預(yù)處理模塊負責(zé)對電子郵件進行分析,取出郵件主體部分,并對郵件主體文本中的噪音進行濾除,將處理好的文本內(nèi)容送入特征提取模塊。
3.根據(jù)權(quán)利要求1所述的這種電子郵件過濾系統(tǒng),其特征是,所述的特征提取模塊使用重復(fù)模式識別算法抽取重復(fù)的字符串組成詞表,并刪除了包含停止字表的詞匯,對應(yīng)提取操作的結(jié)果是保留能夠表征文本屬性的特征選項,并將這些特征選項分別送入特征選擇模塊與預(yù)分類模塊。
4.根據(jù)權(quán)利要求1所述的這種電子郵件過濾系統(tǒng),其特征是,所述的特征選擇模塊采用特征詞匯詞頻統(tǒng)計和特征詞與所屬類別互信息相結(jié)合的方法,對于前期獲得的特征選項實行特征選擇,并將這些選擇過的特征選項存入特征庫。
全文摘要
一種網(wǎng)絡(luò)通信技術(shù)領(lǐng)域的電子郵件過濾系統(tǒng)。本發(fā)明中,預(yù)處理模塊首先獲取待處理信息內(nèi)容,并將獲取結(jié)果送入特征提取模塊,特征提取模塊從待處理信息中提取出特征選項,并分兩路分別送入特征選擇模塊與預(yù)分類模塊,特征選擇模塊對特征選項進行選擇并將結(jié)果送入特征庫,特征庫存儲特征選項,預(yù)分類模塊根據(jù)特征選項對信息進行預(yù)分類并將結(jié)果遞交給鄰近類別分類模塊,鄰近類別分類模塊從特征庫提取特征選項并完成對信息的分類。本發(fā)明能對郵件主體內(nèi)容進行分析,對于通過代理服務(wù)器發(fā)送的垃圾郵件同樣能進行過濾;系統(tǒng)具有自學(xué)習(xí)能力,采用兩級分類模式與鄰近類別分類技術(shù),提高了系統(tǒng)對垃圾郵件的查準(zhǔn)濾和查全率。
文檔編號G06Q10/00GK1760901SQ200510030968
公開日2006年4月19日 申請日期2005年11月3日 優(yōu)先權(quán)日2005年11月3日
發(fā)明者李翔, 李建華, 林祥, 黃明生, 楊巍, 周黎 申請人:上海交通大學(xué)