專利名稱:用于阻止垃圾郵件的源/目的地的特征和列表的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于識(shí)別合法的(例如,好的郵件)和不希望得到的郵件,尤其涉及用于處理電子消息來(lái)提取數(shù)據(jù)以方便阻止垃圾郵件的系統(tǒng)和方法。
背景技術(shù):
諸如因特網(wǎng)這樣的全球通信網(wǎng)絡(luò)的出現(xiàn)已經(jīng)為達(dá)到大量的潛在客戶帶來(lái)了商機(jī)。電子消息,尤其是電子郵件(“電子郵件”)作為一種向網(wǎng)絡(luò)用戶散布不需要的廣告和宣傳(也表示為“垃圾郵件”)的方式正在日益蔓延。
Radicati集團(tuán)有限公司,其是一個(gè)咨詢銷售研究公司,估計(jì)到2002年8月份為止,每天將發(fā)送二十億條垃圾電子郵件消息。這個(gè)數(shù)量預(yù)計(jì)每?jī)赡攴丁€(gè)人和單位(例如,商業(yè),政府機(jī)構(gòu))變得越來(lái)越不方便,而且時(shí)常被垃圾郵件搞得不愉快。同樣,對(duì)于可靠的數(shù)據(jù)處理來(lái)說(shuō),垃圾郵件正在或者很快會(huì)變?yōu)橐环N主要的威脅。
用于阻止垃圾郵件的關(guān)鍵的技術(shù)是使用過(guò)濾系統(tǒng)/方法。一種被證實(shí)的過(guò)濾技術(shù)是基于一種機(jī)器學(xué)習(xí)方法——機(jī)器學(xué)習(xí)過(guò)濾器分配給輸入消息一個(gè)該消息是垃圾郵件的概率。在這種方法中,典型地從兩種示例性消息(例如,垃圾郵件和非垃圾郵件消息)中提取特征,而且學(xué)習(xí)過(guò)濾器被應(yīng)用于在兩種類型之間進(jìn)行概率區(qū)分。由于多種消息特征與內(nèi)容(例如,在題目和/或者消息體中的單詞和短語(yǔ))相關(guān),所以這種類型的過(guò)濾器通常稱之為“基于內(nèi)容的過(guò)濾器”。
隨著這種垃圾郵件過(guò)濾技術(shù)的沖擊,許多垃圾郵件制作者已經(jīng)想出了偽裝它們身份以避免和/或者繞過(guò)垃圾郵件過(guò)濾器的方法。因此,在識(shí)別和阻止偽裝了的垃圾郵件消息中,傳統(tǒng)的基于內(nèi)容的和自適應(yīng)過(guò)濾器可能變得無(wú)效。
發(fā)明概述為了提供對(duì)本發(fā)明某些方面的一個(gè)基本的理解,下面給出了本發(fā)明的一個(gè)簡(jiǎn)單的概述。這種概述不是本發(fā)明大范圍的綜述。不是為了識(shí)別本發(fā)明關(guān)鍵的/重要的要素,或者描繪本發(fā)明的范圍。其唯一的目的是以簡(jiǎn)單的方式給出本發(fā)明的一些概念作為后面給出的更詳細(xì)描述的開(kāi)頭。
垃圾郵件制作者在它們的消息中幾乎能夠偽裝所有的信息。例如,它們能夠嵌入圖像,所以沒(méi)有作為用于機(jī)器學(xué)習(xí)系統(tǒng)的特征的字。圖像甚至可能以失真的方式使得使用ORC軟件變得困難,或者至少是耗時(shí)的。盡管如此,不管他們消除了多少特征,仍然存在有用的信息。首先,垃圾郵件制作者必須從某處發(fā)送該消息。我們能夠檢測(cè)消息是從哪個(gè)IP地址接收的。其次,垃圾郵件制作者幾乎總是試圖銷售某物,因此必須包括聯(lián)系他們的一種方式。這可能是免費(fèi)號(hào)碼,但是垃圾郵件制作者可能不愿使用該號(hào)碼,因?yàn)楸г垢叱杀?。其可能是非免費(fèi)號(hào)碼,但是因?yàn)檩^低的響應(yīng)率,垃圾郵件制作者可能不愿這樣做。作為選擇,其可能是一個(gè)URL(例如,http//www.spamcorp.com/buyenlarger.htm)。該URL可能被嵌入到一個(gè)圖像中,使得過(guò)濾器和/或者軟件更難檢測(cè)到它。然而,垃圾郵件制作者可能不愿這樣做,因?yàn)橛脩粜枰谒麄兊臑g覽器中鍵入該URL,其可能使響應(yīng)率較低。
對(duì)垃圾郵件制作者來(lái)說(shuō),最可能的聯(lián)系方式是嵌入鏈接,或者通過(guò)一個(gè)某種嵌入電子郵件地址。例如,“點(diǎn)擊這里可以了解更多”,其中“點(diǎn)擊這里”包括一個(gè)具體網(wǎng)頁(yè)的鏈接,根據(jù)本發(fā)明的一個(gè)方面,機(jī)器學(xué)習(xí)系統(tǒng)能夠檢測(cè)并使用該網(wǎng)頁(yè)。同樣,將要回復(fù)的地址(例如,典型地是“來(lái)自地址”,但有時(shí)是“回復(fù)”地址,如果存在一個(gè)的話),或者任何嵌入郵件到鏈接(允許通過(guò)點(diǎn)擊鏈接發(fā)送郵件消息的鏈接),或者任何其它電子郵件地址。另外,垃圾郵件制作者通常在消息中包括圖像。因?yàn)榉磸?fù)郵寄大量的圖像花費(fèi)很高,所以垃圾郵件制作者通常僅將一個(gè)特殊的鏈接嵌入到圖像中,這就會(huì)引起圖像被下載。這些鏈接點(diǎn)的位置也能夠作為特征被使用。
關(guān)于從來(lái)自地址的郵件,郵件回復(fù)地址,嵌入郵件到的地址,外部鏈接,以及外部圖像的鏈接中提取的信息,至少這種信息的一部分能被用作機(jī)器學(xué)習(xí)系統(tǒng)的一個(gè)特征,一個(gè)加權(quán)或者概率與之相關(guān)聯(lián)或者該信息可能被加入到一個(gè)列表中。例如,我們能夠保存列表,這些列表是IP地址,或者來(lái)自只發(fā)送垃圾郵件的地址,或者僅發(fā)送好郵件的地址,或者發(fā)送90%以上是好郵件的地址等。事實(shí)是,在這樣的列表上的一個(gè)特殊的鏈接或者地址既能夠被用作機(jī)器學(xué)習(xí)系統(tǒng)的一個(gè)特征,又能夠被用作任何其它垃圾郵件過(guò)濾系統(tǒng)的一部分,或者兩者。
本發(fā)明提供一種通過(guò)檢查消息的特定部分來(lái)易于識(shí)別偽裝的垃圾郵件消息的系統(tǒng)和方法。尤其是,本發(fā)明涉及處理一種諸如像電子郵件(電子郵件)這樣的消息以提取源和/或者目的地?cái)?shù)據(jù),來(lái)區(qū)分垃圾郵件消息和合法的消息。該處理方法包括識(shí)別和分析IP地址信息,電子郵件地址信息,和/或者通用資源定位器(URL)信息的各種技術(shù),以及將所提取的數(shù)據(jù)與垃圾郵件的屬性(例如,好的用戶對(duì)惡意的用戶,或者好的發(fā)件人對(duì)惡意的發(fā)件人)相關(guān)聯(lián)的各種技術(shù)。例如,一個(gè)惡意的用戶或者惡意的發(fā)件人將被認(rèn)為是一個(gè)垃圾郵件制作者(例如,發(fā)送垃圾郵件的那個(gè)人)。
所提取的數(shù)據(jù),或者至少其中的一部分能夠被用于為機(jī)器學(xué)習(xí)系統(tǒng)產(chǎn)生特征設(shè)置。機(jī)器學(xué)習(xí)技術(shù)檢查消息的內(nèi)容以確定該消息是否是垃圾郵件。垃圾郵件制作者能夠使消息的大部分內(nèi)容變得混亂,諸如通過(guò)將它們的大部分信息放入到難以處理的圖像中。然而,消息的起源不能被完全地偽裝,由于垃圾郵件制造者需要為收件人提供某種易于聯(lián)系它們的方式。這樣的實(shí)例包括使用一個(gè)鏈接(例如,URL)和/或者一個(gè)電子郵件地址(例如,IP地址)。這些類型的信息或變體,或其中的部分能被用作垃圾郵件檢測(cè)器的特征。尤其是,例如,該信息借助于機(jī)器學(xué)習(xí)系統(tǒng)能被用于訓(xùn)練一個(gè)垃圾郵件檢測(cè)器和/或者垃圾郵件過(guò)濾器。
本發(fā)明也能夠與父控制系統(tǒng)合作。父控制系統(tǒng)可能通知用戶該消息是不適宜的,而且也能夠表明這種不適宜的原因,諸如包括色情資料。根據(jù)本發(fā)明的一個(gè)方面,一個(gè)或者多個(gè)被提取的并且被規(guī)范化的特征(例如,URL)能夠通過(guò)一個(gè)父控制系統(tǒng)或者過(guò)濾器來(lái)獲得父控制系統(tǒng)的分類。這種分類可能被用作該機(jī)器學(xué)習(xí)系統(tǒng)的一個(gè)附加的特征以方便建立和/或者改善垃圾郵件過(guò)濾器。
此外,所提取的特征能夠通過(guò)類型來(lái)分類,能夠根據(jù)垃圾郵件的程度來(lái)加權(quán),而且能夠指明要么是肯定的(例如,很可能不是垃圾郵件),要么是否定的(很可能是垃圾郵件)特征。該特征也能夠被用于創(chuàng)建諸如非垃圾郵件制造者列表和垃圾郵件制造者列表這樣的列表。
為了完成上述和相關(guān)的目的,這里結(jié)合下面的描述和附圖描述了本發(fā)明的某些示例性的方面。然而,這些方面表明了可以使用本發(fā)明的原理的幾種不同的方式,而且本發(fā)明試圖包括所有的這些方面及其它們的等價(jià)物。當(dāng)結(jié)合附圖考慮時(shí),本發(fā)明的其它優(yōu)點(diǎn)和新的特征從下面本發(fā)明的詳細(xì)描述中將變得顯而易見(jiàn)。
附圖簡(jiǎn)述
圖1是根據(jù)本發(fā)明的一個(gè)方面的易于阻止垃圾郵件的一個(gè)系統(tǒng)的高級(jí)框圖;圖2是根據(jù)本發(fā)明的一個(gè)方面,通過(guò)從輸入的消息中提取一種或者多種特征以易于阻止垃圾郵件的系統(tǒng)的框圖。
圖3是根據(jù)本發(fā)明的一個(gè)方面,能夠從一個(gè)IP地址中提取的多個(gè)特征的示意性框圖。
圖4是根據(jù)本發(fā)明的一個(gè)方面,能夠從一個(gè)FQDN中提取的多個(gè)特征的示意性框圖。
圖5是根據(jù)本發(fā)明的一個(gè)方面,能夠從一個(gè)電子郵件地址中提取的多個(gè)特征的示意性框圖。
圖6是根據(jù)本發(fā)明的一個(gè)方面,能夠從一個(gè)URL或者網(wǎng)址中提取的多個(gè)特征的示意性框圖。
圖7是根據(jù)本發(fā)明的一個(gè)方面與訓(xùn)練過(guò)濾器有關(guān)的示例性方法的流程圖。
圖8是根據(jù)本發(fā)明的一個(gè)方面與使用一個(gè)訓(xùn)練過(guò)濾器有關(guān)的示例性方法的流程圖。
圖9是根據(jù)本發(fā)明的一個(gè)方面與創(chuàng)建一個(gè)列表有關(guān)的示例性方法的流程圖。
圖10是根據(jù)本發(fā)明的一個(gè)方面與使用一個(gè)列表來(lái)訓(xùn)練過(guò)濾器有關(guān)的示例性方法的流程圖。
圖11是根據(jù)本發(fā)明的一個(gè)方面,至少參考圖7和8的方法的處理過(guò)程的流程圖。
圖12是根據(jù)本發(fā)明的一個(gè)方面,易于在合法的和偽造的發(fā)件人的IP地址中作出區(qū)分的處理過(guò)程的流程圖。
圖13是根據(jù)本發(fā)明的一個(gè)方面,在來(lái)自輸入消息的特征的生成和提取中結(jié)合父控制系統(tǒng)的方法的流程圖。
圖14是根據(jù)本發(fā)明的一個(gè)方面,易于創(chuàng)建將在機(jī)器學(xué)習(xí)系統(tǒng)中使用的特征集的方法的流程圖。
圖15是用于實(shí)施本發(fā)明各個(gè)方面的一種示例性的環(huán)境。
發(fā)明詳述現(xiàn)在將參考附圖描述本發(fā)明,其中相似的參考數(shù)字完全被用于參照相似的元件。在下面的描述中,為了提供對(duì)本發(fā)明總體上的理解,出于解釋的目的,闡明了多個(gè)具體細(xì)節(jié)。然而,很顯然沒(méi)有這些具體的細(xì)節(jié)也可以實(shí)施本發(fā)明。在另外的例子中,為了便于描述本發(fā)明,以方框圖的形式示出了熟知的結(jié)構(gòu)和設(shè)備。
正如在該申請(qǐng)中所使用的,術(shù)語(yǔ)“組成部分”和“系統(tǒng)”是指與計(jì)算機(jī)相關(guān)的一個(gè)實(shí)體,要么是硬件,硬件和軟件的組合,軟件,要么是運(yùn)行中的軟件。例如,一個(gè)組成部分可能是,但不被限制為在處理器上運(yùn)行的一個(gè)處理過(guò)程,一個(gè)處理器,一個(gè)對(duì)象,一個(gè)可執(zhí)行的,一種執(zhí)行的線程,一段程序,和/或者一臺(tái)計(jì)算機(jī)。通過(guò)舉例說(shuō)明,在服務(wù)器上運(yùn)行的應(yīng)用程序和該服務(wù)器都可能是一個(gè)組成部分。一個(gè)或者多個(gè)組成部分可能駐留在一個(gè)處理器中,和/或者執(zhí)行的線程中,以及一個(gè)組成部分可以被定位在一臺(tái)計(jì)算機(jī)上,和/或者在兩臺(tái)或者多臺(tái)計(jì)算機(jī)之間分布。
本發(fā)明可能包括各種推斷方案和/或者技術(shù),這些方案和/或者技術(shù)是關(guān)于為學(xué)習(xí)垃圾郵件過(guò)濾的機(jī)器產(chǎn)生訓(xùn)練數(shù)據(jù)。正如在這里所使用的,術(shù)語(yǔ)“推斷”一般認(rèn)為是與推斷系統(tǒng)狀態(tài)的過(guò)程,環(huán)境,和/或者來(lái)自一組經(jīng)由事件和/或者數(shù)據(jù)而被捕獲的觀察的用戶有關(guān)。例如,推斷能夠被用于識(shí)別一個(gè)具體的上下文或者動(dòng)作,或者能夠產(chǎn)生基于狀態(tài)的概率分布。這種推斷可能是概率性的,即基于數(shù)據(jù)和事件的考慮,基于感興趣的狀態(tài)來(lái)計(jì)算概率分布。推斷也可能是指用于從一組事件和/或者數(shù)據(jù)中構(gòu)成更高級(jí)別事件的技術(shù)。這種推斷導(dǎo)致了從一組已觀察的事件和/或者所存儲(chǔ)的事件數(shù)據(jù)中構(gòu)造新的事件或者動(dòng)作,無(wú)論在密切臨時(shí)接近中的事件是否相關(guān)聯(lián),以及是否該事件和數(shù)據(jù)來(lái)自一個(gè)或者多個(gè)事件或者數(shù)據(jù)源。
應(yīng)當(dāng)理解盡管術(shù)語(yǔ)消息在整個(gè)說(shuō)明書(shū)中被廣泛的使用,但是這樣的術(shù)語(yǔ)并沒(méi)有從本質(zhì)上限制電子郵件,但是可能更適合于包括能夠在任何合適的通信結(jié)構(gòu)上分布的任何形式的電子消息。例如,易于在兩個(gè)或者多個(gè)人(例如,交互聊天程序,以及立即通知的程序)之間進(jìn)行會(huì)議的會(huì)議應(yīng)用和程序也能夠利用這里公開(kāi)的過(guò)濾的優(yōu)點(diǎn),由于不需要的文本在用戶交換消息時(shí),能夠被電子地散布到通常的聊天消息中,和/或作為開(kāi)始消息,結(jié)束消息被插入,或上述的全部。在這個(gè)特殊的應(yīng)用中,為了捕獲不希望的內(nèi)容(例如商業(yè)廣告節(jié)目,推銷做廣告,或廣告)并且將其加標(biāo)簽為垃圾郵件,過(guò)濾器能被訓(xùn)練為自動(dòng)過(guò)濾特殊的消息內(nèi)容(文本和圖像)。
在本發(fā)明中,術(shù)語(yǔ)“收件人”指引入消息或郵件內(nèi)容的地址。術(shù)語(yǔ)“用戶”可能指收件人或發(fā)件人,這由上下文而定。例如,用戶可能是指發(fā)送垃圾郵件的電子郵件用戶,和/或用戶可能是指接收垃圾郵件的電子郵件收件人,這由上下文和術(shù)語(yǔ)的應(yīng)用而定。
網(wǎng)際協(xié)議(IP)地址是一個(gè)32比特?cái)?shù)字,典型地代表國(guó)際互聯(lián)網(wǎng)上的一臺(tái)機(jī)器。在當(dāng)兩臺(tái)機(jī)器通信時(shí)使用這些數(shù)字。典型地以“XXX.XXX.XXX.XXX”的形式代表了它們,其中每個(gè)XXX在0和255之間。不幸地是,IP地址很難記憶。因?yàn)檫@個(gè)原因,就創(chuàng)造了“域名”和“主機(jī)名”協(xié)定?!坝蛎笔侵竾?guó)際互聯(lián)網(wǎng)上的一組機(jī)器的名字(可能是一臺(tái)機(jī)器),并且典型的形式為“x.com”,或“y.edu”,或“courts.wa.gov”。
一個(gè)正式域名(FQDN)是國(guó)際互聯(lián)網(wǎng)上的一臺(tái)特殊的機(jī)器,例如“b.x.com”或“c.y.edu”或“www.courts.wa.gov”,域名部分分別是“x.com”或“y.edu”或“courts.wa.gov”?!癰”“c”和“www”部分分別被稱為FQDN的主機(jī)名部分。通常,IP地址能被用在域名可能使用的任何情形中(例如“DN/IP”說(shuō)明兩種可能性存在)。而且通常,IP地址能被用在FQDN可能使用的任何情形中(例如“FQDN/IP”說(shuō)明兩種可能性存在)。一個(gè)電子郵件地址由用戶名和域名或IP地址(DN/IP)組成,例如“a@x.com”或“a@1.2.3.4”。在兩個(gè)例子中,用戶名都是“a”。
統(tǒng)一資源定位器(URL)典型的形式是″服務(wù)名稱FQDN/IP/url-path?!謇?,“http//www.microsoft.com/windows/help.htm”?!癶ttp”部分是服務(wù)器名。“/www.microsoft.com”部分是FQDN,以及“windows/help.htm”是URL路徑。這是某種URL的簡(jiǎn)化,但是對(duì)本發(fā)明來(lái)說(shuō)已經(jīng)是足夠了。
參考圖1,示出了根據(jù)本發(fā)明的一個(gè)方面的特征提取和訓(xùn)練系統(tǒng)100的大體的框圖。特征提取和訓(xùn)練系統(tǒng)100包括處理輸入消息110以便從消息中提取特征數(shù)據(jù)。這種特征能夠從至少一部分源和/或者目的地信息中提取,這些信息是在消息和/或者其變型中提供。尤其是,一個(gè)或者多個(gè)輸入消息110能夠通過(guò)系統(tǒng)100經(jīng)由消息接收部件120被接收。消息接收部件120能夠被定位在一個(gè)電子郵件或者消息服務(wù)器上,例如,用來(lái)接收輸入消息110。盡管某些消息(例如,至少一個(gè))對(duì)于現(xiàn)存的過(guò)濾器(例如,垃圾郵件,父控制過(guò)濾器)來(lái)說(shuō)是易于攻擊的,因此轉(zhuǎn)向了一個(gè)垃圾箱或者垃圾郵件文件夾中,至少部分的源和/或者目的地?cái)?shù)據(jù)能夠被提取或者被理解,用于與機(jī)器學(xué)習(xí)系統(tǒng)或者填充一個(gè)特征列表有關(guān)的用途。
消息接收部件120能夠?qū)⑤斎胂?,或者其中的一個(gè)子集傳遞到特征提取部件130。該特征提取部件130能夠從接收的消息110中提取數(shù)據(jù),以便產(chǎn)生特征集以方便過(guò)濾器訓(xùn)練和最終的垃圾郵件檢測(cè)。從消息中提取的數(shù)據(jù)或者特征與在其中被發(fā)現(xiàn)的和/或者嵌入的源和/或者目的地信息相關(guān)。數(shù)據(jù)或者特征的例子包括發(fā)件人的IP地址,回復(fù)的電子郵件地址,cc(例如,副本)電子郵件地址,各種URL(包括基于文本的鏈接,基于圖像的鏈接,以及以文本形式的URL或者其中的一部分),非長(zhǎng)途免費(fèi)電話號(hào)碼(例如,尤其是一個(gè)區(qū)號(hào)),長(zhǎng)途免費(fèi)的電話號(hào)碼,郵寄到電子郵件地址鏈接,文本形式的電子郵件地址,在SMTPHELO命令中的FQDN,SMTP MAIL FROM地址/返回路徑地址,以及/或者至少任何上述中的一部分。
特征提取部分130能夠執(zhí)行任何合適的數(shù)字處理,以便從消息110中提取各種特征集,隨后在機(jī)器學(xué)習(xí)系統(tǒng)中使用。另外作為選擇,特征集能被用于填充用于其它過(guò)濾器訓(xùn)練技術(shù)的列表。
例如,諸如a.x.com這樣的FQDN能夠被翻譯成一般被稱作IP地址的號(hào)碼。IP地址典型地以有點(diǎn)的十進(jìn)制的形式被觀察,包括4個(gè)數(shù)字?jǐn)?shù)據(jù)塊。每個(gè)數(shù)據(jù)塊分別由小數(shù)點(diǎn)或者點(diǎn)分開(kāi),而且每個(gè)數(shù)字?jǐn)?shù)據(jù)塊的范圍是從0到255,其中每個(gè)號(hào)碼的變化對(duì)應(yīng)于不同的英特網(wǎng)名稱。例如,a.x.com可能被翻譯為123.124.125.126,而121.124.125.126可能代表qustuv.com。因?yàn)閿?shù)字不如單詞容易識(shí)別或者記憶。IP地址通常通過(guò)它們各自的FQDN來(lái)被查閱。以有點(diǎn)的十進(jìn)制格式表示的相同的IP地址也能夠以可選擇的下面將要描述的形式被表示。
根據(jù)本發(fā)明的一個(gè)方面,特征提取部件130能夠集中到包括在消息110中的發(fā)件人IP地址。發(fā)件人IP地址至少部分地基于發(fā)件人IP信息。一般來(lái)說(shuō),在英特網(wǎng)上的郵件發(fā)送是從服務(wù)器到服務(wù)器的傳送,有時(shí)只包括兩個(gè)服務(wù)器(例如,一個(gè)發(fā)件人和一個(gè)收件人)。更罕見(jiàn)的一種情況是,客戶機(jī)能夠直接發(fā)送到一個(gè)服務(wù)器。在某些情況下,能夠包括更多的服務(wù)器,例如,由于防火墻的出現(xiàn),郵件或者消息能夠從一個(gè)服務(wù)器被發(fā)送到另一個(gè)服務(wù)器。尤其是,一些服務(wù)器能夠被定位在防火墻之內(nèi),因此這些服務(wù)器就僅能夠與防火墻另一側(cè)的指定的服務(wù)器進(jìn)行通信。這就引起了消息從發(fā)件人到收件人過(guò)程中,消息要經(jīng)過(guò)的跳數(shù)的增加。接收線路包含IP地址,以方便跟蹤消息的路徑來(lái)確定消息從哪里發(fā)起。
當(dāng)消息110從服務(wù)器到服務(wù)器傳播時(shí),每個(gè)被聯(lián)系的服務(wù)器將它從其接收消息的IP地址識(shí)別預(yù)先考慮到發(fā)送字段(即,接收的字段),也預(yù)先考慮服務(wù)器被斷定的FQDN的名字,該服務(wù)器正在與它對(duì)話。該FQDN由發(fā)送服務(wù)器通過(guò)SMTP協(xié)議的HELO命令告訴接收服務(wù)器,因此如果發(fā)送服務(wù)器在該體系結(jié)構(gòu)的外部時(shí),那么收到的FQDN就不可信。例如,該消息從具有5個(gè)預(yù)先考慮的IP地址和FQDN的線路中被接收五次,因此表明其已經(jīng)通過(guò)六個(gè)不同的服務(wù)器(即已經(jīng)通過(guò)5次),這些線路在相反的順序中被預(yù)先考慮(即最近的開(kāi)始)。然而,每個(gè)服務(wù)器都具有修改任何較低的(早期預(yù)先考慮的)線路的能力。當(dāng)消息已經(jīng)在多個(gè)服務(wù)器之間傳播時(shí),這可能尤其有問(wèn)題。因?yàn)槊總€(gè)中間的服務(wù)器都能夠改變?nèi)魏卧缙谒鶎?xiě)的(較低的)發(fā)件人線路。垃圾郵件制作者能夠預(yù)先考慮消息的發(fā)件人的偽IP地址,以偽裝發(fā)件人的IP信息或者垃圾郵件消息的發(fā)件人。例如,垃圾郵件消息可能最初出現(xiàn),好像其從trusteddomain.com被發(fā)送,因此錯(cuò)誤地顯示了到收件人的消息的真正的來(lái)源。
對(duì)于垃圾郵件軟件來(lái)說(shuō),容易地識(shí)別體系結(jié)構(gòu)之外的IP地址是重要的,該IP地址被發(fā)送到體系結(jié)構(gòu)內(nèi)部的服務(wù)器上。由于該IP地址被接收服務(wù)器寫(xiě)入,所以在該體系結(jié)構(gòu)內(nèi)部,其可能被作為一個(gè)正確的IP地址來(lái)對(duì)待。所有其它的在該體系結(jié)構(gòu)外部的IP地址都不被信任,由于它們被在體系結(jié)構(gòu)之外的服務(wù)器寫(xiě)入,因此,很可能被修改??赡艽嬖谠S多包括在到接收體系結(jié)構(gòu)的路徑中的發(fā)送服務(wù)器的IP地址,但是由于僅有一個(gè)地址能夠被信任,所以我們僅參考可信賴的這一個(gè)作為“發(fā)件人”的IP地址。
對(duì)于垃圾郵件過(guò)濾軟件來(lái)說(shuō),一種用于找到發(fā)件人IP地址的方法是弄清楚在一個(gè)體系結(jié)構(gòu)處的郵件服務(wù)器的配置。一般來(lái)說(shuō),如果一個(gè)服務(wù)器知道了哪一臺(tái)機(jī)器通過(guò)其它的在狀態(tài)中的機(jī)器,則其能夠確定發(fā)件人的IP地址。然而,描述服務(wù)器的配置,尤其對(duì)于安裝在email客戶機(jī)上的垃圾郵件過(guò)濾軟件來(lái)說(shuō),不是很方便的。一種可替換的方法包括利用MX記錄來(lái)確定消息的真正來(lái)源。MX記錄列表,用于每個(gè)域名,用于該域名的郵件收件人的FQDN。通過(guò)發(fā)件人的列表能夠跟蹤回一個(gè)IP地址,,直到發(fā)現(xiàn)一個(gè)IP地址為止,該IP地址對(duì)應(yīng)于一個(gè)FQDN,該FQDN對(duì)應(yīng)于在域名MX記錄中的一個(gè)實(shí)體。機(jī)器接收的IP地址是發(fā)件人的IP地址。想像1.2.3.101是用于x.com的唯一的MX記錄。然后,通過(guò)找到從1.2.3.101接收的線路,能夠知道對(duì)應(yīng)于x.com的輸入郵件服務(wù)器的下一個(gè)線路,因此在該線路中的IP地址對(duì)應(yīng)于發(fā)送到x.com的IP地址。
下表描述了一種示例性的分析,正如討論先前確定的消息的真正來(lái)源一樣
當(dāng)前,沒(méi)有用于列出輸出郵件服務(wù)器的可接受的標(biāo)準(zhǔn),例如,如果該啟發(fā)式的郵件服務(wù)器可能失敗的話,在一個(gè)體系結(jié)構(gòu)之內(nèi)的IP地址不同于在一個(gè)體系結(jié)構(gòu)之外的那些IP地址,或者如果一個(gè)體系結(jié)構(gòu)從MX記錄中列出的機(jī)器直接發(fā)送郵件到MX記錄中列出的另一個(gè)機(jī)器。此外,在特殊的情況下,即如上所述發(fā)件人的IP被發(fā)現(xiàn)是在體系結(jié)構(gòu)的內(nèi)部,如果在MX記錄中的一個(gè)機(jī)器可能發(fā)送到MX記錄中的另一個(gè)機(jī)器時(shí),如上所述的過(guò)程被繼續(xù)。另外,某個(gè)IP地址可能作為內(nèi)部的IP地址被檢測(cè)(因?yàn)樗鼈兪峭ㄟ^(guò)172.31.y.z,或者通過(guò)192.16 8.0.z的形式10.x.y.z或者172.16.y.z,一種僅用于內(nèi)部IP地址的形式)任何到達(dá)體系結(jié)構(gòu)內(nèi)部的IP地址都能夠被信任。最后,如果接收線路的形式是“從a..x.com[1.2.3.100]”并且a.x.com的IP地址的查找輸出1.2.3.100,或者反向的1.2.3.100的IP地址的查找輸出a..x.com,如果x.com是一個(gè)體系結(jié)構(gòu),那么下一個(gè)線路也可能是可信任的。
通過(guò)使用這些觀察,找到發(fā)件人的IP地址通常是可能的,示例性的偽代碼如下<pre listing-type="program-listing"><![CDATA[bool fFoundHost InMX;if(external IP address of MX records matches internal IP address of MX records){fFoundHost InMX=FALSE;#it’s worth looking for}else{fFoundHost InMX=TRUE;#it’s not worth looking forpretend we already fbund it}for each received from line of the form Received from a.b.c[i.j.k.l]{ifi.j.k.l in MX records of recerver domain{fFoundHost InMX=TRUE;continue;}if not fFoundHost InMx{#Has not yet gone through an MX record,must be internalcontinue;;}ifi.j.k.l is of form10.x.y.z or172.16.y.z to 172.31.y.z or192.168.0.z to 192.168.255.z{#Must be internalcontinue;}if DNS lookup of a.b.c yields i.j.k.l and b.c isreceiver domain{#Must be internal continue; } Output sender’s alleged FQDN a.b.c and sender’s actual IP address i.j.k.k } If we reach here,then Errorunable to identify sender’s alleged FQDN andsender’s actual IP address.]]></pre>利用發(fā)件人的IP地址,同時(shí)利用其它的源和目的地特征能夠做很多事情。首先,它們能一律被加到惡意發(fā)件人的列表中,有時(shí)候稱為Black列表。Black列表實(shí)際上能夠被用于過(guò)濾,阻止,或者重新定向一個(gè)不可信賴的消息到一個(gè)適當(dāng)?shù)奈募A或者它們能夠被進(jìn)一步調(diào)查的一個(gè)位置。
其它類型的列表也可能被產(chǎn)生并且作為過(guò)濾器在基于結(jié)構(gòu)的客戶機(jī)或者服務(wù)器上被使用。在客戶機(jī)結(jié)構(gòu)中,用戶能夠通知客戶機(jī)電子郵件軟件,他將從哪里接收郵件(例如,郵件列表,個(gè)人等)。對(duì)應(yīng)于可信的電子郵件地址的記錄的一個(gè)列表要么自動(dòng)要么手動(dòng)通過(guò)用戶產(chǎn)生。因此,想像具有電子郵件地址‘b@zyx.com’的發(fā)件人發(fā)送給用戶一個(gè)電子郵件消息。該發(fā)件人的電子郵件地址b@zyx.com包括用戶名‘b’,以及FQDN/IP‘zyx.com’。當(dāng)客戶機(jī)從發(fā)件人(b@zyx.com)接收輸入消息110時(shí),它能夠檢索一個(gè)用于用戶電子郵件地址的可信的發(fā)件人列表,以確定是否用戶已經(jīng)表明‘b@zyx.com’是一個(gè)有效的而且可信的地址。對(duì)于服務(wù)器結(jié)構(gòu)來(lái)說(shuō),該列表能夠被直接定位在服務(wù)器上。因此,當(dāng)消息到達(dá)消息服務(wù)器時(shí),它們的各個(gè)特征(例如,發(fā)件人的IP地址,在MAILFROM或者HELO字段中的域名,以及其它的源和/或者目的地信息)能夠與定位在消息服務(wù)器上的列表相比較。根據(jù)基于客戶或者基于服務(wù)器的傳送協(xié)議,確定是來(lái)自有效發(fā)件人的消息能被傳送到所希望的收件人。然而,確定包括了在有問(wèn)題的或者不好的特征列表中的源或者目的地特征的消息,能夠被移到垃圾郵件文件夾中以便刪除,或者相反被特別地處理。
作為一種填充可信的或者有害的源特征列表的選擇,發(fā)件人的源特征(例如,IP地址,合法的From地址)能夠被提取作為一個(gè)或者多個(gè)特征,而且日后與機(jī)器學(xué)習(xí)技術(shù)一同用于過(guò)濾器的建立和/或者訓(xùn)練。
IP地址能夠從一個(gè)消息首部的任何部分中的email地址(例如,在發(fā)送者的地址或者答復(fù)地址中有關(guān)FQDN的IP查詢)導(dǎo)出,或者從嵌入到消息實(shí)體中的一個(gè)URL鏈路的域名部分的IP地址查詢中導(dǎo)出,或者直接從IP地址中導(dǎo)出,如果其作為URL的FQDN/IP部分出現(xiàn)的話。此外,如后面將要描述的,IP地址具有若干種屬性,其中的每一種屬性能夠被用作機(jī)器學(xué)習(xí)系統(tǒng)的特征,或者用作用戶填充列表的一個(gè)元素。因此,在第二種方法中,特征提取部件130能夠采用IP地址的多個(gè)子部分來(lái)產(chǎn)生附加的特征。
如上所述任何特征的組合都能夠從各個(gè)輸入消息110中提取。典型地,盡管所有的消息都能被使用,但是消息能夠被隨機(jī)地,自動(dòng)地,和/或者手動(dòng)地選擇來(lái)參與到特征提取中。已提取的特征集實(shí)際上被應(yīng)用于一個(gè)過(guò)濾訓(xùn)練部件140,諸如機(jī)器學(xué)習(xí)系統(tǒng)或者任何其它的建立和/或者訓(xùn)練象垃圾郵件過(guò)濾器這樣的訓(xùn)練過(guò)濾器150的系統(tǒng)。
現(xiàn)在參考圖2,根據(jù)本發(fā)明的一個(gè)方面示出了一個(gè)特征提取系統(tǒng)200,該系統(tǒng)易于擺脫一個(gè)或者多個(gè)輸入消息210的特征的困惑,或者規(guī)范一個(gè)或者多個(gè)輸入消息210的特征。最后,至少部分地基于標(biāo)準(zhǔn)化的一個(gè)或者多個(gè)特征來(lái)建立一個(gè)過(guò)濾器。系統(tǒng)200包括一個(gè)特征提取部件220,例如,正如所示出的,其要么直接地要么間接地借助于一個(gè)消息收件人(圖1)來(lái)接收一個(gè)輸入信息210。根據(jù)用戶的優(yōu)先選擇,選擇用于特征提取的或者在特征提取中的輸入消息能夠受系統(tǒng)200支配。作為選擇,對(duì)于特征提取來(lái)說(shuō),實(shí)際上所有的輸入消息都可能是有效的。
特征提取包括抽取一個(gè)或者多個(gè)與來(lái)自消息210的源和/或者目的地信息相關(guān)聯(lián)的特征230(也被稱為FEATURE1232,F(xiàn)EATURE2234,和FEATUREM236,其中M是大于或等于1的整數(shù))。源消息可能與表明消息的發(fā)送者的元素,服務(wù)器域名,以及相關(guān)的規(guī)定了消息來(lái)源的標(biāo)識(shí)信息相關(guān)。目的地信息可能與的一個(gè)消息的元素相關(guān),該消息表明收件人發(fā)送其對(duì)消息的響應(yīng)給誰(shuí)或者到哪里。能夠在消息的首部以及消息體中發(fā)現(xiàn)源和目的地信息,對(duì)于消息收件人來(lái)說(shuō)要么是可見(jiàn)的要么是不可見(jiàn)的。
由于垃圾郵件制作者注意去偽裝并且/或者迷惑它們通過(guò)傳統(tǒng)的垃圾郵件過(guò)濾器檢測(cè)的能力,所以系統(tǒng)200包括一個(gè)特征標(biāo)準(zhǔn)化部件240,其易于擺脫一個(gè)或者多個(gè)被提取的特征230的困惑,或者至少其中的一部分。該特征標(biāo)準(zhǔn)化部件240能夠處理和/或者分解已提取的特征230,諸如通過(guò)分析已提取的特征230(例如,F(xiàn)QDN-查閱數(shù)據(jù)塊的目錄和MX記錄,和/或者根據(jù)其當(dāng)前的格式來(lái)翻譯FQDN),而且將它們與現(xiàn)存的垃圾郵件制作者列表,非垃圾郵件制作者,以及/或者父控制列表的數(shù)據(jù)庫(kù)作一個(gè)比較。在正如下文中圖4所討論的某些情況中,諸如當(dāng)已提取的特征是一個(gè)URL時(shí),前綴和/或者后綴可能也被刪除以便于規(guī)范化該特征,并且識(shí)別URL是否指向垃圾郵件制作者的網(wǎng)站,或者指向一個(gè)合法的源。
一旦特征被規(guī)范化,至少250的一個(gè)子集能夠通過(guò)諸如機(jī)器學(xué)習(xí)系統(tǒng)這樣的訓(xùn)練系統(tǒng)260來(lái)使用,以建立和/或者更新一個(gè)過(guò)濾器270。例如,該過(guò)濾器能夠被訓(xùn)練用于一個(gè)垃圾郵件過(guò)濾器。此外,能夠以肯定的特征來(lái)建立并且/或者訓(xùn)練過(guò)濾器,諸如表明非垃圾郵件來(lái)源(例如,發(fā)件人的From電子郵件地址,發(fā)件人的IP地址,嵌入式的電話號(hào)碼,以及/或者URL)這樣的特征,以及/或者非垃圾郵件發(fā)件人,以及以否定的特征,諸如識(shí)別并且與一個(gè)垃圾郵件制作者相關(guān)的特征。
作為選擇,特征集能夠被用于填充一個(gè)新的或者加入到一個(gè)現(xiàn)存的垃圾郵件特征列表280中。其它的列表也能夠被產(chǎn)生以對(duì)應(yīng)于特定的被提取的特征,諸如好的地址的列表,有害地址的列表,好的URL的列表,有害的URL的列表,好的電話號(hào)碼的列表,以及有害的電話號(hào)碼的列表。好的特征列表能夠識(shí)別非垃圾郵件制作者,過(guò)去的合法的發(fā)件人,和/或者具有較高可能性的非垃圾郵件(例如,90%的機(jī)會(huì)不是垃圾郵件來(lái)源)的發(fā)件人。相反,有害的特征列表可能對(duì)應(yīng)于垃圾郵件制作者,潛在的垃圾郵件制作者,以及/或者具有相對(duì)高的可能性的垃圾郵件(例如,大約90%的垃圾郵件來(lái)源)的發(fā)件人。
現(xiàn)在參考圖3-6,其中根據(jù)本發(fā)明的若干個(gè)方面示出了能夠分別從IP地址,F(xiàn)QDN,電子郵件地址和URL中導(dǎo)出并提取的示例性的特征,以方便檢測(cè)和阻止垃圾郵件。
圖3描述了根據(jù)本發(fā)明一個(gè)方面的IP地址300的示例性細(xì)分類。在以虛線的十進(jìn)制格式(每4個(gè)數(shù)據(jù)塊等于3位數(shù),其中每個(gè)數(shù)據(jù)塊通過(guò)周期來(lái)分開(kāi),而且其中3位數(shù)的每個(gè)數(shù)據(jù)塊是在0到255之間可除盡的任何數(shù)字)表示時(shí),IP地址300是32比特長(zhǎng),并且定位在數(shù)據(jù)塊(例如,網(wǎng)絡(luò)數(shù)據(jù)塊)中。這些數(shù)據(jù)塊被分配為諸如等級(jí)A,等級(jí)B和等級(jí)C這樣的等級(jí)。每個(gè)數(shù)據(jù)塊包括一組IP地址,其中每個(gè)數(shù)據(jù)塊的IP地址的數(shù)量根據(jù)種類而不同。也就是說(shuō),可能存在或多或少的分配給每個(gè)數(shù)據(jù)塊的地址,這取決于種類(即,A,B或者C)。數(shù)據(jù)塊的尺寸通常是2的冪次,并且在同一個(gè)數(shù)據(jù)塊中的IP地址的集合將分享最初的k個(gè)二進(jìn)制數(shù)字,而且不同于最后的32-k(例如,32減去k)個(gè)二進(jìn)制數(shù)字。因此,根據(jù)每個(gè)數(shù)據(jù)塊所分得的最初的k個(gè)比特,每個(gè)數(shù)據(jù)塊都能夠被識(shí)別(數(shù)據(jù)塊ID302)。為了確定與特定IP地址300相關(guān)聯(lián)的數(shù)據(jù)塊ID302,用戶能夠查閱諸如arin.net這樣的數(shù)據(jù)塊的目錄。此外,數(shù)據(jù)塊ID302能夠被提取并且用作一個(gè)特征。
然而,在某些情況下,數(shù)據(jù)塊ID302不能被容易地確定,甚至通過(guò)arin.net,因?yàn)樵谝粋€(gè)數(shù)據(jù)塊中的IP地址的組合能夠被分開(kāi)出售,并且重復(fù)出售多次。在某些情況下,在數(shù)據(jù)塊ID302處,對(duì)于各個(gè)IP地址來(lái)說(shuō),用戶或者提取系統(tǒng)能夠作出一種或者多種推測(cè)。例如,用戶能夠提取至少最初的1個(gè)比特304,最初的2個(gè)比特306,最初的3個(gè)比特308,最初的M個(gè)比特310(即,M是大于或者等于1的整數(shù))和/或者等于至少最初的31比特312作為分開(kāi)的特征,對(duì)于隨后通過(guò)一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)和/或者作為有關(guān)特征列表(例如,好的特征列表,垃圾郵件特征列表等等)的元素使用來(lái)說(shuō)。
例如,實(shí)際上,IP地址最初的1比特能夠被提取并用作一個(gè)特征,來(lái)確定是否該IP地址指向一個(gè)垃圾郵件制作者或者非垃圾郵件制作者。來(lái)自其它IP地址的從其它消息中提取的最初的1比特能夠被比較,以方便確定至少一個(gè)數(shù)據(jù)塊ID。然后,識(shí)別至少一個(gè)數(shù)據(jù)塊ID能夠幫助鑒別該消息是否來(lái)自一個(gè)垃圾郵件制作者。此外,共享最初M個(gè)比特的IP地址能夠與它們的其它被提取的特征相比較,以確定該IP地址是否來(lái)自合法的發(fā)件人和/或者相應(yīng)的消息是否是垃圾郵件。
IP地址也能夠按照體系(314)來(lái)排列。也就是說(shuō),一組高位比特可以被定位到一個(gè)特定的國(guó)家。那個(gè)國(guó)家能夠定位一個(gè)子集到ISP(英特網(wǎng)服務(wù)提供商),以及該ISP可以定位一個(gè)子集到一家特定的公司。相應(yīng)地,不同的級(jí)別對(duì)于同一個(gè)IP地址來(lái)說(shuō)是有意義的。例如,來(lái)自一個(gè)定位在韓國(guó)的IP地址能夠在確定IP地址是否與垃圾郵件制作者相關(guān)中使用。如果該IP地址是定位到以嚴(yán)格地政策來(lái)反對(duì)垃圾郵件制作者的ISP的數(shù)據(jù)塊的一部分,則這也可能在確定IP地址與一個(gè)垃圾郵件制作者不相關(guān)的過(guò)程中是有用的。因此,通過(guò)使用IP地址的最初的1-31個(gè)比特中的每一個(gè),結(jié)合IP地址的至少一個(gè)子集的排列體系314,一個(gè)用戶能夠自動(dòng)的在不同的級(jí)別得到信息,而實(shí)際上不知道IP地址被定位的方式(例如,不知道數(shù)據(jù)塊ID)。
除了上面討論的特征之外,一種稀有的特征316(例如,特征的出現(xiàn)不是很普遍的)能夠通過(guò)運(yùn)行適當(dāng)?shù)倪\(yùn)算和/或者使用比較頻率和計(jì)數(shù)的統(tǒng)計(jì)數(shù)據(jù)來(lái)確定,其中例如在輸入消息的抽樣中出現(xiàn)的特征。實(shí)際上,不常用的IP地址300可以是被用于發(fā)送電子郵件的撥號(hào)上網(wǎng)線路的一個(gè)例子,其通常由垃圾郵件制作者使用。垃圾郵件制作者嘗試經(jīng)常修改它們的身份和/或者位置。因此,一個(gè)特征可能經(jīng)?;蛘卟唤?jīng)常是有用的信息。因此,稀有的特征316能夠被用作機(jī)器學(xué)習(xí)系統(tǒng)的一個(gè)特征和/或者作為至少一個(gè)列表(例如,稀有特征列表)的一部分。
圖4示出了FQDN400的示例性特征的細(xì)分類,諸如用于Example.b.x.xom。例如,F(xiàn)QDN400能夠從一個(gè)HELO域中提取(例如,發(fā)件人的合理的FQDN),并且典型地包括一個(gè)主機(jī)名402,和域名404。主機(jī)名402是指一個(gè)特定的計(jì)算機(jī),其是例子中的“b”。域名404是指至少在英特網(wǎng)上的一個(gè)機(jī)器或者一組機(jī)器的名字。在該實(shí)例中,“x.com”表示域名404。FQDN400體系的細(xì)分類由406表示。尤其是,B.X.com408(整個(gè)FQDN400)能被部分地剝離到X.com410(部分FQDN),然后被剝離到COM412(部分FQDN),由此每個(gè)FQDN部分都能被用作一個(gè)特征。
某些特征,諸如從信息中接收的特征,首先以IP地址的形式存在。因此,將FQDN400轉(zhuǎn)換到IP地址300可能是有用的,該IP地址又能夠細(xì)分為另外的特征(如圖3所示),因?yàn)閯?chuàng)建一個(gè)新的主機(jī)名和域名是相對(duì)容易的,但是獲得一個(gè)新的IP地址是相當(dāng)困難的。
不幸的是,域的主人顯然能夠使不同的機(jī)器全部映象到同一個(gè)位置。例如,命名為“a.x.com”的機(jī)器的主人可能與“b.x.com”的主人是一樣的,其可能是“x.com”的同一個(gè)主人。因此,垃圾郵件制作者能夠容易地誤導(dǎo)一個(gè)傳統(tǒng)的過(guò)濾器以確信該消息是來(lái)自FQDN400“b.x.com”而不是來(lái)自域404“x.com”,因此實(shí)際中允許消息通過(guò)垃圾郵件過(guò)濾器,域404“x.com”已經(jīng)表明了該消息是垃圾郵件或者很可能是垃圾郵件。因此,在提取消息的源和/或者目的地信息時(shí),剝離該地址以簡(jiǎn)化域名404是有用的。作為選擇,整個(gè)FQDN400能夠作為一個(gè)特征被提取。
在某些情況下,附加的來(lái)源是有效的,諸如父控制系統(tǒng)。這種資源通常能夠?yàn)橹鳈C(jī)名字和/或者URL分配一種“類型”或者質(zhì)量評(píng)估,諸如色情或者暴力。通過(guò)使用這樣一種資源,該提取的信息能夠進(jìn)一步通過(guò)“類型”來(lái)分類。該特征的特征類型414連同建立和/或者學(xué)習(xí)與垃圾郵件相關(guān)的改進(jìn)的過(guò)濾器一起,能夠被用作附加的特征。作為選擇,能夠產(chǎn)生對(duì)應(yīng)于不同的先前已經(jīng)識(shí)別的特征類型的列表。特征類型414可能包括,但是不被限制為,性和色情相關(guān)的特征,種族和/或者憎限的語(yǔ)言相關(guān)的特征,物理增加特征,收入或者財(cái)務(wù)解決方案特征,家庭購(gòu)買(mǎi)力特征等,其一般識(shí)別消息的主題。
最后,稀有的特征316或者特征類型(見(jiàn)上文中的圖3)可能是如上在圖3中所討論的另一個(gè)特征。例如,從一個(gè)消息中提取的諸如來(lái)自FQDN400“b.x.com”的主機(jī)名“B”402這樣的特征,可能是特征類型的一般的例子色情資料。因此,當(dāng)該特征從消息中提取并且發(fā)現(xiàn)了關(guān)于色情資料特征的列表時(shí),可能得出結(jié)論即該消息很可能是垃圾郵件,或者對(duì)于所有的年齡是不合適/不恰當(dāng)?shù)?,或者?gòu)成了成人內(nèi)容(例如,成人電視節(jié)目),等等。因此,每個(gè)列表可能包括最普通的特定類型的特征。作為選擇,對(duì)應(yīng)的IP地址通??赡茉诶]件消息中被發(fā)現(xiàn),因此指定作為垃圾郵件的公共的特征。此外,特征的通用性和/或者稀有性能夠被用作一個(gè)用于機(jī)器學(xué)習(xí)或者其它基于系統(tǒng)的規(guī)則的單獨(dú)的特征。
圖5示出了電子郵件地址500的示例性特征的細(xì)分類a.@b.x.com,其包括FQDN400以及少量附加的特征,諸如用戶名502。該email地址500能夠從From字段中提取,cc(副本)字段和消息的響應(yīng)字段,以及來(lái)自任何的郵寄到在消息(例如,郵寄到鏈接是一種特定種類的鏈接,產(chǎn)生到一個(gè)特定地址的郵件)體中的鏈接,以及,如果有效,則來(lái)自在SMTP協(xié)議中使用的MAIL FROM命令。電子郵件地址500也能被嵌入到消息的文本中。在某些情況下,在響應(yīng)該消息時(shí),該消息的內(nèi)容可能指導(dǎo)收件人使用“答復(fù)所有人”的功能。在這種情況下,在cc字段中的地址和/或者至少這些地址中的一部分包括在也將被答復(fù)的“to”字段中(如果超過(guò)一個(gè)收件人被列出)。因此,這些地址中的每一個(gè)能夠被提取作為一個(gè)或者多個(gè)特征,以便于識(shí)別和阻止垃圾郵件制作者。
Emai地址500‘a(chǎn).@b.x.com’能夠被分解為各個(gè)要素或者子部分,而且這些要素能夠被提取并用作特征。另外,電子郵件地址包括一個(gè)用戶名稱502和FQDN504(例如,見(jiàn)圖4中的FQDN400),其甚至能夠被進(jìn)一步分解到另外的特征中。出于幾種實(shí)際的原因,諸如使用,識(shí)別和承認(rèn),電子郵件地址通常使用FQDN而不是IP地址被標(biāo)記。
在當(dāng)前的實(shí)例中,‘a(chǎn).@b.x.com’包括用戶名502‘a(chǎn).’。因此,‘a(chǎn).’能夠被提取作為一個(gè)特征。同樣,F(xiàn)QDN504‘b.x.com’能夠從電子郵件地址中提取作為至少一個(gè)另外的特征。電子郵件地址500的FQDN504部分能夠通過(guò)一個(gè)父控制系統(tǒng),以方便確定特征類型414,其在上面的圖4中作了詳細(xì)的描述。因此,與電子郵件地址500的FQDN部分相關(guān)的特征類型能夠被用作另外的特征。
另外的電子郵件地址,垃圾郵件制作者通常通過(guò)URL來(lái)聯(lián)系。圖6根據(jù)本發(fā)明的一個(gè)方面,描述了一種示例性的URL600(例如,x.y.com/a./b/c)連同多個(gè)被提取的特征。URL600能夠被嵌入到消息的文本中,和/或者作為消息文本的一個(gè)圖像。例如,垃圾郵件消息可能包括到網(wǎng)站的指針,因此將收件人引到垃圾郵件制作者的網(wǎng)頁(yè)或者相關(guān)的站點(diǎn)。
URL可能以與IP地址同樣的方式來(lái)擺脫困惑。最初,諸如http//,http s//,ftp//,telnet//這樣的任何的前綴(服務(wù)名稱)能夠在URL600擺脫困惑之前被刪除。另外,如果“@”符號(hào)(例如%40是十六進(jìn)制的符號(hào))出現(xiàn)在URL之中,則在前綴(例如http//)和“@”符號(hào)之間的任何東西可能在規(guī)范化該URL400之前被刪除。在前綴和“@”符號(hào)之間插入文本可能是另外一種形式的欺騙,這種欺騙是由垃圾郵件制作者用來(lái)迷惑消息收件人被引入的真實(shí)的網(wǎng)頁(yè)位置。
例如,http://www.amazon.com@121.122.123.124/in fo.htm被送至消息收件人,好像該網(wǎng)頁(yè)被定位在www.amazon.com。因此,收件人可以更加傾向于信任該鏈接,尤其重要的是消息的發(fā)送者。相反,真正的網(wǎng)頁(yè)定位在121.122.123.124,其實(shí)際上對(duì)應(yīng)于與垃圾郵件相關(guān)的網(wǎng)頁(yè)。然而,在某些情況下,合法的發(fā)件人可以結(jié)合鑒權(quán)信息,諸如在URL400部分的登錄名和密碼,以方便自動(dòng)登錄。
一旦規(guī)范化并且擺脫了困惑,URL600實(shí)際上就能夠表達(dá)為x.y.com/a/b/c,其中x.y.com630是機(jī)器(FQDN)的名字,而a/b/c(例如后綴)是在機(jī)器上文件的位置。如果x.y.com/a/b/c600識(shí)別一個(gè)垃圾郵件制作者,則x.y.com/a/b610和x.y.com/a620很可能識(shí)別相同的或者相關(guān)的垃圾郵件制作者。因此,URL600的結(jié)束部分或者路徑每次都能被剝離一部分,以獲得用于機(jī)器學(xué)習(xí)系統(tǒng)或者列表的附加的特征。這就使得對(duì)于垃圾郵件制作者來(lái)說(shuō),建立多種不同的位置就變得更加的困難,這些位置實(shí)際上都是以某種沒(méi)有注意到的模式的方式指向它們。
當(dāng)后綴被剝離時(shí),F(xiàn)QDN630也能夠進(jìn)一步分析以獲得附加的特征,正如先前在圖4中所討論的。此外,F(xiàn)QDN630也能被轉(zhuǎn)換為一個(gè)IP地址,正如在圖3中所描述的。因此,各種與IP地址相關(guān)的特征也能被用作特征。
以IP地址而不是FQDN(例如,打點(diǎn)的十進(jìn)制形式)來(lái)編寫(xiě)某些URL,諸如nnn.nnn.nnn.nnn/a./b/c。這些后綴能夠從“c”開(kāi)始逐級(jí)逐次被刪除,最終的(部分的)URL能夠被用作一特征(例如,nnn.nnn.nnn.nnn/a/b,nnn.nnn.nnn.nnn/a,nnn.nnn.nnn.nnn都是可能的從URL中以打點(diǎn)的十進(jìn)制形式來(lái)提取的特征)。接下來(lái),IP地址(例如,沒(méi)有后綴和前綴)能被用作一個(gè)特征。然后,其能被映射到網(wǎng)絡(luò)數(shù)據(jù)塊。如果該網(wǎng)絡(luò)數(shù)據(jù)塊不是可確定的,則可能作出多種推測(cè),使用前1,2…中的每一個(gè),直到IP地址的前31個(gè)比特為止作為獨(dú)立的特征(見(jiàn)圖3)。
除了打點(diǎn)的十進(jìn)制格式以外,該IP地址能夠以雙字的格式(例如,在基數(shù)10中的兩個(gè)每個(gè)16比特的二進(jìn)制字),八進(jìn)制的格式(例如,基數(shù)是8)以及十六進(jìn)制的格式(例如,基數(shù)是16)來(lái)表達(dá)。實(shí)際上,垃圾郵件制作者能夠混亂一個(gè)IP地址,一個(gè)URL,一個(gè)MAILTO的鏈接,以及/或者例如,通過(guò)使用%nn符號(hào)(其中nn是一對(duì)十六進(jìn)制數(shù)字)來(lái)編碼域名部分的一個(gè)FQDN。
某些URL可能包括可以用于干擾或者欺騙用戶的重定向器。重定向器是在URL的IP地址中跟隨一個(gè)“?”的參數(shù)或者參數(shù)集,該URL指示一個(gè)瀏覽器重新將其定向到另一個(gè)網(wǎng)頁(yè)。例如,該URL可以以“www.intendedpage.com?www.actualpage.com”出現(xiàn),其中瀏覽器實(shí)際上指向″www.actualpage.com″,而且加載該頁(yè)而不是預(yù)料中的“www.intendedpage.com”頁(yè)。因此,包括在URL中的參數(shù)也可能考慮被提取作為特征。
現(xiàn)在將通過(guò)一連串的動(dòng)作來(lái)描述根據(jù)本發(fā)明的各種方法。應(yīng)當(dāng)理解本發(fā)明沒(méi)有被動(dòng)作的順序所限制,從這里所描述和示出的可知,根據(jù)本發(fā)明的一些順序可能以不同的順序出現(xiàn),或者與其它動(dòng)作并行出現(xiàn)。例如,本領(lǐng)域的普通技術(shù)人員將理解一種方法可選擇性地被表示為一系列相關(guān)聯(lián)的狀態(tài)或者事件,諸如在正式的圖中。此外,不是所有的示例性的動(dòng)作都可能需要執(zhí)行根據(jù)本發(fā)明的方法。
參考圖7,示出了示例性過(guò)程700的流程圖,該過(guò)程便于根據(jù)本發(fā)明的一個(gè)方面來(lái)訓(xùn)練過(guò)濾器。過(guò)程700可能以在710處接收一個(gè)消息(例如,至少一個(gè)消息)開(kāi)始。該消息能夠通過(guò)一個(gè)收件人來(lái)接收,例如,其中一個(gè)現(xiàn)存的過(guò)濾器(例如,一個(gè)垃圾郵件過(guò)濾器)能夠分類該消息可能是垃圾郵件或者不可能是垃圾郵件,至少部分地基于一組提前通過(guò)過(guò)濾器學(xué)習(xí)的標(biāo)準(zhǔn)。該消息能夠被分析以便在720處從中提取一個(gè)或者多個(gè)特征。在725(在下文的圖11中)處進(jìn)一步詳細(xì)地描述了特征的提取。特征的實(shí)例包括定位在接收字段,答復(fù)字段,cc字段,郵寄到(mailto)字段,MAIL FROM SMTP命令,HELO字段,嵌入到文本中的或者作為一個(gè)圖像的URL地址,和/或者非長(zhǎng)途免費(fèi)的電話號(hào)碼(例如,映射到地理上的區(qū)域的電話區(qū)號(hào)),以及消息體內(nèi)容部分中的信息(例如,發(fā)件人的IP地址)。
所提取的特征(和/或者規(guī)范化)以及消息的分類(例如,垃圾郵件或者非垃圾郵件)能夠在730處被加到一組訓(xùn)練數(shù)據(jù)中。對(duì)于所有其它的輸入消息來(lái)說(shuō),在740,上述所有的(例如,710,720和730)實(shí)際上都能被重復(fù),直到它們能夠被相應(yīng)地處理為止。在750,所出現(xiàn)的特征可能是有用的,或者最有用的特征能夠從訓(xùn)練集中選擇。這種選擇的特征能夠被用于訓(xùn)練一個(gè)過(guò)濾器,諸如機(jī)器學(xué)習(xí)過(guò)濾器,例如,在760處借助于機(jī)器學(xué)習(xí)算法。
正如圖8中通過(guò)一個(gè)示例性的方法800所描述的,一旦被訓(xùn)練,一個(gè)機(jī)器學(xué)習(xí)過(guò)濾器就能夠被用于方便垃圾郵件的檢測(cè)。該方法800以在810接收一個(gè)消息開(kāi)始。在820處,一個(gè)或多個(gè)特征從該消息中被提取,正如在下文圖11中所描述的。例如,在830,被提取的特征通過(guò)一個(gè)過(guò)濾器,該過(guò)濾器通過(guò)一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)來(lái)訓(xùn)練。接下來(lái),從機(jī)器學(xué)習(xí)系統(tǒng)中獲得一個(gè)諸如“垃圾郵件”、“非垃圾郵件”、或者消息可能是垃圾郵件的概率這樣的判定。一旦獲得有關(guān)消息內(nèi)容的判定,就能夠獲得合適的動(dòng)作。動(dòng)作的類型包括,但不被限制為,檢測(cè)消息,將消息移動(dòng)到一個(gè)特殊的文件夾中,隔離該消息,以及允許收件人訪問(wèn)該消息。
作為選擇,基于動(dòng)作的列表能夠以從消息中提取的特征來(lái)執(zhí)行。參考圖9,示出了示例性過(guò)程900的一個(gè)流程圖,用于建立并且填充列表,至少部分地基于所提取的特征和它們?cè)谒邮招畔⒅械某霈F(xiàn),這些信息被分類作為垃圾郵件或者非垃圾郵件(或者可能是垃圾郵件)。過(guò)程900通過(guò)接收一個(gè)消息開(kāi)始。接下來(lái),在920處提取一些感興趣的特征,諸如發(fā)送IP地址的消息。例如,在接收了消息之后的某個(gè)時(shí)間,通過(guò)現(xiàn)存的過(guò)濾器,該消息能夠被分為垃圾郵件或者非垃圾郵件。在930處,根據(jù)消息的分類(例如,垃圾郵件或者非垃圾郵件)能夠增加特征的計(jì)數(shù)。這會(huì)在940處重復(fù)直到實(shí)際上所有的消息都被處理為止(例如,在910,920和930處)。此后,在950處,能夠創(chuàng)建一個(gè)特征列表。例如,能夠?yàn)镮P地址創(chuàng)建一個(gè)特征列表,該IP地址90%是好的(例如,輸入消息的90%是非垃圾郵件)。同樣,另一個(gè)用于90%都是有害(垃圾郵件)的發(fā)件人IP地址的列表也能被創(chuàng)建。用于其它特征的列表也能夠以同樣的方式創(chuàng)建。
應(yīng)當(dāng)理解這些列表可能是動(dòng)態(tài)的。也就是說(shuō),當(dāng)處理另外的新的消息組時(shí),它們可能被更新。因此,對(duì)發(fā)件人的IP地址來(lái)說(shuō),首先發(fā)現(xiàn)好的列表是可能的;然后,在之后的某個(gè)時(shí)間,發(fā)現(xiàn)一個(gè)不好的列表,就象對(duì)于某些垃圾郵件制作者來(lái)說(shuō),實(shí)際上首先發(fā)送好的郵件(例如,獲得“可信的”過(guò)濾器以及收件人),然后才開(kāi)始發(fā)送垃圾郵件是很普遍的。
可能以不同的方式來(lái)利用這些列表。例如,它們可能被用于產(chǎn)生通過(guò)機(jī)器學(xué)習(xí)系統(tǒng)使用的訓(xùn)練集,以便訓(xùn)練過(guò)濾器。這通過(guò)圖10中描述的示例性的過(guò)程1000可以得到。根據(jù)圖10,過(guò)程1000能通過(guò)在1010上接收一個(gè)消息開(kāi)始。該消息能被分類,例如,分為垃圾郵件或非垃圾郵件。在1020上,包括但不限于發(fā)件人的IP地址的特征能夠從該消息中被提取。在1030上,被提取的特征和消息的分類被加到一個(gè)訓(xùn)練集上,其隨后被用于訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)。
接下來(lái),在1040上,與發(fā)件人的IP地址在其上的特殊列表相符合的一個(gè)具體特征被包括在訓(xùn)練集中。例如,如果發(fā)件人的IP地址在“90%好”列表上,則被加到訓(xùn)練集的特征將是“90%好列表”。在1050上,前述的步驟(例如1010,1020,1030,和1040)能被重復(fù)來(lái)隨后處理所有的輸入消息。對(duì)于過(guò)濾器訓(xùn)練的目的來(lái)說(shuō),因?yàn)檫@些特征可能比其它的特征更有用。最有用的特征部分地基于1060上的用戶優(yōu)先權(quán)被選擇,并且被用于通過(guò)使用機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練諸如垃圾郵件過(guò)濾器這樣的過(guò)濾器。
此外,例如IP地址的動(dòng)態(tài)列表能被構(gòu)造以用于與測(cè)試消息,新消息,和/或可疑的消息相比較。然而,在這種情況中,IP地址本身不是特征。而IP地址的屬性是特征。作為選擇,這些列表能以其它方式被利用。尤其是,例如,可疑IP地址的列表能被用來(lái)將發(fā)件人標(biāo)記為有害的,并且相應(yīng)地以可疑的方式來(lái)處理他們的消息。
現(xiàn)在轉(zhuǎn)到圖11,示出了與上述圖7-10分別描述的過(guò)程700,800,900和1000相結(jié)合,從消息中提取特征的示范性方法1100的流程圖。方法1100能夠在接收的IP地址中開(kāi)始,其中的一部分被提取并且在1110上被規(guī)范化。而且在1110上,為了從接收的IP地址中提取附加的特征,該IP地址可能經(jīng)歷比特方式處理(例如,如圖3中討論的,前1個(gè)比特,前2個(gè)比特,直到前31個(gè)比特為止)。此外,發(fā)件人的宣稱的主機(jī)名也可能在1110上被提取。規(guī)范化的被接收的IP地址和發(fā)件人主機(jī)名特征現(xiàn)在能被用作計(jì)算機(jī)學(xué)習(xí)系統(tǒng)或相關(guān)的訓(xùn)練系統(tǒng)的特征。
隨意地,在1120上,“From”行的內(nèi)容能被提取和/或規(guī)范化,并且隨后被用作特征。在1130上,“MAIL FROM SMTP”命令的內(nèi)容同樣能被提取和/或被規(guī)范化用作特征。
然后方法1100能繼續(xù)尋找其它的可能被包括在消息中的特征。例如,它可以隨意地提取和規(guī)范化(如果必要)1140上的答復(fù)字段中的內(nèi)容。在1150上,cc字段的內(nèi)容能隨意地被提取或被規(guī)范化來(lái)用作至少一個(gè)特征。在1160上,非長(zhǎng)途的免費(fèi)電話號(hào)碼從消息體中能被隨意提取并且也被指定為特征。非電話的號(hào)碼對(duì)于識(shí)別垃圾郵件制作者來(lái)說(shuō)可能是有用,因?yàn)閰^(qū)號(hào)或電話號(hào)碼的前三位數(shù)字能被用來(lái)映射出垃圾郵件制作者的位置。如果不止一個(gè)非長(zhǎng)途的免費(fèi)電話號(hào)碼存在于消息中,那么每個(gè)號(hào)碼都能被提取并且在1160上用作分離的特征。
同樣地,一個(gè)或多個(gè)URL和/或MAILTO鏈接或其中的部分,能分別在1170和1180上被隨意地提取和/或規(guī)范化。尤其是,URL可能經(jīng)歷路徑剝離(例如URL的文件名部分),其中附加在URL的FQDN末端的一個(gè)或多個(gè)后綴可能被剝離。這就可能依賴于路徑中的后綴的數(shù)字,導(dǎo)致一個(gè)或多個(gè)部分URL。根據(jù)本發(fā)明,每個(gè)部分URL能被用作分離的特征。
方法1100能繼續(xù)掃描消息體來(lái)查找其它的電子郵件地址,也查找關(guān)鍵字和/或短語(yǔ),其在垃圾郵件消息中比在合法消息更可能被找到,反之亦然。每個(gè)字或短語(yǔ)能被提取并且用作計(jì)算機(jī)學(xué)習(xí)系統(tǒng)的特征或列表單元的特征,或兩者。
如前面所討論,在Internet上被發(fā)送的消息可能是從服務(wù)器到服務(wù)器發(fā)送,少到只包括兩臺(tái)服務(wù)器。與消息有聯(lián)系的服務(wù)器的數(shù)量會(huì)由于防火墻和相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu)的出現(xiàn)而增加。當(dāng)消息從服務(wù)器到服務(wù)器被傳送時(shí),各個(gè)服務(wù)器預(yù)先考慮其從字段中接收的IP地址。每個(gè)服務(wù)器也具有修改任何容易考慮的接收地址的能力。不幸的是,垃圾郵件制作者能夠利用這種能力的優(yōu)點(diǎn),而且能夠進(jìn)入在接收字段中的偽裝的地址,以區(qū)分它們的位置和/或者身份,并且誤導(dǎo)收件人有關(guān)消息的來(lái)源。
圖12示出了一個(gè)用于在輸入消息的接收線路中區(qū)分合法的和偽裝的(例如,垃圾郵件制作者)預(yù)先考慮的服務(wù)器IP地址的示范性過(guò)程1200的流程圖。以它們被加入的順序(例如,第一個(gè)是最近被加入的)能夠檢查該預(yù)先考慮的接收地址。因此,用戶能夠通過(guò)發(fā)送服務(wù)器IP地址的鏈接來(lái)追溯,以在1210確定最后確信的服務(wù)器IP地址。在1220處,最后確認(rèn)的服務(wù)器IP地址(完全在體系結(jié)構(gòu)之外的那一個(gè))能夠被提取作為將被機(jī)器學(xué)習(xí)系統(tǒng)使用的特征。任何其它的在最后確信的IP地址之后的IP地址可能是有疑問(wèn)的,不可靠的,而且可能被忽略,但是能夠與好的(大部分)IP地址的列表和(大部分)不好的IP地址的列表相互比較。
在1230處,發(fā)件人合理的FQDN也能夠被提取以便于確定發(fā)件人是否是合法的或者是一個(gè)垃圾郵件制作者。尤其是,合法的FQDN能夠通過(guò)域名剝離而被細(xì)分類,以產(chǎn)生一個(gè)或者多個(gè)部分FQDN。例如,想像合法的FQDN是a.b.c.x.com。這個(gè)合法的FQDN將以下面的方式被剝離以產(chǎn)生b.c.x.com→c.x.com→x.com→com。因此,每個(gè)FQDN字段部分以及整個(gè)FQDN能夠被用作一個(gè)獨(dú)立的特征,以幫助確定偽裝的和合法的發(fā)件人。
本發(fā)明也可以使用父控制系統(tǒng)。父控制系統(tǒng)能夠至少部分地基于消息的內(nèi)容,將一個(gè)消息分為不適合的,并且給出為什么不適合的原因。例如,一個(gè)URL可以被嵌入到一個(gè)消息中作為可點(diǎn)擊的鏈接(要么基于文本要么基于圖像),或者作為消息體中的文本。該父控制系統(tǒng)能夠?qū)⑶度氲腢RL和一個(gè)或者多個(gè)其所存儲(chǔ)的好的和/或者有害的URL列表相比較,以確定該消息的正確分類,或者利用其它的用于父控制分類的技術(shù)。然后,該分類能夠被用作一個(gè)附加的特征,要么在機(jī)器學(xué)習(xí)系統(tǒng)中要么在一個(gè)特征列表中,或者在二者中。
在圖13中,示出了一個(gè)將至少父控制系統(tǒng)的一個(gè)方面結(jié)合到本發(fā)明中的示范性過(guò)程1300的流程圖。在1310接收了一組消息之后,該消息能夠被掃描用于URL,郵件發(fā)送到的鏈接,或者類似于郵件發(fā)送到的鏈接的其它文本,一個(gè)URL,或者在1320中的URL的一部分。如果該消息沒(méi)有出現(xiàn)來(lái)獲得1330處的任何的上述內(nèi)容,則過(guò)程1300返回到1310。然而,如果該消息沒(méi)有表明這些,則至少被檢測(cè)符號(hào)的一部分能夠通過(guò)至少一個(gè)在1340處的父控制系統(tǒng)。
在1350處,通過(guò)查閱一個(gè)或者多個(gè)URL數(shù)據(jù)庫(kù),該父控制系統(tǒng)能夠分類該郵寄到的鏈接,URL或者其一部分,URL業(yè)務(wù)的名字,URL路徑,以及FQDN(例如,諸如URL電子郵件地址等這樣的FQDN部分)。例如,該消息可以被分為包括至少一個(gè)色情作品,逃避債務(wù),賭博,以及其它類似的內(nèi)容。這種分類能夠被提取作為在1360中附加的特征。由于垃圾郵件消息的主題包括這些材料,所以合并的父控制系統(tǒng)在獲得附加特征中可能是有用的,其中機(jī)器學(xué)習(xí)系統(tǒng)能夠被用于訓(xùn)練并建立改進(jìn)的過(guò)濾器。其它的分類也存在,包括但不被限制為這些,其中這種分類也可能被用作特征。垃圾郵件消息可能或者不可能包括涉及這種材料類型的主題,但是一個(gè)用戶仍然可以想要這種類型的消息。
實(shí)際上,不同的分類能夠表明不同的垃圾郵件制作者的級(jí)別。例如,分類為憎恨語(yǔ)言的消息實(shí)際上可能表示沒(méi)有垃圾郵件的等級(jí)(例如,因?yàn)槠浜芸赡懿皇抢]件)。相反地,分類作為性內(nèi)容/材料的消息可能反映一個(gè)相對(duì)高的垃圾郵件的級(jí)別(例如,大約90%的該消息是垃圾郵件的確認(rèn)度)。機(jī)器學(xué)習(xí)系統(tǒng)能夠建立一個(gè)說(shuō)明垃圾郵件級(jí)別的過(guò)濾器。因此,過(guò)濾器能夠被定制并且被個(gè)性化以滿足用戶的優(yōu)先選擇。
正如已經(jīng)討論的,無(wú)數(shù)的特征能夠從一個(gè)消息中被提取,并且用作由機(jī)器學(xué)習(xí)系統(tǒng)使用的訓(xùn)練數(shù)據(jù),或者作為識(shí)別好壞特征列表的元素。特征的質(zhì)量,除了特征本身之外,在檢測(cè)和阻止垃圾郵件中可能是有用的。例如,想像一個(gè)特征是發(fā)件人的電子郵件地址。該電子郵件地址可能被用作一個(gè)特征,并且電子郵件地址在新的輸入消息中出現(xiàn)的頻率可能被用作另一個(gè)特征。
圖14描述了一個(gè)用于提取這種類型的特征(例如,與通用的或者稀有的提取特征相關(guān)的)的示范性過(guò)程1400的流程圖。垃圾郵件制作者通常盡力快速去改變它們的位置,因此,很可能大多數(shù)用戶從先前未知的地址發(fā)送郵件,或者以指示先前未知的機(jī)器的URL來(lái)發(fā)送郵件。因此,對(duì)于被提取的每一個(gè)特征類型來(lái)說(shuō)(例如,接收的IP地址,URL,電子郵件地址,域名等等),假設(shè)用于每種類型的特征列表被保留,則可能跟蹤特殊特征的出現(xiàn)率,頻率或者數(shù)量。
過(guò)程1400能夠以一個(gè)或者多個(gè)特征從輸入消息,和/或者在1410規(guī)范化一個(gè)特征開(kāi)始。然后,該特征能夠與一個(gè)或者多個(gè)特征列表相比較,這些特征先前已經(jīng)被提取或者在1420中的多個(gè)先前的消息中已經(jīng)被觀察到。該過(guò)程1400能夠確定當(dāng)前的特征是否是通用的。一個(gè)特征的通用性能夠通過(guò)已計(jì)算的近期出現(xiàn)的特征的頻率,以及/或者先前的輸入消息來(lái)確定。如果該消息在1430不是通用的或者不是足夠通用的(例如,未能滿足通用性的閾值),則在1440,其稀有的特征能夠被用作一個(gè)附加的特征。同樣,該特征的通用性在1450也能被用作一個(gè)特征。
根據(jù)上面所描述的本發(fā)明,下面的偽代碼可以用于實(shí)施本發(fā)明的至少一個(gè)方面。所有的大寫(xiě)子母表明了不同的名稱。應(yīng)當(dāng)注意,在偽代碼的末端定義了兩個(gè)函數(shù),add-machine-features和add-ip-features。象“PREFIX-machine-MACHINE”這樣的符號(hào)用于表示由PREFIX變量結(jié)合單詞machine結(jié)合MACHINE變量組成的一個(gè)字符串。最后,函數(shù)add-to-feature-list將特征寫(xiě)入到與當(dāng)前消息相關(guān)的特征列表中。
示例性的偽代碼如下所示<pre listing-type="program-listing"><![CDATA[ #for a given message,extract all the features IPADDRESS=the last external IP address in the received from list; Add-ipfeatures(received,IPADDRESS); SENDERS-ALLEGED-FQDN=FQDN in the last external IP Address in the recerved-from list; Add-machine-features(sendersfqdn,SENDERS-ALLEGED-FQDN); For each電子郵件address type TYPE in(from,CC,to,reply-to,embedded-mailto-link,embedded-address,and SMTP MAIL FROM) { for each address ADDRESS of type TYPE in the message{ deobfuscate ADDRESS if necessary; add-to-feature-list TYPE-ADDRESS; if ADDRESS is of the form NAME@MACHINE then { add-machine-features(TYPE,MACHINE); } else {#ADDRESS is of form NAME@IPADDRESS add-ip-features(TYPE,IPADDRESS); } } } for each url type TYPE in(clickable-links,text-based-links,embedded-image-links){ for each URL in the message of type TYPE {deobfuscate URL; add-to-feature-list TYPE-URL; set PARENTALCLASS=parental control system class of URL; add-to-feature-list TYPE-class-PARENTCLASS; while URL has a location suffix { remove location suffix from URL,i.e.x.y/a/b/c→;x.y/a/b→x.y/a;x.y/a; #ALL suffixes have been removed;URL is now either machine name or IPaddress if URL is machine name { add-machine-features(TYPE,URL); } else {add-ip-features(TYPE,URL); } } } function add-machine-features(PREFIX,MACHINE) { add-ip-features(PREFIX-ip,nslookup(MACHINE); while MACHINE not equal″″ { add-to-feature-list PREFIX-machine-MACHINE; remove beginning from MACHINE#(i.e.a.x.com→ x.com,or X.com→com); } }fuction add-ip-features(PREFIX,IPADDRESS) { add-ip-feature-list PREFIX-ipaddress-IPADDRESS; find netblock NETBLOCK of IPADDRESS; add-to-feature-list PREFIX-netblock-NETBLOCK; forN=1 to 31{ MASKED=first N bits of IPADDRESS; Add-to-feature-list PREFIX-masked-N-MASKED; } }]]></pre>為了提供本發(fā)明各個(gè)方面的補(bǔ)充的背景,圖15和下面的討論想要為適宜的操作環(huán)境1510是供一個(gè)簡(jiǎn)短的全面的描述,其中可能實(shí)現(xiàn)了本發(fā)明的各個(gè)方面。盡管在計(jì)算機(jī)可執(zhí)行的諸如程序模塊這樣的指令的通常的環(huán)境下描述了本發(fā)明,但是本領(lǐng)域的普通技術(shù)人員承認(rèn)本發(fā)明也能夠結(jié)合其它的程序模塊,和/或者以軟件和硬件的組合來(lái)執(zhí)行。
然而,一般來(lái)說(shuō),程序模塊包括例行程序,程序,目標(biāo),部件,數(shù)據(jù)結(jié)構(gòu)等,它們能夠執(zhí)行特定的任務(wù)或者執(zhí)行特定的數(shù)據(jù)類型。操作環(huán)境1510僅僅是適宜的操作環(huán)境的一個(gè)實(shí)例,并沒(méi)有試圖給出任何有關(guān)本發(fā)明的使用或者功能范圍的限制。其它熟知的適合于與本發(fā)明一起使用的固定計(jì)算機(jī)系統(tǒng),環(huán)境,和/或者配置包括但不限制于個(gè)人計(jì)算機(jī),手持或者膝上型設(shè)備,多處理器系統(tǒng),基于系統(tǒng)的微處理器,可編程的用戶電子,網(wǎng)絡(luò)PC,小型計(jì)算機(jī),大型計(jì)算機(jī),包括上述系統(tǒng)或者設(shè)備的分布式計(jì)算環(huán)境等。
參考圖15,一個(gè)用于執(zhí)行本發(fā)明各個(gè)方面的示范性的環(huán)境1510包括一個(gè)計(jì)算機(jī)1512。該計(jì)算機(jī)1512包括一個(gè)處理單元1514,系統(tǒng)存儲(chǔ)器1516,和系統(tǒng)總線1518。該系統(tǒng)總線1518耦合一個(gè)系統(tǒng)部件,該系統(tǒng)部件包括但不限制為用于處理單元1514的系統(tǒng)存儲(chǔ)器1516。處理單元1514可能是各種任何可用的處理器。雙微處理器和其它的多處理器結(jié)構(gòu)也可能用作處理單元1514。
系統(tǒng)總線1518可能是若干種總線結(jié)構(gòu)類型中的一種,其包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線或者外部總線,和/或者使用任何可用總線結(jié)構(gòu)的本地總線,任何可用總線結(jié)構(gòu)包括但不僅限制于11位總線,工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA),微信道結(jié)構(gòu)(MSA),擴(kuò)展的ISA(EISA),智能設(shè)備電子(IDE),VESA本地總線(VLB),外圍部件互連(PCI),通用串行總線(USB),增強(qiáng)的圖形端口(AGP),PC機(jī)內(nèi)存卡國(guó)際協(xié)會(huì)總線(PCMCIA),以及小型計(jì)算機(jī)系統(tǒng)接口(SCSI)。
該系統(tǒng)存儲(chǔ)器1516包括易失的存儲(chǔ)器1520和非易失的存儲(chǔ)器1522?;据斎?輸出系統(tǒng)(BIOS),包括在計(jì)算機(jī)1512的范圍內(nèi)的組成部分之間傳送信息的基本的例行程序,諸如在啟動(dòng)期間,被存儲(chǔ)在非易失的存儲(chǔ)器1522中。為了舉例說(shuō)明,同時(shí)不作為限制,非易失的存儲(chǔ)器1522可能包括只讀存儲(chǔ)器(ROM),可編程ROM(PROM),可擦可編程只讀存儲(chǔ)器(EPROM),電可擦除可編程只讀存儲(chǔ)器(EEPROM),或者閃存。易失的存儲(chǔ)器1520包括隨機(jī)訪問(wèn)存儲(chǔ)器(RAM),其作為一個(gè)外部緩存。為了舉例說(shuō)明,同時(shí)不作為限制,RAM可以多種形式得到,諸如同步RAM(SRAM),動(dòng)態(tài)RAM(DRAM),同步DRAM(SDRAM),雙數(shù)據(jù)速率SDRAM(DDR SDRAM),增強(qiáng)型SDRAM(ESDRAM)。同步鏈接DRAM(SLDRAM),以及直接隨機(jī)存儲(chǔ)器總線RAM(DRRAM)。
計(jì)算機(jī)1512也包括可移動(dòng)的/不可移動(dòng)的,易失的/非易失的計(jì)算機(jī)存儲(chǔ)介質(zhì)。圖15說(shuō)明了例如一個(gè)磁盤(pán)存儲(chǔ)器1524。該磁盤(pán)存儲(chǔ)器1524包括但是不限制于像磁盤(pán)設(shè)備這樣的設(shè)備,例如軟盤(pán),硬盤(pán),磁帶驅(qū)動(dòng)器,Jaz驅(qū)動(dòng)器,郵政分區(qū)驅(qū)動(dòng)器,LS-100驅(qū)動(dòng)器,閃存卡,或者存儲(chǔ)棒。另外,磁盤(pán)存儲(chǔ)器1524可能單獨(dú)包括存儲(chǔ)介質(zhì),或者與其它存儲(chǔ)介質(zhì)相結(jié)合,其它存儲(chǔ)介質(zhì)包括但不僅限制于諸如緊湊型磁盤(pán)ROM設(shè)備(CD-ROM),CD可記錄設(shè)備(CD-R驅(qū)動(dòng)器),CD重寫(xiě)驅(qū)動(dòng)器(CD-RW驅(qū)動(dòng)器),或者數(shù)字通用磁盤(pán)ROM驅(qū)動(dòng)器(DVD_ROM)這樣的光盤(pán)驅(qū)動(dòng)器。為了方便磁盤(pán)存儲(chǔ)設(shè)備1524和系統(tǒng)總線1518的連接,可移動(dòng)的或者不可移動(dòng)的接口典型地被用于諸如接口1526這樣的接口。
應(yīng)當(dāng)理解,圖15描述了軟件,該軟件起到在用戶和適當(dāng)?shù)牟僮鳝h(huán)境1510中所描述的基本計(jì)算機(jī)設(shè)備之間的中間物的作用。這種軟件包括一個(gè)操作系統(tǒng)1528。操作系統(tǒng)1528,其能被存儲(chǔ)在磁盤(pán)存儲(chǔ)器1524上,用于控制和定位計(jì)算機(jī)系統(tǒng)1512的資源。系統(tǒng)應(yīng)用程序1530借助于操作系統(tǒng)1528通過(guò)程序模塊1532和程序數(shù)據(jù)1534來(lái)利用管理和資源,程序數(shù)據(jù)1534被存儲(chǔ)在系統(tǒng)存儲(chǔ)器1516或者磁盤(pán)存儲(chǔ)器1524上。應(yīng)當(dāng)理解,能夠以各種操作系統(tǒng)或者操作系統(tǒng)的組合來(lái)實(shí)施本發(fā)明。
一個(gè)用戶通過(guò)輸入設(shè)備1536將命令或者信息鍵入到計(jì)算機(jī)1512中。輸入設(shè)備1536包括,但不僅限制于諸如鼠標(biāo),跟蹤球,唱針,觸模板,鍵盤(pán),麥克風(fēng),操縱桿,游戲墊,圓盤(pán)式衛(wèi)星電視天線,掃描儀,TV調(diào)諧卡,數(shù)字相機(jī),數(shù)字?jǐn)z像機(jī),網(wǎng)絡(luò)攝像機(jī)等這樣的點(diǎn)設(shè)備。這些或者其它的輸入設(shè)備通過(guò)系統(tǒng)總線1518經(jīng)由接口部分1538連接到處理單元1514。接口部分1538包括例如串行端口,并行端口,游戲端口和通用串行總線(USB)。輸出設(shè)備1540使用某些同種類型的端口作為輸入設(shè)備1536。因此,例如USB端口可以被用于提供輸入到計(jì)算機(jī)1512,而且從計(jì)算機(jī)1512輸出信息到一個(gè)輸出設(shè)備1540。輸出適配器1542被提供以說(shuō)明存在一些輸出設(shè)備1540像監(jiān)視器,揚(yáng)聲器,以及在要求特定適配器的其它輸出設(shè)備1540中的打印機(jī)。該輸出適配器1542包括,通過(guò)說(shuō)明但不是限制,視頻和聲音卡,該卡提供一種在輸出設(shè)備1540和系統(tǒng)總線1518之間連接的手段。應(yīng)當(dāng)注意,其它的設(shè)備和/或者系統(tǒng)提供諸如遠(yuǎn)程計(jì)算機(jī)1544這樣的輸入和輸出性能。
計(jì)算機(jī)1512能夠在一個(gè)網(wǎng)絡(luò)環(huán)境中通過(guò)使用與一個(gè)或多個(gè)諸如遠(yuǎn)程計(jì)算機(jī)1544這樣的遠(yuǎn)程計(jì)算機(jī)的邏輯連接進(jìn)行操作。遠(yuǎn)程計(jì)算機(jī)1544可能是個(gè)人計(jì)算機(jī),服務(wù)器,網(wǎng)絡(luò),工作站,基于應(yīng)用的微處理器,對(duì)等設(shè)備或其它通用網(wǎng)絡(luò)節(jié)點(diǎn)等等,典型地包括多個(gè)或全部的所述的與計(jì)算機(jī)1512相關(guān)的組成部分。為了簡(jiǎn)潔,關(guān)于遠(yuǎn)程計(jì)算機(jī)1544只舉例說(shuō)明一個(gè)存儲(chǔ)設(shè)備1546。遠(yuǎn)程計(jì)算機(jī)通過(guò)網(wǎng)絡(luò)接口1548被邏輯地連接到計(jì)算機(jī)1512上,然后經(jīng)由通信連接1550物理地連接。網(wǎng)絡(luò)接口1548包括諸如局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)這樣的通信網(wǎng)絡(luò)。LAN技術(shù)包括光纖分布式數(shù)據(jù)接口(FDDI),銅分布式數(shù)據(jù)接口(CDDI),以太網(wǎng)/IEEE1102.3,令牌環(huán)/IEEE 1102.5等等。WAN技術(shù)包括但是不被限于,點(diǎn)對(duì)點(diǎn)鏈接,電路交換網(wǎng)絡(luò),像ISDN以及在其上的變體,分組交換網(wǎng)絡(luò)和用戶數(shù)字線(DSL)。
通信連接1550指用于將網(wǎng)絡(luò)接口1548連接到總線1518的硬件或軟件。盡管為了在計(jì)算機(jī)1512的內(nèi)部明確地說(shuō)明而示出了通信連接1510,但是它也可能是在計(jì)算機(jī)1512的外部。連接到網(wǎng)絡(luò)接口1548的必要的硬件/軟件包括,僅為示范目的,內(nèi)部和外部的技術(shù),諸如調(diào)制解調(diào)器,包括常規(guī)的電話類調(diào)制解調(diào)器,電纜調(diào)制解調(diào)器和DSL調(diào)制解調(diào)器,ISDN適配器和以太網(wǎng)卡。
上面的描述包括了本發(fā)明的實(shí)例。不可能描述每一種想得到的部件或者方法的組合,當(dāng)然,為了描述本發(fā)明的目的,本領(lǐng)域的普通技術(shù)人員承認(rèn)本發(fā)明的許多進(jìn)一步的組合和置換是可能的。相應(yīng)地,本發(fā)明意在包含所有落入到所附權(quán)利要求的精神和范圍之內(nèi)的改變,修改和變型。此外,為了擴(kuò)展在詳細(xì)的說(shuō)明書(shū)或者權(quán)利要求中所使用的術(shù)語(yǔ)“包括”,當(dāng)術(shù)語(yǔ)“包含”在權(quán)利要求中被用作一個(gè)過(guò)渡單詞被解釋時(shí),該術(shù)語(yǔ)意在以類似于術(shù)語(yǔ)“包含”的方式被包含在內(nèi)。
權(quán)利要求
1.一種便于提取關(guān)于垃圾郵件處理的數(shù)據(jù)的系統(tǒng),包括一個(gè)部件,其接收一個(gè)項(xiàng)目并且提取一組與消息的發(fā)源,或者其中的部分和/或信息相關(guān)聯(lián)的特征,使預(yù)定的收件人能夠就該消息進(jìn)行聯(lián)系、響應(yīng)或者接收以及一個(gè)部件,其利用一個(gè)被提取的特征的子集建立過(guò)濾器。
2.權(quán)利要求1的系統(tǒng),進(jìn)一步包括一個(gè)規(guī)范化部件,其使一個(gè)特征子集擺脫困惑。
3.權(quán)利要求1的系統(tǒng),該過(guò)濾器是一個(gè)垃圾郵件過(guò)濾器。
4.權(quán)利要求1的系統(tǒng),該過(guò)濾器是一個(gè)父控制過(guò)濾器。
5.權(quán)利要求1的系統(tǒng),進(jìn)一步包括一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)部件,其利用已擺脫困惑的特征來(lái)學(xué)習(xí)至少垃圾郵件和非垃圾郵件其中之一。
6.權(quán)利要求1的系統(tǒng),所述特征的子集包括至少一個(gè)IP地址,該至少一個(gè)IP地址是回復(fù)地址、抄送地址、收件人地址、發(fā)件人地址、和定位在消息中的URL中的任何一個(gè)的至少一部分。
7.權(quán)利要求6的系統(tǒng),該IP地址包括一個(gè)數(shù)據(jù)塊ID,其中該數(shù)據(jù)塊ID能被提取作為至少一個(gè)特征。
8.權(quán)利要求7的系統(tǒng),其中該數(shù)據(jù)塊ID至少部分地通過(guò)查閱一個(gè)數(shù)據(jù)塊目錄來(lái)確定。
9.權(quán)利要求8的系統(tǒng),其中該數(shù)據(jù)塊目錄是arin.net。
10.權(quán)利要求7的系統(tǒng),其中該數(shù)據(jù)塊ID至少部分地通過(guò)推測(cè)來(lái)確定,從而提取IP地址的至少前1個(gè)比特,至少前2個(gè)比特,至少前3個(gè)比特,直到至少前31個(gè)比特中的任何一個(gè)作為特征。
11.權(quán)利要求1的系統(tǒng),其中特征的子集包括IP地址的前1個(gè)到前31個(gè)比特中的每一個(gè)。
12.權(quán)利要求1的系統(tǒng),特征的子集包括一個(gè)URL。
13.權(quán)利要求12的系統(tǒng),其中URL地址被定位在至少其中一個(gè)消息體,作為文本嵌入在消息中,以及嵌入在消息中的圖像中。
14.權(quán)利要求1的系統(tǒng),進(jìn)一步包括一個(gè)部件,其使用至少一個(gè)已提取特征的子集來(lái)填充至少一個(gè)特征列表。
15.權(quán)利要求14的系統(tǒng),該至少一個(gè)特征列表是好用戶的列表、垃圾郵件制作者列表、表示合法的發(fā)件人的肯定特征的列表、以及表示垃圾郵件的特征的列表中的任何一個(gè)。
16.權(quán)利要求1的系統(tǒng),其中該特征子集包括至少一個(gè)URL。
17.權(quán)利要求16的系統(tǒng),其中URL作為文本被嵌入到消息體中。
18.權(quán)利要求16的系統(tǒng),其中URL是消息體中鏈接的至少一部分。
19.權(quán)利要求16的系統(tǒng),其中URL是作為圖像嵌入到消息中鏈接的至少一部分。
20.權(quán)利要求1的系統(tǒng),特征的子集包括從email地址中提取的主機(jī)名稱和域名中的至少一個(gè)。
21.權(quán)利要求1的系統(tǒng),特征的子集包括從email地址和URL任何一個(gè)中提取的至少一部分FQDN。
22.權(quán)利要求1的系統(tǒng),特征的子集包括從email地址和URL任何一個(gè)中提取的至少一部分域名。
23.權(quán)利要求1的系統(tǒng),至少一部分被提取特征的子集在同機(jī)器學(xué)習(xí)系統(tǒng)一同使用之前被規(guī)范化。
24.權(quán)利要求1的系統(tǒng),至少一部分被提取特征的子集在被用于填充至少一個(gè)特征列表之前被規(guī)范化。
25.權(quán)利要求1的系統(tǒng),進(jìn)一步包括一個(gè)分類部件,其分類至少一部分URL,email地址,和IP地址中的至少一個(gè),作為成人,成人內(nèi)容,不適合的,不適合某個(gè)年齡段的,適合于所有年齡的,不合宜的,以及合宜的中的任何一個(gè)。
26.權(quán)利要求25的系統(tǒng),其中該分類部件是一個(gè)父控制系統(tǒng)。
27.權(quán)利要求25的系統(tǒng),其中該分類部件分配至少一個(gè)特征類型給URL,網(wǎng)站地址,和IP地址中的至少一個(gè)的已分類部分。
28.權(quán)利要求1的系統(tǒng),其中該特征組包括至少一個(gè)非免費(fèi)電話號(hào)碼,所述電話號(hào)碼包含一個(gè)電話地區(qū)號(hào),以便于映射發(fā)件人或者與消息相關(guān)的聯(lián)系者的地理位置。
29.一種存儲(chǔ)如權(quán)利要求1所述的計(jì)算機(jī)可執(zhí)行組件的計(jì)算機(jī)可讀媒介。
30.一種使用權(quán)利要求1的系統(tǒng)的計(jì)算機(jī)。
31.一種易于提取與垃圾郵件處理有關(guān)的數(shù)據(jù)的方法,包括接收一個(gè)消息;提取一組與消息的發(fā)源,或者其中的部分和/或信息相關(guān)聯(lián)的特征,該信息能夠使預(yù)定的收件人就所述消息進(jìn)行聯(lián)系,響應(yīng)或者接收;以及利用一個(gè)被提取的特征的子集以建立過(guò)濾器。
32.權(quán)利要求31的方法,其中該特征組包括一個(gè)IP地址的至少一部分。
33.權(quán)利要求32的方法,其中提取IP地址的至少一部分包括執(zhí)行至少下列動(dòng)作的其中一個(gè)查找一個(gè)數(shù)據(jù)塊ID的目錄以確定至少一個(gè)對(duì)應(yīng)于IP地址的數(shù)據(jù)塊ID,以便該數(shù)據(jù)塊ID被提取作為一個(gè)附加的特征;以及從IP地址中提取至少前1個(gè)比特直到前31個(gè)比特中的每一個(gè)。
34.權(quán)利要求32的方法,其中至少一個(gè)已提取的IP地址對(duì)應(yīng)于至少一個(gè)服務(wù)器。
35.權(quán)利要求34的方法,進(jìn)一步包括提取該至少一個(gè)服務(wù)器作為一個(gè)附加的特征。
36.權(quán)利要求31的方法,進(jìn)一步包括使至少一個(gè)從消息中提取的特征的子集擺脫困惑。
37.權(quán)利要求31的方法,進(jìn)一步包括使從消息中提取的至少一個(gè)特征的至少一部分?jǐn)[脫困惑。
38.權(quán)利要求37的方法,其中使從消息中提取的接收的發(fā)件人的IP地址擺脫困惑包括追溯通過(guò)多個(gè)“添加到”IP地址的搜索路徑,來(lái)核對(duì)“添加到”IP地址的搜索路徑的身份。
39.權(quán)利要求37的方法,進(jìn)一步包括從網(wǎng)站地址提取附加的特征,包括執(zhí)行至少下列動(dòng)作的其中一個(gè)每次刪除至少一個(gè)后綴,從而產(chǎn)生相應(yīng)的附加特征;以及每次刪除至少一個(gè)前綴,從而產(chǎn)生相應(yīng)的附加特征。
40.權(quán)利要求37的方法,其中該組特征包括回復(fù)地址,抄送地址,收件人地址,URL,鏈接,和發(fā)件人地址中任何一個(gè)的至少一部分。
41.權(quán)利要求31的方法,其中至少一個(gè)被提取特征的子集作為文本和圖像其中之一被嵌入消息體中。
42.權(quán)利要求31的方法,其中該組特征包括一個(gè)主機(jī)名和一個(gè)域名。
43.權(quán)利要求31的方法,進(jìn)一步包括分類一個(gè)或者多個(gè)已提取的特征和/或者其中的部分以表明與該消息相關(guān)聯(lián)的是適宜的和不適宜的內(nèi)容中的任何一種,并且將這種分類用作一個(gè)附加的特征。
44.權(quán)利要求31的方法,進(jìn)一步包括分配一種特征類型給相應(yīng)的被提取的特征以便至少部分地基于各個(gè)已提取的特征來(lái)通知用戶消息內(nèi)容,并且利用這種特征類型作為一個(gè)附加的特征。
45.權(quán)利要求44的方法,進(jìn)一步包括確定特征類型和特征中的至少一種是稀有的和通用的其中之一,并且利用特征的稀有性和通用性作為一個(gè)附加的特征。
46.權(quán)利要求31的方法,其中特征的子集經(jīng)由一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)被采用來(lái)建立一個(gè)過(guò)濾器。
47.權(quán)利要求31的方法,其中該過(guò)濾器是一個(gè)垃圾郵件過(guò)濾器。
48.權(quán)利要求31的方法,其中該過(guò)濾器是一個(gè)父控制過(guò)濾器。
49.權(quán)利要求31的方法,進(jìn)一步包括使用至少一個(gè)從消息中提取的特征的子集來(lái)填充一個(gè)或者多個(gè)特征列表。
50.權(quán)利要求49的方法,其中特征列表包括表示非垃圾郵件制作者的肯定的特征列表,和表示垃圾郵件制作者的惡意的特征列表中的至少之一。
51.權(quán)利要求31的方法,其中在被用作機(jī)器學(xué)習(xí)系統(tǒng)的特征之前,已提取的特征至少部分地被擺脫困惑。
52.權(quán)利要求31的方法,其中在被用作填充特征列表的特征之前,已提取的特征至少部分地被擺脫困惑。
53.適合于在兩個(gè)或者多個(gè)便于從消息中提取數(shù)據(jù)的計(jì)算機(jī)過(guò)程之間傳送的數(shù)據(jù)分組,該數(shù)據(jù)分組包括信息,該信息與接收消息、提取一組與消息的發(fā)源或者其中的部分和/或能夠使預(yù)定的收件人就該消息進(jìn)行聯(lián)系、響應(yīng)或者接收的信息相關(guān)聯(lián)的特征、以及利用所提取的特征的子集以建立過(guò)濾器相關(guān)聯(lián)。
54.一種易于提取與垃圾郵件處理過(guò)程有關(guān)的數(shù)據(jù)的系統(tǒng),包括用于接收消息的裝置;一種裝置,用于提取一組與消息的源或者其中的部分和/或能夠使預(yù)定的收件人就消息進(jìn)行聯(lián)系、響應(yīng)或者接收相關(guān)聯(lián)的特征;以及一種裝置,用于利用一個(gè)被提取的特征的子集以建立過(guò)濾器。
全文摘要
本發(fā)明包括一種易于從消息中提取用于垃圾郵件過(guò)濾的數(shù)據(jù)的系統(tǒng)和方法。所提取的數(shù)據(jù)可以是特征的形式,其能夠與機(jī)器學(xué)習(xí)系統(tǒng)一同使用,以建立改進(jìn)的過(guò)濾器。嵌入在消息體中的與源信息以及其它信息相關(guān)聯(lián)的數(shù)據(jù)能夠作為特征被提取,該消息允許消息的收件人聯(lián)系和/或者響應(yīng)消息的發(fā)件人。在被用作機(jī)器學(xué)習(xí)系統(tǒng)的特征之前,該特征或者其子集能夠被規(guī)范化和/或者被擺脫困惑。該(已擺脫困惑的)特征能被用于填充多個(gè)易于檢測(cè)和阻止垃圾郵件的特征列表。示范性的特征包括一個(gè)email地址,IP地址,URL,指向URL的一個(gè)嵌入式圖像,以及/或者其中的一部分。
文檔編號(hào)G06Q10/00GK1573784SQ20041006395
公開(kāi)日2005年2月2日 申請(qǐng)日期2004年6月4日 優(yōu)先權(quán)日2003年6月4日
發(fā)明者J·T·古德曼, R·L·羅斯懷特, D·格沃茲, J·D·梅爾, N·D·豪威爾, M·C·魯普斯伯格, B·T·斯塔白克 申請(qǐng)人:微軟公司