專利名稱:用于垃圾消息檢測的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理領(lǐng)域,更具體地說,涉及用于垃圾消息檢測的方法和設(shè)備。
背景技術(shù):
垃圾消息,例如垃圾短信和垃圾郵件,嚴(yán)重地影響用戶的體驗和系統(tǒng)的性能。已經(jīng) 存在多種檢測垃圾消息的方法。根據(jù)基于用戶反饋的方法,由用戶識別并報告垃圾消息發(fā) 送者。根據(jù)基于社會網(wǎng)絡(luò)的方法,為每個用戶建立社會網(wǎng)絡(luò)檔案,用戶向社會網(wǎng)絡(luò)之外的 其他用戶發(fā)送的消息被判斷為垃圾消息。問題在于,需要龐大的數(shù)據(jù)記錄系統(tǒng)來存儲被報 告的垃圾消息發(fā)送者或者社會網(wǎng)絡(luò)檔案,并且該數(shù)據(jù)記錄系統(tǒng)需要在各服務(wù)運營商之間共 享,這對于運營商而言是不可行的。根據(jù)基于消息內(nèi)容的方法,如果消息中含有預(yù)先設(shè)定的關(guān)鍵詞則被判斷為垃圾消 息。問題在于關(guān)鍵詞的集合過小會導(dǎo)致大的漏判率,關(guān)鍵詞的集合過大又會影響檢測速 度;查看消息內(nèi)容可能涉及隱私問題;垃圾消息的發(fā)送者可以采用簡單的變通方式,例如 在關(guān)鍵詞內(nèi)部插入空格等,來規(guī)避檢測。根據(jù)基于消息發(fā)送速度的方法,如果消息源在短時間內(nèi)發(fā)送大量消息則被判斷為 垃圾消息發(fā)送者。問題在于垃圾消息發(fā)送者可以通過控制多個消息源輪番發(fā)送消息來降 低每個消息源短時間內(nèi)發(fā)送的消息數(shù)目;而作為正常用戶,也有可能在某些情況下在短時 間內(nèi)發(fā)送大量消息。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種新的檢測垃圾消息的方法,使得垃圾消息發(fā)送者無 法通過如上所述的簡單手段來規(guī)避檢測。根據(jù)本發(fā)明的實施例,一種用于垃圾消息檢測的方法,包括收集消息源的時域發(fā) 送特性;利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性;和響應(yīng)于該消息源的 頻域發(fā)送特性符合預(yù)定的條件,判斷該消息源為垃圾消息發(fā)送者。采用根據(jù)本發(fā)明實施例的技術(shù)方案,可以通過頻域發(fā)送特性來檢測控制多個消息 源輪番發(fā)送消息的垃圾消息發(fā)送者,從而彌補基于消息發(fā)送速度的方法所具有的缺陷。
圖1是不同類型的消息源所具有的頻域發(fā)送特性示意圖。圖2是根據(jù)本發(fā)明實施例的檢測垃圾消息的方法的框圖。圖3(A) -圖3(D)示出了在四個不同的時域采樣間隔長度下,已知的垃圾消息發(fā)送 者的模型參數(shù)分布。圖4是根據(jù)本發(fā)明實施例的垃圾消息檢測結(jié)果。圖5是根據(jù)本發(fā)明實施例的會話檢測的流程圖。圖6是根據(jù)本發(fā)明實施例的用于垃圾消息檢測的設(shè)備的方框圖。
具體實施例方式以下參照
本發(fā)明提供的檢測垃圾消息的方法和裝置的具體實施方式
。當(dāng) 第一元件被描述為與第二元件相連時,第一元件不僅可以直接與第二元件相連,而且還可 以借助第三元件間接地與第二元件相連。進一步地,為了清楚,省略了對完全理解本發(fā)明不 必要的一些元件。圖1是不同類型的消息源所具有的頻域發(fā)送特性示意圖。圖1 (A)是突發(fā)發(fā)送消息的消息源的頻域發(fā)送特性示意圖;圖1 (B)是周期性發(fā)送 消息的消息源的頻域發(fā)送特性示意圖;圖1(c)是隨機發(fā)送消息的消息源的頻域發(fā)送特性 示意圖。圖I(A)中的消息源在短時間內(nèi)發(fā)送大量的垃圾消息,期望在系統(tǒng)檢測到其行為之 前發(fā)送盡可能多的垃圾消息。這種垃圾消息發(fā)送者已經(jīng)可以被基于消息發(fā)送速度的方法所 檢測。圖I(B)中的消息源是消息源組中的一個,這一組消息源輪番發(fā)送消息。對于每一個 消息源而言,其發(fā)送速度均達不到被基于消息發(fā)送速度的方法所檢測到的標(biāo)準(zhǔn)。圖I(C)中 的消息源對應(yīng)于正常用戶,其隨機地發(fā)送消息,因此其頻域發(fā)送特性呈現(xiàn)無規(guī)律的特性。如圖1所示,不同類型的消息源的頻域發(fā)送特性具有顯著的差別,因此,可以通過 頻域發(fā)送特性判斷每個消息源屬于哪種類型,從而判斷該消息源是否為垃圾消息發(fā)送者。圖2是根據(jù)本發(fā)明實施例的檢測垃圾消息的方法的框圖。如上所述,可以通過頻域發(fā)送特性判斷每個消息源屬于哪種類型。因此,根據(jù)本發(fā) 明實施例的檢測垃圾消息的方法包括步驟201,收集消息源的時域發(fā)送特性。消息源的時域發(fā)送特性可以從很多渠道獲得。例如,所謂的時域發(fā)送特性實際上 可以通過到達時間來體現(xiàn),即對于網(wǎng)絡(luò)側(cè)來說,只能判定消息到達網(wǎng)絡(luò)側(cè)的時間,而無法判 定消息源發(fā)送消息的時間??梢詮木W(wǎng)絡(luò)側(cè)所維持的呼叫細節(jié)記錄(CDR)獲取短消息的到達 時間,也可以從網(wǎng)絡(luò)側(cè)的各種數(shù)據(jù)庫獲取各條消息的到達時間。步驟202,利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性。步驟203,判斷該消息源的頻域發(fā)送特性是否符合預(yù)定的條件,如果符合則判斷該 消息源為垃圾消息發(fā)送者。所述預(yù)定的條件可以包括多種形式,例如,與預(yù)定的垃圾消息發(fā)送者模板的頻域 發(fā)送特性匹配,或者與預(yù)定的非垃圾消息發(fā)送者模板的頻域發(fā)送特性不匹配。特別地,消息 源的頻域發(fā)送特性一般是由一組參數(shù)表示的,可以計算這一組參數(shù)的方差,如果方差大于 方差閾值,則認(rèn)為該消息源是垃圾消息發(fā)送者。這是因為,垃圾消息發(fā)送者并非隨機發(fā)送, 因此其頻域發(fā)送特性總是有比較明顯的峰和谷,對應(yīng)到頻域發(fā)送特性的參數(shù)上就是方差比 較大;而隨機發(fā)送的普通消息源的頻域發(fā)送特性類似于白噪聲,譜分布比較平均,對應(yīng)到頻 域發(fā)送特性的參數(shù)上就是方差比較小。這樣就可以減少需要進行參數(shù)比較的消息源的數(shù) 目,從而提高處理速度。以下以所述預(yù)定的條件是與預(yù)定的垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配,詳 細介紹步驟202和步驟203的實現(xiàn)。根據(jù)本發(fā)明的第一個實施例,在利用消息源的時域發(fā) 送特性計算消息源的頻域發(fā)送特性時,利用傅立葉變換將時域發(fā)送特性變換為頻域發(fā)送特 性。傅立葉變換是本領(lǐng)域的公知技術(shù),在此不再贅述。在通過傅立葉變換得到頻域發(fā)送特性以后,可以通過與預(yù)定的垃圾消息發(fā)送者模板的頻域發(fā)送特性進行參數(shù)比較的方式來判 斷該頻域發(fā)送特性是否匹配預(yù)定的垃圾消息發(fā)送者模板的頻域發(fā)送特性。但是,采用傅立葉變換獲取頻域發(fā)送特性可能存在的缺點在于一方面,傅里葉變 換依賴于離散采樣,而離散采樣會造成頻譜拓展和頻譜混疊,從而引入較大的噪聲,這些噪 聲往往淹沒了所需要的頻域發(fā)送特性,導(dǎo)致精度下降;另一方面,為了克服噪聲的影響以 達到所要求的精度,需要提高傅里葉變換的階次,而階次的提高導(dǎo)致用于緩存時域發(fā)送特 性數(shù)據(jù)的內(nèi)存開銷、用于進行傅里葉變換的計算開銷和用于進行參數(shù)比較的開銷都相應(yīng)提 尚ο因此,根據(jù)本發(fā)明的第二個實施例,利用模型來估計消息源的頻域發(fā)送特性,然后 判斷所述頻域發(fā)送特性是否匹配預(yù)定的垃圾消息發(fā)送者模板的頻域發(fā)送特性,如果匹配則 判斷該消息源為垃圾消息發(fā)送者。根據(jù)該實施例,首先為消息源建模??梢越樽曰貧w (AR)模型,自回歸移動平均ARMA模型或移動平均MA模型。由于作為消息源的系統(tǒng)不存在 輸出對輸入的反饋,因此優(yōu)選地,將消息源建模為自回歸(AR)模型。一個M階自回歸模型 的定義是
Mx(t) = amx(t -τη) + ε( )(丄)
m—\其物理意義是,當(dāng)前時刻的χ值,是過去M個時刻的χ值的線性組合加上均值為 零,方差為ο2的白噪聲ε (t)。其中%到%為M個模型參數(shù),構(gòu)成模型參數(shù)組。ο2稱為 模型增益。因此,估計消息源的頻域發(fā)送特性就是估計消息源的AR模型中的這些模型參數(shù) 和模型增益。但是,將頻域發(fā)送特性與預(yù)定的垃圾消息發(fā)送者模板進行比對是比較對應(yīng)的 模型參數(shù),后面將闡述為什么不比較模型增益ο2。由此可見,采用這種方法可以靈活地設(shè) 置所要比較的參數(shù)個數(shù)。下面詳細地描述如何利用消息源的時域發(fā)送特性來估計AR模型中的模型參數(shù)。對于一個消息源,利用滑動窗檢測其在一段時間內(nèi)的消息發(fā)送數(shù)目。對于M階的 AR模型,滑動窗具有M+1個窗格,每個窗格對應(yīng)于一個時域采樣間隔,設(shè)時域采樣間隔的長 度為P??梢匀菀椎氐玫皆谌我庖粋€時域采樣間隔內(nèi)該消息源所發(fā)送的消息數(shù)目。在零時 刻,每個窗格的值均為零;在P時刻,計算從零時刻到P時刻這段時間內(nèi)消息源所發(fā)送的消 息數(shù)目,作為第一個窗格的值;在2P時刻,計算從P時刻到2P時刻這段時間內(nèi)消息源所發(fā) 送的消息數(shù)目,作為第二個窗格的值;直到在(M+1)P時刻,計算從MP時刻到(M+1)P時刻這 段時間內(nèi)消息源所發(fā)送的消息數(shù)目,作為第M+1個窗格的值。此后,在(M+2)P時刻,令第一 個窗格的值等于第二個窗格的值,第二個窗格的值等于第三個窗格的值等等,然后令第M+1 個窗格的值等于從(M+1)時刻到(M+2)P時刻這段時間內(nèi)消息源所發(fā)送的消息數(shù)目。這樣 就構(gòu)成了滑動窗。由此可見,時域采樣間隔長度的設(shè)置相對于采用傅立葉變換的實施例而 言更加靈活。這是因為采用傅立葉變換的實施例需要采中每條消息,而本實施例需要統(tǒng)計 一定間隔內(nèi)的總的消息數(shù)目。在(M+1)P時刻,計算滑動窗的M+1個窗格中各個值的自相關(guān)。其中,自相關(guān)的定 義是
權(quán)利要求
一種用于垃圾消息檢測的方法,包括收集消息源的時域發(fā)送特性;利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性;和響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的條件,判斷該消息源為垃圾消息發(fā)送者。
2.根據(jù)權(quán)利要求1所述的方法,其中所述響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的 條件,判斷該消息源為垃圾消息發(fā)送者的步驟包括響應(yīng)于該消息源的頻域發(fā)送特性與垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配,判斷該 消息源為垃圾消息發(fā)送者。
3.根據(jù)權(quán)利要求1所述的方法,其中所述響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的 條件,判斷該消息源為垃圾消息發(fā)送者的步驟包括響應(yīng)于該消息源的頻域發(fā)送特性與非垃圾消息發(fā)送者模板的頻域發(fā)送特性不匹配,判 斷該消息源為垃圾消息發(fā)送者。
4.根據(jù)權(quán)利要求1所述的方法,其中所述響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的 條件,判斷該消息源為垃圾消息發(fā)送者的步驟包括響應(yīng)于該消息源的頻域發(fā)送特性的參數(shù)的方差大于方差閾值,判斷該消息源為垃圾消 息發(fā)送者。
5.根據(jù)權(quán)利要求2所述的方法,其中為所述消息源和垃圾消息發(fā)送者模板建立形式相 同的模型,所述頻域發(fā)送特性由模型的參數(shù)組表示,所述利用消息源的時域發(fā)送特性來計 算消息源的頻域發(fā)送特性的步驟包括利用消息源的時域發(fā)送特性來估計模型的對應(yīng)于該消息源的參數(shù)組;所述響應(yīng)于該消息源的頻域發(fā)送特性與垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配,判 斷該消息源為垃圾消息發(fā)送者的步驟包括響應(yīng)于模型的對應(yīng)于該消息源的參數(shù)組與模型的對應(yīng)于垃圾消息發(fā)送者模板的參數(shù) 組匹配,判斷該消息源為垃圾消息發(fā)送者。
6.根據(jù)權(quán)利要求2所述的方法,其中所述垃圾消息發(fā)送者模板至少包括第一垃圾消息 發(fā)送者模板和第二垃圾消息發(fā)送者模板,為所述消息源、所述第一垃圾消息發(fā)送者模板和 所述第二垃圾消息發(fā)送者模板建立形式相同的模型,其中所述利用消息源的時域發(fā)送特性 來計算消息源的頻域發(fā)送特性的步驟包括以至少兩個不同的值分別作為時域采樣間隔長度,利用消息源的時域發(fā)送特性來估計 模型的對應(yīng)于該消息源的至少兩個參數(shù)組;所述響應(yīng)于該消息源的頻域發(fā)送特性與垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配,判 斷該消息源為垃圾消息發(fā)送者的步驟包括響應(yīng)于模型的對應(yīng)于該消息源的至少兩個參數(shù)組中的任意一個與模型的對應(yīng)于第一 垃圾消息發(fā)送者模板的參數(shù)組和模型的匹配對應(yīng)于第一垃圾消息發(fā)送者模板的參數(shù)組中 的任意一個匹配,判斷該消息源為垃圾消息發(fā)送者。
7.根據(jù)權(quán)利要求6所述的方法,其中所述至少兩個不同的值中的一個是另一個的正整 數(shù)倍。
8.根據(jù)權(quán)利要求1到7中任意一項所述的方法,在收集消息源的時域發(fā)送特性的步驟 和利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性的步驟之間進一步包括利用消息源的時域發(fā)送特性計算消息源的平均功率;響應(yīng)于所述平均功率大于平均功率閾值,判斷該消息源為垃圾消息發(fā)送者,并且退出 流程。
9.根據(jù)權(quán)利要求1到7中任意一項所述的方法,在收集消息源的時域發(fā)送特性的步驟 和利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性的步驟之間進一步包括根據(jù)消息源的時域發(fā)送特性,判斷到達的消息是否建立了新的會話;和響應(yīng)于到達的消息建立新的會話,進入利用消息源的時域發(fā)送特性來計算消息源的頻 域發(fā)送特性的步驟。
10.一種用于垃圾消息檢測的設(shè)備,包括收集裝置,配置為收集消息源的時域發(fā)送特性;計算裝置,配置為利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性;和判斷裝置,配置為響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的條件,判斷該消息源為 垃圾消息發(fā)送者。
11.根據(jù)權(quán)利要求10所述的設(shè)備,其中所述判斷裝置包括配置為響應(yīng)于該消息源的頻域發(fā)送特性與垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配, 判斷該消息源為垃圾消息發(fā)送者的裝置。
12.根據(jù)權(quán)利要求10所述的設(shè)備,其中所述判斷裝置包括配置為響應(yīng)于該消息源的頻域發(fā)送特性與非垃圾消息發(fā)送者模板的頻域發(fā)送特性不 匹配,判斷該消息源為垃圾消息發(fā)送者的裝置。
13.根據(jù)權(quán)利要求10所述的設(shè)備,其中所述判斷裝置包括配置為響應(yīng)于該消息源的頻域發(fā)送特性的參數(shù)的方差大于方差閾值,判斷該消息源為 垃圾消息發(fā)送者的裝置。
14.根據(jù)權(quán)利要求11所述的設(shè)備,其中為所述消息源和垃圾消息發(fā)送者模板建立形式 相同的模型,所述頻域發(fā)送特性由模型的參數(shù)組表示,所述計算裝置包括配置為利用消息源的時域發(fā)送特性來估計模型的對應(yīng)于該消息源的參數(shù)組的裝置;所述判斷裝置包括配置為響應(yīng)于模型的對應(yīng)于該消息源的參數(shù)組與模型的對應(yīng)于垃圾消息發(fā)送者模板 的參數(shù)組匹配,判斷該消息源為垃圾消息發(fā)送者的裝置。
15.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述垃圾消息發(fā)送者模板至少包括第一垃圾消 息發(fā)送者模板和第二垃圾消息發(fā)送者模板,為所述消息源、所述第一垃圾消息發(fā)送者模板 和所述第二垃圾消息發(fā)送者模板建立形式相同的模型,其中所述計算裝置包括配置為以至少兩個不同的值分別作為時域采樣間隔長度,利用消息源的時域發(fā)送特性 來估計模型的對應(yīng)于該消息源的至少兩個參數(shù)組的裝置;所述判斷裝置包括配置為響應(yīng)于模型的對應(yīng)于該消息源的至少兩個參數(shù)組中的任意一個與模型的對應(yīng) 于第一垃圾消息發(fā)送者模板的參數(shù)組和模型的匹配對應(yīng)于第一垃圾消息發(fā)送者模板的參 數(shù)組中的任意一個匹配,判斷該消息源為垃圾消息發(fā)送者的裝置。
16.根據(jù)權(quán)利要求15所述的設(shè)備,其中所述至少兩個不同的值中的一個是另一個的正整數(shù)倍。
17.根據(jù)權(quán)利要求10到16中任意一項所述的設(shè)備,在所述收集裝置和所述計算裝置之 間進一步包括配置為利用消息源的時域發(fā)送特性計算消息源的平均功率的裝置; 配置為響應(yīng)于所述平均功率大于平均功率閾值,判斷該消息源為垃圾消息發(fā)送者,并 且退出流程的裝置。
18.根據(jù)權(quán)利要求10到16中任意一項所述的設(shè)備,在所述收集裝置和所述計算裝置之 間進一步包括配置為根據(jù)消息源的時域發(fā)送特性,判斷到達的消息是否建立了新的會話的裝置;和 配置為響應(yīng)于到達的消息建立新的會話,啟動所述計算裝置的裝置。
全文摘要
本發(fā)明提供了用于垃圾消息檢測的方法和設(shè)備。該方法包括收集消息源的時域發(fā)送特性;利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性;和響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的條件,判斷該消息源為垃圾消息發(fā)送者。采用根據(jù)本發(fā)明實施例的技術(shù)方案,可以通過頻域發(fā)送特性來檢測異于正常用戶的消息發(fā)送行為,尤其是檢測控制多個消息源輪番發(fā)送消息的垃圾消息發(fā)送者,從而彌補基于消息發(fā)送速度的方法所具有的缺陷。
文檔編號H04W4/12GK101938711SQ20091013981
公開日2011年1月5日 申請日期2009年6月30日 優(yōu)先權(quán)日2009年6月30日
發(fā)明者張軼博, 朱延峰, 王晨, 英春, 陳曉艷 申請人:國際商業(yè)機器公司