用于垃圾消息檢測的方法和設(shè)備的制作方法

文檔序號：7707934閱讀：95來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：用于垃圾消息檢測的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息處理領(lǐng)域，更具體地說，涉及用于垃圾消息檢測的方法和設(shè)備。
背景技術(shù)：
垃圾消息，例如垃圾短信和垃圾郵件，嚴(yán)重地影響用戶的體驗和系統(tǒng)的性能。已經(jīng) 存在多種檢測垃圾消息的方法。根據(jù)基于用戶反饋的方法，由用戶識別并報告垃圾消息發(fā) 送者。根據(jù)基于社會網(wǎng)絡(luò)的方法，為每個用戶建立社會網(wǎng)絡(luò)檔案，用戶向社會網(wǎng)絡(luò)之外的其他用戶發(fā)送的消息被判斷為垃圾消息。問題在于，需要龐大的數(shù)據(jù)記錄系統(tǒng)來存儲被報告的垃圾消息發(fā)送者或者社會網(wǎng)絡(luò)檔案，并且該數(shù)據(jù)記錄系統(tǒng)需要在各服務(wù)運營商之間共享，這對于運營商而言是不可行的。根據(jù)基于消息內(nèi)容的方法，如果消息中含有預(yù)先設(shè)定的關(guān)鍵詞則被判斷為垃圾消息。問題在于關(guān)鍵詞的集合過小會導(dǎo)致大的漏判率，關(guān)鍵詞的集合過大又會影響檢測速度；查看消息內(nèi)容可能涉及隱私問題；垃圾消息的發(fā)送者可以采用簡單的變通方式，例如在關(guān)鍵詞內(nèi)部插入空格等，來規(guī)避檢測。根據(jù)基于消息發(fā)送速度的方法，如果消息源在短時間內(nèi)發(fā)送大量消息則被判斷為垃圾消息發(fā)送者。問題在于垃圾消息發(fā)送者可以通過控制多個消息源輪番發(fā)送消息來降低每個消息源短時間內(nèi)發(fā)送的消息數(shù)目；而作為正常用戶，也有可能在某些情況下在短時間內(nèi)發(fā)送大量消息。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明提供了一種新的檢測垃圾消息的方法，使得垃圾消息發(fā)送者無法通過如上所述的簡單手段來規(guī)避檢測。根據(jù)本發(fā)明的實施例，一種用于垃圾消息檢測的方法，包括收集消息源的時域發(fā) 送特性；利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性；和響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的條件，判斷該消息源為垃圾消息發(fā)送者。采用根據(jù)本發(fā)明實施例的技術(shù)方案，可以通過頻域發(fā)送特性來檢測控制多個消息源輪番發(fā)送消息的垃圾消息發(fā)送者，從而彌補基于消息發(fā)送速度的方法所具有的缺陷。

圖1是不同類型的消息源所具有的頻域發(fā)送特性示意圖。圖2是根據(jù)本發(fā)明實施例的檢測垃圾消息的方法的框圖。圖3(A) -圖3(D)示出了在四個不同的時域采樣間隔長度下，已知的垃圾消息發(fā)送者的模型參數(shù)分布。圖4是根據(jù)本發(fā)明實施例的垃圾消息檢測結(jié)果。圖5是根據(jù)本發(fā)明實施例的會話檢測的流程圖。圖6是根據(jù)本發(fā)明實施例的用于垃圾消息檢測的設(shè)備的方框圖。
具體實施例方式以下參照

本發(fā)明提供的檢測垃圾消息的方法和裝置的具體實施方式
。當(dāng) 第一元件被描述為與第二元件相連時，第一元件不僅可以直接與第二元件相連，而且還可以借助第三元件間接地與第二元件相連。進一步地，為了清楚，省略了對完全理解本發(fā)明不必要的一些元件。圖1是不同類型的消息源所具有的頻域發(fā)送特性示意圖。圖1 (A)是突發(fā)發(fā)送消息的消息源的頻域發(fā)送特性示意圖；圖1 (B)是周期性發(fā)送消息的消息源的頻域發(fā)送特性示意圖；圖1(c)是隨機發(fā)送消息的消息源的頻域發(fā)送特性示意圖。圖I(A)中的消息源在短時間內(nèi)發(fā)送大量的垃圾消息，期望在系統(tǒng)檢測到其行為之前發(fā)送盡可能多的垃圾消息。這種垃圾消息發(fā)送者已經(jīng)可以被基于消息發(fā)送速度的方法所檢測。圖I(B)中的消息源是消息源組中的一個，這一組消息源輪番發(fā)送消息。對于每一個消息源而言，其發(fā)送速度均達不到被基于消息發(fā)送速度的方法所檢測到的標(biāo)準(zhǔn)。圖I(C)中的消息源對應(yīng)于正常用戶，其隨機地發(fā)送消息，因此其頻域發(fā)送特性呈現(xiàn)無規(guī)律的特性。如圖1所示，不同類型的消息源的頻域發(fā)送特性具有顯著的差別，因此，可以通過頻域發(fā)送特性判斷每個消息源屬于哪種類型，從而判斷該消息源是否為垃圾消息發(fā)送者。圖2是根據(jù)本發(fā)明實施例的檢測垃圾消息的方法的框圖。如上所述，可以通過頻域發(fā)送特性判斷每個消息源屬于哪種類型。因此，根據(jù)本發(fā) 明實施例的檢測垃圾消息的方法包括步驟201，收集消息源的時域發(fā)送特性。消息源的時域發(fā)送特性可以從很多渠道獲得。例如，所謂的時域發(fā)送特性實際上可以通過到達時間來體現(xiàn)，即對于網(wǎng)絡(luò)側(cè)來說，只能判定消息到達網(wǎng)絡(luò)側(cè)的時間，而無法判定消息源發(fā)送消息的時間?？梢詮木W(wǎng)絡(luò)側(cè)所維持的呼叫細節(jié)記錄(CDR)獲取短消息的到達時間，也可以從網(wǎng)絡(luò)側(cè)的各種數(shù)據(jù)庫獲取各條消息的到達時間。步驟202，利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性。步驟203，判斷該消息源的頻域發(fā)送特性是否符合預(yù)定的條件，如果符合則判斷該消息源為垃圾消息發(fā)送者。所述預(yù)定的條件可以包括多種形式，例如，與預(yù)定的垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配，或者與預(yù)定的非垃圾消息發(fā)送者模板的頻域發(fā)送特性不匹配。特別地，消息源的頻域發(fā)送特性一般是由一組參數(shù)表示的，可以計算這一組參數(shù)的方差，如果方差大于方差閾值，則認(rèn)為該消息源是垃圾消息發(fā)送者。這是因為，垃圾消息發(fā)送者并非隨機發(fā)送，因此其頻域發(fā)送特性總是有比較明顯的峰和谷，對應(yīng)到頻域發(fā)送特性的參數(shù)上就是方差比較大；而隨機發(fā)送的普通消息源的頻域發(fā)送特性類似于白噪聲，譜分布比較平均，對應(yīng)到頻域發(fā)送特性的參數(shù)上就是方差比較小。這樣就可以減少需要進行參數(shù)比較的消息源的數(shù) 目，從而提高處理速度。以下以所述預(yù)定的條件是與預(yù)定的垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配，詳細介紹步驟202和步驟203的實現(xiàn)。根據(jù)本發(fā)明的第一個實施例，在利用消息源的時域發(fā) 送特性計算消息源的頻域發(fā)送特性時，利用傅立葉變換將時域發(fā)送特性變換為頻域發(fā)送特性。傅立葉變換是本領(lǐng)域的公知技術(shù)，在此不再贅述。在通過傅立葉變換得到頻域發(fā)送特性以后，可以通過與預(yù)定的垃圾消息發(fā)送者模板的頻域發(fā)送特性進行參數(shù)比較的方式來判斷該頻域發(fā)送特性是否匹配預(yù)定的垃圾消息發(fā)送者模板的頻域發(fā)送特性。但是，采用傅立葉變換獲取頻域發(fā)送特性可能存在的缺點在于一方面，傅里葉變換依賴于離散采樣，而離散采樣會造成頻譜拓展和頻譜混疊，從而引入較大的噪聲，這些噪聲往往淹沒了所需要的頻域發(fā)送特性，導(dǎo)致精度下降；另一方面，為了克服噪聲的影響以達到所要求的精度，需要提高傅里葉變換的階次，而階次的提高導(dǎo)致用于緩存時域發(fā)送特性數(shù)據(jù)的內(nèi)存開銷、用于進行傅里葉變換的計算開銷和用于進行參數(shù)比較的開銷都相應(yīng)提尚ο因此，根據(jù)本發(fā)明的第二個實施例，利用模型來估計消息源的頻域發(fā)送特性，然后判斷所述頻域發(fā)送特性是否匹配預(yù)定的垃圾消息發(fā)送者模板的頻域發(fā)送特性，如果匹配則判斷該消息源為垃圾消息發(fā)送者。根據(jù)該實施例，首先為消息源建模?？梢越樽曰貧w (AR)模型，自回歸移動平均ARMA模型或移動平均MA模型。由于作為消息源的系統(tǒng)不存在輸出對輸入的反饋，因此優(yōu)選地，將消息源建模為自回歸(AR)模型。一個M階自回歸模型的定義是
Mx(t) = amx(t -τη) + ε( )(丄)
m—\其物理意義是，當(dāng)前時刻的χ值，是過去M個時刻的χ值的線性組合加上均值為零，方差為ο2的白噪聲ε (t)。其中％到％為M個模型參數(shù)，構(gòu)成模型參數(shù)組。ο2稱為模型增益。因此，估計消息源的頻域發(fā)送特性就是估計消息源的AR模型中的這些模型參數(shù) 和模型增益。但是，將頻域發(fā)送特性與預(yù)定的垃圾消息發(fā)送者模板進行比對是比較對應(yīng)的模型參數(shù)，后面將闡述為什么不比較模型增益ο2。由此可見，采用這種方法可以靈活地設(shè) 置所要比較的參數(shù)個數(shù)。下面詳細地描述如何利用消息源的時域發(fā)送特性來估計AR模型中的模型參數(shù)。對于一個消息源，利用滑動窗檢測其在一段時間內(nèi)的消息發(fā)送數(shù)目。對于M階的 AR模型，滑動窗具有M+1個窗格，每個窗格對應(yīng)于一個時域采樣間隔，設(shè)時域采樣間隔的長度為P?？梢匀菀椎氐玫皆谌我庖粋€時域采樣間隔內(nèi)該消息源所發(fā)送的消息數(shù)目。在零時刻，每個窗格的值均為零；在P時刻，計算從零時刻到P時刻這段時間內(nèi)消息源所發(fā)送的消息數(shù)目，作為第一個窗格的值；在2P時刻，計算從P時刻到2P時刻這段時間內(nèi)消息源所發(fā) 送的消息數(shù)目，作為第二個窗格的值；直到在(M+1)P時刻，計算從MP時刻到(M+1)P時刻這段時間內(nèi)消息源所發(fā)送的消息數(shù)目，作為第M+1個窗格的值。此后，在(M+2)P時刻，令第一個窗格的值等于第二個窗格的值，第二個窗格的值等于第三個窗格的值等等，然后令第M+1 個窗格的值等于從(M+1)時刻到(M+2)P時刻這段時間內(nèi)消息源所發(fā)送的消息數(shù)目。這樣就構(gòu)成了滑動窗。由此可見，時域采樣間隔長度的設(shè)置相對于采用傅立葉變換的實施例而言更加靈活。這是因為采用傅立葉變換的實施例需要采中每條消息，而本實施例需要統(tǒng)計一定間隔內(nèi)的總的消息數(shù)目。在(M+1)P時刻，計算滑動窗的M+1個窗格中各個值的自相關(guān)。其中，自相關(guān)的定義是
權(quán)利要求
一種用于垃圾消息檢測的方法，包括收集消息源的時域發(fā)送特性；利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性；和響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的條件，判斷該消息源為垃圾消息發(fā)送者。
2.根據(jù)權(quán)利要求1所述的方法，其中所述響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的條件，判斷該消息源為垃圾消息發(fā)送者的步驟包括響應(yīng)于該消息源的頻域發(fā)送特性與垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配，判斷該消息源為垃圾消息發(fā)送者。
3.根據(jù)權(quán)利要求1所述的方法，其中所述響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的條件，判斷該消息源為垃圾消息發(fā)送者的步驟包括響應(yīng)于該消息源的頻域發(fā)送特性與非垃圾消息發(fā)送者模板的頻域發(fā)送特性不匹配，判斷該消息源為垃圾消息發(fā)送者。
4.根據(jù)權(quán)利要求1所述的方法，其中所述響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的條件，判斷該消息源為垃圾消息發(fā)送者的步驟包括響應(yīng)于該消息源的頻域發(fā)送特性的參數(shù)的方差大于方差閾值，判斷該消息源為垃圾消息發(fā)送者。
5.根據(jù)權(quán)利要求2所述的方法，其中為所述消息源和垃圾消息發(fā)送者模板建立形式相同的模型，所述頻域發(fā)送特性由模型的參數(shù)組表示，所述利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性的步驟包括利用消息源的時域發(fā)送特性來估計模型的對應(yīng)于該消息源的參數(shù)組；所述響應(yīng)于該消息源的頻域發(fā)送特性與垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配，判斷該消息源為垃圾消息發(fā)送者的步驟包括響應(yīng)于模型的對應(yīng)于該消息源的參數(shù)組與模型的對應(yīng)于垃圾消息發(fā)送者模板的參數(shù) 組匹配，判斷該消息源為垃圾消息發(fā)送者。
6.根據(jù)權(quán)利要求2所述的方法，其中所述垃圾消息發(fā)送者模板至少包括第一垃圾消息發(fā)送者模板和第二垃圾消息發(fā)送者模板，為所述消息源、所述第一垃圾消息發(fā)送者模板和所述第二垃圾消息發(fā)送者模板建立形式相同的模型，其中所述利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性的步驟包括以至少兩個不同的值分別作為時域采樣間隔長度，利用消息源的時域發(fā)送特性來估計模型的對應(yīng)于該消息源的至少兩個參數(shù)組；所述響應(yīng)于該消息源的頻域發(fā)送特性與垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配，判斷該消息源為垃圾消息發(fā)送者的步驟包括響應(yīng)于模型的對應(yīng)于該消息源的至少兩個參數(shù)組中的任意一個與模型的對應(yīng)于第一垃圾消息發(fā)送者模板的參數(shù)組和模型的匹配對應(yīng)于第一垃圾消息發(fā)送者模板的參數(shù)組中的任意一個匹配，判斷該消息源為垃圾消息發(fā)送者。
7.根據(jù)權(quán)利要求6所述的方法，其中所述至少兩個不同的值中的一個是另一個的正整數(shù)倍。
8.根據(jù)權(quán)利要求1到7中任意一項所述的方法，在收集消息源的時域發(fā)送特性的步驟和利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性的步驟之間進一步包括利用消息源的時域發(fā)送特性計算消息源的平均功率；響應(yīng)于所述平均功率大于平均功率閾值，判斷該消息源為垃圾消息發(fā)送者，并且退出流程。
9.根據(jù)權(quán)利要求1到7中任意一項所述的方法，在收集消息源的時域發(fā)送特性的步驟和利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性的步驟之間進一步包括根據(jù)消息源的時域發(fā)送特性，判斷到達的消息是否建立了新的會話；和響應(yīng)于到達的消息建立新的會話，進入利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性的步驟。
10.一種用于垃圾消息檢測的設(shè)備，包括收集裝置，配置為收集消息源的時域發(fā)送特性；計算裝置，配置為利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性；和判斷裝置，配置為響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的條件，判斷該消息源為垃圾消息發(fā)送者。
11.根據(jù)權(quán)利要求10所述的設(shè)備，其中所述判斷裝置包括配置為響應(yīng)于該消息源的頻域發(fā)送特性與垃圾消息發(fā)送者模板的頻域發(fā)送特性匹配，判斷該消息源為垃圾消息發(fā)送者的裝置。
12.根據(jù)權(quán)利要求10所述的設(shè)備，其中所述判斷裝置包括配置為響應(yīng)于該消息源的頻域發(fā)送特性與非垃圾消息發(fā)送者模板的頻域發(fā)送特性不匹配，判斷該消息源為垃圾消息發(fā)送者的裝置。
13.根據(jù)權(quán)利要求10所述的設(shè)備，其中所述判斷裝置包括配置為響應(yīng)于該消息源的頻域發(fā)送特性的參數(shù)的方差大于方差閾值，判斷該消息源為垃圾消息發(fā)送者的裝置。
14.根據(jù)權(quán)利要求11所述的設(shè)備，其中為所述消息源和垃圾消息發(fā)送者模板建立形式相同的模型，所述頻域發(fā)送特性由模型的參數(shù)組表示，所述計算裝置包括配置為利用消息源的時域發(fā)送特性來估計模型的對應(yīng)于該消息源的參數(shù)組的裝置；所述判斷裝置包括配置為響應(yīng)于模型的對應(yīng)于該消息源的參數(shù)組與模型的對應(yīng)于垃圾消息發(fā)送者模板的參數(shù)組匹配，判斷該消息源為垃圾消息發(fā)送者的裝置。
15.根據(jù)權(quán)利要求11所述的設(shè)備，其中所述垃圾消息發(fā)送者模板至少包括第一垃圾消息發(fā)送者模板和第二垃圾消息發(fā)送者模板，為所述消息源、所述第一垃圾消息發(fā)送者模板和所述第二垃圾消息發(fā)送者模板建立形式相同的模型，其中所述計算裝置包括配置為以至少兩個不同的值分別作為時域采樣間隔長度，利用消息源的時域發(fā)送特性來估計模型的對應(yīng)于該消息源的至少兩個參數(shù)組的裝置；所述判斷裝置包括配置為響應(yīng)于模型的對應(yīng)于該消息源的至少兩個參數(shù)組中的任意一個與模型的對應(yīng) 于第一垃圾消息發(fā)送者模板的參數(shù)組和模型的匹配對應(yīng)于第一垃圾消息發(fā)送者模板的參數(shù)組中的任意一個匹配，判斷該消息源為垃圾消息發(fā)送者的裝置。
16.根據(jù)權(quán)利要求15所述的設(shè)備，其中所述至少兩個不同的值中的一個是另一個的正整數(shù)倍。
17.根據(jù)權(quán)利要求10到16中任意一項所述的設(shè)備，在所述收集裝置和所述計算裝置之間進一步包括配置為利用消息源的時域發(fā)送特性計算消息源的平均功率的裝置；配置為響應(yīng)于所述平均功率大于平均功率閾值，判斷該消息源為垃圾消息發(fā)送者，并且退出流程的裝置。
18.根據(jù)權(quán)利要求10到16中任意一項所述的設(shè)備，在所述收集裝置和所述計算裝置之間進一步包括配置為根據(jù)消息源的時域發(fā)送特性，判斷到達的消息是否建立了新的會話的裝置；和配置為響應(yīng)于到達的消息建立新的會話，啟動所述計算裝置的裝置。
全文摘要
本發(fā)明提供了用于垃圾消息檢測的方法和設(shè)備。該方法包括收集消息源的時域發(fā)送特性；利用消息源的時域發(fā)送特性來計算消息源的頻域發(fā)送特性；和響應(yīng)于該消息源的頻域發(fā)送特性符合預(yù)定的條件，判斷該消息源為垃圾消息發(fā)送者。采用根據(jù)本發(fā)明實施例的技術(shù)方案，可以通過頻域發(fā)送特性來檢測異于正常用戶的消息發(fā)送行為，尤其是檢測控制多個消息源輪番發(fā)送消息的垃圾消息發(fā)送者，從而彌補基于消息發(fā)送速度的方法所具有的缺陷。
文檔編號H04W4/12GK101938711SQ20091013981
公開日2011年1月5日申請日期2009年6月30日優(yōu)先權(quán)日2009年6月30日
發(fā)明者張軼博, 朱延峰, 王晨, 英春, 陳曉艷申請人:國際商業(yè)機器公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張軼博;朱延峰;王晨;陳曉艷;英春
技術(shù)所有人：國際商業(yè)機器公司
我是此專利的發(fā)明人

上一篇：用于管理服務(wù)器設(shè)備和客戶設(shè)備之間的通信的方法
上一篇：移動無線終端裝置和基站搜索方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于垃圾消息檢測的方法和設(shè)備的制作方法