一種客戶端短信過濾嵌入式特征庫(kù)及更新方法
【專利摘要】本發(fā)明公開了一種客戶端短信過濾嵌入式特征庫(kù)及更新方法,在移動(dòng)終端上創(chuàng)建嵌入式特征庫(kù);將基于內(nèi)容的客戶端垃圾短信過濾系統(tǒng)劃分為特征庫(kù)更新模塊和實(shí)時(shí)短信分類模塊,特征庫(kù)更新模塊對(duì)嵌入式特征庫(kù)進(jìn)行定期更新,用戶也可隨時(shí)設(shè)置和更新短信類別信息;實(shí)時(shí)短信分類模塊只需從嵌入式特征庫(kù)中讀取相關(guān)數(shù)據(jù)、然后進(jìn)行快速的運(yùn)算便可將垃圾短信識(shí)別出來,提高短信實(shí)時(shí)分類的處理速度;運(yùn)算復(fù)雜度較高的特征庫(kù)更新模塊可在移動(dòng)終端應(yīng)用程序空閑時(shí)執(zhí)行或轉(zhuǎn)換至PC機(jī)端執(zhí)行。解決了現(xiàn)有客戶端垃圾短信過濾缺乏樣本庫(kù)和因硬件資源受限無法直接運(yùn)行現(xiàn)有智能過濾系統(tǒng)的現(xiàn)狀,降低了移動(dòng)客戶端的實(shí)時(shí)處理負(fù)擔(dān),且滿足不同用戶的定制短信過濾需求。
【專利說明】一種客戶端短信過濾嵌入式特征庫(kù)及更新方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于垃圾短信過濾【技術(shù)領(lǐng)域】,涉及一種嵌入式特征庫(kù)及更新方法。具體地 說,涉及一種客戶端短信過濾嵌入式特征庫(kù)及更新方法。
【背景技術(shù)】
[0002] 隨著移動(dòng)通信技術(shù)的飛速發(fā)展和手機(jī)等移動(dòng)終端的快速普及,使短信的使用率迅 速增加,短信因其低廉、方便、快捷等特點(diǎn),給廣大使用者帶來了方便,但也滋生了以傳播色 情、廣告、欺詐等不良信息的垃圾短信,嚴(yán)重干擾人們的生活,甚至給用戶造成了巨大的經(jīng) 濟(jì)損失。
[0003] 目前常用短信過濾方法及機(jī)制有:基于關(guān)鍵詞過濾、基于短信發(fā)送量及發(fā)送方分 析過濾、基于內(nèi)容過濾等。關(guān)鍵字過濾機(jī)制中的關(guān)鍵字主要依靠人工添加,具有滯后性、且 受制于關(guān)鍵字的更新能力,因此關(guān)鍵字過濾的誤報(bào)率及漏報(bào)率較高;基于短信發(fā)送量及發(fā) 送方分析的過濾多采用對(duì)同一主叫號(hào)碼的發(fā)送頻次進(jìn)行統(tǒng)計(jì)的方式,但短信發(fā)送者經(jīng)常通 過改變發(fā)送方式來逃避這種過濾機(jī)制,例如采用多個(gè)號(hào)碼分批次發(fā)送的方式;目前對(duì)短信 過濾的研究主要沿用基于內(nèi)容的垃圾郵件過濾算法,它采用機(jī)器學(xué)習(xí)方法把短信自動(dòng)分為 正常短信和垃圾短信,例如貝葉斯、支持向量機(jī)和人工免疫等,其優(yōu)點(diǎn)是過濾準(zhǔn)確率高,存 在的問題是這些方法運(yùn)算量大且需要訓(xùn)練樣本集的支持,而因涉及隱私等問題,公開的短 信訓(xùn)練樣本缺乏,給短信過濾研究帶來了困難。短信文本短小、特征數(shù)據(jù)不足,影響過濾準(zhǔn) 確率,因此特征詞的選取和特征庫(kù)的建立對(duì)垃圾短信過濾顯得尤為重要。
[0004] 從實(shí)現(xiàn)的角度,垃圾短信過濾又分為短信服務(wù)中心的短信過濾和手機(jī)等移動(dòng)終端 的客戶端短信過濾,基于內(nèi)容的垃圾短信過濾存在大量運(yùn)算,其學(xué)習(xí)和更新需要更多系統(tǒng) 資源,適合在短信服務(wù)中心服務(wù)器上運(yùn)行,但巨大短信流量帶來的過濾任務(wù)會(huì)導(dǎo)致短信服 務(wù)中心網(wǎng)絡(luò)擁塞等問題;另一方面統(tǒng)一的過濾器較難滿足用戶的個(gè)性化需求,而且一旦在 短信服務(wù)中心的過濾中出現(xiàn)分類錯(cuò)誤,將會(huì)直接導(dǎo)致短信無法送達(dá)客戶端。
[0005] 基于內(nèi)容的客戶端垃圾短信過濾更為便捷和保密,它可以根據(jù)用戶需求學(xué)習(xí)和生 成過濾系統(tǒng),保證用戶隱私不被侵犯的同時(shí)達(dá)到較好的過濾效果。但與個(gè)人電腦或服務(wù)器 相比,手機(jī)等移動(dòng)終端的計(jì)算速度和存儲(chǔ)能力有限,無法運(yùn)行基于內(nèi)容的智能過濾系統(tǒng),現(xiàn) 有的客戶端短信過濾基本采用黑白名單和關(guān)鍵詞過濾,這種簡(jiǎn)單的過濾方式不具有智能 性,無法適應(yīng)新的短信內(nèi)容和不斷變化的用戶需求。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于克服現(xiàn)有客戶端短信過濾缺乏樣本庫(kù)和因硬件資源受限而無 法運(yùn)行基于內(nèi)容的智能過濾系統(tǒng)的現(xiàn)狀,提供一種用于客戶端短信過濾的嵌入式特征庫(kù)及 更新方法。一是通過將特征庫(kù)更新模塊與實(shí)時(shí)短信分類模塊相分離,解決手機(jī)等移動(dòng)終端 硬件資源受限的問題,減輕客戶端的實(shí)時(shí)處理負(fù)擔(dān);二是通過嵌入式特征庫(kù)的創(chuàng)建和生成 解決客戶端垃圾短信過濾研究缺乏訓(xùn)練樣本的現(xiàn)狀;三是通過嵌入式特征庫(kù)的更新使過濾 系統(tǒng)能即時(shí)適應(yīng)于不斷變化的短信內(nèi)容和用戶過濾需求。
[0007] 為了達(dá)到上述目的,本發(fā)明采用的技術(shù)方案如下。
[0008] -種客戶端短信過濾嵌入式特征庫(kù)生成及更新方法,包括以下步驟: 步驟1,在移動(dòng)終端上創(chuàng)建嵌入式特征庫(kù),從初始訓(xùn)練樣本中提取特征數(shù)據(jù),形成嵌入 式特征庫(kù)的初始數(shù)據(jù); 步驟2,將基于內(nèi)容的客戶端垃圾短信過濾系統(tǒng)劃分為特征庫(kù)更新模塊和實(shí)時(shí)短信分 類模塊; 步驟3,對(duì)于待過濾短信,首先從中提取特征詞,實(shí)時(shí)短信分類模塊根據(jù)其特征詞數(shù)據(jù) 從嵌入式特征庫(kù)中讀取特征詞相關(guān)統(tǒng)計(jì)數(shù)據(jù),然后通過相應(yīng)的分類運(yùn)算得到類別信息; 步驟4,對(duì)于已分類短信,將其類別和特征詞信息加入新短信特征表; 步驟5,根據(jù)新短信特征表,特征庫(kù)更新模塊對(duì)嵌入式特征庫(kù)進(jìn)行定期更新; 步驟6,用戶可根據(jù)需求隨時(shí)設(shè)置和更新嵌入式特征庫(kù)中的類別信息。
[0009] 所述初始訓(xùn)練樣本要求每種短信類別至少包含一條短信訓(xùn)練樣本。
[0010] 所述嵌入式特征庫(kù)的創(chuàng)建過程包括在移動(dòng)終端上移植嵌入式數(shù)據(jù)庫(kù)和設(shè)計(jì)數(shù)據(jù) 邏輯模型,可存儲(chǔ)在移動(dòng)終端的SD卡上,用來保存短信樣本中的特征數(shù)據(jù)。
[0011] 所述嵌入式特征庫(kù)包括3張數(shù)據(jù)表,分別是短信類別表、特征詞信息表和特征詞 類別表。
[0012] 1)短信類別表的屬性項(xiàng)包括類別編號(hào)(主鍵)、類別名稱、樣本數(shù)目、是否為垃圾 短信、類別的先驗(yàn)概率,類別名稱可以由用戶自己設(shè)置和更新,例如包括開票辦證類、詐騙 類、日常問候類、房產(chǎn)交易類、保險(xiǎn)理財(cái)類等,每種類別可由用戶設(shè)定是否為垃圾短信。如果 用戶變更了某一類別的"是否為垃圾短信"屬性,用戶短信屬于相應(yīng)類別的概率并不改變, 因此嵌入式特征庫(kù)中其他數(shù)據(jù)無需更改,短信分類模塊可以即時(shí)適應(yīng)于新的類別設(shè)置。類 別c k的先驗(yàn)概率P(Ck)按公式(1)進(jìn)行計(jì)算。
[0013]
【權(quán)利要求】
1. 在一種客戶端短信過濾嵌入式特征庫(kù)及更新方法,其特征在于,包括以下步驟: 步驟1,在移動(dòng)終端上創(chuàng)建嵌入式特征庫(kù),從初始訓(xùn)練樣本中提取特征數(shù)據(jù),形成嵌入 式特征庫(kù)的初始數(shù)據(jù); 步驟2,將基于內(nèi)容的客戶端垃圾短信過濾系統(tǒng)劃分為特征庫(kù)更新模塊和實(shí)時(shí)短信分 類模塊; 步驟3,對(duì)于待過濾短信,首先從中提取特征詞,實(shí)時(shí)短信分類模塊根據(jù)其特征詞數(shù)據(jù) 從嵌入式特征庫(kù)中讀取特征詞相關(guān)統(tǒng)計(jì)數(shù)據(jù),然后通過相應(yīng)的分類運(yùn)算得到類別信息; 步驟4,對(duì)于已分類短信,將其類別和特征詞信息加入新短信特征表; 步驟5,根據(jù)新短信特征表,特征庫(kù)更新模塊對(duì)嵌入式特征庫(kù)進(jìn)行定期更新; 步驟6,用戶可根據(jù)需求隨時(shí)設(shè)置和更新嵌入式特征庫(kù)中的類別信息。
2. 根據(jù)權(quán)利要求1所述的客戶端短信過濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述嵌入式特征庫(kù)可存儲(chǔ)在移動(dòng)終端的SD卡上。
3. 根據(jù)權(quán)利要求1所述的客戶端短信過濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述嵌入式特征庫(kù)包括短信類別表、特征詞信息表和特征詞類別表。
4. 根據(jù)權(quán)利要求1所述的客戶端短信過濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述特征庫(kù)更新模塊包括如下步驟: 步驟1 :根據(jù)新短信特征表中的類別信息,更新嵌入式特征庫(kù)中的短信類別信息; 步驟2 :對(duì)于新短信特征表中的每一個(gè)特征詞,查找其在特征詞信息表中是否存在,若 存在則更新其在嵌入式特征庫(kù)中的特征詞信息和特征詞類別信息,若不存在則在特征詞信 息表和特征詞類別表中添加該特征詞信息; 步驟3 :如果特征詞數(shù)目大于Nmax,則執(zhí)行步驟4,否則結(jié)束; 步驟4 :將特征詞信息表中特征詞按照權(quán)重大小排序,刪除權(quán)重最低的Ndel&個(gè)特征 詞,同時(shí)級(jí)聯(lián)刪除特征詞類別表中的數(shù)據(jù)。
5. 根據(jù)權(quán)利要求1所述的客戶端短信過濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述特征庫(kù)更新模塊不需要即時(shí)運(yùn)行,可以在移動(dòng)終端的應(yīng)用程序空閑時(shí)執(zhí)行或轉(zhuǎn)換至PC 機(jī)端異步更新。
6. 根據(jù)權(quán)利要求1所述的客戶端短信過濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述特征庫(kù)更新模塊對(duì)嵌入式特征庫(kù)進(jìn)行定期更新,其更新周期由用戶根據(jù)移動(dòng)終端短信接 收頻次自行設(shè)置。
7. 根據(jù)權(quán)利要求1或3所述的客戶端短信過濾嵌入式特征庫(kù)及更新方法,其特征在于, 如果用戶變更了所述短信類別表中某一類別的"是否為垃圾短信"屬性,嵌入式特征庫(kù)中其 它數(shù)據(jù)無需更改,短信分類模塊可即時(shí)適應(yīng)于新的類別設(shè)置。
8. 根據(jù)權(quán)利要求3所述的客戶端短信過濾嵌入式特征庫(kù)及更新方法,其特征在于,所 述特征詞信息表的"特征詞權(quán)重"屬性W(tk)的計(jì)算公式為 :
其中Lk是特征詞tk在每類短信中出現(xiàn)次數(shù)的最大值;Sk是特征詞t k在所有短信中出 現(xiàn)的次數(shù)之和;MI (tk,(;)為特征詞tk與類別Ci的互信息,其中P ((;)的值可從短信類別表 中獲取,P(tk|Ci)的值可從特征詞類別表中獲取。
9. 根據(jù)權(quán)利要求4所述的客戶端短信過濾嵌入式特征庫(kù)更新方法,其特征在于,所述 步驟1中短信類別信息包括樣本數(shù)目、是否為垃圾短信、類別的先驗(yàn)概率。
10. 根據(jù)權(quán)利要求4所述的客戶端短信過濾嵌入式特征庫(kù)更新方法,其特征在于,所述 步驟2中特征詞信息和特征詞類別信息包括包括特征詞權(quán)重、特征詞在類中出現(xiàn)的次數(shù)、 特征詞在類中出現(xiàn)的概率。
11. 根據(jù)權(quán)利要求4所述的客戶端短信過濾嵌入式特征庫(kù)更新方法,其特征在于,所述 步驟2中Nmax為嵌入式特征庫(kù)數(shù)據(jù)記錄的最大值,可根據(jù)移動(dòng)終端的硬件資源設(shè)定。
12. 根據(jù)權(quán)利要求5所述的客戶端短信過濾嵌入式特征庫(kù)更新方法,其特征在于,所述 步驟3中Ndelrte為每次更新需刪除的特征詞數(shù)目。
【文檔編號(hào)】G06F9/445GK104156228SQ201410126384
【公開日】2014年11月19日 申請(qǐng)日期:2014年4月1日 優(yōu)先權(quán)日:2014年4月1日
【發(fā)明者】包理群, 伍忠東, 王海兵, 馬忠彧, 李錦瓏, 王宏斌 申請(qǐng)人:蘭州工業(yè)學(xué)院