一種垃圾短信過濾方法、系統(tǒng)、移動(dòng)終端以及云服務(wù)器的制造方法
【專利摘要】本發(fā)明實(shí)施方式公開了一種垃圾短信過濾方法,包括:移動(dòng)終端根據(jù)其存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,當(dāng)分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),移動(dòng)終端將分類錯(cuò)誤信息上傳到云服務(wù)器以更新與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集,移動(dòng)終端獲得云服務(wù)器的詞庫更新信息以同步更新移動(dòng)終端存儲(chǔ)的分類詞庫。本發(fā)明實(shí)施方式還公開了一種移動(dòng)終端、云服務(wù)器、垃圾短信過濾系統(tǒng)。通過上述方式,本發(fā)明能夠提高移動(dòng)終端對(duì)垃圾短信的過濾效率,使垃圾短信的過濾具有個(gè)性化。
【專利說明】一種垃圾短信過濾方法、系統(tǒng)、移動(dòng)終端以及云服務(wù)器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本分類領(lǐng)域,特別是涉及一種垃圾短信過濾方法、系統(tǒng)、移動(dòng)終端以及云服務(wù)器。
【背景技術(shù)】
[0002]隨著移動(dòng)通信技術(shù)的飛速發(fā)展和手機(jī)普及率的迅速提升,短信正以其短小、迅速、簡便、價(jià)格低廉等諸多優(yōu)點(diǎn)日益成為人們的一種重要通信和交流方式,給用戶帶來了極大的交流方便,同時(shí),垃圾短信日益猖獗,尤其是在智能手機(jī)快速普及、個(gè)人信息安全問題日益嚴(yán)峻的今天,不少用戶都深受垃圾短信的困擾。垃圾短信是指用戶沒有定制過的,包含有廣告、欺騙、色情等內(nèi)容以及短時(shí)間內(nèi)連續(xù)發(fā)送同樣內(nèi)容,影響用戶正常使用、工作和生活的短信,常見的垃圾短信內(nèi)容包括廣告信息、色情信息、假中獎(jiǎng)信息、欺詐信息、惡作劇等,即對(duì)用戶沒有價(jià)值的信息,給用戶帶來了很多的煩惱,因此急需對(duì)垃圾短信進(jìn)行監(jiān)控過濾?,F(xiàn)有技術(shù)中主要包括兩種垃圾短信的過濾方法:一種方法是在短信服務(wù)中心(SMSC)等短信處理中心進(jìn)行處理;另一種方法則是在手機(jī)等移動(dòng)終端上用編制的內(nèi)嵌程序執(zhí)行整個(gè)垃圾短信的過濾過程。
[0003]本申請(qǐng)發(fā)明人在長期研發(fā)中發(fā)現(xiàn),有些信息例如彩票信息、票務(wù)信息、廣告信息等對(duì)于一部分用戶來說可能是垃圾短信,但對(duì)于另一部分用戶來說則不屬于垃圾短信,在短信服務(wù)中心進(jìn)行過濾可能導(dǎo)致被錯(cuò)誤分類的信息無法到達(dá)用戶的移動(dòng)終端上,垃圾短信的過濾缺乏考慮不同用戶的需求差異;此外由于移動(dòng)終端的計(jì)算速度和空間都比較有限,在移動(dòng)終端上執(zhí)行整個(gè)垃圾短信的過濾過程會(huì)消耗過多的時(shí)間與空間,影響用戶對(duì)短信的正常接收。
【發(fā)明內(nèi)容】
[0004]本發(fā)明主要解決的技術(shù)問題是提供一種垃圾短信過濾方法、系統(tǒng)、移動(dòng)終端以及云服務(wù)器,能夠提高移動(dòng)終端對(duì)垃圾短信的過濾效率,使垃圾短信的過濾具有個(gè)性化。
[0005]為解決上述技術(shù)問題,本發(fā)明的第一方面是:提供一種垃圾短信過濾方法,包括:移動(dòng)終端根據(jù)其存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,其中,分類結(jié)果為垃圾短信或非垃圾短信;當(dāng)分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),移動(dòng)終端將分類錯(cuò)誤信息上傳到云服務(wù)器以更新與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集,其中,分類錯(cuò)誤信息包括待處理短信以及錯(cuò)誤的分類結(jié)果;移動(dòng)終端獲得云服務(wù)器的詞庫更新信息以同步更新移動(dòng)終端存儲(chǔ)的分類詞庫,其中,詞庫更新信息為在云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得。
[0006]其中,移動(dòng)終端根據(jù)其存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果的步驟具體包括:移動(dòng)終端對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征;移動(dòng)終端將分類詞庫中存儲(chǔ)的垃圾短信所占的比例P(C1)、非垃圾短信所占的比例P (C2)、單詞特征以及規(guī)則特征在垃圾短信中的匹配概率P (Xk IC1)以及非垃圾短信中的匹配概率P(XkIC2)代入貝葉斯分類公式中,以獲得待處理短信屬于垃圾短信的概率P (C11X),貝葉斯分類公式具體如下所示:
[0007]PiC11X)=--氣-
Σ^)Π^.Ι^)]
^-1 k=l
[0008]移動(dòng)終端獲得待處理短信屬于非垃圾短信的概率P (C21 X),具體如下所示:
[0009]P(C2Ix)=1-P (CjX)
[0010]移動(dòng)終端獲得待處理短信的分類結(jié)果,其中,當(dāng)P (C11X) >P (C21X)時(shí)則待處理短信屬于垃圾短信,否則待處理短信屬于非垃圾短信。
[0011]其中,在移動(dòng)終端對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征的步驟之前還包括:移動(dòng)終端判斷待處理短信的發(fā)送者號(hào)碼是否在與移動(dòng)終端對(duì)應(yīng)的私有黑白名單中,其中,當(dāng)發(fā)送者號(hào)碼在與移動(dòng)終端對(duì)應(yīng)的私有黑名單中時(shí)則待處理短信屬于垃圾短信,當(dāng)發(fā)送者號(hào)碼在與移動(dòng)終端對(duì)應(yīng)的私有白名單中時(shí)則待處理短信屬于非垃圾短信;當(dāng)發(fā)送者號(hào)碼不在與移動(dòng)終端對(duì)應(yīng)的私有黑白名單中時(shí),移動(dòng)終端繼續(xù)判斷發(fā)送者號(hào)碼是否在公有黑白名單中,其中,當(dāng)發(fā)送者號(hào)碼在公有黑名單中時(shí)則待處理短信屬于垃圾短信,當(dāng)發(fā)送者號(hào)碼在公有白名單中時(shí)則待處理短信屬于非垃圾短信;當(dāng)發(fā)送者號(hào)碼不在公有黑白名單中時(shí),移動(dòng)終端執(zhí)行對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征的步驟。
[0012]其中,當(dāng)分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),移動(dòng)終端上傳到云服務(wù)器的分類錯(cuò)誤信息還包括待處理短信的發(fā)送者號(hào)碼,移動(dòng)終端將發(fā)送者號(hào)碼上傳到云服務(wù)器以判斷是否將發(fā)送者號(hào)碼加入云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單中;當(dāng)云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單更新時(shí),移動(dòng)終端獲得云服務(wù)器的私有黑白名單更新信息和/或公有黑白名單更新信息以同步更新移動(dòng)終端存儲(chǔ)的公有黑白名單和/或私有黑白名單。
[0013]其中,錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信;詞庫更新信息至少包括私有短信訓(xùn)練集更新后待處理短信的單詞特征以及規(guī)則特征在垃圾短信或非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
[0014]為解決上述技術(shù)問題,本發(fā)明的第二方面是:提供一種垃圾短信過濾方法,包括:云服務(wù)器對(duì)其存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得與移動(dòng)終端對(duì)應(yīng)的分類詞庫,分類詞庫用于移動(dòng)終端對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,其中,分類結(jié)果為垃圾短信或非垃圾短信;當(dāng)分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),云服務(wù)器接收移動(dòng)終端上傳的分類錯(cuò)誤信息,其中,分類錯(cuò)誤信息包括待處理短信以及錯(cuò)誤的分類結(jié)果;云服務(wù)器將待處理短信加入與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集中以更新私有短信訓(xùn)練集;在私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后,云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新息。
[0015]其中,錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信;當(dāng)錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信時(shí),在私有短信訓(xùn)練集更新后,云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息的步驟具體包括:云服務(wù)器對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征;云服務(wù)器根據(jù)公有短信訓(xùn)練集中單詞特征和規(guī)則特征在垃圾短信中的匹配頻次、私有訓(xùn)練集中單詞特征和規(guī)則特征在垃圾短信中的匹配頻次、私有短信訓(xùn)練集和公有短信訓(xùn)練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第一詞庫更新信息,其中,第一詞庫更新信息包括私有短信訓(xùn)練集更新后待處理短信的單詞特征以及規(guī)則特征在垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例;當(dāng)錯(cuò)誤的分類結(jié)果為將屬于非垃圾短信的待處理短信分類為垃圾短信時(shí),在私有短信訓(xùn)練集更新后,云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息的步驟具體包括:云服務(wù)器對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征;云服務(wù)器根據(jù)公有短信訓(xùn)練集中單詞特征和規(guī)則特征在非垃圾短信中的匹配頻次、私有訓(xùn)練集中單詞特征和規(guī)則特征在非垃圾短信中的匹配頻次、私有短信訓(xùn)練集和公有短信訓(xùn)練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第二詞庫更新信息,其中,第二詞庫更新信息包括私有短信訓(xùn)練集更新后待處理短信的單詞特征以及規(guī)則特征在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
[0016]其中,分類錯(cuò)誤信息還包括待處理短信的發(fā)送者號(hào)碼,云服務(wù)器判斷是否將發(fā)送者號(hào)碼加入云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單中,若是則云服務(wù)器更新與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單以獲得私有黑白名單更新信息和/或公有黑白名單更新信息,以使移動(dòng)終端同步更新移動(dòng)終端存儲(chǔ)的公有黑白名單和/或私有黑白名單。
[0017]為解決上述技術(shù)問題,本發(fā)明的第三方面是:提供一種移動(dòng)終端,包括:分類模塊,用于根據(jù)移動(dòng)終端存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,其中,分類結(jié)果為垃圾短信或非垃圾短信,分類詞庫為云服務(wù)器對(duì)其存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得;上傳模塊,用于當(dāng)分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),將分類錯(cuò)誤信息上傳到云服務(wù)器以更新與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集,其中,分類錯(cuò)誤信息包括待處理短信以及錯(cuò)誤的分類結(jié)果;移動(dòng)終端更新模塊,用于獲得云服務(wù)器的詞庫更新信息以同步更新移動(dòng)終端中存儲(chǔ)的分類詞庫,其中,詞庫更新信息為在私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得。
[0018]為解決上述技術(shù)問題,本發(fā)明的第四方面是:提供一種云服務(wù)器,包括:學(xué)習(xí)模塊,用于對(duì)云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得與移動(dòng)終端對(duì)應(yīng)的分類詞庫,分類詞庫用于移動(dòng)終端對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,其中,分類結(jié)果為垃圾短信或非垃圾短信;云服務(wù)器更新模塊,當(dāng)分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),用于接收移動(dòng)終端上傳的分類錯(cuò)誤信息,其中,分類錯(cuò)誤信息包括待處理短信以及錯(cuò)誤的分類結(jié)果;云服務(wù)器更新模塊還用于將待處理短信加入與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集中以更新私有短信訓(xùn)練集;學(xué)習(xí)模塊還用于在私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后,對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息,進(jìn)而使移動(dòng)終端根據(jù)詞庫更新信息同步更新移動(dòng)終端中存儲(chǔ)的分類詞庫。
[0019]為解決上述技術(shù)問題,本發(fā)明的第五方面是:提供一種垃圾短信過濾系統(tǒng),包括如前所述的移動(dòng)終端以及如前所述的云服務(wù)器。
[0020]本發(fā)明的有益效果是:區(qū)別于現(xiàn)有技術(shù)的情況,本發(fā)明通過移動(dòng)終端根據(jù)其存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,當(dāng)分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),移動(dòng)終端將分類錯(cuò)誤信息上傳到云服務(wù)器以更新與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集,移動(dòng)終端獲得云服務(wù)器的詞庫更新信息以同步更新移動(dòng)終端存儲(chǔ)的分類詞庫,通過云服務(wù)器的強(qiáng)大處理能力,對(duì)更新后的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行再學(xué)習(xí),為移動(dòng)終端提供兼具個(gè)性化和普遍共性的分類詞庫,進(jìn)而不斷提高移動(dòng)終端對(duì)垃圾短信過濾的準(zhǔn)確性,提高移動(dòng)終端對(duì)垃圾短信的過濾效率,使垃圾短信的過濾具有個(gè)性化。
【專利附圖】
【附圖說明】
[0021]圖1是本發(fā)明垃圾短信過濾方法第一實(shí)施方式的流程圖;
[0022]圖2是本發(fā)明垃圾短信過濾方法第一實(shí)施方式中移動(dòng)終端根據(jù)其存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果的流程圖;
[0023]圖3是本發(fā)明垃圾短信過濾方法第二實(shí)施方式的流程圖;
[0024]圖4是本發(fā)明垃圾短信過濾方法第二實(shí)施方式中當(dāng)錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信時(shí)云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息的流程圖;
[0025]圖5是本發(fā)明垃圾短信過濾方法第二實(shí)施方式中當(dāng)錯(cuò)誤的分類結(jié)果為將屬于非垃圾短信的待處理短信分類為垃圾短信時(shí)云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息的流程圖;
[0026]圖6是本發(fā)明移動(dòng)終端一實(shí)施方式的原理框圖;
[0027]圖7是本發(fā)明云服務(wù)器一實(shí)施方式的原理框圖;
[0028]圖8是本發(fā)明垃圾短信過濾系統(tǒng)一實(shí)施方式的原理框圖。
【具體實(shí)施方式】
[0029]下面將結(jié)合本發(fā)明實(shí)施方式中的附圖,對(duì)本發(fā)明實(shí)施方式中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施方式僅僅是本發(fā)明一部分實(shí)施方式,而不是全部的實(shí)施方式。基于本發(fā)明中的實(shí)施方式,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施方式,均屬于本發(fā)明保護(hù)的范圍。
[0030]請(qǐng)參閱圖1,本發(fā)明垃圾短信過濾方法第一實(shí)施方式包括:
[0031]步驟SlOl:對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果;
[0032]移動(dòng)終端根據(jù)其存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得待處理短信對(duì)應(yīng)的分類結(jié)果,其中,分類結(jié)果為垃圾短信或非垃圾短信。移動(dòng)終端存儲(chǔ)的分類詞庫與云服務(wù)器存儲(chǔ)的分類詞庫隨時(shí)保持同步更新,云服務(wù)器存儲(chǔ)的分類詞庫為云服務(wù)器對(duì)其存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得。與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集可為空或者存儲(chǔ)有移動(dòng)終端上傳的已分類的垃圾短信和/或非垃圾短信,當(dāng)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集為空時(shí),分類詞庫為云服務(wù)器對(duì)公有短信訓(xùn)練集以及為空的私有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得,即此時(shí)僅對(duì)公有短信訓(xùn)練集進(jìn)行學(xué)習(xí);當(dāng)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集不為空時(shí),分類詞庫為云服務(wù)器對(duì)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得。云服務(wù)器存儲(chǔ)有一個(gè)公有短信訓(xùn)練集和多個(gè)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集,即云服務(wù)器存儲(chǔ)有一個(gè)共有短信訓(xùn)練集和多個(gè)私有短信訓(xùn)練集,其中,每個(gè)私有短信訓(xùn)練集對(duì)應(yīng)于一個(gè)移動(dòng)終端。
[0033]其中,公有短信訓(xùn)練集中存儲(chǔ)有一定數(shù)量的已分類的垃圾短信與非垃圾短信,云服務(wù)器上的所有移動(dòng)終端共用一個(gè)公有短信訓(xùn)練集;而私有短信訓(xùn)練集存儲(chǔ)有移動(dòng)終端上傳的已分類的垃圾短信與非垃圾短信,不同移動(dòng)終端對(duì)應(yīng)不同的私有短信訓(xùn)練集。
[0034]步驟S102:將分類錯(cuò)誤信息上傳到云服務(wù)器以更新與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集;
[0035]當(dāng)移動(dòng)終端獲得待處理短信的分類結(jié)果后,用戶判斷移動(dòng)終端獲得的分類結(jié)果是否為錯(cuò)誤的分類結(jié)果,其中,錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信。某些短信對(duì)于一些用戶而言可能是垃圾短信,但對(duì)于另一些用戶而言則可能是非垃圾短信,因此不同用戶對(duì)于同一條待處理短信的分類結(jié)果的正確與否可能有不同的判斷結(jié)果。
[0036]當(dāng)用戶判定分類結(jié)果為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)上述錯(cuò)誤的分類結(jié)果的上傳指令時(shí),移動(dòng)終端根據(jù)上傳指令將分類錯(cuò)誤信息上傳到云服務(wù)器以更新與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集,即移動(dòng)終端在接收到上傳指令后將分類錯(cuò)誤信息上傳到與服務(wù)器,以便云服務(wù)器對(duì)與該移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集進(jìn)行更新,其中,分類錯(cuò)誤信息包括待處理短信以及對(duì)應(yīng)的錯(cuò)誤的分類結(jié)果。
[0037]步驟S103:獲得云服務(wù)器的詞庫更新信息以同步更新移動(dòng)終端存儲(chǔ)的分類詞庫。
[0038]移動(dòng)終端獲得云服務(wù)器的詞庫更新信息以同步更新移動(dòng)終端存儲(chǔ)的分類詞庫,其中,詞庫更新信息為在云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得,即詞庫更新信息為當(dāng)私有短信訓(xùn)練集和公有短信訓(xùn)練集中的至少一個(gè)更新時(shí)而獲得,也即當(dāng)出現(xiàn)如下三種情況中的一種情況的更新時(shí)而獲得詞庫更新信息:(I)公有短信訓(xùn)練集更新,(2)私有短信訓(xùn)練集更新,(3)私有短信訓(xùn)練集和公有短信訓(xùn)練集同時(shí)更新。云服務(wù)器可定期加入一定數(shù)量的已分類的垃圾短信和/或非垃圾短信到公有短信訓(xùn)練集中以更新公有短信訓(xùn)練集。其中,當(dāng)私有短信訓(xùn)練集為空即私有短信訓(xùn)練集中沒有存儲(chǔ)移動(dòng)終端上傳的已分類的短信且沒有更新私有短信訓(xùn)練集時(shí),詞庫更新信息為云服務(wù)器對(duì)更新后的公有短信訓(xùn)練集以及為空的私有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得即此時(shí)僅對(duì)更新后的公有短信訓(xùn)練集進(jìn)行學(xué)習(xí);當(dāng)私有短信訓(xùn)練集不為空時(shí),詞庫更新信息為在私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得。當(dāng)云服務(wù)器通過學(xué)習(xí)而獲得詞庫更新信息后,移動(dòng)終端通過GPRS、WiFi等方式從云服務(wù)器上下載詞庫更新信息,移動(dòng)終端只需下載信息容量較小的詞庫更新信息而無需下載云服務(wù)器中更新后的整個(gè)分類詞庫即可實(shí)現(xiàn)對(duì)移動(dòng)終端存儲(chǔ)的分類詞庫的更新,減少移動(dòng)終端更新分類詞庫所需的流量。移動(dòng)終端根據(jù)更新后的分類詞庫對(duì)后續(xù)待處理短信進(jìn)行分類,從而形成一個(gè)循環(huán)過程。
[0039]本發(fā)明通過云服務(wù)器的強(qiáng)大處理能力,根據(jù)移動(dòng)終端上傳的分類錯(cuò)誤信息更新與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集,在私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后,結(jié)合分詞詞庫和停用詞庫進(jìn)行再學(xué)習(xí),通過進(jìn)一步學(xué)習(xí)為移動(dòng)終端提供兼具共性和個(gè)性化的分類詞庫,進(jìn)而不斷提高移動(dòng)終端對(duì)垃圾短信過濾的處理速度和準(zhǔn)確性,提高移動(dòng)終端對(duì)垃圾短信的過濾效率,同時(shí)也為移動(dòng)終端提供個(gè)性化的垃圾短信過濾,使垃圾短信的過濾具有個(gè)性化,滿足不同用戶對(duì)短信的不同過濾需求。
[0040]請(qǐng)參閱圖2,本發(fā)明垃圾短信過濾方法第一實(shí)施方式中移動(dòng)終端根據(jù)其存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果具體包括以下子步驟:
[0041]子步驟SlOll:對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征;
[0042]移動(dòng)終端對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征,具體包括:
[0043]移動(dòng)終端對(duì)待處理短信進(jìn)行分詞,通過查詢其存儲(chǔ)的分詞詞庫將待處理短信分割成一個(gè)個(gè)有意義的單詞特征,其中,中文分詞是將中文短信文本分割成漢語最小的、能獨(dú)立活動(dòng)的、有意義的語言成分即詞條;對(duì)于英文短信文本,根據(jù)詞之間的分隔標(biāo)記例如空格將英文短信文本分隔成一個(gè)個(gè)單詞特征。本實(shí)施方式的分詞方法為智能分詞法,即利用隱馬爾科夫模型(Hidden Markov Model, HMM)算法。在其他實(shí)施方式中,也可利用詞典分詞法、切分標(biāo)記法、基于統(tǒng)計(jì)的分詞法、基于規(guī)則的分詞法等方法進(jìn)行分詞,此處不作過多限制。
[0044]移動(dòng)終端根據(jù)其存儲(chǔ)的停用詞庫刪除對(duì)短信分類沒有貢獻(xiàn)的單詞特征,其包括分詞后形成的單個(gè)的字、嘆詞、語氣助詞、代詞等。
[0045]在刪除沒有貢獻(xiàn)的單詞特征后,移動(dòng)終端進(jìn)一步從剩余的單詞特征中選取對(duì)短信分類貢獻(xiàn)較高的單詞特征,通過計(jì)算各個(gè)剩余的單詞特征A出現(xiàn)與否和某個(gè)分類C的互信息MI (A; C),其中,分類C包括垃圾短信Cl與非垃圾短信C2兩類,互信息MI (A; C)的計(jì)算公式具體如下所示:
Pl A-Y ( ? - / Λ
[0046]Ml(A-C)= X 1>{A = x,C = c.)log
*E{0,l},ceSfl.e2}P(A — X)P(C — c)
[0047]進(jìn)一步從中選取具有最高互信息MI (A;C)的單詞特征作為分類判斷所用的單詞特征。
[0048]移動(dòng)終端獲得待處理短信的規(guī)則特征,規(guī)則特征包括短信長度、是否包含URL、是否包含電話號(hào)碼以及短信發(fā)送者號(hào)碼是否為手機(jī)號(hào)碼。
[0049]待處理短信X表示為:X={Xl,X2,…,xn},xk(k=l, 2,…,η)為待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征。
[0050]子步驟S1012:將垃圾短信、非垃圾短信所占的比例、單詞特征以及規(guī)則特征在垃圾短信中的匹配概率以及非垃圾短信中的匹配概率代入貝葉斯分類公式中;
[0051]移動(dòng)終端將分類詞庫中存儲(chǔ)的垃圾短信所占的比例P (C1)、非垃圾短信所占的比例P (C2)、待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征Xk在垃圾短信中的匹配概率P (Xk IC1)以及非垃圾短信中的匹配概率P(XkIC2)代入貝葉斯分類公式中,以獲得待處理短信屬于垃圾短信的概率P (C11X),貝葉斯分類公式具體如下所示:
"(r丨)?/'、ι(')
[0052]P(Q IX) = --^-1:{PiC-h)Y{PiXk\ch)'\
h=l k-^l
[0053]其中,垃圾短信所占的比例P(C1)即與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集中垃圾短信數(shù)量占所有短信(即垃圾短信與非垃圾短信)數(shù)量的比例;非垃圾短信所占的比例P(C2)即與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集中非垃圾短信數(shù)量占所有短信數(shù)量的比例。與移動(dòng)終端對(duì)應(yīng)的分類詞庫中存儲(chǔ)有垃圾短信所占的比例P(C1)、非垃圾短信所占的比例P(C2)、單詞特征以及規(guī)則特征在垃圾短信中的匹配概率P (Xk IC1)以及非垃圾短信中的匹配概率P (Xk IC2),不同移動(dòng)終端對(duì)應(yīng)不同的分類詞庫。
[0054]子步驟S1013:獲得待處理短信屬于非垃圾短信的概率;
[0055]移動(dòng)終端進(jìn)一步獲得待處理短信屬于非垃圾短信的概率P (C21X),具體如下所示:
[0056]P(C2IX)=1-P (CjX)
[0057]在其他實(shí)施方式中,也可利用貝葉斯分類公式獲得待處理短信屬于非垃圾短信的概率,此處不作過多限制。
[0058]子步驟S1014:獲得待處理短信的分類結(jié)果。
[0059]移動(dòng)終端根據(jù)待處理短信屬于垃圾短信的概率P (C11 X)以及屬于非垃圾短信的概率P(C21X)獲得待處理短信的分類結(jié)果,其中,當(dāng)P(C11X) >P(C21X)時(shí)則待處理短信的分類結(jié)果為屬于垃圾短信,否則待處理短信的分類結(jié)果為屬于非垃圾短信。同時(shí),也可通過判斷P(C1Ix)是否大于0.5而進(jìn)行分類判斷,當(dāng)P(C1IX)大于0.5時(shí)則屬于垃圾短信,否則屬于非垃圾短信。
[0060]當(dāng)分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),則至少云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集得到更新,對(duì)應(yīng)獲得的詞庫更新信息至少包括私有短信訓(xùn)練集更新后待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征在垃圾短信或非垃圾短信中的匹配概率、垃圾短信所占的比例P(C1)以及非垃圾短信所占的比例P(C2),具體地,當(dāng)錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信時(shí)對(duì)應(yīng)更新單詞特征以及規(guī)則特征在垃圾短信中的匹配概率、垃圾短信所占的比例P(C1)以及非垃圾短信所占的比例P(C2);當(dāng)錯(cuò)誤的分類結(jié)果為將屬于非垃圾短信的待處理短信分類為垃圾短信時(shí)對(duì)應(yīng)更新單詞特征以及規(guī)則特征在非垃圾短信中的匹配概率、垃圾短信所占的比例P(C1)以及非垃圾短信所占的比例P(C2)。
[0061]此外,在移動(dòng)終端對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征的步驟之前還包括:
[0062]移動(dòng)終端判斷待處理短信的發(fā)送者號(hào)碼是否在與移動(dòng)終端對(duì)應(yīng)的私有黑白名單中,其中,當(dāng)發(fā)送者號(hào)碼在與移動(dòng)終端對(duì)應(yīng)的私有黑名單中時(shí)則待處理短信屬于垃圾短信,當(dāng)發(fā)送者號(hào)碼在與移動(dòng)終端對(duì)應(yīng)的私有白名單中時(shí)則待處理短信屬于非垃圾短信。
[0063]當(dāng)發(fā)送者號(hào)碼不在與移動(dòng)終端對(duì)應(yīng)的私有黑白名單中時(shí),移動(dòng)終端繼續(xù)判斷發(fā)送者號(hào)碼是否在公有黑白名單中,其中,當(dāng)發(fā)送者號(hào)碼在公有黑名單中時(shí)則待處理短信屬于垃圾短信,當(dāng)發(fā)送者號(hào)碼在公有白名單中時(shí)則待處理短信屬于非垃圾短信。
[0064]當(dāng)發(fā)送者號(hào)碼不在公有黑白名單中時(shí),移動(dòng)終端執(zhí)行上述對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征的步驟即子步驟S1011。
[0065]在移動(dòng)終端執(zhí)行上述步驟SlOl獲得待處理短信的分類結(jié)果后,當(dāng)分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),移動(dòng)終端上傳到云服務(wù)器的分類錯(cuò)誤信息還包括待處理短信的發(fā)送者號(hào)碼,移動(dòng)終端將發(fā)送者號(hào)碼上傳到云服務(wù)器以判斷是否將發(fā)送者號(hào)碼加入云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單中,若是則云服務(wù)器更新云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單。具體地,移動(dòng)終端上傳的待處理短信的發(fā)送者號(hào)碼后,云服務(wù)器首先將發(fā)送者號(hào)碼加入與移動(dòng)終端對(duì)應(yīng)的私有黑白名單中,而在該發(fā)送者號(hào)碼達(dá)到一定數(shù)量后則加入公有黑白名單。例如,當(dāng)超過一預(yù)設(shè)數(shù)量如I萬名用戶舉報(bào)一發(fā)送者號(hào)碼則將該發(fā)送者號(hào)碼加入公有黑名單中;當(dāng)超過另一預(yù)設(shè)數(shù)量如100名用戶舉報(bào)一發(fā)送者號(hào)碼同時(shí)該短信內(nèi)容明顯含有違法內(nèi)容的則將該發(fā)送者號(hào)碼加入公有黑名單中。
[0066]當(dāng)云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單更新時(shí),移動(dòng)終端通過GPRS、WiFi等方式獲得云服務(wù)器的私有黑白名單更新信息和/或公有黑白名單更新信息以同步更新移動(dòng)終端存儲(chǔ)的公有黑白名單和/或私有黑白名單。進(jìn)一步地,移動(dòng)終端利用更新后的公有黑白名單和/或私有黑白名單對(duì)后續(xù)待處理短信進(jìn)行判斷。例如,在正確判斷得到待處理短信屬于垃圾短信或?qū)儆诶绦诺拇幚矶绦欧诸悶榉抢绦藕?,將待處理短信?duì)應(yīng)的發(fā)送者號(hào)碼上傳到云服務(wù)器中,云服務(wù)器進(jìn)一步將該發(fā)送者號(hào)碼加入與移動(dòng)終端對(duì)應(yīng)的私有黑白名單中。
[0067]可以理解,本發(fā)明垃圾短信過濾方法第一實(shí)施方式通過移動(dòng)終端根據(jù)云服務(wù)器對(duì)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得的分類詞庫進(jìn)行分類,當(dāng)分類結(jié)果錯(cuò)誤時(shí),移動(dòng)終端上傳分類錯(cuò)誤信息以及時(shí)更新移與動(dòng)終端對(duì)應(yīng)的分類詞庫,移動(dòng)終端無需進(jìn)行短信樣本的學(xué)習(xí)就可進(jìn)行分類,進(jìn)而能夠提高移動(dòng)終端對(duì)垃圾短信的過濾效率,且不同移動(dòng)終端對(duì)應(yīng)不同的私有短信訓(xùn)練集以及分類詞庫,使垃圾短信的過濾具有個(gè)性化,且提高垃圾短信的過濾精度。
[0068]另外,本發(fā)明既利用分詞詞庫和停用詞庫獲取短信的單詞特征,也獲取短信長度、是否包含URL、是否包含電話號(hào)碼以及短信發(fā)送者號(hào)碼是否為手機(jī)號(hào)碼等的規(guī)則特征,通過將單詞特征和規(guī)則特征的匹配概率代入貝葉斯分類公式,更加準(zhǔn)確直接計(jì)算出待處理短信屬于垃圾短信的概率,并迅速作出判斷,計(jì)算簡單快速效率高,極大減少了移動(dòng)終端的處理工作量。
[0069]請(qǐng)參閱圖3,本發(fā)明垃圾短信過濾方法第二實(shí)施方式包括:
[0070]步驟S201:對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí);
[0071]云服務(wù)器對(duì)其存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得與移動(dòng)終端對(duì)應(yīng)的分類詞庫。與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集可為空或者存儲(chǔ)有移動(dòng)終端上傳的已分類的垃圾短信和/或非垃圾短信,當(dāng)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集為空時(shí),云服務(wù)器對(duì)公有短信訓(xùn)練集以及為空的私有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得分類詞庫即此時(shí)云服務(wù)器僅對(duì)公有短信訓(xùn)練集進(jìn)行學(xué)習(xí);當(dāng)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集不為空時(shí),云服務(wù)器對(duì)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得分類詞庫。云服務(wù)器對(duì)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)具體包括:云服務(wù)器根據(jù)其存儲(chǔ)的分詞詞庫、停用詞庫對(duì)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行預(yù)處理以獲得公有短信訓(xùn)練集、私有短信訓(xùn)練集中各個(gè)垃圾短信以及非垃圾短信對(duì)應(yīng)的單詞特征以及規(guī)則特征,進(jìn)一步根據(jù)垃圾短信數(shù)量以及非垃圾短信數(shù)量獲得各個(gè)單詞特征以及規(guī)則特征在垃圾短信、非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
[0072]當(dāng)云服務(wù)器存儲(chǔ)的分詞詞庫和/或停用詞庫更新時(shí),移動(dòng)終端存儲(chǔ)的分詞詞庫和/或停用詞庫與云服務(wù)器保持同步更新。分類詞庫用于移動(dòng)終端對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,其中,分類結(jié)果為垃圾短信或非垃圾短信。云服務(wù)器對(duì)應(yīng)不同移動(dòng)終端存儲(chǔ)有與各個(gè)移動(dòng)終端分別對(duì)應(yīng)的分類詞庫。公有短信訓(xùn)練集中存儲(chǔ)有一定數(shù)量的已分類的垃圾短信與非垃圾短信。
[0073]在首次對(duì)待處理短信進(jìn)行分類判斷前,移動(dòng)終端可上傳用戶判斷得到一定數(shù)量的垃圾短信以及非垃圾短信到云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集中;此外,垃圾短信過濾的初始時(shí)刻與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集也可為空。在首次對(duì)待處理短信進(jìn)行分類判斷前,移動(dòng)終端通過GPRS、WiFi等方式獲得云服務(wù)中存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的分類詞庫以進(jìn)行分類判斷。
[0074]步驟S202:接收移動(dòng)終端上傳的分類錯(cuò)誤信息;
[0075]當(dāng)用戶判斷得到移動(dòng)終端獲得的分類結(jié)果為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),云服務(wù)器接收移動(dòng)終端上傳的分類錯(cuò)誤信息,分類錯(cuò)誤信息包括待處理短信以及錯(cuò)誤的分類結(jié)果,錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信。
[0076]步驟S203:將待處理短信加入私有短信訓(xùn)練集中;
[0077]云服務(wù)器將分類錯(cuò)誤信息中的待處理短信加入與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集中以更新與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集。當(dāng)移動(dòng)終端上傳的錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信時(shí),云服務(wù)器將待處理短信加入私有短信訓(xùn)練集中的垃圾短信類中;當(dāng)移動(dòng)終端上傳的錯(cuò)誤的分類結(jié)果為將屬于非垃圾短信的待處理短信分類為垃圾短信時(shí),云服務(wù)器將待處理短信加入私有短信訓(xùn)練集中的非垃圾短信類中。
[0078]步驟S204:對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)。
[0079]在私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后,云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息,詞庫更新信息的獲得具體包括以下兩種情況:(1)當(dāng)私有短信訓(xùn)練集為空即私有短信訓(xùn)練集中沒有存儲(chǔ)移動(dòng)終端上傳的已分類的短信且沒有更新私有短信訓(xùn)練集時(shí),詞庫更新信息為云服務(wù)器對(duì)更新后的公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得;(2)當(dāng)私有短信訓(xùn)練集不為空時(shí),詞庫更新信息為在私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后云服務(wù)器對(duì)公有短信訓(xùn)練集和私有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得。移動(dòng)終端根據(jù)詞庫更新信息同步更新移動(dòng)終端中存儲(chǔ)的分類詞庫,此時(shí)云服務(wù)器中的分類詞庫同樣根據(jù)詞庫更新信息得到更新,其中,詞庫更新信息可存儲(chǔ)于云服務(wù)器上的與移動(dòng)終端對(duì)應(yīng)的分類詞庫中。在對(duì)待處理短信進(jìn)行分類判斷前,移動(dòng)終端存儲(chǔ)的分類詞庫中的各個(gè)單詞特征和規(guī)則特征在垃圾短信以及非垃圾短信中的匹配概率與云服務(wù)器上存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的分類詞庫保持同步。
[0080]請(qǐng)參閱圖4,當(dāng)錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信時(shí),本發(fā)明垃圾短信過濾方法第二實(shí)施方式中在私有短信訓(xùn)練集更新后云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息具體包括以下子步驟:
[0081]子步驟S2041a:對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征;
[0082]云服務(wù)器對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征,待處理短信X表示為=X=UyX2, - ,xn},xk(k=l,2,…,η)為待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征。
[0083]子步驟S2042a:根據(jù)單詞特征和規(guī)則特征的匹配頻次、垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第一詞庫更新信息。
[0084]云服務(wù)器根據(jù)公有短信訓(xùn)練集中待處理短信對(duì)應(yīng)的單詞特征和規(guī)則特征Xk在垃圾短信中的匹配頻次、私有訓(xùn)練集中待處理短信對(duì)應(yīng)的單詞特征和規(guī)則特征Xk在垃圾短信中的匹配頻次、私有短信訓(xùn)練集和公有短信訓(xùn)練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第一詞庫更新信息,其中,第一詞庫更新信息包括在與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集更新后待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征Xk在垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。移動(dòng)終端根據(jù)第一詞庫更新信息同步更新分類詞庫也即修改與移動(dòng)終端對(duì)應(yīng)的分類詞庫中存儲(chǔ)的單詞特征以及規(guī)則特征Xk在垃圾短信中的匹配概率、將與移動(dòng)終端對(duì)應(yīng)的分類詞庫中沒有包括的單詞特征在垃圾短信中的匹配概率加入到分類詞庫中,以及修改分類詞庫中存儲(chǔ)的垃圾短信所占的比例以及非垃圾短信所占的比例。單詞特征以及規(guī)則特征Xk在垃圾短信中的匹配概率等于公有短信訓(xùn)練集中待處理短信對(duì)應(yīng)的單詞特征和規(guī)則特征Xk在垃圾短信中的匹配頻次+私有訓(xùn)練集中待處理短信對(duì)應(yīng)的單詞特征和規(guī)則特征Xk在垃圾短信中的匹配頻次的和除以私有短信訓(xùn)練集和公有短信訓(xùn)練集中的垃圾短信數(shù)量。
[0085]請(qǐng)參閱圖5,當(dāng)錯(cuò)誤的分類結(jié)果為將屬于非垃圾短信的待處理短信分類為垃圾短信時(shí),本發(fā)明垃圾短信過濾方法第二實(shí)施方式中在私有短信訓(xùn)練集更新后云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息具體包括以下子步驟:
[0086]子步驟S2041b:對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征;
[0087]云服務(wù)器對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征。
[0088]子步驟S2042b:根據(jù)單詞特征、規(guī)則特征的匹配頻次、垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第二詞庫更新信息。
[0089]云服務(wù)器根據(jù)公有短信訓(xùn)練集中待處理短信對(duì)應(yīng)的單詞特征和規(guī)則特征Xk在非垃圾短信中的匹配頻次、私有訓(xùn)練集中待處理短信對(duì)應(yīng)的單詞特征和規(guī)則特征Xk在非垃圾短信中的匹配頻次、私有短信訓(xùn)練集和公有短信訓(xùn)練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第二詞庫更新信息,其中,第二詞庫更新信息包括在與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集更新后待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征Xk在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。移動(dòng)終端根據(jù)第二詞庫更新信息同步更新分類詞庫也即修改與移動(dòng)終端對(duì)應(yīng)的分類詞庫中存儲(chǔ)的單詞特征以及規(guī)則特征Xk在非垃圾短信中的匹配概率、將與移動(dòng)終端對(duì)應(yīng)的分類詞庫中沒有包括的單詞特征在非垃圾短信中的匹配概率加入到分類詞庫中,以及修改分類詞庫中存儲(chǔ)的垃圾短信所占的比例以及非垃圾短信所占的比例。單詞特征以及規(guī)則特征Xk在非垃圾短信中的匹配概率等于公有短信訓(xùn)練集中待處理短信對(duì)應(yīng)的單詞特征和規(guī)則特征Xk在非垃圾短信中的匹配頻次+私有訓(xùn)練集中待處理短信對(duì)應(yīng)的單詞特征和規(guī)則特征Xk在非垃圾短信中的匹配頻次的和除以私有短信訓(xùn)練集和公有短信訓(xùn)練集中的非垃圾短信數(shù)量。
[0090]當(dāng)公有短信訓(xùn)練集更新時(shí),公有短信訓(xùn)練集的更新包括增加垃圾短信或增加非垃圾短信或同時(shí)增加垃圾短信以及非垃圾短信,與上述私有短信訓(xùn)練集的更新與學(xué)習(xí)同理,對(duì)公有短信訓(xùn)練集中更新部分的短信進(jìn)行預(yù)處理,進(jìn)一步根據(jù)單詞特征、規(guī)則特征的匹配頻次、垃圾短信數(shù)量、非垃圾短信數(shù)量獲得對(duì)應(yīng)的詞庫更新信息,以更新單詞特征、規(guī)則特征在垃圾短信和/或非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。當(dāng)私有短信訓(xùn)練集和公有短信訓(xùn)練集同時(shí)更新時(shí),亦與上述公有短信訓(xùn)練集、私有短信訓(xùn)練集的更新與學(xué)習(xí)同理,此處不再贅述。
[0091]云服務(wù)器對(duì)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)即根據(jù)單詞特征、規(guī)則特征在垃圾短信以及非垃圾短信中的匹配頻次、垃圾短信數(shù)量以及非垃圾短信數(shù)量獲得單詞特征、規(guī)則特征在垃圾短信以及非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例,獲得的匹配概率、所占的比例存儲(chǔ)于分類詞庫中,不同移動(dòng)終端對(duì)應(yīng)不同的分類詞庫。當(dāng)私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新時(shí),云服務(wù)器只需對(duì)更新部分的短信進(jìn)行預(yù)處理,即保留更新前私有短信訓(xùn)練集和/或公有短信訓(xùn)練集中的各個(gè)短信對(duì)應(yīng)的單詞特征以及規(guī)則特征,能夠提高云服務(wù)器預(yù)處理以及學(xué)習(xí)的效率,進(jìn)而提高更新分類詞庫的效率。
[0092]此外,云服務(wù)器接收移動(dòng)終端上傳的分類錯(cuò)誤信息中還包括待處理短信的發(fā)送者號(hào)碼,在接收到發(fā)送者號(hào)碼后云服務(wù)器判斷是否將發(fā)送者號(hào)碼加入云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單中,若是則云服務(wù)器更新與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單以獲得私有黑白名單更新信息和/或公有黑白名單更新信息,以使移動(dòng)終端同步更新移動(dòng)終端存儲(chǔ)的公有黑白名單和/或私有黑白名單。公有黑白名單更新信息、私有黑白名單更新信息包括發(fā)送者號(hào)碼以及該發(fā)送者號(hào)碼對(duì)應(yīng)加入的名單。例如,當(dāng)超過一預(yù)設(shè)數(shù)量如I萬名用戶舉報(bào)一發(fā)送者號(hào)碼則將該發(fā)送者號(hào)碼加入公有黑名單中;當(dāng)超過另一預(yù)設(shè)數(shù)量如100名用戶舉報(bào)一發(fā)送者號(hào)碼同時(shí)該短信內(nèi)容明顯含有違法內(nèi)容的則將該發(fā)送者號(hào)碼加入公有黑名單中。又例如,在正確判斷得到待處理短信屬于垃圾短信或?qū)儆诶绦诺拇幚矶绦欧诸悶榉抢绦藕螅瑢⒋幚矶绦艑?duì)應(yīng)的發(fā)送者號(hào)碼上傳到云服務(wù)器中,云服務(wù)器進(jìn)一步將該發(fā)送者號(hào)碼加入與移動(dòng)終端對(duì)應(yīng)的私有黑白名單中。
[0093]可以理解,本發(fā)明垃圾短信過濾方法第二實(shí)施方式通過云服務(wù)器對(duì)其存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得與移動(dòng)終端對(duì)應(yīng)的分類詞庫,移動(dòng)終端根據(jù)分類詞庫對(duì)待處理短信進(jìn)行分類判斷,當(dāng)接收到移動(dòng)終端上傳的分類錯(cuò)誤信息后云服務(wù)器進(jìn)行學(xué)習(xí)而獲得詞庫更新信息,進(jìn)而使移動(dòng)終端同步更新移動(dòng)終端存儲(chǔ)的分類詞庫,云服務(wù)器存儲(chǔ)占用空間較大的公有短信訓(xùn)練集、私有短信訓(xùn)練集以及執(zhí)行計(jì)算量較大的學(xué)習(xí)過程,能夠提高移動(dòng)終端對(duì)垃圾短信的過濾效率以及減少移動(dòng)終端的占用空間,且云服務(wù)器對(duì)應(yīng)不同移動(dòng)終端存儲(chǔ)有相應(yīng)的私有短信訓(xùn)練集以及分類詞庫,使垃圾短信的過濾具有個(gè)性化,進(jìn)而提高垃圾短信的過濾精度。
[0094]請(qǐng)參閱圖6,本發(fā)明移動(dòng)終端一實(shí)施方式包括:
[0095]分類模塊301,用于根據(jù)移動(dòng)終端中存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,以及根據(jù)更新后的分類詞庫對(duì)后續(xù)待處理短信進(jìn)行分類;具體實(shí)現(xiàn)可參考前述步驟SlOl對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0096]上傳模塊302,用于當(dāng)分類模塊301獲得的分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),將分類錯(cuò)誤信息上傳到云服務(wù)器以更新與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集;具體實(shí)現(xiàn)可參考前述步驟S102對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0097]移動(dòng)終端更新模塊303,用于獲得云服務(wù)器的詞庫更新信息以同步更新移動(dòng)終端中存儲(chǔ)的分類詞庫,以及獲得云服務(wù)器的私有黑白名單更新信息和/或公有黑白名單更新信息以同步更新移動(dòng)終端存儲(chǔ)的公有黑白名單和/或私有黑白名單;具體實(shí)現(xiàn)可參考前述步驟S103對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0098]請(qǐng)參閱圖7,本發(fā)明云服務(wù)器一實(shí)施方式包括:
[0099]學(xué)習(xí)模塊401,用于對(duì)云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得與移動(dòng)終端對(duì)應(yīng)的分類詞庫,還用于在私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后,對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息,進(jìn)而使移動(dòng)終端根據(jù)詞庫更新信息同步更新移動(dòng)終端中存儲(chǔ)的分類詞庫;具體實(shí)現(xiàn)可參考前述步驟S201對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0100]云服務(wù)器更新模塊402,用于當(dāng)分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),接收移動(dòng)終端上傳的分類錯(cuò)誤信息,以及將分類錯(cuò)誤信息中的待處理短信加入移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集中以更新私有短信訓(xùn)練集;還用于判斷是否將發(fā)送者號(hào)碼加入其存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單中,若是則云服務(wù)器更新模塊402更新與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單以獲得私有黑白名單更新信息和/或公有黑白名單更新信息;具體實(shí)現(xiàn)可參考前述步驟S202對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0101]請(qǐng)參閱圖8,本發(fā)明短信過濾系統(tǒng)一實(shí)施方式包括移動(dòng)終端以及服務(wù)器:
[0102]移動(dòng)終端包括:私有黑白名單、公有黑白名單、分類詞庫、分詞詞庫、停用詞庫、私有黑白名單過濾模塊501、公有黑白名單過濾模塊502、分類模塊503、上傳模塊504以及移動(dòng)終端更新模塊505,其中,私有黑白名單、公有黑白名單、分類詞庫、分詞詞庫及停用詞庫均通過移動(dòng)終端更新模塊505與云服務(wù)器保持同步更新。
[0103]私有黑白名單過濾模塊501以及公有黑白名單過濾模塊502,用于通過私有黑白名單和公有黑白名單對(duì)待處理短信進(jìn)行黑白名單的過濾,實(shí)現(xiàn)垃圾短信的初步快速過濾;具體實(shí)現(xiàn)可參考前述黑白名單過濾步驟對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0104]分類模塊503用于在待處理短信不在公有、私有黑白名單中時(shí),首先根據(jù)分詞詞庫和停用詞庫對(duì)待處理短信進(jìn)行預(yù)處理獲得單詞特征和規(guī)則特征,其次根據(jù)移動(dòng)終端中存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果;具體實(shí)現(xiàn)可參考前述步驟SlOl對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0105]上傳模塊504,用于當(dāng)上述分類模塊503的分類結(jié)果為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)錯(cuò)誤的分類結(jié)果的上傳指令時(shí),將分類錯(cuò)誤信息上傳到云服務(wù)器以更新移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和私有黑白名單;具體實(shí)現(xiàn)可參考前述步驟S102對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0106]移動(dòng)終端更新模塊505用于獲得云服務(wù)器的公有黑白名單更新信息和/或私有黑白名單更新信息以同步更新移動(dòng)終端存儲(chǔ)的公有黑白名單和/或私有黑白名單;還用于獲得云服務(wù)器的詞庫更新信息以同步更新移動(dòng)終端中存儲(chǔ)的分類詞庫;還用于獲得云服務(wù)器的分詞詞庫更新信息和/或停用詞庫更新信息以同步更新移動(dòng)終端存儲(chǔ)的分詞詞庫和/或停用詞庫;具體實(shí)現(xiàn)可參考前述步驟S103對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0107]云服務(wù)器包括:分詞詞庫、停用詞庫、公有短信訓(xùn)練集、私有短信訓(xùn)練集、公有黑白名單、私有黑白名單、分類詞庫、學(xué)習(xí)模塊506以及云服務(wù)器更新模塊507。其中,分詞詞庫、停用詞庫、公有短信訓(xùn)練集及公有黑白名單均是垃圾過濾系統(tǒng)中所有移動(dòng)終端共用的,而私有短信訓(xùn)練集、私有黑白名單、分類詞庫則是分別對(duì)應(yīng)各個(gè)移動(dòng)終端,每個(gè)移動(dòng)終端均不同。
[0108]學(xué)習(xí)模塊506,用于根據(jù)云服務(wù)器存儲(chǔ)的分詞詞庫以及停用詞庫對(duì)云服務(wù)器存儲(chǔ)的公有短信訓(xùn)練集和/或移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得與移動(dòng)終端對(duì)應(yīng)的分類詞庫;還用于在公有短信訓(xùn)練集和/或私有短信訓(xùn)練集更新后,對(duì)公有短信訓(xùn)練集和/或私有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息,進(jìn)而使移動(dòng)終端根據(jù)詞庫更新信息同步更新移動(dòng)終端中存儲(chǔ)的分類詞庫;具體實(shí)現(xiàn)可參考前述步驟S201對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0109]云服務(wù)器更新模塊507,用于接收移動(dòng)終端上傳的分類錯(cuò)誤信息;還用于將待處理短信加入移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集中以更新私有短信訓(xùn)練集,以及用于更新公有黑白名單和/或私有黑白名單以獲得公有黑白名單更新信息和/或私有黑白名單更新信息;具體實(shí)現(xiàn)可參考前述步驟S202對(duì)應(yīng)的實(shí)現(xiàn)過程,在此不再重述。
[0110]公有短信訓(xùn)練集用于存儲(chǔ)一定數(shù)量的已分類的垃圾短信與非垃圾短信,云服務(wù)器獲得的公有短信訓(xùn)練集中短信對(duì)應(yīng)的單詞特征和規(guī)則特征在公有短信訓(xùn)練集的垃圾短信中的匹配頻次、公有短信訓(xùn)練集中垃圾短信數(shù)量、單詞特征和規(guī)則特征在公有短信訓(xùn)練集的非垃圾短信中的匹配頻次、公有短信訓(xùn)練集中非垃圾短信數(shù)量可存儲(chǔ)于公有短信訓(xùn)練集中,也可存儲(chǔ)于云服務(wù)器的學(xué)習(xí)模塊506等其它存儲(chǔ)位置。私有短信訓(xùn)練集用于存儲(chǔ)移動(dòng)終端上傳的已分類的垃圾短信與非垃圾短信,同理云服務(wù)器獲得的私有短信訓(xùn)練集中短信對(duì)應(yīng)的單詞特征和規(guī)則特征在私有短信訓(xùn)練集中的匹配頻次等信息可存儲(chǔ)于私有短信訓(xùn)練集中,也可存儲(chǔ)于云服務(wù)器的學(xué)習(xí)模塊506等其它存儲(chǔ)位置。分類詞庫用于存儲(chǔ)云服務(wù)器對(duì)與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得的單詞特征和規(guī)則特征在垃圾短信中的匹配概率以及在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。分詞詞庫用于存儲(chǔ)短信對(duì)應(yīng)的各個(gè)有意義的單詞特征。停用詞庫用于存儲(chǔ)對(duì)短信分類沒有貢獻(xiàn)的單詞特征,其包括分詞后形成的單個(gè)的字、嘆詞、語氣助詞、代詞等。公有黑白名單用于存儲(chǔ)用戶普遍加入黑名單的垃圾短信發(fā)送者號(hào)碼以及加入白名單的非垃圾短信發(fā)送者號(hào)碼。私有黑白名單用于與移動(dòng)終端對(duì)應(yīng)的加入黑名單的垃圾短信發(fā)送者號(hào)碼以及加入白名單的非垃圾短信發(fā)送者號(hào)碼。
[0111]本發(fā)明短信過濾系統(tǒng)為分布式結(jié)構(gòu),移動(dòng)終端執(zhí)行短信的分類判斷,利用處理能力較強(qiáng)和處理速度較快的云服務(wù)器執(zhí)行分類判斷所需的學(xué)習(xí)過程,能夠提高垃圾短信的過濾效率,使垃圾短信的過濾具有個(gè)性化。
[0112]以上所述僅為本發(fā)明的實(shí)施方式,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的【技術(shù)領(lǐng)域】,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種垃圾短信過濾方法,其特征在于,包括: 移動(dòng)終端根據(jù)其存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,其中,所述分類結(jié)果為垃圾短信或非垃圾短信; 當(dāng)所述分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)所述錯(cuò)誤的分類結(jié)果的上傳指令時(shí),所述移動(dòng)終端將分類錯(cuò)誤信息上傳到云服務(wù)器以更新與所述移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集,其中,所述分類錯(cuò)誤信息包括待處理短信以及錯(cuò)誤的分類結(jié)果; 所述移動(dòng)終端獲得云服務(wù)器的詞庫更新信息以同步更新所述移動(dòng)終端存儲(chǔ)的分類詞庫,其中,所述詞庫更新信息為在云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述移動(dòng)終端根據(jù)其存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果的步驟具體包括: 所述移動(dòng)終端對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征; 所述移動(dòng)終端將分類詞庫中存儲(chǔ)的垃圾短信所占的比例P (C1)、非垃圾短信所占的比例P (C2)、單詞特征以及規(guī)則特征在垃圾短信中的匹配概率P (Xk I C1)以及非垃圾短信中的匹配概率P(XkIc2)代入貝葉斯分類公式中,以獲得所述待處理短信屬于垃圾短信的概率P (C1IX),所述貝葉斯分類公式具體如下所示:
!(;) PiCl IX) = --氣-1k=\ 所述移動(dòng)終端獲得待處理短信屬于非垃圾短信的概率P (C21X),具體如下所示:
P(C2Ix)=1-P(C1Ix) 所述移動(dòng)終端獲得待處理短信的分類結(jié)果,其中,當(dāng)P(C11X) >P(C21X)時(shí)則所述待處理短信屬于垃圾短信,否則所述待處理短信屬于非垃圾短信。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于, 在所述移動(dòng)終端對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征的步驟之前還包括: 所述移動(dòng)終端判斷待處理短信的發(fā)送者號(hào)碼是否在與移動(dòng)終端對(duì)應(yīng)的私有黑白名單中,其中,當(dāng)所述發(fā)送者號(hào)碼在與移動(dòng)終端對(duì)應(yīng)的私有黑名單中時(shí)則所述待處理短信屬于垃圾短信,當(dāng)所述發(fā)送者號(hào)碼在與移動(dòng)終端對(duì)應(yīng)的私有白名單中時(shí)則所述待處理短信屬于非垃圾短信; 當(dāng)所述發(fā)送者號(hào)碼不在與移動(dòng)終端對(duì)應(yīng)的私有黑白名單中時(shí),所述移動(dòng)終端繼續(xù)判斷發(fā)送者號(hào)碼是否在公有黑白名單中,其中,當(dāng)所述發(fā)送者號(hào)碼在公有黑名單中時(shí)則所述待處理短信屬于垃圾短信,當(dāng)所述發(fā)送者號(hào)碼在公有白名單中時(shí)則所述待處理短信屬于非垃圾短信; 當(dāng)所述發(fā)送者號(hào)碼不在公有黑白名單中時(shí),所述移動(dòng)終端執(zhí)行所述對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征的步驟。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于, 當(dāng)所述分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)所述錯(cuò)誤的分類結(jié)果的上傳指令時(shí),所述移動(dòng)終端上傳到云服務(wù)器的分類錯(cuò)誤信息還包括待處理短信的發(fā)送者號(hào)碼,所述移動(dòng)終端將發(fā)送者號(hào)碼上傳到云服務(wù)器以判斷是否將發(fā)送者號(hào)碼加入所述云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單中; 當(dāng)所述云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單更新時(shí),所述移動(dòng)終端獲得云服務(wù)器的私有黑白名單更新信息和/或公有黑白名單更新信息以同步更新移動(dòng)終端存儲(chǔ)的公有黑白名單和/或私有黑白名單。
5.根據(jù)權(quán)利要求1或4所述的方法,其特征在于, 所述錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信; 所述詞庫更新信息至少包括私有短信訓(xùn)練集更新后待處理短信的單詞特征以及規(guī)則特征在垃圾短信或非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
6.一種垃圾短信過濾方法,其特征在于,包括: 云服務(wù)器對(duì)其存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得與移動(dòng)終端對(duì)應(yīng)的分類詞庫,所述分類詞庫用于移動(dòng)終端對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,其中,所述分類結(jié)果為垃圾短信或非垃圾短信; 當(dāng)所述分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)所述錯(cuò)誤的分類結(jié)果的上傳指令時(shí),所述云服務(wù)器接收移動(dòng)終端上傳的分類錯(cuò)誤信息,其中,所述分類錯(cuò)誤信息包括待處理短信以及錯(cuò)誤的分類結(jié)果; 所述云服務(wù)器將待處理短信加入與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集中以更新私有短信訓(xùn)練集; 在所述私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后,所述云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于, 所述錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信或者將屬于非垃圾短信的待處理短信分類為垃圾短信; 當(dāng)所述錯(cuò)誤的分類結(jié)果為將屬于垃圾短信的待處理短信分類為非垃圾短信時(shí),在所述私有短信訓(xùn)練集更新后,所述云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息的步驟具體包括: 所述云服務(wù)器對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征; 所述云服務(wù)器根據(jù)公有短信訓(xùn)練集中所述單詞特征和規(guī)則特征在垃圾短信中的匹配頻次、私有訓(xùn)練集中所述單詞特征和規(guī)則特征在垃圾短信中的匹配頻次、私有短信訓(xùn)練集和公有短信訓(xùn)練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第一詞庫更新信息,其中,所述第一詞庫更新信息包括私有短信訓(xùn)練集更新后待處理短信的單詞特征以及規(guī)則特征在垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例; 當(dāng)所述錯(cuò)誤的分類結(jié)果為將屬于非垃圾短信的待處理短信分類為垃圾短信時(shí),在所述私有短信訓(xùn)練集更新后,所述云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息的步驟具體包括: 所述云服務(wù)器對(duì)待處理短信進(jìn)行預(yù)處理以獲得待處理短信對(duì)應(yīng)的單詞特征以及規(guī)則特征; 所述云服務(wù)器根據(jù)公有短信訓(xùn)練集中所述單詞特征和規(guī)則特征在非垃圾短信中的匹配頻次、私有訓(xùn)練集中所述單詞特征和規(guī)則特征在非垃圾短信中的匹配頻次、私有短信訓(xùn)練集和公有短信訓(xùn)練集中的垃圾短信數(shù)量、非垃圾短信數(shù)量獲得第二詞庫更新信息,其中,所述第二詞庫更新信息包括私有短信訓(xùn)練集更新后待處理短信的單詞特征以及規(guī)則特征在非垃圾短信中的匹配概率、垃圾短信所占的比例以及非垃圾短信所占的比例。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于, 所述分類錯(cuò)誤信息還包括待處理短信的發(fā)送者號(hào)碼,所述云服務(wù)器判斷是否將發(fā)送者號(hào)碼加入云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單中,若是則所述云服務(wù)器更新與移動(dòng)終端對(duì)應(yīng)的私有黑白名單和/或公有黑白名單以獲得私有黑白名單更新信息和/或公有黑白名單更新信息,以使所述移動(dòng)終端同步更新移動(dòng)終端存儲(chǔ)的公有黑白名單和/或私有黑白名單。
9.一種移動(dòng)終端,其特征在于,包括: 分類模塊,用于根據(jù)移動(dòng)終端存儲(chǔ)的分類詞庫對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,其中,所述分類結(jié)果為垃圾短信或非垃圾短信,所述分類詞庫為云服務(wù)器對(duì)其存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得; 上傳模塊,用于當(dāng)所述分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)所述錯(cuò)誤的分類結(jié)果的上傳指令時(shí),將分類錯(cuò)誤信息上傳到云服務(wù)器以更新與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集,其中,所述分類錯(cuò)誤信息包括待處理短信以及錯(cuò)誤的分類結(jié)果; 移動(dòng)終端更新模塊,用于獲得云服務(wù)器的詞庫更新信息以同步更新所述移動(dòng)終端中存儲(chǔ)的分類詞庫,其中,所述詞庫更新信息為在私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后云服務(wù)器對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)而獲得。
10.一種云服務(wù)器,其特征在于,包括: 學(xué)習(xí)模塊,用于對(duì)云服務(wù)器存儲(chǔ)的與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得與移動(dòng)終端對(duì)應(yīng)的分類詞庫,所述分類詞庫用于移動(dòng)終端對(duì)待處理短信進(jìn)行分類以獲得分類結(jié)果,其中,所述分類結(jié)果為垃圾短信或非垃圾短信; 云服務(wù)器更新模塊,當(dāng)所述分類結(jié)果被判定為錯(cuò)誤的分類結(jié)果且移動(dòng)終端接收到對(duì)應(yīng)所述錯(cuò)誤的分類結(jié)果的上傳指令時(shí),用于接收移動(dòng)終端上傳的分類錯(cuò)誤信息,其中,所述分類錯(cuò)誤信息包括待處理短信以及錯(cuò)誤的分類結(jié)果; 所述云服務(wù)器更新模塊還用于將待處理短信加入與移動(dòng)終端對(duì)應(yīng)的私有短信訓(xùn)練集中以更新私有短信訓(xùn)練集; 所述學(xué)習(xí)模塊還用于在私有短信訓(xùn)練集和/或公有短信訓(xùn)練集更新后,對(duì)私有短信訓(xùn)練集和公有短信訓(xùn)練集進(jìn)行學(xué)習(xí)以獲得詞庫更新信息,進(jìn)而使所述移動(dòng)終端根據(jù)詞庫更新信息同步更新移動(dòng)終端中存儲(chǔ)的分類詞庫。
11.一種垃圾短信過濾系統(tǒng),其特征在于,包括:如權(quán)利要求9所述的移動(dòng)終端以及如權(quán)利要求10所述的云服務(wù)器。
【文檔編號(hào)】H04W4/14GK104284306SQ201310279728
【公開日】2015年1月14日 申請(qǐng)日期:2013年7月4日 優(yōu)先權(quán)日:2013年7月4日
【發(fā)明者】何通慶, 郭偉, 方禮勇, 杜國楹 申請(qǐng)人:北京壹人壹本信息科技有限公司