国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      垃圾消息模型訓練方法、垃圾消息識別方法及其裝置的制造方法

      文檔序號:8383639閱讀:288來源:國知局
      垃圾消息模型訓練方法、垃圾消息識別方法及其裝置的制造方法
      【技術領域】
      [0001] 本申請設及通信網(wǎng)絡技術領域,具體設及消息傳送技術領域,尤其設及垃圾消息 模型的訓練方法和裝置,W及垃圾消息的識別方法和裝置。
      【背景技術】
      [0002] 隨著通信技術的發(fā)展,各種通信設備的使用為用戶之間的交流提供了極大的便 利,用戶之間可W隨時地傳遞文字、圖片、語音和視頻等通訊信息。
      [0003] 然而,在大量的通訊消息中存在著相當一部分無用的、甚至帶有欺詐性質的垃圾 消息。該些垃圾消息給移動通信終端的用戶造成了很大困擾。大量的垃圾消息不僅給通信 系統(tǒng)的服務器和消息接收終端增加了額外的負擔,而且對用戶間的正常交流造成了干擾。
      [0004] 現(xiàn)有的對垃圾消息識別方法主要有關鍵詞黑名單方法和正則匹配方法。其中,關 鍵詞黑名單匹配方法首先對大量的垃圾消息進行分析,生成關鍵詞庫,然后對接收到的消 息進行匹配,如果該消息中含有關鍵詞,則認為該消息為垃圾消息;正則匹配方法通過正則 表達式判斷消息中是否存在匹配的某個字符串,如網(wǎng)址、電話號碼等信息,如果存在,則判 定該消息為垃圾消息。
      [0005] 上述現(xiàn)有的實現(xiàn)方案都需要手工維護和更新,且大量的關鍵詞庫和正則表達式手 工維護和更新難度大、成本高。并且,上述關鍵詞黑名單和正則匹配方法實時性差,需要根 據(jù)消息內容編寫正則模板或者提取關鍵詞,很難發(fā)現(xiàn)新出現(xiàn)的垃圾消息類型。此外,上述關 鍵詞黑名單和正則表達式方法一般都是根據(jù)經(jīng)驗設定或者從已經(jīng)標記為垃圾消息的消息 中提取,具有一定的隨意性,無法識別不在關鍵詞范圍內的垃圾消息,識別率也難W保證。

      【發(fā)明內容】

      [0006] 鑒于現(xiàn)有技術中的上述缺陷或不足,期望能夠提供一種實時性好、識別率高的方 案。為了實現(xiàn)上述一個或多個目的,本申請?zhí)峁┝死⒛P偷挠柧毞椒ê脱b置W及垃 圾消息的識別方法和裝置。
      [0007] 第一方面,本申請?zhí)峁┝艘环N垃圾消息模型的訓練方法,該方法包括:獲取消息樣 本,其中消息樣本包括正常消息樣本和垃圾消息樣本;對消息樣本進行特征提取,得到消息 樣本的特征向量;W及采用監(jiān)督學習方式對消息樣本進行全量訓練,得到垃圾消息模型,其 中垃圾消息模型包括特征向量中各特征所對應的僅包含該特征的消息為垃圾消息的條件 概率。
      [000引第二方面,本申請?zhí)峁┝艘环N垃圾消息的識別方法,該方法包括:對待識別消息進 行特征提取,得到待識別消息的特征向量;對特征向量中的每一個特征,在垃圾消息模型中 查找僅包含該特征的消息為垃圾消息的條件概率,其中垃圾消息模型依據(jù)消息樣本訓練得 至IJ;根據(jù)特征向量中每一個特征所對應的僅包含該特征的消息為垃圾消息的條件概率,計 算包含特征向量中所有特征的待識別消息為垃圾消息的聯(lián)合概率;W及響應于聯(lián)合概率大 于垃圾消息概率闊值,確定待識別消息為垃圾消息。
      [0009] 第=方面,本申請?zhí)峁┝艘环N垃圾消息模型的訓練裝置,該裝置包括:獲取單元, 配置用于獲取消息樣本,其中消息樣本包括正常消息樣本和垃圾消息樣本;特征提取單元, 配置用于對消息樣本進行特征提取,得到消息樣本的特征向量;W及訓練單元,配置用于采 用監(jiān)督學習方式對消息樣本進行全量訓練,得到垃圾消息模型,其中垃圾消息模型包括特 征向量中各特征所對應的僅包含該特征的消息為垃圾消息的條件概率。
      [0010] 第四方面,本申請?zhí)峁┝艘环N垃圾消息的識別裝置,該裝置包括:特征提取單元, 配置用于對待識別消息進行特征提取,得到待識別消息的特征向量;查找單元,配置用于對 特征向量中的每一個特征,在垃圾消息模型中查找僅包含該特征的消息為垃圾消息的條件 概率,其中垃圾消息模型依據(jù)消息樣本訓練得到;計算單元,配置用于根據(jù)特征向量中每一 個特征所對應的僅包含該特征的消息為垃圾消息的條件概率,計算包含特征向量中所有特 征的待識別消息為垃圾消息的聯(lián)合概率;W及確定單元,配置用于響應于聯(lián)合概率大于垃 圾消息概率闊值,確定待識別消息為垃圾消息。
      [0011] 本申請?zhí)峁┑睦⒛P偷挠柧毞椒ê脱b置,能夠從大量的消息樣本中發(fā)現(xiàn)隱 含但事實存在的垃圾消息模式,該使得訓練得到的垃圾消息模型具備對消息進行精確識別 的能力。本申請實施方式的垃圾消息識別方法可W精確區(qū)分包含同一個關鍵詞的垃圾消息 和正常消息,提高了識別的準確率。
      【附圖說明】
      [0012] 通過閱讀參照W下附圖所作的對非限制性實施例的詳細描述,本申請的其它特 征、目的和優(yōu)點將會變得更明顯:
      [0013] 圖1示出了可W應用本申請實施例的示例性系統(tǒng)架構;
      [0014]圖2示出了根據(jù)本申請一個實施例的垃圾消息模型的訓練方法的示例性流程圖;
      [0015] 圖3示出了根據(jù)本申請一個實施例的全量訓練方法的示例性流程圖;
      [0016]圖4示出了根據(jù)本申請另一個實施例的垃圾消息模型的訓練方法的示例性流程 圖;
      [0017] 圖5示出了根據(jù)本申請一個實施例的垃圾消息的識別方法的示例性流程圖;
      [001引圖6示出了根據(jù)本申請一個實施例的確定垃圾消息概率闊值的示例性流程圖;
      [0019] 圖7示出了根據(jù)本申請另一個實施例的垃圾消息識別方法的示例性流程圖;
      [0020] 圖8示出了根據(jù)本申請實施例的垃圾消息模型的訓練裝置的結構示意圖;
      [0021] 圖9示出了根據(jù)本申請實施例的垃圾消息的識別裝置的結構示意圖擬及
      [0022] 圖10示出了適于用來實現(xiàn)本申請實施例的終端設備或服務器的計算機系統(tǒng)的結 構示意圖。
      【具體實施方式】
      [0023] 下面結合附圖和實施例對本申請作進一步的詳細說明??蒞理解的是,此處所描 述的具體實施例僅僅用于解釋相關發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了 便于描述,附圖中僅示出了與有關發(fā)明相關的部分。
      [0024] 需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可W相 互組合。下面將參考附圖并結合實施例來詳細說明本申請。
      [0025] 圖1示出了可W應用本申請實施例的示例性系統(tǒng)架構100。
      [0026]如圖1所示,系統(tǒng)架構100可W包括終端設備101、102、網(wǎng)絡103和服務器104。網(wǎng) 絡103用W在終端設備101、102和服務器104之間提供通信鏈路的介質。網(wǎng)絡103可W包 括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
      [0027] 用戶110可W使用終端設備1〇1、1〇2通過網(wǎng)絡103與服務器104交互,W接收或 發(fā)送消息等。終端設備1〇1、1〇2上可W安裝有各種通訊客戶端應用,例如即時通信工具、郵 箱客戶端、社交平臺軟件等。
      [002引終端設備101、102可W是各種電子設備,包括但不限于個人電腦、智能手機、智能 手表、平板電腦、個人數(shù)字助理等等。
      [0029] 服務器104可W是提供各種服務的服務器。服務器可W對接收到的數(shù)據(jù)進行存 儲、分析等處理,并將處理結果反饋給終端設備。
      [0030] 需要說明的是,本申請實施例所提供的垃圾消息模型的訓練方法W及垃圾消息的 識別方法可W由終端設備101、102執(zhí)行,也可W由服務器104執(zhí)行,垃圾消息模型的訓練裝 置及垃圾消息的識別裝置可W設置于終端設備1〇1、1〇2中,也可W設置于服務器104中。在 一些實施例中,垃圾消息模型可W在服務器104中進行訓練,訓練后的垃圾消息模型可W 存儲在終端設備1〇1、1〇2中,W用于識別垃圾消息。例如,在對垃圾消息進行識別時,如果 網(wǎng)絡103通暢,可W由服務器104進行垃圾消息識別后返回是否為垃圾消息,如果沒有網(wǎng)絡 或網(wǎng)絡103不暢通,可W由終端設備1〇1、1〇2進行垃圾消息識別,直接判別消息是否為垃圾 消息。
      [0031] 應該理解,圖1中的終端設備、網(wǎng)絡和服務器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需 要,可W具有任意數(shù)目的終端設備、網(wǎng)絡和服務器。
      [0032] 本發(fā)明實施例具體可W包括兩個部分,第一部分是對垃圾消息模型的訓練,第二 部分是依據(jù)訓練出的垃圾消息模型對接收到的消息進行識別,W識別接收到的消息是否為 垃圾消息。
      [0033] 垃圾消息模型的訓練
      [0034] 首先參考圖2,其示出了根據(jù)本申請一個實施例的垃圾消息模型的訓練方法的示 例性流程圖。
      [003引如圖2所示,在步驟201中,獲取消息樣本。
      [0036] 在對垃圾消息模型進行訓練時,服務器或終端設備首先需要獲取用于訓練的消息 樣本。消息樣本可W包括正常消息樣本和垃圾消息樣本。正常消息樣本的獲取可W通過收 集用戶標記的正常消息、與用戶交互頻繁的對端通信設備所發(fā)送的消息、服務器或終端設 備誤攔并由用戶撤銷的消息、W及網(wǎng)絡數(shù)據(jù)庫中正常消息模板等方式得到。而垃圾消息樣 本的獲取則可W通過收集用戶舉報的消息和網(wǎng)絡數(shù)據(jù)庫中垃圾消息模板等方式得到。可W 從多個關聯(lián)終端設備獲取消息作為消息樣本,也可W從服務器保存的消息記錄中獲取消息 樣本。通常消息樣本需要達到一定的數(shù)量W保證訓練出的模型的精確度,而消息樣本越多, 則模型的精確度可能越高,但訓練所需時間也相應地越長,在實際應用時,可W通過多次訓 練獲得多個模型,在對多個模型的識別性能進行評價后確定合適的消息樣本的數(shù)量。
      [0037] 在一些實施例中,可W對消息樣本進行預處理操作,包括過濾亂碼、過濾惡意舉報 和對消息發(fā)送方的聯(lián)系方式進行預處理等。
      [003引在一些實現(xiàn)中,過濾惡意舉報具體可W如下進行:首先對消息樣本中的消息數(shù)據(jù) 根據(jù)相似度進行聚類,在所有相似的消息中根據(jù)垃圾消息標記對消息是否為垃圾消息進行 投票,被標記的垃圾消息中包括用戶舉報的消息;然后將投票結果中占比例較大的那部分 消息數(shù)據(jù)作為加入訓練集的消息樣本,剔除投票結果中占比例較小的那部分消息數(shù)據(jù)。該 樣可W過濾被惡意舉報的消息。
      [0039] 例如,在垃圾消息數(shù)據(jù)中可能包括用戶惡意舉報的社交應用驗證碼消息時,如果 不進行處理,則該消息將會被作為垃圾消息樣本來訓練垃圾消息模型,從而影響垃圾消息 模型的效果,進一步影響垃圾消息的準確判別。該時,可W對消息數(shù)據(jù)進行分類,其中被舉 報的
      當前第1頁1 2 3 4 5 6 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1