国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于識別論壇用戶馬甲賬號的方法和系統(tǒng)的制作方法

      文檔序號:6536679閱讀:261來源:國知局
      用于識別論壇用戶馬甲賬號的方法和系統(tǒng)的制作方法
      【專利摘要】本發(fā)明提供了一種用于識別論壇用戶馬甲賬號的方法。該方法基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型,利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號,然后基于所述分類結(jié)果來識別馬甲賬號。該方法從論壇用戶賬號發(fā)言的文本數(shù)據(jù)中選取特征,通過挖掘賬號的語言風(fēng)格的相似性來判斷屬于同一人的多個賬號間的關(guān)系,提高了識別馬甲賬號的概率。而且針對網(wǎng)絡(luò)語言的語法不嚴謹,并且有許多的網(wǎng)絡(luò)用語的特點,通過提取用戶發(fā)言文本中有效的特征進行分析,規(guī)避了詞庫更新內(nèi)容和速度跟不上網(wǎng)絡(luò)語言的流行等問題,減少了維護分詞詞典的復(fù)雜操作,提高了馬甲識別的準確率。
      【專利說明】用于識別論壇用戶馬甲賬號的方法和系統(tǒng)
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于網(wǎng)絡(luò)安全領(lǐng)域,尤其涉及識別論壇用戶馬甲賬號的方法。
      【背景技術(shù)】
      [0002]如今,全球超過15億人使用社交網(wǎng)絡(luò),全球社交網(wǎng)絡(luò)的月活躍用戶數(shù)量早已超過20億,每天產(chǎn)生大量的言論。社交網(wǎng)站的后臺實名注冊實施困難,還沒有完全普及;即使網(wǎng)站后臺是基于實名制的,但是網(wǎng)絡(luò)言論在網(wǎng)站前臺大都是匿名的,不易知道網(wǎng)絡(luò)上的言論所屬網(wǎng)絡(luò)用戶的真實身份。在社交網(wǎng)絡(luò)中,一個人擁有多個賬號(ID)的情況十分常見,或是在同一網(wǎng)站擁有幾個賬號或是在不同網(wǎng)站均注冊賬號。一個人在同一網(wǎng)站注冊多于2個賬號時,常用的賬號為主賬號,而其余賬號稱為馬甲賬號,簡稱馬甲。馬甲的功能中一部分是負面的,其中:利用不同身份為自己所開的討論沖人氣或推文;在主賬號已有固定的朋友圈或形成固定形象時,使用馬甲反對甚至詆毀他人或發(fā)表另類見解;注冊成千上萬個賬號來發(fā)布不良信息、散布謠言、炒作或者通過賣等級高的馬甲賬號獲益等等。這樣的行為既浪費網(wǎng)絡(luò)資源,又影響網(wǎng)絡(luò)的安全性和公平性。
      [0003]現(xiàn)有的馬甲賬號識別方法中,主要是基于IP鑒定、基于臨時郵箱或基于用戶賬號行為分析來識別馬甲賬號。但是在這些方法中,可利用的用戶信息僅限于賬號曾使用的IP地址、賬號的注冊信息或賬號的操作行為等,因此識別范圍小且識別準確率低。

      【發(fā)明內(nèi)容】

      [0004]因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種新的論壇用戶馬甲識別方法。
      [0005]本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
      [0006]一方面,本發(fā)明提供了一種用于識別論壇用戶馬甲賬號的方法,包括:
      [0007]步驟1,以來自論壇服務(wù)器的一組用戶賬號發(fā)言的文本作為訓(xùn)練集,基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型,所述分類模型用于判斷文本所屬的用戶賬號;
      [0008]步驟2,利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號;
      [0009]步驟3,基于所述分類結(jié)果來識別馬甲賬號。
      [0010]上述方法中,所述步驟I可包括:
      [0011]11)對訓(xùn)練集中各用戶賬號的每個文本進行分詞及詞性標注;
      [0012]12)從經(jīng)分詞和詞性標注后的各個文本中選取特征詞,構(gòu)建各文本的特征向量;
      [0013]13)基于訓(xùn)練集中各用戶賬號以及所構(gòu)建的各個文本的特征向量來訓(xùn)練所述分類模型。
      [0014]上述方法中,所述步驟12)可包括:
      [0015]對于經(jīng)分詞和詞性標注后的每個文本,從中提取2-gram詞組并統(tǒng)計該詞組在該文本中出現(xiàn)的次數(shù),將所提取的出現(xiàn)次數(shù)不低于設(shè)定的閾值的詞組作為特征詞;
      [0016]從每個文本中提取的特征詞共同組成該訓(xùn)練集的特征詞表;以及
      [0017]基于該訓(xùn)練集的特征詞表,構(gòu)建每個文本的特征向量。
      [0018]上述方法中,所述步驟12)可包括:
      [0019]從經(jīng)分詞和詞性標注后的各個文本中選取長度不低于2的且出現(xiàn)頻率不低于2的詞語作為特征詞,以組成該訓(xùn)練集的特征詞表;以及
      [0020]基于該訓(xùn)練集的特征詞表,構(gòu)建每個文本的特征向量。
      [0021]上述方法中,所述步驟I中所述分類模型可以為支持向量機模型。 [0022]上述方法中,所述訓(xùn)練集與所述測試集可以為同一集合。
      [0023]上述方法中,所述步驟2可包括:
      [0024]21)基于訓(xùn)練好的分類模型,確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率;
      [0025]22)對于每個文本,比較該文本被分到非該文本所屬的用戶賬號的概率,取最大概率值對應(yīng)的用戶賬號為該文本所分類到的用戶賬號。
      [0026]上述方法中,所述訓(xùn)練集與所述測試集可以為不同的集合。
      [0027]上述方法中,所述步驟2可包括:
      [0028]21)基于訓(xùn)練好的分類模型,確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率;
      [0029]22)對于測試集中每個文本,取最大概率值對應(yīng)的訓(xùn)練集中的用戶賬號為該文本所分類到的用戶賬號。
      [0030]上述方法中,所述步驟3可包括:
      [0031]31)對于測試集中每個用戶賬號的多個文本,按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量;
      [0032]32)對于測試集中待識別的用戶賬號,將所述數(shù)量的最大值對應(yīng)的訓(xùn)練集中的用戶賬號判斷為馬甲賬號。
      [0033]上述方法中,所述步驟3可包括:
      [0034]301)對于測試集中每個用戶賬號的多個文本,按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量;
      [0035]302)對于測試集中待識別用戶賬號,采用下面的兩個公式計算該用戶賬號對訓(xùn)練集中每個用戶賬號的如下兩組相似度:
      [0036]
      【權(quán)利要求】
      1.一種用于識別論壇用戶馬甲賬號的方法,所述方法包括: 步驟1,以來自論壇服務(wù)器的一組用戶賬號發(fā)言的文本作為訓(xùn)練集,基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型,所述分類模型用于判斷文本所屬的用戶賬號; 步驟2,利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號; 步驟3,基于所述分類結(jié)果來識別馬甲賬號。
      2.根據(jù)權(quán)利要求1所述的方法,所述步驟I包括: 11)對訓(xùn)練集中各用戶賬號的每個文本進行分詞及詞性標注; 12)從經(jīng)分詞和詞性標注后的各個文本中選取特征詞,構(gòu)建各文本的特征向量; 13)基于訓(xùn)練集中各用戶賬號以及所構(gòu)建的各個文本的特征向量來訓(xùn)練所述分類模型。
      3.根據(jù)權(quán)利要求2所述的方法,所述步驟12)包括: 對于經(jīng)分詞和詞性標注后的每個文本,從中提取2-gram詞組并統(tǒng)計該詞組在該文本中出現(xiàn)的次數(shù),將所提取的出現(xiàn)次數(shù)不低于設(shè)定的閾值的詞組作為特征詞; 從每個文本中提取的特征詞共同組成該訓(xùn)練集的特征詞表;以及 基于該訓(xùn)練集的特征詞表,構(gòu)建每個文本的特征向量。`
      4.根據(jù)權(quán)利要求2所述的方法,所述步驟12)包括: 從經(jīng)分詞和詞性標注后的各個文本中選取長度不低于2的且出現(xiàn)頻率不低于2的詞語作為特征詞,以組成該訓(xùn)練集的特征詞表;以及 基于該訓(xùn)練集的特征詞表,構(gòu)建每個文本的特征向量。
      5.根據(jù)權(quán)利要求1所述的方法,所述步驟I中所述分類模型為支持向量機模型。
      6.根據(jù)權(quán)利要求1所述的方法,其中,所述訓(xùn)練集與所述測試集為同一集合。
      7.根據(jù)權(quán)利要求6所述的方法,所述步驟2包括: 21)基于訓(xùn)練好的分類模型,確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率; 22)對于每個文本,比較該文本被分到非該文本所屬的用戶賬號的概率,取最大概率值對應(yīng)的用戶賬號為該文本所分類到的用戶賬號。
      8.根據(jù)權(quán)利要求1所述的方法,其中,所述訓(xùn)練集與所述測試集為不同的集合。
      9.根據(jù)權(quán)利要求8所述的方法,所述步驟2包括: 21)基于訓(xùn)練好的分類模型,確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率; 22)對于測試集中每個文本,取最大概率值對應(yīng)的訓(xùn)練集中的用戶賬號為該文本所分類到的用戶賬號。
      10.根據(jù)權(quán)利要求1所述的方法,所述步驟3包括: 31)對于測試集中每個用戶賬號的多個文本,按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量; 32)對于測試集中待識別的用戶賬號,將所述數(shù)量的最大值對應(yīng)的訓(xùn)練集中的用戶賬號判斷為馬甲賬號。
      11.根據(jù)權(quán)利要求1所述的方法,所述步驟3包括: 301)對于測試集中每個用戶賬號的多個文本,按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量; 302)對于測試集中待識別用戶賬號,采用下面的兩個公式計算該用戶賬號對訓(xùn)練集中每個用戶賬號的如下兩組相似度:
      12.一種用于識別論壇用戶馬甲賬號的系統(tǒng),所述系統(tǒng)包括: 訓(xùn)練裝置,用于基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型,所述分類模型用于判斷文本所屬的用戶賬號;其中,所述訓(xùn)練集包括來自論壇服務(wù)器的一組用戶賬號發(fā)言的文本; 分類裝置,用于利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號; 馬甲識別裝置,用于基于所述分類結(jié)果來識別馬甲賬號。
      【文檔編號】G06F17/30GK103729474SQ201410032746
      【公開日】2014年4月16日 申請日期:2014年1月23日 優(yōu)先權(quán)日:2014年1月23日
      【發(fā)明者】許洪波, 樊茜, 梁英, 程學(xué)旗, 張國清 申請人:中國科學(xué)院計算技術(shù)研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1