用于識別論壇用戶馬甲賬號的方法和系統(tǒng)的制作方法

文檔序號：6536679閱讀：261來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

用于識別論壇用戶馬甲賬號的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種用于識別論壇用戶馬甲賬號的方法。該方法基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型，利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號，然后基于所述分類結(jié)果來識別馬甲賬號。該方法從論壇用戶賬號發(fā)言的文本數(shù)據(jù)中選取特征，通過挖掘賬號的語言風(fēng)格的相似性來判斷屬于同一人的多個賬號間的關(guān)系，提高了識別馬甲賬號的概率。而且針對網(wǎng)絡(luò)語言的語法不嚴謹，并且有許多的網(wǎng)絡(luò)用語的特點，通過提取用戶發(fā)言文本中有效的特征進行分析，規(guī)避了詞庫更新內(nèi)容和速度跟不上網(wǎng)絡(luò)語言的流行等問題，減少了維護分詞詞典的復(fù)雜操作，提高了馬甲識別的準確率。
【專利說明】用于識別論壇用戶馬甲賬號的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)安全領(lǐng)域，尤其涉及識別論壇用戶馬甲賬號的方法。
【背景技術(shù)】
[0002]如今，全球超過15億人使用社交網(wǎng)絡(luò)，全球社交網(wǎng)絡(luò)的月活躍用戶數(shù)量早已超過20億，每天產(chǎn)生大量的言論。社交網(wǎng)站的后臺實名注冊實施困難，還沒有完全普及；即使網(wǎng)站后臺是基于實名制的，但是網(wǎng)絡(luò)言論在網(wǎng)站前臺大都是匿名的，不易知道網(wǎng)絡(luò)上的言論所屬網(wǎng)絡(luò)用戶的真實身份。在社交網(wǎng)絡(luò)中，一個人擁有多個賬號(ID)的情況十分常見，或是在同一網(wǎng)站擁有幾個賬號或是在不同網(wǎng)站均注冊賬號。一個人在同一網(wǎng)站注冊多于2個賬號時，常用的賬號為主賬號，而其余賬號稱為馬甲賬號，簡稱馬甲。馬甲的功能中一部分是負面的，其中:利用不同身份為自己所開的討論沖人氣或推文；在主賬號已有固定的朋友圈或形成固定形象時，使用馬甲反對甚至詆毀他人或發(fā)表另類見解；注冊成千上萬個賬號來發(fā)布不良信息、散布謠言、炒作或者通過賣等級高的馬甲賬號獲益等等。這樣的行為既浪費網(wǎng)絡(luò)資源，又影響網(wǎng)絡(luò)的安全性和公平性。
[0003]現(xiàn)有的馬甲賬號識別方法中，主要是基于IP鑒定、基于臨時郵箱或基于用戶賬號行為分析來識別馬甲賬號。但是在這些方法中，可利用的用戶信息僅限于賬號曾使用的IP地址、賬號的注冊信息或賬號的操作行為等，因此識別范圍小且識別準確率低。

【發(fā)明內(nèi)容】

[0004]因此，本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷，提供一種新的論壇用戶馬甲識別方法。
[0005]本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
[0006]一方面，本發(fā)明提供了一種用于識別論壇用戶馬甲賬號的方法，包括:
[0007]步驟1，以來自論壇服務(wù)器的一組用戶賬號發(fā)言的文本作為訓(xùn)練集，基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型，所述分類模型用于判斷文本所屬的用戶賬號；
[0008]步驟2，利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號；
[0009]步驟3，基于所述分類結(jié)果來識別馬甲賬號。
[0010]上述方法中，所述步驟I可包括:
[0011]11)對訓(xùn)練集中各用戶賬號的每個文本進行分詞及詞性標注；
[0012]12)從經(jīng)分詞和詞性標注后的各個文本中選取特征詞，構(gòu)建各文本的特征向量；
[0013]13)基于訓(xùn)練集中各用戶賬號以及所構(gòu)建的各個文本的特征向量來訓(xùn)練所述分類模型。
[0014]上述方法中，所述步驟12)可包括:
[0015]對于經(jīng)分詞和詞性標注后的每個文本，從中提取2-gram詞組并統(tǒng)計該詞組在該文本中出現(xiàn)的次數(shù)，將所提取的出現(xiàn)次數(shù)不低于設(shè)定的閾值的詞組作為特征詞；
[0016]從每個文本中提取的特征詞共同組成該訓(xùn)練集的特征詞表；以及
[0017]基于該訓(xùn)練集的特征詞表，構(gòu)建每個文本的特征向量。
[0018]上述方法中，所述步驟12)可包括:
[0019]從經(jīng)分詞和詞性標注后的各個文本中選取長度不低于2的且出現(xiàn)頻率不低于2的詞語作為特征詞，以組成該訓(xùn)練集的特征詞表；以及
[0020]基于該訓(xùn)練集的特征詞表，構(gòu)建每個文本的特征向量。
[0021]上述方法中，所述步驟I中所述分類模型可以為支持向量機模型。 [0022]上述方法中，所述訓(xùn)練集與所述測試集可以為同一集合。
[0023]上述方法中，所述步驟2可包括:
[0024]21)基于訓(xùn)練好的分類模型，確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率；
[0025]22)對于每個文本，比較該文本被分到非該文本所屬的用戶賬號的概率，取最大概率值對應(yīng)的用戶賬號為該文本所分類到的用戶賬號。
[0026]上述方法中，所述訓(xùn)練集與所述測試集可以為不同的集合。
[0027]上述方法中，所述步驟2可包括:
[0028]21)基于訓(xùn)練好的分類模型，確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率；
[0029]22)對于測試集中每個文本，取最大概率值對應(yīng)的訓(xùn)練集中的用戶賬號為該文本所分類到的用戶賬號。
[0030]上述方法中，所述步驟3可包括:
[0031]31)對于測試集中每個用戶賬號的多個文本，按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量；
[0032]32)對于測試集中待識別的用戶賬號，將所述數(shù)量的最大值對應(yīng)的訓(xùn)練集中的用戶賬號判斷為馬甲賬號。
[0033]上述方法中，所述步驟3可包括:
[0034]301)對于測試集中每個用戶賬號的多個文本，按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量；
[0035]302)對于測試集中待識別用戶賬號，采用下面的兩個公式計算該用戶賬號對訓(xùn)練集中每個用戶賬號的如下兩組相似度:
[0036]
【權(quán)利要求】
1.一種用于識別論壇用戶馬甲賬號的方法，所述方法包括: 步驟1，以來自論壇服務(wù)器的一組用戶賬號發(fā)言的文本作為訓(xùn)練集，基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型，所述分類模型用于判斷文本所屬的用戶賬號; 步驟2，利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號; 步驟3，基于所述分類結(jié)果來識別馬甲賬號。
2.根據(jù)權(quán)利要求1所述的方法，所述步驟I包括: 11)對訓(xùn)練集中各用戶賬號的每個文本進行分詞及詞性標注； 12)從經(jīng)分詞和詞性標注后的各個文本中選取特征詞，構(gòu)建各文本的特征向量； 13)基于訓(xùn)練集中各用戶賬號以及所構(gòu)建的各個文本的特征向量來訓(xùn)練所述分類模型。
3.根據(jù)權(quán)利要求2所述的方法，所述步驟12)包括: 對于經(jīng)分詞和詞性標注后的每個文本，從中提取2-gram詞組并統(tǒng)計該詞組在該文本中出現(xiàn)的次數(shù)，將所提取的出現(xiàn)次數(shù)不低于設(shè)定的閾值的詞組作為特征詞；從每個文本中提取的特征詞共同組成該訓(xùn)練集的特征詞表；以及基于該訓(xùn)練集的特征詞表，構(gòu)建每個文本的特征向量。`
4.根據(jù)權(quán)利要求2所述的方法，所述步驟12)包括: 從經(jīng)分詞和詞性標注后的各個文本中選取長度不低于2的且出現(xiàn)頻率不低于2的詞語作為特征詞，以組成該訓(xùn)練集的特征詞表；以及基于該訓(xùn)練集的特征詞表，構(gòu)建每個文本的特征向量。
5.根據(jù)權(quán)利要求1所述的方法，所述步驟I中所述分類模型為支持向量機模型。
6.根據(jù)權(quán)利要求1所述的方法，其中，所述訓(xùn)練集與所述測試集為同一集合。
7.根據(jù)權(quán)利要求6所述的方法，所述步驟2包括: 21)基于訓(xùn)練好的分類模型，確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率； 22)對于每個文本，比較該文本被分到非該文本所屬的用戶賬號的概率，取最大概率值對應(yīng)的用戶賬號為該文本所分類到的用戶賬號。
8.根據(jù)權(quán)利要求1所述的方法，其中，所述訓(xùn)練集與所述測試集為不同的集合。
9.根據(jù)權(quán)利要求8所述的方法，所述步驟2包括: 21)基于訓(xùn)練好的分類模型，確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率； 22)對于測試集中每個文本，取最大概率值對應(yīng)的訓(xùn)練集中的用戶賬號為該文本所分類到的用戶賬號。
10.根據(jù)權(quán)利要求1所述的方法，所述步驟3包括: 31)對于測試集中每個用戶賬號的多個文本，按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量； 32)對于測試集中待識別的用戶賬號，將所述數(shù)量的最大值對應(yīng)的訓(xùn)練集中的用戶賬號判斷為馬甲賬號。
11.根據(jù)權(quán)利要求1所述的方法，所述步驟3包括: 301)對于測試集中每個用戶賬號的多個文本，按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量； 302)對于測試集中待識別用戶賬號，采用下面的兩個公式計算該用戶賬號對訓(xùn)練集中每個用戶賬號的如下兩組相似度:
12.一種用于識別論壇用戶馬甲賬號的系統(tǒng)，所述系統(tǒng)包括: 訓(xùn)練裝置，用于基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型，所述分類模型用于判斷文本所屬的用戶賬號；其中，所述訓(xùn)練集包括來自論壇服務(wù)器的一組用戶賬號發(fā)言的文本；分類裝置，用于利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號；馬甲識別裝置，用于基于所述分類結(jié)果來識別馬甲賬號。
【文檔編號】G06F17/30GK103729474SQ201410032746
【公開日】2014年4月16日申請日期:2014年1月23日優(yōu)先權(quán)日:2014年1月23日
【發(fā)明者】許洪波, 樊茜, 梁英, 程學(xué)旗, 張國清申請人:中國科學(xué)院計算技術(shù)研究所

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許洪波;樊茜;梁英;程學(xué)旗;張國清
技術(shù)所有人：中國科學(xué)院計算技術(shù)研究所
我是此專利的發(fā)明人

上一篇：更改終端運營商信息的方法及裝置制造方法
上一篇：創(chuàng)建播放列表的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于識別論壇用戶馬甲賬號的方法和系統(tǒng)的制作方法