用于識別論壇用戶馬甲賬號的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種用于識別論壇用戶馬甲賬號的方法。該方法基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型,利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號,然后基于所述分類結(jié)果來識別馬甲賬號。該方法從論壇用戶賬號發(fā)言的文本數(shù)據(jù)中選取特征,通過挖掘賬號的語言風(fēng)格的相似性來判斷屬于同一人的多個賬號間的關(guān)系,提高了識別馬甲賬號的概率。而且針對網(wǎng)絡(luò)語言的語法不嚴謹,并且有許多的網(wǎng)絡(luò)用語的特點,通過提取用戶發(fā)言文本中有效的特征進行分析,規(guī)避了詞庫更新內(nèi)容和速度跟不上網(wǎng)絡(luò)語言的流行等問題,減少了維護分詞詞典的復(fù)雜操作,提高了馬甲識別的準確率。
【專利說明】用于識別論壇用戶馬甲賬號的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)安全領(lǐng)域,尤其涉及識別論壇用戶馬甲賬號的方法。
【背景技術(shù)】
[0002]如今,全球超過15億人使用社交網(wǎng)絡(luò),全球社交網(wǎng)絡(luò)的月活躍用戶數(shù)量早已超過20億,每天產(chǎn)生大量的言論。社交網(wǎng)站的后臺實名注冊實施困難,還沒有完全普及;即使網(wǎng)站后臺是基于實名制的,但是網(wǎng)絡(luò)言論在網(wǎng)站前臺大都是匿名的,不易知道網(wǎng)絡(luò)上的言論所屬網(wǎng)絡(luò)用戶的真實身份。在社交網(wǎng)絡(luò)中,一個人擁有多個賬號(ID)的情況十分常見,或是在同一網(wǎng)站擁有幾個賬號或是在不同網(wǎng)站均注冊賬號。一個人在同一網(wǎng)站注冊多于2個賬號時,常用的賬號為主賬號,而其余賬號稱為馬甲賬號,簡稱馬甲。馬甲的功能中一部分是負面的,其中:利用不同身份為自己所開的討論沖人氣或推文;在主賬號已有固定的朋友圈或形成固定形象時,使用馬甲反對甚至詆毀他人或發(fā)表另類見解;注冊成千上萬個賬號來發(fā)布不良信息、散布謠言、炒作或者通過賣等級高的馬甲賬號獲益等等。這樣的行為既浪費網(wǎng)絡(luò)資源,又影響網(wǎng)絡(luò)的安全性和公平性。
[0003]現(xiàn)有的馬甲賬號識別方法中,主要是基于IP鑒定、基于臨時郵箱或基于用戶賬號行為分析來識別馬甲賬號。但是在這些方法中,可利用的用戶信息僅限于賬號曾使用的IP地址、賬號的注冊信息或賬號的操作行為等,因此識別范圍小且識別準確率低。
【發(fā)明內(nèi)容】
[0004]因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種新的論壇用戶馬甲識別方法。
[0005]本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
[0006]一方面,本發(fā)明提供了一種用于識別論壇用戶馬甲賬號的方法,包括:
[0007]步驟1,以來自論壇服務(wù)器的一組用戶賬號發(fā)言的文本作為訓(xùn)練集,基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型,所述分類模型用于判斷文本所屬的用戶賬號;
[0008]步驟2,利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號;
[0009]步驟3,基于所述分類結(jié)果來識別馬甲賬號。
[0010]上述方法中,所述步驟I可包括:
[0011]11)對訓(xùn)練集中各用戶賬號的每個文本進行分詞及詞性標注;
[0012]12)從經(jīng)分詞和詞性標注后的各個文本中選取特征詞,構(gòu)建各文本的特征向量;
[0013]13)基于訓(xùn)練集中各用戶賬號以及所構(gòu)建的各個文本的特征向量來訓(xùn)練所述分類模型。
[0014]上述方法中,所述步驟12)可包括:
[0015]對于經(jīng)分詞和詞性標注后的每個文本,從中提取2-gram詞組并統(tǒng)計該詞組在該文本中出現(xiàn)的次數(shù),將所提取的出現(xiàn)次數(shù)不低于設(shè)定的閾值的詞組作為特征詞;
[0016]從每個文本中提取的特征詞共同組成該訓(xùn)練集的特征詞表;以及
[0017]基于該訓(xùn)練集的特征詞表,構(gòu)建每個文本的特征向量。
[0018]上述方法中,所述步驟12)可包括:
[0019]從經(jīng)分詞和詞性標注后的各個文本中選取長度不低于2的且出現(xiàn)頻率不低于2的詞語作為特征詞,以組成該訓(xùn)練集的特征詞表;以及
[0020]基于該訓(xùn)練集的特征詞表,構(gòu)建每個文本的特征向量。
[0021]上述方法中,所述步驟I中所述分類模型可以為支持向量機模型。 [0022]上述方法中,所述訓(xùn)練集與所述測試集可以為同一集合。
[0023]上述方法中,所述步驟2可包括:
[0024]21)基于訓(xùn)練好的分類模型,確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率;
[0025]22)對于每個文本,比較該文本被分到非該文本所屬的用戶賬號的概率,取最大概率值對應(yīng)的用戶賬號為該文本所分類到的用戶賬號。
[0026]上述方法中,所述訓(xùn)練集與所述測試集可以為不同的集合。
[0027]上述方法中,所述步驟2可包括:
[0028]21)基于訓(xùn)練好的分類模型,確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率;
[0029]22)對于測試集中每個文本,取最大概率值對應(yīng)的訓(xùn)練集中的用戶賬號為該文本所分類到的用戶賬號。
[0030]上述方法中,所述步驟3可包括:
[0031]31)對于測試集中每個用戶賬號的多個文本,按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量;
[0032]32)對于測試集中待識別的用戶賬號,將所述數(shù)量的最大值對應(yīng)的訓(xùn)練集中的用戶賬號判斷為馬甲賬號。
[0033]上述方法中,所述步驟3可包括:
[0034]301)對于測試集中每個用戶賬號的多個文本,按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量;
[0035]302)對于測試集中待識別用戶賬號,采用下面的兩個公式計算該用戶賬號對訓(xùn)練集中每個用戶賬號的如下兩組相似度:
[0036]
【權(quán)利要求】
1.一種用于識別論壇用戶馬甲賬號的方法,所述方法包括: 步驟1,以來自論壇服務(wù)器的一組用戶賬號發(fā)言的文本作為訓(xùn)練集,基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型,所述分類模型用于判斷文本所屬的用戶賬號; 步驟2,利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號; 步驟3,基于所述分類結(jié)果來識別馬甲賬號。
2.根據(jù)權(quán)利要求1所述的方法,所述步驟I包括: 11)對訓(xùn)練集中各用戶賬號的每個文本進行分詞及詞性標注; 12)從經(jīng)分詞和詞性標注后的各個文本中選取特征詞,構(gòu)建各文本的特征向量; 13)基于訓(xùn)練集中各用戶賬號以及所構(gòu)建的各個文本的特征向量來訓(xùn)練所述分類模型。
3.根據(jù)權(quán)利要求2所述的方法,所述步驟12)包括: 對于經(jīng)分詞和詞性標注后的每個文本,從中提取2-gram詞組并統(tǒng)計該詞組在該文本中出現(xiàn)的次數(shù),將所提取的出現(xiàn)次數(shù)不低于設(shè)定的閾值的詞組作為特征詞; 從每個文本中提取的特征詞共同組成該訓(xùn)練集的特征詞表;以及 基于該訓(xùn)練集的特征詞表,構(gòu)建每個文本的特征向量。`
4.根據(jù)權(quán)利要求2所述的方法,所述步驟12)包括: 從經(jīng)分詞和詞性標注后的各個文本中選取長度不低于2的且出現(xiàn)頻率不低于2的詞語作為特征詞,以組成該訓(xùn)練集的特征詞表;以及 基于該訓(xùn)練集的特征詞表,構(gòu)建每個文本的特征向量。
5.根據(jù)權(quán)利要求1所述的方法,所述步驟I中所述分類模型為支持向量機模型。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述訓(xùn)練集與所述測試集為同一集合。
7.根據(jù)權(quán)利要求6所述的方法,所述步驟2包括: 21)基于訓(xùn)練好的分類模型,確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率; 22)對于每個文本,比較該文本被分到非該文本所屬的用戶賬號的概率,取最大概率值對應(yīng)的用戶賬號為該文本所分類到的用戶賬號。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述訓(xùn)練集與所述測試集為不同的集合。
9.根據(jù)權(quán)利要求8所述的方法,所述步驟2包括: 21)基于訓(xùn)練好的分類模型,確定測試集中每個文本被分類到訓(xùn)練集中各個用戶賬號的概率; 22)對于測試集中每個文本,取最大概率值對應(yīng)的訓(xùn)練集中的用戶賬號為該文本所分類到的用戶賬號。
10.根據(jù)權(quán)利要求1所述的方法,所述步驟3包括: 31)對于測試集中每個用戶賬號的多個文本,按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量; 32)對于測試集中待識別的用戶賬號,將所述數(shù)量的最大值對應(yīng)的訓(xùn)練集中的用戶賬號判斷為馬甲賬號。
11.根據(jù)權(quán)利要求1所述的方法,所述步驟3包括: 301)對于測試集中每個用戶賬號的多個文本,按文本所屬的用戶賬號匯總統(tǒng)計出測試集中每個用戶賬號的文本被分類到訓(xùn)練集中各用戶賬號的數(shù)量; 302)對于測試集中待識別用戶賬號,采用下面的兩個公式計算該用戶賬號對訓(xùn)練集中每個用戶賬號的如下兩組相似度:
12.一種用于識別論壇用戶馬甲賬號的系統(tǒng),所述系統(tǒng)包括: 訓(xùn)練裝置,用于基于訓(xùn)練集中各用戶賬號及每個文本的特征向量來訓(xùn)練分類模型,所述分類模型用于判斷文本所屬的用戶賬號;其中,所述訓(xùn)練集包括來自論壇服務(wù)器的一組用戶賬號發(fā)言的文本; 分類裝置,用于利用訓(xùn)練好的分類模型確定測試集中每個文本被分類到訓(xùn)練集中哪個用戶賬號; 馬甲識別裝置,用于基于所述分類結(jié)果來識別馬甲賬號。
【文檔編號】G06F17/30GK103729474SQ201410032746
【公開日】2014年4月16日 申請日期:2014年1月23日 優(yōu)先權(quán)日:2014年1月23日
【發(fā)明者】許洪波, 樊茜, 梁英, 程學(xué)旗, 張國清 申請人:中國科學(xué)院計算技術(shù)研究所