一種“網(wǎng)絡馬甲”的檢測方法
【專利摘要】本發(fā)明公開一種基于“相似觀點”網(wǎng)絡和文章作者鑒定技術(shù)的“網(wǎng)絡馬甲”的檢測方法,該方法包含三個階段:首先根據(jù)虛擬社會用戶的交互信息構(gòu)建“相似觀點”網(wǎng)絡;然后根據(jù)用戶的寫作風格對“相似觀點”網(wǎng)絡進行裁剪;最后利用社區(qū)發(fā)現(xiàn)算法對裁剪后的“馬甲”網(wǎng)絡進行社區(qū)劃分,處于同一個社區(qū)的ID被看作是某個人的“網(wǎng)絡馬甲”。該方法具有以下優(yōu)勢:它遵循了“網(wǎng)絡馬甲”社區(qū)的實際意義;可以被應用于實時的網(wǎng)絡環(huán)境下檢測“網(wǎng)絡馬甲”;增加了社區(qū)發(fā)現(xiàn)的有效性。本發(fā)明主要應用于虛擬空間的輿情分析、“網(wǎng)絡馬甲”檢測等諸多領域。
【專利說明】—種“網(wǎng)絡馬甲”的檢測方法
【技術(shù)領域】
[0001]本發(fā)明屬于Web挖掘領域,涉及一種虛擬空間“網(wǎng)絡馬甲”智能探測技術(shù),具體的說是一種基于“相似觀點”網(wǎng)絡和文章作者鑒定技術(shù)的“網(wǎng)絡馬甲”的檢測方法。
【背景技術(shù)】
[0002]網(wǎng)絡社區(qū)中,一些用戶使用多個用戶名或?qū)⒆约簜窝b成其他用戶(通常被稱為“網(wǎng)絡馬甲”)與其他用戶溝通。一些網(wǎng)絡社區(qū)的成員,為了迷惑大眾,利用一些人造的“網(wǎng)絡馬甲”,偽裝成不同的用戶,對某個產(chǎn)品或某個人的工作大肆贊揚或否定。更有甚者,制造某個網(wǎng)絡謠言,然后利用不同的網(wǎng)絡“馬甲”大肆傳播。
[0003]長期以來,“網(wǎng)絡馬甲”檢測技術(shù)的相關文獻少之甚少,一些相關工作可以被應用于檢測“網(wǎng)絡馬甲”。這些相關大多集中于文章作者身份鑒定技術(shù)和社會網(wǎng)絡分析方法。
[0004]在傳統(tǒng)的文章作者鑒定模型中,很多分析方法被采納。其中兩種最普遍的技術(shù)是基于統(tǒng)計學分析和基于機器學習方法。在20世紀,文章鑒定技術(shù)被應用于區(qū)別莎士比亞、馬克.吐溫以及培根文學大師的作品。在這些領域中,Mostteller和Wallace做出了最基本的研究工作。他們使用文章作者鑒定技術(shù)準確的將12篇有爭議的聯(lián)邦黨文集進行了分類。最近幾年,這一方法也被頻繁應用于在線文集的作者鑒定。De Vel等人基于網(wǎng)絡郵件作者的身份鑒定進行了大量實驗分析。他們的研究為基于互聯(lián)網(wǎng)媒體的文章作者身份鑒定提供了重要研究基礎。Zheng等人將De Vel等人的工作進一步擴展,他們對英文和中文網(wǎng)絡論壇消息的研究中,加入了多位空間的考量。
[0005]這些工作在某些應用中取得了一定的成果,但是它們主要集中于對一定數(shù)量文章的鑒定?,F(xiàn)實的網(wǎng)絡社區(qū)中充斥的著大量的網(wǎng)絡用戶和文本信息?;谝欢〝?shù)量的文章的傳統(tǒng)的文章作者鑒定技術(shù)在這樣的虛擬空間中可能不夠適用。一些學者提出了采用社區(qū)劃分算法來解決虛擬空間下的“網(wǎng)絡馬甲”檢測。由于網(wǎng)絡中同一個社區(qū)中的用戶可能具備相同的興趣、職業(yè)和愛好;因此他們的“網(wǎng)絡馬甲”應該出現(xiàn)在同一個網(wǎng)絡“社區(qū)”中。Zeng等人的工作為這一領域的研究開辟了研究基礎。Du等人提出了 ComTector技術(shù)來發(fā)現(xiàn)大規(guī)模社交網(wǎng)絡的網(wǎng)絡社區(qū)。為了發(fā)現(xiàn)社交網(wǎng)絡的討論話題,McCallum等人提出了Author - Recipient-Topic模型。Tian等人提出了基于OLAP的歸類策略來根據(jù)屬性相似性對網(wǎng)絡用戶進行分類,這樣處于統(tǒng)一社區(qū)的用戶具備形似的屬性。Zhao等人提出了一種基于話題的社區(qū)發(fā)現(xiàn)算法,其結(jié)合了社會對象聚類和邊界分析技術(shù)。
[0006]上述基于社區(qū)發(fā)現(xiàn)算法的技術(shù)不能夠被直接應用戶“網(wǎng)絡馬甲”檢測,這是因為他們混淆了“網(wǎng)絡馬甲”社區(qū)的實際含義。實際人,某個人的多個“網(wǎng)絡馬甲”彼此之間很少有交互,而是經(jīng)?;貜推渌嗤腎D。此外,相同個人的“網(wǎng)絡馬甲”應該具有相似的寫作風格,并且對同一個話題應該具備相似的觀點。為了更加直觀的說明之一問題,首先看一個簡單的網(wǎng)絡社區(qū)用戶交互實例(見圖1 (a))。圖1 (a)展示了一個深度為4的討論主線的樹形結(jié)構(gòu)。方形區(qū)域的標識展示了發(fā)出有效評論的網(wǎng)絡用戶與其他用戶的交互情況。可見,該帖子P首先吸引了三個用戶(A、C和D)對其直接回復;在第二層,五個用戶(A、B、D、E和G) 一共發(fā)出了 8條評論;在三層,又有五個用戶(A、B、D、E和F) —共發(fā)出了 7條評論;在最后一層,用戶C給予了用戶G最后一個條評論。在每個用戶回復上,用+ or -分別表示支持/反對的態(tài)度。圖1 (b)表示基于傳統(tǒng)用戶交互模型(無向稠密網(wǎng)絡)生成的交互網(wǎng)絡,其包含7個節(jié)點和9條邊。每條邊界上的權(quán)值表示用戶之間的交互次數(shù)。圖1 (c)表示基于次交互網(wǎng)絡進行社區(qū)發(fā)現(xiàn)后的社區(qū)結(jié)構(gòu)。盡管社區(qū)內(nèi)的用戶在論壇中交互頻繁,但是他們的觀點并不一致。在圖1 (c)左邊的社區(qū)中,用戶B同用戶A的觀點極為相左,這兩個ID不太可能為來自同一個用戶的“網(wǎng)絡馬甲”。圖1.4 (d)展示我們期望得到的社區(qū)劃分結(jié)果。其中同一個社區(qū)中的ID對對待同一個話題具有相似的觀點。在此基礎上,再分析不同ID的寫作風格,假設相同社區(qū)中的ID具有相似的寫作風格,那么處于同一個社區(qū)的ID可被看為某個人的“網(wǎng)絡馬甲”。
[0007]圖1中的簡單例子,為準確發(fā)現(xiàn)“網(wǎng)絡馬甲”提供了一個很好的思路,在進一步討論之前,需要首先回答下述幾個問題:
I)網(wǎng)絡模型。由于某個人的多個“網(wǎng)絡馬甲”彼此之間不會交流頻繁,傳統(tǒng)的網(wǎng)絡模型(無向稠密網(wǎng)絡)采用用戶間的交互次數(shù)來衡量網(wǎng)絡連接邊的權(quán)值對于“網(wǎng)絡馬甲”檢測算法可能并不適用,因此,我們需要提出一種更加準確的用戶交互模型。
[0008]2)相似性。兩個ID之間的相似性包含兩層意思:首先,它們對待同一個話題的觀點應該是相似的;再者,兩個ID的寫作風格也應該是相似的。
【發(fā)明內(nèi)容】
[0009]針對傳統(tǒng)方法的缺點,本發(fā)明的目的是提供一種基于“相似觀點”網(wǎng)絡和文章作者鑒定技術(shù)的“網(wǎng)絡馬甲”的檢測方法。該方法具有三個優(yōu)勢:1)它遵循了“網(wǎng)絡馬甲”社區(qū)的實際意義;2)可以被應用于實時的網(wǎng)絡環(huán)境下檢測“網(wǎng)絡馬甲”;3)它增加了社區(qū)發(fā)現(xiàn)的有效性。
[0010]本發(fā)明的目的是通過 以下技術(shù)方案來實現(xiàn)的:
一種“網(wǎng)絡馬甲”的檢測方法,其特征在于:該方法包含三個階段:首先根據(jù)虛擬社會用戶的交互信息構(gòu)建“相似觀點”網(wǎng)絡;然后根據(jù)用戶的寫作風格對“相似觀點”網(wǎng)絡進行裁剪;最后利用社區(qū)發(fā)現(xiàn)算法對裁剪后的“馬甲”網(wǎng)絡進行社區(qū)劃分,處于同一個社區(qū)的ID被看作是某個人的“網(wǎng)絡馬甲”;具體實施步驟如下:
1)利用給定的網(wǎng)絡社區(qū)用戶交互數(shù)據(jù)構(gòu)建“相似觀點”網(wǎng)絡;
2)從“相似觀點”網(wǎng)絡中選擇節(jié)點對(WV),從語料數(shù)據(jù)庫提取這兩個ID發(fā)表的所有評論,構(gòu)建兩個樣本集;調(diào)用T檢驗,判斷兩個評論樣本集是否存在顯著性差異;如果兩個樣本沒有顯著性差異,將節(jié)點對(%4)邊界保留;否則,將節(jié)點對邊界裁剪;
3)利用社區(qū)發(fā)現(xiàn)算法,對裁剪后的“馬甲”網(wǎng)絡進行社區(qū)劃分;根據(jù)劃分的結(jié)果,處于同一個社區(qū)的用戶ID即為某個人的“網(wǎng)絡馬甲”。
[0011]本發(fā)明,步驟I)中,對于兩個用戶#卩如果他們存在相似的興趣、并且對參與討論的話題有相似的觀點,則認定他們是“好友”關系,可以構(gòu)建“相似觀點”網(wǎng)絡模型,即將整個虛擬社會網(wǎng)絡看成一個圖σ=<,5>,其中圖中的每個節(jié)占h表示網(wǎng)絡社區(qū)中的注冊用戶;任意兩個節(jié)點的邊界Oj)e£表示用戶之間的某種社會關系,網(wǎng)絡社區(qū)中的社會關系是根據(jù)用戶間的評論或留言建立的;設~表示用戶i對用戶j的評論次數(shù)表示用戶i和用戶?某一話題的態(tài)度一致性;如果用戶I和用戶/滿足% >0,^ >?并且>0,其中P尸那么丨和/t間存在一條無向邊,且邊上的權(quán)值%=^^'。
[0012]虛擬社會網(wǎng)絡包括四種類型的特征:文本特征、句法特征、結(jié)構(gòu)特征和特殊內(nèi)容特征;文本特征包括基于字符的詞匯特征、詞匯豐富性特征和文字長度頻率特征;句法特征包括虛詞、標點符號和詞性特征;結(jié)構(gòu)特征代表作者組織一段文字的方式;特殊內(nèi)容特征包括與特定主題相關的特殊文字或字符。
[0013]步驟3)中,社區(qū)發(fā)現(xiàn)算法提取的“馬甲”網(wǎng)絡具有全局稀疏,局部稠密的特點;其節(jié)點也存在明顯的“群落”結(jié)構(gòu),即同一個“群落”中的節(jié)點連接緊密,“群落”間的節(jié)點連接稀疏。
[0014]本發(fā)明最后利用經(jīng)典的社區(qū)發(fā)現(xiàn)算法(CNM、FUC、LPA或FPMQA)對“馬甲”網(wǎng)絡進行社區(qū)劃分。劃分后的社區(qū)成員即為某個用戶的“網(wǎng)絡馬甲”。
[0015]本發(fā)明基于“相似觀點”網(wǎng)絡和文章作者鑒定技術(shù)的“網(wǎng)絡馬甲”檢測方法,具有三個優(yōu)勢:1)它遵循了“網(wǎng)絡馬甲”社區(qū)的實際意義;2)可以被應用于實時的網(wǎng)絡環(huán)境下檢測“網(wǎng)絡馬甲”;3)它增加了社區(qū)發(fā)現(xiàn)的有效性。
[0016]本發(fā)明適用于虛擬空間的輿情分析、“網(wǎng)絡馬甲”檢測等諸多領域。
【專利附圖】
【附圖說明】
[0017]圖1為“網(wǎng)絡馬甲”社區(qū)ID交互特點分析圖。
【具體實施方式】
[0018]一種“網(wǎng)絡馬甲”的檢測方法,該方法包含三個階段:首先根據(jù)虛擬社會用戶的交互信息構(gòu)建“相似觀點”網(wǎng)絡;然后根據(jù)用戶的寫作風格對“相似觀點”網(wǎng)絡進行裁剪;最后利用社區(qū)發(fā)現(xiàn)算法對裁剪后的“馬甲”網(wǎng)絡進行社區(qū)劃分,處于同一個社區(qū)的ID被看作是某個人的“網(wǎng)絡馬甲”;實施步驟如下:
1)利用給定的網(wǎng)絡社區(qū)用戶交互數(shù)據(jù)構(gòu)建“相似觀點”網(wǎng)絡;
2)從“相似觀點”網(wǎng)絡中選擇節(jié)點對(I力),從語料數(shù)據(jù)庫提取這兩個ID發(fā)表的所有評論,構(gòu)建兩個樣本集;調(diào)用T檢驗,判斷兩個評論樣本集是否存在顯著性差異;如果兩個樣本沒有顯著性差異,將節(jié)點對(VilVy)邊界保留;否則,將節(jié)點對(v;,V/)邊界裁剪;
3)利用社區(qū)發(fā)現(xiàn)算法,對裁剪后的“馬甲”網(wǎng)絡進行社區(qū)劃分;根據(jù)劃分的結(jié)果,處于同一個社區(qū)的用戶ID即為某個人的“網(wǎng)絡馬甲”。
[0019]具體包括以下幾方面內(nèi)容:
1.用戶j和用戶J的態(tài)度一致性^定義
【權(quán)利要求】
1.一種“網(wǎng)絡馬甲”的檢測方法,其特征在于:該方法包含三個階段:首先根據(jù)虛擬社會用戶的交互信息構(gòu)建“相似觀點”網(wǎng)絡;然后根據(jù)用戶的寫作風格對“相似觀點”網(wǎng)絡進行裁剪;最后利用社區(qū)發(fā)現(xiàn)算法對裁剪后的“馬甲”網(wǎng)絡進行社區(qū)劃分,處于同一個社區(qū)的ID被看作是某個人的“網(wǎng)絡馬甲”;具體實施步驟如下: 1)利用給定的網(wǎng)絡社區(qū)用戶交互數(shù)據(jù)構(gòu)建“相似觀點”網(wǎng)絡; 2)從“相似觀點”網(wǎng)絡中選擇節(jié)點對(I力),從語料數(shù)據(jù)庫提取這兩個ID發(fā)表的所有評論,構(gòu)建兩個樣本集;調(diào)用T檢驗,判斷兩個評論樣本集是否存在顯著性差異;如果兩個樣本沒有顯著性差異,將節(jié)點對邊界保留;否則,將節(jié)點對邊界裁剪; 3)利用社區(qū)發(fā)現(xiàn)算法,對裁剪后的“馬甲”網(wǎng)絡進行社區(qū)劃分;根據(jù)劃分的結(jié)果,處于同一個社區(qū)的用戶ID即為某個人的“網(wǎng)絡馬甲”。
2.根據(jù)權(quán)利要求1所述的“網(wǎng)絡馬甲”的檢測方法,其特征在于:步驟I)中,對于兩個用戶如果他們存在相似的興趣、并且對參與討論的話題有相似的觀點,則認定他們是“好友”關系,可以構(gòu)建“相似觀點”網(wǎng)絡模型,即將整個虛擬社會網(wǎng)絡看成一個圖G=<F,5 >,其中圖中的每個節(jié)點表示網(wǎng)絡社區(qū)中的注冊用戶;任意兩個節(jié)點的邊界Oj)eS表示 用戶之間的某種社會關系,網(wǎng)絡社區(qū)中的社會關系是根據(jù)用戶間的評論或留言建立的;設今表示用戶i對用戶J'的評論次數(shù),表示用戶j和用戶ι/對某一話題的態(tài)度一致性;如果用戶3和用戶兩足.? >0,? >O并且>0,其中j #/?,那么g和之間存在一條無向邊,且邊上的權(quán)值% =ACh
3.根據(jù)權(quán)利要求2所述的“網(wǎng)絡馬甲”的檢測方法,其特征在于:虛擬社會網(wǎng)絡包括四種類型的特征:文本特征、句法特征、結(jié)構(gòu)特征和特殊內(nèi)容特征;文本特征包括基于字符的詞匯特征、詞匯豐富性特征和文字長度頻率特征;句法特征包括虛詞、標點符號和詞性特征;結(jié)構(gòu)特征代表作者組織一段文字的方式;特殊內(nèi)容特征包括與特定主題相關的特殊文字或字符。
4.根據(jù)權(quán)利要求1所述的“網(wǎng)絡馬甲”的檢測方法,其特征在于:步驟3)中,社區(qū)發(fā)現(xiàn)算法提取的“馬甲”網(wǎng)絡具有全局稀疏,局部稠密的特點;其節(jié)點也存在明顯的“群落”結(jié)構(gòu),即同一個“群落”中的節(jié)點連接緊密,“群落”間的節(jié)點連接稀疏。
【文檔編號】G06F17/30GK103778186SQ201310746568
【公開日】2014年5月7日 申請日期:2013年12月31日 優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】卜湛, 伍之昂, 曹杰, 李秀怡, 方昌健, 劉英卓 申請人:南京財經(jīng)大學