本發(fā)明涉及基礎(chǔ)類網(wǎng)絡(luò)與信息安全領(lǐng)域,具體涉及基于網(wǎng)絡(luò)信息的跟蹤溯源方法。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上的言論越來(lái)越多的影響人們的生活,甚至出現(xiàn)了網(wǎng)絡(luò)暴力等情況。而且部分活動(dòng)還伴隨有網(wǎng)絡(luò)水軍的參與。
2、目前網(wǎng)絡(luò)事件的研究主要還集中在言論本身的合理性方面,主要采用的手段是對(duì)于一些特定關(guān)鍵詞的屏蔽以及對(duì)于敏感詞的限制等。但是,網(wǎng)絡(luò)詞匯的更新迭代異常迅速,往往所屏蔽敏感詞的更新不如網(wǎng)絡(luò)詞匯發(fā)展的迅速。
3、申請(qǐng)人在研究中注意到,網(wǎng)絡(luò)事件的發(fā)酵往往帶有兩方面的特征,一個(gè)特征是網(wǎng)絡(luò)內(nèi)容討論客體的改變,一個(gè)特征是網(wǎng)絡(luò)討論方向性的改變。為了更好地避免網(wǎng)絡(luò)事件給社會(huì)生活帶來(lái)不必要的危害,對(duì)網(wǎng)絡(luò)事件發(fā)展情況進(jìn)行及時(shí)追蹤,對(duì)網(wǎng)絡(luò)討論主體轉(zhuǎn)變的快速判斷具有重要意義,但是,目前的網(wǎng)絡(luò)追蹤技術(shù)未見(jiàn)相關(guān)方面報(bào)道。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中存在的上述問(wèn)題,本發(fā)明提出了一種在網(wǎng)絡(luò)事件中對(duì)引導(dǎo)性言論進(jìn)行溯源的方法。本發(fā)明可以迅速判斷事件拐點(diǎn)的發(fā)生,篩選出對(duì)輿論導(dǎo)向具有一定引導(dǎo)性作用的關(guān)鍵言論的發(fā)起賬號(hào)或賬號(hào)集群,為輿論事件的發(fā)生提出預(yù)警,為找到網(wǎng)絡(luò)水軍或者有組織性的輿論宣傳提供數(shù)據(jù)基礎(chǔ)。
2、申請(qǐng)人在研究中發(fā)現(xiàn),引導(dǎo)性言論往往并不是孤立存在的,對(duì)輿論引導(dǎo)其決定性作用的往往并不是單純的侮辱性或者負(fù)面語(yǔ)言,而往往具有一定的方向性變化過(guò)程的言論,因此,申請(qǐng)人從該角度入手對(duì)輿論的方向性變化過(guò)程進(jìn)行了研究,發(fā)現(xiàn)部分賬號(hào)的輿論方向性變化具有一定的相似性,這樣的輿論方向性引導(dǎo)是非常不利的,找到這樣的方向性引導(dǎo)賬戶具有重要意義。
3、具體而言,本發(fā)明提供一種基于網(wǎng)絡(luò)信息的跟蹤溯源方法,所述方法包括:
4、(3.1)確定與特定輿情事件相關(guān)的重點(diǎn)板塊,對(duì)任意一個(gè)重點(diǎn)板塊內(nèi)的相關(guān)主題的討論內(nèi)容進(jìn)行抓取,獲取相應(yīng)板塊內(nèi),輿情表達(dá)主體的賬號(hào)信息與輿情表達(dá)內(nèi)容、輿情表達(dá)時(shí)間之間的對(duì)應(yīng)關(guān)系對(duì);
5、(3.2)提取各個(gè)主題內(nèi)的討論內(nèi)容,提取每一次發(fā)帖中討論內(nèi)容中的關(guān)鍵詞,建立事件語(yǔ)料庫(kù);
6、(3.3)對(duì)于語(yǔ)料庫(kù)中,表達(dá)輿情本征客體的詞語(yǔ)以及表達(dá)輿情衍生客體的詞語(yǔ)進(jìn)行提取,構(gòu)建輿情本征客體語(yǔ)料子庫(kù)以及輿情衍生客體語(yǔ)料子庫(kù);
7、(3.4)構(gòu)建lstm模型,選取關(guān)于輿情客體的討論內(nèi)容進(jìn)行標(biāo)記,將其分別標(biāo)記為輿情本征客體以及若干輿情衍生客體,利用標(biāo)記后的文本對(duì)lstm模型進(jìn)行訓(xùn)練;
8、(3.5)利用lstm模型對(duì)每一條討論內(nèi)容進(jìn)行分類,將其分為對(duì)輿情本征客體的討論、對(duì)輿情衍生客體的討論;
9、(3.6)確定輿情事件的討論時(shí)間總長(zhǎng),基于討論時(shí)間總長(zhǎng)進(jìn)行時(shí)間段劃分,按照多個(gè)時(shí)間節(jié)點(diǎn)對(duì)所有討論內(nèi)容進(jìn)行劃分,劃成若干輿情階段,對(duì)于每個(gè)輿情階段,分別對(duì)該階段內(nèi)的各輿情討論客體方向進(jìn)行加權(quán)求和,獲得該階段的輿情方向向量,輿情方向向量中,對(duì)于每一個(gè)輿情客體,將其作為一個(gè)維度,分配一個(gè)維度模值,維度模值與該客體被討論的頻次成正比,對(duì)于該客體的討論的表述語(yǔ)句的方向性,基于方向性表述的詞庫(kù),對(duì)其進(jìn)行賦值,將正向討論與負(fù)向討論之差與總討論的比值作為該客體的討論方向角度,按照輿情客體的維度模值大小順序確定目標(biāo)輿情客體;
10、對(duì)于目標(biāo)輿情客體,將輿情方向經(jīng)過(guò)零點(diǎn)的時(shí)間作為拐點(diǎn),截取拐點(diǎn)前后預(yù)定時(shí)長(zhǎng)范圍內(nèi)參與該板塊討論的賬號(hào)以及言論內(nèi)容;
11、(3.7)對(duì)于拐點(diǎn)區(qū)域范圍內(nèi)的言論內(nèi)容,按照時(shí)間順序提取相同賬戶在拐點(diǎn)范圍的關(guān)于相關(guān)客體的所有言論內(nèi)容,對(duì)于每一次言論發(fā)表內(nèi)容,確定言論發(fā)表內(nèi)容的方向性角度值,以時(shí)間為橫軸,構(gòu)建該賬戶的方向性角度變化曲線;
12、(3.8)對(duì)當(dāng)前輿論平臺(tái)關(guān)于該輿論事件的、其他重點(diǎn)板塊內(nèi)的相關(guān)主題的討論內(nèi)容進(jìn)行抓取,重復(fù)上述步驟(3.1)-(3.8),構(gòu)建相應(yīng)板塊內(nèi),所有拐點(diǎn)相關(guān)賬號(hào)的方向性角度變化曲線;
13、(3.9)對(duì)所獲得的所有賬戶的方向性角度變化曲線進(jìn)行相似性匹配,提取方向性角度變化曲線的相似性高于設(shè)定閾值的賬戶信息。
14、在一種優(yōu)選實(shí)現(xiàn)方式中,對(duì)于所有未明確判定其討論內(nèi)容為衍生客體的內(nèi)容,均認(rèn)定為對(duì)該討論項(xiàng)中主客體的討論。
15、在一種優(yōu)選實(shí)現(xiàn)方式中,所述步驟(3.2)包括:使用word2vec模型對(duì)所獲得的語(yǔ)料庫(kù)進(jìn)行轉(zhuǎn)換,以獨(dú)熱編碼形式對(duì)語(yǔ)料庫(kù)中的詞語(yǔ)進(jìn)行向量表示。
16、在另一種優(yōu)選實(shí)現(xiàn)方式中,對(duì)客體的討論方向包括正向、負(fù)向、中性,對(duì)于不同的語(yǔ)料賦予不同的分值。
17、在另一種優(yōu)選實(shí)現(xiàn)方式中,步驟(3.6)中,對(duì)客體的討論方向角度值基于下述公式計(jì)算:
18、n表示參與該客體討論的主體個(gè)數(shù),i∈[1,n],pi為對(duì)于該客體基于正向討論內(nèi)容的賦值,ni為對(duì)于該客體基于負(fù)向討論內(nèi)容的賦值,bi為對(duì)于該客體基于負(fù)向討論內(nèi)容的賦值,σ表示對(duì)于中性討論內(nèi)容的折扣系數(shù)。
19、在另一種優(yōu)選實(shí)現(xiàn)方式中,所述方法還包括:(1)基于與特定輿情事件相關(guān)的關(guān)鍵詞,獲取與該特定輿情事件高度相關(guān)的輿論平臺(tái);
20、(2)對(duì)各個(gè)輿論平臺(tái)中該特定輿情事件的核心關(guān)鍵詞出現(xiàn)頻率的加權(quán)系數(shù)進(jìn)行計(jì)算,對(duì)各個(gè)輿論平臺(tái)中核心關(guān)鍵詞的加權(quán)系數(shù)進(jìn)行排序;
21、(3)按照各個(gè)輿論平臺(tái)的排序,選擇目標(biāo)分析平臺(tái)。
22、在另一種優(yōu)選實(shí)現(xiàn)方式中,對(duì)于每一個(gè)賬戶,步驟(3.7)中方向性角度值利用φj=pj+σbj-nj進(jìn)行計(jì)算,其中,pj為該賬戶單次言論中,基于正向討論內(nèi)容的賦值,nj為該賬戶單次言論中,基于負(fù)向討論內(nèi)容的賦值,bj為該賬戶單次言論中,基于負(fù)向討論內(nèi)容的賦值,σ表示對(duì)于中性討論內(nèi)容的折扣系數(shù),利用該公式對(duì)該賬戶多次言論的方向性角度值進(jìn)行計(jì)算,進(jìn)而計(jì)算該賬戶的方向性角度變化曲線。
23、所述方法還包括統(tǒng)計(jì)方向性角度變化曲線的相似性高于設(shè)定閾值的賬戶占總討論賬戶的比例,當(dāng)該比例高于3-5%時(shí),發(fā)出預(yù)警。
24、本發(fā)明中,雖然對(duì)言論的方向性進(jìn)給出了三個(gè)方向,本領(lǐng)域技術(shù)人員可以對(duì)方向性進(jìn)一步擴(kuò)展,分出更多的方向性分類。
25、需要說(shuō)明的是,步驟(3.6)和(3.7)中基于正向、負(fù)向、中性討論內(nèi)容的賦值是基于言論中關(guān)鍵詞的賦值求和獲得的,以pj為例,其等于k為言論中所包含的關(guān)鍵詞數(shù)量,pk為第k個(gè)關(guān)鍵詞的賦值,以此類推,負(fù)向和中性的方向性按此進(jìn)行計(jì)算。
26、采用本發(fā)明的方法,可以有效確定輿情討論的客體和衍生客體討論方向性變化,并且基于輿情討論的方向及時(shí)確定對(duì)輿情討論具有引導(dǎo)性的言論以及相應(yīng)賬戶,進(jìn)而更準(zhǔn)確地確定是否存在引導(dǎo)性的群體在對(duì)討論的方向進(jìn)行控制和引導(dǎo),減少所需分析的數(shù)據(jù)量,提高分析準(zhǔn)確率。
1.一種基于網(wǎng)絡(luò)信息的跟蹤溯源方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)信息的跟蹤溯源方法,其特征在于,所述步驟(3.2)包括:使用word2vec模型對(duì)所獲得的語(yǔ)料庫(kù)進(jìn)行轉(zhuǎn)換,以獨(dú)熱編碼形式對(duì)語(yǔ)料庫(kù)中的詞語(yǔ)進(jìn)行向量表示。
3.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)信息的跟蹤溯源方法,其特征在于,對(duì)客體的討論方向包括正向、負(fù)向、中性,對(duì)于不同的語(yǔ)料賦予不同的分值。
4.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)信息的跟蹤溯源方法,其特征在于,
5.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)信息的跟蹤溯源方法,其特征在于,所述方法還包括:(1)基于與特定輿情事件相關(guān)的關(guān)鍵詞,獲取與該特定輿情事件高度相關(guān)的輿論平臺(tái);
6.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)信息的跟蹤溯源方法,其特征在于,對(duì)于每一個(gè)賬戶,步驟(3.7)中方向性角度值利用φj=pj+σbj-nj進(jìn)行計(jì)算,其中,pi為該賬戶單次言論中,基于正向討論內(nèi)容的賦值,ni為該賬戶單次言論中,基于負(fù)向討論內(nèi)容的賦值,bi為該賬戶單次言論中,基于負(fù)向討論內(nèi)容的賦值,σ表示對(duì)于中性討論內(nèi)容的折扣系數(shù),利用該公式對(duì)該賬戶多次言論的方向性角度值進(jìn)行計(jì)算,進(jìn)而計(jì)算該賬戶的方向性角度變化曲線。
7.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)信息的跟蹤溯源方法,其特征在于,所述方法還包括統(tǒng)計(jì)方向性角度變化曲線的相似性高于設(shè)定閾值的賬戶占總討論賬戶的比例,當(dāng)該比例高于3-5%時(shí),發(fā)出預(yù)警。