本發(fā)明涉及虛假流量監(jiān)測(cè)領(lǐng)域,具體涉及一種互聯(lián)網(wǎng)廣告虛假流量監(jiān)測(cè)方法、系統(tǒng)及介質(zhì)。
背景技術(shù):
1、互聯(lián)網(wǎng)廣告虛假流量指的是通過非自然或欺騙性手段產(chǎn)生的點(diǎn)擊、展示或交互,這些行為通常來自自動(dòng)化程序,這種流量不會(huì)帶來實(shí)際的用戶關(guān)注或轉(zhuǎn)換,而是制造虛假的廣告互動(dòng)數(shù)據(jù),獲取廣告收益或其他不正當(dāng)利益,因此,為了提升廣告效果的真實(shí)性和精確度,減少因虛假流量導(dǎo)致的不公平交易,需要對(duì)互聯(lián)網(wǎng)廣告虛假流量進(jìn)行監(jiān)測(cè)。
2、相關(guān)技術(shù)中,通常使用機(jī)器學(xué)習(xí)技術(shù)對(duì)互聯(lián)網(wǎng)廣告虛假流量進(jìn)行識(shí)別和監(jiān)測(cè),但由于互聯(lián)網(wǎng)廣告虛假流量的數(shù)量通常較多,且類型多種多樣,存在部分虛假流量與正常流量的區(qū)別較小,導(dǎo)致現(xiàn)有方法無(wú)法準(zhǔn)確監(jiān)測(cè)出互聯(lián)網(wǎng)廣告的虛假流量。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有方法無(wú)法準(zhǔn)確監(jiān)測(cè)出互聯(lián)網(wǎng)廣告的虛假流量的技術(shù)問題,本發(fā)明的目的在于提供一種互聯(lián)網(wǎng)廣告虛假流量監(jiān)測(cè)方法、系統(tǒng)及介質(zhì),所采用的技術(shù)方案具體如下:
2、本發(fā)明提出了一種互聯(lián)網(wǎng)廣告虛假流量監(jiān)測(cè)方法,所述方法包括:
3、獲取互聯(lián)網(wǎng)廣告在預(yù)設(shè)時(shí)間段內(nèi)每個(gè)監(jiān)測(cè)周期的不同監(jiān)測(cè)時(shí)段的多個(gè)流量數(shù)據(jù)包,所述流量數(shù)據(jù)包包括不同字段的訪問環(huán)境數(shù)據(jù);
4、將任意一個(gè)監(jiān)測(cè)周期作為目標(biāo)監(jiān)測(cè)周期,將目標(biāo)監(jiān)測(cè)周期中的任意一個(gè)監(jiān)測(cè)時(shí)段作為目標(biāo)監(jiān)測(cè)時(shí)段,將目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)所有字段的所述訪問環(huán)境數(shù)據(jù)相同的流量數(shù)據(jù)包劃分為一類,獲得目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)不同種類的流量類簇;將目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)任意一種流量類簇作為目標(biāo)流量類簇;根據(jù)目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)各流量數(shù)據(jù)包的每個(gè)字段的訪問環(huán)境數(shù)據(jù)的分布,以及目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)與目標(biāo)流量類簇中的流量數(shù)據(jù)包的每個(gè)字段的訪問環(huán)境數(shù)據(jù)相同的流量數(shù)據(jù)包的數(shù)量,獲得目標(biāo)流量類簇的比例系數(shù);
5、根據(jù)不同監(jiān)測(cè)周期的同一監(jiān)測(cè)時(shí)段中相同種類的流量類簇之間所述比例系數(shù)的差異,以及不同監(jiān)測(cè)周期的同一監(jiān)測(cè)時(shí)段的流量數(shù)據(jù)包的數(shù)量,獲得目標(biāo)流量類簇的初始虛假度;根據(jù)目標(biāo)監(jiān)測(cè)周期中不同監(jiān)測(cè)時(shí)段中相同種類的流量類簇的所述初始虛假度,獲得目標(biāo)流量類簇的真實(shí)虛假度;基于所述真實(shí)虛假度,獲得預(yù)設(shè)時(shí)間段內(nèi)每個(gè)流量數(shù)據(jù)包的虛假可能性;
6、對(duì)預(yù)設(shè)時(shí)間段中的所有流量數(shù)據(jù)包進(jìn)行標(biāo)注并訓(xùn)練,構(gòu)建出多個(gè)決策樹;根據(jù)每個(gè)流量數(shù)據(jù)包的所述虛假可能性,以及每個(gè)決策樹對(duì)每個(gè)流量數(shù)據(jù)包的預(yù)測(cè)結(jié)果,獲得每個(gè)流量數(shù)據(jù)包的虛假得分;基于所述虛假得分,對(duì)每個(gè)流量數(shù)據(jù)包進(jìn)行虛假流量監(jiān)測(cè)。
7、進(jìn)一步地,所述獲得目標(biāo)流量類簇的比例系數(shù)包括:
8、將任意一個(gè)字段作為目標(biāo)字段,從目標(biāo)監(jiān)測(cè)時(shí)段的所有流量數(shù)據(jù)包中篩選出目標(biāo)監(jiān)測(cè)時(shí)段關(guān)于目標(biāo)字段的特征流量數(shù)據(jù)包,所述特征流量數(shù)據(jù)包的目標(biāo)字段的所述訪問環(huán)境數(shù)據(jù)和目標(biāo)流量類簇中的流量數(shù)據(jù)包的目標(biāo)字段的訪問環(huán)境數(shù)據(jù)相同;將目標(biāo)監(jiān)測(cè)時(shí)段關(guān)于目標(biāo)字段的特征流量數(shù)據(jù)包的數(shù)量作分子,將目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)所有流量數(shù)據(jù)包的數(shù)量作分母,將比值作為目標(biāo)監(jiān)測(cè)時(shí)段關(guān)于目標(biāo)字段的初始比例參數(shù);
9、將目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)目標(biāo)字段的所述訪問環(huán)境數(shù)據(jù)相同的流量數(shù)據(jù)包劃分到同一集合,獲得目標(biāo)監(jiān)測(cè)時(shí)段關(guān)于目標(biāo)字段的多個(gè)流量集合;對(duì)目標(biāo)監(jiān)測(cè)時(shí)段關(guān)于目標(biāo)字段的所有所述流量集合中的流量數(shù)據(jù)包的數(shù)量的方差進(jìn)行負(fù)相關(guān)映射,獲得目標(biāo)監(jiān)測(cè)時(shí)段關(guān)于目標(biāo)字段的流量分布均勻度;對(duì)目標(biāo)監(jiān)測(cè)時(shí)段關(guān)于目標(biāo)字段的流量集合的數(shù)量和所述流量分布均勻度進(jìn)行綜合后并進(jìn)行歸一化處理,獲得目標(biāo)監(jiān)測(cè)時(shí)段關(guān)于目標(biāo)字段的權(quán)重參數(shù);
10、利用目標(biāo)監(jiān)測(cè)時(shí)段關(guān)于每個(gè)字段的所述權(quán)重參數(shù),對(duì)所述目標(biāo)監(jiān)測(cè)時(shí)段關(guān)于每個(gè)字段的所述初始比例參數(shù)進(jìn)行加權(quán)求和,獲得目標(biāo)流量類簇的比例系數(shù)。
11、進(jìn)一步地,所述獲得目標(biāo)流量類簇的初始虛假度包括:
12、在預(yù)設(shè)時(shí)間段內(nèi)除目標(biāo)監(jiān)測(cè)周期之外的每個(gè)其他監(jiān)測(cè)周期中分別選取一個(gè)監(jiān)測(cè)時(shí)段,作為每個(gè)其他監(jiān)測(cè)周期的參考監(jiān)測(cè)時(shí)段,所述參考監(jiān)測(cè)時(shí)段在每個(gè)其他監(jiān)測(cè)周期中的位置與目標(biāo)監(jiān)測(cè)時(shí)段在目標(biāo)監(jiān)測(cè)周期的位置相同;從每個(gè)參考監(jiān)測(cè)時(shí)段中選取一個(gè)流量類簇作為每個(gè)參考監(jiān)測(cè)時(shí)段的參考流量類簇,所述參考流量類簇的種類與所述目標(biāo)流量類簇的種類相同;
13、將目標(biāo)流量類簇與每個(gè)參考監(jiān)測(cè)時(shí)段的參考流量類簇之間所述比例系數(shù)的差值的絕對(duì)值,作為每個(gè)參考監(jiān)測(cè)時(shí)段的比例系數(shù)差異值;
14、將每個(gè)參考監(jiān)測(cè)時(shí)段的流量數(shù)據(jù)包的數(shù)量作分子,將所有參考監(jiān)測(cè)時(shí)段的流量數(shù)據(jù)包的數(shù)量的平均值作分母,并對(duì)比值進(jìn)行負(fù)相關(guān)的歸一化處理,獲得每個(gè)參考監(jiān)測(cè)時(shí)段的置信度參數(shù);
15、利用每個(gè)參考監(jiān)測(cè)時(shí)段的所述置信度參數(shù),對(duì)每個(gè)參考監(jiān)測(cè)時(shí)段的所述比例系數(shù)差異值進(jìn)行加權(quán)求和,獲得目標(biāo)流量類簇的初始虛假度。
16、進(jìn)一步地,所述獲得目標(biāo)流量類簇的真實(shí)虛假度包括:
17、在目標(biāo)監(jiān)測(cè)周期內(nèi),從除目標(biāo)監(jiān)測(cè)時(shí)段之外的每個(gè)其他監(jiān)測(cè)時(shí)段中分別選取一個(gè)流量類簇,作為每個(gè)其他監(jiān)測(cè)時(shí)段的對(duì)照流量類簇,所述對(duì)照流量類簇的種類與所述目標(biāo)流量類簇的種類相同;
18、將目標(biāo)監(jiān)測(cè)周期內(nèi)除目標(biāo)監(jiān)測(cè)時(shí)段之外的任意一個(gè)其他監(jiān)測(cè)時(shí)段作為待測(cè)監(jiān)測(cè)時(shí)段,將目標(biāo)監(jiān)測(cè)時(shí)段和待測(cè)監(jiān)測(cè)時(shí)段之間的其他監(jiān)測(cè)時(shí)段的對(duì)照流量類簇的所述初始虛假度、目標(biāo)流量類簇的所述初始虛假度以及待測(cè)監(jiān)測(cè)時(shí)段的對(duì)照流量類簇的所述初始虛假度中的最小值,作為待測(cè)監(jiān)測(cè)時(shí)段的虛假因子;
19、對(duì)待測(cè)監(jiān)測(cè)時(shí)段的所述虛假因子和待測(cè)監(jiān)測(cè)時(shí)段的對(duì)照流量類簇的所述初始虛假度進(jìn)行綜合,獲得待測(cè)監(jiān)測(cè)時(shí)段的連續(xù)虛假指標(biāo);
20、將目標(biāo)監(jiān)測(cè)周期內(nèi)除目標(biāo)監(jiān)測(cè)時(shí)段之外的所有其他監(jiān)測(cè)時(shí)段的所述連續(xù)虛假指標(biāo)的累加值,作為目標(biāo)流量類簇的真實(shí)虛假度。
21、進(jìn)一步地,所述獲得預(yù)設(shè)時(shí)間段內(nèi)每個(gè)流量數(shù)據(jù)包的虛假可能性包括:
22、對(duì)于預(yù)設(shè)時(shí)間段內(nèi)任意一個(gè)監(jiān)測(cè)周期的任意一個(gè)監(jiān)測(cè)時(shí)段,將每個(gè)流量類簇的所述真實(shí)虛假度,作為每個(gè)流量類簇中的每個(gè)流量數(shù)據(jù)包的虛假可能性。
23、進(jìn)一步地,所述對(duì)預(yù)設(shè)時(shí)間段中的所有流量數(shù)據(jù)包進(jìn)行標(biāo)注并訓(xùn)練,構(gòu)建出多個(gè)決策樹包括:
24、對(duì)預(yù)設(shè)時(shí)間段中的每個(gè)流量數(shù)據(jù)包進(jìn)行人工標(biāo)注,獲得每個(gè)流量數(shù)據(jù)包的人工標(biāo)注信息,所述標(biāo)注信息分為虛假流量標(biāo)注和正常流量標(biāo)注;
25、利用隨機(jī)森林算法,并對(duì)預(yù)設(shè)時(shí)間段中的所有帶人工標(biāo)注信息的流量數(shù)據(jù)包進(jìn)行訓(xùn)練,構(gòu)建出多個(gè)決策樹。
26、進(jìn)一步地,所述獲得每個(gè)流量數(shù)據(jù)包的虛假得分包括:
27、將預(yù)設(shè)時(shí)間段內(nèi)所有流量數(shù)據(jù)包的所述虛假可能性輸入至大津閾值分割算法中,獲得預(yù)設(shè)時(shí)間段的最佳分割閾值;
28、對(duì)每個(gè)流量數(shù)據(jù)包的所述虛假可能性和所述最佳分割閾值的差值的絕對(duì)值進(jìn)行負(fù)相關(guān)的歸一化處理,獲得每個(gè)流量數(shù)據(jù)包的分析權(quán)重;
29、將任意一個(gè)決策樹作為目標(biāo)決策樹,將每個(gè)流量數(shù)據(jù)包輸入至目標(biāo)決策樹中,獲得目標(biāo)決策樹對(duì)每個(gè)流量數(shù)據(jù)包的預(yù)測(cè)標(biāo)注信息,將所述預(yù)測(cè)標(biāo)注信息與所述人工標(biāo)注信息相同的流量數(shù)據(jù)包,作為待測(cè)流量數(shù)據(jù)包,將所有待測(cè)流量數(shù)據(jù)包的所述分析權(quán)重的累加值進(jìn)行歸一化處理,獲得目標(biāo)決策樹的決策置信度;
30、將預(yù)設(shè)時(shí)間段內(nèi)的任意一個(gè)流量數(shù)據(jù)包作為目標(biāo)流量數(shù)據(jù)包,若每個(gè)決策樹對(duì)目標(biāo)流量數(shù)據(jù)包的所述預(yù)測(cè)標(biāo)注信息為虛假流量標(biāo)注,則將每個(gè)決策樹作為目標(biāo)流量數(shù)據(jù)包的待測(cè)決策樹,將所有待測(cè)決策樹的所述決策置信度的平均值,作為目標(biāo)流量數(shù)據(jù)包的虛假得分。
31、進(jìn)一步地,所述基于所述虛假得分,對(duì)每個(gè)流量數(shù)據(jù)包進(jìn)行虛假流量監(jiān)測(cè)包括:
32、將所述虛假得分大于預(yù)設(shè)虛假閾值的流量數(shù)據(jù)包,作為虛假流量數(shù)據(jù)包。
33、本發(fā)明還提出了一種互聯(lián)網(wǎng)廣告虛假流量監(jiān)測(cè)系統(tǒng),所述系統(tǒng)包括:
34、數(shù)據(jù)采集模塊,用于獲取互聯(lián)網(wǎng)廣告在預(yù)設(shè)時(shí)間段內(nèi)每個(gè)監(jiān)測(cè)周期的不同監(jiān)測(cè)時(shí)段的多個(gè)流量數(shù)據(jù)包,所述流量數(shù)據(jù)包包括不同字段的訪問環(huán)境數(shù)據(jù);
35、第一分析模塊,用于將任意一個(gè)監(jiān)測(cè)周期作為目標(biāo)監(jiān)測(cè)周期,將目標(biāo)監(jiān)測(cè)周期中的任意一個(gè)監(jiān)測(cè)時(shí)段作為目標(biāo)監(jiān)測(cè)時(shí)段,將目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)所有字段的所述訪問環(huán)境數(shù)據(jù)相同的流量數(shù)據(jù)包劃分為一類,獲得目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)不同種類的流量類簇;將目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)任意一種流量類簇作為目標(biāo)流量類簇;根據(jù)目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)各流量數(shù)據(jù)包的每個(gè)字段的訪問環(huán)境數(shù)據(jù)的分布,以及目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)與目標(biāo)流量類簇中的流量數(shù)據(jù)包的每個(gè)字段的訪問環(huán)境數(shù)據(jù)相同的流量數(shù)據(jù)包的數(shù)量,獲得目標(biāo)流量類簇的比例系數(shù);
36、第二分析模塊,用于根據(jù)不同監(jiān)測(cè)周期的同一監(jiān)測(cè)時(shí)段中相同種類的流量類簇之間所述比例系數(shù)的差異,以及不同監(jiān)測(cè)周期的同一監(jiān)測(cè)時(shí)段的流量數(shù)據(jù)包的數(shù)量,獲得目標(biāo)流量類簇的初始虛假度;根據(jù)目標(biāo)監(jiān)測(cè)周期中不同監(jiān)測(cè)時(shí)段中相同種類的流量類簇的所述初始虛假度,獲得目標(biāo)流量類簇的真實(shí)虛假度;基于所述真實(shí)虛假度,獲得預(yù)設(shè)時(shí)間段內(nèi)每個(gè)流量數(shù)據(jù)包的虛假可能性;
37、虛假監(jiān)測(cè)模塊,用于對(duì)預(yù)設(shè)時(shí)間段中的所有流量數(shù)據(jù)包進(jìn)行標(biāo)注并訓(xùn)練,構(gòu)建出多個(gè)決策樹;根據(jù)每個(gè)流量數(shù)據(jù)包的所述虛假可能性,以及每個(gè)決策樹對(duì)每個(gè)流量數(shù)據(jù)包的預(yù)測(cè)結(jié)果,獲得每個(gè)流量數(shù)據(jù)包的虛假得分;基于所述虛假得分,對(duì)每個(gè)流量數(shù)據(jù)包進(jìn)行虛假流量監(jiān)測(cè)。
38、本發(fā)明還提出了一種計(jì)算機(jī)介質(zhì),所述介質(zhì)包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)任意一項(xiàng)一種互聯(lián)網(wǎng)廣告虛假流量監(jiān)測(cè)方法的步驟。
39、本發(fā)明具有如下有益效果:
40、本發(fā)明考慮到現(xiàn)有的機(jī)器學(xué)習(xí)算法無(wú)法準(zhǔn)確監(jiān)測(cè)出互聯(lián)網(wǎng)廣告的虛假流量,因此首先獲取預(yù)設(shè)時(shí)間段內(nèi)每個(gè)監(jiān)測(cè)周期的不同監(jiān)測(cè)時(shí)段的多個(gè)流量數(shù)據(jù)包,考慮到虛假流量一般產(chǎn)生于相同的代理服務(wù)器或設(shè)備群,其各字段的訪問環(huán)境數(shù)據(jù)具有相似性,因此首先將目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)所有字段的訪問環(huán)境數(shù)據(jù)相同的流量數(shù)據(jù)包劃分到同一流量類簇,后續(xù)可對(duì)相同種類的流量類簇在時(shí)序上的特征差異進(jìn)行分析,準(zhǔn)確計(jì)算出流量數(shù)據(jù)包的虛假可能性,考慮到虛假流量的數(shù)量一般較多,其在目標(biāo)監(jiān)測(cè)時(shí)段內(nèi)所占比例較大,并且各字段的訪問環(huán)境數(shù)據(jù)較為相似,因此可通過比例系數(shù)反映目標(biāo)監(jiān)測(cè)時(shí)段中與目標(biāo)流量類簇的訪問環(huán)境相似的流量數(shù)據(jù)包的占比,后續(xù)可基于相同種類的流量類簇在時(shí)序上的比例系數(shù)的差異,對(duì)目標(biāo)流量類簇的初始虛假度進(jìn)行準(zhǔn)確分析,考慮到不同監(jiān)測(cè)周期的同一監(jiān)測(cè)時(shí)段中相同種類的虛假流量類簇和正常流量類簇之間的比例系數(shù)的差異較大,并且流量數(shù)據(jù)包的數(shù)量越少的監(jiān)測(cè)時(shí)段的存在正常流量類簇的可能性越大,因此可通過初始虛假度初步反映目標(biāo)流量類簇所包含的流量數(shù)據(jù)包是虛假流量的可能性,并進(jìn)一步通過真實(shí)虛假度準(zhǔn)確反映目標(biāo)流量類簇所包含的流量數(shù)據(jù)包是虛假流量的可能性,進(jìn)而通過構(gòu)建決策樹,并基于每個(gè)流量數(shù)據(jù)包的虛假可能性,對(duì)每個(gè)流量數(shù)據(jù)包進(jìn)行虛假流量監(jiān)測(cè),提高對(duì)互聯(lián)網(wǎng)廣告的虛假流量進(jìn)行監(jiān)測(cè)的準(zhǔn)確性。