廣告反作弊方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種廣告反作弊方法及裝置;方法包括:獲取樣本集合,其中,樣本集合中的至少一個(gè)樣本包括作弊用戶、以及作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志;從樣本集合的樣本中提取與待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng)的至少一個(gè)維度的特征,其中,不同層級(jí)待識(shí)別的作弊用戶所對(duì)應(yīng)的特征不同;將作弊用戶、作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志對(duì)應(yīng)至少一個(gè)維度的特征形成正樣本,至少基于正樣本對(duì)與待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng)的作弊用戶識(shí)別模型進(jìn)行訓(xùn)練;確定待識(shí)別的樣本對(duì)應(yīng)至少一個(gè)維度的特征;將待識(shí)別樣本對(duì)應(yīng)至少一個(gè)維度的特征輸入訓(xùn)練后的作弊用戶識(shí)別模型,識(shí)別出待識(shí)別的樣本中的作弊用戶。實(shí)施本發(fā)明,能夠準(zhǔn)確識(shí)別互聯(lián)網(wǎng)中進(jìn)行廣告作弊的作弊用戶。
【專利說明】
廣告反作弊方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及通信領(lǐng)域的互聯(lián)網(wǎng)廣告技術(shù),尤其設(shè)及一種廣告反作弊方法及裝置。
【背景技術(shù)】
[0002] 目前,廣告主存在向用戶推送廣告W對(duì)產(chǎn)品或服務(wù)進(jìn)行宣傳的需求,伴隨互聯(lián)網(wǎng) 用戶尤其是移動(dòng)互聯(lián)網(wǎng)用戶的快速增長,互聯(lián)網(wǎng)廣告成為廣告投放的新的形式,互聯(lián)網(wǎng)廣 告的投放量也呈現(xiàn)快速增長的趨勢(shì)。
[0003] 在互聯(lián)網(wǎng)廣告的生態(tài)系統(tǒng)中,流量方基于用戶提供各種形式的基于互聯(lián)網(wǎng)的服務(wù) (如提供新聞、媒體播放、在線游戲等各種形式),在用戶使用服務(wù)的過程中廣告系統(tǒng)向用戶 使用的服務(wù)中(如用戶使用的應(yīng)用,或用戶訪問的網(wǎng)頁)投放廣告,如果用戶點(diǎn)擊廣告則使 廣告的點(diǎn)擊量(也稱為廣告流量)增加,可見流量方基于自身所擁有的廣告資源(如應(yīng)用中 的廣告、網(wǎng)頁中的廣告位等)對(duì)廣告的點(diǎn)擊量進(jìn)行消耗。
[0004] 上述互聯(lián)網(wǎng)廣告的系統(tǒng)中存在W下問題:
[0005] 流量方為了提高用戶在擁有的廣告資源上投放的廣告的點(diǎn)擊量,W獲取更多的收 入,會(huì)采用作弊的方式對(duì)廣告資源上投放的廣告進(jìn)行點(diǎn)擊,從而形成廣告的虛假的點(diǎn)擊量 (也成為虛假廣告流量),而對(duì)于準(zhǔn)確識(shí)別作弊用戶W從廣告的點(diǎn)擊量中過濾虛假的點(diǎn)擊 量,相關(guān)技術(shù)尚無有效解決方案。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實(shí)施例提供一種廣告反作弊方法及裝置,能夠準(zhǔn)確識(shí)別互聯(lián)網(wǎng)中進(jìn)行廣告 作弊的作弊用戶。
[0007] 本發(fā)明實(shí)施例的技術(shù)方案是運(yùn)樣實(shí)現(xiàn)的:
[000引第一方面,本發(fā)明實(shí)施例提供一種廣告反作弊方法,所述方法包括:
[0009] 獲取樣本集合,其中,所述樣本集合中的至少一個(gè)樣本包括作弊用戶、W及所述作 弊用戶點(diǎn)擊廣告的點(diǎn)擊日志;
[0010] 從所述樣本集合的樣本中提取與待識(shí)別的作弊用戶層級(jí)對(duì)應(yīng)的至少一個(gè)維度的 特征,其中,不同層級(jí)待識(shí)別的作弊用戶所對(duì)應(yīng)的特征不同;
[0011] 基于所述作弊用戶、所述作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志在所述至少一個(gè)維度的特 征形成正樣本,至少基于所述正樣本對(duì)與待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng)的作弊用戶識(shí)別模 型進(jìn)行訓(xùn)練;
[0012] 確定待識(shí)別的樣本對(duì)應(yīng)所述至少一個(gè)維度的特征;
[0013] 將所述待識(shí)別樣本對(duì)應(yīng)所述至少一個(gè)維度的特征輸入訓(xùn)練后的所述作弊用戶識(shí) 別模型,基于輸出結(jié)果識(shí)別出所述待識(shí)別的樣本中的作弊用戶。
[0014] 第二方面,本發(fā)明實(shí)施例提供一種廣告反作弊裝置,所述裝置包括:
[0015] 樣本模塊,用于獲取樣本集合,其中,所述樣本集合中的至少一個(gè)樣本包括作弊用 戶、W及所述作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志;
[0016] 提取模塊,用于從所述樣本集合的樣本中提取與待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng)的 至少一個(gè)維度的特征,其中,不同層級(jí)所述待識(shí)別的作弊用戶所對(duì)應(yīng)的特征不同.
[0017] 模型訓(xùn)練模塊,用于基于所述作弊用戶、所述作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志在所 述至少一個(gè)維度的特征形成正樣本,至少基于所述正樣本對(duì)與待識(shí)別的作弊用戶的層級(jí)對(duì) 應(yīng)的作弊用戶識(shí)別模型進(jìn)行訓(xùn)練;
[0018] 模型應(yīng)用模塊,用于確定待識(shí)別的樣本對(duì)應(yīng)所述至少一個(gè)維度的特征;將所述待 識(shí)別樣本對(duì)應(yīng)所述至少一個(gè)維度的特征輸入訓(xùn)練后的所述作弊用戶識(shí)別模型,基于輸出結(jié) 果識(shí)別出所述待識(shí)別的樣本中的作弊用戶。
[0019] 本發(fā)明實(shí)施例中,基于待識(shí)別的作弊用戶的不同層級(jí),從樣本中提取相應(yīng)的特征 對(duì)相應(yīng)層級(jí)作弊用戶識(shí)別模型進(jìn)行訓(xùn)練,從而可W利用訓(xùn)練后的模型對(duì)不同層級(jí)的作弊用 戶進(jìn)行有針對(duì)性的全面的識(shí)別。
【附圖說明】
[0020] 圖1-1為本發(fā)明實(shí)施例中廣告反作弊裝置的一個(gè)可選的架構(gòu)示意圖;
[0021] 圖1-2為本發(fā)明實(shí)施例中廣告反作弊裝置的一個(gè)可選的架構(gòu)示意圖;
[0022] 圖2為本發(fā)明實(shí)施例中廣告反作弊裝置識(shí)別低層級(jí)作弊用戶的一個(gè)可選的實(shí)現(xiàn)示 意圖;
[0023] 圖3-1為本發(fā)明實(shí)施例中識(shí)別低層級(jí)作弊用戶的一個(gè)可選的流程示意圖;
[0024] 圖3-2為本發(fā)明實(shí)施例中識(shí)別低層級(jí)作弊用戶的一個(gè)可選的流程示意圖;
[0025] 圖4為本發(fā)明實(shí)施例中訓(xùn)練中層級(jí)作弊用戶識(shí)別模型、W及利用中層級(jí)作弊用戶 識(shí)別模型識(shí)別中層級(jí)作弊用戶的一個(gè)可選的實(shí)現(xiàn)示意圖;
[0026] 圖5為本發(fā)明實(shí)施例中識(shí)別高層級(jí)作弊用戶的一個(gè)可選的流程示意圖;
[0027] 圖6為本發(fā)明實(shí)施例中訓(xùn)練高層級(jí)作弊用戶識(shí)別模型、W及利用高層級(jí)作弊用戶 識(shí)別模型識(shí)別高層級(jí)作弊用戶的一個(gè)可選的實(shí)現(xiàn)示意圖;
[0028] 圖7為本發(fā)明實(shí)施例中示廣告反作弊系統(tǒng)進(jìn)行作弊用戶識(shí)別的一個(gè)可選的示意 圖;
[0029] 圖8為本發(fā)明實(shí)施例中廣告反作弊系統(tǒng)的一個(gè)可選的功能架構(gòu)示意圖;
[0030] 圖9為本發(fā)明實(shí)施例中示廣告反作弊系統(tǒng)進(jìn)行作弊用戶識(shí)別的一個(gè)可選的示意 圖。
【具體實(shí)施方式】
[0031] W下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所提供的 實(shí)施例僅僅用W解釋本發(fā)明,并不用于限定本發(fā)明。另外,W下所提供的實(shí)施例是用于實(shí)施 本發(fā)明的部分實(shí)施例,而非提供實(shí)施本發(fā)明的全部實(shí)施例,在本領(lǐng)域技術(shù)人員不付出創(chuàng)造 性勞動(dòng)的前提下,對(duì)W下實(shí)施例的技術(shù)方案進(jìn)行重組所得的實(shí)施例、W及基于對(duì)發(fā)明所實(shí) 施的其他實(shí)施例均屬于本發(fā)明的保護(hù)范圍。
[0032] 需要說明的是,在本發(fā)明實(shí)施例中,術(shù)語"包括"、"包含"或者其任何其他變體意在 涵蓋非排他性的包含,從而使得包括一系列要素的方法或者裝置不僅包括所明確記載的要 素,而且還包括沒有明確列出的其他要素,或者是還包括為實(shí)施方法或者裝置所固有的要 素。在沒有更多限制的情況下,由語句"包括一個(gè)……"限定的要素,并不排除在包括該要素 的方法或者裝置中還存在另外的相關(guān)要素(例如方法中的步驟或者裝置中的單元)。
[0033] 本發(fā)明實(shí)施例中設(shè)及的名詞和術(shù)語適用于如下的解釋。
[0034] 廣告曝光:廣告在用戶側(cè)的廣告位(如用戶訪問的頁面中的廣告位、用戶使用的應(yīng) 用中的廣告位)展示,廣告在用戶側(cè)展示一次稱為一次廣告曝光。
[0035] 廣告點(diǎn)擊:用戶在終端(如智能手機(jī)、平板電腦)通過點(diǎn)擊廣告而訪問廣告主的頁 面,用戶點(diǎn)擊一次廣告而訪問廣告主的頁面,稱為廣告點(diǎn)擊。
[0036] 廣告效果:廣告在被曝光后,用戶點(diǎn)擊廣告從而在廣告主的網(wǎng)頁下單購買商品或 下載應(yīng)用,稱為廣告效果。
[0037] 點(diǎn)擊率:廣告點(diǎn)擊量與廣告曝光次數(shù)的比值。
[0038] 水軍:受雇于網(wǎng)絡(luò)公司通過點(diǎn)擊廣告、下載應(yīng)用或發(fā)帖回帖等手段達(dá)到盈利或營 造輿論等目的的網(wǎng)絡(luò)人員,本發(fā)明實(shí)施例中也稱為作弊用戶。
[0039] 廣告作弊:在廣告曝光、點(diǎn)擊、效果等環(huán)節(jié),用戶出于某種惡意的目的,存在可W提 升廣告曝光次數(shù)、廣告點(diǎn)擊量、廣告效果的行為,運(yùn)種作弊用戶的惡意的行為稱為廣告作 弊。
[0040] 廣告反作弊:對(duì)廣告曝光、點(diǎn)擊和效果等環(huán)節(jié)進(jìn)行檢查,判斷廣告曝光、廣告點(diǎn)擊、 廣告效果等是由于用戶側(cè)的正常訪問觸發(fā),還是由于作弊用戶通過廣告作弊手段實(shí)現(xiàn)。
[0041] 廣告反作弊系統(tǒng):對(duì)廣告曝光、廣告點(diǎn)擊和廣告效果等環(huán)節(jié)進(jìn)行反作弊檢查的系 統(tǒng)。
[0042] 廣告反作弊策略:廣告反作弊系統(tǒng)為打擊作弊行為所使用的一系列規(guī)則,每種規(guī) 則稱為一種策略。
[0043] 廣告任務(wù)平臺(tái):僅提供廣告瀏覽、廣告點(diǎn)擊或應(yīng)用下載等有償任務(wù)的平臺(tái),平臺(tái)用 戶通過完成有償任務(wù)獲取積分來兌換錢或獎(jiǎng)品,平臺(tái)用戶的廣告點(diǎn)擊行為與作弊用戶的廣 告點(diǎn)擊行為類似。
[0044] 高(第一)層級(jí)作弊用戶:專業(yè)的作弊用戶群體,對(duì)反作弊系統(tǒng)了解透徹,一群高層 級(jí)的作弊用戶共同點(diǎn)擊一批應(yīng)用(APP),高層級(jí)作弊用戶使用的應(yīng)用是帶殼的虛假APP,專 用于供高層級(jí)作弊用戶進(jìn)行廣告作弊,保證單個(gè)作弊用戶的行為與正常用戶無異,多為作 弊軟件偽造的用戶群體。
[0045] 中(第二)層級(jí)作弊用戶:專業(yè)的作弊用戶、對(duì)反作弊系統(tǒng)有所了解,長期分散地、 有間歇地點(diǎn)擊廣告,多為廣告任務(wù)平臺(tái)的用戶或職業(yè)水軍。
[0046] 低(第S)層級(jí)作弊用戶:無組織的作弊用戶、對(duì)反作弊系統(tǒng)了解較少,短時(shí)間內(nèi)點(diǎn) 擊大量廣告,多為流量方內(nèi)部或周邊人員。
[0047] 在互聯(lián)網(wǎng)廣告的生態(tài)系統(tǒng)中,部分流量方為了獲取更高的點(diǎn)擊率和收入,會(huì)短期 或長期自己內(nèi)部或雇傭水軍或誘導(dǎo)用戶來點(diǎn)擊自己流量上的廣告。反作弊系統(tǒng)(本發(fā)明實(shí) 施例中W反作弊裝置實(shí)施為反作弊系統(tǒng)為例進(jìn)行說明)需要識(shí)別出作弊用戶并過作弊用戶 針對(duì)廣告的點(diǎn)擊量。
[0048] 相關(guān)技術(shù)提供的反作弊系統(tǒng)能夠識(shí)別比較明顯的作弊用的廣告作弊行為,但隨著 作弊用戶的作弊手段的變化和深入,一些隱藏更深的作弊用戶難W識(shí)別。
[0049] 針對(duì)運(yùn)種情況,本發(fā)明實(shí)施例提供一種廣告反作弊方法、W及應(yīng)用廣告反作弊方 法的廣告反作弊裝置,廣告反作弊裝置可W采用各種方式來實(shí)施,W下對(duì)廣告反作弊裝置 的實(shí)施方式進(jìn)行說明。
[0050] 在一個(gè)示例中,參見圖1-1示出的廣告反作弊裝置的一個(gè)可選的架構(gòu)示意圖,廣告 反作弊裝置實(shí)施為廣告反作弊系統(tǒng)(實(shí)際應(yīng)用中可W服務(wù)器或服務(wù)器集群的形式實(shí)現(xiàn),可 選地,W云服務(wù)的形式提供廣告反作弊業(yè)務(wù)),廣告反作弊系統(tǒng)與廣告系統(tǒng)連接,下面對(duì)廣 告系統(tǒng)進(jìn)行說明。
[0051] 廣告系統(tǒng)根據(jù)廣告主設(shè)定的投放廣告的定向條件(如廣告受眾的年齡、地域、群 體、消費(fèi)能力等信息)向相應(yīng)的用戶的終端的廣告位投放廣告,并根據(jù)用戶對(duì)廣告的點(diǎn)擊情 況,對(duì)應(yīng)形成每個(gè)統(tǒng)計(jì)時(shí)段(如一周)的點(diǎn)擊日志,點(diǎn)擊日日志中用于記錄用戶針對(duì)廣告的 點(diǎn)擊的各種信息如點(diǎn)擊量、點(diǎn)擊時(shí)間等。
[0052] 另外,對(duì)于每個(gè)統(tǒng)計(jì)時(shí)段,廣告系統(tǒng)還統(tǒng)計(jì)形成曝光日志,示例性地,曝光日志包 括用戶所點(diǎn)擊的廣告所曝光的對(duì)象如應(yīng)用、商品等。
[0053] 此外,對(duì)于每個(gè)統(tǒng)計(jì)時(shí)段,廣告系統(tǒng)對(duì)應(yīng)每個(gè)應(yīng)用還統(tǒng)計(jì)形成效果日志,示例性 地,效果日志包括用戶點(diǎn)擊廣告后所達(dá)到的針對(duì)廣告的曝光對(duì)象實(shí)現(xiàn)的效果。
[0054] 除此之外,對(duì)于每個(gè)統(tǒng)計(jì)時(shí)段,廣告系統(tǒng)對(duì)應(yīng)統(tǒng)計(jì)用戶點(diǎn)擊廣告所使用的設(shè)備的 信息,如設(shè)備的硬件信息和軟件信息等。
[0055] 廣告反作弊系統(tǒng)從廣告系統(tǒng)獲取用戶點(diǎn)擊廣告的點(diǎn)擊日志、效果日志、曝光日志、 W及用戶的設(shè)備信息等,基于上述至少一種信息進(jìn)行處理形成用于識(shí)別不同層級(jí)的作弊用 戶的模型,進(jìn)而利用不同的模型識(shí)別出不同層級(jí)的作弊用戶,還可對(duì)作弊用戶點(diǎn)擊廣告的 點(diǎn)擊量進(jìn)行過濾處理,W確保統(tǒng)計(jì)到的用戶側(cè)的廣告點(diǎn)擊量的準(zhǔn)確性。
[0056] 在另一個(gè)示例中,參見圖1-2,廣告反作弊裝置作為圖1-1示出的廣告系統(tǒng)的一個(gè) 功能模塊禪合入廣告系統(tǒng)中,廣告反作弊裝置從廣告系統(tǒng)獲取用戶點(diǎn)擊廣告的點(diǎn)擊日志、 效果日志、曝光日志、W及用戶的設(shè)備信息等,基于上述至少一種信息進(jìn)行處理形成用于識(shí) 別不同層級(jí)的作弊用戶的模型,進(jìn)而利用不同的模型識(shí)別出對(duì)應(yīng)層級(jí)的作弊用戶,還可對(duì) 作弊用戶點(diǎn)擊廣告的點(diǎn)擊量進(jìn)行過濾處理,W確保統(tǒng)計(jì)到的用戶側(cè)的廣告點(diǎn)擊量的準(zhǔn)確 性。
[0057] 需要指出的是,圖1-1和圖1-2示出的廣告反作弊處理裝置可選的架構(gòu)僅僅是示意 性的,實(shí)際應(yīng)用中可W根據(jù)圖1-1和圖1-2示出的廣告反作弊處理裝置進(jìn)行輕易變換而W不 同的方式實(shí)施。
[0058] 下面結(jié)合圖1-1對(duì)廣告反作弊系統(tǒng)針對(duì)低層級(jí)作弊用戶、中層級(jí)作弊用戶和高層 級(jí)作弊用戶的識(shí)別進(jìn)行說明,對(duì)于基于圖1-2示出的廣告反作弊裝置對(duì)廣告反作弊系統(tǒng)針 對(duì)低層級(jí)作弊用戶、中層級(jí)作弊用戶和高層級(jí)作弊用戶的識(shí)別,可W參照W下的記載而實(shí) 施。
[0059] 一、識(shí)別低層級(jí)作弊用戶
[0060] 在一些實(shí)施例中,參見圖2示出的廣告反作弊裝置識(shí)別低層級(jí)作弊用戶的一個(gè)可 選的實(shí)現(xiàn)示意圖,低層級(jí)的作弊用戶的識(shí)別采用線上實(shí)時(shí)判罰W及線下延遲重判的處理方 式。示例性地,線上實(shí)施判罰的處理方式包括黑名單策略和統(tǒng)計(jì)型策略,線下延遲重判的處 理方式包括統(tǒng)計(jì)型策略,W下分別進(jìn)行說明。
[0061] 1)線上實(shí)時(shí)判罰
[0062] 1.1)黑名單策略
[0063] 作為線上實(shí)時(shí)判罰的一個(gè)示例,廣告反作弊系統(tǒng)預(yù)先維護(hù)了包括有低層級(jí)作弊用 戶的黑名單,其中包括有低層級(jí)作弊用戶的標(biāo)識(shí)。廣告反作弊系統(tǒng)從廣告系統(tǒng)實(shí)施獲取的 點(diǎn)擊日志提取出當(dāng)前正在點(diǎn)擊廣告的用戶的標(biāo)識(shí),與黑名單中低層級(jí)作弊用戶的標(biāo)識(shí)匹 配,一旦匹配成功,則確定當(dāng)前點(diǎn)擊廣告的用戶為低層級(jí)作弊用戶。
[0064] 示例性地,低層級(jí)作弊用戶的標(biāo)識(shí)采用唯一區(qū)分用戶的信息,如用戶的手機(jī)號(hào)碼、 社交平臺(tái)賬號(hào)(如微信賬號(hào)、QQ賬號(hào))等,當(dāng)然低層級(jí)作弊用戶的標(biāo)識(shí)的類型不限于此,還可 W采用網(wǎng)際協(xié)議(IP)地址、介質(zhì)接入(MAC)地址等任意類型的標(biāo)識(shí)??蛇x地,為了保證識(shí)別 低層級(jí)作弊用戶的準(zhǔn)確性,可W將上述的標(biāo)識(shí)的兩種或多種結(jié)合使用來標(biāo)定低層級(jí)作弊用 戶。
[00化]1.2)統(tǒng)計(jì)型策略
[0066] 作為線上實(shí)時(shí)判罰的另一個(gè)示例,廣告反作弊系統(tǒng)統(tǒng)計(jì)從廣告系統(tǒng)獲取的點(diǎn)擊日 志統(tǒng)計(jì)出用戶在統(tǒng)計(jì)時(shí)段(如5分鐘、1小時(shí),實(shí)際應(yīng)用中根據(jù)情況設(shè)定)中點(diǎn)擊廣告的次數(shù), 當(dāng)點(diǎn)擊廣告的次數(shù)超出點(diǎn)擊量闊值時(shí),將用戶識(shí)別為低層級(jí)作弊用戶。廣告反作弊系統(tǒng)利 用對(duì)低層級(jí)的作弊用戶的點(diǎn)擊量進(jìn)行過濾(判罰)并反饋至廣告系統(tǒng),避免廣告系統(tǒng)利用點(diǎn) 擊量因低層級(jí)作弊用戶的點(diǎn)擊量造成的不精確的問題。
[0067] 作為對(duì)低層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行過濾的一個(gè)示例,對(duì)超過點(diǎn)擊量闊值后的點(diǎn) 擊量按照預(yù)定比例過濾,超出點(diǎn)擊量闊值的點(diǎn)擊量越多,則過濾比例越大。
[0068] 例如,設(shè)用戶的點(diǎn)擊量為a,點(diǎn)擊量闊值為b,當(dāng)a大于b時(shí),對(duì)超出點(diǎn)擊量闊值的點(diǎn) 擊量(a-b)按照(a-b)取值空間與過濾比例的對(duì)應(yīng)關(guān)系選擇相應(yīng)的過濾比例進(jìn)行過濾,(a- b)取值空間與過濾比例的對(duì)應(yīng)關(guān)系的一個(gè)示例如表1所示, 「HHAOl LUU/UJ 衣 i
[0071] 從表1中可W看出,超出點(diǎn)擊量闊值的點(diǎn)擊量越多,則相應(yīng)的過濾比例越大,從而 最大程度減少廣告的點(diǎn)擊量由低層級(jí)作弊用戶產(chǎn)生的點(diǎn)擊量。
[0072] 2)線下延遲重判
[0073] 在一些實(shí)施例中,為了進(jìn)一步減小廣告的點(diǎn)擊量中由低層級(jí)作弊用戶產(chǎn)生的點(diǎn)擊 量,廣告反作弊系統(tǒng)還采用延遲重判的方式。
[0074] 示例性地,廣告反作弊系統(tǒng)統(tǒng)計(jì)出從廣告系統(tǒng)獲取的點(diǎn)擊日志統(tǒng)計(jì)出用戶在統(tǒng)計(jì) 時(shí)段(設(shè)定的間隔時(shí)間如5分鐘、1小時(shí),實(shí)際應(yīng)用中根據(jù)情況設(shè)定)中點(diǎn)擊廣告的次數(shù),當(dāng)點(diǎn) 擊廣告的次數(shù)超出點(diǎn)擊量闊值時(shí),將用戶識(shí)別為低層級(jí)作弊用戶。對(duì)低層級(jí)的作弊用戶的 點(diǎn)擊量中未超出點(diǎn)擊量闊值的點(diǎn)擊量按照預(yù)定比例進(jìn)行過濾,或者全部過濾也就是將低層 級(jí)作弊用戶的點(diǎn)擊量清零。
[0075] 另外,線下延遲重判方式中使用的預(yù)定比例可W是一個(gè)固定不變的比例,或者,根 據(jù)用戶在統(tǒng)計(jì)時(shí)段的點(diǎn)擊量動(dòng)態(tài)確定(如成正比),利用根據(jù)用戶在統(tǒng)計(jì)時(shí)段的點(diǎn)擊量與預(yù) 定比例正相關(guān)(例如正比例)的關(guān)系動(dòng)態(tài)確定針對(duì)每個(gè)低層級(jí)作弊用戶的預(yù)定比例,也就是 用戶在統(tǒng)計(jì)時(shí)段的點(diǎn)擊量越大,則對(duì)用戶的點(diǎn)擊量中未超出點(diǎn)擊量闊值部分進(jìn)行過濾的預(yù) 定比例越大。
[0076] 假設(shè)是1小時(shí)內(nèi)的點(diǎn)擊超過20次后的點(diǎn)擊量開始過濾,延遲重判是對(duì)前20次沒有 超過闊值的點(diǎn)擊量過濾,并不會(huì)再處理超過點(diǎn)擊量闊值的部分點(diǎn)擊量。同時(shí),對(duì)前20次沒有 超過點(diǎn)擊量闊值(20)的點(diǎn)擊量過濾的比例基于用戶在運(yùn)1小時(shí)的點(diǎn)擊量確定。假設(shè)用戶A在 1小時(shí)內(nèi)點(diǎn)擊了21次,那么對(duì)前20次的過濾的比例,低于用戶B在1小時(shí)內(nèi)點(diǎn)擊了 100次時(shí)對(duì) 用戶B的前20次點(diǎn)擊的過濾比例。
[0077] 例如,設(shè)用戶的點(diǎn)擊量為a,點(diǎn)擊量闊值為b,當(dāng)a大于b時(shí),對(duì)點(diǎn)擊量a未超出點(diǎn)擊量 闊值的點(diǎn)擊量也就是點(diǎn)擊量b按照預(yù)定比例(如70%)進(jìn)行過濾處理,則用戶的點(diǎn)擊量為b* (1 -70 % ),或者將點(diǎn)擊量b全部過濾,則用戶的點(diǎn)擊量未超出點(diǎn)擊量闊值的點(diǎn)擊量b被清零。
[0078] 結(jié)合圖2示出的針對(duì)低層級(jí)作弊用戶的實(shí)時(shí)判罰和延遲重判,對(duì)于低層級(jí)作弊用 戶的點(diǎn)擊量中超出點(diǎn)擊量闊值的點(diǎn)擊量進(jìn)行實(shí)施判罰(按照比例過濾),對(duì)于低層級(jí)作弊用 戶的點(diǎn)擊量中未超出點(diǎn)擊量闊值的部分進(jìn)行線下的延遲重判(按照如的固定預(yù)定比例或動(dòng) 態(tài)調(diào)整的預(yù)定比例進(jìn)行過濾),能夠最大程度減少廣告的點(diǎn)擊量中低層級(jí)作弊用戶的點(diǎn)擊 量,確保廣告系統(tǒng)最終統(tǒng)計(jì)到的廣告點(diǎn)擊量的準(zhǔn)確性和可靠性,也保證針對(duì)廣告主的投放 廣告生成準(zhǔn)確地計(jì)費(fèi)數(shù)據(jù)。
[0079] 二、識(shí)別中層級(jí)作弊用戶
[0080] 參見圖3-1示出的本發(fā)明實(shí)施例中識(shí)別低層級(jí)作弊用戶的一個(gè)可選的流程示意 圖,包括步驟101至步驟106,W下對(duì)各步驟進(jìn)行說明。
[0081] 本發(fā)明實(shí)施例中廣告反作弊系統(tǒng)使用中層級(jí)作弊用戶識(shí)別模型從用戶中識(shí)別出 中層級(jí)作弊用戶,為此,廣告反作弊系統(tǒng)需要形成可用的樣本對(duì)中層級(jí)作弊用戶識(shí)別模型 進(jìn)行訓(xùn)練,W使中層級(jí)作弊用戶識(shí)別模型的識(shí)別精度達(dá)到可用的預(yù)設(shè)精度。
[0082] 在一些實(shí)施例中,廣告反作弊系統(tǒng)從廣告任務(wù)平臺(tái)獲取樣本集合(步驟101)用W 形成對(duì)中層級(jí)作弊用戶識(shí)別模型進(jìn)行訓(xùn)練的樣本。樣本集合包括與中層級(jí)作弊用戶對(duì)應(yīng)的 樣本,樣本中的一個(gè)可選的數(shù)據(jù)結(jié)構(gòu)如表2所示:
[0
1234 表 2 2 參見表2,樣本集合中的樣本包括至少一個(gè)中層級(jí)作弊用戶W及中層級(jí)作弊用戶 在統(tǒng)計(jì)時(shí)段(如一周)的點(diǎn)擊日志,示例性地,點(diǎn)擊日志包括中層級(jí)作弊用戶點(diǎn)擊廣告的操 作數(shù)據(jù),如每次點(diǎn)擊廣告的ID、點(diǎn)擊的時(shí)間等。 3 實(shí)際應(yīng)用中,由于廣告任務(wù)平臺(tái)的用戶與中層級(jí)作弊用戶的點(diǎn)擊行為最接近,因 此可W將廣告任務(wù)平臺(tái)中完成廣告任務(wù)的平臺(tái)用戶視為中層級(jí)作弊用戶,相應(yīng)地,從廣告 任務(wù)平臺(tái)獲取廣告任務(wù)平臺(tái)用戶完成廣告任務(wù)時(shí)所對(duì)應(yīng)的點(diǎn)擊日志形成樣本集合。 4 繼續(xù)對(duì)廣告反作弊系統(tǒng)獲取樣本集合的處理進(jìn)行說明,前述的與中層級(jí)作弊用戶 對(duì)應(yīng)的樣本用于供廣告反作弊系統(tǒng)形成對(duì)中層級(jí)作弊用戶識(shí)別模型進(jìn)行訓(xùn)練的正樣本,為 了進(jìn)一步提升中層級(jí)作弊用戶識(shí)別模型識(shí)別中層級(jí)作弊用戶的精度,在另一些實(shí)施例中, 廣告反作弊系統(tǒng)獲取的樣本集合中還包括與非作弊用戶對(duì)應(yīng)的樣本,用于供廣告反作弊系 統(tǒng)形成用W訓(xùn)練中層級(jí)作弊用戶識(shí)別模型的負(fù)樣本,示例性地,非作弊用戶對(duì)應(yīng)的樣本包 括:正常應(yīng)用(也就是已知未存在作弊用戶的應(yīng)用)的用戶也即非作弊用戶、W及用戶在使 用正常應(yīng)用的過程中在應(yīng)用的廣告位中點(diǎn)擊廣告所對(duì)應(yīng)的點(diǎn)擊日志,與非作弊用戶對(duì)應(yīng)的 樣本的一個(gè)可選的數(shù)據(jù)結(jié)構(gòu)如表3所示:
[0089]
[0090] 表 3
[0091] 表3示出了非作弊用戶對(duì)應(yīng)的樣本的一個(gè)可選的數(shù)據(jù)結(jié)構(gòu),在表3中,W應(yīng)用3為正 常應(yīng)用為例,用戶3和用戶4均在各自的終端中安裝了應(yīng)用1,并且都在應(yīng)用1的廣告位中點(diǎn) 擊過廣告,相應(yīng)地,廣告反作弊系統(tǒng)基于從廣告系統(tǒng)獲取的點(diǎn)擊日志形成對(duì)應(yīng)應(yīng)用1中各非 作弊用戶(用戶3和用戶4)的樣本。
[0092] 接續(xù)對(duì)前述步驟進(jìn)行說明,在廣告反作弊系統(tǒng)獲取到樣本集合后,解析樣本集合 中的點(diǎn)擊日志對(duì)應(yīng)用戶點(diǎn)擊廣告的操作數(shù)據(jù),從操作數(shù)據(jù)中提取得到與用戶點(diǎn)擊廣告的操 作相關(guān)聯(lián)的特征(步驟102)。
[0093] 如前,在一些實(shí)施例中,當(dāng)樣本集合中僅包括與中層級(jí)作弊用戶對(duì)應(yīng)的樣本時(shí),貝U 廣告反作弊系統(tǒng)解析與中層級(jí)作弊用戶對(duì)應(yīng)樣本中的點(diǎn)擊日志,W確定與中層級(jí)作弊用戶 點(diǎn)擊廣告的操作關(guān)聯(lián)的特征。在另一些實(shí)施例中,當(dāng)樣本集合中還包括與非作弊用戶對(duì)應(yīng) 的樣本時(shí),則廣告反作弊系統(tǒng)還解析與非作弊用戶對(duì)應(yīng)樣本中的點(diǎn)擊日志,W確定與非作 弊用戶點(diǎn)擊廣告的操作關(guān)聯(lián)的特征。
[0094] 在一些實(shí)施例中,與用戶(中層級(jí)作弊用戶或非作弊用戶)點(diǎn)擊廣告的操作相關(guān)聯(lián) 的特征包括W下至少一個(gè)維度的特征:
[0095] 1)用戶在統(tǒng)計(jì)時(shí)段內(nèi)的點(diǎn)擊量。
[0096] 示例性地,用戶在統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊廣告的點(diǎn)擊量,為用戶在統(tǒng)計(jì)時(shí)段內(nèi)在任意廣 告位,如頁面的廣告、應(yīng)用中廣告位點(diǎn)擊廣告的次數(shù)的總量。
[0097] 例如,用戶在統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊了廣告1、廣告2和廣告3共3個(gè)廣告,相應(yīng)的點(diǎn)擊次數(shù) 為1次、2次和3次,則用戶在統(tǒng)計(jì)時(shí)段的點(diǎn)擊量為6(1+化3)。
[0098] 或者,用戶在統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊廣告的點(diǎn)擊量為用戶在統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊同一廣告的 次數(shù)的總量,用戶在統(tǒng)計(jì)時(shí)段的第一個(gè)時(shí)間周期點(diǎn)擊了廣告1、廣告2和廣告3共3個(gè)廣告,相 應(yīng)的點(diǎn)擊次數(shù)為1次、2次和3次,用戶在統(tǒng)計(jì)時(shí)段的第二個(gè)時(shí)間周期點(diǎn)擊了廣告1、廣告2和 廣告3共3個(gè)廣告,相應(yīng)的點(diǎn)擊次數(shù)為1次、2次和3次,則用戶在統(tǒng)計(jì)時(shí)段對(duì)應(yīng)廣告1、廣告2和 廣告 3 的點(diǎn)擊量為 2(1+1)、4(2+2)、6(3+3)。
[0099] 2)用戶在統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊過廣告的時(shí)間周期的數(shù)量。
[0100] 示例性地,用戶點(diǎn)擊廣告的時(shí)間周期的數(shù)量為用戶點(diǎn)擊廣告時(shí)所處的時(shí)間周期的 數(shù)量。
[0101] W統(tǒng)計(jì)時(shí)段為1天,時(shí)間周期為小時(shí)為例,假設(shè)用戶在1天第1/2/4/5小時(shí)均點(diǎn)擊的 廣告,則用戶在該統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊過廣告的時(shí)間周期的數(shù)量為4。
[0102] 3)用戶在統(tǒng)計(jì)時(shí)段中點(diǎn)擊廣告的間隔時(shí)間的平均值。
[0103] W用戶在統(tǒng)計(jì)時(shí)段的T'l/T2/T3時(shí)刻點(diǎn)擊了廣告為例,對(duì)應(yīng)的平均值為(T2-T1V2 +(T3-T2)/2〇
[0104] 4)用戶統(tǒng)計(jì)時(shí)段內(nèi)識(shí)別的作弊用戶的歷史比例。
[0105] 在當(dāng)前統(tǒng)計(jì)時(shí)段的任一統(tǒng)計(jì)時(shí)段中,識(shí)別出的中層級(jí)作弊用戶的數(shù)量與點(diǎn)擊廣告 的用戶(包括中層級(jí)作弊用戶和非作弊用戶)的歷史比例,當(dāng)然,歷史比例也可W為當(dāng)前統(tǒng) 計(jì)時(shí)段的多個(gè)統(tǒng)計(jì)時(shí)段的比例的平均值。
[0106] 5)用戶在統(tǒng)計(jì)時(shí)段內(nèi)所點(diǎn)擊過廣告的時(shí)間周期中點(diǎn)擊廣告的平均點(diǎn)擊量。
[0107] 仍W統(tǒng)計(jì)時(shí)段為1天,時(shí)間周期為小時(shí)為例,假設(shè)用戶在1天第1/2/4/5小時(shí)均點(diǎn)擊 的廣告,則用戶在該統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊過廣告的時(shí)間周期的數(shù)量為4,統(tǒng)計(jì)時(shí)段的點(diǎn)擊量為12 (1+2+4+5),在4個(gè)時(shí)間周期點(diǎn)擊廣告的平均點(diǎn)擊量為3(12/4)。
[0108] 需要指出的是,在本發(fā)明實(shí)施例中使用的與用戶點(diǎn)擊廣告的操作相關(guān)聯(lián)的特征不 僅限于W上所示,本領(lǐng)域的技術(shù)人員可W輕易對(duì)上述與用戶點(diǎn)擊廣告的操作相關(guān)聯(lián)的特征 進(jìn)行變形或延伸,從而實(shí)施出不同于上述與用戶點(diǎn)擊廣告的操作相關(guān)聯(lián)的特征。
[0109] 接續(xù)對(duì)前述步驟進(jìn)行說明,在廣告反作弊系統(tǒng)從與中層級(jí)作弊用戶對(duì)應(yīng)樣本中提 取出至少一個(gè)維度特征后,則可W形成用于訓(xùn)練中層級(jí)作弊用戶識(shí)別模型的正樣本,示例 性地,廣告反作弊系統(tǒng)將作弊用戶、作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志在至少一個(gè)維度的特征 標(biāo)記為正樣本(步驟103)。
[0110] 在一些實(shí)施例中,若廣告反作弊系統(tǒng)還從非作弊用戶對(duì)應(yīng)樣本中提取出至少一個(gè) 維度的特征,則廣告反作弊系統(tǒng)可W形成用于訓(xùn)練中層級(jí)作弊用戶識(shí)別模型的負(fù)樣本,示 例性地,參見圖3-2示出的本發(fā)明實(shí)施例中識(shí)別低層級(jí)作弊用戶的一個(gè)可選的流程示意圖, 廣告反作弊系統(tǒng)將非作弊用戶、非作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志在至少一個(gè)維度的特征標(biāo) 記為負(fù)樣本(步驟107)。
[0111] 接續(xù)對(duì)前述步驟進(jìn)行說明,當(dāng)廣告反作弊系統(tǒng)形成用于訓(xùn)練中層級(jí)作弊用戶識(shí)別 模型的正樣本后,將正樣本輸入中層級(jí)作弊用戶識(shí)別模型W對(duì)中層級(jí)作弊用戶識(shí)別模型的 模型參數(shù)進(jìn)行訓(xùn)練(步驟104)。在一些實(shí)施例中,若廣告反作弊系統(tǒng)還形成了用于訓(xùn)練中層 級(jí)作弊用戶識(shí)別模型的負(fù)樣本,則將負(fù)樣本連同正樣本共同輸入待訓(xùn)練的中層級(jí)作弊用戶 識(shí)別模型,W提升中層級(jí)作弊用戶識(shí)別模型的識(shí)別精度,縮短訓(xùn)練過程。
[0112] W下對(duì)利用樣本(正樣本和負(fù)樣本)對(duì)中層級(jí)作弊用戶識(shí)別模型的訓(xùn)練進(jìn)行說明, 中層級(jí)作弊用戶識(shí)別模型可W視為由一系列函數(shù)形成的從所提取的至少一個(gè)維度的特征 到用戶的識(shí)別結(jié)果(是否為中層級(jí)作弊用戶)的映射,一個(gè)可選的示例為:
[0113] 識(shí)別結(jié)果=f (a*特征i+b*特征2);
[0114]其中,特征1和特征2為用于訓(xùn)練的樣本(正樣本和負(fù)樣本之一)的特征,模型參數(shù) a、b用于控制特征I、特征2的權(quán)重,中層級(jí)作弊用戶識(shí)別模型的訓(xùn)練過程就是不斷優(yōu)化調(diào)整 模型參數(shù)a/b的過程,實(shí)際應(yīng)用中模型參數(shù)的數(shù)量可W為兩個(gè)或多個(gè),且使用的特征的數(shù)量 也不存在限制。
[0115] 那么,在一個(gè)實(shí)施例中,為了驗(yàn)證中層級(jí)作弊用戶識(shí)別模型的識(shí)別精度是否達(dá)到 實(shí)用需求,廣告反作弊系統(tǒng)可W利用先驗(yàn)的數(shù)據(jù)庫(其中包括作弊用戶、非作弊用戶、W及 點(diǎn)擊日志的特征)測(cè)試中層級(jí)作弊用戶識(shí)別模型的識(shí)別作弊用戶的精度(也即是正確率), 識(shí)別精度未達(dá)到預(yù)設(shè)精度時(shí),利用對(duì)模型參數(shù)進(jìn)行調(diào)整處理,直至中層級(jí)作弊用戶識(shí)別模 型的精度達(dá)到預(yù)設(shè)精度。
[0116] 接續(xù)對(duì)前述的步驟進(jìn)行說明,在廣告反作弊系統(tǒng)訓(xùn)練中層級(jí)作弊用戶識(shí)別模型之 后,則可W利用訓(xùn)練后的中層級(jí)作弊用戶識(shí)別模型識(shí)別中層級(jí)作弊用戶。廣告反作弊系統(tǒng) 從廣告系統(tǒng)獲取待識(shí)別的樣本(步驟105),待識(shí)別的樣本數(shù)據(jù)結(jié)構(gòu)可W參照前述表2和表3, 包括待識(shí)別用戶W及待識(shí)別用戶的點(diǎn)擊日志,廣告反作弊系統(tǒng)從待識(shí)別樣本中提取對(duì)應(yīng)前 述至少一個(gè)維度的特征,輸入訓(xùn)練后的作弊用戶識(shí)別模型,基于中層級(jí)作弊用戶識(shí)別模型 輸出的識(shí)別結(jié)果(是否為中層級(jí)作弊用戶)確定待識(shí)別的樣本中的中層級(jí)作弊用戶(步驟 106)。
[0117] 在一些實(shí)施例中,參見圖3-2,當(dāng)廣告反作弊系統(tǒng)從待識(shí)別樣本中識(shí)別出中層級(jí)作 弊用戶后,還對(duì)中層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行過濾(步驟108),并將過濾后的中層級(jí)作弊用 戶的點(diǎn)擊量更新至廣告系統(tǒng)(步驟109),使廣告系統(tǒng)的計(jì)費(fèi)端利用更新后的廣告的點(diǎn)擊量 結(jié)合計(jì)費(fèi)策略進(jìn)行廣告投放的計(jì)費(fèi),由于在廣告的點(diǎn)擊量已經(jīng)對(duì)中層級(jí)作弊用戶的點(diǎn)擊量 進(jìn)行了過濾,確保了廣告的點(diǎn)擊量是由用戶的常規(guī)點(diǎn)擊操作形成的,保證廣告點(diǎn)擊量的準(zhǔn) 確性和真實(shí)性,避免了對(duì)廣告主的廣告計(jì)費(fèi)不準(zhǔn)確的問題。
[0118] 示例性地,廣告反作弊系統(tǒng)對(duì)中層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行過濾時(shí)有多種方式, W下結(jié)合不同過濾方式進(jìn)行說明。
[0119] 過濾方式1)按照預(yù)定比例對(duì)中層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行過濾,W中層級(jí)作弊用 戶的點(diǎn)擊量為a,預(yù)定比例為70%為例,則過濾后中層級(jí)作弊用戶的點(diǎn)擊量被更新為a* 30%,特別地,當(dāng)預(yù)定比例為100%時(shí),中層級(jí)作弊用戶的點(diǎn)擊量被清零。
[0120] 過濾方式2)將中層級(jí)作弊用戶的點(diǎn)擊量中未超出點(diǎn)擊量闊值的點(diǎn)擊量按照比例 進(jìn)行過濾,或者全部過濾也就是將中層級(jí)作弊用戶的點(diǎn)擊量清零;將中層級(jí)作弊用戶的點(diǎn) 擊量中超過點(diǎn)擊量闊值后的點(diǎn)擊量按照預(yù)定比例過濾,超出點(diǎn)擊量闊值的點(diǎn)擊量越多,貝U 過濾比例越大。
[0121] 再結(jié)合圖4示出的訓(xùn)練中層級(jí)作弊用戶識(shí)別模型、W及利用中層級(jí)作弊用戶識(shí)別 模型識(shí)別中層級(jí)作弊用戶的一個(gè)可選的實(shí)現(xiàn)示意圖,包括模型訓(xùn)練和模型使用兩個(gè)階段, 下面分別進(jìn)行說明。
[0122] 1)模型訓(xùn)練
[0123] 訓(xùn)練的正樣本來源于廣告任務(wù)平臺(tái)的點(diǎn)擊日志,訓(xùn)練的負(fù)樣本來源于正常功能 APP(已知未存在作弊用戶的APP)的點(diǎn)擊日志,
[0124] 中層級(jí)作弊用戶長期分散的、有間歇的點(diǎn)擊廣告。
[0125] 針對(duì)運(yùn)一特性,基于正樣本和負(fù)樣本提取了 6個(gè)特征:一周的點(diǎn)擊量、一周點(diǎn)擊過 廣告的天數(shù)、一周點(diǎn)擊過廣告的小時(shí)數(shù)、一周平均的相鄰點(diǎn)擊時(shí)間差、一周線上識(shí)別的作弊 比例、一周的點(diǎn)擊量與一周點(diǎn)擊過廣告的小時(shí)數(shù)的比例?;谶\(yùn)6個(gè)特征,訓(xùn)練邏輯斯蒂回 歸化Ogistic Regression)模型來判斷用戶是否是中層級(jí)作弊用戶。
[0126] 2)模型使用
[0127] 訓(xùn)練得到邏輯斯蒂回歸模型的模型參數(shù)之后,基于從廣告系統(tǒng)獲取的待識(shí)別用戶 的一周內(nèi)點(diǎn)擊廣告的點(diǎn)擊日志,提取待識(shí)別用戶的一周內(nèi)點(diǎn)擊廣告的點(diǎn)擊日志的特征,并 選取出如上的6個(gè)特征輸入邏輯斯蒂回歸模型,邏輯斯蒂回歸化Ogistic Regression)模型 輸出待識(shí)別用戶是中層級(jí)作弊用戶還是正常用戶(非作弊用戶)的作弊識(shí)別結(jié)果。
[01%] S、識(shí)別高層級(jí)作弊用戶
[0129] 發(fā)明人在實(shí)施本發(fā)明實(shí)施例的過程中發(fā)現(xiàn),高層級(jí)作弊用戶使用(如開發(fā))特定的 應(yīng)用來產(chǎn)生虛假的流量,該特定應(yīng)用本身并不具有為用戶提供服務(wù)(如媒體服務(wù)、社交服 務(wù))的功能,僅僅是利用自身封裝的程序模擬不同的用戶來點(diǎn)擊特定流量方的廣告位中的 廣告,W產(chǎn)生虛假的流量,也就是說該特定應(yīng)用是專用于產(chǎn)生虛假流量的應(yīng)用,其中的用戶 全部是高層級(jí)作弊用戶。一旦能夠識(shí)別出一個(gè)應(yīng)用是高層級(jí)作弊用戶所使用的特定應(yīng)用, 則可將該特定應(yīng)用中的全部用戶都識(shí)別為高層級(jí)作弊用戶。
[0130] 另外,發(fā)明人在實(shí)施本發(fā)明實(shí)施例的過程中發(fā)現(xiàn),高層級(jí)作弊用戶在使用特定應(yīng) 用進(jìn)行廣告作弊的過程中,所模擬的點(diǎn)擊廣告的用戶在很多維度的特征非常接近,也就是 相關(guān)度很高,而正常用戶(非作弊用戶)在不同維度的特征則具有離散的特點(diǎn),也就是相關(guān) 度很低。
[0131] 基于此,本發(fā)明實(shí)施例中識(shí)別高層級(jí)作弊用戶時(shí)W應(yīng)用為單位,對(duì)應(yīng)用中的用戶 是否為高層級(jí)作弊用戶進(jìn)行整體的一次性識(shí)別:對(duì)待識(shí)別的應(yīng)用中的全部用戶在多個(gè)維度 的相似程度進(jìn)行判斷,一旦相似度較高則將該待識(shí)別的應(yīng)用識(shí)別為高層級(jí)作弊用戶所使用 的特定應(yīng)用,相應(yīng)地,將該識(shí)別樣本應(yīng)用中的全部用戶識(shí)別為高層級(jí)作弊用戶,下面結(jié)合流 程圖進(jìn)行說明。
[0132] 參見圖5示出的本發(fā)明實(shí)施例中識(shí)別高層級(jí)作弊用戶的一個(gè)可選的流程示意圖, W下對(duì)各步驟進(jìn)行說明。
[0133] 本發(fā)明實(shí)施例中廣告反作弊系統(tǒng)使用高層級(jí)作弊用戶識(shí)別模型識(shí)別高層級(jí)作弊 用戶,為此,廣告反作弊系統(tǒng)需要形成可用的樣本對(duì)高層級(jí)作弊用戶識(shí)別模型進(jìn)行訓(xùn)練,如 前,對(duì)于高層級(jí)作弊用戶的識(shí)別是W應(yīng)用為單位(對(duì)一個(gè)應(yīng)用的用戶是否為高層級(jí)作弊用 戶進(jìn)行一次性識(shí)別),相應(yīng)地,廣告反作弊系統(tǒng)獲取W應(yīng)用為單位的樣本(簡稱為應(yīng)用樣本) 構(gòu)成的樣本集合(步驟201 ),樣本集合中的每個(gè)應(yīng)用樣本與一個(gè)應(yīng)用對(duì)應(yīng),并且,至少一個(gè) 應(yīng)用樣本與已知存在高作弊用戶的應(yīng)用對(duì)應(yīng),W供廣告反作弊系統(tǒng)用W形成對(duì)高層級(jí)作弊 用戶識(shí)別模型進(jìn)行訓(xùn)練的正樣本。另外,可選地,樣本集合中還可W包括未知是否存在高層 級(jí)作弊用的應(yīng)用對(duì)應(yīng)的應(yīng)用樣本,稱為無標(biāo)記的應(yīng)用樣本。
[0134] 在一些實(shí)施例中,應(yīng)用樣本中包括與應(yīng)用對(duì)應(yīng)的各種信息,應(yīng)用樣本的一個(gè)可選 的數(shù)據(jù)結(jié)構(gòu)如表4所示:
[0135]
[0136] 表4
[0137] 如表4所示,示例性地,每個(gè)應(yīng)用樣本與一個(gè)應(yīng)用對(duì)應(yīng),包括所對(duì)應(yīng)應(yīng)用的W下信 息至少之一:
[0138] 1)應(yīng)用的每個(gè)用戶在應(yīng)用中點(diǎn)擊廣告的點(diǎn)擊日志。
[0139] 點(diǎn)擊日志從不同的記錄應(yīng)用中的每個(gè)用戶點(diǎn)擊廣告的操作的相關(guān)信息。示例性 地,點(diǎn)擊日志包括W下信息:
[0140] 1.1)用戶在統(tǒng)計(jì)時(shí)段在應(yīng)用的廣告位中點(diǎn)擊的廣告。
[0141] 用戶點(diǎn)擊的廣告W廣告系統(tǒng)側(cè)為廣告分配的序列號(hào)(ID)來區(qū)分,或者,W廣告系 統(tǒng)側(cè)的為廣告分配的類別標(biāo)簽來區(qū)分。
[0142] 示例性地,用戶在統(tǒng)計(jì)時(shí)間段點(diǎn)擊的廣告,可W為用戶在應(yīng)用的所有廣告位中的 點(diǎn)擊的廣告的記錄,如采用廣告1、廣告2、廣告3運(yùn)樣的形式記錄。
[0143] 又或者,用戶在統(tǒng)計(jì)時(shí)間段點(diǎn)擊的廣告為用戶在應(yīng)用的不同廣告位中點(diǎn)擊的廣告 的記錄,如采用運(yùn)樣的方式來記錄:廣告位1-廣告1-廣告2、廣告2-廣告3-廣告4。
[0144] 1.2)用戶在統(tǒng)計(jì)時(shí)段內(nèi)在應(yīng)用的廣告位所點(diǎn)擊廣告的點(diǎn)擊量。
[0145] 示例性地,用戶在統(tǒng)計(jì)時(shí)段內(nèi)在應(yīng)用的廣告位中點(diǎn)擊廣告的點(diǎn)擊量,為用戶在統(tǒng) 計(jì)時(shí)段內(nèi)在應(yīng)用的廣告位點(diǎn)擊廣告的次數(shù)的總量。
[0146] 例如,用戶在統(tǒng)計(jì)時(shí)段(如一周)在應(yīng)用的廣告位內(nèi)點(diǎn)擊了廣告1、廣告2和廣告3共 3個(gè)廣告,相應(yīng)的點(diǎn)擊次數(shù)為2次、3次和4次,則在統(tǒng)計(jì)時(shí)段的點(diǎn)擊量為9(2+3+5)。
[0147] 示例性地,用戶在統(tǒng)計(jì)時(shí)段內(nèi)在應(yīng)用的廣告位點(diǎn)擊廣告的點(diǎn)擊量,還可W是用戶 在統(tǒng)計(jì)時(shí)段內(nèi)在應(yīng)用的廣告位點(diǎn)擊同一廣告的次數(shù)的總量,又或者,為用戶在統(tǒng)計(jì)時(shí)段(如 一周)的各個(gè)時(shí)間周期(小于統(tǒng)計(jì)時(shí)段,如一天或一小時(shí))內(nèi)在應(yīng)用的廣告位點(diǎn)擊同一廣告 的次數(shù)的總量。
[0148] 例如,用戶在統(tǒng)計(jì)時(shí)段的第一個(gè)時(shí)間周期在應(yīng)用的廣告位點(diǎn)擊了廣告1、廣告2和 廣告3共3個(gè)廣告,相應(yīng)的點(diǎn)擊次數(shù)為2次、3次和4次,用戶在統(tǒng)計(jì)時(shí)段的第二個(gè)時(shí)間周期在 應(yīng)用的廣告位點(diǎn)擊了廣告1、廣告2和廣告3共3個(gè)廣告,相應(yīng)的點(diǎn)擊次數(shù)為2次、3次和4次,貝U 用戶在統(tǒng)計(jì)時(shí)段對(duì)應(yīng)廣告1、廣告2和廣告3的點(diǎn)擊量為4(化2)、6(3+3)、8(4+4)。
[0149] 1.3)用戶在統(tǒng)計(jì)時(shí)段內(nèi)在應(yīng)用中的廣告位點(diǎn)擊廣告的時(shí)間。
[0150] 示例性地,用戶在統(tǒng)計(jì)時(shí)段內(nèi)在應(yīng)用中的廣告位點(diǎn)擊廣告的時(shí)間,為用戶在統(tǒng)計(jì) 時(shí)段內(nèi)在應(yīng)用的廣告位點(diǎn)擊廣告的總的時(shí)長。
[0151] 例如,假設(shè)應(yīng)用中具有廣告位1和廣告位2兩個(gè)廣告位,在統(tǒng)計(jì)時(shí)段內(nèi),用戶在廣告 位1中點(diǎn)擊廣告的時(shí)長為T1,用戶在廣告位2中點(diǎn)擊廣告的時(shí)長為T2,則用戶在統(tǒng)計(jì)時(shí)段內(nèi) 在應(yīng)用的廣告位點(diǎn)擊廣告的總的時(shí)長為Tl巧2。
[0152] 或者,用戶在統(tǒng)計(jì)時(shí)段內(nèi)在應(yīng)用中的廣告位點(diǎn)擊廣告的時(shí)間,也可W為用戶在每 個(gè)廣告位點(diǎn)擊廣告的時(shí)長,如前述的用戶在廣告位1點(diǎn)擊廣告的時(shí)長Tl, W及用戶在廣告位 2點(diǎn)擊廣告的時(shí)長T2。
[0153] 1.4)用戶在統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊廣告的廣告位的類型。
[0154] W應(yīng)用中的廣告位為例,廣告位的類型包括:
[0155] 開屏廣告位,在應(yīng)用開啟畫面后在應(yīng)用的內(nèi)容加載前,應(yīng)用的界面中用戶顯示廣 告的位置。
[0156] 插屏廣告位,在應(yīng)用的內(nèi)容加載的過程在應(yīng)用的界面中插入廣告的位置。
[0157] Banner廣告位,應(yīng)用中用戶停留較久(停留時(shí)間超出停留時(shí)間闊值)的頁面,或應(yīng) 用中用戶訪問比較頻繁的頁面中用于呈現(xiàn)廣告的位置,如頁面的邊緣(頂部區(qū)域、底部區(qū)域 等)。
[0158] 2)應(yīng)用的每個(gè)用戶在應(yīng)用的廣告位中點(diǎn)擊廣告的曝光日志。
[0159] 曝光日志用W記錄應(yīng)用的每個(gè)用戶在應(yīng)用的廣告位點(diǎn)擊的廣告所曝光的對(duì)象,如 應(yīng)用的名稱、商品的名稱、頁面的地址等。
[0160] 3)應(yīng)用的每個(gè)用戶在應(yīng)用中點(diǎn)擊廣告的效果日志。
[0161] 如前,效果日志包括應(yīng)用中的每個(gè)用戶點(diǎn)擊廣告后針對(duì)廣告的曝光對(duì)象所達(dá)到的 廣告效果。
[0162] W廣告的曝光對(duì)象為應(yīng)用為例,廣告效果可W為W下之一:用戶開始下載應(yīng)用;應(yīng) 用下載完成;應(yīng)用在用戶的設(shè)備安裝;應(yīng)用在用戶的設(shè)備激活使用;用戶在用戶的設(shè)備中刪 除了應(yīng)用。
[0163] 再W廣告的曝光對(duì)象為在線銷售的商品為例,效果日志中記錄的針對(duì)廣告的廣告 效果可W為:用戶針對(duì)商品下訂單;用戶支付訂單;用戶撤銷訂單。
[0164] 4)應(yīng)用的每個(gè)用戶所使用的設(shè)備的信息。
[0165] 示例性地,設(shè)備的信息可W為設(shè)備的硬件信息如設(shè)備的型號(hào)、設(shè)備剩余空間、設(shè)備 的剩余電量等。
[0166] 當(dāng)然,設(shè)備的軟件信息可W為設(shè)備所使用的通信運(yùn)營商、設(shè)備使用的操作系統(tǒng)(類 型和型號(hào))和設(shè)備的聯(lián)網(wǎng)方式等信息。另外設(shè)備的信息還可W是設(shè)備的位置(如經(jīng)締度)等、 設(shè)備的移動(dòng)速度等信息。
[0167] 需要指出的是,在本發(fā)明實(shí)施例中使用的與應(yīng)用樣本所包括的信息不僅限于W上 所示,本領(lǐng)域的技術(shù)人員可W輕易對(duì)上述應(yīng)用樣本包括的信息進(jìn)行變形或延伸,從而實(shí)施 出不同于上述應(yīng)用樣本所包括的信息,運(yùn)里不再一一說明。
[0168] 接續(xù)對(duì)前述步驟進(jìn)行說明,在廣告反作弊系統(tǒng)獲取到樣本集合后,對(duì)于每個(gè)應(yīng)用 樣本,廣告反作弊系統(tǒng)解析出應(yīng)用樣本中任意兩個(gè)用戶在至少一個(gè)維度的特征的相關(guān)度 (步驟202),特征所采用的維度根據(jù)應(yīng)用樣本中所包括的信息的類型選取,W下對(duì)不同維度 的特征的相關(guān)度舉例說明。
[0169] 在一些實(shí)施例中,可W采用如下維度的特征的相關(guān)度:
[0170] 1)應(yīng)用中任意兩個(gè)用戶在應(yīng)用中點(diǎn)擊廣告的操作的特征的相關(guān)度。
[0171] 用戶在應(yīng)用的廣告位中點(diǎn)擊廣告的特征可W采用如用戶在應(yīng)用中點(diǎn)擊的位置(或 頻率)、下載廣告所曝光應(yīng)用的次數(shù)和訪問廣告所曝光網(wǎng)頁的次數(shù)等。
[0172] 2)應(yīng)用中任意兩個(gè)用戶在應(yīng)用樣本中點(diǎn)擊的廣告所曝光的對(duì)象的相關(guān)度。
[0173] 3)應(yīng)用中任意兩個(gè)用戶點(diǎn)擊廣告所使用的設(shè)備的信息的相關(guān)度。
[0174] 應(yīng)用的用戶所使用設(shè)備的相關(guān)度可W采用硬件信息、軟件信息,設(shè)備的位置、設(shè)備 的移動(dòng)速度等維度的相關(guān)度。
[0175] W硬件信息的相關(guān)度為例,可W采用用戶使用的設(shè)備在設(shè)備剩余空間、設(shè)備的剩 余電量等方面的差值的相關(guān)度。
[0176] 4)應(yīng)用中任意兩個(gè)用戶點(diǎn)擊所點(diǎn)擊廣告的廣告效果的相關(guān)度。
[0177] 對(duì)于樣本集合中的樣本應(yīng)用,若樣本應(yīng)用為已知存在高層級(jí)作弊用戶的應(yīng)用,那 么該應(yīng)用中任意兩個(gè)用戶在上述維度的相似度均為100%。若樣本應(yīng)用為未知是否存在高 層級(jí)作弊用戶的應(yīng)用,則該應(yīng)用任意兩個(gè)用戶在上述維度的相似度均為0%。
[017引例如,設(shè)已知一個(gè)存在高層級(jí)作弊用戶的APP,將APP內(nèi)的任意兩個(gè)用戶的組合、W 及運(yùn)兩個(gè)用戶的相似度作為正樣本,且運(yùn)個(gè)APP內(nèi)用戶兩兩之間的相似度總是100%。假設(shè) APP內(nèi)存在4個(gè)用戶A、B、C、D,則一共有6條正樣本,即為:(A,B:100% ;A,C: 100% ;A,D: 100% ;B,C:100% ;B,D:100% ;C,D:100%)0
[0179] 對(duì)于未知是否存在高層級(jí)作弊用戶的APP,把運(yùn)個(gè)APP內(nèi)的任意兩個(gè)用戶、W及運(yùn) 兩個(gè)用戶的相似度作為無標(biāo)記樣本,且運(yùn)個(gè)APP內(nèi)任意兩個(gè)用戶之間的相似度總是0%。假 設(shè)APP內(nèi)存在4個(gè)用戶A、B、C、D,則一共有6條正樣本,即為:(A,B:0%;A,C:0%;A,D:0%;B, C:0%;B,D:0%;C,D:0%)。
[0180] 接續(xù)對(duì)前述步驟進(jìn)行說明,對(duì)于每個(gè)樣本應(yīng)用,在廣告反作弊系統(tǒng)解析出任意樣 本應(yīng)用的任意兩個(gè)用戶在至少一個(gè)維度的特征的相關(guān)度之后,將已知包括有高層級(jí)作弊用 戶的應(yīng)用樣本、W及應(yīng)用樣本任意兩個(gè)用戶對(duì)應(yīng)至少一個(gè)維度的相關(guān)度標(biāo)記為正樣本(步 驟203),將正樣本輸入作弊用戶識(shí)別模型W對(duì)作弊用戶識(shí)別模型中的模型參數(shù)進(jìn)行訓(xùn)練 (步驟204)。
[0181] 在一個(gè)實(shí)施例中,廣告反作弊系統(tǒng)還利用樣本集合中未標(biāo)記應(yīng)用樣本中任意兩個(gè) 用戶、W及運(yùn)兩個(gè)用戶在上述維度的相似度(0%)形成對(duì)高層級(jí)作弊用戶識(shí)別模型進(jìn)行訓(xùn) 練的無標(biāo)記樣本,將無標(biāo)記樣本連同正樣本輸入高層級(jí)作弊用戶識(shí)別模型(步驟210),基于 高層級(jí)作弊用戶識(shí)別模型通過迭代的方式選取無標(biāo)記樣本標(biāo)記為正樣本W(wǎng)增加正樣本的 數(shù)量,當(dāng)樣本集合中的被標(biāo)記為正樣本的應(yīng)用樣本的數(shù)量穩(wěn)定(多次迭代后正樣本的數(shù)量 不再增加)后,將樣本集合中剩余的無標(biāo)記的應(yīng)用樣本標(biāo)記為負(fù)樣本,其中負(fù)樣本中任意兩 個(gè)用戶的相關(guān)度為0%。
[0182] 高層級(jí)作弊用戶識(shí)別模型可W視為由一系列函數(shù)形成,目的在于構(gòu)成從輸入應(yīng)用 樣本到應(yīng)用樣本的平均相關(guān)度的映射,一個(gè)可選的示例為:
[0183] 應(yīng)用樣本的平均相關(guān)度=f (C*特征3+b*特征4);
[0184] 其中,特征3和特征4為用于訓(xùn)練的樣本(正樣本和負(fù)樣本之一)的特征,模型參數(shù) a、b用于控制特征3、特征3的權(quán)重,高層級(jí)作弊用戶識(shí)別模型的訓(xùn)練過程就是不斷優(yōu)化調(diào)整 模型參數(shù)c/d,使輸出的平均相似度更加精確的過程,實(shí)際應(yīng)用中模型參數(shù)的數(shù)量可W為兩 個(gè)或多個(gè),且使用的特征的數(shù)量也不存在限制。
[0185] 接續(xù)對(duì)前述步驟進(jìn)行說明,在廣告反作弊系統(tǒng)對(duì)高層級(jí)作弊用戶識(shí)別模型訓(xùn)練完 成后,將待識(shí)別應(yīng)用上述至少一個(gè)維度的特征輸入高層級(jí)作弊用戶識(shí)別模型(步驟205),獲 取作弊用戶識(shí)別模型輸出的待識(shí)別應(yīng)用中的用戶與至少一個(gè)維度對(duì)應(yīng)的相關(guān)度,將任意兩 個(gè)用戶在至少一個(gè)維度的特征的相關(guān)度取平均值,得到應(yīng)用樣本與至少一個(gè)維度對(duì)應(yīng)的平 均相關(guān)度(步驟206)。
[0186] W應(yīng)用1的用戶包括用戶1、用戶2和用戶3為例,在設(shè)備信息相似度維度任意兩個(gè) 用戶的相似度設(shè)為sl、s2和S3,則應(yīng)用1在設(shè)備信息相似維度的平均相似度為(sl+s2+s3)/ 3。
[0187] 基于平均相關(guān)度進(jìn)行高層級(jí)作弊用戶的識(shí)別:(步驟207):將平均相關(guān)度與平均相 關(guān)度闊值進(jìn)行比較,若輸出的平均相關(guān)度高于平均相關(guān)度闊值,表明待識(shí)別應(yīng)用中用戶的 特征極其接近,將待識(shí)別應(yīng)用判定為高層級(jí)作弊用戶進(jìn)行廣告作弊所使用的應(yīng)用,待識(shí)別 應(yīng)用中的全部用戶均識(shí)別為高層級(jí)作弊用戶。從而,對(duì)待識(shí)別應(yīng)用的用戶是否為高層級(jí)作 弊用戶進(jìn)行一次性地高效判決。
[0188] 在一些實(shí)施例中,當(dāng)廣告反作弊系統(tǒng)從待識(shí)別樣本中識(shí)別出高層級(jí)作弊用戶后, 還對(duì)高層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行過濾(步驟208),并將過濾后的高層級(jí)作弊用戶的點(diǎn)擊 量更新至廣告系統(tǒng)(步驟209),使廣告系統(tǒng)的計(jì)費(fèi)端利用更新后的廣告的點(diǎn)擊量結(jié)合計(jì)費(fèi) 策略進(jìn)行廣告投放的計(jì)費(fèi),由于在廣告的點(diǎn)擊量已經(jīng)對(duì)高層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行了過 濾,確保了廣告的點(diǎn)擊量是由用戶的常規(guī)點(diǎn)擊操作形成的,從而確保了廣告點(diǎn)擊量的準(zhǔn)確 性和真實(shí)性,避免針對(duì)廣告主投放廣告的計(jì)費(fèi)數(shù)據(jù)的精確性因中層級(jí)用戶的產(chǎn)生的點(diǎn)擊量 而受到影響。
[0189] 示例性地,廣告反作弊系統(tǒng)對(duì)高層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行過濾時(shí)有多種方式, 例如,按照預(yù)定比例對(duì)高層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行過濾,W高層級(jí)作弊用戶的點(diǎn)擊量為 曰,預(yù)定比例為70%為例,則過濾后高層級(jí)作弊用戶的點(diǎn)擊量被更新為a*30%,特別地,當(dāng)預(yù) 定比例為100%時(shí),高層級(jí)作弊用戶的點(diǎn)擊量被清零。
[0190] 再結(jié)合圖6示出的訓(xùn)練高層級(jí)作弊用戶識(shí)別模型、W及利用高層級(jí)作弊用戶識(shí)別 模型識(shí)別高層級(jí)作弊用戶的一個(gè)可選的實(shí)現(xiàn)示意圖。
[0191] 高層級(jí)作弊用戶是偽造作弊APP并使用作弊APP進(jìn)行廣告作弊的用戶群體,通常在 高層級(jí)作弊用戶在作弊APP上具有集中性。常規(guī)的APP(如社交APP)不存在高層級(jí)作弊用戶, 而作弊APP中的用戶全都是高層級(jí)作弊用戶。由于單個(gè)作弊用戶的點(diǎn)擊次數(shù)不多,需要利用 作弊用戶群體的特征相關(guān)度來識(shí)別。對(duì)于存在高層級(jí)作弊用戶群體的APP,其最明顯的特征 是:該APP內(nèi)的用戶在設(shè)備信息W及曝光、點(diǎn)擊和效果方面的特征相似度非常高。針對(duì)運(yùn)一 特性,將待識(shí)別的APP內(nèi)用戶全部設(shè)備信息和所有曝光日志、點(diǎn)擊日志和效果日志綜合在一 起,提取不同維度的特征計(jì)算用戶之間的特征的相似度。然后,根據(jù)APP內(nèi)用戶的平均相似 度與預(yù)設(shè)的平均相似度闊值來判斷該APP內(nèi)是否存在高層級(jí)作弊用戶群體,預(yù)設(shè)的平均相 似度闊值可W從對(duì)常規(guī)APP的用戶之間的特征的相似度平均值。
[0192] 在計(jì)算任意兩個(gè)用戶之間的相似度時(shí),使用的特征如下:
[0193] 設(shè)備信息相關(guān)的特征:兩個(gè)用戶設(shè)備型號(hào)的相似度、設(shè)備剩余空間差值、經(jīng)締度相 似度、運(yùn)營商相似度、聯(lián)網(wǎng)方式相似度等特征;
[0194] 曝光、點(diǎn)擊和效果相關(guān)的特征:兩個(gè)用戶曝光APP的相似度、曝光次數(shù)的差值、點(diǎn)擊 APP的相似度、點(diǎn)擊次數(shù)的差值、點(diǎn)擊坐標(biāo)的相似度、下載APP的相似度、下載次數(shù)的差值等 特征。
[01巧]基于上述特征訓(xùn)練了一個(gè)梯度提升回歸樹(Gradient Boosting Regression Tree)模型來計(jì)算待識(shí)別應(yīng)用的用戶在至少一個(gè)維度的平均相似度。
[0196] 對(duì)梯度提升回歸樹模型來初始訓(xùn)練的正樣本來源于應(yīng)用樣本的樣本集合中已知 存在高層級(jí)作弊用戶的APP的數(shù)據(jù)飽括曝光日志、點(diǎn)擊日志、效果日志、用戶設(shè)備信息),初 始訓(xùn)練無標(biāo)記的樣本來源于應(yīng)用樣本的樣本集合中剩余的APP。通過正例和無標(biāo)記樣本學(xué) 習(xí)(Positive-Unlabeled Learning)的方法不斷迭代增加正樣本的數(shù)量,訓(xùn)練結(jié)果穩(wěn)定后, 也就是樣本集合中正樣本的數(shù)量穩(wěn)定后,樣本集合中剩余的無標(biāo)記樣本就作為負(fù)樣本。利 用正樣本和負(fù)樣本對(duì)梯度提升回歸樹模型進(jìn)行訓(xùn)練。
[0197] 訓(xùn)練得到的模型用于待識(shí)別應(yīng)用的用戶之間的相似度,根據(jù)待識(shí)別應(yīng)用內(nèi)用戶的 平均相似度來判斷該待識(shí)別應(yīng)用是否存在高層級(jí)作弊用戶群體。對(duì)待識(shí)別應(yīng)用的識(shí)別結(jié)果 可W更新至樣本集合不斷累積訓(xùn)練樣本,從而完成對(duì)梯度提升回歸樹模型的自動(dòng)修正。
[0198] 在一些實(shí)施例中,考慮到廣告反作弊裝置需要對(duì)不同層級(jí)的作弊用戶進(jìn)行權(quán)全面 地識(shí)別,相應(yīng)地,參見圖7示出的廣告反作弊系統(tǒng)進(jìn)行作弊用戶識(shí)別的一個(gè)可選的流程示意 圖,主要包括有兩個(gè)流程:
[0199] 1)線上實(shí)時(shí)判罰:黑名單策略過濾黑名單中用戶的點(diǎn)擊;
[0200] 預(yù)先維護(hù)包括有低層級(jí)作弊用戶的黑名單,其中包括有低層級(jí)的作弊用戶的標(biāo) 識(shí),從廣告系統(tǒng)實(shí)施獲取的點(diǎn)擊日志提取出當(dāng)前正在點(diǎn)擊廣告的用戶的標(biāo)識(shí),與黑名單中 低層級(jí)作弊用戶的標(biāo)識(shí)匹配,一旦匹配成功,則確定當(dāng)前點(diǎn)擊廣告的用戶為低層級(jí)作弊用 戶,并對(duì)低層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行過濾。
[0201] 2)線下延遲重判:
[0202] 2.1)如前第一部分章節(jié),廣告反作弊系統(tǒng)利用統(tǒng)計(jì)型策略對(duì)低層級(jí)作弊用戶的點(diǎn) 擊量中未超出點(diǎn)擊量闊值的部分進(jìn)行過濾。
[0203] 2.2)如前第二部分章節(jié),廣告反作弊系統(tǒng)利用低層級(jí)作弊用戶識(shí)別策略識(shí)別中層 級(jí)作弊用戶,并過濾中層級(jí)作弊用戶的點(diǎn)擊量。
[0204] 2.3)如前第S部分章節(jié),廣告反作弊系統(tǒng)利用高層級(jí)作弊用戶識(shí)別策略識(shí)別高層 級(jí)作弊用戶,并過濾高層級(jí)作弊用戶的點(diǎn)擊量。
[0205] 從圖7中可W看出,廣告反作弊系統(tǒng)根據(jù)作弊用戶不同的作弊手段和異常行為,將 作弊用戶分為低層級(jí)作弊用戶、中層級(jí)作弊用戶和高層級(jí)作弊用=個(gè)層級(jí),對(duì)于每種層級(jí) 的作弊用戶采用對(duì)應(yīng)的方式進(jìn)行識(shí)別,對(duì)作弊用戶進(jìn)行分層次地、全面性地識(shí)別,不存在遺 漏識(shí)別的問題。同時(shí),對(duì)于識(shí)別出的作弊用戶針對(duì)廣告的點(diǎn)擊量采用相應(yīng)的廣告進(jìn)行過濾, 確保了統(tǒng)計(jì)的廣告效果的真實(shí)可靠性。
[0206] 本發(fā)明實(shí)施例提供的廣告反作弊裝置可W獨(dú)立實(shí)施于服務(wù)器中,抑或是W廣告反 作弊系統(tǒng)的方式分散實(shí)施于服務(wù)器集群中,廣告反作弊系統(tǒng)的一個(gè)可選的功能架構(gòu)示意圖 如圖8所示,包括:樣本模塊10、提取模塊20、模型訓(xùn)練模塊30、模型應(yīng)用模塊40、統(tǒng)計(jì)模塊50 和判罰模塊60。
[0207] 結(jié)合圖9示出的廣告反作弊系統(tǒng)分層級(jí)識(shí)別作弊用戶的示意圖進(jìn)行說明。
[0208] -、低層級(jí)作弊用戶識(shí)別
[0209] 1)線上實(shí)時(shí)判罰
[0210] 1.1)黑名單策略
[0211] 統(tǒng)計(jì)模塊50預(yù)先維護(hù)了包括有低層級(jí)作弊用戶的黑名單,其中包括有低層級(jí)的作 弊用戶的標(biāo)識(shí),從廣告系統(tǒng)實(shí)施獲取的點(diǎn)擊日志提取出當(dāng)前正在點(diǎn)擊廣告的用戶的標(biāo)識(shí), 與黑名單中低層級(jí)作弊用戶的標(biāo)識(shí)匹配,一旦匹配成功,則確定當(dāng)前點(diǎn)擊廣告的用戶為低 層級(jí)作弊用戶(低層級(jí)作弊結(jié)果)。
[0212] 1.2)統(tǒng)計(jì)型策略
[0213] 統(tǒng)計(jì)模塊50從廣告系統(tǒng)獲取的點(diǎn)擊日志統(tǒng)計(jì),當(dāng)統(tǒng)計(jì)出用戶點(diǎn)擊廣告的次數(shù)超出 點(diǎn)擊量闊值時(shí),將用戶識(shí)別為低層級(jí)作弊用戶。
[0214] 判罰模塊60對(duì)低層級(jí)的作弊用戶的點(diǎn)擊量進(jìn)行過濾并反饋至廣告系統(tǒng)。在一個(gè)示 例中,對(duì)超過點(diǎn)擊量闊值后的點(diǎn)擊量按照預(yù)定比例過濾,超出點(diǎn)擊量闊值的點(diǎn)擊量越多,貝U 過濾比例越大。
[0215] 1.3)線下延遲重判
[0216] 2)線下延遲重判
[0217] 判罰模塊60對(duì)低層級(jí)的作弊用戶的點(diǎn)擊量中未超出點(diǎn)擊量闊值的點(diǎn)擊量按照預(yù) 定比例進(jìn)行過濾,或者全部過濾也就將低層級(jí)作弊用戶的點(diǎn)擊量清零;一般地,線下延遲重 判方式中使用的預(yù)定比例大于統(tǒng)計(jì)型策略中所使用的預(yù)定比例,從而對(duì)低層級(jí)作弊用戶的 點(diǎn)擊量中未超出點(diǎn)擊量闊值的部分點(diǎn)擊量(運(yùn)部分點(diǎn)擊量被惡意觸發(fā)產(chǎn)生的概率較未超出 點(diǎn)擊量闊值的部分點(diǎn)擊量更大)進(jìn)行更大程度過濾。
[0218] 二、中層級(jí)作弊用戶識(shí)別
[0219] 樣本模塊10獲取樣本集合,樣本集合中的至少一個(gè)樣本包括作弊用戶、W及作弊 用戶點(diǎn)擊廣告的點(diǎn)擊日志;
[0220] 提取模塊20從樣本集合的樣本中提取與待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng)的至少一 個(gè)維度的特征,其中,不同層級(jí)待識(shí)別的作弊用戶所對(duì)應(yīng)的維度不同。
[0221] 模型訓(xùn)練模塊30和模型應(yīng)用模塊40共同實(shí)施中層級(jí)作弊用戶識(shí)別策略。
[0222] 模型訓(xùn)練模塊30將作弊用戶、作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志在至少一個(gè)維度的特 征標(biāo)記為正樣本,至少基于正樣本對(duì)與待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng)的作弊用戶識(shí)別模型 進(jìn)行訓(xùn)練;
[0223] 模型應(yīng)用模塊40確定待識(shí)別的樣本對(duì)應(yīng)至少一個(gè)維度的特征;將待識(shí)別樣本對(duì)應(yīng) 至少一個(gè)維度的特征輸入訓(xùn)練后的作弊用戶識(shí)別模型,識(shí)別出待識(shí)別的樣本中的作弊用戶 (中層級(jí)反作弊結(jié)果)。
[0224] 提取模塊20解析樣本集合中的點(diǎn)擊日志對(duì)應(yīng)得到與點(diǎn)擊廣告的操作相關(guān)聯(lián)的特 征。
[0225] 其中,與點(diǎn)擊廣告的操作相關(guān)聯(lián)的特征包括W下至少一個(gè)維度的特征:
[0226] 在統(tǒng)計(jì)時(shí)段內(nèi)的點(diǎn)擊量;
[0227] 在統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊過廣告的時(shí)間周期的數(shù)量;
[0228] 在統(tǒng)計(jì)時(shí)段中點(diǎn)擊廣告的間隔時(shí)間的平均值;
[0229] 統(tǒng)計(jì)時(shí)段內(nèi)識(shí)別的作弊用戶的歷史比例;
[0230] 統(tǒng)計(jì)時(shí)段內(nèi)所點(diǎn)擊過廣告的時(shí)間周期中點(diǎn)擊廣告的平均點(diǎn)擊量。
[0231] 模型訓(xùn)練模塊30采用如下方式進(jìn)行訓(xùn)練:將正樣本輸入作弊用戶識(shí)別模型W對(duì)作 弊用戶識(shí)別模型中的模型參數(shù)進(jìn)行訓(xùn)練;測(cè)試作弊用戶識(shí)別模型的識(shí)別作弊用戶的精度, 識(shí)別精度未達(dá)到預(yù)設(shè)精度時(shí)對(duì)模型參數(shù)進(jìn)行調(diào)整處理,直至作弊用戶識(shí)別模型的精度達(dá)到 預(yù)設(shè)精度;其中,作弊用戶的點(diǎn)擊日志為作弊用戶執(zhí)行廣告任務(wù)平臺(tái)中廣告任務(wù)所對(duì)應(yīng)的 點(diǎn)擊日志。
[0232] 模型訓(xùn)練模塊30還可結(jié)合負(fù)樣本與正樣本共同訓(xùn)練:將非廣告作弊用戶、非作弊 用戶的點(diǎn)擊廣告的點(diǎn)擊日志對(duì)應(yīng)至少一個(gè)維度的特征標(biāo)記為負(fù)樣本;將負(fù)樣本連同正樣本 輸入作弊用戶識(shí)別模型W對(duì)作弊用戶識(shí)別模型中的模型參數(shù)進(jìn)行訓(xùn)練;其中,樣本集合中 的至少一個(gè)樣本包括非作弊用戶、W及非作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志,非作弊用戶的點(diǎn) 擊日志為非作弊用戶在應(yīng)用中點(diǎn)擊廣告所對(duì)應(yīng)的點(diǎn)擊日志。
[0233] S、高層級(jí)作弊用戶識(shí)別
[0234] 樣本模塊10形成的樣本集合中的樣本為與不同的應(yīng)用對(duì)應(yīng)的應(yīng)用樣本,至少一個(gè) 應(yīng)用樣本為已知存在高層級(jí)作弊用戶的應(yīng)用對(duì)應(yīng),每個(gè)應(yīng)用樣本包括所對(duì)應(yīng)應(yīng)用的W下維 度的信息至少之一:
[0235] 應(yīng)用的用戶在應(yīng)用中點(diǎn)擊廣告的點(diǎn)擊日志;
[0236] 應(yīng)用的用戶在應(yīng)用中點(diǎn)擊廣告的曝光日志;
[0237] 應(yīng)用的用戶在應(yīng)用中點(diǎn)擊廣告的效果日志;
[0238] 應(yīng)用的用戶所使用的設(shè)備的信息。
[0239] 提取模塊20解析應(yīng)用樣本中任意兩個(gè)用戶對(duì)應(yīng)至少一個(gè)維度的相關(guān)度;確定應(yīng)用 樣本與至少一個(gè)維度對(duì)應(yīng)的平均相關(guān)度,其中,與一個(gè)維度對(duì)應(yīng)的平均相關(guān)度為應(yīng)用樣本 的任意兩個(gè)用戶對(duì)應(yīng)維度的特征的相關(guān)度的平均值。
[0240] 模型訓(xùn)練模塊30將已知包括有高層級(jí)作弊用戶的應(yīng)用樣本、W及應(yīng)用樣本對(duì)應(yīng)至 少一個(gè)維度的平均相關(guān)度標(biāo)記為正樣本;將正樣本輸入作弊用戶識(shí)別模型W對(duì)作弊用戶識(shí) 別模型中的模型參數(shù)進(jìn)行訓(xùn)練。
[0241] 模型訓(xùn)練模塊30將樣本集合中未標(biāo)記應(yīng)用樣本(樣本集合中未知存在高層級(jí)作弊 用戶的應(yīng)用樣本)、應(yīng)用樣本對(duì)應(yīng)至少一個(gè)維度的平均相關(guān)度作為無標(biāo)記應(yīng)用樣本、無標(biāo)記 應(yīng)用樣本中任意兩個(gè)用戶對(duì)應(yīng)至少一個(gè)維度的相關(guān)度作為無標(biāo)記樣本,將無標(biāo)記樣本連同 正樣本輸入作弊用戶識(shí)別模型,W對(duì)作弊用戶識(shí)別模型的模型參數(shù)進(jìn)行訓(xùn)練,直至輸入作 弊用戶識(shí)別模型的無標(biāo)記樣本中被作弊用戶識(shí)別模型標(biāo)記為正樣本的數(shù)量處于穩(wěn)定狀態(tài)。
[0242] 模型應(yīng)用模塊40獲取作弊用戶識(shí)別模型輸出的待識(shí)別應(yīng)用中任意兩個(gè)用戶與至 少一個(gè)維度對(duì)應(yīng)的相關(guān)度,確定待識(shí)別應(yīng)用中用戶與至少一個(gè)維度對(duì)應(yīng)的平均相關(guān)度;當(dāng) 平均相關(guān)度超出平均相關(guān)度闊值時(shí)判定待識(shí)別應(yīng)用中的用戶為高層級(jí)作弊用戶(高層級(jí)作 弊識(shí)別結(jié)果)。
[0243] 綜上,本發(fā)明實(shí)施例具有W下有益效果:
[0244] 1)在線下采用延遲處理的方式對(duì)中層級(jí)作弊用戶進(jìn)行識(shí)別,即采用邏輯斯蒂回歸 模型在線下識(shí)別中層級(jí)作弊用戶,并對(duì)中層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行過濾,確保統(tǒng)計(jì)的廣 告的點(diǎn)擊量的準(zhǔn)確性;
[0245] 2)在線下采用延遲處理的方式對(duì)高層級(jí)作弊用戶進(jìn)行識(shí)別,即采用梯度提升回歸 樹模型識(shí)別高層級(jí)作弊用戶,并對(duì)高層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行過濾,確保統(tǒng)計(jì)的廣告的 點(diǎn)擊量的準(zhǔn)確性;
[0246] 3)線上實(shí)時(shí)判罰的方式,能夠?qū)Φ蛯蛹?jí)作弊用戶進(jìn)行實(shí)時(shí)識(shí)別,并對(duì)低層級(jí)作弊 用戶的點(diǎn)擊量進(jìn)行實(shí)時(shí)過濾,保證了在需要實(shí)時(shí)獲取廣告點(diǎn)擊量的需求場(chǎng)景中,能夠?qū)Φ?層級(jí)作弊用戶的點(diǎn)擊量進(jìn)行有效過濾。同時(shí),
[0247] 4)線下延遲重判能夠覆蓋識(shí)別每個(gè)層級(jí)的作弊用戶,從而保證了對(duì)作弊用戶的點(diǎn) 擊進(jìn)行全面過濾。
[0248] 本發(fā)明實(shí)施例所述集成的模塊如果W軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn) 品銷售或使用時(shí),也可W存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于運(yùn)樣的理解,本領(lǐng)域內(nèi) 的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明 可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且, 本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)上實(shí) 施的計(jì)算機(jī)程序產(chǎn)品的形式,所述存儲(chǔ)介質(zhì)包括但不限于U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM, Read-Only Memo巧)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memo巧)、磁盤存儲(chǔ)器、CD-ROM、 光學(xué)存儲(chǔ)器等。
[0249 ]本發(fā)明是根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/ 或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/ 或方框、W及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻\(yùn)些計(jì)算機(jī)程序指令 到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器W產(chǎn)生一 個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在 流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0250] 運(yùn)些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備W特 定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指 令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或 多個(gè)方框中指定的功能。
[0251] 運(yùn)些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì) 算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟W產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或 其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一 個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0252] 盡管已描述了本發(fā)明的實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概 念,則可對(duì)運(yùn)些實(shí)施例做出另外的變更和修改。所W,所附權(quán)利要求意欲解釋為包括實(shí)施例 W及落入本發(fā)明范圍的所有變更和修改。
[0253] W上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明掲露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)W所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種廣告反作弊方法,其特征在于,所述方法包括: 獲取樣本集合,其中,所述樣本集合中的至少一個(gè)樣本包括作弊用戶、以及所述作弊用 戶點(diǎn)擊廣告的點(diǎn)擊日志; 從所述樣本集合的樣本中提取與待識(shí)別的作弊用戶層級(jí)對(duì)應(yīng)的至少一個(gè)維度的特征, 其中,不同層級(jí)待識(shí)別的作弊用戶所對(duì)應(yīng)的特征不同; 基于所述作弊用戶、所述作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志對(duì)應(yīng)所述至少一個(gè)維度的特征 形成正樣本,至少基于所述正樣本對(duì)與待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng)的作弊用戶識(shí)別模型 進(jìn)行訓(xùn)練; 確定待識(shí)別的樣本對(duì)應(yīng)所述至少一個(gè)維度的特征; 將所述待識(shí)別樣本對(duì)應(yīng)所述至少一個(gè)維度的特征輸入訓(xùn)練后的所述作弊用戶識(shí)別模 型,基于輸出結(jié)果識(shí)別出所述待識(shí)別的樣本中的作弊用戶。2. 根據(jù)權(quán)利要求要求1所述的方法,其特征在于,所述從樣本中提取與待識(shí)別的作弊用 戶的層級(jí)對(duì)應(yīng)的至少一個(gè)維度的特征,包括: 所述樣本集合中的樣本為與應(yīng)用對(duì)應(yīng)的應(yīng)用樣本,至少一個(gè)所述應(yīng)用樣本為已知存在 所述高層級(jí)作弊用戶的應(yīng)用對(duì)應(yīng),每個(gè)所述應(yīng)用樣本包括所對(duì)應(yīng)應(yīng)用的以下維度的信息至 少之一: 所述應(yīng)用的用戶在所述應(yīng)用中點(diǎn)擊廣告的點(diǎn)擊日志; 所述應(yīng)用的用戶在所述應(yīng)用中點(diǎn)擊廣告的曝光日志; 所述應(yīng)用的用戶在所述應(yīng)用中點(diǎn)擊廣告的效果日志; 所述應(yīng)用的用戶所使用的設(shè)備的信息; 解析出所述應(yīng)用樣本中所包括的用戶、以及所述應(yīng)用樣本中任意兩個(gè)用戶在以下至少 一個(gè)維度的相關(guān)度: 所述應(yīng)用中任意兩個(gè)用戶在應(yīng)用中點(diǎn)擊廣告的操作的特征的相關(guān)度; 所述應(yīng)用中任意兩個(gè)用戶在所述應(yīng)用中點(diǎn)擊的廣告所曝光對(duì)象的相關(guān)度; 所述應(yīng)用中任意兩個(gè)用戶點(diǎn)擊廣告所使用的設(shè)備的信息的相關(guān)度; 所述應(yīng)用中任意兩個(gè)用戶點(diǎn)擊所點(diǎn)擊廣告的廣告效果的相關(guān)度。3. 根據(jù)權(quán)利要求要求2所述的方法,其特征在于,所述基于所述作弊用戶、所述作弊用 戶點(diǎn)擊廣告的點(diǎn)擊日志在所述至少一個(gè)維度的特征形成所述正樣本,至少基于所述正樣本 對(duì)與待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng)的作弊用戶識(shí)別模型進(jìn)行訓(xùn)練,包括: 將已知包括有所述第一層級(jí)作弊用戶的所述應(yīng)用樣本、以及所述應(yīng)用樣本中任意兩個(gè) 用戶在所述至少一個(gè)維度的特征的相關(guān)度標(biāo)記為所述正樣本; 將所述正樣本輸入第一層級(jí)作弊用戶識(shí)別模型,基于輸入的正樣本對(duì)所述第一層級(jí)作 弊用戶識(shí)別模型中的模型參數(shù)進(jìn)行訓(xùn)練。4. 根據(jù)權(quán)利要求要求2所述的方法,其特征在于,所述基于所述作弊用戶、所述作弊用 戶點(diǎn)擊廣告的點(diǎn)擊日志在所述至少一個(gè)維度的特征標(biāo)記正樣本,至少基于所述正樣本對(duì)與 待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng)的作弊用戶識(shí)別模型進(jìn)行訓(xùn)練,包括: 基于所述樣本集合中的無標(biāo)記應(yīng)用樣本、所述無標(biāo)記應(yīng)用樣本中任意兩個(gè)用戶對(duì)應(yīng)至 少一個(gè)所述維度的相關(guān)度形成無標(biāo)記樣本,基于所述無標(biāo)記樣本和所述正樣本對(duì)第一層級(jí) 作弊用戶識(shí)別模型的模型參數(shù)進(jìn)行訓(xùn)練,直至,輸入所述第一層級(jí)作弊用戶識(shí)別模型的所 述無標(biāo)記樣本中被所述第一層級(jí)作弊用戶識(shí)別模型標(biāo)記為正樣本的數(shù)量處于穩(wěn)定狀態(tài); 其中,所述無標(biāo)記應(yīng)用樣本為所述樣本集合中未知存在高層級(jí)作弊用戶的應(yīng)用樣本。5. 根據(jù)權(quán)利要求要求2所述的方法,其特征在于,所述基于輸出結(jié)果識(shí)別出所述待識(shí)別 的樣本中的作弊用戶,包括: 所述待識(shí)別樣本為待識(shí)別應(yīng)用; 獲取第一層級(jí)作弊用戶識(shí)別模型輸出的所述待識(shí)別應(yīng)用中任意兩個(gè)用戶與至少一個(gè) 所述維度對(duì)應(yīng)的相關(guān)度,確定待識(shí)別應(yīng)用中用戶與至少一個(gè)所述維度對(duì)應(yīng)的平均相關(guān)度; 當(dāng)所述平均相關(guān)度超出平均相關(guān)度閾值時(shí)判定所述待識(shí)別應(yīng)用中的用戶為第一層級(jí) 作弊用戶。6. 根據(jù)權(quán)利要求要求1所述的方法,其特征在于,所述從樣本集合的樣本中提取與待識(shí) 別的作弊用戶的層級(jí)對(duì)應(yīng)的至少一個(gè)維度的特征,包括: 提取出所述樣本集合中的點(diǎn)擊日志中對(duì)應(yīng)點(diǎn)擊廣告的操作數(shù)據(jù); 解析所提取的操作數(shù)據(jù)對(duì)應(yīng)得到與點(diǎn)擊廣告的操作相關(guān)聯(lián)的特征; 其中,與點(diǎn)擊廣告的操作相關(guān)聯(lián)的特征包括以下至少一個(gè)維度的特征: 在統(tǒng)計(jì)時(shí)段內(nèi)的點(diǎn)擊量; 在所述統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊過廣告的時(shí)間周期的數(shù)量; 在所述統(tǒng)計(jì)時(shí)段中點(diǎn)擊廣告的間隔時(shí)間的平均值; 所述統(tǒng)計(jì)時(shí)段內(nèi)識(shí)別的作弊用戶的歷史比例; 所述統(tǒng)計(jì)時(shí)段內(nèi)所點(diǎn)擊過廣告的時(shí)間周期中點(diǎn)擊廣告的平均點(diǎn)擊量。7. 根據(jù)權(quán)利要求要求6所述的方法,其特征在于,所述至少基于所述正樣本對(duì)與待識(shí)別 的作弊用戶的層級(jí)對(duì)應(yīng)的作弊用戶識(shí)別模型進(jìn)行訓(xùn)練,包括: 將所述正樣本輸入第二層級(jí)作弊用戶識(shí)別模型,基于輸入的正樣本對(duì)所述第二層級(jí)作 弊用戶識(shí)別模型中的模型參數(shù)進(jìn)行訓(xùn)練; 測(cè)試所述第二層級(jí)作弊用戶識(shí)別模型的識(shí)別作弊用戶的精度,識(shí)別精度未達(dá)到預(yù)設(shè)精 度時(shí)對(duì)所述模型參數(shù)進(jìn)行調(diào)整處理,直至所述第二層級(jí)作弊用戶識(shí)別模型的精度達(dá)到預(yù)設(shè) 精度; 其中,所述作弊用戶的點(diǎn)擊日志為所述作弊用戶執(zhí)行廣告任務(wù)平臺(tái)中廣告任務(wù)所對(duì)應(yīng) 的點(diǎn)擊日志。8. 根據(jù)權(quán)利要求要求7所述的方法,其特征在于,所述方法還包括: 所述樣本集合中的至少一個(gè)樣本包括非作弊用戶、以及所述非作弊用戶點(diǎn)擊廣告的點(diǎn) 擊日志,所述非作弊用戶的點(diǎn)擊日志用于記錄所述非作弊用戶在應(yīng)用中點(diǎn)擊廣告的操作; 將所述非廣告作弊用戶、所述非作弊用戶的點(diǎn)擊廣告的點(diǎn)擊日志對(duì)應(yīng)所述至少一個(gè)維 度的特征標(biāo)記為負(fù)樣本; 將所述負(fù)樣本連同所述正樣本輸入所述第二層級(jí)作弊用戶識(shí)別模型,基于輸入的正樣 本和負(fù)樣本對(duì)所述第二層級(jí)作弊用戶識(shí)別模型中的模型參數(shù)進(jìn)行訓(xùn)練。9. 根據(jù)權(quán)利要求要求1所述的方法,其特征在于, 所述方法還包括: 當(dāng)點(diǎn)擊廣告的用戶的標(biāo)識(shí)與預(yù)設(shè)的第三層級(jí)作弊用戶的標(biāo)識(shí)匹配時(shí),將所述點(diǎn)擊廣告 的用戶識(shí)別為所述第三層級(jí)作弊用戶; 或者, 獲取點(diǎn)擊廣告的用戶在統(tǒng)計(jì)時(shí)段中點(diǎn)擊廣告的次數(shù),當(dāng)點(diǎn)擊廣告的次數(shù)超出點(diǎn)擊量閾 值時(shí),將所述點(diǎn)擊廣告的用戶識(shí)別為所述第三層級(jí)作弊用戶; 所述方法還包括: 對(duì)所述作弊用戶的點(diǎn)擊量進(jìn)行過濾,過濾方式包括以下至少之一: 對(duì)所述作弊用戶的點(diǎn)擊量中超出點(diǎn)擊量閾值之外的點(diǎn)擊量進(jìn)行過濾; 對(duì)所述作弊用戶的點(diǎn)擊量中未超出點(diǎn)擊量閾值的點(diǎn)擊量進(jìn)行過濾。10. -種廣告反作弊裝置,其特征在于,所述裝置包括: 樣本模塊,用于獲取樣本集合,其中,所述樣本集合中的至少一個(gè)樣本包括作弊用戶、 以及所述作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志; 提取模塊,用于從所述樣本集合的樣本中提取與待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng)的至少 一個(gè)維度的特征,其中,不同層級(jí)所述待識(shí)別的作弊用戶所對(duì)應(yīng)的特征不同; 模型訓(xùn)練模塊,用于基于所述作弊用戶、所述作弊用戶點(diǎn)擊廣告的點(diǎn)擊日志對(duì)應(yīng)所述 至少一個(gè)維度的特征形成正樣本,至少基于所述正樣本對(duì)與待識(shí)別的作弊用戶的層級(jí)對(duì)應(yīng) 的作弊用戶識(shí)別模型進(jìn)行訓(xùn)練; 模型應(yīng)用模塊,用于確定待識(shí)別的樣本對(duì)應(yīng)所述至少一個(gè)維度的特征;將所述待識(shí)別 樣本對(duì)應(yīng)所述至少一個(gè)維度的特征輸入訓(xùn)練后的所述作弊用戶識(shí)別模型,基于輸出結(jié)果識(shí) 別出所述待識(shí)別的樣本中的作弊用戶。11. 根據(jù)權(quán)利要求要求10所述的裝置,其特征在于, 所述樣本模塊,還用于解析出所述應(yīng)用樣本中所包括的用戶、以及所述應(yīng)用樣本中任 意兩個(gè)用戶在以下至少一個(gè)維度的相關(guān)度: 所述應(yīng)用中任意兩個(gè)用戶在應(yīng)用中點(diǎn)擊廣告的操作的特征的相關(guān)度; 所述應(yīng)用中任意兩個(gè)用戶在所述應(yīng)用中點(diǎn)擊的廣告所曝光對(duì)象的相關(guān)度; 所述應(yīng)用中任意兩個(gè)用戶點(diǎn)擊廣告所使用的設(shè)備的信息的相關(guān)度; 所述應(yīng)用中任意兩個(gè)用戶點(diǎn)擊所點(diǎn)擊廣告的廣告效果的相關(guān)度; 所述樣本集合中的樣本為與應(yīng)用對(duì)應(yīng)的應(yīng)用樣本,至少一個(gè)所述應(yīng)用樣本為已知存在 所述高層級(jí)作弊用戶的應(yīng)用對(duì)應(yīng),每個(gè)所述應(yīng)用樣本包括所對(duì)應(yīng)應(yīng)用的以下維度的信息至 少之一: 所述應(yīng)用的用戶在所述應(yīng)用中點(diǎn)擊廣告的點(diǎn)擊日志; 所述應(yīng)用的用戶在所述應(yīng)用中點(diǎn)擊廣告的曝光日志; 所述應(yīng)用的用戶在所述應(yīng)用中點(diǎn)擊廣告的效果日志; 所述應(yīng)用的用戶所使用的設(shè)備的信息。12. 根據(jù)權(quán)利要求要求11所述的裝置,其特征在于, 所述模型訓(xùn)練模塊,還用于將已知包括有所述第一層級(jí)作弊用戶的所述應(yīng)用樣本、以 及所述應(yīng)用樣本中任意兩個(gè)用戶在所述至少一個(gè)維度的特征的相關(guān)度標(biāo)記為所述正樣本; 將所述正樣本輸入第一層級(jí)作弊用戶識(shí)別模型,基于輸入的正樣本對(duì)所述第一層級(jí)作弊用 戶識(shí)別模型中的模型參數(shù)進(jìn)行訓(xùn)練。13. 根據(jù)權(quán)利要求要求11所述的裝置,其特征在于, 所述模型訓(xùn)練模塊,還用于基于所述樣本集合中的無標(biāo)記應(yīng)用樣本、所述無標(biāo)記應(yīng)用 樣本中任意兩個(gè)用戶對(duì)應(yīng)至少一個(gè)所述維度的相關(guān)度形成無標(biāo)記樣本,基于所述無標(biāo)記樣 本和所述正樣本對(duì)第一層級(jí)作弊用戶識(shí)別模型的模型參數(shù)進(jìn)行訓(xùn)練,直至,輸入所述第一 層級(jí)作弊用戶識(shí)別模型的所述無標(biāo)記樣本中被所述第一層級(jí)作弊用戶識(shí)別模型標(biāo)記為正 樣本的數(shù)量處于穩(wěn)定狀態(tài); 其中,所述無標(biāo)記應(yīng)用樣本為所述樣本集合中未知存在高層級(jí)作弊用戶的應(yīng)用樣本。14. 根據(jù)權(quán)利要求要求11所述的裝置,其特征在于, 所述模型應(yīng)用模塊,還用于獲取第一層級(jí)作弊用戶識(shí)別模型輸出的待識(shí)別應(yīng)用中任意 兩個(gè)用戶與至少一個(gè)所述維度對(duì)應(yīng)的相關(guān)度,確定待識(shí)別應(yīng)用中用戶與至少一個(gè)所述維度 對(duì)應(yīng)的平均相關(guān)度; 當(dāng)所述平均相關(guān)度超出平均相關(guān)度閾值時(shí)判定所述待識(shí)別應(yīng)用中的用戶為第一層級(jí) 作弊用戶。15. 根據(jù)權(quán)利要求要求10所述的裝置,其特征在于, 所述提取模塊,還用于提取出所述樣本集合中的點(diǎn)擊日志中對(duì)應(yīng)點(diǎn)擊廣告的操作數(shù) 據(jù); 解析所提取的操作數(shù)據(jù)對(duì)應(yīng)得到與點(diǎn)擊廣告的操作相關(guān)聯(lián)的特征; 其中,與點(diǎn)擊廣告的操作相關(guān)聯(lián)的特征包括以下至少一個(gè)維度的特征: 在統(tǒng)計(jì)時(shí)段內(nèi)的點(diǎn)擊量; 在所述統(tǒng)計(jì)時(shí)段內(nèi)點(diǎn)擊過廣告的時(shí)間周期的數(shù)量; 在所述統(tǒng)計(jì)時(shí)段中點(diǎn)擊廣告的間隔時(shí)間的平均值; 所述統(tǒng)計(jì)時(shí)段內(nèi)識(shí)別的作弊用戶的歷史比例; 所述統(tǒng)計(jì)時(shí)段內(nèi)所點(diǎn)擊過廣告的時(shí)間周期中點(diǎn)擊廣告的平均點(diǎn)擊量。16. 根據(jù)權(quán)利要求要求15所述的裝置,其特征在于, 所述模型訓(xùn)練模塊,還用于將所述正樣本輸入第二層級(jí)作弊用戶識(shí)別模型,基于輸入 的正樣本對(duì)所述第二層級(jí)作弊用戶識(shí)別模型中的模型參數(shù)進(jìn)行訓(xùn)練;測(cè)試所述第二層級(jí)作 弊用戶識(shí)別模型的識(shí)別作弊用戶的精度,識(shí)別精度未達(dá)到預(yù)設(shè)精度時(shí)對(duì)所述模型參數(shù)進(jìn)行 調(diào)整處理,直至所述第二層級(jí)作弊用戶識(shí)別模型的精度達(dá)到預(yù)設(shè)精度; 其中,所述作弊用戶的點(diǎn)擊日志為所述作弊用戶執(zhí)行廣告任務(wù)平臺(tái)中廣告任務(wù)所對(duì)應(yīng) 的點(diǎn)擊日志。17. 根據(jù)權(quán)利要求要求16所述的裝置,其特征在于, 所述模型訓(xùn)練模塊,還用于將非廣告作弊用戶、所述非作弊用戶的點(diǎn)擊廣告的點(diǎn)擊日 志對(duì)應(yīng)所述至少一個(gè)維度的特征標(biāo)記為負(fù)樣本; 將所述負(fù)樣本連同所述正樣本輸入所述第二層級(jí)作弊用戶識(shí)別模型,基于所述正樣本 和所述負(fù)樣本對(duì)所述第二層級(jí)作弊用戶識(shí)別模型中的模型參數(shù)進(jìn)行訓(xùn)練; 其中,所述樣本集合中的至少一個(gè)樣本包括所述非作弊用戶、以及所述非作弊用戶點(diǎn) 擊廣告的點(diǎn)擊日志,所述非作弊用戶的點(diǎn)擊日志用于記錄所述非作弊用戶在應(yīng)用中點(diǎn)擊廣 告的操作; 其中,所述待識(shí)別樣本為所述待識(shí)別應(yīng)用。18. 根據(jù)權(quán)利要求要求10所述的裝置,其特征在于, 所述裝置還包括: 統(tǒng)計(jì)模塊,用于當(dāng)點(diǎn)擊廣告的用戶的標(biāo)識(shí)與預(yù)設(shè)的第三層級(jí)作弊用戶的標(biāo)識(shí)匹配時(shí), 將所述點(diǎn)擊廣告的用戶識(shí)別為所述第三層級(jí)作弊用戶;或者,獲取點(diǎn)擊廣告的用戶在統(tǒng)計(jì) 時(shí)段中點(diǎn)擊廣告的次數(shù),當(dāng)點(diǎn)擊廣告的次數(shù)超出點(diǎn)擊量閾值時(shí),將所述點(diǎn)擊廣告的用戶識(shí) 別為所述第三層級(jí)作弊用戶; 所述裝置還包括: 判罰模塊,用于對(duì)所述作弊用戶的點(diǎn)擊量進(jìn)行過濾,過濾方式包括以下至少之一: 對(duì)所述作弊用戶的點(diǎn)擊量中超出點(diǎn)擊量閾值之外的點(diǎn)擊量進(jìn)行過濾; 對(duì)所述作弊用戶的點(diǎn)擊量中未超出點(diǎn)擊量閾值的點(diǎn)擊量進(jìn)行過濾。
【文檔編號(hào)】G06Q30/02GK106022834SQ201610349338
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月24日
【發(fā)明人】程權(quán), 李益群, 王春輝
【申請(qǐng)人】騰訊科技(深圳)有限公司