本申請(qǐng)涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,更具體地說(shuō),涉及一種刷量工具檢測(cè)方法及裝置。
背景技術(shù):
智能手機(jī)等智能終端的普及為各種類型的應(yīng)用APP(Application,應(yīng)用)提供了載體。應(yīng)用提供商為了推廣自家應(yīng)用,通過(guò)多種平臺(tái)向用戶展示應(yīng)用并提供下載功能,每一個(gè)平臺(tái)均可以看作應(yīng)用推廣的一個(gè)渠道。而作為回饋,每當(dāng)有新用戶通過(guò)某個(gè)渠道注冊(cè)了應(yīng)用賬號(hào)后,應(yīng)用提供商需要向該渠道支付一定的推廣費(fèi)。
在現(xiàn)實(shí)情況中,某些渠道(平臺(tái))為了騙取應(yīng)用提供商的推廣費(fèi),會(huì)利用刷量工具生成虛假新用戶,過(guò)程大致為:渠道利用刷量工具隨機(jī)或者基于已有用戶數(shù)據(jù)文件,生成終端設(shè)備號(hào)IMEI(International Mobile Equipment Identity,國(guó)際移動(dòng)設(shè)備身份碼)、IMSI(International Mobile Subscriber Identification Number,國(guó)際移動(dòng)用戶識(shí)別碼)、MAC(Media Access Control,媒體訪問(wèn)控制)地址、屏幕分辨率、機(jī)型、SIM卡號(hào)、手機(jī)號(hào)、運(yùn)營(yíng)商編號(hào)或名稱、手機(jī)操作系統(tǒng)(OS)版本等各種參數(shù),然后以生成的這些參數(shù)作為新用戶參數(shù)進(jìn)行注冊(cè)。而對(duì)于應(yīng)用供應(yīng)商端來(lái)說(shuō),一般僅通過(guò)辨別IMEI來(lái)判斷該用戶是否為新用戶,也即只要當(dāng)前注冊(cè)用戶的IMEI之前未注冊(cè)過(guò),則認(rèn)為當(dāng)前注冊(cè)用戶是一個(gè)新用戶,進(jìn)而向?qū)?yīng)渠道支付推廣費(fèi)。
為了避免上述問(wèn)題的出現(xiàn),現(xiàn)有技術(shù)中一般通過(guò)檢測(cè)當(dāng)前渠道下新注冊(cè)用戶的IMSI、MAC地址、屏幕分辨率、機(jī)型、等硬件接入環(huán)境屬性參數(shù)的分布是否正常,來(lái)判別當(dāng)前渠道下是否使用了刷量工具。以屏幕分辨率為例,如果當(dāng)前渠道下用戶的屏幕分辨率分布與所有渠道下屏幕分辨率分布有很大的差異,則意味著當(dāng)前渠道可能使用了刷量工具,舉例如,渠道1下一天內(nèi)新注冊(cè)用戶的屏幕分辨率有80%為屏幕分辨率1,其余的20%為屏幕分辨率2和屏 幕分辨率3,而所有渠道下注冊(cè)用戶的整體屏幕分辨率分布情況為50%的屏幕分辨率2、30%的屏幕分辨率3和20%的屏幕分辨率1。顯然,渠道1的屏幕分辨率分布與整體屏幕分辨率分布有很大的差異,代表渠道1可能使用了刷量工具。
但是,現(xiàn)有基于硬件接入環(huán)境屬性參數(shù)的分布來(lái)檢測(cè)刷量工具的方法具有一定的局限性,某些高品質(zhì)的刷量工具在生成硬件接入環(huán)境屬性參數(shù)時(shí)會(huì)基于各個(gè)屬性真實(shí)情況下的分布來(lái)生成,即各參數(shù)的分布情況與正常渠道下各參數(shù)分布一致。對(duì)于使用此類刷量工具的渠道,現(xiàn)有技術(shù)將無(wú)法檢測(cè)出來(lái)。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本申請(qǐng)?zhí)峁┝艘环N刷量工具檢測(cè)方法及裝置,用于解決現(xiàn)有基于硬件接入環(huán)境屬性參數(shù)的分布來(lái)檢測(cè)刷量工具的方法存在局限性的問(wèn)題。
為了實(shí)現(xiàn)上述目的,現(xiàn)提出的方案如下:
一種刷量工具檢測(cè)方法,包括:
獲取與待測(cè)渠道對(duì)應(yīng)的至少一個(gè)用戶的行為數(shù)據(jù);
依據(jù)各個(gè)用戶的行為數(shù)據(jù),生成各個(gè)用戶的行為特征;
利用各個(gè)用戶的行為特征,計(jì)算各個(gè)用戶的行為特征值;
以行為特征值為分類條件,對(duì)各個(gè)用戶進(jìn)行分類,得到若干個(gè)分類組;
在確定所述分類組內(nèi)用戶數(shù)量滿足預(yù)置判定策略時(shí),確定所述待測(cè)渠道使用了刷量工具。
一種刷量工具檢測(cè)裝置,包括:
行為數(shù)據(jù)獲取單元,用于獲取與待測(cè)渠道對(duì)應(yīng)的至少一個(gè)用戶的行為數(shù)據(jù);
行為特征生成單元,用于依據(jù)各個(gè)用戶的行為數(shù)據(jù),生成各個(gè)用戶的行為特征;
行為特征值計(jì)算單元,用于利用各個(gè)用戶的行為特征,計(jì)算各個(gè)用戶的行為特征值;
分類處理單元,用于以行為特征值為分類條件,對(duì)各個(gè)用戶進(jìn)行分類,得到若干個(gè)分類組;
刷量工具確定單元,用于在確定所述分類組內(nèi)用戶數(shù)量滿足預(yù)置判定策略時(shí),確定所述待測(cè)渠道使用了刷量工具。
從上述的技術(shù)方案可以看出,本申請(qǐng)實(shí)施例提供的刷量工具檢測(cè)方法,獲取與待測(cè)渠道對(duì)應(yīng)的至少一個(gè)用戶的行為數(shù)據(jù),行為數(shù)據(jù)表征了用戶登錄應(yīng)用后所執(zhí)行的各種操作,進(jìn)而可以依據(jù)各個(gè)用戶的行為數(shù)據(jù)生成各個(gè)用戶的行為特征,然后利用各個(gè)用戶的行為特征計(jì)算各個(gè)用戶的行為特征值,以行為特征值為分類條件,對(duì)用戶進(jìn)行分類,得到若干個(gè)分類組,由于各個(gè)分類組內(nèi)的用戶的行為特征值相似或相同,因而如果一個(gè)或多個(gè)分類組內(nèi)包含的用戶數(shù)量非常大,則意味著該分類組內(nèi)大部分用戶為虛假用戶,也即可以確定待測(cè)渠道使用了刷量工具。本申請(qǐng)利用刷量工具產(chǎn)生的多個(gè)虛假用戶在行為上具備一定相似性的原理,通過(guò)計(jì)算各個(gè)用戶的行為特征值,并據(jù)此對(duì)用戶進(jìn)行聚類,進(jìn)而可以按照預(yù)定策略判定待測(cè)渠道是否使用刷量工具,避免了現(xiàn)有基于硬件接入環(huán)境屬性參數(shù)的分布來(lái)檢測(cè)刷量工具的方法鎖存在的局限性問(wèn)題。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本申請(qǐng)實(shí)施例公開的一種刷量工具檢測(cè)方法流程圖;
圖2為本申請(qǐng)實(shí)施例公開的一種確定待測(cè)渠道使用刷量工具的方法流程圖;
圖3為本申請(qǐng)實(shí)施例公開的另一種確定待測(cè)渠道使用刷量工具的方法流程圖;
圖4為本申請(qǐng)實(shí)施例公開的一種刷量工具檢測(cè)裝置結(jié)構(gòu)示意圖;
圖5為本申請(qǐng)實(shí)施例公開的一種刷量工具確定單元結(jié)構(gòu)示意圖;
圖6為本申請(qǐng)實(shí)施例公開的另一種刷量工具確定單元結(jié)構(gòu)示意圖;
圖7為本申請(qǐng)實(shí)施例公開的一種行為特征計(jì)算單元結(jié)構(gòu)示意圖;
圖8為本申請(qǐng)實(shí)施例公開的一種分類處理單元結(jié)構(gòu)示意圖;
圖9為本申請(qǐng)實(shí)施例公開的一種服務(wù)器硬件結(jié)構(gòu)示意圖。
具體實(shí)施方式
在介紹本申請(qǐng)方案之前,首先對(duì)文中使用到的名稱或短語(yǔ)進(jìn)行解釋:
SimHash是一種降維技術(shù),可以將高維向量映射到一維的指紋,它最早由Google提出,用于網(wǎng)頁(yè)去重。SimHash算法的輸入是一個(gè)向量,輸出是一個(gè)f位的指紋。為了陳述方便,假設(shè)輸入是一個(gè)用戶行為的特征集合,每個(gè)特征有對(duì)應(yīng)的權(quán)重,SimHash算法如下:
1.將一個(gè)f維(此處f取64)的向量V初始化為0,f位的二進(jìn)制數(shù)S初始化為0;
2.對(duì)每一個(gè)特征:用傳統(tǒng)的hash算法對(duì)該特征產(chǎn)生一個(gè)f位的指紋b,對(duì)i=1到f,如果b的第i位為1,則V的第i個(gè)元素加上該特征的權(quán)重(此處權(quán)重為1);否則,V的第i個(gè)元素減去該特征的權(quán)重(此處權(quán)重為1);
3.如果V的第i個(gè)元素大于0,則S的第i位為1,否則為0;
4.輸出指紋S。
下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
參見(jiàn)圖1,圖1為本申請(qǐng)實(shí)施例公開的一種刷量工具檢測(cè)方法流程圖。
如圖1所示,該方法包括:
步驟S100、獲取與待測(cè)渠道對(duì)應(yīng)的至少一個(gè)用戶的行為數(shù)據(jù);
與待測(cè)渠道對(duì)應(yīng)的用戶指的是通過(guò)待測(cè)渠道注冊(cè)的用戶。針對(duì)此類用戶,獲取其登錄應(yīng)用之后產(chǎn)生的行為數(shù)據(jù)。
具體地,應(yīng)用服務(wù)器記錄了每一個(gè)登錄用戶的行為數(shù)據(jù),行為數(shù)據(jù)中攜帶有渠道標(biāo)識(shí),該渠道標(biāo)識(shí)表明當(dāng)前用戶是通過(guò)哪個(gè)渠道注冊(cè)的。
行為數(shù)據(jù)可以包含多種,具體類型需要根據(jù)應(yīng)用的類型而定,例如對(duì)于應(yīng)用寶這類的提供下載功能的應(yīng)用來(lái)說(shuō),其行為數(shù)據(jù)可以包括流行軟件場(chǎng)景下點(diǎn)擊下載的動(dòng)作數(shù)量、更新推送場(chǎng)景下行為記錄數(shù)量、精品場(chǎng)景下曝光動(dòng)作的數(shù)量等。
當(dāng)然,對(duì)于絕大多數(shù)的應(yīng)用,其一般均會(huì)涉及到下述幾種行為數(shù)據(jù):用戶訪問(wèn)記錄數(shù)量、用戶訪問(wèn)持續(xù)時(shí)間、啟動(dòng)類型、登錄類型、用戶參與不同場(chǎng)景的數(shù)量和用戶點(diǎn)擊動(dòng)作的數(shù)量等。
需要說(shuō)明的是,我們可以不必獲取與待測(cè)渠道對(duì)應(yīng)的所有用戶的行為數(shù)據(jù),僅僅獲取當(dāng)天或一段時(shí)間內(nèi)通過(guò)待測(cè)渠道注冊(cè)的新用戶的行為數(shù)據(jù)即可。
步驟S110、依據(jù)各個(gè)用戶的行為數(shù)據(jù),生成各個(gè)用戶的行為特征;
具體地,在獲取了用戶的行為數(shù)據(jù)后,按照預(yù)置的方法生成各個(gè)用戶的行為特征。行為特征即將行為數(shù)據(jù)量化后的體現(xiàn)。舉例如,預(yù)先將用戶訪問(wèn)記錄數(shù)量劃分為多個(gè)區(qū)間,獲取的用戶的訪問(wèn)記錄數(shù)量具體落入哪個(gè)區(qū)間即為一種行為特征。
步驟S120、利用各個(gè)用戶的行為特征,計(jì)算各個(gè)用戶的行為特征值;
每一個(gè)用戶的行為特征可能包含多個(gè),因而可以采用一定的算法,基于用戶的行為特征集合,計(jì)算用戶的行為特征值。
比較優(yōu)選地,可以采用SimHash算法。
步驟S130、以行為特征值為分類條件,對(duì)各個(gè)用戶進(jìn)行分類,得到若干個(gè)分類組;
具體地,各個(gè)分類組內(nèi)用戶的特征值具備一定的相似性,也即代表同一分類組內(nèi)用戶的行為相似。
步驟S140、在確定所述分類組內(nèi)用戶數(shù)量滿足預(yù)置判定策略時(shí),確定所述待測(cè)渠道使用了刷量工具。
具體地,預(yù)置判定策略可以有多種,詳細(xì)參見(jiàn)下文相關(guān)部分介紹。由于刷量工具所產(chǎn)生的多個(gè)虛假用戶在行為上具備一定相似性,體現(xiàn)在行為特征值上即相似或相同,因此通過(guò)分析各個(gè)分類組內(nèi)用戶數(shù)量,即可確定待測(cè)渠道是否使用了刷量工具。
本申請(qǐng)實(shí)施例提供的刷量工具檢測(cè)方法,獲取與待測(cè)渠道對(duì)應(yīng)的至少一個(gè)用戶的行為數(shù)據(jù),行為數(shù)據(jù)表征了用戶登錄應(yīng)用后所執(zhí)行的各種操作,進(jìn)而可以依據(jù)各個(gè)用戶的行為數(shù)據(jù)生成各個(gè)用戶的行為特征,然后利用各個(gè)用戶的行為特征計(jì)算各個(gè)用戶的行為特征值,以行為特征值為分類條件,對(duì)用戶進(jìn)行分類,得到若干個(gè)分類組,由于各個(gè)分類組內(nèi)的用戶的行為特征值相似或相同,因而如果一個(gè)或多個(gè)分類組內(nèi)包含的用戶數(shù)量非常大,則意味著該分類組內(nèi)大部分用戶為虛假用戶,也即可以確定待測(cè)渠道使用了刷量工具。本申請(qǐng)利用刷量工具產(chǎn)生的多個(gè)虛假用戶在行為上具備一定相似性的原理,通過(guò)計(jì)算各個(gè)用戶的行為特征值,并據(jù)此對(duì)用戶進(jìn)行聚類,進(jìn)而可以按照預(yù)定策略判定待測(cè)渠道是否使用刷量工具,避免了現(xiàn)有基于硬件接入環(huán)境屬性參數(shù)的分布來(lái)檢測(cè)刷量工具的方法鎖存在的局限性問(wèn)題。
可選的,在以行為特征值為分類條件,對(duì)各個(gè)用戶進(jìn)行分類時(shí),可以將行為特征值相同的用戶劃分為一類。當(dāng)然,還可以按照其它規(guī)則進(jìn)行分類,例如當(dāng)行為特征值為二進(jìn)制組數(shù)形式時(shí),可以將不同位值的個(gè)數(shù)小于預(yù)設(shè)個(gè)數(shù)的行為特征值對(duì)應(yīng)的用戶劃分為一類,如兩個(gè)行為特征值分別為1011和1111,且預(yù)設(shè)個(gè)數(shù)為2,則顯然兩個(gè)行為特征值只有左起第2位的值不同,因此可以將行為特征值1011和1111的兩個(gè)用戶劃分為一類。
在本申請(qǐng)的另一個(gè)實(shí)施例中,公開了幾種不同的判定策略,以確定待測(cè)渠道是否使用了刷量工具。
參見(jiàn)圖2,圖2為本申請(qǐng)實(shí)施例公開的一種確定待測(cè)渠道使用刷量工具的方法流程圖。
如圖2所示,該方法包括:
步驟S200、在所有分類組中篩選出用戶數(shù)量超過(guò)第一閾值的分類組;
步驟S210、統(tǒng)計(jì)篩選出的分類組所包含的用戶總數(shù)量;
對(duì)于篩選得到的各個(gè)分類組,將各個(gè)分類組內(nèi)的用戶數(shù)量相加,得到用戶總數(shù)量。
步驟S220、判斷所述用戶總數(shù)量與所有分類組內(nèi)用戶總數(shù)量的比值是否超過(guò)第二閾值,若是,則執(zhí)行步驟S230;
步驟S230、確定所述待測(cè)渠道使用了刷量工具。
本實(shí)施例中,從所有用戶中篩選出相似行為較高的用戶,判斷此類用戶占總用戶人數(shù)的比重是否超過(guò)一定值,若是則認(rèn)為當(dāng)前待測(cè)渠道使用了刷量工具。
舉例如,與待測(cè)渠道A對(duì)應(yīng)的共有200個(gè)用戶,經(jīng)過(guò)對(duì)大量數(shù)據(jù)進(jìn)行統(tǒng)計(jì),確定第一閾值為20,第二閾值為50%。經(jīng)過(guò)分類得到了6個(gè)分類組,分別為分類組1-6,各個(gè)分類組內(nèi)的用戶數(shù)量依次為100、80、10、5、3、2。顯然,第1和第2個(gè)分類組內(nèi)的人數(shù)超過(guò)了第一閾值,這兩個(gè)分類組內(nèi)人數(shù)總和為100+80=180,判斷180/200=90%>50%,因此確定待測(cè)渠道A使用了刷量工具。
參見(jiàn)圖3,圖3為本申請(qǐng)實(shí)施例公開的另一種確定待測(cè)渠道使用刷量工具的方法流程圖。
如圖3所示,該方法包括:
步驟S300、按照包含用戶數(shù)量由多至少的順序?qū)λ龇诸惤M進(jìn)行排序;
步驟S310、統(tǒng)計(jì)序列中前n個(gè)分類組所包含的用戶總數(shù)量;
這里n值為預(yù)置常數(shù),可以是1、2等任意用戶設(shè)定的常數(shù),當(dāng)然n需要小于分類組總個(gè)數(shù)。
步驟S320、判斷所述用戶總數(shù)量與所有分類組內(nèi)用戶總數(shù)量的比值是否超過(guò)第三閾值,若是,則執(zhí)行步驟S330;
步驟S330、確定所述待測(cè)渠道使用了刷量工具。
本實(shí)施例提供了另外一種確定待測(cè)渠道使用刷量工具的方法,相比于上一實(shí)施例,本實(shí)施中選擇包含用戶數(shù)量較多的前n個(gè)分類組,判斷該n個(gè)分類組總?cè)藬?shù)與所有分類組總?cè)藬?shù)的比重是否超過(guò)第三閾值,若是則確定待測(cè)渠道使用了刷量工具。
舉例如,與待測(cè)渠道B對(duì)應(yīng)的共有200個(gè)用戶,經(jīng)過(guò)對(duì)大量數(shù)據(jù)進(jìn)行統(tǒng)計(jì),確定n為3,第三閾值為60%。經(jīng)過(guò)分類得到了6個(gè)分類組,6個(gè)分類組包含的用戶數(shù)量如下表1所示:
表1
按照包含用戶數(shù)量由大至小的順序,對(duì)分類組進(jìn)行排序:1-3-4-6-5-2。選取前3個(gè)分類組,即分類組1、分類組3和分類組4,求取三個(gè)分類組人數(shù)總和為120+50+15=185。判斷185/200=92.5%>60%,因此確定待測(cè)渠道B使用了刷量工具。
接下來(lái),本實(shí)施例中以應(yīng)用寶軟件為例,對(duì)整個(gè)方案進(jìn)行介紹。
通過(guò)應(yīng)用寶軟件服務(wù)器可以獲取與待測(cè)渠道對(duì)應(yīng)的各用戶的行為數(shù)據(jù),行為數(shù)據(jù)包括下述表2所示的屬性:
表2
依據(jù)各個(gè)用戶的行為數(shù)據(jù),生成各個(gè)用戶的行為特征,行為特征的屬性描述如下表3:
表3
利用SimHash算法,基于各個(gè)用戶的行為特征集合,計(jì)算各個(gè)用戶的行為特征值,并向行為特征值相同的用戶聚為一類,得到若干個(gè)分類組。選取包含用戶數(shù)量最多的分類組,將該分類組內(nèi)用戶數(shù)量除以所有分類組內(nèi)用戶總數(shù)量,判斷結(jié)果是否大于預(yù)設(shè)值,如果是,則認(rèn)為當(dāng)前待測(cè)渠道使用了刷量工具。
下面對(duì)本申請(qǐng)實(shí)施例提供的刷量工具檢測(cè)裝置進(jìn)行描述,下文描述的刷量工具檢測(cè)裝置與上文描述的刷量工具檢測(cè)方法可相互對(duì)應(yīng)參照。
參見(jiàn)圖4,圖4為本申請(qǐng)實(shí)施例公開的一種刷量工具檢測(cè)裝置結(jié)構(gòu)示意圖。
如圖4所示,該裝置包括:
行為數(shù)據(jù)獲取單元41,用于獲取與待測(cè)渠道對(duì)應(yīng)的至少一個(gè)用戶的行為數(shù)據(jù);
行為特征生成單元42,用于依據(jù)各個(gè)用戶的行為數(shù)據(jù),生成各個(gè)用戶的行為特征;
行為特征值計(jì)算單元43,用于利用各個(gè)用戶的行為特征,計(jì)算各個(gè)用戶的行為特征值;
分類處理單元44,用于以行為特征值為分類條件,對(duì)各個(gè)用戶進(jìn)行分類,得到若干個(gè)分類組;
刷量工具確定單元45,用于在確定所述分類組內(nèi)用戶數(shù)量滿足預(yù)置判定 策略時(shí),確定所述待測(cè)渠道使用了刷量工具。
可選的,圖5示例了上述刷量工具確定單元45的一種可選結(jié)構(gòu),如圖5所示,刷量工具確定單元45可以包括:
分類組篩選單元451,用于在所有分類組中篩選出用戶數(shù)量超過(guò)第一閾值的分類組;
第一用戶數(shù)量統(tǒng)計(jì)單元452,用于統(tǒng)計(jì)篩選出的分類組所包含的用戶總數(shù)量;
第一比值判斷單元453,用于判斷所述用戶總數(shù)量與所有分類組內(nèi)用戶總數(shù)量的比值是否超過(guò)第二閾值,若是,則確定所述待測(cè)渠道使用了刷量工具。
可選的,圖6示例了上述刷量工具確定單元45的另一種可選結(jié)構(gòu),如圖6所示,刷量工具確定單元45可以包括:
分類組排序單元454,用于按照包含用戶數(shù)量由多至少的順序?qū)λ龇诸惤M進(jìn)行排序;
第二用戶數(shù)量統(tǒng)計(jì)單元455,用于統(tǒng)計(jì)序列中前n個(gè)分類組所包含的用戶總數(shù)量;
第二比值判斷單元456,用于判斷所述用戶總數(shù)量與所有分類組內(nèi)用戶總數(shù)量的比值是否超過(guò)第三閾值,若是,則確定所述待測(cè)渠道使用了刷量工具。
可選的,圖7示例了上述行為特征值計(jì)算單元43的一種可選結(jié)構(gòu),如圖7所示,行為特征值計(jì)算單元43可以包括:
第一行為特征值計(jì)算子單元431,用于采用SimHash算法,基于各個(gè)用戶的行為特征集合,計(jì)算各個(gè)用戶的行為特征值。
可選的,圖8示例了上述分類處理單元44的一種可選結(jié)構(gòu),如圖8所示,分類處理單元44可以包括:
第一分類處理子單元441,用于將行為特征值相同的用戶劃分為一類。
當(dāng)然,還可以按照其它規(guī)則進(jìn)行分類,例如當(dāng)行為特征值為二進(jìn)制組數(shù)形式時(shí),可以將不同位值的個(gè)數(shù)小于預(yù)設(shè)個(gè)數(shù)的行為特征值對(duì)應(yīng)的用戶劃分為一類,如兩個(gè)行為特征值分別為1011和1111,且預(yù)設(shè)個(gè)數(shù)為2,則顯然兩個(gè)行為特征值只有左起第2位的值不同,因此可以將行為特征值1011和1111的兩個(gè)用戶劃分為一類。
本申請(qǐng)實(shí)施例提供的刷量工具檢測(cè)裝置,獲取與待測(cè)渠道對(duì)應(yīng)的至少一 個(gè)用戶的行為數(shù)據(jù),行為數(shù)據(jù)表征了用戶登錄應(yīng)用后所執(zhí)行的各種操作,進(jìn)而可以依據(jù)各個(gè)用戶的行為數(shù)據(jù)生成各個(gè)用戶的行為特征,然后利用各個(gè)用戶的行為特征計(jì)算各個(gè)用戶的行為特征值,以行為特征值為分類條件,對(duì)用戶進(jìn)行分類,得到若干個(gè)分類組,由于各個(gè)分類組內(nèi)的用戶的行為特征值相似或相同,因而如果一個(gè)或多個(gè)分類組內(nèi)包含的用戶數(shù)量非常大,則意味著該分類組內(nèi)大部分用戶為虛假用戶,也即可以確定待測(cè)渠道使用了刷量工具。本申請(qǐng)利用刷量工具產(chǎn)生的多個(gè)虛假用戶在行為上具備一定相似性的原理,通過(guò)計(jì)算各個(gè)用戶的行為特征值,并據(jù)此對(duì)用戶進(jìn)行聚類,進(jìn)而可以按照預(yù)定策略判定待測(cè)渠道是否使用刷量工具,避免了現(xiàn)有基于硬件接入環(huán)境屬性參數(shù)的分布來(lái)檢測(cè)刷量工具的方法鎖存在的局限性問(wèn)題。
本申請(qǐng)實(shí)施例還提供一種服務(wù)器,該服務(wù)器可以包括上述所述的刷量工具檢測(cè)裝置,對(duì)于刷量工具檢測(cè)裝置的描述可參照上文對(duì)應(yīng)部分描述,此處不再贅述。
下面對(duì)本申請(qǐng)實(shí)施例提供的服務(wù)器的硬件結(jié)構(gòu)進(jìn)行描述,下文描述中涉及賬號(hào)管理的部分可參照上文對(duì)應(yīng)部分描述。圖9為本申請(qǐng)實(shí)施例提供的服務(wù)器的硬件結(jié)構(gòu)示意圖,參照?qǐng)D9,該服務(wù)器可以包括:
處理器1,通信接口2,存儲(chǔ)器3,通信總線4,和顯示屏5;
其中處理器1、通信接口2、存儲(chǔ)器3和顯示屏5通過(guò)通信總線4完成相互間的通信;
可選的,通信接口2可以為通信模塊的接口,如GSM模塊的接口;
處理器1,用于執(zhí)行程序;
存儲(chǔ)器3,用于存放程序;
程序可以包括程序代碼,所述程序代碼包括處理器的操作指令。
處理器1可能是一個(gè)中央處理器CPU,或者是特定集成電路ASIC(Application Specific Integrated Circuit),或者是被配置成實(shí)施本申請(qǐng)實(shí)施例的一個(gè)或多個(gè)集成電路。
存儲(chǔ)器3可能包含高速RAM存儲(chǔ)器,也可能還包括非易失性存儲(chǔ)器(non-volatile memory),例如至少一個(gè)磁盤存儲(chǔ)器。
其中,程序可具體用于:
獲取與待測(cè)渠道對(duì)應(yīng)的至少一個(gè)用戶的行為數(shù)據(jù);
依據(jù)各個(gè)用戶的行為數(shù)據(jù),生成各個(gè)用戶的行為特征;
利用各個(gè)用戶的行為特征,計(jì)算各個(gè)用戶的行為特征值;
以行為特征值為分類條件,對(duì)各個(gè)用戶進(jìn)行分類,得到若干個(gè)分類組;
在確定所述分類組內(nèi)用戶數(shù)量滿足預(yù)置判定策略時(shí),確定所述待測(cè)渠道使用了刷量工具。
最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說(shuō)明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見(jiàn)即可。
對(duì)所公開的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請(qǐng)。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本申請(qǐng)的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本申請(qǐng)將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。