處理用戶行為數(shù)據(jù)的方法和系統(tǒng)的制作方法
【專利摘要】公開(kāi)了獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個(gè)屬性;根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性;當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則不匹配時(shí),將所述用戶行為數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,確定所述用戶行為數(shù)據(jù)異常生成第一報(bào)警消息;當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配時(shí),將所述用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中;將所述統(tǒng)計(jì)結(jié)果與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)集進(jìn)行比較;以及根據(jù)所述比較結(jié)果生成第二報(bào)警消息。本發(fā)明通過(guò)對(duì)用戶行為數(shù)據(jù)的正確性檢查以及對(duì)正確用戶行為數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)的檢查,實(shí)時(shí)檢測(cè)異常數(shù)據(jù),解決用戶行為數(shù)據(jù)異常檢測(cè)的時(shí)效性低的問(wèn)題。
【專利說(shuō)明】
處理用戶行為數(shù)據(jù)的方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體地,涉及處理用戶行為數(shù)據(jù)的方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)已經(jīng)逐漸成為人們生活中不可或缺的一部分。人們通過(guò)瀏覽網(wǎng)站獲取自己所需要的信息,例如查資料、看視頻或者購(gòu)物等。由于人們點(diǎn)擊或者瀏覽網(wǎng)站,產(chǎn)生一些流量數(shù)據(jù)和用戶行為數(shù)據(jù),網(wǎng)站的經(jīng)營(yíng)者可以通過(guò)這些數(shù)據(jù)來(lái)分析客戶的類型。這些數(shù)據(jù)的可靠程度,決定了最終分析結(jié)果的準(zhǔn)確性。因此,對(duì)于這些數(shù)據(jù)的依次情況檢測(cè),顯得十分重要。
[0003]目前,對(duì)于網(wǎng)站的流量數(shù)據(jù)或者用于行為數(shù)據(jù)主要依賴客戶端埋點(diǎn)進(jìn)行收集。在整個(gè)數(shù)據(jù)收集過(guò)程中,會(huì)受以下因素影響:客戶端程序開(kāi)發(fā)、網(wǎng)絡(luò)穩(wěn)定性、服務(wù)器穩(wěn)定性、系統(tǒng)架構(gòu)可靠性等。由于數(shù)據(jù)量巨大,通常問(wèn)題發(fā)生后需要延遲一天以上的時(shí)間才能發(fā)現(xiàn)。排查問(wèn)題、解決問(wèn)題也需要時(shí)間。這樣就導(dǎo)致數(shù)據(jù)異常發(fā)生的時(shí)間會(huì)很長(zhǎng)。
[0004]針對(duì)現(xiàn)有技術(shù)中用戶行為數(shù)據(jù)異常檢測(cè)的時(shí)效性低的問(wèn)題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明提供一種處理用戶行為數(shù)據(jù)的方法和系統(tǒng),以解決用戶行為數(shù)據(jù)異常檢測(cè)的時(shí)效性低的問(wèn)題。
[0006]根據(jù)本發(fā)明的一方面,提供一種處理用戶行為數(shù)據(jù)的方法,包括:獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個(gè)屬性;根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性;當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則不匹配時(shí),將所述用戶行為數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,確定所述用戶行為數(shù)據(jù)異常生成第一報(bào)警消息;當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配時(shí),將所述用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中;將所述統(tǒng)計(jì)結(jié)果與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)集進(jìn)行比較;以及根據(jù)所述比較結(jié)果生成第二報(bào)警消息。
[0007]優(yōu)選地,獲取用戶行為數(shù)據(jù)包括:接收推送的用戶行為數(shù)據(jù);以及將所述用戶行為數(shù)據(jù)添加到消息隊(duì)列中。
[0008]優(yōu)選地,當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配時(shí),將所述用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中包括:每隔預(yù)設(shè)周期,對(duì)預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配的用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0009]優(yōu)選地,根據(jù)所述比較結(jié)果生成第二報(bào)警消息包括:獲取所述統(tǒng)計(jì)結(jié)果與所述標(biāo)準(zhǔn)集的偏離度;判斷所述偏離度是否超過(guò)預(yù)設(shè)閾值;以及當(dāng)所述偏離度超過(guò)預(yù)設(shè)閾值時(shí),生成第二報(bào)警消息。
[0010]優(yōu)選地,所述預(yù)設(shè)維度包括第一維度和第二維度,獲取的標(biāo)準(zhǔn)集為所述第一維度下的第一標(biāo)準(zhǔn)集和第二維度下的第二標(biāo)準(zhǔn)集,其中,根據(jù)所述比較結(jié)果生成第二報(bào)警消息包括:獲取所述統(tǒng)計(jì)結(jié)果與第一標(biāo)準(zhǔn)集的第一偏離度;獲取所述統(tǒng)計(jì)結(jié)果與第二標(biāo)準(zhǔn)集的第二偏離度;判斷所述第一偏離度和所述第二偏離度是否超過(guò)預(yù)設(shè)閾值;以及當(dāng)所述第一偏離度和所述第二偏離度均超過(guò)所述預(yù)設(shè)閾值,則生成第二報(bào)警消息。
[0011]根據(jù)本發(fā)明的另一方面,提供一種處理用戶行為數(shù)據(jù)的系統(tǒng),包括:獲取模塊,用于獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個(gè)屬性;讀取模塊,用于根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性;第一確定模塊,用于當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則不匹配時(shí),將所述用戶行為數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,確定所述用戶行為數(shù)據(jù)異常生成第一報(bào)警消息;統(tǒng)計(jì)數(shù)據(jù)生成模塊,用于當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配時(shí),將所述用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中;比較模塊,用于將所述統(tǒng)計(jì)結(jié)果與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)集進(jìn)行比較;以及判斷模塊,用于根據(jù)所述比較結(jié)果生成第二報(bào)警消息。
[0012]優(yōu)選地,統(tǒng)計(jì)數(shù)據(jù)生成模塊還用于每隔預(yù)設(shè)周期,對(duì)預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配的用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0013]優(yōu)選地,判斷模塊包括:第一獲取單元,用于獲取所述統(tǒng)計(jì)結(jié)果與所述標(biāo)準(zhǔn)集的偏離度;第一判斷單元,用于判斷所述偏離度是否超過(guò)預(yù)設(shè)閾值;以及第一確定單元,用于當(dāng)所述偏離度超過(guò)預(yù)設(shè)閾值時(shí),生成第二報(bào)警消息。
[0014]優(yōu)選地,所述預(yù)設(shè)維度包括第一維度和第二維度,獲取的標(biāo)準(zhǔn)集為所述第一維度下的第一標(biāo)準(zhǔn)集和第二維度下的第二標(biāo)準(zhǔn)集,其中,根據(jù)所述比較結(jié)果生成第二報(bào)警消息包括:第二獲取單元,用于獲取所述統(tǒng)計(jì)結(jié)果與第一標(biāo)準(zhǔn)集的第一偏離度;第三獲取單元,用于獲取所述統(tǒng)計(jì)結(jié)果與第二標(biāo)準(zhǔn)集的第二偏離度;第二判斷單元,用于判斷所述第一偏離度和所述第二偏離度是否超過(guò)預(yù)設(shè)閾值;以及第二確定單元,用于當(dāng)所述第一偏離度和所述第二偏離度均超過(guò)所述預(yù)設(shè)閾值,則生成第二報(bào)警消息。
[0015]根據(jù)本發(fā)明的處理用戶行為數(shù)據(jù)的方法和系統(tǒng),通過(guò)對(duì)用戶行為數(shù)據(jù)的正確性檢查以及對(duì)正確用戶行為數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)的檢查,實(shí)時(shí)檢測(cè)異常數(shù)據(jù),解決用戶行為數(shù)據(jù)異常檢測(cè)的時(shí)效性低的問(wèn)題。
【附圖說(shuō)明】
[0016]通過(guò)參照以下附圖對(duì)本發(fā)明實(shí)施例的描述,本發(fā)明的上述以及其它目的、特征和優(yōu)點(diǎn)將更為清楚,在附圖中:
[0017]圖1示出了根據(jù)本發(fā)明實(shí)施例的處理用戶行為數(shù)據(jù)的系統(tǒng)的示意圖;
[0018]圖2示出了根據(jù)本發(fā)明實(shí)施例的一種優(yōu)選的處理用戶行為數(shù)據(jù)的系統(tǒng)的示意圖;
[0019]圖3示出了根據(jù)本發(fā)明實(shí)施例的處理用戶行為數(shù)據(jù)的方法的流程圖。
【具體實(shí)施方式】
[0020]以下基于實(shí)施例對(duì)本發(fā)明進(jìn)行描述,但是本發(fā)明并不僅僅限于這些實(shí)施例。在下文對(duì)本發(fā)明的細(xì)節(jié)描述中,詳盡描述了一些特定的細(xì)節(jié)部分。對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)沒(méi)有這些細(xì)節(jié)部分的描述也可以完全理解本發(fā)明。為了避免混淆本發(fā)明的實(shí)質(zhì),公知的方法、過(guò)程、流程沒(méi)有詳細(xì)敘述。另外附圖不一定是按比例繪制的。
[0021]附圖中的流程圖、框圖圖示了本發(fā)明實(shí)施例的系統(tǒng)、方法、裝置的可能的體系框架、功能和操作,流程圖和框圖上的方框可以代表一個(gè)模塊、程序段或僅僅是一段代碼,所述模塊、程序段和代碼都是用來(lái)實(shí)現(xiàn)規(guī)定邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,所述實(shí)現(xiàn)規(guī)定邏輯功能的可執(zhí)行指令可以重新組合,從而生成新的模塊和程序段。因此附圖的方框以及方框順序只是用來(lái)更好的圖示實(shí)施例的過(guò)程和步驟,而不應(yīng)以此作為對(duì)發(fā)明本身的限制。
[0022]圖1示出了根據(jù)本發(fā)明實(shí)施例的處理用戶行為數(shù)據(jù)的系統(tǒng)的示意圖。如圖1所示,所述數(shù)據(jù)處理系統(tǒng)包括獲取模塊10、讀取模塊20、第一確定模塊30、統(tǒng)計(jì)生成模塊40、比較模塊50和判斷模塊60。
[0023]獲取模塊10用于獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個(gè)屬性。
[0024]在本實(shí)施例中,用戶在訪問(wèn)網(wǎng)站或者看視頻時(shí),產(chǎn)生一些用戶行為數(shù)據(jù),例如,用戶的IP地址、用戶點(diǎn)擊網(wǎng)站或者視頻的次數(shù),用戶訪問(wèn)網(wǎng)站或者看視頻產(chǎn)生的流量,用戶訪問(wèn)網(wǎng)站所使用的瀏覽器、用戶看視頻的APP、用戶查找網(wǎng)站或者視頻所使用的搜索引擎等等數(shù)據(jù)。這些用戶行為數(shù)據(jù)可以從網(wǎng)站的日志文件中獲取。獲取用戶行為數(shù)據(jù)是實(shí)時(shí)獲取用戶行為數(shù)據(jù),并將所述用戶行為數(shù)據(jù)添加到消息隊(duì)列中。
[0025]讀取模塊20用于根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性。
[0026]預(yù)設(shè)維度可以是一個(gè)也可以是多個(gè),該預(yù)設(shè)維度可以根據(jù)需要進(jìn)行選擇。例如,當(dāng)需要分析網(wǎng)站的用戶點(diǎn)擊某一視頻的播放時(shí)長(zhǎng)時(shí),可以選擇某一視頻的播放時(shí)長(zhǎng)這一維度。例如,當(dāng)預(yù)設(shè)維度為某一視頻的播放時(shí)長(zhǎng)時(shí),需要對(duì)用戶行為數(shù)據(jù)中的某一視頻的播放時(shí)長(zhǎng)進(jìn)行分類,將播放某一視頻的用戶的播放時(shí)長(zhǎng)歸為一類。
[0027]第一確定模塊30,用于當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則不匹配時(shí),將所述用戶行為數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,確定所述用戶行為數(shù)據(jù)異常生成第一報(bào)警消息。
[0028]在本實(shí)施例中,每接收到一條用戶行為數(shù)據(jù)均對(duì)其屬性進(jìn)行正確性檢查,例如當(dāng)預(yù)設(shè)維度為某一視頻的播放時(shí)長(zhǎng)時(shí),需要對(duì)用戶行為數(shù)據(jù)中針對(duì)某一視頻的播放時(shí)長(zhǎng)進(jìn)行檢測(cè),若標(biāo)準(zhǔn)規(guī)則為[0,180s],而用戶行為數(shù)據(jù)的屬性與該標(biāo)準(zhǔn)規(guī)則不匹配時(shí),確定該數(shù)據(jù)異常,生成第一報(bào)警消息,通知業(yè)務(wù)方。
[0029]統(tǒng)計(jì)數(shù)據(jù)生成模塊40,用于當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配時(shí),將所述用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0030]在本實(shí)施例中,用戶行為數(shù)據(jù)的屬性與該標(biāo)準(zhǔn)規(guī)則匹配時(shí),然后對(duì)每一類的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),從而計(jì)算出用戶點(diǎn)擊視頻的播放時(shí)長(zhǎng)和播放時(shí)長(zhǎng)滿足標(biāo)準(zhǔn)規(guī)則的用戶的數(shù)量,即為統(tǒng)計(jì)結(jié)果。當(dāng)預(yù)設(shè)維度為搜索引擎時(shí),對(duì)采用不同的搜索引擎的用戶進(jìn)行分類,并對(duì)每一個(gè)搜索引擎的用戶數(shù)量進(jìn)行統(tǒng)計(jì),得到用戶使用的搜索引擎和使用每個(gè)搜索引擎的數(shù)量。如果預(yù)設(shè)維度包括多個(gè)維度,則按照多個(gè)維度對(duì)用戶行為數(shù)據(jù)分別進(jìn)行計(jì)算。每隔預(yù)設(shè)周期,對(duì)預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配的用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。比如每隔5分鐘進(jìn)行一次統(tǒng)計(jì),統(tǒng)計(jì)完成后再進(jìn)行下一輪的統(tǒng)計(jì)。
[0031]比較模塊50,用于將所述統(tǒng)計(jì)結(jié)果與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)集進(jìn)行比較。
[0032]在本實(shí)施例中,標(biāo)準(zhǔn)集可以是用于判斷用戶行為數(shù)據(jù)是否異常的標(biāo)準(zhǔn),該標(biāo)準(zhǔn)集可以是預(yù)先創(chuàng)建好的標(biāo)準(zhǔn)集,當(dāng)預(yù)設(shè)維度為多個(gè)維度時(shí),相應(yīng)的標(biāo)準(zhǔn)集也為多個(gè),其中,每一個(gè)維度對(duì)應(yīng)一個(gè)標(biāo)準(zhǔn)集。例如,對(duì)于視頻網(wǎng)站,由于不同國(guó)家的電視劇的受歡迎程度不同,對(duì)不同國(guó)家的電視劇的用戶點(diǎn)擊率也各不相同。根據(jù)預(yù)先統(tǒng)計(jì)的結(jié)果,可以得到不同國(guó)家的電視劇的用戶點(diǎn)擊數(shù)量的排名,通常情況下,韓劇的排名會(huì)靠前。此時(shí),可以將國(guó)家排名作為標(biāo)準(zhǔn)集,用于判斷用戶行為數(shù)據(jù)的異常。例如,在對(duì)用戶行為數(shù)據(jù)進(jìn)行計(jì)算之后,發(fā)現(xiàn)香港電視劇的用戶點(diǎn)擊數(shù)量最大,相當(dāng)于當(dāng)前香港電視劇的用戶點(diǎn)擊數(shù)量排名第一,而在相應(yīng)維度的標(biāo)準(zhǔn)集功能,發(fā)現(xiàn)香港電視劇的排名第15,香港電視劇的用戶點(diǎn)擊數(shù)量出現(xiàn)較大的波動(dòng),此時(shí),可以認(rèn)為當(dāng)前用戶行為數(shù)據(jù)出現(xiàn)異常。
[0033]在本實(shí)施例中,標(biāo)準(zhǔn)集可以是通過(guò)對(duì)所有同領(lǐng)域的網(wǎng)站的用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的結(jié)果,也可以是對(duì)該網(wǎng)站中的歷史用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的結(jié)果。將統(tǒng)計(jì)結(jié)果與該標(biāo)準(zhǔn)集進(jìn)行比較,其中比較結(jié)果可以是計(jì)算結(jié)果相對(duì)于標(biāo)準(zhǔn)集的偏離度,該偏離度用戶表示統(tǒng)計(jì)結(jié)果與標(biāo)準(zhǔn)集的偏離程度。
[0034]判斷模塊60,用于根據(jù)所述比較結(jié)果生成第二報(bào)警消息。
[0035]在得到比較結(jié)果之后,可以根據(jù)比較結(jié)果判斷用戶行為數(shù)據(jù)是否出現(xiàn)異常。如果統(tǒng)計(jì)結(jié)果與標(biāo)準(zhǔn)集比較接近或者完全相同,則可以認(rèn)為用戶行為數(shù)據(jù)未出現(xiàn)異常,反之,可以認(rèn)為用戶行為數(shù)據(jù)出現(xiàn)異常。當(dāng)然,統(tǒng)計(jì)結(jié)果與標(biāo)準(zhǔn)集相差較大時(shí),也可以認(rèn)為用戶行為數(shù)據(jù)疑似異常,然后再根據(jù)統(tǒng)計(jì)結(jié)果相對(duì)于標(biāo)準(zhǔn)集的偏離度,判斷該偏離度是否超過(guò)預(yù)設(shè)。
[0036]根據(jù)本發(fā)明的處理用戶行為數(shù)據(jù)的方法和系統(tǒng),通過(guò)對(duì)用戶行為數(shù)據(jù)的正確性檢查以及對(duì)正確用戶行為數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)的檢查,實(shí)時(shí)檢測(cè)異常數(shù)據(jù),解決用戶行為數(shù)據(jù)異常檢測(cè)的時(shí)效性低的問(wèn)題。
[0037]圖2示出了根據(jù)本發(fā)明實(shí)施例的一種優(yōu)選的處理用戶行為數(shù)據(jù)的系統(tǒng)的示意圖。如圖2所示,所示系統(tǒng)包括:獲取模塊10、讀取模塊20、第一確定模塊30、統(tǒng)計(jì)生成模塊40、比較模塊50和判斷模塊60。其中,判斷模塊60包括第一獲取單元601、第一判斷單元602和第一確定單元603。獲取模塊10、讀取模塊20、第一確定模塊30、統(tǒng)計(jì)生成模塊40和比較模塊50分別與圖1所示的獲取模塊10、讀取模塊20、第一確定模塊30、統(tǒng)計(jì)生成模塊40和比較模塊50功能相同,這里不做贅述。
[0038]第一獲取單元601,用于獲取所述統(tǒng)計(jì)結(jié)果與所述標(biāo)準(zhǔn)集的偏離度,偏離度用于表示統(tǒng)計(jì)結(jié)果與所述標(biāo)準(zhǔn)集的偏離程度。
[0039]偏離度用于表示統(tǒng)計(jì)結(jié)果與標(biāo)準(zhǔn)集的偏離程度,其中,偏離度的值越大,表示計(jì)算結(jié)果與標(biāo)準(zhǔn)集的偏離程度越大。例如,當(dāng)對(duì)用戶行為數(shù)據(jù)進(jìn)行計(jì)算之后,發(fā)現(xiàn)某一視頻點(diǎn)擊的用戶數(shù)量最大,相當(dāng)于當(dāng)前該視頻點(diǎn)擊的用戶數(shù)量排名第一,此為統(tǒng)計(jì)結(jié)果,而在相應(yīng)維度的標(biāo)準(zhǔn)集中,該視頻點(diǎn)擊的排名第二十,則統(tǒng)計(jì)結(jié)果與標(biāo)準(zhǔn)集之間的偏離度為19,獲取該偏離度,則可以判斷統(tǒng)計(jì)結(jié)果對(duì)應(yīng)的用戶行為數(shù)據(jù)是否異常。
[0040]第一判斷單元602,用于判斷所述偏離度是否超過(guò)預(yù)設(shè)閾值。
[0041]預(yù)設(shè)閾值可以是根據(jù)需要進(jìn)行預(yù)先設(shè)置。不同的維度對(duì)應(yīng)的預(yù)設(shè)閾值可以相同,也可以不相同。例如,假如預(yù)設(shè)閾值為5,在上述舉例中,計(jì)算結(jié)果與訓(xùn)練集之間的偏離度為19,通過(guò)判斷19與5之間的大小就可以判斷出用戶行為數(shù)據(jù)是否出現(xiàn)異常。
[0042]第一確定單元603,用于當(dāng)所述偏離度超過(guò)預(yù)設(shè)閾值時(shí),生成第二報(bào)警消息。
[0043]例如,上述舉例中,19>5,則表明計(jì)算結(jié)果超出預(yù)設(shè)閾值,則確定用戶行為數(shù)據(jù)出現(xiàn)異常,生成第二報(bào)警消息,通知業(yè)務(wù)方。
[0044]優(yōu)選地,預(yù)設(shè)維度包括第一維度和第二維度,獲取的標(biāo)準(zhǔn)集為所述第一維度下的第一標(biāo)準(zhǔn)集和第二維度下的第二標(biāo)準(zhǔn)集,其中,根據(jù)所述比較結(jié)果生成第二報(bào)警消息包括:第二獲取單元,用于獲取所述統(tǒng)計(jì)結(jié)果與第一標(biāo)準(zhǔn)集的第一偏離度;第三獲取單元,用于獲取所述統(tǒng)計(jì)結(jié)果與第二標(biāo)準(zhǔn)集的第二偏離度;第二判斷單元,用于判斷所述第一偏離度和所述第二偏離度是否超過(guò)預(yù)設(shè)閾值;以及第二確定單元,用于當(dāng)所述第一偏離度和所述第二偏離度均超過(guò)所述預(yù)設(shè)閾值,則生成第二報(bào)警消息。
[0045]需要說(shuō)明的是,預(yù)設(shè)維度也可以是3個(gè)或者更多的維度。
[0046]圖3示出了根據(jù)本發(fā)明實(shí)施例的處理用戶行為數(shù)據(jù)的方法的流程圖。所述處理用戶行為數(shù)據(jù)的方法包括以下步驟S301至S306。
[0047]在步驟S301中,獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個(gè)屬性。
[0048]在本實(shí)施例中,用戶在訪問(wèn)網(wǎng)站或者看視頻時(shí),產(chǎn)生一些用戶行為數(shù)據(jù),例如,用戶的IP地址、用戶點(diǎn)擊網(wǎng)站或者視頻的次數(shù),用戶訪問(wèn)網(wǎng)站或者看視頻產(chǎn)生的流量,用戶訪問(wèn)網(wǎng)站所使用的瀏覽器、用戶看視頻的APP、用戶查找網(wǎng)站或者視頻所使用的搜索引擎等等數(shù)據(jù)。這些用戶行為數(shù)據(jù)可以從網(wǎng)站的日志文件中獲取。獲取用戶行為數(shù)據(jù)是實(shí)時(shí)獲取用戶行為數(shù)據(jù),并將所述用戶行為數(shù)據(jù)添加到消息隊(duì)列中。
[0049]在步驟S302中,根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性。
[0050]預(yù)設(shè)維度可以是一個(gè)也可以是多個(gè),該預(yù)設(shè)維度可以根據(jù)需要進(jìn)行選擇。例如,當(dāng)需要分析網(wǎng)站的用戶點(diǎn)擊某一視頻的播放時(shí)長(zhǎng)時(shí),可以選擇某一視頻的播放時(shí)長(zhǎng)這一維度。例如,當(dāng)預(yù)設(shè)維度為某一視頻的播放時(shí)長(zhǎng)時(shí),需要對(duì)用戶行為數(shù)據(jù)中的某一視頻的播放時(shí)長(zhǎng)進(jìn)行分類,將播放某一視頻的用戶的播放時(shí)長(zhǎng)歸為一類。
[0051]在步驟S303中,當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則不匹配時(shí),將所述用戶行為數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,確定所述用戶行為數(shù)據(jù)異常生成第一報(bào)警消息。
[0052]在本實(shí)施例中,每接收到一條用戶行為數(shù)據(jù)均對(duì)其屬性進(jìn)行正確性檢查,例如當(dāng)預(yù)設(shè)維度為某一視頻的播放時(shí)長(zhǎng)時(shí),需要對(duì)用戶行為數(shù)據(jù)中針對(duì)某一視頻的播放時(shí)長(zhǎng)進(jìn)行檢測(cè),若標(biāo)準(zhǔn)規(guī)則為[0,180s],而用戶行為數(shù)據(jù)的屬性與該標(biāo)準(zhǔn)規(guī)則不匹配時(shí),確定該數(shù)據(jù)異常,生成第一報(bào)警消息,通知業(yè)務(wù)方。
[0053]在步驟S304中,當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配時(shí),將所述用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0054]在本實(shí)施例中,用戶行為數(shù)據(jù)的屬性與該標(biāo)準(zhǔn)規(guī)則匹配時(shí),然后對(duì)每一類的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),從而計(jì)算出用戶點(diǎn)擊視頻的播放時(shí)長(zhǎng)和播放時(shí)長(zhǎng)滿足標(biāo)準(zhǔn)規(guī)則的用戶的數(shù)量,即為統(tǒng)計(jì)結(jié)果。當(dāng)預(yù)設(shè)維度為搜索引擎時(shí),對(duì)采用不同的搜索引擎的用戶進(jìn)行分類,并對(duì)每一個(gè)搜索引擎的用戶數(shù)量進(jìn)行統(tǒng)計(jì),得到用戶使用的搜索引擎和使用每個(gè)搜索引擎的數(shù)量。如果預(yù)設(shè)維度包括多個(gè)維度,則按照多個(gè)維度對(duì)用戶行為數(shù)據(jù)分別進(jìn)行計(jì)算。每隔預(yù)設(shè)周期,對(duì)預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配的用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。比如每隔5分鐘進(jìn)行一次統(tǒng)計(jì),統(tǒng)計(jì)完成后再進(jìn)行下一輪的統(tǒng)計(jì)。
[0055]在步驟S305中,將所述統(tǒng)計(jì)結(jié)果與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)集進(jìn)行比較。
[0056]在本實(shí)施例中,標(biāo)準(zhǔn)集可以是用于判斷用戶行為數(shù)據(jù)是否異常的標(biāo)準(zhǔn),該標(biāo)準(zhǔn)集可以是預(yù)先創(chuàng)建好的標(biāo)準(zhǔn)集,當(dāng)預(yù)設(shè)維度為多個(gè)維度時(shí),相應(yīng)的標(biāo)準(zhǔn)集也為多個(gè),其中,每一個(gè)維度對(duì)應(yīng)一個(gè)標(biāo)準(zhǔn)集。例如,對(duì)于視頻網(wǎng)站,由于不同國(guó)家的電視劇的受歡迎程度不同,對(duì)不同國(guó)家的電視劇的用戶點(diǎn)擊率也各不相同。根據(jù)預(yù)先統(tǒng)計(jì)的結(jié)果,可以得到不同國(guó)家的電視劇的用戶點(diǎn)擊數(shù)量的排名,通常情況下,韓劇的排名會(huì)靠前。此時(shí),可以將國(guó)家排名作為標(biāo)準(zhǔn)集,用于判斷用戶行為數(shù)據(jù)的異常。例如,在對(duì)用戶行為數(shù)據(jù)進(jìn)行計(jì)算之后,發(fā)現(xiàn)香港電視劇的用戶點(diǎn)擊數(shù)量最大,相當(dāng)于當(dāng)前香港電視劇的用戶點(diǎn)擊數(shù)量排名第一,而在相應(yīng)維度的標(biāo)準(zhǔn)集功能,發(fā)現(xiàn)香港電視劇的排名第15,香港電視劇的用戶點(diǎn)擊數(shù)量出現(xiàn)較大的波動(dòng),此時(shí),可以認(rèn)為當(dāng)前用戶行為數(shù)據(jù)出現(xiàn)異常。
[0057]在本實(shí)施例中,標(biāo)準(zhǔn)集可以是通過(guò)對(duì)所有同領(lǐng)域的網(wǎng)站的用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的結(jié)果,也可以是對(duì)該網(wǎng)站中的歷史用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的結(jié)果。將統(tǒng)計(jì)結(jié)果與該標(biāo)準(zhǔn)集進(jìn)行比較,其中比較結(jié)果可以是計(jì)算結(jié)果相對(duì)于標(biāo)準(zhǔn)集的偏離度,該偏離度用戶表示統(tǒng)計(jì)結(jié)果與標(biāo)準(zhǔn)集的偏離程度。
[0058]在步驟S306中,根據(jù)所述比較結(jié)果生成第二報(bào)警消息。
[0059]在得到比較結(jié)果之后,可以根據(jù)比較結(jié)果判斷用戶行為數(shù)據(jù)是否出現(xiàn)異常。如果統(tǒng)計(jì)結(jié)果與標(biāo)準(zhǔn)集比較接近或者完全相同,則可以認(rèn)為用戶行為數(shù)據(jù)未出現(xiàn)異常,反之,可以認(rèn)為用戶行為數(shù)據(jù)出現(xiàn)異常。當(dāng)然,統(tǒng)計(jì)結(jié)果與標(biāo)準(zhǔn)集相差較大時(shí),也可以認(rèn)為用戶行為數(shù)據(jù)疑似異常,然后再根據(jù)統(tǒng)計(jì)結(jié)果相對(duì)于標(biāo)準(zhǔn)集的偏離度,判斷該偏離度是否超過(guò)預(yù)設(shè)。
[0060]根據(jù)本發(fā)明的處理用戶行為數(shù)據(jù)的方法和系統(tǒng),通過(guò)對(duì)用戶行為數(shù)據(jù)的正確性檢查以及對(duì)正確用戶行為數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)的檢查,實(shí)時(shí)檢測(cè)異常數(shù)據(jù),解決用戶行為數(shù)據(jù)異常檢測(cè)的時(shí)效性低的問(wèn)題。
【主權(quán)項(xiàng)】
1.一種處理用戶行為數(shù)據(jù)的方法,包括: 獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個(gè)屬性; 根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性; 當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則不匹配時(shí),將所述用戶行為數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,確定所述用戶行為數(shù)據(jù)異常生成第一報(bào)警消息; 當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配時(shí),將所述用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中; 將所述統(tǒng)計(jì)結(jié)果與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)集進(jìn)行比較;以及 根據(jù)所述比較結(jié)果生成第二報(bào)警消息。2.根據(jù)權(quán)利要求1所述的方法,其中,獲取用戶行為數(shù)據(jù)包括: 接收推送的用戶行為數(shù)據(jù);以及 將所述用戶行為數(shù)據(jù)添加到消息隊(duì)列中。3.根據(jù)權(quán)利要求2所述的方法,其中,當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配時(shí),將所述用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中包括: 每隔預(yù)設(shè)周期,對(duì)預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配的用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。4.根據(jù)權(quán)利要求2所述的方法,其中,根據(jù)所述比較結(jié)果生成第二報(bào)警消息包括: 獲取所述統(tǒng)計(jì)結(jié)果與所述標(biāo)準(zhǔn)集的偏離度; 判斷所述偏離度是否超過(guò)預(yù)設(shè)閾值;以及 當(dāng)所述偏離度超過(guò)預(yù)設(shè)閾值時(shí),生成第二報(bào)警消息。5.根據(jù)權(quán)利要求2所述的方法,其中,所述預(yù)設(shè)維度包括第一維度和第二維度,獲取的標(biāo)準(zhǔn)集為所述第一維度下的第一標(biāo)準(zhǔn)集和第二維度下的第二標(biāo)準(zhǔn)集,其中,根據(jù)所述比較結(jié)果生成第二報(bào)警消息包括: 獲取所述統(tǒng)計(jì)結(jié)果與第一標(biāo)準(zhǔn)集的第一偏離度; 獲取所述統(tǒng)計(jì)結(jié)果與第二標(biāo)準(zhǔn)集的第二偏離度; 判斷所述第一偏離度和所述第二偏離度是否超過(guò)預(yù)設(shè)閾值;以及 當(dāng)所述第一偏離度和所述第二偏離度均超過(guò)所述預(yù)設(shè)閾值,則生成第二報(bào)警消息。6.—種處理用戶行為數(shù)據(jù)的系統(tǒng),包括: 獲取模塊,用于獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個(gè)屬性; 讀取模塊,用于根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性; 第一確定模塊,用于當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則不匹配時(shí),將所述用戶行為數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,確定所述用戶行為數(shù)據(jù)異常生成第一報(bào)警消息;統(tǒng)計(jì)數(shù)據(jù)生成模塊,用于當(dāng)所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配時(shí),將所述用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中; 比較模塊,用于將所述統(tǒng)計(jì)結(jié)果與預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)集進(jìn)行比較;以及 判斷模塊,用于根據(jù)所述比較結(jié)果生成第二報(bào)警消息。7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,統(tǒng)計(jì)數(shù)據(jù)生成模塊還用于每隔預(yù)設(shè)周期,對(duì)預(yù)設(shè)維度對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則匹配的用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。8.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,判斷模塊包括: 第一獲取單元,用于獲取所述統(tǒng)計(jì)結(jié)果與所述標(biāo)準(zhǔn)集的偏離度; 第一判斷單元,用于判斷所述偏離度是否超過(guò)預(yù)設(shè)閾值;以及 第一確定單元,用于當(dāng)所述偏離度超過(guò)預(yù)設(shè)閾值時(shí),生成第二報(bào)警消息。9.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述預(yù)設(shè)維度包括第一維度和第二維度,獲取的標(biāo)準(zhǔn)集為所述第一維度下的第一標(biāo)準(zhǔn)集和第二維度下的第二標(biāo)準(zhǔn)集,其中,根據(jù)所述比較結(jié)果生成第二報(bào)警消息包括: 第二獲取單元,用于獲取所述統(tǒng)計(jì)結(jié)果與第一標(biāo)準(zhǔn)集的第一偏離度; 第三獲取單元,用于獲取所述統(tǒng)計(jì)結(jié)果與第二標(biāo)準(zhǔn)集的第二偏離度; 第二判斷單元,用于判斷所述第一偏離度和所述第二偏離度是否超過(guò)預(yù)設(shè)閾值;以及第二確定單元,用于當(dāng)所述第一偏離度和所述第二偏離度均超過(guò)所述預(yù)設(shè)閾值,則生成第二報(bào)警消息。
【文檔編號(hào)】G06F17/30GK105868256SQ201511001474
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2015年12月28日
【發(fā)明人】張甲超
【申請(qǐng)人】樂(lè)視網(wǎng)信息技術(shù)(北京)股份有限公司