一種基于變長序列模式挖掘的用戶異常行為檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實施例涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種基于變長序列模式挖掘的用 戶異常行為檢測方法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)的迅猛發(fā)展催生了電子商務(wù)的繁榮,其中虛擬資產(chǎn)交易的增長尤為迅速。 目前,我國已經(jīng)開展了基于elD的網(wǎng)域空間虛擬資產(chǎn)管理與保全技術(shù)研究,實現(xiàn)對虛擬資 產(chǎn)的規(guī)范統(tǒng)一管理。虛擬資產(chǎn)保全系統(tǒng)全面準(zhǔn)確的記錄了對虛擬資產(chǎn)的各種操作,但如何 從這些記錄數(shù)據(jù)中間挖掘出異常的用戶交易行為仍然面臨諸多挑戰(zhàn)。針對網(wǎng)絡(luò)虛擬資產(chǎn)交 易信息規(guī)模巨大,增長速度非??斓奶攸c,自動地從海量的虛擬資產(chǎn)交易信息中發(fā)現(xiàn)以及 預(yù)測用戶異常行為,從而對已經(jīng)發(fā)生以及可能發(fā)生的犯罪行為進(jìn)行有效的檢測顯得極為迫 切。
[0003] 現(xiàn)在用戶行為的異常檢測方法中對離線分析研究的較多,如基于聚類和基于分類 的異常發(fā)現(xiàn)技術(shù),離線分析即是針對歷史數(shù)據(jù)進(jìn)行分析,如果發(fā)現(xiàn)異常數(shù)據(jù),那么再對異常 數(shù)據(jù)進(jìn)行追溯,找到異常源頭。離線異常檢測存在時效性很低等問題。而在線分析方法研究 較少,現(xiàn)存的一些在線分析方法存在檢測準(zhǔn)確率低、不能準(zhǔn)確描述用戶的復(fù)雜行為等問題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供的一種基于變長序列模式挖掘的用戶異常行為檢測方法,可以實現(xiàn)快 速高效的在線檢測用戶異常行為,解決現(xiàn)有技術(shù)只能離線分析導(dǎo)致不能準(zhǔn)確描述用戶復(fù)雜 行為的問題。
[0005] 本發(fā)明提供的一種基于變長序列模式挖掘的用戶異常行為檢測方法,包括用戶正 常行為訓(xùn)練階段和用戶異常行為檢測階段,其中:
[0006] 所述用戶正常行為訓(xùn)練階段包括:
[0007] 步驟一、對數(shù)據(jù)庫中用戶正常行為日志數(shù)據(jù)進(jìn)行預(yù)處理,以獲取多個用戶正常行 為變長序列流;
[0008] 步驟二、根據(jù)所述多個用戶正常行為變長序列流中每個用戶正常行為變長序列流 及其出現(xiàn)的次數(shù),構(gòu)建生成用戶正常行為模式;
[0009] 所述用戶異常行為檢測階段包括:
[0010] 步驟一、將待檢測的用戶行為在線數(shù)據(jù)生成多個變長序列;
[0011] 步驟二、將所述變長序列與所述用戶的正常行為模式中的各變長序列流進(jìn)行匹配 對比,以判斷待檢測的用戶行為變長序列是否為異常用戶行為數(shù)據(jù)。
[0012] 進(jìn)一步地,在上述技術(shù)方案的基礎(chǔ)上,在所述用戶正常行為訓(xùn)練階段還包括:
[0013] 在由每個用戶正常行為變長序列流及其出現(xiàn)的次數(shù)構(gòu)建生成用戶正常行為模式 的基礎(chǔ)上,計算每個用戶正常行為變長序列流的IDF值,并根據(jù)所述IDF值更新所述用戶正 常行為模式以獲取優(yōu)化的用戶正常行為模式。
[0014] 進(jìn)一步地,在上述技術(shù)方案的基礎(chǔ)上,在所述用戶正常行為訓(xùn)練階段對數(shù)據(jù)庫中 用戶正常行為日志數(shù)據(jù)進(jìn)行預(yù)處理時只對用戶正常行為日志數(shù)據(jù)中的數(shù)據(jù)概要進(jìn)行預(yù)處 理;
[0015] 相應(yīng)地,在所述用戶異常行為檢測階段將待檢測的用戶行為在線數(shù)據(jù)生成多個變 長序列時,也只針對待檢測的用戶行為在線數(shù)據(jù)的數(shù)據(jù)概要生成多個變長序列。
[0016] 進(jìn)一步地,在上述技術(shù)方案的基礎(chǔ)上,所述數(shù)據(jù)概要包括用戶ID、商品ID、商品類 別以及操作類型。
[0017] 進(jìn)一步地,在上述技術(shù)方案的基礎(chǔ)上,在所述用戶異常行為檢測階段判斷待檢測 的用戶行為變長序列是否為異常用戶行為數(shù)據(jù)時,還包括:
[0018] 設(shè)置一預(yù)定IDF閥值;
[0019] 計算待檢測的各用戶行為變長序列的IDF值,若低于所述預(yù)定IDF閥值時,則將此 用戶行為變長序列刪除以省略對此用戶行為變長序列的判斷。
[0020] 進(jìn)一步地,在上述技術(shù)方案的基礎(chǔ)上,還包括:
[0021] 根據(jù)用戶行為變長序列中不同序列長度而對應(yīng)設(shè)置不同的預(yù)定IDF閥值,判斷時 當(dāng)所有判決值均大于其對應(yīng)長度的IDF值時判斷為用戶正常行為。
[0022] 和現(xiàn)有技術(shù)相比,本發(fā)明提供的一種基于變長序列模式挖掘的用戶異常行為檢測 方法,首先通過在離線系統(tǒng)中使用用戶的歷史行為數(shù)據(jù)建模計算出用戶的正常行為模式, 最后在在線系統(tǒng)中提取用戶的當(dāng)前行為模式與數(shù)據(jù)庫中的正常行為模式進(jìn)行匹配看當(dāng)前 行為是否異常,可以實現(xiàn)在線檢測用戶異常行為,提高了檢測用戶異常行為的準(zhǔn)確性和實 時性。
【附圖說明】
[0023] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0024]圖1為本發(fā)明提供的基于變長序列模式挖掘的用戶異常行為檢測方法的實施例 一的流程圖;
[0025]圖2為本發(fā)明提供的基于變長序列模式挖掘的用戶異常行為檢測方法的實施例 二的流程圖;
[0026]圖3為本發(fā)明提供的基于變長序列模式挖掘的用戶異常行為檢測方法的實施例 三的流程圖。
【具體實施方式】
[0027] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0028] 實施例一
[0029]圖1為本發(fā)明提供的基于變長序列模式挖掘的用戶異常行為檢測方法的實施例 的流程圖,如圖1所示,該方法包括兩個階段,分別是:
[0030] 第一階段1:用戶正常行為訓(xùn)練階段,該階段主要是在離線系統(tǒng)中使用用戶的歷 史行為數(shù)據(jù)建模計算出用戶的正常行為模式;
[0031] 第二階段2:用戶異常行為檢測階段,該階段主要是在在線系統(tǒng)中提取用戶的當(dāng) 前行為模式與數(shù)據(jù)庫中的正常行為模式進(jìn)行匹配看當(dāng)前行為是否異常。
[0032] 具體地,在用戶正常行為訓(xùn)練階段包括以下步驟:
[0033] 步驟11、對數(shù)據(jù)庫中用戶正常行為日志數(shù)據(jù)進(jìn)行預(yù)處理,以獲取多個用戶正常行 為變長序列流;此步驟中,優(yōu)選地,在所述用戶正常行為訓(xùn)練階段對數(shù)據(jù)庫中用戶正常行為 日志數(shù)據(jù)進(jìn)行預(yù)處理時只對用戶正常行為日志數(shù)據(jù)中的數(shù)據(jù)概要進(jìn)行預(yù)處理;
[0034] 步驟12、根據(jù)所述多個用戶正常行為變長序列流中每個用戶正常行為變長序列流 及其出現(xiàn)的次數(shù),構(gòu)建生成用戶正常行為模式。
[0035] 具體地,在用戶異常行為檢測階段包括以下步驟:
[0036] 步驟21、將待檢測的用戶行為在線數(shù)據(jù)生成多個變長序列;
[0037] 相應(yīng)地,此步驟中優(yōu)選地,在所述用戶異常行為檢測階段將待檢測的用戶行為在 線數(shù)據(jù)生成多個變長序列時,也只針對待檢測的用戶行為在線數(shù)據(jù)的數(shù)據(jù)概要生成多個變 長序列。
[0038] 步驟22、將所述變長序列與所述用戶的正常行為模式中的各變長序列流進(jìn)行匹配 對比,以判斷待檢測的用戶行為變長序列是否為異常用戶行為數(shù)據(jù)。
[0039] 在所述用戶正常行為訓(xùn)練階段對數(shù)據(jù)庫中用戶正常行為日志數(shù)據(jù)進(jìn)行預(yù)處理時 只對用戶正常行為日志數(shù)據(jù)中的數(shù)據(jù)概要進(jìn)行預(yù)處理。
[0040] 實施例二
[0041]圖2為本發(fā)明提供的基于變長序列模式挖掘的用戶異常行為檢測方法的實施例 二的流程圖,如圖2所示,實施例二在實施例一的基礎(chǔ)上,進(jìn)一步地,在所述用戶正常行為 訓(xùn)練階段還包括:
[0042] 步驟15、在由每個用戶正常行為變長序列流及其出現(xiàn)的次數(shù)構(gòu)建生成用戶正 常行為模式的基礎(chǔ)上,計算每個用戶正常行為變長序列流的IDF(InverseDocument Frequency)值,并根據(jù)所述IDF值更新所述用戶正常行為模式以獲取優(yōu)化的用戶正常行為 模式。IDF值反映了一個序列的重要性,某一短序列的IDF值越高,說明該序列對用戶越重 要,其辨識度越高,即通過此序列更能區(qū)分當(dāng)前用戶和其他用戶;IDF值越低,說明該序列 對用戶越不重要,其辨識度越低。
[0043] 實施例三
[0044]圖3為本發(fā)明提供的基于變長序列模式挖掘的用戶異常行為檢測方法的實施例 三的流程圖,如圖3所示,本實施例在上述實施例的基礎(chǔ)上,在用戶異常行為檢測階段用戶 異常行為檢測階段判斷待檢測的用戶行為變長序列是否為異常用戶行為數(shù)據(jù)時,還包括:
[0045] 步驟22、計算待檢測的各用戶行為變長序列的IDF值,若低于所述預(yù)定IDF閥值 時,則將此用戶行為變長序列刪除以省略對此用戶行為變長序列的判斷。此步驟可以篩選 很多不必要的檢測,提高檢測效率。且進(jìn)一步地,還可以根據(jù)用戶行為變長序列中不同序列 長度而對應(yīng)設(shè)置不同的預(yù)定IDF閥值,判斷時當(dāng)所有判決值均大于其對應(yīng)長度的IDF值時 判斷為用戶正常行為。進(jìn)一步精確定位用戶行為變長序列,提供檢測精度。
[0046] 上述任意實施例首先通過在離線系統(tǒng)中使用用戶的歷史行為數(shù)據(jù)建模計算出