技術(shù)總結(jié)
本發(fā)明請(qǐng)求保護(hù)一種基于Spark?Streaming的廣告點(diǎn)擊異常檢測(cè)系統(tǒng)及檢測(cè)方法,涉及計(jì)算機(jī)技術(shù)應(yīng)用領(lǐng)域,在用戶點(diǎn)擊網(wǎng)站廣告時(shí)進(jìn)行日志收集,對(duì)實(shí)時(shí)收集的數(shù)據(jù)進(jìn)行清洗,標(biāo)準(zhǔn)化數(shù)據(jù)字段格式,然后將標(biāo)準(zhǔn)化數(shù)據(jù)由Flume傳輸給Kafka數(shù)據(jù)消息系統(tǒng),Spark?Streaming通過(guò)KNN鄰近算法對(duì)數(shù)據(jù)進(jìn)行分類,可以得到三大類數(shù)據(jù)異常數(shù)據(jù)、嫌疑數(shù)據(jù)、正常數(shù)據(jù)。對(duì)于異常數(shù)據(jù)和正常數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)中,嫌疑數(shù)據(jù)發(fā)送給Kafka數(shù)據(jù)消息系統(tǒng),然后通過(guò)異常數(shù)據(jù)訓(xùn)練樸素貝葉斯分類器,使用分類器可得到嫌疑數(shù)據(jù)的分類情況,數(shù)據(jù)保存于數(shù)據(jù)庫(kù)中。最后,通過(guò)正常數(shù)據(jù)量合理收取廣告商費(fèi)用,同時(shí)可以分析得到各個(gè)廣告的熱門度,給廣告商提供行業(yè)發(fā)展方向,提供用戶全國(guó)分布情況等信息。
技術(shù)研發(fā)人員:劉群;譚敢鋒;戴大祥
受保護(hù)的技術(shù)使用者:重慶郵電大學(xué)
文檔號(hào)碼:201610915505
技術(shù)研發(fā)日:2016.10.20
技術(shù)公布日:2017.05.10