一種用戶行為數(shù)據(jù)采集方法和系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領域,更為具體而言,涉及一種用戶行為數(shù)據(jù)采集方法和系統(tǒng)。
【背景技術】
[0002]隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,大數(shù)據(jù)時代已經(jīng)到來。許多熱門的WEB網(wǎng)站的用戶日均訪問量都達到了千萬級別,而這些用戶訪問行為的相關數(shù)據(jù)成為了大數(shù)據(jù)分析的基礎元數(shù)據(jù),動態(tài)數(shù)據(jù)采集也成為至關重要的環(huán)節(jié)。
[0003]然而,現(xiàn)有的對WEB網(wǎng)站的頁面數(shù)據(jù)采集大多數(shù)單一地采用Apache日志或者Javascript腳本的方式,而且每種采集方式所能夠采集的數(shù)據(jù)也不同,因此現(xiàn)有的數(shù)據(jù)采集方式所采集的數(shù)據(jù)比較單一,不夠充分和全面。
【發(fā)明內(nèi)容】
[0004]為解決上述技術問題,本發(fā)明提供了一種用戶行為數(shù)據(jù)采集方法和裝置,通過將Apache和Java腳本兩種方式從用戶采集的數(shù)據(jù)進行匹配,作為用戶的行為數(shù)據(jù),可擴展用戶行為數(shù)據(jù)采集的方式,顯著改善用戶行為數(shù)據(jù)的采集的全面度。
[0005]根據(jù)本發(fā)明實施方式的第一方面,提供了一種用戶行為數(shù)據(jù)采集方法,該方法包括:通過Apache進程記錄用戶對頁面的訪問請求關聯(lián)的第一類采集數(shù)據(jù),所述第一類采集數(shù)據(jù)包括:所述頁面的標識信息、所述頁面加載時生成的時間戳以及第一采集數(shù)據(jù);通過Java腳本采集所述用戶對頁面的訪問請求關聯(lián)的第二類采集數(shù)據(jù),所述第二類采集數(shù)據(jù)包括:所述頁面的標識信息、所述頁面加載時生成的時間戳以及第二采集數(shù)據(jù);根據(jù)所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標識信息和時間戳對所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進行匹配以得到所述用戶的行為數(shù)據(jù)。
[0006]在本發(fā)明的一些實施方式中,所述頁面的標識信息包括統(tǒng)一資源定位符URL。
[0007]在本發(fā)明的一些實施方式中,所述頁面加載時生成的時間戳保存在頁面的cookie中。
[0008]在本發(fā)明的一些實施方式中,所述第一采集數(shù)據(jù)包括下述的一種或多種:HTTP狀態(tài)碼、站內(nèi)搜索關鍵詞、瀏覽的商品和加入購物車的商品。
[0009]在本發(fā)明的一些實施方式中,所述第二采集數(shù)據(jù)包括下述的一種或多種:會話ID、用戶代理、Flash版本、cookie、屏幕參數(shù)和頁面停留時間。
[0010]在本發(fā)明的一些實施方式中,所述根據(jù)所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標識信息和時間戳對所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進行匹配包括:將所述第一類采集數(shù)據(jù)中的頁面的標識信息和時間戳與所述第二類采集數(shù)據(jù)中的頁面的標識信息和時間戳進行比對,若比對一致,則將所述第一類采集數(shù)據(jù)和所述第二類采集數(shù)據(jù)合并作為所述用戶在所述頁面上所述時間戳對應時刻的行為數(shù)據(jù)。
[0011]根據(jù)本發(fā)明實施方式的第二方面,提供了用戶行為數(shù)據(jù)采集系統(tǒng),該系統(tǒng)包括:第一采集模塊,用于通過Apache進程記錄用戶對頁面的訪問請求關聯(lián)的第一類采集數(shù)據(jù),所述第一類采集數(shù)據(jù)包括:所述頁面的標識信息、所述頁面加載時生成的時間戳以及第一采集數(shù)據(jù);第二采集模塊,通過Java腳本采集所述用戶對頁面的訪問請求關聯(lián)的第二類采集數(shù)據(jù),所述第二類采集數(shù)據(jù)包括:所述頁面的標識信息、所述頁面加載時生成的時間戳以及第二采集數(shù)據(jù);整合模塊,用于根據(jù)所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標識信息和時間戳對所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進行匹配以得到所述用戶的行為數(shù)據(jù)。
[0012]在本發(fā)明的一些實施方式中,所述頁面的標識信息包括統(tǒng)一資源定位符URL。
[0013]在本發(fā)明的一些實施方式中,所述頁面加載時生成的時間戳保存在頁面的cookie中。
[0014]在本發(fā)明的一些實施方式中,所述第一采集數(shù)據(jù)包括下述的一種或多種:HTTP狀態(tài)碼、站內(nèi)搜索關鍵詞、瀏覽的商品和加入購物車的商品。
[0015]在本發(fā)明的一些實施方式中,所述第二采集數(shù)據(jù)包括下述的一種或多種:會話ID、用戶代理、Flash版本、cookie、屏幕參數(shù)和頁面停留時間。
[0016]在本發(fā)明的一些實施方式中,所述整合模塊根據(jù)所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標識信息和時間戳對所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進行匹配包括:將所述第一類采集數(shù)據(jù)中的頁面的標識信息和時間戳與所述第二類采集數(shù)據(jù)中的頁面的標識信息和時間戳進行比對,若比對一致,則將所述第一類采集數(shù)據(jù)和所述第二類采集數(shù)據(jù)合并作為所述用戶在所述頁面上所述時間戳對應時刻的行為數(shù)據(jù)。
[0017]實施本發(fā)明實施方式提供用戶行為數(shù)據(jù)采集方法和系統(tǒng),可以擴展用戶行為數(shù)據(jù)采集的方式,同時改善用戶行為數(shù)據(jù)采集的全面度。
【附圖說明】
[0018]圖1是根據(jù)本發(fā)明一種實施方式的用戶行為數(shù)據(jù)采集方法的流程示意圖;
[0019]圖2是根據(jù)本發(fā)明一種實施方式的通過Apache方式采集用戶關聯(lián)數(shù)據(jù)的流程示意圖;
[0020]圖3是根據(jù)本發(fā)明一種實施方式的通過Java腳本采集用戶關聯(lián)數(shù)據(jù)的流程示意圖;
[0021]圖4是根據(jù)本發(fā)明一種實施方式的用戶行為數(shù)據(jù)采集系統(tǒng)的結構示意圖。
【具體實施方式】
[0022]以下結合附圖和【具體實施方式】對本發(fā)明的各個方面進行詳細闡述。其中,眾所周知的模塊、單元及其相互之間的連接、鏈接、通信或操作沒有示出或未作詳細說明。并且,所描述的特征、架構或功能可在一個或一個以上實施方式中以任何方式組合。本領域技術人員應當理解,下述的各種實施方式只用于舉例說明,而非用于限制本發(fā)明的保護范圍。還可以容易理解,本文所述和附圖所示的各實施方式中的模塊或單元或處理方式可以按各種不同配置進行組合和設計。
[0023]下面就本發(fā)明涉及的一些概念進行說明。
[0024]Apache,是Apache HTTP Server的簡稱,是Apache軟件基金會的一個開放源代碼的網(wǎng)頁服務器,可以在大多數(shù)計算機操作系統(tǒng)中運行,屬于一種跨平臺的WEB服務器軟件。在本發(fā)明的實施方式中,可以利用Apache進程接收用戶通過客戶端瀏覽器向頁面發(fā)起的超文本傳輸協(xié)議(Hyper Text Transferprotocol,HTTP)請求,并記錄相關日志。
[0025]Java腳本,即Javascript,是一種直譯式腳本語言,屬于動態(tài)類型、弱類型、基于原型的語言。在本發(fā)明的實施方式,可以在每個頁面嵌入公共的數(shù)據(jù)采集Ja va腳本,可實現(xiàn)采集自定義指標。
[0026]下面結合附圖描述本發(fā)明的用戶行為數(shù)據(jù)采集方法。
[0027]圖1是根據(jù)本發(fā)明一種實施方式的用戶行為數(shù)據(jù)采集方法的流程示意圖;圖2是根據(jù)本發(fā)明一種實施方式的通過Apache方式采集用戶關聯(lián)數(shù)據(jù)的流程示意圖;圖3是根據(jù)本發(fā)明一種實施方式的通過Java腳本采集用戶關聯(lián)數(shù)據(jù)的流程示意圖。
[0028]如圖1所示,本發(fā)明實施方式的用戶行為數(shù)據(jù)采集方法可包括步驟S11、S12和S13,在另外的一些實施方式中,本發(fā)明的用戶行為數(shù)據(jù)采集方法還可包括其他的一些步驟,例如,在采集之前的預先配置和嵌入的步驟,以及在匹配之后的數(shù)據(jù)格式化步驟等。
[0029]下面對本發(fā)明的方法涉及的各個步驟進行具體的說明。
[0030]在步驟Sll中,通過Apache進程記錄用戶對頁面的訪問請求關聯(lián)的第一類采集數(shù)據(jù),所述第一類采集數(shù)據(jù)包括:所述頁面的標識信息、所述頁面加載時生成的時間戳以及第一采集數(shù)據(jù)。本步驟是用戶所訪問的網(wǎng)站的服務器一側部署有Apache軟件的設備上執(zhí)行。在步驟SI I之前,本發(fā)明的用戶行為數(shù)據(jù)采集方法還可包括:配置Apache日志格式,例如,可以由系統(tǒng)管理員進行。在客戶端一側,用戶做出點擊網(wǎng)站頁面的動作之后,會觸發(fā)用戶所在的客戶端瀏覽器向該網(wǎng)站頁面發(fā)起HTTP請求。在網(wǎng)站的服務器一側,Apache進程會接收該HTTP請求,記錄用戶對該頁面的訪問請求關聯(lián)