步驟102、所述客戶端將所述樣本日志數(shù)據(jù)包以日志的形式上傳至所述服務(wù)器;
[0066] 本步驟中,客戶端將所述日志數(shù)據(jù)包以日志形式打成http或ftp包,通過網(wǎng)絡(luò)上 傳所述日志數(shù)據(jù)包至服務(wù)器,日志數(shù)據(jù)包同時攜帶日志上傳時客戶端時間。當(dāng)服務(wù)器接收 數(shù)據(jù)包的一刻,監(jiān)測系統(tǒng)為日志數(shù)據(jù)包附上當(dāng)前服務(wù)器的本地時間,記做日志上傳時服務(wù) 器時間。
[0067] 同一次網(wǎng)絡(luò)行為在不同的監(jiān)測系統(tǒng)中采集到的時間可能存在差別。假設(shè)每個監(jiān)測 系統(tǒng)都至少采集了客戶端時間和服務(wù)器時間中的一種。如果一條日志中不含有任何時間信 息,則不對其進行時間校正。
[0068] 步驟103、服務(wù)器采集接收到的日志數(shù)據(jù)包的時間數(shù)據(jù)信息;
[0069] 本步驟中,服務(wù)器接收數(shù)據(jù)包后,對日志數(shù)據(jù)包進行解析并存儲。然后提取日志數(shù) 據(jù)包中的時間數(shù)據(jù)信息。所述時間數(shù)據(jù)信息包括用戶行為發(fā)生時客戶端的時間,日志上傳 時客戶端時間,以及服務(wù)器日志上傳時間。
[0070] 步驟104、將所述用戶行為發(fā)生時客戶端的時間轉(zhuǎn)換為用戶行為發(fā)生時服務(wù)器的 時間;
[0071] 本步驟中,首先通過客戶端和存儲服務(wù)器之間的時間差,將行為發(fā)生時客戶端的 時間轉(zhuǎn)化成行為發(fā)生時服務(wù)器的時間。此做法目的在于客戶端時間可被人工更改,或客戶 端與被其訪問的服務(wù)器處于不同地域等因素可能導(dǎo)致客戶端時間與服務(wù)器時間不同。具體 步驟如下:
[0072] 步驟一:提取用戶行為發(fā)生時客戶端的時間,記做客戶端日志時間。
[0073] 步驟二:提取行為日志上傳時服務(wù)器的時間,記做服務(wù)器日志上傳時間。步驟三: 提取行為日志上傳時客戶端時間,記做客戶端日志上傳時間。
[0074] 步驟四:根據(jù)以下表達(dá)式計算日志上傳時客戶端時間相對于服務(wù)器時間的時間誤 差。將所述時間誤差彌補到日志的客戶端時間上,得到日志的服務(wù)器時間,記做服務(wù)器日志 時間。
[0075] 服務(wù)器日志時間=客戶端日志時間+服務(wù)器日志上傳時間-客戶端日志上傳時 間
[0076] 步驟五:提取所述服務(wù)器日志時間,并將所述服務(wù)器日志時間存儲于日志數(shù)據(jù)包 中。
[0077] 步驟105、根據(jù)所述服務(wù)器和標(biāo)準(zhǔn)服務(wù)器之間的時間差,將所述用戶行為發(fā)生時服 務(wù)器的時間轉(zhuǎn)化得到日志的標(biāo)準(zhǔn)時間;
[0078] 本步驟中,通過存儲服務(wù)器和標(biāo)準(zhǔn)服務(wù)器之間的時間差,將所述行為發(fā)生時服務(wù) 器的時間轉(zhuǎn)化成日志的標(biāo)準(zhǔn)時間。此做法目的是因為不同的存儲服務(wù)器的本地時間可能各 不相同。具體步驟如下:
[0079] 步驟一:采集標(biāo)準(zhǔn)服務(wù)器及存儲服務(wù)器的當(dāng)前時間,作為臨時數(shù)據(jù),存儲于日志數(shù) 據(jù)包中。
[0080] 步驟二:提取服務(wù)器日志時間。
[0081] 步驟三:利用以下表達(dá)式計算存儲服務(wù)器時間相對與標(biāo)準(zhǔn)服務(wù)器時間的誤差,并 將所述時間誤差彌補到服務(wù)器日志時間上,得到行為日志的標(biāo)準(zhǔn)時間,記做日志標(biāo)準(zhǔn)時間。
[0082]日志標(biāo)準(zhǔn)時間=服務(wù)器日志時間+標(biāo)準(zhǔn)服務(wù)器時間-存儲服務(wù)器時間。
[0083] 其中,所述存儲服務(wù)器即為接收日志數(shù)據(jù)包的服務(wù)器;標(biāo)準(zhǔn)服務(wù)器時間和存儲服 務(wù)器時間則取最新記錄的值。
[0084] 步驟四:提取所述日志標(biāo)準(zhǔn)時間,并將所述日志標(biāo)準(zhǔn)時間存儲于日志數(shù)據(jù)包中。
[0085] 步驟五:從日志數(shù)據(jù)包中刪除標(biāo)準(zhǔn)服務(wù)器時間及存儲服務(wù)器時間。
[0086] 本發(fā)明實施例可應(yīng)用在互聯(lián)網(wǎng)數(shù)據(jù)分析的多重領(lǐng)域。例如,用戶客戶端經(jīng)常被多 方監(jiān)測機構(gòu)監(jiān)測。而用戶的行為數(shù)據(jù)經(jīng)常被存儲于不同監(jiān)測機構(gòu)的服務(wù)器中。而如何鑒別 用戶的行為日志是否屬于同一網(wǎng)絡(luò)行為時,可根據(jù)此方法比較用戶行為數(shù)據(jù)的時間信息。 當(dāng)存儲于不同服務(wù)器中的兩條日志,在其余數(shù)據(jù)信息相同的情況下,若日志標(biāo)準(zhǔn)時間也相 同,我們則判斷兩條日志為同一網(wǎng)絡(luò)行為。反之,則判斷兩條日志為不同的網(wǎng)絡(luò)行為。
[0087] 通過記錄兩種時間差,將所有的監(jiān)測數(shù)據(jù)源的時間轉(zhuǎn)化到標(biāo)準(zhǔn)時間,由此使得不 同來源的日志數(shù)據(jù)中的時間信息都可以統(tǒng)一到一個標(biāo)準(zhǔn)的時間軸上。
[0088] 多個互聯(lián)網(wǎng)廣告監(jiān)測系統(tǒng)的數(shù)據(jù)采集模塊,用于存儲、記錄和提取每一來訪用戶 對象所代表的用戶機的每次網(wǎng)絡(luò)行為的相關(guān)信息;
[0089] 對于每一個來訪Cookie的每一次網(wǎng)絡(luò)行為,監(jiān)測系統(tǒng)都會記錄下來訪Cookie的 統(tǒng)一唯一標(biāo)識(ID)、來訪時間、瀏覽行為等信息中的一種或多種。
[0090] 下面結(jié)合附圖,對本發(fā)明的實施例二進行說明。
[0091] 首先,通過多個數(shù)據(jù)采集模塊記錄同一個Cookie用戶機的信息和/或瀏覽行為如 表1所示:
[0092]表1
[0093]
【主權(quán)項】
1. 一種網(wǎng)絡(luò)行為日志時間校正方法,其特征在于,包括: 服務(wù)器采集接收到的日志數(shù)據(jù)包的時間數(shù)據(jù)信息,所述時間數(shù)據(jù)信息包括用戶行為發(fā) 生時客戶端的時間、客戶端上傳所述數(shù)據(jù)包的日志上傳時客戶端時間和服務(wù)器日志上傳時 間; 將所述用戶行為發(fā)生時客戶端的時間轉(zhuǎn)換為用戶行為發(fā)生時服務(wù)器的時間; 根據(jù)所述服務(wù)器和標(biāo)準(zhǔn)服務(wù)器之間的時間差,將所述用戶行為發(fā)生時服務(wù)器的時間轉(zhuǎn) 化得到日志的標(biāo)準(zhǔn)時間。
2. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)行為日志時間校正方法,其特征在于,所述采集服務(wù)器 接收到的日志數(shù)據(jù)包的時間數(shù)據(jù)信息的步驟之前,還包括: 客戶端采集樣本日志數(shù)據(jù)包,所述樣本日志數(shù)據(jù)包包括用戶網(wǎng)絡(luò)活動時的用戶機ID、 訪問頁面和用戶行為發(fā)生時客戶端的時間; 所述客戶端將所述樣本日志數(shù)據(jù)包W日志數(shù)據(jù)包的形式上傳至所述服務(wù)器; 所述服務(wù)器接收到所述日志數(shù)據(jù)包時,為所述日志數(shù)據(jù)包附上所述服務(wù)器當(dāng)前的本地 時間,作為日志上傳時服務(wù)器時間。
3. 根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)行為日志時間校正方法,其特征在于,該方法還包括: 所述服務(wù)器存儲接收到的日志數(shù)據(jù)包。
4. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)行為日志時間校正方法,其特征在于,將所述用戶行為 發(fā)生時客戶端的時間轉(zhuǎn)換為用戶行為發(fā)生時服務(wù)器的時間包括: 提取用戶行為發(fā)生時客戶端的時間,記做客戶端日志時間; 提取行為日志上傳時的服務(wù)器時間,記做服務(wù)器日志上傳時間; 提取所述行為日志上傳時客戶端的時間,記做客戶端日志上傳時間; 根據(jù)W下表達(dá)式計算服務(wù)器日志時間: 服務(wù)器日志時間=客戶端日志時間+服務(wù)器日志上傳時間-客戶端日志上傳時間; 提取所述服務(wù)器日志時間,并將所述服務(wù)器日志時間存儲于日志數(shù)據(jù)包中。
5. 根據(jù)權(quán)利要求4所述的網(wǎng)絡(luò)行為日志時間校正方法,其特征在于,所述根據(jù)所述服 務(wù)器和標(biāo)準(zhǔn)服務(wù)器之間的時間差,將所述用戶行為發(fā)生時服務(wù)器的時間轉(zhuǎn)化得到日志的標(biāo) 準(zhǔn)時間包括: 采集標(biāo)準(zhǔn)服務(wù)器及所述服務(wù)器的當(dāng)前時間,作為臨時數(shù)據(jù),存儲于日志數(shù)據(jù)包中; 提取所述服務(wù)器日志時間; 利用W下表達(dá)式計算日志標(biāo)準(zhǔn)時間: 日志標(biāo)準(zhǔn)時間=服務(wù)器日志時間+標(biāo)準(zhǔn)服務(wù)器時間一服務(wù)器時間; 提取所述日志標(biāo)準(zhǔn)時間,并將所述日志標(biāo)準(zhǔn)時間存儲于日志數(shù)據(jù)包中; 從日志數(shù)據(jù)包中刪除標(biāo)準(zhǔn)服務(wù)器時間及存儲服務(wù)器時間。
6. -種網(wǎng)絡(luò)行為日志時間校正裝置,其特征在于,包括: 數(shù)據(jù)信息采集模塊,用于采集接收到的日志數(shù)據(jù)包的時間數(shù)據(jù)信息,所述時間數(shù)據(jù)信 息包括用戶行為發(fā)生時客戶端的時間、客戶端上傳所述數(shù)據(jù)包的日志上傳時客戶端時間和 服務(wù)器日志上傳時間; 第一時間轉(zhuǎn)換模塊,用于將所述用戶行為發(fā)生時客戶端的時間轉(zhuǎn)換為用戶行為發(fā)生時 服務(wù)器的時間; 第二時間轉(zhuǎn)換模塊,用于根據(jù)服務(wù)器和標(biāo)準(zhǔn)服務(wù)器之間的時間差,將所述用戶行為發(fā) 生時服務(wù)器的時間轉(zhuǎn)化得到日志的標(biāo)準(zhǔn)時間。
7. 根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)行為日志時間校正裝置,其特征在于,該裝置還包括: 日志上傳時服務(wù)器時間標(biāo)定模塊,用于在接收到客戶端上傳的日志數(shù)據(jù)包時,為所述 日志數(shù)據(jù)包附上所述服務(wù)器當(dāng)前的本地時間,作為日志上傳時服務(wù)器時間。
8. 根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)行為日志時間校正裝置,其特征在于,該裝置還包括: 存儲模塊,用于存儲接收到的日志數(shù)據(jù)包。
9. 根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)行為日志時間校正裝置,其特征在于,所述第一時間轉(zhuǎn) 換模塊包括: 客戶端日志時間提取單元,用于提取用戶行為發(fā)生時客戶端的時間,記做客戶端日志 時間; 服務(wù)器日志上傳時間提取單元,用于提取行為日志上傳時的服務(wù)器時間,記做服務(wù)器 日志上傳時間; 客戶端日志上傳時間提取單元,用于提取所述行為日志上傳時客戶端的時間,記做客 戶端日志上傳時間; 服務(wù)器日志時間計算單元,用于根據(jù)W下表達(dá)式計算服務(wù)器日志時間: 服務(wù)器日志時間=客戶端日志時間+服務(wù)器日志上傳時間-客戶端日志上傳時間; 服務(wù)器日志時間存儲單元,用于提取所述服務(wù)器日志時間,并將所述服務(wù)器日志時間 存儲于日志數(shù)據(jù)包中。
10. 根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)行為日志時間校正裝置,其特征在于,所述第二時間轉(zhuǎn) 換模塊包括: 臨時數(shù)據(jù)采集單元,用于采集標(biāo)準(zhǔn)服務(wù)器及所述服務(wù)器的當(dāng)前時間,作為臨時數(shù)據(jù),存 儲于日志數(shù)據(jù)包中; 服務(wù)器日志時間提取單元,用于提取所述服務(wù)器日志時間; 日志標(biāo)準(zhǔn)時間計算單元,用于利用W下表達(dá)式計算日志標(biāo)準(zhǔn)時間: 日志標(biāo)準(zhǔn)時間=服務(wù)器日志時間+標(biāo)準(zhǔn)服務(wù)器時間一服務(wù)器時間; 日志標(biāo)準(zhǔn)時間提取單元,用于提取所述日志標(biāo)準(zhǔn)時間,并將所述日志標(biāo)準(zhǔn)時間存儲于 日志數(shù)據(jù)包中; 數(shù)據(jù)清除單元,用于從日志數(shù)據(jù)包中刪除標(biāo)準(zhǔn)服務(wù)器時間及存儲服務(wù)器時間。
【專利摘要】本發(fā)明提供了一種網(wǎng)絡(luò)行為日志時間校正方法和裝置。涉及互聯(lián)網(wǎng)領(lǐng)域;解決了校正日志中的行為訪問時間的問題。該方法包括:服務(wù)器采集接收到的日志數(shù)據(jù)包的時間數(shù)據(jù)信息,所述時間數(shù)據(jù)信息包括用戶行為發(fā)生時客戶端的時間、客戶端上傳所述數(shù)據(jù)包的日志上傳時客戶端時間和服務(wù)器日志上傳時間;將所述用戶行為發(fā)生時客戶端的時間轉(zhuǎn)換為用戶行為發(fā)生時服務(wù)器的時間;根據(jù)所述服務(wù)器和標(biāo)準(zhǔn)服務(wù)器之間的時間差,將所述用戶行為發(fā)生時服務(wù)器的時間轉(zhuǎn)化得到日志的標(biāo)準(zhǔn)時間。本發(fā)明提供的技術(shù)方案適用于用戶行為時間數(shù)據(jù)的收集,實現(xiàn)了在不修改客戶端時間的前提下對日志中的行為訪問時間進行校正。
【IPC分類】H04L29-06, H04L12-24
【公開號】CN104601349
【申請?zhí)枴緾N201310528869
【發(fā)明人】鄭瑞峰, 歐陽佑, 馮是聰, 吳明輝
【申請人】北京思博途信息技術(shù)有限公司
【公開日】2015年5月6日
【申請日】2013年10月30日