專(zhuān)利名稱(chēng):收集通過(guò)網(wǎng)絡(luò)傳輸?shù)男畔⒌姆墙槿胄苑椒ê拖到y(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及收集通過(guò)網(wǎng)絡(luò)傳輸?shù)男畔⒌姆墙槿胄苑椒ê拖到y(tǒng)。
背景技術(shù):
數(shù)據(jù)收集解決方案通??杀环殖蓛煞N一般性途徑。第一種途徑 (稱(chēng)為服務(wù)器端途徑)把軟件裝載到用戶(hù)的服務(wù)器上,例如,分組"探查" 軟件和日志文件分析軟件。這種軟件收集許多更常見(jiàn)的使用統(tǒng)計(jì)信 息,在存儲(chǔ)用于傳輸數(shù)據(jù)的方法方面非常有益。第二種途徑專(zhuān)注于把 代碼放在客戶(hù)的計(jì)算機(jī)上,以捕捉客戶(hù)與遠(yuǎn)程站點(diǎn)的交互作用。這些 客戶(hù)端數(shù)據(jù)收集解決方案采取各種形式。客戶(hù)端數(shù)據(jù)收集解決方案的例子包括在頁(yè)面和文本文件(也被稱(chēng)為"cookies")上插入的代碼,所述 頁(yè)面和文本文件被存儲(chǔ)在客戶(hù)的機(jī)器上。不幸的是,兩種途徑都存在許多缺陷,使它們不能成為全面的非 介入性數(shù)據(jù)收集的可行選項(xiàng)。這些途徑的一個(gè)主要缺陷在于代碼必須 被安裝在用戶(hù)的服務(wù)器上(在前一情況下),或者被安裝在客戶(hù)的機(jī)器 上(在后一情況下)。這種要求加劇了軟件兼容性問(wèn)題、追蹤的解決方 案的發(fā)展約束、和用戶(hù)/客戶(hù)時(shí)間使用問(wèn)題。這些途徑還限制了追蹤的 網(wǎng)絡(luò)化解決方案的有效性或?qū)嵱眯浴T诜?wù)器端途徑中,許多追蹤途 徑使用緩存的組件,它們不能支持復(fù)雜的客戶(hù)端交互作用,所述復(fù)雜 的客戶(hù)端交互作用構(gòu)成許多網(wǎng)絡(luò)化解決方案的基礎(chǔ)。另一方面,客戶(hù) 端途徑不能恰當(dāng)?shù)靥幚砜蛻?hù)機(jī)和服務(wù)器之間的新的交互作用,因?yàn)樗?們依靠靜態(tài)使用模式來(lái)推斷用戶(hù)活動(dòng)。最后,跨越關(guān)聯(lián)的服務(wù)提供追 蹤客戶(hù)機(jī)的需求日漸增長(zhǎng),這種能力超出了服務(wù)器端解決方案的范圍,只有通過(guò)使用第三方實(shí)用程序依靠客戶(hù)端解決方案才可行,不過(guò),多數(shù)現(xiàn)代系統(tǒng)默認(rèn)禁用第三方實(shí)用程序。例如,就網(wǎng)站追蹤來(lái)說(shuō),可 供這些類(lèi)型的追蹤系統(tǒng)在多個(gè)網(wǎng)站上持續(xù)存在的唯一手段是使用第三方cookies?,F(xiàn)代web瀏覽器默認(rèn)拒絕使用這種cookies的能力。 語(yǔ)境信息現(xiàn)有解決途徑的其它主要缺陷之一是缺少語(yǔ)境相關(guān)數(shù)據(jù)。為了理 解該概念,將分析大腦成像的例子。在較早的正電子發(fā)射斷層成像 (PET)掃描方法中,放射性物質(zhì)被用于追蹤人類(lèi)的大腦功能。這種途 徑可提供大腦活動(dòng)的彩色圖像,不過(guò)沒(méi)有任何結(jié)構(gòu),從而醫(yī)生不能確 定大腦的哪個(gè)部分負(fù)責(zé)所觀察到的活動(dòng)。另一種較早的技術(shù)-磁共振成像(MRI)非常擅長(zhǎng)形成三維組織結(jié) 構(gòu)的圖像,常被用于尋找諸如胂瘤或凝塊之類(lèi)的密集組織。盡管成像 分辨率高,不過(guò)MRI不提供功能,仍然很難確定什么區(qū)域可能受到 損傷或者未受到損傷。在1991年,這兩種途徑被結(jié)合成現(xiàn)在稱(chēng)為功能磁共振成像(fMRI)的方法。這種技術(shù)把功能重疊在結(jié)構(gòu)之上,已導(dǎo)致神經(jīng)影像診斷學(xué)的 發(fā)展。準(zhǔn)確地了解什么結(jié)構(gòu)正在進(jìn)行什么活動(dòng)的能力是恰當(dāng)確定活動(dòng) 的關(guān)鍵要素。上面僅僅是從完全無(wú)關(guān)的技術(shù)領(lǐng)域的粗略概念類(lèi)推,不過(guò)仍然特 別有益于理解目前的追蹤行業(yè)。 一方面,現(xiàn)代追蹤解決方案準(zhǔn)確度不 斷變化地捕捉客戶(hù)機(jī)互動(dòng)(或功能)。不過(guò),這些追蹤解決方案都不能 捕捉在這些互動(dòng)期間目標(biāo)系統(tǒng)的結(jié)構(gòu)。另一方面,各種爬蟲(chóng)(crawler)每天能夠提供成千上萬(wàn)的連網(wǎng) 解決方案的詳細(xì)結(jié)構(gòu),但是都不能捕捉客戶(hù)機(jī)互動(dòng)。沒(méi)有把網(wǎng)絡(luò)站點(diǎn)的結(jié)構(gòu)和客戶(hù)機(jī)互動(dòng)(這里稱(chēng)為語(yǔ)境信息)聯(lián)系 起來(lái)的能力,那么了解網(wǎng)站功能的能力就會(huì)被顯著削弱或者降低。發(fā)明人認(rèn)識(shí)到上面提及的缺陷,提供一種克服上面提及的缺陷的 收集通過(guò)網(wǎng)絡(luò)傳輸?shù)男畔⒌南到y(tǒng)和方法。
結(jié)合附圖,根據(jù)本發(fā)明的下述詳細(xì)說(shuō)明,本發(fā)明的這些和其它目
的、特征和優(yōu)點(diǎn)將變得顯而易見(jiàn),其中
圖1是按照本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)收集系統(tǒng)結(jié)構(gòu)的方框圖。
圖2是按照本發(fā)明的一個(gè)實(shí)施例的網(wǎng)絡(luò)結(jié)構(gòu)的方框圖。
圖3是按照本發(fā)明的一個(gè)實(shí)施例的端口轉(zhuǎn)發(fā)的方框圖。
圖4是按照本發(fā)明的一個(gè)實(shí)施例的控制器的方框圖。
圖5圖解說(shuō)明通用消息格式。
圖6圖解說(shuō)明概念性的URI查尋表。
圖7是圖解說(shuō)明按照本發(fā)明的一個(gè)實(shí)施例的關(guān)于從始發(fā)系統(tǒng)傳送給應(yīng)答系統(tǒng)的消息的事件處理步驟的流程圖。
圖8是圖解說(shuō)明按照本發(fā)明的一個(gè)實(shí)施例的關(guān)于從始發(fā)系統(tǒng)傳送給應(yīng)答系統(tǒng)的消息的動(dòng)態(tài)內(nèi)容管理步驟的流程圖。
圖9是圖解說(shuō)明按照本發(fā)明的一個(gè)實(shí)施例的關(guān)于從應(yīng)答系統(tǒng)傳送給始發(fā)系統(tǒng)的消息的事件處理步驟的流程圖。
圖10是圖解說(shuō)明按照本發(fā)明的一個(gè)實(shí)施例的關(guān)于從應(yīng)答系統(tǒng)傳送給始發(fā)系統(tǒng)的消息的動(dòng)態(tài)內(nèi)容管理步驟的流程圖。
圖11是圖解說(shuō)明按照本發(fā)明的一個(gè)實(shí)施例的存儲(chǔ)追蹤信息的步驟的流程圖。
圖12是提供按照本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)子系統(tǒng)的一種可能結(jié)構(gòu)的方框圖。
具體實(shí)施例方式
本發(fā)明的優(yōu)選實(shí)施例提供可被配置成充當(dāng)起應(yīng)答系統(tǒng)以與始發(fā)系統(tǒng)通信的數(shù)據(jù)收集系統(tǒng)。從始發(fā)系統(tǒng)發(fā)送的信息可被存儲(chǔ)供以后使用,隨后被用于根據(jù)始發(fā)系統(tǒng)請(qǐng)求的語(yǔ)境產(chǎn)生請(qǐng)求。數(shù)據(jù)收集系統(tǒng)隨后起始發(fā)系統(tǒng)的作用,并經(jīng)網(wǎng)絡(luò)把請(qǐng)求提交給應(yīng)答系統(tǒng)。始發(fā)消息(請(qǐng)求)包括第一統(tǒng)一資源指示符(URI),所述第一統(tǒng)一資源指示符可被用于至少部分根據(jù)動(dòng)態(tài)URI映射,確定應(yīng)答系統(tǒng)URI。應(yīng)答系統(tǒng)隨后向數(shù)據(jù)收集系統(tǒng)返回響應(yīng),該響應(yīng)既可被存儲(chǔ),又可被用于產(chǎn)生返回給
7始發(fā)系統(tǒng)的響應(yīng)。該信息隨后可被用于支持關(guān)于監(jiān)視的有網(wǎng)絡(luò)功能的站點(diǎn)的高級(jí)用戶(hù)交互作用分析。
按照一個(gè)優(yōu)選實(shí)施例(下面有時(shí)稱(chēng)為DataTrendzTM),提供追蹤通過(guò)網(wǎng)絡(luò)傳輸?shù)南⒌姆椒ê拖到y(tǒng)。DataTrendzTM的直接把處理插入請(qǐng)求-響應(yīng)流中的能力首次允許用戶(hù)存儲(chǔ)和/或分析結(jié)構(gòu)和功能。收集這種語(yǔ)境相關(guān)數(shù)據(jù)將提供超出簡(jiǎn)單的追蹤和報(bào)告的重大新見(jiàn)識(shí)。對(duì)具有寬范圍的不同網(wǎng)絡(luò)位置的網(wǎng)絡(luò),比如因特網(wǎng)來(lái)說(shuō),DataTrendzTM提供的效用和功能性是可實(shí)現(xiàn)的。在本例中,網(wǎng)絡(luò)位置可包括網(wǎng)絡(luò)服務(wù)器、網(wǎng)站服務(wù)器、個(gè)人計(jì)算機(jī)、諸如能夠接入因特網(wǎng)的電話機(jī)之類(lèi)的移動(dòng)設(shè)備、和其它具有網(wǎng)絡(luò)能力的設(shè)備的主機(jī)。不過(guò),DataTrendzTM也向其它網(wǎng)絡(luò),比如企業(yè)內(nèi)部網(wǎng)提供優(yōu)選的功能性和效用,在所述其它網(wǎng)絡(luò)中,與因特網(wǎng)相比,網(wǎng)絡(luò)位置的范圍可能更單一。于是,DataTrendzTM的具體實(shí)現(xiàn)可以包括連接實(shí)際上任意類(lèi)型的網(wǎng)絡(luò)位置與實(shí)際上任意其它類(lèi)型的網(wǎng)絡(luò)位置的實(shí)際上任意類(lèi)型的網(wǎng)絡(luò)。
DataTrendzTM解決了限制當(dāng)前的追蹤方法的眾多挑戰(zhàn),同時(shí)把通信追蹤和分析的概念擴(kuò)展到對(duì)基于網(wǎng)絡(luò)的通信的限制之外。
網(wǎng)站特有的益處
在網(wǎng)站域(website-domain)內(nèi),DataTrendzTM提供許多益處,比如(但不限于)
代碼密集的。問(wèn)題許多數(shù)據(jù)收集解決方案要求在客戶(hù)機(jī)或用戶(hù)機(jī)器上的大量代碼。解決方案DataTrendzTM的系統(tǒng)和方法不要求在客戶(hù)機(jī)或用戶(hù)機(jī)器上的代碼。
陳舊的推斷方法。問(wèn)題在已知處理始發(fā)請(qǐng)求的方法的新技術(shù)途徑的情況下,許多追蹤解決方案用于確定線索的典型服務(wù)器處理使用模式不再有效。解決方案作為其語(yǔ)境數(shù)據(jù)收集過(guò)程的一部分,DataTrendzTM捕捉實(shí)際的線索信息,使通過(guò)推斷,或者至少完全或者主要通過(guò)推斷確定功能的思想變得陳舊。
跨域問(wèn)題。問(wèn)題在不借助于第三方cookies的情況下,典型的數(shù)據(jù)收集解決方案無(wú)法跨網(wǎng)站追蹤用戶(hù)。解決方案由于DataTrendzTM起非介入性追蹤系統(tǒng)的作用,因此能夠在不仗:cookies,或者任何其它用戶(hù)/客戶(hù)端代碼的情況下,跨數(shù)目無(wú)限的網(wǎng)站進(jìn)行追蹤。
高速緩存。問(wèn)題 一些數(shù)據(jù)收集解決方案響應(yīng)始發(fā)請(qǐng)求,發(fā)送高速緩存的各種版本的用戶(hù)網(wǎng)站。這種途徑不能支持具有高級(jí)的客戶(hù)端功能性的復(fù)雜網(wǎng)站。解決方案當(dāng)利用非介入性追蹤系統(tǒng)時(shí),不需要任何高速緩存。另外,通過(guò)在套接字層工作,動(dòng)態(tài)請(qǐng)求、解析和HTML包創(chuàng)建與請(qǐng)求鏈中的任何其它網(wǎng)絡(luò)跳程(network hop)—樣快。
瀏覽器不可知論。問(wèn)題利用客戶(hù)端JavaScript或者服務(wù)器端幀-目前的數(shù)據(jù)收集途徑中就是這樣-會(huì)導(dǎo)致瀏覽器依賴(lài)性問(wèn)題。解決方案DataTrendzTM不要求在客戶(hù)機(jī)的瀏覽器上放置會(huì)影響用戶(hù)界面的任何東西,于是不存在和該追蹤途徑相關(guān)的任何瀏覽器問(wèn)題。
圖1圖解說(shuō)明包括數(shù)據(jù)收集系統(tǒng)200的網(wǎng)絡(luò)。數(shù)據(jù)收集系統(tǒng)200管理往來(lái)于始發(fā)系統(tǒng)100和應(yīng)答系統(tǒng)1100發(fā)送的消息。在本發(fā)明的一個(gè)實(shí)施例中,網(wǎng)絡(luò)包括采用有線、無(wú)線蜂窩或其它媒介的因特網(wǎng)。在本發(fā)明的另一個(gè)實(shí)施例中,網(wǎng)絡(luò)選自局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)。本發(fā)明并不局限于任何特定網(wǎng)絡(luò)結(jié)構(gòu)方面的實(shí)現(xiàn)方式。相反,本發(fā)明可應(yīng)用于任何類(lèi)型的包含配置成利用以電子方式傳送的消息相互通信的互連計(jì)算機(jī)的系統(tǒng)。
在本發(fā)明的 一個(gè)實(shí)施例中,處理子系統(tǒng)300、全局隊(duì)列子系統(tǒng)400和數(shù)據(jù)子系統(tǒng)500可存在于分開(kāi)的物理設(shè)備或 一組設(shè)備之中。在另一個(gè)實(shí)施例中,這些子系統(tǒng)可存在于同一設(shè)備中,或者可存在于多個(gè)設(shè)備的任意組合中。
在一個(gè)實(shí)施例中,設(shè)備驅(qū)動(dòng)器層的網(wǎng)絡(luò)通信(或流量(traffic))可根據(jù)存儲(chǔ)器中規(guī)則被重新路由到所得到的URI地址。通過(guò)利用這些基于軟件的與DNS相關(guān)的路由系統(tǒng),DataTrendzTM有能力在外部使用任何域名,并把該通信路由給希望的內(nèi)部位置,而不需要獨(dú)立的URI值。本實(shí)施例可被用于通過(guò)利用跨相同服務(wù)器、局域網(wǎng)、廣域網(wǎng)或者它們的任意組合的處理位置,以對(duì)稱(chēng)或者固定的方式把通信量(或流量、通信流量)均衡到已知的處理位置。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,始發(fā)系統(tǒng)利用域名源(DNS)統(tǒng)一資源標(biāo)識(shí)符(URI)發(fā)送請(qǐng)求。在用實(shí)線表示的從始發(fā)系統(tǒng)100到地理負(fù)載均衡器201的主路徑上,該URI把消息傳給地理負(fù)栽均衡器201。 URI是作為定位外部資源的當(dāng)前例子提供的,并不意圖限制本發(fā)明。
可以存在和為確保完全可用性所需一樣多的地理負(fù)載均衡器201,甚至不存在任何地理負(fù)載均衡器201,出于舉例說(shuō)明的目的,示出了兩個(gè)地理負(fù)栽均衡器201。在本實(shí)施例中,地理負(fù)載均衡器201相互通信,以確保每個(gè)站點(diǎn)203正在恰當(dāng)?shù)剡\(yùn)行,并跨區(qū)域均衡負(fù)載。如果主要的地理負(fù)栽均衡器201未能應(yīng)答用戶(hù)請(qǐng)求,那么DNS協(xié)議會(huì)自動(dòng)失效轉(zhuǎn)移(或故障轉(zhuǎn)移(failover))到輔助地理負(fù)載均衡器201,如圖2中用虛線所示。域名系統(tǒng)(DNS)是作為目前實(shí)現(xiàn)的識(shí)別外部資源的手段的例子提供的,并不意圖作為對(duì)本發(fā)明的限制。這種失效轉(zhuǎn)移過(guò)程將繼續(xù)進(jìn)行和給出的實(shí)施例的實(shí)現(xiàn)中提供的站點(diǎn)203 —樣多的次數(shù)。
在站點(diǎn)203內(nèi),利用站點(diǎn)負(fù)載均衡器來(lái)保持一個(gè)或多個(gè)處理子系統(tǒng)300之間的功能性。如果指定的處理子系統(tǒng)300發(fā)生故障(或失效),那么所有的通信量將被轉(zhuǎn)移給其余的處理子系統(tǒng)。如果站點(diǎn)203內(nèi)的所有處理子系統(tǒng)都不在進(jìn)行處理,那么站點(diǎn)負(fù)載均衡器202將向地理負(fù)載均衡器201返回該消息,以便在另一個(gè)站點(diǎn)203進(jìn)行處理。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,數(shù)據(jù)收集系統(tǒng)200包含配置成與始發(fā)系統(tǒng)100和應(yīng)答系統(tǒng)1100通信的服務(wù)器。數(shù)據(jù)收集系統(tǒng)200動(dòng)態(tài)監(jiān)視從始發(fā)系統(tǒng)100傳送的要給應(yīng)答系統(tǒng)1100的消息,和從應(yīng)答系統(tǒng)1100傳送的要給始發(fā)系統(tǒng)100的消息。為此,數(shù)據(jù)收集系統(tǒng)200包括在處理子系統(tǒng)300內(nèi)的端口監(jiān)視器301,如圖3中所示。
如圖3中所示,當(dāng)端口監(jiān)視器301收到請(qǐng)求時(shí),該請(qǐng)求被端口轉(zhuǎn)發(fā)給多個(gè)端口處理器600之一。在一個(gè)實(shí)施例中,只有一個(gè)端口處理器600,在另一個(gè)實(shí)施例中,有多個(gè)端口處理器600。在一個(gè)實(shí)施例中, 一個(gè)或多個(gè)端口處理器600存在于一個(gè)物理設(shè)備中,在另一個(gè)實(shí) 施例中, 一個(gè)或多個(gè)端口處理器存在于多個(gè)獨(dú)立設(shè)備的任意組合中。 所有實(shí)施例都被認(rèn)為在本發(fā)明的范圍之內(nèi)。
端口處理器600包括數(shù)據(jù)表示601,數(shù)據(jù)表示601包含子域(SD) 值102和它們對(duì)應(yīng)的應(yīng)答統(tǒng)一資源標(biāo)識(shí)符(URI)103之間的映射,如圖 5中所示。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,映射表包含存儲(chǔ)器中XML 文件608,如圖6中所示。圖6中圖解說(shuō)明的存儲(chǔ)器中XML文件608 是概念表示。因而,它不指示特定數(shù)目的條目,也不指示條目的所有 細(xì)節(jié)。數(shù)據(jù)表示601的確切實(shí)現(xiàn)方式可變化。所有這些變化都在本發(fā) 明的范圍之內(nèi)。
數(shù)據(jù)表示601包含子域值102。每個(gè)子域條目包括表示對(duì)應(yīng)的應(yīng) 答域的值和目標(biāo)URI。對(duì)應(yīng)的URI示于圖6中。URI是用于識(shí)別應(yīng) 答系統(tǒng)1100的一種手段。按照本發(fā)明的一個(gè)優(yōu)選實(shí)施例,網(wǎng)絡(luò)的多 個(gè)應(yīng)答系統(tǒng)IIOO被映射到圖6中的對(duì)應(yīng)的唯一子域值102。這里,把 應(yīng)答系統(tǒng)1100的映射子域值102稱(chēng)為"應(yīng)答域"。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,映射表包含存儲(chǔ)器中XML文件 608,存儲(chǔ)器中XML文件608包含URI103。在本發(fā)明的另一個(gè)實(shí)施 例中,映射表包含XML文件,該XML文件包含應(yīng)答系統(tǒng)統(tǒng)一資源 定位符。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,映射表被存儲(chǔ)在數(shù)據(jù)收集系 統(tǒng)200的存儲(chǔ)器中。在本發(fā)明的另一個(gè)實(shí)施例中,映射表被存儲(chǔ)在端 口處理器600的存儲(chǔ)器中。
圖5圖解說(shuō)明表示通常用于經(jīng)因特網(wǎng)傳送的消息的通用消息結(jié) 構(gòu)。消息107包含才艮頭部分101、 URI部分103和頁(yè)面內(nèi)容部分104。 URI部分103包含子域部分102、基本域部分105和查詢(xún)串部分106。 該消息是作為 一種參考而提供的,該消息的所有組合或衍生物都在本 發(fā)明的范圍之內(nèi),在優(yōu)選實(shí)施例中,這些消息(及其組合和衍生物)能 夠包含報(bào)頭信息和內(nèi)容。
處理子系統(tǒng)300
圖4圖解說(shuō)明按照本發(fā)明的一個(gè)優(yōu)選實(shí)施例,在圖1中圖解說(shuō)明的數(shù)據(jù)收集系統(tǒng)200的處理子系統(tǒng)600。處理子系統(tǒng)300包含把通信轉(zhuǎn)發(fā)給一個(gè)或多個(gè)端口處理器600的端口監(jiān)視器(PM)301。端口處理器600包括動(dòng)態(tài)內(nèi)容管理單元(DCMU)900 、事件匯點(diǎn)發(fā)生器(ESG)700、全局隊(duì)列接口 408、事件處理器單元(EHU)IOOO、數(shù)據(jù)表示601、和用戶(hù)代理(UA)800。處理子系統(tǒng)600還通過(guò)全局隊(duì)列接口408與全局隊(duì)列400通信。端口監(jiān)視器301
端口監(jiān)視器301被配置成檢測(cè)包含網(wǎng)絡(luò)上的通信的數(shù)據(jù)流。端口監(jiān)視器監(jiān)視數(shù)據(jù)收集系統(tǒng)200的一個(gè)或多個(gè)端口(例如,端口 80、 81等),以檢測(cè)網(wǎng)絡(luò)通信流量。網(wǎng)絡(luò)通信流量的一個(gè)例子是從始發(fā)系統(tǒng)IOO(圖1中圖解所示)傳送的針對(duì)由應(yīng)答系統(tǒng)IIOO提供的信息(例如網(wǎng)頁(yè))的消息。該通信流量可以是安全的或不安全的;任意類(lèi)型的網(wǎng)絡(luò)上的兩個(gè)設(shè)備之間的有線、無(wú)線通信,或蜂窩通信,或任何其它形式的通信。
按照本發(fā)明的一個(gè)優(yōu)選實(shí)施例,始發(fā)系統(tǒng)100包含用戶(hù)計(jì)算機(jī)。來(lái)自用戶(hù)計(jì)算機(jī)的消息的一個(gè)例子是用戶(hù)經(jīng)始發(fā)系統(tǒng)100對(duì)應(yīng)答系統(tǒng)IIOO提供的網(wǎng)頁(yè)的請(qǐng)求。用戶(hù)的請(qǐng)求可被送往包含數(shù)據(jù)收集系統(tǒng)200的服務(wù)器。注意用戶(hù)的請(qǐng)求最好終止于數(shù)據(jù)收集系統(tǒng)200,盡管用戶(hù)請(qǐng)求的信息存在于應(yīng)答系統(tǒng)1100上。端口監(jiān)視器301能夠檢測(cè)網(wǎng)絡(luò)通信,并按照負(fù)載均衡的方式把該信息傳送給一個(gè)或多個(gè)端口處理器600。
端口處理器600
響應(yīng)端口監(jiān)視器301檢測(cè)到的用戶(hù)請(qǐng)求,端口處理器600產(chǎn)生請(qǐng)求消息。端口處理器600請(qǐng)求可被傳送給最好由在數(shù)據(jù)表示601中找到的映射確定的目標(biāo)應(yīng)答系統(tǒng)1100。應(yīng)答系統(tǒng)1100同步地應(yīng)答來(lái)自端口處理器600的請(qǐng)求。應(yīng)答系統(tǒng)1100把其響應(yīng)送往數(shù)據(jù)收集系統(tǒng)200,所述響應(yīng)被端口監(jiān)視器301捕捉,并被轉(zhuǎn)發(fā)給同一端口處理器600。
事件處理器(event handler )單元(EHU)IOOO在端口處理器600內(nèi),EHU 1000被配置成與消息輸入單元609、 DCMU 900、 URI映射的數(shù)據(jù)表示601和全局隊(duì)列接口 408通信。EHU 1000進(jìn)行這里稱(chēng)為事件消息處理的過(guò)程。第一步是根據(jù)輸入的URI 解析子域,并根據(jù)數(shù)據(jù)表示601進(jìn)行查找查詢(xún)。如果查找得到應(yīng)答域, 那么EHU IOOO把輸入的請(qǐng)求和應(yīng)答域傳遞給DCMU 900和全局隊(duì)列 接口 400。如果查找未得到應(yīng)答域,那么請(qǐng)求被直接遞傳給應(yīng)答系統(tǒng) 1100,從而繞過(guò)數(shù)據(jù)收集系統(tǒng)200的數(shù)據(jù)收集和存儲(chǔ)機(jī)構(gòu)。
對(duì)于來(lái)自始發(fā)系統(tǒng)100的關(guān)于出自應(yīng)答系統(tǒng)1100的信息的請(qǐng)求, EHU IOOO被配置成執(zhí)行圖7中圖解說(shuō)明的方法。這種情況下,始發(fā) 系統(tǒng)100發(fā)送請(qǐng)求,如在圖7的108所示,端口監(jiān)視器300接收該請(qǐng) 求,如在圖7的302所示。對(duì)于來(lái)自應(yīng)答系統(tǒng)1100的提供端口處理 器600所請(qǐng)求信息的響應(yīng),EHU IOOO被配置成執(zhí)行圖9中圖解說(shuō)明 的方法。這種情況下,應(yīng)答系統(tǒng)IIOO發(fā)送響應(yīng),如在圖9的1101所 示。端口監(jiān)視器301接收該響應(yīng),如在圖9的303所示。
參見(jiàn)圖7,消息輸入單元609從端口監(jiān)^L器301接收消息107, 如步驟605中所示。EHU 1000從端口處理器600 4秦收表示來(lái)自始發(fā) 系統(tǒng)100的請(qǐng)求的消息。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,請(qǐng)求包含圖 5中在107圖示的一般種類(lèi)的消息。通過(guò)解析消息107的URI 103, 從而識(shí)別子域102值,EHU 1000能夠評(píng)估接收的請(qǐng)求(圖7的步驟 1001-1003)。 EHU 1000確定消息107的子域102是否對(duì)應(yīng)于凈皮監(jiān)視的 子域102值。被監(jiān)視的子域102值是由數(shù)據(jù)收集系統(tǒng)200為應(yīng)答系統(tǒng) 1100分配的值。
如果EHU 1100確定URI 103中的子域102值是被監(jiān)視的子域 102(圖7的步驟1005),那么EHU 1100把消息107發(fā)送給動(dòng)態(tài)內(nèi)容管 理單元(DCMU)900(圖7的步驟1007)。另外,EHU 1100把消息107 提供給全局高速緩存400(圖7的步驟1008)。 EHU 1100根據(jù)應(yīng)答域的 值做出確定。如果應(yīng)答系統(tǒng)1100URI 103不在數(shù)據(jù)表示601中,那么 EHU IIOO把消息傳遞給應(yīng)答系統(tǒng)1100。
按照對(duì)應(yīng)的方式,消息輸入單元609能夠從端口監(jiān)視器301接收消息107,該消息107表示應(yīng)答系統(tǒng)1100響應(yīng)來(lái)自同一端口處理器 600的請(qǐng)求而傳送的響應(yīng),如圖9中所示。該端口處理器把消息傳遞 給EHUIOOO,如圖9中的步驟607中所示。這種情況下,EHU 1000 最好進(jìn)行圖9中圖解說(shuō)明的步驟。EHU IIOO確定消息107中的子域 102值是否在數(shù)據(jù)表示601中,如圖9的步驟1009、 1002和1003中 所示。EHU 1100隨后在步驟1007中把消息107提供給全局高速緩存 400,在步驟1008中把消息107提供給DCMU900。 DCMU 400
DCMU 900實(shí)現(xiàn)下面說(shuō)明的如圖10中所示的一般功能。 內(nèi)容檢索。DCMU900使用輸入消息107的內(nèi)容,以及輸入U(xiǎn)RI 103的值動(dòng)態(tài)生成請(qǐng)求。在DCMU900才莫仿始發(fā)系統(tǒng)100的情況下, 該請(qǐng)求被發(fā)送給應(yīng)答系統(tǒng)1100。來(lái)自應(yīng)答域1100的響應(yīng)被捕捉,并 被暫時(shí)存儲(chǔ)為存儲(chǔ)器中消息107。來(lái)自應(yīng)答系統(tǒng)1100的響應(yīng)的內(nèi)容被 用于生成將被回送給始發(fā)系統(tǒng)100的消息107。如在圖10的步驟802 中所示,插入自定義報(bào)頭101,以便在后續(xù)傳輸中識(shí)別該消息。關(guān)于 要追蹤的所有可動(dòng)作纟且4牛(例如,JavaScript, Form Post Addresses, 超鏈接等)的基本URI 103被修改,以指回?cái)?shù)據(jù)收集系統(tǒng)200和被端 口監(jiān)視器301監(jiān)視的端口。動(dòng)態(tài)響應(yīng)被回送給EHU 1000。
圖8圖解說(shuō)明按照本發(fā)明的一個(gè)優(yōu)選實(shí)施例,由DCMU 900執(zhí) 行的方法的步驟。如在圖8的901所示,DCMU 900從EHU 1000接 收消息107和應(yīng)答系統(tǒng)1100 URI 103。 DCMU 900把消息107解析成 報(bào)頭101部分和頁(yè)面內(nèi)容104部分(在步驟902所示)。報(bào)頭101部分 和頁(yè)面內(nèi)容104部分被提供給ESG 700。 ESG 700用EHU 1000提供 的應(yīng)答系統(tǒng)1100 URI 103替換頁(yè)面內(nèi)容104中的子域(SD)102值(在圖 8的步驟701所示)。消息107被提供給用戶(hù)代理800,如圖6中在步 驟801所示。用戶(hù)代理800從消息107的報(bào)頭部分中除去自定義報(bào)頭 101,并把消息107回送給ESG 70,以便進(jìn)一步處理。ESG 700用EHU 1000提供的應(yīng)答系統(tǒng)1100 URI 103替換報(bào)頭101集合中的子域102 值。DCMU 900創(chuàng)建新消息107信封,如在圖8的903所示。DCMU 900把ESG 700(在步驟702)提供的頁(yè)面內(nèi)容104轉(zhuǎn)移到新消息107信 封(在步驟904)。在步驟905, DCMU 900把ESG 700(在步驟704)提 供的報(bào)頭101集合轉(zhuǎn)移到新消息107信封中。在步驟900中,在DCMIJ 900提供的信封中,該消息被傳送給應(yīng)答系統(tǒng)1100。
圖8圖解說(shuō)明處理來(lái)自應(yīng)答系統(tǒng)1100的響應(yīng)的DCMU 900過(guò)程。 對(duì)于響應(yīng)來(lái)說(shuō),DCMU 900充當(dāng)應(yīng)答系統(tǒng)1100的客戶(hù)機(jī)。如圖8中 所示,當(dāng)如步驟907中所示,DCMU 900從EHU 100收到消息107 和始發(fā)系統(tǒng)100 URI103時(shí),開(kāi)始DCMU900過(guò)程。DCMU 900把響 應(yīng)解析成報(bào)頭101集合部分和頁(yè)面內(nèi)容104部分(步驟902)。最好, 頁(yè)面內(nèi)容104部分的所有可動(dòng)作組件;陂DCMU 900 #"改,以致基本 URI 103往回指向數(shù)據(jù)收集系統(tǒng)200(步驟7-1)。在步驟703中,自定 義報(bào)頭101被添加到報(bào)頭101集合中,DCMU創(chuàng)建這里稱(chēng)為"動(dòng)態(tài)響 應(yīng)消息"的新消息107。在步驟702和704中提供的頁(yè)面內(nèi)容104和報(bào) 頭101集合信息被轉(zhuǎn)移到新消息107中,DCMU 900把所得到的動(dòng)態(tài) 響應(yīng)消息提供給EHU IOOO(在步驟903-906示出)。
事件匯點(diǎn)發(fā)生器(ESG)700
ESG 700與DCMU 900耦接。ESG 700準(zhǔn)備在響應(yīng)來(lái)自用戶(hù)的 情況下,將由系統(tǒng)恰當(dāng)處理的動(dòng)態(tài)響應(yīng)。在本發(fā)明的一個(gè)實(shí)施例中, ESG 700實(shí)現(xiàn)下述功能。
會(huì)話創(chuàng)建。如果尚不存在關(guān)于該動(dòng)態(tài)響應(yīng)的會(huì)話,那么生成一個(gè) 新的全局唯一標(biāo)識(shí)符(GUID),并將其添加到報(bào)頭101集合中。從消息 107的報(bào)頭101集合查詢(xún)會(huì)話。會(huì)話GUID被輸入到消息107的報(bào)頭 101集合中。包含DataTrendzTM會(huì)話報(bào)頭值的消息組件集合被稱(chēng)為"監(jiān) 控響應(yīng)"。監(jiān)控響應(yīng)隨后^皮回送給EHU 1000。
全局隊(duì)列400
全局隊(duì)列400把關(guān)于指定請(qǐng)求的信息存儲(chǔ)到通過(guò)全局隊(duì)列管理 器409管理和存留的存儲(chǔ)器中位置中,如圖11中所示。全局隊(duì)列可 包含單獨(dú)地或者在群集環(huán)境中進(jìn)行處理的一個(gè)或多個(gè)服務(wù)器。獨(dú)立于全局隊(duì)列管理器的物理實(shí)現(xiàn)方式,全局隊(duì)列管理器能夠管理一個(gè)或多
個(gè)全局隊(duì)列400,不論這些隊(duì)列是駐留在同一的物理機(jī)器上還是駐留 在獨(dú)立的物理機(jī)器上。
全局隊(duì)列接口 408為EHU 1000過(guò)程提供按照即發(fā)即棄 (fire-and-forget)方式把新消息107放置在隊(duì)列中的手段。在一個(gè)實(shí)施 例中,每個(gè)EHU 1000過(guò)程可存在一個(gè)全局隊(duì)列400,在另一個(gè)實(shí)施 例中,全局隊(duì)列400和EHU 1000過(guò)程可共有多對(duì)多關(guān)系。
在本發(fā)明的一個(gè)實(shí)施例中,全局高速緩存400是由兩個(gè)或者更多 的過(guò)程訪問(wèn)的共享系統(tǒng)資源。在一個(gè)優(yōu)選實(shí)施例中,全局高速緩存400 是用于傳遞數(shù)據(jù)的異步排隊(duì)/緩存機(jī)構(gòu)。在本節(jié)中描述的和根椐該評(píng)論 推測(cè)的所有實(shí)施例都被認(rèn)為落入本發(fā)明的范圍中。
全局管理器409負(fù)責(zé)監(jiān)視指定的全局隊(duì)列400內(nèi)的各種隊(duì)列存儲(chǔ) 過(guò)程。如果任意存儲(chǔ)過(guò)程變慢或者沒(méi)有響應(yīng),那么全局隊(duì)列管理器負(fù) 責(zé)發(fā)起新的隊(duì)列存儲(chǔ)過(guò)程,同時(shí)溫和地終止有問(wèn)題的存儲(chǔ)過(guò)程。這種 思想凈皮-爾為方走轉(zhuǎn)力口速(spinning up)和^走轉(zhuǎn);咸速(spiiming down)過(guò)禾呈。
如圖11中所示,全局隊(duì)列利用下述步驟處理輸入的消息會(huì)話 確定。查詢(xún)報(bào)頭101集合,以確定會(huì)話存在。如果對(duì)于該消息來(lái)說(shuō), 會(huì)話尚不存在,那么生成新會(huì)話GUID。該會(huì)話GUID被輸入消息07 的報(bào)頭101集合中。頁(yè)面存儲(chǔ)。隨后查詢(xún)存儲(chǔ)器中配置文件,以確定 是否存儲(chǔ)該頁(yè)面的所有內(nèi)容。如果該頁(yè)面需要被存儲(chǔ),那么語(yǔ)境相關(guān) 信息(報(bào)頭集合、頁(yè)面內(nèi)容、表格內(nèi)容等)連同會(huì)話ID—起被輸入數(shù)據(jù) 庫(kù)中。動(dòng)作存儲(chǔ)。實(shí)際的動(dòng)作(例如,關(guān)于HTTP的GET或POST命 令)也和會(huì)話ID —起被存儲(chǔ)在數(shù)據(jù)庫(kù)中。關(guān)于主內(nèi)容捕捉的所有事件 此時(shí)也被記錄到數(shù)據(jù)庫(kù)中-包括所有有關(guān)的追蹤信息。
圖11圖解說(shuō)明按照本發(fā)明的一個(gè)實(shí)施例的全局隊(duì)列400的操作。 在401,從EHU 900接收消息107。消息107被解析成子分量(步驟 402)。在步驟403,解析的子分量或組件(component)被發(fā)送給全局 高速緩存400,在步驟404和405中,針對(duì)存儲(chǔ)的解析消息檢查全局 高速緩存400。當(dāng)在全局高速緩存400中找到解析的消息時(shí),從全局高速緩存400取回解析的消息107,并將其寫(xiě)入歸檔服務(wù)器(archiver server ) 501。
用戶(hù)代理單元600
通過(guò)產(chǎn)生指向數(shù)據(jù)收集系統(tǒng)200的命令,人工創(chuàng)建用戶(hù)代理800。 最好該命令中的URI 103包含基本域部分中的有效的應(yīng)答系統(tǒng)1100 子域102值。除了該規(guī)則之外,用戶(hù)代理單元800是靈活的。用戶(hù)代 理單元800具有各種各樣的實(shí)現(xiàn)方式。例如,可在SEM和沖黃幅廣告、 網(wǎng)站上的超鏈接、電子郵件和各個(gè)站點(diǎn)上的提交物(submission)中實(shí) 現(xiàn)用戶(hù)代理800,僅僅列舉了一些可能的實(shí)現(xiàn)方式。此外,用戶(hù)代理 800能夠采取二進(jìn)制、TCP、通信協(xié)議、甚至由所實(shí)現(xiàn)的網(wǎng)絡(luò)保證的 無(wú)線/蜂窩傳輸?shù)刂返男问健?br>
數(shù)據(jù)子系統(tǒng)500
數(shù)據(jù)子系統(tǒng)500被用于捕捉、存儲(chǔ)、聚集和分析數(shù)據(jù)收集系統(tǒng) 200捕捉的數(shù)據(jù)。數(shù)據(jù)子系統(tǒng)利用從屬數(shù)據(jù)收集模型,其中一個(gè)或多 個(gè)歸檔服務(wù)器501被用于快速把消息107從全局隊(duì)列400轉(zhuǎn)移給更永 久的存儲(chǔ)機(jī)構(gòu),如圖12中所示。
在一個(gè)優(yōu)選實(shí)施例中,歸檔服務(wù)器501利用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)信 息。在另一個(gè)實(shí)施例中,信息被寫(xiě)成二進(jìn)制文件格式,并被存留在磁 盤(pán)上。歸檔服務(wù)器501的主要用途是把存儲(chǔ)器中的全局隊(duì)列400消息 轉(zhuǎn)移到更有復(fù)原力的存儲(chǔ)介質(zhì)中。
依據(jù)系統(tǒng)定義的時(shí)間間隔,中間數(shù)據(jù)庫(kù)服務(wù)器502從一個(gè)或多個(gè) 歸檔服務(wù)器501引出信息,以便把該數(shù)據(jù)裝栽到站點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù) 集市(datamart)中。在一個(gè)實(shí)施例中,歸檔服務(wù)器501采用與中間數(shù) 據(jù)庫(kù)服務(wù)器502的多對(duì)一關(guān)系。在一個(gè)優(yōu)選實(shí)施例中,歸檔服務(wù)器501 采用與中間數(shù)據(jù)庫(kù)服務(wù)器502的直接一對(duì)一關(guān)系,在又一個(gè)實(shí)施例中, 歸檔服務(wù)器501采用與中間數(shù)據(jù)庫(kù)服務(wù)器502的一對(duì)多關(guān)系。
此外,在指定實(shí)施例中,歸檔服務(wù)器501和中間數(shù)據(jù)庫(kù)服務(wù)器 502能夠駐留在利用廠家軟件平臺(tái)的同一物理設(shè)備上。在另一個(gè)實(shí)施 例中,歸檔服務(wù)器501和中間數(shù)據(jù)庫(kù)服務(wù)器502能夠駐留在利用同一廠家軟件的分開(kāi)的物理設(shè)備上。在又一個(gè)實(shí)施例中,歸檔服務(wù)器501 和中間數(shù)據(jù)庫(kù)服務(wù)器502能夠釆用不同的廠家軟件平臺(tái),而不管它們 的物理位置如何。在本節(jié)中描述的和根據(jù)該評(píng)論推測(cè)的所有實(shí)施例都 被認(rèn)為落入本發(fā)明的范圍內(nèi)。
類(lèi)似地,站點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)503能夠駐留在同一或者分開(kāi)的物理設(shè)備 上,它可以采用與歸檔服務(wù)器501和中間數(shù)據(jù)庫(kù)服務(wù)器502相同或不 同的廠家軟件平臺(tái)。站點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)503按照有利的方式存儲(chǔ)信息,以 便以各種方式分析通信量。
可選的是,就多站點(diǎn)操作來(lái)說(shuō),全局?jǐn)?shù)據(jù)倉(cāng)庫(kù)504可被用于跨各 個(gè)站點(diǎn)合并數(shù)據(jù)。類(lèi)似地,全局?jǐn)?shù)據(jù)倉(cāng)庫(kù)503可駐留在同一或分開(kāi)的 物理設(shè)備上,它可以采用與歸檔服務(wù)器501、中間數(shù)據(jù)庫(kù)服務(wù)器502 和站點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器503相同或不同的廠家軟件平臺(tái)。
從而,數(shù)據(jù)收集系統(tǒng)200實(shí)現(xiàn)收集通過(guò)網(wǎng)絡(luò)傳輸?shù)男畔⒌南到y(tǒng)。 數(shù)據(jù)收集系統(tǒng)200通過(guò)網(wǎng)絡(luò)與始發(fā)系統(tǒng)100通信,從起端點(diǎn)服務(wù)器作 用的始發(fā)系統(tǒng)IOO接收具有URI 103的消息107。數(shù)據(jù)收集系統(tǒng)200 根據(jù)輸入的始發(fā)系統(tǒng)100 URI 107,確定消息107的應(yīng)答系統(tǒng)1100 URI 102。數(shù)據(jù)收集系統(tǒng)200 ^L配置成分析消息107的內(nèi)容,并根據(jù)對(duì)初 始消息107的分析結(jié)果,產(chǎn)生后續(xù)消息107。數(shù)據(jù)收集系統(tǒng)200在利 用全局隊(duì)列400的過(guò)程中,存儲(chǔ)始發(fā)系統(tǒng)100消息107的語(yǔ)境相關(guān)組 件或分量(component),同時(shí)把后續(xù)消息107傳送給起始發(fā)系統(tǒng)作 用的應(yīng)答系統(tǒng)1100 URI 103。
語(yǔ)境數(shù)據(jù)
語(yǔ)境數(shù)據(jù)有三個(gè)主要分量(或組件)結(jié)構(gòu)、交互作用和時(shí)間。 結(jié)構(gòu)與在指定網(wǎng)絡(luò)位置發(fā)現(xiàn)的組件內(nèi)和組件間定義相關(guān)。組件可
包括(但不限于)網(wǎng)頁(yè)、web服務(wù)、遠(yuǎn)程訪問(wèn)的軟件資源和公開(kāi)可用的 多組數(shù)據(jù)。結(jié)構(gòu)包括(但不限于)如同會(huì)在網(wǎng)站圖或系統(tǒng)圖上發(fā)現(xiàn)的那 樣組件是如何被鏈接在一起的。結(jié)構(gòu)還包括指定組件是如何構(gòu)成的(例 如,如在網(wǎng)頁(yè)的結(jié)構(gòu)或一組API調(diào)用的結(jié)構(gòu)中那樣),以及指定組件 的內(nèi)容是如何呈現(xiàn)給用戶(hù)的。本質(zhì)上,結(jié)構(gòu)包括從指定服務(wù)器發(fā)給用戶(hù)的一切東西。
交互作用通常被表示成從通過(guò)DataTrendzTM發(fā)明直接或間接追 蹤的客戶(hù)機(jī)動(dòng)作得到的一切。在一個(gè)實(shí)施例中,用戶(hù)可向服務(wù)器發(fā)送 請(qǐng)求或響應(yīng),這種情況下,所有信息通過(guò)DataTrendzTM體系結(jié)構(gòu),隨 后如同所述那樣被捕捉。在另一個(gè)實(shí)施例中,異步調(diào)回機(jī)制、諸如 AJAX或JavaScript之類(lèi)的客戶(hù)端腳本、諸如ActiveX控件或Java 小程序之類(lèi)的構(gòu)件、或者甚至諸如工具欄和插件之類(lèi)的下栽組件都可 :帔用于把關(guān)于用戶(hù)交互作用的信息發(fā)送給DataTrendzTM系統(tǒng)。上述列 舉并不包括所有可能的選項(xiàng),相反它只打算表示一些可能備選方案的 例子。
時(shí)間指的是DataTrendzTM發(fā)明隨著時(shí)間追蹤結(jié)構(gòu)和交互作用的 能力。這能夠?qū)崿F(xiàn)用戶(hù)活動(dòng)的移動(dòng)觀察,并且能夠?qū)崿F(xiàn)獲得用戶(hù)行為 模式和網(wǎng)站響應(yīng)模式的能力。
通過(guò)實(shí)現(xiàn)這種數(shù)據(jù)的捕捉、存儲(chǔ)和分析,DataTrendzTM提供或 者關(guān)于服務(wù)器的響應(yīng),或者關(guān)于各種時(shí)間相關(guān)措施觀察數(shù)據(jù)的能力。
工業(yè)應(yīng)用
通過(guò)其各種實(shí)施例,DataTrendzTM發(fā)明可在各種行業(yè)中得到應(yīng) 用。本節(jié)將深入研究這些行業(yè)中的一些行業(yè),突出通過(guò)本發(fā)明獲得的 提高。下面的列舉不應(yīng)被認(rèn)為是全面的,相反只是提供本發(fā)明的典型 應(yīng)用例子。
DataTrendzTM消除了妨礙目前的許多追蹤解決方案的一些更重 大的障礙。DataTrendzTM提供追蹤用戶(hù)交互作用的能力,而不需要在 應(yīng)答系統(tǒng)上的代碼。DataTrendzTM也捕捉以前從未獲得的數(shù)據(jù),比如 與站點(diǎn)結(jié)構(gòu)相關(guān)的語(yǔ)境數(shù)據(jù)和實(shí)際表單提交值。最后,DataTrendzTM 能夠跨域追蹤用戶(hù),而不需要在始發(fā)系統(tǒng)上的特殊cookies。從基于因 特網(wǎng)/外聯(lián)網(wǎng)的網(wǎng)站追蹤到基于內(nèi)部網(wǎng)的企業(yè)內(nèi)容資源追蹤, DataTrendzTM提供顯著增強(qiáng)的追蹤用戶(hù)交互作用的能力。
點(diǎn)擊欺詐(click fraud)寬松地定義一種致力于分析活動(dòng)模式,力 圖確定欺詐性活動(dòng)的行業(yè)。點(diǎn)擊欺詐的例子包括(但不限于)自動(dòng)化(BOT)程序、腳本化(scripted)點(diǎn)擊模式活動(dòng)和黑客服務(wù)攻擊。點(diǎn)擊二 詐分析具有獲得具有網(wǎng)絡(luò)能力的站點(diǎn)的靜態(tài)結(jié)構(gòu)數(shù)據(jù)的內(nèi)容爬蟲(chóng)和 捕捉用戶(hù)動(dòng)作的當(dāng)前追蹤解決方案之間存在差距的缺點(diǎn)。 DataTrendzTM提供把用戶(hù)交互作用重疊在具有網(wǎng)絡(luò)能力的站點(diǎn)結(jié)構(gòu) 之上能力,使新的數(shù)據(jù)算法能夠確定欺詐性活動(dòng)。在下面的章節(jié)中將 更詳細(xì)地涉及數(shù)據(jù)挖掘。
4亍為定向是應(yīng)用于試圖當(dāng)用戶(hù)遍歷 一組^皮監(jiān)—見(jiàn)站點(diǎn)內(nèi)的不同網(wǎng) 站時(shí),向這些用戶(hù)提供針對(duì)性商業(yè)內(nèi)容的那些解決方案提供者的名 稱(chēng)。例如,如果用戶(hù)遍歷汽車(chē)特許經(jīng)銷(xiāo)商網(wǎng)站的指定網(wǎng)絡(luò)時(shí),這種途 徑最終會(huì)確定用戶(hù)對(duì)某種車(chē)輛感興趣,從而會(huì)提供顯示可供選擇的汽 車(chē)的廣告。關(guān)于行為定向的主要挑戰(zhàn)在于它要求系統(tǒng)跨網(wǎng)站追蹤用 戶(hù)。在DataTrendzTM之前,這意味或者使用多數(shù)瀏覽器默認(rèn)禁用的第 三方cookies,或者廠家不得不設(shè)法根據(jù)分開(kāi)地收集的數(shù)據(jù)使用戶(hù)信息 相關(guān)聯(lián)。DataTrendzTM的跨網(wǎng)站實(shí)際跟隨用戶(hù)的能力能夠?qū)崿F(xiàn)在目前 的市場(chǎng)中未實(shí)現(xiàn)的實(shí)時(shí)行為定向。
搜索引擎優(yōu)化(SEO)公司試圖確定利用比如外部鏈接、字典排列 之類(lèi)的事物,盡可能高地移動(dòng)客戶(hù)機(jī)的自然搜索結(jié)果的各種手段。這 全部都是確定哪些搜索引擎在任何時(shí)候都最有價(jià)值的努力。這些努力 的主要缺點(diǎn)是確定原因和效果的手段不直接。這些解決方案能夠獲得 用戶(hù)交互作用,但是它們不能同時(shí)獲得站點(diǎn)結(jié)構(gòu)。例如,指定的解決 方案可能能夠確定用戶(hù)訪問(wèn)過(guò)指定頁(yè)面,不過(guò)它不能確定該頁(yè)面上的 確切內(nèi)容。由于DataTrendzTM獲得語(yǔ)境數(shù)據(jù),因此在連續(xù)的迭代中探 索不同的可能途徑的條件下,能夠?qū)崟r(shí)進(jìn)行SEO。
搜索引擎營(yíng)銷(xiāo)( SEM)描述致力于利用關(guān)鍵字層面的自然搜索結(jié) 果的相關(guān)付費(fèi)廣告的排列的行業(yè)。SEM公司的目標(biāo)之一是增大目標(biāo)網(wǎng) 站的銷(xiāo)售或線索。多數(shù)SEM提供存在眾多的限制,包括不能直接報(bào) 告用戶(hù)內(nèi)容(即,表單提交數(shù)據(jù)),和不能直接把搜索引擎內(nèi)容和所得 到的訪問(wèn)者動(dòng)作聯(lián)系起來(lái)。DataTrendzTM位于搜索引擎和目標(biāo)網(wǎng)站之 間,能夠把用戶(hù)交互作用和搜索引擎活動(dòng)聯(lián)系起來(lái)。本發(fā)明的基于因特網(wǎng)的實(shí)施例是搜索引擎的有用配合,因?yàn)镈ataTrendzTM為SEM公 司提供相當(dāng)數(shù)量的語(yǔ)境信息。
這樣大量的進(jìn)行中的語(yǔ)境信息的收集還提供單 一 的市場(chǎng)信息倉(cāng) 庫(kù)。通過(guò)利用創(chuàng)新的數(shù)據(jù)挖掘算法,DataTrendz頂將能夠提供以前不 能獲得的市場(chǎng)分析和預(yù)測(cè)能力。
聯(lián)盟營(yíng)銷(xiāo)描述商家的使其它在線商家能夠代表該商家做廣告的 實(shí)踐。聯(lián)盟營(yíng)銷(xiāo)建立在跨許多商家網(wǎng)站追蹤用戶(hù)活動(dòng),以便核實(shí)購(gòu)買(mǎi) 和其它用戶(hù)動(dòng)作的能力之上。過(guò)去這一直是極其困難的過(guò)程,要求聯(lián) 盟網(wǎng)絡(luò)和商家的漫長(zhǎng)努力。通過(guò)消除放在每個(gè)商家的站點(diǎn)上放置代碼 的需要,DataTrendzTM消除這些障礙中的許多障礙。此外,由于多數(shù) 聯(lián)盟營(yíng)銷(xiāo)網(wǎng)絡(luò)通過(guò)一系列的HTTP重定向過(guò)程傳遞通信量,因此,通 過(guò)利用冗余網(wǎng)絡(luò)解決方案消除這種重定向,DataTrendzTM實(shí)際上將降 低網(wǎng)絡(luò)可視性,同時(shí)提高穩(wěn)定性和追蹤能力。
數(shù)據(jù)挖掘
一旦系統(tǒng)收集了語(yǔ)境數(shù)據(jù),就進(jìn)行有目的的分析,以便獲得額外 的商業(yè)和戰(zhàn)略見(jiàn)識(shí)。這種分析通常被稱(chēng)為分布式數(shù)據(jù)挖掘。分布式數(shù) 據(jù)挖掘技術(shù)目前應(yīng)用于各種數(shù)據(jù)類(lèi)型。盡管本領(lǐng)域的技術(shù)人員可選擇 使用他們自己偏愛(ài)的實(shí)現(xiàn)方法,不過(guò)一種優(yōu)選的途徑是首先把語(yǔ)境數(shù) 據(jù)的功能組件重疊在結(jié)構(gòu)要素之上,以便逐步形成、可視化和更好地 理解數(shù)據(jù)能夠支持的語(yǔ)境和潛在商業(yè)目的或其它目的。該過(guò)程一旦完 成,就利用時(shí)間分片算法沿時(shí)間軸存儲(chǔ)結(jié)構(gòu)化的功能數(shù)據(jù)。
在恰當(dāng)?shù)亟Y(jié)合和存儲(chǔ)這組新穎的數(shù)據(jù)的情況下,數(shù)據(jù)挖掘方面被 證實(shí)的公知理論方法可被用于定義使用模式、序列模式、活動(dòng)的模式、 確定新的或增長(zhǎng)的影響點(diǎn),以及得到關(guān)于上面提及的一些或全部的市 場(chǎng)可變性,最終得到未來(lái)預(yù)測(cè)。
通過(guò)利用這些新的模式,通過(guò)對(duì)照模擬結(jié)果和加權(quán)的影響點(diǎn),測(cè) 量活動(dòng)的周期性波動(dòng),二次分析分揭示另外的關(guān)心點(diǎn)。這些周期性波 動(dòng)可由任意時(shí)間段構(gòu)成,包括(但不限于)與時(shí)間相關(guān)的周期性、區(qū)域 特性、網(wǎng)絡(luò)位置信息和/或用戶(hù)屬性。交互作用可包括這些波動(dòng)與歸因于該數(shù)據(jù)的任意單一或多重的數(shù)據(jù)屬性的任意組合。例如,關(guān)心的可 能組合可以是美國(guó)東北部婦女購(gòu)買(mǎi)家庭用品的習(xí)慣的月度波動(dòng)。
利用這些二次分析,顯現(xiàn)成為諸如搜索引擎優(yōu)化(例如,內(nèi)容的 什么特性使網(wǎng)站更有效)或者企業(yè)內(nèi)容管理(例如,當(dāng)利用指定的分類(lèi) 學(xué)上層管理組織內(nèi)容時(shí),發(fā)現(xiàn)內(nèi)容更有效或者不太有效)之類(lèi)工作的基 礎(chǔ)的其它活動(dòng)模式。此外,背離標(biāo)準(zhǔn)活動(dòng)模式能夠?qū)崿F(xiàn)影響分析的發(fā) 展,影響分析能夠在諸如點(diǎn)擊欺詐分析之類(lèi)工作中達(dá)到極至。
動(dòng)態(tài)cookies
成為本系統(tǒng)的基礎(chǔ)的更有趣的創(chuàng)新之一專(zhuān)注于解決跨越對(duì)目標(biāo) 網(wǎng)站的多次訪問(wèn)追蹤訪問(wèn)者的問(wèn)題。為了實(shí)現(xiàn)跨天、跨周、跨月和跨 年追蹤個(gè)人的能力,本發(fā)明的一個(gè)實(shí)施例利用動(dòng)態(tài)cookies的構(gòu)思來(lái) 處理對(duì)指定網(wǎng)站的后續(xù)訪問(wèn)。
動(dòng)態(tài)cookies是能夠手動(dòng)下載、自動(dòng)安裝或按它們的某種組合下 載安裝到用戶(hù)計(jì)算機(jī)上的小型實(shí)用程序。該實(shí)用程序?qū)σ粉櫟挠脩?hù) 訪問(wèn)網(wǎng)站的內(nèi)部列表施加影響,同時(shí)監(jiān)一見(jiàn)用戶(hù)的網(wǎng)絡(luò)活動(dòng)。
每當(dāng)用戶(hù)重新訪問(wèn)指定的網(wǎng)站時(shí),該實(shí)用程序自動(dòng)把用戶(hù)重定向 到DataTrendzTM系統(tǒng),在DataTrendzTM系統(tǒng)中,追蹤被重新初始化。 在一個(gè)優(yōu)選實(shí)施例中,除這種自動(dòng)重定向功能之外,動(dòng)態(tài)cookies不 與用戶(hù)的計(jì)算機(jī)交互作用,也不能夠?qū)崿F(xiàn)任何其它動(dòng)作。
在一個(gè)實(shí)施例中,該實(shí)用程序可采取監(jiān)視關(guān)于指定web瀏覽器 的所有網(wǎng)絡(luò)流量的瀏覽器插件、ActiveX或Java小程序的形式。這些 對(duì)象被認(rèn)為是例子,而不是對(duì)本發(fā)明的限制。在另一個(gè)實(shí)施例中,作 為響應(yīng)的一部分,DataTrendzTM會(huì)向始發(fā)系統(tǒng)發(fā)送一個(gè)可執(zhí)行文件。 可以圖像或者避免用戶(hù)安全問(wèn)題的其它某種文件格式的形式嵌入該 可執(zhí)行文件。該可執(zhí)行文件隨后會(huì)按照與當(dāng)前的cookie技術(shù)類(lèi)似的方 式,把它自己裝在用戶(hù)計(jì)算機(jī)上,從而監(jiān)視通信量。這些是可如何實(shí) 現(xiàn)動(dòng)態(tài)cookies的兩個(gè)例子,只是作為例子提供的。它們不應(yīng)被視為 可能的備選實(shí)現(xiàn)方案的窮舉,所有其它備選方案都在本發(fā)明的范圍之 內(nèi)。盡管舉例說(shuō)明了本發(fā)明的優(yōu)選實(shí)施例,不過(guò)如上所述,在不脫離 本發(fā)明的精神和范圍的情況下,可做出許多變化。因此,本發(fā)明的范 圍不受優(yōu)選實(shí)施例的公開(kāi)內(nèi)容限制。相反,本發(fā)明應(yīng)完全由下面的權(quán) 利要求限定。
本申請(qǐng)要求早先于2007年4月17日提交的美國(guó)臨時(shí)專(zhuān)利申請(qǐng) No. 60/912,203的優(yōu)先權(quán)。通過(guò)引用將其全部?jī)?nèi)容并入于此,就好像 在此進(jìn)行了全面闡述一樣。
權(quán)利要求
1、一種用于獲得和存儲(chǔ)通過(guò)網(wǎng)絡(luò)傳輸?shù)男畔⒌南到y(tǒng),所述系統(tǒng)包括a.與所述網(wǎng)絡(luò)連接的第一網(wǎng)絡(luò)位置,該第一網(wǎng)絡(luò)位置能夠向所述網(wǎng)絡(luò)上的第二網(wǎng)絡(luò)位置傳送信息;b.邏輯上位于所述第一網(wǎng)絡(luò)位置和所述第二網(wǎng)絡(luò)位置之間的中間網(wǎng)絡(luò)位置,所述中間位置能夠i.接收來(lái)自所述第一網(wǎng)絡(luò)位置的傳輸;ii.向所述第二網(wǎng)絡(luò)位置發(fā)送傳輸,所述傳輸以從所述第一網(wǎng)絡(luò)位置接收到的傳輸?shù)膬?nèi)容為基礎(chǔ);iii.接收來(lái)自所述第二網(wǎng)絡(luò)位置的傳輸;iv.根據(jù)從所述第二網(wǎng)絡(luò)位置接收到的傳輸?shù)膬?nèi)容,向所述第一網(wǎng)絡(luò)位置發(fā)送傳輸;c.其中所述中間網(wǎng)絡(luò)位置能夠把從所述第一網(wǎng)絡(luò)位置和所述第二網(wǎng)絡(luò)位置接收到的傳輸存儲(chǔ)在邏輯存儲(chǔ)位置中。
2、 按照權(quán)利要求1所述的系統(tǒng),其中當(dāng)向所述第二網(wǎng)絡(luò)位置發(fā) 送傳輸時(shí),所述中間網(wǎng)絡(luò)位置充當(dāng)所述第一網(wǎng)絡(luò)位置。
3、 按照權(quán)利要求1所述的系統(tǒng),其中當(dāng)向所述第一網(wǎng)絡(luò)位置發(fā) 送傳輸時(shí),所述中間網(wǎng)絡(luò)位置充當(dāng)所述第二網(wǎng)絡(luò)位置。
4、 按照權(quán)利要求1所述的系統(tǒng),其中所述邏輯存儲(chǔ)位置是全局隊(duì)列。
5、 按照權(quán)利要求4所述的系統(tǒng),其中所述存儲(chǔ)位置中的信息被 存放在更永久的存儲(chǔ)介質(zhì)中。
6、 按照權(quán)利要求5所述的系統(tǒng),其中所述存儲(chǔ)介質(zhì)選自文件系 統(tǒng)上的文件或者數(shù)據(jù)庫(kù)中的記錄。
7、 按照權(quán)利要求1所述的系統(tǒng),其中至少一個(gè)所述傳輸包括一 個(gè)不可見(jiàn)的組件,并且追蹤值被放入所述不可見(jiàn)的組件中,以便追蹤 一系列的傳輸。
8、 按照權(quán)利要求1所述的系統(tǒng),其中從所述中間網(wǎng)絡(luò)位置到所 述第一網(wǎng)絡(luò)位置的傳輸包括活動(dòng)內(nèi)容,并且其中該活動(dòng)內(nèi)容中的至少 某 一 部分被修改,以便把后續(xù)響應(yīng)引導(dǎo)回所述中間網(wǎng)絡(luò)位置。
9、 按照權(quán)利要求8所述的系統(tǒng),其中所述活動(dòng)內(nèi)容是一個(gè)或多 個(gè)超鏈接。
10、 按照權(quán)利要求8所述的系統(tǒng),其中所述活動(dòng)內(nèi)容是嵌入組件。
11、 按照權(quán)利要求9所述的系統(tǒng),其中所述嵌入組件是Flash、 ActiveX或Java小程序之一。
12、 按照權(quán)利要求9所述的系統(tǒng),其中所述嵌入組件是客戶(hù)端腳本。
13、 按照權(quán)利要求12所述的系統(tǒng),其中所述客戶(hù)端腳本選自 VBScript或JavaScript。
14、 按照權(quán)利要求8所述的系統(tǒng),還包括能夠被所述中間網(wǎng)絡(luò)位 置監(jiān)視的網(wǎng)絡(luò)位置列表。
15、 按照權(quán)利要求14所述的系統(tǒng),其中可選的是,可比較從所述第一網(wǎng)絡(luò)位置接收的傳輸與待監(jiān)視的所述網(wǎng)絡(luò)位置列表,從而a.如果由來(lái)自第一網(wǎng)絡(luò)位置的傳輸識(shí)別的目標(biāo)第二網(wǎng)絡(luò)位置不 在所述網(wǎng)絡(luò)位置列表中,那么來(lái)自所述第一網(wǎng)絡(luò)位置的傳輸被所述中 間網(wǎng)絡(luò)位置直接轉(zhuǎn)發(fā)給所述第二網(wǎng)絡(luò)位置,所述中間網(wǎng)絡(luò)位置不采取 修改、追蹤或存儲(chǔ)所述傳輸?shù)膭?dòng)作。
16、 按照權(quán)利要求8所述的系統(tǒng),其中通過(guò)不同的URI值,傳 輸從所述第一網(wǎng)絡(luò)位置被引導(dǎo)到所述中間網(wǎng)絡(luò)位置。
17、 按照權(quán)利要求16所述的系統(tǒng),其中所述URI值包含使所述 中間網(wǎng)絡(luò)位置能夠確定所述第二網(wǎng)絡(luò)位置的唯一值。
18、 按照權(quán)利要求17所述的系統(tǒng),其中所述唯一值以名稱(chēng)-值對(duì) 的形式^皮放入所述URI中。
19、 按照權(quán)利要求1所述的系統(tǒng),其中利用DNS條目,傳輸從 所述第 一 網(wǎng)絡(luò)位置被引導(dǎo)到所述中間網(wǎng)絡(luò)位置。
20、 按照權(quán)利要求1所述的系統(tǒng),其中來(lái)自所述第一網(wǎng)絡(luò)位置的 唯一信息被用于確定所述第二網(wǎng)絡(luò)位置,其中來(lái)自所述第一網(wǎng)絡(luò)位置 的傳輸被自動(dòng)發(fā)送給所述中間網(wǎng)絡(luò)位置。
21、 按照權(quán)利要求20所述的系統(tǒng),其中來(lái)自所述第一網(wǎng)絡(luò)位置 的所述唯一信息是所述第一網(wǎng)絡(luò)位置的IP地址。
22、 按照權(quán)利要求20所述的系統(tǒng),其中來(lái)自所述第一網(wǎng)絡(luò)位置 的所述唯一信息是所述第一網(wǎng)絡(luò)位置的MAC地址。
全文摘要
本發(fā)明涉及利用存在于始發(fā)系統(tǒng)和應(yīng)答系統(tǒng)之間的數(shù)據(jù)收集系統(tǒng),收集通過(guò)網(wǎng)絡(luò)傳輸?shù)男畔⒌姆墙槿胄苑椒ê拖到y(tǒng)。在一個(gè)實(shí)施例中,始發(fā)系統(tǒng)可以是web瀏覽器,應(yīng)答系統(tǒng)可以是web服務(wù)器。在另一個(gè)實(shí)施例中,始發(fā)系統(tǒng)可以是本地計(jì)算機(jī),應(yīng)答系統(tǒng)可以是網(wǎng)絡(luò)上的另一臺(tái)計(jì)算機(jī)。這些和其它結(jié)構(gòu)都被認(rèn)為在本發(fā)明的范圍之內(nèi)。數(shù)據(jù)收集系統(tǒng)按照混合的對(duì)等/客戶(hù)機(jī)-服務(wù)器方式充當(dāng)應(yīng)答系統(tǒng)來(lái)響應(yīng)始發(fā)系統(tǒng),同時(shí)充當(dāng)始發(fā)系統(tǒng)來(lái)響應(yīng)應(yīng)答系統(tǒng)。這種結(jié)構(gòu)能夠按照完全非介入的方式實(shí)現(xiàn)網(wǎng)絡(luò)流量信息的實(shí)時(shí)采集和存儲(chǔ),而不需要任何服務(wù)器端或客戶(hù)端代碼。
文檔編號(hào)G06F15/16GK101681340SQ200880018566
公開(kāi)日2010年3月24日 申請(qǐng)日期2008年4月15日 優(yōu)先權(quán)日2007年4月17日
發(fā)明者厄爾·格蘭特勞倫斯, 肯尼思·托拉 申請(qǐng)人:肯尼思·托拉;厄爾·格蘭特勞倫斯