專利名稱:用于確定通信網(wǎng)絡用戶概況的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及因特網(wǎng)用戶或者任何其它通信網(wǎng)絡用戶進行行為研究的領(lǐng)域。
因特網(wǎng)服務提供商,不管是代理商、廣告商、電子商務公司、出版商或者更通常的數(shù)字內(nèi)容的廣播公司為了優(yōu)化效率(optimiseefficiency)都愿意根據(jù)每個因特網(wǎng)用戶的概況(profile)動態(tài)地適應他們提供的數(shù)字內(nèi)容。例如,他們希望能夠顯示根據(jù)瀏覽網(wǎng)站的每個因特網(wǎng)用戶的概況而定制的廣告標題,還能夠根據(jù)因特網(wǎng)用戶的類型重點突出各種不同的產(chǎn)品。
文獻WO 02/33626(2002年4月25號出版)描述了允許確定給定的未知因特網(wǎng)用戶的概括的方法。這種方法在于主要根據(jù)因特網(wǎng)用戶瀏覽的因特網(wǎng)頁的URL地址、他在其搜索和所選擇標題欄中使用的關(guān)鍵詞,以概率的方式來確定因特網(wǎng)用戶的人口統(tǒng)計屬性(婚姻狀態(tài),年齡,性別,收入,職業(yè))。出于此目的,該方法在于從包括已知社會人口統(tǒng)計概況的因特網(wǎng)用戶的參考人口,為包括例如性別、婚姻狀態(tài)或者職業(yè)的一組屬性確定多組不同的URL地址。這樣確定的這些組URL地址允許為每個未知的因特網(wǎng)用戶獲得與每個屬性相關(guān)聯(lián)的分數(shù)(score),該分數(shù)根據(jù)因特網(wǎng)用戶已經(jīng)瀏覽過的URL地址被計算出。
這種剖析方法根據(jù)最普通的因特網(wǎng)人口給出結(jié)果,也就是,提供最普遍屬性的人口。另一方面,這種方法并不很適于確定少數(shù)因特網(wǎng)用戶的概況。
另外,在文獻WO 02/33626中提出的方法基于URL地址,并不允許確定關(guān)于因特網(wǎng)用戶的社會人口統(tǒng)計概況的可靠結(jié)論。
本發(fā)明的目的是提供一種比現(xiàn)有技術(shù)中的方法得到的結(jié)果更精確的一種剖析方法。
出于此目的,本發(fā)明提供一種用于確定要被鑒定的通信網(wǎng)絡用戶概況的方法,包括以下步驟-把關(guān)于已知網(wǎng)絡用戶的概況數(shù)據(jù)存入數(shù)據(jù)庫,這些用戶作為參考人口的一部分,關(guān)于已知用戶的概況數(shù)據(jù)包括與每個用戶相關(guān)聯(lián)的一組屬性數(shù)據(jù),-對于通過網(wǎng)絡希望到達的每個網(wǎng)站或者一組網(wǎng)站中其中一個網(wǎng)站,根據(jù)到網(wǎng)站或者網(wǎng)站一部分的參考人口的用戶的連接歷史,使用處理裝置確定一組概率,其表示連接到該網(wǎng)站或者網(wǎng)站一部分的用戶屬性值。
-根據(jù)在給定的時間周期內(nèi)用戶希望連接的網(wǎng)站或者網(wǎng)站的一部分的概率,使用處理裝置確定待識別用戶具有給定屬性的概率。
其中處理裝置將待識別用戶具有給定屬性的概率確定為去相關(guān)概率值與相關(guān)概率值的組合,去相關(guān)概率值考慮到了與感興趣的網(wǎng)站或者網(wǎng)站一部分有關(guān)的概率,相關(guān)概率值考慮到了關(guān)于其為參考人口一部分的用戶的平均概況數(shù)據(jù)。
表述“網(wǎng)站的一部分”指的是屬于相同網(wǎng)站并且為應用該方法構(gòu)成同一主題實體(themed entity)的網(wǎng)頁或一組網(wǎng)頁。
去相關(guān)概率的計算完全依賴于待識別用戶已經(jīng)瀏覽過的該組網(wǎng)站或者網(wǎng)站的一部分,以及與瀏覽過的網(wǎng)站或者網(wǎng)站的部分的每個屬性相關(guān)的概率。
相關(guān)概率的計算也考慮到了參考人口成員的平均概況;也就是,對于每個屬性而言,與參考人口的所有成員的該屬性相關(guān)的平均概率。
這種方法具有組合去相關(guān)方法和相關(guān)方法的優(yōu)點,去相關(guān)方法促進由參考人口預測主要特征,相關(guān)方法促進從參考人口的成員之中預測少數(shù)特征。該方法產(chǎn)生比現(xiàn)有技術(shù)提供的方法更相關(guān)的結(jié)果。
可以根據(jù)以經(jīng)驗方式建立的組合規(guī)則來執(zhí)行兩種類型概率的結(jié)合,該經(jīng)驗方式根據(jù)參考人口的行為(假設參考人口代表了網(wǎng)絡用戶的全部人口)。
在本發(fā)明的實施例中,去相關(guān)和相關(guān)概率值的組合是線性組合。
去相關(guān)和相關(guān)概率值的組合依賴于可以根據(jù)參考人口以經(jīng)驗確定的結(jié)合參數(shù)。
特別是,這些參數(shù)是通過將概率計算應用于參考人口的成員來確定的,以便限定要被應用在相關(guān)方法和去相關(guān)方法之間的混合率(mixing rate)。
在本發(fā)明的實施例中,當待識別的網(wǎng)絡用戶使用網(wǎng)絡連接到主管網(wǎng)站的服務器(sever hosting a site)上時,主管網(wǎng)站的服務器將用戶的識別請求發(fā)送給用戶文件服務器(profiling server),用戶文件服務器將與用戶概況相關(guān)的數(shù)據(jù)返回給主管網(wǎng)站的服務器。
因此,主管網(wǎng)站的服務器根據(jù)與用戶概況相關(guān)的數(shù)據(jù)修改網(wǎng)站的表述。
本發(fā)明也提到一種用于確定通信網(wǎng)絡的待識別用戶的概況的系統(tǒng),包括與網(wǎng)絡連接并包括處理裝置的用戶文件服務器,其中處理裝置適于根據(jù)與所述在給定時間段內(nèi)用戶連接過的感興趣網(wǎng)站相關(guān)的概率確定待識別用戶具有給定屬性的概率。
在該系統(tǒng)中,處理裝置將用戶具有特定屬性的概率確定為去相關(guān)概率值與相關(guān)概率值的組合,去相關(guān)概率值考慮到了與感興趣的網(wǎng)站有關(guān)的概率,相關(guān)概率值考慮到了關(guān)于其為參考人口一部分的用戶的平均概況數(shù)據(jù)。
出于此目的,在該系統(tǒng)的實施例中,服務器適于連接到包含與網(wǎng)絡的已知用戶相關(guān)的概況數(shù)據(jù)的數(shù)據(jù)庫,這些用戶是參考人口的一部分,與已知用戶相關(guān)的概況數(shù)據(jù)包括與每個用戶相關(guān)的一組屬性值。
另外,處理裝置適于根據(jù)參考人口的用戶對于網(wǎng)站的連接歷史,通過網(wǎng)絡為希望到達的一組網(wǎng)站的每個網(wǎng)站確定表示連接到網(wǎng)站的用戶屬性值的一組概率。
其它特征和優(yōu)點將在下面的描述中示出,其僅用于展示和非限制的目的,必須同時參考唯一的附圖
進行閱讀。該圖是表示根據(jù)本發(fā)明的用戶文件系統(tǒng)的圖。
在該圖中,用戶文件系統(tǒng)100連接到通信網(wǎng)絡200(例如因特網(wǎng)),其與一組300感興趣的網(wǎng)絡服務器301到304相連。每個網(wǎng)絡服務器主管一個網(wǎng)站,或主管通過服務提供商對網(wǎng)絡200用戶(因特網(wǎng)用戶)可用的數(shù)字內(nèi)容。
為了適應他們提供的服務,服務提供商希望能夠?qū)崟r知道瀏覽其網(wǎng)頁的因特網(wǎng)用戶概況。
用戶文件系統(tǒng)100包括用戶文件服務器101,其包括適于計算關(guān)于連接到感興趣的網(wǎng)絡服務器301到304的因特網(wǎng)用戶的概況數(shù)據(jù)的處理裝置。
用戶文件服務器101連接到數(shù)據(jù)庫102,其包括關(guān)于因特網(wǎng)用戶的參考人口400的成員的數(shù)據(jù)。
用戶文件服務器101連接到數(shù)據(jù)庫102,其包括與因特網(wǎng)用戶的參考人口400的成員相關(guān)的數(shù)據(jù)。
統(tǒng)計因特網(wǎng)用戶人口400對同意提供其概況數(shù)據(jù)的自愿型因特網(wǎng)用戶進行分組(group)。例如通過電話或者直接通過因特網(wǎng)在線,根據(jù)被認為是全部人口的代表的社會人口統(tǒng)計學規(guī)則(例如,一個國家中的因特網(wǎng)用戶的人口),對這些因特網(wǎng)用戶進行征集(recruit)。傳感器軟件和/或信息文件(cookie)被安裝在計算機401上或者因特網(wǎng)用戶參考人口的每個成員的導航(navigation)站上。征集的成員要經(jīng)過選擇過程或者處理操作,以便產(chǎn)生可以被認為具有代表性的人口。
信息文件包括可以識別因特網(wǎng)用戶的數(shù)據(jù)。
傳感器軟件的目的在于記錄因特網(wǎng)用戶的瀏覽;也就是,用戶一段時間瀏覽的多個網(wǎng)站或者網(wǎng)站的部分。傳感器軟件通過網(wǎng)絡200有規(guī)律地把關(guān)于參考人口的成員的瀏覽歷史的信息發(fā)送給用戶文件服務器。用戶文件服務器101將其從軟件收到的信息記錄到數(shù)據(jù)庫102中。也可以使用如下所述的放在感興趣網(wǎng)站的網(wǎng)頁上的標記器(marker)進行信息收集。
根據(jù)參考人口的成員瀏覽的不同網(wǎng)站,用戶文件服務器101適于統(tǒng)計地確定連接到感興趣的特定網(wǎng)站301到304的因特網(wǎng)用戶的概況。
因特網(wǎng)用戶的概況由與該用戶相關(guān)的一系列屬性值組成。屬性是與服務提供商感興趣的每個因特網(wǎng)用戶相關(guān)的數(shù)據(jù)元素。這些屬性涉及,例如,因特網(wǎng)用戶的性別、年齡、以及社會職業(yè)類別。其它類型的屬性也可能是服務商感興趣的,并且能夠包含在用戶服務文件中的,例如因特網(wǎng)用戶的收入水平、他/她的地理位置、感興趣的領(lǐng)域、他/她使用的計算機類型(家庭計算機或者工作,瀏覽器類型,屏幕分辨率,連接速度)。
用戶文件服務器101將給定因特網(wǎng)用戶i的概況Pi確定為包括N個屬性值Pij的序列,Pij是因特網(wǎng)用戶i具有屬性j的概率。
因特網(wǎng)用戶i的概況如下Pi=(Pi1,Pi2,Pi3,Pi4,Pi5,Pi6,Pi7,Pi8,Pi9,Pi10,Pi11,,Pi12,Pi13,…PiN)[1]其中,特別是,Pi1是因特網(wǎng)用戶i是女人(j=1)的概率,Pi2是因特網(wǎng)用戶I是男人(j=2)的概率,Pi3、Pi4、Pi5、Pi6、Pi7、Pi8分別是因特網(wǎng)用戶i是0到14歲(j=3)、15到24歲(j=4)、25到34歲(j=5)、35到49歲(j=6)、50到64歲(j=7)、大于65歲(j=8)的概率,Pi9、Pi10、Pi11、Pi12、Pi13、是因特網(wǎng)用戶i屬于某種類型的社會職業(yè)類別的概率(j=9,10,11,12,或13),其它屬性14到N也在考慮之列。
另外,概況Pi的屬性值Pij必須滿足以下條件Pi1+Pi2=1[2]Pi3+Pi4+Pi5+Pi6+Pi7+Pi8=1[3]Pi9+Pi10+Pi11+Pi12+Pi13=1[4]用戶文件服務器101也將感興趣的給定網(wǎng)站的概況Ps確定為包括N個屬性值Psj的序列,Psj是瀏覽網(wǎng)站s的因特網(wǎng)用戶具有屬性j的概率。
網(wǎng)站概況如下Ps=(Ps1,Ps2,Ps3,Ps4,Ps5,Ps6,Ps7,Ps8,Ps9,Ps10,Ps11,Ps12,Ps13,...PsN)[5]其中概況Ps的屬性值Psj根據(jù)瀏覽網(wǎng)站s的參考人口的因特網(wǎng)用戶的屬性值來確定。
對于感興趣的給定網(wǎng)站s,屬性j的值Psj是與瀏覽網(wǎng)站s的參考人口的因特網(wǎng)用戶相關(guān)的值Pij的平均。因此,如果在瀏覽網(wǎng)站s的參考人口400的因特網(wǎng)用戶中,40%是女性以及60%是男性,那么我們得出Ps1=0.4以及Ps2=0.6。
當因特網(wǎng)用戶501,其可以是已知的因特網(wǎng)用戶(也就是,他/她屬于參考人400)或者未知的因特網(wǎng)用戶(也就是,他/她不屬于參考人400)連接到網(wǎng)站s時,主管網(wǎng)站的網(wǎng)絡服務器601將因特網(wǎng)用戶識別請求發(fā)送給用戶文件服務器101。用戶文件服務器101確定包含所述因特網(wǎng)用戶概況的數(shù)據(jù),并將其返回給網(wǎng)絡服務器601。根據(jù)感興趣的網(wǎng)絡服務器301到304上的因特網(wǎng)用戶501的連接歷史,通過將該歷史與參考人口400的成員的歷史進行比較來確定該概況。
為了獲得因特網(wǎng)用戶501的歷史,網(wǎng)絡服務器301到304主管網(wǎng)站,在這些網(wǎng)站中一些頁面已被網(wǎng)頁標記器所標記。這些標記器駐存在用戶文件服務器101上,以便當因特網(wǎng)用戶501訪問被這樣標記的網(wǎng)頁時,標記器的下載觸發(fā)發(fā)送請求到用戶文件服務器101。該請求指示用戶文件服務器101因特網(wǎng)用戶已經(jīng)加載了特殊的網(wǎng)頁。
當因特網(wǎng)用戶501連續(xù)地連接到一系列網(wǎng)站時,他/她觸發(fā)了連續(xù)的發(fā)送請求到用戶文件服務器101。這些請求都由用戶文件服務器解釋為瀏覽數(shù)據(jù)。該數(shù)據(jù)由用戶文件服務器101記錄到數(shù)據(jù)庫102中,并且構(gòu)成待識別因特網(wǎng)用戶的瀏覽歷史。
從該歷史中,用戶文件服務器101可以通過對其與參考入口400的因特網(wǎng)用戶相關(guān)的數(shù)據(jù)進行比較,確定待識別因特網(wǎng)用戶501的統(tǒng)計概況。
出于此目的,用戶文件服務器101根據(jù)被稱為“去相關(guān)(decorrelated)”的原始計算方法確定因特網(wǎng)用戶501的第一統(tǒng)計概況M1。該方法完全依賴于因特網(wǎng)用戶501已經(jīng)瀏覽過的多組網(wǎng)站s,并由此依賴于與用于瀏覽的網(wǎng)站的每個屬性相關(guān)的概率。
M1=(m1,1,m1,2,m1,3,m1,4,m1,5,m1,6,m1,7,m1,8,m1,9,m1,10,m1,11,m1,12,m1,13,...,m1,N) [6]其中m1,j=Πs=1x(psj)ln(e+ns-1)---[7]]]>其中ns是因特網(wǎng)用戶在特定的時間周期(例如,在最近兩個月內(nèi))瀏覽網(wǎng)站s的次數(shù),e是歐拉數(shù),x是因特網(wǎng)用戶501瀏覽網(wǎng)站的數(shù)量。
用戶文件服務器101根據(jù)被稱為“相關(guān)”的第二計算方法還確定因特網(wǎng)用戶501的第二統(tǒng)計概況M2。
該方法在參考人口400中考慮了因特網(wǎng)用戶的平均概況G;也就是,對于每個屬性j,對于參考人口的所有成員而言與該屬性相關(guān)的平均概率Pij。平均概況G由下式確定
G=(g1,g2,g3,g4,g5,g6,g7,g8,g9,g10,g11,g12,g13,...,gN)[8]其中對于每個屬性j,gj是對于參考人400的所有成員的屬性j的平均值。
第二統(tǒng)計概況由下式定義M2=(m2,1,m2,2,m2,3,m2,4,m2,5,m2,6,m2,7,m2,8,m2,9,m2,10,m2,11,m2,12,m2,13,...,m2,N)[9]其中m2,j=Πs=1x(psjgj)ln(e+ns-1)---[10]]]>其中ns是因特網(wǎng)用戶501在特定的時間周期(例如,在最近兩個月內(nèi))瀏覽網(wǎng)站s的次數(shù),e是歐拉數(shù),x是因特網(wǎng)用戶瀏覽網(wǎng)站的數(shù)量。
應當注意到在以上的兩種計算方法(方程[7]和[10])中,冪函數(shù)ln(e+ns-1)考慮了參數(shù)ns,其相應于在特定的時間周期內(nèi)因特網(wǎng)用戶501瀏覽過網(wǎng)站s的次數(shù)。根據(jù)這些計算方法,瀏覽同一網(wǎng)站的次數(shù)越多,在確定因特網(wǎng)用戶501的概況時與該網(wǎng)站相關(guān)的屬性就越重要。然而,有可能認為確定標準不是因特網(wǎng)用戶瀏覽同一網(wǎng)站的次數(shù),而是因特網(wǎng)用戶瀏覽網(wǎng)站的差異。在這種情況下,在方程[7]和[10]中的函數(shù)ln(e+ns-1)可以由不同的函數(shù)f(ns)來代替,尤其是慢增長函數(shù)或者等于1的常量函數(shù)。
被稱為“去相關(guān)”的第一計算方法便于預測與參考人口400的大部分成員相關(guān)的屬性值一致的屬性值,同時被稱為“相關(guān)”的第二計算方法便于預測與參考人口400的少數(shù)部分成員相關(guān)的屬性值一致的屬性值。
例如,假如一方面基于參考人口400(其意味著代表全部因特網(wǎng)用戶人口)我們發(fā)現(xiàn)連接到網(wǎng)站的是30%女性和70%男性。另一方面,我們認定基本瀏覽過網(wǎng)站301到304的特殊因特網(wǎng)用戶501,其概況為60%男性和40%女性。這些因特網(wǎng)用戶501將被認為主要是由第一計算方法得到的男性,因為他們?yōu)g覽了傾向于被男性瀏覽的網(wǎng)站。另一方面,這些相同的因特網(wǎng)用戶將被認為是由第二計算方法得到的女性,因為她們?yōu)g覽了比其它網(wǎng)站更易被女性瀏覽的網(wǎng)站。
為了進行大部分的“相關(guān)”和“去相關(guān)”計算機方法以便獲得接近真實的結(jié)果,用戶文件服務器101對所獲得因特網(wǎng)用戶501的組合統(tǒng)計概況M3進行計算,就象根據(jù)去相關(guān)概率計算的M1概況與根據(jù)相關(guān)概率計算的M2概況的組合。
M3=(m3,1,m3,2,m3,3,m3,4,m3,5,m3,6,m3,7,m3,8,m3,9,m3,10,m3,11,m3,12,m3,13,...,m3,N) [11]其中m3,j=αjm1,j+(1-αj)m2,j其中j∈[1,N][12]其中αj是為屬性j確定的去相關(guān)概率值m1,j和相關(guān)概率值m2,j的組合參數(shù),組成的αj介于0和1之間。
線性組合參數(shù)αj可以通過對參考人口400的成員應用概率計算以經(jīng)驗的方式確定,從而確定應用在相關(guān)方法和去相關(guān)方法之間要被應用的組合率。為了考慮參考人口的增長,這些組合參數(shù)都規(guī)律地進行更新。
為了進行直接的計算,用戶文件服務器101可以用下述的方式確定新的平均概況G3G3=(g3,1,g3,2,g3,3,g3,4,g3,5,g3,6,g3,7,g3,8,g3,9,g3,10,g3,11,g3,12,g3,13,...,g3,N)[13]其中g(shù)3,j=1aj+1-ajgj---[14]]]>從而混合統(tǒng)計概況M3可以用下述方式通過用戶文件服務器直接計算m3,j=Πs=1x(ps,jg3,j)ln(e+ns-1)---[15]]]>m3,j=Πs=1x(aj·ps,j+(1+aj)ps,jg3,j)ln(e+ns-1)---[16]]]>可以使用的組合參數(shù)序列的實例如下A=(α1,α2,α3,α4,α5,α6,α7,α8,α9,α10,α11,α12,...αN)A=(0,30,0,30,0,65,0,65,0,65,0,65,0,65,0,65,0,40,0,40,0,40,0,76,0,76...αN) [17]根據(jù)可選的階段,用戶文件服務器101可以將因特網(wǎng)用戶501的概率概況M3轉(zhuǎn)化為“確定的”概況I。這種轉(zhuǎn)化為確定概況的轉(zhuǎn)化階段在于將概率m3,j轉(zhuǎn)化為包括特殊屬性的因特網(wǎng)用戶501的確定概況D,以下述方式D3=(di,1,di,2,di,3,di,4,di,5,di,6,di,7,di,8,di,9,di,10,di,11,di,12,di,13,...,di,N)[18]其中di,j等于0或1,同時遵守條件[2],[3]和[4]。確定的概況D指示無論待識別因特網(wǎng)用戶501是男性還是女性,他/她所屬的年齡范圍以及他/她的社會職業(yè)類別,以及其它屬性。
這種必要的轉(zhuǎn)化導致依賴于因特網(wǎng)用戶i的瀏覽歷史的規(guī)模(size)的預測誤差。實際上,因特網(wǎng)用戶瀏覽網(wǎng)站的數(shù)量越多,這種預測就更精確。因此,轉(zhuǎn)化為確定概況將被執(zhí)行,而不依賴于由這種轉(zhuǎn)化產(chǎn)生的誤差小于或不小于對每個屬性可接受的預測誤差。
與概況結(jié)果要發(fā)送到的每個網(wǎng)站的服務提供商協(xié)作對可接受的預測誤差進行確定。
應當注意到下述方面N,因特網(wǎng)用戶i瀏覽過的網(wǎng)站或者網(wǎng)站的部分的數(shù)量,并且在預定的時間周期(例如最近兩個月內(nèi))被用戶文件服務器101記錄,ej,當用戶文件服務器101預測因特網(wǎng)用戶具有屬性j時產(chǎn)生的誤差(百分比), 當用戶文件服務器101預測因特網(wǎng)用戶具有屬性j時最大可接受的誤差(百分比), 與必須要預測的屬性j相關(guān)的最小概率閾值,因特網(wǎng)用戶呈現(xiàn)屬性j使得預測誤差ej小于 該最小概率閾值取決于因特網(wǎng)用戶瀏覽過的網(wǎng)站數(shù)量或者網(wǎng)站N的多個部分。
基于已經(jīng)進行了給定瀏覽次數(shù)N的參考人口400的已知因特網(wǎng)用戶,用戶文件服務器101為每個屬性j確定低于預測誤差ej小于 的概率閾值 對于每個N值都執(zhí)行該計算。
對于已經(jīng)進行了N次瀏覽的因特網(wǎng)用戶i來講,確定概況D如下計算對于每個屬性j,如果 那么dij=1 [19]該條件意味著當屬性m3j低于特定閾值時,因特網(wǎng)用戶i被認為呈現(xiàn)屬性j。用戶文件服務器101把由此確定的概況D記錄入數(shù)據(jù)庫102。
另外,在本發(fā)明的優(yōu)選實施例中,確定概況D由用戶文件服務器通過根據(jù)預定的優(yōu)先順序Z考慮一組預定屬性的每個屬性j進行計算。用戶文件服務器101在屬性j的優(yōu)先順序Z中為每個屬性j校驗條件 (方程[19])。根據(jù)對于特定的服務提供商而言每個屬性的商業(yè)重要性對該預定順序進行選擇。
順序Z可以如下所示,例如Z=(j=2,j=1,j=8,j=5,j=4,j=6,j=7,j=3...)從而使校驗的條件基于一些屬性,根據(jù)因特網(wǎng)用戶是男性(j=2),女性(j=1),因特網(wǎng)用戶大于65歲(j=8),在25到34歲之間(j=5),在15到25歲之間(j=4),在35到49歲之間(j=6),在50到64歲之間(j=7),以及在0到14歲之間(j=3),按照這種順序。
順序Z可以隨時間并根據(jù)概況結(jié)果要被發(fā)送到的服務提供商而進行修改。結(jié)果是建議的概況方法可以根據(jù)每個服務提供商想突出作為優(yōu)先的概況類型而進行修改。
當因特網(wǎng)用戶501連接到網(wǎng)站時,主管網(wǎng)站的網(wǎng)絡服務器601將因特網(wǎng)用戶501識別請求發(fā)送給用戶文件服務器101。用戶文件服務器101作為回報實時地提供關(guān)于因特網(wǎng)用戶的概況的數(shù)據(jù)。尤其是,其傳送(forward)了考慮中的(in question)因特網(wǎng)用戶501的概況D。接著,網(wǎng)絡服務器101可以根據(jù)與因特網(wǎng)用戶的社會人口統(tǒng)計性概況相關(guān)的數(shù)據(jù)修改網(wǎng)站的表達圖形,瀏覽方法或者廣告空間。網(wǎng)絡服務器101可以保持與因特網(wǎng)用戶的概況相關(guān)的數(shù)據(jù)或者將其存儲在信息文件中,所述信息文件安裝在因特網(wǎng)用戶的瀏覽器中。因此,因特網(wǎng)用戶501的概況對網(wǎng)絡服務器501將立即是可用的,用于因特網(wǎng)用戶在特定的時間周期(例如,三星期的周期)內(nèi)進行隨后的瀏覽。
包含在數(shù)據(jù)庫102中的與參考人口400相關(guān)的數(shù)據(jù)隨著人口發(fā)展被有規(guī)則地更新。與不同網(wǎng)站相關(guān)的數(shù)據(jù)也根據(jù)參考人口的成員進行更新。
用戶文件服務器101也被修改以在連接到特別感興趣的網(wǎng)站時產(chǎn)生記錄。該記錄可以由網(wǎng)站的服務提供商使用服務器101在線訪問。該記錄指出,例如,在特定的時間周期內(nèi)瀏覽過網(wǎng)站并且以統(tǒng)計方式呈現(xiàn)這些因特網(wǎng)用戶的概況的因特網(wǎng)用戶的數(shù)量。該記錄也包括與所呈現(xiàn)概況數(shù)據(jù)相關(guān)的預測誤差率。
在可選實施例中,用戶文件系統(tǒng)(profiling system)100和網(wǎng)絡服務器601不位于相同的因特網(wǎng)區(qū)域。在這種情況下,網(wǎng)絡服務器601不能訪問因特網(wǎng)用戶501概況。在該可選實施例中,服務器601請求因特網(wǎng)用戶501瀏覽器將識別請求發(fā)送給用戶文件服務器101。這樣,因特網(wǎng)用戶501瀏覽器將識別請求發(fā)送給用戶文件服務器101,而不是服務器601。
這樣的請求可以以閉塞的方式(blocking manner)執(zhí)行,因特網(wǎng)用戶501不訪問網(wǎng)站直到服務器601獲得了包含他/她的概況的數(shù)據(jù)。在這種情況下,服務器601將待識別因特網(wǎng)用戶501傳送給用戶文件服務器101。用戶文件服務器101確定與因特網(wǎng)用戶501概況相關(guān)的數(shù)據(jù),并且出于此目的其為該因特網(wǎng)用戶確定概況D,或者從數(shù)據(jù)庫102中提取出此概況。然后,用戶文件服務器101將因特網(wǎng)用戶501傳送給初始請求的服務器601的URL地址。這次,利用與因特網(wǎng)用戶的概況相關(guān)的數(shù)據(jù)充實(enrich)因特網(wǎng)用戶請求。作為替代,該請求可以用非閉塞(non-blocking manner)的方式執(zhí)行,例如,通過可視的圖像。
另外,用戶文件服務器101將指示它已經(jīng)將特定因特網(wǎng)用戶的概況D發(fā)送給服務器601的數(shù)據(jù)元素記錄到數(shù)據(jù)庫102中。如果因特網(wǎng)用戶是參考人口400的一部分,那么用戶文件服務器101對它已經(jīng)確定的概況D的質(zhì)量進行校驗;也就是,對它已經(jīng)確定的概況D與因特網(wǎng)用戶所聲明的概況進行比較。如果概況D和所聲明概況之間存在差異,則用戶文件服務器101可以將因特網(wǎng)用戶所聲明的概況發(fā)送給301服務器。
權(quán)利要求
1.一種用于確定通信網(wǎng)絡(200)的待識別用戶(501)的概況的方法,包括以下步驟-將關(guān)于已知網(wǎng)絡用戶的概況數(shù)據(jù)存入數(shù)據(jù)庫(102),這些用戶是參考人口(400)的一部分,關(guān)于已知用戶的概況數(shù)據(jù)(Pi)包括與每個用戶(i)相關(guān)的一組屬性(j)值(Pij),-為可通過網(wǎng)絡(200)訪問的一組感興趣的網(wǎng)站(300)的每個網(wǎng)站或者一部分網(wǎng)站(s),根據(jù)連接到網(wǎng)站或者網(wǎng)站的一部分(s)的參考人口(400)的用戶的連接歷史,使用處理裝置,確定表示連接到所述網(wǎng)站或者網(wǎng)站的一部分的用戶的屬性值的一組概率(Psj),-根據(jù)用戶在給定時間周期內(nèi)連接到感興趣的多個網(wǎng)站或者多個網(wǎng)站的部分(s)的概率,使用處理裝置,確定待識別用戶(501)具有給定屬性的概率,其中處理裝置將待識別用戶(501)具有給定屬性(j)的概率(m3j)確定為去相關(guān)概率值(m1j)與相關(guān)概率值(m2j)的組合,該去相關(guān)概率值考慮到了與感興趣的多個網(wǎng)站或者多個網(wǎng)站的部分(s)有關(guān)的概率,該相關(guān)概率值考慮到了關(guān)于其為參考人口(400)的一部分的用戶的平均概況數(shù)據(jù)(gj)。
2.根據(jù)權(quán)利要求1的方法,其中去相關(guān)概率值(m1j)和相關(guān)概率值(m2j)的組合是線性組合。
3.根據(jù)權(quán)利要求1或2的方法,其中去相關(guān)概率值(m1j)和相關(guān)概率值(m2j)的組合取決于組合參數(shù),其根據(jù)與參考人口(400)的已知用戶相關(guān)的概況數(shù)據(jù)被經(jīng)驗地確定。
4.根據(jù)權(quán)利要求3的方法,其中組合參數(shù)被有規(guī)律地更新,以便考慮參考人口的發(fā)展。
5.根據(jù)前述任一權(quán)利要求的方法,其中處理裝置確定待識別用戶(501)具有給定屬性j的去相關(guān)概率m1j,根據(jù)關(guān)系式m1,j=Πs=1x(Psj)f(ns)]]>其中f(ns)是冪函數(shù),其取決于待識別用戶(501)在給定時間周期內(nèi)瀏覽過感興趣網(wǎng)站s的次數(shù)ns,e是歐拉數(shù),x是用戶(501)瀏覽網(wǎng)站的數(shù)量。
6.根據(jù)前述任一權(quán)利要求的方法,其中處理裝置確定待識別用戶(501)具有給定屬性j的相關(guān)概率m2,j,根據(jù)關(guān)系式m2,j=Πs=1x(Psjgj)f(ns)]]>其中f(ns)是冪函數(shù),其取決于待識別用戶(501)在給定時間周期內(nèi)瀏覽過感興趣網(wǎng)站s的次數(shù)ns,e是歐拉數(shù),x是用戶瀏覽網(wǎng)站的數(shù)量,而gj是對于參考人口(400)的全部已知用戶的屬性j的平均值。
7.根據(jù)權(quán)利要求5或6的方法,其中冪函數(shù)f(ns)等于ln(e+ns-1)。
8.根據(jù)前述任一權(quán)利要求的方法,其中處理裝置確定待識別用戶(501)具有特殊屬性j的概率m3,j,根據(jù)關(guān)系式m3,j=αjm1,j+(1-αj)m2,j其中αj是為屬性j確定的去相關(guān)概率值m1,j和相關(guān)概率值m2,j的組合參數(shù)。
9.根據(jù)前述任一權(quán)利要求的方法,進一步包括一個步驟,其在于將待識別用戶(501)具有一個或數(shù)個給定屬性(j)的概率m3,j轉(zhuǎn)化為包括給定屬性的用戶(501)的確定概況(D)。
10.根據(jù)權(quán)利要求9的方法,其中轉(zhuǎn)化步驟被執(zhí)行與否取決于由該轉(zhuǎn)化產(chǎn)生的誤差(ej)是否小于或不小于對于每個屬性(j)可接受的預測誤差(êj)。
11.根據(jù)權(quán)利要求10的方法,其中當待識別用戶(501)具有特定屬性(j)的概率(m3j)大于對該屬性可接受的預測誤差(êj)的特定閾值 時,待識別用戶(501)被認為具有屬性(j)。
12.根據(jù)權(quán)利要求9到11的任一權(quán)利要求的方法,其中確定概況(D)由處理裝置根據(jù)預定的優(yōu)先(Z)考慮預定的一組屬性的每個屬性(j)進行計算,這種優(yōu)先順序(Z)根據(jù)對于給定的服務提供商而言每個屬性(j)的商業(yè)重要性進行選擇。
13.根據(jù)前述任一權(quán)利要求的方法,其中處理裝置確定待識別用戶(501)具有給定屬性(j)的概率,該屬性與性別、年齡、社會職業(yè)類別、收入水平、地理位置、感興趣領(lǐng)域或者用戶計算機類型有關(guān)。
14.根據(jù)權(quán)利要求1至13中任一權(quán)利要求的方法,其中感興趣的網(wǎng)站包括頁面,一些頁面使用頁面標記器進行標記,標記器的下載觸發(fā)對處理裝置的發(fā)送請求,該請求指示給定用戶下載了特殊頁面。
15.根據(jù)前述任一權(quán)利要求的方法,其中當待識別用戶(501)通過網(wǎng)絡(200)連接到主管網(wǎng)站(s)的服務器(601)上時,主管網(wǎng)站的服務器(601)將待識別用戶(501)的識別請求發(fā)送到給包括處理裝置的用戶文件服務器(101),而用戶文件服務器(101)將與待識別用戶(501)相關(guān)的數(shù)據(jù)返回給主管網(wǎng)站(s)的服務器(601)。
16.根據(jù)權(quán)利要求1至14中任一權(quán)利要求的方法,其中當待識別用戶(501)通過網(wǎng)絡(200)連接到主管網(wǎng)站(s)的服務器(601)上時,主管網(wǎng)站的服務器(601)將待識別用戶(501)傳送給包括處理裝置的用戶文件服務器(101),用戶文件服務器(101)確定與用戶的概況相關(guān)的數(shù)據(jù)并且將該用戶重新發(fā)送給主管網(wǎng)站(s)的服務器(601),用與待識別用戶(501)的概況相關(guān)的數(shù)據(jù)充實其請求。
17.根據(jù)權(quán)利要求15或16的方法,其中主管網(wǎng)站(s)的服務器(601)根據(jù)與待識別用戶(501)的概況相關(guān)的數(shù)據(jù)修改網(wǎng)站的表述。
18.根據(jù)權(quán)利要求15至17中的任一方法,其中主管網(wǎng)站(s)的服務器(601)將由用戶文件服務器(101)返回的與用戶的概況相關(guān)的數(shù)據(jù)保持在存儲器中,或者將該數(shù)據(jù)存儲在信息文件中,該信息文件安裝在待識別用戶(501)的瀏覽器中。
19.根據(jù)前述任一權(quán)利要求的方法,其中用戶文件服務器(101)產(chǎn)生關(guān)于連接到服務器(601)主管的網(wǎng)站(s)的報告,該報告指示在特定的時間周期內(nèi)瀏覽過網(wǎng)站的用戶數(shù)量,并且提供關(guān)于這些用戶的概況數(shù)據(jù)。
20.根據(jù)權(quán)利要求19的方法,其中由用戶文件服務器(101)產(chǎn)生的報告包括與所提供概況數(shù)據(jù)相關(guān)的預測誤差率。
21.一種用于確定通信網(wǎng)絡(200)的待識別用戶(501)的概況的系統(tǒng)(100),包括與網(wǎng)絡(200)連接的用戶文件服務器(101),并且其包括處理裝置,其中處理裝置適于根據(jù)與用戶在給定時間周期內(nèi)連接過的所述感興趣網(wǎng)站相關(guān)的概率,確定待識別用戶(501)具有給定屬性的概率,其中處理裝置將用戶具有特定屬性(j)的概率(m3j)確定為去相關(guān)概率值(m1j)與相關(guān)概率值(m2j)的組合,該去相關(guān)概率值考慮到了與感興趣的多個網(wǎng)站相關(guān)的概率,該相關(guān)概率值考慮到了關(guān)于其為參考人口(400)的一部分的用戶的平均概況數(shù)據(jù)(gj)。
22.根據(jù)權(quán)利要求21的系統(tǒng)(100),其中服務器適于連接到包含關(guān)于網(wǎng)絡已知用戶的概況數(shù)據(jù)(Pi)的數(shù)據(jù)庫(102),這些用戶是參考人口(400)的一部分,關(guān)于已知用戶的概況數(shù)據(jù)(Pi)包括與每個用戶(i)相關(guān)的一組屬性(j)值(Pij)。
23.根據(jù)權(quán)利要求21或22的系統(tǒng),其中處理裝置適于根據(jù)參考人口(400)的用戶連接到網(wǎng)站(s)的連接歷史,為通過網(wǎng)絡(200)可訪問的一組感興趣網(wǎng)站的每個網(wǎng)站(s)確定一組(Ps)概率(Psj),其表示連接到網(wǎng)站(s)的用戶的屬性值。
全文摘要
本發(fā)明涉及一種用于確定通信網(wǎng)絡用戶概況的方法,其包括以下階段-將關(guān)于已知網(wǎng)絡用戶的概況數(shù)據(jù)保存在數(shù)據(jù)庫中,這些用戶形成參考人口,關(guān)于已知用戶的概況數(shù)據(jù)(Pi)包括與每個用戶(i)相關(guān)的一組屬性(j)值(P
文檔編號G06Q30/00GK1954336SQ200580015101
公開日2007年4月25日 申請日期2005年3月10日 優(yōu)先權(quán)日2004年3月10日
發(fā)明者S·帕里斯 申請人:韋伯拉瑪公司