專利名稱::一種基于Web頁面元數(shù)據(jù)的用戶訪問行為形式化描述方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于計算機應(yīng)用領(lǐng)域,涉及Web挖掘、網(wǎng)絡(luò)教育,特別涉及一種基于Web頁面元數(shù)據(jù)的用戶訪問行為形式化描述方法?,F(xiàn)有技術(shù)目前,對用戶Web訪問行為的形式化描述主要以行為建模為主,用戶行為建模以及以此為基礎(chǔ)的行為特征獲取的研究集中在Web日志挖掘(WebUsageMining)領(lǐng)域,其數(shù)據(jù)來源主要是注冊用戶特征、服務(wù)器的Web日志、頁面間鏈接的拓撲結(jié)構(gòu)等,常用研究方法包括①統(tǒng)計分析,如獲取用戶訪問時間、頻率;②關(guān)聯(lián)規(guī)則分析,用于獲取用戶訪問頁面間的相關(guān)關(guān)系;③聚類分析,如將具有相似特征的用戶或頁面歸并分組;④分類分析,根據(jù)用戶特征進行歸類;⑤序列模式分析,獲取用戶訪問趨勢。通過上述方法獲得的行為模式可用于解決頁面自動導(dǎo)航、Web應(yīng)用系統(tǒng)性能提高、以及頁面重要性評價等問題。目前許多成熟的個性化Web服務(wù)系統(tǒng),如PitKow、WebMiner、SiteHelper等,都是基于Web挖掘進行行為建模的。然而,由于現(xiàn)有行為模型建模方法一般都是單純地基于Web日志中的URL請求,而目前Web日志的設(shè)計主要是面向網(wǎng)站流量、熱點鏈接、錯誤鏈接等分析應(yīng)用,在內(nèi)容上未涉及與應(yīng)用系統(tǒng)相關(guān)的語義信息,因此現(xiàn)有行為模型建模方法缺乏描述行為語義的能力,在構(gòu)建智能化的Web應(yīng)用方面還存在很大局限性,只能外在描述用戶在頁面間的隨機游走(RandomWalks)過程,無法描述用戶行為內(nèi)在的語義信息,即難以描述用戶行為應(yīng)用層面的信息,如用戶注冊、登錄、檢索等具體行為含義。事實上,在用戶與Web應(yīng)用系統(tǒng)交互過程中,影響用戶行為取向的關(guān)鍵因素是網(wǎng)頁中蘊含的語義信息,而不是頁面間的鏈接關(guān)系。因此,基于Web日志中URL請求分析所得到的行為特征,還難以作為應(yīng)用層面給用戶提供個性化、自適應(yīng)服務(wù)的依據(jù)。
發(fā)明內(nèi)容本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,提出一種基于Web頁面元數(shù)據(jù)的用戶訪問行為形式化描述方法,首先提出了一種分層的用戶行為結(jié)構(gòu),從“動作-活動-事務(wù)”三個層次定義了用戶行為的框架結(jié)構(gòu),結(jié)合此結(jié)構(gòu),進一步提出基于頁面元數(shù)據(jù)的Web用戶行為形式化描述方法,并對其中的頁面元數(shù)據(jù)獲取以及頁面訪問動作、訪問行為、訪問事務(wù)之間的轉(zhuǎn)化等問題進行了說明,不僅描述了用戶訪問序列信息,還增加了訪問內(nèi)容的局部主題、關(guān)鍵字等信息,得到行為模型有助于加強對用戶行為的理解,對個性化網(wǎng)絡(luò)服務(wù)系統(tǒng)的構(gòu)建提供了更好的支持。本發(fā)明的技術(shù)方案是這樣實現(xiàn)的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,構(gòu)造一種三層的行為框架,對行為從“動作”、“活動”、“事務(wù)”三個層面進行形式化描述,首先從Web日志文件對用戶的訪問行為進行動作分析,提取能描述用戶訪問過程的頁面集作為用戶動作序列;其次,對動作序列進行活動分析,結(jié)合所訪問頁面包含的元數(shù)據(jù)內(nèi)容,構(gòu)造帶行為語義信息的訪問活動序列;最后對用戶訪問活動序列進行事務(wù)分析,將同一訪問過程中的活動子集歸為一次訪問事務(wù),把全部活動序列依照訪問時間先后和時間間隔大小劃分為多個訪問事務(wù)。所述的對用戶“動作”進行形式化描述,即是構(gòu)造一種7維元組來描述Web頁面訪問動作序列(Action)(UserID,RequestID,Time,Delay,Method,URL,StateSet)其中●UserID用于唯一標示某個Web用戶的ID;●RequestID用于唯一標示用戶UserID的某個URL請求;●Time表示當前URL請求的時間;●Delay表示在所請求頁面的瀏覽時長;●Method表示URL請求所采用的HTTP方法;●URL表示所請求的路徑;●StateSet是一個由變量、變量值構(gòu)成的二元組集合,用來描述外部環(huán)境狀態(tài)以及當前行為對環(huán)境狀態(tài)的影響。所述的對用戶“活動”進行形式化描述,即是構(gòu)造一種6維元組來描述用戶訪問活動(Activity)(UserID,ActivityID,ActivityName,Time,Delay,StateSet);其中●UserID用于唯一標示某個Web用戶的ID;●ActivityID用于唯一標示某個活動的ID;●ActivityName表示當前活動的名稱;●Time表示本次活動序列的開始時間;●Delay表示本次活動序列持續(xù)時長;●StateSet包含和當前活動有關(guān)的局部語義信息變量,包括subject,title,keywords,hyperlinks。所述的對用戶“事務(wù)”進行形式化描述,即是構(gòu)造一種6維元組來描述用戶訪問事務(wù)(Session)(UserID,SessionID,Time,Delay,StateSet,Activities)其中●UserID用于唯一標示某個Web用戶的ID;●SessionID唯一標示當前事務(wù);●Time表示當前事務(wù)的開始時間;●Delay表示在本次事務(wù)的持續(xù)時長;●StateSet包含和當前事務(wù)有關(guān)的局部語義信息變量●Activities表示本事務(wù)中所包含活動序列中各個活動的ID集合。所述的通過動作分析提取能描述用戶訪問過程的頁面集作為用戶動作序列的步驟是首先提出一種用戶訪問頁面空間距離的計算方法,即計算用戶在頁面A通過鏈接導(dǎo)航達到頁面B的最小步驟作為頁面A到頁面B的空間距離,若頁面A不能通過超鏈到達頁面B,則頁面A到頁面B的距離為∞;其次,提出基于頁面空間距離和頁面環(huán)境變量的相同用戶判定規(guī)則;最后,對傳統(tǒng)方法得到的用戶識別結(jié)果進行進一步分析,根據(jù)頁面空間距離和頁面環(huán)境變量以及用戶判定規(guī)則識別出不同用戶的動作序列。所述的基于頁面空間距離和頁面環(huán)境變量的相同用戶判定規(guī)則是當環(huán)境狀態(tài)不發(fā)生改變時,時間與相對距離相近的兩個URL請求來自同一用戶;當環(huán)境狀態(tài)發(fā)生改變時,若其中兩個URL請求中的頁面具有直接鏈接關(guān)系且發(fā)生改變的環(huán)境變量在前一個URL對應(yīng)頁面中是可寫的,則兩個請求來自同一用戶。所述的對動作序列進行活動分析,即是結(jié)合所訪問頁面元數(shù)據(jù)內(nèi)容構(gòu)造帶行為語義信息的活動序列的步驟是;首先,以網(wǎng)頁標題以及狀態(tài)變量構(gòu)成的二元組作為被訪問頁面的描述性元數(shù)據(jù),以訪問頁面中的超鏈集以及對應(yīng)的標題作為被訪問頁面的結(jié)構(gòu)性元數(shù)據(jù),對頁面元數(shù)據(jù)進行抽??;其次提出兩條頁面主題判定規(guī)則以及基于頁面主題的頁面間絕對距離和相對距離計算方法;再次根據(jù)頁面相似距離計算結(jié)果,采用AGNES聚類方法對頁面進行聚類分析;最后根據(jù)頁面聚類劃分結(jié)果對訪問動作序列進行活動劃分;其中以頁面聚類簇的簇心頁面元數(shù)據(jù)作為此活動劃分的元數(shù)據(jù)描述信息,為此次活動的環(huán)境變量賦值。所述的兩條頁面主題判定規(guī)則是存在直接或間接鏈接關(guān)系的頁面屬于同一主題;頁面內(nèi)容,特別是標題相同或相似的頁面屬于同一主題。所述的基于頁面主題的頁面間絕對距離和相對距離的計算方法是絕對距離DA(pi,pj)=DR(pi,pj)·DR(pj,pi)/(DR(pi,pj)+DR(pj,pi))相對距離DS(pi,pj)=DA(pi,pj)·S(pi,pj)這里pj、pi是兩個不同頁面,S(pi,pj)是根據(jù)標題、變量所構(gòu)成的向量空間得到頁面pj與pi的相似度。本發(fā)明所提出的基于Web頁面元數(shù)據(jù)的行為描述及行為序列分析方法,能有效地對用戶網(wǎng)絡(luò)訪問行為進行描述,其帶頁面元數(shù)據(jù)的語義信息有助于對用戶行為的理解。并且,提出的行為分析方法,可有效提高行為活動劃分精度,實驗表明,該方法對日志進行分析后得到的活動劃分和人工劃分相對比,相似度達86%以上。附圖是本發(fā)明的基于頁面元數(shù)據(jù)的用戶行為形式化描述圖。下面結(jié)合附圖對本發(fā)明的內(nèi)容作進一步詳細說明。具體實施例方式參照附圖所示,頁面元數(shù)據(jù)是指描述頁面內(nèi)容與結(jié)構(gòu)的數(shù)據(jù),對于理解Web用戶行為的語義具有重要作用。針對現(xiàn)有行為描述方法難以描述行為語義的問題,結(jié)合上述行為分層框架結(jié)構(gòu),提出了一種基于頁面元數(shù)據(jù)的用戶行為形式化描述方法,如圖所示。其基本思想為首先,根據(jù)用戶日志中的客戶端IP地址、瀏覽器類型、操作系統(tǒng)類型以及URL對應(yīng)頁面中的變量分離出每個用戶的訪問序列(動作序列),并根據(jù)頁面元數(shù)據(jù)中的鏈接關(guān)系填充由于Cache機制丟失的訪問請求;其次,根據(jù)頁面元數(shù)據(jù)中的標題、變量、超鏈接等內(nèi)容對特定用戶的訪問序列進行分析,獲得用戶的活動序列。以下首先確定與行為描述相關(guān)的頁面元數(shù)據(jù),在此基礎(chǔ)上,對行為形式化描述中動作分析、活動分析以及事務(wù)分析過程進行說明。定義1頁面元數(shù)據(jù)網(wǎng)頁元數(shù)據(jù)可分為描述性元數(shù)據(jù)(DescriptiveMetadata)與結(jié)構(gòu)性元數(shù)據(jù)(StructuralMetadata)兩種類型,分別用于描述頁面的內(nèi)容與結(jié)構(gòu)。與用戶訪問行為相關(guān)的描述性元數(shù)據(jù)主要包括網(wǎng)頁標題以及狀態(tài)變量構(gòu)成的二元組,其定義如式4,其中第二項為變量與對應(yīng)讀寫屬性構(gòu)成的二元組集合。DescriptiveMetadata(Title,{(Variable,ReadWrite)})(式4)例如,(’登錄’,{(User,Writable),(Pass,Writable)}),表示當前網(wǎng)頁為一個登錄頁面,頁面中包含用戶與密碼兩個變量,這兩個數(shù)據(jù)在當前頁中都可修改。與行為形式化描述相關(guān)的結(jié)構(gòu)性元數(shù)據(jù)主要包括頁面中的超鏈接以及對應(yīng)的標題,定義如下StructuralMetadata({URL})(式5)下式是一個結(jié)構(gòu)性網(wǎng)頁元數(shù)據(jù)的實例,表示當前頁面中包含“l(fā)ogin.jsp?user&pass”與“registration.htm”兩個超鏈接。({login.jsp?user&pass,/registration.htm,...})(式6)動作分析Web日志按訪問時間順序記錄了所有Web用戶的訪問動作序列,是用戶訪問動作與Web系統(tǒng)交互過程中,由WebServer記錄下來的。但由于用戶動作與應(yīng)用系統(tǒng)的交互一般都是通過匿名方式進行的,Web日志中的UserID字段并未起到區(qū)分用戶的作用。此外,代理服務(wù)器以及瀏覽器的Cache機制使得一些URL訪問請求未能發(fā)送到Web服務(wù)器,也就未能記錄在Web日志中。動作分析的作用就是從Web日志中識別出每個用戶,并獲得其完整的訪問動作序列。在Web挖掘日志中,一般是根據(jù)日志中的客戶端IP地址、瀏覽器類型、操作系統(tǒng)類型等內(nèi)容提出若干區(qū)分用戶的規(guī)則。對于NAT網(wǎng)關(guān)與代理后面的客戶端,上述三項內(nèi)容完全一致的概率較大,在這種情況下,上述規(guī)則無法區(qū)分用戶的URL請求?,F(xiàn)有Web應(yīng)用系統(tǒng)一般都采用基于環(huán)境變量的動態(tài)頁面技術(shù),這類應(yīng)用系統(tǒng)中的頁面導(dǎo)航具有以下兩個特點一、描述環(huán)境狀態(tài)的環(huán)境變量值在導(dǎo)航過程中具有相對穩(wěn)定性;二、對于造成環(huán)境變量改變的頁面,其URL請求的日志不會由于代理的Cache機制丟失。結(jié)合這兩個特點,下面給出頁面距離的概念,在此基礎(chǔ)上,再提出兩個新的用于區(qū)分用戶的規(guī)則以及日志分析方法。需要說明的是兩個規(guī)則都是針對客戶端IP地址、瀏覽器類型、操作系統(tǒng)類型均相同的URL請求。定義2.頁面相對距離頁面pj相對pi的距離是指pi通過頁面間的導(dǎo)航鏈接到達pj的所需的最小步驟,記為DR(pi,pj)。特別地,DR(pi,pi)=0;若pi無法通過超鏈接到達pj,則DR(pi,pj)=∞;若pj∈pi.metadata.url,則DR(pi,pj)=1,即頁面間存在直接鏈接關(guān)系,其中,pi.metadata.url是指頁面pi中超鏈接的集合。規(guī)則1.設(shè)uri為Web日志W(wǎng)L中的一個URL請求,URWL為與uri時間間隔小于特定閾值t0且頁面距離小于特定閾值l0的后序URL請求的集合,即UR={ur|1≤DR(uri.url,ur.url<l0∧(|ur.time-uri.time|)<t0∧ur∈WL},對于任何ur∈UR,若uri.StateSet=ur.StateSet,則uri.UserID=ur.UserID。規(guī)則1的含義是當環(huán)境狀態(tài)不發(fā)生改變時,時間與相對距離相近的兩個URL請求來自同一用戶。規(guī)則2.設(shè)uri為Web日志W(wǎng)L中的一個URL請求,若不存在ur∈UR,使得uri.StateSet=ur.StateSet,則當urj滿足以下條件時,等式uri.UserID=urj.UserID成立(1)urj∈UR;(2)DR(uri.url,urj.url)=1;(3)設(shè)ChangeSet=ur.StateSet-uri.StateSet,ChangeSet≠并且構(gòu)成ChangeSet的二元組元素中的變量屬性在頁面uri.url的元數(shù)據(jù)中是可寫的。規(guī)則2的含義是當環(huán)境狀態(tài)發(fā)生改變時,若其中兩個URL請求中的頁面具有直接鏈接關(guān)系且發(fā)生改變的環(huán)境變量在前一個URL對應(yīng)頁面中是可寫的,則兩個請求來自同一用戶?;谝?guī)則1、2,以下提出動作分析的方法輸入WebLog輸出SerialSet={Serials1,Serials2,......,Serialsn}過程GroupSet=GroupedBy(IP,Browser,OS,{WebLog})//解釋根據(jù)日志中的客戶端IP地址、瀏覽器類型、操作系統(tǒng)類型對URL請求進行分組,每個組中的URL請求具有相同的上述三個屬性。m=|GroupSet|//m為分組的個數(shù)forI=1tomdo{RoughSerialSeti=Rule1(groupi)//解釋對每個分組中的所有符合規(guī)則1的URL請求按照頁面相對距離從小到大的順序進行歸類,直到對所有符合規(guī)則1的URL請求都進行了處理。s=|RoughSerialSeti|forj=1tosdo{RepaireUrl(RoughSerialij)//解釋根據(jù)頁面的鏈接關(guān)系填充丟失的URL請求。SerialSeti=Rule2(RoughSerialSeti)//解釋對每個分組中的所有符合規(guī)則2的URL請求進行歸類。}}SerialSet=∪SerialSeti最后,每個分組中的每類URL請求對應(yīng)于某個用戶,若該分組中只有一類,則該分組對應(yīng)于某個用戶。通過上述算法,可實現(xiàn)將Web日志的訪問請求按用戶進行分組,并生成如式1所示的用戶動作序列?;顒臃治龌顒臃治鍪侵笇⑻囟ㄓ脩舻膭幼餍蛄修D(zhuǎn)化為能夠描述行為語義的活動序列。活動分析主要依據(jù)頁面的聚類特性,這種特性體現(xiàn)在鏈接關(guān)系與頁面內(nèi)容兩個方面。根據(jù)這些特性,結(jié)合頁面主題信息采集研究中的Sibling和Pagerank的思想,我們得到以下規(guī)則用于判定頁面是否屬于同一主題。規(guī)則3.存在直接或間接鏈接關(guān)系的頁面可能屬于同一主題;若頁面間相對距離越小,則屬于同一主題可能性越大;若頁面間互相存在鏈接關(guān)系,則屬于同一主題可能性更大。規(guī)則4.頁面內(nèi)容(特別是標題)相同或相似的頁面很可能屬于同一主題。結(jié)合這兩個規(guī)則,我們提出活動分析的基本思路首先,根據(jù)頁面的超鏈接、標題以及變量三種元數(shù)據(jù)信息對頁面進行聚類;其次,根據(jù)聚類結(jié)果將用戶所有的動作序列劃分為活動序列,并為每個活動設(shè)置標題。以下首先提出“頁面絕對距離”與“相似距離”的概念,在此基礎(chǔ)上,對活動分析的方法進行說明。定義3.頁面絕對距離頁面pj與pi(pj≠pi)的絕對距離DA(pi,pj)定義為DR(pi,pj)·DR(pj,pi)/(DR(pi,pj)+DR(pj,pi))顯然,DA(pi,pj)≤min(DR(pi,pj),DR(pj,pi))。定義4.相似距離設(shè)S(pi,pj)是根據(jù)標題、變量所構(gòu)成的向量空間得到頁面pj與pi的相似度。相似距離DS(pi,pj)定義為DA(pi,pj)·S(pi,pj)。由規(guī)則3、4,DS(pi,pj)越小,頁面pj與pi屬于同一主題的可能性越大。基于頁面間的相似距離,我們采用AGNES聚類方法對頁面進行聚類。設(shè)動作序列中涉及的URL訪問序列為ur1,ur2,..,uri,..,urm,對應(yīng)的頁面分別為p1,p2,..,pi,..,pm;根據(jù)對網(wǎng)站內(nèi)所有頁面聚類后的結(jié)果,我們提出如下的活動分析方法STEP1尋找滿足如下條件的子序列pj,..,pi(i≥j)(1)pj,..,pi屬于同一類;(2)Pj-1與Pi+1都不屬于該類。若找到,將urj,..,uri合并為一個活動。STEP2尋找pj,..,pi的中心,中心頁面pl應(yīng)滿足對于任意頁面pk(j≤k≤i),Σx=jiDS(px,pl)≤Σx=jiDS(px,pk).]]>STEP3CurrentActivity.ActivityName=pl.title;CurrentActivity.Delay=uri.time-urj.time;CurrentActivity.StateSet=uri.StateSetSTEP4重復(fù)STEP1、2、3,直到所有的URL訪問行為都被合并到某一個活動中。上述方法根據(jù)Web元數(shù)據(jù)將用戶動作序列進行分組,并生成如式2所示的活動序列,該活動序列很好地體現(xiàn)了行為的語義信息,這為獲取行為語義特征奠定了很好的基礎(chǔ)。事務(wù)分析事務(wù)分析是從特定用戶的一次訪問序列中提取出為完成某特定目標而進行的活動序列,然而,通常情況下,用戶的訪問行為往往是隨機的,有可能不帶任何目標,也可能有一個或多個目標且各目標的訪問活動交叉進行。因此,為方便起見,本發(fā)明中將用戶一次訪問序列中的所有活動的集合作為一次事務(wù),即通過動作分析抽取本用戶的動作序列,再依此進行活動分析,得到該用戶此次訪問行為的所有活動,構(gòu)成如式3的事務(wù)模型。其中,事務(wù)的ID由此次事務(wù)訪問時間戳和用戶ID聯(lián)合構(gòu)成。例如此次事務(wù)時間戳為“20051226120000”,用戶ID為“zhangsan”,則此事務(wù)id為“20051226120000-zhangsan”。實施例首先,在Web教學(xué)網(wǎng)站中收集一段時間內(nèi)來自同一代理服務(wù)器的學(xué)習者的所有日志記錄。其次,根據(jù)網(wǎng)站頁面間的鏈接關(guān)系以及狀態(tài)變量(特別是用戶的登錄名)進行動作分析,獲得每個學(xué)習者的所有訪問動作序列,見表1。第三,采用人工對動作行為進行標記,通過合并行為語義相關(guān)的URL訪問行為生成活動序列。第四,采用本發(fā)明提出的活動分析方法將動作序列轉(zhuǎn)化為活動序列。最后,將人工標記得到的活動序列與活動分析方法得到的序列進行對比,對比結(jié)果見表2。這里,我們采用簡單匹配系數(shù)來描述兩種方法得到的活動序列的相似度?;顒有蛄衧i,sj的相似度定義如下SD(si,sj)=A(si,sj)+(si,sj)A(si,sj)+B(si,sj)+C(si,sj)+D(si,sj)]]>(式7)其中,A(si,sj)表示“兩個訪問動作所發(fā)的URL訪問請求在兩種活動序列中屬于同一活動”這一現(xiàn)象的次數(shù);D(si,sj)表示“兩個動作所發(fā)的URL訪問請求在兩種活動序列中都不屬于同一活動”這一現(xiàn)象的次數(shù);B(si,sj)表示“兩個動作所發(fā)的URL訪問請求屬于活動序列si中的某一活動,但不屬于活動序列sj中的對應(yīng)活動”這一現(xiàn)象的次數(shù);C(si,sj)表示“兩個動作所發(fā)的URL訪問請求不屬于活動序列si中的某一活動,但屬于活動序列sj中的對應(yīng)活動”這一現(xiàn)象的次數(shù)。表1用戶URL序列解析本試驗?zāi)康氖菫榱藢Ρ热斯擞浀幕顒有蛄泻屠帽景l(fā)明方法機器標記的相似程度,為方便起見,本次試驗中不對網(wǎng)站全部URL進行統(tǒng)一標識,只是結(jié)合用戶ID,對試驗涉及到的URL進行標記區(qū)分,方法為UserID+url序列中的序號,如表1中用戶1,其訪問動作請求的URL序列標號為(u1,1,u1,2,...,u1,31)。利用所用方法,設(shè)置頁面判定距離為2,進行活動劃分,如下表2對比試驗結(jié)果通過與人工標記方法得到的活動序列進行對比,驗證了本發(fā)明所提行為形式化描述方法能很好地生成體現(xiàn)行為語義的活動序列。其中,當一個活動包含的頁面?zhèn)€數(shù)較多時,所獲得的活動序列劃分更加精確,這是因為當頁面樣本數(shù)越多,對頁面聚類的結(jié)果精度就越高。權(quán)利要求1.基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于構(gòu)造一種三層的行為框架,對行為從“動作”、“活動”、“事務(wù)”三個層面進行形式化描述,首先從Web日志文件對用戶的訪問行為進行動作分析,提取能描述用戶訪問過程的頁面集作為用戶動作序列;其次,對動作序列進行活動分析,結(jié)合所訪問頁面包含的元數(shù)據(jù)內(nèi)容,構(gòu)造帶行為語義信息的訪問活動序列;最后對用戶訪問活動序列進行事務(wù)分析,將同一訪問過程中的活動子集歸為一次訪問事務(wù),把全部活動序列依照訪問時間先后和時間間隔大小劃分為多個訪問事務(wù)。2.根據(jù)權(quán)利要求1所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的對用戶“動作”進行形式化描述,即是構(gòu)造一種7維元組來描述Web頁面訪問動作序列(Action)(UserID,RequestID,Time,Delay,Method,URL,StateSet)其中●UserID用于唯一標示某個Web用戶的ID;●RequestID用于唯一標示用戶UserID的某個URL請求;●Time表示當前URL請求的時間;●Delay表示在所請求頁面的瀏覽時長;●Method表示URL請求所采用的HTTP方法;●URL表示所請求的路徑;●StateSet是一個由變量、變量值構(gòu)成的二元組集合,用來描述外部環(huán)境狀態(tài)以及當前行為對環(huán)境狀態(tài)的影響。3.根據(jù)權(quán)利要求1所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的對用戶“活動”進行形式化描述,即是構(gòu)造一種6維元組來描述用戶訪問活動(Activity)(UserID,ActivityID,ActivityName,Time,Delay,StateSet);其中●UserID用于唯一標示某個Web用戶的ID;●ActivityID用于唯一標示某個活動的ID;●ActivityName表示當前活動的名稱;●Time表示本次活動序列的開始時間;●Delay表示本次活動序列持續(xù)時長;●StateSet包含和當前活動有關(guān)的局部語義信息變量,包括subject,title,keywords,hyperlinks。4.根據(jù)權(quán)利要求1所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的對用戶“事務(wù)”進行形式化描述,即是構(gòu)造一種6維元組來描述用戶訪問事務(wù)(Session)(UserID,SessionID,Time,Delay,StateSet,Activities)其中●UserID用于唯一標示某個Web用戶的ID;●SessionID唯一標示當前事務(wù);●Time表示當前事務(wù)的開始時間;●Delay表示在本次事務(wù)的持續(xù)時長;●StateSet包含和當前事務(wù)有關(guān)的局部語義信息變量●Activities表示本事務(wù)中所包含活動序列中各個活動的ID集合。5.根據(jù)權(quán)利要求1所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的通過動作分析提取能描述用戶訪問過程的頁面集作為用戶動作序列的步驟是首先提出一種用戶訪問頁面空間距離的計算方法,即計算用戶在頁面A通過鏈接導(dǎo)航達到頁面B的最小步驟作為頁面A到頁面B的空間距離,若頁面A不能通過超鏈到達頁面B,則頁面A到頁面B的距離為∞;其次,提出基于頁面空間距離和頁面環(huán)境變量的相同用戶判定規(guī)則;最后,對傳統(tǒng)方法得到的用戶識別結(jié)果進行進一步分析,根據(jù)頁面空間距離和頁面環(huán)境變量以及用戶判定規(guī)則識別出不同用戶的動作序列。6.根據(jù)權(quán)利要求1或5所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的基于頁面空間距離和頁面環(huán)境變量的相同用戶判定規(guī)則是當環(huán)境狀態(tài)不發(fā)生改變時,時間與相對距離相近的兩個URL請求來自同一用戶;當環(huán)境狀態(tài)發(fā)生改變時,若其中兩個URL請求中的頁面具有直接鏈接關(guān)系且發(fā)生改變的環(huán)境變量在前一個URL對應(yīng)頁面中是可寫的,則兩個請求來自同一用戶。7.根據(jù)權(quán)利要求1所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的對動作序列進行活動分析,即是結(jié)合所訪問頁面元數(shù)據(jù)內(nèi)容構(gòu)造帶行為語義信息的活動序列,其步驟是;首先,以網(wǎng)頁標題以及狀態(tài)變量構(gòu)成的二元組作為被訪問頁面的描述性元數(shù)據(jù),以訪問頁面中的超鏈集以及對應(yīng)的標題作為被訪問頁面的結(jié)構(gòu)性元數(shù)據(jù),對頁面元數(shù)據(jù)進行抽?。黄浯翁岢鰞蓷l頁面主題判定規(guī)則以及基于頁面主題的頁面間絕對距離和相對距離計算方法;再次根據(jù)頁面相似距離計算結(jié)果,采用AGNES聚類方法對頁面進行聚類分析;最后根據(jù)頁面聚類劃分結(jié)果對訪問動作序列進行活動劃分;其中以頁面聚類簇的簇心頁面元數(shù)據(jù)作為此活動劃分的元數(shù)據(jù)描述信息,為此次活動的環(huán)境變量賦值。8.根據(jù)權(quán)利要求1或7所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的兩條頁面主題判定規(guī)則是存在直接或間接鏈接關(guān)系的頁面屬于同一主題;頁面內(nèi)容,特別是標題相同或相似的頁面屬于同一主題。9.根據(jù)權(quán)利要求1或7所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的基于頁面主題的頁面間絕對距離和相對距離的計算方法是絕對距離DA(pi,pj)=DR(pi,pj)·DR(pj,pi)/(DR(pi,pj)+DR(pj,pi))相對距離DS(pi,pj)=DA(pi,pj)·S(pi,pj)這里pj、pi是兩個不同頁面,S(pi,pj)是根據(jù)標題、變量所構(gòu)成的向量空間得到頁面pj與pi的相似度。全文摘要本發(fā)明公開了一種基于Web頁面元數(shù)據(jù)的用戶訪問行為形式化描述方法。本發(fā)明首先提出了一種分層次的用戶行為框架結(jié)構(gòu),從“動作一活動一事務(wù)”三個層次對用戶訪問行為及特征進行描述;結(jié)合此行為框架,進一步提出基于頁面元數(shù)據(jù)的Web用戶行為形式化描述方法,并對其中的頁面元數(shù)據(jù)獲取以及動作、行為、事務(wù)之間的轉(zhuǎn)化等問題進行了說明。我們提出的基于網(wǎng)頁元數(shù)據(jù)的用戶訪問行為形式化描述方法,不僅描述了用戶訪問序列信息,還增加了訪問內(nèi)容的局部主題、關(guān)鍵字等信息。本方法對用戶行為的形式化表示有助于加強對用戶行為的理解,對個性化網(wǎng)絡(luò)服務(wù)系統(tǒng)的構(gòu)建提供了更好的支持。文檔編號G06F17/30GK1804844SQ20061004162公開日2006年7月19日申請日期2006年1月10日優(yōu)先權(quán)日2006年1月10日發(fā)明者鄭慶華,杜瑾,劉均,吳茜媛,丁嬌申請人:西安交通大學(xué)