專利名稱::一種收集用戶數(shù)據(jù)的系統(tǒng)及方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及智能應(yīng)用業(yè)務(wù),尤指一種收集用戶數(shù)據(jù)的系統(tǒng)及方法。
背景技術(shù):
:目前,信息產(chǎn)業(yè)處于一個(gè)高速發(fā)展的大變革時(shí)代,整個(gè)產(chǎn)業(yè)將不可避免的經(jīng)歷從接入為主,業(yè)務(wù)為主到用戶為主的階段。無(wú)論是電信運(yùn)營(yíng)商,還是互聯(lián)網(wǎng)企業(yè)都在為了搶奪用戶資源進(jìn)行著激烈的競(jìng)爭(zhēng),各種無(wú)線增值業(yè)務(wù)、互聯(lián)網(wǎng)增值業(yè)務(wù)在這些企業(yè)所占營(yíng)收比重都在不斷提升,而對(duì)客戶的細(xì)致分類則具有非常重要的戰(zhàn)略意義。科學(xué)的分類方法在對(duì)用戶實(shí)施營(yíng)銷時(shí),能夠做到有的放矢,有針對(duì)性地為客戶量身定制產(chǎn)品和服務(wù),保證在提高客戶價(jià)值的同時(shí),提高自身的服務(wù)水平。為了提高服務(wù)水平,收集用戶數(shù)據(jù),建立數(shù)據(jù)模型,挖掘出用戶潛在的消費(fèi)需求是非常重要的。只有獲得用戶數(shù)據(jù),才能掌握用戶的習(xí)慣和興趣所在,為用戶提供更好的服務(wù)。為了獲得用戶的興趣愛(ài)好,網(wǎng)絡(luò)瀏覽器大多可以通過(guò)四種途徑來(lái)發(fā)現(xiàn)瀏覽器用戶的數(shù)據(jù)1,統(tǒng)計(jì)已訪問(wèn)網(wǎng)站內(nèi)容的統(tǒng)一資源定位(URL)地址。2,分析用戶收藏夾或?yàn)g覽器Web緩沖區(qū)(WebCache)中的數(shù)據(jù)。3.服務(wù)器主動(dòng)向用戶詢問(wèn),用戶作答的方式,如問(wèn)卷調(diào)查等。4.分析Web服務(wù)器日志數(shù)據(jù)來(lái)獲得。上述收集用戶興趣愛(ài)好的方法,集中起來(lái)存在如下一些缺點(diǎn)收集過(guò)程需要用戶參與,對(duì)用戶干擾較大;可以收集的用戶關(guān)注內(nèi)容不全面,精確度不夠高;不能有效地跟蹤用戶興趣和關(guān)注點(diǎn)的遷移。
發(fā)明內(nèi)容有鑒于此,本發(fā)明的主要目的在于提供一種收集用戶數(shù)據(jù)的系統(tǒng),能夠有效地收集用戶數(shù)據(jù)。本發(fā)明的另一目的在于提供一種收集用戶數(shù)據(jù)的方法,能夠有效地收集用戶數(shù)據(jù)。為達(dá)到上述目的,本發(fā)明的技術(shù)方案具體是這樣實(shí)現(xiàn)的一種收集用戶數(shù)據(jù)的方法,建立存儲(chǔ)用戶數(shù)據(jù)的用戶興趣數(shù)據(jù)模型,該方法包括以下步驟A.用戶應(yīng)用瀏覽器/文擋處理時(shí),觸發(fā)收集用戶操作事件信息;B.利用收集到的用戶操作事件信息修正用戶興趣數(shù)據(jù)模型的信息。步驟A中所述觸發(fā)收集用戶操作事件信息的方法為通過(guò)事件消息觸發(fā)收集用戶操作事件信息。所述事件消息為發(fā)送事件消息,該發(fā)送事件消息至少包括用于標(biāo)識(shí)接受事件消息的信息收集代理模塊的進(jìn)程的進(jìn)程標(biāo)識(shí)符、用于表示發(fā)送的消息的類型的消息標(biāo)識(shí)符、用于標(biāo)識(shí)操作的事件標(biāo)識(shí)、應(yīng)用對(duì)象句柄。所述應(yīng)用對(duì)象句柄為操作文檔對(duì)象在內(nèi)存中的地址;步驟A所述收集用戶操作事件信息的方法為A1.對(duì)接收到的事件消息進(jìn)行過(guò)濾處理,提取需要處理的事件消息對(duì)應(yīng)的用戶操作內(nèi)容,獲取基于文本字符類型格式的用戶操作內(nèi)容;A2.對(duì)獲得的用戶操作內(nèi)容進(jìn)行自動(dòng)切詞處理,獲取臨時(shí)主題詞并存儲(chǔ)在臨時(shí)系統(tǒng)詞根表中;A3.選擇臨時(shí)詞根表中出現(xiàn)頻數(shù)高的主題詞存入用戶系統(tǒng)詞根表中,計(jì)算并存儲(chǔ)系統(tǒng)詞根表中主題詞的變化率和頻數(shù)。步驟A1中所述過(guò)濾處理的方法為預(yù)先設(shè)置過(guò)濾條件,如果接收到的事件消息是與預(yù)設(shè)的過(guò)濾條件相匹配的過(guò)濾事件,則繼續(xù)執(zhí)行步驟A1中的并提取該事件消息對(duì)應(yīng)的用戶操作內(nèi)容。所述過(guò)濾條件為通過(guò)定制的用戶接口UI界面設(shè)定的事件;或者系統(tǒng)預(yù)先設(shè)定的默認(rèn)的事件。步驟A1中所述提取用戶操作內(nèi)容的方法為根據(jù)所述事件消息的句柄和進(jìn)程標(biāo)識(shí)參數(shù),向?yàn)g覽器/文檔處理模塊發(fā)送操作內(nèi)容請(qǐng)求消息,獲取用戶操作內(nèi)容。所述操作內(nèi)容請(qǐng)求消息至少包括用于標(biāo)識(shí)接受事件消息的信息收集代理模塊的進(jìn)程的進(jìn)程標(biāo)識(shí)符、用于表示發(fā)送的消息的類型的消息標(biāo)識(shí)符、用于標(biāo)識(shí)操作的事件標(biāo)識(shí)、應(yīng)用對(duì)象句柄、以及回調(diào)函數(shù)的句柄。所述獲取用戶操作內(nèi)容的方式為對(duì)于基于全文操作的內(nèi)容,直接獲取操作文件,并將不同的操作內(nèi)容的格式轉(zhuǎn)換為預(yù)設(shè)的系統(tǒng)的中間格式;對(duì)于用戶具體的操作內(nèi)容,采用應(yīng)用編程接口API鉤子函數(shù)來(lái)獲取。所述用戶具體的操作內(nèi)容包括鼠標(biāo)點(diǎn)擊、Copy時(shí)的鼠標(biāo)選擇內(nèi)容、鼠標(biāo)停留時(shí)間操作事件。步驟A2中所述自動(dòng)切詞處理方法為二元自動(dòng)切詞算法、或詞表切詞算法。步驟A3中所述選擇出現(xiàn)頻數(shù)高的主題詞的方法為預(yù)先設(shè)置頻度閾值,判斷主題詞的頻數(shù)是否大于預(yù)設(shè)頻度閾值,若大于,則選擇;否則丟棄。步驟A3中所述計(jì)算主題詞的變化率的方法為計(jì)算該主題詞的頻數(shù)對(duì)時(shí)間的導(dǎo)數(shù)所得的值。步驟B具體包括B1.系統(tǒng)中的修正模塊接收到修正用戶興趣數(shù)據(jù)模型請(qǐng)求;B2.對(duì)用戶興趣數(shù)據(jù)模型進(jìn)行修正處理。步驟B1中所述修正用戶興趣數(shù)據(jù)模型請(qǐng)求中攜帶有用戶操作事件的事件標(biāo)識(shí),該事件標(biāo)識(shí)觸發(fā)更新用戶系統(tǒng)詞根表中該事件標(biāo)識(shí)對(duì)應(yīng)的主題詞。所述修正用戶興趣數(shù)據(jù)模型請(qǐng)求為基于設(shè)定事件觸發(fā)的,或基于收集事件觸發(fā)的。步驟B2中所述修正包括插入主題詞、和/或刪除存在的主題詞、和/或修改主題詞的權(quán)值。所述步驟B2中,當(dāng)修正為修改主題詞的權(quán)值時(shí),修改的方法為B21.根據(jù)用戶操作,計(jì)算所述主題詞的權(quán)值計(jì)算結(jié)果Ri;B22.根據(jù)計(jì)算得到的權(quán)值計(jì)算結(jié)果Ri,以及所述主題詞的頻數(shù)和變化率,計(jì)算該主題詞的修正權(quán)值Wp(i),并根據(jù)改修正權(quán)值對(duì)用戶興趣數(shù)據(jù)模型進(jìn)行修正。步驟B21中所述計(jì)算所述主題詞的權(quán)值計(jì)算結(jié)果Ri的方法為Ri=Σv∈Fcvfv(i),]]>其中,F(xiàn)是閱讀時(shí)間bt、加入標(biāo)簽bm、拖動(dòng)滾動(dòng)條sc和跟隨超鏈接fl用戶操作的集合,所述F={bt,bm,sc,fl};cv是系統(tǒng)為該用戶操作事件分配的計(jì)算權(quán)值。i表示當(dāng)前請(qǐng)求修正的操作的事件標(biāo)識(shí)對(duì)應(yīng)的用戶操作事件,Ri表示當(dāng)前請(qǐng)求修正的操作的事件標(biāo)識(shí)對(duì)應(yīng)的用戶操作事件的權(quán)值計(jì)算結(jié)果;fv(i)是一個(gè)二值函數(shù)。步驟B22中所述修正的方法為預(yù)先設(shè)置最高權(quán)值閾值和最低權(quán)值閾值;若所述主題詞i的修正權(quán)值Wp,超過(guò)給定的最高權(quán)值閾值,則增加相應(yīng)的用戶興趣數(shù)據(jù)模型信息中對(duì)應(yīng)的主題詞的權(quán)值;若所述主題詞i的修正權(quán)值Wp在所述最高和最低閾值范圍內(nèi),則不修改相應(yīng)的用戶興趣數(shù)據(jù)模型中對(duì)應(yīng)的主題詞的權(quán)值;若所述主題詞i的修正權(quán)值Wp低于給定的最低權(quán)值閾值,則減少相應(yīng)的用戶興趣數(shù)據(jù)模型信息中對(duì)應(yīng)的主題詞的權(quán)值。步驟B22中所述計(jì)算修正權(quán)值Wp(i)的方法為WP(i)=f1(Fi,dfidt,Ri),]]>其中,F(xiàn)i和是根據(jù)主題詞i的頻數(shù)和變化率計(jì)算出來(lái)的結(jié)果值。所述用戶興趣數(shù)據(jù)模型至少包括用戶標(biāo)識(shí)、主題詞和主題詞的權(quán)值。一種收集用戶數(shù)據(jù)的系統(tǒng),該系統(tǒng)包括瀏覽器/文檔處理模塊,接收用戶的指令執(zhí)行操作,并將操作通過(guò)事件消息發(fā)送給信息收集代理模塊;信息收集代理模塊,接收來(lái)自瀏覽器/文擋處理模塊的事件消息,對(duì)收集的用戶操作內(nèi)容進(jìn)行分析,收集用戶操作中所關(guān)注的臨時(shí)數(shù)據(jù)信息,并存儲(chǔ)到收集信息緩存庫(kù)中;將生成的臨時(shí)數(shù)據(jù)信息發(fā)送給信息過(guò)濾和管理模塊;信息過(guò)濾和管理模塊,接收來(lái)自信息收集代理模塊的臨時(shí)數(shù)據(jù)信息,生成系統(tǒng)詞根表,存入用戶信息庫(kù);根據(jù)用戶信息庫(kù)中的數(shù)據(jù)信息對(duì)用戶興趣數(shù)據(jù)模型的信息進(jìn)行維護(hù)和管理;向修正模塊發(fā)送修正請(qǐng)求;修正模塊,接收來(lái)自信息過(guò)濾和管理模塊的修正請(qǐng)求,根據(jù)用戶信息庫(kù)中的用戶數(shù)據(jù)信息對(duì)用戶興趣數(shù)據(jù)模型信息進(jìn)行修正,向信息過(guò)濾和管理模塊返回修正響應(yīng),并用修正后的用戶數(shù)據(jù)興趣模型更新用戶信息庫(kù)。該系統(tǒng)進(jìn)一步包括數(shù)據(jù)通信模塊,用于聯(lián)系信息收集代理模塊與信息過(guò)濾和管理模塊。所述信息收集代理模塊包括用戶事件處理模塊,接收來(lái)自控制模塊的事件通知,并向控制模塊返回響應(yīng);對(duì)接收到的事件進(jìn)行過(guò)濾處理,將接收到的事件中需要處理的事件消息發(fā)送給代理控制器;代理控制器,接收來(lái)自用戶事件處理模塊的事件消息,并返回響應(yīng)消息;向內(nèi)容提取模塊發(fā)送操作內(nèi)容導(dǎo)入請(qǐng)求;內(nèi)容提取模塊,接收來(lái)自代理控制器的操作內(nèi)容導(dǎo)入請(qǐng)求,向?yàn)g覽器/文檔處理模塊中處理進(jìn)程的數(shù)據(jù)模塊發(fā)送操作內(nèi)容請(qǐng)求消息,獲取用戶處理操作的數(shù)據(jù)信息,將獲得的數(shù)據(jù)信息發(fā)送給分析模塊;向代理控制器返回操作內(nèi)容導(dǎo)入響應(yīng)消息;分析模塊,對(duì)接收到的數(shù)據(jù)信息的詞法、語(yǔ)法進(jìn)行分析,收集用戶操作中所關(guān)注的臨時(shí)數(shù)據(jù)信息如生成一個(gè)臨時(shí)詞根表、文擋內(nèi)容等,并存儲(chǔ)到收集信息緩存庫(kù)中。所述信息收集代理模塊還包括格式轉(zhuǎn)換模塊,接收來(lái)自內(nèi)容提取模塊的數(shù)據(jù)信息,將該數(shù)據(jù)信息的格式轉(zhuǎn)換為預(yù)設(shè)中間格式后發(fā)送給分析模塊。所述信息收集代理模塊與瀏覽器/文檔處理模塊之間通過(guò)插件/組件接口進(jìn)行數(shù)據(jù)交互。由上述技術(shù)方案可見(jiàn),本發(fā)明方案通過(guò)建立存儲(chǔ)用戶數(shù)據(jù)的用戶興趣數(shù)據(jù)模型,該用戶興趣數(shù)據(jù)模型至少包括用戶標(biāo)識(shí)、主題詞和主題詞的權(quán)值等信息,在用戶應(yīng)用瀏覽器/文擋處理時(shí),觸發(fā)信息收集代理模塊收集用戶操作事件信息,,利用收集到的用戶操作事件信息修正用戶興趣數(shù)據(jù)模型的信息提取用戶關(guān)注的信息如主題詞,并利用提取到的用戶關(guān)注的信息不斷修正用戶興趣數(shù)據(jù)模型的信息,有效地對(duì)用戶興趣和關(guān)注點(diǎn)進(jìn)行了跟蹤。本發(fā)明方案對(duì)用戶干擾小,收集的用戶信息精度高,有效地體現(xiàn)出了用戶的興趣所在。圖1是本發(fā)明收集用戶數(shù)據(jù)的系統(tǒng)組成示意圖;圖2是本發(fā)明信息收集代理模塊與瀏覽器/文擋處理模塊的組成示意圖;圖3是本發(fā)明用戶數(shù)據(jù)提取的流程圖;圖4是本發(fā)明系統(tǒng)詞根表生成流程圖;圖5是本發(fā)明修正用戶興趣數(shù)據(jù)模型的流程圖。具體實(shí)施例方式本發(fā)明的核心思想是建立存儲(chǔ)用戶數(shù)據(jù)的用戶興趣數(shù)據(jù)模型,在用戶應(yīng)用瀏覽器/文擋處理時(shí),觸發(fā)收集用戶操作事件信息,利用收集到的用戶操作事件信息修正用戶興趣數(shù)據(jù)模型的信息。為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下參照附圖并舉較佳實(shí)施例,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。圖1是本發(fā)明收集用戶數(shù)據(jù)的系統(tǒng)組成示意圖,如圖1所示,該系統(tǒng)包括以下模塊瀏覽器/文檔處理模塊,用于將用戶請(qǐng)求瀏覽/處理的信息按照用戶的要求正確操作,并根據(jù)操作觸發(fā)信息收集代理模塊收集用戶信息,瀏覽器/文檔處理模塊是用戶閱讀、查看文獻(xiàn)的主要方式。瀏覽器/文檔處理模塊接收用戶的指令執(zhí)行操作,并將操作通過(guò)事件消息發(fā)送給信息收集代理模塊。瀏覽器/文檔處理模塊可以包括IE瀏覽器、Netscape、firefox、Word、Adobereader等不同軟件組件。信息收集代理模塊,用于監(jiān)聽(tīng)并收集用戶的操作。接收來(lái)自瀏覽器/文擋處理模塊的事件消息,根據(jù)預(yù)先設(shè)置的事件規(guī)則,對(duì)收集的用戶操作內(nèi)容進(jìn)行格式轉(zhuǎn)化和分析,收集用戶操作中所關(guān)注的臨時(shí)數(shù)據(jù)信息如生成一個(gè)臨時(shí)詞根表、文擋內(nèi)容等,并存儲(chǔ)到收集信息緩存庫(kù)中;將生成的臨時(shí)數(shù)據(jù)信息發(fā)送給信息過(guò)濾和管理模塊。信息過(guò)濾和管理模塊,接收來(lái)自信息收集代理模塊的臨時(shí)數(shù)據(jù)信息,生成系統(tǒng)詞根表,存入用戶信息庫(kù);根據(jù)用戶信息庫(kù)中的數(shù)據(jù)信息對(duì)用戶興趣數(shù)據(jù)模型的信息進(jìn)行維護(hù)和管理,比如建立、修改、刪除等;向修正模塊發(fā)送修正請(qǐng)求。用戶信息庫(kù)作為整個(gè)系統(tǒng)的核心數(shù)據(jù)庫(kù),用于記錄用戶興趣數(shù)據(jù)模型的信息和用戶的興趣數(shù)據(jù)信息如系統(tǒng)詞根表信息。修正模塊,接收來(lái)自信息過(guò)濾和管理模塊的修正請(qǐng)求,根據(jù)用戶信息庫(kù)中的用戶數(shù)據(jù)信息如系統(tǒng)詞根表對(duì)用戶興趣數(shù)據(jù)模型信息進(jìn)行修正后,向信息過(guò)濾和管理模塊返回修正響應(yīng),并用修正后的用戶數(shù)據(jù)興趣模型更新用戶信息庫(kù)。隨著用戶的操作而不斷修正的用戶興趣數(shù)據(jù)模型,跟蹤反應(yīng)了用戶興趣愛(ài)好以及相關(guān)關(guān)注度,外部系統(tǒng)可以通過(guò)用戶信息庫(kù)提取用戶相關(guān)信息,為業(yè)務(wù)應(yīng)用提供了重要的客戶依據(jù)。進(jìn)一步地,考慮到該系統(tǒng)的分布式架構(gòu),該系統(tǒng)還包括數(shù)據(jù)通信模塊,用于聯(lián)系信息收集代理模塊與信息過(guò)濾和管理模塊,數(shù)據(jù)通信模塊的實(shí)現(xiàn)機(jī)制和原理是基于現(xiàn)有的分布式架構(gòu)技術(shù),比如公共對(duì)象請(qǐng)求代理結(jié)構(gòu)(CORBA,CommonObjectRequestBrokerArchitecture),WebServices等。為了能夠跟蹤用戶的興趣和關(guān)注點(diǎn),本發(fā)明方法根據(jù)用戶的瀏覽/文檔處理操作觸發(fā)信息收集代理模塊收集相關(guān)用戶數(shù)據(jù)信息,并存儲(chǔ)到預(yù)先建立好的用戶興趣數(shù)據(jù)模型中,并不斷地通過(guò)收集到的用戶興趣數(shù)據(jù)信息對(duì)用戶興趣數(shù)據(jù)模型進(jìn)行修正,有效地對(duì)用戶興趣和關(guān)注點(diǎn)進(jìn)行了跟蹤。所述用戶興趣數(shù)據(jù)模型可以建立在用戶信息庫(kù)中。用戶興趣數(shù)據(jù)模型由許多興趣的主題詞組成,這里主題詞代表著用戶的興趣點(diǎn),每個(gè)主題詞都對(duì)應(yīng)一個(gè)權(quán)值,權(quán)值代表了用戶對(duì)該主題詞對(duì)應(yīng)的內(nèi)容的關(guān)注度。收集用戶興趣數(shù)據(jù)主要是按照用戶操作來(lái)觸發(fā)的,比如點(diǎn)擊超鏈接、標(biāo)記書(shū)簽、復(fù)制粘貼相關(guān)內(nèi)容、拖動(dòng)滾動(dòng)條等。系統(tǒng)收集到用戶興趣數(shù)據(jù)后,對(duì)用戶關(guān)注的數(shù)據(jù)信息作相應(yīng)的格式轉(zhuǎn)換,由于不同的瀏覽器/文檔處理模塊存在各種數(shù)據(jù)格式,為了便于信息收集代理模塊統(tǒng)一管理,信息收集代理模塊需要將收集到的數(shù)據(jù)信息轉(zhuǎn)化為自身支持的中間格式如XML格式、也可以根據(jù)用戶的操作使用API鉤子函數(shù)直接獲取操作內(nèi)容,這里通過(guò)修改WindowsAPI鉤子函數(shù)收集的用戶操作內(nèi)容為基于文本字符類型,所以可以不需要進(jìn)行格式轉(zhuǎn)化處理。然后,信息收集代理模塊對(duì)收集到的數(shù)據(jù)信息作語(yǔ)法和詞法分析,生成一個(gè)臨時(shí)詞根表;再根據(jù)詞根頻數(shù)統(tǒng)計(jì)算法對(duì)臨時(shí)詞根表的內(nèi)容進(jìn)行過(guò)濾,生成用戶系統(tǒng)詞根表,這里,詞根頻數(shù)統(tǒng)計(jì)具有實(shí)時(shí)性,可以反映用戶的當(dāng)前興趣愛(ài)好,以及興趣愛(ài)好的遷移,具體實(shí)現(xiàn)參見(jiàn)下文;最后,根據(jù)生成的用戶系統(tǒng)詞根表,對(duì)用戶興趣數(shù)據(jù)模型進(jìn)行修正,修正主要是在用戶興趣數(shù)據(jù)模型中插入關(guān)鍵主題詞、刪除存在的主題詞和修改主題詞的權(quán)值等。圖2是本發(fā)明信息收集代理模塊與瀏覽器/文檔處理模塊的組成示意圖,如圖2所示,瀏覽器/文檔處理模塊主要包括數(shù)據(jù)模塊、控制模塊和顯示模塊;信息收集代理模塊主要包括用戶事件處理模塊、代理控制器、內(nèi)容提取模塊、格式轉(zhuǎn)換模塊和分析模塊。信息收集代理模塊可以作為一個(gè)獨(dú)立的軟件組件,也可以作為瀏覽器/文檔處理模塊的一個(gè)插件。這兩種方式并沒(méi)有本質(zhì)上區(qū)別,瀏覽器/文檔處理模塊與信息收集代理模塊間存在著插件/組件接口。下面對(duì)瀏覽器/文檔處理模塊和信息收集代理模塊的組成及交互工作原理詳細(xì)介紹如下目前,大多數(shù)的瀏覽器/文檔處理模塊都是基于處理邏輯-展現(xiàn)邏輯-控制邏輯(MVC,Model-View-Control)獨(dú)立處理的設(shè)計(jì)模式,在MVC模式下,可以將瀏覽器/文檔處理模塊主要分為數(shù)據(jù)模塊、顯示模塊和控制模塊。其中,數(shù)據(jù)模塊負(fù)責(zé)執(zhí)行應(yīng)用對(duì)象,比如文檔、圖片等數(shù)據(jù)內(nèi)容;顯示模塊在控制模塊的控制下,將所述應(yīng)用對(duì)象顯示出來(lái);控制模塊對(duì)瀏覽器/文檔處理模塊中各模塊的協(xié)調(diào)工作進(jìn)行控制,如響應(yīng)用戶的操作事件、控制數(shù)據(jù)模塊和顯示模塊響應(yīng)方式等。插件/組件接口是信息收集代理模塊與瀏覽器/文檔處理模塊之間的數(shù)據(jù)交互接口,如組件對(duì)象模型(COM,ComponentObjectModel)接口,COM是微軟公司提出的一個(gè)組件對(duì)象模型接口,是微軟對(duì)基于Windows應(yīng)用程序的一項(xiàng)軟件組件技術(shù)。信息收集代理模塊中各組成模塊的詳細(xì)描述如下用戶事件處理模塊,接收來(lái)自控制模塊的事件通知,并向控制模塊返回響應(yīng);對(duì)接收到的事件進(jìn)行過(guò)濾處理,將接收到的事件中需要處理的事件消息發(fā)送給代理控制器。代理控制器,接收來(lái)自用戶事件處理模塊的事件消息,并返回響應(yīng)消息;向內(nèi)容提取模塊發(fā)送操作內(nèi)容導(dǎo)入請(qǐng)求。內(nèi)容提取模塊,接收來(lái)自代理控制器的操作內(nèi)容導(dǎo)入請(qǐng)求,向?yàn)g覽器/文檔處理模塊中處理進(jìn)程的數(shù)據(jù)模塊發(fā)送操作內(nèi)容請(qǐng)求消息,以獲取用戶處理操作的數(shù)據(jù)信息,將獲得的數(shù)據(jù)信息發(fā)送給格式轉(zhuǎn)換模塊或分析模塊;向代理控制器返回操作內(nèi)容導(dǎo)入響應(yīng)消息。格式轉(zhuǎn)換模塊,接收來(lái)自內(nèi)容提取模塊的數(shù)據(jù)信息,將該數(shù)據(jù)信息的格式轉(zhuǎn)換為預(yù)設(shè)中間格式后發(fā)送給分析模塊。需要說(shuō)明的是,如果來(lái)自內(nèi)容提取模塊的數(shù)據(jù)信息為基于文本字符類型的,可以不需要格式轉(zhuǎn)換模塊,此時(shí),來(lái)自內(nèi)容提取模塊的數(shù)據(jù)信息直接發(fā)送給分析模塊。分析模塊,按照預(yù)設(shè)分析法對(duì)接收到的數(shù)據(jù)信息的詞法、語(yǔ)法進(jìn)行分析,收集用戶操作中所關(guān)注的臨時(shí)數(shù)據(jù)信息如生成一個(gè)臨時(shí)詞根表、文擋內(nèi)容等,并存儲(chǔ)到收集信息緩存庫(kù)中。以上對(duì)瀏覽器/文檔處理模塊和信息收集代理模塊的組成及交互工作原理進(jìn)行了介紹,假設(shè)采用的操作系統(tǒng)是微軟公司的Windows系列操作系統(tǒng),那么,信息收集代理模塊中的用戶事件處理模塊通過(guò)插件/組件接口,對(duì)瀏覽器/文檔處理模塊中的控制模塊的事件消息進(jìn)行偵聽(tīng),一旦用戶觸發(fā)了控制模塊的預(yù)設(shè)相關(guān)操作,用戶事件處理模塊通知代理控制器,由代理控制器通知內(nèi)容提取模塊獲取相關(guān)操作內(nèi)容。圖3是本發(fā)明用戶數(shù)據(jù)提取的流程圖,下面結(jié)合圖2,描述本發(fā)明用戶數(shù)據(jù)收集系統(tǒng)收集數(shù)據(jù)的過(guò)程步驟300~步驟302用戶通過(guò)瀏覽器/文檔處理模塊執(zhí)行應(yīng)用對(duì)象。假設(shè)所述應(yīng)用對(duì)象是指文檔操作,比如用戶使用瀏覽器/文檔處理器閱讀文檔產(chǎn)生的操作,可以包括打開(kāi)Open()、剪貼Cut()、拷貝Copy()、粘貼Paste()、前進(jìn)Forward()、后退Back()等,控制模塊負(fù)責(zé)執(zhí)行這些文檔操作,并向用戶返回執(zhí)行結(jié)果。步驟303~步驟304控制模塊向用戶事件處理模塊發(fā)送事件消息,用戶事件處理模塊收到事件消息后會(huì)向控制模塊返回響應(yīng)。發(fā)送事件消息SendMessage()函數(shù)主要包含如表1所示的內(nèi)容LongSendMessage(LongProcessID,LongMsg,LongEvent,HwndConObj,StringParam),其中,Long表示長(zhǎng)整型數(shù)據(jù)類型,String表示字符型數(shù)據(jù)類型。表1如表1所示,瀏覽器/文檔處理模塊和信息收集代理模塊一般是兩個(gè)獨(dú)立的進(jìn)程,發(fā)送消息的參數(shù)表中包括了接受消息的進(jìn)程標(biāo)識(shí)符ProcessID;Msg可以是操作系統(tǒng)級(jí)的消息類型標(biāo)識(shí),說(shuō)明發(fā)送的是一個(gè)什么類型的消息;Event是瀏覽器/文檔處理模塊和智能Agent之間自定義的操作事件標(biāo)識(shí);ConObj是應(yīng)用對(duì)象句柄,也就是操作文檔對(duì)象在內(nèi)存中的地址;Param是一些擴(kuò)展參數(shù),可能包括內(nèi)容偏移量、瀏覽停留時(shí)間等。步驟305用戶事件處理模塊對(duì)接收到的事件進(jìn)行過(guò)濾處理。過(guò)濾條件取決于預(yù)先設(shè)定的需要系統(tǒng)響應(yīng)并收集相關(guān)內(nèi)容的事件,可以通過(guò)定制的用戶接口(UI)界面對(duì)事件進(jìn)行設(shè)定,決定哪些用戶事件需要系統(tǒng)響應(yīng)并收集相關(guān)內(nèi)容,收集方或被收集方均可按照實(shí)際情況通過(guò)系統(tǒng)提供的接口進(jìn)行界面事件設(shè)定;另外,也可以是系統(tǒng)預(yù)先設(shè)定的默認(rèn)的事件。表2是一種相關(guān)事件設(shè)定的API函數(shù),表2表2中,Event()函數(shù)的參數(shù)取值的事件類型,與Windows操作系統(tǒng)的消息類似,是預(yù)定定義的消息類型,這點(diǎn)具體實(shí)現(xiàn)屬于本領(lǐng)域技術(shù)人員慣用技術(shù)手段,不再詳述。強(qiáng)調(diào)的是用戶事件處理模塊中預(yù)先設(shè)置有過(guò)濾條件及事件,對(duì)接收到的事件進(jìn)行過(guò)濾處理,如接收到的事件消息是預(yù)設(shè)的過(guò)濾事件,則進(jìn)入下一步;否則,將該事件消息丟棄。步驟306~步驟307用戶事件處理模塊將需要處理的事件消息發(fā)送給代理控制器,代理控制器返回響應(yīng)消息給用戶事件處理模塊。步驟308~步驟310代理控制器向內(nèi)容提取模塊發(fā)送操作內(nèi)容導(dǎo)入請(qǐng)求,內(nèi)容提取模塊執(zhí)行請(qǐng)求操作后,向代理控制器返回操作內(nèi)容導(dǎo)入響應(yīng)消息。代理控制器需要獲取應(yīng)用處理對(duì)象的句柄,同樣的,代理控制器模塊需要將句柄和參數(shù)發(fā)送給內(nèi)容提取模塊;內(nèi)容提取模塊根據(jù)獲得的句柄和進(jìn)程標(biāo)識(shí)參數(shù)發(fā)送操作內(nèi)容請(qǐng)求OnRequst()消息給瀏覽器/文檔處理模塊中處理進(jìn)程的數(shù)據(jù)模塊,以獲取用戶處理操作的數(shù)據(jù)內(nèi)容。其中,請(qǐng)求內(nèi)容OnRequst()消息包括以下內(nèi)容LongOnRequst(LongProcessID,LongMsg,LongEvent,HwndConObj,StringParam,HwndWndProc)表3對(duì)于提取用戶操作內(nèi)容的方式可以分為兩種1)基于全文操作內(nèi)容的,系統(tǒng)可以直接獲取操作文件,并通過(guò)格式轉(zhuǎn)換模塊的解析器將不同的操作內(nèi)容的格式轉(zhuǎn)換為標(biāo)準(zhǔn)的中間格式如XML中間格式。2)針對(duì)用戶具體的操作內(nèi)容,比如鼠標(biāo)點(diǎn)擊、Copy時(shí)的鼠標(biāo)選擇內(nèi)容、鼠標(biāo)停留時(shí)間等,可采用應(yīng)用編程接口(API,ApplicationProgrammingInterface)鉤子函數(shù)來(lái)實(shí)現(xiàn)。這里以鼠標(biāo)停留時(shí)間選取的內(nèi)容為例說(shuō)明一下采用鉤子函數(shù)獲取數(shù)據(jù)內(nèi)容的過(guò)程(1)根據(jù)用戶操作判斷取得鼠標(biāo)的當(dāng)前位置;(2)以鼠標(biāo)位置為中心生成一個(gè)矩形;(3)掛上API鉤子;(4)讓所生成的矩形產(chǎn)生重畫(huà)消息;(5)在鉤子里等輸出字符;(6)計(jì)算鼠標(biāo)停留在哪些文本內(nèi)容上,保存該文本內(nèi)容;(7)如果獲得數(shù)據(jù)內(nèi)容則摘掉API鉤子。需要說(shuō)明的是,在一段時(shí)間后,無(wú)論是否獲得數(shù)據(jù)內(nèi)容都應(yīng)該摘掉API鉤子;(8)將獲取的數(shù)據(jù)內(nèi)容發(fā)送給內(nèi)容提取模塊。Windows系統(tǒng)的所有字符輸出都是通過(guò)調(diào)用TextOut()和ExtTextOut()來(lái)實(shí)現(xiàn)的,其中TextOut()和ExtTextOut()兩個(gè)API函數(shù)是Windows的圖形設(shè)備接口(GDI)調(diào)用的執(zhí)行動(dòng)作,主要負(fù)責(zé)Windows界面上的字符內(nèi)容輸出。為了獲得Windows所有輸出的字符,只需要在TextOut()等函數(shù)中加入跳轉(zhuǎn)JMP語(yǔ)句,上述流程(3)中所述的鉤子其實(shí)就是在WindowsAPI函數(shù)中加入JMP語(yǔ)句,以跳轉(zhuǎn)到指定地址,一旦跳轉(zhuǎn)跳轉(zhuǎn)到指定地址,便獲得輸出的字符內(nèi)容。下面假設(shè)操作系統(tǒng)為Windows系統(tǒng),以一個(gè)操作實(shí)例說(shuō)明收集用戶Copy操作內(nèi)容的過(guò)程如下通過(guò)API函數(shù)預(yù)先設(shè)置相關(guān)用戶事件,假設(shè)Copy操作事件取值為10001011,調(diào)用已有API函數(shù)中的事件設(shè)置函數(shù)SetEvent(UECOPY)在用戶事件處理模塊中設(shè)置Copy操作事件。其中,UECOPY是10001011的宏定義。在瀏覽過(guò)程中用戶通過(guò)Copy(Ctrl+C)操作,將關(guān)注的內(nèi)容放入剪貼板,瀏覽器/文檔處理控制模塊響應(yīng)用戶操作,并調(diào)用發(fā)送事件消息函數(shù)SendMessage(1964,WM_OPER,UE_COPY,con_hdc,NULL),將事件消息通過(guò)插件/組件接口發(fā)送給信息收集代理模塊的用戶事件處理模塊,這里WM_OPER是操作系統(tǒng)定義消息宏定義,con_hdc是Copy內(nèi)容的指針。由于用戶事件處理模塊已經(jīng)預(yù)先設(shè)置了Copy操作事件,通過(guò)事件過(guò)濾處理后,向代理控制器發(fā)送時(shí)間通知,代理控制器接收到代理通知后,請(qǐng)求內(nèi)容提取模塊提取當(dāng)前操作內(nèi)容;內(nèi)容提取模塊調(diào)用操作系統(tǒng)的API函數(shù)獲取當(dāng)前操作相關(guān)內(nèi)容,在該實(shí)施例中,通過(guò)Windows的API函數(shù)獲取剪貼板的方法屬于現(xiàn)有的Windows應(yīng)用編程技術(shù),這里不再詳述。然后返回消息給代理控制器。完成圖3所示的用戶數(shù)據(jù)提取過(guò)程后,系統(tǒng)對(duì)提取的數(shù)據(jù)內(nèi)容進(jìn)行格式轉(zhuǎn)換和詞法、語(yǔ)法分析處理。格式轉(zhuǎn)換的實(shí)現(xiàn)在前文已敘述過(guò),就是按照預(yù)設(shè)中間格式,將接收到的數(shù)據(jù)信息的格式轉(zhuǎn)換成中間格式。無(wú)論采用哪一種方式獲取用戶操作內(nèi)容,系統(tǒng)獲得的都應(yīng)該是基于字符文本格式類型的內(nèi)容,然后通過(guò)分析模塊對(duì)該用戶操作內(nèi)容作切詞,生成臨時(shí)詞根庫(kù),并存入收集信息緩存庫(kù)中。下面具體介紹詞法、語(yǔ)法分析處理的實(shí)現(xiàn)方法圖4是本發(fā)明系統(tǒng)詞根表生成流程圖,如圖4所示,通過(guò)對(duì)用戶操作內(nèi)容作詞法、語(yǔ)法分析處理生成系統(tǒng)詞根表主要包括以下步驟步驟401對(duì)獲得的文本字符類型格式的操作內(nèi)容進(jìn)行自動(dòng)切詞處理,生成臨時(shí)主題詞并存儲(chǔ)在臨時(shí)系統(tǒng)詞根表中。自動(dòng)切詞處理是現(xiàn)有技術(shù),比如二元自動(dòng)切詞算法、詞表切詞算法等,具體實(shí)現(xiàn)可以參照相關(guān)資料,常用的自動(dòng)切分算法是將單詞按照二元語(yǔ)法方式切分出來(lái),比如對(duì)于“北京天安門”,可切分成“北京京天天安安門”。這樣,在查詢時(shí),無(wú)論是查詢“北京”,還是查詢“天安門”,將查詢?cè)~組按同樣的規(guī)則進(jìn)行切分″北京″,″天安安門″,多個(gè)主題詞之間按與與的關(guān)系組合,則能夠正確地映射到相應(yīng)的詞根表中。這種方式對(duì)于其他亞洲語(yǔ)言如韓文、日文都是通用的。主題詞是獲取的用戶操作內(nèi)容中的高頻出現(xiàn)的字符串,比如可以預(yù)先設(shè)置一次數(shù)限值,當(dāng)字符串出現(xiàn)的次數(shù)高于該次數(shù)限值時(shí),判定該字符串為主題詞。主題詞必須是具有真實(shí)含義的實(shí)詞,如足球、football等,而語(yǔ)句中常出現(xiàn)的連詞、介詞、語(yǔ)氣助詞如又、也、to等不適合作為主題詞。步驟402計(jì)算臨時(shí)詞根表中的主題詞的頻數(shù),并將頻數(shù)大于預(yù)設(shè)頻度閾值的主題詞存入系統(tǒng)詞根表。詞根頻數(shù)統(tǒng)計(jì)算法就是將用戶臨時(shí)詞根表中大于預(yù)設(shè)頻度閾值N的高頻主題詞合并到用戶系統(tǒng)詞根表中。步驟403計(jì)算系統(tǒng)詞根表中主題詞的變化率,并存入系統(tǒng)詞根表。主題詞的變化率很好地反應(yīng)了用戶對(duì)主題詞關(guān)注度的遷移,如變化率變小關(guān)注度降低、變化率增大關(guān)注度提高、如果變化率長(zhǎng)期處于低水平值或?yàn)榻咏鼮榱?,說(shuō)明用戶可能不再關(guān)注該主題詞。主題詞變化率的計(jì)算入公式(1)所示主題詞的變化率=dFi/dt(1)其中,F(xiàn)i是系統(tǒng)詞根表中主題詞i的頻數(shù)。主題詞i變化率等于系統(tǒng)詞根表中主題詞i的頻數(shù)對(duì)時(shí)間的導(dǎo)數(shù)。表4是用戶臨時(shí)詞根表存儲(chǔ)的內(nèi)容,表5是系統(tǒng)詞根表存儲(chǔ)的內(nèi)容。表4表5通過(guò)公式(1)所示詞根頻數(shù)統(tǒng)計(jì)算法,用戶系統(tǒng)詞根表的統(tǒng)計(jì)結(jié)果具有了一定實(shí)時(shí)性,反應(yīng)了用戶興趣詞根和相關(guān)詞根的變化率。信息過(guò)濾和管理模塊對(duì)用戶系統(tǒng)詞根表進(jìn)行維護(hù)和管理,并且結(jié)合修正模塊,根據(jù)系統(tǒng)詞根表的信息對(duì)用戶興趣數(shù)據(jù)模型信息進(jìn)行修正。圖5是本發(fā)明修正用戶興趣數(shù)據(jù)模型的流程圖,如圖5所示,包括以下步驟步驟500信息過(guò)濾和管理模塊向用戶信息庫(kù)發(fā)送更新用戶系統(tǒng)詞根表請(qǐng)求。本步驟是將經(jīng)過(guò)信息過(guò)濾和管理模塊處理后的數(shù)據(jù)信息存儲(chǔ)到用戶信息庫(kù)中,對(duì)用戶信息庫(kù)進(jìn)行更新。步驟501用戶信息庫(kù)進(jìn)行數(shù)據(jù)庫(kù)更新操作,更新用戶系統(tǒng)詞根表。步驟502用戶信息庫(kù)返回更新用戶系統(tǒng)詞根表響應(yīng)消息給信息過(guò)濾和管理模塊,表明已完成更新。步驟503信息過(guò)濾和管理模塊向修正模塊發(fā)送修正用戶興趣數(shù)據(jù)模型請(qǐng)求。修正用戶興趣數(shù)據(jù)模型請(qǐng)求中攜帶用戶操作事件的事件標(biāo)識(shí),用于觸發(fā)更新用戶系統(tǒng)詞根表中該事件標(biāo)識(shí)對(duì)應(yīng)的事件信息。修正用戶興趣數(shù)據(jù)模型請(qǐng)求可以是基于設(shè)定事件觸發(fā)的,也可以是基于收集事件觸發(fā)的。也就是說(shuō)一種方式是基于預(yù)先設(shè)定的事件觸發(fā)如預(yù)設(shè)時(shí)間定時(shí)對(duì)用戶興趣數(shù)據(jù)模型進(jìn)行修正,基于預(yù)先設(shè)定的事件觸發(fā)的方式,系統(tǒng)需要預(yù)先保存每次修正操作過(guò)程中導(dǎo)入系統(tǒng)詞根表的主題詞的操作事件標(biāo)識(shí),基本存儲(chǔ)結(jié)構(gòu)如表6所示,如表6所示,其中主題詞標(biāo)識(shí)/索引保存了每次導(dǎo)入系統(tǒng)詞根表的主題詞標(biāo)識(shí)、修正標(biāo)識(shí)用于區(qū)別不同的修正操作、事件標(biāo)識(shí)記錄每次導(dǎo)入系統(tǒng)詞根表的操作事件標(biāo)識(shí)。表6另一種方式是根據(jù)收集操作事件,實(shí)時(shí)對(duì)用戶興趣數(shù)據(jù)模型進(jìn)行修正。如果是按照收集操作事件實(shí)時(shí)修正用戶興趣數(shù)據(jù)模型信息的方式,信息過(guò)濾和管理模塊需要將操作的事件標(biāo)識(shí)攜帶在修正用戶興趣數(shù)據(jù)模型請(qǐng)求中發(fā)送給修正模塊。步驟504修正模塊對(duì)用戶興趣數(shù)據(jù)模型進(jìn)行修正處理。修改用戶興趣數(shù)據(jù)模型信息主要是插入主題詞、和/或刪除已經(jīng)存在的主題詞、和/或修改主題詞的權(quán)值。以根據(jù)收集操作事件實(shí)時(shí)修正用戶興趣數(shù)據(jù)模型為例,給出修正處理方法用戶興趣數(shù)據(jù)模型除了包括主題詞頻數(shù)和主題詞的變化率外,還需要考慮用戶操作的影響,比如操作包括閱讀時(shí)間(bt)、加入標(biāo)簽(bm)、拖動(dòng)滾動(dòng)條(sc)和跟隨超鏈接(fl)等。相關(guān)修正的計(jì)算如公式(2)所示Ri=Σv∈Fcvfv(i)---(2)]]>其中F是閱讀時(shí)間、加入標(biāo)簽、拖動(dòng)滾動(dòng)條和跟隨超鏈接等用戶操作的集合,即F={bt,bm,sc,fl},cv是分配給每一個(gè)v動(dòng)作的權(quán)值,v動(dòng)作是用戶操作事件的數(shù)學(xué)符號(hào)表示,cv表示系統(tǒng)為該用戶操作事件分配的計(jì)算權(quán)值。i表示當(dāng)前請(qǐng)求修正的操作的事件標(biāo)識(shí)對(duì)應(yīng)的用戶操作事件,Ri表示當(dāng)前請(qǐng)求修正的操作的事件標(biāo)識(shí)對(duì)應(yīng)的用戶操作事件的權(quán)值計(jì)算結(jié)果,用于參與用戶興趣數(shù)據(jù)模型的更新。fv(i)是一個(gè)二值函數(shù),表示用戶對(duì)主題詞的操作事件v的計(jì)算函數(shù),當(dāng)用戶對(duì)主題詞i操作時(shí),v動(dòng)作的值為1,否則為0。在對(duì)詞根i的權(quán)值計(jì)算結(jié)果Ri的基礎(chǔ)上,可以更新用戶興趣數(shù)據(jù)模型,計(jì)算如公式(3)所示如下WP(i)=f(Fi,dFidl,Ri)---(3)]]>公式3所示函數(shù)描述了綜合計(jì)算主題詞的權(quán)值的計(jì)算方法,將系統(tǒng)詞根表中的主題詞的頻數(shù)、主題詞的變化率和通過(guò)公式(2)獲得的事件操作權(quán)值,確定主題詞的修正權(quán)值。其中,Wp(i)是主題詞的修正權(quán)值,F(xiàn)i和是主題詞i的頻數(shù)和變化率,Ep(i)是與Fi、及Ri相關(guān)的函數(shù),修改原則為若該主題詞i的權(quán)值即修正權(quán)值Wp很高,超過(guò)給定的最高權(quán)值閾值,則相應(yīng)的用戶興趣數(shù)據(jù)模型信息中對(duì)應(yīng)的主題詞的權(quán)值就會(huì)增加;若該主題詞i的權(quán)值即修正權(quán)值Wp在給定的最高和最低閾值范圍內(nèi),說(shuō)明該主題詞的權(quán)值與用戶特征文件中對(duì)應(yīng)主題詞的權(quán)值基本一致,則相應(yīng)的用戶興趣數(shù)據(jù)模型中對(duì)應(yīng)的主題詞的權(quán)值不做修改;若該主題詞i的權(quán)值即修正權(quán)值Wp很低,低于給定的最低權(quán)值閾值,則相應(yīng)的用戶興趣數(shù)據(jù)模型信息中對(duì)應(yīng)的主題詞的權(quán)值就會(huì)減少。為了避免用戶興趣數(shù)據(jù)模型信息中包含的主題詞變得越來(lái)越龐大,可以設(shè)置調(diào)整包含在用戶興趣數(shù)據(jù)模型信息中主題詞權(quán)值的最低權(quán)值閾值,合理地維護(hù)用戶興趣數(shù)據(jù)模型信息。表7給出了用戶興趣數(shù)據(jù)模型信息的二維表結(jié)構(gòu)存儲(chǔ)示例,表6說(shuō)明了用戶興趣模型的基本存儲(chǔ)結(jié)構(gòu),至少包括用戶標(biāo)識(shí)、主題詞集以及主題詞的權(quán)值信息。這些信息表示了不斷修正用戶興趣數(shù)據(jù)模型的結(jié)果。<tablesid="table8"num="008"><tablewidth="682">用戶標(biāo)識(shí)主題詞權(quán)值UID1籃球95UID1Playstation65UID1高爾夫30.........UID2足球70.........</table></tables>表7步驟505修正模塊向用戶信息厙發(fā)送更新用戶興趣數(shù)據(jù)模型請(qǐng)求。該更新用戶興趣數(shù)據(jù)模型請(qǐng)求中攜帶有修正后的用戶興趣數(shù)據(jù)模型信息。步驟506用戶信息庫(kù)更新用戶興趣數(shù)據(jù)模型。步驟507用戶信息庫(kù)向修正模塊返回更新用戶興趣數(shù)據(jù)模型響應(yīng)消息。步驟508修正模塊向信息過(guò)濾和管理模塊返回修正用戶興趣數(shù)據(jù)模型響應(yīng)消息。本發(fā)明利用提取到的用戶關(guān)注的信息不斷修正用戶興趣數(shù)據(jù)模型的信息,有效地對(duì)用戶興趣和關(guān)注點(diǎn)進(jìn)行了跟蹤。本發(fā)明方案對(duì)用戶干擾小,收集的用戶信息精度高,有效地體現(xiàn)出了用戶的興趣所在。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。權(quán)利要求1.一種收集用戶數(shù)據(jù)的方法,其特征在于,建立存儲(chǔ)用戶數(shù)據(jù)的用戶興趣數(shù)據(jù)模型,該方法包括以下步驟A.用戶應(yīng)用瀏覽器/文擋處理時(shí),觸發(fā)收集用戶操作事件信息;B.利用收集到的用戶操作事件信息修正用戶興趣數(shù)據(jù)模型的信息。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A中所述觸發(fā)收集用戶操作事件信息的方法為通過(guò)事件消息觸發(fā)收集用戶操作事件信息。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述事件消息為發(fā)送事件消息,該發(fā)送事件消息至少包括用于標(biāo)識(shí)接受事件消息的信息收集代理模塊的進(jìn)程的進(jìn)程標(biāo)識(shí)符、用于表示發(fā)送的消息的類型的消息標(biāo)識(shí)符、用于標(biāo)識(shí)操作的事件標(biāo)識(shí)、應(yīng)用對(duì)象句柄。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述應(yīng)用對(duì)象句柄為操作文檔對(duì)象在內(nèi)存中的地址;5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A所述收集用戶操作事件信息的方法為A1.對(duì)接收到的事件消息進(jìn)行過(guò)濾處理,提取需要處理的事件消息對(duì)應(yīng)的用戶操作內(nèi)容,獲取基于文本字符類型格式的用戶操作內(nèi)容;A2.對(duì)獲得的用戶操作內(nèi)容進(jìn)行自動(dòng)切詞處理,獲取臨時(shí)主題詞并存儲(chǔ)在臨時(shí)系統(tǒng)詞根表中;A3.選擇臨時(shí)詞根表中出現(xiàn)頻數(shù)高的主題詞存入用戶系統(tǒng)詞根表中,計(jì)算并存儲(chǔ)系統(tǒng)詞根表中主題詞的變化率和頻數(shù)。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟A1中所述過(guò)濾處理的方法為預(yù)先設(shè)置過(guò)濾條件,如果接收到的事件消息是與預(yù)設(shè)的過(guò)濾條件相匹配的過(guò)濾事件,則繼續(xù)執(zhí)行步驟A1中的并提取該事件消息對(duì)應(yīng)的用戶操作內(nèi)容。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述過(guò)濾條件為通過(guò)定制的用戶接口UI界面設(shè)定的事件;或者系統(tǒng)預(yù)先設(shè)定的默認(rèn)的事件。8.根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟A1中所述提取用戶操作內(nèi)容的方法為根據(jù)所述事件消息的句柄和進(jìn)程標(biāo)識(shí)參數(shù),向?yàn)g覽器/文檔處理模塊發(fā)送操作內(nèi)容請(qǐng)求消息,獲取用戶操作內(nèi)容。9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述操作內(nèi)容請(qǐng)求消息至少包括用于標(biāo)識(shí)接受事件消息的信息收集代理模塊的進(jìn)程的進(jìn)程標(biāo)識(shí)符、用于表示發(fā)送的消息的類型的消息標(biāo)識(shí)符、用于標(biāo)識(shí)操作的事件標(biāo)識(shí)、應(yīng)用對(duì)象句柄、以及回調(diào)函數(shù)的句柄。10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述獲取用戶操作內(nèi)容的方式為對(duì)于基于全文操作的內(nèi)容,直接獲取操作文件,并將不同的操作內(nèi)容的格式轉(zhuǎn)換為預(yù)設(shè)的系統(tǒng)的中間格式;對(duì)于用戶具體的操作內(nèi)容,采用應(yīng)用編程接口API鉤子函數(shù)來(lái)獲取。11.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述用戶具體的操作內(nèi)容包括鼠標(biāo)點(diǎn)擊、Copy時(shí)的鼠標(biāo)選擇內(nèi)容、鼠標(biāo)停留時(shí)間操作事件。12.根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟A2中所述自動(dòng)切詞處理方法為二元自動(dòng)切詞算法、或詞表切詞算法。13.根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟A3中所述選擇出現(xiàn)頻數(shù)高的主題詞的方法為預(yù)先設(shè)置頻度閾值,判斷主題詞的頻數(shù)是否大于預(yù)設(shè)頻度閾值,若大于,則選擇;否則丟棄。14.根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟A3中所述計(jì)算主題詞的變化率的方法為計(jì)算該主題詞的頻數(shù)對(duì)時(shí)間的導(dǎo)數(shù)所得的值。15.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟B具體包括B1.系統(tǒng)中的修正模塊接收到修正用戶興趣數(shù)據(jù)模型請(qǐng)求;B2.對(duì)用戶興趣數(shù)據(jù)模型進(jìn)行修正處理。16.根據(jù)權(quán)利要求15所述的方法,其特征在于,步驟B1中所述修正用戶興趣數(shù)據(jù)模型請(qǐng)求中攜帶有用戶操作事件的事件標(biāo)識(shí),該事件標(biāo)識(shí)觸發(fā)更新用戶系統(tǒng)詞根表中該事件標(biāo)識(shí)對(duì)應(yīng)的主題詞。17.根據(jù)權(quán)利要求15或16所述的方法,其特征在于,所述修正用戶興趣數(shù)據(jù)模型請(qǐng)求為基于設(shè)定事件觸發(fā)的,或基于收集事件觸發(fā)的。18.根據(jù)權(quán)利要求15所述的方法,其特征在于,步驟B2中所述修正包括插入主題詞、和/或刪除存在的主題詞、和/或修改主題詞的權(quán)值。19.根據(jù)權(quán)利要求15所述的方法,其特征在于,所述步驟B2中,當(dāng)修正為修改主題詞的權(quán)值時(shí),修改的方法為B21.根據(jù)用戶操作,計(jì)算所述主題詞的權(quán)值計(jì)算結(jié)果Ri;B22.根據(jù)計(jì)算得到的權(quán)值計(jì)算結(jié)果Ri,以及所述主題詞的頻數(shù)和變化率,計(jì)算該主題詞的修正權(quán)值Wp(i),并根據(jù)改修正權(quán)值對(duì)用戶興趣數(shù)據(jù)模型進(jìn)行修正。20.根據(jù)權(quán)利要求19所述的方法,其特征在于,步驟B21中所述計(jì)算所述主題詞的權(quán)值計(jì)算結(jié)果Ri的方法為Ri=Σv∈Fcvfv(i)]]>,其中,F(xiàn)是閱讀時(shí)間bt、加入標(biāo)簽bm、拖動(dòng)滾動(dòng)條sc和跟隨超鏈接fl用戶操作的集合,所述F={bt,bm,sc,fl};cv是系統(tǒng)為該用戶操作事件分配的計(jì)算權(quán)值。i表示當(dāng)前請(qǐng)求修正的操作的事件標(biāo)識(shí)對(duì)應(yīng)的用戶操作事件,Ri表示當(dāng)前請(qǐng)求修正的操作的事件標(biāo)識(shí)對(duì)應(yīng)的用戶操作事件的權(quán)值計(jì)算結(jié)果;fv(i)是一個(gè)二值函數(shù)。21.根據(jù)權(quán)利要求19或20所述的方法,其特征在于,步驟B22中所述修正的方法為預(yù)先設(shè)置最高權(quán)值閾值和最低權(quán)值閾值;若所述主題詞i的修正權(quán)值Wp,超過(guò)給定的最高權(quán)值閾值,則增加相應(yīng)的用戶興趣數(shù)據(jù)模型信息中對(duì)應(yīng)的主題詞的權(quán)值;若所述主題詞i的修正權(quán)值Wp在所述最高和最低閾值范圍內(nèi),則不修改相應(yīng)的用戶興趣數(shù)據(jù)模型中對(duì)應(yīng)的主題詞的權(quán)值;若所述主題詞i的修正權(quán)值Wp低于給定的最低權(quán)值閾值,則減少相應(yīng)的用戶興趣數(shù)據(jù)模型信息中對(duì)應(yīng)的主題詞的權(quán)值。22.根據(jù)權(quán)利要求21所述的方法,其特征在于,步驟B22中所述計(jì)算修正權(quán)值Wp(i)的方法為Wp(i)=f1(Fi,dfidt,Ri)]]>,其中,F(xiàn)i和是根據(jù)主題詞i的頻數(shù)和變化率計(jì)算出來(lái)的結(jié)果值。23.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述用戶興趣數(shù)據(jù)模型至少包括用戶標(biāo)識(shí)、主題詞和主題詞的權(quán)值。24.一種收集用戶數(shù)據(jù)的系統(tǒng),其特征在于,該系統(tǒng)包括瀏覽器/文檔處理模塊,接收用戶的指令執(zhí)行操作,并將操作通過(guò)事件消息發(fā)送給信息收集代理模塊;信息收集代理模塊,接收來(lái)自瀏覽器/文擋處理模塊的事件消息,對(duì)收集的用戶操作內(nèi)容進(jìn)行分析,收集用戶操作中所關(guān)注的臨時(shí)數(shù)據(jù)信息,并存儲(chǔ)到收集信息緩存庫(kù)中;將生成的臨時(shí)數(shù)據(jù)信息發(fā)送給信息過(guò)濾和管理模塊;信息過(guò)濾和管理模塊,接收來(lái)自信息收集代理模塊的臨時(shí)數(shù)據(jù)信息,生成系統(tǒng)詞根表,存入用戶信息庫(kù);根據(jù)用戶信息庫(kù)中的數(shù)據(jù)信息對(duì)用戶興趣數(shù)據(jù)模型的信息進(jìn)行維護(hù)和管理;向修正模塊發(fā)送修正請(qǐng)求;修正模塊,接收來(lái)自信息過(guò)濾和管理模塊的修正請(qǐng)求,根據(jù)用戶信息庫(kù)中的用戶數(shù)據(jù)信息對(duì)用戶興趣數(shù)據(jù)模型信息進(jìn)行修正,向信息過(guò)濾和管理模塊返回修正響應(yīng),并用修正后的用戶數(shù)據(jù)興趣模型更新用戶信息庫(kù)。25.根據(jù)權(quán)利要求24所述的系統(tǒng),其特征在于,該系統(tǒng)進(jìn)一步包括數(shù)據(jù)通信模塊,用于聯(lián)系信息收集代理模塊與信息過(guò)濾和管理模塊。26.根據(jù)權(quán)利要求24或25所述的系統(tǒng),其特征在于,所述信息收集代理模塊包括用戶事件處理模塊,接收來(lái)自控制模塊的事件通知,并向控制模塊返回響應(yīng);對(duì)接收到的事件進(jìn)行過(guò)濾處理,將接收到的事件中需要處理的事件消息發(fā)送給代理控制器;代理控制器,接收來(lái)自用戶事件處理模塊的事件消息,并返回響應(yīng)消息;向內(nèi)容提取模塊發(fā)送操作內(nèi)容導(dǎo)入請(qǐng)求;內(nèi)容提取模塊,接收來(lái)自代理控制器的操作內(nèi)容導(dǎo)入請(qǐng)求,向?yàn)g覽器/文檔處理模塊中處理進(jìn)程的數(shù)據(jù)模塊發(fā)送操作內(nèi)容請(qǐng)求消息,獲取用戶處理操作的數(shù)據(jù)信息,將獲得的數(shù)據(jù)信息發(fā)送給分析模塊;向代理控制器返回操作內(nèi)容導(dǎo)入響應(yīng)消息;分析模塊,對(duì)接收到的數(shù)據(jù)信息的詞法、語(yǔ)法進(jìn)行分析,收集用戶操作中所關(guān)注的臨時(shí)數(shù)據(jù)信息如生成一個(gè)臨時(shí)詞根表、文擋內(nèi)容等,并存儲(chǔ)到收集信息緩存庫(kù)中。27.根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,所述信息收集代理模塊還包括格式轉(zhuǎn)換模塊,接收來(lái)自內(nèi)容提取模塊的數(shù)據(jù)信息,將該數(shù)據(jù)信息的格式轉(zhuǎn)換為預(yù)設(shè)中間格式后發(fā)送給分析模塊。28.根據(jù)權(quán)利要求24所述的系統(tǒng),其特征在于,所述信息收集代理模塊與瀏覽器/文檔處理模塊之間通過(guò)插件/組件接口進(jìn)行數(shù)據(jù)交互。全文摘要本發(fā)明公開(kāi)了一種收集用戶數(shù)據(jù)的系統(tǒng),同時(shí)還公開(kāi)了一種收集用戶數(shù)據(jù)的方法。本發(fā)明方案通過(guò)建立存儲(chǔ)用戶數(shù)據(jù)的用戶興趣數(shù)據(jù)模型,在用戶應(yīng)用瀏覽器/文擋處理時(shí),觸發(fā)信息收集代理模塊收集用戶操作事件信息,利用收集到的用戶操作事件信息修正用戶興趣數(shù)據(jù)模型的信息提取用戶關(guān)注的信息如主題詞,并利用提取到的用戶關(guān)注的信息不斷修正用戶興趣數(shù)據(jù)模型的信息,有效地對(duì)用戶興趣和關(guān)注點(diǎn)進(jìn)行了跟蹤。本發(fā)明方案對(duì)用戶干擾小,收集的用戶信息精度高,有效地體現(xiàn)出了用戶的興趣所在。能夠有效地收集用戶數(shù)據(jù),體現(xiàn)用戶的興趣所在。文檔編號(hào)G06Q10/00GK1983264SQ20061008102公開(kāi)日2007年6月20日申請(qǐng)日期2006年5月19日優(yōu)先權(quán)日2006年5月19日發(fā)明者胡立新,鐘杰萍,舒琦申請(qǐng)人:華為技術(shù)有限公司