專利名稱:基于多智能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于旅游信息化領(lǐng)域,具體涉及集成多種技術(shù),如智能代理技術(shù)、數(shù)據(jù)挖掘 技術(shù)、智能信息處理技術(shù)等,建立基于多智能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng)。
背景技術(shù):
伴隨著旅游業(yè)的蓬勃發(fā)展,對旅游信息化建設(shè)的要求也越來越高。目前主流的旅 游信息服務(wù)系統(tǒng)是通過建立Web服務(wù)站點(diǎn)向旅游者提供各種信息集合服務(wù),旅游者通過瀏 覽相關(guān)內(nèi)容來獲取信息。但是這種服務(wù)方式是被動的,沒有充分考慮用戶個體間的個性化 需求,無法提供個性化的旅游信息化產(chǎn)品和服務(wù)。通用的多媒體搜索引擎提供信息檢索服 務(wù),例如百度、搜狗,也無法提供差異服務(wù),不能滿足人們?nèi)找嬖鲩L的個性化的需求,有效地 返回用戶感興趣的相關(guān)旅游信息,而且經(jīng)常伴隨大量重復(fù)或不相關(guān)信息。因此開發(fā)一種更 為主動和智能的旅游信息個性化服務(wù)成為旅游者的迫切需求。本發(fā)明采用智能代理、數(shù)據(jù)挖掘以及智能信息處理等技術(shù),設(shè)計和實(shí)現(xiàn)基于多智 能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng)。根據(jù)用戶興趣模型的分析結(jié)果,有針對性地 向旅游用戶主動推送個性化的信息服務(wù)。全國風(fēng)景名勝區(qū)每年的游客接待量都在數(shù)億人 次,建立旅游多媒體信息主動服務(wù)系統(tǒng),在全國風(fēng)景名勝區(qū)內(nèi)建立集旅游目的地資源推介、 旅游資訊、公益宣傳為一體的旅游目的地信息服務(wù),將加速旅游數(shù)字化的進(jìn)程,可帶來良好 的經(jīng)濟(jì)效益和社會效益。
發(fā)明內(nèi)容
本發(fā)明提出并建立基于多智能Agent框架結(jié)構(gòu)的旅游多媒體信息個性化服務(wù)系 統(tǒng)。系統(tǒng)采用Agent技術(shù),通過不斷自主學(xué)習(xí),發(fā)現(xiàn)用戶的興趣,通過Agent技術(shù)實(shí)現(xiàn)用戶興 趣與多媒體文檔信息的有效匹配,從而能夠滿足人們在對旅游信息檢索時的個性化要求。 本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的1.用戶興趣信息抽取和預(yù)處理;2.基于向量夾角的改進(jìn)的K-近鄰算法的用戶興趣建模;3.用戶興趣模型動態(tài)更新;4.基于多智能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng)。本發(fā)明有以下一些技術(shù)特征(1)步驟1所述的用戶興趣信息抽取和預(yù)處理,是指通過抽取用戶興趣信息并進(jìn) 行預(yù)加工處理,從而獲取用戶興趣特征向量集以及多媒體信息處理后產(chǎn)生的用于描述多媒 體內(nèi)容的特征向量集,可作為興趣模型建立和更新的基礎(chǔ)。(2)步驟2所述采用基于向量夾角的改進(jìn)的K-近鄰算法的自動用戶興趣建模的方 法,是指在完成用戶興趣信息采集之后,利用采集的信息,采用改進(jìn)的K-近鄰分類算法構(gòu) 建用戶興趣模型。(3)步驟3所述的用戶興趣模型動態(tài)更新是為了反映用戶的實(shí)時個性化需求,實(shí)現(xiàn)針對每個用戶建立的興趣模型必須具有自學(xué)習(xí)能力。用戶可以主動輸入或者修改其興趣 關(guān)鍵字和興趣描述,還可以通過用戶反饋學(xué)習(xí)調(diào)整興趣模型,使模型不斷地預(yù)測用戶的真 實(shí)興趣。(3)步驟4所述的基于多智能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng)是指針對 系統(tǒng)工作流程的每一階段,劃分功能相對獨(dú)立的模塊,再將各模塊包裝成Agent代理,形成 多代理框架,在此框架下,各代理分工協(xié)作,從而實(shí)現(xiàn)多媒體信息服務(wù)的智能化與個性化。 系統(tǒng)包括用戶接口 Agent、過濾排序Agent、興趣學(xué)習(xí)Agent、監(jiān)控Agent和信息檢索Agent 五個功能模塊。本發(fā)明所述的旅游多媒體個性化信息服務(wù)的智能化除了體現(xiàn)在可以定期 為用戶主動推薦有價值的多媒體信息外,系統(tǒng)還可以在用戶收看或者搜索多媒體信息的同 時,結(jié)合用戶興趣庫中的用戶興趣知識,為用戶提供智能化的個性化信息服務(wù)。本發(fā)明提出并建立基于多智能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng),對于建 立高質(zhì)量智能化的旅游信息服務(wù)具有很高的理論意義和應(yīng)用價值,對多媒體信息個性化服 務(wù)系統(tǒng)的方案設(shè)計及算法研究有指導(dǎo)意義。
圖1用戶興趣信息抽取流程;圖2特征向量提?。粓D3用戶興趣建模過程;圖4用戶興趣判定過程;圖5改進(jìn)的k_近鄰算法;圖6用戶反饋學(xué)習(xí)流程圖;圖7基于多智能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng)框架;圖8過濾Agent工作流程圖;圖9信息檢索Agent功能結(jié)構(gòu)圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚,以下參照附圖并舉實(shí)例對本發(fā)明 做進(jìn)一步詳細(xì)地說明。本發(fā)明采用的開發(fā)和實(shí)現(xiàn)平臺是NET(C#)平臺。1.用戶興趣信息抽取和預(yù)處理用戶興趣建模時,首先要獲取能體現(xiàn)用戶興趣的有用信息,然后才能對用戶興趣 進(jìn)行特征化的描述,從中歸納出可計算的模型。模型還要可以不斷地更新和維護(hù),以反映用 戶興趣的變化。用戶興趣信息抽取流程如圖1所示。用戶興趣信息可以通過兩種方式獲得一種方式是可以通過用戶主動輸入或者修 改其興趣關(guān)鍵詞的方式來提供自己的興趣,或是通過用戶對訪問內(nèi)容的反饋來獲得用戶興 趣;另一種方式是通過監(jiān)控用戶的行為來評估和推測用戶興趣。前一種方式直接,透明度 高,花費(fèi)時間相對較少且可靠性較高,但是過多的用戶參與或系統(tǒng)主動詢問會占用用戶大 量的時間;而后一種方式比較隱蔽,無需用戶主動參與。本系統(tǒng)將這兩種方法結(jié)合起來獲取 用戶興趣信息,通過前一種方式來獲取靜態(tài)用戶信息,而通過后一種方式來獲取動態(tài)用戶 fn息ο
通過用戶信息采集,系統(tǒng)可以獲得用戶感興趣的內(nèi)容,而這些內(nèi)容則可能是文檔、 圖片、視頻等多媒體信息。如何對這些信息進(jìn)行處理,從中挖掘出用戶感興趣的內(nèi)容是用戶 興趣建模的關(guān)鍵。具體步驟如下(1)頁面規(guī)范化處理首先將網(wǎng)頁中的標(biāo)記符號補(bǔ)全;然后刪除與文本內(nèi)容無關(guān) 的信息,包括超鏈接、腳本、網(wǎng)頁框架結(jié)構(gòu)等。(2) Web文本的表示采用向量空間模型(VSM)表示W(wǎng)eb文本。VSM的基本思想是 采用向量來表示一個文本,對該Web文本內(nèi)容的處理過程將可以轉(zhuǎn)化為空間向量的運(yùn)算。(3)特征向量提取首先獲取Web正文,然后對文本內(nèi)容進(jìn)行分詞處理,詞頻統(tǒng)計 以及特征向量提取。系統(tǒng)采用基于詞典的分詞方法進(jìn)行文本特征詞的自動抽取,處理過程 如圖2所示。(4)權(quán)值計算在確定了文檔的特征向量后,需要計算特征向量中的特征項(xiàng)(關(guān)鍵 詞)的權(quán)重。關(guān)鍵詞的權(quán)重表示的是這個關(guān)鍵詞在它所在的文檔中的重要程度。當(dāng)某詞在這篇文檔中出現(xiàn)的頻率越高,而在其他文檔中出現(xiàn)的次數(shù)越少,則表明 該詞對于這篇文檔的區(qū)分能力越強(qiáng),所以其權(quán)重就越大。計算公式為 式(1)中,W(t,d)為關(guān)鍵詞t在文檔d中的權(quán)重,而f(t,d)為詞t在文本d中的 詞頻,nt為訓(xùn)練文本集中出現(xiàn)t的文本數(shù),N為訓(xùn)練文本的總數(shù)。2.基于向量夾角改進(jìn)的K-近鄰算法(KNN)的用戶興趣建模在完成用戶興趣信息采集之后,需要利用這些信息,構(gòu)建用戶興趣判定模型。用戶 興趣建模過程如圖3所示。隨著用戶信息數(shù)據(jù)以及多媒體信息數(shù)據(jù)的不斷增多,為保證興 趣分類效率和準(zhǔn)確度不受影響,本系統(tǒng)提出了改進(jìn)的K-近鄰算法的改進(jìn)方案。用戶興趣判定的基本思想是將已分類的興趣向量構(gòu)成訓(xùn)練集,與未分類的文檔向 量相比較。改進(jìn)的K-近鄰算法的基本思路是考慮在訓(xùn)練文本集中與未分類文本距離最近 (最相似)的K篇文本向量,根據(jù)這K篇文本所屬的興趣類別判定新文本的類別。處理流程 如圖4所示。2. 1基于分類效率的改進(jìn)在訓(xùn)練階段不進(jìn)行任何計算,只是把訓(xùn)練實(shí)例存儲起來,當(dāng)有新的實(shí)例到來時,才 進(jìn)行相應(yīng)的計算。假設(shè)待分類的實(shí)例y (屬性維度為m),訓(xùn)練數(shù)據(jù)庫的的大小為n,計算該實(shí)例與每 個訓(xùn)練實(shí)例的時間復(fù)雜度為0(m*n),對n個計算結(jié)果排序,其時間復(fù)雜度為0(n*log n)(采 用快速排序算法),則總的時間消耗為0(m*n+n*lOg n)。分類的效率取決于數(shù)據(jù)庫的大小 n。改進(jìn)的方法減小n值,即壓縮每個待分類的實(shí)例尋找k個近鄰的搜索范圍,把部 分分類階段的計算轉(zhuǎn)移到訓(xùn)練階段完成,以減少分類每個新實(shí)例的計算量,進(jìn)而提高算法 的效率。下面以屬性維度m = 2為例,給出改進(jìn)后的KNN算法描述,如圖5所示。改進(jìn)后的K-近鄰算法描述訓(xùn)練階段在訓(xùn)練數(shù)據(jù)庫中隨機(jī)選取一個實(shí)例作為基 準(zhǔn)中心實(shí)例0 ;計算訓(xùn)練數(shù)據(jù)庫中其它實(shí)例到中心實(shí)例的距離,并遞增排序;給參數(shù)r賦值(設(shè)為離中心實(shí)例最遠(yuǎn)距離的1/5)。分類階段給定一個要分類的新實(shí)例y (1)計算實(shí)例y到中心0的距離d ;(2)從排序好的實(shí)例中提取距離中心實(shí)例為[d-r,d+r]的所有實(shí)例,然后在這個 范圍內(nèi)找出距離實(shí)例y小于或等于r的全部實(shí)例,遞增排序后選取距離y最近的k個實(shí)例,Xl. . . xk ;(3)返回y的分類標(biāo)記 改進(jìn)后的算法在訓(xùn)練階段增加了排序過程,其時間復(fù)雜度為0(m*n+n*lOg n)。這 個計算過程只需要進(jìn)行一次,可以為以后分類新實(shí)例所共用。在分類階段的第二步,首先要 進(jìn)行查找操作(采用二分查找算法),其時間復(fù)雜度為0(log n)。如圖5所示,假設(shè)圓環(huán)中 含有實(shí)例個數(shù)為叫,計算這叫個實(shí)例到待分類實(shí)例的距離的時間復(fù)雜度為0(m*ni)。假設(shè) 半徑為r的圓內(nèi)有n2個實(shí)例,則對其排序的時間復(fù)雜度為0 (n2*log n2),進(jìn)而第2步總的時 間為0(lOgn+m*ni+n2*lOg n2)。在具體的應(yīng)用環(huán)境下,叫,n2都遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)庫的大小n,改 進(jìn)后的算法在效率上會顯著高于原始KNN算法。2. 2基于分類精度的改進(jìn)假設(shè)每個實(shí)例由20個屬性描述,但這些屬性中僅有2個與分類相關(guān),這樣近鄰間 的距離會被大量不相關(guān)的屬性所支配。我們采用的解決該問題的方法是,當(dāng)計算兩個實(shí)例 間的距離時,根據(jù)每個屬性對分類的貢獻(xiàn)程度,對每個屬性進(jìn)行加權(quán)。經(jīng)過屬性加權(quán)改進(jìn)的 KNN算法,兩個m維向量X,Y的相似度表示為如下 其中Wi為實(shí)例第i個屬性的權(quán)值。假設(shè)已經(jīng)得到了一個屬性權(quán)重集合,并可以應(yīng)用這些權(quán)值到公式(3)中去判斷實(shí) 例間的相似度。尋找一個最優(yōu)的屬性權(quán)重集合,當(dāng)使用這個集合去判斷實(shí)例相似性時,得到 的誤判次數(shù)是最低的。這個最優(yōu)的權(quán)重集合與已有的訓(xùn)練數(shù)據(jù)集和待分類的新實(shí)例都密切 相關(guān)。針對大型的數(shù)據(jù)庫,可以假定訓(xùn)練數(shù)據(jù)集可以完全代表一個待分類的新實(shí)例,因此 就可以僅從訓(xùn)練數(shù)據(jù)集中設(shè)法得到這個最優(yōu)屬性權(quán)重集合,這也正是本系統(tǒng)嘗試的改進(jìn)方 向。2. 3 二次規(guī)劃問題引入二次規(guī)劃問題可以定義如下 約束集Constrain、(i = 1,. . .,m)是以下三種形式中的一種 其中Xj 彡 0(j = 1, ,n)。式⑷中,\,...,1為目標(biāo)函數(shù)中的變量;m是約束的個數(shù)。2. 4求解最優(yōu)屬性權(quán)重集系統(tǒng)將某一多媒體內(nèi)容分類為“感興趣”和“不感興趣”兩個簡單類別,所以求解 最優(yōu)屬性權(quán)重集是分類問題中最簡單的二元分類問題,進(jìn)而將求解KNN算法的屬性權(quán)重集 問題歸類為一個二次規(guī)劃問題。假設(shè)同一屬性類間實(shí)例的相似度為1,不同類別間實(shí)例的相似度為0。在訓(xùn)練過程 中求解屬性權(quán)重集合,并可以利用式(3)去求解相似度。基于上述假設(shè),求解屬性權(quán)重集的問題可以被看作一個最優(yōu)問題,目的是使利用 式(3)計算的相似度與對比屬性類別而得出的真實(shí)相似度的誤差最小。由于二次規(guī)劃問題 中目標(biāo)函數(shù)只有一個,所以相似對的誤差需要累加到目標(biāo)函數(shù)。因?yàn)樽罱K目標(biāo)是求解最小 的個體誤差,所以這里采用誤差的平方累加替代直接的算術(shù)累加。將問題轉(zhuǎn)化為下面的二 次規(guī)劃問題。設(shè)訓(xùn)練數(shù)據(jù)庫中有n個實(shí)例,每個實(shí)例有m個屬性,約束如式(5)所示 其中Suk表示實(shí)例i和j的第k個屬性的相似度;利用式⑶得出的 實(shí)例i與j的相似度;RU是實(shí)例i與j的真實(shí)相似度;和分別表示不同的誤差變量 集合,根據(jù)這兩個集合計算所得的相似度分別小于和大于真實(shí)相似度。根據(jù)上面的定義,目標(biāo)函數(shù)最終目的是最小化每一個和Mu,因此選擇使用
和的累加平方和替代算數(shù)和來表示目標(biāo)函數(shù),這樣做可以有效避免局部和的值過 大。目標(biāo)函數(shù)如式(6)所示 2. 5復(fù)雜性分析和簡化在式(5)和式(6)中,有m個屬性權(quán)重變量和n*(n-l)誤差變量。式(5)中含有 n*(n-l)個約束等式。因此上述的二次規(guī)劃問題共有n*(n-l)+m個變量和n*(n-l)個約束。該二次規(guī)劃問題與訓(xùn)練數(shù)據(jù)庫的大小并不線性相關(guān)。當(dāng)訓(xùn)練數(shù)據(jù)庫極其龐大時, 求解屬性權(quán)重集十分復(fù)雜。針對這個問題,采用與前面提出的改進(jìn)方案相結(jié)合的方法來求 解這個二次規(guī)劃問題。在求解最優(yōu)屬性集過程中,每個實(shí)例要與訓(xùn)練數(shù)據(jù)庫中的其他實(shí)例進(jìn)行比較。如 果可以選擇與訓(xùn)練數(shù)據(jù)庫的一個子集做比較,則可以在很大程度上簡化上述二次規(guī)劃問 題。可以直接利用2. 1的結(jié)果,選擇落入距離實(shí)例點(diǎn)半徑為r的圓內(nèi)的n2個實(shí)例,作為訓(xùn)練數(shù)據(jù)庫的一個代表子集。這樣就得到了含有m個屬性權(quán)重變量,n*n2誤差變量,n*n2個 約束等式的二次規(guī)劃問題。由于n2遠(yuǎn)小于n-1,因而可以極大地簡化求解過程。3.用戶興趣模型動態(tài)更新針對每個用戶建立的興趣模型必須具有自學(xué)習(xí)能力。一方面用戶可以主動輸入或 者修改其興趣關(guān)鍵字和興趣描述;另一方面可以通過用戶反饋學(xué)習(xí)調(diào)整興趣模型,使模型 不斷地預(yù)測用戶的真實(shí)興趣。反饋調(diào)整可以通過兩種方式進(jìn)行,即顯性的用戶在客戶端界面上修改興趣的方式 及隱性的用戶通過分析用戶瀏覽行為來調(diào)整興趣的方式。用戶對相關(guān)多媒體的瀏覽即是對 系統(tǒng)的一種隱性反饋,對反饋結(jié)果進(jìn)行分析可以使推送的內(nèi)容更加符合用戶的需求。用戶 興趣模型更新過程如圖6所示。在顯性反饋時,提供給用戶量化后的反饋選項(xiàng),將用戶對推送多媒體的評價分為 五個等級很滿意(+2)、滿意(+1)、一般(0)、不滿意(-1)、很不滿意(_2),用評價值f表示。 隱性反饋時,由用戶的行為決定反饋更新,不同行為具有不同的意義,如表1所示。表1用戶行為的意義 設(shè)a(0_l之間的實(shí)數(shù))為學(xué)習(xí)速度,則反饋學(xué)習(xí)中用戶興趣調(diào)整公式為Q = Q+a*f*P(7)其中Q為用戶興趣矢量,P為用戶評價的矢量表示。根據(jù)用戶的顯性和隱形反饋信息,對相應(yīng)用戶興趣進(jìn)行調(diào)整,能夠更精確地描述 用戶的興趣和需求。4.基于多智能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng)采用智能Agent技術(shù),通過不斷自主學(xué)習(xí),發(fā)現(xiàn)和判定用戶的興趣,并將工作流程 中的各個階段封裝成相對獨(dú)立的代理Agent,彼此相互協(xié)作,共同完成提供旅游多媒體信息 個性化服務(wù)的任務(wù)。在實(shí)現(xiàn)過程中,著重解決了以下問題收集整合多媒體信息資源和用戶 信息;采用精度相對可觀的算法建立用戶興趣模型,并實(shí)現(xiàn)用戶興趣與多媒體文檔的有效 匹配;能夠?yàn)橛脩魷?zhǔn)確、及時搜索和推薦與旅游主題相關(guān)的多媒體信息。4.1總體結(jié)構(gòu)基于多智能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng)如圖7所示。在邏輯上劃分為三層信息交互層、信息過濾層和信息搜索層。信息交互層主要是為人機(jī)交互提供一個通信接口。它的主要功能包括用戶注冊、 系統(tǒng)登陸、查看所推送給用戶的多媒體信息以及提供反饋相關(guān)信息。系統(tǒng)還可以通過該層 采集用戶興趣建模的數(shù)據(jù)信息。信息過濾層主要是對信息搜索層的返回結(jié)果進(jìn)行過濾,去除其中和用戶興趣無關(guān) 或相關(guān)度低的信息;并通過從信息交互層反饋過來的信息不斷調(diào)整用戶興趣模型,進(jìn)而有 根據(jù)地調(diào)整給用戶所推送的信息,實(shí)現(xiàn)個性化的智能信息服務(wù)。信息搜索層在本地多媒體資源庫或者互聯(lián)網(wǎng)資源中查找用戶可能感興趣的相關(guān) 信息,得到一系列結(jié)果文檔集合返回給信息過濾層。按照系統(tǒng)的功能層次劃分,分別由不同的Agent模塊相互協(xié)作實(shí)現(xiàn)系統(tǒng)功能。 系統(tǒng)主要包括用戶接口 Agent、過濾排序Agent、興趣學(xué)習(xí)Agent、監(jiān)控Agent和信息檢索 Agent五個相對獨(dú)立的功能模塊。興趣學(xué)習(xí)Agent和用戶進(jìn)行交互,信息檢索Agent、過濾 排序Agent對搜索返回結(jié)果進(jìn)行處理。用戶接口 Agent是實(shí)現(xiàn)用戶與系統(tǒng)進(jìn)行交互的通訊接口,它能及時將用戶所需的 信息發(fā)送給用戶。過濾排序Agent根據(jù)不同用戶的個人興趣描述,對信息檢索層檢索返回 的結(jié)果文檔進(jìn)行分析加工,過濾掉與用戶興趣相關(guān)度較低的文檔。興趣學(xué)習(xí)Agent根據(jù)用 戶的行為和反饋信息,進(jìn)行用戶興趣的知識學(xué)習(xí),為不同的用戶生成不同的用戶興趣描述 文件。監(jiān)控Agent用于記錄用戶的活動,并實(shí)時做出反應(yīng),主動把用戶檢索請求發(fā)送給信息 交互平臺,信息檢索Agent響應(yīng)并進(jìn)行處理。信息檢索Agent將用戶請求信息經(jīng)分析后提 交關(guān)鍵詞給搜索引擎進(jìn)行處理,并將搜索引擎返回的文檔內(nèi)容交給過濾排序Agent進(jìn)行二 次處理。用戶興趣庫存儲不同用戶的興趣信息。本地信息庫用于存儲用戶的相關(guān)信息,包 括用戶行為信息、本地信息資源等。4. 2工作流程對于新用戶,我們設(shè)計了一個初始簡單定義的用戶興趣模板。用戶第一次注冊后, 系統(tǒng)會為其建立一個初始用戶興趣模型。當(dāng)用戶成為正式用戶后,可以根據(jù)其行為信息對 其興趣內(nèi)容進(jìn)行修正和調(diào)整。針對每一個在線用戶,會分別產(chǎn)生對應(yīng)于該用戶的一個用戶 接口 Agent、過濾排序Agent、興趣學(xué)習(xí)Agent、監(jiān)控Agent和信息檢索Agent。系統(tǒng)各Agent 模塊的工作流程如下(1)若用戶在興趣注冊頁面對興趣信息進(jìn)行主動修改,監(jiān)控Agent通知信息檢索 Agent進(jìn)行相關(guān)的信息搜索,轉(zhuǎn)(3)。(2)用戶接口 Agent接受用戶的信息拉取請求,或者定期從用戶興趣庫中提取用 戶興趣偏好,并進(jìn)一步將需求信息整理,轉(zhuǎn)(3)。(3)信息檢索Agent接收到請求信息后,將查詢請求處理為符合搜索引擎語法要 求的格式,并對本地資源或者提交給各搜索引擎對網(wǎng)絡(luò)資源進(jìn)行檢索,把返回結(jié)果發(fā)送給 過濾排序Agent。(4)過濾排序Agent結(jié)合用戶興趣模型對檢索結(jié)果進(jìn)行興趣相關(guān)度計算并排序, 將滿足一定興趣閥值的結(jié)果推送給用戶。(5)用戶接口 Agent進(jìn)一步把待推送的信息輸出給用戶,同時收集用戶的反饋意 見,并將用戶的反饋結(jié)果傳送給興趣學(xué)習(xí)Agent。
(6)興趣學(xué)習(xí)Agent根據(jù)用戶反饋和瀏覽行為更新調(diào)整用戶興趣模型?;谝陨系墓ぷ髁鞒桃约案鰽gent功能模塊,系統(tǒng)能夠根據(jù)用戶的興趣有針對性 地篩選和過濾出用戶感興趣的信息推薦給用戶。4. 3主要功能模塊4. 3. 1 用戶接口 Agent用戶接口 Agent提供用戶注冊、登錄、查看系統(tǒng)推送信息、提交信息搜索請求以及 進(jìn)行用戶反饋等功能,是實(shí)現(xiàn)用戶與系統(tǒng)之間進(jìn)行交互的平臺。用戶接口 Agent在用戶登 陸后被激活,負(fù)責(zé)傳遞由信息過濾層過濾后的信息給系統(tǒng)用戶。用戶接口 Agent還負(fù)責(zé)收 集用戶的反饋意見,并將其傳送到興趣學(xué)習(xí)Agent,以便更新調(diào)整用戶興趣模型。4. 3. 2 過濾排序 Agent過濾排序Agent是信息源和用戶之間的中介,在信息源和用戶都不掌握對方的需 求知識的情況下,通過興趣分類算法和用戶興趣模型對搜索引擎返回的結(jié)果進(jìn)行過濾。由 于傳統(tǒng)的搜索引擎單一地按照搜索關(guān)鍵詞進(jìn)行查詢,這樣勢必會帶來大量的冗余信息。我 們將搜索返回結(jié)果結(jié)合用戶興趣庫中特定用戶的興趣進(jìn)行過濾和排序后,再返回給用戶。 過濾Agent的工作流程圖如圖8所示。過濾排序Agent把信息檢索Agent返回的結(jié)果進(jìn)行預(yù)處理,提取文檔特征向量;然 后從用戶興趣庫中提取該用戶的興趣向量集合,依據(jù)用戶興趣建模的分類算法,對結(jié)果向 量進(jìn)行興趣分類判定和興趣相關(guān)度計算;最后根據(jù)分類結(jié)果進(jìn)行過濾和排序,將滿足一定 閥值的結(jié)果推送給用戶。系統(tǒng)將興趣判定問題轉(zhuǎn)化為文檔向量分類問題,并采用向量空間模型(VSM)表示 多媒體信息文檔。系統(tǒng)采用了一種基于向量夾角的改進(jìn)的K-近鄰算法分類方法。4. 3. 3 興趣學(xué)習(xí) Agent興趣學(xué)習(xí)Agent可以從兩個方面獲取用戶興趣信息一方面通過用戶注冊信息和 用戶對收看的信息內(nèi)容的反饋評價;另一方面通過記錄用戶的行為(如收藏、瀏覽、下載、 刪除以及對相關(guān)主題的瀏覽次數(shù)等)獲取有用信息。系統(tǒng)中用戶興趣模型的建立分為兩個 階段首先是根據(jù)用戶提供的初始注冊信息建立體現(xiàn)用戶興趣的特征向量;然后利用興趣 學(xué)習(xí)Agent的學(xué)習(xí)功能,分析用戶的反饋信息和行為偏好,進(jìn)而對用戶的興趣模型進(jìn)行修 改,對用戶特征向量中的不同特征詞進(jìn)行權(quán)重調(diào)整。若興趣關(guān)鍵詞的權(quán)值越高,則表示用戶 對該特征詞所代表的信息越感興趣。這樣系統(tǒng)就能夠在一定程度上反饋出用戶的個性化需 求。4. 3. 4 監(jiān)控 Agent監(jiān)控Agent用于記錄用戶行為動作。用戶登陸系統(tǒng)后,監(jiān)控Agent則被激活,并適 時記錄下用戶的所有活動。系統(tǒng)將這些行為信息進(jìn)行量化表示,并存儲于本地信息庫,用于 調(diào)整用戶興趣模型。監(jiān)控Agent還負(fù)責(zé)對本系統(tǒng)為用戶提供的個人興趣站點(diǎn)進(jìn)行動態(tài)監(jiān) 控。若發(fā)現(xiàn)該站點(diǎn)用戶個人興趣發(fā)生改變,則通知信息檢索Agent去提取信息,然后交由過 濾排序Agent處理后主動推送給用戶。4. 3. 5 信息檢索 Agent信息檢索Agent接受其他Agent模塊的搜索請求,然后對請求信息進(jìn)行預(yù)處理分 析后,提交給搜索引擎執(zhí)行搜索操作,并將搜索引擎返回的結(jié)果文檔提交給過濾排序Agent
10進(jìn)行二次處理。信息檢索Agent完成的主要工作如下對信息檢索關(guān)鍵字進(jìn)行預(yù)處理,采用 分詞技術(shù)對搜索請求進(jìn)行詞語切分,提取搜索關(guān)鍵字;為確保正常使用搜索功能,與系統(tǒng)制 定搜索引擎進(jìn)行交互和協(xié)調(diào)。通用搜索引擎由搜索器、索引器和用戶接口等幾部分組成。信息檢索Agent需要 克服不同搜索引擎之間的用戶接口、查詢技術(shù)和搜索結(jié)果表示方法的差異,獲取多個搜索 引擎的返回結(jié)果。信息檢索Agent的功能結(jié)構(gòu)如圖9所示。關(guān)鍵字提取模塊使用現(xiàn)有分詞技術(shù)處理檢索請求,提取檢索關(guān)鍵詞。檢索格式轉(zhuǎn)換模塊結(jié)合搜索引擎格式庫中的不同搜索引擎檢索格式具體要求, 把檢索關(guān)鍵詞轉(zhuǎn)換為搜索引擎能夠處理的檢索格式。搜索引擎調(diào)用模塊協(xié)調(diào)調(diào)用系統(tǒng)默認(rèn)或者用戶指定的搜索引擎,采用多線程并 發(fā)執(zhí)行的模式,使它們能夠同時處理檢索請求,并提取返回結(jié)果。結(jié)果預(yù)處理模塊由于不同搜索引擎返回結(jié)果的格式不同,因此結(jié)果預(yù)處理模塊 需要對返回結(jié)果進(jìn)行統(tǒng)一化處理。該模塊還負(fù)責(zé)刪除返回結(jié)果中的重復(fù)信息和無效鏈接。
權(quán)利要求
基于多智能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng),其特征在于,該方法包括用戶興趣信息抽取和預(yù)處理;基于向量夾角的K 近鄰算法的用戶興趣建模;用戶興趣模型動態(tài)更新;基于多智能Agent的旅游多媒體信息個性化服務(wù)系統(tǒng)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過抽取用戶興趣信息并進(jìn)行預(yù)加工處 理,從而獲取用戶興趣特征向量集,以及多媒體信息處理后產(chǎn)生的用于描述多媒體內(nèi)容的 特征向量集,可作為興趣模型建立和更新的基礎(chǔ)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在完成用戶興趣信息采集之后,利用采集 的信息,采用基于向量夾角的改進(jìn)的K-近鄰算法來自動構(gòu)建用戶興趣模型。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,為了反映用戶的實(shí)時個性化需求,實(shí)現(xiàn)針 對每個用戶建立的興趣模型必須具有自學(xué)習(xí)能力。用戶可以主動輸入或者修改其興趣關(guān)鍵 字和興趣描述,還可以通過用戶反饋學(xué)習(xí)調(diào)整興趣模型,使模型不斷地預(yù)測用戶的真實(shí)興 趣。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,針對系統(tǒng)工作流程的每一階段,劃分功能 相對獨(dú)立的模塊,再將各模塊包裝成Agent代理,形成多代理框架。在此框架下各代理分工 協(xié)作,從而實(shí)現(xiàn)多媒體信息服務(wù)的智能化與個性化等特點(diǎn)。系統(tǒng)包括用戶接口 Agent、過濾 排序Agent、興趣學(xué)習(xí)Agent、監(jiān)控Agent和信息檢索Agent五個功能模塊。本發(fā)明所述的 旅游多媒體個性化信息服務(wù)的智能化除了體現(xiàn)在可以定期為用戶主動推薦有價值的多媒 體信息外,系統(tǒng)還可以在用戶收看或者搜索多媒體信息的同時,結(jié)合用戶興趣庫中的用戶 興趣知識,為用戶提供智能化的個性化信息服務(wù)。
全文摘要
本發(fā)明提出并建立基于多智能Agent框架結(jié)構(gòu)的旅游多媒體信息個性化服務(wù)系統(tǒng)。本系統(tǒng)采用智能Agent技術(shù),通過不斷自主學(xué)習(xí),發(fā)現(xiàn)和挖掘用戶的興趣,采用基于向量夾角的K-近鄰算法實(shí)現(xiàn)自動用戶興趣建模。針對系統(tǒng)工作流程的每一階段,劃分功能相對獨(dú)立的模塊,再將各模塊包裝成Agent代理,形成多代理框架,在此框架下,各代理分工協(xié)作,從而實(shí)現(xiàn)多媒體信息服務(wù)的智能化與個性化等特點(diǎn)。系統(tǒng)主要包括用戶接口Agent、過濾排序Agent、興趣學(xué)習(xí)Agent、監(jiān)控Agent和信息檢索Agent五個功能模塊。該發(fā)明提出的方法對于建立高質(zhì)量智能化的旅游信息服務(wù)具有很高的理論意義和應(yīng)用價值。
文檔編號G06F17/30GK101894351SQ201010248470
公開日2010年11月24日 申請日期2010年8月9日 優(yōu)先權(quán)日2010年8月9日
發(fā)明者杜軍平, 梁美玉, 王肅 申請人:北京郵電大學(xué)