專利名稱::基于用戶興趣的個性化元搜索引擎及搜索結果處理方法
技術領域:
:本發(fā)明屬于互聯(lián)網信息處理
技術領域:
,涉及搜索引擎、Web數(shù)據挖掘和知識發(fā)現(xiàn)技術,特別是涉及基于用戶興趣的個性化元搜索系統(tǒng)及方法,用于互聯(lián)網的搜索引擎。
背景技術:
:搜索引擎的出現(xiàn),大大提高了人們對互聯(lián)網信息檢索的能力和效率,己經成為互聯(lián)網的基礎應用之一。據中國互聯(lián)網絡信息中心在2008年中期的統(tǒng)計,中國網民搜索引擎的使用率為69.2%,并處在高速增長之中,而在互聯(lián)網高度普及的美國,網民對搜索引擎的使用率己達91%??梢姡暇W用戶對搜索引擎己經產生了強烈的依賴。目前,搜索引擎領域主要有以下幾種技術(1)傳統(tǒng)搜索引擎這種搜索引擎目前應用最廣泛且用戶數(shù)量最多,主要代表有谷哥欠(www.google.com)、百度(www.baidu.com)、雅虎(cn.yahoo.com)等。這種搜索引擎雖然給人們帶來了便利,但是它們卻存在著本身無法克服的缺陷。根據專業(yè)評測,目前主流搜索引擎的網絡資源覆蓋面加在一起只占整個網絡的約42%,返回的結果相關度不足45%,而且由于對網頁的索引和排序機制互不相同,導致同樣一個搜索請求在不同搜索引擎中的查詢結果的重復率不足34%。因此,單個這樣的搜索引擎是無法滿足用戶搜索需求的,要想獲得一個比較全面、準確的搜索結果,用戶就必須反復調用多個搜索引擎,這大大降低了用戶的檢索效率,提高了信息檢索的難度。(2)元搜索引擎(Meta-SearchEngine):元搜索引擎的出現(xiàn),在一定程度上彌補了傳統(tǒng)搜索引擎的不足,其主要代表有國外的MetaCrawler(www.metacrawler.com)、Dogpile(www.dogpile.com)禾口國內的比比貓(www.bbmao.com)等。元搜索是一禾中將用戶檢索請求同時發(fā)送給多個獨立搜索引擎,并將它們的搜索結果匯集在一起返回給用戶的搜索技術。它的優(yōu)點是綜合了多個獨立搜索引擎的搜索結果,從而提高了搜索結果在整個網絡資源上的覆蓋率,省去了用戶自己逐個調用不同搜索引擎進行査詢的麻煩。但是,目前己投入實用的元搜索引擎的搜索結果排序方式僅僅是以各獨立搜索引擎返回結果的排序或某種統(tǒng)一的排序原則為依據的,所以對與不同用戶的搜索請求不能做到根據用戶的興趣喜好和搜索意圖返回與之相適應的排序結果,即搜索的準確度并未得到有效提高。因此,在信息量巨大的互聯(lián)網世界里用戶想要找到自己需要的信息的難易程度并未得到有效改善。(3)個性化搜索引擎(PersonalizedSearchEngine):為了滿足用戶的個性化搜索需求,彌補傳統(tǒng)搜索引擎和元搜索引擎的不足,給用戶提供更為精準的搜索服務,人們提出了個性化搜索引擎的思想,這種搜索引擎目前還處于技術研究和初步應用階段。在這方面的研究中,具有代表性的方法一個是通過用戶對搜索結果進行打分來調節(jié)搜索結果的排列次序,一個是將用戶的搜索歷史存放在用戶計算機的cookie文件中,作為以后用戶進行搜索的參考來影響搜索結果的次序。但是這些方法仍存在缺陷。對于依靠用戶打分來說,大量用戶對搜索結果的評價并不能準確刻劃某個特定用戶的興趣喜好,無法實現(xiàn)針對每個用戶的個性化服務;對于在用戶計算機上記錄用戶搜索歷史來說,這種方法實際上只是記錄了這臺計算機上進行過的搜索歷史,如果使用該計算機的用戶更換或者用戶在別的計算機上進行搜索,則這種個性化搜索的作用就失效了。從上面介紹的目前存在的三種搜索引擎技術來看,個性化搜索技術無疑是搜索引擎進一步發(fā)展的方向,但這個領域的技術研究還遠未達到成熟階段,需要有更加有效和實用的個性化搜索技術來改善用戶的搜索體驗。
發(fā)明內容本發(fā)明的目的在于避免上述己有搜索引擎的缺陷,提供一種基于用戶興趣的個性化元搜索引擎及其搜索結果處理方法,以準確確定用戶興趣和搜索意圖,在服務器上長期保存和及時更新用戶興趣,并利用用戶興趣和搜索意圖對元搜索的搜索結果進行個性化排序,提高搜索結果的覆蓋度和搜索的準確度。本發(fā)明的目的是這樣實現(xiàn)的本發(fā)明的搜索系統(tǒng)主要由用戶注冊/登錄單元、元搜索結果收集單元和個性化處理單元組成,其中個性化處理單元,包括搜索結果預處理模塊,用于接收元搜索結果收集單元送入的搜索結果原始數(shù)據,進行基于網址和基于摘要內容的去除重復處理,并將處理后的搜索結果送入個性化排序處理模塊;個性化排序處理模塊,用于接收搜索結果預處理模塊送入的搜索結果數(shù)據,并進行基于用戶興趣和搜索意圖的個性化排序處理,將排序后的搜索結果提交給用戶;用戶興趣更新模塊,用于捕獲用戶對搜索結果的點擊行為,對用戶點擊過的搜索結果進行興趣分析,并對用戶興趣數(shù)據庫中存儲的用戶興趣模型數(shù)據進行更新;用戶興趣數(shù)據庫,用于存儲網站注冊用戶的興趣模型數(shù)據,并將這些數(shù)據提供給個性化排序處理模塊進行個性化排序。所述的用戶興趣模型數(shù)據用/(0={(^"7),(^,2),...,(^50}表示,其中(C,)是用戶的一個興趣分量,c,為興趣類別,w,為c,對應的歸一化權值,該用戶興趣模型數(shù)據是用于定量描述用戶興趣喜好及其喜好程度的數(shù)據集。本發(fā)明的引擎搜索結果處理方法,包括-步驟l.建立并初始化用戶興趣模型,保存在服務器的用戶興趣數(shù)據庫中;步驟2.將用戶輸入的搜索詞語,按各獨立搜索引擎要求的格式分發(fā)出去,并收集它們返回的結果,將收集的返回結果轉換成統(tǒng)一的格式。步驟3.將轉換成統(tǒng)一格式的搜索結果進行去除重復處理;步驟4.根據用戶興趣模型和本次搜索詞語對去除重復處理后的搜索結果進行個性化排序,并將該排序結果提交給用戶;步驟5.捕獲用戶點擊的搜索結果,對其進行興趣分析,改變興趣種類和權值大小,并根據改變的結果更新用戶興趣數(shù)據庫中用戶的興趣模型數(shù)據。上述引擎結果處理方法,其中步驟l所述的建立用戶興趣模型,包括兩種方式一是用戶直接通過主動選擇網站提供的興趣類別并設置權值大小,建立該用戶的初始興趣模型;二是搜索引擎系統(tǒng)通過興趣更新模塊對用戶搜索行為的興趣分析,自動建立用戶興趣模型。上述引擎結果處理方法,其中步驟3所述的將轉換成統(tǒng)一格式的搜索結果進行去除重復處理,是先將統(tǒng)一格式的搜索結果按照網址是否相同進行過濾,只保留網址不同的搜索結果;再將各條搜索結果的摘要內容與其它搜索結果的摘要內容進行文本比較,濾除摘要內容相似的搜索結果。上述引擎結果處理方法,其中步驟4所述的根據用戶興趣模型和本次搜索詞語對去除重復處理后的搜索結果的個性化排序方法,按如下步驟進行1)分別計算搜索詞語與用戶興趣的相關度向量和搜索結果與用戶興趣的相關度2)根據步驟1)得到的相關度向量,計算搜索結果與用戶搜索詞語的相關度向3)計算搜索結果在各獨立搜索引擎上的排名得分向量;4)將步驟2)和3)得到的數(shù)值進行加權綜合,得到每條搜索結果基于用戶興趣的權值,并按權值大小排序,得到個性化排序結果。上述引擎結果處理方法,其中步驟5所述的更新用戶興趣數(shù)據庫中用戶的興趣模型數(shù)據,按如下步驟進行a)捕獲用戶在客戶端點擊的搜索結果,并傳回服務器端;b)對該搜索結果的標題和摘要進行分詞處理,得到該搜索結果的關鍵詞集;,C)依據關鍵詞集進行興趣分析,得到該用戶最新的興趣類別及相應的權值大小;d)根據最新的興趣類別及相應的權值大小對用戶興趣數(shù)據庫中的用戶興趣模型數(shù)據進行更新。本發(fā)明與
背景技術:
相比具有的優(yōu)勢在于本發(fā)明是一種個性化元搜索引擎技術,適用于建立互聯(lián)網上的個性化元搜索引擎;本發(fā)明通過元搜索技術同時抓取多個獨立搜索引擎的搜索結果,提高了搜索結果的覆蓋度,克服了單個獨立搜索引擎搜索結果覆蓋度低的問題;本發(fā)明通過為每個用戶建立各自的用戶興趣模型,并將其長期保存在服務器數(shù)據庫中,而且隨著用戶的搜索過程對用戶興趣數(shù)據不斷更新,使得用戶不論身處何時何地,本發(fā)明的搜索系統(tǒng)均能準確定位用戶興趣,為其提供個性化搜索服務,不僅克服了一般元搜索引擎不能提供個性化服務的缺點,而且克服了現(xiàn)有個性化搜索技術不能長期保存用戶興趣和不能精準定位個人興趣的缺點;本發(fā)明通過獨創(chuàng)的引擎搜索結果處理機制將多個獨立搜索引擎的搜索結果進行去除重復處理,并計算每條搜索結果的個性化權值PersonalRank,為用戶提供最適合其搜索意圖和興趣喜好的搜索結果排列方式,使得搜索結果的準確度得到顯著提高,用戶的搜索需求得到最大程度的滿足,用戶通過本發(fā)明的搜索系統(tǒng)找到自己需要的搜索結果的難度大大降低。圖1是本發(fā)明搜索引擎系統(tǒng)結構框圖2是本發(fā)明搜索結果處理流程圖3是本發(fā)明用戶興趣模型示例圖4是本發(fā)明去除重復搜索結果流程圖5是本發(fā)明基于用戶興趣的個性化排序流程圖6是本發(fā)明用戶興趣更新流程圖。具體實施例方式參照圖l,本發(fā)明的搜索引擎系統(tǒng)主要由用戶注冊/登錄單元,元搜索結果收集單元,個性化處理單元,服務器輸入輸出接口和外部獨立搜索引擎資源組成,其中所述的用戶注冊/登錄單元,由注冊模塊和登錄模塊組成。注冊模塊負責接收新用戶通過服務器輸入輸出接口發(fā)來的注冊請求,通過收集和向數(shù)據庫中保存必要的用戶信息,使其成為網站注冊用戶;登錄模塊負責利用存儲的用戶信息驗證請求登錄的用戶的合法性,使合法用戶登錄進網站中進行搜索活動。所述的元搜索結果收集單元,由搜索引擎代理管理模塊和用戶個人配置數(shù)據庫組成。用戶個人配置數(shù)據庫負責存儲用戶的搜索配置數(shù)據,如選擇的獨立搜索引擎種類、每個獨立搜索引擎抓取的搜索結果數(shù)量和搜索結果的顯示效果;搜索引擎代理管理模塊負責在用戶通過服務器輸入輸出接口向網站發(fā)出搜索請求時,根據用戶個人配置數(shù)據庫中存儲的用戶配置信息,為用戶選擇相應的獨立搜索引擎,按照各個獨立搜索引擎的搜索格式向外部獨立搜索引擎資源發(fā)出搜索請求,并收集它們返回的搜索結果,把它們轉換成統(tǒng)一的格式。所述的個性化處理單元,由搜索結果預處理模塊、個性化排序處理模塊、用戶興趣更新模塊和用戶興趣數(shù)據庫組成。該搜索結果預處理模塊,用于接收元搜索結果收集單元送入的搜索結果原始數(shù)據,進行基于網址和基于摘要內容的去除重復處理,其中網址去重和摘要去重依次進行首先將統(tǒng)一格式的搜索結果按照網址是否相同進行過濾,只保留網址不同的搜索結果,再將網址去重后的各條搜索結果的摘要內容與其它搜索結果的摘要內容進行文本比較,濾除摘要內容相似的搜索結果,最后將處理后的搜索結果送入個性化排序處理模塊;該個性化排序處理模塊,用于接收搜索結果預處理模塊送入的搜索結果數(shù)據,并進行基于用戶興趣和搜索意圖的個性化排序處理,在處理過程中,綜合考慮搜索詞語與搜索結果基于用戶興趣模型的相關度以及搜索結果在獨立搜索引擎的排名得分,計算出個性化權值PersonalRank,并以此為依據進行排序,將排序后的搜索結果通過服務器輸入輸出接口提交給用戶界面;該用戶興趣更新模塊,用于捕獲用戶對搜索結果的點擊行為,對用戶點擊過的搜索結果進行興趣分析,并對用戶興趣數(shù)據庫中存儲的用戶興趣模型數(shù)據進行更新,其中捕獲用戶對搜索結果的點擊行為是通過在搜索結果顯示頁面上設置特定代碼實現(xiàn),并由服務器輸入輸出接口傳回服務器進行興趣分析,從而更新用戶興趣數(shù)據庫中的用戶興趣模型數(shù)據;該用戶興趣數(shù)據庫,用于存儲網站注冊用戶的興趣模型數(shù)據,這些數(shù)據是個性化排序處理模塊進行個性化排序的依據,并由興趣更新模塊進行更新。、所述的服務器輸入輸出接口,是網站服務器用于服務器端與用戶端進行數(shù)據交互的接口,將需要經過接口交互的數(shù)據送到相應的模塊中。所述的外部獨立搜索引擎資源是互聯(lián)網中各種提供搜索服務的獨立搜索引擎,是本發(fā)明的搜索系統(tǒng)獲取搜索結果數(shù)據的來源,由搜索結果收集單元通過發(fā)出搜索命令與外部獨立搜索弓I擎資源Ei進行連接。參照圖2,本發(fā)明的對搜索引擎結果的處理步驟如下步驟一,建立并初始化用戶興趣模型數(shù)據,保存在服務器的用戶興趣數(shù)據庫中。參照圖3,本發(fā)明中的用戶興趣模型是用戶興趣類別及其權值的數(shù)據記錄集,其中包含若干個興趣類別分量,用/(0={(^^),(0"2),...,(^,>0}表示。其中(c)是用戶的一個興趣分量,c,為一個興趣類別,w,為對應的歸一化權值,即所有w,之和為1,w,越大說明興趣類別c,在該用戶興趣中的比重越大,也就是該用戶在興趣類別c,方面的喜好程度越大。對于用戶興趣模型的建立,包括兩種方式一是用戶直接通過主動選擇網站提供的興趣類別并設置權值大小,建立該用戶的用戶興趣模型數(shù)據;二是搜索引擎系統(tǒng)通過興趣更新模塊對用戶搜索行為的興趣分析,為用戶自動建立用戶興趣模型數(shù)據。將按照以上方式建立的用戶興趣模型數(shù)據保存入服務器的用戶興趣數(shù)據庫中,作為后續(xù)對搜索結果進行個性化排序的依據。步驟二,將用戶輸入的搜索詞語,按各獨立搜索引擎要求的格式分發(fā)出去。對于用戶輸入的搜索詞語,首先由搜索引擎代理管理模塊從用戶個人配置數(shù)據庫中取出該用戶選定的獨立搜索引擎種類,以及需要抓取的搜索結果數(shù)目這些必要的配置數(shù)據;然后按照各個獨立搜索引擎的鏈接格式,將用戶配置數(shù)據組合成相應的搜索鏈接;最后將這些組合好的搜索鏈接通過網絡命令向獨立搜索引擎資源分發(fā)出去。步驟三,收集各獨立搜索引擎返回的結果,將收集的返回結果轉換成統(tǒng)一的格式。搜索引擎代理管理模塊接收到相應獨立搜索引擎返回的搜索結果數(shù)據流,對這些數(shù)據流進行格式分析,分割出這些數(shù)據流中搜索結果的網址、標題、內容摘要以及在相應搜索結果中的原始排名名次信息,并將每組這樣的信息作為本搜索引擎系統(tǒng)的一條統(tǒng)一格式的搜索結果數(shù)據。步驟四,在搜索結果預處理模塊中將轉換成統(tǒng)一格式的搜索結果進行去除重復處理。首先,進行基于網址的搜索結果去除重復處理。將統(tǒng)一格式的搜索結果按照網址是否相同進行過濾,只保留網址不同的搜索結果。在處理過程中,對于網址相同的搜索結果,優(yōu)先保留在獨立搜索引擎原始排名中名次靠前的那條搜索結果,將相對靠后的其它重復搜索結果刪除。然后,將各條搜索結果的摘要內容與其它搜索結果的摘要內容進行文本比較,濾除摘要內容相似的搜索結果,具體步驟如圖4所示(4.1)設置有關參數(shù)將用戶搜索詞語S由元搜索結果收集單元得到的獨立搜索引擎返回的搜索結果集設為i^)={o,;(l),。,2(2),...,(n),...},其中i。(力.幼w表示查詢結果總數(shù),(n)表示第/個獨立搜索引擎的第w條搜索結果且在整個集合中排在第乂位,/",.幼m廳7表示該條的摘要,r,/n)./ewg^為摘要的長度,^(n)^^為去重標志位;將經過去除重復處理后的搜索結果集設為=化;0C7力,...),。(r2j;2,...),...,Ocj;,...)},其中^0^,,...)表示7(力中的第/條搜索結果,且在包含該結果的獨立搜索引擎上的排名分別為1,,凡...;(4.2)將尺oCs)中所有(nX/7《《置為0,表示相應的(n)未進行過去除重復處理;(4.3)從第一條搜索結果(1)開始,對于fo(n)和A)乂m),其中A:<"若r^m)^ag=1,表示已進行過去除重復處理,或w(n)./e"-;;和A)乂m)./e"g^相差大于50。/。,表示兩者摘要長度相差太大,不做處理,否則,從/"a(n).仰mma7的前中后部分別截取長為0.6X"。,"n)./e"g^的三個子串與。乂m).做w/wtW7進行比較,若。-,f(m).仰/w/Kw7包含子串,則認為兩者摘要相似,將兩者合并為ra(",m),并置。,f(mX/7ag=l,若不包含,則不做處理;若K,.扁,令,=什1,轉向下一條結果,重做步驟(4.3);若,=/0(.幼附,說明/V,"n)與其后的所有結果均己比較完畢,則將m,…)歸入i(力中,并令/=,+l,若…io(4扁,轉向步驟(4.4),否則重做步驟(4.3);(4.4)當/=7^).幼附時,說明&^中除最后一項/V卿,0)的所有條目均己進行過去除重復處理,若r^。w(yX/tog:l,說明與前面的條目重復,不計入700中,否則將它歸入i0O中;(4.5)iCs)已包含所有去除重復處理后的搜索結果,由搜索結果預處理模塊將這些搜索結果傳給個性化排序模塊進行后續(xù)處理。用基于摘要內容的搜索結果去除重復方法對搜索結果進行處理的必要性在于對于經過基于網址的去除重復處理后的搜索結果,雖然它們的網址不同,但有些頁面上的實際內容還是有可能很相似甚至完全相同,對于用戶而言也屬于重復結果,應該予以濾除。因此,經過網址去除重復處理之后,還要對搜索結果進行內容去除重復處理。而且利用元搜索技術可以得到搜索結果網頁的標題的摘要,其中對于標題而言,相似與否并不能說明其內容是否相似,例如標題為"山西省人民政府網站"和"陜西省人民政府網站"的兩個網頁,它們的內容其實完全不同,而網頁摘要雖然簡短,但它是頁面中與用戶查詢最相關的一部分信息,這些信息可以很好的反應網頁的內容。而且往往是用戶搜索到的許多網頁雖然它們來源不同標題不同,但它們的內容很相似甚至完全相同,都是對一些已有信息的簡單復制,這些網頁對用戶來說沒有更多價值,在用戶查找有用信息時還會造成干擾。所以通過分析網頁摘要內容來判斷內容相似度從而進行去除重復處理是一個提高用戶搜索體驗的必要過程。步驟五,根據用戶興趣模型和本次搜索詞語對去除重復處理后的搜索結果進行個性化排序,并將該排序結果提交給用戶,具體步驟如圖5所示(5.1)設置有關參數(shù)將某用戶的搜索詞語S經過分詞處理后得到的關鍵詞集設為g={fe^^fe^,...,^^},其中fe乂表示第/個關鍵詞,共有A個,且它們在查詢語句中相對應的歸一化重要度向量為義(0=(^,化...,^),其中各分量之和為1;用戶興趣數(shù)據庫的特征詞基礎數(shù)據表是各種特征詞與興趣類別的對應關系表,將《(C,)設為屬于興趣類別C,的特征詞集合;在特征詞基礎數(shù)據表中逐一查找Q中的關鍵詞,得到分別所屬的興趣類別,再與用戶的/(C)對照,將用戶本次查詢的興趣類別集合設為/(0={(c,,w,),(c2,W2),...,(cm,vvm)}G/(C);(5.2)對于/(0中的每個興趣類別c,,分別計算2中各個關鍵詞權重向量11『e(c')Kw,w2,…,v^》其中^:jo,gA:(c);若『e(^)中存在^不為零,則對Jff2j和『eW進行基于向量空間模型的相關度計算,得到搜索詞語Q與興趣類別c,的相關度《>(ac,)=S(^*、)/、2>)*2'表示^與興趣類別C,的相關程度;若M7全為零,則&m(&C,)-0;(5.3)對用戶興趣模型中的所有興趣類別進行相關度計算,得到搜索詞語Q與用戶興趣的相關度向量&>w(2,C)=(^w(^,c》,…,w>(&cm));(5.4)對于搜索結果集合i(s)中的每條記錄r,,將。的標題和摘要分別進行分詞處理,得到若千關鍵詞,在特征詞庫中找出其中歸屬于/(^)中各興趣類別的關鍵詞集,表示為={fe》,fe》,...,和A^細m。70v)=(fe力,...,fe_yp};對于/^)中的每個興趣類別。,逐個計算《w,e(r,)和&"細。;^,)的權重向量『她(r,,c;)=0/,W2,...,M^t),『s腿則7(av,&)=Oy,H^,...,VV》,式中,'、^;f0.44"(c》'將《Wte(n)、^"畫。o^,)以及『W/e(。,C》、『畫則7(C》分別合并為《(r,)氣^力,…,M)和W(/",'Cy)=(HV,W2,...,W),式中,尺(r,)包含&we(r,)和《扁膨7(r,)中的所有關鍵詞,『(r,,&)中的權重為『她(r,,。)和『,m。0^,,&)中相應權重之和;經過分詞處理后,《(AV)中包含的關鍵詞在r,中的歸一化重要度向量為-聊jj=(;0,a,若『(r,,c;)中存在w,不為零,則將X(/",)和『(r,,。)進行基于向量空間模型的相關度計算,得到搜索結果r,與興趣類別c,的相關度^m(/;,c》/|>,2*|>f表示搜索結果a",與興趣類別C,的相似程度,若W,全為零,則《>(/",,。)=0;(5.5)對用戶興趣模型中的所有興趣類別進行相關度計算,得到搜索結果r,與用戶興趣的相關度向量C)=(ww(r,,c》,…,力w(r,,c));(5.6)對所有搜索結果與所有用戶興趣類別的相關度進行計算,得到搜索結果集W與用戶興趣的相關度向量&w(尺C)=(&m(/",,C),...,&m(AV,C));(5.7)計算r,與2在興趣類別&上的相關度s/m(r,,g,當&mr2,0中所有分量全為0時,sz.附(/;,Q,。.)=>'附0;,。),否貝lJs/附0;,2,。.)=57'附(。。)xs/w(2,(5.8)計算所有的用戶興趣類別與一條搜索結果r,的相關度向量,得到相關度向量&沖,,2'O=("沖,,2,C》,...,g,C));(5.9)將相關度向量&w(r,,2,C)進行綜合處理,得到G與的相關度,0=丄tw附(r,,g,。);(5.10)計算所有搜索結果與搜索詞語的相關度,得到搜索結果集W與搜索詞語的相關度向量^/W(i.g)=(WW(。幼,...,W>W(~0);(5.11)對于搜索結果/",,可按該式計算它在獨立搜索引擎上的排名得分式中,A表示搜索結果包含的獨立搜索引擎的個數(shù),W,表示在相應搜索引擎上的排名,該式表明^被越多的搜索引擎索引且在搜索引擎上排名越靠前則其得分較高;(5.12)由于w'/w(r,.0和w/g似^(r,)均為歸一化的數(shù)值,所以將兩者按一定比例綜合即可得到r,的權值鄉(xiāng)妙/(a;)=0.6x57'/^,0+O.4x膽妙&(a;),該權值是該搜索結果的個性化權值PersonalRank;(5.13)按照PersonalRank的數(shù)值,由大到小對搜索結果進行排序,得到符合用戶興趣和搜索意圖的排序方式,并按照此排序方式將搜索結果提交給用戶。步驟六,捕獲用戶點擊的搜索結果,對其進行興趣分析,改變興趣種類和權值大小,并根據改變的結果更新用戶興趣數(shù)據庫中用戶的興趣模型數(shù)據,其步驟如圖6所(6.1)通過在搜索結果顯示頁面設置特定代碼,捕獲用戶在客戶端點擊的搜索結果,并傳回服務器端;(6.2)對傳回的搜索結果r,的標題和摘要分別進行分詞,得到該搜索結果的標題和摘要關鍵詞集^:加e(/^)=(fe少r;,fey""..,fe少ra)禾Ba:孤卿町Ov)={fejs/,Aoto,…,(6.3)對于《tw々,)和&,^(。)中的每個關鍵詞fe外和h,,進行如下興趣分析步驟-(6.3a)在用戶興趣數(shù)據庫的特征詞基礎數(shù)據表中查找fe^7y所屬的興趣類別,對找到的每個興趣類別c,,若該用戶興趣模型中存在該興趣類別,且其被涉及次數(shù)=w,則將其更新為Cow"fc=Cozwfo+1.2,相應的權值更新為We^fo=0.1x、、"'…""-l;若找不到興趣類別,則將這個興趣分量加入用戶興趣模型w妙,促(/;)-l-r[(1中,且Cozwfo=1.2,股/g/fc,=0.1x(1.2+10)~100(6.3b)在用戶興趣數(shù)據庫的特征詞基礎數(shù)據表中查找;te^,所屬的興趣類別,對找到的每個興趣類別c,,若該用戶興趣模型中存在該興趣類別,且其被涉及次數(shù)CoM"fc=w,則將其更新為Co柳fo=+0.8,相應的權值更新為股^似c,0.1xJ(W+0.8+10)2-I,若找不到興趣類別,則將這個興趣分量加入用戶興趣模型"Vioo中,且C0M"fo=0.8,股/g/fo=0.1X、「08+10)-1;V雨所述步驟(6.3a)和步驟(6.3b)中的權值計算公式的意義在于被用戶點擊瀏覽涉及次數(shù)越多的興趣類別的興趣權值越大,且隨著涉及次數(shù)的增多,這種權值增加的趨勢會逐漸減緩,即用戶的興趣喜好逐漸趨于穩(wěn)定;(6.4)對于經過一定的更新次數(shù)門限后沒有被更新過的興趣分量,說明該用戶對這些興趣領域已經不再關注,將它們從用戶興趣模型中刪除;(6.5)對搜索結果。的標題和摘要中所有關鍵詞處理結束之后,將該用戶的所有興趣權重進行歸一化處理,變?yōu)槿≈翟贠和1之間且總和為1的數(shù)值,作為更新后的用戶興趣權值,對用戶興趣數(shù)據庫中的相應興趣權值進行更新。本發(fā)明的效果通過以下仿真實例進一步說明1.去除重復搜索結果實例在一個利用本發(fā)明所涉及的搜索引擎系統(tǒng)及其搜索方法實現(xiàn)的實例搜索引擎系統(tǒng)中,預先設置79個興趣類別,并為每個興趣類別設置若干能夠代表該類別特征的特征詞;設置每次搜索請求通過搜索引擎代理管理模塊向百度抓取50條、谷歌抓取50條、有道抓取10條、搜狗抓取20條共130條搜索結果。本實例中分別用5個不同的搜索詞語在該搜索系統(tǒng)上進行搜索,經過本發(fā)明中的去除網址重復和基于摘要內容的搜索結果去除重復方法處理后,得到的統(tǒng)計結果如表1所示。表1搜索結果去除重復數(shù)據搜索次數(shù)去重前總條數(shù)網址去重后總條數(shù)內容去重后總條數(shù)內容去重覆蓋度內容去重準確度1130條120條93條27/3127/272122條93條29/3429/293111條105條6/65/64121條111條10/1210/10128條92條36/4336/36平均120.4條988條88.9%96.67%表1中,內容去重覆蓋度為實際去重條目與應去重總條目之比;內容去重準確度為去重條目中正確去重條目與去重總條目之比。2.個性化排序實例在實例搜索系統(tǒng)中,分別設置一個興趣愛好分布在"信息技術"這個類別的用戶A和一個興趣愛好分布在"個人電子產品"這個類別的用戶B,首先對這兩個用戶以基本的元搜索技術進行搜索,再對這兩個用戶以登錄狀態(tài)進行本發(fā)明的個性化搜索,得到表2的統(tǒng)計結果表2搜索結果排序數(shù)據<table>tableseeoriginaldocumentpage15</column></row><table>表2中,個性化搜索響應時間為服務器從接收搜索請求到向用戶返回搜索結果間經歷的時間間隔。3.實例系統(tǒng)性能分析從表1中的數(shù)據可以看出,對從四個獨立搜索引擎抓取的130條搜索結果經過本發(fā)明的基于摘要內容的去除重復方法處理后,得到的搜索結果條數(shù)相比僅進行網址去重處理有了顯著減少,內容去重覆蓋度平均為88.9%,內容去重準確度平均為96.67%。這說明本發(fā)明的內容去除重復技術可以準確的識別和去除重復的搜索結果,使搜索結果數(shù)量得到大幅度精簡,從而免去了用戶在大量重復的搜索結果中尋找有用信息的煩惱。從表2中的數(shù)據可以看出,對于具有一定興趣愛好的用戶,在基本的元搜索情況下,得到的搜索結果排在前3頁的30條搜索結果中滿足其搜索需求的平均不足12條,而經過本發(fā)明的個性化搜索系統(tǒng)的處理之后,符合用戶興趣的搜索結果平均達到了20.8條。這說明利用本發(fā)明中的基于用戶興趣的個性化排序技術實現(xiàn)的搜索引擎系統(tǒng)能夠準確的識別用戶興趣,并能根據用戶喜好為用戶返回合適的搜索結果排序方式,這樣使得用戶在最靠前的搜索結果中找到感興趣的內容的幾率大大增加,從而提高了用戶信息檢索的效率。從搜索系統(tǒng)的響應時間上看,用戶從提交搜索請求到服務器為用戶返回搜索結果之間的時延平均約為1.49秒。據有關調查數(shù)據顯示,中國網民認為打開網頁的最佳速度應在5秒之內,而本發(fā)明的搜索系統(tǒng)的響應時間即使考慮服務器與用戶端的通信時延,也完全可以滿足用戶這一要求,這說明利用本發(fā)明所涉及的技術實現(xiàn)的搜索系統(tǒng)具有實際可行性。綜合以上的性能分析,本發(fā)明包括的基于用戶興趣的個性化元搜索引擎及搜索結果處理方法,與傳統(tǒng)搜索引擎相比,提高了搜索結果的覆蓋度,克服了單個獨立搜索引擎搜索結果覆蓋度低的問題;與一般的元搜索引擎以及現(xiàn)有的個性化搜索技術相比,通過為每個用戶建立各自的用戶興趣模型,并將其長期保存在服務器數(shù)據庫中,而且隨著用戶的搜索過程對用戶興趣數(shù)據不斷更新,使得用戶不論身處何時何地,均能準確定位用戶興趣,為其提供個性化搜索服務,不僅克服了一般元搜索引擎不能提供個性化服務的缺點,而且克服了現(xiàn)有個性化搜索技術不能長期保存用戶興趣和不能精準定位個人興趣的缺點。本發(fā)明通過獨創(chuàng)的引擎搜索結果處理機制將多個獨立搜索引擎的搜索結果進行去除重復處理,并計算每條搜索結果的個性化權值PersonalRank,為用戶提供最適合其搜索意圖和興趣喜好的搜索結果排列方式,使得搜索結果的準確度得到顯著提高,用戶的搜索需求得到最大程度的滿足,用戶找到自己需要的搜索結果權利要求1.一種基于用戶興趣的個性化元搜索引擎,主要由用戶注冊/登錄單元、元搜索結果收集單元和個性化處理單元組成,其特征在于個性化處理單元,包括搜索結果預處理模塊,用于接收元搜索結果收集單元送入的搜索結果原始數(shù)據,進行基于網址和基于摘要內容的去除重復處理,并將處理后的搜索結果送入個性化排序處理模塊;個性化排序處理模塊,用于接收搜索結果預處理模塊送入的搜索結果數(shù)據,并進行基于用戶興趣和搜索意圖的個性化排序處理,將排序后的搜索結果提交給用戶;用戶興趣更新模塊,用于捕獲用戶對搜索結果的點擊行為,對用戶點擊過的搜索結果進行興趣分析,并對用戶興趣數(shù)據庫中存儲的用戶興趣模型數(shù)據進行更新;用戶興趣數(shù)據庫,用于存儲網站注冊用戶的興趣模型數(shù)據,并將這些數(shù)據提供給個性化排序處理模塊進行個性化排序。2.—種基于用戶興趣的個性化元搜索引擎結果處理方法,包括-步驟l.建立并初始化用戶興趣模型數(shù)據,保存在服務器的用戶興趣數(shù)據庫中;步驟2.將用戶輸入的搜索詞語,按各獨立搜索引擎要求的格式分發(fā)出去,并收集它們返回的結果,將收集的返回結果轉換成統(tǒng)一的格式;步驟3.將轉換成統(tǒng)一格式的搜索結果進行去除重復處理;步驟4.根據用戶興趣模型和本次搜索詞語對去除重復處理后的搜索結果進行個性化排序,并將該排序結果提交給用戶;步驟5.捕獲用戶點擊的搜索結果,對其進行興趣分析,改變興趣種類和權值大小,并根據改變的結果更新用戶興趣數(shù)據庫中用戶的興趣模型數(shù)據。3.根據權利要求2所述的基于用戶興趣的個性化元搜索引擎結果處理方法,其中步驟l所述的建立用戶興趣模型數(shù)據,包括兩種方式一是用戶直接通過主動選擇網站提供的興趣類別并設置權值大小,建立該用戶的用戶興趣模型數(shù)據;二是搜索引擎系統(tǒng)通過興趣更新模塊對用戶搜索行為的興趣分析,自動建立用戶興趣模型數(shù)據。4.根據權利要求2或3所述的基于用戶興趣的個性化元搜索引擎結果處理方法,其中所述的用戶興趣模型數(shù)據,用/(0={(。,^),(^2),...,(^,>0}表示,其中(c,,,)是用戶的一個興趣分量,c,為興趣類別,w,為c,對應的歸一化權值,該用戶興趣模型數(shù)據是用于定量描述用戶興趣喜好及其喜好程度的數(shù)據集。5.根據權利要求2所述的基于用戶興趣的個性化元搜索引擎結果處理方法,其中步驟3所述的將轉換成統(tǒng)一格式的搜索結果進行去除重復處理,是先將統(tǒng)一格式的搜索結果按照網址是否相同進行過濾,只保留網址不同的搜索結果;再將各條搜索結果的摘要內容與其它搜索結果的摘要內容進行文本比較,濾除摘要內容相似的搜索結果。6.根據權利要求2所述的基于用戶興趣的個性化元搜索引擎結果處理方法,其中步驟4所述的根據用戶興趣模型和本次搜索詞語對去除重復處理后的搜索結果的個性化排序方法,按如下步驟進行(6a)分別計算搜索詞語與用戶興趣的相關度向量和搜索結果與用戶興趣的相關度向量;(6b)根據步驟(6a)得到的相關度向量,計算搜索結果與用戶搜索詞語的相關度向量;(6c)計算搜索結果在各獨立搜索引擎上的排名得分向量;(6d)將步驟(6b)和(6c)得到的數(shù)值進行加權綜合,得到每條搜索結果基于用戶興趣的權值,并按權值大小排序,得到個性化排序結果。7.根據權利要求6所述的基于用戶興趣的個性化元搜索引擎結果處理方法,其中步驟(6a)所述的分別計算搜索詞語與用戶興趣的相關度向量和搜索結果與用戶興趣的相關度向量,按照如下步驟進行(7a)按照公式s,附(e,c,hZ("、.)/2>;*2>;2,計算搜索詞語Q與一個興趣類別c,的相關度,式中,巧是Q經分詞處理后的一個關鍵詞對應在用戶模型中的興趣類別c,上的歸一化權值,X;是該關鍵詞在Q中的歸一化重要度,當所有丐都為零,《>w(g,C,)=0;(7b)對用戶興趣模型中的所有興趣類別進行相關度計算,得到搜索詞語Q與用戶興趣的相關度向量^n(2,C)=(力w(ac》,…,Ww(2,cw));(7c)按照公式力—,。)=^>,%)/^>,2*^X,計算一條搜索結果A",與一個興趣類別。的相關度,式中,w,是r,經分詞處理后的一個關鍵詞對應在用戶模型中的興趣類別c;上的歸一化權值,x,是該關鍵詞在r,中的歸一化重要度,當所有w,都為零,^>^,。)=0;(7d)對用戶興趣模型中的所有興趣類別進行相關度計算,得到一條搜索結果r與用戶興趣的相關度向量&W(r,,C)=(W'/(。,C;),…,&W(r,C"));(7e)對所有搜索結果與所有用戶興趣類別的相關度進行計算,得到搜索結果集/與用戶興趣的相關度向量&>(尺C)=C),...,C))。8.根據權利要求6所述的基于用戶興趣的個性化元搜索引擎結果處理方法,其中步驟(6b)所述的計算搜索結果與用戶搜索詞語的相關度向量,按照如下步驟進行(8a)計算。與0在興趣類別。上的相關度ww(r,,G,c;):當^w",C)中所有分量全為0時,g,=c》,否貝'Jw'附(A;,2,c》=s//w(^.,c》xw.附(g,c》;(8b)計算所有用戶興趣類別與搜索結果r,的相關度向量,得到S/w(a;,2,C)=(ww(r',2,c,)w/w",Q,O),并計算Q與的相關度s,w(《,0=丄tw附(a;,2,c);(8c)計算所有搜索結果與搜索詞語的相關度,得到搜索結果集i與搜索詞語的相關度向量=(②,...,力附(/"",0)。9.根據權利要求6所述的基于用戶興趣的個性化元搜索引擎結果處理方法,其中步驟(6d)所述的計算每條搜索結果在各獨立搜索引擎上的排名得分,按照如下步驟進行(9a)按照公式^妙^(0=1—fl(l—~^"),計算搜索結果r,在各獨立搜索引々=f",擎上的排名得分,式中,A是包含/",的獨立搜索引擎的個數(shù),W,是在相應搜索引擎上的排名名次;(9b)計算所有搜索結果在各獨立搜索引擎上的排名得分,得到搜索結果集在各獨立搜索引擎上的排名得分向量『e/g/rfS£<i)=Oe/Wfe(AV)w/g/"ffi(r"))。10.根據權利要求2所述的基于用戶興趣的個性化元搜索引擎結果處理方法,其中步驟5所述的更新用戶興趣數(shù)據庫中用戶的興趣模型數(shù)據,按如下步驟進行(10a)捕獲用戶在客戶端點擊的搜索結果,并傳回服務器端;(10b)對該搜索結果的標題和摘要進行分詞處理,得到該搜索結果的關鍵詞集;(10c)依據關鍵詞集進行興趣分析,得到該用戶最新的興趣類別及相應的權值大?。?10d)根據最新的興趣類別及相應的權值大小對用戶興趣數(shù)據庫中的用戶興趣模型數(shù)據進行更新。全文摘要本發(fā)明公開了一種基于用戶興趣的個性化元搜索引擎及搜索結果處理方法。其搜索引擎包括用戶注冊/登錄單元、元搜索結果收集單元和個性化處理單元,該個性化處理單元通過搜索結果預處理模塊、個性化排序處理模塊和用戶興趣更新模塊,完成對搜索結果的篩選、個性化排序及對用戶興趣模型的建立和更新。其對搜索結果的處理為建立并初始化用戶興趣模型,存入服務器;將用戶輸入的搜索詞語,按各搜索引擎要求的格式分發(fā);將收集的返回結果轉換成統(tǒng)一的格式,依次進行去除重復處理和個性化排序,并提交給用戶;捕獲用戶點擊的搜索結果,改變興趣種類和權值大小,更新用戶興趣模型數(shù)據。本發(fā)明具有查詢覆蓋度和準確度高的優(yōu)點,可用于互聯(lián)網的搜索引擎。文檔編號G06F17/30GK101477554SQ20091002095公開日2009年7月8日申請日期2009年1月16日優(yōu)先權日2009年1月16日發(fā)明者李曉輝,杜晨光,鄧雙成,濤顏申請人:西安電子科技大學