專利名稱::基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及計(jì)算機(jī)搜索領(lǐng)域,尤其涉及一種基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法。
背景技術(shù):
:現(xiàn)有的個(gè)性化引擎依靠的是用戶的反饋,它可以分為顯式反饋和隱式反饋。我們從這兩種反饋中都可以得到用戶的喜好特征(Salton&Buckley1990;White,Jose,&Ruthven2001;White,Ruthven,&Jose2002)。但是用戶一般都不愿意去提供顯式的反饋,所以現(xiàn)在的研究越來越多的研究都轉(zhuǎn)向隱式反饋(Granka,Joachims,&Gay2004;Guan&Cutrell2007;Fu2007)。研究表明,隱式反饋可以很好的反映用戶的搜索意圖(Foxetal.2005;Dou,Song,&Wen2007;Fu2007).并且從大量的隱式反饋中得到的用戶喜好往往比顯式反饋更加可靠。査詢歷史現(xiàn)代研究中,用得最多的隱式反饋就是用戶的查詢歷史。Google的個(gè)性化搜索(http://www.google.com/psearch)就是基于用戶的查詢歷史的??偟膩碚f,基于查詢歷史的算法又可以分為以下兩類一類是基于整個(gè)査詢歷史的算法,另一類是基于某個(gè)査詢會(huì)話(指的是一連串相關(guān)的査詢)。對于前者來說,通常算法會(huì)產(chǎn)生一個(gè)該用戶的概要文檔用來描述用戶的搜索喜好。點(diǎn)擊數(shù)據(jù)點(diǎn)擊數(shù)據(jù)是另一種非常重要的隱式反饋,如(Dupret,Mmdock,&Piwowarski2007;Joachims2002)。在一個(gè)搜索結(jié)果頁面上,我們假設(shè)用戶點(diǎn)擊過的鏈接比用戶沒有點(diǎn)過的鏈接對于此用戶來說更加重要。研究者們用了很多中方法從用戶的點(diǎn)擊行為中獲取用戶的喜好特征。舉例來說,有些研究者用一種叫RankingSVM的算法(Hershetal.1994)通過用戶的點(diǎn)擊信息來獲得對該用戶來說最好的網(wǎng)頁排序。在(Radlinski&Joachims2005)—文中,作者不但從用戶的單次査詢中提取用戶喜好,同時(shí)也從用戶對同一信息的一連串査詢中提取用戶的喜好,這些喜好特征然后通過RankingSVM的改進(jìn)算法來進(jìn)行訓(xùn)練。Sunetal.(2005)提出了一種基于SingluarValueDecomposition的算法,它通過分析用戶的點(diǎn)擊數(shù)據(jù)來提高搜索引擎的建議系統(tǒng)的準(zhǔn)確率。關(guān)注時(shí)間相對來說,關(guān)注時(shí)間是一個(gè)新型的隱式用戶反饋。雖然它在近期的研究中越來越多被提到,但是關(guān)于它是否真的能夠反映用戶意圖仍然有爭辯。Kelly和Belkin(2004;2001)建議說,在文檔的關(guān)注時(shí)間和它對用戶的有用度之間并沒有非常可靠的相互關(guān)系。但是不同的是,在他們的研究當(dāng)中,關(guān)注5時(shí)間是通過測量一組用戶閱讀不同主題的文章而得到的平均關(guān)注時(shí)間。Halabietal.(2007)認(rèn)為對于一個(gè)的用戶在同一個(gè)搜索行為中關(guān)注時(shí)間,它可以很好的反映出用戶的喜好。我們認(rèn)為以上兩個(gè)研究并不矛盾,因?yàn)樗麄兯?jì)算的關(guān)注時(shí)間并不相同。在這篇論文中,我們假設(shè)單一用戶或者單一主題的關(guān)注時(shí)間可以很好的反映用戶的喜好
發(fā)明內(nèi)容本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于關(guān)注時(shí)間的個(gè)性化網(wǎng)頁排序方法?;谟脩絷P(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法包括以下步驟1)利用關(guān)注時(shí)間對現(xiàn)有網(wǎng)頁排序進(jìn)行個(gè)性化改迸,使排序結(jié)果符合用戶心理;2)利用自定義的瀏覽器,收集文本關(guān)注時(shí)間的樣本信息;3)利用自定義的瀏覽器,收集圖片關(guān)注時(shí)間的樣本信息;4)對收集的關(guān)注時(shí)間樣本進(jìn)行校正;5)基于文本和圖片相似度來預(yù)測未知網(wǎng)頁的關(guān)注時(shí)間;6)利用關(guān)注時(shí)間結(jié)合傳統(tǒng)搜索技術(shù)生成個(gè)性化的網(wǎng)頁和圖片進(jìn)行排序。所述的利用關(guān)注時(shí)間對現(xiàn)有網(wǎng)頁排序進(jìn)行個(gè)性化改進(jìn),使排序結(jié)果符合用戶心理步驟將關(guān)注時(shí)間作為用戶隱式反饋的來源,從而得知用戶的喜好特征,進(jìn)而對用戶未瀏覽過的網(wǎng)頁或圖片進(jìn)行關(guān)注時(shí)間的預(yù)測,最終根據(jù)預(yù)測的關(guān)注時(shí)間對結(jié)果進(jìn)行排序,關(guān)注時(shí)間是用戶在瀏覽一個(gè)網(wǎng)頁或圖片時(shí)花費(fèi)的閱讀或?yàn)g覽時(shí)間。所述的利用自定義的瀏覽器,收集文本關(guān)注時(shí)間的樣本信息步驟客戶端是一個(gè)自定義的瀏覽器,對于文本搜索,在搜索結(jié)果頁面上,搜索引擎通常會(huì)在搜索結(jié)果頁面上為每個(gè)文檔提供幾行概要,追蹤鼠標(biāo)的移動(dòng)位置,從而來記錄用戶在某個(gè)文檔上花的時(shí)間,在被打開的頁面上,記錄用戶在此頁面上的活動(dòng)時(shí)間,對于此文檔的關(guān)注時(shí)間就是閱讀概要的時(shí)間加上閱讀整篇文檔的時(shí)間,如果之后用戶又回到己看過的頁面,那么該頁面的關(guān)注時(shí)間會(huì)相應(yīng)增加。所述的利用自定義的瀏覽器,收集圖片關(guān)注時(shí)間的樣本信息步驟客戶端是一個(gè)自定義的瀏覽器,對于圖片搜索,搜索引擎會(huì)在結(jié)果頁面上顯式每個(gè)圖片的縮略圖,同樣的,關(guān)注時(shí)間是用戶看縮略圖的時(shí)間加上用戶看原圖的時(shí)間,如果一個(gè)文檔既有文字又有圖片,它的關(guān)注時(shí)間就是兩者之和。所述的對收集的關(guān)注時(shí)間樣本進(jìn)行校正步驟對收集的關(guān)注時(shí)間樣本進(jìn)行校正式如下Cf(",力=max(O,力—U"),O)其中O是收集的關(guān)注時(shí)間,tbasie(U)是用戶用來判斷此文檔是否值得一讀的時(shí)間,《(W,J)則是潛在的該文檔d包含的關(guān)注時(shí)間。所述的基于文本和圖片相似度來預(yù)測未知網(wǎng)頁的關(guān)注時(shí)間步驟a)用5Vm(^。,W來表示文檔4和文檔4之間的相似度,同時(shí)&m^。,W/"ft7/,在計(jì)算兩個(gè)文檔的相似度之前,刪除廣告,網(wǎng)頁源碼中的標(biāo)簽,以及網(wǎng)頁上面的導(dǎo)航欄;13)把每個(gè)訓(xùn)練樣本表示為&,4)|/=,..."人其中"是當(dāng)前用戶閱讀過的文檔的個(gè)數(shù),閱讀過的文檔表示為舶W,...,"j,當(dāng)用戶遇到一個(gè)新的文檔式的時(shí)候,計(jì)算文檔4和測試集中的所有文檔進(jìn)行相似度計(jì)算,挑選出A個(gè)具有最高相似度的文檔,把&設(shè)為柳'"fm"),挑選出來的文檔為4,厶...",用以下這個(gè)方程來預(yù)測《的關(guān)注時(shí)間,,,、2〃。"",',《)"《,《))其中用來控制57m"的值占多的比重,是一個(gè)很小的正整數(shù)用來防止表達(dá)式的分母為0,函數(shù)"用來去除一些相似度非常低的文檔,它被定義為j、[1^"&>^(《,《)>0.010OAenv^步驟-所述的利用關(guān)注時(shí)間結(jié)合傳統(tǒng)搜索技術(shù)生成個(gè)性化的網(wǎng)頁和圖片進(jìn)行排序膝c)當(dāng)用戶提交一個(gè)查詢請求時(shí),服務(wù)端首先將查詢重定向至傳統(tǒng)搜索引擎,并獲得返回的前n個(gè)網(wǎng)頁,對于返回的每個(gè)頁面,系統(tǒng)將在該用戶的樣本集中査找A個(gè)與文本或圖片相似度最高的樣本,并用權(quán)利要求8中的方法預(yù)測網(wǎng)頁的關(guān)注時(shí)間;d)對于傳統(tǒng)的排序,系統(tǒng)會(huì)生成一個(gè)關(guān)注時(shí)間偏差,那就是在傳統(tǒng)排序中,排名越高的文檔,獲得更高的關(guān)注時(shí)間偏差,用如下公式定義這個(gè)偏差t一(,〕=2cxp(-;^'mw"/))(3)。加n1+exp(_/rdrawA:(/))其中ra"^^表示的文檔/在Google的排序的排名,參數(shù)k用來控制關(guān)注時(shí)間隨排名下降的坡度;e)從文檔/的關(guān)注時(shí)間"^(/)和偏差t:^(/),獲得文檔z'的全局關(guān)注時(shí)間tzr〃(o=^。wra,,"(o+t=(o,參數(shù)K。v^是一個(gè)用戶變量,用來控制該用戶希望個(gè)性化的排名占的比重;f)最終排序?qū)凑湛傟P(guān)注時(shí)間的倒序排列。本發(fā)明有效地將用戶的喜好結(jié)合在搜索過程中,使得最終的排名結(jié)果更加接近用戶期待的理想排名,從而使得網(wǎng)頁文本與圖像搜索引擎為用戶提供更好的個(gè)性化服務(wù)。圖1是具體實(shí)施方式的流程圖2是本例中自定義瀏覽器的截圖3是14組文本搜索的實(shí)驗(yàn)結(jié)果,具體數(shù)據(jù)在表2中;圖4是7組圖片搜索實(shí)驗(yàn)的坐標(biāo)圖,具體數(shù)據(jù)在表3和表4中;每組實(shí)驗(yàn)都是由不同的用戶在相同的設(shè)置下進(jìn)行的,坐標(biāo)上畫的是用戶的平均的期望排名,平均值越小,那么用戶期望的圖片在搜索結(jié)果中將會(huì)出現(xiàn)得越靠前。具體實(shí)施例方式基于關(guān)注時(shí)間的個(gè)性化網(wǎng)頁排序方法包括以下步驟1)利用關(guān)注時(shí)間對現(xiàn)有網(wǎng)頁排序進(jìn)行個(gè)性化改進(jìn),使排序結(jié)果符合用戶心理;2)利用自定義的瀏覽器,收集文本關(guān)注時(shí)間的樣本信息;3)利用自定義的瀏覽器,收集圖片關(guān)注時(shí)間的樣本信息;4)對收集的關(guān)注時(shí)間樣本進(jìn)行校正;5)基于文本和圖片相似度來預(yù)測未知網(wǎng)頁的關(guān)注時(shí)間;6)利用關(guān)注時(shí)間結(jié)合傳統(tǒng)搜索技術(shù)生成個(gè)性化的網(wǎng)頁和圖片進(jìn)行排序。所述的利用關(guān)注時(shí)間對現(xiàn)有網(wǎng)頁排序進(jìn)行個(gè)性化改進(jìn),使排序結(jié)果符合用戶心理步驟將關(guān)注時(shí)間作為用戶隱式反饋的來源,從而得知用戶的喜好特征,進(jìn)而對用戶未瀏覽過的網(wǎng)頁或圖片進(jìn)行關(guān)注時(shí)間的預(yù)測,最終根據(jù)預(yù)測的關(guān)注時(shí)間對結(jié)果進(jìn)行排序,關(guān)注時(shí)間是用戶在瀏覽一個(gè)網(wǎng)頁或圖片時(shí)花費(fèi)的閱讀或?yàn)g覽時(shí)間。所述的利用自定義的瀏覽器,收集文本關(guān)注時(shí)間的樣本信息步驟客戶端是一個(gè)自定義的瀏覽器,對于文本搜索,在搜索結(jié)果頁面上,搜索引擎通常會(huì)在搜索結(jié)果頁面上為每個(gè)文檔提供幾行概要,追蹤鼠標(biāo)的移動(dòng)位置,從而來記錄用戶在某個(gè)文檔上花的時(shí)間,在被打開的頁面上,記錄用戶在此頁面上的活動(dòng)時(shí)間,對于此文檔的關(guān)注時(shí)間就是閱讀概要的時(shí)間加上閱讀整篇文檔的時(shí)間,如果之后用戶又回到已看過的頁面,那么該頁面的關(guān)注時(shí)間會(huì)相應(yīng)增加。所述的利用自定義的瀏覽器,收集圖片關(guān)注時(shí)間的樣本信息步驟客戶端是一個(gè)自定義的瀏覽器,對于圖片搜索,搜索引擎會(huì)在結(jié)果頁面上顯式每個(gè)圖片的縮略圖,同樣的,關(guān)注時(shí)間是用戶看縮略圖的時(shí)間加上用戶看原圖的時(shí)間,如果一個(gè)文檔既有文字又有圖片,它的關(guān)注時(shí)間就是兩者之和。所述的對收集的關(guān)注時(shí)間樣本進(jìn)行校正步驟對收集的關(guān)注時(shí)間樣本進(jìn)行校正式如下-<formula>formulaseeoriginaldocumentpage9</formula>其中《7是收集的關(guān)注時(shí)間,tb^(U)是用戶用來判斷此文檔是否值得一讀的時(shí)間,《(",J)則是潛在的該文檔d包含的關(guān)注時(shí)間。所述的基于文本和圖片相似度來預(yù)測未知網(wǎng)頁的關(guān)注時(shí)間步驟a)用6Vm^/。,^)來表示文檔4和文檔A之間的相似度,同時(shí)6Vm",W/"0,7/,在計(jì)算兩個(gè)文檔的相似度之前,刪除廣告,網(wǎng)頁源碼中的標(biāo)簽,以及網(wǎng)頁上面的導(dǎo)航欄;b)把每個(gè)訓(xùn)練樣本表示為A"",WhW,…"人其中^7是當(dāng)前用戶閱讀過的文檔的個(gè)數(shù),閱讀過的文檔表示為#'=人...,",當(dāng)用戶遇到一個(gè)新的文檔^的時(shí)候,計(jì)算文檔《和測試集中的所有文檔進(jìn)行相似度計(jì)算,挑選出A個(gè)具有最高相似度的文檔,把A:設(shè)為w/"(70,"人挑選出來的文檔為</=/,...,^,用以下這個(gè)方程來預(yù)測4的關(guān)注時(shí)間,<formula>formulaseeoriginaldocumentpage9</formula>其中用來控制S/m^的值占多的比重,是一個(gè)很小的正整數(shù)用來防止表達(dá)式的分母為0,函數(shù)C)用來去除一些相似度非常低的文檔,它被定義為所述的利用關(guān)注時(shí)間結(jié)合傳統(tǒng)搜索技術(shù)生成個(gè)性化的網(wǎng)頁和圖片進(jìn)行排序步驟C)當(dāng)用戶提交一個(gè)査詢請求時(shí),服務(wù)端首先將査詢重定向至傳統(tǒng)搜索引擎,并獲得返回的前n個(gè)網(wǎng)頁,對于返回的每個(gè)頁面,系統(tǒng)將在該用戶的樣本集中査找A個(gè)與文本或圖片相似度最高的樣本,并用權(quán)利要求8中的方法預(yù)測網(wǎng)頁的關(guān)注時(shí)間;d)對于傳統(tǒng)的排序,系統(tǒng)會(huì)生成一個(gè)關(guān)注時(shí)間偏差,那就是在傳統(tǒng)排序中,排名越高的文檔,獲得更高的關(guān)注時(shí)間偏差,用如下公式定義這個(gè)偏差t一(o=2exp(—.mwA:(O)(3)由1+exp(—Krf.r朋A(/))其中ra"A^表示的文檔/在Google的排序的排名,參數(shù)k用來控制關(guān)注時(shí)間隨排名下降的坡度;e)從文檔/的關(guān)注時(shí)間^自(/)和偏差t:t'(0,獲得文檔/的全局關(guān)注時(shí)間t="(0=、ra/,U)+t='(0,參數(shù)/^』是一個(gè)用戶變量,用來控制該用戶希望個(gè)性化的排名占的比重;f)最終排序?qū)凑湛傟P(guān)注時(shí)間的倒序排列。實(shí)施例本發(fā)明的基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法的流程結(jié)構(gòu)如圖1所示。該個(gè)性化排序系統(tǒng)包括客戶端和服務(wù)端兩部分,客戶端20、自定義瀏覽器來獲取用戶的關(guān)注時(shí)間,服務(wù)端包括30、樣本收集模塊,40、關(guān)注時(shí)間校正,50、用戶數(shù)據(jù)庫和60、文檔數(shù)據(jù)庫,70、査詢界面,80、傳統(tǒng)引擎模塊,90、文檔預(yù)處理模塊,100、文檔比較模塊,110、關(guān)注時(shí)間預(yù)測模塊,120、排序模塊。。自定義瀏覽器20,對用戶的鼠標(biāo)移動(dòng)進(jìn)行追蹤分析,最終得出用戶在各個(gè)文檔上的關(guān)注時(shí)間。在本例中,給出了由我們開發(fā)的自定義瀏覽器記錄的對關(guān)注時(shí)間(圖2)。樣本收集模塊30,將客戶端發(fā)送的樣本數(shù)據(jù)存入對應(yīng)用戶的數(shù)據(jù)庫中,如果某文檔在文檔數(shù)據(jù)庫中不存在,則下載并存入文檔數(shù)據(jù)庫。關(guān)注時(shí)間校正模塊40,直接從客戶端獲得的預(yù)測關(guān)注時(shí)間還需要進(jìn)行校正,當(dāng)用戶瀏覽一個(gè)文檔時(shí),不管此文檔是否對該用戶有用,用戶都得花一段時(shí)間去粗略的瀏覽此文檔。一般來說,此時(shí)獲得關(guān)注時(shí)間既包括了用戶的實(shí)際關(guān)注時(shí)間也包括了用戶粗略瀏覽該文檔的時(shí)間,為了克服這個(gè)問題,我們以下這個(gè)方程來校正我們原先獲得的關(guān)注時(shí)間<formula>formulaseeoriginaldocumentpage11</formula>《;r是我們原先獲得的關(guān)注時(shí)間,tb^(u)是用戶用來判斷此文檔是否值得一讀的時(shí)間,^(",力則是潛在的該文檔d包含的關(guān)注時(shí)間。用戶數(shù)據(jù)庫50,存儲(chǔ)系統(tǒng)各個(gè)用戶對文檔的關(guān)注時(shí)間,在本例中用MYSQL存儲(chǔ)。文檔數(shù)據(jù)庫60,存儲(chǔ)文檔(文本網(wǎng)頁和圖片)的數(shù)據(jù),在本例中用MYSQL存儲(chǔ)。查詢界面70,提供一個(gè)用戶查詢的web入口,提供文本搜索和圖片搜索兩項(xiàng)服務(wù)。在本例中,此査詢界面用jsp實(shí)現(xiàn)。傳統(tǒng)引擎模塊80,當(dāng)用戶提交一個(gè)查詢請求時(shí),服務(wù)端會(huì)對傳統(tǒng)搜索引擎(比如Google)的結(jié)果頁面進(jìn)行解析并獲取其返回結(jié)果中的前300個(gè)文檔,并將文檔下載存至文檔服務(wù)器。文檔預(yù)處理模塊90,直接從網(wǎng)站下載下來的網(wǎng)頁包含很多無用信息,比如HTML標(biāo)簽,廣告欄,導(dǎo)航欄等。此模塊用于去除網(wǎng)頁中的無用信息,保留用戶將關(guān)注的主體文檔。在本例中,我們實(shí)現(xiàn)了,去除HTML標(biāo)簽功能。文檔比較模塊100,選用的文本相似度算法為extendedJaccard方法(Tanimoto);選用的圖片相似度算法為基于"AutoColorCorrelogram"(Huangetal.1997)的相似度算法。關(guān)注時(shí)間預(yù)測模塊110,包含以下幾個(gè)步驟a.)此模塊對于傳統(tǒng)引擎模塊中的每個(gè)文檔都進(jìn)行關(guān)注時(shí)間的預(yù)測。首先我們把每個(gè)訓(xùn)練樣本表示為(W(u,dOI1=1,...11},其中n是當(dāng)前用戶閱讀過的文檔的個(gè)數(shù)。閱讀過的文檔表示為di(i=l,...,n)。對于傳統(tǒng)引擎返回的文檔《的時(shí)候,我們會(huì)計(jì)算文檔4和測試集中的所有文檔進(jìn)行相似度計(jì)算。然后我們會(huì)挑選出k個(gè)具有最高相似度的文檔。在我們的實(shí)驗(yàn)中,我們把k設(shè)為min(10,n)。我們挑選出來的文檔為4(1=1,...永).然后我們用以下這個(gè)方程來預(yù)測4的關(guān)注時(shí)間。其中y用來控制Sim(,)的值占多的比重,s是一個(gè)很小的正整數(shù)用來防止表達(dá)式的分母為0。函數(shù)5(,)用來去除一些相似度非常低的文檔,它被定義為<formula>formulaseeoriginaldocumentpage11</formula>b.)在系統(tǒng)運(yùn)行的初期,我們還會(huì)將傳統(tǒng)引擎的排名轉(zhuǎn)化成一個(gè)關(guān)注時(shí)間偏差。我們用下面這個(gè)方程將傳統(tǒng)排名轉(zhuǎn)化成一個(gè)值在O和1之間的標(biāo)準(zhǔn)化關(guān)注時(shí)間偏差t一(o=2exp(-;^.mw柳幽1+exp(—/irdra/A:(/))其中m"柳表示的文檔i在傳統(tǒng)搜索引擎的排名。我們之所以選擇這樣一個(gè)式子是因?yàn)樗梢园丫W(wǎng)頁排名信息轉(zhuǎn)換成關(guān)注時(shí)間,而且讓排名較低的文檔轉(zhuǎn)化所得的關(guān)注時(shí)間相對更短。參數(shù)&用來控制關(guān)注時(shí)間隨排名下降的坡度,在我們是實(shí)驗(yàn)中,我們設(shè)定為0.2。c.)一旦我們得到了文檔i的關(guān)注時(shí)間tat^(i)和偏差^^,我們可以獲得該文檔的全局關(guān)注時(shí)間CT"=K。v"/_,/。參數(shù)K,^是一個(gè)用戶變量,用來控制該用戶希望個(gè)性化的排名占的比重。最終網(wǎng)頁的排名就是按照全局關(guān)注時(shí)間的降序來排列的。我們實(shí)現(xiàn)了種自動(dòng)設(shè)置K。ve^值的方法,當(dāng)訓(xùn)練集中的樣本很少的時(shí)候,K。ve^值較小,并且當(dāng)訓(xùn)練集中的樣本變的越來越多的時(shí)候,Kove^值越來越大。之所以這樣是因?yàn)槲覀兊呐判蛩惴◤母旧蟻碚f是一個(gè)學(xué)習(xí)算法。但是,就像其他學(xué)習(xí)算法一樣,當(dāng)訓(xùn)練樣本集還很小的時(shí)候,算法會(huì)產(chǎn)生比較差的結(jié)果,因此我們需要借鑒傳統(tǒng)引擎的排序結(jié)果。在我們的實(shí)驗(yàn)中,我們一個(gè)S形函數(shù)去自動(dòng)驗(yàn)證K。ve^的值,發(fā)現(xiàn)它是一個(gè)常量,通常為0.1。排序模塊120,排序模塊將結(jié)果按照所有文檔按照全局關(guān)注時(shí)間進(jìn)行倒序排列,并將結(jié)果返回給用戶。表14的實(shí)驗(yàn)結(jié)果清晰的顯示出本方法的優(yōu)越性;表l是用"網(wǎng)頁搜索技術(shù)"(Websearchtechnology)作為關(guān)鍵詞的文本搜索得到的前17項(xiàng)文本的各自排名名次;各個(gè)欄從左到右分別是用戶的理想排名,網(wǎng)頁所搜引擎Google的排名,以及用戶讀過2,5,8,10,15個(gè)網(wǎng)頁之后的排名;最后一行表示的是各個(gè)排名與用戶理想排名之間的排名絕對誤差總和;表1<table>tableseeoriginaldocumentpage13</column></row><table>表3是一組以"畢加索"(Picasso)為關(guān)鍵詞的圖像搜索實(shí)驗(yàn)數(shù)據(jù);用戶想用"Picasso"去查找Picasso的自畫像,在60個(gè)圖片中僅有6是符合用戶需求的;表中每一欄表示的是這些符合需求的圖片在圖像搜索引擎Google,以及本方法得出的的排名;Rklst,Rk2nd,Rk3rd分別表示的是用戶在閱讀過搜索結(jié)果第l,2,3頁之后的排名情況;Rkgoogle表示的是這些圖像在Google圖像搜索的排名情況。最后一行是這些圖像在各個(gè)情況下的平均排名;平均排名值越小,用戶所需求的圖像將出現(xiàn)的越早;表3<table>tableseeoriginaldocumentpage14</column></row><table>表4是另外6組圖像搜索的實(shí)驗(yàn)數(shù)據(jù);實(shí)驗(yàn)中每個(gè)用戶都被要求在60個(gè)圖片中尋找他所需要的圖像;第一列為搜索關(guān)鍵詞,第二列為用戶所需要的圖片個(gè)數(shù);RkGoogle表示在網(wǎng)頁圖像搜索引擎Google中用戶所需網(wǎng)頁的平均排名;Rklst、Rk2nd、Rk3rd分別表示的是用戶在閱讀過搜索結(jié)果第l、2、3頁之后,用戶所需網(wǎng)頁圖像的平均排名;表4<table>tableseeoriginaldocumentpage14</column></row><table>上述表格表明,本發(fā)明有效地將用戶的喜好結(jié)合在搜索過程中,使得最終的排名結(jié)果更加接近用戶期待的理想排名,從而使得網(wǎng)頁文本與圖像搜索引擎為用戶提供更好的個(gè)性化服務(wù)。以上所述僅為本發(fā)明的基于關(guān)注時(shí)間的面向用戶的個(gè)性化網(wǎng)頁排序方法及系統(tǒng)的較佳實(shí)施例,并非用以限定本發(fā)明的實(shí)質(zhì)技術(shù)內(nèi)容的范圍。本發(fā)明的基于關(guān)注時(shí)間的面向用戶的個(gè)性化網(wǎng)頁排序方法及系統(tǒng),其實(shí)質(zhì)技術(shù)內(nèi)容是廣泛的定義于權(quán)利要求書中,任何他人所完成的技術(shù)實(shí)體或方法,若是與權(quán)利要求書中所定義者完全相同,或是同一等效的變更,均將被視為涵蓋于此專利保護(hù)范圍之內(nèi)。權(quán)利要求1.一種基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法,其特征在于包括以下步驟1)利用關(guān)注時(shí)間對現(xiàn)有網(wǎng)頁排序進(jìn)行個(gè)性化改進(jìn),使排序結(jié)果符合用戶心理;2)利用自定義的瀏覽器,收集文本關(guān)注時(shí)間的樣本信息;3)利用自定義的瀏覽器,收集圖片關(guān)注時(shí)間的樣本信息;4)對收集的關(guān)注時(shí)間樣本進(jìn)行校正;5)基于文本和圖片相似度來預(yù)測未知網(wǎng)頁的關(guān)注時(shí)間;6)利用關(guān)注時(shí)間結(jié)合傳統(tǒng)搜索技術(shù)生成個(gè)性化的網(wǎng)頁和圖片進(jìn)行排序。2.根據(jù)權(quán)利要求1所述的一種基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法,其特征在于所述的利用關(guān)注時(shí)間對現(xiàn)有網(wǎng)頁排序進(jìn)行個(gè)性化改進(jìn),使排序結(jié)果符合用戶心理步驟將關(guān)注時(shí)間作為用戶隱式反饋的來源,從而得知用戶的喜好特征,進(jìn)而對用戶未瀏覽過的網(wǎng)頁或圖片進(jìn)行關(guān)注時(shí)間的預(yù)測,最終根據(jù)預(yù)測的關(guān)注時(shí)間對結(jié)果進(jìn)行排序,關(guān)注時(shí)間是用戶在瀏覽一個(gè)網(wǎng)頁或圖片時(shí)花費(fèi)的閱讀或?yàn)g覽時(shí)間。3.根據(jù)權(quán)利要求1所述的一種基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法,其特征在于所述的利用自定義的瀏覽器,收集文本關(guān)注時(shí)間的樣本信息步驟客戶端是一個(gè)自定義的瀏覽器,對于文本搜索,在搜索結(jié)果頁面上,搜索引擎通常會(huì)在搜索結(jié)果頁面上為每個(gè)文檔提供幾行概要,追蹤鼠標(biāo)的移動(dòng)位置,從而來記錄用戶在某個(gè)文檔上花的時(shí)間,在被打開的頁面上,記錄用戶在此頁面上的活動(dòng)時(shí)間,對于此文檔的關(guān)注時(shí)間就是閱讀概要的時(shí)間加上閱讀整篇文檔的時(shí)間,如果之后用戶又回到已看過的頁面,那么該頁面的關(guān)注時(shí)間會(huì)相應(yīng)增加。4.根據(jù)權(quán)利要求1所述的一種基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法,其特征在于所述的利用自定義的瀏覽器,收集圖片關(guān)注時(shí)間的樣本信息步驟客戶端是一個(gè)自定義的瀏覽器,對于圖片搜索,搜索引擎會(huì)在結(jié)果頁面上顯式每個(gè)圖片的縮略圖,同樣的,關(guān)注時(shí)間是用戶看縮略圖的時(shí)間加上用戶看原圖的時(shí)間,如果一個(gè)文檔既有文字又有圖片,它的關(guān)注時(shí)間就是兩者之和。5.根據(jù)權(quán)利要求1所述的一種基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法,其特征在于所述的對收集的關(guān)注時(shí)間樣本進(jìn)行校正步驟對收集的關(guān)注時(shí)間樣本進(jìn)行校正式如下<formula>formulaseeoriginaldocumentpage3</formula>其中O是收集的關(guān)注時(shí)間,tb^(U)是用戶用來判斷此文檔是否值得一讀的時(shí)間,c(",rf)則是潛在的該文檔d包含的關(guān)注時(shí)間。6.根據(jù)權(quán)利要求1所述的一種基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法,其特征在于所述的基于文本和圖片相似度來預(yù)測未知網(wǎng)頁的關(guān)注時(shí)間步驟a)用6Vw^/。,^)來表示文檔A和文檔《之間的相似度,同時(shí)S/w(^。,《>爪v,在計(jì)算兩個(gè)文檔的相似度之前,刪除廣告,網(wǎng)頁源碼中的標(biāo)簽,以及網(wǎng)頁上面的導(dǎo)航欄;b)把每個(gè)訓(xùn)練樣本表示為/4/",刷其中"是當(dāng)前用戶閱讀過的文檔的個(gè)數(shù),閱讀過的文檔表示為4"=7,...,",當(dāng)用戶遇到一個(gè)新的文檔《的時(shí)候,計(jì)算文檔4和測試集中的所有文檔進(jìn)行相似度計(jì)算,挑選出A個(gè)具有最高相似度的文檔,把&設(shè)為w/"(70,"人挑選出來的文檔為^^7,…力,用以下這個(gè)方程來預(yù)測《的關(guān)注時(shí)間,其中用來控制^'w"的值占多的比重,是一個(gè)很小的正整數(shù)用來防止表達(dá)式的分母為0,函數(shù)^用來去除一些相似度非常低的文檔,它被定義為7.根據(jù)權(quán)利要求1所述的一種基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法,其特征在于所述的利用關(guān)注時(shí)間結(jié)合傳統(tǒng)搜索技術(shù)生成個(gè)性化的網(wǎng)頁和圖片進(jìn)行排序步驟c)當(dāng)用戶提交一個(gè)査詢請求時(shí),服務(wù)端首先將査詢重定向至傳統(tǒng)搜索引擎,并獲得返回的前n個(gè)網(wǎng)頁,對于返回的每個(gè)頁面,系統(tǒng)將在該用戶的樣本集中查找Fh與文本或圖片相似度最高的樣本,并用權(quán)利要求8中的方法預(yù)測網(wǎng)頁的關(guān)注時(shí)間;d)對于傳統(tǒng)的排序,系統(tǒng)會(huì)生成一個(gè)關(guān)注時(shí)間偏差,那就是在傳統(tǒng)排序中,排名越高的文檔,獲得更高的關(guān)注時(shí)間偏差,用如下公式定義這個(gè)偏差<formula>formulaseeoriginaldocumentpage3</formula>其中ra"Ar^表示的文檔/在Google的排序的排名,參數(shù)K用來控制關(guān)注時(shí)間隨排名下降的坡度;e)從文檔z'的關(guān)注時(shí)間^^(0和偏差tf:'W,獲得文檔的全局關(guān)注時(shí)間t=〃(0=^ra,,C')+t=(/),參數(shù)/^^是一個(gè)用戶變量,用來控制該用戶希望個(gè)性化的排名占的比重;f)最終排序?qū)凑湛傟P(guān)注時(shí)間的倒序排列。全文摘要本發(fā)明公開了一種基于用戶關(guān)注時(shí)間的網(wǎng)頁文本與圖像排序方法。包括以下步驟1)利用關(guān)注時(shí)間對現(xiàn)有網(wǎng)頁排序進(jìn)行個(gè)性化改進(jìn),使排序結(jié)果符合用戶心理;2)利用自定義的瀏覽器,收集文本關(guān)注時(shí)間的樣本信息;3)利用自定義的瀏覽器,收集圖片關(guān)注時(shí)間的樣本信息;4)對收集的關(guān)注時(shí)間樣本進(jìn)行校正;5)基于文本和圖片相似度來預(yù)測未知網(wǎng)頁的關(guān)注時(shí)間;6)利用關(guān)注時(shí)間結(jié)合傳統(tǒng)搜索技術(shù)生成個(gè)性化的網(wǎng)頁和圖片進(jìn)行排序。本發(fā)明有效地將用戶的喜好結(jié)合在搜索過程中,使得最終的排名結(jié)果更加接近用戶期待的理想排名,從而使得網(wǎng)頁文本與圖像搜索引擎為用戶提供更好的個(gè)性化服務(wù)。文檔編號(hào)G06F17/30GK101320387SQ20081012000公開日2008年12月10日申請日期2008年7月11日優(yōu)先權(quán)日2008年7月11日發(fā)明者劉智滿,徐頌華,浩江,潘云鶴申請人:浙江大學(xué)