專利名稱:基于監(jiān)視用戶行為生成網(wǎng)站簡檔的方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及在計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)中的搜索引擎的領(lǐng)域,特別 涉及為網(wǎng)站生成簡檔并且響應(yīng)于從網(wǎng)站提交的搜索查詢使用該簡檔來 定制搜索結(jié)果的排名的系統(tǒng)和方法。
背景技術(shù):
搜索引擎是從因特網(wǎng)(或內(nèi)聯(lián)網(wǎng))定位和檢索文檔的強(qiáng)大工具。 許多網(wǎng)站在其網(wǎng)頁上包括至少一個(gè)搜索框。在特定網(wǎng)頁上的搜索框典 型地使用戶能夠提交搜索查詢以在與該網(wǎng)頁相關(guān)聯(lián)的網(wǎng)站上搜索文 檔、或在因特網(wǎng)上搜索文檔。然而,大部分網(wǎng)站不具有用于處理這些 搜索查詢的專屬、專用的搜索引擎系統(tǒng)。如果搜索框使得能夠?qū)φ麄€(gè) 因特網(wǎng)搜索相關(guān)文檔,則尤為如此。相反地,搜索查詢被重定向到第 三方搜索引擎(例如,www.google.com)并且由其處理。第三方搜索 引擎響應(yīng)于搜索査詢(例如,通過搜索文檔的數(shù)據(jù)庫)生成搜索結(jié)果, 并且向請(qǐng)求用戶返回搜索結(jié)果。
慣例地,第三方搜索引擎產(chǎn)生的搜索結(jié)果獨(dú)立于提交搜索查詢的 網(wǎng)站。例如,無論搜索査詢是來自蘋果計(jì)算機(jī)用戶常訪問的在線零售 電子商店的網(wǎng)站還是來自雜貨店托管的在線購物網(wǎng)站,搜索引擎對(duì)于 搜索查詢"蘋果"都生成相同的搜索結(jié)果。明顯地,到這兩個(gè)網(wǎng)站的 訪問者具有不同的興趣并且應(yīng)當(dāng)接收不同的搜索結(jié)果。結(jié)果,對(duì)于搜
索查詢"蘋果"返回的搜索結(jié)果可能包括對(duì)到這些各個(gè)網(wǎng)站的訪問者 來說沒有多大興趣的結(jié)果。
對(duì)于包括與不同的網(wǎng)頁相關(guān)聯(lián)的多個(gè)搜索框的網(wǎng)站,可能出現(xiàn)類 似的問題。例如,體育新聞網(wǎng)站可以具有涵蓋國內(nèi)新聞的一個(gè)網(wǎng)頁以
8及專用于國際新聞的另一個(gè)網(wǎng)頁。在國內(nèi)新聞網(wǎng)頁上的搜索框內(nèi)輸入 詞語"足球"的用戶可能對(duì)與美式足球相關(guān)的新聞感興趣,而在國際 新聞網(wǎng)頁上的搜索框內(nèi)輸入同一詞語"足球"的用戶可能對(duì)關(guān)于英式 足球(在美國以外其被認(rèn)為是"足球")的新聞更感興趣。如果體育 新聞網(wǎng)站具有涵蓋不同運(yùn)動(dòng)的新聞的不同網(wǎng)頁,并且在這些頁面的每 一個(gè)中具有搜索框,則可能出現(xiàn)類似的問題。因此,當(dāng)搜索引擎忽略 提交搜索查詢的網(wǎng)頁時(shí),用戶不能接收到最適合其獨(dú)特興趣的搜索結(jié) 果。
鑒于前述,所希望的是具有下述搜索引擎可以根據(jù)提交相對(duì)應(yīng) 的搜索查詢的網(wǎng)站(或網(wǎng)頁)來定制其搜索結(jié)果,以使在對(duì)提交搜索 査詢的用戶來說最可能感興趣的搜索結(jié)果中突出信息項(xiàng)。此外,所希 望的是這樣的系統(tǒng)無需來自用戶的關(guān)于用戶的個(gè)人偏好和興趣的明 確輸入進(jìn)行操作,因此使用戶不用擔(dān)心暴露私人信息。
發(fā)明內(nèi)容
在對(duì)網(wǎng)站建檔的方法中,信息服務(wù)器從網(wǎng)站接收不同用戶提交的 多個(gè)搜索查詢。響應(yīng)于搜索查詢向請(qǐng)求用戶提供不同的搜索結(jié)果。信 息服務(wù)器監(jiān)視在搜索結(jié)果上的用戶行為,并且使用搜索查詢和用戶行 為為網(wǎng)站生成簡檔。
在提供依賴于網(wǎng)站的搜索結(jié)果的方法中,信息服務(wù)器從兩個(gè)網(wǎng)站 接收相同的查詢并且識(shí)別與搜索查詢相關(guān)聯(lián)的多個(gè)信息項(xiàng)。信息服務(wù) 器使用兩個(gè)網(wǎng)站的簡檔來將信息項(xiàng)定制為兩種不同的次序并且以該兩 種不同的次序?qū)⑿畔㈨?xiàng)派發(fā)到兩個(gè)網(wǎng)站。兩個(gè)網(wǎng)站簡檔與兩個(gè)網(wǎng)站的 搜索歷史相關(guān)。
包括網(wǎng)站簡檔創(chuàng)建以及搜索結(jié)果重新排序和/或評(píng)分的本發(fā)明可 以在客戶端-服務(wù)器網(wǎng)絡(luò)環(huán)境的客戶端側(cè)或服務(wù)器端側(cè)上實(shí)現(xiàn)。
當(dāng)結(jié)合附圖考慮時(shí),作為本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)描述的結(jié)果, 將在下文中更清楚地理解本發(fā)明的前述特征和優(yōu)勢(shì)以及本發(fā)明的附加 特征和優(yōu)勢(shì)。
圖1是根據(jù)本發(fā)明的一些實(shí)施例的包括從信息服務(wù)器請(qǐng)求信息的 多個(gè)網(wǎng)站和客戶端的示例分布式系統(tǒng)的框圖。
圖2是根據(jù)本發(fā)明的一些實(shí)施例的用于使用與網(wǎng)站(或網(wǎng)頁)相 關(guān)聯(lián)的搜索査詢、搜索結(jié)果和用戶行為生成網(wǎng)站(或網(wǎng)頁)簡檔的過 程的流程圖。
圖3是根據(jù)本發(fā)明的一些實(shí)施例的用于通過將增加的網(wǎng)站(或網(wǎng) 頁)簡檔合并入網(wǎng)站(或網(wǎng)頁)簡檔來更新網(wǎng)站(或網(wǎng)頁)簡檔的過 程的框圖。
圖4是表征從網(wǎng)站(或網(wǎng)頁)提交的搜索查詢的流行性分布的曲 線的預(yù)言性示例。
圖5是示出了根據(jù)本發(fā)明的一些實(shí)施例的如何將創(chuàng)建網(wǎng)站簡檔的
過程分成多個(gè)子過程的框圖。
圖6A是根據(jù)本發(fā)明的一些實(shí)施例的可以被用于生成基于類別的 網(wǎng)站簡檔的示例類別圖的框圖。
圖6B是根據(jù)本發(fā)明的一些實(shí)施例的可以被用于存儲(chǔ)基于類別的 網(wǎng)站簡檔的示例數(shù)據(jù)結(jié)構(gòu)的框圖。
圖7是根據(jù)本發(fā)明的一些實(shí)施例的可以被用于存儲(chǔ)基于詞語的網(wǎng) 站簡檔的示例數(shù)據(jù)結(jié)構(gòu)的框圖。
圖8是根據(jù)本發(fā)明的一些實(shí)施例的可以被用于存儲(chǔ)基于鏈接的網(wǎng) 站簡檔的示例數(shù)據(jù)結(jié)構(gòu)的框圖。
圖9是根據(jù)本發(fā)明的一些實(shí)施例的用于使用網(wǎng)站簡檔來生成依賴 于網(wǎng)站的搜索結(jié)果的過程的流程圖。
圖IO是根據(jù)本發(fā)明的一些實(shí)施例的示例數(shù)據(jù)結(jié)構(gòu)的框圖,所述示 例數(shù)據(jù)結(jié)構(gòu)可以被用于存儲(chǔ)用于搜索結(jié)果中的文檔的基于類別、基于 詞語以及基于鏈接的提升因素。圖11是根據(jù)本發(fā)明的一些實(shí)施例的用于使用網(wǎng)站簡檔來生成依 賴于網(wǎng)站的搜索結(jié)果的另一個(gè)過程的流程圖。
圖12是根據(jù)本發(fā)明的一些實(shí)施例的示例信息服務(wù)器的框圖。
在附圖的全部多個(gè)視圖中,相同的參考標(biāo)記是指相對(duì)應(yīng)的部分。
具體實(shí)施例方式
為了說明性的目的,在下面論述的實(shí)施例僅包括基于與網(wǎng)站相關(guān) 聯(lián)的搜索歷史來生成網(wǎng)站簡檔,并且然后響應(yīng)于從該網(wǎng)站提交的搜索 查詢使用該網(wǎng)站簡檔來對(duì)搜索結(jié)果進(jìn)行排名的系統(tǒng)和方法。然而,對(duì) 本領(lǐng)域的技術(shù)人員顯而易見的是,在下面論述的基本原理可以被容易 地?cái)U(kuò)展來創(chuàng)建網(wǎng)頁簡檔并且使用該網(wǎng)頁簡檔來生成依賴于網(wǎng)頁的搜索 結(jié)果。
圖1是用于實(shí)現(xiàn)本發(fā)明的一些實(shí)施例的示例環(huán)境100的框圖。一 個(gè)或多個(gè)網(wǎng)站102和客戶端103可以被連接到通信網(wǎng)絡(luò)104。通信網(wǎng)絡(luò) 104可以被連接到信息服務(wù)器106。信息服務(wù)器106可以包括前端服務(wù) 器120、搜索引擎122、文檔建檔器125、網(wǎng)站建檔器129、搜索結(jié)果 排名器126、文檔簡檔數(shù)據(jù)庫123、內(nèi)容數(shù)據(jù)庫124、搜索歷史數(shù)據(jù)庫 127以及網(wǎng)站簡檔數(shù)據(jù)庫12S。
在一些實(shí)施例中,信息服務(wù)器106包含圖1中所示的元件的子集 或超集。盡管圖1將信息服務(wù)器106示出為多個(gè)離散項(xiàng),但是該圖更 意在作為可以在信息服務(wù)器106中展現(xiàn)的各種特征的功能性描述而非 各種實(shí)施例的結(jié)構(gòu)性示意圖。實(shí)際上,如在設(shè)計(jì)這樣的系統(tǒng)的領(lǐng)域中 的普通技術(shù)人員將認(rèn)識(shí)到的那樣,分離示出的項(xiàng)可以被組合并且某些 項(xiàng)可以被進(jìn)一步分離。例如,在圖中分離示出的四個(gè)不同的數(shù)據(jù)庫123、 124、 127和128可以由單個(gè)數(shù)據(jù)庫服務(wù)器來實(shí)現(xiàn)。構(gòu)成信息服務(wù)器106 的計(jì)算機(jī)的實(shí)際數(shù)量以及在計(jì)算機(jī)中的特征的分配將根據(jù)實(shí)施方式而 有所不同,并且可以部分根據(jù)信息服務(wù)器106在高峰使用期間以及在平均使用期間必須處理的流量。
網(wǎng)站102典型地是與因特網(wǎng)上的域名相關(guān)聯(lián)的網(wǎng)頁的集合。每一 個(gè)網(wǎng)站(或網(wǎng)頁)具有在因特網(wǎng)上唯一識(shí)別該網(wǎng)站(或網(wǎng)頁)的位置 的統(tǒng)一資源定位符(URL)。任何訪問者可以通過在瀏覽器窗口中輸
入網(wǎng)站的URL來訪問該網(wǎng)站。網(wǎng)站可以由域名的所有者專有的web服 務(wù)器或其中其web服務(wù)器管理與不同域名相關(guān)聯(lián)的多個(gè)網(wǎng)站的因特網(wǎng)
服務(wù)提供商托管。為了說明性的目的,網(wǎng)站102包括兩個(gè)網(wǎng)頁114和 116,每一個(gè)分別具有相關(guān)聯(lián)的搜索框115和117。通過搜索框115 (或 117),到網(wǎng)頁114 (或116)的訪問者可以通過將搜索查詢輸入到搜 索框中來對(duì)網(wǎng)站102或整個(gè)因特網(wǎng)搜索相關(guān)信息。根據(jù)上下文,如在 該文檔中所使用的術(shù)語"網(wǎng)站"是指由URL識(shí)別的邏輯位置(例如, 因特網(wǎng)或內(nèi)聯(lián)網(wǎng)位置)、或其是指托管由URL表示的網(wǎng)站的web服務(wù) 器、或指這兩者。
客戶端103可以是多個(gè)裝置中的任何裝置(例如,計(jì)算機(jī)、因特 網(wǎng)信息站、個(gè)人數(shù)字助理、蜂窩電話、游戲裝置、臺(tái)式計(jì)算機(jī)或膝上 型計(jì)算機(jī)),并且可以包括客戶端應(yīng)用132、客戶端助理134和/或客 戶端存儲(chǔ)器136??蛻舳藨?yīng)用132可以是允許用戶與客戶端103禾口/或 網(wǎng)絡(luò)資源相交互以執(zhí)行一個(gè)或多個(gè)任務(wù)的軟件應(yīng)用。例如,客戶端應(yīng) 用132可以是允許用戶從客戶端103搜索、瀏覽和/或使用和/或經(jīng)由通 信網(wǎng)絡(luò)104可以訪問在網(wǎng)站102的資源(例如,網(wǎng)頁和web服務(wù))的 瀏覽器(例如,F(xiàn)irefox)或其它類型的應(yīng)用??蛻舳酥?34可以是 執(zhí)行與監(jiān)視或輔助關(guān)于客戶端應(yīng)用132和/或其它應(yīng)用的用戶行為相關(guān) 的一個(gè)或多個(gè)任務(wù)的軟件應(yīng)用。例如,客戶端助理134輔助在客戶端 103的用戶瀏覽由網(wǎng)站102托管的資源(例如,文件);處理從信息服 務(wù)器106接收的信息(例如,搜索結(jié)果);以及監(jiān)視在搜索結(jié)果上的 用戶行為。在一些實(shí)施例中,客戶端助理134是客戶端應(yīng)用132的一 部分,其可作為客戶端應(yīng)用132的插件或擴(kuò)展獲得(例如,從各種在 線源提供),而在其它的實(shí)施例中,客戶端應(yīng)用是與客戶端應(yīng)用132分離的單機(jī)程序。在一些實(shí)施例中,客戶端助理134被嵌入在從諸如 信息服務(wù)器106的一個(gè)或多個(gè)服務(wù)器下載的一個(gè)或多個(gè)網(wǎng)頁或其它文
檔中??蛻舳舜鎯?chǔ)器136可以存儲(chǔ)諸如從信息服務(wù)器106接收的網(wǎng)頁、
文檔的信息、系統(tǒng)信息和/或關(guān)于用戶的信息等。
通信網(wǎng)絡(luò)104可以是任何有線或無線的局域網(wǎng)(LAN)和/或廣域 網(wǎng)(WAN),諸如內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)或因特網(wǎng)。通信網(wǎng)絡(luò)104在網(wǎng)站102、 客戶端103和信息服務(wù)器106之間提供通信能力即可。在一些實(shí)施例 中,通信網(wǎng)絡(luò)104使用超文本傳輸協(xié)議(HTTP)以使用傳輸控制協(xié)議 /網(wǎng)際協(xié)議(TCP/IP)來傳輸信息。HTTP允許客戶端計(jì)算機(jī)訪問經(jīng)由 通信網(wǎng)絡(luò)104可訪問的各種資源。然而,本發(fā)明的各種實(shí)施例不限于 使用任何特定的協(xié)議。如該整個(gè)說明書所使用的術(shù)語"資源"是指經(jīng) 由URL可訪問的任何信息片段或服務(wù),并且可以是例如網(wǎng)頁、文檔、 數(shù)據(jù)庫、圖像、計(jì)算對(duì)象、搜索引擎或其它在線信息服務(wù)。
為了接收依賴于網(wǎng)站的搜索結(jié)果,來自客戶端103的用戶首先向 網(wǎng)站102發(fā)送對(duì)網(wǎng)頁的請(qǐng)求。網(wǎng)站通過識(shí)別所請(qǐng)求的網(wǎng)頁作出響應(yīng), 并且將所識(shí)別的網(wǎng)頁返回到請(qǐng)求客戶端103。網(wǎng)頁可以包括用戶感興趣 的文檔(例如,報(bào)紙文章)。網(wǎng)頁也可以包括搜索框(例如,在或靠 近網(wǎng)頁的頂部)。當(dāng)瀏覽網(wǎng)頁的內(nèi)容時(shí)或在瀏覽網(wǎng)頁的內(nèi)容后,用戶 可能對(duì)獲得更多的信息感興趣。為了這樣做,用戶可以將搜索查詢輸 入到搜索框中,并且將搜索查詢提交到網(wǎng)站102。搜索查詢可以包括一 個(gè)或多個(gè)查詢?cè)~語。
如上所述,許多網(wǎng)站沒有專用的搜索引擎。其搜索請(qǐng)求實(shí)際上由 第三方搜索引擎處理。在一些實(shí)施例中,在接收搜索查詢后,網(wǎng)站102 生成搜索請(qǐng)求并且將其發(fā)送到信息服務(wù)器106。在一些其它的實(shí)施例 中,客戶端103生成搜索請(qǐng)求并且將其直接發(fā)送到信息服務(wù)器106而 不用通過網(wǎng)站102路由請(qǐng)求。在任一種情況中,搜索請(qǐng)求包括搜索査 詢以及請(qǐng)求網(wǎng)站102和請(qǐng)求客戶端103的唯一標(biāo)識(shí)符。在信息服務(wù)器106內(nèi),前端服務(wù)器120被配置來處理經(jīng)由網(wǎng)站102 和客戶端103與通信網(wǎng)絡(luò)104的各自的連接而來自網(wǎng)站102和客戶端 103的各種請(qǐng)求。如圖1中所示,分別地,前端服務(wù)器120被連接到搜 索引擎122并且搜索引擎122被連接到內(nèi)容數(shù)據(jù)庫124。內(nèi)容數(shù)據(jù)庫 124存儲(chǔ)從不同網(wǎng)站檢索的大量索引文檔。替選地,或另外地,內(nèi)容數(shù) 據(jù)庫124存儲(chǔ)在各種網(wǎng)站上存儲(chǔ)的文檔的索引。在一個(gè)實(shí)施例中,根 據(jù)文檔的鏈接結(jié)構(gòu)向每一個(gè)索引文檔分配一頁面排名。頁面排名用作 文檔的重要性的不依賴査詢的測(cè)量。
前端服務(wù)器120將搜索請(qǐng)求傳遞到搜索引擎122上。搜索引擎122 然后響應(yīng)于搜索請(qǐng)求與內(nèi)容數(shù)據(jù)庫124相通信來選擇多個(gè)文檔。搜索 引擎122基于文檔的頁面排名、與文檔相關(guān)聯(lián)的文本以及搜索查詢向 每一個(gè)文檔分配普通排名分值。
搜索引擎122還被連接到文檔簡檔數(shù)據(jù)庫123。文檔簡檔數(shù)據(jù)庫 123存儲(chǔ)用于內(nèi)容數(shù)據(jù)庫124中的每一個(gè)索引文檔的文檔簡檔。文檔簡 檔數(shù)據(jù)庫123和內(nèi)容數(shù)據(jù)庫124都連接到文檔建檔器125。對(duì)于內(nèi)容數(shù) 據(jù)庫124中的每一個(gè)文檔,文檔建檔器通過分析文檔的內(nèi)容和其鏈接 結(jié)構(gòu)來生成文檔簡檔。文檔簡檔的生成獨(dú)立于搜索引擎122的操作。 在一個(gè)實(shí)施例中,每當(dāng)信息服務(wù)器106識(shí)別了因特網(wǎng)上的新文檔或現(xiàn) 有文檔的新版本,文檔建檔器125便被調(diào)用來生成文檔簡檔。在另一 個(gè)實(shí)施例中,文檔建檔器125被周期性地調(diào)用來為在預(yù)定時(shí)間段內(nèi)識(shí) 別的所有新文件生成文檔簡檔。在一些實(shí)施例中,替代文檔簡檔數(shù)據(jù) 庫123和內(nèi)容數(shù)據(jù)庫124為兩個(gè)單獨(dú)的實(shí)體,文檔簡檔數(shù)據(jù)庫123和 內(nèi)容數(shù)據(jù)庫124被合并在一起,使得文檔和其相關(guān)聯(lián)的簡檔可以由單 個(gè)數(shù)據(jù)庫査詢來定位。
存在從搜索引擎122到搜索結(jié)果排名器126的連接。通過該連接, 搜索引擎122將所識(shí)別的文檔和其相關(guān)聯(lián)的文檔簡檔發(fā)送到搜索結(jié)果
14排名器126。搜索結(jié)果排名器126具有到網(wǎng)站簡檔數(shù)據(jù)庫128的連接。 如同文檔簡檔數(shù)據(jù)庫123,網(wǎng)站簡檔數(shù)據(jù)庫128存儲(chǔ)包括請(qǐng)求網(wǎng)站102 的簡檔的大量網(wǎng)站簡檔。使用請(qǐng)求網(wǎng)站102的簡檔,搜索結(jié)果排名器 126將每一個(gè)所識(shí)別的文檔的普通排名分值轉(zhuǎn)換為依賴于網(wǎng)站的排名 分值。然后根據(jù)文檔各自的依賴于網(wǎng)站的排名分值對(duì)文檔重新排序。 接著,搜索結(jié)果排名器126根據(jù)文檔的更新次序創(chuàng)建搜索結(jié)果,搜索 結(jié)果包括多個(gè)文檔鏈接,每一個(gè)文檔一個(gè)鏈接。搜索結(jié)果或搜索結(jié)果 的一部分(例如,識(shí)別前10、 15或20個(gè)結(jié)果的信息)被返回到請(qǐng)求 客戶端103并且通過客戶端應(yīng)用132向用戶顯示。在瀏覽了搜索結(jié)果 后,用戶可以點(diǎn)擊搜索結(jié)果中的一個(gè)或多個(gè)文檔鏈接來下載并査看由 搜索結(jié)果識(shí)別的一個(gè)或多個(gè)文檔。
雖然上面的描述以特定的方式將任務(wù)劃分在搜索引擎122、搜索 結(jié)果排名器126和前端服務(wù)器120中,但是任務(wù)的這種特定劃分是示 例性的,并且在本發(fā)明的其它實(shí)施例中可以使用其它的劃分。例如, 可以將(接收搜索查詢的網(wǎng)站的)網(wǎng)站簡檔與搜索查詢一起傳送到搜 索引擎122,并且搜索引擎122可以使用該信息來計(jì)算網(wǎng)站特定文檔分 值,用于對(duì)搜索結(jié)果排名。實(shí)際上,這會(huì)將搜索結(jié)果排名器126合并 入搜索引擎122中。在還一些其它實(shí)施例中,可以使用任務(wù)的其它劃 分。
派發(fā)依賴于網(wǎng)站的搜索結(jié)果的過程的重要方面是存儲(chǔ)在網(wǎng)站簡檔 數(shù)據(jù)庫128中的網(wǎng)站簡檔的生成和維護(hù)。網(wǎng)站簡檔應(yīng)當(dāng)反映相關(guān)聯(lián)的 網(wǎng)站的用戶的興趣,并且在許多實(shí)施例中,網(wǎng)站簡檔對(duì)其相關(guān)聯(lián)的網(wǎng) 站將是唯一的。例如,消費(fèi)類電子網(wǎng)站應(yīng)當(dāng)具有提升與電子產(chǎn)品相關(guān) 的網(wǎng)頁的網(wǎng)站簡檔,而在線雜貨店網(wǎng)站應(yīng)當(dāng)具有提級(jí)與農(nóng)產(chǎn)品相關(guān)的 網(wǎng)頁的網(wǎng)站簡檔。
在大部分實(shí)施例中,網(wǎng)站簡檔不是靜態(tài)的,因?yàn)殪o態(tài)網(wǎng)站簡檔不 太可能致使信息服務(wù)器106將最相關(guān)的搜索結(jié)果派發(fā)給相關(guān)聯(lián)的網(wǎng)站的用戶。替代地,時(shí)常更新網(wǎng)站簡檔(例如周期性地),以使用網(wǎng)站 的用戶的當(dāng)前興趣來重新排列網(wǎng)站簡檔。雖然某些網(wǎng)站簡檔可以在很 長一段時(shí)間基本上保持靜態(tài)(例如,為少許、靜態(tài)用戶群服務(wù)的網(wǎng)站, 所述用戶從在之上只有很窄范圍的主題的所述網(wǎng)站提交搜索),但是 許多網(wǎng)站簡檔將隨時(shí)間推移隨著網(wǎng)站的用戶改變而變化,并且隨著網(wǎng) 站的用戶的興趣隨時(shí)間推移變化而變化。
在網(wǎng)站簡檔和用戶簡檔之間存在相似性。兩種簡檔都可以被用來 細(xì)微調(diào)整搜索引擎生成的搜索結(jié)果。兩者都需要與至少一個(gè)用戶的搜 索歷史有關(guān)的信息,以便捕捉用戶的動(dòng)態(tài)搜索興趣。但是在兩種類型 的簡檔之間也存在顯著差別。典型的用戶簡檔是通過分析個(gè)人用戶的 搜索歷史來生成的。該用戶簡檔僅被用來響應(yīng)于同一用戶提交的搜索 查詢而調(diào)節(jié)搜索結(jié)果。對(duì)于相同的搜索查詢,如果兩個(gè)不同的用戶具 有不同的用戶簡檔,則其可以從同一搜索引擎接收不同的搜索結(jié)果。 相比之下,網(wǎng)站簡檔是通過分析多個(gè)用戶在訪問該網(wǎng)站時(shí)的搜索歷史 來生成的,以表征多個(gè)用戶的興趣。該網(wǎng)站簡檔可以被用來響應(yīng)于任 何用戶從同一網(wǎng)站提交的搜索查詢而調(diào)節(jié)搜索結(jié)果,所述用戶包括其 先前對(duì)網(wǎng)站簡檔未作出"貢獻(xiàn)"的網(wǎng)站的新用戶。因此,如果兩個(gè)網(wǎng) 站具有不同的網(wǎng)站簡檔,則從所述兩個(gè)不同的網(wǎng)站提交相同的搜索查
詢的同一用戶可以接收不同的搜索結(jié)果。
在保護(hù)用戶的隱私方面,網(wǎng)站簡檔相對(duì)于用戶簡檔也具有重要優(yōu) 勢(shì)。用戶簡檔與個(gè)人用戶相關(guān)聯(lián)。為了創(chuàng)建用戶簡檔,個(gè)人用戶明確 地或暗含地(例如,通過監(jiān)視或記錄搜索査詢以及用戶的其它在線行 為)需要完成其個(gè)人偏好的調(diào)査。該調(diào)查指示用戶可能對(duì)哪些信息項(xiàng) 感興趣。此外,用戶必須在網(wǎng)站或搜索引擎系統(tǒng)具有賬戶,并且用戶 必須登錄入其賬戶以調(diào)用用戶簡檔來使搜索結(jié)果個(gè)性化。相比之下, 網(wǎng)站簡檔的創(chuàng)建和使用不需要來自任何用戶的任何個(gè)人信息。網(wǎng)站簡 檔與網(wǎng)站而不是個(gè)人用戶相關(guān)聯(lián)。在網(wǎng)站上的任何個(gè)人用戶的行為被 歸因于網(wǎng)站的所有用戶。用戶不需要為了使用網(wǎng)站簡檔而登錄入其在網(wǎng)站的賬戶。只要從網(wǎng)站提交了搜索查詢,信息服務(wù)器就自動(dòng)根據(jù)網(wǎng) 站簡檔使相對(duì)應(yīng)的搜索結(jié)果"個(gè)性化"。
如圖1所示,網(wǎng)站建檔器129負(fù)責(zé)生成和更新網(wǎng)站簡檔。為了捕 捉與特定網(wǎng)站相關(guān)聯(lián)的當(dāng)前用戶興趣,網(wǎng)站建檔器129需要具有對(duì)在 網(wǎng)站處的用戶搜索歷史的訪問權(quán)。用戶搜索歷史包括用戶在訪問網(wǎng)站 時(shí)提交的搜索査詢、響應(yīng)于搜索査詢的搜索結(jié)果、以及在搜索結(jié)果上 的用戶行為(例如,對(duì)文檔鏈接的選擇,有時(shí)稱為對(duì)搜索結(jié)果的"點(diǎn) 擊"、或在文檔鏈接上的鼠標(biāo)懸停時(shí)間)。
例如,當(dāng)前端服務(wù)器120從網(wǎng)站接收搜索查詢時(shí),其向搜索引擎 122提交搜索查詢的副本以要求搜索結(jié)果。另外,前端服務(wù)器120將搜 索査詢的另一個(gè)副本發(fā)送到搜索歷史數(shù)據(jù)庫127。搜索歷史數(shù)據(jù)庫127 然后生成記錄,該記錄至少包括搜索査詢和接收搜索查詢的網(wǎng)站的標(biāo) 識(shí)符。
響應(yīng)于搜索查詢,搜索結(jié)果排名器126準(zhǔn)備搜索結(jié)果。搜索結(jié)果 (即,表示搜索結(jié)果的至少一部分的信息)通過前端服務(wù)器120被發(fā) 送回請(qǐng)求客戶端。搜索結(jié)果或搜索結(jié)果的一部分的副本也與搜索查詢 記錄一起被存儲(chǔ)在搜索歷史數(shù)據(jù)庫127中。在請(qǐng)求客戶端的客戶端助 理134監(jiān)視在搜索結(jié)果上的請(qǐng)求用戶的行為,例如,記錄對(duì)搜索結(jié)果 中的文檔鏈接的用戶選擇和/或在不同文檔鏈接上的鼠標(biāo)懸停時(shí)間。在 一些實(shí)施例中,客戶端助理134或網(wǎng)站建檔器129通過確定在用戶選 擇相對(duì)應(yīng)的文檔鏈接和用戶從該文檔退出之間的時(shí)間量來為用戶選擇 的文檔確定文檔"駐留時(shí)間"。在一些實(shí)施例中,客戶端助理134包 括存儲(chǔ)在包含搜索結(jié)果的網(wǎng)頁中的可執(zhí)行指令,所述指令監(jiān)視關(guān)于搜 索結(jié)果的用戶行動(dòng)并且將與所監(jiān)視的用戶行動(dòng)有關(guān)的信息傳送回信息 服務(wù)器106。信息服務(wù)器106進(jìn)而存儲(chǔ)被轉(zhuǎn)送回信息服務(wù)器106并且存 儲(chǔ)在搜索歷史數(shù)據(jù)庫127中用于以后使用的與這些用戶行為有關(guān)的信 息。
17例如,網(wǎng)站建檔器129記錄用戶提交搜索查詢的時(shí)刻(t0)、用 戶點(diǎn)擊在相對(duì)應(yīng)的搜索結(jié)果中的第一文檔鏈接的時(shí)刻(tl)以及用戶點(diǎn)
擊在搜索結(jié)果中的第二文檔鏈接的時(shí)刻(t2)等等。兩個(gè)連續(xù)時(shí)刻之間 的差(例如,tl-t0或t2-tl)是花費(fèi)來査看用戶選擇了其鏈接的搜索結(jié) 果或文檔的時(shí)間量的合理近似值。在一些實(shí)施例中,網(wǎng)站建檔器129 沒有與用戶選擇來查看的搜索結(jié)果中的最后文檔的用戶駐留時(shí)間有關(guān) 的信息。在一些其它的實(shí)施例中(例如,其中至少一些用戶"選擇加 入"收集與用戶的在線行為有關(guān)的附加信息的客戶端助理的版本), 網(wǎng)站建檔器129在用戶完成查看來自搜索結(jié)果的文檔后還接收用戶行 動(dòng)的點(diǎn)擊和時(shí)間戳信息。繼續(xù)上面的示例,網(wǎng)站建檔器129進(jìn)一步記 錄用戶提交第二査詢的時(shí)刻(t3)、用戶從第二搜索結(jié)果選擇文檔的時(shí) 刻(t4)等等。此外,網(wǎng)站建檔器129可以記錄用戶何時(shí)關(guān)閉被用來査 看搜索結(jié)果和在搜索結(jié)果中列出的文檔的瀏覽器窗口或?qū)Ш竭h(yuǎn)離接收 查詢的網(wǎng)站的時(shí)刻(t5)。該附加信息使網(wǎng)站建檔器129能夠?yàn)橛脩舨?看的所有搜索結(jié)果文檔(即,在搜索結(jié)果中列出的文檔)確定用戶駐 留時(shí)間,其進(jìn)而使網(wǎng)站建檔器129能夠?yàn)榫W(wǎng)站生成更精確的網(wǎng)站簡檔。
基于網(wǎng)站的搜索歷史信息,網(wǎng)站建檔器129生成網(wǎng)站簡檔。圖2 是根據(jù)本發(fā)明的一些實(shí)施例的用于使用網(wǎng)站的搜索歷史來生成網(wǎng)站簡 檔的過程的流程圖。初始,網(wǎng)站建檔器129識(shí)別從網(wǎng)站提交的搜索査 詢(210)。雖然在大部分情況下,這將包括從網(wǎng)站提交的所有搜索查 詢,但是在非常流行或繁忙的網(wǎng)站的情況下,所識(shí)別的搜索查詢可以 包括所提交的搜索査詢的子集或取樣。在預(yù)定時(shí)間內(nèi)從網(wǎng)站提交的搜 索查詢大概地代表使用該網(wǎng)站的用戶的普遍興趣。搜索查詢與捕捉隨 時(shí)間變化的動(dòng)態(tài)用戶興趣尤其相關(guān)。與搜索查詢結(jié)合,網(wǎng)站建檔器129 識(shí)別相對(duì)應(yīng)的搜索結(jié)果(215)。在一些實(shí)施例中,搜索結(jié)果與所嵌入 的客戶端助理134 —起被派發(fā)到請(qǐng)求用戶,該客戶端助理134將與搜 索結(jié)果上的用戶行為有關(guān)的信息發(fā)送到網(wǎng)站建檔器127。網(wǎng)站建檔器使 用客戶端助理發(fā)送的信息來識(shí)別在搜索結(jié)果上的用戶行為(230)。所識(shí)別的用戶行為可以包括在搜索結(jié)果中的文檔鏈接上的用戶點(diǎn)擊。在 另一個(gè)示例中,所識(shí)別的用戶行為可以包括在文檔鏈接上的鼠標(biāo)懸停 時(shí)間。 一般而言,如果用戶對(duì)文檔的內(nèi)容感興趣,該用戶才點(diǎn)擊文檔 鏈接。類似地,鼠標(biāo)移動(dòng)到特定文檔鏈接上并且在那里停留大量時(shí)間 的事實(shí)指示該文檔與用戶的興趣相關(guān)。在一些實(shí)施例中,可能無法使 用關(guān)于鼠標(biāo)懸停時(shí)間的信息。
網(wǎng)站建檔器129可以根據(jù)在不同搜索結(jié)果上的用戶行為來識(shí)別網(wǎng) 站用戶所選擇的文檔。在一些實(shí)施例中,網(wǎng)站建檔器129訪問內(nèi)容數(shù)
據(jù)庫124以檢索相對(duì)應(yīng)的文檔的簡檔(235)。如上所述,每一個(gè)所識(shí) 別的文檔可以具有先前生成的簡檔(例如,類別簡檔)。如果任何所 識(shí)別的文檔還沒有簡檔,則可以忽略那些文檔、或網(wǎng)站建檔器可以調(diào) 用文檔建檔器125來為那些文檔產(chǎn)生文檔簡檔。然后從所檢索的文檔 簡檔生成網(wǎng)站簡檔(240)。網(wǎng)站簡檔可以包括下列的一個(gè)或多個(gè)類 別的加權(quán)列表或向量(有時(shí)稱為類別簡檔)、來自搜索查詢和/或用戶 所訪問的文檔的關(guān)鍵詞(有時(shí)稱為詞語簡檔)、以及與指向用戶所訪 問的文檔的鏈接有關(guān)的信息(有時(shí)稱為鏈接簡檔)。該網(wǎng)站簡檔被存 儲(chǔ)在網(wǎng)站簡檔數(shù)據(jù)庫128中。搜索結(jié)果排名器126可以檢索網(wǎng)站簡檔 以對(duì)搜索結(jié)果內(nèi)的文檔的排名重新排序。
在一些其它的實(shí)施例中,用聚類操作替代操作235和240,在所 述聚類操作中完全基于同一用戶點(diǎn)擊文檔的相關(guān)聯(lián)的鏈接的事實(shí)來聚 類用戶所選擇的文檔。替選地,網(wǎng)站建檔器對(duì)照與特定類別相關(guān)聯(lián)的 一組已知URL來直接匹配文檔的URL。在任一種情況下,網(wǎng)站建檔器 129不需要為了生成網(wǎng)站簡檔而訪問文檔的內(nèi)容。
在還一些其它實(shí)施例中,用將從網(wǎng)站提交的查詢映射到一組類別 的過程來替代操作230至240。可以基于查詢自身中的詞語,或通過訪 問前N個(gè)搜索結(jié)果(例如,前5、 10、 15或20個(gè)搜索結(jié)果)的簡檔、 將那些文檔簡檔合并來為每一個(gè)查詢產(chǎn)生査詢簡檔并且合并查詢簡
19檔,來根據(jù)網(wǎng)站的搜索框的用戶提交的查詢的頻率對(duì)查詢的歸類進(jìn)行 加權(quán)以生成網(wǎng)站簡檔。如在下面參考圖4所論述的,該過程可以排除 被認(rèn)為不可能與網(wǎng)站的用戶的主要興趣相關(guān)的査詢。
如上所述,時(shí)常更新網(wǎng)站簡檔以便跟蹤訪問網(wǎng)站的用戶的當(dāng)前興 趣(245)。在一些實(shí)施例中,在預(yù)定的時(shí)間間隔(例如,每周或每天) 更新網(wǎng)站簡檔。在一些其它的實(shí)施例中,每當(dāng)自最后(即,最近)更 新后在網(wǎng)站處的新的搜索査詢的數(shù)量達(dá)到閾值,便更新網(wǎng)站簡檔。每
當(dāng)?shù)礁戮W(wǎng)站簡檔的時(shí)候,網(wǎng)站建檔器129重復(fù)前述過程來更新網(wǎng)站簡檔。
在一些實(shí)施例中,不同的網(wǎng)站吸引很大不同量值的流量,并且因 此在簡檔更新方面應(yīng)當(dāng)不同對(duì)待。例如,流行的網(wǎng)站每天可以接收好 幾萬點(diǎn)擊,而不那么流行的網(wǎng)站可以具有低許多的點(diǎn)擊率。搜索歷史
數(shù)據(jù)庫126可以為不同的網(wǎng)站分配存儲(chǔ)空間量。結(jié)果,在網(wǎng)站的下一
排定的簡檔更新之前,與流行的網(wǎng)站相關(guān)聯(lián)的搜索歷史的量不會(huì)用盡 其指派的空間并且不那么流行的網(wǎng)站沒有浪費(fèi)太多空間。
某些網(wǎng)站太流行以致為了簡檔更新的目的將所有搜索歷史存儲(chǔ)在
搜索歷史數(shù)據(jù)庫127中是不切實(shí)際的。例如,在線書店在發(fā)布新的暢 銷書時(shí)可以具有顯著大量的訪問者。在短時(shí)間段內(nèi)具有顯著流量的網(wǎng) 站存在兩個(gè)問題。第一,該流量高峰可以使網(wǎng)站的簡檔有偏差。可能 需要特定的照顧來確保網(wǎng)站簡檔在網(wǎng)站用戶的短期和長期興趣之間具 有恰當(dāng)?shù)钠胶?。第二,搜索歷史數(shù)據(jù)庫127可能沒有空間來存儲(chǔ)所有 的搜索歷史。解決該問題的一個(gè)方法是有意地忽略搜索查詢、搜索結(jié) 果以及用戶行為中的一些。這可以通過對(duì)搜索查詢、搜索結(jié)果和/或用 戶行為取樣來完成,以便產(chǎn)生搜索歷史的沒有偏差的樣本。雖然取樣 的廣度可以根據(jù)實(shí)施例而有所不同,但是試驗(yàn)表明包含幾個(gè)月的用戶 行為的搜索歷史將具有足夠的數(shù)據(jù)來生成可靠的網(wǎng)站簡檔,對(duì)于大部 分網(wǎng)站,只要(A)以避免顯著偏差的方式完成取樣,以及(B)其包括與幾個(gè)星期有代表性的搜索歷史相對(duì)應(yīng)的用戶行為數(shù)據(jù)。
替選地,空間不足問題可以通過為搜索歷史的不同部分生成一系
列增加的(incremental)網(wǎng)站簡檔并且將增加的網(wǎng)站簡檔合并入網(wǎng)站簡 檔來解決。如圖3所示,網(wǎng)站建檔器129首先為搜索歷史部分301生 成增加的簡檔311。每一個(gè)搜索歷史部分301、 303、 305可以包括預(yù)定 義量的搜索歷史信息,或其可以包括預(yù)定義時(shí)長(例如,小時(shí))的搜 索歷史信息,或其可以包括根據(jù)預(yù)定義的選擇標(biāo)準(zhǔn)選擇的搜索歷史的 一部分。生成增加的網(wǎng)站簡檔的過程類似于在上面與圖2結(jié)合論述的 過程。在表征網(wǎng)站用戶的興趣方面,增加的簡檔311等同于搜索歷史 部分301。 一旦創(chuàng)建了增加的簡檔311,數(shù)據(jù)庫中相對(duì)應(yīng)的搜索歷史部 分301可以被進(jìn)入數(shù)據(jù)庫的新條目覆蓋(overwrite)。類似地,搜索嚴(yán) 史部分303可以在生成增加的簡檔313后被覆蓋。在創(chuàng)建增加的簡檔 315后,網(wǎng)站建檔器129可以通過將增加的簡檔311、 313和315合并 入老的網(wǎng)站簡檔331來創(chuàng)建新的網(wǎng)站簡檔337。簡言之,通過為搜索歷 史部分301、 303和305創(chuàng)建增加的網(wǎng)站簡檔并且通過將現(xiàn)有的網(wǎng)站簡 檔與增加的簡檔311、 313和315合并,網(wǎng)站建檔器129能夠考慮全部 搜索歷史。
網(wǎng)站簡檔被用來響應(yīng)于從特定網(wǎng)站提交的搜索查詢而使搜索結(jié)果 "個(gè)性化"或"風(fēng)味化(flavoring)"。在本說明書中的基本假設(shè)是這 些搜索查詢與網(wǎng)站涵蓋的主題或多或少相關(guān)。例如,對(duì)于高爾夫網(wǎng)站, 搜索査詢"Tiger Woods (泰格'伍茲)"合理相關(guān),而搜索査詢"Britney Spears (布蘭妮v斯皮爾斯)"可能毫不相關(guān)。但是用戶將如"Britney Spears"的非常流行的詞語輸入到高爾夫網(wǎng)站上的搜索框中是非常可能 的。如果搜索框可以被用來搜索整個(gè)因特網(wǎng)這尤其可能。如果不仔細(xì) 過濾掉,則與這些流行但不相關(guān)的詞語相關(guān)聯(lián)的搜索歷史可以嚴(yán)重"污 染"網(wǎng)站簡檔并且將搜索結(jié)果歪曲到意想不到的方向。網(wǎng)站簡檔的污 染的另一個(gè)源是盡管相關(guān)、但是具有非常低的流行性的查詢?cè)~語。特 殊對(duì)待可能是必要的,以確保關(guān)于非常低的流行性查詢?cè)~語的用戶行為不會(huì)顯著地使搜索結(jié)果有偏差。
圖4是表征從網(wǎng)站提交的搜索查詢的流行性分布的示例曲線400。
通過兩個(gè)閾值415和425將所有的搜索查詢分成三個(gè)類別。最左邊的 類別410包括"異常"流行、但與網(wǎng)站較少相關(guān)的那些搜索査詢。通 過高爾夫網(wǎng)站的搜索窗口提交的搜索査詢"Britney Spears"是該類別 中的搜索查詢的示例。網(wǎng)站建檔器129應(yīng)當(dāng)通過給予它們相對(duì)低的權(quán) 重來消除或至少減少與這些査詢相關(guān)聯(lián)的搜索歷史對(duì)網(wǎng)站簡檔的影 響。中間類別420包括合理流行并且與網(wǎng)站相關(guān)的那些搜索査詢。對(duì) 應(yīng)于這些搜索查詢的搜索歷史應(yīng)當(dāng)被授予更高的權(quán)重以對(duì)網(wǎng)站簡檔作 出主要貢獻(xiàn)。最后,最右邊的類別430包括在網(wǎng)站的搜索框中僅偶爾 出現(xiàn)的那些査詢。應(yīng)當(dāng)以類似于最左邊類別410中的查詢的方式對(duì)待 這些查詢。
存在確定中間類別420中的搜索查詢(或相對(duì)應(yīng)的搜索結(jié)果)對(duì) 網(wǎng)站簡檔的貢獻(xiàn)的多種因素。例如,搜索查詢的流行性和在搜索結(jié)果 上的用戶行為的數(shù)量影響搜索査詢和搜索結(jié)果對(duì)網(wǎng)站簡檔的貢獻(xiàn)。時(shí) 間是另一個(gè)重要因素。在一些實(shí)施例中,在網(wǎng)站簡檔的形成中,新近 的搜索歷史比不那么新近的搜索歷史發(fā)揮更顯著的作用。本領(lǐng)域的技 術(shù)人員可以容易地將類似原理應(yīng)用于與網(wǎng)站相關(guān)聯(lián)的搜索歷史的其它 方面。
圖5是示出了根據(jù)本發(fā)明的一些實(shí)施例的如何將創(chuàng)建網(wǎng)站簡檔的 過程分成多個(gè)子過程的框圖。如上所述,使用網(wǎng)站的搜索歷史來為該 網(wǎng)站創(chuàng)建簡檔530是非平凡(non-trivial)的過程。搜索歷史包括來自 不同源的不同類型的信息,諸如用戶從網(wǎng)站提交的搜索查詢501、搜索 引擎響應(yīng)于搜索查詢生成的搜索結(jié)果503以及在搜索結(jié)果上的用戶行 為505。在一些實(shí)施例中,該過程被進(jìn)一步分成多個(gè)子過程。每一個(gè)子 過程產(chǎn)生從特定視角表征網(wǎng)站用戶的興趣的特定類型的網(wǎng)站簡檔。它 們是
22,基于類別的簡檔531 —該簡檔使搜索歷史與一組預(yù)定義的類別相 互關(guān)聯(lián),其可以以層級(jí)的方式來組織,且每一個(gè)類別被給予指示類別 與網(wǎng)站用戶的興趣的相關(guān)性的權(quán)重;
基于詞語的簡檔533—該簡檔用多個(gè)詞語來概括搜索歷史,其中 每一個(gè)詞語被給予指示詞語與網(wǎng)站用戶的興趣的相關(guān)性的權(quán)重;以及
,基于鏈接的簡檔535—該簡檔識(shí)別與搜索歷史直接或間接相關(guān)的 多個(gè)鏈接,且每一個(gè)鏈接被給予指示鏈接與網(wǎng)站用戶的興趣的相關(guān)性 的權(quán)重。
在一些實(shí)施例中,網(wǎng)站簡檔530僅包括簡檔531、 533、 535的子 集。例如,網(wǎng)站簡檔530可以包括基于詞語的簡檔533和基于類別的 簡檔531,但不包括基于鏈接的簡檔535。在一些實(shí)施例中,網(wǎng)站簡檔 530包括多個(gè)簡檔,所述多個(gè)簡檔中的至少一個(gè)是前述簡檔531、 533、 535的兩個(gè)或多個(gè)的組合。在一些其它的實(shí)施例中,進(jìn)一步處理基于類 別、基于詞語和/或基于鏈接的簡檔來生成精化的基于類別的(或基于 聚類的)簡檔。在又一些其它的實(shí)施例中,該精化的基于類別的(或 基于聚類的)簡檔以多個(gè)基于類別的(或基于聚類的)子簡檔的形式 出現(xiàn)以表征網(wǎng)站的不同方面。
例如,通過將搜索歷史項(xiàng)(例如,搜索查詢、內(nèi)容項(xiàng)和/或用戶所 選擇的文檔)映射到類別,然后聚集由此產(chǎn)生的類別組并且對(duì)類別加 權(quán),可以構(gòu)建基于類別的簡檔531??梢曰谄湓谒阉鳉v史項(xiàng)中出現(xiàn)的 頻率來對(duì)類別加權(quán)。另外,可以基于搜索歷史項(xiàng)與類別的相關(guān)性來對(duì) 類別加權(quán)。在一段時(shí)間內(nèi)累積的搜索歷史項(xiàng)可以被視為用于映射到加 權(quán)類別的組。也可以使用將搜索歷史映射到加權(quán)類別的其它適當(dāng)方式。
圖6A示出了按照Open Directory Project (開放式目錄項(xiàng)目) (http:〃dmoz.org/)的層級(jí)類別圖600。從圖600的根級(jí)別開始,根據(jù) 諸如"藝術(shù)"、"新聞"、"體育"等等的幾個(gè)主要的主題來組織文 檔。這些主要的主題通常太寬泛以致不能描述網(wǎng)站用戶的特定興趣。它們被進(jìn)一步分成多個(gè)更具體的子主題。例如,主題"藝術(shù)"可以包 括如"電影"、"音樂"和"文學(xué)"的子主題,并且子主題"音樂" 可以進(jìn)一步包括如"歌詞"、"新聞"和"評(píng)論"的子子主題。注意, 每一個(gè)主題(或子主題)與唯一類別標(biāo)識(shí)符相關(guān)聯(lián),所述標(biāo)識(shí)符如用 于"藝術(shù)"的1.1、用于"脫口秀"的1.4.2.3以及用于"籃球"的1.6.1。
在圖6A中示出的類別僅用于說明性的目的。本領(lǐng)域的技術(shù)人員將
理解,存在對(duì)文檔歸類的許多其它方式。例如,可以從文檔的內(nèi)容提 取不同的概念并且根據(jù)這些概念來將相關(guān)信息的不同類別分組。特定 網(wǎng)站的用戶的興趣可以與在不同級(jí)別的多個(gè)類別相關(guān)聯(lián),每一個(gè)具有 指示類別與用戶的興趣的相關(guān)性的權(quán)重??梢酝ㄟ^分析與網(wǎng)站相關(guān)聯(lián) 的搜索歷史來確定類別和其相關(guān)聯(lián)的權(quán)重。
圖6B是根據(jù)本發(fā)明的一些實(shí)施例的可以被用于存儲(chǔ)基于類別的 網(wǎng)站簡檔的示例數(shù)據(jù)結(jié)構(gòu)(基于類別的網(wǎng)站簡檔表650)的框圖?;?類別的簡檔表650包括具有多個(gè)記錄642的表640,每一個(gè)記錄包括 WEBSITE—ID、 FLAVOR—ID和指向諸如表660-1的另一個(gè)數(shù)據(jù)結(jié)構(gòu)的 指針。網(wǎng)站可以具有一個(gè)或多個(gè)風(fēng)味以更好地服務(wù)不同的用戶組。例 如,網(wǎng)站"WEBSITE—1"具有至少兩個(gè)不同的風(fēng)味"FLAVORJ"和 "FLAVOR_2"。這兩個(gè)不同的"風(fēng)味"可以與不同網(wǎng)頁上的不同搜索 框相對(duì)應(yīng)。換言之,網(wǎng)站的不同風(fēng)味的引入精化了網(wǎng)站用戶的興趣。 這對(duì)于服務(wù)寬泛范圍的客戶的流行網(wǎng)站尤其有用。表660-1包括兩列 CATEGORY—ID和WEIGHT。 CATEGORY_ID列包含如圖6A中所示的 類別的標(biāo)識(shí)符,以及在WEIGHT列中的值指示類別與網(wǎng)站用戶的興趣 的相關(guān)性。
在一些實(shí)施例中,自動(dòng)將搜索歷史項(xiàng)分類為不同的聚類。聚類通 常比類別更動(dòng)態(tài)。如上所述,類別典型地被預(yù)先生成。對(duì)照相同的類 別組來分類與不同網(wǎng)站相關(guān)聯(lián)的搜索歷史項(xiàng)。相比之下,可以不存在 用于特定網(wǎng)站的預(yù)定義的聚類組。與網(wǎng)站相關(guān)聯(lián)的搜索歷史項(xiàng)落入自動(dòng)生成的聚類組。因此,聚類可以更適合表征網(wǎng)站的用戶的興趣和偏 好。為了便利,本發(fā)明的許多論述將類別用作為示例。但是對(duì)本領(lǐng)域 的技術(shù)人員而言清楚的是,基本算法也可以不經(jīng)調(diào)整或經(jīng)少許調(diào)整應(yīng) 用于聚類。
基于類別圖600的網(wǎng)站簡檔是面向主題的實(shí)施方式。在基于類別 的簡檔中的項(xiàng)也可以以其他的方式來組織。在一個(gè)實(shí)施例中,網(wǎng)站用 戶的興趣可以基于網(wǎng)站用戶所識(shí)別的文檔的格式來歸類,所述格式諸
如HTML、純文本、PDF、 Microsoft Word等等。不同的格式可以具有 不同的權(quán)重。在另一個(gè)實(shí)施例中,網(wǎng)站用戶的興趣可以根據(jù)所識(shí)別的 文檔的類型來歸類,所述類型例如組織的主頁、個(gè)人的主頁、研究論 文或新聞組帖子,每一種類型具有相關(guān)聯(lián)的權(quán)重。文檔也可以按文檔 來源來歸類,例如與每一個(gè)文檔的主機(jī)相關(guān)聯(lián)的國家。在又一個(gè)實(shí)施 例中,在上面所識(shí)別的基于類別的簡檔中的兩個(gè)或多個(gè)可以共存,且 每一個(gè)反映網(wǎng)站用戶的興趣的各自方面。
圖7是根據(jù)本發(fā)明的一些實(shí)施例的可以被用于存儲(chǔ)基于詞語的網(wǎng) 站簡檔的示例數(shù)據(jù)結(jié)構(gòu)(基于詞語的簡檔表700)的框圖。表700包括 多個(gè)記錄710,每一個(gè)記錄與網(wǎng)站的基于詞語的簡檔相對(duì)應(yīng)?;谠~語 的簡檔記錄710包括多列,所述列包括WEBSITE—ID列720和多列 (TERM, WEIGHT)對(duì)740。 WEBSITE—ID列存儲(chǔ)網(wǎng)站標(biāo)識(shí)符。每一個(gè) (TERM, WEIGHT)對(duì)740包括被認(rèn)為與網(wǎng)站用戶的興趣相關(guān)的典型 地為一至三個(gè)單詞的詞語以及指示詞語的相關(guān)性的與詞語相關(guān)聯(lián)的權(quán) 重。詞語的權(quán)重不一定是正值。負(fù)權(quán)重暗示網(wǎng)站用戶不喜歡在搜索結(jié) 果中的包括該詞語的文檔。
除基于詞語和基于類別的簡檔外,另一種類型的網(wǎng)站簡檔被稱為 基于鏈接的簡檔。如上所述,文檔的頁面排名基于將該文檔連接到因 特網(wǎng)上的其它文檔的鏈接結(jié)構(gòu)。具有更多指向其的鏈接的文檔通常被 賦予更高的頁面排名并且因此搜索引擎認(rèn)為其更流行。網(wǎng)站的用戶所選擇的文檔的鏈接信息可以被用來推斷網(wǎng)站的用戶的興趣。在一個(gè)實(shí)
施例中,通過分析這些URL的點(diǎn)擊率來為網(wǎng)站用戶識(shí)別優(yōu)選的URL 的列表??梢愿鶕?jù)網(wǎng)站用戶在URL處的鼠標(biāo)懸停時(shí)間來對(duì)每一個(gè)優(yōu)選 的URL進(jìn)一步加權(quán)。在另一個(gè)實(shí)施例中,通過分析在不同web主機(jī)處 的用戶的訪問率來為網(wǎng)站用戶識(shí)別優(yōu)選的web主機(jī)的列表。當(dāng)兩個(gè)或 多個(gè)優(yōu)選URL與同一 web主機(jī)相關(guān)時(shí),該兩個(gè)或多個(gè)URL的權(quán)重可 以被組合為該web主機(jī)的權(quán)重。
圖8是根據(jù)本發(fā)明的一些實(shí)施例的可以被用于存儲(chǔ)基于鏈接的網(wǎng) 站簡檔的示例數(shù)據(jù)結(jié)構(gòu)的框圖。基于鏈接的簡檔表800包括表810,表 810包括多個(gè)記錄820,每一個(gè)記錄包括WEBSITE—ID和指向諸如表 810-1的另一個(gè)數(shù)據(jù)結(jié)構(gòu)的指針。表810-1可以包括兩列LINK—ID 830 和WEIGHT 840。 LINK—ID 830可以與優(yōu)選的URL或主機(jī)相關(guān)聯(lián)。實(shí) 際的URL/主機(jī)可以被存儲(chǔ)在表而不是LINKJD中,然而優(yōu)選地,存儲(chǔ) LINK_ID以節(jié)省存儲(chǔ)空間。
優(yōu)選的URL和/或主機(jī)的列表包括網(wǎng)站用戶已直接識(shí)別的URL和/ 或主機(jī)。優(yōu)選的URL和/或主機(jī)的列表可以進(jìn)一步擴(kuò)展到使用諸如為本 領(lǐng)域的普通技術(shù)人員所知的協(xié)作過濾或文獻(xiàn)計(jì)量(bibliometric)分析的 方法來間接識(shí)別的URL和/或主機(jī)。在一個(gè)實(shí)施例中,間接識(shí)別的URL 和/或主機(jī)包括具有到/自直接識(shí)別的URL和/或主機(jī)的鏈接的URL或主 機(jī)。通過在間接識(shí)別的URL和/或主機(jī)與直接識(shí)別的URL或主機(jī)之間 的距離來對(duì)這些間接識(shí)別的URL和/或主機(jī)加權(quán)。例如,當(dāng)直接識(shí)別的 URL或主機(jī)具有權(quán)重1時(shí),相差一個(gè)鏈接的URL或主機(jī)可以具有權(quán)重 0.5、相差兩個(gè)鏈接的URL或主機(jī)可以具有權(quán)重0.25等等。通過減少 與原始URL或主機(jī)的主題不相關(guān)的鏈接的權(quán)重可以進(jìn)一步精化該過 程,所述鏈接例如指向版權(quán)頁或可以被用來查看與用戶所選擇的URL 或主機(jī)相關(guān)聯(lián)的文檔的web瀏覽器軟件的鏈接。不相關(guān)的鏈接可以被 基于其上下文或其分布來識(shí)別。例如,版權(quán)鏈接通常使用特定詞語(例
如,"版權(quán)"和"保留所有版權(quán)"是版權(quán)鏈接的錨點(diǎn)文本中常使用的詞語);以及從許多不相關(guān)的網(wǎng)站指向網(wǎng)站的鏈接可以暗示該網(wǎng)站不
是主題相關(guān)的(例如,指向Internet Explorer網(wǎng)站的鏈接通常被包括在 不相關(guān)的網(wǎng)站中)。也可以根據(jù)一組主題來對(duì)間接鏈接分類,并且可 以排除具有非常不同的主題的鏈接或?qū)ζ滟x予低權(quán)重。
在上面論述的三種類型的網(wǎng)站簡檔總體上相互補(bǔ)充,因?yàn)椴煌?簡檔從不同的有利點(diǎn)來表征網(wǎng)站用戶的興趣。然而,這并不意味一種 類型的網(wǎng)站簡檔,例如基于類別的簡檔,不能發(fā)揮典型地由另一種類 型的網(wǎng)站簡檔發(fā)揮的作用。以示例的方式,基于鏈接的簡檔中的優(yōu)選 URL或主機(jī)常常與特定主題相關(guān)聯(lián),例如,fmance.yahoo.com是聚焦 財(cái)經(jīng)新聞的URL。因此,由包括優(yōu)選的URL或主機(jī)列表的基于鏈接的 簡檔所實(shí)現(xiàn)的作用至少部分也可以由具有涵蓋優(yōu)選URL或主機(jī)涵蓋的 相同主題的一組類別的基于類別的簡檔來實(shí)現(xiàn)。
圖9是根據(jù)本發(fā)明的一些實(shí)施例的用于使用各種類型的網(wǎng)站簡檔 來生成依賴于網(wǎng)站的搜索結(jié)果的過程的流程圖。初始,搜索引擎122 從網(wǎng)站102接收用戶通過客戶端103提交的搜索査詢(910)。作為響 應(yīng),搜索引擎122可以可選地生成查詢策略(915)。例如,使搜索查 詢標(biāo)準(zhǔn)化以使處于適當(dāng)?shù)男问接糜谶M(jìn)一步處理,和/或可以根據(jù)預(yù)定義 的標(biāo)準(zhǔn)修改搜索査詢以使得自動(dòng)擴(kuò)大或縮小搜索查詢的范圍。接著, 搜索引擎122將搜索查詢(或査詢策略,如果生成了査詢策略)提交 到內(nèi)容數(shù)據(jù)庫124。內(nèi)容數(shù)據(jù)庫124識(shí)別匹配搜索查詢的一組文檔 (920),每一個(gè)文檔具有取決于文檔的頁面排名和搜索查詢的普通排 名分值。所有三個(gè)操作(910、 915和920)典型地由搜索引擎122來 處理。
在一些實(shí)施例中,在搜索査詢中嵌入請(qǐng)求網(wǎng)站的標(biāo)識(shí)符?;诰W(wǎng) 站標(biāo)識(shí)符,搜索結(jié)果排名器126在網(wǎng)站簡檔數(shù)據(jù)庫128中識(shí)別網(wǎng)站的 簡檔(925)。接著,搜索結(jié)果排名器126分析每一個(gè)所識(shí)別的文檔以 使用網(wǎng)站簡檔來確定一個(gè)或多個(gè)提升因素(935)并且然后使用文檔的
27普通排名分值和提升因素來向文檔分配依賴于網(wǎng)站的排名分值(940)。
搜索結(jié)果排名器126對(duì)于每個(gè)所識(shí)別的文檔重復(fù)該過程(942)。最后, 搜索結(jié)果排名器126根據(jù)文檔列表的依賴于網(wǎng)站的排名分值對(duì)該文檔 列表重新排序(945)并且將包括指向該文檔列表的鏈接的搜索結(jié)果發(fā) 送給請(qǐng)求客戶端103。
在一些實(shí)施例中,在935處對(duì)所識(shí)別的文檔的分析包括確定在文 檔的內(nèi)容和網(wǎng)站的簡檔之間的相互關(guān)系。此外,在一些實(shí)施例中,該 操作包括訪問用于文檔的先前計(jì)算的文檔簡檔并且然后確定在文檔簡 檔和網(wǎng)站的簡檔之間的相互關(guān)系。在一些實(shí)施例中,確定相互關(guān)系包 括為"點(diǎn)積"計(jì)算的一個(gè)或多個(gè)操作,如果存在重疊,其確定在文檔 簡檔和網(wǎng)站的簡檔之間的重疊程度。
圖IO是根據(jù)本發(fā)明的一些實(shí)施例的示例數(shù)據(jù)結(jié)構(gòu)的框圖,所述示 例數(shù)據(jù)結(jié)構(gòu)可以被用于存儲(chǔ)用于搜索結(jié)果中的文檔的基于類別、基于 詞語以及基于鏈接的提升因素。對(duì)于每一個(gè)候選文檔,每一個(gè)由各自 的DOQJD識(shí)別,基于類別的文檔信息表1010包括多個(gè)所識(shí)別的類別 和相關(guān)聯(lián)的權(quán)重,基于詞語的文檔信息表1030包括多對(duì)相關(guān)詞語和相 關(guān)聯(lián)的權(quán)重,以及基于鏈接的文檔信息表1050包括一組鏈接和相對(duì)應(yīng) 的權(quán)重。
當(dāng)使用一種特定類型的網(wǎng)站簡檔來評(píng)價(jià)文檔時(shí),該三個(gè)表(1010、 1030和1050)的每一個(gè)的最右邊列存儲(chǔ)該文檔的提升因素(即,所計(jì) 算的分值)。文檔的提升因素可以通過組合與文檔相關(guān)聯(lián)的項(xiàng)的權(quán)重 來確定。例如,基于類別或基于詞語的提升因素可以如下來計(jì)算。網(wǎng) 站的用戶可能喜歡與具有0.6的權(quán)重的科學(xué)相關(guān)的文檔,并且不喜歡與 具有-0.2的權(quán)重的商業(yè)相關(guān)的文檔。因此,當(dāng)科學(xué)文檔匹配搜索查詢時(shí), 它將被提升到商業(yè)文檔之上。通常,文檔主題分類可以不是唯一的。 候選文檔可以被分類為具有0.8的概率的科學(xué)文檔以及具有0.4的概率 的商業(yè)文檔。基于鏈接的提升因素可以基于分配給在基于鏈接的簡檔
28中的優(yōu)選URL或主機(jī)的相關(guān)權(quán)重來計(jì)算。在一個(gè)實(shí)施例中,基于詞語
的簡檔排名可以使用諸如詞頻-逆向文檔頻率(TF-IDF)的已知技術(shù)來 確定。詞語的詞頻是詞語在文檔中出現(xiàn)的次數(shù)的函數(shù)。逆向文檔頻率 是在文檔的集合中詞語在其中出現(xiàn)的文檔的數(shù)量的反函數(shù)。例如,如
"word (單詞)"的非常常見的詞語在許多文檔中出現(xiàn)并且因此被賦 予相對(duì)較低的逆向文檔頻率,而如"photograph (照片)"和
"microprocessor (微處理器)"的不那么常見的詞語被賦予相對(duì)較高 的逆向文檔頻率。
在一些實(shí)施例中,當(dāng)搜索引擎響應(yīng)于搜索查詢生成搜索結(jié)果時(shí), 根據(jù)搜索査詢向滿足搜索查詢的候選文檔D分配査詢分值QueryScore。 然后通過文檔D的頁面排名PageRank來調(diào)整該査詢分值以生成普通排 名分值GenericScore,其被表示為
GenericScore = QueryScore*PageRank。
如果用戶的興趣與搜索引擎的隨機(jī)用戶的興趣顯著不同,則該普 通排名分值不能適當(dāng)反映文檔D的與特定網(wǎng)站的用戶的相關(guān)性。基于 在文檔D的內(nèi)容和網(wǎng)站的基于詞語的簡檔之間的相互關(guān)系(此處稱為 TermBoostFactor),在與文檔D相關(guān)聯(lián)的一個(gè)或多個(gè)類別和網(wǎng)站的基 于類別的簡檔之間的相互關(guān)系(此處稱為CategoryBoostFactor),以及 在文檔D的URL和/或主機(jī)和網(wǎng)站的基于鏈接的簡檔之間的相互關(guān)系 (此處稱為LinkBoostFactor),文檔D與網(wǎng)站用戶的相關(guān)性可以由一 組提升因素精確表征。因此,文檔D可以被分配依賴于網(wǎng)站的排名分 值,其是文檔的普通排名分值和各種基于網(wǎng)站簡檔的提升因素的函數(shù)。 在 一 個(gè)實(shí)施例中,該依賴于網(wǎng)站的排名分值可以被表示為 WebsiteScore=GenericScore*(TermBoostFactor+CategoryBoostFactor+Li nkBoostF actor)。
在另一個(gè)實(shí)施例中,其中網(wǎng)站簡檔是單個(gè)簡檔,依賴于網(wǎng)站的排 名分值可以被表示為WebsiteScore = GenericScore*BoostFactor
其中"BoostFactor"基于在文檔D的內(nèi)容和網(wǎng)站的簡檔之間的相 互關(guān)系。
圖11是根據(jù)本發(fā)明的一些實(shí)施例的用于使用網(wǎng)站簡檔來生成依 賴于網(wǎng)站的搜索結(jié)果的另一個(gè)過程的流程圖。與在上面結(jié)合圖9論述 的實(shí)施例不同,通過網(wǎng)站的簡檔來調(diào)整普通査詢策略以創(chuàng)建依賴于網(wǎng) 站的查詢策略(1125, 1165)。例如,來自網(wǎng)站簡檔的相關(guān)詞語可以 與相關(guān)聯(lián)的權(quán)重一起被添加到搜索查詢。在各種實(shí)施例中,分別由搜 索引擎122、前端服務(wù)器120或搜索結(jié)果排名器126來創(chuàng)建依賴于網(wǎng)站 的查詢策略。在一些其它的實(shí)施例中,請(qǐng)求網(wǎng)站102具有網(wǎng)站建檔器 129生成的其簡檔的副本并且依賴于網(wǎng)站的查詢策略由請(qǐng)求網(wǎng)站102創(chuàng) 建。接著,搜索引擎122使用依賴于網(wǎng)站的查詢策略搜索內(nèi)容數(shù)據(jù)庫 124 (1170)。結(jié)果,通過內(nèi)容數(shù)據(jù)庫124識(shí)別的文檔的相關(guān)聯(lián)的依賴 于網(wǎng)站的排名分值來對(duì)該內(nèi)容數(shù)據(jù)庫124識(shí)別的文檔隱式排序(1175)。
參考圖12,示例信息服務(wù)器1200典型地包括一個(gè)或多個(gè)處理單 元(CPU) 1202、 一個(gè)或多個(gè)網(wǎng)絡(luò)或其它通信接口 1210、存儲(chǔ)器1212 以及用于使這些組件互連的一個(gè)或多個(gè)通信總線1014。通信總線1014 可以包括互連并控制系統(tǒng)組件間的通信的電路(有時(shí)稱為芯片集)。 系統(tǒng)1200可以可選地包括用戶接口,例如顯示器和鍵盤。存儲(chǔ)器1212 可以包括高速隨機(jī)存取存儲(chǔ)器并且也可以包括非易失性存儲(chǔ)器,諸如 一個(gè)或多個(gè)磁盤存儲(chǔ)裝置。存儲(chǔ)器1212可以包括位于遠(yuǎn)離CPU 1202 的位置的海量存儲(chǔ)器。在一些實(shí)施例中,存儲(chǔ)器1212存儲(chǔ)下列程序、 模塊和數(shù)據(jù)結(jié)構(gòu),或其子集或超集
*操作系統(tǒng)1216,其包括用于處理各種基本系統(tǒng)服務(wù)和用于執(zhí)行依 賴于硬件的任務(wù)的程序;
*網(wǎng)絡(luò)通信模塊1218,其被用來經(jīng)由諸如因特網(wǎng)、其它廣域網(wǎng)、局 域網(wǎng)、城域網(wǎng)等等的一個(gè)或多個(gè)通信網(wǎng)絡(luò)(有線的或無線的)將信息服務(wù)器1200連接到其它服務(wù)器或計(jì)算機(jī);
,系統(tǒng)初始化模塊1220,其初始化對(duì)信息服務(wù)器1200的適當(dāng)操作 所需要的存儲(chǔ)在存儲(chǔ)器1212中的其它模塊和數(shù)據(jù)結(jié)構(gòu);
,搜索引擎122,用于處理搜索查詢、根據(jù)搜索査詢識(shí)別搜索結(jié)果 并對(duì)搜索結(jié)果排序;
,內(nèi)容數(shù)據(jù)庫124,用于存儲(chǔ)從因特網(wǎng)檢索的多個(gè)索引文檔;
*網(wǎng)站建檔器129,用于處理與網(wǎng)站相關(guān)聯(lián)的搜索歷史以及創(chuàng)建并 更新表征網(wǎng)站用戶的興趣的一個(gè)或多個(gè)簡檔;
*搜索歷史數(shù)據(jù)庫127,用于存儲(chǔ)與不同網(wǎng)站相關(guān)聯(lián)的搜索歷史, 包括搜索査詢、搜索結(jié)果和用戶行為;
,網(wǎng)站簡檔數(shù)據(jù)庫123,用于存儲(chǔ)與因特網(wǎng)上的不同網(wǎng)站相關(guān)聯(lián)的 網(wǎng)站簡檔;
*文檔建檔器125,用于分析文檔的內(nèi)容和上下文并且為文檔創(chuàng)建
簡檔;
,文檔簡檔數(shù)據(jù)庫123,用于存儲(chǔ)與存儲(chǔ)在內(nèi)容數(shù)據(jù)庫124中的不 同文檔相關(guān)聯(lián)的文檔簡檔;以及
,搜索結(jié)果排名器126,用于使用網(wǎng)站簡檔為搜索引擎122識(shí)別的 每一個(gè)文檔生成依賴于網(wǎng)站的排名分值,并且根據(jù)搜索結(jié)果中的文檔 的依賴于網(wǎng)站的排名分值對(duì)搜索結(jié)果中的文檔重新排序。
在一些實(shí)施例中,信息服務(wù)器106可以不必訪問與網(wǎng)站相關(guān)聯(lián)的 所有搜索歷史。例如,關(guān)于從網(wǎng)站102提交的搜索查詢?cè)诰W(wǎng)站102和 信息服務(wù)器106之間可以存在協(xié)議。根據(jù)該協(xié)議,當(dāng)訪問網(wǎng)站1027的 用戶向信息服務(wù)器106提交搜索査詢時(shí),信息服務(wù)器106被要求向網(wǎng) 站102而不是在客戶端103的請(qǐng)求用戶發(fā)送相對(duì)應(yīng)的搜索結(jié)果。網(wǎng)站 102可以修改搜索結(jié)果,例如將廣告或其它信息附在搜索結(jié)果中,然后 將已修改的搜索結(jié)果派發(fā)給在客戶端103的請(qǐng)求用戶。
在這種情況下,信息服務(wù)器106可能沒有識(shí)別請(qǐng)求用戶和客戶端 103的信息,并且也可能不能監(jiān)視在搜索結(jié)果上的用戶行為。例如,信息服務(wù)器106不可以接收識(shí)別用戶已點(diǎn)擊的搜索結(jié)果中的文檔鏈接的 任何信息。類似地,信息服務(wù)器106不可以接收識(shí)別用戶在之上移動(dòng) 其鼠標(biāo)鏈接的文檔鏈接和相對(duì)應(yīng)的鼠標(biāo)懸停時(shí)間的任何信息。換言之,
信息服務(wù)器106對(duì)在搜索結(jié)果上的網(wǎng)站用戶的行為知之甚少或完全不 知。因此,信息服務(wù)器106不得不依靠來自其它地點(diǎn)的搜索結(jié)果上的 用戶行為來生成網(wǎng)站簡檔。
在一些實(shí)施例中,通過檢查從不同網(wǎng)站提交的搜索查詢,信息服 務(wù)器106可以識(shí)別類似于正討論的網(wǎng)站的另一個(gè)網(wǎng)站。如果從兩個(gè)網(wǎng) 站提交的搜索查詢的預(yù)定義量或百分率相同,則認(rèn)為兩個(gè)網(wǎng)站類似。 作如下推斷也是合理的兩個(gè)類似網(wǎng)站的用戶可以具有類似的興趣并
且因此與一個(gè)網(wǎng)站相關(guān)聯(lián)的用戶行為是與另一個(gè)網(wǎng)站相關(guān)聯(lián)的用戶行
為的合理代理。如果信息服務(wù)器106可以訪問與該兩個(gè)網(wǎng)站中的一個(gè) 相關(guān)聯(lián)的用戶行為(例如,不存在向網(wǎng)站遞送搜索結(jié)果的協(xié)議),則 信息服務(wù)器106可以使用相同的用戶行為來為另一個(gè)網(wǎng)站創(chuàng)建簡檔。
當(dāng)不存在與正討論的網(wǎng)站類似的其它網(wǎng)站時(shí),信息服務(wù)器106可 以利用與直接提交到搜索引擎的搜索査詢(例如,使用與信息服務(wù)器 106相關(guān)聯(lián)的工具欄搜索框或網(wǎng)頁提交的搜索查詢)相關(guān)聯(lián)的已監(jiān)視的 用戶行為作為特定網(wǎng)站的代理。然而,只有這樣的"普通用戶群"信 息將被用于的搜索查詢才是從正討論的網(wǎng)站提交的查詢。例如,搜索 査詢"在山景城的高爾夫球場(chǎng)"既可以被提交到聚焦高爾夫的網(wǎng)站, 又可以被提交到普通用途的搜索引擎。從在該搜索查詢的搜索結(jié)果上 的普通用戶群點(diǎn)擊(以及從正討論的網(wǎng)站和從搜索引擎的其他用戶提 交的其它搜索查詢的搜索結(jié)果上的普通使用群點(diǎn)擊)發(fā)展的簡檔信息 被用來通過為從各個(gè)網(wǎng)站接收的查詢組合或聚集普通用戶統(tǒng)計(jì)信息而 為各個(gè)網(wǎng)站生成簡檔。以這種方式獲取的網(wǎng)站簡檔將典型地與搜索引 擎的整個(gè)用戶群落的一組簡檔顯著不同,并且因此以這種方式生成的 網(wǎng)站簡檔將是下述網(wǎng)站簡檔的合理近似如果對(duì)搜索引擎響應(yīng)于從網(wǎng) 站提交的搜索査詢而返回的搜索結(jié)果而言用戶行為信息可用,則將生成該網(wǎng)站簡檔。
在一些實(shí)施例中,網(wǎng)站簡檔也可以被用來為從不同網(wǎng)站提交的搜 索査詢選擇廣告。以類似于處理不同文檔的方式來處理不同的廣告。 例如,廣告可以具有一組關(guān)鍵詞。這組關(guān)鍵詞和與網(wǎng)站相關(guān)聯(lián)的基于 詞語的簡檔(或基于類別的簡檔、或兩者)之間的相互關(guān)系產(chǎn)生用于 廣告的提升因素。響應(yīng)于從網(wǎng)站提交的搜索查詢,該提升因素可以被 用來使特定廣告提級(jí)或降級(jí)。例如,當(dāng)信息服務(wù)器106從專用于英式 足球新聞的網(wǎng)站或網(wǎng)頁接收了搜索査詢"世界杯2006"時(shí),其可以使
涵蓋英式足球裝備、2006FIFA德國世界杯的門票出售以及在舉辦英式 足球比賽的德國城市的酒店預(yù)訂等等的那些廣告提級(jí)。
為了解釋的目的,已參考特定的實(shí)施例來描述了前面的描述。然 而,上面的說明性論述并不意在窮舉或?qū)⒈景l(fā)明限制在公開的精確形 式。鑒于上述教導(dǎo)可以進(jìn)行許多修改和變更。選擇并描述實(shí)施例以便 最好地解釋本發(fā)明的原理和其實(shí)際應(yīng)用,從而使本領(lǐng)域的技術(shù)人員能 夠最好地使用本發(fā)明和帶有適合預(yù)期的特定用途的各種修改的各種實(shí) 施例。
權(quán)利要求
1. 一種對(duì)網(wǎng)站建檔的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括從網(wǎng)站接收用戶提交的多個(gè)搜索查詢;響應(yīng)于所述搜索查詢向所述請(qǐng)求用戶提供搜索結(jié)果;監(jiān)視在所述搜索結(jié)果上的所述用戶的行為;以及使用所述搜索查詢和所述用戶行為為所述網(wǎng)站生成簡檔。
2. 如權(quán)利要求l所述的方法,其中所述用戶行為包括對(duì)所述搜索 結(jié)果的用戶選擇和在所述搜索結(jié)果上的鼠標(biāo)懸停時(shí)間。
3. 如權(quán)利要求l所述的方法,其中通過對(duì)在預(yù)定義時(shí)間段內(nèi)的所 述搜索査詢子取樣,使用所述搜索査詢的子集來生成所述網(wǎng)站簡檔。
4. 如權(quán)利要求l所述的方法,其中通過選擇具有預(yù)定義范圍的發(fā) 生頻率的搜索查詢,使用所述搜索查詢的子集來生成所述網(wǎng)站簡檔。
5.如權(quán)利要求l所述的方法,其中在所述網(wǎng)站簡檔的所述生成期 間,時(shí)間上新近的搜索查詢和其相關(guān)聯(lián)的用戶行為被給予比時(shí)間上遙 遠(yuǎn)的搜索査詢和其相關(guān)聯(lián)的用戶行為更大的權(quán)重。
6. 如權(quán)利要求l所述的方法,進(jìn)一步包括-從所述網(wǎng)站接收用戶提交的新的搜索査詢; 識(shí)別與所述新的搜索查詢相關(guān)聯(lián)的多個(gè)信息項(xiàng); 根據(jù)所述網(wǎng)站簡檔對(duì)所述信息項(xiàng)排名;以及 將已排名的信息項(xiàng)提供給所述請(qǐng)求用戶。
7. 如權(quán)利要求6所述的方法,其中對(duì)信息項(xiàng)的所述排名進(jìn)一步包括向所述信息項(xiàng)分配普通排名分值;通過將所述普通排名分值與至少部分通過所述網(wǎng)站簡檔確定的權(quán) 重因素相乘來生成依賴于網(wǎng)站的排名分值;以及根據(jù)所述依賴于網(wǎng)站的排名分值對(duì)所述信息項(xiàng)重新排名。
8.如權(quán)利要求6所述的方法,進(jìn)一步包括 監(jiān)視在所述已排名的信息項(xiàng)上的所述用戶的行為;以及 使用所述用戶的行為和所述新的搜索査詢來更新所述網(wǎng)站簡檔。
9.如權(quán)利要求8所述的方法,其中使用在預(yù)定義時(shí)間段內(nèi)累積的 新的搜索查詢和新的用戶行為來生成增加的網(wǎng)站簡檔,并且將所述增 加的網(wǎng)站簡檔合并入所述網(wǎng)站簡檔來生成新的網(wǎng)站簡檔。
10.如權(quán)利要求l所述的方法,進(jìn)一步包括將所述搜索查詢分成多個(gè)組,每一個(gè)組與所述網(wǎng)站的至少一個(gè)網(wǎng) 頁相關(guān)聯(lián)并且具有相關(guān)聯(lián)的用戶組;將響應(yīng)于所述搜索査詢組中的一個(gè)組的搜索結(jié)果提供給其相關(guān)聯(lián)的用戶組;監(jiān)視在所述搜索結(jié)果上的所述相關(guān)聯(lián)的用戶組的行為;以及 使用所述搜索查詢組和所述相關(guān)聯(lián)的用戶行為來生成網(wǎng)頁簡檔。
11.如權(quán)利要求IO所述的方法,其中所述網(wǎng)站簡檔包括多個(gè)網(wǎng)頁 簡檔,每一個(gè)網(wǎng)頁簡檔與在所述網(wǎng)站的至少一個(gè)網(wǎng)頁上的搜索框相關(guān)聯(lián)。
12.如權(quán)利要求IO所述的方法,進(jìn)一步包括從所述網(wǎng)站接收用戶提交的新的搜索查詢; 識(shí)別與所述新的搜索查詢相關(guān)聯(lián)的多個(gè)信息項(xiàng); 根據(jù)所述網(wǎng)頁簡檔對(duì)所述信息項(xiàng)排名;以及 將已排名的信息項(xiàng)提供給所述請(qǐng)求用戶。
13. 如權(quán)利要求12所述的方法,其中對(duì)信息項(xiàng)的所述排名進(jìn)一步包括向所述信息項(xiàng)分配普通排名分值;通過將所述普通排名分值與至少部分通過所述網(wǎng)頁簡檔確定的權(quán)重因素相乘來生成依賴于網(wǎng)頁的排名分值;以及根據(jù)所述依賴于網(wǎng)頁的排名分值對(duì)所述信息項(xiàng)重新排名。
14. 如權(quán)利要求12所述的方法,進(jìn)一步包括 監(jiān)視在所述已排名的信息項(xiàng)上的所述用戶的行為;以及使用所述用戶的行為和所述新的搜索查詢來更新所述網(wǎng)頁簡檔。
15. 如權(quán)利要求14所述的方法,其中使用在預(yù)定義時(shí)間段內(nèi)累積的新的搜索查詢和新的用戶行為來生成增加的網(wǎng)頁簡檔,并且將所述 增加的網(wǎng)頁簡檔合并入所述網(wǎng)頁簡檔來生成新的網(wǎng)頁簡檔。
16. —種提供搜索結(jié)果的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括從第一和第二網(wǎng)站接收相同的搜索查詢; 識(shí)別與所述搜索査詢相關(guān)聯(lián)的多個(gè)信息項(xiàng);以及 以第一次序?qū)⑺鲂畔㈨?xiàng)的第一子集提供給所述第一網(wǎng)站并且以不同于所述第一次序的第二次序?qū)⑺鲂畔㈨?xiàng)的第二子集提供給所述第二網(wǎng)站,其中,至少部分通過與所述第一網(wǎng)站相關(guān)聯(lián)的第一簡檔來確定所 述第一次序,并且至少部分通過與所述第二網(wǎng)站相關(guān)聯(lián)的第二簡檔來 確定所述第二次序,其中,所述第一簡檔與所述第一網(wǎng)站的搜索歷史相關(guān),并且所述 第二簡檔與所述第二網(wǎng)站的搜索歷史相關(guān)。
17. 如權(quán)利要求16所述的方法,包括根據(jù)所述第一和第二網(wǎng)站各 自的搜索歷史為所述第一和第二網(wǎng)站生成所述第一和第二簡檔。
18. 如權(quán)利要求16所述的方法,其中所述第一網(wǎng)站的所述搜索歷史包括多個(gè)用戶在所述第一網(wǎng)站提交的搜索查詢、響應(yīng)于所述搜索査 詢的搜索結(jié)果以及在所述搜索結(jié)果上的用戶行為。
19. 如權(quán)利要求16所述的方法,其中所述信息項(xiàng)包括至少一個(gè)廣告
20. —種提供搜索結(jié)果的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 從網(wǎng)站的第一和第二網(wǎng)頁接收多個(gè)相同的搜索查詢; 識(shí)別與所述搜索查詢相關(guān)聯(lián)的多個(gè)信息項(xiàng);以及 以第一次序?qū)⑺鲂畔㈨?xiàng)的第一子集提供給所述第一網(wǎng)頁并且以不同于所述第一次序的第二次序?qū)⑺鲂畔㈨?xiàng)的第二子集提供給所述 第二網(wǎng)頁;其中,至少部分通過與所述第一網(wǎng)頁相關(guān)聯(lián)的第一簡檔來確定所 述第一次序,并且至少部分通過與所述第二網(wǎng)頁相關(guān)聯(lián)的第二簡檔來 確定所述第二次序;其中,所述第一簡檔與所述第一網(wǎng)頁的搜索歷史相關(guān),并且所述 第二簡檔與所述第二網(wǎng)頁的搜索歷史相關(guān)。
21. 如權(quán)利要求20所述的方法,包括根據(jù)所述第一和第二網(wǎng)頁各 自的搜索歷史為所述第一和第二網(wǎng)頁生成所述第一和第二簡檔。
22. 如權(quán)利要求20所述的方法,其中所述第一網(wǎng)頁的所述搜索歷 史包括多個(gè)用戶在所述第一網(wǎng)頁提交的搜索査詢、響應(yīng)于所述搜索查 詢的搜索結(jié)果以及在所述搜索結(jié)果上的用戶行為。
23. 如權(quán)利要求20所述的方法,其中所述信息項(xiàng)包括至少一個(gè)廣
24. —種對(duì)網(wǎng)站建檔的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括:從網(wǎng)站接收所述網(wǎng)站的用戶提交的多個(gè)搜索查詢; 響應(yīng)于所述搜索査詢識(shí)別搜索結(jié)果;識(shí)別與在所述搜索結(jié)果上的與所述網(wǎng)站不同的地點(diǎn)的用戶的行為 有關(guān)的統(tǒng)計(jì)信息;以及使用所述搜索查詢和所述統(tǒng)計(jì)信息為所述網(wǎng)站生成簡檔。
25.如權(quán)利要求24所述的方法,進(jìn)一步包括 根據(jù)所述網(wǎng)站簡檔對(duì)所述搜索結(jié)果排名; 將已排名的搜索結(jié)果提供給所述網(wǎng)站的所述用戶;以及 監(jiān)視在所述已排名的搜索結(jié)果上的所述網(wǎng)站的所述用戶的行為。
26.如權(quán)利要求25所述的方法,其中所述統(tǒng)計(jì)信息包括在所述已 排名的搜索結(jié)果上的所述網(wǎng)站的所述用戶的所述行為。
27. —種計(jì)算機(jī)系統(tǒng),包括主存儲(chǔ)器;處理器;以及存儲(chǔ)在所述主存儲(chǔ)器中并且由所述處理器執(zhí)行的至少一個(gè)程序, 所述至少一個(gè)程序進(jìn)一步包括用于從網(wǎng)站接收用戶提交的多個(gè)搜索查詢的指令; 用于響應(yīng)于所述搜索查詢向所述請(qǐng)求用戶提供搜索結(jié)果的指令;用于監(jiān)視在所述搜索結(jié)果上的所述用戶的行為的指令;以及 用于使用所述搜索查詢和所述用戶行為為所述網(wǎng)站生成簡檔的指
28. —種用于與計(jì)算機(jī)系統(tǒng)結(jié)合使用的計(jì)算機(jī)程序產(chǎn)品,所述計(jì) 算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和嵌入其中的計(jì)算機(jī)程序機(jī) 制,所述計(jì)算機(jī)程序機(jī)制包括-用于從網(wǎng)站接收用戶提交的多個(gè)搜索查詢的指令; 用于響應(yīng)于所述搜索査詢向所述請(qǐng)求用戶提供搜索結(jié)果的指令;用于監(jiān)視在所述搜索結(jié)果上的所述用戶的行為的指令;以及 用于使用所述搜索查詢和所述用戶行為為所述網(wǎng)站生成簡檔的指令。
29. —種用于對(duì)網(wǎng)站建檔的計(jì)算機(jī)系統(tǒng),包括用于從網(wǎng)站接收用戶提交的多個(gè)搜索査詢的裝置; 用于響應(yīng)于所述搜索査詢向所述請(qǐng)求用戶提供搜索結(jié)果的裝置;用于監(jiān)視在所述搜索結(jié)果上的所述用戶的行為的裝置;以及 用于使用所述搜索査詢和所述用戶行為為所述網(wǎng)站生成簡檔的裝
全文摘要
在對(duì)網(wǎng)站建檔的方法中,信息服務(wù)器從網(wǎng)站接收不同用戶提交的多個(gè)搜索查詢。響應(yīng)于搜索查詢向請(qǐng)求用戶提供不同的搜索結(jié)果。信息服務(wù)器監(jiān)視在搜索結(jié)果上的用戶行為并且使用搜索查詢和用戶行為為網(wǎng)站生成簡檔。當(dāng)信息服務(wù)器從兩個(gè)不同的網(wǎng)站接收了相同的搜索查詢時(shí),其識(shí)別與搜索查詢相關(guān)聯(lián)的多個(gè)信息項(xiàng)。信息服務(wù)器使用兩個(gè)網(wǎng)站的簡檔來將信息項(xiàng)定制為兩種不同的次序并且以該兩種不同的次序?qū)⑿畔㈨?xiàng)派發(fā)到兩個(gè)網(wǎng)站。
文檔編號(hào)G06F17/30GK101454780SQ200780019748
公開日2009年6月10日 申請(qǐng)日期2007年3月30日 優(yōu)先權(quán)日2006年3月30日
發(fā)明者亞當(dāng)·J·克萊因, 塔赫·H·哈夫利瓦拉, 塞潘達(dá)·D·卡姆瓦爾, 格倫·耶赫, 比爾蓋汗·烏伊加爾·厄茲泰金 申請(qǐng)人:谷歌公司