專利名稱:用于使用傾向分析進行搜索查詢處理的系統(tǒng)和方法
技術領域:
本發(fā)明涉及以下共同轉(zhuǎn)讓的待審美國專利申請于2003年4月4日提交的題為“Universal Interface System and Methods”的臨時申請第60/460,222號;以及于2003年10月9日提交的題為“Systemand Methods for Search Processing Using Clustering of Units”的臨時申請第60/510,220號。所有這些申請的披露均結(jié)合于此作為參考。
背景技術:
隨著互聯(lián)網(wǎng)和用戶通過萬維網(wǎng)(網(wǎng)絡)可用的大量網(wǎng)頁及媒體內(nèi)容的出現(xiàn),需要向用戶提供用于從網(wǎng)絡過濾和獲取期望信息的改進的方法。已開發(fā)了搜索系統(tǒng)和程序以滿足用戶對獲取期望信息的需要。這些技術,例如,可以通過Yahoo!、Google和其它站點來訪問。典型地,用戶輸入查詢并且搜索程序返回一個或多個關于查詢的鏈接(在搜索網(wǎng)絡的情況下)、文件和/或參考資料(在不同搜索資料庫的情況下)。返回的鏈接可能與用戶實際上尋找的內(nèi)容緊密相關,或者它們可能與其完全不相關。查詢結(jié)果的“相關度(relatedness)”可能部分地為所輸入的實際查詢和所使用的搜索系統(tǒng)(下層收集系統(tǒng))的魯棒性(robustness)的函數(shù)。相關度可以由用戶主觀地確定或者由用戶可能一直尋找的內(nèi)容客觀地確定。
用戶輸入的查詢典型地由一個或多個單詞(word)構成。例如,“hawaii”是一個查詢,“new york city”也是如此,并且“new yorkcity law enforcement”也是如此。同樣地,查詢作為整體對于人的大腦不是完整的。換句話說,人們不按照查詢自然地進行思考。它們是通過搜索引擎或查尋庫目錄的需要部分強加的人工構造。人們也不根據(jù)單個單詞自然地進行思考。人們根據(jù)自然概念進行思考。例如,就由單詞數(shù)目衡量的長度而言,“hawaii”和“new york city”是很不同的查詢,但是它們共享一個重要的特征它們各由一個概念構成。然而,查詢“new york city law enforcement”是不同的,因為它由兩個截然不同的概念“new york city”和“l(fā)aw enforcement”構成。
人們還按照概念之間的邏輯關系進行思考。例如,“l(fā)awenforcement”和“police”是相關概念,因為警察局是法律實施的重要機構;鍵入這些概念之一的用戶可能對與其它概念相關的站點感興趣,即使那些站點不包括用戶正巧鍵入的特定單詞或者短語。作為這種思考模式的結(jié)果,人們生來通過輸入一個或多個自然概念建立查詢,不單單是單個單詞的可變長度序列,并且通常查詢不包括用戶可能知道的全部相關概念。同樣,用戶意圖未必反映在查詢的單個單詞中。例如,“l(fā)aw enforcement”是一個概念,而分開的單詞“l(fā)aw”和“enforcement”不單獨地傳達與單詞組合時相同的用戶意圖。
任何主要搜索提供方的當前技術,例如,MSN、Google或任何其它主要搜索引擎站點,均不以創(chuàng)建它們的人們的相同方式理解查詢。例如,通?,F(xiàn)存的搜索引擎搜索用戶所輸入的確切單詞或短語,不是搜索潛在的自然概念或?qū)嶋H上在用戶頭腦中的相關概念。這可能是阻止搜索提供方識別用戶的意圖并且提供最佳的搜索結(jié)果和內(nèi)容的最重要的原因。
正如所看到的,需要改進搜索和接口技術來幫助提供更符合用戶可能感興趣的實際概念的結(jié)果并且增強用戶的體驗。
發(fā)明內(nèi)容
本發(fā)明的實施例提供了一種用于處理搜索請求的系統(tǒng)和方法,包括分析所接收到的查詢以提供所搜索的信息的更完善的理解。查詢被解析成單元,其可能包括例如,查詢的一個或多個單詞或標記(token)。對查詢的單元表示執(zhí)行進一步分析以檢測模式,例如在不同查詢中使用的單元的類似組合。在查詢中出現(xiàn)的單元連同第二(secondary)單元的類似組被分組成群集(cluster),并且可以根據(jù)與每個單元有關的第二單元的相似程度來對兩個群集成員之間的關系分配權重。
根據(jù)本發(fā)明的一個方面,對于查詢的不同子集進行重復群集,其中,查詢按照一個或多個維度被分類為子集。在一個實施例中,維度包括時間、個人特征或者用戶的人口統(tǒng)計狀況(demographics)(例如,年齡、性別、已知的興趣、或用戶簡介)、地理維度(例如,物理位置或IP地址)、或表示查詢之前的用戶活動或內(nèi)容的垂直維度(例如,當輸入查詢時用戶在網(wǎng)站的何處)。這為查詢的每個子集生成子集專用群集(或概念網(wǎng)絡)。通過將相應子集專用概念網(wǎng)絡與至少兩個子集進行比較,生成關于單元或群集的傾向信息。
下面的詳細描述與附圖一起,將為本發(fā)明的性質(zhì)和優(yōu)點提供更好的理解。
圖1是根據(jù)本發(fā)明的實施例的信息檢索和通信系統(tǒng)的簡化高層框圖。
圖2是根據(jù)本發(fā)明的實施例的用于傳輸媒體內(nèi)容的信息檢索和通信網(wǎng)絡的簡化框圖。
圖3是根據(jù)本發(fā)明的實施例的查詢處理引擎的簡化框圖。
圖4是根據(jù)本發(fā)明的實施例的用于執(zhí)行傾向分析的過程的流程圖。
圖5是根據(jù)本發(fā)明的實施例的包括單元詞典和相關處理信息的系統(tǒng)(包括某些方面的查詢處理引擎)的簡化框圖。
圖6是示出作為一天中時間的函數(shù)的查詢頻率的傾向數(shù)據(jù)的圖表。
具體實施例方式
圖1示出了根據(jù)本發(fā)明的實施例的包括客戶機系統(tǒng)20的信息檢索和通信網(wǎng)絡10的總體圖。在計算機網(wǎng)絡10中,客戶機系統(tǒng)20通過互聯(lián)網(wǎng)40或其它通信網(wǎng)絡(例如,通過任何LAN或WAN連接)連接到任意數(shù)目的服務器系統(tǒng)501至50N。將在此描述,根據(jù)本發(fā)明,將客戶機系統(tǒng)20配置成與任意的服務器系統(tǒng)501至50N進行通信,例如,訪問、接收、檢索和顯示媒體內(nèi)容和其它信息(例如網(wǎng)頁)。
在圖1所示的系統(tǒng)中的若干組件包括在此不必詳細解釋的常規(guī)的、眾所周知的組件。例如,客戶機系統(tǒng)20可以包括桌面?zhèn)€人計算機、工作站、便攜式計算機、個人數(shù)字助理(PDA)、移動電話、或任何無線應用協(xié)議(WAP)裝置或任何能夠直接或間接連接到互聯(lián)網(wǎng)的其他計算裝置??蛻魴C系統(tǒng)20典型地運行瀏覽程序,例如微軟的Internet ExplorerTM瀏覽器、Netscape NavigatorTM瀏覽器、MozillaTM瀏覽器、OperaTM瀏覽器、或在移動電話、PDA或其它無線裝置的情況下的WAP瀏覽器等,允許客戶機系統(tǒng)20的用戶通過互聯(lián)網(wǎng)40從服務器系統(tǒng)501至50N訪問、處理和觀看瀏覽器可用的信息和網(wǎng)頁??蛻魴C系統(tǒng)20典型地還包括一個或多個用戶接口裝置22,例如鍵盤、鼠標、觸摸屏、筆等,用來與圖形用戶界面(GUI)進行互動,GUI以及由服務器系統(tǒng)501至50N或其它服務器提供的頁面、表格和其它信息,由瀏覽器提供在顯示器(例如,監(jiān)控器屏幕、LCD顯示器,等)上。本發(fā)明適于用在互聯(lián)網(wǎng)上,互聯(lián)網(wǎng)指網(wǎng)絡的特定全球互聯(lián)網(wǎng)絡。然而,應當理解,可以使用其它網(wǎng)絡或互聯(lián)網(wǎng)(例如內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、虛擬個人網(wǎng)絡(VPN)、基于非TCP/IP的網(wǎng)絡、任何LAN或WAN等)代替。
根據(jù)一個實施例,客戶機系統(tǒng)20和其所有的組件是能夠使用中央處理器單元(例如Intel PentiumTM處理器、AMD AthlonTM處理器等)或多個處理器進行運行以及使包括計算機代碼的應用程序運行的操作器。在此描述的用于操作和配置客戶機系統(tǒng)20以進行通信、處理和顯示數(shù)據(jù)和媒體內(nèi)容的計算機代碼被優(yōu)選地下載并存儲到硬盤上,但是整個程序代碼,或其多個部分也可以被存儲在眾所周知的任何其它易失性或非易失性存儲介質(zhì)或裝置中(例如ROM或RAM),或提供在可以存儲程序代碼的任何媒體上,例如光盤(CD)介質(zhì)、數(shù)字通用盤(DVD)介質(zhì)、軟盤等。另外,整個程序代碼或其一部分可以從軟件源傳輸和下載,例如,通過互聯(lián)網(wǎng)從服務器系統(tǒng)501至50N之一至客戶機系統(tǒng)20,或通過任何其它網(wǎng)絡連接(例如,外聯(lián)網(wǎng)、VPN、LAN、或其它常規(guī)的網(wǎng)絡)使用任何通信媒介和協(xié)議(例如,TCP/IP、HTTP、HTTPS、以太網(wǎng)、或其它傳統(tǒng)媒體和協(xié)議)來傳輸。
應當意識到用于本發(fā)明的實現(xiàn)方面的計算機代碼可以是C、C++、HTML、XML、Java、JavaScript等代碼,或任何其它適合的腳本語言(例如,VBScript),或任何其它適合的編程語言,其可以在客戶機系統(tǒng)20上執(zhí)行或被編譯,以在客戶機系統(tǒng)20上執(zhí)行。在某些實施例中,沒有代碼被下載到客戶機系統(tǒng)20,并且所需的代碼由服務器執(zhí)行,或執(zhí)行已經(jīng)存在于客戶機系統(tǒng)20的代碼。
圖2示出了根據(jù)本發(fā)明的實施例的用于傳輸媒體內(nèi)容的另一個信息檢索和通信網(wǎng)絡110。如所示,網(wǎng)絡110包括客戶機系統(tǒng)120、一個或多個內(nèi)容服務器系統(tǒng)150、和搜索服務器系統(tǒng)160。在網(wǎng)絡110中,客戶機系統(tǒng)120通過互聯(lián)網(wǎng)140或其它通信網(wǎng)絡可通信地連接到服務器系統(tǒng)150和160。如上所述,客戶機系統(tǒng)120和其組件被配置成通過互聯(lián)網(wǎng)140或其它通信網(wǎng)絡與服務器系統(tǒng)150和160以及其它服務器系統(tǒng)進行通信。
根據(jù)一個實施例,在客戶機系統(tǒng)120上執(zhí)行的客戶機應用程序(以模塊125表示)包括用于控制客戶機系統(tǒng)120和其組件以與服務器系統(tǒng)150和160進行通信和處理及顯示從那里接收的數(shù)據(jù)內(nèi)容的指令??蛻魴C應用程序125優(yōu)選地從軟件源傳輸和下載到客戶機系統(tǒng)120,例如遠程服務器系統(tǒng)(例如,服務器系統(tǒng)150、服務器系統(tǒng)160或其它遠程服務器系統(tǒng)),雖然客戶機應用程序模塊125可以被提供在如上所述的任何軟件存儲介質(zhì)(例如軟盤、CD、DVD、等)上。例如,在一方面,客戶機應用程序模塊125在HTML封裝器(wrapper)中可以通過互聯(lián)網(wǎng)140提供給客戶機系統(tǒng)120,其中,HTML封裝器包括用于在各種對象、框和窗口中操作數(shù)據(jù)和提供數(shù)據(jù)的各種控件,例如,諸如嵌入式JavaScript或Active X控件。
另外,客戶機應用程序模塊125包括用于處理數(shù)據(jù)和媒體內(nèi)容的各種軟件模塊,例如用于處理搜索請求和搜索結(jié)果數(shù)據(jù)的特定搜索模塊126,用于在文本和數(shù)據(jù)框和活動窗口(例如,瀏覽器窗口和對話框)中提供數(shù)據(jù)和媒體內(nèi)容的用戶界面(interface)模塊127,用于與在客戶機120上執(zhí)行的各種應用程序進行連接和通信的應用程序界面模塊128。根據(jù)本發(fā)明的多個方面,應用程序界面模塊128被優(yōu)選地配置成與客戶機系統(tǒng)120相連接,在客戶機系統(tǒng)120上執(zhí)行的各種應用程序的實例包括各種電子郵件應用程序、即時通信(IM)應用程序、瀏覽器應用程序、文檔管理應用程序和其它應用程序。另外,界面模塊127可能包括瀏覽器,例如在客戶機系統(tǒng)120上配置的缺省瀏覽器或不同的瀏覽器。在某些實施例中,客戶機應用程序模塊125提供第60/460,222號臨時申請所描述的通用搜索界面的特征。
根據(jù)一個實施例,搜索服務器系統(tǒng)160用于向客戶機系統(tǒng)120提供搜索結(jié)果數(shù)據(jù)和媒體內(nèi)容,并且例如,響應于在搜索服務器系統(tǒng)160提供的搜索結(jié)果頁面中所選擇的鏈接,內(nèi)容服務器系統(tǒng)150用于向客戶機系統(tǒng)120提供數(shù)據(jù)和媒體內(nèi)容(例如網(wǎng)頁)。在某些改變中,搜索服務器系統(tǒng)160也返回內(nèi)容,或者替代地,鏈接和/或內(nèi)容的其它引用。
在一個實施例中,搜索服務器系統(tǒng)160引用各種收集技術,用于使用例如頁、到頁面的鏈接、表示所索引頁面的內(nèi)容的數(shù)據(jù)等來填充一個或多個頁面索引。這些收集技術包括自動網(wǎng)絡爬行者(crawlers)、蜘蛛等,以及用于在分層結(jié)構中分類和排列網(wǎng)頁的手動或半自動分類算法和界面。在某些方面,搜索服務器系統(tǒng)16也配置有用于處理和排列網(wǎng)頁的與搜索相關的算法。搜索服務器系統(tǒng)160也優(yōu)選地被用于以查詢?nèi)罩疚募男问接涗浻脩舨樵兓顒印?br>
搜索服務器系統(tǒng)160用于響應于從客戶機系統(tǒng)(特別是搜索模塊126)接收到的各種搜索請求來提供數(shù)據(jù)。服務器系統(tǒng)150和160可能是單個組織的部分,例如,諸如由Yahoo!公司提供給用戶的分布式服務器系統(tǒng),或者它們可能是不同組織的部分。內(nèi)容服務器系統(tǒng)150和搜索服務器系統(tǒng)160均包括至少一個服務器和一個相關的數(shù)據(jù)庫系統(tǒng),并且可能包括多個服務器和相關數(shù)據(jù)庫系統(tǒng),并且雖然以單個框示出,但可以在地理上分散。例如,搜索服務器系統(tǒng)160的所有服務器可能是彼此靠近放置(例如,位于單個建筑物或校園中的服務器中心),或者它們可能分散在彼此遠離的位置(例如,位于城市A中的一個或多個服務器和位于城市B中的一個或多個服務器)。
如在此所用的,“服務器系統(tǒng)”典型地包括一個或多個邏輯上和/或物理上連接的本地或跨越一個或多個地理位置分布的服務器。如在本領域中所熟知的,“服務器”通常包括計算機系統(tǒng)和相關的存儲系統(tǒng)和數(shù)據(jù)庫應用程序。
根據(jù)一個實施例,搜索服務器系統(tǒng)160配置有一個或多個頁面索引和用于響應于從客戶機系統(tǒng)120接收的搜索查詢來訪問頁面索引和提供搜索結(jié)果給用戶的算法。在某些方面,搜索服務器系統(tǒng)160另外用于響應于來自客戶機系統(tǒng)120的搜索結(jié)果,來提供增強的搜索查詢分析和群集功能。在其它改變中,搜索服務器系統(tǒng)160包括內(nèi)容服務器系統(tǒng)150的全部內(nèi)容和功能。
在一個實施例中,在搜索服務器系統(tǒng)160上執(zhí)行的過程執(zhí)行搜索查詢和/或搜索結(jié)果的上下文分析并且用分組的搜索結(jié)果進行響應,以反映不同上下文。根據(jù)預期的上下文,許多搜索術語可能具有不同的含義。例如,如果用戶使用術語“Java”執(zhí)行搜索,預期的上下文不清楚。用戶可能對Java計算機語言感興趣,可能對印度尼西亞的Java島感興趣,或?qū)Х雀信d趣(其經(jīng)常被通俗地稱為java)。本發(fā)明有利地分析搜索查詢和/或結(jié)果,并且為了顯示在用戶計算機120上,在上下文中將結(jié)果分組。例如,響應于搜索術語“Java”,某些搜索服務器系統(tǒng)160的實施例返回被分組成三個(如果識別其它上下文,可能更多)上下文或單詞意義的搜索結(jié)果Java計算機語言、Java島、和咖啡java。該系統(tǒng)可以用于顯示具有與每個上下文相關的鏈接的組中的結(jié)果,或者系統(tǒng)可以僅顯示沒有任何鏈接的上下文(具有為用戶區(qū)分上下文的足夠信息)并且允許用戶選擇期望的上下文來顯示相關鏈接。在Yahoo!網(wǎng)絡系統(tǒng)中,例如,可能顯示一組上下文,其中,每個上下文具有從搜索索引到頁面的一組鏈接、與贊助商匹配相關的鏈接、與目錄匹配相關的鏈接和與Inside Yahoo!(IY)匹配相關的鏈接。
除了具有模糊含義的單詞或短語外,例如“Java”,本發(fā)明的系統(tǒng)在一個實施例中被用于將不是很模糊的搜索術語的結(jié)果分組進上下文。一個實例是為搜索術語“Hawaii”返回的結(jié)果。術語“Hawaii”在本質(zhì)上可能不是模糊的;然而,對于這樣的術語返回的結(jié)果的特性可能非常廣泛,涉及每個討論或僅提到Hawaii的站點。為了給用戶提供更有用的結(jié)果,通過支持(leveraging)對結(jié)果實際涉及內(nèi)容的認識,本發(fā)明的系統(tǒng)優(yōu)選地將搜索結(jié)果組織進上下文。例如,對于Hawaii,系統(tǒng)可能在不同上下文分組中返回結(jié)果,例如“Hawaiitravel”、“Hawaiiclimate”、“Hawaiigeography”、“Hawaiiculture”,等。
在某些實施例中,上下文標識符與頁面鏈接相關聯(lián)地存儲在在索引中,因此當執(zhí)行搜索時,可以根據(jù)標識符對鏈接進行分組。頁面鏈接可以與多個上下文標識符相關聯(lián)。在用戶執(zhí)行相關搜索時,通過系統(tǒng)優(yōu)選地將這種標識符自動地與鏈接進行關聯(lián);然而,也可以由一個或多個索引編輯者的團隊手動地修改和使標識符與鏈接相關。以此方式中,由眾多搜索收集的知識被反饋進系統(tǒng),來限定或重限定上下文,以使顯示的搜索結(jié)果對請求用戶更有價值和更有用。
在一個實施例中,在搜索服務器系統(tǒng)160上的算法執(zhí)行搜索術語的概念發(fā)現(xiàn)或概念分析,以向用戶提供更有意義的結(jié)果。例如,對于搜索短語“New York City”,相當清楚的是,相對于(as supposedto)紐約州的其它城市,用戶對涉及紐約市(市或區(qū))的站點感興趣。類似地,對于“New York City law enforcement”,很清楚,用戶對涉及紐約市的法律實施(例如,工作部分)的站點感興趣。然而,大多數(shù)搜索引擎可能僅使用單獨的術語“New”、“York”、“City”、“l(fā)aw”和“enforcement”進行搜索,而不管在搜索短語中術語出現(xiàn)的順序。其它搜索引擎可能試圖找到在索引中出現(xiàn)的搜索短語中的最長子字符串。例如,如果索引包含“New York”、“NewYork City”和“New York City law”但不包含“New York City lawenforcement”,搜索引擎將使用“New York City law”和“enforcement”搜索,這不一定是用戶所預期的。
本發(fā)明的實施例有利地分析在搜索短語中的術語,以識別構成搜索查詢的一個或多個概念(單元)。
圖3是根據(jù)本發(fā)明的一個實施例的用于執(zhí)行概念發(fā)現(xiàn)或包括傾向分析的概念分析的系統(tǒng)300的框圖。由查詢處理引擎(同時稱為查詢引擎)304接收一個或多個查詢?nèi)罩疚募?02(或?qū)嶋H查詢),該引擎產(chǎn)生如下所述的單元詞典306。查詢?nèi)罩疚募?或?qū)嶋H查詢)可以通過互聯(lián)網(wǎng)或通過多種網(wǎng)絡連接(例如,LAN、WAN、直接鏈接、分布介質(zhì)(例如,CD、DVD、軟盤)等)從不同的來源接收。來源的實例包括搜索服務器系統(tǒng)160(圖1)、或在搜索服務器的分布式網(wǎng)絡中的多個搜索服務器160、和一個或多個內(nèi)容服務器150。通常查詢?nèi)罩疚募碓磁c同一組織或?qū)嶓w有關,例如,Yahoo!服務器,但不是必須的。由查詢引擎304使用統(tǒng)計學方法(例如在信息理論中所使用的)或概念(例如交互信息)來處理查詢?nèi)罩疚募?也稱為查詢?nèi)罩?。在優(yōu)選方面,使用日常查詢?nèi)罩?,根?jù)需要可能使用不同時期的日志,例如,小時、星期、等。查詢?nèi)罩就ǔ0ㄓ捎脩籼峤坏膶嶋H查詢,并且也可能包括用于某些或全部查詢的額外信息,例如查詢用戶的地理位置、時間信息、客戶機系統(tǒng)的IP地址、cookies、客戶機類型(例如,瀏覽器類型)等。查詢處理引擎304處理各種的查詢?nèi)罩静⑶覐钠洚a(chǎn)生單元(unit)。單元和相關統(tǒng)計(例如出現(xiàn)的頻率)被存儲在存儲器中或在此稱為單元詞典306的數(shù)據(jù)庫文件中。可以通過搜索引擎響應于后續(xù)查詢來使用單元詞典306,如下所述。
在一個實施例中,查詢處理器304包括單元分析模塊310和群集模塊312。單元分析模塊310處理查詢?nèi)罩?02來產(chǎn)生單元。在優(yōu)選的實施例中,系統(tǒng)使用搜索術語出現(xiàn)的順序來識別構成查詢的單元。單元可以是單詞(例如,“java”)或經(jīng)常彼此相鄰出現(xiàn)的單詞組(例如,“new york city”)。在上面引用的第60/460,222號臨時申請中對單元的確定進行了詳細描述。由單元分析模塊310產(chǎn)生的單元存儲在單元詞典306中;在一些實施例中,也可以包括統(tǒng)計信息(例如,出現(xiàn)的頻率或連同一個或多個其他單元一起出現(xiàn)的頻率)。可以通過搜索引擎響應于后續(xù)查詢使用存儲在單元詞典306中的信息。
群集模塊312使用由單元分析模塊310識別出的單元來執(zhí)行對查詢的進一步分析,以創(chuàng)建群集,或概念網(wǎng)絡,其指示不同單元間的相似性。如在本領域通常所知的,概念網(wǎng)絡是用于表示關系的結(jié)構,其中每個概念對應于一個節(jié)點,并且概念之間的關系由連接節(jié)點的線(或邊)表示。可以為邊分配不同的權重,因此每個邊的權重反映了概念(節(jié)點)之間相似性的強度或接近程度。根據(jù)本發(fā)明的一個實施例,通過識別傾向于與一個或多個相同組“簽名”單元一起出現(xiàn)在查詢中的不同單元(群集的“成員”),從單元產(chǎn)生群集。成員單元可以用作概念網(wǎng)絡中的節(jié)點??梢岳斫?,也可以使用不同單元或概念之間的聯(lián)系或關系的其它表示,并且在此使用的“概念網(wǎng)絡”包括可選表示。
例如,假設許多用戶搜索關于它們喜愛的流行音樂節(jié)目的信息。通常,這些用戶將構建包括節(jié)目名稱(例如,“Avril Lavigne”或“Celine Dion”)以及一些其它反映搜索信息類型的詞語(例如,“l(fā)yrics(歌詞)”、“mp3”、“guitar tabs”、“discography(音樂唱片分類目錄)”等)的查詢。群集模塊312分析這些查詢并確定“l(fā)yrics”、“mp3”、“guitar tabs”、“discography”等是用于群集的“簽名”單元,群集的成員包括不同流行音樂節(jié)目的名稱。用于創(chuàng)建群集的特定技術的實例可以在群集模塊312中實施,這些實例如第60/510,220號臨時申請中所述。群集模塊312有利地將包括涉及成員單元的數(shù)據(jù)和簽名的群集信息存儲在單元詞典306中。因此,在單元詞典306中的可用信息包括有關單元和它們的“近鄰”(也就是說,與給定單元一起出現(xiàn)在查詢中的其它單元)以及與具有相似近鄰的單元的關系的信息。
在優(yōu)選實施例中,由群集模塊312創(chuàng)建的群集傾向于反映概念的真實世界的關系(例如,屬于共同分類的分組單元),即使不需要向查詢處理引擎304提供真實世界的知識或有關特定單元或查詢的語義信息。例如,一個群集可能包括“New York City(紐約市)”、“San Francisco”、和“Chicago”、并且群集的簽名可能包括“hotel”、“restaurant”、和“night club”。這樣的群集將會反映紐約市、舊金山、和芝加哥全部是旅游目的地(或城市),但查詢引擎304(圖3)不要求具有任何概念“目的地”(或“城市”)的現(xiàn)有知識。該概念性知識可以從分析查詢的模式自動增長。應該理解,本說明書使用對人們帶有語義含義的術語來標注群集,這便于促進本公開的理解。實際上,由查詢引擎304或單元詞典306使用的任何群集標注方案均不需要具有該屬性;例如,群集標簽可以僅是一個數(shù)字、一個群集簽名的指示器等。
單元可能屬于多個群集;例如,模糊單元(例如“java”)可以終止于“computer programming”群集中、“food and drink”群集中、和“travel”或“place”群集中。在一些實施例中,單元可以不屬于任何群集。
根據(jù)本發(fā)明的一個實施例,查詢處理引擎304也包括沿著多個維度尋找查詢中的傾向的傾向分析模塊320,例如時間、地理、用戶人口統(tǒng)計狀況、用戶歷史或上下文(在此稱為“垂直”維度)等。傾向分析模塊320有利地支持單元分析模塊310和群集模塊312的功能,以在查詢的不同子集上進行概念分析和/或概念發(fā)現(xiàn),然后匯編結(jié)果。得到的傾向信息被方便地加入單元詞典306。
單元詞典306可以以任何格式實施,并且存儲在任何合適的存儲介質(zhì)上,包括磁盤或磁帶、諸如光盤(CD)的光學存儲介質(zhì)等。單元詞典306的內(nèi)容有利地包括單元,以及有關每個單元的附加信息,例如由單元分析模塊310生成的統(tǒng)計數(shù)據(jù)、由群集模塊312確定的群集信息、和由傾向分析模塊320產(chǎn)生的傾向信息。涉及單元、群集、和/或傾向的信息可以由搜索引擎使用以響應后續(xù)查詢。
圖4是可以由傾向分析模塊320的實施例執(zhí)行的過程400的流程圖。在步驟402,包含在查詢?nèi)罩局械牟樵冄刂x擇的維度分類成子集??梢愿鶕?jù)關于日志文件提供的查詢的任何信息限定維度,并且可以沿給定維度將查詢分為任何數(shù)目的子集。
作為一個實例,如果查詢?nèi)罩咎峁┥婕岸喾N已知查詢的提交時間的信息,可以使用“時間”維度。沿著時間維度,例如,可以按星期或月份來劃分查詢,以分析用戶興趣隨著時間的傾向。也可以根據(jù)一天中的時間(例如,早上、下午、傍晚、深夜)、工作日對周末或假日、季節(jié)等劃分查詢。許多變更是可能的;僅作為一個實例,可以在一周、一個月、或另一個所需時期的時間集合在上午8時和上午10時之間收到的查詢。在一些實施例中,根據(jù)搜索服務器的本地時間來確定一天的時間。在搜索服務提供多個服務器以服務不同地理區(qū)域的情況下,服務器的本地時間大體上表示用戶的本地時間。在其它實施例中,可以使用用戶的本地時間。
作為另一個實例,如果查詢?nèi)罩咎峁╆P于查詢的地理起源的信息,可以使用“地理”維度。地理可以涉及物理地理。例如,一些IP地址可以用來識別查詢起源的可能國家;用于提交查詢的用戶的用戶簡介(profile)可以用來確認用戶居住在何處;或者可以根據(jù)它們是否在位于不同位置的鏡像站點或與不同位置有關的地區(qū)/國家站點被接收到,來分類查詢??蛇x地,地理維度可以表示“計算機地理”,其中,用戶的IP地址(或由IP地址確定的域)被視為地理起源??梢越Y(jié)合物理的和計算機的地理維度。
作為第三實例,如果查詢?nèi)罩咎峁╆P于例如年齡、性別、等用戶的人口統(tǒng)計學特征的信息,可以使用“人口統(tǒng)計學”維度。人口統(tǒng)計學數(shù)據(jù)的任何數(shù)字和結(jié)合均可以被用來限定用于傾向分析的人口統(tǒng)計學維度。例如,人口統(tǒng)計學維度可以包括一組“年齡大于25和擁有住房的女性用戶”、另一組“年齡大于35和租房的男性用戶”、一組“年齡小于25擁有汽車的用戶”等。
作為第四實例,如果查詢?nèi)罩咎峁╆P于在查詢輸入之前的用戶活動的信息(在此稱為“用戶歷史”或“用戶上下文”),可以使用“垂直的”或“用戶歷史”維度。例如,假設門戶站點(例如,在www.yahoo.com的Yahoo!站點)包括不同區(qū)域或“屬性”,例如購物屬性、通用網(wǎng)絡目錄、音樂屬性等,每個屬性包括了使用戶輸入查詢的搜索接口的屬性。關于當輸入查詢時用戶正在訪問這些屬性的哪一個的信息可能被存儲并且作為“垂直”維度被使用。因此,在一個實施例中,垂直維度可能包括來自在“購物”屬性的用戶的一個查詢子集和來自在“通用目錄”屬性的用戶的另一個查詢子集等。在其它實施例中,例如在任意時間用戶已經(jīng)為了輸入搜索查詢連續(xù)訪問對話框的情況下(這樣的對話框的一個實例如第60/460,222號臨時申請所述),用戶歷史信息可能也包括當用戶輸入查詢時顯示的網(wǎng)頁的URL或其它標識符。垂直維度可能根據(jù)URL、其一部分(例如,域名)、或關于頁面內(nèi)容的信息(例如,可能保持在頁面索引中的信息)來分開查詢。
本領域的技術人員將認識到前述維度和子集的實例是說明性的,并不是限制性的;可以使用沿給定維度的查詢的任何數(shù)目的維度和子集。查詢沿著維度的分類可以包括相關維度的“未知”和/或“其它”值的子集,并且可以根據(jù)系統(tǒng)設置來分析或不分析該子集。
在步驟404,查詢的每個子集被提供給群集模塊312以產(chǎn)生一個或多個子集專用概念網(wǎng)絡。在某些實施例中,使用現(xiàn)存單元詞典306;在其它實施例中,也可以將子集提供給單元分析模塊310來產(chǎn)生子集專用單元組。單元分析和群集分析如第60/510,220號臨時申請所述。有利地為每個查詢子集獨立執(zhí)行群集分析,因此為每個子集產(chǎn)生概念網(wǎng)絡組。得到的子集專用概念網(wǎng)絡返回到傾向分析模塊320。
在步驟408,傾向分析模塊320使用子集專用概念網(wǎng)絡沿著維度執(zhí)行傾向分析,以檢測反映用戶行為的不同模式的相似性和差異。這些不同模式在此稱為“傾向”,并且傾向分析通常涉及比較由不同子集產(chǎn)生的群集(例如,概念網(wǎng)絡)和/或簽名以發(fā)現(xiàn)這些差異。傾向和傾向分析可以采取廣泛多樣的形式。
作為一個實例,一個傾向分析可能比較在不同時期或?qū)τ诓煌脩羧丝诮y(tǒng)計的特定搜索術語或單元的相對頻率。比較的單元可能是,例如群集的不同成員單元或?qū)τ谌杭牟煌灻麊卧<僭O,例如,有一個“歌唱家”的群集;對于該群集的一個傾向分析可能顯示對于小于21歲的用戶,“Avril Lavigne”是比“Celine Dion”更流行的查詢術語,而對于大于35歲的用戶結(jié)果是相反的?;蛘呒僭O有一個“cities(城市)”的群集并且該群集的簽名包括單元“employment”和“hotel”;對該簽名的傾向分析可能顯示在工作日期間更經(jīng)常搜索“employment”,而在周末更經(jīng)常搜索“hotel”。(這可能反映,例如,用戶傾向于在工作日期間進行工作搜索并且在周末期間進行度假計劃)。
在某些實施例中,傾向分析也可能被用來檢測用戶興趣和行為中更微妙的傾向。例如,假設在一個領域中(例如,音樂),眾所周知的名人決定進入另一個領域(例如,政治)。對該名人的興趣的總體水平可能沒有改變很多,但是所搜索的關于該名人的信息的種類可能變動。例如,對于名人的姓名加上“song”或“album(曲集)”的搜索的頻率可能減少而對于名人的姓名加上“politics”或“taxes”的術語的搜索的頻率增加。對在不同時期的名人姓名的近鄰比較將顯示這樣的傾向。
在步驟410,為了用于響應后續(xù)查詢,傾向信息被存儲在例如單元詞典306中。信息可能與信息所屬的特定單元和/或群集、與關于單元或群集的簽名或建議等一起存儲。
將意識到,在此描述的系統(tǒng)和過程是說明性的并且可以變更和修改。可以平行執(zhí)行按順序描述的過程步驟,可以改變步驟的次序,并且可以修改或合并步驟??梢栽谌魏螖?shù)目的維度上同時進行傾向分析(例如,來自“購物”區(qū)域的年齡小于21的用戶),并且沿著維度的分類根據(jù)所需可以為近似的或精細的。一個子集專用概念網(wǎng)絡可以與另一個子集專用概念網(wǎng)絡進行比較,或者不同子集專用概念網(wǎng)絡可以與由沒有分類的查詢所產(chǎn)生的“全局”概念網(wǎng)絡進行比較。傾向分析可以限于特定概念網(wǎng)絡,例如,那些涉及用在足夠大數(shù)目的查詢中以產(chǎn)生有意義數(shù)據(jù)的單元的,或者作為用于建議相關搜索的基礎的單元的。可以在單元、群集、簽名、或它們的任意組合上執(zhí)行傾向分析。
像單元和群集數(shù)據(jù)一樣,經(jīng)常有利地隨時間更新或重新產(chǎn)生傾向信息,以捕獲可以反映用戶興趣的改變的用戶行為的變化(例如,特定流行音樂表演者的流行增加或減少,找工作相對旅行的興趣增加或減少等)。
在本發(fā)明的另一個實施例中,通過考慮相關傾向,傾向信息被用于幫助響應于特定用戶的興趣修整搜索。圖5示出了可以由圖2的系統(tǒng)110使用的方法以響應查詢。客戶機120發(fā)送查詢到搜索服務器系統(tǒng)160。搜索服務器系統(tǒng)160向概念服務器180發(fā)送查詢和/或其組成單元,其訪問單元詞典306。概念服務器180返回涉及查詢的概念數(shù)據(jù),例如從查詢識別的一個或多個單元以及用于多個單元的統(tǒng)計和群集信息,以及涉及單元的傾向信息。例如,可以通過混編(hashing)查詢來識別在此包含的單元,并訪問單元詞典306以檢索用于每個識別出的單元的條目(entries),來推斷該信息。在一個實施例中,返回的信息包括單元、統(tǒng)計、群集、和關于與查詢相關的傾向的信息、一個或多個其組成單元,或者一個或多個與任何組成單元相關的群集。
搜索服務器系統(tǒng)160有利地使用從響應于查詢的概念服務器180接收到的概念數(shù)據(jù)。由搜索服務器系統(tǒng)160返回的結(jié)果有利地包括響應于用戶查詢而給用戶的結(jié)果,以及其它相關信息,例如關于用戶下一步可能要尋找的內(nèi)容的提示和指點,其基于在單元和它們的擴充和結(jié)合物中所捕獲的對用戶需要的理解,其擴充和結(jié)合物包括關于單元和/或群集的群集和傾向。
例如,假設查詢包括模糊術語,例如可能在多于一個上下文中使用的“Java,”。這樣的術語可能屬于多個群集,例如,“food anddrink”群集,“computer”群集、和“l(fā)ocation”群集。在某些實施例中,搜索服務器系統(tǒng)160可以使用傾向數(shù)據(jù)來形成響應,例如,通過選擇哪個群集將被給予最顯著的位置。例如,如果在工作日搜索“Java”的用戶很可能對計算機語言感興趣,而在周末搜索“Java”的用戶很可能對咖啡感興趣,顯示哪個搜索結(jié)果的次序可能取決于星期幾;例如,如果是工作日,涉及計算機語言的結(jié)果可能被最顯著地顯示,而如果是周末,涉及咖啡的結(jié)果可能被最顯著地顯示。(第60/510,220號參考臨時申請描述了用于根據(jù)不同群集的相關性分組搜索結(jié)果的一些技術。)作為第二實例,假設有其為打擊樂團體名稱同時也是用于某個公司的證券報價機(stock-ticker)符號的四字母序列(“WXYZ”)。根據(jù)當股票市場營業(yè)時所收到的查詢相對于當市場關閉時所收到的查詢,比較概念網(wǎng)絡或群集可能顯示在前一種情況中公司W(wǎng)XYZ更經(jīng)常地被搜索,而在后一種情況中打擊樂團體WXYZ更經(jīng)常地被搜索。因此,涉及公司的搜索結(jié)果可能被置于涉及打擊樂團體的結(jié)果之前或之后,取決于當接收到查詢時市場是否營業(yè)。
作為第三實例,考慮術語“party”,取決于上下文,其可以涉及社會活動或涉及政治。包括術語“party”的某些查詢也可以包括解析(resolve)模糊的另一個術語(例如,“Republican party”或“partygames”),但其它查詢可能不包括這些術語。傾向分析可以被用于形成對模糊查詢的響應。例如,圖6是示出了沿著一天中的時間維(每4小時增量)、包含術語“party”的查詢的頻率(以任意單位)的傾向數(shù)據(jù)的圖表。這種傾向數(shù)據(jù)可能通過分析根據(jù)上述過程400的某些組查詢來獲得。傾向數(shù)據(jù)組602(符號“×”)對應于其中“party”與另一個清楚地涉及社會活動(例如,“game)”、“favors”、“supplies”)的術語共同出現(xiàn)的查詢。傾向數(shù)據(jù)組604(符號“○”)對應于其中“party”與另一個清楚地涉及政治(例如,“Republican”、“Democrat”、“candidate”)的術語共同出現(xiàn)的查詢。傾向數(shù)據(jù)組606(三角)對應于包括“party”的查詢,其中不能通過參考查詢中的其它術語來解析模糊。
根據(jù)本發(fā)明,解析模糊的一個方法是通過比較不同傾向的形狀(例如,在圖6所示的數(shù)據(jù)組的第一和/或第二導數(shù)),并且確定該模糊組查詢是否比其它組與一個明確組查詢更接近地匹配。在圖6中所示的實例中,模糊傾向數(shù)據(jù)606明顯地比“political”傾向數(shù)據(jù)604更類似于“social event”傾向數(shù)據(jù)602。由此,可以推斷輸入包括“party”的模糊查詢的用戶可能對社會活動比對政治更感興趣,并且可以相應地顯示搜索結(jié)果,例如,通過在涉及政治的結(jié)果之前顯示涉及社會活動的結(jié)果。
應當注意到兩組傾向數(shù)據(jù)之間的相似性程度也可以被考慮,并且用于建立用于所推斷意圖的置信度。在圖6中所示的實例中,模糊傾向數(shù)據(jù)606相當接近地與“social event”傾向數(shù)據(jù)602匹配,因此,推斷的置信度水平將會很高。在其它實例中,取決于用戶行為,置信度水平可能較低或較高。這樣的置信度水平可能是形成查詢響應的另一個因素。例如,給出足夠高置信度水平,最初可能只顯示涉及社會活動的結(jié)果;在這種情況中,可以為用戶提供檢索涉及政治的結(jié)果的選擇。
該實例是說明性的,并且可以變更和修改。例如,沿著多個維度(例如,一天中的時間和用戶年齡)的傾向可能在確定相似性中一起考慮。傾向比較可能基于兩條曲線的相似性的任何適當?shù)臏y量,例如實際頻率值、導數(shù)(變化率)、更高階導數(shù)、或它們的任何組合。
作為第四實例,考慮術語“poison”,其可能涉及有毒物質(zhì)或涉及重金屬樂隊。再次,某些查詢將包括解析模糊的其它術語;例如,查詢例如“rat poison”或“poison control”將涉及有毒物質(zhì),而“poisonlyrics”或“poison mp3”將涉及樂隊。然而,其它查詢將完全是不確定的。
例如在上面“party”的實例中描述的分析可以被用來解析模糊。另一個方法涉及確認樂隊“poison”屬于音樂表演者的群集,并且該群集包括其名稱相對明確的其它表演者。(例如,實際上,每個輸入“Britney Spears”作為查詢的用戶對該著名的歌手均感興趣。)包括音樂表演者明確名稱的查詢可以被用作“控制”組,可以從中得出關于正在尋找關于音樂表演者信息的用戶的行為的推斷。為了估計模糊術語涉及表演者的可能性,可以將該行為與鍵入模糊術語(例如,“poison”)的用戶的行為進行比較,該模糊術語可能涉及表演者或可能不涉及。
控制組和包括模糊術語的查詢之間的大量比較是可能的。例如,可以計算包括模糊術語“poison”同時包含確定地與音樂相關的術語(例如,“l(fā)yrics”)的查詢的分數(shù),包含明確名稱(例如,“Britney Spears”)的查詢的相應“控制”分數(shù)也是如此??刂品謹?shù)可以視為接近于對音樂感興趣的用戶將輸入可能模糊查詢的可能性。通過將此與包含“poison”的明確音樂有關的查詢的頻率進行比較,推斷出輸入查詢“poison”的用戶對樂隊感興趣的可能性是可能的。
為了使該實例更具體,假設包括術語“poison”同時包括術語“l(fā)yrics”的查詢的分數(shù)為0.1,并且包括術語“Britney Spears”同時包括術語“l(fā)yrics”的查詢的分數(shù)為0.2。由此,可以推斷出輸入術語“poison”的一半用戶可能不想涉及樂隊。在這種情況中,涉及樂隊和涉及毒物的結(jié)果都將被顯著地顯示。為了估計搜索有毒物質(zhì)的用戶不能包括模糊解析術語的可能性,也可以根據(jù)包括有毒“poison”(例如,涉及藥品的群集)的群集使用控制分數(shù)做出類似的分析。如果在涉及藥品的群集中的術語的模糊查詢的可能性很小,將暗示模糊查詢“poison”更有可能涉及樂隊。
另外,通過將接收來自對藥品感興趣的用戶相對于對音樂感興趣的用戶的可能模糊查詢的可能性進行比較,可以推斷用戶意圖。例如,假設來自對音樂感興趣的用戶的查詢的29%為僅包括表演者姓名的單個單元查詢,而來自對藥品感興趣的用戶的查詢只有2%包括單個單元。這可以推斷出輸入單個單元查詢“poison”的用戶更可能對樂隊感興趣。
將意識到,也可以使用該分析的更復雜改變。例如,不是僅使用一個表演者來計算控制分數(shù),可以使用更多表演者(例如,不僅是“Britney Spears”而且包括“matchbox twenty”、“Johnny Cash”等)。類似地,不是只考慮一個模糊解析術語,可以使用多個術語(例如,不僅是“l(fā)yrics”而且包括“mp3”、“tour”、“album”等)。也可以將類似的分析用于其它模糊術語和其它群集。
作為第五實例,假設用戶輸入查詢“digital cameras”。用戶可能在尋找出售數(shù)字相機的站點或?qū)ふ谊P于數(shù)字相機的信息(例如產(chǎn)品評論)。可以使用沿著多個維度的先前查詢的傾向分析(包括,例如,用戶簡介和/或垂直維度)來確定哪一個更可能,因此可以相應地修整結(jié)果。
作為第六實例,在某些實施例中,搜索服務器系統(tǒng)160可能根據(jù)傾向信息提出相關搜索。例如,如果已知小于21的用戶輸入包括歌手姓名的查詢,除了顯示與該歌手相關的站點的列表,搜索服務器系統(tǒng)160可能建議涉及通過傾向分析確認為在小于21的用戶中流行(例如,“Avril Lavigne”)的一個或多個其它歌手的搜索。對于35歲的用戶,可能建議不同的歌手(例如,“Celine Dion”)。在另一個實例中,如果“new york city”的查詢在周日被輸入,可能使建議“employment”比建議“hotel”更顯著(如果這與傾向數(shù)據(jù)一致),而如果在周末輸入相同的查詢,可能使用相反的順序。
在一些實施例中,也可以由搜索服務器系統(tǒng)160使用傾向數(shù)據(jù),來推斷關于特定用戶的信息,例如,用戶的可能性別、年齡或地理位置。這種推斷可能涉及將傾向數(shù)據(jù)與由相同用戶輸入的許多查詢進行比較,以使用戶行為與不同維度匹配。應當理解,這些推斷不能保證是精確的;它們反映了用戶如何行動,而不必反映用戶是誰??梢允褂脤μ囟ㄓ脩糇龀龅娜魏瓮茢?,來調(diào)整對由該用戶輸入的另外查詢的響應,再使用傾向數(shù)據(jù)作為類似用戶意圖的一個指示。因此,可以使用傾向數(shù)據(jù)定制搜索服務器對輸入查詢的特定用戶的響應。
傾向數(shù)據(jù)也可以連同廣告決策(例如在特定場合顯示哪一個廣告和/或為特定廣告放置所收取的價格)一起由搜索服務器系統(tǒng)160的提供方使用。
雖然參考特定實施例描述了本發(fā)明,本領域的技術人員將認識到可能有許多修改。例如,用于傾向分析的維度的數(shù)目和特征以及查詢子集可以改變,并且不是所有收到的查詢需要用于傾向分析??梢詣討B(tài)地限定群集、簽名和傾向信息,并且可以時常執(zhí)行傾向分析(例如,每天或每周),以響應于變化的用戶行為來更新傾向信息。在其它實施例中,可以在查詢被收到時處理它們,因此實際上實時更新群集、簽名和傾向數(shù)據(jù)。在此所描述的自動化的系統(tǒng)和方法可以通過對所得到的單元詞典(包括群集、簽名、涉及單元、群集、和簽名的任何或全部的傾向信息等等)的全部或部分的人工檢查(human review)擴充或補充。
在此描述的實施例可以涉及網(wǎng)站、鏈接、和用于其中由萬維網(wǎng)(或其子集)充當搜索主體的實例的其它術語。應當理解,在此描述的系統(tǒng)和過程可以被修改用于不同的搜索主體(例如電子數(shù)據(jù)庫或文檔儲存庫),并且結(jié)果可能包括內(nèi)容和可以找到內(nèi)容的位置的鏈接或引用。
因此,雖然已經(jīng)參考特定實施例描述了本發(fā)明,將意識到本發(fā)明包括權利要求書所限定的范圍內(nèi)的所有修改及其等價物。
權利要求
1.一種用于處理查詢的方法,所述方法包括接收一組先前查詢,其中,每個所述先前查詢均包括一個或多個單元;沿著維度將所述查詢分類成子集;為所述查詢的每個子集產(chǎn)生一個或多個子集專用概念網(wǎng)絡;以及比較來自至少兩個所述子集的相應子集專用概念網(wǎng)絡,從而產(chǎn)生用于單元的傾向信息。
2.根據(jù)權利要求1所述的方法,其中,所述維度是時間維度。
3.根據(jù)權利要求1所述的方法,其中,通過對用戶的一個或多個人口統(tǒng)計學特征的引用來限定所述維度。
4.根據(jù)權利要求1所述的方法,其中,所述維度是地理維度。
5.根據(jù)權利要求1所述的方法,其中,所述維度是表示所述查詢的用戶上下文的垂直維度。
6.根據(jù)權利要求1所述的方法,進一步包括接收后續(xù)查詢;將所述后續(xù)查詢解析成一個或多個組成單元;以及在形成對所述后續(xù)查詢的響應時使用所述傾向信息。
7.根據(jù)權利要求6所述的方法,其中,所述傾向信息用于解析所述查詢的模糊術語。
8.根據(jù)權利要求6所述的方法,其中,所述傾向信息用于建議相關搜索。
9.根據(jù)權利要求6所述的方法,其中,所述傾向信息用于將響應數(shù)據(jù)分組。
10.根據(jù)權利要求6所述的方法,其中,所述傾向信息用于選擇用于顯示的廣告。
11.一種用于處理查詢的系統(tǒng),包括傾向分析模塊,用于沿著維度將一組查詢分類成多個子集;以及群集模塊,用于為所述多個子集中的每一個產(chǎn)生相應概念網(wǎng)絡,其中,所述傾向分析模塊還用于比較用于至少兩個所述子集的相應概念網(wǎng)絡,從而產(chǎn)生傾向信息。
12.根據(jù)權利要求11所述的系統(tǒng),其中,所述維度是時間維度。
13.根據(jù)權利要求11所述的系統(tǒng),其中,所述維度通過對用戶的一個或多個人口統(tǒng)計學特征的引用來限定。
14.根據(jù)權利要求11所述的系統(tǒng),其中,所述維度是地理維度。
15.根據(jù)權利要求11所述的系統(tǒng),其中,所述維度是表示所述查詢的用戶上下文的垂直維度。
16.根據(jù)權利要求11所述的系統(tǒng),還包括響應模塊,用于接收后續(xù)查詢,以將所述后續(xù)查詢解析成一個或多個組成單元,并且用于至少部分基于所述傾向信息來形成對所述查詢的響應。
17.根據(jù)權利要求16所述的系統(tǒng),其中,所述響應模塊還用于使用所述傾向信息來分析所述查詢的模糊術語。
18.根據(jù)權利要求16所述的系統(tǒng),其中,所述響應模塊還用于使用所述傾向信息來建議相關搜索。
19.根據(jù)權利要求16所述的系統(tǒng),其中,所述響應模塊還用于使用所述傾向信息對響應數(shù)據(jù)進行分組。
20.根據(jù)權利要求16所述的系統(tǒng),其中,所述響應模塊還用于使用所述傾向信息來選擇用于顯示的廣告。
全文摘要
本發(fā)明提供了一種用于處理搜索請求的系統(tǒng)和方法,包括分析所接收到的查詢以提供被搜索信息的更完善理解。在一個實施例中,查詢被解析為單元,其中可能包括查詢的一個或多個單詞或標記,并且單元在概念網(wǎng)絡中相關。通過沿著感興趣的維度將查詢分類成子集和比較用于不同子集的概念網(wǎng)絡來執(zhí)行傾向分析。傾向信息可用于增強自動搜索工具對后續(xù)接收到的查詢的響應。
文檔編號G06F17/30GK1930566SQ200480036754
公開日2007年3月14日 申請日期2004年11月12日 優(yōu)先權日2003年11月12日
發(fā)明者希亞姆·卡普爾 申請人:雅虎公司