專利名稱:使用主題意識文件評級器的信息檢索的制作方法
使用主題意識文件評級器的信息檢索
背景技術(shù):
文件評級器評估文件以確定文件與捜索查詢的相關(guān)性。評級器常常不充分考慮(account for)包括多個主題(也稱作“概念”)的搜索查詢,其中每個主題由ー組關(guān)鍵字組成。即,評級器常常將相互獨立地對待關(guān)鍵字,而不考慮關(guān)鍵字如何組合以形成相同的捜索查詢內(nèi)感興趣的主題或話題。另外,評級器常常不能充分考慮文件內(nèi)可能包括的語義上類似的關(guān)鍵字或主題,比如同義詞和替選拼寫
發(fā)明內(nèi)容
此處為了提供公開內(nèi)容的概述和引入下面具體實施方式
章節(jié)中進一歩描述的概念的選擇的原因提供本發(fā)明各種方面的高級概述。此發(fā)明內(nèi)容并非意在確定要求保護主題的關(guān)鍵特征或必要特征,也并非意在用作確定要求保護主題范圍的孤立協(xié)助。簡言之和以高級別,本公開尤其描述了確定文件分數(shù)(score),其暗示文件與捜索查詢的相關(guān)性。例如,接收由表示主題的ー個或多個項目(term)組成的搜索查詢。對于每個主題,可以識別在語義上與該主題類似的一個或多個等價主題。通過考慮主題頻率和等價主題頻率這二者來確定文件分數(shù)。例如,評分函數(shù)可以通過處罰完全不能表示查詢主題或它的等價主題中任意一個主題的文件把平衡文件評級得較高。
下面參照附圖詳細描述本發(fā)明的說明性實施例,其中
圖I描繪了按照本發(fā)明實施例的示范性計算環(huán)境;
圖2描繪了按照本發(fā)明實施例的另ー個示范性計算環(huán)境;以及 圖3和4包括描繪了按照本發(fā)明實施例的方法的流程圖。
具體實施例方式在本文中利用特性描述了本發(fā)明選擇實施例的主題以滿足法定需求。但是描述本身并非意在限定被視為本發(fā)明的內(nèi)容,這是權(quán)利要求完成的內(nèi)容。可以結(jié)合其它目前或未來技木,以其它方式實施要求保護的主題以包括與本文件中描述的步驟類似的步驟的組合或不同步驟。除非和除了當(dāng)明確敘述各步驟的次序時,術(shù)語不應(yīng)當(dāng)被解釋成暗示本文中公開的各種步驟之中或之間的任何特定次序。本文中描述的主題涉及確定暗示文件與搜索查詢的相關(guān)性的文件分數(shù)。例如,接收由表示主題的ー個或多個項目組成的捜索查詢。識別在語義上與主題類似的等價主題。通過考慮主題頻率和等價主題頻率這二者確定文件分數(shù)??梢允褂镁哂性u級器的搜索引擎確定文件分數(shù),這二者包括計算設(shè)備。具體地最初參照圖1,一般地用于實現(xiàn)本發(fā)明實施例的示范性操作環(huán)境被示出和指定為計算設(shè)備100。計算設(shè)備100只是合適計算環(huán)境的一個實例并且并非意在暗示關(guān)于本發(fā)明實施例的用途或功能范圍的任何限制。也不應(yīng)當(dāng)把計算環(huán)境100解釋成具有與圖示的組件中的任何一個或組合有關(guān)的任何依賴性或需求??梢栽谟捎嬎銠C或其它機器(如,個人數(shù)據(jù)助理或其它手持設(shè)備)執(zhí)行的包括諸如程序模塊的計算機可執(zhí)行指令的計算機代碼或機器可用指令的總體背景中描述本發(fā)明的實施例。通常,包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等的程序模塊是指執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的代碼??梢栽诎ㄊ殖衷O(shè)備、消費電子產(chǎn)品、通用計算機、更專業(yè)的計算設(shè)備等的多種系統(tǒng)配置中實踐本發(fā)明的實施例。還可以在通過通信網(wǎng)絡(luò)鏈接的遠程處理設(shè)備執(zhí)行任務(wù)的分布式計算環(huán)境中實踐本發(fā)明的實施例。參照圖1,計算設(shè)備100包括直接或間接耦合以下設(shè)備的總線110 :存儲器112、一個或多個處理器114、ー個或多個呈現(xiàn)組件116、輸入/輸出端ロ 118、輸入/輸出組件120以及說明性電源122??偩€110表示什么可以是ー個或多個總線(如,地址總線、數(shù)據(jù)總線或者其組合)。雖然為了清楚起見通過線示出了圖I的各種塊,但實際上,勾畫各種組件并非 如此清楚,并且打比方說,線更準(zhǔn)確地將是灰色的和模糊的。例如,可以認為諸如顯示設(shè)備的呈現(xiàn)組件是I/O組件。另外,處理器具有存儲器。我們認識到這是本領(lǐng)域的本性,以及重申圖I的圖對可以結(jié)合本發(fā)明的一個或多個實施例使用的示范性計算設(shè)備僅是說明性的。由于全部是在圖I的范圍內(nèi)構(gòu)思以及是對“計算設(shè)備”的引用,因此在諸如“工作姑”、“服務(wù)器”、“膝上型計算機”、“手持設(shè)備”等類別之間未做出區(qū)分。計算設(shè)備100典型地包括多種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是計算設(shè)備100可以訪問的任何可用介質(zhì)并且包括易失性以及非易失性介質(zhì)、可移除以及不可移除介質(zhì)。通過舉例而非限制,計算機可讀介質(zhì)可以包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)包括以用于存儲信息(諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù))的任何方法或技術(shù)實現(xiàn)的易失性和非易失性、可移除和不可移除、有形和非瞬態(tài)介質(zhì)。計算機存儲介質(zhì)包括RAM ;R0M ;EEPR0M ;閃存或其它存儲器技術(shù);CD_R0M ;數(shù)字多功能盤(DVD)或其它光盤存儲部件;磁盒、磁帶、磁盤存儲或其它磁存儲設(shè)備;或者可以用來存儲期望信息和可被計算設(shè)備100訪問的其它介質(zhì)。通信介質(zhì)典型地實施計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或在諸如載波或其它傳輸機制的已調(diào)制數(shù)據(jù)信號中的其它數(shù)據(jù)并且包括任何信息傳遞介質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號”意指以對于在信號中編碼信息的這種方式設(shè)置或改變其特性中的ー個或多個特性的信號。以實例的方式,通信介質(zhì)包括有線介質(zhì)(如,有線網(wǎng)絡(luò)或直接連線連接)和無線介質(zhì)(如,聲學(xué)、RF、紅外和其它無線介質(zhì))。上述任何內(nèi)容的組合也應(yīng)當(dāng)包括在計算機可讀介質(zhì)的范圍內(nèi)。存儲器112包括易失性和/或非易失性存儲器形式的計算機存儲介質(zhì)。存儲器可以是可移除的、不可移除的、或者其組合。示范性硬件設(shè)備包括固態(tài)存儲器、硬盤驅(qū)動器、光盤驅(qū)動器等。計算設(shè)備100包括從諸如存儲器112或I/O組件120的各種實體讀取數(shù)據(jù)的一個或多個處理器。呈現(xiàn)組件116向用戶或其它設(shè)備呈現(xiàn)數(shù)據(jù)指示。示范性呈現(xiàn)組件包括顯示設(shè)備、揚聲器、打印組件、振動組件等。I/O端ロ 118允許計算設(shè)備100邏輯地耦合到包括I/O組件120的其它設(shè)備,其中一些可以是內(nèi)置的。說明性組件包括麥克風(fēng)、操縱桿、游戲手柄、碟形衛(wèi)星天線、掃描儀、打印機、無線設(shè)備等。現(xiàn)在參照圖2,描繪了總體上通過附圖標(biāo)記210標(biāo)識的另ー個示范性計算環(huán)境。環(huán)境210包括客戶端計算設(shè)備212和搜索引擎214??蛻舳?12和搜索引擎214均可以包括針對圖I描述的組件中的ー些或所有組件,比如處理器和計算機可讀介質(zhì)。例如,捜索引擎214包括計算機可讀介質(zhì)230a — C,其具有在其上實施的計算機可執(zhí)行指令,該指令在被執(zhí)行時執(zhí)行確定暗示文件與捜索查詢的相關(guān)性的文件分數(shù)的方法。在一個實施例中,客戶端212向搜索引擎214提交搜索查詢216 (例如,用于出租的拉斯維加斯房屋)。搜索引擎214確定文件220 (例如,通過網(wǎng)絡(luò)可獲得的網(wǎng)頁或任何其它文件)的文件分數(shù)280,文件分數(shù)280暗示文件220與搜索查詢216的相關(guān)性。即,搜索引擎214包括各種組件,如,通過連接225通信的搜索查詢接收器226、主題識別器228、等價主題識別器242以及文件評級器218。如下面將更詳細描述的,這些組件226、228、242、以及218相互通信以確定文件分數(shù)280??梢允褂梦募謹?shù)280來編譯向客戶端212提供的搜索結(jié)果網(wǎng)頁222。搜索引擎214包括接收搜索查詢216的搜索查詢接收器226。在描繪了示范性搜索查詢包括“用于出租的拉斯維加斯房屋”的分解視圖224中描繪了搜索查詢216。為了解釋性目的,本公開全文引用了示范性搜索查詢“用于出租的拉斯維加斯房屋”。捜索查詢接收器226可以通過網(wǎng)絡(luò)(如,互聯(lián)網(wǎng))接收搜索查詢216。搜索查詢接收器226與主題識別器228通信。主題識別器228包括在執(zhí)行時識別捜索查詢216中包括的主題的計算機可讀介質(zhì)230a。如本文中所使用的,術(shù)語“主題”是指形成不同概念的捜索查詢內(nèi)的ー個項目或ー組項目。例如,箭頭232描繪了主題識別器228識別搜索查詢“用于出租的拉斯維加斯房屋”內(nèi)的兩個主題。即,主題識別器228把“拉斯維加斯”和“用于出租的房屋”這二者識別成兩個不同概念。主題識別器228可以使用多種技術(shù)識別主題。例如,主題識別器228可以把接收的捜索查詢216劃分成各種n元(n-gram)。在表234中描繪了可以根據(jù)示范性搜索查詢“用于出租的拉斯維加斯房屋”生成的示范性n元。S卩,可以把搜索查詢216劃分成存在于捜索查詢216的搜索項目之中的各種單元、雙元、三元等組合。表234描繪了包括“拉斯”、“維加斯”、“拉斯維加斯”、“拉斯維加斯房屋”等的示范性n元。表234中描繪的N元包括對搜索查詢216的各種程度的相對重要性。例如,主題“拉斯維加斯”可能比n元“拉斯維加斯房屋”或“用于……的房屋”對捜索查詢216更重要。同樣,主題識別器228可以通過生成每個n元的權(quán)重確定每個n元的相對重要性。權(quán)重量化了 n元的測量重要性,在表234的列235中列出了示范性權(quán)重??梢允褂酶鞣N技術(shù)確定N元權(quán)重。例如,主題識別器228可以參考項目庫240以獲得每個n元的n元頻率數(shù)據(jù)。項目庫240可以包括各種項目源,如,查詢?nèi)罩?、n元清單以及文件集合。可以通過各種方式使用N元頻率數(shù)據(jù)以確定每個n元的相應(yīng)權(quán)重。在一個實施例中,可以使頻率計數(shù)較低的相對較罕見單元相對于搜索查詢中的其它n元權(quán)重較高。例如,“維加斯”的頻率計數(shù)可以比其它單元(“拉斯”、“房屋”、“用干”、以及“出粗”)低,從而指示“維加斯”是捜索查詢“用于出租的拉斯維加斯房屋”內(nèi)的更相關(guān)的主題。
然而,當(dāng)對具有多于ー個項目的雙元、三元以及其它序列加權(quán)時,可以使用較高頻率計數(shù)來分配較高n元權(quán)重。這種加權(quán)方案基于如下假設(shè)具有多于ー個項目的相對較罕見或罕有的n元可以是無意義的,或者不然可以并非與捜索查詢非常相關(guān)。例如,n元“維加斯房屋”的頻率計數(shù)可以比“拉斯維加斯”低,暗示它在查詢“用于出租的拉斯維加斯房屋”的上下文中并非如此相關(guān)??梢栽诩訖?quán)具有多于一個項目的n元時把其它因素考慮在內(nèi)。例如,可以使包括
單獨地具有相對較高的頻率計數(shù)的項目的多項目n元(例如,“如果......將會怎樣”)權(quán)重較
低。同樣,把n元頻率以及項目頻率考慮在內(nèi)。同樣地,可以為較大相關(guān)n元中包括的n元分配較低權(quán)重。例如,因為“用于……的房屋”也在也可能具有相對較高頻率的相關(guān)n元“用于出租的房屋”中,所以可以為可能具有相對較高的頻率的“用于……的房屋”分配較低權(quán)重。這種加權(quán)方案基于如下假設(shè)當(dāng)較小n元是較大相關(guān)n元的一部分時,獨自匹配文件中的較小n元(S卩,當(dāng)對文件進行評級時)可能是較沒用的。相應(yīng)地,可以把“主題”定義成根據(jù)搜索查詢創(chuàng)建的所有n元,在此情形中向每個n元分配的相應(yīng)權(quán)重確定在對文件評級時該n元多重要。可替代地,在對文件評級時考慮的n元可以只包括權(quán)重滿足一個或多個準(zhǔn)則的n元。例如,一個準(zhǔn)則可能需要n元的權(quán)重在根據(jù)搜索查詢創(chuàng)建的所有n元的上限百分比(例如,25%)中。另一準(zhǔn)則可能需要n元的權(quán)重在根據(jù)搜索查詢創(chuàng)建的所有n元的上限數(shù)量(例如,五個)中。另一準(zhǔn)則可能需要n元的權(quán)重在閾值以上以便在對文件評級時考慮。在進一步的實施例中,把根據(jù)相同搜索查詢創(chuàng)建的n元的n元權(quán)重歸一化,如,通過調(diào)整n元權(quán)重以合計達值I。一旦在搜索查詢216中識別了主題(例如,“拉斯維加斯”和“用于出租的房屋”),則使用等價主題識別器242識別等價主題。例如,等價主題識別器242包括具有在其上實施的計算機可執(zhí)行指令的計算機可讀介質(zhì)230b,該計算機可執(zhí)行指令在被執(zhí)行時識別等價主題。如本文中所使用的,“等價主題”描述在語義上與識別的主題類似的項目或短語。等價主題的實例包括同義詞、重新排序詞語的語句以及替選拼寫。圖2描繪了等價主題識別器242包括包括信息246的等價主題數(shù)據(jù)存儲器244。為了說明性目的,在分解視圖248中描繪了信息246,分解視圖248包括主題和等價主題候選的表250。相應(yīng)地,為了識別“拉斯維加斯”或“用于出租的房屋”的等價主題,等價主題識別器242可以參考數(shù)據(jù)存儲器244??梢允褂酶鞣N技術(shù)生成等價主題。例如,可以應(yīng)用隨機游走模型以找到大查詢?nèi)罩局姓Z義上有關(guān)的查詢對。排列這些查詢對以及聚集數(shù)據(jù)可以識別有希望的等價主題。表250包括含有可以生成的等價主題候選的列252。這種技術(shù)還可以生成等價主題分數(shù),其暗示等價主題候選在語義上與主題類似的置信度。表250包括列254,列254包括列出的等價主題候選中每一個的等價主題分數(shù)。可以基于來自大日志的許多語義上有關(guān)的查詢對來生成等價主題分數(shù)254。如以上所指示的,可以通過點擊圖上的隨機游走或通過觀測用戶重建模式來建立查詢對查詢(query-to-query)語義關(guān)系。例如,可以找到許多X值的〈‘用于出租的X房屋’,‘X出租房屋’ > (例如,“用于出租的拉斯維加斯房屋”和“拉斯維加斯出租房屋”)形式的許多查詢對,從而導(dǎo)致具有等價主題‘出租房屋’的主題‘用于出租的房屋’的強等價主題分數(shù)。然而,查詢對查詢數(shù)據(jù)集可以具有諸如〈‘用于出租的X房屋’,‘X按揭貸款’ > 的干擾事件,因為有時隨機游走或會話重建展現(xiàn)偏移意圖。為此,重要的是,在確定等價主題分數(shù)時考慮除了僅僅存在查詢對查詢關(guān)系之外的多個特征。其它特征的實例包括暗示查詢對查詢關(guān)系的上下文的數(shù)量(即,X的值)、每個查詢對查詢關(guān)聯(lián)的強度、以及主題和等價主題在日志中的頻率是否大致等價。即,如果一個查詢比另一查詢明顯更頻繁,則它通常是等價性差的指示。例如‘蘋果’和‘蘋果們’在查詢{蘋果ipod}比{蘋果們ipod}明顯更頻、繁的情況下可能不是良好等價物。優(yōu)選傾向于在點擊率高和在會話的末端附近發(fā)生的“成功”查詢中出現(xiàn)的可替代主題也是有用的。這些特征的簡單線性組合給出我們的等價主題分數(shù)。等價主題識別器242可以基于分數(shù)過濾等價主題候選。即,當(dāng)向文件評級器218傳送信息時,等價主題識別器可以只識別具有滿足一個或多個準(zhǔn)則的置信度分數(shù)的等價主題。例如,準(zhǔn)則可能需要等價主題的置信度分數(shù)在針對主題識別的所有等價主題的上限百分比(例如,25%)中。另一準(zhǔn)則可能需要等價主題的置信度分數(shù)在針對主題識別的所有等價主題的上限數(shù)量(例如,五個)中。另一準(zhǔn)則可能需要等價主題的置信度分數(shù)在閾值以上以便在對文件評級時考慮。文件評級器218使用主題識別器228和等價主題識別器242提供的信息測量文件與搜索查詢216的相關(guān)性。主題識別器228提供的示范性信息包括被認定為搜索查詢216內(nèi)包括的主題列表。例如,主題識別器228提供指示在搜索查詢216內(nèi)包括“拉斯維加斯”256和“用于出租的房屋”258的信息。另外,主題識別器228提供每個識別主題的相應(yīng) 權(quán)重,該相應(yīng)權(quán)重暗示該主題在搜索查詢216的上下文中多重要。表270的列260列出了主題識別器228可以提供的示范性權(quán)重。等價主題識別器242提供的示范性信息包括被認定在語義上與搜索查詢216的每個主題類似的等價主題列表。例如,等價主題識別器242可以提供指示“維加斯” 262是在語義上與“拉斯維加斯”256類似的等價主題以及“出租房屋”264和“用于出租的住宅”266在語義上與“用于出租的房屋”258類似的信息。進一步地,等價主題識別器250可以提供暗示等價主題在語義上與主題類似的置信度的分數(shù)。列268列出了等價主題識別器242可以提供的示范性分數(shù)。在一個實施例中,為主題分配置信度I (例如,100%),并且為等價主題分配與被認為在語義上類似于等價主題的主題相同的權(quán)重。文件220被檢索,并且評級器218通過考慮多種因素評估文件220與搜索查詢216的相關(guān)性。例如,評級器218確定在文件220中找到每個主題256和258以及等價主題262、264以及266的次數(shù)。在本文中可以把表示在文件中找到主題或等價主題的次數(shù)的值(分另IJ)稱作主題頻率或等價主題頻率。另外,表270包括標(biāo)注為“項目計數(shù)”的列272,其描述在文件中找到項目(即,主題或等價主題)的次數(shù)。即,在本文中使用“項目”作為包括“主題”和“等價主題”這二者的通用描述??梢栽谖募母鞣N部分中(如,在文件220的標(biāo)題、題目或者主體中)找到主題或等價主題。評級器218可以把用來生成表270的列273下包括的加權(quán)項目計數(shù)的附加因素考慮在內(nèi)。一些因素基于文件220內(nèi)找到項目的地點。一個因素包括基于文件220內(nèi)找到項目的地點(例如,標(biāo)題或主體)的顯著性對命中(hit)或頻率計數(shù)加權(quán)的“項目地點重要性”。例如,可以使文件220的標(biāo)題或題目中的命中權(quán)重比文件220的主體中的命中多。另一因素包括“項目散布(term dispersal)”,其基于文件內(nèi)的項目包含遍及文件220散布的程度對頻率計數(shù)加權(quán)。例如,可以使反映遍及文件(即,從文件的起點至文件的末端)均勻擴展的命中的項目計數(shù)權(quán)重比集中命中(例如,位于文件220的單個段落內(nèi)的命中)多。也可以在決定如何對項目計數(shù)加權(quán)時把其它因素考慮在內(nèi)。例如,可以把查詢中項目相對于其它項目的權(quán)重(即,列260下的權(quán)重)考慮在內(nèi)。另外,也可以把置信度分數(shù)(SP,列268下的分數(shù))考慮在內(nèi)。同樣,可以把列260和/或列268下包括的值應(yīng)用于列272下包括的值以確定列273下的加權(quán)項目計數(shù)。在列273中包括變量X、Y、W、以及Z中的每個以表示可以用來對項目計數(shù)加權(quán)的各種因素。
當(dāng)評估文件220時,評級器218把主題(例如,拉斯維加斯)與相應(yīng)等價主題組合以創(chuàng)建主題組。表270包括描繪了第一主題組“拉斯維加斯”和第二主題組“用于出租的房屋”的較大網(wǎng)格線275。相應(yīng)地,在主題組內(nèi)把項目計數(shù)或加權(quán)的項目計數(shù)進行組合以確定表270的列274下描繪的組計數(shù)。例如,可以把“拉斯維加斯”和“維加斯”這二者的項目計數(shù)進行組合以生成“拉斯維加斯”主題組的組計數(shù)。同樣地,可以把加權(quán)的項目計數(shù)(即,基于項目地點重要性和項目散布加權(quán)的項目計數(shù))組合以生成組計數(shù)。相應(yīng)地,當(dāng)把加權(quán)的項目計數(shù)組合以生成組計數(shù)時,組計數(shù)可以反映項目計數(shù)、項目地點重要性、項目散布、權(quán)重(SP,列260下)、置信度(即,列268下)或者其組合。如果未向項目計數(shù)應(yīng)用權(quán)重,則可以把列273下的變量(例如,X、Y、W以及Z)設(shè)置為值I。在本文中也把術(shù)語“組計數(shù)”稱作“主題組頻率”。評級器218向組計數(shù)應(yīng)用函數(shù)以確定每個主題組的組分數(shù)。相應(yīng)地,在一個實施例中,組分數(shù)等于組計數(shù)除以可定制的參數(shù)和組計數(shù)分數(shù)的總和。有時把此函數(shù)稱作飽和函數(shù)。雖然在BM25中在詞語級別而非主題級別使用函數(shù),但可以如在公知評級函數(shù)BM25中一樣在2泊松假設(shè)下建立函數(shù)。在經(jīng)驗上證明了該函數(shù)相當(dāng)有效,但是最重要的屬性是減少返回的屬性對于每個主題我們給定初始出現(xiàn)的最多信用,所以加權(quán)的項目計數(shù)10比
0更好,但是1010幾乎與1000相同?!発”參數(shù)控制飽和度并且可以基于無論什么值給定文件的最佳評級憑經(jīng)驗設(shè)置。另外,評級器218把搜索查詢中包括的每個主題組的每個組分數(shù)進行組合。例如,評級器218把主題組“拉斯維加斯”的組分數(shù)276與主題組“用于出租的房屋”的組分數(shù)278組合以生成文件分數(shù)280??梢噪S后把文件220的文件分數(shù)280與其它文件(未示出)的其它文件分數(shù)相比較以確定應(yīng)當(dāng)如何在生成搜索結(jié)果網(wǎng)頁222時在其它文件之中對文件220評級。評級器218可以應(yīng)用各種技術(shù)以確定應(yīng)當(dāng)如何把各種因素考慮在內(nèi),如,項目計數(shù)、項目地點重要性、項目散布、權(quán)重(即,列260下)、置信度(即,列268下)、文件質(zhì)量或其組合。例如,可以使用確定了各種因素的訓(xùn)練文件和訓(xùn)練搜索查詢來訓(xùn)練虛擬機。相應(yīng)地,一旦針對搜索查詢216和文件220確定了各種因素,就可以把各種因素提交給虛擬機以確定文件分數(shù)。現(xiàn)在參照的是描繪了按照本發(fā)明實施例的方法310的圖3。當(dāng)描述圖3時,也可以參照圖2。例如,圖3針對確定暗示文件(例如,220)與搜索查詢(例如,216)的相關(guān)性的文件分數(shù)(例如,280)。本發(fā)明的實施例包括具有在其上實施的計算機可執(zhí)行指令的計算機可讀介質(zhì)(例如,230a - c),該計算機可執(zhí)行指令在被執(zhí)行時執(zhí)行圖3描繪的方法。方法310的步驟312包括接收包含表示主題的一個或多個項目的搜索查詢。例如,搜索查詢接收器226接收由主題“拉斯維加斯”和主題“用于出租的房屋”組成的搜索查詢216,其中每一個主題是單獨的主題。如針對主題識別器226所述,可以通過應(yīng)用各種技術(shù)識別主題。例如,可以生成n元(例如,表234中)以及基于根據(jù)項目庫240生成的頻率數(shù)據(jù)對n元加權(quán)??梢园阉猩傻膎元視作主題,或者可替代地,只選擇權(quán)重滿足準(zhǔn)則的那些n元作為主題。
方法310的步驟314包括識別在語義上與主題類似的等價主題,其中,主題和等價主題構(gòu)成(comprise)主題組。例如,主題識別器242參考維持等價主題候選的列表(例如,在列252下)的數(shù)據(jù)存儲器244。同樣,對于主題“用于出租的房屋”,可以識別的等價主題包括“出租房屋”和“用于出租的住宅”。如表270中所描繪的,線275指示在與包括“拉斯維加斯”和“維加斯”的主題組不同的主題組中包括主題“用于出租的房屋”和等價主題“出租房屋”和“用于出租的住宅”。
在方法310中,步驟316包括確定文件的文件分數(shù)。文件分數(shù)由主題組分數(shù)組成,該主體組分數(shù)使用主題頻率和等價主題頻率這二者來計算。主題頻率包括在文件中找到該主題的次數(shù),等價主題頻率包括在文件中找到等價主題的次數(shù)。參照圖2,評級器218確定暗示文件220與搜索查詢216的相關(guān)性的文件分數(shù)280。使用主題組分數(shù)276和278計算文件分數(shù)280。使用標(biāo)注為“項目計數(shù)”的列272下列出的主題頻率和等價主題頻率這二者來計算每個主題組分數(shù)276和278。“項目”(如表270中所使用的)描述主題256和等價主題262這二者,以使得“項目計數(shù)”是指在文件220中找到主題或等價主題的頻率或次數(shù)?,F(xiàn)在參照的是描繪了按照本發(fā)明實施例的方法410的圖4。當(dāng)描述圖4時,也可以參照圖2。例如,圖4針對確定暗示文件(例如,220)與搜索查詢(例如,216)的相關(guān)性的文件分數(shù)(例如,280)。本發(fā)明的實施例包括具有在其上實施的計算機可執(zhí)行指令的計算機可讀介質(zhì)(例如,230a - c),該計算機可執(zhí)行指令在被執(zhí)行時執(zhí)行圖4描繪的方法。方法410的步驟412包括接收包含表示第一主題和第二主題的項目的搜索查詢。例如,搜索查詢接收器226接收由主題“拉斯維加斯”和主題“用于出租的房屋”組成的搜索查詢216,以使得“拉斯維加斯”是示范性第一主題且“用于出租的房屋”是示范性第二主題。方法410在步驟414處包括識別在語義上與第一主題類似的第一等價主題和在語義上與第二主題類似的第二等價主題,其中,每對主題和等價主題構(gòu)成(comprise)相應(yīng)的主題組。例如,“維加斯”是在語義上與第一主題“拉斯維加斯”類似的第一等價主題,而“出租房屋”是在語義上與第二主題“用于出租的房屋”類似的第二等價主題。這對“拉斯維加斯”和“維加斯”構(gòu)建主題組,而這對“用于出租的房屋”和“出租房屋”構(gòu)建不同主題組。步驟416包括確定由第一主題頻率(例如,列272下的值2)和第一等價主題頻率(例如,列272下的值3)這二者構(gòu)成的第一主題組頻率(例如,2X + 3Y)。第一主題頻率包括在文件(例如,文件220)中找到第一主題(例如,拉斯維加斯)的次數(shù),第一等價主題頻率包括在文件(例如,文件220)中找到第一等價主題(例如,維加斯)的次數(shù)。步驟418包括確定由第二主題頻率(例如,列272下的值2)和第二等價主題頻率(例如,列272下的值2)這二者構(gòu)成的第二主題組頻率(例如,2W + 2Z)。第二主題頻率包括在文件(例如,文件220)中找到第二主題(例如,用于出租的房屋)的次數(shù),第二等價主題頻率包括在文件(例如,文件220)中找到第二等價主題(例如,用于出租的住宅)的次數(shù)。步驟420包括計算文件的文件分數(shù)。文件分數(shù)由第一主題組分數(shù)和第二主題組分數(shù)構(gòu)成,并且每個主題組分數(shù)通過向相應(yīng)主題組頻率應(yīng)用飽和函數(shù)來計算。例如,通過用(2X + 3Y)除以(2X + 3Y + K)計算主題組分數(shù)(例如,276)。描繪的各種組件的許多不同布置、以及未示出的組件,在不脫離以下權(quán)利要求范圍的情況下是可能的。通過示例性而非限制性的意圖描述了本技術(shù)的實施例??商娲鷮嵤├龑陂喿x它之后和因為閱讀它而對本公開的讀者而言變得明顯??梢栽诓幻撾x以下權(quán)利要求范圍的情況下完成實施上述內(nèi)容的可替代手段。某些特征和子組合是實用的并且 可以在不參考其它特征和子組合的情況下采用且在權(quán)利要求的范圍內(nèi)構(gòu)思。
權(quán)利要求
1.一種確定暗示文件與搜索查詢的相關(guān)性的文件分數(shù)的方法,該方法包括 接收312由表示主題的ー個或多個項目構(gòu)成的搜索查詢216 ; 識別314在語義上與主題250類似的等價主題252,其中,主題和等價主題構(gòu)成主題組;以及 確定316文件220的文件分數(shù)280, 其中,文件分數(shù)由主題組分數(shù)276構(gòu)成,以及 其中,使用包括在文件中找到主題的次數(shù)的主題頻率272和包括在文件中找到等價主題的次數(shù)的等價主題頻率272這二者來計算主題組分數(shù)。
2.如權(quán)利要求I所述的方法,進ー步包括 把搜索查詢解析成n元組合,其中,n元組合包括多個主題,以及 對n元組合加權(quán)以確定多個主題之中每個主題的相對重要性。
3.如權(quán)利要求2所述的方法,其中,具有多于ー個搜索查詢項目的n元的權(quán)重是庫中n元的每個項目的頻率和庫中n元的頻率這二者的函數(shù)。
4.如權(quán)利要求2所述的方法,其中,當(dāng)認定n元是較大n元的一部分時減小n元的權(quán)重。
5.如權(quán)利要求I所述的方法, 其中,通過向主題組頻率應(yīng)用飽和函數(shù)來計算主題組分數(shù),以及 其中,主題組頻率包括主題頻率和等價主題頻率這二者。
6.一種確定暗示文件與搜索查詢的相關(guān)性的文件分數(shù)的方法,該方法包括 接收412由表示第一主題和第二主題的ー個或多個項目構(gòu)成的捜索查詢216 ; 識別414在語義上與第一主題255類似的第一等價主題252和在語義上與第二主題類似的第二等價主題,其中,每對主題和等價主題構(gòu)成相應(yīng)的主題組; 確定416由包括在文件中找到第一主題的次數(shù)的第一主題頻率和包括在文件中找到第一等價主題的次數(shù)的第一等價主題頻率這二者構(gòu)成的第一主題組頻率272 ; 確定418由包括在文件中找到第二主題的次數(shù)的第二主題頻率和包括在文件中找到第二等價主題的次數(shù)的第二等價主題頻率這二者構(gòu)成的第二主題組頻率272 ;以及計算420文件220的文件分數(shù)280, 其中,文件分數(shù)由第一主題組分數(shù)276和第二主題組分數(shù)278構(gòu)成,以及 其中,通過使用相應(yīng)的主題組頻率應(yīng)用飽和函數(shù)來計算每個主題組分數(shù)。
7.如權(quán)利要求6所述的方法,其中,識別等價主題包括參考等價主題數(shù)據(jù)存儲器,該等價主題數(shù)據(jù)存儲器維持已被識別成在語義上與第一主題和第二主題類似的等價主題的列表。
8.如權(quán)利要求6所述的方法,其中,飽和函數(shù)包括用主題組頻率除以可定制的參數(shù)和主題組頻率的總和。
9.一種確定暗示文件與捜索查詢的相關(guān)性的文件分數(shù)的計算機系統(tǒng),該計算機系統(tǒng)包括耦合到計算機存儲介質(zhì)的處理器,計算機存儲介質(zhì)包括處理器可執(zhí)行的計算機軟件,該計算機軟件包括 搜索查詢接收器220,其接收由表示主題的ー個或多個項目構(gòu)成的搜索查詢216 ; 等價主題識別器242,其參考等價主題數(shù)據(jù)存儲器244以識別在語義上與主題類似的等價主題,其中,主題和等價主題構(gòu)成主題組;以及 文件評級器218,其計算文件的文件分數(shù)280,其中,該文件評級器 (A)確定包括主題頻率和等價主題頻率這二者的主題組頻率,其中主題頻率包括在文件中找到主題的次數(shù),等價主題頻率包括在文件中找到等價主題的次數(shù),以及 (B)通過使用主題組頻率應(yīng)用飽和函數(shù)來計算文件分數(shù)。
10.如權(quán)利要求9所述的計算機系統(tǒng), 其中,當(dāng)應(yīng)用飽和函數(shù)時,用主題組頻率除以可定制的參數(shù)和主題組頻率的總和; 其中,應(yīng)用飽和函數(shù)生成主題組分數(shù);以及 其中,文件評級器通過把主題組分數(shù)與捜索查詢中包括的另ー主題的另一主題組分數(shù)組合來計算文件分數(shù)。
11.ー種具有在其上實施的計算機可執(zhí)行指令的計算機存儲介質(zhì),在所述計算機可執(zhí)行指令被執(zhí)行時、執(zhí)行按照權(quán)利要求I 一 8中任一項所述的方法。
全文摘要
本發(fā)明中描述的主題涉及確定暗示文件(例如,網(wǎng)頁)與搜索查詢的相關(guān)性的文件分數(shù)。例如,接收由表示主題的一個或多個項目構(gòu)成的搜索查詢。識別在語義上與主題類似的等價主題。通過考慮主題頻率和等價主題頻率這二者確定文件分數(shù)。
文檔編號G06F17/30GK102646108SQ201210023129
公開日2012年8月22日 申請日期2012年2月2日 優(yōu)先權(quán)日2011年2月2日
發(fā)明者G.庫馬, N.E.克拉斯威爾, 陳偉華 申請人:微軟公司