專利名稱:使用編輯距離和文檔信息進(jìn)行搜索結(jié)果排名的制作方法
使用編輯距離和文檔信息進(jìn)行搜索結(jié)果排名背景 在典型的搜索引擎服務(wù)中,用戶可以通過(guò)從URL(統(tǒng)一資源定位符)的索引集合中 選出與查詢相匹配的最相關(guān)文檔來(lái)輸入查詢。為了快速對(duì)查詢進(jìn)行服務(wù),搜索引擎利用將 關(guān)鍵字映射到文檔的一種或多種方法(例如,倒排索引數(shù)據(jù)結(jié)構(gòu))。例如,引擎所執(zhí)行的第 一步驟可以是標(biāo)識(shí)包含用戶查詢所指定的關(guān)鍵字的候選文檔的集合。這些關(guān)鍵字可以位 于文檔正文或元數(shù)據(jù)或?qū)嶋H上存儲(chǔ)在其他文檔或數(shù)據(jù)存儲(chǔ)中的關(guān)于該文檔的附加元數(shù)據(jù) (如錨文本)中。在一大型索引集合中,取決于查詢項(xiàng)的共同性,候選文檔集合的基數(shù)可以很大 (例如,可能有數(shù)百萬(wàn))。并非返回整個(gè)候選文檔集合,搜索引擎根據(jù)相關(guān)性來(lái)執(zhí)行對(duì)候選 文檔進(jìn)行排名的第二步驟。通常,搜索引擎利用排名功能來(lái)預(yù)測(cè)文檔與特定查詢的相關(guān)性 程度。排名功能從文檔取得多個(gè)特征作為輸入,并且計(jì)算允許搜索引擎按照所預(yù)測(cè)的相關(guān) 性對(duì)文檔進(jìn)行排序的數(shù)量。排名功能相對(duì)于該功能有多準(zhǔn)確地預(yù)測(cè)文檔的相關(guān)性的質(zhì)量由用戶對(duì)搜索結(jié)果 的滿意度或用戶發(fā)現(xiàn)所提問題的答案的平均次數(shù)來(lái)最終確定。對(duì)系統(tǒng)的總體用戶滿意度可 以由單個(gè)數(shù)字(或度量)來(lái)近似,因?yàn)樵摂?shù)字可以通過(guò)改變排名功能來(lái)優(yōu)化。通常,該度量 是在通過(guò)對(duì)查詢?nèi)罩具M(jìn)行隨機(jī)采樣來(lái)預(yù)先選擇的代表性查詢集合上計(jì)算的,并且涉及向引 擎對(duì)于評(píng)估查詢中的每一個(gè)所返回的每一結(jié)果分配相關(guān)性標(biāo)記。然而,用于文檔排名和相 關(guān)性的這些過(guò)程仍然不足以提供所需結(jié)果。概述以下提出了簡(jiǎn)化概述以便提供對(duì)在此處描述的某些新穎實(shí)施例的基本理解。本概 述不是詳盡的概覽,它不旨在標(biāo)識(shí)關(guān)鍵/重要的元素,也不旨在描繪其范圍。其唯一的目的 是以簡(jiǎn)化的形式來(lái)介紹一些概念,作為稍后提出的更詳細(xì)描述的序言。該體系結(jié)構(gòu)提供用于基于查詢串從作為搜索結(jié)果接收到的文檔中提取文檔信息 并計(jì)算數(shù)據(jù)串與該查詢串之間的編輯距離的機(jī)制。數(shù)據(jù)串可以是從諸如TAUC(標(biāo)題、錨文 本、URL(統(tǒng)一資源定位符)、以及點(diǎn)擊)等文檔信息獲得的文檔的簡(jiǎn)短且準(zhǔn)確的描述。編輯 距離被用于確定文檔的相關(guān)性以作為結(jié)果排名的一部分。該機(jī)制使用一組鄰近度相關(guān)特征 來(lái)檢測(cè)整個(gè)查詢或查詢的一部分的接近匹配以改進(jìn)搜索結(jié)果排名的相關(guān)性。處理編輯距離以評(píng)估查詢串與包括該文檔信息的給定數(shù)據(jù)流有多接近。該體系結(jié) 構(gòu)包括對(duì)URL中的混合項(xiàng)進(jìn)行的索引時(shí)間劃分,以用于允許更高效地發(fā)現(xiàn)查詢項(xiàng)。另外,錨 文本的索引時(shí)間過(guò)濾被用來(lái)尋找文檔結(jié)果中的一個(gè)或多個(gè)的前N個(gè)錨。使用TAUC信息可 被輸入到神經(jīng)網(wǎng)絡(luò)(例如,2層)以改進(jìn)用于對(duì)搜索結(jié)果進(jìn)行排名的相關(guān)性度量。為實(shí)現(xiàn)上述及相關(guān)目的,本文結(jié)合下面的描述和附圖描述某些說(shuō)明性方面。然而, 這些方面僅指示了可采用此處公開的原理的各種方法中的少數(shù)幾種,且旨在包括所有這些 方面及等效方面。結(jié)合附圖閱讀下面的詳細(xì)描述,則其他優(yōu)點(diǎn)和新穎特征將變得清楚。附圖簡(jiǎn)述
圖1示出計(jì)算機(jī)實(shí)現(xiàn)的相關(guān)性系統(tǒng)。
圖2示出用于計(jì)算編輯距離的示例性匹配算法的流程圖。圖3示出使用經(jīng)修改的編輯距離和匹配算法來(lái)基于查詢串和數(shù)據(jù)串處理并生成 編輯距離值。圖4示出使用經(jīng)修改的編輯距離和匹配算法來(lái)基于查詢串和數(shù)據(jù)串處理并生成 編輯距離值的另一示例。圖5示出使用神經(jīng)網(wǎng)絡(luò)來(lái)幫助生成文檔的相關(guān)性分?jǐn)?shù)的計(jì)算機(jī)實(shí)現(xiàn)的相關(guān)性系 統(tǒng)。圖6示出可以在用于確定查詢串與數(shù)據(jù)串之間的編輯距離的文檔信息中使用的 數(shù)據(jù)的類型。圖7示出索引時(shí)間處理數(shù)據(jù)流。 圖8示出例示來(lái)自圖7的索引過(guò)程的、用于結(jié)果排名的對(duì)神經(jīng)網(wǎng)絡(luò)的輸入的框圖。圖9示出用于計(jì)算生成搜索結(jié)果的神經(jīng)網(wǎng)絡(luò)、編輯距離輸入以及原始特征輸入的 示例性系統(tǒng)實(shí)現(xiàn)。圖10示出確定文檔結(jié)果集的文檔相關(guān)性的方法。圖11示出計(jì)算文檔的相關(guān)性的方法。圖12示出根據(jù)所公開的體系結(jié)構(gòu)的可用于使用TAUC特征執(zhí)行編輯距離處理以進(jìn) 行搜索結(jié)果排名的計(jì)算系統(tǒng)的框圖。詳細(xì)描述所公開的體系結(jié)構(gòu)通過(guò)實(shí)現(xiàn)一組鄰近度相關(guān)特征來(lái)檢測(cè)整個(gè)查詢的接近匹配或 具有與該文檔有關(guān)的準(zhǔn)確元數(shù)據(jù)(如,標(biāo)題、錨、URL、或點(diǎn)擊)的匹配以改進(jìn)搜索結(jié)果排 名的相關(guān)性。例如,考慮查詢“company store”、第一文檔的文檔標(biāo)題“company store online”和第二文檔的文檔標(biāo)題“new NEC LCD monitors in company store”。假定其它 特性對(duì)第一和第二文檔而言相同,則該體系結(jié)構(gòu)基于為使選定流與該查詢相匹配要貢獻(xiàn)多 少編輯努力來(lái)向文檔分配分?jǐn)?shù)。在該示例中,選擇文檔標(biāo)題來(lái)進(jìn)行評(píng)估。第一文檔的標(biāo)題 只需要一次刪除操作(刪除項(xiàng)“online”)就能得到完全匹配,而第二文檔的標(biāo)題需要五次 刪除(刪除項(xiàng)“neW”、“NEC”、“LCD”、“monitors,,以及“in”)。因此,第一文檔被計(jì)算成較 為相關(guān)。標(biāo)題是TAUC (標(biāo)題、錨、URL以及點(diǎn)擊)文檔信息的一個(gè)元素,對(duì)于TAUC文檔信息, 可以對(duì)一些數(shù)據(jù)流(例如,URL)應(yīng)用處理以便可以從混合項(xiàng)中找到查詢項(xiàng)的。例如,再次 考慮查詢"company store”,并且URL是www. companystore. com。結(jié)果是該URL被分成四 個(gè)部分(即,項(xiàng)):“wWW”、“company”、“store” 以及 “com,,?,F(xiàn)在參照附圖,在全部附圖中,相同的附圖標(biāo)記用于表示相同的元素。在以下描述 中,為解釋起見,描繪了眾多具體細(xì)節(jié)以提供對(duì)本發(fā)明的全面理解。然而,顯然,各新穎實(shí)施 例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)現(xiàn)。在其他情況下,以框圖形式示出了公知的結(jié)構(gòu) 和設(shè)備以便于描述它們。 圖1示出計(jì)算機(jī)實(shí)現(xiàn)的相關(guān)性系統(tǒng)100。系統(tǒng)100包括處理組件102,用于基于查 詢串Iio從作為搜索結(jié)果108接收到的文檔106中提取文檔信息104。系統(tǒng)100還可包括 鄰近度組件112,用于計(jì)算從文檔信息104導(dǎo)出的數(shù)據(jù)串116與查詢串110之間的編輯距離 114。編輯距離114被用于確定作為搜索結(jié)果108的一部分的文檔106的相關(guān)性。
用于生成數(shù)據(jù)串116的文檔信息104可包括例如標(biāo)題信息(即,字符)、鏈接信息 (例如,URL字符)、點(diǎn)擊流信息、和/或錨文本(即,字符)。處理組件102在索引時(shí)間劃分 文檔信息104的混合項(xiàng)以計(jì)算編輯距離114。處理組件102還便于在索引時(shí)間過(guò)濾諸如錨 文本等文檔信息以計(jì)算排名最前的一組錨文本。 對(duì)編輯距離114的計(jì)算基于用于增加數(shù)據(jù)串116與查詢串110之間的鄰近度(使 之更近)的項(xiàng)插入和項(xiàng)刪除。對(duì)編輯距離114的計(jì)算還可基于與用于增加數(shù)據(jù)串116與查 詢串110之間的鄰近度(使之更近)項(xiàng)插入和項(xiàng)刪除相關(guān)聯(lián)的成本??紤]基于向查詢串110插入和/或從中刪除項(xiàng)來(lái)生成數(shù)據(jù)串116(例如,TAUC)的 情況。該項(xiàng)處理可以根據(jù)四個(gè)操作來(lái)執(zhí)行將非查詢字插入查詢串110 ;將查詢項(xiàng)插入查詢 串110 ;從查詢串110刪除TAUC項(xiàng);和/或從查詢串110刪除非TAUC項(xiàng)。編輯距離114是基于插入和刪除操作的,但不基于置換。對(duì)于插入,可以定義兩種 類型的成本??紤]從查詢串Iio生成數(shù)據(jù)串116的情況。在生成時(shí),可以將一個(gè)字插入查詢 串110,當(dāng)該字在原始查詢串110中存在時(shí)則成本被定義為1 ;否則成本被定義為Wl ( > 1)。 在此,wl是所調(diào)節(jié)的加權(quán)參數(shù)。例如,如果查詢串110是AB,則生成數(shù)據(jù)串ABC的成本高于 數(shù)據(jù)串ABA的成本。直觀上,通過(guò)將“不相關(guān)字”插入數(shù)據(jù)串116使得整個(gè)數(shù)據(jù)串116(例 如,TAUC)更加不相關(guān)。對(duì)于刪除,可以定義兩種類型的成本。同樣,考慮從查詢串110生成數(shù)據(jù)串116的 情況。在刪除查詢串Iio中的項(xiàng)時(shí),當(dāng)該項(xiàng)存在于原始查詢串116中時(shí),則成本被定義為1 ; 否則成本被定義為w2(≥1)。另一類型的成本是位置成本。如果刪除或插入發(fā)生在數(shù)據(jù)串116的第一位置處, 則存在附加成本(+w3)。直觀上,對(duì)在兩個(gè)串(查詢串110和數(shù)據(jù)串116)的開頭處的匹配 給出比這些串較后處的匹配更大的重要性。考慮以下示例,其中查詢串110是“crm”并且 數(shù)據(jù)串116是標(biāo)題= “crm. com-blur blur”。如果插入和刪除發(fā)生在第一位置處,則可以顯 著地降低該解決方案的效率。圖2示出用于計(jì)算編輯距離的示例性的經(jīng)修改的匹配算法200的流程圖。盡管出 于解釋簡(jiǎn)明的目的,此處例如以流圖或流程圖形式示出的一個(gè)或多個(gè)方法被示出并描述為 一系列動(dòng)作,但是可以理解和明白,各方法不受動(dòng)作的次序的限制,因?yàn)楦鶕?jù)本發(fā)明,某些 動(dòng)作可以按與此處所示并描述的不同的次序和/或與其他動(dòng)作同時(shí)發(fā)生。例如,本領(lǐng)域技 術(shù)人員將會(huì)明白并理解,方法可被替換地表示為一系列相互關(guān)聯(lián)的狀態(tài)或事件,諸如以狀 態(tài)圖的形式。此外,并非在一方法中示出的所有動(dòng)作都是新穎實(shí)現(xiàn)所必需的。在200,枚舉查詢串和數(shù)據(jù)(即,目標(biāo))串的各元素。這通過(guò)設(shè)查詢串的程度是 η(其中查詢串中的每一項(xiàng)是s[i])并設(shè)目標(biāo)(即,數(shù)據(jù))串的程度是m(其中目標(biāo)串中的每 一項(xiàng)被表示為t[j])來(lái)實(shí)現(xiàn)。在202,構(gòu)造包含0…m行和0…η列的矩陣(其中該矩陣中 的每一項(xiàng)被表示為d[j,i])。在204,使用依賴于刪除的不同成本的值來(lái)初始化第一行并且 使用依賴于插入的不同成本的值來(lái)初始化第一列。在206,如果n = 0,則返回d[m,0]并退 出,并且如果m = 0,則返回d
并退出,如在208所示。在210,檢查查詢串的每一字符 (i從1到η)。在212,檢查目標(biāo)數(shù)據(jù)串的每一字符(j從1到m)。在214,如果查詢串中的 字符串等于數(shù)據(jù)串中的各字符,則該流程去往216,在那里成本是0并處理下一矩陣單元。 換言之,如果s[i]等于t[j],則成本是0并且d[j,i] = d[j-l,i-1]。
如果查詢串單元中的字符不等于數(shù)據(jù)串單元中的字符,則該流程從214至218,在 那里將當(dāng)前單元設(shè)成緊靠上方的單元或緊靠左側(cè)的單元,加上插入或刪除成本。換言之, 如果s[i]不等于t[j],則將該矩陣的單元d[j,i]設(shè)成等于緊靠上方的單元加上對(duì)應(yīng)的插 入成本(由d[j-l,i]+C0St_inSerti0n (插入成本)表示)或緊靠左側(cè)的單元加上對(duì)應(yīng)的 刪除成本(由d[j-l,i]+C0St_deleti0n (刪除成本)表示)的最小值。在220,迭代步驟 210、212、214、216以及218以完成。在222,輸出在單元d[m,n]中找到的最終成本。注意, 在該示例中,cost_insertion和cost_deletion兩者都具有兩種值;例如,用于插入成本的 wl = l、w3 = 4以及用于刪除成本的w2 = l、w4 = 26。換言之,d[j,i]包含串s
和t
之間的編輯距離。根據(jù)定義,d W,0] =0(無(wú)需編輯即可使空串等于空串)。d
= dW,y-l] + (w2或w4).如果已知使用了 多少編輯才產(chǎn)生了串d
,則d
可以計(jì)算成d
+從目標(biāo)串刪除當(dāng)前字符 的成本,這一成本可以是w2或w4。如果當(dāng)前字符存在于s W…η]、t W…m]兩者中,則使用 成本w2;否則使用w4。d[x,0] = d[x-l,0] + (wl或w3)。如果已知使用了多少編輯才產(chǎn)生 了串d[x-l,0],則d[x,0]可以計(jì)算成d[x-l,0]+從s到t插入當(dāng)前字符的成本,這一成本 可以是或《3。如果當(dāng)前字符存在于s W…n]、t W…m]兩者中,則使用成本wl ;否則使 用w3。對(duì)于每一(j,i),如果s[i] ={[」],則(1[」,1]可以等于(1[」-1,1-1]。可以計(jì)算 串t[j-l]、s[i_l]之間的編輯距離,并且如果s[i] =t[j],則可以對(duì)這兩個(gè)串附加共同字 符以在不造成編輯的情況下使這些串相等。因此,使用了三個(gè)移動(dòng),其中選擇提供當(dāng)前d[j, i]的最小編輯距離的移動(dòng)。換言之,d[j,i]=min(如果s[i] =t[j],則 d[j-l,i_l];d[j_l,i] +(如果s[j]存在于這兩個(gè)串中,wl ;否則,w3);d[j,i_l] +(如果t[i]存在于這兩個(gè)串中,w2 ;否則,w4))圖3示出使用經(jīng)修改的編輯距離和匹配算法來(lái)基于查詢串和數(shù)據(jù)串處理并生成 編輯距離值。該過(guò)程涉及從左至右、自頂向下、以及對(duì)角計(jì)算中的一個(gè)或多個(gè)。相對(duì)于項(xiàng)“C B A X”的目標(biāo)數(shù)據(jù)串來(lái)處理項(xiàng)“A B C”查詢串(其中,X表示不存在于查詢串中的項(xiàng))。用 于計(jì)算編輯距離的過(guò)程可以用不同的方式來(lái)執(zhí)行;然而,用于執(zhí)行編輯距離的修改版本的 具體細(xì)節(jié)在根據(jù)所公開的體系結(jié)構(gòu)進(jìn)行計(jì)算時(shí)是不同的?;趎Xm來(lái)構(gòu)造4X5矩陣300, 其中對(duì)于查詢串η = 3且對(duì)于數(shù)據(jù)串m = 4。查詢串302沿矩陣300的水平軸放置,并且目 標(biāo)數(shù)據(jù)串304沿著垂直軸。本描述將使用用四列(0-3)和五行(0-4)來(lái)表示的矩陣300。在行0列0開始,從 左至右來(lái)應(yīng)用圖2中描述的編輯距離匹配算法,交叉單元d
接收“0”,因?yàn)椴樵兇瓵BC 的空單元與目標(biāo)數(shù)據(jù)串CBAX的空單元的比較不造成用于使查詢串與目標(biāo)數(shù)據(jù)串相同的項(xiàng) 插入或刪除?!绊?xiàng)”是相同的,所以編輯距離是0。向右移動(dòng)來(lái)將查詢串302的A項(xiàng) 與行0的空單元進(jìn)行比較,使用一次刪除以使這 些串相同;因此,單元d
接收值“1”。再次向右移動(dòng)至列2,現(xiàn)在進(jìn)行查詢串302的項(xiàng) AB與目標(biāo)數(shù)據(jù)串列的空單元之間的比較。因此,使用查詢串302中的兩次刪除來(lái)使這些串相同,從而使得編輯距離“2”被置于單元d
中。同樣的過(guò)程應(yīng)用于列3,其中將查詢串 302的項(xiàng)ABC與目標(biāo)串列中的空單元相比較,使用三次刪除以使得這些串相同,從而產(chǎn)生單 7Ud
中的編輯距離“3”。下降到行1并繼續(xù)從左至右,將查詢串行的空單元與目標(biāo)數(shù)據(jù)串304的第一項(xiàng)C 相比較。使用一次刪除以使得這些串相同,其中d[l,0]中的編輯距離是“1”。向右移至列 1,進(jìn)行查詢串302的A項(xiàng)與目標(biāo)數(shù)據(jù)串304的C項(xiàng)之間的比較。使用一次刪除和一次插入 來(lái)使這些串相同,因此,值“2”被插入單元d[l,l]中。跳到最后單元d[l,3],,用于將ABC 與C進(jìn)行匹配的匹配過(guò)程造成使用兩次刪除來(lái)得到單元d[l,3]中的編輯距離“2”。為簡(jiǎn)明 起見,移至行4和列3并找出總體編輯距離,將項(xiàng)ABC與項(xiàng)CBAX進(jìn)行匹配,造成了單元d [4, 3]中的編輯距離“8”,使用目標(biāo)串的第一項(xiàng)C中的插入/刪除得到值“2”、用于B項(xiàng)之間的 匹配的值“0”、用于第三項(xiàng)C和A的匹配的插入/刪除得到值“2”、項(xiàng)X的插入得到值“1”、 以及用于位置成本的值“ 3 ”,從而造成了單元d [4,3]中的最終編輯距離值“ 8 ”。
圖4示出使用經(jīng)修改的編輯距離和匹配算法來(lái)基于查詢串和目標(biāo)數(shù)據(jù)串處理 并生成編輯距離值的另一示例。在此,生成矩陣400以用于基于用于插入成本的cost_ insertion wl = 1, w3 = 4以及用于刪除成本的w2 = 1以及w4 = 26的權(quán)重來(lái)將查詢串 ABC 402與目標(biāo)數(shù)據(jù)串AB 404進(jìn)行比較。換言之,從左至右操作行0,將查詢串402的項(xiàng)A 與目標(biāo)串404前的空單元進(jìn)行匹配造成項(xiàng)A在目標(biāo)串404中的一次插入,得到值“ 1,,單元 d
。將查詢串402的項(xiàng)AB與目標(biāo)串404前的空單元進(jìn)行匹配造成項(xiàng)AB在目標(biāo)串404 中的兩次插入,得到值“2”單元虹0,2],并且將查詢串402的項(xiàng)ABC與目標(biāo)串404前的空單 元進(jìn)行匹配造成項(xiàng)AB在目標(biāo)串404中的兩次插入值加上項(xiàng)C的值w4 = 26,得到單元d
中的值“28”,因?yàn)轫?xiàng)C不在這兩個(gè)串中。從左至右操作行1 (理解d[l,0] = 1),將查詢串402的項(xiàng)A與目標(biāo)串404的項(xiàng)A 進(jìn)行匹配造成目標(biāo)串404和查詢串402中的等同性,得到單元d[l,l]中的值“0”,通過(guò)從 d[j-l,i_l] = d
=“0”取得該值。將查詢串402的項(xiàng)AB與目標(biāo)串404的項(xiàng)A進(jìn)行匹 配造成項(xiàng)B在目標(biāo)串404中的一次插入,得到最小值“ 1 ”單元d [ 1,2]。對(duì)于單元d [ 1,3],將 查詢串402的項(xiàng)ABC與目標(biāo)串404的項(xiàng)A進(jìn)行匹配得到一最小值,該最小值關(guān)聯(lián)于d[j_l, i] = d
的值加上w3在單元d[l,3]中得到值“28”相比于d[j,i_l] =d[l,2]的值1 加上26得到27 (因?yàn)轫?xiàng)C不在這兩個(gè)串中),從而在d[l,3]中得到最小值“27”。從左至右操作行2,將查詢串402的項(xiàng)A與目標(biāo)串404的項(xiàng)AB進(jìn)行匹配造成目標(biāo) 串404中的一次刪除,得到單元d[2,l]中的值“1”。對(duì)于單元d[2,2]中的距離,將查詢串 402的項(xiàng)AB與目標(biāo)串404的項(xiàng)AB進(jìn)行匹配造成等同性,從而從d[j-l,i-l] =d[l,l]中取 出值來(lái)作為單元d[2,2]的值“0”。對(duì)于單元d[2,3],將查詢串402的項(xiàng)ABC與目標(biāo)串404 的項(xiàng)AB進(jìn)行匹配得到最小值,該最小值關(guān)聯(lián)于d[j-l,i] =d[l,3] =27的值加上w3 = l 得到值“28”(因?yàn)镃不在目標(biāo)串中)相比于同樣基于d[i,j-1] =d[2,2] =0的值加上 26得到26 (因?yàn)镃不在這兩個(gè)串中),從而得到d[2,3]中的最小值“26”。圖5示出使用神經(jīng)網(wǎng)絡(luò)502來(lái)幫助生成文檔106的相關(guān)性分?jǐn)?shù)504的計(jì)算機(jī)實(shí)現(xiàn) 的相關(guān)性系統(tǒng)500。系統(tǒng)500包括用于基于查詢串110從作為搜索結(jié)果108接收到的文檔 106提取文檔信息104的處理組件102和用于計(jì)算從文檔信息104導(dǎo)出的數(shù)據(jù)串116與查 詢串110之間的編輯距離114的鄰近度組件112。編輯距離114被用于確定作為搜索結(jié)果108的一部分的文檔106的相關(guān)性。神經(jīng)網(wǎng)絡(luò)502可被用來(lái)接收文檔信息104作為用于計(jì)算文檔106的相關(guān)性分?jǐn)?shù)的輸入。單獨(dú)地或部分地基于搜索結(jié)果108中的一些或全部的相關(guān)性分?jǐn)?shù),可以對(duì)搜索結(jié)果 108中的文檔進(jìn)行排名。系統(tǒng)500使用神經(jīng)網(wǎng)絡(luò)502和代碼庫(kù)來(lái)生成用于搜索結(jié)果108中 的相關(guān)聯(lián)文檔的排名的相關(guān)性分?jǐn)?shù)。以下是用于計(jì)算查詢串與數(shù)據(jù)串中的每一個(gè)之間的編輯距離以獲得每一對(duì)的 TAUC分?jǐn)?shù)的編輯距離算法的描述。因?yàn)槲臋n中只有一個(gè)標(biāo)題,所以TAUC分?jǐn)?shù)可以相對(duì)于標(biāo)題如下計(jì)算TAUC (標(biāo)題)=ED (標(biāo)題)其中在應(yīng)用了變換函數(shù)之后,TAUC(標(biāo)題)隨后用作神經(jīng)網(wǎng)絡(luò)的輸入并且ED(標(biāo) 題)是該標(biāo)題的編輯距離。對(duì)于一文檔,可以存在錨文本以及URL和點(diǎn)擊的多個(gè)實(shí)例(其中點(diǎn)擊是先前執(zhí)行 的相對(duì)于它該文檔被點(diǎn)擊的查詢)。想法是這一文檔對(duì)于類似查詢更加相關(guān)。在索引時(shí)間, 選擇具有最高頻率的N個(gè)錨文本。隨后,為每一選定的錨計(jì)算ED分?jǐn)?shù)。最后,為錨確定TAUC 分?jǐn)?shù)如下TAUC (錨)=Min {ED (錨 D } i 前 N 個(gè)錨;直觀上,如果對(duì)于錨中的每一個(gè)都存在良好的匹配,則這是足夠的。在應(yīng)用了變換 函數(shù)之后,TAUC(錨)被用作神經(jīng)網(wǎng)絡(luò)輸入。在計(jì)算URL串的ED之前使用特殊處理。使用一組字符作為分隔符將索引時(shí)間URL 串劃分成各部分。隨后在每一部分中找出來(lái)自標(biāo)題和錨項(xiàng)的字典中的項(xiàng)。來(lái)自字典的項(xiàng)的 每一次出現(xiàn)連同以字符為單位從URL串的開頭所測(cè)量的位置都被存儲(chǔ)在索引中。在查詢時(shí),從在索引時(shí)間存儲(chǔ)的索引中讀出查詢項(xiàng)的所有出現(xiàn),并且用“非查詢” 項(xiàng)來(lái)填充間斷。在這一處理之后,計(jì)算ED。在應(yīng)用了變換函數(shù)之后,ED處理的結(jié)果是神經(jīng) 網(wǎng)絡(luò)輸入??杀惶幚淼牧硪惶匦允怯脩魧?duì)給定文檔內(nèi)容所輸入的“點(diǎn)擊”的數(shù)量。用戶每一 次點(diǎn)擊該文檔,都將一條流輸入到數(shù)據(jù)庫(kù)中并將該流與該文檔進(jìn)行關(guān)聯(lián)。這一過(guò)程還可以 應(yīng)用于文檔信息文本中的流數(shù)據(jù),如短數(shù)據(jù)流。索引時(shí)間URL處理算法使用一組字符作為分隔符來(lái)將整個(gè)URL劃分成各部分。劃 分函數(shù)還將urlpart. startpos (url部分.開始位置)設(shè)成源串中的部分的位置。劃分函 數(shù)執(zhí)行對(duì)URL的各不重要部分的過(guò)濾。例 如,"http //www. companymeeting. com/index, html,, 被過(guò)濾 成 "companymeeting/index,,并被戈lJ分成"companymeeting"禾口 “ index,,。Startpos 0Urlparts = split(url, dictionary)//尋找不同url部分中的項(xiàng)。For each (字典中的項(xiàng)){Int pos = 0 ;For each (各 url 部分中的一 url 部分)
{pos = urlpart. Find (term, pos);while (pos > = 0){//parts_s^arator (部分_分隔符)被用來(lái)在查詢時(shí)區(qū)分不同部分storeOccurrence(term, pos+urlpart. startpos*parts_ separator);pos = url. Find(term, pos+term. length);}
}setlndexStreamLength(parts_separator*urlparts. Count);}假定字典包含“company meeting comp”,則可生成以下鑰匙(key) :Company :0 ; Meeting -J ;以及 Comp :0。串的總長(zhǎng)度是 parts_separator氺2。相對(duì)于ED之前的查詢時(shí)間處理,在查詢時(shí)間讀取查詢項(xiàng)的出現(xiàn),按源URL串中的 出現(xiàn)次序來(lái)構(gòu)造查詢項(xiàng)的串,并且用“非查詢”字標(biāo)記來(lái)填充各項(xiàng)之間的空間。例如,考慮查 詢串"company policy,,禾口結(jié)果串 “company,,"non-query term(非查詢項(xiàng)),,"non-query term,,。parts—s印arator、查詢項(xiàng)位置、以及流長(zhǎng)度被確定為知道原始URL串中有多少 部分以及什么部分包含給定查詢。不具有項(xiàng)的每一部分被認(rèn)為包含“非查詢項(xiàng)”。如果一 部分不以查詢項(xiàng)幵始,則在該項(xiàng)前插入“non-query term”。查詢項(xiàng)之間的所有空間都用 "non-query term,,來(lái)填充。圖6示出可以在用于確定查詢串與數(shù)據(jù)串之間的編輯距離的文檔信息中使用的 數(shù)據(jù)的類型。文檔信息104可包括供處理組件102處理以及數(shù)據(jù)(S卩,目標(biāo))串116的生產(chǎn) 的TAUC數(shù)據(jù)602,例如標(biāo)題文本604、錨文本606、URL 608文本或字符、以及點(diǎn)擊信息610。 文檔信息104還可包括與用戶點(diǎn)擊文檔內(nèi)容的次數(shù)、用戶(經(jīng)由點(diǎn)擊)選擇的內(nèi)容的類型、 該內(nèi)容上的點(diǎn)擊的數(shù)量、文檔總體等相關(guān)的點(diǎn)擊信息610。圖7示出索引時(shí)間處理數(shù)據(jù)流700。在頂部,基于文檔分析和提取來(lái)接收標(biāo)題604、 文檔錨606、點(diǎn)擊信息610等形式的文檔信息。標(biāo)題604通過(guò)項(xiàng)劃分算法704來(lái)處理并隨后 傳到字典706。字典706是在標(biāo)題604、錨606、點(diǎn)擊信息610等中找到的不同項(xiàng)的臨時(shí)存 儲(chǔ)。字典706被用來(lái)經(jīng)由URL劃分算法708來(lái)劃分URL 608。URL劃分算法708的輸出被 發(fā)送到索引過(guò)程710以進(jìn)行相關(guān)性和排名處理。文檔錨606還可以通過(guò)管理器712來(lái)處理 以得到前N個(gè)錨。點(diǎn)擊信息610可以經(jīng)由索引過(guò)程710來(lái)直接處理??梢韵鄳?yīng)地處理其他 文檔信息(例如,項(xiàng)劃分、過(guò)濾,等等)。 圖8示出例示來(lái)自圖7的索引過(guò)程710的、用于結(jié)果排名的對(duì)神經(jīng)網(wǎng)絡(luò)的輸入的 框圖800。索引過(guò)程710可被用于計(jì)算關(guān)于查詢串110的URL編輯距離(ED)802、關(guān)于查詢 串110的前N個(gè)錨ED 804、關(guān)于查詢串110的標(biāo)題ED 806、關(guān)于查詢串110的點(diǎn)擊ED 808、 以及與編輯距離不相關(guān)的其他特征810,這些(URL ED 802、前N個(gè)錨ED 804、標(biāo)題ED 806、點(diǎn)擊ED 808、以及其他特征810)中的一些或全部可以用作神經(jīng)網(wǎng)絡(luò)502的輸入,最終用于找出相關(guān)聯(lián)文檔的相關(guān)性分?jǐn)?shù)以及隨后找出該文檔在其他文檔搜索結(jié)果之間的排名。神經(jīng) 網(wǎng)絡(luò)502可以是接收至少TAUC特征作為對(duì)標(biāo)識(shí)文檔的相關(guān)性有貢獻(xiàn)的輸入特征的2層模 型。神經(jīng)網(wǎng)絡(luò)確定如何將這些特征組合成可由搜索引擎用來(lái)進(jìn)行排序的單個(gè)數(shù)字??梢悦靼祝窠?jīng)網(wǎng)絡(luò)502只是可用于相關(guān)性和排名處理的數(shù)學(xué)或計(jì)算模型的一個(gè) 示例。可以使用其他形式的統(tǒng)計(jì)回歸,如樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、決策樹、模糊邏輯模型, 并且可以使用表示不同獨(dú)立性模式的其他統(tǒng)計(jì)分類模型,其中分類包括用于分配排名和/ 或優(yōu)先級(jí)的各方法。圖9示出用于計(jì)算生成搜索結(jié)果的神經(jīng)網(wǎng)絡(luò)502、編輯距離輸入以及原始特征輸 入的示例性系統(tǒng)900實(shí)現(xiàn)。關(guān)于神經(jīng)網(wǎng)絡(luò)502的輸入的原始排名特征810的集合可包括 BM25功能902 (例如,BM25F)、點(diǎn)擊距離904、URL深度906、文件類型908、以及語(yǔ)言匹配910。 BM25組件可包括例如正文、標(biāo)題、錨、錨文本、URL顯示名稱、以及所提取的標(biāo)題。圖10示出確定相關(guān)性的方法。在1000,作為搜索過(guò)程的一部分來(lái)接收查詢串。在 1002,從在搜索過(guò)程期間返回的文檔中提取文檔信息。在1004,根據(jù)文檔信息生成數(shù)據(jù)串。 在1006,計(jì)算數(shù)據(jù)串與查詢串之間的編輯距離。在1008,基于編輯距離來(lái)計(jì)算相關(guān)性分?jǐn)?shù)。該方法的其他方面可包括使用項(xiàng)插入來(lái)作為計(jì)算編輯距離的一部分并且評(píng)估在 查詢串中插入一個(gè)項(xiàng)以生成數(shù)據(jù)串的插入成本,該成本被表示成加權(quán)參數(shù)。該方法還包括 使用項(xiàng)刪除來(lái)作為計(jì)算編輯距離的一部分并且評(píng)估在查詢串中刪除一個(gè)項(xiàng)以生成數(shù)據(jù)串 的刪除成本,該成本被表示成加權(quán)參數(shù)??梢宰鳛橛?jì)算編輯距離的一部分來(lái)計(jì)算位置成本, 位置成本與數(shù)據(jù)串中的項(xiàng)位置的項(xiàng)插入和/或項(xiàng)刪除相關(guān)聯(lián)。另外,在數(shù)據(jù)串的各字符與 查詢串的各字符之間執(zhí)行匹配過(guò)程以計(jì)算用于計(jì)算編輯距離的總體成本。劃分?jǐn)?shù)據(jù)串的URL的混合項(xiàng)可以在索引時(shí)間發(fā)生。該方法還可包括基于在文檔中 的出現(xiàn)頻率來(lái)過(guò)濾數(shù)據(jù)串的錨文本以找出排名最前的一組錨文本并計(jì)算該組中的錨文本 的編輯距離分?jǐn)?shù)。在應(yīng)用變換函數(shù)之后,從對(duì)編輯距離的計(jì)算導(dǎo)出的編輯距離分?jǐn)?shù)可以輸 入到兩層神經(jīng)網(wǎng)絡(luò)中,該分?jǐn)?shù)是基于計(jì)算與標(biāo)題信息、錨信息、點(diǎn)擊信息、或URL信息中的 至少一個(gè)相關(guān)聯(lián)的編輯距離來(lái)生成的。圖11示出計(jì)算文檔的相關(guān)性的方法。在1100,作為搜索過(guò)程的一部分來(lái)處理查詢 串以返回一組結(jié)果文檔。在1102,基于從這組結(jié)果的文檔中提取的文檔信息生成數(shù)據(jù)串, 文檔信息包括來(lái)自文檔的標(biāo)題信息、錨文本信息、點(diǎn)擊信息、以及URL信息中的一個(gè)或多 個(gè)。在1104,基于項(xiàng)插入、項(xiàng)刪除、以及項(xiàng)位置來(lái)計(jì)算數(shù)據(jù)串與查詢串之間的編輯距離。在 1106,基于編輯距離來(lái)計(jì)算相關(guān)性分?jǐn)?shù),該相關(guān)性分?jǐn)?shù)用于對(duì)這組結(jié)果中的文檔進(jìn)行排名。該方法還包括計(jì)算與項(xiàng)插入、項(xiàng)刪除、以及項(xiàng)位置中的每一個(gè)相關(guān)聯(lián)的成本,并將 該成本包括在相關(guān)性分?jǐn)?shù)的計(jì)算內(nèi),并且在索引時(shí)間劃分URL信息的混合項(xiàng)并在索引時(shí)間 基于錨文本在文檔中的出現(xiàn)頻率來(lái)過(guò)濾錨文本信息以找出排名最前的一組錨文本??梢詧?zhí) 行查詢串的各項(xiàng)的出現(xiàn)的讀取以按照在源URL串中出現(xiàn)的次序來(lái)構(gòu)造查詢項(xiàng)的串并用字 標(biāo)記來(lái)填充各項(xiàng)之間的空間。如在本申請(qǐng)中所使用的,術(shù)語(yǔ)“組件”和“系統(tǒng)”旨在表示計(jì)算機(jī)相關(guān)的實(shí)體,其可 以是硬件、硬件和軟件的組合、軟件、或者執(zhí)行中的軟件。例如,組件可以是但不限于,在處 理器上運(yùn)行的進(jìn)程、處理器、硬盤驅(qū)動(dòng)器、多個(gè)(光和/或磁存儲(chǔ)介質(zhì)的)存儲(chǔ)驅(qū)動(dòng)器、對(duì)象、可執(zhí)行代碼、執(zhí)行的線程、程序、和/或計(jì)算機(jī)。作為說(shuō)明,運(yùn)行在服務(wù)器上的應(yīng)用程序和服務(wù)器都可以是組件。一個(gè)或多個(gè)組件可以駐留在進(jìn)程和/或執(zhí)行的線程內(nèi),且組件可 以位于一臺(tái)計(jì)算機(jī)上和/或分布在兩臺(tái)或更多的計(jì)算機(jī)之間。現(xiàn)在參考圖12,示出了根據(jù)所公開的體系結(jié)構(gòu)的可用于使用TAUC特征執(zhí)行編輯 距離處理以進(jìn)行搜索結(jié)果排名的計(jì)算系統(tǒng)1200的框圖。為了提供用于其各方面的附加上 下文,圖12及以下討論旨在提供對(duì)其中可實(shí)現(xiàn)該各方面的合適的計(jì)算系統(tǒng)1200的簡(jiǎn)要概 括描述。盡管以上描述是在可在一個(gè)或多個(gè)計(jì)算機(jī)上運(yùn)行的計(jì)算機(jī)可執(zhí)行指令的一般上下 文中進(jìn)行的,但是本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,新穎實(shí)施例也可結(jié)合其他程序模塊和/或 作為硬件和軟件的組合來(lái)實(shí)現(xiàn)。一般而言,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、組 件、數(shù)據(jù)結(jié)構(gòu)等等。此外,本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明的方法可用其他計(jì)算機(jī)系統(tǒng) 配置來(lái)實(shí)施,包括單處理器或多處理器計(jì)算機(jī)系統(tǒng)、小型計(jì)算機(jī)、大型計(jì)算機(jī)、以及個(gè)人計(jì) 算機(jī)、手持式計(jì)算設(shè)備、基于微處理器的或可編程消費(fèi)電子產(chǎn)品等,其每一個(gè)都可操作上耦 合到一個(gè)或多個(gè)相關(guān)聯(lián)的設(shè)備。所示各方面也可以在其中某些任務(wù)由通過(guò)通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行 的分布式計(jì)算環(huán)境中實(shí)施。在分布式計(jì)算環(huán)境中,程序模塊可以位于本地和遠(yuǎn)程存儲(chǔ)器存 儲(chǔ)設(shè)備中。 計(jì)算機(jī)通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是可由計(jì)算機(jī)訪問的 任何可用介質(zhì),且包括易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。作為示例而非限 制,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以存儲(chǔ)如 計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)等信息的任何方法或技術(shù)來(lái)實(shí)現(xiàn)的易失 性和非易失性、可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于RAM、R0M、EEPR0M、閃 存或者其他存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字視頻盤(DVD)或其他光盤存儲(chǔ)、磁帶盒、磁帶、磁盤存 儲(chǔ)或其他磁存儲(chǔ)設(shè)備、或可以用于存儲(chǔ)所需信息并且可以由計(jì)算機(jī)訪問的任何其他介質(zhì)。再次參考圖12,用于實(shí)現(xiàn)各方面的示例性計(jì)算系統(tǒng)1200包括具有處理單元1204、 系統(tǒng)存儲(chǔ)器1206和系統(tǒng)總線1208的計(jì)算機(jī)1202。系統(tǒng)總線1208向包括但不限于系統(tǒng)存 儲(chǔ)器1206的各系統(tǒng)組件提供到處理單元1204的接口。處理單元1204可以是市場(chǎng)上可購(gòu) 買到的各種處理器中的任意一種。雙微處理器和其他多處理器體系結(jié)構(gòu)也可用作處理單元 1204。系統(tǒng)總線1208可以是若干種總線結(jié)構(gòu)中的任一種,這些總線結(jié)構(gòu)還可互連到存 儲(chǔ)器總線(帶有或沒有存儲(chǔ)器控制器)、外圍總線、以及使用各類市場(chǎng)上可購(gòu)買到的總線體 系結(jié)構(gòu)中的任一種的局部總線。系統(tǒng)存儲(chǔ)器1206可包括非易失性存儲(chǔ)器(NON-VOL) 1210 和/或易失性存儲(chǔ)器1212 (例如,隨機(jī)存取存儲(chǔ)器(RAM))?;据斎?輸出系統(tǒng)(BIOS)可 被存儲(chǔ)在非易失性存儲(chǔ)器1210 (例如,R0M、EPR0M、EEPR0M等)中,其中BIOS是幫助諸如在 啟動(dòng)期間在計(jì)算機(jī)1202內(nèi)的元件之間傳輸信息的基本例程。易失性存儲(chǔ)器1212還可包括 諸如靜態(tài)RAM等高速RAM來(lái)用于高速緩存數(shù)據(jù)。計(jì)算機(jī)1202還包括內(nèi)置硬盤驅(qū)動(dòng)器(HDD) 1214(例如,EIDE、SATA),該內(nèi)置HDD 1214還可被配置成在合適的機(jī)殼中外部使用;磁軟盤驅(qū)動(dòng)器(FDD) 1216 (例如,從可移動(dòng)磁 盤1218中讀取或向其寫入);以及光盤驅(qū)動(dòng)器1220 (例如,從⑶-ROM盤1222中讀取,或從諸如DVD等其他高容量光學(xué)介質(zhì)中讀取或向其寫入)。HDD 1214,FDD 1216、以及光盤驅(qū)動(dòng) 器1220可分別由HDD接口 1224、FDD接口 1226和光盤驅(qū)動(dòng)器接口 1228連接到系統(tǒng)總線 1208。用于外置驅(qū)動(dòng)器實(shí)現(xiàn)的HDD接口 1224可包括通用串行總線(USB)和IEEE 1394接 口技術(shù)中的至少一種或兩者。 驅(qū)動(dòng)器及相關(guān)聯(lián)的計(jì)算機(jī)可讀介質(zhì)提供了對(duì)數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)可執(zhí)行指令 等的非易失性存儲(chǔ)。對(duì)于計(jì)算機(jī)1202,驅(qū)動(dòng)器和介質(zhì)容納適當(dāng)?shù)臄?shù)字格式的任何數(shù)據(jù)的存 儲(chǔ)。盡管以上對(duì)計(jì)算機(jī)可讀介質(zhì)的描述涉及HDD、可移動(dòng)磁盤(例如FDD)以及諸如CD或 DVD等可移動(dòng)光學(xué)介質(zhì),但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,示例性操作環(huán)境中也可使用可由 計(jì)算機(jī)讀取的任何其他類型的介質(zhì),諸如zip驅(qū)動(dòng)器、磁帶盒、閃存卡、盒式磁帶等等,并且 任何這樣的介質(zhì)可包含用于執(zhí)行所公開的體系結(jié)構(gòu)的新穎方法的計(jì)算機(jī)可執(zhí)行指令。多個(gè)程序模塊可被存儲(chǔ)在驅(qū)動(dòng)器和易失性存儲(chǔ)器1212中,包括操作系統(tǒng)1230、一 個(gè)或多個(gè)應(yīng)用程序1232、其他程序模塊1234和程序數(shù)據(jù)1236。一個(gè)或多個(gè)應(yīng)用程序132、 其他程序模塊1234、以及查詢時(shí)間1236可包括系統(tǒng)100和相關(guān)聯(lián)的各框、系統(tǒng)500及相關(guān) 聯(lián)的各框、文檔信息104、TAUC數(shù)據(jù)602、點(diǎn)擊信息610、數(shù)據(jù)流700 (以及算法)、以及框圖 800 (及相關(guān)聯(lián)的各框)。操作系統(tǒng)、應(yīng)用程序、模塊和/或數(shù)據(jù)的全部或部分也可被高速緩存在易失性存 儲(chǔ)器1212中。應(yīng)該明白,所公開的體系結(jié)構(gòu)可以用市場(chǎng)上可購(gòu)得的各種操作系統(tǒng)或操作系 統(tǒng)的組合來(lái)實(shí)現(xiàn)。用戶可以通過(guò)一個(gè)或多個(gè)有線/無(wú)線輸入設(shè)備,例如鍵盤1238和諸如鼠標(biāo)1240 等定點(diǎn)設(shè)備將命令和信息輸入到計(jì)算機(jī)1202中。其他輸入設(shè)備(未示出)可包括話筒、IR 遙控器、操縱桿、游戲手柄、指示筆、觸摸屏等等。這些和其他輸入設(shè)備通常通過(guò)耦合到系 統(tǒng)總線1208的輸入設(shè)備接口 1242連接到處理單元1204,但也可通過(guò)諸如并行端口、IEEE 1394串行端口、游戲端口、USB端口、IR接口等其他接口連接。監(jiān)視器1244或其他類型的顯示設(shè)備也經(jīng)由諸如視頻適配器1246等接口連接到系 統(tǒng)總線1208。除了監(jiān)視器1244之外,計(jì)算機(jī)通常包括諸如揚(yáng)聲器、打印機(jī)等其他外圍輸出 設(shè)備(未示出)。計(jì)算機(jī)1202可使用經(jīng)由有線和/或無(wú)線通信至諸如遠(yuǎn)程計(jì)算機(jī)1248等的一個(gè)或 多個(gè)遠(yuǎn)程計(jì)算機(jī)的邏輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)1248可以是工作站、服務(wù)器 計(jì)算機(jī)、路由器、個(gè)人計(jì)算機(jī)、便攜式計(jì)算機(jī)、基于微處理器的娛樂設(shè)備、對(duì)等設(shè)備或其他常 見的網(wǎng)絡(luò)節(jié)點(diǎn),并且通常包括相對(duì)于計(jì)算機(jī)1202描述的許多或所有元件,但為簡(jiǎn)明起見僅 示出了存儲(chǔ)器/存儲(chǔ)設(shè)備1250。所描繪的邏輯連接包括到局域網(wǎng)(LAN) 1252和/或例如廣 域網(wǎng)(WAN) 1254等更大的網(wǎng)絡(luò)的有線/無(wú)線連接。這一 LAN和WAN連網(wǎng)環(huán)境常見于辦公室 和公司,并且方便了諸如內(nèi)聯(lián)網(wǎng)等企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò),所有這些都可連接到例如因特網(wǎng) 等全球通信網(wǎng)絡(luò)。當(dāng)在LAN連網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)1202通過(guò)有線和/或無(wú)線通信網(wǎng)絡(luò)接口或適 配器1256連接到LAN 1252。適配器1256可以方便到LAN 1252的有線和/或無(wú)線通信,并 且還可包括其上設(shè)置的用于使用適配器1256的無(wú)線功能進(jìn)行通信的無(wú)線接入點(diǎn)。當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)1202可包括調(diào)制解調(diào)器1258,或連接到WAN 1254上的通信服務(wù)器,或具有用于諸如通過(guò)因特網(wǎng)等通過(guò)WAN 1254建立通信的其他裝置?;?yàn)閮?nèi)置或?yàn)橥庵靡约坝芯€和/或無(wú)線設(shè)備的調(diào)制解調(diào)器1258經(jīng)由輸入設(shè)備接口 1242連接到系統(tǒng)總線1208。在聯(lián)網(wǎng)環(huán)境中,相對(duì)于計(jì)算機(jī)1202所描繪的程序模塊或其部分可以存 儲(chǔ)在遠(yuǎn)程存儲(chǔ)器/存儲(chǔ)設(shè)備1250中。應(yīng)該理解,所示網(wǎng)絡(luò)連接是示例性的,并且可以使用 在計(jì)算機(jī)之間建立通信鏈接的其他手段。計(jì)算機(jī)1202可操作來(lái)使用IEEE 802標(biāo)準(zhǔn)家族來(lái)與有線和無(wú)線設(shè)備或?qū)嶓w進(jìn)行通 信,這些實(shí)體例如是在操作上安置成與例如打印機(jī)、掃描儀、臺(tái)式和/或便攜式計(jì)算機(jī)、個(gè) 人數(shù)字助理(PDA)、通信衛(wèi)星、任何一件與無(wú)線可檢測(cè)標(biāo)簽相關(guān)聯(lián)的設(shè)備或位置(例如,電 話亭、報(bào)亭、休息室)以及電話進(jìn)行無(wú)線通信(例如,IEEE 802. 11空中調(diào)制技術(shù))的無(wú)線設(shè) 備。這至少包括Wi-Fi (即無(wú)線保真)、WiMax和藍(lán)牙 無(wú)線技術(shù)。由此,通信可以如對(duì)于常 規(guī)網(wǎng)絡(luò)那樣是預(yù)定義結(jié)構(gòu),或者僅僅是至少兩個(gè)設(shè)備之間的自組織(ad hoc)通信。Wi-Fi 網(wǎng)絡(luò)使用稱為IEEE 802. llx(a、b、g等等)的無(wú)線電技術(shù)來(lái)提供安全、可靠、快速的無(wú)線連 接。Wi-Fi網(wǎng)絡(luò)可用于將計(jì)算機(jī)彼此連接、連接到因特網(wǎng)以及連接到有線網(wǎng)絡(luò)(使用IEEE 802. 3相關(guān)介質(zhì)和功能)。上面描述的包括所公開的體系結(jié)構(gòu)的各示例。當(dāng)然,描述每一個(gè)可以想到的組件 和/或方法的組合是不可能的,但本領(lǐng)域內(nèi)的普通技術(shù)人員應(yīng)該認(rèn)識(shí)到,許多其他組合和 排列都是可能的。因此,該新穎體系結(jié)構(gòu)旨在涵蓋所有這些落入所附權(quán)利要求書的精神和 范圍內(nèi)的更改、修改和變化。此外,就在說(shuō)明書或權(quán)利要求書中使用術(shù)語(yǔ)“包括”而言,這一 術(shù)語(yǔ)旨在以與術(shù)語(yǔ)“包含”在被用作權(quán)利要求書中的過(guò)渡詞時(shí)所解釋的相似的方式為包含 性的。
權(quán)利要求
一種計(jì)算機(jī)實(shí)現(xiàn)的相關(guān)性系統(tǒng)(100),包括處理組件(102),用于基于查詢串從接收到的作為搜索結(jié)果的文檔中提取文檔信息;以及鄰近度組件(112),用于計(jì)算數(shù)據(jù)串與所述查詢串之間的編輯距離,所述編輯距離被用于確定文檔的相關(guān)性作為結(jié)果排名的一部分。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,被用來(lái)生成所述數(shù)據(jù)串的所述文檔信息包 括標(biāo)題信息、URL信息、點(diǎn)擊信息、或錨文本中的至少一個(gè)。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述處理組件在索引時(shí)間劃分所述文檔信 息的混合項(xiàng)以計(jì)算相對(duì)于URL的編輯距離。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述處理組件在索引時(shí)間過(guò)濾所述文檔信 息的錨文本以計(jì)算排名最前的一組錨文本。
5.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述文檔信息包括標(biāo)題字符、錨字符、點(diǎn)擊 字符、或URL字符中的至少一個(gè),其中文檔信息連同BM25F功能、點(diǎn)擊距離、文件類型、語(yǔ)言 和URL深度等原始輸入特征一起被輸入到神經(jīng)網(wǎng)絡(luò)以計(jì)算所述文檔的相關(guān)性。
6.如權(quán)利要求1所述的系統(tǒng),其特征在于,對(duì)所述編輯距離的計(jì)算是基于用于增加所 述數(shù)據(jù)串與所述查詢串之間的鄰近度的項(xiàng)插入和項(xiàng)刪除的。
7.如權(quán)利要求1所述的系統(tǒng),其特征在于,對(duì)所述編輯距離的計(jì)算是基于與用于增加 所述數(shù)據(jù)串與所述查詢串之間的鄰近度的項(xiàng)插入和項(xiàng)刪除相關(guān)聯(lián)的成本的。
8.一種確定相關(guān)性的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括作為搜索過(guò)程的一部分來(lái)接收查詢串(1000);從在所述搜索過(guò)程期間返回的文檔中提取文檔信息(1002);根據(jù)所述文檔信息生成數(shù)據(jù)串(1004);計(jì)算所述數(shù)據(jù)串與所述查詢串之間的編輯距離(1006);以及基于所述編輯距離來(lái)計(jì)算相關(guān)性分?jǐn)?shù)(1008)。
9.如權(quán)利要求8所述的方法,其特征在于,還包括使用查詢項(xiàng)插入來(lái)作為計(jì)算所述編 輯距離的一部分并且評(píng)估在所述查詢串中插入一個(gè)項(xiàng)以生成所述數(shù)據(jù)串的插入成本,所述 成本被表示成加權(quán)參數(shù)。
10.如權(quán)利要求8所述的方法,其特征在于,還包括使用項(xiàng)刪除來(lái)作為計(jì)算所述編輯距 離的一部分并且評(píng)估在所述查詢串中刪除一個(gè)項(xiàng)以生成所述數(shù)據(jù)串的刪除成本,所述成本 被表示成加權(quán)參數(shù)。
11.如權(quán)利要求8所述的方法,其特征在于,還包括作為計(jì)算所述編輯距離的一部分來(lái) 計(jì)算位置成本,所述位置成本與所述數(shù)據(jù)串中的項(xiàng)位置的項(xiàng)插入和/或項(xiàng)刪除相關(guān)聯(lián)。
12.如權(quán)利要求8所述的方法,其特征在于,還包括在所述數(shù)據(jù)串的各字符與所述查詢 串的各字符之間執(zhí)行匹配過(guò)程以計(jì)算用于計(jì)算所述編輯距離的總體成本。
13.如權(quán)利要求8所述的方法,其特征在于,還包括在索引時(shí)間劃分所述數(shù)據(jù)串的URL 的混合項(xiàng)。
14.如權(quán)利要求8所述的方法,其特征在于,還包括基于在所述文檔中的出現(xiàn)頻率來(lái)過(guò) 濾所述數(shù)據(jù)串的錨文本以找出排名最前的一組錨文本。
15.如權(quán)利要求14所述的方法,其特征在于,還包括計(jì)算所述組中的錨文本的編輯距離分?jǐn)?shù)。
16.如權(quán)利要求8所述的方法,其特征在于,還包括在應(yīng)用變換函數(shù)之后,將從對(duì)所述 編輯距離的計(jì)算導(dǎo)出的分?jǐn)?shù)輸入到兩層神經(jīng)網(wǎng)絡(luò)中,所述分?jǐn)?shù)是基于計(jì)算與標(biāo)題信息、錨 信息、點(diǎn)擊信息、或URL信息、以及其它原始輸入特征中的至少一個(gè)相關(guān)聯(lián)的編輯距離來(lái)生 成的。
17. 一種計(jì)算文檔的相關(guān)性的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括作為搜索過(guò)程的一部分來(lái)處理查詢串以返回一組結(jié)果文檔(1100);基于從這組結(jié)果的文檔中提取的文檔信息生成數(shù)據(jù)串,所述文檔信息包括來(lái)自所述文 檔的標(biāo)題信息、錨文本信息、點(diǎn)擊信息、以及URL信息中的一個(gè)或多個(gè)(1102);基于項(xiàng)插入、項(xiàng)刪除、以及項(xiàng)位置來(lái)計(jì)算所述數(shù)據(jù)串與所述查詢串之間的編輯距離 (1104);以及基于所述編輯距離來(lái)計(jì)算相關(guān)性分?jǐn)?shù),所述相關(guān)性分?jǐn)?shù)用于對(duì)所述結(jié)果集中的文檔進(jìn) 行排名(1106)。
18.如權(quán)利要求17所述的方法,其特征在于,還包括計(jì)算與所述項(xiàng)插入、項(xiàng)刪除以及項(xiàng) 位置中的每一個(gè)相關(guān)聯(lián)的成本,并將所述成本包括在所述相關(guān)性分?jǐn)?shù)計(jì)算內(nèi)。
19.如權(quán)利要求17所述的方法,其特征在于,還包括在索引時(shí)間劃分所述URL信息的混 合項(xiàng)并在索引時(shí)間基于所述錨文本在所述文檔中的出現(xiàn)頻率來(lái)過(guò)濾所述錨文本信息以找 出排名最前的一組錨文本。
20.如權(quán)利要求17所述的方法,其特征在于,還包括讀取所述查詢串的各項(xiàng)的出現(xiàn)以 按照在源URL串中出現(xiàn)的次序來(lái)構(gòu)造各查詢項(xiàng)的串并用字標(biāo)記來(lái)填充所述各項(xiàng)之間的空 間。
全文摘要
一種用于基于查詢串從接收到的作為搜索結(jié)果的文檔中提取文檔信息并計(jì)算數(shù)據(jù)串與該查詢串之間的編輯距離的體系結(jié)構(gòu)。編輯距離被用來(lái)通過(guò)檢測(cè)整個(gè)查詢或查詢的一部分的接近匹配來(lái)確定文檔的相關(guān)性以作為結(jié)果排名的一部分。編輯距離評(píng)估查詢串與包括諸如TAUC(標(biāo)題、錨文本、URL、點(diǎn)擊)信息等文檔信息的給定數(shù)據(jù)流有多接近。該體系結(jié)構(gòu)包括用于允許更高效地發(fā)現(xiàn)查詢項(xiàng)的、對(duì)URL中的混合項(xiàng)進(jìn)行的索引時(shí)間劃分。另外,錨文本的索引時(shí)間過(guò)濾被用來(lái)尋找文檔結(jié)果中的一個(gè)或多個(gè)的前N個(gè)錨。TAUC信息可被輸入到神經(jīng)網(wǎng)絡(luò)(例如,2層)以改進(jìn)用于對(duì)搜索結(jié)果進(jìn)行排名的相關(guān)性度量。
文檔編號(hào)G06F17/27GK101990670SQ200980112928
公開日2011年3月23日 申請(qǐng)日期2009年3月10日 優(yōu)先權(quán)日2008年4月11日
發(fā)明者D·梅耶澤, H·李, J·徐, V·坦科維奇 申請(qǐng)人:微軟公司