專利名稱:在用戶的查詢操作與搜索結(jié)果之間建立關(guān)聯(lián)的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體涉及搜索技術(shù),特別涉及用于在用戶的查詢操作與搜 索結(jié)果之間建立關(guān)聯(lián)的方法與設(shè)備。
背景技術(shù):
搜索引擎技術(shù)的發(fā)展給人們帶來了很多方便和快捷。例如,當(dāng)用 戶在搜索引擎上輸入一個(gè)查詢詞時(shí),搜索引擎便能夠返回與該查詢 詞對應(yīng)的相關(guān)網(wǎng)頁、圖片、文件等,便于用戶瀏覽和查看。
但是,由于用戶輸入的查詢詞大多數(shù)是用戶基于自己的知識(shí)和理 解而粗略估計(jì)得到的,該查詢詞經(jīng)常與用戶需要的網(wǎng)頁、圖片、文 件等不匹配,所以很多對用戶有用的內(nèi)容并沒有包括在提供給用戶 的搜索結(jié)果中。這時(shí),用戶通常會(huì)更換查詢詞進(jìn)行下一次查詢,以 此類推,不斷更換查詢詞,直到找到自己需要的搜索結(jié)果為止。這 樣,不僅花費(fèi)了用戶的寶貴時(shí)間,而且用戶很有可能在花費(fèi)了大量 時(shí)間之后仍然找不到需要的搜索結(jié)果。
因此,在搜索引擎技術(shù)領(lǐng)域,存在這樣一個(gè)問題,即如何在用戶 輸入的查詢詞與用戶需要的搜索結(jié)果之間建立關(guān)聯(lián),從而使得用戶 能夠方便、快速、高效地搜索到需要的結(jié)果。
發(fā)明內(nèi)容
針對以上問題,本發(fā)明提供了 一種在用戶的查詢操作與搜索結(jié) 果之間建立關(guān)聯(lián)的方法和設(shè)備。
本發(fā)明的目的是在用戶輸入的查詢詞與用戶需要的搜索結(jié)果之 間建立關(guān)聯(lián),從而使得用戶能夠方便、快速、高效地搜索到需要的 結(jié)果。根據(jù)本發(fā)明的第 一 方面,提供了 一種在用戶的查詢操作與搜索
結(jié)果之間建立關(guān)聯(lián)的方法,包括步驟獲取查詢軌跡;基于所述查 詢軌跡,在用戶輸入的查詢詞與搜索結(jié)果之間建立關(guān)聯(lián)。
根據(jù)本發(fā)明的第二方面,提供了一種用于在用戶的查詢操作與 搜索結(jié)果之間建立關(guān)聯(lián)的設(shè)備,包括獲取單元,用于獲取查詢軌 跡;以及關(guān)聯(lián)建立單元,用于基于所述查詢軌跡而在用戶輸入的查 詢詞與搜索結(jié)果之間建立關(guān)聯(lián)。
通過以下對說明本發(fā)明原理的優(yōu)選實(shí)施方式的描述,并結(jié)合附 圖,本發(fā)明的其他特征以及優(yōu)點(diǎn)將會(huì)是顯而易見的。
通過以下結(jié)合附圖的說明,并且隨著對本發(fā)明的更全面了解,本 發(fā)明的其他目的和效果將變得更加清楚和易于理解,其中
圖1是按照本發(fā)明的一個(gè)實(shí)施例的用于獲取查詢軌跡的流程圖; 圖2是按照本發(fā)明的另 一個(gè)實(shí)施例的用于獲取查詢軌跡的流程
圖3是按照本發(fā)明的一個(gè)實(shí)施例的在用戶輸入的查詢詞與搜索 結(jié)果之間建立關(guān)聯(lián)的流程圖4是按照本發(fā)明的另 一個(gè)實(shí)施例的在用戶輸入的查詢詞與搜 索結(jié)果之間建立關(guān)聯(lián)的流程圖5是按照本發(fā)明的另一個(gè)實(shí)施例的在用戶輸入的查詢詞與搜 索結(jié)果之間建立關(guān)聯(lián)的流程圖6是按照本發(fā)明的另 一個(gè)實(shí)施例的在用戶輸入的查詢詞與搜 索結(jié)果之間建立關(guān)聯(lián)的流程圖7 a是按照本發(fā)明的 一 個(gè)實(shí)施例的用于在用戶的查詢操作與搜 索結(jié)果之間建立關(guān)聯(lián)的設(shè)備的框圖7b是按照本發(fā)明的 一個(gè)實(shí)施例的關(guān)聯(lián)建立單元的框圖7c是按照本發(fā)明的另一個(gè)實(shí)施例的關(guān)聯(lián)建立單元的框圖;以
及圖8是適于實(shí)施本發(fā)明的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)方框圖。 在所有的上述附圖中,相同的標(biāo)號(hào)表示具有相同、相似或相應(yīng)的 特征或功能。
具體實(shí)施例方式
以下結(jié)合附圖,對本發(fā)明進(jìn)行更詳細(xì)的解釋和說明。應(yīng)當(dāng)理解, 本發(fā)明的附圖及實(shí)施例僅用于示例性作用,并非用于限制本發(fā)明的
保護(hù)范圍。
為了清楚起見,首先對本發(fā)明中所使用的術(shù)語作以解釋。 1.查詢軌跡
為了找到特定內(nèi)容,用戶通常向搜索引擎輸入他/她自認(rèn)為能夠 最好地描述所需信息的查詢詞。當(dāng)搜索結(jié)果不理想時(shí),用戶改變查 詢詞并重新搜索,直到他/她找到需要的信息為止。在用戶的搜索過 程中,可以認(rèn)為用戶每次輸入的查詢詞能夠4安順序組成一個(gè)鏈,這 個(gè)鏈即本發(fā)明中的"查詢軌跡"。
在一個(gè)查詢軌跡中,第一個(gè)查詢詞是用戶第一次輸入的查詢詞、
第二查詢詞是用戶第二次輸入的查詢詞.......最后一個(gè)查詢詞是用
戶最后一次輸入的查詢詞。當(dāng)用戶輸入最后一個(gè)查詢詞時(shí),該用戶 認(rèn)為根據(jù)該查詢詞得到的搜索結(jié)果中有他/她需要的信息,則該用戶 可能點(diǎn)擊搜索結(jié)果中提供的鏈接等來進(jìn)行查看,從而獲取信息???見,在用戶輸入最后一個(gè)查詢詞之前,該用戶所輸入的所有查詢詞 都沒有提供用戶所需的信息,所以將查詢軌跡中的這些查詢詞稱作 "中間查詢詞",而將查詢軌跡中的最后一個(gè)查詢詞稱作"目標(biāo)查 詢詞"。
例如,當(dāng)用戶向搜索引擎先輸入"Marine vegetation types"、再 輸入"marine vegetation"、又輸入"marine plants"、最后輸入"sea plant"進(jìn)4亍查詢時(shí),查詢4九跡可以是"Marine vegetation types"—> "marine vegetation" —> "marine plants" —> "seaplant"。 其中, "Marine vegetation types" 、 "marine vegetation" 、 "marine plants"
8是中間查詢詞,而"sea plant"是目標(biāo)查詢詞。
2. 相似度
相似度是指查詢詞之間的語義相似程度。在現(xiàn)有技術(shù)中,已有多 種方法可以計(jì)算相似度。例如,可以利用WordNet來衡量兩個(gè)詞之 間的語義相似程度。WordNet是一個(gè)字典,在WordNet中,名詞, 動(dòng)詞,形容詞和副詞各自;f皮組織成一個(gè)同義詞的網(wǎng)絡(luò),每個(gè)同義詞 集合都代表一個(gè)基本的語義概念,并且這些集合之間也由各種關(guān)系 連接成語義網(wǎng)絡(luò)。另外,利用大文本集合,通過類似隱含語義分析 (Latent Semantic Analysis )或者基于概率的隱含語義分析 (Probabilistic Latent Semantic analysis),可以計(jì)算兩個(gè)詞之間的語義 相似度。得到了詞和詞之間的相似度后,就可以計(jì)算詞組和詞組之 間的相似度。例如,可以通過計(jì)算兩個(gè)詞組的兩兩之間的詞的相似 度的平均和來獲得相似度。
3. 標(biāo)簽
標(biāo)簽可以是單個(gè)詞、數(shù)字、句子等。每個(gè)搜索結(jié)果可以包括多個(gè) 鏈接,而每個(gè)鏈接可以與網(wǎng)頁、文檔、圖片等相對應(yīng)。每個(gè)網(wǎng)頁、 文檔、圖片等都可以具有標(biāo)簽,該標(biāo)簽可以位于該網(wǎng)頁、文檔、圖 片等的頭部、尾部或本領(lǐng)域技術(shù)人員可以獲取的任何位置。
標(biāo)簽便于用戶找到自己需要的內(nèi)容。例如,當(dāng)用戶在搜索引擎中 輸入一個(gè)查詢詞進(jìn)行搜索后,搜索結(jié)果中列出IO個(gè)網(wǎng)頁的鏈接。前 3個(gè)網(wǎng)頁的標(biāo)簽中分別包含用戶輸入的查詢詞,而其余7個(gè)網(wǎng)頁則不 包含這樣的標(biāo)簽,因此將前3個(gè)網(wǎng)頁的鏈接優(yōu)先排列于搜索結(jié)果中 的前幾個(gè)位置,更便于用戶瀏覽。
本發(fā)明涉及 一 種在用戶的查詢操作與搜索結(jié)果之間建立關(guān)聯(lián)的 方法,該方法包括兩個(gè)步驟首先獲取查詢軌跡,然后基于該查詢 軌跡在用戶輸入的查詢詞與搜索結(jié)果之間建立關(guān)聯(lián)。
在第一個(gè)步驟中,查詢軌跡可以通過多種方法來獲取,例如,通 過分析搜索引擎日志而在后臺(tái)獲取、或者根據(jù)用戶的查詢操作而直 接獲取。圖1和圖2中分別介紹了按照本發(fā)明的上述兩種實(shí)施例的用于獲取查詢軌跡的流程圖。
在第二個(gè)步驟中,可以利用多種方式在用戶輸入的查詢詞與搜
索結(jié)果之間建立關(guān)聯(lián)。圖3和圖6分別示出了按照本發(fā)明的實(shí)施例 的在用戶輸入的查詢詞與搜索結(jié)果之間建立關(guān)聯(lián)的流程圖。具體而 言,圖3所示的實(shí)施例是根據(jù)基于查詢軌跡而建立的查詢映射庫, 得到與用戶輸入的查詢詞匹配的推薦查詢詞,從而建立用戶輸入的 查詢詞與根據(jù)推薦查詢詞而得到的搜索結(jié)果之間的關(guān)聯(lián)。圖6所示 的實(shí)施例則是通過得到與用戶輸入的查詢詞相匹配的查詢專九跡,并 利用該查詢軌跡中的各個(gè)查詢詞來向根據(jù)該查詢軌跡中的最后一個(gè) 查詢詞而得到的搜索結(jié)果添加標(biāo)簽,從而建立用戶輸入的查詢詞與 該搜索結(jié)果之間的關(guān)聯(lián)。
以下根據(jù)圖1所示的流程圖詳細(xì)介紹根據(jù)本發(fā)明的一個(gè)實(shí)施例 的獲耳又查詢4九跡的方法。
搜索引擎在日常運(yùn)行的過程中可以將用戶與系統(tǒng)交互的整個(gè)過 程記錄在搜索引擎日志中。因此,搜索引擎日志中可能包括一個(gè)或 多個(gè)用戶在其查詢操作過程中的有關(guān)信息,例如,用戶的IP地址、 輸入的查詢詞等。 一個(gè)包含4條記錄的搜索引擎日志的例子如下
查詢詞"汽車價(jià)格",IP: 202.196.0.1
查詢詞"汽車排量",IP: 202.196.0.1
查詢詞"女^君",IP: 202.196.0.2
查詢詞"女裝",IP: 202.196.0.2
IP地址為202.196.0.1的用戶輸入了兩個(gè)查詢詞"汽車價(jià)格"和 "汽車排量",其目的是希望得到與汽車相關(guān)的信息;而IP地址為
202.196.0.2的用戶輸入了兩個(gè)查詢詞"女裙,,和"女裝",其目的 是希望得到與女士服裝有關(guān)的信息。因此,"汽車價(jià)格"和"汽車 排量,,應(yīng)存儲(chǔ)于一個(gè)查詢軌跡中,而"女裙,'和"女裝"應(yīng)存儲(chǔ)于 另一個(gè)查詢軌跡中。圖1示出了通過分析搜索引擎日志獲取查詢軌 跡的實(shí)施例。需要說明的是,圖1僅僅示出了在獲取查詢軌跡中對 一個(gè)查詢詞的處理,通過對連續(xù)的多個(gè)查詢詞才艮據(jù)圖l所示的方法進(jìn)行處理,來得到查詢軌跡。
在步驟IOI,讀取搜索引擎日志中記錄的查詢詞。
搜索引擎日志記錄了用戶與系統(tǒng)交互的整個(gè)過程,不同搜索引擎
日志的記錄格式可以不同, 一般包括用戶的訪問時(shí)間、用戶的IP 地址、查詢詞、用戶所點(diǎn)擊的URL、點(diǎn)擊的時(shí)間以及點(diǎn)擊URL的序 號(hào)等,這些信息通常按某種格式存儲(chǔ)在磁盤的文件系統(tǒng)中。
可見,通過讀取搜索引擎日志中記錄的信息,可以得到各個(gè)用戶 在搜索引擎查詢各種內(nèi)容的歷史記錄,并可以得到該歷史記錄中的 用戶曾經(jīng)輸入的查詢詞。該歷史記錄可以是按照時(shí)間順序的,也可 以按照本領(lǐng)域技術(shù)人員能夠采用的任何其他方式排序,這并不影響 本發(fā)明的實(shí)施。用戶曾經(jīng)輸入的查詢詞例如存儲(chǔ)在搜索引擎日志中 的第一個(gè)記錄條目中的查詢詞"Marine vegetation types",第二個(gè)記 錄條目中的查詢詞"marine vegetation"。
在步驟102,計(jì)算當(dāng)前查詢詞與搜索引擎日志中記錄的前一個(gè)查 詢詞之間的相似度。
對于第一個(gè)記錄條目中的查詢詞,由于在其前面沒有其他的查詢 詞,因此對于第一個(gè)記錄條目中的查詢詞, <又<又是讀取和/或臨時(shí)存 儲(chǔ)該查詢詞并不實(shí)際執(zhí)行步驟102-106。
對于第一個(gè)記錄條目之后的記錄條目中的查詢詞,例如第二個(gè)記 錄條目中的查詢詞"marine vegetation",則計(jì)算其與前一個(gè)查詢條 目中的查詢詞"Marine vegetation types"之間的相似度。
在現(xiàn)有技術(shù)中,存在多種計(jì)算文本相似度的算法,例如編輯距離 (Levenshtein Distance )算法、最長公共子序列(LCS )算法、余弦 定理(向量空間算法)算法等。通過這樣的算法,可以得到上述兩 個(gè)查詢詞 "marine vegetation"牙口 "Marine vegetation types"之間的 相似度。在該實(shí)施例中,假設(shè)這兩個(gè)查詢詞之間的相似度為0.8。
在步驟103,判斷相似度是否大于預(yù)定闞值。如果是,則表示該 查詢詞與前一個(gè)查詢詞相似程度較高,二者可以屬于同一個(gè)查詢軌 跡,/人而進(jìn)入步驟105;如果否,則表示該查詢詞與前一個(gè)查詢詞相似程度較低,二者不屬于同一個(gè)查詢軌跡,從而進(jìn)入步驟104。其中, 該"預(yù)定閾值,,可以是用戶預(yù)先設(shè)定的,也可以是各種搜索引擎經(jīng) 常使用的經(jīng)驗(yàn)值。
在該實(shí)施例中,假設(shè)預(yù)定閾值是0.5,由于在步驟102中計(jì)算出 的相似度為0.8,所以可以判斷出當(dāng)前查詢詞與前一個(gè)查詢詞之間的 相似度大于預(yù)定閾值,二者屬于同一個(gè)查詢軌跡。
在步驟104,創(chuàng)建一個(gè)查詢軌跡。由于在步驟103中判斷當(dāng)前查 詢詞與前一個(gè)查詢詞相似程度較低,二者不屬于同一個(gè)查詢軌跡, 因此在步驟104中創(chuàng)建新的查詢軌跡,并將當(dāng)前查詢詞存儲(chǔ)在該新 的查詢軌跡中的第一個(gè)位置,以便后續(xù)4吏用,然后結(jié)束對當(dāng)前查詢 詞的處理。
在步驟105,將當(dāng)前查詢詞存儲(chǔ)在查詢軌跡中。
當(dāng)在步驟103中才艮據(jù)相似度而確定當(dāng)前的查詢詞與前一個(gè)查詢 詞屬于同一個(gè)查詢軌跡時(shí),則在步驟105中將當(dāng)前查詢詞存4諸在該 查詢軌跡中。并且,在該查詢軌跡中,當(dāng)前查詢詞的位置在前一個(gè) 查詢詞的位置之后。在該實(shí)施例中,查詢詞"Marine vegetation types" 存儲(chǔ)在查詢軌跡中的第一個(gè)位置,查詢詞"marine vegetation"存儲(chǔ) 在該查詢軌跡中的第二個(gè)位置。然后結(jié)束對當(dāng)前查詢詞的處理。
應(yīng)當(dāng)理解的是,搜索引擎日志中的IP地址、查詢時(shí)間等信息也 可以作為將查詢詞歸于不同查詢軌跡的影響因素。例如,可以將來 自不同用戶的查詢詞歸于不同的查詢軌跡,而不論該查詢詞之間的 相似度是否很高。又例如,可以將查詢時(shí)間間隔較大的查詢詞歸于 不同的查詢軌跡,而不論該查詢詞之間的相似度是否4艮高。
應(yīng)當(dāng)理解的是,可以利用多種方法來通過分析搜索引擎日志而 獲取查詢軌跡。在一個(gè)實(shí)施例中,可以根據(jù)搜索引擎日志,獲取與 所記錄的每個(gè)查詢詞相對應(yīng)的附加信息,該附加信息例如用戶所點(diǎn) 擊的URL、點(diǎn)擊的時(shí)間以及點(diǎn)擊URL的序號(hào)等;當(dāng)搜索引擎日志中 記錄的查詢詞不具有對應(yīng)的附加信息時(shí),則表明用戶對根據(jù)該查詢 詞得到的搜索結(jié)果沒有進(jìn)行點(diǎn)擊動(dòng)作,從而可以認(rèn)為用戶根據(jù)該查
12在前一個(gè) 查詢詞所在的查詢軌跡中。在另一個(gè)實(shí)施例中,當(dāng)搜索引擎日志中 記錄的查詢詞不具有對應(yīng)的附加信息時(shí),則計(jì)算該查詢詞與前一個(gè) 查詢詞之間的相似度,并當(dāng)該相似度大于預(yù)定閾值時(shí)將查詢詞存儲(chǔ) 在前一個(gè)查詢詞所在的查詢軌跡中。
以下根據(jù)圖2所示的流程圖詳細(xì)介紹根據(jù)本發(fā)明的另一個(gè)實(shí)施 例的獲取查詢軌跡的方法。需要說明的是,圖2僅僅示出了在獲取 查詢軌跡中對一個(gè)查詢詞的處理,通過對連續(xù)的多個(gè)查詢詞才艮據(jù)圖2 所示的方法進(jìn)行處理,來得到查詢軌跡。
由于在使用搜索引擎進(jìn)行搜索時(shí), 一個(gè)用戶在一個(gè)http會(huì)話可 能搜索多個(gè)不相關(guān)的內(nèi)容,而多個(gè)用戶在不同的http會(huì)話中搜索的 內(nèi)容也可以多種多樣。這樣就需要從搜索引擎日志中就區(qū)分出這些 不同的內(nèi)容,以形成多個(gè)查詢軌跡。例如,用戶在一個(gè)http會(huì)話中 分4次輸入了4個(gè)查詢詞"汽車價(jià)格,,、"汽車排量"、"女裙,,、 "女裝"。很明顯,用戶輸入前兩個(gè)查詢詞的目的是希望得到與汽 車相關(guān)的信息,而后兩個(gè)查詢詞的目的是希望得到與女士服裝有關(guān) 的信息。因此,"汽車價(jià)格"和"汽車排量"應(yīng)存儲(chǔ)于一個(gè)查詢軌 跡中,而"女裙"和"女裝"應(yīng)存儲(chǔ)于另一個(gè)查詢軌跡中。與圖1 的實(shí)施例不同的是,圖2的實(shí)施例通過接收用戶在一個(gè)查詢過程的 多次輸入,跟蹤了用戶的整個(gè)查詢過程,將用戶在該查詢過程中的 多個(gè)查詢詞歸于一個(gè)或多個(gè)查詢軌跡中。
在步驟201,接收用戶輸入的查詢詞。
在步驟202,獲取利用該查詢詞進(jìn)行搜索所得到的搜索結(jié)果。當(dāng) 用戶向搜索引擎輸入查詢詞之后,搜索引擎將會(huì)提供相應(yīng)的搜索結(jié) 果向用戶進(jìn)行顯示。因此,用戶輸入的每個(gè)查詢詞與一個(gè)搜索結(jié)果 相對應(yīng)。這個(gè)搜索結(jié)果例如可以包括一個(gè)或多個(gè)鏈接、有關(guān)該鏈接 的簡要介紹、鏈接內(nèi)容的片段等。
在步驟203,根據(jù)該搜索結(jié)果,得到針對該查詢詞的描述信息。 描述信息能夠提供搜索結(jié)果的特征信息,其可以是搜索結(jié)果的部分或全部內(nèi)容。例如,描述信息可以是搜索結(jié)果中列出的簡要介紹 的匯總、部分鏈接內(nèi)容的片段的匯總等。
在步驟204,獲取與用戶前一次輸入的查詢詞對應(yīng)的描述信息。
在步驟205,計(jì)算兩個(gè)描述信息之間的相似度。
在現(xiàn)有技術(shù)中,存在多種計(jì)算文本相似度的算法,例如編輯距離 (Levenshtein Distance)算法、最長公共子序列(LCS)算法、余弦 定理(向量空間算法)算法等。通過這樣的算法,可以得到與用戶 連續(xù)輸入的兩個(gè)查詢詞相對應(yīng)的描述信息之間的相似度。
在步驟206,判斷相似度是否大于預(yù)定閥值。如果是,則表示該 查詢詞與前一個(gè)查詢詞相似程度較高,二者可以屬于同一個(gè)查詢軌 跡,從而進(jìn)入步驟208;如果否,則表示該查詢詞與前一個(gè)查詢詞相 似程度較低,二者不屬于同一個(gè)查詢軌跡,從而進(jìn)入步驟207。其中, 該"預(yù)定閾值,,可以是用戶預(yù)先設(shè)定的,也可以是各種搜索引擎經(jīng) 常使用的經(jīng)驗(yàn)值。
在步驟207,創(chuàng)建一個(gè)查詢軌跡。由于在步驟206中判斷當(dāng)前查 詢詞的描述信息與前一個(gè)查詢詞的描述信息相似程度較低,從而這 兩個(gè)查詢詞不屬于同一個(gè)查詢軌跡,因此在步驟207中創(chuàng)建新的查 詢軌跡,并將當(dāng)前查詢詞存儲(chǔ)在該新的查詢軌跡中的第 一 個(gè)位置, 以便后續(xù)使用。然后結(jié)束對當(dāng)前查詢詞的處理
在步驟208,將當(dāng)前查詢詞存儲(chǔ)在查詢軌跡中。
當(dāng)在步驟206中根據(jù)相似度而確定當(dāng)前的查詢詞與前一個(gè)查詢 詞屬于同一個(gè)查詢軌跡時(shí),則在步驟208中將當(dāng)前查詢詞存儲(chǔ)在該 查詢軌跡中。并且,在該查詢軌跡中,當(dāng)前查詢詞的位置在前一個(gè) 查詢詞的位置之后。然后結(jié)束對當(dāng)前查詢詞的處理。
應(yīng)當(dāng)理解的是,可以利用多種方法來根據(jù)用戶的查詢操作而獲取 查詢4九跡。在一個(gè)實(shí)施例中,可以類似圖1的實(shí)施例那樣比4交用戶 輸入的查詢詞之間的相似度,或者判斷用戶在繼續(xù)查詢之前是否點(diǎn) 擊了當(dāng)前查詢詞的查詢結(jié)果,而不是像圖2的實(shí)施例那樣比較與查 詢詞對應(yīng)的描述信息之間的相似度。在另一個(gè)實(shí)施例中,可以根據(jù)用戶是否點(diǎn)擊根據(jù)所述查詢詞得 到的搜索結(jié)果,來判斷用戶是否從該查詢詞得到需要的搜索結(jié)果。 當(dāng)用戶沒有點(diǎn)擊任何搜索結(jié)果時(shí),認(rèn)為該次查詢是 一 個(gè)中間查詢, 用戶并沒有得到需要的搜索結(jié)果。因此可以將用戶此次輸入的查詢 詞存卡者在前一個(gè)查詢詞所在的查詢軌跡中。
圖3是按照本發(fā)明的一個(gè)實(shí)施例的在用戶輸入的查詢詞與搜索 結(jié)果之間建立關(guān)聯(lián)的流程圖。圖3所示的實(shí)施例是根據(jù)基于查詢軌 跡而建立的查詢映射庫,得到與用戶輸入的查詢詞匹配的推薦查詢 詞,從而建立用戶輸入的查詢詞與根據(jù)推薦查詢詞而得到的搜索結(jié) 果之間的關(guān)聯(lián)。圖3的實(shí)施例是基于查詢軌跡進(jìn)行的,該查詢軌跡 可以通過圖1或圖2的實(shí)施例得到,也可以根據(jù)本領(lǐng)域技術(shù)人員可 以實(shí)現(xiàn)的其他方法得到。
在步驟301,基于查詢軌跡,建立查詢映射庫。在步驟302,在 該查詢映射庫中查找與用戶輸入的查詢詞相匹配的查詢映射條目。 在步驟303,從匹配的查詢映射條目中得到推薦查詢詞。在步驟304, 將推薦查詢詞提供給用戶,以建立用戶輸入的查詢詞與推薦查詢詞 的搜索結(jié)果之間的關(guān)聯(lián)。其中,預(yù)定策略可以包括以下策略中的一 個(gè)或多個(gè)如果相似度大于預(yù)定閾值,則確定查詢映射條目與查詢 詞相匹配;對多個(gè)相似度進(jìn)行排序,確定對應(yīng)于最大相似度的查詢 映射條目與查詢詞相匹配。
圖4和圖5分別給出了實(shí)現(xiàn)圖3所示流程的具體實(shí)施例。圖4 和圖5的實(shí)施例都是計(jì)算用戶輸入的查詢詞與查詢映射條目中的中 間查詢詞之間的相似度,并根據(jù)預(yù)定策略基于相似度來確定該查詢 映射條目與該查詢詞是否匹配。
不同的是,在圖4的實(shí)施例中,查詢映射條目包括中間查詢詞 和目標(biāo)查詢詞;而在圖5的實(shí)施例中,查詢映射條目包括中間查詢 詞、目標(biāo)查詢詞和權(quán)重,并且包括利用所述權(quán)重對所計(jì)算出的多個(gè) 相似度進(jìn)行加權(quán)的步驟。
圖4是按照本發(fā)明的另 一 個(gè)實(shí)施例的在用戶輸入的查詢詞與搜索結(jié)果之間建立關(guān)聯(lián)的流程圖。
在步驟401,讀取查詢軌跡。
在步驟402, 乂人該查詢軌跡中得到中間查詢詞和目標(biāo)查詢詞。例 如,4叚i殳一個(gè)查詢專九跡為 "Marine vegetation types" — 〉 "marine vegetation" —> "marine plants" _> "sea plant",這表示才艮據(jù)查詢 詞"Marine vegetation types" 、 "marine vegetation"和"marine plants" 進(jìn)行搜索后,用戶沒有得到需要的搜索結(jié)果;而根據(jù)查詢"seaplant" 得到的搜索結(jié)果則是用戶需要的搜索結(jié)果。這里,可以將"Marine vegetation types" 、 "marine vegetation"和"marine plants"作為中 間查詢詞,并將"sea plant"作為目標(biāo)查詢詞。
在步驟403,利用中間查詢詞和目標(biāo)查詢詞得到查詢映射條目。 一個(gè)查詢映射條目可以包括兩個(gè)元素,例如<中間查詢詞,目標(biāo)查詢 詞〉。在該實(shí)施例中,查詢映射條目例如
<Marine vegetation types, sea plant >
<marine vegetation, sea plant >
<marine plants, sea plant >
多個(gè)查詢映射條目組合在一起,可以建立一個(gè)查詢映射庫。 在步驟404,計(jì)算用戶輸入的查詢詞與查詢映射條目中的中間查 詢詞之間的相似度。
在該實(shí)施例中,假設(shè)用戶輸入的查詢詞為"marine plant"。可 以利用現(xiàn)有技術(shù)中的多種計(jì)算文本相似度的算法,例如編輯距離 (Levenshtein Distance )算法、最長公共子序列(LCS)算法、余弦 定理(向量空間算法)算法等,計(jì)算用戶輸入的查詢詞"marine plant" 與查詢映射條目<Marine vegetation types, sea plant〉的中間查詢詞 "Marine vegetation types,,之間的相似度。例如,計(jì)算出的相似度為 0.7。
在步驟405,判斷相似度是否大于預(yù)定閾值。 如果是,則表示這兩個(gè)查詢詞之間的相似程度較高,用戶輸入的 查詢詞與該查詢映射條目相匹配,從而繼續(xù)到步驟406;如果否,則表示這兩個(gè)查詢詞之間的相似程度較低,用戶輸入的查詢詞與該查
詢映射條目不匹配,從而返回步驟401,繼續(xù)判斷用戶輸入的查詢詞 是否與其他查詢映射條目匹配。其中,該"預(yù)定閾值"可以是用戶
預(yù)先設(shè)定的,也可以是各種搜索引擎經(jīng)常使用的經(jīng)驗(yàn)值。
在該實(shí)施例中,假設(shè)預(yù)定閾值是0.5,由于在步驟404中計(jì)算出 的相似度為0.7,所以確定查詢映射條目與用戶輸入的查詢詞相匹配。
在步驟406,得到匹配的查詢映射條目中的目標(biāo)查詢詞,并將其 作為推薦查詢詞。由于用戶輸入的查詢詞與該查詢映射條目中的中 間查詢詞相似度壽交高,因此將該中間查詢詞對應(yīng)的目標(biāo)查詢詞推薦 給用戶。這樣,用戶從該目標(biāo)查詢詞得到需要的搜索結(jié)果的可能性 也較高。
在該實(shí)施例中,由于查詢映射條目<Marine vegetation types, sea plant〉與用戶輸入的查詢詞"marineplant"相匹配,因此將該查詢映 射條目中的目標(biāo)查詢詞"seaplant"作為推薦查詢詞。
在步驟407,將推薦查詢詞提供給用戶。例如,可以將該推薦查 詢詞放置在提示性的對話框中,或者在搜索引擎中的查詢詞輸入處 附近的醒目位置列出該推薦查詢詞。然后流程結(jié)束。
這樣,在用戶輸入查詢詞的同時(shí),搜索引擎便可以將推薦查詢 詞提供給用戶。由于利用該推薦查詢詞得到的搜索結(jié)果是先前用戶 不斷變更查詢詞而得到的該先前用戶需要的搜索結(jié)果,所以該搜索 結(jié)果對于當(dāng)前用戶而言也很有可能是需要的。由此,便建立了用戶 的查詢操作與搜索結(jié)果之間的關(guān)聯(lián)。
圖5是按照本發(fā)明的另一個(gè)實(shí)施例的在用戶輸入的查詢詞與搜 索結(jié)果之間建立關(guān)聯(lián)的流程圖。
在步驟501,讀取查詢軌跡。
在步驟502, /人該查詢軌跡中得到中間查詢詞和目標(biāo)查詢詞。 例^(口, 仍々支"i殳這才羊的查詢專九跡"Marine vegetation types"—〉 "marine vegetation" —> "marine plants" —> "seaplant"。 這里,
17可以將"Marine vegetation types" 、 "marine vegetation"和"marine plants"作為中間查詢詞,并將"sea plant"作為目標(biāo)查詢詞。
在步驟503,利用中間查詢詞和目標(biāo)查詢詞得到查詢映射條目。
查詢映射條目可以包括例如權(quán)重等的其他元素,這樣的查詢映 射條目例如<中間查詢詞,目標(biāo)查詢詞,片又重>。權(quán)重可以是基于查 詢映射條目與用戶輸入的查詢詞的匹配次數(shù)來計(jì)算的,也可以是基 于用戶選用推薦查詢詞的次數(shù)來計(jì)算的,其中該推薦查詢詞是根據(jù) 查詢映射條目中的目標(biāo)查詢詞而得到的。
在該實(shí)施例中,查詢映射條目例如
<Marine vegetation types, sea plant, 0.9 >
<marine vegetation, sea plant, 0.7 〉
<marine plants, sea plant, 0.6 >
其中0.9表示針對該查詢映射條目的權(quán)重,該權(quán)重是根據(jù)用戶選 用推薦查詢詞的次數(shù)而計(jì)算出來的。將多個(gè)查詢映射條目組合在一 起,則可以建立一個(gè)查詢映射庫。
在步驟504,計(jì)算用戶輸入的查詢詞與查詢映射條目中的所有查 詢映射條目中的中間查詢詞之間的相似度。
在該實(shí)施例中,假設(shè)用戶輸入的查詢詞為" marine plant"。 可 以利用現(xiàn)有技術(shù)中的多種計(jì)算文本相似度的算法,例如編輯距離 (Levenshtein Distance )算法、最長公共子序列(LCS )算法、余弦 定理(向量空間算法)算法等,計(jì)算用戶輸入的查詢詞與多個(gè)查詢 映射條目中的中間查詢詞之間的相似度。在該實(shí)施例中,假設(shè)查詢 映射庫中具有3個(gè)查詢映射條目,由此計(jì)算出來的3個(gè)相似度為0.7、
0.8和0.9。
在步驟505,利用權(quán)重對所計(jì)算出的相似度進(jìn)行加權(quán),得到加權(quán) 相似度。在該實(shí)施例中,將根據(jù)步驟504計(jì)算得到的3個(gè)相似度0.7、 0.8和0.9與這3個(gè)查詢映射條目中的權(quán)重(分別為0.9、 0.7和0.6 ) 分別相乘,得到加權(quán)相似度為0.63、 0.56和0,54。
在步驟506,得到加權(quán)相似度中的最大值。對從步驟505中計(jì)算出來的多個(gè)加權(quán)相似度進(jìn)行排序,得到最大值0.63。
在步驟507,確定與該最大值相對應(yīng)的查詢映射條目與用戶輸入 的查詢詞是相匹配的。假設(shè)與加權(quán)相似度的最大值相對應(yīng)的是查詢 映射庫中的查詢映射條目<Marine vegetation types, seaplant, 0.9>。 在步驟508,得到匹配的查詢映射條目中的目標(biāo)查詢詞,并將其 作為推薦查詢詞。由于用戶輸入的查詢詞與該查詢映射條目中的中 間加權(quán)查詢詞相似度是最高的,因此將該中間查詢詞對應(yīng)的目標(biāo)查 詢詞推薦給用戶。這樣,用戶從該目標(biāo)查詢詞得到需要的搜索結(jié)果 的可能性也較高。
在該實(shí)施例中,由于查詢映射條目<Marine vegetation types, sea plant, 0.9>中的目標(biāo)查詢詞是,所以將"seeplant"作為推薦查詢詞。 在步驟509,將推薦查詢詞提供給用戶。然后,流程結(jié)束。 這樣,在用戶輸入查詢詞的同時(shí),搜索引擎便可以將推薦查詢 詞提供給用戶。由于查詢映射條目中的權(quán)重是根據(jù)用戶選用推薦查 詢詞的次數(shù)而計(jì)算出來的,即該權(quán)重表示用戶對相應(yīng)的搜索結(jié)果的 認(rèn)可程度,所以對于當(dāng)前用戶而言,很有可能是需要與根據(jù)加權(quán)相
似度得到的推薦查詢詞相對應(yīng)的搜索結(jié)果。由此,便建立了用戶的 查詢操作與搜索結(jié)果之間的關(guān)聯(lián)。
圖6是按照本發(fā)明的另 一 個(gè)實(shí)施例的在用戶輸入的查詢詞與搜 索結(jié)果之間建立關(guān)聯(lián)的流程圖。圖6所示的實(shí)施例首先得到與用戶 輸入的查詢詞相匹配的查詢軌跡,然后利用該查詢軌跡中的各個(gè)查 詢詞來向根據(jù)該查詢軌跡中的最后一個(gè)查詢詞而得到的搜索結(jié)果添 加標(biāo)簽,從而建立用戶輸入的查詢詞與該搜索結(jié)果之間的關(guān)聯(lián)。與 圖3的實(shí)施例類似,圖6的實(shí)施例也是基于查詢4九跡進(jìn)4亍的,該查 詢軌跡可以通過圖1或圖2的實(shí)施例得到,也可以根據(jù)本領(lǐng)域技術(shù)
人員可以實(shí)現(xiàn)的其他方法得到。
在步驟601,讀取一個(gè)查詢軌跡。在該實(shí)施例中,假設(shè)查詢軌跡 仍為"Marine vegetation types" —> "marine vegetation" —> "marine plants" —> "seaplant"。在步驟602,計(jì)算用戶輸入的查詢詞與查詢軌跡中的一個(gè)查詢詞 之間的相似度。
在該實(shí)施例中,假設(shè)用戶輸入的查詢詞是"marine plant"。如 前所述,可以利用現(xiàn)有技術(shù)中的多種計(jì)算文本相似度的算法,例如 編輯距離(Levenshtein Distance )算法、最長公共子序列(LCS )算 法、余弦定理(向量空間算法)算法等,計(jì)算"marine plant"與查 詢軌跡中的任何一個(gè)查詢詞之間的相似度,作為步驟603的判斷依 據(jù)。
應(yīng)當(dāng)理解的是,在其他實(shí)施例中,還可以計(jì)算用戶輸入的查詢 詞與查詢軌跡中的多個(gè)查詢詞之間的多個(gè)相似度,然后通過對計(jì)算 出的多個(gè)相似度進(jìn)行平均、取最大值、取最小值、加權(quán)等處理,得 到處理后的相似度,作為步驟603的判斷依據(jù)。
在該實(shí)施例中,假設(shè)在步驟602計(jì)算出的相似度是0.7。
在步驟603,判斷相似度是否大于預(yù)定閾值。
如果是,則表示這兩個(gè)查詢詞之間的相似程度4交高,確定該查詢 軌跡與所述查詢詞相匹配,繼續(xù)到步驟604;如果否,則表示這兩個(gè) 查詢詞之間的相似禾呈度4交4氐,該查詢軌跡與所述查詢詞不匹配,/人 而返回步驟601,繼續(xù)判斷用戶輸入的查詢詞是否與其他查詢軌跡相 匹配。其中,該"預(yù)定閾值,,可以是用戶預(yù)先設(shè)定的,也可以是各 種搜索引擎經(jīng)常使用的經(jīng)驗(yàn)值。
在該實(shí)施例中,假設(shè)預(yù)定閾值是0.5,由于在步驟602中計(jì)算出 的相似度為0.7,所以確定用戶,f入的查詢詞與該查詢專九跡相匹配。
在步驟604,從該查詢軌跡中的所有查詢詞提取關(guān)鍵字?,F(xiàn)有技 術(shù)中存在多種關(guān)鍵字提取方法,其中 一種簡單的方法就是根據(jù)每個(gè) 詞在查詢軌跡中出現(xiàn)的次數(shù)來排序、并提取出現(xiàn)次數(shù)多的詞作為關(guān) 鍵字。本領(lǐng)域技術(shù)人員也可以利用任何其他公知技術(shù)來提取關(guān)鍵字。
在該實(shí)施例中,布I設(shè)從該查詢軌跡中提取的關(guān)4建字包括 "Marine" 、 "vegetation" 、 "plant"和"sea"。
在步驟605,獲取根據(jù)查詢軌跡中的最后一個(gè)查詢詞得到的搜索結(jié)果。
在此步驟中,首先根據(jù)查詢軌跡中的最后一個(gè)查詢詞進(jìn)行搜索, 但并不像搜索引擎通常那樣將該搜索結(jié)果提供給用戶,而是僅得到 這樣的搜索結(jié)果即可。可以將該搜索結(jié)果臨時(shí)存儲(chǔ)在任何可訪問存 儲(chǔ)介質(zhì)中,例如磁盤、軟盤、光盤、磁帶和本領(lǐng)域技術(shù)人員所能想到的
其他介質(zhì)。
在步驟606,將關(guān)鍵字作為標(biāo)簽加入該搜索結(jié)果。由于根據(jù)步驟 604可以根據(jù)查詢軌跡中的一個(gè)或多個(gè)查詢詞得到一個(gè)或多個(gè)關(guān)鍵: 字,因此在步驟606可以將其中一個(gè)關(guān)鍵字加入搜索結(jié)果,也可以 將部分或全部關(guān)鍵字都加入搜索結(jié)果。
在該實(shí)施例中,將"Marine" 、 "vegetation" 、 "plant"和"sea" 這4個(gè)關(guān)鍵字全部作為標(biāo)簽加入搜索結(jié)果中。
由于查詢軌跡中的最后一個(gè)查詢詞通常是先前用戶得到滿意結(jié) 果的查詢詞,所以根據(jù)該查詢詞得到的搜索結(jié)果很有可能是當(dāng)前用 戶需要的搜索結(jié)果。在將一個(gè)或多個(gè)關(guān)鍵字作為標(biāo)簽加入搜索結(jié)果 后,由于當(dāng)前用戶l命入查詢詞與該查詢專九跡是匹配的,所以先前用 戶搜索到的滿意結(jié)果便可以很快提供給當(dāng)前用戶,從而在用戶的查 詢操作與搜索結(jié)果之間建立了關(guān)聯(lián),有效提高了用戶的搜索效率。
應(yīng)當(dāng)理解的是,步驟604是可選的,其他實(shí)施例可以不包括步 驟604,即,不需要從查詢詞提取關(guān)鍵字的步驟。在一個(gè)實(shí)施例中, 不包括步驟604,并且在步驟606直接將查詢軌跡中的一個(gè)或多個(gè)查 詢詞作為標(biāo)簽加入搜索結(jié)果。在另一個(gè)實(shí)施例中,包括步驟604,并 且在步驟606將查詢軌跡中的一個(gè)或多個(gè)查詢詞、從步驟604得到 的一個(gè)或多個(gè)關(guān)鍵字、或其組合作為標(biāo)簽加入搜索結(jié)果。
本發(fā)明還涉及 一 種用于在用戶的查詢操作與搜索結(jié)果之間建立 關(guān)聯(lián)的設(shè)備700,如圖7a所示。該設(shè)備包括獲取單元710,用于 獲取查詢軌跡;以及關(guān)聯(lián)建立單元720,用于基于所述查詢軌跡而在 用戶輸入的查詢詞與搜索結(jié)果之間建立關(guān)聯(lián)。
獲取單元710可以通過分析搜索引擎日志而獲取所述查詢軌跡,
21并可以包括用于得到搜索引擎日志中記錄的查詢詞的裝置;用于 計(jì)算所述查詢詞與搜索引擎日志中記錄的前一個(gè)查詢詞之間的相似 度的裝置;用于當(dāng)所計(jì)算出的相似度大于預(yù)定閣值時(shí),將所述查詢 詞存儲(chǔ)在前一個(gè)查詢詞所在的查詢軌跡中的裝置。另外,該獲取單 元也可以包括用于根據(jù)搜索引擎日志獲取與所記錄的每個(gè)查詢詞 相對應(yīng)的附加信息的裝置;用于當(dāng)查詢詞不具有對應(yīng)的附加信息時(shí) 將所述查詢詞存儲(chǔ)在前一個(gè)查詢詞所在的查詢軌跡中的裝置,或者 用于當(dāng)查詢詞不具有對應(yīng)的附加信息時(shí)比較該查詢詞與前一個(gè)查詢 詞之間的相似度、并當(dāng)該相似度大于預(yù)定閾值時(shí)將該查詢詞存儲(chǔ)在 前一個(gè)查詢詞所在的查詢軌跡中的裝置。
獲取單元710可以根據(jù)用戶的查詢操作而獲取所述查詢軌跡,
并可以包括用于接收用戶輸入的查詢詞的裝置;用于計(jì)算所述查 詢詞與所述用戶輸入的前 一 個(gè)查詢詞之間的相似度的裝置;用于當(dāng)
所計(jì)算出的相似度大于預(yù)定閾值時(shí),將所述查詢詞存儲(chǔ)在所述用戶 輸入的前一個(gè)查詢詞所在的查詢軌跡中的裝置。另外,該獲耳又單元 也可以包括用于接收用戶輸入的查詢詞的裝置;用于當(dāng)用戶點(diǎn)擊 根據(jù)所述查詢詞得到的搜索結(jié)果時(shí),將所述查詢詞存儲(chǔ)在所述用戶 輸入的前一個(gè)查詢詞所在的查詢軌跡中的裝置。另外,該獲取單元 也可以包括用于接收用戶輸入的查詢詞的裝置;用于從根據(jù)所述 查詢詞得到的搜索結(jié)果得到針對所述查詢詞的描述信息的裝置;用
于計(jì)算所述描述信息與根據(jù)所述用戶前一次輸入的查詢詞得到的描 述信息之間的相似度的裝置;用于當(dāng)所計(jì)算出的相似度大于預(yù)定閾 值時(shí),將所述查詢詞存儲(chǔ)在所述用戶輸入的前一個(gè)查詢詞所在的查 詢軌跡中的裝置。
在一個(gè)實(shí)施例中,如圖7b所示,關(guān)聯(lián)建立單元720可以包括 關(guān)耳關(guān)建立單元720除了可以包括查詢映射庫建立裝置721、查詢映射 條目匹配裝置722、推薦查詢詞獲取裝置723和輸出裝置724。
查詢映射庫建立裝置721用于基于所述查詢軌跡建立查詢映射 庫,該裝置可以包含用于通過分析查詢軌跡來4是取中間查詢詞和目標(biāo)查詢詞的裝置、以及用于將中間查詢詞和目標(biāo)查詢詞存4諸在查詢
映射庫的查詢映射條目中的裝置,并且該裝置進(jìn)一步用于將查詢軌 跡的最后一個(gè)查詢詞作為目標(biāo)查詢詞、以及將查詢專九跡的所有其他
查詢詞作為中間查詢詞;
查詢映射條目匹配裝置722用于在所述查詢映射庫中查找與用 戶輸入的查詢詞相匹配的查詢映射條目,該裝置可以包含用于計(jì)算 用戶輸入的查詢詞與所述查詢映射條目中的中間查詢詞之間的相似
映射條目與所述查詢詞是否匹配的裝置,該裝置還可以包含用于計(jì) 算用戶輸入的查詢詞與所述查詢映射條目中的中間查詢詞之間的相 似度的裝置、用于利用所述權(quán)重對所計(jì)算出的多個(gè)相似度進(jìn)行加權(quán) 來得到加權(quán)相似度的裝置、以及用于根據(jù)預(yù)定策略基于所述加權(quán)相 似度來確定所述查詢映射條目與所述查詢詞是否匹配的裝置;
推薦查詢詞獲取裝置723用于從匹配的查詢映射條目中得到推 薦查詢詞;
輸出裝置724用于將所述推薦查詢詞提供給用戶,以建立用戶 輸入的查詢詞與所述推薦查詢詞的搜索結(jié)果之間的關(guān)聯(lián)。
該關(guān)聯(lián)建立單元720還可以包括權(quán)重計(jì)算裝置,用于基于所述 查詢映射條目與用戶輸入的查詢詞匹配的次數(shù)來計(jì)算所述權(quán)重、或 者基于用戶選用所述推薦查詢詞的次數(shù)來計(jì)算所述權(quán)重。
預(yù)定策略可以包括以下策略中的一個(gè)或多個(gè)當(dāng)相似度大于預(yù) 定閾值時(shí)確定查詢映射條目與查詢詞相匹配;對多個(gè)相似度進(jìn)^f亍排 序,確定對應(yīng)于最大相似度的查詢映射條目與查詢詞相匹配。
在另一個(gè)實(shí)施例中,如圖7c所示,關(guān)聯(lián)建立單元720可以包括 查詢軌跡匹配裝置721,、搜索結(jié)果獲取裝置722,和標(biāo)簽添加裝置 723,。
查詢軌跡匹配裝置721,用于得到與用戶輸入的查詢詞相匹配的 查詢軌跡,該裝置可以包含用于計(jì)算用戶輸入的查詢詞與查詢4九跡 中的一個(gè)查詢詞之間的相似度的裝置、以及用于當(dāng)所計(jì)算出的相似度大于預(yù)定閾值時(shí)確定所述查詢軌跡與用戶輸入的查詢詞相匹配的
裝置;
搜索結(jié)果獲取裝置722,用于獲取根據(jù)匹配的查詢軌跡中的最后 一個(gè)查詢詞而得到的搜索結(jié)果;
標(biāo)簽添加裝置723,用于利用匹配的查詢軌跡中的查詢詞來向所 述搜索結(jié)果添加標(biāo)簽,該裝置可以將所述匹配的查詢軌跡中的一個(gè) 或多個(gè)查詢詞整體作為標(biāo)簽、或者提取所述匹配的查詢軌跡中的一 個(gè)或多個(gè)查詢詞的關(guān)鍵字并將所述關(guān)鍵字作為標(biāo)簽。
圖8示意性示出了可以實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的計(jì)算設(shè)備的 結(jié)構(gòu)方框圖。
圖8中所示的計(jì)算機(jī)系統(tǒng)包括CPU(中央處理單元)801、 RAM(隨 機(jī)存取存儲(chǔ)器)802、 ROM(只讀存儲(chǔ)器)803、系統(tǒng)總線804,硬盤控 制器805、鍵盤控制器806、串行接口控制器807、并行接口控制器 808、顯示器控制器809、硬盤810、鍵盤811、串行外部設(shè)備812、 并行外部設(shè)備813和顯示器814。在這些部件中,與系統(tǒng)總線804 相連的有CPU801、 RAM 802、 ROM 803、硬盤控制器805、鍵盤控 制器806,串行接口控制器807,并行接口控制器808和顯示器控制 器809。硬盤810與硬盤控制器805相連,鍵盤811與鍵盤控制器 806相連,串行外部設(shè)備812與串行接口控制器807相連,并行外部 設(shè)備813與并行接口控制器808相連,以及顯示器814與顯示器控 制器809相連。
圖8中每個(gè)部件的功能在本技術(shù)領(lǐng)域內(nèi)都是眾所周知的,并且圖 8所示的結(jié)構(gòu)也是常規(guī)的。不同的應(yīng)用中,可以向圖8中所示的結(jié)構(gòu) 添加某些部件,或者圖8中的某些部件可以被省略。圖8中所示的 整個(gè)系統(tǒng)由通常作為軟件存儲(chǔ)在硬盤810中、或者存儲(chǔ)在EPROM或 者其他非易失性存儲(chǔ)器中的計(jì)算機(jī)可讀指令控制。軟件也可從網(wǎng)絡(luò) (圖中未示出)下載。或者存儲(chǔ)在硬盤810中,或者從網(wǎng)絡(luò)下載的 軟件可被加載到RAM 802中,并由CPU 801執(zhí)行,以便完成由軟件 確定的功能。盡管圖8中描述的計(jì)算機(jī)系統(tǒng)能夠支持根據(jù)本發(fā)明的用于在用 戶的查詢操作與搜索結(jié)果之間建立關(guān)聯(lián)的設(shè)備,但是其只是計(jì)算機(jī) 系統(tǒng)的一個(gè)例子。本領(lǐng)域的熟練技術(shù)人員可以理解,許多其他計(jì)算 機(jī)系統(tǒng)設(shè)計(jì)也能實(shí)現(xiàn)本發(fā)明的實(shí)施例。
本發(fā)明還涉及一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括用于 執(zhí)行如下的代碼獲取查詢軌跡;基于所述查詢軌跡,在用戶輸入 的查詢詞與搜索結(jié)果之間建立關(guān)聯(lián)。在使用之前,可以把代碼存儲(chǔ) 在其他計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器中,例如,存儲(chǔ)在硬盤或諸如光盤或軟 盤的可移動(dòng)的存儲(chǔ)器中,或者經(jīng)由因特網(wǎng)或其他計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行下 載。
所公開的本發(fā)明的方法可以在軟件、硬件、或軟件和硬件的結(jié) 合中實(shí)現(xiàn)。硬件部分可以利用專用邏輯來實(shí)現(xiàn);軟件部分可以存儲(chǔ) 在存儲(chǔ)器中,由適當(dāng)?shù)闹噶顖?zhí)行系統(tǒng),例如微處理器、個(gè)人計(jì)算機(jī) (PC)或大型機(jī)來執(zhí)行。
應(yīng)當(dāng)注意,為了使本發(fā)明更容易理解,上面的描述省略了對于本 領(lǐng)域的技術(shù)人員來說是公知的、并且對于本發(fā)明的實(shí)現(xiàn)可能是必需 的更具體的一些技術(shù)細(xì)節(jié)。
提供本發(fā)明的說明書的目的是為了說明和描述,而不是用來窮舉 或?qū)⒈景l(fā)明限制為所公開的形式。對本領(lǐng)域的普通技術(shù)人員而言, 許多修改和變更都是顯而易見的。
因此,選擇并描述實(shí)施方式是為了更好地解釋本發(fā)明的原理及其 實(shí)際應(yīng)用,并使本領(lǐng)域普通技術(shù)人員明白,在不脫離本發(fā)明實(shí)質(zhì)的 前提下,所有修改和變更均落入由權(quán)利要求所限定的本發(fā)明的保護(hù) 范圍之內(nèi)。
權(quán)利要求
1.一種在用戶的查詢操作與搜索結(jié)果之間建立關(guān)聯(lián)的方法,包括獲取查詢軌跡;基于所述查詢軌跡,在用戶輸入的查詢詞與搜索結(jié)果之間建立關(guān)聯(lián)。
2. 根據(jù)權(quán)利要求1的方法,其中所述查詢軌跡是通過分析搜索 引擎日志而獲取的,所述獲取步驟包括得到搜索引擎日志中記錄的查詢詞;計(jì)算所述查詢詞與搜索引擎日志中記錄的前一個(gè)查詢詞之間的 相似度;當(dāng)所計(jì)算出的相似度大于預(yù)定閾值時(shí),將所述查詢詞存儲(chǔ)在前 一個(gè)查詢詞所在的查詢軌跡中。
3. 根據(jù)權(quán)利要求1的方法,其中所述查詢軌跡是通過分析搜索 引擎日志而獲取的,所述獲取步驟包括得到搜索引擎日志中記錄的查詢詞,當(dāng)查詢詞不具有對應(yīng)的附 加信息時(shí)將所述查詢詞存4諸在前一個(gè)查詢詞所在的查詢4九跡中。
4. 根據(jù)權(quán)利要求1的方法,其中所述查詢軌跡是根據(jù)用戶的查 詢操作而獲取的,所述獲取步驟包括接收用戶輸入的查詢詞;計(jì)算所述查詢詞與所述用戶輸入的前一個(gè)查詢詞之間的相似度;當(dāng)所計(jì)算出的相似度大于預(yù)定閾值時(shí),將所述查詢詞存儲(chǔ)在所 述用戶輸入的前一個(gè)查詢詞所在的查詢軌跡中。
5. 根據(jù)權(quán)利要求1的方法,其中所述查詢軌跡是根據(jù)用戶的查 詢操作而獲取的,所述獲取步驟包括接收用戶輸入的查詢詞;當(dāng)用戶未點(diǎn)擊根據(jù)所述查詢詞得到的搜索結(jié)果時(shí),將所述查詢詞存儲(chǔ)在所述用戶輸入的前一個(gè)查詢詞所在的查詢軌跡中。
6. 根據(jù)權(quán)利要求1的方法,其中所述查詢軌跡是根據(jù)用戶的查 詢操作而獲取的,所述獲取步驟包括接收用戶輸入的查詢詞;從根據(jù)所述查詢詞得到的搜索結(jié)果得$ U針對所述查詢詞的描述 信息;計(jì)算所述描述信息與根據(jù)所述用戶前 一 次輸入的查詢詞得至'J的 描述信息之間的相似度;當(dāng)所計(jì)算出的相似度大于預(yù)定閾值時(shí),將所述查詢詞存儲(chǔ)在所 述用戶輸入的前一個(gè)查詢詞所在的查詢4九跡中。
7. 根據(jù)權(quán)利要求1的方法,其中基于所述查詢軌跡在用戶輸入 的查詢詞與搜索結(jié)果之間建立關(guān)聯(lián)的步驟包括基于所述查詢4九跡,建立查詢映射庫;在所述查詢映射庫中查找與用戶輸入的查詢詞相匹配的查詢映 射條目;從匹配的查詢映射條目中得到推薦查詢詞; 將所述推薦查詢詞提供給用戶,以建立用戶輸入的查詢詞與所 述推薦查詢詞的搜索結(jié)果之間的關(guān)聯(lián)。
8. 根據(jù)權(quán)利要求7的方法,其中基于查詢軌跡建立查詢映射庫 的步驟包括通過分析查詢軌跡,提取中間查詢詞和目標(biāo)查詢詞;將中間查詢詞和目標(biāo)查詢詞存儲(chǔ)在查詢映射庫的查詢映射條目中。
9. 根據(jù)權(quán)利要求8的方法,其中通過分析查詢軌跡提取中間查 詢詞和目標(biāo)查詢詞的步驟包括將查詢軌跡的最后一個(gè)查詢詞作為目標(biāo)查詢詞;以及 將查詢軌跡的所有其他查詢詞作為中間查詢詞。
10. 根據(jù)權(quán)利要求7的方法,其中查詢映射條目包括中間查詢詞 和目標(biāo)查詢詞,并且在所述查詢映射庫中查找與用戶輸入的查詢詞相匹配的查詢映射條目步驟包括計(jì)算用戶輸入的查詢詞與所述查詢映射條目中的中間查詢詞之 間的相似度;以及根據(jù)預(yù)定策略,基于所述相似度來確定所述查詢映射條目與所 述查詢詞是否匹配。
11. 根據(jù)權(quán)利要求7的方法,其中查詢映射條目包括中間查詢 詞、目標(biāo)查詢詞和4又重,并且在所述查詢映射庫中查找與用戶輸入 的查詢詞相匹配的查詢映射條目的步驟包括計(jì)算用戶輸入的查詢詞與所述查詢映射條目中的中間查詢詞之間的相似度;利用所述權(quán)重對所計(jì)算出的多個(gè)相似度進(jìn)行加權(quán),得到加權(quán)相 似度;根據(jù)預(yù)定策略,基于所述加權(quán)相似度來確定所述查詢映射條目 與所述查詢詞是否匹配。
12. 根據(jù)權(quán)利要求10或11的方法,其中所述預(yù)定策略包括以下 策略中的一個(gè)或多個(gè)當(dāng)相似度大于預(yù)定閾值時(shí)確定查詢映射條目與查詢詞相匹配; 對多個(gè)相似度進(jìn)行排序,確定對應(yīng)于最大相似度的查詢映射條 目與查詢詞相匹配。
13. 根據(jù)權(quán)利要求11的方法,其中基于所述查詢映射條目與用 戶輸入的查詢詞匹配的次數(shù)、或者基于用戶選用所述推薦查詢詞的 次數(shù),來計(jì)算所述權(quán)重。
14. 根據(jù)權(quán)利要求1的方法,其中基于所述查詢軌跡在用戶輸入 的查詢詞與搜索結(jié)果之間建立關(guān)聯(lián)的步驟包括得到與用戶輸入的查詢詞相匹配的查詢4九跡;獲取根據(jù)匹配的查詢軌跡中的最后 一 個(gè)查詢詞而得到的搜索結(jié)果;利用匹配的查詢軌跡中的查詢詞,來向所述搜索結(jié)果添加標(biāo)簽。
15. 根據(jù)權(quán)利要求14的方法,其中得到與用戶輸入的查詢詞相匹配的查詢軌跡的步驟包括計(jì)算用戶輸入的查詢詞與查詢軌跡中的一個(gè)查詢詞之間的相似度;當(dāng)所計(jì)算出的相似度大于預(yù)定閾值時(shí)確定所述查詢軌跡與用戶 車lr入的查詢詞相匹配。
16. 根據(jù)權(quán)利要求14的方法,其中利用匹配的查詢軌跡中的查詢詞來向所述搜索結(jié)果添加標(biāo)簽的步驟包括將所述匹配的查詢軌跡中的 一個(gè)或多個(gè)查詢詞整體作為標(biāo)簽;或 者提取所述匹配的查詢軌跡中的 一 個(gè)或多個(gè)查詢詞的關(guān)4建字,并 將所述關(guān)鍵字作為標(biāo)簽。
17. —種用于在用戶的查詢操作與搜索結(jié)果之間建立關(guān)聯(lián)的設(shè) 備,包括用于執(zhí)行權(quán)利要求1 _ 16所述方法的裝置。
全文摘要
公開了一種在用戶的查詢操作與搜索結(jié)果之間建立關(guān)聯(lián)的方法和設(shè)備,該方法包括步驟獲取查詢軌跡;基于所述查詢軌跡,在用戶輸入的查詢詞與搜索結(jié)果之間建立關(guān)聯(lián)。本方法和設(shè)備能夠在用戶輸入的查詢詞與用戶需要的搜索結(jié)果之間建立關(guān)聯(lián),從而使得用戶能夠方便、快速、高效地搜索到需要的結(jié)果。
文檔編號(hào)G06F17/30GK101685448SQ200810166020
公開日2010年3月31日 申請日期2008年9月28日 優(yōu)先權(quán)日2008年9月28日
發(fā)明者付榮耀, 劉世霞, 趙石頑, 鄧佰臣 申請人:國際商業(yè)機(jī)器公司