專利名稱:基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法
技術(shù)領(lǐng)域:
本發(fā)明涉及分布式信息檢索技術(shù),具體涉及一種分布式信息檢索系統(tǒng)中檢索信息的集合選擇方法。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)、通訊技術(shù)、網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和hternet應(yīng)用的日益普及, 電子文檔的數(shù)量與日劇增,使得電子文檔成為一個(gè)巨大的信息庫。萬維網(wǎng)信息的爆炸性增長(zhǎng)也使Web成為巨大的信息庫。如何對(duì)于這些超大規(guī)模數(shù)據(jù)進(jìn)行管理,防治用戶淹沒在巨大的數(shù)據(jù)庫中并快速找到自己所需的信息。目前主要有兩種解決方案一種是集中式,即采用單臺(tái)高性能服務(wù)器對(duì)海量數(shù)據(jù)進(jìn)行統(tǒng)一管理,統(tǒng)一為用戶提供服務(wù),該方案結(jié)構(gòu)簡(jiǎn)單, 易于部署實(shí)施,但是單臺(tái)服務(wù)器的服務(wù)性能總有上限,而且系統(tǒng)成本是非線性增長(zhǎng)的,不易于擴(kuò)展。另一種是分布式,即采用多臺(tái)普通服務(wù)器部署來管理海量數(shù)據(jù),分擔(dān)多用戶并發(fā)請(qǐng)求,該方案的最大優(yōu)勢(shì)是可以根據(jù)實(shí)際性能需求對(duì)系統(tǒng)資源進(jìn)行動(dòng)態(tài)配置,通過負(fù)載均衡技術(shù)避免負(fù)載過重造成的系統(tǒng)癱瘓,而且成本相對(duì)較低,適用性更強(qiáng)。如
圖1所示,分布式信息檢索系統(tǒng)由檢索代理服務(wù)器和信息檢索服務(wù)器單元組成,檢索代理服務(wù)器通過網(wǎng)絡(luò)面向用戶1、用戶2、……、用戶η提供分布式信息檢索接口服務(wù),信息檢索服務(wù)器單元包括多個(gè)呈分布式結(jié)構(gòu)的信息檢索服務(wù)器(信息檢索服務(wù)器1、信息檢索服務(wù)器2、……、信息檢索服務(wù)器η),檢索代理服務(wù)器通過網(wǎng)絡(luò)與各個(gè)信息檢索服務(wù)器相連。每個(gè)信息檢索服務(wù)器作為一個(gè)信息集合,存放系統(tǒng)的一部分文檔。檢索時(shí),檢索代理服務(wù)器將查詢轉(zhuǎn)發(fā)給信息檢索服務(wù)器,每個(gè)信息檢索服務(wù)器單獨(dú)檢索并將結(jié)果返回給代理,代理將結(jié)果按一定規(guī)則合并后呈現(xiàn)給用戶。由于分布式檢索的數(shù)據(jù)規(guī)模龐大,許多傳統(tǒng)的方法都不能直接用于分布式系統(tǒng)中,而且每個(gè)節(jié)點(diǎn)的處理能力不盡相同且通常只能對(duì)本地的數(shù)據(jù)子集進(jìn)行檢索,使得分布式的信息檢索面臨著許多挑戰(zhàn),如查詢結(jié)果質(zhì)量不高,主要體現(xiàn)在查全率和查準(zhǔn)率較低, 缺乏必要的描述信息,沒有一個(gè)很好的排序規(guī)則等幾個(gè)方面,造成用戶使用上的不便。如何為如此龐大的信息資源提供高效的導(dǎo)航服務(wù),幫助用戶在海量的數(shù)據(jù)中快速找到需要的信息是搜索引擎亟待解決的問題。通常用戶只關(guān)心搜索引擎返回的排在前面的結(jié)果,然而當(dāng)前搜索引擎返回的查詢結(jié)果與用戶需求的相關(guān)程度并不理想。于是搜索引擎的相關(guān)性排序-按照與用戶查詢的相關(guān)程度對(duì)搜索引擎的索引文檔進(jìn)行排序,成為當(dāng)前研究的重點(diǎn)和熱點(diǎn)。分布式信息檢索的過程主要分為如下3個(gè)步驟集合選擇,即對(duì)于一個(gè)給定的查詢式,從全部的文檔集合中選出與之最相關(guān)的文檔子集進(jìn)行檢索;單文檔集合檢索,找出每個(gè)文檔集中和用戶查詢密切相關(guān)的文檔;查詢結(jié)果合并,即每個(gè)信息集返回的中間結(jié)果必須合并成一個(gè)單一的結(jié)果列表返回給用戶。集合選擇是分布式信息檢索研究的重要問題。給定若干個(gè)信息集合,集合選擇在盡量不影響檢索效果的前提下,選出和查詢相關(guān)的信息子集進(jìn)行檢索。集合選擇避免搜索所有的信息集,可減少網(wǎng)絡(luò)帶寬消耗,提高系統(tǒng)的響應(yīng)速度,實(shí)現(xiàn)高效經(jīng)濟(jì)檢索。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種檢索結(jié)果準(zhǔn)確度高、網(wǎng)絡(luò)帶寬消耗低、響應(yīng)速度快、檢索經(jīng)濟(jì)高效的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法。為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為一種基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法,其實(shí)施步驟如下1)檢索代理服務(wù)器對(duì)查詢?nèi)罩具M(jìn)行預(yù)處理,提取歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù);2)檢索代理服務(wù)器根據(jù)點(diǎn)擊數(shù)據(jù)計(jì)算歷史查詢和信息檢索服務(wù)器上存儲(chǔ)的各個(gè)信息集合之間的相關(guān)度;3)檢索代理服務(wù)器獲取用戶發(fā)出的新查詢,計(jì)算新查詢和各個(gè)歷史查詢之間的綜合相似度;4)檢索代理服務(wù)器根據(jù)所述綜合相似度選擇多個(gè)與新查詢最相似的歷史查詢,根據(jù)所述選擇的歷史查詢及其與各個(gè)信息集合之間相關(guān)度計(jì)算出新查詢與各個(gè)信息集合的相關(guān)度;5)檢索代理服務(wù)器根據(jù)新查詢與信息集合的相關(guān)度選擇多個(gè)信息集合,向信息集合對(duì)應(yīng)的信息檢索服務(wù)器發(fā)出檢索請(qǐng)求,并將信息檢索服務(wù)器返回的結(jié)果合并后輸出給發(fā)出新查詢的用戶。作為本發(fā)明上述技術(shù)方案的進(jìn)一步改進(jìn)所述步驟1)中提取歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)具體是將歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)存儲(chǔ)并建立索引,所述索引項(xiàng)由包含用于存儲(chǔ)歷史查詢的數(shù)據(jù)段和指向?qū)?yīng)的點(diǎn)擊文檔ID的指針組成。所述步驟2、的詳細(xì)步驟為檢索代理服務(wù)器首先將每個(gè)歷史查詢向各個(gè)信息檢索服務(wù)器發(fā)出檢索請(qǐng)求,并根據(jù)所述索引統(tǒng)計(jì)各檢索服務(wù)器返回的檢索結(jié)果中被點(diǎn)擊的個(gè)
數(shù),然后根據(jù)
權(quán)利要求
1.一種基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法,其特征在于其實(shí)施步驟如下1)檢索代理服務(wù)器對(duì)查詢?nèi)罩具M(jìn)行預(yù)處理,提取歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù);2)檢索代理服務(wù)器根據(jù)點(diǎn)擊數(shù)據(jù)計(jì)算歷史查詢和信息檢索服務(wù)器上存儲(chǔ)的各個(gè)信息集合之間的相關(guān)度;3)檢索代理服務(wù)器獲取用戶發(fā)出的新查詢,計(jì)算新查詢和各個(gè)歷史查詢之間的綜合相似度;4)檢索代理服務(wù)器根據(jù)所述綜合相似度選擇多個(gè)與新查詢最相似的歷史查詢,根據(jù)所述選擇的歷史查詢及其與各個(gè)信息集合之間相關(guān)度計(jì)算出新查詢與各個(gè)信息集合的相關(guān)度;5)檢索代理服務(wù)器根據(jù)新查詢與信息集合的相關(guān)度選擇多個(gè)信息集合,向信息集合對(duì)應(yīng)的信息檢索服務(wù)器發(fā)出檢索請(qǐng)求,并將信息檢索服務(wù)器返回的結(jié)果合并后輸出給發(fā)出新查詢的用戶。
2.根據(jù)權(quán)利要求1所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法,其特征在于所述步驟1)中提取歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)具體是將歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)存儲(chǔ)并建立索引,所述索引項(xiàng)由用于存儲(chǔ)歷史查詢的數(shù)據(jù)段和指向?qū)?yīng)的點(diǎn)擊文檔 ID的指針組成。
3.根據(jù)權(quán)利要求1所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法,其特征在于,所述步驟2)的詳細(xì)步驟為檢索代理服務(wù)器首先將每個(gè)歷史查詢向各個(gè)信息檢索服務(wù)器發(fā)出檢索請(qǐng)求,并根據(jù)所述索引統(tǒng)計(jì)各檢索服務(wù)器返回的檢索結(jié)果中被點(diǎn)擊的個(gè)數(shù),然后根據(jù)
4.根據(jù)權(quán)利要求3所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法,其特征在于,所述步驟幻中計(jì)算新查詢和各個(gè)歷史查詢之間的綜合相似度的詳細(xì)步驟為A)通過計(jì)算查詢向量夾角余弦值分別獲取新查詢的關(guān)鍵詞和各個(gè)歷史查詢的關(guān)鍵詞之間的關(guān)鍵詞相似度;B)向信息檢索服務(wù)器采集預(yù)設(shè)數(shù)量的各個(gè)歷史查詢檢索結(jié)果文檔組成中心樣本;C)計(jì)算新查詢與所述中心樣本之間的結(jié)果相似度;D)將關(guān)鍵詞相似度和結(jié)果相似度分別乘以系數(shù)后求和得到綜合相似度。
5.根據(jù)權(quán)利要求4所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法,其特征在于所述步驟A)中具體是根據(jù)
6.根據(jù)權(quán)利要求4所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法,其特征在于所述步驟C)中具體是根據(jù)
7.根據(jù)權(quán)利要求4所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法,其特征在于,所述步驟D)的詳細(xì)步驟包括①、根據(jù)sim(p|q) = α X sim_term(ρ | q) + β X sim_result (ρ | q)獲取綜合相似度 sim(p|q),其中Sim_term(p|q)為關(guān)鍵詞相似度,sim_result (ρ | q)為結(jié)果相似度,α為關(guān)鍵詞相似度系數(shù),β為結(jié)果相似度系數(shù);②、根據(jù)
8.根據(jù)權(quán)利要求3 7中任意一項(xiàng)所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法,其特征在于,所述步驟4)檢索代理服務(wù)器計(jì)算新查詢與各個(gè)信息檢索服務(wù)器的相關(guān)度具體是指根據(jù)所述查詢間的相似度和歷史相似查詢與各信息集合的相關(guān)度,通過Rel (Sj I q) =Σ Rel (Sj | ρ) sim (ρ | q)計(jì)算出新查詢與信息集合 的相關(guān)度Rel (Sj | q), Rel(SjIp)為歷史查詢P與信息集合~的相關(guān)度,sim(p|q)為新查詢?chǔ)押蜌v史查詢q的綜合相似度。
全文摘要
本發(fā)明公開了一種基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法,實(shí)施步驟如下1)檢索代理服務(wù)器對(duì)查詢?nèi)罩具M(jìn)行預(yù)處理提取歷史查詢及其點(diǎn)擊數(shù)據(jù);2)檢索代理服務(wù)器根據(jù)點(diǎn)擊數(shù)據(jù)計(jì)算歷史查詢和各個(gè)信息集合之間的相關(guān)度;3)檢索代理服務(wù)器計(jì)算新查詢和各個(gè)歷史查詢之間的綜合相似度;4)檢索代理服務(wù)器根據(jù)綜合相似度選擇多個(gè)最相似的歷史查詢,根據(jù)選擇的歷史查詢及其與各個(gè)信息集合之間相關(guān)度計(jì)算出新查詢與各個(gè)信息集合的相關(guān)度;5)檢索代理服務(wù)器選擇多個(gè)信息集合,發(fā)出檢索請(qǐng)求并將信息檢索服務(wù)器返回的結(jié)果合并后輸出給發(fā)出新查詢的用戶。本發(fā)明具有檢索結(jié)果準(zhǔn)確度高、網(wǎng)絡(luò)帶寬消耗低、響應(yīng)速度快、檢索經(jīng)濟(jì)高效的優(yōu)點(diǎn)。
文檔編號(hào)G06F17/30GK102521350SQ20111041226
公開日2012年6月27日 申請(qǐng)日期2011年12月12日 優(yōu)先權(quán)日2011年12月12日
發(fā)明者劉穎, 陳嶺 申請(qǐng)人:浙江大學(xué)