基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法

文檔序號(hào)：6440901閱讀：251來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法
技術(shù)領(lǐng)域：
本發(fā)明涉及分布式信息檢索技術(shù)，具體涉及一種分布式信息檢索系統(tǒng)中檢索信息的集合選擇方法。
背景技術(shù)：
隨著計(jì)算機(jī)技術(shù)、通訊技術(shù)、網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和hternet應(yīng)用的日益普及，電子文檔的數(shù)量與日劇增，使得電子文檔成為一個(gè)巨大的信息庫。萬維網(wǎng)信息的爆炸性增長(zhǎng)也使Web成為巨大的信息庫。如何對(duì)于這些超大規(guī)模數(shù)據(jù)進(jìn)行管理，防治用戶淹沒在巨大的數(shù)據(jù)庫中并快速找到自己所需的信息。目前主要有兩種解決方案一種是集中式，即采用單臺(tái)高性能服務(wù)器對(duì)海量數(shù)據(jù)進(jìn)行統(tǒng)一管理，統(tǒng)一為用戶提供服務(wù)，該方案結(jié)構(gòu)簡(jiǎn)單，易于部署實(shí)施，但是單臺(tái)服務(wù)器的服務(wù)性能總有上限，而且系統(tǒng)成本是非線性增長(zhǎng)的，不易于擴(kuò)展。另一種是分布式，即采用多臺(tái)普通服務(wù)器部署來管理海量數(shù)據(jù)，分擔(dān)多用戶并發(fā)請(qǐng)求，該方案的最大優(yōu)勢(shì)是可以根據(jù)實(shí)際性能需求對(duì)系統(tǒng)資源進(jìn)行動(dòng)態(tài)配置，通過負(fù)載均衡技術(shù)避免負(fù)載過重造成的系統(tǒng)癱瘓，而且成本相對(duì)較低，適用性更強(qiáng)。如

圖1所示，分布式信息檢索系統(tǒng)由檢索代理服務(wù)器和信息檢索服務(wù)器單元組成，檢索代理服務(wù)器通過網(wǎng)絡(luò)面向用戶1、用戶2、……、用戶η提供分布式信息檢索接口服務(wù)，信息檢索服務(wù)器單元包括多個(gè)呈分布式結(jié)構(gòu)的信息檢索服務(wù)器(信息檢索服務(wù)器1、信息檢索服務(wù)器2、……、信息檢索服務(wù)器η)，檢索代理服務(wù)器通過網(wǎng)絡(luò)與各個(gè)信息檢索服務(wù)器相連。每個(gè)信息檢索服務(wù)器作為一個(gè)信息集合，存放系統(tǒng)的一部分文檔。檢索時(shí)，檢索代理服務(wù)器將查詢轉(zhuǎn)發(fā)給信息檢索服務(wù)器，每個(gè)信息檢索服務(wù)器單獨(dú)檢索并將結(jié)果返回給代理，代理將結(jié)果按一定規(guī)則合并后呈現(xiàn)給用戶。由于分布式檢索的數(shù)據(jù)規(guī)模龐大，許多傳統(tǒng)的方法都不能直接用于分布式系統(tǒng)中，而且每個(gè)節(jié)點(diǎn)的處理能力不盡相同且通常只能對(duì)本地的數(shù)據(jù)子集進(jìn)行檢索，使得分布式的信息檢索面臨著許多挑戰(zhàn)，如查詢結(jié)果質(zhì)量不高，主要體現(xiàn)在查全率和查準(zhǔn)率較低，缺乏必要的描述信息，沒有一個(gè)很好的排序規(guī)則等幾個(gè)方面，造成用戶使用上的不便。如何為如此龐大的信息資源提供高效的導(dǎo)航服務(wù)，幫助用戶在海量的數(shù)據(jù)中快速找到需要的信息是搜索引擎亟待解決的問題。通常用戶只關(guān)心搜索引擎返回的排在前面的結(jié)果，然而當(dāng)前搜索引擎返回的查詢結(jié)果與用戶需求的相關(guān)程度并不理想。于是搜索引擎的相關(guān)性排序-按照與用戶查詢的相關(guān)程度對(duì)搜索引擎的索引文檔進(jìn)行排序，成為當(dāng)前研究的重點(diǎn)和熱點(diǎn)。分布式信息檢索的過程主要分為如下3個(gè)步驟集合選擇，即對(duì)于一個(gè)給定的查詢式，從全部的文檔集合中選出與之最相關(guān)的文檔子集進(jìn)行檢索；單文檔集合檢索，找出每個(gè)文檔集中和用戶查詢密切相關(guān)的文檔；查詢結(jié)果合并，即每個(gè)信息集返回的中間結(jié)果必須合并成一個(gè)單一的結(jié)果列表返回給用戶。集合選擇是分布式信息檢索研究的重要問題。給定若干個(gè)信息集合，集合選擇在盡量不影響檢索效果的前提下，選出和查詢相關(guān)的信息子集進(jìn)行檢索。集合選擇避免搜索所有的信息集，可減少網(wǎng)絡(luò)帶寬消耗，提高系統(tǒng)的響應(yīng)速度，實(shí)現(xiàn)高效經(jīng)濟(jì)檢索。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種檢索結(jié)果準(zhǔn)確度高、網(wǎng)絡(luò)帶寬消耗低、響應(yīng)速度快、檢索經(jīng)濟(jì)高效的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法。為解決上述技術(shù)問題，本發(fā)明采用的技術(shù)方案為一種基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法，其實(shí)施步驟如下1)檢索代理服務(wù)器對(duì)查詢?nèi)罩具M(jìn)行預(yù)處理，提取歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)；2)檢索代理服務(wù)器根據(jù)點(diǎn)擊數(shù)據(jù)計(jì)算歷史查詢和信息檢索服務(wù)器上存儲(chǔ)的各個(gè)信息集合之間的相關(guān)度；3)檢索代理服務(wù)器獲取用戶發(fā)出的新查詢，計(jì)算新查詢和各個(gè)歷史查詢之間的綜合相似度；4)檢索代理服務(wù)器根據(jù)所述綜合相似度選擇多個(gè)與新查詢最相似的歷史查詢，根據(jù)所述選擇的歷史查詢及其與各個(gè)信息集合之間相關(guān)度計(jì)算出新查詢與各個(gè)信息集合的相關(guān)度；5)檢索代理服務(wù)器根據(jù)新查詢與信息集合的相關(guān)度選擇多個(gè)信息集合，向信息集合對(duì)應(yīng)的信息檢索服務(wù)器發(fā)出檢索請(qǐng)求，并將信息檢索服務(wù)器返回的結(jié)果合并后輸出給發(fā)出新查詢的用戶。作為本發(fā)明上述技術(shù)方案的進(jìn)一步改進(jìn)所述步驟1)中提取歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)具體是將歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)存儲(chǔ)并建立索引，所述索引項(xiàng)由包含用于存儲(chǔ)歷史查詢的數(shù)據(jù)段和指向?qū)?yīng)的點(diǎn)擊文檔ID的指針組成。所述步驟2、的詳細(xì)步驟為檢索代理服務(wù)器首先將每個(gè)歷史查詢向各個(gè)信息檢索服務(wù)器發(fā)出檢索請(qǐng)求，并根據(jù)所述索引統(tǒng)計(jì)各檢索服務(wù)器返回的檢索結(jié)果中被點(diǎn)擊的個(gè)
數(shù)，然后根據(jù)
權(quán)利要求
1.一種基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法，其特征在于其實(shí)施步驟如下1)檢索代理服務(wù)器對(duì)查詢?nèi)罩具M(jìn)行預(yù)處理，提取歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)；2)檢索代理服務(wù)器根據(jù)點(diǎn)擊數(shù)據(jù)計(jì)算歷史查詢和信息檢索服務(wù)器上存儲(chǔ)的各個(gè)信息集合之間的相關(guān)度；3)檢索代理服務(wù)器獲取用戶發(fā)出的新查詢，計(jì)算新查詢和各個(gè)歷史查詢之間的綜合相似度；4)檢索代理服務(wù)器根據(jù)所述綜合相似度選擇多個(gè)與新查詢最相似的歷史查詢，根據(jù)所述選擇的歷史查詢及其與各個(gè)信息集合之間相關(guān)度計(jì)算出新查詢與各個(gè)信息集合的相關(guān)度；5)檢索代理服務(wù)器根據(jù)新查詢與信息集合的相關(guān)度選擇多個(gè)信息集合，向信息集合對(duì)應(yīng)的信息檢索服務(wù)器發(fā)出檢索請(qǐng)求，并將信息檢索服務(wù)器返回的結(jié)果合并后輸出給發(fā)出新查詢的用戶。
2.根據(jù)權(quán)利要求1所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法，其特征在于所述步驟1)中提取歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)具體是將歷史查詢及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)存儲(chǔ)并建立索引，所述索引項(xiàng)由用于存儲(chǔ)歷史查詢的數(shù)據(jù)段和指向?qū)?yīng)的點(diǎn)擊文檔 ID的指針組成。
3.根據(jù)權(quán)利要求1所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法，其特征在于，所述步驟2)的詳細(xì)步驟為檢索代理服務(wù)器首先將每個(gè)歷史查詢向各個(gè)信息檢索服務(wù)器發(fā)出檢索請(qǐng)求，并根據(jù)所述索引統(tǒng)計(jì)各檢索服務(wù)器返回的檢索結(jié)果中被點(diǎn)擊的個(gè)數(shù)，然后根據(jù)
4.根據(jù)權(quán)利要求3所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法，其特征在于，所述步驟幻中計(jì)算新查詢和各個(gè)歷史查詢之間的綜合相似度的詳細(xì)步驟為A)通過計(jì)算查詢向量夾角余弦值分別獲取新查詢的關(guān)鍵詞和各個(gè)歷史查詢的關(guān)鍵詞之間的關(guān)鍵詞相似度；B)向信息檢索服務(wù)器采集預(yù)設(shè)數(shù)量的各個(gè)歷史查詢檢索結(jié)果文檔組成中心樣本；C)計(jì)算新查詢與所述中心樣本之間的結(jié)果相似度；D)將關(guān)鍵詞相似度和結(jié)果相似度分別乘以系數(shù)后求和得到綜合相似度。
5.根據(jù)權(quán)利要求4所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法，其特征在于所述步驟A)中具體是根據(jù)
6.根據(jù)權(quán)利要求4所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法，其特征在于所述步驟C)中具體是根據(jù)
7.根據(jù)權(quán)利要求4所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法，其特征在于，所述步驟D)的詳細(xì)步驟包括①、根據(jù)sim(p|q) = α X sim_term(ρ | q) + β X sim_result (ρ | q)獲取綜合相似度 sim(p|q)，其中Sim_term(p|q)為關(guān)鍵詞相似度，sim_result (ρ | q)為結(jié)果相似度，α為關(guān)鍵詞相似度系數(shù)，β為結(jié)果相似度系數(shù)；②、根據(jù)
8.根據(jù)權(quán)利要求3 7中任意一項(xiàng)所述的基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法，其特征在于，所述步驟4)檢索代理服務(wù)器計(jì)算新查詢與各個(gè)信息檢索服務(wù)器的相關(guān)度具體是指根據(jù)所述查詢間的相似度和歷史相似查詢與各信息集合的相關(guān)度，通過Rel (Sj I q) =Σ Rel (Sj | ρ) sim (ρ | q)計(jì)算出新查詢與信息集合的相關(guān)度Rel (Sj | q)， Rel(SjIp)為歷史查詢P與信息集合~的相關(guān)度，sim(p|q)為新查詢?chǔ)押蜌v史查詢q的綜合相似度。
全文摘要
本發(fā)明公開了一種基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法，實(shí)施步驟如下1)檢索代理服務(wù)器對(duì)查詢?nèi)罩具M(jìn)行預(yù)處理提取歷史查詢及其點(diǎn)擊數(shù)據(jù)；2)檢索代理服務(wù)器根據(jù)點(diǎn)擊數(shù)據(jù)計(jì)算歷史查詢和各個(gè)信息集合之間的相關(guān)度；3)檢索代理服務(wù)器計(jì)算新查詢和各個(gè)歷史查詢之間的綜合相似度；4)檢索代理服務(wù)器根據(jù)綜合相似度選擇多個(gè)最相似的歷史查詢，根據(jù)選擇的歷史查詢及其與各個(gè)信息集合之間相關(guān)度計(jì)算出新查詢與各個(gè)信息集合的相關(guān)度；5)檢索代理服務(wù)器選擇多個(gè)信息集合，發(fā)出檢索請(qǐng)求并將信息檢索服務(wù)器返回的結(jié)果合并后輸出給發(fā)出新查詢的用戶。本發(fā)明具有檢索結(jié)果準(zhǔn)確度高、網(wǎng)絡(luò)帶寬消耗低、響應(yīng)速度快、檢索經(jīng)濟(jì)高效的優(yōu)點(diǎn)。
文檔編號(hào)G06F17/30GK102521350SQ20111041226
公開日2012年6月27日申請(qǐng)日期2011年12月12日優(yōu)先權(quán)日2011年12月12日
發(fā)明者劉穎, 陳嶺申請(qǐng)人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳嶺;劉穎
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

分布式信息檢索相關(guān)技術(shù)

信息檢索與數(shù)據(jù)挖掘相關(guān)技術(shù)

網(wǎng)絡(luò)數(shù)據(jù)庫的信息檢索相關(guān)技術(shù)

信息檢索數(shù)據(jù)庫相關(guān)技術(shù)

信息檢索相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于歷史點(diǎn)擊數(shù)據(jù)的分布式信息檢索集合選擇方法