国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種非合作環(huán)境下的資源選擇方法

      文檔序號:6364874閱讀:157來源:國知局
      專利名稱:一種非合作環(huán)境下的資源選擇方法
      技術領域
      本發(fā)明涉及一種非合作環(huán)境下的資源選擇方法,更具體的說,本發(fā)明涉及一種兼顧資源相關度和重疊程度的、非合作環(huán)境下的資源選擇方法。
      背景技術
      資源選擇是分布式信息檢索領域的一個熱門研究主題。對于給定一個查詢Q,分布式搜索引擎利用資源選擇方法確定與該查詢最相關資源列表,然后將查詢發(fā)給最相關資源列表中的資源。優(yōu)秀的資源選擇方法能夠使得對每個查詢,只需要少量資源參與查詢就可以達到和全部資源參與查詢接近的結果。因此,資源選擇的效果直接決定了查詢執(zhí)行過程的效率和查詢結果的質(zhì)量。大部分傳統(tǒng)的資源選擇方法關注于資源與查詢的相關度。這些方法通常假定各個資源的文檔集不存在重疊,或者認為重疊較小以致可以忽略不計。然而,在一個非合作性環(huán)境下的P2P搜索引擎中,各個資源獨立維護其文檔集,不可避免地使得非合作性環(huán)境下的資源之間會有相當數(shù)量相同或者非常相似的文檔。例如,著名的電子圖書館如ACM、IEEE之間存在很多相似的論文,新聞類網(wǎng)站如網(wǎng)易、新浪等,也會包含大量的相似的新聞網(wǎng)頁。面對這種問題,如果資源選擇方法不考慮資源文檔集的重疊,就可能將一個查詢轉(zhuǎn)發(fā)給兩個重疊程度很高的資源(如兩個鏡像站點),造成網(wǎng)絡資源浪費并降低查詢的效率。因此,有必要研究一種兼顧資源重疊和相關度的資源選擇方法。

      發(fā)明內(nèi)容
      針對上述問題,本發(fā)明公開了一種非合作環(huán)境下的資源選擇方法,該方法在選擇資源時能夠同時兼顧資源重疊度和相關度,最大化預期新穎結果總量,改進資源選擇的有效性,從而提高查詢的效率。本發(fā)明解決其技術問題采用的技術方案步驟如下
      一種非合作環(huán)境下的資源選擇方法,是在資源選擇時兼顧資源相關度和重疊程度,從而提高查詢的效率,該方法采用以下步驟實現(xiàn)
      步驟I :首先利用基于相關度的資源選擇方法,計算出每個資源相關度并排序,得到一個依據(jù)資源相關度排序的資源列表。步驟2:從查詢結果中獲取結果文檔的指紋集;假定一個資源組<P1,P2…Pb-Pu〉,并假定一個節(jié)點產(chǎn)生一個查詢Q,當節(jié)點收到返回結果后,對每個結果文檔,利用指紋提取技術提取出一串固定長度的數(shù)字來表示一個結果文檔的標題內(nèi)容。步驟3 :管理覆蓋統(tǒng)計信息;這個過程包含了三個子過程從結果指紋集中提取覆蓋統(tǒng)計信息的過程、覆蓋統(tǒng)計信息的存儲過程、覆蓋統(tǒng)計信息檢索的過程;所述的管理包含兩類操作存儲和檢索;當一組覆蓋統(tǒng)計信息產(chǎn)生后,系統(tǒng)需要根據(jù)覆蓋統(tǒng)計信息中查詢的語義,分發(fā)到系統(tǒng)的各個資源中進行存儲,方便覆蓋統(tǒng)計信息的檢索。步驟4 :計算每個資源的新穎度;根據(jù)給定一組資源及其覆蓋統(tǒng)計信息,計算出每
      3個資源含新穎結果的數(shù)量,進而計算出每個資源對查詢結果的新穎度。步驟5 :根據(jù)步驟I中計算得出的資源相關度,結合新穎度對資源排序的列表進行調(diào)整,使得新穎結果數(shù)量最大化。本發(fā)明的有益效果
      I.本發(fā)明能夠從查詢結果中提取覆蓋統(tǒng)計信息,這些覆蓋統(tǒng)計信息在后續(xù)的查詢過程中能夠用于計算資源間的重疊程度,在資源選擇時最大化預期的新穎結果總量,從而改進資源選擇的有效性。2.本發(fā)明將覆蓋統(tǒng)計信息依其查詢的語義向量空間存儲到Chord網(wǎng)絡中,從而使得相似語義查詢集,能夠共享覆蓋統(tǒng)計信息,極大地減小系統(tǒng)覆蓋統(tǒng)計信息的存儲空間,并增大了覆蓋統(tǒng)計信息的命中率,解決多詞同義的問題。3.在資源間存在重疊的情況下,本發(fā)明相比于其他資源選擇方法,能夠減小查詢消息的浪費,有效地提高查詢效率。


      圖I為本發(fā)明在非合作環(huán)境下執(zhí)行資源選擇方法的步驟。
      具體實施例方式下面結合附圖,對本發(fā)明的具體實施方案作進一步詳細描述。其具體步驟描述如圖I所示
      步驟I.生成初始資源列表。利用基于相關度的資源選擇方法,計算出每個資源的相關度并排序,得到一個依據(jù)相關度排序的列表。步驟2.從查詢結果中獲取結果文檔的指紋集。包括兩個子步驟
      O從結果中提取指紋集。對每個結果文檔,利用指紋提取技術提取出一串固定長度的數(shù)字來表示一個結果文檔的標題內(nèi)容。兩個內(nèi)容很接近的標題能夠用同一個指紋來表現(xiàn)。對某個資源和查詢,所有指紋的集合就是該資源的覆蓋統(tǒng)計信息。為了更好地解決從短文本提取指紋的問題,本發(fā)明采用一種高效的,健壯的,不需要全局統(tǒng)計信息的指紋技術 (Shingle-based Discrete Cosine Transform, S-DCT) 為過濾噪音詞匯,S-DCT 將停用詞和標點符號刪除;從詞序列中生成一組shingle,利用DCT將每個shingle轉(zhuǎn)化成一個指紋。具體地說,S-DCT方法包括以下步驟
      (I)獲得一個結果η的標題內(nèi)容。⑵刪除停用詞和標點符號。
      ⑶對每個詞執(zhí)行取詞根操作。
      ⑷對剩余詞按字典序排列,生成一個詞序。
      (5)利用滑動窗口技術,對詞序生成一組shingles。
      (6)對每個shingle,計算shingle中的哈希值。
      (7)對所有哈希值進行垂直變換,使之哈希值的均值落在O。
      ⑶用哈希最大值,規(guī)范化所有的哈希值。
      (9)對所有規(guī)范化的哈希值進行DCT變換。(10)對每個DCT系數(shù)量化為少量的bit位上。(11)合并所有bit位,創(chuàng)建指紋。(12)所有shingles的指紋,用于表示這個結果rf。2)壓縮指紋集。為了節(jié)省帶寬和存儲空間,利用布隆過濾器來存儲指紋集。從而, 一個資源的覆蓋統(tǒng)計信息的結構表示為
      < Query; PeerID; Bloomfilter >
      通常情況下,一個文檔的指紋應該基于文檔的所有內(nèi)容產(chǎn)生。步驟3.管理覆蓋統(tǒng)計信息。當一組覆蓋統(tǒng)計信息產(chǎn)生后,系統(tǒng)需要根據(jù)統(tǒng)計信息中查詢詞的語義,分發(fā)到P2P 網(wǎng)絡中。語義相近的查詢對應的覆蓋統(tǒng)計信息,能夠被放在同一個資源上。相應地,查詢一個特定關鍵詞的覆蓋統(tǒng)計信息,是依據(jù)該關鍵詞的語義在語義空間里查詢。相應地,給定一個查詢,該查詢相關的覆蓋統(tǒng)計信息通過該查詢的語義向量進行檢索。從而能夠在高效存儲和檢索覆蓋統(tǒng)計信息的同時,減小系統(tǒng)的存儲開銷和提高系統(tǒng)的可擴展性。為了減小系統(tǒng)的存儲開銷和提高系統(tǒng)的可擴展性,本發(fā)明采用基于查詢關鍵詞語義的分發(fā)策略,利用潛在語義索引將每個查詢向量映射到其語義向量,再將語義向量映射到一個位于Chord ID范圍的整數(shù)值,決定該覆蓋統(tǒng)計信息應該放在哪個資源。這個過程包含了三個子過程從結果指紋集中提取覆蓋統(tǒng)計信息的過程、覆蓋統(tǒng)計信息的存儲過程、覆蓋統(tǒng)計信息檢索的過程。I)從結果指紋集中提取覆蓋統(tǒng)計信息,算法流程為
      liipiit: Result list RL x, RL2... RL11 rctiinic d by peers P1, P2... P11 for query q Output: Coverage Statistics BFList of q for cach RLi do
      for cach result d- in RL1 do
      cxtract shingles set from the title of d-for cach shingle skin S:: do fk = DCTFiiigcrprintiiig(s k)
      F-1UCfJ
      Bl^mscrt(Fi)
      BFList U (BF1)
      其中建立潛在語義索引并映射到語義空間的步驟如下
      (1)分析文檔集合,構建文檔集對應的詞-文檔的矩陣;
      (2)對詞-文檔矩陣進行奇異值分解(SVD);
      (3)對SVD分解后的矩陣進行降維;
      (4)使用降維后的矩陣構建潛在語義空間。
      2)覆蓋統(tǒng)計信息的存儲過程,算法執(zhí)行過程如下
      (I)當資源A獲取一個查詢Q的覆蓋統(tǒng)計信息CV (Q)后,資源A利用潛在語義索引得到該查詢的語義向量W。(2)然后,將VQ映射至IJ Chord的ID空間,路由指向資源B。(3)最后,CV (Q)被發(fā)送到它的目的地資源B。3)覆蓋統(tǒng)計信息檢索過程。當一個資源(假定為A)發(fā)起一個查詢^后,該查詢被轉(zhuǎn)換到語義向量呦,進而映射到一個CXori/招,指向資源B。如果資源B存有查詢^對應的覆蓋統(tǒng)計信息CV (Q),則將覆蓋統(tǒng)計信息CV (Q)發(fā)給資源A。如果不存在,則資源B尋找
      是否存在與查詢0相似的查詢f,滿足> 0:0 < 0 < I。如果找到,則返回覆
      蓋統(tǒng)計信息CT (0 ;如果仍然沒有找到相似,則返回一個查詢覆蓋統(tǒng)計信息失敗的消息, 并通知資源A在結果返回后需要提取查詢Q的覆蓋統(tǒng)計信息。步驟4.估算每個資源的新穎度
      比較資源6的布隆過濾器與布隆過濾器=Ujes ,其中S是已選中的資
      源的集合。IjjTmot6表示已經(jīng)覆蓋的文檔空間。定義一個資源Pi的新穎度為
      權利要求
      1.一種非合作環(huán)境下的資源選擇方法,其特征在于在資源選擇時兼顧資源相關度和重疊程度,從而提高查詢的效率,該方法采用以下步驟實現(xiàn)步驟I:首先利用基于相關度的資源選擇方法,計算出每個資源相關度并排序,得到一個依據(jù)資源相關度排序的資源列表;步驟2 :從查詢結果中獲取結果文檔的指紋集;假定一個資源組<P1,P2…Pi…Pn>,并假定一個節(jié)點產(chǎn)生一個查詢Q,當節(jié)點收到返回結果后,對每個結果文檔,利用指紋提取技術提取出一串固定長度的數(shù)字來表示一個結果文檔的標題內(nèi)容;步驟3 :管理覆蓋統(tǒng)計信息;這個過程包含了三個子過程從結果指紋集中提取覆蓋統(tǒng)計信息的過程、覆蓋統(tǒng)計信息的存儲過程、覆蓋統(tǒng)計信息檢索的過程;所述的管理包含兩類操作存儲和檢索;當一組覆蓋統(tǒng)計信息產(chǎn)生后,系統(tǒng)需要根據(jù)覆蓋統(tǒng)計信息中查詢的語義,分發(fā)到系統(tǒng)的各個資源中進行存儲,方便覆蓋統(tǒng)計信息的檢索;步驟4 :計算每個資源的新穎度;根據(jù)給定一組資源及其覆蓋統(tǒng)計信息,計算出每個資源含新穎結果的數(shù)量,進而計算出每個資源對查詢結果的新穎度;步驟5 :根據(jù)步驟I中計算得出的資源相關度,結合新穎度對資源排序的列表進行調(diào)整,使得新穎結果數(shù)量最大化。
      2.根據(jù)權利I所述的一種非合作環(huán)境下的資源選擇方法,其特征在于在步驟2中,當節(jié)點收到返回結果后,對每個結果的標題內(nèi)容進行提取指紋,即用一串固定長度的數(shù)字來代表一個結果文檔,從而使每個資源返回的結果對應一個指紋集合;然后,利用布隆過濾器來進一步壓縮該指紋集合,從而得到每個資源Pi關于查詢Q的結果指紋集。
      3.根據(jù)權利I所述的一種非合作環(huán)境下的資源選擇方法,其特征在于在步驟3中,從步驟2中獲取的指紋集中提取覆蓋統(tǒng)計信息,然后將覆蓋統(tǒng)計信息分發(fā)到各個資源進行存儲,分發(fā)過程采用基于查詢關鍵詞語義的策略,將相似語義的查詢對應覆蓋統(tǒng)計信息聚為同一個類并存儲在同一個資源上;相應地,給定一個查詢,該查詢相關的覆蓋統(tǒng)計信息通過該查詢的語義向量進行檢索,快速找到存儲該查詢相關覆蓋統(tǒng)計信息的資源,減小系統(tǒng)的存儲開銷和提高系統(tǒng)的可擴展性。
      4.根據(jù)權利I所述的一種非合作環(huán)境下的資源選擇方法,其特征在于步驟4中計算資源新穎度的過程中,布隆過濾器形成查詢Q的覆蓋統(tǒng)計信息之后,通過比較布隆過濾器之間的重疊程度,計算出相應的指紋集的重疊度,最后計算得到每個資源的新穎度。
      5.根據(jù)權利I所述的一種非合作環(huán)境下的資源選擇方法,其特征在于在步驟5中,利用已經(jīng)得到的一個按相關度排序的資源列表,計算每個資源的新穎度,對每個資源相關度和新穎度進行加權運算,得到最優(yōu)資源列表。
      全文摘要
      本發(fā)明公開了一種非合作環(huán)境下的資源選擇方法,本發(fā)明在非合作環(huán)境中利用基于相關度的資源選擇方法,計算出每個資源的相關度并排序,得到一個依據(jù)相關度排序的資源列表;通過指紋提取技術從每個資源中提取覆蓋統(tǒng)計信息,并利用布隆過濾器進行壓縮;采用基于查詢關鍵詞語義的分發(fā)策略進行高效存儲和檢索;然后通過比較布隆過濾器來比較相應指紋集的重疊度,從而獲取每個資源的新穎度;然后計算每個資源的新穎度,并根據(jù)新穎度重新調(diào)整候選資源的排列順序;最后,利用相關度和新穎度進行加權運算,得到最優(yōu)資源列表。本發(fā)明在資源選擇時兼顧資源相關度和重疊程度,提高了查詢的效率。
      文檔編號G06F17/30GK102609536SQ20121003519
      公開日2012年7月25日 申請日期2012年2月16日 優(yōu)先權日2012年2月16日
      發(fā)明者萬健, 任永堅, 任祖杰, 張紀林, 徐向華, 蔣從鋒 申請人:杭州電子科技大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1