国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于使用和建立塊級(jí)別索引進(jìn)行搜索詢問的方法和系統(tǒng)的制作方法

      文檔序號(hào):8361501閱讀:369來源:國知局
      用于使用和建立塊級(jí)別索引進(jìn)行搜索詢問的方法和系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明一般涉及搜索文檔的領(lǐng)域。更具體地,本發(fā)明涉及用于基于塊級(jí)別索引進(jìn)行文檔級(jí)別的搜索詢問的方法。
      【背景技術(shù)】
      [0002]經(jīng)常發(fā)生多個(gè)文檔包括具有相同內(nèi)容的章節(jié)、部分或組成。例如,一封電子郵件被回復(fù)或轉(zhuǎn)發(fā)許多次,并且所有回復(fù)的或轉(zhuǎn)發(fā)的電子郵件都包含原始發(fā)送的電子郵件。在來自例如wik1、博客等的社會(huì)媒體的發(fā)布(post)中發(fā)生相同的情況。在諸如帶有附件的電子郵件或者ZIP文件的混合文檔中,整個(gè)子文檔(例如附件或ZIP中的文件)可以由許多不同的頂層文檔(例如不同的電子郵件或ZIP文件)共享。
      [0003]當(dāng)對(duì)包括相同內(nèi)容的部分的多個(gè)文檔進(jìn)行索引(index)時(shí),特別是全部文本索引時(shí),內(nèi)容的重復(fù)的部分將被索引多次,導(dǎo)致索引內(nèi)的冗余信息以及大尺寸的索引。
      [0004]提供對(duì)于文檔中的重復(fù)的塊的非冗余索引表示的技術(shù)將是真正有幫助的,因?yàn)榭梢怨?jié)省對(duì)相同的塊重新分析和索引所浪費(fèi)的計(jì)算能力以及儲(chǔ)存空間、即任意種類的永久存儲(chǔ)器,例如用于存儲(chǔ)索引的硬盤。另一方面,該技術(shù)需要提供用于像通常那樣以文檔級(jí)別而不是塊級(jí)別、即面向文檔的部分的搜索和檢索而搜索文檔的手段。
      [0005]因此,需要提供用于針對(duì)文檔、特別是文本文檔進(jìn)行搜索詢問的有效的并且用戶友好的方法,所述文檔提供相同的部分,特別是相同的文本部分。

      【發(fā)明內(nèi)容】

      [0006]本發(fā)明的實(shí)施例的一個(gè)目標(biāo)是提供以有效的并且用戶友好的方式針對(duì)包括相同部分的文檔進(jìn)行搜索詢問的方法、計(jì)算機(jī)可讀介質(zhì)和系統(tǒng)。通過獨(dú)立權(quán)利要求的特征實(shí)現(xiàn)該目標(biāo)。在從屬權(quán)利要求中給出了優(yōu)選實(shí)施例。如果沒有另外明確指示,則本發(fā)明的實(shí)施例可以彼此自由組合。
      [0007]根據(jù)第一方面,描述了用于針對(duì)多個(gè)文檔進(jìn)行包括具有至少一個(gè)搜索項(xiàng)(term)屬性的搜索項(xiàng)的搜索詢問的方法。每個(gè)文檔被構(gòu)造為塊的集,每個(gè)塊與唯一的塊ID相關(guān)聯(lián),并且相同的塊與相同的塊ID相關(guān)聯(lián)。該方法包括以下步驟:
      [0008]-提供包含關(guān)于具體搜索項(xiàng)屬性和至少一個(gè)塊ID之間的相關(guān)性的信息的第一數(shù)據(jù)結(jié)構(gòu);
      [0009]-提供包含關(guān)于塊和文檔之間的相關(guān)性的信息的第二數(shù)據(jù)結(jié)構(gòu);
      [0010]-接收搜索詢問;
      [0011]-通過針對(duì)至少一個(gè)搜索項(xiàng)屬性來搜索該第一數(shù)據(jù)結(jié)構(gòu)而處理該搜索詢問,得到第一詢問響應(yīng);
      [0012]-使用該第二數(shù)據(jù)結(jié)構(gòu)將該第一詢問響應(yīng)映射到第二詢問響應(yīng);以及
      [0013]-返回該第二詢問響應(yīng),作為搜索結(jié)果。
      [0014]第一數(shù)據(jù)結(jié)構(gòu)提供塊級(jí)別索引,該塊級(jí)別索引包括塊中包括的塊數(shù)據(jù)(它們是搜索項(xiàng)的搜索項(xiàng)屬性)和塊ID之間的相關(guān)性。包括相同的塊數(shù)據(jù)的相同的塊與相同的塊ID相關(guān)聯(lián)。由此,塊內(nèi)容僅被索引一次,得到減少的用于存儲(chǔ)索引的容量。可以以塊級(jí)別在第一步驟中進(jìn)行搜索詢問的處理,得到包含所詢問的搜索項(xiàng)屬性的零個(gè)或更多塊。通過確定包含在第一步驟中調(diào)查到的塊的文檔,可以將接收到的塊轉(zhuǎn)換為文檔級(jí)別搜索響應(yīng)。由此,可以減少用于對(duì)包括相同的塊的多個(gè)文檔進(jìn)行搜索詢問的計(jì)算工作以及用于存儲(chǔ)索引的存儲(chǔ)空間。
      [0015]根據(jù)進(jìn)一步的實(shí)施例,第一數(shù)據(jù)結(jié)構(gòu)是包括多個(gè)索引條目的索引,每個(gè)索引條目與具體的塊數(shù)據(jù)相關(guān)聯(lián),該具體的塊數(shù)據(jù)可以形成搜索項(xiàng)內(nèi)的搜索項(xiàng)屬性。由此,該索引可以適配用于存儲(chǔ)與塊數(shù)據(jù)相關(guān)聯(lián)的具體數(shù)據(jù),例如包含作為塊數(shù)據(jù)的所述搜索項(xiàng)屬性的塊ID、指示塊數(shù)據(jù)在塊內(nèi)的頻率的頻率信息或者指示塊數(shù)據(jù)在塊內(nèi)的位置的位置數(shù)據(jù)。
      [0016]根據(jù)進(jìn)一步的實(shí)施例,索引的每個(gè)條目包括關(guān)于至少一個(gè)塊ID的信息,該塊ID指示與各個(gè)索引條目相關(guān)聯(lián)的塊數(shù)據(jù)(或者根據(jù)搜索項(xiàng)用語的搜索項(xiàng)屬性)被包括在具有所述塊ID的塊內(nèi)。由此,第一數(shù)據(jù)結(jié)構(gòu)是關(guān)于搜索項(xiàng)屬性可搜索的,并且可以確定包含所述搜索項(xiàng)屬性的塊ID。
      [0017]根據(jù)進(jìn)一步的實(shí)施例,第一數(shù)據(jù)結(jié)構(gòu)包括對(duì)于每個(gè)搜索項(xiàng)屬性的關(guān)于該搜索項(xiàng)屬性在塊內(nèi)的位置和/或該搜索項(xiàng)屬性在具體塊內(nèi)的出現(xiàn)的頻率的另外的信息。
      [0018]根據(jù)進(jìn)一步的實(shí)施例,第二數(shù)據(jù)結(jié)構(gòu)是提供關(guān)于哪個(gè)塊被包含在哪個(gè)文檔中和/或哪個(gè)文檔由哪些塊組成的信息的列表。換句話說,第二數(shù)據(jù)結(jié)構(gòu)是包含塊和文檔之間的映射信息的支持?jǐn)?shù)據(jù)結(jié)構(gòu)。通過第二數(shù)據(jù)結(jié)構(gòu),可以得出塊-文檔關(guān)聯(lián)性。優(yōu)選地,第二數(shù)據(jù)結(jié)構(gòu)是包括定義塊和文檔之間的相關(guān)性的第一數(shù)據(jù)集和定義文檔和塊之間的相關(guān)性的第二數(shù)據(jù)集的雙向數(shù)據(jù)結(jié)構(gòu)。
      [0019]根據(jù)進(jìn)一步的實(shí)施例,處理搜索詢問的步驟包括分析步驟,在該分析步驟中,分析搜索詢問的結(jié)構(gòu)和邏輯運(yùn)算符,并且優(yōu)化處理以便減少處理時(shí)間。該分析步驟可以確定可以僅以塊級(jí)別處理的、即不用將塊級(jí)別結(jié)果映射為文檔級(jí)別結(jié)果的搜索項(xiàng)的至少一個(gè)子項(xiàng)。優(yōu)選地,該分析步驟可以適配為確定可以直接以塊級(jí)別處理的“或運(yùn)算符或“近似運(yùn)算符。
      [0020]根據(jù)進(jìn)一步的實(shí)施例,搜索詢問由通過邏輯運(yùn)算符鏈接的多個(gè)搜索項(xiàng)屬性組成,其中依賴于邏輯運(yùn)算符,僅使用第一數(shù)據(jù)結(jié)構(gòu)以塊級(jí)別處理搜索詢問的至少一個(gè)子集。優(yōu)選地,確定包括“或運(yùn)算符的至少一個(gè)子項(xiàng)。在確定至少一個(gè)子項(xiàng)之后,以塊級(jí)別處理所述子項(xiàng)。具體地,在第一數(shù)據(jù)結(jié)構(gòu)內(nèi)詢問兩個(gè)搜索項(xiàng)屬性(例如通過“或運(yùn)算符接連的),得到兩個(gè)塊集,每個(gè)集與一個(gè)搜索項(xiàng)屬性相關(guān)。然后,通過對(duì)所述兩個(gè)塊集應(yīng)用“或”運(yùn)算符將這兩個(gè)塊集合并為單個(gè)塊集。由此,完全以塊級(jí)別處理子項(xiàng)。
      [0021]根據(jù)進(jìn)一步的實(shí)施例,依賴于搜索詢問內(nèi)的邏輯運(yùn)算符,產(chǎn)生兩個(gè)搜索結(jié)果,其中第一搜索結(jié)果包含從使用第一數(shù)據(jù)結(jié)構(gòu)的塊級(jí)別的搜索詢問處理得到的減少的搜索命中數(shù)量,并且第二搜索結(jié)果包含從使用第一數(shù)據(jù)結(jié)構(gòu)的塊級(jí)別的以及使用第二數(shù)據(jù)結(jié)構(gòu)的文檔級(jí)別的相繼處理得到的全部量的搜索命中。優(yōu)選可以應(yīng)用所述處理用于處理“與運(yùn)算??梢詢H考慮各個(gè)塊、即不用到文檔級(jí)別的任何映射而產(chǎn)生第一搜索結(jié)果。然后,或者同時(shí)地,可以產(chǎn)生第二搜索結(jié)果。所述第二搜索結(jié)果可以包括通過使用第一數(shù)據(jù)結(jié)構(gòu)確定兩個(gè)塊集、通過第二數(shù)據(jù)結(jié)構(gòu)將塊集映射到文檔集并通過對(duì)所述兩個(gè)文檔集應(yīng)用邏輯運(yùn)算符(優(yōu)選是“與運(yùn)算符)合并所述兩個(gè)文檔集的搜索詢問的所有命中。由此,可以實(shí)現(xiàn)包含包括了在各個(gè)塊中彼此靠近地定位的搜索項(xiàng)屬性的有限數(shù)量的搜索命中的快速的第一搜索結(jié)果。稍后,返回包含所有搜索命中的第二搜索結(jié)果。
      [0022]根據(jù)進(jìn)一步的方面,描述了產(chǎn)生數(shù)據(jù)結(jié)構(gòu)的方法,該數(shù)據(jù)結(jié)構(gòu)用于搜索包括至少部分相同的塊的文檔。該方法包括以下步驟:
      [0023]-接收文檔;
      [0024]-定義在接收的文檔內(nèi)的塊,并為每個(gè)塊分配唯一的塊ID,其中相同的塊與相同的塊ID相關(guān)聯(lián);
      [0025]-對(duì)定義的塊索引,并產(chǎn)生包含關(guān)于塊數(shù)據(jù)與包括所述塊數(shù)據(jù)的塊ID之間的相關(guān)性的信息的第一數(shù)據(jù)結(jié)構(gòu);
      [0026]-產(chǎn)生包括關(guān)于塊和文檔之間的關(guān)聯(lián)性的信息的第二數(shù)據(jù)結(jié)構(gòu);以及
      [0027]-存儲(chǔ)第一和第二數(shù)據(jù)結(jié)構(gòu)用于搜索詢問處理。
      [0028]通過進(jìn)行上述的方法,可以產(chǎn)生可以用于以塊級(jí)別搜索文檔并將通過塊級(jí)別搜索獲得的結(jié)果合并為文檔級(jí)別搜索結(jié)果的數(shù)據(jù)結(jié)構(gòu)集。第一數(shù)據(jù)結(jié)構(gòu)的主要優(yōu)點(diǎn)是相同的塊僅被索引一次,即減少了對(duì)文檔索引的計(jì)算工作以及用于存儲(chǔ)索引的存儲(chǔ)空間。
      [0029]根據(jù)進(jìn)一步的實(shí)施例,在索弓丨之前,將所要索引的每個(gè)塊的內(nèi)容與已經(jīng)被索引的塊的內(nèi)容相比較。優(yōu)選地,僅在具有相同的內(nèi)容的塊在之前還未被索引時(shí)才索引該塊。由此,可以避免對(duì)包括相同內(nèi)容的塊的雙重索引。
      [0030]根據(jù)進(jìn)一步的實(shí)施例,對(duì)于每個(gè)塊,產(chǎn)生并存儲(chǔ)塊數(shù)據(jù)的哈希值。通過對(duì)塊的全部內(nèi)容應(yīng)用哈希函數(shù)得到所述哈希值。通過使用哈希值,簡化了所要索引的新塊和已經(jīng)被索弓丨的塊的內(nèi)容的比較。優(yōu)選地,基于要被索引的實(shí)際塊的哈希值和先前被索引的塊的哈希值做出對(duì)塊索引的決定。如果哈希值相同,則塊的內(nèi)容也相同,并且不需要進(jìn)行索引。如果哈希值不同,則需要對(duì)塊索引,并且需要更新第一數(shù)據(jù)結(jié)構(gòu)。
      [0031]根據(jù)進(jìn)一步的方面,描述了用于針對(duì)多個(gè)文檔進(jìn)行搜索詢問的系統(tǒng),所述搜索詢問包括具有至少一個(gè)搜索項(xiàng)屬性的搜索項(xiàng)。每個(gè)文檔被構(gòu)造為塊的集,每個(gè)塊包括唯一的塊ID,并且相同的塊與相同的塊
      當(dāng)前第1頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1