国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種高效的倒排索引結(jié)構(gòu)及組織方法

      文檔序號(hào):6492272閱讀:432來源:國(guó)知局
      一種高效的倒排索引結(jié)構(gòu)及組織方法
      【專利摘要】本發(fā)明公開了一種高效的倒排索引結(jié)構(gòu)及組織方法。將記錄倒排項(xiàng)和屬性倒排項(xiàng)分開存儲(chǔ),減少信息冗余;采用分塊方式對(duì)倒排索引進(jìn)行存儲(chǔ),以數(shù)據(jù)庫索引優(yōu)化為切入點(diǎn),綜合利用鏈表和集中定位表的優(yōu)勢(shì)對(duì)倒排塊進(jìn)行管理,既有利于索引動(dòng)態(tài)維護(hù)又便于SKIP技術(shù)下的隨即訪問;同時(shí)根據(jù)域間關(guān)聯(lián)關(guān)系,采用了壓縮技術(shù),以達(dá)到盡量少的空間存儲(chǔ)盡量多的信息量。所提供的倒排索引結(jié)構(gòu)及組織方法,減少了存儲(chǔ)空間、優(yōu)化了訪問時(shí)間,在一定程度解決了倒排索引優(yōu)化問題,能夠?qū)崿F(xiàn)海量數(shù)據(jù)的有效管理。
      【專利說明】一種高效的倒排索弓I結(jié)構(gòu)及組織方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及信息檢索技術(shù),具體地說,涉及全文檢索系統(tǒng)中使用的高效倒排索引結(jié)構(gòu)及組織方法。
      【背景技術(shù)】
      [0002]大數(shù)據(jù)時(shí)代的網(wǎng)絡(luò)環(huán)境中,信息量和用戶量呈爆炸式增長(zhǎng),給大規(guī)模信息檢索系統(tǒng)準(zhǔn)確高效的服務(wù)帶來了壓力和挑戰(zhàn)。倒排索引是信息檢索的核心,其存儲(chǔ)結(jié)構(gòu)及組織方式對(duì)信息檢索性能的提升有很大影響。在改進(jìn)檢索算法的同時(shí),人們也在努力優(yōu)化倒排索引結(jié)構(gòu)及其組織方式。
      [0003]目前國(guó)內(nèi)外針對(duì)倒排索引優(yōu)化的研究,主要從以下三方面展開:(1)通過壓縮技術(shù)減少索引在外存上的體積;(2)對(duì)倒排表內(nèi)容的組織方式進(jìn)行優(yōu)化,減少需要訪問的倒排表內(nèi)容;(3)對(duì)倒排表的磁盤存儲(chǔ)結(jié)構(gòu)進(jìn)行管理,盡量減少磁盤的IO次數(shù)。但現(xiàn)有的成果包括壓縮技術(shù)、倒排索引組織方式及存儲(chǔ)結(jié)構(gòu)還不成熟,很難適應(yīng)大數(shù)據(jù)時(shí)代信息檢索系統(tǒng)信息量大、快速響應(yīng)精而準(zhǔn)的需求,因此本發(fā)明提出了一種融合壓縮技術(shù)的高效的倒排索引結(jié)構(gòu)及組織方法,以解決當(dāng)前倒排索引優(yōu)化問題,實(shí)現(xiàn)海量數(shù)據(jù)的有效管理。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明要解決的技術(shù)問題是提供一種優(yōu)化存儲(chǔ)空間、精簡(jiǎn)讀取時(shí)間的倒排索引結(jié)構(gòu)及組織方法。
      [0005]為解決目前信息檢索系統(tǒng)信息量大、快速響應(yīng)精而準(zhǔn)需求方面的技術(shù)問題,本發(fā)明提供了一種高效的倒排索引結(jié)構(gòu),該結(jié)構(gòu)包括:
      SlOl倒排索引由倒排項(xiàng)組成,倒排項(xiàng)包括記錄倒排項(xiàng)和屬性倒排項(xiàng)兩種類型,它們分開存儲(chǔ)以減少信息冗余,同時(shí)在邏輯上倒排索引也就被分為記錄倒排索引和屬性倒排索弓I ;
      S102記錄倒排索引由記錄倒排項(xiàng)組成,“記錄倒排項(xiàng)”是由“記錄號(hào)”獨(dú)立形成的,包括“記錄號(hào)”和“鏈接器”;
      5103“記錄號(hào)”是一個(gè)字段值或全文數(shù)據(jù)中的詞在數(shù)據(jù)庫中出現(xiàn)時(shí)所在的記錄;
      5104“鏈接器”的具體內(nèi)容取決于不同的組織方式,可以是地址指針、偏移量、或者屬性倒排項(xiàng)的個(gè)數(shù)等,其功能是能快速定位和讀取一個(gè)詞在該記錄中的所有屬性項(xiàng);
      S105屬性倒排索引由屬性倒排項(xiàng)構(gòu)成,“屬性倒排項(xiàng)”是由“位置屬性”和“格式屬性”組成;
      S106 “位置屬性”是全文數(shù)據(jù)中的詞在當(dāng)前記錄中出現(xiàn)的位置之一,位置屬性分三個(gè)層次“段落、句子、位置”;
      S107“格式屬性”是全文數(shù)據(jù)中的詞在出現(xiàn)位置所具有的其它格式信息(如Native XML索引);
      [0006]本發(fā)明還提供一種高效的倒排索引組織方法,該方法包括: S201倒排索引在文件中采用分塊的方式進(jìn)行組織存儲(chǔ),倒排塊綜合采用鏈表和集中定位表兩種方式進(jìn)行管理,使得倒排索引既便于動(dòng)態(tài)維護(hù)又有利于SKIP技術(shù)下的隨機(jī)訪問;為提高數(shù)據(jù)加載效率,同時(shí)有利于數(shù)據(jù)隨機(jī)訪問,以數(shù)據(jù)庫索引的優(yōu)化作為臨界點(diǎn)來選擇倒排塊的管理方式:優(yōu)化后的倒排索引采用集中定位表進(jìn)行管理,而優(yōu)化后新加載的數(shù)據(jù)所對(duì)應(yīng)的倒排索引仍然用鏈表管理,直到下一次數(shù)據(jù)庫索引的優(yōu)化;
      S202在整個(gè)倒排索引中,將集中定位表看成是一個(gè)特殊的鏈表節(jié)點(diǎn),采用標(biāo)志位機(jī)制來區(qū)分是常規(guī)的鏈表節(jié)點(diǎn),還是集中定位表;屬性倒排項(xiàng)數(shù)據(jù)塊放在記錄倒排項(xiàng)數(shù)據(jù)塊的后面,組合存儲(chǔ)在同一文件的同一倒排項(xiàng)數(shù)據(jù)塊中;
      S203倒排鏈表塊由“鏈接器”和“倒排項(xiàng)數(shù)據(jù)塊”組成,“鏈接器”的基本作用是指示下一倒排鏈表塊或集中定位表的首地址,其中含I個(gè)標(biāo)志位指明下一地址指向的是倒排鏈表塊還是集中定位表;
      S204集中定位表由“表頭”和“表項(xiàng)”組成,由于倒排段是分塊存儲(chǔ)的,“表頭”的主要功能是給出下一倒排段的集中定位表的地址;最后一個(gè)倒排段公用,用于存放精確結(jié)果集與非精確結(jié)果集的檢索算法,因此,每個(gè)倒排段的表頭均需存放最后一個(gè)倒排段的集中定位表的地址,以便精確結(jié)果集的檢索算法能夠快速地定位到這個(gè)段;
      S205集中定位表管理的倒排塊都是經(jīng)過優(yōu)化的,一個(gè)表項(xiàng)相對(duì)于一個(gè)倒排塊,所占空間很小,直接使用自然的數(shù)據(jù)類型表示表項(xiàng)各個(gè)域;與倒排鏈表塊“鏈接器”一樣,“地址”對(duì)于每個(gè)表項(xiàng)是不可少的域,同時(shí)“最大記錄號(hào)”和“最小記錄號(hào)”域不能省略,這樣可以避免從倒排項(xiàng)數(shù)據(jù)塊中獲取“最大記錄號(hào)”和“最小記錄號(hào)”,以減少不必要的操作;此外,集中定位表中的記錄倒排項(xiàng)按記錄號(hào)進(jìn)行分頁存儲(chǔ),因此,每個(gè)“表項(xiàng)”還需要一個(gè)記錄號(hào)頁碼表的長(zhǎng)度,便于快速定位、查找記錄號(hào),頁碼表之后是記錄號(hào)偏移表的起始地址,“頁碼表長(zhǎng)度”域中I位標(biāo)志位,區(qū)分倒排塊是否分頁,不分頁時(shí),低位用于表示屬性偏移量,反之則表不記錄號(hào)偏移量;
      S206倒排鏈表塊中倒排塊與集中定位表所管理的倒排塊在存儲(chǔ)方式上有所不同,后者采用經(jīng)過了優(yōu)化的分頁存儲(chǔ)方式,前者依然采用最簡(jiǎn)單的存儲(chǔ)方式,因而二者對(duì)應(yīng)的記錄倒排項(xiàng)的邏輯結(jié)構(gòu)也不相同;
      S207倒排鏈表塊中,記錄倒排項(xiàng)由“記錄號(hào)”和“鏈接器”組成。一個(gè)記錄的所有屬性倒排項(xiàng)以及記錄之間的屬性倒排項(xiàng)在屬性倒排項(xiàng)數(shù)據(jù)塊中都是連續(xù)存放的,“鏈接器”的作用是指示該記錄的所有屬性倒排項(xiàng)在屬性倒排項(xiàng)數(shù)據(jù)塊中的起始位置;
      S208集中定位表中,記錄倒排項(xiàng)在存儲(chǔ)上分為“記錄號(hào)頁碼表”表項(xiàng)和“記錄號(hào)偏移表”表項(xiàng)。每個(gè)“記錄號(hào)頁碼表”存儲(chǔ)一個(gè)頁的記錄號(hào)頁碼以及所對(duì)應(yīng)的記錄號(hào)偏移表的定位信息?!坝涗浱?hào)偏移表”由“記錄號(hào)偏移”和“屬性偏移量”兩個(gè)域組成,在集中定位表“表項(xiàng)”的“頁碼表長(zhǎng)度”域中進(jìn)行標(biāo)記組織;
      S209屬性倒排項(xiàng)所含子項(xiàng)多、一些子項(xiàng)可選、子項(xiàng)個(gè)數(shù)不固定,共有8種具體的形式,分別為:〈位置〉、〈句子,位置〉、〈段落,位置〉、〈段落,句子,位置〉、〈位置,格式〉、〈句子,位置,格式〉、〈段落,位置,格式〉、〈段落,句子,位置,格式〉;“位置屬性”域采用2個(gè)字節(jié)表示;屬性倒排項(xiàng)可以包含格式屬性,格式屬性對(duì)用著Narive XML索引,是一個(gè)XML數(shù)據(jù)的結(jié)點(diǎn)號(hào),用四個(gè)字節(jié)表示,為了支持檢索加權(quán),將其中一個(gè)字節(jié)存儲(chǔ)權(quán)重(最多支持256種權(quán)重),剩下的三個(gè)字節(jié)用來存儲(chǔ)原來的結(jié)點(diǎn)號(hào)。[0007]本發(fā)明技術(shù)方案提供的高效倒排索引結(jié)構(gòu)及組織方法,將倒排索引中倒排項(xiàng)分為記錄倒排項(xiàng)和屬性倒排項(xiàng)進(jìn)行存儲(chǔ),以減少信息冗余;倒排索引以分塊的方式組織存儲(chǔ),綜合鏈表和集中定位表的優(yōu)勢(shì),對(duì)倒排塊進(jìn)行管理,使得倒排索引既便于動(dòng)態(tài)維護(hù)又有利于SKIP技術(shù)下的隨機(jī)訪問,同時(shí)在數(shù)據(jù)存儲(chǔ)時(shí)采用了一定的壓縮技術(shù),以實(shí)現(xiàn)在盡量少的空間存儲(chǔ)盡量多的信息;減少了數(shù)據(jù)存儲(chǔ)空間,提高了數(shù)據(jù)索引效率。
      【專利附圖】

      【附圖說明】
      [0008]圖1為本發(fā)明實(shí)施例提供的一種高效的倒排索引結(jié)構(gòu)示意圖。
      [0009]圖2為本發(fā)明實(shí)施例提供的一種高效倒排索引組織框架圖。
      [0010]圖3為本發(fā)明實(shí)施例提供的集中定位表中倒排塊的組織架構(gòu)圖。
      【專利附圖】
      附圖
      【附圖說明】
      [0011]為解決海量信息時(shí)代數(shù)據(jù)索引、優(yōu)化問題,本發(fā)明實(shí)施例提供的高效倒排索引結(jié)構(gòu)及組織方法,從存儲(chǔ)空間和讀取時(shí)間兩方面對(duì)倒排索引進(jìn)行優(yōu)化,將倒排項(xiàng)分為記錄倒排項(xiàng)和屬性倒排項(xiàng),減少信息冗余,倒排索引以分塊方式進(jìn)行組織存儲(chǔ),綜合采用鏈表和集中定位表的優(yōu)勢(shì)進(jìn)行管理,既便于動(dòng)態(tài)維護(hù)又有利于隨機(jī)訪問,可解決倒排索引優(yōu)化問題。
      [0012]為使本發(fā)明實(shí)施例的目的、技術(shù)方法、及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖對(duì)本發(fā)明實(shí)施例提供的技術(shù)方案進(jìn)行詳細(xì)說明。
      [0013]如圖1所示為本發(fā)明實(shí)施例中的高效倒排索引結(jié)構(gòu)示意圖,檢索系統(tǒng)由詞表定位記錄倒排項(xiàng),“記錄倒排項(xiàng)”中包含“記錄號(hào)”和“鏈接器”,通過“鏈接器”定位屬性倒排項(xiàng),給出該詞在記錄中所有屬性信息,同時(shí)屬性倒排項(xiàng)還記錄了記錄之間的所有屬性信息,“屬性倒排項(xiàng)”包含“位置屬性”和“格式屬性”,其中“格式屬性”是可選內(nèi)容,“位置屬性”又包含“段落”、“句子”、“位置”,其中“段落”、“句子”是可選內(nèi)容,由此實(shí)現(xiàn)了記錄與屬性之間的分離,使得每一個(gè)記錄只需一個(gè)記錄倒排項(xiàng)即可完成對(duì)其的索引,減少了信息冗余、降低了數(shù)據(jù)存儲(chǔ)空間的同時(shí),提高了數(shù)據(jù)索引效率。
      [0014]倒排索引在文件中的組織需要考慮兩方面的因素:動(dòng)態(tài)維護(hù)和SKIP技術(shù)下的隨機(jī)訪問。需要將倒排索引進(jìn)行分塊存儲(chǔ),如圖2所示為本發(fā)明實(shí)施例中提供的一種高效倒排索引組織框架圖。將屬性倒排項(xiàng)數(shù)據(jù)塊放在記錄倒排項(xiàng)數(shù)據(jù)塊的后面,組合存儲(chǔ)在同一文件的同一倒排項(xiàng)數(shù)據(jù)塊中,構(gòu)成倒排塊。
      [0015]對(duì)倒排塊的管理分為鏈表和集中定位表兩種方式。根據(jù)對(duì)兩種方式的優(yōu)缺點(diǎn)分析,以數(shù)據(jù)庫索引優(yōu)化為切入點(diǎn),優(yōu)化后的倒排索引采用集中定位表管理,優(yōu)化后新加載的數(shù)據(jù)仍采用鏈表管理。同時(shí)考慮倒排塊大小對(duì)IO性能影響問題,將優(yōu)化后的倒排塊按記錄號(hào)進(jìn)行分頁,如圖3所示為本發(fā)明實(shí)施例中提供的集中定位表中倒排塊的組織架構(gòu)圖。設(shè)定一頁的最大容量為256,如果記錄號(hào)是32位,則低8位是記錄號(hào)偏移,而高24位則是記錄號(hào)頁碼。
      [0016]根據(jù)詞表定位記錄倒排項(xiàng),鎖定倒排項(xiàng)數(shù)據(jù)塊,根據(jù)倒排項(xiàng)數(shù)據(jù)塊中“鏈接器”信息以及記錄號(hào)降序排列的組織方式,查找相應(yīng)屬性信息和下一記錄信息,因此鏈表“鏈接器”和優(yōu)化前的記錄倒排項(xiàng)的邏輯結(jié)構(gòu)可設(shè)計(jì)為:
      倒排鏈表塊“鏈接器”的邏輯結(jié)構(gòu):
      【權(quán)利要求】
      1.一種高效倒排索引結(jié)構(gòu),其特征在于,該倒排索引由倒排項(xiàng)組成,倒排項(xiàng)被拆分成記錄倒排項(xiàng)和屬性倒排項(xiàng),由此倒排索引被分為記錄倒排索引和屬性倒排索引。
      2.根據(jù)權(quán)利要求1所述的高效倒排索引結(jié)構(gòu),其特征在于,記錄倒排索引由記錄倒排項(xiàng)組成,“記錄倒排項(xiàng)”由“記錄號(hào)”獨(dú)立形成,包括“記錄號(hào)”和“鏈接器”;“記錄號(hào)”是一個(gè)字段值或全文數(shù)據(jù)庫中的詞在數(shù)據(jù)庫中出現(xiàn)時(shí)所在的記錄;“鏈接器”的具體內(nèi)容取決于不同的組織方式,其功能是能快速定位和讀取一個(gè)詞在該記錄中的所有屬性項(xiàng)。
      3.根據(jù)權(quán)利要求1所述的高效倒排索引結(jié)構(gòu),其特征在于,屬性倒排索引由屬性倒排項(xiàng)構(gòu)成,“屬性倒排項(xiàng)”由“位置屬性”和“格式屬性”組成;“位置屬性”是全文數(shù)據(jù)中的詞在當(dāng)前記錄中出現(xiàn)的位置之一,位置屬性分為三個(gè)層次“段落、句子、位置”;“格式屬性”是全文數(shù)據(jù)中的詞在出現(xiàn)位置所具有的其它格式信息。
      4.一種高效倒排索引組織方法,其特征在于,倒排索引采用分塊方式進(jìn)行組織存儲(chǔ),倒排塊綜合采用鏈表和集中定位表進(jìn)行管理。
      5.根據(jù)權(quán)利要求4所述的高效倒排索引組織方法,其特征在于,以數(shù)據(jù)庫索引的優(yōu)化為臨界點(diǎn)選擇倒排塊的管理方式,集中定位表被看成是一個(gè)特殊的鏈表節(jié)點(diǎn),采用標(biāo)志位機(jī)制來區(qū)分。
      6.根據(jù)權(quán)利要求4所述的高效倒排索引組織方法,其特征在于,屬性倒排項(xiàng)數(shù)據(jù)塊放在記錄倒排項(xiàng)數(shù)據(jù)塊的后面,組合存儲(chǔ)在同一文件的同一倒排項(xiàng)數(shù)據(jù)塊中,簡(jiǎn)稱倒排塊。
      7.根據(jù)權(quán)利要求4和權(quán)利要求5所述的高效倒排索引組織方法,其特征在于,倒排鏈表塊由“鏈接器”和“倒排項(xiàng)數(shù)據(jù)塊”組成,“鏈接器”的基本作用是指示下一倒排塊或集中定位表的首地址,其中含I個(gè)標(biāo)志位指明下一地址指向的是倒排鏈表還是集中定位表。
      8.根據(jù)權(quán)利要求4和權(quán)·利要求5所述的高效倒排索引組織方法,其特征在于,集中定位表由“表頭”和“表項(xiàng)”組成,倒排段分塊存儲(chǔ),表項(xiàng)按記錄號(hào)進(jìn)行分頁。
      9.根據(jù)權(quán)利要求4和權(quán)利要求8所述的高效倒排索引組織方法,其特征在于,集中定位表中一個(gè)表項(xiàng)相對(duì)于一個(gè)倒排塊,每個(gè)倒排塊需含“倒排塊地址”、“最大記錄號(hào)”、“最小記錄號(hào)”和“頁碼表長(zhǎng)度”。
      10.根據(jù)權(quán)利要求9所述的高效倒排索引組織方法,其特征在于,頁碼表長(zhǎng)度用于存儲(chǔ)一個(gè)記錄號(hào)的頁碼表的長(zhǎng)度,頁碼表之后是記錄號(hào)偏移表的起始地址,“頁碼表長(zhǎng)度”域中I位標(biāo)志位,區(qū)分倒排塊是否分頁,不分頁時(shí),低位用于表示屬性偏移量,反之則表示記錄號(hào)偏移量。
      11.根據(jù)權(quán)利要求4、權(quán)利要求6和權(quán)利要求7所述的高效倒排索引組織方法,其特征在于,倒排項(xiàng)數(shù)據(jù)塊分為記錄倒排項(xiàng)數(shù)據(jù)庫和屬性倒排項(xiàng)數(shù)據(jù)庫塊,屬性倒排項(xiàng)所含子項(xiàng)包括:段落、句子、位置、格式,不同的組合方式可形成8中具體的形式,依次為:〈位置>、<句子,位置〉、〈段落,位置〉、〈段落,句子,位置〉、〈位置,格式〉、〈句子,位置,格式〉、〈段落,位置,格式〉、〈段落,句子,位置,格式〉。
      12.根據(jù)權(quán)利要求11所述的高效倒排索引組織方法,其特征在于,在倒排鏈表中,記錄倒排項(xiàng)由“記錄號(hào)”和“鏈接器”組成,一個(gè)記錄的所有屬性倒排項(xiàng)以及記錄之間的屬性倒排項(xiàng)在屬性倒排項(xiàng)數(shù)據(jù)塊中都是連續(xù)存放的,“鏈接器”的作用是指示該記錄的所有屬性倒排項(xiàng)在屬性倒排項(xiàng)數(shù)據(jù)塊中的起始位置。
      13.根據(jù)權(quán)利要求11所述的高效倒排索引組織方法,其特征在于,在集中定位表中,記錄倒排項(xiàng)在存儲(chǔ)上分為“記錄號(hào)頁碼表”表項(xiàng)和“記錄號(hào)偏移表”表項(xiàng),每個(gè)“記錄號(hào)頁碼表”存儲(chǔ)一個(gè)頁的記錄號(hào)頁碼以及所對(duì)應(yīng)的記錄號(hào)偏移表的定位信息,“記錄號(hào)偏移表”由“記錄號(hào)偏移”和“屬性偏移量”兩個(gè)域組成,在集中定位表“表項(xiàng)”的“頁碼表長(zhǎng)度”域中進(jìn)行標(biāo)記組織?!?br> 【文檔編號(hào)】G06F17/30GK103853772SQ201210511478
      【公開日】2014年6月11日 申請(qǐng)日期:2012年12月4日 優(yōu)先權(quán)日:2012年12月4日
      【發(fā)明者】王弘蔚 申請(qǐng)人:北京拓爾思信息技術(shù)股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1