国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      構(gòu)造索引庫的方法和設(shè)備以及查詢方法

      文檔序號:6598584閱讀:227來源:國知局
      專利名稱:構(gòu)造索引庫的方法和設(shè)備以及查詢方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信息處理技術(shù),更具體地,涉及構(gòu)造索引庫的方法和設(shè)備以及利用該索引庫進(jìn)行查詢的方法。
      背景技術(shù)
      文檔信息檢索系統(tǒng)需要處理大量的文檔數(shù)據(jù),建立索引,并提供檢索服務(wù)。文檔信息檢索系統(tǒng)的性能指標(biāo)主要包括檢索的效率、準(zhǔn)確度和召回率。索引項(xiàng)的選擇是影響上述信息檢索系統(tǒng)性能指標(biāo)的一個重要因素。對于一個信息檢索系統(tǒng)而言,召回率和準(zhǔn)確度及效率是相互制約的幾個方面。例如,單字分詞方式具有較好的召回率,但其使檢索的效率以及準(zhǔn)確度受到影響。因此,現(xiàn)有的信息檢索系統(tǒng)大都采用分詞系統(tǒng),通過犧牲召回率來提高檢索的準(zhǔn)確度,但是其在大量索引項(xiàng)的情況下檢索效率有待提高。因此,目前仍然需要對信息檢索系統(tǒng)的上述性能指標(biāo)進(jìn)行改善提高。

      發(fā)明內(nèi)容
      在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。本發(fā)明的至少一個目的在于提供一種構(gòu)造索引庫的方法和設(shè)備以及利用該索引庫進(jìn)行查詢的方法,其能夠至少克服上述現(xiàn)有技術(shù)的部分缺點(diǎn)和不足,以改善提高檢索的效率。本發(fā)明的另一個目的是提供相應(yīng)的計算機(jī)程序產(chǎn)品和/或計算機(jī)可讀存儲介質(zhì)。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個實(shí)施例,提供了一種構(gòu)造索引庫的方法,包括對文檔進(jìn)行分詞處理以獲得多個詞匯;根據(jù)詞匯特征將該多個詞匯劃分為多個詞匯子集;以及針對該多個詞匯子集的每一個創(chuàng)建一個子索引庫以獲得多個子索引庫,該多個子索引庫構(gòu)成該索引庫。在該構(gòu)造索引庫的方法中,詞匯特征可選自詞匯長度、詞匯類型和詞匯頻率及其組合。在該構(gòu)造索引庫的方法中,詞匯類型可包括中文漢字、中文詞組,英文單詞、英文詞組、數(shù)字或日期。該構(gòu)造索引庫的方法還可包括設(shè)置該劃分步驟中所使用的詞匯特征。該構(gòu)造索引庫的方法還可包括設(shè)置用于該劃分步驟中的各個詞匯子集的該詞匯特征的特征值范圍。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一實(shí)施例,提供了一種利用如上所述的方法構(gòu)造的索引庫進(jìn)行查詢的方法,包括獲取查詢關(guān)鍵詞;判斷該查詢關(guān)鍵詞所屬的詞匯子集;以及在與該查詢關(guān)鍵詞所屬的詞匯子集相對應(yīng)的子索引庫中進(jìn)行查詢。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的又一實(shí)施例,提供了一種構(gòu)造索引庫的設(shè)備,包括分詞單元,被配置用于對文檔進(jìn)行分詞處理以獲得多個詞匯;分類單元,被配置用于根據(jù)詞匯特征將該多個詞匯劃分為多個詞匯子集;以及索引構(gòu)建單元,被配置用于針對該多個詞匯子集的每一個創(chuàng)建一個子索引庫以獲得多個子索引庫,該多個子索引庫構(gòu)成該索引庫。在該構(gòu)造索引庫的設(shè)備中,詞匯特征可選自詞匯長度、詞匯類型和詞匯頻率及其組合。在該構(gòu)造索引庫的設(shè)備中,詞匯類型可包括中文漢字、中文詞組,英文單詞、英文詞組、數(shù)字或日期。該構(gòu)造索引庫的設(shè)備還可包括設(shè)置單元,被配置用于設(shè)置該分類單元中所使用的詞匯特征。該設(shè)置單元還可被配置用于設(shè)置用于該分類單元中劃分的各個詞匯子集的詞匯特征的特征值范圍。依據(jù)本發(fā)明的其它實(shí)施例,還提供了相應(yīng)的計算機(jī)可讀存儲介質(zhì)和計算機(jī)程序產(chǎn)品 O根據(jù)本發(fā)明的實(shí)施例,通過根據(jù)詞匯特征將分詞處理獲得的詞匯劃分到多個詞匯子集中并分別針對每個詞匯子集建立子索引庫來構(gòu)建索引庫,從而能夠提高檢索的效率。通過以下結(jié)合附圖對本發(fā)明的最佳實(shí)施例的詳細(xì)說明,本發(fā)明的這些以及其它的優(yōu)點(diǎn)將更加明顯。


      本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進(jìn)一步舉例說明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中圖1示出了根據(jù)本發(fā)明實(shí)施例的構(gòu)造索引庫的方法的流程圖;圖2示出了根據(jù)本發(fā)明另一實(shí)施例的構(gòu)造索引庫的方法的流程圖;圖3示出了根據(jù)本發(fā)明又一實(shí)施例的構(gòu)造索引庫的方法的流程圖;圖4示出了根據(jù)本發(fā)明實(shí)施例的利用本發(fā)明構(gòu)建的索引庫進(jìn)行查詢的方法的流程的示意圖;圖5示出了根據(jù)本發(fā)明實(shí)施例的利用本發(fā)明構(gòu)建的索引庫進(jìn)行查詢的設(shè)備的示意圖;圖6示出了根據(jù)本發(fā)明實(shí)施例的構(gòu)建索引庫的設(shè)備的示意圖;圖7示出了根據(jù)本發(fā)明另一實(shí)施例的構(gòu)建索引庫的設(shè)備的示意圖;圖8示出了根據(jù)本發(fā)明實(shí)施例的利用本發(fā)明構(gòu)建的索引庫的示意圖;以及圖9示出了實(shí)現(xiàn)本發(fā)明實(shí)施例的計算機(jī)的示例性結(jié)構(gòu)的框圖。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的, 而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其他元件放大了,以
      4便有助于提高對本發(fā)明實(shí)施例的理解。
      具體實(shí)施例方式在下文中將結(jié)合附圖對本發(fā)明的示范性實(shí)施例進(jìn)行詳細(xì)描述。為了清楚和簡明起見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖和說明中僅僅描述了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了對與本發(fā)明關(guān)系不大的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。圖1是示出了根據(jù)本發(fā)明實(shí)施例的構(gòu)造索引庫的方法的流程圖。如圖1所示,根據(jù)本實(shí)施例的構(gòu)造索引庫的方法從步驟SlOl開始。在步驟SlOl中,對文檔進(jìn)行分詞處理以獲得多個詞匯。在根據(jù)本實(shí)施例的構(gòu)造索引庫的方法中,可以根據(jù)實(shí)際情況和需要使用任何已知的具體的分詞處理方法來進(jìn)行分詞處理。例如,在對于文檔中的一句話“信息檢索技術(shù)的新進(jìn)展”進(jìn)行分詞處理時,可以進(jìn)行一遍分詞而得到以下詞匯信息、檢索、技術(shù)、的、新進(jìn)展;也可以進(jìn)行三遍分詞,第一遍分詞得到以下詞匯信、息、檢、索、技、術(shù)、的、新、進(jìn)、展,第二遍分詞得到以下詞匯信息、 檢索、技術(shù)、進(jìn)展,第三遍分詞得到以下詞匯信息檢索、新進(jìn)展。由此可見,進(jìn)行多遍分詞可以得到更多的詞匯,可以提高召回率,但同時也會對檢索的效率有所影響。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以根據(jù)具體應(yīng)用的需求來靈活地選擇和設(shè)置所采取的具體的分詞處理方式,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。因此,為了說明書的簡潔起見,在此就不再對具體的分詞處理方式進(jìn)行詳細(xì)描述了。隨后,在步驟S102中,根據(jù)詞匯特征將步驟SlOl中的分詞處理所獲得的多個詞匯劃分為多個詞匯子集。在一個示例中,該詞匯特征可以選自詞匯長度(詞匯所包含的字?jǐn)?shù))、詞匯類型、 詞匯頻率及其組合。在一個示例中,該詞匯類型可以包括中文漢字、中文詞組、英文單詞、英文詞組、數(shù)字或日期等等。例如,在以詞匯長度作為劃分詞匯子集的詞匯特征的情況下,可以根據(jù)詞匯的長度特征將不同長度的詞劃分到不同的詞匯子集中,比如將單字詞劃分到單字詞子集中,將二字詞劃分到二字詞子集中,將三字詞劃分到三字詞子集中,將四字詞或多于四字的詞劃分到多字詞子集中。也可以將單字詞和二字詞劃分為第一詞匯子集中,將二字以上的詞劃分為第二詞匯子集中?;蛘?,例如,在以詞匯長度和詞匯頻率的組合作為劃分詞匯子集的詞匯特征的情況下,可以將詞匯頻率高于預(yù)定閾值的單字詞和二字詞劃分到第一詞匯子集中,將詞匯頻率高于預(yù)定閾值的二字以上的詞劃分到第二詞匯子集中,將詞匯頻率低于預(yù)定閾值的二字詞劃分到第三詞匯子集中,等等。
      或者,例如,在以詞匯類型和詞匯長度的組合作為劃分詞匯子集的詞匯特征的情況下,可以將單字的中文詞組劃分到第一詞匯子集中,將二字的中文詞組劃分到第二詞匯子集中,將三字和三字以上的中文詞組劃分到第三詞匯子集中,將英文單詞和英文詞組劃分到第四詞匯子集中,將數(shù)字或日期劃分到第五詞匯子集中,等等。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以根據(jù)具體應(yīng)用的需求來靈活地選擇和設(shè)置所采用的具體的詞匯特征,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。然后,在步驟S103中,針對步驟S102中所劃分的多個詞匯子集中的每一個創(chuàng)建一個子索引庫,以獲得多個子索引庫,該多個子索引庫構(gòu)成索引庫。通過根據(jù)本實(shí)施例的構(gòu)建索引庫的方法,對分詞處理獲得的詞匯進(jìn)行劃分,針對所劃分的不同的詞匯子集而分別創(chuàng)建相應(yīng)的子索引庫,從而使得在檢索時能夠根據(jù)檢索關(guān)鍵詞的詞匯特征而直接檢索與該詞匯特征相對應(yīng)的子索引庫,由此大大提高了檢索的效率。因此,與現(xiàn)有技術(shù)相比,根據(jù)本實(shí)施的構(gòu)建索引庫的方法可以在根據(jù)應(yīng)用需求而靈活采用現(xiàn)有的各種分詞方法的情況下提高檢索效率,改善檢索系統(tǒng)的性能。此外,由于根據(jù)本實(shí)施例的構(gòu)建索引庫的方法通過針對不同的詞匯子集而分別創(chuàng)建相應(yīng)的子索引庫而提高了檢索效率,因此使得允許在分詞處理時可以進(jìn)行多遍分詞以獲得更多的詞匯來提高召回率而不會降低檢索效率,由此進(jìn)一步改善了檢索系統(tǒng)的性能。另外,在根據(jù)本實(shí)施例的構(gòu)造索引庫的方法中,顯然可以根據(jù)實(shí)際情況和需要使用任何具體的構(gòu)建索引庫的方法來構(gòu)建子索引庫,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。在一個示例中,在針對詞匯子集而構(gòu)建每個子索引庫時,可以采用單級索引構(gòu)建方法和多級索引構(gòu)建方法來構(gòu)建單級索引和多級索引。例如,可以針對該詞匯子集中的屬于預(yù)定詞匯集(例如查詢頻率高于預(yù)定值的詞)的詞匯而構(gòu)建單級索引,并針對該詞匯子集中的不屬于該預(yù)定詞匯集的詞匯而構(gòu)建多級索引。這樣,在檢索時,對于屬于預(yù)定詞匯集的查詢關(guān)鍵詞,查詢對應(yīng)的單級索引,從而能夠提高其檢索響應(yīng)速度。同時,針對不屬于預(yù)定詞匯集的詞匯構(gòu)建多級索引,使得可以防止由于單級索引的索引項(xiàng)數(shù)目過大而導(dǎo)致的查詢效率降低,并且可以利用多級索引來支持大規(guī)模索引數(shù)據(jù)。例如,在該預(yù)定詞匯集包括高頻查詢詞的情況下,針對屬于預(yù)定的高頻查詢詞的詞匯將構(gòu)建單級索引,針對不屬于預(yù)定的高頻查詢詞的詞匯將構(gòu)建多級索引。這樣,由于高頻查詢詞通常只占詞匯總量的一小部分,因此可以充分利用單級索引提高整體檢索響應(yīng)速度。此外,例如,在該預(yù)定詞匯集包括中文詞匯集或其子集、英文單詞集或其子集、中文符號集或其子集、英文符號集或其子集、常用數(shù)字中的任意一種或多種的情況下,通過針對可枚舉的詞匯構(gòu)建單級索引,可以充分地利用單級索引來提高檢索響應(yīng)速度。考慮到計算機(jī)內(nèi)存的訪問速度要遠(yuǎn)大于硬盤的訪問速度,同時內(nèi)存容量是有限的。為了支持大規(guī)模的數(shù)據(jù)量,需要將索引存放在磁盤或其他訪問速度較慢的存儲器上。另一方面,為了獲取更高的檢索響應(yīng)時間,可以將一部分索引放在內(nèi)存或其他訪問速度較快的存儲器里。因此,對于單級索引,可以在內(nèi)存中維護(hù)所有索引項(xiàng)的列表,這樣可以進(jìn)行快速查找。另一方面,在磁盤上維護(hù)多級索引,以逐級載入的方式進(jìn)行查找。由此,結(jié)合了內(nèi)存形式的單級索引的速度優(yōu)勢和多級索引的數(shù)據(jù)容量優(yōu)勢,能夠在支持大規(guī)模檢索數(shù)據(jù)的同時合理增加內(nèi)存使用量,從而提高了整體檢索響應(yīng)速度。優(yōu)選地,可以以諸如線性表、哈希表或數(shù)組之類的線性數(shù)據(jù)結(jié)構(gòu)來構(gòu)建單級索引。 例如,可以將索引項(xiàng)詞典構(gòu)建成數(shù)組的形式,并且利用數(shù)組元素的下標(biāo)來指示該數(shù)組元素對應(yīng)的索引數(shù)據(jù)的存放地址。在一個示例中,可以將一個或多個子索引庫放在訪問速度較慢的存儲器上,將其他子索引庫放在訪問速度較慢的存儲器上,而與該子索引庫是由何種方法構(gòu)建的無關(guān)。此外,需要說明的是,雖然以上結(jié)合圖1所示的流程圖對根據(jù)本實(shí)施例的構(gòu)造索引庫的方法進(jìn)行了描述,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,圖1所示的流程圖僅僅是示例性的,而不是對本發(fā)明的范圍的限制,本領(lǐng)域技術(shù)人員完全可以根據(jù)實(shí)際需要對圖1所示的流程圖進(jìn)行變型或修改。還需要指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。圖2示出了根據(jù)本發(fā)明另一實(shí)施例的構(gòu)造索引庫的方法的流程圖。,如圖2所示,首先在步驟S201中設(shè)置用于劃分詞匯子集的詞匯特征。然后在步驟 S202中對文檔進(jìn)行分詞處理以獲得多個詞匯。隨后,在步驟S203中,根據(jù)在步驟S201中所設(shè)置的詞匯特征將步驟S202中的分詞處理所獲得的多個詞匯劃分為多個詞匯子集。最后在步驟S204中,針對步驟S203中所劃分的多個詞匯子集的每一個創(chuàng)建一個子索引庫,以獲得多個子索引庫,該多個子索引庫構(gòu)成所要創(chuàng)建的索引庫。步驟S202到S204分別與圖1中的步驟SlOl到S103類似,這里不再詳細(xì)描述。根據(jù)本實(shí)施例的構(gòu)建索引庫的方法中所使用的詞匯特征可以是根據(jù)應(yīng)用需求而靈活可變地設(shè)置的,而不是固定不變的詞匯特征。由此可以進(jìn)一步提高檢索系統(tǒng)的靈活性和適用性。圖3示出了根據(jù)本發(fā)明又一實(shí)施例的構(gòu)造索引庫的方法的流程圖。。如圖3所示,首先在步驟S301中設(shè)置用于劃分詞匯子集的詞匯特征。然后,在步驟 S302中,設(shè)置所要劃分的各個詞匯子集的詞匯特征的特征值范圍。隨后,在步驟S303中,對文檔進(jìn)行分詞處理以獲得多個詞匯。然后,在步驟S304中,根據(jù)詞匯特征將步驟S303中的分詞處理所獲得的多個詞匯劃分為多個詞匯子集。最后在步驟S305中,針對步驟S304中所劃分的多個詞匯子集的每一個創(chuàng)建一個子索引庫,以獲得多個子索引庫,該多個子索引庫構(gòu)成所要創(chuàng)建的索引庫。步驟S301,S303到S304分別與圖2中的步驟S201到S204類似,這里不再詳細(xì)描述。例如,如果在步驟S301中設(shè)置用于劃分詞匯子集的詞匯特征是詞匯長度,在步驟S302中,第一詞匯子集相對應(yīng)的詞匯特征的范圍是1-2 (也就是說第一詞匯子集包括單字詞和二字詞),與第二詞匯子集相對應(yīng)的長度特征的范圍是3 (也就是說第二詞匯子集包括三字詞),等等。因此,根據(jù)本實(shí)施例的構(gòu)建索引庫的方法中與每個詞匯子集相對應(yīng)的詞匯特征的特征值范圍也可以是根據(jù)應(yīng)用需求而靈活可變地設(shè)置的,而不是固定的特征值范圍。由此可以進(jìn)一步提高檢索系統(tǒng)的靈活性和適用性。下面對根據(jù)本發(fā)明的實(shí)施例的構(gòu)建索引庫的方法的一具體示例進(jìn)行說明。在本示例中,在步驟SlOl中進(jìn)行了分詞處理并在步驟S102中劃分了單字詞子集、 二字詞子集、三字詞子集、四字及四字以上詞子集、數(shù)字詞子集、日期詞子集的情況下,在步驟S103中,分別針對每個上述子集創(chuàng)建一個子索引庫,結(jié)果,構(gòu)建了如圖8所示的索引庫 800。
      如圖8所示,所構(gòu)建的索引庫800中包括針對單字詞子集而創(chuàng)建的子索引庫801、 針對二字詞子集而創(chuàng)建的子索引庫802、針對三字詞子集而創(chuàng)建的子索引庫803、針對四字及四字以上詞子集而創(chuàng)建的子索引庫804、針對數(shù)字詞子集而創(chuàng)建的數(shù)字子索引庫805、針對日期詞子集而創(chuàng)建的日期子索引庫806。這樣,在檢索時,例如,當(dāng)對用戶輸入的檢索內(nèi)容進(jìn)行分詞處理后所獲得的查詢關(guān)鍵詞為二字詞時,只需直接檢索針對二字詞子集而創(chuàng)建的子索引庫802 ;當(dāng)對用戶輸入的檢索內(nèi)容進(jìn)行分詞處理后所獲得的查詢關(guān)鍵詞為日期詞時,只需直接檢索針對日期詞而創(chuàng)建的日期子索引庫806;等等。由此可見,通過根據(jù)本示例的構(gòu)造索引庫的方法,能夠大大提高檢索系統(tǒng)的檢索效率。此外,由于根據(jù)本示例的構(gòu)造索引庫的方法采用了針對不同的詞匯特征的詞匯子集而分別構(gòu)建對應(yīng)的子索引庫的方式,因此使得檢索系統(tǒng)可以支持更大量的索引項(xiàng),也就是說在分詞處理中可以進(jìn)行多遍分詞獲得更多的詞匯以提高召回率,由此進(jìn)一步提高了檢索系統(tǒng)的性能。需要指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。例如,下面將說明根據(jù)本發(fā)明的實(shí)施例的構(gòu)造索引庫的方法的另一具體示例。本示例中,以詞匯長度為詞匯特征來構(gòu)建四個子索引庫。首先,根據(jù)分詞詞典中最長的中文詞匯長度(詞所包含的字?jǐn)?shù),在本示例中為7) 來設(shè)定所使用的詞匯長度特征的特征值范圍為1至7。因?yàn)?字以上的詞匯比較少,所以設(shè)定所要劃分的詞匯子集的個數(shù)k = 4。設(shè)索引項(xiàng)t的詞匯長度為lt,與第i個詞匯子集相對應(yīng)的詞匯長度特征選擇條件為A,則設(shè)置A為lt = i (1 < = i < 4) ;4 = < It < = 7(i =4)。也就是說,與第一詞匯子集相對應(yīng)的詞匯長度特征選擇條件為詞匯長度=1,與第二詞匯子集相對應(yīng)的詞匯長度特征選擇條件為詞匯長度=2,與第三詞匯子集相對應(yīng)的詞匯長度特征選擇條件為詞匯長度=3,與第四詞匯子集相對應(yīng)的詞匯長度特征選擇條件為詞匯長度=4至7。隨后,文檔被輸入,對該文檔進(jìn)行一次分詞,將獲得的所有單字劃分到第一詞匯子集中,判定當(dāng)前分詞次數(shù)未達(dá)到分詞次數(shù)閾值(在本示例中為7),則進(jìn)行二次分詞,將所得到的二字詞劃分到第二詞匯子集中,如此循環(huán),直至分析完所有單字詞到7字詞,產(chǎn)生相應(yīng)的第一詞匯子集到第四詞匯子集。然后,針對第一詞匯子集構(gòu)建子索引庫Bi,針對第二詞匯子集構(gòu)建子索引庫B2, 針對第三詞匯子集構(gòu)建子索引庫B3,針對第四詞匯子集構(gòu)建子索引庫B4,從而構(gòu)建了索引庫 B = {B1 B2, B3 B4I ο下面將說明根據(jù)本發(fā)明的實(shí)施例的構(gòu)造索引庫的方法的又一具體示例。本示例中,以詞匯長度和詞匯類型為詞匯特征來構(gòu)建如圖8所示的六個子索引庫。首先,根據(jù)分詞詞典中最長的中文詞匯長度(詞所包含的字?jǐn)?shù),在本示例中為7) 來設(shè)定所使用的詞匯長度特征的特征值范圍為1至7。設(shè)索引項(xiàng)t的詞匯長度為lt,與第i 個詞匯子集相對應(yīng)的詞匯長度特征選擇條件為&,則設(shè)置&為lt = i (1 < = i < 4) ;4 =< It < = 7(i = 4)。此外,與第五個詞匯子集相對應(yīng)的詞匯類型特征選擇條件為數(shù)字詞, 與第六個詞匯子集相對應(yīng)的詞匯類型選擇條件為日期詞。隨后,文檔被輸入,對該文檔進(jìn)行一次分詞,將獲得的所有單字劃分到第一詞匯子集中,判定當(dāng)前分詞次數(shù)未達(dá)到分詞次數(shù)閾值(在本示例中為9),則進(jìn)行二次分詞,將所得到的二字詞劃分到第二詞匯子集中,如此循環(huán),直至分析完所有單字詞到7字詞,產(chǎn)生相應(yīng)的第一詞匯子集到第四詞匯子集,隨后對該文檔進(jìn)行的兩次分詞分別產(chǎn)生相應(yīng)的第五詞匯子集(即,數(shù)字詞子集)和第六詞匯子集(即,日期詞子集)。然后,針對第一詞匯子集構(gòu)建子索引庫801,針對第二詞匯子集構(gòu)建子索引庫 802,針對第三詞匯子集構(gòu)建子索引庫803,針對第四詞匯子集構(gòu)建子索引庫804,針對第五詞匯子集構(gòu)建子索引庫805,針對第六詞匯子集構(gòu)建子索引庫806,從而構(gòu)建了索引庫800 ={801,802,803,804,805,806}。雖然以上對根據(jù)本發(fā)明的構(gòu)造索引庫的方法的多個具體示例進(jìn)行了描述,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述示例僅僅是示范性的,而不是對本發(fā)明的范圍的限制,本領(lǐng)域技術(shù)人員完全可以根據(jù)實(shí)際需要對其處理流程進(jìn)行變型或修改。例如,本領(lǐng)域的技術(shù)人員可以根據(jù)實(shí)際應(yīng)用的需求來靈活設(shè)定所使用的詞匯特征、所劃分的詞匯子集的個數(shù)、詞匯子集與詞匯特征選擇條件之間的對應(yīng)關(guān)系等等,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。上述根據(jù)本發(fā)明的實(shí)施例的構(gòu)造索引庫的方法例如可以由圖6中的構(gòu)造索引庫的設(shè)備來完成。圖6示出了根據(jù)本發(fā)明的實(shí)施例的構(gòu)造索引庫的設(shè)備的示意圖。如圖6所示,根據(jù)本發(fā)明的實(shí)施例的構(gòu)造索引庫的設(shè)備600包括分詞單元601、分類單元602和索引構(gòu)建單元603。分詞單元601被配置為對文檔進(jìn)行分詞處理以獲得多個詞匯。在根據(jù)本實(shí)施例的分詞單元601中,可以根據(jù)實(shí)際情況和需要使用任何已知的具體的分詞處理方法來進(jìn)行分詞處理。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以根據(jù)具體應(yīng)用的需求來靈活地選擇和設(shè)置所采取的具體的分詞處理方式,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。因此,為了說明書的簡潔起見,在此就不再對具體的分詞處理方式進(jìn)行詳細(xì)描述了。分類單元602被配置為根據(jù)詞匯特征將分詞單元601所獲得的多個詞匯劃分為多個詞匯子集。在一個示例中,該詞匯特征可以選自詞匯長度(詞匯所包含的字?jǐn)?shù))、詞匯類型、 詞匯頻率及其組合。在一個示例中,該詞匯類型可以包括中文漢字、中文詞組、英文單詞、英文詞組、數(shù)字或日期等等。例如,在以詞匯長度和詞匯頻率的組合作為劃分詞匯子集的詞匯特征的情況下, 可以將詞匯頻率高于預(yù)定閾值的單字詞和二字詞劃分到第一詞匯子集中,將詞匯頻率高于預(yù)定閾值的二字以上的詞劃分到第二詞匯子集中,將詞匯頻率低于預(yù)定閾值的二字詞劃分到第三詞匯子集中,等等?;蛘?,例如,在以詞匯類型和詞匯長度的組合作為劃分詞匯子集的詞匯特征的情況下,可以將單字的中文詞組劃分到第一詞匯子集中,將二字的中文詞組劃分到第二詞匯子集中,將三字和三字以上的中文詞組劃分到第三詞匯子集中,將英文單詞和英文詞組劃分到第四子集中,將數(shù)字或日期劃分到第五子集中,等等。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以根據(jù)具體應(yīng)用的需求來靈活地選擇和設(shè)置分類單元602所采用的具體的詞匯特征,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。索引構(gòu)建單元603被配置為針對分類單元602所劃分的多個詞匯子集的每一個創(chuàng)建一個子索引庫,以獲得多個子索引庫,該多個子索引庫構(gòu)成索引庫。在根據(jù)本實(shí)施例的索引構(gòu)建單元603中,可以根據(jù)實(shí)際情況和需要使用任何具體的構(gòu)建索引庫的方法來構(gòu)建子索引庫,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。在一個示例中,在針對詞匯子集而構(gòu)建每個子索引庫時,可以采用單級索引構(gòu)建方法和多級索引構(gòu)建方法來構(gòu)建單級索引和多級索引。例如,可以針對該詞匯子集中的屬于預(yù)定詞匯集(例如查詢頻率高于預(yù)定值的詞)的詞匯而構(gòu)建單級索引,并針對該詞匯子集中的不屬于該預(yù)定詞匯集的詞匯而構(gòu)建多級索引。這樣,在檢索時,對于屬于預(yù)定詞匯集的查詢關(guān)鍵詞,查詢對應(yīng)的單級索引,從而能夠提高其檢索響應(yīng)速度。同時,針對不屬于預(yù)定詞匯集的詞匯構(gòu)建多級索引,使得可以防止由于單級索引的索引項(xiàng)數(shù)目過大而導(dǎo)致的查詢效率降低,并且可以利用多級索引來支持大規(guī)模索引數(shù)據(jù)。在根據(jù)本實(shí)施例的構(gòu)建索引庫的設(shè)備600中,通過分類單元602對分詞單元601 所獲得的詞匯進(jìn)行劃分,通過索引構(gòu)建單元603針對分類單元602所劃分的不同的詞匯子集而分別創(chuàng)建相應(yīng)的子索引庫,從而使得在檢索時能夠根據(jù)檢索關(guān)鍵詞的詞匯特征而直接檢索與該詞匯特征相對應(yīng)的子索引庫,由此大大提高了檢索的效率。因此,與現(xiàn)有技術(shù)相比,根據(jù)本實(shí)施的構(gòu)建索引庫的設(shè)備600可以在根據(jù)應(yīng)用需求而靈活采用現(xiàn)有的各種分詞方法的情況下提高檢索效率,改善檢索系統(tǒng)的性能。此外,由于根據(jù)本實(shí)施例的構(gòu)建索引庫的設(shè)備600通過針對不同的詞匯子集而分別創(chuàng)建相應(yīng)的子索引庫而提高了檢索效率,因此使得允許在分詞處理時可以進(jìn)行多遍分詞以獲得更多的詞匯來提高召回率而不會降低檢索效率,由此進(jìn)一步改善了檢索系統(tǒng)的性能。圖7示出了根據(jù)本發(fā)明另一實(shí)施例的構(gòu)建索引庫的設(shè)備700的示意圖。如圖7所示,根據(jù)本發(fā)明的實(shí)施例的構(gòu)造索引庫的設(shè)備700包括分詞單元701、分類單元702、索引構(gòu)建單元703和設(shè)置單元704。分詞單元701被配置為對文檔進(jìn)行分詞處理以獲得多個詞匯。在根據(jù)本實(shí)施例的分詞單元701中,可以根據(jù)實(shí)際情況和需要使用任何已知的具體的分詞處理方法來進(jìn)行分詞處理。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以根據(jù)具體應(yīng)用的需求來靈活地選擇和設(shè)置所采取的具體的分詞處理方式,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。因此,為了說明書的簡潔起見,在此就不再對具體的分詞處理方式進(jìn)行詳細(xì)描述了。分類單元702被配置為根據(jù)詞匯特征將分詞單元701所獲得的多個詞匯劃分為多個詞匯子集。在一個示例中,,該詞匯特征可以選自詞匯長度(詞所包含的字?jǐn)?shù))、詞匯類型、詞匯頻率及其組合。該詞匯類型可以包括中文漢字、中文詞組、英文單詞、英文詞組、數(shù)字或日期等等。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以根據(jù)具體應(yīng)用的需求來靈活地選擇和設(shè)置分類單元702所采用的具體的詞匯特征,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。索引構(gòu)建單元703被配置為針對分類單元702所劃分的多個詞匯子集的每一個創(chuàng)建一個子索引庫,以獲得多個子索引庫,該多個子索引庫構(gòu)成索引庫。在根據(jù)本實(shí)施例的索引構(gòu)建單元703中,顯然可以根據(jù)實(shí)際情況和需要使用任何具體的構(gòu)建索引庫的方法來構(gòu)建子索引庫,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。設(shè)置單元704被配置為設(shè)置在分類單元702中所使用的詞匯特征。在一個示例中,,設(shè)置單元704還可被配置為設(shè)置與在分類單元702中劃分的各個詞匯子集相對應(yīng)的詞匯特征的特征值范圍。在根據(jù)本實(shí)施例的構(gòu)建索引庫的設(shè)備700中,通過分類單元702對分詞單元701 所獲得的詞匯進(jìn)行劃分,通過索引構(gòu)建單元703針對分類單元702所劃分的不同的詞匯子集而分別創(chuàng)建相應(yīng)的子索引庫,從而使得在檢索時能夠根據(jù)檢索關(guān)鍵詞的詞匯特征而直接檢索與該詞匯特征相對應(yīng)的子索引庫,由此大大提高了檢索的效率。因此,與現(xiàn)有技術(shù)相比,根據(jù)本實(shí)施的構(gòu)建索引庫的設(shè)備700可以在根據(jù)應(yīng)用需求而靈活采用現(xiàn)有的各種分詞方法的情況下提高檢索效率,改善檢索系統(tǒng)的性能。此外,由于根據(jù)本實(shí)施例的構(gòu)建索引庫的設(shè)備700通過針對不同的詞匯子集而分別創(chuàng)建相應(yīng)的子索引庫而提高了檢索效率,因此使得允許在分詞處理時可以進(jìn)行多遍分詞以獲得更多的詞匯來提高召回率而不會降低檢索效率,由此進(jìn)一步改善了檢索系統(tǒng)的性能。此外,根據(jù)本實(shí)施例的構(gòu)建索引庫的設(shè)備700通過設(shè)置單元704可以根據(jù)應(yīng)用需求而對所使用的詞匯特征進(jìn)行靈活可變地設(shè)置,而不是使用固定不變的詞匯特征。由此可以進(jìn)一步提高檢索系統(tǒng)的靈活性和適用性。此外,在一個示例中,根據(jù)本實(shí)施例的構(gòu)建索引庫的設(shè)備700中的設(shè)置單元704還可以根據(jù)應(yīng)用需要而對與分類單元702中所劃分的各個詞匯子集相對應(yīng)的詞匯特征的特征值范圍進(jìn)行靈活可變地設(shè)置。例如,可以通過設(shè)置單元704來設(shè)置與第一詞匯子集相對應(yīng)的詞匯長度特征的范圍是二字,與第二詞匯子集相對應(yīng)的詞匯長度特征的范圍是三字, 等等。也就是說,通過根據(jù)本實(shí)施例的構(gòu)建索引庫的設(shè)備700中的設(shè)置單元704,可以根據(jù)應(yīng)用需求而對與每個詞匯子集相對應(yīng)的詞匯特征的特征值范圍進(jìn)行靈活可變地設(shè)置的,而不是使用固定不變的特征值范圍。由此可以進(jìn)一步提高檢索系統(tǒng)的靈活性和適用性。通過閱讀上文所描述的根據(jù)本發(fā)明的實(shí)施例的構(gòu)造索引庫的方法的操作過程,圖 6和圖7所示的構(gòu)造索引庫的設(shè)備的上述各個部件的功能如何實(shí)現(xiàn)就變得非常清楚了,因此,為了說明書的簡潔起見,在此就不再對上述各個部件的功能如何實(shí)現(xiàn)進(jìn)行詳細(xì)描述了。此外,需要說明的是,雖然以上結(jié)合圖6和7所示的示意圖對根據(jù)本實(shí)施例的構(gòu)造索引庫的設(shè)備進(jìn)行了描述,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,圖6和7所示的示意圖僅僅是示例性的,而不是對本發(fā)明的范圍的限制。本領(lǐng)域技術(shù)人員完全可以根據(jù)實(shí)際需要對圖6和7 所示的示意圖進(jìn)行變型或更改。例如,本領(lǐng)域的技術(shù)人員完全可以根據(jù)實(shí)際檢索系統(tǒng)的性能和功能的需求來靈活設(shè)定所使用的詞匯特征、所劃分的詞匯子集的個數(shù)、詞匯子集與詞匯特征選擇條件之間的對應(yīng)關(guān)系等等,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。根據(jù)本發(fā)明的實(shí)施例,還提供了一種利用本發(fā)明的構(gòu)建索引庫的方法所構(gòu)建的索引庫來進(jìn)行查詢的方法以及相應(yīng)的設(shè)備。
      圖4示出了根據(jù)本發(fā)明實(shí)施例的利用本發(fā)明構(gòu)建的索引庫進(jìn)行查詢的方法的流程的示意圖。如圖4所示,本實(shí)施例的查詢方法從步驟S401開始。在步驟S401中,獲取查詢關(guān)鍵詞。該查詢關(guān)鍵詞可以是在對用戶輸入的查詢內(nèi)容進(jìn)行分詞處理之后所獲得的查詢關(guān)鍵詞。例如,在用戶輸入查詢內(nèi)容“信息檢索技術(shù)的新進(jìn)展”時,可以對該查詢內(nèi)容進(jìn)行分詞處理,假設(shè)得到如下詞匯信息、檢索、技術(shù)、的、新進(jìn)展。經(jīng)過上述分詞處理之后所獲得的詞匯即為將要用來檢索的查詢關(guān)鍵詞。然后,在步驟S402中,判斷步驟S401中所獲得的查詢關(guān)鍵詞所屬的詞匯子集??梢砸罁?jù)在構(gòu)建索引庫時所使用的詞匯特征和/或在構(gòu)建索引庫時所確定的詞匯特征范圍與詞匯子集之間的對應(yīng)關(guān)系來進(jìn)行該判斷。例如,在構(gòu)建索引庫時所使用的詞匯特征為詞匯長度的情況下,判斷所獲得的查詢關(guān)鍵詞的詞匯長度與哪個詞匯子集相對應(yīng),比如,二字詞與二字詞子集相對應(yīng),三字詞與三字詞子集相對應(yīng),五字詞與四字及四字以上詞子集相對應(yīng),等等。隨后,在步驟S403中,在與該查詢關(guān)鍵詞所屬的詞匯子集相對應(yīng)的子索引庫中進(jìn)行查詢。該詞匯子集與子索引庫之間的對應(yīng)關(guān)系是在構(gòu)建索引庫時確定的。例如,在步驟S402中判斷該查詢關(guān)鍵詞屬于二字詞子集的情況下,在步驟S403 中,在與二字詞子集相對應(yīng)的子索引庫中進(jìn)行查詢;或者,在步驟S402中判斷該查詢關(guān)鍵詞屬于日期詞子集的情況下,在步驟S403中,在與日期詞子集相對應(yīng)的子索引庫中進(jìn)行查詢,等等,以此類推。由上述可見,在根據(jù)本實(shí)施例的查詢方法而利用根據(jù)本發(fā)明的構(gòu)建索引庫的方法而構(gòu)建的索引庫來進(jìn)行查詢時,能夠根據(jù)查詢關(guān)鍵詞的詞匯特征而直接查詢與該詞匯特征相對應(yīng)的子索引庫,由此大大提高了檢索的效率。因此,與現(xiàn)有技術(shù)相比,根據(jù)本實(shí)施的查詢方法可以提高檢索效率,改蓋檢索系統(tǒng)的性能。此外,需要說明的是,雖然以上結(jié)合圖4所示的流程圖對根據(jù)本實(shí)施例的利用本發(fā)明構(gòu)建的索引庫進(jìn)行查詢的方法進(jìn)行了描述,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,圖4所示的流程圖僅僅是示例性的,而不是對本發(fā)明的范圍的限制,本領(lǐng)域技術(shù)人員完全可以根據(jù)實(shí)際需要對圖5所示的流程圖進(jìn)行變型或修改,其均應(yīng)在本發(fā)明要求保護(hù)的精神和范圍之內(nèi)。還需要指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。上述根據(jù)本發(fā)明的實(shí)施例的利用本發(fā)明構(gòu)造的索引庫進(jìn)行查詢的方法例如可以由圖5中的利用本發(fā)明構(gòu)建的索引庫進(jìn)行查詢的設(shè)備來完成。圖5示出了根據(jù)本發(fā)明實(shí)施例的利用本發(fā)明構(gòu)建的索引庫進(jìn)行查詢的設(shè)備500的示意圖。如圖5所示,根據(jù)本實(shí)施例的利用本發(fā)明構(gòu)建的索引庫進(jìn)行查詢的設(shè)備500包括關(guān)鍵詞獲取單元501、判定單元502和查詢單元503。關(guān)鍵詞獲取單元501被配置為獲取查詢關(guān)鍵詞。該查詢關(guān)鍵詞是在對用戶輸入的查詢內(nèi)容進(jìn)行分詞處理之后所獲得的查詢關(guān)鍵詞。例如,在用戶輸入查詢內(nèi)容“信息檢索技術(shù)的新進(jìn)展”時,可以對該查詢內(nèi)容進(jìn)行分詞處理,假設(shè)得到以下詞匯信息、檢索、技術(shù)、的、新進(jìn)展。經(jīng)過上述分詞處理之后所獲得的詞匯即為將要用來檢索的查詢關(guān)鍵詞。判定單元502被配置為判斷關(guān)鍵詞獲取單元501所獲取的查詢關(guān)鍵詞所屬的詞匯子集。依據(jù)在構(gòu)建索引庫時所使用的詞匯特征以及在構(gòu)建索引庫時所確定的詞匯特征范圍與詞匯子集之間的對應(yīng)關(guān)系來進(jìn)行該判斷。例如,在構(gòu)建索引庫時所使用的詞匯特征為詞匯長度的情況下,判斷所獲得的查詢關(guān)鍵詞的詞匯長度與哪個詞匯子集相對應(yīng),比如,二字詞與二字詞子集相對應(yīng),三字詞與三字詞子集相對應(yīng),五字詞與四字及四字以上詞子集相對應(yīng),等等。查詢單元503被配置為在與該查詢關(guān)鍵詞所屬的詞匯子集相對應(yīng)的子索引庫中進(jìn)行查詢。該詞匯子集與子索引庫之間的對應(yīng)關(guān)系是在構(gòu)建索引庫時確定的。例如,在步驟S402中判斷該查詢關(guān)鍵詞屬于二字詞子集的情況下,在步驟S403 中,在與二字詞子集相對應(yīng)的子索引庫中進(jìn)行查詢;或者,在步驟S402中判斷該查詢關(guān)鍵詞屬于日期詞子集的情況下,在步驟S403中,在與日期詞子集相對應(yīng)的子索引庫中進(jìn)行查詢,等等,以此類推。由上述可見,在使用本實(shí)施例的查詢設(shè)備500而利用根據(jù)本發(fā)明的構(gòu)建索引庫的方法而構(gòu)建的索引庫來進(jìn)行查詢時,能夠根據(jù)查詢關(guān)鍵詞的詞匯特征而直接查詢與該詞匯特征相對應(yīng)的子索引庫,由此大大提高了檢索的效率。因此,與現(xiàn)有技術(shù)相比,根據(jù)本實(shí)施的查詢設(shè)備500可以提高檢索效率,改蓋檢索系統(tǒng)的性能。通過閱讀上文所描述的根據(jù)本發(fā)明的實(shí)施例的利用本發(fā)明構(gòu)建的索引庫來進(jìn)行查詢的方法的操作過程,圖5所示的利用本發(fā)明構(gòu)建的索引庫進(jìn)行查詢的設(shè)備500的上述各個部件的功能如何實(shí)現(xiàn)就變得非常清楚了,因此,為了說明書的簡潔起見,在此就不再對上述各個部件的功能如何實(shí)現(xiàn)進(jìn)行詳細(xì)描述了。雖然已經(jīng)詳細(xì)說明了本發(fā)明及其優(yōu)點(diǎn),但是應(yīng)當(dāng)理解,在不脫離由所附的權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下,可以進(jìn)行各種變型、替代和變換。而且,根據(jù)本發(fā)明的方法和設(shè)備既可以通過硬件實(shí)現(xiàn),也可以通過軟件和固件實(shí)現(xiàn)。在通過軟件或固件實(shí)現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計算機(jī),例如圖9所示的通用計算機(jī)900安裝構(gòu)成該軟件的程序,該計算機(jī)在安裝有各種程序時,能夠執(zhí)行各種功能等等。在圖9中,中央處理單元(CPU)901根據(jù)只讀存儲器(ROM)902中存儲的程序或從存儲部分908加載到隨機(jī)存取存儲器(RAM) 903的程序執(zhí)行各種處理。在RAM 903中,也根據(jù)需要存儲當(dāng)CPU 901執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 90UROM 902和RAM 903經(jīng)由總線904彼此連接。輸入/輸出接口 905也連接到總線904。下述部件連接到輸入/輸出接口 905 輸入部分906,包括鍵盤、鼠標(biāo)等等;輸出部分907,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等等,和揚(yáng)聲器等等;存儲部分908,包括硬盤等等;以及通信部分909,包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等等。通信部分909經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器910也連接到輸入/輸出接口 905??刹鹦督橘|(zhì)911比如磁盤、 光盤、磁光盤、半導(dǎo)體存儲器等等根據(jù)需要被安裝在驅(qū)動器910上,使得從中讀出的計算機(jī)程序根據(jù)需要被安裝到存儲部分908中。
      在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)911安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲介質(zhì)不局限于圖9所示的其中存儲有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)911??刹鹦督橘|(zhì)911的例子包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器?;蛘撸鎯橘|(zhì)可以是 ROM 902、存儲部分908中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。此時,只要該系統(tǒng)或者設(shè)備具有執(zhí)行程序的功能,則本發(fā)明的實(shí)施方式不局限于程序,并且該程序也可以是任意的形式,例如,目標(biāo)程序、解釋器執(zhí)行的程序或者提供給操作系統(tǒng)的腳本程序等。另外,計算機(jī)通過連接到因特網(wǎng)上的相應(yīng)網(wǎng)站,并且將依據(jù)本發(fā)明的計算機(jī)程序代碼下載和安裝到計算機(jī)中然后執(zhí)行該程序,也可以實(shí)現(xiàn)本發(fā)明。而且,所述實(shí)施本發(fā)明的程序也可以例如采用一個或多個信號的形式。所述信號可以是可從互聯(lián)網(wǎng)站點(diǎn)下載的數(shù)據(jù)信號,或是在載波信號上提供的數(shù)據(jù)信號,或是以任何其它形式的數(shù)據(jù)信號。最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。以上雖然結(jié)合附圖詳細(xì)描述了本發(fā)明的實(shí)施例,但是應(yīng)當(dāng)明白,上面所描述的實(shí)施方式只是用于說明本發(fā)明,而并不構(gòu)成對本發(fā)明的限制。對于本領(lǐng)域的技術(shù)人員來說,可以在不偏離本發(fā)明的精神和范圍的情況下對上述實(shí)施方式作出各種修改和變更。因此,本發(fā)明的范圍僅由所附的權(quán)利要求及其等效內(nèi)容來限定。Mid附記1. 一種構(gòu)造索引庫的方法,包括對文檔進(jìn)行分詞處理以獲得多個詞匯;根據(jù)詞匯特征將所述多個詞匯劃分為多個詞匯子集;以及針對所述多個詞匯子集的每一個創(chuàng)建一個子索引庫以獲得多個子索引庫,所述多個子索引庫構(gòu)成所述索引庫。附記2.如附記1所述的方法,所述詞匯特征選自詞匯長度、詞匯類型和詞匯頻率及其組合。附記3.如附記2所述的方法,其中所述詞匯類型包括中文漢字、中文詞組,英文單詞、英文詞組、數(shù)字或日期。附記4.如附記1所述的方法,還包括設(shè)置所述劃分步驟中所使用的詞匯特征。
      附記5.如附記4所述的方法,還包括設(shè)置用于所述劃分步驟中的各個詞匯子集的所述詞匯特征的特征值范圍。附記6. —種利用如附記1-5中任一所述的方法構(gòu)造的索引庫來進(jìn)行查詢的方法, 包括獲取查詢關(guān)鍵詞;判斷所述查詢關(guān)鍵詞所屬的所述詞匯子集;以及在與所述查詢關(guān)鍵詞所屬的所述詞匯子集相對應(yīng)的子索引庫中進(jìn)行查詢。附記7. —種構(gòu)建索引庫的設(shè)備,包括分詞單元,被配置用于對文檔進(jìn)行分詞處理以獲得多個詞匯;分類單元,被配置用于根據(jù)詞匯特征將所述多個詞匯劃分為多個詞匯子集;以及索引構(gòu)建單元,被配置用于針對所述多個詞匯子集的每一個創(chuàng)建一個子索引庫以獲得多個子索引庫,所述多個子索引庫構(gòu)成所述索引庫。附記8.如附記7所述的設(shè)備,所述詞匯特征選自詞匯長度、詞匯類型和詞匯頻率及其組合。附記9.如附記8所述的設(shè)備,其中所述詞匯類型包括中文漢字、中文詞組,英文單詞、英文詞組、數(shù)字或日期。附記10.如附記7所述的設(shè)備,還包括設(shè)置單元,被配置用于設(shè)置所述分類單元中所使用的詞匯特征。附記11.如附記10所述的設(shè)備,其中所述設(shè)置單元還被配置用于設(shè)置用于所述分類單元中劃分的各個詞匯子集的所述詞匯特征的特征值范圍。
      權(quán)利要求
      1.一種構(gòu)造索引庫的方法,包括對文檔進(jìn)行分詞處理以獲得多個詞匯; 根據(jù)詞匯特征將所述多個詞匯劃分為多個詞匯子集;以及針對所述多個詞匯子集的每一個創(chuàng)建一個子索引庫以獲得多個子索引庫,所述多個子索引庫構(gòu)成所述索引庫。
      2.如權(quán)利要求1所述的方法,所述詞匯特征選自詞匯長度、詞匯類型和詞匯頻率及其組合。
      3.如權(quán)利要求2所述的方法,其中所述詞匯類型包括中文漢字、中文詞組,英文單詞、 英文詞組、數(shù)字或日期。
      4.如權(quán)利要求1所述的方法,還包括 設(shè)置所述劃分步驟中所使用的詞匯特征。
      5.如權(quán)利要求4所述的方法,還包括設(shè)置用于所述劃分步驟中的各個詞匯子集的所述詞匯特征的特征值范圍。
      6.一種利用如權(quán)利要求1-5中任一所述的方法構(gòu)造的索引庫來進(jìn)行查詢的方法,包括獲取查詢關(guān)鍵詞;判斷所述查詢關(guān)鍵詞所屬的所述詞匯子集;以及在與所述查詢關(guān)鍵詞所屬的所述詞匯子集相對應(yīng)的子索引庫中進(jìn)行查詢。
      7.—種構(gòu)建索引庫的設(shè)備,包括分詞單元,被配置用于對文檔進(jìn)行分詞處理以獲得多個詞匯; 分類單元,被配置用于根據(jù)詞匯特征將所述多個詞匯劃分為多個詞匯子集;以及索引構(gòu)建單元,被配置用于針對所述多個詞匯子集的每一個創(chuàng)建一個子索引庫以獲得多個子索引庫,所述多個子索引庫構(gòu)成所述索引庫。
      8.如權(quán)利要求7所述的設(shè)備,所述詞匯特征選自詞匯長度、詞匯類型和詞匯頻率及其組合。
      9.如權(quán)利要求8所述的設(shè)備,其中所述詞匯類型包括中文漢字、中文詞組,英文單詞、 英文詞組、數(shù)字或日期。
      10.如權(quán)利要求7所述的設(shè)備,還包括設(shè)置單元,被配置用于設(shè)置所述分類單元中所使用的詞匯特征。
      全文摘要
      本發(fā)明提供了構(gòu)造索引庫的方法和設(shè)備以及查詢方法。一種構(gòu)造索引庫的方法,包括對文檔進(jìn)行分詞處理以獲得多個詞匯;根據(jù)詞匯特征將該多個詞匯劃分為多個詞匯子集;以及針對該多個詞匯子集的每一個創(chuàng)建一個子索引庫以獲得多個子索引庫,該多個子索引庫構(gòu)成索引庫。本發(fā)明能夠提高檢索的效率。
      文檔編號G06F17/30GK102163199SQ20101011486
      公開日2011年8月24日 申請日期2010年2月24日 優(yōu)先權(quán)日2010年2月24日
      發(fā)明者于浩, 何楠, 王主龍, 王新文, 葛付江, 賈文杰, 賈曉建 申請人:富士通株式會社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1