一種快速構(gòu)建常用文件全文檢索工具的方法
【專利摘要】本發(fā)明公開一種快速構(gòu)建常用文件全文檢索工具的方法,屬于檢索工具領(lǐng)域,具體步驟為:①文檔解析模塊讀取所有的文件解析HTTP請(qǐng)求發(fā)送給中文分詞模塊;②中文分詞模塊對(duì)接收到HTTP請(qǐng)求中的屬性內(nèi)容進(jìn)行分詞;③全文索引建立模塊定制索引服務(wù)類型;④檢索模塊對(duì)檢索命令進(jìn)行解析之后,進(jìn)行相應(yīng)操作,完成檢索工具的構(gòu)建;⑤用戶提交查詢?cè)~后,檢索模塊會(huì)對(duì)查詢?cè)~進(jìn)行分詞等處理,并生成查詢請(qǐng)求,然后在索引庫中進(jìn)行查詢,并將查詢所得結(jié)果呈現(xiàn)給用戶;本發(fā)明實(shí)現(xiàn)個(gè)人和企業(yè)構(gòu)建專屬的搜索引擎,只需花費(fèi)較少的時(shí)間和精力,即可達(dá)到自身的檢索需求,輕松管理大量的內(nèi)部文件。
【專利說明】一種快速構(gòu)建常用文件全文檢索工具的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明公開一種快速構(gòu)建檢索工具的方法,屬于檢索工具領(lǐng)域,具體地說是一種快速構(gòu)建常用文件全文檢索工具的方法。
【背景技術(shù)】
[0002]全文檢索是將存儲(chǔ)的整本書、整篇文章中的任意內(nèi)容信息查找出來的檢索。它可以根據(jù)需要獲得全文中有關(guān)章、節(jié)、段、句、詞等信息,也就是說類似于給整本書的每個(gè)字詞添加一個(gè)標(biāo)簽,也可以進(jìn)行各種統(tǒng)計(jì)和分析。Solr是一個(gè)獨(dú)立的企業(yè)級(jí)搜索應(yīng)用服務(wù)器,它對(duì)外提供類似于Web-service的API接口。用戶可以通過http請(qǐng)求,向搜索引擎服務(wù)器提交一定格式的XML文件,生成索引;也可以通過Http Get操作提出查找請(qǐng)求,并得到XML格式的返回結(jié)果。
[0003]現(xiàn)在很多的用戶的搜索需求還停留在數(shù)據(jù)庫階段,但是在搜索任務(wù)負(fù)載量很大的情況下,數(shù)據(jù)庫的性能也有局限性。而且對(duì)于大量的文件的內(nèi)容的搜索,數(shù)據(jù)庫是幾乎不可完成,或者完成過程相當(dāng)?shù)睦щy,而選擇一個(gè)成熟的開源搜索引擎作為核心,以此構(gòu)建一個(gè)可為用戶使用的檢索工具,是不錯(cuò)的選擇,但一個(gè)實(shí)用的全文搜索工具構(gòu)建十分復(fù)雜,而且基本上沒有統(tǒng)一且簡單的構(gòu)建方法,本發(fā)明提供一種快速構(gòu)建常用文件全文檢索工具的方法,基于開源搜索引擎solr的常用文件檢索工具,將文件存入搜索引擎中,對(duì)其進(jìn)行構(gòu)建全文索引,能根據(jù)搜索關(guān)鍵詞快速的檢索所有相關(guān)內(nèi)容,最后呈現(xiàn)給用戶。利用此方法,可以實(shí)現(xiàn)個(gè)人和企業(yè)構(gòu)建專屬的搜索引擎,只需花費(fèi)較少的時(shí)間和精力,即可達(dá)到自身的檢索需求,輕松管理大量的內(nèi)部文件。
【發(fā)明內(nèi)容】
[0004]本發(fā)明針對(duì)現(xiàn)有技術(shù)存在的不足和問題,提供一種快速構(gòu)建常用文件全文檢索工具的方法,適用于個(gè)人快速建立一個(gè)可檢索日積月累的繁多文件的檢索工具,更適用于企業(yè)來管理內(nèi)部大量文件,可快速檢索所需文件。
[0005]本發(fā)明一種快速構(gòu)建常用文件全文檢索工具的方法,提出的具體方案是:
一種快速構(gòu)建常用文件全文檢索工具的系統(tǒng),基于solr實(shí)現(xiàn),包括文檔解析模塊,中文分詞模塊,全文索引建立模塊,全文索引庫,檢索模塊;
文檔解析模塊負(fù)責(zé)解析文件;
中文分詞模塊負(fù)責(zé)運(yùn)用中文分詞算法,將文件內(nèi)容進(jìn)行全文分詞,以便建立全文索弓I ;
全文索引建立模塊負(fù)責(zé)對(duì)中文分詞模塊分詞后的詞語進(jìn)行全文索引;
全文索引庫負(fù)責(zé)數(shù)據(jù)存儲(chǔ);
檢索模塊負(fù)責(zé)實(shí)現(xiàn)用戶的各種檢索。
[0006]一種快速構(gòu)建常用文件全文檢索工具的方法,基于solr實(shí)現(xiàn),具體步驟為
①文檔解析模塊讀取所有的文件解析后轉(zhuǎn)化為XML格式,將每個(gè)文件解析成兩個(gè)屬性,組成HTTP請(qǐng)求發(fā)送給中文分詞模塊;
②中文分詞模塊對(duì)接收到HTTP請(qǐng)求中的屬性內(nèi)容進(jìn)行分詞,所有屬性分詞后經(jīng)過全文索引建立模塊建立索引,分詞算法可通過配置文件進(jìn)行配置;
③全文索引建立模塊定制索引服務(wù)類型,在配置文件中規(guī)劃要存儲(chǔ)的字段和要保存的字段,然后將所有建立的索引以及數(shù)據(jù)存儲(chǔ)到全文索引庫;
④檢索模塊對(duì)檢索命令進(jìn)行解析之后,從全文索引庫中獲取索引,進(jìn)行相應(yīng)的檢索、刪除、修改索引操作,完成檢索工具的構(gòu)建;
⑤用戶提交查詢?cè)~后,檢索模塊會(huì)對(duì)查詢?cè)~進(jìn)行分詞等處理,并生成查詢請(qǐng)求,然后在索引庫中進(jìn)行查詢,并將查詢所得結(jié)果呈現(xiàn)給用戶。
[0007]所述的步驟①中每個(gè)文件解析成的兩個(gè)屬性分別是文件的文件名和文件的全文內(nèi)容,其中文件名中包括文件存儲(chǔ)的絕對(duì)路徑。
[0008]所述的步驟②中全文索引建立模塊建立倒排數(shù)據(jù)結(jié)構(gòu)索引。
[0009]步驟④中檢索模塊對(duì)檢索命令進(jìn)行解析之后,還可實(shí)現(xiàn)檢索結(jié)果的排序、關(guān)鍵詞聞売顯不、檢索關(guān)鍵詞加權(quán)重。
[0010]所述的常用文件是word, pdf, txt格式的。
[0011]本發(fā)明的有益之處是:本發(fā)明基于開源搜索引擎solr的常用文件檢索工具,將文件存入搜索引擎中,對(duì)其進(jìn)行構(gòu)建全文索引,能根據(jù)搜索關(guān)鍵詞快速的檢索所有相關(guān)內(nèi)容,最后呈現(xiàn)給用戶,利用本方法,可以實(shí)現(xiàn)個(gè)人和企業(yè)構(gòu)建專屬的搜索引擎,只需花費(fèi)較少的時(shí)間和精力,即可達(dá)到自身的檢索需求,輕松管理大量的內(nèi)部文件。
[0012]【專利附圖】
【附圖說明】:
圖1一種快速構(gòu)建常用文件全文檢索工具的方法流程示意圖。
【具體實(shí)施方式】
[0013]結(jié)合附圖對(duì)本發(fā)明對(duì)進(jìn)一步闡述:
實(shí)施例1
基于搜索引擎solr,構(gòu)建一種快速構(gòu)建常用文件全文檢索工具的系統(tǒng),包括文檔解析模塊,中文分詞模塊,全文索引建立模塊,全文索引庫,檢索模塊;中文分詞模塊,全文索引建立模塊,全文索引庫,檢索模塊基于搜索引擎solr工作;
文檔解析模塊負(fù)責(zé)解析文件;
中文分詞模塊負(fù)責(zé)運(yùn)用中文分詞算法,將文件內(nèi)容進(jìn)行全文分詞,以便建立全文索弓I ;
全文索引建立模塊負(fù)責(zé)對(duì)中文分詞模塊分詞后的詞語進(jìn)行全文索引;
全文索引庫負(fù)責(zé)數(shù)據(jù)存儲(chǔ);
檢索模塊負(fù)責(zé)實(shí)現(xiàn)用戶的各種檢索。
[0014]一種快速構(gòu)建常用文件全文檢索工具的方法,具體步驟為
①文檔解析模塊讀取word文件解析后轉(zhuǎn)化為XML格式,將每個(gè)文件解析成兩個(gè)屬性,分別是文件的文件名和文件的全文內(nèi)容,其中文件名中包括文件存儲(chǔ)的絕對(duì)路徑,組成HTTP請(qǐng)求發(fā)送給中文分詞模塊;
②中文分詞模塊對(duì)接收到HTTP請(qǐng)求中的屬性內(nèi)容進(jìn)行分詞,所有屬性分詞后經(jīng)過全文索引建立模塊建立倒排數(shù)據(jù)結(jié)構(gòu)索引,分詞算法可通過配置文件進(jìn)行配置;
③全文索引建立模塊定制索引服務(wù)類型,在配置文件中規(guī)劃要存儲(chǔ)的字段和要保存的字段,然后將所有建立的索引以及數(shù)據(jù)存儲(chǔ)到全文索引庫;
④檢索模塊對(duì)檢索命令進(jìn)行解析之后,從全文索引庫中獲取索引,進(jìn)行相應(yīng)的檢索、刪除、修改索引操作,完成檢索工具的構(gòu)建;
⑤用戶提交查詢?cè)~后,檢索模塊會(huì)對(duì)查詢?cè)~進(jìn)行分詞等處理,并生成查詢請(qǐng)求,然后在索引庫中進(jìn)行查詢,并將查詢所得結(jié)果呈現(xiàn)給用戶。
[0015]實(shí)施例2
基于搜索引擎solr,構(gòu)建一種快速構(gòu)建常用文件全文檢索工具的系統(tǒng),包括文檔解析模塊,中文分詞模塊,全文索引建立模塊,全文索引庫,檢索模塊;中文分詞模塊,全文索引建立模塊,全文索引庫,檢索模塊基于搜索引擎solr工作;
文檔解析模塊負(fù)責(zé)解析文件;
中文分詞模塊負(fù)責(zé)運(yùn)用中文分詞算法,將文件內(nèi)容進(jìn)行全文分詞,以便建立全文索弓I ;
全文索引建立模塊負(fù)責(zé)對(duì)中文分詞模塊分詞后的詞語進(jìn)行全文索引;
全文索引庫負(fù)責(zé)數(shù)據(jù)存儲(chǔ);
檢索模塊負(fù)責(zé)實(shí)現(xiàn)用戶的各種檢索。
[0016]一種快速構(gòu)建常用文件全文檢索工具的方法,具體步驟為
①文檔解析模塊讀取PDF文件解析后轉(zhuǎn)化為XML格式,將每個(gè)文件解析成兩個(gè)屬性,分別是文件的文件名和文件的全文內(nèi)容,其中文件名中包括文件存儲(chǔ)的絕對(duì)路徑,組成HTTP請(qǐng)求發(fā)送給中文分詞模塊;
②中文分詞模塊對(duì)接收到HTTP請(qǐng)求中的屬性內(nèi)容進(jìn)行分詞,所有屬性分詞后經(jīng)過全文索引建立模塊建立倒排數(shù)據(jù)結(jié)構(gòu)索引,分詞算法可通過配置文件進(jìn)行配置;
③全文索引建立模塊定制索引服務(wù)類型,在配置文件中規(guī)劃要存儲(chǔ)的字段和要保存的字段,然后將所有建立的索引以及數(shù)據(jù)存儲(chǔ)到全文索引庫;
④檢索模塊對(duì)檢索命令進(jìn)行解析之后,從全文索引庫中獲取索引,進(jìn)行相應(yīng)的檢索、刪除、修改索引操作,還可實(shí)現(xiàn)檢索結(jié)果的排序、關(guān)鍵詞聞売顯不、檢索關(guān)鍵詞加權(quán)重,完成檢索工具的構(gòu)建;
⑤用戶提交查詢?cè)~后,檢索模塊會(huì)對(duì)查詢?cè)~進(jìn)行分詞等處理,并生成查詢請(qǐng)求,然后在索引庫中進(jìn)行查詢,并將查詢所得結(jié)果呈現(xiàn)給用戶。
【權(quán)利要求】
1.一種快速構(gòu)建常用文件全文檢索工具的系統(tǒng),基于8011~實(shí)現(xiàn),其特征是包括文檔解析模塊,中文分詞模塊,全文索引建立模塊,全文索引庫,檢索模塊; 文檔解析模塊負(fù)責(zé)解析文件; 中文分詞模塊負(fù)責(zé)運(yùn)用中文分詞算法,將文件內(nèi)容進(jìn)行全文分詞,以便建立全文索弓I ; 全文索引建立模塊負(fù)責(zé)對(duì)中文分詞模塊分詞后的詞語進(jìn)行全文索引; 全文索引庫負(fù)責(zé)數(shù)據(jù)存儲(chǔ); 檢索模塊負(fù)責(zé)實(shí)現(xiàn)用戶的各種檢索。
2.一種快速構(gòu)建常用文件全文檢索工具的方法,利用如權(quán)利要求1所述的一種快速構(gòu)建常用文件全文檢索工具的系統(tǒng),其特征是具體步驟為 ①文檔解析模塊讀取所有的文件解析后轉(zhuǎn)化為XII格式,將每個(gè)文件解析成兩個(gè)屬性,組成肌了?請(qǐng)求發(fā)送給中文分詞模塊; ②中文分詞模塊對(duì)接收到!III?請(qǐng)求中的屬性內(nèi)容進(jìn)行分詞,所有屬性分詞后經(jīng)過全文索引建立模塊建立索引,分詞算法可通過配置文件進(jìn)行配置; ③全文索引建立模塊定制索引服務(wù)類型,在配置文件中規(guī)劃要存儲(chǔ)的字段和要保存的字段,然后將所有建立的索引以及數(shù)據(jù)存儲(chǔ)到全文索引庫; ④檢索模塊對(duì)檢索命令進(jìn)行解析之后,從全文索引庫中獲取索引,進(jìn)行相應(yīng)的檢索、刪除、修改索引操作,完成檢索工具的構(gòu)建; ⑤用戶提交查詢?cè)~后,檢索模塊會(huì)對(duì)查詢?cè)~進(jìn)行分詞等處理,并生成查詢請(qǐng)求,然后在索引庫中進(jìn)行查詢,并將查詢所得結(jié)果呈現(xiàn)給用戶。
3.根據(jù)權(quán)利要求2所述的一種快速構(gòu)建常用文件全文檢索工具的方法,其特征是所述的步驟①中每個(gè)文件解析成的兩個(gè)屬性分別是文件的文件名和文件的全文內(nèi)容,其中文件名中包括文件存儲(chǔ)的絕對(duì)路徑。
4.根據(jù)權(quán)利要求2或3所述的一種快速構(gòu)建常用文件全文檢索工具的方法,其特征是所述的步驟②中全文索引建立模塊建立倒排數(shù)據(jù)結(jié)構(gòu)索引。
5.根據(jù)權(quán)利要求4所述的一種快速構(gòu)建常用文件全文檢索工具的方法,其特征是步驟④中檢索I旲塊對(duì)檢索命令進(jìn)行解析之后,還可實(shí)現(xiàn)檢索結(jié)果的排序、關(guān)鍵詞聞売顯不、檢索關(guān)鍵詞加權(quán)重。
6.根據(jù)權(quán)利要求2或3或5任一項(xiàng)所述的一種快速構(gòu)建常用文件全文檢索工具的方法,其特征是所述的常用文件是1^x1:格式的。
【文檔編號(hào)】G06F17/30GK104391941SQ201410684418
【公開日】2015年3月4日 申請(qǐng)日期:2014年11月25日 優(yōu)先權(quán)日:2014年11月25日
【發(fā)明者】劉粉粉 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司