一種快速構(gòu)建常用文件全文檢索工具的方法

文檔序號(hào)：6635648閱讀：339來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種快速構(gòu)建常用文件全文檢索工具的方法
【專利摘要】本發(fā)明公開一種快速構(gòu)建常用文件全文檢索工具的方法,屬于檢索工具領(lǐng)域，具體步驟為：①文檔解析模塊讀取所有的文件解析HTTP請(qǐng)求發(fā)送給中文分詞模塊；②中文分詞模塊對(duì)接收到HTTP請(qǐng)求中的屬性內(nèi)容進(jìn)行分詞；③全文索引建立模塊定制索引服務(wù)類型；④檢索模塊對(duì)檢索命令進(jìn)行解析之后，進(jìn)行相應(yīng)操作，完成檢索工具的構(gòu)建；⑤用戶提交查詢?cè)~后，檢索模塊會(huì)對(duì)查詢?cè)~進(jìn)行分詞等處理，并生成查詢請(qǐng)求,然后在索引庫中進(jìn)行查詢，并將查詢所得結(jié)果呈現(xiàn)給用戶；本發(fā)明實(shí)現(xiàn)個(gè)人和企業(yè)構(gòu)建專屬的搜索引擎，只需花費(fèi)較少的時(shí)間和精力，即可達(dá)到自身的檢索需求，輕松管理大量的內(nèi)部文件。
【專利說明】一種快速構(gòu)建常用文件全文檢索工具的方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明公開一種快速構(gòu)建檢索工具的方法，屬于檢索工具領(lǐng)域，具體地說是一種快速構(gòu)建常用文件全文檢索工具的方法。

【背景技術(shù)】
[0002]全文檢索是將存儲(chǔ)的整本書、整篇文章中的任意內(nèi)容信息查找出來的檢索。它可以根據(jù)需要獲得全文中有關(guān)章、節(jié)、段、句、詞等信息，也就是說類似于給整本書的每個(gè)字詞添加一個(gè)標(biāo)簽，也可以進(jìn)行各種統(tǒng)計(jì)和分析。Solr是一個(gè)獨(dú)立的企業(yè)級(jí)搜索應(yīng)用服務(wù)器，它對(duì)外提供類似于Web-service的API接口。用戶可以通過http請(qǐng)求，向搜索引擎服務(wù)器提交一定格式的XML文件，生成索引；也可以通過Http Get操作提出查找請(qǐng)求，并得到XML格式的返回結(jié)果。
[0003]現(xiàn)在很多的用戶的搜索需求還停留在數(shù)據(jù)庫階段，但是在搜索任務(wù)負(fù)載量很大的情況下，數(shù)據(jù)庫的性能也有局限性。而且對(duì)于大量的文件的內(nèi)容的搜索，數(shù)據(jù)庫是幾乎不可完成，或者完成過程相當(dāng)?shù)睦щy，而選擇一個(gè)成熟的開源搜索引擎作為核心，以此構(gòu)建一個(gè)可為用戶使用的檢索工具，是不錯(cuò)的選擇，但一個(gè)實(shí)用的全文搜索工具構(gòu)建十分復(fù)雜，而且基本上沒有統(tǒng)一且簡單的構(gòu)建方法，本發(fā)明提供一種快速構(gòu)建常用文件全文檢索工具的方法，基于開源搜索引擎solr的常用文件檢索工具，將文件存入搜索引擎中，對(duì)其進(jìn)行構(gòu)建全文索引，能根據(jù)搜索關(guān)鍵詞快速的檢索所有相關(guān)內(nèi)容，最后呈現(xiàn)給用戶。利用此方法，可以實(shí)現(xiàn)個(gè)人和企業(yè)構(gòu)建專屬的搜索引擎，只需花費(fèi)較少的時(shí)間和精力，即可達(dá)到自身的檢索需求,輕松管理大量的內(nèi)部文件。

【發(fā)明內(nèi)容】

[0004]本發(fā)明針對(duì)現(xiàn)有技術(shù)存在的不足和問題，提供一種快速構(gòu)建常用文件全文檢索工具的方法，適用于個(gè)人快速建立一個(gè)可檢索日積月累的繁多文件的檢索工具，更適用于企業(yè)來管理內(nèi)部大量文件,可快速檢索所需文件。
[0005]本發(fā)明一種快速構(gòu)建常用文件全文檢索工具的方法，提出的具體方案是:
一種快速構(gòu)建常用文件全文檢索工具的系統(tǒng)，基于solr實(shí)現(xiàn)，包括文檔解析模塊，中文分詞模塊，全文索引建立模塊，全文索引庫，檢索模塊；
文檔解析模塊負(fù)責(zé)解析文件；
中文分詞模塊負(fù)責(zé)運(yùn)用中文分詞算法，將文件內(nèi)容進(jìn)行全文分詞，以便建立全文索弓I ;
全文索引建立模塊負(fù)責(zé)對(duì)中文分詞模塊分詞后的詞語進(jìn)行全文索引；
全文索引庫負(fù)責(zé)數(shù)據(jù)存儲(chǔ)；
檢索模塊負(fù)責(zé)實(shí)現(xiàn)用戶的各種檢索。
[0006]一種快速構(gòu)建常用文件全文檢索工具的方法，基于solr實(shí)現(xiàn)，具體步驟為
①文檔解析模塊讀取所有的文件解析后轉(zhuǎn)化為XML格式，將每個(gè)文件解析成兩個(gè)屬性,組成HTTP請(qǐng)求發(fā)送給中文分詞模塊；
②中文分詞模塊對(duì)接收到HTTP請(qǐng)求中的屬性內(nèi)容進(jìn)行分詞，所有屬性分詞后經(jīng)過全文索引建立模塊建立索引，分詞算法可通過配置文件進(jìn)行配置；
③全文索引建立模塊定制索引服務(wù)類型，在配置文件中規(guī)劃要存儲(chǔ)的字段和要保存的字段，然后將所有建立的索引以及數(shù)據(jù)存儲(chǔ)到全文索引庫；
④檢索模塊對(duì)檢索命令進(jìn)行解析之后，從全文索引庫中獲取索引，進(jìn)行相應(yīng)的檢索、刪除、修改索引操作，完成檢索工具的構(gòu)建；
⑤用戶提交查詢?cè)~后，檢索模塊會(huì)對(duì)查詢?cè)~進(jìn)行分詞等處理，并生成查詢請(qǐng)求，然后在索引庫中進(jìn)行查詢，并將查詢所得結(jié)果呈現(xiàn)給用戶。
[0007]所述的步驟①中每個(gè)文件解析成的兩個(gè)屬性分別是文件的文件名和文件的全文內(nèi)容，其中文件名中包括文件存儲(chǔ)的絕對(duì)路徑。
[0008]所述的步驟②中全文索引建立模塊建立倒排數(shù)據(jù)結(jié)構(gòu)索引。
[0009]步驟④中檢索模塊對(duì)檢索命令進(jìn)行解析之后，還可實(shí)現(xiàn)檢索結(jié)果的排序、關(guān)鍵詞聞売顯不、檢索關(guān)鍵詞加權(quán)重。
[0010]所述的常用文件是word, pdf, txt格式的。
[0011]本發(fā)明的有益之處是:本發(fā)明基于開源搜索引擎solr的常用文件檢索工具，將文件存入搜索引擎中，對(duì)其進(jìn)行構(gòu)建全文索引，能根據(jù)搜索關(guān)鍵詞快速的檢索所有相關(guān)內(nèi)容，最后呈現(xiàn)給用戶，利用本方法，可以實(shí)現(xiàn)個(gè)人和企業(yè)構(gòu)建專屬的搜索引擎，只需花費(fèi)較少的時(shí)間和精力，即可達(dá)到自身的檢索需求，輕松管理大量的內(nèi)部文件。
[0012]【專利附圖】

【附圖說明】:
圖1一種快速構(gòu)建常用文件全文檢索工具的方法流程示意圖。

【具體實(shí)施方式】
[0013]結(jié)合附圖對(duì)本發(fā)明對(duì)進(jìn)一步闡述:
實(shí)施例1
基于搜索引擎solr，構(gòu)建一種快速構(gòu)建常用文件全文檢索工具的系統(tǒng)，包括文檔解析模塊，中文分詞模塊，全文索引建立模塊，全文索引庫，檢索模塊；中文分詞模塊，全文索引建立模塊，全文索引庫，檢索模塊基于搜索引擎solr工作；
文檔解析模塊負(fù)責(zé)解析文件；
中文分詞模塊負(fù)責(zé)運(yùn)用中文分詞算法，將文件內(nèi)容進(jìn)行全文分詞，以便建立全文索弓I ;
全文索引建立模塊負(fù)責(zé)對(duì)中文分詞模塊分詞后的詞語進(jìn)行全文索引；
全文索引庫負(fù)責(zé)數(shù)據(jù)存儲(chǔ)；
檢索模塊負(fù)責(zé)實(shí)現(xiàn)用戶的各種檢索。
[0014]一種快速構(gòu)建常用文件全文檢索工具的方法，具體步驟為
①文檔解析模塊讀取word文件解析后轉(zhuǎn)化為XML格式，將每個(gè)文件解析成兩個(gè)屬性，分別是文件的文件名和文件的全文內(nèi)容，其中文件名中包括文件存儲(chǔ)的絕對(duì)路徑，組成HTTP請(qǐng)求發(fā)送給中文分詞模塊；
②中文分詞模塊對(duì)接收到HTTP請(qǐng)求中的屬性內(nèi)容進(jìn)行分詞，所有屬性分詞后經(jīng)過全文索引建立模塊建立倒排數(shù)據(jù)結(jié)構(gòu)索引，分詞算法可通過配置文件進(jìn)行配置；
③全文索引建立模塊定制索引服務(wù)類型，在配置文件中規(guī)劃要存儲(chǔ)的字段和要保存的字段，然后將所有建立的索引以及數(shù)據(jù)存儲(chǔ)到全文索引庫；
④檢索模塊對(duì)檢索命令進(jìn)行解析之后，從全文索引庫中獲取索引，進(jìn)行相應(yīng)的檢索、刪除、修改索引操作，完成檢索工具的構(gòu)建；
⑤用戶提交查詢?cè)~后，檢索模塊會(huì)對(duì)查詢?cè)~進(jìn)行分詞等處理，并生成查詢請(qǐng)求，然后在索引庫中進(jìn)行查詢，并將查詢所得結(jié)果呈現(xiàn)給用戶。
[0015]實(shí)施例2
基于搜索引擎solr，構(gòu)建一種快速構(gòu)建常用文件全文檢索工具的系統(tǒng)，包括文檔解析模塊，中文分詞模塊，全文索引建立模塊，全文索引庫，檢索模塊；中文分詞模塊，全文索引建立模塊，全文索引庫，檢索模塊基于搜索引擎solr工作；
文檔解析模塊負(fù)責(zé)解析文件；
中文分詞模塊負(fù)責(zé)運(yùn)用中文分詞算法，將文件內(nèi)容進(jìn)行全文分詞，以便建立全文索弓I ;
全文索引建立模塊負(fù)責(zé)對(duì)中文分詞模塊分詞后的詞語進(jìn)行全文索引；
全文索引庫負(fù)責(zé)數(shù)據(jù)存儲(chǔ)；
檢索模塊負(fù)責(zé)實(shí)現(xiàn)用戶的各種檢索。
[0016]一種快速構(gòu)建常用文件全文檢索工具的方法，具體步驟為
①文檔解析模塊讀取PDF文件解析后轉(zhuǎn)化為XML格式,將每個(gè)文件解析成兩個(gè)屬性,分別是文件的文件名和文件的全文內(nèi)容，其中文件名中包括文件存儲(chǔ)的絕對(duì)路徑，組成HTTP請(qǐng)求發(fā)送給中文分詞模塊；
②中文分詞模塊對(duì)接收到HTTP請(qǐng)求中的屬性內(nèi)容進(jìn)行分詞，所有屬性分詞后經(jīng)過全文索引建立模塊建立倒排數(shù)據(jù)結(jié)構(gòu)索引，分詞算法可通過配置文件進(jìn)行配置；
③全文索引建立模塊定制索引服務(wù)類型，在配置文件中規(guī)劃要存儲(chǔ)的字段和要保存的字段，然后將所有建立的索引以及數(shù)據(jù)存儲(chǔ)到全文索引庫；
④檢索模塊對(duì)檢索命令進(jìn)行解析之后，從全文索引庫中獲取索引，進(jìn)行相應(yīng)的檢索、刪除、修改索引操作，還可實(shí)現(xiàn)檢索結(jié)果的排序、關(guān)鍵詞聞売顯不、檢索關(guān)鍵詞加權(quán)重，完成檢索工具的構(gòu)建；
⑤用戶提交查詢?cè)~后，檢索模塊會(huì)對(duì)查詢?cè)~進(jìn)行分詞等處理，并生成查詢請(qǐng)求，然后在索引庫中進(jìn)行查詢，并將查詢所得結(jié)果呈現(xiàn)給用戶。
【權(quán)利要求】
1.一種快速構(gòu)建常用文件全文檢索工具的系統(tǒng)，基于8011~實(shí)現(xiàn)，其特征是包括文檔解析模塊，中文分詞模塊，全文索引建立模塊，全文索引庫，檢索模塊；文檔解析模塊負(fù)責(zé)解析文件；中文分詞模塊負(fù)責(zé)運(yùn)用中文分詞算法，將文件內(nèi)容進(jìn)行全文分詞，以便建立全文索弓I ；全文索引建立模塊負(fù)責(zé)對(duì)中文分詞模塊分詞后的詞語進(jìn)行全文索引；全文索引庫負(fù)責(zé)數(shù)據(jù)存儲(chǔ)；檢索模塊負(fù)責(zé)實(shí)現(xiàn)用戶的各種檢索。
2.一種快速構(gòu)建常用文件全文檢索工具的方法，利用如權(quán)利要求1所述的一種快速構(gòu)建常用文件全文檢索工具的系統(tǒng)，其特征是具體步驟為 ①文檔解析模塊讀取所有的文件解析后轉(zhuǎn)化為XII格式，將每個(gè)文件解析成兩個(gè)屬性，組成肌了？請(qǐng)求發(fā)送給中文分詞模塊； ②中文分詞模塊對(duì)接收到!III？請(qǐng)求中的屬性內(nèi)容進(jìn)行分詞，所有屬性分詞后經(jīng)過全文索引建立模塊建立索引，分詞算法可通過配置文件進(jìn)行配置； ③全文索引建立模塊定制索引服務(wù)類型，在配置文件中規(guī)劃要存儲(chǔ)的字段和要保存的字段，然后將所有建立的索引以及數(shù)據(jù)存儲(chǔ)到全文索引庫； ④檢索模塊對(duì)檢索命令進(jìn)行解析之后，從全文索引庫中獲取索引，進(jìn)行相應(yīng)的檢索、刪除、修改索引操作，完成檢索工具的構(gòu)建； ⑤用戶提交查詢?cè)~后，檢索模塊會(huì)對(duì)查詢?cè)~進(jìn)行分詞等處理，并生成查詢請(qǐng)求，然后在索引庫中進(jìn)行查詢，并將查詢所得結(jié)果呈現(xiàn)給用戶。
3.根據(jù)權(quán)利要求2所述的一種快速構(gòu)建常用文件全文檢索工具的方法，其特征是所述的步驟①中每個(gè)文件解析成的兩個(gè)屬性分別是文件的文件名和文件的全文內(nèi)容，其中文件名中包括文件存儲(chǔ)的絕對(duì)路徑。
4.根據(jù)權(quán)利要求2或3所述的一種快速構(gòu)建常用文件全文檢索工具的方法，其特征是所述的步驟②中全文索引建立模塊建立倒排數(shù)據(jù)結(jié)構(gòu)索引。
5.根據(jù)權(quán)利要求4所述的一種快速構(gòu)建常用文件全文檢索工具的方法，其特征是步驟④中檢索I旲塊對(duì)檢索命令進(jìn)行解析之后，還可實(shí)現(xiàn)檢索結(jié)果的排序、關(guān)鍵詞聞売顯不、檢索關(guān)鍵詞加權(quán)重。
6.根據(jù)權(quán)利要求2或3或5任一項(xiàng)所述的一種快速構(gòu)建常用文件全文檢索工具的方法，其特征是所述的常用文件是1^x1:格式的。
【文檔編號(hào)】G06F17/30GK104391941SQ201410684418
【公開日】2015年3月4日申請(qǐng)日期:2014年11月25日優(yōu)先權(quán)日:2014年11月25日
【發(fā)明者】劉粉粉申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉粉粉;
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司;
我是此專利的發(fā)明人

上一篇：一種基于節(jié)點(diǎn)控制器fpga原型驗(yàn)證中的降頻方法
上一篇：一種會(huì)議室管理系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

企業(yè)文件管理系統(tǒng)相關(guān)技術(shù)

文檔管理系統(tǒng)功能相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種快速構(gòu)建常用文件全文檢索工具的方法