專利名稱:基于關(guān)鍵詞解析調(diào)度的搜索引擎方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)領(lǐng)域,特別涉及移動(dòng)終端網(wǎng)絡(luò)中基于關(guān)鍵詞解析調(diào)度的 搜索引擎方法。
背景技術(shù):
搜索引擎因其能在幾乎無限的網(wǎng)絡(luò)資源中搜索到用戶所需要的信息而備 受重視,目前的搜索引擎大都是網(wǎng)頁搜索引擎,它是將網(wǎng)頁作為最小單位, 采用的是鏈接分析的方法為用戶找到需要的信息;其中,太多的無用信息也 會(huì)伴隨著用戶需要信息產(chǎn)生出來,影響用戶有用信息的査詢速度和準(zhǔn)確性; 而目前的移動(dòng)終端用戶由于終端顯示屏幕較小,網(wǎng)絡(luò)帶寬窄,其信息的搜索 更偏重于行業(yè)性和專業(yè)性;采用傳統(tǒng)的搜索引擎,大量的無用信息影響了移 動(dòng)終端用戶的信息搜索;申請(qǐng)?zhí)枮?004100266745的中國發(fā)明專利申請(qǐng)公開 了 "一種基于關(guān)鍵字搜索的移動(dòng)互聯(lián)網(wǎng)智能信息搜索引擎",該項(xiàng)專利申請(qǐng)說 明書第3頁第2-5段表達(dá)了形成搜索引擎完整的搜索規(guī)則,其過程是要"利 用系統(tǒng)自動(dòng)分析目標(biāo)網(wǎng)站結(jié)構(gòu),采用相應(yīng)的具有相似布局的html網(wǎng)頁信息, 自動(dòng)生成內(nèi)容表達(dá)式,并根據(jù)人工決策,生成確切定位的目標(biāo)網(wǎng)元的內(nèi)容匹 配表達(dá)式,以及通過內(nèi)容匹配表達(dá)式獲得的目標(biāo)網(wǎng)元,以及目標(biāo)網(wǎng)元和欄目 分類的映射關(guān)系,形成一個(gè)網(wǎng)元映射圖,生成一個(gè)內(nèi)容獲取表達(dá)式構(gòu)成搜索 規(guī)則"。說明書第2頁倒數(shù)第1段,第3頁第6段敘述了根據(jù)上述搜索規(guī)則 建立的全文索引信息庫,其中,搜索規(guī)則和全文索引信息庫的建立繁瑣復(fù)雜。
該專利關(guān)鍵字針對(duì)的是搜索引擎的使用,并是基于因特網(wǎng)上無限大的網(wǎng) 絡(luò)資源進(jìn)行搜索,其結(jié)果是有大量的不必要的信息影響搜索結(jié)果的排序和顯 示效果、影響精確度、部分頁面無法抓取到、用戶對(duì)搜索范圍和內(nèi)容以及體 現(xiàn)的結(jié)果無法精確控制、速度慢,消耗大量的硬件資源,無法滿足移動(dòng)終端 用戶更偏重于行業(yè)性和專業(yè)性信息搜索的需要。
發(fā)明內(nèi)容
本發(fā)明的目的是對(duì)行業(yè)性和專業(yè)性信息搜索而提出的基于關(guān)鍵詞解析調(diào) 度的搜索引擎方法,本發(fā)明在信息文件索引庫的建立上,釆用了基于關(guān)鍵詞 的中文分詞創(chuàng)建含有指紋向量值的文件頁索引,提高了搜索引擎搜索的快速 和準(zhǔn)確性。
為了實(shí)現(xiàn)上述目的,本發(fā)明的一種基于關(guān)鍵詞解析調(diào)度的搜索弓I擎方法, 該方法是在網(wǎng)絡(luò)服務(wù)器中分為三層設(shè)置的一種搜索引擎結(jié)構(gòu)下實(shí)現(xiàn)的,該搜 索引擎的三層設(shè)置結(jié)構(gòu)是
一) 用于輸入搜索信息的通訊層,所述通訊層是一個(gè)網(wǎng)絡(luò)通信協(xié)議管理包; 該網(wǎng)絡(luò)通信協(xié)議管理包含有WAP、 Web、 MMS、 MSN、 SGIP、 CMPP網(wǎng)絡(luò)通信協(xié)議;
該管理包將上述協(xié)議進(jìn)行統(tǒng)一的二次封裝,實(shí)現(xiàn)系統(tǒng)內(nèi)數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一處理;
二) 用于處理搜索信息的解析調(diào)度層,該調(diào)度解析層包括行業(yè)關(guān)鍵詞庫、 行業(yè)上下文關(guān)聯(lián)庫、自然語言拆詞解析模塊和調(diào)度控制管理模塊;
三) 用于數(shù)據(jù)處理的垂直(分類)查詢數(shù)據(jù)庫層,該數(shù)據(jù)庫層包括均衡負(fù) 載服務(wù)器、數(shù)據(jù)分類服務(wù)器和數(shù)據(jù)索引服務(wù)器;其特點(diǎn)是,在所述的數(shù)據(jù)分 類服務(wù)器中設(shè)有結(jié)構(gòu)化信息結(jié)構(gòu)文件數(shù)據(jù)庫,所述的數(shù)據(jù)索引服務(wù)器包含有 用戶內(nèi)容索引建立接口、用戶內(nèi)容分詞接口和用戶數(shù)據(jù)搜索接口。
輸入的搜索信息通過網(wǎng)絡(luò)通信協(xié)議管理進(jìn)入處理搜索信息的調(diào)度解析層, 在該解析層運(yùn)用自然語言拆詞解析模塊和調(diào)度控制管理模塊找出一個(gè)關(guān)鍵 詞,在行業(yè)關(guān)鍵詞庫或行業(yè)上下文關(guān)聯(lián)庫中查找出對(duì)應(yīng)行業(yè)的行業(yè)關(guān)鍵詞; 將行業(yè)關(guān)鍵詞送入垂直查詢數(shù)據(jù)庫層,運(yùn)用均衡負(fù)載服務(wù)器、數(shù)據(jù)分類服務(wù) 器和數(shù)據(jù)索引服務(wù)器,在結(jié)構(gòu)化信息結(jié)構(gòu)文件數(shù)據(jù)庫中將所需的專業(yè)數(shù)據(jù)返 回到用戶的顯示界面。
該方法包含數(shù)據(jù)庫建立步驟和用戶網(wǎng)頁搜索步驟,其中用戶網(wǎng)頁搜索步驟
為
1. 接收用戶搜索詞,提取基于關(guān)鍵詞的中文分詞;
2. 根據(jù)提取的中文分詞在網(wǎng)頁索引中找到文件頁入口;
3. 提取該文件頁內(nèi)容或網(wǎng)頁摘要到移動(dòng)終端用戶顯示屏幕;數(shù)據(jù)庫建立步驟為
1. 遍歷所有的URL連接;
2. 從URL連接的網(wǎng)頁中提取文本文件(Html)以及Windows文件格式的文
件;
3. 對(duì)網(wǎng)頁文本文件(Html)以及Windows文件格式的文件進(jìn)行結(jié)構(gòu)化信息 抽取、分類,形成結(jié)構(gòu)化信息結(jié)構(gòu)文件存入存儲(chǔ)器;
4. 提取結(jié)構(gòu)化信息結(jié)構(gòu)文件中基于關(guān)鍵詞的中文分詞;其中,關(guān)鍵詞是在 詞庫中已建立的單字方式、二元覆蓋方式、地名、名詞性詞組成的詞庫;
5. 文檔排重,產(chǎn)生一個(gè)文件指紋向量值,具體步驟為
a,將每個(gè)文件頁的中文分詞表示成基于中文分詞的特征向量,使用 TF*IDF公式推算出的值作為每個(gè)特征項(xiàng)的權(quán)值; b,將特征項(xiàng)按照此權(quán)值排序;
c,選取前n個(gè)特征項(xiàng),然后重新按照字符排序(否則找不到對(duì)應(yīng)關(guān)系了 ); d,調(diào)用MD5算法,將每個(gè)特征項(xiàng)串轉(zhuǎn)化為一個(gè)128比特的串,作為該文件 頁的指紋向量值;
6. 創(chuàng)建含有指紋向量值的文件頁索引。 本發(fā)明對(duì)比現(xiàn)有技術(shù)的優(yōu)點(diǎn)是
1. 在信息庫中將搜索到的信息通過關(guān)鍵詞解析分門別類,建立了針對(duì)行 業(yè)性和專業(yè)性的文檔或網(wǎng)頁摘要信息數(shù)據(jù)庫,提高了搜索引擎搜索的快速和 準(zhǔn)確性;
2. 信息數(shù)據(jù)庫中建立的是一種結(jié)構(gòu)化的數(shù)據(jù)文件頁或摘要文件頁短小精 煉特別適合于移動(dòng)終端用戶顯示屏幕;
3. 信息數(shù)據(jù)庫中建立的結(jié)構(gòu)化的數(shù)據(jù)文件頁或摘要文件頁短小精煉節(jié)省 了大量的硬件資源或者說擴(kuò)大了信息的存儲(chǔ)量。
下面結(jié)合附圖和實(shí)施例對(duì)本實(shí)用新型作一詳細(xì)描述。
圖1基于關(guān)鍵詞解析調(diào)度的搜索引擎結(jié)構(gòu)示意圖2基于關(guān)鍵詞解析調(diào)度的搜索引擎方法的用戶網(wǎng)頁搜索步驟流程圖;圖3基于關(guān)鍵詞解析調(diào)度的搜索引擎方法的數(shù)據(jù)庫建立步驟流程圖。
具體實(shí)施方式
實(shí)施例1,
參見圖1、圖2和圖3,本發(fā)明用于實(shí)現(xiàn)基于關(guān)鍵詞解析調(diào)度的搜索引擎 方法是根據(jù)在網(wǎng)絡(luò)服務(wù)器中分為三層設(shè)置的一種搜索引擎結(jié)構(gòu)實(shí)現(xiàn)的,該搜 索引擎結(jié)構(gòu)包括
一) 用于輸入搜索信息的通訊層1,所述通訊層是一個(gè)網(wǎng)絡(luò)通信協(xié)議管理
包;該網(wǎng)絡(luò)通信協(xié)議管理包含有WAP、 Web、 MMS、 MSN、 SGIP、 CMPP網(wǎng)絡(luò)通信 協(xié)議;該管理包將上述協(xié)議進(jìn)行統(tǒng)一的二次封裝,實(shí)現(xiàn)系統(tǒng)內(nèi)數(shù)據(jù)結(jié)構(gòu)的統(tǒng) 一處理;
二) 用于處理搜索信息的解析調(diào)度層2,該調(diào)度解析層包括行業(yè)關(guān)鍵詞庫、 行業(yè)上下文關(guān)聯(lián)庫、自然語言拆詞解析模塊和調(diào)度控制管理模塊;
三) 用于數(shù)據(jù)處理的垂直(分類)査詢數(shù)據(jù)庫層3,該數(shù)據(jù)庫層包括均衡 負(fù)載服務(wù)器、數(shù)據(jù)分類服務(wù)器和數(shù)據(jù)索引服務(wù)器;其特點(diǎn)是,在所述的數(shù)據(jù) 分類服務(wù)器中設(shè)有結(jié)構(gòu)化信息結(jié)構(gòu)文件數(shù)據(jù)庫,所述的數(shù)據(jù)索引服務(wù)器包含 有用戶內(nèi)容索引建立接口 、用戶內(nèi)容分詞接口和用戶數(shù)據(jù)搜索接口 。
輸入的搜索信息通過網(wǎng)絡(luò)通信協(xié)議管理進(jìn)入處理搜索信息的調(diào)度解析層, 在該解析層運(yùn)用自然語言拆詞解析模塊和調(diào)度控制管理模塊找出一個(gè)關(guān)鍵 詞,在行業(yè)關(guān)鍵詞庫或行業(yè)上下文關(guān)聯(lián)庫中査找出對(duì)應(yīng)行業(yè)的行業(yè)關(guān)鍵詞; 將行業(yè)關(guān)鍵詞送入垂直査詢數(shù)據(jù)庫層,運(yùn)用均衡負(fù)載服務(wù)器、數(shù)據(jù)分類服務(wù) 器和數(shù)據(jù)索引服務(wù)器,在結(jié)構(gòu)化信息結(jié)構(gòu)文件數(shù)據(jù)庫中將所需的專業(yè)數(shù)據(jù)返 回到用戶的顯示界面。
在用于數(shù)據(jù)處理的垂直査詢數(shù)據(jù)庫層中所設(shè)的用戶內(nèi)容索引建立接口、用 戶內(nèi)容分詞接口和用戶數(shù)據(jù)搜索接口是公共接口;為第三方的應(yīng)用提供了方 便,只要按照為用戶提供的專用IP地址,按下列引導(dǎo)詞輸入相應(yīng)的數(shù)據(jù)就能 為用戶建立專用的搜索引擎,引導(dǎo)詞包括
Indexclass,索引類,提供索引接口;
Keywordclass,關(guān)鍵詞類,根據(jù)關(guān)鍵詞進(jìn)行數(shù)據(jù)索引;Pointclass,指向類,重建新的索引; Tcclass,簡體繁體轉(zhuǎn)換類;
Lucceneclass,索引類,建立索引分布式數(shù)據(jù)索引庫; 以及
Industries keyword class,行業(yè)關(guān)鍵詞庫類; Industries context,行業(yè)上下文關(guān)聯(lián)庫類;
Natural language word Segmentation and analysis class, 自然語言 拆次解析類。
基于上述搜索引擎結(jié)構(gòu) 一種基于關(guān)鍵詞解析調(diào)度的搜索引擎方法,該方 法包含數(shù)據(jù)庫建立步驟和用戶網(wǎng)頁搜索步驟,其中用戶網(wǎng)頁搜索步驟為
201. 接收用戶搜索詞,提取基于關(guān)鍵詞的中文分詞;
202. 根據(jù)提取的中文分詞在網(wǎng)頁索引中找到文件頁入口;
203. 提取該文件頁內(nèi)容或網(wǎng)頁摘要到移動(dòng)終端用戶顯示屏幕;
數(shù)據(jù)庫建立步驟為
301. 遍歷所有的URL連接;
302. 從URL連接的網(wǎng)頁中提取文本文件(Html)以及Windows文件格式的 文件;
303. 對(duì)網(wǎng)頁文本文件(Html)以及Windows文件格式的文件進(jìn)行結(jié)構(gòu)化信 息抽取、分類,形成結(jié)構(gòu)化信息結(jié)構(gòu)文件存入存儲(chǔ)器;
304. 提取結(jié)構(gòu)化信息結(jié)構(gòu)文件中基于關(guān)鍵詞的中文分詞;其中,關(guān)鍵詞是 在詞庫中已建立的單字方式、二元覆蓋方式、地名、名詞性詞組成的詞庫;
305. 文檔排重,用語義指紋生成法生成指紋(唯一)向量值;
306. 創(chuàng)建含有指紋(唯一)向量值的文件頁索引。 所述的語義指紋生成法生成指紋(唯一)向量值;具體步驟為
a,將每個(gè)文件頁的中文分詞表示成基于中文分詞的特征向量,使用 TF*IDF公式推算出的值作為每個(gè)特征項(xiàng)的權(quán)值; b,將特征項(xiàng)按照此權(quán)值排序;
c,選取前n個(gè)特征項(xiàng),然后重新按照字符排序(否則找不到對(duì)應(yīng)關(guān)系了 );d,調(diào)用MD5算法,將每個(gè)特征項(xiàng)串轉(zhuǎn)化為一個(gè)128比特的串,作為該文 件頁的指紋向量值;
所述的提取基于關(guān)鍵詞的中文分詞的方法
首先建立關(guān)鍵詞提取訓(xùn)練庫訓(xùn)練文件(X.txt)和對(duì)應(yīng)的關(guān)鍵詞文件 (x. key);
利用TF*IDF公式統(tǒng)計(jì)詞頻和詞在所有文檔中出現(xiàn)的總次數(shù); 利用位置信息開始和結(jié)束位置的詞往往更可能是關(guān)鍵詞; 利用詞性信息關(guān)鍵詞往往是名詞或者名詞結(jié)尾的詞,而介詞,副詞,動(dòng) 詞結(jié)尾的詞一般不能組成詞組;
利用詞或者字的互信息I(x,y) = 1og2( P(x,y)/ (P(x)P(y))) 需要去除StopWords
利用標(biāo)點(diǎn)符號(hào)《》和""之間的文字,例如"漢芯一號(hào)"造假案; 標(biāo)題中出現(xiàn)的詞往往更重要。
所述數(shù)據(jù)庫建立步驟3,網(wǎng)頁文本文件(Html)以及Windows文件格式的 文件進(jìn)行結(jié)構(gòu)化信息抽取、分類;其中,網(wǎng)頁文本文件(Html)文件格式的 文件進(jìn)行結(jié)構(gòu)化信息抽取、分類采用了 Htmlparser文件解析程序庫;網(wǎng)頁 Windows文件格式的文件進(jìn)行結(jié)構(gòu)化信息抽取、分類采用了其它相應(yīng)的文件解 析程序庫,例如用PDFBox來解析PDF文件,PDFBox它是一個(gè)開源軟件,可以 至lj http :〃sourceforge.net/proj ects/pdfbox/下載;
使用Htmlparser文件解析程序庫可以完成對(duì)非規(guī)范的HTML文件解析; HtmlParser主要靠Node、 AbstractNode和Tag來表達(dá)Html, Node是形成樹 結(jié)構(gòu)表示Html的基礎(chǔ),所有的數(shù)據(jù)表示都是接口 Node的實(shí)現(xiàn),Node定義了 與頁面樹結(jié)構(gòu)所表達(dá)的頁面Page對(duì)象,定義了獲取父、子、兄弟節(jié)點(diǎn)的方 法,定義了節(jié)點(diǎn)到對(duì)應(yīng)Html文本的方法,定義了該節(jié)點(diǎn)對(duì)應(yīng)的起止位置,定 義了過濾方法,定義了 Visitor訪問機(jī)制。
AbstmctNode是Node的一種具體的類實(shí)現(xiàn),起到構(gòu)成樹形結(jié)構(gòu)的作用, 除了同具體Node相關(guān)的accetp方法,toString, toHtml, toPlainTextString方 法以外,AbstractNode實(shí)現(xiàn)了大多基本的方法,使得它的子類,不用理會(huì)具體的樹操作。
Tag是具體分析的主要內(nèi)容,Tag分成composite的Tag和不能包含其他 Tag的簡單Tag兩類,其中前者的基類是CompositeTag,其子類包含 Body Tag, Div,F(xiàn)rameSetTag,OptionTag,等27個(gè)子類;而簡單Tag有BaseHrefTag、 DoctypeTag,FrameTag , ImageTag , InputTag ,JspTag , MetaTag , ProcessinglnstructionTag這八類。
步驟4中的單字方式、二元覆蓋方式以"咬死獵人的狗"為例; 單字方式(咬)(死)(獵)(人)(的)(狗); 二元覆蓋方式(咬死)(死獵)(獵人)(人的)(的狗); 步驟5中使用TFWDF公式推算出的值作為每個(gè)特征項(xiàng)的權(quán)值是這樣實(shí)現(xiàn) 的KKi,Di=FKi. DiX(Log2N/(NK,。+l))其中,F(xiàn)Ki. 。i為中文分詞Ki在文件Di中出現(xiàn)的
次數(shù),N為文件集總數(shù),NK,D為文件集中至少出現(xiàn)一次的中文分詞Ki的文件數(shù);
步驟5中使用MD5算法,將每個(gè)特征項(xiàng)串轉(zhuǎn)化為一個(gè)128比特的串;MD5 (全稱是message-digest algorithm 5)是一個(gè)公知的技術(shù),它的作用是讓 大容量信息在用數(shù)字簽名軟件簽署私人密匙前被"壓縮"為一種保密的格 式。它的典型應(yīng)用是對(duì)一段信息(message)產(chǎn)生信息摘要(message-digest), 以防止被篡改。通俗地說MD5碼就是個(gè)驗(yàn)證碼,就像我們的個(gè)人身份證一樣, 每個(gè)人的都是不一樣的。MD5碼是每個(gè)文件的唯一校驗(yàn)碼(MD5不區(qū)分大小寫, 但由于MD5碼有128位之多,所以任意信息之間具有相同MD5碼的可能性非 常之低,通常被認(rèn)為是不可能的),憑借此特性常被用于密碼的加密存儲(chǔ)、數(shù) 字簽名及文件完整性驗(yàn)證等功能。通過MD5驗(yàn)證即可檢査文件的正確性,例 如可以校驗(yàn)出下載文件中是否被捆綁有其它第三方軟件或木馬、后門(若是 校驗(yàn)結(jié)果不正確就說明原文件已被人擅自篡改)。本步驟中使用MD5算法,只 是將特征項(xiàng)轉(zhuǎn)換成唯一編碼串,標(biāo)識(shí)網(wǎng)頁或文件,不是為了加密。
權(quán)利要求
1. 基于關(guān)鍵詞解析調(diào)度的搜索引擎方法,該方法包含數(shù)據(jù)庫建立步驟和用戶網(wǎng)頁搜索步驟,其中用戶網(wǎng)頁搜索步驟為A. 接收用戶搜索詞,解析關(guān)鍵詞提取中文分詞;B. 根據(jù)提取的中文分詞在網(wǎng)頁索引中找到文件頁入口;C. 提取該文件頁內(nèi)容或網(wǎng)頁摘要到移動(dòng)終端用戶顯示屏幕;其特征在于,所述數(shù)據(jù)庫建立步驟為A. 遍歷所有的URL連接;B. 從URL連接的網(wǎng)頁中提取文本文件(Html)以及Windows文件格式的文件;C. 對(duì)網(wǎng)頁文本文件(Html)以及Windows文件格式的文件進(jìn)行結(jié)構(gòu)化信息抽取、分類,形成結(jié)構(gòu)化信息結(jié)構(gòu)文件存入存儲(chǔ)器;D. 提取結(jié)構(gòu)化信息結(jié)構(gòu)文件中基于關(guān)鍵詞的中文分詞;其中,關(guān)鍵詞是在詞庫中已建立的單字方式、二元覆蓋方式、地名、名詞性詞組成的詞庫;E. 文檔排重,產(chǎn)生一個(gè)文件指紋向量值;具體步驟為a,將每個(gè)文件頁的中文分詞表示成基于中文分詞的特征向量,使用TF*IDF公式推算出的值作為每個(gè)特征項(xiàng)的權(quán)值;b,將特征項(xiàng)按照此權(quán)值排序;c,選取前n個(gè)特征項(xiàng),然后重新按照字符排序;d,調(diào)用MD5算法,將每個(gè)特征項(xiàng)串轉(zhuǎn)化為一個(gè)128比特的串,作為該文件頁的指紋向量值;F. 創(chuàng)建含有指紋向量值的文件頁索引。
2. 根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞解析調(diào)度的搜索引擎方法,其特 征在于,所述數(shù)據(jù)庫建立步驟C,網(wǎng)頁文本文件(Html)文件格式的文件 進(jìn)行結(jié)構(gòu)化信息抽取、分類采用了 Htmlparser文件解析程序庫。
3. 根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞解析調(diào)度的搜索引擎方法,其特 征在于,所述數(shù)據(jù)庫建立步驟C, Windows文件格式的文件進(jìn)行結(jié)構(gòu)化信 息抽取、分類采用了 PDFBox來解析PDF文件。
4. 根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞解析調(diào)度的搜索引擎方法,其特 征在于,所述數(shù)據(jù)庫建立步驟E,使用TFWDF公式推算出的值作為每個(gè)特 征項(xiàng)的權(quán)值的具體方法是KKi,Di= FKi, Dix(Log2N/(NK,D+l)),其中,F(xiàn)Ki, 。i為中 文分詞Ki在文件Di中出現(xiàn)的次數(shù),N為文件集總數(shù),NK,D為文件集中至少出 現(xiàn)一次的中文分詞Ki的文件數(shù)。
全文摘要
本發(fā)明涉及移動(dòng)終端網(wǎng)絡(luò)中基于關(guān)鍵詞解析調(diào)度的搜索引擎方法。該方法包含數(shù)據(jù)庫建立步驟和用戶網(wǎng)頁搜索步驟,數(shù)據(jù)庫建立步驟為1.遍歷所有的URL連接;2.從URL連接的網(wǎng)頁中提取文本文件;3.文件進(jìn)行結(jié)構(gòu)化信息抽取存入存儲(chǔ)器;4.提取結(jié)構(gòu)化信息結(jié)構(gòu)文件中基于關(guān)鍵詞的中文分詞;5.文檔排重,產(chǎn)生一個(gè)文件指紋向量值;6.創(chuàng)建含有指紋向量值的文件頁索引。本發(fā)明對(duì)比現(xiàn)有技術(shù)的優(yōu)點(diǎn)是1.提高了搜索引擎搜索的快速和準(zhǔn)確性;2.數(shù)據(jù)文件頁或摘要文件頁短小精煉特別適合于移動(dòng)終端用戶顯示屏幕;3.信息數(shù)據(jù)庫中建立的結(jié)構(gòu)化的數(shù)據(jù)文件頁或摘要文件頁短小精煉節(jié)省了大量的硬件資源或者說擴(kuò)大了信息的存儲(chǔ)量。
文檔編號(hào)G06F17/30GK101470752SQ20071030846
公開日2009年7月1日 申請(qǐng)日期2007年12月29日 優(yōu)先權(quán)日2007年12月29日
發(fā)明者李治平 申請(qǐng)人:指點(diǎn)通(北京)科技有限公司