国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于自然語言的全文檢索系統(tǒng)的制作方法

      文檔序號:6459904閱讀:795來源:國知局
      專利名稱:基于自然語言的全文檢索系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于計算機(jī)檢索技術(shù),具體涉及一種基于自然語言的搜索引擎系 統(tǒng),該系統(tǒng)是對互聯(lián)網(wǎng)搜索引擎的改進(jìn),能夠?qū)τ脩籼峤坏牟樵儍?nèi)容進(jìn)行語義 分析和概念擴(kuò)展,通過人機(jī)交互操作,用戶可得到準(zhǔn)確豐富、清晰無歧義的查 詢結(jié)果。
      背景技術(shù)
      隨著Intemet以及相關(guān)技術(shù)的發(fā)展與成熟,人們己經(jīng)進(jìn)入信息量極其豐富 的時代。但其固有的大容量、異構(gòu)性、分布性和動態(tài)性,以及Web中大量缺乏 組織的無效數(shù)據(jù),降低了人們對豐富信息資源的利用效率,出現(xiàn)"信息過載" 和"信息迷向"的現(xiàn)象。于是搜索引擎應(yīng)運(yùn)而生,它是指對web站點(diǎn)資源和其它 網(wǎng)絡(luò)資源進(jìn)行標(biāo)引和檢索的一類信息檢索系統(tǒng)。大部分網(wǎng)絡(luò)搜索引擎都采用全 文檢索技術(shù),處理的對象是文本,能夠?qū)ξ臋n(網(wǎng)頁數(shù)據(jù))建立由字(詞)到 文檔的倒排索引,在此基礎(chǔ)上,用戶使用關(guān)鍵詞對文檔(網(wǎng)頁)進(jìn)行査詢時, 系統(tǒng)將給用戶返回包含該關(guān)鍵詞的網(wǎng)頁。目前的搜索引擎都是基于關(guān)鍵詞匹配的檢索,但由于詞匯的歧義、查詢條 件和文章選擇表達(dá)某一主題詞匯的不匹配,使檢索系統(tǒng)不能理解查詢條件的語 義而進(jìn)行基于語義的搜索。即使文檔中的詞與査詢詞表達(dá)同一概念,卻會因?yàn)?字面形式不匹配而無法被檢索到,如"計算機(jī)"與"電腦"。這就要求具備檢索技 巧,以詞組或短語形式表達(dá)檢索請求,從而對普通用戶造成一定障礙。這樣, 政府、互聯(lián)網(wǎng)協(xié)會和社會公眾就需要耗費(fèi)人力、財力和時間培訓(xùn)檢索技巧。另 外一些不良網(wǎng)絡(luò)信息的提供者采取了特定技術(shù)回避某些敏感詞匯,改變其字面形式,用同義詞、近義詞來替代,從而輕易逃過信息過濾。因此研究基于自然 語言理解的信息搜索技術(shù)對政府、互聯(lián)網(wǎng)協(xié)會和社會公眾使用搜索引擎進(jìn)行網(wǎng) 絡(luò)信息內(nèi)容監(jiān)管是非常有幫助和必要的。傳統(tǒng)的搜索引擎所存在"文海撈針"和"信息丟失"的問題,究其實(shí)質(zhì)在于搜 索引擎缺乏對知識進(jìn)行處理的能力和理解知識的能力,對要檢索的信息僅僅 采用某類檢索模型到預(yù)先建立好的索引文件中去檢索。詞的內(nèi)在信息負(fù)載太小, 把它作為信息檢索的唯一入口,必將帶來包括返回信息過多或信息丟失等問 題。為了解決這些問題,提高信息檢索的效率,檢索系統(tǒng)開始利用語義技術(shù)、 語義網(wǎng)檢索技術(shù)和知識處理技術(shù),促進(jìn)檢索系統(tǒng)向智能化方向發(fā)展。利用語義 知識詞典和中文自然語言的處理技術(shù)解決詞的概念擴(kuò)展問題,把搜索引擎從基 于關(guān)鍵字層面的檢索提高到基于概念(知識)層面的檢索上來,從概念意義上 理解用戶的檢索請求是實(shí)現(xiàn)基于語義的信息檢索的一個突破點(diǎn)。發(fā)明內(nèi)容本發(fā)明的目的在于提供基于自然語言的全文檢索系統(tǒng),該系統(tǒng)不僅能夠?qū)?用戶直接輸入的査詢內(nèi)容進(jìn)行信息檢索,還能夠?qū)Σ樵儍?nèi)容進(jìn)行語義分析和概 念擴(kuò)展,具有查全率和智能化程度高的特點(diǎn)。本發(fā)明所述的基于自然語言理解的全文檢索系統(tǒng),其特征在于該系統(tǒng)包 括數(shù)據(jù)庫服務(wù)器、信息接收判斷模塊、自然語言處理模塊、檢索模塊、索引模 塊、索引庫和結(jié)果集處理模塊;數(shù)據(jù)庫服務(wù)器用于存儲知識數(shù)據(jù)詞典,規(guī)則庫、文本文件集和索引庫以及 操作信息;為自然語言處理模塊提供數(shù)據(jù)資源和管理服務(wù),為索引模塊提供純 文本文件;信息接收判斷模塊用于接收用戶輸入的檢索信息并根據(jù)用戶選擇為系統(tǒng) 中的自然語言處理模塊部署任務(wù),或者直接請求檢索模塊進(jìn)行搜索服務(wù);自然語言處理模塊依賴于數(shù)據(jù)庫服務(wù)器提供的知識數(shù)據(jù)詞典和規(guī)則庫,并 從信息接收判斷模塊獲得部署的任務(wù);自然語言處理模塊根據(jù)部署任務(wù)選擇下述三種方式之一進(jìn)行語言處理第 一種方式針對短句查詢,通過語義分析與自動切分相結(jié)合的分詞處理,分割出 査詢詞傳給檢索模塊進(jìn)行搜索;第二種方式針對詞語査詢,依據(jù)知網(wǎng)的規(guī)則把 査詢詞從概念上擴(kuò)展成對應(yīng)的同義詞、近義詞,通過概念擴(kuò)展及同義近義詞相 似度算法抽取部分?jǐn)U展詞或接收用戶選擇的擴(kuò)展詞,把查詢詞和限定的擴(kuò)展詞 一起作為査詢條件傳給檢索模塊進(jìn)行搜索;第三種方式是將上述二種方式結(jié) 合,把綜合處理后的查詢內(nèi)容提交給檢索模塊;檢索模塊為用戶提供搜索引擎的使用界面,并提供完備的搜索服務(wù);檢索 模塊負(fù)責(zé)接收信息接收判斷模塊的指令和自然語言處理模塊遞交的處理結(jié)果, 根據(jù)查詢語句在索引庫中進(jìn)行查詢匹配,返回和査詢語句匹配的所有文檔信 息,即結(jié)果集;根據(jù)關(guān)鍵詞和擴(kuò)展詞在文檔中的集中程度對結(jié)果集進(jìn)行排序處 理,將排序后的結(jié)果集交給結(jié)果集處理模塊處理;索引模塊用于接收數(shù)據(jù)庫服務(wù)器提供的純文本文件的內(nèi)容和相關(guān)信息,對 文本內(nèi)容、標(biāo)題和自定義信息處理得到索引詞,利用索引詞和文檔相關(guān)信息建立索引庫;索引庫用于存儲由索引模塊對文本文件建立的索引;索引庫還根據(jù)檢索模 塊提交的查詢請求在索引中進(jìn)行快速檢索和排序,并返回檢索模塊對應(yīng)的結(jié) 果;結(jié)果集處理模塊用于接收來自檢索模塊的結(jié)果集,并根據(jù)索引庫的信息建 立結(jié)果集的文摘信息和快照信息,并對返回結(jié)果進(jìn)行反顯、回顯、分頁處理并 將用戶査看快照信息的記錄存儲于數(shù)據(jù)庫中。本發(fā)明系統(tǒng)針對當(dāng)前搜索引擎智能化水平較低的情況提出了兩種解決策 略——詞語加權(quán)結(jié)合句法分析策略和基于知網(wǎng)數(shù)據(jù)詞典的擴(kuò)展查詢詞策略。部署后的系統(tǒng)將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面, 對知識有一定的理解和處理能力。本發(fā)明系統(tǒng)具有信息服務(wù)智能化、人性化的 特征,允許檢索者采用自然語言進(jìn)行信息檢索,在交互操作模式下,可以加入 用戶選擇行為,從而提供更方便、更確切的搜索服務(wù)。具體而言,本發(fā)明具有 如下優(yōu)點(diǎn)(1) 査全率高該系統(tǒng)利用語義知識詞典中對詞語的語法標(biāo)注,擴(kuò)展出 與查詢詞具有同一概念的一組詞語,這些詞語在詞法約束下構(gòu)成了同義或近義 關(guān)系,實(shí)現(xiàn)了從詞到概念的擴(kuò)展,從而提高了檢索的召回率(Recall),即查全率。利用概念擴(kuò)展式檢索取代關(guān)鍵詞匹配式檢索還能夠有效地避免了表達(dá)差異 帶來的影響一。例如, 一個概念可能有不同表達(dá)方式,每個用戶由于習(xí)慣在搜 索時使用的關(guān)鍵字是不一樣的,于是造成返回結(jié)果不一致。(2) 執(zhí)行效率高本系統(tǒng)用于純文本的全文信息檢索,因而要求有較高的執(zhí)行效率。本系統(tǒng)采用詞語加權(quán)結(jié)合句法分析策略,對輸入的內(nèi)容分析后抽 取核心成分(句子的中心詞),以簡潔的形式提交給檢索模塊并在盡可能包含 所有有意義的詞的前提條件下盡量減少索引量。此外,在結(jié)果集處理時,系統(tǒng) 對這些檢索到的信息進(jìn)行優(yōu)化排序,使用戶盡快地得到有用的信息。(3) 智能化程度高通過語義分析,該系統(tǒng)能抽取出查詢語句的中心詞, 再通過對中心詞的概念擴(kuò)展,大多數(shù)情況下能反映查詢關(guān)鍵詞的應(yīng)用場景以及 描述其語境上下文??梢砸龑?dǎo)用戶確立自己的査詢意圖,有助于用戶界定要査 詢的具體領(lǐng)域,實(shí)現(xiàn)了對原查詢內(nèi)容的補(bǔ)充和優(yōu)化。最終檢索出理想的結(jié)果, 達(dá)到用戶的檢索目的。


      圖l是本發(fā)明系統(tǒng)的體系結(jié)構(gòu)圖。 圖2是本發(fā)明系統(tǒng)的結(jié)構(gòu)示意圖。 圖3是信息接收判斷模塊的流程圖。圖4是自然語言處理模塊中語義分析流程圖。 圖5是自然語言處理模塊中概念擴(kuò)展流程圖。 圖6是檢索模塊的流程圖。 圖7是結(jié)果集處理模塊的流程圖。
      具體實(shí)施方式
      下面結(jié)合附圖和實(shí)例對本發(fā)明作進(jìn)一步詳細(xì)的說明。如圖1所示,本發(fā)明提供的全文檢索系統(tǒng)包括數(shù)據(jù)庫服務(wù)器100、信息接收 判斷模塊200、自然語言處理模塊300、檢索模塊400、索引模塊500、索引庫600 和結(jié)果集處理模塊700。數(shù)據(jù)庫服務(wù)器IOO用于存儲知識數(shù)據(jù)詞典,規(guī)則庫、文本文件集索和引庫 600以及操作信息。主要功能包括為自然語言處理模塊300提供數(shù)據(jù)資源和 管理服務(wù),為索引模塊500提供純文本文件。本系統(tǒng)可以采用任何商用數(shù)據(jù)庫 實(shí)現(xiàn)資源描述信息的保存。信息接收判斷模塊200用于接收用戶輸入的檢索信息并根據(jù)用戶的選擇為 系統(tǒng)中的自然語言處理模塊300部署任務(wù),或者直接請求檢索模塊400進(jìn)行搜索 服務(wù),例如用戶輸入查詢內(nèi)容后,如果未勾選任何選項,在檢索時則跳過自 然語言處理模塊300,不對査詢內(nèi)容做任何處理而直接由檢索模塊400進(jìn)^f亍檢 索;用戶如果選擇語義分析、概念擴(kuò)展中某項功能或兩種功能組合,信息接收 判斷模塊200則根據(jù)要求進(jìn)行相應(yīng)的部署。如圖3所示,信息接收判斷模塊200的處理流程為(l)用戶輸入檢索信息, 根據(jù)需要選擇語義分析或者概念擴(kuò)展中某項功能或兩種功能組合,提交查詢;(2)系統(tǒng)針對用戶的選擇調(diào)用相應(yīng)的功能模塊;(3)如果用戶沒有選擇任何功能模塊,系統(tǒng)自動將查詢內(nèi)容遞交給檢索模塊400。自然語言處理模塊300依賴于數(shù)據(jù)庫服務(wù)器100提供的知識數(shù)據(jù)詞典和規(guī) 則庫,并從信息接收判斷模塊200獲得部署的任務(wù)。根據(jù)部署任務(wù)遵循下述三種方式之一進(jìn)行語言處理第一種方式是針對檢索內(nèi)容為短句的情況,通過語 義分析與自動切分相結(jié)合的分詞處理,抽取出若干個查詢詞并傳給檢索模塊 400進(jìn)行搜索;第二種方式是針對檢索內(nèi)容為單詞的情況,依據(jù)知網(wǎng)的規(guī)則把 查詢詞在概念上擴(kuò)展成對應(yīng)的同義詞、近義詞,依據(jù)同義近義詞相似度算法抽 取部分?jǐn)U展詞或接收用戶選擇的擴(kuò)展詞做為查詢詞;第三種方式是將兩種功能 結(jié)合,具體結(jié)合過程為首先對檢索內(nèi)容進(jìn)行語義分析與自動切分相結(jié)合的分 詞處理,然后將分割出的查詢詞在概念上擴(kuò)展成對應(yīng)的同義詞、近義詞或者上 下位詞,依據(jù)相似度優(yōu)先算法抽取部分?jǐn)U展詞或接收用戶選擇的擴(kuò)展詞,最后 把査詢詞和限定的擴(kuò)展詞一起作為查詢條件傳給檢索模塊400;檢索模塊400為用戶提供搜索引擎的使用界面和完備的搜索服務(wù)。檢索模塊400負(fù)責(zé)接收信息接收判斷模塊200的指令和自然語言處理模塊300遞交的處 理結(jié)果,對查詢內(nèi)容在索引庫600中進(jìn)行查詢匹配,返回和查詢內(nèi)容匹配的所 有文檔信息(稱為結(jié)果集),再依據(jù)Lucence的文檔得分算法(如果用戶選擇了 概念擴(kuò)展功能,將會依據(jù)查詢詞與擴(kuò)展詞之間的語義相似度),對返回的所有 文檔進(jìn)行排序,最后將排序后的結(jié)果集交給結(jié)果集處理模塊700;索引模塊500用于接收數(shù)據(jù)庫服務(wù)器100提供的純文本文件的內(nèi)容和相關(guān) 信息,對文本內(nèi)容、標(biāo)題和自定義信息處理得到索引詞,利用索引詞和文檔相 關(guān)信息建立索引庫600;索引庫600用于存儲由索引模塊500對文本文件建立的索引。此外,索引庫 600還根據(jù)檢索模塊400提交的查詢請求在索引中進(jìn)行快速檢索和排序,并返回 檢索模塊400對應(yīng)的結(jié)果;結(jié)果集處理模塊700用于接收來自檢索模塊400的結(jié)果集,并根據(jù)索引庫 600的信息建立結(jié)果集的文摘信息和快照信息,并對返回結(jié)果進(jìn)行反顯、回顯、 分頁處理并將用戶查看快照信息的記錄存儲于數(shù)據(jù)庫100中。下面分別舉例對自然語言處理模塊300、檢索模塊400和結(jié)果集處理模塊 700作進(jìn)一步詳細(xì)的說明。如圖2所示,自然語言處理模塊300包括語義分析模塊310、概念擴(kuò)展模塊 320和邏輯組合模塊330。語義分析模塊310采用語法分詞和語義分詞相結(jié)合的思想對用戶輸入的句 子切分,再通過句法分析得到句法結(jié)構(gòu)樹,最后基于詞語加權(quán)算法分析句子中 各個詞的權(quán)值以顯示其在句子中的重要性。該模塊涉及到的分詞算法的基本思想是事先建立詞典。假設(shè)詞典中的最 長詞條所含漢字個數(shù)為i,則取被處理文本當(dāng)前字符串序列中的前i個字作為匹 配字段,査找詞典,若詞典中有這樣一個i字詞,則匹配成功,匹配字段作為 一個詞被切分出來;如果詞典中找不到這樣的一個i字詞,則匹配失敗,匹配 字段去掉最后一個字,剩下的字作為新的匹配字段,再進(jìn)行匹配,如此進(jìn)行下 去,直到匹配成功為止。假定詞典中最長的詞由MAXLEN個字組成,句子長度為LEN (句子長度 可以用函數(shù)求出,在此不加介紹)。數(shù)組S[N-1]存放長度為N的句子,i, j, k,pOSition為變量;wik表示S[i]到S[wik+i]組成一個分詞單位;dik是wik所表示的分詞單位的屬性,如它在詞典中的位置、詞性等;函數(shù)match(S[i] ,S[i+j])判斷 字串S[i] S[i+j]是否為詞。 算法如下Segment (S[O],S[LEN-l]) { 〃對句子進(jìn)行切分 i=0;While i<LEN{ k=0;for(j=MAXLEN-l ;j〉=0;j—){if(i+j)<Len and (match(S[i] ,S[i+j]) ) { 〃判斷字串S[i] ,S[i+j] 5是否 超出句子尾,是否為詞 wik=j; k++;<formula>formula see original document page 12</formula>句法分析是在已有規(guī)則庫的基礎(chǔ)上,結(jié)合某些特殊連詞,例如"因?yàn)?、"并 且"等,通過自動機(jī)的方法實(shí)現(xiàn)對詞性的分析,得到句子的結(jié)構(gòu)關(guān)系,并借助 樹狀方式顯示出來。分析出來的結(jié)果反映短語內(nèi)部結(jié)構(gòu)關(guān)系和短語功能類型。 短語結(jié)構(gòu)關(guān)系的類型有主謂、述賓、狀中、定中、述補(bǔ)、并列、介賓等;短 語的功能類型有名詞性短語、動詞性短語、形容詞性短語、副詞性短語、介 詞短語。詞語加權(quán)算法是在句法分析的結(jié)果——句法結(jié)構(gòu)樹的基礎(chǔ)上,給各個詞賦 予不同權(quán)值。其主要思想是利用句法結(jié)構(gòu)樹得到句子的中心謂語,然后結(jié)合 中心詞分析其余句子成分,給不同詞性的詞賦予不同的權(quán)值并去除停用詞,如 代詞、連接詞等。賦權(quán)值遵循的規(guī)則為名詞權(quán)值>形容詞權(quán)值>動詞權(quán)值。 詞語加權(quán)結(jié)束后對權(quán)值排序,并根據(jù)具體情況設(shè)定一個閥值,將權(quán)值低于閥值 的詞語除去,而將權(quán)值高于閥值的詞語返回系統(tǒng)。如圖4所示,語義分析模塊310的工作流程為(1)用戶選擇語義分析功能 后,該模塊對用戶輸入的內(nèi)容進(jìn)行語法分析和語義分析;(3)如果分析成功, (用戶輸入的查詢內(nèi)容被分割成能反映句子結(jié)構(gòu)關(guān)系和實(shí)際意義的詞),模塊接著對查詢內(nèi)容進(jìn)行詞性標(biāo)注和基于語義的切分,并通過句法分析對中心詞賦予不同權(quán)重;(4)如果分析失敗,(用戶輸入的查詢內(nèi)容在語義分析后顯示為 無意義的詞語序列),則系統(tǒng)采取自動切分或者不處理策略,直接遞交給檢索模塊400。概念擴(kuò)展模塊320利用知網(wǎng)數(shù)據(jù)詞典來建立數(shù)據(jù)庫,把用戶給出的查詢詞 擴(kuò)展成一組在概念上同義近義的詞集合,并通過同義近義詞相似度算法分別計 算出每一個擴(kuò)展詞和原査詢詞之間的相似度。本系統(tǒng)涉及到的知網(wǎng)知識如下 知網(wǎng)是面向計算機(jī)的雙語常識知識庫,提供了設(shè)計真正的智能軟件所需的常 識。數(shù)據(jù)庫中每一個概念是通過一組義原來表示的,每個記錄的具體記錄格式如下NO詞或短語序號 [W—X^司或短語G—X-詞或短語的詞性E—X^司或短語的例子] DEFH i念定義其中的W—X、 G—X、 £_乂構(gòu)成每種語言的記錄,X用以描述記錄所代表語 種,X為C則為漢語,為E則為英語。DEF是概念定義項,表達(dá)了本概念的語義 信息,值由若干個義原及它們與主干詞之間的語義關(guān)系描述組成。本系統(tǒng)提出的一種基于知網(wǎng)的概念擴(kuò)展及同義近義詞相似度算法如下概念擴(kuò)展的準(zhǔn)備工作1)首先打開到新的數(shù)據(jù)源的連接。使用vc中的智能指針—ConnectionPtr的 CreatelnstanceO函數(shù)完成odbc的數(shù)據(jù)庫連接 —ConnectionPtr m_pConn; m一strConnect = "LocalServer"; m_pConn.CreateInstance(_uuidof(Connection));m_pConn->Open(_bstr—t(m_strConnect.GetBuffer(0)), L"", L"", -1L );2) 開始處理用戶輸入的査詢詞,并保存為CString類型的變量m—strln;在 dict表中查找出查詢詞的所有義項,逐條取出每條記錄的"DEF'項、"\\^_£"項和 "FIRST—SEM"項并分別保存入三個CString類型變量的All—DEF 、 All—WE和 All一Fs沖while (當(dāng)前義項行數(shù)<=最末行行數(shù)){ tempDEF保存當(dāng)前義項行的"DEF'內(nèi)容; All—DEF+=tempDEF; temp W—E保存當(dāng)前義項行的"W_E"內(nèi)容; All_WE+=tempW—E;tempFst保存當(dāng)前義項行的"FIRST_SEM "內(nèi)容;All—Fst+=tempFst;當(dāng)前義項行數(shù)加l;同義近義詞概念擴(kuò)展部分3) 在語義詞典表(diet)中查找出一組這樣的詞語,每一個這樣的詞語的 所有義項中至少有一條的"W—E"項和原査詢詞的某一條"W—E"項相同,并査找 出這些詞語的所有義項行。用下面一條sql語句完成SELECT * FROM dietWHERE diet W—C IN( SELECT W_C FROM diet WHERE dict.W—E IN(SELECT DISTINCT W一E FROM diet WHERE W_C=m—strln)) ORDER BY No設(shè)找到符合條件的這一組詞語的個數(shù)為n,則完成了從查詢詞W擴(kuò)展出具 有同一概念的其他詞Wel、 We2、 ...、 Wen; 擴(kuò)展詞相似度計算部分4) 控制兩個float類型的數(shù)組TotalValue[]和Vahie[]來分別保存每一個擴(kuò)展詞所有義項得到的相似度的總和,和該擴(kuò)展詞所有義項的平均相似度;設(shè)置循 環(huán)控制變量1=1;5) 控制i從l到n來循環(huán)處理査詢詞W與擴(kuò)展詞Wei;6) 利用同義近義詞相似度算法計算W與Wd之間的語義相似度;7) 若相似度的值小于某闊值,就濾掉該擴(kuò)展詞,否則繼續(xù);8) 若未處理完所有擴(kuò)展詞,則轉(zhuǎn)至步驟5,否則繼續(xù);9) 輸出査詢詞、擴(kuò)展詞以及對應(yīng)的擴(kuò)展相似度,算法結(jié)束。 其中,同義近義詞相似度算法如下a) 設(shè)擴(kuò)展詞Wd有m條義項即有m條記錄,并設(shè)置控制變量j;控制一個 float類型的數(shù)組EachVahie[]用于保存Wei的每一條義項用公式(l)計算 得到的相似度EachValue[j]=Xl*a+ X2 *p+ X3" …(1)其中,a、 |3、 Y是可調(diào)節(jié)的參數(shù),且有a+(3+Y= 1 Xl二l,當(dāng)Wei的菊條義項的"DEF"項為All一DEF的字串; Xl二0,當(dāng)Wei的菊條義項的"DEF"項不為AlLDEF的字串; X2二l,當(dāng)Wei的菊條義項的"W^E"項為AlLWE的字串; X2二0,當(dāng)Wei的菊條義項的"W—E"項不為A1LWE的字串; X3 = l,當(dāng)Wei的第j條義項的"FIRST—SEM"項為A11—Fst的字串; X3二0,當(dāng)Wei的第j條義項的"FIRST—SEM"項不為A11—Fst的字串;b) 控制變量j從l到m循環(huán)處理每一個Wei的義項與查詢詞W之間的比較c) 用公式(l)計算得到Wei的第j條義項的相似度值EachValue[j];d) 若未處理完所有擴(kuò)展詞,則TotalValue[ihTotalValue[i]+EachValue[j], 轉(zhuǎn)至步驟b,否則繼續(xù);e) 利用公式Value[i^ TotalValue[i]/m得到Wei和W的平均相似度Value[i]; 如圖5所示,概念擴(kuò)展模塊320的工作流程為(l)用戶選擇了概念擴(kuò)展功能后,概念擴(kuò)展模塊在Hownet中查找査詢內(nèi)容的擴(kuò)展信息;(2)如果存在查詢內(nèi)容的擴(kuò)展信息,則依據(jù)Hownet規(guī)則把査詢詞從概念上擴(kuò)展成對應(yīng)的同義 詞、近義詞。再通過相似度優(yōu)先算法抽取優(yōu)先級別高的部分?jǐn)U展詞, 一方面把 査詢詞及限定的擴(kuò)展詞一起作為査詢條件傳給檢索模塊;另一方面把次優(yōu)先級 的擴(kuò)展詞顯示給用戶自主選擇;(3)如果不存在查詢內(nèi)容的擴(kuò)展信息,則直接 將査詢內(nèi)容遞交給檢索模塊400 。邏輯組合模塊330將語義分析模塊310和概念擴(kuò)展模塊320的功能有機(jī)結(jié) 合,具體結(jié)合過程為首先對檢索內(nèi)容進(jìn)行語義分析與自動切分相結(jié)合的分詞 處理,然后將分割出的查詢詞在概念上擴(kuò)展成對應(yīng)的同義詞、近義詞或者上下 位詞,依據(jù)相似度優(yōu)先算法抽取部分?jǐn)U展詞或接收用戶選擇的擴(kuò)展詞,最后把 査詢詞和限定的擴(kuò)展詞一起作為査詢條件傳給檢索模塊400;檢索模塊400是本系統(tǒng)提供給用戶檢索信息的模塊,它包括查詢模塊410 和排序模塊420。查詢模塊410在索引庫中査找所有匹配的文檔信息,從匹配的文檔信息中 選擇出滿足要求的那部分文檔信息作為結(jié)果集,并將結(jié)果集發(fā)送給排序模塊 420。排序模塊420用于對來自查詢模塊410的結(jié)果集進(jìn)行排序。該模塊根據(jù)擴(kuò)展 詞的權(quán)值和基于原詞的相似度,結(jié)合考慮文檔中關(guān)鍵詞的出現(xiàn)頻率、文檔長度 以及文檔的反轉(zhuǎn)頻率等因素進(jìn)行排序。將命中次數(shù)較多的文檔排在結(jié)果集的前 面。最后把前若干(數(shù)目由用戶指定或系統(tǒng)默認(rèn))位的結(jié)果優(yōu)先返回給用戶。如圖6所示,檢索模塊400的處理流程為(1)接受直接來自用戶的查詢內(nèi) 容或經(jīng)過自然語言處理模塊分析擴(kuò)展后的查詢內(nèi)容;(2)分析查詢內(nèi)容之間的 邏輯關(guān)系,首先在索引庫中進(jìn)行查詢,返回與査詢內(nèi)容匹配的所有文檔信息即 結(jié)果集;(3)依據(jù)査詢詞與擴(kuò)展詞之間的語義相似度,結(jié)合考慮文檔中關(guān)鍵詞 的出現(xiàn)頻率、文檔長度以及文檔的反轉(zhuǎn)頻率等因素,對返回的所有文檔進(jìn)行排 序,主要是利用查詢詞和擴(kuò)展詞在文檔中出現(xiàn)的頻率來進(jìn)行排序,將命中次數(shù)較多的文檔排在結(jié)果集的前面。最后將排序結(jié)果遞交給結(jié)果集處理模塊。結(jié)果集處理模塊700是用戶查詢顯示的接口,它包括頭信息顯示模塊710、 反顯模塊720、回顯模塊730和分頁處理模塊740。頭信息顯示模塊710用于顯示查詢結(jié)果的提示信息,如果查詢模塊400返回的結(jié)果集不空,則在頁首顯示査詢用時和結(jié)果集中的文檔數(shù)以及由概念擴(kuò)展模 塊320提供的可勾選擴(kuò)展詞;如果查詢模塊400沒有檢索到匹配的結(jié)果,則顯示查找結(jié)果不存在的提示信息。反顯模塊720用于對查詢模塊400返回的文本文檔結(jié)果集和索引庫600的摘要中的關(guān)鍵字做強(qiáng)調(diào)突出處理。具體方法是對原査詢詞加紅色高亮,擴(kuò)展詞 加不同于原查詢詞的褐色高亮?;仫@模塊730用于顯示返回給用戶的快照和摘要信息。頁面內(nèi)容以標(biāo)題、 摘要的形式,按條羅列。標(biāo)題為超鏈接形式,用戶可以點(diǎn)擊打開檢索內(nèi)容所在 的原文。摘要顯示原文中含有檢索內(nèi)容的一段文摘。類似于百度中的檢索返回 結(jié)果。分頁處理模塊740用于將結(jié)果集的多篇分檔分頁顯示。頁尾標(biāo)注十頁范圍 供用戶選擇??紤]到用戶習(xí)慣,為加快搜索速度,每次翻頁只返回當(dāng)頁文檔的 結(jié)果,不返回全部結(jié)果集。如圖7所示,結(jié)果集處理模塊700的處理流程為(1)接收來自檢索模塊400 遞交的結(jié)果集;(2)在頁首顯示査詢用時、返回結(jié)果數(shù)及備選擴(kuò)展詞或者查詢 結(jié)果不存在的提示信息;(3)從索引庫600中獲得結(jié)果集的文摘信息,對查詢 詞和擴(kuò)展詞反顯處理,對文摘及相應(yīng)的源文檔之間建立鏈接;(4)用戶要求多 頁顯示時,再次從結(jié)果集中返回用戶需要數(shù)目的文檔。為了清晰明了地顯示系統(tǒng)功能,下面給出若干測試實(shí)例 (1)語義分析功能語義分析功能是將措詞結(jié)構(gòu)簡單的短句(包括復(fù)句中的分句)進(jìn)行中文分 詞、句法分析來抽取短句中的關(guān)鍵詞,提交給檢索系統(tǒng)進(jìn)行査詢,提高了搜索 引擎的易用性,保證分析結(jié)果的正確性。語義分析模塊能對不同句型分析處理。a) 輸入陳述句"國家出臺了新的政策。"分析結(jié)果是"國家"、"政策",成 功剔除了結(jié)構(gòu)助詞,分割出了中心詞;b) "省內(nèi)外糧食調(diào)配差額太大啦!"分析結(jié)果是"糧食"、"差額",成功 剔除了感嘆助詞;c) "全球的經(jīng)濟(jì)走勢如何?"分析結(jié)果是"經(jīng)濟(jì)"、"走勢"。成功剔除了 疑問助詞;根據(jù)詞法分析計算中心詞的權(quán)重,權(quán)重大的中心詞基本都出現(xiàn)在前10條 檢索結(jié)果中。(2)概念擴(kuò)展功能 概念擴(kuò)展模塊能對查詢詞進(jìn)行多方面的擴(kuò)展。a) 對査詢詞"馬鈴薯"擴(kuò)展出同義詞"土豆"和"洋芋";b) 對查詢詞"技工"能擴(kuò)展出近義詞"技師"、"技工"、"技術(shù)員"等;c) 對査詢詞"大學(xué)生"、能擴(kuò)展出上位詞"本科生",同樣也可以從"本科 生"擴(kuò)展出"大學(xué)生"和"專科生"等下位詞。
      權(quán)利要求
      1、一種基于自然語言理解的全文檢索系統(tǒng),其特征在于該系統(tǒng)包括數(shù)據(jù)庫服務(wù)器(100)、信息接收判斷模塊(200)、自然語言處理模塊(300)、檢索模塊(400)、索引模塊(500)、索引庫(600)和結(jié)果集處理模塊(700);數(shù)據(jù)庫服務(wù)器(100)用于存儲知識數(shù)據(jù)詞典,規(guī)則庫、文本文件集和索引庫(600)以及操作信息;為自然語言處理模塊(300)提供數(shù)據(jù)資源和管理服務(wù),為索引模塊(500)提供純文本文件;信息接收判斷模塊(200)根據(jù)用戶的選擇為系統(tǒng)中的自然語言處理模塊(300)部署任務(wù),或者直接請求檢索模塊(400)進(jìn)行搜索服務(wù);自然語言處理模塊(300)依賴于數(shù)據(jù)庫服務(wù)器(100)提供的知識數(shù)據(jù)詞典和規(guī)則庫,并從信息接收判斷模塊(200)獲得部署的任務(wù);自然語言處理模塊(300)根據(jù)部署任務(wù)選擇下述三種方式之一進(jìn)行語言處理第一種方式是對用戶的檢索命令進(jìn)行語義分析與自動切分相結(jié)合的分詞處理,分割出查詢詞傳給檢索模塊(400)進(jìn)行搜索;第二種方式是依據(jù)知網(wǎng)的規(guī)則把查詢詞從概念上擴(kuò)展成對應(yīng)的同義詞、近義詞,通過概念擴(kuò)展及同義近義詞相似度算法抽取部分?jǐn)U展詞或接收用戶選擇的擴(kuò)展詞,把查詢詞和限定的擴(kuò)展詞一起作為查詢條件傳給檢索模塊(400)進(jìn)行搜索;第三種方式是將上述二種方式結(jié)合,把綜合處理后的查詢內(nèi)容提交給檢索模塊(400);檢索模塊(400)為用戶提供搜索引擎的使用界面,并提供完備的搜索服務(wù);檢索模塊(400)負(fù)責(zé)接收信息接收判斷模塊(200)的指令和自然語言處理模塊(300)遞交的處理結(jié)果,根據(jù)查詢語句在索引庫(600)中進(jìn)行查詢匹配,返回和查詢語句匹配的所有文檔信息,根據(jù)關(guān)鍵詞和擴(kuò)展詞在文檔中的集中程度對結(jié)果集進(jìn)行排序處理,將排序后的結(jié)果集交給結(jié)果集處理模塊(700)處理;索引模塊(500)用于接收數(shù)據(jù)庫服務(wù)器(100)提供的純文本文件的內(nèi)容和相關(guān)信息,對文本內(nèi)容、標(biāo)題和自定義信息處理得到索引詞,利用索引詞和文檔相關(guān)信息建立索引庫;索引庫(600)用于存儲由索引模塊(500)對文本文件建立的索引;索引庫(600)還根據(jù)檢索模塊(400)提交的查詢請求在索引中進(jìn)行快速檢索和排序,并返回檢索模塊(400)對應(yīng)的結(jié)果;結(jié)果集處理模塊(700)用于接收來自檢索模塊(400)的結(jié)果集,并根據(jù)索引庫(600)的信息建立結(jié)果集的文摘信息和快照信息,并對返回結(jié)果進(jìn)行反顯、回顯、分頁處理并將用戶查看快照信息的記錄存儲于數(shù)據(jù)庫(100)中。
      2、 根據(jù)權(quán)利要求l所述的全文檢索系統(tǒng),其特征在于自然語言處理模塊 (300)包括語義分析模塊(310)、概念擴(kuò)展模塊(320)、邏輯組合模塊(330);語義分析模塊(310)采用語法分詞和語義分詞相結(jié)合的方式對用戶輸入的句子切分,通過句法分析得到句法結(jié)構(gòu)樹,依據(jù)詞語加權(quán)算法對對中心詞賦 予不同權(quán)重;概念擴(kuò)展模塊(320)依據(jù)知網(wǎng)的規(guī)則把查詢詞從概念上擴(kuò)展成對應(yīng)的同 義詞、近義詞或上下位詞;通過相似度優(yōu)先算法,抽取部分?jǐn)U展詞或接收用戶 選擇的擴(kuò)展詞,最后把査詢詞及限定的擴(kuò)展詞一起作為査詢條件傳給檢索模塊 (400);邏輯組合模塊(330)將兩種語義分析模塊(310)和概念擴(kuò)展模塊(320) 的功能進(jìn)行邏輯組合,并將處理結(jié)果發(fā)送給檢索模塊(400)。
      3、 根據(jù)權(quán)利要求l所述的全文檢索系統(tǒng),其特征在于檢索模塊(400) 是本系統(tǒng)提供給用戶檢索信息的模塊,它包括查詢模塊(410)和排序模塊(420);查詢模塊(410)在索引庫中查找所有匹配的文檔信息,從匹配的文檔信 息中選擇出滿足要求的那部分文檔信息作為結(jié)果集,并將結(jié)果集發(fā)送給排序模塊(420);排序模塊(420)用于對來自査詢模塊(410)的結(jié)果集進(jìn)行一個優(yōu)先級排 序,匹配強(qiáng)度最高的文檔排在結(jié)果集的最前面,匹配強(qiáng)度是用查詢詞和擴(kuò)展詞 在文檔中的頻率和檢索詞的權(quán)重以及與原詞的相似度來衡量的。
      4、根據(jù)權(quán)利要求l所述的全文檢索系統(tǒng),其特征在于結(jié)果集處理模塊 (700)是用戶查詢顯示的接口,它包括頭信息顯示模塊(710)、反顯模塊(720)、 回顯模塊(730)和分頁處理模塊(740);頭信息顯示模塊(710)用于顯示査詢結(jié)果的提示信息,如果查詢模塊(400) 返回的結(jié)果集不空,則在頁首顯示查詢用時和結(jié)果集中的文檔數(shù)以及由概念擴(kuò) 展模塊(320)提供的可勾選擴(kuò)展詞;如果查詢模塊(400)沒有檢索到匹配的 結(jié)果,則顯示查找結(jié)果不存在的提示信息;反顯模塊(720)用于對查詢模塊(400)返回的文本文檔結(jié)果集和索引庫 (600)的摘要中的關(guān)鍵字做強(qiáng)調(diào)突出處理;回顯模塊(730)用于顯示排序后結(jié)果集的文檔中包含有檢索詞的文摘信 息,選擇顯示文摘信息,每塊文摘信息都包含有突出顯示的檢索詞或者擴(kuò)展詞; 并對搜索內(nèi)容的源文件進(jìn)行鏈接,讀取源文件到頁面;分頁處理模塊(740)用于將結(jié)果集的多篇分檔分頁顯示,在頁尾標(biāo)注頁 碼范圍供用戶選擇。
      全文摘要
      本發(fā)明公開了一種基于自然語言理解的全文檢索系統(tǒng),該系統(tǒng)包括數(shù)據(jù)庫服務(wù)器、信息接收判斷模塊、自然語言處理模塊、檢索模塊、索引模塊、索引庫和結(jié)果集處理模塊。本發(fā)明系統(tǒng)針對當(dāng)前搜索引擎智能化水平較低的情況提出了兩種解決策略——語義分析與自動切分相結(jié)合的分詞策略和依據(jù)知網(wǎng)規(guī)則的擴(kuò)展查詢詞策略。部署后的系統(tǒng)將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解和處理能力,能夠運(yùn)用分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別等技術(shù)。本搜索引擎具有信息服務(wù)的智能化、人性化特征,允許檢索者采用自然語言進(jìn)行信息的檢索,在交互操作模式下,可以加入用戶選擇行為,從而提供更方便、更確切的搜索服務(wù)。
      文檔編號G06F17/30GK101246492SQ20081004693
      公開日2008年8月20日 申請日期2008年2月26日 優(yōu)先權(quán)日2008年2月26日
      發(fā)明者毅 余, 明 劉, 盧正鼎, 張茂元, 楊付全, 趙冰心, 鄒春燕 申請人:華中科技大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1