專利名稱:基于概念關系的領域數據語義的處理方法和檢索方法
基于概念關系的領域數據語義的處理方法和檢索方法
技術領域:
本發(fā)明涉及一種基于概念關系的領域數據語義的處理方法和檢索方法。
背景技木常見的檢索是關鍵字檢索,查詢結果是在字面意義上的匹配,使得查詢率和查準率不盡人意。語義檢索則是基于對信息資源的語義處理實現(xiàn)效率更高的檢索,它是ー種根據知識庫,通過邏輯判斷和推理得出檢索結果的檢索方法,使信息檢索從目前基于關鍵字的層面提高到基于知識的層面,具有一定的智能化。目前語義檢索采用的主要方法就是提 取和處理語義信息,但對概念之間關系的理解不夠通用和全面,因此對關系的利用也很欠缺。盡管目前語義檢索的方法都已經開始關注概念間的關系,但僅是簡單的屬性鏈關系,仍然缺少對概念間各種復雜關聯(lián)關系的處理方法,更不能根據用戶提供的檢索目標對關系做自適應的修正。2006-03-29公開的,公開號為1752966的中國發(fā)明掲示了ー種語義處理模塊中,基于本體論方法,語義處理模塊的基本部件包括一個語義知識庫,ー個本體論知識庫,和/或一個專家知識庫。所述方法包括存貯ー個結構化描述的或者非結構化描述的用戶檢索式,對非結構化的檢索式進行語義分析形成檢索式的ー種正式語義表示式,對正式的語義檢索式進行語義擴展,擴展后的檢索式用于在專家知識庫中查找相關的解決方案,并且根據語義關系對找到的解決方案進行分類。該發(fā)明主要是通過對正式的語義檢索式進行語義擴展來檢索,而沒有提到對概念間各種復雜關聯(lián)關系的處理方法。2006-04-26公開的,公開號為1763739的中國發(fā)明揭示了ー種文件搜索引擎中的基于語義的檢索方法,包括建立資源信息庫,同時建立該資源信息庫與文件、用戶輸入查詢詞的匹配關系;用戶輸入查詢詞后,首先到資源信息庫去匹配,若匹配成功,則利用該資源信息庫中的資源信息與文件的匹配關系去匹配相應文件,并返回捜索結果;若匹配失敗,則直接利用該查詢詞搜索文件,并返回捜索結果。利用包含了每個基本資源的多個信息對文件進行查詢,因此對于用戶使用ー種名稱來查詢時,在本發(fā)明的系統(tǒng)內部同時也利用其它資源信息進行查詢,查全率得到提高。該發(fā)明雖然建立了資源信息庫,但是該資源信息庫不能更新,也沒有使用相關度模型對概念進行語義推理,得到與用戶潛在相關的信息。2008-04-30公開的,公開號為101169780的中國發(fā)明掲示了ー種基于語義本體的檢索系統(tǒng)和方法,該系統(tǒng)包括語義本體索引數據庫和語義本體索引處理單元。語義本體搜索處理單元獲取文本命中文件列表,并將文本命中文件列表與語義本體索引數據庫中的語義本體索引進行匹配處理,得到文檔語義分類表。使得該檢索系統(tǒng)能夠識別待檢索文件的語義信息,并且使搜索結果呈現(xiàn)出了語義的分類結果。本發(fā)明的實施例還公開了一種基于語義本體的檢索方法,該方法先為已建立文本索引的文件建立語義本體索引,在用戶進行搜索時,對文本匹配結果進行語義本體索引匹配處理,使得最后的輸出結果在傳統(tǒng)的文本匹配結果上呈現(xiàn)出了語義的分類,方便了用戶的查詢。該發(fā)明是對待檢索的文件建立索引,然后再為索引文件建立語義本體索引,用戶搜索時,使用索引匹配的方法查找相關文件,而沒有對已有的知識庫檢索并在檢索的知識庫的基礎上進行模型推理,即對概念間各種復雜關聯(lián)關系的處理方法。2006-03-01公開的,公開號為1741012的中國發(fā)明掲示了文本檢索裝置和方法,其對傳統(tǒng)的檢索手段進行改良,引入自然語言深層的語義信息進行信息比較及檢索。該發(fā)明采用將語義信息同向量空間模型相結合的方法,通過賦予語義信息附加的權重來改進向量空間模型的向量特征值,以提高向量特征值同文本語義之間的相關度,實現(xiàn)高精度的信息比較及檢索。由于采用向量特征值之間的相似度(距離)來衡量文本之間的相似度,所以其比較及檢索速度等同于向量空間模型。
發(fā)明內容本發(fā)明要解決的技術問題之一,在于提供一種基于概念關系的領域數據語義的處理方法,通過語義相關度計算模型,對概念間各種復雜關聯(lián)關系進行處理,為大幅提高語義檢索精度做準備。本發(fā)明要解決的技術問題之一,是這樣實現(xiàn)的基于概念關系的領域數據語義的處理方法,其特征在于包括如下步驟步驟10、準備知識庫該知識庫中存儲有根據領域的相關知識以及詞表而定義該領域內的概念,及各概念之間的相關度;步驟20、建立語義推理模型該語義推理模型用于求解未定義的概念相關度;步驟30、語義推理通過所述語義推理模型利用知識庫中與目標相關的已知概念的已知相關度計算出與目標相關的未知概念的未知相關度。其中,所述語義推理模型具體是如下計算公式
權利要求
1.基于概念關系的領域數據語義的處理方法,其特征在于包括如下步驟 步驟10、準備知識庫該知識庫中存儲有根據領域的相關知識以及詞表而定義該領域內的概念,及各概念之間的相關度; 步驟20、建立語義推理模型該語義推理模型用于求解未定義的概念相關度; 步驟30、語義推理通過所述語義推理模型利用知識庫中與目標相關的已知概念的已知相關度計算出與目標相關的未知概念的未知相關度。
2.根據權利要求I所述的基于概念關系的領域數據語義的處理方法,其特征在于所述語義推理模型具體是如下計算公式
3.基于概念關系的領域數據語義的檢索方法,其特征在于包括如下步驟 步驟10、準備知識庫該知識庫中存儲有根據領域的相關知識以及詞表而定義該領域內的概念,及各概念之間的相關度; 步驟20、建立語義推理模型該語義推理模型用于求解未定義的概念相關度; 步驟30、檢索及語義推理 步驟31、根據目標概念TC直接在知識庫中進行檢索,檢索出和目標概念TC相關的第一批概念 MC1, MC2,…,MCm,相應的相關度為 Rel (TC,MC1),Rel (TC,MC2),…,Rel (TC,MCm);步驟32、按相關度從大到小排序后,經過設定的閾值或者用戶人工篩選,去除不相關的概念,得到初選結果集MC = (MC1, MC2,…,MCJ ; 步驟33、對概念集MC = (MC1, MC2, . . .,MCJ,逐一檢索知識庫,得到檢索結果集{KCn,KC12,.. ,KC1J,{KC21,KC22,. ,KC2J,.. ,{KCnl,KCn2,.,KCnp},按相關度從大到小排序后,經過設定的閾值或者用戶人工篩選,去除不相關的概念后得到結果集KC = (KC1, KC2,KCJ ;其中q和n為自然數,且q彡n ; 步驟34、采用所述語義推理模型,計算任意一個概念MCi和KCi之間的相關度Rel (MCi,KCi)。
4.根據權利要求I所述的基于概念關系的領域數據語義的處理方法,其特征在于所述步驟34之后還包括 步驟35、將計算所得的概念MCi和KCi之間的相關度Rel (MCi, KCi),保存到知識庫;步驟36、把KC1, KC2,. . . , KCq當做目標概念集MC,回到步驟33,直到沒有滿足閾值的查詢結果或者用戶人工選取結果為止結束。
5.根據權利要求3所述的基于概念關系的領域數據語義的處理方法,其特征在于所述步驟20具體是所述語義推理模型具體是如下計算公式
6.根據權利要求3所述的基于概念關系的領域數據語義的處理方法,其特征在于所述步驟10具體是 步驟11、獲取領域概念從領域敘詞表獲取領域概念,其中領域敘詞表都是經過領域專家定義、審核的專業(yè)詞匯; 步驟12、定義知識庫中的領域概念領域專家根據領域概念之間的相關程度定義相關度,保存到知識庫,相關度的取值范圍為0到I之間的小數,包括0和I ;0表示兩個概念完全不相關,I表示兩個概念最大程度相關; 步驟13、確定知識庫中領域概念間的相關度的平均值計算步驟13中不同的領域專家對相同概念的領域相關度值的平均值,并存入知識庫中,作為平均相關度,且用于相關度計算模型中的計算值和最終概念間相關度檢索的依據。
全文摘要
本發(fā)明提供一種概念關系的領域數據語義的處理方法和檢索方法,包括步驟10、準備知識庫該知識庫中存儲有根據領域的相關知識以及詞表而定義該領域內的概念,及各概念之間的相關度;步驟20、建立語義推理模型該語義推理模型用于求解未定義的概念相關度;步驟30、語義推理通過所述語義推理模型利用知識庫中與目標相關的已知概念的已知相關度計算出與目標相關的未知概念的未知相關度。
文檔編號G06F17/30GK102651014SQ20121008755
公開日2012年8月29日 申請日期2012年3月29日 優(yōu)先權日2012年3月29日
發(fā)明者徐曉文, 李海波, 熊穎 申請人:華僑大學