專利名稱:一種基于背景知識的動態(tài)重構的語義檢索方法
技術領域:
本發(fā)明屬于信息檢索技術領域,尤其涉及一種基于背景知識的動態(tài)重構的語義檢索方法。
背景技術:
隨著互聯(lián)網的快速發(fā)展,網絡的信息量越來越大,如何從海量數據中檢索到用戶真正需要的信息成為信息檢索的關鍵任務。應用廣泛的信息檢索是目前信息科學的一個研究熱點,各種方法技術不斷涌現。信息檢索的研究方法大體上可以分為基于語法的檢索和基于內容的檢索兩個方面。目前大多數的檢索方法都是基于語法的檢索。通過爬蟲等技術從互聯(lián)網上抓取網頁,然后進行信息抽取,對其進行智能化信息處理,并通過相關的索引和 排序技術為用戶提供信息檢索服務。上述方法沒有涉及到對檢索內容的語義挖掘,從而在很多情況下返回給用戶很多冗余的信息,如較低的查準率導致大量不相關的檢索結果,導致檢索任務很大程度上依賴于用戶的檢索技巧,從而加重了用戶的檢索負擔。目前基于內容的檢索成一個研究熱點?;趦热莸臋z索涉及到信息的語義方面挖掘和處理,能夠兼顧信息的語法和語義信息,盡可能的通過信息的背景知識挖掘其更深層次的語義信息,因此,檢索結果往往能夠更加滿足用戶真正的檢索需求。但是,目前如何對信息的背景知識進行描述、在信息動態(tài)演化基礎上如何對背景知識進行重構以適應信息演化的需要以及如何基于背景知識進行相關的語義檢索仍處于初步階段,缺乏相關的可行研究方法。
發(fā)明內容
本發(fā)明結合上述背景技術中提到的問題以及信息檢索領域的信息發(fā)展趨勢和需求,提出一種基于背景知識的動態(tài)重構的語義檢索方法。本方法綜合了語法相似度和語義相似度兩方面因素,盡可能的避免各種因素造成的檢索誤差,并對檢索結果進行進一步精確劃分,得到滿足用戶的更為準確的檢索結果,減少用戶的檢索負擔。為了實現上述目的,本發(fā)明提出的技術方案是,一種基于背景知識的動態(tài)重構的語義檢索方法,采用二維表表示通用領域知識的形式背景,利用FCA方法構建形式背景的概念格結構模型,得到形式背景屬性集和形式背景對象集,其特征是所述方法包括步驟1:將用戶輸入的檢索關鍵詞作為檢索屬性集S = {S1; S2, , SJ并令i=l ;步驟2 :分析檢索屬性Si與形式背景屬性集A的關系,如果.s', A,則執(zhí)行步驟3 ;如果Si e A,執(zhí)行步驟9 ;步驟3 :加載與檢索屬性Si相關的具體領域知識,合并二維表,重構形式背景屬性集,即令A = A U Ai, Ai為與Si相關的具體領域知識的形式背景的屬性集;步驟4 :如果a·,, A,則執(zhí)行步驟5 ;如果Si e A,執(zhí)行步驟9 ;步驟5 :計算檢索屬性Si與形式背景屬性集A中所有屬性的相似度值Siiv并令Sim = max (Sim1, sim2, . . . simj , η為形式背景屬性集A中的屬性數目;步驟6 :如果Sim小于設定閾值,則執(zhí)行步驟7 ;如果Sim值大于或等于設定閾值,則執(zhí)行步驟8 ;步驟7 :從檢索屬性集中刪除屬性Si,即令S = \{SJ,執(zhí)行步驟9 ;步驟8:在形式背景屬性集A中,找出與檢索屬性Si最為相似的屬性αρ用屬性a j替換檢索屬性Si ;步驟9 :判斷i < m是否成立,如果成立,則令i=i+l,返回步驟3 ;否則,執(zhí)行步驟10 ;步驟10 :進行基于檢索屬性集的語義檢索。所述計算檢索屬性Si與形式背景屬性集A中屬性a j的相似度值采用公式Sim (Si, α」)=λ X Syn (Si, α ρ + (1- λ ) X Sem (Si, α」)其中,Sim(Si,Qj)是檢索屬性Si與形式背景屬性集A中屬性的相似度值,Syn (Si, a ^是語法相似度值,Sem(Si, a ^是語義相似度值,λ是線性疊加系數;所述語法相似度值Syn (Si,α的計算公式為
權利要求
1.一種基于背景知識的動態(tài)重構的語義檢索方法,采用二維表表示通用領域知識的形式背景,利用FCA方法構建形式背景的概念格結構模型,得到形式背景屬性集和形式背景對象集,其特征是所述方法包括步驟1:將用戶輸入的檢索關鍵詞作為檢索屬性集S = Is1, s2,…,sj并令i=l ;步驟2 :分析檢索屬性Si與形式背景屬性集A的關系,如果λ', € A ,則執(zhí)行步驟3 ;如果 Si e A,執(zhí)行步驟9 ;步驟3 :加載與檢索屬性Si相關的具體領域知識,合并二維表,重構形式背景屬性集, 即令A = A U Ai, Ai為與Si相關的具體領域知識的形式背景的屬性集;步驟4 :如果^ € A,則執(zhí)行步驟5 ;如果Si e A,執(zhí)行步驟9 ;步驟5 :計算檢索屬性Si與形式背景屬性集A中所有屬性的相似度值Siiv并令Sim = max {Sim1, sim2, . simj , η為形式背景屬性集A中的屬性數目;步驟6 :如果Sim小于設定閾值,則執(zhí)行步驟7 ;如果Sim值大于或等于設定閾值,則執(zhí)行步驟8 ;步驟7 :從檢索屬性集中刪除屬性Si,即令S = S\{Si},執(zhí)行步驟9 ;步驟8:在形式背景屬性集A中,找出與檢索屬性^最為相似的屬性αρ用屬性%替換檢索屬性Si ;步驟9 :判斷i <m是否成立,如果成立,則令i=i+l,返回步驟3 ;否則,執(zhí)行步驟10 ; 步驟10 :進行基于檢索屬性集的語義檢索。
2.根據權利要求1所述的方法,其特征是所述計算檢索屬性Si與形式背景屬性集A中屬性a j的相似度值采用公式Sim(si, α」)=λ XSyrKsi, α」)+ (1-λ ) XSenKsp α」)其中,Sim(Si,αρ是檢索屬性Si與形式背景屬性集A中屬性%的相似度值,Syn(Si, Qj)是語法相似度值,Sem(Si,Qj)是語義相似度值,λ是線性疊加系數;所述語法相似度值Syn (Si,Qj)的計算公式為
全文摘要
本發(fā)明公開了信息檢索技術領域中的一種基于背景知識的動態(tài)重構的語義檢索方法。包括先采用二維表給出通用領域的背景知識,利用FCA方法將其構建為概念格模型。然后把用戶輸入的搜索關鍵詞作為檢索屬性,分析其與原有形式背景屬性集的關系;如果所有檢索屬性屬于形式背景屬性集,則直接基于概念格模型進行語義檢索;否則,則對領域知識的形式背景進行動態(tài)重構;進一步通過相似度計算從屬性集中找出與每一個檢索屬性最為相似的對應替換屬性,更新檢索屬性集;最后,利用重構后的形式背景構建新的概念格結構,并利用此結構完成基于檢索屬性集的語義檢索。本發(fā)明通過基于背景知識的動態(tài)重構的語義檢索方法,能夠確保檢索結果滿足用戶的檢索要求。
文檔編號G06F17/30GK103020283SQ20121058066
公開日2013年4月3日 申請日期2012年12月27日 優(yōu)先權日2012年12月27日
發(fā)明者馬應龍, 張瀟瀾, 宋鵬 申請人:華北電力大學