一種基于語義網(wǎng)的信息查詢方法
【專利摘要】本發(fā)明涉公開了一種基于語義網(wǎng)的信息查詢方法,用于根據(jù)特定的語義查詢語句在本體庫中查找與語義查詢語句相匹配的本體類實(shí)例并對查詢結(jié)果進(jìn)行排序,所述方法包括以下步驟:S101、遍歷本體實(shí)例圖。S103、根據(jù)所述的本體類實(shí)例與各查詢關(guān)鍵字之間的語義關(guān)系路徑的權(quán)重和語義關(guān)系路徑的數(shù)量,綜合計(jì)算當(dāng)前本體類實(shí)例與查詢關(guān)鍵字之間的相關(guān)性。104根據(jù)所述的本體類實(shí)例與各查詢關(guān)鍵字之間的相關(guān)性以及各查詢關(guān)鍵字的權(quán)重,綜合計(jì)算每個(gè)本體類實(shí)例與查詢關(guān)鍵字集合之間的相關(guān)性。S105、按照所述相關(guān)性從大到小的順序?qū)λ龅谋倔w類實(shí)例進(jìn)行排序。本發(fā)明有效提高了語義網(wǎng)信息查詢的查準(zhǔn)率和查全率。
【專利說明】一種基于語義網(wǎng)的信息查詢方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別是涉及一種基于語義網(wǎng)的信息查詢方法。
【背景技術(shù)】
[0002]傳統(tǒng)的信息查詢技術(shù)主要使用基于關(guān)鍵字的查詢方法,該方法主要通過把表征用戶查詢請求的關(guān)鍵字與資源的信息內(nèi)容進(jìn)行嚴(yán)格的機(jī)械匹配來實(shí)現(xiàn)。由于關(guān)鍵字的查詢方法本身缺少知識表示和語義處理能力,僅僅進(jìn)行關(guān)鍵字的匹配無法反映用戶查詢請求中的語義關(guān)系,從而導(dǎo)致查詢結(jié)果的查準(zhǔn)率偏低。語義網(wǎng)是由Tim Berners-Lee提出的一種新型網(wǎng)絡(luò)體系結(jié)構(gòu),它能夠?yàn)榫W(wǎng)絡(luò)中的源文檔添加語義信息,從而使計(jì)算機(jī)能夠理解語義信息文檔。本體是實(shí)現(xiàn)語義網(wǎng)的關(guān)鍵技術(shù),它是知識表示的重要方法,能以一種形式化的、機(jī)器可處理的表示來描述概念之間的語義。由于本體具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持,因而在信息檢索中得到了廣泛的應(yīng)用。
[0003]近年來,國內(nèi)外已經(jīng)有許多基于語義網(wǎng)的查詢技術(shù)的研究。Liu等通過構(gòu)建一個(gè)基于關(guān)鍵詞及其之間語義關(guān)系的概念關(guān)系圖,實(shí)現(xiàn)了對關(guān)鍵字查詢過程中語義關(guān)系的識別,但這一算法缺少對語義關(guān)系的權(quán)重分析以及對查詢結(jié)果的排序。Castells等提出了一種基于本體的信息檢索框架,該框架使用算法對每個(gè)語義關(guān)系賦以權(quán)重,并對查詢結(jié)果按照向量空間模型進(jìn)行排序,然而這一算法對語義關(guān)系的權(quán)重計(jì)算粒度較粗,并且忽略了語義關(guān)系之間的差異。Zhou等提出了一種基于關(guān)系模型的鏈接排序方法,該算法通過構(gòu)建具有主、外鍵關(guān)系模型的鏈接結(jié)構(gòu),從而實(shí)現(xiàn)對查詢結(jié)果的排序,但這一算法沒有考慮鏈接之間的特異性和多樣性以及關(guān)鍵字的涵蓋范圍和識別能力等問題。因此,如何提高語義網(wǎng)查詢的有效性和準(zhǔn)確性仍是信息檢索領(lǐng)域研究的重點(diǎn)和難點(diǎn)。
[0004]本體是描述概念及概念之間語義關(guān)系的數(shù)據(jù)模型,它能夠通過概念之間的關(guān)系來描述概念的語義,本體通常由Schema及其實(shí)例組成,它被表示在一個(gè)包括RDF特征、對象屬性、數(shù)據(jù)類型屬性以及反向?qū)傩缘腛WL-Lite子集中,通常具有以下定義:
[0005]定義ISchema S被定義為三元組〈C,D,P〉,其中C是類集,D是數(shù)據(jù)類型集,P是屬性集。所有類、屬性和數(shù)據(jù)類型都通過URI被準(zhǔn)確表示,并且對于任意d e C,r e C U D,有屬性p(d, r) e P,其中d和r分別被稱為ρ的領(lǐng)域和范圍。
[0006]定義2基于Schema S =〈C,D,P〉的實(shí)例圖被定義為一個(gè)有向圖G =〈V,E>,其中V是實(shí)例集,E是V中實(shí)例間的關(guān)系集。在實(shí)體圖中,一個(gè)資源表示一個(gè)類的實(shí)例。令[c]表示實(shí)例C e C U D的一個(gè)集合,對于每個(gè)ν e V,當(dāng)V.type = c時(shí),貝U v e [c]。令[p (d, r)]表示屬性實(shí)例P(d,r) e P的集合,對于每個(gè)e (Vi, ν」)e E,當(dāng)e = p, Vi e [d], Vj e [r]時(shí),則e (Vi, Vj) e [p (d, r)],其中Vi和Vj分別為e的主體和客體。
[0007]定義3語義路徑sp是Schema S =〈C, D, P〉中的一個(gè)屬性序列P1 ((I1, r)P2 (d2, r2)...pm(dm, rm),其中Pi (屯,e P并且巧和di+1是相同的類或具有相同的父類。
[0008]定義4 對于語義路徑 sp = P1 (d” T1) p2 (d2, r2)…pm (dm, rm), ip = e! (S1, O1)e2(s2, o2) "'(Sm, om)是sp的一個(gè)語義路徑實(shí)例,當(dāng)ei (Si, Oi) e [Pi(C^ri)]并且對于所有h有Oi = si+1時(shí),貝丨J S1, om分別是ip的源和目的。
[0009]定義5用戶查詢Q被定義為二元組〈T,K〉,其中T是類集,K是關(guān)鍵字集。對于一個(gè)給定的Schema S =〈C,D, P〉以及一個(gè)基于S的實(shí)例圖G =〈V,E>,語義搜索就是查找Q=<T, K〉的答案集Α,其中T e C。對于每個(gè)資源a e A,需要在G中至少有一個(gè)從資源a到數(shù)值為s的語義路徑實(shí)例,其中a e [T]且數(shù)值s包含關(guān)鍵字k e K。
【發(fā)明內(nèi)容】
[0010]為克服以上存在的問題,本發(fā)明提出了如下的技術(shù)方案:
[0011]一種基于語義網(wǎng)的信息查詢方法,用于根據(jù)特定的語義查詢語句在本體庫中查找與語義查詢語句相匹配的本體類實(shí)例并對查詢結(jié)果進(jìn)行排序,其包括以下步驟:
[0012]S101、遍歷本體實(shí)例圖,并返回與語義查詢語句中的本體類型相匹配,且與語義查詢語句中的查詢關(guān)鍵字相關(guān)聯(lián)的本體類實(shí)例。
[0013]S102、針對所述的每個(gè)本體類實(shí)例分別查找當(dāng)前本體類實(shí)例與各查詢關(guān)鍵字之間的所有的語義關(guān)系路徑,并分別計(jì)算語義關(guān)系路徑的權(quán)重。
[0014]S103、根據(jù)所述的本體類實(shí)例與各查詢關(guān)鍵字之間的語義關(guān)系路徑的權(quán)重和語義關(guān)系路徑的數(shù)量,綜合計(jì)算當(dāng)前本體類實(shí)例與查詢關(guān)鍵字之間的相關(guān)性。
[0015]S104根據(jù)所述的本體類實(shí)例與各查詢關(guān)鍵字之間的相關(guān)性以及各查詢關(guān)鍵字的權(quán)重,綜合計(jì)算每個(gè)本體類實(shí)例與查詢關(guān)鍵字集合之間的相關(guān)性。
[0016]S105、按照所述相關(guān)性從大到小的順序?qū)λ龅谋倔w類實(shí)例進(jìn)行排序。
[0017]進(jìn)一步的,步驟102中所述的計(jì)算語義關(guān)系的權(quán)重具體包括:
[0018]S2011、計(jì)算本體框架圖中各本體類之間以及本體類與數(shù)據(jù)類型之間屬性的權(quán)重。
[0019]S2012、根據(jù)本體框架圖中的各屬性的權(quán)重計(jì)算本體類到數(shù)據(jù)類型之間的語義關(guān)系路徑的權(quán)重。
[0020]S2013、使用本體框架圖中的語義關(guān)系路徑的權(quán)重替代本體實(shí)例圖中所對應(yīng)的語義關(guān)系路徑實(shí)例的權(quán)重。
[0021]進(jìn)一步的,所述步驟S2011具體計(jì)算方法為:
[0022]w (p (d, r)) = α.I (p (d, r)) + β.MI (ρ (d, r))
[0023]式中,p(d, r)表示從本體框架圖中本體類d到本體類或本體數(shù)據(jù)類型r的屬性,I (P (d, r))表示屬性ρ (d, r)發(fā)生時(shí)所產(chǎn)生的信息量,MI (p (d, r))表示屬性p (d, r)在d和r之間的相互信息度量值,α, β分別為權(quán)重參數(shù),且OS α, β ^ 10
[0024]其中,所述的I (ρ (d, r))具體計(jì)算方法為:
【權(quán)利要求】
1.一種基于語義網(wǎng)的信息查詢方法,用于根據(jù)特定的語義查詢語句在本體庫中查找與語義查詢語句相匹配的本體類實(shí)例并對查詢結(jié)果進(jìn)行排序,其特征包括以下步驟: 5101、遍歷本體實(shí)例圖,并返回與語義查詢語句中的本體類型相匹配,且與語義查詢語句中的查詢關(guān)鍵字相關(guān)聯(lián)的本體類實(shí)例。 5102、針對所述的每個(gè)本體類實(shí)例分別查找當(dāng)前本體類實(shí)例與各查詢關(guān)鍵字之間的所有的語義關(guān)系路徑,并分別計(jì)算語義關(guān)系路徑的權(quán)重。 5103、根據(jù)所述的本體類實(shí)例與各查詢關(guān)鍵字之間的語義關(guān)系路徑的權(quán)重和語義關(guān)系路徑的數(shù)量,綜合計(jì)算當(dāng)前本體類實(shí)例與查詢關(guān)鍵字之間的相關(guān)性。 S104根據(jù)所述的本體類實(shí)例與各查詢關(guān)鍵字之間的相關(guān)性以及各查詢關(guān)鍵字的權(quán)重,綜合計(jì)算每個(gè)本體類實(shí)例與查詢關(guān)鍵字集合之間的相關(guān)性。 S105、按照所述相關(guān)性從大到小的順序?qū)λ龅谋倔w類實(shí)例進(jìn)行排序。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟102計(jì)算語義關(guān)系的權(quán)重具體包括: 52011、計(jì)算本體框架圖中各本體類之間以及本體類與數(shù)據(jù)類型之間屬性的權(quán)重。 52012、根據(jù)本體框架圖中的各屬性的權(quán)重計(jì)算本體類到數(shù)據(jù)類型之間的語義關(guān)系路徑的權(quán)重。 S2013使用本體框架圖中的語義關(guān)系路徑的權(quán)重替代本體實(shí)例圖中所對應(yīng)的語義關(guān)系路徑實(shí)例的權(quán)重。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟S2011具體計(jì)算方法為:
w (p (d, r)) = α.I (p (d, r)) + β.MI (p (d, r)) 式中,ρ (d, r)表示從本體框架圖中本體類d到本體類或本體數(shù)據(jù)類型r的屬性,I (P (d, r))表示屬性ρ (d, r)發(fā)生時(shí)所產(chǎn)生的信息量,MI (p (d, r))表示屬性p (d, r)在d和r之間的相互信息度量值,α, β分別為權(quán)重參數(shù),且OS α, β ^ 10
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述的I(p (d,r))具體計(jì)算方法為:
式中pr(p(d,r))為屬性p(d,r)的出現(xiàn)概率,sub (p (d, r))為本體實(shí)例圖中所有從本體類d的實(shí)例到本體類或數(shù)據(jù)類型r的實(shí)例的屬性實(shí)例的數(shù)量,N為本體實(shí)例圖中所有類實(shí)例的數(shù)量。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述的MI(ρ (d,r))具體計(jì)算方法為:
式中pr (s, o)為本體實(shí)例圖中從本體類d的實(shí)例s到本體類或數(shù)據(jù)類型r的實(shí)例ο的屬性實(shí)例的出現(xiàn)概率,Pr (s)為本體實(shí)例圖中從本體類d的實(shí)例s到本體類或數(shù)據(jù)類型r的所有實(shí)例的屬性實(shí)例的出現(xiàn)概率,Pr (ο)為本體實(shí)例圖中從本體類d的所有實(shí)例到本體類或數(shù)據(jù)類型r的實(shí)例ο的屬性實(shí)例的出現(xiàn)概率。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟S2012具體計(jì)算方法為:
式中sp表示從本體框架圖中本體類到數(shù)據(jù)類型的語義關(guān)系路徑,w(p(d,r))表示該關(guān)系路徑所包含的各屬性的權(quán)重,δ為區(qū)間為(O,I)的衰減指數(shù),length (sp)為語義路徑sp包含的屬性數(shù)量,P (d, r)表示從本體框架圖中本體類d到本體類或本體數(shù)據(jù)類型r的屬性。
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟S2013具體計(jì)算方法為:
式中ip表示與本體框架圖中的語義關(guān)系路徑sp所對應(yīng)的本體實(shí)例圖中的語義關(guān)系路徑實(shí)例。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S103具體計(jì)算方法為:
式中a表示本體類實(shí)例,Iii表示查詢關(guān)鍵詞,ip表示語義關(guān)系路徑實(shí)例,IP (a, Iii)表示從類實(shí)例a到數(shù)據(jù)值為關(guān)鍵 字Ici的語義關(guān)系路徑實(shí)例集合w (ip)表示語義關(guān)系路徑ip的權(quán)重,spec (ip)表示路徑實(shí)例ip的特異性,計(jì)算公式如下:
表示路徑實(shí)例ip所包含的第i個(gè)本體類實(shí)例,ei表示以本體類實(shí)例Si為主體的屬性實(shí)例,degree (Si, ej表示以本體類實(shí)例Si為主體的所有屬性實(shí)例Oi的數(shù)量,m表示路徑實(shí)例ip所包含的本體類實(shí)例的數(shù)量。
9.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟S104具體計(jì)算方法為:
式中a表示本體類實(shí)例,K表示查詢關(guān)鍵字集合,ki表示K中第i個(gè)關(guān)鍵字,|κ|表示集合K中的元素?cái)?shù)量,D CO表示關(guān)鍵字ki的權(quán)重,D CO計(jì)算公式如下:
D(L)=丨 og
\DVki\ 式中,|dv|表示語義實(shí)例圖中所有數(shù)據(jù)值的數(shù)量,IDvkiI表示語義實(shí)例圖中所有包含關(guān)鍵字ki的數(shù)據(jù)值的數(shù)量。NR(a,ki)表示均值化后的本體類實(shí)例a與查詢關(guān)鍵字Iii之間的相關(guān)性,NR(a, Iii)計(jì)算公式如下:
式中,R(a, ki)表示本體類實(shí)例a到查詢關(guān)鍵字Ici的相關(guān)性,max{}表示取最大值。ρ為調(diào)節(jié)參數(shù),且P>0。
【文檔編號】G06F17/30GK104166670SQ201410268256
【公開日】2014年11月26日 申請日期:2014年6月17日 優(yōu)先權(quán)日:2014年6月17日
【發(fā)明者】夏美翠, 時(shí)鴻濤, 姜華, 范玉堂, 姜翠娥 申請人:青島農(nóng)業(yè)大學(xué)