利用語義限制關(guān)系來執(zhí)行查詢
背景技術(shù):萬維網(wǎng)(“Web”)向世界各地的人們提供大量的信息和服務(wù)。用于從世界各地發(fā)現(xiàn)信息的能力通常僅需要點擊一下鼠標(biāo)。同時,Web最適于供人們使用。例如,諸如尋找單詞的特定的翻譯、搜索物品的最低價格,或者向餐廳或航空公司提出預(yù)定的任務(wù)對于機器來說在沒有人協(xié)助的情況下通常難以實現(xiàn)。結(jié)果,所做的工作使得Web更可理解。語義Web例如通過定義在Web上可用的信息和服務(wù)的含義來嘗試提供一種架構(gòu),以使得Web對于人和機器是更加可理解的。該目的是使得能夠理解和滿足來自不同源的請求。語義Web旨在例如使得機器能夠執(zhí)行現(xiàn)今由人執(zhí)行的某些任務(wù)。使Web更加可理解具有許多應(yīng)用,其包括數(shù)據(jù)集成、數(shù)據(jù)分類、搜索、內(nèi)容分級、數(shù)據(jù)描述等。然而,為了實現(xiàn)這些應(yīng)用,必需標(biāo)識Web上的數(shù)據(jù)和/或服務(wù)的含義或語義。在語義Web中,語義搜索使得用戶能夠比傳統(tǒng)的關(guān)鍵字搜索技術(shù)更準(zhǔn)確地表示它們的搜索。語義搜索的結(jié)果應(yīng)當(dāng)更準(zhǔn)確且相關(guān)。用于進行更有意義的搜索的能力非常有吸引力。遺憾的是,語義搜索(和語義Web的其它應(yīng)用)受阻于所搜索的數(shù)據(jù)集的大小。結(jié)果,使語義搜索或其它語義應(yīng)用與大數(shù)據(jù)集成比例的能力是一個重要的問題。例如,通常通過將語義搜索縮減為一組一致性檢查問題來實現(xiàn)執(zhí)行語義搜索的過程。遺憾的是,針對數(shù)百萬(不然的話,數(shù)十億)的個體執(zhí)行一致性檢查實際上使得可擴展問題難于處理。換言之,針對每一個個體執(zhí)行該組一致性檢查問題耗時且不令人滿意,特別是在所使用數(shù)據(jù)集的大小變大的情況下。
技術(shù)實現(xiàn)要素:實施方式涉及從大數(shù)據(jù)集檢索信息,包括利用本體中的語義關(guān)系來回答針對該本體的查詢。在一種實施方式中,提供了一種準(zhǔn)備用于搜索的本體的方法。該方法可以由壓縮所述本體而開始。在壓縮的本體中,將原始本體中的每一組語義等同的個體中的一個個體保留在該壓縮的本體中。接著,確定該壓縮的本體中的多個個體之間的語義關(guān)系。還確定該壓縮的本體中的多個語義等同的概念和多個概念之間的語義關(guān)系。接著,可以基于根據(jù)該壓縮的本體所確定的語義關(guān)系來構(gòu)建語義限制關(guān)系圖。利用該語義限制關(guān)系圖來回答查詢。在一種實施方式中,可以通過在提供針對該本體的訪問的服務(wù)器處接收查詢而開始用于在本體中執(zhí)行查詢的方法。該查詢被轉(zhuǎn)換為一組一致性檢查問題。接著,該方法利用語義限制關(guān)系圖執(zhí)行該組一致性檢查問題。該語義限制關(guān)系圖包括根據(jù)該本體所確定的語義限制關(guān)系。該本體中的每一組語義等同的個體都用該語義限制關(guān)系圖中的一個個體來表示。接著,根據(jù)該語義限制關(guān)系圖確定針對該查詢的回答。在一種實施方式中,提供了一種用于在大數(shù)據(jù)集中執(zhí)行查詢的系統(tǒng)。該系統(tǒng)包括服務(wù)器,該服務(wù)器有權(quán)訪問存儲有本體的數(shù)據(jù)庫。繪圖組件被配置為用于根據(jù)該本體生成語義限制關(guān)系圖。該語義限制關(guān)系圖被存儲在存儲器中,并且包括多個個體之間的語義限制關(guān)系和多個概念之間的語義限制關(guān)系。從該語義限制關(guān)系圖中排除該本體中的某些語義等同的個體。該系統(tǒng)還包括查詢組件,該查詢組件與該語義限制關(guān)系圖相互交互。該查詢組件將該查詢轉(zhuǎn)換成一組一致性檢查問題,針對所述語義限制關(guān)系圖執(zhí)行所述一組一致性檢查問題,以生成所述查詢的結(jié)果。前述概括僅僅是例示性的,而非旨在以任何方式進行限制。除了上述例示性方面、實施方式以及特征以外,通過參照附圖和下面的詳細(xì)描述,其它方面、實施方式以及特征將變得明顯。附圖說明圖1示出了知識庫的例示性示例。圖2示出了用于利用語義關(guān)系在本體中執(zhí)行查詢的系統(tǒng)的例示性示例。圖3示出了本體的例示性示例。圖4示出了壓縮的本體的例示性示例。圖5例示了描繪每個概念中的多個個體的關(guān)系的圖形的示例。圖6示出了描繪針對本體中的多個概念的關(guān)系的圖形的例示性示例。圖7示出了語義限制關(guān)系圖的例示性示例。圖8示出了用于促進本體中的查詢的方法的例示性示例。圖9示出了用于執(zhí)行本體中的查詢的方法的例示性示例。圖10示出了用于在語義限制關(guān)系圖中執(zhí)行一致性檢查問題的方法的例示性示例。圖11示出了利用語義限制關(guān)系圖執(zhí)行查詢的系統(tǒng)的例示性示例。圖12描繪了根據(jù)本公開某些實施方式所設(shè)置的例示了被設(shè)置為實現(xiàn)利用本體中的語義關(guān)系執(zhí)行查詢的示例性計算裝置的框圖。具體實施方式在下面的詳細(xì)描述中,針對形成本公開的一部分的附圖進行說明。在圖中,除非上下文另有規(guī)定,否則相同的符號通常標(biāo)識類似的組件。在該詳細(xì)的說明書、附圖以及權(quán)利要求書中所描述的例示性實施方式不是旨在進行限制。在不脫離本文所提出的主旨的精神或范圍的情況下,可以利用其它實施方式,并且可以進行其它改變。容易理解的是,如在本文整體描述并且在附圖中例示的,可以以多種不同的配置來布置、代替、組合、分離并且設(shè)計本公開的方面,其全部在本文進行了明確的設(shè)想。本文所公開的實施方式總體上涉及訪問包括大數(shù)據(jù)集的數(shù)據(jù)。實施方式涉及在大數(shù)據(jù)集中執(zhí)行查詢,其包括在本體中執(zhí)行查詢和/或準(zhǔn)備用于訪問的本體。在本體中執(zhí)行諸如查詢的語義搜索可以被縮減成一組一致性檢查問題。通過縮減一致性檢查需求來改進用于訪問本體中的數(shù)據(jù)或執(zhí)行語義搜索的能力。如在本文所公開的,可以通過探索本體中的多個實體(例如,概念、個體、關(guān)系等)之間的語義關(guān)系來縮減該一致性檢查需求。根據(jù)語義關(guān)系的探索而獲取的信息可以被用于壓縮該本體。可以例如通過消除某些語義等同的個體來壓縮該本體。在將該本體壓縮之后,可以通過進一步探索該本體中的多個個體和/或多個概念之間的語義關(guān)系來構(gòu)建語義限制關(guān)系圖。接著,向該本體提交的任何查詢可以通過根據(jù)語義限制關(guān)系圖而非根據(jù)整個本體來回答該查詢而被最優(yōu)化。有利的是,實施方式不限于任何特定的邏輯語言或知識庫,并且不依賴任何特定語言。圖1示出了知識庫100的例示性示例。知識庫100(在本文還可以稱為本體)可以被表示成具有兩部分:術(shù)語框102(TBox102)和斷言框104(ABox104)。TBox102可以包含對知識庫100中的多個概念進行定義并且對多個概念之間的角色或關(guān)系進行定義的公理106。ABox104包含可以使用TBox102中的概念或關(guān)系來對知識庫100中的個體進行斷言的公理108??梢砸园ǎ▋H通過示例的方式)圖形和/或句法形式的不同的形式來表示TBox102和/或ABox104。通常利用預(yù)定義的句法或預(yù)定的句法(例如描述語言110)來構(gòu)建公理106和108??梢詫χR庫100執(zhí)行推理112。推理112例如可以被用于回答針對知識庫100的查詢,并且可以包括基于該查詢在知識庫100中執(zhí)行一致性檢查。本領(lǐng)域技術(shù)人員可以理解的是,諸如以及的符號是可以在描述語言110中使用的在描述邏輯中的符號的示例。本領(lǐng)域技術(shù)人員可以理解的是,描述語言110不限于這些特定的符號。在描述邏輯中使用的符號是本領(lǐng)域技術(shù)人員所熟知的,因而不需要在此詳細(xì)闡述。下面的公理集是知識庫100的示例,其致力于一個家庭的話題或主題。在該示例中,知識庫100可以包含以下公理:α1:母親女性α2:男性女性Tα3:沒有女兒的母親母親α4:沒有女兒的母親有孩子。女性α5:沒有女兒的母親(瑪麗)α6:有孩子(瑪麗、彼得)在知識庫100的以上示例中,公理α1至α4是TBox102中的公理106的示例。公理α5至α6是ABox104中的公理108的示例。公理α1規(guī)定母親是女性的子類。公理α2規(guī)定男性和女性不相交,某個體不能屬于它們兩者。公理α3規(guī)定沒有女兒的母親是母親的子類。公理α4規(guī)定沒有女兒的母親是其孩子不是女孩的女性。公理α6是關(guān)系的示例,并且TBox102和ABox104中的所有其它公理是該示例中的多個個體的概念或斷言。公理α5使用概念沒有女兒的母親來斷言瑪麗(該示例中的個體)是沒有女兒的母親。公理α6使用有孩子的關(guān)系來斷言瑪麗有孩子彼得。通過推理,可以推斷彼得是男性,盡管該斷言在知識庫100中未明確地呈現(xiàn)。圖2示出了用于利用語義關(guān)系在本體212中執(zhí)行查詢210的系統(tǒng)200的例示性示例。在該示例中,可以利用語義限制關(guān)系圖208(圖形208)來解答查詢210??梢噪x線220生成圖形208。換言之,圖形208的生成可以在回答查詢210的環(huán)境下離線地執(zhí)行。與在接收到查詢210之后生成圖形208相比,通過離線生成圖形208可以更快速地解答或回答查詢210。必要時,圖形208可以隨著時間而更新,作為附加的數(shù)據(jù)而添加至本體212。本體212是知識庫100的示例。在框206(構(gòu)建語義限制關(guān)系圖)中,探索本體212中的語義關(guān)系以構(gòu)建圖形208。生成圖形208的過程包括(僅通過示例的方式):如框214所例示的本體壓縮;如框202所例示的探索同一概念中的多個個體的語義關(guān)系;以及如框204所例示的探索不同的概念之間的多個個體的關(guān)系。如框214所例示的本體壓縮通過探索本體212中的某些語義關(guān)系來生成壓縮的本體222。在生成壓縮的本體222時,本體212中的多個語義等同的個體被分組為同一個體或一個個體。另選地規(guī)定,來自給定的概念中的一組語義等同的個體中的一個個體被保持在壓縮的本體222中。壓縮的本體222幫助查詢210的解答,因為其在解答查詢210時根據(jù)考慮去除了語義等同的個體。去除語義等同的個體縮減了與查詢210的解答相關(guān)聯(lián)的一致性檢查需求。語義關(guān)系通常建立或標(biāo)識本體212中的多個個體和/或多個概念之間的關(guān)系。語義關(guān)系可以將多個個體和/或概念標(biāo)識為與其它個體和/或概念相比在語義上等同、在語義上限制較少或者在語義上限制較多。由此,語義關(guān)系還包括語義限制關(guān)系。語義限制關(guān)系可以被定義如下形式。在本體∑(例如,本體212)中,其中,e1和e2是本體∑中的兩個實體(每一個實體(僅通過示例的方式)皆可以是一個個體或概念),假設(shè)S(e)表示本體∑中的包含e的所有公理。在該示例中,S(e)s→s’表示針對S(e)中的所有公理用符號s'替換s。(1)如果S(e1)e1→e2=S(e2),則e1和e2語義上等同,用表示。(2)如果則e1比e2語義限制更多,用表示;(3)如果則e2比e1語義限制更多,用表示。如框202所例示的,探索同一概念中的多個個體的語義關(guān)系可以針對本體212進行。如果本體212中的或本體212的同一概念中的兩個個體具有語義限制關(guān)系,則針對這些個體的一致性檢查將也是相關(guān)的。在某種意義上,針對一個個體執(zhí)行一致性檢查生成與當(dāng)針對語義等同的個體執(zhí)行一致性檢查時所生成的結(jié)果相同的結(jié)果。可以通過去除語義等同的個體來壓縮本體∑。更具體地說,給定本體∑和查詢Q(x),其中,a1和a2是本體∑中的兩個個體,如果多個個體在語義上相關(guān),則可以縮減一致性檢查。可以使用以下定義,以通過利用本體∑中的多個個體之間的語義限制關(guān)系來縮減一致性檢查的數(shù)目。(4)如果則(語義上等同)。(5)如果則(a1比a2語義限制更多)。(6)如果則(a2比a1語義限制更多)。前述定義可以被用于確定本體212的同一概念中的兩個個體是否在語義上等同。另外,對于不必執(zhí)行一致性檢查的語義上相關(guān)的其它個體來說,還可以獲得一致性檢查的結(jié)果。換言之,系統(tǒng)200縮減針對查詢210的一致性檢查需求,并且不再必需針對本體212中的所有個體執(zhí)行關(guān)于諸如查詢210這樣的查詢的一致性檢查。語義等同的個體可以僅存在于本體212的同一概念中。在每一個概念中,語義等同的個體可以利用第一定義(1)來標(biāo)識:如果S(e1)e1→e2=S(e2),則可以通過針對每一組語義等同的個體保持一個個體來生成或確定壓縮的本體222。在解答查詢210時可以從本體212中去除其它語義等同的個體和/或相關(guān)的公理,或者至少根據(jù)考慮來去除。由于同一概念中通常存在數(shù)千個個體,如框202所例示的探索語義關(guān)系可以在個體層面對執(zhí)行一致性檢查所需的時間進行縮減。然而,探索同一概念中的多個個體的語義關(guān)系(在框202中)可以不僅包括標(biāo)識語義等同的個體。剩余的個體之間的語義限制關(guān)系可以被同時確定或者在本體已經(jīng)被壓縮之后被確定。向壓縮的本體222應(yīng)用定義(2)和(3)例如可以確定,一個給定的個體相對于壓縮的本體222中的或者本體212中的另一個體語義限制更多還是語義限制更少??梢葬槍σ唤o定的概念中的多個個體迭代地執(zhí)行該過程,以確定在壓縮的本體222中的該概念的多個個體之間的語義關(guān)系。然而,在多個概念之間的并且/或者在不同的概念中的多個個體之間通常存在語義限制關(guān)系。多個概念之間的并且/或者在不同的概念中的多個個體之間的語義關(guān)系還可以被用于對執(zhí)行一致性檢查所需的時間進行縮減。在框204中,當(dāng)在框206中構(gòu)建圖形208時,對在不同的概念之間的多個個體的語義關(guān)系和/或不同的概念之間的語義關(guān)系進行探索??梢栽诙鄠€概念之間探索語義關(guān)系??梢岳门c(1)、(2)以及(3)相同的或相似的方法來確定多個概念之間的語義關(guān)系。給出本體∑和查詢Q(x),其中,C1和C2是∑中的兩個概念,并且其中,C1和C2未出現(xiàn)在Q(x)中,這里,aC表示a是概念C的一個個體,如果遍布多個概念的多個個體在語義上是相關(guān)的,則可以縮減一致性檢查??梢允褂孟铝卸x,以通過利用屬于本體∑中的不同的概念的多個個體之間的語義限制關(guān)系來縮減一致性檢查的數(shù)目。(7)如果則(8)如果則(9)如果則當(dāng)應(yīng)用這些定義來探索多個概念之間的語義關(guān)系時,本體∑(例如本體212)通常從底至頂進行處理。更具體地說,首先處理本體∑的最低等級的概念。本體∑中的更高等級被迭代地處理,直到最高級的和/或頂部的概念被處理為止。當(dāng)處理多個概念之間的語義關(guān)系時,可以去除與一致性檢查不相關(guān)的公理。對于概念C來說,通過示例而非限制的方式,可以去除本體212中的下列公理類型:C(a)、DC、DR.C以及D≥nR.C。在去除了與一致性檢查不相關(guān)的公理之后,可以利用定義(1)來標(biāo)識或確定語義等同的概念。同樣地,利用定義(2)和(3),可以確定多個概念之間的語義關(guān)系。在框202中探索了同一概念中的多個個體的語義關(guān)系并且在框204中探索了不同的概念之間的多個個體的關(guān)系和/或多個概念之間的語義關(guān)系之后,在框206中構(gòu)建圖形208?;谙惹按_定的語義關(guān)系,可以對各概念中的多個個體進行如下的尋址:如果則添加a1←a2;如果則添加a1→a2。接著,在構(gòu)建圖形208的同時對概念進行如下尋址:如果則添加aC1←bC2,其中,如果則添加aC1→bC2,其中,如果則添加aC1bC2,其中,aC1,bC2(S(a)C1→C2,a→b=S(b));如果則用C1替換C2,并且針對C1中的多個個體探索語義等同關(guān)系。如果則添加其它語義關(guān)系如在此所描述地進行處理。例如,如果則添加e1←e2。如果則添加e1→e2。按這種方式,通過示例的方式,可以探索不同的概念中的多個個體之間的語義關(guān)系。在框202中探索了同一概念中的多個個體的語義關(guān)系并且在框204中探索了不同的概念之間的多個個體的關(guān)系和/或多個概念之間的語義關(guān)系之后,在框206中構(gòu)建圖形208。圖3至圖7示出了構(gòu)建語義限制圖的例示性示例。該語義限制圖可以被用于回答查詢或執(zhí)行其它應(yīng)用??梢噪x線執(zhí)行語義限制圖的生成。圖3示出了本體300的例示性示例。本體300是知識庫100的和本體212的示例。本體300包括:TBox302,其是TBox102的示例;以及ABox304,其是ABox104的示例。TBox302包括公理326,而ABox304包括公理328。還提供了圖形306和308,以用圖形方式例示ABox304。諸如概念308、310和312這樣的概念用方形節(jié)點表示。諸如個體314、316以及318這樣的個體用圓形節(jié)點表示。圖形306例示了概念斷言,并且圖形308例示了例如包括關(guān)系320、322以及324這樣的關(guān)系的角色斷言。圖4示出了壓縮的本體400的例示性示例。該壓縮的本體400根據(jù)本體300生成。更具體地說,生成該壓縮的本體400包括探索本體300中的語義關(guān)系,以便壓縮本體300。探索本體300中的語義關(guān)系使得能夠通過去除大部分語義等同的個體來生成壓縮的本體400。多個語義等同的個體中的一個語義等同的個體被包括在壓縮的本體400中。更具體地說,每個概念中的語義等同的個體被標(biāo)識。通過針對每個概念中的每一組等同的個體僅保持多個語義等同的個體中的一個語義等同的個體由本體300生成壓縮的本體400。例如,圖3例示了概念308包括多個個體330(例如,個體a0至ai),其中,i可以是大的。圖4例示了多個個體330已經(jīng)被縮減至多個個體410,其在該示例中包括個體a0、a1以及a2。在一個示例中,在評估本體300中的多個個體時,可以使用表或圖形來跟蹤每個組中的多個語義等同的個體。該表允許將多個語義等同的個體映射至保留在壓縮的本體400中的個體。下面所例示的表1例示了針對概念308的局部映射表。在表1中,個體a0、a3、...已經(jīng)被標(biāo)識為語義等同的個體,并且被映射至個體a0。個體a0被包括在壓縮的本體400中的多個個體410中。語義等同的個體b2、b3已經(jīng)被映射至個體b2。語義等同的個體b5、b6已經(jīng)被映射至個體b5。在該示例中,表1例示了概念A(yù)308中的所有個體已經(jīng)被映射至三個個體。本體300中的其它概念已經(jīng)被同樣地評估并映射以生成壓縮的本體400。結(jié)果,壓縮的本體400可以充分地小于原始本體300。另外,ABox402可以包括更少的公理404。表1語義等同的個體映射的個體aO、a3、...a0b2、b3b2bS、b6bS針對個體a0、a3,僅存在:一個包含a0的公理A(a0),S(a0)={A(a0)};以及一個包含a3的公理A(a3),S(a3)={A(a3)}。如果將a3改變成a0,則S(a3)a3→a0=S(a0)。結(jié)果,個體a0和a3在語義上等同,或者同樣地,個體a0和aj在語義上等同,其中,j>3。針對個體b2和b3,S(b2)={B(b2),R(a1,b2)},S(b3)={B(b3),R(a1,b3)}并且S(b3)b3→b2=S(b2)。結(jié)果,個體b2和b3在語義上等同,或者可以同樣地確定其它語義等同的個體。對多個語義等同的個體進行標(biāo)識并且僅保持一個語義等同的個體的該過程壓縮了本體300,并且導(dǎo)致產(chǎn)生壓縮的本體400。同樣地,探索不同的概念中的多個個體之間的語義關(guān)系的過程導(dǎo)致產(chǎn)生了角色斷言的圖形408。與ABox304相比,ABox402尺寸縮減。在建立了壓縮的本體400之后,還可以生成語義限制關(guān)系圖。構(gòu)建語義限制關(guān)系圖的過程包括探索同一概念中的多個個體的語義關(guān)系以及探索不同的概念中的多個個體的語義關(guān)系。更具體地說,壓縮的本體400的建立可以不僅包括多個語義等同的個體的標(biāo)識。該語義限制關(guān)系圖包括對一個個體與同一概念或不同的概念中的另一個體相比限制更多或限制更少的實例進行分析。圖5例示了對每個概念中的多個個體的關(guān)系進行描繪的圖形500的示例。針對個體a0、a1以及a2:S(a0)={A(a0)},S(a1)={A(a1),R(a1,b1),R(a1,c1),R(a1,b2)},以及S(a2)={A(a2),R(c1,a2),R(a2,b4),R(a2,c3),R(a2,b5)}。因為并且所以個體a1比個體a0限制更多,或者同樣地,個體a2比個體a0限制更多,或者圖形500的一部分502例示了在同一概念內(nèi)的個體a0、a1以及a2之間的這些關(guān)系。可以針對其它概念中的個體類似地確定部分504、506、508、510以及512。圖6示出了針對本體300中的多個概念的圖形600的例示性示例??梢裕▋H通過示例的方式)利用先前規(guī)定的定義(1)至(3)來生成限制圖形600??梢砸宰畹偷燃壍母拍铋_始迭代地生成限制圖形600。圖6例示了概念612比概念610限制更多。概念608比概念610限制更少。概念606和604是等同概念。概念602是最高等級的概念,并且比概念604和606限制更少。圖7示出了語義限制關(guān)系圖700(圖形700)的例示性示例??梢愿鶕?jù)壓縮的本體400、圖形500和600中的信息,并且通過探索在圖形500中的和圖形600中的語義限制關(guān)系來生成圖形700。例如,在圖5和圖6中,由此,如關(guān)系702所例示的,由于S(a0)=A(a0)、S(b0)=B(b0)以及所以圖5和圖6例示了在該示例中,如關(guān)系704所例示的,如果用B替換C,則S(b2)={B(b2),R(a1,b2)},S(b5)={B(b5),R(a2,b5)},S(c1)={B(c1),R(a1,c1),R(c1,a2)},S(c3)={B(c3),R(a2,c3)}。在該示例中,結(jié)果,如關(guān)系706所例示的,因為Sc3→b5(c1)=S(b2),所以如關(guān)系708所例示的,可以以同樣的方式來確定圖形700中的其它關(guān)系。圖7所例示的語義限制關(guān)系圖700可以被用于回答查詢,并且縮減將另外在本體300中執(zhí)行的一致性檢查需求。圖8示出了用于促進在本體中的查詢的方法800的例示性...