基于用戶定制的本體實例匹配系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種基于用戶定制的本體實例匹配系統(tǒng)及方法,該基于用戶定制的本體實例匹配系統(tǒng)包括組件模塊和配置模塊;該組件模塊,包括多個原子組件;該配置模塊,用于接收用戶輸入的定制信息,并根據(jù)該定制信息生成匹配任務(wù)定制文件,以及根據(jù)該匹配任務(wù)定制文件從該組件模塊中選取用戶所需的原子組件以執(zhí)行本體實例匹配任務(wù),該匹配任務(wù)定制文件包括:待匹配本體O1和O2的URI位置、匹配參數(shù)和匹配流程。本發(fā)明能夠使用戶能夠根據(jù)匹配本體的特征,對原子組件進行定制和組裝來設(shè)計自己需要的本體的實例匹配流程,生成合適的匹配任務(wù),并獲得精確地匹配結(jié)果。
【專利說明】基于用戶定制的本體實例匹配系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語義萬維網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種基于用戶定制的本體實例匹配系統(tǒng)及方法。
【背景技術(shù)】
[0002]語義Web由萬維網(wǎng)的創(chuàng)始人Tim Berners-Lee提出,是探索新一代互聯(lián)網(wǎng)發(fā)展的重要技術(shù)。目前語義Web技術(shù)已經(jīng)得到了廣泛的發(fā)展,并涌現(xiàn)出大量的實際應(yīng)用,如LinkedData、語義維基等。伴隨著語義網(wǎng)的發(fā)展,越來越多的數(shù)據(jù)采用本體的方式來描述。然而不同的本體之間的異構(gòu)造成數(shù)據(jù)交換和語義互操作的新的障礙。本體的異構(gòu)分為兩個層面,模式層異構(gòu)和實例層的異構(gòu)。由于現(xiàn)在大量大規(guī)模本體知識庫的公開,每個知識庫的實例個數(shù)較大,不可能和模式層一樣能夠進行人工對齊,所以自動對齊本體知識庫的實例層的技術(shù)成為了目前語義網(wǎng)技術(shù)的一大熱點。
[0003]目前國內(nèi)外已有很多關(guān)于本體實例匹配方法的研究,并且有不少的本體實例匹配系統(tǒng)被開發(fā)出來并得到應(yīng)用,比較著名的系統(tǒng)包括ASMOV,SLINT+, Sigma, Paris, Codi等等,這些系統(tǒng)在有的數(shù)據(jù)集上面能夠取得較好的結(jié)果,但并不能在所有的本體實例匹配任務(wù)中都獲得令人滿意的匹配結(jié)果。例如他們?nèi)慷疾荒芴幚韮蓚€本體的實例的謂語個數(shù)變化較大的時候的匹配任務(wù),而且這些系統(tǒng)都是基于相似度比較來確定匹配對,以及有的系統(tǒng)在做匹配的時候沒有充分利用已有的信息,有的系統(tǒng)只能適用特定的數(shù)據(jù)集。并且大部分的系統(tǒng)都是有固定的匹配流程,以及采用統(tǒng)一的匹配策略,統(tǒng)一的計算相似度的方案。這些在實際的知識庫的匹配中都會帶來不良的影響。
【發(fā)明內(nèi)容】
[0004](一 )要解決的技術(shù)問題
[0005]本發(fā)明要解決的技術(shù)問題是如何充分利用本體的實體信息,并根據(jù)需求對匹配流程進行組裝,獲得精確地匹配結(jié)果。
[0006]( 二 )技術(shù)方案
[0007]為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案提供了一種基于用戶定制的本體實例匹配系統(tǒng),包括組件模塊和配置模塊;
[0008]所述組件模塊,包括多個原子組件;
[0009]所述配置模塊,用于接收用戶輸入的定制信息,并根據(jù)所述定制信息生成匹配任務(wù)定制文件,以及根據(jù)所述匹配任務(wù)定制文件從所述組件模塊中選取用戶所需的原子組件以執(zhí)行本體實例匹配任務(wù),所述匹配任務(wù)定制文件包括:待匹配本體OdP O2的URI位置、匹配參數(shù)和匹配流程。
[0010]進一步地,所述組件模塊中的原子組件包括:
[0011]預(yù)處理器,用于在完成實際的匹配操作執(zhí)行前初始化匹配任務(wù),包括,解析本體、規(guī)范化本體中術(shù)語、去噪音以及具體的匹配器中所用到的數(shù)據(jù)結(jié)構(gòu)的建立;
[0012]阻塞器,采用倒排索引操作實現(xiàn)本體實例之間的候選對的生成;
[0013]相似度計算工具,用于計算對齊謂語的值的相似度;
[0014]相似度聚合器,用于對于多個屬性的相似度進行聚合;
[0015]匹配策略器,用于基于信息的匹配策略和基于相似度比較的策略進行實例對齊;
[0016]驗證器,用于剔除錯誤的本體實例匹配對;
[0017]結(jié)果評估器,用于依據(jù)指定的評價指標對優(yōu)化后的本體實例匹配結(jié)果進行評估。
[0018]進一步地,所述組件模塊中的原子組件還包括翻譯器,用于處理不同語言的本體實例匹配任務(wù)時將語言進行統(tǒng)一化。
[0019]進一步地,所述相似度計算工具包括:基于tfidf的余弦相似度計算工具,基于編輯距離的相似度計算工具,基于wordNet相似度計算工具。
[0020]進一步地,所述相似度聚合器對于多個屬性的相似度進行聚合的方法包括:平均聚合方法,sigomid聚合方法,加權(quán)指數(shù)平均聚合方法。
[0021]為解決上述技術(shù)問題,本發(fā)明還提供了一種上述系統(tǒng)進行本體實例匹配的方法,包括:
[0022]S1:用戶輸入定制信息,并通過配置模塊根據(jù)所述定制信息生成匹配任務(wù)定制文件,以及根據(jù)所述匹配任務(wù)定制文件從所述組件模塊中選取用戶所需的原子組件;
[0023]S2:初始化匹配任務(wù),包括解析本體、規(guī)范化本體中術(shù)語、去噪音以及具體的匹配器中所用到的數(shù)據(jù)結(jié)構(gòu)的建立;
[0024]S3:采用倒排索引操作生成本體實例之間的候選對,得到候選對集合以及唯一信息實例集合;
[0025]S4:對候選對集合進行謂語相似度計算,然后將謂語相似度進行相似度聚合,然后將候選對及其分數(shù)作為節(jié)點,按分數(shù)從高到低進入優(yōu)先隊列;
[0026]S5:對新產(chǎn)生的唯一信息實例集合,利用唯一主語匹配策略進行實例的對齊操作,然后將新產(chǎn)生的對齊的實例對利用剩一賓語匹配策略產(chǎn)生新的實例匹配對,根據(jù)新產(chǎn)生的實例匹配對更新唯一信息實例集合,然后利用該新產(chǎn)生的實例匹配對來更新優(yōu)先隊列中相關(guān)候選對的分數(shù),以及產(chǎn)生新的候選對并計算其分數(shù),重復該步驟直至沒有產(chǎn)生新的唯一信息實例集合;
[0027]S6:對于候選對集合,使用得分匹配策略獲取得分最高的候選對,如果獲取的候選對的分數(shù)低于預(yù)設(shè)的閾值則跳轉(zhuǎn)到S7,否則把該獲取的候選對作為實例匹配對,然后更新相應(yīng)的候選對的分數(shù),并且產(chǎn)生新的候選對,以及更新唯一信息實例集合,跳轉(zhuǎn)到S5 ;
[0028]S7:對對齊的實例匹配對進行驗證。
[0029]進一步地,所述步驟S4中對相似度進行聚合的方式為:
【權(quán)利要求】
1.一種基于用戶定制的本體實例匹配系統(tǒng),其特征在于,包括組件模塊和配置模塊; 所述組件模塊,包括多個原子組件; 所述配置模塊,用于接收用戶輸入的定制信息,并根據(jù)所述定制信息生成匹配任務(wù)定制文件,以及根據(jù)所述匹配任務(wù)定制文件從所述組件模塊中選取用戶所需的原子組件以執(zhí)行本體實例匹配任務(wù),所述匹配任務(wù)定制文件包括:待匹配本體O1和O2的URI位置、匹配參數(shù)和匹配流程。
2.根據(jù)權(quán)利要求1所述的基于用戶定制的本體實例匹配系統(tǒng),其特征在于,所述組件模塊中的原子組件包括: 預(yù)處理器,用于在完成實際的匹配操作執(zhí)行前初始化匹配任務(wù),包括,解析本體、規(guī)范化本體中術(shù)語、去噪音以及具體的匹配器中所用到的數(shù)據(jù)結(jié)構(gòu)的建立; 阻塞器,采用倒排索引操作實現(xiàn)本體實例之間的候選對的生成; 相似度計算工具,用于計算對齊謂語的值的相似度; 相似度聚合器,用于對于多個屬性的相似度進行聚合; 匹配策略器,用于基于信息的匹配策略和基于相似度比較的策略進行實例對齊; 驗證器,用于剔除錯誤的本體實例匹配對; 結(jié)果評估器,用于依據(jù)指定的評價指標對優(yōu)化后的本體實例匹配結(jié)果進行評估。
3.根據(jù)權(quán)利要求2所述的基于用戶定制的本體實例匹配系統(tǒng),其特征在于,所述組件模塊中的原子組件還包括翻譯器,用于處理不同語言的本體實例匹配任務(wù)時將語言進行統(tǒng)一化。
4.根據(jù)權(quán)利要求2所述的基于用戶定制的本體實例匹配系統(tǒng),其特征在于,所述相似度計算工具包括:基于tfidf的余弦相似度計算工具,基于編輯距離的相似度計算工具,基于wordNet相似度計算工具。
5.根據(jù)權(quán)利要求2所述的基于用戶定制的本體實例匹配系統(tǒng),其特征在于,所述相似度聚合器對于多個屬性的相似度進行聚合的方法包括:平均聚合方法,sigomid聚合方法,加權(quán)指數(shù)平均聚合方法。
6.一種如權(quán)利要求1至7任一所述的系統(tǒng)進行本體實例匹配的方法,其特征在于,包括: S1:用戶輸入定制信息,并通過配置模塊根據(jù)所述定制信息生成匹配任務(wù)定制文件,以及根據(jù)所述匹配任務(wù)定制文件從所述組件模塊中選取用戶所需的原子組件; 52:初始化匹配任務(wù),包括解析本體、規(guī)范化本體中術(shù)語、去噪音以及具體的匹配器中所用到的數(shù)據(jù)結(jié)構(gòu)的建立; 53:采用倒排索引操作生成本體實例之間的候選對,得到候選對集合以及唯一信息實例集合; 54:對候選對集合進行謂語相似度計算,然后將謂語相似度進行相似度聚合,然后將候選對及其分數(shù)作為節(jié)點,按分數(shù)從高到低進入優(yōu)先隊列; 55:對新產(chǎn)生的唯一信息實例集合,利用唯一主語匹配策略進行實例的對齊操作,然后將新產(chǎn)生的對齊的實例對利用剩一賓語匹配策略產(chǎn)生新的實例匹配對,根據(jù)新產(chǎn)生的實例匹配對更新唯一信息實例集合,然后利用該新產(chǎn)生的實例匹配對來更新優(yōu)先隊列中相關(guān)候選對的分數(shù),以及產(chǎn)生新的候選對并計算其分數(shù),重復該步驟直至沒有產(chǎn)生新的唯一信息實例集合; 56:對于候選對集合,使用得分匹配策略獲取得分最高的候選對,如果獲取的候選對的分數(shù)低于預(yù)設(shè)的閾值則跳轉(zhuǎn)到S7,否則把該獲取的候選對作為實例匹配對,然后更新相應(yīng)的候選對的分數(shù),并且產(chǎn)生新的候選對,以及更新唯一信息實例集合,跳轉(zhuǎn)到S5 ; 57:對對齊的實例匹配對進行驗證。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟S4中對相似度進行聚合的方式為:
^ Wi * exp (W1 * Si) ExpAggCSO ^ ^~--
Wi * expKw1 * I)
s ,- 其中S是所有的謂語的相似度的值的集合,W/是第i個謂語的相似度的權(quán)重,Wi"為第i個謂語的權(quán)重。
【文檔編號】G06F9/44GK104133673SQ201410319194
【公開日】2014年11月5日 申請日期:2014年7月4日 優(yōu)先權(quán)日:2014年7月4日
【發(fā)明者】邵超, 胡琳梅, 李涓子 申請人:清華大學