基于用戶定制的本體實例匹配系統(tǒng)及方法

文檔序號：6552425閱讀：222來源：國知局

基于用戶定制的本體實例匹配系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種基于用戶定制的本體實例匹配系統(tǒng)及方法，該基于用戶定制的本體實例匹配系統(tǒng)包括組件模塊和配置模塊；該組件模塊，包括多個原子組件；該配置模塊，用于接收用戶輸入的定制信息，并根據(jù)該定制信息生成匹配任務(wù)定制文件，以及根據(jù)該匹配任務(wù)定制文件從該組件模塊中選取用戶所需的原子組件以執(zhí)行本體實例匹配任務(wù)，該匹配任務(wù)定制文件包括：待匹配本體O1和O2的URI位置、匹配參數(shù)和匹配流程。本發(fā)明能夠使用戶能夠根據(jù)匹配本體的特征，對原子組件進行定制和組裝來設(shè)計自己需要的本體的實例匹配流程，生成合適的匹配任務(wù)，并獲得精確地匹配結(jié)果。
【專利說明】基于用戶定制的本體實例匹配系統(tǒng)及方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語義萬維網(wǎng)【技術(shù)領(lǐng)域】，尤其涉及一種基于用戶定制的本體實例匹配系統(tǒng)及方法。

【背景技術(shù)】
[0002]語義Web由萬維網(wǎng)的創(chuàng)始人Tim Berners-Lee提出，是探索新一代互聯(lián)網(wǎng)發(fā)展的重要技術(shù)。目前語義Web技術(shù)已經(jīng)得到了廣泛的發(fā)展，并涌現(xiàn)出大量的實際應(yīng)用，如LinkedData、語義維基等。伴隨著語義網(wǎng)的發(fā)展，越來越多的數(shù)據(jù)采用本體的方式來描述。然而不同的本體之間的異構(gòu)造成數(shù)據(jù)交換和語義互操作的新的障礙。本體的異構(gòu)分為兩個層面，模式層異構(gòu)和實例層的異構(gòu)。由于現(xiàn)在大量大規(guī)模本體知識庫的公開，每個知識庫的實例個數(shù)較大，不可能和模式層一樣能夠進行人工對齊，所以自動對齊本體知識庫的實例層的技術(shù)成為了目前語義網(wǎng)技術(shù)的一大熱點。
[0003]目前國內(nèi)外已有很多關(guān)于本體實例匹配方法的研究，并且有不少的本體實例匹配系統(tǒng)被開發(fā)出來并得到應(yīng)用，比較著名的系統(tǒng)包括ASMOV，SLINT+, Sigma, Paris, Codi等等，這些系統(tǒng)在有的數(shù)據(jù)集上面能夠取得較好的結(jié)果，但并不能在所有的本體實例匹配任務(wù)中都獲得令人滿意的匹配結(jié)果。例如他們?nèi)慷疾荒芴幚韮蓚€本體的實例的謂語個數(shù)變化較大的時候的匹配任務(wù)，而且這些系統(tǒng)都是基于相似度比較來確定匹配對，以及有的系統(tǒng)在做匹配的時候沒有充分利用已有的信息，有的系統(tǒng)只能適用特定的數(shù)據(jù)集。并且大部分的系統(tǒng)都是有固定的匹配流程，以及采用統(tǒng)一的匹配策略，統(tǒng)一的計算相似度的方案。這些在實際的知識庫的匹配中都會帶來不良的影響。

【發(fā)明內(nèi)容】

[0004](一 )要解決的技術(shù)問題
[0005]本發(fā)明要解決的技術(shù)問題是如何充分利用本體的實體信息，并根據(jù)需求對匹配流程進行組裝，獲得精確地匹配結(jié)果。
[0006]( 二 )技術(shù)方案
[0007]為解決上述技術(shù)問題，本發(fā)明的技術(shù)方案提供了一種基于用戶定制的本體實例匹配系統(tǒng)，包括組件模塊和配置模塊；
[0008]所述組件模塊，包括多個原子組件；
[0009]所述配置模塊，用于接收用戶輸入的定制信息，并根據(jù)所述定制信息生成匹配任務(wù)定制文件，以及根據(jù)所述匹配任務(wù)定制文件從所述組件模塊中選取用戶所需的原子組件以執(zhí)行本體實例匹配任務(wù)，所述匹配任務(wù)定制文件包括:待匹配本體OdP O2的URI位置、匹配參數(shù)和匹配流程。
[0010]進一步地，所述組件模塊中的原子組件包括:
[0011]預(yù)處理器，用于在完成實際的匹配操作執(zhí)行前初始化匹配任務(wù)，包括，解析本體、規(guī)范化本體中術(shù)語、去噪音以及具體的匹配器中所用到的數(shù)據(jù)結(jié)構(gòu)的建立；
[0012]阻塞器，采用倒排索引操作實現(xiàn)本體實例之間的候選對的生成；
[0013]相似度計算工具，用于計算對齊謂語的值的相似度；
[0014]相似度聚合器，用于對于多個屬性的相似度進行聚合；
[0015]匹配策略器，用于基于信息的匹配策略和基于相似度比較的策略進行實例對齊；
[0016]驗證器，用于剔除錯誤的本體實例匹配對；
[0017]結(jié)果評估器，用于依據(jù)指定的評價指標對優(yōu)化后的本體實例匹配結(jié)果進行評估。
[0018]進一步地，所述組件模塊中的原子組件還包括翻譯器，用于處理不同語言的本體實例匹配任務(wù)時將語言進行統(tǒng)一化。
[0019]進一步地，所述相似度計算工具包括:基于tfidf的余弦相似度計算工具，基于編輯距離的相似度計算工具，基于wordNet相似度計算工具。
[0020]進一步地，所述相似度聚合器對于多個屬性的相似度進行聚合的方法包括:平均聚合方法，sigomid聚合方法，加權(quán)指數(shù)平均聚合方法。
[0021]為解決上述技術(shù)問題，本發(fā)明還提供了一種上述系統(tǒng)進行本體實例匹配的方法，包括:
[0022]S1:用戶輸入定制信息，并通過配置模塊根據(jù)所述定制信息生成匹配任務(wù)定制文件，以及根據(jù)所述匹配任務(wù)定制文件從所述組件模塊中選取用戶所需的原子組件；
[0023]S2:初始化匹配任務(wù)，包括解析本體、規(guī)范化本體中術(shù)語、去噪音以及具體的匹配器中所用到的數(shù)據(jù)結(jié)構(gòu)的建立；
[0024]S3:采用倒排索引操作生成本體實例之間的候選對，得到候選對集合以及唯一信息實例集合；
[0025]S4:對候選對集合進行謂語相似度計算，然后將謂語相似度進行相似度聚合，然后將候選對及其分數(shù)作為節(jié)點，按分數(shù)從高到低進入優(yōu)先隊列；
[0026]S5:對新產(chǎn)生的唯一信息實例集合，利用唯一主語匹配策略進行實例的對齊操作，然后將新產(chǎn)生的對齊的實例對利用剩一賓語匹配策略產(chǎn)生新的實例匹配對，根據(jù)新產(chǎn)生的實例匹配對更新唯一信息實例集合，然后利用該新產(chǎn)生的實例匹配對來更新優(yōu)先隊列中相關(guān)候選對的分數(shù)，以及產(chǎn)生新的候選對并計算其分數(shù)，重復該步驟直至沒有產(chǎn)生新的唯一信息實例集合；
[0027]S6:對于候選對集合，使用得分匹配策略獲取得分最高的候選對，如果獲取的候選對的分數(shù)低于預(yù)設(shè)的閾值則跳轉(zhuǎn)到S7，否則把該獲取的候選對作為實例匹配對，然后更新相應(yīng)的候選對的分數(shù)，并且產(chǎn)生新的候選對，以及更新唯一信息實例集合，跳轉(zhuǎn)到S5 ；
[0028]S7:對對齊的實例匹配對進行驗證。
[0029]進一步地，所述步驟S4中對相似度進行聚合的方式為:

【權(quán)利要求】
1.一種基于用戶定制的本體實例匹配系統(tǒng)，其特征在于，包括組件模塊和配置模塊；所述組件模塊，包括多個原子組件；所述配置模塊，用于接收用戶輸入的定制信息，并根據(jù)所述定制信息生成匹配任務(wù)定制文件，以及根據(jù)所述匹配任務(wù)定制文件從所述組件模塊中選取用戶所需的原子組件以執(zhí)行本體實例匹配任務(wù)，所述匹配任務(wù)定制文件包括:待匹配本體O1和O2的URI位置、匹配參數(shù)和匹配流程。
2.根據(jù)權(quán)利要求1所述的基于用戶定制的本體實例匹配系統(tǒng)，其特征在于，所述組件模塊中的原子組件包括: 預(yù)處理器，用于在完成實際的匹配操作執(zhí)行前初始化匹配任務(wù)，包括，解析本體、規(guī)范化本體中術(shù)語、去噪音以及具體的匹配器中所用到的數(shù)據(jù)結(jié)構(gòu)的建立；阻塞器，采用倒排索引操作實現(xiàn)本體實例之間的候選對的生成；相似度計算工具，用于計算對齊謂語的值的相似度；相似度聚合器，用于對于多個屬性的相似度進行聚合；匹配策略器，用于基于信息的匹配策略和基于相似度比較的策略進行實例對齊；驗證器，用于剔除錯誤的本體實例匹配對；結(jié)果評估器，用于依據(jù)指定的評價指標對優(yōu)化后的本體實例匹配結(jié)果進行評估。
3.根據(jù)權(quán)利要求2所述的基于用戶定制的本體實例匹配系統(tǒng)，其特征在于，所述組件模塊中的原子組件還包括翻譯器，用于處理不同語言的本體實例匹配任務(wù)時將語言進行統(tǒng)一化。
4.根據(jù)權(quán)利要求2所述的基于用戶定制的本體實例匹配系統(tǒng)，其特征在于，所述相似度計算工具包括:基于tfidf的余弦相似度計算工具，基于編輯距離的相似度計算工具，基于wordNet相似度計算工具。
5.根據(jù)權(quán)利要求2所述的基于用戶定制的本體實例匹配系統(tǒng)，其特征在于，所述相似度聚合器對于多個屬性的相似度進行聚合的方法包括:平均聚合方法，sigomid聚合方法，加權(quán)指數(shù)平均聚合方法。
6.一種如權(quán)利要求1至7任一所述的系統(tǒng)進行本體實例匹配的方法，其特征在于，包括: S1:用戶輸入定制信息，并通過配置模塊根據(jù)所述定制信息生成匹配任務(wù)定制文件，以及根據(jù)所述匹配任務(wù)定制文件從所述組件模塊中選取用戶所需的原子組件； 52:初始化匹配任務(wù)，包括解析本體、規(guī)范化本體中術(shù)語、去噪音以及具體的匹配器中所用到的數(shù)據(jù)結(jié)構(gòu)的建立； 53:采用倒排索引操作生成本體實例之間的候選對，得到候選對集合以及唯一信息實例集合； 54:對候選對集合進行謂語相似度計算，然后將謂語相似度進行相似度聚合，然后將候選對及其分數(shù)作為節(jié)點，按分數(shù)從高到低進入優(yōu)先隊列； 55:對新產(chǎn)生的唯一信息實例集合，利用唯一主語匹配策略進行實例的對齊操作，然后將新產(chǎn)生的對齊的實例對利用剩一賓語匹配策略產(chǎn)生新的實例匹配對，根據(jù)新產(chǎn)生的實例匹配對更新唯一信息實例集合，然后利用該新產(chǎn)生的實例匹配對來更新優(yōu)先隊列中相關(guān)候選對的分數(shù)，以及產(chǎn)生新的候選對并計算其分數(shù)，重復該步驟直至沒有產(chǎn)生新的唯一信息實例集合； 56:對于候選對集合，使用得分匹配策略獲取得分最高的候選對，如果獲取的候選對的分數(shù)低于預(yù)設(shè)的閾值則跳轉(zhuǎn)到S7，否則把該獲取的候選對作為實例匹配對，然后更新相應(yīng)的候選對的分數(shù)，并且產(chǎn)生新的候選對，以及更新唯一信息實例集合，跳轉(zhuǎn)到S5 ； 57:對對齊的實例匹配對進行驗證。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述步驟S4中對相似度進行聚合的方式為:
^ Wi * exp (W1 * Si) ExpAggCSO ^ ^~--

Wi * expKw1 * I)

s ,- 其中S是所有的謂語的相似度的值的集合，W/是第i個謂語的相似度的權(quán)重，Wi"為第i個謂語的權(quán)重。
【文檔編號】G06F9/44GK104133673SQ201410319194
【公開日】2014年11月5日申請日期:2014年7月4日優(yōu)先權(quán)日:2014年7月4日
【發(fā)明者】邵超, 胡琳梅, 李涓子申請人:清華大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邵超;胡琳梅;李涓子
技術(shù)所有人：清華大學
我是此專利的發(fā)明人

上一篇：減小mems器件中的玻璃充電效應(yīng)的制作方法
上一篇：一種論文查重的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

protege構(gòu)建本體實例相關(guān)技術(shù)

本體實例相關(guān)技術(shù)

java圖形用戶界面實例相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于用戶定制的本體實例匹配系統(tǒng)及方法