專利名稱:一種基于xml文檔的元數(shù)據(jù)模式匹配方法
—種基于XML文檔的元數(shù)據(jù)模式匹配方法技術(shù)領(lǐng)域
本發(fā)明關(guān)于元數(shù)據(jù)模式匹配方面,特別涉及XML文檔的元數(shù)據(jù)的語義、屬性、實(shí)例、結(jié)構(gòu)和關(guān)系相似度計(jì)算方法,屬于數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域。
背景技術(shù):
擴(kuò)展標(biāo)記語言(extensible Markup Language,XML)是一套定義語義標(biāo)記的規(guī)則, 用戶通過它可以創(chuàng)建文檔類型定義(Document Type Def inition,簡(jiǎn)稱DTD)的規(guī)則集,XML 作為統(tǒng)一的轉(zhuǎn)換語法和交換格式,為開發(fā)者和用戶提供一種交換元數(shù)據(jù)信息的標(biāo)準(zhǔn)途徑, 從而能夠方便、簡(jiǎn)潔地在基于OMG UML的建模工具和基于OMG MOF的元數(shù)據(jù)倉(cāng)儲(chǔ)(Metadata Repository)之間交換元數(shù)據(jù)。而元數(shù)據(jù)則是關(guān)于數(shù)據(jù)的數(shù)據(jù),用于描述要素、數(shù)據(jù)集或數(shù)據(jù)集系列的內(nèi)容、覆蓋范圍、質(zhì)量、管理方式、數(shù)據(jù)的所有者、數(shù)據(jù)的提供方式等有關(guān)的信息。近年來越來越多的科研院所都開始致力于元數(shù)據(jù)相關(guān)問題的研究,特別是隨著語義Web 的發(fā)展,元數(shù)據(jù)理論及其相關(guān)技術(shù)已逐漸成為計(jì)算機(jī)領(lǐng)域中重要的研究熱點(diǎn),為了解決網(wǎng)絡(luò)信息爆炸時(shí)代出現(xiàn)的諸多問題,元數(shù)據(jù)作為一種重要的應(yīng)對(duì)方法和措施,已廣泛應(yīng)用于信息檢索、信息集成、信息共享及軟件工程等各個(gè)應(yīng)用領(lǐng)域中。
語義內(nèi)容異構(gòu)是元數(shù)據(jù)模式集成中必須要面對(duì)而且需要重點(diǎn)解決的問題。要在網(wǎng)絡(luò)環(huán)境下消除由這些獨(dú)立的元數(shù)據(jù)方案引起的“信息孤島”,就必須有某種程度的元數(shù)據(jù)間互操作,用于解決不同元數(shù)據(jù)所引起的概念和結(jié)構(gòu)的異構(gòu)問題,這就需要在元數(shù)據(jù)之上再建立一些機(jī)制,來靈活地實(shí)現(xiàn)元數(shù)據(jù)間的互操作。作為解決信息異構(gòu)、信息集成的主要方法,模式匹配技術(shù)設(shè)計(jì)的是否合理有效就成了影響元數(shù)據(jù)模式集成效果的關(guān)鍵因素。而現(xiàn)有的工作面臨的是一個(gè)以豐富元數(shù)據(jù)模式語義信息為目的、以多源異構(gòu)元數(shù)據(jù)模式合并與構(gòu)建為任務(wù)的新問題。目前元數(shù)據(jù)模式匹配的算法主要有基于正則表達(dá)式規(guī)則的邏輯結(jié)構(gòu)匹配算法和基于隱馬爾可夫模型的XML文檔的元數(shù)據(jù)匹配算法,但基于正則表達(dá)式規(guī)則的邏輯結(jié)構(gòu)匹配算法主要考慮XML文檔的元數(shù)據(jù)之間的邏輯結(jié)構(gòu)相似性,忽略了元數(shù)據(jù)語義相似度、實(shí)例相似度以及關(guān)系相似度等因素,而基于隱馬爾科夫模型的元數(shù)據(jù)匹配算法主要提取XML文檔頭部的部分元數(shù)據(jù)信息,忽略了其他元數(shù)據(jù)的相似關(guān)系。
本專利在現(xiàn)有的元數(shù)據(jù)模式匹配算法的基礎(chǔ)上,提出了新型的一種元數(shù)據(jù)模式匹配方法,該方法既考慮了元數(shù)據(jù)的結(jié)構(gòu)特征,又考慮了元數(shù)據(jù)之間的語義、屬性、實(shí)例和關(guān)系相似度,同時(shí)考慮元數(shù)據(jù)匹配的不對(duì)稱性問題,可使計(jì)算結(jié)果更精確。發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是實(shí)現(xiàn)更精確的元數(shù)據(jù)之間的匹配。
為解決上述技術(shù)問題,本發(fā)明提供一種基于XML文檔的元數(shù)據(jù)模式匹配方法,其特征在于,包括以下步驟
I)計(jì)算兩個(gè)元數(shù)據(jù)的語義相似度元數(shù)據(jù)a和元數(shù)據(jù)b之間的相似度通過字符串的同義詞匹配來完成,計(jì)算模型如下所示
權(quán)利要求
1.一種基于XML文檔的元數(shù)據(jù)模式匹配方法,其特征在于,包括以下步驟 1)計(jì)算兩個(gè)元數(shù)據(jù)的語義相似度元數(shù)據(jù)a和元數(shù)據(jù)b之間的相似度通過字符串的同義詞匹配來完成,計(jì)算模型如下所示
全文摘要
本發(fā)明公開了一種基于XML文檔的元數(shù)據(jù)模式匹配方法,通過計(jì)算兩個(gè)元數(shù)據(jù)的語義相似度、屬性相似度、實(shí)例相似度、結(jié)構(gòu)相似度和關(guān)系相似度,根據(jù)具體的XML文檔來設(shè)置權(quán)重,最后計(jì)算綜合相似度,因此在元數(shù)據(jù)之間的模式匹配時(shí),可使計(jì)算結(jié)果更精確。
文檔編號(hào)G06F17/30GK102982168SQ201210535449
公開日2013年3月20日 申請(qǐng)日期2012年12月12日 優(yōu)先權(quán)日2012年12月12日
發(fā)明者朱曉燕, 何金陵, 潘留興, 趙鑫 申請(qǐng)人:江蘇省電力公司信息通信分公司, 江蘇電力信息技術(shù)有限公司, 江蘇省電力公司, 國(guó)家電網(wǎng)公司