一種基于子形式背景屬性相似度的概念格合并方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能和本體知識(shí)庫(kù)領(lǐng)域,尤其涉及一種基于子形式背景屬性相似 度的概念格合并方法及系統(tǒng)。
【背景技術(shù)】
[0002] 1982年,Rudolf Wille教授提出一種數(shù)學(xué)理論,它就是為后來人奉為經(jīng)典的概念 格理論。概念格是形式概念分析理論(FCA)中的核心數(shù)據(jù)結(jié)構(gòu),概念格中的節(jié)點(diǎn)體現(xiàn)了概念 內(nèi)涵和外延的統(tǒng)一,故而概念格結(jié)構(gòu)非常適合規(guī)則的發(fā)現(xiàn)和推理。
[0003] 概念格理論的相關(guān)研究可以列舉出如下幾個(gè)方面:(1)概念格基礎(chǔ)理論的研究; (2)概念格的構(gòu)建和約簡(jiǎn);(3)模糊環(huán)境下概念格的生成和規(guī)則獲取以及模糊推理;(4)粗糙 概念分析:部分學(xué)者將概念格理論與粗糙集聯(lián)系起來,粗糙概念分析應(yīng)運(yùn)而生;(5)概念格 的可視化研究:主要研究如何合理美觀地呈現(xiàn)概念格Hasse圖,使得邊的交叉數(shù)最少,整個(gè) 圖更美觀;(6)多粒度概念格:部分學(xué)者將粒計(jì)算同概念格理論結(jié)合起來,提出多粒度概念 格的概念;(7)基于概念格的關(guān)聯(lián)規(guī)則獲取算法:這是因?yàn)楦拍罡竦拿恳粋€(gè)節(jié)點(diǎn)代表一個(gè)由 內(nèi)涵和外延組成的形式概念,在后期的規(guī)則推理和規(guī)則挖掘過程中,概念格結(jié)構(gòu)由于其清 晰的is-A關(guān)系/層次關(guān)系,有利于挖掘知識(shí)中隱藏的概念和關(guān)系,故而一些學(xué)者將概念格當(dāng) 做一個(gè)關(guān)聯(lián)規(guī)則挖掘的有效模型,研究并提出基于概念格的關(guān)聯(lián)規(guī)則獲取算法。
[0004] 綜上所述,概念格--這種根據(jù)形式背景中對(duì)象和屬性之間的二元偏序關(guān)系建立 的層次結(jié)構(gòu),是一種有效的數(shù)據(jù)分析和知識(shí)提取工具。概念格理論被諸多前沿學(xué)者應(yīng)用于 不同方向的領(lǐng)域中,例如,機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語(yǔ)義Web、知識(shí)發(fā)現(xiàn)、信息檢索等。
[0005] 現(xiàn)有的概念格合并算法分為兩種模式:第一種先合并子形式背景,再生成概念格, 第二種先分別根據(jù)子形式背景生成子概念格,再合并子概念格。其中,以第一種模式居多, 其根本思想就是將概念格合并轉(zhuǎn)換成概念格生成,這種模式并非不可,在一些特定情況下, 還會(huì)表現(xiàn)出一定的優(yōu)越性。但當(dāng)形式背景變得極為復(fù)雜時(shí),亦或數(shù)據(jù)量變得極為龐大時(shí),此 種統(tǒng)一生成的方法不可取,會(huì)造成大量現(xiàn)有概念格資源的浪費(fèi),從而導(dǎo)致時(shí)間和成本上的 浪費(fèi)。
[0006] 就第二種模式來說,部分方法在完成兩個(gè)子概念格合并的過程中丟失了邊的信 息,也有部分方法可以直接完成兩個(gè)子概念格合并也能保證不丟失Hasse圖邊的信息(即 is-A關(guān)系),但其并不是在合并過程中同時(shí)生成邊的信息,而是完成所有概念節(jié)點(diǎn)的合并之 后,再一層層的檢索并添加邊的關(guān)系,這種做法無(wú)疑浪費(fèi)了計(jì)算資源,導(dǎo)致效率較低。
[0007] 因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。
【發(fā)明內(nèi)容】
[0008] 鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種基于子形式背景屬性相似 度的概念格合并方法及系統(tǒng),旨在解決現(xiàn)有的合并方法其計(jì)算過程復(fù)雜、效率低等問題。
[0009] 本發(fā)明的技術(shù)方案如下:
[0010] -種基于子形式背景屬性相似度的概念格合并方法,其中,包括步驟:
[0011] A、輸入兩個(gè)需要合并的子形式背景,先計(jì)算這兩個(gè)子形式背景內(nèi)涵中各屬性之間 的相似度;
[0012] B、將相似度高于閾值的屬性視為共同屬性,取出共同屬性并記錄;
[0013] C、針對(duì)兩個(gè)子形式背景,分別使用Godin算法生成子概念格;
[0014] D、最后根據(jù)之前記錄的共同屬性完成子概念格的合并。
[0015] 所述的基于子形式背景屬性相似度的概念格合并方法,其中,所述步驟C中,使用 一個(gè)類型[G,M,S]來存儲(chǔ)某一個(gè)節(jié)點(diǎn)或概念的信息,其中G表示實(shí)例集,Μ表示屬性集,S表示 子節(jié)點(diǎn)集。
[0016] 所述的基于子形式背景屬性相似度的概念格合并方法,其中,所述步驟C具體包 括:
[0017] C1、在概念格L中節(jié)點(diǎn)依次和對(duì)象({>*}3({#}))作運(yùn)算時(shí),如果節(jié)點(diǎn)_勺內(nèi)涵包 含于f({x*}),記錄節(jié)點(diǎn)Ν到集合gnLackOfE中;
[0018] C2、在每次對(duì)象(lx*},f({x*}))對(duì)概念格L的運(yùn)算結(jié)束之后、下一個(gè)對(duì)象運(yùn)算開始 之前,根據(jù)所述集合gnLackOfE生成子概念格。
[0019] 所述的基于子形式背景屬性相似度的概念格合并方法,其中,所述步驟D中,合并 的過程包括:
[0020] 將子概念格L2中的每個(gè)節(jié)點(diǎn)依次和子概念格L1進(jìn)行運(yùn)算,更新的節(jié)點(diǎn)和新產(chǎn)生的 節(jié)點(diǎn)皆存入子概念格L1中,最后將子概念格L1賦值給合并后的概念格L12;
[0021] 子概念格L2中的節(jié)點(diǎn)X和子概念格L1中節(jié)點(diǎn)依次進(jìn)行運(yùn)算,如果在子概念格L1的m 層發(fā)現(xiàn)了節(jié)點(diǎn)X的真子節(jié)點(diǎn),則對(duì)于子概念格L1的η層的節(jié)點(diǎn)皆不用再進(jìn)行任何運(yùn)算,n>m。
[0022] 所述的基于子形式背景屬性相似度的概念格合并方法,其中,所述共同屬性提供 領(lǐng)域?qū)<医涌凇?br>[0023] 所述的基于子形式背景屬性相似度的概念格合并方法,其中,所述閾值為95%。
[0024] -種基于子形式背景屬性相似度的概念格合并系統(tǒng),其中,包括:
[0025] 相似度計(jì)算模塊,用于輸入兩個(gè)需要合并的子形式背景,先計(jì)算這兩個(gè)子形式背 景內(nèi)涵中各屬性之間的相似度;
[0026] 共同屬性記錄模塊,用于將相似度高于閾值的屬性視為共同屬性,取出共同屬性 并記錄;
[0027]子概念格生成模塊,用于針對(duì)兩個(gè)子形式背景,分別使用Godin算法生成子概念 格;
[0028]子概念格合并模塊,用于最后根據(jù)之前記錄的共同屬性完成子概念格的合并。 [0029]所述的基于子形式背景屬性相似度的概念格合并系統(tǒng),其中,所述子概念格生成 模塊中,使用一個(gè)類型[G,M,S]來存儲(chǔ)某一個(gè)節(jié)點(diǎn)或概念的信息,其中G表示實(shí)例集,Μ表示 屬性集,S表示子節(jié)點(diǎn)集。
[0030] 所述的基于子形式背景屬性相似度的概念格合并系統(tǒng),其中,所述子概念格生成 模塊具體包括:
[0031] 記錄單元,用于在概念格L中節(jié)點(diǎn)依次和對(duì)象({x*},f({x*}))作運(yùn)算時(shí),如果節(jié)點(diǎn) N的內(nèi)涵包含于f ({x*}),記錄節(jié)點(diǎn)N到集合gnLackOfE中;
[0032] 生成單元,用于在每次對(duì)象({林},汽{林}))對(duì)概念格1^的運(yùn)算結(jié)束之后、下一個(gè)對(duì) 象運(yùn)算開始之前,根據(jù)所述集合gnLackOfE生成子概念格。
[0033] 所述的基于子形式背景屬性相似度的概念格合并系統(tǒng),其中,所述共同屬性提供 領(lǐng)域?qū)<医涌凇?br>[0034] 有益效果:本發(fā)明根據(jù)基于子形式背景屬性相似度的原理,使得本發(fā)明的方法在 初期多出一段計(jì)算共同屬性的時(shí)間,卻可以為后期子概念格合并工作節(jié)省很多時(shí)間,并且 隨著形式背景數(shù)據(jù)量的提升而展現(xiàn)出明顯的效率優(yōu)勢(shì),尤其是共同屬性小的情況下,本發(fā) 明的方法將表現(xiàn)出特別地優(yōu)勢(shì)。從合并的概念格質(zhì)量上來說,本發(fā)明的方法可以保證生成 無(wú)邊信息丟失的概念格圖,避免信息衰減。
【附圖說明】
[0035] 圖1為本發(fā)明一種基于子形式背景屬性相似度的概念格合并方法較佳實(shí)施例的流 程圖。
[0036 ]圖2為米用God i η算法得到的概念格。
[0037] 圖3為采用本發(fā)明的方法與現(xiàn)有技術(shù)的所消耗時(shí)間的一實(shí)例的對(duì)比圖。
[0038] 圖4為采用本發(fā)明的方法與現(xiàn)有技術(shù)的所消耗時(shí)間的另一實(shí)例的對(duì)比圖。
[0039] 圖5為本發(fā)明一種基于子形式背景屬性相似度的概念格合并系統(tǒng)較佳實(shí)施例的結(jié) 構(gòu)框圖。
【具體實(shí)施方式】
[0040] 本發(fā)明提供一種基于子形式背景屬性相似度的概念格合并方法及系統(tǒng),為使本發(fā) 明的目的、技術(shù)方案及效果更加清楚、明確,以下對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處 所描述的具體實(shí)施例僅僅用