專利名稱:基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法,關(guān)于數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)模糊優(yōu)先級(jí)指標(biāo)的定義、實(shí)例層沖突判斷及沖突解決的二階段數(shù)據(jù)集成方法,屬于數(shù)據(jù)集成的技術(shù)領(lǐng)域。
背景技術(shù):
隨著各領(lǐng)域信息化的進(jìn)程,數(shù)據(jù)的采集、存儲(chǔ)、處理和傳播的數(shù)量也與日俱增。實(shí)現(xiàn)數(shù)據(jù)共享,可以使更多的行業(yè)部門充分使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動(dòng)和相應(yīng)費(fèi)用。但是,在實(shí)施數(shù)據(jù)共享的過程當(dāng)中,由于不同用戶提供的數(shù)據(jù)可能來自不同的途徑,其數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量千差萬別,有時(shí)甚至?xí)龅綌?shù)據(jù)格式不能轉(zhuǎn)換或數(shù)據(jù)轉(zhuǎn)換格式后丟失信息等棘手問題,嚴(yán)重阻礙了數(shù)據(jù)在各部門和各軟件系統(tǒng)中的流動(dòng)與共享。
數(shù)據(jù)集成的核心任務(wù)是要將分布式異構(gòu)數(shù)據(jù)源集成到一起,使用戶能夠以透明和統(tǒng)一的方式訪問這些數(shù)據(jù)源。集成是指維護(hù)數(shù)據(jù)源整體上的數(shù)據(jù)一致性、提高信息共享率。透明的方式是指用戶無需關(guān)心如何實(shí)現(xiàn)對(duì)異構(gòu)數(shù)據(jù)源數(shù)據(jù)的訪問,以及如何組織系統(tǒng)中的數(shù)據(jù)。數(shù)據(jù)集成可以將數(shù)據(jù)內(nèi)容、格式、質(zhì)量進(jìn)行統(tǒng)一,便于共享。因此,它是解決數(shù)據(jù)共享的關(guān)鍵。
為了支持正確決策,就要求集成系統(tǒng)管理的數(shù)據(jù)可靠、一致、沒有錯(cuò)誤、能準(zhǔn)確地描述實(shí)際情況。指代同一現(xiàn)實(shí)世界對(duì)象的多條記錄,如果它們的屬性值存在不一致現(xiàn)象,這就稱為實(shí)例層數(shù)據(jù)不一致。實(shí)例層數(shù)據(jù)不一致的消除可以使數(shù)據(jù)內(nèi)容統(tǒng)一,是保障數(shù)據(jù)集成質(zhì)量的關(guān)鍵步驟。
目前處理實(shí)例層不一致性問題的主要方法包括三類:基于沖突產(chǎn)生原因的處理策略、基于SQL方法及自定義函數(shù)的處理策略、基于集成質(zhì)量評(píng)估的處理策略。第一類方法使用了相似度計(jì)算來檢測或排除實(shí)例層的不一致,在數(shù)據(jù)源無偏向性的情況下,這類方法針對(duì)字符形式的數(shù)據(jù)處理十分有效。但是這類方法沒有考慮數(shù)據(jù)源的偏向性,某些情況無法做出正確判斷,且對(duì)非字符形式的實(shí)例層不一致無法有效解決;第二類方法給出了集成異構(gòu)數(shù)據(jù)源的操作,處理實(shí)例層不一致問題的策略簡單易行,效率高。但是它們對(duì)數(shù)據(jù)不一致處理操作可控性不足,無法預(yù)知集成結(jié)果,缺乏質(zhì)量評(píng)估,無法滿足高質(zhì)量數(shù)據(jù)集成的要求;第三類方法考慮了數(shù)據(jù)源的質(zhì)量評(píng)估,有效提高了數(shù)據(jù)集成的質(zhì)量,在對(duì)集成數(shù)據(jù)質(zhì)量要求高的環(huán)境下,這類方法較為合適。但是這類方法只考慮了數(shù)據(jù)源的質(zhì)量,而沒有考慮到分布式環(huán)境下其它要素的評(píng)估。同時(shí),這一類方法對(duì)數(shù)據(jù)不一致性處理方式單一,集成效率不高,不適合海量數(shù)據(jù)集成。
在實(shí)際數(shù)據(jù)集成工作中,由于數(shù)據(jù)量呈現(xiàn)海量趨勢,傳統(tǒng)方法只靠單一處理方式顯得不足。如果采用復(fù)雜的方法,數(shù)據(jù)集成結(jié)果精度提高了,但是效率很低;如果采用簡單方法,效率提高了,但是缺乏準(zhǔn)確度。因此,我們希望提出一種二階段數(shù)據(jù)集成方法,先對(duì)集成情況進(jìn)行判斷,區(qū)分出實(shí)例層的強(qiáng)弱沖突。然后根據(jù)判斷情況,分別使用強(qiáng)沖突處理方法和弱沖突處理方法來實(shí)現(xiàn)集成。并且為了提高強(qiáng)沖突時(shí)集成的準(zhǔn)確度,我們對(duì)存儲(chǔ)節(jié)點(diǎn)采用模糊優(yōu)先級(jí)評(píng)估,消除主觀誤差。所以,我們的方法在提高集成效率的同時(shí),盡量提高結(jié)果準(zhǔn)確度。發(fā)明內(nèi)容
發(fā)明目的:本發(fā)明針對(duì)現(xiàn)有數(shù)據(jù)集成方法中集成效率與結(jié)果準(zhǔn)確度無法同時(shí)平衡的不足,本發(fā)明提供一種基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法。先確定待集成記錄所屬分布式存儲(chǔ)節(jié)點(diǎn)的優(yōu)先級(jí)指標(biāo)及每個(gè)指標(biāo)的權(quán)重,采用三角模糊數(shù)來表示模糊優(yōu)先級(jí);數(shù)據(jù)集成時(shí),根據(jù)投票機(jī)制區(qū)分出實(shí)例層的強(qiáng)弱沖突;若為弱沖突,則采用多數(shù)一致屬性值作為集成后的結(jié)果;若為強(qiáng)沖突,則通過構(gòu)建去模糊化的融合決策矩陣,計(jì)算每條記錄與正理想解的隸屬度來決定集成所采用的屬性值。本發(fā)明保證了海量數(shù)據(jù)集成中的集成效率并提高了集成結(jié)果精度。
技術(shù)方案:一種基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法,一種基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法,其特征在于,包括模糊優(yōu)先級(jí)模型建立和二階段實(shí)例層數(shù)據(jù)集成,其中:所述模糊優(yōu)先級(jí)模型建立包括分布式存儲(chǔ)節(jié)點(diǎn)優(yōu)先級(jí)指標(biāo)的設(shè)置、優(yōu)先級(jí)指標(biāo)的模糊化表示;所述二階段實(shí)例層數(shù)據(jù)集成包括利用投票機(jī)制的強(qiáng)弱沖突判斷、弱沖突解決以及強(qiáng)沖突解決;
實(shí)現(xiàn)步驟如下:
步驟1,為分布式存儲(chǔ)節(jié)點(diǎn)進(jìn)行優(yōu)先級(jí)指標(biāo)定性判斷,然后采用三角模糊數(shù)對(duì)優(yōu)先級(jí)指標(biāo)進(jìn)行表示,同時(shí)為各個(gè)優(yōu)先級(jí)指標(biāo)根據(jù)應(yīng)用需求賦以權(quán)值;
步驟2,對(duì)于發(fā)生實(shí)例層沖突的記錄項(xiàng),按照集成準(zhǔn)確度的需求選用三分之二投票制或半數(shù)投票制的方法區(qū)分出強(qiáng)弱沖突;
若沖突為弱沖突,則轉(zhuǎn)向步驟3 ;否則,轉(zhuǎn)向步驟4 ;
步驟3,對(duì)于弱沖突情況,采用多數(shù)屬性值一致的記錄作為集成后的輸出結(jié)果,轉(zhuǎn)向步驟5 ;
步驟4,對(duì)于強(qiáng)沖突情況,根據(jù)記錄所來源的分布式存儲(chǔ)節(jié)點(diǎn)優(yōu)先級(jí)指標(biāo)進(jìn)行集成,包括獲取融合矩陣、規(guī)格化、構(gòu)建融合決策矩陣、去模糊化、計(jì)算與正理想解和負(fù)理想解的距離、綜合評(píng)估步驟,執(zhí)行完畢后轉(zhuǎn)向步驟5 ;
步驟5,若存在記錄未集成,則重復(fù)步驟2 ;否則,集成完畢。
所述基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法中,步驟4的具體實(shí)施步驟如下:
步驟4-1,將η條來自不同分布式節(jié)點(diǎn)的待集成記錄,按照它們所屬節(jié)點(diǎn)的三個(gè)優(yōu)先級(jí)指標(biāo)建立融合矩陣;
步驟4-2,根據(jù)步驟4-1所得到的融合矩陣中三角模糊數(shù)的值情況,按照公式2或者公式3進(jìn)行成本型指標(biāo)或收益型指標(biāo)的規(guī)格化;
步驟4-3,將步驟I所獲得的優(yōu)先級(jí)指標(biāo)權(quán)值與步驟4-2獲得的規(guī)格化融合矩陣按公式4構(gòu)建融合決策矩陣;
步驟4-4,對(duì)步驟4-3獲得的融合決策矩陣去模糊化處理;
步驟4-5,對(duì)步驟4-4獲得的去模糊化后的融合決策矩陣,計(jì)算每條記錄與正理想解和負(fù)理想解的距離;
步驟4-6,按照步驟4-5的處理結(jié)果,計(jì)算每條記錄與正理想解的隸屬度,并按照隸屬度排序,隸屬度最大的記錄所存儲(chǔ)的屬性即為集成后的結(jié)果,結(jié)束步驟4。
所述分布式存儲(chǔ)節(jié)點(diǎn)優(yōu)先級(jí)包括置信度、可用性、出錯(cuò)性三個(gè)指標(biāo)。置信度指標(biāo)描述了分布式存儲(chǔ)節(jié)點(diǎn)所提供數(shù)據(jù)的準(zhǔn)確度及權(quán)威性;可用性指標(biāo)描述了節(jié)點(diǎn)上的數(shù)據(jù)在某一時(shí)段的可用程度;出錯(cuò)性指標(biāo)描述了節(jié)點(diǎn)運(yùn)行的穩(wěn)定性及發(fā)生故障的可能性;
所述優(yōu)先級(jí)指標(biāo)從其影響關(guān)系上可以分為兩類:成本型指標(biāo)和收益型指標(biāo)。成本型指標(biāo)值越大,表明其成本越低,優(yōu)先級(jí)越高,例如出錯(cuò)性指標(biāo);反之,收益型的指標(biāo)值越大,表明其收益越高,優(yōu)先級(jí)越高,例如置信度指標(biāo)及可用性指標(biāo);
所述優(yōu)先級(jí)指標(biāo)在優(yōu)先級(jí)模型中存在權(quán)重關(guān)系,描述了各個(gè)指標(biāo)在優(yōu)先級(jí)中的作用程度,用權(quán)重向量W=W1, W2, W3)表示。其中Wj表示分布式存儲(chǔ)節(jié)點(diǎn)的第j個(gè)優(yōu)先級(jí)指標(biāo)權(quán)值,且
權(quán)利要求
1.一種基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法,其特征在于,包括模糊優(yōu)先級(jí)模型建立和二階段實(shí)例層數(shù)據(jù)集成,其中:所述模糊優(yōu)先級(jí)模型建立包括分布式存儲(chǔ)節(jié)點(diǎn)優(yōu)先級(jí)指標(biāo)的設(shè)置、優(yōu)先級(jí)指標(biāo)的模糊化表示;所述二階段實(shí)例層數(shù)據(jù)集成包括利用投票機(jī)制的強(qiáng)弱沖突判斷、弱沖突解決以及強(qiáng)沖突解決; 實(shí)現(xiàn)步驟如下: 步驟I,為分布式存儲(chǔ)節(jié)點(diǎn)進(jìn)行優(yōu)先級(jí)指標(biāo)定性判斷,然后采用三角模糊數(shù)對(duì)優(yōu)先級(jí)指標(biāo)進(jìn)行表示,同時(shí)為各個(gè)優(yōu)先級(jí)指標(biāo)根據(jù)應(yīng)用需求賦以權(quán)值; 步驟2,對(duì)于發(fā)生實(shí)例層沖突的記錄項(xiàng),按照集成準(zhǔn)確度的需求選用三分之二投票制或半數(shù)投票制的方法區(qū)分出強(qiáng)弱沖突; 若沖突為弱沖突,則轉(zhuǎn)向步驟3 ;否則,轉(zhuǎn)向步驟4 ; 步驟3,對(duì)于弱沖突情況,采用多數(shù)屬性值一致的記錄作為集成后的輸出結(jié)果,轉(zhuǎn)向步驟5 ; 步驟4,對(duì)于強(qiáng)沖突情況,根據(jù)記錄所來源的分布式存儲(chǔ)節(jié)點(diǎn)優(yōu)先級(jí)指標(biāo)進(jìn)行集成,包括獲取融合矩陣、規(guī)格化、構(gòu)建融合決策矩陣、去模糊化、計(jì)算與正理想解和負(fù)理想解的距離、綜合評(píng)估步驟,執(zhí)行完畢后轉(zhuǎn)向步驟5 ; 步驟5,若存在記錄未集成,則重復(fù)步驟2 ;否則,集成完畢。
2.根據(jù)權(quán)利要求1所述的基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法,其特征在于,所述步驟4的具體實(shí)施步驟如下: 步驟4-1,將η條來自不同分布式存儲(chǔ)節(jié)點(diǎn)的待集成記錄,按照它們所屬節(jié)點(diǎn)的優(yōu)先級(jí)指標(biāo)建立融合矩陣; 步驟4-2,根據(jù)步驟4-1所得到的融合矩陣中三角模糊數(shù)的值情況,進(jìn)行成本型指標(biāo)或收益型指標(biāo)的規(guī)格化; 步驟4-3,通過步驟I所獲得的優(yōu)先級(jí)指標(biāo)權(quán)值與步驟4-2獲得的規(guī)格化融合矩陣構(gòu)建融合決策矩陣; 步驟4-4,對(duì)步驟4-3獲得的融合決策矩陣去模糊化處理; 步驟4-5,對(duì)步驟4-4獲得的去模糊化后的融合決策矩陣,計(jì)算每條記錄與正理想解和負(fù)理想解的距離; 步驟4-6,按照步驟4-5的處理結(jié)果,計(jì)算每條記錄與正理想解的隸屬度,并按照隸屬度排序,隸屬度最大的記錄所存儲(chǔ)的屬性即為集成后的結(jié)果,結(jié)束步驟4。
3.根據(jù)權(quán)利要求2所述的基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法,其特征在于,所述分布式存儲(chǔ)節(jié)點(diǎn)優(yōu)先級(jí)包括置信度、可用性、出錯(cuò)性三個(gè)指標(biāo);置信度指標(biāo)描述了分布式存儲(chǔ)節(jié)點(diǎn)所提供數(shù)據(jù)的準(zhǔn)確度及權(quán)威性;可用性指標(biāo)描述了分布式存儲(chǔ)節(jié)點(diǎn)上的數(shù)據(jù)在某一時(shí)段的可用程度;出錯(cuò)性指標(biāo)描述了分布式存儲(chǔ)節(jié)點(diǎn)運(yùn)行的穩(wěn)定性及發(fā)生故障的可能性; 所述優(yōu)先級(jí)指標(biāo)從其影響關(guān)系上可以分為兩類:成本型指標(biāo)和收益型指標(biāo);成本型指標(biāo)值越大,表明其成本越低,優(yōu)先級(jí)越高;反之,收益型的指標(biāo)值越大,表明其收益越高,優(yōu)先級(jí)越高; 所述優(yōu)先級(jí)指標(biāo)在優(yōu)先級(jí)模型中存在權(quán)重關(guān)系,描述了各個(gè)指標(biāo)在優(yōu)先級(jí)中的作用程度,用權(quán)重向量W= (W1, W2, W3)表示;其中Wj表示分布式存儲(chǔ)節(jié)點(diǎn)的第j個(gè)優(yōu)先級(jí)指標(biāo)權(quán)值,且
4.根據(jù)權(quán)利要求3所述的基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法,其特征在于,所述優(yōu)先級(jí)指標(biāo)的模糊化指的是對(duì)分布式存儲(chǔ)節(jié)點(diǎn)的優(yōu)先級(jí)指標(biāo)采用三角模糊數(shù)進(jìn)行描述;三角模糊數(shù)用來表示,其中Hl1表示M所支撐的上界,IIV表示M所支撐的下界,m表示M的中值;去模糊化的計(jì)算公式如下:
5.根據(jù)權(quán)利要求4所述的基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法,其特征在于,所述二階段實(shí)例層數(shù)據(jù)集成指的是用投票機(jī)制將實(shí)例層沖突區(qū)分為強(qiáng)沖突與弱沖突;對(duì)于弱沖突采用簡化的集成方式進(jìn)行處理;對(duì)于強(qiáng)沖突采用依據(jù)分布式節(jié)點(diǎn)優(yōu)先級(jí)的關(guān)系進(jìn)行處理;即對(duì)于任何實(shí)例層數(shù)據(jù)的集成均分為沖突判斷與沖突解決兩個(gè)階段進(jìn)行; 所述投票機(jī)制分為三分之二投票制與半數(shù)投票制兩種;三分之二投票制指的是在現(xiàn)有的記錄里滿足:有不低于三分之二的記錄對(duì)于發(fā)生沖突的屬性它們的屬性值是一致的;半數(shù)投票制指的是在現(xiàn)有記錄里滿足:指代現(xiàn)實(shí)世界同一對(duì)象的記錄超過2條,且發(fā)生了屬性值的沖突,同時(shí),它們中有不低于一半的記錄屬性值是一致的; 所述弱沖突指數(shù)據(jù)集成過程中,實(shí)例層的沖突現(xiàn)象滿足三分之二投票制或半數(shù)投票制的情況; 所述強(qiáng)沖突指數(shù)據(jù)集成過程中,實(shí)例層的沖突現(xiàn)象不滿足三分之二投票制與半數(shù)投票制的情況; 所述弱沖突解決方法為:在三分之二投票制中,有不低于三分之二的記錄,對(duì)于發(fā)生沖突的屬性它們的屬性值是一致的,則此時(shí)將以這些一致的屬性值作為集成后的數(shù)據(jù)對(duì)外顯示;在半數(shù)投票制中,有不低于一半的記錄,對(duì)于發(fā)生沖突的屬性它們的屬性值是一致的,則將以這些一致的屬性值作為集成后的數(shù)據(jù)對(duì)外顯示。
6.根據(jù)權(quán)利要求5所述的基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法,其特征在于,所述融合矩陣為Fnx3= (fu)nX3,其中η表示有η條來自不同分布式節(jié)點(diǎn)的記錄待集成;.3表示每個(gè)分布式存儲(chǔ)節(jié)點(diǎn)的3個(gè)優(yōu)先級(jí)指標(biāo)表示第i條記錄所屬的分布式節(jié)點(diǎn)的第j個(gè)優(yōu)先級(jí)指標(biāo); 所述規(guī)格化是為了便于數(shù)據(jù)的評(píng)估和比較,將分布式存儲(chǔ)節(jié)點(diǎn)優(yōu)先級(jí)指標(biāo)規(guī)格化至一個(gè)統(tǒng)一的量綱。對(duì)于fu=(au,bu,cu),成本型指標(biāo)的值規(guī)格方式如下:
7.根據(jù)權(quán)利要求6所述的基于模糊優(yōu)先級(jí)的ニ階段實(shí)例層數(shù)據(jù)集成方法,其特 征在于,所述構(gòu)建融合決策矩陣是指將優(yōu)先級(jí)指標(biāo)權(quán)值加入融合矩陣;若權(quán)重向量 W= (w1; w2, w3),規(guī)格化后的rij= {aip b^-, cj ,則融合決策矩陣如下dij = (aj,bij',Cij') = Wj (a^-, b^-, cj,(1 彡 i 彡 n, 1 彡 j 彡 3) 公式 4 其中,du表示融合決策矩陣中的每ー個(gè)元素。
8.根據(jù)權(quán)利要求7所述的基于模糊優(yōu)先級(jí)的ニ階段實(shí)例層數(shù)據(jù)集成方法,其特 征在于,所述計(jì)算與正理想解和負(fù)理想解的距離中,正理想解向量由M+表示,定義為 M* =(M;M;),且M; = max作,(丨51Sit, 1S/ S3);負(fù)理想解向量由M_表示,定義為
全文摘要
本發(fā)明公開了一種基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法,屬于數(shù)據(jù)集成技術(shù)領(lǐng)域。所述二階段實(shí)例層數(shù)據(jù)集成方法首先確定待集成記錄所屬分布式存儲(chǔ)節(jié)點(diǎn)的優(yōu)先級(jí)指標(biāo)及每個(gè)指標(biāo)的權(quán)重,并采用三角模糊數(shù)來表示模糊優(yōu)先級(jí);數(shù)據(jù)集成時(shí),根據(jù)投票機(jī)制區(qū)分出實(shí)例層的強(qiáng)弱沖突;若為弱沖突,則采用多數(shù)一致屬性值作為集成后的結(jié)果;若為強(qiáng)沖突,則通過構(gòu)建去模糊化的融合決策矩陣,計(jì)算每條記錄與正理想解的隸屬度來決定集成所采用的屬性值。本發(fā)明解決了在海量數(shù)據(jù)集成中集成效率低或集成結(jié)果精度低等問題。
文檔編號(hào)G06F17/30GK103164531SQ201310116388
公開日2013年6月19日 申請(qǐng)日期2013年4月3日 優(yōu)先權(quán)日2013年4月3日
發(fā)明者馮鈞, 盛震宇, 唐志賢, 李士進(jìn), 朱躍龍, 萬定生, 徐黎明, 馮讀慶, 許瀟, 姜康, 陳煥霖, 劉子源, 朱康康, 史涯晴 申請(qǐng)人:河海大學(xué)