基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法
【專利摘要】基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法,本發(fā)明涉及數(shù)據(jù)庫(kù)模式抽象方法。本發(fā)明是要解決忽略了表與表之間的結(jié)構(gòu)緊密性、用戶查詢偏好信息以及現(xiàn)有方法對(duì)模式抽象結(jié)果中主題類簇的個(gè)數(shù)無法做出準(zhǔn)確預(yù)測(cè)的問題,而提出的基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法。該方法是通過一、構(gòu)建關(guān)系數(shù)據(jù)庫(kù)的拓?fù)渚o密性矩陣T;二、計(jì)算得到表間相似性矩陣ADB;三、得到最終的數(shù)據(jù)表ti和數(shù)據(jù)表tj間的相似性計(jì)算結(jié)果;四、得到最終的表重要性度量結(jié)果;五、利用類簇代表檢測(cè)算法得到結(jié)果集合R;六、將數(shù)據(jù)表ti和數(shù)據(jù)表tj劃分到主題類簇等步驟實(shí)現(xiàn)的。本發(fā)明應(yīng)用于數(shù)據(jù)庫(kù)模式抽象領(lǐng)域。
【專利說明】
基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及數(shù)據(jù)庫(kù)模式抽象方法,特別設(shè)及基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方 法。
【背景技術(shù)】
[0002] 隨著數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展和大數(shù)據(jù)時(shí)代的來臨,信息正呈現(xiàn)指數(shù)級(jí)快速增長(zhǎng)趨 勢(shì)。政府機(jī)關(guān)、大型企業(yè)、教育機(jī)構(gòu)中的數(shù)據(jù)庫(kù)通常包含成百上千張相互連接的數(shù)據(jù)表,規(guī) 模逐漸壯大,數(shù)據(jù)庫(kù)內(nèi)部的底層模式也日趨復(fù)雜。新用戶想要在短時(shí)間內(nèi)了解運(yùn)些大型數(shù) 據(jù)庫(kù)所包含的基本內(nèi)容進(jìn)而從海量數(shù)據(jù)中檢索自己感興趣的信息面臨著巨大挑戰(zhàn)。關(guān)系數(shù) 據(jù)庫(kù)的模式抽象技術(shù)能夠?qū)?shù)據(jù)庫(kù)進(jìn)行高層次的模式抽象和內(nèi)容概括:將具有相同主題和 較高相似性的數(shù)據(jù)表歸納到同一主題類簇中,通過運(yùn)些主題類簇用戶能夠?qū)?shù)據(jù)庫(kù)所包含 的信息和數(shù)據(jù)分布有大致的了解。因此,數(shù)據(jù)庫(kù)模式抽象技術(shù)的相關(guān)研究工作成為當(dāng)今數(shù) 據(jù)庫(kù)領(lǐng)域的熱口研究方向之一。
[0003] 近幾年已出現(xiàn)一些基本的數(shù)據(jù)庫(kù)模式抽象方法,但運(yùn)些方法并沒有綜合考慮數(shù)據(jù) 表在整個(gè)表空間分布中的拓?fù)涮匦訵及用戶查詢偏好對(duì)模式抽象過程的指導(dǎo)作用,在進(jìn)行 數(shù)據(jù)庫(kù)模式抽象的過程中僅根據(jù)數(shù)據(jù)表中所包含的內(nèi)容W及表與表之間的內(nèi)容相似性進(jìn) 行數(shù)據(jù)庫(kù)模式抽象,而并未考慮表與表之間結(jié)構(gòu)上的相關(guān)性,例如表與表間的主外鍵關(guān)系, 表與表之間的邏輯距離等;另外,用戶查詢偏好也會(huì)影響數(shù)據(jù)庫(kù)模型抽象結(jié)果,不同表中的 數(shù)據(jù)在歷史查詢?nèi)罩局械墓铂F(xiàn)率可W側(cè)面反映數(shù)據(jù)庫(kù)中表與表之間的相關(guān)性,,運(yùn)樣就使 得模式抽象結(jié)果的效率和準(zhǔn)確率不能得到較好的保障;此外,已有的研究未能提出有效的 算法對(duì)抽象結(jié)果中的主題類簇個(gè)數(shù)作準(zhǔn)確預(yù)測(cè),因此需要用戶進(jìn)行相關(guān)參數(shù)的設(shè)置(例如 初始聚類中屯、及其個(gè)數(shù)k),抽象結(jié)果的質(zhì)量也隨之受到過多人為因素的影響。
[0004] 隨著企業(yè)數(shù)據(jù)庫(kù)底層模式的日趨復(fù)雜、數(shù)據(jù)規(guī)模的逐漸壯大。用戶要想快速了解 其底層結(jié)構(gòu)和主要內(nèi)容進(jìn)而實(shí)現(xiàn)訪問與查詢操作,亟需一種高效的模式抽象方法對(duì)數(shù)據(jù)庫(kù) 進(jìn)行結(jié)構(gòu)抽象和內(nèi)容概括。然而現(xiàn)有的數(shù)據(jù)庫(kù)模式抽象方法在執(zhí)行過程中并沒有考慮表與 表之間的拓?fù)涮匦?、同時(shí)忽視了用戶反饋信息的指導(dǎo)作用(用戶查詢?nèi)罩局行畔?duì)表間相 關(guān)性的影響)、對(duì)于結(jié)果中主題類簇的個(gè)數(shù)也無法做出準(zhǔn)確預(yù)測(cè),運(yùn)樣就使得抽象方法的效 率和準(zhǔn)確性無法得到有效保障。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是為了解決現(xiàn)有數(shù)據(jù)庫(kù)模式抽象方法僅利用數(shù)據(jù)表的內(nèi)容相似性 對(duì)其進(jìn)行模型抽象,忽略了表與表之間的結(jié)構(gòu)緊密性W及用戶查詢偏好信息即歷史查詢?nèi)?志中用戶的反饋信息對(duì)模式抽象結(jié)果的影響W及現(xiàn)有方法對(duì)模式抽象結(jié)果中主題類簇的 個(gè)數(shù)無法做出準(zhǔn)確預(yù)測(cè),需要人工手動(dòng)設(shè)置初始聚類中屯、的個(gè)數(shù)的問題,而提出的基于圖 劃分策略的數(shù)據(jù)庫(kù)模式抽象方法。
[0006] 上述的發(fā)明目的是通過W下技術(shù)方案實(shí)現(xiàn)的:
[0007] 步驟一、根據(jù)節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj之間的拓?fù)渚o密性,構(gòu)建關(guān)系數(shù)據(jù)庫(kù)的拓?fù)渚o密性矩 陣T;
[0008] 步驟二、根據(jù)拓?fù)渚o密性矩陣T和數(shù)據(jù)表間的內(nèi)容相似性矩陣S計(jì)算得到表間相似 性矩陣Adb;
[0009] 步驟S、將表間相似性矩陣Adb進(jìn)行修正,得到最終的數(shù)據(jù)表ti和數(shù)據(jù)表t調(diào)的相 似性計(jì)算結(jié)果AFinal(ti,tj);
[0010] 步驟四、將數(shù)據(jù)表ti的重要性If(ti)進(jìn)行歸一化處理得到最終的表重要性度量結(jié) 果Nl(ti);其中,
[0011] NI(ti) = 2X(f(If(ti))-0.5) (14)
[0012] 其中,
If(ti)為數(shù)據(jù)表ti的重要性;
[0013] 步驟五、根據(jù)表重要性度量結(jié)果NKti)利用類簇代表檢測(cè)算法得到結(jié)果集合R;
[0014] 步驟六、根據(jù)AFinalUi, tj)和結(jié)果集合R利用數(shù)據(jù)庫(kù)模式抽象的圖劃分方法將數(shù)據(jù) 表ti和數(shù)據(jù)表t冰Ij分到主題類簇;
[0015] 所述數(shù)據(jù)庫(kù)模式抽象的圖劃分方法具體為:
[0016] 步驟六一、輸入G=(V',E)和影響因子0,其中,V' ={vi,. . . ,Vn},|E| =m;m節(jié)點(diǎn)間 邊的個(gè)數(shù);Vn為y/中的第n個(gè)數(shù)據(jù)表;
[001 7]步驟六二、將AFinal (ti,t j )作為初始輸入矩陣;
[0018]步驟六=、捜索結(jié)果集合R中的數(shù)據(jù)表作為初始聚類中屯、;
[0019]步驟六四、計(jì)算初始輸入矩陣Af皿i(ti山)的特征值和特征向量;使用Af皿 的前k個(gè)最小特征值對(duì)應(yīng)的特征向量m,...,uk,將r中的所有點(diǎn)映射到Rk空間;其中,k為結(jié) 果集合R中的數(shù)據(jù)表個(gè)數(shù);
[0020] 步驟六五、基于初始聚類中屯、使用k-means算法將Rk中的節(jié)點(diǎn)聚集到主題類簇Cl, 〇2 ,. . . ,Ck中;
[0021] 步驟六六、輸出主題類簇C=ICi,C2, ...,Ck}。
[0022] 發(fā)明效果
[0023] 本發(fā)明提出了一種基于圖劃分策略一譜聚類算法的數(shù)據(jù)庫(kù)模式抽象方法GP- RDSS。譜聚類算法作為一種經(jīng)典的圖劃分策略,在社會(huì)網(wǎng)絡(luò)等相關(guān)研究領(lǐng)域中取得了廣泛 應(yīng)用。由于結(jié)構(gòu)化數(shù)據(jù)庫(kù)可W使用模式圖形象地表示其底層模式特征,因此本發(fā)明將圖劃 分方法中的譜聚類算法與結(jié)構(gòu)化數(shù)據(jù)庫(kù)自身的內(nèi)容特征巧妙結(jié)合,使模式抽象過程同時(shí)受 到數(shù)據(jù)庫(kù)拓?fù)浣Y(jié)構(gòu)和數(shù)據(jù)表內(nèi)容的影響;此外,本發(fā)明首次將用戶偏好對(duì)模式抽象過程的 影響考慮在內(nèi),挖掘歷史查詢?nèi)罩镜膬?nèi)容,進(jìn)一步提高了抽象結(jié)果的效率和準(zhǔn)確性。其主要 思想如下:該方法首先通過節(jié)點(diǎn)間拓?fù)渚o密性和內(nèi)容相似性的計(jì)算構(gòu)建初始輸入矩陣;同 時(shí)進(jìn)行查詢?nèi)罩拘畔⒌耐诰?,?duì)初始矩陣加 W修正;最后通過對(duì)極重要節(jié)點(diǎn)的檢測(cè)確定初 始聚類中屯、,進(jìn)而執(zhí)行改進(jìn)后的譜聚類算法得到最終的模式抽象結(jié)果。
[0024] 簡(jiǎn)而言之本發(fā)明主要貢獻(xiàn)如下:
[0025] (1)基于圖劃分策略一譜聚類算法,結(jié)合結(jié)構(gòu)化數(shù)據(jù)庫(kù)自身特點(diǎn),構(gòu)建了一種新穎 的數(shù)據(jù)庫(kù)模式抽象方法GP-RDSS;
[0026] (2)從拓?fù)渚o密性、內(nèi)容相似性和用戶反饋=個(gè)方面出發(fā)設(shè)計(jì)了一種表間相似性 矩陣構(gòu)建策略,該策略綜合全面并體現(xiàn)用戶的查詢偏好特征;
[0027] (3)對(duì)數(shù)據(jù)庫(kù)中的表結(jié)構(gòu)、內(nèi)容W及查詢?nèi)罩局械姆答佇畔⑦M(jìn)行深入剖析,重新定 義了表重要性度量公式,并在此基礎(chǔ)上提出了類簇代表選取方案,解決了傳統(tǒng)方法中類簇 個(gè)數(shù)無法預(yù)先確定的難題;
[00巧](4)通過在TPC-E benchmark真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了本發(fā)明方法GP-畑SS 的正確性和有效性如表1和圖6。
[0029] 表 1
[0030]
[0031] 本發(fā)明提出了一種基于圖劃分策略-譜聚類的數(shù)據(jù)庫(kù)模式抽象方法(GP-RDSS)。首 先提出了一種新穎的表間相似性矩陣構(gòu)建策略:從拓?fù)渚o密性、內(nèi)容相似性和查詢?nèi)罩? 個(gè)方面構(gòu)建初始矩陣,使其綜合全面并體現(xiàn)用戶的查詢偏好特征;然后設(shè)計(jì)了綜合完整的 表重要性度量公式和局部極重要節(jié)點(diǎn)檢測(cè)方案,用于初始聚類中屯、的確定,從而使抽象結(jié) 果更具主題性和有效性。通過在公開數(shù)據(jù)集TPC-E benchmark上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文方 法在數(shù)據(jù)庫(kù)模式抽象的準(zhǔn)確率方面有顯著提高如表2、表3、圖7和圖8。
[0032] 夫 9
[0033]
[0034] ;
[0035]
[0036] 本發(fā)明提出的模式抽象方法GP-RDSS采用一種改進(jìn)的譜聚類策略,從拓?fù)渚o密性 和內(nèi)容相似性兩個(gè)方面構(gòu)建譜聚類初始輸入矩陣,并通過對(duì)查詢?nèi)罩緝?nèi)容的挖掘分析,側(cè) 面對(duì)其進(jìn)行修正優(yōu)化。另外,本發(fā)明從多個(gè)角度對(duì)數(shù)據(jù)表的重要性進(jìn)行度量分析,定義了表 重要性綜合度量公式,并在此基礎(chǔ)上提出了類簇代表檢測(cè)方案,實(shí)現(xiàn)聚類算法中主題類簇 個(gè)數(shù)的準(zhǔn)確預(yù)測(cè),而省去用戶對(duì)相關(guān)參數(shù)的手動(dòng)輸入,同時(shí)使模式抽象結(jié)果的精度有了顯 著提高圖9(a)~圖9(c)和表4~6;
[0037] 表 4 [00;3 引
[
[0040] 如果真要翻譯的話:均衡抽象方法、加權(quán)k-中屯、抽象方法、基于圖劃分的抽象方法
[0041] 表 5 [00421
[i
[i O
【附圖說明】
[0045] 圖1為【具體實(shí)施方式】屯提出的數(shù)據(jù)庫(kù)TPC-E benchmark部分模式圖;
[0046] 圖2為【具體實(shí)施方式】一提出的數(shù)據(jù)庫(kù)TPC-E benchmark部分模式抽象結(jié)果示意圖;
[0047] 圖3為【具體實(shí)施方式】一提出的模式抽象方法架構(gòu)示意圖;
[0048] 圖4為【具體實(shí)施方式】五提出的數(shù)據(jù)表間拓?fù)潢P(guān)系示意圖;
[0049] 圖5(a)為【具體實(shí)施方式】六提出的數(shù)據(jù)表ti的屬性列A示意圖;
[0050] 圖5(b)為【具體實(shí)施方式】六提出的數(shù)據(jù)表t北勺屬性列B示意圖;
[0051 ]圖6為實(shí)施例提出的模式抽象方法精度示意圖;
[0052] 圖7為實(shí)施例提出的使用類簇代表檢測(cè)算法前后精度對(duì)比圖;
[0053] 圖8為實(shí)施例提出的考慮用戶反饋前后精度對(duì)比圖;
[0054] 圖9(a)為實(shí)施例提出的模式抽象方法準(zhǔn)確率對(duì)比圖,其中,Balance-sum為均衡抽 象方法;Weighted k-center;
[0055] 為加權(quán)k-中屯、抽象方法;GP-RDSS為基于圖劃分的抽象方法
[0056] 圖9(b)為實(shí)施例提出的模式抽象方法召回率對(duì)比圖;
[0057] 圖9(c)為實(shí)施例提出的模式抽象方法F-值對(duì)比圖;
[005引圖10為【具體實(shí)施方式】屯提出的主題類簇檢測(cè)算法程序圖。
【具體實(shí)施方式】
【具體實(shí)施方式】 [0059] 一:本實(shí)施方式的基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法,具體是 按照W下步驟制備的:
[0060] 步驟一、根據(jù)節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj之間的拓?fù)渚o密性,構(gòu)建關(guān)系數(shù)據(jù)庫(kù)的拓?fù)渚o密性矩 陣T;
[0061] 步驟二、根據(jù)拓?fù)渚o密性矩陣T和數(shù)據(jù)表間的內(nèi)容相似性矩陣S計(jì)算得到表間相似 性矩陣Adb;
[0062] 步驟S、將表間相似性矩陣Adb進(jìn)行修正,得到最終的數(shù)據(jù)表ti和數(shù)據(jù)表t調(diào)的相 似性計(jì)算結(jié)果AFinal(ti,tj);
[0063] 步驟四、數(shù)據(jù)表重要性綜合量度;
[0064] 在確定主題類簇代表的過程中,面臨的最大挑戰(zhàn)即運(yùn)用一種全面且合理的重要性 評(píng)定標(biāo)準(zhǔn)對(duì)數(shù)據(jù)庫(kù)中每張表的重要性進(jìn)行準(zhǔn)確的評(píng)估。顯然,重要性較大的數(shù)據(jù)表具有較 強(qiáng)的代表性。用戶可W通過運(yùn)些表對(duì)相應(yīng)的主題類簇有一個(gè)初步且較為全面的了解。另外, 局部范圍內(nèi)重要性較大的數(shù)據(jù)表可作為譜聚類的初始聚類中屯、,通過實(shí)驗(yàn)證明由此得到的 聚類結(jié)果更為精確如圖7,更能清晰的反映整個(gè)數(shù)據(jù)庫(kù)的結(jié)構(gòu)組成和內(nèi)容特征,幫助用戶在 短時(shí)間內(nèi)掌握數(shù)據(jù)庫(kù)的基本信息,從而對(duì)數(shù)據(jù)庫(kù)做進(jìn)一步的操作。
[0065] 由于數(shù)據(jù)表位于數(shù)據(jù)庫(kù)運(yùn)樣一個(gè)大的拓?fù)浣Y(jié)構(gòu)中,所W在計(jì)算一張表的重要性 時(shí),不僅要考慮數(shù)據(jù)表本身的結(jié)構(gòu)、內(nèi)容信息,還需要考慮來自其他節(jié)點(diǎn)的影響。顯然,如果 一個(gè)數(shù)據(jù)表的鄰居節(jié)點(diǎn)擁有很高的重要性,運(yùn)張表同為重要表的可能性就相對(duì)較高;
[0066] 將數(shù)據(jù)表ti的重要性If (ti)進(jìn)行歸一化處理得到最終的表重要性度量結(jié)果NI (ti);其中,
[0067] NI(ti) = 2X(f(If(ti))-0.5) (14)
[00側(cè)其中
為數(shù)據(jù)表ti的重要性;
[0069] 步驟五、根據(jù)表重要性度量結(jié)果Nl(ti)利用類簇代表檢測(cè)算法得到結(jié)果集合R;
[0070] 步驟六、根據(jù)AFinalUi, tj)和結(jié)果集合R利用數(shù)據(jù)庫(kù)模式抽象的圖劃分方法將數(shù)據(jù) 表ti和數(shù)據(jù)表t冰Ij分到主題類簇;
[0071] 所述數(shù)據(jù)庫(kù)模式抽象的圖劃分方法(模式抽象算法GP-RDSS)具體為:(如圖3所示)
[0072] 步驟六一、輸入G=(y/,E)和影響因子0,其中,y/ ={vi, . . . ,Vn},|E| =m;m節(jié)點(diǎn)間 邊的個(gè)數(shù);Vn為y/中的第n個(gè)數(shù)據(jù)表;
[007;3 ]步驟六二、將AFinal (ti,t j )作為初始輸入矩陣;
[0074]步驟六=、捜索結(jié)果集合R中的數(shù)據(jù)表作為初始聚類中屯、;
[007引步驟六四、計(jì)算初始輸入矩陣Af皿的特征值和特征向量;使用Af皿 的前k個(gè)最小特征值對(duì)應(yīng)的特征向量m,...,uk,將r中的所有點(diǎn)映射到Rk空間;其中,k為結(jié) 果集合R中的數(shù)據(jù)表個(gè)數(shù);
[0076] 步驟六五、基于初始聚類中屯、使用k-means算法將Rk中的節(jié)點(diǎn)聚集到主題類簇Cl, 〇2 ,. . . ,Ck中;
[0077] 步驟六六、輸出主題類簇C=ICi,C2, ...,Ck};(如圖2)
[0078] 主題類簇C= {Ci,C2, ...,Ck}中包括k個(gè)主題類簇,每個(gè)主題類簇中的數(shù)據(jù)表均具 有相似的主題和內(nèi)容;用戶想要在短時(shí)間內(nèi)對(duì)該主題類簇有一個(gè)宏觀的了解,就需要系統(tǒng) 使用一種科學(xué)合理的方法為每個(gè)主題類簇選擇一個(gè)類簇代表,通過類簇代表能夠反映該主 題簇的核屯、內(nèi)容,使用戶不需要具體地查看主題類簇中每一張數(shù)據(jù)表就對(duì)該主題類簇有一 個(gè)初步的了解。
[0079] 本實(shí)施方式效果:
[0080] 本發(fā)明提出了一種基于圖劃分策略一譜聚類算法的數(shù)據(jù)庫(kù)模式抽象方法GP- RDSS。譜聚類算法作為一種經(jīng)典的圖劃分策略,在社會(huì)網(wǎng)絡(luò)等相關(guān)研究領(lǐng)域中取得了廣泛 應(yīng)用。由于結(jié)構(gòu)化數(shù)據(jù)庫(kù)可W使用模式圖形象地表示其底層模式特征,因此本發(fā)明將圖劃 分方法中的譜聚類算法與結(jié)構(gòu)化數(shù)據(jù)庫(kù)自身的內(nèi)容特征巧妙結(jié)合,使模式抽象過程同時(shí)受 到數(shù)據(jù)庫(kù)拓?fù)浣Y(jié)構(gòu)和數(shù)據(jù)表內(nèi)容的影響;此外,本發(fā)明首次將用戶偏好對(duì)模式抽象過程的 影響考慮在內(nèi),挖掘歷史查詢?nèi)罩镜膬?nèi)容,進(jìn)一步提高了抽象結(jié)果的效率和準(zhǔn)確性。其主要 思想如下:該方法首先通過節(jié)點(diǎn)間拓?fù)渚o密性和內(nèi)容相似性的計(jì)算構(gòu)建初始輸入矩陣;同 時(shí)進(jìn)行查詢?nèi)罩拘畔⒌耐诰颍瑢?duì)初始矩陣加 W修正;最后通過對(duì)極重要節(jié)點(diǎn)的檢測(cè)確定初 始聚類中屯、,進(jìn)而執(zhí)行改進(jìn)后的譜聚類算法得到最終的模式抽象結(jié)果。
[0081 ] 簡(jiǎn)而言之本發(fā)明主要貢獻(xiàn)如下:
[0082] (1)基于圖劃分策略一譜聚類算法,結(jié)合結(jié)構(gòu)化數(shù)據(jù)庫(kù)自身特點(diǎn),構(gòu)建了一種新穎 的數(shù)據(jù)庫(kù)模式抽象方法GP-RDSS;
[0083] (2)從拓?fù)渚o密性、內(nèi)容相似性和用戶反饋=個(gè)方面出發(fā)設(shè)計(jì)了一種表間相似性 矩陣構(gòu)建策略,該策略綜合全面并體現(xiàn)用戶的查詢偏好特征;
[0084] (3)對(duì)數(shù)據(jù)庫(kù)中的表結(jié)構(gòu)、內(nèi)容W及查詢?nèi)罩局械姆答佇畔⑦M(jìn)行深入剖析,重新定 義了表重要性度量公式,并在此基礎(chǔ)上提出了類簇代表選取方案,解決了傳統(tǒng)方法中類簇 個(gè)數(shù)無法預(yù)先確定的難題;
[00化](4)通過在TPC-E benchmark真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了本發(fā)明方法GP-畑SS 的正確性和有效性如表1和圖6。
[00化]表1
[0087]
[0088] 本發(fā)明提出了一種基于圖劃分策略-譜聚類的數(shù)據(jù)庫(kù)模式抽象方法(GP-RDSS)。首 先提出了一種新穎的表間相似性矩陣構(gòu)建策略:從拓?fù)渚o密性、內(nèi)容相似性和查詢?nèi)罩? 個(gè)方面構(gòu)建初始矩陣,使其綜合全面并體現(xiàn)用戶的查詢偏好特征;然后設(shè)計(jì)了綜合完整的 表重要性度量公式和局部極重要節(jié)點(diǎn)檢測(cè)方案,用于初始聚類中屯、的確定,從而使抽象結(jié) 果更具主題性和有效性。通過在公開數(shù)據(jù)集TPC-E benchmark上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文方 法在數(shù)據(jù)庫(kù)模式抽象的準(zhǔn)確率方面有顯著提高如表2、表3、圖7和圖8。
[0089] 親2
[009(
[009'
[009;
[0093]本發(fā)明提出的模式抽象方法GP-RDSS采用一種改進(jìn)的譜聚類策略,從拓?fù)渚o密性 和內(nèi)容相似性兩個(gè)方面構(gòu)建譜聚類初始輸入矩陣,并通過對(duì)查詢?nèi)罩緝?nèi)容的挖掘分析,側(cè) 面對(duì)其進(jìn)行修正優(yōu)化。另外,本發(fā)明從多個(gè)角度對(duì)數(shù)據(jù)表的重要性進(jìn)行度量分析,定義了表 重要性綜合度量公式,并在此基礎(chǔ)上提出了類簇代表檢測(cè)方案,實(shí)現(xiàn)聚類算法中主題類簇 個(gè)數(shù)的準(zhǔn)確預(yù)測(cè),而省去用戶對(duì)相關(guān)參數(shù)的手動(dòng)輸入,同時(shí)使模式抽象結(jié)果的精度有了顯 著提高圖9(a)~圖9(c)和表4~6;
[0094] 表 4
[0095]
[0096] 如果真要翻譯的話:均衡抽象方法、加權(quán)k-中屯、抽象方法、基于圖劃分的抽象方法
[0097] 表 5
[i
[i
[i
[0102]【具體實(shí)施方式】二:本實(shí)施方式與【具體實(shí)施方式】一不同的是:步驟一中根據(jù)節(jié)點(diǎn)Vi 和節(jié)點(diǎn)Vj之間的拓?fù)渚o密性,構(gòu)建關(guān)系數(shù)據(jù)庫(kù)的拓?fù)渚o密性矩陣即表間相似性矩陣具體 為:
[0103] 步驟一一、衡量表間拓?fù)渚o密性;
[0104] 在衡量表間拓?fù)渚o密性時(shí),本發(fā)明引入了數(shù)據(jù)場(chǎng)中拓?fù)鋭?shì)的概念(文獻(xiàn)Witten, E.,Topological quantum field theory.Communications in Mathematical Physics, 1988.117(3) :p.353-386記載);假定在數(shù)據(jù)庫(kù)模式圖中,節(jié)點(diǎn)順著模式圖中邊的方向能夠 散發(fā)出一個(gè)作用場(chǎng),則模式圖中的任何節(jié)點(diǎn)都將受到其鄰近節(jié)點(diǎn)的聯(lián)合作用,該聯(lián)合作用 的強(qiáng)弱與節(jié)點(diǎn)本身的重要程度W及節(jié)點(diǎn)之間的距離相關(guān)。節(jié)點(diǎn)在模式圖中的拓?fù)湮恢?,?當(dāng)于節(jié)點(diǎn)所處的位勢(shì),反映了它影響相鄰節(jié)點(diǎn)(也反映了被相鄰節(jié)點(diǎn)影響)的能力,定義為 數(shù)據(jù)表的拓?fù)鋭?shì)。顯然,數(shù)據(jù)表的拓?fù)鋭?shì)包含了豐富的結(jié)構(gòu)信息,可W用來衡量數(shù)據(jù)表間的 拓?fù)渚o密性:
[0105] 給定數(shù)據(jù)庫(kù)的模式圖G=(V,E),節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj之間的拓?fù)渚o密性定義如下:
[0106] 化
[0107]其中,I Vi I為節(jié)點(diǎn)Vi包含的元組個(gè)數(shù);I Vj I為節(jié)點(diǎn)Vj包含的元組個(gè)數(shù);0為影響因 子,O決定了節(jié)點(diǎn)在模式圖中的影響范圍。〇越大影響力越強(qiáng),即節(jié)點(diǎn)間的相互作用力越強(qiáng); 反之,相互作用力越弱。W,為節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj之間的邏輯距離即在數(shù)據(jù)庫(kù)模式圖中,節(jié)點(diǎn)Vi 和節(jié)點(diǎn)Vj之間的路徑長(zhǎng)度。
[0108] 根據(jù)高斯函數(shù)的數(shù)學(xué)性質(zhì),對(duì)于給定的O值,每個(gè)節(jié)點(diǎn)的影響范圍近似等于 貴?的局部區(qū)域,當(dāng)節(jié)點(diǎn)Vi和節(jié)點(diǎn)V調(diào)的邏輯距離而,大于據(jù)」時(shí),節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj 間的拓?fù)渚o密性迅速衰減為0;
[0109] 注意:在計(jì)算節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj間的邏輯距離時(shí),如果Vi到Vj的路徑上包含物理連接 表(表中僅包含主外鍵關(guān)系所設(shè)及的主外鍵屬性,沒有其他附加屬性),則在計(jì)算路徑長(zhǎng)度 時(shí)應(yīng)除去此類物理連接表的影響。
[0110] 步驟一二、假設(shè)節(jié)點(diǎn)Vi到Vj的路徑上存在I P I個(gè)物理連接表,風(fēng),表示節(jié)點(diǎn)Vi和節(jié) 點(diǎn)V么間實(shí)際物理長(zhǎng)度,則節(jié)點(diǎn)Vi和V擱的邏輯長(zhǎng)度邸,/=鳳,,卡I;
[0111] 步驟一 S、通過公式(1)計(jì)算出節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj之間的拓?fù)渚o密性,進(jìn)而構(gòu)建關(guān)系 數(shù)據(jù)庫(kù)的拓?fù)渚o密性矩陣T如下:
[0112]
[011引,、1為節(jié)點(diǎn)Vn和節(jié)點(diǎn)Vl的結(jié)構(gòu)相似性;為節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vn的結(jié)構(gòu)相似性。 其它步驟及參數(shù)與【具體實(shí)施方式】一相同。
[0114]【具體實(shí)施方式】本實(shí)施方式與【具體實(shí)施方式】一或二不同的是:步驟二中根據(jù)拓 撲緊密性矩陣T和數(shù)據(jù)表間的內(nèi)容相似性矩陣S計(jì)算得到表間相似性矩陣Adb具體為:
[0115] 步驟二一、步驟一主要討論了數(shù)據(jù)表之間結(jié)構(gòu)上的相互關(guān)系,而從另外一個(gè)角度 出發(fā),數(shù)據(jù)表自身的元組、屬性等內(nèi)容信息也會(huì)對(duì)表間相似性產(chǎn)生很大程度的影響,進(jìn)而對(duì) 數(shù)據(jù)庫(kù)的模式抽象過程起著指導(dǎo)作用。顯然,內(nèi)容上越相近的兩個(gè)表,屬于同一主題的概率 就越大,在模式圖劃分時(shí),就擁有更高的概率被分到同一個(gè)類簇中。因此,步驟一針對(duì)表間 內(nèi)容的相似性展開深入討論,為之后的圖劃分提供理論依據(jù)和劃分基礎(chǔ)。
[0116] 數(shù)據(jù)表由表名、屬性和元組構(gòu)成,因此在對(duì)表間內(nèi)容相似性進(jìn)行分析時(shí)從命名相 似性和賦值相似性兩個(gè)方面進(jìn)行深入探究;
[0117] 命名相似性作為影響表間內(nèi)容相似性的重要因素之一:具體來講包括表名相似性 和屬性名相似性兩大部分。本發(fā)明采用向量空間中計(jì)算兩實(shí)體間相似性的方法(Baeza- Yates,R.and B.Ribeiro-Neto,Modern information retrieval.Vol.463.1999:ACM press New York.),分別提取每張數(shù)據(jù)表ti的表名W及數(shù)據(jù)表ti的屬性名中的關(guān)鍵字構(gòu)建 數(shù)據(jù)表ti的向量Vi,每張數(shù)據(jù)表t北勺表名W及數(shù)據(jù)表的屬性名中的關(guān)鍵字構(gòu)建數(shù)據(jù)表tj的 向量Vj,根據(jù)Vi和Vj利用Cosine函數(shù)計(jì)算命名相似性Simi(ti,tj):
[011 引 Sim(ti'tj) = Sim(Vi,Vj)=ViXVj/^(|Vi|x|Vj|) (2)
[0119] Sim(Vi,Vj)為向量Vi和Vj相似性;
[0120] 步驟二二、使用化ccard距離計(jì)算數(shù)據(jù)表ti和tj的屬性間的內(nèi)容相似性J(u,V):
[0121] ^u'v)= |unv|/|uUv| (3)
[0122] 其中,U為數(shù)據(jù)表ti的屬性;V為數(shù)據(jù)表的屬性;
[0123] 步驟二=、利用貪婪匹配算法檢測(cè)數(shù)據(jù)表ti和間相互匹配的屬性列對(duì)集合Z;
[0124] 步驟二四、分別計(jì)算數(shù)據(jù)表ti的屬性列U的變異系數(shù)U. V(變異系數(shù)英文全稱 variance coefficient)和數(shù)據(jù)表tj的屬性列V的變異系數(shù)V.V,根據(jù)變異系數(shù)U.V和V.V計(jì) 算得到賦予屬性列對(duì)(u,v)的權(quán)值max(u.V,v.V);其中,
[0125]
[0134]
[0135] 51111(心,心)為相同數(shù)據(jù)表心的內(nèi)容相似性,51111(11,11)~51111(心,心)的內(nèi)容相似性 均為I;
[0136] 步驟二八、根據(jù)拓?fù)渚o密性矩陣T和數(shù)據(jù)表間的內(nèi)容相似性矩陣S計(jì)算得到數(shù)據(jù)表 tj和數(shù)據(jù)表ti間相似性矩陣Adb:
[0137] Adb = T+S。其它步驟及參數(shù)與【具體實(shí)施方式】一或二相同。
【具體實(shí)施方式】 [0138] 四:本實(shí)施方式與一至=之一不同的是:所述步驟二 =中利用貪婪匹配算法檢測(cè)數(shù)據(jù)表ti和間相互匹配的屬性列對(duì)集合Z具體過程為:
[0139] a.初始化屬性列對(duì)集合Z= (1),U為數(shù)據(jù)表ti的全體屬性集;V為數(shù)據(jù)表的全體屬 性集;4為空集;Z為用于存放相互匹配的屬性列對(duì);
[0140] b.尋找J(u,v)值最大的屬性列對(duì)(u,v),其中,uGU、vGV;
[0141] C.將J(u,v)值最大的屬性列對(duì)(u,v)存入到Z中,將U和V分別從屬性集U和V中移 除;
[0142] d.在U和V中重新尋找屬性列對(duì)重復(fù)步驟b和C,直到所有的屬性列對(duì)化ccard距離 為0為止;從而得到數(shù)據(jù)表ti和間相互匹配的屬性列對(duì)集合Z。其它步驟及參數(shù)與具體實(shí)施 方式一至S之一相同。
[0143]
【具體實(shí)施方式】五:本實(shí)施方式與【具體實(shí)施方式】一至四之一不同的是:步驟=中將 表間相似性矩陣Adb進(jìn)行修正,得到最終的數(shù)據(jù)表ti和數(shù)據(jù)表tj間的相似性計(jì)算結(jié)果AFinal 具體過程:
[0144] 步驟=一、傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)模式抽象方法僅僅關(guān)注數(shù)據(jù)庫(kù)本身包含的數(shù)據(jù)信 息,將內(nèi)容相近的若干張數(shù)據(jù)表劃分到同一個(gè)主題類簇,而未將用戶的歷史查詢記錄考慮 在內(nèi)。用戶查詢?nèi)罩居涗浟吮姸嘤脩魴z索數(shù)據(jù)庫(kù)的"反饋"結(jié)果,對(duì)它進(jìn)行分析相當(dāng)于使用 了大量用戶的相關(guān)反饋,相對(duì)于傳統(tǒng)的模式抽象方法而言,運(yùn)種帶有用戶反饋的模式抽象 方法更具意義和使用價(jià)值(文獻(xiàn)Gao,L.,X.化,and Y丄iu,Keyword query cleaning with query logs, in Web-Age Information Management.2011 ,Springer.p.31-42.記載);
[0145] 利用用戶反饋的模式抽象方法對(duì)查詢?nèi)罩綥中的查詢記錄進(jìn)行統(tǒng)計(jì)分析,并使用 臥下13〇〇31:;[]1£^巧敬對(duì)Adr講行修巿:
[0146]
[0147] 其中,count
記錄了數(shù)據(jù)表ti和數(shù)據(jù)表tj在查詢?nèi)罩局泄铂F(xiàn)的次數(shù),max (count)為查詢?nèi)罩綥中任意兩表共現(xiàn)次數(shù)的最大值;boosti〇g( ?)為加強(qiáng)函數(shù);查詢?nèi)罩綥 中包含3個(gè)字段:用戶ID、提出的查詢Q、查詢結(jié)果及結(jié)果所在的數(shù)據(jù)表t,而運(yùn)些信息能夠從 側(cè)面反映用戶的興趣;數(shù)據(jù)表t為數(shù)據(jù)表ti或數(shù)據(jù)表t J;
[0148] 由公式(6)可知,在查詢?nèi)罩綥中共現(xiàn)次數(shù)越多的表,緊密性得分被加強(qiáng)的程度越 大;例如數(shù)據(jù)表tl、t2、t3為數(shù)據(jù)庫(kù)D中的立張表,且具有W下結(jié)構(gòu)關(guān)系如圖4;
[0149] 運(yùn)樣就存在兩種可能的劃分Si =扣(,巧PS: 。假定t2,t3出現(xiàn)在查詢?nèi)罩?的同一行記錄中,而ti,t2沒有同時(shí)出現(xiàn)在查詢?nèi)罩局校?二!化如就更有可能是用戶希望 得到的理想劃分。如果不考慮查詢?nèi)罩緦?duì)劃分結(jié)果的影響,僅僅使用數(shù)據(jù)表本身包含的數(shù) 據(jù)信息作為劃分依據(jù),則可能得到相反的結(jié)果。
[0150] 步驟S二、利用用戶查詢?nèi)罩綥中的信息對(duì)Adb進(jìn)行加強(qiáng),提出W下得分加強(qiáng)函數(shù):
[0151] AFinal(ti,tj)=ADB(ti,tj)*b〇OStl〇g(ti,tj) (7)
[0152] 其中,AFinalUi山)為最終的數(shù)據(jù)表ti和數(shù)據(jù)表t調(diào)的相似性計(jì)算結(jié)果;ADB(ti,tj) 為數(shù)據(jù)表ti和t北勺相似性得分;
[0153] 正如公式(7)所示,如果數(shù)據(jù)表ti和同時(shí)出現(xiàn)在用戶查詢?nèi)罩綥中,則數(shù)據(jù)表ti和 tj的緊密性得分AdbUi,tj)應(yīng)該被加強(qiáng);如果沒有同時(shí)出現(xiàn)在查詢?nèi)罩綥中,則相似性得分 A〇B(ti , tj)保持不變;
[0154] 若數(shù)據(jù)表ti和t撕緊密性得分AdbUi山)被加強(qiáng)(得分變大),通過加強(qiáng)函數(shù)(公式 (7))的作用,出現(xiàn)在查詢?nèi)罩绢l率越高的數(shù)據(jù)表ti和t苗皮劃分到一個(gè)主題類簇的概率越大。 其它步驟及參數(shù)與【具體實(shí)施方式】一至四之一相同。
【具體實(shí)施方式】 [0155] 六:本實(shí)施方式與一至五之一不同的是:步驟四中將 數(shù)據(jù)表ti的重要性If(ti)進(jìn)行歸一化處理得到最終的表重要性度量結(jié)果Nl(ti)具體為:
[0156] 步驟四一、將數(shù)據(jù)表ti的重要性If(ti)包括數(shù)據(jù)表ti的固有重要性Ib(ti)和數(shù)據(jù)表 ti的依賴重要性Id(ti),如公式(8)所示:
[0157] If(ti) = Ib(ti)+Id(ti) (8)
[015引步驟四二數(shù)據(jù)表ti的固有重要性Ib(ti)與數(shù)據(jù)表的固有屬性相關(guān),數(shù)據(jù)表的固有 屬性包括數(shù)據(jù)表的規(guī)模、自身所包含的信息、數(shù)據(jù)表在整個(gè)數(shù)據(jù)庫(kù)中的位置分布W及用戶 反饋信息的側(cè)面影響;具體公式如下所示:
[01巧]
巧
[0160] 其中,log I ti I代表數(shù)據(jù)表ti的規(guī)模對(duì)數(shù)據(jù)表ti重要性的影響,數(shù)據(jù)表ti的規(guī)模越 大,數(shù)據(jù)表ti的重要性也隨之增大;tf(ti)為表ti在查詢?nèi)罩局谐霈F(xiàn)的次數(shù);
[0161] 的O為數(shù)據(jù)表ti的拓?fù)鋭?shì),由公式(10)計(jì)算得到:
[畫
(10)
[0163] 其中,n為數(shù)據(jù)表的總個(gè)數(shù);0影響因子; .拓
[0164] X .4 . k'為表ti中所有屬性列的變異系數(shù)Al. V之和; f=i
[01 化]
(II)
[0166] Ai為數(shù)據(jù)表ti的屬性列,Ai為U或V; A為M或云;Ai.V為數(shù)據(jù)表ti中屬性列Ai的變異系 數(shù);k為數(shù)據(jù)表ti的屬性列個(gè)數(shù);
[0167] Al. V是衡量資料中各觀測(cè)值變異程度的一個(gè)統(tǒng)計(jì)量;變異系數(shù)越小,屬性列內(nèi)容 的豐富度也就越小;反之,變異系數(shù)越大,屬性列內(nèi)容的豐富度也就越大;
[016引例:
[0169] 圖5(a)為數(shù)據(jù)表ti的屬性列u,圖5(b)為數(shù)據(jù)表t2的屬性列V,在對(duì)數(shù)據(jù)表ti和t2的 內(nèi)容豐富度進(jìn)行比較時(shí),需分別計(jì)算屬性列U和V的變異系數(shù);
[0170] 將屬性值在實(shí)數(shù)空間上從小到大進(jìn)行映射,其中,相同的屬性值被映射到同一個(gè) 實(shí)數(shù)上。由公式(12)得U屬性列和V屬性列的變異系數(shù)分別為:
[0171] (12)
[0172] U ? V〉v ? V,u屬性的變異程度大于V屬性,即U屬性的豐富程度大于V屬性。
[0173] W體現(xiàn)了用戶查詢反饋對(duì)表重要程度的影響為數(shù)據(jù)表ti在查詢?nèi)罩局?出現(xiàn)的次數(shù),直觀上看,出現(xiàn)在查詢?nèi)罩綥中次數(shù)越多的數(shù)據(jù)表,用戶對(duì)該數(shù)據(jù)表的興趣指 數(shù)越高,表的重要性也隨之升高。
[0174] 步驟四S、公式If(ti) = Ib(ti)+Id(ti)的后半部分體現(xiàn)了一個(gè)表重要性受其他數(shù) 據(jù)表的影響;數(shù)據(jù)表ti的依賴重要性Id(ti)的具體公式為:
[0175]
(13)
[0176] 其中,Ib(tj)為數(shù)據(jù)表tj的固有重要性;ADB(ti,tj)為數(shù)據(jù)表ti與數(shù)據(jù)表tj間的相似 性矩陣;
[0177] 步驟四四、將If(ti)進(jìn)行歸一化處理得到最終的表重要性度量結(jié)果NKti):
[017 引 NI(ti) = 2X(f(If(ti))-0.5) (14)
[0179] 其中
[0180] 理論上,Nl(ti)越大的數(shù)據(jù)表,作為類簇代表的潛力就越大,用戶通過運(yùn)些NKti) 越大的數(shù)據(jù)表也更容易了解類簇的概要信息;但是,簡(jiǎn)單地選取NKti)排在top-k的數(shù)據(jù)表 作為類簇代表是不合理的:當(dāng)同時(shí)具有較高重要性的兩個(gè)表又同時(shí)位于同一主題類簇時(shí), W上選取方案就不再適用。為了解決運(yùn)個(gè)問題,本發(fā)明提出了一種局部極重要點(diǎn)檢測(cè)方案 即類簇代表檢測(cè)算法,通過此方案,將檢測(cè)到的局部極重要節(jié)點(diǎn)作為類簇代表更具合理性。 其它步驟及參數(shù)與【具體實(shí)施方式】一至五之一相同。
【具體實(shí)施方式】 [0181] 屯:本實(shí)施方式與一至六之一不同的是:步驟五中根 據(jù)表重要性度量結(jié)果Nl(ti)利用類簇代表檢測(cè)算法得到結(jié)果集合R具體為:
[0182] 步驟五一、輸入數(shù)據(jù)庫(kù)的模式圖G=(V/,E);y/為數(shù)據(jù)庫(kù)的模式圖的節(jié)點(diǎn);E為節(jié)點(diǎn) 間的邊;(如圖1)
[0183] 步驟五二、按照公式(14)計(jì)算數(shù)據(jù)庫(kù)模式圖中每個(gè)數(shù)據(jù)表的NKti),并將NKti)進(jìn) 行降序排序,進(jìn)入隊(duì)列Q;
[0184] 步驟五=、將隊(duì)列Q中的隊(duì)頭元素 qi出隊(duì),放入結(jié)果集合R中;并將qi及qi的鄰居節(jié) 點(diǎn)標(biāo)記為已訪問狀態(tài);其中,qi為NKti)值最大的數(shù)據(jù)表;
[0185] 步驟五四、將隊(duì)列Q中的隊(duì)頭Q2出隊(duì),并將Q2的鄰居節(jié)點(diǎn)標(biāo)記為已訪問狀態(tài),再判斷 Q2是否已被標(biāo)記,如果未被標(biāo)記,則將Q2放入集合R中,并標(biāo)記;
[0186] 步驟五五、循環(huán)執(zhí)行步驟五四,直到隊(duì)列Q為空;
[0187] 步驟五六、輸出結(jié)果集合R;主要程序如圖10。其它步驟及參數(shù)與【具體實(shí)施方式】一 至六之一相同。
[0188] 采用W下實(shí)施例驗(yàn)證本發(fā)明的有益效果:
[0189] 實(shí)施例一;
[0190] 本實(shí)施例基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法,具體是按照W下步驟制備的:
[0191] 將本發(fā)明提出的GP-RDSS關(guān)系數(shù)據(jù)庫(kù)模式抽象方法在真實(shí)的數(shù)據(jù)集TPC-E benchmark上進(jìn)行測(cè)試。首先,對(duì)數(shù)據(jù)集TPC-E benchmark和實(shí)驗(yàn)環(huán)境作簡(jiǎn)要介紹。然后,從 不同角度構(gòu)建S組實(shí)驗(yàn)驗(yàn)證本發(fā)明的有效性:分別使用文獻(xiàn)(Y U,C . a n d H.Jagadish.Schema summarization. in Proceedings of the 32nd international conference on VeiT large da1:a bases. 2006. VLDB !Endowment.)中的表重要性計(jì)算方法 和本發(fā)明提出的表重要性綜合度量公式對(duì)表的重要性進(jìn)行計(jì)算,通過排序結(jié)果的對(duì)比分析 證實(shí)本文表重要性計(jì)算公式的合理性和準(zhǔn)確性;使用本發(fā)明提出的方法GP-RDSS對(duì)數(shù)據(jù)集 進(jìn)行模式抽象,與數(shù)據(jù)庫(kù)自身定義的數(shù)據(jù)表分類結(jié)果進(jìn)行比較,驗(yàn)證本發(fā)明所提方法的有 效性,另外設(shè)計(jì)對(duì)比實(shí)驗(yàn)驗(yàn)證主題類簇代表檢測(cè)方案和用戶反饋信息對(duì)模式抽象結(jié)果精度 的促進(jìn)作用;實(shí)驗(yàn)的最后部分將本發(fā)明模式抽象方法與文獻(xiàn)(Y U,C . a n d H.Jagadish.Schema summarization. in Proceedings of the 32nd international conference on Very large data bases. 2006 .VLDB Endowment.)中的Balance-sum抽象 方'法臥及文南犬(Yan邑,X. ,C.M.Procopiuc,and D. Srivastava,Summarizin邑 relational databases.Proceedings of the VLDB !Endowment,2009.2(1) :p.6:34-645.)中的weighted k-center模式抽象方法進(jìn)行比較,結(jié)果證實(shí)本發(fā)明在結(jié)果的精度方面有顯著提高。
[0192] -、實(shí)驗(yàn)設(shè)置
[0193] 數(shù)據(jù)集TPC-E benchmark由IYansaction Processing 化;rformance Council提 供,用于測(cè)評(píng)化TP系統(tǒng)的性能。TPC-E數(shù)據(jù)庫(kù)使用美國(guó)人口普查中和紐約證券交易中屯、的的 數(shù)據(jù)分別生成人名和公司信息。TPC-E共有33張數(shù)據(jù)表,被分為客戶、經(jīng)紀(jì)人、市場(chǎng)、維度四 類??蛻纛惏丝蛻粝嚓P(guān)信息;經(jīng)紀(jì)人包含了與經(jīng)紀(jì)商相關(guān)的數(shù)據(jù);市場(chǎng)類中的數(shù)據(jù)與交 易、公司和證券相關(guān);維度包含了通用信息。
[0194] 算法在JAVA環(huán)境下運(yùn)行,采用Inte頓Core (TM) 3.40GHz的CPU,8GB內(nèi)存,500G硬盤, 操作系統(tǒng)為Microsoft Windows 7。
[01巧]二、實(shí)驗(yàn)評(píng)估
[0196] (一)、數(shù)據(jù)表的重要性
[0197] 數(shù)據(jù)表重要性綜合度量方法和文獻(xiàn)(Yu, C.and H. Jagadish. Schema summarization. in Proceedings of the 32nd international conference on Very large da化bases. 2006. VLDB Endowment.)中的數(shù)據(jù)表重要性計(jì)算方法進(jìn)行比較,分別使 用If.表和Is.表記錄通過兩種方法得到的數(shù)據(jù)表重要性排序結(jié)果。表7僅展現(xiàn)排序結(jié)果的前 六位。
[019引表7表重要性對(duì)比
LUZUU」 出W Jl刈化巧宋Kl夫N ,yu con邑寺八巧巧的巧里巧'I生TT異/H友ic上巧個(gè)區(qū)化巧的別 模對(duì)各個(gè)表的重要性進(jìn)行衡量。如表7所示表交易歷史、控股歷史因?yàn)榘舜罅康臍v史信 息,具有較大的規(guī)模,在表重要性排序中分別被排在第二位和第五位。但是在用戶訪問TPCE 數(shù)據(jù)庫(kù),進(jìn)行各項(xiàng)股票交易的過程中,運(yùn)些歷史信息并不重要且很少得到用戶的關(guān)注。因此 運(yùn)種重要性排序方法缺乏合理性。相反,本實(shí)施例提出的數(shù)據(jù)表重要性計(jì)算方法If,綜合考 慮數(shù)據(jù)表的拓?fù)渲型?、性、?nèi)容豐富性W及用戶反饋信息得到了較為合理的排序結(jié)果。例如 表交易和客戶由于同時(shí)具有豐富的內(nèi)容信息和較高的拓?fù)渲型汀⑿?,并且在查詢?nèi)罩局懈哳l 出現(xiàn)等特征而被排在表重要性排序的前兩位,也是大多數(shù)用戶想要得到的結(jié)果。
[0201] (二)、算法有效性
[0202] 運(yùn)一部分通過將本實(shí)施例的GP-RDSS得到的主題類簇結(jié)果與數(shù)據(jù)庫(kù)自身定義的主 題類簇進(jìn)行比較??蒞看出,本實(shí)施例的抽象方法具有較高的精度。在圖6中,X軸為數(shù)據(jù)庫(kù) 的各個(gè)主題類簇,y軸為本實(shí)施例的GP-RDSS方法的精度。
[0203] 表2模式抽象算法的有效性
[0204]
[0205]
[0206] 另外,采用本發(fā)明提出了一種主題類簇代表檢測(cè)方案。為了驗(yàn)證其對(duì)模式抽象結(jié) 果精度的促進(jìn)作用,進(jìn)行了 W下對(duì)比實(shí)驗(yàn)。圖7記錄了主題類簇代表檢測(cè)前后,模式抽象結(jié) 果的精度。由于主題類簇代表檢測(cè)方案對(duì)譜聚類中的初始聚類中屯、作了合理準(zhǔn)確的預(yù)測(cè), 從而使得最終的聚類結(jié)果具有更高的精度。
[0207] 表3未使用類簇代表檢測(cè)的模式抽象方法精度 「02081
[0209]本發(fā)明另外一個(gè)重要的特色是使用用戶查詢?nèi)罩拘畔?duì)模式抽象過程進(jìn)行指導(dǎo)。 從而使抽象結(jié)果反映用戶的查詢偏好特征。圖8中的結(jié)果顯示,在考慮用戶反饋信息的影響 后,模式抽象結(jié)果的精度有了一定提高。
[0210]表4不帶用戶反饋的模式抽象算法精度
[0212] (S)、方法對(duì)比
[0213] 運(yùn)一部分,對(duì)比分析了 S種關(guān)系數(shù)據(jù)庫(kù)模式抽象方法的結(jié)果,Balance-sum抽象方 法、wei曲ted k-center方法和本發(fā)明搖出的GP-畑SS。巧了評(píng)估模式抽象結(jié)果的質(zhì)量,實(shí)驗(yàn) 使用W下幾個(gè)量度進(jìn)行對(duì)比:召回率
I為模式抽象結(jié)果中主題類簇所包含 的數(shù)據(jù)表總數(shù)與數(shù)據(jù)庫(kù)中數(shù)據(jù)表總數(shù)間的比值、準(zhǔn)確率
3所有主題類簇準(zhǔn)確 率的平均值,其中每一個(gè)主題類簇的準(zhǔn)確率91=|(:11〇1-<16!1。6|/|(:1-<16!1。6|定義為:在模式 抽象返回結(jié)果Cl和數(shù)據(jù)庫(kù)預(yù)先定義的主題類簇Ci-define中同時(shí)出現(xiàn)的數(shù)據(jù)表所占的比例;F- measure:F = 2PR/(R+P)(女日文南犬Chowdhury,G. ,Introduction to modern information retrieval. SOlO = ^cet publishing.) ek為模式抽象結(jié)果中的主題類簇個(gè)數(shù);Ci為第i個(gè)主 題類簇;t為數(shù)據(jù)庫(kù)中數(shù)據(jù)表個(gè)數(shù);Pi為第i個(gè)主題類簇的模式抽象結(jié)果準(zhǔn)確率;Ci-define為領(lǐng) 域?qū)<叶x的數(shù)據(jù)庫(kù)模式抽象結(jié)果;PR為準(zhǔn)確率和召回率的乘積;
[0214] S種模式抽象方法的對(duì)比結(jié)果如圖9(a)~圖9(c)所示。由圖9(a)~圖9(c)可知, 本發(fā)明提出的方法GP-RDSS由于綜合考慮了數(shù)據(jù)庫(kù)的結(jié)構(gòu)、內(nèi)容特征,同時(shí)充分使用用戶的 查詢?nèi)罩拘畔?,在召回率、?zhǔn)確率上都遠(yuǎn)遠(yuǎn)優(yōu)于其他兩種方法。
[0215] 本實(shí)施例提出了一種基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法。首次結(jié)合圖劃分策 略和用戶查詢?nèi)罩拘畔?duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行模式抽象。通過計(jì)算模式圖中節(jié)點(diǎn)間的拓?fù)渚o密 性和內(nèi)容相似性構(gòu)建譜聚類算法的輸入矩陣,同時(shí)使用查詢?nèi)罩拘畔⒌慕y(tǒng)計(jì)分析結(jié)果對(duì)W 上矩陣進(jìn)行修正,從而反映用戶偏好特征;此外,定義了綜合的表重要性度量公式,并檢測(cè) 出局部極重要節(jié)點(diǎn),作為初始聚類中屯、和主題類簇代表。最終得到的抽象結(jié)果能夠幫助用 戶快速了解和使用數(shù)據(jù)庫(kù)。
[0216] 使用TPC-E benchmark數(shù)據(jù)集對(duì)提出的模式抽象方法GP-畑SS進(jìn)行評(píng)估,經(jīng)過和現(xiàn) 有最優(yōu)方法的對(duì)比實(shí)驗(yàn),證明本文方法在抽象結(jié)果的精度上得到顯著提高。
[0217] 在未來的工作中,我們將繼續(xù)研究數(shù)據(jù)庫(kù)模式抽象方法,并將其運(yùn)用到關(guān)鍵詞查 詢的預(yù)處理中用于查詢效率的提高。
[0218] 本發(fā)明還可有其它多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,本領(lǐng)域 技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但運(yùn)些相應(yīng)的改變和變形都應(yīng)屬于 本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法,其特征在于,該方法具體是按照以下步驟 進(jìn)tx的: 步驟一、根據(jù)節(jié)點(diǎn)Vl和節(jié)點(diǎn)W之間的拓?fù)渚o密性,構(gòu)建關(guān)系數(shù)據(jù)庫(kù)的拓?fù)渚o密性矩陣T; 步驟二、根據(jù)拓?fù)渚o密性矩陣T和數(shù)據(jù)表間的內(nèi)容相似性矩陣S計(jì)算得到表間相似性矩 陣 Adb; 步驟三、將表間相似性矩陣Adb進(jìn)行修正,得到最終的數(shù)據(jù)表tdP數(shù)據(jù)表k間的相似性計(jì) 算結(jié)果AFinal(ti,tj); 步驟四、將數(shù)據(jù)表^的重要性iKti)進(jìn)行歸一化處理得到最終的表重要性度量結(jié)果NI (ti);其中, NI(ti)=2X(f(If(ti))-0.5) (14) 其中為數(shù)據(jù)表^的重要性; 步驟五、根據(jù)表重要性度量結(jié)果NI(t〇利用類簇代表檢測(cè)算法得到結(jié)果集合R; 步驟六、根據(jù)和結(jié)果集合R利用數(shù)據(jù)庫(kù)模式抽象的圖劃分方法將數(shù)據(jù)表^ 和數(shù)據(jù)表k劃分到主題類簇; 所述數(shù)據(jù)庫(kù)模式抽象的圖劃分方法具體為: 步驟六一、輸入,E)和影響因子〇,其中,ν' ={νι, . . ·,vn},|E| =m;m節(jié)點(diǎn)間邊的 個(gè)數(shù);vn為f中的第n個(gè)數(shù)據(jù)表; 步驟六二、將AFirml ( ti,t j )作為初始輸入矩陣; 步驟六三、搜索結(jié)果集合R中的數(shù)據(jù)表作為初始聚類中心; 步驟六四、計(jì)算初始輸入矩陣AFinal(ti,tj)的特征值和特征向量;使用AFinal(ti,tj)的前 k個(gè)最小特征值對(duì)應(yīng)的特征向量m,...,Uk,將V'中的所有點(diǎn)映射到壚空間;其中,k為結(jié)果集 合R中的數(shù)據(jù)表個(gè)數(shù); 步驟六五、基于初始聚類中心使用k-means算法將Rk中的節(jié)點(diǎn)聚集到主題類簇Cl, C2,· · ·,Ck中; 步驟六六、輸出主題類簇C ={&,&,...,Ck}。2. 根據(jù)權(quán)利要求1所述基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法,其特征在于:步驟一中 根據(jù)節(jié)點(diǎn)^和節(jié)點(diǎn)W之間的拓?fù)渚o密性,構(gòu)建關(guān)系數(shù)據(jù)庫(kù)的拓?fù)渚o密性矩陣即表間相似性 矩陣具體為: 步驟一一、衡量表間拓?fù)渚o密性;給定數(shù)據(jù)庫(kù)的模式圖G =( V,E ),節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj之間 的拓?fù)渚o密性定義如下:其中,I Vi I為節(jié)點(diǎn)Vi包含的元組個(gè)數(shù);I Vj I為節(jié)點(diǎn)Vj包含的元組個(gè)數(shù);σ為影響因子, 為節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj之間的邏輯距離;當(dāng)節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj間的邏輯距離大于|_3σ/Λ/Ι]時(shí), 節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj間的拓?fù)渚o密性迅速衰減為〇; 步驟一二、假設(shè)節(jié)點(diǎn)Vi到Vj的路徑上存在I P I個(gè)物理連接表,./表示節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj 之間實(shí)際物理長(zhǎng)度,則節(jié)點(diǎn)^和^間的邏輯長(zhǎng)度步驟一三、通過公式(1)計(jì)算出節(jié)點(diǎn)Vl和節(jié)點(diǎn)W之間的拓?fù)渚o密性,進(jìn)而構(gòu)建關(guān)系數(shù)據(jù) 庫(kù)的拓?fù)渚o密性矩陣T如下:為節(jié)點(diǎn)Vn和節(jié)點(diǎn)¥1的結(jié)構(gòu)相似性;為節(jié)點(diǎn)V1和節(jié)點(diǎn)Vn的結(jié)構(gòu)相似 性。3.根據(jù)權(quán)利要求2所述基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法,其特征在于:步驟二中 根據(jù)拓?fù)渚o密性矩陣T和數(shù)據(jù)表間的內(nèi)容相似性矩陣S計(jì)算得到表間相似性矩陣Adb具體為: 步驟二一、分別提取每張數(shù)據(jù)表^的表名以及數(shù)據(jù)表^的屬性名中的關(guān)鍵字構(gòu)建數(shù)據(jù) 表ti的向量Vi,每張數(shù)據(jù)表tj的表名以及數(shù)據(jù)表tj的屬性名中的關(guān)鍵字構(gòu)建數(shù)據(jù)表tj的向量 Vj,根據(jù)Vi和Vj利用Cosine函數(shù)計(jì)算命名相似性Simi(ti,tj): Simi(ti ;tj)=Sim(Vi;Vj)=ViXVj/( |Vi| X |Vj|) (2) Sim( Vi,Vj)為向量Vi和Vj相似性; 步驟二二、使用Jaccard距離計(jì)算數(shù)據(jù)表ti和tj的屬性間的內(nèi)容相似性J(u,v): J(u,v)= |unv|/|uU V (3) 其中,u為數(shù)據(jù)表ti的屬性;v為數(shù)據(jù)表tj的屬性; 步驟二三、利用貪婪匹配算法檢測(cè)數(shù)據(jù)表tdPk間相互匹配的屬性列對(duì)集合Z; 步驟二四、分別計(jì)算數(shù)據(jù)表^的屬性列u的變異系數(shù)u.V和數(shù)據(jù)表tj的屬性列V的變異系 數(shù)V. V,根據(jù)變異系數(shù)u. V和V. V計(jì)算得到賦予屬性列對(duì)(u,V)的權(quán)值max (u.V,v.V);其中,其中,S為數(shù)據(jù)表屬性值的標(biāo)準(zhǔn)差,?為數(shù)據(jù)表^屬性的平均值;?為數(shù)據(jù)表h屬性的平 均值;m為數(shù)據(jù)表ti中第i個(gè)屬性列vi數(shù)據(jù)表tj中第i個(gè)屬性列; 步驟二五、根據(jù)屬性列對(duì)集合Z和maX(u.V,v.V)加權(quán)求平均得到兩數(shù)據(jù)表tdPk間的賦 值相似性Sim2(ti,tj):其中,I I為數(shù)據(jù)表t中的屬性個(gè)數(shù);I I為數(shù)據(jù)表k中的屬性個(gè)數(shù); 步驟二六、根據(jù)Simi(ti,tj)和Sim2(ti,tj)計(jì)算得到內(nèi)容相似性Sim(ti,tj): Sim(ti,tj) = (Simi(ti,tj)+Sim2(ti,tj) )/2 (5) 步驟二七、根據(jù)SimUbtJ計(jì)算得到數(shù)據(jù)表間的內(nèi)容相似性矩陣S: L ......N ' ?23;[111(1:11,1:11)為相同數(shù)據(jù)表1:11的內(nèi)容相似性,5;[111(1:1,1:1)~5;[111(1: 11,1:11)的內(nèi)容相似性均為 1; 步驟二八、根據(jù)拓?fù)渚o密性矩陣T和數(shù)據(jù)表間的內(nèi)容相似性矩陣S計(jì)算得到數(shù)據(jù)表和 數(shù)據(jù)表ti間相似性矩陣Adb : Adb = T+S〇4. 根據(jù)權(quán)利要求3所述基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法,其特征在于:所述步驟 二三中利用貪婪匹配算法檢測(cè)數(shù)據(jù)表tdPk間相互匹配的屬性列對(duì)集合Z具體過程為: a. 初始化屬性列對(duì)集合Ζ= Φ,U為數(shù)據(jù)表ti的全體屬性集;V為數(shù)據(jù)表tj的全體屬性集; Φ為空集; b. 尋找J(u,v)值最大的屬性列對(duì)(u,v),其中,ueu、vev; c. 將J(u,v)值最大的屬性列對(duì)(u,v)存入到Z中,將u和v分別從屬性集U和V中移除; d. 在U和V中重新尋找屬性列對(duì)重復(fù)步驟b和c,直到所有的屬性列對(duì)Jaccard距離為0為 止;從而得到數(shù)據(jù)表tdPk間相互匹配的屬性列對(duì)集合Z。5. 根據(jù)權(quán)利要求4所述基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法,其特征在于:步驟三中 將表間相似性矩陣Adb進(jìn)行修正,得到最終的數(shù)據(jù)表tdP數(shù)據(jù)表k間的相似性計(jì)算結(jié)果A Final (t山)具體過程: 步驟三一、利用用戶反饋的模式抽象方法對(duì)查詢?nèi)罩綥中的查詢記錄進(jìn)行統(tǒng)計(jì)分析,并 使用以下boosting函數(shù)對(duì)Adb進(jìn)行修正:其中,count (ti,tj)記錄了數(shù)據(jù)表ti和數(shù)據(jù)表tj在查詢?nèi)罩局泄铂F(xiàn)的次數(shù),max(count) 為查詢?nèi)罩綥中任意兩表共現(xiàn)次數(shù)的最大值;b〇〇stlcig( ·)為加強(qiáng)函數(shù);查詢?nèi)罩綥中包含3 個(gè)字段:用戶ID、提出的查詢Q、查詢結(jié)果及結(jié)果所在的數(shù)據(jù)表t;數(shù)據(jù)表t為數(shù)據(jù)表^或數(shù)據(jù) 表tj; 步驟三二、利用用戶查詢?nèi)罩綥中的信息對(duì)Adb進(jìn)行加強(qiáng),提出以下得分加強(qiáng)函數(shù): AFinal( ti , tJ ) = Adb( ti , t j )*b〇OStl〇g( ti , t j ) (7) 其中,為最終的數(shù)據(jù)表數(shù)據(jù)表t刺的相似性計(jì)算結(jié)果;ADBUbtj)為數(shù) 據(jù)表tdPk的相似性得分。6. 根據(jù)權(quán)利要求5所述基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法,其特征在于:步驟四中 將數(shù)據(jù)表^的重要性If(t〇進(jìn)行歸一化處理得到最終的表重要性度量結(jié)果NI(t〇具體為: 步驟四一、將數(shù)據(jù)表^的重要性ικω包括數(shù)據(jù)表^的固有重要性和數(shù)據(jù)表^的 依賴重要性IdUO,如公式(8)所示: If (ti) = Ib(ti)+Id(ti) (8) 步驟四二、數(shù)據(jù)表^的固有重要性IbUO具體公式如下所示:其中,log I |代表數(shù)據(jù)表"的規(guī)模對(duì)數(shù)據(jù)表"重要性的影響,tf( to為表t在查詢?nèi)罩?中出現(xiàn)的次數(shù); 轉(zhuǎn),)為數(shù)據(jù)表^的拓?fù)鋭?shì),由公式(10)計(jì)算得到:其中,η為數(shù)據(jù)表的總個(gè)數(shù);σ影響因子; £為.F為表tl中所有屬性列的變異系數(shù)&. V之和; i=lAi為數(shù)據(jù)表ti的屬性列,Ai為u或v;A為?或hAi.V為數(shù)據(jù)表ti中屬性列Ai的變異系數(shù);k 為數(shù)據(jù)表ti的屬性列個(gè)數(shù); 步驟四三、數(shù)據(jù)表^的依賴重要性IdUO的具體公式為: J x其中,Ib(tj)為數(shù)據(jù)表k的固有重要性;ADBUhtj)為數(shù)據(jù)表^與數(shù)據(jù)表k間的相似性矩 陣; 步驟四四、將iKti)進(jìn)行歸一化處理得到最終的表重要性度量結(jié)果NKti): NI(ti)=2X(f(If(ti))-0.5) (14) 其中7. 根據(jù)權(quán)利要求6所述基于圖劃分策略的數(shù)據(jù)庫(kù)模式抽象方法,其特征在于:步驟五中 根據(jù)表重要性度量結(jié)果NI(t〇利用類簇代表檢測(cè)算法得到結(jié)果集合R具體為: 步驟五一、輸入數(shù)據(jù)庫(kù)的模式圖G=(V',Ε);ν'為數(shù)據(jù)庫(kù)的模式圖的節(jié)點(diǎn);E為節(jié)點(diǎn)間的 邊; 步驟五二、按照公式(14)計(jì)算數(shù)據(jù)庫(kù)模式圖中每個(gè)數(shù)據(jù)表的NKtO,并將NI(t〇進(jìn)行降 序排序,進(jìn)入隊(duì)列Q; 步驟五三、將隊(duì)列Q中的隊(duì)頭元素出隊(duì),放入結(jié)果集合R中;并將的鄰居節(jié)點(diǎn)標(biāo) 記為已訪問狀態(tài);其中,qiSNKtO值最大的數(shù)據(jù)表; 步驟五四、將隊(duì)列Q中的隊(duì)頭q2出隊(duì),并將q2的鄰居節(jié)點(diǎn)標(biāo)記為已訪問狀態(tài),再判斷q2是 否已被標(biāo)記,如果未被標(biāo)記,則將屯放入集合R中,并標(biāo)記; 步驟五五、循環(huán)執(zhí)行步驟五四,直到隊(duì)列Q為空; 步驟五六、輸出結(jié)果集合R。
【文檔編號(hào)】G06F17/30GK105956012SQ201610251897
【公開日】2016年9月21日
【申請(qǐng)日】2016年4月21日
【發(fā)明人】王念濱, 王紅濱, 周連科, 王瑛琦, 宋奎勇, 何鳴
【申請(qǐng)人】哈爾濱工程大學(xué)