一種基于質(zhì)量控制的數(shù)據(jù)填充方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)?jiān)O(shè)及數(shù)據(jù)庫(kù)處理技術(shù)領(lǐng)域,特別是設(shè)及一種基于質(zhì)量控制的數(shù)據(jù)填充方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 通常,在各類(lèi)數(shù)據(jù)庫(kù)的數(shù)據(jù)源中,往往會(huì)存在一些空缺信息,有些是因?yàn)樵紨?shù)據(jù) 的缺失造成的,有些是因?yàn)椴僮魃系氖д`造成的。該些數(shù)據(jù)庫(kù)中的空缺信息會(huì)造成數(shù)據(jù)不 完整,是各類(lèi)數(shù)據(jù)庫(kù)中一個(gè)較為普遍的問(wèn)題,數(shù)據(jù)填充技術(shù)的提出就是希望通過(guò)一些技術(shù) 手段來(lái)估算、預(yù)測(cè)、或者找回?cái)?shù)據(jù)源中的空缺信息。
[0003] 現(xiàn)有的針對(duì)字符串型數(shù)據(jù)的數(shù)據(jù)填充方法通??煞譃閮深?lèi);基于推理的數(shù)據(jù)填充 方法和基于檢索的數(shù)據(jù)填充方法。
[0004] 基于推理的數(shù)據(jù)填充方法主要是結(jié)合一些給定的數(shù)據(jù)質(zhì)量規(guī)則(比如 化nctional Dependencies屬性依賴(lài)關(guān)系),從數(shù)據(jù)集的其他部分推理出空缺處的空缺信 息。比如在一個(gè)地址數(shù)據(jù)集中,已知依賴(lài)關(guān)系"城市名稱(chēng)可W決定省份名稱(chēng)",在數(shù)據(jù)集其中 一個(gè)元組中寫(xiě)著"學(xué)校='南京大學(xué)',城市='南京',省份='江蘇'",而另外一個(gè)元組寫(xiě)著 "學(xué)校='南航',城市='南京',省份(即第二個(gè)元組的省份為空缺信息),那么我們 就可W根據(jù)依賴(lài)關(guān)系把第二個(gè)元組中空缺的省份填寫(xiě)為"江蘇"。
[0005] 基于檢索的數(shù)據(jù)填充方法主要是從外部資源比如網(wǎng)絡(luò)中檢索獲取空缺處的空缺 信息。當(dāng)數(shù)據(jù)集中的空缺信息在萬(wàn)維網(wǎng)中存在時(shí),該方法可W準(zhǔn)確查找到空缺信息并填充 到數(shù)據(jù)集中的空缺處。
[0006] 然而,基于推理的數(shù)據(jù)填充方法的主要缺點(diǎn)體現(xiàn)在對(duì)于唯一的空缺信息的填補(bǔ) 上,也就是在數(shù)據(jù)集中的完整部分沒(méi)有出現(xiàn)與該空缺信息相應(yīng)的信息的話(huà),那么就不可能 準(zhǔn)確地推斷和填充該空缺信息,造成數(shù)據(jù)填充的準(zhǔn)確率低;而基于檢索的數(shù)據(jù)填充方法雖 然能夠準(zhǔn)確填充空缺信息,提高數(shù)據(jù)填充的準(zhǔn)確率,但其在對(duì)空缺信息進(jìn)行檢索時(shí),需要在 外部資源中進(jìn)行海量的檢索查詢(xún),該會(huì)產(chǎn)生大量的檢索查詢(xún)操作,相應(yīng)地就會(huì)造成很大的 系統(tǒng)開(kāi)銷(xiāo)。
[0007] 而且,上述方法均未考慮數(shù)據(jù)集中的數(shù)據(jù)依賴(lài)關(guān)系的可信度導(dǎo)致填充的數(shù)據(jù)的質(zhì) 量控制問(wèn)題,會(huì)導(dǎo)致填充的數(shù)據(jù)的可信度不高。
【發(fā)明內(nèi)容】
[000引有鑒于此,本申請(qǐng)?zhí)峁┮环N基于質(zhì)量控制的數(shù)據(jù)填充方法及系統(tǒng),W實(shí)現(xiàn)在較小 的系統(tǒng)開(kāi)銷(xiāo)下獲得較高的數(shù)據(jù)填充準(zhǔn)確率,并且提高所填充的數(shù)據(jù)的可信度。
[0009] 為了實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例提供的技術(shù)方案如下:
[0010] 一種基于質(zhì)量控制的數(shù)據(jù)填充方法,包括:
[0011] 根據(jù)數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)確定所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù),構(gòu)建所述數(shù)據(jù)庫(kù)的數(shù)據(jù)依 賴(lài)關(guān)系并確定所述數(shù)據(jù)依賴(lài)關(guān)系的依賴(lài)可信度,重復(fù)執(zhí)行W下步驟,直至所述數(shù)據(jù)庫(kù)的空 缺數(shù)據(jù)被填充完畢:
[0012] 根據(jù)所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴(lài)關(guān)系確定所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù) 中的可推斷數(shù)據(jù)和至少一組不可推斷數(shù)據(jù),并根據(jù)預(yù)設(shè)規(guī)則從所述至少一組不可推斷數(shù)據(jù) 中確定一組待檢索數(shù)據(jù),根據(jù)所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴(lài)關(guān)系推斷所述可推 斷數(shù)據(jù)并根據(jù)所述依賴(lài)可信度計(jì)算推斷可信度,在所述推斷可信度大于預(yù)設(shè)闊值時(shí)填充所 述可推斷數(shù)據(jù),從所述數(shù)據(jù)庫(kù)的外部資源中檢索所述待檢索數(shù)據(jù)并根據(jù)所述依賴(lài)可信度計(jì) 算檢索可信度,在所述檢索可信度大于所述預(yù)設(shè)闊值時(shí)填充所述待檢索數(shù)據(jù)。
[0013] 優(yōu)選地,所述根據(jù)所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴(lài)關(guān)系確定所述數(shù)據(jù)庫(kù) 的空缺數(shù)據(jù)中的可推斷數(shù)據(jù)和至少一組不可推斷數(shù)據(jù),包括:
[0014] 從所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù)中,根據(jù)所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴(lài)關(guān)系 確定與所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)存在數(shù)據(jù)依賴(lài)關(guān)系的空缺數(shù)據(jù),作為所述數(shù)據(jù)庫(kù)的空缺數(shù) 據(jù)中的可推斷數(shù)據(jù);
[0015] 根據(jù)所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴(lài)關(guān)系確定所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù) 之間的空缺數(shù)據(jù)依賴(lài)關(guān)系;
[0016] W所述數(shù)據(jù)庫(kù)的各個(gè)空缺數(shù)據(jù)為節(jié)點(diǎn),W各個(gè)空缺數(shù)據(jù)之間的空缺數(shù)據(jù)依賴(lài)關(guān)系 作為節(jié)點(diǎn)之間的有向邊,構(gòu)建空缺數(shù)據(jù)依賴(lài)圖,并根據(jù)所述空缺數(shù)據(jù)依賴(lài)圖確定所述數(shù)據(jù) 庫(kù)的空缺數(shù)據(jù)中的至少一組不可推斷數(shù)據(jù)。
[0017] 優(yōu)選地,所述根據(jù)所述空缺數(shù)據(jù)依賴(lài)圖確定所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù)中的至少一組 不可推斷數(shù)據(jù),包括:
[0018] 從所述空缺數(shù)據(jù)依賴(lài)圖的各個(gè)節(jié)點(diǎn)中,將存在相同空缺數(shù)據(jù)依賴(lài)關(guān)系且互相之間 不存在任何數(shù)據(jù)依賴(lài)關(guān)系的節(jié)點(diǎn)合并為一個(gè)節(jié)點(diǎn),進(jìn)行節(jié)點(diǎn)合并;
[0019] 節(jié)點(diǎn)合并之后,對(duì)于存在從多個(gè)節(jié)點(diǎn)指向自身的多個(gè)有向邊的節(jié)點(diǎn),刪除從多個(gè) 節(jié)點(diǎn)指向自身的多個(gè)有向邊,生成簡(jiǎn)化空缺數(shù)據(jù)依賴(lài)圖;
[0020] 從所述簡(jiǎn)化空缺數(shù)據(jù)依賴(lài)圖中,將只具有從自身出發(fā)指向其它節(jié)點(diǎn)的有向邊的節(jié) 點(diǎn)W及與其它節(jié)點(diǎn)之間不存在任何有向邊的節(jié)點(diǎn)集合對(duì)應(yīng)的空缺數(shù)據(jù)作為所述數(shù)據(jù)庫(kù)的 空缺數(shù)據(jù)中的至少一組不可推斷數(shù)據(jù);所述節(jié)點(diǎn)集合包括至少兩個(gè)節(jié)點(diǎn)。
[0021] 優(yōu)選地,所述根據(jù)預(yù)設(shè)規(guī)則從所述至少一組不可推斷數(shù)據(jù)中確定一組待檢索數(shù) 據(jù),包括:
[0022] 計(jì)算所述數(shù)據(jù)庫(kù)中的每個(gè)空缺數(shù)據(jù)的期望值;所述期望值是所述數(shù)據(jù)庫(kù)中的每個(gè) 數(shù)據(jù)成為空缺數(shù)據(jù)的概率;
[0023] 根據(jù)計(jì)算得到的所述數(shù)據(jù)庫(kù)中的每個(gè)空缺數(shù)據(jù)的期望值,計(jì)算所述不可推斷數(shù)據(jù) 中的每個(gè)空缺數(shù)據(jù)的解鎖分?jǐn)?shù);所述解鎖分?jǐn)?shù)用于評(píng)估所述不可推斷數(shù)據(jù)中的每個(gè)空缺數(shù) 據(jù)與所述不可推斷數(shù)據(jù)中的其它空缺數(shù)據(jù)之間的數(shù)據(jù)依賴(lài)關(guān)系的大??;
[0024] 按照所述解鎖分?jǐn)?shù)由大到小的順序依次選擇所述不可推斷數(shù)據(jù)中的空缺數(shù)據(jù)加 入檢索集合,直至所述不可推斷數(shù)據(jù)中的空缺數(shù)據(jù)或者在檢索集合中,或者通過(guò)檢索集合 中的空缺數(shù)據(jù)推斷得到時(shí),將所述檢索集合中的空缺數(shù)據(jù)作為所述待檢索數(shù)據(jù)。
[0025] 優(yōu)選地,所述外部資源包括互聯(lián)網(wǎng)資源。
[0026] 一種基于質(zhì)量控制的數(shù)據(jù)填充系統(tǒng),包括:
[0027] 構(gòu)建模塊,用于根據(jù)數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)確定所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù),構(gòu)建所述 數(shù)據(jù)庫(kù)的數(shù)據(jù)依賴(lài)關(guān)系并確定所述數(shù)據(jù)依賴(lài)關(guān)系的依賴(lài)可信度;
[002引填充模塊,用于重復(fù)執(zhí)行W下步驟,直至所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù)被填充完畢:
[0029] 根據(jù)所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴(lài)關(guān)系確定所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù) 中的可推斷數(shù)據(jù)和至少一組不可推斷數(shù)據(jù),并根據(jù)預(yù)設(shè)規(guī)則從所述至少一組不可推斷數(shù)據(jù) 中確定一組待檢索數(shù)據(jù),根據(jù)所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴(lài)關(guān)系推斷所述可推 斷數(shù)據(jù)并根據(jù)所述依賴(lài)可信度計(jì)算推斷可信度,在所述推斷可信度大于預(yù)設(shè)闊值時(shí)填充所 述可推斷數(shù)據(jù),從所述數(shù)據(jù)庫(kù)的外部資源中檢索所述待檢索數(shù)據(jù)并根據(jù)所述依賴(lài)可信度計(jì) 算檢索可信度,在所述檢索可信度大于所述預(yù)設(shè)闊值時(shí)填充所述待檢索數(shù)據(jù)。
[0030] 優(yōu)選地,所述填充模塊,包括:
[0031] 第一確定模塊,用于從所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù)中,根據(jù)所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù) 和所述數(shù)據(jù)依賴(lài)關(guān)系確定與所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)存在數(shù)據(jù)依賴(lài)關(guān)系的空缺數(shù)據(jù),作為 所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù)中的可推斷數(shù)據(jù);
[0032] 第二確定模塊,用于根據(jù)所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴(lài)關(guān)系確定所述 數(shù)據(jù)庫(kù)的空缺數(shù)據(jù)之間的空缺數(shù)據(jù)依賴(lài)關(guān)系;
[0033] 第=確定模塊,用于W所述數(shù)據(jù)庫(kù)的各個(gè)空缺數(shù)據(jù)為節(jié)點(diǎn),W各個(gè)空缺數(shù)據(jù)之間 的空缺數(shù)據(jù)依賴(lài)關(guān)系作為節(jié)點(diǎn)之間的有向邊,構(gòu)建空缺數(shù)據(jù)依賴(lài)圖,并根據(jù)所述空缺數(shù)據(jù) 依賴(lài)圖確定所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù)中的至少一組不可推斷數(shù)據(jù)。
[0034] 優(yōu)選地,所述第=確定模塊,包括:
[0035] 節(jié)點(diǎn)合并單元,用于從所述空缺數(shù)據(jù)依賴(lài)圖的各個(gè)節(jié)點(diǎn)中,將存在相同空缺數(shù)據(jù) 依賴(lài)關(guān)系且互相之間不存在任何數(shù)據(jù)依賴(lài)關(guān)系的節(jié)點(diǎn)合并為一個(gè)節(jié)點(diǎn),進(jìn)行節(jié)點(diǎn)合并;
[0036] 有向邊修剪單元,用于節(jié)點(diǎn)合并之后,對(duì)于存在從多個(gè)節(jié)點(diǎn)指向自身的多個(gè)有向 邊的節(jié)點(diǎn),刪除從多個(gè)節(jié)點(diǎn)指向自身的多個(gè)有向邊,生成簡(jiǎn)化空缺數(shù)據(jù)依賴(lài)圖;
[0037] 查找單元,用于從所述簡(jiǎn)化空缺數(shù)據(jù)依賴(lài)圖中,將只具有從自身出發(fā)指向其它節(jié) 點(diǎn)的有向邊的節(jié)點(diǎn)W及與其它節(jié)點(diǎn)之間不存在任何有向邊的節(jié)點(diǎn)集合對(duì)應(yīng)的空缺數(shù)據(jù)作 為所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù)中的至少一組不可推斷數(shù)據(jù);所述節(jié)點(diǎn)集合包括至少兩個(gè)節(jié)點(diǎn)。 [003引優(yōu)選地,所述根據(jù)預(yù)設(shè)規(guī)則從所述至少一組不可推斷數(shù)據(jù)中確定一組待檢索數(shù)據(jù) 的填充模塊,用于:計(jì)算所述數(shù)據(jù)庫(kù)中的每個(gè)空缺數(shù)據(jù)的期望值;所述期望值是所述數(shù)據(jù) 庫(kù)中的每個(gè)數(shù)據(jù)成為空缺數(shù)據(jù)的概率;
[0039] 根據(jù)計(jì)算得到的所述數(shù)據(jù)庫(kù)中的每個(gè)空缺數(shù)據(jù)的期望值,計(jì)算所述不可推斷數(shù)據(jù) 中的每個(gè)空缺數(shù)據(jù)的解鎖分?jǐn)?shù);所述解鎖分?jǐn)?shù)用于評(píng)估所述不可推斷數(shù)據(jù)中的每個(gè)空缺數(shù) 據(jù)與所述不可推斷數(shù)據(jù)中的其它空缺數(shù)據(jù)之間的數(shù)據(jù)依賴(lài)關(guān)系的大??;
[0040] 按照所述解鎖分?jǐn)?shù)由大到小的順序依次選擇所述不可推斷數(shù)據(jù)中的空缺數(shù)據(jù)加 入檢索集合,直至所述不可推斷數(shù)據(jù)中的空缺數(shù)據(jù)或者在檢索集合中,或者通過(guò)檢索集合 中的空缺數(shù)據(jù)推斷得到時(shí),將所述檢索集合中的空缺數(shù)據(jù)作為所述待檢索數(shù)據(jù)。
[0041] 優(yōu)選地,所述外部資源包括互聯(lián)網(wǎng)資源。
[0042] 由W上本申請(qǐng)?zhí)峁┑囊环N基于質(zhì)量控制的數(shù)據(jù)填充方法,根據(jù)數(shù)據(jù)庫(kù)中的已有數(shù) 據(jù)確定所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù),構(gòu)建所述數(shù)據(jù)庫(kù)的數(shù)據(jù)依賴(lài)關(guān)系并確定所述數(shù)據(jù)依賴(lài)關(guān)系 的依賴(lài)可信度,重復(fù)執(zhí)行W下步驟,直至所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù)被填充完畢:根據(jù)所述數(shù) 據(jù)庫(kù)中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴(lài)關(guān)系確定所述數(shù)據(jù)庫(kù)的空缺數(shù)據(jù)中的可推斷數(shù)據(jù)和至 少一組不可推斷數(shù)據(jù),并根據(jù)預(yù)設(shè)規(guī)則從所述至少一組不可推斷數(shù)據(jù)中確定一組待檢索數(shù) 據(jù),根據(jù)所述數(shù)據(jù)庫(kù)中的已有數(shù)據(jù)和所述數(shù)據(jù)依賴(lài)關(guān)系推斷所述可推斷數(shù)據(jù)并根據(jù)所述依 賴(lài)可信度計(jì)算推斷可信度,在所述推斷可信度大于預(yù)設(shè)闊值時(shí)填充所述可推斷數(shù)據(jù),從所 述數(shù)據(jù)庫(kù)的外部資源中檢索所述待檢索數(shù)據(jù)并根據(jù)所述依賴(lài)可信度計(jì)算檢索可信度,在所 述檢索可信度大于所述預(yù)設(shè)闊值時(shí)填充所述待檢索數(shù)據(jù)。該樣,通過(guò)推斷和檢索的交替執(zhí) 行,高效且高質(zhì)量地實(shí)現(xiàn)數(shù)據(jù)集中空缺數(shù)據(jù)的填充,可W實(shí)現(xiàn)在較小的系統(tǒng)開(kāi)銷(xiāo)下獲得較 高的數(shù)據(jù)填充準(zhǔn)確率。
[0043] 而且,由于本方法在填充數(shù)據(jù)時(shí)充分考慮了數(shù)據(jù)依賴(lài)關(guān)系的依賴(lài)可信度,并根據(jù) 依賴(lài)可信度計(jì)算推斷的數(shù)據(jù)的推斷可信度和檢索的數(shù)據(jù)的檢索可信度,只有在推斷可信度 大于預(yù)設(shè)闊值時(shí)才填充推斷的數(shù)據(jù),在檢索可信度大于預(yù)設(shè)闊值時(shí)才填充檢索的數(shù)據(jù),該 樣能夠保證填充的數(shù)據(jù)得到良好的質(zhì)量控制,使得填充的數(shù)據(jù)的可信度較高。
【附圖說(shuō)明】
[0044] 為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 申請(qǐng)中記