国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      數(shù)據(jù)質(zhì)量分析方法及系統(tǒng)的制作方法

      文檔序號(hào):6463492閱讀:351來源:國(guó)知局
      專利名稱:數(shù)據(jù)質(zhì)量分析方法及系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及關(guān)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析,尤其涉及一種 數(shù)據(jù)質(zhì)量分析方法和凄t據(jù)質(zhì)量分析系統(tǒng)。
      背景技術(shù)
      凄史據(jù)倉(cāng)庫(kù)系統(tǒng)是輔助用戶進(jìn)行市場(chǎng)分析和決策的重要工具,數(shù) 據(jù)質(zhì)量在很大程度上決定了數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)能否被用戶承認(rèn)和接受, 進(jìn)而直4妄影響H據(jù)倉(cāng)庫(kù)系統(tǒng)的推廣和應(yīng)用。
      出現(xiàn)數(shù)據(jù)質(zhì)量問題的原因是多方面的,要保證數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的 數(shù)據(jù)質(zhì)量,不僅需要數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的改進(jìn),也需要生產(chǎn)系統(tǒng)的完善。 本文中將從技術(shù)角度總結(jié)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中數(shù)據(jù)質(zhì)量問題的出現(xiàn)原因
      以及保i正lt據(jù)質(zhì)量的要求和4晉施。
      在選取具體的質(zhì)量保障措施時(shí),要兼顧考慮措施的有效性和對(duì) 系統(tǒng)4丸行效率的影響,爭(zhēng)耳又既能有效的保證數(shù)據(jù)質(zhì)量,又基本不影 響生產(chǎn)系統(tǒng)和凄W居倉(cāng)庫(kù)系統(tǒng)的正常運(yùn)營(yíng)。
      凄t據(jù)質(zhì)量問題的原因可以歸納為以下三個(gè)方面外部原因、內(nèi) 部原因和理解差異。
      外部原因主要包括兩方面(哪兩方面)凄史據(jù)倉(cāng)庫(kù)系統(tǒng)在與外圍系統(tǒng)的交 互中,在技術(shù)實(shí)現(xiàn)和管理支撐過程中存在的一些凄t據(jù)質(zhì)量問題,包 括
      接口沒有按約定的數(shù)據(jù)周期提供,遲傳或漏傳;
      數(shù)據(jù)源系統(tǒng)表結(jié)構(gòu)或接口規(guī)格發(fā)生變化而沒有同步,接口無法 訪問。
      接口數(shù)據(jù)內(nèi)容不規(guī)范,導(dǎo)致轉(zhuǎn)換錯(cuò)誤,中斷ETL (即,抽取轉(zhuǎn) 換裝載)或是拒絕數(shù)據(jù);由于數(shù)據(jù)源缺乏空值檢查、外鍵約束等一 致性檢查,或是手工數(shù)據(jù)等原因,致使數(shù)據(jù)轉(zhuǎn)換過程中很多失敗
      非空字4殳出現(xiàn)空值;
      外鍵參照缺失,在相應(yīng)代碼表中本身沒有對(duì)應(yīng)的值,或者因?yàn)?不規(guī)范的數(shù)據(jù)值,需要經(jīng)過轉(zhuǎn)換(例如trim處理)才能參照;
      主鍵重復(fù),因?yàn)樵聪到y(tǒng)沒有定義物理主鍵,缺乏主4建唯一性檢 查,但是在目標(biāo)系統(tǒng)中定義了主鍵,導(dǎo)致插入失?。?br> 數(shù)據(jù)類型錯(cuò)誤,例如數(shù)值型數(shù)據(jù)包含字符、日期型數(shù)據(jù)并非日
      期;
      數(shù)據(jù)格式和業(yè)務(wù)邏輯不符,例如證件號(hào)碼非法,手機(jī)號(hào)碼非法;
      數(shù)據(jù)邏輯非法,例如某兩個(gè)字段值相加等于另外一個(gè)字段值, 1旦實(shí)際數(shù)據(jù)并不相等。
      內(nèi)部問題主要是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)本身在ETL處理、業(yè)務(wù)邏輯處理等的過程 中出現(xiàn)的數(shù)據(jù)質(zhì)量的問題,是由數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)內(nèi)部各節(jié)點(diǎn)數(shù)據(jù)處理 上的業(yè)務(wù)理解偏差和纟支術(shù)實(shí)現(xiàn)偏差導(dǎo)致的,具體包括
      ETL規(guī)則錯(cuò)誤。由于在最初數(shù)據(jù)源到目標(biāo)數(shù)據(jù)的映射關(guān)系理解、 表述4普誤,導(dǎo)致凄t據(jù)裝入后的^t據(jù)正確性問題。
      ETL實(shí)現(xiàn)錯(cuò)誤。在既定ETL規(guī)則下,具體實(shí)現(xiàn)沒有按照規(guī)則設(shè) 計(jì)或者細(xì)節(jié)發(fā)生疏漏,導(dǎo)致最終裝入的數(shù)據(jù)存在正確性問題。
      ETL丟棄數(shù)據(jù)。由于對(duì)數(shù)據(jù)源數(shù)據(jù)考慮不充分,或者為了性能 的考慮簡(jiǎn)化處理環(huán)節(jié),導(dǎo)致數(shù)據(jù)不受控制丟棄。
      ETL拒絕凄t據(jù)。對(duì)于數(shù)據(jù)源在控制范圍內(nèi)的非法數(shù)據(jù),拒絕非 法記錄。
      指標(biāo)理解問題
      因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)指標(biāo)定義的不嚴(yán)密,造成理解的差異,與生 產(chǎn)系統(tǒng)統(tǒng)計(jì)標(biāo)準(zhǔn)不同,導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)與各生產(chǎn)系統(tǒng)間不能建立 合理、有效的凄t據(jù)核對(duì)辦法和手^殳。
      按照現(xiàn)代數(shù)據(jù)質(zhì)量保證觀念,數(shù)據(jù)質(zhì)量是一個(gè)過程而不是結(jié)果。 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量應(yīng)當(dāng)在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃、設(shè)計(jì)、建設(shè)、維護(hù) 中體現(xiàn)和實(shí)現(xiàn)。鑒于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)目前的建設(shè)情況,重點(diǎn)從數(shù)據(jù)質(zhì) 量組織才幾構(gòu)、^t據(jù)凄t據(jù)質(zhì)量保i正以及^:據(jù)質(zhì)量-驗(yàn)i正才幾制三個(gè)方面考 慮,提供相應(yīng)的方法支持。
      數(shù)據(jù)數(shù)據(jù)質(zhì)量保證的意義在于
      8界定職責(zé);使用數(shù)據(jù)剖析的技術(shù)手段,為數(shù)據(jù)接口提供方和數(shù) 據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)質(zhì)量分清責(zé)任。
      過程改進(jìn);借助數(shù)據(jù)稽核、數(shù)據(jù)分級(jí)等手段,為數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) ETL過程改進(jìn)提供依據(jù)。
      質(zhì)量考核;使用質(zhì)量評(píng)估報(bào)告對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)進(jìn)行考核。
      為保證質(zhì)量過程持續(xù)的改進(jìn),保證所有已知的錯(cuò)誤在系統(tǒng)中不 重復(fù)發(fā)生,建立完善的數(shù)據(jù)質(zhì)量文檔體系,整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)內(nèi)的 數(shù)據(jù)質(zhì)量活動(dòng)都要求有完善的紀(jì)錄,最終依次建立或完善質(zhì)量考核 體系。包括以下質(zhì)量保證重點(diǎn)完整性,包括在數(shù)據(jù)源能支持的 情況下,現(xiàn)有數(shù)據(jù)應(yīng)能滿足所需業(yè)務(wù)分析要求;元數(shù)據(jù)的完整及臟 數(shù)據(jù)的妥善處理; 一致性,包括現(xiàn)有數(shù)據(jù)在描述同一事物的同一 屬性時(shí)應(yīng)有一致的取值;互相關(guān)聯(lián)的數(shù)據(jù)內(nèi)在一致性應(yīng)得到保證; 數(shù)據(jù)格式的一致性等;準(zhǔn)確性,包括報(bào)表、主題分析及數(shù)據(jù)挖掘三 類,其中以報(bào)表的準(zhǔn)確性要求最高,主題分析次之,數(shù)據(jù)挖掘最弱; 時(shí)效性,確認(rèn)數(shù)據(jù)產(chǎn)生的時(shí)間符合相關(guān)字^殳的業(yè)務(wù)邏輯,例如新的 交易記錄不能匹配給一個(gè)已經(jīng)關(guān)閉的帳戶;以及及時(shí)性,在確保完 整性和準(zhǔn)確性的同時(shí)要求數(shù)據(jù)處理的及時(shí)。

      發(fā)明內(nèi)容
      鑒于以上所述的一個(gè)或多個(gè)問題,本發(fā)明提出了一種數(shù)據(jù)質(zhì)量 分析方法和系統(tǒng)。旨在兼顧措施的有效性和盡量少影響系統(tǒng)執(zhí)行效 率的情況下,既能有效的保i正ft據(jù)質(zhì)量,又基本不影響生產(chǎn)系統(tǒng)和 凄t據(jù)倉(cāng)庫(kù)系統(tǒng)的正常運(yùn)營(yíng)。
      才艮據(jù)本發(fā)明的一個(gè)方面的用于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析方 法包括以下步驟步驟一,分析在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的接口處對(duì)凄t據(jù)進(jìn) 行裝載的過程來獲得接口質(zhì)量分析指標(biāo);步驟二,分析在4fet據(jù)倉(cāng)庫(kù)
      9系統(tǒng)中對(duì)相應(yīng)于數(shù)據(jù)的數(shù)據(jù)集進(jìn)行抽取轉(zhuǎn)換裝載的過程來獲得數(shù)據(jù)
      質(zhì)量分析指標(biāo);以及步驟三,根據(jù)接口質(zhì)量分析指標(biāo)和凄t據(jù)質(zhì)量分 析指標(biāo)對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行分級(jí)來獲得分級(jí)結(jié)果。
      其中,接口質(zhì)量分析指標(biāo)包括以下指標(biāo)中的一個(gè)或多個(gè)表示 在裝載數(shù)據(jù)的過程中數(shù)據(jù)準(zhǔn)時(shí)到達(dá)接口的情況的接口及時(shí)率;表示 在裝載數(shù)據(jù)的過程中數(shù)據(jù)符合預(yù)定接口規(guī)格的情況的接口完整率; 以及表示在裝載數(shù)據(jù)的過程中數(shù)據(jù)符合業(yè)務(wù)邏輯的情況的4妾口合法 率。
      其中,數(shù)據(jù)質(zhì)量分析指標(biāo)包括表示在抽取轉(zhuǎn)換裝載的過程中 相同時(shí)期內(nèi)分別相應(yīng)于多個(gè)數(shù)據(jù)集的多個(gè)度量值之間的誤差的同期 誤差率;表示在抽取轉(zhuǎn)換裝載的過程中相同時(shí)期內(nèi)分別相應(yīng)于多個(gè) 數(shù)據(jù)集的多個(gè)度量值之間的比值的同期波動(dòng)率;表示在抽取轉(zhuǎn)換裝 載的過程中分別相應(yīng)于多個(gè)數(shù)據(jù)集的多個(gè)度量值在不同時(shí)期內(nèi)的變 化情況的歷史波動(dòng)率;表示在抽取轉(zhuǎn)換裝載的過程中多個(gè)度量值分 別與各自相應(yīng)的預(yù)定值之間的誤差的標(biāo)準(zhǔn)誤差率;表示在^由耳又轉(zhuǎn)換 裝載的過程中多個(gè)度量值符合邏輯業(yè)務(wù)關(guān)系的情況的邏輯誤差率; 表示在抽取轉(zhuǎn)換裝載的過程中數(shù)據(jù)集被拒絕裝載的情況的記錄拒絕 率;以及表示在抽取轉(zhuǎn)換裝載的過程中數(shù)據(jù)集被丟棄的情況的記錄 丟失率。
      其中,分級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。
      在步驟三中,根據(jù)所述數(shù)據(jù)質(zhì)量分析指標(biāo)是否符合預(yù)定值來確 定分級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。
      才艮據(jù)本發(fā)明的另 一個(gè)方面的用于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)才居質(zhì)量分析 系統(tǒng)包括接口質(zhì)量分析模塊,用于分析在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的接口處 對(duì)數(shù)據(jù)進(jìn)行裝載的過程來獲得接口質(zhì)量分析指標(biāo);數(shù)據(jù)質(zhì)量分析模塊,用于分析在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中對(duì)相應(yīng)于數(shù)據(jù)的數(shù)據(jù)集進(jìn)行抽取轉(zhuǎn)
      換裝載的過程來獲得數(shù)據(jù)質(zhì)量分析指標(biāo);以及分級(jí)模塊,#4居接口
      質(zhì)量分析指標(biāo)和數(shù)據(jù)質(zhì)量分析指標(biāo)對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行分級(jí)來獲得分
      級(jí)結(jié)果。
      其中,接口質(zhì)量分析指標(biāo)包括以下指標(biāo)中的一個(gè)或多個(gè)表示 在裝載數(shù)據(jù)的過程中數(shù)據(jù)準(zhǔn)時(shí)到達(dá)接口的情況的4妄口及時(shí)率;表示 在裝載數(shù)據(jù)的過程中數(shù)據(jù)符合預(yù)定接口規(guī)格的情況的接口完整率; 以及表示在裝載數(shù)據(jù)的過程中數(shù)據(jù)符合業(yè)務(wù)邏輯的情況的4妾口合法 率。
      其中,數(shù)據(jù)質(zhì)量分析指標(biāo)包括表示在抽取轉(zhuǎn)換裝載的過程中 相同時(shí)期內(nèi)分別相應(yīng)于多個(gè)數(shù)據(jù)集的多個(gè)度量值之間的誤差的同期 誤差率;表示在抽取轉(zhuǎn)換裝載的過程中相同時(shí)期內(nèi)分別相應(yīng)于多個(gè) 數(shù)據(jù)集的多個(gè)度量值之間的比值的同期波動(dòng)率;表示在抽取轉(zhuǎn)換裝 載的過程中分別相應(yīng)于多個(gè)數(shù)據(jù)集的多個(gè)度量值在不同時(shí)期內(nèi)的變 化情況的歷史波動(dòng)率;表示在抽取轉(zhuǎn)換裝載的過程中多個(gè)度量值分 別與各自相應(yīng)的預(yù)定值之間的誤差的標(biāo)準(zhǔn)誤差率;表示在4由取轉(zhuǎn)換 裝載的過程中多個(gè)度量值符合邏輯業(yè)務(wù)關(guān)系的情況的邏輯誤差率; 表示在抽取轉(zhuǎn)換裝載的過程中數(shù)據(jù)集被拒絕裝載的情況的記錄拒絕 率;以及表示在抽取轉(zhuǎn)換裝載的過程中數(shù)據(jù)集被丟棄的情況的記錄 丟失率。
      其中,分級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。
      分級(jí)模塊根據(jù)所述數(shù)據(jù)質(zhì)量分析指標(biāo)是否符合預(yù)定值來確定分 級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。通過本發(fā)明,能夠在兼顧措施的有效性和盡量少影響系統(tǒng)執(zhí)行 效率的情況下,既能有效的保證數(shù)據(jù)質(zhì)量,又基本不影響生產(chǎn)系統(tǒng) 和凄t才居倉(cāng)庫(kù)系統(tǒng)的正常運(yùn)營(yíng)。


      此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申
      請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其"i兌明用于解釋本發(fā)明,并 不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中
      圖1是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)質(zhì)量分析方法的流程圖;以及
      圖2是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)質(zhì)量分析系統(tǒng)的框圖。
      具體實(shí)施例方式
      下面參考附圖,詳細(xì)i兌明本發(fā)明的具體實(shí)施方式
      。
      圖1是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)質(zhì)量分析方法的流程圖。如圖 1所示,才艮據(jù)本發(fā)明實(shí)施例的用于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析方 法包括以下步驟
      步驟S102,分析在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的接口處對(duì)數(shù)據(jù)進(jìn)行裝載的過 程來獲得接口質(zhì)量分析指標(biāo);
      步驟S104,分析在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中對(duì)相應(yīng)于數(shù)據(jù)的數(shù)據(jù)集進(jìn)行 抽取轉(zhuǎn)換裝載的過程來獲得數(shù)據(jù)質(zhì)量分析指標(biāo);以及
      步驟S106,根據(jù)接口質(zhì)量分析指標(biāo)和數(shù)據(jù)質(zhì)量分析指標(biāo)對(duì)數(shù)據(jù) 的質(zhì)量進(jìn)行分級(jí)來獲得分級(jí)結(jié)果。
      12其中,接口質(zhì)量分析指標(biāo)包括表示在裝載數(shù)據(jù)的過程中數(shù)據(jù) 準(zhǔn)時(shí)到達(dá)接口的情況的接口及時(shí)率;表示在裝載數(shù)據(jù)的過程中數(shù)據(jù) 符合預(yù)定接口規(guī)格的情況的接口完整率;以及表示在裝載凄t據(jù)的過 程中數(shù)據(jù)符合業(yè)務(wù)邏輯的情況的接口合法率。
      其中,數(shù)據(jù)質(zhì)量分析指標(biāo)包括以下指標(biāo)中的一個(gè)或多個(gè)表示 在抽取轉(zhuǎn)換裝載的過程中相同時(shí)期內(nèi)分別相應(yīng)于多個(gè)數(shù)據(jù)集的多個(gè) 度量值之間的誤差的同期誤差率;表示在抽取轉(zhuǎn)換裝載的過程中相 同時(shí)期內(nèi)分別相應(yīng)于多個(gè)數(shù)據(jù)集的多個(gè)度量值之間的比值的同期波 動(dòng)率;表示在抽取轉(zhuǎn)換裝載的過程中分別相應(yīng)于多個(gè)數(shù)據(jù)集的多個(gè) 度量值在不同時(shí)期內(nèi)的變化情況的歷史波動(dòng)率;表示在抽取轉(zhuǎn)換裝 載的過程中多個(gè)度量值分別與各自相應(yīng)的預(yù)定值之間的誤差的標(biāo)準(zhǔn) 誤差率;表示在抽取轉(zhuǎn)換裝載的過程中多個(gè)度量值符合邏輯業(yè)務(wù)關(guān) 系的情況的邏輯誤差率;表示在抽取轉(zhuǎn)換裝載的過程中凄t據(jù)集被拒 絕裝載的情況的記錄拒絕率;以及表示在抽取轉(zhuǎn)換裝載的過程中數(shù) 據(jù)集被丟棄的情況的記錄丟失率。
      其中,分級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。
      在步驟S106中,根據(jù)所述數(shù)據(jù)質(zhì)量分析指標(biāo)是否符合預(yù)定值 來確定分級(jí)結(jié)果為^t據(jù)準(zhǔn)確、^t據(jù)可疑、或數(shù)據(jù)4晉誤。
      圖2是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)質(zhì)量分析系統(tǒng)的框圖。如圖2 所示,根據(jù)本發(fā)明實(shí)施例的用于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析系統(tǒng) 包括4妄口質(zhì)量分析才莫塊202,用于分析在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的接口處 對(duì)數(shù)據(jù)進(jìn)行裝載的過程來獲得接口質(zhì)量分析指標(biāo);數(shù)據(jù)質(zhì)量分析模 塊204,用于分析在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中對(duì)相應(yīng)于數(shù)據(jù)的數(shù)據(jù)集進(jìn)行抽 取轉(zhuǎn)換裝載的過程來獲得數(shù)據(jù)質(zhì)量分析指標(biāo);以及分級(jí)才莫塊206, 才艮據(jù)^妄口質(zhì)量分析指標(biāo)和數(shù)據(jù)質(zhì)量分析指標(biāo)對(duì)凄丈據(jù)的質(zhì)量進(jìn)行分級(jí)
      來獲得分級(jí)結(jié)果。其中,接口質(zhì)量分析指標(biāo)包括以下指標(biāo)中的一個(gè)或多個(gè)表示 在裝載數(shù)據(jù)的過程中數(shù)據(jù)準(zhǔn)時(shí)到達(dá)接口的情況的接口及時(shí)率;表示 在裝載數(shù)據(jù)的過程中數(shù)據(jù)符合預(yù)定接口規(guī)格的情況的接口完整率; 以及表示在裝載數(shù)據(jù)的過程中數(shù)據(jù)符合業(yè)務(wù)邏輯的情況的4妾口合法率。
      其中,數(shù)據(jù)質(zhì)量分析指標(biāo)包括表示在抽取轉(zhuǎn)換裝載的過程中 相同時(shí)期內(nèi)分別相應(yīng)于多個(gè)數(shù)據(jù)集的多個(gè)度量值之間的誤差的同期 誤差率;表示在抽取轉(zhuǎn)換裝載的過程中相同時(shí)期內(nèi)分別相應(yīng)于多個(gè) 數(shù)據(jù)集的多個(gè)度量值之間的比值的同期波動(dòng)率;表示在抽取轉(zhuǎn)換裝 載的過程中分別相應(yīng)于多個(gè)數(shù)據(jù)集的多個(gè)度量值在不同時(shí)期內(nèi)的變 化情況的歷史波動(dòng)率;表示在抽取轉(zhuǎn)換裝載的過程中多個(gè)度量值分 別與各自相應(yīng)的預(yù)定值之間的誤差的標(biāo)準(zhǔn)誤差率;表示在^由耳又轉(zhuǎn)換 裝載的過程中多個(gè)度量值符合邏輯業(yè)務(wù)關(guān)系的情況的邏輯誤差率; 表示在抽取轉(zhuǎn)換裝載的過程中數(shù)據(jù)集被拒絕裝載的情況的記錄拒絕 率;以及表示在抽取轉(zhuǎn)換裝載的過程中數(shù)據(jù)集被丟棄的情況的記錄 丟失率。
      其中,分級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。
      分級(jí)模塊206根據(jù)所述數(shù)據(jù)質(zhì)量分析指標(biāo)是否符合預(yù)定值來確 定分級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。
      數(shù)據(jù)質(zhì)量保證是一項(xiàng)長(zhǎng)期的、反復(fù)的工作,由質(zhì)量驗(yàn)證、質(zhì)量 修正、質(zhì)量監(jiān)控三個(gè)環(huán)節(jié)相互促進(jìn)。
      為《呆i正凄t據(jù)質(zhì)量^f呆i正體系的正常運(yùn)作,建i義在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)項(xiàng) 目組織結(jié)構(gòu)中建立凄t據(jù)質(zhì)量分對(duì)斤系統(tǒng),該系統(tǒng)主要由三種才莫塊組成 數(shù)據(jù)質(zhì)量保證模塊,對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)總體數(shù)據(jù)質(zhì)量負(fù)責(zé);接口數(shù)據(jù)數(shù)據(jù)質(zhì)量保證模塊,對(duì)接口的完整、合法負(fù)責(zé);以及ETL ()數(shù)據(jù) 質(zhì)量保證模塊,對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)數(shù)據(jù)裝載數(shù)據(jù)質(zhì)量、過程質(zhì)量負(fù)責(zé)。
      質(zhì)量驗(yàn)證
      質(zhì)量驗(yàn)證是暴露數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中數(shù)據(jù)質(zhì)量存在的問題。整個(gè)過 程分三個(gè)步驟——從數(shù)據(jù)剖析,到數(shù)據(jù)稽核,到^i:據(jù)分級(jí)。
      第一步數(shù)據(jù)剖析,生成接口稽核報(bào)告,反映接口質(zhì)量問題,提 交給接口方數(shù)據(jù)質(zhì)量保證員,轉(zhuǎn)入質(zhì)量修正流程;第二步數(shù)據(jù)稽核, 生成凄t據(jù)稽核才艮告,反映凄t據(jù)倉(cāng)庫(kù)系統(tǒng)ETL處理過程中的質(zhì)量問 題,提交給數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)數(shù)據(jù)數(shù)據(jù)質(zhì)量保證員和ETL數(shù)據(jù)質(zhì)量保證 員,轉(zhuǎn)入質(zhì)量修正流程;第三步質(zhì)量分級(jí),反映本期ETL處理完畢 的數(shù)據(jù)綜合質(zhì)量,提交給數(shù)據(jù)數(shù)據(jù)質(zhì)量保證員。
      這個(gè)過程產(chǎn)生一系列質(zhì)量報(bào)告,包括
      1、 《接口質(zhì)量稽核報(bào)告》
      該報(bào)告反映出每次ETL處理完畢后,數(shù)據(jù)源接口中存在的質(zhì)量 問題,通過如下指標(biāo)表示接口質(zhì)量接口及時(shí)率,衡量接口文件是 否按時(shí)到達(dá);接口完整率,衡量接口文件是否完全符合預(yù)定義接口 規(guī)格;接口合法率,衡量接口數(shù)據(jù)記錄是否滿足業(yè)務(wù)邏輯;以及記 錄拒絕率,衡量每次接口裝載中,在受控制情況下,記錄被拒絕的 情況。
      2、 《數(shù)據(jù)質(zhì)量稽核4艮告》
      該報(bào)告反映出每次ETL處理完畢后,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中數(shù)據(jù)處理 環(huán)節(jié)的質(zhì)量問題,通過如下指標(biāo)表示記錄丟棄率,衡量每次ETL 裝載不受控制丟棄記錄的多少;同期誤差率,^f量在整個(gè)ETL流程中,同一度量值(它的值應(yīng)當(dāng)絕對(duì)保持相同)在不同數(shù)據(jù)集中的誤
      差情況;同期波動(dòng)率,衡量在整個(gè)ETL流程中,同一度量值(它的 值應(yīng)當(dāng)在數(shù)據(jù)集之間保持某種比例)在不同數(shù)據(jù)集之間的比例波動(dòng) 情況;歷史波動(dòng)率,衡量在歷史ETL流程中,同一度量值,在不同 度量時(shí)期,其值的波動(dòng)情況;標(biāo)準(zhǔn)誤差率,衡量在整個(gè)ETL流程中, 度量與相應(yīng)標(biāo)準(zhǔn)量的誤差情況;以及邏輯誤差率,衡量在整個(gè)ETL 流程中,度量之間的邏輯運(yùn)算關(guān)系滿足情況。
      3、《數(shù)據(jù)質(zhì)量分級(jí)報(bào)告》
      該才艮告反映出每次ETL處理完畢后,凄史才居乂人4妾口,到ODS, 到DW,到最終展現(xiàn)或上傳,這批裝載的數(shù)據(jù)可以被接受的程度。 分成三個(gè)等級(jí)
      第一級(jí)準(zhǔn)確,可以交^f寸;
      第二級(jí)可疑,原因待查;以及
      第三級(jí)錯(cuò)誤,重新裝載。
      質(zhì)量修正
      通過質(zhì)量-驗(yàn)證流程,暴露出凄史據(jù)倉(cāng)庫(kù)系統(tǒng)存在的數(shù)據(jù)質(zhì)量,4妄 下來通過質(zhì)量^f奮正流程對(duì)這些問題作出改進(jìn)。才艮據(jù)質(zhì)量問題的外部、 內(nèi)部和理解差異原因,包^fe:
      接口質(zhì)量〗奮正流程
      當(dāng)《接口質(zhì)量稽核才艮告》反映出4妻口出現(xiàn)不及時(shí)、不完整或不 合法的情況,接口數(shù)據(jù)質(zhì)量保證員需要協(xié)調(diào)相關(guān)數(shù)據(jù)源提供方調(diào)查
      16原因,修正接口程序或重新提供接口數(shù)據(jù),并填寫《接口質(zhì)量反饋 報(bào)告》給數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)數(shù)據(jù)數(shù)據(jù)質(zhì)量保證員。
      內(nèi)部質(zhì)量修正流程
      當(dāng)《數(shù)據(jù)質(zhì)量稽核才艮告》反映出數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)ETL處理過程中 存在同期誤差率、同期波動(dòng)率、歷史波動(dòng)率和邏輯誤差率高于某閥 值時(shí),進(jìn)入內(nèi)部質(zhì)量修正流程。數(shù)據(jù)數(shù)據(jù)質(zhì)量保證員需要協(xié)調(diào)相關(guān) 模塊確認(rèn)原因,是規(guī)則偏差、程序?qū)崿F(xiàn)偏差,還是出現(xiàn)拒絕或丟棄 記錄。當(dāng)發(fā)生規(guī)則偏差,進(jìn)入變更修正流程;當(dāng)程序?qū)崿F(xiàn)偏差時(shí), 協(xié)調(diào)ETL才莫塊》務(wù)正程序,重新進(jìn)行數(shù)據(jù)裝載;當(dāng)出現(xiàn)拒絕或丟棄記 錄時(shí),進(jìn)入錯(cuò)誤數(shù)據(jù)修正流程。最終由數(shù)據(jù)數(shù)據(jù)質(zhì)量保證員完成《數(shù) 據(jù)質(zhì)量修正報(bào)告》。
      錯(cuò)誤數(shù)據(jù)修正子流程
      當(dāng)出現(xiàn)拒絕或丟棄記錄,進(jìn)入此流程。由ETL模塊負(fù)責(zé)調(diào)查錯(cuò) 誤原因,并且填寫《錯(cuò)誤數(shù)據(jù)修正報(bào)告》,交付給數(shù)據(jù)數(shù)據(jù)質(zhì)量保證 員。
      變更》務(wù)正子流禾呈
      可能有3種類型的原因?qū)е逻M(jìn)入此流程
      1、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)內(nèi)部數(shù)據(jù)異常如果數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中發(fā)生數(shù)據(jù) 質(zhì)量問題,并且可以確認(rèn)數(shù)據(jù)質(zhì)量問題是由于數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部的處理 錯(cuò)誤所致。本流程從管理和技術(shù)兩個(gè)方面規(guī)范數(shù)據(jù)異常事件的處理 流程,以確保整個(gè)流程中的任何數(shù)據(jù)異常事件都能得到正確及時(shí)的 處理,并保證類似的質(zhì)量問題不會(huì)重復(fù)發(fā)生。2、 為了應(yīng)對(duì)市場(chǎng)環(huán)境的變化,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)增加功能模塊,版 本升級(jí)等都可以引發(fā)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)變更處理流程。
      3、 業(yè)務(wù)系統(tǒng)也是一直處在不斷的發(fā)展變化中,業(yè)務(wù)系統(tǒng)的變化 也可能引發(fā)本流程。業(yè)務(wù)系統(tǒng)的變更將產(chǎn)生業(yè)務(wù)系統(tǒng)變更通知,要 求通知必須是及時(shí)的,通知內(nèi)容必須是足夠的。
      由數(shù)據(jù)數(shù)據(jù)質(zhì)量保證員填寫《系統(tǒng)變更報(bào)告》,該報(bào)告基本要素 括變更發(fā)起業(yè)務(wù)系統(tǒng),變更時(shí)間,變更原因、變更影響的數(shù)據(jù)結(jié)構(gòu), 變更影響的數(shù)據(jù)接口文件,變更內(nèi)容(新增加的數(shù)據(jù)字段,新增加 業(yè)務(wù)代碼,變更業(yè)務(wù)代碼等),業(yè)務(wù)變更詳細(xì)描述。
      統(tǒng)計(jì)口徑差異控制流程
      統(tǒng)計(jì)口徑對(duì)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)具有重要的意義,系統(tǒng)之間的統(tǒng)計(jì) 口徑的差異會(huì)對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的實(shí)施產(chǎn)生很大影響。
      發(fā)生統(tǒng)計(jì)口徑差異問題進(jìn)入本流程,主要包括以下幾種情況
      1 、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)報(bào)表某個(gè)指標(biāo)統(tǒng)計(jì)結(jié)果與業(yè)務(wù)系統(tǒng)報(bào)表的對(duì)應(yīng) 指標(biāo)統(tǒng)計(jì)結(jié)果存在差異,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)通過自身^r查,認(rèn)為數(shù)據(jù)倉(cāng) 庫(kù)系統(tǒng)的計(jì)算并無錯(cuò)"i吳,而且通過凄t據(jù)質(zhì)量系統(tǒng)的協(xié)調(diào)活動(dòng),確定 業(yè)務(wù)系統(tǒng)向數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)提供的數(shù)據(jù)接口文件也沒有問題,數(shù)據(jù)倉(cāng) 庫(kù)系統(tǒng)懷疑是統(tǒng)計(jì)口徑差異所致,向^t據(jù)質(zhì)量系統(tǒng)提交統(tǒng)計(jì)口徑差 異問題報(bào)告。
      2 、凄t才居倉(cāng)庫(kù)系統(tǒng)的4吏用者和凝:才居倉(cāng)庫(kù)系統(tǒng)建i殳或者維護(hù)單4立之 間對(duì)統(tǒng)計(jì)口徑的理解產(chǎn)生分歧,其中4壬何一方都可以向凄t據(jù)凄t據(jù)質(zhì) 量保證員提交統(tǒng)計(jì)口徑差異問題報(bào)告。3、數(shù)據(jù)數(shù)據(jù)質(zhì)量保證員接受統(tǒng)計(jì)口徑差異問題報(bào)告,判斷是否 已經(jīng)確定的統(tǒng)計(jì)口徑(已經(jīng)確定的/企業(yè)內(nèi)有明確的文檔明確失見定 的),如果不是,則需要通過數(shù)據(jù)質(zhì)量系統(tǒng)協(xié)調(diào)。數(shù)據(jù)質(zhì)量系統(tǒng)中包 含了各部門的代表,數(shù)據(jù)數(shù)據(jù)質(zhì)量保證員要求相關(guān)的系統(tǒng)或者用戶 的代表纟是供本部門對(duì)該統(tǒng)計(jì)口徑的定義,理解,計(jì)算辦法,計(jì)算7> 式,并確定關(guān)注和4吏用該統(tǒng)計(jì)口徑的部門。統(tǒng)計(jì)口 ^圣應(yīng)該以該統(tǒng)計(jì) 口徑的定義和4吏用部門的解釋為準(zhǔn)。如果有多個(gè)部門對(duì)同 一個(gè)統(tǒng)計(jì) 口徑的^^出了不同的定義,并且4吏用了該統(tǒng)計(jì)口徑,教:據(jù)^t據(jù)質(zhì)量 保^正員應(yīng)該申請(qǐng)更高層次的協(xié)調(diào)。
      由數(shù)據(jù)數(shù)據(jù)質(zhì)量保證員提交《統(tǒng)計(jì)口徑差異報(bào)告》,基本要素包 4舌才艮告時(shí)間、才艮告人、統(tǒng)計(jì)口徑名稱、統(tǒng)計(jì)口徑描述、才艮告人理解 的統(tǒng)計(jì)口徑計(jì)算^^式、關(guān)注統(tǒng)計(jì)口徑的部門、定義統(tǒng)計(jì)口徑的部門、 及統(tǒng)計(jì)口徑差異情況。
      質(zhì)量監(jiān)控
      質(zhì)量監(jiān)控是對(duì)以上流程的執(zhí)行監(jiān)控和總體質(zhì)量的評(píng)估,以達(dá)到 改進(jìn)數(shù)據(jù)質(zhì)量和優(yōu)化ETL過程的目的。它主要體現(xiàn)在若干報(bào)告上
      1、 《流程管理^艮告》
      反映質(zhì)量修正流程的執(zhí)行情況,包括各種流程執(zhí)行的次數(shù)、周 期以及^f夢(mèng)正后,質(zhì)量指標(biāo)的變^f匕情況。
      2、 《月(季)度接口質(zhì)量報(bào)告》
      對(duì)每次ETL流程中的接口質(zhì)量指標(biāo)按月(季)度匯總,并體現(xiàn) 這些指標(biāo)與上期的變化情況。
      3、 《月(季)度數(shù)據(jù)質(zhì)量報(bào)告》
      19對(duì)每次ETL流程中的數(shù)據(jù)質(zhì)量指標(biāo)按月(季)度匯總,并體現(xiàn) 這些指標(biāo)與上期的變化情況。
      4、《月(季)度系統(tǒng)變更報(bào)告》
      對(duì)各種原因?qū)е碌南到y(tǒng)變更進(jìn)行月(季)度匯總,記錄變更的 次數(shù),周期以及變更的業(yè)務(wù)模塊。
      數(shù)據(jù)質(zhì)量的保證主要分為三種纟支術(shù), 一是對(duì)ft據(jù)源接口的質(zhì)量 問題暴露,稱為數(shù)據(jù)剖析;二是對(duì)ETL處理規(guī)則、過程以及數(shù)據(jù)倉(cāng) 庫(kù)中的數(shù)據(jù)的稽核,稱為數(shù)據(jù)稽核。最后并且基于這兩種技術(shù),建 立一套質(zhì)量指標(biāo)體系,從管理角度來改進(jìn)質(zhì)量并優(yōu)化過程。
      數(shù)據(jù)剖析
      數(shù)據(jù)剖析是對(duì)接口文件的質(zhì)量保證的手段,它通過檢查接口文 件是否符合預(yù)定義的規(guī)格,以及是否存在一些非法記錄來生成3項(xiàng) 質(zhì)量指標(biāo)接口及時(shí)率、完整率和合法率。
      它依據(jù)預(yù)定義的接口規(guī)格,包括接口傳輸?shù)臅r(shí)間窗、傳輸?shù)哪?錄、接口字段列表、字段類型以及分隔符等,以及接口數(shù)據(jù)文件的 首記錄,進(jìn)4于如下的才交-驗(yàn)
      存在性4企查在^L定時(shí)間窗內(nèi)4妄口文件是否存在于^見定目錄;
      完整性檢查接口文件的數(shù)據(jù)內(nèi)容是否符合首記錄中規(guī)定的行 數(shù)、接口標(biāo)識(shí)等,以及依據(jù)預(yù)定義接口規(guī)才各,該4妄口文件是否具有 符合的字段列表,是否使用指定分隔符、引號(hào)符。
      合法性檢查對(duì)接口文件的每條數(shù)據(jù)記錄,進(jìn)行如下的規(guī)則檢 查,如有任一規(guī)則不滿足,則該記錄非法,包括是否非空字段出現(xiàn)空值;是否外鍵字段參照缺失;是否主鍵唯一性沖突;是否字段 類型與規(guī)格不匹配;是否字段值不符業(yè)務(wù)邏輯;以及是否字^殳值之 間邏輯運(yùn)算關(guān)系不成立。
      通過以上三種才全查方法,可以-得到下面三個(gè)4妄口質(zhì)量指才示。
      1、 接口及時(shí)率在接口規(guī)范中規(guī)定的文件傳送時(shí)間窗口內(nèi)傳送 至凄t據(jù)倉(cāng)庫(kù)系統(tǒng)的文件個(gè)^t百分比。計(jì)算7〉式為(在失見定時(shí)間窗口 內(nèi)已傳送文件個(gè)數(shù)/每日應(yīng)傳送文件個(gè)數(shù))*100%。
      2、 4妄口完整率每次ETL流禾呈中,4妾口文4牛完全符合予貞定義 頭見格的百分比。計(jì)算7〉式為(加載正確的4妄口文件個(gè)數(shù)/4妄口文件 的總個(gè)凌t) *100%。
      3、 接口合法率*接口文件記錄中合法記錄所占百分比。計(jì)算乂> 式為(合法記錄數(shù)/總記錄數(shù))*100%。
      數(shù)據(jù)稽核
      數(shù)據(jù)稽核是對(duì)數(shù)據(jù)ETL過程的質(zhì)量保證手革殳,它通過對(duì)ETL 各個(gè)環(huán)節(jié)的裝載日志分析、度量統(tǒng)計(jì)和稽核對(duì)比來實(shí)現(xiàn)7項(xiàng)質(zhì)量指 標(biāo),包括同期誤差率、同期波動(dòng)率、歷史波動(dòng)率、標(biāo)準(zhǔn)誤差率、邏 輯誤差率、記錄丟棄率、記錄拒絕率。
      稽核過程將整個(gè)ETL流程看作是若干ETL環(huán)節(jié)組成,ETL環(huán) 節(jié)是從一個(gè)數(shù)據(jù)集流向另一個(gè)數(shù)據(jù)集的過程。因此一個(gè)ETL流程中 包含若干數(shù)據(jù)集,這些數(shù)據(jù)集可能是文件,也可能是數(shù)據(jù)表。例如 接口文件、ODS用戶表、指標(biāo)庫(kù)等都是ETL流程中的數(shù)據(jù)集。在 這些數(shù)據(jù)集中,其中有一些是可以計(jì)算出共同業(yè)務(wù)含義的度量出來, 例如從ODS用戶表可以計(jì)算出"在網(wǎng)用戶數(shù)",而從DW用戶匯總表中也可以計(jì)算出這個(gè)"在網(wǎng)用戶數(shù),,,這兩個(gè)度量的業(yè)務(wù)含義一致, 同時(shí)它們的j直應(yīng)當(dāng)一至丈。
      因此,為各個(gè)數(shù)據(jù)集定義若干度量,并且為具有共同業(yè)務(wù)含義 的度量用統(tǒng)一的名稱標(biāo)識(shí),這樣就可以通過稽核這些度量值來生成 數(shù)據(jù)質(zhì)量指標(biāo)。
      另外,為了提高精確度,稽核分為總量、分量、標(biāo)準(zhǔn)量和邏輯 -曾沖亥四種方式。
      總量稽核是指對(duì)數(shù)據(jù)集進(jìn)行無分組的度量統(tǒng)計(jì),每個(gè)數(shù)據(jù)集可
      以得到一個(gè)度量值;
      分量稽核是指對(duì)數(shù)據(jù)集進(jìn)行有分組的度量統(tǒng)計(jì),每個(gè)數(shù)據(jù)集可 以得到若干度量值;
      標(biāo)準(zhǔn)量稽核是定義一個(gè)標(biāo)準(zhǔn)量,此標(biāo)準(zhǔn)量可以來自報(bào)表(手工 輸入)或者營(yíng)帳的統(tǒng)計(jì)值,用此標(biāo)準(zhǔn)量來和相應(yīng)度量值進(jìn)行稽核;
      邏輯稽核是對(duì)一組度量值進(jìn)行邏輯運(yùn)算,判斷它是否滿足預(yù)定 義的運(yùn)算關(guān)系。
      以上稽核的結(jié)果生成四種指標(biāo)
      1、同期誤差率
      一次ETL流程中,相同度量時(shí)期,同一度量值(指同一組業(yè)務(wù) 主題下不同數(shù)據(jù)集的度量值,它的值應(yīng)當(dāng)保持相同)在不同數(shù)據(jù)集 中的誤差百分比,計(jì)算公式為((b數(shù)據(jù)集度量值-a數(shù)據(jù)集度量值) /a數(shù)據(jù)集度量值)x 100%
      其中,彩j居由a流向b。2、 同期波動(dòng)率
      一次ETL流程中,相同度量時(shí)期,同一度量值(指同一組業(yè)務(wù) 主題下不同數(shù)據(jù)集的度量值)在不同數(shù)據(jù)集中的比率,計(jì)算公式為 b數(shù)據(jù)集度量值/a數(shù)據(jù)集度量值x 100 % 。
      對(duì)一些度量值,數(shù)據(jù)集度量值之間的比率遵循一定的比率,如 果波動(dòng)比較明顯,那么可認(rèn)為數(shù)據(jù)是可疑的。
      3、 歷史波動(dòng)率在對(duì)歷史凄t據(jù)進(jìn)行ETL流程中,同一凄t據(jù)集 中同一度量,在不同度量時(shí)期,其值的變化率。計(jì)算公式((本期 度量值-上期度量值)/上期度量值)x 100 % 。
      如歷史波動(dòng)率比較大,則說明此數(shù)據(jù)集數(shù)據(jù)質(zhì)量比較可疑,導(dǎo) 致數(shù)據(jù)質(zhì)量可疑的原因可能是ETL處理有問題,也有可能是在進(jìn)入 ETL之前數(shù)據(jù)本身存在質(zhì)量問題,不管是因?yàn)槭裁丛颍@批數(shù)據(jù) 都將可能變得不可接受。若需要進(jìn)一步定位錯(cuò)誤原因,可比舉交ETL 前的同一度量值的歷史波動(dòng)率,如基本相同則可排除是ETL處理問 題,將問題定位為數(shù)據(jù)在進(jìn)入ETL前已存在質(zhì)量問題;如差別比較 大,且ETL前的歷史波動(dòng)率在可4妄受范圍,則可定位為ETL處理 有問題。
      4、 標(biāo)準(zhǔn)誤差率;衡量在整個(gè)ETL流程中,度量與相應(yīng)標(biāo)準(zhǔn)量 的誤差百分比,計(jì)算公式為((度量值-標(biāo)準(zhǔn)量)/標(biāo)準(zhǔn)量)x 100 %。
      這里定義的標(biāo)準(zhǔn)量是各方認(rèn)定的權(quán)威統(tǒng)計(jì)值,它也是某種度量, 其值由度量名稱和度量時(shí)期決定。標(biāo)準(zhǔn)量通過從數(shù)據(jù)中統(tǒng)計(jì)或者手
      工專lr入產(chǎn)生。5、 邏輯誤差率在整個(gè)ETL流程中,度量之間的邏輯運(yùn)算關(guān) 系滿足百分比,計(jì)算公式為(邏輯運(yùn)算不滿足稽核數(shù)/邏輯運(yùn)算總 稽核數(shù))x 100%
      這項(xiàng)指標(biāo)反映了數(shù)據(jù)必須要遵循的業(yè)務(wù)邏輯,如果不符,可能 是ETL處理的原因,也可能是凄t據(jù)源接口的原因,需結(jié)合同期誤差 率、波動(dòng)率等指標(biāo)進(jìn)一步定位原因。
      數(shù)據(jù)稽核的另 一項(xiàng)功能是分析ETL日志,得到裝載數(shù)據(jù)集被丟 棄或被拒絕的記錄數(shù),丟棄是不受ETL程序控制的結(jié)果,而拒絕是 在控制范圍內(nèi)的行為,被拒絕的記錄可能入庫(kù),也可能不入庫(kù)。這 項(xiàng)稽核可以得到兩項(xiàng)質(zhì)量指標(biāo)
      6、 記錄拒絕率每個(gè)接口裝載中,在受控制情況下,凈皮拒絕記 錄數(shù)占總記錄數(shù)百分比,計(jì)算公式為(拒絕記錄數(shù)/總記錄數(shù))x 100% 。
      7、 記錄丟棄率每次ETL裝載中,不受控制丟棄記錄占總記 錄數(shù)的百分比,計(jì)算公式為(丟棄記錄數(shù)/總記錄數(shù))xioo%。
      數(shù)據(jù)稽核舉例
      1、同期誤差率
      應(yīng)用舉例
      賬戶余額分類匯總值(可按賬戶所屬機(jī)構(gòu)或產(chǎn)品類別進(jìn)4亍分類 匯總)、賬戶數(shù)分類匯總(可按賬戶所屬機(jī)構(gòu)或產(chǎn)品類別進(jìn)行分類匯 總)、日總帳余額(按科目分類)、月總帳余額(按科目分類)、年總 帳余額(按科目分類)等等。
      24對(duì)這類涉及金額的度量值,嚴(yán)格要求在ETL前后完全保持一 致,只要值不相等,即同期誤差率大于0就可以認(rèn)為稽核的這批數(shù) 據(jù)質(zhì)量可疑,需要進(jìn)入質(zhì)量修正流程。根據(jù)稽核的誤差率的大小可 以用于衡量數(shù)據(jù)質(zhì)量問題的嚴(yán)重程度,誤差率越大,數(shù)據(jù)中有問題 的數(shù)據(jù)記錄數(shù)越多。如果誤差率4艮低,如^f氐于0.01%,則有可能是 在系統(tǒng)進(jìn)行ETL過程中由于硬件或軟件系統(tǒng)故障而引起的p桑聲,而 不是ETL本身的業(yè)務(wù)處理規(guī)則有問題,此時(shí)可結(jié)合日志分4斤來定位 ETL是否有問題。
      其他產(chǎn)品狀態(tài)分類匯總值、資產(chǎn)狀態(tài)分類匯總值、賬戶狀態(tài) 分類匯總值、合同狀態(tài)分類匯總值、客戶性別分類匯總值、客戶教 育程度分類匯總值、客戶行業(yè)類型分類匯總值等等。這類度量值的 同期誤差率產(chǎn)生的原因往往是因?yàn)樵趯?duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)代碼4爭(zhēng)才奐或清 除重復(fù)值或空值替換等轉(zhuǎn)換處理而使得分類匯總值發(fā)生變化,在一 定范圍內(nèi)的變化可以認(rèn)為是處理規(guī)則起作用的效果,但如果變化范 圍太大,則有理由i^為這批質(zhì)量可疑,需用進(jìn)入質(zhì)量修正流禾呈。
      2、 同期波動(dòng)率
      應(yīng)用舉例在對(duì)客戶數(shù)據(jù)進(jìn)行數(shù)據(jù)稽核時(shí),可以以客戶總數(shù)作 為度量值(也可以對(duì)客戶數(shù)據(jù)中的男女性別進(jìn)行分組匯總作為度量 值),按同期波動(dòng)率進(jìn)行稽核,根據(jù)業(yè)務(wù)經(jīng)驗(yàn),客戶總數(shù)的波動(dòng)范圍 應(yīng)在一定范圍內(nèi)進(jìn)4亍波動(dòng)。如果同期波動(dòng)率比較大,則說明經(jīng)ETL 處理后的客戶數(shù)據(jù)質(zhì)量比較可疑,導(dǎo)致數(shù)據(jù)質(zhì)量可疑的原因可定位 為ETL處理失見則有問題。
      3、 歷史波動(dòng)率
      應(yīng)用舉例如以客戶總數(shù)作為度量值,每月客戶總數(shù)與上月客 戶總數(shù)的比率應(yīng)相差不大,如波動(dòng)率較大則可能存在數(shù)據(jù)質(zhì)量可疑;4、 標(biāo)準(zhǔn)誤差率
      應(yīng)用舉例沖殳資回才艮率指標(biāo)4直。
      5、 邏輯誤差率 應(yīng)用舉例
      總分核對(duì),即總帳表中的科目總帳應(yīng)等于分戶帳中對(duì)應(yīng)該科目 的匯總值;
      借貨平衡,即總帳表中的借方發(fā)生額應(yīng)等于貨方發(fā)生額;
      歷史稽核如總帳表中的月總帳應(yīng)等于曰總帳的匯總值;季總 帳應(yīng)等于月總帳的匯總值;
      分類稽核,即父類匯總值應(yīng)等于子類匯總值,例如產(chǎn)品表中父 類產(chǎn)品類型的產(chǎn)品個(gè)數(shù)匯總值應(yīng)等于子類產(chǎn)品個(gè)數(shù)匯總,^L構(gòu)賬戶 總余額應(yīng)等于下屬各分支機(jī)構(gòu)的賬戶余額匯總等。
      以上舉例,從tt據(jù)正確性來i兌,都不允許有誤差的存在,即邏 輯關(guān)系兩邊的值應(yīng)完全相等。若在數(shù)據(jù)稽核過程中出現(xiàn)誤差率大于 0,則說明數(shù)據(jù)質(zhì)量有問題,需要進(jìn)入質(zhì)量修正流程。根據(jù)稽核結(jié)果 中誤差率的大小可以用于衡量數(shù)據(jù)質(zhì)量問題的嚴(yán)重程度,誤差率越 大,數(shù)據(jù)中有問題的凄史據(jù)記錄數(shù)就越多。
      質(zhì)量分級(jí)
      4軒量一次ETL處理過程完畢后,數(shù)據(jù)是不是準(zhǔn)確,只通過單項(xiàng) 指標(biāo)是無法表示的,需要進(jìn)行綜合判斷。因此,使用質(zhì)量分級(jí)來實(shí) 現(xiàn)這沖羊一個(gè)"準(zhǔn)確率"的級(jí)別,可以對(duì)最終裝載的lt據(jù)分三個(gè)準(zhǔn)確 率等級(jí)。第一級(jí)為準(zhǔn)確,指標(biāo)i吳差可以接受,不用深究原因,可以
      26交付前端展現(xiàn),可以發(fā)布才艮表;第二級(jí)為可疑,可以交付前端展現(xiàn), 但是需要繼續(xù)查明數(shù)據(jù)質(zhì)量原因,給出解釋或修正;第三級(jí)為4普誤, 不能交付前端展現(xiàn),查明原因,修正并重新裝載數(shù)據(jù)。
      質(zhì)量分級(jí)的依據(jù)依賴上面提到數(shù)據(jù)剖析和數(shù)據(jù)稽核所產(chǎn)生的若 干質(zhì)量指標(biāo)綜合而成,下面給出分級(jí)標(biāo)準(zhǔn)。此標(biāo)準(zhǔn)為參考作用,才艮 據(jù)各省分?jǐn)?shù)據(jù)情況可以對(duì)參數(shù)進(jìn)4于孩B周。
      準(zhǔn)確級(jí)
      當(dāng)質(zhì)量指標(biāo)同時(shí)滿足下列條件時(shí),判定數(shù)據(jù)倉(cāng)庫(kù)裝載數(shù)據(jù)為準(zhǔn)確。
      4妄口完整率=100%;
      平均接口合法率>99.99%,并且不存在4妄口合法率<99%; 平均記錄丟棄率<0.01%,并且不存在記錄丟棄率>0.1%; 平均記錄拒絕率<2%,并且不存在記錄拒絕率〉5%; 平均標(biāo)準(zhǔn)誤差率<1%,并且不存在標(biāo)準(zhǔn)誤差率>5%; 平均同期誤差率<0.01%,并且不存在同期誤差率>1%;以及 邏輯誤差率<1%。 可疑級(jí)
      當(dāng)質(zhì)量指標(biāo)同時(shí)滿足下列條件而不滿足準(zhǔn)確級(jí)條件時(shí),判定數(shù) 據(jù)倉(cāng)庫(kù)裝載凄t據(jù)為可lt。接口完整率>90%;
      平均接口合法率>99%,并且不存在接口合法率<95%; 平均記錄丟棄率<0.1%,并且不存在記錄丟棄率>1%; 平均記錄拒絕率<5%,并且不存在記錄拒絕率>10%; 平均標(biāo)準(zhǔn)誤差率<1%,并且不存在標(biāo)準(zhǔn)誤差率>10%; 平均同期誤差率<1%,并且不存在同期誤差率〉5%; 邏輯誤差率<5%;以及
      平均歷史波動(dòng)率<5%,并且不存在歷史波動(dòng)率>100%。 錯(cuò)誤級(jí)
      當(dāng)質(zhì)量指標(biāo)同時(shí)滿足下列條件而不滿足可疑級(jí)條件時(shí),判定數(shù) 據(jù)倉(cāng)庫(kù)裝載數(shù)據(jù)為錯(cuò)誤。
      *接口完整率<=90%;
      存在接口合法率<=95%,或者平均接口合法率<=99%; 存在記錄丟棄率>=1%,或者平均記錄丟棄率>=0.1%; 存在記錄拒絕率〉=10%,或者平均記錄拒絕率<=5°/0; 存在標(biāo)準(zhǔn)_艮差率>=10%,或者平均標(biāo)準(zhǔn)誤差率>=1%; 存在同期^吳差率>=5%,或者平均同期誤差率<=1%;邏輯誤差率〉=5%;以及
      存在歷史波動(dòng)率〉=100%,或者平均歷史波動(dòng)率>=5%。
      以上所述〗又為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明, 對(duì)于本領(lǐng)i或的才支術(shù)人員來i兌,本發(fā)明可以有各種更改和變化。凡在 本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等, 均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
      權(quán)利要求
      1.一種用于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析方法,其特征在于,包括以下步驟步驟一,分析在所述數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的接口處對(duì)數(shù)據(jù)進(jìn)行裝載的過程來獲得接口質(zhì)量分析指標(biāo);步驟二,分析在所述數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中對(duì)相應(yīng)于所述數(shù)據(jù)的數(shù)據(jù)集進(jìn)行抽取轉(zhuǎn)換裝載的過程來獲得數(shù)據(jù)質(zhì)量分析指標(biāo);以及步驟三,根據(jù)所述接口質(zhì)量分析指標(biāo)和所述數(shù)據(jù)質(zhì)量分析指標(biāo)對(duì)所述數(shù)據(jù)的質(zhì)量進(jìn)行分級(jí)來獲得分級(jí)結(jié)果。
      2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)質(zhì)量分析方法,其特征在于,所述4妄口質(zhì)量分析指標(biāo)包括表示在裝載所述數(shù)據(jù)的過程中所述數(shù)據(jù)準(zhǔn)時(shí)到達(dá)所述接口的情況的接口及時(shí)率;才各的情況的4妄口完整率;以及表示在裝載所述數(shù)據(jù)的過程中所述數(shù)據(jù)符合業(yè)務(wù)邏輯的情況的4妄口合法率。
      3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)質(zhì)量分析方法,其特征在于,所述數(shù)據(jù)質(zhì)量分析指標(biāo)包括以下指標(biāo)中的 一個(gè)或多個(gè)于多個(gè)所述數(shù)據(jù)集的多個(gè)度量值之間的誤差的同期誤差率;于多個(gè)所述數(shù)據(jù)集的所述多個(gè)度量值之間的比值的同期波動(dòng)率;表示在所述抽取轉(zhuǎn)換裝載的過程中分別相應(yīng)于多個(gè)所述數(shù)據(jù)集的所述多個(gè)度量值在不同時(shí)期內(nèi)的變化情況的歷史波動(dòng)率;表示在所述抽取轉(zhuǎn)換裝載的過程中所述多個(gè)度量值分別與各自相應(yīng)的預(yù)定值之間的誤差的標(biāo)準(zhǔn)誤差率;表示在所述抽取轉(zhuǎn)換裝載的過程中所述多個(gè)度量值符合邏輯業(yè)務(wù)關(guān)系的情況的邏輯誤差率;表示在所述抽取轉(zhuǎn)換裝載的過程中所述數(shù)據(jù)集被拒絕裝載的情況的i己錄拒絕率;以及表示在所述抽取轉(zhuǎn)換裝載的過程中所述數(shù)據(jù)集被丟棄的情況的記錄丟失率。
      4. 根據(jù)權(quán)利要求3所述的數(shù)據(jù)質(zhì)量分析方法,其特征在于,所述分級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。
      5. 根據(jù)權(quán)利要求4所述的數(shù)據(jù)質(zhì)量分析方法,其特征在于,在所述步驟三中,根據(jù)所述數(shù)據(jù)質(zhì)量分析指標(biāo)是否符合預(yù)定值來確定所述分級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。
      6. —種用于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析系統(tǒng),其特征在于,包括接口質(zhì)量分析模塊,用于分析在所述數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的接口處對(duì)數(shù)據(jù)進(jìn)行裝載的過程來獲得接口質(zhì)量分析指標(biāo);數(shù)據(jù)質(zhì)量分析模塊,用于分析在所述數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中對(duì)相應(yīng)于所述數(shù)據(jù)的數(shù)據(jù)集進(jìn)行抽取轉(zhuǎn)換裝載的過程來獲得數(shù)據(jù)質(zhì)量分析指標(biāo);以及分級(jí)模塊,根據(jù)所述接口質(zhì)量分析指標(biāo)和所述數(shù)據(jù)質(zhì)量分析指標(biāo)對(duì)所述數(shù)據(jù)的質(zhì)量進(jìn)行分級(jí)來獲得分級(jí)結(jié)果。
      7. 根據(jù)權(quán)利要求6所述的數(shù)據(jù)質(zhì)量分析系統(tǒng),其特征在于,所述4妄口質(zhì)量分析指標(biāo)包括以下指標(biāo)中的一個(gè)或多個(gè)表示在裝載所述數(shù)據(jù)的過程中所述數(shù)據(jù)準(zhǔn)時(shí)到達(dá)所述接口的情況的4妄口及時(shí)率;表示在裝載所述數(shù)據(jù)的過程中所述數(shù)據(jù)符合預(yù)定接口規(guī)才各的情況的4妄口完整率;以及表示在裝載所述數(shù)據(jù)的過程中所述數(shù)據(jù)符合業(yè)務(wù)邏輯的情況的接口合法率。
      8. 根據(jù)權(quán)利要求7所述的數(shù)據(jù)質(zhì)量分析系統(tǒng),其特征在于,所述數(shù)據(jù)質(zhì)量分析指標(biāo)包括于多個(gè)所述數(shù)據(jù)集的多個(gè)度量值之間的誤差的同期誤差率;于多個(gè)所述數(shù)據(jù)集的所述多個(gè)度量值之間的比值的同期波動(dòng)率;表示在所述抽取轉(zhuǎn)換裝載的過程中分別相應(yīng)于多個(gè)所述數(shù)據(jù)集的所述多個(gè)度量值在不同時(shí)期內(nèi)的變化情況的歷史波動(dòng)率;表示在所述抽取轉(zhuǎn)換裝載的過程中所述多個(gè)度量值分別與各自相應(yīng)的預(yù)定值之間的誤差的標(biāo)準(zhǔn)誤差率;表示在所述抽取轉(zhuǎn)換裝載的過程中所述多個(gè)度量值符合邏輯業(yè)務(wù)關(guān)系的情況的邏輯誤差率;表示在所述抽取轉(zhuǎn)換裝載的過程中所述數(shù)據(jù)集被拒絕裝載的情況的^己錄拒絕率;以及表示在所述抽取轉(zhuǎn)換裝載的過程中所述數(shù)據(jù)集被丟棄的情況的記錄丟失率。
      9. 根據(jù)權(quán)利要求8所述的數(shù)據(jù)質(zhì)量分析系統(tǒng),其特征在于,所述分級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。
      10. 根據(jù)權(quán)利要求9所述的數(shù)據(jù)質(zhì)量分析系統(tǒng),其特征在于,所述分級(jí)模塊根據(jù)所述數(shù)據(jù)質(zhì)量分析指標(biāo)是否符合預(yù)定值來確定所述分級(jí)結(jié)果為數(shù)據(jù)準(zhǔn)確、數(shù)據(jù)可疑、或數(shù)據(jù)錯(cuò)誤。
      全文摘要
      本發(fā)明提出了用于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析方法和系統(tǒng)。其中,根據(jù)本發(fā)明的一個(gè)方面的用于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析方法包括以下步驟步驟一,分析在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的接口處對(duì)數(shù)據(jù)進(jìn)行裝載的過程來獲得接口質(zhì)量分析指標(biāo);步驟二,分析在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中對(duì)相應(yīng)于數(shù)據(jù)的數(shù)據(jù)集進(jìn)行抽取轉(zhuǎn)換裝載的過程來獲得數(shù)據(jù)質(zhì)量分析指標(biāo);以及步驟三,根據(jù)接口質(zhì)量分析指標(biāo)和數(shù)據(jù)質(zhì)量分析指標(biāo)對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行分級(jí)來獲得分級(jí)結(jié)果。旨在兼顧措施的有效性和盡量少影響系統(tǒng)執(zhí)行效率的情況下,既能有效的保證數(shù)據(jù)質(zhì)量,又基本不影響生產(chǎn)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的正常運(yùn)營(yíng)。
      文檔編號(hào)G06F17/30GK101576893SQ20081010618
      公開日2009年11月11日 申請(qǐng)日期2008年5月9日 優(yōu)先權(quán)日2008年5月9日
      發(fā)明者廖子懿 申請(qǐng)人:北京世紀(jì)拓遠(yuǎn)軟件科技發(fā)展有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1