海量數(shù)據(jù)加工的處理方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種海量數(shù)據(jù)加工的處理方法和系統(tǒng),其中,該處理方法包括以下步驟:步驟S3:加載來自多個(gè)源業(yè)務(wù)系統(tǒng)的海量數(shù)據(jù);步驟S5:對所加載的海量數(shù)據(jù)進(jìn)行映射;步驟S7:根據(jù)報(bào)表工具的要求對映射后的海量數(shù)據(jù)進(jìn)行處理。本發(fā)明的有益效果在于:通過將數(shù)據(jù)處理邏輯從業(yè)務(wù)系統(tǒng)中分離出來,生成數(shù)據(jù)文件由專門的數(shù)據(jù)處理系統(tǒng)進(jìn)行統(tǒng)一處理。數(shù)據(jù)處理由原來的扁平處理方式改為分層的方式進(jìn)行處理。從而減輕數(shù)據(jù)處理難度,極大的提高海量數(shù)據(jù)處理性能,從而提高數(shù)據(jù)處理的效率,進(jìn)一步滿足數(shù)據(jù)統(tǒng)計(jì)分析要求。
【專利說明】海量數(shù)據(jù)加工的處理方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及銀行業(yè)中多業(yè)務(wù)種類、超大數(shù)據(jù)量、高性能的數(shù)據(jù)倉庫及各類數(shù)據(jù)分析類信息系統(tǒng)的海量數(shù)據(jù)加工處理領(lǐng)域,尤其涉及一種海量數(shù)據(jù)加工的處理方法和系統(tǒng)。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中,大量數(shù)據(jù)的處理基本上是分散在各自的源業(yè)務(wù)處理系統(tǒng)中進(jìn)行的,此時(shí)源業(yè)務(wù)系統(tǒng)既承擔(dān)著日常業(yè)務(wù)處理本身的壓力,同時(shí)還要承擔(dān)海量數(shù)據(jù)的加工、查詢、分析等大量工作。由于各源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)模型都是按3NF、4NF甚至是5NF進(jìn)行設(shè)計(jì)的,這種數(shù)據(jù)模型對于海量數(shù)據(jù)的處理在性能方面的需求遠(yuǎn)遠(yuǎn)不能達(dá)到數(shù)據(jù)分析的時(shí)效要求。隨著銀行業(yè)務(wù)飛速發(fā)展,業(yè)務(wù)處理愈加復(fù)雜,業(yè)務(wù)流程不斷更新,各業(yè)務(wù)系統(tǒng)間關(guān)聯(lián)越來越緊密,管理層高層領(lǐng)導(dǎo)及部門級管理人員對數(shù)據(jù)統(tǒng)計(jì)分析的需求越來越大,在各源業(yè)務(wù)系統(tǒng)中進(jìn)行海量數(shù)據(jù)加工處理的方法、性能、技術(shù)架構(gòu)已明顯不再符合銀行對數(shù)據(jù)統(tǒng)計(jì)分析的要求。
【發(fā)明內(nèi)容】
[0003]本發(fā)明所要解決的問題是在源業(yè)務(wù)處理系統(tǒng)中進(jìn)行海量數(shù)據(jù)處理不能滿足現(xiàn)對數(shù)據(jù)統(tǒng)計(jì)分析的要求,提供一種能夠?qū)iT對海量數(shù)據(jù)處理進(jìn)行處理的方法和系統(tǒng),從而提高數(shù)據(jù)處理的效率,滿足數(shù)據(jù)統(tǒng)計(jì)分析要求。
[0004]為了解決上述問題,本發(fā)明提供一種海量數(shù)據(jù)加工的處理方法,根據(jù)本發(fā)明的處理方法包括以下步驟:
[0005]步驟S3:加載來自多個(gè)源業(yè)務(wù)系統(tǒng)的海量數(shù)據(jù);
[0006]步驟S5:對所加載的海量數(shù)據(jù)進(jìn)行映射;
[0007]步驟S7:根據(jù)報(bào)表工具的要求對映射后的海量數(shù)據(jù)進(jìn)行處理。
[0008]作為優(yōu)選,步驟S5進(jìn)一步包括:
[0009]步驟S51:根據(jù)源業(yè)務(wù)系統(tǒng)的業(yè)務(wù)對所加載的海量數(shù)據(jù)進(jìn)行建模;
[0010]步驟S52:對建模之后的海量數(shù)據(jù)進(jìn)行范式化。
[0011]作為優(yōu)選,步驟S7進(jìn)一步包括:
[0012]步驟S71:對映射后的海量數(shù)據(jù)進(jìn)行匯總;
[0013]步驟S72:對匯總后的海量數(shù)據(jù)進(jìn)行指標(biāo)加工。
[0014]作為優(yōu)選,步驟S7進(jìn)一步包括:
[0015]按照星型模型設(shè)計(jì)原則對映射后的海量數(shù)據(jù)進(jìn)行處理;星型模型設(shè)計(jì)原則包括:
[0016]事實(shí)聚合表設(shè)計(jì)原則,其用于計(jì)算指標(biāo)和固定報(bào)表;
[0017]事實(shí)基礎(chǔ)表設(shè)計(jì)原則,其用于計(jì)算事實(shí)聚合表;
[0018]指標(biāo)表設(shè)計(jì)原則,其用于根據(jù)接合前端工具的要求和固定報(bào)表的格式來設(shè)計(jì)指標(biāo)
O O
[0019]作為優(yōu)選,在步驟S3之前,根據(jù)本發(fā)明的方法包括:
[0020]步驟S2:根據(jù)預(yù)設(shè)規(guī)則對海量數(shù)據(jù)進(jìn)行清洗。
[0021]作為優(yōu)選,在步驟S2之前,根據(jù)本發(fā)明的方法還包括:
[0022]步驟S1:對從多個(gè)源業(yè)務(wù)系統(tǒng)中所分離出來的海量數(shù)據(jù)進(jìn)行集中;
[0023]則步驟S3進(jìn)一步包括:對集中后的海量數(shù)據(jù)進(jìn)行加載。
[0024]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種海量數(shù)據(jù)加工的處理系統(tǒng),采用如上的海量數(shù)據(jù)加工的處理方法,該處理系統(tǒng)包括:
[0025]ODS層,其配置為加載來自多個(gè)源業(yè)務(wù)系統(tǒng)的海量數(shù)據(jù)并存儲;
[0026]UDM層,其配置為對所加截的海量數(shù)據(jù)進(jìn)行映射并存儲;
[0027]應(yīng)用層,其配置為根據(jù)報(bào)表工具的要求對映射后的海量數(shù)據(jù)進(jìn)行處理,并將處理后的數(shù)據(jù)體現(xiàn)到業(yè)務(wù)所需的報(bào)表中。
[0028]作為優(yōu)選,根據(jù)本發(fā)明的處理系統(tǒng)還包括:
[0029]數(shù)據(jù)清洗模塊,其配置為根據(jù)預(yù)設(shè)規(guī)則對海量數(shù)據(jù)進(jìn)行清洗。
[0030]作為優(yōu)選,根據(jù)本發(fā)明的處理系統(tǒng)還包括:
[0031]數(shù)據(jù)下傳平臺,其配置為集中從多個(gè)源業(yè)務(wù)系統(tǒng)中所分離出來的海量數(shù)據(jù);
[0032]則ODS層進(jìn)一步配置為對數(shù)據(jù)下傳平臺中集中后的海量數(shù)據(jù)進(jìn)行加載。
[0033]作為優(yōu)選,上述應(yīng)用層進(jìn)一步包括:
[0034]匯總模塊,其配置為對映射后的海量數(shù)據(jù)進(jìn)行匯總;
[0035]加工模塊,其配置為對匯總后的海量數(shù)據(jù)進(jìn)行指標(biāo)加工。
[0036]本發(fā)明相對于現(xiàn)有技術(shù)的有益效果在于:
[0037]1、通過將數(shù)據(jù)處理邏輯從業(yè)務(wù)系統(tǒng)中分離出來,生成數(shù)據(jù)文件由專門的數(shù)據(jù)處理系統(tǒng)進(jìn)行統(tǒng)一處理。數(shù)據(jù)處理由原來的扁平處理方式改為分層的方式進(jìn)行處理。從而減輕數(shù)據(jù)處理難度,極大的提高海量數(shù)據(jù)處理性能,從而提高數(shù)據(jù)處理的效率,進(jìn)一步滿足數(shù)據(jù)統(tǒng)計(jì)分析要求。
[0038]2、通過UDM層的作用使得更易理解的數(shù)據(jù)模型、屏蔽了底層異物構(gòu)數(shù)據(jù)源;可進(jìn)行高效的聚合型查詢。
[0039]3、通過對數(shù)據(jù)模型進(jìn)行范式化可以使得數(shù)據(jù)更新加快并且節(jié)約空間。
【專利附圖】
【附圖說明】
[0040]圖1為根據(jù)本發(fā)明的海量數(shù)據(jù)加工方法的流程圖;
[0041]圖2為根據(jù)本發(fā)明的海量數(shù)據(jù)加工方法的一個(gè)實(shí)施例進(jìn)行數(shù)據(jù)集中的裝置的示意圖;
[0042]圖3為根據(jù)本發(fā)明的海量數(shù)據(jù)加工方法的一個(gè)實(shí)施例進(jìn)行數(shù)據(jù)分層處理的系統(tǒng)的不意圖;
[0043]圖4為根據(jù)本發(fā)明的海量數(shù)據(jù)處理方法的一個(gè)實(shí)施例的步驟的示意圖。
【具體實(shí)施方式】
[0044]以下結(jié)合附圖對本發(fā)明的進(jìn)行詳細(xì)描述。
[0045]根據(jù)本發(fā)明的實(shí)施例,提供了一種海量數(shù)據(jù)的處理方法,包括以下步驟:
[0046]步驟S3:加載來自多個(gè)源業(yè)務(wù)系統(tǒng)的海量數(shù)據(jù);
[0047]步驟S5:對所加載的海量數(shù)據(jù)進(jìn)行映射,其中,可以進(jìn)一步包括:步驟S51:根據(jù)源業(yè)務(wù)系統(tǒng)的業(yè)務(wù)對所加載的海量數(shù)據(jù)進(jìn)行建模;步驟S52:對建模之后的海量數(shù)據(jù)進(jìn)行范式化;
[0048]步驟S7:根據(jù)報(bào)表工具的要求對映射后的海量數(shù)據(jù)進(jìn)行處理,優(yōu)選地,可以根據(jù)星型模型設(shè)計(jì)原則對映射后的海量數(shù)據(jù)進(jìn)行處理,其中,可以進(jìn)一步包括:步驟S71:對映射后的海量數(shù)據(jù)進(jìn)行匯總;步驟S72:對匯總后的海量數(shù)據(jù)進(jìn)行指標(biāo)加工。
[0049]在另一個(gè)實(shí)施例中,在步驟S3之前,根據(jù)本發(fā)明的處理方法還可以包括:
[0050]步驟S2:根據(jù)預(yù)設(shè)規(guī)則對海量數(shù)據(jù)進(jìn)行清洗。
[0051]在又一個(gè)實(shí)施例中,在步驟S2之前,根據(jù)本發(fā)明的處理方法還可以包括:
[0052]步驟S1:對從多個(gè)源業(yè)務(wù)系統(tǒng)中所分離出來的海量數(shù)據(jù)進(jìn)行集中;而在步驟SI的基礎(chǔ)上,步驟S3可以進(jìn)一步包括:對集中后的海量數(shù)據(jù)進(jìn)行加載。
[0053]根據(jù)本發(fā)明的實(shí)施例,還提供了一種海量數(shù)據(jù)加工的處理系統(tǒng),該處理系統(tǒng)包括:
[0054]ODS層,配置為加載來自多個(gè)源業(yè)務(wù)系統(tǒng)的海量數(shù)據(jù);
[0055]UDM層,配置為對所加截的海量數(shù)據(jù)進(jìn)行映射;
[0056]應(yīng)用層,配置為對映射后的海量數(shù)據(jù)進(jìn)行應(yīng)用。
[0057]此外,根據(jù)本發(fā)明的處理系統(tǒng)還包括:
[0058]數(shù)據(jù)清洗模塊,配置為根據(jù)預(yù)設(shè)規(guī)則對海量數(shù)據(jù)進(jìn)行清洗。
[0059]在優(yōu)選的實(shí)施例中,根據(jù)本發(fā)明的處理系統(tǒng)還包括:
[0060]數(shù)據(jù)下傳平臺,配置為集中從多個(gè)源業(yè)務(wù)系統(tǒng)中所分離出來的海量數(shù)據(jù);
[0061]則ODS層進(jìn)一步配置為對數(shù)據(jù)下傳平臺中集中后的海量數(shù)據(jù)進(jìn)行加載。
[0062]優(yōu)選地,上述應(yīng)用層進(jìn)一步包括:
[0063]匯總模塊,配置為對映射后的海量數(shù)據(jù)進(jìn)行匯總;
[0064]加工模塊,配置為對匯總后的海量數(shù)據(jù)進(jìn)行指標(biāo)加工。
[0065]在實(shí)際應(yīng)用中,根據(jù)本發(fā)明的海量數(shù)據(jù)加工方法可以包括數(shù)據(jù)集中和數(shù)據(jù)分層處理兩大部分,以下參照圖2和圖3對該兩部分進(jìn)行描述。
[0066]如圖2所示,為執(zhí)行根據(jù)本發(fā)明的海量數(shù)據(jù)加工方法進(jìn)行數(shù)據(jù)集中的裝置的示意圖。該海量數(shù)據(jù)加工系統(tǒng)包括源業(yè)務(wù)系統(tǒng)、手工錄入系統(tǒng)(i_R印rot)、數(shù)據(jù)下傳平臺、數(shù)據(jù)庫服務(wù)器。根據(jù)本發(fā)明進(jìn)行海量數(shù)據(jù)加工的主要思想之一即是首先數(shù)據(jù)集中到數(shù)據(jù)下傳平臺,即將各源業(yè)務(wù)系統(tǒng)(圖2中示出為源系統(tǒng))的數(shù)據(jù)由業(yè)務(wù)系統(tǒng)分離出來,然后由統(tǒng)一的入口和出口將數(shù)據(jù)集中到專門的數(shù)據(jù)處理系統(tǒng)(圖2中示出為數(shù)據(jù)庫服務(wù)器),然后進(jìn)行后續(xù)的采用數(shù)據(jù)分層的加工處理方式進(jìn)行處理,這樣的設(shè)置既減輕了各源業(yè)務(wù)系統(tǒng)的性能壓力,同時(shí)也極大的提高了數(shù)據(jù)匯總的性能要求。
[0067]如圖3所示,為執(zhí)行根據(jù)本發(fā)明的海量數(shù)據(jù)加工方法的一個(gè)實(shí)施例進(jìn)行數(shù)據(jù)分層處理的系統(tǒng)的示意圖。如圖3所示,數(shù)據(jù)分層具體可分為ODS (Operat1nal Data Store,操作數(shù)據(jù)存儲)層、UDM(Unified Data Manager,統(tǒng)一數(shù)據(jù)管理平臺)層、應(yīng)用層。ODS層體現(xiàn)了各源業(yè)務(wù)系統(tǒng)的原始數(shù)據(jù)視圖,ODS層為一種數(shù)據(jù)結(jié)構(gòu),其數(shù)據(jù)間邏輯關(guān)系與源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)間邏輯關(guān)系基本一致,數(shù)據(jù)可分為增量數(shù)據(jù)(即繼最后一次數(shù)據(jù)導(dǎo)出后新增的數(shù)據(jù))與全量數(shù)據(jù)(或者部分全量數(shù)據(jù)),從而為后續(xù)的UDM層提供基礎(chǔ)數(shù)據(jù);UDM層則是對銀行的業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)一的、科學(xué)的、全局的數(shù)據(jù)規(guī)劃,該UDM層使用ODS層數(shù)據(jù)作為原始加工數(shù)據(jù),且生成的UDM層數(shù)據(jù)被后面的應(yīng)用層數(shù)據(jù)所引用,因數(shù)據(jù)被集中處理,因此海量數(shù)據(jù)的生理性能得到了巨大提高;應(yīng)用層的數(shù)據(jù)則真正體現(xiàn)了業(yè)務(wù)需求對數(shù)據(jù)的要求,是真正的數(shù)據(jù)體現(xiàn),該數(shù)據(jù)被直接體現(xiàn)到業(yè)務(wù)所需的報(bào)表中。
[0068]以下對圖3所示內(nèi)容進(jìn)行詳細(xì)描述,在本實(shí)施例中,根據(jù)本發(fā)明進(jìn)行數(shù)據(jù)分層處理的方法主要通過 SHELL+C/PR0C 開發(fā)的 Job Control 系統(tǒng)對ETL (Extract-Transform-Load,用于描述將數(shù)據(jù)從來源端經(jīng)過萃取(extract)、轉(zhuǎn)置(transform)、加載(load)至目的端的過程)處理過程進(jìn)行調(diào)度和控制,當(dāng)然,也可以使用本領(lǐng)域技術(shù)人員所熟知的其它系統(tǒng)進(jìn)行ETL處理。如圖3所示,首先從數(shù)據(jù)下傳平臺(對應(yīng)于文件層)下傳文件,通過SQLLDR C程序進(jìn)行清洗后加載至ODS (即ODS層);然后通過proc程序PL/SQL進(jìn)行轉(zhuǎn)換至UDM (即UDM層);然后通過proc程序PL/SQL進(jìn)行加工進(jìn)入應(yīng)用(即應(yīng)用層);最后通過C程序SHELL程序進(jìn)行報(bào)表加工,從而將數(shù)據(jù)傳輸至報(bào)表(即報(bào)表層)。
[0069]其中,所生成的UDM層的主要優(yōu)點(diǎn)在于:其為更易理解的數(shù)據(jù)模型、屏蔽了底層異物構(gòu)數(shù)據(jù)源;可進(jìn)行高效的聚合型查詢。
[0070]海量數(shù)據(jù)因數(shù)據(jù)量巨大,數(shù)據(jù)維度復(fù)雜,統(tǒng)計(jì)需求對數(shù)據(jù)處理的方式及效率要求極高。如果采用簡單的扁平處理方式(即數(shù)據(jù)不分層次)數(shù)據(jù)直接關(guān)聯(lián)(或限制條件、統(tǒng)計(jì)匯總)那么就會因數(shù)據(jù)量巨大而導(dǎo)致出現(xiàn)巨大的性能問題,同時(shí)也不利于統(tǒng)計(jì)分析類系統(tǒng)對業(yè)務(wù)需求的及時(shí)響應(yīng)。因此海量數(shù)據(jù)處理方法采用了業(yè)界最為流行的數(shù)據(jù)模型設(shè)計(jì),主要面向客戶、合約、參考等各主題進(jìn)行模型設(shè)計(jì)。
[0071]以下通過圖4對各模型層次進(jìn)行更進(jìn)一步的詳細(xì)說明,如圖4所示為根據(jù)本發(fā)明的海量數(shù)據(jù)處理方法的一個(gè)實(shí)施例的步驟的示意圖。圖3是加工流程在邏輯上的分層,圖4是流程物理上的分層和各子模塊的模塊功能,例如圖4的Oracle ODS庫對應(yīng)圖3的0DS,UDM庫對應(yīng)圖3的UDM,匯總庫+指標(biāo)庫對應(yīng)圖3的應(yīng)用層,報(bào)表庫對應(yīng)圖3的報(bào)表層。如圖4所示,數(shù)據(jù)分層處理主要包括三個(gè)部分:
[0072]第一、清洗守護(hù)程序,通過文件處理模塊進(jìn)行,包括對源數(shù)據(jù)文進(jìn)行1、文件注冊;
2、數(shù)據(jù)清洗,其中,2數(shù)據(jù)清洗包括清洗錯(cuò)誤數(shù)據(jù)文件和清洗正常數(shù)據(jù)文件,前者包括根據(jù)一定的過濾規(guī)則將不符合要求的數(shù)據(jù)進(jìn)行清洗,再提交用戶進(jìn)行修正,后者包括對數(shù)據(jù)文件進(jìn)行轉(zhuǎn)換、映射和加工;
[0073]第二,基礎(chǔ)庫調(diào)度程序,通過基礎(chǔ)數(shù)據(jù)加工模塊進(jìn)行,包括1、加載清洗后的數(shù)據(jù)至ODS庫,包括加載BAD(壞)數(shù)據(jù)文件、加載DISCARD(丟棄)數(shù)據(jù)文件和加載LOG(日志)數(shù)據(jù)文件;2、ODS庫存儲內(nèi)的數(shù)據(jù)文件進(jìn)行數(shù)據(jù)映射再存儲至UDM庫;3、對UDM庫內(nèi)的數(shù)據(jù)文件進(jìn)行數(shù)據(jù)匯總再存儲至匯總庫;4、對匯總庫內(nèi)的數(shù)據(jù)文件進(jìn)行指標(biāo)加工再存儲至指標(biāo)庫;5、對指標(biāo)庫內(nèi)的數(shù)據(jù)文件進(jìn)行數(shù)據(jù)復(fù)制得到備份文件;
[0074]第三、應(yīng)用調(diào)度程序,由應(yīng)用數(shù)據(jù)加工模塊進(jìn)行,包括1、導(dǎo)入備份文件數(shù)據(jù)至指標(biāo)庫(復(fù)制);2、對指標(biāo)庫(復(fù)制)內(nèi)的數(shù)據(jù)文件進(jìn)行報(bào)表數(shù)據(jù)加工,然后也可以存儲至報(bào)表庫。
[0075]優(yōu)選地,圖4中所提及的ODS庫、UDM庫、匯總庫、指標(biāo)庫、指標(biāo)庫(復(fù)制)和/或報(bào)表庫均可以采用0racle(甲骨文)公司的產(chǎn)品。進(jìn)一步地,本實(shí)施例中ETL的范圍是從數(shù)據(jù)源模型(即源數(shù)據(jù)文件)到報(bào)表元素模型(即報(bào)表數(shù)據(jù)),或者在根據(jù)本發(fā)明的海量數(shù)據(jù)的處理過程中,根據(jù)需求指定需進(jìn)行ETL的步驟,而不僅限于實(shí)施例中所示順序的ETL步驟,此外,可以根據(jù)用戶需求對ETL的要求進(jìn)行不同的設(shè)定以實(shí)現(xiàn)不同的效果。
[0076]各模型層次說明:
[0077]如圖4所示:海量數(shù)據(jù)采用三層結(jié)構(gòu)存儲數(shù)據(jù):0DS、UDM、FCT(Fact Table事實(shí)表)。ODS存儲由源系統(tǒng)傳輸而來的數(shù)據(jù),存儲當(dāng)前的增量和部分全量業(yè)務(wù)數(shù)據(jù),該數(shù)據(jù)文件在模型設(shè)計(jì)上和源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)文件保持一致,數(shù)據(jù)每天清除重傳,不保留歷史,以達(dá)到對海量數(shù)據(jù)高性能處理的要求;UDM是按照業(yè)務(wù)建模并儲存范式化的數(shù)據(jù)模型,優(yōu)選地UDM層的邏輯模型設(shè)計(jì)采用第三范式原則進(jìn)行(其中,對數(shù)據(jù)模型進(jìn)行范式化的優(yōu)點(diǎn)在于:范式化數(shù)據(jù)文件的更新速度要快于非范式化數(shù)據(jù)文件的更新;當(dāng)數(shù)據(jù)文件得到很好的范式化之后,就僅存在很少的重復(fù)數(shù)據(jù)或者沒有重復(fù)數(shù)據(jù),因而也只存在很少的數(shù)據(jù)需要更新;范式化的數(shù)據(jù)文件通常較小,可以節(jié)約存儲空間),存儲當(dāng)前及部分歷史的全口徑業(yè)務(wù)數(shù)據(jù),邏輯模型設(shè)計(jì)采用第三范式(3NF)原則,物理模型設(shè)計(jì)根據(jù)具體需要和軟硬件環(huán)境可以適當(dāng)?shù)剡M(jìn)行非范式化;FCT存放事實(shí)及報(bào)表指標(biāo)數(shù)據(jù),面向報(bào)表應(yīng)用,按照星型模型(也稱為星形連接的模式、數(shù)據(jù)立方體或多維模式,是最簡單的樣式數(shù)據(jù)倉庫架構(gòu),其由一個(gè)或多個(gè)事實(shí)表中引用任何數(shù)量的維表)進(jìn)行設(shè)計(jì)。
[0078]UDM是對業(yè)務(wù)數(shù)據(jù)包括歷史明細(xì)的一次重新組織與存儲。在ODS模型和FCT模型之間架設(shè)一個(gè)UDM模型,對ODS模型進(jìn)行一次封裝,可以減少業(yè)務(wù)源變化對FCT模型的直接沖擊,從而很好的降低ODS模型的變化風(fēng)險(xiǎn)。另一方面,把從數(shù)據(jù)源模型到報(bào)表元素模型的ETL分成了兩部:0DS到UDM、UDM到FCT。通過對上述數(shù)據(jù)分層和模型的說明可以看出海量數(shù)據(jù)在處理上被分隔成各個(gè)模塊,和從業(yè)務(wù)源直接到報(bào)表元素的ETL相比,降低了海量數(shù)據(jù)處理的難度,大大降低了 ETL的復(fù)雜度。
[0079]以下關(guān)于數(shù)據(jù)加工流程及性能進(jìn)行分析,下述各數(shù)據(jù)加工流程及各層數(shù)據(jù)的設(shè)計(jì)策略都在很大程度上著重考慮海量數(shù)據(jù)加工時(shí)的性能要求。
[0080]
[0081]UDM層的邏輯模型設(shè)計(jì)采用第三范式原則進(jìn)行,其設(shè)計(jì)策略包括以下幾方面:
[0082]第一方面,概念層同類實(shí)體在邏輯層的設(shè)計(jì)策略
[0083]為了描述業(yè)務(wù)方便,在概念層上將同類實(shí)體作為一個(gè)實(shí)體描述。但是,模型數(shù)據(jù)來自不同系統(tǒng),描述不同區(qū)域、不同業(yè)務(wù)的內(nèi)容(例如客戶,有對公客戶、也有對私客戶)。在邏輯層上,對于這些同一類業(yè)務(wù)對象,有兩種方式記錄數(shù)據(jù):統(tǒng)一到一個(gè)業(yè)務(wù)實(shí)體;或在一個(gè)業(yè)務(wù)實(shí)體下繼承。舉例來說,以客戶這個(gè)實(shí)體來說,很多系統(tǒng)的客戶都具有同樣的屬性,例如客戶號、客戶名稱、創(chuàng)建時(shí)間,但也會有各自系統(tǒng)特有的屬性,例如財(cái)富管理系統(tǒng),客戶有特有的屬性VIP等級,貸款審批系統(tǒng),客戶有屬性風(fēng)險(xiǎn)等級,那么,當(dāng)這些源系統(tǒng)的數(shù)據(jù)統(tǒng)一到UDM層的時(shí)候,就面臨一個(gè)選擇,是建一個(gè)實(shí)體,屬性有客戶號、客戶名稱、創(chuàng)建時(shí)間、VIP等級、風(fēng)險(xiǎn)等級,還是說建3個(gè)實(shí)體,實(shí)體I屬性是客戶號、客戶名稱、創(chuàng)建時(shí)間,實(shí)體2屬性是客戶號、VIP等級,實(shí)體3屬性是客戶號、風(fēng)險(xiǎn)等級,實(shí)體2、3看起來就像是實(shí)體I的擴(kuò)展屬性實(shí)體,前者就是統(tǒng)一方式,后者就是繼承方式。而兩種表達(dá)方式的利弊在于:統(tǒng)一表達(dá)的方式(即統(tǒng)一到一個(gè)業(yè)務(wù)實(shí)體),其優(yōu)點(diǎn)是能滿足全轄數(shù)據(jù)、全口徑業(yè)務(wù)的查詢統(tǒng)計(jì)分析,模型相對簡單容易理解;繼承的表達(dá)方式(即在一個(gè)業(yè)務(wù)實(shí)體下繼承),其優(yōu)點(diǎn)是在單口徑查詢統(tǒng)計(jì)分析時(shí),更具有靈活性與效率,而且容易與源系統(tǒng)對應(yīng)。綜合考慮以上因素并接合查詢統(tǒng)計(jì)需求,按照以下原則進(jìn)行設(shè)計(jì):
[0084]對于同一業(yè)務(wù)對象但是不同系統(tǒng)不同區(qū)域的數(shù)據(jù),如果數(shù)據(jù)屬性、類型、取值基本一致,為了模型簡單及方便全轄數(shù)據(jù)統(tǒng)計(jì)查詢,將數(shù)據(jù)統(tǒng)一到一個(gè)數(shù)據(jù)實(shí)體中;
[0085]對于不同業(yè)務(wù)對象,通過繼承來記錄;
[0086]對于不同業(yè)務(wù)對象的余額歷史,統(tǒng)一到一個(gè)數(shù)據(jù)實(shí)體中。
[0087]第二方面,歷史數(shù)據(jù)的存儲的設(shè)計(jì)策略:
[0088]對于本次需求分析中需要?dú)v史的金額或狀態(tài),建立歷史余額表和歷史狀態(tài)表,對于不需要進(jìn)行歷史分析的金額及狀態(tài),只保留最新情況。
[0089]歷史數(shù)據(jù)保存方法分為三種:a、明細(xì)直接追加b、開始日期一截至日期C、歷史日期。方式a是適合流水類數(shù)據(jù),是傳票、交易明細(xì)等業(yè)務(wù)數(shù)據(jù)較好的保存辦法;方式b存儲量小,查詢統(tǒng)計(jì)效率低,適合不定期大數(shù)據(jù)量的歷史數(shù)據(jù)分析;方式c存儲量大,查詢統(tǒng)計(jì)效率高,適合定期的小數(shù)據(jù)量的歷史數(shù)據(jù)分析。
[0090]第三方面,公共碼表的設(shè)計(jì)策略:
[0091]由于源數(shù)據(jù)來自不同系統(tǒng),PIF信息有所差異。為了以后分析、統(tǒng)計(jì)口徑保持一致與統(tǒng)一口徑不一致的系統(tǒng)數(shù)據(jù),需要在清洗時(shí)轉(zhuǎn)換進(jìn)入本模型。
[0092]第四方面,預(yù)聯(lián)接與冗余的設(shè)計(jì)策略:
[0093]概念層里用實(shí)體表達(dá)了“合約與客戶”、“合約與內(nèi)部當(dāng)事方”、“合約與合約”、“客戶與客戶”、“客戶與客戶”、“客戶與內(nèi)部當(dāng)事方”、“內(nèi)部當(dāng)事方與內(nèi)部當(dāng)事方”的關(guān)系。在邏輯層里,根據(jù)統(tǒng)計(jì)分析需求,我們直接在客戶、合約、OSF等實(shí)體里加入“機(jī)構(gòu)號”、“客戶號”等冗余字段,避免統(tǒng)計(jì)分析時(shí)進(jìn)行表聯(lián)接處理。在物理層中,將去掉“合約與客戶”、“合約與內(nèi)部當(dāng)事方”、“合約與合約”、“客戶與客戶”、“客戶與客戶”、“客戶與內(nèi)部當(dāng)事方”、“內(nèi)部當(dāng)事方與內(nèi)部當(dāng)事方”等實(shí)體。
[0094]第五方面,F(xiàn)CT層的設(shè)計(jì)原則及策略:
[0095]FCT層是數(shù)據(jù)應(yīng)用區(qū),針對具體應(yīng)用,將UDM的數(shù)據(jù)進(jìn)行計(jì)算、鏈接、聚合等處理,以達(dá)到前端報(bào)表工具方便使用的目的。FCT層分為事實(shí)表子層和指標(biāo)表子層:事實(shí)表子層是面向主題的、多維描述的業(yè)務(wù)事實(shí),事實(shí)通過UDM的原始數(shù)據(jù)聚集得到;指標(biāo)表子層是面向具體分析需求的、指標(biāo)描述的指標(biāo)項(xiàng),指標(biāo)項(xiàng)通過業(yè)務(wù)事實(shí)或原始UDM數(shù)據(jù)加工計(jì)算得至IJ。FCT層采用星型模型設(shè)計(jì)。
[0096]原則一、事實(shí)聚合表設(shè)計(jì)原則
[0097]設(shè)計(jì)事實(shí)聚合表之目的在于為計(jì)算指標(biāo)和固定報(bào)表。因而,需要以需求分析為依據(jù)進(jìn)行,具體地,將需求指標(biāo)項(xiàng)分解到各主題的事實(shí),根據(jù)對事實(shí)的粒度要求進(jìn)行維度設(shè)計(jì);根據(jù)對事實(shí)的業(yè)務(wù)范圍要求進(jìn)行事實(shí)表UDM源數(shù)據(jù)范圍設(shè)計(jì),最終得到事實(shí)表,其包括維度、事實(shí)及UDM源數(shù)據(jù)加工范圍。
[0098]原則二、事實(shí)基礎(chǔ)表設(shè)計(jì)原則
[0099]設(shè)計(jì)事實(shí)基礎(chǔ)表之目的在于為計(jì)算事實(shí)聚合表,避免事實(shí)聚合表重復(fù)掃描源UDM數(shù)據(jù)。因此,根據(jù)事實(shí)聚合表具體情況設(shè)計(jì)事實(shí)基礎(chǔ)表。
[0100]原則三、指標(biāo)表設(shè)計(jì)原則
[0101]設(shè)計(jì)指標(biāo)表之目的在于為前端工具計(jì)算固定報(bào)表,因而其原則在于根據(jù)接合前端工具的要求和固定報(bào)表的格式來設(shè)計(jì)指標(biāo)表。
[0102]以上實(shí)施例僅為本發(fā)明的示例性實(shí)施例,特別是本文的技術(shù)方案進(jìn)行各種處理時(shí)所采用的各種程序,均不用于限制本發(fā)明,本發(fā)明的保護(hù)范圍由權(quán)利要求書限定。本領(lǐng)域技術(shù)人員可以在本發(fā)明的實(shí)質(zhì)和保護(hù)范圍內(nèi),對本發(fā)明做出各種修改或等同替換,這種修改或等同替換也應(yīng)視為落在本發(fā)明的保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種海量數(shù)據(jù)加工的處理方法,其特征在于,包括以下步驟: 步驟S3:加載來自多個(gè)源業(yè)務(wù)系統(tǒng)的海量數(shù)據(jù); 步驟S5:對所加載的海量數(shù)據(jù)進(jìn)行映射; 步驟S7:根據(jù)報(bào)表工具的要求對映射后的海量數(shù)據(jù)進(jìn)行處理。
2.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,步驟S5進(jìn)一步包括: 步驟S51:根據(jù)所述源業(yè)務(wù)系統(tǒng)的業(yè)務(wù)對所加載的海量數(shù)據(jù)進(jìn)行建模; 步驟S52:對建模之后的海量數(shù)據(jù)進(jìn)行范式化。
3.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,步驟S7進(jìn)一步包括: 步驟S71:對映射后的海量數(shù)據(jù)進(jìn)行匯總; 步驟S72:對匯總后的海量數(shù)據(jù)進(jìn)行指標(biāo)加工。
4.根據(jù)權(quán)利要求3所述的處理方法,其特征在于,步驟S7進(jìn)一步包括:按照星型模型設(shè)計(jì)原則對映射后的海量數(shù)據(jù)進(jìn)行處理;所述星型模型設(shè)計(jì)原則包括: 事實(shí)聚合表設(shè)計(jì)原則,其用于計(jì)算指標(biāo)和固定報(bào)表; 事實(shí)基礎(chǔ)表設(shè)計(jì)原則,其用于計(jì)算事實(shí)聚合表; 指標(biāo)表設(shè)計(jì)原則,其用于根據(jù)接合前端工具的要求和固定報(bào)表的格式來設(shè)計(jì)指標(biāo)表。。
5.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,在步驟S3之前,所述方法包括: 步驟S2:根據(jù)預(yù)設(shè)規(guī)則對所述海量數(shù)據(jù)進(jìn)行清洗。
6.根據(jù)權(quán)利要求5所述的處理方法,其特征在于, 在步驟S2之前,所述方法還包括: 步驟S1:對從所述多個(gè)源業(yè)務(wù)系統(tǒng)中所分離出來的所述海量數(shù)據(jù)進(jìn)行集中; 則步驟S3進(jìn)一步包括:對集中后的海量數(shù)據(jù)進(jìn)行加載。
7.—種海量數(shù)據(jù)加工的處理系統(tǒng),其特征在于,采用如權(quán)利要求1中所述海量數(shù)據(jù)加工的處理方法,所述系統(tǒng)包括: ODS層,其配置為加載來自多個(gè)源業(yè)務(wù)系統(tǒng)的海量數(shù)據(jù)并存儲; UDM層,其配置為對所加截的海量數(shù)據(jù)進(jìn)行映射并存儲; 應(yīng)用層,其配置為根據(jù)報(bào)表工具的要求對映射后的海量數(shù)據(jù)進(jìn)行處理,并將處理后的數(shù)據(jù)體現(xiàn)到業(yè)務(wù)所需的報(bào)表中。
8.根據(jù)權(quán)利要求7所述的處理系統(tǒng),其特征在于,還包括: 數(shù)據(jù)清洗模塊,其配置為根據(jù)預(yù)設(shè)規(guī)則對所述海量數(shù)據(jù)進(jìn)行清洗。
9.根據(jù)權(quán)利要求8所述的處理系統(tǒng),其特征在于,還包括: 數(shù)據(jù)下傳平臺,其配置為集中從所述多個(gè)源業(yè)務(wù)系統(tǒng)中所分離出來的所述海量數(shù)據(jù); 則ODS層進(jìn)一步配置為對所述數(shù)據(jù)下傳平臺中集中后的海量數(shù)據(jù)進(jìn)行加載。
10.根據(jù)權(quán)利要求7所述的處理系統(tǒng),其特征在于,所述應(yīng)用層進(jìn)一步包括: 匯總模塊,其配置為對映射后的海量數(shù)據(jù)進(jìn)行匯總; 加工模塊,其配置為對匯總后的海量數(shù)據(jù)進(jìn)行指標(biāo)加工。
【文檔編號】G06F17/30GK104298779SQ201410613964
【公開日】2015年1月21日 申請日期:2014年11月4日 優(yōu)先權(quán)日:2014年11月4日
【發(fā)明者】王作為, 楊春明, 閆宏宇, 郭鑄 申請人:中國銀行股份有限公司