一種市場銷售分析數(shù)據(jù)集市系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及業(yè)務(wù)數(shù)據(jù)分析系統(tǒng),尤其涉及一種方便把業(yè)務(wù)數(shù)據(jù)迅速轉(zhuǎn)化成為對市場不斷優(yōu)化,提升對市場變化的響應(yīng)能力的銷售分析數(shù)據(jù)集市系統(tǒng)。
【背景技術(shù)】
[0002]目前,對企業(yè)中如何把業(yè)務(wù)數(shù)據(jù)迅速轉(zhuǎn)化成為對市場、對運營狀況的認知,從而輔助企業(yè)決策,不斷優(yōu)化決策管理流程,提升對市場變化的響應(yīng)能力,已經(jīng)成為銷售部門迫切需要解決的問題。因此需要利用數(shù)據(jù)集市建立完善的部門級數(shù)據(jù)平臺,整合現(xiàn)有的系統(tǒng)數(shù)據(jù)和外部數(shù)據(jù),及時有效地反映市場銷售的情況,為決策分析支持提供依據(jù)。
[0003]但是,市場銷售分析系統(tǒng)中主要存在以下幾方面的問題:
[0004]1、數(shù)據(jù)分散,數(shù)據(jù)交換過于復(fù)雜
[0005]目前在線運行的子系統(tǒng)有多個,其中大部分子系統(tǒng)軟硬件配置各不相同,普遍存在用于存放各自的管理數(shù)據(jù)和歷史數(shù)據(jù)的本地數(shù)據(jù)庫;并且源數(shù)據(jù)在各內(nèi)部系統(tǒng)間的交換過于復(fù)雜,期間還夾雜著和外部數(shù)據(jù)源進行的數(shù)據(jù)交換。
[0006]由于缺乏統(tǒng)一的數(shù)據(jù)交換平臺,數(shù)據(jù)零散缺乏系統(tǒng)管理,形成了錯綜復(fù)雜的數(shù)據(jù)交換鏈,一旦鏈條中某個環(huán)節(jié)出現(xiàn)問題,會導(dǎo)致部分系統(tǒng)受到影響,數(shù)據(jù)及時查詢也會隨之失效。此外數(shù)據(jù)在各系統(tǒng)間信息不能完全共享,使用中數(shù)據(jù)也未能實現(xiàn)閉環(huán)利用,造成各數(shù)據(jù)庫之間存在大量冗余數(shù)據(jù),數(shù)據(jù)的一致性差,數(shù)據(jù)量龐大而無序,嚴重影響了業(yè)務(wù)的協(xié)同開展,對銷售分析決策的準確性和時效性作用都十分有限。
[0007]為了在新的競爭條件下取得成功,業(yè)務(wù)部門必須在很大程度上依靠有關(guān)銷售信息和市場競爭信息的因素的統(tǒng)一并且及時的信息,例如:客戶采購、定單、產(chǎn)品信息、競爭程度及營銷效果等等。然而,僅僅擁有這些信息還不夠,業(yè)務(wù)部門還要把恰當(dāng)?shù)男畔⒔桓兜焦緝?nèi)部有關(guān)人員的手中。
[0008]2、報表是靜態(tài)的,查詢性能差異大
[0009]用戶無法通過交互方式探測報表中的數(shù)據(jù)以獲取更詳細的信息,例如他們可以處理Microsoft Office Excel透視表。雖然現(xiàn)有的一組預(yù)定義報表足以供許多用戶使用,但更高級的用戶卻需要對數(shù)據(jù)庫進行直接查詢訪問,以進行交互式查詢和訪問專用報表。但是,由于當(dāng)前的數(shù)據(jù)庫系統(tǒng)非常復(fù)雜,因此,這類用戶需要花費大量時間來掌握如何創(chuàng)建有效查詢。
[0010]用戶在對數(shù)據(jù)庫進行操作時,由于所涉及的業(yè)務(wù)數(shù)據(jù)量不一樣,就會導(dǎo)致有些查詢只需幾秒鐘便可非常迅速地返回結(jié)果,而另一些查詢需要幾分鐘才能返回結(jié)果。
[0011]3、聚合表難以管理、信息難以審核
[0012]在嘗試縮短查詢響應(yīng)時間方面,技術(shù)人員已在數(shù)據(jù)庫中生成幾種聚合表。例如,他們生成了一種按月匯總銷售額的表。然而,盡管這些聚合表可顯著提高查詢性能,但是,他們所生成的用于在一段時間內(nèi)維護這些表的基礎(chǔ)結(jié)構(gòu)卻容易破壞并出現(xiàn)錯誤。
[0013]業(yè)務(wù)部門主要把當(dāng)前數(shù)據(jù)庫當(dāng)作進行大容量查詢的數(shù)據(jù)源。然后,再將數(shù)據(jù)下載到單個電子表格中,并花費大量時間準備數(shù)據(jù)和處理電子表格。因此,很難在整個部門內(nèi)準備、審核和管理部門的銷售報表。
[0014]同時,業(yè)務(wù)用戶很難構(gòu)造一些專用查詢,以組合兩個相關(guān)的信息集(如銷售額和銷售配額)。此類查詢會占用大量的數(shù)據(jù)庫空間。此外,由于這些報表非常復(fù)雜,因此用戶不愿嘗試修改這些報表。
[0015]4、綜合分析能較弱
[0016]目前在現(xiàn)有的系統(tǒng)中,已經(jīng)基本實現(xiàn)了統(tǒng)計查詢的系統(tǒng)功能。使用統(tǒng)計查詢系統(tǒng),可為日常管理業(yè)務(wù)提供分析報表,以及一定程度的查詢功能。但目前的統(tǒng)計分析系統(tǒng)是基于聯(lián)機事務(wù)處理系統(tǒng)(OLTP)來設(shè)計,主要反映當(dāng)前低層次的小業(yè)務(wù)量的需求,這種設(shè)計方式無法為數(shù)據(jù)的合成、分析和綜合提供強大的功能支持,無法動態(tài)反映多個層面,多粒度的信息;但是,隨著銷售分析管理要求的提高,對統(tǒng)計和查詢的需求也不斷提高和發(fā)展。尤其是,更高層次的、帶有分析性質(zhì)的綜合查詢統(tǒng)計需求不斷被提出來。另一方面,對市場銷售的發(fā)展調(diào)整需要進行科學(xué)的預(yù)測分析。這些需求,以目前的系統(tǒng)架構(gòu),是無法滿足上述要求的。所以,建立合適數(shù)據(jù)架構(gòu)平臺、提高銷售管理綜合分析能力,是當(dāng)前銷售管理中十分緊迫的任務(wù)。
[0017]綜上所述,針對現(xiàn)有技術(shù)中存在的缺陷,特別需要一種市場銷售分析數(shù)據(jù)集市系統(tǒng),以解決現(xiàn)有技術(shù)的不足。
【發(fā)明內(nèi)容】
[0018]本發(fā)明的目的是提供一種市場銷售分析數(shù)據(jù)集市系統(tǒng),通過分析設(shè)計銷售數(shù)據(jù)集市的必要性,然后通過對數(shù)據(jù)集成方法的討論,分析ETL數(shù)據(jù)處理,包括噪聲數(shù)據(jù)處理、數(shù)據(jù)的一致性和數(shù)據(jù)質(zhì)量等問題,并通過數(shù)據(jù)遷移工具實現(xiàn)對各種數(shù)據(jù)源進行重新組織和加工,以解決現(xiàn)有技術(shù)的不足。
[0019]本發(fā)明為解決其技術(shù)問題所采用的技術(shù)方案是,
[0020]一種市場銷售分析數(shù)據(jù)集市系統(tǒng):
[0021]該系統(tǒng)模塊包括:數(shù)據(jù)接入層、數(shù)據(jù)抽取模塊、數(shù)據(jù)轉(zhuǎn)化模塊、數(shù)據(jù)清洗模塊、日志與警告發(fā)送模塊、數(shù)據(jù)加載模塊;
[0022]數(shù)據(jù)接入層的數(shù)據(jù)包括有辦公數(shù)據(jù)、外部數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù);
[0023]數(shù)據(jù)抽取模塊包含有存放DW的數(shù)據(jù)庫系統(tǒng)相同的數(shù)據(jù)源處理、Dff數(shù)據(jù)庫系統(tǒng)不同的數(shù)據(jù)源、增量更新;
[0024]數(shù)據(jù)轉(zhuǎn)換模塊中對數(shù)據(jù)進行不一致數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換、商務(wù)規(guī)則的計算;
[0025]數(shù)據(jù)清洗模塊包含有三大類:不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù);
[0026]日志與警告發(fā)送模塊記錄系統(tǒng)運行時的日志及向系統(tǒng)管理員發(fā)送警告;
[0027]數(shù)據(jù)加載模塊包含有數(shù)據(jù)準備單元、數(shù)據(jù)加載方式選擇單元、大批量數(shù)據(jù)加載單元;
[0028]該系統(tǒng)的模型包括數(shù)據(jù)邏輯模型和數(shù)據(jù)物理模型;
[0029]數(shù)據(jù)邏輯模型進行分析主題域、粒度層次劃分、確定數(shù)據(jù)分割策略、關(guān)系模式定義;
[0030]數(shù)據(jù)物理模型包含有存儲結(jié)構(gòu)單元、索引策略單元、存儲策略單元。
[0031]進一步,所述的數(shù)據(jù)接入層的數(shù)據(jù)包括有辦公數(shù)據(jù)主要是指市場銷售部門的辦公系統(tǒng)數(shù)據(jù),這些數(shù)據(jù)分電子數(shù)據(jù)和非電子數(shù)據(jù)兩種,以電子數(shù)據(jù)方式保存的數(shù)據(jù),主要指電子表格、數(shù)據(jù)庫和文字處理文檔等形式保存的數(shù)據(jù),非電子數(shù)據(jù)主要指那些文件、通知等公文,從數(shù)據(jù)的結(jié)構(gòu)形式看,辦公數(shù)據(jù)有的是以二維表格形式表示的結(jié)構(gòu)化數(shù)據(jù),有的是以文字文檔處理文件表示的結(jié)構(gòu)化數(shù)據(jù),因此辦公數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)是十分復(fù)雜的,這就給數(shù)據(jù)集市的數(shù)據(jù)抽取、加載增加了很大的難度,有時甚至需要人工處理以后,才能加載到數(shù)據(jù)集市中;
[0032]外部數(shù)據(jù)指那些不為市場銷售部門所操作、所擁有、所控制的數(shù)據(jù),這些數(shù)據(jù)有的電子形式的,如第三方信息服務(wù)商以Web Service方式XML數(shù)據(jù),有是非電子形式的,如分銷商提供的有關(guān)報告文檔等,這些數(shù)據(jù)源的使用難度與處理方式與辦公數(shù)據(jù)大致相同;
[0033]業(yè)務(wù)數(shù)據(jù)是指從目前正在運行的業(yè)務(wù)處理系統(tǒng)那里收集到,并保存到業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù),對業(yè)務(wù)數(shù)據(jù),需要分析哪些數(shù)據(jù)應(yīng)該加載到數(shù)據(jù)集市中。
[0034]進一步,所述的數(shù)據(jù)抽取模塊包含有存放DW的數(shù)據(jù)庫系統(tǒng)相同的數(shù)據(jù)源處理中這類數(shù)源在設(shè)計比較容易,DBMS(包括SQL Server, Oracle)都會提供數(shù)據(jù)庫鏈接功能,在DW數(shù)據(jù)庫服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)系就可以寫Select語句直接訪問;
[0035]DW數(shù)據(jù)庫系統(tǒng)不同的數(shù)據(jù)源這類數(shù)據(jù)源一般情況下也可以通過ODBC的方式建立數(shù)據(jù)庫鏈接,如Oracle和SQL Server之間,如果不能建立數(shù)據(jù)庫鏈接,可以有兩種方式完成,一種是通過工具將源數(shù)據(jù)導(dǎo)出成.txt或者是.xls文件,然后再將這些源系統(tǒng)文件導(dǎo)入到ODS中,另外一種方法通過程序接口來完成;
[0036]增量更新中對于數(shù)據(jù)量大的系統(tǒng),必須考慮增量抽取,一般情況,市場銷售業(yè)務(wù)系統(tǒng)會記錄業(yè)務(wù)發(fā)生的時間,可以用作增量的標志,每次抽取之前首先判斷ODS中記錄最大的時間,然后根據(jù)這個時間去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中取大于這個時間的所有記錄。
[0037]進一步,所述的數(shù)據(jù)轉(zhuǎn)換模塊:不一致數(shù)據(jù)轉(zhuǎn)換在市場銷售分析系統(tǒng)中,來自不同數(shù)據(jù)源的數(shù)據(jù)存在數(shù)據(jù)內(nèi)容不一致的情況,這就需要創(chuàng)建一個整合的過程,將不同業(yè)務(wù)系統(tǒng)的相同類型的數(shù)據(jù)統(tǒng)一;
[0038]數(shù)據(jù)粒度的轉(zhuǎn)換在業(yè)務(wù)系統(tǒng)一般存儲非常明細的數(shù)據(jù),而數(shù)據(jù)集市中的數(shù)據(jù)是用來分析的,不需要非常明細的數(shù)據(jù),一般情況下,會將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)集市粒度進行聚合;
[0039]商務(wù)規(guī)則的計算在市場銷售分析系統(tǒng)中存在著不同的業(yè)務(wù)規(guī)則,不同的數(shù)據(jù)指標,這些指標有的時候不是簡單的加減就能完成,這個時候需要在ETL過程中將這些數(shù)據(jù)指標計算好了之后存儲在數(shù)據(jù)集市中,供分析使用。
[0040]進一步,所述的數(shù)據(jù)清洗模塊中的不完整的數(shù)據(jù)是一些應(yīng)該有的信息缺失,如供應(yīng)商的名稱,分公司的名稱,客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細表不能匹配等,需要將這一類數(shù)據(jù)過濾出來,按缺失的內(nèi)容分別寫入不同Excel文件向客戶提交,要求在規(guī)定的時間內(nèi)補全,補全后再寫入到數(shù)據(jù)集市;
[0041]錯誤的數(shù)據(jù)的產(chǎn)生的原因主要是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數(shù)據(jù)庫造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有一個回車、日期格式不正確、日期越界,這一類數(shù)據(jù)也要分類,對于類似于全角字符、數(shù)據(jù)前后有不面見字符的問題可以通過寫SQL語句的方式找出來,然后要求客戶在業(yè)務(wù)系統(tǒng)修正之后抽??;日期格式不正確的或者是日期越界的這一類錯誤會導(dǎo)致ETL運行失敗,這一類錯誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫用SQL的方式挑出來,交給業(yè)務(wù)部門進行修正,修正之后再抽??;
[0042]重復(fù)的數(shù)據(jù)問題在維表中比較常見,將重復(fù)的數(shù)據(jù)的記錄所有字段導(dǎo)出來,然后讓業(yè)務(wù)部門確認并整理。
[0043]進一步,所述的日志與警告發(fā)送模塊中的日志包含有三類:
[0044]第一類是執(zhí)行過程日志,是在ETL執(zhí)行過程中每執(zhí)行一步的記錄,記錄每次運行每一步驟的起始時間,影響了多少行數(shù)據(jù),流水賬形式;
[0045]第二類是錯誤日志,當(dāng)某個模塊出錯的時候需要寫錯誤日志,記錄每次出錯的時間,出錯的模塊以及出錯的信息等;
[0046]第三類日志是總體日志,只記錄ETL開始時間,結(jié)束時間是否成功信息;
[0047]警告發(fā)送在ETL出錯后,不僅要寫ETL出錯日志而且要向系統(tǒng)管理員發(fā)送警告,發(fā)送警告的方式有多種,常用的就是給系統(tǒng)管理員發(fā)送郵件,并附上出錯的信息,方便管理員排查錯誤。
[0048]進一步,所述的數(shù)據(jù)加載模塊中:
[0049]數(shù)據(jù)準備單元:由于市場銷售分析數(shù)據(jù)集市的數(shù)據(jù)抽取、清洗、加載需要較長的時間,因此在對數(shù)據(jù)進行處理時要設(shè)置一個作為數(shù)據(jù)準備區(qū)的臨時數(shù)據(jù)庫,專門用于數(shù)據(jù)抽取、清洗和加載的操作,在數(shù)據(jù)準備區(qū)里可以設(shè)置數(shù)據(jù)抽取、清洗和加載的重新啟動機制,在數(shù)據(jù)的抽取、清洗和加載過程中,常常由于系統(tǒng)的原因或其它一些不可預(yù)知的因素導(dǎo)致這些活動失敗,如果失敗以后,重新開始將浪費系統(tǒng)的大量資源,為此,可以設(shè)置數(shù)據(jù)抽取、清洗和加載的