本發(fā)明涉及數(shù)據(jù)處理的技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)清洗、數(shù)據(jù)治理的數(shù)據(jù)管理方法、管理平臺(tái)。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)和通訊技術(shù)的飛速發(fā)展,人們可以獲得越來越多的數(shù)字化信息,但同時(shí)也需要投入更多的時(shí)間對(duì)數(shù)字化信息進(jìn)行組織和整理。例如在業(yè)務(wù)系統(tǒng)中,往往會(huì)因?yàn)檎Z(yǔ)言多樣化、數(shù)據(jù)格式多樣化、或數(shù)據(jù)組織形式的不同等因素而產(chǎn)生多樣、多形式的不標(biāo)準(zhǔn)數(shù)據(jù),例如訂單的付款時(shí)間可能采取dd:mm:yy,或者采取yyyy.mm.dd的形式,這些就是格式不統(tǒng)一的數(shù)據(jù)。在對(duì)數(shù)據(jù)做統(tǒng)計(jì)分析之前,需要將這些數(shù)據(jù)進(jìn)行治理或者將不標(biāo)準(zhǔn)的數(shù)據(jù)進(jìn)行清洗,以確保統(tǒng)計(jì)的準(zhǔn)確性。數(shù)據(jù)清洗是一個(gè)減少數(shù)據(jù)錯(cuò)誤和不一致性的過程,主要任務(wù)是檢測(cè)并刪除或改正將轉(zhuǎn)入數(shù)據(jù)庫(kù)的臟數(shù)據(jù)。
目前整個(gè)大數(shù)據(jù)環(huán)境對(duì)數(shù)據(jù)質(zhì)量的處理還沒有很成熟有效的工具的和平臺(tái)徹底解決該類問題,并且針對(duì)海量、不同語(yǔ)種、不同結(jié)構(gòu)數(shù)據(jù)的研究和處理更是缺乏相關(guān)的經(jīng)驗(yàn)和技術(shù)研究。
目前的數(shù)據(jù)清洗、數(shù)據(jù)治理以數(shù)據(jù)庫(kù)其本身的技術(shù)方法為主,以軟件工作為輔助來完成數(shù)據(jù)的清洗,而且清洗工具處理的數(shù)據(jù)覆蓋面較窄,主要針對(duì)各自業(yè)務(wù)的具體需求,解決一些具有專業(yè)性的業(yè)務(wù)需求?,F(xiàn)有的清洗技術(shù)目標(biāo)單一,不能有效解決多結(jié)構(gòu)、多類型數(shù)據(jù),技術(shù)應(yīng)用對(duì)硬件系統(tǒng)要求高、系統(tǒng)成本高,處理方式受到數(shù)據(jù)庫(kù)本身及機(jī)器的限制,而且不能對(duì)多類型數(shù)據(jù)做出規(guī)范化,處理方式單一不能高效、便捷的處理。
在這種背景下,借助于信息系統(tǒng)國(guó)產(chǎn)化的發(fā)展趨勢(shì),需要提出一種能夠在管理數(shù)據(jù)的過程中實(shí)現(xiàn)高效、通用的數(shù)據(jù)治理方法,實(shí)現(xiàn)數(shù)據(jù)治理過程人力成本降低,時(shí)間投入少,降低項(xiàng)目風(fēng)險(xiǎn)。
技術(shù)實(shí)現(xiàn)要素:
為解決如上的技術(shù)問題,本發(fā)明提出了一種分布式多線程數(shù)據(jù)清洗方法與清洗系統(tǒng),本方法與系統(tǒng)主要針對(duì)世界上多元、異構(gòu)、多語(yǔ)種的數(shù)據(jù)進(jìn)行規(guī)范化治理,通過采用b/s架構(gòu)設(shè)計(jì),通過網(wǎng)頁(yè)完成數(shù)據(jù)資源管理、治理工作的配置,后端通過二次開發(fā)建設(shè)分布式數(shù)據(jù)清洗治理程序,前端配置與后端程序架構(gòu)結(jié)合,自動(dòng)化完成數(shù)據(jù)的規(guī)范化清洗和治理工作。網(wǎng)頁(yè)架構(gòu)多用戶的模式便于人機(jī)交互,后端的多線程、分布式技術(shù)高效快捷完成清洗工作,對(duì)清洗技術(shù)的開發(fā)更具備包容性,對(duì)世界多個(gè)地區(qū),多類語(yǔ)言完成數(shù)據(jù)的清洗工作。同時(shí)提供數(shù)據(jù)任務(wù)可視化監(jiān)控,便于對(duì)數(shù)據(jù)生命周期的管理和運(yùn)用。
本發(fā)明所公開的清洗平臺(tái)系統(tǒng)實(shí)施在瀏覽器/服務(wù)器架構(gòu)中,通過建立分布式環(huán)境的形式來構(gòu)建協(xié)同清理系統(tǒng),能夠?qū)崿F(xiàn)多端多線程共同數(shù)據(jù)治理,并且增強(qiáng)清洗方法的適應(yīng)性。
更具體而言,本發(fā)明提出了一種基于b/s架構(gòu)的分布式數(shù)據(jù)治理平臺(tái),其包括至少一個(gè)承載有瀏覽器的客戶終端與至少一個(gè)服務(wù)器端,其中服務(wù)器端包括有用戶管理模塊、數(shù)據(jù)存儲(chǔ)模塊、數(shù)據(jù)標(biāo)準(zhǔn)與標(biāo)簽標(biāo)準(zhǔn)體系模塊、規(guī)則存儲(chǔ)模塊、規(guī)則配置模塊以及數(shù)據(jù)處理模塊;
其中,用戶管理模塊用于對(duì)用戶進(jìn)行身份驗(yàn)證,分配用戶角色,用戶角色包括數(shù)據(jù)清洗用戶、規(guī)則配置用戶、普通查看用戶;
其中,數(shù)據(jù)存儲(chǔ)模塊用于存儲(chǔ)原始的數(shù)據(jù)文件,其采用關(guān)系型數(shù)據(jù)庫(kù)來存儲(chǔ)數(shù)據(jù);
其中,數(shù)據(jù)標(biāo)準(zhǔn)與標(biāo)簽標(biāo)準(zhǔn)體系模塊用于保存標(biāo)準(zhǔn)的數(shù)據(jù)定義、數(shù)據(jù)格式等信息,通過標(biāo)簽體系來構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)形式,且建立不同數(shù)據(jù)格式之間的轉(zhuǎn)換關(guān)系;
其中,規(guī)則存儲(chǔ)模塊用于存儲(chǔ)經(jīng)過用戶設(shè)置的數(shù)據(jù)清洗規(guī)則;
其中,規(guī)則配置模塊用于設(shè)置數(shù)據(jù)清洗規(guī)則;
其中,數(shù)據(jù)處理模塊包括結(jié)構(gòu)化數(shù)據(jù)清洗單元、非結(jié)構(gòu)數(shù)據(jù)清洗單元,分別用于實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的清洗以及非結(jié)構(gòu)化數(shù)據(jù)的清洗;數(shù)據(jù)處理模塊對(duì)外提供統(tǒng)一的平臺(tái)接口,對(duì)于多樣化、異構(gòu)數(shù)據(jù)以及多種處理規(guī)則,采用一站式平臺(tái)實(shí)現(xiàn)數(shù)據(jù)清洗;
較佳地,該平臺(tái)的數(shù)據(jù)處理模塊可以通過分布式以及多線程的形式進(jìn)行數(shù)據(jù)處理,將數(shù)據(jù)處理工作任務(wù)按照分布式系統(tǒng)的節(jié)點(diǎn)進(jìn)行任務(wù)劃分,且每個(gè)服務(wù)器端可以通過開啟多線程的形式來處理多個(gè)數(shù)據(jù)清洗任務(wù);
較佳地,分布式處理過程中,通過自組織的形式建立分布式網(wǎng)絡(luò)的集群,集群內(nèi)部通過主節(jié)點(diǎn)將數(shù)據(jù)清洗任務(wù)進(jìn)行劃分與分配,并將數(shù)據(jù)清洗任務(wù)分配到各從節(jié)點(diǎn)上,從節(jié)點(diǎn)視其所需運(yùn)行的數(shù)據(jù)清洗任務(wù)選擇開啟多線程進(jìn)行執(zhí)行;
較佳地,該平臺(tái)的數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)標(biāo)簽體系模塊基于文本的形式來保存國(guó)際通用型數(shù)據(jù)標(biāo)準(zhǔn),并將該標(biāo)準(zhǔn)通過該文本的形式嵌入在本平臺(tái)中;
較佳地,其中的數(shù)據(jù)標(biāo)準(zhǔn)包含結(jié)構(gòu)規(guī)范及內(nèi)容規(guī)范,結(jié)構(gòu)規(guī)范用于規(guī)范數(shù)據(jù)的結(jié)構(gòu)名稱和類型,內(nèi)容規(guī)范是用于規(guī)范數(shù)據(jù)實(shí)際值的規(guī)則,該規(guī)則依據(jù)數(shù)據(jù)實(shí)際的國(guó)際標(biāo)準(zhǔn)制定;在清洗規(guī)則中嵌入這兩類規(guī)范,其中結(jié)構(gòu)規(guī)范以結(jié)構(gòu)制定統(tǒng)一的名稱和類型,內(nèi)容規(guī)范則基于對(duì)國(guó)際各類數(shù)據(jù)的分析研究形成的具備各國(guó)各地區(qū)數(shù)據(jù)規(guī)范及特點(diǎn)的標(biāo)準(zhǔn)。
較佳地,該平臺(tái)中用戶可以通過客戶終端來瀏覽服務(wù)器端所存儲(chǔ)的數(shù)據(jù),并可建立數(shù)據(jù)視圖,用戶可以對(duì)數(shù)據(jù)存儲(chǔ)模塊所保存的數(shù)據(jù)庫(kù)表進(jìn)行瀏覽,并選定所要清洗的數(shù)據(jù)以及對(duì)應(yīng)的處理規(guī)則,通過數(shù)據(jù)處理模塊按照用戶所選定的數(shù)據(jù)類型以及規(guī)則類型進(jìn)行數(shù)據(jù)清洗任務(wù)。
從如上可以看出,該數(shù)據(jù)治理平臺(tái)采用分布式處理架構(gòu),通過多線程、分布式完成平臺(tái)所配置數(shù)據(jù)的清洗標(biāo)準(zhǔn)。系統(tǒng)可對(duì)多語(yǔ)種、多類型數(shù)據(jù)進(jìn)行治理完成規(guī)范統(tǒng)一的需求。系統(tǒng)針對(duì)多元異構(gòu)數(shù)據(jù),通過一站式平臺(tái)操作,后臺(tái)分布式完成結(jié)構(gòu)化數(shù)據(jù)清洗規(guī)范。制定一整套數(shù)據(jù)標(biāo)準(zhǔn)和依據(jù)標(biāo)準(zhǔn)完成整個(gè)數(shù)據(jù)規(guī)范處理的技術(shù)方案,該標(biāo)準(zhǔn)對(duì)數(shù)據(jù)行業(yè)的規(guī)范化都具有重要意義,技術(shù)的處理手段和方案有效的推動(dòng)整個(gè)行業(yè)的數(shù)據(jù)工作。
另一方面,本發(fā)明的實(shí)施例提供一種基于如上b/s架構(gòu)的分布式數(shù)據(jù)治理平臺(tái)的數(shù)據(jù)清洗方法,該方法可實(shí)施于如上所述的平臺(tái),包括如下步驟:
步驟1,用戶在客戶終端進(jìn)行登錄,服務(wù)器端對(duì)用戶身份進(jìn)行認(rèn)證,同時(shí)獲取用戶角色信息,并對(duì)該用戶的角色信息進(jìn)行驗(yàn)證,隨后為相應(yīng)的角色開啟對(duì)應(yīng)的功能;
步驟2,用戶通過客戶終端執(zhí)行包括查看功能、配置功能、導(dǎo)入功能以及數(shù)據(jù)清洗功能其中至少之一;
步驟3,服務(wù)器端響應(yīng)于用戶的功能請(qǐng)求,通過服務(wù)器端的各個(gè)功能模塊來對(duì)應(yīng)地執(zhí)行功能;
步驟4,服務(wù)器端執(zhí)行完對(duì)應(yīng)的功能后,將結(jié)果返回給客戶終端。
較佳地,當(dāng)步驟2中用戶在客戶終端選擇執(zhí)行查看功能時(shí),該方法還包括:步驟21,當(dāng)用戶選擇查看原始數(shù)據(jù)、選擇查看清洗后數(shù)據(jù)時(shí),服務(wù)器端通過數(shù)據(jù)存儲(chǔ)模塊來篩選出對(duì)應(yīng)的數(shù)據(jù)進(jìn)行展示;當(dāng)用戶選擇查看清洗規(guī)則、選擇查看數(shù)據(jù)標(biāo)準(zhǔn)與標(biāo)簽標(biāo)準(zhǔn)時(shí),服務(wù)器端通過規(guī)則存儲(chǔ)模塊以及數(shù)據(jù)標(biāo)準(zhǔn)與標(biāo)簽標(biāo)準(zhǔn)體系模塊獲取對(duì)應(yīng)的信息進(jìn)行展示;
較佳地,當(dāng)步驟2中用戶在客戶終端選擇執(zhí)行配置功能時(shí),該方法還包括:步驟22,用戶在客戶端終端進(jìn)行數(shù)據(jù)清洗規(guī)則的配置,通過平臺(tái)所內(nèi)嵌的數(shù)據(jù)標(biāo)準(zhǔn)以及標(biāo)簽標(biāo)準(zhǔn),創(chuàng)建用戶所需的對(duì)數(shù)據(jù)進(jìn)行清洗的規(guī)則,規(guī)則配置模塊將用戶所配置的規(guī)則以計(jì)算機(jī)所能夠識(shí)別的形式保存在規(guī)則存儲(chǔ)模塊中;
較佳地,當(dāng)步驟2中用戶在客戶終端選擇執(zhí)行導(dǎo)入導(dǎo)出功能時(shí),該方法還包括:步驟23,當(dāng)用戶選擇導(dǎo)入原始數(shù)據(jù)或者導(dǎo)出清洗后的數(shù)據(jù)時(shí),通過平臺(tái)的數(shù)據(jù)存儲(chǔ)模塊實(shí)現(xiàn)該數(shù)據(jù)的導(dǎo)入與導(dǎo)出;
較佳地,當(dāng)步驟2中用戶在客戶終端選擇執(zhí)行數(shù)據(jù)清洗功能時(shí),該方法還包括:步驟24,用戶在客戶終端的瀏覽器中選擇待清洗的原始數(shù)據(jù),選擇數(shù)據(jù)表或者數(shù)據(jù)表中的某列,選擇進(jìn)行處理的清洗規(guī)則,提交給服務(wù)器進(jìn)行處理,服務(wù)器首先對(duì)該待清洗數(shù)據(jù)以及選擇的清洗規(guī)則進(jìn)行初步匹配驗(yàn)證,當(dāng)匹配通過后再交由數(shù)據(jù)處理模塊實(shí)現(xiàn)數(shù)據(jù)清洗;
較佳地,步驟24中,待匹配通過后,服務(wù)器端會(huì)通過建立自組織的處理集群,通過分布式的形式進(jìn)行數(shù)據(jù)清洗,集群包括了一個(gè)主節(jié)點(diǎn)以及多個(gè)從節(jié)點(diǎn),主節(jié)點(diǎn)負(fù)責(zé)接收并分解該清洗任務(wù),將清洗任務(wù)進(jìn)行合理劃分,并將其分配給各個(gè)從節(jié)點(diǎn)進(jìn)行處理,從節(jié)點(diǎn)處理完畢后反饋結(jié)果給主節(jié)點(diǎn),由主節(jié)點(diǎn)將處理任務(wù)進(jìn)行整合并反饋給客戶終端。
由以上可知,本發(fā)明公開了數(shù)據(jù)治理平臺(tái)以及基于該治理平臺(tái)的數(shù)據(jù)清洗方法,其主要關(guān)鍵點(diǎn)是兼容以及一站化服務(wù)。具有如下的技術(shù)效果:本發(fā)明平臺(tái)改進(jìn)了現(xiàn)有的數(shù)據(jù)清洗技術(shù),是專門為數(shù)據(jù)治理工作開發(fā),適用于多種技術(shù)領(lǐng)域、多種應(yīng)用場(chǎng)合的需求。
具有,核心優(yōu)勢(shì)一:兼容性強(qiáng)、應(yīng)用范圍廣。能夠由用戶自行設(shè)置清洗規(guī)則,且系統(tǒng)平臺(tái)內(nèi)置有數(shù)據(jù)標(biāo)準(zhǔn)以及數(shù)據(jù)標(biāo)簽,用戶可以在該標(biāo)準(zhǔn)與標(biāo)簽的體系基礎(chǔ)上,自行設(shè)置滿足其需求的數(shù)據(jù)清洗規(guī)則;能夠針對(duì)多類型、多語(yǔ)種、多形式的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗以及數(shù)據(jù)形式的轉(zhuǎn)換。
核心優(yōu)勢(shì)二:可視化的界面操作更加人性化。通過采用b/s架構(gòu),能夠由用戶在客戶終端通過可視化的窗口界面實(shí)現(xiàn)數(shù)據(jù)的導(dǎo)入導(dǎo)出,規(guī)則的查看與配置,以及數(shù)據(jù)清洗的結(jié)構(gòu)反饋,用戶由傳統(tǒng)的“看不見”跨越到“看得清”、“看得準(zhǔn)”。
核心優(yōu)勢(shì)三:數(shù)據(jù)清洗更加高效。分布式架構(gòu)以及多線程的任務(wù)處理使得數(shù)據(jù)清洗過程更加高效,相比于傳統(tǒng)的單節(jié)點(diǎn)或單線程的處理,能夠針對(duì)海量數(shù)據(jù)的超級(jí)任務(wù)進(jìn)行分解與劃分,通過統(tǒng)籌與合理規(guī)劃安排,能夠?qū)⑶逑慈蝿?wù)從耗時(shí)長(zhǎng)無法忍受而轉(zhuǎn)變?yōu)楦咝瓿桑瑸槎囝I(lǐng)域的多種業(yè)務(wù)需求提供了保障。
附圖說明
圖1是本發(fā)明實(shí)施例的數(shù)據(jù)治理平臺(tái)的示意圖;
圖2是本發(fā)明實(shí)施例中數(shù)據(jù)清洗流程的示意圖;
具體實(shí)施例
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
參見圖1,本發(fā)明提供一種基于b/s架構(gòu)的分布式數(shù)據(jù)治理平臺(tái),如圖1所示,該平臺(tái)包括:至少一個(gè)承載有瀏覽器的客戶終端10與至少一個(gè)服務(wù)器端20,客戶終端10優(yōu)選地與服務(wù)器端20通過互聯(lián)網(wǎng)進(jìn)行連接,其中服務(wù)器端20包括有用戶管理模塊201、數(shù)據(jù)存儲(chǔ)模塊202、數(shù)據(jù)標(biāo)準(zhǔn)與標(biāo)簽標(biāo)準(zhǔn)體系模塊203、規(guī)則存儲(chǔ)模塊204、規(guī)則配置模塊205以及數(shù)據(jù)處理模塊205;
其中,用戶管理模塊201用于對(duì)用戶進(jìn)行身份驗(yàn)證,分配用戶角色,用戶角色包括數(shù)據(jù)清洗用戶、規(guī)則配置用戶、普通查看用戶;
其中,用戶的身份認(rèn)證可以采取傳統(tǒng)的用戶名以及用戶密碼的形式,也可以采用指紋等技術(shù)進(jìn)行登錄認(rèn)證;
其中,用戶的角色按照其所具備的功能進(jìn)行劃分,可以劃分為三個(gè)等級(jí)或更多,例如清洗用戶可以執(zhí)行數(shù)據(jù)清洗功能,規(guī)則配置用戶可以執(zhí)行規(guī)則設(shè)置,而普通查看用戶則僅具有查看原始數(shù)據(jù)、清洗后數(shù)據(jù)以及數(shù)據(jù)清洗規(guī)則的權(quán)限,本平臺(tái)可以視用戶的功能需求或者其他等因素而為其分配角色。并且,服務(wù)器端在用戶認(rèn)證通過后,對(duì)用戶的角色進(jìn)行驗(yàn)證,并開啟對(duì)應(yīng)于該角色用戶的功能。
其中,數(shù)據(jù)存儲(chǔ)模塊202用于存儲(chǔ)原始的數(shù)據(jù)文件。由于本發(fā)明的系統(tǒng)與方法可以針對(duì)多類型多語(yǔ)種數(shù)據(jù)進(jìn)行清洗操作,因此,其可以針對(duì)結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)存儲(chǔ)模塊中可以將這些原始的數(shù)據(jù)采取對(duì)應(yīng)的存儲(chǔ)方法進(jìn)行保存。
其中,數(shù)據(jù)標(biāo)準(zhǔn)與標(biāo)簽標(biāo)準(zhǔn)體系模塊203用于保存標(biāo)準(zhǔn)的數(shù)據(jù)定義、數(shù)據(jù)格式等信息,通過標(biāo)簽標(biāo)準(zhǔn)體系來構(gòu)建標(biāo)準(zhǔn)的數(shù)據(jù)形式,且建立不同數(shù)據(jù)格式之間的轉(zhuǎn)換關(guān)系;
其中,規(guī)則存儲(chǔ)模塊204用于存儲(chǔ)經(jīng)過用戶設(shè)置的數(shù)據(jù)清洗規(guī)則;數(shù)據(jù)清洗規(guī)則可以按照條件語(yǔ)句、換算關(guān)系或者映射關(guān)系等形式進(jìn)行保存,每條規(guī)則包括有規(guī)則編號(hào)、規(guī)則描述、創(chuàng)建者、創(chuàng)建日期、規(guī)則體這些信息,其中的規(guī)則體視所需要清洗或標(biāo)準(zhǔn)化的數(shù)據(jù)類型而有所不同,規(guī)則體可以是腳本的形式,或者程序功能塊,通過該規(guī)則體能夠?qū)⒋逑磾?shù)據(jù)進(jìn)行規(guī)范化。
其中,規(guī)則配置模塊205用于設(shè)置數(shù)據(jù)清洗規(guī)則;用戶可以在客戶終端的瀏覽器界面上進(jìn)行規(guī)則的設(shè)置,基于數(shù)據(jù)標(biāo)準(zhǔn)與標(biāo)簽標(biāo)準(zhǔn)用戶可以按照其自身的業(yè)務(wù)需求,而針對(duì)性地設(shè)置某類型數(shù)據(jù)的清洗規(guī)則,例如將陽(yáng)歷格式的用戶的生日信息映射出陰歷格式的生日信息,通過該設(shè)置,規(guī)則配置模塊即可自動(dòng)地產(chǎn)生一條規(guī)則,該條規(guī)則中的核心部分規(guī)則體由系統(tǒng)按照用戶的功能需求自動(dòng)產(chǎn)生并存儲(chǔ),如上所舉例,該模塊將會(huì)自動(dòng)依照萬年歷的映射關(guān)系將陽(yáng)歷日期映射到陰歷日期。
其中,數(shù)據(jù)處理模塊206包括結(jié)構(gòu)化數(shù)據(jù)清洗單元2061、非結(jié)構(gòu)數(shù)據(jù)清洗單元2062分別用于實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的清洗以及非結(jié)構(gòu)化數(shù)據(jù)的清洗;數(shù)據(jù)處理模塊206對(duì)外提供統(tǒng)一的平臺(tái)接口,對(duì)于多樣化、異構(gòu)數(shù)據(jù)以及多種處理規(guī)則,采用一站式平臺(tái)實(shí)現(xiàn)數(shù)據(jù)清洗;
較佳地,該平臺(tái)的數(shù)據(jù)處理模塊206可以通過分布式以及多線程的形式進(jìn)行數(shù)據(jù)處理,將數(shù)據(jù)處理工作任務(wù)按照分布式系統(tǒng)的節(jié)點(diǎn)進(jìn)行任務(wù)劃分,且每個(gè)服務(wù)器端可以通過開啟多線程的形式來處理多個(gè)數(shù)據(jù)清洗任務(wù);
較佳地,分布式處理過程中,通過自組織的形式建立分布式網(wǎng)絡(luò)的集群,集群內(nèi)部通過主節(jié)點(diǎn)將數(shù)據(jù)清洗任務(wù)進(jìn)行劃分與分配,并將數(shù)據(jù)清洗任務(wù)分配到各從節(jié)點(diǎn)上,從節(jié)點(diǎn)視其所需運(yùn)行的數(shù)據(jù)清洗任務(wù)選擇開啟多線程進(jìn)行執(zhí)行;
分布式處理技術(shù)作為信息處理技術(shù)領(lǐng)域中的新興技術(shù),在海量數(shù)據(jù)處理中表現(xiàn)的尤為突出,而數(shù)據(jù)清洗通常所需要面對(duì)的就是大數(shù)據(jù)、海量數(shù)據(jù),數(shù)據(jù)處理的量大,且處理的規(guī)則也較為范圍,傳統(tǒng)的數(shù)據(jù)清洗技術(shù)無論是采用了單節(jié)點(diǎn)還是單線程,在面對(duì)如此巨大的任務(wù)時(shí)表現(xiàn)的就有些差強(qiáng)人意。本發(fā)明的平臺(tái)采用了b/s架構(gòu),后端的服務(wù)器通過組織成為集群,形成一個(gè)分布式的網(wǎng)絡(luò),網(wǎng)絡(luò)中劃分節(jié)點(diǎn)的角色共同完成數(shù)據(jù)處理的任務(wù),并反饋給用戶終端,其中分布式網(wǎng)絡(luò)的組建可以采用本領(lǐng)域中的成熟技術(shù),在此不做限定,由于本發(fā)明中提出分布式的方法用于數(shù)據(jù)清洗,因此能夠在面對(duì)海量數(shù)據(jù)的情況下表現(xiàn)的較為優(yōu)良;更進(jìn)一步地,本發(fā)明的各個(gè)服務(wù)器端在進(jìn)行數(shù)據(jù)處理時(shí),能夠通過開啟多線程,這在服務(wù)器端需要處理多種多個(gè)數(shù)據(jù)清洗任務(wù)時(shí)顯得尤為重要,相比于單線程的處理方法,本發(fā)明中的服務(wù)器端能夠及時(shí)地相應(yīng)用戶的處理請(qǐng)求,并可在多個(gè)分布式集群中分別負(fù)責(zé)不同的數(shù)據(jù)處理任務(wù)。
較佳地,該平臺(tái)的數(shù)據(jù)標(biāo)準(zhǔn)與標(biāo)簽標(biāo)準(zhǔn)體系模塊203基于文本的形式來保存國(guó)際通用型數(shù)據(jù)標(biāo)準(zhǔn),并將該標(biāo)準(zhǔn)通過該文本的形式嵌入在本平臺(tái)中。其中數(shù)據(jù)標(biāo)準(zhǔn)體系包括了如數(shù)據(jù)命名標(biāo)準(zhǔn),微數(shù)據(jù)提供統(tǒng)一化的數(shù)據(jù)命名標(biāo)準(zhǔn)。其中的數(shù)據(jù)標(biāo)簽體系包括了例如為數(shù)據(jù)分類、分析提供支撐。
更進(jìn)一步而言,本發(fā)明中的數(shù)據(jù)標(biāo)準(zhǔn)包含結(jié)構(gòu)規(guī)范及內(nèi)容規(guī)范,結(jié)構(gòu)規(guī)范規(guī)范數(shù)據(jù)的結(jié)構(gòu)名稱和類型等,內(nèi)容規(guī)范是用于規(guī)范數(shù)據(jù)實(shí)際值的規(guī)則,該規(guī)則依據(jù)數(shù)據(jù)實(shí)際的國(guó)際標(biāo)準(zhǔn)制定,清洗規(guī)則中嵌入類這兩類規(guī)范,其中結(jié)構(gòu)規(guī)范以結(jié)構(gòu)制定統(tǒng)一的名稱和類型,如姓名統(tǒng)一為name。而內(nèi)容規(guī)范則基于對(duì)國(guó)際各類數(shù)據(jù)的分析研究形成的具備各國(guó)各地區(qū)數(shù)據(jù)規(guī)范及特點(diǎn)的標(biāo)準(zhǔn),如美國(guó)座機(jī)、手機(jī)的電話格式一致相似,中國(guó)則分為手機(jī)及座機(jī)兩種格式,選區(qū)不同格式則以不同清洗規(guī)則處理。遂該標(biāo)準(zhǔn)研究制定具有國(guó)際標(biāo)準(zhǔn)化規(guī)則。
較佳地,該平臺(tái)中用戶可以通過客戶終端來瀏覽服務(wù)器端所存儲(chǔ)的數(shù)據(jù),并可建立數(shù)據(jù)視圖,用戶可以對(duì)數(shù)據(jù)存儲(chǔ)模塊202所保存的數(shù)據(jù)庫(kù)表進(jìn)行瀏覽,并選定所要清洗的數(shù)據(jù)以及對(duì)應(yīng)的處理規(guī)則,通過數(shù)據(jù)處理模塊206按照用戶所選定的數(shù)據(jù)類型以及規(guī)則類型進(jìn)行數(shù)據(jù)清洗任務(wù)。
從如上可以看出,該數(shù)據(jù)治理平臺(tái)采用分布式處理架構(gòu),通過多線程、分布式完成平臺(tái)所配置數(shù)據(jù)的清洗標(biāo)準(zhǔn)。系統(tǒng)可對(duì)多語(yǔ)種、多類型數(shù)據(jù)進(jìn)行治理完成規(guī)范統(tǒng)一的需求。
另一方面,本發(fā)明的實(shí)施例提供一種基于如上b/s架構(gòu)的分布式數(shù)據(jù)治理平臺(tái)的數(shù)據(jù)清洗方法,該方法可實(shí)施于如上所述的平臺(tái),如圖2所示,其包括如下步驟:
步驟101,用戶在客戶終端進(jìn)行登錄,服務(wù)器端對(duì)用戶身份進(jìn)行認(rèn)證,同時(shí)獲取用戶角色信息,并對(duì)該用戶的角色信息進(jìn)行驗(yàn)證,隨后為相應(yīng)的角色開啟對(duì)應(yīng)的功能;
步驟102,用戶通過客戶終端執(zhí)行包括查看功能、配置功能、導(dǎo)入功能以及數(shù)據(jù)清洗功能其中至少之一;
步驟103,服務(wù)器端響應(yīng)于用戶的功能請(qǐng)求,通過服務(wù)器端的各個(gè)功能模塊來對(duì)應(yīng)地執(zhí)行功能;
步驟104,服務(wù)器端執(zhí)行完對(duì)應(yīng)的功能后,將結(jié)果返回給客戶終端。
較佳地,當(dāng)步驟102中用戶在客戶終端選擇執(zhí)行查看功能時(shí),該方法還包括:步驟1021,當(dāng)用戶選擇查看原始數(shù)據(jù)、選擇查看清洗后數(shù)據(jù)時(shí),服務(wù)器端通過數(shù)據(jù)存儲(chǔ)模塊來篩選出對(duì)應(yīng)的數(shù)據(jù)進(jìn)行展示;當(dāng)用戶選擇查看清洗規(guī)則、選擇查看數(shù)據(jù)標(biāo)準(zhǔn)與標(biāo)簽標(biāo)準(zhǔn)時(shí),服務(wù)器端通過規(guī)則存儲(chǔ)模塊以及數(shù)據(jù)標(biāo)準(zhǔn)與標(biāo)簽標(biāo)準(zhǔn)體系模塊獲取對(duì)應(yīng)的信息進(jìn)行展示;
較佳地,當(dāng)步驟102中用戶在客戶終端選擇執(zhí)行配置功能時(shí),該方法還包括:步驟1022,用戶在客戶端終端進(jìn)行數(shù)據(jù)清洗規(guī)則的配置,通過平臺(tái)所內(nèi)嵌的數(shù)據(jù)標(biāo)準(zhǔn)以及標(biāo)簽標(biāo)準(zhǔn),創(chuàng)建用戶所需的對(duì)數(shù)據(jù)進(jìn)行清洗的規(guī)則,規(guī)則配置模塊將用戶所配置的規(guī)則以計(jì)算機(jī)所能夠識(shí)別的形式保存在規(guī)則存儲(chǔ)模塊中;
較佳地,當(dāng)步驟102中用戶在客戶終端選擇執(zhí)行導(dǎo)入導(dǎo)出功能時(shí),該方法還包括:步驟1023,當(dāng)用戶選擇導(dǎo)入原始數(shù)據(jù)或者導(dǎo)出清洗后的數(shù)據(jù)時(shí),通過平臺(tái)的數(shù)據(jù)存儲(chǔ)模塊實(shí)現(xiàn)該數(shù)據(jù)的導(dǎo)入與導(dǎo)出;
較佳地,當(dāng)步驟102中用戶在客戶終端選擇執(zhí)行數(shù)據(jù)清洗功能時(shí),該方法還包括:步驟1024,用戶在客戶終端的瀏覽器中選擇待清洗的原始數(shù)據(jù),選擇數(shù)據(jù)表或者數(shù)據(jù)表中的某列,選擇進(jìn)行處理的清洗規(guī)則,提交給服務(wù)器進(jìn)行處理,服務(wù)器首先對(duì)該待清洗數(shù)據(jù)以及選擇的清洗規(guī)則進(jìn)行初步匹配驗(yàn)證,當(dāng)匹配通過后再交由數(shù)據(jù)處理模塊實(shí)現(xiàn)數(shù)據(jù)清洗;
較佳地,步驟1024中,待匹配通過后,服務(wù)器端會(huì)通過建立自組織的處理集群,通過分布式的形式進(jìn)行數(shù)據(jù)清洗,集群包括了一個(gè)主節(jié)點(diǎn)以及多個(gè)從節(jié)點(diǎn),主節(jié)點(diǎn)負(fù)責(zé)接收并分解該清洗任務(wù),將清洗任務(wù)進(jìn)行合理劃分,并將其分配給各個(gè)從節(jié)點(diǎn)進(jìn)行處理,從節(jié)點(diǎn)處理完畢后反饋結(jié)果給主節(jié)點(diǎn),由主節(jié)點(diǎn)將處理任務(wù)進(jìn)行整合并反饋給客戶終端。
為更清晰地介紹本發(fā)明的技術(shù)方案,可采用如下更具體的實(shí)施例,首先建立分布式集群,該集群中包括三臺(tái)及以上linux搭建研發(fā)的kettel處理工具,工具以平臺(tái)生成配置文件為依據(jù),對(duì)數(shù)據(jù)進(jìn)行處理;服務(wù)端接受配置,并解析,將解析文件傳遞與kettel搭建linux分布集群處理配置,并實(shí)時(shí)反饋執(zhí)行情況,在平臺(tái)登記執(zhí)行效果。
以國(guó)內(nèi)數(shù)據(jù)為例,對(duì)國(guó)內(nèi)手機(jī)號(hào)、電話、郵箱、身份證號(hào)、地址、郵編等各種具有特點(diǎn)的數(shù)據(jù)進(jìn)行處理,將多種結(jié)構(gòu)的數(shù)據(jù)轉(zhuǎn)換成國(guó)際標(biāo)準(zhǔn)數(shù)據(jù)。例:具有兩類數(shù)據(jù),快遞數(shù)據(jù)、電信數(shù)據(jù),電話分別為:13515151515、(+86)13515151515,通平臺(tái)自動(dòng)化處理均生成:8613515151515類數(shù)據(jù),該數(shù)據(jù)為國(guó)際通用數(shù)據(jù),通過平臺(tái)配置,可形成國(guó)際數(shù)據(jù)標(biāo)準(zhǔn),并能跨領(lǐng)域、語(yǔ)種、結(jié)構(gòu)形成歸一。對(duì)其他郵件、身份證、護(hù)照等類信息及數(shù)據(jù)同理。
由以上可知,本發(fā)明公開了數(shù)據(jù)治理平臺(tái)以及基于該治理平臺(tái)的數(shù)據(jù)清洗方法,其主要關(guān)鍵點(diǎn)是兼容以及一站化服務(wù)。具有如下的技術(shù)效果:本發(fā)明平臺(tái)改進(jìn)了現(xiàn)有的數(shù)據(jù)清洗技術(shù),是專門為數(shù)據(jù)治理工作開發(fā),適用于多種技術(shù)領(lǐng)域、多種應(yīng)用場(chǎng)合的需求。
對(duì)所公開的實(shí)施例的上述說明,使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其他實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。