一種大數(shù)據(jù)抽取和交換系統(tǒng)的制作方法

文檔序號(hào)：9489517閱讀：579來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種大數(shù)據(jù)抽取和交換系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種大數(shù)據(jù)抽取與交換的方法與系統(tǒng)，通過(guò)一個(gè)部署于Spark平臺(tái)的控制與交換中心結(jié)合若干交換代理，支持關(guān)系數(shù)據(jù)庫(kù)、非結(jié)構(gòu)化文檔、傳感器數(shù)據(jù)庫(kù)與Hadoop平臺(tái)HiVe、HBaSe、HDFS系統(tǒng)之間數(shù)據(jù)雙向流轉(zhuǎn)，通過(guò)采用并行任務(wù)調(diào)度和采用內(nèi)存來(lái)存儲(chǔ)所有中間數(shù)據(jù)，實(shí)現(xiàn)高效的數(shù)據(jù)交換。
【背景技術(shù)】
[0002]隨著企業(yè)數(shù)據(jù)量的不斷增加，計(jì)算機(jī)需要處理的數(shù)據(jù)已經(jīng)從MB級(jí)別達(dá)到TB級(jí)別，甚至PB級(jí)別，單個(gè)服務(wù)器已無(wú)法對(duì)企業(yè)所有數(shù)據(jù)進(jìn)行存儲(chǔ)與分析，需要將數(shù)據(jù)抽取匯總到大數(shù)據(jù)平臺(tái)進(jìn)行分析處理。企業(yè)遺留系統(tǒng)通常包含各種類型的數(shù)據(jù)，包含存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù)，存儲(chǔ)為文件形式的各種文檔資料與日志文件，也包含來(lái)自大量傳感器的實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)等。如何對(duì)這些數(shù)據(jù)都高效、實(shí)時(shí)的進(jìn)行采集是大數(shù)據(jù)項(xiàng)目成功的第一步。
[0003]Hadoop平臺(tái)目前是最常用的大數(shù)據(jù)平臺(tái)軟件，Hadoop實(shí)現(xiàn)了 MapReduce程序的運(yùn)行環(huán)境，支持任務(wù)的分布式執(zhí)行。HDFS是一個(gè)分布式文件系統(tǒng)，該文件系統(tǒng)數(shù)據(jù)會(huì)存儲(chǔ)與多個(gè)副本，因此具有很高的容錯(cuò)性。但是HDFS不允許對(duì)文件內(nèi)容進(jìn)行修改，只能對(duì)文件內(nèi)容進(jìn)行追加。Hive是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)，數(shù)據(jù)以非結(jié)構(gòu)化文本格式存儲(chǔ)與HDFS中，上層提供類似SQL的查詢接口，并提供翻譯引擎將查詢語(yǔ)句自動(dòng)翻譯為MapReduce程序來(lái)進(jìn)行執(zhí)行。因?yàn)閿?shù)據(jù)存儲(chǔ)于HDFS，Hive中數(shù)據(jù)也只能讀取不能修改。HBase為一種列式存儲(chǔ)數(shù)據(jù)庫(kù)，數(shù)據(jù)采用主鍵來(lái)進(jìn)行存取，不支持SQL查詢，但具有很高的吞吐量，HBase支持?jǐn)?shù)據(jù)修改。
[0004]目前已經(jīng)存在一些單一類型的大數(shù)據(jù)采集系統(tǒng)，比如Hadoop生態(tài)系統(tǒng)的Sqoop系統(tǒng)，支持從關(guān)系數(shù)據(jù)庫(kù)進(jìn)行并行的數(shù)據(jù)抽取，目前已經(jīng)支持0racle、SQL Server、MySql等各種主流數(shù)據(jù)庫(kù)，并且支持通過(guò)MapReduce來(lái)并行的執(zhí)行抽取任務(wù)。比如分布式消息采集系統(tǒng)kafka，是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，它可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。這種動(dòng)作(網(wǎng)頁(yè)瀏覽，搜索和其他用戶的行動(dòng))是在現(xiàn)代網(wǎng)絡(luò)上的許多社會(huì)功能的一個(gè)關(guān)鍵因素。這些數(shù)據(jù)通常是由于吞吐量的要求而通過(guò)處理日志和日志聚合來(lái)解決。還比如Nutch這種分布式的爬蟲系統(tǒng)，可以從互聯(lián)網(wǎng)并行抓取數(shù)據(jù)并存儲(chǔ)于Hadoop文件系統(tǒng)中。
[0005]關(guān)系數(shù)據(jù)庫(kù)之間相互轉(zhuǎn)化的工具已經(jīng)廣泛應(yīng)用與企業(yè)，包含Oracle、SQL Server也都提供了數(shù)據(jù)導(dǎo)入導(dǎo)出其他數(shù)據(jù)庫(kù)的工具。Informatica和IBM也有相關(guān)產(chǎn)品，支持關(guān)系數(shù)據(jù)庫(kù)、XML等結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換。但是目前還沒有專門的系統(tǒng)來(lái)支持大數(shù)據(jù)平臺(tái)中系統(tǒng)與傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)等進(jìn)行方便的交換。因?yàn)榇髷?shù)據(jù)系統(tǒng)數(shù)量眾多，還在不斷增加，僅NoSQL數(shù)據(jù)庫(kù)就有幾十種，如何提供良好的系統(tǒng)架構(gòu)來(lái)將這些數(shù)據(jù)庫(kù)接入到交換系統(tǒng)，是具有挑戰(zhàn)的問(wèn)題。
[0006]目前這些大數(shù)據(jù)采集系統(tǒng)互相獨(dú)立存在，而且Hadoop的加載機(jī)制單一，比如從關(guān)系數(shù)據(jù)庫(kù)抽取的數(shù)據(jù)只能加載到Hive中，而不能加載到HBase中來(lái)實(shí)現(xiàn)一些快速的查詢服務(wù)。另外在加載到Hadoop中以后，也不存在一種方法支持?jǐn)?shù)據(jù)在Hadoop不同子系統(tǒng)進(jìn)行流動(dòng)。比如Hive中的數(shù)據(jù)需要進(jìn)行大量數(shù)據(jù)清理，而Hive本身又不支持?jǐn)?shù)據(jù)的修改，這時(shí)就需要將數(shù)據(jù)轉(zhuǎn)移到HBase中來(lái)進(jìn)行處理。

【發(fā)明內(nèi)容】

[0007]有鑒于現(xiàn)有技術(shù)的上述缺陷，本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種大數(shù)據(jù)抽取與交換的系統(tǒng)，支持關(guān)系數(shù)據(jù)庫(kù)、非結(jié)構(gòu)化文檔、傳感器數(shù)據(jù)庫(kù)與Hadoop平臺(tái)Hive、HBaSe、HDFS系統(tǒng)之間數(shù)據(jù)雙向流轉(zhuǎn)，通過(guò)采用并行任務(wù)調(diào)度和采用內(nèi)存來(lái)存儲(chǔ)所有中間數(shù)據(jù)，實(shí)現(xiàn)高效的數(shù)據(jù)交換。
[0008]為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種大數(shù)據(jù)抽取和交換系統(tǒng)，包括部署于Spark平臺(tái)的控制交換中心，通過(guò)Yarn資源管理框架將Spark平臺(tái)和Hadoop平臺(tái)部署于同一個(gè)集群；控制交換中心內(nèi)存對(duì)象存儲(chǔ)與Spark中，所有中間數(shù)據(jù)與不同類型數(shù)據(jù)模型轉(zhuǎn)換任務(wù)也由Spark執(zhí)行；
[0009]包括都分散在不同的服務(wù)器中的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、非結(jié)構(gòu)化文檔、傳感器數(shù)據(jù)；
[0010]包括一個(gè)獨(dú)立的集群部署Hadoop大數(shù)據(jù)平臺(tái)，所述Hadoop大數(shù)據(jù)平臺(tái)包含HDFS、HBase, Hive子系統(tǒng)，用于加載抽取的數(shù)據(jù)，并提供分析功能；
[0011]包括部署于不同數(shù)據(jù)源系統(tǒng)之上或者控制交換中心的交換代理；用于通過(guò)遠(yuǎn)程接口來(lái)和數(shù)據(jù)源進(jìn)行交互；
[0012]包括交換代理與交互控制中心之間的控制消息通道與數(shù)據(jù)通道；
[0013]所述控制交換中心包含任務(wù)調(diào)度模塊、內(nèi)存對(duì)象管理模塊、數(shù)據(jù)轉(zhuǎn)換模塊；
[0014]所述任務(wù)調(diào)度模塊用于調(diào)度交換代理數(shù)據(jù)抽取、數(shù)據(jù)加載任務(wù)，數(shù)據(jù)模型轉(zhuǎn)換任務(wù)，數(shù)據(jù)傳輸任務(wù)；
[0015]所述內(nèi)存對(duì)象管理模塊用于管理中間數(shù)據(jù)的存儲(chǔ)與更新；
[0016]所述數(shù)據(jù)轉(zhuǎn)換模塊用于不同數(shù)據(jù)模型與統(tǒng)一內(nèi)存對(duì)象之間的轉(zhuǎn)換；
[0017]所述控制交換中心用于通知數(shù)據(jù)源的交換代理進(jìn)行數(shù)據(jù)抽取，并將數(shù)據(jù)傳輸?shù)娇刂平粨Q中心；所述控制交換中心用于進(jìn)行源數(shù)據(jù)模型到內(nèi)存對(duì)象模型的轉(zhuǎn)換；
[0018]所述控制交換中心還用于任務(wù)的統(tǒng)一調(diào)度:
[0019]a)對(duì)于控制交換中心的數(shù)據(jù)轉(zhuǎn)換任務(wù)，采用Spark提供的編程語(yǔ)言開發(fā)；
[0020]b)根據(jù)需求或根據(jù)資源利用率導(dǎo)向調(diào)度任務(wù)執(zhí)行的順序；
[0021]當(dāng)內(nèi)存空間不足，無(wú)法存儲(chǔ)新到數(shù)據(jù)，控制交換中心根據(jù)調(diào)度策略通知交換代理，暫停數(shù)據(jù)抽取任務(wù)，等內(nèi)存空間滿足需要時(shí)，繼續(xù)執(zhí)行數(shù)據(jù)抽取任務(wù)。
[0022]較佳的，當(dāng)系統(tǒng)出現(xiàn)故障時(shí)，控制交換中心在進(jìn)行每一個(gè)操作前記錄日志，故障后重啟系統(tǒng)，恢復(fù)失效前的狀態(tài)，然后重新抽取所有丟失的數(shù)據(jù)，重構(gòu)內(nèi)存空間。
[0023]較佳的，控制與交換中心采用統(tǒng)一的內(nèi)存對(duì)象模型來(lái)存儲(chǔ)數(shù)據(jù)交換的中間數(shù)據(jù)，每一種數(shù)據(jù)源的數(shù)據(jù)通過(guò)交換代理實(shí)現(xiàn)數(shù)據(jù)模型與內(nèi)存對(duì)象模型的映射轉(zhuǎn)換；統(tǒng)一的內(nèi)存對(duì)象模型采用Spark RDD格式來(lái)存儲(chǔ)數(shù)據(jù)；數(shù)據(jù)在內(nèi)存中中轉(zhuǎn)，不寫入磁盤。
[0024]較佳的，所述控制交換中心通過(guò)隊(duì)列管理等待的任務(wù)。
[0025]本發(fā)明的有益效果是:本發(fā)明支持遺留系統(tǒng)不同類型數(shù)據(jù)與大數(shù)據(jù)平臺(tái)中不同類型系統(tǒng)進(jìn)行數(shù)據(jù)交換，也支持大數(shù)據(jù)平臺(tái)中不同系統(tǒng)之間進(jìn)行數(shù)據(jù)交換，可以滿足不同處理需求。所有交換任務(wù)統(tǒng)一進(jìn)行調(diào)度控制，可以提高數(shù)據(jù)交換的效率。
【附圖說(shuō)明】
[0026]圖1是本發(fā)明一【具體實(shí)施方式】的結(jié)構(gòu)示意圖。
[0027]圖2是關(guān)系數(shù)據(jù)庫(kù)到Hive系統(tǒng)交換實(shí)例圖。
[0028]圖3是傳感器數(shù)據(jù)庫(kù)到HBase系統(tǒng)交換實(shí)例圖。
[0029]圖4是文件系統(tǒng)到HDFS交換實(shí)例圖。
【具體實(shí)施方式】
[0030]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明:一種大數(shù)據(jù)抽取和交換系統(tǒng)，包括部署于Spark平臺(tái)的控制交換中心，通過(guò)Yarn資源管理框架將Spark平臺(tái)和Hadoop平臺(tái)部署于同一個(gè)集群；控制交換中心內(nèi)存對(duì)象存儲(chǔ)與Spark中，所有中間數(shù)據(jù)與不同類型數(shù)據(jù)模型轉(zhuǎn)換任務(wù)也由Spark執(zhí)行；
[0031]包括都分散在不同的服務(wù)器中的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、非結(jié)構(gòu)化文檔、傳感器數(shù)據(jù)；通過(guò)交換代理來(lái)實(shí)現(xiàn)數(shù)據(jù)的抽取與加載。
[0032]包括一個(gè)獨(dú)立的集群部署Hadoop大數(shù)據(jù)平臺(tái)，所述Hadoop大數(shù)據(jù)平臺(tái)包含HDFS、HBase, Hive子系統(tǒng)，用于加載抽取的數(shù)據(jù)，并提供分析功能；
[0033]包括部署于不同數(shù)據(jù)源系統(tǒng)之上或者控制交換中心的交換代理；用于通過(guò)遠(yuǎn)程接口來(lái)和數(shù)據(jù)源進(jìn)行交互；
[0034]包括交換代理與交互控制中心之間的控制消息通道與數(shù)據(jù)通道；
[0035]所述控制交換中心包含任務(wù)調(diào)度模塊、內(nèi)存對(duì)象管理模塊、數(shù)據(jù)轉(zhuǎn)換模塊；
[0036]所述任務(wù)調(diào)度模塊用于調(diào)度交換代理數(shù)據(jù)抽取、數(shù)據(jù)加載任務(wù)，數(shù)據(jù)模型轉(zhuǎn)換任務(wù)，數(shù)據(jù)傳輸任務(wù)；
[0037]所述內(nèi)存對(duì)象管理模塊用于管理中間數(shù)據(jù)的存儲(chǔ)與更新；一個(gè)數(shù)據(jù)如果已經(jīng)完成向目標(biāo)數(shù)據(jù)模型的轉(zhuǎn)換，就可以刪除原始數(shù)據(jù)對(duì)象，盡快回收內(nèi)存空間。
[0038]所述數(shù)據(jù)轉(zhuǎn)換模塊用于不同數(shù)據(jù)模型與統(tǒng)一內(nèi)存對(duì)象之間的轉(zhuǎn)換；
[0039]所述控制交換中心用于通知數(shù)據(jù)源的交換代理進(jìn)行數(shù)據(jù)抽取，并將數(shù)據(jù)傳輸?shù)娇刂平粨Q中心；所述控制交換中心用于進(jìn)行源數(shù)據(jù)模型到內(nèi)存對(duì)象模型的轉(zhuǎn)換；
[0040]所述控制交換中心還用于任務(wù)的統(tǒng)一調(diào)度:
[0041]a)對(duì)于控制交換中心的數(shù)據(jù)轉(zhuǎn)換任務(wù)，采用Spark提供的編程語(yǔ)言開發(fā)，任務(wù)的執(zhí)行利用分布式內(nèi)存；
[0042]b)根據(jù)需求或根據(jù)資源利用率導(dǎo)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姬源;黃育松;謝冬;王向東;
技術(shù)所有人：貴州電網(wǎng)有限責(zé)任公司電力調(diào)度控制中心;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

etl分布式大數(shù)據(jù)抽取相關(guān)技術(shù)

數(shù)據(jù)交換系統(tǒng)相關(guān)技術(shù)

電子數(shù)據(jù)交換系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種大數(shù)據(jù)抽取和交換系統(tǒng)的制作方法