国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種大數(shù)據(jù)抽取和交換系統(tǒng)的制作方法

      文檔序號(hào):9489517閱讀:579來(lái)源:國(guó)知局
      一種大數(shù)據(jù)抽取和交換系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及一種大數(shù)據(jù)抽取與交換的方法與系統(tǒng),通過(guò)一個(gè)部署于Spark平臺(tái)的控制與交換中心結(jié)合若干交換代理,支持關(guān)系數(shù)據(jù)庫(kù)、非結(jié)構(gòu)化文檔、傳感器數(shù)據(jù)庫(kù)與Hadoop平臺(tái)HiVe、HBaSe、HDFS系統(tǒng)之間數(shù)據(jù)雙向流轉(zhuǎn),通過(guò)采用并行任務(wù)調(diào)度和采用內(nèi)存來(lái)存儲(chǔ)所有中間數(shù)據(jù),實(shí)現(xiàn)高效的數(shù)據(jù)交換。
      【背景技術(shù)】
      [0002]隨著企業(yè)數(shù)據(jù)量的不斷增加,計(jì)算機(jī)需要處理的數(shù)據(jù)已經(jīng)從MB級(jí)別達(dá)到TB級(jí)別,甚至PB級(jí)別,單個(gè)服務(wù)器已無(wú)法對(duì)企業(yè)所有數(shù)據(jù)進(jìn)行存儲(chǔ)與分析,需要將數(shù)據(jù)抽取匯總到大數(shù)據(jù)平臺(tái)進(jìn)行分析處理。企業(yè)遺留系統(tǒng)通常包含各種類型的數(shù)據(jù),包含存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù),存儲(chǔ)為文件形式的各種文檔資料與日志文件,也包含來(lái)自大量傳感器的實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)等。如何對(duì)這些數(shù)據(jù)都高效、實(shí)時(shí)的進(jìn)行采集是大數(shù)據(jù)項(xiàng)目成功的第一步。
      [0003]Hadoop平臺(tái)目前是最常用的大數(shù)據(jù)平臺(tái)軟件,Hadoop實(shí)現(xiàn)了 MapReduce程序的運(yùn)行環(huán)境,支持任務(wù)的分布式執(zhí)行。HDFS是一個(gè)分布式文件系統(tǒng),該文件系統(tǒng)數(shù)據(jù)會(huì)存儲(chǔ)與多個(gè)副本,因此具有很高的容錯(cuò)性。但是HDFS不允許對(duì)文件內(nèi)容進(jìn)行修改,只能對(duì)文件內(nèi)容進(jìn)行追加。Hive是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),數(shù)據(jù)以非結(jié)構(gòu)化文本格式存儲(chǔ)與HDFS中,上層提供類似SQL的查詢接口,并提供翻譯引擎將查詢語(yǔ)句自動(dòng)翻譯為MapReduce程序來(lái)進(jìn)行執(zhí)行。因?yàn)閿?shù)據(jù)存儲(chǔ)于HDFS,Hive中數(shù)據(jù)也只能讀取不能修改。HBase為一種列式存儲(chǔ)數(shù)據(jù)庫(kù),數(shù)據(jù)采用主鍵來(lái)進(jìn)行存取,不支持SQL查詢,但具有很高的吞吐量,HBase支持?jǐn)?shù)據(jù)修改。
      [0004]目前已經(jīng)存在一些單一類型的大數(shù)據(jù)采集系統(tǒng),比如Hadoop生態(tài)系統(tǒng)的Sqoop系統(tǒng),支持從關(guān)系數(shù)據(jù)庫(kù)進(jìn)行并行的數(shù)據(jù)抽取,目前已經(jīng)支持0racle、SQL Server、MySql等各種主流數(shù)據(jù)庫(kù),并且支持通過(guò)MapReduce來(lái)并行的執(zhí)行抽取任務(wù)。比如分布式消息采集系統(tǒng)kafka,是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。這種動(dòng)作(網(wǎng)頁(yè)瀏覽,搜索和其他用戶的行動(dòng))是在現(xiàn)代網(wǎng)絡(luò)上的許多社會(huì)功能的一個(gè)關(guān)鍵因素。這些數(shù)據(jù)通常是由于吞吐量的要求而通過(guò)處理日志和日志聚合來(lái)解決。還比如Nutch這種分布式的爬蟲系統(tǒng),可以從互聯(lián)網(wǎng)并行抓取數(shù)據(jù)并存儲(chǔ)于Hadoop文件系統(tǒng)中。
      [0005]關(guān)系數(shù)據(jù)庫(kù)之間相互轉(zhuǎn)化的工具已經(jīng)廣泛應(yīng)用與企業(yè),包含Oracle、SQL Server也都提供了數(shù)據(jù)導(dǎo)入導(dǎo)出其他數(shù)據(jù)庫(kù)的工具。Informatica和IBM也有相關(guān)產(chǎn)品,支持關(guān)系數(shù)據(jù)庫(kù)、XML等結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換。但是目前還沒有專門的系統(tǒng)來(lái)支持大數(shù)據(jù)平臺(tái)中系統(tǒng)與傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)等進(jìn)行方便的交換。因?yàn)榇髷?shù)據(jù)系統(tǒng)數(shù)量眾多,還在不斷增加,僅NoSQL數(shù)據(jù)庫(kù)就有幾十種,如何提供良好的系統(tǒng)架構(gòu)來(lái)將這些數(shù)據(jù)庫(kù)接入到交換系統(tǒng),是具有挑戰(zhàn)的問(wèn)題。
      [0006]目前這些大數(shù)據(jù)采集系統(tǒng)互相獨(dú)立存在,而且Hadoop的加載機(jī)制單一,比如從關(guān)系數(shù)據(jù)庫(kù)抽取的數(shù)據(jù)只能加載到Hive中,而不能加載到HBase中來(lái)實(shí)現(xiàn)一些快速的查詢服務(wù)。另外在加載到Hadoop中以后,也不存在一種方法支持?jǐn)?shù)據(jù)在Hadoop不同子系統(tǒng)進(jìn)行流動(dòng)。比如Hive中的數(shù)據(jù)需要進(jìn)行大量數(shù)據(jù)清理,而Hive本身又不支持?jǐn)?shù)據(jù)的修改,這時(shí)就需要將數(shù)據(jù)轉(zhuǎn)移到HBase中來(lái)進(jìn)行處理。

      【發(fā)明內(nèi)容】

      [0007]有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種大數(shù)據(jù)抽取與交換的系統(tǒng),支持關(guān)系數(shù)據(jù)庫(kù)、非結(jié)構(gòu)化文檔、傳感器數(shù)據(jù)庫(kù)與Hadoop平臺(tái)Hive、HBaSe、HDFS系統(tǒng)之間數(shù)據(jù)雙向流轉(zhuǎn),通過(guò)采用并行任務(wù)調(diào)度和采用內(nèi)存來(lái)存儲(chǔ)所有中間數(shù)據(jù),實(shí)現(xiàn)高效的數(shù)據(jù)交換。
      [0008]為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種大數(shù)據(jù)抽取和交換系統(tǒng),包括部署于Spark平臺(tái)的控制交換中心,通過(guò)Yarn資源管理框架將Spark平臺(tái)和Hadoop平臺(tái)部署于同一個(gè)集群;控制交換中心內(nèi)存對(duì)象存儲(chǔ)與Spark中,所有中間數(shù)據(jù)與不同類型數(shù)據(jù)模型轉(zhuǎn)換任務(wù)也由Spark執(zhí)行;
      [0009]包括都分散在不同的服務(wù)器中的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、非結(jié)構(gòu)化文檔、傳感器數(shù)據(jù);
      [0010]包括一個(gè)獨(dú)立的集群部署Hadoop大數(shù)據(jù)平臺(tái),所述Hadoop大數(shù)據(jù)平臺(tái)包含HDFS、HBase, Hive子系統(tǒng),用于加載抽取的數(shù)據(jù),并提供分析功能;
      [0011]包括部署于不同數(shù)據(jù)源系統(tǒng)之上或者控制交換中心的交換代理;用于通過(guò)遠(yuǎn)程接口來(lái)和數(shù)據(jù)源進(jìn)行交互;
      [0012]包括交換代理與交互控制中心之間的控制消息通道與數(shù)據(jù)通道;
      [0013]所述控制交換中心包含任務(wù)調(diào)度模塊、內(nèi)存對(duì)象管理模塊、數(shù)據(jù)轉(zhuǎn)換模塊;
      [0014]所述任務(wù)調(diào)度模塊用于調(diào)度交換代理數(shù)據(jù)抽取、數(shù)據(jù)加載任務(wù),數(shù)據(jù)模型轉(zhuǎn)換任務(wù),數(shù)據(jù)傳輸任務(wù);
      [0015]所述內(nèi)存對(duì)象管理模塊用于管理中間數(shù)據(jù)的存儲(chǔ)與更新;
      [0016]所述數(shù)據(jù)轉(zhuǎn)換模塊用于不同數(shù)據(jù)模型與統(tǒng)一內(nèi)存對(duì)象之間的轉(zhuǎn)換;
      [0017]所述控制交換中心用于通知數(shù)據(jù)源的交換代理進(jìn)行數(shù)據(jù)抽取,并將數(shù)據(jù)傳輸?shù)娇刂平粨Q中心;所述控制交換中心用于進(jìn)行源數(shù)據(jù)模型到內(nèi)存對(duì)象模型的轉(zhuǎn)換;
      [0018]所述控制交換中心還用于任務(wù)的統(tǒng)一調(diào)度:
      [0019]a)對(duì)于控制交換中心的數(shù)據(jù)轉(zhuǎn)換任務(wù),采用Spark提供的編程語(yǔ)言開發(fā);
      [0020]b)根據(jù)需求或根據(jù)資源利用率導(dǎo)向調(diào)度任務(wù)執(zhí)行的順序;
      [0021]當(dāng)內(nèi)存空間不足,無(wú)法存儲(chǔ)新到數(shù)據(jù),控制交換中心根據(jù)調(diào)度策略通知交換代理,暫停數(shù)據(jù)抽取任務(wù),等內(nèi)存空間滿足需要時(shí),繼續(xù)執(zhí)行數(shù)據(jù)抽取任務(wù)。
      [0022]較佳的,當(dāng)系統(tǒng)出現(xiàn)故障時(shí),控制交換中心在進(jìn)行每一個(gè)操作前記錄日志,故障后重啟系統(tǒng),恢復(fù)失效前的狀態(tài),然后重新抽取所有丟失的數(shù)據(jù),重構(gòu)內(nèi)存空間。
      [0023]較佳的,控制與交換中心采用統(tǒng)一的內(nèi)存對(duì)象模型來(lái)存儲(chǔ)數(shù)據(jù)交換的中間數(shù)據(jù),每一種數(shù)據(jù)源的數(shù)據(jù)通過(guò)交換代理實(shí)現(xiàn)數(shù)據(jù)模型與內(nèi)存對(duì)象模型的映射轉(zhuǎn)換;統(tǒng)一的內(nèi)存對(duì)象模型采用Spark RDD格式來(lái)存儲(chǔ)數(shù)據(jù);數(shù)據(jù)在內(nèi)存中中轉(zhuǎn),不寫入磁盤。
      [0024]較佳的,所述控制交換中心通過(guò)隊(duì)列管理等待的任務(wù)。
      [0025]本發(fā)明的有益效果是:本發(fā)明支持遺留系統(tǒng)不同類型數(shù)據(jù)與大數(shù)據(jù)平臺(tái)中不同類型系統(tǒng)進(jìn)行數(shù)據(jù)交換,也支持大數(shù)據(jù)平臺(tái)中不同系統(tǒng)之間進(jìn)行數(shù)據(jù)交換,可以滿足不同處理需求。所有交換任務(wù)統(tǒng)一進(jìn)行調(diào)度控制,可以提高數(shù)據(jù)交換的效率。
      【附圖說(shuō)明】
      [0026]圖1是本發(fā)明一【具體實(shí)施方式】的結(jié)構(gòu)示意圖。
      [0027]圖2是關(guān)系數(shù)據(jù)庫(kù)到Hive系統(tǒng)交換實(shí)例圖。
      [0028]圖3是傳感器數(shù)據(jù)庫(kù)到HBase系統(tǒng)交換實(shí)例圖。
      [0029]圖4是文件系統(tǒng)到HDFS交換實(shí)例圖。
      【具體實(shí)施方式】
      [0030]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明:一種大數(shù)據(jù)抽取和交換系統(tǒng),包括部署于Spark平臺(tái)的控制交換中心,通過(guò)Yarn資源管理框架將Spark平臺(tái)和Hadoop平臺(tái)部署于同一個(gè)集群;控制交換中心內(nèi)存對(duì)象存儲(chǔ)與Spark中,所有中間數(shù)據(jù)與不同類型數(shù)據(jù)模型轉(zhuǎn)換任務(wù)也由Spark執(zhí)行;
      [0031]包括都分散在不同的服務(wù)器中的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、非結(jié)構(gòu)化文檔、傳感器數(shù)據(jù);通過(guò)交換代理來(lái)實(shí)現(xiàn)數(shù)據(jù)的抽取與加載。
      [0032]包括一個(gè)獨(dú)立的集群部署Hadoop大數(shù)據(jù)平臺(tái),所述Hadoop大數(shù)據(jù)平臺(tái)包含HDFS、HBase, Hive子系統(tǒng),用于加載抽取的數(shù)據(jù),并提供分析功能;
      [0033]包括部署于不同數(shù)據(jù)源系統(tǒng)之上或者控制交換中心的交換代理;用于通過(guò)遠(yuǎn)程接口來(lái)和數(shù)據(jù)源進(jìn)行交互;
      [0034]包括交換代理與交互控制中心之間的控制消息通道與數(shù)據(jù)通道;
      [0035]所述控制交換中心包含任務(wù)調(diào)度模塊、內(nèi)存對(duì)象管理模塊、數(shù)據(jù)轉(zhuǎn)換模塊;
      [0036]所述任務(wù)調(diào)度模塊用于調(diào)度交換代理數(shù)據(jù)抽取、數(shù)據(jù)加載任務(wù),數(shù)據(jù)模型轉(zhuǎn)換任務(wù),數(shù)據(jù)傳輸任務(wù);
      [0037]所述內(nèi)存對(duì)象管理模塊用于管理中間數(shù)據(jù)的存儲(chǔ)與更新;一個(gè)數(shù)據(jù)如果已經(jīng)完成向目標(biāo)數(shù)據(jù)模型的轉(zhuǎn)換,就可以刪除原始數(shù)據(jù)對(duì)象,盡快回收內(nèi)存空間。
      [0038]所述數(shù)據(jù)轉(zhuǎn)換模塊用于不同數(shù)據(jù)模型與統(tǒng)一內(nèi)存對(duì)象之間的轉(zhuǎn)換;
      [0039]所述控制交換中心用于通知數(shù)據(jù)源的交換代理進(jìn)行數(shù)據(jù)抽取,并將數(shù)據(jù)傳輸?shù)娇刂平粨Q中心;所述控制交換中心用于進(jìn)行源數(shù)據(jù)模型到內(nèi)存對(duì)象模型的轉(zhuǎn)換;
      [0040]所述控制交換中心還用于任務(wù)的統(tǒng)一調(diào)度:
      [0041]a)對(duì)于控制交換中心的數(shù)據(jù)轉(zhuǎn)換任務(wù),采用Spark提供的編程語(yǔ)言開發(fā),任務(wù)的執(zhí)行利用分布式內(nèi)存;
      [0042]b)根據(jù)需求或根據(jù)資源利用率導(dǎo)
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1