国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種海量數(shù)據(jù)的收集與交換系統(tǒng)及方法

      文檔序號(hào):9687607閱讀:664來(lái)源:國(guó)知局
      一種海量數(shù)據(jù)的收集與交換系統(tǒng)及方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及大數(shù)據(jù)和數(shù)據(jù)收集領(lǐng)域,具體是一種海量數(shù)據(jù)收集與交換系統(tǒng)及方法。
      【背景技術(shù)】
      [0002]隨著信息通信技術(shù)發(fā)展積累至今,各種各樣的數(shù)據(jù)成爆發(fā)式發(fā)展,使得太字節(jié)(Terabyte,TB)、拍字節(jié)(PetaByte,PB)甚至艾字節(jié)(Exabyte,EB)級(jí)的數(shù)據(jù)都變?yōu)橐环N常態(tài),大數(shù)據(jù)時(shí)代便在其中孕育而生;大數(shù)據(jù)雖然孕育于信息技術(shù)的日漸普遍和成熟,它對(duì)社會(huì)經(jīng)濟(jì)生活產(chǎn)生的影響絕不限于技術(shù)層面,更本質(zhì)上,他是為我們看待世界提供了一種全新的方法,即決策行為將日益基于數(shù)據(jù)分析做出而不是像過(guò)去那樣更多憑借經(jīng)驗(yàn)和直覺(jué)做出。
      [0003]大數(shù)據(jù)指的是無(wú)法在人可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合;在無(wú)法使用常規(guī)軟件工具對(duì)大數(shù)據(jù)進(jìn)行處理,代表著我們?nèi)粘J褂玫臋C(jī)器是無(wú)法完成對(duì)大數(shù)據(jù)的存儲(chǔ)和分析處理任務(wù)的;而高性能的巨型機(jī)會(huì)隨著性能的提升而價(jià)格翻倍、甚至幾倍的提高;如何解決這些難題?分布式集群可以很好的解決這一難題;開源項(xiàng)目分布式系統(tǒng)架構(gòu)(Hadoop)正是為了解決互聯(lián)網(wǎng)時(shí)代的海量數(shù)據(jù)存儲(chǔ)和處理而設(shè)計(jì)、開發(fā)的;簡(jiǎn)單的講Hadoop是一個(gè)可以更容易開發(fā)和并行處理大規(guī)模數(shù)據(jù)的分布式計(jì)算和存儲(chǔ)系統(tǒng);它有橫向擴(kuò)展能力強(qiáng)、成本低、效率高、可靠的特點(diǎn);目前Hadoop的用戶已經(jīng)從傳統(tǒng)的互聯(lián)網(wǎng)公司想,擴(kuò)展到電信行業(yè)、電力行業(yè)、醫(yī)院、金融行業(yè),并得到越來(lái)越廣泛的應(yīng)用。
      [0004]雖然Hadoop系統(tǒng)具有如此多的特點(diǎn)以適用于大數(shù)據(jù)的存儲(chǔ)和處理,但是很多原始數(shù)據(jù)存儲(chǔ)在單機(jī)機(jī)器上,而非Hadoop集群中,如果我們不能將這些數(shù)據(jù)交換到Hadoop集群中,Hadoop的各種優(yōu)點(diǎn)都將無(wú)法實(shí)施;如何將這些原始數(shù)據(jù)交換到Hadoop系統(tǒng)平臺(tái)上成為了首先要解決的問(wèn)題;因此我們急切的尋找一種可以快速高效、安全可靠的方式將不同數(shù)據(jù)源中的數(shù)據(jù)交換到Hadoop系統(tǒng)中來(lái);目前Hadoop的項(xiàng)目中有一個(gè)子項(xiàng)目數(shù)據(jù)傳輸工具(Sqoop)可以將關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)與Hadoop系統(tǒng)進(jìn)行數(shù)據(jù)交換,但是它有兩個(gè)不足:1、只能與關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)交換;2、Sq00p的運(yùn)行依賴不Hadoop的環(huán)境,不能脫離Hadoop進(jìn)行數(shù)據(jù)交換。
      [0005]本發(fā)明針對(duì)上述這些問(wèn)題,提出一種海量數(shù)據(jù)的收集與交換系統(tǒng)及方法。

      【發(fā)明內(nèi)容】

      [0006]本發(fā)明是一種海量數(shù)據(jù)收集與交換系統(tǒng)及方法,目的在于實(shí)現(xiàn)不同數(shù)據(jù)源與大數(shù)據(jù)處理平臺(tái)之間的數(shù)據(jù)交換。
      [0007]本發(fā)明的技術(shù)解決方案是:本發(fā)明是一種海量數(shù)據(jù)收集與交換系統(tǒng),其特殊之處在于,該系統(tǒng)采用代理模式,該系統(tǒng)的代理包括數(shù)據(jù)收集器、傳輸通道、接收器,各個(gè)代理之間相互獨(dú)立,可以對(duì)多個(gè)數(shù)據(jù)源進(jìn)行并行交換,實(shí)現(xiàn)數(shù)據(jù)讀入和寫出的分離,使得系統(tǒng)架構(gòu)更加靈活、輕量、高效。
      [0008]所述數(shù)據(jù)收集器負(fù)責(zé)將數(shù)據(jù)源的數(shù)據(jù)收集,經(jīng)過(guò)加工轉(zhuǎn)化為事件,以事件(包括事件頭信息和數(shù)據(jù)兩個(gè)部分)的形式發(fā)送的傳輸通道上,支持多種數(shù)據(jù)接收器。
      [0009]所述傳輸通道用來(lái)緩存數(shù)據(jù)收集器發(fā)送過(guò)來(lái)的事件,為保證傳遞過(guò)程中數(shù)據(jù)的可靠性,只有當(dāng)事件緩存到下一傳輸通道或者接收器處理完該事件時(shí),才將事件從此傳輸通道中刪除。
      [0010]所述接收器抽取傳輸通道中的事件,根據(jù)相應(yīng)配置將文件存儲(chǔ)到文件系統(tǒng)、數(shù)據(jù)庫(kù),或者提交到遠(yuǎn)程服務(wù)器或下一級(jí)的代理中。
      [0011]所述數(shù)據(jù)收集器支持的數(shù)據(jù)接收器包括文件、目錄和數(shù)據(jù)庫(kù)。
      [0012]所述傳輸通道包括文件和內(nèi)存。
      [0013]所述接收器包括分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)、非關(guān)系型數(shù)據(jù)庫(kù)(Hadoop Database,HBase)、消息系統(tǒng)(Kafka)和文件。
      [0014]本發(fā)明是一種海量數(shù)據(jù)收集與交換方法,其特殊之處在于,該方法包括以下步驟。
      [0015]1)根據(jù)需求編寫代理的配置文件。
      [0016]2)依據(jù)編寫好的配置文件啟動(dòng)代理,代理成功啟動(dòng)后,開始傳輸數(shù)據(jù),由接收器把數(shù)據(jù)從外部數(shù)據(jù)源讀入代理內(nèi)部,把讀入的數(shù)據(jù)封裝成事件發(fā)送到傳輸通道中緩存,等待接收器的抽取,接收器抽取這些事件并將它們解析為原始數(shù)據(jù),存儲(chǔ)到最終目的地;代理啟動(dòng)后,數(shù)據(jù)的傳輸過(guò)程是自動(dòng)的,還可以根據(jù)數(shù)據(jù)的變化而自動(dòng)實(shí)現(xiàn)變換數(shù)據(jù)的收集。
      [0017]上述步驟1)的具體實(shí)現(xiàn)步驟如下。
      [0018]100)數(shù)據(jù)接收器的類型需要根據(jù)外部數(shù)據(jù)源的類型做相應(yīng)的配置,若數(shù)據(jù)源為一個(gè)目錄下的文件,接收器類型配置為目錄文件(Spooling Directory, spooldir),還要配置數(shù)據(jù)源的位置。
      [0019]101)傳輸通道的類型根據(jù)需要配置;傳輸通道還需要配置通道的容量的大小,轉(zhuǎn)換能力的大小等選項(xiàng)。
      [0020]102)接收器的類型與用戶最終將數(shù)據(jù)存入的位置有關(guān);當(dāng)選用HDFS作為接收器時(shí),要配置存儲(chǔ)到HDFS上文件的位置,文件的大小。
      [0021]上述步驟2)中所述代理的數(shù)據(jù)傳輸步驟如下。
      [0022]200)數(shù)據(jù)收集器根據(jù)配置的地址讀取外部數(shù)據(jù)源中的數(shù)據(jù),讀入后先判斷數(shù)據(jù)是否為新數(shù)據(jù),確認(rèn)為新后,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將數(shù)據(jù)進(jìn)行特定的格式化,并且加上頭信息,封裝成為一個(gè)事件。
      [0023]201)數(shù)據(jù)收集器把事件發(fā)送到單個(gè)或多個(gè)傳輸通道中,其中可以把傳輸通道看作是一個(gè)緩沖區(qū),它保存事件直到接收器抽取并處理完該事件。
      [0024]202)接收器抽取傳輸通道中的事件,將事件解析成為原始數(shù)據(jù),通過(guò)調(diào)用客戶端接口將數(shù)據(jù)寫入到目的端,或者作為下一級(jí)代理的外部數(shù)據(jù)源。
      【附圖說(shuō)明】
      [0025]圖1系統(tǒng)的整體架構(gòu)圖。
      [0026]圖2代理內(nèi)部數(shù)據(jù)流程圖。
      【具體實(shí)施方式】
      [0027]下面參照附圖對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明;以下對(duì)本發(fā)明的詳細(xì)說(shuō)明并不是對(duì)本發(fā)明的限制;相反,本發(fā)明的范圍是由所附權(quán)利要求而定的。
      [0028]本發(fā)明是一種海量數(shù)據(jù)收集與交換系統(tǒng),其中系統(tǒng)的整體架構(gòu)圖如圖1所示;該系統(tǒng)采用代理模式,該系統(tǒng)的代理包括數(shù)據(jù)收集器、傳輸通道、接收器,各個(gè)代理之間相互獨(dú)立,可以對(duì)多個(gè)數(shù)據(jù)源進(jìn)行并行交換,實(shí)現(xiàn)數(shù)據(jù)讀入和寫出的分離,使得系統(tǒng)架構(gòu)更加靈活、輕量、高效。
      [0029]數(shù)據(jù)收集器負(fù)責(zé)將數(shù)據(jù)源的數(shù)據(jù)收集,經(jīng)過(guò)加工轉(zhuǎn)化為事件,以事件(包括事件頭信息和數(shù)據(jù)兩個(gè)部分)的形式發(fā)送的傳輸通道上,支持多種數(shù)據(jù)接收器,如文件、目錄、數(shù)據(jù)庫(kù)等。
      [0030]傳輸通道用來(lái)緩存數(shù)據(jù)收集器發(fā)送過(guò)來(lái)的事件,為
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1