一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法

文檔序號(hào)：9708454閱讀：307來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)處理系統(tǒng)，具體涉及一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)時(shí)代的高速發(fā)展，人們的生活發(fā)生了巨大的變化。人們會(huì)利用互聯(lián)網(wǎng)進(jìn)行工作、學(xué)習(xí)和生活，其中利用互聯(lián)網(wǎng)的便利尋找學(xué)習(xí)資料、工作資料、購置生活用品的現(xiàn)象已經(jīng)非常普遍?，F(xiàn)代社會(huì)已經(jīng)進(jìn)入高科技時(shí)代，所有的辦公環(huán)境及溝通交流都是通過電子產(chǎn)品，數(shù)據(jù)的產(chǎn)生速度及共享速度也成指數(shù)增長(zhǎng)，從而導(dǎo)致數(shù)據(jù)量的劇增。但由于數(shù)據(jù)的來源及類型變得復(fù)雜多樣性，數(shù)據(jù)量非常龐大，與傳統(tǒng)的數(shù)據(jù)有很大的區(qū)別。在傳統(tǒng)數(shù)據(jù)中，數(shù)據(jù)存儲(chǔ)、處理及分析的數(shù)據(jù)量相對(duì)較少，可以采用關(guān)系型數(shù)據(jù)庫和并行倉庫處理，難以保證擴(kuò)展性。在海量數(shù)據(jù)存在的大數(shù)據(jù)時(shí)代，由于大數(shù)據(jù)處理大量的非結(jié)構(gòu)化數(shù)據(jù)，因此，其存儲(chǔ)及處理與傳統(tǒng)數(shù)據(jù)有很大的區(qū)別，同時(shí)也帶來了極大的挑戰(zhàn)。為了滿足大數(shù)據(jù)存儲(chǔ)分析處理的需求，分布式采集數(shù)據(jù)、分布式存儲(chǔ)數(shù)據(jù)、分布式處理數(shù)據(jù)等技術(shù)是很好的解決方案。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的技術(shù)任務(wù)是針對(duì)現(xiàn)有技術(shù)的不足，提供一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法。本方法采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式，從而提高數(shù)據(jù)存儲(chǔ)、處理效率，節(jié)省CPU及網(wǎng)絡(luò)資源。
[0004 ]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法，采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式，提高數(shù)據(jù)存儲(chǔ)、處理效率，節(jié)省CPU及網(wǎng)絡(luò)資源;本方法包括:海量數(shù)據(jù)收集模塊、海量數(shù)據(jù)存儲(chǔ)模塊、海量數(shù)據(jù)處理模塊。
[0005]海量數(shù)據(jù)收集模塊是通過數(shù)據(jù)聚合系統(tǒng)進(jìn)行數(shù)據(jù)收集，通過定制數(shù)據(jù)的發(fā)送方，用于用戶收集數(shù)據(jù)，然后寫到數(shù)據(jù)接受方，該模塊提供了一個(gè)分布式、可靠的數(shù)據(jù)收集功會(huì)泛。
[0006]海量數(shù)據(jù)存儲(chǔ)模塊是通過分布式文件進(jìn)行存儲(chǔ)，具有多副本的高可靠性，將數(shù)據(jù)分布式存儲(chǔ)在各個(gè)節(jié)點(diǎn)上，滿足海量數(shù)據(jù)存儲(chǔ)的需求。
[0007]海量數(shù)據(jù)處理模塊是通過分布式計(jì)算框架將海量數(shù)據(jù)分成若干部分，然后分到多個(gè)節(jié)點(diǎn)上進(jìn)行并行處理，滿足海量數(shù)據(jù)處理的效率。
[0008]本發(fā)明的一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法與現(xiàn)有技術(shù)相比，所產(chǎn)生的有益效果是，(1)通過海量數(shù)據(jù)聚合方式將海量數(shù)據(jù)進(jìn)行收集，便于傳輸需求;(2)提供分布式存儲(chǔ)海量數(shù)據(jù)，充分利用存儲(chǔ)空間，保證數(shù)據(jù)的可靠性；(3)通過分布式計(jì)算框架提取數(shù)據(jù)進(jìn)行處理，體現(xiàn)了并行計(jì)算的特點(diǎn)，大大提高了處理效率。
[0009]為了使得海量數(shù)據(jù)處理過程更加便捷、高效、安全，本文采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式，實(shí)現(xiàn)了一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。從而提高數(shù)據(jù)存儲(chǔ)、處理效率，節(jié)省CPU及網(wǎng)絡(luò)資源。
【附圖說明】
[0010]附圖1 一種海量數(shù)據(jù)處理系統(tǒng)的框架圖；
附圖2海量數(shù)據(jù)收集模塊示意圖；
附圖3海量數(shù)據(jù)處理模塊流程圖。
【具體實(shí)施方式】
[0011 ]下面對(duì)本發(fā)明的一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法作以下詳細(xì)地說明。
[0012]—種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法，采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式，提高數(shù)據(jù)存儲(chǔ)、處理效率，節(jié)省CPU及網(wǎng)絡(luò)資源;本方法包括:海量數(shù)據(jù)收集模塊、海量數(shù)據(jù)存儲(chǔ)模塊、海量數(shù)據(jù)處理模塊。
[0013]海量數(shù)據(jù)收集模塊是通過數(shù)據(jù)聚合系統(tǒng)進(jìn)行數(shù)據(jù)收集，通過定制數(shù)據(jù)的發(fā)送方，用于用戶收集數(shù)據(jù)，然后寫到數(shù)據(jù)接受方，該模塊提供了一個(gè)分布式、可靠的數(shù)據(jù)收集功會(huì)泛。
[0014]海量數(shù)據(jù)存儲(chǔ)模塊是通過分布式文件進(jìn)行存儲(chǔ)，具有多副本的高可靠性，將數(shù)據(jù)分布式存儲(chǔ)在各個(gè)節(jié)點(diǎn)上，滿足海量數(shù)據(jù)存儲(chǔ)的需求。
[0015]海量數(shù)據(jù)處理模塊是通過分布式計(jì)算框架將海量數(shù)據(jù)分成若干部分，然后分到多個(gè)節(jié)點(diǎn)上進(jìn)行并行處理，滿足海量數(shù)據(jù)處理的效率。
實(shí)施例
[0016]下面參照附圖，對(duì)本發(fā)明的內(nèi)容以一個(gè)具體實(shí)例來描述一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)的過程。
[0017]正如
【發(fā)明內(nèi)容】
中所描述的，本發(fā)明中一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)包括三個(gè)模塊，分別是海量數(shù)據(jù)收集模塊、海量數(shù)據(jù)存儲(chǔ)模塊和海量數(shù)據(jù)處理模塊。一種海量數(shù)據(jù)處理系統(tǒng)的框架圖如附圖1所示。
[0018]首先在三個(gè)節(jié)點(diǎn)的服務(wù)器上安裝操作系統(tǒng)Centos6.3，然后組件三個(gè)節(jié)點(diǎn)的集群環(huán)境。按照安裝的步驟搭建Hadoop平臺(tái)，啟動(dòng)HDFS、MapReduce、HBase、Flume組件。為海量數(shù)據(jù)的處理進(jìn)行環(huán)境準(zhǔn)備。
[0019]海量數(shù)據(jù)收集模塊示意圖如附圖2所示，使用Flume將在不同agent端的數(shù)據(jù)進(jìn)行收集，然后通過配置文件制定到分布式數(shù)據(jù)存儲(chǔ)文件系統(tǒng)中，如HDFSADFS具有高可用性，可以根據(jù)需求進(jìn)行副本的設(shè)置。
[0020]海量數(shù)據(jù)處理模塊流程圖如附圖3所示，該模塊對(duì)于存儲(chǔ)在HDFS上的海量數(shù)據(jù)進(jìn)行處理。根據(jù)分布式計(jì)算編程框架MapRedcue處理HDFS上的文件，然后進(jìn)行分割，分別分配到每個(gè)節(jié)點(diǎn)上進(jìn)行子任務(wù)的執(zhí)行，最后匯聚結(jié)果。該模塊通過并行處理可以大大提高數(shù)據(jù)的處理效率，充分利用服務(wù)器的資源，滿足了海量數(shù)據(jù)處理的需求。
【主權(quán)項(xiàng)】
1.一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法，其特征在于采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式，提高數(shù)據(jù)存儲(chǔ)、處理效率，節(jié)省CHJ及網(wǎng)絡(luò)資源;本方法包括:海量數(shù)據(jù)收集模塊、海量數(shù)據(jù)存儲(chǔ)模塊、海量數(shù)據(jù)處理模塊；海量數(shù)據(jù)收集模塊是通過數(shù)據(jù)聚合系統(tǒng)進(jìn)行數(shù)據(jù)收集，通過定制數(shù)據(jù)的發(fā)送方，用于用戶收集數(shù)據(jù)，然后寫到數(shù)據(jù)接受方，該模塊提供了一個(gè)分布式、可靠的數(shù)據(jù)收集功能；海量數(shù)據(jù)存儲(chǔ)模塊是通過分布式文件進(jìn)行存儲(chǔ)，具有多副本的高可靠性，將數(shù)據(jù)分布式存儲(chǔ)在各個(gè)節(jié)點(diǎn)上，滿足海量數(shù)據(jù)存儲(chǔ)的需求；海量數(shù)據(jù)處理模塊是通過分布式計(jì)算框架將海量數(shù)據(jù)分成若干部分，然后分到多個(gè)節(jié)點(diǎn)上進(jìn)行并行處理，滿足海量數(shù)據(jù)處理的效率。
【專利摘要】本發(fā)明提供一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法，采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式，提高數(shù)據(jù)存儲(chǔ)、處理效率，節(jié)省CPU及網(wǎng)絡(luò)資源；本方法包括：海量數(shù)據(jù)收集模塊、海量數(shù)據(jù)存儲(chǔ)模塊、海量數(shù)據(jù)處理模塊。本發(fā)明的結(jié)構(gòu)設(shè)計(jì)主要考慮海量數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理的問題。為了使得海量數(shù)據(jù)處理過程更加便捷、高效、安全，本文采用了分布式存儲(chǔ)、分布式計(jì)算框架、快速處理的方式，實(shí)現(xiàn)了一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。從而提高數(shù)據(jù)存儲(chǔ)、處理效率，節(jié)省CPU及網(wǎng)絡(luò)資源。
【IPC分類】G06F17/30
【公開號(hào)】CN105468756
【申請(qǐng)?zhí)枴緾N201510850498
【發(fā)明人】孫志云, 郭美思
【申請(qǐng)人】浪潮集團(tuán)有限公司
【公開日】2016年4月6日
【申請(qǐng)日】2015年11月30日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫志云;郭美思;
技術(shù)所有人：浪潮集團(tuán)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

海量數(shù)據(jù)處理算法相關(guān)技術(shù)

海量圖像數(shù)據(jù)管理系統(tǒng)相關(guān)技術(shù)

海量數(shù)據(jù)處理相關(guān)技術(shù)

海量數(shù)據(jù)處理技術(shù)相關(guān)技術(shù)

hadoop海量數(shù)據(jù)處理相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)方法