国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種大數(shù)據(jù)的處理方法、系統(tǒng)的制作方法

      文檔序號:6545471閱讀:238來源:國知局
      一種大數(shù)據(jù)的處理方法、系統(tǒng)的制作方法
      【專利摘要】本發(fā)明適用于信息處理【技術(shù)領(lǐng)域】,提供了一種大數(shù)據(jù)的處理方法、系統(tǒng),所述方法包括:實時處理系統(tǒng)根據(jù)預(yù)置的配置文件獲取異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息并發(fā)送所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息至批處理系統(tǒng),所述批處理系統(tǒng)根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表;實時處理系統(tǒng)接收源數(shù)據(jù)流,對所述源數(shù)據(jù)流進(jìn)行實時處理并寫入實時處理結(jié)果至實時處理系統(tǒng)的數(shù)據(jù)庫中,同時發(fā)送實時處理結(jié)果至批處理系統(tǒng),以由批處理系統(tǒng)將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中;批處理系統(tǒng)接收批處理作業(yè)指令,根據(jù)所述批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。本發(fā)明,避免了手工進(jìn)行數(shù)據(jù)預(yù)處理的操作,減少了數(shù)據(jù)處理前期的預(yù)處理時間成本。
      【專利說明】一種大數(shù)據(jù)的處理方法、系統(tǒng)
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于信息處理【技術(shù)領(lǐng)域】,尤其涉及一種大數(shù)據(jù)的處理方法、系統(tǒng)。
      【背景技術(shù)】
      [0002]批處理和實時處理是目前大數(shù)據(jù)分析中對于數(shù)據(jù)處理的兩種基本方法。所謂批處理就是將作業(yè)按照它們的性質(zhì)分組(或分批),然后再成組(或成批)地提交給計算機(jī)系統(tǒng),由計算機(jī)自動完成處理后再輸出結(jié)果,它的目的是為了提高系統(tǒng)吞吐量和資源的利用率。現(xiàn)在的批處理系統(tǒng),如分布式文件系統(tǒng)、并行數(shù)據(jù)庫等都大大地提高了系統(tǒng)的資源利用率和作業(yè)吞吐量,不僅適用于存儲在內(nèi)存中的小數(shù)據(jù)集,同時還能夠擴(kuò)展到處理龐大的數(shù)據(jù)集。所謂實時處理是指實時數(shù)據(jù)通過接入層源源不斷地進(jìn)入實時處理系統(tǒng),在數(shù)據(jù)處理層根據(jù)相應(yīng)的計算任務(wù)進(jìn)行計算,然后將計算結(jié)果寫入到歸檔層,供下一個系統(tǒng)查詢或者使用?,F(xiàn)在的實時處理系統(tǒng)如S4、Storm、Puma等都具有低延遲、支持實時不間斷處理等特性?;谶@兩種方式獨立存在的開源系統(tǒng)不勝其數(shù),不同的使用場景使得大數(shù)據(jù)處理分析逐漸地向兩個獨立地方向發(fā)展。
      [0003]但是隨著數(shù)據(jù)量的大規(guī)模增長,不同的服務(wù)對數(shù)據(jù)的處理要求變得復(fù)雜多樣,我們在實踐中發(fā)現(xiàn)了如下的實際需求:在對海量數(shù)據(jù)進(jìn)行批處理時,需要自動獲取其中某個特定的事件或者實體的實時狀態(tài);同樣地,在對大數(shù)據(jù)進(jìn)行實時處理時,需要自動查詢某個特定事件或者實體的歷史記錄。在這種情況下,人們真正想要的是批處理和實時處理的結(jié)合體,既滿足實時處理的需求,又獲取批處理深度挖掘后的數(shù)據(jù)價值。
      [0004]然而,在常見的實現(xiàn)方案中,大數(shù)據(jù)的批處理系統(tǒng)和實時處理系統(tǒng)為兩個獨立的系統(tǒng)。若要結(jié)合使用,實時數(shù)據(jù)經(jīng)過加工處理存儲到批處理系統(tǒng)的環(huán)節(jié)需要人工完成,人工建表和導(dǎo)入數(shù)據(jù)的過程不僅時間開銷巨大、效率低,而且人工成本也偏高。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明實施例提供了一種大數(shù)據(jù)的處理方法、系統(tǒng),旨在解決現(xiàn)有技術(shù)提供的大數(shù)據(jù)處理方法,不僅時間開銷巨大、效率低,而且人工成本也偏高的問題。
      [0006]一方面,提供一種大數(shù)據(jù)的處理方法,所述方法包括:
      [0007]實時處理系統(tǒng)解析預(yù)置的配置文件,獲取異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息;
      [0008]實時處理系統(tǒng)發(fā)送所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息至批處理系統(tǒng),所述批處理系統(tǒng)根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表;
      [0009]實時處理系統(tǒng)接收源數(shù)據(jù)流,對所述源數(shù)據(jù)流進(jìn)行實時處理;
      [0010]實時處理系統(tǒng)寫入實時處理結(jié)果至實時處理系統(tǒng)的數(shù)據(jù)庫中;
      [0011]實時處理系統(tǒng)發(fā)送實時處理結(jié)果至批處理系統(tǒng),以由批處理系統(tǒng)將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中;
      [0012]批處理系統(tǒng)接收批處理作業(yè)指令;
      [0013]批處理系統(tǒng)根據(jù)所述批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。[0014]進(jìn)一步地,所述批處理作業(yè)指令是實時處理系統(tǒng)推送至批處理系統(tǒng)的;或
      [0015]所述批處理作業(yè)指令是客戶分配給批處理系統(tǒng)的。
      [0016]進(jìn)一步地,所述實時處理系統(tǒng)發(fā)送實時處理結(jié)果至批處理系統(tǒng),由批處理系統(tǒng)將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中包括:
      [0017]實時處理系統(tǒng)設(shè)置定時器;
      [0018]實時處理系統(tǒng)建立和批處理系統(tǒng)的套接字通信;
      [0019]實時處理系統(tǒng)根據(jù)所述定時器設(shè)置的周期,周期性地將所述實時處理結(jié)果發(fā)送至批處理系統(tǒng)。
      [0020]另一方面,提供一種實時處理系統(tǒng),所述實時處理系統(tǒng)包括:
      [0021]數(shù)據(jù)結(jié)構(gòu)信息獲取單元,用于解析預(yù)置的配置文件,獲取異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息;
      [0022]數(shù)據(jù)結(jié)構(gòu)信息發(fā)送單元,用于發(fā)送所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息至批處理系統(tǒng),以由所述批處理系統(tǒng)根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表;
      [0023]實時處理單元,用于接收源數(shù)據(jù)流,對所述源數(shù)據(jù)流進(jìn)行實時處理;
      [0024]第一實時結(jié)果存儲單元,用于寫入實時處理結(jié)果至實時處理系統(tǒng)的數(shù)據(jù)庫中;
      [0025]實時結(jié)果發(fā)送單元,用于發(fā)送實時處理結(jié)果至批處理系統(tǒng),以由批處理系統(tǒng)先將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中,再根據(jù)接收到的批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。
      [0026]進(jìn)一步地,所述實時處理系統(tǒng)還包括:
      [0027]批處理作業(yè)指令推送單元,用于推送批處理作業(yè)指令至批處理系統(tǒng)。
      [0028]進(jìn)一步地,所述實時結(jié)果發(fā)送單元包括:
      [0029]定時器設(shè)置模塊,用于設(shè)置定時器;
      [0030]通信建立模塊,用于建立和批處理系統(tǒng)的套接字通信;
      [0031]實時結(jié)果發(fā)送模塊,用于根據(jù)所述定時器設(shè)置的周期,周期性地發(fā)送所述實時處理結(jié)果至批處理系統(tǒng)。
      [0032]又一方面,提供一種批處理系統(tǒng),所述批處理系統(tǒng)包括:
      [0033]數(shù)據(jù)結(jié)構(gòu)信息接收單元,用于接收實時處理系統(tǒng)發(fā)送的異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息;
      [0034]元數(shù)據(jù)表建立單元,用于根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表;
      [0035]實時結(jié)果接收單元,用于接收實時處理系統(tǒng)發(fā)送的實時處理結(jié)果;
      [0036]第二實時結(jié)果存儲單元,用于將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中;
      [0037]批處理作業(yè)指令接收單元,用于批處理系統(tǒng)接收批處理作業(yè)指令;
      [0038]批處理執(zhí)行單元,用于根據(jù)所述批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。
      [0039]進(jìn)一步地,所述批處理作業(yè)指令接收單元包括:
      [0040]第一批處理作業(yè)指令接收模塊,用于接收實時處理系統(tǒng)推送的批處理作業(yè)指令;或
      [0041]第二批處理作業(yè)指令接收模塊,用于接收批處理查詢客戶端分配的批處理作業(yè)指令。[0042]進(jìn)一步地,所述第二實時結(jié)果存儲單元周期性地將所述實時處理結(jié)果通過復(fù)制方式加載至批處理系統(tǒng)的數(shù)據(jù)庫中。
      [0043]再一方面,提供一種大數(shù)據(jù)的處理系統(tǒng),所述系統(tǒng)包括實時數(shù)據(jù)查詢客戶端、如上所述的實時處理系統(tǒng)、批處理查詢客戶端和如上所述的批處理系統(tǒng),所述實時數(shù)據(jù)查詢客戶端與所述實時處理系統(tǒng)連接,所述實時處理系統(tǒng)與所述批處理系統(tǒng)連接,所述批處理系統(tǒng)與所述批處理查詢客戶端連接。
      [0044]在本發(fā)明實施例,提供的實時處理系統(tǒng)可以支持多種異構(gòu)數(shù)據(jù)源,批處理系統(tǒng)提供AutoTransform、AutoPartition工具,通過這些自動化工具實現(xiàn)了自動建表、自動分塊和加載數(shù)據(jù)的機(jī)制,可以提高批處理的自動化程度,避免了手工進(jìn)行數(shù)據(jù)預(yù)處理的操作,減少了數(shù)據(jù)處理前期的預(yù)處理時間成本,提高了數(shù)據(jù)批處理的效率。另外,實時處理系統(tǒng)可以對流式數(shù)據(jù)實時處理的能力的同時,將實時處理結(jié)果實時寫入至批處理底層的PostgreSQL數(shù)據(jù)庫中,減少數(shù)據(jù)轉(zhuǎn)存過渡期的開銷。
      【專利附圖】

      【附圖說明】
      [0045]圖1是本發(fā)明實施例一提供的大數(shù)據(jù)的處理方法的實現(xiàn)流程圖;
      [0046]圖2是本發(fā)明實施例一提供的大數(shù)據(jù)的處理系統(tǒng)的結(jié)構(gòu)框圖。
      【具體實施方式】
      [0047]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
      [0048]在本發(fā)明實施例中,實時處理系統(tǒng)根據(jù)預(yù)置的配置文件獲取異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息,并發(fā)送所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息至批處理系統(tǒng),由批處理系統(tǒng)根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表;實時處理系統(tǒng)接收到源數(shù)據(jù)流后,對所述源數(shù)據(jù)流進(jìn)行實時處理,寫入實時處理結(jié)果至實時處理系統(tǒng)的數(shù)據(jù)庫中,同時發(fā)送實時處理結(jié)果至批處理系統(tǒng),以由批處理系統(tǒng)將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中,批處理系統(tǒng)接收到批處理作業(yè)指令后,根據(jù)所述批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。
      [0049]以下結(jié)合具體實施例對本發(fā)明的實現(xiàn)進(jìn)行詳細(xì)描述:
      [0050]實施例一
      [0051]圖1示出了本發(fā)明實施例一提供的大數(shù)據(jù)的處理方法的實現(xiàn)流程,詳述如下:
      [0052]在步驟SlOl中,實時處理系統(tǒng)解析預(yù)置的配置文件,獲取異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息。
      [0053]在本實施例中,實時處理系統(tǒng)可以預(yù)先根據(jù)待處理的異構(gòu)數(shù)據(jù)源的結(jié)構(gòu)信息進(jìn)行配置文件的設(shè)置,后續(xù),接收到源數(shù)據(jù)流后,實時處理系統(tǒng)即可根據(jù)預(yù)先設(shè)置的配置文件對接收到的源數(shù)據(jù)流進(jìn)行解析,得到所述源數(shù)據(jù)流的數(shù)據(jù)信息。
      [0054]其中,用戶成功登錄由實時處理系統(tǒng)和批處理系統(tǒng)組成的大數(shù)據(jù)的處理系統(tǒng)的主界面后,可以通過主界面左側(cè)的工具欄進(jìn)行數(shù)據(jù)源管理。管理員賬號用戶通過管理賬號登錄后,可以根據(jù)異構(gòu)數(shù)據(jù)源的結(jié)構(gòu)信息對配置文件進(jìn)行設(shè)置,而普通賬號用戶只可以查詢數(shù)據(jù)分析結(jié)果。[0055]在步驟S102中,實時處理系統(tǒng)發(fā)送所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息至批處理系統(tǒng),所述批處理系統(tǒng)根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表。
      [0056]在本實施例中,異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息中包括數(shù)據(jù)名稱、數(shù)據(jù)各字段的名稱和類型,批處理系統(tǒng)接收到異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息后,即可啟動AutoTransform工具,由AutoTransform工具根據(jù)該信息自動生成相應(yīng)的PostgreSQL或Hive建表語句,并通過建表語句在批處理系統(tǒng)的數(shù)據(jù)庫中建立元數(shù)據(jù)表。
      [0057]在步驟S103中,實時處理系統(tǒng)接收源數(shù)據(jù)流,對所述源數(shù)據(jù)流進(jìn)行實時處理,并寫入實時處理結(jié)果至實時處理系統(tǒng)的數(shù)據(jù)庫中。
      [0058]在本實施例中,實時處理系統(tǒng)中包括根據(jù)具體的應(yīng)用要求進(jìn)行編寫的特定的gStorm程序,gStorm程序可以根據(jù)預(yù)置的配置文件實時處理源數(shù)據(jù)流,并將需要的實時處理結(jié)果實時寫入到實時處理系統(tǒng)的持久化模塊數(shù)據(jù)庫中,以便實時查詢。
      [0059]在步驟S104中,實時處理系統(tǒng)發(fā)送實時處理結(jié)果至批處理系統(tǒng),以由批處理系統(tǒng)將所述實時處理存儲在元數(shù)據(jù)表中。
      [0060]在本實施例中,批處理系統(tǒng)采用Hadoop、Hive和PostgreSQL等開源組件。批處理系統(tǒng)接收到實時處理結(jié)果后,對實時處理結(jié)果中包括的數(shù)據(jù)進(jìn)行分塊,具體可以通過AutoPartition工具實現(xiàn)全局哈希分塊和本地哈希分塊。其中,全局哈希分塊是通過全局散列器執(zhí)行一個已定制過的Hadoop MapReduce作業(yè)來讀取存儲在批處理系統(tǒng)(HadoopDistributed File System, HDFS)的主節(jié)點上的數(shù)據(jù)文件,然后根據(jù)系統(tǒng)中子節(jié)點的個數(shù)將讀取的數(shù)據(jù)進(jìn)行重新劃分。本地哈希分塊是通過本地散列器將HDFS上的分區(qū)分別下載到每個子節(jié)點的本地文件系統(tǒng)中,然后基于最大塊大小設(shè)置將這些分區(qū)文件二次劃分為較小的塊。最后,批處理系統(tǒng)將這些較小的塊通過復(fù)制方式獨立地加載至批處理系統(tǒng)的各個子節(jié)點上的數(shù)據(jù)庫中。其中,各個子節(jié)點上的數(shù)據(jù)庫中存儲的數(shù)據(jù)按照日期和時間的順序進(jìn)行存儲。
      [0061]在步驟S105中,批處理系統(tǒng)接收批處理作業(yè)指令。
      [0062]在本實施例中,批處理系統(tǒng)通過兩種方式接收批處理作業(yè)指令。一種是實時處理系統(tǒng)推送批處理作業(yè)指令至批處理系統(tǒng)。其中,實時處理系統(tǒng)可以擴(kuò)展gStorm程序的Bolt功能,使其能與批處理系統(tǒng)的管理者“ JobTracker”進(jìn)行通信,并推送SQL命令給批處理系統(tǒng),再由批處理系統(tǒng)解析SQL語句為MapReduce任務(wù)。具體實現(xiàn)時,實時處理系統(tǒng)可以設(shè)置指定條件,當(dāng)滿足指定條件時,實時處理系統(tǒng)推送批處理作業(yè)指令至批處理系統(tǒng)。這種接收批處理作業(yè)指令的方式,在發(fā)揮gStorm對流式數(shù)據(jù)實時處理的能力的同時,將實時處理結(jié)果實時寫入至批處理底層的PostgreSQL數(shù)據(jù)庫中,減少數(shù)據(jù)轉(zhuǎn)存過渡期的開銷。另一種是由批處理系統(tǒng)等待客戶分配批處理作業(yè)指令。
      [0063]在步驟S106中,批處理系統(tǒng)根據(jù)所述批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。
      [0064]在本實施例中,批處理作業(yè)指令是SQL命令,批處理系統(tǒng)接收到SQL命令后,將SQL命令翻譯成MapReduce任務(wù),同時再將MapReduce任務(wù)對應(yīng)到底層關(guān)系型數(shù)據(jù)庫可以執(zhí)行的SQL語句,以實現(xiàn)快速查詢。
      [0065]本實施例,提供的實時處理系統(tǒng)可以支持多種異構(gòu)數(shù)據(jù)源,批處理系統(tǒng)提供AutoTransform、AutoPartition工具,通過這些自動化工具實現(xiàn)了自動建表、自動分塊和加載數(shù)據(jù)的機(jī)制,可以提高批處理的自動化程度,避免了手工進(jìn)行數(shù)據(jù)預(yù)處理的操作,減少了數(shù)據(jù)處理前期的預(yù)處理時間成本,提高了數(shù)據(jù)批處理的效率。另外,實時處理系統(tǒng)可以對流式數(shù)據(jù)實時處理的能力的同時,將實時處理結(jié)果實時寫入至批處理底層的PostgreSQL數(shù)據(jù)庫中,減少數(shù)據(jù)轉(zhuǎn)存過渡期的開銷。
      [0066]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述各實施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,相應(yīng)的程序可以存儲于一計算機(jī)可讀取存儲介質(zhì)中,所述的存儲介質(zhì),如R0M/RAM、磁盤或光盤等。
      [0067]實施例二
      [0068]圖2示出了本發(fā)明實施例二提供的大數(shù)據(jù)的處理系統(tǒng)的具體結(jié)構(gòu)框圖,為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分。該大數(shù)據(jù)的處理系統(tǒng)包括:實時數(shù)據(jù)查詢客戶端23、實時處理系統(tǒng)21、批處理查詢客戶端24和批處理系統(tǒng)22,所述實時數(shù)據(jù)查詢客戶端23與所述實時處理系統(tǒng)21連接,所述實時處理系統(tǒng)21與所述批處理系統(tǒng)22連接,所述批處理系統(tǒng)22與所述批處理查詢客戶端連接24。
      [0069]具體的,實時處理系統(tǒng)21包括:數(shù)據(jù)結(jié)構(gòu)信息獲取單元211、數(shù)據(jù)結(jié)構(gòu)信息發(fā)送單元212、實時處理單元213、第一實時結(jié)果存儲單元214和實時結(jié)果發(fā)送單元215。
      [0070]其中,數(shù)據(jù)結(jié)構(gòu)信息獲取單元211,用于解析預(yù)置的配置文件,獲取異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息;
      [0071]數(shù)據(jù)結(jié)構(gòu)信息發(fā)送單元212,用于發(fā)送所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息至批處理系統(tǒng),以由所述批處理系統(tǒng)根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表;
      [0072]實時處理單元213,用于接收源數(shù)據(jù)流,對所述源數(shù)據(jù)流進(jìn)行實時處理;
      [0073]第一實時結(jié)果存儲單元214,用于寫入實時處理結(jié)果至實時處理系統(tǒng)的數(shù)據(jù)庫中;
      [0074]實時結(jié)果發(fā)送單元215,用于發(fā)送實時處理結(jié)果至批處理系統(tǒng),以由批處理系統(tǒng)先將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中,再根據(jù)接收到的批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。
      [0075]進(jìn)一步地,實時處理系統(tǒng)21還包括:
      [0076]批處理作業(yè)指令推送單元,用于推送批處理作業(yè)指令至批處理系統(tǒng)。
      [0077]具體的,所述實時結(jié)果發(fā)送單元215包括:
      [0078]定時器設(shè)置模塊,用于設(shè)置定時器;
      [0079]通信建立模塊,用于建立和批處理系統(tǒng)的套接字通信;
      [0080]實時結(jié)果發(fā)送模塊,用于根據(jù)所述定時器設(shè)置的周期,周期性地發(fā)送所述實時處理結(jié)果至批處理系統(tǒng)。
      [0081]具體的,所述批處理系統(tǒng)22包括:數(shù)據(jù)結(jié)構(gòu)信息接收單元221、元數(shù)據(jù)表建立單元222、實時結(jié)果接收單元223、第二實時結(jié)果存儲單元224、批處理作業(yè)指令接收單元225和批處理執(zhí)行單元226。
      [0082]其中,數(shù)據(jù)結(jié)構(gòu)信息接收單元221,用于接收實時處理系統(tǒng)發(fā)送的異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息;
      [0083]元數(shù)據(jù)表建立單元222,用于根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表;[0084]實時結(jié)果接收單元223,用于接收實時處理系統(tǒng)發(fā)送的實時處理結(jié)果;
      [0085]第二實時結(jié)果存儲單元224,用于將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中;
      [0086]批處理作業(yè)指令接收單元225,用于接收批處理作業(yè)指令;
      [0087]批處理執(zhí)行單元226,用于根據(jù)所述批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。
      [0088]具體的,所述批處理作業(yè)指令接收單元225包括:
      [0089]第一批處理作業(yè)指令接收模塊,用于接收實時處理系統(tǒng)推送的批處理作業(yè)指令;或
      [0090]第二批處理作業(yè)指令接收模塊,用于接收批處理查詢客戶端24分配的批處理作業(yè)指令。
      [0091]具體的,所述第二實時結(jié)果存儲單元224周期性地將所述實時處理結(jié)果通過復(fù)制方式加載至批處理系統(tǒng)的數(shù)據(jù)庫中。
      [0092]具體的,實時數(shù)據(jù)查詢客戶端23可以發(fā)送實時查詢指令至實時處理系統(tǒng)21,進(jìn)行實時查詢。
      [0093]具體的,批處理系統(tǒng)22結(jié)合MapReduce框架和并行數(shù)據(jù)庫的優(yōu)勢,利用了MapReduce框架和并行數(shù)據(jù)庫的優(yōu)勢,其中MapReduce部分負(fù)責(zé)數(shù)據(jù)載入、轉(zhuǎn)換等任務(wù),并行數(shù)據(jù)庫負(fù)責(zé)查詢密集型任務(wù),兩者結(jié)合實現(xiàn)對離線數(shù)據(jù)進(jìn)行深度挖掘,不僅取得MapReduce等大規(guī)模并行數(shù)據(jù)處理架構(gòu)的容錯性,同時還可以高效地執(zhí)行復(fù)雜的SQL語句分析。
      [0094]另外,該大數(shù)據(jù)的處理系統(tǒng)還提供了人性化的一站式系統(tǒng)管理和交互環(huán)境,用戶可以直接通過Web端設(shè)定和修改系統(tǒng)參數(shù),實時監(jiān)控集群的運(yùn)行狀態(tài)。大數(shù)據(jù)處理系統(tǒng)還通過調(diào)用數(shù)據(jù)可視化框架,將查詢結(jié)果動態(tài)、美觀地呈現(xiàn)給用戶。
      [0095]本發(fā)明實施例已經(jīng)實際運(yùn)用于處理深圳市交通管理部門提供的真實的海量實時數(shù)據(jù),解決海量實時交通數(shù)據(jù)所面臨的主要技術(shù)瓶頸,包括快速檢索和高效分析。
      [0096]總體而言,支持批處理和實時處理的大數(shù)據(jù)的處理方法,實現(xiàn)了實時處理和批處理的互操作,既能夠滿足用戶對于海量歷史數(shù)據(jù)的統(tǒng)計分析的功能,又能夠支持實時數(shù)據(jù)查詢統(tǒng)計功能,人性化的界面展示模塊還能將查詢、分析結(jié)果通過實時動態(tài)圖表展示給用戶,可視化程度很高。
      [0097]本發(fā)明實施例提供的系統(tǒng)可以應(yīng)用在前述對應(yīng)的方法實施例一中,詳情參見上述實施例一的描述,在此不再贅述。
      [0098]值得注意的是,上述系統(tǒng)實施例中,所包括的各個單元只是按照功能邏輯進(jìn)行劃分的,但并不局限于上述的劃分,只要能夠?qū)崿F(xiàn)相應(yīng)的功能即可;另外,各功能單元的具體名稱也只是為了便于相互區(qū)分,并不用于限制本發(fā)明的保護(hù)范圍。
      [0099]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
      【權(quán)利要求】
      1.一種大數(shù)據(jù)的處理方法,其特征在于,所述方法包括: 實時處理系統(tǒng)解析預(yù)置的配置文件,獲取異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息; 實時處理系統(tǒng)發(fā)送所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息至批處理系統(tǒng),以由所述批處理系統(tǒng)根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表; 實時處理系統(tǒng)接收源數(shù)據(jù)流,對所述源數(shù)據(jù)流進(jìn)行實時處理; 實時處理系統(tǒng)寫入實時處理結(jié)果至實時處理系統(tǒng)的數(shù)據(jù)庫中; 實時處理系統(tǒng)發(fā)送實時處理結(jié)果至批處理系統(tǒng),以由批處理系統(tǒng)將所述實時處理結(jié)果存儲在兀數(shù)據(jù)表中; 批處理系統(tǒng)接收批處理作業(yè)指令; 批處理系統(tǒng)根據(jù)所述批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。
      2.如權(quán)利要求1所述的方法,其特征在于,所述批處理作業(yè)指令是實時處理系統(tǒng)推送至批處理系統(tǒng)的;或 所述批處理作業(yè)指令是客戶分配給批處理系統(tǒng)的。
      3.如權(quán)利要求1或2所述的方法,其特征在于,所述實時處理系統(tǒng)發(fā)送實時處理結(jié)果至批處理系統(tǒng),由批處理系統(tǒng)將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中包括: 實時處理系統(tǒng)設(shè)置定時器; 實時處理系統(tǒng)建立和批處理系統(tǒng)的套接字通信; 實時處理系統(tǒng)根據(jù)所述定時器設(shè)置的周期,周期性地將所述實時處理結(jié)果發(fā)送至批處理系統(tǒng)。
      4.一種實時處理系統(tǒng),其特征在于,所述實時處理系統(tǒng)包括: 數(shù)據(jù)結(jié)構(gòu)信息獲取單元,用于解析預(yù)置的配置文件,獲取異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息; 數(shù)據(jù)結(jié)構(gòu)信息發(fā)送單元,用于發(fā)送所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息至批處理系統(tǒng),以由所述批處理系統(tǒng)根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表; 實時處理單元,用于接收源數(shù)據(jù)流,對所述源數(shù)據(jù)流進(jìn)行實時處理; 第一實時結(jié)果存儲單元,用于寫入實時處理結(jié)果至實時處理系統(tǒng)的數(shù)據(jù)庫中; 實時結(jié)果發(fā)送單元,用于發(fā)送實時處理結(jié)果至批處理系統(tǒng),以由批處理系統(tǒng)先將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中,再根據(jù)接收到的批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。
      5.如權(quán)利要求4所述的實時處理系統(tǒng),其特征在于,所述實時處理系統(tǒng)還包括: 批處理作業(yè)指令推送單元,用于推送批處理作業(yè)指令至批處理系統(tǒng)。
      6.如權(quán)利要求4或5所述的實時處理系統(tǒng),其特征在于,所述實時結(jié)果發(fā)送單元包括: 定時器設(shè)置模塊,用于設(shè)置定時器; 通信建立模塊,用于建立和批處理系統(tǒng)的套接字通信; 實時結(jié)果發(fā)送模塊,用于根據(jù)所述定時器設(shè)置的周期,周期性地發(fā)送所述實時處理結(jié)果至批處理系統(tǒng)。
      7.一種批處理系統(tǒng),其特征在于,所述批處理系統(tǒng)包括: 數(shù)據(jù)結(jié)構(gòu)信息接收單元,用于接收實時處理系統(tǒng)發(fā)送的異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息; 元數(shù)據(jù)表建立單元,用于根據(jù)所述異構(gòu)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息建立元數(shù)據(jù)表;實時結(jié)果接收單元,用于接收實時處理系統(tǒng)發(fā)送的實時處理結(jié)果; 第二實時結(jié)果存儲單元,用于將所述實時處理結(jié)果存儲在元數(shù)據(jù)表中; 批處理作業(yè)指令接收單元,用于批處理系統(tǒng)接收批處理作業(yè)指令; 批處理執(zhí)行單元,用于根據(jù)所述批處理作業(yè)指令執(zhí)行相應(yīng)的批處理任務(wù),并展示作業(yè)結(jié)果。
      8.如權(quán)利要求7所述的批處理系統(tǒng),其特征在于,所述批處理作業(yè)指令接收單元包括: 第一批處理作業(yè)指 令接收模塊,用于接收實時處理系統(tǒng)推送的批處理作業(yè)指令;或 第二批處理作業(yè)指令接收模塊,用于接收批處理查詢客戶端分配的批處理作業(yè)指令。
      9.如權(quán)利要求7或8所述的批處理系統(tǒng),其特征在于,所述第二實時結(jié)果存儲單元周期性地將所述實時處理結(jié)果通過復(fù)制方式加載至批處理系統(tǒng)的數(shù)據(jù)庫中。
      10.一種大數(shù)據(jù)的處理系統(tǒng),其特征在于,所述系統(tǒng)包括實時數(shù)據(jù)查詢客戶端、如權(quán)利要求4至6任一項所述的實時處理系統(tǒng)、批處理查詢客戶端和如權(quán)利要求7至9任一項所述的批處理系統(tǒng),所述實時數(shù)據(jù)查詢客戶端與所述實時處理系統(tǒng)連接,所述實時處理系統(tǒng)與所述批處理系統(tǒng)連接,所述批處理系統(tǒng)與所述批處理查詢客戶端連接。
      【文檔編號】G06F17/30GK103942330SQ201410182903
      【公開日】2014年7月23日 申請日期:2014年4月30日 優(yōu)先權(quán)日:2014年4月30日
      【發(fā)明者】范小朋, 沈慧, 楊鑫, 趙東輝, 須成忠 申請人:深圳先進(jìn)技術(shù)研究院
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1