国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      離散流處理模型下批次間隔大小的動態(tài)設(shè)置系統(tǒng)及方法_2

      文檔序號:9910856閱讀:來源:國知局
      行時間,tgr_為本 組的初始間隔值。
      [0043] 其中,數(shù)據(jù)源包括Hadoop分布式文件系統(tǒng)HDFS、端口信息、Kafka和Flume。
      [0044]本發(fā)明的該方法通過觀察模塊收集每個批次的處理時間,在批次控制模塊上運(yùn)行 對批次間隔值預(yù)處理和調(diào)整算法,根據(jù)批次控制模塊中計算的間隔值從接受器中取出該間 隔值對應(yīng)的數(shù)據(jù),并任利用務(wù)管理模塊將每個批次劃分為分布式任務(wù),并分配到工作節(jié)點(diǎn) 中進(jìn)行計算。
      [0045]在預(yù)處理階段,觀察模塊收集批次執(zhí)行時間并在批次控制模塊執(zhí)行預(yù)處理算法計 算間隔值大小。當(dāng)批次控制模塊計算間隔值后,按照該計算的間隔值大小,從接收器中取出 與計算的間隔值對應(yīng)的數(shù)據(jù)形成一個批次數(shù)據(jù),任務(wù)管理模塊將每個批次劃分為分布式任 務(wù),并分配到工作節(jié)點(diǎn)中進(jìn)行計算該批次數(shù)據(jù)。
      [0046] 本發(fā)明的有益效果:
      [0047] (1)該發(fā)明可以自動設(shè)置批次間隔大小,避免人工設(shè)置的誤差;
      [0048] (2)該發(fā)明能夠自動檢測集群負(fù)載情況,并結(jié)合具體的負(fù)載信息對批次間隔大小 進(jìn)行自動調(diào)整;
      [0049] (3)該發(fā)明可以對未及時處理的累積的數(shù)據(jù)進(jìn)行即時處理,避免因?yàn)閿?shù)據(jù)累積導(dǎo) 致系統(tǒng)不穩(wěn)定;
      [0050] (4)該發(fā)明可以使系統(tǒng)的延遲達(dá)到較小的狀態(tài),減少了流處理的處理時延同時并 保障了系統(tǒng)的穩(wěn)定運(yùn)行。
      【附圖說明】
      [0051] 圖1為流處理模型示意圖;
      [0052]圖2(a)為批次處理時延和間隔大小為線性關(guān)系;
      [0053] 圖2(b)為批次處理時延和間隔大小為二次線性關(guān)系;
      [0054] 圖3(a)為線性負(fù)載示意圖;
      [0055] 圖3(b)為調(diào)度延時示意圖;
      [0056] 圖4為現(xiàn)有技術(shù)的系統(tǒng)架構(gòu)圖;
      [0057]圖5為本發(fā)明系統(tǒng)架構(gòu)圖;
      [0058]圖6為現(xiàn)有技術(shù)的系統(tǒng)流程圖;
      [0059]圖7為本發(fā)明的系統(tǒng)流程圖;
      [0060]圖8(a)為線性負(fù)載分析示意圖;
      [0061 ]圖8(b)為非線性負(fù)載分析示意圖;
      [0062]圖9為本發(fā)明的預(yù)處理過程流程圖;
      [0063]圖10為本發(fā)明的動態(tài)調(diào)整流程圖;
      [0064]圖11為本發(fā)明的動態(tài)調(diào)整流程圖中間隔值的確定方法流程圖;
      [0065]圖12為本發(fā)明預(yù)處理階段均時延實(shí)驗(yàn)結(jié)果圖 [0066]圖13為Reduce負(fù)載下實(shí)驗(yàn)結(jié)果圖;
      [0067]圖14為Join負(fù)載下實(shí)驗(yàn)結(jié)果圖;
      [0068]圖15為該發(fā)明在集群變化時動態(tài)調(diào)整實(shí)驗(yàn)結(jié)果圖。
      【具體實(shí)施方式】
      [0069]下面結(jié)合附圖與實(shí)施例對本發(fā)明作進(jìn)一步說明。
      [0070] 1.1批次間隔和延時
      [0071] 批處理在某個特定的周期完成一系列的確定性計算,定義這個特定的周期為批次 (Batch)。其周期的大小定義為批次間隔長度(interval size)。在系統(tǒng)中可以定義一個時 間周期作為間隔長度,例如從數(shù)據(jù)源以Is為單位讀取數(shù)據(jù)流,那么Is就是間隔長度。除此之 外還可以采用利用一定量的數(shù)據(jù)大小作為間隔長度(interval size),例如數(shù)據(jù)源以1Mb為 單位讀取流數(shù)據(jù),那么1Mb就是間隔長度。對于基于批次的數(shù)據(jù)流系統(tǒng)來講,本發(fā)明使用時 間周期作為間隔長度,而不采用數(shù)據(jù)大小作為間隔長度。這是因?yàn)椴煌臄?shù)據(jù)集的速率不 同導(dǎo)致數(shù)據(jù)集到達(dá)的時間不同,從而使得流處理的控制變得困難,不利于任務(wù)的管理和調(diào) 度。
      [0072] 圖1是一個典型的基于批的流處理模型,定義一條數(shù)據(jù)流為[aut]其中表示在時 間間隔內(nèi)獲得的流數(shù)據(jù)元組。從圖1中看出流處理系統(tǒng)在接收到每個數(shù)據(jù)元組后,會放入 Buffer緩存中,之后緩沖數(shù)據(jù)會轉(zhuǎn)化為數(shù)據(jù)塊并放入Pushing隊(duì)列,流處理系統(tǒng)將Pushing 隊(duì)列中的數(shù)據(jù)源源不斷取出并進(jìn)行計算。因而定義流處理系統(tǒng)的端對端的延時(batch delayK為流處理系統(tǒng)從接受數(shù)據(jù)分組 &1,到這個數(shù)據(jù)分組計算完畢之后的時間。設(shè)端對 端延時C,為
      [0073]
      [0074] 其中,《代表批次[&1山]中端對端的延時為分組在流處理系統(tǒng)中的排隊(duì)等待 時延,4為這段數(shù)據(jù)的處理時延。很顯然,整個端對端的時延和批次間隔長度有關(guān)系,在相 同條件下,每段的批次間隔越長,相應(yīng)的端對端時延就越大。
      [0075] 1.2端對端延遲和批次間隔關(guān)系
      [0076]對于基于批次的流處理系統(tǒng),根據(jù)操作的不同分為以下三種情況。
      [0077]情況(一):流處理系統(tǒng)在接收完數(shù)據(jù)元組ai之后,只對ai進(jìn)行操作,例如map操作, filter 操作。
      [0078]情況(二):流處理系統(tǒng)在接收完元組&1之后要與其他的元組進(jìn)行關(guān)聯(lián)性操作,例 如jo in操作。
      [0079] 情況(三):窗口操作,計算過去的一段時間周期內(nèi)的窗口的記錄。
      [0080] 對于情況(一),假定傳輸速度不變,網(wǎng)絡(luò)傳輸不會對數(shù)據(jù)的處理產(chǎn)生影響。對于元 組流處理的處理時間畋和元組的批次間隔Δ tl之間的關(guān)系為
      [0081 ] dp
      [0082] 其中,
      [0083] θ,χ) = α·-^-^+.ο V
      [0084] δ表示數(shù)據(jù)流的流入速率,α表示元組處理的影響因子,ν表示元組的處理速率,χ代 表批次處理的間隔大?。ㄓ脮r間表示),〇表示空機(jī)運(yùn)行時的處理速度??梢妼τ谇闆r(一) 中,處理單個元組,元組處理時間和元組的批次間隔時間是線性關(guān)系。這里忽略了不同負(fù)載 下,處理效率的影響。
      [0085] 對于情況(二)中,因?yàn)樵M最后的計算要考慮到另外元組的的計算情況。所以最 終的元組處理時間為
      [0086] dti =0(^) ·0([,)
      [0087] 可見處理時間和元組的批次間隔大小是非線性關(guān)系。
      [0088] 圖2(a)和圖2(b)表示在同一個系統(tǒng),批次處理時間和批次大小之間的關(guān)系。其中 圖2(a)表示在系統(tǒng)負(fù)載和間隔大小之間為線性關(guān)系,圖2(b)表示系統(tǒng)負(fù)載和間隔大小為二 次線性關(guān)系。橫坐標(biāo)表示批次間隔大小,實(shí)線表示批次的處理時間與批次間隔大小之間的 關(guān)系,虛線表示批次間隔和處理時間相等。在下文中為了敘述的方便本發(fā)明把虛線叫做批 次間隔線。
      [0089] 由于根據(jù)批次處理的時間和批次大小的關(guān)系,本發(fā)明得出了以下性質(zhì):
      [0090] 性質(zhì)1:假設(shè)對于Vk,u,當(dāng)元組處理時間等于批次間隔時間長度時,系統(tǒng)處于最 優(yōu)狀態(tài)。這時系統(tǒng)的系統(tǒng)吞吐量最大,流數(shù)據(jù)不發(fā)生阻塞。
      [0091] 證明:觀察圖2(a)和圖2(b),直線的交點(diǎn)表示此時批次處理時間等于間隔時間,這 時流處理的運(yùn)行為最優(yōu)狀態(tài),流數(shù)據(jù)到來都可以及時處理并且不會發(fā)生系統(tǒng)的空載。針對 于情況(一)如圖2(a)所示,在點(diǎn)h之前,元組處理時間大于元組間隔時間,從而導(dǎo)致元組在 系統(tǒng)中發(fā)生阻塞,在點(diǎn)li之后,元組的處理時間小于元組間隔時間,導(dǎo)致系統(tǒng)空轉(zhuǎn)吞吐量下 降。同樣,情況(二),在點(diǎn)1 2之前阻塞,點(diǎn)12和點(diǎn)13之間是吞吐量下降,點(diǎn)13之后又發(fā)生阻塞。 因而對于情況(二),本發(fā)明的目標(biāo)是求得兩條曲線的第一個交點(diǎn)。
      [0092 ]所以本發(fā)明把問題就轉(zhuǎn)化為求得兩條曲線的第一個交點(diǎn)??梢娕伍g隔決定了系 統(tǒng)的吞吐量和穩(wěn)定性。在系統(tǒng)的開發(fā)過程中,這個間隔值往往會提前由系統(tǒng)開發(fā)人員根據(jù) 經(jīng)驗(yàn)進(jìn)行確定,導(dǎo)致這個值的設(shè)置主觀因素偏多。所以正確設(shè)置批次間隔時間成為解決平 衡系統(tǒng)延遲和系統(tǒng)吞吐率平衡的關(guān)鍵。
      [0093] 2問題假設(shè)
      [0094]假設(shè)所有的批次處理都能夠在目標(biāo)時間內(nèi)完成,即不存在批次間隔線和處理時間 線之間沒有交點(diǎn)。對于流處理系統(tǒng)來講,當(dāng)批次間隔為0時,系統(tǒng)需要運(yùn)轉(zhuǎn),因而其處理時間 大于0。根據(jù)零點(diǎn)存在性定理可以推出,若批次間隔線和處理時間線之間有交點(diǎn),那么必然 存在一點(diǎn)使得處理時間小于批次間隔。而根據(jù)假設(shè)批次間隔線和處理時間線之間沒有交 點(diǎn),那么得出無論在什么批次間隔之下,其處理時間都大于時間間隔。在這種情況下,無論 怎么調(diào)整時間間隔都無法使得系統(tǒng)處于資源滿足狀態(tài),而系統(tǒng)處于資源不滿足狀態(tài),不屬 于本發(fā)明的研究范圍。
      [0095] 3目標(biāo)實(shí)現(xiàn)
      [0096] 由以上所述,本發(fā)明最終要實(shí)現(xiàn)對批次大小進(jìn)行調(diào)整,使得目標(biāo)間隔值等于處理 時間,從而達(dá)到延時和吞吐量的均衡。針對這一問題,把本發(fā)明目標(biāo)分解成以下幾個小部 分。
      [0097]
      當(dāng)前第2頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1