Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用的制作方法

文檔序號：7779234閱讀：210來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用的制作方法
【專利摘要】本發(fā)明提供了一種Hadoop集群系統(tǒng)調(diào)度方法、調(diào)度裝置及其應(yīng)用，涉及集群調(diào)度【技術(shù)領(lǐng)域】。所述方法包括步驟：為每個作業(yè)分配系統(tǒng)可用的最大資源；根據(jù)作業(yè)屬性，按照J(rèn)ohnson算法安排作業(yè)的執(zhí)行順序；按照所述執(zhí)行順序調(diào)度作業(yè)。本發(fā)明各實(shí)施例將MapReduce的兩階段（Map階段和Reduce階段）與經(jīng)典Johnson算法的兩階段條件完全匹配，且在每個作業(yè)的執(zhí)行期間，為其分配系統(tǒng)最大的可用資源，進(jìn)而能夠最小化總完工時間，減小集群系統(tǒng)的能耗。
【專利說明】Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及集群調(diào)度【技術(shù)領(lǐng)域】，尤其涉及一種Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用。
【背景技術(shù)】
[0002]Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop集群(cluster)部署時有三個角色，如圖1所示，分別是:客戶端(Client)機(jī)器、主節(jié)點(diǎn)(Master nodes)和從節(jié)點(diǎn)(Slave nodes)。
主節(jié)點(diǎn)主要負(fù)責(zé)Hadoop兩個關(guān)鍵功能模塊:數(shù)據(jù)存儲-Hadoop分布式文件系統(tǒng)(Hadoop
Distributed File System,HDFS)>以及對運(yùn)行在這個數(shù)據(jù)之上的并行計算(MapReduce)的監(jiān)督。名字節(jié)點(diǎn)(Name Node)和作業(yè)追蹤器(Job Tracker)是Hadoop架構(gòu)的主節(jié)點(diǎn)，任務(wù)追蹤器(Task Tracker)和數(shù)據(jù)節(jié)點(diǎn)(Data Node)是Hadoop集群中的從節(jié)點(diǎn)。
[0003]HDFS存儲Hadoop集群中所有存儲節(jié)點(diǎn)上的文件。
[0004]MapReduce是一種簡化并行計算的編程模型，用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算，在云計算和大數(shù)據(jù)處理時代，MapReduce的開源實(shí)現(xiàn)Hadoop以其通用、方便實(shí)用等特征得到了迄今為止最為廣泛的應(yīng)用。每個MapReduce作業(yè)的執(zhí)行包括Map階段和Reduce階段，Map階段分成多個Map任務(wù),Reduce階段包括多個Reduce任務(wù)。每個Map任務(wù)處理輸入數(shù)據(jù)的一個邏輯分片(split)。split是一個邏輯概念，它只包含一些元數(shù)據(jù)信息，比如數(shù)據(jù)起始位置、數(shù)據(jù)長度、數(shù)據(jù)所在節(jié)點(diǎn)等。split的劃分方法通常由用戶自己決定，split的多少決定了 Map任務(wù)的數(shù)目。
[0005]Name Node負(fù)責(zé)文件系統(tǒng)命名空間和客戶端的訪問控制。Job Tracker負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度，同時跟蹤任務(wù)的執(zhí)行進(jìn)度、資源使用量等信息，并將這些信息告訴任務(wù)調(diào)度器(Task Scheduler)，而調(diào)度器會在資源出現(xiàn)空閑時，選擇合適的任務(wù)使用這些資源。在Hadoop集群中，任務(wù)調(diào)度器是一個可插拔的模塊，用戶可以根據(jù)自己的需要設(shè)計相應(yīng)的調(diào)度器。Task Tracker會周期性地通過心跳(Heartbeat)將本節(jié)點(diǎn)上資源的使用情況和任務(wù)的執(zhí)行進(jìn)度匯報給Job Tracker,同時接收J(rèn)ob Tracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作(如啟動新任務(wù)、殺死任務(wù)等)。Task Tracker使用“slot”等量劃分本節(jié)點(diǎn)上的資源量。slot不是CPU的核，也不是存儲芯片，它是一個邏輯概念，一個節(jié)點(diǎn)的slot的數(shù)量用來表示某個節(jié)點(diǎn)的資源的容量或者說是能力的大小，因而slot是Hadoop的資源單位。Hadoop利用slot來管理分配節(jié)點(diǎn)的資源。每個作業(yè)申請資源以slot為單位,每個節(jié)點(diǎn)會確定自己的計算能力以及存儲器，確定自己包含的Slot總量。當(dāng)某個作業(yè)要開始執(zhí)行時，先向JobTracker申請slot, —個任務(wù)獲取到一個slot后才有機(jī)會運(yùn)行，而Hadoop調(diào)度器的作用就是將各個Task Tracker上的空閑slot分配給任務(wù)使用。slot分為Map slot和Reduceslot兩種，分別供Map Task和Reduce Task使用。
[0006]Data Node是Hadoop集群中的存儲節(jié)點(diǎn)，它表示分布式文件系統(tǒng)(多個Data Node節(jié)點(diǎn)的情況下，是其中一部分)。[0007]客戶端機(jī)器集合了 Hadoop上所有的集群設(shè)置，但既不包括主節(jié)點(diǎn)也不包括從節(jié)點(diǎn)。取而代之的，客戶端機(jī)器的作用是把數(shù)據(jù)加載到集群中，遞交給MapReduce進(jìn)行數(shù)據(jù)處理，并在工作結(jié)束后取回或者查看結(jié)果。
[0008]任務(wù)調(diào)度是Hadoop集群系統(tǒng)中的核心技術(shù),在云計算研究中，MapReduce環(huán)境的作業(yè)調(diào)度帶來了新的課題和挑戰(zhàn)，引起了越來越多的重視。最初，Hadoop默認(rèn)的FIFO (先入先出)調(diào)度器專為周期性執(zhí)行大規(guī)模批量作業(yè)而設(shè)計。隨著MapReduce集群系統(tǒng)的用戶數(shù)量的增加，計算能力調(diào)度器和Hadoop公平調(diào)度器(HFS:Hadoop Fair Scheduling)的出現(xiàn)，提供了更高效的集群共享方式，但是，現(xiàn)有的調(diào)度器還不能提供對最小化作業(yè)集完工時間的支持，當(dāng)提交作業(yè)為一個作業(yè)集時，完工時間可能較長因而導(dǎo)致總能耗較高。
[0009]自從可插入式調(diào)度器實(shí)現(xiàn)以來，用戶可以根據(jù)自己的需要設(shè)計相應(yīng)的調(diào)度器，目前業(yè)內(nèi)已研發(fā)了多種調(diào)度器算法。一個研究小組提出了一種通過在Hadoop集群中創(chuàng)建兩
個資源池(Pools)的啟發(fā)式算法-Balanced Pools算法,其將業(yè)務(wù)集分為兩個子集,并分
別由兩個資源池處理，以負(fù)載均衡并最小化任務(wù)的總完工時間，該算法雖然能夠在一定程度上縮短總完工時間，但是還未能實(shí)現(xiàn)總完工時間的最小化。

【發(fā)明內(nèi)容】

[0010]本發(fā)明要解決的技術(shù)問題是:提供一種Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用，能夠最小化作業(yè)集的總完工時間。
[0011]為解決上述技術(shù)問題，第一方面，本發(fā)明實(shí)施例提供了一種Hadoop集群系統(tǒng)調(diào)度方法，所述方法包括步驟:
[0012]為每個作業(yè)分配系統(tǒng)可用的最大資源；
[0013]根據(jù)作業(yè)屬性，按照J(rèn)ohnson算法安排作業(yè)的執(zhí)行順序；
[0014]按照所述執(zhí)行順序調(diào)度作業(yè)。
[0015]結(jié)合第一方面，在第一種可能的實(shí)現(xiàn)方式中，所述為每個作業(yè)分配系統(tǒng)可用的最大資源中:
[0016]當(dāng)作業(yè)請求的系統(tǒng)資源R等于系統(tǒng)可用的最大資源S時，為所述作業(yè)分配所述系統(tǒng)可用的最大資源S。
[0017]結(jié)合第一方面，在第二種可能的實(shí)現(xiàn)方式中，所述為每個作業(yè)分配系統(tǒng)可用的最大資源中:
[0018]當(dāng)作業(yè)請求的系統(tǒng)資源R小于系統(tǒng)可用的最大資源S時，根據(jù)所述系統(tǒng)可用的最大資源S對所述作業(yè)分片，并為分片后的所述作業(yè)分配所述系統(tǒng)可用的最大資源S。
[0019]結(jié)合第一方面，在第三種可能的實(shí)現(xiàn)方式中，所述為每個作業(yè)分配系統(tǒng)可用的最大資源中:
[0020]當(dāng)作業(yè)請求的系統(tǒng)資源R大于系統(tǒng)可用的最大資源S時，按照執(zhí)行N波來為所述作業(yè)分配資源；
[0021 ] 其中，N=R/S向上取整。
[0022]結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式，在第四種可能的實(shí)現(xiàn)方式中，當(dāng)R/S不為整數(shù)時，為第I至第N-1波任務(wù)分配系統(tǒng)可用的最大資源S，為第N波任務(wù)分配其所需要的資源；[0023]當(dāng)R/S為整數(shù)時，為每波任務(wù)分配系統(tǒng)可用的最大資源。
[0024]結(jié)合第一方面或第一方面的上述任一種可能的實(shí)現(xiàn)方式，在第五種可能的實(shí)現(xiàn)方式中，所述作業(yè)屬性為Ai包括階段持續(xù)時間和階段類型，且
[0025]
【權(quán)利要求】
1.一種Hadoop集群系統(tǒng)調(diào)度方法，其特征在于，所述方法包括步驟: 為每個作業(yè)分配系統(tǒng)可用的最大資源；根據(jù)作業(yè)屬性，按照J(rèn)ohnson算法安排作業(yè)的執(zhí)行順序；按照所述執(zhí)行順序調(diào)度作業(yè)。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述為每個作業(yè)分配系統(tǒng)可用的最大資源中: 當(dāng)作業(yè)請求的系統(tǒng)資源R等于系統(tǒng)可用的最大資源S時，為所述作業(yè)分配所述系統(tǒng)可用的最大資源S。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述為每個作業(yè)分配系統(tǒng)可用的最大資源中: 當(dāng)作業(yè)請求的系統(tǒng)資源R小于系統(tǒng)可用的最大資源S時，根據(jù)所述系統(tǒng)可用的最大資源S對所述作業(yè)分片，并為分片后的所述作業(yè)分配所述系統(tǒng)可用的最大資源S。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述為每個作業(yè)分配系統(tǒng)可用的最大資源中: 當(dāng)作業(yè)請求的系統(tǒng)資源R大于系統(tǒng)可用的最大資源S時，按照執(zhí)行N波來為所述作業(yè)分配資源；其中，N=R/S向上取整。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，當(dāng)R/S不為整數(shù)時，為第I至第N-1波任務(wù)分配系統(tǒng)可用的最大資源S，為第N波任務(wù)分配其所需要的資源；當(dāng)R/S為整數(shù)時，為每波任務(wù)分配系統(tǒng)可用的最大資源。
6.根據(jù)權(quán)利要求1至5中任一項所述的方法，其特征在于，所述作業(yè)屬性為Ai包括階段持續(xù)時間和階段類型，且

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，在所述根據(jù)作業(yè)屬性，按照J(rèn)ohnson算法安排作業(yè)的執(zhí)行順序的步驟中: 將階段類型為m的作業(yè)根據(jù)階段持續(xù)時間由短到長的順序排序；將階段類型為r的作業(yè)根據(jù)階段持續(xù)時間由長到短的順序排序；且將階段類型為m的作業(yè)排在階段類型為r的作業(yè)之前執(zhí)行。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，階段類型相同的作業(yè)按照編號由小到大的順序排序。
9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述方法還包括步驟: 為每個作業(yè)編號。
10.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述方法還包括步驟: 估算作業(yè)的階段持續(xù)時間。
11.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述估算作業(yè)的階段持續(xù)時間的步驟中: 當(dāng)作業(yè)請求的系統(tǒng)資源R等于所述系統(tǒng)可用的最大資源S時，根據(jù)所述作業(yè)請求的系統(tǒng)資源以及系統(tǒng)的先驗信息估算所述作業(yè)的階段持續(xù)時間。
12.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述估算作業(yè)的階段持續(xù)時間的步驟中: 當(dāng)作業(yè)請求的系統(tǒng)資源R不等于所述系統(tǒng)可用的最大資源S時，根據(jù)所述作業(yè)所分配到的資源以及系統(tǒng)的先驗信息估算所述作業(yè)的階段持續(xù)時間。
13.—種Hadoop集群系統(tǒng)的調(diào)度裝置，其特征在于，所述裝置包括: 分配模塊，用于為每個作業(yè)分配系統(tǒng)可用的最大資源；排序模塊，用于根據(jù)作業(yè)屬性，按照J(rèn)ohnson算法安排作業(yè)的執(zhí)行順序；調(diào)度模塊，用于按照所述執(zhí)行順序調(diào)度作業(yè)。
14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述分配模塊: 在作業(yè)請求的系統(tǒng)資源M等于系統(tǒng)可用的最大資源P時，為所述作業(yè)分配所述系統(tǒng)可用的最大資源P。
15.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述分配模塊: 在作業(yè)請求的系統(tǒng)資源M小`于系統(tǒng)可用的最大資源P時，根據(jù)所述系統(tǒng)可用的最大資源P對所述作業(yè)分片，并為分片后的所述作業(yè)分配所述系統(tǒng)可用的最大資源P。
16.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述分配模塊: 在作業(yè)請求的系統(tǒng)資源R大于系統(tǒng)可用的最大資源S時，按照執(zhí)行N波來為所述作業(yè)分配資源；其中，N=R/S向下取整。
17.根據(jù)權(quán)利要求16所述的裝置，其特征在于，裝置分配模塊在R/S不為整數(shù)時，為第I至第N-1波任務(wù)分配系統(tǒng)可用的最大資源S，為第N波任務(wù)分配其所需要的資源；在R/S為整數(shù)時，為每波任務(wù)分配系統(tǒng)可用的最大資源。
18.根據(jù)權(quán)利要求13至17中任一項所述的裝置，其特征在于，所述作業(yè)屬性為Ai包括階段持續(xù)時間和階段類型，且

19.根據(jù)權(quán)利要求18所述的裝置，其特征在于，所述排序模塊: 將階段類型為m的作業(yè)根據(jù)階段持續(xù)時間由短到長的順序排序；將階段類型為r的作業(yè)根據(jù)階段持續(xù)時間由長到短的順序排序；且將階段類型為m的作業(yè)排在階段類型為r的作業(yè)之前執(zhí)行。
20.根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述排序模塊將階段類型相同的作業(yè)按照編號由小到大的順序排序。
21.根據(jù)權(quán)利要求20所述的裝置，其特征在于，所述裝置還包括: 編號模塊，用于為每個作業(yè)編號。
22.根據(jù)權(quán)利要求18所述的裝置，其特征在于，所述裝置還包括: 估算模塊，用于估算作業(yè)的階段持續(xù)時間。
23.根據(jù)權(quán)利要求22所述的裝置，其特征在于，所述估算模塊: 在作業(yè)請求的系統(tǒng)資源R等于所述系統(tǒng)可用的最大資源S時，根據(jù)所述作業(yè)請求的系統(tǒng)資源以及系統(tǒng)的先驗信息系統(tǒng)估算所述作業(yè)的階段持續(xù)時間。
24.根據(jù)權(quán)利要求22所述的裝置，其特征在于，所述估算模塊: 在作業(yè)請求的系統(tǒng)資源R不等于所述系統(tǒng)可用的最大資源S時，根據(jù)所述作業(yè)所分配到的資源以及系統(tǒng)的先驗信息估算所述作業(yè)的階段持續(xù)時間。
25.—種Hadoop集群系統(tǒng)，其特征在于，包括權(quán)利要求13至24中任一項所述的調(diào)度裝置。
26.—種Hadoop集群系統(tǒng)的功耗降低方法，其特征在于，所述Hadoop集群系統(tǒng)使用權(quán)利要求I至12中任一項所述的方法進(jìn)行調(diào)度。
【文檔編號】H04L29/08GK103685492SQ201310651432
【公開日】2014年3月26日申請日期:2013年12月3日優(yōu)先權(quán)日:2013年12月3日
【發(fā)明者】田文洪, 陳瑜, 王心陽申請人:北京智谷睿拓技術(shù)服務(wù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：田文洪;陳瑜;王心陽;
技術(shù)所有人：北京智谷睿拓技術(shù)服務(wù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

集群系統(tǒng)調(diào)度器相關(guān)技術(shù)

多層輸送裝置調(diào)度系統(tǒng)相關(guān)技術(shù)

集群系統(tǒng)相關(guān)技術(shù)

pdt集群系統(tǒng)相關(guān)技術(shù)

對講機(jī)集群系統(tǒng)相關(guān)技術(shù)

lvs集群系統(tǒng)相關(guān)技術(shù)

寬窄帶融合集群系統(tǒng)相關(guān)技術(shù)

移動集群系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用的制作方法

Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用的制作方法