Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用的制作方法
【專利摘要】本發(fā)明提供了一種Hadoop集群系統(tǒng)調(diào)度方法、調(diào)度裝置及其應(yīng)用,涉及集群調(diào)度【技術(shù)領(lǐng)域】。所述方法包括步驟:為每個作業(yè)分配系統(tǒng)可用的最大資源;根據(jù)作業(yè)屬性,按照J(rèn)ohnson算法安排作業(yè)的執(zhí)行順序;按照所述執(zhí)行順序調(diào)度作業(yè)。本發(fā)明各實(shí)施例將MapReduce的兩階段(Map階段和Reduce階段)與經(jīng)典Johnson算法的兩階段條件完全匹配,且在每個作業(yè)的執(zhí)行期間,為其分配系統(tǒng)最大的可用資源,進(jìn)而能夠最小化總完工時間,減小集群系統(tǒng)的能耗。
【專利說明】Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及集群調(diào)度【技術(shù)領(lǐng)域】,尤其涉及一種Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用。
【背景技術(shù)】
[0002]Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop集群(cluster)部署時有三個角色,如圖1所示,分別是:客戶端(Client)機(jī)器、主節(jié)點(diǎn)(Master nodes)和從節(jié)點(diǎn)(Slave nodes)。
主節(jié)點(diǎn)主要負(fù)責(zé)Hadoop兩個關(guān)鍵功能模塊:數(shù)據(jù)存儲-Hadoop分布式文件系統(tǒng)(Hadoop
Distributed File System,HDFS)>以及對運(yùn)行在這個數(shù)據(jù)之上的并行計算(MapReduce)的監(jiān)督。名字節(jié)點(diǎn)(Name Node)和作業(yè)追蹤器(Job Tracker)是Hadoop架構(gòu)的主節(jié)點(diǎn),任務(wù)追蹤器(Task Tracker)和數(shù)據(jù)節(jié)點(diǎn)(Data Node)是Hadoop集群中的從節(jié)點(diǎn)。
[0003]HDFS存儲Hadoop集群中所有存儲節(jié)點(diǎn)上的文件。
[0004]MapReduce是一種簡化并行計算的編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算,在云計算和大數(shù)據(jù)處理時代,MapReduce的開源實(shí)現(xiàn)Hadoop以其通用、方便實(shí)用等特征得到了迄今為止最為廣泛的應(yīng)用。每個MapReduce作業(yè)的執(zhí)行包括Map階段和Reduce階段,Map階段分成多個Map任務(wù),Reduce階段包括多個Reduce任務(wù)。每個Map任務(wù)處理輸入數(shù)據(jù)的一個邏輯分片(split)。split是一個邏輯概念,它只包含一些元數(shù)據(jù)信息,比如數(shù)據(jù)起始位置、數(shù)據(jù)長度、數(shù)據(jù)所在節(jié)點(diǎn)等。split的劃分方法通常由用戶自己決定,split的多少決定了 Map任務(wù)的數(shù)目。
[0005]Name Node負(fù)責(zé)文件系統(tǒng)命名空間和客戶端的訪問控制。Job Tracker負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度,同時跟蹤任務(wù)的執(zhí)行進(jìn)度、資源使用量等信息,并將這些信息告訴任務(wù)調(diào)度器(Task Scheduler),而調(diào)度器會在資源出現(xiàn)空閑時,選擇合適的任務(wù)使用這些資源。在Hadoop集群中,任務(wù)調(diào)度器是一個可插拔的模塊,用戶可以根據(jù)自己的需要設(shè)計相應(yīng)的調(diào)度器。Task Tracker會周期性地通過心跳(Heartbeat)將本節(jié)點(diǎn)上資源的使用情況和任務(wù)的執(zhí)行進(jìn)度匯報給Job Tracker,同時接收J(rèn)ob Tracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作(如啟動新任務(wù)、殺死任務(wù)等)。Task Tracker使用“slot”等量劃分本節(jié)點(diǎn)上的資源量。slot不是CPU的核,也不是存儲芯片,它是一個邏輯概念,一個節(jié)點(diǎn)的slot的數(shù)量用來表示某個節(jié)點(diǎn)的資源的容量或者說是能力的大小,因而slot是Hadoop的資源單位。Hadoop利用slot來管理分配節(jié)點(diǎn)的資源。每個作業(yè)申請資源以slot為單位,每個節(jié)點(diǎn)會確定自己的計算能力以及存儲器,確定自己包含的Slot總量。當(dāng)某個作業(yè)要開始執(zhí)行時,先向JobTracker申請slot, —個任務(wù)獲取到一個slot后才有機(jī)會運(yùn)行,而Hadoop調(diào)度器的作用就是將各個Task Tracker上的空閑slot分配給任務(wù)使用。slot分為Map slot和Reduceslot兩種,分別供Map Task和Reduce Task使用。
[0006]Data Node是Hadoop集群中的存儲節(jié)點(diǎn),它表示分布式文件系統(tǒng)(多個Data Node節(jié)點(diǎn)的情況下,是其中一部分)。[0007]客戶端機(jī)器集合了 Hadoop上所有的集群設(shè)置,但既不包括主節(jié)點(diǎn)也不包括從節(jié)點(diǎn)。取而代之的,客戶端機(jī)器的作用是把數(shù)據(jù)加載到集群中,遞交給MapReduce進(jìn)行數(shù)據(jù)處理,并在工作結(jié)束后取回或者查看結(jié)果。
[0008]任務(wù)調(diào)度是Hadoop集群系統(tǒng)中的核心技術(shù),在云計算研究中,MapReduce環(huán)境的作業(yè)調(diào)度帶來了新的課題和挑戰(zhàn),引起了越來越多的重視。最初,Hadoop默認(rèn)的FIFO (先入先出)調(diào)度器專為周期性執(zhí)行大規(guī)模批量作業(yè)而設(shè)計。隨著MapReduce集群系統(tǒng)的用戶數(shù)量的增加,計算能力調(diào)度器和Hadoop公平調(diào)度器(HFS:Hadoop Fair Scheduling)的出現(xiàn),提供了更高效的集群共享方式,但是,現(xiàn)有的調(diào)度器還不能提供對最小化作業(yè)集完工時間的支持,當(dāng)提交作業(yè)為一個作業(yè)集時,完工時間可能較長因而導(dǎo)致總能耗較高。
[0009]自從可插入式調(diào)度器實(shí)現(xiàn)以來,用戶可以根據(jù)自己的需要設(shè)計相應(yīng)的調(diào)度器,目前業(yè)內(nèi)已研發(fā)了多種調(diào)度器算法。一個研究小組提出了一種通過在Hadoop集群中創(chuàng)建兩
個資源池(Pools)的啟發(fā)式算法-Balanced Pools算法,其將業(yè)務(wù)集分為兩個子集,并分
別由兩個資源池處理,以負(fù)載均衡并最小化任務(wù)的總完工時間,該算法雖然能夠在一定程度上縮短總完工時間,但是還未能實(shí)現(xiàn)總完工時間的最小化。
【發(fā)明內(nèi)容】
[0010]本發(fā)明要解決的技術(shù)問題是:提供一種Hadoop集群系統(tǒng)的調(diào)度方法、調(diào)度裝置及其應(yīng)用,能夠最小化作業(yè)集的總完工時間。
[0011]為解決上述技術(shù)問題,第一方面,本發(fā)明實(shí)施例提供了一種Hadoop集群系統(tǒng)調(diào)度方法,所述方法包括步驟:
[0012]為每個作業(yè)分配系統(tǒng)可用的最大資源;
[0013]根據(jù)作業(yè)屬性,按照J(rèn)ohnson算法安排作業(yè)的執(zhí)行順序;
[0014]按照所述執(zhí)行順序調(diào)度作業(yè)。
[0015]結(jié)合第一方面,在第一種可能的實(shí)現(xiàn)方式中,所述為每個作業(yè)分配系統(tǒng)可用的最大資源中:
[0016]當(dāng)作業(yè)請求的系統(tǒng)資源R等于系統(tǒng)可用的最大資源S時,為所述作業(yè)分配所述系統(tǒng)可用的最大資源S。
[0017]結(jié)合第一方面,在第二種可能的實(shí)現(xiàn)方式中,所述為每個作業(yè)分配系統(tǒng)可用的最大資源中:
[0018]當(dāng)作業(yè)請求的系統(tǒng)資源R小于系統(tǒng)可用的最大資源S時,根據(jù)所述系統(tǒng)可用的最大資源S對所述作業(yè)分片,并為分片后的所述作業(yè)分配所述系統(tǒng)可用的最大資源S。
[0019]結(jié)合第一方面,在第三種可能的實(shí)現(xiàn)方式中,所述為每個作業(yè)分配系統(tǒng)可用的最大資源中:
[0020]當(dāng)作業(yè)請求的系統(tǒng)資源R大于系統(tǒng)可用的最大資源S時,按照執(zhí)行N波來為所述作業(yè)分配資源;
[0021 ] 其中,N=R/S向上取整。
[0022]結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,當(dāng)R/S不為整數(shù)時,為第I至第N-1波任務(wù)分配系統(tǒng)可用的最大資源S,為第N波任務(wù)分配其所需要的資源;[0023]當(dāng)R/S為整數(shù)時,為每波任務(wù)分配系統(tǒng)可用的最大資源。
[0024]結(jié)合第一方面或第一方面的上述任一種可能的實(shí)現(xiàn)方式,在第五種可能的實(shí)現(xiàn)方式中,所述作業(yè)屬性為Ai包括階段持續(xù)時間和階段類型,且
[0025]
【權(quán)利要求】
1.一種Hadoop集群系統(tǒng)調(diào)度方法,其特征在于,所述方法包括步驟: 為每個作業(yè)分配系統(tǒng)可用的最大資源; 根據(jù)作業(yè)屬性,按照J(rèn)ohnson算法安排作業(yè)的執(zhí)行順序; 按照所述執(zhí)行順序調(diào)度作業(yè)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述為每個作業(yè)分配系統(tǒng)可用的最大資源中: 當(dāng)作業(yè)請求的系統(tǒng)資源R等于系統(tǒng)可用的最大資源S時,為所述作業(yè)分配所述系統(tǒng)可用的最大資源S。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述為每個作業(yè)分配系統(tǒng)可用的最大資源中: 當(dāng)作業(yè)請求的系統(tǒng)資源R小于系統(tǒng)可用的最大資源S時,根據(jù)所述系統(tǒng)可用的最大資源S對所述作業(yè)分片,并為分片后的所述作業(yè)分配所述系統(tǒng)可用的最大資源S。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述為每個作業(yè)分配系統(tǒng)可用的最大資源中: 當(dāng)作業(yè)請求的系統(tǒng)資源R大于系統(tǒng)可用的最大資源S時,按照執(zhí)行N波來為所述作業(yè)分配資源; 其中,N=R/S向上取整。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,當(dāng)R/S不為整數(shù)時,為第I至第N-1波任務(wù)分配系統(tǒng)可用的最大資源S,為第N波任務(wù)分配其所需要的資源; 當(dāng)R/S為整數(shù)時,為每波任務(wù)分配系統(tǒng)可用的最大資源。
6.根據(jù)權(quán)利要求1至5中任一項所述的方法,其特征在于,所述作業(yè)屬性為Ai包括階段持續(xù)時間和階段類型,且
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在所述根據(jù)作業(yè)屬性,按照J(rèn)ohnson算法安排作業(yè)的執(zhí)行順序的步驟中: 將階段類型為m的作業(yè)根據(jù)階段持續(xù)時間由短到長的順序排序; 將階段類型為r的作業(yè)根據(jù)階段持續(xù)時間由長到短的順序排序;且 將階段類型為m的作業(yè)排在階段類型為r的作業(yè)之前執(zhí)行。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,階段類型相同的作業(yè)按照編號由小到大的順序排序。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述方法還包括步驟: 為每個作業(yè)編號。
10.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括步驟: 估算作業(yè)的階段持續(xù)時間。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述估算作業(yè)的階段持續(xù)時間的步驟中: 當(dāng)作業(yè)請求的系統(tǒng)資源R等于所述系統(tǒng)可用的最大資源S時,根據(jù)所述作業(yè)請求的系統(tǒng)資源以及系統(tǒng)的先驗信息估算所述作業(yè)的階段持續(xù)時間。
12.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述估算作業(yè)的階段持續(xù)時間的步驟中: 當(dāng)作業(yè)請求的系統(tǒng)資源R不等于所述系統(tǒng)可用的最大資源S時,根據(jù)所述作業(yè)所分配到的資源以及系統(tǒng)的先驗信息估算所述作業(yè)的階段持續(xù)時間。
13.—種Hadoop集群系統(tǒng)的調(diào)度裝置,其特征在于,所述裝置包括: 分配模塊,用于為每個作業(yè)分配系統(tǒng)可用的最大資源; 排序模塊,用于根據(jù)作業(yè)屬性,按照J(rèn)ohnson算法安排作業(yè)的執(zhí)行順序; 調(diào)度模塊,用于按照所述執(zhí)行順序調(diào)度作業(yè)。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述分配模塊: 在作業(yè)請求的系統(tǒng)資源M等于系統(tǒng)可用的最大資源P時,為所述作業(yè)分配所述系統(tǒng)可用的最大資源P。
15.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述分配模塊: 在作業(yè)請求的系統(tǒng)資源M小`于系統(tǒng)可用的最大資源P時,根據(jù)所述系統(tǒng)可用的最大資源P對所述作業(yè)分片,并為分片后的所述作業(yè)分配所述系統(tǒng)可用的最大資源P。
16.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述分配模塊: 在作業(yè)請求的系統(tǒng)資源R大于系統(tǒng)可用的最大資源S時,按照執(zhí)行N波來為所述作業(yè)分配資源; 其中,N=R/S向下取整。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,裝置分配模塊在R/S不為整數(shù)時,為第I至第N-1波任務(wù)分配系統(tǒng)可用的最大資源S,為第N波任務(wù)分配其所需要的資源; 在R/S為整數(shù)時,為每波任務(wù)分配系統(tǒng)可用的最大資源。
18.根據(jù)權(quán)利要求13至17中任一項所述的裝置,其特征在于,所述作業(yè)屬性為Ai包括階段持續(xù)時間和階段類型,且
19.根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述排序模塊: 將階段類型為m的作業(yè)根據(jù)階段持續(xù)時間由短到長的順序排序; 將階段類型為r的作業(yè)根據(jù)階段持續(xù)時間由長到短的順序排序;且 將階段類型為m的作業(yè)排在階段類型為r的作業(yè)之前執(zhí)行。
20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述排序模塊將階段類型相同的作業(yè)按照編號由小到大的順序排序。
21.根據(jù)權(quán)利要求20所述的裝置,其特征在于,所述裝置還包括: 編號模塊,用于為每個作業(yè)編號。
22.根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述裝置還包括: 估算模塊,用于估算作業(yè)的階段持續(xù)時間。
23.根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述估算模塊: 在作業(yè)請求的系統(tǒng)資源R等于所述系統(tǒng)可用的最大資源S時,根據(jù)所述作業(yè)請求的系統(tǒng)資源以及系統(tǒng)的先驗信息系統(tǒng)估算所述作業(yè)的階段持續(xù)時間。
24.根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述估算模塊: 在作業(yè)請求的系統(tǒng)資源R不等于所述系統(tǒng)可用的最大資源S時,根據(jù)所述作業(yè)所分配到的資源以及系統(tǒng)的先驗信息估算所述作業(yè)的階段持續(xù)時間。
25.—種Hadoop集群系統(tǒng),其特征在于,包括權(quán)利要求13至24中任一項所述的調(diào)度裝置。
26.—種Hadoop集群系統(tǒng)的功耗降低方法,其特征在于,所述Hadoop集群系統(tǒng)使用權(quán)利要求I至12中任一 項所述的方法進(jìn)行調(diào)度。
【文檔編號】H04L29/08GK103685492SQ201310651432
【公開日】2014年3月26日 申請日期:2013年12月3日 優(yōu)先權(quán)日:2013年12月3日
【發(fā)明者】田文洪, 陳瑜, 王心陽 申請人:北京智谷睿拓技術(shù)服務(wù)有限公司