国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于q學(xué)習(xí)的混合云作業(yè)調(diào)度方法

      文檔序號(hào):10569788閱讀:433來源:國(guó)知局
      一種基于q學(xué)習(xí)的混合云作業(yè)調(diào)度方法
      【專利摘要】本發(fā)明公開一種基于Q學(xué)習(xí)的混合云作業(yè)調(diào)度方法,使用多agent并行學(xué)習(xí),即每個(gè)agent獨(dú)立進(jìn)行最優(yōu)策略學(xué)習(xí),當(dāng)某個(gè)agent最先得到滿足error<θ條件的策略時(shí),就進(jìn)行agent間的知識(shí)遷移。本發(fā)明通過分析用戶作業(yè)在云環(huán)境中的執(zhí)行流程,以最小化用戶作業(yè)完成時(shí)間和等待時(shí)間為優(yōu)化目標(biāo),設(shè)計(jì)了一種基于強(qiáng)化學(xué)習(xí)的混合云作業(yè)調(diào)度方法,并采用并行多agent技術(shù)加速最優(yōu)策略的收斂,提高了云資源的利用率,降低了用戶等級(jí)協(xié)議的違約率。
      【專利說明】
      一種基于Q學(xué)習(xí)的混合云作業(yè)調(diào)度方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明涉及云作業(yè)調(diào)度領(lǐng)域,具體涉及一種基于強(qiáng)化學(xué)習(xí)的混合云作業(yè)調(diào)度方 法。
      【背景技術(shù)】
      [0002] 作業(yè)調(diào)度是云計(jì)算的關(guān)鍵技術(shù)之一,對(duì)于滿足用戶需求和提高云服務(wù)提供商服務(wù) 質(zhì)量和經(jīng)濟(jì)效益具有重要意義。作業(yè)調(diào)度是云計(jì)算的關(guān)鍵技術(shù)之一,對(duì)于滿足用戶需求和 提高云服務(wù)提供商服務(wù)質(zhì)量和經(jīng)濟(jì)效益具有重要意義。現(xiàn)有的云作業(yè)調(diào)度算法,或針對(duì)于 計(jì)算密集型云作業(yè),或集中于數(shù)據(jù)密集型云作業(yè),鮮見針對(duì)混合型作業(yè)的調(diào)度算法。而真實(shí) 的云計(jì)算環(huán)境中,不同用戶提交的作業(yè)類型往往不同,而不同類型云作業(yè)的要求也往往不 同,針對(duì)單一作業(yè)類型設(shè)計(jì)的調(diào)度方法往往不能滿足不同類型作業(yè)調(diào)度的要求,導(dǎo)致違反 用戶等級(jí)協(xié)議的約定。

      【發(fā)明內(nèi)容】

      [0003] 本發(fā)明的目的是解決現(xiàn)有技術(shù)的缺陷,提供一種能夠提高云資源的利用率,降低 用戶等級(jí)協(xié)議的違約率的云作業(yè)調(diào)度方法,采用的技術(shù)方案如下:
      [0004] -種基于Q學(xué)習(xí)的混合云作業(yè)調(diào)度方法,其特征在于,使用多agent并行學(xué)習(xí),即每 個(gè)agent獨(dú)立進(jìn)行最優(yōu)策略學(xué)習(xí),當(dāng)某個(gè)agent最先得到滿足error〈0條件的策略時(shí),就進(jìn)行 agent間的知識(shí)迀移,具體包括:
      [0005] 定義Q學(xué)習(xí)中的狀態(tài)空間:將云環(huán)境資源池中活躍的虛擬機(jī)數(shù)量為狀態(tài)空間;
      [0006] 定義Q學(xué)習(xí)中的動(dòng)作集合A:動(dòng)作集合中包括2個(gè)動(dòng)作,分別為接受當(dāng)前被調(diào)度作業(yè) 和拒絕當(dāng)前被調(diào)度作業(yè);
      [0007] 定義系統(tǒng)的立即回報(bào)函數(shù):
      1其中,jobi. ini表示 作業(yè)執(zhí)行的指令數(shù),jobi. fsize表示作業(yè)大小,VMj. proc表示虛擬機(jī)處理速度,VMj. bw表示 虛擬機(jī)帶寬;
      [0008] 初始化Q(s,a),其中Q(s,a)為二維表格,行s為系統(tǒng)狀態(tài),列a為動(dòng)作集合;
      [0009] 初始化系統(tǒng)狀態(tài)S;
      [0010] S3:迭代執(zhí)行 S31 至 S36:
      [0011] S31:將S設(shè)置為當(dāng)前狀態(tài);
      [0012] S32:使用貪心策略從動(dòng)作集合A中選擇動(dòng)作;
      [0013] S33:執(zhí)行所選擇的動(dòng)作,計(jì)算記錄當(dāng)前的回報(bào)函數(shù),得到立即回報(bào)值r和下一個(gè)系 統(tǒng)狀態(tài)S' ;
      [0014] S34:按式Qt = Qt+a*(r+y*Qt+i-Qt),更新Q(s,a),其中aG(〇,l)是學(xué)習(xí)速率,y G (〇,1)是時(shí)間折扣因子;
      [0015] S35:計(jì)算error=MAX(e;r;ro;r | Qt-Qprevious-1),QPrevimjS-1指時(shí)刻t前一時(shí)刻的Q值;
      [0016] S36:判斷error〈0是否成立,若否則返回S31,若是進(jìn)行agent間的知識(shí)迀移,其中0 為固定比較值,根據(jù)需要設(shè)定。
      [0017]本發(fā)明結(jié)合云計(jì)算環(huán)境中的作業(yè)調(diào)度以及強(qiáng)化學(xué)習(xí)的特點(diǎn),將云環(huán)境資源池中活 躍著的虛擬機(jī)數(shù)量定義為強(qiáng)化學(xué)習(xí)的狀態(tài)空間。假設(shè)云平臺(tái)中當(dāng)前活躍著的虛擬機(jī)數(shù)量為 111,則狀態(tài)空間可表示為81 = (81,82,...,~)£5,其中,~表示第」臺(tái)虛擬機(jī),則本發(fā)明中每 個(gè)決策時(shí)刻(云作業(yè)調(diào)度時(shí)刻),下一個(gè)狀態(tài)僅僅取決于當(dāng)前狀態(tài),從而使得本發(fā)明滿足馬 爾科夫性。
      [0018] 本發(fā)明中,活躍是指虛擬機(jī)能夠接受用戶作業(yè)并立即執(zhí)行,區(qū)別于處于關(guān)機(jī)狀態(tài) 和睡眠狀態(tài)的虛擬機(jī)。
      [0019] 本發(fā)明所述的動(dòng)作集合中包括2個(gè)動(dòng)作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前 被調(diào)度作業(yè),可用向量(〇,1)表示,其中〇表示拒絕,1表示接受。假設(shè)當(dāng)前用戶作業(yè)i被調(diào)度 到虛擬機(jī)j,則動(dòng)作空間可表示為 &1 = (0,0,1,0...,0)£4,表示當(dāng)前用戶作業(yè)1被調(diào)度到第 3臺(tái)虛擬機(jī)。
      [0020] 對(duì)于不同類型的用戶作業(yè),作業(yè)調(diào)度策略應(yīng)能夠根據(jù)作業(yè)類型不同進(jìn)行區(qū)分,即 根據(jù)不同用戶作業(yè)對(duì)虛擬資源的不同需求進(jìn)行合理調(diào)度,本發(fā)明定義作業(yè)期望執(zhí)行時(shí)間進(jìn) 行作業(yè)調(diào)度有效性衡量,公式如下:
      (1)
      [0022] 式(1)中,jobi. ini表示作業(yè)執(zhí)行的指令數(shù),jobi. f size表示作業(yè)大小,VMj.proc表 示虛擬機(jī)處理速度,VM^bw表示虛擬機(jī)帶寬,同時(shí)以上式作為回報(bào)函數(shù)。
      [0023]根據(jù)以上定義,本發(fā)明的優(yōu)化目標(biāo)可定義為: MinMw(Max{ VMt \VMt eS))
      [.丨 Wfes.}.
      [0024] SubjeCt t〇 (2) m "YjVMj < deadline
      [0025]式(2)表明本發(fā)明的優(yōu)化目標(biāo)為當(dāng)前用戶作業(yè)在滿足截止時(shí)間(deadline)要求 下,調(diào)度到最小完成時(shí)間(mks)和最小平均等待時(shí)間(awt)的虛擬機(jī)上。
      [0026]進(jìn)一步地,本發(fā)明中,所述的知識(shí)迀移是指若某一agent最快學(xué)習(xí)到最優(yōu)策略,貝1J 用該agent的Q值表替換其他agent的Q值表。
      [0027]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
      [0028]本發(fā)明通過分析用戶作業(yè)在云環(huán)境中的執(zhí)行流程,以最小化用戶作業(yè)完成時(shí)間和 等待時(shí)間為優(yōu)化目標(biāo),設(shè)計(jì)了一種基于強(qiáng)化學(xué)習(xí)的混合云作業(yè)調(diào)度方法,并采用并行多 agent技術(shù)加速最優(yōu)策略的收斂,提高了云資源的利用率,降低了用戶等級(jí)協(xié)議的違約率。
      【附圖說明】
      [0029] 圖1是本發(fā)明的流程圖;
      [0030] 圖2是本發(fā)明實(shí)施例中不同作業(yè)調(diào)度方法各虛擬機(jī)完成用戶作業(yè)時(shí)間比較示意 圖;
      [0031] 圖3是本發(fā)明實(shí)施例中不同作業(yè)調(diào)度方法的用戶作業(yè)的平均等待時(shí)間比較示意 圖;
      [0032]圖4是本發(fā)明實(shí)施例中不同作業(yè)調(diào)度方法平均等待時(shí)間比較示意圖。
      【具體實(shí)施方式】
      [0033]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)描述。
      [0034] 實(shí)施例:
      [0035] 如圖1所示,一種基于Q學(xué)習(xí)的混合云作業(yè)調(diào)度方法,使用多agent并行學(xué)習(xí),即每 個(gè)agent獨(dú)立進(jìn)行最優(yōu)策略學(xué)習(xí),當(dāng)某個(gè)agent最先得到滿足error〈0條件的策略時(shí),就進(jìn)行 agent間的知識(shí)迀移,具體包括:
      [0036]定義Q學(xué)習(xí)中的狀態(tài)空間:將云環(huán)境資源池中活躍的虛擬機(jī)數(shù)量為狀態(tài)空間;
      [0037] 定義Q學(xué)習(xí)中的動(dòng)作集合A:動(dòng)作集合中包括2個(gè)動(dòng)作,分別為接受當(dāng)前被調(diào)度作業(yè) 和拒絕當(dāng)前被調(diào)度作業(yè);
      [0038] 定義系統(tǒng)的立即回報(bào)函數(shù):
      其中,jobi. ini表示 作業(yè)執(zhí)行的指令數(shù),jobi. fsize表示作業(yè)大小,VMj. proc表示虛擬機(jī)處理速度,VMj. bw表示 虛擬機(jī)帶寬;
      [0039] 初始化Q(s,a),其中Q(s,a)為二維表格,行s為系統(tǒng)狀態(tài),列a為動(dòng)作集合;
      [0040] 初始化系統(tǒng)狀態(tài)S;
      [0041 ] S3:迭代執(zhí)行 S31 至 S36:
      [0042] S31:將s設(shè)置為當(dāng)前狀態(tài);
      [0043] S32:使用貪心策略從動(dòng)作集合A中選擇動(dòng)作;
      [0044] S33:執(zhí)行所選擇的動(dòng)作,計(jì)算記錄當(dāng)前的回報(bào)函數(shù),得到立即回報(bào)值r和下一個(gè)系 統(tǒng)狀態(tài)S' ;
      [0045] S34:按式 Qt = Qt+a*(r+ y *Qt+i_Qt),更新Q( s,a),其中aG(〇,l)是學(xué)習(xí)速率,y G (〇,1)是時(shí)間折扣因子;
      [0046] 535:計(jì)算61'1'<^=]\^父(61'1'〇1'|(>)1;-(^_:1。113-1;),(^_:1。113-1;指時(shí)刻1:前一時(shí)刻的Q值;
      [0047] S36:判斷error〈0是否成立,若否則返回S31,若是進(jìn)行agent間的知識(shí)迀移,其中0 為固定比較值,根據(jù)需要設(shè)定。
      [0048]本實(shí)施例結(jié)合云計(jì)算環(huán)境中的作業(yè)調(diào)度以及強(qiáng)化學(xué)習(xí)的特點(diǎn),將云環(huán)境資源池中 活躍著的虛擬機(jī)數(shù)量定義為強(qiáng)化學(xué)習(xí)的狀態(tài)空間。假設(shè)云平臺(tái)中當(dāng)前活躍著的虛擬機(jī)數(shù) 量為m,則狀態(tài)空間可表示為Sl=( S1,S2,. . .,sm) GS,其中,&表示第j臺(tái)虛擬機(jī),則本實(shí)施例 中每個(gè)決策時(shí)刻(云作業(yè)調(diào)度時(shí)刻),下一個(gè)狀態(tài)僅僅取決于當(dāng)前狀態(tài),從而使得本實(shí)施例 滿足馬爾科夫性。
      [0049] 本實(shí)施例所述的動(dòng)作集合中包括2個(gè)動(dòng)作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng) 前被調(diào)度作業(yè),可用向量(〇,1)表示,其中〇表示拒絕,1表示接受。假設(shè)當(dāng)前用戶作業(yè)i被調(diào) 度到虛擬機(jī)j,則動(dòng)作空間可表示為 &1=(0,0,1,0. . .,0)GA,表示當(dāng)前用戶作業(yè)i被調(diào)度到 第3臺(tái)虛擬機(jī)。
      [0050] 對(duì)于不同類型的用戶作業(yè),作業(yè)調(diào)度策略應(yīng)能夠根據(jù)作業(yè)類型不同進(jìn)行區(qū)分,即 根據(jù)不同用戶作業(yè)對(duì)虛擬資源的不同需求進(jìn)行合理調(diào)度,本實(shí)施例定義作業(yè)期望執(zhí)行時(shí)間 進(jìn)行作業(yè)調(diào)度有效性衡量,公式如下:

      [0052] 式(1)中,jobi. ini表示作業(yè)執(zhí)行的指令數(shù),jobi. f size表示作業(yè)大小,VMj.proc表 示虛擬機(jī)處理速度,VM^bw表示虛擬機(jī)帶寬,同時(shí)以上式作為回報(bào)函數(shù)。
      [0053]根據(jù)以上定義,本實(shí)施例的優(yōu)化目標(biāo)可定義為: MinMiniMaxKVM, (FM, eS);) {awf.f: \mks\.
      [0054] subi.mt t0 (2) m ^ deadline
      [0055] 式(2)表明本實(shí)施例的優(yōu)化目標(biāo)為當(dāng)前用戶作業(yè)在滿足截止時(shí)間(deadline)要求 下,調(diào)度到最小完成時(shí)間(mks)和最小平均等待時(shí)間(awt)的虛擬機(jī)上。
      [0056]進(jìn)一步地,本實(shí)施例中,所述的知識(shí)迀移是指若某一agent最快學(xué)習(xí)到最優(yōu)策略, 則用該agent的Q值表替換其他agent的Q值表。
      【主權(quán)項(xiàng)】
      1.一種基于Q學(xué)習(xí)的混合云作業(yè)調(diào)度方法,其特征在于,使用多agent并行學(xué)習(xí),即每個(gè) agent獨(dú)立進(jìn)行最優(yōu)策略學(xué)習(xí),當(dāng)某個(gè)agent最先得到滿足error<θ條件的策略時(shí),就進(jìn)行 agent間的知識(shí)迀移,具體包括: 定義Q學(xué)習(xí)的狀態(tài)空間:將云環(huán)境資源池中活躍的虛擬機(jī)數(shù)量為狀態(tài)空間;定義Q學(xué)習(xí)中的動(dòng)作集合A:動(dòng)作集合中包括2個(gè)動(dòng)作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒 絕當(dāng)前被調(diào)度作業(yè); 定義系統(tǒng)的立即回報(bào)函數(shù): 其中,jobuini表示作業(yè) 執(zhí)行的指令數(shù),jobi. fsize表示作業(yè)大小,VMj. proc表示虛擬機(jī)處理速度,VMj. bw表示虛擬 機(jī)帶寬; 初始化Q (s,a),其中Q(s,a)為二維表格,行s為系統(tǒng)狀態(tài),列a為動(dòng)作集合; 初始化系統(tǒng)狀態(tài)S; S3:迭代執(zhí)行S31至S36: S31:將s設(shè)置為當(dāng)前狀態(tài); S32:使用貪心策略從動(dòng)作集合A中選擇動(dòng)作; S33:執(zhí)行所選擇的動(dòng)作,計(jì)算記錄當(dāng)前的回報(bào)函數(shù),得到立即回報(bào)值r和下一個(gè)系統(tǒng)狀 態(tài)S,; S34:按式 Qt = Qt+α* (r+ γ *Qt+1-Qt),更新Q (s,a),其中 ae(〇,l)是學(xué)習(xí)速率,γ e (〇,1) 是時(shí)間折扣因子,Qt指的是t時(shí)刻的Q值,即t時(shí)刻的Q(s,a); S35:計(jì)算error=MAX(error I Qt-QP revious-t ),Qprevicms-t指時(shí)刻t前一時(shí)刻的Q值; S36:判斷error <0是否成立,若不成立則返回S31,若成立進(jìn)行agent間的知識(shí)迀移,其 中Θ為固定比較值,根據(jù)需要設(shè)定。
      【文檔編號(hào)】G06F9/455GK105930214SQ201610261706
      【公開日】2016年9月7日
      【申請(qǐng)日】2016年4月22日
      【發(fā)明人】彭志平, 崔得龍, 李啟銳, 許波, 柯文德
      【申請(qǐng)人】廣東石油化工學(xué)院
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1