国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法

      文檔序號:10597236閱讀:241來源:國知局
      基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法
      【專利摘要】本發(fā)明公開一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,并針對調(diào)度過程中存在的連續(xù)狀態(tài)?動作空間而導(dǎo)致的最優(yōu)策略生成過慢問題,采用高斯過程回歸進(jìn)行平均回報(bào)值和最優(yōu)策略的逼近,大幅度減少了得到最優(yōu)策略的學(xué)習(xí)迭代時間,提高了云資源的利用率。
      【專利說明】
      基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法
      技術(shù)領(lǐng)域
      [0001]本發(fā)明涉及云作業(yè)調(diào)度領(lǐng)域,具體涉及一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法。
      【背景技術(shù)】
      [0002]作業(yè)調(diào)度是工作流研究中的重要問題之一,也一直得到了學(xué)術(shù)界的深入研究和工業(yè)界的廣泛實(shí)踐。面向云計(jì)算環(huán)境的工作流的調(diào)度方法與傳統(tǒng)工作流和網(wǎng)格工作流的調(diào)度方法存在著很大的區(qū)別。
      [0003]由于云環(huán)境的復(fù)雜性和動態(tài)性,客觀上要求能夠進(jìn)行自適應(yīng)作業(yè)調(diào)度。而強(qiáng)化學(xué)習(xí)作為一種重要的機(jī)器學(xué)習(xí)方法,其在云計(jì)算環(huán)境中的應(yīng)用得到了廣泛關(guān)注,取得了一些重要成果。但在實(shí)際應(yīng)用過程中,不可避免的會遇到連續(xù)狀態(tài)-動作空間而產(chǎn)生的維數(shù)災(zāi)難問題,最終導(dǎo)致收斂速度慢,自適應(yīng)性差,這些問題極大限制了強(qiáng)化學(xué)習(xí)在云計(jì)算領(lǐng)域中的應(yīng)用。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明的目的是解決現(xiàn)有技術(shù)的缺陷,提供一種能夠大幅度減少得到最優(yōu)策略的學(xué)習(xí)迭代時間,提高云資源的利用率的云作業(yè)接入控制方法,采用的技術(shù)方案如下:
      [0005]—種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,包括:
      [0006]準(zhǔn)備階段:
      [0007]定義狀態(tài)空間:將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間;
      [0008]定義動作空間:動作空間中包括2個動作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè);
      [0009]定義回報(bào)函數(shù):將用戶愿意支付的費(fèi)用定義為回報(bào)函數(shù);
      [0010]執(zhí)行階段:
      [0011]第一步:初始化P和Q(s,a),其中P表示平均回報(bào),Q(s,a)為二維表格,行s為系統(tǒng)狀態(tài),列a為動作空間;
      [0012]第二步:設(shè)置更新步長,執(zhí)行迭代;
      [0013]第三步:將變量i設(shè)置為O,將s設(shè)置為當(dāng)前狀態(tài);
      [0014]第四步:從動作空間a中選擇動作;
      [0015]第五步:執(zhí)行選擇的動作,得到當(dāng)前狀態(tài)的立即回報(bào)值r和下一個系統(tǒng)狀態(tài)s’;
      [0016]第六步:按式Q(s,a)—Q(s,a)+a*[r-p+maxa’Q(s,,a,)-Q(s,a)]更新Q(s,a),其中,a’代表系統(tǒng)狀態(tài)s’下的動作空間,ae(0,I)代表學(xué)習(xí)速率;
      [0017]第七步:判斷是否滿足0(8,&)=!^^0(8,&),若是則更新平均回報(bào)0然后轉(zhuǎn)第八步,若否則直接轉(zhuǎn)第八步;
      [0018]第八步:令i = i+l;
      [0019]第九步:若i小于更新步長,令s= s’,轉(zhuǎn)至第二步,若i不小于更新步長,則轉(zhuǎn)至第十步;
      [0020]第十步:將Q(s,a)表格中的數(shù)據(jù)作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果;
      [0021 ]第^^一步:使用第十步得到的回歸結(jié)果修改Q( s,a)表格;
      [0022]第十二步:將第七步得到的平均回報(bào)P作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果;
      [0023]第十三步:使用第十二步得到的回歸結(jié)果修改平均回報(bào)P;
      [0024]第十四步:轉(zhuǎn)至第二步。
      [0025]將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間,則本發(fā)明中每個決策時刻(云作業(yè)調(diào)度時刻),下一個狀態(tài)僅僅取決于當(dāng)前狀態(tài),滿足馬爾科夫性。
      [0026]本發(fā)明中動作空間中包括2個動作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè),可用向量(0,I)進(jìn)行表示,其中O表示拒絕,I表示接受。
      [0027]云計(jì)算是一種按需付費(fèi)的使用模式,云服務(wù)提供商獲得的收益來自于用戶支付的費(fèi)用,愿意支付的費(fèi)用決定了接受的服務(wù)的質(zhì)量是不同的,因此本發(fā)明將用戶作業(yè)的優(yōu)先級(取決于用戶愿意支付的費(fèi)用)定義為回報(bào)函數(shù),因此,本發(fā)明的優(yōu)化目標(biāo)為根據(jù)資源池中可用的虛擬機(jī)數(shù)量,接受或拒絕用戶作業(yè),以使得累計(jì)回報(bào)最大。
      [0028]第一步至第九步的平均強(qiáng)化學(xué)習(xí)在實(shí)際的運(yùn)行過程中,會由于云環(huán)境中數(shù)據(jù)中心的規(guī)模增大,導(dǎo)致狀態(tài)空間產(chǎn)生維數(shù)災(zāi)難問題,本發(fā)明使用高斯過程回歸加速最優(yōu)策略的生成,當(dāng)?shù)诰挪降臈l件不滿足,執(zhí)行第十步及后面的步驟,使用高斯過程回歸加速最優(yōu)策略的生成。
      [0029]作為優(yōu)選,所述第四步中使用貪心策略從動作集合a中選擇動作。
      [°03°] 作為優(yōu)選,所述第七步中,按照公式P—P+P*[r-p+maxa’Q(s’,a’)_maxaQ(s,a)]更新平均回報(bào)p,其中βε[0,1]為累積回報(bào)折扣因子。
      [0031]作為優(yōu)選,所述第十一步中,使用第十步得到的回歸結(jié)果替換之前的值。
      [0032]作為優(yōu)選,所述第十三步中,使用第十二步得到的回歸結(jié)果替換之前的平均回報(bào)
      Po
      [0033]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
      [0034]本發(fā)明設(shè)計(jì)了一種基于平均強(qiáng)化學(xué)習(xí)的云作業(yè)調(diào)度方法,并針對調(diào)度過程中存在的連續(xù)狀態(tài)-動作空間而導(dǎo)致的最優(yōu)策略生成過慢問題,采用高斯過程回歸進(jìn)行平均回報(bào)值和最優(yōu)策略的逼近,大幅度減少了得到最優(yōu)策略的學(xué)習(xí)迭代時間,提高了云資源的利用率。
      【附圖說明】
      [0035]圖1是本發(fā)明的流程圖;
      [0036]圖2是經(jīng)過2000000步后,帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖;
      [0037]圖3是經(jīng)過2000000步后,不帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖。
      【具體實(shí)施方式】
      [0038]如圖1所示,一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,包括:
      [0039]本發(fā)明的目的是解決現(xiàn)有技術(shù)的缺陷,提供一種能夠大幅度減少得到最優(yōu)策略的學(xué)習(xí)迭代時間,提高云資源的利用率的云作業(yè)接入控制方法,采用的技術(shù)方案如下:
      [0040]一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,包括:
      [0041 ] 準(zhǔn)備階段:
      [0042]定義狀態(tài)空間:將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間;
      [0043]定義動作空間:動作空間中包括2個動作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè);
      [0044]定義回報(bào)函數(shù):將用戶愿意支付的費(fèi)用定義為回報(bào)函數(shù);
      [0045]執(zhí)行階段:
      [0046]第一步:初始化P和Q(s,a),其中P表示平均回報(bào),Q(s,a)為二維表格,行s為系統(tǒng)狀態(tài),列a為動作空間;
      [0047]第二步:設(shè)置更新步長,執(zhí)行迭代;
      [0048]第三步:將變量i設(shè)置為O,將s設(shè)置為當(dāng)前狀態(tài);
      [0049]第四步:從動作空間a中選擇動作;
      [0050]第五步:執(zhí)行選擇的動作,得到當(dāng)前狀態(tài)的立即回報(bào)值r和下一個系統(tǒng)狀態(tài)s’;
      [0051 ]第六步:按式Q(s,a)—Q(s,a)+a*[r-p+maxa,Q(s’,a’)-Q(s,a)]更新Q(s,a),其中,a’代表系統(tǒng)狀態(tài)s’下的動作空間,ae(0,I)代表學(xué)習(xí)速率;
      [0052]第七步:判斷是否滿足0(8,&)=!^^0(8,&),若是則更新平均回報(bào)0然后轉(zhuǎn)第八步,若否則直接轉(zhuǎn)第八步;
      [0053]第八步:令i = i+l;
      [0054]第九步:若i小于更新步長,令s= s’,轉(zhuǎn)至第二步,若i不小于更新步長,則轉(zhuǎn)至第十步;
      [0055]第十步:將Q(s,a)表格中的數(shù)據(jù)作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果;
      [0056]第^^一步:使用第十步得到的回歸結(jié)果修改Q(s,a)表格;
      [0057]第十二步:將第七步得到的平均回報(bào)P作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果;
      [0058]第十三步:使用第十二步得到的回歸結(jié)果修改平均回報(bào)P;
      [0059]第十四步:轉(zhuǎn)至第二步。
      [0060]將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間,則本發(fā)明中每個決策時刻(云作業(yè)調(diào)度時刻),下一個狀態(tài)僅僅取決于當(dāng)前狀態(tài),滿足馬爾科夫性。
      [0061]本發(fā)明中動作空間中包括2個動作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè),可用向量(0,I)進(jìn)行表示,其中O表示拒絕,I表示接受。
      [0062]云計(jì)算是一種按需付費(fèi)的使用模式,云服務(wù)提供商獲得的收益來自于用戶支付的費(fèi)用,愿意支付的費(fèi)用決定了接受的服務(wù)的質(zhì)量是不同的,因此本發(fā)明將用戶作業(yè)的優(yōu)先級(取決于用戶愿意支付的費(fèi)用)定義為回報(bào)函數(shù),因此,本發(fā)明的優(yōu)化目標(biāo)為根據(jù)資源池中可用的虛擬機(jī)數(shù)量,接受或拒絕用戶作業(yè),以使得累計(jì)回報(bào)最大。
      [0063]第一步至第九步的平均強(qiáng)化學(xué)習(xí)在實(shí)際的運(yùn)行過程中,會由于云環(huán)境中數(shù)據(jù)中心的規(guī)模增大,導(dǎo)致狀態(tài)空間產(chǎn)生維數(shù)災(zāi)難問題,本發(fā)明使用高斯過程回歸加速最優(yōu)策略的生成,當(dāng)?shù)诰挪降臈l件不滿足,執(zhí)行第十步及后面的步驟,使用高斯過程回歸加速最優(yōu)策略的生成。
      [0064]所述第四步中使用貪心策略從動作集合a中選擇動作。
      [0065]所述第七步中,按照公式P—P+0*[r-p+maxa,Q(s’,a’)_maxaQ(s,a)]更新平均回報(bào)P,其中βε[0,1]為累積回報(bào)折扣因子。
      [0066]所述第十一步中,使用第十步得到的回歸結(jié)果替換之前的值。
      [0067]所述第十三步中,使用第十二步得到的回歸結(jié)果替換之前的平均回報(bào)P。
      [0068]如圖2所示是經(jīng)過2000000步后,帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖,圖3所示是經(jīng)過2000000步后,不帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖,通過對比可知,本實(shí)施例大幅度減少了得到最優(yōu)策略的學(xué)習(xí)迭代時間,提高了云資源的利用率。
      【主權(quán)項(xiàng)】
      1.一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,其特征在于,包括: 準(zhǔn)備階段: 定義狀態(tài)空間:將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間;定義動作空間:動作空間中包括2個動作,分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè); 定義回報(bào)函數(shù):將用戶愿意支付的費(fèi)用定義為回報(bào)函數(shù); 執(zhí)行階段: 第一步:初始化P和Q( S,a),其中P表示平均回報(bào),Q( s, a)為二維表格,行s為系統(tǒng)狀態(tài),列a為動作空間; 第二步:設(shè)置更新步長,執(zhí)行迭代; 第三步:將變量i設(shè)置為O,將s設(shè)置為當(dāng)前狀態(tài); 第四步:從動作空間a中選擇動作; 第五步:執(zhí)行選擇的動作,得到當(dāng)前狀態(tài)的立即回報(bào)值r和下一個系統(tǒng)狀態(tài)s ’ ; 第六步:按式Q(s,a)—Q(s,a)+a*[r-p+maxa,Q(s’,a’)-Q(s,a)]更新Q(s,a),其中,a’代表系統(tǒng)狀態(tài)s’下的動作空間,ae(0,I)代表學(xué)習(xí)速率; 第七步:判斷是否滿足(^3)=11^4(8,&),若是則更新平均回報(bào)0然后轉(zhuǎn)第八步,若否則直接轉(zhuǎn)第八步; 第八步:令i = i+l; 第九步:若i小于更新步長,令s = s’,轉(zhuǎn)至第二步,若i不小于更新步長,則轉(zhuǎn)至第十步; 第十步:將Q(s,a)表格中的數(shù)據(jù)作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果; 第i^一步:使用第十步得到的回歸結(jié)果修改Q (s,a)表格; 第十二步:將第七步得到的平均回報(bào)P作為輸入,使用高斯過程進(jìn)行回歸操作,得到回歸結(jié)果; 第十三步:使用第十二步得到的回歸結(jié)果修改平均回報(bào)P; 第十四步:轉(zhuǎn)至第二步。2.根據(jù)權(quán)利要求1所述的一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,其特征在于,所述第四步中使用貪心策略從動作集合a中選擇動作。3.根據(jù)權(quán)利要求1所述的一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法,其特征在于,所述第七步中,按照公式P—ρ+β* [r-p+maxa,Q(s ’,a ’)_maxaQ(s,a)]更新平均回報(bào)P,其中陽[0,1]為累積回報(bào)折扣因子。
      【文檔編號】H04L29/08GK105959353SQ201610261723
      【公開日】2016年9月21日
      【申請日】2016年4月22日
      【發(fā)明人】崔得龍, 彭志平, 李啟銳, 許波, 柯文德
      【申請人】廣東石油化工學(xué)院
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1