基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法

文檔序號：10597236閱讀：241來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法
【專利摘要】本發(fā)明公開一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法，并針對調(diào)度過程中存在的連續(xù)狀態(tài)?動作空間而導(dǎo)致的最優(yōu)策略生成過慢問題，采用高斯過程回歸進(jìn)行平均回報(bào)值和最優(yōu)策略的逼近，大幅度減少了得到最優(yōu)策略的學(xué)習(xí)迭代時間，提高了云資源的利用率。
【專利說明】
基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及云作業(yè)調(diào)度領(lǐng)域，具體涉及一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法。
【背景技術(shù)】
[0002]作業(yè)調(diào)度是工作流研究中的重要問題之一，也一直得到了學(xué)術(shù)界的深入研究和工業(yè)界的廣泛實(shí)踐。面向云計(jì)算環(huán)境的工作流的調(diào)度方法與傳統(tǒng)工作流和網(wǎng)格工作流的調(diào)度方法存在著很大的區(qū)別。
[0003]由于云環(huán)境的復(fù)雜性和動態(tài)性，客觀上要求能夠進(jìn)行自適應(yīng)作業(yè)調(diào)度。而強(qiáng)化學(xué)習(xí)作為一種重要的機(jī)器學(xué)習(xí)方法，其在云計(jì)算環(huán)境中的應(yīng)用得到了廣泛關(guān)注，取得了一些重要成果。但在實(shí)際應(yīng)用過程中，不可避免的會遇到連續(xù)狀態(tài)-動作空間而產(chǎn)生的維數(shù)災(zāi)難問題，最終導(dǎo)致收斂速度慢，自適應(yīng)性差，這些問題極大限制了強(qiáng)化學(xué)習(xí)在云計(jì)算領(lǐng)域中的應(yīng)用。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的是解決現(xiàn)有技術(shù)的缺陷，提供一種能夠大幅度減少得到最優(yōu)策略的學(xué)習(xí)迭代時間，提高云資源的利用率的云作業(yè)接入控制方法，采用的技術(shù)方案如下:
[0005]—種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法，包括:
[0006]準(zhǔn)備階段:
[0007]定義狀態(tài)空間:將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間；
[0008]定義動作空間:動作空間中包括2個動作，分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè)；
[0009]定義回報(bào)函數(shù):將用戶愿意支付的費(fèi)用定義為回報(bào)函數(shù)；
[0010]執(zhí)行階段:
[0011]第一步:初始化P和Q(s，a)，其中P表示平均回報(bào)，Q(s，a)為二維表格，行s為系統(tǒng)狀態(tài)，列a為動作空間；
[0012]第二步:設(shè)置更新步長，執(zhí)行迭代；
[0013]第三步:將變量i設(shè)置為O，將s設(shè)置為當(dāng)前狀態(tài)；
[0014]第四步:從動作空間a中選擇動作；
[0015]第五步:執(zhí)行選擇的動作，得到當(dāng)前狀態(tài)的立即回報(bào)值r和下一個系統(tǒng)狀態(tài)s’；
[0016]第六步:按式Q(s，a)—Q(s，a)+a*[r-p+maxa’Q(s，，a，)-Q(s，a)]更新Q(s，a)，其中，a’代表系統(tǒng)狀態(tài)s’下的動作空間，ae(0，I)代表學(xué)習(xí)速率；
[0017]第七步:判斷是否滿足0(8，&)=!^^0(8，&)，若是則更新平均回報(bào)0然后轉(zhuǎn)第八步，若否則直接轉(zhuǎn)第八步；
[0018]第八步:令i = i+l;
[0019]第九步:若i小于更新步長，令s= s’，轉(zhuǎn)至第二步，若i不小于更新步長，則轉(zhuǎn)至第十步；
[0020]第十步:將Q(s，a)表格中的數(shù)據(jù)作為輸入，使用高斯過程進(jìn)行回歸操作，得到回歸結(jié)果；
[0021 ]第^^一步:使用第十步得到的回歸結(jié)果修改Q( s，a)表格；
[0022]第十二步:將第七步得到的平均回報(bào)P作為輸入，使用高斯過程進(jìn)行回歸操作，得到回歸結(jié)果；
[0023]第十三步:使用第十二步得到的回歸結(jié)果修改平均回報(bào)P;
[0024]第十四步:轉(zhuǎn)至第二步。
[0025]將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間，則本發(fā)明中每個決策時刻(云作業(yè)調(diào)度時刻)，下一個狀態(tài)僅僅取決于當(dāng)前狀態(tài)，滿足馬爾科夫性。
[0026]本發(fā)明中動作空間中包括2個動作，分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè)，可用向量(0，I)進(jìn)行表示，其中O表示拒絕，I表示接受。
[0027]云計(jì)算是一種按需付費(fèi)的使用模式，云服務(wù)提供商獲得的收益來自于用戶支付的費(fèi)用，愿意支付的費(fèi)用決定了接受的服務(wù)的質(zhì)量是不同的，因此本發(fā)明將用戶作業(yè)的優(yōu)先級(取決于用戶愿意支付的費(fèi)用)定義為回報(bào)函數(shù)，因此，本發(fā)明的優(yōu)化目標(biāo)為根據(jù)資源池中可用的虛擬機(jī)數(shù)量，接受或拒絕用戶作業(yè)，以使得累計(jì)回報(bào)最大。
[0028]第一步至第九步的平均強(qiáng)化學(xué)習(xí)在實(shí)際的運(yùn)行過程中，會由于云環(huán)境中數(shù)據(jù)中心的規(guī)模增大，導(dǎo)致狀態(tài)空間產(chǎn)生維數(shù)災(zāi)難問題，本發(fā)明使用高斯過程回歸加速最優(yōu)策略的生成，當(dāng)?shù)诰挪降臈l件不滿足，執(zhí)行第十步及后面的步驟，使用高斯過程回歸加速最優(yōu)策略的生成。
[0029]作為優(yōu)選，所述第四步中使用貪心策略從動作集合a中選擇動作。
[°03°] 作為優(yōu)選，所述第七步中，按照公式P—P+P*[r-p+maxa’Q(s’，a’)_maxaQ(s，a)]更新平均回報(bào)p，其中βε[0，1]為累積回報(bào)折扣因子。
[0031]作為優(yōu)選，所述第十一步中，使用第十步得到的回歸結(jié)果替換之前的值。
[0032]作為優(yōu)選，所述第十三步中，使用第十二步得到的回歸結(jié)果替換之前的平均回報(bào)
Po
[0033]與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果:
[0034]本發(fā)明設(shè)計(jì)了一種基于平均強(qiáng)化學(xué)習(xí)的云作業(yè)調(diào)度方法，并針對調(diào)度過程中存在的連續(xù)狀態(tài)-動作空間而導(dǎo)致的最優(yōu)策略生成過慢問題，采用高斯過程回歸進(jìn)行平均回報(bào)值和最優(yōu)策略的逼近，大幅度減少了得到最優(yōu)策略的學(xué)習(xí)迭代時間，提高了云資源的利用率。
【附圖說明】
[0035]圖1是本發(fā)明的流程圖；
[0036]圖2是經(jīng)過2000000步后，帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖；
[0037]圖3是經(jīng)過2000000步后，不帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖。
【具體實(shí)施方式】
[0038]如圖1所示，一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法，包括:
[0039]本發(fā)明的目的是解決現(xiàn)有技術(shù)的缺陷，提供一種能夠大幅度減少得到最優(yōu)策略的學(xué)習(xí)迭代時間，提高云資源的利用率的云作業(yè)接入控制方法，采用的技術(shù)方案如下:
[0040]一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法，包括:
[0041 ] 準(zhǔn)備階段:
[0042]定義狀態(tài)空間:將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間；
[0043]定義動作空間:動作空間中包括2個動作，分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè)；
[0044]定義回報(bào)函數(shù):將用戶愿意支付的費(fèi)用定義為回報(bào)函數(shù)；
[0045]執(zhí)行階段:
[0046]第一步:初始化P和Q(s，a)，其中P表示平均回報(bào)，Q(s，a)為二維表格，行s為系統(tǒng)狀態(tài)，列a為動作空間；
[0047]第二步:設(shè)置更新步長，執(zhí)行迭代；
[0048]第三步:將變量i設(shè)置為O，將s設(shè)置為當(dāng)前狀態(tài)；
[0049]第四步:從動作空間a中選擇動作；
[0050]第五步:執(zhí)行選擇的動作，得到當(dāng)前狀態(tài)的立即回報(bào)值r和下一個系統(tǒng)狀態(tài)s’；
[0051 ]第六步:按式Q(s，a)—Q(s，a)+a*[r-p+maxa，Q(s’，a’)-Q(s，a)]更新Q(s，a)，其中，a’代表系統(tǒng)狀態(tài)s’下的動作空間，ae(0，I)代表學(xué)習(xí)速率；
[0052]第七步:判斷是否滿足0(8，&)=!^^0(8，&)，若是則更新平均回報(bào)0然后轉(zhuǎn)第八步，若否則直接轉(zhuǎn)第八步；
[0053]第八步:令i = i+l;
[0054]第九步:若i小于更新步長，令s= s’，轉(zhuǎn)至第二步，若i不小于更新步長，則轉(zhuǎn)至第十步；
[0055]第十步:將Q(s，a)表格中的數(shù)據(jù)作為輸入，使用高斯過程進(jìn)行回歸操作，得到回歸結(jié)果；
[0056]第^^一步:使用第十步得到的回歸結(jié)果修改Q(s，a)表格；
[0057]第十二步:將第七步得到的平均回報(bào)P作為輸入，使用高斯過程進(jìn)行回歸操作，得到回歸結(jié)果；
[0058]第十三步:使用第十二步得到的回歸結(jié)果修改平均回報(bào)P;
[0059]第十四步:轉(zhuǎn)至第二步。
[0060]將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間，則本發(fā)明中每個決策時刻(云作業(yè)調(diào)度時刻)，下一個狀態(tài)僅僅取決于當(dāng)前狀態(tài)，滿足馬爾科夫性。
[0061]本發(fā)明中動作空間中包括2個動作，分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè)，可用向量(0，I)進(jìn)行表示，其中O表示拒絕，I表示接受。
[0062]云計(jì)算是一種按需付費(fèi)的使用模式，云服務(wù)提供商獲得的收益來自于用戶支付的費(fèi)用，愿意支付的費(fèi)用決定了接受的服務(wù)的質(zhì)量是不同的，因此本發(fā)明將用戶作業(yè)的優(yōu)先級(取決于用戶愿意支付的費(fèi)用)定義為回報(bào)函數(shù)，因此，本發(fā)明的優(yōu)化目標(biāo)為根據(jù)資源池中可用的虛擬機(jī)數(shù)量，接受或拒絕用戶作業(yè)，以使得累計(jì)回報(bào)最大。
[0063]第一步至第九步的平均強(qiáng)化學(xué)習(xí)在實(shí)際的運(yùn)行過程中，會由于云環(huán)境中數(shù)據(jù)中心的規(guī)模增大，導(dǎo)致狀態(tài)空間產(chǎn)生維數(shù)災(zāi)難問題，本發(fā)明使用高斯過程回歸加速最優(yōu)策略的生成，當(dāng)?shù)诰挪降臈l件不滿足，執(zhí)行第十步及后面的步驟，使用高斯過程回歸加速最優(yōu)策略的生成。
[0064]所述第四步中使用貪心策略從動作集合a中選擇動作。
[0065]所述第七步中，按照公式P—P+0*[r-p+maxa，Q(s’，a’)_maxaQ(s，a)]更新平均回報(bào)P，其中βε[0，1]為累積回報(bào)折扣因子。
[0066]所述第十一步中，使用第十步得到的回歸結(jié)果替換之前的值。
[0067]所述第十三步中，使用第十二步得到的回歸結(jié)果替換之前的平均回報(bào)P。
[0068]如圖2所示是經(jīng)過2000000步后，帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖，圖3所示是經(jīng)過2000000步后，不帶高斯過程回歸的平均強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略示意圖，通過對比可知，本實(shí)施例大幅度減少了得到最優(yōu)策略的學(xué)習(xí)迭代時間，提高了云資源的利用率。
【主權(quán)項(xiàng)】
1.一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法，其特征在于，包括: 準(zhǔn)備階段: 定義狀態(tài)空間:將云環(huán)境資源池中的虛擬機(jī)數(shù)量定義為平均強(qiáng)化學(xué)習(xí)的狀態(tài)空間；定義動作空間:動作空間中包括2個動作，分別為接受當(dāng)前被調(diào)度作業(yè)和拒絕當(dāng)前被調(diào)度作業(yè)；定義回報(bào)函數(shù):將用戶愿意支付的費(fèi)用定義為回報(bào)函數(shù)；執(zhí)行階段: 第一步:初始化P和Q( S，a)，其中P表示平均回報(bào)，Q( s, a)為二維表格，行s為系統(tǒng)狀態(tài)，列a為動作空間；第二步:設(shè)置更新步長，執(zhí)行迭代；第三步:將變量i設(shè)置為O，將s設(shè)置為當(dāng)前狀態(tài)；第四步:從動作空間a中選擇動作；第五步:執(zhí)行選擇的動作，得到當(dāng)前狀態(tài)的立即回報(bào)值r和下一個系統(tǒng)狀態(tài)s ’ ；第六步:按式Q(s，a)—Q(s，a)+a*[r-p+maxa，Q(s’，a’)-Q(s，a)]更新Q(s，a)，其中，a’代表系統(tǒng)狀態(tài)s’下的動作空間，ae(0，I)代表學(xué)習(xí)速率；第七步:判斷是否滿足(^3)=11^4(8，&)，若是則更新平均回報(bào)0然后轉(zhuǎn)第八步，若否則直接轉(zhuǎn)第八步；第八步:令i = i+l; 第九步:若i小于更新步長，令s = s’，轉(zhuǎn)至第二步，若i不小于更新步長，則轉(zhuǎn)至第十步；第十步:將Q(s，a)表格中的數(shù)據(jù)作為輸入，使用高斯過程進(jìn)行回歸操作，得到回歸結(jié)果; 第i^一步:使用第十步得到的回歸結(jié)果修改Q (s，a)表格；第十二步:將第七步得到的平均回報(bào)P作為輸入，使用高斯過程進(jìn)行回歸操作，得到回歸結(jié)果；第十三步:使用第十二步得到的回歸結(jié)果修改平均回報(bào)P; 第十四步:轉(zhuǎn)至第二步。2.根據(jù)權(quán)利要求1所述的一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法，其特征在于，所述第四步中使用貪心策略從動作集合a中選擇動作。3.根據(jù)權(quán)利要求1所述的一種基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法，其特征在于，所述第七步中，按照公式P—ρ+β* [r-p+maxa，Q(s ’，a ’)_maxaQ(s，a)]更新平均回報(bào)P，其中陽[0，1]為累積回報(bào)折扣因子。
【文檔編號】H04L29/08GK105959353SQ201610261723
【公開日】2016年9月21日
【申請日】2016年4月22日
【發(fā)明人】崔得龍, 彭志平, 李啟銳, 許波, 柯文德
【申請人】廣東石油化工學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：崔得龍;彭志平;李啟銳;許波;柯文德;
技術(shù)所有人：廣東石油化工學(xué)院;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于平均強(qiáng)化學(xué)習(xí)和高斯過程回歸的云作業(yè)接入控制方法