国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      成本與時間感知的任務調(diào)度方法、裝置、設備及存儲介質(zhì)

      文檔序號:40280671發(fā)布日期:2024-12-11 13:19閱讀:21來源:國知局
      成本與時間感知的任務調(diào)度方法、裝置、設備及存儲介質(zhì)

      本發(fā)明涉及任務調(diào)度領域,更具體地,涉及一種成本與時間感知的任務調(diào)度方法、裝置、設備及存儲介質(zhì)。


      背景技術:

      1、云計算作為一種革命性的計算模式,憑借其超大規(guī)模服務能力,已成為全球信息技術領域的研究熱點。隨著云計算技術的持續(xù)發(fā)展,對數(shù)據(jù)處理速度、計算效能及存儲容量的要求急劇攀升,直接推動了全球數(shù)據(jù)中心數(shù)量的迅猛增長,但同時也引發(fā)了基礎設施能耗的指數(shù)級增長。

      2、在多云環(huán)境下,隨著企業(yè)跨越多個云服務提供商部署其應用和數(shù)據(jù),任務調(diào)度方法面臨著前所未有的挑戰(zhàn)與機遇。早期,企業(yè)面對數(shù)據(jù)量的激增,往往采取增加物理設施數(shù)量來緩解數(shù)據(jù)增長帶來的壓力,這一方法雖能暫時緩解壓力,但長期來看,不僅導致了物理資源的巨大浪費,還難以有效支撐海量數(shù)據(jù)帶來的持續(xù)增長的計算需求。

      3、因此,如何在多云環(huán)境中實現(xiàn)一種既能顯著縮短任務完成時間又能有效控制成本的調(diào)度方法,成為了當前云計算領域技術人員亟待解決的關鍵問題。


      技術實現(xiàn)思路

      1、本發(fā)明旨在克服上述現(xiàn)有技術的至少一種缺陷(不足),提供一種成本與時間感知的任務調(diào)度方法、裝置、設備及存儲介質(zhì),用于解決如何在多云環(huán)境中實現(xiàn)一種既能顯著縮短任務完成時間又能有效控制成本的調(diào)度方法。

      2、根據(jù)本技術的第一方面,提供了一種成本與時間感知的任務調(diào)度方法,所述方法應用于多云環(huán)境,所述多云環(huán)境包括至少2個云服務提供商csp,每個所述云服務提供商csp包括若干個虛擬機實例,所述方法包括:

      3、獲取待調(diào)度任務,將所述待調(diào)度任務進行排序;

      4、獲取待調(diào)度任務信息與多云環(huán)境信息,根據(jù)待調(diào)度任務信息與多云環(huán)境信息確定狀態(tài)空間、動作空間和獎勵函數(shù);所述獎勵函數(shù)包括完工時間獎勵和成本懲罰項;

      5、將任務調(diào)度問題形式化馬爾可夫決策過程mdp,利用深度q網(wǎng)絡dqn模型進行訓練;

      6、利用訓練后的所述dqn模型確定所述任務調(diào)度問題的最優(yōu)調(diào)度策略,根據(jù)所述最優(yōu)調(diào)度策略為所述待調(diào)度任務分配對應的虛擬機實例。

      7、通過將任務調(diào)度問題在多云環(huán)境中形式化為馬爾可夫決策過程(mdp),并利用深度q網(wǎng)絡(dqn)模型進行訓練與優(yōu)化,實現(xiàn)了任務調(diào)度的智能化與自適應性。dqn模型通過不斷學習,能夠有效捕捉并應對云環(huán)境中的動態(tài)變化從而得到既考慮完工時間效率又兼顧執(zhí)行成本的調(diào)度策略,提升任務調(diào)度的整體效能與經(jīng)濟效益。

      8、可選地,多個所述虛擬機實例組成虛擬機實例集合,所述虛擬機實例集合表示為:

      9、

      10、其中,表示第個云服務提供商csp,表示第個虛擬機實例,表示第個云服務提供商csp上的第個虛擬機實例,表示多云環(huán)境中的虛擬機實例集合;

      11、設待調(diào)度任務有個,待調(diào)度任務表示為:

      12、

      13、其中,表示第個待調(diào)度任務;

      14、每個所述虛擬機實例的基本特征表示為:

      15、

      16、其中,表示的計算能力,表示的虛擬cpu數(shù)量,表示的內(nèi)存大小,表示的單位時間租賃成本;

      17、任務在上執(zhí)行的時間的計算公式如下:

      18、

      19、其中,表示任務的大??;

      20、任務的最長完工時間表示為:

      21、

      22、其中,表示任務的最長完工時間;

      23、任務在上執(zhí)行的成本表示為:

      24、

      25、其中,表示第個云服務提供商csp的計費機制,表示任務在上執(zhí)行的成本;

      26、任務執(zhí)行的總成本表示為:

      27、

      28、其中,表示任務是否在上執(zhí)行,若=?1表示任務在上執(zhí)行,若=0則表示任務不在上執(zhí)行。

      29、可選地,所述狀態(tài)空間包括虛擬機實例狀態(tài)和任務狀態(tài),所述狀態(tài)空間中的每個狀態(tài)信息定義為:

      30、

      31、其中,表示狀態(tài)空間中的任一狀態(tài)信息,表示任務的當前狀態(tài)信息,=0表示等待調(diào)度,=1表示正在調(diào)度,=2表示已完成調(diào)度;表示虛擬機實例集合中可用的虛擬機實例;表示任務當前狀態(tài)下的完工時間;表示當前狀態(tài)下虛擬機實例的運行成本。

      32、可選地,所述動作空間包括所述dqn模型的智能體在任一狀態(tài)下的所有可執(zhí)行動作的集合,所述動作表示從所述動作空間選擇一個動作并執(zhí)行,所述動作空間表示如下:

      33、

      34、其中,表示動作空間;對于動作,表示選擇將當前任務分配到并執(zhí)行;表示在滿負荷狀態(tài)或其他異常情況下執(zhí)行等待。

      35、可選地,所述獎勵函數(shù)計算公式如下:

      36、

      37、其中,表示完工時間獎勵,表示成本懲罰項。

      38、所述完工時間獎勵的計算公式如下:

      39、

      40、其中,為完工時間優(yōu)化目標的權重系數(shù),的值為正數(shù);和分別代表在狀態(tài)和狀態(tài)下的最長完工時間;

      41、所述成本懲罰項計算公式如下:

      42、

      43、其中,為成本獎勵優(yōu)化目標的權重系數(shù),的值為正數(shù)。

      44、可選地,所述dqn模型包括評估網(wǎng)絡和目標網(wǎng)絡,所述利用深度q網(wǎng)絡dqn模型進行訓練包括如下步驟:

      45、使用隨機的網(wǎng)絡參數(shù)ω初始化所述評估網(wǎng)絡;

      46、獲取當前狀態(tài),根據(jù)當前狀態(tài)采用策略選取動作,并執(zhí)行動作;

      47、執(zhí)行動作后,獲取環(huán)境反饋的即時獎勵和下一個狀態(tài);

      48、將當前狀態(tài)、執(zhí)行的動作、獲得的即時獎勵、以及下一個狀態(tài)形成元組并作為經(jīng)驗樣本存儲到經(jīng)驗回放模塊;其中,所述即時獎勵通過所述獎勵函數(shù)計算得到;

      49、當所述經(jīng)驗樣本的數(shù)據(jù)量達到預設值時,從所述經(jīng)驗回放模塊中隨機選取經(jīng)驗樣本對評估網(wǎng)絡進行訓練;

      50、利用所述評估網(wǎng)絡基于選定的經(jīng)驗樣本計算預測q值,同時,利用所述目標網(wǎng)絡根據(jù)選定的經(jīng)驗樣本計算目標q值;

      51、根據(jù)預測q值和目標q值計算損失函數(shù),利用梯度下降法更新所述網(wǎng)絡參數(shù)ω;

      52、迭代訓練評估網(wǎng)絡,訓練結束后,保存最終訓練得到的網(wǎng)絡參數(shù)ω;

      53、其中,迭代訓練評估網(wǎng)絡過程中,每隔預設步數(shù)將評估網(wǎng)絡的網(wǎng)絡參數(shù)復制給目標網(wǎng)絡。

      54、通過引入評估網(wǎng)絡與目標網(wǎng)絡的分離及定期權重同步,結合經(jīng)驗回放機制,dqn模型有效提升了訓練的穩(wěn)定性和收斂速度,增強了模型對復雜環(huán)境的適應能力。

      55、可選地,所述根據(jù)當前狀態(tài)采用策略選取動作包括以下步驟:

      56、設定一個探索速率,初始化為?1;

      57、每次決策時,隨機生成一個[0,?1]范圍內(nèi)的隨機數(shù),如果,則執(zhí)行利用決策,即選擇當前狀態(tài)下q值最高的動作執(zhí)行;如果,則繼續(xù)執(zhí)行探索決策,即隨機選擇一個動作執(zhí)行;

      58、每隔一段預設時間,逐漸減小探索速率的值。

      59、采用策略選取動作,在初始階段更多地對策略進行探索從而得到更多的經(jīng)驗,對各個動作的q值估計得越來越準。探索速率隨時間衰減,能夠在積累大量經(jīng)驗后逐漸減少探索,更多地利用已有的q值來優(yōu)化動作的選取。

      60、根據(jù)本技術的第二方面,提供了一種成本與時間感知的任務調(diào)度裝置,所述裝置應用于多云環(huán)境,所述多云環(huán)境包括至少2個云服務提供商csp,每個所述云服務提供商csp包括若干個虛擬機實例,所述裝置包括:

      61、任務提交模塊,用于提交待調(diào)度任務,并將所述待調(diào)度任務進行排序;

      62、信息獲取模塊,用于獲取待調(diào)度任務信息與多云環(huán)境信息,根據(jù)待調(diào)度任務信息與多云環(huán)境信息確定狀態(tài)空間、動作空間和獎勵函數(shù);所述獎勵函數(shù)包括完工時間獎勵和成本懲罰項;

      63、dqn模型訓練模塊,用于將任務調(diào)度問題形式化馬爾可夫決策過程mdp,利用深度q網(wǎng)絡dqn模型進行訓練;

      64、資源分配模塊,用于利用訓練后的所述dqn模型確定所述任務調(diào)度問題的最優(yōu)調(diào)度策略,根據(jù)所述最優(yōu)調(diào)度策略為所述待調(diào)度任務分配對應的虛擬機實例。

      65、根據(jù)本技術的第三方面,提供了一種電子設備,包括:

      66、存儲器,用于存儲一個或多個計算機程序;

      67、處理器,當所述一個或多個計算機程序被所述處理器執(zhí)行時,實現(xiàn)上述第一方面所述的成本與時間感知的任務調(diào)度方法。

      68、根據(jù)本技術的第四方面,提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機指令,所述計算機指令用于使處理器執(zhí)行時實現(xiàn)上述第一方面所述的成本與時間感知的任務調(diào)度方法。

      69、基于上述任意一個方面,本技術實施例提供的成本與時間感知的任務調(diào)度方法、裝置、電子設備及計算機存儲介質(zhì),通過將任務調(diào)度問題形式化為馬爾可夫決策過程并利用dqn模型進行訓練尋找最優(yōu)的調(diào)整策略,能夠自動學習和適應環(huán)境的變化,從而靈活應對不同的任務調(diào)度需求,使得任務調(diào)度方法在實際應用中更加可靠和高效。dqn模型的獎勵函數(shù)包括完工時間獎勵和成本懲罰項,使得模型作出的調(diào)度策略能夠同時兼顧任務的完成時間和執(zhí)行成本。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1