国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于改進(jìn)PPO和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法

      文檔序號:40281164發(fā)布日期:2024-12-11 13:20閱讀:來源:國知局

      技術(shù)特征:

      1.一種基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,包括以下步驟:

      2.根據(jù)權(quán)利要求1所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,步驟s1所述數(shù)據(jù)集包括網(wǎng)絡(luò)軌跡數(shù)據(jù)集和視頻數(shù)據(jù),從數(shù)據(jù)集中隨機(jī)選取80%的樣本作為訓(xùn)練集,其余20%作為測試集。

      3.根據(jù)權(quán)利要求1或2所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,步驟s2所述定義策略的方法為:定義策略函數(shù)π:π(st,ai)→[0,1],其中π(st,ai)表示策略函數(shù)π在每個(gè)時(shí)間步接收到環(huán)境狀態(tài)信息st下采取動作ai的動作概率,策略函數(shù)最終輸出所有動作概率分布π(st)={π(st,a1),π(st,a2),…};定義價(jià)值函數(shù)v=v(st),v(st)表示狀態(tài)價(jià)值;

      4.根據(jù)權(quán)利要求3所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,步驟s2所述的ippo-drl-abr模型的構(gòu)建方法為:構(gòu)建數(shù)據(jù)獲取模塊,將數(shù)據(jù)獲取模塊與智能體相連接,智能體包括策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)均與數(shù)據(jù)獲取模塊相連接,策略網(wǎng)絡(luò)與環(huán)境相連接;環(huán)境接收智能體基于策略網(wǎng)絡(luò)選擇的動作,向智能體返回獎(jiǎng)勵(lì),并更新狀態(tài),環(huán)境與數(shù)據(jù)獲取模塊相連接,智能體采用結(jié)合自注意力機(jī)制和長短期記憶網(wǎng)絡(luò)的lstm-sa網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)學(xué)習(xí)環(huán)境狀態(tài)信息的特征,

      5.根據(jù)權(quán)利要求4所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,步驟s3所述的基于ippo-drl-abr模型利用策略在環(huán)境中多次采樣的方法為:在每個(gè)訓(xùn)練回合k開始時(shí)初始化環(huán)境;在每個(gè)訓(xùn)練回合k中的每個(gè)時(shí)間步t利用數(shù)據(jù)獲取模塊與環(huán)境交互收集環(huán)境狀態(tài)信息st,利用策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)對環(huán)境狀態(tài)信息進(jìn)行特征提取,輸出動作概率分布和狀態(tài)價(jià)值根據(jù)動作概率分布選擇其中一個(gè)動作at,根據(jù)動作at從環(huán)境獲取獎(jiǎng)勵(lì)rt,數(shù)據(jù)獲取模塊在從環(huán)境獲取新的環(huán)境狀態(tài)信息st+1,記錄軌跡數(shù)據(jù)重復(fù)多個(gè)時(shí)間步進(jìn)行多次采樣,達(dá)到預(yù)定的時(shí)間步次數(shù)t,最終得到每個(gè)訓(xùn)練回合k的多次采樣后的軌跡數(shù)據(jù)dk;θk為策略網(wǎng)絡(luò)當(dāng)前訓(xùn)練回合的策略網(wǎng)絡(luò)參數(shù),φk為價(jià)值網(wǎng)絡(luò)當(dāng)前訓(xùn)練回合的價(jià)值網(wǎng)絡(luò)參數(shù)。

      6.根據(jù)權(quán)利要求5所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,所述環(huán)境狀態(tài)信息st包括多個(gè)單一值類型的狀態(tài)參數(shù)和多個(gè)連續(xù)值類型的狀態(tài)參數(shù)。

      7.根據(jù)權(quán)利要求6所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,所述利用策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)對環(huán)境狀態(tài)信息進(jìn)行特征提取的方法為:

      8.根據(jù)權(quán)利要求7所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,所述lstm-sa網(wǎng)絡(luò)的計(jì)算過程為:將連續(xù)值類型的狀態(tài)參數(shù)輸入到lstm網(wǎng)絡(luò),在lstm-sa網(wǎng)絡(luò)的每個(gè)時(shí)間步依次經(jīng)過遺忘門、輸入門、更新記憶單元、輸出門和隱藏狀態(tài)更新,動態(tài)更新細(xì)胞狀態(tài)和隱藏狀態(tài);

      9.根據(jù)權(quán)利要求5或6所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,步驟s4所述的利用采用雙重裁剪機(jī)制的ppo方法進(jìn)行策略更新的方法為:根據(jù)收集到的軌跡數(shù)據(jù)dk計(jì)算每個(gè)時(shí)間步的累積折扣獎(jiǎng)勵(lì)根據(jù)每個(gè)時(shí)間步的累積折扣獎(jiǎng)勵(lì)和每個(gè)時(shí)間步的狀態(tài)價(jià)值計(jì)算每個(gè)時(shí)間步的優(yōu)勢估計(jì)值通過引入修正系數(shù)和利用雙優(yōu)勢估計(jì)的雙重裁剪最大限度實(shí)現(xiàn)ppo目標(biāo)函數(shù),更新策略網(wǎng)絡(luò)參數(shù);通過均方誤差回歸擬合每個(gè)時(shí)間步的價(jià)值函數(shù)更新價(jià)值函數(shù)。

      10.根據(jù)權(quán)利要求9所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,所述累積折扣獎(jiǎng)勵(lì)的計(jì)算過程為:


      技術(shù)總結(jié)
      本發(fā)明提出了一種基于改進(jìn)PPO和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,包括以下步驟:S1:收集數(shù)據(jù)集,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集;S2:定義策略,并構(gòu)建環(huán)境,基于策略構(gòu)建IPPO?DRL?ABR模型,初始化模型參數(shù)并輸入訓(xùn)練集到IPPO?DRL?ABR模型;S3:基于IPPO?DRL?ABR模型利用策略在環(huán)境中多次采樣,記錄軌跡數(shù)據(jù);S4:基于軌跡數(shù)據(jù),利用采用雙重裁剪機(jī)制的PPO方法進(jìn)行策略更新;S5:重復(fù)步驟S3到S4直到達(dá)到預(yù)定的訓(xùn)練周期或性能標(biāo)準(zhǔn),得到訓(xùn)練好的IPPO?DRL?ABR模型;S6:利用測試集對訓(xùn)練好的IPPO?DRL?ABR模型進(jìn)行驗(yàn)證并輸出最優(yōu)碼率。本發(fā)明方法顯著提升自適應(yīng)碼率方法的訓(xùn)練效率、穩(wěn)定性和泛化能力。

      技術(shù)研發(fā)人員:張建偉,蔡增玉,韓洋,朱亮,梁樹軍,趙紅英,鄭倩,孫海燕
      受保護(hù)的技術(shù)使用者:鄭州輕工業(yè)大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      當(dāng)前第2頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1