一種基于改進(jìn)PPO和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法

文檔序號：40281164發(fā)布日期：2024-12-11 13:20閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)>一種基于改進(jìn)PPO和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法

技術(shù)特征：

1.一種基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，其特征在于，步驟s1所述數(shù)據(jù)集包括網(wǎng)絡(luò)軌跡數(shù)據(jù)集和視頻數(shù)據(jù)，從數(shù)據(jù)集中隨機(jī)選取80％的樣本作為訓(xùn)練集，其余20％作為測試集。

3.根據(jù)權(quán)利要求1或2所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，其特征在于，步驟s2所述定義策略的方法為：定義策略函數(shù)π:π(st,ai)→[0,1]，其中π(st,ai)表示策略函數(shù)π在每個(gè)時(shí)間步接收到環(huán)境狀態(tài)信息st下采取動作ai的動作概率，策略函數(shù)最終輸出所有動作概率分布π(st)＝{π(st,a1),π(st,a2),…}；定義價(jià)值函數(shù)v＝v(st)，v(st)表示狀態(tài)價(jià)值；

4.根據(jù)權(quán)利要求3所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，其特征在于，步驟s2所述的ippo-drl-abr模型的構(gòu)建方法為：構(gòu)建數(shù)據(jù)獲取模塊，將數(shù)據(jù)獲取模塊與智能體相連接，智能體包括策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)，策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)均與數(shù)據(jù)獲取模塊相連接，策略網(wǎng)絡(luò)與環(huán)境相連接；環(huán)境接收智能體基于策略網(wǎng)絡(luò)選擇的動作，向智能體返回獎(jiǎng)勵(lì)，并更新狀態(tài)，環(huán)境與數(shù)據(jù)獲取模塊相連接，智能體采用結(jié)合自注意力機(jī)制和長短期記憶網(wǎng)絡(luò)的lstm-sa網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)學(xué)習(xí)環(huán)境狀態(tài)信息的特征，

5.根據(jù)權(quán)利要求4所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，其特征在于，步驟s3所述的基于ippo-drl-abr模型利用策略在環(huán)境中多次采樣的方法為：在每個(gè)訓(xùn)練回合k開始時(shí)初始化環(huán)境；在每個(gè)訓(xùn)練回合k中的每個(gè)時(shí)間步t利用數(shù)據(jù)獲取模塊與環(huán)境交互收集環(huán)境狀態(tài)信息st，利用策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)對環(huán)境狀態(tài)信息進(jìn)行特征提取，輸出動作概率分布和狀態(tài)價(jià)值根據(jù)動作概率分布選擇其中一個(gè)動作at，根據(jù)動作at從環(huán)境獲取獎(jiǎng)勵(lì)rt，數(shù)據(jù)獲取模塊在從環(huán)境獲取新的環(huán)境狀態(tài)信息st+1，記錄軌跡數(shù)據(jù)重復(fù)多個(gè)時(shí)間步進(jìn)行多次采樣，達(dá)到預(yù)定的時(shí)間步次數(shù)t，最終得到每個(gè)訓(xùn)練回合k的多次采樣后的軌跡數(shù)據(jù)dk；θk為策略網(wǎng)絡(luò)當(dāng)前訓(xùn)練回合的策略網(wǎng)絡(luò)參數(shù)，φk為價(jià)值網(wǎng)絡(luò)當(dāng)前訓(xùn)練回合的價(jià)值網(wǎng)絡(luò)參數(shù)。

6.根據(jù)權(quán)利要求5所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，其特征在于，所述環(huán)境狀態(tài)信息st包括多個(gè)單一值類型的狀態(tài)參數(shù)和多個(gè)連續(xù)值類型的狀態(tài)參數(shù)。

7.根據(jù)權(quán)利要求6所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，其特征在于，所述利用策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)對環(huán)境狀態(tài)信息進(jìn)行特征提取的方法為：

8.根據(jù)權(quán)利要求7所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，其特征在于，所述lstm-sa網(wǎng)絡(luò)的計(jì)算過程為：將連續(xù)值類型的狀態(tài)參數(shù)輸入到lstm網(wǎng)絡(luò)，在lstm-sa網(wǎng)絡(luò)的每個(gè)時(shí)間步依次經(jīng)過遺忘門、輸入門、更新記憶單元、輸出門和隱藏狀態(tài)更新，動態(tài)更新細(xì)胞狀態(tài)和隱藏狀態(tài)；

9.根據(jù)權(quán)利要求5或6所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，其特征在于，步驟s4所述的利用采用雙重裁剪機(jī)制的ppo方法進(jìn)行策略更新的方法為：根據(jù)收集到的軌跡數(shù)據(jù)dk計(jì)算每個(gè)時(shí)間步的累積折扣獎(jiǎng)勵(lì)根據(jù)每個(gè)時(shí)間步的累積折扣獎(jiǎng)勵(lì)和每個(gè)時(shí)間步的狀態(tài)價(jià)值計(jì)算每個(gè)時(shí)間步的優(yōu)勢估計(jì)值通過引入修正系數(shù)和利用雙優(yōu)勢估計(jì)的雙重裁剪最大限度實(shí)現(xiàn)ppo目標(biāo)函數(shù)，更新策略網(wǎng)絡(luò)參數(shù)；通過均方誤差回歸擬合每個(gè)時(shí)間步的價(jià)值函數(shù)更新價(jià)值函數(shù)。

10.根據(jù)權(quán)利要求9所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，其特征在于，所述累積折扣獎(jiǎng)勵(lì)的計(jì)算過程為：

技術(shù)總結(jié)
本發(fā)明提出了一種基于改進(jìn)PPO和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法，包括以下步驟：S1：收集數(shù)據(jù)集，將數(shù)據(jù)集劃分為訓(xùn)練集和測試集；S2：定義策略，并構(gòu)建環(huán)境，基于策略構(gòu)建IPPO?DRL?ABR模型，初始化模型參數(shù)并輸入訓(xùn)練集到IPPO?DRL?ABR模型；S3：基于IPPO?DRL?ABR模型利用策略在環(huán)境中多次采樣，記錄軌跡數(shù)據(jù)；S4：基于軌跡數(shù)據(jù)，利用采用雙重裁剪機(jī)制的PPO方法進(jìn)行策略更新；S5：重復(fù)步驟S3到S4直到達(dá)到預(yù)定的訓(xùn)練周期或性能標(biāo)準(zhǔn)，得到訓(xùn)練好的IPPO?DRL?ABR模型；S6：利用測試集對訓(xùn)練好的IPPO?DRL?ABR模型進(jìn)行驗(yàn)證并輸出最優(yōu)碼率。本發(fā)明方法顯著提升自適應(yīng)碼率方法的訓(xùn)練效率、穩(wěn)定性和泛化能力。

技術(shù)研發(fā)人員：張建偉,蔡增玉,韓洋,朱亮,梁樹軍,趙紅英,鄭倩,孫海燕
受保護(hù)的技術(shù)使用者：鄭州輕工業(yè)大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于改進(jìn)PPO和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法