1.一種基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,步驟s1所述數(shù)據(jù)集包括網(wǎng)絡(luò)軌跡數(shù)據(jù)集和視頻數(shù)據(jù),從數(shù)據(jù)集中隨機(jī)選取80%的樣本作為訓(xùn)練集,其余20%作為測試集。
3.根據(jù)權(quán)利要求1或2所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,步驟s2所述定義策略的方法為:定義策略函數(shù)π:π(st,ai)→[0,1],其中π(st,ai)表示策略函數(shù)π在每個(gè)時(shí)間步接收到環(huán)境狀態(tài)信息st下采取動作ai的動作概率,策略函數(shù)最終輸出所有動作概率分布π(st)={π(st,a1),π(st,a2),…};定義價(jià)值函數(shù)v=v(st),v(st)表示狀態(tài)價(jià)值;
4.根據(jù)權(quán)利要求3所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,步驟s2所述的ippo-drl-abr模型的構(gòu)建方法為:構(gòu)建數(shù)據(jù)獲取模塊,將數(shù)據(jù)獲取模塊與智能體相連接,智能體包括策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)均與數(shù)據(jù)獲取模塊相連接,策略網(wǎng)絡(luò)與環(huán)境相連接;環(huán)境接收智能體基于策略網(wǎng)絡(luò)選擇的動作,向智能體返回獎(jiǎng)勵(lì),并更新狀態(tài),環(huán)境與數(shù)據(jù)獲取模塊相連接,智能體采用結(jié)合自注意力機(jī)制和長短期記憶網(wǎng)絡(luò)的lstm-sa網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)學(xué)習(xí)環(huán)境狀態(tài)信息的特征,
5.根據(jù)權(quán)利要求4所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,步驟s3所述的基于ippo-drl-abr模型利用策略在環(huán)境中多次采樣的方法為:在每個(gè)訓(xùn)練回合k開始時(shí)初始化環(huán)境;在每個(gè)訓(xùn)練回合k中的每個(gè)時(shí)間步t利用數(shù)據(jù)獲取模塊與環(huán)境交互收集環(huán)境狀態(tài)信息st,利用策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)對環(huán)境狀態(tài)信息進(jìn)行特征提取,輸出動作概率分布和狀態(tài)價(jià)值根據(jù)動作概率分布選擇其中一個(gè)動作at,根據(jù)動作at從環(huán)境獲取獎(jiǎng)勵(lì)rt,數(shù)據(jù)獲取模塊在從環(huán)境獲取新的環(huán)境狀態(tài)信息st+1,記錄軌跡數(shù)據(jù)重復(fù)多個(gè)時(shí)間步進(jìn)行多次采樣,達(dá)到預(yù)定的時(shí)間步次數(shù)t,最終得到每個(gè)訓(xùn)練回合k的多次采樣后的軌跡數(shù)據(jù)dk;θk為策略網(wǎng)絡(luò)當(dāng)前訓(xùn)練回合的策略網(wǎng)絡(luò)參數(shù),φk為價(jià)值網(wǎng)絡(luò)當(dāng)前訓(xùn)練回合的價(jià)值網(wǎng)絡(luò)參數(shù)。
6.根據(jù)權(quán)利要求5所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,所述環(huán)境狀態(tài)信息st包括多個(gè)單一值類型的狀態(tài)參數(shù)和多個(gè)連續(xù)值類型的狀態(tài)參數(shù)。
7.根據(jù)權(quán)利要求6所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,所述利用策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)對環(huán)境狀態(tài)信息進(jìn)行特征提取的方法為:
8.根據(jù)權(quán)利要求7所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,所述lstm-sa網(wǎng)絡(luò)的計(jì)算過程為:將連續(xù)值類型的狀態(tài)參數(shù)輸入到lstm網(wǎng)絡(luò),在lstm-sa網(wǎng)絡(luò)的每個(gè)時(shí)間步依次經(jīng)過遺忘門、輸入門、更新記憶單元、輸出門和隱藏狀態(tài)更新,動態(tài)更新細(xì)胞狀態(tài)和隱藏狀態(tài);
9.根據(jù)權(quán)利要求5或6所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,步驟s4所述的利用采用雙重裁剪機(jī)制的ppo方法進(jìn)行策略更新的方法為:根據(jù)收集到的軌跡數(shù)據(jù)dk計(jì)算每個(gè)時(shí)間步的累積折扣獎(jiǎng)勵(lì)根據(jù)每個(gè)時(shí)間步的累積折扣獎(jiǎng)勵(lì)和每個(gè)時(shí)間步的狀態(tài)價(jià)值計(jì)算每個(gè)時(shí)間步的優(yōu)勢估計(jì)值通過引入修正系數(shù)和利用雙優(yōu)勢估計(jì)的雙重裁剪最大限度實(shí)現(xiàn)ppo目標(biāo)函數(shù),更新策略網(wǎng)絡(luò)參數(shù);通過均方誤差回歸擬合每個(gè)時(shí)間步的價(jià)值函數(shù)更新價(jià)值函數(shù)。
10.根據(jù)權(quán)利要求9所述的基于改進(jìn)ppo和深度強(qiáng)化學(xué)習(xí)的自適應(yīng)碼率視頻流方法,其特征在于,所述累積折扣獎(jiǎng)勵(lì)的計(jì)算過程為: