国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法與流程

      文檔序號(hào):40450903發(fā)布日期:2024-12-27 09:15閱讀:12來源:國(guó)知局
      物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法與流程

      本發(fā)明涉及物聯(lián)網(wǎng)控制,尤其指一種物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法。


      背景技術(shù):

      1、在物聯(lián)網(wǎng)中,自從tcp被首次引入以來,已經(jīng)開發(fā)了大量的擁塞控制機(jī)制。然而,沒有一種機(jī)制可以在不同的環(huán)境和用戶需求中始終如一地提供頂級(jí)網(wǎng)絡(luò)性能。這主要可歸因于兩個(gè)原因:首先,大多數(shù)算法通常是針對(duì)特定的網(wǎng)絡(luò)環(huán)境進(jìn)行優(yōu)化的;其次,在動(dòng)態(tài)變化的條件下,用單一策略保持最優(yōu)性能通常是困難的。基于機(jī)器學(xué)習(xí)的擁塞控制方法具有自主適應(yīng)網(wǎng)絡(luò)場(chǎng)景的能力,它們利用不同的輸入和策略來管理發(fā)送速率,而在現(xiàn)實(shí)的網(wǎng)絡(luò)中實(shí)現(xiàn)這些方法是具有挑戰(zhàn)性的,因?yàn)閱蝹€(gè)網(wǎng)絡(luò)環(huán)境的獨(dú)特特征和持續(xù)的學(xué)習(xí)要求會(huì)損害它們?cè)谛戮W(wǎng)絡(luò)設(shè)置中的可靠性。

      2、為了解決以上的問題,近年來學(xué)術(shù)界提出了一種基于深度強(qiáng)化學(xué)習(xí)(deepreinforcement?learning,drl)解決方案。使用深度強(qiáng)化學(xué)習(xí)來基于當(dāng)前網(wǎng)絡(luò)條件智能地選擇合適的擁塞控制策略,這種方案不直接配置傳輸速率,而是根據(jù)網(wǎng)絡(luò)狀態(tài)動(dòng)態(tài)調(diào)整擁塞控制。然而,這種自適應(yīng)策略可能會(huì)引入復(fù)雜性,因?yàn)樵谥饾u穩(wěn)定的網(wǎng)絡(luò)中頻繁的調(diào)整可能會(huì)導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定和擁塞,最終影響整體性能。

      3、因此,如何避免基于深度強(qiáng)化學(xué)習(xí)的擁塞控制機(jī)制不適合高度可變的網(wǎng)絡(luò)環(huán)境,以及減少網(wǎng)絡(luò)中不必要的計(jì)算開銷,從而提高吞吐量,是一個(gè)亟待解決的問題。


      技術(shù)實(shí)現(xiàn)思路

      1、為了避免傳統(tǒng)的基于深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制機(jī)制存在過多的計(jì)算開銷,以及避免突發(fā)網(wǎng)絡(luò)下系統(tǒng)出現(xiàn)延遲和響應(yīng)緩慢的問題,本發(fā)明提供一種物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法。

      2、為了解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方法:一種物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法,drl中的agent和發(fā)送方執(zhí)行以下步驟:

      3、agent:

      4、步驟s101、智能體監(jiān)聽是否有新數(shù)據(jù)包到達(dá),若有新數(shù)據(jù)包到達(dá),轉(zhuǎn)步驟s102,否則繼續(xù)監(jiān)聽是否有新數(shù)據(jù)包到達(dá);

      5、步驟s102、實(shí)時(shí)監(jiān)測(cè)采集當(dāng)前網(wǎng)絡(luò)環(huán)境中的關(guān)鍵數(shù)據(jù),包括rtt、丟包率、吞吐量、最小延遲和最大起跳速率,轉(zhuǎn)步驟s103;

      6、步驟s103、使用觸發(fā)機(jī)制來判斷當(dāng)前網(wǎng)絡(luò)是否需要更新,如果需要轉(zhuǎn)步驟104;否則轉(zhuǎn)步驟102;

      7、步驟s104、計(jì)算不同擁塞控制策略的獎(jiǎng)勵(lì)值,選擇獎(jiǎng)勵(lì)值最高的擁塞控制策略作為當(dāng)前最優(yōu)的網(wǎng)絡(luò)擁塞控制策略,轉(zhuǎn)步驟s105;

      8、步驟s105、將決策出的最優(yōu)網(wǎng)絡(luò)擁塞控制策略應(yīng)用到當(dāng)前網(wǎng)絡(luò)中,轉(zhuǎn)步驟s106;

      9、步驟s106、根據(jù)改變策略后的實(shí)時(shí)網(wǎng)絡(luò)情況不斷優(yōu)化drl中的參數(shù),轉(zhuǎn)步驟s101;

      10、發(fā)送方:

      11、步驟s201、將鏈路的相關(guān)信息反饋給agent,以使agent能不斷計(jì)算出當(dāng)前擁塞控制策略的獎(jiǎng)勵(lì)值;

      12、步驟s202、判斷數(shù)據(jù)包是否發(fā)送完畢,如是,則結(jié)束;否則轉(zhuǎn)步驟s201。

      13、進(jìn)一步的,步驟s103中,所述觸發(fā)機(jī)制為:評(píng)估當(dāng)期擁塞控制策略是否需要更改,將當(dāng)前網(wǎng)絡(luò)狀態(tài)與歷史網(wǎng)絡(luò)狀態(tài)進(jìn)行比較,若偏離預(yù)期性能,將觸發(fā)切換擁塞控制策略,以實(shí)現(xiàn)當(dāng)前網(wǎng)絡(luò)的更新。

      14、再進(jìn)一步的,在所述觸發(fā)機(jī)制中,偏離預(yù)期性能為吞吐量降低超過15%。

      15、或者,在所述觸發(fā)機(jī)制中,偏離預(yù)期性能為rtt增加超過50%,或丟包率上升超過20%。

      16、更進(jìn)一步的,所述獎(jiǎng)勵(lì)值采用如下獎(jiǎng)勵(lì)函數(shù)進(jìn)行計(jì)算:

      17、

      18、其中,表示在當(dāng)前網(wǎng)絡(luò)下最優(yōu)的發(fā)送速率,也視為獎(jiǎng)勵(lì)值;tps代表當(dāng)前網(wǎng)絡(luò)中發(fā)送的平均吞吐量;η表示修正因子,用于調(diào)整吞吐量的影響;loss表示丟包數(shù);delay表示當(dāng)前網(wǎng)絡(luò)環(huán)境下的延遲,取當(dāng)前環(huán)境下的rtt;pacing_ratemax為最大的發(fā)送速率,即表示在網(wǎng)絡(luò)環(huán)境理想的情況下能夠達(dá)到的最大數(shù)據(jù)發(fā)送速率;delaymin是網(wǎng)絡(luò)在理想環(huán)境下的最小延遲,取當(dāng)前環(huán)境下的歷史最小rtt;α表示超參數(shù),其固定值為0.05;trigger為觸發(fā)指令,其值為0或1,當(dāng)觸發(fā)指令為1時(shí),表示更改擁塞控制策略的指令被觸發(fā),當(dāng)觸發(fā)指令為0時(shí),表示更改擁塞控制策略的指令不觸發(fā)。

      19、再進(jìn)一步的,步驟s104中,所述擁塞控制策略包括bbr、reno、cubic三種擁塞控制策略。

      20、優(yōu)選的,步驟s106,根據(jù)改變策略后的實(shí)時(shí)網(wǎng)絡(luò)情況不斷優(yōu)化參數(shù)η,轉(zhuǎn)步驟s101。

      21、作為本發(fā)明的另一面,基于分層自適應(yīng)的深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制模型,包括:監(jiān)控模塊、決策模塊、策略生成模塊;

      22、監(jiān)控模塊,其實(shí)時(shí)監(jiān)測(cè)收集網(wǎng)絡(luò)數(shù)據(jù),再將網(wǎng)絡(luò)數(shù)據(jù)傳遞給決策模塊,所述網(wǎng)絡(luò)數(shù)據(jù)包括rtt、丟包率、吞吐量、最小延遲和最大起跳速率;

      23、決策模塊,其根據(jù)監(jiān)控模塊提供的網(wǎng)絡(luò)數(shù)據(jù)評(píng)估當(dāng)前網(wǎng)絡(luò)的擁塞控制情況,確定是否需要對(duì)當(dāng)前的擁塞控制策略進(jìn)行調(diào)整;

      24、策略生成模塊,其包含多個(gè)擁塞控制策略的子模型,所述策略生成模塊通過計(jì)算不同擁塞控制策略的獎(jiǎng)勵(lì)值以動(dòng)態(tài)選擇期望回報(bào)最高的擁塞控制策略作為最合適當(dāng)前網(wǎng)絡(luò)條件的策略;

      25、該控制模型根據(jù)其監(jiān)控模塊、決策模塊、策略生成模塊的層級(jí)結(jié)構(gòu)執(zhí)行前述網(wǎng)絡(luò)擁塞控制方法以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)環(huán)境的自適應(yīng)控制。

      26、本發(fā)明提供的基于分層自適應(yīng)的深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制模型,具有靈活的分層控制結(jié)構(gòu),包括決策模塊和策略生成模塊,能最大限度地減少頻繁調(diào)整策略的需要,提高了網(wǎng)絡(luò)的穩(wěn)定性。該模型執(zhí)行的網(wǎng)絡(luò)擁塞控制方法,在決策模塊評(píng)估的基礎(chǔ)上使用drl進(jìn)行動(dòng)態(tài)機(jī)制選擇,具體的,通過獲取和觀察數(shù)據(jù)輸入來評(píng)估學(xué)習(xí)agent的當(dāng)前狀態(tài),這種評(píng)估包含將當(dāng)前狀態(tài)與執(zhí)行動(dòng)作時(shí)的最后狀態(tài)進(jìn)行比較,決策模塊只有在識(shí)別出明顯的差異時(shí)才會(huì)啟動(dòng)一個(gè)操作,并激活策略生成模塊來執(zhí)行下一個(gè)操作的信號(hào),能最大限度地減少擁塞控制策略頻繁切換帶來的計(jì)算負(fù)擔(dān),避免了計(jì)算開銷過高的問題,而agent保持與網(wǎng)絡(luò)環(huán)境的鏈接,檢索更新的狀態(tài)和獎(jiǎng)勵(lì)值,有助于提高網(wǎng)絡(luò)整體性能,實(shí)證評(píng)估表明,hacc顯著優(yōu)于現(xiàn)有方法,實(shí)現(xiàn)了顯著的延遲降低和吞吐量提高,在不同的網(wǎng)絡(luò)流量模式下,與cubic、reno、bbr和antelope相比,hacc的平均開銷降低了約31%,吞吐量分別提高了47%、35%、23%和15%。



      技術(shù)特征:

      1.物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法,其特征在于:drl中的agent和發(fā)送方執(zhí)行以下步驟:

      2.根據(jù)權(quán)利要求1所述的物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法,其特征在于:步驟s103中,所述觸發(fā)機(jī)制為:評(píng)估當(dāng)期擁塞控制策略是否需要更改,將當(dāng)前網(wǎng)絡(luò)狀態(tài)與歷史網(wǎng)絡(luò)狀態(tài)進(jìn)行比較,若偏離預(yù)期性能,將觸發(fā)切換擁塞控制策略,以實(shí)現(xiàn)當(dāng)前網(wǎng)絡(luò)的更新。

      3.根據(jù)權(quán)利要求2所述的物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法,其特征在于:在所述觸發(fā)機(jī)制中,偏離預(yù)期性能為吞吐量降低超過15%。

      4.根據(jù)權(quán)利要求2所述的物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法,其特征在于:在所述觸發(fā)機(jī)制中,偏離預(yù)期性能為rtt增加超過50%,或丟包率上升超過20%。

      5.根據(jù)權(quán)利要求3所述的物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法,其特征在于:所述獎(jiǎng)勵(lì)值采用如下獎(jiǎng)勵(lì)函數(shù)進(jìn)行計(jì)算:

      6.根據(jù)權(quán)利要求5所述的物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法,其特征在于:步驟s104中,所述擁塞控制策略包括bbr、reno、cubic三種擁塞控制策略。

      7.根據(jù)權(quán)利要求6所述的物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法,其特征在于:步驟s106,根據(jù)改變策略后的實(shí)時(shí)網(wǎng)絡(luò)情況不斷優(yōu)化參數(shù)η,轉(zhuǎn)步驟s101。

      8.基于分層自適應(yīng)的深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制模型,其特征在于,包括:監(jiān)控模塊、決策模塊、策略生成模塊;


      技術(shù)總結(jié)
      本發(fā)明提供的物聯(lián)網(wǎng)基于分層自適應(yīng)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制方法,通過獲取和觀察數(shù)據(jù)輸入來評(píng)估學(xué)習(xí)agent的當(dāng)前狀態(tài),這種評(píng)估包含將當(dāng)前狀態(tài)與執(zhí)行動(dòng)作時(shí)的最后狀態(tài)進(jìn)行比較,決策模塊只有在識(shí)別出明顯的差異時(shí)才會(huì)啟動(dòng)一個(gè)操作,并激活策略生成模塊來執(zhí)行下一個(gè)操作的信號(hào),最大限度地減少了擁塞控制策略頻繁切換帶來的計(jì)算負(fù)擔(dān),避免了計(jì)算開銷過高的問題,而agent保持與網(wǎng)絡(luò)環(huán)境的鏈接,檢索更新的狀態(tài)和獎(jiǎng)勵(lì)值,有助于提高網(wǎng)絡(luò)整體性能。

      技術(shù)研發(fā)人員:鄧鵬程,胡勇勝,羅紅祥,羅立軍,鐘平,鄧烜,石元,李華喜,陳金鑫,丁旭,康志遠(yuǎn),陳忠輝,黃孔,譚曜堃,馬騰飛,羅佑楠,胡錫濤,胡晉彬,王進(jìn)
      受保護(hù)的技術(shù)使用者:湖南五凌電力科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/26
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1