国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于AI大模型的輔助決策方法及系統(tǒng)與流程

      文檔序號(hào):39474642發(fā)布日期:2024-09-24 20:19閱讀:69來(lái)源:國(guó)知局
      一種基于AI大模型的輔助決策方法及系統(tǒng)與流程

      本發(fā)明涉及強(qiáng)化學(xué)習(xí),更具體地說(shuō),它涉及一種基于ai大模型的輔助決策方法及系統(tǒng)。


      背景技術(shù):

      1、在虛擬環(huán)境下的軍事訓(xùn)練中,采用強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體來(lái)作為對(duì)抗方輔助指揮官進(jìn)行訓(xùn)練,強(qiáng)化學(xué)習(xí)需要通過(guò)不斷地迭代更新智能體的參數(shù)來(lái)對(duì)智能體進(jìn)行優(yōu)化,為了讓智能體能夠快速適應(yīng)指揮官的策略變化并持續(xù)創(chuàng)新,需要對(duì)智能體進(jìn)行在線學(xué)習(xí)和調(diào)整,在指揮官訓(xùn)練過(guò)程中,智能體需要同時(shí)進(jìn)行推理和學(xué)習(xí),智能體的訓(xùn)練與游戲的運(yùn)行都需要依賴(lài)服務(wù)器的網(wǎng)絡(luò)帶寬和處理能力,軍事訓(xùn)練進(jìn)程中的對(duì)抗烈度是不一樣的,智能體在接收到設(shè)定數(shù)量的行為獎(jiǎng)勵(lì)之后就會(huì)啟動(dòng)一輪訓(xùn)練,對(duì)抗烈度更高的時(shí)間段環(huán)境反饋的給智能體行為的獎(jiǎng)勵(lì)的頻率更高,所以智能體更新的頻率更高,同時(shí)的軍事訓(xùn)練的虛擬環(huán)境運(yùn)行所需的數(shù)據(jù)處理量也更多,在這段時(shí)間產(chǎn)生數(shù)據(jù)處理量的突增,如果冗余配置服務(wù)器的處理能力來(lái)保證最大數(shù)據(jù)處理量,則會(huì)在其他時(shí)間段浪費(fèi)服務(wù)器的處理能力。需要對(duì)伴隨游戲進(jìn)程波動(dòng)的游戲運(yùn)行數(shù)據(jù)處理任務(wù)和智能體訓(xùn)練的數(shù)據(jù)處理任務(wù)進(jìn)行合理分配,降低對(duì)服務(wù)器處理能力的需求。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明提供一種基于ai大模型的輔助決策方法及系統(tǒng),在智能體在線訓(xùn)練方面增加了一個(gè)神經(jīng)網(wǎng)絡(luò),可以讓智能體通過(guò)神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)地調(diào)節(jié)訓(xùn)練啟動(dòng)的時(shí)間和選取的經(jīng)驗(yàn)數(shù),從而讓智能體做到更加智能的降低服務(wù)器的任務(wù)處理峰值,同時(shí)也保證了智能體一定的對(duì)抗強(qiáng)度解決了冗余配置服務(wù)器的處理能力來(lái)保證最大數(shù)據(jù)處理量,則會(huì)在其他時(shí)間段浪費(fèi)服務(wù)器的處理能力的問(wèn)題。

      2、本發(fā)明提供了一種基于ai大模型的輔助決策方法,包括以下步驟:

      3、步驟100,采集訓(xùn)練數(shù)據(jù),編碼為觀測(cè)向量;

      4、訓(xùn)練數(shù)據(jù)包括當(dāng)前天氣數(shù)據(jù)、作戰(zhàn)訓(xùn)練地圖數(shù)據(jù)、敵方信息、己方信息、服務(wù)器信息;

      5、天氣數(shù)據(jù):溫度,濕度,能見(jiàn)度;

      6、作戰(zhàn)訓(xùn)練地圖數(shù)據(jù):地形圖、作戰(zhàn)區(qū)域劃分圖、陣地標(biāo)記圖;

      7、敵方信息:敵人數(shù)量、移動(dòng)速度、位置、隨身裝備;

      8、己方信息:己方的兵種類(lèi)、位置、數(shù)量、隨身裝備;

      9、服務(wù)器信息:服務(wù)器資源利用率;

      10、服務(wù)器資源利用率是cpu利用率、內(nèi)存利用率、磁盤(pán)i/o利用率和網(wǎng)絡(luò)帶寬利用率的加權(quán)和。

      11、步驟200,將當(dāng)前采集獲得的觀測(cè)向量輸入到dqn(deep?q?network)模型中,輸出第一動(dòng)作空間中所有第一動(dòng)作對(duì)應(yīng)的q值,使用第一動(dòng)作選擇策略從所有第一動(dòng)作中選擇一個(gè)第一動(dòng)作解碼并執(zhí)行;

      12、在本發(fā)明的一個(gè)實(shí)施例中,第一動(dòng)作空間的一個(gè)第一動(dòng)作表示為:

      13、;

      14、其中,、和分別表示第1、2、n個(gè)作戰(zhàn)單位需要移動(dòng)的目標(biāo)戰(zhàn)場(chǎng)區(qū)域;

      15、作戰(zhàn)行為、和分別表示第1、2、n個(gè)作戰(zhàn)單位需要執(zhí)行的作戰(zhàn)行動(dòng);

      16、在本發(fā)明的一個(gè)實(shí)施例中,戰(zhàn)場(chǎng)區(qū)域是訓(xùn)練戰(zhàn)場(chǎng)所劃分的區(qū)域,作戰(zhàn)行動(dòng)包括行軍、撤退、攻擊、陣地防御等。

      17、在本發(fā)明的一個(gè)實(shí)施例中,第一動(dòng)作選擇策略包括:

      18、根據(jù)-貪婪策略選擇第一動(dòng)作:

      19、設(shè)定初始值為0.1;

      20、生成一個(gè)隨機(jī)數(shù)r∈[0,1],如果r<,則隨機(jī)選擇一個(gè)第一動(dòng)作,否則,選擇q值最大的一個(gè)第一動(dòng)作。

      21、步驟300,定義t時(shí)刻為當(dāng)前的時(shí)刻,t時(shí)刻采取的第一動(dòng)作為,執(zhí)行第一動(dòng)作之后的t+1時(shí)刻采集的觀測(cè)向量,執(zhí)行第一動(dòng)作獲得的獎(jiǎng)勵(lì),組合成高維向量exp存放到經(jīng)驗(yàn)回放池中;

      22、,表示t時(shí)刻采集的觀測(cè)向量;

      23、的計(jì)算公式為:

      24、

      25、其中、、、分別表示第一、二、三、四獎(jiǎng)勵(lì)值,初始值均為0,執(zhí)行第一動(dòng)作后累加擊殺敵方士兵的數(shù)量,累加己方陣亡的士兵的數(shù)量,累加己方占領(lǐng)的陣地?cái)?shù)量,累加己方失守的陣地?cái)?shù)量,表示敵方士兵總數(shù),表示己方士兵總數(shù),表示訓(xùn)練開(kāi)始時(shí)的敵方陣地總數(shù),表示訓(xùn)練開(kāi)始時(shí)的己方陣地總數(shù),、、、分別表示第一、二、三、四傾向系數(shù),四個(gè)傾向系數(shù)的和為1,缺省值分別為0.2、0.2、0.3、0.3;

      26、步驟400,將t-n時(shí)刻至t時(shí)刻的觀測(cè)向量輸入到訓(xùn)練好的第一神經(jīng)網(wǎng)絡(luò)中,輸出訓(xùn)練啟動(dòng)的時(shí)刻和訓(xùn)練采集的經(jīng)驗(yàn)數(shù),當(dāng)?shù)竭_(dá)訓(xùn)練啟動(dòng)的時(shí)刻時(shí),從經(jīng)驗(yàn)回放池中采集對(duì)應(yīng)的經(jīng)驗(yàn)數(shù)對(duì)dqn模型進(jìn)行訓(xùn)練。

      27、作為本發(fā)明的進(jìn)一步優(yōu)化方案,dqn模型包括q網(wǎng)絡(luò)和網(wǎng)絡(luò),q網(wǎng)絡(luò)與網(wǎng)絡(luò)相同;

      28、在本發(fā)明的一個(gè)實(shí)施例中,q網(wǎng)絡(luò)的計(jì)算公式如下:

      29、

      30、

      31、其中z表示隱向量,和均表示可訓(xùn)練的權(quán)重參數(shù),和均表示可訓(xùn)練的偏置參數(shù),表示第一輸出向量,第一輸出向量的第i個(gè)分量的值表示第i個(gè)第一動(dòng)作的q值,表示sigmoid函數(shù)。

      32、在本發(fā)明的一個(gè)實(shí)施例中,dqn模型采用循環(huán)神經(jīng)網(wǎng)絡(luò)。

      33、在本發(fā)明的一個(gè)實(shí)施例中,dqn模型的訓(xùn)練步驟包括:

      34、步驟101,從經(jīng)驗(yàn)池中隨機(jī)獲取一個(gè)經(jīng)驗(yàn);

      35、

      36、表示下目標(biāo)網(wǎng)絡(luò)輸出的最大的q值;

      37、根據(jù)和求損失值loss,更新q網(wǎng)絡(luò);

      38、

      39、表示狀態(tài)和第一動(dòng)作下q網(wǎng)絡(luò)的輸出q值,表示狀態(tài)和第一動(dòng)作下目標(biāo)網(wǎng)絡(luò)的輸出q值;

      40、是折扣因子,是一個(gè)介于0和1之間的值,用于平衡即時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì)的權(quán)重,缺省值為0.6;

      41、步驟102,每隔固定的網(wǎng)絡(luò)更新次數(shù),更新目標(biāo)網(wǎng)絡(luò),使其參數(shù)與當(dāng)前的q網(wǎng)絡(luò)的參數(shù)相同;

      42、間隔的固定的網(wǎng)絡(luò)更新次數(shù)的缺省值為10。

      43、步驟103,直至采集的經(jīng)驗(yàn)數(shù)等于本次訓(xùn)練采集的經(jīng)驗(yàn)數(shù),終止步驟。

      44、在本發(fā)明的一個(gè)實(shí)施例中,第一神經(jīng)網(wǎng)絡(luò)的計(jì)算公式如下:

      45、

      46、

      47、

      48、

      49、

      50、

      51、其中,和分別表示輸入的第l個(gè)觀測(cè)向量(t-n時(shí)刻的觀測(cè)向量是第一個(gè)觀測(cè)向量),n≥l≥1,、、和均表示可訓(xùn)練的權(quán)重參數(shù),、、和均表示可訓(xùn)練的偏置參數(shù),表示點(diǎn)積,表示第個(gè)第一中間特征,表示第個(gè)第二中間特征,表示第個(gè)第三中間特征,和分別表示第l-1個(gè)和第個(gè)輸出特征,表示第二輸出向量,第二輸出向量的第i個(gè)分量的值表示第i個(gè)第二動(dòng)作的q值,tanh表示tanh函數(shù),表示sigmoid函數(shù)。

      52、本發(fā)明的有益效果在于:

      53、本發(fā)明通過(guò)提供一種基于ai大模型的輔助決策方法及系統(tǒng)中的智能體在線訓(xùn)練機(jī)制,可以有效的降低服務(wù)器處理任務(wù)資源需求的峰值的同時(shí),保證在游戲過(guò)程中智能體可以保持一定的對(duì)抗強(qiáng)度。



      技術(shù)特征:

      1.一種基于ai大模型的輔助決策方法,其特征在于,智能體的在線訓(xùn)練包括以下步驟:

      2.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟100中訓(xùn)練數(shù)據(jù)包括當(dāng)前天氣數(shù)據(jù)、作戰(zhàn)訓(xùn)練地圖數(shù)據(jù)、敵方信息、己方信息、服務(wù)器信息;

      3.根據(jù)權(quán)利要求2所述的一種基于ai大模型的輔助決策方法,其特征在于,服務(wù)器資源利用率是cpu利用率、內(nèi)存利用率、磁盤(pán)i/o利用率和網(wǎng)絡(luò)帶寬利用率的加權(quán)和。

      4.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟200中第一動(dòng)作空間的一個(gè)第一動(dòng)作表示為:

      5.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟200中第一動(dòng)作選擇策略包括:

      6.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟300中的計(jì)算公式為:

      7.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟400中dqn模型包括q網(wǎng)絡(luò),q網(wǎng)絡(luò)的計(jì)算公式如下:

      8.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟400中dqn模型的訓(xùn)練步驟包括:

      9.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟400中第一神經(jīng)網(wǎng)絡(luò)的計(jì)算公式如下:

      10.一種基于ai大模型的輔助決策系統(tǒng),其特征在于,其用于執(zhí)行如權(quán)利要求1-9任一所述的基于ai大模型的輔助決策方法。


      技術(shù)總結(jié)
      本發(fā)明涉及強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域,公開(kāi)了一種基于AI大模型的輔助決策方法及系統(tǒng),在虛擬環(huán)境下的軍事訓(xùn)練中,采用強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體來(lái)作為對(duì)抗方輔助指揮官進(jìn)行訓(xùn)練,其中,智能體在線訓(xùn)練機(jī)制包括以下步驟:采集訓(xùn)練數(shù)據(jù),編碼為觀測(cè)向量;智能體根據(jù)采取的信息選擇一個(gè)第一動(dòng)作;智能體執(zhí)行動(dòng)作之后獲得獎(jiǎng)勵(lì)并且存儲(chǔ)經(jīng)驗(yàn)到經(jīng)驗(yàn)回放池;智能體通過(guò)訓(xùn)練好的第一神經(jīng)網(wǎng)絡(luò)獲得訓(xùn)練啟動(dòng)的時(shí)刻和采集的經(jīng)驗(yàn)數(shù);到達(dá)啟動(dòng)時(shí)刻后采集經(jīng)驗(yàn)啟動(dòng)訓(xùn)練。本發(fā)明可以通過(guò)提供一種智能體在線訓(xùn)練機(jī)制,可以有效地分配服務(wù)器的數(shù)據(jù)處理任務(wù),從而使服務(wù)器的處理能力需求的峰值降低,并且保證了智能體的對(duì)抗強(qiáng)度。

      技術(shù)研發(fā)人員:錢(qián)智毅,洪萬(wàn)福,徐佳吉,張宏偉
      受保護(hù)的技術(shù)使用者:廈門(mén)淵亭信息科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/9/23
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1