本發(fā)明涉及強(qiáng)化學(xué)習(xí),更具體地說(shuō),它涉及一種基于ai大模型的輔助決策方法及系統(tǒng)。
背景技術(shù):
1、在虛擬環(huán)境下的軍事訓(xùn)練中,采用強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體來(lái)作為對(duì)抗方輔助指揮官進(jìn)行訓(xùn)練,強(qiáng)化學(xué)習(xí)需要通過(guò)不斷地迭代更新智能體的參數(shù)來(lái)對(duì)智能體進(jìn)行優(yōu)化,為了讓智能體能夠快速適應(yīng)指揮官的策略變化并持續(xù)創(chuàng)新,需要對(duì)智能體進(jìn)行在線學(xué)習(xí)和調(diào)整,在指揮官訓(xùn)練過(guò)程中,智能體需要同時(shí)進(jìn)行推理和學(xué)習(xí),智能體的訓(xùn)練與游戲的運(yùn)行都需要依賴(lài)服務(wù)器的網(wǎng)絡(luò)帶寬和處理能力,軍事訓(xùn)練進(jìn)程中的對(duì)抗烈度是不一樣的,智能體在接收到設(shè)定數(shù)量的行為獎(jiǎng)勵(lì)之后就會(huì)啟動(dòng)一輪訓(xùn)練,對(duì)抗烈度更高的時(shí)間段環(huán)境反饋的給智能體行為的獎(jiǎng)勵(lì)的頻率更高,所以智能體更新的頻率更高,同時(shí)的軍事訓(xùn)練的虛擬環(huán)境運(yùn)行所需的數(shù)據(jù)處理量也更多,在這段時(shí)間產(chǎn)生數(shù)據(jù)處理量的突增,如果冗余配置服務(wù)器的處理能力來(lái)保證最大數(shù)據(jù)處理量,則會(huì)在其他時(shí)間段浪費(fèi)服務(wù)器的處理能力。需要對(duì)伴隨游戲進(jìn)程波動(dòng)的游戲運(yùn)行數(shù)據(jù)處理任務(wù)和智能體訓(xùn)練的數(shù)據(jù)處理任務(wù)進(jìn)行合理分配,降低對(duì)服務(wù)器處理能力的需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于ai大模型的輔助決策方法及系統(tǒng),在智能體在線訓(xùn)練方面增加了一個(gè)神經(jīng)網(wǎng)絡(luò),可以讓智能體通過(guò)神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)地調(diào)節(jié)訓(xùn)練啟動(dòng)的時(shí)間和選取的經(jīng)驗(yàn)數(shù),從而讓智能體做到更加智能的降低服務(wù)器的任務(wù)處理峰值,同時(shí)也保證了智能體一定的對(duì)抗強(qiáng)度解決了冗余配置服務(wù)器的處理能力來(lái)保證最大數(shù)據(jù)處理量,則會(huì)在其他時(shí)間段浪費(fèi)服務(wù)器的處理能力的問(wèn)題。
2、本發(fā)明提供了一種基于ai大模型的輔助決策方法,包括以下步驟:
3、步驟100,采集訓(xùn)練數(shù)據(jù),編碼為觀測(cè)向量;
4、訓(xùn)練數(shù)據(jù)包括當(dāng)前天氣數(shù)據(jù)、作戰(zhàn)訓(xùn)練地圖數(shù)據(jù)、敵方信息、己方信息、服務(wù)器信息;
5、天氣數(shù)據(jù):溫度,濕度,能見(jiàn)度;
6、作戰(zhàn)訓(xùn)練地圖數(shù)據(jù):地形圖、作戰(zhàn)區(qū)域劃分圖、陣地標(biāo)記圖;
7、敵方信息:敵人數(shù)量、移動(dòng)速度、位置、隨身裝備;
8、己方信息:己方的兵種類(lèi)、位置、數(shù)量、隨身裝備;
9、服務(wù)器信息:服務(wù)器資源利用率;
10、服務(wù)器資源利用率是cpu利用率、內(nèi)存利用率、磁盤(pán)i/o利用率和網(wǎng)絡(luò)帶寬利用率的加權(quán)和。
11、步驟200,將當(dāng)前采集獲得的觀測(cè)向量輸入到dqn(deep?q?network)模型中,輸出第一動(dòng)作空間中所有第一動(dòng)作對(duì)應(yīng)的q值,使用第一動(dòng)作選擇策略從所有第一動(dòng)作中選擇一個(gè)第一動(dòng)作解碼并執(zhí)行;
12、在本發(fā)明的一個(gè)實(shí)施例中,第一動(dòng)作空間的一個(gè)第一動(dòng)作表示為:
13、;
14、其中,、和分別表示第1、2、n個(gè)作戰(zhàn)單位需要移動(dòng)的目標(biāo)戰(zhàn)場(chǎng)區(qū)域;
15、作戰(zhàn)行為、和分別表示第1、2、n個(gè)作戰(zhàn)單位需要執(zhí)行的作戰(zhàn)行動(dòng);
16、在本發(fā)明的一個(gè)實(shí)施例中,戰(zhàn)場(chǎng)區(qū)域是訓(xùn)練戰(zhàn)場(chǎng)所劃分的區(qū)域,作戰(zhàn)行動(dòng)包括行軍、撤退、攻擊、陣地防御等。
17、在本發(fā)明的一個(gè)實(shí)施例中,第一動(dòng)作選擇策略包括:
18、根據(jù)-貪婪策略選擇第一動(dòng)作:
19、設(shè)定初始值為0.1;
20、生成一個(gè)隨機(jī)數(shù)r∈[0,1],如果r<,則隨機(jī)選擇一個(gè)第一動(dòng)作,否則,選擇q值最大的一個(gè)第一動(dòng)作。
21、步驟300,定義t時(shí)刻為當(dāng)前的時(shí)刻,t時(shí)刻采取的第一動(dòng)作為,執(zhí)行第一動(dòng)作之后的t+1時(shí)刻采集的觀測(cè)向量,執(zhí)行第一動(dòng)作獲得的獎(jiǎng)勵(lì),組合成高維向量exp存放到經(jīng)驗(yàn)回放池中;
22、,表示t時(shí)刻采集的觀測(cè)向量;
23、的計(jì)算公式為:
24、
25、其中、、、分別表示第一、二、三、四獎(jiǎng)勵(lì)值,初始值均為0,執(zhí)行第一動(dòng)作后累加擊殺敵方士兵的數(shù)量,累加己方陣亡的士兵的數(shù)量,累加己方占領(lǐng)的陣地?cái)?shù)量,累加己方失守的陣地?cái)?shù)量,表示敵方士兵總數(shù),表示己方士兵總數(shù),表示訓(xùn)練開(kāi)始時(shí)的敵方陣地總數(shù),表示訓(xùn)練開(kāi)始時(shí)的己方陣地總數(shù),、、、分別表示第一、二、三、四傾向系數(shù),四個(gè)傾向系數(shù)的和為1,缺省值分別為0.2、0.2、0.3、0.3;
26、步驟400,將t-n時(shí)刻至t時(shí)刻的觀測(cè)向量輸入到訓(xùn)練好的第一神經(jīng)網(wǎng)絡(luò)中,輸出訓(xùn)練啟動(dòng)的時(shí)刻和訓(xùn)練采集的經(jīng)驗(yàn)數(shù),當(dāng)?shù)竭_(dá)訓(xùn)練啟動(dòng)的時(shí)刻時(shí),從經(jīng)驗(yàn)回放池中采集對(duì)應(yīng)的經(jīng)驗(yàn)數(shù)對(duì)dqn模型進(jìn)行訓(xùn)練。
27、作為本發(fā)明的進(jìn)一步優(yōu)化方案,dqn模型包括q網(wǎng)絡(luò)和網(wǎng)絡(luò),q網(wǎng)絡(luò)與網(wǎng)絡(luò)相同;
28、在本發(fā)明的一個(gè)實(shí)施例中,q網(wǎng)絡(luò)的計(jì)算公式如下:
29、
30、
31、其中z表示隱向量,和均表示可訓(xùn)練的權(quán)重參數(shù),和均表示可訓(xùn)練的偏置參數(shù),表示第一輸出向量,第一輸出向量的第i個(gè)分量的值表示第i個(gè)第一動(dòng)作的q值,表示sigmoid函數(shù)。
32、在本發(fā)明的一個(gè)實(shí)施例中,dqn模型采用循環(huán)神經(jīng)網(wǎng)絡(luò)。
33、在本發(fā)明的一個(gè)實(shí)施例中,dqn模型的訓(xùn)練步驟包括:
34、步驟101,從經(jīng)驗(yàn)池中隨機(jī)獲取一個(gè)經(jīng)驗(yàn);
35、
36、表示下目標(biāo)網(wǎng)絡(luò)輸出的最大的q值;
37、根據(jù)和求損失值loss,更新q網(wǎng)絡(luò);
38、
39、表示狀態(tài)和第一動(dòng)作下q網(wǎng)絡(luò)的輸出q值,表示狀態(tài)和第一動(dòng)作下目標(biāo)網(wǎng)絡(luò)的輸出q值;
40、是折扣因子,是一個(gè)介于0和1之間的值,用于平衡即時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì)的權(quán)重,缺省值為0.6;
41、步驟102,每隔固定的網(wǎng)絡(luò)更新次數(shù),更新目標(biāo)網(wǎng)絡(luò),使其參數(shù)與當(dāng)前的q網(wǎng)絡(luò)的參數(shù)相同;
42、間隔的固定的網(wǎng)絡(luò)更新次數(shù)的缺省值為10。
43、步驟103,直至采集的經(jīng)驗(yàn)數(shù)等于本次訓(xùn)練采集的經(jīng)驗(yàn)數(shù),終止步驟。
44、在本發(fā)明的一個(gè)實(shí)施例中,第一神經(jīng)網(wǎng)絡(luò)的計(jì)算公式如下:
45、
46、
47、
48、
49、
50、
51、其中,和分別表示輸入的第l個(gè)觀測(cè)向量(t-n時(shí)刻的觀測(cè)向量是第一個(gè)觀測(cè)向量),n≥l≥1,、、和均表示可訓(xùn)練的權(quán)重參數(shù),、、和均表示可訓(xùn)練的偏置參數(shù),表示點(diǎn)積,表示第個(gè)第一中間特征,表示第個(gè)第二中間特征,表示第個(gè)第三中間特征,和分別表示第l-1個(gè)和第個(gè)輸出特征,表示第二輸出向量,第二輸出向量的第i個(gè)分量的值表示第i個(gè)第二動(dòng)作的q值,tanh表示tanh函數(shù),表示sigmoid函數(shù)。
52、本發(fā)明的有益效果在于:
53、本發(fā)明通過(guò)提供一種基于ai大模型的輔助決策方法及系統(tǒng)中的智能體在線訓(xùn)練機(jī)制,可以有效的降低服務(wù)器處理任務(wù)資源需求的峰值的同時(shí),保證在游戲過(guò)程中智能體可以保持一定的對(duì)抗強(qiáng)度。
1.一種基于ai大模型的輔助決策方法,其特征在于,智能體的在線訓(xùn)練包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟100中訓(xùn)練數(shù)據(jù)包括當(dāng)前天氣數(shù)據(jù)、作戰(zhàn)訓(xùn)練地圖數(shù)據(jù)、敵方信息、己方信息、服務(wù)器信息;
3.根據(jù)權(quán)利要求2所述的一種基于ai大模型的輔助決策方法,其特征在于,服務(wù)器資源利用率是cpu利用率、內(nèi)存利用率、磁盤(pán)i/o利用率和網(wǎng)絡(luò)帶寬利用率的加權(quán)和。
4.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟200中第一動(dòng)作空間的一個(gè)第一動(dòng)作表示為:
5.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟200中第一動(dòng)作選擇策略包括:
6.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟300中的計(jì)算公式為:
7.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟400中dqn模型包括q網(wǎng)絡(luò),q網(wǎng)絡(luò)的計(jì)算公式如下:
8.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟400中dqn模型的訓(xùn)練步驟包括:
9.根據(jù)權(quán)利要求1所述的一種基于ai大模型的輔助決策方法,其特征在于,步驟400中第一神經(jīng)網(wǎng)絡(luò)的計(jì)算公式如下:
10.一種基于ai大模型的輔助決策系統(tǒng),其特征在于,其用于執(zhí)行如權(quán)利要求1-9任一所述的基于ai大模型的輔助決策方法。