基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng)及方法

文檔序號(hào)：38025899發(fā)布日期：2024-05-17 13:00閱讀：24來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及深度學(xué)習(xí)，特別涉及一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng)及方法。

背景技術(shù)：

1、開放世界生存游戲作為一種虛擬環(huán)境，為面向復(fù)雜任務(wù)和開放環(huán)境的智能體的強(qiáng)化學(xué)習(xí)算法訓(xùn)練提供了理想平臺(tái)，此類虛擬環(huán)境的決策空間具有較高的自由度，且許多任務(wù)的完成需要大量復(fù)雜的步驟，導(dǎo)致強(qiáng)化學(xué)習(xí)算法所需的獎(jiǎng)勵(lì)信號(hào)較為稀疏，使強(qiáng)化學(xué)習(xí)算法效率極度低下或無法學(xué)習(xí)。

2、相關(guān)技術(shù)中，提出一種更密集獎(jiǎng)勵(lì)信號(hào)的獎(jiǎng)勵(lì)函數(shù)擴(kuò)展方案，例如獎(jiǎng)勵(lì)塑形、自模仿學(xué)習(xí)、好奇心驅(qū)動(dòng)等，通過借助人類先驗(yàn)知識(shí)，結(jié)合環(huán)境稀疏獎(jiǎng)勵(lì)信號(hào)和輔助的密集獎(jiǎng)勵(lì)信號(hào)提高智能體的學(xué)習(xí)效率。

3、然而，相關(guān)技術(shù)中，密集獎(jiǎng)勵(lì)信號(hào)所需人類先驗(yàn)知識(shí)要求大量人工設(shè)計(jì)，無法在高自由度的開放世界環(huán)境中應(yīng)用，且獎(jiǎng)勵(lì)函數(shù)通常針對(duì)較簡單的任務(wù)進(jìn)行設(shè)計(jì)，難以適配開放世界生存游戲的復(fù)雜任務(wù)要求，導(dǎo)致智能體強(qiáng)化學(xué)習(xí)訓(xùn)練的高效性下降且成功率不足，亟待解決。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)?zhí)峁┮环N基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng)及方法，以解決相關(guān)技術(shù)中，密集獎(jiǎng)勵(lì)信號(hào)所需人類先驗(yàn)知識(shí)要求大量人工設(shè)計(jì)，無法在高自由度的開放世界環(huán)境中應(yīng)用，且獎(jiǎng)勵(lì)函數(shù)通常針對(duì)較簡單的任務(wù)進(jìn)行設(shè)計(jì)，難以適配開放世界生存游戲的復(fù)雜任務(wù)要求，導(dǎo)致智能體強(qiáng)化學(xué)習(xí)訓(xùn)練的高效性下降且成功率不足等問題。

2、本申請(qǐng)第一方面實(shí)施例提供一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng)，其特征在于，所述系統(tǒng)包括應(yīng)用于預(yù)設(shè)大語言模型的獎(jiǎng)勵(lì)設(shè)計(jì)器、獎(jiǎng)勵(lì)檢查器和交互軌跡分析器，其中，所述獎(jiǎng)勵(lì)設(shè)計(jì)器，用于在滿足預(yù)設(shè)開放條件的虛擬環(huán)境中，基于智能體的至少一個(gè)目標(biāo)任務(wù)設(shè)計(jì)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)，或者，根據(jù)所述獎(jiǎng)勵(lì)檢查器的修改意見和所述交互軌跡分析器的優(yōu)化意見更新所述獎(jiǎng)勵(lì)函數(shù)；所述獎(jiǎng)勵(lì)檢查器，用于判斷所述獎(jiǎng)勵(lì)設(shè)計(jì)器設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)的代碼信息是否滿足預(yù)設(shè)驗(yàn)證要求，并在所述代碼信息不滿足所述預(yù)設(shè)驗(yàn)證要求的情況下，根據(jù)所述代碼信息生成所述檢查意見，直至所述獎(jiǎng)勵(lì)函數(shù)滿足所述預(yù)設(shè)驗(yàn)證要求或達(dá)到預(yù)設(shè)迭代閾值；所述交互軌跡分析器，用于獲取滿足所述預(yù)設(shè)驗(yàn)證要求的獎(jiǎng)勵(lì)函數(shù)的訓(xùn)練集，在所述訓(xùn)練集中提取至少一個(gè)交互軌跡的失敗經(jīng)驗(yàn)，基于所述失敗經(jīng)驗(yàn)生成所述優(yōu)化意見，直至所述智能體滿足預(yù)設(shè)迭代條件。

3、可選地，在本申請(qǐng)的一個(gè)實(shí)施例中，所述系統(tǒng)還包括：訓(xùn)練模塊，用于利用滿足預(yù)設(shè)驗(yàn)證要求的獎(jiǎng)勵(lì)函數(shù)對(duì)所述智能體進(jìn)行訓(xùn)練，直至滿足預(yù)設(shè)訓(xùn)練停止條件，得到所述獎(jiǎng)勵(lì)函數(shù)的訓(xùn)練集。

4、可選地，在本申請(qǐng)的一個(gè)實(shí)施例中，所述訓(xùn)練模塊包括：檢測單元，用于檢測所述獎(jiǎng)勵(lì)函數(shù)是否存在至少一個(gè)錯(cuò)誤信號(hào)；更正單元，用于在檢測到存在所述至少一個(gè)錯(cuò)誤信號(hào)的情況下，基于所述至少一個(gè)錯(cuò)誤信號(hào)更正所述獎(jiǎng)勵(lì)函數(shù)，以利用更正后的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述智能體。

5、可選地，在本申請(qǐng)的一個(gè)實(shí)施例中，所述獎(jiǎng)勵(lì)設(shè)計(jì)器包括：生成單元，用于根據(jù)所述至少一個(gè)目標(biāo)任務(wù)生成所述獎(jiǎng)勵(lì)函數(shù)的注釋信息；添加單元，用于將所述注釋信息添加至所述代碼信息。

6、本申請(qǐng)第二方面實(shí)施例提供一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法，包括以下步驟：在滿足預(yù)設(shè)開放條件的虛擬環(huán)境中，獲取智能體的至少一個(gè)目標(biāo)任務(wù)；基于預(yù)設(shè)大語言模型設(shè)計(jì)所述至少一個(gè)目標(biāo)任務(wù)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)，并判斷所述獎(jiǎng)勵(lì)函數(shù)的代碼信息是否滿足預(yù)設(shè)驗(yàn)證要求；在所述代碼信息滿足所述預(yù)設(shè)驗(yàn)證要求的情況下，利用滿足所述預(yù)設(shè)驗(yàn)證要求的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述智能體，直至滿足預(yù)設(shè)訓(xùn)練停止條件，得到所述智能體的訓(xùn)練集；在所述訓(xùn)練集中提取至少一個(gè)交互軌跡的失敗經(jīng)驗(yàn)，基于所述失敗經(jīng)驗(yàn)，利用所述預(yù)設(shè)大語言模型生成所述獎(jiǎng)勵(lì)函數(shù)的優(yōu)化意見；根據(jù)所述優(yōu)化意見更新所述獎(jiǎng)勵(lì)函數(shù)，直至所述智能體滿足預(yù)設(shè)迭代條件。

7、可選地，在本申請(qǐng)的一個(gè)實(shí)施例中，在所述獎(jiǎng)勵(lì)函數(shù)的代碼信息是否滿足所述預(yù)設(shè)驗(yàn)證要求之后，還包括：在所述代碼信息不滿足所述預(yù)設(shè)驗(yàn)證要求的情況下，基于所述預(yù)設(shè)大語言模型生成所述代碼信息的檢查意見，并根據(jù)所述檢查意見修改所述代碼信息；重新檢查修改后的代碼信息是否滿足所述預(yù)設(shè)驗(yàn)證要求，直至所述代碼信息滿足所述預(yù)設(shè)驗(yàn)證要求或達(dá)到預(yù)設(shè)迭代閾值。

8、可選地，在本申請(qǐng)的一個(gè)實(shí)施例中，所述利用滿足所述預(yù)設(shè)驗(yàn)證要求的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述智能體，包括：檢測所述獎(jiǎng)勵(lì)函數(shù)是否存在至少一個(gè)錯(cuò)誤信號(hào)；在檢測到存在所述至少一個(gè)錯(cuò)誤信號(hào)的情況下，由所述預(yù)設(shè)大語言模型，基于所述至少一個(gè)錯(cuò)誤信號(hào)更正所述獎(jiǎng)勵(lì)函數(shù)，以利用更正后的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述智能體。

9、可選地，在本申請(qǐng)的一個(gè)實(shí)施例中，所述基于預(yù)設(shè)大語言模型設(shè)計(jì)所述至少一個(gè)目標(biāo)任務(wù)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)，包括：基于所述預(yù)設(shè)大語言模型，根據(jù)所述至少一個(gè)目標(biāo)任務(wù)生成所述獎(jiǎng)勵(lì)函數(shù)的注釋信息；將所述注釋信息添加至所述代碼信息。

10、本申請(qǐng)第三方面實(shí)施例提供一種電子設(shè)備，包括：存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序，以實(shí)現(xiàn)如上述實(shí)施例所述的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。

11、本申請(qǐng)第四方面實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)程序，該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。

12、本申請(qǐng)第五方面實(shí)施例提供一種計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被執(zhí)行時(shí)實(shí)現(xiàn)如上的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。

13、本申請(qǐng)實(shí)施例可以基于大語言模型的代碼生成和推理能力設(shè)計(jì)適配于不同任務(wù)的獎(jiǎng)勵(lì)函數(shù)，檢查獎(jiǎng)勵(lì)函數(shù)以根據(jù)檢查結(jié)果進(jìn)行修正，并通過智能體與環(huán)境交互的反饋結(jié)果優(yōu)化獎(jiǎng)勵(lì)函數(shù)，以滿足智能體的深度學(xué)習(xí)訓(xùn)練對(duì)密集獎(jiǎng)勵(lì)信號(hào)的需求，實(shí)現(xiàn)適應(yīng)于開放世界和復(fù)雜任務(wù)的智能體訓(xùn)練。由此，解決了相關(guān)技術(shù)中，密集獎(jiǎng)勵(lì)信號(hào)所需人類先驗(yàn)知識(shí)要求大量人工設(shè)計(jì)，無法在高自由度的開放世界環(huán)境中應(yīng)用，且獎(jiǎng)勵(lì)函數(shù)通常針對(duì)較簡單的任務(wù)進(jìn)行設(shè)計(jì)，難以適配開放世界生存游戲的復(fù)雜任務(wù)要求，導(dǎo)致智能體強(qiáng)化學(xué)習(xí)訓(xùn)練的高效性下降且成功率不足等問題。

14、本申請(qǐng)附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本申請(qǐng)的實(shí)踐了解到。

技術(shù)特征：

1.一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng)，其特征在于，所述系統(tǒng)包括應(yīng)用于預(yù)設(shè)大語言模型的獎(jiǎng)勵(lì)設(shè)計(jì)器、獎(jiǎng)勵(lì)檢查器和交互軌跡分析器，其中，

2.根據(jù)權(quán)利要求1所述的系統(tǒng)，其特征在于，還包括：

3.根據(jù)權(quán)利要求2所述的系統(tǒng)，其特征在于，所述訓(xùn)練模塊包括：

4.根據(jù)權(quán)利要求1所述的系統(tǒng)，其特征在于，所述獎(jiǎng)勵(lì)設(shè)計(jì)器包括：

5.一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法，其特征在于，利用如權(quán)利要求1-4任一項(xiàng)所述的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng)，其中，所述方法包括以下步驟：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，在所述獎(jiǎng)勵(lì)函數(shù)的代碼信息是否滿足所述預(yù)設(shè)驗(yàn)證要求之后，還包括：

7.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述利用滿足所述預(yù)設(shè)驗(yàn)證要求的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述智能體，包括：

8.一種電子設(shè)備，其特征在于，包括：存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序，以實(shí)現(xiàn)如權(quán)利要求5-7任一項(xiàng)所述的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，該程序被處理器執(zhí)行，以用于實(shí)現(xiàn)如權(quán)利要求5-7任一項(xiàng)所述的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。

10.一種計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被執(zhí)行時(shí)，以用于實(shí)現(xiàn)如權(quán)利要求5-7任一項(xiàng)所述的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。

技術(shù)總結(jié)
本申請(qǐng)涉及深度學(xué)習(xí)技術(shù)領(lǐng)域，特別涉及一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng)及方法，系統(tǒng)包括應(yīng)用于預(yù)設(shè)大語言模型的獎(jiǎng)勵(lì)設(shè)計(jì)器、獎(jiǎng)勵(lì)檢查器和交互軌跡分，其中，獎(jiǎng)勵(lì)設(shè)計(jì)器，用于基于智能體的至少一個(gè)目標(biāo)任務(wù)或修改意見及優(yōu)化意見設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)；獎(jiǎng)勵(lì)檢查器，用于判斷獎(jiǎng)勵(lì)函數(shù)的代碼信息是否滿足預(yù)設(shè)驗(yàn)證要求，若不滿足則根據(jù)代碼信息生成檢查意見；交互軌跡分析器，用于根據(jù)獎(jiǎng)勵(lì)函數(shù)訓(xùn)練集中至少一個(gè)交互軌跡的失敗經(jīng)驗(yàn)生成優(yōu)化意見。本申請(qǐng)實(shí)施例可以基于大語言模型的代碼生成和推理能力設(shè)計(jì)適配于不同任務(wù)的獎(jiǎng)勵(lì)函數(shù)，并根據(jù)獎(jiǎng)勵(lì)函數(shù)的檢查結(jié)果和交互結(jié)果進(jìn)行修正與優(yōu)化，以實(shí)現(xiàn)適應(yīng)于開放世界和復(fù)雜任務(wù)的智能體訓(xùn)練。

技術(shù)研發(fā)人員：代季峰
受保護(hù)的技術(shù)使用者：清華大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/5/16

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：代季峰
技術(shù)所有人：清華大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng)及方法