本申請(qǐng)涉及深度學(xué)習(xí),特別涉及一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng)及方法。
背景技術(shù):
1、開放世界生存游戲作為一種虛擬環(huán)境,為面向復(fù)雜任務(wù)和開放環(huán)境的智能體的強(qiáng)化學(xué)習(xí)算法訓(xùn)練提供了理想平臺(tái),此類虛擬環(huán)境的決策空間具有較高的自由度,且許多任務(wù)的完成需要大量復(fù)雜的步驟,導(dǎo)致強(qiáng)化學(xué)習(xí)算法所需的獎(jiǎng)勵(lì)信號(hào)較為稀疏,使強(qiáng)化學(xué)習(xí)算法效率極度低下或無法學(xué)習(xí)。
2、相關(guān)技術(shù)中,提出一種更密集獎(jiǎng)勵(lì)信號(hào)的獎(jiǎng)勵(lì)函數(shù)擴(kuò)展方案,例如獎(jiǎng)勵(lì)塑形、自模仿學(xué)習(xí)、好奇心驅(qū)動(dòng)等,通過借助人類先驗(yàn)知識(shí),結(jié)合環(huán)境稀疏獎(jiǎng)勵(lì)信號(hào)和輔助的密集獎(jiǎng)勵(lì)信號(hào)提高智能體的學(xué)習(xí)效率。
3、然而,相關(guān)技術(shù)中,密集獎(jiǎng)勵(lì)信號(hào)所需人類先驗(yàn)知識(shí)要求大量人工設(shè)計(jì),無法在高自由度的開放世界環(huán)境中應(yīng)用,且獎(jiǎng)勵(lì)函數(shù)通常針對(duì)較簡單的任務(wù)進(jìn)行設(shè)計(jì),難以適配開放世界生存游戲的復(fù)雜任務(wù)要求,導(dǎo)致智能體強(qiáng)化學(xué)習(xí)訓(xùn)練的高效性下降且成功率不足,亟待解決。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┮环N基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng)及方法,以解決相關(guān)技術(shù)中,密集獎(jiǎng)勵(lì)信號(hào)所需人類先驗(yàn)知識(shí)要求大量人工設(shè)計(jì),無法在高自由度的開放世界環(huán)境中應(yīng)用,且獎(jiǎng)勵(lì)函數(shù)通常針對(duì)較簡單的任務(wù)進(jìn)行設(shè)計(jì),難以適配開放世界生存游戲的復(fù)雜任務(wù)要求,導(dǎo)致智能體強(qiáng)化學(xué)習(xí)訓(xùn)練的高效性下降且成功率不足等問題。
2、本申請(qǐng)第一方面實(shí)施例提供一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng),其特征在于,所述系統(tǒng)包括應(yīng)用于預(yù)設(shè)大語言模型的獎(jiǎng)勵(lì)設(shè)計(jì)器、獎(jiǎng)勵(lì)檢查器和交互軌跡分析器,其中,所述獎(jiǎng)勵(lì)設(shè)計(jì)器,用于在滿足預(yù)設(shè)開放條件的虛擬環(huán)境中,基于智能體的至少一個(gè)目標(biāo)任務(wù)設(shè)計(jì)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù),或者,根據(jù)所述獎(jiǎng)勵(lì)檢查器的修改意見和所述交互軌跡分析器的優(yōu)化意見更新所述獎(jiǎng)勵(lì)函數(shù);所述獎(jiǎng)勵(lì)檢查器,用于判斷所述獎(jiǎng)勵(lì)設(shè)計(jì)器設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)的代碼信息是否滿足預(yù)設(shè)驗(yàn)證要求,并在所述代碼信息不滿足所述預(yù)設(shè)驗(yàn)證要求的情況下,根據(jù)所述代碼信息生成所述檢查意見,直至所述獎(jiǎng)勵(lì)函數(shù)滿足所述預(yù)設(shè)驗(yàn)證要求或達(dá)到預(yù)設(shè)迭代閾值;所述交互軌跡分析器,用于獲取滿足所述預(yù)設(shè)驗(yàn)證要求的獎(jiǎng)勵(lì)函數(shù)的訓(xùn)練集,在所述訓(xùn)練集中提取至少一個(gè)交互軌跡的失敗經(jīng)驗(yàn),基于所述失敗經(jīng)驗(yàn)生成所述優(yōu)化意見,直至所述智能體滿足預(yù)設(shè)迭代條件。
3、可選地,在本申請(qǐng)的一個(gè)實(shí)施例中,所述系統(tǒng)還包括:訓(xùn)練模塊,用于利用滿足預(yù)設(shè)驗(yàn)證要求的獎(jiǎng)勵(lì)函數(shù)對(duì)所述智能體進(jìn)行訓(xùn)練,直至滿足預(yù)設(shè)訓(xùn)練停止條件,得到所述獎(jiǎng)勵(lì)函數(shù)的訓(xùn)練集。
4、可選地,在本申請(qǐng)的一個(gè)實(shí)施例中,所述訓(xùn)練模塊包括:檢測單元,用于檢測所述獎(jiǎng)勵(lì)函數(shù)是否存在至少一個(gè)錯(cuò)誤信號(hào);更正單元,用于在檢測到存在所述至少一個(gè)錯(cuò)誤信號(hào)的情況下,基于所述至少一個(gè)錯(cuò)誤信號(hào)更正所述獎(jiǎng)勵(lì)函數(shù),以利用更正后的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述智能體。
5、可選地,在本申請(qǐng)的一個(gè)實(shí)施例中,所述獎(jiǎng)勵(lì)設(shè)計(jì)器包括:生成單元,用于根據(jù)所述至少一個(gè)目標(biāo)任務(wù)生成所述獎(jiǎng)勵(lì)函數(shù)的注釋信息;添加單元,用于將所述注釋信息添加至所述代碼信息。
6、本申請(qǐng)第二方面實(shí)施例提供一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法,包括以下步驟:在滿足預(yù)設(shè)開放條件的虛擬環(huán)境中,獲取智能體的至少一個(gè)目標(biāo)任務(wù);基于預(yù)設(shè)大語言模型設(shè)計(jì)所述至少一個(gè)目標(biāo)任務(wù)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù),并判斷所述獎(jiǎng)勵(lì)函數(shù)的代碼信息是否滿足預(yù)設(shè)驗(yàn)證要求;在所述代碼信息滿足所述預(yù)設(shè)驗(yàn)證要求的情況下,利用滿足所述預(yù)設(shè)驗(yàn)證要求的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述智能體,直至滿足預(yù)設(shè)訓(xùn)練停止條件,得到所述智能體的訓(xùn)練集;在所述訓(xùn)練集中提取至少一個(gè)交互軌跡的失敗經(jīng)驗(yàn),基于所述失敗經(jīng)驗(yàn),利用所述預(yù)設(shè)大語言模型生成所述獎(jiǎng)勵(lì)函數(shù)的優(yōu)化意見;根據(jù)所述優(yōu)化意見更新所述獎(jiǎng)勵(lì)函數(shù),直至所述智能體滿足預(yù)設(shè)迭代條件。
7、可選地,在本申請(qǐng)的一個(gè)實(shí)施例中,在所述獎(jiǎng)勵(lì)函數(shù)的代碼信息是否滿足所述預(yù)設(shè)驗(yàn)證要求之后,還包括:在所述代碼信息不滿足所述預(yù)設(shè)驗(yàn)證要求的情況下,基于所述預(yù)設(shè)大語言模型生成所述代碼信息的檢查意見,并根據(jù)所述檢查意見修改所述代碼信息;重新檢查修改后的代碼信息是否滿足所述預(yù)設(shè)驗(yàn)證要求,直至所述代碼信息滿足所述預(yù)設(shè)驗(yàn)證要求或達(dá)到預(yù)設(shè)迭代閾值。
8、可選地,在本申請(qǐng)的一個(gè)實(shí)施例中,所述利用滿足所述預(yù)設(shè)驗(yàn)證要求的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述智能體,包括:檢測所述獎(jiǎng)勵(lì)函數(shù)是否存在至少一個(gè)錯(cuò)誤信號(hào);在檢測到存在所述至少一個(gè)錯(cuò)誤信號(hào)的情況下,由所述預(yù)設(shè)大語言模型,基于所述至少一個(gè)錯(cuò)誤信號(hào)更正所述獎(jiǎng)勵(lì)函數(shù),以利用更正后的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述智能體。
9、可選地,在本申請(qǐng)的一個(gè)實(shí)施例中,所述基于預(yù)設(shè)大語言模型設(shè)計(jì)所述至少一個(gè)目標(biāo)任務(wù)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù),包括:基于所述預(yù)設(shè)大語言模型,根據(jù)所述至少一個(gè)目標(biāo)任務(wù)生成所述獎(jiǎng)勵(lì)函數(shù)的注釋信息;將所述注釋信息添加至所述代碼信息。
10、本申請(qǐng)第三方面實(shí)施例提供一種電子設(shè)備,包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序,以實(shí)現(xiàn)如上述實(shí)施例所述的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。
11、本申請(qǐng)第四方面實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。
12、本申請(qǐng)第五方面實(shí)施例提供一種計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被執(zhí)行時(shí)實(shí)現(xiàn)如上的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。
13、本申請(qǐng)實(shí)施例可以基于大語言模型的代碼生成和推理能力設(shè)計(jì)適配于不同任務(wù)的獎(jiǎng)勵(lì)函數(shù),檢查獎(jiǎng)勵(lì)函數(shù)以根據(jù)檢查結(jié)果進(jìn)行修正,并通過智能體與環(huán)境交互的反饋結(jié)果優(yōu)化獎(jiǎng)勵(lì)函數(shù),以滿足智能體的深度學(xué)習(xí)訓(xùn)練對(duì)密集獎(jiǎng)勵(lì)信號(hào)的需求,實(shí)現(xiàn)適應(yīng)于開放世界和復(fù)雜任務(wù)的智能體訓(xùn)練。由此,解決了相關(guān)技術(shù)中,密集獎(jiǎng)勵(lì)信號(hào)所需人類先驗(yàn)知識(shí)要求大量人工設(shè)計(jì),無法在高自由度的開放世界環(huán)境中應(yīng)用,且獎(jiǎng)勵(lì)函數(shù)通常針對(duì)較簡單的任務(wù)進(jìn)行設(shè)計(jì),難以適配開放世界生存游戲的復(fù)雜任務(wù)要求,導(dǎo)致智能體強(qiáng)化學(xué)習(xí)訓(xùn)練的高效性下降且成功率不足等問題。
14、本申請(qǐng)附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請(qǐng)的實(shí)踐了解到。
1.一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng),其特征在于,所述系統(tǒng)包括應(yīng)用于預(yù)設(shè)大語言模型的獎(jiǎng)勵(lì)設(shè)計(jì)器、獎(jiǎng)勵(lì)檢查器和交互軌跡分析器,其中,
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,還包括:
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述訓(xùn)練模塊包括:
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述獎(jiǎng)勵(lì)設(shè)計(jì)器包括:
5.一種基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法,其特征在于,利用如權(quán)利要求1-4任一項(xiàng)所述的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)系統(tǒng),其中,所述方法包括以下步驟:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在所述獎(jiǎng)勵(lì)函數(shù)的代碼信息是否滿足所述預(yù)設(shè)驗(yàn)證要求之后,還包括:
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述利用滿足所述預(yù)設(shè)驗(yàn)證要求的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述智能體,包括:
8.一種電子設(shè)備,其特征在于,包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序,以實(shí)現(xiàn)如權(quán)利要求5-7任一項(xiàng)所述的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行,以用于實(shí)現(xiàn)如權(quán)利要求5-7任一項(xiàng)所述的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。
10.一種計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被執(zhí)行時(shí),以用于實(shí)現(xiàn)如權(quán)利要求5-7任一項(xiàng)所述的基于大語言模型的自動(dòng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法。