国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于大語言模型和強化學(xué)習(xí)的決策支持系統(tǒng)及方法

      文檔序號:40396951發(fā)布日期:2024-12-20 12:20閱讀:5來源:國知局
      基于大語言模型和強化學(xué)習(xí)的決策支持系統(tǒng)及方法

      本技術(shù)涉及強化學(xué)習(xí),且更為具體地,涉及一種基于大語言模型和強化學(xué)習(xí)的決策支持系統(tǒng)及方法。


      背景技術(shù):

      1、強化學(xué)習(xí)中的狀態(tài)表征算法旨在獲得包含更多任務(wù)相關(guān)或環(huán)境動態(tài)相關(guān)的狀態(tài)表征,從而增強網(wǎng)絡(luò)訓(xùn)練的穩(wěn)健性。隨著大語言模型的發(fā)展,利用其強大的語言理解和生成能力,可以將大語言模型作為強化學(xué)習(xí)算法的先驗知識,提供豐富的語義信息和上下文理解,進一步提升智能體的決策能力和適應(yīng)性,使智能體能夠更好地理解和應(yīng)對復(fù)雜多變的環(huán)境。

      2、專利cn118504612a提出了一種基于大語言模型與強化學(xué)習(xí)的狀態(tài)表征方法及裝置,其首先利用自然語言描述器將強化學(xué)習(xí)中的狀態(tài)轉(zhuǎn)換成預(yù)設(shè)大語言模型的狀態(tài)表征。接著,將轉(zhuǎn)換后的狀態(tài)輸入大語言模型,生成增強的狀態(tài)表征函數(shù)和內(nèi)在獎勵函數(shù),內(nèi)在獎勵幫助智能體探索環(huán)境。最后,通過生成的函數(shù)更新維護利普西茨數(shù)組,確保狀態(tài)表征的平滑性,直到滿足預(yù)設(shè)條件。

      3、在上述專利中是直接對強化學(xué)習(xí)的源狀態(tài)表征進行轉(zhuǎn)換成預(yù)設(shè)大語言模型。盡管直接將強化學(xué)習(xí)的源狀態(tài)表征轉(zhuǎn)換為預(yù)設(shè)大語言模型的狀態(tài)表征能夠簡化流程,但這種方法也存在一些潛在弊端。具體來說,源狀態(tài)表征中包含關(guān)鍵特征信息的同時也可能包含冗余信息,直接轉(zhuǎn)換可能導(dǎo)致重要信息的丟失或表征不足,從而影響后續(xù)生成的狀態(tài)表征函數(shù)和內(nèi)在獎勵函數(shù)的質(zhì)量。此外,直接轉(zhuǎn)換可能會忽略對環(huán)境理解至關(guān)重要的上下文信息,影響智能體在特定任務(wù)中的表現(xiàn)。如果源狀態(tài)表征本身含有噪聲或信息不完整,那么未經(jīng)處理就直接輸入到大語言模型中可能會進一步放大這些問題,從而降低決策的可靠性。

      4、因此,期望一種優(yōu)化的基于大語言模型和強化學(xué)習(xí)的決策支持方案。


      技術(shù)實現(xiàn)思路

      1、本技術(shù)針對現(xiàn)有技術(shù)中的缺點,提供了一種基于大語言模型和強化學(xué)習(xí)的決策支持系統(tǒng)及方法。

      2、根據(jù)本技術(shù)的一個方面,提供了一種基于大語言模型和強化學(xué)習(xí)的決策支持方法,其包括:獲取強化學(xué)習(xí)的源狀態(tài)表征;基于外部知識庫對所述強化學(xué)習(xí)的源狀態(tài)表征進行數(shù)據(jù)增強以得到增強源狀態(tài)表征;基于自然語言的描述器,將所述增強源狀態(tài)表征轉(zhuǎn)換為預(yù)設(shè)大語言模型的狀態(tài)表征,其中,所述預(yù)設(shè)大語言模型的狀態(tài)表征包括任務(wù)描述、狀態(tài)細節(jié)、輸出要求和反饋信息中的至少之一;將所述預(yù)設(shè)大語言模型的狀態(tài)表征輸入至所述預(yù)設(shè)大語言模型,以生成強化學(xué)習(xí)智能體增強的狀態(tài)表征函數(shù)和內(nèi)在獎勵函數(shù);基于所述增強的狀態(tài)表征函數(shù)和所述內(nèi)在獎勵函數(shù)以更新維護對應(yīng)的利普西茨數(shù)組以產(chǎn)生滿足預(yù)設(shè)平滑條件的狀態(tài)表征;將所述滿足預(yù)設(shè)平滑條件的狀態(tài)表征輸入基于分類器的決策模型以得到?jīng)Q策結(jié)果。

      3、在上述基于大語言模型和強化學(xué)習(xí)的決策支持方法中,基于外部知識庫對所述強化學(xué)習(xí)的源狀態(tài)表征進行數(shù)據(jù)增強以得到增強源狀態(tài)表征,包括:對所述強化學(xué)習(xí)的源狀態(tài)表征和所述外部知識庫中的各條知識進行語義嵌入編碼以得到強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和知識條目語義嵌入編碼向量的集合;將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述知識條目語義嵌入編碼向量的集合中的各個知識條目語義嵌入編碼向量進行語義關(guān)聯(lián)度量以得到源狀態(tài)表征-知識條目語義匹配系數(shù)的集合;挑選所述源狀態(tài)表征-知識條目語義匹配系數(shù)的集合中源狀態(tài)表征-知識條目語義匹配系數(shù)的最大值對應(yīng)的知識條目語義嵌入編碼向量作為數(shù)據(jù)增強材料表示向量;對所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量進行多特征語義加權(quán)交互以得到所述增強源狀態(tài)表征。

      4、在上述基于大語言模型和強化學(xué)習(xí)的決策支持方法中,對所述強化學(xué)習(xí)的源狀態(tài)表征和所述外部知識庫中的各條知識進行語義嵌入編碼以得到強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和知識條目語義嵌入編碼向量的集合,包括:對所述強化學(xué)習(xí)的源狀態(tài)表征進行語義嵌入編碼以得到所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量;對所述外部知識庫中的各條知識進行語義嵌入編碼以得到所述知識條目語義嵌入編碼向量的集合。

      5、在上述基于大語言模型和強化學(xué)習(xí)的決策支持方法中,將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述知識條目語義嵌入編碼向量的集合中的各個知識條目語義嵌入編碼向量進行語義關(guān)聯(lián)度量以得到源狀態(tài)表征-知識條目語義匹配系數(shù)的集合,包括:將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述知識條目語義嵌入編碼向量的集合中的各個知識條目語義嵌入編碼向量分別輸入基于哈希函數(shù)的語義關(guān)聯(lián)度量網(wǎng)絡(luò)以得到所述源狀態(tài)表征-知識條目語義匹配系數(shù)的集合。

      6、在上述基于大語言模型和強化學(xué)習(xí)的決策支持方法中,對所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量進行多特征語義加權(quán)交互以得到所述增強源狀態(tài)表征,包括:將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量輸入聯(lián)合隱式特征捕獲網(wǎng)絡(luò)以得到強化學(xué)習(xí)-數(shù)據(jù)增強上下文聯(lián)合隱式特征向量;對所述強化學(xué)習(xí)-數(shù)據(jù)增強上下文聯(lián)合隱式特征向量進行基于sigmoid函數(shù)的特征激活以得到強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量;計算所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量相對于所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量的強化學(xué)習(xí)源狀態(tài)語義貢獻度;計算所述數(shù)據(jù)增強材料表示向量相對于所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量的數(shù)據(jù)增強語義貢獻度;對所述強化學(xué)習(xí)源狀態(tài)語義貢獻度和所述數(shù)據(jù)增強語義貢獻度進行歸一化處理,并使用歸一化后的強化學(xué)習(xí)源狀態(tài)語義貢獻度和歸一化后的數(shù)據(jù)增強語義貢獻度對所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量進行加權(quán)調(diào)制以得到調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和調(diào)制后數(shù)據(jù)增強材料表示向量;以所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量作為查詢向量、以所述調(diào)制后數(shù)據(jù)增強材料表示向量作為鍵向量且以所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量作為值向量,將所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量、所述調(diào)制后數(shù)據(jù)增強材料表示向量和所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量輸入基于轉(zhuǎn)換器結(jié)構(gòu)的特征間顯著引導(dǎo)交互模塊以得到增強源狀態(tài)表示向量作為所述增強源狀態(tài)表征。

      7、在上述基于大語言模型和強化學(xué)習(xí)的決策支持方法中,將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量輸入聯(lián)合隱式特征捕獲網(wǎng)絡(luò)以得到強化學(xué)習(xí)-數(shù)據(jù)增強上下文聯(lián)合隱式特征向量,包括:將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量進行按位置相加后,將得到的強化學(xué)習(xí)-數(shù)據(jù)增強加和向量與權(quán)重矩陣進行相乘后再與偏置向量進行按位置相加以得到強化學(xué)習(xí)-數(shù)據(jù)增強聯(lián)合交互向量;使用tanh函數(shù)對所述強化學(xué)習(xí)-數(shù)據(jù)增強聯(lián)合交互向量進行處理以得到所述強化學(xué)習(xí)-數(shù)據(jù)增強上下文聯(lián)合隱式特征向量。

      8、在上述基于大語言模型和強化學(xué)習(xí)的決策支持方法中,計算所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量相對于所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量的強化學(xué)習(xí)源狀態(tài)語義貢獻度,包括:計算所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量的對應(yīng)位置的按位置除法以得到強化學(xué)習(xí)源狀態(tài)語義貢獻向量;計算所述強化學(xué)習(xí)源狀態(tài)語義貢獻向量的每個特征值的絕對值的以二為底的對數(shù)函數(shù)值以得到強化學(xué)習(xí)源狀態(tài)語義貢獻對數(shù)向量;計算所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述強化學(xué)習(xí)源狀態(tài)語義貢獻對數(shù)向量的按位置點乘,并將得到的點乘向量進行逐位置點加以得到強化學(xué)習(xí)源狀態(tài)語義貢獻值;計算以自然常數(shù)e為底的,所述強化學(xué)習(xí)源狀態(tài)語義貢獻值為指數(shù)的指數(shù)函數(shù)以獲得所述強化學(xué)習(xí)源狀態(tài)語義貢獻度。

      9、在上述基于大語言模型和強化學(xué)習(xí)的決策支持方法中,對所述強化學(xué)習(xí)源狀態(tài)語義貢獻度和所述數(shù)據(jù)增強語義貢獻度進行歸一化處理,并使用歸一化后的強化學(xué)習(xí)源狀態(tài)語義貢獻度和歸一化后的數(shù)據(jù)增強語義貢獻度對所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和所述數(shù)據(jù)增強材料表示向量進行加權(quán)調(diào)制以得到調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量和調(diào)制后數(shù)據(jù)增強材料表示向量,包括:計算所述強化學(xué)習(xí)源狀態(tài)語義貢獻度和所述數(shù)據(jù)增強語義貢獻度的加和值以得到強化學(xué)習(xí)-數(shù)據(jù)增強語義貢獻加和值;分別將所述強化學(xué)習(xí)源狀態(tài)語義貢獻度和所述數(shù)據(jù)增強語義貢獻度除以所述強化學(xué)習(xí)-數(shù)據(jù)增強語義貢獻加和值以得到所述歸一化后的強化學(xué)習(xí)源狀態(tài)語義貢獻度和所述歸一化后的數(shù)據(jù)增強語義貢獻度;將所述強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述歸一化后的強化學(xué)習(xí)源狀態(tài)語義貢獻度進行按位置點乘以得到所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量;將所述數(shù)據(jù)增強材料表示向量與所述歸一化后的數(shù)據(jù)增強語義貢獻度進行按位置點乘以得到所述調(diào)制后數(shù)據(jù)增強材料表示向量。

      10、在上述基于大語言模型和強化學(xué)習(xí)的決策支持方法中,以所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量作為查詢向量、以所述調(diào)制后數(shù)據(jù)增強材料表示向量作為鍵向量且以所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量作為值向量,將所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量、所述調(diào)制后數(shù)據(jù)增強材料表示向量和所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量輸入基于轉(zhuǎn)換器結(jié)構(gòu)的特征間顯著引導(dǎo)交互模塊以得到增強源狀態(tài)表示向量,包括:將所述調(diào)制后強化學(xué)習(xí)的源狀態(tài)表征語義嵌入編碼向量與所述調(diào)制后數(shù)據(jù)增強材料表示向量的轉(zhuǎn)置向量進行向量相乘,將得到的調(diào)制后強化學(xué)習(xí)-數(shù)據(jù)增強關(guān)聯(lián)矩陣與所述調(diào)制后數(shù)據(jù)增強材料表示向量的長度的平方根進行按位置相除以得到調(diào)制后強化學(xué)習(xí)-數(shù)據(jù)增強關(guān)聯(lián)縮放矩陣;使用softmax函數(shù)對所述調(diào)制后強化學(xué)習(xí)-數(shù)據(jù)增強關(guān)聯(lián)縮放矩陣進行處理,將得到的調(diào)制后強化學(xué)習(xí)-數(shù)據(jù)增強關(guān)聯(lián)縮放激活矩陣與所述強化學(xué)習(xí)-數(shù)據(jù)增強條件特征向量進行矩陣-向量相乘以得到所述增強源狀態(tài)表示向量。

      11、根據(jù)本技術(shù)的另一個方面,提供了一種基于大語言模型和強化學(xué)習(xí)的決策支持系統(tǒng),其包括:強化學(xué)習(xí)源狀態(tài)表征數(shù)據(jù)收集模塊,用于獲取強化學(xué)習(xí)的源狀態(tài)表征;強化學(xué)習(xí)源狀態(tài)表征數(shù)據(jù)增強模塊,用于基于外部知識庫對所述強化學(xué)習(xí)的源狀態(tài)表征進行數(shù)據(jù)增強以得到增強源狀態(tài)表征;增強源狀態(tài)表征轉(zhuǎn)換模塊,用于基于自然語言的描述器,將所述增強源狀態(tài)表征轉(zhuǎn)換為預(yù)設(shè)大語言模型的狀態(tài)表征,其中,所述預(yù)設(shè)大語言模型的狀態(tài)表征包括任務(wù)描述、狀態(tài)細節(jié)、輸出要求和反饋信息中的至少之一;狀態(tài)表征函數(shù)內(nèi)在獎勵函數(shù)生成模塊,用于將所述預(yù)設(shè)大語言模型的狀態(tài)表征輸入至所述預(yù)設(shè)大語言模型,以生成強化學(xué)習(xí)智能體增強的狀態(tài)表征函數(shù)和內(nèi)在獎勵函數(shù);平滑狀態(tài)更新模塊,用于基于所述增強的狀態(tài)表征函數(shù)和所述內(nèi)在獎勵函數(shù)以更新維護對應(yīng)的利普西茨數(shù)組以產(chǎn)生滿足預(yù)設(shè)平滑條件的狀態(tài)表征;決策結(jié)果生成模塊,用于將所述滿足預(yù)設(shè)平滑條件的狀態(tài)表征輸入基于分類器的決策模型以得到?jīng)Q策結(jié)果。

      12、本技術(shù)由于采用了以上的技術(shù)方案,具有顯著的技術(shù)效果:本技術(shù)提供的基于大語言模型和強化學(xué)習(xí)的決策支持系統(tǒng)及方法,其通過采用基于深度學(xué)習(xí)的數(shù)據(jù)分析和增強技術(shù)來對所述強化學(xué)習(xí)的源狀態(tài)表征和所述外部知識庫中的各條知識進行語義嵌入編碼,接著,對嵌入編碼后的強化學(xué)習(xí)的源狀態(tài)表征語義特征和各個知識條目語義嵌入特征進行語義關(guān)聯(lián)度量,然后從各個語義匹配系數(shù)中挑選數(shù)據(jù)增強材料表示,以此根據(jù)強化學(xué)習(xí)的源狀態(tài)表征語義特征和數(shù)據(jù)增強材料表示之間的多特征語義交互表征來作為所述增強源狀態(tài)表征。這樣,能夠增強智能體對環(huán)境的理解,并且通過引入了外部知識庫,可以篩選出與當(dāng)前狀態(tài)最相關(guān)的知識條目,以有效剔除源狀態(tài)表征中的冗余信息,保留關(guān)鍵特征信息,從而提高狀態(tài)表征的質(zhì)量,提高決策的可靠性。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1