一種大語言模型的評估方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì)與流程

文檔序號：40282425發(fā)布日期：2024-12-11 13:23閱讀：14來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種大語言模型的評估方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì)與流程

所屬的技術(shù)人員知道，本發(fā)明可以實現(xiàn)為系統(tǒng)、方法或計算機(jī)程序產(chǎn)品，因此，本發(fā)明可以具體實現(xiàn)為以下形式，即：可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等)，還可以是硬件和軟件結(jié)合的形式，本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外，在一些實施例中，本發(fā)明還可以實現(xiàn)為在一個或多個計算機(jī)可讀介質(zhì)中的計算機(jī)程序產(chǎn)品的形式，該計算機(jī)可讀介質(zhì)中包含計算機(jī)可讀的程序代碼?？梢圆捎靡粋€或多個計算機(jī)可讀的介質(zhì)的任意組合。計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)。計算機(jī)可讀存儲介質(zhì)例如可以是一一但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件，或者任意以上的組合。計算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括：具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(ram)，只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本發(fā)明中，計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì)，該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。盡管上面已經(jīng)示出和描述了本發(fā)明的實施例，可以理解的是，上述實施例是示例性的，不能理解為對本發(fā)明的限制，本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進(jìn)行變化、修改、替換和變型。

背景技術(shù)：

1、目前，針對大語言模型的評價方法主要可以分為兩類：一類是人工對大語言模型生成的主觀題的答案進(jìn)行評估，另一類是采用關(guān)鍵詞比對(例如包括bleu、rouge和meteor分?jǐn)?shù)等指標(biāo))對大語言模型進(jìn)行自動評估，還有基于bert模型等進(jìn)行大語言模型的自動化評估。這些方法各有優(yōu)缺點，但都存在一定的局限性，具體地：

2、對于評價主觀題的答案，傳統(tǒng)的人工評分易受個人偏好和判斷的影響，使得評分缺乏標(biāo)準(zhǔn)化和一致性。關(guān)鍵詞比對的方式雖然提供了一定程度的標(biāo)準(zhǔn)化，但在處理模型生成的多樣化、創(chuàng)造性答案時，會面臨評分的不準(zhǔn)確或者不公正的問題。

3、而且，現(xiàn)有的評估方法無法滿足大模型在特定行業(yè)(如保險行業(yè))的應(yīng)用需求，無法準(zhǔn)確評估大語言模型在特定領(lǐng)域的能力和適應(yīng)性。

技術(shù)實現(xiàn)思路

1、本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足，具體提供了一種大語言模型的評估方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì)，具體如下：

2、1)第一方面，本發(fā)明提供一種大語言模型的評估方法，具體技術(shù)方案如下：

3、生成預(yù)設(shè)問題的多個候選答案；

4、利用待評估大語言模型生成預(yù)設(shè)問題的答案；

5、利用每個預(yù)設(shè)相似度計算模型，計算生成的答案與每個候選答案之間的相似度均值；

6、根據(jù)最大相似度均值，對待評估大語言模型進(jìn)行評估，得到評估結(jié)果。

7、本發(fā)明提供的一種大語言模型的評估方法的有益效果如下：

8、能夠避免主觀因素所帶來的干擾，且相比于關(guān)鍵詞比對的方式，本申請利用多個相似度計算模型，并以最大相似度均值對評估大語言模型進(jìn)行評估，使評估結(jié)果更加準(zhǔn)確和公正，可以準(zhǔn)確評估大語言模型在特定領(lǐng)域如保險領(lǐng)域的適用性。

9、在上述方案的基礎(chǔ)上，本發(fā)明的一種大語言模型的評估方法還可以做如下改進(jìn)。

10、進(jìn)一步，根據(jù)最大相似度均值，對待評估大語言模型進(jìn)行評估，得到評估結(jié)果，包括：

11、提取生成的答案中的基礎(chǔ)信息和關(guān)鍵詞；

12、對最大相似度均值、提取的基礎(chǔ)信息和關(guān)鍵詞分別進(jìn)行權(quán)重賦值，根據(jù)總權(quán)重對待評估大語言模型進(jìn)行評估，得到評估結(jié)果。

13、采用上述進(jìn)一步技術(shù)方案的有益效果是：結(jié)合取生成的答案中的基礎(chǔ)信息和關(guān)鍵詞，進(jìn)一步提高評估結(jié)果的準(zhǔn)確性。

14、進(jìn)一步，多個候選答案包括：人工標(biāo)注的候選答案和通過預(yù)設(shè)大語言模型所生成的候選答案。

15、進(jìn)一步，還包括：當(dāng)評估結(jié)果符合期望標(biāo)準(zhǔn)時，利用待評估大語言模型生成用戶所提出的問題的答案，并提供給用戶。

16、進(jìn)一步，預(yù)設(shè)問題為關(guān)于保險的問題。

17、2)第二方面，本發(fā)明還提供一種大語言模型的評估系統(tǒng)，具體技術(shù)方案如下：

18、包括候選答案生成模塊、答案生成模塊、相似度計算模塊和評估模塊；

19、候選答案生成模塊用于：生成預(yù)設(shè)問題的多個候選答案；

20、答案生成模塊用于：利用待評估大語言模型生成預(yù)設(shè)問題的答案；

21、相似度計算模塊用于：利用每個預(yù)設(shè)相似度計算模型，計算生成的答案與每個候選答案之間的相似度均值；

22、評估模塊用于：根據(jù)最大相似度均值，對待評估大語言模型進(jìn)行評估，得到評估結(jié)果。

23、在上述方案的基礎(chǔ)上，本發(fā)明的一種大語言模型的評估系統(tǒng)還可以做如下改進(jìn)。

24、進(jìn)一步，評估模塊具體用于：

25、提取生成的答案中的基礎(chǔ)信息和關(guān)鍵詞；

26、對最大相似度均值、提取的基礎(chǔ)信息和關(guān)鍵詞分別進(jìn)行權(quán)重賦值，根據(jù)總權(quán)重對待評估大語言模型進(jìn)行評估，得到評估結(jié)果。

27、進(jìn)一步，多個候選答案包括：人工標(biāo)注的候選答案和通過預(yù)設(shè)大語言模型所生成的候選答案。

28、進(jìn)一步，還包括交互模塊，交互模塊用于：當(dāng)評估結(jié)果符合期望標(biāo)準(zhǔn)時，利用待評估大語言模型生成用戶所提出的問題的答案，并提供給用戶。

29、進(jìn)一步，預(yù)設(shè)問題為關(guān)于保險的問題。

30、3)第三方面，本發(fā)明還提供一種電子設(shè)備，電子設(shè)備包括處理器，處理器與存儲器耦合，存儲器中存儲有至少一條計算機(jī)程序，至少一條計算機(jī)程序由處理器加載并執(zhí)行，以使電子設(shè)備實現(xiàn)上述任一項大語言模型的評估方法。

31、4)第四方面，本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì)，計算機(jī)可讀存儲介質(zhì)中存儲有至少一條計算機(jī)程序，至少一條計算機(jī)程序由處理器加載并執(zhí)行，以使計算機(jī)實現(xiàn)上述任一項大語言模型的評估方法。

32、需要說明的是，本發(fā)明的第二方面至第四方面的技術(shù)方案及對應(yīng)的可能的實現(xiàn)方式所取得的有益效果，可以參見上述對第一方面及其對應(yīng)的可能的實現(xiàn)方式的技術(shù)效果，此處不再贅述。

技術(shù)特征：

1.一種大語言模型的評估方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的一種大語言模型的評估方法，其特征在于，根據(jù)最大相似度均值，對所述待評估大語言模型進(jìn)行評估，得到評估結(jié)果，包括：

3.根據(jù)權(quán)利要求1所述的一種大語言模型的評估方法，其特征在于，多個候選答案包括：人工標(biāo)注的候選答案和通過預(yù)設(shè)大語言模型所生成的候選答案。

4.根據(jù)權(quán)利要求1至3任一項所述的一種大語言模型的評估方法，其特征在于，還包括：當(dāng)所述評估結(jié)果符合期望標(biāo)準(zhǔn)時，利用所述待評估大語言模型生成用戶所提出的問題的答案，并提供給用戶。

5.根據(jù)權(quán)利要求1至3任一項所述的一種大語言模型的評估方法，其特征在于，所述預(yù)設(shè)問題為關(guān)于保險的問題。

6.一種大語言模型的評估系統(tǒng)，其特征在于，包括候選答案生成模塊、答案生成模塊、相似度計算模塊和評估模塊；

7.根據(jù)權(quán)利要求6所述的一種大語言模型的評估系統(tǒng)，其特征在于，所述評估模塊具體用于：

8.根據(jù)權(quán)利要求6所述的一種大語言模型的評估系統(tǒng)，其特征在于，多個候選答案包括：人工標(biāo)注的候選答案和通過預(yù)設(shè)大語言模型所生成的候選答案。

9.一種電子設(shè)備，其特征在于，所述電子設(shè)備包括處理器，所述處理器與存儲器耦合，所述存儲器中存儲有至少一條計算機(jī)程序，所述至少一條計算機(jī)程序由所述處理器加載并執(zhí)行，以使所述電子設(shè)備實現(xiàn)如權(quán)利要求1至5任一項權(quán)利要求所述的一種大語言模型的評估方法。

10.一種計算機(jī)可讀存儲介質(zhì)，其特征在于，所述計算機(jī)可讀存儲介質(zhì)中存儲有至少一條計算機(jī)程序，所述至少一條計算機(jī)程序由處理器加載并執(zhí)行，以使計算機(jī)實現(xiàn)如權(quán)利要求1至5任一項權(quán)利要求所述的一種大語言模型的評估方法。

技術(shù)總結(jié)
本發(fā)明公開了一種大語言模型的評估方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì)，涉及模型評估技術(shù)領(lǐng)域，方法包括：生成預(yù)設(shè)問題的多個候選答案；利用待評估大語言模型生成預(yù)設(shè)問題的答案；利用每個預(yù)設(shè)相似度計算模型，計算生成的答案與每個候選答案之間的相似度均值；根據(jù)最大相似度均值，對待評估大語言模型進(jìn)行評估，得到評估結(jié)果。本發(fā)明能夠避免主觀因素所帶來的干擾，且相比于關(guān)鍵詞比對的方式，本申請利用多個相似度計算模型，并以最大相似度均值對評估大語言模型進(jìn)行評估，使評估結(jié)果更加準(zhǔn)確和公正，可以準(zhǔn)確評估大語言模型在特定領(lǐng)域如保險領(lǐng)域的適用性。

技術(shù)研發(fā)人員：孫雅琳,張晗
受保護(hù)的技術(shù)使用者：陽光數(shù)智科技有限責(zé)任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫雅琳,張晗
技術(shù)所有人：陽光數(shù)智科技有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：一種基于電力數(shù)據(jù)知識圖譜的智能搜索方法與流程
上一篇：一種傳動結(jié)構(gòu)和變速器的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種大語言模型的評估方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì)與流程

一種大語言模型的評估方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì)與流程