国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種大語言模型的評估方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì)與流程

      文檔序號:40282425發(fā)布日期:2024-12-11 13:23閱讀:14來源:國知局
      一種大語言模型的評估方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì)與流程

      所屬的技術(shù)人員知道,本發(fā)明可以實現(xiàn)為系統(tǒng)、方法或計算機(jī)程序產(chǎn)品,因此,本發(fā)明可以具體實現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實施例中,本發(fā)明還可以實現(xiàn)為在一個或多個計算機(jī)可讀介質(zhì)中的計算機(jī)程序產(chǎn)品的形式,該計算機(jī)可讀介質(zhì)中包含計算機(jī)可讀的程序代碼??梢圆捎靡粋€或多個計算機(jī)可讀的介質(zhì)的任意組合。計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)。計算機(jī)可讀存儲介質(zhì)例如可以是一一但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(ram),只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本發(fā)明中,計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進(jìn)行變化、修改、替換和變型。


      背景技術(shù):

      1、目前,針對大語言模型的評價方法主要可以分為兩類:一類是人工對大語言模型生成的主觀題的答案進(jìn)行評估,另一類是采用關(guān)鍵詞比對(例如包括bleu、rouge和meteor分?jǐn)?shù)等指標(biāo))對大語言模型進(jìn)行自動評估,還有基于bert模型等進(jìn)行大語言模型的自動化評估。這些方法各有優(yōu)缺點,但都存在一定的局限性,具體地:

      2、對于評價主觀題的答案,傳統(tǒng)的人工評分易受個人偏好和判斷的影響,使得評分缺乏標(biāo)準(zhǔn)化和一致性。關(guān)鍵詞比對的方式雖然提供了一定程度的標(biāo)準(zhǔn)化,但在處理模型生成的多樣化、創(chuàng)造性答案時,會面臨評分的不準(zhǔn)確或者不公正的問題。

      3、而且,現(xiàn)有的評估方法無法滿足大模型在特定行業(yè)(如保險行業(yè))的應(yīng)用需求,無法準(zhǔn)確評估大語言模型在特定領(lǐng)域的能力和適應(yīng)性。


      技術(shù)實現(xiàn)思路

      1、本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,具體提供了一種大語言模型的評估方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì),具體如下:

      2、1)第一方面,本發(fā)明提供一種大語言模型的評估方法,具體技術(shù)方案如下:

      3、生成預(yù)設(shè)問題的多個候選答案;

      4、利用待評估大語言模型生成預(yù)設(shè)問題的答案;

      5、利用每個預(yù)設(shè)相似度計算模型,計算生成的答案與每個候選答案之間的相似度均值;

      6、根據(jù)最大相似度均值,對待評估大語言模型進(jìn)行評估,得到評估結(jié)果。

      7、本發(fā)明提供的一種大語言模型的評估方法的有益效果如下:

      8、能夠避免主觀因素所帶來的干擾,且相比于關(guān)鍵詞比對的方式,本申請利用多個相似度計算模型,并以最大相似度均值對評估大語言模型進(jìn)行評估,使評估結(jié)果更加準(zhǔn)確和公正,可以準(zhǔn)確評估大語言模型在特定領(lǐng)域如保險領(lǐng)域的適用性。

      9、在上述方案的基礎(chǔ)上,本發(fā)明的一種大語言模型的評估方法還可以做如下改進(jìn)。

      10、進(jìn)一步,根據(jù)最大相似度均值,對待評估大語言模型進(jìn)行評估,得到評估結(jié)果,包括:

      11、提取生成的答案中的基礎(chǔ)信息和關(guān)鍵詞;

      12、對最大相似度均值、提取的基礎(chǔ)信息和關(guān)鍵詞分別進(jìn)行權(quán)重賦值,根據(jù)總權(quán)重對待評估大語言模型進(jìn)行評估,得到評估結(jié)果。

      13、采用上述進(jìn)一步技術(shù)方案的有益效果是:結(jié)合取生成的答案中的基礎(chǔ)信息和關(guān)鍵詞,進(jìn)一步提高評估結(jié)果的準(zhǔn)確性。

      14、進(jìn)一步,多個候選答案包括:人工標(biāo)注的候選答案和通過預(yù)設(shè)大語言模型所生成的候選答案。

      15、進(jìn)一步,還包括:當(dāng)評估結(jié)果符合期望標(biāo)準(zhǔn)時,利用待評估大語言模型生成用戶所提出的問題的答案,并提供給用戶。

      16、進(jìn)一步,預(yù)設(shè)問題為關(guān)于保險的問題。

      17、2)第二方面,本發(fā)明還提供一種大語言模型的評估系統(tǒng),具體技術(shù)方案如下:

      18、包括候選答案生成模塊、答案生成模塊、相似度計算模塊和評估模塊;

      19、候選答案生成模塊用于:生成預(yù)設(shè)問題的多個候選答案;

      20、答案生成模塊用于:利用待評估大語言模型生成預(yù)設(shè)問題的答案;

      21、相似度計算模塊用于:利用每個預(yù)設(shè)相似度計算模型,計算生成的答案與每個候選答案之間的相似度均值;

      22、評估模塊用于:根據(jù)最大相似度均值,對待評估大語言模型進(jìn)行評估,得到評估結(jié)果。

      23、在上述方案的基礎(chǔ)上,本發(fā)明的一種大語言模型的評估系統(tǒng)還可以做如下改進(jìn)。

      24、進(jìn)一步,評估模塊具體用于:

      25、提取生成的答案中的基礎(chǔ)信息和關(guān)鍵詞;

      26、對最大相似度均值、提取的基礎(chǔ)信息和關(guān)鍵詞分別進(jìn)行權(quán)重賦值,根據(jù)總權(quán)重對待評估大語言模型進(jìn)行評估,得到評估結(jié)果。

      27、進(jìn)一步,多個候選答案包括:人工標(biāo)注的候選答案和通過預(yù)設(shè)大語言模型所生成的候選答案。

      28、進(jìn)一步,還包括交互模塊,交互模塊用于:當(dāng)評估結(jié)果符合期望標(biāo)準(zhǔn)時,利用待評估大語言模型生成用戶所提出的問題的答案,并提供給用戶。

      29、進(jìn)一步,預(yù)設(shè)問題為關(guān)于保險的問題。

      30、3)第三方面,本發(fā)明還提供一種電子設(shè)備,電子設(shè)備包括處理器,處理器與存儲器耦合,存儲器中存儲有至少一條計算機(jī)程序,至少一條計算機(jī)程序由處理器加載并執(zhí)行,以使電子設(shè)備實現(xiàn)上述任一項大語言模型的評估方法。

      31、4)第四方面,本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),計算機(jī)可讀存儲介質(zhì)中存儲有至少一條計算機(jī)程序,至少一條計算機(jī)程序由處理器加載并執(zhí)行,以使計算機(jī)實現(xiàn)上述任一項大語言模型的評估方法。

      32、需要說明的是,本發(fā)明的第二方面至第四方面的技術(shù)方案及對應(yīng)的可能的實現(xiàn)方式所取得的有益效果,可以參見上述對第一方面及其對應(yīng)的可能的實現(xiàn)方式的技術(shù)效果,此處不再贅述。



      技術(shù)特征:

      1.一種大語言模型的評估方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的一種大語言模型的評估方法,其特征在于,根據(jù)最大相似度均值,對所述待評估大語言模型進(jìn)行評估,得到評估結(jié)果,包括:

      3.根據(jù)權(quán)利要求1所述的一種大語言模型的評估方法,其特征在于,多個候選答案包括:人工標(biāo)注的候選答案和通過預(yù)設(shè)大語言模型所生成的候選答案。

      4.根據(jù)權(quán)利要求1至3任一項所述的一種大語言模型的評估方法,其特征在于,還包括:當(dāng)所述評估結(jié)果符合期望標(biāo)準(zhǔn)時,利用所述待評估大語言模型生成用戶所提出的問題的答案,并提供給用戶。

      5.根據(jù)權(quán)利要求1至3任一項所述的一種大語言模型的評估方法,其特征在于,所述預(yù)設(shè)問題為關(guān)于保險的問題。

      6.一種大語言模型的評估系統(tǒng),其特征在于,包括候選答案生成模塊、答案生成模塊、相似度計算模塊和評估模塊;

      7.根據(jù)權(quán)利要求6所述的一種大語言模型的評估系統(tǒng),其特征在于,所述評估模塊具體用于:

      8.根據(jù)權(quán)利要求6所述的一種大語言模型的評估系統(tǒng),其特征在于,多個候選答案包括:人工標(biāo)注的候選答案和通過預(yù)設(shè)大語言模型所生成的候選答案。

      9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括處理器,所述處理器與存儲器耦合,所述存儲器中存儲有至少一條計算機(jī)程序,所述至少一條計算機(jī)程序由所述處理器加載并執(zhí)行,以使所述電子設(shè)備實現(xiàn)如權(quán)利要求1至5任一項權(quán)利要求所述的一種大語言模型的評估方法。

      10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)中存儲有至少一條計算機(jī)程序,所述至少一條計算機(jī)程序由處理器加載并執(zhí)行,以使計算機(jī)實現(xiàn)如權(quán)利要求1至5任一項權(quán)利要求所述的一種大語言模型的評估方法。


      技術(shù)總結(jié)
      本發(fā)明公開了一種大語言模型的評估方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì),涉及模型評估技術(shù)領(lǐng)域,方法包括:生成預(yù)設(shè)問題的多個候選答案;利用待評估大語言模型生成預(yù)設(shè)問題的答案;利用每個預(yù)設(shè)相似度計算模型,計算生成的答案與每個候選答案之間的相似度均值;根據(jù)最大相似度均值,對待評估大語言模型進(jìn)行評估,得到評估結(jié)果。本發(fā)明能夠避免主觀因素所帶來的干擾,且相比于關(guān)鍵詞比對的方式,本申請利用多個相似度計算模型,并以最大相似度均值對評估大語言模型進(jìn)行評估,使評估結(jié)果更加準(zhǔn)確和公正,可以準(zhǔn)確評估大語言模型在特定領(lǐng)域如保險領(lǐng)域的適用性。

      技術(shù)研發(fā)人員:孫雅琳,張晗
      受保護(hù)的技術(shù)使用者:陽光數(shù)智科技有限責(zé)任公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1