国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法

      文檔序號(hào):40284120發(fā)布日期:2024-12-11 14:44閱讀:61來(lái)源:國(guó)知局
      一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法

      本發(fā)明屬于大語(yǔ)言模型安全,具體涉及一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法。


      背景技術(shù):

      1、大語(yǔ)言模型,如chatgpt、llama等,擁有復(fù)雜的結(jié)構(gòu)和大量的參數(shù),其強(qiáng)大的計(jì)算能力和豐富的儲(chǔ)備知識(shí)使其在自然語(yǔ)言處理中顯示出強(qiáng)大的功能,并已經(jīng)成為了各種應(yīng)用領(lǐng)域的通用人工智能解決方案。但同時(shí),大語(yǔ)言模型的道德問(wèn)題和安全問(wèn)題也出現(xiàn)了。一些對(duì)大語(yǔ)言模型的錯(cuò)誤的、惡意的使用,可能引發(fā)嚴(yán)重的危害。開(kāi)發(fā)安全可靠的大語(yǔ)言模型已成為了模型提供商的重要社會(huì)責(zé)任。

      2、為了解決這些問(wèn)題,人們利用各種技術(shù)使大語(yǔ)言模型與人類(lèi)價(jià)值觀保持一致,例如使用基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)等,以阻止模型產(chǎn)生不適當(dāng)?shù)妮敵觥_@些技術(shù)有助于提高大語(yǔ)言模型的安全性,但仍有不懷好意的人試圖繞過(guò)安全防火墻攻擊大語(yǔ)言模型。紅隊(duì)是應(yīng)對(duì)這一問(wèn)題的一種常用的人工智能領(lǐng)域的安全技術(shù),它通過(guò)構(gòu)建對(duì)抗性樣例去測(cè)試模型,以識(shí)別和修復(fù)人工智能模型中的漏洞。傳統(tǒng)的人工紅隊(duì)經(jīng)常需要大量的人工成本,為了提高效率和可擴(kuò)展性,已經(jīng)有不少工作開(kāi)始研究自動(dòng)生成對(duì)抗性數(shù)據(jù)集。使用大型語(yǔ)言模型作為對(duì)抗性提示的生成器(稱(chēng)為“紅色模型”)是一個(gè)有效的方法。然而現(xiàn)有的工作依然存在一些未解決的難點(diǎn),如常常在不斷的訓(xùn)練中傾向于產(chǎn)生單一類(lèi)型地提示,或者需要大量的時(shí)間收斂,自動(dòng)生成對(duì)抗性數(shù)據(jù)集技術(shù)仍有以下兩個(gè)主要挑戰(zhàn):

      3、模型薄弱部分的重點(diǎn)提升。現(xiàn)有的自動(dòng)生成對(duì)抗性數(shù)據(jù)集技術(shù)無(wú)法對(duì)模型進(jìn)行深層分析,只能對(duì)安全性能進(jìn)行總體性提高,無(wú)法量化模型對(duì)某些特定風(fēng)險(xiǎn)領(lǐng)域的攻擊的薄弱程度,以至于無(wú)法針對(duì)性地對(duì)模型安全性能進(jìn)行改進(jìn)。

      4、生成新穎、多樣且高質(zhì)量的對(duì)抗性提示詞。生成新穎、多樣且高質(zhì)量的對(duì)抗性提示詞是自動(dòng)化紅隊(duì)技術(shù)的重點(diǎn),提示詞足夠新穎且多樣化能使目標(biāo)模型微調(diào)后的魯棒性表現(xiàn)更加優(yōu)秀,而對(duì)抗性提示詞的質(zhì)量決定著自動(dòng)化紅隊(duì)提高目標(biāo)模型安全性能的效果。目前,如何生成新穎、多樣且高質(zhì)量的對(duì)抗性提示詞仍是領(lǐng)域內(nèi)的一個(gè)困難的挑戰(zhàn)。


      技術(shù)實(shí)現(xiàn)思路

      1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,該訓(xùn)練方法能生成更加新穎、多樣且高質(zhì)量的對(duì)抗性提示詞,并能著重提升模型安全性能的薄弱部分。具體技術(shù)方案如下:

      2、一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,包括如下步驟:

      3、s1,從數(shù)據(jù)庫(kù)中采樣種子提示詞,紅隊(duì)模型根據(jù)種子提示詞和指令生成對(duì)抗性提示詞;

      4、s2,目標(biāo)模型接收紅隊(duì)模型生成的對(duì)抗性提示詞,并生成相應(yīng)的響應(yīng);

      5、s3,獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng),并根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào);

      6、s4,通過(guò)自動(dòng)或手動(dòng)調(diào)整策略、或增加種子提示詞與響應(yīng)對(duì)來(lái)提高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果;

      7、其中,目標(biāo)模型為需要提高安全性能的大語(yǔ)言模型。

      8、優(yōu)選地,所述紅隊(duì)模型使用經(jīng)過(guò)指令微調(diào)的大語(yǔ)言模型,包括llama2,其根據(jù)種子提示詞和指令生成對(duì)抗性提示詞的過(guò)程為:

      9、x′=fr(x,i)

      10、其中,fr表示紅隊(duì)模型,x表示種子提示詞,i表示給紅隊(duì)模型的指令,x′表示生成的對(duì)抗性提示詞。

      11、優(yōu)選地,所述目標(biāo)模型能夠訪問(wèn)模型權(quán)重,其根據(jù)對(duì)抗性提示詞生成相應(yīng)響應(yīng)的構(gòu)成為:

      12、r=ft(x′)

      13、其中,ft表示目標(biāo)模型,r表示目標(biāo)模型生成的響應(yīng),x′表示對(duì)抗性提示詞。

      14、優(yōu)選地,所述獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng)時(shí),聯(lián)合考慮指令、對(duì)抗性提示詞和響應(yīng)來(lái)進(jìn)行評(píng)估,最后得到毒性分?jǐn)?shù)作為評(píng)估結(jié)果,表示為:

      15、s=g(x′,r)

      16、其中,g表示獎(jiǎng)勵(lì)模型,s表示毒性分?jǐn)?shù),s∈[-10,10]表示從劇毒到無(wú)毒的響應(yīng)毒性,x′表示對(duì)抗性提示詞,r表示目標(biāo)模型生成的響應(yīng)。

      17、優(yōu)選地,所述根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào),包括:

      18、根據(jù)毒性分?jǐn)?shù)將對(duì)抗提示詞和響應(yīng)對(duì)分為攻擊成功組和攻擊失敗組;

      19、使用攻擊成功組的對(duì)抗提示詞和響應(yīng)對(duì)來(lái)微調(diào)紅隊(duì)模型以生成更有效的攻擊;

      20、使用攻擊失敗組的對(duì)抗提示詞和響應(yīng)對(duì)來(lái)微調(diào)目標(biāo)模型,以增強(qiáng)其防御能力;

      21、將攻擊失敗組中毒性分?jǐn)?shù)高的對(duì)抗提示詞加入種子數(shù)據(jù)庫(kù),作為未來(lái)迭代的種子提示詞;

      22、將攻擊失敗組中毒性分?jǐn)?shù)最高的對(duì)抗提示詞修改為拒絕回答,再對(duì)目標(biāo)模型進(jìn)行微調(diào)。

      23、優(yōu)選地,通過(guò)自動(dòng)或手動(dòng)調(diào)整策略來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果,包括:

      24、通過(guò)接入可視化分析系統(tǒng)對(duì)目標(biāo)模型的響應(yīng)表現(xiàn)進(jìn)行可視化呈現(xiàn),識(shí)別和分析目標(biāo)模型的薄弱部分,并根據(jù)不同風(fēng)險(xiǎn)領(lǐng)域的需求,調(diào)整種子數(shù)據(jù)庫(kù)中種子提示詞的采樣比率,以提升特定領(lǐng)域的安全性能。

      25、優(yōu)選地,通過(guò)增加種子提示詞與優(yōu)質(zhì)提示詞響應(yīng)來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果,包括:

      26、手動(dòng)增加部分優(yōu)質(zhì)的種子提示詞與修改過(guò)的對(duì)抗提示詞和響應(yīng)對(duì)應(yīng),然后利用增加的數(shù)據(jù)對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行微調(diào)。

      27、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果至少包括:

      28、本發(fā)明提出一種全新的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,自動(dòng)進(jìn)行紅隊(duì)模型與目標(biāo)模型的對(duì)抗訓(xùn)練過(guò)程,生成的對(duì)抗性提示詞新穎、多樣且高質(zhì)量,能有效提高目標(biāo)模型的安全性能。



      技術(shù)特征:

      1.一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,包括如下步驟:

      2.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,所述紅隊(duì)模型使用經(jīng)過(guò)指令微調(diào)的大語(yǔ)言模型,包括llama2,其根據(jù)種子提示詞和指令生成對(duì)抗性提示詞的過(guò)程為:

      3.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,所述目標(biāo)模型能夠訪問(wèn)模型權(quán)重,其根據(jù)對(duì)抗性提示詞生成相應(yīng)響應(yīng)的構(gòu)成為:

      4.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,所述獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng)時(shí),聯(lián)合考慮指令、對(duì)抗性提示詞和響應(yīng)來(lái)進(jìn)行評(píng)估,最后得到毒性分?jǐn)?shù)作為評(píng)估結(jié)果,表示為:

      5.根據(jù)權(quán)利要求4所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,所述根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào),包括:

      6.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,通過(guò)自動(dòng)或手動(dòng)調(diào)整策略來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果,包括:

      7.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,通過(guò)增加種子提示詞與優(yōu)質(zhì)提示詞響應(yīng)來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果,包括:


      技術(shù)總結(jié)
      本發(fā)明公開(kāi)了一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,包括如下步驟:S1,從數(shù)據(jù)庫(kù)中采樣種子提示詞,紅隊(duì)模型根據(jù)種子提示詞和指令生成對(duì)抗性提示詞;S2,目標(biāo)模型接收紅隊(duì)模型生成的對(duì)抗性提示詞,并生成相應(yīng)的響應(yīng);S3,獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng),并根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào);S4,通過(guò)自動(dòng)或手動(dòng)調(diào)整策略、或增加種子提示詞與響應(yīng)對(duì)來(lái)提高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果;其中,目標(biāo)模型為需要提高安全性能的大語(yǔ)言模型。方法能生成更加新穎、多樣且高質(zhì)量的對(duì)抗性提示詞,并能著重提升模型安全性能的薄弱部分。

      技術(shù)研發(fā)人員:鄧達(dá)臻,鄭華偉,張楚涵,巫英才
      受保護(hù)的技術(shù)使用者:浙江大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1