一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法

文檔序號(hào)：40284120發(fā)布日期：2024-12-11 14:44閱讀：61來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于大語(yǔ)言模型安全，具體涉及一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法。

背景技術(shù)：

1、大語(yǔ)言模型，如chatgpt、llama等，擁有復(fù)雜的結(jié)構(gòu)和大量的參數(shù)，其強(qiáng)大的計(jì)算能力和豐富的儲(chǔ)備知識(shí)使其在自然語(yǔ)言處理中顯示出強(qiáng)大的功能，并已經(jīng)成為了各種應(yīng)用領(lǐng)域的通用人工智能解決方案。但同時(shí)，大語(yǔ)言模型的道德問(wèn)題和安全問(wèn)題也出現(xiàn)了。一些對(duì)大語(yǔ)言模型的錯(cuò)誤的、惡意的使用，可能引發(fā)嚴(yán)重的危害。開(kāi)發(fā)安全可靠的大語(yǔ)言模型已成為了模型提供商的重要社會(huì)責(zé)任。

2、為了解決這些問(wèn)題，人們利用各種技術(shù)使大語(yǔ)言模型與人類(lèi)價(jià)值觀保持一致，例如使用基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)等，以阻止模型產(chǎn)生不適當(dāng)?shù)妮敵觥＿@些技術(shù)有助于提高大語(yǔ)言模型的安全性，但仍有不懷好意的人試圖繞過(guò)安全防火墻攻擊大語(yǔ)言模型。紅隊(duì)是應(yīng)對(duì)這一問(wèn)題的一種常用的人工智能領(lǐng)域的安全技術(shù)，它通過(guò)構(gòu)建對(duì)抗性樣例去測(cè)試模型，以識(shí)別和修復(fù)人工智能模型中的漏洞。傳統(tǒng)的人工紅隊(duì)經(jīng)常需要大量的人工成本，為了提高效率和可擴(kuò)展性，已經(jīng)有不少工作開(kāi)始研究自動(dòng)生成對(duì)抗性數(shù)據(jù)集。使用大型語(yǔ)言模型作為對(duì)抗性提示的生成器(稱(chēng)為“紅色模型”)是一個(gè)有效的方法。然而現(xiàn)有的工作依然存在一些未解決的難點(diǎn)，如常常在不斷的訓(xùn)練中傾向于產(chǎn)生單一類(lèi)型地提示，或者需要大量的時(shí)間收斂，自動(dòng)生成對(duì)抗性數(shù)據(jù)集技術(shù)仍有以下兩個(gè)主要挑戰(zhàn)：

3、模型薄弱部分的重點(diǎn)提升。現(xiàn)有的自動(dòng)生成對(duì)抗性數(shù)據(jù)集技術(shù)無(wú)法對(duì)模型進(jìn)行深層分析，只能對(duì)安全性能進(jìn)行總體性提高，無(wú)法量化模型對(duì)某些特定風(fēng)險(xiǎn)領(lǐng)域的攻擊的薄弱程度，以至于無(wú)法針對(duì)性地對(duì)模型安全性能進(jìn)行改進(jìn)。

4、生成新穎、多樣且高質(zhì)量的對(duì)抗性提示詞。生成新穎、多樣且高質(zhì)量的對(duì)抗性提示詞是自動(dòng)化紅隊(duì)技術(shù)的重點(diǎn)，提示詞足夠新穎且多樣化能使目標(biāo)模型微調(diào)后的魯棒性表現(xiàn)更加優(yōu)秀，而對(duì)抗性提示詞的質(zhì)量決定著自動(dòng)化紅隊(duì)提高目標(biāo)模型安全性能的效果。目前，如何生成新穎、多樣且高質(zhì)量的對(duì)抗性提示詞仍是領(lǐng)域內(nèi)的一個(gè)困難的挑戰(zhàn)。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提供一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，該訓(xùn)練方法能生成更加新穎、多樣且高質(zhì)量的對(duì)抗性提示詞，并能著重提升模型安全性能的薄弱部分。具體技術(shù)方案如下：

2、一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，包括如下步驟：

3、s1，從數(shù)據(jù)庫(kù)中采樣種子提示詞，紅隊(duì)模型根據(jù)種子提示詞和指令生成對(duì)抗性提示詞；

4、s2，目標(biāo)模型接收紅隊(duì)模型生成的對(duì)抗性提示詞，并生成相應(yīng)的響應(yīng)；

5、s3，獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng)，并根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào)；

6、s4，通過(guò)自動(dòng)或手動(dòng)調(diào)整策略、或增加種子提示詞與響應(yīng)對(duì)來(lái)提高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果；

7、其中，目標(biāo)模型為需要提高安全性能的大語(yǔ)言模型。

8、優(yōu)選地，所述紅隊(duì)模型使用經(jīng)過(guò)指令微調(diào)的大語(yǔ)言模型，包括llama2，其根據(jù)種子提示詞和指令生成對(duì)抗性提示詞的過(guò)程為：

9、x′＝fr(x,i)

10、其中，fr表示紅隊(duì)模型，x表示種子提示詞，i表示給紅隊(duì)模型的指令，x′表示生成的對(duì)抗性提示詞。

11、優(yōu)選地，所述目標(biāo)模型能夠訪問(wèn)模型權(quán)重，其根據(jù)對(duì)抗性提示詞生成相應(yīng)響應(yīng)的構(gòu)成為：

12、r＝ft(x′)

13、其中，ft表示目標(biāo)模型，r表示目標(biāo)模型生成的響應(yīng)，x′表示對(duì)抗性提示詞。

14、優(yōu)選地，所述獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng)時(shí)，聯(lián)合考慮指令、對(duì)抗性提示詞和響應(yīng)來(lái)進(jìn)行評(píng)估，最后得到毒性分?jǐn)?shù)作為評(píng)估結(jié)果，表示為：

15、s＝g(x′,r)

16、其中，g表示獎(jiǎng)勵(lì)模型，s表示毒性分?jǐn)?shù)，s∈[-10,10]表示從劇毒到無(wú)毒的響應(yīng)毒性，x′表示對(duì)抗性提示詞，r表示目標(biāo)模型生成的響應(yīng)。

17、優(yōu)選地，所述根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào)，包括：

18、根據(jù)毒性分?jǐn)?shù)將對(duì)抗提示詞和響應(yīng)對(duì)分為攻擊成功組和攻擊失敗組；

19、使用攻擊成功組的對(duì)抗提示詞和響應(yīng)對(duì)來(lái)微調(diào)紅隊(duì)模型以生成更有效的攻擊；

20、使用攻擊失敗組的對(duì)抗提示詞和響應(yīng)對(duì)來(lái)微調(diào)目標(biāo)模型，以增強(qiáng)其防御能力；

21、將攻擊失敗組中毒性分?jǐn)?shù)高的對(duì)抗提示詞加入種子數(shù)據(jù)庫(kù)，作為未來(lái)迭代的種子提示詞；

22、將攻擊失敗組中毒性分?jǐn)?shù)最高的對(duì)抗提示詞修改為拒絕回答，再對(duì)目標(biāo)模型進(jìn)行微調(diào)。

23、優(yōu)選地，通過(guò)自動(dòng)或手動(dòng)調(diào)整策略來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果，包括：

24、通過(guò)接入可視化分析系統(tǒng)對(duì)目標(biāo)模型的響應(yīng)表現(xiàn)進(jìn)行可視化呈現(xiàn)，識(shí)別和分析目標(biāo)模型的薄弱部分，并根據(jù)不同風(fēng)險(xiǎn)領(lǐng)域的需求，調(diào)整種子數(shù)據(jù)庫(kù)中種子提示詞的采樣比率，以提升特定領(lǐng)域的安全性能。

25、優(yōu)選地，通過(guò)增加種子提示詞與優(yōu)質(zhì)提示詞響應(yīng)來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果，包括：

26、手動(dòng)增加部分優(yōu)質(zhì)的種子提示詞與修改過(guò)的對(duì)抗提示詞和響應(yīng)對(duì)應(yīng)，然后利用增加的數(shù)據(jù)對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行微調(diào)。

27、與現(xiàn)有技術(shù)相比，本發(fā)明具有的有益效果至少包括：

28、本發(fā)明提出一種全新的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，自動(dòng)進(jìn)行紅隊(duì)模型與目標(biāo)模型的對(duì)抗訓(xùn)練過(guò)程，生成的對(duì)抗性提示詞新穎、多樣且高質(zhì)量，能有效提高目標(biāo)模型的安全性能。

技術(shù)特征：

1.一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，包括如下步驟：

2.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，其特征在于，所述紅隊(duì)模型使用經(jīng)過(guò)指令微調(diào)的大語(yǔ)言模型，包括llama2，其根據(jù)種子提示詞和指令生成對(duì)抗性提示詞的過(guò)程為：

3.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，其特征在于，所述目標(biāo)模型能夠訪問(wèn)模型權(quán)重，其根據(jù)對(duì)抗性提示詞生成相應(yīng)響應(yīng)的構(gòu)成為：

4.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，其特征在于，所述獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng)時(shí)，聯(lián)合考慮指令、對(duì)抗性提示詞和響應(yīng)來(lái)進(jìn)行評(píng)估，最后得到毒性分?jǐn)?shù)作為評(píng)估結(jié)果，表示為：

5.根據(jù)權(quán)利要求4所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，其特征在于，所述根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào)，包括：

6.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，其特征在于，通過(guò)自動(dòng)或手動(dòng)調(diào)整策略來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果，包括：

7.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，其特征在于，通過(guò)增加種子提示詞與優(yōu)質(zhì)提示詞響應(yīng)來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果，包括：

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法，包括如下步驟：S1，從數(shù)據(jù)庫(kù)中采樣種子提示詞，紅隊(duì)模型根據(jù)種子提示詞和指令生成對(duì)抗性提示詞；S2，目標(biāo)模型接收紅隊(duì)模型生成的對(duì)抗性提示詞，并生成相應(yīng)的響應(yīng)；S3，獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng)，并根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào)；S4，通過(guò)自動(dòng)或手動(dòng)調(diào)整策略、或增加種子提示詞與響應(yīng)對(duì)來(lái)提高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果；其中，目標(biāo)模型為需要提高安全性能的大語(yǔ)言模型。方法能生成更加新穎、多樣且高質(zhì)量的對(duì)抗性提示詞，并能著重提升模型安全性能的薄弱部分。

技術(shù)研發(fā)人員：鄧達(dá)臻,鄭華偉,張楚涵,巫英才
受保護(hù)的技術(shù)使用者：浙江大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄧達(dá)臻,鄭華偉,張楚涵,巫英才
技術(shù)所有人：浙江大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法