本發(fā)明屬于大語(yǔ)言模型安全,具體涉及一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法。
背景技術(shù):
1、大語(yǔ)言模型,如chatgpt、llama等,擁有復(fù)雜的結(jié)構(gòu)和大量的參數(shù),其強(qiáng)大的計(jì)算能力和豐富的儲(chǔ)備知識(shí)使其在自然語(yǔ)言處理中顯示出強(qiáng)大的功能,并已經(jīng)成為了各種應(yīng)用領(lǐng)域的通用人工智能解決方案。但同時(shí),大語(yǔ)言模型的道德問(wèn)題和安全問(wèn)題也出現(xiàn)了。一些對(duì)大語(yǔ)言模型的錯(cuò)誤的、惡意的使用,可能引發(fā)嚴(yán)重的危害。開(kāi)發(fā)安全可靠的大語(yǔ)言模型已成為了模型提供商的重要社會(huì)責(zé)任。
2、為了解決這些問(wèn)題,人們利用各種技術(shù)使大語(yǔ)言模型與人類(lèi)價(jià)值觀保持一致,例如使用基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)等,以阻止模型產(chǎn)生不適當(dāng)?shù)妮敵觥_@些技術(shù)有助于提高大語(yǔ)言模型的安全性,但仍有不懷好意的人試圖繞過(guò)安全防火墻攻擊大語(yǔ)言模型。紅隊(duì)是應(yīng)對(duì)這一問(wèn)題的一種常用的人工智能領(lǐng)域的安全技術(shù),它通過(guò)構(gòu)建對(duì)抗性樣例去測(cè)試模型,以識(shí)別和修復(fù)人工智能模型中的漏洞。傳統(tǒng)的人工紅隊(duì)經(jīng)常需要大量的人工成本,為了提高效率和可擴(kuò)展性,已經(jīng)有不少工作開(kāi)始研究自動(dòng)生成對(duì)抗性數(shù)據(jù)集。使用大型語(yǔ)言模型作為對(duì)抗性提示的生成器(稱(chēng)為“紅色模型”)是一個(gè)有效的方法。然而現(xiàn)有的工作依然存在一些未解決的難點(diǎn),如常常在不斷的訓(xùn)練中傾向于產(chǎn)生單一類(lèi)型地提示,或者需要大量的時(shí)間收斂,自動(dòng)生成對(duì)抗性數(shù)據(jù)集技術(shù)仍有以下兩個(gè)主要挑戰(zhàn):
3、模型薄弱部分的重點(diǎn)提升。現(xiàn)有的自動(dòng)生成對(duì)抗性數(shù)據(jù)集技術(shù)無(wú)法對(duì)模型進(jìn)行深層分析,只能對(duì)安全性能進(jìn)行總體性提高,無(wú)法量化模型對(duì)某些特定風(fēng)險(xiǎn)領(lǐng)域的攻擊的薄弱程度,以至于無(wú)法針對(duì)性地對(duì)模型安全性能進(jìn)行改進(jìn)。
4、生成新穎、多樣且高質(zhì)量的對(duì)抗性提示詞。生成新穎、多樣且高質(zhì)量的對(duì)抗性提示詞是自動(dòng)化紅隊(duì)技術(shù)的重點(diǎn),提示詞足夠新穎且多樣化能使目標(biāo)模型微調(diào)后的魯棒性表現(xiàn)更加優(yōu)秀,而對(duì)抗性提示詞的質(zhì)量決定著自動(dòng)化紅隊(duì)提高目標(biāo)模型安全性能的效果。目前,如何生成新穎、多樣且高質(zhì)量的對(duì)抗性提示詞仍是領(lǐng)域內(nèi)的一個(gè)困難的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,該訓(xùn)練方法能生成更加新穎、多樣且高質(zhì)量的對(duì)抗性提示詞,并能著重提升模型安全性能的薄弱部分。具體技術(shù)方案如下:
2、一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,包括如下步驟:
3、s1,從數(shù)據(jù)庫(kù)中采樣種子提示詞,紅隊(duì)模型根據(jù)種子提示詞和指令生成對(duì)抗性提示詞;
4、s2,目標(biāo)模型接收紅隊(duì)模型生成的對(duì)抗性提示詞,并生成相應(yīng)的響應(yīng);
5、s3,獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng),并根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào);
6、s4,通過(guò)自動(dòng)或手動(dòng)調(diào)整策略、或增加種子提示詞與響應(yīng)對(duì)來(lái)提高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果;
7、其中,目標(biāo)模型為需要提高安全性能的大語(yǔ)言模型。
8、優(yōu)選地,所述紅隊(duì)模型使用經(jīng)過(guò)指令微調(diào)的大語(yǔ)言模型,包括llama2,其根據(jù)種子提示詞和指令生成對(duì)抗性提示詞的過(guò)程為:
9、x′=fr(x,i)
10、其中,fr表示紅隊(duì)模型,x表示種子提示詞,i表示給紅隊(duì)模型的指令,x′表示生成的對(duì)抗性提示詞。
11、優(yōu)選地,所述目標(biāo)模型能夠訪問(wèn)模型權(quán)重,其根據(jù)對(duì)抗性提示詞生成相應(yīng)響應(yīng)的構(gòu)成為:
12、r=ft(x′)
13、其中,ft表示目標(biāo)模型,r表示目標(biāo)模型生成的響應(yīng),x′表示對(duì)抗性提示詞。
14、優(yōu)選地,所述獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng)時(shí),聯(lián)合考慮指令、對(duì)抗性提示詞和響應(yīng)來(lái)進(jìn)行評(píng)估,最后得到毒性分?jǐn)?shù)作為評(píng)估結(jié)果,表示為:
15、s=g(x′,r)
16、其中,g表示獎(jiǎng)勵(lì)模型,s表示毒性分?jǐn)?shù),s∈[-10,10]表示從劇毒到無(wú)毒的響應(yīng)毒性,x′表示對(duì)抗性提示詞,r表示目標(biāo)模型生成的響應(yīng)。
17、優(yōu)選地,所述根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào),包括:
18、根據(jù)毒性分?jǐn)?shù)將對(duì)抗提示詞和響應(yīng)對(duì)分為攻擊成功組和攻擊失敗組;
19、使用攻擊成功組的對(duì)抗提示詞和響應(yīng)對(duì)來(lái)微調(diào)紅隊(duì)模型以生成更有效的攻擊;
20、使用攻擊失敗組的對(duì)抗提示詞和響應(yīng)對(duì)來(lái)微調(diào)目標(biāo)模型,以增強(qiáng)其防御能力;
21、將攻擊失敗組中毒性分?jǐn)?shù)高的對(duì)抗提示詞加入種子數(shù)據(jù)庫(kù),作為未來(lái)迭代的種子提示詞;
22、將攻擊失敗組中毒性分?jǐn)?shù)最高的對(duì)抗提示詞修改為拒絕回答,再對(duì)目標(biāo)模型進(jìn)行微調(diào)。
23、優(yōu)選地,通過(guò)自動(dòng)或手動(dòng)調(diào)整策略來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果,包括:
24、通過(guò)接入可視化分析系統(tǒng)對(duì)目標(biāo)模型的響應(yīng)表現(xiàn)進(jìn)行可視化呈現(xiàn),識(shí)別和分析目標(biāo)模型的薄弱部分,并根據(jù)不同風(fēng)險(xiǎn)領(lǐng)域的需求,調(diào)整種子數(shù)據(jù)庫(kù)中種子提示詞的采樣比率,以提升特定領(lǐng)域的安全性能。
25、優(yōu)選地,通過(guò)增加種子提示詞與優(yōu)質(zhì)提示詞響應(yīng)來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果,包括:
26、手動(dòng)增加部分優(yōu)質(zhì)的種子提示詞與修改過(guò)的對(duì)抗提示詞和響應(yīng)對(duì)應(yīng),然后利用增加的數(shù)據(jù)對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行微調(diào)。
27、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果至少包括:
28、本發(fā)明提出一種全新的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,自動(dòng)進(jìn)行紅隊(duì)模型與目標(biāo)模型的對(duì)抗訓(xùn)練過(guò)程,生成的對(duì)抗性提示詞新穎、多樣且高質(zhì)量,能有效提高目標(biāo)模型的安全性能。
1.一種用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,所述紅隊(duì)模型使用經(jīng)過(guò)指令微調(diào)的大語(yǔ)言模型,包括llama2,其根據(jù)種子提示詞和指令生成對(duì)抗性提示詞的過(guò)程為:
3.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,所述目標(biāo)模型能夠訪問(wèn)模型權(quán)重,其根據(jù)對(duì)抗性提示詞生成相應(yīng)響應(yīng)的構(gòu)成為:
4.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,所述獎(jiǎng)勵(lì)模型評(píng)估目標(biāo)模型對(duì)于對(duì)抗性提示詞的響應(yīng)是否恰當(dāng)時(shí),聯(lián)合考慮指令、對(duì)抗性提示詞和響應(yīng)來(lái)進(jìn)行評(píng)估,最后得到毒性分?jǐn)?shù)作為評(píng)估結(jié)果,表示為:
5.根據(jù)權(quán)利要求4所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,所述根據(jù)評(píng)估結(jié)果對(duì)紅隊(duì)模型和目標(biāo)模型進(jìn)行更新微調(diào),包括:
6.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,通過(guò)自動(dòng)或手動(dòng)調(diào)整策略來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果,包括:
7.根據(jù)權(quán)利要求1所述的用于大語(yǔ)言模型安全防御的自動(dòng)紅隊(duì)演練方法,其特征在于,通過(guò)增加種子提示詞與優(yōu)質(zhì)提示詞響應(yīng)來(lái)調(diào)高紅隊(duì)模型和目標(biāo)模型的更新微調(diào)效果,包括: