本發(fā)明屬于大語言模型安全的可視化領(lǐng)域,具體涉及一種面向大語言模型紅隊演練的多層次可視分析系統(tǒng)。
背景技術(shù):
1、大語言模型,如chatgpt、llama等,擁有復雜的結(jié)構(gòu)和大量的參數(shù),其強大的計算能力和豐富的儲備知識使其在自然語言處理中顯示出強大的功能,并已經(jīng)成為了各種應用領(lǐng)域的通用人工智能解決方案。但同時,大語言模型的道德問題和安全問題也出現(xiàn)了。一些對大語言模型的錯誤的、惡意的使用,可能引發(fā)嚴重的危害。開發(fā)安全可靠的大語言模型已成為了模型提供商的重要社會責任。
2、為了解決這些問題,人們利用各種技術(shù)使大語言模型與人類價值觀保持一致,例如使用基于人類反饋的強化學習等,以阻止模型產(chǎn)生不適當?shù)妮敵?。這些技術(shù)有助于提高大語言模型的安全性,但仍有不懷好意的人試圖繞過安全防火墻攻擊大語言模型。紅隊是應對這一問題的一種常用的人工智能領(lǐng)域的安全技術(shù),它通過構(gòu)建對抗性樣例去測試模型,以識別和修復人工智能模型中的漏洞。傳統(tǒng)的人工紅隊經(jīng)常需要大量的人工成本,為了提高效率和可擴展性,已經(jīng)有不少工作開始研究自動生成對抗性數(shù)據(jù)集。使用大型語言模型作為對抗性提示的生成器(稱為“紅色模型”)是一個有效的方法。然而現(xiàn)有的工作依然存在一些未解決的難點,如常常在不斷的訓練中傾向于產(chǎn)生單一類型地提示,或者需要大量的時間收斂。通過引入視覺分析,可以融入人類智慧,以增強自動紅隊的性能和可解釋性。但是,視覺分析引入仍有以下兩個主要挑戰(zhàn):
3、對抗性模式的呈現(xiàn)。對抗性訓練過程涉及紅隊模型如何生成對抗性提示以及目標大語言模型如何對它們做出反應之間的微妙關(guān)系。雖然現(xiàn)有的研究已經(jīng)為強化學習提供了視覺分析技術(shù),但它們主要關(guān)注描述性指標,例如訓練損失、多樣性或嵌入等。而紅隊需要關(guān)注模型在整個訓練過程中的行為。此外,紅隊常使用數(shù)十個訓練迭代,這對如何在支持識別模型失敗的具體提示的同時展示出總體變化趨勢,提出了可伸縮性的問題。
4、波動分析的支持。簡單地使用定義良好的度量來評估模型性能,比如攻擊成功率,是存在一定的局限性的。這無法反映模型的魯棒性。例如,對于相同的攻擊提示,模型可能會對某些檢查點做出適當?shù)捻憫?,而對其他檢查點則不響應,這意味著攻擊者可能通過某些干預使得攻擊成功?,F(xiàn)有的用于自然語言處理的可視化分析方法通常通過可視化分布來理解模型輸出。然而,考慮到大語言模型是序列模型,其輸出嚴重依賴于上下文信息,前幾個詞的波動可能在很大程度上影響后續(xù)的輸出?,F(xiàn)有的相關(guān)方法并沒有考慮到語言模型的波動,特別是在安全場景方面。如何將不確定性可視化并支持對波動的概率的分析是一個挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種面向大語言模型紅隊演練的多層次可視分析系統(tǒng),該系統(tǒng)支持大語言模型的紅隊過程中,對抗性模式的多層次呈現(xiàn)和模型的波動分析。
2、本發(fā)明的目的通過如下的技術(shù)方案來實現(xiàn):
3、實施例提供的一種面向大語言模型紅隊演練的多層次可視分析系統(tǒng),包括:
4、控制面板模塊,其包括模型導入導出按鈕、模型基本信息和可配置的模型訓練相關(guān)信息;
5、嵌入分析模塊,其包括單次迭代中目標大語言模型產(chǎn)生的文本數(shù)據(jù)集在語義空間中的高維嵌入分布的散點圖;
6、指標監(jiān)控模塊,其通過雷達圖展示單次迭代下的總體性能指標,以及通過雙軸折線圖展示對迭代過程中指標隨時間變化的趨勢跟蹤;
7、對抗流模塊,其通過三級視圖展示了目標大語言模型在對抗性提示數(shù)據(jù)集上的性能變化;
8、波動性分析模塊,其包括在驗證集上,提示級和令牌級這兩個級別的波動性分析的列表,以及點擊交互出現(xiàn)的一條提示的詳情信息卡片;
9、實例列表模塊,其展示了所選擇的實例集合的詳細信息列表,并與其他視圖的交互聯(lián)動,為用戶提供細節(jié)補充展示;其中,詳細信息包括具體對抗性提示文本、提示的風險類型標簽、目標大語言模型做出的反應類型標簽;
10、后端計算模塊,其將對紅隊模型進行訓練,對目標大語言模型進行紅隊的迭代訓練和驗證,計算紅隊結(jié)果的相關(guān)指標,并與控制面板模塊、嵌入分析模塊、指標監(jiān)控模塊、對抗流模塊、波動性分析模塊、實例列表模塊進行數(shù)據(jù)交互,實現(xiàn)數(shù)據(jù)的實時更新。
11、優(yōu)選地,所述控制面板模塊中,可配置的模型訓練相關(guān)信息,包括模型訓練的溫度參數(shù)和迭代輪數(shù)的設(shè)置輸入框、可視化種子比例的餅圖、以及通過交互的方式為用戶提供了模型管理和訓練過程自定義的接口,其中,種子比例餅圖包含兩個部分,分別是種子池比例與種子采樣比例,通過調(diào)整餅圖中每個部分的大小來反饋所需要的種子采樣比例。
12、優(yōu)選地,所述嵌入分析模塊中,所述文本數(shù)據(jù)集包括目標大語言模型在訓練集、驗證集和全體集合的對抗性提示的挑戰(zhàn)下所產(chǎn)生的對話文本的潛在特征分布,針對散點圖,支持用戶從散點圖中套選特定數(shù)據(jù)點,并加入種子池中。
13、優(yōu)選地,所述指標監(jiān)控模塊中,雙軸折線圖中展示的指標是通過雷達圖標簽點擊交互來自定義選擇。
14、優(yōu)選地,所述指標監(jiān)控模塊中,所述性能指標包括在訓練集上的目標大語言模型的毒性分數(shù)、在訓練集上的攻擊成功率、在驗證集上的大語言模型的毒性分數(shù)、在驗證集上的攻擊成功率、紅隊模型所生成的對抗性提示文本的多樣性、目標大語言模型在一般推理任務(wù)中的回答準確率。
15、優(yōu)選地,所述對抗流模塊中,對抗性提示數(shù)據(jù)集包括訓練集、驗證集兩個部分;所述三級視圖包括第一級視圖,其為展示訓練集上反應類型總體變化的堆疊面積圖及展示驗證集上反應類型總體變化的?;鶊D,第二級視圖,其為展示每輪訓練時提示的風險類型與模型的反應類型的分布關(guān)系的?;鶊D,第三級視圖,其為在訓練集上具體某一特定類型數(shù)據(jù)集的成分變化卡片及驗證集上具體一條數(shù)據(jù)在反應類型上的波動路徑;
16、三級視圖的交互方式為:在第一級視圖上通過鼠標滾輪放大到第二級視圖,在第二級視圖上通過點擊顯示第三級視圖。
17、優(yōu)選地,所述第三級視圖中,特定類型數(shù)據(jù)集的成分變化卡片分為兩種,分別是點擊第二級視圖的?;鶊D節(jié)點后顯示的堆疊條形圖,體現(xiàn)內(nèi)部比例變化;以及點擊第二級視圖的?;鶊D的流后顯示的折線圖,體現(xiàn)數(shù)據(jù)集大小變化;
18、驗證集的桑基圖中所顯示的波動路徑為一條貫穿始終的線元素,其在每一個迭代中的位置代表了目標大語言模型做出的反應類型;若目標大語言模型做出了安全反應,將用一個圓形節(jié)點的半徑表示此輪迭代下的令牌級別波動性大小。
19、優(yōu)選地,所述波動性分析模塊中,所述列表中包含每條提示的提示級波動性值、令牌級波動性平均值、令牌級波動性變化趨勢;詳情信息卡片中包括具體提示、具體回答、模型回答令牌及其生成概率、風險令牌及其生成概率;
20、其中,提示級波動性計算在一條對抗性提示上,目標大語言模型在不同的反應類型之間的轉(zhuǎn)變的頻繁程度;令牌級波動性計算目標大語言模型生成安全響應令牌與危害響應令牌之間的距離,評估安全響應轉(zhuǎn)變?yōu)槲:憫娘L險;
21、詳情信息卡片中,在具體回答的文本框中能夠修改模型回答,并反饋給目標大語言模型進行學習。
22、優(yōu)選地,所述實例列表模塊與波動性分析模塊、嵌入分析模塊、對抗流模塊有交互聯(lián)動,點擊實例列表特定卡片后,會在波動性分析模塊的列表中高亮所選項,在嵌入分析模塊中顯示提示的具體位置,并在對抗流模塊中顯示出提示的具體波動路徑。
23、優(yōu)選地,所述后端計算模塊中,模型訓練部分使用強化學習的架構(gòu),所訓練的紅隊模型和目標大語言模型都將從獎勵模型做出的評估中獲得反饋并進行迭代式的調(diào)整訓練。
24、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果至少包括:
25、本發(fā)明的多層次可視分析系統(tǒng)提出了一種多層次對抗流的可視化設(shè)計,這種技術(shù)提供了對抗性動態(tài)的全面視圖,從整個訓練過程的概述到單個時代的顆粒細節(jié)。此外,設(shè)計了一個波動性的度量來評估模型回答的令牌轉(zhuǎn)變的可能性,有助于確定大語言模型是如何容易受到欺騙和產(chǎn)生不適當?shù)拇饛?,清晰地描述了過程中的不確定性。本發(fā)明為紅隊提供了一種新的可視化分析方法,有效增強了大語言模型的安全性。