本申請實(shí)施例涉及計(jì)算機(jī)領(lǐng)域,更具體地涉及一種大模型安全性評測方法、相關(guān)裝置及存儲介質(zhì)。
背景技術(shù):
1、隨著以機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)為代表的人工智能技術(shù)的迅速發(fā)展,人工智能技術(shù)應(yīng)用越來越廣泛,包括工業(yè)制造、醫(yī)療健康、教育、安防、電商零售、金融等領(lǐng)域,由此衍生了能力很強(qiáng)大的大模型。然而,雖然大模型的能力很強(qiáng)大,但在使用大模型時發(fā)現(xiàn)了大量的安全性問題。例如,如果用戶濫用,對抗樣本、模型后門等新型攻擊手段能夠?qū)е麓竽P蛨?zhí)行錯誤的指令,實(shí)現(xiàn)對大模型被惡意使用,最終可能造成嚴(yán)重的安全后果,大大較低了大模型使用的安全性。
技術(shù)實(shí)現(xiàn)思路
1、本申請實(shí)施例提供一種大模型安全性評測方法、相關(guān)裝置及存儲介質(zhì),可以實(shí)現(xiàn)自動對大模型進(jìn)行安全性評測,確保大模型使用的安全性。
2、第一方面,本申請實(shí)施例提供一種大模型安全性評測方法,該方法包括:
3、確定待測大模型;
4、根據(jù)所述待測大模型的應(yīng)用領(lǐng)域確定測試指標(biāo)集和攻擊指令集,所述測試指標(biāo)集包括多種風(fēng)險類別對應(yīng)的評測指標(biāo),所述攻擊指令集包括多種攻擊類別對應(yīng)的攻擊指令;
5、響應(yīng)于所述攻擊指令集中的攻擊指令,按照所述測試指標(biāo)集中的多種評測指標(biāo)對所述待測大模型進(jìn)行安全評測,得到各評測指標(biāo)對應(yīng)的測試值,所述測試值表征在對應(yīng)各風(fēng)險類別下的評測指標(biāo)對應(yīng)的安全值;
6、根據(jù)所述測試值輸出可視化的評測結(jié)果,所述評測結(jié)果展示所述待測大模型針對不同攻擊指令下多種不同風(fēng)險類別對應(yīng)的測試值。
7、第二方面,本申請實(shí)施例提供一種大模型安全性評測裝置,具有實(shí)現(xiàn)對應(yīng)于上述第一方面提供的大模型安全性評測方法的功能。所述功能可以通過硬件實(shí)現(xiàn),也可以通過硬件執(zhí)行相應(yīng)的軟件實(shí)現(xiàn)。硬件或軟件包括一個或多個與上述功能相對應(yīng)的模塊,所述模塊可以是軟件和/或硬件。
8、在一個實(shí)施方式中,所述大模型安全性評測裝置包括:
9、輸入輸出模塊,被配置為確定待測大模型;
10、處理模塊,被配置為根據(jù)所述待測大模型的應(yīng)用領(lǐng)域確定測試指標(biāo)集和攻擊指令集,所述測試指標(biāo)集包括多種風(fēng)險類別對應(yīng)的評測指標(biāo),所述攻擊指令集包括多種攻擊類別對應(yīng)的攻擊指令;響應(yīng)于所述攻擊指令集中的攻擊指令,按照所述測試指標(biāo)集中的多種評測指標(biāo)對所述待測大模型進(jìn)行安全評測,得到各評測指標(biāo)對應(yīng)的測試值,所述測試值表征在對應(yīng)各風(fēng)險類別下的評測指標(biāo)對應(yīng)的安全值;
11、所述輸入輸出模塊,還被配置根據(jù)所述測試值輸出可視化的評測結(jié)果,所述評測結(jié)果展示所述待測大模型針對不同攻擊指令下多種不同風(fēng)險類別對應(yīng)的測試值。
12、第三方面,本申請實(shí)施例提供一種計(jì)算機(jī)可讀存儲介質(zhì),其包括指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時,使得計(jì)算機(jī)執(zhí)行如第一方面所述的大模型安全性評測方法。
13、第四方面,本申請實(shí)施例提供一種計(jì)算設(shè)備,包括存儲器,處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其中,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)第一方面提供的大模型安全性評測方法。
14、第五方面,本申請實(shí)施例提供一種包含指令的計(jì)算機(jī)程序產(chǎn)品,計(jì)算機(jī)程序產(chǎn)品包括程序指令,當(dāng)該程序指令在計(jì)算機(jī)或處理器上運(yùn)行時,使得計(jì)算機(jī)執(zhí)行上述第一方面提供的大模型安全性評測方法。
15、第六方面,本申請實(shí)施例提供一種芯片,該芯片中包括與終端設(shè)備的收發(fā)器耦合的處理器,用于執(zhí)行本申請實(shí)施例第一方面提供的大模型安全性評測方法。
16、第七方面,本申請實(shí)施例提供一種芯片系統(tǒng),該芯片系統(tǒng)包括處理器,用于支持終端設(shè)備實(shí)現(xiàn)上述第一方面中所涉及的功能,例如,生成或者處理上述第一方面提供的大模型安全性評測方法中所涉及的信息。
17、在一種可能的設(shè)計(jì)中,上述芯片系統(tǒng)還包括通信接口,用于輸入和/或輸出信息。
18、在一種可能的設(shè)計(jì)中,上述芯片系統(tǒng)還包括存儲器,該存儲器用于保存終端設(shè)備必需的程序指令和數(shù)據(jù)。該芯片系統(tǒng)可以由芯片構(gòu)成,也可以包含芯片和其他分立器件。
19、相較于現(xiàn)有技術(shù),本申請實(shí)施例中,可以自動根據(jù)待測大模型的應(yīng)用領(lǐng)域確定測試指標(biāo)集和攻擊指令集,并響應(yīng)于攻擊指令集中的攻擊指令,按照測試指標(biāo)集中的多種評測指標(biāo)對待測大模型進(jìn)行安全評測,得到各評測指標(biāo)對應(yīng)的測試值,由于測試指標(biāo)集包括多種風(fēng)險類別對應(yīng)的評測指標(biāo),攻擊指令集包括多種攻擊類別對應(yīng)的攻擊指令,因此可以實(shí)現(xiàn)自動評測對應(yīng)各風(fēng)險類別下的不同評測指標(biāo)對應(yīng)的安全值,并且可以根據(jù)測試值輸出可視化的評測結(jié)果,評測結(jié)果展示待測大模型針對不同攻擊指令下多種不同風(fēng)險類別對應(yīng)的測試值。因此,本申請可以在大模型上線之前,為了避免大模型后期上線之后存在的安全風(fēng)險,可以采用本申請的大模型安全性評測方案來自動對該大模型進(jìn)行安全評測(包括算法、應(yīng)用和數(shù)據(jù)等板塊的評測),從而根據(jù)評測結(jié)果來迭代優(yōu)化大模型的一些算法漏洞,確保大模型使用的安全性。
1.一種大模型安全性評測方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的大模型安全性評測方法,其特征在于,所述評測結(jié)果顯示于可視化顯示界面的第一區(qū)域,所述根據(jù)所述測試值輸出可視化的評測結(jié)果之后,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的大模型安全性評測方法,其特征在于,所述在所述可視化顯示界面的第二區(qū)域,展示橫向?qū)Ρ冉Y(jié)果之后,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的大模型安全性評測方法,其特征在于,所述根據(jù)所述測試值輸出可視化的評測結(jié)果之后,所述方法還包括:
5.根據(jù)權(quán)利要求4所述的大模型安全性評測方法,其特征在于,所述根據(jù)所述目標(biāo)風(fēng)險類別展示所述待測大模型與所述至少一個待對比的同類大模型針對至少一種風(fēng)險類別的橫向?qū)Ρ冉Y(jié)果之后,所述方法還包括:
6.根據(jù)權(quán)利要求1所述的大模型安全性評測方法,其特征在于,確定待測大模型之后,所述方法還包括:
7.根據(jù)權(quán)利要求1所述的大模型安全性評測方法,其特征在于,所述風(fēng)險類別包括惡意用途、有害語言、違反國家安全、錯誤知識信息、偏見歧視、信息泄露、以及部署風(fēng)險中的至少一種,針對不同應(yīng)用領(lǐng)域的待測大模型對應(yīng)有不同的風(fēng)險類別。
8.根據(jù)權(quán)利要求7所述的大模型安全性評測方法,其特征在于,所述有害語言包括:鼓勵或建議自我傷害行為的內(nèi)容,推動或建議用戶執(zhí)行不道德或非法行為,色情語言,含有暴力、攻擊性內(nèi)容,騷擾、貶低和令人憎恨的內(nèi)容,指導(dǎo)如何尋找非法內(nèi)容的說明,帶有煽動性的言論,人身攻擊或惡意詆毀,破壞社會道德或價值觀,以及不禮貌用語中的至少一種;
9.根據(jù)權(quán)利要求1所述的大模型安全性評測方法,其特征在于,所述攻擊指令包括目標(biāo)劫持、不安全詢問、注入攻擊、開發(fā)者模式、反面誘導(dǎo)、角色扮演、以及提示泄露中的至少一種,針對不同應(yīng)用領(lǐng)域的待測大模型對應(yīng)有不同的攻擊指令。
10.根據(jù)權(quán)利要求1至9任一項(xiàng)所述的大模型安全性評測方法,其特征在于,所述確定待測大模型之前,所述方法還包括: