本發(fā)明屬于信息安全,尤其涉及一種llm場(chǎng)外微調(diào)隱私保護(hù)方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、場(chǎng)外微調(diào)是一種基于大模型(llm)下的微調(diào)方法,通過這種方法使得預(yù)訓(xùn)練的基礎(chǔ)大模型可以更好的適應(yīng)下游任務(wù),由于很多基礎(chǔ)模型是專有的,導(dǎo)致模型擁有者不愿意共享出自己的全部參數(shù)給下游用戶供其微調(diào),同時(shí)數(shù)據(jù)擁有者也不愿意把私有數(shù)據(jù)上傳至模型所有者進(jìn)行微調(diào),而場(chǎng)外微調(diào)可以很好的解決這個(gè)問題。場(chǎng)外微調(diào)是一個(gè)可以充分進(jìn)行隱私保護(hù)并且十分高效的遷移學(xué)習(xí)框架。在offsite-tuning中,模型所有者向眾多數(shù)據(jù)所有者發(fā)送一個(gè)輕量級(jí)適配器(adapter)和一個(gè)有損壓縮仿真器(emulator),然后數(shù)據(jù)所有者通過壓縮的仿真器,對(duì)上游所傳下來的adapter進(jìn)行微調(diào)。然后將經(jīng)過微調(diào)的adapter返回給模型所有者,模型所有者將新的adapter插入完整模型中,從而創(chuàng)建了一個(gè)經(jīng)過調(diào)整的基礎(chǔ)模型,再將這個(gè)模型供給下游眾多用戶使用,針對(duì)不同的領(lǐng)域多次該進(jìn)行領(lǐng)域內(nèi)的迭代,對(duì)適應(yīng)本領(lǐng)域的大模型不斷進(jìn)行更新,從而使該模型在該特殊領(lǐng)域使用時(shí)達(dá)到更好的效果。
2、場(chǎng)外微調(diào)的優(yōu)勢(shì)在于模型所有者通過發(fā)送emulator和adapter這個(gè)方式,既保護(hù)了數(shù)據(jù)所有者的隱私數(shù)據(jù)(不需要共享自己的私有數(shù)據(jù)給上游),又保護(hù)了模型所有者的模型參數(shù)(完整的模型權(quán)重不得共享),emulator雖然與模型的參數(shù)有關(guān),但其是有損的,具有高度降級(jí)的特性,是對(duì)大模型的參數(shù)進(jìn)行了壓縮后的仿真器。
3、lora微調(diào)技術(shù)為在原始plm(pre-trained?language?model)旁邊增加一個(gè)旁路,做一個(gè)降維再升維的操作,來模擬所謂的intrinsic?rank。微調(diào)過程中固定預(yù)訓(xùn)練的大模型的參數(shù),只訓(xùn)練降維矩陣a與升維矩陣b。而模型的輸入輸出維度不變,輸出時(shí)將降維矩陣a與升維矩陣b與預(yù)訓(xùn)練的大模型的參數(shù)疊加。用隨機(jī)高斯分布初始化降維矩陣a,用0矩陣初始化升維矩陣b,保證訓(xùn)練的開始此旁路矩陣依然是0矩陣。
4、現(xiàn)有的場(chǎng)外微調(diào)(offsite-tuning)中有下面兩個(gè)問題:
5、1.適配器參數(shù)泄露問題
6、在offsite-tuning框架中,一個(gè)潛在的缺陷是適配器參數(shù)可能存在泄露風(fēng)險(xiǎn)。適配器作為模型與下游任務(wù)特定數(shù)據(jù)交互的接口,其參數(shù)在微調(diào)過程中被調(diào)整以捕捉任務(wù)相關(guān)的特征。然而,如果適配器的設(shè)計(jì)不夠周密,這可能使得敏感的模型信息通過適配器參數(shù)間接泄露。攻擊者可能利用適配器參數(shù)的變化,嘗試推斷原始模型的權(quán)重配置,從而威脅到模型的知識(shí)產(chǎn)權(quán)和保密性。
7、2.私有數(shù)據(jù)泄露問題
8、另一個(gè)offsite-tuning框架中的潛在缺陷是數(shù)據(jù)隱私泄露的風(fēng)險(xiǎn)。當(dāng)下游用戶將微調(diào)后的適配器參數(shù)發(fā)送回模型擁有者時(shí),這些參數(shù)隱含了有關(guān)本地訓(xùn)練數(shù)據(jù)的信息。如果適配器在微調(diào)過程中過度擬合了特定的數(shù)據(jù)特征,模型擁有者可能通過分析這些參數(shù)來推斷下游用戶的數(shù)據(jù),這侵犯了數(shù)據(jù)所有者的隱私。因此,確保在模型微調(diào)過程中,適配器不會(huì)記錄或反映敏感的下游數(shù)據(jù)特征,是實(shí)現(xiàn)安全offsite-tuning的關(guān)鍵挑戰(zhàn)之一。
技術(shù)實(shí)現(xiàn)思路
1、為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種llm場(chǎng)外微調(diào)隱私保護(hù)方法、系統(tǒng)、設(shè)備及介質(zhì),模型擁有者先利用ckks算法對(duì)傳輸前的adapter進(jìn)行加密,然后下游數(shù)據(jù)擁有者用自己私有的數(shù)據(jù)對(duì)加密后的密文進(jìn)行運(yùn)算,將運(yùn)算后的adapter結(jié)果傳回給模型擁有者,模型擁有者再對(duì)其進(jìn)行解密,從而得到更新后的adapter,再將其聚合并拼接到大模型中,從而實(shí)現(xiàn)場(chǎng)外微調(diào)中對(duì)adapter的保護(hù),解決了執(zhí)行offsite-tuning方法時(shí)adapter本身面臨的隱私泄露問題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、一種llm場(chǎng)外微調(diào)隱私保護(hù)方法,具體包括以下步驟:
4、步驟1、數(shù)據(jù)選擇:模型擁有者選擇預(yù)訓(xùn)練的基礎(chǔ)大模型,以此模型的數(shù)據(jù)作為adapter進(jìn)行后續(xù)處理;
5、步驟2、對(duì)步驟1選擇的adapter進(jìn)行adapter密文生成;
6、步驟3、加密模型微調(diào),即對(duì)步驟2生成的adapter密文,通過lora方法,實(shí)現(xiàn)加密后的本地?cái)?shù)據(jù)對(duì)大模型參數(shù)的微調(diào);
7、步驟4、對(duì)步驟3微調(diào)后的adapter密文進(jìn)行傳輸與聚合;
8、步驟5、迭代更新:重復(fù)步驟1至步驟4,進(jìn)行下一輪的模型更新,直到微調(diào)后的模型達(dá)到在特定領(lǐng)域使用的標(biāo)準(zhǔn)。
9、所述步驟2的具體方法為:步驟1中的adapter包含的數(shù)據(jù)為k個(gè)n維向量d=<x1,x2,......,xk>,d為k個(gè)向量組成的n×k矩陣,k為所選取的兩層中的向量個(gè)數(shù),n為每個(gè)向量中所含的參數(shù)個(gè)數(shù);此矩陣中的元素包括整數(shù)、浮點(diǎn)數(shù)或復(fù)數(shù);用ckks同態(tài)加密算法對(duì)矩陣中的k個(gè)向量進(jìn)行加密:
10、設(shè)ckks方案的安全系數(shù)為λ,
11、先進(jìn)行密鑰生成
12、ckks.keygen(1λ)
13、得到輸出公鑰sk和私鑰pk;
14、對(duì)于明文向量xk,
15、x′k=ckks.encode(xk,δ)
16、即首先對(duì)明文向量xk進(jìn)行等比放大,再將其轉(zhuǎn)化為密文;
17、ek=<x′1,x′2,......,x′k>
18、ek為加密后的矩陣,即為adapter的密文。
19、所述步驟3的具體方法為:對(duì)加密的模型即步驟2生成的adapter的密文使用lora微調(diào)方法,通過lora微調(diào)方法優(yōu)化適應(yīng)過程中密集層變化的秩分解矩陣來間接訓(xùn)練神經(jīng)網(wǎng)絡(luò)中的一些密集層,同時(shí)保持預(yù)先訓(xùn)練的權(quán)重不變:由于需要微調(diào)的加密模型是密文,在lora微調(diào)方法中所需要的降維矩陣a與升維矩陣b也需要是密文;首先,對(duì)降維矩陣a與升維矩陣b進(jìn)行初始化,降維矩陣a采用隨機(jī)高斯分布,升維矩陣b為0矩陣,即
20、a=n(0,σ2)
21、b=0
22、然后,下游數(shù)據(jù)擁有者使用本地的數(shù)據(jù)對(duì)降維矩陣a,升維矩陣b進(jìn)行訓(xùn)練,訓(xùn)練完成后,使用公鑰sk對(duì)降維矩陣a與升維矩陣b進(jìn)行加密,得到降維矩陣a與升維矩陣b矩陣的密文ea與eb:
23、ea=ckks.encsk(a)
24、eb=ckks.encsk(b)
25、在微調(diào)時(shí),對(duì)密文ea和eb進(jìn)行乘法運(yùn)算,得到微調(diào)的矩陣et:
26、et=ckks.mult_evk(eb,ea)
27、最后,把進(jìn)行微調(diào)的矩陣et與步驟2中加密后的矩陣ek相加,得到微調(diào)后的密文adapter,即為enew:
28、enew=ckks.add(et,ek)。
29、所述步驟4的具體方法為:
30、將步驟3下游各個(gè)數(shù)據(jù)擁有者所微調(diào)后的adapter,傳回給模型擁有者后,模型擁有者對(duì)各個(gè)微調(diào)后的adapter使用私鑰pk進(jìn)行解密,然后再對(duì)解密后的adapter進(jìn)行聚合,從而實(shí)現(xiàn)對(duì)預(yù)訓(xùn)練大模型的更新。
31、基于上述隱私保護(hù)方法的一種llm場(chǎng)外微調(diào)隱私保護(hù)系統(tǒng),包括:
32、模型加密模塊,用于對(duì)預(yù)訓(xùn)練的大模型的adapter加密的步驟2中,通過ckks同態(tài)加密算法,實(shí)現(xiàn)對(duì)adapter參數(shù)的加密;
33、數(shù)據(jù)加密模塊,用于對(duì)數(shù)據(jù)擁有者的本地?cái)?shù)據(jù)進(jìn)行加密的步驟3中,通過ckks同態(tài)加密算法,實(shí)現(xiàn)對(duì)本地?cái)?shù)據(jù)的加密;
34、微調(diào)模塊,用于步驟3中,通過lora方法,實(shí)現(xiàn)加密后的本地?cái)?shù)據(jù)對(duì)預(yù)訓(xùn)練的大模型參數(shù)的微調(diào);
35、解密聚合模塊,用于步驟4中對(duì)微調(diào)后的密文解密并進(jìn)行模型聚合,通過ckks同態(tài)加密算法,實(shí)現(xiàn)對(duì)密文參數(shù)的解密。
36、基于上述隱私保護(hù)方法的一種llm場(chǎng)外微調(diào)隱私保護(hù)設(shè)備,包括:
37、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;
38、處理器,用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)步驟1至步驟5所述的llm場(chǎng)外微調(diào)隱私保護(hù)方法。
39、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用來存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)能夠?qū)诓襟E1至步驟4所述的llm場(chǎng)外微調(diào)隱私保護(hù)方法,實(shí)現(xiàn)場(chǎng)外微調(diào)中對(duì)adapter的保護(hù)。
40、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn):
41、1.安全性顯著提升:本發(fā)明通過采用先進(jìn)的同態(tài)加密技術(shù),特別是ckks算法,確保了在模型微調(diào)過程中,數(shù)據(jù)的安全性得到了顯著加強(qiáng)。同態(tài)加密允許在加密數(shù)據(jù)上直接進(jìn)行計(jì)算,而無需解密,從而大大降低了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
42、2.隱私保護(hù)全面:本發(fā)明不僅對(duì)模型參數(shù)進(jìn)行了加密處理,還對(duì)數(shù)據(jù)擁有者的私有數(shù)據(jù)進(jìn)行了加密,實(shí)現(xiàn)了對(duì)微調(diào)雙方隱私的全面保護(hù)。這種雙重加密機(jī)制有效防止了數(shù)據(jù)在微調(diào)過程中被未授權(quán)訪問或?yàn)E用,確保了數(shù)據(jù)的機(jī)密性和完整性。
43、3.信息安全保障:通過本發(fā)明的實(shí)施,微調(diào)雙方可以在不暴露各自敏感信息的前提下,安全地進(jìn)行模型的優(yōu)化和調(diào)整。這種機(jī)制為數(shù)據(jù)擁有者和模型擁有者提供了一個(gè)安全、可靠的合作環(huán)境,增強(qiáng)了雙方對(duì)信息安全的信心。
44、綜上,本發(fā)明通過采用同態(tài)加密技術(shù),特別是ckks算法,實(shí)現(xiàn)了對(duì)模型參數(shù)和私有數(shù)據(jù)的雙重加密,從而在不犧牲數(shù)據(jù)隱私的前提下,安全地進(jìn)行模型微調(diào)。這一創(chuàng)新不僅極大提升了系統(tǒng)的安全性,還全面保護(hù)了微調(diào)雙方的隱私與信息安全,增強(qiáng)了用戶對(duì)技術(shù)應(yīng)用的信任度。