国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于差分隱私的異構(gòu)聯(lián)邦微調(diào)語言模型構(gòu)建方法及系統(tǒng)

      文檔序號:40369530發(fā)布日期:2024-12-20 11:51閱讀:12來源:國知局
      基于差分隱私的異構(gòu)聯(lián)邦微調(diào)語言模型構(gòu)建方法及系統(tǒng)

      本發(fā)明屬于計算機網(wǎng)絡(luò)安全技術(shù)與密碼學(xué),涉及一種高效異構(gòu)聯(lián)邦微調(diào)語言模型構(gòu)建方法及系統(tǒng),具體設(shè)計到一種基于敏感度感知的差分隱私(differentialprivacy)噪聲分配的異構(gòu)聯(lián)邦微調(diào)(federated?fine-tuning)構(gòu)建方法及系統(tǒng)。


      背景技術(shù):

      1、預(yù)訓(xùn)練語言模型都是先在大量的公共數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后在特定領(lǐng)域的私有數(shù)據(jù)集上進(jìn)行微調(diào),在很多場景下都展示了巨大的潛力。但是由于參數(shù)規(guī)模巨大,直接微調(diào)這些預(yù)訓(xùn)練模型會帶來高昂的計算開銷,lora低秩自適應(yīng)技術(shù)作為一種參數(shù)高效的微調(diào)方法能夠在微調(diào)一小部分參數(shù)的情況下提供與全部參數(shù)微調(diào)類似的性能。但是lora也需要收集豐富的數(shù)據(jù)用于微調(diào),無疑會帶來隱私風(fēng)險。聯(lián)邦低秩自適應(yīng)微調(diào)允許多個客戶端在不暴露隱私數(shù)據(jù)的前提下,在下游任務(wù)上協(xié)同微調(diào)預(yù)訓(xùn)練語言模型,但是這個范式存在兩個內(nèi)在的問題。一方面由于客戶端能力和數(shù)據(jù)分布的異構(gòu)性,會導(dǎo)致模型性能的下降,同時也顯著降低了模型微調(diào)的效率。另一方面由于共享的模型梯度,發(fā)送模型參數(shù)或者模型梯度給參數(shù)服務(wù)器用于聚合會帶來隱私泄漏的風(fēng)險,這在很多工作中被證明是不安全的。雖然差分隱私提供了一種解決隱私泄露問題的方法,通過對傳輸?shù)膮?shù)或者模型更新添加隨機噪聲,從理論上確保敵手無法執(zhí)行推理攻擊,但是這種隱私保護(hù)技術(shù)由于隨機噪聲會犧牲模型性能,而且在低秩自適應(yīng)微調(diào)下會更加顯著,微調(diào)一小部分參數(shù),對模型的更改是非常敏感的,會放大差分隱私噪聲的在準(zhǔn)確率上的負(fù)面影響。

      2、現(xiàn)在的差分隱私保護(hù)的聯(lián)邦微調(diào)還存在幾個挑戰(zhàn)。低秩自適應(yīng)參數(shù)的值是各不相同的,表現(xiàn)在對添加的噪聲擁有不同的敏感度。而現(xiàn)有的差分隱私方案是為所有的參數(shù)添加統(tǒng)一的噪聲水平。其次,本地模型是在非獨立同分布數(shù)據(jù)集上訓(xùn)練得到的,不同等級的低秩自適應(yīng)矩陣在非獨立同分布數(shù)據(jù)集上表現(xiàn)也是不同的,低等級模型由于較低的泛化能力會更加敏感。此外,現(xiàn)有的聯(lián)邦低秩自適應(yīng)微調(diào)都是直接將參數(shù)高效的方法與聯(lián)邦學(xué)習(xí)結(jié)合,而忽略了實際中客戶端有限且異構(gòu)的能力?,F(xiàn)有的方法通過奇異值分解等實現(xiàn)異構(gòu)低秩自適應(yīng)矩陣的聚合,但是性能方面仍有提升空間。因此,如何在異構(gòu)低秩自適應(yīng)矩陣的聯(lián)邦微調(diào)下,設(shè)計一個靈活且高效的差分隱私保護(hù)方案,為客戶端分配適應(yīng)資源能力的秩的自適應(yīng)矩陣是亟待解決的挑戰(zhàn)。


      技術(shù)實現(xiàn)思路

      1、為了解決低秩自適應(yīng)矩陣噪聲敏感以及客戶端異質(zhì)性的技術(shù)問題,本發(fā)明提供一種敏感度感知的差分隱私實現(xiàn)一個靈活、高效的異構(gòu)聯(lián)邦微調(diào)系統(tǒng)構(gòu)建方法及系統(tǒng)。

      2、本發(fā)明的方法采用的技術(shù)方案是:一種基于差分隱私的異構(gòu)聯(lián)邦微調(diào)語言模型構(gòu)建方法;所述異構(gòu)聯(lián)邦微調(diào)語言模型,其客戶端本地模型通過訓(xùn)練獲得;訓(xùn)練過程具體包括以下步驟:

      3、步驟1:參數(shù)服務(wù)器依據(jù)每個客戶端的資源能力將所有參與的n個客戶端聚類為c類,并為每一類分配對應(yīng)等級(等級對應(yīng)的就是秩的大小)的低秩自適應(yīng)矩陣lora;

      4、步驟2:在客戶端本地模型每輪訓(xùn)練開始時,參數(shù)服務(wù)器為每個類c選擇參與的客戶端集合pc和一個聚類客戶端pc,每個被選中的客戶端多次訓(xùn)練并更新本地模型;被選擇到的客戶端參與本輪的訓(xùn)練,在自己的私有數(shù)據(jù)集上,對本地模型執(zhí)行低秩自適應(yīng)矩陣lora微調(diào),只更新本地的可訓(xùn)練參數(shù)wi,凍結(jié)預(yù)訓(xùn)練權(quán)重w0;

      5、步驟3:被選中的客戶端完成本地模型更新后,執(zhí)行隱私微調(diào),為本地模型更新添加參數(shù)敏感的差分隱私噪聲和正則項優(yōu)化,并將隱私保護(hù)的隱私模型更新發(fā)送給聚類客戶端pc;

      6、步驟4:類內(nèi)執(zhí)行同構(gòu)聚合;對于每個類c,每個類的聚類客戶端pc收到同一類中其他客戶端i∈pc的隱私模型更新其中僅包括lora可訓(xùn)練參數(shù),不包括凍結(jié)部分的參數(shù),并執(zhí)行fedavg的聯(lián)邦平均聚合,得到聚類模型wc=[ac,bc];其中,ac,bc分別為聚合后的wc對應(yīng)的兩個低秩矩陣(lora是兩個低秩矩陣a和b的組合);

      7、步驟5:類間執(zhí)行異構(gòu)聚合;每個類的聚類客戶端在公共數(shù)據(jù)集上計算知識fc,并將知識發(fā)送給參數(shù)服務(wù)器,用于后續(xù)的異構(gòu)lora聚合;

      8、步驟6:參數(shù)服務(wù)器對于收到的各個類的知識,首先通過知識之間的相關(guān)性計算聚合權(quán)重ωc,然后執(zhí)行權(quán)重聚合,得到全局知識f;

      9、步驟7:參數(shù)服務(wù)器從聚合后的知識中,選擇每個公共數(shù)據(jù)集樣本的置信度大于閾值φ的知識fs,并發(fā)送給各個聚類客戶端;

      10、步驟8:各個聚類客戶端pc,c≤c對于收到的全局被選擇的知識fs,在公共數(shù)據(jù)集上面執(zhí)行知識蒸餾過程,更新聚類模型wc,并下發(fā)給類內(nèi)的各個客戶端pc;

      11、步驟9:每個類內(nèi)的客戶端收到聚類客戶端pc下發(fā)的聚類模型wc參數(shù),更新自己本地的lora模塊wi以及本地模型wi=w0+bcac。

      12、作為優(yōu)選,步驟1中,參數(shù)服務(wù)器先對所有的客戶端執(zhí)行資源感知的聚類,定義資源特征向量χi=[χi,1,χi,2,χi,3,χi,4],其中χi,1代表數(shù)據(jù)量特征,χi,2代表計算能力特征,χi3代表存儲能力特征,χi,4代表通信能力特征;對于不同量綱的特征,先通過min-max歸一化,然后隨機選擇c個聚類中心,并計算每個客戶端i與聚類中心c的模糊隸屬度表示客戶端屬于聚類c的概率,d(χi,vc)代表客戶端i距離聚類中心vc的距離,m為大于1的模糊因子;然后客戶端i被分配到隸屬度最高的聚類中;接著對每個類更新聚類中心c,并重復(fù)上述過程,直到聚類中心不再變化。

      13、作為優(yōu)選,步驟3中,客戶端在本地微調(diào)結(jié)束之后,對本地模型更新δwi的每一個元素添加敏感度感知的差分隱私,每個值添加的都是與自己敏感度相關(guān)的噪聲大小。

      14、作為優(yōu)選,所述敏感度感知的差分隱私,是通過先估計每個客戶端i的第m個本地模型更新對應(yīng)的裁剪閾值si,m,然后估計該模型更新對應(yīng)的敏感度并計算每個模型更新對應(yīng)的噪聲水平其中m是參數(shù)更新的數(shù)量,σ*是整體的噪聲水平。

      15、作為優(yōu)選,步驟6中,參數(shù)服務(wù)器計算每個聚類客戶端發(fā)送的知識的相關(guān)性,此處以皮爾遜相關(guān)系數(shù)作為權(quán)重度量指標(biāo),并以所有聚類的平均知識作為參考,相關(guān)性越大,賦予的聚合權(quán)重越大。

      16、作為優(yōu)選,所述皮爾遜相關(guān)系數(shù)其中,是從公共數(shù)據(jù)集的樣本計算得到的知識,是所有樣本的平均聚類知識、表示對于樣本所有c個聚類的平均知識;所有類的平均知識并以相關(guān)系數(shù)ρc通過歸一化作為知識聚合的權(quán)重;之后,參數(shù)服務(wù)器對相關(guān)系數(shù)進(jìn)行歸一化,計算得到權(quán)重ωc后,對知識執(zhí)行權(quán)重聚合

      17、作為優(yōu)選,步驟7中,參數(shù)服務(wù)器計算聚合后的每個知識的置信度其中表示樣本對應(yīng)的知識、表示概率歸一化后的概率分布;當(dāng)置信度φi>φ,其中φ為置信度閾值。

      18、作為優(yōu)選,步驟8中,每個聚類客戶端pc收到參數(shù)服務(wù)器反饋的選擇后的全局知識fs,執(zhí)行知識蒸餾過程,損失函數(shù)是其中是fs對應(yīng)的被選中的數(shù)據(jù)集,ξ是調(diào)節(jié)因子,τ是蒸餾溫度,σ是激活函數(shù);表示樣本,表示樣本,wc是聚類c的模型參數(shù),是交叉熵?fù)p失函數(shù),是服務(wù)器選擇的全局知識,是聚類c在樣本上的知識,dkl()表示kl散度損失函數(shù)。

      19、本發(fā)明的系統(tǒng)采用的技術(shù)方案是:一種基于差分隱私的異構(gòu)聯(lián)邦微調(diào)語言模型構(gòu)建系統(tǒng),包括:

      20、一個或多個處理器;

      21、存儲裝置,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器實現(xiàn)所述的基于差分隱私的異構(gòu)聯(lián)邦微調(diào)語言模型構(gòu)建方法。

      22、相對于現(xiàn)有技術(shù),本發(fā)明的有益效果是:

      23、(1)本發(fā)明提供了高效的差分隱私異構(gòu)聯(lián)邦微調(diào)語言模型(dp-fedlora)。現(xiàn)有技術(shù)未充分考慮客戶端資源能力的不同,忽略了低秩自適應(yīng)矩陣對噪聲敏感度的不同以及非獨立同分布的數(shù)據(jù)對于聯(lián)邦微調(diào)性能的影響。本發(fā)明首次集成了資源感知的客戶端聚類,類內(nèi)隱私聯(lián)邦微調(diào)以及類間的異構(gòu)低秩自適應(yīng)矩陣的聚合,解決了聯(lián)邦設(shè)備實際使用時由于噪聲和異構(gòu)性帶來的挑戰(zhàn),兼得隱私保護(hù)和高效性的特點。

      24、(2)本發(fā)明提出的高效的、資源感知(resource-aware)的聚類方法,參數(shù)服務(wù)器根據(jù)客戶端不同的資源水平進(jìn)行聚類,將具有相似資源水平的客戶端分配到同一類?,F(xiàn)有技術(shù)通常是根據(jù)數(shù)據(jù)相似度聚類,但是很難在評估數(shù)據(jù)相似度的同時保證數(shù)據(jù)的隱私性。而且數(shù)據(jù)相似度聚類只考慮了數(shù)據(jù)這一個資源特征,忽略了在聯(lián)邦微調(diào)過程中的計算能力、通信帶寬、存儲能力這些重要的資源特征。本發(fā)明綜合考慮了不同的資源屬性,組合為資源向量。在聚類時,使用模糊隸屬度(fuzzy?membership)來近似客戶端屬于當(dāng)前類的概率,并將客戶端分配到概率最高的類中,這樣的聚類方法在效率上也比通常計算余弦相似度高很多。

      25、(3)本發(fā)明提出的類內(nèi)正則項優(yōu)化(regularization?optimization)來限制本地模型更新方向和步長不要偏離當(dāng)前類的模型太多,來緩解由于非獨立同分布數(shù)據(jù)導(dǎo)致的聚合偏差,在本地模型計算損失函數(shù)時結(jié)合正則項的限制。同時,本發(fā)明的正則項是基于每個類的秩大小的,對于較小的秩,低秩自適應(yīng)矩陣的泛化能力較差,需要正則項更多的限制。對于較大的秩,可以減小正則項的限制,模型受到非獨立同分布數(shù)據(jù)的影響較小。緩解了非獨立同分布下性能下降的問題,并為不同秩添加秩相關(guān)的正則項限制,充分發(fā)揮較高秩模型的泛化能力。

      26、(4)本發(fā)明為每一個模型更新添加敏感度感知(sensitive-aware)的噪聲,通過過往的梯度更新來估計本地模型更新,作為模型更新的裁剪閾值的估計值,并計算每個模型更新對應(yīng)的噪聲水平,自適應(yīng)噪聲添加在標(biāo)量粒度。本發(fā)明為每個模型更新的元素添加敏感度感知的噪聲,敏感度較小的模型更新不需要過多的噪聲保護(hù),而為敏感度較大的模型更新添加較大的噪聲來保護(hù)隱私,本發(fā)明的噪聲分配方案能夠在相同的隱私保護(hù)力度下,極大緩解噪聲帶來的模型性能的下降,尤其是低秩自適應(yīng)矩陣。

      27、(5)本發(fā)明為異構(gòu)低秩自適應(yīng)矩陣的聚合提供了知識蒸餾(knowledgedistillation)的方法,現(xiàn)有的技術(shù)通常通過剪切或者填充來解決異構(gòu)聚合的問題,但是無法充分發(fā)揮異構(gòu)聚合的性能。本發(fā)明是通過在類間傳輸不同類的知識,參數(shù)服務(wù)器對知識進(jìn)行權(quán)重聚合,計算知識之間的皮爾遜相關(guān)系數(shù),作為知識的聚合權(quán)重,相關(guān)性越高的知識具有較高的一致性,賦予更高的聚合權(quán)重。聚合后的知識通過知識選擇方案,選擇一些質(zhì)量較高的知識,即置信度較大的知識,全局客戶端對于這類知識具有較高的信心能夠預(yù)測準(zhǔn)確,將選擇后的知識反饋給每個類用于知識蒸餾的過程。此外,知識蒸餾作為一種平滑的技術(shù)也能夠較好的處理數(shù)據(jù)非獨立同分布問題,在類間不同模型結(jié)構(gòu)的客戶端、聚類客戶端、參數(shù)服務(wù)器之間實現(xiàn)了高效的知識遷移并提供了較高的異構(gòu)聚合性能。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1