国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法和系統(tǒng)與流程

      文檔序號:40358533發(fā)布日期:2024-12-18 13:36閱讀:5來源:國知局
      基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法和系統(tǒng)與流程

      本發(fā)明涉及聯(lián)邦學(xué)習(xí)領(lǐng)域,具體而言,涉及一種基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法和系統(tǒng)。


      背景技術(shù):

      1、伴隨著大模型的出現(xiàn)與逐漸成熟,大模型對于更大規(guī)模訓(xùn)練數(shù)據(jù)的依賴以及數(shù)據(jù)隱私催生了一個新的問題:即如何在不侵犯數(shù)據(jù)隱私法律條款的基礎(chǔ)上,利用私人領(lǐng)域的孤立數(shù)據(jù)聯(lián)合訓(xùn)練一個大規(guī)模模型。而一種基于聯(lián)邦學(xué)習(xí)的大模型的訓(xùn)練架構(gòu)與方法應(yīng)運而生,解決分布式的大模型訓(xùn)練問題。聯(lián)邦學(xué)習(xí)通過分布式的方式訓(xùn)練模型,不需要將數(shù)據(jù)集中到一個中心位置,從而有效地保護了用戶的隱私。而知識蒸餾則通過將復(fù)雜模型的知識傳遞給較小模型,實現(xiàn)了模型的輕量化和高效推理。在邊緣計算場景中,結(jié)合聯(lián)邦學(xué)習(xí)和知識蒸餾技術(shù),可以在保障數(shù)據(jù)隱私的前提下,提升模型在邊緣設(shè)備上的性能,使得智能應(yīng)用更加高效和便捷。聯(lián)邦知識蒸餾是一種結(jié)合聯(lián)邦學(xué)習(xí)和知識蒸餾的先進技術(shù),通過在分布式環(huán)境中協(xié)作訓(xùn)練模型來提升整體性能和準確性。在這種框架下,不同的設(shè)備和節(jié)點可以共享它們的局部模型知識,而無需直接共享原始數(shù)據(jù),從而保護數(shù)據(jù)隱私。同時,通過知識蒸餾技術(shù),將復(fù)雜模型的知識傳遞給更輕量的模型,優(yōu)化模型的推理效率和資源消耗。這種方法特別適用于對計算效率要求高的場景,如醫(yī)療健康和金融行業(yè),實現(xiàn)高效且準確的智能應(yīng)用。

      2、在實現(xiàn)本發(fā)明的過程中,申請人發(fā)現(xiàn):傳統(tǒng)的知識蒸餾策略是由一個經(jīng)過訓(xùn)練的大模型來將知識傳授給一個或未經(jīng)過訓(xùn)練的小模型中,往往忽略了具備個性化數(shù)據(jù)的小模型對大模型的貢獻。這些傳統(tǒng)策略無法讓大模型在某些垂直領(lǐng)域的特定數(shù)據(jù)集上充分學(xué)習(xí),導(dǎo)致性能和個性化的用戶體驗不理想。此前的研究仍存在一個明顯的限制,大多數(shù)研究都局限于為同一個架構(gòu)的模型進行聯(lián)邦知識蒸餾,并未考慮計算資源受限且異構(gòu)的客戶端設(shè)備之間的協(xié)作訓(xùn)練。

      3、因此,如何提升服務(wù)器端大參數(shù)模型的訓(xùn)練效率以及性能表象成為需要解決的技術(shù)問題。


      技術(shù)實現(xiàn)思路

      1、本發(fā)明旨在至少解決現(xiàn)有技術(shù)或相關(guān)技術(shù)中存在的技術(shù)問題之一,公開了一種基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法和系統(tǒng),通過多個小參數(shù)模型對大參數(shù)模型進行知識傳遞,能夠減少網(wǎng)絡(luò)資源消耗,提高準確度,降低訓(xùn)練輪次以及提升用戶體驗。

      2、術(shù)語解釋:聯(lián)邦學(xué)習(xí)(federated?learning)是一種分布式機器學(xué)習(xí)技術(shù),它允許多個數(shù)據(jù)擁有方在不共享數(shù)據(jù)的情況下建立機器學(xué)習(xí)模型。聯(lián)邦學(xué)習(xí)的目標是在保證數(shù)據(jù)隱私安全及合法合規(guī)的基礎(chǔ)上,實現(xiàn)共同建模,提升?ai?模型的效果。知識蒸餾(knowledgedistillation)是一種模型壓縮技術(shù),它通過訓(xùn)練一個小型的神經(jīng)網(wǎng)絡(luò)(稱為“學(xué)生模型”)來模仿一個大型的、預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)(稱為“教師模型”)。這種方法可以看作是知識從教師模型向?qū)W生模型的轉(zhuǎn)移,因此得名“知識蒸餾”。本發(fā)明的第一方面公開了一種基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法,包括:服務(wù)器向客戶本地的客戶端下發(fā)小參數(shù)模型,以便客戶端使用私有數(shù)據(jù)集對小參數(shù)模型的權(quán)重參數(shù)進行更新,得到客戶端模型;客戶端模型使用公共數(shù)據(jù)集輸出客戶端模型軟邏輯,并將客戶端模型軟邏輯發(fā)送至服務(wù)器;服務(wù)器的大參數(shù)模型使用公共數(shù)據(jù)集輸出服務(wù)器模型軟邏輯;根據(jù)服務(wù)器模型軟邏輯與多個客戶端模型軟邏輯間的相關(guān)性以及每個客戶端模型對公共數(shù)據(jù)集的準確率來計算每一個客戶端的權(quán)重;根據(jù)客戶端權(quán)重與客戶端模型軟邏輯計算加權(quán)客戶軟邏輯;使用服務(wù)器模型軟邏輯與加權(quán)客戶軟邏輯進行知識蒸餾,以對服務(wù)器大參數(shù)模型的權(quán)重參數(shù)進行更新。

      3、在該技術(shù)方案中,公開了一種多個客戶端小參數(shù)模型將知識傳遞給單個服務(wù)器大參數(shù)模型的聯(lián)邦知識蒸餾方法,本發(fā)明將此技術(shù)框架定義為反轉(zhuǎn)知識蒸餾。由于客戶計算資源的限制,服務(wù)器向客戶端下發(fā)的是大參數(shù)模型的壓縮版本,即小參數(shù)模型??蛻艚邮軄碜苑?wù)器的小參數(shù)模型并使用私有數(shù)據(jù)集對其進行訓(xùn)練,客戶端模型軟邏輯輸出是使用訓(xùn)練后客戶端模型對公共圖像數(shù)據(jù)集輸出一個軟邏輯,客戶權(quán)重計算是計算每一個客戶端在聯(lián)邦知識蒸餾的過程中所占到的權(quán)重,客戶的權(quán)重之和為1,服務(wù)器模型知識蒸餾是指服務(wù)器獲得客戶端加權(quán)軟邏輯和服務(wù)器軟邏輯,對服務(wù)器模型進行知識蒸餾過程對服務(wù)器模型進行更新。

      4、根據(jù)本發(fā)明公開的基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法,優(yōu)選地,知識蒸餾具體包括:計算服務(wù)器模型軟邏輯與加權(quán)客戶軟邏輯間的蒸餾損失;蒸餾損失與服務(wù)器模型的任務(wù)損失進行加權(quán)求和,得到服務(wù)器模型總損失;根據(jù)服務(wù)器模型總損失對服務(wù)器模型進行反向傳播,從而依照客戶端模型更新的方式來對服務(wù)器模型進行更新。服務(wù)器模型的任務(wù)損失是指服務(wù)器模型針對數(shù)據(jù)集輸出自己的預(yù)測與數(shù)據(jù)集的真實預(yù)測之間的差距,通常使用交叉熵損失函數(shù)進行計算。根據(jù)本發(fā)明公開的基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法,優(yōu)選地,小參數(shù)模型是由服務(wù)器的大參數(shù)模型壓縮而得。

      5、根據(jù)本發(fā)明公開的基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法,優(yōu)選地,公共數(shù)據(jù)集由各個客戶端所提供的數(shù)據(jù)組成。

      6、根據(jù)本發(fā)明公開的基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法,優(yōu)選地,客戶端模型軟邏輯具體包括:使用softmax歸一化函數(shù)作為客戶模型的軟邏輯輸出函數(shù)。

      7、根據(jù)本發(fā)明公開的基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法,優(yōu)選地,相關(guān)性是指余弦距離。

      8、根據(jù)本發(fā)明公開的基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法,優(yōu)選地,服務(wù)器的大參數(shù)模型為resnet38模型,客戶端模型為resnet14模型。

      9、在該技術(shù)方案中,resnet(殘差網(wǎng)絡(luò))是由微軟研究院在2015年提出的深度學(xué)習(xí)模型,其核心思想是引入了殘差學(xué)習(xí)框架,通過跳躍連接(skip?connections)來解決深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問題。resnet模型的核心是resnet模型中特有的殘差塊(residual?blocks),resnet模型常見的有resnet-14、resnet-38、resnet-50等,其中14、38、50等數(shù)字代表了模型中殘差塊的數(shù)量,例如resnet-38包含了38個殘差塊,resnet-14包含了14個殘差塊。在resnet模型中,殘差塊分類兩類:basicblock和bottleblock,若resnet模型采用basicblock,則resnet模型中殘差塊basicblock的數(shù)量x應(yīng)滿足等式(x-2)%?6=0;若resnet模型采用bottleblock,則resnet模型中殘差塊bottleblock的數(shù)量x應(yīng)滿足等式(x-2)%?9=0。

      10、根據(jù)本發(fā)明公開的基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法,優(yōu)選地,客戶端為個人計算機或手持移動設(shè)備,服務(wù)器為基站或邊緣服務(wù)器。

      11、本發(fā)明的第二方面公開了一種基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾系統(tǒng),包括:存儲器,用于存儲程序指令;處理器,用于調(diào)用存儲器中存儲的程序指令以實現(xiàn)如上述任一技術(shù)方案的基于聯(lián)邦大模型的反轉(zhuǎn)知識蒸餾方法。

      12、本發(fā)明提供的技術(shù)方案的實際應(yīng)用場景:隨著人工智能技術(shù)的發(fā)展,多數(shù)攝像頭已具備了圖像識別功能。但某些情況下,攝像頭針對一些從未見過的物體無法做出有效識別。通過本發(fā)明提供的方法,對于某些從未見過的物體,只需部分攝像頭進行本地更新后來對一個服務(wù)器內(nèi)的模型進行蒸餾過程。這樣當某些攝像頭無法識別某些物體或有新接入攝像頭時,就可以向服務(wù)器發(fā)送請求來獲得新模型,而不需要經(jīng)過多次的本地更新,降低能源消耗的同時也可以降低攝像頭時延,提升表現(xiàn)。

      13、本發(fā)明的有益效果至少包括:本發(fā)明考慮到了傳統(tǒng)聯(lián)邦學(xué)習(xí)中模型聚合過程可能帶來的用戶隱私泄露問題,而刪去了模型聚合過程,提高了網(wǎng)絡(luò)資源的利用率。本發(fā)明提供的技術(shù)方案將聯(lián)邦學(xué)習(xí)與知識蒸餾聯(lián)合的概念擴展到了傳統(tǒng)網(wǎng)絡(luò)環(huán)境中,以一種獨特的多個小參數(shù)模型對單個大參數(shù)模型進行知識蒸餾的方法,為服務(wù)器內(nèi)大參數(shù)模型的更新與迭代提供了一種全新的方法,利用聯(lián)邦學(xué)習(xí)與知識蒸餾來處理服務(wù)器內(nèi)大參數(shù)模型對于多種數(shù)據(jù)類型的要求。能夠讓一個表現(xiàn)良好的模型在客戶本地運行的同時提升服務(wù)器模型在某些未知數(shù)據(jù)集上的性能,同時還可以通過減少服務(wù)器模型的訓(xùn)練輪次來節(jié)省服務(wù)資源的消耗。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1