国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)與流程

      文檔序號(hào):40320243發(fā)布日期:2024-12-18 12:57閱讀:5來(lái)源:國(guó)知局
      模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)與流程

      本申請(qǐng)屬于計(jì)算機(jī),具體涉及一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。


      背景技術(shù):

      1、近年來(lái),隨著人工智能技術(shù)的發(fā)展,大規(guī)模預(yù)訓(xùn)練模型(簡(jiǎn)稱大模型)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音等領(lǐng)域取得了顯著進(jìn)展。

      2、在對(duì)大模型進(jìn)行訓(xùn)練時(shí),通常是通過(guò)網(wǎng)絡(luò)將訓(xùn)練樣本數(shù)據(jù)從電子設(shè)備傳輸至云端或數(shù)據(jù)中心,在云端或數(shù)據(jù)中心對(duì)大模型進(jìn)行訓(xùn)練。

      3、但是,這樣容易導(dǎo)致訓(xùn)練樣本數(shù)據(jù)在傳輸過(guò)程中泄露,數(shù)據(jù)安全性較差,無(wú)法滿足用戶對(duì)隱私性的需求,并且依賴于網(wǎng)絡(luò),在沒(méi)有網(wǎng)絡(luò)的情況下無(wú)法進(jìn)行大模型的訓(xùn)練。


      技術(shù)實(shí)現(xiàn)思路

      1、本申請(qǐng)實(shí)施例的目的是提供一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì),能夠通過(guò)第二存儲(chǔ)器對(duì)訓(xùn)練過(guò)程中的數(shù)據(jù)進(jìn)行存儲(chǔ),解決了通過(guò)電子設(shè)備訓(xùn)練大模型會(huì)存在的存儲(chǔ)空間不足的問(wèn)題,實(shí)現(xiàn)了通過(guò)電子設(shè)備對(duì)大模型進(jìn)行訓(xùn)練,無(wú)需通過(guò)網(wǎng)絡(luò)將訓(xùn)練樣本傳輸至云端或數(shù)據(jù)中心,避免了訓(xùn)練樣本數(shù)據(jù)在傳輸過(guò)程中泄露,提高了數(shù)據(jù)安全性,能夠滿足用戶對(duì)隱私性的需求,并且不依賴于網(wǎng)絡(luò),在沒(méi)有網(wǎng)絡(luò)的情況下也可以進(jìn)行大模型的訓(xùn)練。

      2、第一方面,本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練方法,應(yīng)用于電子設(shè)備,電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器,gpu與第一存儲(chǔ)器電連接,第一存儲(chǔ)器與第二存儲(chǔ)器電連接,該方法包括:

      3、通過(guò)gpu將低秩適配器lora參數(shù)嵌入到預(yù)訓(xùn)練的大模型中,得到待訓(xùn)練模型;

      4、在前向傳播過(guò)程中,通過(guò)gpu基于訓(xùn)練樣本計(jì)算待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活;

      5、通過(guò)第一存儲(chǔ)器將gpu中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中;

      6、在反向傳播過(guò)程中,通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至gpu;

      7、通過(guò)gpu基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型。

      8、第二方面,本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練裝置,應(yīng)用于電子設(shè)備,電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器,gpu與第一存儲(chǔ)器電連接,第一存儲(chǔ)器與第二存儲(chǔ)器電連接,該裝置包括:

      9、嵌入模塊,用于通過(guò)gpu將低秩適配器lora參數(shù)嵌入到預(yù)訓(xùn)練的大模型中,得到待訓(xùn)練模型;

      10、計(jì)算模塊,用于在前向傳播過(guò)程中,通過(guò)gpu基于訓(xùn)練樣本計(jì)算待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活;

      11、第一存儲(chǔ)模塊,用于通過(guò)第一存儲(chǔ)器將gpu中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中;

      12、發(fā)送模塊,用于在反向傳播過(guò)程中,通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至gpu;

      13、訓(xùn)練模塊,用于通過(guò)gpu基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型。

      14、第三方面,本申請(qǐng)實(shí)施例提供了一種電子設(shè)備,該電子設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)可在所述處理器上運(yùn)行的程序或指令,所述程序或指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。

      15、第四方面,本申請(qǐng)實(shí)施例提供了一種可讀存儲(chǔ)介質(zhì),所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)程序或指令,所述程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。

      16、第五方面,本申請(qǐng)實(shí)施例提供了一種芯片,所述芯片包括處理器和通信接口,所述通信接口和所述處理器耦合,所述處理器用于運(yùn)行程序或指令,實(shí)現(xiàn)如第一方面所述的方法。

      17、第六方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,該程序產(chǎn)品被存儲(chǔ)在存儲(chǔ)介質(zhì)中,該程序產(chǎn)品被至少一個(gè)處理器執(zhí)行以實(shí)現(xiàn)如第一方面所述的方法。

      18、在本申請(qǐng)實(shí)施例中,電子設(shè)備包括gpu、第一存儲(chǔ)器和第二存儲(chǔ)器,能夠通過(guò)gpu將lora參數(shù)嵌入到預(yù)訓(xùn)練的大模型中,得到待訓(xùn)練模型;然后在前向傳播過(guò)程中,通過(guò)gpu基于訓(xùn)練樣本計(jì)算該待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活;通過(guò)第一存儲(chǔ)器將gpu中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中,在反向傳播過(guò)程中,通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至gpu;通過(guò)gpu基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型。這樣,通過(guò)第二存儲(chǔ)器對(duì)訓(xùn)練過(guò)程中的數(shù)據(jù)進(jìn)行存儲(chǔ),解決了通過(guò)電子設(shè)備訓(xùn)練大模型會(huì)存在的存儲(chǔ)空間不足的問(wèn)題,實(shí)現(xiàn)了通過(guò)電子設(shè)備對(duì)大模型進(jìn)行訓(xùn)練,無(wú)需通過(guò)網(wǎng)絡(luò)將訓(xùn)練樣本傳輸至云端或數(shù)據(jù)中心,避免了訓(xùn)練樣本數(shù)據(jù)在傳輸過(guò)程中泄露,提高了數(shù)據(jù)安全性,能夠滿足用戶對(duì)隱私性的需求,并且不依賴于網(wǎng)絡(luò),在沒(méi)有網(wǎng)絡(luò)的情況下也可以進(jìn)行大模型的訓(xùn)練。



      技術(shù)特征:

      1.一種模型訓(xùn)練方法,其特征在于,應(yīng)用于電子設(shè)備,所述電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器,所述gpu與所述第一存儲(chǔ)器電連接,所述第一存儲(chǔ)器與所述第二存儲(chǔ)器電連接,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待訓(xùn)練模型包括n個(gè)網(wǎng)絡(luò)層,n為正整數(shù),所述在前向傳播過(guò)程中,通過(guò)所述gpu基于訓(xùn)練樣本計(jì)算所述待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活,包括:

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過(guò)所述第一存儲(chǔ)器將所述gpu中的所述網(wǎng)絡(luò)激活存儲(chǔ)至所述第二存儲(chǔ)器中,包括:

      4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過(guò)所述gpu基于所述網(wǎng)絡(luò)激活對(duì)所述待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型,包括:

      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過(guò)所述gpu基于所述網(wǎng)絡(luò)激活,確定所述待訓(xùn)練模型中各網(wǎng)絡(luò)層的梯度,包括:

      6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述在反向傳播過(guò)程中,通過(guò)所述第一存儲(chǔ)器將所述第二存儲(chǔ)器中存儲(chǔ)的所述網(wǎng)絡(luò)激活發(fā)送至所述gpu,包括:

      7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過(guò)所述gpu基于所述梯度對(duì)所述lora參數(shù)進(jìn)行更新,包括:

      8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述通過(guò)所述gpu基于所述網(wǎng)絡(luò)激活對(duì)所述待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型之后,所述方法還包括:

      9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述電子設(shè)備還包括中央處理器cpu,所述cpu位于目標(biāo)芯片上,所述目標(biāo)芯片與所述電子設(shè)備的主處理器芯片不同;

      10.一種模型訓(xùn)練裝置,其特征在于,應(yīng)用于電子設(shè)備,所述電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器,所述gpu與所述第一存儲(chǔ)器電連接,所述第一存儲(chǔ)器與所述第二存儲(chǔ)器電連接,所述裝置包括:

      11.一種電子設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)可在所述處理器上運(yùn)行的程序或指令,所述程序或指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-9任一項(xiàng)所述的模型訓(xùn)練方法的步驟。

      12.一種可讀存儲(chǔ)介質(zhì),其特征在于,所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)程序或指令,所述程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-9任一項(xiàng)所述的模型訓(xùn)練方法的步驟。


      技術(shù)總結(jié)
      本申請(qǐng)公開(kāi)了一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì),屬于計(jì)算機(jī)技術(shù)領(lǐng)域。該模型訓(xùn)練方法應(yīng)用于電子設(shè)備,電子設(shè)備包括圖形處理器GPU、第一存儲(chǔ)器和第二存儲(chǔ)器,GPU與第一存儲(chǔ)器電連接,第一存儲(chǔ)器與第二存儲(chǔ)器電連接,該模型訓(xùn)練方法包括:通過(guò)GPU將低秩適配器LoRA參數(shù)嵌入到預(yù)訓(xùn)練的大模型中,得到待訓(xùn)練模型;在前向傳播過(guò)程中,通過(guò)GPU基于訓(xùn)練樣本計(jì)算待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活;通過(guò)第一存儲(chǔ)器將GPU中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中;在反向傳播過(guò)程中,通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至GPU;通過(guò)GPU基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的LoRA參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型。

      技術(shù)研發(fā)人員:任彥豪,饒生龍
      受保護(hù)的技術(shù)使用者:維沃移動(dòng)通信有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/17
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1