模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號(hào)：40320243發(fā)布日期：2024-12-18 12:57閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請(qǐng)屬于計(jì)算機(jī)，具體涉及一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、近年來(lái)，隨著人工智能技術(shù)的發(fā)展，大規(guī)模預(yù)訓(xùn)練模型(簡(jiǎn)稱大模型)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音等領(lǐng)域取得了顯著進(jìn)展。

2、在對(duì)大模型進(jìn)行訓(xùn)練時(shí)，通常是通過(guò)網(wǎng)絡(luò)將訓(xùn)練樣本數(shù)據(jù)從電子設(shè)備傳輸至云端或數(shù)據(jù)中心，在云端或數(shù)據(jù)中心對(duì)大模型進(jìn)行訓(xùn)練。

3、但是，這樣容易導(dǎo)致訓(xùn)練樣本數(shù)據(jù)在傳輸過(guò)程中泄露，數(shù)據(jù)安全性較差，無(wú)法滿足用戶對(duì)隱私性的需求，并且依賴于網(wǎng)絡(luò)，在沒(méi)有網(wǎng)絡(luò)的情況下無(wú)法進(jìn)行大模型的訓(xùn)練。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例的目的是提供一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)，能夠通過(guò)第二存儲(chǔ)器對(duì)訓(xùn)練過(guò)程中的數(shù)據(jù)進(jìn)行存儲(chǔ)，解決了通過(guò)電子設(shè)備訓(xùn)練大模型會(huì)存在的存儲(chǔ)空間不足的問(wèn)題，實(shí)現(xiàn)了通過(guò)電子設(shè)備對(duì)大模型進(jìn)行訓(xùn)練，無(wú)需通過(guò)網(wǎng)絡(luò)將訓(xùn)練樣本傳輸至云端或數(shù)據(jù)中心，避免了訓(xùn)練樣本數(shù)據(jù)在傳輸過(guò)程中泄露，提高了數(shù)據(jù)安全性，能夠滿足用戶對(duì)隱私性的需求，并且不依賴于網(wǎng)絡(luò)，在沒(méi)有網(wǎng)絡(luò)的情況下也可以進(jìn)行大模型的訓(xùn)練。

2、第一方面，本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練方法，應(yīng)用于電子設(shè)備，電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器，gpu與第一存儲(chǔ)器電連接，第一存儲(chǔ)器與第二存儲(chǔ)器電連接，該方法包括：

3、通過(guò)gpu將低秩適配器lora參數(shù)嵌入到預(yù)訓(xùn)練的大模型中，得到待訓(xùn)練模型；

4、在前向傳播過(guò)程中，通過(guò)gpu基于訓(xùn)練樣本計(jì)算待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活；

5、通過(guò)第一存儲(chǔ)器將gpu中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中；

6、在反向傳播過(guò)程中，通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至gpu；

7、通過(guò)gpu基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練，得到訓(xùn)練后的大模型。

8、第二方面，本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練裝置，應(yīng)用于電子設(shè)備，電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器，gpu與第一存儲(chǔ)器電連接，第一存儲(chǔ)器與第二存儲(chǔ)器電連接，該裝置包括：

9、嵌入模塊，用于通過(guò)gpu將低秩適配器lora參數(shù)嵌入到預(yù)訓(xùn)練的大模型中，得到待訓(xùn)練模型；

10、計(jì)算模塊，用于在前向傳播過(guò)程中，通過(guò)gpu基于訓(xùn)練樣本計(jì)算待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活；

11、第一存儲(chǔ)模塊，用于通過(guò)第一存儲(chǔ)器將gpu中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中；

12、發(fā)送模塊，用于在反向傳播過(guò)程中，通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至gpu；

13、訓(xùn)練模塊，用于通過(guò)gpu基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練，得到訓(xùn)練后的大模型。

14、第三方面，本申請(qǐng)實(shí)施例提供了一種電子設(shè)備，該電子設(shè)備包括處理器和存儲(chǔ)器，所述存儲(chǔ)器存儲(chǔ)可在所述處理器上運(yùn)行的程序或指令，所述程序或指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。

15、第四方面，本申請(qǐng)實(shí)施例提供了一種可讀存儲(chǔ)介質(zhì)，所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)程序或指令，所述程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。

16、第五方面，本申請(qǐng)實(shí)施例提供了一種芯片，所述芯片包括處理器和通信接口，所述通信接口和所述處理器耦合，所述處理器用于運(yùn)行程序或指令，實(shí)現(xiàn)如第一方面所述的方法。

17、第六方面，本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品，該程序產(chǎn)品被存儲(chǔ)在存儲(chǔ)介質(zhì)中，該程序產(chǎn)品被至少一個(gè)處理器執(zhí)行以實(shí)現(xiàn)如第一方面所述的方法。

18、在本申請(qǐng)實(shí)施例中，電子設(shè)備包括gpu、第一存儲(chǔ)器和第二存儲(chǔ)器，能夠通過(guò)gpu將lora參數(shù)嵌入到預(yù)訓(xùn)練的大模型中，得到待訓(xùn)練模型；然后在前向傳播過(guò)程中，通過(guò)gpu基于訓(xùn)練樣本計(jì)算該待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活；通過(guò)第一存儲(chǔ)器將gpu中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中，在反向傳播過(guò)程中，通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至gpu；通過(guò)gpu基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練，得到訓(xùn)練后的大模型。這樣，通過(guò)第二存儲(chǔ)器對(duì)訓(xùn)練過(guò)程中的數(shù)據(jù)進(jìn)行存儲(chǔ)，解決了通過(guò)電子設(shè)備訓(xùn)練大模型會(huì)存在的存儲(chǔ)空間不足的問(wèn)題，實(shí)現(xiàn)了通過(guò)電子設(shè)備對(duì)大模型進(jìn)行訓(xùn)練，無(wú)需通過(guò)網(wǎng)絡(luò)將訓(xùn)練樣本傳輸至云端或數(shù)據(jù)中心，避免了訓(xùn)練樣本數(shù)據(jù)在傳輸過(guò)程中泄露，提高了數(shù)據(jù)安全性，能夠滿足用戶對(duì)隱私性的需求，并且不依賴于網(wǎng)絡(luò)，在沒(méi)有網(wǎng)絡(luò)的情況下也可以進(jìn)行大模型的訓(xùn)練。

技術(shù)特征：

1.一種模型訓(xùn)練方法，其特征在于，應(yīng)用于電子設(shè)備，所述電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器，所述gpu與所述第一存儲(chǔ)器電連接，所述第一存儲(chǔ)器與所述第二存儲(chǔ)器電連接，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述待訓(xùn)練模型包括n個(gè)網(wǎng)絡(luò)層，n為正整數(shù)，所述在前向傳播過(guò)程中，通過(guò)所述gpu基于訓(xùn)練樣本計(jì)算所述待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過(guò)所述第一存儲(chǔ)器將所述gpu中的所述網(wǎng)絡(luò)激活存儲(chǔ)至所述第二存儲(chǔ)器中，包括：

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過(guò)所述gpu基于所述網(wǎng)絡(luò)激活對(duì)所述待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練，得到訓(xùn)練后的大模型，包括：

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述通過(guò)所述gpu基于所述網(wǎng)絡(luò)激活，確定所述待訓(xùn)練模型中各網(wǎng)絡(luò)層的梯度，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述在反向傳播過(guò)程中，通過(guò)所述第一存儲(chǔ)器將所述第二存儲(chǔ)器中存儲(chǔ)的所述網(wǎng)絡(luò)激活發(fā)送至所述gpu，包括：

7.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述通過(guò)所述gpu基于所述梯度對(duì)所述lora參數(shù)進(jìn)行更新，包括：

8.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述通過(guò)所述gpu基于所述網(wǎng)絡(luò)激活對(duì)所述待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練，得到訓(xùn)練后的大模型之后，所述方法還包括：

9.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述電子設(shè)備還包括中央處理器cpu，所述cpu位于目標(biāo)芯片上，所述目標(biāo)芯片與所述電子設(shè)備的主處理器芯片不同；

10.一種模型訓(xùn)練裝置，其特征在于，應(yīng)用于電子設(shè)備，所述電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器，所述gpu與所述第一存儲(chǔ)器電連接，所述第一存儲(chǔ)器與所述第二存儲(chǔ)器電連接，所述裝置包括：

11.一種電子設(shè)備，其特征在于，包括處理器和存儲(chǔ)器，所述存儲(chǔ)器存儲(chǔ)可在所述處理器上運(yùn)行的程序或指令，所述程序或指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-9任一項(xiàng)所述的模型訓(xùn)練方法的步驟。

12.一種可讀存儲(chǔ)介質(zhì)，其特征在于，所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)程序或指令，所述程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-9任一項(xiàng)所述的模型訓(xùn)練方法的步驟。

技術(shù)總結(jié)
本申請(qǐng)公開(kāi)了一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)，屬于計(jì)算機(jī)技術(shù)領(lǐng)域。該模型訓(xùn)練方法應(yīng)用于電子設(shè)備，電子設(shè)備包括圖形處理器GPU、第一存儲(chǔ)器和第二存儲(chǔ)器，GPU與第一存儲(chǔ)器電連接，第一存儲(chǔ)器與第二存儲(chǔ)器電連接，該模型訓(xùn)練方法包括：通過(guò)GPU將低秩適配器LoRA參數(shù)嵌入到預(yù)訓(xùn)練的大模型中，得到待訓(xùn)練模型；在前向傳播過(guò)程中，通過(guò)GPU基于訓(xùn)練樣本計(jì)算待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活；通過(guò)第一存儲(chǔ)器將GPU中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中；在反向傳播過(guò)程中，通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至GPU；通過(guò)GPU基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的LoRA參數(shù)進(jìn)行訓(xùn)練，得到訓(xùn)練后的大模型。

技術(shù)研發(fā)人員：任彥豪,饒生龍
受保護(hù)的技術(shù)使用者：維沃移動(dòng)通信有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/17

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：任彥豪,饒生龍
技術(shù)所有人：維沃移動(dòng)通信有限公司
我是此專利的發(fā)明人

上一篇：一種用于海綿鈦產(chǎn)品包裝桶的氣門嘴的制作方法
上一篇：一種用于海綿鈦產(chǎn)品的儲(chǔ)料裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)與流程

模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)與流程