本申請(qǐng)屬于計(jì)算機(jī),具體涉及一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、近年來(lái),隨著人工智能技術(shù)的發(fā)展,大規(guī)模預(yù)訓(xùn)練模型(簡(jiǎn)稱大模型)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音等領(lǐng)域取得了顯著進(jìn)展。
2、在對(duì)大模型進(jìn)行訓(xùn)練時(shí),通常是通過(guò)網(wǎng)絡(luò)將訓(xùn)練樣本數(shù)據(jù)從電子設(shè)備傳輸至云端或數(shù)據(jù)中心,在云端或數(shù)據(jù)中心對(duì)大模型進(jìn)行訓(xùn)練。
3、但是,這樣容易導(dǎo)致訓(xùn)練樣本數(shù)據(jù)在傳輸過(guò)程中泄露,數(shù)據(jù)安全性較差,無(wú)法滿足用戶對(duì)隱私性的需求,并且依賴于網(wǎng)絡(luò),在沒(méi)有網(wǎng)絡(luò)的情況下無(wú)法進(jìn)行大模型的訓(xùn)練。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例的目的是提供一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì),能夠通過(guò)第二存儲(chǔ)器對(duì)訓(xùn)練過(guò)程中的數(shù)據(jù)進(jìn)行存儲(chǔ),解決了通過(guò)電子設(shè)備訓(xùn)練大模型會(huì)存在的存儲(chǔ)空間不足的問(wèn)題,實(shí)現(xiàn)了通過(guò)電子設(shè)備對(duì)大模型進(jìn)行訓(xùn)練,無(wú)需通過(guò)網(wǎng)絡(luò)將訓(xùn)練樣本傳輸至云端或數(shù)據(jù)中心,避免了訓(xùn)練樣本數(shù)據(jù)在傳輸過(guò)程中泄露,提高了數(shù)據(jù)安全性,能夠滿足用戶對(duì)隱私性的需求,并且不依賴于網(wǎng)絡(luò),在沒(méi)有網(wǎng)絡(luò)的情況下也可以進(jìn)行大模型的訓(xùn)練。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練方法,應(yīng)用于電子設(shè)備,電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器,gpu與第一存儲(chǔ)器電連接,第一存儲(chǔ)器與第二存儲(chǔ)器電連接,該方法包括:
3、通過(guò)gpu將低秩適配器lora參數(shù)嵌入到預(yù)訓(xùn)練的大模型中,得到待訓(xùn)練模型;
4、在前向傳播過(guò)程中,通過(guò)gpu基于訓(xùn)練樣本計(jì)算待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活;
5、通過(guò)第一存儲(chǔ)器將gpu中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中;
6、在反向傳播過(guò)程中,通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至gpu;
7、通過(guò)gpu基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型。
8、第二方面,本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練裝置,應(yīng)用于電子設(shè)備,電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器,gpu與第一存儲(chǔ)器電連接,第一存儲(chǔ)器與第二存儲(chǔ)器電連接,該裝置包括:
9、嵌入模塊,用于通過(guò)gpu將低秩適配器lora參數(shù)嵌入到預(yù)訓(xùn)練的大模型中,得到待訓(xùn)練模型;
10、計(jì)算模塊,用于在前向傳播過(guò)程中,通過(guò)gpu基于訓(xùn)練樣本計(jì)算待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活;
11、第一存儲(chǔ)模塊,用于通過(guò)第一存儲(chǔ)器將gpu中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中;
12、發(fā)送模塊,用于在反向傳播過(guò)程中,通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至gpu;
13、訓(xùn)練模塊,用于通過(guò)gpu基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型。
14、第三方面,本申請(qǐng)實(shí)施例提供了一種電子設(shè)備,該電子設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)可在所述處理器上運(yùn)行的程序或指令,所述程序或指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。
15、第四方面,本申請(qǐng)實(shí)施例提供了一種可讀存儲(chǔ)介質(zhì),所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)程序或指令,所述程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的方法的步驟。
16、第五方面,本申請(qǐng)實(shí)施例提供了一種芯片,所述芯片包括處理器和通信接口,所述通信接口和所述處理器耦合,所述處理器用于運(yùn)行程序或指令,實(shí)現(xiàn)如第一方面所述的方法。
17、第六方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,該程序產(chǎn)品被存儲(chǔ)在存儲(chǔ)介質(zhì)中,該程序產(chǎn)品被至少一個(gè)處理器執(zhí)行以實(shí)現(xiàn)如第一方面所述的方法。
18、在本申請(qǐng)實(shí)施例中,電子設(shè)備包括gpu、第一存儲(chǔ)器和第二存儲(chǔ)器,能夠通過(guò)gpu將lora參數(shù)嵌入到預(yù)訓(xùn)練的大模型中,得到待訓(xùn)練模型;然后在前向傳播過(guò)程中,通過(guò)gpu基于訓(xùn)練樣本計(jì)算該待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活;通過(guò)第一存儲(chǔ)器將gpu中的網(wǎng)絡(luò)激活存儲(chǔ)至第二存儲(chǔ)器中,在反向傳播過(guò)程中,通過(guò)第一存儲(chǔ)器將第二存儲(chǔ)器中存儲(chǔ)的網(wǎng)絡(luò)激活發(fā)送至gpu;通過(guò)gpu基于網(wǎng)絡(luò)激活對(duì)待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型。這樣,通過(guò)第二存儲(chǔ)器對(duì)訓(xùn)練過(guò)程中的數(shù)據(jù)進(jìn)行存儲(chǔ),解決了通過(guò)電子設(shè)備訓(xùn)練大模型會(huì)存在的存儲(chǔ)空間不足的問(wèn)題,實(shí)現(xiàn)了通過(guò)電子設(shè)備對(duì)大模型進(jìn)行訓(xùn)練,無(wú)需通過(guò)網(wǎng)絡(luò)將訓(xùn)練樣本傳輸至云端或數(shù)據(jù)中心,避免了訓(xùn)練樣本數(shù)據(jù)在傳輸過(guò)程中泄露,提高了數(shù)據(jù)安全性,能夠滿足用戶對(duì)隱私性的需求,并且不依賴于網(wǎng)絡(luò),在沒(méi)有網(wǎng)絡(luò)的情況下也可以進(jìn)行大模型的訓(xùn)練。
1.一種模型訓(xùn)練方法,其特征在于,應(yīng)用于電子設(shè)備,所述電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器,所述gpu與所述第一存儲(chǔ)器電連接,所述第一存儲(chǔ)器與所述第二存儲(chǔ)器電連接,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待訓(xùn)練模型包括n個(gè)網(wǎng)絡(luò)層,n為正整數(shù),所述在前向傳播過(guò)程中,通過(guò)所述gpu基于訓(xùn)練樣本計(jì)算所述待訓(xùn)練模型中各網(wǎng)絡(luò)層的網(wǎng)絡(luò)激活,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過(guò)所述第一存儲(chǔ)器將所述gpu中的所述網(wǎng)絡(luò)激活存儲(chǔ)至所述第二存儲(chǔ)器中,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過(guò)所述gpu基于所述網(wǎng)絡(luò)激活對(duì)所述待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過(guò)所述gpu基于所述網(wǎng)絡(luò)激活,確定所述待訓(xùn)練模型中各網(wǎng)絡(luò)層的梯度,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述在反向傳播過(guò)程中,通過(guò)所述第一存儲(chǔ)器將所述第二存儲(chǔ)器中存儲(chǔ)的所述網(wǎng)絡(luò)激活發(fā)送至所述gpu,包括:
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過(guò)所述gpu基于所述梯度對(duì)所述lora參數(shù)進(jìn)行更新,包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述通過(guò)所述gpu基于所述網(wǎng)絡(luò)激活對(duì)所述待訓(xùn)練模型中的lora參數(shù)進(jìn)行訓(xùn)練,得到訓(xùn)練后的大模型之后,所述方法還包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述電子設(shè)備還包括中央處理器cpu,所述cpu位于目標(biāo)芯片上,所述目標(biāo)芯片與所述電子設(shè)備的主處理器芯片不同;
10.一種模型訓(xùn)練裝置,其特征在于,應(yīng)用于電子設(shè)備,所述電子設(shè)備包括圖形處理器gpu、第一存儲(chǔ)器和第二存儲(chǔ)器,所述gpu與所述第一存儲(chǔ)器電連接,所述第一存儲(chǔ)器與所述第二存儲(chǔ)器電連接,所述裝置包括:
11.一種電子設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)可在所述處理器上運(yùn)行的程序或指令,所述程序或指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-9任一項(xiàng)所述的模型訓(xùn)練方法的步驟。
12.一種可讀存儲(chǔ)介質(zhì),其特征在于,所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)程序或指令,所述程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-9任一項(xiàng)所述的模型訓(xùn)練方法的步驟。