1.一種模型訓(xùn)練方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,在根據(jù)所述訓(xùn)練請求獲取樣本數(shù)據(jù)之前,所述方法還包括:
3.如權(quán)利要求2所述的方法,其特征在于,所述目標模型的自注意力模塊包括:旋轉(zhuǎn)編碼模塊,鍵值重復(fù)模塊以及縮放點積注意力模塊,針對所述目標模型中的每個子層,該子層由輸出投影模塊,輸出層歸一化模塊,多層感知機模塊,輸入層歸一化模塊,查詢鍵值投影模塊,旋轉(zhuǎn)編碼模塊,鍵值重復(fù)模塊,縮放點積注意力模塊依次串聯(lián)構(gòu)成。
4.如權(quán)利要求1所述的方法,其特征在于,根據(jù)預(yù)設(shè)的數(shù)據(jù)并行維度和序列并行維度將所述樣本數(shù)據(jù)切分為多個子樣本,并將各子樣本分配到不同的圖形處理器gpu上,具體包括:
5.如權(quán)利要求4所述的方法,其特征在于,不同的第一計算組之間不進行數(shù)據(jù)通信,不同的第二計算組之間進行數(shù)據(jù)通信。
6.如權(quán)利要求1所述的方法,其特征在于,在確定所述目標模型中的每一個子層所對應(yīng)的激活值并存儲之前,所述方法還包括:
7.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述預(yù)測結(jié)果,確定所述目標模型的損失值,并根據(jù)所述損失值以及所述每個子層所對應(yīng)的激活值,對所述目標模型進行訓(xùn)練,具體包括:
8.如權(quán)利要求7所述的方法,其特征在于,所述方法還包括:
9.一種業(yè)務(wù)執(zhí)行方法,其特征在于,包括:
10.一種模型訓(xùn)練裝置,其特征在于,包括:
11.一種計算機可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述權(quán)利要求1~9任一項所述的方法。
12.一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)上述權(quán)利要求1~9任一項所述的方法。