混合專家模型的優(yōu)化方法及裝置與流程

文檔序號：40392604發(fā)布日期：2024-12-20 12:15閱讀：3來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請的實(shí)施例涉及人工智能，尤其涉及一種混合專家模型的優(yōu)化方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲介質(zhì)。

背景技術(shù)：

1、模型優(yōu)化技術(shù)已廣泛應(yīng)用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域中，旨在提高模型運(yùn)行性能、降低模型計(jì)算成本。隨著數(shù)據(jù)規(guī)模和模型復(fù)雜性的不斷增加，模型優(yōu)化技術(shù)日趨重要。

2、在模型優(yōu)化的過程中，相關(guān)技術(shù)大多基于反向傳播算法對每個參數(shù)進(jìn)行更新，以提升機(jī)器學(xué)習(xí)模型性能。上述方式存在模型優(yōu)化針對性差、耗時長以及效率低的問題。

技術(shù)實(shí)現(xiàn)思路

1、根據(jù)本申請的實(shí)施例，提供一種混合模型的優(yōu)化方案，能夠?qū)崿F(xiàn)靶向優(yōu)化模型以提高模型運(yùn)行性能，縮短模型優(yōu)化耗時，提高模型優(yōu)化效率。

2、在本申請的第一方面，提供了一種混合專家模型的優(yōu)化方法。該方法包括：獲取模型的運(yùn)行參數(shù)信息；所述運(yùn)行參數(shù)信息包括：參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息；根據(jù)運(yùn)行參數(shù)信息，執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型。

3、在一些可行的實(shí)現(xiàn)方式中，模型包括：transformer架構(gòu)，在參數(shù)輸入數(shù)量大于預(yù)設(shè)數(shù)量閾值的情況下，根據(jù)運(yùn)行參數(shù)信息，執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型包括：替換模型原始編碼器層中的ffn層為moe層，生成目標(biāo)編碼器層以優(yōu)化模型，其中，目標(biāo)編碼器層包括：至少一個門控網(wǎng)絡(luò)和對應(yīng)的多個專家。

4、在一些可行的實(shí)現(xiàn)方式中，在內(nèi)存占用大于預(yù)設(shè)內(nèi)存占用閾值的情況下，根據(jù)運(yùn)行參數(shù)信息，執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型包括：構(gòu)建權(quán)重改動量；在模型的原始權(quán)重小于預(yù)設(shè)權(quán)重閾值的情況下，根據(jù)權(quán)重改動量和原始權(quán)重，生成目標(biāo)權(quán)重；根據(jù)目標(biāo)權(quán)重，訓(xùn)練模型以使內(nèi)存占用小于或等于預(yù)設(shè)內(nèi)存占用閾值。

5、在一些可行的實(shí)現(xiàn)方式中，在模型的原始權(quán)重大于或等于預(yù)設(shè)權(quán)重閾值的情況下，上述方法還包括：拆解權(quán)重改動量，生成第一矩陣和第二矩陣，其中，第一矩陣和第二矩陣的乘積等于原始權(quán)重；固定原始權(quán)重，訓(xùn)練第一矩陣的各項(xiàng)參數(shù)和/或第二矩陣的各項(xiàng)參數(shù)以使內(nèi)存占用小于或等于預(yù)設(shè)內(nèi)存占用閾值。

6、在一些可行的實(shí)現(xiàn)方式中，根據(jù)運(yùn)行參數(shù)信息，執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型還包括：根據(jù)每個專家所接收的token數(shù)，確定負(fù)載分布均衡度；在負(fù)載分布均衡度小于預(yù)設(shè)負(fù)載分布均衡度閾值的情況下，構(gòu)建損失函數(shù)以使負(fù)載分布均衡度大于或等于預(yù)設(shè)負(fù)載分布均衡度閾值；損失函數(shù)根據(jù)以下公式確定：

7、；

8、其中，為損失函數(shù)，為平衡因子，為專家個數(shù)，為分配給專家的token比例,?為在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)的均值；

9、分配給專家的token比例根據(jù)以下公式確定：

10、；

11、其中，為分配給專家的token比例, ?為分配到專家的token個數(shù)，為數(shù)據(jù)樣本barch中的token總數(shù)；

12、在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)的均值根據(jù)以下公式確定：

13、；

14、其中，為在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)的均值, ?為數(shù)據(jù)樣本barch中的token總數(shù), ?為在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)。

15、在一些可行的實(shí)現(xiàn)方式中，上述方法還包括：在門控網(wǎng)絡(luò)不可導(dǎo)的情況下，針對每個離散采樣數(shù)據(jù)生成對應(yīng)的gumbel噪音，以使數(shù)據(jù)采樣方式由離散采樣變更為連續(xù)采樣，其中，離散采樣的期望值與連續(xù)采樣的期望值相等；變更采樣函數(shù)為gumbel?softmax函數(shù)，以使門控網(wǎng)絡(luò)可導(dǎo)。

16、在一些可行的實(shí)現(xiàn)方式中，上述方法還包括：預(yù)熱模型至目標(biāo)輪數(shù)，以使模型習(xí)得目標(biāo)特征；拷貝模型的權(quán)重信息；拷貝預(yù)設(shè)次數(shù)ffn層，以作為多個專家，其中，預(yù)設(shè)次數(shù)等于多個專家的個數(shù)；對應(yīng)于多個專家，插入門控網(wǎng)絡(luò)；凍結(jié)其余參數(shù)，訓(xùn)練門控網(wǎng)絡(luò)和專家以優(yōu)化模型。

17、在本申請的第二方面，提供了一種混合專家模型的優(yōu)化裝置，包括：獲取單元，用于獲取模型的運(yùn)行參數(shù)信息，其中，運(yùn)行參數(shù)信息包括：參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息；執(zhí)行單元，用于根據(jù)運(yùn)行參數(shù)信息，執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型。

18、在本申請的第三方面，提供了一種電子設(shè)備。該電子設(shè)備包括：存儲器和處理器，所述存儲器上存儲有計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如本申請的第一方面的方法。

19、在本申請的第四方面，提供了一種計(jì)算機(jī)可讀存儲介質(zhì)，其上存儲有計(jì)算機(jī)程序，所述程序被處理器執(zhí)行時實(shí)現(xiàn)如本申請的第一方面的方法。

20、本申請實(shí)施例提供的混合專家模型的優(yōu)化方法，通過獲取模型的運(yùn)行參數(shù)信息，其中，運(yùn)行參數(shù)信息包括：參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息；根據(jù)運(yùn)行參數(shù)信息，執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型，可以實(shí)現(xiàn)靶向優(yōu)化模型以提高模型運(yùn)行性能，縮短模型優(yōu)化耗時，提高模型優(yōu)化效率。??應(yīng)當(dāng)理解，
技術(shù)實(shí)現(xiàn)要素：
部分中所描述的內(nèi)容并非旨在限定本申請的實(shí)施例的關(guān)鍵或重要特征，亦非用于限制本申請的范圍。本申請的其它特征將通過以下的描述變得容易理解。

技術(shù)特征：

1.一種混合專家模型的優(yōu)化方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述模型包括：transformer架構(gòu)，在參數(shù)輸入數(shù)量大于預(yù)設(shè)數(shù)量閾值的情況下，所述根據(jù)所述運(yùn)行參數(shù)信息，執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化所述模型包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，在內(nèi)存占用大于預(yù)設(shè)內(nèi)存占用閾值的情況下，所述根據(jù)所述運(yùn)行參數(shù)信息，執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化所述模型包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，在所述模型的原始權(quán)重大于或等于預(yù)設(shè)權(quán)重閾值的情況下，所述方法還包括：

5.根據(jù)權(quán)利要求2所述的方法，其特征在于，根據(jù)所述運(yùn)行參數(shù)信息，執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化所述模型還包括：

6.根據(jù)權(quán)利要求2所述的方法，其特征在于，還包括：

7.根據(jù)權(quán)利要求2至6中任一項(xiàng)所述的方法，其特征在于，還包括：

8.一種混合模型優(yōu)化裝置，其特征在于，包括：

9.一種電子設(shè)備，包括存儲器和處理器，所述存儲器上存儲有計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲介質(zhì)，其上存儲有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本申請的實(shí)施例提供了一種混合專家模型的優(yōu)化方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲介質(zhì)，涉及人工智能技術(shù)領(lǐng)域。其中，方法包括：獲取模型的運(yùn)行參數(shù)信息，其中，運(yùn)行參數(shù)信息包括：參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息；根據(jù)運(yùn)行參數(shù)信息，執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型。以此方式，可以實(shí)現(xiàn)靶向優(yōu)化模型以提高模型運(yùn)行性能，縮短模型優(yōu)化耗時，提高模型優(yōu)化效率。

技術(shù)研發(fā)人員：楊良志,白琳,趙興玉,唐麗萍,盧業(yè)波,鄒盼湘,李自然,袁忠升
受保護(hù)的技術(shù)使用者：彩訊科技股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊良志,白琳,趙興玉,唐麗萍,盧業(yè)波,鄒盼湘,李自然,袁忠升
技術(shù)所有人：彩訊科技股份有限公司
我是此專利的發(fā)明人

上一篇：一種粘毛器的制作方法
上一篇：一種內(nèi)外徑比較測量儀的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

混合專家模型的優(yōu)化方法及裝置與流程