国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      混合專家模型的優(yōu)化方法及裝置與流程

      文檔序號:40392604發(fā)布日期:2024-12-20 12:15閱讀:3來源:國知局
      混合專家模型的優(yōu)化方法及裝置與流程

      本申請的實(shí)施例涉及人工智能,尤其涉及一種混合專家模型的優(yōu)化方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲介質(zhì)。


      背景技術(shù):

      1、模型優(yōu)化技術(shù)已廣泛應(yīng)用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域中,旨在提高模型運(yùn)行性能、降低模型計(jì)算成本。隨著數(shù)據(jù)規(guī)模和模型復(fù)雜性的不斷增加,模型優(yōu)化技術(shù)日趨重要。

      2、在模型優(yōu)化的過程中,相關(guān)技術(shù)大多基于反向傳播算法對每個參數(shù)進(jìn)行更新,以提升機(jī)器學(xué)習(xí)模型性能。上述方式存在模型優(yōu)化針對性差、耗時長以及效率低的問題。


      技術(shù)實(shí)現(xiàn)思路

      1、根據(jù)本申請的實(shí)施例,提供一種混合模型的優(yōu)化方案,能夠?qū)崿F(xiàn)靶向優(yōu)化模型以提高模型運(yùn)行性能,縮短模型優(yōu)化耗時,提高模型優(yōu)化效率。

      2、在本申請的第一方面,提供了一種混合專家模型的優(yōu)化方法。該方法包括:獲取模型的運(yùn)行參數(shù)信息;所述運(yùn)行參數(shù)信息包括:參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息;根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型。

      3、在一些可行的實(shí)現(xiàn)方式中,模型包括:transformer架構(gòu),在參數(shù)輸入數(shù)量大于預(yù)設(shè)數(shù)量閾值的情況下,根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型包括:替換模型原始編碼器層中的ffn層為moe層,生成目標(biāo)編碼器層以優(yōu)化模型,其中,目標(biāo)編碼器層包括:至少一個門控網(wǎng)絡(luò)和對應(yīng)的多個專家。

      4、在一些可行的實(shí)現(xiàn)方式中,在內(nèi)存占用大于預(yù)設(shè)內(nèi)存占用閾值的情況下,根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型包括:構(gòu)建權(quán)重改動量;在模型的原始權(quán)重小于預(yù)設(shè)權(quán)重閾值的情況下,根據(jù)權(quán)重改動量和原始權(quán)重,生成目標(biāo)權(quán)重;根據(jù)目標(biāo)權(quán)重,訓(xùn)練模型以使內(nèi)存占用小于或等于預(yù)設(shè)內(nèi)存占用閾值。

      5、在一些可行的實(shí)現(xiàn)方式中,在模型的原始權(quán)重大于或等于預(yù)設(shè)權(quán)重閾值的情況下,上述方法還包括:拆解權(quán)重改動量,生成第一矩陣和第二矩陣,其中,第一矩陣和第二矩陣的乘積等于原始權(quán)重;固定原始權(quán)重,訓(xùn)練第一矩陣的各項(xiàng)參數(shù)和/或第二矩陣的各項(xiàng)參數(shù)以使內(nèi)存占用小于或等于預(yù)設(shè)內(nèi)存占用閾值。

      6、在一些可行的實(shí)現(xiàn)方式中,根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型還包括:根據(jù)每個專家所接收的token數(shù),確定負(fù)載分布均衡度;在負(fù)載分布均衡度小于預(yù)設(shè)負(fù)載分布均衡度閾值的情況下,構(gòu)建損失函數(shù)以使負(fù)載分布均衡度大于或等于預(yù)設(shè)負(fù)載分布均衡度閾值;損失函數(shù)根據(jù)以下公式確定:

      7、;

      8、其中,為損失函數(shù),為平衡因子,為專家個數(shù),為分配給專家的token比例,?為在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)的均值;

      9、分配給專家的token比例根據(jù)以下公式確定:

      10、;

      11、其中,為分配給專家的token比例, ?為分配到專家的token個數(shù),為數(shù)據(jù)樣本barch中的token總數(shù);

      12、在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)的均值根據(jù)以下公式確定:

      13、;

      14、其中,為在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)的均值, ?為數(shù)據(jù)樣本barch中的token總數(shù), ?為在數(shù)據(jù)樣本barch中門控網(wǎng)絡(luò)分配給專家的路由系數(shù)。

      15、在一些可行的實(shí)現(xiàn)方式中,上述方法還包括:在門控網(wǎng)絡(luò)不可導(dǎo)的情況下,針對每個離散采樣數(shù)據(jù)生成對應(yīng)的gumbel噪音,以使數(shù)據(jù)采樣方式由離散采樣變更為連續(xù)采樣,其中,離散采樣的期望值與連續(xù)采樣的期望值相等;變更采樣函數(shù)為gumbel?softmax函數(shù),以使門控網(wǎng)絡(luò)可導(dǎo)。

      16、在一些可行的實(shí)現(xiàn)方式中,上述方法還包括:預(yù)熱模型至目標(biāo)輪數(shù),以使模型習(xí)得目標(biāo)特征;拷貝模型的權(quán)重信息;拷貝預(yù)設(shè)次數(shù)ffn層,以作為多個專家,其中,預(yù)設(shè)次數(shù)等于多個專家的個數(shù);對應(yīng)于多個專家,插入門控網(wǎng)絡(luò);凍結(jié)其余參數(shù),訓(xùn)練門控網(wǎng)絡(luò)和專家以優(yōu)化模型。

      17、在本申請的第二方面,提供了一種混合專家模型的優(yōu)化裝置,包括:獲取單元,用于獲取模型的運(yùn)行參數(shù)信息,其中,運(yùn)行參數(shù)信息包括:參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息;執(zhí)行單元,用于根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型。

      18、在本申請的第三方面,提供了一種電子設(shè)備。該電子設(shè)備包括:存儲器和處理器,所述存儲器上存儲有計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如本申請的第一方面的方法。

      19、在本申請的第四方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時實(shí)現(xiàn)如本申請的第一方面的方法。

      20、本申請實(shí)施例提供的混合專家模型的優(yōu)化方法,通過獲取模型的運(yùn)行參數(shù)信息,其中,運(yùn)行參數(shù)信息包括:參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息;根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型,可以實(shí)現(xiàn)靶向優(yōu)化模型以提高模型運(yùn)行性能,縮短模型優(yōu)化耗時,提高模型優(yōu)化效率。??應(yīng)當(dāng)理解,
      技術(shù)實(shí)現(xiàn)要素:
      部分中所描述的內(nèi)容并非旨在限定本申請的實(shí)施例的關(guān)鍵或重要特征,亦非用于限制本申請的范圍。本申請的其它特征將通過以下的描述變得容易理解。



      技術(shù)特征:

      1.一種混合專家模型的優(yōu)化方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述模型包括:transformer架構(gòu),在參數(shù)輸入數(shù)量大于預(yù)設(shè)數(shù)量閾值的情況下,所述根據(jù)所述運(yùn)行參數(shù)信息,執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化所述模型包括:

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在內(nèi)存占用大于預(yù)設(shè)內(nèi)存占用閾值的情況下,所述根據(jù)所述運(yùn)行參數(shù)信息,執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化所述模型包括:

      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述模型的原始權(quán)重大于或等于預(yù)設(shè)權(quán)重閾值的情況下,所述方法還包括:

      5.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述運(yùn)行參數(shù)信息,執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化所述模型還包括:

      6.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括:

      7.根據(jù)權(quán)利要求2至6中任一項(xiàng)所述的方法,其特征在于,還包括:

      8.一種混合模型優(yōu)化裝置,其特征在于,包括:

      9.一種電子設(shè)備,包括存儲器和處理器,所述存儲器上存儲有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的方法。

      10.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的方法。


      技術(shù)總結(jié)
      本申請的實(shí)施例提供了一種混合專家模型的優(yōu)化方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲介質(zhì),涉及人工智能技術(shù)領(lǐng)域。其中,方法包括:獲取模型的運(yùn)行參數(shù)信息,其中,運(yùn)行參數(shù)信息包括:參數(shù)輸入數(shù)量信息、內(nèi)存占用信息、以及負(fù)載分布信息;根據(jù)運(yùn)行參數(shù)信息,執(zhí)行對應(yīng)的模型優(yōu)化策略以優(yōu)化模型。以此方式,可以實(shí)現(xiàn)靶向優(yōu)化模型以提高模型運(yùn)行性能,縮短模型優(yōu)化耗時,提高模型優(yōu)化效率。

      技術(shù)研發(fā)人員:楊良志,白琳,趙興玉,唐麗萍,盧業(yè)波,鄒盼湘,李自然,袁忠升
      受保護(hù)的技術(shù)使用者:彩訊科技股份有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1