模型訓(xùn)練方法、語(yǔ)音識(shí)別方法及相關(guān)裝置與流程

文檔序號(hào)：40440369發(fā)布日期：2024-12-24 15:14閱讀：18來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

模型訓(xùn)練方法、語(yǔ)音識(shí)別方法及相關(guān)裝置與流程

本公開(kāi)涉及數(shù)據(jù)處理，尤其涉及人工智能、計(jì)算機(jī)視覺(jué)、語(yǔ)音技術(shù)、智能搜索等。

背景技術(shù)：

1、語(yǔ)音識(shí)別是人工智能領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù)，它使得機(jī)器能夠理解和處理人類(lèi)的語(yǔ)音，將其轉(zhuǎn)換為文本或執(zhí)行特定的命令。這項(xiàng)技術(shù)跨越了信號(hào)處理、模式識(shí)別、概率論、信息論、語(yǔ)言學(xué)等多個(gè)學(xué)科領(lǐng)域。

2、近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的突破性進(jìn)展，使得這項(xiàng)技術(shù)得以在多個(gè)行業(yè)中得到實(shí)際應(yīng)用，包括但不限于工業(yè)自動(dòng)化、家用電器、汽車(chē)、電子消費(fèi)品等。

技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)提供了一種模型訓(xùn)練方法，語(yǔ)音識(shí)別方法及相關(guān)裝置。

2、根據(jù)本公開(kāi)的一方面，提供了一種模型訓(xùn)練方法，包括：

3、輸入口型樣本序列到口型處理模型，以得到基于口型樣本序列預(yù)測(cè)的第一詞典編碼預(yù)測(cè)結(jié)果；

4、基于第一詞典編碼預(yù)測(cè)結(jié)果和第二詞典編碼預(yù)測(cè)結(jié)果，確定損失值；第二詞典編碼預(yù)測(cè)結(jié)果基于口型樣本序列對(duì)應(yīng)的目標(biāo)文本確定；

5、基于損失值調(diào)整口型處理模型的模型參數(shù)，以得到口型解讀模型；其中，口型解讀模型用于輔助進(jìn)行語(yǔ)音識(shí)別。

6、根據(jù)本公開(kāi)的另一方面，提供了一種語(yǔ)音識(shí)別方法，應(yīng)用于前述方法訓(xùn)練得到的口型解讀模型，包括：

7、獲取目標(biāo)對(duì)象的目標(biāo)語(yǔ)音以及與目標(biāo)語(yǔ)音對(duì)應(yīng)的口型圖像序列；

8、基于口型解讀模型處理口型圖像序列，得到第三詞典編碼預(yù)測(cè)結(jié)果；以及，

9、將目標(biāo)語(yǔ)音輸入目標(biāo)語(yǔ)音識(shí)別網(wǎng)絡(luò)，得到第四詞典編碼預(yù)測(cè)結(jié)果；

10、融合第三詞典編碼預(yù)測(cè)結(jié)果和第四詞典編碼預(yù)測(cè)結(jié)果，得到融合編碼預(yù)測(cè)結(jié)果；

11、基于詞典解析融合編碼預(yù)測(cè)結(jié)果，得到目標(biāo)語(yǔ)音對(duì)應(yīng)的文本信息。

12、根據(jù)本公開(kāi)的另一方面，提供了一種模型訓(xùn)練裝置，包括：

13、輸入模塊，用于輸入口型樣本序列到口型處理模型，以得到基于口型樣本序列預(yù)測(cè)的第一詞典編碼預(yù)測(cè)結(jié)果；

14、確定模塊，用于基于第一詞典編碼預(yù)測(cè)結(jié)果和第二詞典編碼預(yù)測(cè)結(jié)果，確定損失值；第二詞典編碼預(yù)測(cè)結(jié)果基于口型樣本序列對(duì)應(yīng)的目標(biāo)文本確定；

15、優(yōu)化模塊，用于基于損失值調(diào)整口型處理模型的模型參數(shù)，以得到口型解讀模型；其中，口型解讀模型用于輔助進(jìn)行語(yǔ)音識(shí)別。

16、根據(jù)本公開(kāi)的另一方面，提供了一種語(yǔ)音識(shí)別裝置，應(yīng)用前述模型訓(xùn)練裝置訓(xùn)練得到的口型解讀模型，包括：

17、獲取模塊，用于獲取目標(biāo)對(duì)象的目標(biāo)語(yǔ)音以及與目標(biāo)語(yǔ)音對(duì)應(yīng)的口型圖像序列；

18、第一預(yù)測(cè)模塊，用于基于口型解讀模型處理口型圖像序列，得到第三詞典編碼預(yù)測(cè)結(jié)果；以及，

19、第二預(yù)測(cè)模塊，用于將目標(biāo)語(yǔ)音輸入目標(biāo)語(yǔ)音識(shí)別網(wǎng)絡(luò)，得到第四詞典編碼預(yù)測(cè)結(jié)果；

20、融合模塊，用于融合第三詞典編碼預(yù)測(cè)結(jié)果和第四詞典編碼預(yù)測(cè)結(jié)果，得到融合編碼預(yù)測(cè)結(jié)果；

21、識(shí)別模塊，用于基于詞典解析融合編碼預(yù)測(cè)結(jié)果，得到目標(biāo)語(yǔ)音對(duì)應(yīng)的文本信息。

22、根據(jù)本公開(kāi)的另一方面，提供了一種電子設(shè)備，包括：

23、至少一個(gè)處理器；以及

24、與該至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，

25、該存儲(chǔ)器存儲(chǔ)有可被該至少一個(gè)處理器執(zhí)行的指令，該指令被該至少一個(gè)處理器執(zhí)行，以使該至少一個(gè)處理器能夠執(zhí)行本公開(kāi)實(shí)施例中任一的方法。

26、根據(jù)本公開(kāi)的另一方面，提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，該計(jì)算機(jī)指令用于使該計(jì)算機(jī)執(zhí)行根據(jù)本公開(kāi)實(shí)施例中任一的方法。

27、根據(jù)本公開(kāi)的另一方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，該計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本公開(kāi)實(shí)施例中任一的方法。

28、根據(jù)本公開(kāi)的另一方面，提供了一種車(chē)輛，包括前述的電子設(shè)備。

29、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開(kāi)的實(shí)施例的關(guān)鍵或重要特征，也不用于限制本公開(kāi)的范圍。本公開(kāi)的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。

技術(shù)特征：

1.一種模型訓(xùn)練方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述口型處理模型包括口型編碼器，口型解碼器以及連接在所述口型解碼器之后的詞分類(lèi)器；

3.根據(jù)權(quán)利要求1或2所述的方法，其中，所述基于所述第一詞典編碼預(yù)測(cè)結(jié)果和第二詞典編碼預(yù)測(cè)結(jié)果，確定損失值，包括：

4.根據(jù)權(quán)利要求3所述的方法，其中，所述參考損失包括以下中的至少一種：

5.根據(jù)權(quán)利要求4所述的方法，其中，確定所述第一損失，包括：

6.根據(jù)權(quán)利要求4所述的方法，其中，確定所述第二損失，包括：

7.根據(jù)權(quán)利要求6所述的方法，其中，所述音素識(shí)別網(wǎng)絡(luò)包括音素級(jí)回歸網(wǎng)絡(luò)和音素分類(lèi)器；

8.根據(jù)權(quán)利要求3所述的方法，其中，所述參考損失和所述預(yù)測(cè)損失的權(quán)重通過(guò)訓(xùn)練所述口型處理模型得到。

9.根據(jù)權(quán)利要求1-8中任一項(xiàng)所述的方法，其中，在詞典中具有新增詞匯的情況下，在所述口型解讀模型的模型參數(shù)的基礎(chǔ)上繼續(xù)優(yōu)化所述口型解讀模型，以使所述口型解讀模型適用于所述新增詞匯。

10.一種語(yǔ)音識(shí)別方法，應(yīng)用于權(quán)利要求1-9中任一項(xiàng)所述的方法訓(xùn)練得到的口型解讀模型，包括：

11.根據(jù)權(quán)利要求10所述的方法，其中，所述融合所述第三詞典編碼預(yù)測(cè)結(jié)果和所述第四詞典編碼預(yù)測(cè)結(jié)果，得到融合編碼預(yù)測(cè)結(jié)果，包括：

12.根據(jù)權(quán)利要求10所述的方法，其中，所述融合所述第三詞典編碼預(yù)測(cè)結(jié)果和所述第四詞典編碼預(yù)測(cè)結(jié)果，得到融合編碼預(yù)測(cè)結(jié)果，包括：

13.根據(jù)權(quán)利要求10所述的方法，其中，所述獲取目標(biāo)對(duì)象的目標(biāo)語(yǔ)音以及與所述目標(biāo)語(yǔ)音對(duì)應(yīng)的口型圖像序列，包括：

14.根據(jù)權(quán)利要求10所述的方法，其中，所述基于所述口型解讀模型處理所述口型圖像序列，得到第三詞典編碼預(yù)測(cè)結(jié)果，包括：

15.一種模型訓(xùn)練裝置，包括：

16.根據(jù)權(quán)利要求15所述的裝置，其中，所述口型處理模型包括口型編碼器，口型解碼器以及連接在所述口型解碼器之后的詞分類(lèi)器；

17.根據(jù)權(quán)利要求15或16所述的裝置，其中，所述確定模塊，包括：

18.根據(jù)權(quán)利要求17所述的裝置，其中，所述參考損失包括以下中的至少一種：

19.根據(jù)權(quán)利要求18所述的裝置，其中，所述確定模塊，具體用于：

20.根據(jù)權(quán)利要求18所述的裝置，其中，所述確定模塊，具體用于：

21.根據(jù)權(quán)利要求20所述的裝置，其中，所述音素識(shí)別網(wǎng)絡(luò)包括音素級(jí)回歸網(wǎng)絡(luò)和音素分類(lèi)器；

22.根據(jù)權(quán)利要求17所述的裝置，其中，所述參考損失和所述預(yù)測(cè)損失的權(quán)重通過(guò)訓(xùn)練所述口型處理模型得到。

23.根據(jù)權(quán)利要求15-22中任一項(xiàng)所述的裝置，還包括優(yōu)化單元，用于：在詞典中具有新增詞匯的情況下，在所述口型解讀模型的模型參數(shù)的基礎(chǔ)上繼續(xù)優(yōu)化所述口型解讀模型，以使所述口型解讀模型適用于所述新增詞匯。

24.一種語(yǔ)音識(shí)別裝置，應(yīng)用于權(quán)利要求15-23中任一項(xiàng)所述的裝置訓(xùn)練得到的口型解讀模型，包括：

25.根據(jù)權(quán)利要求24所述的裝置，其中，所述融合模塊，包括：

26.根據(jù)權(quán)利要求24所述的裝置，其中，所述融合模塊，包括：

27.根據(jù)權(quán)利要求24所述的裝置，其中，所述獲取模塊，包括：

28.根據(jù)權(quán)利要求24所述的裝置，其中，所述第一預(yù)測(cè)模塊，包括：

29.一種電子設(shè)備，包括：

30.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-14中任一項(xiàng)所述的方法。

31.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-14中任一項(xiàng)所述的方法。

32.一種車(chē)輛，包括權(quán)利要求29所述的電子設(shè)備。

技術(shù)總結(jié)
本公開(kāi)提供了模型訓(xùn)練方法、語(yǔ)音識(shí)別方法及相關(guān)裝置，涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，尤其涉及人工智能、計(jì)算機(jī)視覺(jué)、語(yǔ)音技術(shù)、智能搜索等技術(shù)領(lǐng)域。具體實(shí)現(xiàn)方案為：輸入口型樣本序列到口型處理模型，以得到基于口型樣本序列預(yù)測(cè)的第一詞典編碼預(yù)測(cè)結(jié)果；基于第一詞典編碼預(yù)測(cè)結(jié)果和第二詞典編碼預(yù)測(cè)結(jié)果，確定損失值；第二詞典編碼預(yù)測(cè)結(jié)果基于口型樣本序列對(duì)應(yīng)的目標(biāo)文本確定；基于損失值調(diào)整口型處理模型的模型參數(shù)，以得到口型解讀模型；其中，該口型解讀模型用于輔助進(jìn)行語(yǔ)音識(shí)別。該方法訓(xùn)練得到的口型解讀模型能夠適配任何的語(yǔ)音識(shí)別網(wǎng)絡(luò)，可實(shí)現(xiàn)即插即用。

技術(shù)研發(fā)人員：艾羽豐
受保護(hù)的技術(shù)使用者：阿波羅智聯(lián)（北京）科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：艾羽豐
技術(shù)所有人：阿波羅智聯(lián)（北京）科技有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種流化床工作狀態(tài)下的取料器
上一篇：一種用于鋼制螺母拉伸試驗(yàn)的檢測(cè)治具的制作方法

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音識(shí)別模型訓(xùn)練相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

模型訓(xùn)練方法、語(yǔ)音識(shí)別方法及相關(guān)裝置與流程