語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備與流程

文檔序號(hào)：39342616發(fā)布日期：2024-09-10 12:02閱讀：63來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備與流程

本申請涉及人工智能，特別涉及一種語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備。

背景技術(shù)：

1、近年來，人工智能模型執(zhí)行各種任務(wù)的能力都取得了不同程度的提升。以語音識(shí)別任務(wù)為例，可以基于混合專家模型對語音序列進(jìn)行語音識(shí)別，該混合專家模型包括多個(gè)專家模型，在該混合專家模型進(jìn)行語音識(shí)別的過程中需要為該語音序列中的每個(gè)語音幀都執(zhí)行專家模型選擇操作以選擇合適的專家模型，這一過程會(huì)導(dǎo)致選擇專家模型的過程耗時(shí)長和計(jì)算量大，從而降低語音識(shí)別速度，增大了語音識(shí)別的性能消耗。

技術(shù)實(shí)現(xiàn)思路

1、本申請實(shí)施例提供了一種語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備，能夠通過執(zhí)行單次專家模型選擇操作一次性確定各個(gè)語音幀適配的專家模型，而且位于同一語音段中連續(xù)的語音幀可以使用相同的專家模型，從而使得專家模型的分配結(jié)果合理，降低專家模型選擇的耗時(shí)和計(jì)算量，不僅提升語音識(shí)別速度，也提升語音識(shí)別的準(zhǔn)確度。

2、根據(jù)本申請實(shí)施例的一個(gè)方面，提供了一種語音識(shí)別方法，所述方法包括：

3、獲取多個(gè)語音幀形成的目標(biāo)語音序列；

4、對所述目標(biāo)語音序列進(jìn)行特征提取，得到第一特征；

5、基于所述第一特征，對所述目標(biāo)語音序列中的語音幀進(jìn)行聚合，得到多個(gè)語音段和每一所述語音段對應(yīng)的專家標(biāo)識(shí)，每個(gè)所述語音段包括多個(gè)所述語音幀，所述專家標(biāo)識(shí)為執(zhí)行專家特征提取的專家模型所對應(yīng)的標(biāo)識(shí)；

6、針對每一所述語音段，基于所述語音段對應(yīng)的專家標(biāo)識(shí)指向的專家模型對所述第一特征進(jìn)行專家特征提取，得到所述語音段對應(yīng)的目標(biāo)專家特征；

7、融合各所述語音段分別對應(yīng)的目標(biāo)專家特征，得到所述目標(biāo)語音序列對應(yīng)的第二特征；

8、對所述第二特征進(jìn)行解碼，得到語音識(shí)別結(jié)果。

9、根據(jù)本申請實(shí)施例的一個(gè)方面，提供了一種語音識(shí)別裝置，所述裝置包括：

10、語音獲取模塊，用于獲取多個(gè)語音幀形成的目標(biāo)語音序列；

11、語音識(shí)別模塊，用于執(zhí)行下述操作：

12、對所述目標(biāo)語音序列進(jìn)行特征提取，得到第一特征；

13、基于所述第一特征，對所述目標(biāo)語音序列中的語音幀進(jìn)行聚合，得到多個(gè)語音段和每一所述語音段對應(yīng)的專家標(biāo)識(shí)，每個(gè)所述語音段包括多個(gè)所述語音幀，所述專家標(biāo)識(shí)為執(zhí)行專家特征提取的專家模型所對應(yīng)的標(biāo)識(shí)；

14、針對每一所述語音段，基于所述語音段對應(yīng)的專家標(biāo)識(shí)指向的專家模型對所述第一特征進(jìn)行專家特征提取，得到所述語音段對應(yīng)的目標(biāo)專家特征；

15、融合各所述語音段分別對應(yīng)的目標(biāo)專家特征，得到所述目標(biāo)語音序列對應(yīng)的第二特征；

16、對所述第二特征進(jìn)行解碼，得到語音識(shí)別結(jié)果。

17、根據(jù)本申請實(shí)施例的一個(gè)方面，提供了一種計(jì)算機(jī)設(shè)備，所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器，所述存儲(chǔ)器中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集，所述至少一條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執(zhí)行以實(shí)現(xiàn)上述語音識(shí)別方法。

18、根據(jù)本申請實(shí)施例的一個(gè)方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集，所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執(zhí)行以實(shí)現(xiàn)上述語音識(shí)別方法。

19、根據(jù)本申請實(shí)施例的一個(gè)方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令，所述計(jì)算機(jī)指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。計(jì)算機(jī)設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取所述計(jì)算機(jī)指令，所述處理器執(zhí)行所述計(jì)算機(jī)指令，使得所述計(jì)算機(jī)設(shè)備執(zhí)行以實(shí)現(xiàn)上述語音識(shí)別方法。

20、本申請實(shí)施例提供的技術(shù)方案可以帶來如下有益效果：

21、本申請實(shí)施例提出語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備，該語音識(shí)別方法通過對目標(biāo)語音序列進(jìn)行特征提取，得到第一特征。對第一特征進(jìn)行基于積分發(fā)射的語音幀聚合，可以將目標(biāo)語音序列切分為多個(gè)語音段。每個(gè)語音段包括連續(xù)的若干語音幀，這些語音幀都對應(yīng)于相同的專家標(biāo)識(shí)，可以使用相同的專家模型來進(jìn)行處理。不同的語音段可以使用不同的專家模型來進(jìn)行處理，從而實(shí)現(xiàn)了專家模型的合理分配，提升了語音識(shí)別的質(zhì)量。而且，目標(biāo)語音序列中連續(xù)若干語音幀具備相似的上下文，也往往具備相似的語義，因此，同一語音段中各語音幀使用相同的專家模型有利于具備連續(xù)性的語義和上下文信息的聚合，從而提升語音識(shí)別的質(zhì)量。

22、本申請實(shí)施例一次性得到每個(gè)語音幀適配的專家模型，無需為每個(gè)語音幀都執(zhí)行一次專家模型選擇操作，降低專家模型選擇操作實(shí)施次數(shù)，提升專家模型的選擇速度，降低專家模型的選擇消耗，提升語音識(shí)別速度。

技術(shù)特征：

1.一種語音識(shí)別方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述第一特征，對所述目標(biāo)語音序列中的語音幀進(jìn)行聚合，得到多個(gè)語音段和每一所述語音段對應(yīng)的專家標(biāo)識(shí)，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述基于所述第一特征，對所述目標(biāo)語音序列中的語音幀進(jìn)行聚合，得到多個(gè)語音段和每一所述語音段對應(yīng)的專家標(biāo)識(shí)，還包括：

4.根據(jù)權(quán)利要求1至3中任意一項(xiàng)所述的方法，其特征在于，所述針對每一所述語音段，基于所述語音段對應(yīng)的專家標(biāo)識(shí)指向的專家模型對所述第一特征進(jìn)行專家特征提取，得到所述語音段對應(yīng)的目標(biāo)專家特征，包括：

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，在所述第一專家特征為用于得到所述目標(biāo)專家特征的基礎(chǔ)特征的情況下，所述針對每一所述語音段，基于所述語音段對應(yīng)的專家標(biāo)識(shí)指向的專家模型對所述第一特征進(jìn)行專家特征提取，得到所述語音段對應(yīng)的目標(biāo)專家特征，還包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法基于語音識(shí)別模型實(shí)施，所述語音識(shí)別模型包括專家選擇網(wǎng)絡(luò)、初始特征提取網(wǎng)絡(luò)、專家特征提取網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)，所述專家特征提取網(wǎng)絡(luò)包括多個(gè)所述專家模型，所述語音識(shí)別模型通過下述方法訓(xùn)練：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述專家選擇網(wǎng)絡(luò)包括連續(xù)整合發(fā)射網(wǎng)絡(luò)和門控網(wǎng)絡(luò)，所述將所述樣本第一特征輸入所述專家選擇網(wǎng)絡(luò)，得到多個(gè)樣本語音段和每一所述樣本語音段對應(yīng)的專家標(biāo)識(shí)，包括：

8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述模型損失還包括第二損失，所述方法還包括：

9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述模型損失還包括第三損失，所述樣本專家篩選分布包括所述樣本語音段對應(yīng)的專家標(biāo)識(shí)對應(yīng)的篩選概率，所述方法還包括：

10.一種語音識(shí)別裝置，其特征在于，所述裝置包括：

11.一種計(jì)算機(jī)設(shè)備，其特征在于，所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器，所述存儲(chǔ)器中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集，所述至少一條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至9任一項(xiàng)所述的語音識(shí)別方法。

12.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集，所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至9任一項(xiàng)所述的語音識(shí)別方法。

13.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令，計(jì)算機(jī)設(shè)備的處理器讀取所述計(jì)算機(jī)指令，所述計(jì)算機(jī)設(shè)備的處理器執(zhí)行所述計(jì)算機(jī)指令實(shí)現(xiàn)如權(quán)利要求1至9任一項(xiàng)所述的語音識(shí)別方法。

技術(shù)總結(jié)
本申請公開語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備，屬于人工智能技術(shù)領(lǐng)域，包括獲取多個(gè)語音幀形成的目標(biāo)語音序列；對目標(biāo)語音序列進(jìn)行特征提取，得到第一特征；基于第一特征，對目標(biāo)語音序列中的語音幀進(jìn)行聚合，得到多個(gè)語音段和每一語音段對應(yīng)的專家標(biāo)識(shí)，每個(gè)語音段包括多個(gè)語音幀，專家標(biāo)識(shí)為執(zhí)行專家特征提取的專家模型所對應(yīng)的標(biāo)識(shí)；針對每一語音段，基于語音段對應(yīng)的專家標(biāo)識(shí)指向的專家模型，對第一特征進(jìn)行專家特征提取，得到語音段對應(yīng)的目標(biāo)專家特征；融合各語音段分別對應(yīng)的目標(biāo)專家特征，得到目標(biāo)語音序列對應(yīng)的第二特征；對第二特征進(jìn)行解碼，得到語音識(shí)別結(jié)果。本申請實(shí)施例可以提升語音識(shí)別速度和準(zhǔn)確度。

技術(shù)研發(fā)人員：王雄,李泱澤,曹松軍
受保護(hù)的技術(shù)使用者：騰訊科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/9/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王雄,李泱澤,曹松軍
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備與流程

語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備與流程