本申請涉及人工智能,特別涉及一種語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備。
背景技術(shù):
1、近年來,人工智能模型執(zhí)行各種任務(wù)的能力都取得了不同程度的提升。以語音識(shí)別任務(wù)為例,可以基于混合專家模型對語音序列進(jìn)行語音識(shí)別,該混合專家模型包括多個(gè)專家模型,在該混合專家模型進(jìn)行語音識(shí)別的過程中需要為該語音序列中的每個(gè)語音幀都執(zhí)行專家模型選擇操作以選擇合適的專家模型,這一過程會(huì)導(dǎo)致選擇專家模型的過程耗時(shí)長和計(jì)算量大,從而降低語音識(shí)別速度,增大了語音識(shí)別的性能消耗。
技術(shù)實(shí)現(xiàn)思路
1、本申請實(shí)施例提供了一種語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備,能夠通過執(zhí)行單次專家模型選擇操作一次性確定各個(gè)語音幀適配的專家模型,而且位于同一語音段中連續(xù)的語音幀可以使用相同的專家模型,從而使得專家模型的分配結(jié)果合理,降低專家模型選擇的耗時(shí)和計(jì)算量,不僅提升語音識(shí)別速度,也提升語音識(shí)別的準(zhǔn)確度。
2、根據(jù)本申請實(shí)施例的一個(gè)方面,提供了一種語音識(shí)別方法,所述方法包括:
3、獲取多個(gè)語音幀形成的目標(biāo)語音序列;
4、對所述目標(biāo)語音序列進(jìn)行特征提取,得到第一特征;
5、基于所述第一特征,對所述目標(biāo)語音序列中的語音幀進(jìn)行聚合,得到多個(gè)語音段和每一所述語音段對應(yīng)的專家標(biāo)識(shí),每個(gè)所述語音段包括多個(gè)所述語音幀,所述專家標(biāo)識(shí)為執(zhí)行專家特征提取的專家模型所對應(yīng)的標(biāo)識(shí);
6、針對每一所述語音段,基于所述語音段對應(yīng)的專家標(biāo)識(shí)指向的專家模型對所述第一特征進(jìn)行專家特征提取,得到所述語音段對應(yīng)的目標(biāo)專家特征;
7、融合各所述語音段分別對應(yīng)的目標(biāo)專家特征,得到所述目標(biāo)語音序列對應(yīng)的第二特征;
8、對所述第二特征進(jìn)行解碼,得到語音識(shí)別結(jié)果。
9、根據(jù)本申請實(shí)施例的一個(gè)方面,提供了一種語音識(shí)別裝置,所述裝置包括:
10、語音獲取模塊,用于獲取多個(gè)語音幀形成的目標(biāo)語音序列;
11、語音識(shí)別模塊,用于執(zhí)行下述操作:
12、對所述目標(biāo)語音序列進(jìn)行特征提取,得到第一特征;
13、基于所述第一特征,對所述目標(biāo)語音序列中的語音幀進(jìn)行聚合,得到多個(gè)語音段和每一所述語音段對應(yīng)的專家標(biāo)識(shí),每個(gè)所述語音段包括多個(gè)所述語音幀,所述專家標(biāo)識(shí)為執(zhí)行專家特征提取的專家模型所對應(yīng)的標(biāo)識(shí);
14、針對每一所述語音段,基于所述語音段對應(yīng)的專家標(biāo)識(shí)指向的專家模型對所述第一特征進(jìn)行專家特征提取,得到所述語音段對應(yīng)的目標(biāo)專家特征;
15、融合各所述語音段分別對應(yīng)的目標(biāo)專家特征,得到所述目標(biāo)語音序列對應(yīng)的第二特征;
16、對所述第二特征進(jìn)行解碼,得到語音識(shí)別結(jié)果。
17、根據(jù)本申請實(shí)施例的一個(gè)方面,提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執(zhí)行以實(shí)現(xiàn)上述語音識(shí)別方法。
18、根據(jù)本申請實(shí)施例的一個(gè)方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執(zhí)行以實(shí)現(xiàn)上述語音識(shí)別方法。
19、根據(jù)本申請實(shí)施例的一個(gè)方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。計(jì)算機(jī)設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取所述計(jì)算機(jī)指令,所述處理器執(zhí)行所述計(jì)算機(jī)指令,使得所述計(jì)算機(jī)設(shè)備執(zhí)行以實(shí)現(xiàn)上述語音識(shí)別方法。
20、本申請實(shí)施例提供的技術(shù)方案可以帶來如下有益效果:
21、本申請實(shí)施例提出語音識(shí)別方法、裝置、存儲(chǔ)介質(zhì)以及電子設(shè)備,該語音識(shí)別方法通過對目標(biāo)語音序列進(jìn)行特征提取,得到第一特征。對第一特征進(jìn)行基于積分發(fā)射的語音幀聚合,可以將目標(biāo)語音序列切分為多個(gè)語音段。每個(gè)語音段包括連續(xù)的若干語音幀,這些語音幀都對應(yīng)于相同的專家標(biāo)識(shí),可以使用相同的專家模型來進(jìn)行處理。不同的語音段可以使用不同的專家模型來進(jìn)行處理,從而實(shí)現(xiàn)了專家模型的合理分配,提升了語音識(shí)別的質(zhì)量。而且,目標(biāo)語音序列中連續(xù)若干語音幀具備相似的上下文,也往往具備相似的語義,因此,同一語音段中各語音幀使用相同的專家模型有利于具備連續(xù)性的語義和上下文信息的聚合,從而提升語音識(shí)別的質(zhì)量。
22、本申請實(shí)施例一次性得到每個(gè)語音幀適配的專家模型,無需為每個(gè)語音幀都執(zhí)行一次專家模型選擇操作,降低專家模型選擇操作實(shí)施次數(shù),提升專家模型的選擇速度,降低專家模型的選擇消耗,提升語音識(shí)別速度。
1.一種語音識(shí)別方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第一特征,對所述目標(biāo)語音序列中的語音幀進(jìn)行聚合,得到多個(gè)語音段和每一所述語音段對應(yīng)的專家標(biāo)識(shí),包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述第一特征,對所述目標(biāo)語音序列中的語音幀進(jìn)行聚合,得到多個(gè)語音段和每一所述語音段對應(yīng)的專家標(biāo)識(shí),還包括:
4.根據(jù)權(quán)利要求1至3中任意一項(xiàng)所述的方法,其特征在于,所述針對每一所述語音段,基于所述語音段對應(yīng)的專家標(biāo)識(shí)指向的專家模型對所述第一特征進(jìn)行專家特征提取,得到所述語音段對應(yīng)的目標(biāo)專家特征,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述第一專家特征為用于得到所述目標(biāo)專家特征的基礎(chǔ)特征的情況下,所述針對每一所述語音段,基于所述語音段對應(yīng)的專家標(biāo)識(shí)指向的專家模型對所述第一特征進(jìn)行專家特征提取,得到所述語音段對應(yīng)的目標(biāo)專家特征,還包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法基于語音識(shí)別模型實(shí)施,所述語音識(shí)別模型包括專家選擇網(wǎng)絡(luò)、初始特征提取網(wǎng)絡(luò)、專家特征提取網(wǎng)絡(luò)和解碼網(wǎng)絡(luò),所述專家特征提取網(wǎng)絡(luò)包括多個(gè)所述專家模型,所述語音識(shí)別模型通過下述方法訓(xùn)練:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述專家選擇網(wǎng)絡(luò)包括連續(xù)整合發(fā)射網(wǎng)絡(luò)和門控網(wǎng)絡(luò),所述將所述樣本第一特征輸入所述專家選擇網(wǎng)絡(luò),得到多個(gè)樣本語音段和每一所述樣本語音段對應(yīng)的專家標(biāo)識(shí),包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述模型損失還包括第二損失,所述方法還包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述模型損失還包括第三損失,所述樣本專家篩選分布包括所述樣本語音段對應(yīng)的專家標(biāo)識(shí)對應(yīng)的篩選概率,所述方法還包括:
10.一種語音識(shí)別裝置,其特征在于,所述裝置包括:
11.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至9任一項(xiàng)所述的語音識(shí)別方法。
12.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至9任一項(xiàng)所述的語音識(shí)別方法。
13.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令,計(jì)算機(jī)設(shè)備的處理器讀取所述計(jì)算機(jī)指令,所述計(jì)算機(jī)設(shè)備的處理器執(zhí)行所述計(jì)算機(jī)指令實(shí)現(xiàn)如權(quán)利要求1至9任一項(xiàng)所述的語音識(shí)別方法。