語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

文檔序號(hào)：40267602發(fā)布日期：2024-12-11 13:01閱讀：22來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

本技術(shù)涉及人工智能，尤其涉及一種語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品。

背景技術(shù)：

1、在各種業(yè)務(wù)的相關(guān)場(chǎng)景中，往往會(huì)涉及與來自不同地區(qū)的對(duì)象進(jìn)行對(duì)話，對(duì)于非主流、不常見的語言，業(yè)務(wù)提供方的工作人員可能會(huì)因?yàn)槔斫怆y度過高而無法理解對(duì)方想要表達(dá)的意思，從而無法及時(shí)提供業(yè)務(wù)方面的幫助。

2、常見的語音識(shí)別技術(shù)通常需要依賴大量的語音數(shù)據(jù)和豐富的語言學(xué)資源，對(duì)于非主流、不常見的語言，常見的語音識(shí)別技術(shù)常常會(huì)因?yàn)闃颖緮?shù)據(jù)匱乏而表現(xiàn)不佳。

3、如何對(duì)非主流語言進(jìn)行精準(zhǔn)、快速的識(shí)別是亟待解決的一個(gè)問題。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)提供一種語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品，用以解決現(xiàn)有技術(shù)中非主流語言識(shí)別準(zhǔn)確度差的問題。

2、第一方面，本技術(shù)提供一種語音識(shí)別方法，包括：

3、響應(yīng)于識(shí)別指令，獲取待識(shí)別音視頻；所述待識(shí)別音視頻包括音頻信號(hào)和視頻信號(hào)；

4、從所述音頻信號(hào)中提取音頻特征，從所述視頻信號(hào)中提取視頻特征；

5、將所述音頻特征、所述視頻特征輸入預(yù)先構(gòu)建的語音識(shí)別模型，得到語音識(shí)別結(jié)果；所述語音識(shí)別模型包括依次連接的第一編碼器、第二編碼器、融合模塊和連接時(shí)序分類解碼器，所述第一編碼器用于基于所述音頻特征輸出音頻編碼結(jié)果，所述第二編碼器用于基于所述視頻特征輸出視頻編碼結(jié)果，所述融合模塊用于將所述音頻編碼結(jié)果和所述視頻編碼結(jié)果進(jìn)行多模態(tài)融合，得到融合特征；所述連接時(shí)序分類解碼器用于基于所述融合特征得到所述語音識(shí)別結(jié)果。

6、在其中一個(gè)實(shí)施例中，所述從所述音頻信號(hào)中提取音頻特征，包括：

7、將所述音頻信號(hào)和所述視頻信號(hào)輸入預(yù)先訓(xùn)練好的語音增強(qiáng)模型，得到所述音頻特征。

8、在其中一個(gè)實(shí)施例中，所述語音增強(qiáng)模型包括第一特征提取網(wǎng)絡(luò)、第二特征提取網(wǎng)絡(luò)和融合網(wǎng)絡(luò)；

9、所述將所述音頻信號(hào)和所述視頻信號(hào)輸入預(yù)先訓(xùn)練好的語音增強(qiáng)模型，得到所述音頻特征，包括：

10、將所述音頻信號(hào)輸入所述第一特征提取網(wǎng)絡(luò)，得到第一音頻特征，將所述視頻信號(hào)輸入所述第二特征提取網(wǎng)絡(luò)，得到第一視頻特征；

11、將所述第一音頻特征與所述第一視頻特征進(jìn)行特征結(jié)合，得到結(jié)合特征；

12、將所述結(jié)合特征和所述第一音頻特征共同輸入所述融合網(wǎng)絡(luò)，得到所述音頻特征。

13、在其中一個(gè)實(shí)施例中，所述第一特征提取網(wǎng)絡(luò)包括至少一個(gè)第一卷積層、至少一個(gè)池化層和第一激活層，且所述第一卷積層、所述池化層和所述第一激活層按照預(yù)設(shè)排列順序依次連接；

14、所述將所述音頻信號(hào)輸入所述第一特征提取網(wǎng)絡(luò)，得到第一音頻特征，包括：

15、將所述音頻信號(hào)輸入按照預(yù)設(shè)排列順序依次連接的第一卷積層、池化層和第一激活層，得到所述第一音頻特征。

16、在其中一個(gè)實(shí)施例中，所述第二特征提取網(wǎng)絡(luò)包括至少一個(gè)第二卷積層和第二激活層，且至少一個(gè)所述第二卷積層和所述第二激活層依次連接；

17、所述將所述視頻信號(hào)輸入所述第二特征提取網(wǎng)絡(luò)，得到第一視頻特征，包括：

18、將所述視頻信號(hào)輸入依次連接的第二卷積層和第二激活層，得到所述第一視頻特征。

19、在其中一個(gè)實(shí)施例中，所述融合網(wǎng)絡(luò)包括第一長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、至少一個(gè)全連接層和優(yōu)化層，且所述第一長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、所述全連接層和所述優(yōu)化層依次連接；

20、所述將所述結(jié)合特征和所述第一音頻特征共同輸入所述融合網(wǎng)絡(luò)，得到所述音頻特征，包括：

21、將所述結(jié)合特征和所述第一音頻特征共同輸入依次連接的第一長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、全連接層和優(yōu)化層，得到所述音頻特征。

22、在其中一個(gè)實(shí)施例中，所述第一編碼器包括依次連接的至少一個(gè)第二長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，所述第二編碼器包括至少一個(gè)第三長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、所述融合模塊包括依次連接的第一處理單元、第一前饋單元、第二處理單元、第一多頭注意力機(jī)制；

23、所述將所述音頻特征、所述視頻特征輸入預(yù)先構(gòu)建的語音識(shí)別模型，得到語音識(shí)別結(jié)果，包括：

24、將所述音頻特征輸入依次連接的至少一個(gè)第二長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，得到所述音頻編碼結(jié)果；

25、將所述視頻特征輸入依次連接的至少一個(gè)第三長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，得到所述視頻編碼結(jié)果；

26、將所述音頻編碼結(jié)果和所述視頻編碼結(jié)果共同輸入依次連接的第一處理單元、第一前饋單元、第二處理單元、第一多頭注意力機(jī)制，得到所述語音識(shí)別結(jié)果。

27、在其中一個(gè)實(shí)施例中，所述將所述音頻特征輸入依次連接的至少一個(gè)第二長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，得到所述音頻編碼結(jié)果之前，包括：

28、對(duì)所述音頻特征進(jìn)行短時(shí)傅里葉變化，得到音頻頻譜圖；

29、對(duì)所述音頻頻譜圖進(jìn)行一維卷積，得到處理后的音頻特征；

30、所述將所述音頻特征輸入依次連接的至少一個(gè)第二長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，得到所述音頻編碼結(jié)果，包括：

31、將處理后的音頻特征輸入依次連接的至少一個(gè)第二長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，得到所述音頻編碼結(jié)果。

32、在其中一個(gè)實(shí)施例中，所述將所述視頻特征輸入依次連接的至少一個(gè)第三長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，得到所述視頻編碼結(jié)果之前，包括：

33、對(duì)所述視頻特征進(jìn)行三維卷積和二維卷積處理，得到處理后的視頻特征；

34、所述將所述視頻特征輸入依次連接的至少一個(gè)第三長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，得到所述視頻編碼結(jié)果，包括：

35、將處理后的視頻特征輸入依次連接的至少一個(gè)第三長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，得到所述視頻編碼結(jié)果。

36、在其中一個(gè)實(shí)施例中，所述將所述音頻編碼結(jié)果和所述視頻編碼結(jié)果進(jìn)行多模態(tài)融合，得到融合特征，包括：

37、采用注意力機(jī)制，融合所述音頻編碼結(jié)果和所述視頻編碼結(jié)果。

38、在其中一個(gè)實(shí)施例中，所述語音識(shí)別模型還包括第二多頭注意力機(jī)制；

39、所述將所述音頻特征、所述視頻特征輸入預(yù)先構(gòu)建的語音識(shí)別模型，得到語音識(shí)別結(jié)果，包括：

40、將所述音頻特征輸入所述第一編碼器，得到所述音頻編碼結(jié)果；

41、將所述視頻特征輸入所述第二編碼器，得到所述視頻編碼結(jié)果和特征鍵；

42、將所述音頻編碼結(jié)果、所述視頻編碼結(jié)果和所述特征鍵輸入所述第二多頭注意力機(jī)制，得到所述融合特征；

43、將所述融合特征輸入所述連接時(shí)序分類解碼器，得到所述語音識(shí)別結(jié)果。

44、在其中一個(gè)實(shí)施例中，所述語音識(shí)別模型還包括梯度調(diào)制單元、第二前饋單元和交叉熵?fù)p失單元；

45、所述方法還包括：

46、采用所述第二多頭注意力機(jī)制計(jì)算所述音頻編碼結(jié)果、所述視頻編碼結(jié)果之間的注意力權(quán)重，并基于所述注意力權(quán)重計(jì)算差異率；

47、將所述差異率輸入所述梯度調(diào)制單元，得到所述音頻編碼結(jié)果對(duì)應(yīng)的第一梯度和所述視頻編碼結(jié)果對(duì)應(yīng)的第二梯度；

48、將所述融合特征輸入所述交叉熵?fù)p失單元，得到交叉熵?fù)p失數(shù)值；

49、采用所述第二前饋單元，將所述第一梯度、所述第二梯度再次輸入所述第二多頭注意力機(jī)制，并將所述交叉熵?fù)p失數(shù)值反向傳播至所述第二多頭注意力機(jī)制，以優(yōu)化所述語音識(shí)別模型。

50、第二方面，本技術(shù)還提供了一種語音識(shí)別裝置，包括：

51、獲取模塊，用于響應(yīng)于識(shí)別指令，獲取待識(shí)別音視頻；所述待識(shí)別音視頻包括音頻信號(hào)和視頻信號(hào)；

52、提取模塊，用于從所述音頻信號(hào)中提取音頻特征，從所述視頻信號(hào)中提取視頻特征；

53、識(shí)別模塊，用于將所述音頻特征、所述視頻特征輸入預(yù)先構(gòu)建的語音識(shí)別模型，得到語音識(shí)別結(jié)果；所述語音識(shí)別模型包括依次連接的第一編碼器、第二編碼器、融合模塊和連接時(shí)序分類解碼器，所述第一編碼器用于基于所述音頻特征輸出音頻編碼結(jié)果，所述第二編碼器用于基于所述視頻特征輸出視頻編碼結(jié)果，所述融合模塊用于將所述音頻編碼結(jié)果和所述視頻編碼結(jié)果進(jìn)行多模態(tài)融合，得到融合特征；所述連接時(shí)序分類解碼器用于基于所述融合特征得到所述語音識(shí)別結(jié)果。

54、第三方面，本技術(shù)還提供了一種計(jì)算機(jī)設(shè)備。所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一實(shí)施例所述的語音識(shí)別方法。

55、第四方面，本技術(shù)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一實(shí)施例所述的語音識(shí)別方法。

56、第五方面，本技術(shù)還提供了一種計(jì)算機(jī)程序產(chǎn)品。所述計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，該計(jì)算機(jī)程序產(chǎn)品被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一實(shí)施例所述的語音識(shí)別方法。

57、上述語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品，能夠利用不同模態(tài)的音頻信號(hào)和視頻信號(hào)，將多模態(tài)學(xué)習(xí)的方法用于語音識(shí)別過程中，通過融合音頻特征和視頻特征，提高了對(duì)低資源語言的識(shí)別準(zhǔn)確率，有效降低嘈雜環(huán)境和口音變異等會(huì)造成語音識(shí)別錯(cuò)誤的影響，不僅能夠有效處理視聽不匹配的情況，還能夠提高對(duì)低資源語言的識(shí)別性能，通過創(chuàng)新的視聽特征提取和融合方法，提高語音識(shí)別的魯棒性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：倪嘉惠,褚紅梅,羅珍,劉維博
技術(shù)所有人：中國銀聯(lián)股份有限公司
我是此專利的發(fā)明人

上一篇：一種三輪摩托車六擋變速機(jī)構(gòu)的制作方法
上一篇：一種微動(dòng)開關(guān)線束組裝折彎裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程