語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

文檔序號(hào)：40267602發(fā)布日期：2024-12-11 13:01閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

技術(shù)特征：

1.一種語音識(shí)別方法，其特征在于，包括:

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述從所述音頻信號(hào)中提取音頻特征，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語音增強(qiáng)模型包括第一特征提取網(wǎng)絡(luò)、第二特征提取網(wǎng)絡(luò)和融合網(wǎng)絡(luò)；

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述第一特征提取網(wǎng)絡(luò)包括至少一個(gè)第一卷積層、至少一個(gè)池化層和第一激活層，且所述第一卷積層、所述池化層和所述第一激活層按照預(yù)設(shè)排列順序依次連接；

5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述第二特征提取網(wǎng)絡(luò)包括至少一個(gè)第二卷積層和第二激活層，且至少一個(gè)所述第二卷積層和所述第二激活層依次連接；

6.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述融合網(wǎng)絡(luò)包括第一長短時(shí)記憶網(wǎng)絡(luò)、至少一個(gè)全連接層和優(yōu)化層，且所述第一長短時(shí)記憶網(wǎng)絡(luò)、所述全連接層和所述優(yōu)化層依次連接；

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述第一編碼器包括依次連接的至少一個(gè)第二長短時(shí)記憶網(wǎng)絡(luò)，所述第二編碼器包括至少一個(gè)第三長短時(shí)記憶網(wǎng)絡(luò)、所述融合模塊包括依次連接的第一處理單元、第一前饋單元、第二處理單元、第一多頭注意力機(jī)制；

8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述將所述音頻特征輸入依次連接的至少一個(gè)第二長短時(shí)記憶網(wǎng)絡(luò)，得到所述音頻編碼結(jié)果之前，包括：

9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述將所述視頻特征輸入依次連接的至少一個(gè)第三長短時(shí)記憶網(wǎng)絡(luò)，得到所述視頻編碼結(jié)果之前，包括：

10.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述音頻編碼結(jié)果和所述視頻編碼結(jié)果進(jìn)行多模態(tài)融合，得到融合特征，包括：

11.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述語音識(shí)別模型還包括第二多頭注意力機(jī)制；

12.根據(jù)權(quán)利要求11所述的方法，其特征在于，所述語音識(shí)別模型還包括梯度調(diào)制單元、第二前饋單元和交叉熵?fù)p失單元；

13.一種語音識(shí)別裝置，其特征在于，包括：

14.一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至12中任一項(xiàng)所述的語音識(shí)別方法的步驟。

15.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至12中任一項(xiàng)所述的語音識(shí)別方法的步驟。

16.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至12中任一項(xiàng)所述的語音識(shí)別方法的步驟。

技術(shù)總結(jié)
本申請?zhí)峁┝艘环N語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品，涉及人工智能技術(shù)領(lǐng)域，包括：響應(yīng)于識(shí)別指令，獲取待識(shí)別音視頻；待識(shí)別音視頻包括音頻信號(hào)和視頻信號(hào)；從音頻信號(hào)中提取音頻特征，從視頻信號(hào)中提取視頻特征；將音頻特征、視頻特征輸入預(yù)先構(gòu)建的語音識(shí)別模型，得到語音識(shí)別結(jié)果。本申請能夠利用不同模態(tài)的音頻信號(hào)和視頻信號(hào)，提高對(duì)低資源語言的識(shí)別性能。

技術(shù)研發(fā)人員：倪嘉惠,褚紅梅,羅珍,劉維博
受保護(hù)的技術(shù)使用者：中國銀聯(lián)股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

語音識(shí)別方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程