1.一種語音識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述音頻信號(hào)中提取音頻特征,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音增強(qiáng)模型包括第一特征提取網(wǎng)絡(luò)、第二特征提取網(wǎng)絡(luò)和融合網(wǎng)絡(luò);
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述第一特征提取網(wǎng)絡(luò)包括至少一個(gè)第一卷積層、至少一個(gè)池化層和第一激活層,且所述第一卷積層、所述池化層和所述第一激活層按照預(yù)設(shè)排列順序依次連接;
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述第二特征提取網(wǎng)絡(luò)包括至少一個(gè)第二卷積層和第二激活層,且至少一個(gè)所述第二卷積層和所述第二激活層依次連接;
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述融合網(wǎng)絡(luò)包括第一長短時(shí)記憶網(wǎng)絡(luò)、至少一個(gè)全連接層和優(yōu)化層,且所述第一長短時(shí)記憶網(wǎng)絡(luò)、所述全連接層和所述優(yōu)化層依次連接;
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一編碼器包括依次連接的至少一個(gè)第二長短時(shí)記憶網(wǎng)絡(luò),所述第二編碼器包括至少一個(gè)第三長短時(shí)記憶網(wǎng)絡(luò)、所述融合模塊包括依次連接的第一處理單元、第一前饋單元、第二處理單元、第一多頭注意力機(jī)制;
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述將所述音頻特征輸入依次連接的至少一個(gè)第二長短時(shí)記憶網(wǎng)絡(luò),得到所述音頻編碼結(jié)果之前,包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述將所述視頻特征輸入依次連接的至少一個(gè)第三長短時(shí)記憶網(wǎng)絡(luò),得到所述視頻編碼結(jié)果之前,包括:
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述音頻編碼結(jié)果和所述視頻編碼結(jié)果進(jìn)行多模態(tài)融合,得到融合特征,包括:
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述語音識(shí)別模型還包括第二多頭注意力機(jī)制;
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述語音識(shí)別模型還包括梯度調(diào)制單元、第二前饋單元和交叉熵?fù)p失單元;
13.一種語音識(shí)別裝置,其特征在于,包括:
14.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至12中任一項(xiàng)所述的語音識(shí)別方法的步驟。
15.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至12中任一項(xiàng)所述的語音識(shí)別方法的步驟。
16.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至12中任一項(xiàng)所述的語音識(shí)別方法的步驟。