本技術涉及計算機,特別是涉及一種基于空間交叉學習多尺度注意力特征模塊的聲紋識別方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。
背景技術:
1、隨著計算機技術的發(fā)展,聲紋識別技術在眾多領域都有重要的應用。如何高效地進行聲紋識別,成為了重要的研究方向。
2、傳統(tǒng)技術通常是通過人工提取音頻信息的方式,進行聲紋識別;但是,通過該方式進行聲紋識別需要耗費較多的人工處理時間,導致聲紋識別的效率較低。
技術實現(xiàn)思路
1、基于此,有必要針對上述技術問題,提供一種能夠提高聲紋識別的效率的基于空間交叉學習多尺度注意力特征模塊的聲紋識別方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。
2、第一方面,本技術提供了一種基于空間交叉學習多尺度注意力特征模塊的聲紋識別方法。所述方法包括:
3、提取音頻的二維頻譜特征;
4、通過特征圖識別層對所述二維頻譜特征進行特征圖識別,得到所述音頻的多通道三維特征圖;
5、通過目標殘差塊將所述多通道三維特征圖按通道層進行分組,得到所述音頻的原始子特征圖組;
6、對所述原始子特征圖組分別進行時域特征識別、頻域特征識別和全局特征識別,得到所述原始子特征圖組的時域特征、頻域特征和全局特征;
7、根據所述時域特征和所述頻域特征生成基礎權重,并利用所述基礎權重對所述原始子特征圖組進行加權處理,得到目標子特征圖組;
8、根據所述目標子特征圖組和所述全局特征生成目標權重;
9、利用所述目標權重對所述原始子特征圖組進行加權融合處理,得到所述音頻的融合特征圖;
10、根據所述融合特征圖,對所述音頻進行聲紋識別,得到所述音頻的聲紋識別結果。
11、在其中一個實施例中,在根據所述融合特征圖,對所述音頻進行聲紋識別,得到所述音頻的聲紋識別結果之前,還包括:
12、利用殘差網絡對所述融合特征圖進行特征識別,得到目標特征圖;
13、所述根據所述融合特征圖,對所述音頻進行聲紋識別,得到所述音頻的聲紋識別結果,包括:
14、根據所述目標特征圖,對所述音頻進行聲紋識別,得到所述聲紋識別結果。
15、在其中一個實施例中,所述根據所述目標特征圖,對所述音頻進行聲紋識別,得到所述聲紋識別結果,包括:
16、利用注意力池化層和線性層對所述目標特征圖進行特征識別,得到所述目標特征圖的聲紋特征;
17、根據所述聲紋特征對所述音頻進行聲紋識別,得到所述聲紋識別結果。
18、在其中一個實施例中,所述對所述原始子特征圖組分別進行時域特征識別、頻域特征識別和全局特征識別,得到所述原始子特征圖組的時域特征、頻域特征和全局特征,包括:
19、對所述原始子特征圖組進行時域維度池化運算,得到所述時域特征;
20、對所述原始子特征圖組進行頻域維度池化運算,得到所述頻域特征;
21、對所述原始子特征圖組進行全局卷積運算,得到所述全局特征。
22、在其中一個實施例中,所述根據所述時域特征和所述頻域特征生成基礎權重,包括:
23、對所述時域特征和所述頻域特征進行拼接處理,得到拼接特征;
24、對所述拼接特征進行卷積運算,得到卷積運算結果;
25、對所述卷積運算結果進行激活處理,得到所述基礎權重。
26、在其中一個實施例中,所述提取音頻的二維頻譜特征,包括:
27、獲取語音信號,作為所述音頻;
28、對所述音頻進行梅爾頻譜轉換處理,得到所述二維頻譜特征。
29、第二方面,本技術還提供了一種基于空間交叉學習多尺度注意力特征模塊的聲紋識別裝置。所述裝置包括:
30、特征提取模塊,用于提取音頻的二維頻譜特征;
31、第一識別模塊,用于通過特征圖識別層對所述二維頻譜特征進行特征圖識別,得到所述音頻的多通道三維特征圖;
32、特征分組模塊,用于通過目標殘差塊將所述多通道三維特征圖按通道層進行分組,得到所述音頻的原始子特征圖組;
33、第二識別模塊,用于對所述原始子特征圖組分別進行時域特征識別、頻域特征識別和全局特征識別,得到所述原始子特征圖組的時域特征、頻域特征和全局特征;
34、第一生成模塊,用于根據所述時域特征和所述頻域特征生成基礎權重,并利用所述基礎權重對所述原始子特征圖組進行加權處理,得到目標子特征圖組;
35、第二生成模塊,用于根據所述目標子特征圖組和所述全局特征生成目標權重;
36、特征融合模塊,用于利用所述目標權重對所述原始子特征圖組進行加權融合處理,得到所述音頻的融合特征圖;
37、聲紋識別模塊,用于根據所述融合特征圖,對所述音頻進行聲紋識別,得到所述音頻的聲紋識別結果。
38、第三方面,本技術還提供了一種計算機設備。所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:
39、提取音頻的二維頻譜特征;
40、通過特征圖識別層對所述二維頻譜特征進行特征圖識別,得到所述音頻的多通道三維特征圖;
41、通過目標殘差塊將所述多通道三維特征圖按通道層進行分組,得到所述音頻的原始子特征圖組;
42、對所述原始子特征圖組分別進行時域特征識別、頻域特征識別和全局特征識別,得到所述原始子特征圖組的時域特征、頻域特征和全局特征;
43、根據所述時域特征和所述頻域特征生成基礎權重,并利用所述基礎權重對所述原始子特征圖組進行加權處理,得到目標子特征圖組;
44、根據所述目標子特征圖組和所述全局特征生成目標權重;
45、利用所述目標權重對所述原始子特征圖組進行加權融合處理,得到所述音頻的融合特征圖;
46、根據所述融合特征圖,對所述音頻進行聲紋識別,得到所述音頻的聲紋識別結果。
47、第四方面,本技術還提供了一種計算機可讀存儲介質。所述計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:
48、提取音頻的二維頻譜特征;
49、通過特征圖識別層對所述二維頻譜特征進行特征圖識別,得到所述音頻的多通道三維特征圖;
50、通過目標殘差塊將所述多通道三維特征圖按通道層進行分組,得到所述音頻的原始子特征圖組;
51、對所述原始子特征圖組分別進行時域特征識別、頻域特征識別和全局特征識別,得到所述原始子特征圖組的時域特征、頻域特征和全局特征;
52、根據所述時域特征和所述頻域特征生成基礎權重,并利用所述基礎權重對所述原始子特征圖組進行加權處理,得到目標子特征圖組;
53、根據所述目標子特征圖組和所述全局特征生成目標權重;
54、利用所述目標權重對所述原始子特征圖組進行加權融合處理,得到所述音頻的融合特征圖;
55、根據所述融合特征圖,對所述音頻進行聲紋識別,得到所述音頻的聲紋識別結果。
56、第五方面,本技術還提供了一種計算機程序產品。所述計算機程序產品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:
57、提取音頻的二維頻譜特征;
58、通過特征圖識別層對所述二維頻譜特征進行特征圖識別,得到所述音頻的多通道三維特征圖;
59、通過目標殘差塊將所述多通道三維特征圖按通道層進行分組,得到所述音頻的原始子特征圖組;
60、對所述原始子特征圖組分別進行時域特征識別、頻域特征識別和全局特征識別,得到所述原始子特征圖組的時域特征、頻域特征和全局特征;
61、根據所述時域特征和所述頻域特征生成基礎權重,并利用所述基礎權重對所述原始子特征圖組進行加權處理,得到目標子特征圖組;
62、根據所述目標子特征圖組和所述全局特征生成目標權重;
63、利用所述目標權重對所述原始子特征圖組進行加權融合處理,得到所述音頻的融合特征圖;
64、根據所述融合特征圖,對所述音頻進行聲紋識別,得到所述音頻的聲紋識別結果。
65、上述基于空間交叉學習多尺度注意力特征模塊的聲紋識別方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品,提取音頻的二維頻譜特征;通過特征圖識別層對所述二維頻譜特征進行特征圖識別,得到所述音頻的多通道三維特征圖;通過目標殘差塊將所述多通道三維特征圖按通道層進行分組,得到所述音頻的原始子特征圖組;對所述原始子特征圖組分別進行時域特征識別、頻域特征識別和全局特征識別,得到所述原始子特征圖組的時域特征、頻域特征和全局特征;根據所述時域特征和所述頻域特征生成基礎權重,并利用所述基礎權重對所述原始子特征圖組進行加權處理,得到目標子特征圖組;根據所述目標子特征圖組和所述全局特征生成目標權重;利用所述目標權重對所述原始子特征圖組進行加權融合處理,得到所述音頻的融合特征圖;根據所述融合特征圖,對所述音頻進行聲紋識別,得到所述音頻的聲紋識別結果。該方案通過多層次的特征識別和加權融合處理,有利于充分利用音頻的時域特征、頻域特征和全局特征,從而有利于提高特征的表達能力,提高聲紋識別的準確性和效率。