本技術涉及物聯(lián)網(wǎng)安全,尤其涉及一種偽造語音檢測方法、裝置、存儲介質(zhì)及電子設備。
背景技術:
1、語音已經(jīng)成為智慧物聯(lián)網(wǎng)(如智能家居)、智能車聯(lián)網(wǎng)等進行人機交互的重要途徑,物聯(lián)網(wǎng)設備可通過人類語音進行身份認證。然而,隨著人工智能技術的發(fā)展,使用不同算法偽造的語音給智慧物聯(lián)網(wǎng)語音設備的發(fā)展帶來了極大的挑戰(zhàn)。攻擊者可以通過語音重放、語音合成和文本轉換等多種手段模仿、偽造真實說話者的聲音,欺騙物聯(lián)網(wǎng)設備從而獲取用戶權限。因此,亟需一種偽造語音檢測方法提高物聯(lián)網(wǎng)設備身份認證的可靠性和安全性,保障物聯(lián)網(wǎng)設備穩(wěn)定運行。
2、目前,現(xiàn)有相關偽造語音檢測技術主要是通過頻譜分析進行檢測,但是由于語音信號本身攜帶的特征信息具有復雜性,真實語音與偽造語音的區(qū)分往往依賴于一些細微但關鍵的特征,這些特征往往混合在一起難以提取和區(qū)分,因此,現(xiàn)有相關偽造語音檢測技術的檢測準確率不高。
技術實現(xiàn)思路
1、本技術實施例提供一種偽造語音檢測方法、裝置、存儲介質(zhì)及電子設備,能夠提升偽造語音檢測技術的準確率。
2、本技術實施例提供了一種偽造語音檢測方法,包括:
3、采集待檢測的語音信號,將所述語音信號轉換為時序數(shù)字信號,并對所述時序數(shù)字信號進行預處理,得到離散語音信號;
4、在所述離散語音信號上進行傅里葉變換得到幅度譜,在所述幅度譜上進行二次插值,得到每個頻率窗口的峰值,組合所述峰值得到所述離散語音信號的峰頻矩陣;
5、提取所述離散語音信號的線性頻率倒譜系數(shù),將所述峰頻和所述線性頻率倒譜系數(shù)進行拼接得到融合特征;
6、將所述融合特征輸入訓練好的偽造語音檢測模型進行偽造語音識別。
7、進一步地,上述偽造語音檢測方法,其中,所述采集待檢測的語音信號,將所述語音信號轉換為時序數(shù)字信號,并對所述時序數(shù)字信號進行預處理,得到離散語音信號,包括:
8、采集待檢測的語音信號,以預設采樣頻率對所述語音信號進行采樣得到所述時序數(shù)字信號;
9、對所述時序數(shù)字信號進行分幀,對分幀后的時序數(shù)字信號進行加窗,得到所述離散語音信號。
10、進一步地,上述偽造語音檢測方法,其中,所述在所述離散語音信號上進行傅里葉變換得到幅度譜,在所述幅度譜上進行二次插值,得到每個頻率窗口的峰值,組合所述峰值得到所述離散語音信號的峰頻矩陣,包括:
11、對所述離散語音信號進行傅里葉變換操作,提取所述語音信號的頻域信息;
12、對所述頻域信息在頻率域上的復數(shù)函數(shù)取模,得到幅度譜;
13、擬合所述幅度譜上每幀的頻率窗口和幅度確定一條拋物線,通過假設三個已知幅度值的位置進行二次插值確定幅度峰值對應的頻率窗口,重復進行多次二次插值,得到多個峰頻;
14、拼接多個所述峰頻,得到峰頻矩陣。
15、進一步地,上述偽造語音檢測方法,其中,所述提取所述離散語音信號的線性頻率倒譜系數(shù),將所述峰頻和所述線性頻率倒譜系數(shù)進行拼接得到融合特征,包括:
16、對所述離散語音信號在頻率域上的復數(shù)函數(shù)取模平方,得到所述離散語音信號的功率能量譜;
17、通過線性刻度濾波器對所述功率能量譜進行頻帶特征提取,并進行離散余弦變換,得到線性頻率倒譜系數(shù);
18、根據(jù)幀數(shù)拼接所述峰頻和所述線性頻率倒譜系數(shù),得到所述融合特征。
19、進一步地,上述偽造語音檢測方法,其中,所述偽造語音檢測模型包括二維卷積層、res2net模塊、全局平均池化層、全連接層和softmax分類模塊;
20、所述將所述融合特征輸入訓練好的偽造語音檢測模型進行偽造語音識別,包括:
21、將所述融合特征輸入到所述二維卷積層中進行卷積操作,提取局部特征;
22、將所述局部特征輸入到res2net模塊中,得到殘差矩陣;
23、將所述殘差矩陣輸入到所述全局平均池化層中,生成對應于每個通道的匯聚特征值,通過全連接層實現(xiàn)對前一層的線性組合,得到一維特征向量;
24、將所述一維特征向量輸入到softmax分類模塊中,得到偽造語音識別結果。
25、進一步地,上述偽造語音檢測方法,其中,所述擬合所述幅度譜上每幀的頻率窗口和幅度確定一條拋物線,通過假設三個已知幅度值的位置進行二次插值確定幅度峰值對應的頻率窗口,重復進行多次二次插值,得到多個峰頻,包括:
26、擬合所述幅度譜上每幀的頻率窗口和幅度確定一條拋物線:
27、
28、其中,為拋物線的自變量,即頻率窗口,為拋物線的因變量,即幅度值,、為拋物線的參數(shù);
29、假設三個已知幅度值的位置進行二次插值以確定幅度峰值對應的頻率窗口,假設、、分別為三個已知的幅度值,且:
30、
31、把三個所述幅度值的位置帶入擬合的所述拋物線中,可以得到:
32、
33、計算幅度峰值對應的頻率窗口:
34、
35、對于幅度譜的第幀,重復進行多次二次插值,得到多個峰頻;其中,峰頻的計算公式為:
36、
37、其中,為峰頻,是上一次二次插值的幅度峰值對應的頻率窗口,為幅度峰值對應的頻率窗口?,是語音采樣率,是窗口長度。
38、進一步地,上述偽造語音檢測方法,其中,所述偽造語音檢測模型的訓練過程包括:
39、獲取訓練集和測試集,所述訓練集包括語音樣本信號,所述測試集包括語音測試信號;
40、提取所述語音樣本信號和所述語音測試信號的峰頻,提取所述語音樣本信號和所述語音測試信號的線性頻率倒譜系數(shù),將所述峰頻和所述線性頻率倒譜系數(shù)分別拼接得到訓練融合向量和測試融合向量;
41、將所述訓練融合向量輸入到所述偽造語音檢測模型中,得到預測結果;
42、根據(jù)所述預測結果和所述語音樣本信號的真值標簽,計算二分類交叉熵損失函數(shù),反向傳播計算梯度,多次迭代調(diào)整所述偽造語音檢測模型中參數(shù)的權重和偏置;
43、將所述測試融合向量輸入到所述偽造語音檢測模型中,判斷所述偽造語音檢測模型的預測準確率是否達到預設值,若到達,則結束訓練。
44、本技術實施例還提供了一種偽造語音檢測裝置,包括:
45、采集與預處理模塊,用于采集待檢測的語音信號,將所述語音信號轉換為時序數(shù)字信號,并對所述時序數(shù)字信號進行預處理,得到離散語音信號;
46、第一處理模塊,用于在所述離散語音信號上進行傅里葉變換得到幅度譜,在所述幅度譜上進行二次插值,得到每個頻率窗口的峰值,組合各峰值得到所述離散語音信號的峰頻矩陣;
47、第二處理模塊,用于提取所述離散語音信號的線性頻率倒譜系數(shù),將所述峰頻和所述線性頻率倒譜系數(shù)進行拼接得到融合特征;
48、識別模塊,用于將所述融合特征輸入訓練好的偽造語音檢測模型進行偽造語音識別。
49、本技術實施例還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有多條指令,所述指令適于由處理器加載以執(zhí)行上述任一項偽造語音檢測方法。
50、本技術實施例還提供了一種電子設備,包括處理器和存儲器,所述處理器與所述存儲器電性連接,所述存儲器用于存儲指令和數(shù)據(jù),所述處理器用于上述任一項所述的偽造語音檢測方法中的步驟。
51、本技術提供的偽造語音檢測方法、裝置、存儲介質(zhì)及電子設備,本技術通過提取語音信號的峰頻和線性頻率倒譜系數(shù),將兩者融合得到融合特征,基于融合特征進行偽造語音的識別。峰頻表示語音頻率的變化信息,本技術通過提高對語音關鍵頻率峰值變化信息的關注度,精準地定位偽造語音和真實語音的不同之處,提高了偽造語音檢測的準確率。