本發(fā)明涉及聲紋識(shí)別,特別是基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)。
背景技術(shù):
1、聲紋識(shí)別技術(shù)作為生物識(shí)別技術(shù)的一個(gè)重要分支,近年來(lái)隨著機(jī)器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展得到了顯著的推動(dòng),隨著深度學(xué)習(xí)技術(shù)的興起,基于卷積神經(jīng)網(wǎng)絡(luò)(cnn)、循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)和長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm)的聲紋識(shí)別模型逐漸成為研究的熱點(diǎn);
2、盡管深度學(xué)習(xí)模型在聲紋識(shí)別領(lǐng)域取得了突破,現(xiàn)有技術(shù)在實(shí)際應(yīng)用中仍面臨一些的挑戰(zhàn),其中在當(dāng)前的聲紋識(shí)別技術(shù)中,大部分系統(tǒng)采用的是標(biāo)準(zhǔn)化的一般性模型,這些模型在設(shè)計(jì)時(shí)往往以處理廣泛的情況和通用環(huán)境為目標(biāo),而非針對(duì)特定個(gè)體的聲音特性進(jìn)行優(yōu)化,這種方法在普遍情況下可能表現(xiàn)良好,但在需要高度個(gè)性化的應(yīng)用場(chǎng)景中,如個(gè)人設(shè)備的安全驗(yàn)證或定制化服務(wù),可能無(wú)法提供最佳的用戶(hù)體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有的基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)中存在的問(wèn)題,提出了本發(fā)明。
2、因此,本發(fā)明所要解決的問(wèn)題在于大部分系統(tǒng)采用的是標(biāo)準(zhǔn)化的一般性模型,這些模型在設(shè)計(jì)時(shí)往往以處理廣泛的情況和通用環(huán)境為目標(biāo),而非針對(duì)特定個(gè)體的聲音特性進(jìn)行優(yōu)化,這種方法在普遍情況下可能表現(xiàn)良好,但在需要高度個(gè)性化的應(yīng)用場(chǎng)景中,如個(gè)人設(shè)備的安全驗(yàn)證或定制化服務(wù),可能無(wú)法提供最佳的用戶(hù)體驗(yàn)。
3、為解決上述技術(shù)問(wèn)題,本發(fā)明提供如下技術(shù)方案:基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng),其包括,聲紋數(shù)據(jù)采集模塊,采集聲紋信號(hào);
4、聲紋數(shù)據(jù)處理模塊,使用模糊邏輯處理算法對(duì)聲紋信號(hào)進(jìn)行預(yù)處理;
5、深度學(xué)習(xí)模型構(gòu)建與訓(xùn)練模塊,從預(yù)處理聲紋信號(hào)中提取聲紋特征,構(gòu)建深度學(xué)習(xí)模型,對(duì)模型進(jìn)行訓(xùn)練;
6、模型微調(diào)與個(gè)性化模塊,采集個(gè)人聲紋數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行模型微調(diào);
7、動(dòng)態(tài)噪音過(guò)濾策略模塊,基于個(gè)人聲紋數(shù)據(jù)動(dòng)態(tài)調(diào)整噪音過(guò)濾策略。
8、作為本發(fā)明所述基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)的一種優(yōu)選方案,其中:所述采集聲紋信號(hào)包括在不同環(huán)境中使用設(shè)備采集聲紋樣本,使用的設(shè)備包括專(zhuān)業(yè)麥克風(fēng)、智能手機(jī)和智能穿戴設(shè)備。
9、作為本發(fā)明所述基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)的一種優(yōu)選方案,其中:所述使用模糊邏輯處理算法對(duì)聲紋信號(hào)進(jìn)行預(yù)處理包括,使用傅里葉變換將采集的時(shí)域聲紋信號(hào)轉(zhuǎn)換到頻域信號(hào):
10、
11、其中s(t)表示原始的時(shí)域聲紋信號(hào),t表示時(shí)間,i是虛數(shù)單位,f表示頻率,s(f)表示聲紋信號(hào)的頻域信號(hào);
12、應(yīng)用高斯濾波器g(f)去除高頻噪聲:
13、
14、其中f0是高斯濾波器的中心頻率,σ是控制濾波器寬度的標(biāo)準(zhǔn)偏差;
15、設(shè)計(jì)模糊邏輯權(quán)重函數(shù),根據(jù)實(shí)時(shí)噪聲環(huán)境和信號(hào)質(zhì)量改變頻率響應(yīng):
16、
17、其中k是調(diào)節(jié)模糊邏輯控制器的斜率,c是偏移量,μ(f)表示模糊邏輯權(quán)重;
18、將原始頻域信號(hào)s(f)通過(guò)高斯濾波器g(f)和模糊邏輯權(quán)重μ(f)的影響進(jìn)行綜合處理;
19、s′(f)=s(f)·g(f)·μ(f)
20、進(jìn)行反傅里葉變換將處理后的頻域信號(hào)變換為處理后的時(shí)域信號(hào):
21、
22、作為本發(fā)明所述基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)的一種優(yōu)選方案,其中:所述從預(yù)處理聲紋信號(hào)中提取聲紋特征包括,
23、將處理后的時(shí)域信號(hào)s‘(t)分隔成短時(shí)幀,并對(duì)每一幀應(yīng)用漢明窗函數(shù);
24、sf(t)=s‘(t)·w(t-τ)
25、其中sf(t)表示應(yīng)用窗函數(shù)后的幀信號(hào),w(t--τ)是漢明窗函數(shù),τ是積分變量;
26、對(duì)每一幀信號(hào)使用短時(shí)傅里葉變換stft,將變換的頻域信號(hào)s(f,t)通過(guò)濾波器轉(zhuǎn)換為梅爾頻譜,對(duì)梅爾頻譜應(yīng)用自然對(duì)數(shù),且執(zhí)行離散余弦變換提取聲紋識(shí)別的特征向量,表示為:
27、s(f,t)=∫sf(t)e-j2πfτdτ
28、
29、mfcc=dct(log(mel(s(f,t))))
30、其中mfcc表示聲紋識(shí)別的特征向量,s(f,t)是在時(shí)間t和頻率f處得到的頻譜值,sf(t)是應(yīng)用窗函數(shù)后的幀信號(hào),j是虛數(shù)單位,mel(s(f,t))表示梅爾頻譜,dct是離散余弦變換,f(n)為第n個(gè)梅爾濾波器處理后的頻率值,hk(f(n))為第k個(gè)梅爾濾波器在頻率f(n)處的響應(yīng)值,n是頻率點(diǎn)的總數(shù)。
31、作為本發(fā)明所述基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)的一種優(yōu)選方案,其中:所述構(gòu)建深度學(xué)習(xí)模型包括,
32、設(shè)置輸入層、卷積層、循環(huán)層和輸出層;
33、卷積層應(yīng)用濾波器對(duì)輸入特征進(jìn)行卷積,提取特征圖,使用relu函數(shù),表示為:
34、cl=relu(wl*x+bl)
35、其中wl是第1層的權(quán)重,bl是第1層的偏置,*表示卷積操作,x表示輸入特征,cl表示第1層的輸出特征圖;
36、循環(huán)層的每個(gè)循環(huán)單元根據(jù)前一時(shí)間步的隱藏狀態(tài)和當(dāng)前輸入更新?tīng)顟B(tài),表示為:
37、ht=lstm(ht-1,c1)
38、其中ht表示在時(shí)間t的隱藏狀態(tài),ht-1為前一時(shí)間步的隱藏狀態(tài);
39、輸出層使用全連接層將循環(huán)層的輸出映射到類(lèi)別空間,并將線(xiàn)性輸出轉(zhuǎn)換為概率分布,對(duì)應(yīng)不同聲紋類(lèi)別的預(yù)測(cè)概率,表示為:
40、y=softmax(wo·ht+bo)
41、其中y表示預(yù)測(cè)的概率分布,wo表示輸出層的權(quán)重矩陣,bo表示輸出層的偏置,ht表示循環(huán)層的最后一個(gè)時(shí)間步的輸出。
42、作為本發(fā)明所述基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)的一種優(yōu)選方案,其中:所述對(duì)模型進(jìn)行訓(xùn)練包括,
43、將采集到的聲紋識(shí)別的特征向量劃分為訓(xùn)練集和驗(yàn)證集;
44、更新一階矩mt和二階矩vt,表示為:
45、mt=β1mt-1+(1-β1)gt
46、
47、其中g(shù)t是在時(shí)間步t的梯度,β1表示一階矩的指數(shù)衰減率,β2表示二階矩的指數(shù)衰減率;
48、對(duì)模型一階矩mt和二階矩vt進(jìn)行偏差修正,表示為:
49、
50、其中t表示時(shí)間,和均為衰減因子,表示基于梯度的一階矩估計(jì),表示基于梯度的二階矩估計(jì);
51、選擇adam優(yōu)化器進(jìn)行模型參數(shù)更新優(yōu)化,表示為:
52、
53、其中θ為模型參數(shù),θt+1為下一時(shí)間步的參數(shù)值,θt為當(dāng)前時(shí)間步的參數(shù)值,η表示學(xué)習(xí)率,∈為極小的數(shù);
54、設(shè)置交叉熵?fù)p失函數(shù),表示為:
55、
56、其中l(wèi)表示損失函數(shù)值,uo,c是一個(gè)二進(jìn)制指示器,表示實(shí)際概率標(biāo)簽,其中c指的是類(lèi)別索引,o表示第o個(gè)樣本,yo,c是模型預(yù)測(cè)的概率,m表示類(lèi)別總數(shù);
57、將特征向量數(shù)據(jù)輸入到模型,經(jīng)過(guò)每一層的計(jì)算,輸出預(yù)測(cè)結(jié)果,完成前向傳播;
58、使用交叉熵?fù)p失函數(shù)計(jì)算模型輸出和實(shí)際概率標(biāo)簽之間的誤差;
59、應(yīng)用鏈?zhǔn)椒▌t自輸出層反向至輸入層逐層計(jì)算每個(gè)參數(shù)的梯度;
60、使用adam優(yōu)化器得到模型參數(shù)更新每一層;
61、使用模型對(duì)驗(yàn)證集進(jìn)行預(yù)測(cè),收集模型的預(yù)測(cè)輸出,并與驗(yàn)證集的實(shí)際標(biāo)簽進(jìn)行比較;
62、計(jì)算模型預(yù)測(cè)正確的樣本數(shù)量占總樣本數(shù)量的比例作為準(zhǔn)確率,當(dāng)計(jì)算得到的準(zhǔn)確率達(dá)到設(shè)定目標(biāo)準(zhǔn)確率時(shí),認(rèn)為模型已經(jīng)達(dá)到預(yù)定的性能標(biāo)準(zhǔn),完成對(duì)模型進(jìn)行訓(xùn)練,并設(shè)為基礎(chǔ)模型。
63、作為本發(fā)明所述基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)的一種優(yōu)選方案,其中:所述采集個(gè)人聲紋數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行模型微調(diào)包括,
64、將基礎(chǔ)模型部署到目標(biāo)環(huán)境終端;
65、在目標(biāo)環(huán)境終端中集成實(shí)時(shí)聲紋捕獲與識(shí)別模塊;
66、定期采集目標(biāo)用戶(hù)在不同的環(huán)境下的聲音樣本,并提取個(gè)性化特征向量劃分為更新集dp和驗(yàn)證集dt;
67、建立聲紋模型數(shù)據(jù)庫(kù),并注冊(cè)用戶(hù),使用個(gè)性化特征向量進(jìn)行模型微調(diào),包括,
68、對(duì)個(gè)性化特征進(jìn)行標(biāo)準(zhǔn)化處理:
69、
70、其中xf表示原始的個(gè)性化特征值,ω表示對(duì)應(yīng)個(gè)性化特征的平均值,表示對(duì)應(yīng)個(gè)性化特征的標(biāo)準(zhǔn)差,xn表示標(biāo)準(zhǔn)化后的個(gè)性化特征值;
71、調(diào)整基礎(chǔ)模型的輸出層參數(shù),保留卷積層,使用收集的更新集dp訓(xùn)練模型,使用如下公式進(jìn)行參數(shù)更新:
72、
73、其中θx是深度學(xué)習(xí)模型的當(dāng)前參數(shù),κ是學(xué)習(xí)率,是損失梯度;
74、進(jìn)行模型驗(yàn)證,采用交叉驗(yàn)證的方法,在驗(yàn)證集dt上測(cè)試個(gè)性化深度學(xué)習(xí)模型性能;
75、將個(gè)性化用戶(hù)深度學(xué)習(xí)模型以及匹配的特征向量存儲(chǔ)在數(shù)據(jù)庫(kù)中與注冊(cè)用戶(hù)相匹配;
76、目標(biāo)環(huán)境終端在通過(guò)聲紋捕獲與識(shí)別模塊進(jìn)行新的聲紋數(shù)據(jù)采集的過(guò)程中,使用個(gè)性化用戶(hù)深度學(xué)習(xí)模型進(jìn)行個(gè)人聲紋識(shí)別,并在相似度低于設(shè)定目標(biāo)相似度時(shí),新建注冊(cè)用戶(hù),且使用新建注冊(cè)用戶(hù)聲紋特征向量重新進(jìn)行基礎(chǔ)模型的微調(diào)和模型驗(yàn)證,并將新建注冊(cè)用戶(hù)的個(gè)性化深度學(xué)習(xí)模型存儲(chǔ)在數(shù)據(jù)庫(kù)中與新建注冊(cè)用戶(hù)匹配。
77、作為本發(fā)明所述基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)的一種優(yōu)選方案,其中:所述基于個(gè)人聲紋數(shù)據(jù)動(dòng)態(tài)調(diào)整噪音過(guò)濾策略包括,
78、在目標(biāo)環(huán)境終端中集成環(huán)境音頻傳感器和自適應(yīng)濾波器;
79、應(yīng)用環(huán)境音頻傳感器持續(xù)監(jiān)測(cè)周?chē)h(huán)境聲音sa;
80、應(yīng)用快速傅里葉變換fft來(lái)分析聲音信號(hào)中的頻率成分,表示為:
81、fn=fft(sa)
82、其中sa表示檢測(cè)的環(huán)境聲音,fn表示環(huán)境聲音特征向量,包括了頻率成分的振幅值;
83、選取環(huán)境聲音中特定頻率范圍為噪聲,并設(shè)置振幅閾值,將超過(guò)閾值的頻率振幅視為噪聲特征;
84、進(jìn)行噪聲特征分析,表示為:
85、p(f)=|fc(f)|2
86、其中f表示頻率,fc(f)表示在頻率f上的噪聲幅度,p(f)表示頻率分量的功率;
87、定義噪聲功率閾值pt,并計(jì)算濾波器調(diào)節(jié)參數(shù)α,表示為:
88、
89、其中ε是調(diào)整系數(shù),表示當(dāng)前噪聲環(huán)境的平均功率;
90、根據(jù)α值,調(diào)整濾波器增益并應(yīng)用于自適應(yīng)濾波進(jìn)行噪聲過(guò)濾,表示為:
91、h(f)=exp(-α·p(f))
92、sf=h(f)·sa(f)
93、其中h(f)表示在頻率f上的濾波器增益,sf表示經(jīng)過(guò)噪聲過(guò)濾后的聲音信號(hào),sa(f)表示原始環(huán)境聲音信號(hào)的頻率分量。
94、一種計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器和處理器;所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)的步驟。
95、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)基于ai大模型的個(gè)人聲紋識(shí)別及環(huán)境噪音過(guò)濾系統(tǒng)的步驟。
96、本發(fā)明有益效果為:通過(guò)聲紋數(shù)據(jù)采集模塊,從經(jīng)過(guò)模糊邏輯預(yù)處理的時(shí)域信號(hào)中提取關(guān)鍵的聲紋特征,并構(gòu)建適應(yīng)這些特征的深度學(xué)習(xí)模型,對(duì)模型進(jìn)行訓(xùn)練,提高了系統(tǒng)對(duì)復(fù)雜或不完整數(shù)據(jù)的處理能力,顯著提高了聲紋識(shí)別的準(zhǔn)確性和系統(tǒng)的整體性能,通過(guò)采集個(gè)人聲紋數(shù)據(jù)并對(duì)已經(jīng)構(gòu)建的深度學(xué)習(xí)模型進(jìn)行微調(diào),使模型能夠更好地適應(yīng)特定用戶(hù)的聲紋特征,增強(qiáng)了系統(tǒng)對(duì)個(gè)體差異的適應(yīng)能力,從而在具體應(yīng)用中提供更加個(gè)性化的服務(wù),系統(tǒng)根據(jù)個(gè)人聲紋數(shù)據(jù)和環(huán)境變化動(dòng)態(tài)調(diào)整噪音過(guò)濾策略,通過(guò)實(shí)時(shí)分析環(huán)境噪音和用戶(hù)聲紋,自動(dòng)調(diào)整過(guò)濾參數(shù)增強(qiáng)系統(tǒng)在各種噪聲環(huán)境下的穩(wěn)定性和可靠性。