本發(fā)明涉及語音生成,尤其涉及一種基于快速傅里葉變換的藏語語音數(shù)據(jù)生成方法。
背景技術(shù):
1、在計算機科學(xué)和人工智能領(lǐng)域,語音生成技術(shù)正逐漸成為連接不同語言和文化的重要橋梁,這項技術(shù)不僅能夠提高語音識別和自然語言處理的準確性,還能夠為多語言用戶創(chuàng)造更加豐富和便捷的交互體驗。盡管在常見語言如中文和英文上,語音識別、語音合成、語音翻譯等領(lǐng)域因深度學(xué)習(xí)等技術(shù)的發(fā)展而取得了顯著進步,推動了相關(guān)應(yīng)用的廣泛普及和技術(shù)革新,然而,對于少數(shù)民族語言,尤其是藏語這樣的語言,這些技術(shù)的研究和應(yīng)用卻面臨著一系列挑戰(zhàn)。
2、藏語與漢語在語音、語法、詞匯等方面存在顯著差異,這些差異使得藏語的語音數(shù)據(jù)生成技術(shù)需要專門設(shè)計和調(diào)整,以適應(yīng)其獨特的語言特點。此外,藏語的方言多樣性也為數(shù)據(jù)采集帶來了額外的復(fù)雜性,不同地區(qū)的藏語方言在發(fā)音和語調(diào)上有所不同,這要求研究人員不僅要掌握標準的語音規(guī)則,還要了解各種方言的特點。高質(zhì)量的語音數(shù)據(jù)是語音生成技術(shù)成功的關(guān)鍵。然而,對于藏語這樣的低資源語言,數(shù)據(jù)采集面臨著諸多困難,藏語使用者相對較少,導(dǎo)致可用于訓(xùn)練的數(shù)據(jù)量有限;其次,藏語的專業(yè)性和復(fù)雜性要求采集過程中必須有專業(yè)人員參與,以確保數(shù)據(jù)的準確性和一致性,這些因素都導(dǎo)致了數(shù)據(jù)采集的成本較高,而且過程繁瑣。
技術(shù)實現(xiàn)思路
1、面對藏語這一低資源語言的特定挑戰(zhàn),以及其復(fù)雜的語音特征和方言多樣性,本發(fā)明提供了一種基于快速傅里葉變換的藏語語音數(shù)據(jù)生成方法,旨在解決藏語作為低資源語言所面臨的挑戰(zhàn),并通過快速而準確的頻域分析,有效捕捉其復(fù)雜語音特征和方言多樣性中的發(fā)音差異。本發(fā)明采用的快速傅里葉變換fft算法基于蝶形運算,通過將離散傅里葉變換的計算分解成多個較小的離散傅里葉變換,從而實現(xiàn)高效計算,與直接進行離散傅里葉變換相比,fft大幅降低了計算復(fù)雜度并提高了計算速度,同時保證了對信號進行高分辨率和準確的頻域分析。通過控制轉(zhuǎn)換和濾波過程中的參數(shù),本方法可有效提高藏語語音數(shù)據(jù)的生成質(zhì)量和準確性,適用于衛(wèi)藏、康巴和安多三大主要藏語方言,可以廣泛應(yīng)用于復(fù)雜場景任務(wù)。
2、為實現(xiàn)上述發(fā)明目的,本發(fā)明提出了一種基于快速傅里葉變換的藏語語音數(shù)據(jù)生成方法,該方法包括以下步驟:
3、步驟s1:獲取藏語語音數(shù)據(jù),使用python,?macos?系統(tǒng)自動化軟件和機器人流程自動化軟件rpa設(shè)計自動化爬蟲代碼與流程,采集衛(wèi)藏、安多、康巴三大藏語方言語音樣本;
4、步驟s2:對語音數(shù)據(jù)進行加窗預(yù)處理,按窗口大小分割音頻,控制窗口之間的重疊程度,在時域上對每個片段應(yīng)用漢明窗函數(shù),還對語音樣本進行端點檢測以去除靜音段;
5、步驟s3:頻域信號變換,應(yīng)用短時快速傅里葉變換將藏語時域語音信號轉(zhuǎn)換為頻域信號,將長度為的序列分解成長度為的兩個子序列,每個子序列遞歸地應(yīng)用相同的分解步驟,進行離散傅里葉變換計算,并將子序列的離散傅里葉變換結(jié)果進行組合,得到經(jīng)過短時快速傅里葉變換的完整的頻域信號;
6、步驟s4:對頻域信號進行濾波,設(shè)計自適應(yīng)頻域帶通濾波器對頻域信號進行濾波處理,以提取所需頻率范圍內(nèi)的信號;
7、步驟s5:濾波器參數(shù)迭代優(yōu)化,在預(yù)設(shè)迭代次數(shù)內(nèi),根據(jù)濾波前后信號的相似性,使用梯度下降算法動態(tài)調(diào)整濾波器參數(shù);
8、步驟s6:藏語音頻數(shù)據(jù)的生成,迭代結(jié)束后,輸出最終優(yōu)化的濾波器參數(shù)和濾波后的頻域信號,對最終濾波后的頻域信號進行傅里葉逆變換,將頻域信號轉(zhuǎn)換為時域信號,生成新的藏語語音數(shù)據(jù),并將其寫入音頻文件。
9、進一步地,在步驟s2中設(shè)漢明窗函數(shù)為,對采集的語音數(shù)據(jù)進行加窗處理后得到的窗化信號設(shè)為,,,其中n是窗的長度,t是窗中的索引,也即時間變量。
10、進一步地,步驟s4中設(shè)計的帶通濾波器的傳遞函數(shù)?由系數(shù)和確定:
11、
12、其中,系數(shù)和的初始值通過實驗獲得,當頻率位于<mi>[</mi><msub><mi>f</mi><mi>low</mi></msub><mi>,</mi><msub><mi>f</mi><mi>high</mi></msub><mi>]</mi>范圍內(nèi)時,濾波器允許信號無衰減地通過;當頻率小于或大于?時,濾波器衰減信號至零。
13、進一步地,步驟s5中信號的相似性判斷通過計算濾波前后信號頻域的余弦距離來實現(xiàn),余弦距離表示為,其中和分別代表濾波前和濾波后的fft向量,為余弦相似性,范圍為[-1,1],余弦距離d的值越小,表示濾波前后原音頻和生成音頻的信號頻域的關(guān)鍵特征越相似,生成效果越好。
14、進一步地,步驟s5中梯度優(yōu)化旨在通過計算目標函數(shù)相對于參數(shù)的梯度,以此來指導(dǎo)參數(shù)的更新方向和步長,從而逐步逼近函數(shù)的極值點,目標函數(shù)為基于頻域信號與原始語音信號之間的差異的目標函數(shù),目標函數(shù)的截止頻率和計算優(yōu)化方式如下:
15、
16、
17、其中是一個小的擾動值,范圍為[0.001,0.005],用于計算梯度的近似值,更新截止頻率的方式為:
18、
19、
20、其中是學(xué)習(xí)率,控制著參數(shù)更新的步長。
21、本發(fā)明采用了一種基于快速傅里葉變換的藏語語音數(shù)據(jù)生成方法,能夠在短時間內(nèi)高效地將時域信號轉(zhuǎn)換為頻域信號,本發(fā)明采用的快速傅里葉變換(fft)算法基于蝶形運算,通過將離散傅里葉變換的計算分解成多個較小的離散傅里葉變換,從而實現(xiàn)高效計算,與直接進行離散傅里葉變換相比,fft大幅降低了計算復(fù)雜度并提高了計算速度,同時保證了對信號進行高分辨率和準確的頻域分析;同時通過對頻域信號的精確濾波和對濾波參數(shù)的優(yōu)化調(diào)整,能夠有效地從有限的藏語數(shù)據(jù)中提取出更多有用的語音特征,保證了高質(zhì)量的語音輸出,還確保了音頻數(shù)據(jù)的多樣性和復(fù)雜性,以適應(yīng)不同的方言和語音特征;通過對濾波前后信號的相似性進行評估,以此判斷濾波效果是否有所提升。本發(fā)明方案不僅提高了模型的泛化能力和魯棒性,還提高了語音數(shù)據(jù)的生成效率和質(zhì)量,同時能夠大幅減少額外數(shù)據(jù)收集的成本,有效縮小了藏語與常用語言在技術(shù)應(yīng)用上的差距,為藏語及其他低資源語言的技術(shù)發(fā)展帶來了新的動力。
1.一種基于快速傅里葉變換的藏語語音數(shù)據(jù)生成方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟s2中設(shè)漢明窗函數(shù)為,對采集的語音數(shù)據(jù)進行加窗處理后得到的窗化信號設(shè)為,,,其中n是窗的長度,t是窗中的索引,也即時間變量。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟s4中設(shè)計的帶通濾波器的傳遞函數(shù)由系數(shù)和確定:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟s5中信號的相似性判斷通過計算濾波前后信號頻域的余弦距離來實現(xiàn),余弦距離表示為,其中和分別代表濾波前和濾波后的fft向量,為余弦相似性,范圍為[-1,1],余弦距離d的值越小,表示濾波前后原音頻和生成音頻的信號頻域的關(guān)鍵特征越相似,生成效果越好。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟s5中梯度優(yōu)化旨在通過計算目標函數(shù)相對于參數(shù)的梯度,以此來指導(dǎo)參數(shù)的更新方向和步長,從而逐步逼近函數(shù)的極值點,目標函數(shù)為基于頻域信號與原始語音信號之間的差異的目標函數(shù),目標函數(shù)的截止頻率和計算優(yōu)化方式如下: