本發(fā)明涉及語音轉(zhuǎn)寫領(lǐng)域,尤其涉及一種基于人工智能的語音轉(zhuǎn)寫加速方法。
背景技術(shù):
1、隨著語音識別技術(shù)的快速發(fā)展和廣泛應(yīng)用,語音轉(zhuǎn)寫已經(jīng)成為許多領(lǐng)域中的關(guān)鍵技術(shù)。然而,現(xiàn)有的語音轉(zhuǎn)寫系統(tǒng)在實際應(yīng)用中仍然面臨許多技術(shù)挑戰(zhàn),包括背景噪聲干擾、信號處理效率低下、語義理解不準確等問題。這些問題嚴重影響了語音轉(zhuǎn)寫的準確性和效率,制約了其在更廣泛應(yīng)用場景中的推廣和應(yīng)用。
2、在實際應(yīng)用中,語音信號往往伴隨大量的背景噪聲和干擾,這使得語音識別系統(tǒng)難以準確提取出有效的語音特征。傳統(tǒng)的信號處理方法,如帶通濾波器和快速傅里葉變換(fft),在處理復(fù)雜噪聲環(huán)境時效果有限。此外,靜音段和初始段的噪聲頻譜估計不準確,導(dǎo)致降噪效果不佳,進一步影響了語音識別的準確性。此外,語音識別系統(tǒng)在生成初步轉(zhuǎn)寫文本時,通常只關(guān)注局部特征,忽略了詞與詞之間的語義關(guān)系,導(dǎo)致生成的轉(zhuǎn)寫文本語義不連貫、邏輯不清晰。
3、除上述提出的技術(shù)問題外,現(xiàn)有技術(shù)還存在語音轉(zhuǎn)寫時準確性較差、效率較低等技術(shù)問題。
技術(shù)實現(xiàn)思路
1、為了克服背景技術(shù)中提出的語音轉(zhuǎn)寫領(lǐng)域中現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于人工智能的語音轉(zhuǎn)寫加速方法。
2、為實現(xiàn)上述目的,本發(fā)明公開的一種基于人工智能的語音轉(zhuǎn)寫加速方法,包括以下步驟:
3、(s1)獲取原始語音數(shù)據(jù),對獲取的原始語音數(shù)據(jù)先預(yù)處理再增強處理,對增強后的語音數(shù)據(jù)進行特征提取,得到語音特征,基于語音特征進行語音識別,得到識別結(jié)果;
4、(s2)根據(jù)識別結(jié)果生成初步轉(zhuǎn)寫文本,通過自適應(yīng)動態(tài)文本優(yōu)化算法對初步撰寫文本進行優(yōu)化,得到優(yōu)化后的轉(zhuǎn)寫文本,同時在轉(zhuǎn)寫過程中通過優(yōu)化加速算法優(yōu)化轉(zhuǎn)寫效率。
5、優(yōu)選地,步驟(s1)中,原始語音數(shù)據(jù)進行預(yù)處理的方法包括以下步驟:
6、(a1)將原始語音信號分割成固定長度的幀,得到分幀后的語音信號;
7、(a2)對每一幀語音信號應(yīng)用加窗函數(shù),得到加窗后的語音幀信號;
8、(a3)對每一幀加窗后的語音幀信號進行快速傅里葉變換,將時間域信號轉(zhuǎn)換到頻域,得到頻域表示的語音幀;
9、(a4)在靜音段或初始段,計算噪聲頻譜,得到估計的背景噪聲頻譜;
10、(a5)對語音幀和背景噪聲頻譜濾除噪聲,得到降噪后的頻域表示;
11、(a6)對降噪后的頻域信號進行逆快速傅里葉變換,將頻域信號轉(zhuǎn)換回時間域,得到降噪后的時間域語音幀信號,對降噪后的時間域語音幀信號重新拼接成連續(xù)的語音信號,形成預(yù)處理后的語音數(shù)據(jù)。
12、優(yōu)選地,在步驟(s1)中,語音數(shù)據(jù)增強處理方法包括以下步驟:
13、(b1)對預(yù)處理后的語音數(shù)據(jù)進行短時頻譜轉(zhuǎn)換,將時域信號轉(zhuǎn)換為頻域信號;
14、(b2)對頻域信號進行自適應(yīng)權(quán)重調(diào)整,以消除回波和殘余噪聲;
15、(b3)利用自適應(yīng)權(quán)重調(diào)整后的信號抑制回波,去除信號中的回波成分,通過將其從原始信號中減去得到回波抑制后的信號;
16、(b4)對回波抑制后的信號進行提升處理,通過降低背景噪聲和增強信號細節(jié)進一步增強語音信號的清晰度;
17、(b5)將提升后的頻域信號轉(zhuǎn)換回時域,得到增強處理后的語音信號。
18、優(yōu)選地,在步驟(s2)中,根據(jù)識別結(jié)果生成初步轉(zhuǎn)寫文本的此方法包括以下步驟:
19、(c1)根據(jù)識別結(jié)果,將語音識別結(jié)果映射為詞嵌入向量;
20、(c2)使用序列單元的網(wǎng)絡(luò)提取映射后特征向量的時序特征;
21、(c3)構(gòu)建多層結(jié)構(gòu),優(yōu)化提取的時序特征;
22、(c4)采用對數(shù)似然優(yōu)化方法生成初步轉(zhuǎn)寫文本。
23、優(yōu)選地,在步驟(c3)中,優(yōu)化提取的時間特征的方法包括以下步驟:
24、(d1)通過多頭自注意力機制對時序特征進行處理;
25、(d2)使用前饋神經(jīng)網(wǎng)絡(luò)對注意力特征進一步處理;
26、(d3)基于輸出特征進行文本生成。
27、優(yōu)選地,利用自適應(yīng)文本優(yōu)化算法對初步轉(zhuǎn)寫文本進行優(yōu)化的方法包括以下步驟:
28、(e1)對于每個詞引入上下文窗口,對每個上下文窗口使用詞嵌入將詞轉(zhuǎn)換為向量表示;
29、(e2)對每個上下文向量,進行自適應(yīng)加權(quán)平均;
30、(e3)通過多層感知對自適應(yīng)加權(quán)平均后的上下文向量進行動態(tài)調(diào)整,生成優(yōu)化后的詞向量;
31、(e4)將優(yōu)化后的詞向量重新映射回詞空間。
32、本發(fā)明具有以下有益效果:
33、1、將時域信號轉(zhuǎn)換為頻域信號,通過帶通濾波器和自適應(yīng)濾波技術(shù),進一步減少了背景噪聲和其他干擾,動態(tài)調(diào)整濾波器權(quán)重,優(yōu)化信號質(zhì)量,使得降噪后的頻域表示更加清晰;降噪后的時間域語音幀信號經(jīng)過重拼接,確保信號的平滑過渡和連續(xù)性。
34、2、通過將初步轉(zhuǎn)寫文本分割成多個子序列,并行計算處理器同時處理多個子任務(wù),有效提高了系統(tǒng)的整體處理效率,對子序列進行擴展和邊界處理,確保上下文信息的完整性,從而提高處理的魯棒性。
35、3、通過自適應(yīng)動態(tài)文本優(yōu)化算法,對初步轉(zhuǎn)寫文本進行上下文分析和動態(tài)調(diào)整,使得每個詞在上下文中的語義和位置得到充分理解,從而生成優(yōu)化后的轉(zhuǎn)寫文本;通過對初步轉(zhuǎn)寫文本進行動態(tài)調(diào)整,進一步優(yōu)化識別結(jié)果,減少了識別過程中產(chǎn)生的錯誤,顯著提高了最終轉(zhuǎn)寫文本的準確性和速度。
1.一種基于人工智能的語音轉(zhuǎn)寫加速方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于人工智能的語音轉(zhuǎn)寫加速方法,其特征在于,步驟(s1)中,原始語音數(shù)據(jù)進行預(yù)處理的方法包括以下步驟:
3.根據(jù)權(quán)利要求1所述的基于人工智能的語音轉(zhuǎn)寫加速方法,其特征在于,在步驟(s1)中,語音數(shù)據(jù)增強處理方法包括以下步驟:
4.根據(jù)權(quán)利要求1所述的基于人工智能的語音轉(zhuǎn)寫加速方法,其特征在于,在步驟(s2)中,根據(jù)識別結(jié)果生成初步轉(zhuǎn)寫文本的方法包括以下步驟:
5.根據(jù)權(quán)利要求4所述的基于人工智能的語音轉(zhuǎn)寫加速方法,其特征在于,在步驟(c3)中,優(yōu)化提取的時間特征的方法包括以下步驟:
6.根據(jù)權(quán)利要求1所述的基于人工智能的語音轉(zhuǎn)寫加速方法,其特征在于,利用自適應(yīng)動態(tài)文本優(yōu)化算法對初步轉(zhuǎn)寫文本進行優(yōu)化的方法包括以下步驟: