基于人工智能的語音轉(zhuǎn)寫加速方法與流程

文檔序號：40262674發(fā)布日期：2024-12-11 12:55閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音轉(zhuǎn)寫領(lǐng)域，尤其涉及一種基于人工智能的語音轉(zhuǎn)寫加速方法。

背景技術(shù)：

1、隨著語音識別技術(shù)的快速發(fā)展和廣泛應(yīng)用，語音轉(zhuǎn)寫已經(jīng)成為許多領(lǐng)域中的關(guān)鍵技術(shù)。然而，現(xiàn)有的語音轉(zhuǎn)寫系統(tǒng)在實際應(yīng)用中仍然面臨許多技術(shù)挑戰(zhàn)，包括背景噪聲干擾、信號處理效率低下、語義理解不準確等問題。這些問題嚴重影響了語音轉(zhuǎn)寫的準確性和效率，制約了其在更廣泛應(yīng)用場景中的推廣和應(yīng)用。

2、在實際應(yīng)用中，語音信號往往伴隨大量的背景噪聲和干擾，這使得語音識別系統(tǒng)難以準確提取出有效的語音特征。傳統(tǒng)的信號處理方法，如帶通濾波器和快速傅里葉變換(fft)，在處理復(fù)雜噪聲環(huán)境時效果有限。此外，靜音段和初始段的噪聲頻譜估計不準確，導(dǎo)致降噪效果不佳，進一步影響了語音識別的準確性。此外，語音識別系統(tǒng)在生成初步轉(zhuǎn)寫文本時，通常只關(guān)注局部特征，忽略了詞與詞之間的語義關(guān)系，導(dǎo)致生成的轉(zhuǎn)寫文本語義不連貫、邏輯不清晰。

3、除上述提出的技術(shù)問題外，現(xiàn)有技術(shù)還存在語音轉(zhuǎn)寫時準確性較差、效率較低等技術(shù)問題。

技術(shù)實現(xiàn)思路

1、為了克服背景技術(shù)中提出的語音轉(zhuǎn)寫領(lǐng)域中現(xiàn)有技術(shù)的不足，本發(fā)明提供一種基于人工智能的語音轉(zhuǎn)寫加速方法。

2、為實現(xiàn)上述目的，本發(fā)明公開的一種基于人工智能的語音轉(zhuǎn)寫加速方法，包括以下步驟：

3、(s1)獲取原始語音數(shù)據(jù)，對獲取的原始語音數(shù)據(jù)先預(yù)處理再增強處理，對增強后的語音數(shù)據(jù)進行特征提取，得到語音特征，基于語音特征進行語音識別，得到識別結(jié)果；

4、(s2)根據(jù)識別結(jié)果生成初步轉(zhuǎn)寫文本，通過自適應(yīng)動態(tài)文本優(yōu)化算法對初步撰寫文本進行優(yōu)化，得到優(yōu)化后的轉(zhuǎn)寫文本，同時在轉(zhuǎn)寫過程中通過優(yōu)化加速算法優(yōu)化轉(zhuǎn)寫效率。

5、優(yōu)選地，步驟(s1)中，原始語音數(shù)據(jù)進行預(yù)處理的方法包括以下步驟：

6、(a1)將原始語音信號分割成固定長度的幀，得到分幀后的語音信號；

7、(a2)對每一幀語音信號應(yīng)用加窗函數(shù)，得到加窗后的語音幀信號；

8、(a3)對每一幀加窗后的語音幀信號進行快速傅里葉變換，將時間域信號轉(zhuǎn)換到頻域，得到頻域表示的語音幀；

9、(a4)在靜音段或初始段，計算噪聲頻譜，得到估計的背景噪聲頻譜；

10、(a5)對語音幀和背景噪聲頻譜濾除噪聲，得到降噪后的頻域表示；

11、(a6)對降噪后的頻域信號進行逆快速傅里葉變換，將頻域信號轉(zhuǎn)換回時間域，得到降噪后的時間域語音幀信號，對降噪后的時間域語音幀信號重新拼接成連續(xù)的語音信號，形成預(yù)處理后的語音數(shù)據(jù)。

12、優(yōu)選地，在步驟(s1)中，語音數(shù)據(jù)增強處理方法包括以下步驟：

13、(b1)對預(yù)處理后的語音數(shù)據(jù)進行短時頻譜轉(zhuǎn)換，將時域信號轉(zhuǎn)換為頻域信號；

14、(b2)對頻域信號進行自適應(yīng)權(quán)重調(diào)整，以消除回波和殘余噪聲；

15、(b3)利用自適應(yīng)權(quán)重調(diào)整后的信號抑制回波，去除信號中的回波成分，通過將其從原始信號中減去得到回波抑制后的信號；

16、(b4)對回波抑制后的信號進行提升處理，通過降低背景噪聲和增強信號細節(jié)進一步增強語音信號的清晰度；

17、(b5)將提升后的頻域信號轉(zhuǎn)換回時域，得到增強處理后的語音信號。

18、優(yōu)選地，在步驟(s2)中，根據(jù)識別結(jié)果生成初步轉(zhuǎn)寫文本的此方法包括以下步驟：

19、(c1)根據(jù)識別結(jié)果，將語音識別結(jié)果映射為詞嵌入向量；

20、(c2)使用序列單元的網(wǎng)絡(luò)提取映射后特征向量的時序特征；

21、(c3)構(gòu)建多層結(jié)構(gòu)，優(yōu)化提取的時序特征；

22、(c4)采用對數(shù)似然優(yōu)化方法生成初步轉(zhuǎn)寫文本。

23、優(yōu)選地，在步驟(c3)中，優(yōu)化提取的時間特征的方法包括以下步驟：

24、(d1)通過多頭自注意力機制對時序特征進行處理；

25、(d2)使用前饋神經(jīng)網(wǎng)絡(luò)對注意力特征進一步處理；

26、(d3)基于輸出特征進行文本生成。

27、優(yōu)選地，利用自適應(yīng)文本優(yōu)化算法對初步轉(zhuǎn)寫文本進行優(yōu)化的方法包括以下步驟：

28、(e1)對于每個詞引入上下文窗口，對每個上下文窗口使用詞嵌入將詞轉(zhuǎn)換為向量表示；

29、(e2)對每個上下文向量，進行自適應(yīng)加權(quán)平均；

30、(e3)通過多層感知對自適應(yīng)加權(quán)平均后的上下文向量進行動態(tài)調(diào)整，生成優(yōu)化后的詞向量；

31、(e4)將優(yōu)化后的詞向量重新映射回詞空間。

32、本發(fā)明具有以下有益效果：

33、1、將時域信號轉(zhuǎn)換為頻域信號，通過帶通濾波器和自適應(yīng)濾波技術(shù)，進一步減少了背景噪聲和其他干擾，動態(tài)調(diào)整濾波器權(quán)重，優(yōu)化信號質(zhì)量，使得降噪后的頻域表示更加清晰；降噪后的時間域語音幀信號經(jīng)過重拼接，確保信號的平滑過渡和連續(xù)性。

34、2、通過將初步轉(zhuǎn)寫文本分割成多個子序列，并行計算處理器同時處理多個子任務(wù)，有效提高了系統(tǒng)的整體處理效率，對子序列進行擴展和邊界處理，確保上下文信息的完整性，從而提高處理的魯棒性。

35、3、通過自適應(yīng)動態(tài)文本優(yōu)化算法，對初步轉(zhuǎn)寫文本進行上下文分析和動態(tài)調(diào)整，使得每個詞在上下文中的語義和位置得到充分理解，從而生成優(yōu)化后的轉(zhuǎn)寫文本；通過對初步轉(zhuǎn)寫文本進行動態(tài)調(diào)整，進一步優(yōu)化識別結(jié)果，減少了識別過程中產(chǎn)生的錯誤，顯著提高了最終轉(zhuǎn)寫文本的準確性和速度。

技術(shù)特征：

1.一種基于人工智能的語音轉(zhuǎn)寫加速方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于人工智能的語音轉(zhuǎn)寫加速方法，其特征在于，步驟(s1)中，原始語音數(shù)據(jù)進行預(yù)處理的方法包括以下步驟：

3.根據(jù)權(quán)利要求1所述的基于人工智能的語音轉(zhuǎn)寫加速方法，其特征在于，在步驟(s1)中，語音數(shù)據(jù)增強處理方法包括以下步驟：

4.根據(jù)權(quán)利要求1所述的基于人工智能的語音轉(zhuǎn)寫加速方法，其特征在于，在步驟(s2)中，根據(jù)識別結(jié)果生成初步轉(zhuǎn)寫文本的方法包括以下步驟：

5.根據(jù)權(quán)利要求4所述的基于人工智能的語音轉(zhuǎn)寫加速方法，其特征在于，在步驟(c3)中，優(yōu)化提取的時間特征的方法包括以下步驟：

6.根據(jù)權(quán)利要求1所述的基于人工智能的語音轉(zhuǎn)寫加速方法，其特征在于，利用自適應(yīng)動態(tài)文本優(yōu)化算法對初步轉(zhuǎn)寫文本進行優(yōu)化的方法包括以下步驟：

技術(shù)總結(jié)
本發(fā)明涉及語音轉(zhuǎn)寫領(lǐng)域，尤其涉及基于人工智能的語音轉(zhuǎn)寫加速方法，包括以下步驟：(S1)獲取原始語音數(shù)據(jù)，對獲取的原始語音數(shù)據(jù)先預(yù)處理再增強處理，對增強后的語音數(shù)據(jù)進行特征提取，得到語音特征，基于語音特征進行語音識別，得到識別結(jié)果；(S2)根據(jù)識別結(jié)果生成初步轉(zhuǎn)寫文本，通過自適應(yīng)動態(tài)文本優(yōu)化算法對初步撰寫文本進行優(yōu)化，得到優(yōu)化后的轉(zhuǎn)寫文本，同時在轉(zhuǎn)寫過程中通過優(yōu)化加速算法優(yōu)化轉(zhuǎn)寫效率。本發(fā)明公開的基于人工智能的語音轉(zhuǎn)寫加速方法，減少了背景噪聲和其他干擾，提高了最終撰寫文本的準確性和速度。

技術(shù)研發(fā)人員：王立強,賀文晨,李藝濤,寧珊,劉睿霖,董一凡,王慎強
受保護的技術(shù)使用者：國家計算機網(wǎng)絡(luò)與信息安全管理中心
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王立強,賀文晨,李藝濤,寧珊,劉睿霖,董一凡,王慎強
技術(shù)所有人：國家計算機網(wǎng)絡(luò)與信息安全管理中心
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于人工智能的語音轉(zhuǎn)寫加速方法與流程