一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)與流程

文檔序號(hào)：39346149發(fā)布日期：2024-09-10 12:10閱讀：70來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及音頻處理，并且更具體地，涉及一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)。

背景技術(shù)：

1、語音平臺(tái)是將文章的文字與語音互相轉(zhuǎn)換的一個(gè)平臺(tái)，在使用過程中發(fā)現(xiàn)，客戶如果使用方言錄制語音，轉(zhuǎn)換文字內(nèi)容時(shí)不準(zhǔn)確，還需要手動(dòng)進(jìn)行文字調(diào)整，消耗了時(shí)間、影響了客戶的體驗(yàn)感。從而目前急需一種將方言準(zhǔn)確轉(zhuǎn)換成文字?jǐn)?shù)據(jù)的方法，解決不同方言文字轉(zhuǎn)換不準(zhǔn)確的技術(shù)問題。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提供一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)。

2、根據(jù)本發(fā)明的一個(gè)方面，提供了一種方言語音的文字轉(zhuǎn)換方法，包括：

3、收集不同地區(qū)的方言語音數(shù)據(jù)，其中方言語音數(shù)據(jù)包括方言的發(fā)音、語速以及語調(diào)；

4、采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取，獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)；

5、根據(jù)多種特征音頻數(shù)據(jù)以及方言語音數(shù)據(jù)的文本標(biāo)注對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練，生成方言語音轉(zhuǎn)換模型；

6、將待轉(zhuǎn)換方言語音數(shù)據(jù)的多種待轉(zhuǎn)換特征音頻數(shù)據(jù)輸入至方言語音轉(zhuǎn)換模型，輸出待轉(zhuǎn)換方言語音數(shù)據(jù)的方言轉(zhuǎn)換文本，其中，

7、mel頻率倒譜系數(shù)算法的加窗公式為：

8、；

9、式中，a為漢明加窗函數(shù)的系數(shù)，n為分幀的長度， n為窗長。

10、可選地，還包括：對(duì)方言語音數(shù)據(jù)進(jìn)行降噪處理。

11、可選地，采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取，獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)，包括：

12、調(diào)整mel頻率倒譜系數(shù)算法的濾波器數(shù)量以及濾波器頻率范圍對(duì)不同方言的方言語音數(shù)據(jù)進(jìn)行語音特征提取，獲取不同方言的方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)中的mel頻率倒譜系數(shù)；

13、采用長時(shí)平均短時(shí)能量比算法對(duì)不同方言的方言語音數(shù)據(jù)進(jìn)行語音特征提取，獲取不同方言的方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)中的長時(shí)平均短時(shí)能量比；

14、采用語音端點(diǎn)檢測算法對(duì)不同方言的方言語音數(shù)據(jù)進(jìn)行語音特征提取，獲取不同方言的方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)中的時(shí)間特征數(shù)據(jù)。

15、可選地，長時(shí)平均短時(shí)能量比算法的公式為：

16、；

17、式中， ltse為表示長期標(biāo)準(zhǔn)誤差； n表示樣本數(shù)量； e( n)表示第n個(gè)樣本的誤差，即實(shí)際值與預(yù)測值之間的差異。

18、可選地，機(jī)器學(xué)習(xí)模型的損失函數(shù)為：

19、；

20、式中，l是損失函數(shù)，y是實(shí)際類別標(biāo)簽的概率分布，y'是預(yù)測概率分布；

21、學(xué)習(xí)函數(shù)為：

22、；

23、式中，θ是模型參數(shù)，t是迭代次數(shù)，α=0.001是學(xué)習(xí)率，?θl(y,?y')是損失函數(shù)關(guān)于模型參數(shù)的梯度。

24、根據(jù)本發(fā)明的另一個(gè)方面，提供了一種方言語音的文字轉(zhuǎn)換裝置，包括：

25、收集模塊，用于收集不同地區(qū)的方言語音數(shù)據(jù)，其中方言語音數(shù)據(jù)包括方言的發(fā)音、語速以及語調(diào)；

26、提取模塊，用于采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取，獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)；

27、訓(xùn)練模塊，用于根據(jù)多種特征音頻數(shù)據(jù)以及方言語音數(shù)據(jù)的文本標(biāo)注對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練，生成方言語音轉(zhuǎn)換模型；

28、轉(zhuǎn)換模塊，用于將待轉(zhuǎn)換方言語音數(shù)據(jù)的多種待轉(zhuǎn)換特征音頻數(shù)據(jù)輸入至方言語音轉(zhuǎn)換模型，輸出待轉(zhuǎn)換方言語音數(shù)據(jù)的方言轉(zhuǎn)換文本，其中，

29、mel頻率倒譜系數(shù)算法的加窗公式為：

30、；

31、式中，a為漢明加窗函數(shù)的系數(shù)，n為分幀的長度， n為窗長。

32、根據(jù)本發(fā)明的又一個(gè)方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序用于執(zhí)行本發(fā)明上述任一方面所述的方法。

33、根據(jù)本發(fā)明的又一個(gè)方面，提供了一種電子設(shè)備，所述電子設(shè)備包括：處理器；用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器；所述處理器，用于從所述存儲(chǔ)器中讀取所述可執(zhí)行指令，并執(zhí)行所述指令以實(shí)現(xiàn)本發(fā)明上述任一方面所述的方法。

34、從而，本申請(qǐng)通過對(duì)收集的多種方言的方言語音數(shù)據(jù)進(jìn)行標(biāo)注，并進(jìn)行特征提取形成語音池，進(jìn)行方言語音轉(zhuǎn)換模型訓(xùn)練，從而對(duì)待轉(zhuǎn)換方言語音數(shù)據(jù)進(jìn)行轉(zhuǎn)換，生成對(duì)應(yīng)的文字，并通過改進(jìn)的特征提取算法對(duì)不同方言進(jìn)行多種特征音頻數(shù)據(jù)進(jìn)行提取，提高方言轉(zhuǎn)換效率。識(shí)別多地區(qū)的方言語音，提高了轉(zhuǎn)換文字的準(zhǔn)確度，節(jié)省了時(shí)間。

技術(shù)特征：

1.一種方言語音的文字轉(zhuǎn)換方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括：對(duì)所述方言語音數(shù)據(jù)進(jìn)行降噪處理。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)所述方言語音數(shù)據(jù)進(jìn)行語音特征提取，獲取所述方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述長時(shí)平均短時(shí)能量比算法的公式為：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述機(jī)器學(xué)習(xí)模型的損失函數(shù)為：

6.一種方言語音的文字轉(zhuǎn)換裝置，其特征在于，包括：

7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，還包括：處理模塊，用于對(duì)所述方言語音數(shù)據(jù)進(jìn)行降噪處理。

8.根據(jù)權(quán)利要求6所述的裝置，其特征在于，提取模塊，包括：

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序用于執(zhí)行上述權(quán)利要求1-5任一所述的方法。

10.一種電子設(shè)備，其特征在于，所述電子設(shè)備包括：

技術(shù)總結(jié)
本發(fā)明公開了一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)。其中，方法包括：收集不同地區(qū)的方言語音數(shù)據(jù)，其中方言語音數(shù)據(jù)包括方言的發(fā)音、語速以及語調(diào)；采用Mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取，獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)；根據(jù)多種特征音頻數(shù)據(jù)以及方言語音數(shù)據(jù)的文本標(biāo)注對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練，生成方言語音轉(zhuǎn)換模型；將待轉(zhuǎn)換方言語音數(shù)據(jù)的多種待轉(zhuǎn)換特征音頻數(shù)據(jù)輸入至方言語音轉(zhuǎn)換模型，輸出待轉(zhuǎn)換方言語音數(shù)據(jù)的方言轉(zhuǎn)換文本。

技術(shù)研發(fā)人員：楊明,王浩,薛富恩
受保護(hù)的技術(shù)使用者：北京安銳卓越信息技術(shù)股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/9/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊明,王浩,薛富恩
技術(shù)所有人：北京安銳卓越信息技術(shù)股份有限公司
我是此專利的發(fā)明人

上一篇：一種聯(lián)苯亞胺芳基聚三唑及其制備方法和應(yīng)用
上一篇：一種幼雞養(yǎng)殖輔助加熱設(shè)備的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)與流程

一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)與流程