本發(fā)明涉及音頻處理,并且更具體地,涉及一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)。
背景技術(shù):
1、語音平臺(tái)是將文章的文字與語音互相轉(zhuǎn)換的一個(gè)平臺(tái),在使用過程中發(fā)現(xiàn),客戶如果使用方言錄制語音,轉(zhuǎn)換文字內(nèi)容時(shí)不準(zhǔn)確,還需要手動(dòng)進(jìn)行文字調(diào)整,消耗了時(shí)間、影響了客戶的體驗(yàn)感。從而目前急需一種將方言準(zhǔn)確轉(zhuǎn)換成文字?jǐn)?shù)據(jù)的方法,解決不同方言文字轉(zhuǎn)換不準(zhǔn)確的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)。
2、根據(jù)本發(fā)明的一個(gè)方面,提供了一種方言語音的文字轉(zhuǎn)換方法,包括:
3、收集不同地區(qū)的方言語音數(shù)據(jù),其中方言語音數(shù)據(jù)包括方言的發(fā)音、語速以及語調(diào);
4、采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù);
5、根據(jù)多種特征音頻數(shù)據(jù)以及方言語音數(shù)據(jù)的文本標(biāo)注對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,生成方言語音轉(zhuǎn)換模型;
6、將待轉(zhuǎn)換方言語音數(shù)據(jù)的多種待轉(zhuǎn)換特征音頻數(shù)據(jù)輸入至方言語音轉(zhuǎn)換模型,輸出待轉(zhuǎn)換方言語音數(shù)據(jù)的方言轉(zhuǎn)換文本,其中,
7、mel頻率倒譜系數(shù)算法的加窗公式為:
8、;
9、式中,a為漢明加窗函數(shù)的系數(shù),n為分幀的長度, n為窗長。
10、可選地,還包括:對(duì)方言語音數(shù)據(jù)進(jìn)行降噪處理。
11、可選地,采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù),包括:
12、調(diào)整mel頻率倒譜系數(shù)算法的濾波器數(shù)量以及濾波器頻率范圍對(duì)不同方言的方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取不同方言的方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)中的mel頻率倒譜系數(shù);
13、采用長時(shí)平均短時(shí)能量比算法對(duì)不同方言的方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取不同方言的方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)中的長時(shí)平均短時(shí)能量比;
14、采用語音端點(diǎn)檢測算法對(duì)不同方言的方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取不同方言的方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)中的時(shí)間特征數(shù)據(jù)。
15、可選地,長時(shí)平均短時(shí)能量比算法的公式為:
16、;
17、式中, ltse為表示長期標(biāo)準(zhǔn)誤差; n表示樣本數(shù)量; e( n)表示第n個(gè)樣本的誤差,即實(shí)際值與預(yù)測值之間的差異。
18、可選地,機(jī)器學(xué)習(xí)模型的損失函數(shù)為:
19、;
20、式中,l是損失函數(shù),y是實(shí)際類別標(biāo)簽的概率分布,y'是預(yù)測概率分布;
21、學(xué)習(xí)函數(shù)為:
22、;
23、式中,θ是模型參數(shù),t是迭代次數(shù),α=0.001是學(xué)習(xí)率,?θl(y,?y')是損失函數(shù)關(guān)于模型參數(shù)的梯度。
24、根據(jù)本發(fā)明的另一個(gè)方面,提供了一種方言語音的文字轉(zhuǎn)換裝置,包括:
25、收集模塊,用于收集不同地區(qū)的方言語音數(shù)據(jù),其中方言語音數(shù)據(jù)包括方言的發(fā)音、語速以及語調(diào);
26、提取模塊,用于采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù);
27、訓(xùn)練模塊,用于根據(jù)多種特征音頻數(shù)據(jù)以及方言語音數(shù)據(jù)的文本標(biāo)注對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,生成方言語音轉(zhuǎn)換模型;
28、轉(zhuǎn)換模塊,用于將待轉(zhuǎn)換方言語音數(shù)據(jù)的多種待轉(zhuǎn)換特征音頻數(shù)據(jù)輸入至方言語音轉(zhuǎn)換模型,輸出待轉(zhuǎn)換方言語音數(shù)據(jù)的方言轉(zhuǎn)換文本,其中,
29、mel頻率倒譜系數(shù)算法的加窗公式為:
30、;
31、式中,a為漢明加窗函數(shù)的系數(shù),n為分幀的長度, n為窗長。
32、根據(jù)本發(fā)明的又一個(gè)方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于執(zhí)行本發(fā)明上述任一方面所述的方法。
33、根據(jù)本發(fā)明的又一個(gè)方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:處理器;用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;所述處理器,用于從所述存儲(chǔ)器中讀取所述可執(zhí)行指令,并執(zhí)行所述指令以實(shí)現(xiàn)本發(fā)明上述任一方面所述的方法。
34、從而,本申請(qǐng)通過對(duì)收集的多種方言的方言語音數(shù)據(jù)進(jìn)行標(biāo)注,并進(jìn)行特征提取形成語音池,進(jìn)行方言語音轉(zhuǎn)換模型訓(xùn)練,從而對(duì)待轉(zhuǎn)換方言語音數(shù)據(jù)進(jìn)行轉(zhuǎn)換,生成對(duì)應(yīng)的文字,并通過改進(jìn)的特征提取算法對(duì)不同方言進(jìn)行多種特征音頻數(shù)據(jù)進(jìn)行提取,提高方言轉(zhuǎn)換效率。識(shí)別多地區(qū)的方言語音,提高了轉(zhuǎn)換文字的準(zhǔn)確度,節(jié)省了時(shí)間。
1.一種方言語音的文字轉(zhuǎn)換方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:對(duì)所述方言語音數(shù)據(jù)進(jìn)行降噪處理。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)所述方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取所述方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述長時(shí)平均短時(shí)能量比算法的公式為:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述機(jī)器學(xué)習(xí)模型的損失函數(shù)為:
6.一種方言語音的文字轉(zhuǎn)換裝置,其特征在于,包括:
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括:處理模塊,用于對(duì)所述方言語音數(shù)據(jù)進(jìn)行降噪處理。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,提取模塊,包括:
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于執(zhí)行上述權(quán)利要求1-5任一所述的方法。
10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括: