国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)與流程

      文檔序號(hào):39346149發(fā)布日期:2024-09-10 12:10閱讀:70來源:國知局
      一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)與流程

      本發(fā)明涉及音頻處理,并且更具體地,涉及一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)。


      背景技術(shù):

      1、語音平臺(tái)是將文章的文字與語音互相轉(zhuǎn)換的一個(gè)平臺(tái),在使用過程中發(fā)現(xiàn),客戶如果使用方言錄制語音,轉(zhuǎn)換文字內(nèi)容時(shí)不準(zhǔn)確,還需要手動(dòng)進(jìn)行文字調(diào)整,消耗了時(shí)間、影響了客戶的體驗(yàn)感。從而目前急需一種將方言準(zhǔn)確轉(zhuǎn)換成文字?jǐn)?shù)據(jù)的方法,解決不同方言文字轉(zhuǎn)換不準(zhǔn)確的技術(shù)問題。


      技術(shù)實(shí)現(xiàn)思路

      1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)。

      2、根據(jù)本發(fā)明的一個(gè)方面,提供了一種方言語音的文字轉(zhuǎn)換方法,包括:

      3、收集不同地區(qū)的方言語音數(shù)據(jù),其中方言語音數(shù)據(jù)包括方言的發(fā)音、語速以及語調(diào);

      4、采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù);

      5、根據(jù)多種特征音頻數(shù)據(jù)以及方言語音數(shù)據(jù)的文本標(biāo)注對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,生成方言語音轉(zhuǎn)換模型;

      6、將待轉(zhuǎn)換方言語音數(shù)據(jù)的多種待轉(zhuǎn)換特征音頻數(shù)據(jù)輸入至方言語音轉(zhuǎn)換模型,輸出待轉(zhuǎn)換方言語音數(shù)據(jù)的方言轉(zhuǎn)換文本,其中,

      7、mel頻率倒譜系數(shù)算法的加窗公式為:

      8、;

      9、式中,a為漢明加窗函數(shù)的系數(shù),n為分幀的長度, n為窗長。

      10、可選地,還包括:對(duì)方言語音數(shù)據(jù)進(jìn)行降噪處理。

      11、可選地,采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù),包括:

      12、調(diào)整mel頻率倒譜系數(shù)算法的濾波器數(shù)量以及濾波器頻率范圍對(duì)不同方言的方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取不同方言的方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)中的mel頻率倒譜系數(shù);

      13、采用長時(shí)平均短時(shí)能量比算法對(duì)不同方言的方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取不同方言的方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)中的長時(shí)平均短時(shí)能量比;

      14、采用語音端點(diǎn)檢測算法對(duì)不同方言的方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取不同方言的方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù)中的時(shí)間特征數(shù)據(jù)。

      15、可選地,長時(shí)平均短時(shí)能量比算法的公式為:

      16、;

      17、式中, ltse為表示長期標(biāo)準(zhǔn)誤差; n表示樣本數(shù)量; e( n)表示第n個(gè)樣本的誤差,即實(shí)際值與預(yù)測值之間的差異。

      18、可選地,機(jī)器學(xué)習(xí)模型的損失函數(shù)為:

      19、;

      20、式中,l是損失函數(shù),y是實(shí)際類別標(biāo)簽的概率分布,y'是預(yù)測概率分布;

      21、學(xué)習(xí)函數(shù)為:

      22、;

      23、式中,θ是模型參數(shù),t是迭代次數(shù),α=0.001是學(xué)習(xí)率,?θl(y,?y')是損失函數(shù)關(guān)于模型參數(shù)的梯度。

      24、根據(jù)本發(fā)明的另一個(gè)方面,提供了一種方言語音的文字轉(zhuǎn)換裝置,包括:

      25、收集模塊,用于收集不同地區(qū)的方言語音數(shù)據(jù),其中方言語音數(shù)據(jù)包括方言的發(fā)音、語速以及語調(diào);

      26、提取模塊,用于采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù);

      27、訓(xùn)練模塊,用于根據(jù)多種特征音頻數(shù)據(jù)以及方言語音數(shù)據(jù)的文本標(biāo)注對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,生成方言語音轉(zhuǎn)換模型;

      28、轉(zhuǎn)換模塊,用于將待轉(zhuǎn)換方言語音數(shù)據(jù)的多種待轉(zhuǎn)換特征音頻數(shù)據(jù)輸入至方言語音轉(zhuǎn)換模型,輸出待轉(zhuǎn)換方言語音數(shù)據(jù)的方言轉(zhuǎn)換文本,其中,

      29、mel頻率倒譜系數(shù)算法的加窗公式為:

      30、;

      31、式中,a為漢明加窗函數(shù)的系數(shù),n為分幀的長度, n為窗長。

      32、根據(jù)本發(fā)明的又一個(gè)方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于執(zhí)行本發(fā)明上述任一方面所述的方法。

      33、根據(jù)本發(fā)明的又一個(gè)方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:處理器;用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;所述處理器,用于從所述存儲(chǔ)器中讀取所述可執(zhí)行指令,并執(zhí)行所述指令以實(shí)現(xiàn)本發(fā)明上述任一方面所述的方法。

      34、從而,本申請(qǐng)通過對(duì)收集的多種方言的方言語音數(shù)據(jù)進(jìn)行標(biāo)注,并進(jìn)行特征提取形成語音池,進(jìn)行方言語音轉(zhuǎn)換模型訓(xùn)練,從而對(duì)待轉(zhuǎn)換方言語音數(shù)據(jù)進(jìn)行轉(zhuǎn)換,生成對(duì)應(yīng)的文字,并通過改進(jìn)的特征提取算法對(duì)不同方言進(jìn)行多種特征音頻數(shù)據(jù)進(jìn)行提取,提高方言轉(zhuǎn)換效率。識(shí)別多地區(qū)的方言語音,提高了轉(zhuǎn)換文字的準(zhǔn)確度,節(jié)省了時(shí)間。



      技術(shù)特征:

      1.一種方言語音的文字轉(zhuǎn)換方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:對(duì)所述方言語音數(shù)據(jù)進(jìn)行降噪處理。

      3.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)所述方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取所述方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù),包括:

      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述長時(shí)平均短時(shí)能量比算法的公式為:

      5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述機(jī)器學(xué)習(xí)模型的損失函數(shù)為:

      6.一種方言語音的文字轉(zhuǎn)換裝置,其特征在于,包括:

      7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括:處理模塊,用于對(duì)所述方言語音數(shù)據(jù)進(jìn)行降噪處理。

      8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,提取模塊,包括:

      9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于執(zhí)行上述權(quán)利要求1-5任一所述的方法。

      10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:


      技術(shù)總結(jié)
      本發(fā)明公開了一種方言語音的文字轉(zhuǎn)換方法、裝置及介質(zhì)。其中,方法包括:收集不同地區(qū)的方言語音數(shù)據(jù),其中方言語音數(shù)據(jù)包括方言的發(fā)音、語速以及語調(diào);采用Mel頻率倒譜系數(shù)算法、長時(shí)平均短時(shí)能量比算法以及語音端點(diǎn)檢測算法對(duì)方言語音數(shù)據(jù)進(jìn)行語音特征提取,獲取方言語音數(shù)據(jù)的多種特征音頻數(shù)據(jù);根據(jù)多種特征音頻數(shù)據(jù)以及方言語音數(shù)據(jù)的文本標(biāo)注對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,生成方言語音轉(zhuǎn)換模型;將待轉(zhuǎn)換方言語音數(shù)據(jù)的多種待轉(zhuǎn)換特征音頻數(shù)據(jù)輸入至方言語音轉(zhuǎn)換模型,輸出待轉(zhuǎn)換方言語音數(shù)據(jù)的方言轉(zhuǎn)換文本。

      技術(shù)研發(fā)人員:楊明,王浩,薛富恩
      受保護(hù)的技術(shù)使用者:北京安銳卓越信息技術(shù)股份有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/9/9
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1