国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于混合語音合成的方法、設(shè)備及系統(tǒng)與流程

      文檔序號(hào):40430958發(fā)布日期:2024-12-24 15:04閱讀:11來源:國知局
      用于混合語音合成的方法、設(shè)備及系統(tǒng)與流程

      本公開大體上涉及對(duì)原始語音信號(hào)進(jìn)行編碼及對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的方法、設(shè)備及系統(tǒng),且更明確來說,涉及通過實(shí)施在生成式對(duì)抗網(wǎng)絡(luò)設(shè)置中訓(xùn)練的生成器并結(jié)合線性預(yù)測編碼來使用緊湊學(xué)習(xí)參數(shù)表示改進(jìn)原始語音信號(hào)的合成。雖然本文將特別參考所述公開來描述一些實(shí)施例,但應(yīng)理解,本公開不限于此類使用領(lǐng)域,且適用于更廣泛的上下文。


      背景技術(shù):

      1、貫穿本公開對(duì)背景技術(shù)的任何討論決不應(yīng)被視為承認(rèn)此類技術(shù)是廣為人知的或形成本領(lǐng)域公知常識(shí)的部分。

      2、語音是人類發(fā)聲系統(tǒng)生成的聲學(xué)信號(hào),其以語言及情感信息傳輸說話者的意圖。在數(shù)字系統(tǒng)中,語音信號(hào)被表示為描述相應(yīng)語音信號(hào)的幅度的時(shí)間相依進(jìn)展的波形。

      3、當(dāng)語音信號(hào)要使用數(shù)字通信系統(tǒng)傳輸時(shí)出現(xiàn)挑戰(zhàn)。尤其針對(duì)具有有限帶寬的通信通道(例如,移動(dòng)電話網(wǎng)絡(luò)),語音信號(hào)波形的有效表示是重要的。可靠的信號(hào)表示需要高采樣率。然而,以高采樣率傳輸原始語音信號(hào)波形會(huì)導(dǎo)致高比特率及功耗,從而違反通道帶寬節(jié)省。為了節(jié)省通道帶寬,語音信號(hào)壓縮能夠傳輸相應(yīng)語音信號(hào)波形的緊湊表示。這些緊湊表示通常足以用于可靠的語音信號(hào)波形重建。

      4、在此上下文中,迄今為止使用的一種成功方法是基于模型的語音信號(hào)表示,它能夠根據(jù)模型參數(shù)描述語音信號(hào)波形。源濾波器模型是語音建模中眾所周知的方法,它利用聲門激勵(lì)信號(hào)的創(chuàng)建(源分量)及聲門激勵(lì)信號(hào)的頻譜成形(濾波器分量)。

      5、語音編解碼器可由兩部分組成:將語音信號(hào)分解為其聲門激勵(lì)加其頻譜包絡(luò)的編碼器及將語音信號(hào)再次重建回來的解碼器。在此上下文中,編碼器可執(zhí)行線性預(yù)測編碼分析任務(wù)以創(chuàng)建源濾波器模型的相應(yīng)分量,且解碼器可通過重建語音信號(hào)來執(zhí)行相應(yīng)線性預(yù)測編碼合成任務(wù)。

      6、然而,信號(hào)壓縮的總體目標(biāo)是找到緊湊表示,其能夠以較少的數(shù)據(jù)占用量對(duì)語音信號(hào)進(jìn)行編碼,并允許可靠及快速的重建。

      7、最近,生成式對(duì)抗網(wǎng)絡(luò)(gan)因其在應(yīng)用于例如包含條件圖像合成、圖像到圖像轉(zhuǎn)換、圖像樣式轉(zhuǎn)變、圖像超分辨率、圖像繪制、文本到圖像合成、視頻生成等任務(wù)中時(shí)不斷改進(jìn)可靠性而得到越來越多的關(guān)注。在應(yīng)用于語音增強(qiáng)之后,gan在語音及音頻信號(hào)處理領(lǐng)域也得到越來越多的關(guān)注。

      8、例如,l.juvela、b.bollepalli、x.wang、h.kameoka、m.airaksinen、j.yamagishi及p.alku在他們關(guān)于“使用生成式對(duì)抗網(wǎng)絡(luò)由mfcc序列進(jìn)行語音波形合成(speechwaveform?synthesis?from?mfcc?sequences?with?generative?adversarial?networks)”(ieee?icassp,卡爾加里,ab,2018,第5679到5683頁)的出版物中提出一種用于由濾波器組mel頻率倒譜系數(shù)(mfcc)進(jìn)行語音重建的方法。

      9、s.kankanahalli在關(guān)于“使用深度神經(jīng)網(wǎng)絡(luò)的端到端優(yōu)化語音編碼(end-to-endoptimized?speech?coding?with?deep?neural?networks)”(ieee?icassp,卡爾加里,ab,2018,第2521到2525頁)的出版物中提出將深度神經(jīng)網(wǎng)絡(luò)(dnn)應(yīng)用到語音編碼的概念驗(yàn)證。本出版物中的寬帶語音編碼器是從初始信號(hào)端到端學(xué)習(xí)的,除了相對(duì)簡單的感知損失外,幾乎沒有音頻專用處理。

      10、此外,l.juvela、v.tsiaras、b.bollepalli、m.airaksinen、j.yamagishi及p.alku在他們關(guān)于“用于聲門激勵(lì)的與說話者無關(guān)的初始波形模型(speaker-independent?rawwaveform?model?for?glottal?excitation)”(2018年interspeech會(huì)議錄,第2012到2016頁)的出版物中提出一種與說話者無關(guān)的神經(jīng)波形生成器,它將線性自回歸(聲道濾波器)過程與非線性(聲門源)激勵(lì)過程組合,由波網(wǎng)(wavenet)參數(shù)化。

      11、盡管正在進(jìn)行研究,但用于參數(shù)語音合成的深度生成式模型的一個(gè)挑戰(zhàn)性限制是生成過程非常緩慢。當(dāng)前用于參數(shù)語音合成的深度生成式模型通常以自回歸順序方式工作,其中信號(hào)以逐個(gè)樣本的方式順序地生成。

      12、因此,現(xiàn)仍需要對(duì)語音信號(hào)進(jìn)行有效信號(hào)壓縮,同時(shí)允許可靠且快速的重建(尤其以較低比特率)。


      技術(shù)實(shí)現(xiàn)思路

      1、根據(jù)本公開的第一方面,提供一種對(duì)原始語音信號(hào)進(jìn)行編碼以用于混合對(duì)抗參數(shù)語音合成的方法。所述方法可包含(a)接收所述原始語音信號(hào)的步驟。所述方法可進(jìn)一步包含(b)對(duì)所述原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以獲得對(duì)應(yīng)殘差的步驟。所述方法可進(jìn)一步包含(c)將所述獲得的殘差輸入到生成器的編碼器部分以對(duì)所述殘差進(jìn)行編碼的步驟。所述方法可進(jìn)一步包含(d)由所述生成器的所述編碼器部分輸出所述殘差的壓縮表示的步驟。所述方法可進(jìn)一步包含(e)對(duì)所述原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以估計(jì)原始線性預(yù)測編碼參數(shù)的步驟。且所述方法可進(jìn)一步包含(f)量化并傳輸所述原始線性預(yù)測編碼參數(shù)及所述殘差的所述壓縮表示的步驟。

      2、在一個(gè)實(shí)施例中,步驟(e)中用于線性預(yù)測編碼分析濾波的階數(shù)可等于或高于步驟(b)中的階數(shù)。

      3、在一個(gè)實(shí)施例中,步驟(b)中用于線性預(yù)測編碼分析濾波的階數(shù)可為16。

      4、在一個(gè)實(shí)施例中,步驟(e)中用于線性預(yù)測編碼分析濾波的階數(shù)可從16到50。

      5、在一個(gè)實(shí)施例中,所述生成器可為在生成式對(duì)抗網(wǎng)絡(luò)設(shè)置中訓(xùn)練的生成器。

      6、在一個(gè)實(shí)施例中,所述生成式對(duì)抗網(wǎng)絡(luò)設(shè)置可包含幾何設(shè)置、沃瑟斯坦(wasserstein)設(shè)置及基于能量的設(shè)置中的一或多者。

      7、在一個(gè)實(shí)施例中,所述生成器的所述編碼器部分可包含l層,其中在每一層中具有n個(gè)濾波器,其中l(wèi)是≥1的自然數(shù),且其中n是≥1的自然數(shù)。

      8、在一個(gè)實(shí)施例中,在所述l層的至少一層中,可執(zhí)行1d卷積運(yùn)算,接著執(zhí)行非線性運(yùn)算,所述非線性運(yùn)算包含參數(shù)修正線性單元(prelu)、修正線性單元(relu)、泄漏修正線性單元(lrelu)、指數(shù)線性單元(elu)及縮放指數(shù)線性單元(selu)。

      9、在一個(gè)實(shí)施例中,所述l層中的每一者中的所述n個(gè)濾波器的大小可相同。

      10、在一個(gè)實(shí)施例中,所述l層中的每一者中的所述n個(gè)濾波器可以步長2操作。

      11、在一個(gè)實(shí)施例中,輸出層可隨后跟隨所述生成器的所述編碼器部分的所述l層中的最后一層。

      12、在一個(gè)實(shí)施例中,所述輸出層可包含以步長1操作的n個(gè)濾波器。

      13、在一個(gè)實(shí)施例中,可在所述輸出層中執(zhí)行1d卷積運(yùn)算,接著執(zhí)行非線性運(yùn)算,所述非線性運(yùn)算包含參數(shù)修正線性單元(prelu)、修正線性單元(relu)、泄漏修正線性單元(lrelu)、指數(shù)線性單元(elu)及縮放指數(shù)線性單元(selu)。

      14、根據(jù)本公開的第二方面,提供一種對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的方法。所述方法可包含(a)接收通過對(duì)原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波所估計(jì)的經(jīng)量化原始線性預(yù)測編碼參數(shù)及所述原始語音信號(hào)的殘差的經(jīng)量化壓縮表示的步驟。所述方法可進(jìn)一步包含(b)對(duì)所述原始線性預(yù)測編碼參數(shù)及所述殘差的所述壓縮表示進(jìn)行去量化的步驟。所述方法可進(jìn)一步包含(c)將所述殘差的所述經(jīng)去量化壓縮表示輸入到生成器的解碼器部分,以應(yīng)用從所述壓縮殘差域到偽(第一)信號(hào)域的對(duì)抗映射的步驟。所述方法可進(jìn)一步包含(d)由所述生成器的所述解碼器部分輸出偽語音信號(hào)的步驟。所述方法可進(jìn)一步包含(e)對(duì)所述偽語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以獲得對(duì)應(yīng)偽殘差的步驟。且所述方法可進(jìn)一步包含(f)通過對(duì)所述偽殘差及所述經(jīng)去量化原始線性預(yù)測編碼分析參數(shù)應(yīng)用線性預(yù)測編碼交叉合成濾波來重建所述原始語音信號(hào)的步驟。

      15、在一個(gè)實(shí)施例中,步驟(e)中用于線性預(yù)測編碼分析濾波的階數(shù)可與用于估計(jì)所述原始線性預(yù)測編碼參數(shù)的階數(shù)相同。

      16、在一個(gè)實(shí)施例中,步驟(e)中用于線性預(yù)測編碼分析濾波的階數(shù)可從16到50。

      17、在一個(gè)實(shí)施例中,所述生成器可為在生成式對(duì)抗網(wǎng)絡(luò)設(shè)置中訓(xùn)練的生成器。

      18、在一個(gè)實(shí)施例中,所述生成式對(duì)抗網(wǎng)絡(luò)設(shè)置可包含幾何設(shè)置、沃瑟斯坦設(shè)置及基于能量的設(shè)置中的一或多者。

      19、在一個(gè)實(shí)施例中,所述生成器的所述解碼器部分可包含對(duì)抗生成區(qū)段。

      20、在一個(gè)實(shí)施例中,所述對(duì)抗生成區(qū)段可包含l層,其中在每一層中具有n個(gè)濾波器,其中l(wèi)是≥1的自然數(shù),且其中n是≥1的自然數(shù)。

      21、在一個(gè)實(shí)施例中,在所述對(duì)抗生成區(qū)段的所述l層中的至少一層中,可執(zhí)行轉(zhuǎn)置卷積,接著執(zhí)行門控tanh單元。

      22、在一個(gè)實(shí)施例中,所述對(duì)抗生成區(qū)段的所述l層中的每一者中的所述n個(gè)濾波器的大小可相同。

      23、在一個(gè)實(shí)施例中,所述對(duì)抗生成區(qū)段的所述l層中的每一者中的所述n個(gè)濾波器可以步長2操作。

      24、在一個(gè)實(shí)施例中,輸出層可隨后跟隨所述對(duì)抗生成區(qū)段的所述l層中的最后一層。

      25、在一個(gè)實(shí)施例中,所述輸出層可包含以步長1操作的n個(gè)濾波器。

      26、在一個(gè)實(shí)施例中,可在所述輸出層中執(zhí)行1d卷積運(yùn)算,接著執(zhí)行tanh運(yùn)算。

      27、在一個(gè)實(shí)施例中,所述生成器的所述解碼器部分可進(jìn)一步包含在所述對(duì)抗生成區(qū)段之前的上下文解碼區(qū)段。

      28、在一個(gè)實(shí)施例中,所述上下文解碼區(qū)段可包含具有n個(gè)濾波器的l=1層(其中n是≥1的自然數(shù)),接著是門控tanh單元的一或多個(gè)塊。

      29、在一個(gè)實(shí)施例中,在所述上下文解碼區(qū)段的l=1層中,所述n個(gè)濾波器的大小可為1,且可執(zhí)行1d卷積運(yùn)算。

      30、在一個(gè)實(shí)施例中,所述上下文解碼區(qū)段的l=1層中的所述n個(gè)濾波器可以步長1操作。

      31、在一個(gè)實(shí)施例中,所述上下文解碼區(qū)段的門控tanh單元的所述一或多個(gè)塊的所述輸出可與隨機(jī)噪聲向量(z)串接。

      32、在一個(gè)實(shí)施例中,所述上下文解碼區(qū)段可包含門控tanh單元的10個(gè)塊。

      33、根據(jù)本公開的第三方面,提供一種用于對(duì)原始語音信號(hào)進(jìn)行編碼以用于混合對(duì)抗參數(shù)語音合成的設(shè)備。所述設(shè)備可包含(a)接收器,其用于接收所述原始語音信號(hào)。所述設(shè)備可進(jìn)一步包含(b)線性預(yù)測編碼分析濾波器,其用于對(duì)所述原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以獲得對(duì)應(yīng)殘差。所述設(shè)備可進(jìn)一步包含(c)生成器的編碼器部分,其經(jīng)配置以在所述編碼器部分的輸入處接收所述獲得的殘差,并在所述編碼器部分的輸出處輸出所述殘差的壓縮表示,以用于對(duì)所述殘差進(jìn)行編碼。所述設(shè)備可進(jìn)一步包含(d)線性預(yù)測編碼分析濾波器,其用于對(duì)所述原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以估計(jì)原始線性預(yù)測編碼參數(shù)。且所述設(shè)備可進(jìn)一步包含(e)用于量化并傳輸所述原始線性預(yù)測編碼參數(shù)及所述殘差的所述壓縮表示的構(gòu)件。

      34、根據(jù)本公開的第四方面,提供一種用于對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的設(shè)備。所述設(shè)備可包含(a)接收器,其用于接收通過對(duì)原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波所估計(jì)的經(jīng)量化原始線性預(yù)測編碼參數(shù)及所述原始語音信號(hào)的殘差的經(jīng)量化壓縮表示。所述設(shè)備可進(jìn)一步包含(b)用于對(duì)所述原始線性預(yù)測編碼參數(shù)及所述殘差的所述壓縮表示進(jìn)行去量化的構(gòu)件。所述設(shè)備可進(jìn)一步包含(c)生成器的解碼器部分,其用于生成偽語音信號(hào)。所述設(shè)備可進(jìn)一步包含(d)線性預(yù)測分析濾波器,其用于對(duì)所述偽語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以獲得對(duì)應(yīng)偽殘差。且所述設(shè)備可進(jìn)一步包含(e)線性預(yù)測編碼合成濾波器,其用于通過對(duì)所述偽殘差及所述經(jīng)去量化原始線性預(yù)測編碼分析參數(shù)應(yīng)用線性預(yù)測編碼交叉合成濾波來重建所述原始語音信號(hào)。

      35、根據(jù)本公開的第五方面,提供一種具有用于對(duì)原始語音信號(hào)進(jìn)行編碼以用于混合對(duì)抗參數(shù)語音合成的設(shè)備(其中所述設(shè)備經(jīng)配置以執(zhí)行對(duì)原始語音信號(hào)進(jìn)行編碼以用于混合對(duì)抗參數(shù)語音合成的方法)及用于對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的設(shè)備(其中所述設(shè)備經(jīng)配置以執(zhí)行對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的方法)的系統(tǒng)。

      36、根據(jù)本公開的第六方面,提供一種用于在包含生成器(其包含編碼器部分及解碼器部分)以及鑒別器的生成式對(duì)抗網(wǎng)絡(luò)設(shè)置中訓(xùn)練生成器的方法。所述方法可包含(a)將原始語音信號(hào)的殘差的壓縮表示輸入到所述生成器中的步驟。所述方法可進(jìn)一步包含(b)基于所述殘差的所述壓縮表示由所述生成器生成偽語音信號(hào)的步驟。所述方法可進(jìn)一步包含(c)一次一個(gè)地將所述偽語音信號(hào)及從中生成所述偽語音信號(hào)的所述原始語音信號(hào)的所述壓縮殘差輸入到所述鑒別器中的步驟。所述方法可進(jìn)一步包含(d)由所述鑒別器判斷所述偽語音信號(hào)是與所述原始語音信號(hào)的所述壓縮殘差對(duì)應(yīng)還是與未定義的壓縮殘差對(duì)應(yīng)的步驟。且所述方法可進(jìn)一步包含(e)調(diào)諧所述生成器的所述參數(shù),直到所述鑒別器不再能夠區(qū)分所述偽語音信號(hào)是與所述原始語音信號(hào)的所述壓縮殘差對(duì)應(yīng)還是與所述未定義的壓縮殘差對(duì)應(yīng)的步驟。

      37、在一個(gè)實(shí)施例中,所述生成式對(duì)抗網(wǎng)絡(luò)設(shè)置可包含幾何設(shè)置、沃瑟斯坦設(shè)置及基于能量的設(shè)置中的一或多者。

      38、在一個(gè)實(shí)施例中,由所述鑒別器進(jìn)行的判斷可基于一或多個(gè)損失函數(shù)。

      39、在一個(gè)實(shí)施例中,所述鑒別器可包含編碼器級(jí),且所述編碼器級(jí)可包含l層,其中在每一層中具有n個(gè)濾波器,其中l(wèi)是≥1的自然數(shù),且其中n是≥1的自然數(shù)。

      40、在一個(gè)實(shí)施例中,在l層的至少一層中,可執(zhí)行1d卷積運(yùn)算,接著執(zhí)行包含泄漏修正線性單元(lrelu)的非線性運(yùn)算。

      41、在一個(gè)實(shí)施例中,所述l層中的每一者中的所述n個(gè)濾波器的大小可相同。

      42、在一個(gè)實(shí)施例中,所述l層中的每一者中的所述n個(gè)濾波器可以步長2操作。

      43、根據(jù)本公開的第七方面,提供一種計(jì)算機(jī)程序產(chǎn)品,其包括計(jì)算機(jī)可讀存儲(chǔ)媒體,所述計(jì)算機(jī)可讀存儲(chǔ)媒體具有適于使裝置執(zhí)行對(duì)原始語音信號(hào)進(jìn)行編碼以用于混合對(duì)抗參數(shù)語音合成的方法的指令。

      44、根據(jù)本公開的第八方面,提供一種計(jì)算機(jī)程序產(chǎn)品,其包括計(jì)算機(jī)可讀存儲(chǔ)媒體,所述計(jì)算機(jī)可讀存儲(chǔ)媒體具有適于使裝置執(zhí)行對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的方法的指令。

      45、根據(jù)本公開的第九方面,提供一種計(jì)算機(jī)程序產(chǎn)品,其包括計(jì)算機(jī)可讀存儲(chǔ)媒體,所述計(jì)算機(jī)可讀存儲(chǔ)媒體具有適于使裝置執(zhí)行用于在包括生成器(其包含編碼器部分及解碼器部分)以及鑒別器的生成式對(duì)抗網(wǎng)絡(luò)設(shè)置中訓(xùn)練生成器的方法的指令。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1