用于混合語音合成的方法、設(shè)備及系統(tǒng)與流程

文檔序號(hào)：40430958發(fā)布日期：2024-12-24 15:04閱讀：11來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開大體上涉及對(duì)原始語音信號(hào)進(jìn)行編碼及對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的方法、設(shè)備及系統(tǒng)，且更明確來說，涉及通過實(shí)施在生成式對(duì)抗網(wǎng)絡(luò)設(shè)置中訓(xùn)練的生成器并結(jié)合線性預(yù)測編碼來使用緊湊學(xué)習(xí)參數(shù)表示改進(jìn)原始語音信號(hào)的合成。雖然本文將特別參考所述公開來描述一些實(shí)施例，但應(yīng)理解，本公開不限于此類使用領(lǐng)域，且適用于更廣泛的上下文。

背景技術(shù)：

1、貫穿本公開對(duì)背景技術(shù)的任何討論決不應(yīng)被視為承認(rèn)此類技術(shù)是廣為人知的或形成本領(lǐng)域公知常識(shí)的部分。

2、語音是人類發(fā)聲系統(tǒng)生成的聲學(xué)信號(hào)，其以語言及情感信息傳輸說話者的意圖。在數(shù)字系統(tǒng)中，語音信號(hào)被表示為描述相應(yīng)語音信號(hào)的幅度的時(shí)間相依進(jìn)展的波形。

3、當(dāng)語音信號(hào)要使用數(shù)字通信系統(tǒng)傳輸時(shí)出現(xiàn)挑戰(zhàn)。尤其針對(duì)具有有限帶寬的通信通道(例如，移動(dòng)電話網(wǎng)絡(luò))，語音信號(hào)波形的有效表示是重要的。可靠的信號(hào)表示需要高采樣率。然而，以高采樣率傳輸原始語音信號(hào)波形會(huì)導(dǎo)致高比特率及功耗，從而違反通道帶寬節(jié)省。為了節(jié)省通道帶寬，語音信號(hào)壓縮能夠傳輸相應(yīng)語音信號(hào)波形的緊湊表示。這些緊湊表示通常足以用于可靠的語音信號(hào)波形重建。

4、在此上下文中，迄今為止使用的一種成功方法是基于模型的語音信號(hào)表示，它能夠根據(jù)模型參數(shù)描述語音信號(hào)波形。源濾波器模型是語音建模中眾所周知的方法，它利用聲門激勵(lì)信號(hào)的創(chuàng)建(源分量)及聲門激勵(lì)信號(hào)的頻譜成形(濾波器分量)。

5、語音編解碼器可由兩部分組成：將語音信號(hào)分解為其聲門激勵(lì)加其頻譜包絡(luò)的編碼器及將語音信號(hào)再次重建回來的解碼器。在此上下文中，編碼器可執(zhí)行線性預(yù)測編碼分析任務(wù)以創(chuàng)建源濾波器模型的相應(yīng)分量，且解碼器可通過重建語音信號(hào)來執(zhí)行相應(yīng)線性預(yù)測編碼合成任務(wù)。

6、然而，信號(hào)壓縮的總體目標(biāo)是找到緊湊表示，其能夠以較少的數(shù)據(jù)占用量對(duì)語音信號(hào)進(jìn)行編碼，并允許可靠及快速的重建。

7、最近，生成式對(duì)抗網(wǎng)絡(luò)(gan)因其在應(yīng)用于例如包含條件圖像合成、圖像到圖像轉(zhuǎn)換、圖像樣式轉(zhuǎn)變、圖像超分辨率、圖像繪制、文本到圖像合成、視頻生成等任務(wù)中時(shí)不斷改進(jìn)可靠性而得到越來越多的關(guān)注。在應(yīng)用于語音增強(qiáng)之后，gan在語音及音頻信號(hào)處理領(lǐng)域也得到越來越多的關(guān)注。

8、例如，l.juvela、b.bollepalli、x.wang、h.kameoka、m.airaksinen、j.yamagishi及p.alku在他們關(guān)于“使用生成式對(duì)抗網(wǎng)絡(luò)由mfcc序列進(jìn)行語音波形合成(speechwaveform?synthesis?from?mfcc?sequences?with?generative?adversarial?networks)”(ieee?icassp，卡爾加里，ab，2018，第5679到5683頁)的出版物中提出一種用于由濾波器組mel頻率倒譜系數(shù)(mfcc)進(jìn)行語音重建的方法。

9、s.kankanahalli在關(guān)于“使用深度神經(jīng)網(wǎng)絡(luò)的端到端優(yōu)化語音編碼(end-to-endoptimized?speech?coding?with?deep?neural?networks)”(ieee?icassp，卡爾加里，ab，2018，第2521到2525頁)的出版物中提出將深度神經(jīng)網(wǎng)絡(luò)(dnn)應(yīng)用到語音編碼的概念驗(yàn)證。本出版物中的寬帶語音編碼器是從初始信號(hào)端到端學(xué)習(xí)的，除了相對(duì)簡單的感知損失外，幾乎沒有音頻專用處理。

10、此外，l.juvela、v.tsiaras、b.bollepalli、m.airaksinen、j.yamagishi及p.alku在他們關(guān)于“用于聲門激勵(lì)的與說話者無關(guān)的初始波形模型(speaker-independent?rawwaveform?model?for?glottal?excitation)”(2018年interspeech會(huì)議錄，第2012到2016頁)的出版物中提出一種與說話者無關(guān)的神經(jīng)波形生成器，它將線性自回歸(聲道濾波器)過程與非線性(聲門源)激勵(lì)過程組合，由波網(wǎng)(wavenet)參數(shù)化。

11、盡管正在進(jìn)行研究，但用于參數(shù)語音合成的深度生成式模型的一個(gè)挑戰(zhàn)性限制是生成過程非常緩慢。當(dāng)前用于參數(shù)語音合成的深度生成式模型通常以自回歸順序方式工作，其中信號(hào)以逐個(gè)樣本的方式順序地生成。

12、因此，現(xiàn)仍需要對(duì)語音信號(hào)進(jìn)行有效信號(hào)壓縮，同時(shí)允許可靠且快速的重建(尤其以較低比特率)。

技術(shù)實(shí)現(xiàn)思路

1、根據(jù)本公開的第一方面，提供一種對(duì)原始語音信號(hào)進(jìn)行編碼以用于混合對(duì)抗參數(shù)語音合成的方法。所述方法可包含(a)接收所述原始語音信號(hào)的步驟。所述方法可進(jìn)一步包含(b)對(duì)所述原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以獲得對(duì)應(yīng)殘差的步驟。所述方法可進(jìn)一步包含(c)將所述獲得的殘差輸入到生成器的編碼器部分以對(duì)所述殘差進(jìn)行編碼的步驟。所述方法可進(jìn)一步包含(d)由所述生成器的所述編碼器部分輸出所述殘差的壓縮表示的步驟。所述方法可進(jìn)一步包含(e)對(duì)所述原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以估計(jì)原始線性預(yù)測編碼參數(shù)的步驟。且所述方法可進(jìn)一步包含(f)量化并傳輸所述原始線性預(yù)測編碼參數(shù)及所述殘差的所述壓縮表示的步驟。

2、在一個(gè)實(shí)施例中，步驟(e)中用于線性預(yù)測編碼分析濾波的階數(shù)可等于或高于步驟(b)中的階數(shù)。

3、在一個(gè)實(shí)施例中，步驟(b)中用于線性預(yù)測編碼分析濾波的階數(shù)可為16。

4、在一個(gè)實(shí)施例中，步驟(e)中用于線性預(yù)測編碼分析濾波的階數(shù)可從16到50。

5、在一個(gè)實(shí)施例中，所述生成器可為在生成式對(duì)抗網(wǎng)絡(luò)設(shè)置中訓(xùn)練的生成器。

6、在一個(gè)實(shí)施例中，所述生成式對(duì)抗網(wǎng)絡(luò)設(shè)置可包含幾何設(shè)置、沃瑟斯坦(wasserstein)設(shè)置及基于能量的設(shè)置中的一或多者。

7、在一個(gè)實(shí)施例中，所述生成器的所述編碼器部分可包含l層，其中在每一層中具有n個(gè)濾波器，其中l(wèi)是≥1的自然數(shù)，且其中n是≥1的自然數(shù)。

8、在一個(gè)實(shí)施例中，在所述l層的至少一層中，可執(zhí)行1d卷積運(yùn)算，接著執(zhí)行非線性運(yùn)算，所述非線性運(yùn)算包含參數(shù)修正線性單元(prelu)、修正線性單元(relu)、泄漏修正線性單元(lrelu)、指數(shù)線性單元(elu)及縮放指數(shù)線性單元(selu)。

9、在一個(gè)實(shí)施例中，所述l層中的每一者中的所述n個(gè)濾波器的大小可相同。

10、在一個(gè)實(shí)施例中，所述l層中的每一者中的所述n個(gè)濾波器可以步長2操作。

11、在一個(gè)實(shí)施例中，輸出層可隨后跟隨所述生成器的所述編碼器部分的所述l層中的最后一層。

12、在一個(gè)實(shí)施例中，所述輸出層可包含以步長1操作的n個(gè)濾波器。

13、在一個(gè)實(shí)施例中，可在所述輸出層中執(zhí)行1d卷積運(yùn)算，接著執(zhí)行非線性運(yùn)算，所述非線性運(yùn)算包含參數(shù)修正線性單元(prelu)、修正線性單元(relu)、泄漏修正線性單元(lrelu)、指數(shù)線性單元(elu)及縮放指數(shù)線性單元(selu)。

14、根據(jù)本公開的第二方面，提供一種對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的方法。所述方法可包含(a)接收通過對(duì)原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波所估計(jì)的經(jīng)量化原始線性預(yù)測編碼參數(shù)及所述原始語音信號(hào)的殘差的經(jīng)量化壓縮表示的步驟。所述方法可進(jìn)一步包含(b)對(duì)所述原始線性預(yù)測編碼參數(shù)及所述殘差的所述壓縮表示進(jìn)行去量化的步驟。所述方法可進(jìn)一步包含(c)將所述殘差的所述經(jīng)去量化壓縮表示輸入到生成器的解碼器部分，以應(yīng)用從所述壓縮殘差域到偽(第一)信號(hào)域的對(duì)抗映射的步驟。所述方法可進(jìn)一步包含(d)由所述生成器的所述解碼器部分輸出偽語音信號(hào)的步驟。所述方法可進(jìn)一步包含(e)對(duì)所述偽語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以獲得對(duì)應(yīng)偽殘差的步驟。且所述方法可進(jìn)一步包含(f)通過對(duì)所述偽殘差及所述經(jīng)去量化原始線性預(yù)測編碼分析參數(shù)應(yīng)用線性預(yù)測編碼交叉合成濾波來重建所述原始語音信號(hào)的步驟。

15、在一個(gè)實(shí)施例中，步驟(e)中用于線性預(yù)測編碼分析濾波的階數(shù)可與用于估計(jì)所述原始線性預(yù)測編碼參數(shù)的階數(shù)相同。

16、在一個(gè)實(shí)施例中，步驟(e)中用于線性預(yù)測編碼分析濾波的階數(shù)可從16到50。

17、在一個(gè)實(shí)施例中，所述生成器可為在生成式對(duì)抗網(wǎng)絡(luò)設(shè)置中訓(xùn)練的生成器。

18、在一個(gè)實(shí)施例中，所述生成式對(duì)抗網(wǎng)絡(luò)設(shè)置可包含幾何設(shè)置、沃瑟斯坦設(shè)置及基于能量的設(shè)置中的一或多者。

19、在一個(gè)實(shí)施例中，所述生成器的所述解碼器部分可包含對(duì)抗生成區(qū)段。

20、在一個(gè)實(shí)施例中，所述對(duì)抗生成區(qū)段可包含l層，其中在每一層中具有n個(gè)濾波器，其中l(wèi)是≥1的自然數(shù)，且其中n是≥1的自然數(shù)。

21、在一個(gè)實(shí)施例中，在所述對(duì)抗生成區(qū)段的所述l層中的至少一層中，可執(zhí)行轉(zhuǎn)置卷積，接著執(zhí)行門控tanh單元。

22、在一個(gè)實(shí)施例中，所述對(duì)抗生成區(qū)段的所述l層中的每一者中的所述n個(gè)濾波器的大小可相同。

23、在一個(gè)實(shí)施例中，所述對(duì)抗生成區(qū)段的所述l層中的每一者中的所述n個(gè)濾波器可以步長2操作。

24、在一個(gè)實(shí)施例中，輸出層可隨后跟隨所述對(duì)抗生成區(qū)段的所述l層中的最后一層。

25、在一個(gè)實(shí)施例中，所述輸出層可包含以步長1操作的n個(gè)濾波器。

26、在一個(gè)實(shí)施例中，可在所述輸出層中執(zhí)行1d卷積運(yùn)算，接著執(zhí)行tanh運(yùn)算。

27、在一個(gè)實(shí)施例中，所述生成器的所述解碼器部分可進(jìn)一步包含在所述對(duì)抗生成區(qū)段之前的上下文解碼區(qū)段。

28、在一個(gè)實(shí)施例中，所述上下文解碼區(qū)段可包含具有n個(gè)濾波器的l＝1層(其中n是≥1的自然數(shù))，接著是門控tanh單元的一或多個(gè)塊。

29、在一個(gè)實(shí)施例中，在所述上下文解碼區(qū)段的l＝1層中，所述n個(gè)濾波器的大小可為1，且可執(zhí)行1d卷積運(yùn)算。

30、在一個(gè)實(shí)施例中，所述上下文解碼區(qū)段的l＝1層中的所述n個(gè)濾波器可以步長1操作。

31、在一個(gè)實(shí)施例中，所述上下文解碼區(qū)段的門控tanh單元的所述一或多個(gè)塊的所述輸出可與隨機(jī)噪聲向量(z)串接。

32、在一個(gè)實(shí)施例中，所述上下文解碼區(qū)段可包含門控tanh單元的10個(gè)塊。

33、根據(jù)本公開的第三方面，提供一種用于對(duì)原始語音信號(hào)進(jìn)行編碼以用于混合對(duì)抗參數(shù)語音合成的設(shè)備。所述設(shè)備可包含(a)接收器，其用于接收所述原始語音信號(hào)。所述設(shè)備可進(jìn)一步包含(b)線性預(yù)測編碼分析濾波器，其用于對(duì)所述原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以獲得對(duì)應(yīng)殘差。所述設(shè)備可進(jìn)一步包含(c)生成器的編碼器部分，其經(jīng)配置以在所述編碼器部分的輸入處接收所述獲得的殘差，并在所述編碼器部分的輸出處輸出所述殘差的壓縮表示，以用于對(duì)所述殘差進(jìn)行編碼。所述設(shè)備可進(jìn)一步包含(d)線性預(yù)測編碼分析濾波器，其用于對(duì)所述原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以估計(jì)原始線性預(yù)測編碼參數(shù)。且所述設(shè)備可進(jìn)一步包含(e)用于量化并傳輸所述原始線性預(yù)測編碼參數(shù)及所述殘差的所述壓縮表示的構(gòu)件。

34、根據(jù)本公開的第四方面，提供一種用于對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的設(shè)備。所述設(shè)備可包含(a)接收器，其用于接收通過對(duì)原始語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波所估計(jì)的經(jīng)量化原始線性預(yù)測編碼參數(shù)及所述原始語音信號(hào)的殘差的經(jīng)量化壓縮表示。所述設(shè)備可進(jìn)一步包含(b)用于對(duì)所述原始線性預(yù)測編碼參數(shù)及所述殘差的所述壓縮表示進(jìn)行去量化的構(gòu)件。所述設(shè)備可進(jìn)一步包含(c)生成器的解碼器部分，其用于生成偽語音信號(hào)。所述設(shè)備可進(jìn)一步包含(d)線性預(yù)測分析濾波器，其用于對(duì)所述偽語音信號(hào)應(yīng)用線性預(yù)測編碼分析濾波以獲得對(duì)應(yīng)偽殘差。且所述設(shè)備可進(jìn)一步包含(e)線性預(yù)測編碼合成濾波器，其用于通過對(duì)所述偽殘差及所述經(jīng)去量化原始線性預(yù)測編碼分析參數(shù)應(yīng)用線性預(yù)測編碼交叉合成濾波來重建所述原始語音信號(hào)。

35、根據(jù)本公開的第五方面，提供一種具有用于對(duì)原始語音信號(hào)進(jìn)行編碼以用于混合對(duì)抗參數(shù)語音合成的設(shè)備(其中所述設(shè)備經(jīng)配置以執(zhí)行對(duì)原始語音信號(hào)進(jìn)行編碼以用于混合對(duì)抗參數(shù)語音合成的方法)及用于對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的設(shè)備(其中所述設(shè)備經(jīng)配置以執(zhí)行對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的方法)的系統(tǒng)。

36、根據(jù)本公開的第六方面，提供一種用于在包含生成器(其包含編碼器部分及解碼器部分)以及鑒別器的生成式對(duì)抗網(wǎng)絡(luò)設(shè)置中訓(xùn)練生成器的方法。所述方法可包含(a)將原始語音信號(hào)的殘差的壓縮表示輸入到所述生成器中的步驟。所述方法可進(jìn)一步包含(b)基于所述殘差的所述壓縮表示由所述生成器生成偽語音信號(hào)的步驟。所述方法可進(jìn)一步包含(c)一次一個(gè)地將所述偽語音信號(hào)及從中生成所述偽語音信號(hào)的所述原始語音信號(hào)的所述壓縮殘差輸入到所述鑒別器中的步驟。所述方法可進(jìn)一步包含(d)由所述鑒別器判斷所述偽語音信號(hào)是與所述原始語音信號(hào)的所述壓縮殘差對(duì)應(yīng)還是與未定義的壓縮殘差對(duì)應(yīng)的步驟。且所述方法可進(jìn)一步包含(e)調(diào)諧所述生成器的所述參數(shù)，直到所述鑒別器不再能夠區(qū)分所述偽語音信號(hào)是與所述原始語音信號(hào)的所述壓縮殘差對(duì)應(yīng)還是與所述未定義的壓縮殘差對(duì)應(yīng)的步驟。

37、在一個(gè)實(shí)施例中，所述生成式對(duì)抗網(wǎng)絡(luò)設(shè)置可包含幾何設(shè)置、沃瑟斯坦設(shè)置及基于能量的設(shè)置中的一或多者。

38、在一個(gè)實(shí)施例中，由所述鑒別器進(jìn)行的判斷可基于一或多個(gè)損失函數(shù)。

39、在一個(gè)實(shí)施例中，所述鑒別器可包含編碼器級(jí)，且所述編碼器級(jí)可包含l層，其中在每一層中具有n個(gè)濾波器，其中l(wèi)是≥1的自然數(shù)，且其中n是≥1的自然數(shù)。

40、在一個(gè)實(shí)施例中，在l層的至少一層中，可執(zhí)行1d卷積運(yùn)算，接著執(zhí)行包含泄漏修正線性單元(lrelu)的非線性運(yùn)算。

41、在一個(gè)實(shí)施例中，所述l層中的每一者中的所述n個(gè)濾波器的大小可相同。

42、在一個(gè)實(shí)施例中，所述l層中的每一者中的所述n個(gè)濾波器可以步長2操作。

43、根據(jù)本公開的第七方面，提供一種計(jì)算機(jī)程序產(chǎn)品，其包括計(jì)算機(jī)可讀存儲(chǔ)媒體，所述計(jì)算機(jī)可讀存儲(chǔ)媒體具有適于使裝置執(zhí)行對(duì)原始語音信號(hào)進(jìn)行編碼以用于混合對(duì)抗參數(shù)語音合成的方法的指令。

44、根據(jù)本公開的第八方面，提供一種計(jì)算機(jī)程序產(chǎn)品，其包括計(jì)算機(jī)可讀存儲(chǔ)媒體，所述計(jì)算機(jī)可讀存儲(chǔ)媒體具有適于使裝置執(zhí)行對(duì)原始語音信號(hào)進(jìn)行解碼以用于混合對(duì)抗參數(shù)語音合成的方法的指令。

45、根據(jù)本公開的第九方面，提供一種計(jì)算機(jī)程序產(chǎn)品，其包括計(jì)算機(jī)可讀存儲(chǔ)媒體，所述計(jì)算機(jī)可讀存儲(chǔ)媒體具有適于使裝置執(zhí)行用于在包括生成器(其包含編碼器部分及解碼器部分)以及鑒別器的生成式對(duì)抗網(wǎng)絡(luò)設(shè)置中訓(xùn)練生成器的方法的指令。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：A·穆斯塔法,A·比斯瓦斯
技術(shù)所有人：杜比國際公司
我是此專利的發(fā)明人

上一篇：一種防側(cè)翻運(yùn)動(dòng)鞋的制作方法
上一篇：易于安裝直流泵組件的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于混合語音合成的方法、設(shè)備及系統(tǒng)與流程

用于混合語音合成的方法、設(shè)備及系統(tǒng)與流程