本發(fā)明涉及波形信號生成系統(tǒng)、波形信號生成方法及程序。
背景技術:
1、在交流中,聲音是最常用的媒體信息之一。因此,文本聲音合成及聲音變換的研究以交流的順暢化為目的而活躍地進行。作為文本聲音合成及聲音變換的過程,經常使用以下所示的第一階段及第二階段的各過程。以下,將表示輸入信號和目標波形信號之間的中間表現(xiàn)的信號稱為“中間表現(xiàn)信號”。
2、第一階段的過程:
3、在聲音變換中,中間表現(xiàn)估計裝置生成與輸入的波形信號(輸入波形信號)相關的中間表現(xiàn)。中間表現(xiàn)估計裝置基于與輸入的波形信號相關的中間表現(xiàn),來估計與作為恢復目標的波形信號(以下稱為“目標波形信號”)相關的中間表現(xiàn)信號。另外,在文本聲音合成中,代替向中間表現(xiàn)估計裝置輸入波形信號,而向中間表現(xiàn)估計裝置輸入文本數(shù)據。
4、在上述第一階段的過程中,通過對輸入的波形信號應用短時間傅里葉變換或小波變換等基于預先確定的基函數(shù)的時間頻率變換而得到的特征量、或者通過對該特征量進行線性變換而得到的特征量經常被用作與目標波形信號相關的中間表現(xiàn)信號。該特征量例如是譜圖或梅爾譜圖。通過對譜圖或梅爾譜圖進一步傅里葉變換而得到的特征量(倒譜或梅爾倒譜)也經常被用作中間表現(xiàn)信號。
5、另外,通過對輸入的波形信號或得到的特征量應用規(guī)定函數(shù)而進一步得到的特征量也經常被用作中間表現(xiàn)信號。該規(guī)定函數(shù)例如是神經網絡函數(shù)。
6、第二階段的過程:
7、波形信號生成裝置基于與目標波形信號相關的中間表現(xiàn)信號,來生成目標波形信號。
8、作為實現(xiàn)上述第二階段的過程的方法,使用神經網絡的方法備受關注。例如,在基于對抗式生成網絡(gan:generativeadversarialnetworks)的方法中,一維卷積神經網絡使用對抗式學習的方法來學習。波形信號生成裝置通過向具有學習完畢的神經網絡的模型(學習完畢模型)輸入梅爾譜圖,來生成目標波形信號(參照非專利文獻1)。
9、具有高性能gpu(graphics?processing?unit)和大容量存儲器的波形信號生成裝置使用這樣的學習完畢模型,在與發(fā)聲速度相比足夠短的時間內(實時地)生成目標波形信號。另外,在這樣的學習完畢模型中,經常使用深度神經網絡(dnn:deep?neural?network)。深度神經網絡等神經網絡具有許多學習參數(shù)。
10、現(xiàn)有技術文獻
11、非專利文獻
12、非專利文獻1:jungil?kong,jaehyeon?kim,jaekyoung?bae,"hifi-gan:generative?adversarial?networks?for?efficient?and?high?fidelity?speechsynthesis",in?adv.neurips,2020。
技術實現(xiàn)思路
1、發(fā)明要解決的課題
2、然而,具有許多學習參數(shù)的學習完畢模型(輕量化或未高速化的學習完畢模型)無法在不具有大容量存儲器的波形信號生成裝置中動作。另外,需要許多運算處理的學習完畢模型無法在不具有高速的運算處理功能的波形信號生成裝置中動作。因此,在使用具有神經網絡的學習完畢模型從中間表現(xiàn)信號生成目標波形信號的情況下,預先使學習完畢模型輕量化或高速化是優(yōu)選的。
3、鑒于上述情況,本發(fā)明的目的在于提供一種波形信號生成系統(tǒng)、波形信號生成方法及程序,其能夠在使用具有神經網絡的學習完畢模型從中間表現(xiàn)信號生成目標波形信號的情況下,預先使學習完畢模型輕量化或高速化。
4、用于解決課題的方案
5、本發(fā)明的一個方式是一種波形信號生成系統(tǒng),其中,具備:神經網絡函數(shù)部,使用神經網絡函數(shù)來變更中間表現(xiàn)信號的時間分量或特征量分量,由此,從所述中間表現(xiàn)信號生成目標波形信號,所述中間表現(xiàn)信號表示輸入信號與所述目標波形信號之間的中間表現(xiàn);以及非神經網絡函數(shù)部,使用表示所述中間表現(xiàn)信號的所述時間分量和所述特征量分量的關系的非神經網絡函數(shù),來代行從所述中間表現(xiàn)信號生成所述目標波形信號的處理的至少一部分。
6、本發(fā)明的一個方式是一種由上述波形信號生成系統(tǒng)執(zhí)行的波形信號生成方法,其中,所述波形信號生成方法包括:使用神經網絡函數(shù)來變更中間表現(xiàn)信號的時間分量或特征量分量由此從所述中間表現(xiàn)信號生成目標波形信號的步驟,所述中間表現(xiàn)信號表示輸入信號與所述目標波形信號之間的中間表現(xiàn);以及使用表示所述中間表現(xiàn)信號的所述時間分量和所述特征量分量的關系的非神經網絡函數(shù)來代行從所述中間表現(xiàn)信號生成所述目標波形信號的處理的至少一部分的步驟。
7、本發(fā)明的一個方式是一種用于使計算機作為上述波形信號生成系統(tǒng)發(fā)揮功能的程序。
8、發(fā)明效果
9、根據本發(fā)明,能夠在使用具有神經網絡的學習完畢模型從中間表現(xiàn)信號生成目標波形信號的情況下,預先使學習完畢模型輕量化或高速化。
1.一種波形信號生成系統(tǒng),其中,具備:
2.根據權利要求1所述的波形信號生成系統(tǒng),其中,所述神經網絡函數(shù)部使用所述神經網絡函數(shù)對所述中間表現(xiàn)信號的時間分量進行上采樣。
3.根據權利要求1或2所述的波形信號生成系統(tǒng),其中,所述神經網絡函數(shù)部是卷積神經網絡。
4.根據權利要求1至3中任一項所述的波形信號生成系統(tǒng),其中,所述非神經網絡函數(shù)部從由所述神經網絡函數(shù)部變更了所述時間分量的所述中間表現(xiàn)信號生成所述目標波形信號。
5.根據權利要求1至4中任一項所述的波形信號生成系統(tǒng),其中,所述非神經網絡函數(shù)部對所述中間表現(xiàn)信號執(zhí)行逆短時間傅里葉變換、逆小波變換、或基于預先確定的基函數(shù)的頻率時間變換。
6.一種由波形信號生成系統(tǒng)執(zhí)行的波形信號生成方法,其中,所述波形信號生成方法包括:
7.一種用于使計算機作為根據權利要求1至5中任一項所述的波形信號生成系統(tǒng)發(fā)揮功能的程序。