本公開的實施例涉及計算機領(lǐng)域,并且更具體地,涉及生成語音翻譯模型的方法、裝置、電子設(shè)備和介質(zhì)。
背景技術(shù):
1、語音到語音翻譯(speech-to-speech?translation,s2st)是指將一種語言的語音轉(zhuǎn)換成另一種語言的語音的一類技術(shù),也稱語音翻譯,非常有助于打破不使用同一種語言的人之間的溝通障礙。和傳統(tǒng)的文本到文本的機器翻譯不同,語音翻譯任務(wù)的輸入和輸出均為語音,這項技術(shù)在全球化趨勢下越來越重要,尤其是在跨境交流、旅游、商務(wù)等領(lǐng)域提供更為直接的便利。
2、典型的語音翻譯模型通常由三個任務(wù)組成:語音識別(asr)、機器翻譯(mt)和文本語音轉(zhuǎn)換(tts)。編碼器-解碼器的結(jié)構(gòu)多被用來做序列到序列的學(xué)習(xí),這種方式可以被用來學(xué)習(xí)一個直接端到端的語音翻譯模型。在端到端的語音翻譯模型中,按目標(biāo)端的預(yù)測形式可以分為連續(xù)的語音譜和離散的語音單元兩條研究路線。
技術(shù)實現(xiàn)思路
1、本公開的實施例提供了一種生成語音翻譯模型的方法、裝置、電子設(shè)備和計算機可讀存儲介質(zhì)。
2、根據(jù)本公開的第一方面,提供了一種用于生成語音翻譯模型的方法,語音翻譯模型包括語義特征提取器和多個解碼器。該方法包括由語義特征提取器提取源語言音頻的源語義單元序列和目標(biāo)語言音頻的目標(biāo)語義單元序列,源語言音頻與目標(biāo)語言音頻相對應(yīng)。該方法還包括基于源語義單元序列和目標(biāo)語義單元序列,調(diào)整多個解碼器中的第一解碼器。該方法還包括基于源語義單元序列、目標(biāo)語義單元序列、源語言音頻的源聲學(xué)單元序列、以及目標(biāo)語言音頻的目標(biāo)聲學(xué)單元序列,調(diào)整多個解碼器中的第二解碼器,其中語義特征提取器在第一解碼器和第二解碼器的調(diào)整過程中保持不變。
3、根據(jù)本公開的第二方面,提供了一種語音翻譯的方法,該方法由根據(jù)第一方面所生成的語音翻譯模型執(zhí)行,其中語音翻譯模型包括語義特征提取器和多個解碼器。該方法包括基于給定源語言音頻的給定源語義單元序列,生成預(yù)測目標(biāo)語義單元序列。該方法還包括基于給定源語言音頻的給定源語義單元序列、預(yù)測目標(biāo)語義單元序列、給定源聲學(xué)單元序列,生成預(yù)測聲學(xué)單元序列。
4、在本公開的第三方面中,一種用于生成語音翻譯模型的裝置,語音翻譯模型包括語義特征提取器和多個解碼器。該裝置包括語義特征提取模塊,被配置為提取源語言音頻的源語義單元序列和目標(biāo)語言音頻的目標(biāo)語義單元序列,源語言音頻與目標(biāo)語言音頻相對應(yīng)。該裝置還包括第一解碼調(diào)整模塊,被配置為基于源語義單元序列和目標(biāo)語義單元序列,調(diào)整多個解碼器中的第一解碼器。該裝置還包括第二解碼調(diào)整模塊,被配置為基于源語義單元序列、目標(biāo)語義單元序列、源語言音頻的源聲學(xué)單元序列、以及目標(biāo)語言音頻的目標(biāo)聲學(xué)單元序列,調(diào)整多個解碼器中的第二解碼器,其中語義特征提取器在第一解碼器和第二解碼器的調(diào)整過程中保持不變。
5、根據(jù)本公開的第四方面,提供了一種用于語音翻譯的裝置,該裝置被配置為使用根據(jù)第三方面所生成的語音翻譯模型。該裝置包括第一預(yù)測語義確定模塊,被配置為給定源語言音頻的給定源語義單元序列,生成預(yù)測目標(biāo)語義單元序列。該裝置還包括第一預(yù)測聲學(xué)確定模塊,被配置為基于所述給定源語言音頻的給定源語義單元序列、所述預(yù)測目標(biāo)語義單元序列、給定源聲學(xué)單元序列,生成預(yù)測聲學(xué)單元序列。
6、根據(jù)本公開的第三方面,提供了一種電子設(shè)備。該電子設(shè)備包括處理器以及與處理器耦合的存儲器,存儲器具有存儲于其中的指令,指令在被處理器執(zhí)行時使電子設(shè)備執(zhí)行根據(jù)第一方面所述的方法。
7、在本公開的第四方面中,提供了一種計算機可讀存儲介質(zhì)。該計算機可讀存儲介質(zhì)上存儲有一條或多條計算機指令,其中一條或多條計算機指令被處理器執(zhí)行以實現(xiàn)根據(jù)第一方面所述的方法。
8、提供
技術(shù)實現(xiàn)要素:
部分是為了以簡化的形式來介紹對概念的選擇,它們在下文的具體實施方式中將被進(jìn)一步描述。發(fā)明內(nèi)容部分無意標(biāo)識要求保護(hù)的主題的關(guān)鍵特征或主要特征,也無意限制要求保護(hù)的主題的范圍。
1.一種用于生成語音翻譯模型的方法,所述語音翻譯模型包括語義特征提取器和多個解碼器,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中調(diào)整所述多個解碼器中的所述第一解碼器包括:
3.根據(jù)權(quán)利要求2所述的方法,其中調(diào)整所述多個解碼器中的所述第二解碼器包括:
4.根據(jù)權(quán)利要求2所述的方法,還包括:
5.根據(jù)權(quán)利要求4所述的方法,還包括:
6.根據(jù)權(quán)利要求1所述的方法,其中所述語義特征提取器包括無監(jiān)督模型和聚類模型中的任一項。
7.根據(jù)權(quán)利要求2所述的方法,還包括利用多任務(wù)學(xué)習(xí)調(diào)整所述第一解碼器,其中所述多任務(wù)學(xué)習(xí)包括以下至少一項:
8.根據(jù)權(quán)利要求1-7任一項所述的方法,其中所述源語言音頻和所述目標(biāo)語言音頻中的至少一者包括未成文語言,其中所述未成文語言不具有手寫文字。
9.一種語音翻譯的方法,所述方法由根據(jù)權(quán)利要求1至8中任一項所生成的語音翻譯模型執(zhí)行,其中所述語音翻譯模型包括語義特征提取器和多個解碼器,所述方法包括:
10.根據(jù)權(quán)利要求9所述的方法,其中生成所述預(yù)測目標(biāo)語義單元序列包括:
11.根據(jù)權(quán)利要求10所述的方法,其中生成所述預(yù)測聲學(xué)單元序列包括:
12.根據(jù)權(quán)利要求9所述的方法,還包括:
13.一種用于生成語音翻譯模型的裝置,所述語音翻譯模型包括語義特征提取器和多個解碼器,所述裝置包括:
14.一種用于語音翻譯的裝置,所述裝置被配置為使用根據(jù)權(quán)利要求13所生成的語音翻譯模型,所述裝置包括:
15.一種電子設(shè)備,包括:
16.一種計算機可讀存儲介質(zhì),其上存儲有計算機可執(zhí)行指令,其中所述計算機可執(zhí)行指令被處理器執(zhí)行以實現(xiàn)根據(jù)權(quán)利要求1至12中任一項所述的方法。