本技術(shù)涉及音頻生成,尤其涉及一種語音轉(zhuǎn)換方法、裝置、計算機設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、語音轉(zhuǎn)換是在不改變話語內(nèi)容信息的情況下,讓某個人說的話聽起來像是另一個人說的,在駕駛導(dǎo)航、視頻制作、游戲制作、語音客服和語音社交等多個領(lǐng)域中發(fā)揮出了很強的應(yīng)用價值。傳統(tǒng)的語音轉(zhuǎn)換技術(shù)需要選擇音庫內(nèi)某一發(fā)音人作為目標,通過提取該發(fā)音人語音中的特征進行語音轉(zhuǎn)換,但該種方式存在著轉(zhuǎn)換效率低、用戶等待時間長等缺陷。
技術(shù)實現(xiàn)思路
1、本技術(shù)的目的旨在至少能解決上述的技術(shù)缺陷之一,特別是現(xiàn)有技術(shù)中語音轉(zhuǎn)換效率低、用時長的缺陷。
2、第一方面,本技術(shù)提供了一種語音轉(zhuǎn)換方法,包括:
3、響應(yīng)于皮膚選擇操作,確定目標語音;
4、在確定出目標語音時,提取目標語音對應(yīng)的目標音色特征;
5、在用戶輸入原始語音流之后,根據(jù)原始語音流和目標音色特征,得到目標語音流。
6、在其中一個實施例中,根據(jù)原始語音流和目標音色特征,得到目標語音流,包括:
7、將原始語音流輸入到第一特征提取模型,得到原始語音特征;原始語音特征包括原始語音流的淺層音色特征和語義特征;
8、根據(jù)原始語音特征與目標音色特征,得到目標語音流。
9、在其中一個實施例中,第一特征提取模型的構(gòu)建過程包括:
10、構(gòu)建初始的自編碼器模型;自編碼器模型包括第一編碼器和第一解碼器,第一編碼器用于對輸入語音提取淺層音色特征和語義特征,并輸出到第一解碼器,第一解碼器用于根據(jù)接收到的特征得到輸入語音的重構(gòu)結(jié)果;
11、以縮小重構(gòu)結(jié)果與第一語音訓(xùn)練集的樣本之間的差距為目標,利用第一語音訓(xùn)練集對初始的自編碼器模型進行訓(xùn)練;
12、將訓(xùn)練完成的自編碼器模型中的第一編碼器作為第一特征提取模型。
13、在其中一個實施例中,目標音色特征包括目標全局音色特征,提取目標語音對應(yīng)的目標音色特征,包括:
14、將目標語音輸入到第二特征提取模型,得到目標全局音色特征;目標全局音色特征的維度高于淺層音色特征。
15、在其中一個實施例中,第二特征提取模塊的構(gòu)建過程包括:
16、構(gòu)建初始的分類識別模型;分類識別模型包括特征提取部分和分類部分,特征提取部分用于對輸入語音提取全局音色特征,并輸出到分類部分,分類部分用于根據(jù)接收到的特征得到對輸入語音的分類結(jié)果;
17、以縮小分類結(jié)果與第二語音訓(xùn)練集的分類標簽之間的差距為目標,利用第二語音訓(xùn)練集對初始的分類識別模型進行訓(xùn)練;
18、將訓(xùn)練完成的分類識別模型的特征提取部分作為第二特征提取模型。
19、在其中一個實施例中,根據(jù)原始語音特征與目標音色特征,得到目標語音流,包括:
20、將原始語音特征作為輸入、目標全局音色特征作為條件輸入,輸入到第一特征生成模型,得到第一目標語音特征;第一目標語音特征包括原始語音流的語義特征和目標全局音色特征;
21、根據(jù)第一目標語音特征,得到目標語音流。
22、在其中一個實施例中,第一特征生成模型的構(gòu)建過程包括:
23、構(gòu)建初始的第一條件自編碼器模型;第一條件自編碼器模型包括第二編碼器和第二解碼器,第二編碼器用于對輸入和條件進行特征融合,得到第一語音特征,第一語音特征包含輸入中的語義特征和條件中的全局音色特征,第二解碼器用于將遮罩后的第一語音特征還原為遮罩前的第一語音特征;
24、以縮小第二解碼器的還原結(jié)果與第二編碼器對語音特征第一訓(xùn)練集和全局音色特征訓(xùn)練集的特征融合結(jié)果之間的差距為目標,利用語音特征第一訓(xùn)練集和全局音色特征訓(xùn)練集對第一條件自編碼器模型進行訓(xùn)練;
25、將訓(xùn)練完成的第一條件自編碼器模型中的第二編碼器作為第一特征生成模型。
26、在其中一個實施例中,以縮小第二解碼器的還原結(jié)果與第二編碼器對語音特征第一訓(xùn)練集和全局音色特征訓(xùn)練集的特征融合結(jié)果之間的差距為目標,利用語音特征第一訓(xùn)練集和全局音色特征訓(xùn)練集對第一條件自編碼器模型進行訓(xùn)練,還包括:
27、對語音特征第一訓(xùn)練集進行音色擾動,并以縮小第二編碼器音色擾動前后同一語音特征樣本與同一全局特征訓(xùn)練樣本的特征融合結(jié)果之間的差異為目標,對第一條件自編碼器模型進行訓(xùn)練。
28、在其中一個實施例中,將原始語音特征作為輸入、目標全局音色特征作為條件輸入,輸入到第一特征生成模型,得到第一目標語音特征,包括:
29、對原始語音特征進行音色擾動,并將音色擾動之后的原始語音特征作為輸入、目標全局音色特征作為條件輸入,輸入到第一特征生成模型,得到第一目標語音特征。
30、在其中一個實施例中,目標音色特征還包括目標完整音色特征,提取目標語音對應(yīng)的目標音色特征,還包括:
31、對目標語音進行特征提取,得到目標完整音色特征;目標完整音色特征的維度高于目標全局音色特征。
32、在其中一個實施例中,對目標語音進行特征提取包括:
33、根據(jù)目標語音,生成對應(yīng)的梅爾頻譜矩陣。
34、在其中一個實施例中,根據(jù)第一目標語音特征,得到目標語音流,包括:
35、將第一目標語音特征作為輸入、目標完整音色特征作為條件輸入,輸入到第二特征生成模型,得到第二目標語音特征;第二目標語音特征包括原始語音流的語義特征和目標完整音色特征;
36、根據(jù)第二目標語音特征,得到目標語音流。
37、在其中一個實施例中,第二特征生成模型的構(gòu)建過程包括:
38、構(gòu)建初始的第二條件自編碼器模型;第二條件自編碼器模型包括第三編碼器和第三解碼器,第三編碼器用于將輸入和條件進行特征融合,得到第二語音特征,第二語音特征包含輸入中的語義特征和條件中的完整音色特征,第三解碼器用于將遮罩后的第二語音特征還原為遮罩前的第二語音特征;
39、以縮小第三解碼器的還原結(jié)果與第三編碼器對語音特征第二訓(xùn)練集和完整音色特征訓(xùn)練集的特征融合結(jié)果之間的差距為目標,利用語音特征第二訓(xùn)練集和完整音色特征訓(xùn)練集對第二條件自編碼器模型進行訓(xùn)練;
40、將訓(xùn)練完成的第二條件自編碼器模型中的第三編碼器作為第二特征生成模型。
41、在其中一個實施例中,根據(jù)第二目標語音特征,得到目標語音流,包括:
42、將第二目標語音特征輸入到語音生成模型,得到目標語音流。
43、第二方面,本技術(shù)提供了一種語音轉(zhuǎn)換裝置,包括:
44、目標語音確定模塊,用于響應(yīng)于皮膚選擇操作,確定目標語音;
45、目標音色特征提取模塊,用于在確定出目標語音時,提取目標語音對應(yīng)的目標音色特征;
46、語音轉(zhuǎn)換模塊,用于在用戶輸入原始語音流之后,根據(jù)原始語音流和目標音色特征,得到目標語音流。
47、第三方面,本技術(shù)提供了一種計算機設(shè)備,包括一個或多個處理器,以及存儲器,存儲器中存儲有計算機可讀指令,計算機可讀指令被一個或多個處理器執(zhí)行時,執(zhí)行上述任一實施例中的語音轉(zhuǎn)換方法的步驟。
48、第四方面,本技術(shù)提供了一種存儲介質(zhì),存儲介質(zhì)中存儲有計算機可讀指令,計算機可讀指令被一個或多個處理器執(zhí)行時,使得一個或多個處理器執(zhí)行上述任一實施例中的語音轉(zhuǎn)換方法的步驟。
49、從以上技術(shù)方案可以看出,本技術(shù)實施例具有以下優(yōu)點:
50、基于本技術(shù)實施例中的語音轉(zhuǎn)換方法,首先響應(yīng)用戶的皮膚選擇操作,確定目標語音,在確定出目標語音的同時,即開始對目標語音執(zhí)行特征提取,得到目標語音對應(yīng)的目標音色特征。最后,當用戶輸入原始語音流后,根據(jù)原始語音流和預(yù)先提取的目標音色特征,生成目標語音流。該方法可提供高度個性化的用戶體驗,允許用戶根據(jù)自己的偏好制語音輸出,在需要增加新的可選語音皮膚時,只需要音庫中添加對應(yīng)的參考語音即可,提高了音色的可拓展性。另外,其利用了用戶執(zhí)行選擇操作到輸入完原始語音流之間的空閑時間進行特征提取,大幅縮短了用戶等待語音轉(zhuǎn)換的時間,能夠在實時或近實時條件下完成轉(zhuǎn)換,提升用戶體驗感。