本發(fā)明涉及人工智能,特別是一種口音模擬方法、裝置、計算機設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、近年來,隨著科技的進步,語言大模型領(lǐng)域取得了顯著的發(fā)展。因其強大的學(xué)習(xí)和信息處理能力,這些語言大模型在人機交互領(lǐng)域得到廣泛應(yīng)用。它們已經(jīng)能夠準確處理輸入中的模糊音干擾,實現(xiàn)語音轉(zhuǎn)文本功能。
2、每個人的語音習(xí)慣和口音都有獨特之處,語言大模型往往難以捕捉并準確模仿這些細微差異,這導(dǎo)致語言大模型輸出的模仿被模仿者說話習(xí)慣的語音不夠精準,仍有待改進。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例要解決的技術(shù)問題在于,提供一種口音模擬方法、裝置、計算機設(shè)備和存儲介質(zhì),以解決現(xiàn)有技術(shù)中這導(dǎo)致語言大模型輸出的模仿被模仿者說話習(xí)慣的語音不夠精準的問題。
2、本發(fā)明公開了一種口音模擬方法,包括:
3、向被模仿者提供標準文本集,獲取被模仿者基于所述標準文本集提供的原始語音集,基于所述標準文本集和所述原始語音集獲取模糊音數(shù)據(jù)集;
4、獲取所述標準文本集對應(yīng)的標準語音集,基于所述標準文本集和所述標準語音集獲取融合特征向量集;
5、基于所述模糊音數(shù)據(jù)集獲取所述融合特征向量集中每個融合特征向量對應(yīng)的掩碼權(quán)重值,將所述掩碼權(quán)重值嵌入對應(yīng)的所述融合特征向量中,生成訓(xùn)練數(shù)據(jù);
6、構(gòu)建口音模擬模型,將所述訓(xùn)練數(shù)據(jù)輸入所述口音模擬模型中進行訓(xùn)練,獲取訓(xùn)練后的口音模擬模型;
7、獲取目標文本,根據(jù)所述目標文本獲取目標向量,將所述目標向量輸入所述訓(xùn)練后的口音模擬模型以獲取目標語音。
8、可選地,所述基于所述標準文本集和所述原始語音集獲取模糊音數(shù)據(jù)集的步驟,包括:
9、針對所述標準文本集中的每個標準文本,獲取其對應(yīng)的原始語音,對所述原始語音進行語音識別,獲取原始文本;
10、將所述標準文本和所述原始文本進行比對,獲取不一致的模糊文本和對應(yīng)的模糊語音;
11、獲取所述標準文本和所述模糊文本的模糊音類型對應(yīng)的相近等級;
12、針對每個所述模糊文本,統(tǒng)計其全部模糊音類型和相近等級基于全部的所述模糊音類型和所述相近等級獲取所述模糊文本的模糊音程度值;
13、其中,所述模糊音類型越多,所述模糊音程度值越低。
14、可選地,所述將所述訓(xùn)練數(shù)據(jù)輸入所述口音模擬模型中進行訓(xùn)練的步驟,包括:
15、將所述訓(xùn)練數(shù)據(jù)輸入所述口音模擬模型中,將對應(yīng)的所述原始文本與所述口音模擬模型的輸出數(shù)據(jù)進行比對,獲取損失函數(shù)值;
16、基于所述損失函數(shù)值對所述口音模擬模型的模型參數(shù)進行調(diào)整,直至所述損失函數(shù)值符合預(yù)設(shè)要求。
17、可選地,所述基于所述模糊音數(shù)據(jù)集獲取所述融合特征向量集中每個融合特征向量對應(yīng)的掩碼權(quán)重值的步驟,包括:
18、獲取所述融合特征向量對應(yīng)的所述模糊文本所在的模糊位置;
19、基于所述對應(yīng)的模糊文本的模糊音程度值獲取所述標準文本對應(yīng)的掩碼權(quán)重值;
20、將所述掩碼權(quán)重值映射至所述模糊位置。
21、可選地,所述根據(jù)所述目標文本獲取目標向量的步驟,包括:
22、獲取所述目標文本對應(yīng)的目標標準語音,將所述目標文本和所述目標標準語音融合為所述目標向量。
23、可選地,所述將所述目標向量輸入所述訓(xùn)練后的口音模擬模型以獲取目標語音的步驟,包括:
24、獲取所述目標文本中每一個字的模糊文字,生成模糊語音文本,將所述模糊語音文本的語音作為所述目標語音。
25、可選的,所述將所述模糊語音文本的語音作為所述目標語音的步驟,包括:
26、將所述模糊語音文本輸入音色模擬模型,獲取所述目標語音。
27、可選地,所述基于所述標準文本集和所述原始語音集獲取融合特征向量集的步驟,包括:
28、通過雙向lstm獲取每個所述標準文本的文本特征和每個所述標準文本對應(yīng)的標準語音的語音特征;
29、將所述文本特征和所述語音特征使用注意力機制進行融合獲取融合特征向量。
30、本發(fā)明還公開了一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如上所述方法的步驟。
31、本發(fā)明還公開了一種計算機可讀存儲介質(zhì),存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,使得所述處理器執(zhí)行如上所述方法的步驟。
32、與現(xiàn)有技術(shù)相比,本發(fā)明實施例提供的口音模擬方法的有益效果在于:本發(fā)明基于所述標準文本集和被模仿者提供的原始語音集獲取模糊音數(shù)據(jù)集,基于所述標準文本集和對應(yīng)的所述標準語音集獲取融合特征向量集,基于模糊語音數(shù)據(jù)集獲取所述融合特征向量集中每個融合特征向量對應(yīng)的掩碼權(quán)重值,將掩碼權(quán)重值嵌入到融合特征向量中,可以指導(dǎo)模型更多關(guān)注存在口音讀音的特征,從而提高對口音的準確模仿能力。
1.一種口音模擬方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的口音模擬方法,其特征在于,所述基于所述標準文本集和所述原始語音集獲取模糊音數(shù)據(jù)集的步驟,包括:
3.根據(jù)權(quán)利要求2所述的口音模擬方法,其特征在于,所述將所述訓(xùn)練數(shù)據(jù)輸入所述口音模擬模型中進行訓(xùn)練的步驟,包括:
4.根據(jù)權(quán)利要求2所述的口音模擬方法,其特征在于,所述基于所述模糊音數(shù)據(jù)集獲取所述融合特征向量集中每個融合特征向量對應(yīng)的掩碼權(quán)重值的步驟,包括:
5.根據(jù)權(quán)利要求1所述的口音模擬方法,其特征在于,所述根據(jù)所述目標文本獲取目標向量的步驟,包括:
6.根據(jù)權(quán)利要求5所述的口音模擬方法,其特征在于,所述將所述目標向量輸入所述訓(xùn)練后的口音模擬模型以獲取目標語音的步驟,包括:
7.根據(jù)權(quán)利要求6所述的口音模擬方法,其特征在于,所述將所述模糊語音文本的語音作為所述目標語音的步驟,包括:
8.根據(jù)權(quán)利要求2所述的口音模擬方法,其特征在于,所述基于所述標準文本集和所述原始語音集獲取融合特征向量集的步驟,包括:
9.一種計算機設(shè)備,其特征在于,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如權(quán)利要求1至7中任一項所述方法的步驟。
10.一種計算機可讀存儲介質(zhì),其特征在于,存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,使得所述處理器執(zhí)行如權(quán)利要求1至7中任一項所述方法的步驟。