本發(fā)明涉及語音識別,尤其涉及一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別數(shù)據(jù)增強方法、語音識別方法及相關(guān)設(shè)備。
背景技術(shù):
1、在語音識別領(lǐng)域,受限于數(shù)據(jù)的稀缺特性,針對低資源語言所開發(fā)的語音識別系統(tǒng)很難具備優(yōu)異性能。數(shù)據(jù)增強技術(shù)是解決低資源語言語音識別數(shù)據(jù)稀缺問題的有效方法,通常包括語音合成、聲音轉(zhuǎn)換、偽標(biāo)注等技術(shù)手段。其中,偽標(biāo)注技術(shù)是一種半監(jiān)督學(xué)習(xí)方法,其核心思想是利用模型自身的預(yù)測結(jié)果作為標(biāo)簽(偽標(biāo)簽)來進一步訓(xùn)練模型。在語音識別領(lǐng)域,許多工作利用偽標(biāo)注技術(shù)實現(xiàn)性能提升。
2、但是,大多數(shù)偽標(biāo)注技術(shù)工作均在探索如何確保偽標(biāo)注結(jié)果的高質(zhì)量特性,而未能發(fā)掘偽標(biāo)注本身所具備的潛力。
技術(shù)實現(xiàn)思路
1、為了解決低資源語言語音識別數(shù)據(jù)稀缺問題以及為了提升語音識別的準(zhǔn)確率,本發(fā)明提供一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別數(shù)據(jù)增強方法、語音識別方法及相關(guān)設(shè)備。
2、第一方面,本發(fā)明提供一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別數(shù)據(jù)增強方法,包括:
3、步驟1:構(gòu)建半監(jiān)督語音識別數(shù)據(jù)集,包括已標(biāo)注語音數(shù)據(jù)集和無標(biāo)注語音數(shù)據(jù)集;
4、步驟2:選取預(yù)訓(xùn)練語音識別模型,采用所述已標(biāo)注語音數(shù)據(jù)集對所述預(yù)訓(xùn)練語音識別模型進行微調(diào),得到初始語音識別模型;
5、步驟3:采用所述初始語音識別模型對所述無標(biāo)注語音數(shù)據(jù)集進行解碼,生成所述無標(biāo)注語音數(shù)據(jù)集的硬標(biāo)簽,從而得到偽標(biāo)注語音數(shù)據(jù)集;并基于每個無標(biāo)注語音樣本的所述硬標(biāo)簽對應(yīng)的后驗概率計算得到對應(yīng)的偽標(biāo)注語音樣本的置信分數(shù);
6、步驟4:將所述偽標(biāo)注語音數(shù)據(jù)集和所述已標(biāo)注語音數(shù)據(jù)集混合,得到混合語音數(shù)據(jù)集;
7、步驟5:按照置信分數(shù)的大小將所述混合語音數(shù)據(jù)集切分成若干個混合語音子數(shù)據(jù)集,以供按照課程學(xué)習(xí)策略來訓(xùn)練所述初始語音識別模型。
8、進一步地,步驟3中,所述解碼方式為貪心搜索解碼;
9、對應(yīng)地,基于每個無標(biāo)注語音樣本的所述硬標(biāo)簽對應(yīng)的后驗概率計算得到對應(yīng)的偽標(biāo)注語音樣本的置信分數(shù),具體包括:
10、按照下式計算偽標(biāo)注語音樣本的置信分數(shù)sgs:
11、
12、其中,t為解碼的步數(shù)索引,為初始語音識別模型在第t步生成的字符,表示當(dāng)輸入為第j個無標(biāo)注語音樣本時,初始語音識別模型在第t步生成在字符的后驗概率,表示對應(yīng)的硬標(biāo)簽的長度。
13、進一步地,步驟3中,所述解碼方式為束搜索解碼;
14、對應(yīng)地,基于每個無標(biāo)注語音樣本的所述硬標(biāo)簽對應(yīng)的后驗概率計算得到對應(yīng)的偽標(biāo)注語音樣本的置信分數(shù),具體包括:
15、按照下式計算偽標(biāo)注語音樣本的置信分數(shù)sbs:
16、
17、其中,t為解碼的步數(shù)索引,為初始語音識別模型在第t步生成的字符,表示當(dāng)輸入為第j個無標(biāo)注語音樣本時,初始語音識別模型在第t步生成在字符的后驗概率,表示對應(yīng)的硬標(biāo)簽的長度。
18、第二方面,本發(fā)明提供一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別方法,包括:
19、采用如第一方面所述的語音識別數(shù)據(jù)增強方法,生成若干個混合語音子數(shù)據(jù)集;
20、按照混合語音子數(shù)據(jù)集的置信分數(shù)大小,逐個采用置信分數(shù)較大的混合語音子數(shù)據(jù)集對上一個混合語音子數(shù)據(jù)集微調(diào)訓(xùn)練后的語音識別模型進行微調(diào)訓(xùn)練,直至完成所有混合語音子數(shù)據(jù)集的微調(diào)訓(xùn)練,得到最終的語音識別模型;
21、將待識別語音輸入至最終的語音識別模型,得到語音識別結(jié)果。
22、進一步地,所述預(yù)訓(xùn)練語音識別模型采用whisper模型。
23、第三方面,本發(fā)明提供一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別數(shù)據(jù)增強裝置,包括:
24、數(shù)據(jù)集構(gòu)建模塊,用于構(gòu)建半監(jiān)督語音識別數(shù)據(jù)集,包括已標(biāo)注語音數(shù)據(jù)集和無標(biāo)注語音數(shù)據(jù)集;
25、偽標(biāo)注模塊,用于選取預(yù)訓(xùn)練語音識別模型,采用所述已標(biāo)注語音數(shù)據(jù)集對所述預(yù)訓(xùn)練語音識別模型進行微調(diào),得到初始語音識別模型;以及采用所述初始語音識別模型對所述無標(biāo)注語音數(shù)據(jù)集進行解碼,生成所述無標(biāo)注語音數(shù)據(jù)集的硬標(biāo)簽,從而得到偽標(biāo)注語音數(shù)據(jù)集;
26、置信分數(shù)計算模塊,用于基于每個無標(biāo)注語音樣本的所述硬標(biāo)簽對應(yīng)的后驗概率計算得到對應(yīng)的偽標(biāo)注語音樣本的置信分數(shù);
27、數(shù)據(jù)增強模塊,用于將所述偽標(biāo)注語音數(shù)據(jù)集和所述已標(biāo)注語音數(shù)據(jù)集混合,得到混合語音數(shù)據(jù)集;以及按照置信分數(shù)的大小將所述混合語音數(shù)據(jù)集切分成若干個混合語音子數(shù)據(jù)集,以供按照課程學(xué)習(xí)策略來訓(xùn)練所述初始語音識別模型。
28、第四方面,本發(fā)明提供一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別系統(tǒng),包括:如第三方面所述的數(shù)據(jù)增強裝置、課程學(xué)習(xí)模塊和語音識別模塊;
29、所述課程學(xué)習(xí)模塊,用于按照混合語音子數(shù)據(jù)集的置信分數(shù)大小,逐個采用置信分數(shù)較大的混合語音子數(shù)據(jù)集對上一個混合語音子數(shù)據(jù)集微調(diào)訓(xùn)練后的語音識別模型進行微調(diào)訓(xùn)練,直至完成所有混合語音子數(shù)據(jù)集的微調(diào)訓(xùn)練,得到最終的語音識別模型;
30、語音識別模塊,用于將待識別語音輸入至最終的語音識別模型,得到語音識別結(jié)果。
31、第五方面,本發(fā)明提供一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如第一方面或者第二方面所述的方法。
32、第六方面,本發(fā)明提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面或者第二方面所述的方法。
33、本發(fā)明的有益效果:
34、(1)本發(fā)明提出了一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別數(shù)據(jù)增強方法及裝置,首先采用偽標(biāo)注技術(shù)生成無標(biāo)注語音數(shù)據(jù)的偽標(biāo)注,對半監(jiān)督數(shù)據(jù)進行擴增;接著,將基于偽標(biāo)注解碼時的后驗概率計算得到置信分數(shù),以該置信分數(shù)為紐帶,將其視為課程學(xué)習(xí)中衡量數(shù)據(jù)的難易程度標(biāo)準(zhǔn),從而將偽標(biāo)注技術(shù)與課程學(xué)習(xí)技術(shù)有機結(jié)合起來,實現(xiàn)偽標(biāo)注本身能力的進一步挖掘,實現(xiàn)語音識別數(shù)據(jù)的有效增強,解決了低資源語言數(shù)據(jù)稀缺的問題。
35、(2)本發(fā)明還提出了一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別方法及系統(tǒng),將偽標(biāo)注技術(shù)與課程學(xué)習(xí)策略有機結(jié)合在一起,實現(xiàn)了語音識別數(shù)據(jù)的有效增強利用,基于增強后的數(shù)據(jù)集采用課程學(xué)習(xí)策略對語音識別模型進行微調(diào),從而提升了模型的語音識別性能。
1.一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別數(shù)據(jù)增強方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別數(shù)據(jù)增強方法,其特征在于,步驟3中,所述解碼方式為貪心搜索解碼;
3.根據(jù)權(quán)利要求1所述的一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別數(shù)據(jù)增強方法,其特征在于,步驟3中,所述解碼方式為束搜索解碼;
4.一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別方法,其特征在于,包括:
5.根據(jù)權(quán)利要求4所述的一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別方法,其特征在于,所述預(yù)訓(xùn)練語音識別模型采用whisper模型。
6.一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別數(shù)據(jù)增強裝置,其特征在于,包括:
7.一種基于偽標(biāo)注與課程學(xué)習(xí)的語音識別系統(tǒng),其特征在于,包括:如權(quán)利要求6所述的數(shù)據(jù)增強裝置、課程學(xué)習(xí)模塊和語音識別模塊;
8.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1至5任一項所述的方法。
9.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至5任一項所述的方法。