本公開涉及人工智能,特別涉及一種語音識別模型的訓(xùn)練方法、語音識別方法及相關(guān)裝置。
背景技術(shù):
1、近年來,語音識別技術(shù)飛速發(fā)展并得到了廣泛應(yīng)用。語音識別技術(shù)通?;谡Z音識別模型來實(shí)現(xiàn)。相關(guān)技術(shù)中,為了使語音識別模型的訓(xùn)練任務(wù)變得簡單,通常采用端到端的訓(xùn)練方式。該訓(xùn)練方式使用包括了大量語音-文本平行語料的訓(xùn)練集,對語音識別模型進(jìn)行監(jiān)督訓(xùn)練,以使語音識別模型直接學(xué)習(xí)語音到文本的映射。然而,通過端到端方式訓(xùn)練得到的語音識別模型,其識別準(zhǔn)確度并不高。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供一種語音識別模型的訓(xùn)練方法、語音識別方法及相關(guān)裝置。
2、第一方面,本公開提供了一種語音識別模型的訓(xùn)練方法,所述方法包括:對第一樣本語音進(jìn)行音素特征提取,得到所述第一樣本語音的音素特征,所述音素特征用于表示第一樣本語音的每個音頻幀對應(yīng)的發(fā)音音素;根據(jù)所述音素特征的時序信息,對所述音素特征進(jìn)行注意力處理,得到音素時序特征;對所述音素時序特征進(jìn)行解碼,得到第一文本;根據(jù)所述音素特征和所述第一樣本語音的音素標(biāo)簽,確定第一損失值;根據(jù)所述第一文本和所述第一樣本語音的第一文本標(biāo)簽,確定第二損失值;根據(jù)所述第一損失值和所述第二損失值,訓(xùn)練所述語音識別模型。
3、第二方面,本公開提供了一種語音識別方法,所述語音識別方法包括:通過語音識別模型,對待識別語音進(jìn)行語音識別,得到目標(biāo)文本;其中,所述語音識別模型是根據(jù)上述語音識別模型的訓(xùn)練方法訓(xùn)練得到的。
4、第三方面,本公開提供了一種語音識別模型的訓(xùn)練裝置,所述裝置包括:第一提取模塊,用于對第一樣本語音進(jìn)行音素特征提取,得到所述第一樣本語音的音素特征,所述音素特征用于表示第一樣本語音的每個音頻幀對應(yīng)的發(fā)音音素;第二提取模塊,用于根據(jù)所述音素特征的時序信息,對所述音素特征進(jìn)行注意力處理,得到音素時序特征;解碼模塊,用于對所述音素時序特征進(jìn)行解碼,得到第一文本;第一確定模塊,用于根據(jù)所述音素特征和所述第一樣本語音的音素標(biāo)簽,確定第一損失值;第二確定模塊,用于根據(jù)所述第一文本和所述第一樣本語音的第一文本標(biāo)簽,確定第二損失值;訓(xùn)練模塊,用于根據(jù)所述第一損失值和所述第二損失值,訓(xùn)練所述語音識別模型。
5、第四方面,本公開提供了一種語音識別裝置,所述語音識別裝置包括:語音識別模塊,用于通過語音識別模型,對待識別語音進(jìn)行語音識別,得到目標(biāo)文本;其中,所述語音識別模型是根據(jù)上述語音識別模型的訓(xùn)練方法訓(xùn)練得到的。
6、第五方面,本公開提供了一種電子設(shè)備,該電子設(shè)備包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的一個或多個計算機(jī)程序,一個或多個所述計算機(jī)程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述的語音識別模型的訓(xùn)練方法或語音識別方法。
7、第六方面,本公開提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其中,所述計算機(jī)程序在被處理器執(zhí)行時實(shí)現(xiàn)上述的語音識別模型的訓(xùn)練方法或語音識別方法。
8、第七方面,本公開提供了一種計算機(jī)程序產(chǎn)品,其包括計算機(jī)可讀代碼,或者承載有計算機(jī)可讀代碼的非易失性計算機(jī)可讀存儲介質(zhì),當(dāng)所述計算機(jī)可讀代碼在電子設(shè)備的處理器中運(yùn)行時,所述電子設(shè)備中的處理器執(zhí)行上述的語音識別模型的訓(xùn)練方法或語音識別方法。
9、本公開實(shí)施例的語音識別模型的訓(xùn)練方法,能夠?qū)Φ谝粯颖菊Z音進(jìn)行音素特征提取,得到第一樣本語音的音素特征,并根據(jù)音素特征的時序信息,對音素特征進(jìn)行注意力處理,得到音素時序特征;然后對音素時序特征進(jìn)行解碼,得到第一文本;之后根據(jù)音素特征和第一樣本語音的音素標(biāo)簽,確定第一損失值,并根據(jù)第一文本和第一樣本語音的第一文本標(biāo)簽,確定第二損失值;然后根據(jù)第一損失值和第二損失值,訓(xùn)練語音識別模型,從而能夠根據(jù)第一損失值(通過音素特征及第一樣本語音的音素標(biāo)簽確定)及第二損失值(通過第一文本及第一樣本語音的第一文本標(biāo)簽確定),來訓(xùn)練語音識別模型。通過這種訓(xùn)練方式,語音識別模型既能學(xué)習(xí)到語音到文本的映射,又能學(xué)習(xí)到音頻幀與音素之間的對應(yīng)關(guān)系,不僅提高了語音識別模型的收斂速度,而且提高了語音識別模型的識別準(zhǔn)確度。
10、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種語音識別模型的訓(xùn)練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,訓(xùn)練所述語音識別模型包括多個訓(xùn)練輪次,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第一損失值和所述第二損失值,訓(xùn)練所述語音識別模型,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權(quán)利要求1至5中任意一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述音素特征和所述第一樣本語音的音素標(biāo)簽,確定第一損失值,包括:
7.一種語音識別方法,其特征在于,包括:
8.一種語音識別模型的訓(xùn)練裝置,其特征在于,所述裝置包括:
9.一種語音識別裝置,其特征在于,所述裝置包括:
10.一種電子設(shè)備,其特征在于,包括:
11.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序在被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1-6中任一項(xiàng)所述的語音識別模型的訓(xùn)練方法,或者執(zhí)行如權(quán)利要求7所述的語音識別方法。
12.一種計算機(jī)程序產(chǎn)品,其特征在于,包括計算機(jī)可讀代碼,或者承載有計算機(jī)可讀代碼的非易失性計算機(jī)可讀存儲介質(zhì),當(dāng)所述計算機(jī)可讀代碼在電子設(shè)備的處理器中運(yùn)行時,所述電子設(shè)備中的處理器執(zhí)行如權(quán)利要求1-6中任一項(xiàng)所述的語音識別模型的訓(xùn)練方法,或者執(zhí)行如權(quán)利要求7所述的語音識別方法。