語音識別模型的訓(xùn)練方法、語音識別方法及相關(guān)裝置與流程

文檔序號：40435738發(fā)布日期：2024-12-24 15:09閱讀：14來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開涉及人工智能，特別涉及一種語音識別模型的訓(xùn)練方法、語音識別方法及相關(guān)裝置。

背景技術(shù)：

1、近年來，語音識別技術(shù)飛速發(fā)展并得到了廣泛應(yīng)用。語音識別技術(shù)通?；谡Z音識別模型來實(shí)現(xiàn)。相關(guān)技術(shù)中，為了使語音識別模型的訓(xùn)練任務(wù)變得簡單，通常采用端到端的訓(xùn)練方式。該訓(xùn)練方式使用包括了大量語音-文本平行語料的訓(xùn)練集，對語音識別模型進(jìn)行監(jiān)督訓(xùn)練，以使語音識別模型直接學(xué)習(xí)語音到文本的映射。然而，通過端到端方式訓(xùn)練得到的語音識別模型，其識別準(zhǔn)確度并不高。

技術(shù)實(shí)現(xiàn)思路

1、本公開提供一種語音識別模型的訓(xùn)練方法、語音識別方法及相關(guān)裝置。

2、第一方面，本公開提供了一種語音識別模型的訓(xùn)練方法，所述方法包括：對第一樣本語音進(jìn)行音素特征提取，得到所述第一樣本語音的音素特征，所述音素特征用于表示第一樣本語音的每個音頻幀對應(yīng)的發(fā)音音素；根據(jù)所述音素特征的時序信息，對所述音素特征進(jìn)行注意力處理，得到音素時序特征；對所述音素時序特征進(jìn)行解碼，得到第一文本；根據(jù)所述音素特征和所述第一樣本語音的音素標(biāo)簽，確定第一損失值；根據(jù)所述第一文本和所述第一樣本語音的第一文本標(biāo)簽，確定第二損失值；根據(jù)所述第一損失值和所述第二損失值，訓(xùn)練所述語音識別模型。

3、第二方面，本公開提供了一種語音識別方法，所述語音識別方法包括：通過語音識別模型，對待識別語音進(jìn)行語音識別，得到目標(biāo)文本；其中，所述語音識別模型是根據(jù)上述語音識別模型的訓(xùn)練方法訓(xùn)練得到的。

4、第三方面，本公開提供了一種語音識別模型的訓(xùn)練裝置，所述裝置包括：第一提取模塊，用于對第一樣本語音進(jìn)行音素特征提取，得到所述第一樣本語音的音素特征，所述音素特征用于表示第一樣本語音的每個音頻幀對應(yīng)的發(fā)音音素；第二提取模塊，用于根據(jù)所述音素特征的時序信息，對所述音素特征進(jìn)行注意力處理，得到音素時序特征；解碼模塊，用于對所述音素時序特征進(jìn)行解碼，得到第一文本；第一確定模塊，用于根據(jù)所述音素特征和所述第一樣本語音的音素標(biāo)簽，確定第一損失值；第二確定模塊，用于根據(jù)所述第一文本和所述第一樣本語音的第一文本標(biāo)簽，確定第二損失值；訓(xùn)練模塊，用于根據(jù)所述第一損失值和所述第二損失值，訓(xùn)練所述語音識別模型。

5、第四方面，本公開提供了一種語音識別裝置，所述語音識別裝置包括：語音識別模塊，用于通過語音識別模型，對待識別語音進(jìn)行語音識別，得到目標(biāo)文本；其中，所述語音識別模型是根據(jù)上述語音識別模型的訓(xùn)練方法訓(xùn)練得到的。

6、第五方面，本公開提供了一種電子設(shè)備，該電子設(shè)備包括：至少一個處理器；以及與所述至少一個處理器通信連接的存儲器；其中，所述存儲器存儲有可被所述至少一個處理器執(zhí)行的一個或多個計算機(jī)程序，一個或多個所述計算機(jī)程序被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行上述的語音識別模型的訓(xùn)練方法或語音識別方法。

7、第六方面，本公開提供了一種計算機(jī)可讀存儲介質(zhì)，其上存儲有計算機(jī)程序，其中，所述計算機(jī)程序在被處理器執(zhí)行時實(shí)現(xiàn)上述的語音識別模型的訓(xùn)練方法或語音識別方法。

8、第七方面，本公開提供了一種計算機(jī)程序產(chǎn)品，其包括計算機(jī)可讀代碼，或者承載有計算機(jī)可讀代碼的非易失性計算機(jī)可讀存儲介質(zhì)，當(dāng)所述計算機(jī)可讀代碼在電子設(shè)備的處理器中運(yùn)行時，所述電子設(shè)備中的處理器執(zhí)行上述的語音識別模型的訓(xùn)練方法或語音識別方法。

9、本公開實(shí)施例的語音識別模型的訓(xùn)練方法，能夠?qū)Φ谝粯颖菊Z音進(jìn)行音素特征提取，得到第一樣本語音的音素特征，并根據(jù)音素特征的時序信息，對音素特征進(jìn)行注意力處理，得到音素時序特征；然后對音素時序特征進(jìn)行解碼，得到第一文本；之后根據(jù)音素特征和第一樣本語音的音素標(biāo)簽，確定第一損失值，并根據(jù)第一文本和第一樣本語音的第一文本標(biāo)簽，確定第二損失值；然后根據(jù)第一損失值和第二損失值，訓(xùn)練語音識別模型，從而能夠根據(jù)第一損失值(通過音素特征及第一樣本語音的音素標(biāo)簽確定)及第二損失值(通過第一文本及第一樣本語音的第一文本標(biāo)簽確定)，來訓(xùn)練語音識別模型。通過這種訓(xùn)練方式，語音識別模型既能學(xué)習(xí)到語音到文本的映射，又能學(xué)習(xí)到音頻幀與音素之間的對應(yīng)關(guān)系，不僅提高了語音識別模型的收斂速度，而且提高了語音識別模型的識別準(zhǔn)確度。

10、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術(shù)特征：

1.一種語音識別模型的訓(xùn)練方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，訓(xùn)練所述語音識別模型包括多個訓(xùn)練輪次，所述方法還包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述根據(jù)所述第一損失值和所述第二損失值，訓(xùn)練所述語音識別模型，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述方法還包括：

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述方法還包括：

6.根據(jù)權(quán)利要求1至5中任意一項(xiàng)所述的方法，其特征在于，所述根據(jù)所述音素特征和所述第一樣本語音的音素標(biāo)簽，確定第一損失值，包括：

7.一種語音識別方法，其特征在于，包括：

8.一種語音識別模型的訓(xùn)練裝置，其特征在于，所述裝置包括：

9.一種語音識別裝置，其特征在于，所述裝置包括：

10.一種電子設(shè)備，其特征在于，包括：

11.一種計算機(jī)可讀存儲介質(zhì)，其上存儲有計算機(jī)程序，其特征在于，所述計算機(jī)程序在被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1-6中任一項(xiàng)所述的語音識別模型的訓(xùn)練方法，或者執(zhí)行如權(quán)利要求7所述的語音識別方法。

12.一種計算機(jī)程序產(chǎn)品，其特征在于，包括計算機(jī)可讀代碼，或者承載有計算機(jī)可讀代碼的非易失性計算機(jī)可讀存儲介質(zhì)，當(dāng)所述計算機(jī)可讀代碼在電子設(shè)備的處理器中運(yùn)行時，所述電子設(shè)備中的處理器執(zhí)行如權(quán)利要求1-6中任一項(xiàng)所述的語音識別模型的訓(xùn)練方法，或者執(zhí)行如權(quán)利要求7所述的語音識別方法。

技術(shù)總結(jié)
本公開提供了一種語音識別模型的訓(xùn)練方法、語音識別方法及相關(guān)裝置，所述語音識別模型的訓(xùn)練方法包括：對第一樣本語音進(jìn)行音素特征提取，得到所述第一樣本語音的音素特征；根據(jù)所述音素特征的時序信息，對所述音素特征進(jìn)行注意力處理，得到音素時序特征；對所述音素時序特征進(jìn)行解碼，得到第一文本；根據(jù)所述音素特征和所述第一樣本語音的音素標(biāo)簽，確定第一損失值；根據(jù)所述第一文本和所述第一樣本語音的第一文本標(biāo)簽，確定第二損失值；根據(jù)所述第一損失值和所述第二損失值，訓(xùn)練所述語音識別模型。本公開實(shí)施例能夠提高語音識別模型的識別準(zhǔn)確度。

技術(shù)研發(fā)人員：李承翰
受保護(hù)的技術(shù)使用者：馬上消費(fèi)金融股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李承翰
技術(shù)所有人：馬上消費(fèi)金融股份有限公司
我是此專利的發(fā)明人

上一篇：一種具有鎖定機(jī)構(gòu)的軸承座的制作方法
上一篇：一種和面機(jī)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語音識別模型的訓(xùn)練方法、語音識別方法及相關(guān)裝置與流程