聯(lián)合分段與自動語音識別的制作方法

文檔序號：40442385發(fā)布日期：2024-12-24 15:16閱讀：37來源：國知局

本公開涉及語音分段與自動語音識別。

背景技術(shù)：

1、現(xiàn)代自動語音識別(asr)系統(tǒng)不僅專注于提供高質(zhì)量(例如，低詞錯誤率)，而且還專注于提供低延遲(例如，用戶說話與轉(zhuǎn)錄出現(xiàn)之間的短暫延遲)。例如，當現(xiàn)今使用實現(xiàn)asr系統(tǒng)的裝置時，通常會期望asr系統(tǒng)以對應于實時或甚至比實時更快的流式傳輸方式對話語進行解碼。

技術(shù)實現(xiàn)思路

1、本公開的一個方面提供一種聯(lián)合分段與自動語音識別(asr)模型，該聯(lián)合分段與自動語音識別(asr)模型包括編碼器和解碼器。該編碼器被配置為：接收表征一個或多個話語的聲學幀的序列作為輸入；并且在多個輸出步驟中的每一個中，為聲學幀的序列中的對應聲學幀生成高階特征表示。該解碼器被配置為：接收由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示作為輸入；并且在該多個輸出步驟中的每一個中生成：可能的語音識別假設(shè)的概率分布；以及關(guān)于對應輸出步驟是否對應于語音段結(jié)束的指示。該聯(lián)合分段與asr模型是用一組訓練樣本進行訓練，該組訓練樣本中的每個訓練樣本包括：表征口頭話語的音頻數(shù)據(jù)；以及口頭話語的對應轉(zhuǎn)錄，該對應轉(zhuǎn)錄具有語音段結(jié)束真實值詞元，該語音段結(jié)束真實值詞元是基于應用于訓練樣本的一組基于啟發(fā)式的規(guī)則和例外自動地插入到對應轉(zhuǎn)錄中的。

2、本公開的實現(xiàn)方式可以包括以下可選特征中的一個或多個。在一些實現(xiàn)方式中，解碼器包括預測網(wǎng)絡、第一聯(lián)合網(wǎng)絡和第二聯(lián)合網(wǎng)絡。預測網(wǎng)絡被配置為在該多個輸出步驟中的每一個中：接收由最后的softmax層輸出的非空白符號的序列作為輸入；并且生成隱藏表示。第一聯(lián)合網(wǎng)絡被配置為：接收由預測網(wǎng)絡在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示作為輸入；并且在該多個輸出步驟中的每一個中生成關(guān)于對應輸出步驟是否對應于語音段結(jié)束的指示。第二聯(lián)合網(wǎng)絡被配置為：接收由預測網(wǎng)絡在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示作為輸入；并且在該多個輸出步驟中的每一個中，生成可能的語音識別假設(shè)的概率分布。

3、在一些示例中，在該多個輸出步驟中的每一個中，在預測網(wǎng)絡處被作為輸入接收的先前非空白符號的序列包括由最后的softmax層輸出的n個先前非空白符號的序列。此處，預測網(wǎng)絡被配置為通過以下操作生成隱藏表示：對于n個先前非空白符號的序列中的每個非空白符號，生成相應嵌入；并且通過對相應嵌入求平均來生成平均嵌入，該平均嵌入包括隱藏表示。在一些示例中，預測網(wǎng)絡包括v2嵌入查找表。在一些實現(xiàn)方式中，訓練過程通過以下操作用該組訓練樣本來訓練該聯(lián)合分段與asr模型：在第一階段期間，訓練第二聯(lián)合網(wǎng)絡以學習如何預測由每個訓練樣本的音頻數(shù)據(jù)表征的口頭話語的對應轉(zhuǎn)錄；并且在訓練第二聯(lián)合網(wǎng)絡之后，在第二階段期間，使用與經(jīng)訓練的第二聯(lián)合網(wǎng)絡相同的參數(shù)來初始化第一聯(lián)合網(wǎng)絡，并且使用插入到由每個訓練樣本的音頻數(shù)據(jù)表征的口頭話語的對應轉(zhuǎn)錄中的語音段結(jié)束真實值詞元。

4、在一些實現(xiàn)方式中，編碼器包括因果編碼器，該因果編碼器包括conformer層或transformer層的堆疊。在一些示例中，語音段結(jié)束真實值詞元是在沒有任何人工標注的情況下自動地插入到對應轉(zhuǎn)錄中的。

5、在一些示例中，應用于該組訓練樣本中的每個訓練樣本的該組基于啟發(fā)式的規(guī)則和例外包括：在對應轉(zhuǎn)錄的末尾處插入真實值語音段結(jié)束詞元；以及在與音頻數(shù)據(jù)的非語音段對齊的位置處將真實值語音段結(jié)束詞元插入到對應轉(zhuǎn)錄中，該非語音段具有滿足閾值持續(xù)時間的持續(xù)時間，除非該音頻數(shù)據(jù)的非語音段跟在口頭話語中被標識為加長詞的詞后面，或者該音頻數(shù)據(jù)的非語音段跟在口頭話語中被標識為填充詞的詞后面。在一些實現(xiàn)方式中，當口頭話語中的詞的音素持續(xù)時間滿足標準差閾值時，口頭話語中的詞被標識為加長詞。在一些示例中，在訓練該聯(lián)合分段與asr模型之后，解碼器被配置為早于標識聲學幀的序列中滿足閾值持續(xù)時間的多個連續(xù)的非語音聲學幀，發(fā)出關(guān)于對應輸出步驟對應于語音段結(jié)束的指示。在一些實現(xiàn)方式中，該聯(lián)合分段與asr模型經(jīng)過訓練以最大化發(fā)出語音段結(jié)束真實值標簽的概率。

6、本公開的另一個方面提供一種計算機實現(xiàn)的方法，該計算機實現(xiàn)的方法在數(shù)據(jù)處理硬件上執(zhí)行，從而導致數(shù)據(jù)處理硬件執(zhí)行操作，這些操作包括：接收表征一個或多個話語的聲學幀的序列；以及在該多個輸出步驟中的每一個中：由聯(lián)合分段與自動語音識別(asr)模型的編碼器為聲學幀的序列中的對應聲學幀生成高階特征表示；并且由該聯(lián)合分段與asr模型的解碼器生成：可能的語音識別假設(shè)的概率分布；以及關(guān)于對應輸出步驟是否對應于語音段結(jié)束的指示。該聯(lián)合分段與asr模型是用一組訓練樣本進行訓練，該組訓練樣本中的每個訓練樣本包括：表征口頭話語的音頻數(shù)據(jù)；以及口頭話語的對應轉(zhuǎn)錄，該對應轉(zhuǎn)錄具有語音段結(jié)束真實值詞元，該語音段結(jié)束真實值詞元是基于應用于訓練樣本的一組基于啟發(fā)式的規(guī)則和例外自動地插入到對應轉(zhuǎn)錄中的。

7、本公開的實現(xiàn)方式可以包括以下可選特征中的一個或多個。在一些實現(xiàn)方式中，操作還包括在該多個輸出步驟中的每一個中，使用解碼器的預測網(wǎng)絡基于由最后的softmax層輸出的非空白符號的序列來生成隱藏表示；生成關(guān)于對應輸出步驟是否對應于語音段結(jié)束的指示包括：使用解碼器的第一聯(lián)合網(wǎng)絡，基于由預測網(wǎng)絡在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示來生成關(guān)于對應輸出步驟是否對應于語音段結(jié)束的指示；并且生成可能的語音識別假設(shè)的概率分布包括：使用解碼器的第二聯(lián)合網(wǎng)絡，基于由預測網(wǎng)絡在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示來生成可能的語音識別假設(shè)的概率分布。

8、在一些示例中，在預測網(wǎng)絡處被作為輸入接收的先前非空白符號的序列包括由最后的softmax層輸出的n個先前非空白符號的序列；并且使用預測網(wǎng)絡生成隱藏表示包括通過以下操作來生成隱藏表示：對于n個先前非空白符號的序列中的每個非空白符號，生成相應嵌入；并且通過對相應嵌入求平均來生成平均嵌入，該平均嵌入包括隱藏表示。在一些實現(xiàn)方式中，預測網(wǎng)絡包括v2嵌入查找表。在一些示例中，訓練過程通過以下操作用該組訓練樣本來訓練該聯(lián)合分段與asr模型：在第一階段期間，訓練第二聯(lián)合網(wǎng)絡以學習如何預測由每個訓練樣本的音頻數(shù)據(jù)表征的口頭話語的對應轉(zhuǎn)錄；并且在訓練第二聯(lián)合網(wǎng)絡之后，在第二階段期間：使用與經(jīng)訓練的第二聯(lián)合網(wǎng)絡相同的參數(shù)來初始化第一聯(lián)合網(wǎng)絡；并且使用插入到由每個訓練樣本的音頻數(shù)據(jù)表征的口頭話語的對應轉(zhuǎn)錄中的語音段結(jié)束真實值詞元。

9、在一些實現(xiàn)方式中，編碼器包括因果編碼器，該因果編碼器包括conformer層或transformer層的堆疊。在一些示例中，語音段結(jié)束真實值詞元是在沒有任何人工標注的情況下自動地插入到對應轉(zhuǎn)錄中的。在一些實現(xiàn)方式中，應用于該組訓練樣本中的每個訓練樣本的該組基于啟發(fā)式的規(guī)則和例外包括：在對應轉(zhuǎn)錄的末尾處插入真實值語音段結(jié)束詞元；以及在與音頻數(shù)據(jù)的非語音段對齊的位置處將真實值語音段結(jié)束詞元插入到對應轉(zhuǎn)錄中，該非語音段具有滿足閾值持續(xù)時間的持續(xù)時間，除非該音頻數(shù)據(jù)的非語音段跟在口頭話語中被標識為加長詞的詞后面，或者該音頻數(shù)據(jù)的非語音段跟在口頭話語中被標識為填充詞的詞后面。在一些示例中，當口頭話語中的詞的音素持續(xù)時間滿足標準差閾值時，口頭話語中的詞被標識為加長詞。在一些實現(xiàn)方式中，在訓練該聯(lián)合分段與asr模型之后，操作還包括：早于標識聲學幀的序列中滿足閾值持續(xù)時間的多個連續(xù)的非語音聲學幀，由解碼器發(fā)出關(guān)于對應輸出步驟對應于語音段結(jié)束的指示。

10、在一些示例中，該聯(lián)合分段與asr模型經(jīng)過訓練以最大化發(fā)出語音段結(jié)束真實值標簽的概率。

11、本公開的一個或多個實現(xiàn)方式的細節(jié)在附圖和以下描述中進行闡述。從說明書和附圖中以及從權(quán)利要求書中，其他方面、特征和優(yōu)點將顯而易見。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅尼·黃,張碩英,大衛(wèi)·里巴赫,羅希特·普拉卡什·普拉巴瓦爾卡爾,塔拉·N·薩納特,西里爾·阿洛藏,查爾斯·凱萊布·佩瑟,盧志云
技術(shù)所有人：谷歌有限責任公司
我是此專利的發(fā)明人

上一篇：液壓馬達驅(qū)動機構(gòu)的制作方法
上一篇：一種離心泵軸承排水密封結(jié)構(gòu)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

自動語音識別技術(shù)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

聯(lián)合分段與自動語音識別的制作方法