国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      利用聯(lián)合語(yǔ)言標(biāo)識(shí)的流式端到端多語(yǔ)言語(yǔ)音識(shí)別的制作方法

      文檔序號(hào):40281992發(fā)布日期:2024-12-11 13:22閱讀:44來(lái)源:國(guó)知局
      利用聯(lián)合語(yǔ)言標(biāo)識(shí)的流式端到端多語(yǔ)言語(yǔ)音識(shí)別的制作方法

      本公開(kāi)涉及利用聯(lián)合語(yǔ)言標(biāo)識(shí)的流式端到端多語(yǔ)言語(yǔ)音識(shí)別。


      背景技術(shù):

      1、自動(dòng)語(yǔ)音識(shí)別(asr),即獲取音頻輸入并將其轉(zhuǎn)錄為文本的過(guò)程,已經(jīng)在很大程度上成為用在移動(dòng)裝置和其他裝置中的重要技術(shù)。一般,自動(dòng)語(yǔ)音識(shí)別嘗試通過(guò)獲取音頻輸入(例如,語(yǔ)音話語(yǔ))并將音頻輸入轉(zhuǎn)錄為文本來(lái)提供對(duì)人所說(shuō)的內(nèi)容的準(zhǔn)確轉(zhuǎn)錄。基于深度神經(jīng)網(wǎng)絡(luò)的持續(xù)發(fā)展,新式asr模型在準(zhǔn)確度(例如,低詞錯(cuò)誤率(wer))和時(shí)延(例如,客戶端說(shuō)話與轉(zhuǎn)錄之間的延遲)兩方面不斷改進(jìn)。盡管大量的人是使用雙語(yǔ)的,但是大多數(shù)asr模型僅與單一語(yǔ)言兼容。因此,對(duì)大量的雙語(yǔ)者(bilingual?speaker)來(lái)說(shuō),與幾種不同的語(yǔ)言兼容而仍維持新式asr模型的準(zhǔn)確度和時(shí)延性能指標(biāo)的asr模型將是期望的。


      技術(shù)實(shí)現(xiàn)思路

      1、本公開(kāi)的一個(gè)方面提供了一種多語(yǔ)言自動(dòng)化語(yǔ)音識(shí)別(asr)模型。asr模型包括第一編碼器,所述第一編碼器被配置為:接收聲學(xué)幀序列作為輸入,以及在多個(gè)輸出步驟中的每一處針對(duì)聲學(xué)幀序列中的對(duì)應(yīng)的聲學(xué)幀生成第一高階特征表示。asr模型還包括第二編碼器,所述第二編碼器被配置為:接收由第一編碼器在多個(gè)輸出步驟中的每一處生成的第一高階特征表示作為輸入,以及在多個(gè)輸出步驟中的每一處針對(duì)對(duì)應(yīng)的第一高階特征表示生成第二高階特征表示。asr模型還包括語(yǔ)言識(shí)別(id)預(yù)測(cè)器,所述語(yǔ)言標(biāo)識(shí)預(yù)測(cè)器被配置為:接收由第一編碼器在多個(gè)輸出步驟中的每一處生成的第一高階特征表示和由第二編碼器在多個(gè)輸出步驟中的每一處生成的第二高階特征表示的串聯(lián)作為輸入,以及在多個(gè)輸出步驟中的每一處生成語(yǔ)言預(yù)測(cè)表示。asr模型還包括第一解碼器,所述第一解碼器被配置為:接收由第二編碼器在多個(gè)輸出步驟中的每一處生成的第二高階特征表示和由語(yǔ)言id預(yù)測(cè)器在多個(gè)輸出步驟中的每一處生成的語(yǔ)言預(yù)測(cè)表示的串聯(lián)作為輸入,以及在多個(gè)輸出步驟中的每一處生成在可能的語(yǔ)音識(shí)別預(yù)測(cè)文本(hypothesis)上的第一概率分布。

      2、本公開(kāi)的實(shí)現(xiàn)方式可以包括以下可選特征中的一個(gè)或多個(gè)。在一些實(shí)現(xiàn)方式中,asr模型包括第二解碼器,所述第二解碼器被配置為:接收由第一編碼器在多個(gè)輸出步驟中的每一處生成的第一高階特征表示作為輸入,以及在多個(gè)輸出步驟中的每一處生成在可能的語(yǔ)音識(shí)別預(yù)測(cè)文本上的第二概率分布。這里,第二解碼器還可以被配置為基于在可能的語(yǔ)音識(shí)別預(yù)測(cè)文本上的第二概率分布來(lái)生成部分語(yǔ)音識(shí)別結(jié)果。在這些實(shí)現(xiàn)方式中,第一解碼器和第二解碼器可以各自包括對(duì)應(yīng)的預(yù)測(cè)網(wǎng)絡(luò)、接著是對(duì)應(yīng)的聯(lián)合網(wǎng)絡(luò),第一解碼器和第二解碼器的對(duì)應(yīng)的預(yù)測(cè)網(wǎng)絡(luò)具有包括基于長(zhǎng)短期記憶(lstm)的預(yù)測(cè)網(wǎng)絡(luò)或v2嵌入查找表中的一個(gè)的相同的結(jié)構(gòu),并且第一解碼器和第二解碼器的對(duì)應(yīng)的聯(lián)合網(wǎng)絡(luò)包括相同的結(jié)構(gòu)。

      3、在一些示例中,第二編碼器在沒(méi)有接收聲學(xué)幀中的任一個(gè)作為輸入的情況下生成第二高階特征表示。第一編碼器包括因果編碼器,所述因果編碼器具有多個(gè)單向長(zhǎng)短期記憶(lstm)層、多個(gè)conformer層或多個(gè)transformer層中的一個(gè)。在一些實(shí)現(xiàn)方式中,第二編碼器包括非因果編碼器,所述非因果編碼器具有一個(gè)或多個(gè)雙向長(zhǎng)短期記憶(lstm)層、多個(gè)conformer層或多個(gè)transformer層中的一個(gè)。

      4、在一些實(shí)現(xiàn)方式中,第一編碼器、第二編碼器和語(yǔ)言id預(yù)測(cè)器通過(guò)以下來(lái)在多語(yǔ)言訓(xùn)練話語(yǔ)集上被聯(lián)合地訓(xùn)練:針對(duì)第一編碼器生成第一損失;針對(duì)第二編碼器生成第二損失;針對(duì)語(yǔ)言id預(yù)測(cè)器生成第三損失;以及將第一損失、第二損失和第三損失的加權(quán)和最小化。在這些實(shí)現(xiàn)方式中,語(yǔ)言id目標(biāo)詞元可以被添加作為多語(yǔ)言訓(xùn)練話語(yǔ)集中的每個(gè)多語(yǔ)言訓(xùn)練話語(yǔ)的對(duì)應(yīng)的真實(shí)值轉(zhuǎn)錄的第一詞元。語(yǔ)言id目標(biāo)詞元識(shí)別對(duì)應(yīng)的多語(yǔ)言訓(xùn)練話語(yǔ)的語(yǔ)言。替代地,語(yǔ)言id目標(biāo)詞元可以被添加到在多語(yǔ)言訓(xùn)練話語(yǔ)集中的每個(gè)多語(yǔ)言訓(xùn)練話語(yǔ)的對(duì)應(yīng)的真實(shí)值轉(zhuǎn)錄中發(fā)生語(yǔ)碼轉(zhuǎn)換(code-switch)的每個(gè)位置。

      5、本公開(kāi)的另一個(gè)方面提供了一種計(jì)算機(jī)實(shí)現(xiàn)的方法,所述計(jì)算機(jī)實(shí)現(xiàn)的方法當(dāng)在數(shù)據(jù)處理硬件上執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行用于利用聯(lián)合語(yǔ)言標(biāo)識(shí)的流式端到端多語(yǔ)言語(yǔ)音識(shí)別的操作。所述操作包括接收聲學(xué)幀序列作為對(duì)自動(dòng)語(yǔ)音識(shí)別(asr)模型的輸入。所述操作還包括由asr模型的第一編碼器在多個(gè)輸出步驟中的每一處針對(duì)聲學(xué)幀序列中的對(duì)應(yīng)的聲學(xué)幀生成第一高階特征表示。所述操作還包括由asr模型的第二編碼器在多個(gè)輸出步驟中的每一處針對(duì)對(duì)應(yīng)的第一高階特征表示生成第二高階特征表示。所述操作還包括由asr模型的語(yǔ)言標(biāo)識(shí)(id)預(yù)測(cè)器在多個(gè)輸出步驟中的每一處生成語(yǔ)言預(yù)測(cè)表示。這里,語(yǔ)言預(yù)測(cè)表示是基于由第一編碼器在多個(gè)輸出步驟中的每一處生成的第一高階特征表示和由第二編碼器在多個(gè)輸出步驟中的每一處生成的第二高階特征表示的串聯(lián)。所述操作還包括由asr模型的第一解碼器在多個(gè)輸出步驟中的每一處生成在可能的語(yǔ)音識(shí)別預(yù)測(cè)文本上的第一概率分布。這里,在可能的語(yǔ)音識(shí)別預(yù)測(cè)文本上的第一概率分布是基于由第二編碼器在多個(gè)輸出步驟中的每一處生成的第二高階特征表示和由語(yǔ)言id預(yù)測(cè)器在多個(gè)輸出步驟中的每一處生成的語(yǔ)言預(yù)測(cè)表示的串聯(lián)。

      6、本公開(kāi)的實(shí)現(xiàn)方式可以包括以下可選特征中的一個(gè)或多個(gè)。在一些實(shí)現(xiàn)方式中,所述操作還包括由asr模型的第二解碼器在多個(gè)輸出步驟中的每一處生成在可能的語(yǔ)音識(shí)別預(yù)測(cè)文本上的第二概率分布。在可能的語(yǔ)音識(shí)別預(yù)測(cè)文本上的第二概率分布是基于由第一編碼器在多個(gè)輸出步驟中的每一處生成的第一高階特征表示。在這些實(shí)現(xiàn)方式中,所述操作還可以包括由第二解碼器基于在可能的語(yǔ)音識(shí)別預(yù)測(cè)文本上的第二概率分布來(lái)生成部分語(yǔ)音識(shí)別結(jié)果。第一解碼器和第二解碼器可以各自包括對(duì)應(yīng)的預(yù)測(cè)網(wǎng)絡(luò)、接著是對(duì)應(yīng)的聯(lián)合網(wǎng)絡(luò),第一解碼器和第二解碼器的對(duì)應(yīng)的預(yù)測(cè)網(wǎng)絡(luò)具有包括基于長(zhǎng)短期(lstm)的預(yù)測(cè)網(wǎng)絡(luò)或v2嵌入查找表中的一個(gè)的相同的結(jié)構(gòu),并且第一解碼器和第二解碼器的對(duì)應(yīng)的聯(lián)合網(wǎng)絡(luò)包括相同的結(jié)構(gòu)。

      7、在一些示例中,第二編碼器在沒(méi)有接收聲學(xué)幀中的任一個(gè)作為輸入的情況下生成第二高階特征表示。在一些實(shí)現(xiàn)方式中,第一編碼器包括因果編碼器,所述因果編碼器包括多個(gè)單向長(zhǎng)短期記憶(lstm)層、多個(gè)conformer層或多個(gè)transformer層中的一個(gè)。第二編碼器包括非因果編碼器,所述非因果編碼器包括一個(gè)或多個(gè)雙向長(zhǎng)短期記憶(lstm)層、多個(gè)conformer層或多個(gè)transformer層中的一個(gè)。

      8、在一些示例中,所述操作還包括通過(guò)以下來(lái)在多語(yǔ)言訓(xùn)練話語(yǔ)集上聯(lián)合地訓(xùn)練第一編碼器、第二編碼器和語(yǔ)言id預(yù)測(cè)器:針對(duì)編碼器生成第一損失;針對(duì)第二編碼器生成第二損失;針對(duì)語(yǔ)言id預(yù)測(cè)器生成第三損失;以及將第一損失、第二損失和第三損失的加權(quán)和最小化。在這些示例中,所述操作還可以包括添加語(yǔ)言id詞元作為多語(yǔ)言訓(xùn)練話語(yǔ)集中的每個(gè)多語(yǔ)言訓(xùn)練話語(yǔ)的對(duì)應(yīng)的真實(shí)值轉(zhuǎn)錄的第一詞元。語(yǔ)言id目標(biāo)詞元識(shí)別對(duì)應(yīng)的多語(yǔ)言訓(xùn)練話語(yǔ)的語(yǔ)言。替代地,所述操作還包括將語(yǔ)言id目標(biāo)詞元添加到在多語(yǔ)言訓(xùn)練話語(yǔ)集中的每個(gè)多語(yǔ)言訓(xùn)練話語(yǔ)的對(duì)應(yīng)的真實(shí)值轉(zhuǎn)錄中發(fā)生語(yǔ)碼轉(zhuǎn)換的每個(gè)位置。

      9、本公開(kāi)的一個(gè)或多個(gè)實(shí)現(xiàn)方式的細(xì)節(jié)在附圖和以下描述中進(jìn)行闡述。根據(jù)說(shuō)明書(shū)和附圖以及根據(jù)權(quán)利要求,其他方面、特征和優(yōu)點(diǎn)將顯而易見(jiàn)。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1