国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      使用基于用戶輸入的詞或音素時(shí)間標(biāo)記的語(yǔ)音辨識(shí)的制作方法

      文檔序號(hào):39410914發(fā)布日期:2024-09-18 11:45閱讀:61來源:國(guó)知局
      使用基于用戶輸入的詞或音素時(shí)間標(biāo)記的語(yǔ)音辨識(shí)的制作方法

      本公開涉及使用基于用戶輸入的詞或音素時(shí)間標(biāo)記的語(yǔ)音辨識(shí)。


      背景技術(shù):

      1、自動(dòng)語(yǔ)音辨識(shí)(asr)系統(tǒng)可以在計(jì)算裝置上操作,以辨識(shí)/轉(zhuǎn)錄由用戶說出的查詢數(shù)字助理以執(zhí)行操作的語(yǔ)音。隨著基于神經(jīng)網(wǎng)絡(luò)的端到端模型、大規(guī)模訓(xùn)練數(shù)據(jù)和用于增強(qiáng)訓(xùn)練數(shù)據(jù)的改進(jìn)策略的出現(xiàn),自動(dòng)語(yǔ)音辨識(shí)(asr)系統(tǒng)的穩(wěn)健性多年來已經(jīng)顯著改進(jìn)。然而,各種條件諸如更嚴(yán)酷的背景噪聲和競(jìng)爭(zhēng)語(yǔ)音顯著劣化asr系統(tǒng)的性能。


      技術(shù)實(shí)現(xiàn)思路

      1、本公開的一個(gè)方面提供了一種計(jì)算機(jī)實(shí)現(xiàn)的方法,該計(jì)算機(jī)實(shí)現(xiàn)的方法當(dāng)在數(shù)據(jù)處理硬件上執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行操作,該操作包括接收由用戶裝置捕獲的輸入音頻信號(hào)。輸入音頻信號(hào)對(duì)應(yīng)于由目標(biāo)用戶說出的多個(gè)詞的目標(biāo)語(yǔ)音,并且包含在用戶裝置存在的情況下在目標(biāo)用戶說出目標(biāo)語(yǔ)音中的多個(gè)詞時(shí)的背景噪聲。該操作還包括:接收由目標(biāo)用戶輸入的與目標(biāo)用戶說出目標(biāo)語(yǔ)音中的多個(gè)詞的節(jié)奏一致的時(shí)間標(biāo)記的序列;將時(shí)間標(biāo)記的序列與輸入音頻信號(hào)相關(guān),以生成增強(qiáng)的音頻特征,該增強(qiáng)的音頻特征將目標(biāo)語(yǔ)音與輸入音頻信號(hào)中的背景噪聲分離;以及使用語(yǔ)音辨識(shí)模型來處理增強(qiáng)的音頻特征,以生成目標(biāo)語(yǔ)音的轉(zhuǎn)錄。

      2、本公開的實(shí)現(xiàn)方式可以包括以下可選特征中的一個(gè)或多個(gè)可選特征。在一些實(shí)現(xiàn)方式中,將時(shí)間標(biāo)記的序列與輸入音頻信號(hào)相關(guān)包括:使用時(shí)間標(biāo)記的序列來計(jì)算詞時(shí)間戳的序列,該詞時(shí)間戳各自指定與由目標(biāo)用戶說出的目標(biāo)語(yǔ)音中的多個(gè)詞中的一個(gè)詞相對(duì)應(yīng)的相應(yīng)時(shí)間;以及使用計(jì)算出的詞時(shí)間戳的序列來將目標(biāo)語(yǔ)音與輸入音頻信號(hào)中的背景噪聲分離,以生成增強(qiáng)的音頻特征。在這些實(shí)現(xiàn)方式中,將目標(biāo)語(yǔ)音與輸入音頻信號(hào)中的背景噪聲分離可以包括:從增強(qiáng)的音頻特征中的包含物中移除背景噪聲。附加地或替代地,將目標(biāo)語(yǔ)音與輸入音頻信號(hào)中的背景噪聲分離包括:將詞時(shí)間戳的序列指定給增強(qiáng)的音頻特征的對(duì)應(yīng)音頻片段,以將目標(biāo)語(yǔ)音與背景噪聲區(qū)分開。

      3、在一些示例中,接收由目標(biāo)用戶輸入的時(shí)間標(biāo)記的序列包括:響應(yīng)于目標(biāo)用戶觸摸或按壓用戶裝置的或與數(shù)據(jù)處理硬件通信的另一裝置的預(yù)定義區(qū)域,接收時(shí)間標(biāo)記的序列中的每個(gè)時(shí)間標(biāo)記。這里,用戶裝置的或其他裝置的預(yù)定義區(qū)域可以包括設(shè)置在用戶裝置或其他裝置上的物理按鈕。附加地或替代地,其中用戶裝置的或其他裝置的預(yù)定義區(qū)域包括在用戶裝置的圖形用戶界面上顯示的圖形按鈕。在一些實(shí)現(xiàn)方式中,接收由目標(biāo)用戶輸入的時(shí)間標(biāo)記的序列包括:響應(yīng)于與數(shù)據(jù)處理硬件通信的傳感器檢測(cè)到目標(biāo)用戶執(zhí)行預(yù)定義姿勢(shì),接收時(shí)間標(biāo)記的序列中的每個(gè)時(shí)間標(biāo)記。

      4、在一些示例中,由用戶輸入的時(shí)間標(biāo)記的序列中的時(shí)間標(biāo)記的數(shù)量等于目標(biāo)語(yǔ)音中的由目標(biāo)用戶說出的多個(gè)詞的數(shù)量。在一些實(shí)現(xiàn)方式中,數(shù)據(jù)處理硬件駐留在與目標(biāo)用戶相關(guān)聯(lián)的用戶裝置上。附加地或替代地,數(shù)據(jù)處理硬件駐留在與用戶裝置通信的遠(yuǎn)程服務(wù)器上,該用戶裝置與目標(biāo)用戶相關(guān)聯(lián)。在一些示例中,包含在輸入音頻信號(hào)中的背景噪聲包括由一個(gè)或多個(gè)其他用戶說出的競(jìng)爭(zhēng)語(yǔ)音。在一些實(shí)現(xiàn)方式中,由目標(biāo)用戶說出的目標(biāo)語(yǔ)音包括針對(duì)在數(shù)據(jù)處理硬件上執(zhí)行的數(shù)字助理的查詢。這里,查詢指定數(shù)字助理要執(zhí)行的操作。

      5、本公開的另一方面提供了一種系統(tǒng),該系統(tǒng)包括數(shù)據(jù)處理硬件和與數(shù)據(jù)處理硬件通信的存儲(chǔ)器硬件。存儲(chǔ)器硬件存儲(chǔ)指令,該指令在由數(shù)據(jù)處理硬件執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行操作,該操作包括接收由用戶裝置捕獲的輸入音頻信號(hào)。輸入音頻信號(hào)對(duì)應(yīng)于由目標(biāo)用戶說出的多個(gè)詞的目標(biāo)語(yǔ)音,并且包含在用戶裝置存在的情況下在目標(biāo)用戶說出目標(biāo)語(yǔ)音中的多個(gè)詞時(shí)的背景噪聲。該操作還包括:接收由目標(biāo)用戶輸入的與目標(biāo)用戶說出目標(biāo)語(yǔ)音中的多個(gè)詞的節(jié)奏一致的時(shí)間標(biāo)記的序列;將時(shí)間標(biāo)記的序列與輸入音頻信號(hào)相關(guān),以生成增強(qiáng)的音頻特征,該增強(qiáng)的音頻特征將目標(biāo)語(yǔ)音與輸入音頻信號(hào)中的背景噪聲分離;以及使用語(yǔ)音辨識(shí)模型來處理增強(qiáng)的音頻特征,以生成目標(biāo)語(yǔ)音的轉(zhuǎn)錄。

      6、該方面可以包括以下可選特征中的一個(gè)或多個(gè)可選特征。在一些實(shí)現(xiàn)方式中,將時(shí)間標(biāo)記的序列與輸入音頻信號(hào)相關(guān)包括:使用時(shí)間標(biāo)記的序列來計(jì)算詞時(shí)間戳的序列,該詞時(shí)間戳各自指定與由目標(biāo)用戶說出的目標(biāo)語(yǔ)音中的多個(gè)詞中的一個(gè)詞相對(duì)應(yīng)的相應(yīng)時(shí)間;以及使用計(jì)算出的詞時(shí)間戳的序列來將目標(biāo)語(yǔ)音與輸入音頻信號(hào)中的背景噪聲分離,以生成增強(qiáng)的音頻特征。在這些實(shí)現(xiàn)方式中,將目標(biāo)語(yǔ)音與輸入音頻信號(hào)中的背景噪聲分離可以包括:從增強(qiáng)的音頻特征中的包含物中移除背景噪聲。附加地或替代地,將目標(biāo)語(yǔ)音與輸入音頻信號(hào)中的背景噪聲分離包括:將詞時(shí)間戳的序列指定給增強(qiáng)的音頻特征的對(duì)應(yīng)音頻片段,以將目標(biāo)語(yǔ)音與背景噪聲區(qū)分開。

      7、在一些示例中,接收由目標(biāo)用戶輸入的時(shí)間標(biāo)記的序列包括:響應(yīng)于目標(biāo)用戶觸摸或按壓用戶裝置的或與數(shù)據(jù)處理硬件通信的另一裝置的預(yù)定義區(qū)域,接收時(shí)間標(biāo)記的序列中的每個(gè)時(shí)間標(biāo)記。這里,用戶裝置的或其他裝置的預(yù)定義區(qū)域可以包括設(shè)置在用戶裝置或其他裝置上的物理按鈕。附加地或替代地,其中用戶裝置的或其他裝置的預(yù)定義區(qū)域包括在用戶裝置的圖形用戶界面上顯示的圖形按鈕。在一些實(shí)現(xiàn)方式中,接收由目標(biāo)用戶輸入的時(shí)間標(biāo)記的序列包括:響應(yīng)于與數(shù)據(jù)處理硬件通信的傳感器檢測(cè)到目標(biāo)用戶執(zhí)行預(yù)定義姿勢(shì),接收時(shí)間標(biāo)記的序列中的每個(gè)時(shí)間標(biāo)記。

      8、在一些示例中,由用戶輸入的時(shí)間標(biāo)記的序列中的時(shí)間標(biāo)記的數(shù)量等于目標(biāo)語(yǔ)音中的由目標(biāo)用戶說出的多個(gè)詞的數(shù)量。在一些實(shí)現(xiàn)方式中,數(shù)據(jù)處理硬件駐留在與目標(biāo)用戶相關(guān)聯(lián)的用戶裝置上。附加地或替代地,數(shù)據(jù)處理硬件駐留在與用戶裝置通信的遠(yuǎn)程服務(wù)器上,該用戶裝置與目標(biāo)用戶相關(guān)聯(lián)。在一些示例中,包含在輸入音頻信號(hào)中的背景噪聲包括由一個(gè)或多個(gè)其他用戶說出的競(jìng)爭(zhēng)語(yǔ)音。在一些實(shí)現(xiàn)方式中,由目標(biāo)用戶說出的目標(biāo)語(yǔ)音包括針對(duì)在數(shù)據(jù)處理硬件上執(zhí)行的數(shù)字助理的查詢。這里,查詢指定數(shù)字助理要執(zhí)行的操作。

      9、本公開的一個(gè)或多個(gè)實(shí)現(xiàn)方式的細(xì)節(jié)在附圖和下面的描述中闡述。根據(jù)說明書和附圖以及權(quán)利要求,其他方面、特征和優(yōu)點(diǎn)將顯而易見。



      技術(shù)特征:

      1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法(300),所述計(jì)算機(jī)實(shí)現(xiàn)的方法當(dāng)在數(shù)據(jù)處理硬件(410)上執(zhí)行時(shí)使所述數(shù)據(jù)處理硬件(410)執(zhí)行操作,所述操作包括:

      2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中將所述時(shí)間標(biāo)記的序列(204)與所述輸入音頻信號(hào)(202)相關(guān)包括:

      3.根據(jù)權(quán)利要求2所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中將所述目標(biāo)語(yǔ)音(12)與所述輸入音頻信號(hào)(202)中的所述背景噪聲分離包括:從所述增強(qiáng)的音頻特征(145)中的包含物中移除所述背景噪聲。

      4.根據(jù)權(quán)利要求2或3所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中將所述目標(biāo)語(yǔ)音(12)與所述輸入音頻信號(hào)(202)中的所述背景噪聲分離包括:將所述詞時(shí)間戳(144)的序列指定給所述增強(qiáng)的音頻特征(145)的對(duì)應(yīng)音頻片段,以將所述目標(biāo)語(yǔ)音(12)與所述背景噪聲區(qū)分開。

      5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中接收由所述目標(biāo)用戶(10)輸入的所述時(shí)間標(biāo)記的序列(204)包括:響應(yīng)于所述目標(biāo)用戶(10)觸摸或按壓所述用戶裝置(110)的或與所述數(shù)據(jù)處理硬件(410)通信的另一裝置的預(yù)定義區(qū)域(115),接收所述時(shí)間標(biāo)記的序列(204)中的每個(gè)時(shí)間標(biāo)記(204)。

      6.根據(jù)權(quán)利要求5所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中所述用戶裝置(110)的或所述其他裝置的所述預(yù)定義區(qū)域(115)包括設(shè)置在所述用戶裝置(110)或所述其他裝置上的物理按鈕(115a)。

      7.根據(jù)權(quán)利要求5或6所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中所述用戶裝置(110)的或所述其他裝置的所述預(yù)定義區(qū)域(115)包括在所述用戶裝置(110)的圖形用戶界面(118)上顯示的圖形按鈕(115b)。

      8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中接收由所述目標(biāo)用戶(10)輸入的所述時(shí)間標(biāo)記的序列(204)包括:響應(yīng)于與所述數(shù)據(jù)處理硬件(410)通信的傳感器(113)檢測(cè)到所述目標(biāo)用戶(10)執(zhí)行預(yù)定義姿勢(shì),接收所述時(shí)間標(biāo)記的序列(204)中的每個(gè)時(shí)間標(biāo)記(204)。

      9.根據(jù)權(quán)利要求1至8中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中由所述用戶輸入的所述時(shí)間標(biāo)記的序列(204)中的時(shí)間標(biāo)記(204)的數(shù)量等于所述目標(biāo)語(yǔ)音(12)中的由所述目標(biāo)用戶(10)說出的所述多個(gè)詞的數(shù)量。

      10.根據(jù)權(quán)利要求1至9中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中所述數(shù)據(jù)處理硬件(410)駐留在與所述目標(biāo)用戶(10)相關(guān)聯(lián)的所述用戶裝置(110)上。

      11.根據(jù)權(quán)利要求1至10中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中所述數(shù)據(jù)處理硬件(410)駐留在與所述用戶裝置(110)通信的遠(yuǎn)程服務(wù)器(130)上,所述用戶裝置與所述目標(biāo)用戶(10)相關(guān)聯(lián)。

      12.根據(jù)權(quán)利要求1至11中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中包含在所述輸入音頻信號(hào)(202)中的所述背景噪聲包括由一個(gè)或多個(gè)其他用戶(11)說出的競(jìng)爭(zhēng)語(yǔ)音(13)。

      13.根據(jù)權(quán)利要求1至12中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(300),其中由所述目標(biāo)用戶(10)說出的所述目標(biāo)語(yǔ)音(12)包括針對(duì)在所述數(shù)據(jù)處理硬件(410)上執(zhí)行的數(shù)字助理(105)的查詢,所述查詢指定所述數(shù)字助理(105)要執(zhí)行的操作。

      14.一種系統(tǒng)(100),包括:

      15.根據(jù)權(quán)利要求14所述的系統(tǒng)(100),其中將所述時(shí)間標(biāo)記的序列(204)與所述輸入音頻信號(hào)(202)相關(guān)包括:

      16.根據(jù)權(quán)利要求15所述的系統(tǒng)(100),其中將所述目標(biāo)語(yǔ)音(12)與所述輸入音頻信號(hào)(202)中的所述背景噪聲分離包括:從所述增強(qiáng)的音頻特征(145)中的包含物中移除所述背景噪聲。

      17.根據(jù)權(quán)利要求15或16所述的系統(tǒng)(100),其中將所述目標(biāo)語(yǔ)音(12)與所述輸入音頻信號(hào)(202)中的所述背景噪聲分離包括:將所述詞時(shí)間戳(144)的序列指定給所述增強(qiáng)的音頻特征(145)的對(duì)應(yīng)音頻片段,以將所述目標(biāo)語(yǔ)音(12)與所述背景噪聲區(qū)分開。

      18.根據(jù)權(quán)利要求14至17中任一項(xiàng)所述的系統(tǒng)(100),其中接收由所述目標(biāo)用戶(10)輸入的所述時(shí)間標(biāo)記的序列(204)包括:響應(yīng)于所述目標(biāo)用戶(10)觸摸或按壓所述用戶裝置(110)的或與所述數(shù)據(jù)處理硬件(410)通信的另一裝置的預(yù)定義區(qū)域(115),接收所述時(shí)間標(biāo)記的序列(204)中的每個(gè)時(shí)間標(biāo)記(204)。

      19.根據(jù)權(quán)利要求18所述的系統(tǒng)(100),其中所述用戶裝置(110)的或所述其他裝置的所述預(yù)定義區(qū)域(115)包括設(shè)置在所述用戶裝置(110)或所述其他裝置上的物理按鈕(115a)。

      20.根據(jù)權(quán)利要求18或19所述的系統(tǒng)(100),其中所述用戶裝置(110)的或所述其他裝置的所述預(yù)定義區(qū)域(115)包括在所述用戶裝置(110)的圖形用戶界面(118)上顯示的圖形按鈕(115b)。

      21.根據(jù)權(quán)利要求14至20中任一項(xiàng)所述的系統(tǒng)(100),其中接收由所述目標(biāo)用戶(10)輸入的所述時(shí)間標(biāo)記的序列(204)包括:響應(yīng)于與所述數(shù)據(jù)處理硬件(410)通信的傳感器(113)檢測(cè)到所述目標(biāo)用戶(10)執(zhí)行預(yù)定義姿勢(shì),接收所述時(shí)間標(biāo)記的序列(204)中的每個(gè)時(shí)間標(biāo)記(204)。

      22.根據(jù)權(quán)利要求14至21中任一項(xiàng)所述的系統(tǒng)(100),其中由所述用戶輸入的所述時(shí)間標(biāo)記的序列(204)中的時(shí)間標(biāo)記(204)的數(shù)量等于所述目標(biāo)語(yǔ)音(12)中的由所述目標(biāo)用戶(10)說出的所述多個(gè)詞的數(shù)量。

      23.根據(jù)權(quán)利要求14至22中任一項(xiàng)所述的系統(tǒng)(100),其中所述數(shù)據(jù)處理硬件(410)駐留在與所述目標(biāo)用戶(10)相關(guān)聯(lián)的所述用戶裝置(110)上。

      24.根據(jù)權(quán)利要求14至23中任一項(xiàng)所述的系統(tǒng)(100),其中所述數(shù)據(jù)處理硬件(410)駐留在與所述用戶裝置(110)通信的遠(yuǎn)程服務(wù)器上,所述用戶裝置與所述目標(biāo)用戶(10)相關(guān)聯(lián)。

      25.根據(jù)權(quán)利要求14至24中任一項(xiàng)所述的系統(tǒng)(100),其中包含在所述輸入音頻信號(hào)(202)中的所述背景噪聲包括由一個(gè)或多個(gè)其他用戶(11)說出的競(jìng)爭(zhēng)語(yǔ)音(13)。

      26.根據(jù)權(quán)利要求14至25中任一項(xiàng)所述的系統(tǒng)(100),其中由所述目標(biāo)用戶(10)說出的所述目標(biāo)語(yǔ)音(12)包括針對(duì)在所述數(shù)據(jù)處理硬件(410)上執(zhí)行的數(shù)字助理(105)的查詢,所述查詢指定所述數(shù)字助理(105)要執(zhí)行的操作。


      技術(shù)總結(jié)
      一種方法(300)包括:接收由用戶裝置(110)捕獲的輸入音頻信號(hào)(202),其中輸入音頻信號(hào)對(duì)應(yīng)于由目標(biāo)用戶(10)說出的多個(gè)詞的目標(biāo)語(yǔ)音(12),并且包含在用戶裝置存在的情況下在目標(biāo)用戶說出目標(biāo)語(yǔ)音中的多個(gè)詞時(shí)的背景噪聲。該方法還包括:接收由目標(biāo)用戶輸入的與目標(biāo)用戶說出目標(biāo)語(yǔ)音中的多個(gè)詞的節(jié)奏一致的時(shí)間標(biāo)記的序列(204);以及將時(shí)間標(biāo)記的序列與輸入音頻信號(hào)相關(guān),以生成增強(qiáng)的音頻特征(145),該增強(qiáng)的音頻特征將目標(biāo)語(yǔ)音與輸入音頻信號(hào)中的背景噪聲分離。該方法還包括:使用語(yǔ)音辨識(shí)模型(160)來處理增強(qiáng)的音頻特征,以生成目標(biāo)語(yǔ)音的轉(zhuǎn)錄(165)。

      技術(shù)研發(fā)人員:東吉克·辛
      受保護(hù)的技術(shù)使用者:谷歌有限責(zé)任公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/9/17
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1