国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于處理序列數(shù)據(jù)的模型的訓(xùn)練的制作方法

      文檔序號:31950293發(fā)布日期:2022-10-26 09:18閱讀:58來源:國知局
      用于處理序列數(shù)據(jù)的模型的訓(xùn)練的制作方法
      用于處理序列數(shù)據(jù)的模型的訓(xùn)練


      背景技術(shù):

      1.本公開總體上涉及機(jī)器學(xué)習(xí),并且更具體地涉及訓(xùn)練用于處理序列數(shù)據(jù)的模型的技術(shù)。
      2.使用ctc(connectionist temporal classification,聯(lián)結(jié)主義時(shí)間分類)損失函數(shù)的端到端自動(dòng)語音識別(asr)系統(tǒng)由于其易于訓(xùn)練和解碼效率而備受關(guān)注。端到端asr系統(tǒng)使用ctc模型來預(yù)測具有或不具有后續(xù)語言模型的子詞或單詞的序列?;赾tc的asr可以比相關(guān)的nn(神經(jīng)網(wǎng)絡(luò))/hmm(隱馬爾可夫模型)混合系統(tǒng)更快地操作。由此,預(yù)期功率消耗和計(jì)算資源成本顯著減少。
      3.單向lstm模型與ctc損失函數(shù)的組合是建立流式asr的有希望的方式之一。然而,通常,這樣的組合在解碼期間遭受聲學(xué)特征和輸出符號之間的時(shí)間延遲,這增加了流式asr的延遲。從聲學(xué)特征和輸出符號之間的幀級強(qiáng)制對準(zhǔn)(alignment)訓(xùn)練的相關(guān)nn/hmm混合系統(tǒng)不遭受時(shí)間延遲。與混合模型相比,ctc模型通常用具有不同長度的聲學(xué)特征和輸出符號的訓(xùn)練樣本來訓(xùn)練。這意味著沒有時(shí)間對準(zhǔn)監(jiān)督。在沒有幀級對準(zhǔn)的情況下訓(xùn)練的ctc模型在模型消耗輸出符號的足夠信息之后產(chǎn)生輸出符號,這導(dǎo)致聲學(xué)特征與輸出符號之間的時(shí)間延遲。
      4.為了減少聲學(xué)特征與輸出符號之間的時(shí)間延遲,提出了對ctc對準(zhǔn)施加約束的方法(安德魯
      ·
      高級(andrew senior)等人,“具有cd-ctc-smbr lstm rnn的聲學(xué)建模(acoustic modeling with cd-ctc-smbr lstm rnn)”,proc.asru,2015,第604

      609頁)。已經(jīng)研究,可以通過將在正向-反向算法中使用的一組搜索路徑限制為ctc標(biāo)簽與“基礎(chǔ)事實(shí)”對準(zhǔn)之間的延遲不超過某個(gè)閾值的那些路徑來限制延遲。然而,本文獻(xiàn)中公開的方法需要迭代步驟以在ctc模型訓(xùn)練之前準(zhǔn)備框架級強(qiáng)制對準(zhǔn)。
      5.美國專利申請20170148431a1公開了用于識別截然不同的語言(例如英語或中文)的語音的端到端深度學(xué)習(xí)系統(tǒng)和方法。手工設(shè)計(jì)的組件的整個(gè)流水線被神經(jīng)網(wǎng)絡(luò)替換,并且端到端學(xué)習(xí)允許處理各種各樣的語音,包括噪聲環(huán)境、口音和不同的語言。然而,本專利文獻(xiàn)中公開的技術(shù)試圖修改神經(jīng)網(wǎng)絡(luò)拓?fù)洹?br/>6.美國專利申請20180130474a1公開了方法、系統(tǒng)和裝置,包括編碼在計(jì)算機(jī)存儲(chǔ)介質(zhì)上的用于從聲學(xué)序列學(xué)習(xí)發(fā)音的計(jì)算機(jī)程序。該方法包括:堆疊聲學(xué)數(shù)據(jù)的一個(gè)或多個(gè)幀以產(chǎn)生聲學(xué)數(shù)據(jù)的經(jīng)修改的幀的序列;通過包括一個(gè)或多個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(rnn)層和最終ctc輸出層的聲學(xué)建模神經(jīng)網(wǎng)絡(luò)來處理聲學(xué)數(shù)據(jù)的經(jīng)修改的幀的序列,以產(chǎn)生神經(jīng)網(wǎng)絡(luò)輸出。該專利文獻(xiàn)中公開的技術(shù)僅調(diào)整對編碼器的輸入以降低幀速率。
      7.因此,需要一種新穎的訓(xùn)練技術(shù),其能夠以有效的方式減小模型的輸出與輸入之間的時(shí)間延遲,該模型利用具有不同長度的輸入觀察和輸出符號的訓(xùn)練樣本來訓(xùn)練。


      技術(shù)實(shí)現(xiàn)要素:

      8.根據(jù)本發(fā)明的實(shí)施例,提供了一種用于訓(xùn)練模型的計(jì)算機(jī)實(shí)現(xiàn)的方法。所述方法包括獲得訓(xùn)練樣本,所述訓(xùn)練樣本包括觀察的輸入序列和長度不同于所述觀察的輸入序列
      的符號的目標(biāo)序列。該方法還包括將觀察的輸入序列饋送到模型中以獲得預(yù)測序列。該方法進(jìn)一步包括將該預(yù)測序列相對于該觀察的輸入序列移位一量。該方法進(jìn)一步包括使用移位的預(yù)測序列和符號的目標(biāo)序列基于損失來更新模型。
      9.根據(jù)本發(fā)明的實(shí)施例的方法使得訓(xùn)練的模型能夠在適當(dāng)?shù)亩〞r(shí)輸出預(yù)測以減少預(yù)測過程相對于輸入的延遲。
      10.在優(yōu)選實(shí)施例中,預(yù)測序列可以相對于觀察的輸入序列正向移位以產(chǎn)生經(jīng)移位的預(yù)測序列并且該模型是單向的。該方法使得訓(xùn)練的模型能夠更早地輸出預(yù)測以減少預(yù)測過程相對于輸入的延遲。通過該方法訓(xùn)練的模型適合于流式應(yīng)用。
      11.在具體實(shí)施例中,該模型可以是基于遞歸神經(jīng)網(wǎng)絡(luò)的模型。在特定實(shí)施例中,該損失可為ctc(聯(lián)結(jié)主義時(shí)間分類)損失。
      12.在具體實(shí)施例中,移位預(yù)測序列包括調(diào)整使得移位的預(yù)測序列和觀察的輸入序列的長度是相同的。
      13.在優(yōu)選實(shí)施例中,移位預(yù)測序列并且使用移位的預(yù)測序列來更新模型可以以預(yù)定速率執(zhí)行。由此,該方法使得訓(xùn)練的模型能夠平衡預(yù)測過程的準(zhǔn)確性和延遲。
      14.在具體實(shí)施例中,該模型可以是具有多個(gè)參數(shù)的基于神經(jīng)網(wǎng)絡(luò)的模型。饋送輸入序列包括通過基于神經(jīng)網(wǎng)絡(luò)的模型進(jìn)行正向傳播。更新所述模型包括通過所述基于神經(jīng)網(wǎng)絡(luò)的模型執(zhí)行反向傳播以更新所述多個(gè)參數(shù)。
      15.在進(jìn)一步優(yōu)選實(shí)施例中,該模型可以是端到端語音識別模型。訓(xùn)練樣本的輸入序列中的每個(gè)觀察可以表示聲學(xué)特征,并且訓(xùn)練樣本的目標(biāo)序列中的每個(gè)符號可以表示音素(phone)、上下文相關(guān)音素、字符、單詞片段或單詞。因此,該方法可以使語音識別模型能夠在適當(dāng)?shù)亩〞r(shí)輸出識別結(jié)果,以減少語音識別過程的整體延遲,或者為后續(xù)過程提供更多的時(shí)間,以提高識別準(zhǔn)確度。
      16.在此還描述并要求保護(hù)與本發(fā)明的一個(gè)或多個(gè)方面有關(guān)的計(jì)算機(jī)系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。
      17.根據(jù)本發(fā)明的其他實(shí)施例,提供了一種用于使用模型進(jìn)行解碼的計(jì)算機(jī)程序產(chǎn)品。該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀存儲(chǔ)媒質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)媒質(zhì)具有與其體現(xiàn)的程序指令。所述程序指令可由計(jì)算機(jī)執(zhí)行以致使所述計(jì)算機(jī)執(zhí)行方法,所述方法包括將輸入饋送到所述模型中以獲得輸出。所述模型通過以下來訓(xùn)練:獲得訓(xùn)練樣本,所述訓(xùn)練樣本包括觀察的輸入序列和具有不同于所述觀察的輸入序列的長度的符號的目標(biāo)序列。其可通過將觀察的輸入序列饋送到模型中以獲得預(yù)測序列、相對于觀察的輸入序列將預(yù)測序列移位一量且使用移位的預(yù)測序列和符號的目標(biāo)序列基于損失來更新模型來進(jìn)一步訓(xùn)練。
      18.根據(jù)本發(fā)明的實(shí)施例的計(jì)算機(jī)程序產(chǎn)品能夠在適當(dāng)?shù)亩〞r(shí)輸出預(yù)測以減少預(yù)測過程相對于輸入的延遲。
      19.通過本發(fā)明的技術(shù)實(shí)現(xiàn)了另外的特征和優(yōu)點(diǎn)。本發(fā)明的其他實(shí)施例和方面在本文中詳細(xì)描述,并且被認(rèn)為是要求保護(hù)的發(fā)明的一部分。
      附圖說明
      20.在權(quán)利要求中特別指出并明確要求保護(hù)被視為本發(fā)明的主題。通過以下結(jié)合附圖的詳細(xì)描述,本發(fā)明的上述和其他特征和優(yōu)點(diǎn)將變得顯而易見,其中:
      21.圖1示出了根據(jù)本發(fā)明示例性實(shí)施例的語音識別系統(tǒng)的框圖,所述語音識別系統(tǒng)包括用于訓(xùn)練用于語音識別的ctc模型的正向移位的ctc(聯(lián)結(jié)主義連接性時(shí)間分類)訓(xùn)練系統(tǒng);
      22.圖2示出了根據(jù)本發(fā)明實(shí)施例的作為要訓(xùn)練的ctc模型的示例的單向lstm ctc模型的示意圖;
      23.圖3示出了針對示例句子“this is true”的語音信號以及從通過標(biāo)準(zhǔn)訓(xùn)練過程訓(xùn)練的雙向和單向lstm音素ctc模型針對示例語音信號計(jì)算的結(jié)果音素概率;
      24.圖4描繪了根據(jù)本發(fā)明的示例性實(shí)施例的具有一個(gè)幀移位的正向移位的ctc訓(xùn)練的方式;
      25.圖5是描繪根據(jù)本發(fā)明示例性實(shí)施例的用于訓(xùn)練用于語音識別的ctc模型的新穎的正向移位的ctc訓(xùn)練過程的流程圖;
      26.圖6示出了通過正向移位的ctc訓(xùn)練訓(xùn)練的音素ctc模型的后驗(yàn)概率,其中將要移位的幀的最大數(shù)量設(shè)置為1并且要移位的樣本的速率從0.1變化至0.3;
      27.圖7示出了通過正向移位的ctc訓(xùn)練訓(xùn)練的音素ctc模型的后驗(yàn)概率,其中要移位樣本的速率被設(shè)置為0.1并且要移位幀的最大數(shù)量從1變化至3;
      28.圖8示出了通過正向移位的ctc訓(xùn)練訓(xùn)練的單詞ctc模型的后驗(yàn)概率,其中將要移位幀的最大數(shù)量設(shè)定為1,并且將要移位樣本的速率設(shè)定為0.1;
      29.圖9示出了相對于混合模型的通過音素和單詞ctc模型的時(shí)間延遲;以及
      30.圖10示出了根據(jù)本發(fā)明的一個(gè)或多個(gè)實(shí)施例的計(jì)算機(jī)系統(tǒng)的示意圖。
      具體實(shí)施方式
      31.在下文中,將參考具體實(shí)施例描述本發(fā)明,但本領(lǐng)域技術(shù)人員將理解,以下描述的實(shí)施例僅通過示例的方式提及并且不旨在限制本發(fā)明的范圍。
      32.根據(jù)本發(fā)明的一個(gè)或多個(gè)實(shí)施例涉及用于訓(xùn)練用于處理序列數(shù)據(jù)的模型的計(jì)算機(jī)實(shí)現(xiàn)的方法、計(jì)算機(jī)系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品,其中,從正被訓(xùn)練的模型獲得的預(yù)測序列相對于觀察的輸入序列移位一量,并且經(jīng)移位的預(yù)測序列用于基于所計(jì)算的損失來更新該模型。
      33.在下文中,首先參考圖1-圖4,將描述根據(jù)本發(fā)明的示例性實(shí)施例的用于訓(xùn)練模型的計(jì)算機(jī)系統(tǒng),其中,要訓(xùn)練的模型是用于語音識別的ctc(聯(lián)結(jié)主義連接性時(shí)間分類)模型并且要處理的序列數(shù)據(jù)是聲學(xué)特征的序列。然后,參考圖5,將描述根據(jù)本發(fā)明的示例性實(shí)施例的用于訓(xùn)練模型的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,要通過該方法訓(xùn)練的模型是用于語音識別的ctc模型,并且要處理的序列數(shù)據(jù)是聲學(xué)特征的序列。然后,將參考圖6-圖9描述根據(jù)本發(fā)明的示例性實(shí)施例的用于語音識別的新穎的ctc訓(xùn)練的實(shí)驗(yàn)研究。最后,參考圖10,將描述根據(jù)本發(fā)明的一個(gè)或多個(gè)實(shí)施例的計(jì)算機(jī)系統(tǒng)的硬件配置。
      34.在下文中,參考圖1,描述了根據(jù)本發(fā)明的示例性實(shí)施例的包括正向移位的ctc訓(xùn)練系統(tǒng)110的語音識別系統(tǒng)100的框圖。
      35.如圖1所示,語音識別系統(tǒng)100可以包括用于從輸入提取聲學(xué)特征的特征提取模塊104;以及用于對輸入執(zhí)行語音識別的語音識別模塊106。
      36.根據(jù)本發(fā)明的示例性實(shí)施例的語音識別系統(tǒng)100進(jìn)一步包括:正向移位的ctc訓(xùn)練
      系統(tǒng)110,用于執(zhí)行新穎的ctc訓(xùn)練以便獲得構(gòu)成語音識別模塊106的訓(xùn)練的ctc模型170;以及訓(xùn)練數(shù)據(jù)存儲(chǔ)器120,用于存儲(chǔ)在由正向移位的ctc訓(xùn)練系統(tǒng)110執(zhí)行的新穎的ctc訓(xùn)練中使用的訓(xùn)練數(shù)據(jù)的集合。
      37.特征提取模塊104可以接收通過以預(yù)定采樣頻率和預(yù)定位深度對音頻信號進(jìn)行采樣而被數(shù)字化的音頻信號數(shù)據(jù)102作為輸入。例如,可以從麥克風(fēng)輸入音頻信號。特征提取模塊104還可以通過例如互聯(lián)網(wǎng)的網(wǎng)絡(luò)從遠(yuǎn)程客戶端設(shè)備接收音頻信號數(shù)據(jù)102。特征提取模塊104被配置為通過任何已知聲學(xué)特征分析從所接收的音頻信號數(shù)據(jù)102提取聲學(xué)特征以產(chǎn)生所提取的聲學(xué)特征的序列。
      38.聲學(xué)特征可以包括但不限于mfcc(梅爾頻率倒譜系數(shù))、lpc(線性預(yù)測編碼)系數(shù)、plp(感知線性預(yù)測)倒譜系數(shù)、對數(shù)梅爾頻譜、或其任何組合。聲學(xué)特征可以進(jìn)一步包括

      動(dòng)態(tài)’聲學(xué)特征,例如,前述聲學(xué)特征的靜態(tài)增量特征和雙增量特征。
      39.注意,聲學(xué)特征序列的元素被稱為“幀”,而音頻信號數(shù)據(jù)102包括在預(yù)定頻率處的音頻信號的一系列采樣值。通常,音頻信號數(shù)據(jù)102針對窄帶音頻以8,000hz進(jìn)行采樣,并且針對寬帶音頻以16,000hz進(jìn)行采樣。聲學(xué)特征序列中的每一幀的持續(xù)時(shí)間可為(但不限于)約10到40毫秒。
      40.語音識別模塊106被配置為用于將所提取的聲學(xué)特征的輸入序列轉(zhuǎn)換成單詞的輸出序列。語音識別模塊106使用ctc模型170來預(yù)測所提取的聲學(xué)特征的輸入序列的最合理的語音內(nèi)容并且輸出結(jié)果108。
      41.根據(jù)本發(fā)明的示例性實(shí)施例的語音識別模塊106使用ctc模型170并且可以是端到端模型。在特定實(shí)施例中,語音識別模塊106可包括子詞(例如,音素、字符)單元端到端模型。在其他實(shí)施例中,語音識別模塊106可包括單詞單元端到端模型。端到端模型的單元的示例可以包括音素、字符、上下文相關(guān)音素(例如三音素和五音素)、單詞片段、單詞等。語音識別模塊106至少包括ctc模型170。ctc模型170是由正向移位的ctc訓(xùn)練系統(tǒng)110進(jìn)行的新穎的ctc訓(xùn)練的目標(biāo)。ctc模型170被定義為通過使用ctc損失函數(shù)訓(xùn)練的模型,并且其架構(gòu)不受限制。
      42.當(dāng)語音識別模塊106被配置為子詞(例如,音素)單元端到端模型時(shí),除了輸出子詞序列的ctc模型170之外,語音識別模塊106還包括適當(dāng)?shù)恼Z言模型,例如n元模型和基于神經(jīng)網(wǎng)絡(luò)的模型(例如,rnn(遞歸神經(jīng)網(wǎng)絡(luò)))和詞典。當(dāng)語音識別模塊106配置為單詞單元端到端模型時(shí),語音識別模塊106可僅包括直接輸出單詞序列的ctc模型170,并且不需要語言模型和詞典。
      43.而且,語音識別模塊106可以僅利用神經(jīng)網(wǎng)絡(luò)完成語音識別并且不需要復(fù)雜的語音識別解碼器。然而,在其他實(shí)施例中,語言模型可以進(jìn)一步應(yīng)用于單詞單元端到端模型的結(jié)果,以便提高語音識別的準(zhǔn)確性。而且,在所描述的實(shí)施例中,語音識別模塊106接收聲學(xué)特征的輸入序列。然而,在另一實(shí)施例中,音頻信號數(shù)據(jù)102的原始波形也可由語音識別模塊106接收。由此,原始音頻信號數(shù)據(jù)102可被視為一種聲學(xué)特征。
      44.語音識別模塊106基于聲學(xué)特征的輸入序列找到具有最大概率的單詞序列,并且輸出該單詞序列作為結(jié)果108。
      45.圖1中所示的正向移位的ctc訓(xùn)練系統(tǒng)110被配置為用于執(zhí)行新穎的ctc訓(xùn)練以獲得至少部分地構(gòu)成語音識別模塊106的ctc模型170。
      46.在所描述的實(shí)施例中,訓(xùn)練數(shù)據(jù)存儲(chǔ)器120存儲(chǔ)訓(xùn)練數(shù)據(jù)的集合,每個(gè)訓(xùn)練數(shù)據(jù)包括語音數(shù)據(jù)和對應(yīng)的轉(zhuǎn)錄。
      47.注意,存儲(chǔ)在訓(xùn)練數(shù)據(jù)存儲(chǔ)器120中的語音數(shù)據(jù)可以在特征提取之后以聲學(xué)特征序列的形式給出,該特征提取可以與在前端過程中由特征提取模塊104執(zhí)行的用于推斷的語音數(shù)據(jù)相同。如果以與用于推斷的音頻信號數(shù)據(jù)102相同的音頻信號數(shù)據(jù)的形式給出語音數(shù)據(jù),則可以在訓(xùn)練之前對語音數(shù)據(jù)進(jìn)行特征提取以獲得聲學(xué)特征序列。此外,可以以取決于ctc模型170所靶向的單元的方式以音素的序列、上下文相關(guān)音素、字符、單詞片段或單詞的形式給出轉(zhuǎn)錄。
      48.在所描述的實(shí)施例中,每個(gè)訓(xùn)練樣本被給出為一對觀察的輸入序列以及符號的目標(biāo)序列,其中,觀察是聲學(xué)特征并且符號是子詞(例如,音素)或單詞。訓(xùn)練數(shù)據(jù)可以存儲(chǔ)在可操作地耦合到處理電路的內(nèi)部或外部存儲(chǔ)器中。
      49.正向移位的ctc訓(xùn)練系統(tǒng)110執(zhí)行新穎的ctc訓(xùn)練過程以獲得ctc模型170。在新穎的ctc訓(xùn)練過程期間,正向移位的ctc訓(xùn)練系統(tǒng)110對從ctc模型獲得的預(yù)測序列進(jìn)行預(yù)定處理,該ctc模型是在ctc計(jì)算和ctc模型的參數(shù)更新之前進(jìn)行訓(xùn)練的。
      50.在描述新穎的ctc訓(xùn)練之前,首先,描述了ctc模型的示例性架構(gòu)。
      51.參考圖2,示出lstm ctc模型的示意圖作為ctc模型的示例。為了訓(xùn)練ctc模型,饋送沒有對準(zhǔn)的子詞(例如,音素)/單詞序列和音頻信號數(shù)據(jù)對。lstm ctc模型200可包括:輸入部件202,用于接收經(jīng)由特征提取從給定音頻信號數(shù)據(jù)獲得的聲學(xué)特征的輸入序列;lstm編碼器204;softmax函數(shù)206;以及ctc損失函數(shù)208。作為ctc模型的輸入,還設(shè)想幀堆疊,其中連續(xù)幀作為超級幀堆疊在一起。
      52.lstm編碼器204將聲學(xué)特征的輸入序列轉(zhuǎn)換為高級特征。圖2中所示的lstm編碼器204是單向的。要注意的是,與網(wǎng)絡(luò)同時(shí)從過去和未來狀態(tài)獲得信息的雙向模型相比,術(shù)語“單向”表示網(wǎng)絡(luò)僅僅從過去狀態(tài)獲得信息并且未獲得未來狀態(tài)。使用單向模型對于流式(且可能實(shí)時(shí))asr是優(yōu)選的,因?yàn)閱蜗蚰P驮诮獯a之前不需要整個(gè)幀序列。當(dāng)聲學(xué)特征到達(dá)時(shí),單向模型可按順序輸出預(yù)測。
      53.softmax函數(shù)206基于從lstm編碼器204獲得的輸出高級特征通過歸一化計(jì)算概率分布。ctc損失函數(shù)208是為序列標(biāo)記任務(wù)設(shè)計(jì)的特定類型的損失函數(shù)。
      54.注意,相關(guān)的nn/hmm混合系統(tǒng)訓(xùn)練需要幀級對準(zhǔn)并且需要音素的目標(biāo)序列的長度等于聲學(xué)特征的輸入序列的長度。這種幀級對準(zhǔn)通??梢酝ㄟ^強(qiáng)制對準(zhǔn)技術(shù)來實(shí)現(xiàn)。然而,這種幀級對準(zhǔn)使得訓(xùn)練過程復(fù)雜且耗時(shí)。
      55.與相關(guān)的nn/hmm系統(tǒng)相比,訓(xùn)練ctc模型所需的子詞或單詞的目標(biāo)序列可以具有與聲學(xué)特征的輸入序列不同的長度。通常,聲學(xué)特征的輸入序列的長度比子詞或單詞的目標(biāo)序列長得多。即,不需要幀級對準(zhǔn),并且不存在用于訓(xùn)練ctc模型的時(shí)間對準(zhǔn)監(jiān)督。
      56.由于上述性質(zhì),在沒有幀級對準(zhǔn)的情況下訓(xùn)練的具有單向lstm編碼器的ctc模型在ctc模型消耗輸出符號的足夠信息之后產(chǎn)生輸出符號,這導(dǎo)致聲學(xué)特征和輸出符號(子詞或單詞)之間的時(shí)間延遲。該時(shí)間延遲不是可以通過投資大量資源來減少的類型。
      57.圖3示出了在頂部的示例句“this is true”的語音信號的波形。圖3還示出了在中間和底部從通過標(biāo)準(zhǔn)ctc訓(xùn)練過程訓(xùn)練的雙向和單向lstm音素ctc模型針對示例語音信號計(jì)算的結(jié)果音素概率。
      58.ctc模型在目標(biāo)輸出符號(子詞或單詞)上發(fā)射尖的和稀疏的后驗(yàn)分布,其中,大多數(shù)幀發(fā)射具有高概率的空白符號并且?guī)讉€(gè)幀發(fā)射感興趣的目標(biāo)輸出符號。要注意的是,在每個(gè)時(shí)間索引除了至少空白以外,具有最高后驗(yàn)概率的符號在本文中稱為

      尖峰’(spike)。在圖3中,為了方便的目的,省略空白符號的概率。訓(xùn)練的ctc模型發(fā)射的尖峰定時(shí)通常不被控制。
      59.如圖3的底部所示,來自單向lstm模型的尖峰定時(shí)從圖3頂部所示的實(shí)際聲學(xué)特征和語音信號延遲。輸出對應(yīng)于檢測音素

      dh’、

      ih’、

      s’、

      ih’、

      z’、

      t’、

      r’和

      uw’的尖峰,相對于輸入聲學(xué)特征具有時(shí)間延遲。
      60.注意,雙向lstm模型輸出與聲學(xué)特征對準(zhǔn)的后驗(yàn)概率,如圖3的中間所示。這意味著雙向lstm模型以比單向模型更及時(shí)的方式給出尖峰信號。這是因?yàn)殡p向lstm模型在解碼之前摘要聲學(xué)特征的整個(gè)輸入序列,并且利用來自過去和未來狀態(tài)兩者的信息。由此,使用單向模型對于流式asr是優(yōu)選的。
      61.為了減少尖峰定時(shí)與聲學(xué)特征之間的時(shí)間延遲,根據(jù)本發(fā)明的示例性實(shí)施例的正向移位的ctc訓(xùn)練系統(tǒng)110對從ctc模型獲得的預(yù)測序列(后驗(yàn)概率分布)執(zhí)行正向移位,該ctc模型是通過反向傳播在ctc計(jì)算和參數(shù)更新之前進(jìn)行訓(xùn)練的。
      62.返回參考圖1和圖4,進(jìn)一步描述了正向移位的ctc訓(xùn)練系統(tǒng)110的詳細(xì)框圖。圖4描述了根據(jù)本發(fā)明的示例性實(shí)施例的具有一個(gè)幀移位的正向移位的ctc訓(xùn)練的方式。
      63.如圖1所示,正向移位的ctc訓(xùn)練系統(tǒng)110可以包括:輸入饋送模塊112,用于將聲學(xué)特征的輸入序列饋送到正被訓(xùn)練的ctc模型中以獲得預(yù)測序列,其中正向移位模塊114用于將所獲得的預(yù)測序列正向移位;以及更新模塊116,用于以基于經(jīng)移位的預(yù)測序列的方式來更新正被訓(xùn)練的ctc模型的參數(shù)。
      64.輸入饋送模塊112被配置為用于首先獲得訓(xùn)練樣本,該訓(xùn)練樣本包括作為正確標(biāo)簽的聲學(xué)特征的輸入序列和子詞或單詞的目標(biāo)序列。輸入饋送模塊112還被配置為將包括在每個(gè)訓(xùn)練樣品中的聲學(xué)特征的輸入序列饋送到正被訓(xùn)練的ctc模型中以獲得預(yù)測序列。
      65.令x表示在t個(gè)時(shí)間步長上的聲學(xué)特征向量的序列,并且x
      t
      是在序列x中的時(shí)間索引t(t=1,...,t)處的聲學(xué)特征向量。如圖4頂部所示,通過從聲學(xué)特征向量序列x={x1,...,x
      t
      }通過ctc模型進(jìn)行常規(guī)正向傳播,獲得預(yù)測序列o={o1,...,o
      t
      },其中o
      t
      (t=1,...,t)表示每個(gè)時(shí)間索引t的預(yù)測,并且每個(gè)預(yù)測o
      t
      是目標(biāo)輸出符號(子詞或單詞)上的后驗(yàn)概率分布。
      66.正向移位模塊114被配置為用于使所獲得的預(yù)測序列o相對于聲學(xué)特征向量x的輸入序列移位預(yù)定量以獲得移位的預(yù)測序列o’。在優(yōu)選實(shí)施例中,所獲得的預(yù)測序列o相對于聲學(xué)特征x的輸入序列正向移位。
      67.正向移位模塊114被進(jìn)一步配置為用于進(jìn)行調(diào)整,從而使得經(jīng)移位的預(yù)測序列o’的長度與聲學(xué)特征向量x的輸入序列相同。在特定的實(shí)施例中,可通過用例如對應(yīng)于要移位的預(yù)定量的預(yù)測的最后元素o
      t
      的一個(gè)或多個(gè)副本填充預(yù)測序列o’的結(jié)尾來進(jìn)行調(diào)整。因此,預(yù)測序列o’的長度保持為t。使用預(yù)測的最后元素o
      t
      的副本是一個(gè)示例。在所描述的實(shí)施例中,可以采用填充作為調(diào)整的方式。然而,調(diào)整的方式不限于填充。在另一特定實(shí)施例中,可通過根據(jù)預(yù)定移位量從一端修剪聲學(xué)特征向量x的序列來進(jìn)行調(diào)整。
      68.當(dāng)預(yù)定移位量(要移位的幀數(shù))是一幀時(shí),移位的預(yù)測序列o’保持除了開頭之外的
      剩余預(yù)測,并且移位的預(yù)測序列o’是集合{o2,...,o
      t
      ,o
      t
      },如圖4的中間所示。注意,預(yù)測的最后元素o
      t
      在預(yù)測移位序列o’中被加倍。還應(yīng)注意,僅預(yù)測(后驗(yàn)概率分布)被移位,且包含輸入聲學(xué)特征向量的其他預(yù)測不被移位。
      69.在優(yōu)選實(shí)施例中,預(yù)測序列o的移位不是針對每個(gè)訓(xùn)練樣本執(zhí)行的,而是僅針對訓(xùn)練樣本的一部分執(zhí)行的,這可以由預(yù)定速率確定。訓(xùn)練樣本要移位的預(yù)定速率的范圍可以從大約5%到40%,更優(yōu)選地,大約8%到35%。此外,要移位的訓(xùn)練樣本的單位量可以是一個(gè)訓(xùn)練樣本或一組訓(xùn)練樣本(例如,小批量)。
      70.此外,在特定實(shí)施例中,要移位的量(或要移位的幀數(shù))可以被固定為適當(dāng)?shù)闹怠9潭ǖ闹悼梢匀Q于減小延遲時(shí)間的目標(biāo)和每個(gè)幀的持續(xù)時(shí)間。將獲得與每個(gè)幀的持續(xù)時(shí)間和要移位的幀數(shù)量相稱的延遲減小。
      71.在另一實(shí)施例中,可以在預(yù)先確定的范圍內(nèi)概率地確定有要移位的量。術(shù)語“概率地”意味著依賴于例如均勻分布的預(yù)定分布。預(yù)定范圍或者預(yù)定范圍的上限可以取決于減小延遲時(shí)間的目標(biāo)和每個(gè)幀的持續(xù)時(shí)間的方式來確定。如稍后通過實(shí)驗(yàn)示出的,將獲得與每個(gè)幀的持續(xù)時(shí)間和要移位的幀的平均數(shù)量相稱的延遲的減少。
      72.更新模塊116被配置為用于使用移位的預(yù)測序列o’和包括在訓(xùn)練樣本中的符號(子詞或單詞)的目標(biāo)序列基于損失函數(shù)來更新模型。如圖4的底部所示,通過基于移位的預(yù)測序列o’計(jì)算ctc損失并且通過ctc模型進(jìn)行反向傳播,ctc模型的參數(shù)被更新。而且,每次處理一個(gè)訓(xùn)練樣本(在線)或者一組訓(xùn)練樣本(例如,小批量)時(shí),可進(jìn)行參數(shù)更新。
      73.ctc計(jì)算包括ctc對準(zhǔn)估計(jì)的過程。設(shè)y表示具有長度l的目標(biāo)輸出符號的序列并且yi(i=1,

      ,l)是目標(biāo)序列y中的第i個(gè)子詞或單詞。與要求l等于t的相關(guān)的基于對準(zhǔn)的nn/hmm混合系統(tǒng)訓(xùn)練相比,ctc引入額外的空白符號該空白符號將長度-l序列y擴(kuò)展為一組長度-t序列φ(y),從而允許無對準(zhǔn)訓(xùn)練。在該一組長度-t序列中的每個(gè)序列y
      ^
      (y
      ^
      是φ(y)的元素并且是一組{y
      1^
      ,y
      2^
      ,y
      3^
      ,...,y
      t-1^
      ,y
      t^
      })是聲學(xué)特征向量x的序列與目標(biāo)輸出符號的序列y之間的ctc對準(zhǔn)中的一個(gè)。
      74.例如,假設(shè)給定的輸出音素序列是

      abc’,并且輸入序列的長度是4。在這種情況下,可能的音素序列將是{aabc,abbc,abcc,abc_,ab_c,a_bc,_abc},其中“_”表示空白符號
      75.ctc損失被定義為所有可能的ctc對準(zhǔn)的符號后驗(yàn)概率的總和,如下:
      [0076][0077]
      ctc訓(xùn)練使可能輸出序列的總和最大化或使該總和的負(fù)數(shù)最小化,同時(shí)允許任何幀概率的空白輸出。更新模塊116更新ctc模型的參數(shù)以便最小化ctc損失l
      ctc
      。注意,使損失(ctc損失)最小化包括使損失的負(fù)值最大化,這可被稱為獎(jiǎng)勵(lì)、效用或適合度。更新模塊116可基于移位的預(yù)測序列o’計(jì)算ctc損失l
      ctc
      ,并且基于ctc損失l
      ctc
      通過整個(gè)網(wǎng)絡(luò)進(jìn)行反向傳播,以在每次處理訓(xùn)練樣本(在線)或一組訓(xùn)練樣本(例如,小批量)時(shí)更新ctc模型的參數(shù)。
      [0078]
      用于正向移位的ctc訓(xùn)練的背景想法如下:如果在正向移位之前,ctc對準(zhǔn)(y
      1^
      ,y
      2^
      ,y
      3^
      ,...,y
      t-1^
      ,y
      t^
      )在上述等式(1)中具有高概率p(y
      ^
      |x),那么預(yù)測序列的正向移位轉(zhuǎn)換
      成用于正向移位的ctc對準(zhǔn)(y
      2^
      ,y
      3^
      ,...,y
      t-1^
      ,y
      t^
      ,y
      t^
      )的高概率。由于正向移位的ctc對準(zhǔn)的概率高,所以訓(xùn)練ctc模型的整個(gè)網(wǎng)絡(luò)以通過反向傳播促進(jìn)正向移位的ctc對準(zhǔn),這導(dǎo)致整個(gè)訓(xùn)練之后的時(shí)間延遲減小。
      [0079]
      在所描述的實(shí)施例中,ctc模型被描述為單向lstm模型。然而,作為新穎的正向移位的ctc訓(xùn)練的目標(biāo)的ctc的架構(gòu)不受限制,并且可以是任何rnn類型模型,其包括基本rnn、lstm(長短期存儲(chǔ)器)、gru(網(wǎng)關(guān)遞歸單元)、elman網(wǎng)絡(luò)、jordan網(wǎng)絡(luò)、hopfield網(wǎng)絡(luò)等。而且,rnn類型模型可以包括更復(fù)雜的架構(gòu),例如與其他架構(gòu)(例如cnn(卷積神經(jīng)網(wǎng)絡(luò))、vgg、resnet和轉(zhuǎn)換器)組合使用的前述rnn類型模型中的任何一個(gè)。
      [0080]
      注意,新穎的正向移位的ctc訓(xùn)練僅用于訓(xùn)練??梢允褂门c通過常規(guī)ctc訓(xùn)練訓(xùn)練的模型相同的訓(xùn)練的ctc模型。ctc模型的拓?fù)?例如,神經(jīng)元的連接方式)和配置(例如,隱藏層和單元的數(shù)量)以及用ctc模型解碼的方式不變。
      [0081]
      在具體實(shí)施例中,在圖1中描述的模塊104、106和正向移位的ctc訓(xùn)練系統(tǒng)110中的每個(gè)模塊以及正向移位的ctc訓(xùn)練系統(tǒng)110的模塊112、114和116中的每個(gè)模塊可以但不限于實(shí)施為軟件模塊,該軟件模塊包括結(jié)合硬件組件(如處理器、存儲(chǔ)器等)的程序指令和/或數(shù)據(jù)結(jié)構(gòu);作為包括電子電路的硬件模塊;或其組合。
      [0082]
      它們可以在單個(gè)計(jì)算機(jī)設(shè)備(如個(gè)人計(jì)算機(jī)和服務(wù)器機(jī)器)上或以分布式方式(如計(jì)算機(jī)設(shè)備的計(jì)算機(jī)集群、客戶端-服務(wù)器系統(tǒng)、云計(jì)算系統(tǒng)、邊緣計(jì)算系統(tǒng)等)在多個(gè)設(shè)備上實(shí)現(xiàn)。
      [0083]
      可以通過使用任何內(nèi)部或外部存儲(chǔ)設(shè)備或介質(zhì)來提供訓(xùn)練數(shù)據(jù)存儲(chǔ)器120和用于ctc模型170的參數(shù)的存儲(chǔ)器,實(shí)現(xiàn)正向移位的ctc訓(xùn)練系統(tǒng)110的計(jì)算機(jī)系統(tǒng)的處理電路可操作地聯(lián)接至所述內(nèi)部或外部存儲(chǔ)設(shè)備或介質(zhì)。
      [0084]
      同樣在特定實(shí)施例中,特征提取模塊104、語音識別模塊106(包括由正向移位的ctc訓(xùn)練系統(tǒng)110訓(xùn)練的ctc模型170)在用戶側(cè)的計(jì)算機(jī)系統(tǒng)上實(shí)現(xiàn),而正向移位的ctc訓(xùn)練系統(tǒng)110在語音識別系統(tǒng)的提供商側(cè)的計(jì)算機(jī)系統(tǒng)上實(shí)現(xiàn)。
      [0085]
      在進(jìn)一步的變體實(shí)施例中,僅在用戶側(cè)上實(shí)現(xiàn)特征提取模塊104并且在提供商側(cè)上實(shí)現(xiàn)語音識別模塊106。在該實(shí)施例中,客戶端側(cè)的計(jì)算機(jī)系統(tǒng)僅將聲學(xué)特征的序列傳輸至提供器側(cè)的計(jì)算機(jī)系統(tǒng)并且從提供器側(cè)接收解碼結(jié)果108。在另一個(gè)變體實(shí)施例中,特征提取模塊104和語音識別模塊106兩者均在提供者側(cè)上實(shí)現(xiàn),并且客戶端側(cè)的計(jì)算機(jī)系統(tǒng)僅將音頻信號數(shù)據(jù)102傳輸至提供者側(cè)的計(jì)算機(jī)系統(tǒng)并且從提供者側(cè)接收解碼結(jié)果108。
      [0086]
      在下文中,參考圖5,描述了根據(jù)本發(fā)明示例性實(shí)施例的用于訓(xùn)練用于語音識別的ctc模型的新穎的正向移位的ctc訓(xùn)練過程。圖5是描繪新穎的正向移位的ctc訓(xùn)練過程的流程圖。注意,圖5中所示的過程可由處理電路執(zhí)行,所述處理電路例如實(shí)現(xiàn)圖1中所示的正向移位的ctc訓(xùn)練系統(tǒng)110及其模塊112、114和116的計(jì)算機(jī)系統(tǒng)的處理單元。
      [0087]
      例如,圖5中所示的過程可以響應(yīng)于接收來自操作者的針對新穎的正向移位的ctc訓(xùn)練的請求而在步驟s100處開始。
      [0088]
      在步驟s101,處理單元可以設(shè)置訓(xùn)練參數(shù),這些訓(xùn)練參數(shù)包括新穎的正向移位的ctc訓(xùn)練中的要移位幀的最大數(shù)量(要移位量)和要移位樣本的速率。
      [0089]
      在步驟s102,處理單元可以從訓(xùn)練數(shù)據(jù)存儲(chǔ)器120準(zhǔn)備訓(xùn)練樣本的集合。每個(gè)訓(xùn)練樣本可包括具有長度t的聲學(xué)特征向量x的輸入序列和具有長度l的符號(子詞(例如,音素)
      或單詞)y的目標(biāo)序列。
      [0090]
      在步驟s103,處理單元可以初始化ctc模型。適當(dāng)?shù)卦O(shè)置ctc模型的參數(shù)的初始值。
      [0091]
      在步驟s104,處理單元可以拾取所準(zhǔn)備的集合中的一個(gè)或多個(gè)訓(xùn)練樣本??梢允叭⌒∨康挠?xùn)練樣本。
      [0092]
      在步驟s105,針對每個(gè)拾取的訓(xùn)練樣本,處理單元可以通過饋送聲學(xué)特征向量x的輸入序列來通過ctc模型進(jìn)行正向傳播,以獲得具有長度t的預(yù)測序列o。
      [0093]
      在步驟s106處,處理單元可以基于在步驟s101處給出的要移位樣本的速率來確定是否執(zhí)行正向移位??梢砸灶A(yù)定速率隨機(jī)選擇小批量作為正向移位的目標(biāo)。
      [0094]
      在步驟s107,處理單元可以取決于在步驟s106進(jìn)行的確定的方式分支該過程。在步驟s107中,當(dāng)處理單元確定拾取的訓(xùn)練樣本是正向移位的目標(biāo)(是)時(shí),處理可前進(jìn)至s108。
      [0095]
      在步驟s108,處理單元可以基于在步驟s101給出的要移位的最大幀數(shù)來確定要移位的幀數(shù)。可基于特定分布來概率性地確定要移位的幀的數(shù)量。在特定實(shí)施例中,對于所選擇的小批量,可以從整數(shù)均勻分布到上界(要移位的幀的最大數(shù)量)確定要移位的幀的數(shù)量。
      [0096]
      在步驟s109,處理單元可對在步驟s105獲得的預(yù)測序列o執(zhí)行正向移位以產(chǎn)生預(yù)測的移位序列o’。
      [0097]
      另一方面,響應(yīng)于在步驟s107中確定所拾取的訓(xùn)練樣本不是正向移位的目標(biāo)(否),該過程可以直接進(jìn)行至s110。
      [0098]
      在步驟s110,處理單元可以使用移位的預(yù)測序列o’或預(yù)測原始序列o計(jì)算ctc損失,并且通過ctc模型進(jìn)行反向傳播以更新ctc模型的參數(shù)??梢詫λx擇的小批量執(zhí)行正向移位。對于剩余的小批量,ctc訓(xùn)練可以如常規(guī)進(jìn)行。
      [0099]
      在步驟s111,處理單元可以確定該過程是否結(jié)束。當(dāng)滿足預(yù)定的收斂條件或終止條件時(shí),處理單元可確定處理將被終止。
      [0100]
      響應(yīng)于在步驟s111中確定該過程未結(jié)束(否),該過程可以循環(huán)回s104以用于后續(xù)訓(xùn)練樣本。另一方面,響應(yīng)于在步驟s111中確定過程結(jié)束(是),過程可以前進(jìn)到s112。在步驟s112,處理單元可以將ctc模型的當(dāng)前獲得的參數(shù)存儲(chǔ)到適當(dāng)?shù)拇鎯?chǔ)設(shè)備中,并且過程可以在步驟s113結(jié)束。
      [0101]
      根據(jù)上述實(shí)施例,提供了一種新穎的訓(xùn)練技術(shù),其能夠以有效的方式減少模型的輸出與輸入之間的時(shí)間延遲,所述模型利用具有不同長度的輸入觀察和輸出符號的訓(xùn)練樣本來訓(xùn)練。
      [0102]
      新穎的ctc訓(xùn)練使得訓(xùn)練的模型能夠在適當(dāng)?shù)亩〞r(shí)輸出預(yù)測以減少預(yù)測過程相對于輸入的延遲。優(yōu)選地,訓(xùn)練的模型更早地輸出預(yù)測,并且可以減少預(yù)測過程相對于輸入的延遲。訓(xùn)練的模型適合于流式asr應(yīng)用。如稍后描述的實(shí)驗(yàn)結(jié)果中所展示的,可以通過調(diào)諧新穎的ctc訓(xùn)練的訓(xùn)練參數(shù)來平衡時(shí)延和語音識別準(zhǔn)確度。
      [0103]
      雖然流式端到端asr的實(shí)際總延遲受其他因素影響,但是減小聲學(xué)特征與符號之間的時(shí)間延遲將導(dǎo)致流式asr的較低延遲或者允許針對后續(xù)(后)過程的更多時(shí)間來提高準(zhǔn)確度。與常規(guī)ctc訓(xùn)練相比,新穎的正向移位的ctc訓(xùn)練不需要任何附加信息,例如幀級強(qiáng)制對準(zhǔn)。此外,在解碼時(shí),可以使用與用常規(guī)ctc訓(xùn)練訓(xùn)練的模型相同的用該正向移位的訓(xùn)練
      訓(xùn)練的ctc模型。
      [0104]
      此外,如稍后描述的實(shí)驗(yàn)結(jié)果中所展示的,對用于語音識別的ctc模型的準(zhǔn)確性幾乎沒有不利影響。
      [0105]
      在上述實(shí)施例中,由正向移位的ctc訓(xùn)練系統(tǒng)110訓(xùn)練的ctc模型被描述為直接用作構(gòu)成語音識別模塊106的ctc模型170。然而,在其他實(shí)施例中,由正向移位的ctc訓(xùn)練系統(tǒng)110訓(xùn)練的ctc模型可以不直接用作ctc模型170。在具體實(shí)施例中,由正向移位的ctc訓(xùn)練系統(tǒng)110訓(xùn)練的ctc模型可以用于知識提煉框架中。例如,由正向移位的ctc訓(xùn)練系統(tǒng)110訓(xùn)練的單向lstm可用作指導(dǎo)ctc模型,并且在指導(dǎo)ctc模型的指導(dǎo)下訓(xùn)練的雙向lstm模型可用作用于知識提煉的學(xué)生單向lstm模型(其用作ctc模型170)的教師模型。例如,在引導(dǎo)ctc模型的指導(dǎo)下訓(xùn)練的雙向lstm模型可用作用于學(xué)生單向lstm模型的知識提煉的教師模型,其中學(xué)生單向lstm模型基于正向移位訓(xùn)練。
      [0106]
      還注意到,在另外的其他實(shí)施例中,由正向移位的ctc訓(xùn)練系統(tǒng)110訓(xùn)練的ctc模型可以不僅僅用作ctc模型170。在其他特定實(shí)施例中,還設(shè)想了涉及由正向移位的ctc訓(xùn)練系統(tǒng)110訓(xùn)練的ctc模型的后融合。
      [0107]
      要注意的是,根據(jù)本發(fā)明的示例性實(shí)施例的用于語音識別的新穎訓(xùn)練可適用于的語言不受限制,并且此類語言可以包括但不限于例如阿拉伯語、漢語、英語、法語、德語、日語、韓語、葡萄牙語、俄語、瑞典語、西班牙語。由于新穎的訓(xùn)練具有無對準(zhǔn)的性質(zhì),因此可以省略用于強(qiáng)制對準(zhǔn)的gmm/hmm系統(tǒng)。此外,當(dāng)采用詞單元端到端模型時(shí),不需要任何詞典和任何語言模型。所以,新穎的訓(xùn)練適用于gmm/hmm系統(tǒng)和/或詞典難以準(zhǔn)備的某些語言。
      [0108]
      此外,在前述實(shí)施例中,新穎的正向移位的ctc訓(xùn)練已經(jīng)被描述為應(yīng)用于語音識別。然而,ctc模型可適用的應(yīng)用不限于語音識別。ctc模型可用于除了語音識別之外的不同序列識別任務(wù)中。而且,延遲時(shí)間的問題不僅在語音識別中出現(xiàn)而且在其他序列識別任務(wù)中出現(xiàn)。這樣的序列識別任務(wù)可以包括來自圖像或筆劃序列的手寫文本識別、光學(xué)字符識別、手勢識別、機(jī)器翻譯等。因此,預(yù)期將新穎的正向移位的ctc訓(xùn)練應(yīng)用于這種其他序列識別任務(wù)。
      [0109]
      盡管已經(jīng)描述并且在下文中將描述相對于根據(jù)本發(fā)明的一個(gè)或多個(gè)具體實(shí)施例獲得的優(yōu)點(diǎn),但應(yīng)理解的是,一些實(shí)施例不能具有這些潛在優(yōu)點(diǎn),并且這些潛在優(yōu)點(diǎn)不一定是所有實(shí)施例所需要的。
      [0110]
      實(shí)驗(yàn)研究
      [0111]
      對于給定的語音數(shù)據(jù)集對實(shí)現(xiàn)圖1中所示的正向移位的ctc訓(xùn)練系統(tǒng)110和圖5中所描述的正向移位的ctc訓(xùn)練過程的程序進(jìn)行編碼和執(zhí)行。用標(biāo)準(zhǔn)英語會(huì)話音素語音數(shù)據(jù)集進(jìn)行asr實(shí)驗(yàn),以驗(yàn)證新穎的正向移位的ctc訓(xùn)練的工作。應(yīng)用新穎的正向移位的ctc訓(xùn)練來訓(xùn)練單向lstm音素ctc模型和單向lstm單詞ctc模型。從由幀級強(qiáng)制對準(zhǔn)訓(xùn)練的足夠強(qiáng)的離線混合模型中測量時(shí)間延遲。
      [0112]
      實(shí)驗(yàn)裝置
      [0113]
      使用來自具有轉(zhuǎn)錄本的標(biāo)準(zhǔn)300小時(shí)切換板-1音頻的262小時(shí)的分段語音。對于聲學(xué)特征,提取每10msec在25msec幀上的40維logmel濾波器組能量。該靜態(tài)特征及其增量和雙增量系數(shù)被用于具有2的抽取速率的幀堆疊。對于評估,使用nist hub5 2000評估數(shù)據(jù)集的切換板(swb)和callhome(ch)子集??紤]到訓(xùn)練數(shù)據(jù)包括類似swb的數(shù)據(jù),在ch測試集上
      的測試對于模型是不匹配的情形。
      [0114]
      對于單向lstm音素ctc模型,使用來自切換板發(fā)音辭典的44個(gè)音素和空白符號。對于解碼,從具有30k的詞匯大小的切換板和fisher轉(zhuǎn)錄本訓(xùn)練具有24m單詞的4元語言模型。構(gòu)建ctc解碼圖形。對于神經(jīng)網(wǎng)絡(luò)架構(gòu),堆疊具有640個(gè)單元的6個(gè)單向lstm層(單向lstm編碼器)和640x 45的全連接線性層,接著是softmax激活函數(shù)。將所有神經(jīng)網(wǎng)絡(luò)參數(shù)初始化成在(-∈,∈)上具有均勻分布的樣本,其中∈是輸入向量大小的反平方根。
      [0115]
      對于單詞ctc模型,選擇在訓(xùn)練數(shù)據(jù)中具有至少五次出現(xiàn)的單詞。這導(dǎo)致具有10,175個(gè)單詞和空白符號的輸出層。選擇相同的6個(gè)單向lstm層,并添加具有256個(gè)單元的1個(gè)全連接線性層以減少計(jì)算。放置256x10,176的完全連接的線性層,隨后是softmax激活函數(shù)。為了更好的收斂,用訓(xùn)練的音素ctc模型初始化單向lstm編碼器部分。其他參數(shù)以與音素ctc模型類似的方式初始化。對于解碼,在輸出單詞后驗(yàn)分布上進(jìn)行簡單的峰值挑選,并且去除重復(fù)和空白符號。
      [0116]
      所有模型被訓(xùn)練20個(gè)時(shí)期并且以從0.01開始并且在時(shí)期10之后以(0.5)
      1/2
      每時(shí)期退火的學(xué)習(xí)速率使用內(nèi)斯特羅夫加速隨機(jī)梯度下降(nesterov-accelerated stochastic gradient descent)。批量大小是128。
      [0117]
      對于新穎的正向移位的ctc訓(xùn)練,兩個(gè)參數(shù)包括“移位最大值”(shift max)和“移位速率”(shift rate),其中“移位最大值”指示有要移位的幀的最大數(shù)量,“移位速率”是其輸出后驗(yàn)概率被移位的小批的速率。隨機(jī)地以“移位速率”選擇訓(xùn)練小批量并且對所選擇的小批量進(jìn)行正向移位。對于移位大小,從超過0的整數(shù)均勻分布到上限為每個(gè)選擇的小批選擇移位大小,該上限由訓(xùn)練參數(shù)“移位最大值”提供。
      [0118]
      后尖峰信號
      [0119]
      如上所述,ctc模型發(fā)射非常尖的后驗(yàn)分布。研究來自swb測試集的話語“this(dhihs)is(ihz)true(truw)”的后概率。
      [0120]
      圖6示出了通過新穎的正向移位的ctc訓(xùn)練訓(xùn)練的音素ctc模型的后驗(yàn)概率,其中,有要移位的幀的最大數(shù)量(shift max)被設(shè)置為1并且有要移位的樣本速率(shift rate)從0.1至0.3變化(示例1-3)。與來自常規(guī)ctc訓(xùn)練(對比示例1)的在頂部的后尖峰相比,來自正向移位的ctc訓(xùn)練(示例1-3)的后尖峰更早出現(xiàn),這是新穎的正向移位的ctc訓(xùn)練的預(yù)期行為。
      [0121]
      圖7示出了具有正向移位的ctc訓(xùn)練的音素ctc模型的后驗(yàn)概率,其中要移位樣本的速率(移位速率)被設(shè)置為0.1并且要移位幀的最大數(shù)量(移位最大值)從1變化至3(示例1、4和7)。雖然這里也出現(xiàn)了一些較早的尖峰,但是一些尖峰沒有被正向移位,尤其是在要移位的幀的最大數(shù)量較大(移位最大)的情況下。
      [0122]
      最后,研究具有正向移位的ctc訓(xùn)練的單詞ctc模型的后驗(yàn)概率。圖8示出了具有正向移位的ctc訓(xùn)練的單詞ctc模型的后驗(yàn)概率,其中將要移位的幀的最大數(shù)量(shift max)設(shè)置為1,并且將要移位的樣本的速率(shift rate)設(shè)置為0.1(示例10)。如圖8所示,確認(rèn)從用正向移位訓(xùn)練訓(xùn)練的ctc模型獲得較早的尖峰定時(shí)。注意,對于具有常規(guī)和正向移位的ctc訓(xùn)練的所有單詞ctc模型,將用常規(guī)ctc訓(xùn)練訓(xùn)練的單向lstm音素ctc模型用于初始化。
      [0123]
      來自混合模型的延時(shí)
      [0124]
      接下來,研究在swb和ch測試集的解碼之后的每個(gè)單詞的時(shí)間延遲。圖9示出了相
      對于混合模型的通過音素和單詞ctc模型的時(shí)間延遲的定義。在圖9中,每個(gè)框表示用于每個(gè)模型的輸出符號預(yù)測的單位。注意,由于通過ctc模型中的輸入幀堆疊和抽取實(shí)現(xiàn)的較低幀速率,混合模型與ctc模型之間的單位大小不同。對于混合模型,
      “?
      b”、
      “?
      m”和
      “?
      e”表示hmm的三種狀態(tài),并且為了簡單起見,從該圖中省略每個(gè)狀態(tài)的上下文依賴性變體的標(biāo)識符。
      [0125]
      為了設(shè)置單詞的定時(shí)的基礎(chǔ)事實(shí),使用通過迭代且仔細(xì)的強(qiáng)制對準(zhǔn)步驟在2000小時(shí)切換板+fisher數(shù)據(jù)集上訓(xùn)練的足夠強(qiáng)的離線混合模型。更具體地,兩個(gè)雙向lstm和一個(gè)剩余網(wǎng)絡(luò)(resnet)聲學(xué)模型和n元語言模型的組合用于解碼,并為每個(gè)單詞獲得時(shí)間戳。具有這種混合模型的swb和ch測試集的wer分別是6.7%和12.1%,這比具有以下ctc模型的那些好得多。該混合模型不是用于流式asr,并且用于獲得適當(dāng)?shù)膶?zhǔn)以供參考。此外,還注意到,此混合模型用更多的訓(xùn)練數(shù)據(jù)來訓(xùn)練。
      [0126]
      對于來自音素ctc模型的輸出,還獲得解碼之后的時(shí)間戳。對于混合和音素ctc解碼,使用相同的基于圖形的靜態(tài)解碼器,同時(shí)適當(dāng)?shù)靥幚砜瞻追枴τ趩卧~ctc模型,每個(gè)單詞出現(xiàn)的第一尖峰被假定為其開始時(shí)間。為了測量延遲,來自混合和ctc模型的識別結(jié)果首先與基于動(dòng)態(tài)編程的字符串匹配對準(zhǔn),并計(jì)算對準(zhǔn)的單詞開始時(shí)的平均延遲,如圖9所示。對于單向lstm音素ctc模型,移位最大值從1改變?yōu)?,并且研究從0.1至0.3的移位速率(示例1-9)。單向lstm音素ctc模型的示例和比較例的條件和評估結(jié)果總結(jié)在表1中。
      [0127]
      表1
      [0128][0129][0130]
      雖然wer和時(shí)間延遲存在一些波動(dòng),但證明通過使用新穎的正向移位的ctc訓(xùn)練獲得延遲的恒定減少。該趨勢在匹配的swb和未匹配的ch測試集合中是常見的。例如,如在表1中以粗體書寫的,時(shí)間延遲減少了25毫秒而沒有觀察到對wer的負(fù)面影響。通過將移位速率設(shè)置得較大,在犧牲wer的同時(shí)獲得時(shí)間延遲的進(jìn)一步減少,這可以為流式應(yīng)用的開發(fā)者提
      供調(diào)諧時(shí)間延遲的選項(xiàng)。與先前對尖峰定時(shí)的研究相同,通過將移位最大值設(shè)置得較大沒有觀察到附加的時(shí)間延遲減小。
      [0131]
      對于單向lstm單詞ctc模型,使用與在尖峰定時(shí)的先前研究中相同的設(shè)置(示例10)。針對單向lstm單詞ctc模型的示例10和比較示例2的條件和評估結(jié)果總結(jié)在表2中。
      [0132]
      表2
      [0133][0134]
      確認(rèn)用新穎的正向移位的訓(xùn)練將時(shí)間延遲減少大約25毫秒,同時(shí)觀察到swb測試集的邊際wer降級。
      [0135]
      證明了新穎的正向移位的ctc訓(xùn)練可減小單向lstm音素和單詞ctc模型中的聲學(xué)特征與輸出符號之間的時(shí)間延遲。還研究了新穎的正向移位的ctc訓(xùn)練使得訓(xùn)練的模型能夠更早地產(chǎn)生尖峰。還證實(shí),在大多數(shù)情況下,時(shí)間延遲可以減少約25msec而不會(huì)對wer產(chǎn)生負(fù)面影響。值得注意的是,用新穎的正向移位的訓(xùn)練訓(xùn)練的ctc模型簡單地較早地產(chǎn)生輸出符號,并且可以在不改變用常規(guī)ctc訓(xùn)練訓(xùn)練的模型的現(xiàn)有解碼器的情況下使用。注意,將延遲減少至小于200毫秒(其被稱為人機(jī)交互中的可接受限制)是期望的,并且已經(jīng)進(jìn)行了不同努力并將其組合以實(shí)現(xiàn)這一點(diǎn)。僅通過ctc訓(xùn)練流水線的簡單修改獲得的25毫秒是優(yōu)選的,并且可以與其他努力相結(jié)合。
      [0136]
      計(jì)算機(jī)硬件組件
      [0137]
      現(xiàn)在參見圖10,示出了可以用于語音識別系統(tǒng)100的計(jì)算機(jī)系統(tǒng)10的示例的示意圖。圖10中所示的計(jì)算機(jī)系統(tǒng)10被實(shí)施為計(jì)算機(jī)系統(tǒng)。計(jì)算機(jī)系統(tǒng)10僅是合適的處理設(shè)備的一個(gè)示例,并且不旨在對本文描述的本發(fā)明的實(shí)施例的使用或功能的范圍提出任何限制。無論如何,計(jì)算機(jī)系統(tǒng)10能夠?qū)崿F(xiàn)和/或執(zhí)行上文闡述的任何功能。
      [0138]
      計(jì)算機(jī)系統(tǒng)10可與許多其他通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置一起操作。能夠適合與計(jì)算機(jī)系統(tǒng)10一起使用的眾所周知的計(jì)算系統(tǒng)、環(huán)境和/或配置的示例包括但不限于個(gè)人計(jì)算機(jī)系統(tǒng)、服務(wù)器計(jì)算機(jī)系統(tǒng)、瘦客戶機(jī)、厚客戶機(jī)、手持式或膝上型設(shè)備、車載設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)pc、小型計(jì)算機(jī)系統(tǒng)、大型計(jì)算機(jī)系統(tǒng)和包括以上系統(tǒng)或設(shè)備中的任一個(gè)的分布式云計(jì)算環(huán)境等。
      [0139]
      計(jì)算機(jī)系統(tǒng)10可以在由計(jì)算機(jī)系統(tǒng)執(zhí)行的計(jì)算機(jī)系統(tǒng)可執(zhí)行指令(如程序模塊)的一般背景下進(jìn)行描述。一般而言,程序模塊可包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、邏輯、數(shù)據(jù)結(jié)構(gòu)等。
      [0140]
      如圖10所示,計(jì)算機(jī)系統(tǒng)10以通用計(jì)算設(shè)備的形式示出。計(jì)算機(jī)系統(tǒng)10的組件可以包括但不限于處理器(或處理單元)12和存儲(chǔ)器16,存儲(chǔ)器16通過包括存儲(chǔ)器總線或存儲(chǔ)器控制器的總線、以及使用各種總線架構(gòu)中的任一種的處理器或局部總線耦合到處理器12。
      [0141]
      計(jì)算機(jī)系統(tǒng)10通常包括各種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這樣的介質(zhì)可以是可由計(jì)算機(jī)系統(tǒng)10訪問的任何可用介質(zhì),并且其包括易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。
      [0142]
      存儲(chǔ)器16可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),如隨機(jī)存取存儲(chǔ)器(ram)。計(jì)算機(jī)系統(tǒng)10還可以包括其他可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)媒質(zhì)。僅通過示例的方式,存儲(chǔ)系統(tǒng)18可以被提供用于從不可移除的非易失性磁介質(zhì)讀取和向不可移除的非易失性磁介質(zhì)寫入。如下文將進(jìn)一步描繪和描述的,存儲(chǔ)系統(tǒng)18可包括具有被配置來執(zhí)行本發(fā)明的實(shí)施例的功能的一組(例如,至少一個(gè))程序模塊的至少一個(gè)程序產(chǎn)品。
      [0143]
      具有一組(至少一個(gè))程序模塊的程序/實(shí)用程序可以通過舉例而非限制的方式被存儲(chǔ)在存儲(chǔ)系統(tǒng)18中,以及操作系統(tǒng)、一個(gè)或多個(gè)應(yīng)用程序、其他程序模塊和程序數(shù)據(jù)。操作系統(tǒng)、一個(gè)或多個(gè)應(yīng)用程序、其他程序模塊和程序數(shù)據(jù)中的每一個(gè)或它們的一些組合可以包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊通常執(zhí)行如本文所述的本發(fā)明的實(shí)施例的功能和/或方法。
      [0144]
      計(jì)算機(jī)系統(tǒng)10還可以與一個(gè)或多個(gè)外圍設(shè)備24通信,例如鍵盤、定點(diǎn)設(shè)備、汽車導(dǎo)航系統(tǒng)、音頻系統(tǒng)等;顯示器26;使得用戶能夠與計(jì)算機(jī)系統(tǒng)10交互的一個(gè)或多個(gè)設(shè)備;和/或使得計(jì)算機(jī)系統(tǒng)10能夠與一個(gè)或多個(gè)其他計(jì)算設(shè)備通信的任何設(shè)備(例如,網(wǎng)卡、調(diào)制解調(diào)器等)。這種通信可經(jīng)由輸入/輸出(i/o)接口22發(fā)生。此外,計(jì)算機(jī)系統(tǒng)10可以經(jīng)由網(wǎng)絡(luò)適配器20與例如局域網(wǎng)(lan)、通用廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng))的一個(gè)或多個(gè)網(wǎng)絡(luò)通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線與計(jì)算機(jī)系統(tǒng)10的其他組件通信。應(yīng)當(dāng)理解,雖然未示出,但是其他硬件和/或軟件組件可以與計(jì)算機(jī)系統(tǒng)10結(jié)合使用。示例包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器和數(shù)據(jù)歸檔存儲(chǔ)系統(tǒng)等。
      [0145]
      計(jì)算機(jī)程序?qū)崿F(xiàn)
      [0146]
      本發(fā)明可以是一種計(jì)算機(jī)系統(tǒng)、一種方法和/或一種計(jì)算機(jī)程序產(chǎn)品。計(jì)算機(jī)程序產(chǎn)品可包括其上具有用于使處理器執(zhí)行本發(fā)明的各方面的計(jì)算機(jī)可讀程序指令的一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)媒質(zhì)。
      [0147]
      計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是能夠保留和存儲(chǔ)指令以供指令執(zhí)行設(shè)備使用的有形設(shè)備。計(jì)算機(jī)可讀存儲(chǔ)媒質(zhì)可以是,例如但不限于,電子存儲(chǔ)設(shè)備、磁存儲(chǔ)設(shè)備、光存儲(chǔ)設(shè)備、電磁存儲(chǔ)設(shè)備、半導(dǎo)體存儲(chǔ)設(shè)備、或者上述的任意合適的組合。計(jì)算機(jī)可讀存儲(chǔ)媒質(zhì)的更具體示例的非窮盡列表包括以下各項(xiàng):便攜式計(jì)算機(jī)盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、便攜式緊湊盤只讀存儲(chǔ)器(cd-rom)、數(shù)字通用盤(dvd)、記憶棒、軟盤、例如穿孔卡之類的機(jī)械編碼設(shè)備或具有記錄在其上的指令的槽中的凸出結(jié)構(gòu)、以及上述各項(xiàng)的任何合適的組合。如本文所使用的計(jì)算機(jī)可讀存儲(chǔ)媒體不應(yīng)被解釋為暫時(shí)性信號本身,例如無線電波或其他自由傳播的電磁波、通過波導(dǎo)或其他傳輸媒體傳播的電磁波(例如,穿過光纖電纜的光脈沖)或通過電線發(fā)射的電信號。
      [0148]
      在此所描述的計(jì)算機(jī)可讀程序指令可以經(jīng)由網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng)、局域網(wǎng)、廣域網(wǎng)和/或無線網(wǎng)絡(luò))從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)下載到對應(yīng)的計(jì)算/處理裝置或者下載到外部計(jì)算機(jī)或外部存儲(chǔ)設(shè)備。網(wǎng)絡(luò)可以包括銅傳輸電纜、光傳輸纖維、無線傳輸、路由器、防火墻、交
      換機(jī)、網(wǎng)關(guān)計(jì)算機(jī)和/或邊緣服務(wù)器。每個(gè)計(jì)算/處理設(shè)備中的網(wǎng)絡(luò)適配器卡或網(wǎng)絡(luò)接口接收來自網(wǎng)絡(luò)的計(jì)算機(jī)可讀程序指令,并轉(zhuǎn)發(fā)計(jì)算機(jī)可讀程序指令以存儲(chǔ)在相應(yīng)計(jì)算/處理設(shè)備內(nèi)的計(jì)算機(jī)可讀存儲(chǔ)媒質(zhì)中。
      [0149]
      用于執(zhí)行本發(fā)明的操作的計(jì)算機(jī)可讀程序指令可以是匯編指令、指令集架構(gòu)(isa)指令、機(jī)器指令、機(jī)器相關(guān)指令、微代碼、固件指令、狀態(tài)設(shè)置數(shù)據(jù)、或以一種或多種程序設(shè)計(jì)語言的任何組合編寫的源代碼或目標(biāo)代碼,這些程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言(例如smalltalk、c++等)和常規(guī)的過程式程序設(shè)計(jì)語言(例如“c”程序設(shè)計(jì)語言或類似程序設(shè)計(jì)語言)。計(jì)算機(jī)可讀程序指令可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分在用戶計(jì)算機(jī)上執(zhí)行、作為獨(dú)立軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在后一種情況下,遠(yuǎn)程計(jì)算機(jī)可通過任何類型的網(wǎng)絡(luò)(包括局域網(wǎng)(lan)或廣域網(wǎng)(wan))連接至用戶計(jì)算機(jī),或者可連接至外部計(jì)算機(jī)(例如,使用互聯(lián)網(wǎng)服務(wù)提供商通過互聯(lián)網(wǎng))。在一些實(shí)施例中,包括例如可編程邏輯電路、現(xiàn)場可編程門陣列(fpga)或可編程邏輯陣列(pla)的電子電路可以通過利用計(jì)算機(jī)可讀程序指令的狀態(tài)信息來使電子電路個(gè)性化來執(zhí)行計(jì)算機(jī)可讀程序指令,以便執(zhí)行本發(fā)明的各方面。
      [0150]
      下面將參考根據(jù)本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)框以及流程圖和/或框圖中各框的組合,都可以由計(jì)算機(jī)可讀程序指令實(shí)現(xiàn)。
      [0151]
      這些計(jì)算機(jī)可讀程序指令可以被提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器以產(chǎn)生一種機(jī)器,這樣使得經(jīng)由該計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的該處理器執(zhí)行的這些指令產(chǎn)生用于實(shí)現(xiàn)在流程圖和/或框圖的或多個(gè)框中指定的功能/動(dòng)作的裝置。也可以把這些計(jì)算機(jī)可讀程序指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)媒質(zhì)中,這些指令使得計(jì)算機(jī)、可編程數(shù)據(jù)處理裝置、和/或其他設(shè)備以特定方式工作,從而,其中存儲(chǔ)有指令的計(jì)算機(jī)可讀存儲(chǔ)媒質(zhì)包括包含實(shí)現(xiàn)流程圖和/或框圖中的或多個(gè)框中規(guī)定的功能/動(dòng)作的方面的指令的制造品。
      [0152]
      計(jì)算機(jī)可讀程序指令還可以被加載到計(jì)算機(jī)、其他可編程數(shù)據(jù)處理裝置、或其他設(shè)備上,以使得一系列操作步驟在計(jì)算機(jī)、其他可編程裝置或其他設(shè)備上被執(zhí)行以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,從而使得在計(jì)算機(jī)、其他可編程裝置、或其他設(shè)備上執(zhí)行的指令實(shí)現(xiàn)流程圖和/或框圖的或多個(gè)框中所指定的功能/動(dòng)作。
      [0153]
      附圖中的流程圖和框圖展示了根據(jù)本發(fā)明的不同實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)方式的架構(gòu)、功能和操作。對此,流程圖或框圖中的每個(gè)框可表示指令的模塊、段或部分,其包括用于實(shí)現(xiàn)指定的邏輯功能的一個(gè)或多個(gè)可執(zhí)行指令。在一些備選實(shí)現(xiàn)中,框中標(biāo)注的功能可以不按照圖中標(biāo)注的順序發(fā)生。例如,取決于所涉及的功能,連續(xù)示出的兩個(gè)塊實(shí)際上可以基本上同時(shí)執(zhí)行,或者這些塊有時(shí)可以以相反的順序執(zhí)行。也要注意的是,框圖和/或流程圖中的每個(gè)框、以及框圖和/或流程圖中的框的組合,可以用執(zhí)行規(guī)定的功能或動(dòng)作或執(zhí)行專用硬件與計(jì)算機(jī)指令的組合的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn)。
      [0154]
      在此使用的術(shù)語僅是出于描述特定實(shí)施例的目的,并且不旨在限制本發(fā)明。如本文中使用的,除非上下文另有明確指示,否則單數(shù)形式“一”、“一個(gè)”和“該”旨在也包括復(fù)數(shù)形式。將進(jìn)一步理解的是,當(dāng)在本說明書中使用術(shù)語“包括”和/或“包含”時(shí),其指定所述特征、步驟、層、元件和/或組件的存在,但不排除一個(gè)或多個(gè)其他特征、步驟、層、元件、組件
      和/或其組合的存在或添加。
      [0155]
      權(quán)利要求書中的所有裝置或步驟加上功能元件(如果有的話)的相應(yīng)結(jié)構(gòu)、材料、動(dòng)作和等效物旨在包括用于結(jié)合如具體要求保護(hù)的其他要求保護(hù)的元件來執(zhí)行功能的任何結(jié)構(gòu)、材料或動(dòng)作。已經(jīng)出于說明和描述的目的呈現(xiàn)了本發(fā)明的一個(gè)或多個(gè)方面的描述,但并不旨在是詳盡的或限于所公開形式的本發(fā)明。
      [0156]
      許多修改和變化對于本領(lǐng)域普通技術(shù)人員來說將是顯而易見的,而不脫離所描述的實(shí)施例的范圍和精神。本文使用的術(shù)語被選擇來最好地解釋實(shí)施例的原理、實(shí)際應(yīng)用或?qū)υ谑袌鲋姓业降募夹g(shù)的技術(shù)改進(jìn),或者使得本領(lǐng)域普通技術(shù)人員能夠理解本文公開的實(shí)施例。
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1