国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語(yǔ)音識(shí)別系統(tǒng)以及方法與流程

      文檔序號(hào):11097697閱讀:1144來(lái)源:國(guó)知局
      語(yǔ)音識(shí)別系統(tǒng)以及方法與制造工藝

      本發(fā)明的實(shí)施例涉及一種語(yǔ)音識(shí)別技術(shù),尤其涉及一種基于神經(jīng)網(wǎng)絡(luò)模型的語(yǔ)音識(shí)別技術(shù)。



      背景技術(shù):

      目前為止,主要利用隱馬爾科夫模型(HMM:Hidden Markov Model)識(shí)別語(yǔ)音。這種基于HMM的語(yǔ)音識(shí)別方式需要經(jīng)過(guò)從語(yǔ)音數(shù)據(jù)分析發(fā)音,然后基于分析到的發(fā)音來(lái)組合單詞或者句子的過(guò)程。

      但是,發(fā)音可能根據(jù)發(fā)音者、語(yǔ)言的種類(lèi)等而不同,所以分析發(fā)音并識(shí)別語(yǔ)音時(shí)必然會(huì)伴隨經(jīng)過(guò)試錯(cuò)(trial and error)的校正作業(yè)。并且,基于HMM的語(yǔ)音識(shí)別方式根據(jù)發(fā)音來(lái)識(shí)別語(yǔ)音,從這一點(diǎn)來(lái)說(shuō)存在對(duì)周?chē)胍糨^敏感的問(wèn)題。

      現(xiàn)有技術(shù)文獻(xiàn)

      【專(zhuān)利文獻(xiàn)】

      (專(zhuān)利文獻(xiàn)0001)韓國(guó)公開(kāi)專(zhuān)利公報(bào)第10-2014-0015933號(hào)(2014.02.07)



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明的實(shí)施例的目的在于提供一種利用混合神經(jīng)網(wǎng)絡(luò)模型從語(yǔ)音直接識(shí)別文本的方法。

      根據(jù)本發(fā)明的示例性的實(shí)施例,提供一種語(yǔ)音識(shí)別系統(tǒng),包括:語(yǔ)音輸入部,接收學(xué)習(xí)用語(yǔ)音數(shù)據(jù)和包含表示所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的字母(letter)信息的目標(biāo)標(biāo)簽,并將所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)分割成設(shè)定大小的窗(window);第一語(yǔ)音識(shí)別部,利用第一神經(jīng)網(wǎng)絡(luò)模型以及所述目標(biāo)標(biāo)簽來(lái)學(xué)習(xí)被分割的所述窗的特征(features);第二語(yǔ)音識(shí)別部,利用第二神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)被抽取的所述特征的時(shí)間序列模式;文本輸出部,基于所述第一語(yǔ)音識(shí)別部以及所述第二語(yǔ)音識(shí)別部中的學(xué)習(xí)結(jié)果,將輸入到所述語(yǔ)音輸入部的目標(biāo)語(yǔ)音數(shù) 據(jù)轉(zhuǎn)換成文本并輸出。

      所述語(yǔ)音輸入部可以將分割的所述窗中連續(xù)的兩個(gè)以上的窗組合成一個(gè)組之后輸入到所述第一語(yǔ)音識(shí)別部中。

      所述語(yǔ)音輸入部可以根據(jù)設(shè)定的跨距(stride)而使被分割的所述窗的個(gè)數(shù)減少之后輸入到所述第一語(yǔ)音識(shí)別部。

      所述第一神經(jīng)網(wǎng)絡(luò)模型可以是卷積神經(jīng)網(wǎng)絡(luò)模型。

      所述第二神經(jīng)網(wǎng)絡(luò)模型可以是循環(huán)神經(jīng)網(wǎng)絡(luò)模型。

      所述第二語(yǔ)音識(shí)別部可以利用CTC(連續(xù)時(shí)序分類(lèi):Connectionist Temporal Classification)技術(shù)來(lái)學(xué)習(xí)針對(duì)所述目標(biāo)標(biāo)簽的候補(bǔ)標(biāo)簽。

      所述第一語(yǔ)音識(shí)別部可以基于所述第一語(yǔ)音識(shí)別部中的學(xué)習(xí)結(jié)果抽取所述目標(biāo)語(yǔ)音數(shù)據(jù)的特征,并且所述第二語(yǔ)音識(shí)別部可以基于所述第二語(yǔ)音識(shí)別部中的學(xué)習(xí)結(jié)果抽取被抽取的所述目標(biāo)語(yǔ)音數(shù)據(jù)的特征的時(shí)間序列模式,并從學(xué)習(xí)的所述目標(biāo)標(biāo)簽或者所述候補(bǔ)標(biāo)簽中選取與被抽取的所述時(shí)間序列模式對(duì)應(yīng)的標(biāo)簽。

      所述文本輸出部可以將選取的所述標(biāo)簽轉(zhuǎn)換成文本并輸出。

      所述語(yǔ)音識(shí)別系統(tǒng),還可以包括:學(xué)習(xí)控制部,控制所述第一語(yǔ)音識(shí)別部以及所述第二語(yǔ)音識(shí)別部的學(xué)習(xí)率。

      所述學(xué)習(xí)控制部可以在所述第一語(yǔ)音識(shí)別部中的學(xué)習(xí)完成之前,使所述第一語(yǔ)音識(shí)別部以及所述第二語(yǔ)音識(shí)別部的學(xué)習(xí)率維持為相同,并且在第一語(yǔ)音識(shí)別部中的學(xué)習(xí)完成的情況下,將所述第一語(yǔ)音識(shí)別部的學(xué)習(xí)率控制為0。

      根據(jù)本發(fā)明的另一實(shí)施例,提供一種語(yǔ)音識(shí)別方法,包括以下步驟:在語(yǔ)音輸入部中,接收學(xué)習(xí)用語(yǔ)音數(shù)據(jù)和包含表示所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的字母信息的目標(biāo)標(biāo)簽;在所述語(yǔ)音輸入部中,將所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)分割成設(shè)定大小的窗;在第一語(yǔ)音識(shí)別部中,利用第一神經(jīng)網(wǎng)絡(luò)模型以及所述目標(biāo)標(biāo)簽來(lái)學(xué)習(xí)被分割的所述窗的特征;在第二語(yǔ)音識(shí)別部中,利用第二神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)被抽取的所述特征的時(shí)間序列模式;以及在文本輸出部中,基于所述第一語(yǔ)音識(shí)別部以及所述第二語(yǔ)音識(shí)別部中的學(xué)習(xí)結(jié)果,將輸入到所述語(yǔ)音輸入部的目標(biāo)語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成文本并輸出。

      在將所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)分割成設(shè)定大小的窗的步驟以后,還可以包括以下步驟:在所述語(yǔ)音輸入部中,將分割的所述窗中連續(xù)的兩個(gè)以上的窗組 合成一個(gè)組之后并輸入到所述第一語(yǔ)音識(shí)別部。

      在輸入到所述第一語(yǔ)音識(shí)別部的步驟中,可以根據(jù)設(shè)定的跨距而使被分割的所述窗的個(gè)數(shù)減少之后輸入到所述第一語(yǔ)音識(shí)別部。

      所述第一神經(jīng)網(wǎng)絡(luò)模型可以是卷積神經(jīng)網(wǎng)絡(luò)模型。

      所述第二神經(jīng)網(wǎng)絡(luò)模型可以是循環(huán)神經(jīng)網(wǎng)絡(luò)模型。

      所述語(yǔ)音識(shí)別方法在學(xué)習(xí)被抽取的所述特征的時(shí)間序列模式的步驟以后,還可以包括以下步驟:在所述第二語(yǔ)音識(shí)別部中,利用CTC技術(shù)來(lái)學(xué)習(xí)針對(duì)所述目標(biāo)標(biāo)簽的候補(bǔ)標(biāo)簽。

      所述語(yǔ)音識(shí)別方法,在所述轉(zhuǎn)換成文本并輸出的步驟之前還可以包括以下步驟:在所述第一語(yǔ)音識(shí)別部中,基于所述第一語(yǔ)音識(shí)別部中的學(xué)習(xí)結(jié)果,抽取所述目標(biāo)語(yǔ)音數(shù)據(jù)的特征;以及在所述第二語(yǔ)音識(shí)別部中,基于所述第二語(yǔ)音識(shí)別部中的學(xué)習(xí)結(jié)果,抽取被抽取的目標(biāo)語(yǔ)音數(shù)據(jù)的特征的時(shí)間序列模式,并從學(xué)習(xí)的所述目標(biāo)標(biāo)簽或者所述候補(bǔ)標(biāo)簽中選取與被抽取的所述時(shí)間序列模式對(duì)應(yīng)的標(biāo)簽。

      在所述轉(zhuǎn)換成文本并輸出的步驟中可以將選取的所述標(biāo)簽轉(zhuǎn)換成文本并輸出。

      所述語(yǔ)音識(shí)別方法,還可以包括以下步驟:在學(xué)習(xí)控制部中控制所述第一語(yǔ)音識(shí)別部以及所述第二語(yǔ)音識(shí)別部的學(xué)習(xí)率。

      在控制所述學(xué)習(xí)率的步驟中,可以在所述第一語(yǔ)音識(shí)別部中的學(xué)習(xí)完成之前,使第一語(yǔ)音識(shí)別部以及所述第二語(yǔ)音識(shí)別部的學(xué)習(xí)率維持為相同,并且可以在第一語(yǔ)音識(shí)別部中的學(xué)習(xí)完成的情況下,將將第一語(yǔ)音識(shí)別部的學(xué)習(xí)率控制為0。

      根據(jù)本發(fā)明的另一實(shí)施例,提供一種計(jì)算機(jī)程序,為了與硬件結(jié)合而執(zhí)行如下步驟而存儲(chǔ)于計(jì)算機(jī)可讀記錄介質(zhì):在語(yǔ)音輸入部中,接收學(xué)習(xí)用語(yǔ)音數(shù)據(jù)和包含表示所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的字母信息的目標(biāo)標(biāo)簽;在所述語(yǔ)音輸入部中,將所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)分割成設(shè)定大小的窗;在第一語(yǔ)音識(shí)別部中,利用第一神經(jīng)網(wǎng)絡(luò)模型以及所述目標(biāo)標(biāo)簽來(lái)學(xué)習(xí)被分割的所述窗的特征;在第二語(yǔ)音識(shí)別部中,利用第二神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)被抽取的所述特征的時(shí)間序列模式;以及在文本輸出部中,基于所述第一語(yǔ)音識(shí)別部以及所述第二語(yǔ)音識(shí)別部中的學(xué)習(xí)結(jié)果,將輸入到所述語(yǔ)音輸入部的目標(biāo)語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成文本并輸出。

      根據(jù)本發(fā)明的實(shí)施例,根據(jù)基于神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)結(jié)果,可以在對(duì)語(yǔ)音數(shù)據(jù)沒(méi)有進(jìn)行發(fā)音分析過(guò)程的情況下,將語(yǔ)音數(shù)據(jù)直接轉(zhuǎn)換(end-to-end轉(zhuǎn)換)成文本并輸出,從而可以簡(jiǎn)化用于識(shí)別語(yǔ)音的整體流程。

      并且,根據(jù)本發(fā)明的實(shí)施例,將與語(yǔ)音數(shù)據(jù)相關(guān)的字母以及字母間的空格信息以目標(biāo)標(biāo)簽的方式接受而進(jìn)行學(xué)習(xí),從而可以方便地應(yīng)用于字母本身形成一個(gè)字的字母表(alphabet)以及字母(例如,初聲、中聲、終聲等)通過(guò)組合形成一個(gè)字的組合型語(yǔ)言(例如,韓語(yǔ))的識(shí)別。

      并且,根據(jù)本發(fā)明的一實(shí)施例,通過(guò)控制第一語(yǔ)音識(shí)別部以及第二語(yǔ)音識(shí)別部的學(xué)習(xí)率,可以提高語(yǔ)音識(shí)別率。

      附圖說(shuō)明

      圖1為示出根據(jù)本發(fā)明的一實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)的詳細(xì)構(gòu)成的框圖。

      圖2為用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的語(yǔ)音輸入部中分割語(yǔ)音數(shù)據(jù)的過(guò)程的圖。

      圖3為示出根據(jù)本發(fā)明的一實(shí)施例被調(diào)音的語(yǔ)音數(shù)據(jù)的示例的圖。

      圖4為用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的語(yǔ)音數(shù)據(jù)和目標(biāo)標(biāo)簽之間的關(guān)系的圖。

      圖5為用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的第一語(yǔ)音識(shí)別部中抽取語(yǔ)音數(shù)據(jù)的特征的過(guò)程的圖。

      圖6為用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的第二語(yǔ)音識(shí)別部中抽取語(yǔ)音數(shù)據(jù)的時(shí)間序列模式的過(guò)程的圖。

      圖7為用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的第二語(yǔ)音輸入部中學(xué)習(xí)與目標(biāo)標(biāo)簽對(duì)應(yīng)的候補(bǔ)標(biāo)簽的過(guò)程的圖。

      圖8為用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的學(xué)習(xí)控制部中控制第一語(yǔ)音識(shí)別部以及第二語(yǔ)音識(shí)別部的學(xué)習(xí)率的過(guò)程的圖。

      圖9為用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的學(xué)習(xí)控制部中控制第一語(yǔ)音識(shí)別部以及第二語(yǔ)音識(shí)別部的學(xué)習(xí)率的過(guò)程的圖。

      圖10為用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的學(xué)習(xí)控制部中的學(xué)習(xí)控制引起的語(yǔ)音識(shí)別率提升效果的圖。

      圖11為用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的學(xué)習(xí)學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的方法的流程圖。

      圖12為用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的語(yǔ)音識(shí)別方法的流程圖。

      符號(hào)說(shuō)明

      100:語(yǔ)音識(shí)別系統(tǒng) 102:語(yǔ)音輸入部

      104:第一語(yǔ)音識(shí)別部 106:第二語(yǔ)音識(shí)別部

      108:文本輸出部 110:學(xué)習(xí)控制部

      具體實(shí)施方式

      以下,將參照附圖對(duì)本發(fā)明的具體實(shí)施形態(tài)進(jìn)行說(shuō)明。以下的詳細(xì)的說(shuō)明為幫助全面地理解本說(shuō)明書(shū)中描述的方法、裝置以及/或者系統(tǒng)而提供。然而這僅僅為示例,本發(fā)明并不局限于此。

      在對(duì)本發(fā)明的實(shí)施例進(jìn)行說(shuō)明時(shí),如果判斷為對(duì)與本發(fā)明相關(guān)的公知技術(shù)進(jìn)行的具體說(shuō)明會(huì)給本發(fā)明的主旨帶來(lái)不必要的混亂,則將省略對(duì)其進(jìn)行的詳細(xì)說(shuō)明。并且,下述的術(shù)語(yǔ)為考慮到本發(fā)明中的作用而給出定義的術(shù)語(yǔ),其可以根據(jù)用戶(hù)、經(jīng)營(yíng)者的意圖或者習(xí)慣等而不同。所以,需要基于本說(shuō)明書(shū)的整體內(nèi)容來(lái)對(duì)其做出定義。在詳細(xì)的說(shuō)明中使用的術(shù)語(yǔ)只是用于敘述本發(fā)明的實(shí)施例的,而并不具有限制作用。在沒(méi)有明確的反例時(shí),單數(shù)形態(tài)的表現(xiàn)形式包含復(fù)數(shù)形態(tài)的含義。本說(shuō)明書(shū)中,要理解“包含”或者“具有”等表現(xiàn)形式指某些特征、數(shù)字、步驟、操作、要素以及它們的部分或者組合,并且不排出除了所敘述的表現(xiàn)形式之外的一個(gè)或以上的其他特征、數(shù)字、步驟、操作、要素以及它們的部分或者組合的存在或者可能性。

      圖1為示出根據(jù)本發(fā)明的一實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)100的詳細(xì)構(gòu)成的框圖。

      圖1所示,根據(jù)本發(fā)明的一實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)100用于將語(yǔ)音數(shù)據(jù)直接轉(zhuǎn)換(end-to-end轉(zhuǎn)換)成文本而輸出,并且包括:語(yǔ)音輸入部102,、第一語(yǔ)音識(shí)別部104、第二語(yǔ)音識(shí)別部106、文本輸出部108以及學(xué)習(xí)控制部110。

      語(yǔ)音輸入部102是接收語(yǔ)音數(shù)據(jù)的模塊。其中語(yǔ)音數(shù)據(jù)指包含:將語(yǔ)音信號(hào)以波形態(tài)表示的波文件、將所述波文件以頻率形態(tài)表示的聲譜圖(spectrogram)、MFCC(梅爾倒譜系數(shù):Mel-Frequency Cepstral Coefficient)等的廣范圍的意思。語(yǔ)音輸入部102例如可以從麥克風(fēng)、揚(yáng)聲器、音響等音頻設(shè)備接收語(yǔ)音數(shù)據(jù)。但是,不限于此,語(yǔ)音輸入部102例如可以從臺(tái)式機(jī)、 筆記本電腦、平板電腦等通信設(shè)備接收語(yǔ)音數(shù)據(jù)。

      輸入到語(yǔ)音輸入部102的語(yǔ)音數(shù)據(jù)可以是目標(biāo)語(yǔ)音數(shù)據(jù)或者學(xué)習(xí)用語(yǔ)音數(shù)據(jù)。目標(biāo)語(yǔ)音數(shù)據(jù)指作為實(shí)際識(shí)別對(duì)象的語(yǔ)音數(shù)據(jù),學(xué)習(xí)用語(yǔ)音數(shù)據(jù)指為了識(shí)別所述目標(biāo)語(yǔ)音數(shù)據(jù)而使用的語(yǔ)音數(shù)據(jù),并且為了語(yǔ)音識(shí)別系統(tǒng)100的學(xué)習(xí)可以輸入到語(yǔ)音輸入部102中。

      學(xué)習(xí)用語(yǔ)音數(shù)據(jù)可以與表示所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的目標(biāo)標(biāo)簽(label)一起輸入到語(yǔ)音識(shí)別部102中。目標(biāo)標(biāo)簽指神經(jīng)網(wǎng)絡(luò)模型的監(jiān)督學(xué)習(xí)(supervis ed learning)中與學(xué)習(xí)用語(yǔ)音數(shù)據(jù)相關(guān)的結(jié)果數(shù)據(jù)。所述目標(biāo)標(biāo)簽可以包含表示所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的字母(或者字,letter)信息。例如,與“(您好)”的學(xué)習(xí)用語(yǔ)音數(shù)據(jù)相關(guān)的目標(biāo)標(biāo)簽可以是“”。并且,所述目標(biāo)標(biāo)簽還可以包含表示所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的字母間的空格(space)信息。例如,與“(見(jiàn)到您很高興)”的學(xué)習(xí)用語(yǔ)音數(shù)據(jù)相關(guān)的目標(biāo)標(biāo)簽可以是“”。所述空格信息可以用設(shè)定的符號(hào),例如“$”來(lái)表示。所述目標(biāo)標(biāo)簽的示例如下述表1。

      【表1】

      如上所述,語(yǔ)音輸入部102將與語(yǔ)音數(shù)據(jù)相關(guān)的字母以及字母間的空格信息以目標(biāo)標(biāo)簽的形式接收并進(jìn)行學(xué)習(xí),所以可以容易地適用于字母本身構(gòu)成一個(gè)字的字母表(alphabet)的識(shí)別,不僅如此,還可容易地適用于由字母(例如初聲、中聲、終聲)組合而構(gòu)成一個(gè)字的組合型語(yǔ)言(例如韓語(yǔ))的識(shí)別。語(yǔ)音輸入部102可以接收多個(gè)學(xué)習(xí)用語(yǔ)音數(shù)據(jù)(例如,1400個(gè)句子的學(xué)習(xí)用語(yǔ)音數(shù)據(jù))以及與所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)相關(guān)的目標(biāo)標(biāo)簽。輸入到語(yǔ)音輸入部102的學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的量越多,越可以提高后述的第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106中的語(yǔ)音識(shí)別率。

      并且,語(yǔ)音輸入部102可以將語(yǔ)音數(shù)據(jù)(目標(biāo)語(yǔ)音數(shù)據(jù)或者學(xué)習(xí)用語(yǔ)音數(shù)據(jù))分割成設(shè)定大小(或者長(zhǎng)度)的窗(window)。所述設(shè)定的大小例如 可以是25ms,但是分割的窗的大小不限于此。并且,從語(yǔ)音輸入部102中分割的各個(gè)窗可分別具有設(shè)定的時(shí)間差。例如,語(yǔ)音輸入部102中分割的各個(gè)窗可分別具有10ms的時(shí)間差。所述分割的窗中相鄰的窗可以具有預(yù)定長(zhǎng)度的重復(fù)的部分,據(jù)此可以通過(guò)所述窗覆蓋語(yǔ)音數(shù)據(jù)的所有部分。

      并且,所述語(yǔ)音數(shù)據(jù)可以根據(jù)語(yǔ)音數(shù)據(jù)的特征或者第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106的學(xué)習(xí)參數(shù)(或者權(quán)值)而被調(diào)音(tuning)。

      作為示例,在語(yǔ)音輸入部102中被分割的窗中連續(xù)的兩個(gè)以上的窗可以被組合成一個(gè)組,所述窗組可以作為一個(gè)輸入(input)輸入到第一語(yǔ)音識(shí)別部104中。其目的在于,除了針對(duì)當(dāng)前時(shí)刻t表示的語(yǔ)音,還將連接于t之前、之后的音視為一個(gè)輸入,并從它們的關(guān)系抽取特征。以下的實(shí)施例中,將組合成一個(gè)輸入的窗的個(gè)數(shù)稱(chēng)為height(窗高),例如在height=9的情況下,語(yǔ)音輸入部102可以將9個(gè)窗作為一個(gè)輸入而輸入到第一語(yǔ)音識(shí)別部104。

      作為另一示例,語(yǔ)音輸入部102可以根據(jù)設(shè)定的跨距(stride)而使被分割的所述窗的個(gè)數(shù)減少之后輸入到第一語(yǔ)音識(shí)別部104中。語(yǔ)音輸入部102例如可以每次滑動(dòng)10ms地將語(yǔ)音數(shù)據(jù)分割成25ms的窗。在該情況下,相鄰的窗可以部分重疊。若stride=0,則被分割的各個(gè)窗或者根據(jù)height而組合的各個(gè)窗組可以作為一個(gè)輸入依次輸入到第一語(yǔ)音識(shí)別部104,但是在stride=2的情況下,被分割的窗或者窗組中與輸入到第一語(yǔ)音識(shí)別部104的窗或者窗組緊鄰的窗或者窗組將會(huì)跳過(guò),而下一個(gè)窗或者窗組可輸入到第一語(yǔ)音識(shí)別部104中。據(jù)此,可以減少輸入到第一語(yǔ)音識(shí)別部104的整體窗數(shù),并且具有連續(xù)性的語(yǔ)音數(shù)據(jù)可稀疏(sparse)地輸入到第一語(yǔ)音識(shí)別部104中。所述height值以及stride值可以被分析員或者管理者設(shè)定,并且語(yǔ)音輸入部102可以根據(jù)設(shè)定的所述height值以及stride值對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行調(diào)音,然后輸入到第一語(yǔ)音識(shí)別部104中。

      第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106是一種利用基于深度學(xué)習(xí)(Deep learning)的神經(jīng)網(wǎng)絡(luò)模型(Neural Network model)來(lái)學(xué)習(xí)學(xué)習(xí)用語(yǔ)音數(shù)據(jù),并基于所述學(xué)習(xí)結(jié)果識(shí)別目標(biāo)語(yǔ)音數(shù)據(jù)的模塊。

      首先,第一語(yǔ)音識(shí)別部104利用第一神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的特征。其中,第一神經(jīng)網(wǎng)絡(luò)模型例如可以是卷積神經(jīng)網(wǎng)絡(luò)(CNN:Convolutional Neural Network)模型。所述CNN模型是用于通過(guò)交替執(zhí)行兩種運(yùn)算層(卷積層(Convolutional Layer),采樣層(Subsampling(pooling) Layer))來(lái)最終抽取輸入數(shù)據(jù)特征的層級(jí)模型。第一語(yǔ)音識(shí)別部104可以利用所述CNN模型對(duì)從語(yǔ)音輸入部102輸入的被分割的窗和目標(biāo)標(biāo)簽進(jìn)行機(jī)器學(xué)習(xí)(machine learning)。如上所述,目標(biāo)標(biāo)簽可以包含從語(yǔ)音輸入部102輸入的學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的字母以及所述字母間的空格信息。第一語(yǔ)音識(shí)別部104可以利用所述CNN模型使各個(gè)卷積層的濾波器學(xué)習(xí),并據(jù)此學(xué)習(xí)與學(xué)習(xí)用語(yǔ)音數(shù)據(jù)相關(guān)的特征,即字母以及字母間的空格信息。所述CNN模型由多個(gè)層級(jí)組成,并以步驟方式抽取/學(xué)習(xí)/分類(lèi)特征,所以相比現(xiàn)有的語(yǔ)音識(shí)別模型,具有受周?chē)s音影響較小的長(zhǎng)處。第一語(yǔ)音識(shí)別部104可以通過(guò)機(jī)器學(xué)習(xí)來(lái)學(xué)習(xí)與所輸入的學(xué)習(xí)用語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的字母以及空格信息,并且基于所述學(xué)習(xí)的信息(即,與學(xué)習(xí)用語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的字母以及空格信息)抽取其后輸入的目標(biāo)語(yǔ)音數(shù)據(jù)的特征(即,輸入的目標(biāo)語(yǔ)音數(shù)據(jù)具有何種字母以及空格信息)。

      然后,第二語(yǔ)音識(shí)別部106利用第二神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)從第一語(yǔ)音識(shí)別部104抽取的特征的時(shí)間序列模式(temporal pattern或者time series pattern)。其中,第二神經(jīng)網(wǎng)絡(luò)模型例如可以是循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN:Recurrent N eural Network)模型。所述RNN模型是在抽取輸入數(shù)據(jù)的時(shí)間序列相關(guān)關(guān)系(或者聯(lián)系關(guān)系)時(shí)所使用的模型。第二語(yǔ)音識(shí)別部106可以利用所述RNN模型對(duì)第一語(yǔ)音識(shí)別部104中抽取的特征進(jìn)行機(jī)器學(xué)習(xí)。所述RNN模型例如可以是BRNN(雙向神經(jīng)網(wǎng)絡(luò):Bidirectional Neural Network)模型,并且所述BRNN模型可以根據(jù)抽取/學(xué)習(xí)數(shù)據(jù)的時(shí)間序列的相關(guān)關(guān)系的方向,由For ward層(從前方學(xué)習(xí)的層)和Backward層(從后方學(xué)習(xí)的層)組成。第二語(yǔ)音識(shí)別部106可以通過(guò)將BRNN模型應(yīng)用于從第一語(yǔ)音識(shí)別部104抽取的特征,從而學(xué)習(xí)所述特征的時(shí)間序列模式,例如哪種字母后主要出現(xiàn)哪種字母,在哪種字母前主要出現(xiàn)哪種字母等。第二語(yǔ)音識(shí)別部106可以抽取并學(xué)習(xí)這種時(shí)間序列模式,并將該學(xué)習(xí)結(jié)果以概率示出。例如,在抽取的特征為“”的情況下,第二語(yǔ)音識(shí)別部106可以抽取以及學(xué)習(xí)所述字母的時(shí)間序列模式,即在“”前面出現(xiàn)“”字母的時(shí)間序列模式,在“”后面出現(xiàn)“”、“”字母的時(shí)間序列模式。

      并且,第二語(yǔ)音識(shí)別部106可以利用CTC(連續(xù)時(shí)序分類(lèi):Connectioni st Temporal Classification)技術(shù)來(lái)學(xué)習(xí)針對(duì)所述目標(biāo)標(biāo)簽的候補(bǔ)標(biāo)簽。CTC技術(shù)是用于分類(lèi)以及預(yù)測(cè)輸入數(shù)據(jù)的時(shí)間序列模式的技術(shù)。即使是相同內(nèi)容 的語(yǔ)音數(shù)據(jù),所述語(yǔ)音數(shù)據(jù)的標(biāo)簽(字母以及字母間的空格信息)也會(huì)根據(jù)語(yǔ)音數(shù)據(jù)中包含的語(yǔ)音的發(fā)音者是誰(shuí)而不同。例如,從A發(fā)音的語(yǔ)音(例如,用“”標(biāo)簽表示的語(yǔ)音)和從B發(fā)音的語(yǔ)音(例如,用“”標(biāo)簽表示的語(yǔ)音)都表示相同的意思,但是可能具有互不相同的長(zhǎng)、短音。其中,“-”指空白(blank),即沒(méi)有被分類(lèi)為標(biāo)簽的音。所以,即使一個(gè)單詞也可能存在多個(gè)對(duì)應(yīng)的標(biāo)簽。將這些標(biāo)簽稱(chēng)為針對(duì)目標(biāo)標(biāo)簽(例如,“”)的候補(bǔ)標(biāo)簽,并且第二語(yǔ)音識(shí)別部106可以利用CTC技術(shù)來(lái)學(xué)習(xí)針對(duì)目標(biāo)標(biāo)簽的候補(bǔ)標(biāo)簽。第二語(yǔ)音識(shí)別部106可以從多個(gè)學(xué)習(xí)用語(yǔ)音數(shù)據(jù)和與其對(duì)應(yīng)的目標(biāo)標(biāo)簽學(xué)習(xí)多個(gè)候補(bǔ)標(biāo)簽。第二語(yǔ)音識(shí)別部106例如,可將學(xué)習(xí)用語(yǔ)音數(shù)據(jù)對(duì)所有時(shí)間t分類(lèi)成字母或者空格而生成標(biāo)簽,然后計(jì)算所述標(biāo)簽與目標(biāo)標(biāo)簽的相似度,然后利用BPTT(反向時(shí)間傳播:Back-pr opagation Through Time)技術(shù)來(lái)學(xué)習(xí)候補(bǔ)標(biāo)簽。如此,所述第二語(yǔ)音識(shí)別部106可以根據(jù)對(duì)相同時(shí)間t的語(yǔ)音數(shù)據(jù)被分類(lèi)成blank還是字母來(lái)區(qū)分語(yǔ)音數(shù)據(jù)的長(zhǎng)/短音。上述示例中,對(duì)“”的語(yǔ)音數(shù)據(jù)的長(zhǎng)/短音可以如下述表2區(qū)分。

      【表2】

      第二語(yǔ)音識(shí)別部106學(xué)習(xí)從第一語(yǔ)音識(shí)別部104抽取的特征的時(shí)間序列模式,然后基于所述學(xué)習(xí)的信息(即,字母以及空格的時(shí)間序列模式)抽取其后經(jīng)過(guò)第一語(yǔ)音識(shí)別部104輸入的目標(biāo)語(yǔ)音數(shù)據(jù)的特征的時(shí)間序列模式。并且,第二語(yǔ)音識(shí)別部106可以選取經(jīng)學(xué)習(xí)的所述目標(biāo)標(biāo)簽或者候補(bǔ)標(biāo)簽中與抽取的所述時(shí)間序列對(duì)應(yīng)的標(biāo)簽。

      另外,本文中將CNN模型以及RNN模型分別作為了第一神經(jīng)網(wǎng)絡(luò)模型以及第二神經(jīng)網(wǎng)絡(luò)模型的示例,但是需要留意第一神經(jīng)網(wǎng)絡(luò)模型以及第二神經(jīng)網(wǎng)絡(luò)模型不限于此,可以多樣地適用實(shí)現(xiàn)類(lèi)似功能的模型或者算法。

      文本輸出部108是基于第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106中的學(xué)習(xí)結(jié)果,將輸入到語(yǔ)音輸入部102的目標(biāo)語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成文本并輸出的模塊。如上文所述,第一語(yǔ)音識(shí)別部104可以學(xué)習(xí)學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的特征, 第二語(yǔ)音識(shí)別部106可以學(xué)習(xí)所述特征的時(shí)間序列模式。文本輸出部108通過(guò)分別結(jié)合與學(xué)習(xí)用語(yǔ)音數(shù)據(jù)相關(guān)的目標(biāo)標(biāo)簽以及與所述目標(biāo)標(biāo)簽相關(guān)的候補(bǔ)標(biāo)簽的“初聲”、“中聲”以及“終聲”,可將所述目標(biāo)標(biāo)簽以及候補(bǔ)標(biāo)簽轉(zhuǎn)換成文本。例如,在與語(yǔ)音數(shù)據(jù)“”相關(guān)的目標(biāo)標(biāo)簽是“”的情況下,文本輸出部108通過(guò)結(jié)合所述“”的初聲、中聲、終聲,可將“”轉(zhuǎn)換為“”的文本。此時(shí),文本輸出部108可以參考設(shè)定的詞典而結(jié)合目標(biāo)標(biāo)簽的初聲、中聲、終聲。例如,文本輸出部108通過(guò)結(jié)合目標(biāo)標(biāo)簽的初聲、中聲、終聲來(lái)構(gòu)成文本,并且可以通過(guò)判斷所構(gòu)成的文本是否存在于所述詞典中來(lái)提高文本轉(zhuǎn)換的準(zhǔn)確度。但是,文本輸出部108將選取的標(biāo)簽轉(zhuǎn)換成文本的方式不限于此,文本輸出部108可以通過(guò)多種方法將目標(biāo)標(biāo)簽以及候補(bǔ)標(biāo)簽轉(zhuǎn)換成文本。從而,文本輸出部108可以學(xué)習(xí)與學(xué)習(xí)用語(yǔ)音數(shù)據(jù)相關(guān)的文本情報(bào),并基于所述學(xué)習(xí)結(jié)果將從語(yǔ)音輸入部102新輸入的目標(biāo)語(yǔ)音轉(zhuǎn)換成文本并輸出。

      具體地,第一語(yǔ)音識(shí)別部104基于所述學(xué)習(xí)結(jié)果抽取目標(biāo)語(yǔ)音數(shù)據(jù)的特征,第二語(yǔ)音識(shí)別部106基于所述學(xué)習(xí)結(jié)果抽取從第一語(yǔ)音識(shí)別部104抽取的語(yǔ)音數(shù)據(jù)的特征的時(shí)間序列模式,并在學(xué)習(xí)到的目標(biāo)標(biāo)簽或者候補(bǔ)標(biāo)簽中選取與抽取的所述時(shí)間序列模式對(duì)應(yīng)的標(biāo)簽。并且,文本輸出部部108可以基于所述學(xué)習(xí)結(jié)果將選取的標(biāo)簽轉(zhuǎn)換成文本。例如,在選取的標(biāo)簽為“”的情況下,文本輸出部108可以輸出與所述標(biāo)簽對(duì)應(yīng)的文本“”。即,根據(jù)本發(fā)明的實(shí)施例,基于以神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)的學(xué)習(xí)結(jié)果,在對(duì)語(yǔ)音數(shù)據(jù)的發(fā)音沒(méi)有經(jīng)過(guò)分析過(guò)程的情況下將語(yǔ)音數(shù)據(jù)直接轉(zhuǎn)換(end-to-end轉(zhuǎn)換)成文本并輸出,據(jù)此可以簡(jiǎn)化用于識(shí)別語(yǔ)音的整體程序。

      學(xué)習(xí)控制部110是控制第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106的學(xué)習(xí)率的模塊。如上文所述,第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106可以分別利用CNN模型以及RNN模型識(shí)別語(yǔ)音。但是,CNN模型和RNN模型的對(duì)學(xué)習(xí)的收斂(完成)速度分別不同。其中,學(xué)習(xí)的收斂指神經(jīng)網(wǎng)絡(luò)模型的參數(shù),即權(quán)(weight)值不再變化(即,不被更新)的狀態(tài)。

      具體地,CNN模型的濾波器的學(xué)習(xí)可能比RNN模型進(jìn)行得更快。這是因?yàn)镃NN模型只學(xué)習(xí)輸入數(shù)據(jù)的空間信息(spatial information),相比于此, RNN模型追加學(xué)習(xí)輸入數(shù)據(jù)的時(shí)間信息(temporal information)。因此,在CNN模型和RNN模型以相同的學(xué)習(xí)率(learning rate)學(xué)習(xí)的情況下,需要使RNN模型學(xué)習(xí)更久,在此情況下,在CNN模型的濾波器收斂以后,CNN模型的參數(shù)(例如,權(quán)值)值也會(huì)產(chǎn)生變化,所以可能妨礙RNN模型的學(xué)習(xí)。并且,在只令CNN模型充分學(xué)習(xí)以后,再使RNN模型學(xué)習(xí)的情況下,無(wú)法充分反映輸入數(shù)據(jù)的連續(xù)性。因此,本發(fā)明的實(shí)施例中,使學(xué)習(xí)控制部110能夠控制第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106的學(xué)習(xí)率。具體地,學(xué)習(xí)控制部110在第一語(yǔ)音識(shí)別部104中的學(xué)習(xí)完成之前,使第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106的學(xué)習(xí)率維持為相同(活態(tài)訓(xùn)練(Active state training)),并且在第一語(yǔ)音識(shí)別部104中的學(xué)習(xí)完成的情況下,可以將第一語(yǔ)音識(shí)別部104的學(xué)習(xí)率控制為0(靜態(tài)訓(xùn)練(Inactive state training))。其中,將學(xué)習(xí)率控制為0指不再更新CNN模型的參數(shù)(例如,權(quán)值)值。學(xué)習(xí)控制部110可以重復(fù)執(zhí)行如上的活態(tài)訓(xùn)練(Active state training)-靜態(tài)訓(xùn)練(Inactive state training)過(guò)程,并據(jù)此可提高語(yǔ)音識(shí)別系統(tǒng)100的語(yǔ)音識(shí)別率。

      一實(shí)施例中,語(yǔ)音輸入部102、第一語(yǔ)音識(shí)別部104、第二語(yǔ)音識(shí)別部106、文本輸出部108以及學(xué)習(xí)控制部110可以在包括一個(gè)以上的處理器以及與該處理器連接的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的計(jì)算裝置上實(shí)現(xiàn)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以設(shè)在處理器的內(nèi)部或者外部,并且可以通過(guò)多種周知的手段與處理器連接。計(jì)算裝置內(nèi)的處理器可以使各個(gè)計(jì)算裝置根據(jù)本說(shuō)明書(shū)中記載的示例性的實(shí)施例運(yùn)轉(zhuǎn)。例如,可以通過(guò)以下方式構(gòu)成:處理器可以執(zhí)行計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中儲(chǔ)存的命令語(yǔ)句,并且在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中儲(chǔ)存的命令語(yǔ)句被處理器執(zhí)行的情況下,使計(jì)算裝置執(zhí)行根據(jù)本說(shuō)明書(shū)中記載的示例性的實(shí)施例的操作。

      圖2是用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的語(yǔ)音輸入部102中分割語(yǔ)音數(shù)據(jù)的過(guò)程的圖。如圖2所示,語(yǔ)音輸入部102可以將語(yǔ)音數(shù)據(jù)(目標(biāo)語(yǔ)音數(shù)據(jù)或者學(xué)習(xí)用語(yǔ)音數(shù)據(jù))分割成設(shè)定大小(或者長(zhǎng)度)的窗(window)。

      并且,語(yǔ)音輸入部102例如可以每次滑動(dòng)10ms地將語(yǔ)音數(shù)據(jù)分割成T個(gè)25ms的窗。圖2中示出語(yǔ)音數(shù)據(jù)被分割成T個(gè)窗的過(guò)程以及所述被分割的T個(gè)窗的聲譜圖。

      圖3是示出根據(jù)本發(fā)明的一實(shí)施例而得到調(diào)音的語(yǔ)音數(shù)據(jù)的示例的圖。如上文所述,輸入到語(yǔ)音輸入部102的語(yǔ)音數(shù)據(jù)可以根據(jù)語(yǔ)音數(shù)據(jù)的特性或 者第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106的學(xué)習(xí)參數(shù)(或者權(quán)值)被調(diào)音。

      首先,在語(yǔ)音輸入部102中分割的窗中連續(xù)的兩個(gè)以上的窗可以組合成一個(gè)組。例如,在height=9的情況下,9個(gè)窗可以組合成一個(gè)組而輸入到第一語(yǔ)音識(shí)別部104中。

      然后,語(yǔ)音輸入部102可以根據(jù)設(shè)定的跨距(stride)而使被分割的窗的個(gè)數(shù)減少之后輸入到第一語(yǔ)音識(shí)別部104中。例如,在stride=2的情況下,語(yǔ)音輸入部102可以將所述窗組中的第一窗組、第三窗組、第五窗組…依次輸入到第一語(yǔ)音識(shí)別部104中,并且第二窗組、第四窗組、第六窗組…等可以不被輸入到第一語(yǔ)音識(shí)別部104中。據(jù)此,可以減少輸入到第一語(yǔ)音識(shí)別部104的整體窗數(shù),并且具有連續(xù)性的語(yǔ)音數(shù)據(jù)可稀疏(sparse)地輸入到第一語(yǔ)音識(shí)別部104中。

      圖4是用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的語(yǔ)音數(shù)據(jù)和目標(biāo)標(biāo)簽之間的管系的圖。如圖4所示,目標(biāo)標(biāo)簽的長(zhǎng)度Y不可能大于語(yǔ)音數(shù)據(jù)的長(zhǎng)度T。其中,目標(biāo)標(biāo)簽的長(zhǎng)度Y指表示字母和字母之間的空格的符號(hào)的個(gè)數(shù),語(yǔ)音數(shù)據(jù)的長(zhǎng)度T指被分割的窗的個(gè)數(shù)。根據(jù)語(yǔ)音數(shù)據(jù)中包含的語(yǔ)音的長(zhǎng)、短音或者對(duì)所述語(yǔ)音的發(fā)音者的發(fā)音,多個(gè)窗可能對(duì)應(yīng)于一個(gè)字母,所以語(yǔ)音數(shù)據(jù)的長(zhǎng)度T大于目標(biāo)標(biāo)簽的長(zhǎng)度Y。例如,在所述目標(biāo)標(biāo)簽為“”的情況下,被分割的窗可能分別與“…”等的字母對(duì)應(yīng),在該情況下,語(yǔ)音數(shù)據(jù)的長(zhǎng)度T大于目標(biāo)標(biāo)簽的長(zhǎng)度Y。在高速錄音的語(yǔ)音數(shù)據(jù)中,改變stride參數(shù)而輸入到第一語(yǔ)音識(shí)別部104的情況下,語(yǔ)音數(shù)據(jù)的長(zhǎng)度T被改變而可能小于目標(biāo)標(biāo)簽的長(zhǎng)度Y,因此語(yǔ)音數(shù)據(jù)的調(diào)音應(yīng)符合語(yǔ)音數(shù)據(jù)的特性以及語(yǔ)音識(shí)別模型的結(jié)構(gòu)。

      圖5是用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的在第一語(yǔ)音識(shí)別部104中抽取語(yǔ)音數(shù)據(jù)的特征的過(guò)程的圖。如上文所述,第一語(yǔ)音識(shí)別部104可以利用CNN模型抽取語(yǔ)音數(shù)據(jù)的特征。通常,CNN模型具有如下的三個(gè)層。

      ①卷積層(Convolution layer):抽取卷積特征(convolution feature)的層。

      ②Polling layer:為了減少特征,進(jìn)行二次抽樣(sub-sampling)的層

      ③前饋層(Feedforward layer):作為最后一層,是對(duì)convolution layer,pooling layer中被抽取的特征進(jìn)行分類(lèi)的層。

      第一語(yǔ)音識(shí)別部104可以利用所述CNN模型對(duì)從語(yǔ)音輸入部102輸入的被分割的窗和目標(biāo)標(biāo)簽進(jìn)行機(jī)器學(xué)習(xí)(machine learning)。第一語(yǔ)音識(shí)別部104可以利用所述CNN模型使各個(gè)卷積層的濾波器進(jìn)行學(xué)習(xí)。據(jù)此,可以學(xué)習(xí)與學(xué)習(xí)用語(yǔ)音數(shù)據(jù)相關(guān)的特征,即字母以及字母間的空格信息。并且,第一語(yǔ)音識(shí)別部104可以基于所述學(xué)習(xí)的信息(即,與語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的字母以及空格信息)抽取其后輸入的目標(biāo)語(yǔ)音數(shù)據(jù)的特征(即,目標(biāo)語(yǔ)音數(shù)據(jù)具有何種字母以及空格信息)。

      圖6是用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的在第二語(yǔ)音識(shí)別部106中抽取語(yǔ)音數(shù)據(jù)的時(shí)間序列模式的過(guò)程的圖。如上文所述,第二語(yǔ)音識(shí)別部106可以利用RNN模型抽取從第一語(yǔ)音識(shí)別部104中識(shí)別的特征的時(shí)間序列模式。所述RNN模型例如可以是BRNN(Bidirectional Neural Network)模型,所述BRNN模型可以根據(jù)抽取/學(xué)習(xí)數(shù)據(jù)的時(shí)間序列相關(guān)關(guān)系的方向,由Forward層(前向?qū)?和Backward層(后向?qū)?組成。第二語(yǔ)音識(shí)別部106可以通過(guò)對(duì)在第一語(yǔ)音識(shí)別部104中抽取的特征應(yīng)用BRNN模型,學(xué)習(xí)所述特征的時(shí)間序列模式,例如在哪種字母后主要出現(xiàn)哪種字母,在哪種字母前主要出現(xiàn)哪種字母等。

      圖7是用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的在第二語(yǔ)音識(shí)別部106中學(xué)習(xí)針對(duì)目標(biāo)標(biāo)簽的候補(bǔ)標(biāo)簽的過(guò)程的圖。如上文所述,第二語(yǔ)音識(shí)別部106可以利用CTC技術(shù)來(lái)學(xué)習(xí)針對(duì)目標(biāo)標(biāo)簽的候補(bǔ)標(biāo)簽。第二語(yǔ)音識(shí)別部106可以從多個(gè)學(xué)習(xí)用語(yǔ)音數(shù)據(jù)和與其對(duì)應(yīng)的目標(biāo)標(biāo)簽,學(xué)習(xí)多個(gè)候補(bǔ)標(biāo)簽。例如,第二語(yǔ)音識(shí)別部106將學(xué)習(xí)用語(yǔ)音數(shù)據(jù)對(duì)所有時(shí)間t分類(lèi)成字母或者空格并生成標(biāo)簽,然后計(jì)算所述標(biāo)簽和目標(biāo)標(biāo)簽之間的相似度,并利用BPTT(Back-propagation Through Time)技術(shù)學(xué)習(xí)目標(biāo)標(biāo)簽。

      參照?qǐng)D7,第二語(yǔ)音識(shí)別部106可以對(duì)于“”的目標(biāo)標(biāo)簽抽取并學(xué)習(xí)最有可能的組合的層,即“”、“”、“”…等。并且,第二語(yǔ)音識(shí)別部106可以根據(jù)對(duì)相同的時(shí)間t被分類(lèi)成空白(blank)還是字母來(lái)區(qū)分語(yǔ)音數(shù)據(jù)的長(zhǎng)/短音。

      圖8以及圖9是用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的在學(xué)習(xí)控制部110中控制第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106的學(xué)習(xí)率的過(guò)程的圖。如上文所述,學(xué)習(xí)控制部110可以在第一語(yǔ)音識(shí)別部104中的學(xué)習(xí)完畢之前,使第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106的學(xué)習(xí)率維持為相同(活態(tài) 訓(xùn)練(Active state training)),并且在第一語(yǔ)音識(shí)別部104中的學(xué)習(xí)完畢的情況下,可將第一語(yǔ)音識(shí)別部104的學(xué)習(xí)率控制為0(靜態(tài)訓(xùn)練(Inactive state training))。

      圖8示出在學(xué)習(xí)控制部110中進(jìn)行活態(tài)訓(xùn)練(Active state training)的過(guò)程,圖9示出在學(xué)習(xí)控制部110中進(jìn)行靜態(tài)訓(xùn)練(Inactive state training)的過(guò)程。學(xué)習(xí)控制部110可以反復(fù)進(jìn)行如上所述的活態(tài)訓(xùn)練(Active state training)-靜態(tài)訓(xùn)練(Inactive state training)過(guò)程,并且據(jù)此可以提高語(yǔ)音識(shí)別系統(tǒng)100的語(yǔ)音識(shí)別率。

      圖10是用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的在學(xué)習(xí)控制部110中的基于學(xué)習(xí)控制的語(yǔ)音識(shí)別提升效果的圖。如上文所述,學(xué)習(xí)控制部110可以反復(fù)進(jìn)行活態(tài)訓(xùn)練(Active state training)-靜態(tài)訓(xùn)練(Inactive state training)過(guò)程。

      如圖10所示,可以確認(rèn),在根據(jù)學(xué)習(xí)控制部110的控制反復(fù)Active state training-Inactive state training過(guò)程的情況下,相比CNN中的學(xué)習(xí)持續(xù)的情況,可大幅提高單詞識(shí)別率(85.91%→90.72%)。為了得到上述實(shí)驗(yàn)結(jié)果,1400個(gè)句子作為學(xué)習(xí)用語(yǔ)音數(shù)據(jù)被輸入到語(yǔ)音輸入部102中,然后400個(gè)句子作為測(cè)試語(yǔ)音數(shù)據(jù)(即,目標(biāo)語(yǔ)音數(shù)據(jù))輸入到了語(yǔ)音輸入部102中。所述各個(gè)句子例如,可以平均由大約6.7個(gè)單詞組成。

      圖11是用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的學(xué)習(xí)學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的方法的流程圖。圖示的流程圖中,將所述方法分成多個(gè)步驟而記載,但是至少一部分的步驟可以交換順序而被執(zhí)行,或者與其他步驟結(jié)合而一起被執(zhí)行,或者被省略,或者被分成詳細(xì)的步驟而被執(zhí)行,或者可能附加一個(gè)以上的未被圖示的步驟而被執(zhí)行。

      在S110步驟中,語(yǔ)音輸入部102接收學(xué)習(xí)用語(yǔ)音數(shù)據(jù)。語(yǔ)音輸入部102例如可以從麥克風(fēng)、揚(yáng)聲器、音響等音頻設(shè)備接收語(yǔ)音數(shù)據(jù)。此時(shí),語(yǔ)音輸入部102可以同時(shí)接收所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)和表示所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的目標(biāo)標(biāo)簽。所述目標(biāo)標(biāo)簽可以包含對(duì)應(yīng)學(xué)習(xí)用語(yǔ)音數(shù)據(jù)的字母以及字母間的空格信息。語(yǔ)音識(shí)別部102可以將所述學(xué)習(xí)用語(yǔ)音數(shù)據(jù)分割成設(shè)定大小的窗,并將分割的窗分別輸入給第一語(yǔ)音識(shí)別部104。

      在S120步驟中,第一語(yǔ)音識(shí)別部104學(xué)習(xí)從語(yǔ)音輸入部102輸入的各個(gè)窗的特征。第一語(yǔ)音識(shí)別部104例如可以利用第一神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)所述各個(gè)窗的特征。其中,第一神經(jīng)網(wǎng)絡(luò)模型例如可以是CNN模型。第一語(yǔ)音識(shí)別 部104可以利用所述CNN模型使各個(gè)卷積層的濾波器學(xué)習(xí),并據(jù)此學(xué)習(xí)與學(xué)習(xí)用語(yǔ)音數(shù)據(jù)相關(guān)的特征,即字母以及字母間的空格信息。

      在S130步驟中,第二語(yǔ)音識(shí)別部106學(xué)習(xí)從第一語(yǔ)音識(shí)別部104中抽取的特征的時(shí)間序列模式。第二語(yǔ)音識(shí)別部106例如可以利用第二神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)所述時(shí)間序列模式。其中,第二神經(jīng)網(wǎng)絡(luò)模型例如可以是BRNN模型。第二語(yǔ)音識(shí)別部106可以通過(guò)對(duì)從第一語(yǔ)音識(shí)別部104中抽取的特征應(yīng)用BRNN模型,從而學(xué)習(xí)所述特征的時(shí)間序列模式,例如在哪種字母后主要出現(xiàn)哪種字母,在哪種字母前主要出現(xiàn)哪種字母等。并且,第二語(yǔ)音輸入部106可以利用CTC技術(shù)學(xué)習(xí)針對(duì)目標(biāo)標(biāo)簽的候補(bǔ)標(biāo)簽。第二語(yǔ)音識(shí)別部106例如可以將學(xué)習(xí)用語(yǔ)音數(shù)據(jù)對(duì)所有時(shí)間t分類(lèi)成字母或者空格并生成標(biāo)簽,然后計(jì)算所述標(biāo)簽和所述目標(biāo)標(biāo)簽之間的相似度,然后利用BPTT技術(shù)學(xué)習(xí)候補(bǔ)標(biāo)簽。

      在S140步驟中,文本輸出部108將學(xué)習(xí)用語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成文本。文本輸出部108通過(guò)結(jié)合與學(xué)習(xí)用語(yǔ)音數(shù)據(jù)相關(guān)的目標(biāo)標(biāo)簽以及與所述目標(biāo)標(biāo)簽相關(guān)的候補(bǔ)標(biāo)簽的初聲、中聲、終聲,從而將所述目標(biāo)標(biāo)簽以及候補(bǔ)標(biāo)簽轉(zhuǎn)換成文本。通過(guò)上述過(guò)程,語(yǔ)音識(shí)別系統(tǒng)100可以學(xué)習(xí)與學(xué)習(xí)用語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文本。

      圖12是用于說(shuō)明根據(jù)本發(fā)明的一實(shí)施例的語(yǔ)音識(shí)別方法的流程圖。

      在S210步驟中,語(yǔ)音識(shí)別部102接收目標(biāo)語(yǔ)音數(shù)據(jù)。

      在S220步驟中,文本輸出部108基于第一語(yǔ)音識(shí)別部104以及第二語(yǔ)音識(shí)別部106中的學(xué)習(xí)結(jié)果,輸出與目標(biāo)語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文本。具體地,第一語(yǔ)音識(shí)別部104基于所述學(xué)習(xí)結(jié)果抽取目標(biāo)語(yǔ)音數(shù)據(jù)的特征,第二語(yǔ)音識(shí)別部106基于所述學(xué)習(xí)結(jié)果,抽取被抽取的目標(biāo)語(yǔ)音數(shù)據(jù)的特征的時(shí)間序列模式,然后從學(xué)習(xí)的目標(biāo)標(biāo)簽或者候補(bǔ)標(biāo)簽中選取與抽取的時(shí)間序列模式對(duì)應(yīng)的標(biāo)簽。據(jù)此,文本輸出部108可以將選取的所述標(biāo)簽轉(zhuǎn)換成與所述標(biāo)簽對(duì)應(yīng)文本并輸出。

      另外,本發(fā)明的一實(shí)施例可以包括計(jì)算機(jī)可讀記錄介質(zhì),其包含用于在計(jì)算機(jī)上執(zhí)行本說(shuō)明書(shū)中記載的方法的程序。所述計(jì)算機(jī)可讀記錄介質(zhì)可以單獨(dú)地或者組合地包括程序命令、本地?cái)?shù)據(jù)文件、本地?cái)?shù)據(jù)結(jié)構(gòu)等。所述介質(zhì)可以是為本發(fā)明而特別地設(shè)計(jì)并構(gòu)成的介質(zhì),或者可以是在計(jì)算機(jī)軟件領(lǐng)域中通常被使用的介質(zhì)。計(jì)算機(jī)可解碼存儲(chǔ)介質(zhì)的示例包括:磁介質(zhì),如硬 盤(pán)、軟盤(pán)以及磁帶等;光記錄介質(zhì),如CD-ROM、DVD等;磁-光介質(zhì),軟盤(pán)等;以及ROM、RAM、閃存等為了儲(chǔ)存命令并執(zhí)行程序命令而特別構(gòu)成的硬件裝置。作為程序命令的例,不僅包括如利用編譯器制作的計(jì)算機(jī)語(yǔ)音代碼,還可以包括可利用翻譯器等由計(jì)算機(jī)執(zhí)行的高級(jí)語(yǔ)言代碼。

      以上,對(duì)本發(fā)明的具有代表性的實(shí)施例進(jìn)行了詳細(xì)的說(shuō)明,然而在本發(fā)明所屬的技術(shù)領(lǐng)域中具有基本知識(shí)的人員可以理解對(duì)上述的實(shí)施例可在不脫離本發(fā)明的范圍的限度內(nèi)進(jìn)行多種變形。因此,本發(fā)明的權(quán)利范圍并不局限于上述的實(shí)施例,本發(fā)明的權(quán)利范圍需要根據(jù)權(quán)利要求書(shū)的范圍以及與該權(quán)利要求書(shū)均等的范圍來(lái)確定。

      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1