国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      信號(hào)分析裝置、信號(hào)處理裝置、語(yǔ)音識(shí)別裝置、信號(hào)分析程序、信號(hào)處理程序、語(yǔ)音識(shí)別程...的制作方法

      文檔序號(hào):2834621閱讀:250來(lái)源:國(guó)知局
      專利名稱:信號(hào)分析裝置、信號(hào)處理裝置、語(yǔ)音識(shí)別裝置、信號(hào)分析程序、信號(hào)處理程序、語(yǔ)音識(shí)別程 ...的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及對(duì)輸入的語(yǔ)音?音響信號(hào)進(jìn)行分析的信號(hào)分析裝置、信號(hào)處理裝置和使用信號(hào)分析裝置的語(yǔ)音識(shí)別裝置。本發(fā)明還涉及在計(jì)算機(jī)中執(zhí)行此類處理的信號(hào)分析程序、信號(hào)處理程序和語(yǔ)音識(shí)別程序。本發(fā)明還涉及記錄了此類計(jì)算機(jī)程序的記錄介質(zhì)。本發(fā)明還涉及搭載了此類信號(hào)分析裝置的電子設(shè)備。
      背景技術(shù)
      語(yǔ)音識(shí)別所使用的信號(hào)分析方法從信號(hào)輸入中將數(shù)十毫秒左右的區(qū)間以幾毫秒至數(shù)十毫秒左右的間隔錯(cuò)開(kāi)提取信號(hào)作為分析幀,根據(jù)各分析幀中輸入信號(hào)的波形計(jì)算音響參數(shù),作為音響參數(shù)的時(shí)間序列。
      在對(duì)特定說(shuō)話者的語(yǔ)音識(shí)別中,將所取得的時(shí)間序列的音響參數(shù)與預(yù)先登錄的音響參數(shù)的時(shí)間序列模式(標(biāo)準(zhǔn)模式)進(jìn)行對(duì)照,將與輸入最相似的標(biāo)準(zhǔn)模式作為識(shí)別結(jié)果。
      在對(duì)不確定的說(shuō)話者的語(yǔ)音識(shí)別中,預(yù)先根據(jù)大量的數(shù)據(jù)計(jì)算音響參數(shù),求取按每個(gè)語(yǔ)音單位計(jì)算出來(lái)的音響參數(shù)的統(tǒng)計(jì)量,作成概率音響模型。同時(shí),將每個(gè)語(yǔ)音單位的該概率音響模型連接起來(lái),作成詞語(yǔ)模型或文章模型。對(duì)于根據(jù)輸入信號(hào)分析出來(lái)的音響參數(shù),針對(duì)上述詞語(yǔ)模型或文章模型計(jì)算并比較其概率似然,將概率似然最高的詞語(yǔ)模型或文章模型作為識(shí)別結(jié)果。這里所說(shuō)的語(yǔ)音單位使用例如音素、音節(jié)、或單詞等單位。
      依照此種方式為進(jìn)行語(yǔ)音識(shí)別而求取音響參數(shù)的信號(hào)分析技術(shù)是決定識(shí)別性能的重要技術(shù)。因此,必須使用不易受噪音或電路的電路特性等失真的影響的信號(hào)分析技術(shù)。非專利文獻(xiàn)1中出示了作為這樣的信號(hào)分析技術(shù)而使用的、將頻帶能量變換為倒譜系數(shù)的MFCC(MelFrequency Cepstrum Coefficient美爾頻率倒譜系數(shù))。
      圖1是表示求取MFCC所需步驟的流程圖。下面使用圖1說(shuō)明MFCC的分析方法。在MFCC中,首先按每個(gè)分析幀向信號(hào)分析器輸入語(yǔ)音波形(步驟S101),施加海明窗(Hamming window)函數(shù)運(yùn)算,以使在幀分隔區(qū)間的兩端不產(chǎn)生急劇變化(步驟S102)。接著,使用FFT(FastFourier Transform快速傅立葉變換)求取各幀的線性頻率數(shù)軸上的能量(步驟S103)。該線性頻率數(shù)軸上的能量按me1頻率數(shù)軸上等分出來(lái)的每個(gè)頻帶匯總起來(lái),變換為頻帶能量(步驟S104)。變換出來(lái)的頻帶能量按每個(gè)頻帶進(jìn)行對(duì)數(shù)變換(步驟S105)。接著,通過(guò)對(duì)各頻帶的冪進(jìn)行余弦變換,求得MFCC(步驟S106)。所求得的MFCC從信號(hào)分析器輸出(步驟S107)。依照此種方式在美爾頻率數(shù)軸上等分求得的倒譜系數(shù)稱為美爾頻率倒譜系數(shù)(MFCC)。美爾頻率是以人的聽(tīng)覺(jué)特性為基準(zhǔn)的頻率單位,低頻下的分辯能力比高頻下的分辯能力細(xì)微。因此,已知如果在次數(shù)相同的倒譜的情況下,與使用了線性頻率數(shù)軸的情況相比,MFCC的語(yǔ)音識(shí)別性能更優(yōu)越。
      此外,在本說(shuō)明書中,有時(shí)候?qū)⒉襟ES101~步驟S105稱為頻率分析步驟(步驟S201),將步驟S106至步驟S107稱為參數(shù)變換步驟(步驟S202)。
      但是,實(shí)際的語(yǔ)音識(shí)別是在有家庭、辦公室、汽車、室外等背景噪音、或者設(shè)備自身產(chǎn)生的冷卻風(fēng)扇等噪音、以電磁形式混入到波形中的加法式噪音等加法性噪音的情況下進(jìn)行的。進(jìn)一步,還存在由話筒或語(yǔ)音傳遞電路等的傳遞特性、說(shuō)話者面對(duì)話筒時(shí)的距離和角度不同而造成的音響特性的變化等積性失真。MFCC容易受到這些噪音或失真的影響。因此,在使用了MFCC的語(yǔ)音識(shí)別中,如果在噪音很大的環(huán)境下使用,或者采用電路特性的失真很大的使用方法時(shí),存在著識(shí)別性能大幅度下降的問(wèn)題。為了降低這些噪音或失真的影響,使用下面描述的信號(hào)分析方法。
      非專利文獻(xiàn)2中,公開(kāi)了譜減法(SSspectral subtraction差譜),用以減少加法性噪音的影響。這一方法是對(duì)輸入語(yǔ)音信號(hào)進(jìn)行頻率分析后求取輸入的振幅頻譜或冪(2乘方)頻譜,在噪聲區(qū)間內(nèi)對(duì)推斷出來(lái)的推斷噪音頻譜乘以預(yù)定的系數(shù)α,從輸入頻譜中減去乘以該頻譜減法系數(shù)α之后的推斷噪音頻譜,由此抑制噪聲成分的方法。該方法中,為了提高語(yǔ)音品質(zhì),需要分割成多個(gè)頻帶進(jìn)行處理。
      另外,專利文獻(xiàn)1中公開(kāi)了一種對(duì)該SS法加以改進(jìn)、減少頻帶分割而能抑制噪聲成分的方法。
      非專利文獻(xiàn)1中公開(kāi)了CMS法(Cepstrum Mean Subtraction倒譜均值減除),用以降低積性失真的影響。該方法也稱為CMN法(Cepstrum Mean Normalization倒譜均值歸一化)。該方法基于以下假定積性失真可通過(guò)所發(fā)出的語(yǔ)音的倒譜的長(zhǎng)時(shí)間平均獲得。具體地,從倒譜系數(shù)中減去輸入語(yǔ)音的倒譜系數(shù)的平均值,能夠降低電路或話筒等基于音響系特性的失真的影響。這與減去倒譜的余弦變換——對(duì)數(shù)頻譜的失真是等價(jià)的。
      但是,在實(shí)際的輸入語(yǔ)音中,語(yǔ)音的聲源位置與噪音的聲源位置不同。由于語(yǔ)音區(qū)間與噪聲區(qū)間中應(yīng)該標(biāo)準(zhǔn)化的電路特性不同,將語(yǔ)音區(qū)間的平均倒譜應(yīng)用于噪聲區(qū)間的話,會(huì)有導(dǎo)致噪聲區(qū)間的倒譜不穩(wěn)定,給識(shí)別性能帶來(lái)不良影響的問(wèn)題。因此,正在研究可以應(yīng)用于噪聲區(qū)間的CMS法的改進(jìn)方法。
      非專利文獻(xiàn)3和專利文獻(xiàn)2中提出了作為CMS法的改進(jìn)方法的E-CMN法。E-CMN法分別求取語(yǔ)音區(qū)間的倒譜平均和非語(yǔ)音區(qū)間的倒譜平均,在語(yǔ)音區(qū)間和非語(yǔ)音區(qū)間分別進(jìn)行標(biāo)準(zhǔn)化處理。使用這一方法,能夠降低識(shí)別錯(cuò)誤率。
      上述SS法、其簡(jiǎn)化手法、E-CMN法中的每一個(gè)方法都需要語(yǔ)音檢測(cè),以便區(qū)分語(yǔ)音區(qū)間和非語(yǔ)音區(qū)間。在移動(dòng)電話中使用的語(yǔ)音通信標(biāo)準(zhǔn)等中公開(kāi)了語(yǔ)音檢測(cè)技術(shù)的標(biāo)準(zhǔn)方法。語(yǔ)音檢測(cè)一般是基于輸入信號(hào)在短時(shí)間內(nèi)的能量變化、頻譜形狀的變化等將輸入信號(hào)從時(shí)間上分割為語(yǔ)音區(qū)間和噪聲區(qū)間來(lái)完成的。
      專利文獻(xiàn)1特開(kāi)2001-228893號(hào)公報(bào)專利文獻(xiàn)2特開(kāi)平10-254494號(hào)公報(bào)非專利文獻(xiàn)1鹿野清宏等編著,《語(yǔ)音識(shí)別系統(tǒng)》第1版,株式會(huì)社歐姆社(Ohmsha,Ltd.),平成13年5月15日,p.13-15非專利文獻(xiàn)2S.Boll,《Suppression of acousticnoise inspeech using spectral subtraction》,IEEE Trans.ASSP,1979,vol.ASSP-27,no.2,pp.113-120非專利文獻(xiàn)3莊境誠(chéng),另2人,《倒譜均值標(biāo)準(zhǔn)化法和基于HMM合成法的模型適應(yīng)化法E-CMN/PMC和在汽車內(nèi)語(yǔ)音識(shí)別中的應(yīng)用》,電子信息通信學(xué)會(huì)論文雜志,社團(tuán)法人電子信息通信學(xué)會(huì),1997,第J80-D-II卷,第10號(hào),p.2636-2644發(fā)明內(nèi)容但是,上述信號(hào)分析方法及這些分析方法中使用的語(yǔ)音識(shí)別方法中,存在以下問(wèn)題。
      由于SS法是在語(yǔ)音區(qū)間中減去噪聲區(qū)間的頻譜,因此在推斷噪聲少的環(huán)境中的輸入語(yǔ)音時(shí)效果優(yōu)異。但是,在噪聲區(qū)間中,雖然噪聲的功率變小,但噪聲的頻譜形狀本身沒(méi)有變化。在基于當(dāng)前主流統(tǒng)計(jì)進(jìn)行語(yǔ)音識(shí)別時(shí),如果輸入了與預(yù)先統(tǒng)計(jì)式習(xí)得的噪聲不同的頻譜形狀的噪聲,噪聲區(qū)間的對(duì)照精度就會(huì)下降。因此,由于錯(cuò)誤地將噪聲區(qū)間與語(yǔ)音區(qū)間進(jìn)行了對(duì)照,整體上難以獲得高的識(shí)別精度。為了防止這種識(shí)別精度的下降,需要有某種適應(yīng)式頻譜校正。該方法之一是像E-CMN法那樣對(duì)噪聲頻譜進(jìn)行標(biāo)準(zhǔn)化的方法。但是,E-CMN法存在以下問(wèn)題。
      如上所述,E-CMN法中,由于在語(yǔ)音區(qū)間和噪聲區(qū)間中獨(dú)立地求取倒譜平均,能夠更準(zhǔn)確地將電路特性標(biāo)準(zhǔn)化。特別是,借助于該方法,能夠?qū)⒃肼晠^(qū)間的頻譜形狀平坦化,因此,能夠改善SS法所不能解決的噪聲區(qū)間的對(duì)照精度。
      但是,語(yǔ)音區(qū)間與噪聲區(qū)間的判斷依賴于語(yǔ)音區(qū)間的檢測(cè)精度。因此,在高噪音環(huán)境中,語(yǔ)音區(qū)間的分割精度下降,根據(jù)錯(cuò)誤的倒譜平均值進(jìn)行標(biāo)準(zhǔn)化,由此,存在有給識(shí)別精度帶來(lái)不良影響的問(wèn)題。下面敘述語(yǔ)音檢測(cè)的問(wèn)題點(diǎn)。
      SS法或E-CMN法中,噪聲頻譜的推斷是在檢測(cè)語(yǔ)音區(qū)間時(shí)針對(duì)判定為噪聲區(qū)間的區(qū)間進(jìn)行的。但是,在實(shí)際使用信號(hào)分析裝置的環(huán)境中,在裝置開(kāi)始動(dòng)作之后立即發(fā)出語(yǔ)音的情況下,無(wú)法獲得推斷噪聲頻譜所需的充分的噪聲區(qū)間長(zhǎng)度。因此,存在著無(wú)法進(jìn)行噪聲適應(yīng),或者適應(yīng)了錯(cuò)誤的噪聲的問(wèn)題。
      在安靜的環(huán)境中,能夠容易地將語(yǔ)音區(qū)間與噪音區(qū)間分離。因此,如果利用語(yǔ)音功率的時(shí)間變化,則發(fā)聲區(qū)間的檢測(cè)比較容易。但是,在高雜音環(huán)境中,在低SN比的情況下,語(yǔ)音區(qū)間的起點(diǎn)或終點(diǎn)的精度下降,因而即使在發(fā)聲區(qū)間內(nèi),除了語(yǔ)音功率較大的一部分區(qū)間外,語(yǔ)音的大部分都被噪聲淹沒(méi)。因此,語(yǔ)音區(qū)間與非語(yǔ)音區(qū)間的差別變得模糊,語(yǔ)音區(qū)間的檢測(cè)變得困難。
      對(duì)這種低SN比語(yǔ)音的發(fā)聲區(qū)間進(jìn)行頻率分析,觀察對(duì)數(shù)變換后的頻譜,在語(yǔ)音功率占優(yōu)勢(shì)的頻帶中,表現(xiàn)為語(yǔ)音頻譜。另一方面,在其他的噪聲功率占優(yōu)勢(shì)的頻帶中,表現(xiàn)為噪聲頻譜。即,即使在語(yǔ)音的發(fā)聲區(qū)間中,因頻帶不同有時(shí)候也會(huì)表現(xiàn)為噪聲。因此,按照現(xiàn)有的方法,將全部頻帶統(tǒng)一進(jìn)行語(yǔ)音區(qū)間與噪聲區(qū)間分離的方法中,難以正確地求取受到電路失真影響的語(yǔ)音的頻譜平均。反之,在不能檢測(cè)語(yǔ)音區(qū)間的情況下,原來(lái)的語(yǔ)音區(qū)間也被當(dāng)作噪聲區(qū)間處理。因此,甚至也無(wú)法正確地求取噪聲的頻譜平均。
      因此,本發(fā)明的目的在于提供即使在高噪音環(huán)境中也具備高語(yǔ)音識(shí)別精度的信號(hào)分析裝置和信號(hào)處理裝置。
      另外,本發(fā)明的另一目的在于提供在輸入了完全沒(méi)有噪聲區(qū)間的語(yǔ)音的情況下或者在發(fā)聲過(guò)程中噪聲電平逐漸變化的情況下也能夠獲得穩(wěn)定的語(yǔ)音識(shí)別精度的信號(hào)分析裝置和信號(hào)處理裝置。
      本發(fā)明的再一個(gè)目的在于提供不容易受噪聲和音響特性失真影響的語(yǔ)音識(shí)別裝置。
      本發(fā)明的再一個(gè)目的在于提供作出了改進(jìn)從而提高了在低SN比的情況下的語(yǔ)音識(shí)別精度的語(yǔ)音識(shí)別裝置。
      本發(fā)明的再一個(gè)目的在于提供搭載了這種語(yǔ)音識(shí)別裝置的電子設(shè)備。
      本發(fā)明的再一個(gè)目的在于提供作出了改進(jìn)從而能夠進(jìn)行不容易受噪聲和音響特性失真影響的語(yǔ)音識(shí)別的信號(hào)分析程序、信號(hào)處理程序和語(yǔ)音識(shí)別程序。
      本發(fā)明的再一個(gè)目的在于提供作出了改進(jìn)從而提高了在低SN比的情況下的語(yǔ)音識(shí)別精度的信號(hào)分析程序、信號(hào)處理程序和語(yǔ)音識(shí)別程序。
      本發(fā)明的再一個(gè)目的在于提供記錄了這種程序的記錄介質(zhì)。
      為了解決上述課題,本發(fā)明的信號(hào)分析裝置具備頻帶分割單元,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取單元,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化單元,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
      利用這種結(jié)構(gòu),所提取的頻帶能量按每個(gè)頻帶標(biāo)準(zhǔn)化。其結(jié)果是,即使不能明確地檢測(cè)語(yǔ)音區(qū)間也能夠進(jìn)行信號(hào)分析,因此,能夠避免語(yǔ)音區(qū)間的檢測(cè)錯(cuò)誤。另外,能夠避免在噪聲區(qū)間短的情況下產(chǎn)生的無(wú)法進(jìn)行噪聲適應(yīng)的問(wèn)題,或者適應(yīng)了錯(cuò)誤的噪聲的問(wèn)題。
      這里所說(shuō)的標(biāo)準(zhǔn)化是指,減少由于噪聲種類或大小、電路特性、話筒的輸入靈敏度等環(huán)境因素而產(chǎn)生的輸入信號(hào)的能量分布的移動(dòng)量。具體地,標(biāo)準(zhǔn)化是通過(guò)減除信號(hào)的能量分布的平均值從而使直流成分衰減的方法、減除環(huán)境噪聲值的方法等進(jìn)行的。另外,在本說(shuō)明書中,標(biāo)準(zhǔn)化也包括對(duì)輸入電平的能量分布較寬一方進(jìn)行控制。
      本發(fā)明的信號(hào)分析裝置中,上述標(biāo)準(zhǔn)化單元最好由低截止濾波器構(gòu)成,其根據(jù)按每個(gè)上述頻帶提取的頻帶能量使直流成分衰減。利用這種結(jié)構(gòu),包含輸入信號(hào)的直流成分使低頻成分衰減,因此,能夠以最簡(jiǎn)單的結(jié)構(gòu)進(jìn)行標(biāo)準(zhǔn)化。
      另外,最好是,本發(fā)明的信號(hào)分析裝置具備電平計(jì)算單元,用來(lái)根據(jù)上述提取的頻帶能量的序列計(jì)算各個(gè)頻帶的條件平均值,作為第1電平,上述標(biāo)準(zhǔn)化單元從上述按每個(gè)頻帶提取的頻帶能量中減除將同一頻帶的第1電平乘以預(yù)定系數(shù)所得的值。
      利用這種結(jié)構(gòu),使用計(jì)算出來(lái)的第1電平將輸入信號(hào)的相應(yīng)頻帶能量進(jìn)行標(biāo)準(zhǔn)化。即,能夠按每個(gè)頻帶進(jìn)行更準(zhǔn)確的標(biāo)準(zhǔn)化。
      此外,頻帶能量的平均值不限于信號(hào)電平和噪聲電平這2者,根據(jù)信號(hào)分析裝置的使用環(huán)境和用途,可以分類為噪聲A的電平與噪聲B的電平、或者特定信號(hào)X的電平與特定信號(hào)Y的電平等2個(gè)或3個(gè)以上的電平。本說(shuō)明書中,將這些多個(gè)電平中成為基準(zhǔn)的電平稱為第1電平,其他電平稱為第2電平、第3電平等。此外,本說(shuō)明書中,主要使用噪聲電平作為第1電平,用語(yǔ)音電平作為第2電平。
      噪聲電平表示輸入頻帶能量中被認(rèn)為表現(xiàn)為噪聲的相對(duì)低的能量所分布的集合的平均,語(yǔ)音電平表示同樣被認(rèn)為表現(xiàn)為語(yǔ)音的相對(duì)高的能量所分布的集合的平均。本說(shuō)明書中,有時(shí)候?qū)㈩愃七@些噪聲電平或語(yǔ)音電平這樣按照能量高低條件分割出來(lái)的能量的平均稱為“條件平均”。
      在本發(fā)明的信號(hào)分析裝置中,在采用噪聲和語(yǔ)音這類條件的情況下,在能量分布中,對(duì)能量相對(duì)低的集合和高的集合不是進(jìn)行離散式區(qū)分,而最好是連續(xù)處理中間輸入范圍。即,最好是不檢測(cè)語(yǔ)音區(qū)間,而是按每個(gè)幀根據(jù)其頻帶能量大小以連續(xù)值判斷是語(yǔ)音還是噪聲。
      另外,最好是,在上述信號(hào)分析裝置中,上述電平計(jì)算單元除了計(jì)算上述第1電平,還從上述提取出來(lái)的頻帶能量序列中將不同于第1電平的各個(gè)頻帶的條件平均值的至少1個(gè)計(jì)算出來(lái)作為第2電平,上述標(biāo)準(zhǔn)化單元從上述按每個(gè)頻帶提取的頻帶能量中減除將同一頻帶的第1電平和第2電平分別乘以預(yù)定系數(shù)所得的值。
      利用這種結(jié)構(gòu),使用計(jì)算出來(lái)的第1電平和第2電平將頻帶能量標(biāo)準(zhǔn)化,使用計(jì)算出來(lái)的語(yǔ)音電平?jīng)Q定從頻帶能量中的減除量,因此,有可能實(shí)現(xiàn)更準(zhǔn)確的標(biāo)準(zhǔn)化。此外,不同于第1電平的各個(gè)頻帶的條件平均值不限于1個(gè),也可以有多個(gè)。
      最好是,上述信號(hào)分析裝置進(jìn)一步標(biāo)準(zhǔn)化系數(shù)取得單元,用來(lái)根據(jù)上述頻帶能量的值求取1個(gè)或多個(gè)標(biāo)準(zhǔn)化系數(shù),上述標(biāo)準(zhǔn)化單元從上述按各個(gè)頻帶提取的頻帶能量中減除將同一頻帶的上述第1電平或上述第1電平和多個(gè)電平乘以上述標(biāo)準(zhǔn)化系數(shù)所得的值。
      利用這種結(jié)構(gòu),能夠求取與1個(gè)或多個(gè)頻帶各自的條件平均值相對(duì)應(yīng)的、與頻帶能量值相應(yīng)的1個(gè)或多個(gè)標(biāo)準(zhǔn)化系數(shù)。其結(jié)果是,能夠反映1個(gè)或多個(gè)條件平均值,調(diào)整減除量,因此,有可能實(shí)現(xiàn)更準(zhǔn)確的標(biāo)準(zhǔn)化。
      本發(fā)明的信號(hào)處理裝置是一種依次進(jìn)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)處理裝置,其具備電平計(jì)算單元,用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平;標(biāo)準(zhǔn)化單元,用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值;更新系數(shù)取得單元,用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù)。上述電平計(jì)算單元使用上述更新系數(shù)使第1電平接近輸入信號(hào),由此將第1電平作為輸入信號(hào)的條件平均值。
      利用這種結(jié)構(gòu),對(duì)于例如特定頻帶的輸入信號(hào)等一元輸入信號(hào)也可以在標(biāo)準(zhǔn)化后進(jìn)行信號(hào)處理。即,根據(jù)輸入能量的高低等檢測(cè)出輸入能量的能量分布寬度,求取更新系數(shù),使第1電平接近輸入信號(hào),由此能夠抑制輸入信號(hào)的能量分布隨環(huán)境不同而產(chǎn)生的波動(dòng)。
      最好是,上述信號(hào)處理裝置具備標(biāo)準(zhǔn)化系數(shù)取得單元,用來(lái)基于上述第1電平與上述輸入信號(hào)的差取得標(biāo)準(zhǔn)化系數(shù)。上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述第1電平乘以標(biāo)準(zhǔn)化系數(shù)后所得的值,根據(jù)輸入電平控制減除量。
      另外,最好是在上述信號(hào)處理裝置中由上述電平計(jì)算單元根據(jù)輸入信號(hào)更新并存儲(chǔ)多個(gè)電平。上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述多個(gè)電平分別乘以預(yù)定系數(shù)后所得的值。上述更新系數(shù)取得單元根據(jù)上述第1電平與上述輸入信號(hào)的差求取多個(gè)電平的更新系數(shù)。上述電平計(jì)算單元利用上述多個(gè)電平的更新系數(shù)更新上述求得的多個(gè)電平,執(zhí)行與輸入分布相適應(yīng)的標(biāo)準(zhǔn)化。
      進(jìn)一步,最好是在上述信號(hào)處理裝置中由上述電平計(jì)算單元根據(jù)輸入信號(hào)更新并存儲(chǔ)多個(gè)電平。上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述多個(gè)電平分別乘以預(yù)定系數(shù)后所得的值。上述更新系數(shù)取得單元根據(jù)上述第1電平與上述輸入信號(hào)的差求取多個(gè)電平的更新系數(shù)。上述標(biāo)準(zhǔn)化系數(shù)取得單元求取與多個(gè)電平相適應(yīng)的多個(gè)標(biāo)準(zhǔn)化系數(shù)。上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將分別與上述多個(gè)電平相對(duì)應(yīng)的標(biāo)準(zhǔn)化系數(shù)乘以各個(gè)電平后所得的值,執(zhí)行與輸入電平相適應(yīng)的標(biāo)準(zhǔn)化。
      在上述信號(hào)分析裝置中,各頻帶的電平計(jì)算單元和標(biāo)準(zhǔn)化單元也可以采用使用上述信號(hào)分析裝置的結(jié)構(gòu)。即,可以使用本發(fā)明的信號(hào)處理裝置作為各頻帶的信號(hào)處理單元。
      上述信號(hào)分析裝置最好是在屬于低頻的頻帶和屬于高頻的頻帶中將預(yù)定系數(shù)設(shè)定為不同的值進(jìn)行處理。利用這種結(jié)構(gòu),像噪聲區(qū)域和語(yǔ)音區(qū)域這樣信號(hào)的能量分布隨頻率而不同的情況下,能夠正確地標(biāo)準(zhǔn)化。
      上述信號(hào)分析裝置最好是將從各個(gè)時(shí)刻的輸入信號(hào)中獲取的各個(gè)頻帶的頻帶能量作為對(duì)數(shù)能量進(jìn)行處理。如果以對(duì)數(shù)進(jìn)行標(biāo)準(zhǔn)化,就能夠去除電路特性導(dǎo)致的失真的影響。
      本發(fā)明的語(yǔ)音識(shí)別裝置具備上述信號(hào)分析裝置;參數(shù)變換單元,用來(lái)根據(jù)按照從信號(hào)分析裝置取得的每個(gè)頻帶進(jìn)行標(biāo)準(zhǔn)化后的頻帶能量求取音響參數(shù);語(yǔ)音識(shí)別部,使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。使用本發(fā)明的信號(hào)分析裝置,能夠獲取不易受噪聲或電路特性失真影響的音響參數(shù),因此,將其用于語(yǔ)音識(shí)別裝置時(shí),能夠提高語(yǔ)音識(shí)別精度。
      上述語(yǔ)音識(shí)別裝置最好是在MFCC(Mel Frequency CepstrumCoefficient美爾頻率倒譜系數(shù))參數(shù)的提取過(guò)程中執(zhí)行各個(gè)頻帶能量的標(biāo)準(zhǔn)化。利用這種結(jié)構(gòu),執(zhí)行從被標(biāo)準(zhǔn)化后的頻帶能量向倒譜參數(shù)的線性變換,由此即可求得標(biāo)準(zhǔn)化后的倒譜系數(shù)。
      遵循本發(fā)明的另外一個(gè)方面的用于在計(jì)算機(jī)中執(zhí)行的信號(hào)分析程序具備頻帶分割步驟,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取步驟,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化步驟,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
      遵循本發(fā)明的另外一個(gè)方面的用于在計(jì)算機(jī)中依次執(zhí)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)分析程序具備電平計(jì)算步驟,用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平;標(biāo)準(zhǔn)化步驟,用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值;更新系數(shù)取得步驟,用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù)。上述電平計(jì)算單元步驟,使用上述更新系數(shù)使第1電平接近輸入信號(hào),由此將第1電平作為輸入信號(hào)的條件平均值。
      遵循本發(fā)明的另外一個(gè)方面的用于在計(jì)算機(jī)中執(zhí)行語(yǔ)音識(shí)別的語(yǔ)音識(shí)別程序具備頻帶分割步驟,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取步驟,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化步驟,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量;參數(shù)變換步驟,用來(lái)根據(jù)按每個(gè)頻帶標(biāo)準(zhǔn)化的頻帶能量求取音響參數(shù);語(yǔ)音識(shí)別步驟,用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。
      遵循本發(fā)明的另外一個(gè)方面的發(fā)明,涉及記錄了用于在計(jì)算機(jī)中執(zhí)行的信號(hào)分析程序的記錄介質(zhì)。上述信號(hào)分析程序具備頻帶分割步驟,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取步驟,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化步驟,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
      遵循本發(fā)明的另外一個(gè)方面的發(fā)明,涉及記錄了用于在計(jì)算機(jī)中依次執(zhí)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)分析程序的計(jì)算機(jī)可讀取的記錄介質(zhì)。上述信號(hào)分析程序具備電平計(jì)算步驟,用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平;標(biāo)準(zhǔn)化步驟,用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值;更新系數(shù)取得步驟,用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù)。上述電平計(jì)算單元步驟使用上述更新系數(shù)使第1電平接近輸入信號(hào),由此將第1電平作為輸入信號(hào)的條件平均值。
      遵循本發(fā)明的另外一個(gè)方面的發(fā)明,涉及記錄了用于在計(jì)算機(jī)中執(zhí)行語(yǔ)音識(shí)別的語(yǔ)音識(shí)別程序的計(jì)算機(jī)可讀取的記錄介質(zhì)。上述語(yǔ)音識(shí)別程序具備頻帶分割步驟,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取步驟,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化步驟,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量;參數(shù)變換步驟,用來(lái)根據(jù)按每個(gè)頻帶標(biāo)準(zhǔn)化的頻帶能量求取音響參數(shù);語(yǔ)音識(shí)別步驟,用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。
      遵循本發(fā)明的另外一個(gè)方面的發(fā)明,涉及具備語(yǔ)音識(shí)別裝置的電子設(shè)備。上述語(yǔ)音識(shí)別裝置具備信號(hào)分析裝置;參數(shù)變換單元,用來(lái)根據(jù)從上述信號(hào)分析裝置取得的、按照每個(gè)頻帶進(jìn)行標(biāo)準(zhǔn)化后的頻帶能量,求取音響參數(shù);語(yǔ)音識(shí)別部,用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音,上述信號(hào)分析裝置具備頻帶分割單元,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取單元,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化單元,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。基于上述語(yǔ)音識(shí)別裝置對(duì)輸入信號(hào)中包含的語(yǔ)音信號(hào)進(jìn)行識(shí)別的結(jié)果選擇功能加以執(zhí)行。
      本發(fā)明的電子設(shè)備不容易受噪聲或電路特性失真的影響。其結(jié)果是,適合用于家庭中使用的語(yǔ)音識(shí)別型遙控器、移動(dòng)電話等電子設(shè)備。
      本發(fā)明的信號(hào)分析裝置具有以下效果。
      (1)本發(fā)明中,不檢測(cè)全部頻帶內(nèi)的語(yǔ)音區(qū)間,使用按各個(gè)頻帶所獲取的各個(gè)時(shí)刻的輸入信號(hào)的頻帶能量,按每個(gè)頻帶各別計(jì)算條件頻帶能量的電平,將各個(gè)頻帶能量標(biāo)準(zhǔn)化。即,即使在語(yǔ)音的發(fā)聲區(qū)間內(nèi),對(duì)于噪聲能量占優(yōu)勢(shì)的頻帶也作為噪聲區(qū)間進(jìn)行處理,只將語(yǔ)音能量占優(yōu)勢(shì)的頻帶作為語(yǔ)音區(qū)間處理。其結(jié)果是,能夠更準(zhǔn)確地標(biāo)準(zhǔn)化輸入信號(hào)的電路特性。
      在本發(fā)明的信號(hào)分析裝置中,當(dāng)語(yǔ)音與噪聲混合存在的情況下,有時(shí)候會(huì)出現(xiàn)各個(gè)頻帶的語(yǔ)音和噪聲的判斷錯(cuò)誤。但是,由于按每個(gè)頻帶各別區(qū)分語(yǔ)音和噪聲,因此,與在頻帶整體中區(qū)分語(yǔ)音和噪聲的情況相比,能夠降低其影響。即,借助于本發(fā)明的結(jié)構(gòu),能夠降低語(yǔ)音區(qū)間與噪聲區(qū)間的區(qū)間檢測(cè)失誤。
      (2)在本發(fā)明的信號(hào)分析裝置中,在按每個(gè)頻帶進(jìn)行頻帶能量標(biāo)準(zhǔn)化時(shí),在對(duì)數(shù)頻譜區(qū)域執(zhí)行標(biāo)準(zhǔn)化處理。如果在對(duì)數(shù)頻譜區(qū)域執(zhí)行標(biāo)準(zhǔn)化處理,就能夠獲得與以對(duì)數(shù)頻譜的線性變換(余弦變換)——倒譜系數(shù)進(jìn)行校正的CMN法相同的效果。其結(jié)果是,能夠標(biāo)準(zhǔn)化話筒等的影響造成的電路特性失真。即,即使語(yǔ)音識(shí)別時(shí)的噪聲頻譜與學(xué)習(xí)時(shí)的噪聲頻譜不同,也能夠防止識(shí)別精度的大幅度惡化。此外,如SS法那樣,可以用振幅電平進(jìn)行減除,但不能標(biāo)準(zhǔn)化電路特性失真。
      另外,本發(fā)明的信號(hào)分析裝置中,按每個(gè)頻帶各別求取噪聲電平和語(yǔ)音電平,對(duì)每個(gè)頻帶的噪聲電平或每個(gè)頻帶的語(yǔ)音電平進(jìn)行標(biāo)準(zhǔn)化,因此,能夠獲得與E-CMN法相同的效果。
      (3)在本發(fā)明的信號(hào)分析裝置中,根據(jù)所提取的頻帶能量序列執(zhí)行語(yǔ)音和噪聲判斷。即,即使在發(fā)聲區(qū)間內(nèi),一部分頻帶也可能被判定為噪聲。因此,只要是由頻譜形狀不同的音素構(gòu)成的發(fā)聲,在語(yǔ)音發(fā)聲區(qū)間內(nèi)完成幾乎全部頻帶的噪聲電平的推斷。即,在本發(fā)明的信號(hào)分析裝置中,即使不存在噪聲區(qū)間,也能夠推斷噪聲電平。
      本發(fā)明的信號(hào)分析裝置特別適合用于以電池驅(qū)動(dòng)為前提的移動(dòng)式設(shè)備。以電池驅(qū)動(dòng)的移動(dòng)式設(shè)備中,為了抑制電池的消耗量,只在發(fā)聲時(shí)對(duì)輸入信號(hào)進(jìn)行分析。即,即使在不存在噪聲區(qū)間的使用方式中,也能夠等效地推斷噪聲頻譜,因此,不僅能夠標(biāo)準(zhǔn)化電路特性失真,也能夠標(biāo)準(zhǔn)化噪聲等失真。


      圖1是表示求取MFCC所需步驟的流程圖。
      圖2是表示執(zhí)行現(xiàn)有的MFCC分析的信號(hào)分析裝置的結(jié)構(gòu)的框圖。
      圖3是表示根據(jù)使用了MFCC法的現(xiàn)有的E-CMN法進(jìn)行分析的信號(hào)分析裝置的結(jié)構(gòu)的框圖。
      圖4是表示本發(fā)明的信號(hào)分析裝置的結(jié)構(gòu)的圖。
      圖5是表示本發(fā)明中涉及的信號(hào)分析處理流程的流程圖。
      圖6是表示本發(fā)明中涉及的信號(hào)分析處理的輸入頻帶能量和更新系數(shù)、標(biāo)準(zhǔn)化系數(shù)、標(biāo)準(zhǔn)化頻帶能量的對(duì)應(yīng)關(guān)系的圖。
      圖7是表示使用低截止濾波器作為標(biāo)準(zhǔn)化單元的本發(fā)明的信號(hào)分析單元的結(jié)構(gòu)的圖。
      圖8是表示包含語(yǔ)音波形的音響信號(hào)實(shí)例的圖。
      圖9是圖8所示的包含語(yǔ)音波形的音響信號(hào)的頻譜圖的簡(jiǎn)化圖。
      圖10是表示使用現(xiàn)有的E-CMN法對(duì)圖9所示的頻譜進(jìn)行標(biāo)準(zhǔn)化時(shí)執(zhí)行標(biāo)準(zhǔn)化處理的范圍的圖。
      圖11是表示使用本發(fā)明的信號(hào)分析裝置對(duì)圖9所示的頻譜進(jìn)行標(biāo)準(zhǔn)化時(shí)執(zhí)行標(biāo)準(zhǔn)化處理的范圍的圖。
      圖12是表示輸入了圖8所示的包含語(yǔ)音波形的音響信號(hào)的情況下使用E-CMN法的噪聲頻譜適應(yīng)的進(jìn)行狀況的圖。
      圖13是表示輸入了圖8所示的包含語(yǔ)音波形的音響信號(hào)的情況下使用本發(fā)明的信號(hào)分析裝置進(jìn)行噪聲頻譜適應(yīng)的進(jìn)行狀況的圖。
      圖14是表示使用了本發(fā)明的語(yǔ)音識(shí)別裝置的語(yǔ)音識(shí)別系統(tǒng)實(shí)例的框圖。
      圖15是表示本發(fā)明的語(yǔ)音識(shí)別裝置或包含本發(fā)明的語(yǔ)音識(shí)別裝置的電子設(shè)備的結(jié)構(gòu)圖。
      具體實(shí)施例方式
      下面參照

      實(shí)施本發(fā)明的最優(yōu)實(shí)施方式。實(shí)施本發(fā)明的最優(yōu)實(shí)施方式通過(guò)比較MFCC法、E-CMN法進(jìn)行說(shuō)明。此外,本發(fā)明并不限定于此。

      圖2是表示執(zhí)行現(xiàn)有的MFCC分析的信號(hào)分析裝置的結(jié)構(gòu)的框圖。圖中,參照符號(hào)101表示頻率分析單元,參照符號(hào)102表示參數(shù)變換單元。頻率分析單元101執(zhí)行圖1的頻率分析步驟(步驟S201)的處理,參數(shù)變換單元102執(zhí)行圖1的參數(shù)變換步驟(步驟S202)的處理。
      圖3是表示根據(jù)使用了MFCC法的現(xiàn)有的E-CMN法進(jìn)行分析的信號(hào)分析裝置的結(jié)構(gòu)的框圖。該圖中,執(zhí)行圖3的MFCC分析的信號(hào)分析裝置的結(jié)構(gòu)中進(jìn)一步增加了用來(lái)從輸入信號(hào)中檢測(cè)語(yǔ)音區(qū)間的語(yǔ)音區(qū)間檢測(cè)單元203、平均值更新單元201、減法處理單元202。所輸入的語(yǔ)音經(jīng)頻率分析單元101和參數(shù)計(jì)算單元102處理,由此求得MFCC。同時(shí),所輸入的語(yǔ)音經(jīng)語(yǔ)音區(qū)間檢測(cè)單元203處理,檢測(cè)出語(yǔ)音區(qū)間。平均值更新單元使用由語(yǔ)音區(qū)間檢測(cè)單元203所獲得的語(yǔ)音區(qū)間信息更新從參數(shù)計(jì)算單元102取得的平均倒譜。具體地,如果是語(yǔ)音區(qū)間,則更新語(yǔ)音的平均倒譜;如果是非語(yǔ)音區(qū)間,則更新噪聲的平均倒譜。減法處理單元202使用由語(yǔ)音區(qū)間檢測(cè)單元203所取得的語(yǔ)音區(qū)間信息,如果是語(yǔ)音區(qū)間則從由參數(shù)計(jì)算單元102輸出的當(dāng)前倒譜中減除語(yǔ)音的平均倒譜,如果是非語(yǔ)音區(qū)間則從由參數(shù)計(jì)算單元102輸出的當(dāng)前倒譜中減除噪聲的平均倒譜。
      作為語(yǔ)音區(qū)間檢測(cè)方法,一般是使用每幀的短時(shí)間信號(hào)功率或每幀的頻譜概略形狀檢測(cè)語(yǔ)音區(qū)間。這些方法中,使用了移動(dòng)電話等語(yǔ)音通信中所使用的標(biāo)準(zhǔn)方法。
      圖4是表示本發(fā)明的信號(hào)分析裝置的結(jié)構(gòu)的圖。本發(fā)明中,圖4的MFCC分析中使用的信號(hào)分析裝置的頻率分析單元101和參數(shù)計(jì)算單元102之間按每個(gè)頻帶設(shè)置了更新系數(shù)取得單元301、電平計(jì)算單元302、標(biāo)準(zhǔn)化單元303和標(biāo)準(zhǔn)化系數(shù)取得單元304。另外,本發(fā)明的頻帶分析單元101由將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)的頻帶分割單元305、針對(duì)被分割為各個(gè)頻帶的該輸入信號(hào)提取各個(gè)頻帶的頻帶能量的頻帶能量提取單元306構(gòu)成。
      更新系數(shù)取得單元301將在信號(hào)被輸入的時(shí)刻之前計(jì)算出來(lái)的噪聲電平或語(yǔ)音電平與由上述頻率分析單元101求得的當(dāng)前各個(gè)頻帶的頻帶能量進(jìn)行比較,通過(guò)電平計(jì)算單元302求得電平更新所用的更新系數(shù)。
      電平計(jì)算單元302使用由上述更新系數(shù)取得單元301所取得的更新系數(shù),基于輸入能量和噪聲電平或語(yǔ)音電平之差更新噪聲電平或語(yǔ)音電平并存儲(chǔ)起來(lái)。具體方法在后文敘述。
      標(biāo)準(zhǔn)化系數(shù)取得單元304與上述更新系數(shù)取得單元301同樣地將在信號(hào)被輸入的時(shí)刻之前計(jì)算出來(lái)的噪聲電平或語(yǔ)音電平與由上述頻率分析單元101求得的當(dāng)前各個(gè)頻帶的頻帶能量進(jìn)行比較,通過(guò)標(biāo)準(zhǔn)化單元303計(jì)算所用的標(biāo)準(zhǔn)化系數(shù)。
      標(biāo)準(zhǔn)化單元303使用由上述標(biāo)準(zhǔn)化系數(shù)取得單元304所求得的標(biāo)準(zhǔn)化系數(shù),以及由上述電平計(jì)算單元302所求得的語(yǔ)音電平或噪聲電平,將由上述頻率分析單元101所求得的當(dāng)前頻帶能量標(biāo)準(zhǔn)化后輸出。
      在本實(shí)施方式中,更新系數(shù)取得單元301與標(biāo)準(zhǔn)化系數(shù)取得單元304由不同結(jié)構(gòu)實(shí)現(xiàn),但兩者執(zhí)行的處理相似,因此也可以用同一結(jié)構(gòu)來(lái)實(shí)現(xiàn)更新系數(shù)取得單元301與標(biāo)準(zhǔn)化系數(shù)取得單元304。
      CMS法或E-CMN法的文獻(xiàn)中描述的實(shí)現(xiàn)中,存儲(chǔ)單詞或文章發(fā)聲時(shí)的每次語(yǔ)音,求取該語(yǔ)音電平的電平,標(biāo)準(zhǔn)化后進(jìn)行識(shí)別,或者使用上一次發(fā)聲的電平進(jìn)行標(biāo)準(zhǔn)化。但是,在發(fā)聲結(jié)束后進(jìn)行識(shí)別處理,因其響應(yīng)慢,沒(méi)有可行性。另外,在移動(dòng)式裝置等中,不能保證上一次的使用環(huán)境與當(dāng)前的使用環(huán)境相同。因此,本實(shí)施方式中說(shuō)明的方式,不是使用每次發(fā)聲或上一次的發(fā)聲電平,而是實(shí)時(shí)更新噪聲電平等,使用該更新后的噪聲電平,實(shí)時(shí)地將頻帶能量進(jìn)行標(biāo)準(zhǔn)化。此外,本發(fā)明的信號(hào)分析裝置也可以使用每次發(fā)聲或上一次的發(fā)聲電平將頻帶能量標(biāo)準(zhǔn)化。
      圖5是表示本發(fā)明中涉及的信號(hào)分析處理流程的流程圖。圖6是表示本發(fā)明中涉及的信號(hào)分析處理的輸入頻帶能量和更新系數(shù)、標(biāo)準(zhǔn)化系數(shù)、標(biāo)準(zhǔn)化頻帶能量的對(duì)應(yīng)關(guān)系的圖。下面使用圖5和圖6詳細(xì)說(shuō)明本發(fā)明的信號(hào)分析處理。此外,利用噪聲能量低、語(yǔ)音能量高這一特點(diǎn)應(yīng)用更新系數(shù)或標(biāo)準(zhǔn)化系數(shù)。
      頻率分析步驟(步驟S201)和參數(shù)分析步驟(步驟S202)中執(zhí)行的處理與圖1的處理相同。
      本發(fā)明的信號(hào)分析裝置只要能將輸入信號(hào)分割為2個(gè)或以上的頻帶,就可依照其原理動(dòng)作。另外,作為頻率數(shù)軸,除美爾頻率數(shù)軸外,帕克頻率數(shù)軸或線形頻率數(shù)軸也可以進(jìn)行動(dòng)作。此外,以語(yǔ)音識(shí)別為目的進(jìn)行信號(hào)分析時(shí),頻率分析中的頻帶分割數(shù)或頻率分度是遵循MFCC的值即可,分割數(shù)在10至30左右為妥。例如,如果是以11KHz采樣的語(yǔ)音,如為在美爾頻率數(shù)軸上分割為24個(gè)頻帶后變換為12元倒譜的結(jié)構(gòu)即是有效的,這已通過(guò)試驗(yàn)得到確認(rèn)。將現(xiàn)有的MFCC處理中的頻率分析步驟和參數(shù)變換步驟的處理挪用到本發(fā)明的信號(hào)分析裝置中,可以抑制處理量的增加。
      步驟S203~步驟S205所進(jìn)行的處理按每個(gè)頻帶獨(dú)立執(zhí)行。系數(shù)取得步驟(步驟S203)根據(jù)由頻率分析步驟(步驟S201)所求得的頻帶能量與在輸入信號(hào)的輸入時(shí)刻之前所求得的各個(gè)頻帶的噪聲電平之差,求取更新系數(shù)和標(biāo)準(zhǔn)化系數(shù)。接著,基于按每個(gè)頻帶求取的更新系數(shù),更新上述頻帶的噪聲電平(步驟S204)。接著,使用在步驟S204更新過(guò)的頻帶的噪聲電平和標(biāo)準(zhǔn)化系數(shù)將該頻帶的頻帶能量進(jìn)行標(biāo)準(zhǔn)化(步驟S205)。將標(biāo)準(zhǔn)化后的頻帶能量變換為倒譜系數(shù)(步驟S202)。
      此外,本實(shí)施方式中,將標(biāo)準(zhǔn)化后的頻帶能量變換為語(yǔ)音識(shí)別中通常使用的倒譜系數(shù)。但是,并不一定要變換為倒譜系數(shù),也可以采用將標(biāo)準(zhǔn)化后的能量直接輸出的結(jié)構(gòu)。
      接著使用圖6說(shuō)明使用更新系數(shù)更新頻帶能量中的噪聲電平的方法。圖6(c)是表示輸入頻帶能量與更新系數(shù)的關(guān)系的圖。
      此外,推斷噪聲電平的方法也包括計(jì)算輸入能量的直方圖、采用下方的數(shù)個(gè)百分點(diǎn)作為噪聲電平的方法。但是,為了計(jì)算直方圖,需要一定長(zhǎng)度的輸入。因此,適宜使用以下說(shuō)明的實(shí)時(shí)地依次更新噪聲電平的處理。
      假定在時(shí)刻t的噪聲電平為N(t),輸入頻帶能量為E(t),更新系數(shù)為α(t),則噪聲電平N(t)的更新例如如下進(jìn)行。此外,噪聲電平、輸入頻帶能量的單位考慮以分貝(dB)為基準(zhǔn)。
      N(t)=(1-α(t))*N(t-1)+α(t)*E(t)…式(1)α(t)=O (N(t-1)+R<E(t)時(shí))α(t)=A*(1-(E(t)-N(t-1))/R)(N(t-1)<E(t)≤N(t-1)+R時(shí))α(t)=A (E(t)≤N(t-1)時(shí))這里,A表示最大更新系數(shù),其值為大于等于0小于等于1。例如,A取0.02左右的值。R表示噪聲和語(yǔ)音的能量邊界范圍,例如取為2dB左右。由于能夠求取在所輸入的頻帶能量的時(shí)間序列中特別是低能量分布的情況下的平均值,因此,該更新系數(shù)可以更新噪聲電平。
      在上述算式中,可以將(α(t)/A)看作表示接近噪聲的程度的指標(biāo)。
      如果將噪聲電平的初始值N(0)定為N(0)=E(1),可以獲得快速的上升特性,獲得很好的識(shí)別結(jié)果,這已通過(guò)試驗(yàn)得到確認(rèn)。
      如果使用上述算式更新噪聲電平,則對(duì)于噪聲向下方的變化跟蹤較快,而對(duì)于向上方的變化跟蹤速度逐漸變慢,在1幀期間存在大于R(dB)的噪聲增幅的情況下,則完全不跟蹤。這種對(duì)噪聲變化速度的跟蹤可以通過(guò)A和R參數(shù)來(lái)控制。在A為0.02的情況下,對(duì)遲于0.5Hz左右的噪聲變化變?yōu)橐蚕蛏戏礁?。通常的語(yǔ)音變化速度是1秒鐘內(nèi)替換數(shù)個(gè)至十幾個(gè)音素,因此,從幾Hz至數(shù)十Hz的成分較多。另一方面,背景噪聲大多比這個(gè)頻率慢。然而,突發(fā)性噪聲有時(shí)候會(huì)造成噪聲能量急劇上升,其后就無(wú)法跟蹤了。因此,將α(t)的下限設(shè)為微小的值例如0.001左右而不是0,就可以設(shè)定為在數(shù)秒后進(jìn)行跟蹤。
      在對(duì)這些參數(shù)進(jìn)行動(dòng)作確認(rèn)時(shí),通過(guò)輸入調(diào)整了每個(gè)頻帶的能量變化速度的人工數(shù)據(jù),就能夠確認(rèn)跟蹤速度。
      假定在時(shí)刻t的語(yǔ)音電平為S(t),輸入頻帶能量為E(t),更新系數(shù)為γ(t),則語(yǔ)音電平S(t)的更新例如如下進(jìn)行。
      S(t)=(1-γ(t))*N(t-1)+γ(t)*E(t)…式2γ(t)=C(N(t-1)+R<E(t)時(shí))γ(t)=C*(E(t)-N(t-1)/R)(N(t-1)<E(t)≤N(t-1)+R時(shí))γ(t)=O(E(t)≤N(t-1)時(shí))這里,C表示最大更新系數(shù),其值小于等于1。C與上述A相同,例如取為0.02左右的值。R表示噪聲與語(yǔ)音的能量的邊界范圍,既可以是與上述噪聲電平的邊界區(qū)域相同的值,也可以是不同值。由于能夠求取在所輸入的頻帶能量的時(shí)間序列中特別是高能量分布的情況下的平均值,因此,該更新系數(shù)可以更新語(yǔ)音電平。
      初始值S(0)最好是使用上次發(fā)聲時(shí)最后的S(t)。當(dāng)無(wú)法獲得最后的S(t)時(shí),使用S(0)=0可以獲得較好的結(jié)果,這已通過(guò)試驗(yàn)得到確認(rèn)。這里,可以將(γ(t)/C)看作表示接近語(yǔ)音的程度的指標(biāo)。
      關(guān)于語(yǔ)音電平,也可以不進(jìn)行更新而使用固定值。在這種情況下,使用根據(jù)大量語(yǔ)音數(shù)據(jù)計(jì)算出來(lái)的平均語(yǔ)音電平,效果較好。
      為了更新噪聲電平和語(yǔ)音電平,必須根據(jù)輸入信號(hào)的時(shí)間序列判斷是噪聲區(qū)間還是語(yǔ)音區(qū)間。式1和式2中,兩個(gè)區(qū)間的檢測(cè)也可以不以2進(jìn)制值形式求取,而可以是取中間值(圖6(c))。噪聲區(qū)間與語(yǔ)音區(qū)間的判斷按每個(gè)頻帶進(jìn)行。因此,在各個(gè)頻帶判斷出來(lái)的噪聲區(qū)間與語(yǔ)音區(qū)間不同于在其他頻帶判斷出來(lái)的噪聲區(qū)間和語(yǔ)音區(qū)間。進(jìn)一步,在各個(gè)頻帶判斷出來(lái)的噪聲區(qū)間和語(yǔ)音區(qū)間與實(shí)際的說(shuō)話者的發(fā)聲區(qū)間也不一樣。
      更新系數(shù)不必通用于全部頻帶。通過(guò)預(yù)先按每個(gè)頻帶保存不同的更新系數(shù),能夠按每個(gè)頻帶應(yīng)用最適合的更新系數(shù)。
      例如,在低頻帶,噪聲波動(dòng)比較緩慢的情況下,通過(guò)減小低頻帶的更新系數(shù)的最大值A(chǔ),可以減少對(duì)語(yǔ)音輸入錯(cuò)誤地跟蹤而導(dǎo)致更新的危險(xiǎn)性。
      求取噪聲電平的方法也可以是將直到輸入時(shí)刻為止的輸入能量的最小值作為噪聲電平??梢哉J(rèn)為這相當(dāng)于在上述式(1)中將能量的邊界范圍定為0dB,將最大更新系數(shù)定為1的情況。另外,對(duì)于語(yǔ)音電平,也可以將直到輸入時(shí)刻為止的輸入能量的最大值作為語(yǔ)音電平。這利用了噪聲能量低、語(yǔ)音能量高這一特點(diǎn)。
      求取噪聲電平、語(yǔ)音電平的方法并不限于該實(shí)例,只要是能夠求取在能量分布范圍內(nèi)的低值和高值的方法,就能夠求取噪聲電平、語(yǔ)音電平。
      接著使用圖6說(shuō)明使用標(biāo)準(zhǔn)化系數(shù)對(duì)頻帶能量進(jìn)行標(biāo)準(zhǔn)化的方法。圖6(b)是表示輸入頻帶能量與標(biāo)準(zhǔn)化系數(shù)的關(guān)系的圖。
      假定在時(shí)刻t的噪聲電平為N(t),輸入頻帶能量為E(t),標(biāo)準(zhǔn)化系數(shù)為β(t),則標(biāo)準(zhǔn)化頻帶能量E′(t)可由例如以下算式求得。此外,噪聲電平、能量的單位定為分貝(dB)。
      E’(t)=E(t)-β(t)*N(t)…式3β(t)=O(N(t-1)+R<E(t)時(shí))β(t)=B*(1-(E(t)-N(t-1))/R)(N(t-1)<E(t)≤N(t-1)+R時(shí))β(t)=B(E(t)≤N(t-1)時(shí))這里,B表示最大減除量,其值小于等于1。例如,B取0.5左右的值。R表示噪聲和語(yǔ)音的能量邊界范圍,例如取為2dB左右。R既可以是與上述更新系數(shù)的邊界區(qū)域相同的值,也可以是不同值。
      接著,在噪聲電平的基礎(chǔ)上,使用語(yǔ)音電平S(t)來(lái)說(shuō)明頻帶能量的標(biāo)準(zhǔn)化方法。使用語(yǔ)音電平的頻帶能量標(biāo)準(zhǔn)化可由例如下式計(jì)算。
      E’(t)=E(t)-β(t)*N(t)-δ(t)*S(t)…式4δ(t)=D(N(t-1)+R<E(t)時(shí))δ(t)=D*(E(t)-N(t-1))/R(N(t-1)<E(t)≤N(t-1)+R時(shí))δ(t)=O(E(t)≤N(t-1)時(shí))這里,D表示最大減除量,其值小于等于1。D與上述B相同,例如取為0.5左右的值。R表示噪聲與語(yǔ)音的能量的邊界范圍,既可以是與上述噪聲電平的邊界區(qū)域相同的值,也可以是不同值。
      在該例中,使用輸入能量E(t)與噪聲電平N(t)之差求取語(yǔ)音電平的標(biāo)準(zhǔn)化系數(shù)。使用該方法,能夠降低說(shuō)話者或電路特性所導(dǎo)致的識(shí)別精度的下降。此外,使用輸入能量E(t)與語(yǔ)音電平S(t)之差能夠求取語(yǔ)音電平的標(biāo)準(zhǔn)化系數(shù)。
      在該實(shí)例中說(shuō)明的是,為了標(biāo)準(zhǔn)化頻帶能量,將語(yǔ)音電平或噪聲電平乘以通過(guò)預(yù)定的計(jì)算求得的系數(shù)后從輸入頻帶能量中減除的方法。但是,為了進(jìn)行標(biāo)準(zhǔn)化,并不限于這一方法,例如,使用輸入能量除以語(yǔ)音電平等除法的方法,有時(shí)候也能夠獲得標(biāo)準(zhǔn)化效果。也可以是根據(jù)輸入的動(dòng)態(tài)范圍或環(huán)境變化的大小適當(dāng)改變標(biāo)準(zhǔn)化方法的結(jié)構(gòu)。
      圖6(a)是表示使用式3和式4標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)化頻帶能量與所輸入的頻帶能量的關(guān)系的圖。將使用了噪聲電平和語(yǔ)音電平雙方的情況表示為E′=E-β*N-δ*S的圖表。設(shè)D=0的情況,即僅使用噪聲能量的情況表示為E′=E-β*N的圖表。根據(jù)各個(gè)頻帶的噪聲電平和語(yǔ)音電平的大小適當(dāng)改變所用的標(biāo)準(zhǔn)化系數(shù),能夠標(biāo)準(zhǔn)化頻帶能量。除此之外,在使用環(huán)境是噪聲非常穩(wěn)定的場(chǎng)所等情況下,由于無(wú)需應(yīng)用噪聲,因此,通過(guò)采用B=0,能夠只使用語(yǔ)音電平。
      在將噪聲與語(yǔ)音的邊界區(qū)域幅度R(dB)取為非常大的值的情況下,就成為在幾乎整個(gè)區(qū)間以固定的更新系數(shù)A更新噪聲電平,針對(duì)幾乎整個(gè)區(qū)間的輸入頻帶能量以固定的標(biāo)準(zhǔn)化系數(shù)B進(jìn)行減法計(jì)算。為了簡(jiǎn)化其實(shí)現(xiàn),如圖7所示在各個(gè)頻帶設(shè)置低截止濾波器即可。圖7是表示使用低截止濾波器307作為標(biāo)準(zhǔn)化單元的本發(fā)明的信號(hào)分析單元的結(jié)構(gòu)的圖。即,在對(duì)輸入信號(hào)進(jìn)行頻率分析后,對(duì)各個(gè)頻帶的能量進(jìn)行低截止,然后,通過(guò)變換為語(yǔ)音參數(shù),獲得一定程度的標(biāo)準(zhǔn)化效果。這種情況下的低截止濾波器最好是比隨語(yǔ)音而不同的頻譜變化速度——1Hz至10Hz左右還要低的頻率,即截止1Hz或以下的頻率。
      作為該結(jié)構(gòu)的實(shí)現(xiàn)實(shí)例,以t表示幀,向低截止濾波器的輸入表示為x(t),輸出表示為y(t),執(zhí)行如下處理,y(t)=x(t)-z(t)z(t)=x(t)*0.02+z(t)*0.98則如果幀周期為10ms,衰減特性即成為在0.5Hz下為-1dB,在0.24Hz下約為-3dB、在0Hz下為-5.7dB。此外,該結(jié)構(gòu)的實(shí)現(xiàn)實(shí)例并不限于必須遵循上述算式。
      另外,在頻帶的低頻區(qū)和高頻區(qū)噪聲變化速度不同的環(huán)境下,采用按每個(gè)頻帶而特性不同的低截止濾波器結(jié)構(gòu),就能夠獲得更加適應(yīng)使用環(huán)境的性能改善。
      接著根據(jù)附圖從頻譜的視點(diǎn)說(shuō)明本發(fā)明的實(shí)施方式。
      圖8是表示包含語(yǔ)音波形的音響信號(hào)實(shí)例的圖。圖中,橫軸表示時(shí)間,縱軸表示振幅。該圖中,時(shí)間t1至t2的區(qū)間表示發(fā)聲區(qū)間,所顯示的時(shí)間整體中包含雜音。
      圖9是圖8所示的包含語(yǔ)音波形的音響信號(hào)的頻譜圖的簡(jiǎn)化圖。圖中,橫軸表示時(shí)間,縱軸表示頻率。時(shí)間t1至t2的區(qū)間表示發(fā)聲區(qū)間。實(shí)際的語(yǔ)音頻譜是連續(xù)值,但在該圖中,為了簡(jiǎn)單起見(jiàn),將比其他部分能量相對(duì)高的區(qū)域以閉曲線封閉,并以網(wǎng)格表示。
      圖10是表示使用現(xiàn)有的E-CMN法對(duì)圖9所示的頻譜進(jìn)行標(biāo)準(zhǔn)化時(shí)執(zhí)行標(biāo)準(zhǔn)化處理的范圍的圖。圖中,橫軸表示時(shí)間,橫軸的各段表示分析幀??v軸表示頻率,縱軸的各段表示頻帶。將比其他部分能量相對(duì)高的區(qū)域以閉曲線封閉。另外,網(wǎng)格部分是作為語(yǔ)音區(qū)間的應(yīng)用范圍,其余部分是作為噪聲區(qū)間的應(yīng)用范圍。
      在使用E-CMN法的情況下,在標(biāo)準(zhǔn)化倒譜系數(shù)時(shí),不能選擇頻帶進(jìn)行標(biāo)準(zhǔn)化。因此,在判定為語(yǔ)音區(qū)間的時(shí)間t1至t2的區(qū)間內(nèi),語(yǔ)音的倒譜系數(shù)被更新;在其余區(qū)間,噪聲的倒譜系數(shù)被更新。使用更新后的倒譜系數(shù),將各個(gè)區(qū)間的倒譜標(biāo)準(zhǔn)化。因此,當(dāng)語(yǔ)音區(qū)間中含有噪聲的情況下,倒譜系數(shù)有可能被錯(cuò)誤地更新。
      圖11是表示使用本發(fā)明的信號(hào)分析裝置對(duì)圖9所示的頻譜進(jìn)行標(biāo)準(zhǔn)化時(shí)執(zhí)行標(biāo)準(zhǔn)化處理的范圍的圖。圖中,橫軸表示時(shí)間,橫軸的各段表示分析幀??v軸表示頻率,縱軸的各段表示頻帶。另外,網(wǎng)格部分是作為語(yǔ)音區(qū)間的應(yīng)用范圍,其余部分是作為噪聲區(qū)間的應(yīng)用范圍。
      在本發(fā)明的情況下,針對(duì)各個(gè)頻帶判斷是語(yǔ)音區(qū)間還是噪聲區(qū)間。其結(jié)果是,與語(yǔ)音的發(fā)聲區(qū)間(t1-t2)無(wú)關(guān),在具有比周圍噪聲能量高的頻帶和幀(圖中網(wǎng)格部分)中,該頻帶的語(yǔ)音電平得到更新,使用該更新后的語(yǔ)音電平將頻帶能量標(biāo)準(zhǔn)化。在其余部分,即使是語(yǔ)音的發(fā)聲區(qū)間(t1-t2),如果其能量低、判定為噪聲區(qū)間,因此就更新該頻帶的噪聲電平,使用該更新后的噪聲電平將頻帶能量標(biāo)準(zhǔn)化。
      即,借助于本發(fā)明,在進(jìn)行語(yǔ)音區(qū)間判斷時(shí),可以沒(méi)有現(xiàn)有的明確的非語(yǔ)音區(qū)間。如果是包含多種音素的語(yǔ)音,就能夠在語(yǔ)音區(qū)間所含的全部頻帶中更新噪聲電平。
      此外,在圖11中,為了簡(jiǎn)化,在圖中設(shè)置了網(wǎng)格部分,表示為語(yǔ)音區(qū)間與噪聲區(qū)間之間存在明確的分界。但是,由式1~式4可知,語(yǔ)音區(qū)間與噪聲區(qū)間之間不存在明確的分界。實(shí)際上,在頻帶能量的噪聲電平N(t)至N(t)+R的范圍內(nèi)逐漸切換進(jìn)行處理。只在R=0的情況下才會(huì)形成圖11所示的明確分界。
      圖12是表示輸入了圖8所示的包含語(yǔ)音波形的音響信號(hào)的情況下,使用E-CMN法的噪聲頻譜適應(yīng)的進(jìn)行狀況的圖。圖13是表示輸入了圖8所示的包含語(yǔ)音波形的音響信號(hào)的情況下使用本發(fā)明的信號(hào)分析裝置進(jìn)行噪聲頻譜適應(yīng)的進(jìn)行狀況的圖。圖中,網(wǎng)格部分表示噪聲被正確地推斷出來(lái)的頻帶和幀。
      這里,特別地以沒(méi)有噪聲區(qū)間的輸入為例表示從與發(fā)聲開(kāi)始時(shí)刻相同時(shí)刻t1開(kāi)始向裝置進(jìn)行輸入的情況。在電池驅(qū)動(dòng)的移動(dòng)式裝置中,語(yǔ)音輸入以按鈕等指令開(kāi)始。在這樣的情況下,可以認(rèn)為進(jìn)行的是沒(méi)有噪聲區(qū)間的輸入。
      除了隔音室等特殊情況,在事先無(wú)法知道輸入噪聲電平的實(shí)際環(huán)境下使用的系統(tǒng)中,不可能對(duì)沒(méi)有噪聲區(qū)間的輸入語(yǔ)音進(jìn)行語(yǔ)音分割。這種情況下,根據(jù)系統(tǒng)設(shè)計(jì)決定將最初的輸入幀解釋為語(yǔ)音還是噪聲。
      在將最初的輸入幀解釋為噪聲的系統(tǒng)中,如果應(yīng)用E-CMN法,則圖12的時(shí)刻t1至t2的發(fā)聲區(qū)間全部被識(shí)別為噪聲區(qū)間。因此,推斷出錯(cuò)誤的噪聲電平。由此,第1發(fā)聲被作為噪聲而平坦化,因此變得無(wú)法識(shí)別。此外,在語(yǔ)音輸入結(jié)束t2后,推斷出原本的噪聲電平。
      另一方面,即使在將最初的輸入幀解釋為語(yǔ)音的系統(tǒng)中,如果應(yīng)用E-CMN法,則圖12的時(shí)刻t1至t2的發(fā)聲區(qū)間,無(wú)法推斷出噪聲頻譜。因此,在t2附近的語(yǔ)尾的識(shí)別精度就會(huì)出現(xiàn)問(wèn)題。
      在將最初的輸入幀解釋為噪聲的系統(tǒng)中,如果使用本發(fā)明的信號(hào)分析裝置,則在語(yǔ)音占優(yōu)勢(shì)的頻帶中,會(huì)產(chǎn)生噪聲頻譜的推斷錯(cuò)誤。但是,一旦頻譜形狀發(fā)生變化、頻帶的語(yǔ)音功率變得低于噪聲功率時(shí),該頻帶的噪聲功率被推斷出來(lái)。在圖13的實(shí)例中,在比發(fā)聲結(jié)束時(shí)刻t2更早的時(shí)刻t3,噪聲功率的推斷結(jié)束。因此,在時(shí)刻t3至t2之間,能夠正確地標(biāo)準(zhǔn)化噪聲頻譜。即,如果使用本發(fā)明的信號(hào)分析裝置,能夠比使用E-CMN法的情況下更快更正確地進(jìn)行標(biāo)準(zhǔn)化。另外,在噪聲推斷已經(jīng)結(jié)束的頻帶,在結(jié)束時(shí)刻以后,如果該頻帶的功率上升,則語(yǔ)音功率被推斷出來(lái),因此,從發(fā)聲過(guò)程中途就能夠?qū)崿F(xiàn)高精度的語(yǔ)音識(shí)別。
      依照此種方式,如果使用本發(fā)明的信號(hào)分析裝置,則即使是通過(guò)按鈕等發(fā)出語(yǔ)音輸入開(kāi)始指令的裝置,也能夠從最初的發(fā)聲開(kāi)始進(jìn)行高精度的語(yǔ)音識(shí)別。
      如上述說(shuō)明,本發(fā)明的信號(hào)分析裝置中,在語(yǔ)音發(fā)聲過(guò)程中也能夠推斷噪聲頻譜。其結(jié)果是,即使在發(fā)音過(guò)程中噪聲頻譜逐漸變化的情況下,只要其變化緩慢,就能夠適應(yīng)噪聲變化進(jìn)行標(biāo)準(zhǔn)化。因此,如果在語(yǔ)音識(shí)別裝置中應(yīng)用本發(fā)明的信號(hào)分析裝置,就能夠獲得能夠?qū)崿F(xiàn)更穩(wěn)定的語(yǔ)音識(shí)別的語(yǔ)音識(shí)別裝置。
      圖14是表示使用了本發(fā)明的語(yǔ)音識(shí)別裝置的語(yǔ)音識(shí)別系統(tǒng)實(shí)例的框圖。語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)通常具備音響模型學(xué)習(xí)裝置401和語(yǔ)音識(shí)別裝置402。
      語(yǔ)音數(shù)據(jù)庫(kù)403用于音響模型學(xué)習(xí)。主要保存在個(gè)人電腦或工作站的固定硬盤等之中。
      參照符號(hào)404是使用本發(fā)明的信號(hào)分析裝置的信號(hào)分析單元。實(shí)際上,使用的是具備圖6所示結(jié)構(gòu)的設(shè)備或圖6所示結(jié)構(gòu)中進(jìn)一步追加用來(lái)求取音響參數(shù)隨時(shí)間的變化量的部分的結(jié)構(gòu)。參照符號(hào)405是音響模型學(xué)習(xí)單元,根據(jù)記錄了語(yǔ)音數(shù)據(jù)庫(kù)的發(fā)聲內(nèi)容的語(yǔ)言數(shù)據(jù)庫(kù)406和上述信號(hào)分析單元404的輸出,按照每個(gè)統(tǒng)計(jì)上的各音素或各音節(jié)這樣的語(yǔ)音單位統(tǒng)計(jì)出來(lái)。模型通常使用隱含馬爾可夫模型。
      參照符號(hào)407表示由音響模型學(xué)習(xí)單元405求得的音響模型。參照符號(hào)408是另外生成的語(yǔ)言辭典。語(yǔ)言辭典408包含以音素串表示的單詞的單詞辭典、規(guī)定單詞之間的連接限制的語(yǔ)法數(shù)據(jù)。語(yǔ)言辭典408可以通過(guò)手工作業(yè)生成,也可以根據(jù)語(yǔ)言數(shù)據(jù)庫(kù)406中包含的文章,統(tǒng)計(jì)單詞之間的連接幾率求得。
      參照符號(hào)409是用來(lái)執(zhí)行與信號(hào)分析裝置404相同的信號(hào)分析的信號(hào)分析單元。參照符號(hào)410表示似然演算單元,根據(jù)上述音響模型407的各個(gè)統(tǒng)計(jì)量和由信號(hào)分析單元409求得的音響參數(shù)求取對(duì)各個(gè)時(shí)刻的輸入信號(hào)的各語(yǔ)音單位的似然性。參照符號(hào)411是對(duì)照單元,根據(jù)所求得的各語(yǔ)音單位的似然性的時(shí)間序列計(jì)算最有可能的語(yǔ)言式假設(shè)的似然性,按照似然性高的順序輸出候選。語(yǔ)音識(shí)別方法也可以不明確分離似然性演算和對(duì)照單元。
      語(yǔ)音識(shí)別通常使用通用的或信號(hào)處理用的CPU,通過(guò)數(shù)字化處理執(zhí)行。圖15是表示本發(fā)明的語(yǔ)音識(shí)別裝置或包含本發(fā)明的語(yǔ)音識(shí)別裝置的電子設(shè)備的結(jié)構(gòu)圖。
      參照符號(hào)501表示以個(gè)人電腦為代表的數(shù)字化設(shè)備中的數(shù)據(jù)或地址的路徑。各處理單元都連接到該路徑,執(zhí)行各自的處理。參照符號(hào)502表示按鈕或鍵盤、話筒等多種輸入單元。語(yǔ)音輸入并不限于從話筒輸入,有時(shí)候也通過(guò)通信線路輸入在其他設(shè)備變換為電信號(hào)后的語(yǔ)音。參照符號(hào)503表示按照來(lái)自輸入單元502的指令控制設(shè)備并對(duì)所輸入的語(yǔ)音進(jìn)行語(yǔ)音識(shí)別的CPU。參照符號(hào)504是CPU進(jìn)行處理時(shí)使用的存儲(chǔ)器、及包含語(yǔ)音識(shí)別程序的程序存儲(chǔ)器。參照符號(hào)505是顯示器或蜂鳴器、揚(yáng)聲器、燈等輸出裝置。語(yǔ)音識(shí)別后的結(jié)果有時(shí)候顯示為候選,有時(shí)候在接收到識(shí)別結(jié)果后執(zhí)行某種處理,有時(shí)候也進(jìn)一步顯示處理后的結(jié)果。當(dāng)該電子設(shè)備是移動(dòng)電話時(shí),這些處理模塊中增加了未圖示的無(wú)線通信單元。在個(gè)人電腦或移動(dòng)式信息設(shè)備等之中,則增加通信單元或外部存儲(chǔ)裝置等。
      基于由語(yǔ)音識(shí)別裝置的識(shí)別結(jié)果,選擇功能加以執(zhí)行的實(shí)例包括電視頻道切換操作、錄像裝置的播放或停止等操作、空調(diào)的溫度設(shè)定等。另外,如果是信息終端,則包括通信控制、程序的執(zhí)行控制、文字輸入等。
      包含信號(hào)分析程序或語(yǔ)音識(shí)別程序的這些裝置的控制程序借助于程序記錄介質(zhì)中存儲(chǔ)的信息處理程序來(lái)實(shí)現(xiàn)。上述實(shí)施方式的上述程序記錄介質(zhì)是由與RAM(隨機(jī)存取存儲(chǔ)器)分開(kāi)而另行設(shè)置的ROM(只讀存儲(chǔ)器)構(gòu)成的程序介質(zhì)。另外,最好是裝備在外部輔助存儲(chǔ)裝置中可被讀取的程序介質(zhì)。此外,無(wú)論在哪種情況下,從上述程序介質(zhì)讀取信息處理程序的程序讀取單元既可以具備直接訪問(wèn)上述程序介質(zhì)進(jìn)行讀取的結(jié)構(gòu),也可以具備下載到上述RAM中設(shè)置的程序存儲(chǔ)區(qū)(未圖示)后訪問(wèn)上述程序存儲(chǔ)區(qū)進(jìn)行讀取的結(jié)構(gòu)。此外,用來(lái)從上述程序介質(zhì)向RAM的上述程序存儲(chǔ)區(qū)執(zhí)行下載的下載程序預(yù)先保存在主體裝置中。
      這里,上述程序介質(zhì)與主體側(cè)可分離,是包含磁帶或卡式帶等帶式系列、軟盤、硬盤等磁盤或CD(光盤)-ROM、MO(光磁)盤、MD(迷你光盤)、DVD(數(shù)字多功能光盤)等光盤的盤式系列、IC(集成電路)卡或光卡等卡式系列、掩模ROM、EPROM(紫外線可擦除型ROM)、EEPROM(電可擦除型ROM)、閃速ROM等的半導(dǎo)體存儲(chǔ)器系列的固定地裝載了程序的介質(zhì)。
      另外,上述實(shí)施方式的語(yǔ)音識(shí)別裝置或電子設(shè)備可以具備調(diào)制解調(diào)器,與包含因特網(wǎng)的通信網(wǎng)絡(luò)連接。這種情況下,上述程序介質(zhì)也可以是利用從通信網(wǎng)絡(luò)下載等流動(dòng)式裝載程序的介質(zhì)。此外,為了從這種情況下的上述通信網(wǎng)絡(luò)下載,所需要的下載程序預(yù)先保存在主體裝置中。或者是從另外的記錄介質(zhì)中安裝。
      本次公開(kāi)的實(shí)施方式的各個(gè)方面均為示例,不應(yīng)被當(dāng)作限制性要求。本發(fā)明的范圍不是上述說(shuō)明,而是由權(quán)利要求書的范圍示出,并包含與權(quán)利要求書的范圍有均等意義以及權(quán)利要求范圍內(nèi)的所有變化。
      工業(yè)適用性使用了本發(fā)明的電子設(shè)備不容易受噪聲或電路特性失真的影響。其結(jié)果是,適用于家庭中使用的語(yǔ)音識(shí)別型遙控器、移動(dòng)電話等電子設(shè)備。
      權(quán)利要求
      1.一種信號(hào)分析裝置,具備頻帶分割單元,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取單元,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化單元,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
      2.如權(quán)利要求1所述的信號(hào)分析裝置,上述標(biāo)準(zhǔn)化單元由低截止濾波器構(gòu)成,其根據(jù)按每個(gè)上述頻帶提取的頻帶能量使直流成分衰減。
      3.如權(quán)利要求1所述的信號(hào)分析裝置,具備電平計(jì)算單元,用來(lái)根據(jù)上述提取的頻帶能量的序列計(jì)算各個(gè)頻帶的條件平均值,作為第1電平,上述標(biāo)準(zhǔn)化單元從上述按每個(gè)頻帶提取的頻帶能量中減除將同一頻帶的第1電平乘以預(yù)定系數(shù)所得的值。
      4.如權(quán)利要求3所述的信號(hào)分析裝置,上述電平計(jì)算單元除了計(jì)算上述第1電平,還從上述提取出來(lái)的頻帶能量序列中將不同于第1電平的各個(gè)頻帶的條件平均值的至少1個(gè)計(jì)算出來(lái)作為第2電平,上述標(biāo)準(zhǔn)化單元從上述按每個(gè)頻帶提取的頻帶能量中減除將同一頻帶的第1電平和第2電平分別乘以預(yù)定系數(shù)所得的值。
      5.如權(quán)利要求3所述的信號(hào)分析裝置,其進(jìn)一步具備標(biāo)準(zhǔn)化系數(shù)取得單元,用來(lái)根據(jù)上述頻帶能量的值求取1個(gè)或多個(gè)標(biāo)準(zhǔn)化系數(shù),上述標(biāo)準(zhǔn)化單元從上述按各個(gè)頻帶提取的頻帶能量中減除將同一頻帶的上述第1電平或上述第1電平和多個(gè)電平乘以上述標(biāo)準(zhǔn)化系數(shù)所得的值。
      6.如權(quán)利要求4所述的信號(hào)分析裝置,上述第1電平是不含語(yǔ)音的背景噪聲的各個(gè)頻帶的條件平均值,上述第2電平是語(yǔ)音在各個(gè)頻帶的條件平均值。
      7.一種依次進(jìn)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)處理裝置,其具備電平計(jì)算單元,用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平;標(biāo)準(zhǔn)化單元,用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值;更新系數(shù)取得單元,用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù),上述電平計(jì)算單元使用上述更新系數(shù)使第1電平接近輸入信號(hào),由此將第1電平作為輸入信號(hào)的條件平均值。
      8.如權(quán)利要求7所述的信號(hào)處理裝置,其具備標(biāo)準(zhǔn)化系數(shù)取得單元,用來(lái)基于上述第1電平與上述輸入信號(hào)的差取得標(biāo)準(zhǔn)化系數(shù),上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述第1電平乘以標(biāo)準(zhǔn)化系數(shù)后所得的值,根據(jù)輸入電平控制減除量。
      9.如權(quán)利要求7所述的信號(hào)處理裝置,上述電平計(jì)算單元基于輸入信號(hào)更新多個(gè)電平并存儲(chǔ)起來(lái),上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述多個(gè)電平分別乘以預(yù)定系數(shù)后所得的值,上述更新系數(shù)取得單元根據(jù)上述第1電平與上述輸入信號(hào)的差求取多個(gè)電平的更新系數(shù),上述電平計(jì)算單元利用上述多個(gè)電平的更新系數(shù)更新上述求得的多個(gè)電平,執(zhí)行與輸入分布相適應(yīng)的標(biāo)準(zhǔn)化。
      10.如權(quán)利要求8所述的信號(hào)處理裝置,上述電平計(jì)算單元基于輸入信號(hào)更新多個(gè)電平并存儲(chǔ)起來(lái),上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述多個(gè)電平分別乘以預(yù)定系數(shù)后所得的值,上述更新系數(shù)取得單元根據(jù)上述第1電平與上述輸入信號(hào)的差求取多個(gè)電平的更新系數(shù),上述標(biāo)準(zhǔn)化系數(shù)取得單元求取與多個(gè)電平相適應(yīng)的多個(gè)標(biāo)準(zhǔn)化系數(shù),上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將分別與上述多個(gè)電平相對(duì)應(yīng)的標(biāo)準(zhǔn)化系數(shù)乘以各個(gè)電平后所得的值,執(zhí)行與輸入電平相適應(yīng)的標(biāo)準(zhǔn)化。
      11.如權(quán)利要求3所述的信號(hào)分析裝置,各個(gè)頻帶的電平計(jì)算單元和標(biāo)準(zhǔn)化單元包含依次進(jìn)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)處理裝置,上述信號(hào)處理裝置具備基于輸入信號(hào)更新并存儲(chǔ)第1電平的單元;從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值的單元;更新系數(shù)取得單元,用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù),上述電平計(jì)算單元使用上述更新系數(shù)使上述第1電平接近輸入信號(hào),由此將上述第1電平作為輸入信號(hào)的條件平均值。
      12.如權(quán)利要求11所述的信號(hào)分析裝置,在屬于低頻的頻帶和屬于高頻的頻帶中,上述預(yù)定系數(shù)設(shè)定為不同的值。
      13.如權(quán)利要求1所述的信號(hào)分析裝置,將從各個(gè)時(shí)刻的輸入信號(hào)中獲取的各個(gè)頻帶的頻帶能量作為對(duì)數(shù)能量處理。
      14.一種語(yǔ)音識(shí)別裝置,其具備如權(quán)利要求1所述的信號(hào)分析裝置;參數(shù)變換單元,用來(lái)根據(jù)按照從信號(hào)分析裝置取得的每個(gè)頻帶進(jìn)行標(biāo)準(zhǔn)化后的頻帶能量求取音響參數(shù);語(yǔ)音識(shí)別部,使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。
      15.如權(quán)利要求14所述的語(yǔ)音識(shí)別裝置,在MFCC(Mel Frequency Cepstrum Coefficient美爾頻率倒譜系數(shù))參數(shù)的提取過(guò)程中執(zhí)行各個(gè)頻帶能量的標(biāo)準(zhǔn)化。
      16.一種用來(lái)在計(jì)算機(jī)中執(zhí)行的信號(hào)分析程序,其具備頻帶分割步驟,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取步驟,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化步驟,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
      17.一種使計(jì)算機(jī)依次執(zhí)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)分析程序,其具備電平計(jì)算步驟,用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平;標(biāo)準(zhǔn)化步驟,用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值;更新系數(shù)取得步驟,用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù),上述電平計(jì)算單元步驟,使用上述更新系數(shù)使第1電平接近輸入信號(hào),由此將第1電平作為輸入信號(hào)的條件平均值。
      18.一種用來(lái)在計(jì)算機(jī)中執(zhí)行的語(yǔ)音識(shí)別程序,其具備頻帶分割步驟,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取步驟,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化步驟,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量;參數(shù)變換步驟,用來(lái)根據(jù)按每個(gè)頻帶標(biāo)準(zhǔn)化的頻帶能量求取音響參數(shù);語(yǔ)音識(shí)別步驟,用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。
      19.一種記錄了用于在計(jì)算機(jī)中執(zhí)行的信號(hào)分析程序的記錄介質(zhì),上述信號(hào)分析程序具備頻帶分割步驟,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取步驟,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化步驟,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
      20.一種記錄了用于在計(jì)算機(jī)中依次執(zhí)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)分析程序的計(jì)算機(jī)可讀取的記錄介質(zhì),上述信號(hào)分析程序具備電平計(jì)算步驟,用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平;標(biāo)準(zhǔn)化步驟,用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值;更新系數(shù)取得步驟,用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù),上述電平計(jì)算單元步驟使用上述更新系數(shù)使第1電平接近輸入信號(hào),由此將第1電平作為輸入信號(hào)的條件平均值。
      21.一種記錄了用于在計(jì)算機(jī)中執(zhí)行語(yǔ)音識(shí)別的語(yǔ)音識(shí)別程序的計(jì)算機(jī)可讀取的記錄介質(zhì),上述語(yǔ)音識(shí)別程序具備頻帶分割步驟,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取步驟,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化步驟,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量;參數(shù)變換步驟,用來(lái)根據(jù)按每個(gè)頻帶標(biāo)準(zhǔn)化的頻帶能量求取音響參數(shù);語(yǔ)音識(shí)別步驟,用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。
      22.一種具備語(yǔ)音識(shí)別裝置的電子設(shè)備,上述語(yǔ)音識(shí)別裝置具備信號(hào)分析裝置;參數(shù)變換單元,用來(lái)根據(jù)從上述信號(hào)分析裝置取得的、按照每個(gè)頻帶進(jìn)行標(biāo)準(zhǔn)化后的頻帶能量,求取音響參數(shù);語(yǔ)音識(shí)別部,用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音,上述信號(hào)分析裝置具備頻帶分割單元,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取單元,用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化單元,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量,基于上述語(yǔ)音識(shí)別裝置對(duì)輸入信號(hào)中包含的語(yǔ)音信號(hào)進(jìn)行識(shí)別的結(jié)果選擇功能加以執(zhí)行。
      全文摘要
      信號(hào)分析裝置具備頻帶分割單元,用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào);頻帶能量提取單元,用來(lái)針對(duì)被分割成各個(gè)頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量;標(biāo)準(zhǔn)化單元,用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化提取出來(lái)的頻帶能量,求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。利用這種結(jié)構(gòu),即使在高噪音環(huán)境中也能夠獲得穩(wěn)定的語(yǔ)音識(shí)別精度。另外,在輸入了完全沒(méi)有噪聲區(qū)間的語(yǔ)音的情況下或者在發(fā)聲過(guò)程中噪聲電平逐漸變化的情況下也能夠獲得穩(wěn)定的語(yǔ)音識(shí)別精度。
      文檔編號(hào)G10L21/00GK1839427SQ20048002416
      公開(kāi)日2006年9月27日 申請(qǐng)日期2004年7月29日 優(yōu)先權(quán)日2003年8月22日
      發(fā)明者赤羽俊夫 申請(qǐng)人:夏普株式會(huì)社
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1