信號(hào)分析裝置、信號(hào)處理裝置、語(yǔ)音識(shí)別裝置、信號(hào)分析程序、信號(hào)處理程序、語(yǔ)音識(shí)別程...的制作方法

文檔序號(hào)：2834621閱讀：250來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：信號(hào)分析裝置、信號(hào)處理裝置、語(yǔ)音識(shí)別裝置、信號(hào)分析程序、信號(hào)處理程序、語(yǔ)音識(shí)別程 ...的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及對(duì)輸入的語(yǔ)音？音響信號(hào)進(jìn)行分析的信號(hào)分析裝置、信號(hào)處理裝置和使用信號(hào)分析裝置的語(yǔ)音識(shí)別裝置。本發(fā)明還涉及在計(jì)算機(jī)中執(zhí)行此類處理的信號(hào)分析程序、信號(hào)處理程序和語(yǔ)音識(shí)別程序。本發(fā)明還涉及記錄了此類計(jì)算機(jī)程序的記錄介質(zhì)。本發(fā)明還涉及搭載了此類信號(hào)分析裝置的電子設(shè)備。
背景技術(shù)：
語(yǔ)音識(shí)別所使用的信號(hào)分析方法從信號(hào)輸入中將數(shù)十毫秒左右的區(qū)間以幾毫秒至數(shù)十毫秒左右的間隔錯(cuò)開(kāi)提取信號(hào)作為分析幀，根據(jù)各分析幀中輸入信號(hào)的波形計(jì)算音響參數(shù)，作為音響參數(shù)的時(shí)間序列。
在對(duì)特定說(shuō)話者的語(yǔ)音識(shí)別中，將所取得的時(shí)間序列的音響參數(shù)與預(yù)先登錄的音響參數(shù)的時(shí)間序列模式(標(biāo)準(zhǔn)模式)進(jìn)行對(duì)照，將與輸入最相似的標(biāo)準(zhǔn)模式作為識(shí)別結(jié)果。
在對(duì)不確定的說(shuō)話者的語(yǔ)音識(shí)別中，預(yù)先根據(jù)大量的數(shù)據(jù)計(jì)算音響參數(shù)，求取按每個(gè)語(yǔ)音單位計(jì)算出來(lái)的音響參數(shù)的統(tǒng)計(jì)量，作成概率音響模型。同時(shí)，將每個(gè)語(yǔ)音單位的該概率音響模型連接起來(lái)，作成詞語(yǔ)模型或文章模型。對(duì)于根據(jù)輸入信號(hào)分析出來(lái)的音響參數(shù)，針對(duì)上述詞語(yǔ)模型或文章模型計(jì)算并比較其概率似然，將概率似然最高的詞語(yǔ)模型或文章模型作為識(shí)別結(jié)果。這里所說(shuō)的語(yǔ)音單位使用例如音素、音節(jié)、或單詞等單位。
依照此種方式為進(jìn)行語(yǔ)音識(shí)別而求取音響參數(shù)的信號(hào)分析技術(shù)是決定識(shí)別性能的重要技術(shù)。因此，必須使用不易受噪音或電路的電路特性等失真的影響的信號(hào)分析技術(shù)。非專利文獻(xiàn)1中出示了作為這樣的信號(hào)分析技術(shù)而使用的、將頻帶能量變換為倒譜系數(shù)的MFCC(MelFrequency Cepstrum Coefficient美爾頻率倒譜系數(shù))。
圖1是表示求取MFCC所需步驟的流程圖。下面使用圖1說(shuō)明MFCC的分析方法。在MFCC中，首先按每個(gè)分析幀向信號(hào)分析器輸入語(yǔ)音波形(步驟S101)，施加海明窗(Hamming window)函數(shù)運(yùn)算，以使在幀分隔區(qū)間的兩端不產(chǎn)生急劇變化(步驟S102)。接著，使用FFT(FastFourier Transform快速傅立葉變換)求取各幀的線性頻率數(shù)軸上的能量(步驟S103)。該線性頻率數(shù)軸上的能量按me1頻率數(shù)軸上等分出來(lái)的每個(gè)頻帶匯總起來(lái)，變換為頻帶能量(步驟S104)。變換出來(lái)的頻帶能量按每個(gè)頻帶進(jìn)行對(duì)數(shù)變換(步驟S105)。接著，通過(guò)對(duì)各頻帶的冪進(jìn)行余弦變換，求得MFCC(步驟S106)。所求得的MFCC從信號(hào)分析器輸出(步驟S107)。依照此種方式在美爾頻率數(shù)軸上等分求得的倒譜系數(shù)稱為美爾頻率倒譜系數(shù)(MFCC)。美爾頻率是以人的聽(tīng)覺(jué)特性為基準(zhǔn)的頻率單位，低頻下的分辯能力比高頻下的分辯能力細(xì)微。因此，已知如果在次數(shù)相同的倒譜的情況下，與使用了線性頻率數(shù)軸的情況相比，MFCC的語(yǔ)音識(shí)別性能更優(yōu)越。
此外，在本說(shuō)明書中，有時(shí)候?qū)⒉襟ES101～步驟S105稱為頻率分析步驟(步驟S201)，將步驟S106至步驟S107稱為參數(shù)變換步驟(步驟S202)。
但是，實(shí)際的語(yǔ)音識(shí)別是在有家庭、辦公室、汽車、室外等背景噪音、或者設(shè)備自身產(chǎn)生的冷卻風(fēng)扇等噪音、以電磁形式混入到波形中的加法式噪音等加法性噪音的情況下進(jìn)行的。進(jìn)一步，還存在由話筒或語(yǔ)音傳遞電路等的傳遞特性、說(shuō)話者面對(duì)話筒時(shí)的距離和角度不同而造成的音響特性的變化等積性失真。MFCC容易受到這些噪音或失真的影響。因此，在使用了MFCC的語(yǔ)音識(shí)別中，如果在噪音很大的環(huán)境下使用，或者采用電路特性的失真很大的使用方法時(shí)，存在著識(shí)別性能大幅度下降的問(wèn)題。為了降低這些噪音或失真的影響，使用下面描述的信號(hào)分析方法。
非專利文獻(xiàn)2中，公開(kāi)了譜減法(SSspectral subtraction差譜)，用以減少加法性噪音的影響。這一方法是對(duì)輸入語(yǔ)音信號(hào)進(jìn)行頻率分析后求取輸入的振幅頻譜或冪(2乘方)頻譜，在噪聲區(qū)間內(nèi)對(duì)推斷出來(lái)的推斷噪音頻譜乘以預(yù)定的系數(shù)α，從輸入頻譜中減去乘以該頻譜減法系數(shù)α之后的推斷噪音頻譜，由此抑制噪聲成分的方法。該方法中，為了提高語(yǔ)音品質(zhì)，需要分割成多個(gè)頻帶進(jìn)行處理。
另外，專利文獻(xiàn)1中公開(kāi)了一種對(duì)該SS法加以改進(jìn)、減少頻帶分割而能抑制噪聲成分的方法。
非專利文獻(xiàn)1中公開(kāi)了CMS法(Cepstrum Mean Subtraction倒譜均值減除)，用以降低積性失真的影響。該方法也稱為CMN法(Cepstrum Mean Normalization倒譜均值歸一化)。該方法基于以下假定積性失真可通過(guò)所發(fā)出的語(yǔ)音的倒譜的長(zhǎng)時(shí)間平均獲得。具體地，從倒譜系數(shù)中減去輸入語(yǔ)音的倒譜系數(shù)的平均值，能夠降低電路或話筒等基于音響系特性的失真的影響。這與減去倒譜的余弦變換——對(duì)數(shù)頻譜的失真是等價(jià)的。
但是，在實(shí)際的輸入語(yǔ)音中，語(yǔ)音的聲源位置與噪音的聲源位置不同。由于語(yǔ)音區(qū)間與噪聲區(qū)間中應(yīng)該標(biāo)準(zhǔn)化的電路特性不同，將語(yǔ)音區(qū)間的平均倒譜應(yīng)用于噪聲區(qū)間的話，會(huì)有導(dǎo)致噪聲區(qū)間的倒譜不穩(wěn)定，給識(shí)別性能帶來(lái)不良影響的問(wèn)題。因此，正在研究可以應(yīng)用于噪聲區(qū)間的CMS法的改進(jìn)方法。
非專利文獻(xiàn)3和專利文獻(xiàn)2中提出了作為CMS法的改進(jìn)方法的E-CMN法。E-CMN法分別求取語(yǔ)音區(qū)間的倒譜平均和非語(yǔ)音區(qū)間的倒譜平均，在語(yǔ)音區(qū)間和非語(yǔ)音區(qū)間分別進(jìn)行標(biāo)準(zhǔn)化處理。使用這一方法，能夠降低識(shí)別錯(cuò)誤率。
上述SS法、其簡(jiǎn)化手法、E-CMN法中的每一個(gè)方法都需要語(yǔ)音檢測(cè)，以便區(qū)分語(yǔ)音區(qū)間和非語(yǔ)音區(qū)間。在移動(dòng)電話中使用的語(yǔ)音通信標(biāo)準(zhǔn)等中公開(kāi)了語(yǔ)音檢測(cè)技術(shù)的標(biāo)準(zhǔn)方法。語(yǔ)音檢測(cè)一般是基于輸入信號(hào)在短時(shí)間內(nèi)的能量變化、頻譜形狀的變化等將輸入信號(hào)從時(shí)間上分割為語(yǔ)音區(qū)間和噪聲區(qū)間來(lái)完成的。
專利文獻(xiàn)1特開(kāi)2001-228893號(hào)公報(bào)專利文獻(xiàn)2特開(kāi)平10-254494號(hào)公報(bào)非專利文獻(xiàn)1鹿野清宏等編著，《語(yǔ)音識(shí)別系統(tǒng)》第1版，株式會(huì)社歐姆社(Ohmsha，Ltd.)，平成13年5月15日，p.13-15非專利文獻(xiàn)2S.Boll，《Suppression of acousticnoise inspeech using spectral subtraction》，IEEE Trans.ASSP，1979，vol.ASSP-27，no.2，pp.113-120非專利文獻(xiàn)3莊境誠(chéng)，另2人，《倒譜均值標(biāo)準(zhǔn)化法和基于HMM合成法的模型適應(yīng)化法E-CMN/PMC和在汽車內(nèi)語(yǔ)音識(shí)別中的應(yīng)用》，電子信息通信學(xué)會(huì)論文雜志，社團(tuán)法人電子信息通信學(xué)會(huì)，1997，第J80-D-II卷，第10號(hào)，p.2636-2644發(fā)明內(nèi)容但是，上述信號(hào)分析方法及這些分析方法中使用的語(yǔ)音識(shí)別方法中，存在以下問(wèn)題。
由于SS法是在語(yǔ)音區(qū)間中減去噪聲區(qū)間的頻譜，因此在推斷噪聲少的環(huán)境中的輸入語(yǔ)音時(shí)效果優(yōu)異。但是，在噪聲區(qū)間中，雖然噪聲的功率變小，但噪聲的頻譜形狀本身沒(méi)有變化。在基于當(dāng)前主流統(tǒng)計(jì)進(jìn)行語(yǔ)音識(shí)別時(shí)，如果輸入了與預(yù)先統(tǒng)計(jì)式習(xí)得的噪聲不同的頻譜形狀的噪聲，噪聲區(qū)間的對(duì)照精度就會(huì)下降。因此，由于錯(cuò)誤地將噪聲區(qū)間與語(yǔ)音區(qū)間進(jìn)行了對(duì)照，整體上難以獲得高的識(shí)別精度。為了防止這種識(shí)別精度的下降，需要有某種適應(yīng)式頻譜校正。該方法之一是像E-CMN法那樣對(duì)噪聲頻譜進(jìn)行標(biāo)準(zhǔn)化的方法。但是，E-CMN法存在以下問(wèn)題。
如上所述，E-CMN法中，由于在語(yǔ)音區(qū)間和噪聲區(qū)間中獨(dú)立地求取倒譜平均，能夠更準(zhǔn)確地將電路特性標(biāo)準(zhǔn)化。特別是，借助于該方法，能夠?qū)⒃肼晠^(qū)間的頻譜形狀平坦化，因此，能夠改善SS法所不能解決的噪聲區(qū)間的對(duì)照精度。
但是，語(yǔ)音區(qū)間與噪聲區(qū)間的判斷依賴于語(yǔ)音區(qū)間的檢測(cè)精度。因此，在高噪音環(huán)境中，語(yǔ)音區(qū)間的分割精度下降，根據(jù)錯(cuò)誤的倒譜平均值進(jìn)行標(biāo)準(zhǔn)化，由此，存在有給識(shí)別精度帶來(lái)不良影響的問(wèn)題。下面敘述語(yǔ)音檢測(cè)的問(wèn)題點(diǎn)。
SS法或E-CMN法中，噪聲頻譜的推斷是在檢測(cè)語(yǔ)音區(qū)間時(shí)針對(duì)判定為噪聲區(qū)間的區(qū)間進(jìn)行的。但是，在實(shí)際使用信號(hào)分析裝置的環(huán)境中，在裝置開(kāi)始動(dòng)作之后立即發(fā)出語(yǔ)音的情況下，無(wú)法獲得推斷噪聲頻譜所需的充分的噪聲區(qū)間長(zhǎng)度。因此，存在著無(wú)法進(jìn)行噪聲適應(yīng)，或者適應(yīng)了錯(cuò)誤的噪聲的問(wèn)題。
在安靜的環(huán)境中，能夠容易地將語(yǔ)音區(qū)間與噪音區(qū)間分離。因此，如果利用語(yǔ)音功率的時(shí)間變化，則發(fā)聲區(qū)間的檢測(cè)比較容易。但是，在高雜音環(huán)境中，在低SN比的情況下，語(yǔ)音區(qū)間的起點(diǎn)或終點(diǎn)的精度下降，因而即使在發(fā)聲區(qū)間內(nèi)，除了語(yǔ)音功率較大的一部分區(qū)間外，語(yǔ)音的大部分都被噪聲淹沒(méi)。因此，語(yǔ)音區(qū)間與非語(yǔ)音區(qū)間的差別變得模糊，語(yǔ)音區(qū)間的檢測(cè)變得困難。
對(duì)這種低SN比語(yǔ)音的發(fā)聲區(qū)間進(jìn)行頻率分析，觀察對(duì)數(shù)變換后的頻譜，在語(yǔ)音功率占優(yōu)勢(shì)的頻帶中，表現(xiàn)為語(yǔ)音頻譜。另一方面，在其他的噪聲功率占優(yōu)勢(shì)的頻帶中，表現(xiàn)為噪聲頻譜。即，即使在語(yǔ)音的發(fā)聲區(qū)間中，因頻帶不同有時(shí)候也會(huì)表現(xiàn)為噪聲。因此，按照現(xiàn)有的方法，將全部頻帶統(tǒng)一進(jìn)行語(yǔ)音區(qū)間與噪聲區(qū)間分離的方法中，難以正確地求取受到電路失真影響的語(yǔ)音的頻譜平均。反之，在不能檢測(cè)語(yǔ)音區(qū)間的情況下，原來(lái)的語(yǔ)音區(qū)間也被當(dāng)作噪聲區(qū)間處理。因此，甚至也無(wú)法正確地求取噪聲的頻譜平均。
因此，本發(fā)明的目的在于提供即使在高噪音環(huán)境中也具備高語(yǔ)音識(shí)別精度的信號(hào)分析裝置和信號(hào)處理裝置。
另外，本發(fā)明的另一目的在于提供在輸入了完全沒(méi)有噪聲區(qū)間的語(yǔ)音的情況下或者在發(fā)聲過(guò)程中噪聲電平逐漸變化的情況下也能夠獲得穩(wěn)定的語(yǔ)音識(shí)別精度的信號(hào)分析裝置和信號(hào)處理裝置。
本發(fā)明的再一個(gè)目的在于提供不容易受噪聲和音響特性失真影響的語(yǔ)音識(shí)別裝置。
本發(fā)明的再一個(gè)目的在于提供作出了改進(jìn)從而提高了在低SN比的情況下的語(yǔ)音識(shí)別精度的語(yǔ)音識(shí)別裝置。
本發(fā)明的再一個(gè)目的在于提供搭載了這種語(yǔ)音識(shí)別裝置的電子設(shè)備。
本發(fā)明的再一個(gè)目的在于提供作出了改進(jìn)從而能夠進(jìn)行不容易受噪聲和音響特性失真影響的語(yǔ)音識(shí)別的信號(hào)分析程序、信號(hào)處理程序和語(yǔ)音識(shí)別程序。
本發(fā)明的再一個(gè)目的在于提供作出了改進(jìn)從而提高了在低SN比的情況下的語(yǔ)音識(shí)別精度的信號(hào)分析程序、信號(hào)處理程序和語(yǔ)音識(shí)別程序。
本發(fā)明的再一個(gè)目的在于提供記錄了這種程序的記錄介質(zhì)。
為了解決上述課題，本發(fā)明的信號(hào)分析裝置具備頻帶分割單元，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取單元，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化單元，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
利用這種結(jié)構(gòu)，所提取的頻帶能量按每個(gè)頻帶標(biāo)準(zhǔn)化。其結(jié)果是，即使不能明確地檢測(cè)語(yǔ)音區(qū)間也能夠進(jìn)行信號(hào)分析，因此，能夠避免語(yǔ)音區(qū)間的檢測(cè)錯(cuò)誤。另外，能夠避免在噪聲區(qū)間短的情況下產(chǎn)生的無(wú)法進(jìn)行噪聲適應(yīng)的問(wèn)題，或者適應(yīng)了錯(cuò)誤的噪聲的問(wèn)題。
這里所說(shuō)的標(biāo)準(zhǔn)化是指，減少由于噪聲種類或大小、電路特性、話筒的輸入靈敏度等環(huán)境因素而產(chǎn)生的輸入信號(hào)的能量分布的移動(dòng)量。具體地，標(biāo)準(zhǔn)化是通過(guò)減除信號(hào)的能量分布的平均值從而使直流成分衰減的方法、減除環(huán)境噪聲值的方法等進(jìn)行的。另外，在本說(shuō)明書中，標(biāo)準(zhǔn)化也包括對(duì)輸入電平的能量分布較寬一方進(jìn)行控制。
本發(fā)明的信號(hào)分析裝置中，上述標(biāo)準(zhǔn)化單元最好由低截止濾波器構(gòu)成，其根據(jù)按每個(gè)上述頻帶提取的頻帶能量使直流成分衰減。利用這種結(jié)構(gòu)，包含輸入信號(hào)的直流成分使低頻成分衰減，因此，能夠以最簡(jiǎn)單的結(jié)構(gòu)進(jìn)行標(biāo)準(zhǔn)化。
另外，最好是，本發(fā)明的信號(hào)分析裝置具備電平計(jì)算單元，用來(lái)根據(jù)上述提取的頻帶能量的序列計(jì)算各個(gè)頻帶的條件平均值，作為第1電平，上述標(biāo)準(zhǔn)化單元從上述按每個(gè)頻帶提取的頻帶能量中減除將同一頻帶的第1電平乘以預(yù)定系數(shù)所得的值。
利用這種結(jié)構(gòu)，使用計(jì)算出來(lái)的第1電平將輸入信號(hào)的相應(yīng)頻帶能量進(jìn)行標(biāo)準(zhǔn)化。即，能夠按每個(gè)頻帶進(jìn)行更準(zhǔn)確的標(biāo)準(zhǔn)化。
此外，頻帶能量的平均值不限于信號(hào)電平和噪聲電平這2者，根據(jù)信號(hào)分析裝置的使用環(huán)境和用途，可以分類為噪聲A的電平與噪聲B的電平、或者特定信號(hào)X的電平與特定信號(hào)Y的電平等2個(gè)或3個(gè)以上的電平。本說(shuō)明書中，將這些多個(gè)電平中成為基準(zhǔn)的電平稱為第1電平，其他電平稱為第2電平、第3電平等。此外，本說(shuō)明書中，主要使用噪聲電平作為第1電平，用語(yǔ)音電平作為第2電平。
噪聲電平表示輸入頻帶能量中被認(rèn)為表現(xiàn)為噪聲的相對(duì)低的能量所分布的集合的平均，語(yǔ)音電平表示同樣被認(rèn)為表現(xiàn)為語(yǔ)音的相對(duì)高的能量所分布的集合的平均。本說(shuō)明書中，有時(shí)候?qū)㈩愃七@些噪聲電平或語(yǔ)音電平這樣按照能量高低條件分割出來(lái)的能量的平均稱為“條件平均”。
在本發(fā)明的信號(hào)分析裝置中，在采用噪聲和語(yǔ)音這類條件的情況下，在能量分布中，對(duì)能量相對(duì)低的集合和高的集合不是進(jìn)行離散式區(qū)分，而最好是連續(xù)處理中間輸入范圍。即，最好是不檢測(cè)語(yǔ)音區(qū)間，而是按每個(gè)幀根據(jù)其頻帶能量大小以連續(xù)值判斷是語(yǔ)音還是噪聲。
另外，最好是，在上述信號(hào)分析裝置中，上述電平計(jì)算單元除了計(jì)算上述第1電平，還從上述提取出來(lái)的頻帶能量序列中將不同于第1電平的各個(gè)頻帶的條件平均值的至少1個(gè)計(jì)算出來(lái)作為第2電平，上述標(biāo)準(zhǔn)化單元從上述按每個(gè)頻帶提取的頻帶能量中減除將同一頻帶的第1電平和第2電平分別乘以預(yù)定系數(shù)所得的值。
利用這種結(jié)構(gòu)，使用計(jì)算出來(lái)的第1電平和第2電平將頻帶能量標(biāo)準(zhǔn)化，使用計(jì)算出來(lái)的語(yǔ)音電平?jīng)Q定從頻帶能量中的減除量，因此，有可能實(shí)現(xiàn)更準(zhǔn)確的標(biāo)準(zhǔn)化。此外，不同于第1電平的各個(gè)頻帶的條件平均值不限于1個(gè)，也可以有多個(gè)。
最好是，上述信號(hào)分析裝置進(jìn)一步標(biāo)準(zhǔn)化系數(shù)取得單元，用來(lái)根據(jù)上述頻帶能量的值求取1個(gè)或多個(gè)標(biāo)準(zhǔn)化系數(shù)，上述標(biāo)準(zhǔn)化單元從上述按各個(gè)頻帶提取的頻帶能量中減除將同一頻帶的上述第1電平或上述第1電平和多個(gè)電平乘以上述標(biāo)準(zhǔn)化系數(shù)所得的值。
利用這種結(jié)構(gòu)，能夠求取與1個(gè)或多個(gè)頻帶各自的條件平均值相對(duì)應(yīng)的、與頻帶能量值相應(yīng)的1個(gè)或多個(gè)標(biāo)準(zhǔn)化系數(shù)。其結(jié)果是，能夠反映1個(gè)或多個(gè)條件平均值，調(diào)整減除量，因此，有可能實(shí)現(xiàn)更準(zhǔn)確的標(biāo)準(zhǔn)化。
本發(fā)明的信號(hào)處理裝置是一種依次進(jìn)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)處理裝置，其具備電平計(jì)算單元，用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平；標(biāo)準(zhǔn)化單元，用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值；更新系數(shù)取得單元，用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù)。上述電平計(jì)算單元使用上述更新系數(shù)使第1電平接近輸入信號(hào)，由此將第1電平作為輸入信號(hào)的條件平均值。
利用這種結(jié)構(gòu)，對(duì)于例如特定頻帶的輸入信號(hào)等一元輸入信號(hào)也可以在標(biāo)準(zhǔn)化后進(jìn)行信號(hào)處理。即，根據(jù)輸入能量的高低等檢測(cè)出輸入能量的能量分布寬度，求取更新系數(shù)，使第1電平接近輸入信號(hào)，由此能夠抑制輸入信號(hào)的能量分布隨環(huán)境不同而產(chǎn)生的波動(dòng)。
最好是，上述信號(hào)處理裝置具備標(biāo)準(zhǔn)化系數(shù)取得單元，用來(lái)基于上述第1電平與上述輸入信號(hào)的差取得標(biāo)準(zhǔn)化系數(shù)。上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述第1電平乘以標(biāo)準(zhǔn)化系數(shù)后所得的值，根據(jù)輸入電平控制減除量。
另外，最好是在上述信號(hào)處理裝置中由上述電平計(jì)算單元根據(jù)輸入信號(hào)更新并存儲(chǔ)多個(gè)電平。上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述多個(gè)電平分別乘以預(yù)定系數(shù)后所得的值。上述更新系數(shù)取得單元根據(jù)上述第1電平與上述輸入信號(hào)的差求取多個(gè)電平的更新系數(shù)。上述電平計(jì)算單元利用上述多個(gè)電平的更新系數(shù)更新上述求得的多個(gè)電平，執(zhí)行與輸入分布相適應(yīng)的標(biāo)準(zhǔn)化。
進(jìn)一步，最好是在上述信號(hào)處理裝置中由上述電平計(jì)算單元根據(jù)輸入信號(hào)更新并存儲(chǔ)多個(gè)電平。上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述多個(gè)電平分別乘以預(yù)定系數(shù)后所得的值。上述更新系數(shù)取得單元根據(jù)上述第1電平與上述輸入信號(hào)的差求取多個(gè)電平的更新系數(shù)。上述標(biāo)準(zhǔn)化系數(shù)取得單元求取與多個(gè)電平相適應(yīng)的多個(gè)標(biāo)準(zhǔn)化系數(shù)。上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將分別與上述多個(gè)電平相對(duì)應(yīng)的標(biāo)準(zhǔn)化系數(shù)乘以各個(gè)電平后所得的值，執(zhí)行與輸入電平相適應(yīng)的標(biāo)準(zhǔn)化。
在上述信號(hào)分析裝置中，各頻帶的電平計(jì)算單元和標(biāo)準(zhǔn)化單元也可以采用使用上述信號(hào)分析裝置的結(jié)構(gòu)。即，可以使用本發(fā)明的信號(hào)處理裝置作為各頻帶的信號(hào)處理單元。
上述信號(hào)分析裝置最好是在屬于低頻的頻帶和屬于高頻的頻帶中將預(yù)定系數(shù)設(shè)定為不同的值進(jìn)行處理。利用這種結(jié)構(gòu)，像噪聲區(qū)域和語(yǔ)音區(qū)域這樣信號(hào)的能量分布隨頻率而不同的情況下，能夠正確地標(biāo)準(zhǔn)化。
上述信號(hào)分析裝置最好是將從各個(gè)時(shí)刻的輸入信號(hào)中獲取的各個(gè)頻帶的頻帶能量作為對(duì)數(shù)能量進(jìn)行處理。如果以對(duì)數(shù)進(jìn)行標(biāo)準(zhǔn)化，就能夠去除電路特性導(dǎo)致的失真的影響。
本發(fā)明的語(yǔ)音識(shí)別裝置具備上述信號(hào)分析裝置；參數(shù)變換單元，用來(lái)根據(jù)按照從信號(hào)分析裝置取得的每個(gè)頻帶進(jìn)行標(biāo)準(zhǔn)化后的頻帶能量求取音響參數(shù)；語(yǔ)音識(shí)別部，使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。使用本發(fā)明的信號(hào)分析裝置，能夠獲取不易受噪聲或電路特性失真影響的音響參數(shù)，因此，將其用于語(yǔ)音識(shí)別裝置時(shí)，能夠提高語(yǔ)音識(shí)別精度。
上述語(yǔ)音識(shí)別裝置最好是在MFCC(Mel Frequency CepstrumCoefficient美爾頻率倒譜系數(shù))參數(shù)的提取過(guò)程中執(zhí)行各個(gè)頻帶能量的標(biāo)準(zhǔn)化。利用這種結(jié)構(gòu)，執(zhí)行從被標(biāo)準(zhǔn)化后的頻帶能量向倒譜參數(shù)的線性變換，由此即可求得標(biāo)準(zhǔn)化后的倒譜系數(shù)。
遵循本發(fā)明的另外一個(gè)方面的用于在計(jì)算機(jī)中執(zhí)行的信號(hào)分析程序具備頻帶分割步驟，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取步驟，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化步驟，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
遵循本發(fā)明的另外一個(gè)方面的用于在計(jì)算機(jī)中依次執(zhí)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)分析程序具備電平計(jì)算步驟，用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平；標(biāo)準(zhǔn)化步驟，用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值；更新系數(shù)取得步驟，用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù)。上述電平計(jì)算單元步驟，使用上述更新系數(shù)使第1電平接近輸入信號(hào)，由此將第1電平作為輸入信號(hào)的條件平均值。
遵循本發(fā)明的另外一個(gè)方面的用于在計(jì)算機(jī)中執(zhí)行語(yǔ)音識(shí)別的語(yǔ)音識(shí)別程序具備頻帶分割步驟，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取步驟，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化步驟，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量；參數(shù)變換步驟，用來(lái)根據(jù)按每個(gè)頻帶標(biāo)準(zhǔn)化的頻帶能量求取音響參數(shù)；語(yǔ)音識(shí)別步驟，用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。
遵循本發(fā)明的另外一個(gè)方面的發(fā)明，涉及記錄了用于在計(jì)算機(jī)中執(zhí)行的信號(hào)分析程序的記錄介質(zhì)。上述信號(hào)分析程序具備頻帶分割步驟，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取步驟，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化步驟，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
遵循本發(fā)明的另外一個(gè)方面的發(fā)明，涉及記錄了用于在計(jì)算機(jī)中依次執(zhí)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)分析程序的計(jì)算機(jī)可讀取的記錄介質(zhì)。上述信號(hào)分析程序具備電平計(jì)算步驟，用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平；標(biāo)準(zhǔn)化步驟，用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值；更新系數(shù)取得步驟，用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù)。上述電平計(jì)算單元步驟使用上述更新系數(shù)使第1電平接近輸入信號(hào)，由此將第1電平作為輸入信號(hào)的條件平均值。
遵循本發(fā)明的另外一個(gè)方面的發(fā)明，涉及記錄了用于在計(jì)算機(jī)中執(zhí)行語(yǔ)音識(shí)別的語(yǔ)音識(shí)別程序的計(jì)算機(jī)可讀取的記錄介質(zhì)。上述語(yǔ)音識(shí)別程序具備頻帶分割步驟，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取步驟，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化步驟，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量；參數(shù)變換步驟，用來(lái)根據(jù)按每個(gè)頻帶標(biāo)準(zhǔn)化的頻帶能量求取音響參數(shù)；語(yǔ)音識(shí)別步驟，用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。
遵循本發(fā)明的另外一個(gè)方面的發(fā)明，涉及具備語(yǔ)音識(shí)別裝置的電子設(shè)備。上述語(yǔ)音識(shí)別裝置具備信號(hào)分析裝置；參數(shù)變換單元，用來(lái)根據(jù)從上述信號(hào)分析裝置取得的、按照每個(gè)頻帶進(jìn)行標(biāo)準(zhǔn)化后的頻帶能量，求取音響參數(shù)；語(yǔ)音識(shí)別部，用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音，上述信號(hào)分析裝置具備頻帶分割單元，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取單元，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化單元，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。基于上述語(yǔ)音識(shí)別裝置對(duì)輸入信號(hào)中包含的語(yǔ)音信號(hào)進(jìn)行識(shí)別的結(jié)果選擇功能加以執(zhí)行。
本發(fā)明的電子設(shè)備不容易受噪聲或電路特性失真的影響。其結(jié)果是，適合用于家庭中使用的語(yǔ)音識(shí)別型遙控器、移動(dòng)電話等電子設(shè)備。
本發(fā)明的信號(hào)分析裝置具有以下效果。
(1)本發(fā)明中，不檢測(cè)全部頻帶內(nèi)的語(yǔ)音區(qū)間，使用按各個(gè)頻帶所獲取的各個(gè)時(shí)刻的輸入信號(hào)的頻帶能量，按每個(gè)頻帶各別計(jì)算條件頻帶能量的電平，將各個(gè)頻帶能量標(biāo)準(zhǔn)化。即，即使在語(yǔ)音的發(fā)聲區(qū)間內(nèi)，對(duì)于噪聲能量占優(yōu)勢(shì)的頻帶也作為噪聲區(qū)間進(jìn)行處理，只將語(yǔ)音能量占優(yōu)勢(shì)的頻帶作為語(yǔ)音區(qū)間處理。其結(jié)果是，能夠更準(zhǔn)確地標(biāo)準(zhǔn)化輸入信號(hào)的電路特性。
在本發(fā)明的信號(hào)分析裝置中，當(dāng)語(yǔ)音與噪聲混合存在的情況下，有時(shí)候會(huì)出現(xiàn)各個(gè)頻帶的語(yǔ)音和噪聲的判斷錯(cuò)誤。但是，由于按每個(gè)頻帶各別區(qū)分語(yǔ)音和噪聲，因此，與在頻帶整體中區(qū)分語(yǔ)音和噪聲的情況相比，能夠降低其影響。即，借助于本發(fā)明的結(jié)構(gòu)，能夠降低語(yǔ)音區(qū)間與噪聲區(qū)間的區(qū)間檢測(cè)失誤。
(2)在本發(fā)明的信號(hào)分析裝置中，在按每個(gè)頻帶進(jìn)行頻帶能量標(biāo)準(zhǔn)化時(shí)，在對(duì)數(shù)頻譜區(qū)域執(zhí)行標(biāo)準(zhǔn)化處理。如果在對(duì)數(shù)頻譜區(qū)域執(zhí)行標(biāo)準(zhǔn)化處理，就能夠獲得與以對(duì)數(shù)頻譜的線性變換(余弦變換)——倒譜系數(shù)進(jìn)行校正的CMN法相同的效果。其結(jié)果是，能夠標(biāo)準(zhǔn)化話筒等的影響造成的電路特性失真。即，即使語(yǔ)音識(shí)別時(shí)的噪聲頻譜與學(xué)習(xí)時(shí)的噪聲頻譜不同，也能夠防止識(shí)別精度的大幅度惡化。此外，如SS法那樣，可以用振幅電平進(jìn)行減除，但不能標(biāo)準(zhǔn)化電路特性失真。
另外，本發(fā)明的信號(hào)分析裝置中，按每個(gè)頻帶各別求取噪聲電平和語(yǔ)音電平，對(duì)每個(gè)頻帶的噪聲電平或每個(gè)頻帶的語(yǔ)音電平進(jìn)行標(biāo)準(zhǔn)化，因此，能夠獲得與E-CMN法相同的效果。
(3)在本發(fā)明的信號(hào)分析裝置中，根據(jù)所提取的頻帶能量序列執(zhí)行語(yǔ)音和噪聲判斷。即，即使在發(fā)聲區(qū)間內(nèi)，一部分頻帶也可能被判定為噪聲。因此，只要是由頻譜形狀不同的音素構(gòu)成的發(fā)聲，在語(yǔ)音發(fā)聲區(qū)間內(nèi)完成幾乎全部頻帶的噪聲電平的推斷。即，在本發(fā)明的信號(hào)分析裝置中，即使不存在噪聲區(qū)間，也能夠推斷噪聲電平。
本發(fā)明的信號(hào)分析裝置特別適合用于以電池驅(qū)動(dòng)為前提的移動(dòng)式設(shè)備。以電池驅(qū)動(dòng)的移動(dòng)式設(shè)備中，為了抑制電池的消耗量，只在發(fā)聲時(shí)對(duì)輸入信號(hào)進(jìn)行分析。即，即使在不存在噪聲區(qū)間的使用方式中，也能夠等效地推斷噪聲頻譜，因此，不僅能夠標(biāo)準(zhǔn)化電路特性失真，也能夠標(biāo)準(zhǔn)化噪聲等失真。

圖1是表示求取MFCC所需步驟的流程圖。
圖2是表示執(zhí)行現(xiàn)有的MFCC分析的信號(hào)分析裝置的結(jié)構(gòu)的框圖。
圖3是表示根據(jù)使用了MFCC法的現(xiàn)有的E-CMN法進(jìn)行分析的信號(hào)分析裝置的結(jié)構(gòu)的框圖。
圖4是表示本發(fā)明的信號(hào)分析裝置的結(jié)構(gòu)的圖。
圖5是表示本發(fā)明中涉及的信號(hào)分析處理流程的流程圖。
圖6是表示本發(fā)明中涉及的信號(hào)分析處理的輸入頻帶能量和更新系數(shù)、標(biāo)準(zhǔn)化系數(shù)、標(biāo)準(zhǔn)化頻帶能量的對(duì)應(yīng)關(guān)系的圖。
圖7是表示使用低截止濾波器作為標(biāo)準(zhǔn)化單元的本發(fā)明的信號(hào)分析單元的結(jié)構(gòu)的圖。
圖8是表示包含語(yǔ)音波形的音響信號(hào)實(shí)例的圖。
圖9是圖8所示的包含語(yǔ)音波形的音響信號(hào)的頻譜圖的簡(jiǎn)化圖。
圖10是表示使用現(xiàn)有的E-CMN法對(duì)圖9所示的頻譜進(jìn)行標(biāo)準(zhǔn)化時(shí)執(zhí)行標(biāo)準(zhǔn)化處理的范圍的圖。
圖11是表示使用本發(fā)明的信號(hào)分析裝置對(duì)圖9所示的頻譜進(jìn)行標(biāo)準(zhǔn)化時(shí)執(zhí)行標(biāo)準(zhǔn)化處理的范圍的圖。
圖12是表示輸入了圖8所示的包含語(yǔ)音波形的音響信號(hào)的情況下使用E-CMN法的噪聲頻譜適應(yīng)的進(jìn)行狀況的圖。
圖13是表示輸入了圖8所示的包含語(yǔ)音波形的音響信號(hào)的情況下使用本發(fā)明的信號(hào)分析裝置進(jìn)行噪聲頻譜適應(yīng)的進(jìn)行狀況的圖。
圖14是表示使用了本發(fā)明的語(yǔ)音識(shí)別裝置的語(yǔ)音識(shí)別系統(tǒng)實(shí)例的框圖。
圖15是表示本發(fā)明的語(yǔ)音識(shí)別裝置或包含本發(fā)明的語(yǔ)音識(shí)別裝置的電子設(shè)備的結(jié)構(gòu)圖。
具體實(shí)施例方式
下面參照

實(shí)施本發(fā)明的最優(yōu)實(shí)施方式。實(shí)施本發(fā)明的最優(yōu)實(shí)施方式通過(guò)比較MFCC法、E-CMN法進(jìn)行說(shuō)明。此外，本發(fā)明并不限定于此。

圖2是表示執(zhí)行現(xiàn)有的MFCC分析的信號(hào)分析裝置的結(jié)構(gòu)的框圖。圖中，參照符號(hào)101表示頻率分析單元，參照符號(hào)102表示參數(shù)變換單元。頻率分析單元101執(zhí)行圖1的頻率分析步驟(步驟S201)的處理，參數(shù)變換單元102執(zhí)行圖1的參數(shù)變換步驟(步驟S202)的處理。
圖3是表示根據(jù)使用了MFCC法的現(xiàn)有的E-CMN法進(jìn)行分析的信號(hào)分析裝置的結(jié)構(gòu)的框圖。該圖中，執(zhí)行圖3的MFCC分析的信號(hào)分析裝置的結(jié)構(gòu)中進(jìn)一步增加了用來(lái)從輸入信號(hào)中檢測(cè)語(yǔ)音區(qū)間的語(yǔ)音區(qū)間檢測(cè)單元203、平均值更新單元201、減法處理單元202。所輸入的語(yǔ)音經(jīng)頻率分析單元101和參數(shù)計(jì)算單元102處理，由此求得MFCC。同時(shí)，所輸入的語(yǔ)音經(jīng)語(yǔ)音區(qū)間檢測(cè)單元203處理，檢測(cè)出語(yǔ)音區(qū)間。平均值更新單元使用由語(yǔ)音區(qū)間檢測(cè)單元203所獲得的語(yǔ)音區(qū)間信息更新從參數(shù)計(jì)算單元102取得的平均倒譜。具體地，如果是語(yǔ)音區(qū)間，則更新語(yǔ)音的平均倒譜；如果是非語(yǔ)音區(qū)間，則更新噪聲的平均倒譜。減法處理單元202使用由語(yǔ)音區(qū)間檢測(cè)單元203所取得的語(yǔ)音區(qū)間信息，如果是語(yǔ)音區(qū)間則從由參數(shù)計(jì)算單元102輸出的當(dāng)前倒譜中減除語(yǔ)音的平均倒譜，如果是非語(yǔ)音區(qū)間則從由參數(shù)計(jì)算單元102輸出的當(dāng)前倒譜中減除噪聲的平均倒譜。
作為語(yǔ)音區(qū)間檢測(cè)方法，一般是使用每幀的短時(shí)間信號(hào)功率或每幀的頻譜概略形狀檢測(cè)語(yǔ)音區(qū)間。這些方法中，使用了移動(dòng)電話等語(yǔ)音通信中所使用的標(biāo)準(zhǔn)方法。
圖4是表示本發(fā)明的信號(hào)分析裝置的結(jié)構(gòu)的圖。本發(fā)明中，圖4的MFCC分析中使用的信號(hào)分析裝置的頻率分析單元101和參數(shù)計(jì)算單元102之間按每個(gè)頻帶設(shè)置了更新系數(shù)取得單元301、電平計(jì)算單元302、標(biāo)準(zhǔn)化單元303和標(biāo)準(zhǔn)化系數(shù)取得單元304。另外，本發(fā)明的頻帶分析單元101由將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)的頻帶分割單元305、針對(duì)被分割為各個(gè)頻帶的該輸入信號(hào)提取各個(gè)頻帶的頻帶能量的頻帶能量提取單元306構(gòu)成。
更新系數(shù)取得單元301將在信號(hào)被輸入的時(shí)刻之前計(jì)算出來(lái)的噪聲電平或語(yǔ)音電平與由上述頻率分析單元101求得的當(dāng)前各個(gè)頻帶的頻帶能量進(jìn)行比較，通過(guò)電平計(jì)算單元302求得電平更新所用的更新系數(shù)。
電平計(jì)算單元302使用由上述更新系數(shù)取得單元301所取得的更新系數(shù)，基于輸入能量和噪聲電平或語(yǔ)音電平之差更新噪聲電平或語(yǔ)音電平并存儲(chǔ)起來(lái)。具體方法在后文敘述。
標(biāo)準(zhǔn)化系數(shù)取得單元304與上述更新系數(shù)取得單元301同樣地將在信號(hào)被輸入的時(shí)刻之前計(jì)算出來(lái)的噪聲電平或語(yǔ)音電平與由上述頻率分析單元101求得的當(dāng)前各個(gè)頻帶的頻帶能量進(jìn)行比較，通過(guò)標(biāo)準(zhǔn)化單元303計(jì)算所用的標(biāo)準(zhǔn)化系數(shù)。
標(biāo)準(zhǔn)化單元303使用由上述標(biāo)準(zhǔn)化系數(shù)取得單元304所求得的標(biāo)準(zhǔn)化系數(shù)，以及由上述電平計(jì)算單元302所求得的語(yǔ)音電平或噪聲電平，將由上述頻率分析單元101所求得的當(dāng)前頻帶能量標(biāo)準(zhǔn)化后輸出。
在本實(shí)施方式中，更新系數(shù)取得單元301與標(biāo)準(zhǔn)化系數(shù)取得單元304由不同結(jié)構(gòu)實(shí)現(xiàn)，但兩者執(zhí)行的處理相似，因此也可以用同一結(jié)構(gòu)來(lái)實(shí)現(xiàn)更新系數(shù)取得單元301與標(biāo)準(zhǔn)化系數(shù)取得單元304。
CMS法或E-CMN法的文獻(xiàn)中描述的實(shí)現(xiàn)中，存儲(chǔ)單詞或文章發(fā)聲時(shí)的每次語(yǔ)音，求取該語(yǔ)音電平的電平，標(biāo)準(zhǔn)化后進(jìn)行識(shí)別，或者使用上一次發(fā)聲的電平進(jìn)行標(biāo)準(zhǔn)化。但是，在發(fā)聲結(jié)束后進(jìn)行識(shí)別處理，因其響應(yīng)慢，沒(méi)有可行性。另外，在移動(dòng)式裝置等中，不能保證上一次的使用環(huán)境與當(dāng)前的使用環(huán)境相同。因此，本實(shí)施方式中說(shuō)明的方式，不是使用每次發(fā)聲或上一次的發(fā)聲電平，而是實(shí)時(shí)更新噪聲電平等，使用該更新后的噪聲電平，實(shí)時(shí)地將頻帶能量進(jìn)行標(biāo)準(zhǔn)化。此外，本發(fā)明的信號(hào)分析裝置也可以使用每次發(fā)聲或上一次的發(fā)聲電平將頻帶能量標(biāo)準(zhǔn)化。
圖5是表示本發(fā)明中涉及的信號(hào)分析處理流程的流程圖。圖6是表示本發(fā)明中涉及的信號(hào)分析處理的輸入頻帶能量和更新系數(shù)、標(biāo)準(zhǔn)化系數(shù)、標(biāo)準(zhǔn)化頻帶能量的對(duì)應(yīng)關(guān)系的圖。下面使用圖5和圖6詳細(xì)說(shuō)明本發(fā)明的信號(hào)分析處理。此外，利用噪聲能量低、語(yǔ)音能量高這一特點(diǎn)應(yīng)用更新系數(shù)或標(biāo)準(zhǔn)化系數(shù)。
頻率分析步驟(步驟S201)和參數(shù)分析步驟(步驟S202)中執(zhí)行的處理與圖1的處理相同。
本發(fā)明的信號(hào)分析裝置只要能將輸入信號(hào)分割為2個(gè)或以上的頻帶，就可依照其原理動(dòng)作。另外，作為頻率數(shù)軸，除美爾頻率數(shù)軸外，帕克頻率數(shù)軸或線形頻率數(shù)軸也可以進(jìn)行動(dòng)作。此外，以語(yǔ)音識(shí)別為目的進(jìn)行信號(hào)分析時(shí)，頻率分析中的頻帶分割數(shù)或頻率分度是遵循MFCC的值即可，分割數(shù)在10至30左右為妥。例如，如果是以11KHz采樣的語(yǔ)音，如為在美爾頻率數(shù)軸上分割為24個(gè)頻帶后變換為12元倒譜的結(jié)構(gòu)即是有效的，這已通過(guò)試驗(yàn)得到確認(rèn)。將現(xiàn)有的MFCC處理中的頻率分析步驟和參數(shù)變換步驟的處理挪用到本發(fā)明的信號(hào)分析裝置中，可以抑制處理量的增加。
步驟S203～步驟S205所進(jìn)行的處理按每個(gè)頻帶獨(dú)立執(zhí)行。系數(shù)取得步驟(步驟S203)根據(jù)由頻率分析步驟(步驟S201)所求得的頻帶能量與在輸入信號(hào)的輸入時(shí)刻之前所求得的各個(gè)頻帶的噪聲電平之差，求取更新系數(shù)和標(biāo)準(zhǔn)化系數(shù)。接著，基于按每個(gè)頻帶求取的更新系數(shù)，更新上述頻帶的噪聲電平(步驟S204)。接著，使用在步驟S204更新過(guò)的頻帶的噪聲電平和標(biāo)準(zhǔn)化系數(shù)將該頻帶的頻帶能量進(jìn)行標(biāo)準(zhǔn)化(步驟S205)。將標(biāo)準(zhǔn)化后的頻帶能量變換為倒譜系數(shù)(步驟S202)。
此外，本實(shí)施方式中，將標(biāo)準(zhǔn)化后的頻帶能量變換為語(yǔ)音識(shí)別中通常使用的倒譜系數(shù)。但是，并不一定要變換為倒譜系數(shù)，也可以采用將標(biāo)準(zhǔn)化后的能量直接輸出的結(jié)構(gòu)。
接著使用圖6說(shuō)明使用更新系數(shù)更新頻帶能量中的噪聲電平的方法。圖6(c)是表示輸入頻帶能量與更新系數(shù)的關(guān)系的圖。
此外，推斷噪聲電平的方法也包括計(jì)算輸入能量的直方圖、采用下方的數(shù)個(gè)百分點(diǎn)作為噪聲電平的方法。但是，為了計(jì)算直方圖，需要一定長(zhǎng)度的輸入。因此，適宜使用以下說(shuō)明的實(shí)時(shí)地依次更新噪聲電平的處理。
假定在時(shí)刻t的噪聲電平為N(t)，輸入頻帶能量為E(t)，更新系數(shù)為α(t)，則噪聲電平N(t)的更新例如如下進(jìn)行。此外，噪聲電平、輸入頻帶能量的單位考慮以分貝(dB)為基準(zhǔn)。
N(t)＝(1-α(t))*N(t-1)+α(t)*E(t)…式(1)α(t)＝O (N(t-1)+R＜E(t)時(shí))α(t)＝A*(1-(E(t)-N(t-1))/R)(N(t-1)＜E(t)≤N(t-1)+R時(shí))α(t)＝A (E(t)≤N(t-1)時(shí))這里，A表示最大更新系數(shù)，其值為大于等于0小于等于1。例如，A取0.02左右的值。R表示噪聲和語(yǔ)音的能量邊界范圍，例如取為2dB左右。由于能夠求取在所輸入的頻帶能量的時(shí)間序列中特別是低能量分布的情況下的平均值，因此，該更新系數(shù)可以更新噪聲電平。
在上述算式中，可以將(α(t)/A)看作表示接近噪聲的程度的指標(biāo)。
如果將噪聲電平的初始值N(0)定為N(0)＝E(1)，可以獲得快速的上升特性，獲得很好的識(shí)別結(jié)果，這已通過(guò)試驗(yàn)得到確認(rèn)。
如果使用上述算式更新噪聲電平，則對(duì)于噪聲向下方的變化跟蹤較快，而對(duì)于向上方的變化跟蹤速度逐漸變慢，在1幀期間存在大于R(dB)的噪聲增幅的情況下，則完全不跟蹤。這種對(duì)噪聲變化速度的跟蹤可以通過(guò)A和R參數(shù)來(lái)控制。在A為0.02的情況下，對(duì)遲于0.5Hz左右的噪聲變化變?yōu)橐蚕蛏戏礁?。通常的語(yǔ)音變化速度是1秒鐘內(nèi)替換數(shù)個(gè)至十幾個(gè)音素，因此，從幾Hz至數(shù)十Hz的成分較多。另一方面，背景噪聲大多比這個(gè)頻率慢。然而，突發(fā)性噪聲有時(shí)候會(huì)造成噪聲能量急劇上升，其后就無(wú)法跟蹤了。因此，將α(t)的下限設(shè)為微小的值例如0.001左右而不是0，就可以設(shè)定為在數(shù)秒后進(jìn)行跟蹤。
在對(duì)這些參數(shù)進(jìn)行動(dòng)作確認(rèn)時(shí)，通過(guò)輸入調(diào)整了每個(gè)頻帶的能量變化速度的人工數(shù)據(jù)，就能夠確認(rèn)跟蹤速度。
假定在時(shí)刻t的語(yǔ)音電平為S(t)，輸入頻帶能量為E(t)，更新系數(shù)為γ(t)，則語(yǔ)音電平S(t)的更新例如如下進(jìn)行。
S(t)＝(1-γ(t))*N(t-1)+γ(t)*E(t)…式2γ(t)＝C(N(t-1)+R＜E(t)時(shí))γ(t)＝C*(E(t)-N(t-1)/R)(N(t-1)＜E(t)≤N(t-1)+R時(shí))γ(t)＝O(E(t)≤N(t-1)時(shí))這里，C表示最大更新系數(shù)，其值小于等于1。C與上述A相同，例如取為0.02左右的值。R表示噪聲與語(yǔ)音的能量的邊界范圍，既可以是與上述噪聲電平的邊界區(qū)域相同的值，也可以是不同值。由于能夠求取在所輸入的頻帶能量的時(shí)間序列中特別是高能量分布的情況下的平均值，因此，該更新系數(shù)可以更新語(yǔ)音電平。
初始值S(0)最好是使用上次發(fā)聲時(shí)最后的S(t)。當(dāng)無(wú)法獲得最后的S(t)時(shí)，使用S(0)＝0可以獲得較好的結(jié)果，這已通過(guò)試驗(yàn)得到確認(rèn)。這里，可以將(γ(t)/C)看作表示接近語(yǔ)音的程度的指標(biāo)。
關(guān)于語(yǔ)音電平，也可以不進(jìn)行更新而使用固定值。在這種情況下，使用根據(jù)大量語(yǔ)音數(shù)據(jù)計(jì)算出來(lái)的平均語(yǔ)音電平，效果較好。
為了更新噪聲電平和語(yǔ)音電平，必須根據(jù)輸入信號(hào)的時(shí)間序列判斷是噪聲區(qū)間還是語(yǔ)音區(qū)間。式1和式2中，兩個(gè)區(qū)間的檢測(cè)也可以不以2進(jìn)制值形式求取，而可以是取中間值(圖6(c))。噪聲區(qū)間與語(yǔ)音區(qū)間的判斷按每個(gè)頻帶進(jìn)行。因此，在各個(gè)頻帶判斷出來(lái)的噪聲區(qū)間與語(yǔ)音區(qū)間不同于在其他頻帶判斷出來(lái)的噪聲區(qū)間和語(yǔ)音區(qū)間。進(jìn)一步，在各個(gè)頻帶判斷出來(lái)的噪聲區(qū)間和語(yǔ)音區(qū)間與實(shí)際的說(shuō)話者的發(fā)聲區(qū)間也不一樣。
更新系數(shù)不必通用于全部頻帶。通過(guò)預(yù)先按每個(gè)頻帶保存不同的更新系數(shù)，能夠按每個(gè)頻帶應(yīng)用最適合的更新系數(shù)。
例如，在低頻帶，噪聲波動(dòng)比較緩慢的情況下，通過(guò)減小低頻帶的更新系數(shù)的最大值A(chǔ)，可以減少對(duì)語(yǔ)音輸入錯(cuò)誤地跟蹤而導(dǎo)致更新的危險(xiǎn)性。
求取噪聲電平的方法也可以是將直到輸入時(shí)刻為止的輸入能量的最小值作為噪聲電平?？梢哉J(rèn)為這相當(dāng)于在上述式(1)中將能量的邊界范圍定為0dB，將最大更新系數(shù)定為1的情況。另外，對(duì)于語(yǔ)音電平，也可以將直到輸入時(shí)刻為止的輸入能量的最大值作為語(yǔ)音電平。這利用了噪聲能量低、語(yǔ)音能量高這一特點(diǎn)。
求取噪聲電平、語(yǔ)音電平的方法并不限于該實(shí)例，只要是能夠求取在能量分布范圍內(nèi)的低值和高值的方法，就能夠求取噪聲電平、語(yǔ)音電平。
接著使用圖6說(shuō)明使用標(biāo)準(zhǔn)化系數(shù)對(duì)頻帶能量進(jìn)行標(biāo)準(zhǔn)化的方法。圖6(b)是表示輸入頻帶能量與標(biāo)準(zhǔn)化系數(shù)的關(guān)系的圖。
假定在時(shí)刻t的噪聲電平為N(t)，輸入頻帶能量為E(t)，標(biāo)準(zhǔn)化系數(shù)為β(t)，則標(biāo)準(zhǔn)化頻帶能量E′(t)可由例如以下算式求得。此外，噪聲電平、能量的單位定為分貝(dB)。
E’(t)＝E(t)-β(t)*N(t)…式3β(t)＝O(N(t-1)+R＜E(t)時(shí))β(t)＝B*(1-(E(t)-N(t-1))/R)(N(t-1)＜E(t)≤N(t-1)+R時(shí))β(t)＝B(E(t)≤N(t-1)時(shí))這里，B表示最大減除量，其值小于等于1。例如，B取0.5左右的值。R表示噪聲和語(yǔ)音的能量邊界范圍，例如取為2dB左右。R既可以是與上述更新系數(shù)的邊界區(qū)域相同的值，也可以是不同值。
接著，在噪聲電平的基礎(chǔ)上，使用語(yǔ)音電平S(t)來(lái)說(shuō)明頻帶能量的標(biāo)準(zhǔn)化方法。使用語(yǔ)音電平的頻帶能量標(biāo)準(zhǔn)化可由例如下式計(jì)算。
E’(t)＝E(t)-β(t)*N(t)-δ(t)*S(t)…式4δ(t)＝D(N(t-1)+R＜E(t)時(shí))δ(t)＝D*(E(t)-N(t-1))/R(N(t-1)＜E(t)≤N(t-1)+R時(shí))δ(t)＝O(E(t)≤N(t-1)時(shí))這里，D表示最大減除量，其值小于等于1。D與上述B相同，例如取為0.5左右的值。R表示噪聲與語(yǔ)音的能量的邊界范圍，既可以是與上述噪聲電平的邊界區(qū)域相同的值，也可以是不同值。
在該例中，使用輸入能量E(t)與噪聲電平N(t)之差求取語(yǔ)音電平的標(biāo)準(zhǔn)化系數(shù)。使用該方法，能夠降低說(shuō)話者或電路特性所導(dǎo)致的識(shí)別精度的下降。此外，使用輸入能量E(t)與語(yǔ)音電平S(t)之差能夠求取語(yǔ)音電平的標(biāo)準(zhǔn)化系數(shù)。
在該實(shí)例中說(shuō)明的是，為了標(biāo)準(zhǔn)化頻帶能量，將語(yǔ)音電平或噪聲電平乘以通過(guò)預(yù)定的計(jì)算求得的系數(shù)后從輸入頻帶能量中減除的方法。但是，為了進(jìn)行標(biāo)準(zhǔn)化，并不限于這一方法，例如，使用輸入能量除以語(yǔ)音電平等除法的方法，有時(shí)候也能夠獲得標(biāo)準(zhǔn)化效果。也可以是根據(jù)輸入的動(dòng)態(tài)范圍或環(huán)境變化的大小適當(dāng)改變標(biāo)準(zhǔn)化方法的結(jié)構(gòu)。
圖6(a)是表示使用式3和式4標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)化頻帶能量與所輸入的頻帶能量的關(guān)系的圖。將使用了噪聲電平和語(yǔ)音電平雙方的情況表示為E′＝E-β*N-δ*S的圖表。設(shè)D＝0的情況，即僅使用噪聲能量的情況表示為E′＝E-β*N的圖表。根據(jù)各個(gè)頻帶的噪聲電平和語(yǔ)音電平的大小適當(dāng)改變所用的標(biāo)準(zhǔn)化系數(shù)，能夠標(biāo)準(zhǔn)化頻帶能量。除此之外，在使用環(huán)境是噪聲非常穩(wěn)定的場(chǎng)所等情況下，由于無(wú)需應(yīng)用噪聲，因此，通過(guò)采用B＝0，能夠只使用語(yǔ)音電平。
在將噪聲與語(yǔ)音的邊界區(qū)域幅度R(dB)取為非常大的值的情況下，就成為在幾乎整個(gè)區(qū)間以固定的更新系數(shù)A更新噪聲電平，針對(duì)幾乎整個(gè)區(qū)間的輸入頻帶能量以固定的標(biāo)準(zhǔn)化系數(shù)B進(jìn)行減法計(jì)算。為了簡(jiǎn)化其實(shí)現(xiàn)，如圖7所示在各個(gè)頻帶設(shè)置低截止濾波器即可。圖7是表示使用低截止濾波器307作為標(biāo)準(zhǔn)化單元的本發(fā)明的信號(hào)分析單元的結(jié)構(gòu)的圖。即，在對(duì)輸入信號(hào)進(jìn)行頻率分析后，對(duì)各個(gè)頻帶的能量進(jìn)行低截止，然后，通過(guò)變換為語(yǔ)音參數(shù)，獲得一定程度的標(biāo)準(zhǔn)化效果。這種情況下的低截止濾波器最好是比隨語(yǔ)音而不同的頻譜變化速度——1Hz至10Hz左右還要低的頻率，即截止1Hz或以下的頻率。
作為該結(jié)構(gòu)的實(shí)現(xiàn)實(shí)例，以t表示幀，向低截止濾波器的輸入表示為x(t)，輸出表示為y(t)，執(zhí)行如下處理，y(t)＝x(t)-z(t)z(t)＝x(t)*0.02+z(t)*0.98則如果幀周期為10ms，衰減特性即成為在0.5Hz下為-1dB，在0.24Hz下約為-3dB、在0Hz下為-5.7dB。此外，該結(jié)構(gòu)的實(shí)現(xiàn)實(shí)例并不限于必須遵循上述算式。
另外，在頻帶的低頻區(qū)和高頻區(qū)噪聲變化速度不同的環(huán)境下，采用按每個(gè)頻帶而特性不同的低截止濾波器結(jié)構(gòu)，就能夠獲得更加適應(yīng)使用環(huán)境的性能改善。
接著根據(jù)附圖從頻譜的視點(diǎn)說(shuō)明本發(fā)明的實(shí)施方式。
圖8是表示包含語(yǔ)音波形的音響信號(hào)實(shí)例的圖。圖中，橫軸表示時(shí)間，縱軸表示振幅。該圖中，時(shí)間t1至t2的區(qū)間表示發(fā)聲區(qū)間，所顯示的時(shí)間整體中包含雜音。
圖9是圖8所示的包含語(yǔ)音波形的音響信號(hào)的頻譜圖的簡(jiǎn)化圖。圖中，橫軸表示時(shí)間，縱軸表示頻率。時(shí)間t1至t2的區(qū)間表示發(fā)聲區(qū)間。實(shí)際的語(yǔ)音頻譜是連續(xù)值，但在該圖中，為了簡(jiǎn)單起見(jiàn)，將比其他部分能量相對(duì)高的區(qū)域以閉曲線封閉，并以網(wǎng)格表示。
圖10是表示使用現(xiàn)有的E-CMN法對(duì)圖9所示的頻譜進(jìn)行標(biāo)準(zhǔn)化時(shí)執(zhí)行標(biāo)準(zhǔn)化處理的范圍的圖。圖中，橫軸表示時(shí)間，橫軸的各段表示分析幀?？v軸表示頻率，縱軸的各段表示頻帶。將比其他部分能量相對(duì)高的區(qū)域以閉曲線封閉。另外，網(wǎng)格部分是作為語(yǔ)音區(qū)間的應(yīng)用范圍，其余部分是作為噪聲區(qū)間的應(yīng)用范圍。
在使用E-CMN法的情況下，在標(biāo)準(zhǔn)化倒譜系數(shù)時(shí)，不能選擇頻帶進(jìn)行標(biāo)準(zhǔn)化。因此，在判定為語(yǔ)音區(qū)間的時(shí)間t1至t2的區(qū)間內(nèi)，語(yǔ)音的倒譜系數(shù)被更新；在其余區(qū)間，噪聲的倒譜系數(shù)被更新。使用更新后的倒譜系數(shù)，將各個(gè)區(qū)間的倒譜標(biāo)準(zhǔn)化。因此，當(dāng)語(yǔ)音區(qū)間中含有噪聲的情況下，倒譜系數(shù)有可能被錯(cuò)誤地更新。
圖11是表示使用本發(fā)明的信號(hào)分析裝置對(duì)圖9所示的頻譜進(jìn)行標(biāo)準(zhǔn)化時(shí)執(zhí)行標(biāo)準(zhǔn)化處理的范圍的圖。圖中，橫軸表示時(shí)間，橫軸的各段表示分析幀?？v軸表示頻率，縱軸的各段表示頻帶。另外，網(wǎng)格部分是作為語(yǔ)音區(qū)間的應(yīng)用范圍，其余部分是作為噪聲區(qū)間的應(yīng)用范圍。
在本發(fā)明的情況下，針對(duì)各個(gè)頻帶判斷是語(yǔ)音區(qū)間還是噪聲區(qū)間。其結(jié)果是，與語(yǔ)音的發(fā)聲區(qū)間(t1-t2)無(wú)關(guān)，在具有比周圍噪聲能量高的頻帶和幀(圖中網(wǎng)格部分)中，該頻帶的語(yǔ)音電平得到更新，使用該更新后的語(yǔ)音電平將頻帶能量標(biāo)準(zhǔn)化。在其余部分，即使是語(yǔ)音的發(fā)聲區(qū)間(t1-t2)，如果其能量低、判定為噪聲區(qū)間，因此就更新該頻帶的噪聲電平，使用該更新后的噪聲電平將頻帶能量標(biāo)準(zhǔn)化。
即，借助于本發(fā)明，在進(jìn)行語(yǔ)音區(qū)間判斷時(shí)，可以沒(méi)有現(xiàn)有的明確的非語(yǔ)音區(qū)間。如果是包含多種音素的語(yǔ)音，就能夠在語(yǔ)音區(qū)間所含的全部頻帶中更新噪聲電平。
此外，在圖11中，為了簡(jiǎn)化，在圖中設(shè)置了網(wǎng)格部分，表示為語(yǔ)音區(qū)間與噪聲區(qū)間之間存在明確的分界。但是，由式1～式4可知，語(yǔ)音區(qū)間與噪聲區(qū)間之間不存在明確的分界。實(shí)際上，在頻帶能量的噪聲電平N(t)至N(t)+R的范圍內(nèi)逐漸切換進(jìn)行處理。只在R＝0的情況下才會(huì)形成圖11所示的明確分界。
圖12是表示輸入了圖8所示的包含語(yǔ)音波形的音響信號(hào)的情況下，使用E-CMN法的噪聲頻譜適應(yīng)的進(jìn)行狀況的圖。圖13是表示輸入了圖8所示的包含語(yǔ)音波形的音響信號(hào)的情況下使用本發(fā)明的信號(hào)分析裝置進(jìn)行噪聲頻譜適應(yīng)的進(jìn)行狀況的圖。圖中，網(wǎng)格部分表示噪聲被正確地推斷出來(lái)的頻帶和幀。
這里，特別地以沒(méi)有噪聲區(qū)間的輸入為例表示從與發(fā)聲開(kāi)始時(shí)刻相同時(shí)刻t1開(kāi)始向裝置進(jìn)行輸入的情況。在電池驅(qū)動(dòng)的移動(dòng)式裝置中，語(yǔ)音輸入以按鈕等指令開(kāi)始。在這樣的情況下，可以認(rèn)為進(jìn)行的是沒(méi)有噪聲區(qū)間的輸入。
除了隔音室等特殊情況，在事先無(wú)法知道輸入噪聲電平的實(shí)際環(huán)境下使用的系統(tǒng)中，不可能對(duì)沒(méi)有噪聲區(qū)間的輸入語(yǔ)音進(jìn)行語(yǔ)音分割。這種情況下，根據(jù)系統(tǒng)設(shè)計(jì)決定將最初的輸入幀解釋為語(yǔ)音還是噪聲。
在將最初的輸入幀解釋為噪聲的系統(tǒng)中，如果應(yīng)用E-CMN法，則圖12的時(shí)刻t1至t2的發(fā)聲區(qū)間全部被識(shí)別為噪聲區(qū)間。因此，推斷出錯(cuò)誤的噪聲電平。由此，第1發(fā)聲被作為噪聲而平坦化，因此變得無(wú)法識(shí)別。此外，在語(yǔ)音輸入結(jié)束t2后，推斷出原本的噪聲電平。
另一方面，即使在將最初的輸入幀解釋為語(yǔ)音的系統(tǒng)中，如果應(yīng)用E-CMN法，則圖12的時(shí)刻t1至t2的發(fā)聲區(qū)間，無(wú)法推斷出噪聲頻譜。因此，在t2附近的語(yǔ)尾的識(shí)別精度就會(huì)出現(xiàn)問(wèn)題。
在將最初的輸入幀解釋為噪聲的系統(tǒng)中，如果使用本發(fā)明的信號(hào)分析裝置，則在語(yǔ)音占優(yōu)勢(shì)的頻帶中，會(huì)產(chǎn)生噪聲頻譜的推斷錯(cuò)誤。但是，一旦頻譜形狀發(fā)生變化、頻帶的語(yǔ)音功率變得低于噪聲功率時(shí)，該頻帶的噪聲功率被推斷出來(lái)。在圖13的實(shí)例中，在比發(fā)聲結(jié)束時(shí)刻t2更早的時(shí)刻t3，噪聲功率的推斷結(jié)束。因此，在時(shí)刻t3至t2之間，能夠正確地標(biāo)準(zhǔn)化噪聲頻譜。即，如果使用本發(fā)明的信號(hào)分析裝置，能夠比使用E-CMN法的情況下更快更正確地進(jìn)行標(biāo)準(zhǔn)化。另外，在噪聲推斷已經(jīng)結(jié)束的頻帶，在結(jié)束時(shí)刻以后，如果該頻帶的功率上升，則語(yǔ)音功率被推斷出來(lái)，因此，從發(fā)聲過(guò)程中途就能夠?qū)崿F(xiàn)高精度的語(yǔ)音識(shí)別。
依照此種方式，如果使用本發(fā)明的信號(hào)分析裝置，則即使是通過(guò)按鈕等發(fā)出語(yǔ)音輸入開(kāi)始指令的裝置，也能夠從最初的發(fā)聲開(kāi)始進(jìn)行高精度的語(yǔ)音識(shí)別。
如上述說(shuō)明，本發(fā)明的信號(hào)分析裝置中，在語(yǔ)音發(fā)聲過(guò)程中也能夠推斷噪聲頻譜。其結(jié)果是，即使在發(fā)音過(guò)程中噪聲頻譜逐漸變化的情況下，只要其變化緩慢，就能夠適應(yīng)噪聲變化進(jìn)行標(biāo)準(zhǔn)化。因此，如果在語(yǔ)音識(shí)別裝置中應(yīng)用本發(fā)明的信號(hào)分析裝置，就能夠獲得能夠?qū)崿F(xiàn)更穩(wěn)定的語(yǔ)音識(shí)別的語(yǔ)音識(shí)別裝置。
圖14是表示使用了本發(fā)明的語(yǔ)音識(shí)別裝置的語(yǔ)音識(shí)別系統(tǒng)實(shí)例的框圖。語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)通常具備音響模型學(xué)習(xí)裝置401和語(yǔ)音識(shí)別裝置402。
語(yǔ)音數(shù)據(jù)庫(kù)403用于音響模型學(xué)習(xí)。主要保存在個(gè)人電腦或工作站的固定硬盤等之中。
參照符號(hào)404是使用本發(fā)明的信號(hào)分析裝置的信號(hào)分析單元。實(shí)際上，使用的是具備圖6所示結(jié)構(gòu)的設(shè)備或圖6所示結(jié)構(gòu)中進(jìn)一步追加用來(lái)求取音響參數(shù)隨時(shí)間的變化量的部分的結(jié)構(gòu)。參照符號(hào)405是音響模型學(xué)習(xí)單元，根據(jù)記錄了語(yǔ)音數(shù)據(jù)庫(kù)的發(fā)聲內(nèi)容的語(yǔ)言數(shù)據(jù)庫(kù)406和上述信號(hào)分析單元404的輸出，按照每個(gè)統(tǒng)計(jì)上的各音素或各音節(jié)這樣的語(yǔ)音單位統(tǒng)計(jì)出來(lái)。模型通常使用隱含馬爾可夫模型。
參照符號(hào)407表示由音響模型學(xué)習(xí)單元405求得的音響模型。參照符號(hào)408是另外生成的語(yǔ)言辭典。語(yǔ)言辭典408包含以音素串表示的單詞的單詞辭典、規(guī)定單詞之間的連接限制的語(yǔ)法數(shù)據(jù)。語(yǔ)言辭典408可以通過(guò)手工作業(yè)生成，也可以根據(jù)語(yǔ)言數(shù)據(jù)庫(kù)406中包含的文章，統(tǒng)計(jì)單詞之間的連接幾率求得。
參照符號(hào)409是用來(lái)執(zhí)行與信號(hào)分析裝置404相同的信號(hào)分析的信號(hào)分析單元。參照符號(hào)410表示似然演算單元，根據(jù)上述音響模型407的各個(gè)統(tǒng)計(jì)量和由信號(hào)分析單元409求得的音響參數(shù)求取對(duì)各個(gè)時(shí)刻的輸入信號(hào)的各語(yǔ)音單位的似然性。參照符號(hào)411是對(duì)照單元，根據(jù)所求得的各語(yǔ)音單位的似然性的時(shí)間序列計(jì)算最有可能的語(yǔ)言式假設(shè)的似然性，按照似然性高的順序輸出候選。語(yǔ)音識(shí)別方法也可以不明確分離似然性演算和對(duì)照單元。
語(yǔ)音識(shí)別通常使用通用的或信號(hào)處理用的CPU，通過(guò)數(shù)字化處理執(zhí)行。圖15是表示本發(fā)明的語(yǔ)音識(shí)別裝置或包含本發(fā)明的語(yǔ)音識(shí)別裝置的電子設(shè)備的結(jié)構(gòu)圖。
參照符號(hào)501表示以個(gè)人電腦為代表的數(shù)字化設(shè)備中的數(shù)據(jù)或地址的路徑。各處理單元都連接到該路徑，執(zhí)行各自的處理。參照符號(hào)502表示按鈕或鍵盤、話筒等多種輸入單元。語(yǔ)音輸入并不限于從話筒輸入，有時(shí)候也通過(guò)通信線路輸入在其他設(shè)備變換為電信號(hào)后的語(yǔ)音。參照符號(hào)503表示按照來(lái)自輸入單元502的指令控制設(shè)備并對(duì)所輸入的語(yǔ)音進(jìn)行語(yǔ)音識(shí)別的CPU。參照符號(hào)504是CPU進(jìn)行處理時(shí)使用的存儲(chǔ)器、及包含語(yǔ)音識(shí)別程序的程序存儲(chǔ)器。參照符號(hào)505是顯示器或蜂鳴器、揚(yáng)聲器、燈等輸出裝置。語(yǔ)音識(shí)別后的結(jié)果有時(shí)候顯示為候選，有時(shí)候在接收到識(shí)別結(jié)果后執(zhí)行某種處理，有時(shí)候也進(jìn)一步顯示處理后的結(jié)果。當(dāng)該電子設(shè)備是移動(dòng)電話時(shí)，這些處理模塊中增加了未圖示的無(wú)線通信單元。在個(gè)人電腦或移動(dòng)式信息設(shè)備等之中，則增加通信單元或外部存儲(chǔ)裝置等。
基于由語(yǔ)音識(shí)別裝置的識(shí)別結(jié)果，選擇功能加以執(zhí)行的實(shí)例包括電視頻道切換操作、錄像裝置的播放或停止等操作、空調(diào)的溫度設(shè)定等。另外，如果是信息終端，則包括通信控制、程序的執(zhí)行控制、文字輸入等。
包含信號(hào)分析程序或語(yǔ)音識(shí)別程序的這些裝置的控制程序借助于程序記錄介質(zhì)中存儲(chǔ)的信息處理程序來(lái)實(shí)現(xiàn)。上述實(shí)施方式的上述程序記錄介質(zhì)是由與RAM(隨機(jī)存取存儲(chǔ)器)分開(kāi)而另行設(shè)置的ROM(只讀存儲(chǔ)器)構(gòu)成的程序介質(zhì)。另外，最好是裝備在外部輔助存儲(chǔ)裝置中可被讀取的程序介質(zhì)。此外，無(wú)論在哪種情況下，從上述程序介質(zhì)讀取信息處理程序的程序讀取單元既可以具備直接訪問(wèn)上述程序介質(zhì)進(jìn)行讀取的結(jié)構(gòu)，也可以具備下載到上述RAM中設(shè)置的程序存儲(chǔ)區(qū)(未圖示)后訪問(wèn)上述程序存儲(chǔ)區(qū)進(jìn)行讀取的結(jié)構(gòu)。此外，用來(lái)從上述程序介質(zhì)向RAM的上述程序存儲(chǔ)區(qū)執(zhí)行下載的下載程序預(yù)先保存在主體裝置中。
這里，上述程序介質(zhì)與主體側(cè)可分離，是包含磁帶或卡式帶等帶式系列、軟盤、硬盤等磁盤或CD(光盤)-ROM、MO(光磁)盤、MD(迷你光盤)、DVD(數(shù)字多功能光盤)等光盤的盤式系列、IC(集成電路)卡或光卡等卡式系列、掩模ROM、EPROM(紫外線可擦除型ROM)、EEPROM(電可擦除型ROM)、閃速ROM等的半導(dǎo)體存儲(chǔ)器系列的固定地裝載了程序的介質(zhì)。
另外，上述實(shí)施方式的語(yǔ)音識(shí)別裝置或電子設(shè)備可以具備調(diào)制解調(diào)器，與包含因特網(wǎng)的通信網(wǎng)絡(luò)連接。這種情況下，上述程序介質(zhì)也可以是利用從通信網(wǎng)絡(luò)下載等流動(dòng)式裝載程序的介質(zhì)。此外，為了從這種情況下的上述通信網(wǎng)絡(luò)下載，所需要的下載程序預(yù)先保存在主體裝置中。或者是從另外的記錄介質(zhì)中安裝。
本次公開(kāi)的實(shí)施方式的各個(gè)方面均為示例，不應(yīng)被當(dāng)作限制性要求。本發(fā)明的范圍不是上述說(shuō)明，而是由權(quán)利要求書的范圍示出，并包含與權(quán)利要求書的范圍有均等意義以及權(quán)利要求范圍內(nèi)的所有變化。
工業(yè)適用性使用了本發(fā)明的電子設(shè)備不容易受噪聲或電路特性失真的影響。其結(jié)果是，適用于家庭中使用的語(yǔ)音識(shí)別型遙控器、移動(dòng)電話等電子設(shè)備。
權(quán)利要求
1.一種信號(hào)分析裝置，具備頻帶分割單元，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取單元，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化單元，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
2.如權(quán)利要求1所述的信號(hào)分析裝置，上述標(biāo)準(zhǔn)化單元由低截止濾波器構(gòu)成，其根據(jù)按每個(gè)上述頻帶提取的頻帶能量使直流成分衰減。
3.如權(quán)利要求1所述的信號(hào)分析裝置，具備電平計(jì)算單元，用來(lái)根據(jù)上述提取的頻帶能量的序列計(jì)算各個(gè)頻帶的條件平均值，作為第1電平，上述標(biāo)準(zhǔn)化單元從上述按每個(gè)頻帶提取的頻帶能量中減除將同一頻帶的第1電平乘以預(yù)定系數(shù)所得的值。
4.如權(quán)利要求3所述的信號(hào)分析裝置，上述電平計(jì)算單元除了計(jì)算上述第1電平，還從上述提取出來(lái)的頻帶能量序列中將不同于第1電平的各個(gè)頻帶的條件平均值的至少1個(gè)計(jì)算出來(lái)作為第2電平，上述標(biāo)準(zhǔn)化單元從上述按每個(gè)頻帶提取的頻帶能量中減除將同一頻帶的第1電平和第2電平分別乘以預(yù)定系數(shù)所得的值。
5.如權(quán)利要求3所述的信號(hào)分析裝置，其進(jìn)一步具備標(biāo)準(zhǔn)化系數(shù)取得單元，用來(lái)根據(jù)上述頻帶能量的值求取1個(gè)或多個(gè)標(biāo)準(zhǔn)化系數(shù)，上述標(biāo)準(zhǔn)化單元從上述按各個(gè)頻帶提取的頻帶能量中減除將同一頻帶的上述第1電平或上述第1電平和多個(gè)電平乘以上述標(biāo)準(zhǔn)化系數(shù)所得的值。
6.如權(quán)利要求4所述的信號(hào)分析裝置，上述第1電平是不含語(yǔ)音的背景噪聲的各個(gè)頻帶的條件平均值，上述第2電平是語(yǔ)音在各個(gè)頻帶的條件平均值。
7.一種依次進(jìn)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)處理裝置，其具備電平計(jì)算單元，用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平；標(biāo)準(zhǔn)化單元，用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值；更新系數(shù)取得單元，用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù)，上述電平計(jì)算單元使用上述更新系數(shù)使第1電平接近輸入信號(hào)，由此將第1電平作為輸入信號(hào)的條件平均值。
8.如權(quán)利要求7所述的信號(hào)處理裝置，其具備標(biāo)準(zhǔn)化系數(shù)取得單元，用來(lái)基于上述第1電平與上述輸入信號(hào)的差取得標(biāo)準(zhǔn)化系數(shù)，上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述第1電平乘以標(biāo)準(zhǔn)化系數(shù)后所得的值，根據(jù)輸入電平控制減除量。
9.如權(quán)利要求7所述的信號(hào)處理裝置，上述電平計(jì)算單元基于輸入信號(hào)更新多個(gè)電平并存儲(chǔ)起來(lái)，上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述多個(gè)電平分別乘以預(yù)定系數(shù)后所得的值，上述更新系數(shù)取得單元根據(jù)上述第1電平與上述輸入信號(hào)的差求取多個(gè)電平的更新系數(shù)，上述電平計(jì)算單元利用上述多個(gè)電平的更新系數(shù)更新上述求得的多個(gè)電平，執(zhí)行與輸入分布相適應(yīng)的標(biāo)準(zhǔn)化。
10.如權(quán)利要求8所述的信號(hào)處理裝置，上述電平計(jì)算單元基于輸入信號(hào)更新多個(gè)電平并存儲(chǔ)起來(lái)，上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將上述多個(gè)電平分別乘以預(yù)定系數(shù)后所得的值，上述更新系數(shù)取得單元根據(jù)上述第1電平與上述輸入信號(hào)的差求取多個(gè)電平的更新系數(shù)，上述標(biāo)準(zhǔn)化系數(shù)取得單元求取與多個(gè)電平相適應(yīng)的多個(gè)標(biāo)準(zhǔn)化系數(shù)，上述標(biāo)準(zhǔn)化單元從輸入信號(hào)中減除將分別與上述多個(gè)電平相對(duì)應(yīng)的標(biāo)準(zhǔn)化系數(shù)乘以各個(gè)電平后所得的值，執(zhí)行與輸入電平相適應(yīng)的標(biāo)準(zhǔn)化。
11.如權(quán)利要求3所述的信號(hào)分析裝置，各個(gè)頻帶的電平計(jì)算單元和標(biāo)準(zhǔn)化單元包含依次進(jìn)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)處理裝置，上述信號(hào)處理裝置具備基于輸入信號(hào)更新并存儲(chǔ)第1電平的單元；從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值的單元；更新系數(shù)取得單元，用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù)，上述電平計(jì)算單元使用上述更新系數(shù)使上述第1電平接近輸入信號(hào)，由此將上述第1電平作為輸入信號(hào)的條件平均值。
12.如權(quán)利要求11所述的信號(hào)分析裝置，在屬于低頻的頻帶和屬于高頻的頻帶中，上述預(yù)定系數(shù)設(shè)定為不同的值。
13.如權(quán)利要求1所述的信號(hào)分析裝置，將從各個(gè)時(shí)刻的輸入信號(hào)中獲取的各個(gè)頻帶的頻帶能量作為對(duì)數(shù)能量處理。
14.一種語(yǔ)音識(shí)別裝置，其具備如權(quán)利要求1所述的信號(hào)分析裝置；參數(shù)變換單元，用來(lái)根據(jù)按照從信號(hào)分析裝置取得的每個(gè)頻帶進(jìn)行標(biāo)準(zhǔn)化后的頻帶能量求取音響參數(shù)；語(yǔ)音識(shí)別部，使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。
15.如權(quán)利要求14所述的語(yǔ)音識(shí)別裝置，在MFCC(Mel Frequency Cepstrum Coefficient美爾頻率倒譜系數(shù))參數(shù)的提取過(guò)程中執(zhí)行各個(gè)頻帶能量的標(biāo)準(zhǔn)化。
16.一種用來(lái)在計(jì)算機(jī)中執(zhí)行的信號(hào)分析程序，其具備頻帶分割步驟，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取步驟，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化步驟，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
17.一種使計(jì)算機(jī)依次執(zhí)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)分析程序，其具備電平計(jì)算步驟，用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平；標(biāo)準(zhǔn)化步驟，用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值；更新系數(shù)取得步驟，用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù)，上述電平計(jì)算單元步驟，使用上述更新系數(shù)使第1電平接近輸入信號(hào)，由此將第1電平作為輸入信號(hào)的條件平均值。
18.一種用來(lái)在計(jì)算機(jī)中執(zhí)行的語(yǔ)音識(shí)別程序，其具備頻帶分割步驟，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取步驟，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化步驟，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量；參數(shù)變換步驟，用來(lái)根據(jù)按每個(gè)頻帶標(biāo)準(zhǔn)化的頻帶能量求取音響參數(shù)；語(yǔ)音識(shí)別步驟，用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。
19.一種記錄了用于在計(jì)算機(jī)中執(zhí)行的信號(hào)分析程序的記錄介質(zhì)，上述信號(hào)分析程序具備頻帶分割步驟，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取步驟，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化步驟，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。
20.一種記錄了用于在計(jì)算機(jī)中依次執(zhí)行信號(hào)標(biāo)準(zhǔn)化的信號(hào)分析程序的計(jì)算機(jī)可讀取的記錄介質(zhì)，上述信號(hào)分析程序具備電平計(jì)算步驟，用來(lái)根據(jù)輸入信號(hào)更新并存儲(chǔ)第1電平；標(biāo)準(zhǔn)化步驟，用來(lái)從輸入信號(hào)中減除將上述第1電平乘以預(yù)定系數(shù)所得的值；更新系數(shù)取得步驟，用來(lái)根據(jù)上述第1電平與上述輸入信號(hào)的差求取更新系數(shù)，上述電平計(jì)算單元步驟使用上述更新系數(shù)使第1電平接近輸入信號(hào)，由此將第1電平作為輸入信號(hào)的條件平均值。
21.一種記錄了用于在計(jì)算機(jī)中執(zhí)行語(yǔ)音識(shí)別的語(yǔ)音識(shí)別程序的計(jì)算機(jī)可讀取的記錄介質(zhì)，上述語(yǔ)音識(shí)別程序具備頻帶分割步驟，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取步驟，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化步驟，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量；參數(shù)變換步驟，用來(lái)根據(jù)按每個(gè)頻帶標(biāo)準(zhǔn)化的頻帶能量求取音響參數(shù)；語(yǔ)音識(shí)別步驟，用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音。
22.一種具備語(yǔ)音識(shí)別裝置的電子設(shè)備，上述語(yǔ)音識(shí)別裝置具備信號(hào)分析裝置；參數(shù)變換單元，用來(lái)根據(jù)從上述信號(hào)分析裝置取得的、按照每個(gè)頻帶進(jìn)行標(biāo)準(zhǔn)化后的頻帶能量，求取音響參數(shù)；語(yǔ)音識(shí)別部，用來(lái)使用上述求得的音響參數(shù)識(shí)別輸入信號(hào)中包含的語(yǔ)音，上述信號(hào)分析裝置具備頻帶分割單元，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取單元，用來(lái)針對(duì)被分割成上述各頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化單元，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化上述提取的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量，基于上述語(yǔ)音識(shí)別裝置對(duì)輸入信號(hào)中包含的語(yǔ)音信號(hào)進(jìn)行識(shí)別的結(jié)果選擇功能加以執(zhí)行。
全文摘要
信號(hào)分析裝置具備頻帶分割單元，用來(lái)將輸入信號(hào)分割為多個(gè)頻帶的信號(hào)；頻帶能量提取單元，用來(lái)針對(duì)被分割成各個(gè)頻帶的輸入信號(hào)提取各個(gè)頻帶的頻帶能量；標(biāo)準(zhǔn)化單元，用來(lái)按每個(gè)頻帶標(biāo)準(zhǔn)化提取出來(lái)的頻帶能量，求取各個(gè)頻帶的標(biāo)準(zhǔn)化頻帶能量。利用這種結(jié)構(gòu)，即使在高噪音環(huán)境中也能夠獲得穩(wěn)定的語(yǔ)音識(shí)別精度。另外，在輸入了完全沒(méi)有噪聲區(qū)間的語(yǔ)音的情況下或者在發(fā)聲過(guò)程中噪聲電平逐漸變化的情況下也能夠獲得穩(wěn)定的語(yǔ)音識(shí)別精度。
文檔編號(hào)G10L21/00GK1839427SQ20048002416
公開(kāi)日2006年9月27日申請(qǐng)日期2004年7月29日優(yōu)先權(quán)日2003年8月22日
發(fā)明者赤羽俊夫申請(qǐng)人:夏普株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載