可識(shí)別環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)的制作方法

文檔序號(hào)：2820181閱讀：441來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：可識(shí)別環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種可以識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)，特別是指一種通過(guò)計(jì)算聲音信號(hào)的頻譜波動(dòng)而識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)。
背景技術(shù)：
盲信號(hào)源分離是一種在經(jīng)由多個(gè)信號(hào)輸入裝置(例如，麥克風(fēng))所搜集的多個(gè)信號(hào)源為未知的情況下，由輸出的混合信號(hào)分離出該原始信號(hào)源的技術(shù)。然而，該現(xiàn)有的盲信號(hào)源分離技術(shù)中無(wú)法進(jìn)一步識(shí)別該多個(gè)分離出的信號(hào)源。例如，如果其中一個(gè)信號(hào)源為語(yǔ)音，而另一個(gè)信號(hào)源為噪聲，則該盲信號(hào)源分離技術(shù)僅能從輸出的混合信號(hào)中分離出兩種信號(hào)，但卻無(wú)法進(jìn)一步分辨出何者為語(yǔ)音以及何者為噪聲。
因此，便有了用于進(jìn)一步識(shí)別出何者為語(yǔ)音以及何者為噪聲的已知技術(shù)。例如，日本專利公開號(hào)JP2002-023776中所述，該專利公開是利用信號(hào)的″峭度(Kurtosis)″來(lái)識(shí)別信號(hào)是語(yǔ)音還是噪聲。其重點(diǎn)在于，噪聲是呈常態(tài)分布(Normal Distribution)，而語(yǔ)音則是呈次高斯分布(Sub-GaussianDistribution)。信號(hào)的分布愈趨向常態(tài)分布，代表其峭度愈小。因此，就數(shù)學(xué)上而言，使用峭度來(lái)分辨信號(hào)是可行的。
然而，真實(shí)世界中的聲音不僅混合了語(yǔ)音及隨機(jī)噪聲，海包括了其它如音樂(lè)之類的非語(yǔ)音，而這種如音樂(lè)之類的非語(yǔ)音并非呈正?；植?，因此無(wú)法使用信號(hào)的峭度特征來(lái)區(qū)分語(yǔ)音與如音樂(lè)之類的非語(yǔ)音。

發(fā)明內(nèi)容
因此，本發(fā)明的一個(gè)目的是提供一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法，可用于將具有多個(gè)頻道的混合聲音源識(shí)別成一個(gè)語(yǔ)音信號(hào)及其它非語(yǔ)音信號(hào)，而僅需進(jìn)行一次用于將信號(hào)自頻域轉(zhuǎn)換至?xí)r域的計(jì)算。
根據(jù)本發(fā)明的一個(gè)方面，提供一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法，包括下列步驟(a)利用盲信號(hào)源分離(Blind Source Separation，BSS)單元將混合聲音源分離成多個(gè)聲音信號(hào)；(b)存儲(chǔ)每一個(gè)聲音信號(hào)的頻譜；(c)根據(jù)所存儲(chǔ)的過(guò)去頻譜信息及該盲信號(hào)源分離單元所送來(lái)的目前頻譜信息，計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng)；及(d)將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成語(yǔ)音信號(hào)。
本發(fā)明的另一個(gè)目的是提供一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng)，可用于將具有多個(gè)頻道的混合聲音源識(shí)別成一個(gè)語(yǔ)音信號(hào)及其它非語(yǔ)音信號(hào)，而僅需進(jìn)行一次用于將信號(hào)自頻域轉(zhuǎn)換至?xí)r域的計(jì)算。
因此，根據(jù)本發(fā)明的另一個(gè)方面，提供一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng)，包括盲信號(hào)源分離單元、過(guò)去頻譜存儲(chǔ)單元、頻譜波動(dòng)特征取樣單元，及信號(hào)切換單元。該盲信號(hào)源分離單元用于將混合聲音源分離成多個(gè)聲音信號(hào)。過(guò)去頻譜存儲(chǔ)單元用于存儲(chǔ)每一個(gè)聲音信號(hào)的頻譜。該頻譜波動(dòng)特征取樣單元用于根據(jù)該過(guò)去頻譜存儲(chǔ)單元所送來(lái)的過(guò)去頻譜信息及該盲信號(hào)源分離單元所送來(lái)的目前頻譜信息，計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng)。該信號(hào)切換單元用以接收該頻譜波動(dòng)特征取樣單元所送來(lái)的頻譜波動(dòng)，并將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音信號(hào)。

圖1是一個(gè)系統(tǒng)方框圖，說(shuō)明本發(fā)明可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng)之一的優(yōu)選實(shí)施例；圖2是一個(gè)流程圖，說(shuō)明本發(fā)明可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法之一的優(yōu)選實(shí)施例；及圖3是一個(gè)系統(tǒng)方框圖，說(shuō)明圖1所示的本發(fā)明的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音系統(tǒng)之一的應(yīng)用。
具體實(shí)施例方式
有關(guān)本發(fā)明是前述及其它技術(shù)內(nèi)容、特點(diǎn)與功效，在以下配合參考附圖的一個(gè)優(yōu)選實(shí)施例的詳細(xì)說(shuō)明中，將可清楚的呈現(xiàn)。
根據(jù)本發(fā)明的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)可用于將具有多個(gè)頻道的混合聲音源識(shí)別成一個(gè)語(yǔ)音信號(hào)以及其它非語(yǔ)音信號(hào)。此混合聲音源的該多個(gè)頻道例如可分別由多個(gè)話筒(麥克風(fēng))所搜集而得，也可以是存儲(chǔ)在音頻光盤(Audio Compact Disc，Audio CD)中的多個(gè)聲道(例如，左、右二聲道)。
參閱圖1，在本發(fā)明的方法及系統(tǒng)1的一個(gè)優(yōu)選實(shí)施例中，上述混合聲音源是指根據(jù)兩個(gè)麥克風(fēng)8及9所搜集到的聲音信號(hào)。這兩個(gè)麥克風(fēng)8及9從環(huán)境中所搜集到的原始聲音信號(hào)包括該代表人類說(shuō)話聲音的語(yǔ)音5及代表除該語(yǔ)音5外且例如為音樂(lè)的非語(yǔ)音6。無(wú)論是語(yǔ)音5或非語(yǔ)音6，皆同時(shí)被該兩個(gè)麥克風(fēng)8及9所搜集，因此需借助本發(fā)明的系統(tǒng)1方能分離語(yǔ)音5與非語(yǔ)音6并進(jìn)一步識(shí)別出何者為語(yǔ)音5，以供后續(xù)應(yīng)用。
該系統(tǒng)1包含兩個(gè)開窗器181、182、兩個(gè)能量測(cè)量器191、192、一個(gè)盲信號(hào)源分離單元11、過(guò)去頻譜存儲(chǔ)單元12、頻譜波動(dòng)特征取樣單元13、信號(hào)切換單元14、頻率-時(shí)間轉(zhuǎn)換器15及能量平滑單元16。而該盲信號(hào)源分離單元11包括兩個(gè)時(shí)間-頻率轉(zhuǎn)換器114、115、收斂器ΔW116，及兩個(gè)加法器117、118。當(dāng)該兩個(gè)時(shí)間-頻率轉(zhuǎn)換器114、115是基于快速傅立葉轉(zhuǎn)換(Fast Fourier Transformation，F(xiàn)FT)時(shí)，該頻率-時(shí)間轉(zhuǎn)換器15相對(duì)地是基于反快速傅立葉轉(zhuǎn)換(Inverse Fast Fourier Transformation，IFFT)?；蚴?，當(dāng)該兩個(gè)時(shí)間-頻率轉(zhuǎn)換器114、115是基于離散余弦變換(Discrete Cosine Transformation，DCT)時(shí)，該頻率-時(shí)間轉(zhuǎn)換器15相對(duì)地是基于反離散余弦變換。
參閱圖2，描述本發(fā)明的方法的優(yōu)選實(shí)施例，首先，如步驟71所示，利用該盲信號(hào)源分離單元11將該兩個(gè)麥克風(fēng)8、9所搜集到的混合聲音源分離成兩個(gè)聲音信號(hào)，但此時(shí)并無(wú)法判別這兩個(gè)聲音信號(hào)中何者為語(yǔ)音5以及何者為非語(yǔ)音6。
步驟71的詳細(xì)說(shuō)明如下。首先，麥克風(fēng)8、9所搜集到的混合聲音源的兩個(gè)頻道分別輸入至該兩個(gè)開窗器181、182中。接著，通過(guò)在該兩個(gè)開窗器181、182內(nèi)所進(jìn)行的開窗(Windowing)過(guò)程，分別將該兩個(gè)頻道聲音的每一幀(Frame)乘以一個(gè)窗口(Window)，如漢明窗口(HammingWindow)，之后再分別傳送至兩個(gè)能量測(cè)量器191、192。接下列，利用兩個(gè)能量測(cè)量器191、192測(cè)量每一幀的能量并將其存儲(chǔ)至緩存器(圖中未示出)中。能量測(cè)量器191、192可提供給輸出信號(hào)一個(gè)參考振幅，以調(diào)整輸出能量，使得輸出信號(hào)會(huì)更平滑。然后，幀的信號(hào)被傳送至?xí)r間-頻率轉(zhuǎn)換器114、115。時(shí)間-頻率轉(zhuǎn)換器114、115是用以將每一幀從時(shí)域(TimeDomain)轉(zhuǎn)換至頻域(Frequency Domain)。接著，收斂器ΔW116利用頻域信息而使每一權(quán)值W11、W12、W21、W22收斂。接著，通過(guò)與權(quán)值W11、W12、W21、W22相乘，可調(diào)整每一個(gè)信號(hào)，然后再利用加法器117、118予以相加。
本發(fā)明的特征在于，利用過(guò)去頻譜存儲(chǔ)單元12、頻譜波動(dòng)特征取樣單元13及信號(hào)切換單元14來(lái)計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng)，并將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音5。
接著，如步驟72所示，利用過(guò)去頻譜存儲(chǔ)單元12來(lái)存儲(chǔ)每一個(gè)信號(hào)的頻譜。
然后，如步驟73所示，利用頻譜波動(dòng)特征取樣單元13，根據(jù)過(guò)去頻譜存儲(chǔ)單元12中所存儲(chǔ)的過(guò)去頻譜信息、盲信號(hào)源分離單元11所送來(lái)的目前頻譜信息以及由能量測(cè)量器191、192送來(lái)的過(guò)去能量信息，并根據(jù)以下方程式(1)，可計(jì)算出每一個(gè)聲音信號(hào)頻譜波動(dòng)。
通過(guò)探究語(yǔ)音與如音樂(lè)之類的非語(yǔ)音的特性，可以發(fā)現(xiàn)可識(shí)別出何種聲音信號(hào)最有可能是語(yǔ)音的有用特征，亦即，頻譜波動(dòng)。頻譜波動(dòng) 的定義如以下方程式(1)所示其中頻率而x[n]為原始信號(hào)，且τ為幀的起始點(diǎn)(Begin Of Frame)。方程式(1)中的其它參數(shù)則定義為k是持續(xù)時(shí)間，取樣率/2為聲音頻率的可識(shí)別范圍，f(τ，n-1)×f(τ，n)為相鄰頻帶間的關(guān)系，則是用以歸一化(Normalization)頻率能量。
通過(guò)上述方程式(1)分別計(jì)算語(yǔ)音5與諸如音樂(lè)之類的非語(yǔ)音6的頻譜波動(dòng)后，可發(fā)現(xiàn)語(yǔ)音5的頻譜波動(dòng)大于音樂(lè)的頻譜波動(dòng)。語(yǔ)音5中的元音會(huì)導(dǎo)致頻譜上產(chǎn)生明顯峰值，且語(yǔ)音5的摩擦音(Fricative Sound)會(huì)導(dǎo)致連續(xù)說(shuō)話聲的頻譜圖形的劇烈變化。在頻率4kHz以上(摩擦音)而周期30ms的期間內(nèi)，語(yǔ)音5的頻譜波動(dòng)會(huì)大于其它非語(yǔ)音6的頻譜波動(dòng)，因?yàn)樵谡Z(yǔ)音5中元音會(huì)與摩擦音相互交錯(cuò)。
在頻譜波動(dòng)特征取樣單元13分別計(jì)算語(yǔ)音5與非語(yǔ)音6的頻譜波動(dòng)之后，如步驟74所示，本發(fā)明便可利用信號(hào)切換單元14選擇并輸出兩個(gè)聲音信號(hào)中具有較大頻譜波動(dòng)者，其即為語(yǔ)音5，但仍屬于頻域。
接著，如步驟75所示，利用該頻率-時(shí)間轉(zhuǎn)換器15將頻域的語(yǔ)音5再轉(zhuǎn)換回時(shí)域。所以，相比于已知的盲信號(hào)源分離技術(shù)需進(jìn)行兩次以上的用于將信號(hào)自頻域轉(zhuǎn)換至?xí)r域的計(jì)算，本發(fā)明中由于僅需輸出已識(shí)別出的語(yǔ)音5，因此僅需進(jìn)行一次用于將信號(hào)自頻域轉(zhuǎn)換至?xí)r域的計(jì)算，而語(yǔ)音5以外的其它非語(yǔ)音6由于不需要被輸出，也就不需進(jìn)行頻率-時(shí)間轉(zhuǎn)換計(jì)算。
然后，如步驟76所示，根據(jù)由能量測(cè)量器191、192送來(lái)的過(guò)去能量信息，可利用能量平滑單元16平滑該時(shí)域的語(yǔ)音信號(hào)。
參閱圖3，如上所述，利用本發(fā)明的方法及系統(tǒng)1可選擇并輸出兩個(gè)聲音信號(hào)中具有較大頻譜波動(dòng)的語(yǔ)音5。然后，此語(yǔ)音5可依序傳送至一個(gè)語(yǔ)音命令識(shí)別單元2及控制單元3，于是可藉此語(yǔ)音操控一個(gè)受控裝置4。
綜上所述，本發(fā)明的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)1利用過(guò)去頻譜存儲(chǔ)單元12、頻譜波動(dòng)特征取樣單元13及信號(hào)切換單元14來(lái)計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng)，并將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音5，且僅需利用一次頻率-時(shí)間轉(zhuǎn)換將該語(yǔ)音5由頻域反轉(zhuǎn)換回時(shí)域。
以上所說(shuō)明的僅是本發(fā)明的優(yōu)選實(shí)施例，而不能以此限定本發(fā)明實(shí)施的范圍，本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求所限定的精神和范圍的情況下對(duì)本發(fā)明內(nèi)容所作的簡(jiǎn)單的等效變化與修飾，皆屬于本發(fā)明涵蓋的范圍。
權(quán)利要求
1.一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法，用以將具有多個(gè)頻道的混合聲音源識(shí)別成語(yǔ)音信號(hào)及其它非語(yǔ)音信號(hào)，該方法包括步驟(a)利用盲信號(hào)源分離單元將混合聲音源分離成多個(gè)聲音信號(hào)；(b)存儲(chǔ)每一個(gè)聲音信號(hào)的頻譜；(c)根據(jù)所存儲(chǔ)的過(guò)去頻譜信息及該盲信號(hào)源分離單元所送來(lái)的目前頻譜信息，計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng)；及(d)將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音信號(hào)。
2.根據(jù)權(quán)利要求1所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法，其中該盲信號(hào)源分離單元包括多個(gè)時(shí)間—頻率轉(zhuǎn)換器，用以分別將該混合聲音源的該多個(gè)頻道自時(shí)域轉(zhuǎn)換至頻域，且該方法還包括利用頻率—時(shí)間轉(zhuǎn)換器將該語(yǔ)音信號(hào)從頻域轉(zhuǎn)換至?xí)r域。
3.根據(jù)權(quán)利要求2所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音方法，其中該多個(gè)時(shí)間—頻率轉(zhuǎn)換器為快速傅立葉轉(zhuǎn)換器，且該多個(gè)頻率—時(shí)間轉(zhuǎn)換器為反快速傅立葉轉(zhuǎn)換器。
4.根據(jù)權(quán)利要求2所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法，還包括利用多個(gè)能量測(cè)量器分別測(cè)量并存儲(chǔ)該混合聲音源的該多個(gè)頻道的能量，以及根據(jù)該多個(gè)能量測(cè)量器中所存儲(chǔ)的過(guò)去能量信息而平滑該時(shí)域的語(yǔ)音信號(hào)。
5.一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng)，用以將具有多個(gè)頻道的混合聲音源識(shí)別成語(yǔ)音信號(hào)及其它非語(yǔ)音信號(hào)，該系統(tǒng)包含盲信號(hào)源分離單元，用于將混合聲音源分離成多個(gè)聲音信號(hào)；過(guò)去頻譜存儲(chǔ)單元，用于存儲(chǔ)每一個(gè)聲音信號(hào)的頻譜；頻譜波動(dòng)特征取樣單元，用于根據(jù)該過(guò)去頻譜存儲(chǔ)單元所送來(lái)的過(guò)去頻譜信息及該盲信號(hào)源分離單元所送來(lái)的目前頻譜信息，計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng)；及信號(hào)切換單元，用于接收該頻譜波動(dòng)特征取樣單元所送來(lái)的頻譜波動(dòng)，并將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音信號(hào)。
6.根據(jù)權(quán)利要求5所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng)，其中該盲信號(hào)源分離單元包括多個(gè)時(shí)間—頻率轉(zhuǎn)換器，用于分別將該混合聲音源的該多個(gè)頻道從時(shí)域轉(zhuǎn)換至頻域，且該系統(tǒng)還包括頻率—時(shí)間轉(zhuǎn)換器，用于將該語(yǔ)音信號(hào)從頻域轉(zhuǎn)換至?xí)r域。
7.根據(jù)權(quán)利要求6所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng)，其中該多個(gè)時(shí)間—頻率轉(zhuǎn)換器為快速傅立葉轉(zhuǎn)換器，且該多個(gè)頻率—時(shí)間轉(zhuǎn)換器為反快速傅立葉轉(zhuǎn)換器。
8.根據(jù)權(quán)利要求6所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng)，還包括多個(gè)能量測(cè)量器以及一個(gè)能量平滑單元，其中該多個(gè)能量測(cè)量器用于分別測(cè)量并存儲(chǔ)該混合聲音源的該多個(gè)頻道的能量，且該能量平滑單元用于根據(jù)該多個(gè)能量測(cè)量器中所存儲(chǔ)的過(guò)去能量信息而平滑該時(shí)域的語(yǔ)音信號(hào)。
全文摘要
一種可識(shí)別環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)，用于將具有多個(gè)頻道的混合聲音源識(shí)別成語(yǔ)音信號(hào)及其它非語(yǔ)音信號(hào)，該方法包含下列步驟(a)利用盲信號(hào)源分離單元將混合聲音源分離成多個(gè)聲音信號(hào)；(b)存儲(chǔ)每一個(gè)聲音信號(hào)的頻譜；(c)根據(jù)所存儲(chǔ)的過(guò)去頻譜信息及該盲信號(hào)源分離單元所送來(lái)的目前頻譜信息，計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng)；及(d)將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音信號(hào)。
文檔編號(hào)G10L21/02GK1815550SQ20051000646
公開日2006年8月9日申請(qǐng)日期2005年2月1日優(yōu)先權(quán)日2005年2月1日
發(fā)明者嚴(yán)嘉鑫, 吳建明, 林哲民申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載