專利名稱:可識(shí)別環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種可以識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng),特別是指一種通過(guò)計(jì)算聲音信號(hào)的頻譜波動(dòng)而識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)。
背景技術(shù):
盲信號(hào)源分離是一種在經(jīng)由多個(gè)信號(hào)輸入裝置(例如,麥克風(fēng))所搜集的多個(gè)信號(hào)源為未知的情況下,由輸出的混合信號(hào)分離出該原始信號(hào)源的技術(shù)。然而,該現(xiàn)有的盲信號(hào)源分離技術(shù)中無(wú)法進(jìn)一步識(shí)別該多個(gè)分離出的信號(hào)源。例如,如果其中一個(gè)信號(hào)源為語(yǔ)音,而另一個(gè)信號(hào)源為噪聲,則該盲信號(hào)源分離技術(shù)僅能從輸出的混合信號(hào)中分離出兩種信號(hào),但卻無(wú)法進(jìn)一步分辨出何者為語(yǔ)音以及何者為噪聲。
因此,便有了用于進(jìn)一步識(shí)別出何者為語(yǔ)音以及何者為噪聲的已知技術(shù)。例如,日本專利公開號(hào)JP2002-023776中所述,該專利公開是利用信號(hào)的″峭度(Kurtosis)″來(lái)識(shí)別信號(hào)是語(yǔ)音還是噪聲。其重點(diǎn)在于,噪聲是呈常態(tài)分布(Normal Distribution),而語(yǔ)音則是呈次高斯分布(Sub-GaussianDistribution)。信號(hào)的分布愈趨向常態(tài)分布,代表其峭度愈小。因此,就數(shù)學(xué)上而言,使用峭度來(lái)分辨信號(hào)是可行的。
然而,真實(shí)世界中的聲音不僅混合了語(yǔ)音及隨機(jī)噪聲,海包括了其它如音樂(lè)之類的非語(yǔ)音,而這種如音樂(lè)之類的非語(yǔ)音并非呈正?;植?,因此無(wú)法使用信號(hào)的峭度特征來(lái)區(qū)分語(yǔ)音與如音樂(lè)之類的非語(yǔ)音。
發(fā)明內(nèi)容
因此,本發(fā)明的一個(gè)目的是提供一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法,可用于將具有多個(gè)頻道的混合聲音源識(shí)別成一個(gè)語(yǔ)音信號(hào)及其它非語(yǔ)音信號(hào),而僅需進(jìn)行一次用于將信號(hào)自頻域轉(zhuǎn)換至?xí)r域的計(jì)算。
根據(jù)本發(fā)明的一個(gè)方面,提供一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法,包括下列步驟(a)利用盲信號(hào)源分離(Blind Source Separation,BSS)單元將混合聲音源分離成多個(gè)聲音信號(hào);(b)存儲(chǔ)每一個(gè)聲音信號(hào)的頻譜;(c)根據(jù)所存儲(chǔ)的過(guò)去頻譜信息及該盲信號(hào)源分離單元所送來(lái)的目前頻譜信息,計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng);及(d)將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成語(yǔ)音信號(hào)。
本發(fā)明的另一個(gè)目的是提供一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng),可用于將具有多個(gè)頻道的混合聲音源識(shí)別成一個(gè)語(yǔ)音信號(hào)及其它非語(yǔ)音信號(hào),而僅需進(jìn)行一次用于將信號(hào)自頻域轉(zhuǎn)換至?xí)r域的計(jì)算。
因此,根據(jù)本發(fā)明的另一個(gè)方面,提供一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng),包括盲信號(hào)源分離單元、過(guò)去頻譜存儲(chǔ)單元、頻譜波動(dòng)特征取樣單元,及信號(hào)切換單元。該盲信號(hào)源分離單元用于將混合聲音源分離成多個(gè)聲音信號(hào)。過(guò)去頻譜存儲(chǔ)單元用于存儲(chǔ)每一個(gè)聲音信號(hào)的頻譜。該頻譜波動(dòng)特征取樣單元用于根據(jù)該過(guò)去頻譜存儲(chǔ)單元所送來(lái)的過(guò)去頻譜信息及該盲信號(hào)源分離單元所送來(lái)的目前頻譜信息,計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng)。該信號(hào)切換單元用以接收該頻譜波動(dòng)特征取樣單元所送來(lái)的頻譜波動(dòng),并將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音信號(hào)。
圖1是一個(gè)系統(tǒng)方框圖,說(shuō)明本發(fā)明可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng)之一的優(yōu)選實(shí)施例;圖2是一個(gè)流程圖,說(shuō)明本發(fā)明可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法之一的優(yōu)選實(shí)施例;及圖3是一個(gè)系統(tǒng)方框圖,說(shuō)明圖1所示的本發(fā)明的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音系統(tǒng)之一的應(yīng)用。
具體實(shí)施例方式
有關(guān)本發(fā)明是前述及其它技術(shù)內(nèi)容、特點(diǎn)與功效,在以下配合參考附圖的一個(gè)優(yōu)選實(shí)施例的詳細(xì)說(shuō)明中,將可清楚的呈現(xiàn)。
根據(jù)本發(fā)明的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)可用于將具有多個(gè)頻道的混合聲音源識(shí)別成一個(gè)語(yǔ)音信號(hào)以及其它非語(yǔ)音信號(hào)。此混合聲音源的該多個(gè)頻道例如可分別由多個(gè)話筒(麥克風(fēng))所搜集而得,也可以是存儲(chǔ)在音頻光盤(Audio Compact Disc,Audio CD)中的多個(gè)聲道(例如,左、右二聲道)。
參閱圖1,在本發(fā)明的方法及系統(tǒng)1的一個(gè)優(yōu)選實(shí)施例中,上述混合聲音源是指根據(jù)兩個(gè)麥克風(fēng)8及9所搜集到的聲音信號(hào)。這兩個(gè)麥克風(fēng)8及9從環(huán)境中所搜集到的原始聲音信號(hào)包括該代表人類說(shuō)話聲音的語(yǔ)音5及代表除該語(yǔ)音5外且例如為音樂(lè)的非語(yǔ)音6。無(wú)論是語(yǔ)音5或非語(yǔ)音6,皆同時(shí)被該兩個(gè)麥克風(fēng)8及9所搜集,因此需借助本發(fā)明的系統(tǒng)1方能分離語(yǔ)音5與非語(yǔ)音6并進(jìn)一步識(shí)別出何者為語(yǔ)音5,以供后續(xù)應(yīng)用。
該系統(tǒng)1包含兩個(gè)開窗器181、182、兩個(gè)能量測(cè)量器191、192、一個(gè)盲信號(hào)源分離單元11、過(guò)去頻譜存儲(chǔ)單元12、頻譜波動(dòng)特征取樣單元13、信號(hào)切換單元14、頻率-時(shí)間轉(zhuǎn)換器15及能量平滑單元16。而該盲信號(hào)源分離單元11包括兩個(gè)時(shí)間-頻率轉(zhuǎn)換器114、115、收斂器ΔW116,及兩個(gè)加法器117、118。當(dāng)該兩個(gè)時(shí)間-頻率轉(zhuǎn)換器114、115是基于快速傅立葉轉(zhuǎn)換(Fast Fourier Transformation,F(xiàn)FT)時(shí),該頻率-時(shí)間轉(zhuǎn)換器15相對(duì)地是基于反快速傅立葉轉(zhuǎn)換(Inverse Fast Fourier Transformation,IFFT)?;蚴?,當(dāng)該兩個(gè)時(shí)間-頻率轉(zhuǎn)換器114、115是基于離散余弦變換(Discrete Cosine Transformation,DCT)時(shí),該頻率-時(shí)間轉(zhuǎn)換器15相對(duì)地是基于反離散余弦變換。
參閱圖2,描述本發(fā)明的方法的優(yōu)選實(shí)施例,首先,如步驟71所示,利用該盲信號(hào)源分離單元11將該兩個(gè)麥克風(fēng)8、9所搜集到的混合聲音源分離成兩個(gè)聲音信號(hào),但此時(shí)并無(wú)法判別這兩個(gè)聲音信號(hào)中何者為語(yǔ)音5以及何者為非語(yǔ)音6。
步驟71的詳細(xì)說(shuō)明如下。首先,麥克風(fēng)8、9所搜集到的混合聲音源的兩個(gè)頻道分別輸入至該兩個(gè)開窗器181、182中。接著,通過(guò)在該兩個(gè)開窗器181、182內(nèi)所進(jìn)行的開窗(Windowing)過(guò)程,分別將該兩個(gè)頻道聲音的每一幀(Frame)乘以一個(gè)窗口(Window),如漢明窗口(HammingWindow),之后再分別傳送至兩個(gè)能量測(cè)量器191、192。接下列,利用兩個(gè)能量測(cè)量器191、192測(cè)量每一幀的能量并將其存儲(chǔ)至緩存器(圖中未示出)中。能量測(cè)量器191、192可提供給輸出信號(hào)一個(gè)參考振幅,以調(diào)整輸出能量,使得輸出信號(hào)會(huì)更平滑。然后,幀的信號(hào)被傳送至?xí)r間-頻率轉(zhuǎn)換器114、115。時(shí)間-頻率轉(zhuǎn)換器114、115是用以將每一幀從時(shí)域(TimeDomain)轉(zhuǎn)換至頻域(Frequency Domain)。接著,收斂器ΔW116利用頻域信息而使每一權(quán)值W11、W12、W21、W22收斂。接著,通過(guò)與權(quán)值W11、W12、W21、W22相乘,可調(diào)整每一個(gè)信號(hào),然后再利用加法器117、118予以相加。
本發(fā)明的特征在于,利用過(guò)去頻譜存儲(chǔ)單元12、頻譜波動(dòng)特征取樣單元13及信號(hào)切換單元14來(lái)計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng),并將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音5。
接著,如步驟72所示,利用過(guò)去頻譜存儲(chǔ)單元12來(lái)存儲(chǔ)每一個(gè)信號(hào)的頻譜。
然后,如步驟73所示,利用頻譜波動(dòng)特征取樣單元13,根據(jù)過(guò)去頻譜存儲(chǔ)單元12中所存儲(chǔ)的過(guò)去頻譜信息、盲信號(hào)源分離單元11所送來(lái)的目前頻譜信息以及由能量測(cè)量器191、192送來(lái)的過(guò)去能量信息,并根據(jù)以下方程式(1),可計(jì)算出每一個(gè)聲音信號(hào)頻譜波動(dòng)。
通過(guò)探究語(yǔ)音與如音樂(lè)之類的非語(yǔ)音的特性,可以發(fā)現(xiàn)可識(shí)別出何種聲音信號(hào)最有可能是語(yǔ)音的有用特征,亦即,頻譜波動(dòng)。頻譜波動(dòng) 的定義如以下方程式(1)所示 其中頻率 而x[n]為原始信號(hào),且τ為幀的起始點(diǎn)(Begin Of Frame)。方程式(1)中的其它參數(shù)則定義為k是持續(xù)時(shí)間,取樣率/2為聲音頻率的可識(shí)別范圍,f(τ,n-1)×f(τ,n)為相鄰頻帶間的關(guān)系, 則是用以歸一化(Normalization)頻率能量。
通過(guò)上述方程式(1)分別計(jì)算語(yǔ)音5與諸如音樂(lè)之類的非語(yǔ)音6的頻譜波動(dòng)后,可發(fā)現(xiàn)語(yǔ)音5的頻譜波動(dòng)大于音樂(lè)的頻譜波動(dòng)。語(yǔ)音5中的元音會(huì)導(dǎo)致頻譜上產(chǎn)生明顯峰值,且語(yǔ)音5的摩擦音(Fricative Sound)會(huì)導(dǎo)致連續(xù)說(shuō)話聲的頻譜圖形的劇烈變化。在頻率4kHz以上(摩擦音)而周期30ms的期間內(nèi),語(yǔ)音5的頻譜波動(dòng)會(huì)大于其它非語(yǔ)音6的頻譜波動(dòng),因?yàn)樵谡Z(yǔ)音5中元音會(huì)與摩擦音相互交錯(cuò)。
在頻譜波動(dòng)特征取樣單元13分別計(jì)算語(yǔ)音5與非語(yǔ)音6的頻譜波動(dòng)之后,如步驟74所示,本發(fā)明便可利用信號(hào)切換單元14選擇并輸出兩個(gè)聲音信號(hào)中具有較大頻譜波動(dòng)者,其即為語(yǔ)音5,但仍屬于頻域。
接著,如步驟75所示,利用該頻率-時(shí)間轉(zhuǎn)換器15將頻域的語(yǔ)音5再轉(zhuǎn)換回時(shí)域。所以,相比于已知的盲信號(hào)源分離技術(shù)需進(jìn)行兩次以上的用于將信號(hào)自頻域轉(zhuǎn)換至?xí)r域的計(jì)算,本發(fā)明中由于僅需輸出已識(shí)別出的語(yǔ)音5,因此僅需進(jìn)行一次用于將信號(hào)自頻域轉(zhuǎn)換至?xí)r域的計(jì)算,而語(yǔ)音5以外的其它非語(yǔ)音6由于不需要被輸出,也就不需進(jìn)行頻率-時(shí)間轉(zhuǎn)換計(jì)算。
然后,如步驟76所示,根據(jù)由能量測(cè)量器191、192送來(lái)的過(guò)去能量信息,可利用能量平滑單元16平滑該時(shí)域的語(yǔ)音信號(hào)。
參閱圖3,如上所述,利用本發(fā)明的方法及系統(tǒng)1可選擇并輸出兩個(gè)聲音信號(hào)中具有較大頻譜波動(dòng)的語(yǔ)音5。然后,此語(yǔ)音5可依序傳送至一個(gè)語(yǔ)音命令識(shí)別單元2及控制單元3,于是可藉此語(yǔ)音操控一個(gè)受控裝置4。
綜上所述,本發(fā)明的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng)1利用過(guò)去頻譜存儲(chǔ)單元12、頻譜波動(dòng)特征取樣單元13及信號(hào)切換單元14來(lái)計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng),并將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音5,且僅需利用一次頻率-時(shí)間轉(zhuǎn)換將該語(yǔ)音5由頻域反轉(zhuǎn)換回時(shí)域。
以上所說(shuō)明的僅是本發(fā)明的優(yōu)選實(shí)施例,而不能以此限定本發(fā)明實(shí)施的范圍,本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求所限定的精神和范圍的情況下對(duì)本發(fā)明內(nèi)容所作的簡(jiǎn)單的等效變化與修飾,皆屬于本發(fā)明涵蓋的范圍。
權(quán)利要求
1.一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法,用以將具有多個(gè)頻道的混合聲音源識(shí)別成語(yǔ)音信號(hào)及其它非語(yǔ)音信號(hào),該方法包括步驟(a)利用盲信號(hào)源分離單元將混合聲音源分離成多個(gè)聲音信號(hào);(b)存儲(chǔ)每一個(gè)聲音信號(hào)的頻譜;(c)根據(jù)所存儲(chǔ)的過(guò)去頻譜信息及該盲信號(hào)源分離單元所送來(lái)的目前頻譜信息,計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng);及(d)將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音信號(hào)。
2.根據(jù)權(quán)利要求1所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法,其中該盲信號(hào)源分離單元包括多個(gè)時(shí)間—頻率轉(zhuǎn)換器,用以分別將該混合聲音源的該多個(gè)頻道自時(shí)域轉(zhuǎn)換至頻域,且該方法還包括利用頻率—時(shí)間轉(zhuǎn)換器將該語(yǔ)音信號(hào)從頻域轉(zhuǎn)換至?xí)r域。
3.根據(jù)權(quán)利要求2所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音方法,其中該多個(gè)時(shí)間—頻率轉(zhuǎn)換器為快速傅立葉轉(zhuǎn)換器,且該多個(gè)頻率—時(shí)間轉(zhuǎn)換器為反快速傅立葉轉(zhuǎn)換器。
4.根據(jù)權(quán)利要求2所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的方法,還包括利用多個(gè)能量測(cè)量器分別測(cè)量并存儲(chǔ)該混合聲音源的該多個(gè)頻道的能量,以及根據(jù)該多個(gè)能量測(cè)量器中所存儲(chǔ)的過(guò)去能量信息而平滑該時(shí)域的語(yǔ)音信號(hào)。
5.一種可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng),用以將具有多個(gè)頻道的混合聲音源識(shí)別成語(yǔ)音信號(hào)及其它非語(yǔ)音信號(hào),該系統(tǒng)包含盲信號(hào)源分離單元,用于將混合聲音源分離成多個(gè)聲音信號(hào);過(guò)去頻譜存儲(chǔ)單元,用于存儲(chǔ)每一個(gè)聲音信號(hào)的頻譜;頻譜波動(dòng)特征取樣單元,用于根據(jù)該過(guò)去頻譜存儲(chǔ)單元所送來(lái)的過(guò)去頻譜信息及該盲信號(hào)源分離單元所送來(lái)的目前頻譜信息,計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng);及信號(hào)切換單元,用于接收該頻譜波動(dòng)特征取樣單元所送來(lái)的頻譜波動(dòng),并將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音信號(hào)。
6.根據(jù)權(quán)利要求5所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng),其中該盲信號(hào)源分離單元包括多個(gè)時(shí)間—頻率轉(zhuǎn)換器,用于分別將該混合聲音源的該多個(gè)頻道從時(shí)域轉(zhuǎn)換至頻域,且該系統(tǒng)還包括頻率—時(shí)間轉(zhuǎn)換器,用于將該語(yǔ)音信號(hào)從頻域轉(zhuǎn)換至?xí)r域。
7.根據(jù)權(quán)利要求6所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng),其中該多個(gè)時(shí)間—頻率轉(zhuǎn)換器為快速傅立葉轉(zhuǎn)換器,且該多個(gè)頻率—時(shí)間轉(zhuǎn)換器為反快速傅立葉轉(zhuǎn)換器。
8.根據(jù)權(quán)利要求6所述的可識(shí)別出環(huán)境中的語(yǔ)音與非語(yǔ)音的系統(tǒng),還包括多個(gè)能量測(cè)量器以及一個(gè)能量平滑單元,其中該多個(gè)能量測(cè)量器用于分別測(cè)量并存儲(chǔ)該混合聲音源的該多個(gè)頻道的能量,且該能量平滑單元用于根據(jù)該多個(gè)能量測(cè)量器中所存儲(chǔ)的過(guò)去能量信息而平滑該時(shí)域的語(yǔ)音信號(hào)。
全文摘要
一種可識(shí)別環(huán)境中的語(yǔ)音與非語(yǔ)音的方法及系統(tǒng),用于將具有多個(gè)頻道的混合聲音源識(shí)別成語(yǔ)音信號(hào)及其它非語(yǔ)音信號(hào),該方法包含下列步驟(a)利用盲信號(hào)源分離單元將混合聲音源分離成多個(gè)聲音信號(hào);(b)存儲(chǔ)每一個(gè)聲音信號(hào)的頻譜;(c)根據(jù)所存儲(chǔ)的過(guò)去頻譜信息及該盲信號(hào)源分離單元所送來(lái)的目前頻譜信息,計(jì)算出每一個(gè)聲音信號(hào)的頻譜波動(dòng);及(d)將具有最大頻譜波動(dòng)的其中一個(gè)聲音信號(hào)識(shí)別成該語(yǔ)音信號(hào)。
文檔編號(hào)G10L21/02GK1815550SQ20051000646
公開日2006年8月9日 申請(qǐng)日期2005年2月1日 優(yōu)先權(quán)日2005年2月1日
發(fā)明者嚴(yán)嘉鑫, 吳建明, 林哲民 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社