聲音信號處理裝置及其聲音信號處理方法

文檔序號：9525204閱讀：2177來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

聲音信號處理裝置及其聲音信號處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明關(guān)于一種處理裝置及其處理方法。更具體而言，本發(fā)明關(guān)于一種聲音信號處理裝置及其聲音信號處理方法。
【背景技術(shù)】
[0002] 隨著數(shù)字音樂在網(wǎng)絡(luò)及個人裝置上的快速發(fā)展，如何管理收集到的大量音樂已變得非常重要。為了管理收集到的大量音樂，經(jīng)常需要附加各種信息至各個音樂?？筛郊拥男?息例如有演唱者、唱片、音樂名稱等等。然而，送些傳統(tǒng)附加的信息并無法滿足某些特殊應(yīng) 用，例如音樂治療。取而代之，送些附加信息應(yīng)還包含能夠描述音樂內(nèi)容的音樂類型（music genre)及/或能夠描述音樂的本質(zhì)情感的音樂情境（musicmood)。
[0003] 為了滿足各種特殊應(yīng)用，音樂勢必需要被系統(tǒng)地進(jìn)行歸類、辨識、調(diào)諧；為此，許多聲音信號處理技術(shù)已被開發(fā)出來。當(dāng)從一聲音信號中所獲取出的特征越精確，則針對該聲音信號所進(jìn)行的歸類、辨識、調(diào)諧等后續(xù)處理將越適當(dāng)。因此，對各種聲音信號處理技術(shù)而言，如何有效地獲取出一聲音信號的特征乃為其首要考量。
[0004] 有鑒于此，提供一種能夠有效地獲取出聲音信號特征的技術(shù)，確為本發(fā)明所屬技術(shù)領(lǐng)域的一項重大需求。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明提供一種聲音信號處理裝置及其聲音信號處理方法，本發(fā)明的主要目的在于提供一種能夠有效地獲取出聲音信號特征的技術(shù)。
[0006] 為達(dá)上述目的，本發(fā)明提供一種聲音信號處理裝置，該聲音信號處理裝置包含一接收器及一電性連接至該接收器的處理器。該接收器用W接收一聲音信號。該處理器用W: 分割該聲音信號為多個頓；對該等頓分別進(jìn)行傅立葉轉(zhuǎn)換W取得多個聲音頻譜；在該等聲音頻譜中將對應(yīng)至各個聲音頻率的多個成分組合分別進(jìn)行傅立葉轉(zhuǎn)換W取得一二維聯(lián)合頻率頻譜，其中該二維聯(lián)合頻率頻譜包含一聲音頻率維度及一調(diào)制頻率維度；W及根據(jù)該二維聯(lián)合頻率頻譜計算該聲音信號的至少一特征。
[0007] 為達(dá)上述目的，本發(fā)明提供一種用于一聲音信號處理裝置的聲音信號處理方法，該聲音信號處理裝置包含一接收器及一處理器，該聲音信號處理方法包含下列步驟：
[0008] 使該接收器接收一聲音信號；
[0009] 使該處理器分割該聲音信號為多個頓；
[0010] 使該處理器對該等頓分別進(jìn)行傅立葉轉(zhuǎn)換W取得多個聲音頻譜；
[0011] 使該處理器在該等聲音頻譜中將對應(yīng)至各個聲音頻率的多個成分組合分別進(jìn)行傅立葉轉(zhuǎn)換W取得一二維聯(lián)合頻率頻譜，其中該二維聯(lián)合頻率頻譜具有一聲音頻率維度及一調(diào)制頻率維度；W及
[0012] 使該處理器根據(jù)該二維聯(lián)合頻率頻譜計算該聲音信號的至少一特征。
[0013] 綜上所述，本發(fā)明提供了一種聲音信號處理裝置及其聲音信號處理方法。該聲音信號處理裝置及其聲音信號處理方法可針對一聲音信號計算一二維聯(lián)合頻率頻譜，并根據(jù) 該二維聯(lián)合頻率頻譜計算該聲音信號的特征。由于該二維聯(lián)合頻率頻譜乃是在多個聲音頻譜中將對應(yīng)至各個聲音頻率的多個成分組合分別進(jìn)行傅立葉轉(zhuǎn)換而得，故根據(jù)該二維聯(lián)合頻率頻譜所計算的特征，不但包含了各短期（shod-term)內(nèi)的頻率組合，也考慮到該聲音信號的各個頓之間的交互影響。因此，相對于傳統(tǒng)聲音信號處理技術(shù)對該聲音信號所計算的特征，根據(jù)該二維聯(lián)合頻率頻譜所計算的特征更能代表該聲音信號。
[0014] 在參閱附圖及隨后描述的實施方式后，本發(fā)明所屬技術(shù)領(lǐng)域技術(shù)人員便可了解本發(fā)明的其他目的、本發(fā)明的技術(shù)手段及部分實施例。
【附圖說明】
[0015]W下是針對本發(fā)明附圖所記載的簡單說明，并非用W限定本發(fā)明，其中：
[0016] 圖1為本發(fā)明的一實施例的聲音信號處理裝置的一結(jié)構(gòu)示意圖；
[0017] 圖2A-2C為本發(fā)明的一實施例的聲音信號處理裝置的一處理器的一運作示意圖；
[0018] 圖3為本發(fā)明的一實施例的一用于一聲音信號處理裝置的聲音信號處理方法的一流程圖。
[001引附圖標(biāo)記說明：
[0020] 1 ;聲音信號處理裝置；
[0021] 11;接收器；
[002引13;處理器；
[002引20;聲音信號；
[0024]A1~An;信號振幅；
[00幼B1~;信號強(qiáng)度；
[002引 C1~Cm ;信號強(qiáng)度；
[0027] F1~Fm ;聲音頻譜；
[0028]fl~fn:聲音頻率；
[002引P1~化；成分組合；
[0030] Q1~化；調(diào)制頻譜；
[00引]S21、S23、S25、S27、S29;步驟；
[0032]T1~Tm;頓；
[0033] ω 1~com :調(diào)巧[J步巧率。
【具體實施方式】
[0034] W下將通過各種實施例來解釋本發(fā)明的內(nèi)容，惟W下實施例并非用W限制本發(fā)明須在如其所述的環(huán)境、應(yīng)用、結(jié)構(gòu)、流程或步驟方能實施。W下實施例的說明僅為闡釋本發(fā) 明，而非用W限制本發(fā)明。W下實施例及附圖中，與本發(fā)明非直接相關(guān)的元件皆已省略而未示出，且附圖中各元件間的尺寸關(guān)系僅為求容易表示，非用W限制實際實施的比例。
[0035] 本發(fā)明的一實施例（簡稱「第一實施例」）為一種聲音信號處理裝置。圖1為本發(fā) 明的一實施例的聲音信號處理裝置的一結(jié)構(gòu)示意圖。如圖1所示，一聲音信號處理裝置1 包含一接收器11及一處理器13。接收器11與處理器13之間可直接或間接地電性連接，并可相互通信與交換信息。聲音信號處理裝置1可W是但不限于；一臺式電腦、一智能手機(jī)、一平板電腦、一筆記本電腦等裝置。接收器11可包含各種聲音信號接收接口，并用W接收一聲音信號20 (包含一聲音信號或多個聲音信號），W及可包含與處理器13通信的各種接口，用W傳送聲音信號20至處理器13。聲音信號20可為一不特定時間長度的聲音信號。
[0036] 在處理器13接收到聲音信號20后，可用W執(zhí)行下列操作；分割聲音信號20為多個頓；對該等頓分別進(jìn)行傅立葉轉(zhuǎn)換W取得多個聲音頻譜；在該等聲音頻譜中將對應(yīng)至各個聲音頻率的多個成分組合分別進(jìn)行傅立葉轉(zhuǎn)換W取得一二維聯(lián)合頻率頻譜，其中該二維聯(lián)合頻率頻譜具有一聲音頻率維度及一調(diào)制頻率維度；W及根據(jù)該二維聯(lián)合頻率頻譜計算聲音信號20的至少一特征。W下將結(jié)合圖2A、圖2B及圖2C為一范例，進(jìn)一步說明處理器 13的運作。
[0037] 圖2A-2C為本發(fā)明的一實施例的聲音信號處理裝置的一處理器的一運作示意圖。如圖2A所示，在接收到聲音信號20后，處理器13可分割聲音信號20為多個頓。舉例而言，處理器13可據(jù)不同需求分割聲音信號20為m個頓，即頓T1、頓T2、頓T3、···、頓Tm(簡稱「T1~Tm」），其中m為正整數(shù)。為了易于說明，各個頓T1~Tm可用一向量來表示。W 圖2A所示頓T2為例，其向量表示即為對應(yīng)至不同時間tl、t2、t3、t4、巧、t6、…、tn(簡稱「11~估」）的信號振幅41、42、43、44、45、46、...、411(簡稱^1~411」），其中11為正整數(shù)。
[0038] 處理器13可對各個頓分別進(jìn)行傅立葉轉(zhuǎn)換（FourierTransform)W取得多個相對應(yīng)的聲音頻譜（acousticspectra)。舉例而言，處理器13可對頓T1~Tm分別進(jìn)行傅立葉轉(zhuǎn)換，W取得聲音頻譜F1、聲音頻譜F2、聲音頻譜F3、聲音頻譜F4、聲音頻譜F5、聲音頻譜F6、…、聲音頻譜Fm(簡稱「F1~Fm」）。為了易于說明，各個聲音頻譜F1~Fm可用一向量來表示。W圖2A所示聲音頻譜F2為例，其向量表示即為對應(yīng)至不同聲音頻率n、f2、 f3、f4、巧、f6、…、fn(簡稱「n~fn」）的信號強(qiáng)度Bl、B2、B3、B4、B5、B6、…、Bn(簡稱「B1~化」），其中η為正整數(shù)。本實施例所述的傅立葉轉(zhuǎn)換可視為快速傅立葉轉(zhuǎn)換（Fast FourierTransform)，惟此并非用W限定本發(fā)明。
[0039] 如圖2B所示，經(jīng)由傅立葉轉(zhuǎn)換，該等頓T1~Tm乃分別對應(yīng)至該等聲音頻譜F1~ Fm。在該等聲音頻譜F1~Fm中，對應(yīng)至相同頻率的成分（components)分布在該等頓T1~ Tm內(nèi)。為了易于說明，分布在該等頓T1~Tm內(nèi)的對應(yīng)至各個頻率的送些成分將被稱為一成分組合，且用一向量來表示。詳言之，分布在該等頓T1~Tm內(nèi)的對應(yīng)至頻率η~化的成分組合可依序表示為成分組合Ρ1、成分組合Ρ2、成分組合Ρ3、成分組合Ρ4、成分組合Ρ5、成分組合Ρ6、…、成分組合化（簡稱「Ρ1~化」）。
[0040] 處理器13可對成分組合Ρ1~化再次分別進(jìn)行傅立葉轉(zhuǎn)換，W取得多個調(diào)制頻譜Q1~化(mo化lationspectra)。為了易于說明，各個調(diào)制頻譜Q1~化可用一向量來表示。W圖2B所示調(diào)制頻譜Q2為例，其向量表示即為對應(yīng)至不同調(diào)制頻率ω1、ω2、ω3、 ω4、ω5、ω6、...'wm(簡稱「ω1~ωm」）的信號強(qiáng)度Cl、C2、C3、C4、C5、C6、…、Cm(簡稱「Cl~Cm」），其中m為正整數(shù)。
[0041] 經(jīng)由上述操作，處理器13可取得如圖2C所示的具有一聲音頻率維度及一調(diào)制頻率維度的二維聯(lián)合頻率頻譜（two-dimensionaljointfrequen巧spectrum) 24。然后，處理器13可根據(jù)二維聯(lián)合頻率頻譜24計算聲音信號20的至少一特征。于其他實施例，為了在不同的音樂節(jié)拍速率（musicalbeatrates)上分析諧波（或非諧波）的強(qiáng)度，處理器13還可沿著該聲音頻率維度分解該二維聯(lián)合頻率頻譜24為八度子頻帶（octave-based siAbands)，W及沿著該調(diào)制頻率維度分解該二維聯(lián)合頻率頻譜24為對數(shù)間隔調(diào)制子頻帶 (logarithmicallyspacedmodulationsiAbands);然后，根據(jù)該八度子頻帶及該對數(shù)間隔調(diào)制子頻帶計算聲音信號20的至少一特征。因八度子頻帶W及對數(shù)間隔調(diào)制子頻帶的計算方式及其效果已為本技術(shù)領(lǐng)域技術(shù)人員所公知，于此不多賞述。
[0042] 處理器13根據(jù)二維聯(lián)合頻率頻譜24計算聲音信號20的特征可包含但不限于：一聲音-調(diào)制頻譜峰值（acoustic-modulationspectralpeak,簡稱AMSP)、一聲音-調(diào) 制頻譜峰谷（acoustic-modulationspectralvalley,簡稱AMSV)、一聲音-調(diào)制頻譜對比（acoustic-modulationspectralcontrast,簡稱AMSC)、一聲音-調(diào)制平滑測量 (acoustic-modulationspectralflatnessmeasure,簡稱AMSFM)及一聲音-調(diào)制峰值測量（acoustic-modulationspectralcrestmeasure,簡稱AMSCM)。
[0043] 進(jìn)一步言，處理器13可根據(jù)下式計算該聲音-調(diào)制頻譜峰值及該聲音-調(diào)制頻譜峰谷：
[0046] 其中，Sa,b[i]為對應(yīng)至第a個聲音子頻帶（及聲

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2