信號分類方法和裝置以及使用其的音頻編碼方法和裝置與流程

文檔序號：12481557閱讀：328來源：國知局

導航： X技術> 最新專利>樂器;聲學設備的制造及制作,分析技術

一個或更多個示例性實施例涉及音頻編碼，更具體地，涉及一種能夠提高恢復的聲音的質(zhì)量并且減少由于編碼模式切換而導致的延遲的信號分類方法和設備以及一種采用所述信號分類方法和裝置的音頻編碼方法和設備。

背景技術：

眾所周知，音樂信號在頻域中被有效地編碼并且語音信號在時域中被有效地編碼。因此，已經(jīng)提出了對混合了音樂信號和語音信號的音頻信號與音樂信號相應還是與語音信號相應進行分類并且響應于分類的結(jié)果確定編碼模式的各種技術。

然而，編碼模式的頻繁切換導致發(fā)生延遲和恢復的聲音的質(zhì)量的劣化，并且修正初始分類結(jié)果的技術還未提出，因此，當初始信號分類中存在錯誤時，會發(fā)生恢復的聲音質(zhì)量的劣化。

技術實現(xiàn)要素：

技術問題

一個或更多個示例性實施例包括一種能夠通過確定編碼模式以便適合于音頻信號的特征來提高恢復的聲音質(zhì)量的信號分類方法和設備、以及一種采用所述信號分類方法和設備的音頻編碼方法和設備。

一個或更多個示例性實施例包括一種能夠在確定編碼模式以便適合于音頻信號的特征的同時減少由于編碼模式切換而導致的延遲的信號分類方法和設備、以及一種采用所述信號分類方法和設備的音頻編碼方法和設備。

技術方案

根據(jù)一個或更多個示例性實施例，一種信號分類方法包括：將當前幀分類為語音信號和音樂信號中的一個；基于從多個幀獲得的特征參數(shù)，確定在當前幀的分類結(jié)果中是否存在錯誤；并且響應于確定的結(jié)果，修正當前幀的分類結(jié)果。

根據(jù)一個或更多個示例性實施例，一種信號分類設備包括至少一個處理器，其中，所述至少一個處理器被配置為：將當前幀分類為語音信號和音樂信號中的一個，基于從多個幀獲得的特征參數(shù)確定在當前幀的分類結(jié)果中是否存在錯誤，并且響應于確定的結(jié)果修正當前幀的分類結(jié)果。

根據(jù)一個或更多個示例性實施例，一種音頻編碼方法包括：將當前幀分類為語音信號和音樂信號中的一個；基于從多個幀獲得的特征參數(shù)，確定在當前幀的分類結(jié)果中是否存在錯誤；響應于確定的結(jié)果，修正當前幀的分類結(jié)果；并且基于當前幀的分類結(jié)果或修正后的分類結(jié)果，對當前幀進行編碼。

根據(jù)一個或更多個示例性實施例，一種音頻編碼裝置包括至少一個處理器，其中，所述至少一個處理器被配置為：將當前幀分類為語音信號和音樂信號中的一個，基于從多個幀獲得的特征參數(shù)確定在當前幀的分類結(jié)果中是否存在錯誤，響應于確定的結(jié)果修正當前幀的分類結(jié)果，并且基于當前幀的分類結(jié)果或修正后的分類結(jié)果對當前幀進行編碼。

發(fā)明的有益效果

通過基于修正參數(shù)來修正音頻信號的初始分類結(jié)果，可在確定對于音頻信號的特征最優(yōu)的編碼模式的同時防止編碼模式的頻繁切換。

附圖說明

圖1是根據(jù)示例性實施例的音頻信號分類設備的框圖；

圖2是根據(jù)另一示例性實施例的音頻信號分類設備的框圖；

圖3是根據(jù)示例性實施例的音頻編碼設備的框圖；

圖4是用于描述根據(jù)示例性實施例的在CELP核中修正信號分類的方法的流程圖；

圖5是用于描述根據(jù)示例性實施例的在HQ核中修正信號分類的方法的流程圖；

圖6示出根據(jù)示例性實施例的用于在CELP核中修正基于上下文的信號分類的狀態(tài)機；

圖7示出根據(jù)示例性實施例的用于在HQ核中修正基于上下文的信號分類的狀態(tài)機；

圖8是根據(jù)示例性實施例的編碼模式確定設備的框圖；

圖9是用于描述根據(jù)示例性實施例的音頻信號分類方法的流程圖；

圖10是根據(jù)示例性實施例的多媒體裝置的框圖；

圖11是根據(jù)另一示例性實施例的多媒體裝置的框圖；

具體實施方式

以下，將參照附圖詳細地描述本發(fā)明的一方面。在下面的描述中，當確定相關的公知的公式或功能的詳細描述可能模糊要點時，省略詳細的描述。

當描述特定元件“連接”或“鏈接”到另一元件時，應理解，特定元件可直接地或經(jīng)由中間元件連接或鏈接到另一元件。

盡管諸如‘第一’和‘第二’的術語可被用于描述各種元件，但是元件不能被所述術語限制。所述術語可被用于將特定元件與另一元件進行分類。

在實施例中出現(xiàn)的組件被單獨地示出以表示不同特征的功能，但是并不表示每一組件在分離的硬件或單個軟件配置單元中被形成。為了方便描述，組件被示出為單獨的組件，并且一個組件可通過組合兩個組件被形成或者一個組件可被分離成多個組件以執(zhí)行功能。

圖1是示出根據(jù)示例性實施例的音頻信號分類設備的配置的框圖。

圖1所示的音頻信號分類設備100可包括信號分類器110和修正器130。這里，除了需要被實現(xiàn)為單獨的硬件部件的情況外，組件可被整合成至少一個模塊并且被實現(xiàn)為至少一個處理器(未示出)。此外，音頻信號可指示音樂信號、語音信號或音樂和語音的混合信號。

參照圖1，基于各種初始分類參數(shù)，信號分類器110可對音頻信號與音樂信號相應還是與語音信號相應進行分類。音頻信號分類處理可包括至少一個操作。根據(jù)實施例，音頻信號可基于當前幀和多個先前幀的信號特征被分類為音樂信號或語音信號。信號特征可包括短期特征和長期特征中的至少一個。此外，信號特征可包括時域特征和頻域特征中的至少一個。這里，如果音頻信號被分類為語音信號，則音頻信號可使用碼激勵線性預測(CELP)型編碼器被編碼。如果音頻信號被分類為音樂信號，則音頻信號可使用變換編碼器被編碼。例如，變換編碼器可以是例如改進的離散余弦變換(MDCT)編碼器，但不限制于此。

根據(jù)另一示例性實施例，音頻信號分類處理可包括根據(jù)音頻信號是否具有語音特征將音頻信號分類為語音信號和通用音頻信號(即，音樂信號)的第一操作以及確定通用音頻信號是否適用于通用信號音頻編碼器(GSC)的第二操作。可通過結(jié)合第一操作的分類結(jié)果和第二操作的分類結(jié)果來確定音頻信號可被分類為語音信號還是音樂信號。當音頻信號被分類為語音信號時，可由CELP型編碼器對音頻信號進行編碼。根據(jù)比特率或信號特征，CELP型編碼器可包括清音編碼(UC)模式、濁音編碼(VC)模式、瞬態(tài)編碼(TC)模式和通用編碼(GC)模式中的多個模式。通用信號音頻編碼(GSC)模式可由單獨的編碼器實現(xiàn)或者被包括作為CELP型編碼器的一個模式。當音頻信號被分類為音樂信號時，可使用變換編碼器或CELP/變換混合編碼器對音頻信號進行編碼。具體地，變換編碼器可被應用于音樂信號，CELP/變換混合編碼器可被應用于非音樂信號(其中，非音樂信號不是語音信號)或者混合了音樂和語音的信號。根據(jù)實施例，根據(jù)帶寬，可使用CELP型編碼器、CELP/變換混合編碼器和變換編碼器中的所有，或者可使用CELP型編碼器和變換編碼器。例如，CELP型編碼器和變換編碼器可被用于窄帶(NB),CELP型編碼器、CELP/變換混合編碼器和變換編碼器可被用于寬帶(WB)、超寬帶(SWB)和全頻帶(FB)。CELP/變換混合編碼器通過將在時域中操作的基于LP的編碼器和變換域編碼器組合被獲得，并且也可被稱為通用信號音頻編碼器(GSC)。

第一操作的信號分類可基于高斯混合模型(GMM)。各種信號特征可被用于GMM。信號特征的示例可包括開環(huán)基音、歸一化相關、頻譜包絡、音調(diào)穩(wěn)定性、信號非平穩(wěn)性、LP殘留誤差、頻譜差值和頻譜平穩(wěn)性，但不限制于此。用于第二操作的信號分類的信號特征的示例可包括頻譜能量變化特征、LP分析殘留能量的傾斜特征、高頻帶頻譜峰度特征、相關特征、濁化特征和音調(diào)特征，但不限制于此。用于第一操作的特征可被用于確定音頻信號具有語音特征還是非語音特征，以便確定CELP型編碼器是否適用于進行編碼，用于第二操作的特征可被用于確定音頻信號具有音樂特征還是非音樂特征，以便確定GSC是否適用于進行編碼。例如，在第一操作中被分類為音樂信號的一組幀可在第二操作中被改變?yōu)檎Z音信號并隨后通過CELP模式中的一個模式被編碼。也就是說，當音頻信號是大相關性的信號或攻擊信號同時具有大基音周期和高穩(wěn)定性時，音頻信號可在第二操作中被從音樂信號改變到語音信號。編碼模式可根據(jù)上述信號分類的結(jié)果被改變。

修正器130可基于至少一個修正參數(shù)修正或保持信號分類器110的分類結(jié)果。修正器130可基于上下文修正或保持信號分類器110的分類結(jié)果。例如，當當前幀被分類為語音信號時，當前幀可被修正為音樂信號或被保持為語音信號，當當前幀被分類為音樂信號時，當前幀可被修正為語音信號或被保持為音樂信號。為了確定當前幀的分類結(jié)果中是否存在錯誤，包括當前幀的多個幀的特征被使用。例如，八個幀被使用，但實施例不限制于此。

修正參數(shù)可包括音調(diào)、線性預測誤差、濁化和相關性中的至少一個的結(jié)合。這里，音調(diào)可包括1-2KHz范圍的音調(diào)ton2和2-4KHz范圍的音調(diào)ton3，其中，音調(diào)ton2和音調(diào)ton3可分別由公式1和2確定。

$<mrow> <msub> <mi>ton</mi> <mn>2</mn> </msub> <mo>=</mo> <mn>0.2</mn> <mo>*</mo> <msub> <mi>log</mi> <mn>10</mn> </msub> <mo>[</mo> <msqrt> <mrow> <mfrac> <mn>1</mn> <mn>8</mn> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>7</mn> </munderover> <msup> <mrow> <mo>{</mo> <mi>t</mi> <mi>o</mi> <mi>n</mi> <mi>a</mi> <mi>l</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <msup> <mn>2</mn> <mrow> <mo>[</mo> <mo>-</mo> <mi>i</mi> <mo>]</mo> </mrow> </msup> <mo>}</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>]</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <mi>ton</mi> <mn>3</mn> </msub> <mo>=</mo> <mn>0.2</mn> <mo>*</mo> <msub> <mi>log</mi> <mn>10</mn> </msub> <mo>[</mo> <msqrt> <mrow> <mfrac> <mn>1</mn> <mn>8</mn> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>7</mn> </munderover> <msup> <mrow> <mo>{</mo> <mi>t</mi> <mi>o</mi> <mi>n</mi> <mi>a</mi> <mi>l</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <msup> <mn>3</mn> <mrow> <mo>[</mo> <mo>-</mo> <mi>i</mi> <mo>]</mo> </mrow> </msup> <mo>}</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>]</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

其中，上標[-j]表示先前幀。例如，tonality2^[-1]表示一幀先前幀的1-2KHz范圍的音調(diào)。

低頻帶長期音調(diào)ton_LT可被定義為ton_LT＝0.2*log₁₀[lt_tonality]。這里，lt_tonality可表示全頻帶長期音調(diào)。

在第n幀的1-2KHz范圍內(nèi)的音調(diào)ton2和2-4KHz范圍的音調(diào)ton3之間的差值d_ft可被定義為d_ft＝0.2*{log₁₀(tonality2(n))-log₁₀(tonality3(n)))。

下面，線性預測誤差LP_err可由公式3定義。

$<mrow> <msub> <mi>LP</mi> <mrow> <mi>e</mi> <mi>r</mi> <mi>r</mi> </mrow> </msub> <mo>=</mo> <msqrt> <mrow> <mfrac> <mn>1</mn> <mn>8</mn> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>7</mn> </munderover> <msup> <mrow> <mo>[</mo> <msubsup> <mi>FV</mi> <mi>s</mi> <mrow> <mo>[</mo> <mo>-</mo> <mi>i</mi> <mo>]</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

其中，F(xiàn)V_s(9)被定義為FV_s(i)＝sfa_iFV_i+sfb_i(i＝0,...,11)并且對應于通過縮放用于信號分類器110或210的特征參數(shù)中的由公式4定義的LP殘留對數(shù)能量比特征參數(shù)而獲得的值。此外，sfa_i和sfb_i可根據(jù)特征參數(shù)的類型和帶寬而改變，并且用于將每一特征參數(shù)近似到[0；1]的范圍。

$<mrow> <msub> <mi>FV</mi> <mn>9</mn> </msub> <mo>=</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msup> <mi>E</mi> <mrow> <mo>[</mo> <mo>-</mo> <mn>1</mn> <mo>]</mo> </mrow> </msup> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow> <mrow> <msup> <mi>E</mi> <mrow> <mo>[</mo> <mo>-</mo> <mn>1</mn> <mo>]</mo> </mrow> </msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

其中，E(1)表示第一LP系數(shù)的能量，并且E(13)表示第十三LP系數(shù)的能量。

下面，值FV_s(1)與值FV_s(7)之間的差值d_vcor可被定義為d_vcor＝max(FV_s(1)-FV_s(7),0)，其中，值FV_s(1)是通過基于FV_s(i)＝sfa_iFV_i+sfb_i(i＝0,...,11)縮放用于信號分類器110或210的特征參數(shù)中的歸一化相關特征或由公式5定義的濁化特征FV₁而獲得的，值FV_s(7)是基于FV_s(i)＝sfa_iFV_i+sfb_i(i＝0,...,11)通過縮放由公式6定義的相關圖特征FV(7)而獲得的。

$<mrow> <msub> <mi>FV</mi> <mn>1</mn> </msub> <mo>=</mo> <msubsup> <mi>C</mi> <mrow> <mi>n</mi> <mi>o</mi> <mi>r</mi> <mi>m</mi> </mrow> <mrow> <mo>[</mo> <mo>.</mo> <mo>]</mo> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>$

其中，表示在第一或第二半幀中的歸一化相關。

$<mrow> <msub> <mi>FV</mi> <mn>7</mn> </msub> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>127</mn> </munderover> <msub> <mi>M</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>r</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>+</mo> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>127</mn> </munderover> <msubsup> <mi>M</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>r</mi> </mrow> <mrow> <mo>[</mo> <mo>-</mo> <mn>1</mn> <mo>]</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>$

其中，M_cor表示一幀的相關圖。

包括條件1至4中的至少一個的修正參數(shù)可單獨地或組合地使用多個特征參數(shù)來生成。這里，條件1和條件2可指示語音狀態(tài)SPEECH_STATE可被改變所依據(jù)的條件，條件3和4可指示音樂狀態(tài)MUSIC_STATE可被改變所依據(jù)的條件。具體地，條件1使語音狀態(tài)SPEECH_STATE能夠被從0改變到1，條件2使語音狀態(tài)SPEECH_STATE能夠被從1改變到0。此外，條件3使音樂狀態(tài)MUSIC_STATE能夠被從0改變到1，條件4使音樂狀態(tài)能夠被從1改變到0。1的語音狀態(tài)SPEECH_STATE可指示語音概率高(也就是說，CELP型編碼是適合的)，0的語音狀態(tài)SPEECH_STATE可指示非語音概率高。1的音樂狀態(tài)MUSIC_STATE可指示變換編碼是適合的，0的音樂狀態(tài)MUSIC_STATE可指示CELP/變換混合編碼(即，GSC)是適合的。作為另一示例，1的音樂狀態(tài)MUSIC_STATE可指示變換編碼是適合的，0的音樂狀態(tài)MUSIC_STATE可指示CELP型編碼是適合的。

例如，條件1(f_A)可被定義如下。也就是說，當d_vcor>0.4且d_ft<0.1且FV_s(1)>(2*FV_s(7)+0.12)且ton₂<d_vcor且ton₃<d_vcorANDton_LT<d_vcor且FV_s(7)<d_vcor且FV_s(1)>d_vcor且FV_s(1)>0.76時，f_A可被設置為1。

例如，條件2(f_B)可被定義如下。也就是說，當d_vcor<0.4時，f_B可被設置為1。

例如，條件3(f_C)可被定義如下。也就是說，當0.26<ton₂<0.54且ton₃>0.22且0.26<ton_LT<0.54且LP_err>0.5時，f_C可被設置為1。

例如，條件4(f_D)可被定義如下。也就是說，當ton₂<0.34且ton₃<0.26且0.26<ton_LT<0.45時，f_D可被設置為1。

用于生成每個條件的特征或特征集不限于此。此外，每個常數(shù)值僅是示例性的并且可根據(jù)實現(xiàn)方法被設置為最優(yōu)值。

具體地，修正器130可通過使用兩個獨立的狀態(tài)機(例如，語音狀態(tài)機和音樂狀態(tài)機)修正初始分類結(jié)果中的錯誤。每個狀態(tài)機具有兩個狀態(tài)，并且可在每一狀態(tài)中使用遲滯來防止頻繁切換。例如，遲滯可包括六幀。當語音狀態(tài)機中的遲滯變量由hang_sp表示并且音樂狀態(tài)機中的遲滯變量由hang_mus表示時，如果分類結(jié)果在給定狀態(tài)下被改變，則每個變量被初始化為6，并且此后，針對后續(xù)的每個幀，遲滯減少1。在每一個狀態(tài)機中，可使用通過組合從音頻信號提取的至少一個特征而產(chǎn)生的修正參數(shù)。

圖2是示出根據(jù)另一實施例的音頻信號分類設備的配置的框圖。

圖2所示的音頻信號分類設備200可包括信號分類器210、修正器230和精細分類器250。圖2的音頻信號分類設備200與圖1的音頻信號分類設備100的不同在于圖2的音頻信號分類設備200還包括精細分類器250，而信號分類器210和修正器230的功能與參照圖1所描述的相同，因此信號分類器210和修正器230的功能的詳細描述被省略。

參照圖2，精細分類器250可基于精細分類參數(shù)對由修正器230修正或保持的分類結(jié)果進行精細分類。根據(jù)實施例，精細分類器250將通過確定是否音頻信號適合于由CELP/變換混合編碼器(例如，GSC)進行編碼，修正被分類為音樂信號的音頻信號。在這種情況下，作為修正方法，特定參數(shù)或標志被改變以不選擇變換編碼器。當從修正器230輸出的分類結(jié)果指示音樂信號時，精細分類器250可再次執(zhí)行精細分類來對音頻信號是音樂信號還是語音信號進行分類。當精細分類器250的分類結(jié)果指示音樂信號時，變換編碼器也可被用于在第二編碼模式下對音頻信號進行編碼，當精細分類器250的分類結(jié)果指示語音信號時，可使用CELP/變換混合編碼器在第三編碼模式下對音頻信號進行編碼。當從修正器230輸出的分類結(jié)果指示語音信號時，可使用CELP型編碼器在第一編碼模式下對音頻信號進行編碼。例如，精細分類參數(shù)可包括諸如音調(diào)、濁化、相關性、基音增益和基音差的特征但不限制于此。

圖3是示出根據(jù)實施例的音頻編碼設備的配置的框圖。

圖3所示的音頻編碼設備300可包括編碼模式確定器310和編碼模塊330。編碼模式確定器310可包括圖1的音頻信號分類設備100或圖2的音頻信號分類設備200的組件。編碼模塊330可包括第一至第三編碼器331、333和335。這里，第一編碼器331可對應于CELP型編碼器，第二編碼器333可對應于CELP/變換混合編碼器，第三編碼器335可對應于變換編碼器。當GSC被實現(xiàn)為CELP型編碼器的一個模式時，編碼模塊330可包括第一編碼器331和第三編碼器335。根據(jù)比特率或帶寬，編碼模塊330和第一編碼器331可具有各種配置。

參照圖3，編碼模式確定器310可基于信號特征對音頻信號是音樂信號還是語音信號進行分類，并且響應于分類結(jié)果確定編碼模式。編碼模式可在超幀單元、幀單元或帶單元中被執(zhí)行。可選地，編碼模式可在多個超幀組、多個幀組或多個帶組的單元中被執(zhí)行。這里，編碼模式的示例可包括變化域模式和線性預測域模式這兩種類型，但不限于此。線性預測域模式可包括UC、VC、TC和GC模式。GSC模式可被分類為單獨的編碼模式或被包括在線性預測域模式的子模式中。當處理器的性能、處理速度等被支持并且由于編碼模式切換而導致的延遲可被解決時，編碼模式還可被細分，并且編碼方案也可響應于編碼模式被細分。具體地，編碼模式確定器310可基于初始分類參數(shù)將音頻信號分類為音樂信號和語音信號中的一個。基于修正參數(shù)，編碼模式確定器310可將作為音樂信號的分類結(jié)果修正為語音信號或保持音樂信號，或者將作為語音信號的分類結(jié)果修正為音樂信號或保持語音信號。編碼模式確定器310可基于精細分類參數(shù)將修正的或保持的分類結(jié)果(例如，作為音樂信號的分類結(jié)果)分類為音樂信號和語音信號中的一個。編碼模式確定器310可通過使用最終分類結(jié)果確定編碼模式。根據(jù)實施例，編碼模式確定器310可基于比特率和帶寬中的至少一個確定編碼模式。

在編碼模塊330中，當修正器130或230的分類結(jié)果對應于語音信號時，第一編碼器331可進行操作。當修正器130的分類結(jié)果對應于音樂信號時，或者當精細分類器350的分類結(jié)果對應于語音信號時，第二編碼器333可進行操作。當修正器130的分類結(jié)果對應于音樂信號時，或者當精細分類器350的分類結(jié)果對應于音樂信號時，第三編碼器335可進行操作。

圖4是用于描述根據(jù)實施例的在CELP核中修正信號分類的方法的流程圖，并且可由圖1的修正器130或圖2的修正器230執(zhí)行。

參數(shù)圖4，在操作410中，可接收修正參數(shù)，例如，條件1和條件2。此外，在操作410中，可接收語音狀態(tài)機的遲滯信息。在操作410中，還可接收初始分類結(jié)果。初始分類結(jié)果可從圖1的信號分類器110或圖2的信號分類器210提供。

在操作420中，可確定是否初始分類結(jié)果(即，語音狀態(tài))是0、條件1(f_A)是1并且語音狀態(tài)機的遲滯hang_sp是0。如果在操作420中確定初始分類結(jié)果(即，語音狀態(tài))是0、條件1是1并且語音狀態(tài)機的遲滯hang_sp是0，則在操作430中，語音狀態(tài)可被改變?yōu)?并且遲滯可被初始化為6。初始化后的遲滯值可被提供給操作460。否則，如果在操作420中語音狀態(tài)不是0、條件1不是1或者語音狀態(tài)機的遲滯hang_sp不是0，則所述方法可繼續(xù)到操作440。

在操作440中，可確定是否初始分類結(jié)果(即，語音狀態(tài))是1、條件2(f_B)是1并且語音狀態(tài)機的遲滯hang_sp是0。如果在操作440中確定語音狀態(tài)是1、條件2是1并且語音狀態(tài)機的遲滯hang_sp是0，則在操作450中，語音狀態(tài)可被改變?yōu)?并且hangover_sp可被初始化為6。初始化后的遲滯值可被提供給操作460。否則，如果在操作440中語音狀態(tài)不是1、條件2不是1或者語音狀態(tài)機的遲滯hang_sp不是0，則所述方法可繼續(xù)到操作460，以執(zhí)行用于將遲滯減小1的遲滯更新。

圖5是用于描述根據(jù)實施例的在高質(zhì)量(HQ)核中修正信號分類的方法的流程圖，并且可由圖1的修正器130或圖2的修正器230執(zhí)行。

參照圖5，在操作510中，可接收修正參數(shù)，例如，條件3和條件4。此外，在操作510中，可接收音樂狀態(tài)機的遲滯信息。在操作510中，還可接收初始分類結(jié)果。初始分類結(jié)果可從圖1的信號分類器110或圖2的信號分類器210提供。

在操作520中，可確定是否初始分類結(jié)果(即，音樂狀態(tài))是1、條件3(f_C)是1并且音樂狀態(tài)機的遲滯hang_mus是0。如果在操作520中確定初始分類結(jié)果(即，音樂狀態(tài))是1、條件3是1并且音樂狀態(tài)機的遲滯hang_mus是0，則在操作530中，音樂狀態(tài)可被改變?yōu)?并且遲滯可被初始化為6。初始化后的遲滯值可被提供給操作560。否則，如果在操作520中音樂狀態(tài)不是1、條件3不是1或者音樂狀態(tài)機的遲滯hang_mus不是0，則所述方法可繼續(xù)到操作540。

在操作540中，可確定是否初始分類結(jié)果(即，音樂狀態(tài))是0、條件4(f_D)是1并且音樂狀態(tài)機的遲滯hang_sp是0。如果在操作540中確定音樂狀態(tài)是0、條件4是1并且音樂狀態(tài)機的遲滯hang_mus是0，則在操作550中，音樂狀態(tài)可被改變?yōu)?并且遲滯hang_mus可被初始化為6。初始化后的遲滯值可被提供到操作560。否則，如果在操作540中語音狀態(tài)不是0、條件4不是1或者音樂狀態(tài)機的遲滯hang_mus不是0，則所述方法可繼續(xù)到操作560，以執(zhí)行用于將遲滯減少1的遲滯更新。

圖6示出根據(jù)實施例的用于在適用于CELP核的狀態(tài)(即，語音狀態(tài)下)下修正基于上下文的信號分類的狀態(tài)機，并且可與圖4對應。

參照圖6，在修正器(圖1的130或230)中，可根據(jù)由音樂狀態(tài)機確定的音樂狀態(tài)和由語音狀態(tài)機確定的語音狀態(tài)來應用對分類結(jié)果的修正。例如，當初始分類結(jié)果被設置為音樂信號時，音樂信號可基于修正參數(shù)被改變?yōu)檎Z音信號。具體地，當初始分類結(jié)果的第一操作的分類結(jié)果指示音樂信號并且語音狀態(tài)是1時，第一操作的分類結(jié)果和第二操作的分類結(jié)果兩者可被改變?yōu)檎Z音信號。在這種情況下，可以確定在初始分類結(jié)果中存在錯誤，從而修正分類結(jié)果。

圖7示出根據(jù)實施例的在針對高質(zhì)量(HQ)核的狀態(tài)(例如，音樂狀態(tài))下修正基于上下文的信號分類的狀態(tài)機，并且可與圖5對應。

參照圖7，在修正器(圖1的130或230)中，可根據(jù)由音樂狀態(tài)機確定的音樂狀態(tài)和由語音狀態(tài)機確定的語音狀態(tài)應用對分類結(jié)果的修正。例如，當初始分類結(jié)果被設置為語音信號時，語音信號可基于修正參數(shù)被改變?yōu)橐魳沸盘?。具體地，當初始分類結(jié)果的第一操作的分類結(jié)果指示語音信號并且音樂狀態(tài)是1時，第一操作的分類結(jié)果和第二操作的分類結(jié)果兩者可被改變?yōu)橐魳沸盘枴．敵跏挤诸惤Y(jié)果被設置為音樂信號時，音樂信號可基于修正參數(shù)被改變?yōu)檎Z音信號。在這種情況下，可以確定在初始分類結(jié)果中存在錯誤，從而修正分類結(jié)果。

圖8是示出根據(jù)實施例的編碼模式確定設備的配置的框圖。

圖8所示的編碼模式確定設備可包括初始編碼模式確定器810和修正器830。

參照圖8，初始編碼模式確定器810可確定音頻信號是否具有語音特征，并且當音頻信號具有語音特征時可將第一編碼模式確定為初始編碼模式。在第一編碼模式下，可由CELP型編碼器對音頻信號進行編碼。當音頻信號具有非語音特征時，初始編碼模式確定器810可將第二編碼模式確定為初始編碼模式。在第二編碼模式下，可由變換編碼器對音頻信號進行編碼。可選地，當音頻信號具有非語音特征時，初始編碼模式確定器810可根據(jù)比特率將第二編碼模式和第三編碼模式中的一個確定為初始編碼模式。在第三編碼模式下，可由CELP/變換混合編碼器對音頻信號進行編碼。根據(jù)實施例，初始編碼模式確定器810可使用三種方式的方案。

當初始編碼模式被確定為第一編碼模式時，修正器830可基于修正參數(shù)將初始編碼模式修正為第二編碼模式。例如，當初始分類結(jié)果指示語音信號但是具有音樂特征時，初始分類結(jié)果可被修正為音樂信號。當初始編碼模式被確定為第二編碼模式時，修正器830可基于修正參數(shù)將初始編碼模式修正為第一編碼模式或第三編碼模式。例如，當初始分類結(jié)果指示音樂信號但是具有語音特征時，初始分類結(jié)果可被修正為語音信號。

圖9是用于描述根據(jù)實施例的音頻信號分類方法的流程圖。

參照圖9，在操作910中，音頻信號可被分類為音樂信號和語音信號中的一個。具體地，在操作910中，可基于信號特征對當前幀對應于音樂信號還是語音信號進行分類。操作910可由圖1的信號分類器110或圖2的信號分類器210執(zhí)行。

在操作930中，可基于修正參數(shù)確定操作910的分類結(jié)果中是否存在錯誤。如果在操作930中確定分類結(jié)果中存在錯誤，則可在操作950中修正分類結(jié)果。如果在操作930中確定分類結(jié)果中不存在錯誤，則在操作970中保持分類結(jié)果不變。操作930至操作970可由圖1的修正器130或圖2的修正器230執(zhí)行。

圖10是示出根據(jù)實施例的多媒體裝置的配置的框圖。

圖10所示的多媒體裝置1000可包括通信單元1010和編碼模塊1030。此外，根據(jù)音頻比特流的使用，還可包括用于存儲獲得的作為編碼結(jié)果的音頻比特流的存儲單元1050。此外，多媒體裝置1000還可包括麥克風1070。也就是說，存儲單元1050和麥克風1070可選擇性地被提供。根據(jù)示例性實施例，圖28所示的多媒體裝置1000還可包括任意解碼裝置(未示出)，例如，用于執(zhí)行通用解碼功能的解碼模塊或根據(jù)示例性實施例的解碼模塊。這里，編碼模塊1030可與提供給多媒體裝置1000的其他組件(未示出)集成并且被實現(xiàn)為至少一個處理器(未示出)。

參照圖10，通信單元1010可接收從外部提供的音頻和編碼比特流中的至少一個，或者發(fā)送重建的音頻和獲得的作為編碼模塊1030的編碼結(jié)果的音頻比特流中的至少一個。

通信單元1010被配置為用于能夠通過無線網(wǎng)絡(諸如無線互聯(lián)網(wǎng)、無線內(nèi)聯(lián)網(wǎng)、無線電話網(wǎng)、無線局域網(wǎng)(LAN)、Wi-Fi網(wǎng)絡、Wi-Fi直連(WFD)網(wǎng)絡、第三代(3G)網(wǎng)絡、4G網(wǎng)絡、藍牙網(wǎng)絡、紅外數(shù)據(jù)協(xié)會(IrDA)網(wǎng)絡、射頻識別(RFID)網(wǎng)絡、超寬帶(UWB)網(wǎng)絡、ZigBee網(wǎng)絡和近場通信(NFC)網(wǎng)絡)或者有線網(wǎng)絡(諸如有線電話網(wǎng)絡或有線互聯(lián)網(wǎng))向外部多媒體裝置或服務器發(fā)送數(shù)據(jù)或從外部多媒體裝置或服務器接收數(shù)據(jù)。

根據(jù)實施例，編碼模塊1030可對時域的音頻信號進行編碼，其中，時域的音頻信號通過通信單元1010或麥克風1070被提供?？墒褂脠D1至圖9所示的設備或方法實現(xiàn)編碼處理。

存儲單元1050可存儲操作多媒體裝置1000所需的各種程序。

麥克風1070可向編碼模塊1030提供用戶或外部的音頻信號。

圖11是示出根據(jù)另一實施例的多媒體裝置的配置的框圖。

圖11所示的多媒體裝置1100可包括通信單元1110、編碼模塊1120和解碼模塊1130。此外，根據(jù)音頻比特流或重建的音頻信號的使用，還可包括用于存儲獲得的作為編碼結(jié)果的音頻比特流或獲得的作為解碼結(jié)果的重建的音頻信號的存儲單元1140。此外，多媒體裝置1100還可包括麥克風1150或揚聲器1160。這里，編碼模塊1120和解碼模塊1130可與提供給多媒體裝置1100的其他組件(未示出)集成，并被實現(xiàn)為至少一個處理器(未示出)。

省略了圖11中示出的組件之中的與圖10中所示的多媒體裝置1000中的組件相同的組件的詳細描述。

解碼模塊1130可接收通過通信單元1110提供的比特流并且對包括在比特流中的音頻頻譜進行解碼。解碼模塊1130可與圖3的編碼模塊330相應地被實現(xiàn)。

揚聲器1170可向外部輸出由解碼模塊1130生成的重建的音頻信號。

圖10所示的多媒體裝置1000和圖11所示的多媒體裝置1100可包括語音通信專用終端(包括電話或移動電話)、廣播或音樂專用裝置(包括TV或MP3播放器)或語音通信專用終端和廣播或音樂專用裝置的混合終端裝置，但不限于此。此外，多媒體轉(zhuǎn)置1000或1100可被用作布置在客戶端中、服務器中或者在客戶端和服務器之間的換能器。

例如，當多媒體裝置1000或1100是移動電話時，盡管未示出，但還可包括用戶輸入單元(諸如，鍵盤)、用于顯示用戶界面或由移動電話處理的信息的顯示單元以及用于控制移動電話的通用功能的處理器。此外，移動電話還可包括具有圖像拾取功能的相機單元以及用于執(zhí)行由移動電話所需的功能的至少一個組件。

例如，當多媒體轉(zhuǎn)置1000或1100是TV時，盡管未示出，但還可包括用戶輸入單元(諸如鍵盤)、用于顯示接收到的廣播信息的顯示單元和用于控制TV的通用功能的處理器。此外，TV還可包括用于執(zhí)行由TV所需要的功能的至少一個組件。

根據(jù)實施例的所述方法可通過計算機可執(zhí)行的程序被編輯并且通過使用計算機可讀記錄介質(zhì)在用于執(zhí)行程序的通用數(shù)字計算機中被實現(xiàn)。此外，可在本發(fā)明的實施例中使用的數(shù)據(jù)結(jié)構(gòu)、程序命令或數(shù)據(jù)文件可通過各種方式被記錄在計算機可讀記錄介質(zhì)中。計算機可讀記錄介質(zhì)可包括用于存儲可由計算機系統(tǒng)讀取的數(shù)據(jù)的所有類型的存儲裝置。計算機可讀記錄介質(zhì)的示例包括磁介質(zhì)(諸如硬盤、軟盤或磁帶)、光學介質(zhì)(諸如壓縮盤只讀存儲器(CD-ROM)或數(shù)字通用盤(DVD))、磁光介質(zhì)(諸如軟光盤)和被專門配置為用于存儲并實施程序命令的硬件裝置(諸如ROM、RAM或閃存)。此外，計算機可讀記錄介質(zhì)可以是用于傳輸用于指定程序命令、數(shù)據(jù)結(jié)構(gòu)等的信號的傳輸介質(zhì)。程序命令的示例包括可由計算機使用解釋器執(zhí)行的高級語言代碼和由編譯器生成的機器語言代碼。

盡管已參照有限的實施例和附圖描述了本發(fā)明的實施例，但是本發(fā)明的實施例不限于以上描述的實施例，并且它們的更新和修改可從本公開由本領域的普通技術人員進行各種實施。因此，本發(fā)明的范圍不是由以上描述定義的而是由權利要求定義，并且它們所有的相同或等同的修改將屬于本發(fā)明的技術構(gòu)思的范圍。

完整全部詳細技術資料下載

當前第1頁1 2 3