音頻信號的分類方法及裝置的制作方法

文檔序號：2823431閱讀：285來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：音頻信號的分類方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及通信技術(shù)領(lǐng)域語音頻技術(shù)，尤其涉及一種音頻信號的分類方法及裝置。
背景技術(shù)：
語音編碼器擅長于在中低碼率下對語音類型的音頻信號進(jìn)行編碼，而對音樂類型的音頻信號編碼效果則欠佳；音頻編碼器適用于在高碼率下對語音類型和音樂類型的音頻信號進(jìn)行編碼，但在中低碼率下對語音類型的音頻信號編碼效果不夠理想。在現(xiàn)有技術(shù)當(dāng)中，在中低編碼速率下，目前還沒有一種編碼器能夠完全適用于mixed contents ofspeech and music。針對該問題，MPEG音頻組提出一個新的適用于中低編碼速率的編碼器 USAC (unified speech and audiocoding)，USAC 編碼器的處理流程為1)首先利用信號分類模塊(Signal Classifier)判別信號屬于 speech-likecontent,或是屬于 music-like content ；2)根據(jù)信號類型的不同，在frame-per-frame基礎(chǔ)上選擇不同的編碼方法對于speech-like content，選擇基于ACELP/TCX的語音編碼器；對于music-like content，選擇基于心理聲學(xué)模型的音頻編碼器。由此可以充分利用現(xiàn)有的語音編碼器及音頻編碼器的優(yōu)點(diǎn)，利用單一編碼器就能為mixed contents of speech and music提供較好的編石馬質(zhì)量。其中，USAC編碼器對于信號分類模塊的要求主要有1)識別正確率較高，以便在后續(xù)編碼過程中能夠充分發(fā)揮語音編碼器及音頻編碼器的作用；2)實(shí)時分類，不為編碼器引入額外延時；3)低復(fù)雜度，不為編碼器引入過多的計(jì)算復(fù)雜度?，F(xiàn)有技術(shù)中一種實(shí)時識別語音信號與音樂信號的方法包括1)利用窗函數(shù)將輸入信號劃分為一系列的overlapped frame ；2)利用FFT變換計(jì)算每幀的頻譜系數(shù)；3)基于頻譜系數(shù)，對于每個segment，計(jì)算五個方面的特征參數(shù)harmony、noise、 tail、drag out 及 rhythm ；4)基于上述特征參數(shù)，把音頻信號分為六類SPEECH_TYPE、MUSIC_TYPE、NOISE_ TYPE、SH0R_SEGM、UNDETER_TYPE 及 SH0R_UNDETER_TYPE。在實(shí)現(xiàn)上述判別音頻信號的類型的過程中，發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題該技術(shù)提取了較多的特征參數(shù)，對于信號的分類較為全面，但也會導(dǎo)致分類算法復(fù)雜度較高，難以滿足實(shí)時編碼低復(fù)雜度的需求；該技術(shù)將音頻信號分為六類，不能完全滿足 USAC編碼器的需求
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種音頻信號的分類方法及裝置，在滿足編碼低復(fù)雜度情況下提高音頻信號分類的準(zhǔn)確性。根據(jù)本發(fā)明的一實(shí)施例，提供一種音頻信號的分類方法，包括獲得待分類音頻信號的音調(diào)特征；根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果；對當(dāng)前幀進(jìn)行初始邊界分析，獲得當(dāng)前幀邊界信息；利用分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理，輸出待編碼幀的分類結(jié)^ ο根據(jù)本發(fā)明的另一實(shí)施例，提供一種音頻信號的分類裝置，包括特征獲得單元，用于獲得待分類音頻信號的音調(diào)特征；初步分類單元，用于根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果；邊界信息獲得單元，用于對當(dāng)前幀進(jìn)行初始邊界分析，獲得當(dāng)前幀邊界信息；平滑單元，用于利用分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理，輸出待編碼幀的分類結(jié)果。本發(fā)明實(shí)施例根據(jù)音調(diào)特征對音頻信號進(jìn)行初始分類，算法復(fù)雜度低，選取的音頻特征能較好的反應(yīng)語音信號與音樂信號的區(qū)別，分類準(zhǔn)確性較高；同時利用邊界信息對初始分類結(jié)果進(jìn)行平滑處理，在同一邊界區(qū)域內(nèi)進(jìn)行平滑處理，降低誤判率，進(jìn)一步提高分類準(zhǔn)確度和適用范圍。

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明提供的音頻信號的分類方法一個實(shí)施例的流程示意圖；圖2為本發(fā)明提供的音頻信號的分類方法另一個實(shí)施例的流程示意圖；圖3為頻譜傾斜度均方差示意圖；圖4為音調(diào)個數(shù)均值示意圖；圖5為音調(diào)分量在低頻的分布比率示意圖；圖6為頻譜傾斜度波動情況示意圖；圖7為本發(fā)明提供的初始分類的一個實(shí)施例的流程示意圖；圖8為本發(fā)明提供的初始分類的另一個實(shí)施例的流程示意圖；圖9為本發(fā)明提供的初始分類的另一個實(shí)施例的流程示意圖；圖10為本發(fā)明提供的初始分類的另一個實(shí)施例的流程示意圖；圖11為本發(fā)明提供的初始分類的另一個實(shí)施例的流程示意圖；圖12為本發(fā)明提供的平滑處理的一個實(shí)施例的流程示意圖；圖13為本發(fā)明提供的音頻信號的分類裝置一個實(shí)施例的結(jié)構(gòu)示意圖14為本發(fā)明提供的初步分類單元的一個實(shí)施例的結(jié)構(gòu)示意圖；圖15為本發(fā)明提供的平滑單元的一個實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。參照圖1所示，一種音頻信號的分類方法的一個實(shí)施例，該方法包括如下步驟SlOl 獲得待分類音頻信號的音調(diào)特征。一般情況下，對當(dāng)前幀音頻信號及前若干幀音頻信號作為待分類音頻信號，進(jìn)行分類。對每一幀音頻信號，獲得該音頻信號的音調(diào)特征并進(jìn)行分類。在一個實(shí)施例中音調(diào)特征包括音調(diào)個數(shù)均值、音調(diào)分量在低頻的分布比率。在另一個實(shí)施例中音調(diào)特征包括音調(diào)分量在不同頻帶的分布比值。S102:根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果。初步分類可以有多種方法，在一個實(shí)施例中，采用如下方法進(jìn)行分類音調(diào)個數(shù)均值大于第一門限值的音頻信號，初步判定結(jié)果為音樂信號；音調(diào)分量在低頻的分布小于第二門限值的音頻信號，初步判定結(jié)果為音樂信號；其他信號為語音信號。其中，第一門限值和第二門限值一般根據(jù)經(jīng)驗(yàn)值設(shè)定，例如第一門限值為15，第二門限值為0. 935。在另一種實(shí)施例中，在采用上述方法進(jìn)行分類后，還可以采用較為嚴(yán)格的門限值將分類結(jié)果中的語音信號或音樂信號標(biāo)示為確定類型。例如音調(diào)個數(shù)均值大于第一確定門限值的音頻信號，為音樂信號，標(biāo)示為確定類型；音調(diào)個數(shù)均值小于第二確定門限值的音頻信號，為語音信號，標(biāo)示為確定類型；音調(diào)分量在低頻的分布小于第三確定門限值的音頻信號，為音樂信號，標(biāo)示為確定類型。其中，第一確定門限值大于第一門限值，第二確定門限值小于第一門限值，第三確定門限值小于第二門限值。一般根據(jù)經(jīng)驗(yàn)值設(shè)定，例如第一確定門限值為17，第二確定門限值為3，第三確定門限值為0.91。S103 根據(jù)提取到的特征對當(dāng)前幀進(jìn)行初始邊界分析，獲得當(dāng)前幀邊界信息。邊界信息表示音頻信號類型變化的邊界。邊界信息包括三類BORDER_SPEECH_MUSIC(語音音樂邊界)，由語音信號切換為音樂信號的邊界；BORDER_MUSIC_SPEECH(音樂語音邊界)，由音樂信號切換為語音信號的邊界；N0_B0RDER(非邊界)，非信號切換處。獲取邊界信息的一個實(shí)施例如下利用長短時特征的相對變化情況進(jìn)行初始邊界分析如果長時音調(diào)個數(shù)均值保持音樂特征，而短時音調(diào)個數(shù)均值出現(xiàn)語音特征，則邊界分析結(jié)果為 BORDER_MUSIC_SPEECH ；進(jìn)一步的，可以根據(jù)初始分類結(jié)果修正邊界信息如果當(dāng)前幀的初始分類結(jié)果為MUSIC_DEFINITE，并且當(dāng)前幀之前的若干幀均為語音信號，則邊界分析結(jié)果為BORDER_SPEECH_MUSIC ；如果當(dāng)前幀的初始分類結(jié)果為SPEECH_DEFINITE，并且當(dāng)前幀之前的若干幀均為音樂信號，則邊界分析結(jié)果為BORDER_MUSIC_SPEECH。S104 利用待編碼幀的分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理，輸出待編碼幀的分類結(jié)果。在音頻編碼中，當(dāng)前幀不會立即被編碼，需要經(jīng)過若干幀編碼延時后才會被編碼。例如，編碼延時為5幀，當(dāng)前幀為第η幀，那么待編碼幀就是第(η-5)幀。平滑處理不能越過邊界，用于避免誤判擴(kuò)散。一個實(shí)施例中，利用前若干幀的初始分類結(jié)果和邊界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理。將待編碼幀及位于同一邊界區(qū)域內(nèi)的前若干幀信息組成待平滑區(qū)域進(jìn)行平滑處理分別統(tǒng)計(jì)該區(qū)域內(nèi)初始分類結(jié)果為語音的幀個數(shù)和初始分類結(jié)果為音樂的幀個數(shù)。如果音樂幀個數(shù)大于語音幀個數(shù)，則將分類結(jié)果修正為音樂信號；如果音樂幀個數(shù)小于語音幀個數(shù)，則將分類結(jié)果修正為語音信號。分為三種情況說明1.如果待編碼幀離邊界幀較遠(yuǎn)，則可以在待編碼幀和邊界幀之間選取固定數(shù)量的信號幀組成待平滑區(qū)域。例如，待編碼幀與邊界幀之間大于100幀，那么就可以取待編碼幀及前90幀組成一個待平滑區(qū)域，如下圖標(biāo)注有底紋的區(qū)域
邊界待編碼幀2.如果待編碼幀離邊界較近，則可以將待編碼幀和邊界幀之間所有信號幀組成待平滑區(qū)域。例如，待編碼幀與邊界幀之間小于100幀，只有30幀，那么就取這30幀組成待
平滑區(qū)域，如下圖標(biāo)注有底紋的區(qū)域
ΨΦ—-
邊界待編碼幀3.如果待編碼幀就是邊界幀，則不進(jìn)行平滑處理，直接將初始分類結(jié)果作為最終分類結(jié)果。進(jìn)一步的，當(dāng)初始分類結(jié)果包含確定標(biāo)識時，首先判斷該音頻信號初始分類結(jié)果是否包含確定標(biāo)識，如果包含確定標(biāo)識則不進(jìn)行平滑處理；如果不包含確定標(biāo)識，則進(jìn)行平
滑處理。在另一個實(shí)施例中，利用前若干幀的初始分類結(jié)果和邊界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理，輸出初次平滑結(jié)果；利用位于待編碼幀和當(dāng)前幀之間若干幀的邊界信息和能量信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理，輸出分類結(jié)果如果過去若干幀(屬于經(jīng)驗(yàn)數(shù)據(jù)，可以靈活設(shè)置)內(nèi)存在靜音幀，且待編碼幀與當(dāng)前幀之間出現(xiàn)邊界的情況下，需要對初次平滑結(jié)果進(jìn)行修正如果該邊界信息為B0RDER_ MUSIC_SPEECH，則將待編碼幀的分類結(jié)果修正為語音；否則，將待編碼幀的分類結(jié)果修正為
曰爾O
本發(fā)明實(shí)施例中，根據(jù)音調(diào)特征對音頻信號進(jìn)行初始分類，算法復(fù)雜度低，選取的音頻特征能較好的反應(yīng)語音信號與音樂信號的區(qū)別，分類準(zhǔn)確性較高；同時利用邊界信息對初始分類結(jié)果進(jìn)行平滑處理，在同一邊界區(qū)域內(nèi)進(jìn)行平滑處理，降低誤判率，提高分類準(zhǔn)確度和適用范圍。進(jìn)一步的，在初始分類過程中，分別設(shè)置較為嚴(yán)格的門限和較為寬松的門限，對較為嚴(yán)格門限值判斷出來的初始分類結(jié)果，不進(jìn)行平滑處理，進(jìn)一步提高分類準(zhǔn)確度。參照圖2所示，一種音頻信號的分類方法的另一個實(shí)施例，該方法包括如下步驟S201 將當(dāng)前幀及前若干幀數(shù)據(jù)作為待分析數(shù)據(jù)，提取音調(diào)特征及頻譜傾斜度特征；一般情況下，對當(dāng)前幀音頻信號及前若干幀音頻信號作為待分類音頻信號，進(jìn)行分類。對每一幀音頻信號，獲得該音頻信號的音調(diào)特征。在一個實(shí)施例中音調(diào)特征包括音調(diào)個數(shù)均值、音調(diào)分量在低頻的分布比率。在另一個實(shí)施例中音調(diào)特征包括音調(diào)個數(shù)均值、音調(diào)分量在不同頻帶的分布比值。頻譜傾斜度特征可以包括頻譜傾斜度均方差。S202:根據(jù)音調(diào)特征值和頻譜傾斜度特征對當(dāng)前幀進(jìn)行初始分類，輸出初始分類結(jié)果；初步分類可以有多種方法，在一個實(shí)施例中，采用如下方法進(jìn)行分類頻譜傾斜度均方差小于第三門限的，為音樂信號；音調(diào)個數(shù)均值大于第一門限值的，為音樂信號；音調(diào)分量在低頻的分布小于第二門限值的，為音樂信號；音頻信號的頻譜均方差在預(yù)設(shè)的時間內(nèi)取值小于第四門限值的，為音樂信號，其中第四門限值大于第三門限值；其他信號為語音信號。其中，第一門限值、第二門限值和第三門限值一般根據(jù)經(jīng)驗(yàn)值設(shè)定，例如第一門限值為15，第二門限值為0. 935，第三門限值為0. 0002。在另一種實(shí)施例中，在采用上述方法進(jìn)行分類后，還可以采用較為嚴(yán)格的門限值將分類結(jié)果中的語音信號或音樂信號標(biāo)示為確定類型。例如音調(diào)個數(shù)均值大于第一確定門限值的，為音樂信號，標(biāo)示為確定類型；音調(diào)個數(shù)均值小于第二確定門限值的，為語音信號，標(biāo)示為確定類型；音調(diào)分量在低頻的分布小于第三確定門限值的，為音樂信號，標(biāo)示為確定類型；頻譜傾斜度均方差小于第四確定門限值的，為音樂信號，標(biāo)示為確定類型；頻譜傾斜度均方差大于第五確定門限值的，為語音信號，標(biāo)示為確定類型。其中，第一確定門限值大于第一門限值，第三確定門限值小于第二門限值，第四確定門限值小于第三門限值，，第五確定門限值大于第三門限值。一般根據(jù)經(jīng)驗(yàn)值設(shè)定各門限值，例如第一確定門限值為17，第二確定門限值為3，第三確定門限值為0. 91 ；第四確定門限值為0. 00004 ；第五確定門限值為0. 01。S203 根據(jù)提取到的特征對當(dāng)前幀進(jìn)行初始邊界分析，獲得當(dāng)前幀邊界信息。邊界信息表示音頻信號類型變化的邊界。邊界信息包括三類BORDER_SPEECH_MUSIC(語音音樂邊界)，由語音信號切換為音樂信號的邊界；BORDER_MUSIC_SPEECH(音樂語音邊界)，由音樂信號切換為語音信號的邊界；N0_B0RDER(非邊界)，非信號切換處。獲取邊界信息的一個實(shí)施例如下利用長短時特征的相對變化情況進(jìn)行初始邊界分析如果長時頻譜傾斜度均方差保持語音特征，而短時頻譜傾斜度均方差出現(xiàn)音樂特征,則邊界分析結(jié)果為BORDER_SPEECH_MUSIC ；在相對較長的時間內(nèi)保持音樂特征后，如果長/短時頻譜傾斜度均方差均出現(xiàn)語音特征，則邊界分析結(jié)果為BORDER_MUSIC_SPEECH ；如果長時音調(diào)個數(shù)均值保持音樂特征，而短時音調(diào)個數(shù)均值出現(xiàn)語音特征，則邊界分析結(jié)果為 BORDER_MUSIC_SPEECH。進(jìn)一步的，可以根據(jù)初始分類結(jié)果修正邊界信息如果當(dāng)前幀的初始分類結(jié)果為MUSIC_DEFINITE，并且當(dāng)前幀之前的若干幀均為語音信號，則邊界分析結(jié)果為BORDER_SPEECH_MUSIC ；如果當(dāng)前幀的初始分類結(jié)果為SPEECH_DEFINITE，并且當(dāng)前幀之前的若干幀均為音樂信號，則邊界分析結(jié)果為BORDER_MUSIC_SPEECH。S204:利用過去的初始分類結(jié)果及邊界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理；在音頻編碼中，當(dāng)前幀不會立即被編碼，需要經(jīng)過若干幀編碼延時后才會被編碼。例如，編碼延時為5幀，當(dāng)前幀為第η幀，那么待編碼幀就是第(η-5)幀。平滑處理不能越過邊界，用于避免誤判擴(kuò)散。將待編碼幀及位于同一邊界區(qū)域內(nèi)的前若干幀信息組成待平滑區(qū)域進(jìn)行平滑處理分別統(tǒng)計(jì)該待平滑區(qū)域內(nèi)初始分類結(jié)果為語音的幀個數(shù)和初始分類結(jié)果為音樂的幀個數(shù)。如果音樂幀個數(shù)大于語音幀個數(shù)，則將分類結(jié)果修正為音樂信號；如果音樂幀個數(shù)小于語音幀個數(shù)，則將分類結(jié)果修正為語音信號。進(jìn)一步的，當(dāng)初始分類結(jié)果包含確定標(biāo)識時，首先判斷該音頻信號初始分類結(jié)果是否包含確定標(biāo)識，如果包含確定標(biāo)識則不進(jìn)行平滑處理，直接將待編碼幀的初步分類結(jié)果作為待編碼幀的分類結(jié)果輸出；如果不包含確定標(biāo)識，則進(jìn)行平滑處理。S205:相對于待編碼幀而言，位于待編碼幀與當(dāng)前幀之間的若干幀初始分類結(jié)果均可被視為未來的信息。利用未來的初始分類結(jié)果及能量信息對待編碼幀平滑結(jié)果進(jìn)行進(jìn)一步修正，得到待編碼幀的分類結(jié)果。如果過去若干幀內(nèi)存在靜音幀，且待編碼幀與當(dāng)前幀之間出現(xiàn)邊界的情況下，需要對初次平滑結(jié)果進(jìn)行修正，如果該邊界信息為BORDER_MUSIC_SPEECH，則將待編碼幀的分類結(jié)果修正為語音信號；否則，將待編碼幀的分類結(jié)果修正為音樂信號。本發(fā)明實(shí)施例中，根據(jù)音調(diào)特征和頻譜傾斜度均方差對音頻信號進(jìn)行初始分類，能較好的反應(yīng)語音信號與音樂信號的區(qū)別，相比于音調(diào)特征值分類方法進(jìn)一步提高分類準(zhǔn)確性；同時利用邊界信息對初始分類結(jié)果進(jìn)行平滑處理，在同一邊界區(qū)域內(nèi)進(jìn)行平滑處理，降低誤判率，提高分類準(zhǔn)確度和適用范圍。進(jìn)一步的，在初始分類過程中，分別設(shè)置較為嚴(yán)格的門限和較為寬松的門限，對較為嚴(yán)格門限值判斷出來的初始分類結(jié)果，不進(jìn)行平滑處理，進(jìn)一步提高分類準(zhǔn)確度。進(jìn)一步的，在平滑處理過程中利用位于待編碼幀和當(dāng)前幀之間若干幀的邊界信息和能量信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理，可以在一定程度上減少實(shí)際分類結(jié)果與理想分類結(jié)果之間的延時。在一個實(shí)施例中，需要提取的音調(diào)特征包括長時音調(diào)個數(shù)均值，短時音調(diào)個數(shù)均值；音調(diào)分量在低頻的分布比率。為了計(jì)算音調(diào)特征，首先需要利用1024點(diǎn)FFT運(yùn)算得到功率密度譜，再利用功率密度譜檢測出當(dāng)前幀的音調(diào)分量。長時音調(diào)個數(shù)均值，表示最近N1幀的音調(diào)分量個數(shù)的均值，其中N1是計(jì)算音調(diào)長時特征所需的長時區(qū)間的幀長，該特征用于表征長時區(qū)間內(nèi)的音調(diào)分量是否豐富。如果長時區(qū)間內(nèi)的音調(diào)分量較為豐富，則長時音調(diào)個數(shù)均值較大；反之較小。采用如下公式計(jì)算獲得長時音調(diào)個數(shù)均值
權(quán)利要求
1.一種音頻信號的分類方法，其特征在于，包括獲得待分類音頻信號的音調(diào)特征；根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果；對當(dāng)前幀進(jìn)行初始邊界分析，獲得當(dāng)前幀邊界信息；利用分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理，輸出待編碼幀的分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果包括音調(diào)個數(shù)均值大于第一門限值的音頻信號，初步判定結(jié)果為音樂信號；音調(diào)分量在低頻的分布小于第二門限值的音頻信號，初步判定結(jié)果為音樂信號；其他信號為語音信號。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果還包括音調(diào)個數(shù)均值大于第一確定門限值的音頻信號，為音樂信號，標(biāo)示為確定類型；音調(diào)個數(shù)均值小于第二確定門限值的音頻信號，為語音信號，標(biāo)示為確定類型；音調(diào)分量在低頻的分布小于第三確定門限值的音頻信號，為音樂信號，標(biāo)示為確定類型；其中第一確定門限值大于第一門限值，第二確定門限值小于第一門限值，第三確定門限值小于第二門限值。
4.根據(jù)權(quán)利要求2所述的方法，其特征在于，對當(dāng)前幀進(jìn)行初始邊界分析獲得當(dāng)前幀邊界信息包括如果長時音調(diào)個數(shù)均值保持音樂特征，而短時音調(diào)個數(shù)均值出現(xiàn)語音特征，則邊界分析結(jié)果為音樂語音邊界；否則為非邊界。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括獲得待分類音頻信號的頻譜傾斜度特征；根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果包括根據(jù)該音調(diào)特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，根據(jù)該音調(diào)特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果包括頻譜傾斜度均方差小于第三門限的，為音樂信號；音調(diào)分量在低頻的分布小于第二門限值的，為音樂信號；音頻信號的頻譜均方差在預(yù)設(shè)的時間內(nèi)取值小于第四門限值的，為音樂信號，其中第四門限值大于第三門限值；其他信號為語音信號。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，根據(jù)該音調(diào)特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果還包括音調(diào)個數(shù)均值大于第一確定門限值的，為音樂信號，標(biāo)示為確定類型；音調(diào)個數(shù)均值小于第二確定門限值的，為語音信號，標(biāo)示為確定類型；音調(diào)分量在低頻的分布小于第三確定門限值的，為音樂信號，標(biāo)示為確定類型；頻譜傾斜度均方差小于第四確定門限值的，為音樂信號，標(biāo)示為確定類型；頻譜傾斜度均方差大于第五確定門限值的，為語音信號，標(biāo)示為確定類型；其中第一確定門限值大于第一門限值，第三確定門限值小于第二門限值，第四確定門限值小于第三門限值，第五確定門限值大于第三門限值。
8.根據(jù)權(quán)利要求5所述的方法，其特征在于，根據(jù)該音調(diào)特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果包括音頻信號的音調(diào)分量分布于頻帶0的比率大于第六確定門限值且分布于頻帶2的比率小于第七確定門限值，則初始分類結(jié)果為語音信號，并標(biāo)示為確定類型；頻譜傾斜度均方差小于第四確定門限值的，為音樂信號，標(biāo)示為確定類型；頻譜傾斜度均方差大于第五確定門限值的，為語音信號，標(biāo)示為確定類型；音頻信號的頻譜傾斜度均方差小于第三門限值，則初始分類結(jié)果為音樂信號；音頻信號的音調(diào)分量分布于頻帶0的比率大于第五門限值且分布于頻帶2的比率小于第六門限值，則初始分類結(jié)果為語音信號；其他信號為語音信號；其中，第四確定門限值小于第三門限值，第五確定門限值大于第三門限值，第六確定門限值大于第五門限值，第七確定門限值大于第六門限值。
9.根據(jù)權(quán)利要求5所述的方法，其特征在于，對當(dāng)前幀進(jìn)行初始邊界分析獲得當(dāng)前幀邊界信息包括如果長時音調(diào)個數(shù)均值保持音樂特征，而短時音調(diào)個數(shù)均值出現(xiàn)語音特征，則邊界分析結(jié)果為音樂語音邊界；如果長時頻譜傾斜度均方差保持語音特征，而短時頻譜傾斜度均方差出現(xiàn)音樂特征，則邊界分析結(jié)果為語音音樂邊界；在相對較長的時間內(nèi)保持音樂特征后，如果長/短時頻譜傾斜度均方差均出現(xiàn)語音特征，則邊界分析結(jié)果為音樂語音邊界；否則為非邊界。
10.根據(jù)權(quán)利要求3或7或8所述的方法，其特征在于，對當(dāng)前幀進(jìn)行初始邊界分析獲得當(dāng)前幀邊界信息還包括利用初始分類結(jié)果確定邊界信息，具體為如果當(dāng)前幀的初始分類結(jié)果為音樂信號并標(biāo)示確定類型，并且當(dāng)前幀之前的若干幀均為語音信號，則邊界分析結(jié)果為語音音樂邊界；如果當(dāng)前幀的初始分類結(jié)果為語音信號并表示確定類型，并且當(dāng)前幀之前的若干幀均為音樂信號，則邊界分析結(jié)果為音樂語音邊界。
11.根據(jù)權(quán)利要求1所述的方法，其特征在于，利用分界信息對初始分類結(jié)果進(jìn)行平滑處理包括將待編碼幀及位于同一邊界區(qū)域內(nèi)的前若干幀信息組成待平滑區(qū)域，進(jìn)行平滑處理。
12.根據(jù)權(quán)利要求1所述的方法，其特征在于，利用分界信息對初始分類結(jié)果進(jìn)行平滑處理包括將待編碼幀及位于同一邊界區(qū)域內(nèi)的前若干幀信息組成待平滑區(qū)域，進(jìn)行平滑處理；如果過去若干幀內(nèi)不存在靜音幀且或者位于待編碼幀與當(dāng)前幀之間的若干幀內(nèi)未出現(xiàn)邊界，則將前述步驟中的平滑結(jié)果作為分類結(jié)果輸出；如果過去若干幀內(nèi)存在靜音幀且位于待編碼幀與當(dāng)前幀之間的若干幀內(nèi)出現(xiàn)邊界，則獲得邊界信息；如果該邊界信息為音樂語音邊界，則將待編碼幀的分類結(jié)果修正為語音信號；否則，將待編碼幀的分類結(jié)果修正為音樂信號。
13.根據(jù)權(quán)利要求3或8或9所述的方法，其特征在于，利用分界信息對初始分類結(jié)果進(jìn)行平滑處理還包括判斷待編碼幀是否標(biāo)示確定類型，如果未標(biāo)示確定類型則進(jìn)行平滑處理。
14.一種音頻信號的分類裝置，其特征在于，包括特征獲得單元，用于獲得待分類音頻信號的音調(diào)特征；初步分類單元，用于根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果；邊界信息獲得單元，用于對當(dāng)前幀進(jìn)行初始邊界分析，獲得當(dāng)前幀邊界信息；平滑單元，用于利用分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理，輸出待編碼幀的分類結(jié)果。
15.根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述特征獲得單元還用于獲得待分類音頻信號的頻譜傾斜度特征；所述初步分類單元，用于根據(jù)該音調(diào)特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果。
16.根據(jù)權(quán)利要求14或15所述的裝置，其特征在于，所述初步分類單元包括第一分類單元，用于根據(jù)第一類門限值判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果；第二分類單元，用于根據(jù)第二類門限值判定所述待分類音頻信號的類型，輸出標(biāo)示確定類型的音樂信號或標(biāo)示確定類型的語音信號的初步判定結(jié)果，其中，第二類門限值比第一類門限值嚴(yán)格。
17.根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述平滑單元，包括第一平滑處理單元，用于將待編碼幀及位于同一邊界區(qū)域內(nèi)的前若干幀信息組成待平滑區(qū)域，進(jìn)行平滑處理，將平滑處理結(jié)果作為待編碼幀的分類結(jié)果輸出。
18.根據(jù)權(quán)利要求17所述的裝置，其特征在于，所述平滑單元還包括第二平滑處理單元，用于接收第一平滑處理單元的輸出，如果過去若干幀內(nèi)存在靜音幀且位于待編碼幀與當(dāng)前幀之間的若干幀內(nèi)出現(xiàn)邊界，則獲得該邊界信息；如果該邊界信息為音樂語音邊界，則將待編碼幀的分類結(jié)果修正為語音；如果該邊界信息為語音音樂邊界否則，將待編碼幀的分類結(jié)果修正為音樂。
19.根據(jù)權(quán)利要求17所述的裝置，其特征在于，所述平滑單元還包括判斷單元，用于判斷待編碼幀是否標(biāo)示確定類型，如果未標(biāo)示確定類型則通知第一平滑處理單元進(jìn)行平滑處理。
全文摘要
本發(fā)明實(shí)施例公開了一種音頻信號的分類方法和裝置。該分類方法包括獲得待分類音頻信號的音調(diào)特征；根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型，輸出音樂信號或語音信號的初步判定結(jié)果；對當(dāng)前幀進(jìn)行初始邊界分析，獲得當(dāng)前幀邊界信息；利用分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理，輸出待編碼幀的分類結(jié)果。該分類方法算法復(fù)雜度低，分類準(zhǔn)確性較高，適用性較廣。
文檔編號G10L15/08GK102237085SQ20101016032
公開日2011年11月9日申請日期2010年4月26日優(yōu)先權(quán)日2010年4月26日
發(fā)明者張清, 杜正中, 許麗凈申請人:華為技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載