專利名稱:音頻信號的分類方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域語音頻技術(shù),尤其涉及一種音頻信號的分類方法及裝置。
背景技術(shù):
語音編碼器擅長于在中低碼率下對語音類型的音頻信號進(jìn)行編碼,而對音樂類型的音頻信號編碼效果則欠佳;音頻編碼器適用于在高碼率下對語音類型和音樂類型的音頻信號進(jìn)行編碼,但在中低碼率下對語音類型的音頻信號編碼效果不夠理想。在現(xiàn)有技術(shù)當(dāng)中,在中低編碼速率下,目前還沒有一種編碼器能夠完全適用于mixed contents ofspeech and music。針對該問題,MPEG音頻組提出一個新的適用于中低編碼速率的編碼器 USAC (unified speech and audiocoding),USAC 編碼器的處理流程為1)首先利用信號分類模塊(Signal Classifier)判別信號屬于 speech-likecontent,或是屬于 music-like content ;2)根據(jù)信號類型的不同,在frame-per-frame基礎(chǔ)上選擇不同的編碼方法對于speech-like content,選擇基于ACELP/TCX的語音編碼器;對于music-like content,選擇基于心理聲學(xué)模型的音頻編碼器。由此可以充分利用現(xiàn)有的語音編碼器及音頻編碼器的優(yōu)點(diǎn),利用單一編碼器就能為mixed contents of speech and music提供較好的編石馬質(zhì)量。其中,USAC編碼器對于信號分類模塊的要求主要有1)識別正確率較高,以便在后續(xù)編碼過程中能夠充分發(fā)揮語音編碼器及音頻編碼器的作用;2)實(shí)時分類,不為編碼器引入額外延時;3)低復(fù)雜度,不為編碼器引入過多的計(jì)算復(fù)雜度?,F(xiàn)有技術(shù)中一種實(shí)時識別語音信號與音樂信號的方法包括1)利用窗函數(shù)將輸入信號劃分為一系列的overlapped frame ;2)利用FFT變換計(jì)算每幀的頻譜系數(shù);3)基于頻譜系數(shù),對于每個segment,計(jì)算五個方面的特征參數(shù)harmony、noise、 tail、drag out 及 rhythm ;4)基于上述特征參數(shù),把音頻信號分為六類SPEECH_TYPE、MUSIC_TYPE、NOISE_ TYPE、SH0R_SEGM、UNDETER_TYPE 及 SH0R_UNDETER_TYPE。在實(shí)現(xiàn)上述判別音頻信號的類型的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題該技術(shù)提取了較多的特征參數(shù),對于信號的分類較為全面,但也會導(dǎo)致分類算法復(fù)雜度較高,難以滿足實(shí)時編碼低復(fù)雜度的需求;該技術(shù)將音頻信號分為六類,不能完全滿足 USAC編碼器的需求
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種音頻信號的分類方法及裝置,在滿足編碼低復(fù)雜度情況下提高音頻信號分類的準(zhǔn)確性。根據(jù)本發(fā)明的一實(shí)施例,提供一種音頻信號的分類方法,包括獲得待分類音頻信號的音調(diào)特征;根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果;對當(dāng)前幀進(jìn)行初始邊界分析,獲得當(dāng)前幀邊界信息;利用分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理,輸出待編碼幀的分類結(jié)^ ο根據(jù)本發(fā)明的另一實(shí)施例,提供一種音頻信號的分類裝置,包括特征獲得單元,用于獲得待分類音頻信號的音調(diào)特征;初步分類單元,用于根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果;邊界信息獲得單元,用于對當(dāng)前幀進(jìn)行初始邊界分析,獲得當(dāng)前幀邊界信息;平滑單元,用于利用分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理,輸出待編碼幀的分類結(jié)果。本發(fā)明實(shí)施例根據(jù)音調(diào)特征對音頻信號進(jìn)行初始分類,算法復(fù)雜度低,選取的音頻特征能較好的反應(yīng)語音信號與音樂信號的區(qū)別,分類準(zhǔn)確性較高;同時利用邊界信息對初始分類結(jié)果進(jìn)行平滑處理,在同一邊界區(qū)域內(nèi)進(jìn)行平滑處理,降低誤判率,進(jìn)一步提高分類準(zhǔn)確度和適用范圍。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明提供的音頻信號的分類方法一個實(shí)施例的流程示意圖;圖2為本發(fā)明提供的音頻信號的分類方法另一個實(shí)施例的流程示意圖;圖3為頻譜傾斜度均方差示意圖;圖4為音調(diào)個數(shù)均值示意圖;圖5為音調(diào)分量在低頻的分布比率示意圖;圖6為頻譜傾斜度波動情況示意圖;圖7為本發(fā)明提供的初始分類的一個實(shí)施例的流程示意圖;圖8為本發(fā)明提供的初始分類的另一個實(shí)施例的流程示意圖;圖9為本發(fā)明提供的初始分類的另一個實(shí)施例的流程示意圖;圖10為本發(fā)明提供的初始分類的另一個實(shí)施例的流程示意圖;圖11為本發(fā)明提供的初始分類的另一個實(shí)施例的流程示意圖;圖12為本發(fā)明提供的平滑處理的一個實(shí)施例的流程示意圖;圖13為本發(fā)明提供的音頻信號的分類裝置一個實(shí)施例的結(jié)構(gòu)示意圖14為本發(fā)明提供的初步分類單元的一個實(shí)施例的結(jié)構(gòu)示意圖;圖15為本發(fā)明提供的平滑單元的一個實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。參照圖1所示,一種音頻信號的分類方法的一個實(shí)施例,該方法包括如下步驟SlOl 獲得待分類音頻信號的音調(diào)特征。一般情況下,對當(dāng)前幀音頻信號及前若干幀音頻信號作為待分類音頻信號,進(jìn)行分類。對每一幀音頻信號,獲得該音頻信號的音調(diào)特征并進(jìn)行分類。在一個實(shí)施例中音調(diào)特征包括音調(diào)個數(shù)均值、音調(diào)分量在低頻的分布比率。在另一個實(shí)施例中音調(diào)特征包括 音調(diào)分量在不同頻帶的分布比值。S102:根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果。初步分類可以有多種方法,在一個實(shí)施例中,采用如下方法進(jìn)行分類音調(diào)個數(shù)均值大于第一門限值的音頻信號,初步判定結(jié)果為音樂信號;音調(diào)分量在低頻的分布小于第二門限值的音頻信號,初步判定結(jié)果為音樂信號;其他信號為語音信號。其中,第一門限值和第二門限值一般根據(jù)經(jīng)驗(yàn)值設(shè)定,例如第一門限值為15,第二門限值為0. 935。在另一種實(shí)施例中,在采用上述方法進(jìn)行分類后,還可以采用較為嚴(yán)格的門限值將分類結(jié)果中的語音信號或音樂信號標(biāo)示為確定類型。例如音調(diào)個數(shù)均值大于第一確定門限值的音頻信號,為音樂信號,標(biāo)示為確定類型;音調(diào)個數(shù)均值小于第二確定門限值的音頻信號,為語音信號,標(biāo)示為確定類型;音調(diào)分量在低頻的分布小于第三確定門限值的音頻信號,為音樂信號,標(biāo)示為確定類型。其中,第一確定門限值大于第一門限值,第二確定門限值小于第一門限值,第三確定門限值小于第二門限值。一般根據(jù)經(jīng)驗(yàn)值設(shè)定,例如第一確定門限值為17,第二確定門限值為3,第三確定門限值為0.91。S103 根據(jù)提取到的特征對當(dāng)前幀進(jìn)行初始邊界分析,獲得當(dāng)前幀邊界信息。邊界信息表示音頻信號類型變化的邊界。邊界信息包括三類BORDER_SPEECH_MUSIC(語音音樂邊界),由語音信號切換為音樂信號的邊界;BORDER_MUSIC_SPEECH(音樂語音邊界),由音樂信號切換為語音信號的邊界;N0_B0RDER(非邊界),非信號切換處。獲取邊界信息的一個實(shí)施例如下利用長短時特征的相對變化情況進(jìn)行初始邊界分析如果長時音調(diào)個數(shù)均值保持音樂特征,而短時音調(diào)個數(shù)均值出現(xiàn)語音特征,則邊界分析結(jié)果為 BORDER_MUSIC_SPEECH ;進(jìn)一步的,可以根據(jù)初始分類結(jié)果修正邊界信息如果當(dāng)前幀的初始分類結(jié)果為MUSIC_DEFINITE,并且當(dāng)前幀之前的若干幀均為語音信號,則邊界分析結(jié)果為BORDER_SPEECH_MUSIC ;如果當(dāng)前幀的初始分類結(jié)果為SPEECH_DEFINITE,并且當(dāng)前幀之前的若干幀均為音樂信號,則邊界分析結(jié)果為BORDER_MUSIC_SPEECH。S104 利用待編碼幀的分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理,輸出待編碼幀的分類結(jié)果。在音頻編碼中,當(dāng)前幀不會立即被編碼,需要經(jīng)過若干幀編碼延時后才會被編碼。 例如,編碼延時為5幀,當(dāng)前幀為第η幀,那么待編碼幀就是第(η-5)幀。平滑處理不能越過邊界,用于避免誤判擴(kuò)散。一個實(shí)施例中,利用前若干幀的初始分類結(jié)果和邊界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理。將待編碼幀及位于同一邊界區(qū)域內(nèi)的前若干幀信息組成待平滑區(qū)域進(jìn)行平滑處理分別統(tǒng)計(jì)該區(qū)域內(nèi)初始分類結(jié)果為語音的幀個數(shù)和初始分類結(jié)果為音樂的幀個數(shù)。如果音樂幀個數(shù)大于語音幀個數(shù),則將分類結(jié)果修正為音樂信號;如果音樂幀個數(shù)小于語音幀個數(shù),則將分類結(jié)果修正為語音信號。分為三種情況說明1.如果待編碼幀離邊界幀較遠(yuǎn),則可以在待編碼幀和邊界幀之間選取固定數(shù)量的信號幀組成待平滑區(qū)域。例如,待編碼幀與邊界幀之間大于100幀,那么就可以取待編碼幀及前90幀組成一個待平滑區(qū)域,如下圖標(biāo)注有底紋的區(qū)域
邊界待編碼幀2.如果待編碼幀離邊界較近,則可以將待編碼幀和邊界幀之間所有信號幀組成待平滑區(qū)域。例如,待編碼幀與邊界幀之間小于100幀,只有30幀,那么就取這30幀組成待
平滑區(qū)域,如下圖標(biāo)注有底紋的區(qū)域
ΨΦ—-
邊界待編碼幀3.如果待編碼幀就是邊界幀,則不進(jìn)行平滑處理,直接將初始分類結(jié)果作為最終分類結(jié)果。進(jìn)一步的,當(dāng)初始分類結(jié)果包含確定標(biāo)識時,首先判斷該音頻信號初始分類結(jié)果是否包含確定標(biāo)識,如果包含確定標(biāo)識則不進(jìn)行平滑處理;如果不包含確定標(biāo)識,則進(jìn)行平
滑處理。在另一個實(shí)施例中,利用前若干幀的初始分類結(jié)果和邊界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理,輸出初次平滑結(jié)果;利用位于待編碼幀和當(dāng)前幀之間若干幀的邊界信息和能量信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理,輸出分類結(jié)果如果過去若干幀(屬于經(jīng)驗(yàn)數(shù)據(jù),可以靈活設(shè)置)內(nèi)存在靜音幀,且待編碼幀與當(dāng)前幀之間出現(xiàn)邊界的情況下,需要對初次平滑結(jié)果進(jìn)行修正如果該邊界信息為B0RDER_ MUSIC_SPEECH,則將待編碼幀的分類結(jié)果修正為語音;否則,將待編碼幀的分類結(jié)果修正為
曰爾O
本發(fā)明實(shí)施例中,根據(jù)音調(diào)特征對音頻信號進(jìn)行初始分類,算法復(fù)雜度低,選取的音頻特征能較好的反應(yīng)語音信號與音樂信號的區(qū)別,分類準(zhǔn)確性較高;同時利用邊界信息對初始分類結(jié)果進(jìn)行平滑處理,在同一邊界區(qū)域內(nèi)進(jìn)行平滑處理,降低誤判率,提高分類準(zhǔn)確度和適用范圍。進(jìn)一步的,在初始分類過程中,分別設(shè)置較為嚴(yán)格的門限和較為寬松的門限,對較為嚴(yán)格門限值判斷出來的初始分類結(jié)果,不進(jìn)行平滑處理,進(jìn)一步提高分類準(zhǔn)確度。參照圖2所示,一種音頻信號的分類方法的另一個實(shí)施例,該方法包括如下步驟S201 將當(dāng)前幀及前若干幀數(shù)據(jù)作為待分析數(shù)據(jù),提取音調(diào)特征及頻譜傾斜度特征;一般情況下,對當(dāng)前幀音頻信號及前若干幀音頻信號作為待分類音頻信號,進(jìn)行分類。對每一幀音頻信號,獲得該音頻信號的音調(diào)特征。在一個實(shí)施例中音調(diào)特征包括音調(diào)個數(shù)均值、音調(diào)分量在低頻的分布比率。在另一個實(shí)施例中音調(diào)特征包括音調(diào)個數(shù)均值、音調(diào)分量在不同頻帶的分布比值。頻譜傾斜度特征可以包括頻譜傾斜度均方差。S202:根據(jù)音調(diào)特征值和頻譜傾斜度特征對當(dāng)前幀進(jìn)行初始分類,輸出初始分類結(jié)果;初步分類可以有多種方法,在一個實(shí)施例中,采用如下方法進(jìn)行分類頻譜傾斜度均方差小于第三門限的,為音樂信號;音調(diào)個數(shù)均值大于第一門限值的,為音樂信號;音調(diào)分量在低頻的分布小于第二門限值的,為音樂信號;音頻信號的頻譜均方差在預(yù)設(shè)的時間內(nèi)取值小于第四門限值的,為音樂信號,其中第四門限值大于第三門限值;其他信號為語音信號。其中,第一門限值、第二門限值和第三門限值一般根據(jù)經(jīng)驗(yàn)值設(shè)定,例如第一門限值為15,第二門限值為0. 935,第三門限值為0. 0002。在另一種實(shí)施例中,在采用上述方法進(jìn)行分類后,還可以采用較為嚴(yán)格的門限值將分類結(jié)果中的語音信號或音樂信號標(biāo)示為確定類型。例如音調(diào)個數(shù)均值大于第一確定門限值的,為音樂信號,標(biāo)示為確定類型;音調(diào)個數(shù)均值小于第二確定門限值的,為語音信號,標(biāo)示為確定類型;音調(diào)分量在低頻的分布小于第三確定門限值的,為音樂信號,標(biāo)示為確定類型;頻譜傾斜度均方差小于第四確定門限值的,為音樂信號,標(biāo)示為確定類型;頻譜傾斜度均方差大于第五確定門限值的,為語音信號,標(biāo)示為確定類型。其中,第一確定門限值大于第一門限值,第三確定門限值小于第二門限值,第四確定門限值小于第三門限值,,第五確定門限值大于第三門限值。一般根據(jù)經(jīng)驗(yàn)值設(shè)定各門限值,例如第一確定門限值為17,第二確定門限值為3,第三確定門限值為0. 91 ;第四確定門限值為0. 00004 ;第五確定門限值為0. 01。S203 根據(jù)提取到的特征對當(dāng)前幀進(jìn)行初始邊界分析,獲得當(dāng)前幀邊界信息。邊界信息表示音頻信號類型變化的邊界。邊界信息包括三類BORDER_SPEECH_MUSIC(語音音樂邊界),由語音信號切換為音樂信號的邊界;BORDER_MUSIC_SPEECH(音樂語音邊界),由音樂信號切換為語音信號的邊界;N0_B0RDER(非邊界),非信號切換處。獲取邊界信息的一個實(shí)施例如下利用長短時特征的相對變化情況進(jìn)行初始邊界分析如果長時頻譜傾斜度均方差保持語音特征,而短時頻譜傾斜度均方差出現(xiàn)音樂特征,則邊界分析結(jié)果為BORDER_SPEECH_MUSIC ;在相對較長的時間內(nèi)保持音樂特征后,如果長/短時頻譜傾斜度均方差均出現(xiàn)語音特征,則邊界分析結(jié)果為BORDER_MUSIC_SPEECH ;如果長時音調(diào)個數(shù)均值保持音樂特征,而短時音調(diào)個數(shù)均值出現(xiàn)語音特征,則邊界分析結(jié)果為 BORDER_MUSIC_SPEECH。進(jìn)一步的,可以根據(jù)初始分類結(jié)果修正邊界信息如果當(dāng)前幀的初始分類結(jié)果為MUSIC_DEFINITE,并且當(dāng)前幀之前的若干幀均為語音信號,則邊界分析結(jié)果為BORDER_SPEECH_MUSIC ;如果當(dāng)前幀的初始分類結(jié)果為SPEECH_DEFINITE,并且當(dāng)前幀之前的若干幀均為音樂信號,則邊界分析結(jié)果為BORDER_MUSIC_SPEECH。S204:利用過去的初始分類結(jié)果及邊界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理;在音頻編碼中,當(dāng)前幀不會立即被編碼,需要經(jīng)過若干幀編碼延時后才會被編碼。 例如,編碼延時為5幀,當(dāng)前幀為第η幀,那么待編碼幀就是第(η-5)幀。平滑處理不能越過邊界,用于避免誤判擴(kuò)散。將待編碼幀及位于同一邊界區(qū)域內(nèi)的前若干幀信息組成待平滑區(qū)域進(jìn)行平滑處理分別統(tǒng)計(jì)該待平滑區(qū)域內(nèi)初始分類結(jié)果為語音的幀個數(shù)和初始分類結(jié)果為音樂的幀個數(shù)。如果音樂幀個數(shù)大于語音幀個數(shù),則將分類結(jié)果修正為音樂信號;如果音樂幀個數(shù)小于語音幀個數(shù),則將分類結(jié)果修正為語音信號。進(jìn)一步的,當(dāng)初始分類結(jié)果包含確定標(biāo)識時,首先判斷該音頻信號初始分類結(jié)果是否包含確定標(biāo)識,如果包含確定標(biāo)識則不進(jìn)行平滑處理,直接將待編碼幀的初步分類結(jié)果作為待編碼幀的分類結(jié)果輸出;如果不包含確定標(biāo)識,則進(jìn)行平滑處理。S205:相對于待編碼幀而言,位于待編碼幀與當(dāng)前幀之間的若干幀初始分類結(jié)果均可被視為未來的信息。利用未來的初始分類結(jié)果及能量信息對待編碼幀平滑結(jié)果進(jìn)行進(jìn)一步修正,得到待編碼幀的分類結(jié)果。如果過去若干幀內(nèi)存在靜音幀,且待編碼幀與當(dāng)前幀之間出現(xiàn)邊界的情況下,需要對初次平滑結(jié)果進(jìn)行修正,如果該邊界信息為BORDER_MUSIC_SPEECH,則將待編碼幀的分類結(jié)果修正為語音信號;否則,將待編碼幀的分類結(jié)果修正為音樂信號。本發(fā)明實(shí)施例中,根據(jù)音調(diào)特征和頻譜傾斜度均方差對音頻信號進(jìn)行初始分類, 能較好的反應(yīng)語音信號與音樂信號的區(qū)別,相比于音調(diào)特征值分類方法進(jìn)一步提高分類準(zhǔn)確性;同時利用邊界信息對初始分類結(jié)果進(jìn)行平滑處理,在同一邊界區(qū)域內(nèi)進(jìn)行平滑處理, 降低誤判率,提高分類準(zhǔn)確度和適用范圍。進(jìn)一步的,在初始分類過程中,分別設(shè)置較為嚴(yán)格的門限和較為寬松的門限,對較為嚴(yán)格門限值判斷出來的初始分類結(jié)果,不進(jìn)行平滑處理,進(jìn)一步提高分類準(zhǔn)確度。進(jìn)一步的,在平滑處理過程中利用位于待編碼幀和當(dāng)前幀之間若干幀的邊界信息和能量信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理,可以在一定程度上減少實(shí)際分類結(jié)果與理想分類結(jié)果之間的延時。在一個實(shí)施例中,需要提取的音調(diào)特征包括長時音調(diào)個數(shù)均值,短時音調(diào)個數(shù)均值;音調(diào)分量在低頻的分布比率。為了計(jì)算音調(diào)特征,首先需要利用1024點(diǎn)FFT運(yùn)算得到功率密度譜,再利用功率密度譜檢測出當(dāng)前幀的音調(diào)分量。長時音調(diào)個數(shù)均值,表示最近N1幀的音調(diào)分量個數(shù)的均值,其中N1是計(jì)算音調(diào)長時特征所需的長時區(qū)間的幀長,該特征用于表征長時區(qū)間內(nèi)的音調(diào)分量是否豐富。如果長時區(qū)間內(nèi)的音調(diào)分量較為豐富,則長時音調(diào)個數(shù)均值較大;反之較小。采用如下公式計(jì)算獲得長時音調(diào)個數(shù)均值
權(quán)利要求
1.一種音頻信號的分類方法,其特征在于,包括 獲得待分類音頻信號的音調(diào)特征;根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果;對當(dāng)前幀進(jìn)行初始邊界分析,獲得當(dāng)前幀邊界信息;利用分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理,輸出待編碼幀的分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果包括音調(diào)個數(shù)均值大于第一門限值的音頻信號,初步判定結(jié)果為音樂信號; 音調(diào)分量在低頻的分布小于第二門限值的音頻信號,初步判定結(jié)果為音樂信號; 其他信號為語音信號。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果還包括音調(diào)個數(shù)均值大于第一確定門限值的音頻信號,為音樂信號,標(biāo)示為確定類型; 音調(diào)個數(shù)均值小于第二確定門限值的音頻信號,為語音信號,標(biāo)示為確定類型; 音調(diào)分量在低頻的分布小于第三確定門限值的音頻信號,為音樂信號,標(biāo)示為確定類型;其中第一確定門限值大于第一門限值,第二確定門限值小于第一門限值,第三確定門限值小于第二門限值。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,對當(dāng)前幀進(jìn)行初始邊界分析獲得當(dāng)前幀邊界信息包括如果長時音調(diào)個數(shù)均值保持音樂特征,而短時音調(diào)個數(shù)均值出現(xiàn)語音特征,則邊界分析結(jié)果為音樂語音邊界;否則為非邊界。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括獲得待分類音頻信號的頻譜傾斜度特征;根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果包括根據(jù)該音調(diào)特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)該音調(diào)特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果包括頻譜傾斜度均方差小于第三門限的,為音樂信號; 音調(diào)分量在低頻的分布小于第二門限值的,為音樂信號;音頻信號的頻譜均方差在預(yù)設(shè)的時間內(nèi)取值小于第四門限值的,為音樂信號,其中第四門限值大于第三門限值; 其他信號為語音信號。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,根據(jù)該音調(diào)特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果還包括音調(diào)個數(shù)均值大于第一確定門限值的,為音樂信號,標(biāo)示為確定類型; 音調(diào)個數(shù)均值小于第二確定門限值的,為語音信號,標(biāo)示為確定類型;音調(diào)分量在低頻的分布小于第三確定門限值的,為音樂信號,標(biāo)示為確定類型; 頻譜傾斜度均方差小于第四確定門限值的,為音樂信號,標(biāo)示為確定類型; 頻譜傾斜度均方差大于第五確定門限值的,為語音信號,標(biāo)示為確定類型;其中第一確定門限值大于第一門限值,第三確定門限值小于第二門限值,第四確定門限值小于第三門限值,第五確定門限值大于第三門限值。
8.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)該音調(diào)特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果包括音頻信號的音調(diào)分量分布于頻帶0的比率大于第六確定門限值且分布于頻帶2的比率小于第七確定門限值,則初始分類結(jié)果為語音信號,并標(biāo)示為確定類型;頻譜傾斜度均方差小于第四確定門限值的,為音樂信號,標(biāo)示為確定類型; 頻譜傾斜度均方差大于第五確定門限值的,為語音信號,標(biāo)示為確定類型; 音頻信號的頻譜傾斜度均方差小于第三門限值,則初始分類結(jié)果為音樂信號; 音頻信號的音調(diào)分量分布于頻帶0的比率大于第五門限值且分布于頻帶2的比率小于第六門限值,則初始分類結(jié)果為語音信號;其他信號為語音信號;其中,第四確定門限值小于第三門限值,第五確定門限值大于第三門限值,第六確定門限值大于第五門限值,第七確定門限值大于第六門限值。
9.根據(jù)權(quán)利要求5所述的方法,其特征在于,對當(dāng)前幀進(jìn)行初始邊界分析獲得當(dāng)前幀邊界信息包括如果長時音調(diào)個數(shù)均值保持音樂特征,而短時音調(diào)個數(shù)均值出現(xiàn)語音特征,則邊界分析結(jié)果為音樂語音邊界;如果長時頻譜傾斜度均方差保持語音特征,而短時頻譜傾斜度均方差出現(xiàn)音樂特征, 則邊界分析結(jié)果為語音音樂邊界;在相對較長的時間內(nèi)保持音樂特征后,如果長/短時頻譜傾斜度均方差均出現(xiàn)語音特征,則邊界分析結(jié)果為音樂語音邊界; 否則為非邊界。
10.根據(jù)權(quán)利要求3或7或8所述的方法,其特征在于,對當(dāng)前幀進(jìn)行初始邊界分析獲得當(dāng)前幀邊界信息還包括利用初始分類結(jié)果確定邊界信息,具體為如果當(dāng)前幀的初始分類結(jié)果為音樂信號并標(biāo)示確定類型,并且當(dāng)前幀之前的若干幀均為語音信號,則邊界分析結(jié)果為語音音樂邊界;如果當(dāng)前幀的初始分類結(jié)果為語音信號并表示確定類型,并且當(dāng)前幀之前的若干幀均為音樂信號,則邊界分析結(jié)果為音樂語音邊界。
11.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用分界信息對初始分類結(jié)果進(jìn)行平滑處理包括將待編碼幀及位于同一邊界區(qū)域內(nèi)的前若干幀信息組成待平滑區(qū)域,進(jìn)行平滑處理。
12.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用分界信息對初始分類結(jié)果進(jìn)行平滑處理包括將待編碼幀及位于同一邊界區(qū)域內(nèi)的前若干幀信息組成待平滑區(qū)域,進(jìn)行平滑處理; 如果過去若干幀內(nèi)不存在靜音幀且或者位于待編碼幀與當(dāng)前幀之間的若干幀內(nèi)未出現(xiàn)邊界,則將前述步驟中的平滑結(jié)果作為分類結(jié)果輸出;如果過去若干幀內(nèi)存在靜音幀且位于待編碼幀與當(dāng)前幀之間的若干幀內(nèi)出現(xiàn)邊界,則獲得邊界信息;如果該邊界信息為音樂語音邊界,則將待編碼幀的分類結(jié)果修正為語音信號;否則,將待編碼幀的分類結(jié)果修正為音樂信號。
13.根據(jù)權(quán)利要求3或8或9所述的方法,其特征在于,利用分界信息對初始分類結(jié)果進(jìn)行平滑處理還包括判斷待編碼幀是否標(biāo)示確定類型,如果未標(biāo)示確定類型則進(jìn)行平滑處理。
14.一種音頻信號的分類裝置,其特征在于,包括特征獲得單元,用于獲得待分類音頻信號的音調(diào)特征;初步分類單元,用于根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果;邊界信息獲得單元,用于對當(dāng)前幀進(jìn)行初始邊界分析,獲得當(dāng)前幀邊界信息;平滑單元,用于利用分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理,輸出待編碼幀的分類結(jié)果。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述特征獲得單元還用于獲得待分類音頻信號的頻譜傾斜度特征;所述初步分類單元,用于根據(jù)該音調(diào)特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果。
16.根據(jù)權(quán)利要求14或15所述的裝置,其特征在于,所述初步分類單元包括第一分類單元,用于根據(jù)第一類門限值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果;第二分類單元,用于根據(jù)第二類門限值判定所述待分類音頻信號的類型,輸出標(biāo)示確定類型的音樂信號或標(biāo)示確定類型的語音信號的初步判定結(jié)果,其中,第二類門限值比第一類門限值嚴(yán)格。
17.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述平滑單元,包括第一平滑處理單元,用于將待編碼幀及位于同一邊界區(qū)域內(nèi)的前若干幀信息組成待平滑區(qū)域,進(jìn)行平滑處理,將平滑處理結(jié)果作為待編碼幀的分類結(jié)果輸出。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述平滑單元還包括第二平滑處理單元,用于接收第一平滑處理單元的輸出,如果過去若干幀內(nèi)存在靜音幀且位于待編碼幀與當(dāng)前幀之間的若干幀內(nèi)出現(xiàn)邊界,則獲得該邊界信息;如果該邊界信息為音樂語音邊界,則將待編碼幀的分類結(jié)果修正為語音;如果該邊界信息為語音音樂邊界否則,將待編碼幀的分類結(jié)果修正為音樂。
19.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述平滑單元還包括判斷單元,用于判斷待編碼幀是否標(biāo)示確定類型,如果未標(biāo)示確定類型則通知第一平滑處理單元進(jìn)行平滑處理。
全文摘要
本發(fā)明實(shí)施例公開了一種音頻信號的分類方法和裝置。該分類方法包括獲得待分類音頻信號的音調(diào)特征;根據(jù)該音調(diào)特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結(jié)果;對當(dāng)前幀進(jìn)行初始邊界分析,獲得當(dāng)前幀邊界信息;利用分界信息對待編碼幀的初始分類結(jié)果進(jìn)行平滑處理,輸出待編碼幀的分類結(jié)果。該分類方法算法復(fù)雜度低,分類準(zhǔn)確性較高,適用性較廣。
文檔編號G10L15/08GK102237085SQ20101016032
公開日2011年11月9日 申請日期2010年4月26日 優(yōu)先權(quán)日2010年4月26日
發(fā)明者張清, 杜正中, 許麗凈 申請人:華為技術(shù)有限公司