專利名稱:基于可變時(shí)長(zhǎng)的音頻特征分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于多媒體信號(hào)處理和模式識(shí)別技術(shù)領(lǐng)域,尤其涉及一種基于可變時(shí)長(zhǎng)的音頻特征分類方法。
背景技術(shù):
隨著通信技術(shù)的不斷發(fā)展,數(shù)字音頻處理在移動(dòng)通信、互聯(lián)網(wǎng)、廣播以及個(gè)人電子等多個(gè)領(lǐng)域得到了廣泛的應(yīng)用。以音頻編解碼技術(shù)來(lái)看,其已經(jīng)從傳統(tǒng)的以窄帶話音為主的語(yǔ)音編碼,逐漸擴(kuò)展到帶寬擴(kuò)展質(zhì)量更高的多媒體音頻編碼,3G、LTE的興起也進(jìn)一步對(duì)新一代音頻編解碼技術(shù)在對(duì)信道的適應(yīng)性、傳輸?shù)目煽啃砸约熬幗獯a質(zhì)量等方面有了更高的要求。而無(wú)論是音頻編解碼,或是音效編輯制作,音頻信號(hào)本身所具有的多樣性,使得對(duì)不同類型的音頻信號(hào)可能需要選擇不同的處理技術(shù)。如ITU-T的G. 718和G. 729. 1,就對(duì)音頻信號(hào)分成了語(yǔ)音和音樂(lè)兩種編碼模式,而在之后的G. 718-SWB中又添加了對(duì)含正弦特性的音頻信號(hào)的編碼模式。由此可以看出,在某些應(yīng)用場(chǎng)景中,需要先對(duì)音頻信號(hào)進(jìn)行簡(jiǎn)單而高效的分類,獲知所屬類型。分類時(shí),提取音頻信號(hào)的短時(shí)特征和長(zhǎng)時(shí)特征。由于音頻信號(hào)的短時(shí)平穩(wěn)性,通常相比短時(shí)特征,長(zhǎng)時(shí)特征的穩(wěn)定性和可區(qū)分性更好,但缺點(diǎn)是檢測(cè)延時(shí)大,對(duì)實(shí)時(shí)分類系統(tǒng)上的應(yīng)用有一定局限性。此外,不同特征表現(xiàn)出來(lái)的平穩(wěn)周期可能不一致,若對(duì)這些特征都取定同一時(shí)長(zhǎng)下計(jì)算對(duì)應(yīng)的長(zhǎng)時(shí)特征可能并非最優(yōu)。
發(fā)明內(nèi)容
本發(fā)明的目的在于,針對(duì)常用的音頻特征分類方法主要采用提取長(zhǎng)時(shí)特征的技術(shù)方案影響實(shí)時(shí)效果的問(wèn)題,提出一種基于可變時(shí)長(zhǎng)的音頻特征分類方法,通過(guò)提取同一短時(shí)特征在不同時(shí)長(zhǎng)下的同一統(tǒng)計(jì)參量構(gòu)成的可變時(shí)長(zhǎng)長(zhǎng)時(shí)特征來(lái)訓(xùn)練分類器,并利用訓(xùn)練好的分類器進(jìn)行音頻特征分類。本發(fā)明的技術(shù)方案是,一種基于可變時(shí)長(zhǎng)的音頻特征分類方法,其特征是所述方法包括下列步驟步驟I :將確定類型并經(jīng)過(guò)標(biāo)注的音頻序列作為訓(xùn)練序列;步驟2 :提取訓(xùn)練序列中的音頻信號(hào)的短時(shí)特征FnF2,...,F(xiàn)K,構(gòu)成短時(shí)特征向量
Vs= K是短時(shí)特征向量的分量個(gè)數(shù);
M
Fk_步驟3 :計(jì)算各個(gè)短時(shí)特征Fk在設(shè)定時(shí)長(zhǎng)內(nèi),當(dāng)前幀和之前的(n-1)幀的短時(shí)特征的統(tǒng)計(jì)參量,n為設(shè)定時(shí)長(zhǎng)內(nèi)的總幀數(shù);每個(gè)短時(shí)特征Fk對(duì)應(yīng)一組由該短時(shí)特征的統(tǒng)計(jì)參量構(gòu)成的統(tǒng)計(jì)特征向量丨(n)},進(jìn)而短時(shí)特征向量&對(duì)應(yīng)一個(gè)統(tǒng)計(jì)特征向量丨^t (n)},其中\(zhòng)LM)~
VL(n)= 1/2⑷;1 ^ k ^ K ;
M
r
LK(n)
步驟4 :選取P個(gè)值,N1, N2,…,Np滿足N1 < N2 <…< NP,令n分別等于N1, N2, , NP,按照步驟3計(jì)算得到短時(shí)特征向量^對(duì)應(yīng)的一組統(tǒng)計(jì)特征向量Vl(N1), Vl(N2) ,由該組統(tǒng)計(jì)特征向量構(gòu)成訓(xùn)練序列的長(zhǎng)時(shí)特征向量
Vf =[VLTmAT (N2X-,VLT (Np)T步驟5 :利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器;步驟6 :提取測(cè)試序列中的音頻信號(hào)的短時(shí)特征,并按照步驟2和步驟3的方法計(jì)算測(cè)試序列的第i巾貞的統(tǒng)計(jì)特征向量色(/)以及測(cè)試序列的Al(N1) ,Vl(N2),…,Vl(Np)步驟7 :根據(jù)測(cè)試序列的第i幀的統(tǒng)計(jì)特征向量^0+)以及測(cè)試序列的Vl(N2) , ,計(jì)算測(cè)試序列的第i巾貞的輸入長(zhǎng)時(shí)特征向量(/)步驟8 :將第i幀的輸入長(zhǎng)時(shí)特征向量送入步驟5訓(xùn)練后的分類器中,其輸出即為第i幀的分類類型。所述短時(shí)特征包括對(duì)數(shù)能量、過(guò)零率和均勻子帶能量分布。所述當(dāng)前幀和之前的(n-1)幀的短時(shí)特征的統(tǒng)計(jì)參量包括當(dāng)前幀和之前的(n-1)中貞的短時(shí)特征最大值MaxFk(n)、最小值MinFk(n)、算術(shù)平均AvgFk(n)或方差VarFk(n)中的一個(gè)或多個(gè)。所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量^訓(xùn)練單個(gè)分類器。所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是使用前向特征選擇法,在訓(xùn)練序列的長(zhǎng)時(shí)特征向量&中選擇有效特征構(gòu)成有效長(zhǎng)時(shí)特征向量,并利用有效長(zhǎng)時(shí)特征向量訓(xùn)練單個(gè)分類器。所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是利用訓(xùn)練序列的長(zhǎng)時(shí)特
征向量匕的分向量色CiV1), Vl(N2),色CiVp)各自分別訓(xùn)練同類型的單個(gè)分類器后并聯(lián)構(gòu)成的分類器組。所述計(jì)算測(cè)試序列的第i幀的輸入長(zhǎng)時(shí)特征向量(/)具體利用公式
r [r [奪),L 々(/)]', rKN1
^㈧),L ,Vl(Nf)XN1KL <Nq<i<Nq+l<L <NPVF,i>Np
其中,q= 1,2,L,P-l,[F/(/),L Jtl {i)f 中的(i)共有 q 個(gè),
,k(NqivTLmi,允(沉中的七⑴共有p-q個(gè)。
所述單個(gè)分類器為基于正態(tài)分布的獨(dú)立特征分類器。本發(fā)明通過(guò)提取同一短時(shí)特征在不同時(shí)長(zhǎng)下的同一統(tǒng)計(jì)參量構(gòu)成的可變時(shí)長(zhǎng)長(zhǎng)時(shí)特征訓(xùn)練分類器,并利用訓(xùn)練好的分類器進(jìn)行音頻特征分類,避免提取長(zhǎng)時(shí)特征導(dǎo)致的延時(shí)問(wèn)題,實(shí)現(xiàn)了音頻特征的實(shí)時(shí)分類。
圖I是基于可變時(shí)長(zhǎng)的音頻特征分類方法流程圖;圖2是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量訓(xùn)練單個(gè)分類器的示意圖;圖3是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量的有效特征構(gòu)成的有效長(zhǎng)時(shí)特征向量訓(xùn)練單個(gè)分類器的示意圖;圖4是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量的分向量各自分別訓(xùn)練同類型的單個(gè)分類器后并聯(lián)構(gòu)成分類器組示意圖;圖5是訓(xùn)練樣本庫(kù)彳目息表;圖6是測(cè)試樣本庫(kù)信息表;圖7是分類器性能對(duì)比表。
具體實(shí)施例方式下面結(jié)合附圖,對(duì)優(yōu)選實(shí)施例作詳細(xì)說(shuō)明。應(yīng)該強(qiáng)調(diào)的是,下述說(shuō)明僅僅是示例性的,而不是為了限制本發(fā)明的范圍及其應(yīng)用。本發(fā)明以32kHz采樣率下的語(yǔ)音/音樂(lè)信號(hào)分類為例進(jìn)行說(shuō)明。對(duì)其他類型的音頻信號(hào)分類,本發(fā)明仍然適用。圖I是基于可變時(shí)長(zhǎng)的音頻特征分類方法流程圖。圖I中,基于可變時(shí)長(zhǎng)的音頻特征分類方法包括下列步驟步驟I :將確定類型并經(jīng)過(guò)標(biāo)注的音頻序列作為訓(xùn)練序列。步驟2 :提取訓(xùn)練序列中的音頻信號(hào)的短時(shí)特征FnF2,...,F(xiàn)K,構(gòu)成短時(shí)特征向量
Vs= $,K是短時(shí)特征向量的分量個(gè)數(shù)。
Fk_本實(shí)施例中音頻信號(hào)按每40ms —幀,計(jì)算的短時(shí)特征包括對(duì)數(shù)能量、過(guò)零率和均勻子帶能量分布。在本發(fā)明中,短時(shí)特征包括但不限于對(duì)數(shù)能量、過(guò)零率和均勻子帶能量分布。設(shè)第i幀的音頻信號(hào)樣點(diǎn)為x(n),n = (i_l)L,(i_l) L+l,L,i L_l,L是幀長(zhǎng),各個(gè)短時(shí)特征的計(jì)算公式如下A、對(duì)數(shù)能量
權(quán)利要求
1.一種基于可變時(shí)長(zhǎng)的音頻特征分類方法,其特征是所述方法包括下列步驟 步驟I :將確定類型并經(jīng)過(guò)標(biāo)注的音頻序列作為訓(xùn)練序列; 步驟2 :提取訓(xùn)練序列中的音頻信號(hào)的短時(shí)特征F1, F2, , Fk,構(gòu)成短時(shí)特征向量Vs= $,K是短時(shí)特征向量的分量個(gè)數(shù);
2.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法,其特征是所述短時(shí)特征包括對(duì)數(shù)能量、過(guò)零率和均勻子帶能量分布。
3.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法,其特征是所述當(dāng)前幀和之前的(η-I)幀的短時(shí)特征的統(tǒng)計(jì)參量包括當(dāng)前幀和之前的(η-I)幀的短時(shí)特征最大值MaxFk (η)、最小值MinFk (η)、算術(shù)平均AvgFk(η)或方差VarFk (η)中的一個(gè)或多個(gè)。
4.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法,其特征是所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量t訓(xùn)練單個(gè)分類器。
5.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法,其特征是所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是使用前向特征選擇法,在訓(xùn)練序列的長(zhǎng)時(shí)特征向量t中選擇有效特征構(gòu)成有效長(zhǎng)時(shí)特征向量并利用有效長(zhǎng)時(shí)特征向量訓(xùn)練單個(gè)分類器。
6.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法,其特征是所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量t的分向量Vl(N1) , Vl(N2) ,各自分別訓(xùn)練同類型的單個(gè)分類器后并聯(lián)構(gòu)成的分類器組。
7.根據(jù)權(quán)利要求4-6中任意一項(xiàng)權(quán)利要求所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法,其特征是所述單個(gè)分類器為基于正態(tài)分布的獨(dú)立特征分類器。
8.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法,其特征是所述計(jì)算測(cè)試序列的第i幀的輸入長(zhǎng)時(shí)特征向量P)具體利用公式 r [r [吃(O,L 々(/)]', rKN1 K'㈧),L ,Vl(Nf)X(I),L ,V[(i)]T, N1KL <Nq<i<Nq+l<L <NP 、VF,i>Np 其中,q=l,2,L,P_l, [F/(0,L中的 fLT(i)共有 q 個(gè),[Km,L ,V[(Nq),VLT(i),L ,七(/)f 中的七(/)共有 P-q 個(gè)。
全文摘要
本發(fā)明公開(kāi)了多媒體信號(hào)處理和模式識(shí)別技術(shù)領(lǐng)域中的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法。包括將確定類型并經(jīng)過(guò)標(biāo)注的音頻序列作為訓(xùn)練序列;提取訓(xùn)練序列中的音頻信號(hào)的短時(shí)特征構(gòu)成短時(shí)特征向量;計(jì)算各個(gè)短時(shí)特征在設(shè)定時(shí)長(zhǎng)內(nèi)的統(tǒng)計(jì)參量,進(jìn)而得到短時(shí)特征向量對(duì)應(yīng)的統(tǒng)計(jì)特征向量;計(jì)算得到短時(shí)特征向量對(duì)應(yīng)的一組統(tǒng)計(jì)特征向量,由該組統(tǒng)計(jì)特征向量構(gòu)成訓(xùn)練序列的長(zhǎng)時(shí)特征向量;利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量訓(xùn)練分類器;提取測(cè)試序列中第i幀的音頻信號(hào)的短時(shí)特征并計(jì)算測(cè)試序列的第i幀的輸入長(zhǎng)時(shí)特征向量;將第i幀的輸入長(zhǎng)時(shí)特征向量送入訓(xùn)練后的分類器中,得到分類類型。本發(fā)明避免提取長(zhǎng)時(shí)特征導(dǎo)致的延時(shí)問(wèn)題,實(shí)現(xiàn)了音頻特征的實(shí)時(shí)分類。
文檔編號(hào)G10L15/08GK102623007SQ201110033410
公開(kāi)日2012年8月1日 申請(qǐng)日期2011年1月30日 優(yōu)先權(quán)日2011年1月30日
發(fā)明者盧敏, 竇維蓓 申請(qǐng)人:清華大學(xué)