基于可變時(shí)長(zhǎng)的音頻特征分類方法

文檔序號(hào)：2824984閱讀：284來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于可變時(shí)長(zhǎng)的音頻特征分類方法
技術(shù)領(lǐng)域：
本發(fā)明屬于多媒體信號(hào)處理和模式識(shí)別技術(shù)領(lǐng)域，尤其涉及一種基于可變時(shí)長(zhǎng)的音頻特征分類方法。
背景技術(shù)：
隨著通信技術(shù)的不斷發(fā)展，數(shù)字音頻處理在移動(dòng)通信、互聯(lián)網(wǎng)、廣播以及個(gè)人電子等多個(gè)領(lǐng)域得到了廣泛的應(yīng)用。以音頻編解碼技術(shù)來(lái)看，其已經(jīng)從傳統(tǒng)的以窄帶話音為主的語(yǔ)音編碼，逐漸擴(kuò)展到帶寬擴(kuò)展質(zhì)量更高的多媒體音頻編碼，3G、LTE的興起也進(jìn)一步對(duì)新一代音頻編解碼技術(shù)在對(duì)信道的適應(yīng)性、傳輸?shù)目煽啃砸约熬幗獯a質(zhì)量等方面有了更高的要求。而無(wú)論是音頻編解碼，或是音效編輯制作，音頻信號(hào)本身所具有的多樣性，使得對(duì)不同類型的音頻信號(hào)可能需要選擇不同的處理技術(shù)。如ITU-T的G. 718和G. 729. 1，就對(duì)音頻信號(hào)分成了語(yǔ)音和音樂(lè)兩種編碼模式，而在之后的G. 718-SWB中又添加了對(duì)含正弦特性的音頻信號(hào)的編碼模式。由此可以看出，在某些應(yīng)用場(chǎng)景中，需要先對(duì)音頻信號(hào)進(jìn)行簡(jiǎn)單而高效的分類，獲知所屬類型。分類時(shí)，提取音頻信號(hào)的短時(shí)特征和長(zhǎng)時(shí)特征。由于音頻信號(hào)的短時(shí)平穩(wěn)性，通常相比短時(shí)特征，長(zhǎng)時(shí)特征的穩(wěn)定性和可區(qū)分性更好，但缺點(diǎn)是檢測(cè)延時(shí)大，對(duì)實(shí)時(shí)分類系統(tǒng)上的應(yīng)用有一定局限性。此外，不同特征表現(xiàn)出來(lái)的平穩(wěn)周期可能不一致，若對(duì)這些特征都取定同一時(shí)長(zhǎng)下計(jì)算對(duì)應(yīng)的長(zhǎng)時(shí)特征可能并非最優(yōu)。

發(fā)明內(nèi)容
本發(fā)明的目的在于，針對(duì)常用的音頻特征分類方法主要采用提取長(zhǎng)時(shí)特征的技術(shù)方案影響實(shí)時(shí)效果的問(wèn)題，提出一種基于可變時(shí)長(zhǎng)的音頻特征分類方法，通過(guò)提取同一短時(shí)特征在不同時(shí)長(zhǎng)下的同一統(tǒng)計(jì)參量構(gòu)成的可變時(shí)長(zhǎng)長(zhǎng)時(shí)特征來(lái)訓(xùn)練分類器，并利用訓(xùn)練好的分類器進(jìn)行音頻特征分類。本發(fā)明的技術(shù)方案是，一種基于可變時(shí)長(zhǎng)的音頻特征分類方法，其特征是所述方法包括下列步驟步驟I :將確定類型并經(jīng)過(guò)標(biāo)注的音頻序列作為訓(xùn)練序列；步驟2 :提取訓(xùn)練序列中的音頻信號(hào)的短時(shí)特征FnF2,...，F(xiàn)K，構(gòu)成短時(shí)特征向量
Vs= K是短時(shí)特征向量的分量個(gè)數(shù)；
M
Fk_步驟3 :計(jì)算各個(gè)短時(shí)特征Fk在設(shè)定時(shí)長(zhǎng)內(nèi)，當(dāng)前幀和之前的(n-1)幀的短時(shí)特征的統(tǒng)計(jì)參量，n為設(shè)定時(shí)長(zhǎng)內(nèi)的總幀數(shù)；每個(gè)短時(shí)特征Fk對(duì)應(yīng)一組由該短時(shí)特征的統(tǒng)計(jì)參量構(gòu)成的統(tǒng)計(jì)特征向量丨(n)},進(jìn)而短時(shí)特征向量&對(duì)應(yīng)一個(gè)統(tǒng)計(jì)特征向量丨^t (n)},其中\(zhòng)LM)~
VL(n)= 1/2⑷；1 ^ k ^ K ；
M
r
LK(n)
步驟4 :選取P個(gè)值，N1, N2，…，Np滿足N1 < N2 <…< NP，令n分別等于N1, N2, , NP，按照步驟3計(jì)算得到短時(shí)特征向量^對(duì)應(yīng)的一組統(tǒng)計(jì)特征向量Vl(N1), Vl(N2) ,由該組統(tǒng)計(jì)特征向量構(gòu)成訓(xùn)練序列的長(zhǎng)時(shí)特征向量
Vf =[VLTmAT (N2X-,VLT (Np)T步驟5 :利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器；步驟6 :提取測(cè)試序列中的音頻信號(hào)的短時(shí)特征，并按照步驟2和步驟3的方法計(jì)算測(cè)試序列的第i巾貞的統(tǒng)計(jì)特征向量色(/)以及測(cè)試序列的Al(N1) ,Vl(N2)，…，Vl(Np)步驟7 :根據(jù)測(cè)試序列的第i幀的統(tǒng)計(jì)特征向量^0+)以及測(cè)試序列的Vl(N2) , ,計(jì)算測(cè)試序列的第i巾貞的輸入長(zhǎng)時(shí)特征向量(/)步驟8 :將第i幀的輸入長(zhǎng)時(shí)特征向量送入步驟5訓(xùn)練后的分類器中，其輸出即為第i幀的分類類型。所述短時(shí)特征包括對(duì)數(shù)能量、過(guò)零率和均勻子帶能量分布。所述當(dāng)前幀和之前的(n-1)幀的短時(shí)特征的統(tǒng)計(jì)參量包括當(dāng)前幀和之前的(n-1)中貞的短時(shí)特征最大值MaxFk(n)、最小值MinFk(n)、算術(shù)平均AvgFk(n)或方差VarFk(n)中的一個(gè)或多個(gè)。所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量^訓(xùn)練單個(gè)分類器。所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是使用前向特征選擇法，在訓(xùn)練序列的長(zhǎng)時(shí)特征向量&中選擇有效特征構(gòu)成有效長(zhǎng)時(shí)特征向量，并利用有效長(zhǎng)時(shí)特征向量訓(xùn)練單個(gè)分類器。所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是利用訓(xùn)練序列的長(zhǎng)時(shí)特
征向量匕的分向量色CiV1), Vl(N2),色CiVp)各自分別訓(xùn)練同類型的單個(gè)分類器后并聯(lián)構(gòu)成的分類器組。所述計(jì)算測(cè)試序列的第i幀的輸入長(zhǎng)時(shí)特征向量(/)具體利用公式
r [r [奪),L 々(/)]', rKN1
^㈧),L ,Vl(Nf)XN1KL <Nq<i<Nq+l<L <NPVF,i>Np
其中，q= 1，2，L，P-l，[F/(/),L Jtl {i)f 中的(i)共有 q 個(gè)，
,k(NqivTLmi,允(沉中的七⑴共有p-q個(gè)。
所述單個(gè)分類器為基于正態(tài)分布的獨(dú)立特征分類器。本發(fā)明通過(guò)提取同一短時(shí)特征在不同時(shí)長(zhǎng)下的同一統(tǒng)計(jì)參量構(gòu)成的可變時(shí)長(zhǎng)長(zhǎng)時(shí)特征訓(xùn)練分類器，并利用訓(xùn)練好的分類器進(jìn)行音頻特征分類，避免提取長(zhǎng)時(shí)特征導(dǎo)致的延時(shí)問(wèn)題，實(shí)現(xiàn)了音頻特征的實(shí)時(shí)分類。

圖I是基于可變時(shí)長(zhǎng)的音頻特征分類方法流程圖；圖2是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量訓(xùn)練單個(gè)分類器的示意圖；圖3是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量的有效特征構(gòu)成的有效長(zhǎng)時(shí)特征向量訓(xùn)練單個(gè)分類器的示意圖；圖4是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量的分向量各自分別訓(xùn)練同類型的單個(gè)分類器后并聯(lián)構(gòu)成分類器組示意圖；圖5是訓(xùn)練樣本庫(kù)彳目息表；圖6是測(cè)試樣本庫(kù)信息表；圖7是分類器性能對(duì)比表。
具體實(shí)施例方式下面結(jié)合附圖，對(duì)優(yōu)選實(shí)施例作詳細(xì)說(shuō)明。應(yīng)該強(qiáng)調(diào)的是，下述說(shuō)明僅僅是示例性的，而不是為了限制本發(fā)明的范圍及其應(yīng)用。本發(fā)明以32kHz采樣率下的語(yǔ)音/音樂(lè)信號(hào)分類為例進(jìn)行說(shuō)明。對(duì)其他類型的音頻信號(hào)分類，本發(fā)明仍然適用。圖I是基于可變時(shí)長(zhǎng)的音頻特征分類方法流程圖。圖I中，基于可變時(shí)長(zhǎng)的音頻特征分類方法包括下列步驟步驟I :將確定類型并經(jīng)過(guò)標(biāo)注的音頻序列作為訓(xùn)練序列。步驟2 :提取訓(xùn)練序列中的音頻信號(hào)的短時(shí)特征FnF2,...，F(xiàn)K，構(gòu)成短時(shí)特征向量
Vs= $，K是短時(shí)特征向量的分量個(gè)數(shù)。
Fk_本實(shí)施例中音頻信號(hào)按每40ms —幀，計(jì)算的短時(shí)特征包括對(duì)數(shù)能量、過(guò)零率和均勻子帶能量分布。在本發(fā)明中，短時(shí)特征包括但不限于對(duì)數(shù)能量、過(guò)零率和均勻子帶能量分布。設(shè)第i幀的音頻信號(hào)樣點(diǎn)為x(n)，n = (i_l)L，(i_l) L+l，L，i L_l，L是幀長(zhǎng)，各個(gè)短時(shí)特征的計(jì)算公式如下A、對(duì)數(shù)能量
權(quán)利要求
1.一種基于可變時(shí)長(zhǎng)的音頻特征分類方法，其特征是所述方法包括下列步驟步驟I :將確定類型并經(jīng)過(guò)標(biāo)注的音頻序列作為訓(xùn)練序列；步驟2 :提取訓(xùn)練序列中的音頻信號(hào)的短時(shí)特征F1, F2, , Fk，構(gòu)成短時(shí)特征向量Vs= $，K是短時(shí)特征向量的分量個(gè)數(shù)；
2.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法，其特征是所述短時(shí)特征包括對(duì)數(shù)能量、過(guò)零率和均勻子帶能量分布。
3.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法，其特征是所述當(dāng)前幀和之前的(η-I)幀的短時(shí)特征的統(tǒng)計(jì)參量包括當(dāng)前幀和之前的(η-I)幀的短時(shí)特征最大值MaxFk (η)、最小值MinFk (η)、算術(shù)平均AvgFk(η)或方差VarFk (η)中的一個(gè)或多個(gè)。
4.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法，其特征是所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量t訓(xùn)練單個(gè)分類器。
5.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法，其特征是所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是使用前向特征選擇法，在訓(xùn)練序列的長(zhǎng)時(shí)特征向量t中選擇有效特征構(gòu)成有效長(zhǎng)時(shí)特征向量并利用有效長(zhǎng)時(shí)特征向量訓(xùn)練單個(gè)分類器。
6.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法，其特征是所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量&訓(xùn)練分類器具體是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量t的分向量Vl(N1) , Vl(N2) ,各自分別訓(xùn)練同類型的單個(gè)分類器后并聯(lián)構(gòu)成的分類器組。
7.根據(jù)權(quán)利要求4-6中任意一項(xiàng)權(quán)利要求所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法，其特征是所述單個(gè)分類器為基于正態(tài)分布的獨(dú)立特征分類器。
8.根據(jù)權(quán)利要求I所述的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法，其特征是所述計(jì)算測(cè)試序列的第i幀的輸入長(zhǎng)時(shí)特征向量P)具體利用公式 r [r [吃(O,L 々(/)]', rKN1 K'㈧),L ,Vl(Nf)X(I),L ,V[(i)]T, N1KL <Nq<i<Nq+l<L <NP 、VF,i>Np 其中，q=l，2，L，P_l， [F/(0,L中的 fLT(i)共有 q 個(gè)，[Km,L ,V[(Nq),VLT(i),L ,七(/)f 中的七(/)共有 P-q 個(gè)。
全文摘要
本發(fā)明公開(kāi)了多媒體信號(hào)處理和模式識(shí)別技術(shù)領(lǐng)域中的一種基于可變時(shí)長(zhǎng)的音頻特征分類方法。包括將確定類型并經(jīng)過(guò)標(biāo)注的音頻序列作為訓(xùn)練序列；提取訓(xùn)練序列中的音頻信號(hào)的短時(shí)特征構(gòu)成短時(shí)特征向量；計(jì)算各個(gè)短時(shí)特征在設(shè)定時(shí)長(zhǎng)內(nèi)的統(tǒng)計(jì)參量，進(jìn)而得到短時(shí)特征向量對(duì)應(yīng)的統(tǒng)計(jì)特征向量；計(jì)算得到短時(shí)特征向量對(duì)應(yīng)的一組統(tǒng)計(jì)特征向量，由該組統(tǒng)計(jì)特征向量構(gòu)成訓(xùn)練序列的長(zhǎng)時(shí)特征向量；利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量訓(xùn)練分類器；提取測(cè)試序列中第i幀的音頻信號(hào)的短時(shí)特征并計(jì)算測(cè)試序列的第i幀的輸入長(zhǎng)時(shí)特征向量；將第i幀的輸入長(zhǎng)時(shí)特征向量送入訓(xùn)練后的分類器中，得到分類類型。本發(fā)明避免提取長(zhǎng)時(shí)特征導(dǎo)致的延時(shí)問(wèn)題，實(shí)現(xiàn)了音頻特征的實(shí)時(shí)分類。
文檔編號(hào)G10L15/08GK102623007SQ201110033410
公開(kāi)日2012年8月1日申請(qǐng)日期2011年1月30日優(yōu)先權(quán)日2011年1月30日
發(fā)明者盧敏, 竇維蓓申請(qǐng)人:清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：盧敏;竇維蓓
技術(shù)所有人：清華大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

音頻特征提取相關(guān)技術(shù)

音頻特征相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于可變時(shí)長(zhǎng)的音頻特征分類方法