專利名稱:音頻信號(hào)的分類識(shí)別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本申請涉及通信技術(shù)領(lǐng)域,特別涉及語音音頻處理中音頻信號(hào)的分類識(shí)別方法及
直O(jiān)
背景技術(shù):
USAC(Unified Coding of Speech and Audio,語音音頻統(tǒng)一編碼)是對(duì)語音信號(hào)和音樂信號(hào)的統(tǒng)一編碼,在編碼過程中需要正確識(shí)別出輸入信號(hào)具有語音特征還是音樂特征,從而選擇不同的編碼方案對(duì)語音信號(hào)和音樂信號(hào)分別進(jìn)行編碼。參見圖1,為現(xiàn)有識(shí)別語音和音樂信號(hào)的系統(tǒng)示意圖。該系統(tǒng)包括MLER (改進(jìn)型低能量幀率)特征獲取模塊110、貝葉斯后驗(yàn)分類模塊120和后驗(yàn)決策模塊130,該系統(tǒng)中基于分類特征進(jìn)行判斷,該分類特征具體為MLER。應(yīng)用圖1所示的系統(tǒng),首先通過MLER特征獲取模塊110提取出第i個(gè)音頻片段的MLER,然后利用貝葉斯后驗(yàn)分類模塊120根據(jù)預(yù)先設(shè)置的閾值對(duì)該第i個(gè)音頻片段的類型進(jìn)行分類識(shí)別,最后利用后驗(yàn)決策模塊130對(duì)前述分類識(shí)別的結(jié)果進(jìn)行進(jìn)一步驗(yàn)證,即后驗(yàn)決策模塊130首先對(duì)識(shí)別結(jié)果進(jìn)行緩存,并設(shè)定為初始狀態(tài),然后根據(jù)后續(xù)接收到的分類識(shí)別結(jié)果對(duì)前述保存的初始狀態(tài)進(jìn)行決策,利用后續(xù)音頻片段的分類識(shí)別結(jié)果對(duì)已識(shí)別出的分類結(jié)果進(jìn)行驗(yàn)證,以期減少分類誤差?,F(xiàn)有技術(shù)中使用了唯一的分類特征MLTR對(duì)音頻片段的類型進(jìn)行識(shí)別,每次判定以一個(gè)音頻片段作為輸出,一個(gè)音頻片段的長度通常為1秒左右,因此相應(yīng)會(huì)引入1秒左右的編碼延遲,由此降低了音頻處理的實(shí)時(shí)性能;由于現(xiàn)有技術(shù)中基于后驗(yàn)決策方法判斷當(dāng)前音頻片段的類型,并且還需要通過后續(xù)音頻片段的類型對(duì)當(dāng)前音頻片段的類型進(jìn)行后驗(yàn)校驗(yàn),因此將進(jìn)一步加大語音音頻的處理延時(shí)。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供音頻信號(hào)的分類識(shí)別方法及裝置,以解決現(xiàn)有音頻信號(hào)的識(shí)別處理過程延時(shí)較大,音頻處理實(shí)時(shí)性能不高的問題。本發(fā)明實(shí)施例提供一種音頻信號(hào)的分類識(shí)別方法,包括獲取一幀音頻信號(hào),對(duì)所述一幀音頻信號(hào)進(jìn)行預(yù)處理;通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新,生成包含所述一幀音頻信號(hào)的當(dāng)前音頻片段;從所述當(dāng)前音頻片段中提取分類特征,所述分類特征包括低短時(shí)能量比LSTER和跳躍能量比JSTER ;根據(jù)所述分類特征識(shí)別所述一幀音頻信號(hào)的類型,得到初始分類結(jié)果。本發(fā)明實(shí)施例提供一種音頻信號(hào)的分類識(shí)別裝置,包括獲取單元,用于獲取一幀音頻信號(hào);預(yù)處理單元,用于對(duì)所述一幀音頻信號(hào)進(jìn)行預(yù)處理;更新單元,用于通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新,生成包含所述一幀音頻信號(hào)的當(dāng)前音頻片段;提取單元,用于從所述當(dāng)前音頻片段中提取分類特征,所述分類特征包括低短時(shí)能量比LSTER和跳躍能量比JSTER ;識(shí)別單元,用于根據(jù)所述分類特征識(shí)別所述一幀音頻信號(hào)的類型,得到初始分類結(jié)果。由以上本申請實(shí)施例提供的技術(shù)方案可見,本申請實(shí)施例中獲取一幀音頻信號(hào), 對(duì)一幀音頻信號(hào)進(jìn)行預(yù)處理,通過預(yù)處理的結(jié)果對(duì)一幀音頻信號(hào)之前的音頻片段進(jìn)行更新,生成包含該一幀音頻信號(hào)的當(dāng)前音頻片段,從當(dāng)前音頻片段中提取分類特征LSTER和 JSTER,根據(jù)分類特征識(shí)別一幀音頻信號(hào)的類型,得到初始分類結(jié)果。與現(xiàn)有技術(shù)中每次需要識(shí)別一個(gè)音頻片段的類別不同,本申請實(shí)施例中每次對(duì)一幀音頻信號(hào)進(jìn)行識(shí)別,由于音頻信號(hào)的長度遠(yuǎn)遠(yuǎn)小于音頻片段,因此延時(shí)性能極大提高,提高了音頻處理的實(shí)時(shí)性能;本申請實(shí)施例中通過LSTER和JSTER兩個(gè)分類特征對(duì)音頻信號(hào)進(jìn)行識(shí)別,增加了音頻信號(hào)識(shí)別的準(zhǔn)確性,并且由于無需進(jìn)行復(fù)雜的后驗(yàn)決策等計(jì)算,因此降低了音頻信號(hào)識(shí)別的復(fù)雜度。
為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為現(xiàn)有識(shí)別語音和音樂信號(hào)的系統(tǒng)示意圖;圖2為本申請音頻信號(hào)的分類識(shí)別方法的第一實(shí)施例流程圖;圖3為本申請音頻信號(hào)的分類識(shí)別方法的第二實(shí)施例流程圖;圖4為本申請實(shí)施例中對(duì)音頻片段進(jìn)行更新生成當(dāng)前音頻片段的示意圖;圖5為本申請音頻信號(hào)的分類識(shí)別方法的第三實(shí)施例流程圖;圖6為本申請音頻信號(hào)的分類識(shí)別裝置的第一實(shí)施例框圖;圖7為本申請音頻信號(hào)的分類識(shí)別裝置的第二實(shí)施例框圖。
具體實(shí)施例方式本申請實(shí)施例提供了音頻信號(hào)的分類識(shí)別方法及裝置。本申請實(shí)施例中對(duì)音頻信號(hào)的分類識(shí)別主要指識(shí)別出音頻信號(hào)屬于語音信號(hào)或是音樂信號(hào)。為了使本技術(shù)領(lǐng)域的人員更好地理解本申請方案,并使本申請的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本申請作進(jìn)一步詳細(xì)的說明。參見圖2,為本申請音頻信號(hào)的分類識(shí)別方法的第一實(shí)施例流程圖步驟201 獲取一幀音頻信號(hào),對(duì)該一幀音頻信號(hào)進(jìn)行預(yù)處理。具體的,將一幀音頻信號(hào)劃分為若干子幀,若干子幀中相鄰兩個(gè)子幀相互重疊,通過對(duì)每個(gè)子幀加漢明窗處理,計(jì)算每個(gè)子幀的短時(shí)能量。步驟202 通過預(yù)處理的結(jié)果對(duì)該一幀音頻信號(hào)之前的音頻片段進(jìn)行更新,生成包含該一幀音頻信號(hào)的當(dāng)前音頻片段。
具體的,將之前的音頻片段的起始位置處的一幀音頻信號(hào)的短時(shí)能量移除,將一幀音頻信號(hào)的每個(gè)子幀的短時(shí)能量移入之前的音頻片段的末端,生成當(dāng)前音頻片段。步驟203 從當(dāng)前音頻片段中提取分類特征低短時(shí)能量比LSTER和跳躍能量比 JSTER0LSTER(低短時(shí)能量比)指一個(gè)音頻片段中能量低于閾值的子幀個(gè)數(shù)占該音頻片段中子幀總數(shù)的比例JSTER(跳躍能量比)指一個(gè)音頻片段中發(fā)生能量跳躍的子幀個(gè)數(shù)占該音頻片段中子幀總數(shù)的比例。上述兩個(gè)分類特征的提取主要在于計(jì)算每個(gè)子幀的短時(shí)能量,因此計(jì)算量較低。具體的,在提取LSTER時(shí),計(jì)算當(dāng)前音頻片段中所有子幀的短時(shí)能量的平均值閾值,統(tǒng)計(jì)當(dāng)前音頻片段中子幀的短時(shí)能量低于平均值閾值的子幀個(gè)數(shù),將低于平均值閾值的子幀個(gè)數(shù)除以當(dāng)前音頻片段中子幀的總數(shù),得到LSTER。具體的,在提取JSTER時(shí),獲取當(dāng)前音頻片段中當(dāng)前子幀的前一個(gè)子幀的短時(shí)能量和預(yù)測能量,根據(jù)前一個(gè)子幀的短時(shí)能量和預(yù)測能量計(jì)算當(dāng)前子幀的預(yù)測能量,通過比較當(dāng)前子幀的預(yù)測能量與當(dāng)前子幀的短時(shí)能量判斷當(dāng)前子幀是否發(fā)生能量突變,統(tǒng)計(jì)當(dāng)前音頻片段中發(fā)生能量突變的子幀的個(gè)數(shù),將發(fā)生能量突變的子幀個(gè)數(shù)除以當(dāng)前音頻片段中子幀的總數(shù),得到JSTER。步驟204 根據(jù)分類特征識(shí)別該一幀音頻信號(hào)的類型,得到初始分類結(jié)果。具體的,獲取一幀音頻信號(hào)的能量值,比較一幀音頻信號(hào)的能量值與預(yù)設(shè)的靜音幀的能量閾值,當(dāng)能量值小于能量閾值時(shí),判定一幀音頻信號(hào)的類型與其上一幀音頻信號(hào)的類型一致;當(dāng)能量值大于閾值時(shí),比較提取的LSTER與預(yù)先設(shè)置的LSTER閾值,當(dāng)提取的 LSTER小于LSTER閾值時(shí),判定一幀音頻信號(hào)為音樂信號(hào);當(dāng)提取的LSTER大于LSTER閾值時(shí),比較提取的JSTER與預(yù)先設(shè)置的JSTER閾值,當(dāng)提取的JSTER小于JSTER閾值時(shí),判定一幀音頻信號(hào)為音樂信號(hào),當(dāng)提取的JSTER大于JSTER閾值時(shí),判定一幀音頻信號(hào)為語音信號(hào)。參見圖3,為本申請音頻信號(hào)的分類識(shí)別方法的第二實(shí)施例流程圖,該實(shí)施例詳細(xì)示出了對(duì)音頻信號(hào)進(jìn)行分類識(shí)別,并通過平滑處理得到最終的分類結(jié)果的過程步驟301 獲取一幀音頻信號(hào)。步驟302 將一幀音頻信號(hào)劃分為若干子幀,若干子幀中相鄰兩個(gè)子幀相互重疊。在進(jìn)行預(yù)處理時(shí),將讀入的一幀音頻信號(hào)劃分為若干子幀,各個(gè)子幀之間相互重疊每個(gè)子幀點(diǎn)數(shù)的一半,對(duì)每個(gè)子幀加漢明窗進(jìn)行處理,計(jì)算各個(gè)子幀的短時(shí)能量。其中,所讀入的當(dāng)前音頻編碼的一幀音頻信號(hào)的長度可以根據(jù)具體編碼環(huán)境的不同而不同,本申請實(shí)施例中,在劃分子幀時(shí),假設(shè)每個(gè)音頻片段包含20幀音頻信號(hào),而每一幀音頻信號(hào)中包含四個(gè)子幀,每個(gè)子幀的時(shí)長可以為23ms (毫秒),每兩個(gè)相鄰的子幀之間有11. 5ms的時(shí)長重疊。步驟303 通過對(duì)每個(gè)子幀加漢明窗處理,計(jì)算每個(gè)子幀的短時(shí)能量。本申請實(shí)施例中,假設(shè)每個(gè)子幀的數(shù)據(jù)長度為1024點(diǎn),則在將當(dāng)前輸入的一幀音頻信號(hào)劃分為四個(gè)子幀后,依次為每個(gè)子幀加漢明窗進(jìn)行處理,該漢明窗和子幀數(shù)據(jù)長度等長,即為1024點(diǎn)漢明窗。通過加漢明窗計(jì)算可以計(jì)算每個(gè)子幀的短時(shí)能量,得到當(dāng)前一幀音頻信號(hào)的四個(gè)子幀的短時(shí)能量。
步驟304 通過預(yù)處理的結(jié)果對(duì)一幀音頻信號(hào)之前的音頻片段進(jìn)行更新,生成包含一幀音頻信號(hào)的當(dāng)前音頻片段。在對(duì)音頻片段進(jìn)行更新時(shí),將該當(dāng)前一幀音頻信號(hào)之前的一個(gè)音頻片段的開始的四個(gè)子幀的短時(shí)能量移除,將當(dāng)前一幀音頻信號(hào)的四個(gè)子幀的短時(shí)能量移入該音頻片段的末端,組成新的音頻片段,作為當(dāng)前音頻片段。參見圖4所示,為對(duì)音頻片段進(jìn)行更新生成當(dāng)前音頻片段的示意圖。本申請實(shí)施例中使用包含當(dāng)前一幀音頻信號(hào)的一個(gè)音頻片段的信息作為對(duì)該當(dāng)前一幀音頻信號(hào)進(jìn)行分類的依據(jù)。步驟305 從當(dāng)前音頻片段中提取分類特征LSTER。在提取LSTER時(shí),計(jì)算當(dāng)前音頻片段中子幀能量的平均值,并統(tǒng)計(jì)子幀能量低于平均值某個(gè)百分比的子幀的個(gè)數(shù),其中平均值某個(gè)百分比的值可以記為平均值閾值,獲得該音頻片段的LSTER。具體來說,音頻信號(hào)的分類結(jié)果主要包括語音信號(hào)和音樂信號(hào)兩種,其中語音信號(hào)由于其中靜音、清音和濁音的幀交替出現(xiàn),因此導(dǎo)致各個(gè)子幀的短時(shí)能量不均等,而音樂信號(hào)由于比較平穩(wěn),因此音樂信號(hào)每個(gè)子幀的短時(shí)能量變化不大,和語音信號(hào)相比,音樂信號(hào)的短時(shí)能量變化的方差不大,且短時(shí)能量較低的子幀的比率也比較低,即音樂信號(hào)的 LSTER相對(duì)低于語音信號(hào)的LSTER。因此,根據(jù)語音信號(hào)和音樂信號(hào)的上述LSTER特征的不同,可以利用LSTER作為對(duì)音頻信號(hào)進(jìn)行分類的依據(jù)。仍然以包含20幀音頻信號(hào)的音頻片段為例,該音頻片段中共包含80個(gè)子幀,則首先計(jì)算這80個(gè)子幀的短時(shí)能量的平均值,每個(gè)子幀的短時(shí)能量可以采用現(xiàn)有方法計(jì)算, 然后計(jì)算短時(shí)能量的平均值一定百分比的值作為平均值閾值,該百分比可以設(shè)定在5%至 10%之間,然后將80個(gè)子幀的短時(shí)能量分別與該計(jì)算出的平均值閾值進(jìn)行比較,如果低于該平均值閾值則相應(yīng)的子幀確定為短時(shí)能量較低的子幀,最后計(jì)算短時(shí)能量較低的子幀的個(gè)數(shù)占80個(gè)子幀的比例,即占當(dāng)前音頻片段的比例,得到LSTER,該LSTER具體可以按照如下公式進(jìn)行計(jì)算其中,LSTER可以通過如下公式進(jìn)行計(jì)算
權(quán)利要求
1.一種音頻信號(hào)的分類識(shí)別方法,其特征在于,包括 獲取一幀音頻信號(hào),對(duì)所述一幀音頻信號(hào)進(jìn)行預(yù)處理;通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新,生成包含所述一幀音頻信號(hào)的當(dāng)前音頻片段;從所述當(dāng)前音頻片段中提取分類特征,所述分類特征包括低短時(shí)能量比LSTER和跳躍能量比JSTER ;根據(jù)所述分類特征識(shí)別所述一幀音頻信號(hào)的類型,得到初始分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)一幀音頻信號(hào)進(jìn)行預(yù)處理包括 將所述一幀音頻信號(hào)劃分為若干子幀,所述若干子幀中相鄰兩個(gè)子幀相互重疊; 通過對(duì)每個(gè)子幀加漢明窗處理,計(jì)算每個(gè)子幀的短時(shí)能量。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新包括將所述之前的音頻片段的起始位置處的一幀音頻信號(hào)的短時(shí)能量移除; 將所述一幀音頻信號(hào)的每個(gè)子幀的短時(shí)能量移入所述之前的音頻片段的末端,生成所述當(dāng)前音頻片段。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)分類特征為LSTER時(shí),從所述當(dāng)前音頻片段中提取LSTER包括計(jì)算所述當(dāng)前音頻片段中所有子幀的短時(shí)能量的平均值閾值; 統(tǒng)計(jì)所述當(dāng)前音頻片段中子幀的短時(shí)能量低于所述平均值閾值的子幀個(gè)數(shù); 將低于所述平均值閾值的子幀個(gè)數(shù)除以所述當(dāng)前音頻片段中子幀的總數(shù),得到所述 LSTER0
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)分類特征為JSTER時(shí),從所述當(dāng)前音頻片段中提取JSTER包括獲取所述當(dāng)前音頻片段中當(dāng)前子幀的前一個(gè)子幀的短時(shí)能量和預(yù)測能量; 根據(jù)所述前一個(gè)子幀的短時(shí)能量和預(yù)測能量計(jì)算所述當(dāng)前子幀的預(yù)測能量; 通過比較所述當(dāng)前子幀的預(yù)測能量與所述當(dāng)前子幀的短時(shí)能量判斷所述當(dāng)前子幀是否發(fā)生能量突變;統(tǒng)計(jì)所述當(dāng)前音頻片段中發(fā)生能量突變的子幀的個(gè)數(shù);將發(fā)生能量突變的子幀個(gè)數(shù)除以所述當(dāng)前音頻片段中子幀的總數(shù),得到所述JSTER。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述分類特征識(shí)別一幀音頻信號(hào)的類型包括獲取所述一幀音頻信號(hào)的能量值;比較所述一幀音頻信號(hào)的能量值與預(yù)設(shè)的靜音幀的能量閾值,當(dāng)所述能量值小于所述能量閾值時(shí),判定所述一幀音頻信號(hào)的類型與其上一幀音頻信號(hào)的類型一致;當(dāng)所述能量值大于所述閾值時(shí),比較提取的LSTER與預(yù)先設(shè)置的LSTER閾值,當(dāng)所述提取的LSTER小于LSTER閾值時(shí),判定所述一幀音頻信號(hào)為音樂信號(hào);當(dāng)所述提取的LSTER大于LSTER閾值時(shí),比較提取的JSTER與預(yù)先設(shè)置的JSTER閾值, 當(dāng)所述提取的JSTER小于JSTER閾值時(shí),判定所述一幀音頻信號(hào)為音樂信號(hào),當(dāng)所述提取的 JSTER大于JSTER閾值時(shí),判定所述一幀音頻信號(hào)為語音信號(hào)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括通過所述一幀音頻信號(hào)的初步分類結(jié)果對(duì)所述LSTER閾值和JSTER閾值進(jìn)行調(diào)整,所述調(diào)整后的LSTER閾值和JSTER閾值用于所述一幀音頻信號(hào)的下一幀音頻信號(hào)的分類識(shí)別。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述通過一幀音頻信號(hào)的初步分類結(jié)果對(duì)所述LSTER閾值和JSTER閾值進(jìn)行調(diào)整包括將所述之前的音頻片段的起始位置處的一幀音頻信號(hào)的初步分類結(jié)果移除,并將所述一幀音頻信號(hào)的初步分類結(jié)果移入所述之前的音頻片段的末端,形成新的音頻片段;當(dāng)所述新的音頻片段中初步分類結(jié)果為音樂信號(hào)的數(shù)量大于所述新的音頻片段中所包含的音頻信號(hào)數(shù)量的一半時(shí),將所述LSTER閾值和JSTER閾值分別增加一個(gè)步長值,當(dāng)所述新的音頻片段中初步分類結(jié)果為音樂信號(hào)的數(shù)量小于所述新的音頻片段中所包含的音頻信號(hào)數(shù)量的一半時(shí),將所述LSTER閾值和JSTER閾值分別減少一個(gè)步長值。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,還包括當(dāng)判斷增加一個(gè)步長值之后的LSTER閾值和JSTER閾值分別小于預(yù)設(shè)的LSTER最大值和JSTER最大值時(shí),執(zhí)行所述將LSTER閾值和JSTER閾值分別增加一個(gè)步長值;當(dāng)判斷見著一個(gè)步長值之后的LSTER閾值和JSTER閾值分別大于預(yù)設(shè)的LSTER最大值和JSTER最小值時(shí),執(zhí)行所述將LSTER閾值和JSTER閾值分別減少一個(gè)步長值。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括對(duì)所述一幀音頻信號(hào)的初始分類結(jié)果進(jìn)行平滑,獲得最終分類結(jié)果。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述對(duì)一幀音頻信號(hào)的初始分類結(jié)果進(jìn)行平滑包括獲取已保存的所述一幀音頻信號(hào)之前的若干幀音頻信號(hào)的初步分類結(jié)果; 統(tǒng)計(jì)所述若干幀音頻信號(hào)的初步分類結(jié)果中,語音信號(hào)和音樂信號(hào)的個(gè)數(shù); 將語音信號(hào)和音樂信號(hào)中個(gè)數(shù)占多數(shù)的信號(hào)類型確定為所述一幀音頻信號(hào)的最終分類結(jié)果。
12.—種音頻信號(hào)的分類識(shí)別裝置,其特征在于,包括 獲取單元,用于獲取一幀音頻信號(hào);預(yù)處理單元,用于對(duì)所述一幀音頻信號(hào)進(jìn)行預(yù)處理;更新單元,用于通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新,生成包含所述一幀音頻信號(hào)的當(dāng)前音頻片段;提取單元,用于從所述當(dāng)前音頻片段中提取分類特征,所述分類特征包括低短時(shí)能量比LSTER和跳躍能量比JSTER ;識(shí)別單元,用于根據(jù)所述分類特征識(shí)別所述一幀音頻信號(hào)的類型,得到初始分類結(jié)果。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述預(yù)處理單元包括子幀劃分單元,用于將所述一幀音頻信號(hào)劃分為若干子幀,所述若干子幀中相鄰兩個(gè)子幀相互重疊;能量計(jì)算單元,用于通過對(duì)每個(gè)子幀加漢明窗處理,計(jì)算每個(gè)子幀的短時(shí)能量。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述更新單元包括能量移除單元,用于將所述之前的音頻片段的起始位置處的一幀音頻信號(hào)的短時(shí)能量移除;能量移入單元,用于將所述一幀音頻信號(hào)的每個(gè)子幀的短時(shí)能量移入所述之前的音頻片段的末端,生成所述當(dāng)前音頻片段。
15.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述提取單元包括能量閾值計(jì)算單元,用于當(dāng)提取的分類特征為LSTER時(shí),計(jì)算所述當(dāng)前音頻片段中所有子幀的短時(shí)能量的平均值閾值;子幀個(gè)數(shù)統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述當(dāng)前音頻片段中子幀的短時(shí)能量低于所述平均值閾值的子幀個(gè)數(shù);LSTER生成單元,用于將低于所述平均值閾值的子幀個(gè)數(shù)除以所述當(dāng)前音頻片段中子幀的總數(shù),得到所述LSTER。
16.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述提取單元包括能量獲取單元,用于當(dāng)提取的分類特征為JSTER時(shí),獲取所述當(dāng)前音頻片段中當(dāng)前子幀的前一個(gè)子幀的短時(shí)能量和預(yù)測能量;能量計(jì)算單元,用于根據(jù)所述前一個(gè)子幀的短時(shí)能量和預(yù)測能量計(jì)算所述當(dāng)前子幀的預(yù)測能量;能量突變判斷單元,用于通過比較所述當(dāng)前子幀的預(yù)測能量與所述當(dāng)前子幀的短時(shí)能量判斷所述當(dāng)前子幀是否發(fā)生能量突變;突變個(gè)數(shù)統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述當(dāng)前音頻片段中發(fā)生能量突變的子幀的個(gè)數(shù);JSTER生成單元,用于將發(fā)生能量突變的子幀個(gè)數(shù)除以所述當(dāng)前音頻片段中子幀的總數(shù),得到所述JSTER。
17.根據(jù)權(quán)利要求12所述的裝置其特征在于,所述識(shí)別單元包括能量值獲取單元,用于獲取所述一幀音頻信號(hào)的能量值;比較識(shí)別單元,用于比較所述一幀音頻信號(hào)的能量值與預(yù)設(shè)的靜音幀的能量閾值,當(dāng)所述能量值小于所述能量閾值時(shí),判定所述一幀音頻信號(hào)的類型與其上一幀音頻信號(hào)的類型一致;當(dāng)所述能量值大于所述閾值時(shí),比較提取的LSTER與預(yù)先設(shè)置的LSTER閾值,當(dāng)所述提取的LSTER小于LSTER閾值時(shí),判定所述一幀音頻信號(hào)為音樂信號(hào);當(dāng)所述提取的 LSTER大于LSTER閾值時(shí),比較提取的JSTER與預(yù)先設(shè)置的JSTER閾值,當(dāng)所述提取的JSTER 小于JSTER閾值時(shí),判定所述一幀音頻信號(hào)為音樂信號(hào),當(dāng)所述提取的JSTER大于JSTER閾值時(shí),判定所述一幀音頻信號(hào)為語音信號(hào)。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,還包括調(diào)整單元,用于通過所述一幀音頻信號(hào)的初步分類結(jié)果對(duì)所述LSTER閾值和JSTER閾值進(jìn)行調(diào)整,所述調(diào)整后的LSTER閾值和JSTER閾值用于所述一幀音頻信號(hào)的下一幀音頻信號(hào)的分類識(shí)別。
19.根據(jù)權(quán)利要求12所述的裝置,其特征在于,還包括平滑單元,用于對(duì)所述一幀音頻信號(hào)的初始分類結(jié)果進(jìn)行平滑,獲得最終分類結(jié)果。
20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述平滑單元包括初步分類結(jié)果獲取單元,用于獲取已保存的所述一幀音頻信號(hào)之前的若干幀音頻信號(hào)的初步分類結(jié)果;初步分類結(jié)果統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述若干幀音頻信號(hào)的初步分類結(jié)果中,語音信號(hào)和音樂信號(hào)的個(gè)數(shù);最終分類結(jié)果確定單元,用于將語音信號(hào)和音樂信號(hào)中個(gè)數(shù)占多數(shù)的信號(hào)類型確定為所述一幀音頻信號(hào)的最終分類結(jié)果。
全文摘要
本申請實(shí)施例公開了一種音頻信號(hào)的分類識(shí)別方法及裝置,所述方法包括獲取一幀音頻信號(hào),對(duì)所述一幀音頻信號(hào)進(jìn)行預(yù)處理;通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新,生成包含所述一幀音頻信號(hào)的當(dāng)前音頻片段;從所述當(dāng)前音頻片段中提取分類特征低短時(shí)能量比LSTER和跳躍能量比JSTER;根據(jù)所述分類特征識(shí)別所述一幀音頻信號(hào)的類型,得到初始分類結(jié)果。本申請實(shí)施例中每次對(duì)一幀音頻信號(hào)進(jìn)行識(shí)別,由于音頻信號(hào)的長度遠(yuǎn)遠(yuǎn)小于音頻片段,因此延時(shí)性能極大提高,提高了音頻處理的實(shí)時(shí)性能;通過LSTER和JSTER兩個(gè)分類特征對(duì)音頻信號(hào)進(jìn)行識(shí)別,增加了音頻信號(hào)識(shí)別的準(zhǔn)確性,降低了音頻信號(hào)識(shí)別的復(fù)雜度。
文檔編號(hào)G10L17/00GK102446506SQ20101051250
公開日2012年5月9日 申請日期2010年10月11日 優(yōu)先權(quán)日2010年10月11日
發(fā)明者劉貴忠, 杜正中, 金劍, 頓玉潔 申請人:華為技術(shù)有限公司