音頻信號(hào)的分類識(shí)別方法及裝置的制作方法

文檔序號(hào)：2823890閱讀：510來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：音頻信號(hào)的分類識(shí)別方法及裝置的制作方法
技術(shù)領(lǐng)域：
本申請涉及通信技術(shù)領(lǐng)域，特別涉及語音音頻處理中音頻信號(hào)的分類識(shí)別方法及
直O(jiān)
背景技術(shù)：
USAC(Unified Coding of Speech and Audio，語音音頻統(tǒng)一編碼)是對(duì)語音信號(hào)和音樂信號(hào)的統(tǒng)一編碼，在編碼過程中需要正確識(shí)別出輸入信號(hào)具有語音特征還是音樂特征，從而選擇不同的編碼方案對(duì)語音信號(hào)和音樂信號(hào)分別進(jìn)行編碼。參見圖1，為現(xiàn)有識(shí)別語音和音樂信號(hào)的系統(tǒng)示意圖。該系統(tǒng)包括MLER (改進(jìn)型低能量幀率)特征獲取模塊110、貝葉斯后驗(yàn)分類模塊120和后驗(yàn)決策模塊130，該系統(tǒng)中基于分類特征進(jìn)行判斷，該分類特征具體為MLER。應(yīng)用圖1所示的系統(tǒng)，首先通過MLER特征獲取模塊110提取出第i個(gè)音頻片段的MLER，然后利用貝葉斯后驗(yàn)分類模塊120根據(jù)預(yù)先設(shè)置的閾值對(duì)該第i個(gè)音頻片段的類型進(jìn)行分類識(shí)別，最后利用后驗(yàn)決策模塊130對(duì)前述分類識(shí)別的結(jié)果進(jìn)行進(jìn)一步驗(yàn)證，即后驗(yàn)決策模塊130首先對(duì)識(shí)別結(jié)果進(jìn)行緩存，并設(shè)定為初始狀態(tài)，然后根據(jù)后續(xù)接收到的分類識(shí)別結(jié)果對(duì)前述保存的初始狀態(tài)進(jìn)行決策，利用后續(xù)音頻片段的分類識(shí)別結(jié)果對(duì)已識(shí)別出的分類結(jié)果進(jìn)行驗(yàn)證，以期減少分類誤差?，F(xiàn)有技術(shù)中使用了唯一的分類特征MLTR對(duì)音頻片段的類型進(jìn)行識(shí)別，每次判定以一個(gè)音頻片段作為輸出，一個(gè)音頻片段的長度通常為1秒左右，因此相應(yīng)會(huì)引入1秒左右的編碼延遲，由此降低了音頻處理的實(shí)時(shí)性能；由于現(xiàn)有技術(shù)中基于后驗(yàn)決策方法判斷當(dāng)前音頻片段的類型，并且還需要通過后續(xù)音頻片段的類型對(duì)當(dāng)前音頻片段的類型進(jìn)行后驗(yàn)校驗(yàn)，因此將進(jìn)一步加大語音音頻的處理延時(shí)。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供音頻信號(hào)的分類識(shí)別方法及裝置，以解決現(xiàn)有音頻信號(hào)的識(shí)別處理過程延時(shí)較大，音頻處理實(shí)時(shí)性能不高的問題。本發(fā)明實(shí)施例提供一種音頻信號(hào)的分類識(shí)別方法，包括獲取一幀音頻信號(hào)，對(duì)所述一幀音頻信號(hào)進(jìn)行預(yù)處理；通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新，生成包含所述一幀音頻信號(hào)的當(dāng)前音頻片段；從所述當(dāng)前音頻片段中提取分類特征，所述分類特征包括低短時(shí)能量比LSTER和跳躍能量比JSTER ；根據(jù)所述分類特征識(shí)別所述一幀音頻信號(hào)的類型，得到初始分類結(jié)果。本發(fā)明實(shí)施例提供一種音頻信號(hào)的分類識(shí)別裝置，包括獲取單元，用于獲取一幀音頻信號(hào)；預(yù)處理單元，用于對(duì)所述一幀音頻信號(hào)進(jìn)行預(yù)處理；更新單元，用于通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新，生成包含所述一幀音頻信號(hào)的當(dāng)前音頻片段；提取單元，用于從所述當(dāng)前音頻片段中提取分類特征，所述分類特征包括低短時(shí)能量比LSTER和跳躍能量比JSTER ；識(shí)別單元，用于根據(jù)所述分類特征識(shí)別所述一幀音頻信號(hào)的類型，得到初始分類結(jié)果。由以上本申請實(shí)施例提供的技術(shù)方案可見，本申請實(shí)施例中獲取一幀音頻信號(hào)，對(duì)一幀音頻信號(hào)進(jìn)行預(yù)處理，通過預(yù)處理的結(jié)果對(duì)一幀音頻信號(hào)之前的音頻片段進(jìn)行更新，生成包含該一幀音頻信號(hào)的當(dāng)前音頻片段，從當(dāng)前音頻片段中提取分類特征LSTER和 JSTER，根據(jù)分類特征識(shí)別一幀音頻信號(hào)的類型，得到初始分類結(jié)果。與現(xiàn)有技術(shù)中每次需要識(shí)別一個(gè)音頻片段的類別不同，本申請實(shí)施例中每次對(duì)一幀音頻信號(hào)進(jìn)行識(shí)別，由于音頻信號(hào)的長度遠(yuǎn)遠(yuǎn)小于音頻片段，因此延時(shí)性能極大提高，提高了音頻處理的實(shí)時(shí)性能；本申請實(shí)施例中通過LSTER和JSTER兩個(gè)分類特征對(duì)音頻信號(hào)進(jìn)行識(shí)別，增加了音頻信號(hào)識(shí)別的準(zhǔn)確性，并且由于無需進(jìn)行復(fù)雜的后驗(yàn)決策等計(jì)算，因此降低了音頻信號(hào)識(shí)別的復(fù)雜度。

為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請中記載的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為現(xiàn)有識(shí)別語音和音樂信號(hào)的系統(tǒng)示意圖；圖2為本申請音頻信號(hào)的分類識(shí)別方法的第一實(shí)施例流程圖；圖3為本申請音頻信號(hào)的分類識(shí)別方法的第二實(shí)施例流程圖；圖4為本申請實(shí)施例中對(duì)音頻片段進(jìn)行更新生成當(dāng)前音頻片段的示意圖；圖5為本申請音頻信號(hào)的分類識(shí)別方法的第三實(shí)施例流程圖；圖6為本申請音頻信號(hào)的分類識(shí)別裝置的第一實(shí)施例框圖；圖7為本申請音頻信號(hào)的分類識(shí)別裝置的第二實(shí)施例框圖。
具體實(shí)施例方式本申請實(shí)施例提供了音頻信號(hào)的分類識(shí)別方法及裝置。本申請實(shí)施例中對(duì)音頻信號(hào)的分類識(shí)別主要指識(shí)別出音頻信號(hào)屬于語音信號(hào)或是音樂信號(hào)。為了使本技術(shù)領(lǐng)域的人員更好地理解本申請方案，并使本申請的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂，下面結(jié)合附圖和具體實(shí)施方式
對(duì)本申請作進(jìn)一步詳細(xì)的說明。參見圖2，為本申請音頻信號(hào)的分類識(shí)別方法的第一實(shí)施例流程圖步驟201 獲取一幀音頻信號(hào)，對(duì)該一幀音頻信號(hào)進(jìn)行預(yù)處理。具體的，將一幀音頻信號(hào)劃分為若干子幀，若干子幀中相鄰兩個(gè)子幀相互重疊，通過對(duì)每個(gè)子幀加漢明窗處理，計(jì)算每個(gè)子幀的短時(shí)能量。步驟202 通過預(yù)處理的結(jié)果對(duì)該一幀音頻信號(hào)之前的音頻片段進(jìn)行更新，生成包含該一幀音頻信號(hào)的當(dāng)前音頻片段。
具體的，將之前的音頻片段的起始位置處的一幀音頻信號(hào)的短時(shí)能量移除，將一幀音頻信號(hào)的每個(gè)子幀的短時(shí)能量移入之前的音頻片段的末端，生成當(dāng)前音頻片段。步驟203 從當(dāng)前音頻片段中提取分類特征低短時(shí)能量比LSTER和跳躍能量比 JSTER0LSTER(低短時(shí)能量比)指一個(gè)音頻片段中能量低于閾值的子幀個(gè)數(shù)占該音頻片段中子幀總數(shù)的比例JSTER(跳躍能量比)指一個(gè)音頻片段中發(fā)生能量跳躍的子幀個(gè)數(shù)占該音頻片段中子幀總數(shù)的比例。上述兩個(gè)分類特征的提取主要在于計(jì)算每個(gè)子幀的短時(shí)能量，因此計(jì)算量較低。具體的，在提取LSTER時(shí)，計(jì)算當(dāng)前音頻片段中所有子幀的短時(shí)能量的平均值閾值，統(tǒng)計(jì)當(dāng)前音頻片段中子幀的短時(shí)能量低于平均值閾值的子幀個(gè)數(shù)，將低于平均值閾值的子幀個(gè)數(shù)除以當(dāng)前音頻片段中子幀的總數(shù)，得到LSTER。具體的，在提取JSTER時(shí)，獲取當(dāng)前音頻片段中當(dāng)前子幀的前一個(gè)子幀的短時(shí)能量和預(yù)測能量，根據(jù)前一個(gè)子幀的短時(shí)能量和預(yù)測能量計(jì)算當(dāng)前子幀的預(yù)測能量，通過比較當(dāng)前子幀的預(yù)測能量與當(dāng)前子幀的短時(shí)能量判斷當(dāng)前子幀是否發(fā)生能量突變，統(tǒng)計(jì)當(dāng)前音頻片段中發(fā)生能量突變的子幀的個(gè)數(shù)，將發(fā)生能量突變的子幀個(gè)數(shù)除以當(dāng)前音頻片段中子幀的總數(shù)，得到JSTER。步驟204 根據(jù)分類特征識(shí)別該一幀音頻信號(hào)的類型，得到初始分類結(jié)果。具體的，獲取一幀音頻信號(hào)的能量值，比較一幀音頻信號(hào)的能量值與預(yù)設(shè)的靜音幀的能量閾值，當(dāng)能量值小于能量閾值時(shí)，判定一幀音頻信號(hào)的類型與其上一幀音頻信號(hào)的類型一致；當(dāng)能量值大于閾值時(shí)，比較提取的LSTER與預(yù)先設(shè)置的LSTER閾值，當(dāng)提取的 LSTER小于LSTER閾值時(shí)，判定一幀音頻信號(hào)為音樂信號(hào)；當(dāng)提取的LSTER大于LSTER閾值時(shí)，比較提取的JSTER與預(yù)先設(shè)置的JSTER閾值，當(dāng)提取的JSTER小于JSTER閾值時(shí)，判定一幀音頻信號(hào)為音樂信號(hào)，當(dāng)提取的JSTER大于JSTER閾值時(shí)，判定一幀音頻信號(hào)為語音信號(hào)。參見圖3，為本申請音頻信號(hào)的分類識(shí)別方法的第二實(shí)施例流程圖，該實(shí)施例詳細(xì)示出了對(duì)音頻信號(hào)進(jìn)行分類識(shí)別，并通過平滑處理得到最終的分類結(jié)果的過程步驟301 獲取一幀音頻信號(hào)。步驟302 將一幀音頻信號(hào)劃分為若干子幀，若干子幀中相鄰兩個(gè)子幀相互重疊。在進(jìn)行預(yù)處理時(shí)，將讀入的一幀音頻信號(hào)劃分為若干子幀，各個(gè)子幀之間相互重疊每個(gè)子幀點(diǎn)數(shù)的一半，對(duì)每個(gè)子幀加漢明窗進(jìn)行處理，計(jì)算各個(gè)子幀的短時(shí)能量。其中，所讀入的當(dāng)前音頻編碼的一幀音頻信號(hào)的長度可以根據(jù)具體編碼環(huán)境的不同而不同，本申請實(shí)施例中，在劃分子幀時(shí)，假設(shè)每個(gè)音頻片段包含20幀音頻信號(hào)，而每一幀音頻信號(hào)中包含四個(gè)子幀，每個(gè)子幀的時(shí)長可以為23ms (毫秒)，每兩個(gè)相鄰的子幀之間有11. 5ms的時(shí)長重疊。步驟303 通過對(duì)每個(gè)子幀加漢明窗處理，計(jì)算每個(gè)子幀的短時(shí)能量。本申請實(shí)施例中，假設(shè)每個(gè)子幀的數(shù)據(jù)長度為1024點(diǎn)，則在將當(dāng)前輸入的一幀音頻信號(hào)劃分為四個(gè)子幀后，依次為每個(gè)子幀加漢明窗進(jìn)行處理，該漢明窗和子幀數(shù)據(jù)長度等長，即為1024點(diǎn)漢明窗。通過加漢明窗計(jì)算可以計(jì)算每個(gè)子幀的短時(shí)能量，得到當(dāng)前一幀音頻信號(hào)的四個(gè)子幀的短時(shí)能量。
步驟304 通過預(yù)處理的結(jié)果對(duì)一幀音頻信號(hào)之前的音頻片段進(jìn)行更新，生成包含一幀音頻信號(hào)的當(dāng)前音頻片段。在對(duì)音頻片段進(jìn)行更新時(shí)，將該當(dāng)前一幀音頻信號(hào)之前的一個(gè)音頻片段的開始的四個(gè)子幀的短時(shí)能量移除，將當(dāng)前一幀音頻信號(hào)的四個(gè)子幀的短時(shí)能量移入該音頻片段的末端，組成新的音頻片段，作為當(dāng)前音頻片段。參見圖4所示，為對(duì)音頻片段進(jìn)行更新生成當(dāng)前音頻片段的示意圖。本申請實(shí)施例中使用包含當(dāng)前一幀音頻信號(hào)的一個(gè)音頻片段的信息作為對(duì)該當(dāng)前一幀音頻信號(hào)進(jìn)行分類的依據(jù)。步驟305 從當(dāng)前音頻片段中提取分類特征LSTER。在提取LSTER時(shí)，計(jì)算當(dāng)前音頻片段中子幀能量的平均值，并統(tǒng)計(jì)子幀能量低于平均值某個(gè)百分比的子幀的個(gè)數(shù)，其中平均值某個(gè)百分比的值可以記為平均值閾值，獲得該音頻片段的LSTER。具體來說，音頻信號(hào)的分類結(jié)果主要包括語音信號(hào)和音樂信號(hào)兩種，其中語音信號(hào)由于其中靜音、清音和濁音的幀交替出現(xiàn)，因此導(dǎo)致各個(gè)子幀的短時(shí)能量不均等，而音樂信號(hào)由于比較平穩(wěn)，因此音樂信號(hào)每個(gè)子幀的短時(shí)能量變化不大，和語音信號(hào)相比，音樂信號(hào)的短時(shí)能量變化的方差不大，且短時(shí)能量較低的子幀的比率也比較低，即音樂信號(hào)的 LSTER相對(duì)低于語音信號(hào)的LSTER。因此，根據(jù)語音信號(hào)和音樂信號(hào)的上述LSTER特征的不同，可以利用LSTER作為對(duì)音頻信號(hào)進(jìn)行分類的依據(jù)。仍然以包含20幀音頻信號(hào)的音頻片段為例，該音頻片段中共包含80個(gè)子幀，則首先計(jì)算這80個(gè)子幀的短時(shí)能量的平均值，每個(gè)子幀的短時(shí)能量可以采用現(xiàn)有方法計(jì)算，然后計(jì)算短時(shí)能量的平均值一定百分比的值作為平均值閾值，該百分比可以設(shè)定在5%至 10%之間，然后將80個(gè)子幀的短時(shí)能量分別與該計(jì)算出的平均值閾值進(jìn)行比較，如果低于該平均值閾值則相應(yīng)的子幀確定為短時(shí)能量較低的子幀，最后計(jì)算短時(shí)能量較低的子幀的個(gè)數(shù)占80個(gè)子幀的比例，即占當(dāng)前音頻片段的比例，得到LSTER，該LSTER具體可以按照如下公式進(jìn)行計(jì)算其中，LSTER可以通過如下公式進(jìn)行計(jì)算
權(quán)利要求
1.一種音頻信號(hào)的分類識(shí)別方法，其特征在于，包括獲取一幀音頻信號(hào)，對(duì)所述一幀音頻信號(hào)進(jìn)行預(yù)處理；通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新，生成包含所述一幀音頻信號(hào)的當(dāng)前音頻片段；從所述當(dāng)前音頻片段中提取分類特征，所述分類特征包括低短時(shí)能量比LSTER和跳躍能量比JSTER ；根據(jù)所述分類特征識(shí)別所述一幀音頻信號(hào)的類型，得到初始分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)一幀音頻信號(hào)進(jìn)行預(yù)處理包括將所述一幀音頻信號(hào)劃分為若干子幀，所述若干子幀中相鄰兩個(gè)子幀相互重疊；通過對(duì)每個(gè)子幀加漢明窗處理，計(jì)算每個(gè)子幀的短時(shí)能量。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新包括將所述之前的音頻片段的起始位置處的一幀音頻信號(hào)的短時(shí)能量移除；將所述一幀音頻信號(hào)的每個(gè)子幀的短時(shí)能量移入所述之前的音頻片段的末端，生成所述當(dāng)前音頻片段。
4.根據(jù)權(quán)利要求2所述的方法，其特征在于，當(dāng)分類特征為LSTER時(shí)，從所述當(dāng)前音頻片段中提取LSTER包括計(jì)算所述當(dāng)前音頻片段中所有子幀的短時(shí)能量的平均值閾值；統(tǒng)計(jì)所述當(dāng)前音頻片段中子幀的短時(shí)能量低于所述平均值閾值的子幀個(gè)數(shù)；將低于所述平均值閾值的子幀個(gè)數(shù)除以所述當(dāng)前音頻片段中子幀的總數(shù)，得到所述 LSTER0
5.根據(jù)權(quán)利要求2所述的方法，其特征在于，當(dāng)分類特征為JSTER時(shí)，從所述當(dāng)前音頻片段中提取JSTER包括獲取所述當(dāng)前音頻片段中當(dāng)前子幀的前一個(gè)子幀的短時(shí)能量和預(yù)測能量；根據(jù)所述前一個(gè)子幀的短時(shí)能量和預(yù)測能量計(jì)算所述當(dāng)前子幀的預(yù)測能量；通過比較所述當(dāng)前子幀的預(yù)測能量與所述當(dāng)前子幀的短時(shí)能量判斷所述當(dāng)前子幀是否發(fā)生能量突變；統(tǒng)計(jì)所述當(dāng)前音頻片段中發(fā)生能量突變的子幀的個(gè)數(shù)；將發(fā)生能量突變的子幀個(gè)數(shù)除以所述當(dāng)前音頻片段中子幀的總數(shù)，得到所述JSTER。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述分類特征識(shí)別一幀音頻信號(hào)的類型包括獲取所述一幀音頻信號(hào)的能量值；比較所述一幀音頻信號(hào)的能量值與預(yù)設(shè)的靜音幀的能量閾值，當(dāng)所述能量值小于所述能量閾值時(shí)，判定所述一幀音頻信號(hào)的類型與其上一幀音頻信號(hào)的類型一致；當(dāng)所述能量值大于所述閾值時(shí)，比較提取的LSTER與預(yù)先設(shè)置的LSTER閾值，當(dāng)所述提取的LSTER小于LSTER閾值時(shí)，判定所述一幀音頻信號(hào)為音樂信號(hào)；當(dāng)所述提取的LSTER大于LSTER閾值時(shí)，比較提取的JSTER與預(yù)先設(shè)置的JSTER閾值，當(dāng)所述提取的JSTER小于JSTER閾值時(shí)，判定所述一幀音頻信號(hào)為音樂信號(hào)，當(dāng)所述提取的 JSTER大于JSTER閾值時(shí)，判定所述一幀音頻信號(hào)為語音信號(hào)。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，還包括通過所述一幀音頻信號(hào)的初步分類結(jié)果對(duì)所述LSTER閾值和JSTER閾值進(jìn)行調(diào)整，所述調(diào)整后的LSTER閾值和JSTER閾值用于所述一幀音頻信號(hào)的下一幀音頻信號(hào)的分類識(shí)別。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述通過一幀音頻信號(hào)的初步分類結(jié)果對(duì)所述LSTER閾值和JSTER閾值進(jìn)行調(diào)整包括將所述之前的音頻片段的起始位置處的一幀音頻信號(hào)的初步分類結(jié)果移除，并將所述一幀音頻信號(hào)的初步分類結(jié)果移入所述之前的音頻片段的末端，形成新的音頻片段；當(dāng)所述新的音頻片段中初步分類結(jié)果為音樂信號(hào)的數(shù)量大于所述新的音頻片段中所包含的音頻信號(hào)數(shù)量的一半時(shí)，將所述LSTER閾值和JSTER閾值分別增加一個(gè)步長值，當(dāng)所述新的音頻片段中初步分類結(jié)果為音樂信號(hào)的數(shù)量小于所述新的音頻片段中所包含的音頻信號(hào)數(shù)量的一半時(shí)，將所述LSTER閾值和JSTER閾值分別減少一個(gè)步長值。
9.根據(jù)權(quán)利要求8所述的方法，其特征在于，還包括當(dāng)判斷增加一個(gè)步長值之后的LSTER閾值和JSTER閾值分別小于預(yù)設(shè)的LSTER最大值和JSTER最大值時(shí)，執(zhí)行所述將LSTER閾值和JSTER閾值分別增加一個(gè)步長值；當(dāng)判斷見著一個(gè)步長值之后的LSTER閾值和JSTER閾值分別大于預(yù)設(shè)的LSTER最大值和JSTER最小值時(shí)，執(zhí)行所述將LSTER閾值和JSTER閾值分別減少一個(gè)步長值。
10.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括對(duì)所述一幀音頻信號(hào)的初始分類結(jié)果進(jìn)行平滑，獲得最終分類結(jié)果。
11.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述對(duì)一幀音頻信號(hào)的初始分類結(jié)果進(jìn)行平滑包括獲取已保存的所述一幀音頻信號(hào)之前的若干幀音頻信號(hào)的初步分類結(jié)果；統(tǒng)計(jì)所述若干幀音頻信號(hào)的初步分類結(jié)果中，語音信號(hào)和音樂信號(hào)的個(gè)數(shù)；將語音信號(hào)和音樂信號(hào)中個(gè)數(shù)占多數(shù)的信號(hào)類型確定為所述一幀音頻信號(hào)的最終分類結(jié)果。
12.—種音頻信號(hào)的分類識(shí)別裝置，其特征在于，包括獲取單元，用于獲取一幀音頻信號(hào)；預(yù)處理單元，用于對(duì)所述一幀音頻信號(hào)進(jìn)行預(yù)處理；更新單元，用于通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新，生成包含所述一幀音頻信號(hào)的當(dāng)前音頻片段；提取單元，用于從所述當(dāng)前音頻片段中提取分類特征，所述分類特征包括低短時(shí)能量比LSTER和跳躍能量比JSTER ；識(shí)別單元，用于根據(jù)所述分類特征識(shí)別所述一幀音頻信號(hào)的類型，得到初始分類結(jié)果。
13.根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述預(yù)處理單元包括子幀劃分單元，用于將所述一幀音頻信號(hào)劃分為若干子幀，所述若干子幀中相鄰兩個(gè)子幀相互重疊；能量計(jì)算單元，用于通過對(duì)每個(gè)子幀加漢明窗處理，計(jì)算每個(gè)子幀的短時(shí)能量。
14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述更新單元包括能量移除單元，用于將所述之前的音頻片段的起始位置處的一幀音頻信號(hào)的短時(shí)能量移除；能量移入單元，用于將所述一幀音頻信號(hào)的每個(gè)子幀的短時(shí)能量移入所述之前的音頻片段的末端，生成所述當(dāng)前音頻片段。
15.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述提取單元包括能量閾值計(jì)算單元，用于當(dāng)提取的分類特征為LSTER時(shí)，計(jì)算所述當(dāng)前音頻片段中所有子幀的短時(shí)能量的平均值閾值；子幀個(gè)數(shù)統(tǒng)計(jì)單元，用于統(tǒng)計(jì)所述當(dāng)前音頻片段中子幀的短時(shí)能量低于所述平均值閾值的子幀個(gè)數(shù)；LSTER生成單元，用于將低于所述平均值閾值的子幀個(gè)數(shù)除以所述當(dāng)前音頻片段中子幀的總數(shù)，得到所述LSTER。
16.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述提取單元包括能量獲取單元，用于當(dāng)提取的分類特征為JSTER時(shí)，獲取所述當(dāng)前音頻片段中當(dāng)前子幀的前一個(gè)子幀的短時(shí)能量和預(yù)測能量；能量計(jì)算單元，用于根據(jù)所述前一個(gè)子幀的短時(shí)能量和預(yù)測能量計(jì)算所述當(dāng)前子幀的預(yù)測能量；能量突變判斷單元，用于通過比較所述當(dāng)前子幀的預(yù)測能量與所述當(dāng)前子幀的短時(shí)能量判斷所述當(dāng)前子幀是否發(fā)生能量突變；突變個(gè)數(shù)統(tǒng)計(jì)單元，用于統(tǒng)計(jì)所述當(dāng)前音頻片段中發(fā)生能量突變的子幀的個(gè)數(shù)；JSTER生成單元，用于將發(fā)生能量突變的子幀個(gè)數(shù)除以所述當(dāng)前音頻片段中子幀的總數(shù)，得到所述JSTER。
17.根據(jù)權(quán)利要求12所述的裝置其特征在于，所述識(shí)別單元包括能量值獲取單元，用于獲取所述一幀音頻信號(hào)的能量值；比較識(shí)別單元，用于比較所述一幀音頻信號(hào)的能量值與預(yù)設(shè)的靜音幀的能量閾值，當(dāng)所述能量值小于所述能量閾值時(shí)，判定所述一幀音頻信號(hào)的類型與其上一幀音頻信號(hào)的類型一致；當(dāng)所述能量值大于所述閾值時(shí)，比較提取的LSTER與預(yù)先設(shè)置的LSTER閾值，當(dāng)所述提取的LSTER小于LSTER閾值時(shí)，判定所述一幀音頻信號(hào)為音樂信號(hào)；當(dāng)所述提取的 LSTER大于LSTER閾值時(shí)，比較提取的JSTER與預(yù)先設(shè)置的JSTER閾值，當(dāng)所述提取的JSTER 小于JSTER閾值時(shí)，判定所述一幀音頻信號(hào)為音樂信號(hào)，當(dāng)所述提取的JSTER大于JSTER閾值時(shí)，判定所述一幀音頻信號(hào)為語音信號(hào)。
18.根據(jù)權(quán)利要求17所述的裝置，其特征在于，還包括調(diào)整單元，用于通過所述一幀音頻信號(hào)的初步分類結(jié)果對(duì)所述LSTER閾值和JSTER閾值進(jìn)行調(diào)整，所述調(diào)整后的LSTER閾值和JSTER閾值用于所述一幀音頻信號(hào)的下一幀音頻信號(hào)的分類識(shí)別。
19.根據(jù)權(quán)利要求12所述的裝置，其特征在于，還包括平滑單元，用于對(duì)所述一幀音頻信號(hào)的初始分類結(jié)果進(jìn)行平滑，獲得最終分類結(jié)果。
20.根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述平滑單元包括初步分類結(jié)果獲取單元，用于獲取已保存的所述一幀音頻信號(hào)之前的若干幀音頻信號(hào)的初步分類結(jié)果；初步分類結(jié)果統(tǒng)計(jì)單元，用于統(tǒng)計(jì)所述若干幀音頻信號(hào)的初步分類結(jié)果中，語音信號(hào)和音樂信號(hào)的個(gè)數(shù)；最終分類結(jié)果確定單元，用于將語音信號(hào)和音樂信號(hào)中個(gè)數(shù)占多數(shù)的信號(hào)類型確定為所述一幀音頻信號(hào)的最終分類結(jié)果。
全文摘要
本申請實(shí)施例公開了一種音頻信號(hào)的分類識(shí)別方法及裝置，所述方法包括獲取一幀音頻信號(hào)，對(duì)所述一幀音頻信號(hào)進(jìn)行預(yù)處理；通過預(yù)處理的結(jié)果對(duì)所述一幀音頻信號(hào)之前的音頻片段進(jìn)行更新，生成包含所述一幀音頻信號(hào)的當(dāng)前音頻片段；從所述當(dāng)前音頻片段中提取分類特征低短時(shí)能量比LSTER和跳躍能量比JSTER；根據(jù)所述分類特征識(shí)別所述一幀音頻信號(hào)的類型，得到初始分類結(jié)果。本申請實(shí)施例中每次對(duì)一幀音頻信號(hào)進(jìn)行識(shí)別，由于音頻信號(hào)的長度遠(yuǎn)遠(yuǎn)小于音頻片段，因此延時(shí)性能極大提高，提高了音頻處理的實(shí)時(shí)性能；通過LSTER和JSTER兩個(gè)分類特征對(duì)音頻信號(hào)進(jìn)行識(shí)別，增加了音頻信號(hào)識(shí)別的準(zhǔn)確性，降低了音頻信號(hào)識(shí)別的復(fù)雜度。
文檔編號(hào)G10L17/00GK102446506SQ20101051250
公開日2012年5月9日申請日期2010年10月11日優(yōu)先權(quán)日2010年10月11日
發(fā)明者劉貴忠, 杜正中, 金劍, 頓玉潔申請人:華為技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金劍;劉貴忠;頓玉潔;杜正中
技術(shù)所有人：華為技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：無線業(yè)務(wù)身份認(rèn)證方法、設(shè)備及系統(tǒng)的制作方法
上一篇：拼接語音檢測系統(tǒng)及方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

信號(hào)源的分類與識(shí)別相關(guān)技術(shù)

重新裝載音頻裝置相關(guān)技術(shù)

不停重新裝載音頻裝置相關(guān)技術(shù)

重新加載音頻裝置相關(guān)技術(shù)

音頻裝置相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

音頻信號(hào)的分類識(shí)別方法及裝置的制作方法