一種音頻數(shù)據(jù)分類方法及裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種音頻數(shù)據(jù)分類方法及裝置,一種音頻數(shù)據(jù)分類方法包括:獲得待識別類別的第一音頻數(shù)據(jù);按照預設的加窗算法,在第一音頻數(shù)據(jù)的音頻時間軸上進行加窗;對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;將每個MFCC特征向量矢量量化為一個一維的第一特征值;按照預設的直方圖繪制算法,對所有第一特征值進行計算,得到第一音頻數(shù)據(jù)的第一直方圖;將第一直方圖與預設的各個音頻類別音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算,得到與第一直方圖相似度最大的第一直方圖特征模板;該特征模板的音頻類別即為第一音頻數(shù)據(jù)的音頻類別。與現(xiàn)有技術相比,本發(fā)明的技術方案提高了音頻數(shù)據(jù)分類的準確度和速度。
【專利說明】
一種音頻數(shù)據(jù)分類方法及裝置
【技術領域】
[0001]本發(fā)明涉及多媒體數(shù)據(jù)處理【技術領域】,特別是涉及一種音頻數(shù)據(jù)分類方法及裝置。
【背景技術】
[0002]隨著多媒體技術和網(wǎng)絡技術的飛速發(fā)展,音頻數(shù)據(jù)成指數(shù)級增長,相應地,互聯(lián)網(wǎng)上也出現(xiàn)了大量的音頻數(shù)據(jù)信息,這些信息被廣泛應用于教育、娛樂、新聞、廣告等多個領域,成為人們日常生活的重要組成部分。因此,如何對這些音頻數(shù)據(jù)進行分類是一個亟待解決的問題。
[0003]目前,現(xiàn)有技術中首先對音頻數(shù)據(jù)進行特征向量提取,然后基于GMM模型對音頻數(shù)據(jù)進行分類。由于提取的特征向量的維數(shù)通常為39維或以上,所以在GMM模型框架下由特征向量訓練得到GMM模型時需要大量的有標注的數(shù)據(jù),而這種有標注的數(shù)據(jù)要消耗大量人力,實際獲得的數(shù)據(jù)量比較少,這就會帶來數(shù)據(jù)稀疏的問題,音頻數(shù)據(jù)分類的準確度不高。另外,由于特征向量的維數(shù)較高,相應的上述訓練過程的計算量較大,所以訓練過程緩慢,音頻數(shù)據(jù)分類的速度較低。
【發(fā)明內容】
[0004]本發(fā)明實施例的目的在于提供一種音頻數(shù)據(jù)分類方法及裝置,以提高音頻數(shù)據(jù)分類的準確度和速度。具體技術方案如下:
[0005]一種音頻數(shù)據(jù)分類方法,應用于電子設備,包括:
[0006]獲得待識別類別的第一音頻數(shù)據(jù);
[0007]按照預設的加窗算法,在所述第一音頻數(shù)據(jù)的音頻時間軸上進行加窗;
[0008]對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0009]按照預設的矢量量化算法,將提取出的所有的MFCC特征向量分別量化為一維的第一特征值;其中,每個MFCC特征向量對應一個第一特征值;
[0010]按照預設的直方圖繪制算法,對所有的第一特征值進行計算,得到所述第一音頻數(shù)據(jù)的第一直方圖;
[0011]將所述第一直方圖與預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算,得到與所述第一直方圖相似度最大的第一直方圖特征模板;
[0012]將所述第一直方圖特征模板對應的音頻類別識別為所述第一音頻數(shù)據(jù)的音頻類別。
[0013]在本發(fā)明的一種【具體實施方式】中,所述按照預設的加窗算法,在所述第一音頻數(shù)據(jù)的音頻時間軸上進行加窗的步驟,包括:
[0014]將所述第一音頻數(shù)據(jù)按預設時間段劃分為音頻幀;
[0015]對所述音頻幀進行加窗。
[0016]在本發(fā)明的一種【具體實施方式】中,所述窗具體為矩形窗或漢明窗。
[0017]在本發(fā)明的一種【具體實施方式】中,所述按照預設的直方圖繪制算法,對所有的第一特征值進行計算,得到所述第一音頻數(shù)據(jù)的第一直方圖包括:
[0018]將所述第一特征值映射到預設的第一數(shù)值區(qū)間內的各個數(shù)值上;
[0019]以所述預設的第一數(shù)值區(qū)間為橫軸,以所述第一數(shù)值區(qū)間的各個數(shù)值對應的第一特征值數(shù)占第一特征值總數(shù)的百分比為縱軸計算得到所述第一音頻數(shù)據(jù)的第一直方圖。
[0020]在本發(fā)明的一種【具體實施方式】中,所述預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板,是預先通過音頻數(shù)據(jù)訓練獲得的,一種音頻數(shù)據(jù)訓練方法包括:
[0021]獲得有類別標注的音頻數(shù)據(jù)樣本;
[0022]按照所述預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗;
[0023]對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0024]按照所述預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值;
[0025]按照所述預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0026]根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0027]在本發(fā)明的一種【具體實施方式】中,所述按照所述預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖包括:
[0028]將所述第二特征值映射到預設的第二數(shù)值區(qū)間內的各個數(shù)值上;
[0029]以所述預設的第二數(shù)值區(qū)間為橫軸,以所述第二數(shù)值區(qū)間的各個數(shù)值對應的第二特征值數(shù)占第二特征值總數(shù)的百分比為縱軸計算得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖。
[0030]在本發(fā)明的一種【具體實施方式】中,所述根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板,包括以下步驟:
[0031]獲得所有的計算所得的所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0032]將所述獲得的所有的計算所得的所述有類別標注的音頻數(shù)據(jù)樣本的直方圖進行分類;
[0033]以所述預設的第二數(shù)值區(qū)間為橫軸,以具有相同類別的音頻數(shù)據(jù)樣本的直方圖的橫軸的各個數(shù)值對應的百分比的平均值為縱軸計算得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0034]一種音頻數(shù)據(jù)訓練方法,包括:
[0035]獲得有類別標注的音頻數(shù)據(jù)樣本;
[0036]按照預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗;
[0037]對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0038]按照預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值;
[0039]按照預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0040]根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0041]本發(fā)明實施例還提供一種音頻數(shù)據(jù)分類裝置,包括:
[0042]第一音頻數(shù)據(jù)獲得單元:用于獲得待識別類別的第一音頻數(shù)據(jù);
[0043]第一音頻數(shù)據(jù)加窗單元:用于按照預設的加窗算法,在所述第一音頻數(shù)據(jù)的音頻時間軸上進行加窗;
[0044]第一特征向量提取單元:用于對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0045]第一矢量量化單元:用于按照預設的矢量量化算法,將提取出的所有的MFCC特征向量分別量化為一維的第一特征值;其中,每個MFCC特征向量對應一個第一特征值;
[0046]第一直方圖計算單元:用于按照預設的直方圖繪制算法,對所有的第一特征值進行計算,得到所述第一音頻數(shù)據(jù)的第一直方圖;
[0047]相似度計算單元:用于將所述第一直方圖與預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算,得到與所述第一直方圖相似度最大的第一直方圖特征模板;
[0048]音頻類別識別單元:用于將所述第一直方圖特征模板對應的音頻類別識別為所述第一音頻數(shù)據(jù)的音頻類別。
[0049]在本發(fā)明的一種【具體實施方式】中,所述第一音頻數(shù)據(jù)加窗單元具體包括:
[0050]音頻幀獲取單元:用于將所述第一音頻數(shù)據(jù)按預設時間段劃分為音頻幀;
[0051]音頻幀加窗單元:用于對所述音頻幀進行加窗。
[0052]在本發(fā)明的一種【具體實施方式】中,其特征在于,所述第一音頻數(shù)據(jù)加窗單元加的窗具體為矩形窗或漢明窗。
[0053]在本發(fā)明的一種【具體實施方式】中,所述第一直方圖計算單元具體包括:
[0054]第一特征值映射單元:用于將所述第一特征值映射到預設的第一數(shù)值區(qū)間內的各個數(shù)值上;
[0055]第一直方圖計算子單元:用于以所述預設的第一數(shù)值區(qū)間為橫軸,以所述第一數(shù)值區(qū)間的各個數(shù)值對應的第一特征值數(shù)占第一特征值總數(shù)的百分比為縱軸計算得到所述第一音頻數(shù)據(jù)的第一直方圖。
[0056]在本發(fā)明的一種【具體實施方式】中,所述相似度計算單元,在將所述第一直方圖與預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算時,所述預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板是預先通過音頻數(shù)據(jù)訓練裝置訓練獲得的,一種音頻數(shù)據(jù)訓練裝置包括:
[0057]音頻數(shù)據(jù)樣本獲得單元:用于獲得有類別標注的音頻數(shù)據(jù)樣本;
[0058]音頻數(shù)據(jù)樣本加窗單元:用于按照所述預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗;
[0059]第二特征向量提取單元:用于對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0060]第二矢量量化單元:用于按照所述預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值;
[0061]第二直方圖計算單元:用于按照所述預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0062]直方圖特征模板獲得單元:用于根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0063]在本發(fā)明的一種【具體實施方式】中,所述第二直方圖計算單元具體包括:
[0064]第二特征值映射單元:用于將所述第二特征值映射到預設的第二數(shù)值區(qū)間內的各個數(shù)值上;
[0065]第二直方圖計算子單元:用于以所述預設的第二數(shù)值區(qū)間為橫軸,以所述第二數(shù)值區(qū)間的各個數(shù)值對應的第二特征值數(shù)占第二特征值總數(shù)的百分比為縱軸計算得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖。
[0066]在本發(fā)明的一種【具體實施方式】中,所述直方圖特征模板獲得單元具體包括:
[0067]直方圖獲得單元:用于獲得所有的計算所得的所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0068]直方圖分類單元:用于將所述獲得的所有的計算所得的所述有類別標注的音頻數(shù)據(jù)樣本的直方圖進行分類;
[0069]直方圖特征模板獲得子單元:用于以所述預設的第二數(shù)值區(qū)間為橫軸,以具有相同類別的音頻數(shù)據(jù)樣本的直方圖的橫軸的各個數(shù)值對應的百分比的平均值為縱軸計算得到各個類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0070]一種音頻數(shù)據(jù)訓練裝置,包括:
[0071]音頻數(shù)據(jù)樣本獲得單元:用于獲得有類別標注的音頻數(shù)據(jù)樣本;
[0072]音頻數(shù)據(jù)樣本加窗單元:用于按照預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗;
[0073]第二特征向量提取單元:用于對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0074]第二矢量量化單元:用于按照預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值;
[0075]第二直方圖計算單元:用于按照預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0076]直方圖特征模板獲得單元:用于根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0077]本發(fā)明實施例所提供的技術方案,將從待識別類別的音頻數(shù)據(jù)中提取的特征向量量化為一維的特征值,并對所得到的特征值進行計算得到相應的音頻數(shù)據(jù)直方圖,將該直方圖與各個類別音頻數(shù)據(jù)的直方圖特征模板進行相似度計算,根據(jù)相似度的大小識別出待識別類別的音頻數(shù)據(jù)的音頻類別。由于本發(fā)明的技術方案將音頻數(shù)據(jù)中提取的特征向量量化為一維的特征值,實現(xiàn)了特征降維,所以本發(fā)明的技術方案由特征向量訓練得到特征模板時不需要大量的有標注的數(shù)據(jù),且本發(fā)明的技術方案利用直方圖從全局范圍內獲取了音頻數(shù)據(jù)的主要特征,這解決了現(xiàn)有技術中數(shù)據(jù)稀疏的問題,提高了音頻數(shù)據(jù)分類的準確度。同時,由于本發(fā)明的技術方案利用矢量量化的方法實現(xiàn)了特征降維,降低了訓練特征模板時的工作量,所以本發(fā)明的技術方案提高了特征模板的訓練速度,進而提高了音頻數(shù)據(jù)的分類速度。
【專利附圖】
【附圖說明】
[0078]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0079]圖1為本發(fā)明實施例音頻數(shù)據(jù)分類方法的一種實施流程圖;
[0080]圖2為本發(fā)明實施例音頻數(shù)據(jù)訓練方法的一種實施流程圖;
[0081]圖3為本發(fā)明實施例音頻數(shù)據(jù)分類裝置的一種結構示意圖;
[0082]圖4為本發(fā)明實施例音頻數(shù)據(jù)訓練裝置的一種結構示意圖;
[0083]圖5為音頻數(shù)據(jù)直方圖的一種示意圖。
【具體實施方式】
[0084]下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0085]圖1所示,為本發(fā)明實施例一種音頻數(shù)據(jù)分類方法的實施流程圖,其包括以下步驟:
[0086]步驟S101,獲得待識別類別的第一音頻數(shù)據(jù);
[0087]在對第一音頻數(shù)據(jù)進行分類的過程中,首先電子設備獲得待識別的第一音頻數(shù)據(jù)。其中,待識別類別的第一音頻數(shù)據(jù)可以是片頭、片尾、廣告、現(xiàn)場報道等各種類別的音頻數(shù)據(jù)。
[0088]步驟S102,按照預設的加窗算法,在所述第一音頻數(shù)據(jù)的音頻時間軸上進行加窗;
[0089]在電子設備獲得上述待識別的第一音頻數(shù)據(jù)后,由于一般音頻數(shù)據(jù)的時間較長,而長時間的音頻數(shù)據(jù)是不穩(wěn)定的,且業(yè)界發(fā)現(xiàn)在很短的一段時間內音頻數(shù)據(jù)是穩(wěn)定的,所以在音頻數(shù)據(jù)分類的過程中通常需要按照預設的加窗算法,在第一音頻數(shù)據(jù)的音頻時間軸上進行加窗。在本發(fā)明的一種【具體實施方式】中,按照預設的加窗算法,在第一音頻數(shù)據(jù)的音頻時間軸上進行加窗的步驟包括:
[0090](I)設備將上述第一音頻數(shù)據(jù)按預設的時間段劃分為音頻幀;
[0091](2)對所有的音頻幀進行加窗處理。
[0092]進一步地,通常所選取的音頻幀的時間長度為25毫秒,上述所加的窗通常為矩形窗或漢明窗。具體的加窗方法,可以與現(xiàn)有技術完全相同,這里不再贅述。
[0093]步驟S103,對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0094]在對第一音頻數(shù)據(jù)進行加窗處理后,對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量。其中,MFCC的中文名為梅爾頻率倒譜系數(shù),MFCC是一種經(jīng)典的音頻特征,經(jīng)常應用到語音識別和音頻數(shù)據(jù)分類等領域。MFCC特征向量包括12至16維的基本特征,一維的能量特征,以及上述基本特征和能量特征的一階差分和二階差分特征,所以MFCC特征向量的維數(shù)可以為39維、42維、45維、48維和51維。通常在對音頻數(shù)據(jù)進行MFCC特征向量提取時,優(yōu)先選用39維的MFCC特征向量。
[0095]每個窗的音頻數(shù)據(jù)提取一個MFCC特征向量的方法可以與現(xiàn)有技術完全相同,這里不再贅述。
[0096]步驟S104,按照預設的矢量量化算法,將提取出的所有的MFCC特征向量分別量化為一維的第一特征值;其中,每個MFCC特征向量對應一個第一特征值;
[0097]在對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量后,按照預設的矢量量化算法,將上述提取出的所有的MFCC特征向量分別量化為一維的第一特征值;其中,每個MFCC特征向量對應一個第一特征值。在該步驟中,通過對MFCC特征向量進行量化,最終量化為一維的第一特征值。
[0098]步驟S105,按照預設的直方圖繪制算法,對所有的第一特征值進行計算,得到所述第一音頻數(shù)據(jù)的第一直方圖;
[0099]在得到第一特征值之后,按照預設的直方圖繪制算法,對所有的第一特征值進行計算,得到所述第一音頻數(shù)據(jù)的第一直方圖。具體地,在本發(fā)明的一種【具體實施方式】中,首先將上述第一特征值映射到預設的第一數(shù)值區(qū)間的各個數(shù)值上;然后以預設的第一數(shù)值區(qū)間為橫軸,以第一數(shù)值區(qū)間的各個數(shù)值對應的第一特征值數(shù)占第一特征值總數(shù)的百分比為縱軸計算得到第一音頻數(shù)據(jù)的第一直方圖。其中,上述預設的第一數(shù)值區(qū)間可以是O?1023。這里可以理解的是橫軸的取值范圍也可以比O?1023大,不過此時1023之外的百分比取值為零。
[0100]步驟S106,將所述第一直方圖與預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算,得到與所述第一直方圖相似度最大的第一直方圖特征模板;
[0101]在得到第一音頻數(shù)據(jù)的第一直方圖之后,將所述第一直方圖與預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算,得到與所述第一直方圖相似度最大的第一直方圖特征模板??梢岳斫獾氖?,這里的第一直方圖特征模板可以是預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板中的任意一種直方圖特征模板。
[0102]在本發(fā)明的一種【具體實施方式】中,步驟S106中的預設的各個類別的音頻數(shù)據(jù)對應的直方圖特征模板是預先通過音頻數(shù)據(jù)訓練獲得的,一種音頻數(shù)據(jù)訓練方法包括:
[0103]獲得有類別標注的音頻數(shù)據(jù)樣本;
[0104]按照所述預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗;
[0105]對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0106]按照所述預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值;
[0107]按照所述預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0108]根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0109]在音頻數(shù)據(jù)訓練過程中,在獲得有類別標注的音頻數(shù)據(jù)樣本后,執(zhí)行與S102相似的步驟,即按照所述預設的加窗算法,也就是說在音頻數(shù)據(jù)訓練過程中采用的加窗算法與音頻數(shù)據(jù)分類過程中采用的加窗算法是完全相同的,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗。進一步地,對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量,并按照預設的矢量量化算法,也就是說在音頻數(shù)據(jù)訓練過程中采用的矢量量化算法與音頻數(shù)據(jù)分類過程中采用的矢量量化算法是完全相同的,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值。
[0110]與步驟S105相似,在得到第二特征值之后,按照預設的直方圖繪制算法,也就是說在音頻數(shù)據(jù)訓練過程中采用的直方圖繪制算法與音頻數(shù)據(jù)分類過程中采用的直方圖繪制算法是完全相同的,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖。具體地,在本發(fā)明的一種【具體實施方式】中,將第二特征值映射到預設的第二數(shù)值區(qū)間內的各個數(shù)值上;并以預設的第二數(shù)值區(qū)間為橫軸,以所述第二數(shù)值區(qū)間的各個數(shù)值對應的第二特征值數(shù)占第二特征值總數(shù)的百分比為縱軸計算得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖。需要指出的是:這里的第二數(shù)值區(qū)間可以與上述第一數(shù)值區(qū)間相同。
[0111]最后,在得到有類別標注的音頻數(shù)據(jù)樣本的直方圖之后,根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。具體地,首先獲得上述所有的計算所得的有類別標注的音頻數(shù)據(jù)樣本的直方圖;然后將獲得的所有的計算所得的有類別標注的音頻數(shù)據(jù)樣本的直方圖進行分類;以預設的第二數(shù)值區(qū)間為橫軸,以具有相同類別的音頻數(shù)據(jù)樣本的直方圖的橫軸的各個數(shù)值對應的百分比的平均值為縱軸計算得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0112]在上述得到各個類別的音頻數(shù)據(jù)對應的直方圖特征模板的過程中,利用矢量量化的方法,將MFCC特征向量量化為一維的特征值,降低了特征維數(shù),解決了現(xiàn)有技術中數(shù)據(jù)稀疏的問題。同時,由于該過程實現(xiàn)了特征降維,降低了訓練特征模板時的工作量,所以提高了特征模板的訓練速度。
[0113]步驟S107,將所述第一直方圖特征模板對應的音頻類別識別為所述第一音頻數(shù)據(jù)的音頻類別。
[0114]在得到與第一直方圖相似度最大的第一直方圖特征模板后,將第一直方圖特征模板對應的音頻類別識別為第一音頻數(shù)據(jù)的音頻類別。
[0115]圖2所示,為本發(fā)明實施例一種音頻數(shù)據(jù)訓練方法的實施流程圖,其包括以下步驟:
[0116]步驟S201,獲得有類別標注的音頻數(shù)據(jù)樣本;
[0117]步驟S202,按照預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗;
[0118]步驟S203,對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0119]步驟S204,按照所述預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值;
[0120]步驟S205,按照預設的第一直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0121]步驟S206,根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0122]本發(fā)明實施例所提供的技術方案,將從待識別類別的音頻數(shù)據(jù)中提取的特征向量量化為一維的特征值,并對所得到的特征值進行計算得到相應的音頻數(shù)據(jù)直方圖,將該直方圖與各個類別音頻數(shù)據(jù)的直方圖特征模板進行相似度計算,根據(jù)相似度的大小識別出待識別類別的音頻數(shù)據(jù)的音頻類別。由于本發(fā)明的技術方案將音頻數(shù)據(jù)中提取的特征向量量化為一維的特征值,實現(xiàn)了特征降維,所以本發(fā)明的技術方案由特征向量訓練得到特征模板時不需要大量的有標注的數(shù)據(jù),且本發(fā)明的技術方案利用直方圖從全局范圍內獲取了音頻數(shù)據(jù)的主要特征,這解決了現(xiàn)有技術中數(shù)據(jù)稀疏的問題,提高了音頻數(shù)據(jù)分類的準確度。同時,由于本發(fā)明的技術方案利用矢量量化的方法實現(xiàn)了特征降維,降低了訓練特征模板時的工作量,所以本發(fā)明的技術方案提高了特征模板的訓練速度,進而提高了音頻數(shù)據(jù)的分類速度。
[0123]相對于上面的方法實施例,本發(fā)明還提供一種音頻數(shù)據(jù)分類裝置,參見圖3所示,該裝置包括:
[0124]第一音頻數(shù)據(jù)獲得單元301,用于獲得待識別類別的第一音頻數(shù)據(jù);
[0125]第一音頻數(shù)據(jù)加窗單元302,用于按照預設的加窗算法,在所述第一音頻數(shù)據(jù)的音頻時間軸上進行加窗;
[0126]第一特征向量提取單元303,用于對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0127]第一矢量量化單元304,用于按照預設的矢量量化算法,將提取出的所有的MFCC特征向量分別量化為一維的第一特征值;其中,每個MFCC特征向量對應一個第一特征值;
[0128]第一直方圖計算單元305,用于按照預設的直方圖繪制算法,對所有的第一特征值進行計算,得到所述第一音頻數(shù)據(jù)的第一直方圖;
[0129]相似度計算單元306,用于將所述第一直方圖與預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算,得到與所述第一直方圖相似度最大的第一直方圖特征模板;
[0130]音頻類別識別單元307,用于將所述第一直方圖特征模板對應的音頻類別識別為所述第一音頻數(shù)據(jù)的音頻類別。
[0131]在本發(fā)明的一種【具體實施方式】中,所述第一音頻數(shù)據(jù)加窗單元302具體包括:
[0132]音頻幀獲取單元:用于將所述第一音頻數(shù)據(jù)按預設時間段劃分為音頻幀;
[0133]音頻幀加窗單元:用于對所述音頻幀進行加窗。
[0134]在本發(fā)明的一種【具體實施方式】中,所述第一音頻數(shù)據(jù)加窗單元302加的窗具體為矩形窗或漢明窗。
[0135]在本發(fā)明的一種【具體實施方式】中,所述第一直方圖計算單元305具體包括:
[0136]第一特征值映射單元:用于將所述第一特征值映射到預設的第一數(shù)值區(qū)間內的各個數(shù)值上;
[0137]第一直方圖計算子單元:用于以所述預設的第一數(shù)值區(qū)間為橫軸,以所述第一數(shù)值區(qū)間的各個數(shù)值對應的第一特征值數(shù)占第一特征值總數(shù)的百分比為縱軸計算得到所述第一音頻數(shù)據(jù)的第一直方圖。
[0138]在本發(fā)明的一種【具體實施方式】中,所述相似度計算單元306,在將所述第一直方圖與預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算時,所述預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板是預先通過音頻數(shù)據(jù)訓練裝置訓練獲得的,一種音頻數(shù)據(jù)訓練裝置包括:
[0139]音頻數(shù)據(jù)樣本獲得單元:用于獲得有類別標注的音頻數(shù)據(jù)樣本;
[0140]音頻數(shù)據(jù)樣本加窗單元:用于按照所述預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗;
[0141]第二特征向量提取單元:用于對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0142]第二矢量量化單元:用于按照所述預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值;
[0143]第二直方圖計算單元:用于按照所述預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0144]直方圖特征模板獲得單元:用于根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0145]在本發(fā)明的一種【具體實施方式】中,所述第二直方圖計算單元具體包括:
[0146]第二特征值映射單元:用于將所述第二特征值映射到預設的第二數(shù)值區(qū)間內的各個數(shù)值上;
[0147]第二直方圖計算子單元:用于以所述預設的第二數(shù)值區(qū)間為橫軸,以所述第二數(shù)值區(qū)間的各個數(shù)值對應的第二特征值數(shù)占第二特征值總數(shù)的百分比為縱軸計算得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖。
[0148]在本發(fā)明的一種【具體實施方式】中,所述直方圖特征模板獲得單元具體包括:
[0149]直方圖獲得單元:用于獲得所有的計算所得的所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0150]直方圖分類單元:用于將所述獲得的所有的計算所得的所述有類別標注的音頻數(shù)據(jù)樣本的直方圖進行分類;
[0151]直方圖特征模板獲得子單元:用于以所述預設的第二數(shù)值區(qū)間為橫軸,以具有相同類別的音頻數(shù)據(jù)樣本的直方圖的橫軸的各個數(shù)值對應的百分比的平均值為縱軸計算得到各個類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0152]圖4所示,為本發(fā)明實施例一種音頻數(shù)據(jù)訓練裝置的結構示意圖,該裝置包括:
[0153]音頻數(shù)據(jù)樣本獲得單元401,用于獲得有類別標注的音頻數(shù)據(jù)樣本;
[0154]音頻數(shù)據(jù)樣本加窗單元402,用于按照預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗;
[0155]第二特征向量提取單元403,用于對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量;
[0156]第二矢量量化單元404,用于按照預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值;
[0157]第二直方圖計算單元405,用于按照預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖;
[0158]直方圖特征模板獲得單元406,用于根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
[0159]本發(fā)明實施例所提供的技術方案,將從待識別類別的音頻數(shù)據(jù)中提取的特征向量量化為一維的特征值,并對所得到的特征值進行計算得到相應的音頻數(shù)據(jù)直方圖,將該直方圖與各個類別音頻數(shù)據(jù)的直方圖特征模板進行相似度計算,根據(jù)相似度的大小識別出待識別類別的音頻數(shù)據(jù)的音頻類別。由于本發(fā)明的技術方案將音頻數(shù)據(jù)中提取的特征向量量化為一維的特征值,實現(xiàn)了特征降維,所以本發(fā)明的技術方案由特征向量訓練得到特征模板時不需要大量的有標注的數(shù)據(jù),且本發(fā)明的技術方案利用直方圖從全局范圍內獲取了音頻數(shù)據(jù)的主要特征,這解決了現(xiàn)有技術中數(shù)據(jù)稀疏的問題,提高了音頻數(shù)據(jù)分類的準確度。同時,由于本發(fā)明的技術方案利用矢量量化的方法實現(xiàn)了特征降維,降低了訓練特征模板時的工作量,所以本發(fā)明的技術方案提高了特征模板的訓練速度,進而提高了音頻數(shù)據(jù)的分類速度。
[0160]為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本發(fā)明時可以把各單元的功能在同一個或多個軟件和/或硬件中實現(xiàn)。
[0161]下面將參見圖5對本發(fā)明的技術方案的可行性進行論證。圖5中紅色的直方圖代表廣告音頻數(shù)據(jù)直方圖,黑色的直方圖代表新聞音頻數(shù)據(jù)直方圖。可以看出廣告音頻數(shù)據(jù)直方圖和廣告音頻數(shù)據(jù)直方圖之間有較大的相似性,新聞音頻數(shù)據(jù)直方圖和新聞音頻數(shù)據(jù)直方圖之間有較大的相似性,而廣告音頻數(shù)據(jù)直方圖和新聞音頻數(shù)據(jù)直方圖之間的相似性較小。所以我們可以得出下述結論:相同類別的音頻數(shù)據(jù)直方圖之間的相似性較大,不同類別的音頻數(shù)據(jù)直方圖之間的相似性較小。即本發(fā)明的技術方案在數(shù)據(jù)稀疏的情況下能夠準確、迅速的對音頻數(shù)據(jù)進行分類。
[0162]通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)。基于這樣的理解,本發(fā)明的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。
[0163]需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。
[0164]本說明書中的各個實施例均采用相關的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
[0165]以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內。
【權利要求】
1.一種音頻數(shù)據(jù)分類方法,應用于電子設備,其特征在于,包括: 獲得待識別類別的第一音頻數(shù)據(jù); 按照預設的加窗算法,在所述第一音頻數(shù)據(jù)的音頻時間軸上進行加窗; 對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量; 按照預設的矢量量化算法,將提取出的所有的MFCC特征向量分別量化為一維的第一特征值;其中,每個MFCC特征向量對應一個第一特征值; 按照預設的直方圖繪制算法,對所有的第一特征值進行計算,得到所述第一音頻數(shù)據(jù)的第一直方圖; 將所述第一直方圖與預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算,得到與所述第一直方圖相似度最大的第一直方圖特征模板; 將所述第一直方圖特征模板對應的音頻類別識別為所述第一音頻數(shù)據(jù)的音頻類別。
2.根據(jù)權利要求1所述的方法,其特征在于,所述按照預設的加窗算法,在所述第一音頻數(shù)據(jù)的音頻時間軸上進行加窗的步驟,包括: 將所述第一音頻數(shù)據(jù)按預設時間段劃分為音頻幀; 對所述音頻幀進行加窗。
3.根據(jù)權利要求1或2所述的方法,其特征在于,所述窗具體為矩形窗或漢明窗。
4.根據(jù)權利要求1或2所述的方法,其特征在于,所述按照預設的直方圖繪制算法,對所有的第一特征值進行計算,得到所述第一音頻數(shù)據(jù)的第一直方圖包括: 將所述第一特征值映射到預設的第一數(shù)值區(qū)間內的各個數(shù)值上; 以所述預設的第一數(shù)值區(qū)間為橫軸,以所述第一數(shù)值區(qū)間的各個數(shù)值對應的第一特征值數(shù)占第一特征值總數(shù)的百分比為縱軸計算得到所述第一音頻數(shù)據(jù)的第一直方圖。
5.根據(jù)權利要求1所述的方法,其特征在于,所述預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板,是預先通過音頻數(shù)據(jù)訓練獲得的,一種音頻數(shù)據(jù)訓練方法包括: 獲得有類別標注的音頻數(shù)據(jù)樣本; 按照所述預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗; 對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量; 按照所述預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值; 按照所述預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖; 根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
6.根據(jù)權利要求5所述的方法,其特征在于,所述按照所述預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖包括: 將所述第二特征值映射到預設的第二數(shù)值區(qū)間內的各個數(shù)值上; 以所述預設的第二數(shù)值區(qū)間為橫軸,以所述第二數(shù)值區(qū)間的各個數(shù)值對應的第二特征值數(shù)占第二特征值總數(shù)的百分比為縱軸計算得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖。
7.根據(jù)權利要求6所述的方法,其特征在于,所述根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板,包括以下步驟: 獲得所有的計算所得的所述有類別標注的音頻數(shù)據(jù)樣本的直方圖; 將所述獲得的所有的計算所得的所述有類別標注的音頻數(shù)據(jù)樣本的直方圖進行分類; 以所述預設的第二數(shù)值區(qū)間為橫軸,以具有相同類別的音頻數(shù)據(jù)樣本的直方圖的橫軸的各個數(shù)值對應的百分比的平均值為縱軸計算得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
8.一種音頻數(shù)據(jù)訓練方法,其特征在于,包括: 獲得有類別標注的音頻數(shù)據(jù)樣本; 按照預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗; 對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量; 按照預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值; 按照預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖; 根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
9.一種音頻數(shù)據(jù)分類裝置,其特征在于,包括: 第一音頻數(shù)據(jù)獲得單元:用于獲得待識別類別的第一音頻數(shù)據(jù); 第一音頻數(shù)據(jù)加窗單元:用于按照預設的加窗算法,在所述第一音頻數(shù)據(jù)的音頻時間軸上進行加窗; 第一特征向量提取單元:用于對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量; 第一矢量量化單元:用于按照預設的矢量量化算法,將提取出的所有的MFCC特征向量分別量化為一維的第一特征值;其中,每個MFCC特征向量對應一個第一特征值; 第一直方圖計算單元:用于按照預設的直方圖繪制算法,對所有的第一特征值進行計算,得到所述第一音頻數(shù)據(jù)的第一直方圖; 相似度計算單元:用于將所述第一直方圖與預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算,得到與所述第一直方圖相似度最大的第一直方圖特征模板; 音頻類別識別單元:用于將所述第一直方圖特征模板對應的音頻類別識別為所述第一音頻數(shù)據(jù)的音頻類別。
10.根據(jù)權利要求9所述的裝置,其特征在于,所述第一音頻數(shù)據(jù)加窗單元具體包括: 音頻幀獲取單元:用于將所述第一音頻數(shù)據(jù)按預設時間段劃分為音頻幀; 音頻幀加窗單元:用于對所述音頻幀進行加窗。
11.根據(jù)權利要求9或10所述的裝置,其特征在于,所述第一音頻數(shù)據(jù)加窗單元加的窗具體為矩形窗或漢明窗。
12.根據(jù)權利要求9或10所述的裝置,其特征在于,所述第一直方圖計算單元具體包括: 第一特征值映射單元:用于將所述第一特征值映射到預設的第一數(shù)值區(qū)間內的各個數(shù)值上; 第一直方圖計算子單元:用于以所述預設的第一數(shù)值區(qū)間為橫軸,以所述第一數(shù)值區(qū)間的各個數(shù)值對應的第一特征值數(shù)占第一特征值總數(shù)的百分比為縱軸計算得到所述第一音頻數(shù)據(jù)的第一直方圖。
13.根據(jù)權利要求9所述的裝置,其特征在于,所述相似度計算單元,在將所述第一直方圖與預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板進行相似度計算時,所述預設的各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板是預先通過音頻數(shù)據(jù)訓練裝置訓練獲得的,一種音頻數(shù)據(jù)訓練裝置包括: 音頻數(shù)據(jù)樣本獲得單元:用于獲得有類別標注的音頻數(shù)據(jù)樣本; 音頻數(shù)據(jù)樣本加窗單元:用于按照所述預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗; 第二特征向量提取單元:用于對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量; 第二矢量量化單元:用于按照所述預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值; 第二直方圖計算單元:用于按照所述預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖; 直方圖特征模板獲得單元:用于根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
14.根據(jù)權利要求13所述的裝置,其特征在于,所述第二直方圖計算單元具體包括: 第二特征值映射單元:用于將所述第二特征值映射到預設的第二數(shù)值區(qū)間內的各個數(shù)值上; 第二直方圖計算子單元:用于以所述預設的第二數(shù)值區(qū)間為橫軸,以所述第二數(shù)值區(qū)間的各個數(shù)值對應的第二特征值數(shù)占第二特征值總數(shù)的百分比為縱軸計算得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖。
15.根據(jù)權利要求14所述的裝置,其特征在于,所述直方圖特征模板獲得單元具體包括: 直方圖獲得單元:用于獲得所有的計算所得的所述有類別標注的音頻數(shù)據(jù)樣本的直方圖; 直方圖分類單元:用于將所述獲得的所有的計算所得的所述有類別標注的音頻數(shù)據(jù)樣本的直方圖進行分類; 直方圖特征模板獲得子單元:用于以所述預設的第二數(shù)值區(qū)間為橫軸,以具有相同類別的音頻數(shù)據(jù)樣本的直方圖的橫軸的各個數(shù)值對應的百分比的平均值為縱軸計算得到各個類別的音頻數(shù)據(jù)對應的直方圖特征模板。
16.一種音頻數(shù)據(jù)訓練裝置,其特征在于,包括: 音頻數(shù)據(jù)樣本獲得單元:用于獲得有類別標注的音頻數(shù)據(jù)樣本; 音頻數(shù)據(jù)樣本加窗單元:用于按照預設的加窗算法,在所述有類別標注的音頻數(shù)據(jù)樣本的音頻時間軸上進行加窗; 第二特征向量提取單元:用于對每個窗內的音頻數(shù)據(jù)提取一個MFCC特征向量; 第二矢量量化單元:用于按照預設的矢量量化算法,將提取出的所有的所述MFCC特征向量量化為一維的第二特征值;其中,每個MFCC特征向量對應一個第二特征值; 第二直方圖計算單元:用于按照預設的直方圖繪制算法,對所有的第二特征值進行計算,得到所述有類別標注的音頻數(shù)據(jù)樣本的直方圖; 直方圖特征模板獲得單元:用于根據(jù)音頻數(shù)據(jù)樣本的類別標注,對具有相同音頻類別的音頻數(shù)據(jù)樣本的直方圖求平均,得到各個音頻類別的音頻數(shù)據(jù)對應的直方圖特征模板。
【文檔編號】G06F17/30GK104462537SQ201410817745
【公開日】2015年3月25日 申請日期:2014年12月24日 優(yōu)先權日:2014年12月24日
【發(fā)明者】楊曉昊 申請人:北京奇藝世紀科技有限公司