專利名稱:用于音頻內(nèi)容識別的分類系統(tǒng)的制作方法
用于音頻內(nèi)容識別的分類系統(tǒng)
技術(shù)領(lǐng)城
本發(fā)明涉及一種模式識別及信號處理技術(shù),尤其涉及一種用于音頻內(nèi)容 識別的分類系統(tǒng),
背景技術(shù):
音頻是多媒體中的一種重要媒體,音頻信息檢索技術(shù)是多媒體信息檢索
技術(shù)中的一個(gè)重要部分,相應(yīng)的現(xiàn)有技術(shù)可參考中國專利1391211、 1223739 及1270361號及美國專利5,613,037、 6,292,776及5,440,662號等。在音頻檢 索應(yīng)用中,需要對音頻數(shù)據(jù)進(jìn)行分類,它的目的是區(qū)分輸入的音頻信號屬于 那一類,常見的音頻類別有人聲、背景噪聲、流行音樂、古典音樂等,并且 音頻內(nèi)容分類的應(yīng)用也非常廣泛,特別是在音頻檢索領(lǐng)域,音頻內(nèi)容分類起 著決定性的作用,而在一些多媒體摘要的抽取過程中,音頻內(nèi)容分類作為視 頻內(nèi)容檢索的一種輔助手段也起到了重要作用。廣義上來說,在很多語音和 音頻標(biāo)準(zhǔn),例如3GPP的AMR-WB和AMR-WB+里,它們都用到了語音/噪 聲分類器和語音/音樂分類器,提供給編碼器輸入信號是哪一種音頻信號,從 而對每一種信號采取不同的編碼器,因此設(shè)計(jì)一種良好的音頻內(nèi)容分類方法 是相當(dāng)關(guān)鍵和重要的。在通常的分類方法中,通常用到兩個(gè)必不可少的模塊, 即音頻特征提取模塊,其功能是從輸入的音頻采樣點(diǎn)中提取反映音頻內(nèi)容種 類的信息,而另一個(gè)則是分類器,其利用這些信息完成對種類判斷的過程。其中音頻內(nèi)容的4艮多特征,例如時(shí)域特征(過零率、曲率、線性預(yù)測系數(shù)等 等)、頻域特征(梅爾倒諮系數(shù)、傅立葉變換泉數(shù),小波變換系數(shù)等等)以及 一些其他非線性特征(分形、混沌參數(shù)等等)被證明是非常有效的分類方法,
而在音頻內(nèi)容分類技術(shù)領(lǐng)域內(nèi),已有很多種分類器被廣泛應(yīng)用了,其中決策
樹(Decision Tree)和k-最近鄰方法(K Nearest Neighbor)為兩種相對較 易于實(shí)現(xiàn)和理解的分類器,它們并對語音、環(huán)境噪聲、音樂三類音頻內(nèi)容分 類取得了良好的效果。此外,在AMR-WB+標(biāo)準(zhǔn)里,語音和音樂的分類器也 是采用的決策樹的方法。而支持向量機(jī)分類器(Support Vector Machine Classifier)作為一種近幾年來被很多機(jī)器學(xué)習(xí)和模式識別領(lǐng)域里采用的分類 器,也被證明是一種非常行之有效的方法。其他幾種經(jīng)典分類器,例如反向 神經(jīng)網(wǎng)絡(luò)(Back-Propagation Neural Network),人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network)聚類(Clustering)方法,也被證明對音頻內(nèi)容分類是有效的。 而在現(xiàn)有的分類系統(tǒng)中,由于其分類器的參數(shù)均為固定,無法進(jìn)行及時(shí) 更新,并且對突發(fā)事件的音頻特性無法進(jìn)行有效處理,因此不能滿足特定環(huán) 境(如安防監(jiān)控)的使用要求。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于提出 一種音頻內(nèi)容分類系統(tǒng),用以解決現(xiàn) 有的分類器的參數(shù)無法更新及對突發(fā)事件的音頻特性無法進(jìn)行有效處理的缺 陷。
為解決上述問題,根據(jù)本發(fā)明的一種音頻內(nèi)容分類系統(tǒng),包括訓(xùn)練端與測試端,其中訓(xùn)練端包括音頻特征提取模塊與分類器訓(xùn)練模塊,其中音頻特 征提取模塊用以提取音頻測試樣本的特征,而分類器訓(xùn)練模塊根據(jù)音頻特征
提取模塊采集的音頻特征以及該音頻信號的類別信息,訓(xùn)練出分類器的參數(shù); 而測試端包括和訓(xùn)練端共用的音頻特征提取模塊、分類器決策模塊、瞬態(tài)特 征提取模塊、瞬態(tài)特征平滑模塊及增量學(xué)習(xí)模塊,其中音頻特征提取模塊用 以提取輸入信號的音頻特征,分類器決策模塊是根據(jù)音頻特征提取模塊的輸 出音頻特征為輸入,對第 一幀運(yùn)用訓(xùn)練部分訓(xùn)練得到的分類器參數(shù)進(jìn)行分類, 同時(shí)瞬態(tài)特征提取模塊對該輸入信號的瞬態(tài)特征進(jìn)行提取并輸出至瞬態(tài)特征 平滑模塊,該瞬態(tài)特征平滑模塊來對分類器決策模塊的輸出結(jié)果進(jìn)行修正并 輸出,同時(shí)增量學(xué)習(xí)模塊利用已分類的音頻幀的類別信息和特征信息來當(dāng)作 一組增量學(xué)習(xí)樣本更新分類器的參數(shù)。
依據(jù)上述主要特征,瞬態(tài)特征提取模塊提取出當(dāng)前幀的瞬態(tài)特征并進(jìn)行 判斷,瞬態(tài)特征平滑模塊根據(jù)瞬態(tài)特征的不同而采取不同的平滑處理方法, 其中當(dāng)前幀被判斷為瞬態(tài)幀的時(shí)候,采用第二平滑方法,反之采用第一平滑 方法,其中第一平滑方法是指和瞬態(tài)特征無關(guān)的平滑方法,第二平滑方法則 是與瞬態(tài)特征相關(guān)的平滑方法。
依據(jù)上述主要特征,瞬態(tài)特征提取是將輸入音頻幀分成M段 g,/-l,2,...,32,其中
/AT
然后計(jì)算每段的幅度之和,即采樣點(diǎn)數(shù)值的絕對值之和,得到"帳A
之后再計(jì)算每一段和前一段的能量比和幅度-能量比 min(H)
帳S,
再計(jì)算最大的幅度-能量比和能量比
《=mpc(log/;'),f-l,2 ,
因此,瞬態(tài)特征可以用如下方式計(jì)算
得到瞬態(tài)特征以后,判斷F是否大于第一門限值,如果大于則表示為瞬 態(tài)幀,則采用第二平滑方法,反之則采用第一平滑方法。
依據(jù)上述主要特征,第一平滑方法是先分析前三幀,如果出現(xiàn)了 "非突 發(fā)事件幀、突發(fā)事件幀、非突發(fā)事件幀"這種分類結(jié)果,則將三幀都平滑為 非突發(fā)事件幀,而第二平滑方法的一種實(shí)施例可以是當(dāng)特征F大于第二門限 值時(shí),則令此幀開始前三幀和后三幀都為突發(fā)事件。
依據(jù)上述主要特征,第二門限值比第一門限值大。
依據(jù)上述主要特征,更新分類器參數(shù)是通過將預(yù)先保存的訓(xùn)練數(shù)據(jù)和增 量學(xué)習(xí)的樣本組成一個(gè)更大的訓(xùn)練樣本,重新訓(xùn)練分類器,更新分類器參數(shù)。
依據(jù)上述主要特征,上述的分類器里還包括特征融合模塊或者特征降維 模塊。
依據(jù)上述主要特征,在提取了特征以后和決策分類之前應(yīng)用主成分分析將特征降維。
依據(jù)上述主要特征,瞬態(tài)特征提取方法是感知熵。 依據(jù)上述主要特征,所述分類器采用決策樹方法。 依據(jù)上述主要特征,所述分類器采用神經(jīng)網(wǎng)絡(luò)方法. 依據(jù)上述主要特征,所述分類器采用支持向量機(jī)方法。 依據(jù)上述主要特征,所述分類器采用聚類方法。 依據(jù)上述主要特征,所述分類器采用貝葉斯方法。
與現(xiàn)有技術(shù)相比較,本發(fā)明采用了增強(qiáng)學(xué)習(xí)技術(shù)和瞬態(tài)特征平滑技術(shù), 提高了分類的正確率。
圖l為本發(fā)明實(shí)施例的訓(xùn)練端的組成架構(gòu)圖。
圖2為本發(fā)明實(shí)施例的測試端的組成架構(gòu)圖。
具體實(shí)施例方式
以下結(jié)合附圖對本發(fā)明具體實(shí)施方式
進(jìn)行說明。
音頻是多媒體中的一種重要媒體,音頻信息檢索技術(shù)是多媒體信息檢索 技術(shù)中的一個(gè)重要部分。在音頻檢索應(yīng)用中,需要對音頻數(shù)據(jù)進(jìn)行分類,它 的目的是區(qū)分輸入的音頻信號屬于那一類,常見的音頻類別有人聲、背景噪 聲、流行音樂、古典音樂等,并且音頻內(nèi)容分類的應(yīng)用也非常廣泛,特別是 在音頻檢索領(lǐng)域,音頻內(nèi)容分類起著決定性的作用,而在一些多媒體摘要的 抽取過程中,音頻內(nèi)容分類作為視頻內(nèi)容檢索的一種輔助手段也起到了重要作用。廣義上來說,在很多語音和音頻標(biāo)準(zhǔn),例如3GPP的AMR-WB和 AMR-WB+里,它們都用到了語音/噪聲分類器和語音/音樂分類器,提供給編 碼器輸入信號是哪一種音頻信號,從而對每一種信號采取不同的編碼器,因 此設(shè)計(jì)一種良好的音頻內(nèi)容分類方法是相當(dāng)關(guān)鍵和重要的.在通常的分類方 法中,通常用到兩個(gè)必不可少的模塊,即音頻特征提取模塊,其功能是從輸 入的音頻采樣點(diǎn)中提取反映音頻內(nèi)容種類的信息,而另一個(gè)則是分類器,其 利用這些信息完成對種類判斷的過程。其中音頻內(nèi)容的很多特征,例如時(shí)域 特征(過零率、曲率、線性預(yù)測系數(shù)等等)、頻域特征(梅爾倒i普系數(shù)、傅立 葉變換系數(shù),小波變換系數(shù)等等)以及一些其他非線性特征(分形、混沌參 數(shù)等等)被證明是非常有效的分類方法,而在音頻內(nèi)容分類技術(shù)領(lǐng)域內(nèi),已 有很多種分類器被廣泛應(yīng)用了,其中決策樹(Decision Tree)和k-最近鄰方 法(K Nearest Neighbor)為兩種相對較易于實(shí)現(xiàn)和理解的分類器,它們并 對語音、環(huán)境噪聲、音樂三類音頻內(nèi)容分類取得了良好的效果。此外,在 AMR-WB+標(biāo)準(zhǔn)里,語音和音樂的分類器也是采用的決策樹的方法。而支持 向量機(jī)分類器(Support Vector Machine Classifier)作為一種近幾年來被4艮 多機(jī)器學(xué)習(xí)和模式識別領(lǐng)域里采用的分類器,也被證明是一種非常行之有效 的方法。其他幾種經(jīng)典分類器,例如反向神經(jīng)網(wǎng)絡(luò)(Back-Propagation Neural Network),人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network),聚類(Clustering)方法, 也被證明對音頻內(nèi)容分類是有效的。
而在現(xiàn)有的分類系統(tǒng)中,由于其分類器的參數(shù)均為固定,無法進(jìn)行及時(shí)更新,并且對突發(fā)事件的音頻特性無法進(jìn)行有效處理,因此不能滿足特定環(huán) 境(如安防監(jiān)控)的使用要求,因此本發(fā)明提供一種音頻內(nèi)容分類系統(tǒng),用 以解決現(xiàn)有的分類器的參數(shù)無法更新及對突發(fā)事件的音頻特性無法進(jìn)行有效 處理的缺陷。
圖1所示為本發(fā)明實(shí)施例的訓(xùn)練端的組成架構(gòu)圖,其中訓(xùn)練端包括兩個(gè) 模塊, 一個(gè)是音頻特征提取模塊, 一個(gè)是分類器訓(xùn)練模塊。在本發(fā)明中,所 有的音頻信號處理都是逐幀處理,假設(shè)讀入每一幀音頻信號表示為
^,《,....,、,特征提取模塊處理以后,可以得到一個(gè)M維的特征向量 即..
y y yFeature Extraction 、 F /T
乇,X2,…"X^ ^r""尸2,…"/^
在本實(shí)施例中是以信號的過零率(Zero-Crossing Rate)為特征,其它根據(jù) 如下方法計(jì)算
其中sgn(x)是符號函數(shù),如果x大于零則取l,小于零則取-1,等于零 則為零。
當(dāng)然,也可用信號的總能量為特征,其根據(jù)如下公式計(jì)算
得到特征以后即完成了音頻特征提取的工作,然后根據(jù)特征進(jìn)行最后的 分類,即進(jìn)入分類器訓(xùn)練模塊,分類器訓(xùn)練模塊的作用是根據(jù)特征^,《"…,&)
ii以及該幀音頻信號的類別信息,訓(xùn)練出分類器的參數(shù),供測試端使用,其中 常見的分類器實(shí)施例有決策樹方法,神經(jīng)網(wǎng)絡(luò)方法,支持向量機(jī)方法,聚類 方法,貝葉斯方法等。
請參閱圖2所示,為本發(fā)明實(shí)施例的測試端的組成架構(gòu)圖,其中測試端 包括和訓(xùn)練端共用的音頻特征提取4莫塊、分類器決策模塊、瞬態(tài)特征提取模 塊、瞬態(tài)特征平滑模塊及增量學(xué)習(xí)模塊,其中分類器決策模塊是根據(jù)音頻特 征提取模塊的輸出音頻特征為輸入,對第一幀運(yùn)用訓(xùn)練部分訓(xùn)練得到的分類 器進(jìn)行分類,對第二幀開始的所有幀運(yùn)用增量學(xué)習(xí)更新后的分類器(容后詳 述)進(jìn)行分類,具體實(shí)施方式
可包括決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、支持向量 機(jī)方法、聚類方法及貝葉斯方法等。而音頻特征提取模塊對輸入音頻幀提取 音頻特征的同時(shí),瞬態(tài)特征提取模塊提取了此幀的瞬態(tài)特征,輸出到瞬態(tài)特 征平滑模塊來對分類器決策模塊的輸出結(jié)果進(jìn)行修正。瞬態(tài)特征的定義則是 在時(shí)域上采樣點(diǎn)的能量有沒有顯著提高,并根據(jù)瞬態(tài)特征的不同而采取不同 的平滑處理方法,其中當(dāng)前幀被判斷為瞬態(tài)幀的時(shí)候,采用第二平滑方法, 反之采用第一平滑方法。其中第一平滑方法是指和瞬態(tài)特征無關(guān)的平滑方法, 第二平滑方法則是與瞬態(tài)特征相關(guān)的平滑方法。
其中瞬態(tài)特征提取的實(shí)施方式則是將輸入音頻幀分成M段 B/,/-l,2,...,32,其中
如此相鄰段之間有一半的重疊。然后計(jì)算每段的幅度之和,即采樣點(diǎn)數(shù)值的絕對值之和,得到
M-^"2Xl"",2,…,化 之后再計(jì)算每一段和前一段的能量比和幅度-能量比
再計(jì)算最大的幅度-能量比和能量比
= mpc(log r/), = 1, 2 ,
因此,瞬態(tài)特征可以用如下方式計(jì)算
得到瞬態(tài)特征以后,根據(jù)此特征判斷啟動(dòng)哪個(gè)平滑方法。瞬態(tài)特征可以是一 維的,也可以是高維,輸出至少是兩維的,用以判斷該幀是否是瞬態(tài)幀或者 非瞬態(tài)幀。 一種實(shí)施方式則是判斷F是否大于第一門限值,如果大于則表示 為瞬態(tài)幀,啟動(dòng)分類結(jié)果第二平滑方法,反之則啟動(dòng)第一平滑方法。第一平 滑方法的一種實(shí)施例可以是(即當(dāng)前幀為非瞬態(tài)幀)先分析前三幀,如果出 現(xiàn)了 "非突發(fā)事件幀、突發(fā)事件幀、非突發(fā)事件幀"這種分類結(jié)果,則將三 幀都平滑為非突發(fā)事件幀。第二平滑方法的一種實(shí)施例可以是當(dāng)特征F大于 第二門限值時(shí)(通常比第一門限值大),則令此幀開始前三幀和后三幀都為突 發(fā)事件。
增量學(xué)習(xí)模塊則是利用已分類的音頻幀的類別信息和特征信息來當(dāng)作一 組增量學(xué)習(xí)樣本更新分類器的參數(shù)。 一種實(shí)施例則是將預(yù)先保存的訓(xùn)練數(shù)據(jù)和增量學(xué)習(xí)的樣本組成一個(gè)更大的訓(xùn)練樣本,重新訓(xùn)練分類器,已達(dá)到更新 分類器參數(shù)的目的。
特別注意,在上述的描述中只是以部分較佳的實(shí)施方式,誠然在上述的 所有的分類器里,可以采取任意一種特征提取算法或者幾種特征提取算法, 并且其中所涉及到所有的分類器里,可以任意增加特征融合模塊或者特征降 維模塊, 一種較佳的方式則是在提取了特征以后和決策分類之前應(yīng)用主成分 分析將特征降維,并且所涉及的分類器里,可以采取任意一種分類方法,一 種變化例是支持向量機(jī)分類器或神經(jīng)網(wǎng)絡(luò)分類器。另外,在上述的描述中所 涉及的分類器中,瞬態(tài)特征提取方法可以是任意一種方法, 一種變化方式是 感知熵,并且瞬態(tài)特征提取方法可以提取一維特征,也可以提取高維特征, 瞬態(tài)幀判斷方法的輸出可以是兩維結(jié)果,也可以是更高維結(jié)果,而瞬態(tài)幀判 斷的方法可以是任意一種方法, 一種變化例則是支持向量機(jī)方法,并且分類 結(jié)果平滑算法可以是任意的方法。
另外,上述所有的分類器里,增量學(xué)習(xí)模塊可以采用任意的增量學(xué)習(xí)方法。
可以理解的是,對本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)本發(fā)明的技術(shù)方 案及其發(fā)明構(gòu)思加以等同替換或改變,而所有這些改變或替換都應(yīng)屬于本發(fā) 明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1. 一種音頻內(nèi)容分類系統(tǒng),包括訓(xùn)練端與測試端,其特征在于訓(xùn)練端包括音頻特征提取模塊,用以提取音頻測試樣本的特征;分類器訓(xùn)練模塊,其根據(jù)音頻特征提取模塊采集的音頻特征以及該音頻信號的類別信息,訓(xùn)練出分類器的參數(shù);而測試端包括和訓(xùn)練端共用的音頻特征提取模塊;分類器決策模塊,根據(jù)音頻特征提取模塊的輸出音頻特征為輸入,對第一幀運(yùn)用訓(xùn)練部分訓(xùn)練得到的分類器參數(shù)進(jìn)行分類;瞬態(tài)特征提取模塊,對該輸入信號的瞬態(tài)特征進(jìn)行提取并輸出至瞬態(tài)特征平滑模塊;該瞬態(tài)特征平滑模塊來對分類器決策模塊的輸出結(jié)果進(jìn)行修正并輸出;增量學(xué)習(xí)模塊利用已分類的音頻幀的類別信息和特征信息來當(dāng)作一組增量學(xué)習(xí)樣本更新分類器的參數(shù)。
2. 如權(quán)利要求1所述的音頻內(nèi)容分類系統(tǒng),其特征在于瞬態(tài)特征提取 模塊提取出當(dāng)前幀的瞬態(tài)特征并進(jìn)行判斷,瞬態(tài)特征平滑模塊根據(jù)瞬態(tài)特征 的不同而采取不同的平滑處理方法,其中當(dāng)前幀被判斷為瞬態(tài)幀的時(shí)候,采 用第二平滑方法,反之采用第一平滑方法,其中第一平滑方法是指和瞬態(tài)特 征無關(guān)的平滑方法,第二平滑方法則是與瞬態(tài)特征相關(guān)的平滑方法。
3. 如權(quán)利要求2所述的音頻內(nèi)容分類系統(tǒng),其特征在于瞬態(tài)特征提取 是將輸入音頻幀分成M段5,,/-"...,32,其中S ={%,+"%,+2"..., "2},W -"^/-"""M; 然后計(jì)算每段的幅度之和,即采樣點(diǎn)數(shù)值的絕對值之和,得到股瑪之后再計(jì)算每一段和前一段的能量比和幅度-能量比一=——^——,一-^i^L,,eS,其中£,=5> 2 min(H) , S再計(jì)算最大的幅度-能量比和能量比《=mpc(log r/), / = 1, 2 ,因此,瞬態(tài)特征可以用如下方式計(jì)算得到瞬態(tài)特征以后,判斷F是否大于第一門限值,如果大于則表示為瞬 態(tài)幀,則采用第二平滑方法,反之則采用第一平滑方法。
4. 如權(quán)利要求3所述的音頻內(nèi)容分類系統(tǒng),其特征在于第一平滑方法 是先分析前三幀,如果出現(xiàn)了 "非突發(fā)事件幀、突發(fā)事件幀、非突發(fā)事件幀" 這種分類結(jié)果,則將三幀都平滑為非突發(fā)事件幀,而第二平滑方法的一種實(shí) 施例可以是當(dāng)特征F大于第二門限值時(shí),則令此幀開始前三幀和后三幀都為 突發(fā)事件。
5. 如權(quán)利要求4所述的音頻內(nèi)容分類系統(tǒng),其特征在于第二門限值比第一門限值大。
6. 如權(quán)利要求1所述的音頻內(nèi)容分類系統(tǒng),其特征在于更新分類器參 數(shù)是通過將預(yù)先保存的訓(xùn)練數(shù)據(jù)和增量學(xué)習(xí)的樣本組成一個(gè)更大的訓(xùn)練樣 本,重新訓(xùn)練分類器,更新分類器參數(shù)。
7. 如權(quán)利要求1所述的音頻內(nèi)容分類系統(tǒng),其特征在于上述的分類器 里還包括特征融合模塊或者特征降維模塊。
8. 如權(quán)利要求7所述的音頻內(nèi)容分類系統(tǒng),其特征在于在提取了特征 以后和決策分類之前應(yīng)用主成分分析將特征降維。
9. 如權(quán)利要求1所述的音頻內(nèi)容分類系統(tǒng),其特征在于瞬態(tài)特征提取 方法是感知熵。
10. 如權(quán)利要求1至9任一項(xiàng)所述的音頻內(nèi)容分類系統(tǒng),其特征在于 所述分類器采用決策樹方法。
11. 如權(quán)利要求求1至9任一項(xiàng)所述的音頻內(nèi)容分類系統(tǒng),其特征在于 所述分類器采用神經(jīng)網(wǎng)絡(luò)方法。
12. 如權(quán)利要求1至9任一項(xiàng)所述的音頻內(nèi)容分類系統(tǒng),其特征在于 所述分類器采用支持向量機(jī)方法。
13. 如權(quán)利要求1至9任一項(xiàng)所述的音頻內(nèi)容分類系統(tǒng),其特征在于 所述分類器采用聚類方法。
14. 如權(quán)利要求1至9任一項(xiàng)所述的音頻內(nèi)容分類系統(tǒng),其特征在于 所述分類器采用貝葉斯方法。
全文摘要
一種音頻內(nèi)容分類系統(tǒng),包括訓(xùn)練端與測試端,訓(xùn)練端通過音頻特征提取模塊提取音頻測試樣本的特征,并通過分類器訓(xùn)練模塊訓(xùn)練出分類器的參數(shù);而測試端包括與訓(xùn)練端共用的音頻特征提取模塊用以提取輸入信號的音頻特征,而分類器決策模塊是根據(jù)音頻特征提取模塊的輸出音頻特征為輸入,對第一幀運(yùn)用訓(xùn)練部分訓(xùn)練得到的分類器參數(shù)進(jìn)行分類,同時(shí)瞬態(tài)特征提取模塊對該輸入信號的瞬態(tài)特征進(jìn)行提取并輸出至瞬態(tài)特征平滑模塊,該瞬態(tài)特征平滑模塊來對分類器決策模塊的輸出結(jié)果進(jìn)行修正并輸出,同時(shí)增量學(xué)習(xí)模塊利用已分類的音頻幀的類別信息和特征信息來當(dāng)作一組增量學(xué)習(xí)樣本更新分類器的參數(shù)。
文檔編號G10L15/06GK101546556SQ20081003535
公開日2009年9月30日 申請日期2008年3月28日 優(yōu)先權(quán)日2008年3月28日
發(fā)明者林福輝, 黃鶴云 申請人:展訊通信(上海)有限公司