專利名稱:一種自動檢測音頻模板并對視頻分章的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于對視頻節(jié)目的音頻內(nèi)容進(jìn)行復(fù)制檢測和對節(jié)目進(jìn)行自動分章的領(lǐng) 域,具體涉及一種自動檢測音頻模板并對視頻分章的方法。
背景技術(shù):
視頻節(jié)目進(jìn)行分章是指把數(shù)據(jù)量大、持續(xù)時間長的視頻節(jié)目的特定片段(如廣 告、節(jié)目特效)標(biāo)記出來從而方便用戶瀏覽。目前,傳統(tǒng)的方法是對視頻幀提取特征并進(jìn)行處理,是建立在圖像基礎(chǔ)上的。 常見的有臺標(biāo)檢測和視頻識別。視頻識別的方法確實(shí)能利用數(shù)據(jù)庫中模板的信息做到快速而且準(zhǔn)確地定位和標(biāo) 記,但是目前該方法的數(shù)據(jù)庫中模板由人為加入,數(shù)據(jù)庫內(nèi)信息比較固定,數(shù)據(jù)庫中沒 有的數(shù)據(jù)將無法檢測,另外,有些節(jié)目片段具有相同的音頻內(nèi)容當(dāng)時圖像內(nèi)容卻不一 樣,而且持續(xù)的時間較長,如新聞內(nèi)容回顧部分。對于這樣節(jié)目片段,常見的基于圖像 的檢測方法就不適用了。對于臺標(biāo)檢測來說,越來越多的視頻在應(yīng)被判為不同章節(jié)的部 分使用同樣的臺標(biāo)(如廣告跟節(jié)目),這樣導(dǎo)致臺標(biāo)檢測方法失效。上述基于視頻的方法還存在計算量大,檢測速度慢的問題。而目前,基于音頻 的視頻分章方法都屬于有模板的檢測,即人為在數(shù)據(jù)庫中預(yù)先定義好模板再對測試音頻 數(shù)據(jù)作比對。這些方法的缺陷同樣是受限于數(shù)據(jù)庫中模板為“靜態(tài)”的,數(shù)據(jù)庫中沒有 的數(shù)據(jù)將無法檢測。
發(fā)明內(nèi)容
本發(fā)明為了克服基于視頻檢測和基于模板的音頻檢測這兩類方法的不足,提出 了一種自動檢測音頻模板并對視頻分章的方法,其能夠在很大數(shù)據(jù)量的音頻文件中快 速、魯棒地學(xué)習(xí)出音頻模板,并利用模板對新來的視頻進(jìn)行準(zhǔn)確的分章。本發(fā)明提供了自動檢測音頻模板并對視頻分章的方法,其中包括模板學(xué)習(xí)階段 和視頻分章階段。模板學(xué)習(xí)階段包括以下步驟1)將過去一周的音頻數(shù)據(jù)作為訓(xùn)練樣本,將7天(7*24小時)5513HZ的音頻數(shù) 據(jù)進(jìn)行預(yù)處理;整個7乘以24小時的音頻被分割成1小時為單位的若干音頻文件;利用 音頻的KULLBACK-LEIBLER距離,將1小時的文件進(jìn)行切變點(diǎn)分割,得到零碎的音頻 片斷;防止片斷分割得過碎,將這些音頻片斷進(jìn)行聚類,判斷每個片段的時間長度,將 時長小于3秒的片斷與相鄰的時長較短的片斷拼接;然后對于5513HZ的音頻文件,以窗 長度0.37s,40ms為一幀,判斷每幀是否為靜音幀,每一幀的能量為eFr,能量閾值TE, 根據(jù)公式
其中
權(quán)利要求
1. 一種自動檢測音頻模板并對視頻分章的方法,其特征在于能夠利用特定片段在 一周內(nèi)內(nèi)容上重復(fù)出現(xiàn)的信息為突破口快速、魯棒地從一周的音頻數(shù)據(jù)中學(xué)習(xí)出音頻模 板,并利用模板對新來的節(jié)目進(jìn)行準(zhǔn)確的分章,包括模板學(xué)習(xí)階段和視頻分章階段,其 中模板學(xué)習(xí)階段包括以下步驟步驟一,對于一周的節(jié)目音頻文件進(jìn)行預(yù)處理并判定靜音片段; 步驟二,對于每個音頻片段,提取魯棒的聲紋特征; 步驟三,利用一周音頻數(shù)據(jù)特征,建立哈希表,查找匹配片段; 步驟四,將步驟三所得片段里面能找到匹配片段數(shù)量大于閾值的音頻片段A保留下 來,并判斷與其間隔一定時間內(nèi),是否有其他片段也能找到數(shù)量大于設(shè)定閾值的匹配片 段;若是則保留該音頻片段,否則刪除;最后得到一系列在一周時間里內(nèi)容上重復(fù)出現(xiàn) 的音頻片段;步驟五,在步驟4篩選出的片段里,對于兩個同一天的片段A、B,A的起始時間 為Tas,結(jié)束時間為Tae,B的起始和結(jié)束時間分別為Tbs、Tbe,其中Tae<Tbs,若 |Tae-Tbs| < TDur,則片段A、B以及兩片段間隔部分都融合為一個片段,其起始時間為 Tas,結(jié)束時間為Tbe;步驟六,將步驟5中融合后的片段進(jìn)行聚類,得到若干個音頻類,其融合規(guī)則為 兩個融合后的片段中,若有部分是彼此的匹配片段,則該兩個片段歸為一類;另外類還 滿足準(zhǔn)則若A與B為同一類,B與C為同一類,則A與C為同一類; 步驟七,對于步驟六中整理好的每一個類,判定其節(jié)目類型; 步驟八,每一類音頻片段里屬于匹配對的重復(fù)音頻片段中保留下時間最長的一段, 將該片段特征連同判定的節(jié)目類型信息一同存入模板庫,生成模板文件;其中所述步驟一具體包括將過去一周的音頻數(shù)據(jù)作為訓(xùn)練樣本,將這些5513HZ的 音頻數(shù)據(jù)分割成1小時為單位的若干音頻文件;利用音頻的Kullback-Leibler距離,將1 小時的文件進(jìn)行切變點(diǎn)分割,得到零碎的音頻片斷;防止片斷分割得過碎,將這些音頻 片斷進(jìn)行聚類,判斷每個片段的時間長度,將時長小于3秒的片斷與相鄰的時長較短的 片斷拼接;然后對于5513HZ的音頻文件,以窗長度0.37s,40ms為一幀,判斷每幀是否 為靜音幀,每一幀的能量為eFr,能量閾值TE,根據(jù)公式
2.根據(jù)權(quán)利要求1所述一種自動檢測音頻模板并對視頻分章的方法,其特征在于模板學(xué)習(xí)階段步驟三中兩個片段A、B的相似度判定方法為對于兩片段A,B,分別將其中能夠找到匹配特征的幀按時間先后順序排列,A中能在與B里找到匹配對的幀的幀號為a1 a2,…,am, B中能被A中特征匹配上的幀的幀號為b1; b2,…,bn,根據(jù)公式計算2個系數(shù)sl,s2 m + n
3.根據(jù)權(quán)利要求1所述的一種自動檢測音頻模板并對視頻分章的方法,其特征在于模 板學(xué)習(xí)階段的步驟七所述3個指標(biāo)的計算和每個音頻類的節(jié)目類型判定包括指標(biāo)1 : 指標(biāo) 2
4.根據(jù)權(quán)利要求3所述的一種自動檢測音頻模板并對視頻分章的方法,其特征在于在 所述步驟七之后還包括3個指標(biāo)的融合及模板文件節(jié)目類型的判定Type = C1 · Dur+c2 · Distrb+c2 · TCl,C2,C3為3個設(shè)定的權(quán)值;Type<Tl,該類片段被判斷為節(jié)目特效;TRType <T2,該類被判定為電視臺宣傳片;Typ&T2,該類被判定為廣告。
全文摘要
一種自動檢測音頻模板并對視頻分章的方法。它利用每周的節(jié)目音頻數(shù)據(jù),采用聲紋特征快速學(xué)習(xí)出內(nèi)容上重復(fù)出現(xiàn)的片段,再將片段融合、歸類作為候選模板,統(tǒng)計片段長度、出現(xiàn)次數(shù)、時間分布信息來標(biāo)定模板類型以及篩選模板文件,并利用模板對新節(jié)目自動分章。本發(fā)明基于音頻的檢索并動態(tài)地建立模板庫,克服了基于視頻的方法的計算量大,檢測速度慢,節(jié)目片段具有相同的音頻內(nèi)容時圖像內(nèi)容不同的缺點(diǎn),同時也解決了數(shù)據(jù)庫中“靜態(tài)”模板為的問題。
文檔編號G06F17/30GK102024033SQ201010567970
公開日2011年4月20日 申請日期2010年12月1日 優(yōu)先權(quán)日2010年12月1日
發(fā)明者王樂滋, 董遠(yuǎn) 申請人:北京郵電大學(xué)