視頻文件的切分方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種視頻文件的切分方法及裝置,在上述方法中,將通過聲紋識別獲取到的音頻文件劃分為N個時間長度相同的音頻數(shù)據(jù)段,再根據(jù)各個音頻數(shù)據(jù)段的內(nèi)容相似度對相鄰的多個音頻數(shù)據(jù)段進行合并,生成M個音頻數(shù)據(jù)單元,其中,M<N,N和M均為正整數(shù);分別獲取每個音頻數(shù)據(jù)單元對應(yīng)的視頻圖像幀所在的GoP,并對該GoP以及與該GoP前后相鄰的兩個GoP進行碼流分析;根據(jù)碼流分析結(jié)果對與音頻文件同步播放的視頻文件進行切分。根據(jù)本發(fā)明提供的技術(shù)方案,提高了新媒體內(nèi)容產(chǎn)生系統(tǒng)的效率和性能。
【專利說明】視頻文件的切分方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種視頻文件的切分方法及裝置。
【背景技術(shù)】
[0002]圖1是根據(jù)相關(guān)技術(shù)的新聞節(jié)目大數(shù)據(jù)Map-Reduce并行處理流程的示意圖。如圖1所示,在Hadoop中的每個數(shù)據(jù)節(jié)點上運行Map作業(yè),各自處理一路新聞電視節(jié)目。Map主要執(zhí)行以下兩種操作:
[0003]其一、是采用語音識別算法對電視新聞播音員的語音數(shù)據(jù)進行處理;
[0004]其二、是進行視頻內(nèi)容分析和視頻切分輸出新媒體數(shù)據(jù)。
[0005]其中,Map第一階段的主要目的在于對視頻段進行語音識別分析以獲取語音關(guān)鍵詞作為標簽,并為新媒體內(nèi)容搜索建立索引。而Map第二階段的主要目的在于產(chǎn)生當今日益流行的三屏新媒體短視頻內(nèi)容。然后再由Reduce作業(yè)將新媒體內(nèi)容進行分類聚合,從而適應(yīng)于新媒體聚合門戶應(yīng)用。
[0006]然而,上述技術(shù)方案存在如下缺陷:相關(guān)技術(shù)中為了并行計算而簡單切分文件會導致語音識別的準確率下降。另外,自動化切分新媒體內(nèi)容缺乏緊密性、準確性和完整性。
【發(fā)明內(nèi)容】
[0007]本發(fā)明提供了一種視頻文件的切分方法及裝置,以至少解決相關(guān)技術(shù)中為了并行計算而簡單切分文件會導致語音識別的準確率下降的問題。
[0008]根據(jù)本發(fā)明的一個方面,提供了一種視頻文件的切分方法。
[0009]根據(jù)本發(fā)明實施例的視頻文件的切分方法包括:將通過聲紋識別獲取到的音頻文件劃分為N個時間長度相同的音頻數(shù)據(jù)段,再根據(jù)各個音頻數(shù)據(jù)段的內(nèi)容相似度對相鄰的多個音頻數(shù)據(jù)段進行合并,生成M個音頻數(shù)據(jù)單元,其中,M〈N,N和M均為正整數(shù);分別獲取每個音頻數(shù)據(jù)單元對應(yīng)的視頻圖像幀所在的視頻圖像組(GoP),并對該GoP以及與該GoP前后相鄰的兩個GoP進行碼流分析;根據(jù)碼流分析結(jié)果對與音頻文件同步播放的視頻文件進行切分。
[0010]優(yōu)選地,根據(jù)各個音頻數(shù)據(jù)段的內(nèi)容相似度對相鄰的多個音頻數(shù)據(jù)段進行合并,生成M個音頻數(shù)據(jù)單元包括:按照預先設(shè)定的關(guān)鍵詞類別分別對每個音頻數(shù)據(jù)段中出現(xiàn)的多個關(guān)鍵詞進行分類;對每種分類中的各個關(guān)鍵詞的出現(xiàn)頻率進行統(tǒng)計分析并在對每個關(guān)鍵詞的出現(xiàn)頻率進行降序排列后選取前X個關(guān)鍵詞,其中,X為正整數(shù);判斷相鄰的多個音頻數(shù)據(jù)段中各自選取的前X個關(guān)鍵詞的重復率是否超過預設(shè)閾值;如果是,則對相鄰的多個音頻數(shù)據(jù)段進行合并。
[0011]優(yōu)選地,采用以下公式判斷相鄰的兩個音頻數(shù)據(jù)段中各自選取的前X個關(guān)鍵詞的重復率是否超過預設(shè)閾值:
【權(quán)利要求】
1.一種視頻文件的切分方法,其特征在于,包括: 將通過聲紋識別獲取到的音頻文件劃分為N個時間長度相同的音頻數(shù)據(jù)段,再根據(jù)各個音頻數(shù)據(jù)段的內(nèi)容相似度對相鄰的多個音頻數(shù)據(jù)段進行合并,生成M個音頻數(shù)據(jù)單元,其中,M〈N,N和M均為正整數(shù); 分別獲取每個音頻數(shù)據(jù)單元對應(yīng)的視頻圖像幀所在的視頻圖像組GoP,并對該GoP以及與該GoP前后相鄰的兩個GoP進行碼流分析; 根據(jù)碼流分析結(jié)果對與所述音頻文件同步播放的視頻文件進行切分。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)各個音頻數(shù)據(jù)段的內(nèi)容相似度對所述相鄰的多個音頻數(shù)據(jù)段進行合并,生成M個音頻數(shù)據(jù)單元包括: 按照預先設(shè)定的關(guān)鍵詞類別分別對每個音頻數(shù)據(jù)段中出現(xiàn)的多個關(guān)鍵詞進行分類; 對每種分類中的各個關(guān)鍵詞的出現(xiàn)頻率進行統(tǒng)計分析并在對每個關(guān)鍵詞的出現(xiàn)頻率進行降序排列后選取前X個關(guān)鍵詞,其中,X為正整數(shù); 判斷所述相鄰的多個音頻數(shù)據(jù)段中各自選取的前X個關(guān)鍵詞的重復率是否超過預設(shè)閾值;如果是,則對所述相鄰的多個音頻數(shù)據(jù)段進行合并。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,采用以下公式判斷所述相鄰的兩個音頻數(shù)據(jù)段中各自選取的前X個關(guān)鍵詞的重復率是否超過所述預設(shè)閾值:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)碼流分析結(jié)果對與所述音頻文件同步播放的視頻文件進行切分包括: 在對所述GoP以及與所述GoP前后相鄰的兩個GoP進行碼流分析后,獲取每個GoP內(nèi)各個視頻幀的宏塊序號、DC分量數(shù)值、運動矢量殘差值和幀內(nèi)編碼宏塊數(shù)量; 根據(jù)所述宏塊序號和所述DC分量數(shù)值檢測每個GoP中的關(guān)鍵幀; 采用所述運動矢量殘差值進行運動復雜度分析; 根據(jù)相鄰視頻幀各自的幀內(nèi)編碼宏塊數(shù)量統(tǒng)計所述相鄰視頻幀的幀內(nèi)編碼宏塊數(shù)量的變化幅度; 根據(jù)檢測結(jié)果、運動復雜度分析結(jié)果以及變化幅度統(tǒng)計結(jié)果確定對所述視頻文件的切分位置。
5.根據(jù)權(quán)利要求1至4中任一項所述的方法,其特征在于,采用Hadoop中的數(shù)據(jù)節(jié)點上運行的Map作業(yè)對所述音頻文件進行劃分,生成所述M個音頻數(shù)據(jù)單元,以及對與所述音頻文件同步播放的視頻文件進行切分;采用Reduce作業(yè)對劃分后的音頻文件以及劃分后的視頻文件進行分類聚合。
6.一種視頻文件的切分裝置,其特征在于,包括: 處理模塊,用于將通過聲紋識別獲取到的音頻文件劃分為N個時間長度相同的音頻數(shù)據(jù)段,再根據(jù)各個音頻數(shù)據(jù)段的內(nèi)容相似度對相鄰的多個音頻數(shù)據(jù)段進行合并,生成M個音頻數(shù)據(jù)單元,其中,M〈N,N和M均為正整數(shù); 分析模塊,用于分別獲取每個音頻數(shù)據(jù)單元對應(yīng)的視頻圖像幀所在的視頻圖像組GoP,并對該GoP以及與該GoP前后相鄰的兩個GoP進行碼流分析; 切分模塊,用于根據(jù)碼流分析結(jié)果對與所述音頻文件同步播放的視頻文件進行切分。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述處理模塊包括: 分類單元,用于按照預先設(shè)定的關(guān)鍵詞類別分別對每個音頻數(shù)據(jù)段中出現(xiàn)的多個關(guān)鍵詞進行分類; 選取單元,用于對每種分類中的各個關(guān)鍵詞的出現(xiàn)頻率進行統(tǒng)計分析并在對每個關(guān)鍵詞的出現(xiàn)頻率進行降序排列后選取前X個關(guān)鍵詞,其中,X為正整數(shù); 判斷單元,用于判斷所述相鄰的多個音頻數(shù)據(jù)段中各自選取的前X個關(guān)鍵詞的重復率是否超過預設(shè)閾值; 合并單元,用于在所述判斷單元輸出為是時,對所述相鄰的多個音頻數(shù)據(jù)段進行合并。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述判斷單元,用于采用以下公式判斷所述 相鄰的兩個音頻數(shù)據(jù)段中各自選取的前X個關(guān)鍵詞的重復率是否超過所述預設(shè)閾值:
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述切分模塊包括:獲取單元,用于在對所述GoP以及與所述GoP前后相鄰的兩個GoP進行碼流分析后,獲取每個GoP內(nèi)各個視頻幀的宏塊序號、DC分量數(shù)值、運動矢量殘差值和幀內(nèi)編碼宏塊數(shù)量;檢測單元,用于根據(jù)所述宏塊序號和所述DC分量數(shù)值檢測每個GoP中的關(guān)鍵幀; 分析單元,用于采用所述運動矢量殘差值進行運動復雜度分析; 統(tǒng)計單元,用于根據(jù)相鄰視頻幀各自的幀內(nèi)編碼宏塊數(shù)量統(tǒng)計所述相鄰視頻幀的幀內(nèi)編碼宏塊數(shù)量的變化幅度; 確定單元,用于根據(jù)檢測結(jié)果、運動復雜度分析結(jié)果以及變化幅度統(tǒng)計結(jié)果確定對所述視頻文件的切分位置。
10.根據(jù)權(quán)利要求6至9中任一項所述的裝置,其特征在于,所述裝置應(yīng)用于Hadoop中的數(shù)據(jù)節(jié)點上運行的Map作業(yè)中,并采用Reduce作業(yè)對劃分后的音頻文件以及劃分后的視頻文件進行分類聚合。
【文檔編號】H04N21/234GK103905742SQ201410143826
【公開日】2014年7月2日 申請日期:2014年4月10日 優(yōu)先權(quán)日:2014年4月10日
【發(fā)明者】崔玉斌, 宿玉文 申請人:北京數(shù)碼視訊科技股份有限公司