一種基于字幕檢測(cè)與識(shí)別的視頻字幕還原方法
【專利摘要】本發(fā)明是一種基于字幕檢測(cè)與識(shí)別的視頻字幕還原方法,包括以下步驟:步驟1:將視頻上傳到分析設(shè)備;步驟2:檢測(cè)每幀上的字幕區(qū)域;步驟3:通過(guò)滑動(dòng)窗口檢測(cè)字幕;步驟4:將檢測(cè)出來(lái)的字幕,其中的某一幀,使用OCR技術(shù),識(shí)別出文字,將文字與字幕的起始和截止時(shí)間,存儲(chǔ)為文本字幕。本發(fā)明通過(guò)字幕檢測(cè),檢測(cè)出視頻上的硬字幕,并通過(guò)光學(xué)字符識(shí)別技術(shù),識(shí)別出硬字幕中的內(nèi)容,還原得到軟字幕(文本字幕)。
【專利說(shuō)明】
一種基于字幕檢測(cè)與識(shí)別的視頻字幕還原方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及視頻字幕編輯【技術(shù)領(lǐng)域】,尤指一種基于字幕檢測(cè)與識(shí)別的視頻字幕還原方法。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)上的視頻很多都是硬字幕(字幕直接融合在視頻圖像之上),修正難度大,一旦出錯(cuò)必須整個(gè)視頻文件重新制作,因?yàn)闊o(wú)法分離,限制了用戶對(duì)字體風(fēng)格個(gè)人喜好的修改。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在于提供一種基于字幕檢測(cè)與識(shí)別的視頻字幕還原方法,解決現(xiàn)有技術(shù)存在的缺憾。
[0004]本發(fā)明是一種基于字幕檢測(cè)與識(shí)別的視頻字幕還原方法,包括以下步驟:
步驟1:將視頻上傳到分析設(shè)備;
步驟2:檢測(cè)每幀上的字幕區(qū)域;
步驟3:通過(guò)滑動(dòng)窗口檢測(cè)字幕,滑動(dòng)窗口里存儲(chǔ)了最多連續(xù)的M幀圖像的字幕候選區(qū)數(shù)據(jù),并維護(hù)一個(gè)計(jì)數(shù)器。當(dāng)滑動(dòng)窗口為空時(shí),直接將新幀放入。如果滑動(dòng)窗口不為空且時(shí),對(duì)于新幀,計(jì)算新幀與窗口內(nèi)各幀的重疊區(qū)域,新幀與窗口內(nèi)各幀的重疊區(qū)域均大于b%時(shí),如果滑動(dòng)窗口內(nèi)幀數(shù)量小于M,則將新幀添加進(jìn)滑動(dòng)窗口中,若滑動(dòng)窗口已滿,則計(jì)數(shù)器加I。如果新幀與窗口內(nèi)某一幀的重疊區(qū)域小于&%時(shí)。此時(shí),如果計(jì)數(shù)器大于閾值N,則認(rèn)為檢測(cè)出一條字幕,該字幕的字幕起始時(shí)間為滑動(dòng)窗口內(nèi)第一幀所對(duì)應(yīng)的時(shí)間,根據(jù)滑動(dòng)窗口的大小和計(jì)數(shù)器值,可以計(jì)算該條字幕所跨越的幀的數(shù)量,得出字幕的截止時(shí)間。無(wú)論是否檢測(cè)出字幕,都將新幀加入滑動(dòng)窗口內(nèi),同時(shí),計(jì)數(shù)器置為0,所述M、N、b為預(yù)先設(shè)置的固定值;
步驟4:將檢測(cè)出來(lái)的字幕,其中的某一幀,使用OCR技術(shù),識(shí)別出文字,將文字與字幕的起始和截止時(shí)間,存儲(chǔ)為文本字幕。
[0005]所述步驟2包括以下流程:
Ca)對(duì)于視頻的每一幀圖像,取其底部一小部分來(lái)進(jìn)行分析;
(b)視頻字幕通常為白色和藍(lán)色,并且有比較強(qiáng)的邊緣;檢測(cè)出視頻圖像里的此類(lèi)區(qū)域,存儲(chǔ)為該幀視頻的字幕候選區(qū)。
[0006]本發(fā)明的有益技術(shù)效果在于:本發(fā)明通過(guò)字幕檢測(cè),檢測(cè)出視頻上的硬字幕,并通過(guò)光學(xué)字符識(shí)別技術(shù),識(shí)別出硬字幕中的內(nèi)容,還原得到軟字幕(文本字幕)。
【具體實(shí)施方式】
[0007]下面結(jié)合實(shí)施例,對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)描述。
[0008]本發(fā)明是一種基于字幕檢測(cè)與識(shí)別的視頻字幕還原方法,包括以下步驟: 步驟1:將視頻上傳到分析設(shè)備;
步驟2:檢測(cè)每幀上的字幕區(qū)域;視頻字幕的特點(diǎn)是,大多出現(xiàn)在視頻下部區(qū)域,字體顏色單一,檢測(cè)字幕區(qū)的流程為:
Ca)對(duì)于視頻的每一幀圖像,取其底部一小部分來(lái)進(jìn)行分析;
(b)視頻字幕通常為白色和藍(lán)色,并且有比較強(qiáng)的邊緣;檢測(cè)出視頻圖像里的此類(lèi)區(qū)域,存儲(chǔ)為該幀視頻的字幕候選區(qū)。
[0009]步驟3:通過(guò)滑動(dòng)窗口檢測(cè)字幕。所檢測(cè)出來(lái)的字幕候選區(qū)域可能是字幕,也可能是其他和字幕顏色類(lèi)似的區(qū)域。視頻中字幕通常會(huì)在同一位置在多幀中出現(xiàn),我們根據(jù)這一特性,設(shè)計(jì)了一個(gè)滑動(dòng)窗口,來(lái)篩選字幕。
[0010]所述滑動(dòng)窗口里存儲(chǔ)了最多連續(xù)的M幀圖像的字幕候選區(qū)數(shù)據(jù),并維護(hù)一個(gè)計(jì)數(shù)器。當(dāng)滑動(dòng)窗口為空時(shí),直接將新幀放入。如果滑動(dòng)窗口不為空且時(shí),對(duì)于新幀,計(jì)算新幀與窗口內(nèi)各幀的重疊區(qū)域,新幀與窗口內(nèi)各幀的重疊區(qū)域均大于b%時(shí),如果滑動(dòng)窗口內(nèi)幀數(shù)量小于M,則將新幀添加進(jìn)滑動(dòng)窗口中,若滑動(dòng)窗口已滿,則計(jì)數(shù)器加I。如果新幀與窗口內(nèi)某一幀的重疊區(qū)域小于&%時(shí)。此時(shí),如果計(jì)數(shù)器大于閾值N,則認(rèn)為檢測(cè)出一條字幕,該字幕的字幕起始時(shí)間為滑動(dòng)窗口內(nèi)第一幀所對(duì)應(yīng)的時(shí)間,根據(jù)滑動(dòng)窗口的大小和計(jì)數(shù)器值,可以計(jì)算該條字幕所跨越的幀的數(shù)量,得出字幕的截止時(shí)間。無(wú)論是否檢測(cè)出字幕,都將新幀加入滑動(dòng)窗口內(nèi),同時(shí),計(jì)數(shù)器置為0,所述M、N、b為預(yù)先設(shè)置的固定值;
步驟4:將檢測(cè)出來(lái)的字幕,其中的某一幀,使用OCR技術(shù),識(shí)別出文字,將文字與字幕的起始和截止時(shí)間,存儲(chǔ)為文本字幕。
【權(quán)利要求】
1.一種基于字幕檢測(cè)與識(shí)別的視頻字幕還原方法,其特征在于,包括以下步驟: 步驟1:將視頻上傳到分析設(shè)備; 步驟2:檢測(cè)每幀上的字幕區(qū)域; 步驟3:通過(guò)滑動(dòng)窗口檢測(cè)字幕,滑動(dòng)窗口里存儲(chǔ)了最多連續(xù)的M幀圖像的字幕候選區(qū)數(shù)據(jù),并維護(hù)一個(gè)計(jì)數(shù)器;當(dāng)滑動(dòng)窗口為空時(shí),直接將新幀放入;如果滑動(dòng)窗口不為空且時(shí),對(duì)于新幀,計(jì)算新幀與窗口內(nèi)各幀的重疊區(qū)域,新幀與窗口內(nèi)各幀的重疊區(qū)域均大于b%時(shí),如果滑動(dòng)窗口內(nèi)幀數(shù)量小于M,則將新幀添加進(jìn)滑動(dòng)窗口中,若滑動(dòng)窗口已滿,則計(jì)數(shù)器加I ;如果新幀與窗口內(nèi)某一幀的重疊區(qū)域小于&%時(shí);此時(shí),如果計(jì)數(shù)器大于閾值N,則認(rèn)為檢測(cè)出一條字幕,該字幕的字幕起始時(shí)間為滑動(dòng)窗口內(nèi)第一幀所對(duì)應(yīng)的時(shí)間,根據(jù)滑動(dòng)窗口的大小和計(jì)數(shù)器值,可以計(jì)算該條字幕所跨越的幀的數(shù)量,得出字幕的截止時(shí)間;無(wú)論是否檢測(cè)出字幕,都將新幀加入滑動(dòng)窗口內(nèi),同時(shí),計(jì)數(shù)器置為O,所述M、N、b為預(yù)先設(shè)置的固定值; 步驟4:將檢測(cè)出來(lái)的字幕,其中的某一幀,使用OCR技術(shù),識(shí)別出文字,將文字與字幕的起始和截止時(shí)間,存儲(chǔ)為文本字幕。
2.根據(jù)權(quán)利要求1所述的一種基于字幕檢測(cè)與識(shí)別的視頻字幕還原方法,其特征在于,所述步驟2包括以下流程: Ca)對(duì)于視頻的每一幀圖像,取其底部一小部分來(lái)進(jìn)行分析; (b)視頻字幕通常為白色和藍(lán)色,并且有比較強(qiáng)的邊緣;檢測(cè)出視頻圖像里的此類(lèi)區(qū)域,存儲(chǔ)為該幀視頻的字幕候選區(qū)。
【文檔編號(hào)】H04N21/81GK104244107SQ201410423647
【公開(kāi)日】2014年12月24日 申請(qǐng)日期:2014年8月26日 優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】程國(guó)艮, 袁翔宇, 王宇晨 申請(qǐng)人:中譯語(yǔ)通科技(北京)有限公司