壓縮域體育視頻定位標題文字的方法

文檔序號：6602136閱讀：145來源：國知局

專利名稱：壓縮域體育視頻定位標題文字的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種在壓縮域體育視頻中定位標題文字的方法。
背景技術(shù)：
在轉(zhuǎn)播體育比賽時，一般都會在包含精彩鏡頭的片段中插入一些標題文字，這些文字是對視頻內(nèi)容的簡單描述和說明，對于特定的運動，這些文字的數(shù)目和排列位置都具有一定的語義信息。如在足球比賽中，當出現(xiàn)射門動作時，會在屏幕上打出射門球員的號碼、姓名、所屬對別、比賽時間等；又如在跳水比賽中，在運動員跳水之前和出水之后也會打出一些相關(guān)信息。因此，快速的檢測和定位到這些文字可以作為檢測精彩鏡頭、提取視頻內(nèi)容的第一步。
視頻中的文字定位一般有兩類方法非壓縮域的方法和壓縮域的方法。非壓縮域的方法的優(yōu)點是定位準確，錯誤率低，但是因為要對壓縮視頻進行完全的解碼，所以運算量大，速度慢；而傳統(tǒng)的壓縮域的方法檢測速度快，但是定位不準確，只能檢測出成片的文字區(qū)域，而且錯誤率較高。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種為了快速定位出體育比賽視頻中的標題文字，為提取視頻中的精彩片斷和建立視頻的語義索引提供一種快速的方法。
為實現(xiàn)上述目的，一種壓縮域體育視頻定位標題文字的方法，包括以下步驟用8×8DCT塊的高頻系數(shù)能量檢測出初步的文字區(qū)域；通過快速算法直接由8×8圖像塊的DCT系數(shù)得到其4個2×8子塊的反映水平方向頻率變化的高頻DCT系數(shù)；
由子塊的高頻系數(shù)的水平投影圖將初檢的文字區(qū)域分割成每塊只含一行且水平方向相對獨立的文字塊；利用體育視頻中文字的時間冗余特性過濾掉誤檢的文字塊。
本發(fā)明針對體育視頻中文字的特點，通過少量的運算在壓縮域?qū)崿F(xiàn)了文字的精確定位。本發(fā)明具有很快的定位速度和較高的準確性，不僅可以用于體育視頻，還可用于其他類視頻如新聞視頻中文字的定位。

圖1是本發(fā)明的流程示意圖。
圖2是將8×8的圖像塊分為4個2×8的子塊的示意圖。
圖3是直接由8×8的圖像塊的DCT矩陣得到4個2×8的子塊的部分高頻DCT系數(shù)的變換矩陣。
具體實施例方式
本發(fā)明基于針對體育視頻中文字的如下特點文字是有一定的尺寸界定的；一行文字總是由一串水平方向排列的字符組成的，行間間隔超過3行像素；文字通常與其背景有較大的灰度反差；文字區(qū)域包含有豐富的拐角與邊緣；文字的顯示時間一般超過4秒以上。
本發(fā)明在壓縮域下定位文字，利用了以下兩點[1]圖像DCT變換系數(shù)的特點。一個8×8的圖像塊經(jīng)過DCT變換后得到的64個變換系數(shù)，反映了圖像在頻率域的局部特征。每個DCT系數(shù)Fuv都是塊中所有像素值的線性組合，其中u代表水平頻率，v代表垂直頻率，F(xiàn)oo代表直流分量DC，其余的系數(shù)代表交流分量AC，DC反映了原圖像塊的平均灰度，而AC則反映了在某一方向上的灰度值變化及其變化率，其中第一行系數(shù)(除DC外)反映了水平方向頻率，第一列(除DC外)反映了垂直方向頻率，對角線上的系數(shù)反映了斜向能量。[2]文字區(qū)域的特點。文字區(qū)域一般包含有豐富的拐角與邊緣，而且通常文字與其背景有較大的對比度，反映在頻率域即壓縮域，表現(xiàn)為其高頻系數(shù)含有較高的能量，而非文字區(qū)的高頻系數(shù)大部分為零或很小，因此利用高頻系數(shù)便可以將文字區(qū)域和非文字區(qū)域分割開來。
文字區(qū)域的初步檢測。視頻流經(jīng)過可變字長解碼和反量化，得到I幀的DCT系數(shù)，對于每個8×8DCT塊，計算其水平、垂直和對角方向的高頻能量，其中水平能量Eh=Σv1≤v≤v2|F0v|,(v1=4,v2=6)]]>垂直能量Ev=Σu1≤u≤u2|Fu0|,(u1=3,u2=6)]]>斜向能量ED＝|F44|+|F45|+|F54|+|F55|總的能量值E＝Eh+Ev+ED，通過實驗確定出能量閾值EThresh1，若某塊的能量E＞EThresh1，則認為該塊是文字，否則視為非文字；同時文字的水平能量和垂直能量應(yīng)滿足一定的約束關(guān)系m≤Eh/Ev≤M.]]>為每一個含有文字的幀圖像建立一個二值映射圖，其大小為幀圖像的1/64，每一點對應(yīng)幀圖像的一個8×8塊，某點為1說明對應(yīng)塊為文字，為0說明是非文字；初步檢測出的映射圖中含有一些孤立塊和拐角，需要消除這些孤立塊和孤立的拐角，并且把間隔1～2個空白塊的鄰接塊連接起來；下一步，對于檢測出的每一塊文字集中的區(qū)域用一個最小的外接矩形框起來，得到初步檢測的文字區(qū)。
文字塊的精確定位。初步檢測的文字區(qū)中可能包含有多行文字，或者包含有一些非文字區(qū)域，因此，有必要進一步細化，從中分離出每一個文字行塊(僅含一行的文字塊)，以便挖掘它們的語義信息。但是在壓縮域8×8的粒度上是很難進行細化的，除非行與行之間的間隔大于8，否則是無法提取文字行的。因此，以往壓縮域文字檢測方法只是檢測出成片的文字區(qū)域而沒有分離出其中的行。
為了分離出文字行，可以將檢測的文字區(qū)變換到空間域，采用空間域的方法進行行的分割，但這樣做的缺點是需要進行完全的逆DCT變換，運算量大，不能滿足實時要求。本發(fā)明以較少的計算量完成了文字行的分割，效果令人滿意。
將一個8×8的圖像塊分成4個2×8子塊，每個子塊包含2行(如圖2所示)，如果某一子塊是文字的一部分，則反映其水平方向變化頻率的高頻DCT系數(shù)能量必然較大，否則，必為0或很小，因此通過子塊的高頻DCT系數(shù)能量的水平和垂直投影圖便可將文字區(qū)分割開來。本發(fā)明包含了得到子塊高頻DCT系數(shù)的快速算法。
設(shè)X為8×8的圖像塊，DCT(X)為其DCT系數(shù)矩陣，Y1為僅含X的前2行像素的8×8塊(其余元素為0，如圖2)，DCT(Y1)為Y1的DCT系數(shù)矩陣，在此我們只需得到DCT(Y1)的2個值F03和F04。由X得到Y(jié)1可以看作是Y1＝XH1，其中H1是一個8×8濾波器矩陣，其對角線上前2個元素是1，其余元素全為0，設(shè)T是8×8的DCT變換矩陣，則TTt＝TtT＝I，其中Tt代表T的轉(zhuǎn)置，于是有DCT(Y1)＝DCT(H1X)＝T(H1X)Tt＝TH1TTtXTt＝DCT(H1)DCT(X)而H1是已知的，因此矩陣DCT(H1)可以預(yù)先計算出來，又我們只需要DCT(Y1)的第一行的2個值F03和F04，所以對于DCT(H1)只需保存其第一行元素即可。因此要得到1個子塊的2個系數(shù)需要16次乘法和16次加法，要得到4個子塊的共8個系數(shù)則需要64次乘法和64次加法，相對于對1個8×8塊做逆DCT變換(176次乘法，632次加法)，運算量減少了2/3。
通過以下的分析可以進一步降低運算量。利用上面的方法可以得到僅含X的第3，4行像素的8×8塊Y2和相應(yīng)的H2，僅含X的第5，6行像素的8×8塊Y3和相應(yīng)的H3，僅含X的第7，8行像素的8×8塊Y4和相應(yīng)的H4(如圖4)。為了計算的方便，將H1、H2、H3、H4中的1替換成128，設(shè)H為由DCT(Hi)，(i＝1～4)的第一行元素構(gòu)成的矩陣，則經(jīng)過計算后得到變換矩陣H(如圖3所示)。
很明顯，矩陣H的行元素具有對稱關(guān)系，且有1列元素為0，因此乘法的次數(shù)可以減少到22次，考慮到移位運算的高效性，我們用左移5為代替乘32，左移4為代替乘17，左移2為代替乘4，最終將乘法的次數(shù)降到了14次，僅為逆DCT運算的1/12(實際試驗結(jié)果為1/11)。
為要分割的幀圖像建立一個映射圖，映射圖的每一點代表幀圖像的1個2×8子塊，其值對應(yīng)著子塊的能量Esubblock若Esubblock＝|F03|+|F04|≤EThresh1，則該點取值為0，若Esubblock≥EThresh2則取值為EThresh2，否則取值為Esubblock。對映射圖中的每一個文字區(qū)域進行水平投影，利用投影值進行行的分割，從上往下，若連續(xù)兩行像素的投影值大于Thh(Thh取文字區(qū)域中所有投影值的均值的1/2)，則視為文字行的開始，若連續(xù)兩行像素的投影值小于Thh，則視為文字行的結(jié)束，如此，直至行分割完畢。對得到的行進行垂直方向投影，利用相似的方法將每一行中相對獨立的塊分開。在分割的同時，應(yīng)用了一些約束來消除誤檢塊，這些約束有文字行的高度＞minText_Height，文字塊的寬度/文字塊的高度＞ratio_WidthHeight，同時還對相鄰的塊進行了合并。用一個最小的外接矩形將每個文字塊框起來，得到初步定位的文字塊。
體育視頻中嵌入的文字是為了注解特定的事件或場景，必須停留足夠的時間以便讓人眼觀察清楚，即體育視頻文字具有時間域的冗余性，利用這一點，可以消除一部分誤檢文字塊，若某一文字塊在連續(xù)的3個I幀上都存在，則認為是真正的文字塊，否則，便認為是虛假文字塊；同樣，對于已經(jīng)檢測到的真文字塊，只有在連續(xù)的2個I幀中都不出現(xiàn)時，才認為是消失了。這一特點能有效的降低誤檢率。最后得到正確定位的文字塊。
權(quán)利要求
1.一種壓縮域體育視頻定位標題文字的方法，包括下列步驟用8×8DCT塊的高頻系數(shù)能量檢測出初步的文字區(qū)域；通過快速算法直接由8×8圖像塊的DCT系數(shù)得到其4個2×8子塊的反映水平方向灰度變化的高頻DCT系數(shù)；由子塊的高頻系數(shù)的水平和垂直投影圖將初檢的文字區(qū)域分割成每塊只含一行且水平方向相對獨立的文字塊；利用體育視頻中文字的時間冗余特性過濾掉誤檢的文字塊。
2.如權(quán)利要求1所述的方法，其特征在于所述初步文字區(qū)域的檢測包括下列步驟計算視頻流中I幀的每個8×8DCT塊的水平、垂直、傾斜方向的高頻系數(shù)的絕對值之和，并與設(shè)定的閾值比較，若大于閾值，則認為此塊是文字，否則為非文字；包含每個文字區(qū)域的最小矩形記為初檢的文字區(qū)域。
3.利要求1的所述方法，其特征在于所述直接由8×8圖像塊的DCT系數(shù)得到其4個2×8子塊的反映水平方向灰度變化的高頻DCT系數(shù)包括下列步驟首先將8×8的圖像塊分成4個2×8的子塊，得到4個變換矩陣；分別計算它們的DCT系數(shù)矩陣，取每個DCT系數(shù)矩陣的第一行形成新的系數(shù)矩陣；利用新的系數(shù)矩陣的對稱性，并用左移位代替一部分乘法，減少乘法運算次數(shù)，得到每個2×8的子塊的兩個高頻DCT系數(shù)F03、F04。
4.如權(quán)利要求1所述的方法，其特征在于所述的分割文字區(qū)域的步驟為建立2×8的子塊的高頻系數(shù)能量的水平和垂直投影圖；利用水平投影圖將文字區(qū)域分割成行；利用垂直投影圖將文字行分割成相對獨立的塊；重復以上分割，直到無法分割為止；合并相鄰的文字塊；用包含每個文字塊的最小矩形框定文字塊。
5.如權(quán)利要求4所述的方法，其特征在于所述水平和垂直投影圖的建立步驟為對每個初步檢測含有文字的I幀圖像，建立一個映射圖，其中的一個點代表一個2×8的子塊；計算每個子塊的高頻系數(shù)能量E＝|F03|+F04|；若E＜閾值1，則映射圖的對應(yīng)點為0；若E＞閾值2，則映射圖的對應(yīng)點為閾值2；否則，映射圖的對應(yīng)點為E；對映射圖進行水平方向即沿X軸方向投影，建立水平投影圖；沿Y軸方向投影，建立垂直投影圖。
6.權(quán)利要求1所述的方法，其特征在于所述利用體育視頻中文字的時間冗余特性過濾掉誤檢的文字塊包括下列步驟對定位的每個文字塊進行跟蹤，若連續(xù)三個I幀都出現(xiàn)，則認為是真正的文字塊，否則作為虛假文字塊過濾掉；對確定為文字的每個塊進行跟蹤，只有連續(xù)超過兩個I幀都消失，才認為是真正的消失了，否則認為沒有消失。
全文摘要
一種壓縮域體育視頻定位標題文字的方法，包括以下步驟用8×8DCT塊的高頻系數(shù)能量檢測出初步的文字區(qū)域；通過快速算法直接由8×8圖像塊的DCT系數(shù)得到其4個2×8子塊的反映水平方向頻率變化的高頻DCT系數(shù)；由子塊的高頻系數(shù)的水平和垂直投影圖將初檢的文字區(qū)域分割成每塊只含一行且水平方向相對獨立的文字塊；利用體育視頻中文字的時間冗余特性過濾掉誤檢的文字塊。本發(fā)明通過少量的運算在壓縮域?qū)崿F(xiàn)了文字的精確定位，具有很快的定位速度和較高的準確性，不僅可以用于體育視頻，還可用于其他類視頻如新聞視頻中文字的定位。
文檔編號G06F17/16GK1504921SQ02154399
公開日2004年6月16日申請日期2002年12月4日優(yōu)先權(quán)日2002年12月4日
發(fā)明者李豪杰, 張勇東, 林守勛申請人:中國科學院計算技術(shù)研究所

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李豪杰、張勇東、林守勛
技術(shù)所有人：中國科學院計算技術(shù)研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

壓縮域體育視頻定位標題文字的方法