一種增強網絡視頻中視覺重要區(qū)域清晰度的方法

文檔序號：7945610閱讀：187來源：國知局

專利名稱：一種增強網絡視頻中視覺重要區(qū)域清晰度的方法
技術領域：
本發(fā)明是關于增強網絡視頻中視覺重要區(qū)域清晰度的方法，具體是增強視頻中說話內容字幕以及人臉區(qū)域的清晰度的方法。
背景技術：
視頻中說話內容字幕以及人物面部的清晰度是影響觀眾欣賞的一個重要因素，也是網絡環(huán)境下視頻點播業(yè)務中的一個重要內容。字幕信息是視頻節(jié) 目中一種重要的信息，其直觀地說明了視頻節(jié)目的內容，能夠幫助觀眾了解其中的故事情節(jié)。對視頻字幕進行快速的檢測定位是許多視頻分析和檢索系統中的一個重要環(huán)節(jié)。視頻中人臉的表情是觀眾關注的重要區(qū)域之一，也是觀眾獲取人物心理等信息的主要渠道。但是如果視頻中字幕以及人臉區(qū)域出現較大的失真，則會極大地影響觀眾的欣賞。在網絡帶寬受限的視頻點播系統或者在線視頻瀏覽系統中有針對性地對提升視覺重要區(qū)域的畫面質量，以提供更加貼近用戶需求的服務。視頻中的字幕作為視覺重要區(qū)域，對其進行快速檢測并進行清晰度增強是非常重要的，雖然基于對象的視頻編碼早在
MPEG-4標準中提出，但是其難點是快速高效的對象檢測問題是制約了其應用的一個重要因素。
以視頻字幕檢測為例，現有字幕對象檢測的速度和性能是制約在線視頻業(yè)務的一個重要問題，在中國專利ZL02801652.1中公開了一種基于圖像區(qū)域復雜度的字幕檢測方法，在字幕檢測中僅僅實現對靜止字幕區(qū)域的檢測并且對字幕出現的位置也局限在圖像的中下部。在中國專利ZL03123473.9中所公開的字幕檢測方法對位置也進行了限定?，F有的字幕檢測方法的技術局限性表現在如下兩個方面第一是對字幕出現在畫面中的位置信息敏感，如果有用的信息不在所制定的檢測范圍內，則不能很好地應用；第二是字幕檢測的速度慢，不能達到實時處理的要求，尤其是對于分辨率較大的情況下。對視頻中人臉區(qū)域快速的檢測同樣也面臨著速度慢的問題。

發(fā)明內容
本發(fā)明是針對網絡視頻帶寬不穩(wěn)定的特點以及觀眾最關注的視頻中人臉區(qū)域和視頻字幕的特點，提出了一種將視頻中的字幕和人臉作為兩個視覺重要區(qū)域，對其進行快速檢測并進行清晰度增強的方法。該方法有效地提升了視頻對象提取的速度，并對視覺重要區(qū)域進行有效增強。
為達到以上目的，本發(fā)明是采用如下技術方案予以實現的一種增強網絡視頻中視覺重要區(qū)域清晰度的方法，其特征是，包括如下執(zhí)行步驟首先并行地執(zhí)行字幕區(qū)域檢測單元00和進行人臉區(qū)域檢測單元 01;然后執(zhí)行當前幀視覺重要區(qū)域確定單元02,通過對人臉以及字幕兩種重
要區(qū)域進行或操作，也即MAP-MAPt I MAPf，實現對該兩種重要區(qū)域合并以得到當前幀中視覺重要區(qū)域MAP，其中MAPt為當前字幕在原始視頻中的字幕區(qū)域；MAPf為原始圖像中人臉區(qū)域所在的區(qū)域；接下來執(zhí)行基于視覺重要區(qū)域的編碼單元03，以對視覺重要區(qū)域和視覺非重要區(qū)域進行有差別的編碼，實現增強視覺重要區(qū)域的編碼清晰度；最后執(zhí)行單元04形成待發(fā)送的視頻碼流。
上述方案中，所述的字幕區(qū)域檢測單元OO，包含下述具體步驟首先執(zhí) 行字幕檢測幀亮度分量抽取單元10;然后執(zhí)行字幕時間加速單元20以進行自適應的視頻字幕檢測幀抽取;接下來執(zhí)行字幕空間加速單元30以對原始分辨率下的亮度分量進行自適應的金字塔抽樣以降低圖像的分辨率；接著執(zhí)行字幕空間定位單元40，以實現對步驟30中降低分辨率的圖像Ip進行字幕所在區(qū)域定位；然后執(zhí)行字幕時間定位單元50,以確定字幕在視頻中的出現和消失幀；然后執(zhí)行字幕檢測區(qū)域單元60，根據每條字幕檢測起始、終止幀以及金字塔圖像中的位置來確定當前字幕在原始視頻中的字幕區(qū)域MAPt。
所述的人臉區(qū)域檢測單元Ol，包含下述具體步驟首先執(zhí)行金字塔圖像序列抽樣70，對視頻序列每一幀的亮度和色度分量都執(zhí)行金字塔抽樣，以得到金字塔抽樣后的圖像序列；然后執(zhí)行人臉區(qū)域檢索80，實現在金字塔圖像中進行人臉區(qū)域檢測；最后執(zhí)行人臉區(qū)域90，輸出原始圖像中人臉區(qū)域所在的區(qū)域MAPf。
所述在基于視覺重要區(qū)域的編碼單元03中對視覺重要區(qū)域和視覺非重要區(qū)域實現有差別的編碼，其基本原則是當前幀中MAP(i，j)=l所在的塊區(qū)域的量化步長Ql較小，而對MAP(i,j)=0所在的塊區(qū)域的量化步長QO較大，其中(i,j)表示圖像中坐標位置；或者當前幀中MAP(i,j)=l所在的塊區(qū)域的平均碼率B1較大，而對MAP(i，j)-O所在的塊區(qū)域的平均碼率BO較小，也即 B1>B0,Q1<Q0。
所述的時間加速單元20，是在步驟10所抽取的亮度分量圖像的基礎上自適應地根據本幀中字幕檢測的情況確定下一個字幕檢測幀的間隔"，在當
前幀檢測到字幕的情況下，選取較小的幀間隔以進行當前幀檢測字幕的匹配;
在當前幀沒有檢測到字幕的情況下選取較大的幀間隔。
所述字幕空間定位單元40，包含下述具體步驟首先執(zhí)行步驟41，對步驟30中降低分辨率的圖像Ip采用基于梯度運算算子Top的紋理提取方法來實現，其執(zhí)行的是空間巻積操作，設算子提取紋理圖Isd;然后執(zhí)行步驟42，對Isd以自適應地確定閾值^生成字幕點圖像TxTd，最終的字幕區(qū)域圖像是在不同方向下字幕點圖像的交集形式；接著執(zhí)行步驟43以確定字幕排列方式，首先將字幕點圖像劃分成一系列由4*4大小塊所組成的基本單元，接下來確定每個基本單元中的字幕點保留與否的判斷條件，如果每個基本單元中的字幕點數大于4，則保留該基本單元中的字幕點，否則不保留該基本單元中的字幕點；在所有基本單元判斷完成之后再對字幕點圖像TxTd中進行水平和垂直方向的投影以確定可能的字幕區(qū)域的字幕排列方式；接下來執(zhí)行單元44進行字幕區(qū)域定位，并記錄字幕區(qū)域在金字塔圖像中的左上和右下角的坐標(xl,yl)和(xr,yr)。
所述字幕時間定位單元50中，包含下述具體步驟首先執(zhí)行步驟51，自適應地根據前一檢測幀Prev中字幕檢測的結果判斷下一檢測幀的幀間隔 n，如果前一檢測幀中沒有字幕，則設置較大的幀間隔；如果有字幕則設置較小的幀間隔；然后執(zhí)行步驟52，對間隔n幀的圖像Curr分別執(zhí)行空間加速單元30以實現對Curr幀進行空間金字塔采樣，然后對采樣后的圖像執(zhí)行步驟40以進行字幕檢測；然后執(zhí)行步驟53，進行檢測的字幕匹配跟蹤，相鄰兩個執(zhí)行字幕檢測的幀是否需要進行字幕匹配跟蹤是按照這兩幀中所檢測出的字幕條數目來進行判斷的。
所述步驟53中，如果匹配的字幕在兩個執(zhí)行字幕檢測的幀中的位置不變則判斷為靜止，否則判斷為滾動字幕；靜態(tài)字幕條跟蹤中的出現幀和終止幀確定方法是通過抽取字幕區(qū)域中的DC線條并進行匹配實現的，動態(tài)字幕跟蹤中的出現幀和終止幀確定方法是通過計算匹配速度來實現的。
本發(fā)明中所提供的增強網絡視頻中視覺重要區(qū)域清晰度的方法與不進行視覺重要區(qū)域清晰度增強的方法相比，其有益效果表現在，通過對視覺重要的人臉和字幕區(qū)域進行檢測和增強可以有效提高這些區(qū)域的畫面質量。并且人臉和字幕區(qū)域的檢測采用金字塔抽樣的方法進行快速的提取，和現有的人臉檢測以及字幕檢測技術相比較，在性能相當的情況下有效地提升了檢測速度。

圖1為本發(fā)明中增強網絡視頻中視覺重要區(qū)域清晰度的方法的總體步驟示意圖。
圖2為圖1中字幕區(qū)域檢測步驟的具體步驟示意圖。圖3為圖1中人臉區(qū)域檢測步驟的具體步驟示意圖。圖4是圖2中字幕區(qū)域空間定位單元的具體步驟示意圖。圖5為本發(fā)明中采用增強視頻幀中的字幕和人臉等重要區(qū)域清晰度的對比效果圖。其中圖5A給出了一個原始的視頻圖像，圖5B給出了人臉和字幕區(qū)域檢測的效果圖，如圖中高亮標記的區(qū)域；圖5C、圖5D給出了不采用對象增強和采用對象增強的效果圖；圖5E、圖5F及圖5G分別給出了人臉和字幕區(qū)域在原始視頻、未進行重要區(qū)域增強以及采用對象增強的局部區(qū)域對比的效果圖。
具體實施例方式
以下結合附圖及實施例對本發(fā)明作進一步的詳細說明。圖1給出了本發(fā)明中關于增強網絡視頻中視覺重要區(qū)域清晰度的方法總體實施步驟結構框圖。其中包含如下執(zhí)行步驟并行地執(zhí)行字幕區(qū)域檢測單元00和進行人臉區(qū)域檢測單元01;然后執(zhí)行當前幀視覺重要區(qū)域確定單元 02，實現對人臉以及字幕兩種重要區(qū)域合并以得到當前幀中視覺重要區(qū)域；接下來執(zhí)行基于視覺重要區(qū)域的編碼單元03，以對視覺重要區(qū)域和視覺非重要區(qū)域實現有差別的編碼，從而實現增強視覺重要區(qū)域的編碼清晰度；最后執(zhí)行單元04形成待發(fā)送的視頻碼流。
圖2示例地給出了上述字幕區(qū)域檢測單元00中所包含的執(zhí)行步驟:首先執(zhí)行字幕檢測幀亮度分量抽取單元10;然后執(zhí)行時間加速單元20以進行自適應的視頻字幕檢測幀抽取;接下來執(zhí)行空間加速單元30以對原始分辨率下的亮度分量進行自適應的金字塔抽樣處理以降低圖像的分辨率；接著執(zhí)行字幕空間定位單元40，以實現對單元30中降低分辨率的圖像中進行字幕所在區(qū)域定位；然后執(zhí)行字幕時間定位單元50，以確定字幕在視頻中的出現和消失幀；然后確定字幕檢測區(qū)域單元60，以確定當前字幕在原始視頻中區(qū)域 MAPt。
圖3示例地給出了上述人臉區(qū)域檢測單元01中所包含的執(zhí)行步驟:首先
對視頻序列執(zhí)行步驟70對原始序列進行金字塔抽樣，以得到金字塔抽樣后的圖像序列；然后執(zhí)行步驟80實現在金字塔圖像中進行人臉區(qū)域檢測；最后在步驟90中輸出原始圖像中人臉區(qū)域所在的區(qū)域MAPf。
在圖1當前幀視覺重要區(qū)域確定單元02中，實現對人臉以及字幕兩種重要區(qū)域合并已得到當前幀中視覺重要區(qū)域MAP，在實現中是對上述兩種區(qū)域進行或操作，也即MAP-MAPtlMAPf。
在圖1基于視覺重要區(qū)域的編碼單元03中，以對視覺重要區(qū)域和視覺非重要區(qū)域實現有差別的編碼來實現增強視覺重要區(qū)域的編碼清晰度。在編碼中的基本原則是當前幀中MAP(i,j)=l所在的塊區(qū)域的量化步長Ql較小，而對MAP(i,j)=0所在的塊區(qū)域的量化步長QO較大，其中(i，j)表示圖像中坐標位置；或者當前幀中MAP(i,j)=l所在的塊區(qū)域的平均碼率Bl較大，而對 MAP(i,j)-O所在的塊區(qū)域的平均碼率BO較小。也即B1>B0,Q1<Q0。
在圖2的字幕檢測幀亮度分量抽取單元10中，其實現方式是從視頻序列中獲取指定幀的亮度分量，而不需要色度分量。如果是需要轉碼的壓縮視頻 (格式可以是MPEG-1/2/4或者AVI格式等)則僅解碼指定幀的亮度分量即可。
在圖2的時間加速單元20中，是在步驟IO所抽取的亮度分量圖像的基礎上自適應地根據本幀中字幕檢測的情況確定下一個字幕檢測幀的間隔w。在當前幀檢測到字幕的情況下，選取較小的幀間隔以進行當前幀檢測字幕的匹配(如選取的幀間隔"的取值為5);在當前幀沒有檢測到字幕的情況下選取較大的幀間隔(如選取的幀間隔w的取值為50)。
在圖2的空間加速單元30中，是時間加速單元20選取的檢測幀亮度分量的基礎上，對亮度圖像進行空間金字塔抽樣以降低圖像的分辨率。假設原始圖像的亮度分量的高度為H，寬度為W，抽樣的最終分辨率不小于 176*144，因此在高度方向上的下采樣比例Rh,以及寬度方向上的下采樣比例Rw的計算方法如下
'朋=|_節(jié)44」
其中bc」表示對數值x進行下取整運算。也就是說原圖象Io中一個Rh*Rw的一個區(qū)域對應于金字塔圖像Ip中的一個點。金字塔采樣后的圖像的高度Hp 和寬度Wp分別為-
在圖2的字幕空間定位單元40中，以實現對單元30中降低分辨率的圖像lp中進行字幕所在區(qū)域定位。其具體執(zhí)行步驟的如圖4中所示，首先執(zhí)行步驟41，圖像Ip可采用基于梯度運算算子Top的紋理提取方法來實現，其執(zhí)行的是空間巻積操作，假設算子提取紋理圖Isd。這里選用的梯度運算算子可以是4方向的Sobd算子，也可以是其它類型的算子如Robert, Laplacian，兩方向的Sobel算子等。其中0° ， 45°， 90°， 135°等4個方向的Sobel算子
的形式如下:
12
00
一l一2
1
0
一l
2 1 1 0 0 —l
0
—1 —2
1 0 —l
2 0 -2 1 0 —l
0 1 2 _1 0 1 —2 _1 0
以Sobel算子所提取的紋理圖為例來說明本發(fā)明中的方法，假設上面四哥算子所得出梯度幅值矩陣分別為GT1， GT2， GT3和GT4。首先對采樣后的圖像進行不同方向的梯度計算，然后統計在平均的紋理幅值圖像Isd，其計算方法如下
Isd = wl*GTl+w2*GT2+ w3*GT3+w4*GT4; 其中wl w4是加權系數，本例中wl~w4=0.25.然后執(zhí)行步驟42，對Isd以自適應地確定閾值&生成字幕點圖像TxTd。
其中包括自適應閾值^的計算方法如下
rrf 二 max{2 +1.5^,50} 其中，A和^分別表示圖像Isd的均值和標準差。字幕點圖像TxTd的生成
方法如下
<formula>formula see original document page 11</formula>
對于同方向的Sobd算子，可以生成不同方向的字幕點圖像，最終的字幕區(qū)域圖像是在不同方向下字幕點圖像的交集形式。
接著執(zhí)行步驟43以確定字幕排列方式，首先將字幕點圖像劃分成一系列由4*4大小塊所組成的基本單元，接下來確定每個基本單元中的字幕點保留與否的判斷條件，如果每個基本單元中的字幕點數大于4，則保留該基本單元中的字幕點，否則不保留該基本單元中的字幕點；在所有基本單元判斷完成之后再對字幕點圖像TxTd中進行水平和垂直方向的投影以確定可能的字幕區(qū)域的字幕排列方式。其中投影的過程是統計每個位置上可能的字幕點數目，記水平和垂直方向上的投影分別為PH和PV，其具體的計算方法如下
<formula>formula see original document page 11</formula>
然后分別對PH和PV進行半徑為2的中值濾波，然后在PH和PV中分別尋找波峰和波谷，如果連續(xù)4個點處的值大于20，則將其確定為可能的字幕區(qū) 域，否則認為該幀中沒有字幕。在確定中可能字幕區(qū)域中在水平方向的投影值的均值大于垂直方向上的投影值的均值，則確定為水平排列的字幕，否則確定為垂直排列的字幕。
接下來執(zhí)行單元44進行字幕區(qū)域定位，如果在單元43中沒有可能的字幕，這直接跳過該步驟，且當前幀字幕輸出為O。如果在單元43中確定為水平排列的字幕采用水平方向上的形態(tài)學濾波，首先采用算子為10*1的閉運算，然后再釆用算子為1*5的開運算；如果在單元43中確定為垂直排列的字幕采用垂直方向上的形態(tài)學濾波，首先采用算子為1*10的閉運算，然后再采
用算子為5*1的開運算。然后確定所在連通區(qū)域的最小外接矩形作為字幕區(qū) 域。并記錄字幕區(qū)域在金字塔圖像中的左上和右下角的坐標(xl，yl)和(xr,yr)。在圖2的字幕時間定位單元50中，以確定字幕在時間上的出現和消失幀。其具體執(zhí)行步驟包括如下環(huán)節(jié)首先執(zhí)行步驟51，自適應地根據前一檢測幀 (記為Prev)中字幕檢測的結果判斷下一檢測幀的幀間隔n，如果前一檢測幀中沒有字幕則，設置較大的幀間隔(如n=50);如果有字幕則設置較小的幀間隔(如11=5)。
然后執(zhí)行步驟52，對間隔n幀的圖像(記為Curr)分別執(zhí)行上述步驟中空間加速單元30以實現對Curr幀進行空間金字塔采樣，然后對采樣有的圖像執(zhí)行步驟40以進行字幕檢測。
然后執(zhí)行步驟53，進行檢測的字幕匹配跟蹤。相鄰兩個執(zhí)行字幕檢測的幀是否需要進行字幕匹配跟蹤是按照這兩幀中所檢測出的字幕條數目并按如下四種可能的情況進行判斷-
① 如果Prev幀和Curr幀的字幕條數均為0，則無需進行匹配和跟蹤。
② 如果Prev幀的字幕條數量為0，而Curr幀的字幕條數量不為0，則 Curr幀的字幕條全部為新出現字幕條，需要確定其起始幀。作起始幀判斷時首先需要根據Curr幀和下一個間隔n=5幀(Next)中的字幕匹配情況以及所確定的字幕屬性來進行處理。如果Next中沒有字幕或者有字幕但是和Curr幀中檢測的字幕不匹配，則將Curr幀中檢測的字幕當成錯檢并予以剔除，否則對當前幀Curr中所檢測的新出現字幕條進行字幕跟蹤。
③ 如果Prev幀的字幕條數量不為0，而Curr幀的字幕條數量為0，則 Curr幀的字幕條為消失字幕條，需要確定其終止幀。
④ 如果Prev幀和Curr幀的字幕條數均不為0，則需執(zhí)行對Prev和Curr 幀中的字幕匹配，以確定Prev幀中哪些字幕是匹配的哪些是消失的以及Curr 幀中哪些字幕是匹配哪些是新出現的。對于在Prev幀中哪些在Prev到Curr 之間消失的幀需要確定其終止幀，對于Curr幀中新出現的字幕條需要從Prev 幀到Curr幀之間確定該字幕的出現幀。對于匹配上的字幕條，根據從字幕匹配的相對位置差異所計算出的匹配速度可以將其分成靜態(tài)字幕條和滾動字幕條兩種類型。如果匹配的字幕在兩個執(zhí)行字幕檢測的幀中的位置不變則判斷為靜止，否則判斷為滾動字幕。靜態(tài)字幕條跟蹤中的出現幀和終止幀確定方法是通過抽取字幕區(qū)域中的DC線條并進行匹配實現的，動態(tài)字幕跟蹤中的出現幀和終止幀確定方法是通過計算匹配速度來實現的。若為滾動字幕條，則根據匹配速度來確定字幕邊框進入以及退出畫面的相應幀為出現幀和終止幀，具體
的方法如論文(X.Qian, G丄iu， H.Wang， and R.Su, "Text detection, localization and tracking in compressed video," Signal Processing: Image Communication, 2007, vol.22, no.9,pp.752-768.)所述。若為靜態(tài)字幕條則計算金字塔圖像所在區(qū)域中心位置((xl+xr)/2,(yl+yr)/2)處相應的像素條的平均絕對誤差MAD 值，根據MAD值來確定靜態(tài)字幕的出現幀和終止幀。
其中字幕匹配跟蹤的方法是，按照檢測字幕在金字塔圖像中的所確定的位置((xl+xr)/2，(yl+yr)/2)確定一個搜索范圍然后逐像素點進行匹配，字幕匹配是根據前一個檢測幀Prev和當前檢測幀Curr的字幕檢測情況來判斷檢測出的字幕是否匹配，如果匹配則表明相匹配的字幕屬于同一字幕，否則屬于不同字幕。其中的抽樣匹配的實現方法可以參考論文(H. Jiang, G. Liu, X.Qian， N. Nan, D. Guo， Z. Li, L Sun, "A fast and effective text tracking in compressed video, " International Symposium on Multimedia, 2008)中所述的基于相似匹配的方法來實現，在實現中與其不同之處在于論文中的方法是采用像素域抽象來實現的，本發(fā)明中的抽樣是采用金字塔圖像的抽樣來實現的。
在圖2的字幕檢測區(qū)域單元60中，根據每條字幕檢測起始、終止幀以及金字塔圖像中的位置來獲得原始圖像中字幕區(qū)域MAPt。在金字塔圖像中的字幕檢測的位置通過如下計算獲得字幕在原始圖像中的坐標位置
、=5 x*
其中Os，^)和(、,凡)分別為在金字塔圖像和原始圖像中的坐標。而原始圖像
中字幕區(qū)域MAPt的計算方法如下
1《^義。^《與;;:^;;。<;;:與^ ^A<V [0 其他
其中(《，乂)， 0C乂)， " ^和^分別為在一條字幕區(qū)域在原始圖像中左上角，右下角的坐標，當前幀，起始幀和終止幀。
13
M4尸一 (/,_/ )=在圖3的金字塔圖像序列抽樣單元70中，實現對原始視頻序列中的每一幀的亮度和色度分量都執(zhí)行抽樣，抽樣方法與步驟30相同。
在圖3的人臉區(qū)域檢測單元80中，對每個金字塔抽樣的圖像進行人臉檢測以獲得金字塔圖像序列中每幀的人臉所在區(qū)±或，其中人臉區(qū)域的檢測方法采用文獻(P. Viola， and M. J. Jones, "Robust Real-time Face Detection,,， International Journal of Computer Vision, 57(2)， pp.137-154, 2004.)中公知的技術，該技術本身的一個顯著優(yōu)點是其處理速度塊，而且在本發(fā)明中基于金字塔采樣后的圖像其處理的速度更快，單幀人臉檢測的速度在200幀每秒以上。并對檢測的區(qū)域進行面積統計，對于一些面積較小的、形狀不規(guī)則的區(qū)域予以刪除。
在圖3的人臉區(qū)域單元90中，根據金字塔圖像中人臉檢測的區(qū)域信息獲得原始圖像中人臉區(qū)域MAPf，計算方法類似于步驟60。
圖5示例地給出了本發(fā)明中采用增強視頻幀中的字幕和人臉等重要區(qū)域清晰度方法的優(yōu)異之處。圖5A給出了一個原始的視頻圖像，圖5B給出了人臉和字幕區(qū)域檢測的效果圖，在圖中以綠色區(qū)域標記出采用本發(fā)明中快速的字幕和人臉區(qū)域檢測的結果；圖5C、圖5D給出了不采用對象增強和采用對象增強的效果圖；圖5E、圖5F及圖5G分別給出了人臉和字幕區(qū)域在原始視頻、未進行重要區(qū)域增強以及采用對象增強的局部區(qū)域對比的效果圖；從局部區(qū)域的對比效果中可以看出經過視覺重要區(qū)域的圖像質量增強，有效地提升了畫面的質量。
權利要求
1、一種增強網絡視頻中視覺重要區(qū)域清晰度的方法，其特征是，包括如下執(zhí)行步驟首先并行地執(zhí)行字幕區(qū)域檢測單元00和進行人臉區(qū)域檢測單元01；然后執(zhí)行當前幀視覺重要區(qū)域確定單元02，通過對人臉以及字幕兩種重要區(qū)域進行或操作，即MAP＝MAPt|MAPf，實現對該兩種重要區(qū)域合并以得到當前幀中視覺重要區(qū)域MAP，其中MAPt為當前字幕在原始視頻中的字幕區(qū)域；MAPf為原始圖像中人臉區(qū)域所在的區(qū)域；接下來執(zhí)行基于視覺重要區(qū)域的編碼單元03，以對視覺重要區(qū)域和視覺非重要區(qū)域進行有差別的編碼，實現增強視覺重要區(qū)域的編碼清晰度；最后執(zhí)行單元04形成待發(fā)送的視頻碼流。
2、根據權利要求1所述的增強網絡視頻中視覺重要區(qū)域清晰度的方法，其特征是，所述的執(zhí)行字幕區(qū)域檢測單元00，包含下述具體步驟首先執(zhí)行字幕檢測幀亮度分量抽取單元10;然后執(zhí)行字幕時間加速單元20以進行自適應的視頻字幕檢測幀抽取;接下來執(zhí)行字幕空間加速單元30以對原始分辨率下的亮度分量進行自適應的金字塔抽樣以降低圖像的分辨率；接著執(zhí)行字幕空間定位單元40，以實現對步驟30中降低分辨率的圖像Ip進行字幕所在區(qū)域定位；然后執(zhí)行字幕時間定位單元50，以確定字幕在視頻中的出現和消失幀；然后執(zhí)行字幕檢測區(qū)域單元60，根據每條字幕檢測起始、終止幀以及金字塔圖像中的位置來確定當前字幕在原始視頻中的字幕區(qū)域MAPt。
3、根據權利要求1所述的增強網絡視頻中視覺重要區(qū)域清晰度的方法，其特征是，所述的執(zhí)行人臉區(qū)域檢測單元Ol，包含下述具體步驟首先執(zhí)行金字塔圖像序列抽樣70，對視頻序列每一幀的亮度和色度分量都執(zhí)行金字塔抽樣，以得到金字塔抽樣后的圖像序列；然后執(zhí)行人臉區(qū)域檢索80，實現在金字塔圖像中進行人臉區(qū)域檢測；最后執(zhí)行人臉區(qū)域90，輸出原始圖像中人臉區(qū)域所在的區(qū)域MAPf。
4、根據權利要求1所述的增強網絡視頻中視覺重要區(qū)域清晰度的方法，其特征是，所述在基于視覺重要區(qū)域的編碼單元03中對視覺重要區(qū)域和視覺非重要區(qū)域實現有差別的編碼，其基本原則是當前幀中MAP(i,j)-l所在的塊區(qū)域的量化步長Ql較小，而對MAP(i,j)=0所在的塊區(qū)域的量化步長QO較大，其中(i，j)表示圖像中坐標位置；或者當前幀中MAP(i,j)=l所在的塊區(qū)域的平均碼率Bl較大，而對MAP(i,j)=0所在的塊區(qū)域的平均碼率B0較小，也即B1〉B0，Q1〈Q0。
5、根據權利要求2所述的增強網絡視頻中視覺重要區(qū)域清晰度的方法，其特征是，所述的執(zhí)行時間加速單元20，是在步驟10所抽取的亮度分量圖像的基礎上自適應地根據本幀中字幕檢測的情況確定下一個字幕檢測幀的間隔"，在當前幀檢測到字幕的情況下，選取較小的幀間隔以進行當前幀檢測字幕的匹配；在當前幀沒有檢測到字幕的情況下選取較大的幀間隔。
6、根據權利要求2所述的增強網絡視頻中視覺重要區(qū)域清晰度的方法，其特征是，所述執(zhí)行字幕空間定位單元40，包含下述具體步驟首先執(zhí)行步驟41，對步驟30中降低分辨率的圖像Ip采用基于梯度運算算子Top的紋理提取方法來實現，其執(zhí)行的是空間巻積操作，設算子提取紋理圖Isd;然后執(zhí) 行步驟42，對Isd以自適應地確定閾值K生成字幕點圖像TxTd，最終的字幕區(qū)域圖像是在不同方向下字幕點圖像的交集形式;接著執(zhí)行步驟43以確定字幕排列方式，首先將字幕點圖像劃分成一系列由4*4大小塊所組成的基本單元，接下來確定每個基本單元中的字幕點保留與否的判斷條件，如果每個基本單元中的字幕點數大于4，則保留該基本單元中的字幕點，否則不保留該基本單元中的字幕點；在所有基本單元判斷完成之后再對字幕點圖像TxTd 中進行水平和垂直方向的投影以確定可能的字幕區(qū)域的字幕排列方式；接下來執(zhí)行單元44進行字幕區(qū)域定位，并記錄字幕區(qū)域在金字塔圖像中的左上和右下角的坐標(xl，yl)和(xr,yr)。
7、根據權利要求2所述的增強網絡視頻中視覺重要區(qū)域清晰度的方法，其特征是，所述執(zhí)行字幕時間定位單元50，包含下述具體步驟首先執(zhí)行步驟51，自適應地根據前一檢測幀Prev中字幕檢測的結果判斷下一檢測幀的幀間隔n，如果前一檢測幀中沒有字幕，則設置較大的幀間隔；如果有字幕則設置較小的幀間隔；然后執(zhí)行步驟52，對間隔n幀的圖像Cmr分別執(zhí)行空間加速單元30以實現對Curr幀進行空間金字塔采樣，然后對采樣后的圖像執(zhí)行步驟40以進行字幕檢測；然后執(zhí)行步驟53，進行檢測的字幕匹配跟蹤，相鄰兩個執(zhí)行字幕檢測的幀是否需要進行字幕匹配跟蹤是按照這兩幀中所檢測出的字幕條數目來進行判斷的。
8、根據權利要求7所述的增強網絡視頻中視覺重要區(qū)域清晰度的方法，其特征是，所述步驟53中，如果匹配的字幕在兩個執(zhí)行字幕檢測的幀中的位置不變則判斷為靜止，否則判斷為滾動字幕；靜態(tài)字幕條跟蹤中的出現幀和終止幀確定方法是通過抽取字幕區(qū)域中的DC線條并進行匹配實現的，動態(tài) 字幕跟蹤中的出現幀和終止幀確定方法是通過計算匹配速度來實現的。
全文摘要
本發(fā)明公開了一種增強網絡視頻中視覺重要區(qū)域清晰度的方法，其特征是，包括如下執(zhí)行步驟首先并行地執(zhí)行字幕區(qū)域檢測單元00和進行人臉區(qū)域檢測單元01；然后執(zhí)行當前幀視覺重要區(qū)域確定單元02，通過對人臉以及字幕兩種重要區(qū)域進行或操作，也即MAP＝MAPt|MAPf，實現對該兩種重要區(qū)域合并以得到當前幀中視覺重要區(qū)域MAP，其中MAPt為當前字幕在原始視頻中的字幕區(qū)域；MAPf為原始圖像中人臉區(qū)域所在的區(qū)域；接下來執(zhí)行基于視覺重要區(qū)域的編碼單元03，以對視覺重要區(qū)域和視覺非重要區(qū)域進行有差別的編碼，實現增強視覺重要區(qū)域的編碼清晰度；最后執(zhí)行單元04形成待發(fā)送的視頻碼流。
文檔編號H04N5/445GK101527786SQ200910021768
公開日2009年9月9日申請日期2009年3月31日優(yōu)先權日2009年3月31日
發(fā)明者劉貴忠, 姜海俠, 智李, 歡汪, 喆王, 琛王, 郭旦萍, 錢學明申請人:西安交通大學

完整全部詳細技術資料下載