專利名稱:用于處理編碼的視頻數(shù)據(jù)的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及處理數(shù)字編碼視頻數(shù)據(jù)的方法,該視頻數(shù)據(jù)可以以一個(gè)包含被劃分成分片的接連的幀的視頻流的形式而得到,所述幀至少包括不參照其它幀而被編碼的I幀、在時(shí)間上位于所述I幀之間并至少從以前的I或P幀預(yù)測的P幀、以及B幀,這些B幀在時(shí)間上位于I幀與P幀之間或位于兩個(gè)P幀之間并且這些B幀從它們所處在其間的至少這些雙幀被雙向預(yù)測。
背景技術(shù):
內(nèi)容分析技術(shù)是基于諸如多媒體處理(圖像和音頻處理),模式識別和人工智能等算法的,它們的目的是自動創(chuàng)建視頻材料的解釋。這些解釋從諸如彩色和紋理結(jié)構(gòu)那樣的與低級別信號有關(guān)的特性到諸如面部的呈現(xiàn)和位置那樣的高級別信息。這樣進(jìn)行的內(nèi)容分析的結(jié)果被用于諸如廣告檢測、基于情景的分章節(jié)、視頻預(yù)覽和視頻概要那樣的許多基于內(nèi)容的應(yīng)用。
已建立的標(biāo)準(zhǔn)(例如,MPEG-2,H.263)和正出現(xiàn)的標(biāo)準(zhǔn)(例如,H.264/AVC,例如在“Emerging H.264 StandardOverview(正出現(xiàn)的H.264標(biāo)準(zhǔn)綜述)”中和在TMS320C64x數(shù)字媒體平臺實(shí)施方案--白皮書中簡要地描述的,見http://www.ubvideo.com/public)固有地使用基于塊的運(yùn)動補(bǔ)償編碼的概念。因此,視頻被表示為語義單元的分級結(jié)構(gòu),它描述圖像屬性(例如,尺寸和速率)和空間-時(shí)間相互關(guān)系,以及用于構(gòu)建將最終組成原始信號的近似版本的2D數(shù)據(jù)塊的譯碼過程。得到這樣的表示的第一步驟是把圖像的RGB數(shù)據(jù)矩陣變換成YUV矩陣(RGB彩色空間表示法最常用于圖像獲取和呈現(xiàn)),以使得亮度(Y)和兩個(gè)色度分量(U,V)可被分開地編碼。通常,U和V幀首先在水平方向和垂直方向以二分之一的因數(shù)被下采樣,得到所謂的4:2:0格式,由此要編碼的數(shù)據(jù)量被減半(這是由人眼對于彩色改變比起對于亮度改變的相對較低的感知度所證實(shí)為合理的)。每個(gè)幀還被劃分成多個(gè)非重疊的塊,其大小對亮度為16×16像素和對縮減的色度為8×8像素。16×16亮度塊和兩個(gè)相應(yīng)的8×8色度塊的組合被稱為宏塊(或MB),即基本編碼單元。這些慣例對于所有的標(biāo)準(zhǔn)是共同的,各種編碼標(biāo)準(zhǔn)(MPEG-2,H.263,和H.264/AVC)之間的差別主要涉及用于把MB劃分成較小的方塊、用于將子塊編碼、和用于組織比特流的各種任選方案、技術(shù)與處理過程。
不必詳細(xì)說明所有的編碼技術(shù)的細(xì)節(jié),就可以指出,所有的標(biāo)準(zhǔn)使用兩種基本類型的編碼內(nèi)部的和相互的(運(yùn)動補(bǔ)償)。在內(nèi)部模式中,圖像塊的像素用它們本身進(jìn)行編碼,而不用參照其它像素,或可能基于(僅僅在H.264)來自在同一個(gè)圖像中的以前編碼的和重建的像素的預(yù)測。相互模式固有地使用時(shí)間預(yù)測,由此在圖像塊中,某些圖像根據(jù)以前編碼的和重建的參考圖像中它的“最好的匹配”而被預(yù)測。這里,在實(shí)際的塊和它的估值與相對于實(shí)際的塊的坐標(biāo)的該估值相對位移(或運(yùn)動向量)之間的面向像素的差值(或預(yù)測誤差)是分別編碼的。
取決于編碼類型,規(guī)定了三種基本類型的圖像(或幀)只允許內(nèi)部編碼的I圖像、也允許根據(jù)前向預(yù)測的相互間編碼的P圖像、和還允許根據(jù)后向或雙向預(yù)測的相互間編碼的B圖像。
圖1例如顯示B圖像的從兩個(gè)參考P幀Pi+1和Pi+3的雙向預(yù)測,運(yùn)動向量由彎曲的箭頭表示,以及Ii和Ii表示其間有這些P幀和B幀的兩個(gè)接連的I圖像。任何B圖像的每個(gè)塊可以由來自過去的P幀的塊、來自將來的P幀的塊、或由每個(gè)來自不同的P圖像的兩個(gè)塊的平均值而預(yù)測。為了提供對于快速搜索、編輯、錯(cuò)誤恢復(fù)等等的支持,一系列編碼的視頻圖像通常被劃分成一系列圖像組,或GOP(圖1顯示所考慮的視頻序列的第i個(gè)GOP)。每個(gè)GOP從I圖像開始,接著是對P圖像和任選的對B圖像的安排。在圖1上,Ii是所顯示的第i個(gè)GOP的開始圖像,而Ii是下一個(gè)GOP的開始的圖像(未示出)。另外,每個(gè)圖像被劃分成非重疊的一系列的接連的MB,即分片,這樣,同一個(gè)圖像的不同的分片可以互相獨(dú)立編碼(分片也可以包含整個(gè)圖像)。在MPEG2中,圖像的左面邊緣常常是新分片的開始,且分片在圖像上總是從左到右排列。在其它的標(biāo)準(zhǔn)中,也可以實(shí)行更加靈活的分片結(jié)構(gòu),對于H.264,這將在下面更詳細(xì)地說明。
因此,編碼的視頻序列被規(guī)定為具有分層的分級結(jié)構(gòu)(圖2顯示在H.263的情形下的這種結(jié)構(gòu)),包括序列層、GOP層、圖像層、分片層、宏塊層、和塊層,其中每層包括說明性標(biāo)題數(shù)據(jù)。例如,圖像層PL將包括22個(gè)比特的圖像開始代碼(PSC),用于表示圖像的開始;8比特的時(shí)間基準(zhǔn)(TR),用于以它們的原先的次序(當(dāng)使用B圖像時(shí),編碼次序是與顯示次序不同的)來對準(zhǔn)譯碼的圖像等。分片層或本例中的塊組的層或GOBL(一個(gè)GOB包括圖像的k×16行)包括碼字,用于表示GOB的開始(GBSC);圖像中GOB的數(shù)目(GN),用于GOB的圖像標(biāo)識(GFID)等等。最后,宏塊層(MBL)和塊層(BL)將包括編碼類型信息和實(shí)際的視頻數(shù)據(jù),諸如在宏塊級別的運(yùn)動向量數(shù)據(jù)(MVD)和在塊層級別的變換系數(shù)(TCCOEF)。
H.264/AVC是ITU-T和ISO/IEC MPEG的最新的聯(lián)合視頻編碼標(biāo)準(zhǔn),它最近由官方批準(zhǔn)為ITUT建議H.264/AVC和ISO/IEC國際標(biāo)準(zhǔn)14496-10(MPEG-4第10部分)先進(jìn)視頻編碼(AVC)。H.264/AVC標(biāo)準(zhǔn)化的主要目標(biāo)是要大大地提高壓縮效率(通過使對于達(dá)到給定的視頻保真度所需要的比特?cái)?shù)減半)和網(wǎng)絡(luò)匹配性。當(dāng)前,H.264/AVC被廣義地認(rèn)為用于達(dá)到這些目標(biāo),并且它當(dāng)前通過諸如DVB、DVD論壇、3GPP等那樣的論壇,被考慮在幾個(gè)應(yīng)用(下一代無線通信、視頻電話、HDTV貯存和廣播、VOD等等)領(lǐng)域中所采用。在因特網(wǎng)中,有越來越多的網(wǎng)址提供有關(guān)H.264/AVC的信息,在其中ITU-T/MPEGJVT[聯(lián)合視頻小組]的官方數(shù)據(jù)庫(官方H.264文件和JVT的軟件,見ftp://ftp.imtc-file.org/jvt-experts/)提供自由接入到反映包括草案更新的H.264/AVC的開發(fā)和狀態(tài)的文件。
為適配于各種各樣的網(wǎng)絡(luò)和對于數(shù)據(jù)錯(cuò)誤/丟失適配性和魯棒性提供魯棒性的上述H.264的靈活性是通過幾個(gè)設(shè)計(jì)方面而達(dá)到的,在這些設(shè)計(jì)中間,以下的一些對于在以后某些段落中要描述的本發(fā)明是最相關(guān)的(a)NAL單元(NAL=網(wǎng)絡(luò)字摘取層)NAL單元(NALU)是在H.264/AVC中基本邏輯數(shù)據(jù)單元,實(shí)際上由包括視頻和非視頻數(shù)據(jù)的整數(shù)個(gè)字節(jié)組成。每個(gè)NAL單元的第一字節(jié)是標(biāo)題字節(jié),它表示在NAL單元中數(shù)據(jù)的類型,而其余字節(jié)包含由標(biāo)題表示的那種類型的有用負(fù)荷數(shù)據(jù)。NAL單元結(jié)構(gòu)定義規(guī)定了在面向分組(例如RTP)和面向比特流(例如,H.320和MPEG-2|H.222)的輸送系統(tǒng)中使用的一般格式,并且由編碼器生成的一系列NALU被稱為NALU流。
(b)參數(shù)組參數(shù)組將包含預(yù)期很少改變的信息,并可應(yīng)用于更大數(shù)量的NAL單元。因此,參數(shù)組可以與其它數(shù)據(jù)分開,以用于更靈活和魯棒的處理(在以前的標(biāo)準(zhǔn)中,標(biāo)題信息在流中更經(jīng)常地重復(fù),這樣的信息中幾個(gè)關(guān)鍵比特的丟失可能對譯碼處理過程具有嚴(yán)重的負(fù)面影響)。有兩種類型的參數(shù)組應(yīng)用于被稱為序列的一系列接連的編碼的圖像的序列參數(shù)組,和應(yīng)用于序列內(nèi)的一個(gè)或多個(gè)圖像的譯碼的圖像參數(shù)組。
(c)靈活的宏塊排序(FMO)FMO涉及到把圖像劃分成被稱為分片組的區(qū)域的新的能力,每個(gè)分片變?yōu)橐粋€(gè)分片組中可獨(dú)立地譯碼的子組。每個(gè)分片組是由宏塊到分片組的映射所規(guī)定的宏塊組,它由圖像參數(shù)組的內(nèi)容(見以上)和來自分片標(biāo)題的某些信息所規(guī)定。通過使用FMO,圖像可被分割成許多宏塊掃描圖案,例如圖3所示的那些圖案(給出當(dāng)使用FMO時(shí)把圖像再劃分成分片的某些例子),這可顯著增強(qiáng)對在每個(gè)分片中被編碼的區(qū)域之間的空間關(guān)系的管理能力。
在計(jì)算、通信和數(shù)字?jǐn)?shù)據(jù)貯存中的最新進(jìn)展導(dǎo)致在專業(yè)和消費(fèi)者環(huán)境下大容量數(shù)字歸檔的巨大增長。因?yàn)檫@些歸檔的特征在于穩(wěn)定地增加的容量和內(nèi)容的多樣性,所以找到有效的方法以便快速檢索所存儲的感興趣信息是特別重要的。然而,人工地搜索數(shù)以太拉(1012)字節(jié)計(jì)的無組織地存儲的數(shù)據(jù)是冗長的和費(fèi)時(shí)的,因此迫切需要把信息搜索和檢索任務(wù)轉(zhuǎn)移到自動化系統(tǒng)。
在大的非結(jié)構(gòu)性視頻內(nèi)容的歸檔中的搜索和檢索通常是在通過使用內(nèi)容分析技術(shù)給內(nèi)容加索引后根據(jù)諸如上述的那樣的算法來執(zhí)行的。檢測所提到的目標(biāo)(例如,面部、疊加的文本)的存在和位置,以及在視頻幀中跟蹤它們,是用于對內(nèi)容進(jìn)行自動注解和尋址的重要任務(wù)。在沒有目標(biāo)的可能位置的任何已有知識的情況下,目標(biāo)檢測算法需要掃描整個(gè)幀,所以,相當(dāng)消耗計(jì)算資源。
發(fā)明概要本發(fā)明的目的是提出一種允許通過查看流語義而以更好的計(jì)算效率來檢測在H.264/AVC視頻中感興趣區(qū)域(ROI)編碼的使用的方法。
為此,本發(fā)明涉及諸如在本說明的引言段落中規(guī)定的處理方法,該方法包括以下步驟-對于當(dāng)前幀的每個(gè)分片,確定有關(guān)的分片編碼參數(shù)和與在每個(gè)分片中被編碼的各區(qū)域之間的空間關(guān)系有關(guān)的參數(shù);-收集對于當(dāng)前幀的所有接連的分片的所述參數(shù),以便傳遞與所述參數(shù)有關(guān)的統(tǒng)計(jì)特性;-分析所述統(tǒng)計(jì)特性,以便確定在所述當(dāng)前幀中的感興趣區(qū)域(ROI);-使得能選擇性地使用以這樣確定的感興趣區(qū)域?yàn)槟繕?biāo)的編碼數(shù)據(jù)。
包括這種技術(shù)解決方案的內(nèi)容分析算法(例如,面部檢測,對象檢測等等)可以把焦點(diǎn)集中在感興趣區(qū)域,而不是盲目地掃描整個(gè)圖像。替換地,內(nèi)容分析算法可以并行地應(yīng)用于不同區(qū)域,這將提高計(jì)算效率。
附圖簡述現(xiàn)在參照附圖作為例子描述本發(fā)明,其中圖1顯示視頻序列的GOP的例子,并顯示所述GOP的B圖像的雙向預(yù)測;圖2顯示在H.263比特流語義的情形下在這些層中使用的序列和某些碼字各層的分級結(jié)構(gòu);圖3給出當(dāng)使用靈活的宏塊排序時(shí)把圖像再劃分成分片的某些例子;圖4是為實(shí)施按照本發(fā)明的處理方法的設(shè)備的例子的框圖;圖5顯示一個(gè)來自視頻序列的摘錄,其中使用FMO的ROI編碼是方便的;圖6和7顯示在H.264視頻中對可能的感興趣區(qū)域進(jìn)行定位的策略的例子和能夠檢測感興趣區(qū)域編碼的處理步驟。
發(fā)明詳細(xì)說明考慮到所描述的FMO靈活地把圖像分片的能力,預(yù)期FMO將廣泛地用于ROI編碼類型。這種編碼涉及到視頻或圖像分段的、取決于內(nèi)容的非均等的編碼(例如,在視頻會議應(yīng)用中獲取講話人的面部的圖像區(qū)域比起背景可以用更好的質(zhì)量被編碼)。FMO在這里可以下列方式來應(yīng)用,即在每個(gè)圖像中分開的分片被指定給包括面部的區(qū)域,并且在這樣的分片中還可以選擇更小的量化步驟來增強(qiáng)圖像質(zhì)量。
根據(jù)這個(gè)考慮,建議分析在視頻流中FMO的使用以作為一個(gè)表明ROI編碼被應(yīng)用于視頻流的某些部分的措施。為了增強(qiáng)ROI指示和最終使能檢測ROI邊界,把FMO信息與從分片標(biāo)題提取的信息和可能在視頻流中表征分片的其它數(shù)據(jù)相組合。這個(gè)附加信息可以涉及到分片的物理屬性,諸如大小和圖像中的相對位置,或涉及編碼判決,諸如在分片中包含的宏塊的缺省的量化尺度(例如,圖2上的“GQUANT”)。因此,中心思想是分析在一系列接連的圖像中與FMO有關(guān)的語義單元的統(tǒng)計(jì)特性和分片層的信息。一旦觀察到在這些統(tǒng)計(jì)特性中某些一致性或模式,這就是對該部分內(nèi)容中ROI編碼的一個(gè)良好的指示。例如,在視頻會議中使用上述FMO可以通過這樣的方法而容易地被檢測。
從所建議的ROI編碼的檢測可以很大地獲益的一個(gè)應(yīng)用是內(nèi)容分析。例如,在許多應(yīng)用中內(nèi)容分析的典型目標(biāo)是面部識別,在這之前的通常是分開地執(zhí)行的面部檢測。這里描述的方法特別地可以在后被利用,以使得面部檢測算法目標(biāo)以幾個(gè)最重要的分片為目標(biāo),而不是盲目地應(yīng)用到整個(gè)圖像。替換地,算法可以并行地應(yīng)用于不同的分片,這提高計(jì)算效率。ROI編碼也可用于除了視頻會議以外的其它應(yīng)用。例如,在電影情景下,部分內(nèi)容常常是焦點(diǎn)對準(zhǔn)的,而其它內(nèi)容是焦點(diǎn)沒有對準(zhǔn)的,這常常相應(yīng)于情景中的前景和背景的區(qū)分。因此,可以相信這些部分可以被分開和在編輯處理過程期間被不等地編碼。藉助于本方法檢測ROI編碼可以有助于使得更能選擇性地使用內(nèi)容分析算法。
用于實(shí)施按照本發(fā)明的方法處理設(shè)備顯示于圖4,圖上顯示例如在H.264/AVC比特流的情形下的以前說明的概念(然而,所述例子并不是限制本發(fā)明的范圍)。在所顯示的設(shè)備中,多路分接器41接收輸送流TS,并生成分接的音頻和視頻流AS和VS。音頻流AS被發(fā)送到音頻譯碼器52,它生成如在說明中在后面描述的(在電路44和45中)經(jīng)過處理的譯碼音頻流DAS。視頻流VS由H.264/AVC譯碼器42接收,以便傳遞出一個(gè)也由電路44接收的譯碼的視頻流DVS。這個(gè)譯碼器42主要包括熵譯碼電路421、逆量化電路422、逆變換電路423(逆DCT電路)和運(yùn)動補(bǔ)償電路424。在譯碼器42中,視頻流VS也由所謂的網(wǎng)絡(luò)摘取單元(NALU)425所接收,后者是提供來收集與FMO有關(guān)的所接收的編碼參數(shù)用的。
所述單元425的輸出信號是與FMO有關(guān)的統(tǒng)計(jì)信息。所述信息由ROI檢測和識別電路43接收,該電路把這個(gè)FMO信息與從熵譯碼電路421提取的和與圖像的分片的某些結(jié)構(gòu)屬性(諸如它們的大小和它們在圖像上的相對位置、在某個(gè)分片內(nèi)宏塊的缺省量化尺度、表征FMO的宏塊到組的映射等等,所述屬性被稱為分片編碼參數(shù))有關(guān)的信息相組合??梢灾赋?,F(xiàn)MO信息是由一個(gè)參數(shù)組傳送的,該參數(shù)組取決于應(yīng)用和輸送協(xié)議而可以被復(fù)接到H.264/AVC流或被分開地輸送到可靠的信道RCH,如圖4的虛線所示。
如上所述,本發(fā)明的原理是分析在一系列接連的圖像內(nèi)與FMO有關(guān)的語義單元的統(tǒng)計(jì)特性和分片層信息(和有可能在流中表征分片的其它數(shù)據(jù)),所述分析例如是基于與預(yù)定的閾值的比較結(jié)果。例如,將檢查FMO的存在,并且將分析沿多個(gè)接連的圖像的分片的數(shù)目、相對位置和大小可能改變的量,考慮到在編碼流中ROI使用的檢測和識別的所述分析是在ROI檢測和識別電路43中完成的。在H.264標(biāo)準(zhǔn)的情形下,本發(fā)明的中心思想是通過檢測沿一系列接連的H.264編碼的圖像的FMO的使用來檢測潛在的ROI,和利用對數(shù)量的統(tǒng)計(jì)分析(這樣的靈活的分片的數(shù)目、相對位置和大小的數(shù)量是會隨不同的圖像而改變的)。所有的相關(guān)的信息可以通過分析來自H.264比特流的相關(guān)的語義單元而被提取。下面的圖5到7顯示一個(gè)例子。
圖5顯示來自視頻序列的摘錄,其中ROI編碼可能是方便的(在說明性例子中,該摘錄包括序列的幀號1,10,50和100)。ROI(在這種情形下,是面部)可以通過使用例如在(a)和(b)上顯示的那樣的FMO分片而與背景分開,任選項(xiàng)(a)對于每個(gè)面部明顯地會提供改變編碼判決即圖像質(zhì)量的更多任選項(xiàng)。ROI到FMO分片結(jié)構(gòu)的幾個(gè)映射是可以做到的。顯然,ROI(在本例中,是面部)和它們在每個(gè)圖像上的空間位置在大量圖像內(nèi)可以是相當(dāng)靜止的。因此,F(xiàn)MO分片結(jié)構(gòu)(即,每個(gè)分片組的相對大小和位置)也預(yù)期隨不同的圖像不會有太多改變。
圖6和7粗略地顯示了能夠如建議的那樣檢測ROI編碼的處理步驟?;旧?,它們顯示在H.264視頻中用于定位潛在的ROI的可能的策略(并且尤其是用于在視頻會議和視頻電話應(yīng)用中的面部跟蹤),以及它們給出圖4的ROI檢測和識別電路43的更詳細(xì)的視圖,這里重新使用了其中的某些符號表示。在本例中,通過分析一個(gè)到來的H.264比特流所提取的“FMO與分片信息”將主要涉及到-在流中任何圖像的大小,或多個(gè)接連的圖像的大小和速率(經(jīng)由圖像參數(shù)組分別被輸送);-有關(guān)指定圖像中每個(gè)宏塊給分片組的信息(被包含在宏塊分配映射中,即,在MBA映射中);-有關(guān)圖像中每個(gè)宏塊的編碼質(zhì)量的信息,例如關(guān)于宏塊量化尺度的編碼判決;通過使用這個(gè)信息和下列事實(shí),即宏塊的尺寸是固定的和已知是16×16像素,可以得出相關(guān)的信息,諸如-在每個(gè)圖像中分片的數(shù)目;-在每個(gè)分片中宏塊掃描模式,例如“棋盤板”對“矩形與填充的”(見圖3);-在圖像上每個(gè)“矩形與填充的”分片的大小和相對位置(即,與圖像邊界的距離);-在單個(gè)分片內(nèi)宏塊級別編碼判決的統(tǒng)計(jì)特性(例如,宏塊量化參數(shù));-在分片級別編碼判決中的類似性/差異性(例如,在分片中所有的宏塊的平均量化參數(shù))。
上述的信息顯然對于檢測按照圖5的面部的ROI編碼是足夠的。
通過查看如何評估相關(guān)的信息以達(dá)到最后的判決的更多的細(xì)節(jié),可以得到不同的策略。在顯示電路43的例子的圖6上,作為一個(gè)選項(xiàng)顯示了在一個(gè)或多個(gè)分析61(1),...,61(i),...,61(N)之間的切換(實(shí)際上,在同一個(gè)設(shè)備上特別是用軟件來實(shí)現(xiàn)不同的分析器肯定是可行的)。監(jiān)管選擇分析器用的外部信息例如可以是該應(yīng)用的表示法或知識。所以,可以設(shè)想本系統(tǒng)可以事先知道到來的H.264比特流究竟是相應(yīng)于,比如說,視頻會議的記錄還是來自DVD電影情景的對話(如上所述,這樣的線索也可以通過施加“外部”內(nèi)容分析而獲得,而且這也牽涉到與H.264視頻伴隨的音頻數(shù)據(jù))。
現(xiàn)在描述專用ROI分析器的可能的實(shí)施例的例子。圖7給出顯示的實(shí)施方案的簡化圖,取視頻會議/視頻電話作為例子(這個(gè)例子顯然不是對本發(fā)明的范圍的限制,根據(jù)該確切的應(yīng)用可以設(shè)想其它的例子)。對判決邏輯的說明是直截了當(dāng)?shù)?,因?yàn)榭紤]到在這些應(yīng)用中,最常見的是在一定時(shí)間內(nèi)只有一個(gè)說話者是在圖像內(nèi),而且在攝取圖像時(shí)照相機(jī)的少量移動。由于ROI編碼典型地被利用來把講話人與背景分隔開,可以預(yù)期圖像分片結(jié)構(gòu)僅僅隨時(shí)間逐漸改變?!捌灞P板”宏塊排序的重要性通過下列事實(shí)來說明即使在丟失兩個(gè)分片組(圖3的分片組#0或分片組#1)之一時(shí),每個(gè)丟失的(靠內(nèi)部的)MB也具有四個(gè)相鄰的MB可被用來抵消丟失的信息。所以,這種結(jié)構(gòu)對于在易于出錯(cuò)的環(huán)境下的ROI編碼似乎非常有吸引力。顯然,對于電影對話中的面部檢測可以采用不同的策略,這取決于預(yù)期數(shù)目的說話者(例如,藉助于語音檢測和說話者跟蹤/驗(yàn)證而被預(yù)先估計(jì))。另外,在同時(shí)組合更多的準(zhǔn)則和判決時(shí),可以實(shí)施更加復(fù)雜的判決邏輯。
在圖6的分析器61(1)到61(N)的任一項(xiàng)中的判決邏輯例如可以通過圖7所示的一組步驟被顯示。在所述的圖7上,QUANT是用于量化參數(shù)的符號表示,它的選擇直接反映編碼處理的質(zhì)量,即,圖像質(zhì)量(通常,量化步距越小,質(zhì)量越好)。所以,如果在給定的分片中對于所有的塊的平均量化是一致地和充分地低于在圖像上任何地方的平均量化,則這意味著這個(gè)分片可能以更好的質(zhì)量被精細(xì)地編碼,所以可以包含ROI(在圖5的例子中,如果平均QUANT例如對于分片組#0是24.43和對于分片組#1是16.2,并且閾值例如被設(shè)置為1.5,則條件滿足,因?yàn)?4.43/16.2=1.5;然而,用于測試QUANT的其它結(jié)構(gòu)也是可能的)。還可以附加上QUANT的選擇僅僅是直接反映圖像質(zhì)量的可能的編碼判決之一。另一個(gè)選擇例如是用于宏塊或其子塊的內(nèi)部的/相互的判決如果大量宏塊在同一個(gè)分片中被重復(fù)地內(nèi)部編碼,即,即使在相互的B和P圖像中也無需在時(shí)間上參考相鄰的圖像,這可以表明分片是更經(jīng)常被刷新的以避免積累運(yùn)動估計(jì)誤差,并且因而可以對應(yīng)于一個(gè)ROI。其它可能的編碼判決仍舊可以在H.264中被選擇以便反映編碼質(zhì)量。
在參照圖7顯示的例子中,分析器61(1)到61(N)的任一項(xiàng)中的判決邏輯例如可以包括以下步驟輸入序列P={Pi-N,…,Pi-2,Pi-1,Pi};701在所述序列中具有相同數(shù)目分片的接連的圖像數(shù)目大于給定的閾值T嗎?如果不是,退出或取新的輸入序列(=步驟710);如果是的話,則進(jìn)行步驟702(即,考慮子序列Q={Pj,...,Pk}),接著進(jìn)行步驟703703在Q的圖像中分片數(shù)目大于2嗎?如果不是,進(jìn)行步驟710;如果是的話,則進(jìn)行步驟704(即,考慮在Q中來自Pk的分片Sj),接著進(jìn)行步驟705705沿著Q的所有的圖像測量的Sj的尺寸和相對位置的方差低于數(shù)值Y?如果不是,進(jìn)行步驟706(或步驟707);如果是的話,則進(jìn)行步驟708706分片Sj具有棋盤板MB分配嗎?如果不是,進(jìn)行步驟707;如果是的話,則進(jìn)行步驟708707在Sj中的QUANT數(shù)值是否相對地更大(它是按照一個(gè)大于閾值R的倍數(shù)而增大的)?如果是的話,則進(jìn)行步驟708708(從步驟705,706,707的輸出中)接收到3個(gè)“是”中的至少2個(gè)“是”嗎?如果不是,進(jìn)行步驟710;如果是的話,則進(jìn)行步驟709,即,已經(jīng)檢測到“在子序列Q的分片Si中包括潛在的ROI”。
不過,從以上可以看到,這些例子不限制本發(fā)明的范圍,并且可以實(shí)施更精巧的判決邏輯(例如,模糊邏輯)。
一旦確定統(tǒng)計(jì)特性的一致性,它就是在該部分內(nèi)容中ROI編碼的一個(gè)良好的指示即分片與ROI一致,并且把這個(gè)信息傳送去增強(qiáng)在內(nèi)容分析電路44中執(zhí)行的內(nèi)容分析。所以,電路44接收電路43的輸出(藉助于連接(1)而發(fā)送的控制信號)、由譯碼器42的運(yùn)動補(bǔ)償電路424傳遞的譯碼的視頻流DVS、以及由音頻譯碼器52傳遞的譯碼的音頻流DAS,并根據(jù)所述信息來識別某些內(nèi)容的類型(諸如,新聞、音樂片段、體育運(yùn)動等等)。內(nèi)容分析電路44的輸出由元數(shù)據(jù)組成,即,由例如以通常所使用的CPI(特征點(diǎn)信息)表的形式被存儲在文件45中的被包含在譯碼流中的不同的信息級別的描述數(shù)據(jù)組成。這些元數(shù)據(jù)于是對于諸如視頻概要和自動分章節(jié)那樣的應(yīng)用是可利用的(然而,可以回憶,本發(fā)明在視頻會議的情形下是特別有用的,其中通常的方法是檢測和跟蹤講話人的面部,以使得相應(yīng)于面部的圖像區(qū)域比起相應(yīng)于背景的區(qū)域來說,可以以更好的質(zhì)量或更魯棒地被編碼)。
在改進(jìn)的實(shí)施例中,內(nèi)容分析電路44的輸出可以(藉助于連接(2))被發(fā)回到ROI檢測和識別電路43,這可提供有關(guān)例如ROI編碼在該內(nèi)容中的可能性的附加線索。
權(quán)利要求
1.一種處理數(shù)字編碼的視頻數(shù)據(jù)的方法,該數(shù)字編碼的視頻數(shù)據(jù)可以以一個(gè)包含被劃分成分片的接連的幀的視頻流的形式而得到,所述幀至少包括不參照其它幀而被編碼的I幀、在時(shí)間上位于所述I幀之間并至少從以前的I或P幀預(yù)測的P幀、以及B幀,這些B幀在時(shí)間上位于I幀與P幀之間或位于兩個(gè)P幀之間并且這些B幀從它們所處在其間的至少這些雙幀被雙向預(yù)測,所述處理方法包括以下步驟-對于當(dāng)前幀的每個(gè)分片,確定有關(guān)的分片編碼參數(shù)和與在每個(gè)分片中被編碼的各區(qū)域之間的空間關(guān)系有關(guān)的參數(shù);-收集對于當(dāng)前幀的所有接連的分片的所述參數(shù),以便傳遞與所述參數(shù)有關(guān)的統(tǒng)計(jì)特性;-分析所述統(tǒng)計(jì)特性,以便確定在所述當(dāng)前幀中的感興趣區(qū)域(ROI);-使得能選擇性地使用以這樣確定的感興趣區(qū)域?yàn)槟繕?biāo)的編碼的數(shù)據(jù)。
2.按照權(quán)利要求1的處理方法,其中所處理的視頻流的句法和語義是H.264/AVC標(biāo)準(zhǔn)的句法和語義。
3.一種用于處理數(shù)字編碼視頻數(shù)據(jù)的設(shè)備,該數(shù)字編碼視頻數(shù)據(jù)可以以一個(gè)包含被劃分成分片的接連的幀的視頻流的形式而得到,所述幀至少包括不參照其它幀而被編碼的I幀、在時(shí)間上位于所述I幀之間并至少從以前的I或P幀預(yù)測的P幀、以及B幀,這些B幀在時(shí)間上位于I幀與P幀之間或位于兩個(gè)P幀之間并且這些B幀從它們所處在其間的至少這些雙幀被雙向預(yù)測,所述設(shè)備包括以下裝置-確定裝置,被提供來用于對當(dāng)前幀的每個(gè)分片確定有關(guān)的分片編碼參數(shù)和與在每個(gè)分片中被編碼的各區(qū)域之間的空間關(guān)系有關(guān)的參數(shù);-收集裝置,被提供來用于收集對于當(dāng)前的幀的所有的接連的分片的所述參數(shù),以便傳遞與所述參數(shù)有關(guān)的統(tǒng)計(jì)特性;-分析裝置,被提供來用于分析所述統(tǒng)計(jì)特性以便確定在所述當(dāng)前幀中的感興趣區(qū)域(ROI);-驅(qū)動裝置,被提供來使得能選擇性地使用以這樣確定的感興趣區(qū)域?yàn)槟繕?biāo)的編碼的數(shù)據(jù)。
4.一種用于被安排來處理數(shù)字編碼的視頻數(shù)據(jù)的視頻處理設(shè)備的計(jì)算機(jī)程序產(chǎn)品,該數(shù)字編碼的視頻數(shù)據(jù)可以以一個(gè)包含被劃分成分片的接連的幀的視頻流的形式而得到,所述幀至少包括不參照其它幀而被編碼的I幀、在時(shí)間上位于所述I幀之間并至少從以前的I或P幀預(yù)測的P幀、以及B幀,這些B幀在時(shí)間上位于I幀與P幀之間或在兩個(gè)P幀之間并且這些B幀從它們所處在其間的至少這些雙幀被雙向預(yù)測,所述計(jì)算機(jī)程序產(chǎn)品包括一組可以由計(jì)算機(jī)執(zhí)行的指令,這些指令在裝載到視頻處理設(shè)備時(shí)使得所述視頻處理設(shè)備實(shí)現(xiàn)以下步驟-對于當(dāng)前幀的每個(gè)分片,確定有關(guān)的分片編碼參數(shù)和與在每個(gè)分片中被編碼的各區(qū)域之間的空間關(guān)系有關(guān)的參數(shù);-收集對于當(dāng)前幀的所有接連的分片的所述參數(shù),以便傳遞與所述參數(shù)有關(guān)的統(tǒng)計(jì)特性;-分析所述統(tǒng)計(jì)特性,以便確定在所述當(dāng)前幀中的感興趣區(qū)域(ROI);-使得能選擇性地使用以這樣確定的感興趣區(qū)域?yàn)槟繕?biāo)的編碼的數(shù)據(jù)。
全文摘要
本發(fā)明涉及一種處理數(shù)字編碼的視頻數(shù)據(jù)的方法,該數(shù)字編碼視頻數(shù)據(jù)可以以一個(gè)包含劃分成分片的接連幀的視頻流的形式而得到。這些幀至少包括不參照其它幀而被編碼的I幀、在時(shí)間上位于所述I幀之間并至少從以前的I或P幀預(yù)測的P幀、以及B幀,這些B幀在時(shí)間上位于I幀與P幀之間或位于兩個(gè)P幀之間并從它們所處在其間的至少這些雙幀被雙向預(yù)測。處理方法包括以下步驟對于當(dāng)前幀的每個(gè)分片確定有關(guān)的分片編碼參數(shù)和與在每個(gè)分片中被編碼的各區(qū)域之間的空間關(guān)系有關(guān)的參數(shù);收集對當(dāng)前幀的所有接連的分片的所述參數(shù),以便傳遞與所述參數(shù)有關(guān)的統(tǒng)計(jì)特性;分析所述統(tǒng)計(jì)特性以便確定在所述當(dāng)前幀中的感興趣區(qū)域(ROI);以及使得能選擇性地使用以這樣確定的感興趣區(qū)域?yàn)槟繕?biāo)的編碼的數(shù)據(jù)。
文檔編號G06K9/00GK101053258SQ200580037756
公開日2007年10月10日 申請日期2005年10月28日 優(yōu)先權(quán)日2004年11月4日
發(fā)明者D·布拉澤羅維克, M·巴比里 申請人:皇家飛利浦電子股份有限公司