視頻編碼中運(yùn)動(dòng)信息管理的裝置與方法
【專利說明】視頻編碼中運(yùn)動(dòng)信息管理的裝置與方法
[0001]【與相關(guān)申請(qǐng)的交叉引用】
[0002]本發(fā)明主張序列號(hào)為61/744,890并申請(qǐng)于2012年10月3日,標(biāo)題為“Mot1nInformat1n Management for Video Coding”的美國臨時(shí)專利申請(qǐng),以及序列號(hào)為61/714,359 并申請(qǐng)于 2012 年 10 月 16 日,標(biāo)題為 “Mot1n Informat1n Management forVideo Coding”的美國臨時(shí)專利申請(qǐng)的優(yōu)先權(quán)。將這些美國臨時(shí)專利申請(qǐng)的權(quán)利完全納入?yún)⒖贾小?br>技術(shù)領(lǐng)域
[0003]本發(fā)明涉及三維視頻編碼(three-Dimens1nal Video Coding)以及可擴(kuò)展視頻編碼(Scalable Video Coding,SVC)。特別地,本發(fā)明涉及與時(shí)域運(yùn)動(dòng)向量預(yù)測(cè)(Temporal Mot1n Vector Predict1n,TMVP)有關(guān)的運(yùn)動(dòng)信息管理(mot1n informat1nmanagement),以便減少所需要的緩存的大小。
【背景技術(shù)】
[0004]于高級(jí)視頻編碼,例如:高效視頻編碼(High Efficiency Video Coding, HE VC),時(shí)域運(yùn)動(dòng)參數(shù)(例如運(yùn)動(dòng)向量(mot1n vector,MV),參考索引(reference index),預(yù)測(cè)模式)被用于MV預(yù)測(cè)。因此,用于先前圖片(prev1us picture)的運(yùn)動(dòng)參數(shù)需要被儲(chǔ)存在運(yùn)動(dòng)參數(shù)緩存(mot1n parameter buffer)中。然而,因?yàn)檫\(yùn)動(dòng)表示(mot1nrepresentat1n)的粒度(granularity)與4x4—樣小,所以運(yùn)動(dòng)參數(shù)緩存的大小變得非常重要。每個(gè)預(yù)測(cè)單元(predict1n unit,PU)有兩個(gè)運(yùn)動(dòng)向量需要被儲(chǔ)存以用于B片(b1-predicted slice,雙向預(yù)測(cè)片)。另一方面,因?yàn)閳D片的大小持續(xù)的增長,由于不僅需要儲(chǔ)存更多的運(yùn)動(dòng)向量,而且每個(gè)向量需要更多的比特來表示運(yùn)動(dòng)向量,所以存儲(chǔ)器問題變得更加糟糕。例如,對(duì)于圖片大小為4k X 2k的視頻,所估計(jì)的用于MV的存儲(chǔ)大約為每張圖片26M比特,且實(shí)際大小將取決于所提供的分辨率以及最大MV。
[0005]為了減少運(yùn)動(dòng)參數(shù)緩存的大小,對(duì)于運(yùn)動(dòng)參數(shù)的壓縮技術(shù)被用于基于高效視頻編碼的系統(tǒng)中,其儲(chǔ)存來自具有較低空間分辨率(lower spatial resolut1n)的先前圖片(prev1us picture)的已編碼運(yùn)動(dòng)信息。對(duì)于運(yùn)動(dòng)參數(shù)的壓縮技術(shù)使用抽取(decimat1n)來減少需要儲(chǔ)存的運(yùn)動(dòng)向量的數(shù)量。已抽取的運(yùn)動(dòng)向量與代替4x4的更大的粒度有關(guān)。在壓縮過程中,用運(yùn)動(dòng)參數(shù)緩存替代已編碼的運(yùn)動(dòng)向量緩存,運(yùn)動(dòng)參數(shù)緩存具有減小的緩存以儲(chǔ)存對(duì)應(yīng)于較低空間分辨率(即,更大的粒度)的運(yùn)動(dòng)向量。每個(gè)已壓縮的向量按照按分量逐位抽取(component-wise decimat1n)來計(jì)算。
[0006]于高效視頻編碼中,運(yùn)動(dòng)信息壓縮是使用如圖1所示的抽取方法來實(shí)現(xiàn),其中,每個(gè)小的方形塊(square block)包含4x4像素。在此示例中,對(duì)每個(gè)包含16x16像素(正如一個(gè)厚箱子)的區(qū)域執(zhí)行運(yùn)動(dòng)信息壓縮。如陰影區(qū)域所示的代表塊(representative block)被選擇,且每個(gè)16x16區(qū)域中的所有的塊共享(share)相同的運(yùn)動(dòng)向量、參考圖片索引以及代表塊的預(yù)測(cè)模式。于圖1所示,整個(gè)16x16區(qū)域的上方左側(cè)的4x4的塊被作為代表塊使用。換句話說,16個(gè)塊共享相同的運(yùn)動(dòng)信息。因此,在此示例中實(shí)現(xiàn)了 16:1的運(yùn)動(dòng)信息壓縮。
[0007]三維視頻編碼被用于編碼/解碼多個(gè)視圖(view)的視頻,其中,多個(gè)視圖是同時(shí)由對(duì)應(yīng)于不同視圖的相機(jī)捕獲(capture)。因?yàn)樗邢鄼C(jī)是從不同的視角(viewpoint)捕獲相同的場(chǎng)景(scene),所以多視圖視頻包含大量視圖間冗余(inter-viewredundancy)。為了共享相鄰視圖的先前已編碼的質(zhì)地(texture),視差補(bǔ)償預(yù)測(cè)(Disparity-Compensated Predict1n,以下簡稱為DCP)被加入到備選的運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)(Mot1n-Compensated Predict1n,以下簡稱為MCP)中。MCP是關(guān)于使用相同視圖的先前已編碼圖片的圖片間預(yù)測(cè)(inter-picture predict1n),而DCP是關(guān)于使用相同訪問單元中其他視圖的先前已編碼圖片的圖片間預(yù)測(cè)。圖2顯示了結(jié)合MCP以及DCP的三維視頻編碼系統(tǒng)的示例。用于DCP的向量210被稱為視差向量(disparity vector,DV),其模擬用于MCP的運(yùn)動(dòng)向量。圖2顯示了與MCP相關(guān)的三個(gè)運(yùn)動(dòng)向量(220、230以及240)的示例。此外,DCP塊的視差向量還可由視差向量預(yù)測(cè)(Disparity Vector Predictor,以下簡稱為DVP)候選來預(yù)測(cè),DVP來源于相鄰塊(neighboring block)或也用于視圖間(inter-view)參考圖片的時(shí)域同位塊(temporal collocated block)。于HTM3.1(即,用于三維視頻編碼的基于測(cè)試模型版本3.1的高效視頻編碼),當(dāng)推導(dǎo)出用于合并模式/省略模式的視圖間合并候選(inter-view Merge candidate)時(shí),如果對(duì)應(yīng)塊的運(yùn)動(dòng)信息是不可用的或無效的,視圖間合并候選將由視差向量來替代。
[0008]為了共享相鄰視圖的先前已編碼的剩余信息(residual informat1n),當(dāng)前塊(PU)的剩余信號(hào)(residual signal)可由如圖3所示的視圖間圖片中對(duì)應(yīng)塊的剩余信號(hào)來預(yù)測(cè)。對(duì)應(yīng)塊可由相應(yīng)的視差向量DV來定位。對(duì)應(yīng)于特定照相機(jī)位置的視頻圖片以及深度圖(depth map)可用視圖標(biāo)識(shí)符(即,圖3所示的V0、Vl以及V2)來表示。屬于相同照相機(jī)位置的所有視頻圖片以及深度圖與相同視圖1D(即,視圖標(biāo)識(shí)符)是相關(guān)的。視圖標(biāo)識(shí)符被用于指定訪問單元(access unit)內(nèi)的編碼順序,并在易出錯(cuò)(error-prone)的環(huán)境中檢測(cè)缺失的視圖。一個(gè)訪問單元包含所有視頻圖片以及對(duì)應(yīng)于同一時(shí)刻(time instant)的深度圖。于訪問單元內(nèi),視圖1D等于O的視頻圖片以及任何相關(guān)的深度圖首先被編碼,隨后是視圖1D等于I的視頻圖片以及深度圖等。視圖1D等于O的視圖(即,圖3所示的V0)也被稱作基礎(chǔ)視圖(base view)或獨(dú)立視圖(independent view)?;A(chǔ)視圖視頻圖片可以不依賴任何其它的視圖并由傳統(tǒng)的高效視頻編碼的視頻編碼器來編碼。
[0009]如圖3所示,用于當(dāng)前塊的運(yùn)動(dòng)向量預(yù)測(cè)(mot1n vector predictor,以下簡稱為MVP)/DVP可以來源于視圖間圖片的視圖間塊(inter-view block)。在下文中,視圖間圖片的視圖間塊可被縮寫為視圖間塊。已推導(dǎo)出的候選(derived candidate)被稱為視圖間候選,其可以是視圖間MVP或DVP。此外,鄰近視圖中的對(duì)應(yīng)塊被稱為視圖間塊,且視圖間塊是使用來源于當(dāng)前圖片(current picture)中當(dāng)前塊的深度信息(depth informat1n)的視差向量來定位。
[0010]如以上所描述的,視差向量DV是用于視差向量預(yù)測(cè)、視圖間運(yùn)動(dòng)預(yù)測(cè)、視圖間剩余預(yù)測(cè)、DCP、或任何需要指示視圖間圖片之間聯(lián)系(correspondence)的其它編碼工具的三維視頻編碼的關(guān)鍵。
[0011]已壓縮的數(shù)字視頻被廣泛地使用于各種應(yīng)用,例如,于數(shù)字網(wǎng)絡(luò)上的視頻流以及于數(shù)字信道上的視頻傳送。單個(gè)視頻內(nèi)容經(jīng)常會(huì)于具有不同特性的網(wǎng)絡(luò)上傳送。例如,直播體育賽事可由用于高級(jí)視頻服務(wù)的寬帶網(wǎng)絡(luò)上的高帶寬流格式來承載。于這樣的應(yīng)用中,已壓縮的視頻通常能保持高分辨率以及高質(zhì)量,以使視頻內(nèi)容能夠適合于高清晰度裝置,例如:高清晰電視(HDTV)或高分辨率液晶顯示器。相同的內(nèi)容還可通過蜂窩數(shù)據(jù)網(wǎng)絡(luò)來承載,以使其內(nèi)容能夠于便攜式裝置(例如:智能電話或連接于網(wǎng)絡(luò)的便攜式媒體裝置)上被觀看。于這樣的應(yīng)用中,因?yàn)榫W(wǎng)絡(luò)帶寬影響以及智能電話或便攜式裝置上典型的低分辨率顯示,視頻內(nèi)容通常被壓縮到低分辨率以及低比特率(1wer bitrates) ο因此,對(duì)于不同的網(wǎng)絡(luò)環(huán)境以及不同的應(yīng)用,視頻分辨率以及視頻質(zhì)量的要求是相當(dāng)不同的。甚至對(duì)于同類型的網(wǎng)絡(luò),由于不同的網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)(network infrastructure)以及網(wǎng)絡(luò)傳輸條件(network traffic condit1n),用戶也可能體驗(yàn)不同的可用帶寬。因此,當(dāng)可用帶寬高時(shí),用戶可能期待接收更高質(zhì)量的視頻,但當(dāng)網(wǎng)絡(luò)擁塞發(fā)生時(shí),用戶可能期待接收低質(zhì)量但流暢的視頻。于另一場(chǎng)景,高端媒體播放器能夠處理高分辨率以及高比特率的已壓縮的視頻,而由于有限的計(jì)算資源,低成本媒體播放器只能處理低分辨率以及低比特率的已壓縮的視頻。因此,理想的狀況是以可擴(kuò)展方式(scalable manner)來構(gòu)造已壓縮的視頻,以便能夠根據(jù)相同的壓縮比特流(compressed bitstream)獲得于不同的空間時(shí)域分辨率(spatial-temporal resolut1n)和 / 或質(zhì)量的視頻。
[0012]ISO/IEC MPEG 以及 ITU-T VCEG 的聯(lián)合視頻工作組(Joint Video Team,JVT)把H.264/AVC標(biāo)準(zhǔn)的可擴(kuò)展視頻編碼(Scalable Video Coding,以下簡稱為SVC)擴(kuò)展作為標(biāo)準(zhǔn)。H.264/AVC定義的SVC比特流可包