專利名稱:基于深度圖像渲染的多通道視頻流編碼器和解碼器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及運動圖像處理技術(shù),尤其涉及一種基于深度圖像渲染的多通道 視頻流編碼器和解碼器。
背景技術(shù):
電視系統(tǒng)經(jīng)歷了從黑白到彩色,從模擬到數(shù)字的演化。發(fā)展至今的二維電 視系統(tǒng)提供給觀眾的是平面的影像,而三維電視系統(tǒng)將能夠提供給觀眾更為接 近自然視覺的觀看體驗。因此從二維系統(tǒng)到三維系統(tǒng)將是一個自然的,可期待 的演化,是對目前二維數(shù)字電視系統(tǒng)的發(fā)展。
對人類視覺系統(tǒng)(HVS, Human Visual System)的研究表明,雙眼觀察同一 物體時,形成的兩幅圖像存在視差。對人類立體視覺的形成存在兩個理論融 合理論(FusionTheory)認(rèn)為如果使雙眼分別觀察到存在差異,并且差異局限在 一定范圍內(nèi)的圖像,通過視覺融合,人類將形成立體視覺。抑制理論(Suppression Theory)認(rèn)為人類視覺系統(tǒng)在形成立體視覺的過程中,立體感和立體圖像整體質(zhì) 量取決于質(zhì)量較好的單眼圖像。Lew Stelmach等人設(shè)計的雙重激勵連續(xù)質(zhì)量尺 度(DSCQS, Double-Stimulus Continuous-Quality Scale)主觀測試實驗在一定程 度上證實了這一理論。
數(shù)字視頻技術(shù)隨著Internet和移動通信的迅猛發(fā)展獲得了日益廣泛的應(yīng)用, 但是數(shù)字視頻信息的信息量大,對傳輸網(wǎng)絡(luò)的帶寬要求高,所以一般將數(shù)字視 頻信號在存儲或者傳輸前先進(jìn)行壓縮編碼,以便節(jié)省存儲空間和網(wǎng)絡(luò)帶寬。
形成立體視覺至少需要兩個通道的數(shù)字視頻,目前的自由立體顯示器支持 多個觀眾同時觀看,其多個立體觀看點(立體視點)要求輸入多個通道的數(shù)字 視頻,因此一種好的編解碼方法需要考慮壓縮率、解碼重建后的圖像質(zhì)量、觀 眾的立體視覺體驗等多個因素,在有限帶寬的限制下,取得壓縮率和立體視點 圖像質(zhì)量的平衡。
目前對多(雙)通道數(shù)字視頻進(jìn)行編碼的方法大致可分為四類,第一類基 于MPEG視頻編碼標(biāo)準(zhǔn),第二類基于深度圖像渲染(DIBR, Depth-Image-Based Rendering)技術(shù),第三類基于對象編碼,第四類基于三維網(wǎng)格技術(shù)(3Dmesh)。
第一類方法基于MPEG視頻編碼標(biāo)準(zhǔn)。
MPEG-2的MVP (Multi-View Profile)使用時域伸縮工具(TS, Temporal Scalability tool),提供了對雙通道數(shù)字視頻(立體視頻)編碼的支持。MVP使用一種雙層編碼結(jié)構(gòu),將左視點通道作為基本層,右視點通道作為增強層。參
見X. Chen and A. Luthra, MPEG國2 Multi-View Profile and its application in 3DTV, in proceedings of SPIE, vol. 3021, pp. 212-223, 1997。采用MVP進(jìn)行多通道數(shù)字 視頻的編碼,其圖像幀預(yù)測結(jié)構(gòu)類似于目前國際上正在研究的多視點編碼標(biāo)準(zhǔn) (MVC, Muiti-view Video Coding)的圖像幀預(yù)測結(jié)構(gòu),但由于MVP采用MPEG-2 標(biāo)準(zhǔn)作為編碼工具,其編碼效率比不上目前的視頻編碼國際標(biāo)準(zhǔn)11.264/八丫(:。
2003年5月,由ITU-T和ISO/IEC的專家共同組成的聯(lián)合視頻小組JVT(Joint Video Team)制定了視頻編碼國際標(biāo)準(zhǔn)H.264/AVC。 H.264采用了混合編碼框架 結(jié)構(gòu),采用了最小4x4的可變塊運動預(yù)測、多個參考圖像幀、上下文自適應(yīng)的 二進(jìn)制算術(shù)編碼等等先進(jìn)技術(shù),同MPEG-2相比,在同樣圖像質(zhì)量的情況下, 可以取得更高的壓縮效率。
JVT目前正在研究制定多視點編碼(MVC, Muiti-view Video Coding)國際標(biāo) 準(zhǔn)。MVC利用了視點內(nèi)部和不同視點之間的圖像幀相關(guān)性,利用R264/AVC進(jìn) 行編碼壓縮,由于采用時間和空間的聯(lián)合預(yù)測編碼,同各個視點獨立編碼的聯(lián) 播(Simulcast)相比,目前實驗顯示,在不同的視頻內(nèi)容下,時空聯(lián)合編碼可 提高0.5dB到3dB的增益。參見R Merkle, A. Smolic and K. Muller, Efficient prediction structures for multiview video coding, IEEE Trans. CSVT, vol. 17, no. 11, pp. 1461-1473, 2007。
MVC使用視差預(yù)測來挖掘視點間的相關(guān)性。但因攝像機的安裝位置、拍攝 位置、光照條件的不同一性,攝取的多個視點的圖像幀的同一區(qū)域,其亮度和 色度存在不一致。這種不一致會影響視差預(yù)測的準(zhǔn)確度和編碼的效率, 一種解 決的方法是在匹配代價函數(shù)中加入亮度和色度補償項。參見J.H. Hur, S. Cho and Y.L. Lee, Adaptive local illumination change compensation method for H.264/AVC-based multiview video coding, IEEE Trans. CSVT, vol. 17, no. 11, pp. 1496-1505, 2007。
MVC的編碼結(jié)構(gòu)比較復(fù)雜,需要大的計算量、長的編碼延時和大的參考幀 存儲空間。MVC需要編碼每個視點通道,當(dāng)視點數(shù)目增加時,碼率也相應(yīng)增加。 MVC編碼、傳輸、解碼所有的視點,將拍攝圖像的尺寸和攝像機距離同顯示端 的圖像尺寸和觀看距離聯(lián)系在一起,這樣限制了顯示端觀看位置的靈活性。
2006, AVS (AdvancedVideo Coding Standard)被確定為視頻編碼國家標(biāo)準(zhǔn)。 AVS同樣采用混合編碼框架結(jié)構(gòu),采用了可變塊結(jié)構(gòu)、多個參考圖像幀、預(yù)縮 放的整數(shù)變換、算術(shù)編碼等等先進(jìn)技術(shù)。也可以采用AVS對多通道視頻流進(jìn)行編解碼。
第二類方法基于深度圖像渲染(DIBR)技術(shù)。
歐洲信息技術(shù)項目(1ST, Information Society Technologies)先進(jìn)三維電視系 統(tǒng)(ATTEST, Advanced Three-Dimensional Television System Technology)采用 了DIBR方法。參見C. Fehn, Depth-Image-Based Rendering(DIBR), compression and transmission for a new approach on 3D-TV, in Proceedings of SPIE, Stereoscopic Displays and Virtual Reality Systems XI, USA, pp. 93-104, 2004。
ATTEST系統(tǒng)在編碼端只編碼一個通道(中心通道)的二維視頻和該通道的 深度圖,在解碼端采用DIBR的方法,根據(jù)深度信息和攝像機參數(shù),把解碼恢復(fù) 的中心通道圖像幀投影到三維空間,再投影到虛擬攝像機的成像平面,由此重 建出多個虛擬的二維視頻通道。
DIBR利用一個通道的深度信息來渲染多個視頻通道,同MVC相比,可以取 得更高的壓縮率,而且不會產(chǎn)生由于相機位置和參數(shù)不同造成的亮度、色度不 匹配。但由于遮擋,渲染合成的虛擬視點通道圖像幀內(nèi)部會出現(xiàn)空洞,并且由 于虛擬視點圖像質(zhì)量的下降,在偏離中心位置的觀看位置,觀眾的立體視覺感 受將受影響。
減輕渲染合成的圖像幀內(nèi)部出現(xiàn)空洞的途徑目前有三個, 一是用空洞周圍的 紋理來填充空洞,二是對深度圖進(jìn)行濾波平滑,三是編碼傳輸多個通道的深度 圖,利用多個通道的圖像幀和深度圖來渲染同一虛擬視點的待合成圖像,四是 采用較為復(fù)雜的多層次深度圖(LDI, Layered Depth Image)技術(shù),參見S.U. Yoon and Y.S. Ho, Multiple color and depth video coding using a hierarchical representation,正EE Trans. CSVT, vol. 17, no. 11, 2007 。
第三類方法基于對象編碼。在MPEG-4當(dāng)中, 一個視頻對象可以用形狀 (shape)、運動(motion)、紋理(texture)三種特征來表示,可以用輔助元素(AC, Auxiliary Component)來存放視差圖。采用MPEG-4 MAC對雙通道視頻進(jìn)行編 碼時,通常,用標(biāo)準(zhǔn)MPEG-4編碼左路通道視頻,用MAC (Multiple Auxiliary Component)來存放,見差信息。參見S. Cho, K. Yun, C. Ahn and S. Lee, Disparity-Compensated stereoscopic video coding using the MAC in MPEG-4, RTRI Journal, vol. 27, no. 3, pp. 326-329, 2005。采用基于對象的編碼技術(shù)對自然場景編 碼時,需要分割提取場景中的多個物體,其算法復(fù)雜。
第四類方法基于三維網(wǎng)格(3D mesh)技術(shù)。采用三角形網(wǎng)格(Triangle mesh) 來分段線性近似物體表面,這種近似帶來的誤差同三角形網(wǎng)格數(shù)目密切相關(guān),網(wǎng)格數(shù)越多,誤差越小,但巨大數(shù)量的網(wǎng)格也為存儲和傳輸帶來問題。參見J丄.
Peng, C.S. Kim and C.C.J. Kuo, Technologies for 3D mesh compression: A survey, Journal of Visual Communication and Image Representation, vol. 16, no. 6, pp.688-733,2005。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于深度圖像渲染的多通道 視頻流編碼器和解碼器。
多通道視頻流編碼器包括
圖像校正單元,用于對輸入的多個通道視頻流圖像幀進(jìn)行校正,以使對應(yīng)
點位于水平掃描線上;
通道選擇單元,用于從輸入的多個視頻通道中選擇中心通道和輔助通道; 深度產(chǎn)生單元,用于生成中心通道和輔助通道視頻流內(nèi)每個圖像幀的深度
輔助通道預(yù)測單元,用于根據(jù)通道重建單元產(chǎn)生的重建幀,和深度產(chǎn)生單 元產(chǎn)生的深度圖,產(chǎn)生輔助通道圖像幀的預(yù)測中心通道編碼單元,用于對中心通道視頻流,和深度圖組成的深度流,按 照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行編碼,以生成中心通道碼流,視頻編碼標(biāo)準(zhǔn)方法包括 視頻編碼國際標(biāo)準(zhǔn)MPEG-X、 H.26X和視頻編碼國家標(biāo)準(zhǔn)AVS;
輔助通道編碼單元,用于對輔助通道圖像幀的遮擋圖按照視頻編碼標(biāo)準(zhǔn)方 法進(jìn)行編碼,以生成輔助通道碼流;
通道重建單元,用于對中心通道碼流和輔助通道碼流,按照視頻編碼標(biāo)準(zhǔn) 方法進(jìn)行解碼,以生成中心通道重建圖像幀、重建深度圖和輔助通道重建遮擋 圖,根據(jù)重建遮擋圖和輔助通道預(yù)測單元產(chǎn)生的輔助通道圖像幀的預(yù)測圖,產(chǎn) 生輔助通道重建幀;
復(fù)用器,用于將攝像機參數(shù)、中心通道碼流和輔助通道碼流,按照時分復(fù) 用方式,生成多通道視頻壓縮碼流。
所述的深度產(chǎn)生單元根據(jù)中心通道圖像幀,和與其鄰近的任意一個輔助通 道的同一時刻的圖像幀,產(chǎn)生中心通道該時刻圖像幀的深度圖;根據(jù)通道重建 單元產(chǎn)生的當(dāng)前通道的重建幀,和當(dāng)前通道的鄰近通道的同一時刻的重建幀, 產(chǎn)生當(dāng)前通道該時刻的重建幀的深度圖。
所述的輔助通道預(yù)測單元根據(jù)通道重建單元產(chǎn)生的重建幀,和深度產(chǎn)生單 元產(chǎn)生的該重建幀的深度圖,按照基于深度圖像渲染的方法,合成出該重建幀所在通道的鄰近通道的同 一時刻的圖像幀的預(yù)測圖。
所述的輔助通道編碼單元,對輔助通道圖像幀和輔助通道預(yù)測單元產(chǎn)生的 該圖像幀的預(yù)測圖作差,產(chǎn)生輔助通道遮擋圖,遮擋圖反映了由于遮擋而沒有 在預(yù)測圖上出現(xiàn)的信息。
多通道視頻流解碼器包括
解復(fù)用器,用于把多通道視頻壓縮碼流分解為攝像機參數(shù)、中心通道碼流 和輔助通道碼流;
中心通道解碼單元,用于對中心通道碼流,按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行解 碼,以生成中心通道重建圖像幀和重建深度圖,視頻編碼標(biāo)準(zhǔn)方法包括視頻編 碼國際標(biāo)準(zhǔn)MPEG-X、 H.26X和視頻編碼國家標(biāo)準(zhǔn)AVS;
深度產(chǎn)生單元,用于產(chǎn)生輔助通道重建圖像幀的深度通道預(yù)測單元,用于產(chǎn)生輔助通道圖像幀的預(yù)測圖,和虛擬通道圖像幀的
、輔助通道解碼單元,用于對輔助通道碼流,按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行解 碼,以生成輔助通道圖像幀的重建遮擋圖,對該重建遮擋圖和通道預(yù)測單元產(chǎn) 生的預(yù)測圖相加,以生成輔助通道的重建圖像幀;
圖像反校正單元,用于對解碼生成的中心通道重建圖像幀、輔助通道重建 圖像幀和虛擬通道預(yù)測圖像幀進(jìn)行反校正,以使各通道圖像幀恢復(fù)到拍攝的位 置。
所述的深度產(chǎn)生單元,根據(jù)輔助通道解碼單元產(chǎn)生的當(dāng)前輔助通道的重建 圖像幀,和當(dāng)前輔助通道的鄰近通道的同一時刻的重建圖像幀,產(chǎn)生當(dāng)前輔助 通道的該重建圖像幀的深度圖。
所述的通道預(yù)測單元,根據(jù)中心通道解碼單元產(chǎn)生的中心通道的重建圖像 幀和該圖像幀的深度圖,按照基于深度圖像渲染的方法,產(chǎn)生同中心通道鄰近 的輔助通道的同一時刻的圖像幀的預(yù)測圖;根據(jù)輔助通道解碼單元產(chǎn)生的當(dāng)前 輔助通道的重建圖像幀,和深度產(chǎn)生單元產(chǎn)生的該圖像幀的深度圖,按照基于 深度圖像渲染的方法,產(chǎn)生同當(dāng)前輔助通道鄰近的未重建的輔助通道的同一時 刻的圖像幀的預(yù)測圖。
所述的通道預(yù)測單元,在兩個鄰近通道的中心位置,根據(jù)該兩個通道的同 一時刻的重建圖像幀和深度圖,產(chǎn)生虛擬通道圖像幀的預(yù)測圖,該虛擬通道的 虛擬攝像機的光心處于其兩個鄰近通道的攝像機的光心的連線的中點,該虛擬 攝像機的光軸和中心通道的攝像機的光軸平行。所述的圖像反校正單元,對于輸入解碼器的N個通道的壓縮視頻流,輸出 2N-1個通道的非壓縮視頻流,其中包括解碼恢復(fù)出的N個通道的重建非壓縮視 頻流,和采用深度圖像渲染技術(shù)合成出的N-1個虛擬通道的非壓縮視頻流。
所述的圖像反校正單元,輸出的2N-1個通道分為重建通道和虛擬通道,對 N個重建通道,按其真實攝像機的相對位置順序排列,對虛擬通道,插入到與 該虛擬通道鄰近的兩個重建通道的中心位置;輸出的2N-1個通道,共可以產(chǎn)生 2N-2個立體視點觀看位置,每個立體視點觀看位置由一個重建通道和一個虛擬 通道組成。
在本發(fā)明的多通道視頻流編碼器中,對中心通道的視頻流和其深度圖組成 的深度流按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行編碼,挖掘了中心通道內(nèi)部圖像幀和圖像 幀在時間上的相關(guān)性、深度圖和深度圖在時間上的相關(guān)性;對輔助通道的圖像 幀,采用DIBR的方法合成出預(yù)測圖,對輔助通道圖像幀的遮擋圖按照視頻編碼 標(biāo)準(zhǔn)方法進(jìn)行編碼,挖掘了鄰近通道同一時刻的圖像幀在空間上的相關(guān)性。
在本發(fā)明的多通道視頻流解碼器中,采用DIBR方法,在兩個鄰近通道的中 心位置合成出一個虛擬通道的預(yù)測圖。該虛擬通道的預(yù)測圖根據(jù)兩個鄰近通道 的圖像幀和深度圖合成,預(yù)測圖質(zhì)量大為提高;解碼器輸入N個通道的壓縮碼 流,合成N-1個虛擬通道預(yù)測流,共可以輸出2N-1個通道的非壓縮碼流,由于 每兩個通道可以形成一個立體視點,因此增加了顯示端立體視點的數(shù)目;當(dāng)顯 示端支持多個立體視點時,每個立體視點包含一個圖像質(zhì)量較高的中心通道或 者輔助通道,和一個圖像幀質(zhì)量稍低的虛擬通道,觀眾將產(chǎn)生場景立體感不變 的視覺效果。
在本發(fā)明的多通道視頻流解碼器中,當(dāng)顯示端僅支持平面顯示時,可以將中 心通道或者任一輔助通道視頻流送至顯示單元顯示;當(dāng)顯示端支持雙通道立體 顯示時,可以將任意兩個鄰近通道送至顯示單元顯示;當(dāng)顯示端支持多個立體 視點時,可以至多將2N-1個通道送至顯示單元顯示,N為輸入解碼器的通道個 數(shù)。
采用本發(fā)明的編碼器和解碼器的三維電視系統(tǒng),在編碼端,利用視頻編碼標(biāo) 準(zhǔn)方法來挖掘視點內(nèi)部的相關(guān)性,利用深度渲染(DIBR)方法來挖掘視點之間 的相關(guān)性;在解碼端,利用DIBR方法和HVS的生理性質(zhì)來獲得更多的立體視 點。同MVC相比,該系統(tǒng)可以獲得更低的碼率,同ATTEST相比,觀眾可以獲 得更好的立體視覺體驗。
圖1為按照本發(fā)明的多通道視頻流編碼器示意圖; 圖2為按照本發(fā)明的多通道視頻流解碼器示意圖。
具體實施例方式
多通道視頻流編碼器包括
圖像校正單元,用于對輸入的多個通道視頻流圖像幀進(jìn)行校正,以使對應(yīng) 點位于水平掃描線上;
通道選擇單元,用于從輸入的多個視頻通道中選擇中心通道和輔助通道; 深度產(chǎn)生單元,用于生成中心通道和輔助通道視頻流內(nèi)每個圖像幀的深度
輔助通道預(yù)測單元,用于根據(jù)通道重建單元產(chǎn)生的重建幀,和深度產(chǎn)生單 元產(chǎn)生的深度圖,產(chǎn)生輔助通道圖像幀的預(yù)測中心通道編碼單元,用于對中心通道視頻流,和深度圖組成的深度流,按 照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行編碼,以生成中心通道碼流,視頻編碼標(biāo)準(zhǔn)方法包括 視頻編碼國際標(biāo)準(zhǔn)MPEG-X、 H.26X和視頻編碼國家標(biāo)準(zhǔn)AVS;
輔助通道編碼單元,用于對輔助通道圖像幀的遮擋圖按照視頻編碼標(biāo)準(zhǔn)方 法進(jìn)行編碼,以生成輔助通道碼流;
通道重建單元,用于對中心通道碼流和輔助通道碼流,按照視頻編碼標(biāo)準(zhǔn) 方法進(jìn)行解碼,以生成中心通道重建圖像幀、重建深度圖和輔助通道重建遮擋 圖,根據(jù)重建遮擋圖和輔助通道預(yù)測單元產(chǎn)生的輔助通道圖像幀的預(yù)測圖,產(chǎn) 生輔助通道重建幀;
復(fù)用器,用于將攝像機參數(shù)、中心通道碼流和輔助通道碼流,按照時分復(fù) 用方式,生成多通道視頻壓縮碼流。
所述的深度產(chǎn)生單元根據(jù)中心通道圖像幀,和與其鄰近的任意一個輔助通 道的同一時刻的圖像幀,產(chǎn)生中心通道該時刻圖像幀的深度圖;根據(jù)通道重建 單元產(chǎn)生的當(dāng)前通道的重建幀,和當(dāng)前通道的鄰近通道的同一時刻的重建幀, 產(chǎn)生當(dāng)前通道該時刻的重建幀的深度圖。
所述的輔助通道預(yù)測單元根據(jù)通道重建單元產(chǎn)生的重建幀,和深度產(chǎn)生單 元產(chǎn)生的該重建幀的深度圖,按照基于深度圖像渲染的方法,合成出該重建幀 所在通道的鄰近通道的同 一 時刻的圖像幀的預(yù)測圖。
所述的輔助通道編碼單元,對輔助通道圖像幀和輔助通道預(yù)測單元產(chǎn)生的 該圖像幀的預(yù)測圖作差,產(chǎn)生輔助通道遮擋圖,遮擋圖反映了由于遮擋而沒有 在預(yù)測圖上出現(xiàn)的信息。多通道視頻流解碼器包括
解復(fù)用器,用于把多通道視頻壓縮碼流分解為攝像機參數(shù)、中心通道碼流 和輔助通道碼流;
中心通道解碼單元,用于對中心通道碼流,按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行解 碼,以生成中心通道重建圖像幀和重建深度圖,視頻編碼標(biāo)準(zhǔn)方法包括視頻編
碼國際標(biāo)準(zhǔn)MPEG-X、 H.26X和視頻編碼國家標(biāo)準(zhǔn)AVS;
深度產(chǎn)生單元,用于產(chǎn)生輔助通道重建圖像幀的深度通道預(yù)測單元,用于產(chǎn)生輔助通道圖像幀的預(yù)測圖,和虛擬通道圖像幀的
、、輔助通道解碼單元,用于對輔助通道碼流,按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行解 碼,以生成輔助通道圖像幀的重建遮擋圖,對該重建遮擋圖和通道預(yù)測單元產(chǎn) 生的預(yù)測圖相加,以生成輔助通道的重建圖像幀;
圖像反校正單元,用于對解碼生成的中心通道重建圖像幀、輔助通道重建 圖像幀和虛擬通道預(yù)測圖像幀進(jìn)行反校正,以使各通道圖像幀恢復(fù)到拍攝的位 置。
所述的深度產(chǎn)生單元,根據(jù)輔助通道解碼單元產(chǎn)生的當(dāng)前輔助通道的重建 圖像幀,和當(dāng)前輔助通道的鄰近通道的同一時刻的重建圖像幀,產(chǎn)生當(dāng)前輔助 通道的該重建圖像幀的深度圖。
所述的通道預(yù)測單元,根據(jù)中心通道解碼單元產(chǎn)生的中心通道的重建圖像 幀和該圖像幀的深度圖,按照基于深度圖像渲染的方法,產(chǎn)生同中心通道鄰近 的輔助通道的同一時刻的圖像幀的預(yù)測圖;根據(jù)輔助通道解碼單元產(chǎn)生的當(dāng)前 輔助通道的重建圖像幀,和深度產(chǎn)生單元產(chǎn)生的該圖像幀的深度圖,按照基于 深度圖像渲染的方法,產(chǎn)生同當(dāng)前輔助通道鄰近的未重建的輔助通道的同一時 刻的圖像幀的預(yù)測圖。
所述的通道預(yù)測單元,在兩個鄰近通道的中心位置,根據(jù)該兩個通道的同 一時刻的重建圖像幀和深度圖,產(chǎn)生虛擬通道圖像幀的預(yù)測圖,該虛擬通道的 虛擬攝像機的光心處于其兩個鄰近通道的攝像機的光心的連線的中點,該虛擬 攝像機的光軸和中心通道的攝像機的光軸平行。
所述的圖像反校正單元,對于輸入解碼器的N個通道的壓縮視頻流,輸出 2N-1個通道的非壓縮視頻流,其中包括解碼恢復(fù)出的N個通道的重建非壓縮視 頻流,和采用深度圖像渲染技術(shù)合成出的N-1個虛擬通道的非壓縮視頻流。
所述的圖像反校正單元,輸出的2N-1個通道分為重建通道和虛擬通道,對N個重建通道,按其真實攝像機的相對位置順序排列,對虛擬通道,插入到與 該虛擬通道鄰近的兩個重建通道的中心位置;輸出的2N-1個通道,共可以產(chǎn)生 2N-2個立體視點觀看位置,每個立體視點觀看位置由一個重建通道和一個虛擬 通道組成。 實施例
圖1為按照本發(fā)明的多通道視頻流編碼器的示意圖。多通道視頻流編碼器對 輸入的多通道視頻流和攝像機參數(shù)進(jìn)行壓縮編碼,輸出編碼后的壓縮碼流。編 碼器包括圖像校正單元ll,通道選擇單元12,深度產(chǎn)生單元13,輔助通道預(yù)測 單元14,中心通道編碼單元15,輔助通道編碼單元16,通道重建單元17和復(fù) 用器18。
參見圖1,編碼器編碼多通道視頻流包括如下11個步驟
步驟l:圖像校正單元11接受輸入的多通道視頻流和攝像機參數(shù),按照標(biāo)準(zhǔn)
的校正算法,對圖像幀進(jìn)行校正。校正的結(jié)果是在同一時刻,對于不同通道的
圖像幀,其對應(yīng)點位于水平線上。
步驟2:通道選擇單元12對輸入的多個通道進(jìn)行分類,選出l個中心通道,
把余下的通道作為輔助通道。選擇中心通道的算法如下對拍攝獲得的N個通
道按順序記為l號,2號,...,N號,N為正整數(shù),N^2;選取c號通道作為中 心通道c = LN/2」+ l,符號L」表示下取整。把余下的N-1個通道作為輔助通道。
參見圖1,記中心通道視頻流圖像幀為Ic ,輔助通道視頻流圖像幀為Ia , 中心通道圖像幀的深度圖為Zc ,輔助通道圖像幀的深度圖為Za ,下標(biāo)a為正 整數(shù),滿足lSa^N,且a弁。
步驟3:深度產(chǎn)生單元13對同一時刻的Ie和Ia進(jìn)行立體匹配,以生成中心通 道該時刻的深度圖Zc , a可以取a^c-l或者a-c+l。
步驟4:中心通道編碼單元15按照視頻編碼標(biāo)準(zhǔn)方法對中心通道視頻流和深 度圖組成的深度流進(jìn)行編碼,生成中心通道碼流。
步驟5:通道重建單元17對中心通道碼流進(jìn)行解碼,生成中心通道重建視 頻流圖像幀和重建深度圖,分別記為I'c和Z'c 。
步驟6:輔助通道預(yù)測單元14,根據(jù)I,e和Z'e ,采用基于深度圖像渲染
(DIBR)的方法,合成出同中心通道鄰近的輔助通道的預(yù)測圖,記為Pa , a可 以取a=c-l或者a=c+l o
為描述方便起見,先取a:c-l,進(jìn)行步驟7到步驟10,再取a-c+l,進(jìn)行步 驟7到10。把滿足a〈c的a號輔助通道稱為左側(cè)輔助通道,把滿足a〉c的a號輔助通道稱為右側(cè)輔助通道。以下描述的編碼順序是先對左側(cè)輔助通道進(jìn)行 編碼,再對右側(cè)輔助通道進(jìn)行編碼。但以下描述不應(yīng)理解為是對本發(fā)明的限定, 實際上也可以先對右側(cè)輔助通道進(jìn)行編碼,再對左側(cè)輔助通道進(jìn)行編碼,或者 對左側(cè)、右側(cè)輔助通道交替進(jìn)行編碼。
步驟7:輔助通道編碼單元16首先對a號輔通道同一時刻的L和Pa作差, 產(chǎn)生a號通道的遮擋圖,記為Ra ,然后對Ra按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行編碼,
產(chǎn)生a號通道碼流。若a等于l,回到步驟6;若a等于N,跳到步驟11;若1< a<N,進(jìn)行下一步驟。
步驟8:通道重建單元17對a號通道碼流進(jìn)行解碼,產(chǎn)生a號通道的重建遮 擋圖,記為R、 ,R'a和Pj乍和,產(chǎn)生a號通道的重建視頻流的圖像幀,記為I、。
步驟9:深度產(chǎn)生單元13,根據(jù)輸入的a號通道的重建圖像幀I,a ,和與其 鄰近通道的重建圖像幀,生成a號通道重建圖像幀的深度圖,記為Z,a 。若3< c,則a+l號通道已先于a號通道被重建,單元13對1、和IV,進(jìn)行立體匹配, 以生成Z'a ;若a > c,則a-l號通道己先于a號通道被重建,單元13對1、和I'^ 進(jìn)行立體匹配,以生成Z,a 。
步驟10:輔助通道預(yù)測單元14,根據(jù)I,a和Z,a ,采用DIBR的方法,合成
出同a號通道鄰近的未編碼的輔助通道的預(yù)測圖,記該輔助通道為j號。若a〈c, j等于a一l,令a等于a-l;若a〉c, j等于a+l,令a等于a+l?;氐讲襟E7。
步驟ll:復(fù)用器18對攝像機參數(shù)、中心通道碼流和輔助通道碼流,按照時 分服用方式,生成N個通道的壓縮碼流。
通過以上ll個步驟,編碼器最終生成輸入的N個通道的壓縮碼流。在上述 的步驟6和步驟10中,輔助通道預(yù)測單元14采用重建圖像幀I'e(或者I、),和
重建深度圖Z,e (Z,a),而不是Ic (或者Ia)和Ze (或者Zj,來合成a號通道的 預(yù)測圖Pa ,是為了和解碼器保持一致性。
在上述的步驟7中,輔助通道編碼單元16對輔助通道的遮擋圖進(jìn)行編碼并 傳輸?shù)浇獯a端,可以補償由于采用DIBR方法合成預(yù)測圖而產(chǎn)生的空洞,在解碼 端重建出高質(zhì)量的輔助通道圖像幀。
圖2為按照本發(fā)明的多通道視頻流解碼器的示意圖。多通道視頻流解碼器對 輸入的壓縮碼流和攝像機參數(shù)進(jìn)行解碼,輸出解碼后的非壓縮視頻流和經(jīng)虛擬 通道合成的非壓縮視頻流。解碼器包括解復(fù)用器21,中心通道解碼單元22,深 度產(chǎn)生單元23,通道預(yù)測單元24,輔助通道解碼單元25,圖像反校正單元26。
參見圖2,解碼器解碼壓縮碼流包括如下8個步驟
14步驟l:解復(fù)用器21把輸入的壓縮碼流分解成攝像機參數(shù)、中心通道碼流和 輔助通道碼流。
步驟2:中心通道解碼單元22對輸入的中心通道碼流,按照視頻編碼標(biāo)準(zhǔn)方 法,解碼生成中心通道重建視頻流的圖像幀I'c和重建深度圖Z'c 。
步驟3:通道預(yù)測單元24根據(jù)輸入的I,c和Z,e ,采用DIBR方法,合成出 同中心通道鄰近的a號輔助通道的預(yù)測圖Pa , a可以取a=c-l或者a=c+l。
為描述方便起見,先取a:c-l,進(jìn)行步驟4到步驟7,再取^c+l,進(jìn)行步驟 4到步驟7。把a〈c的輔助通道稱為左側(cè)輔助通道,把a〉c的輔助通道稱為右 側(cè)輔助通道。以下描述的解碼順序是先對左側(cè)輔助通道進(jìn)行解碼,再對右側(cè)輔 助通道進(jìn)行解碼。但以下描述不應(yīng)理解為是對本發(fā)明的限定,實際上也可以先 對右側(cè)輔助通道進(jìn)行解碼,再對左側(cè)輔助通道進(jìn)行解碼,或者對左側(cè)、右側(cè)輔 助通道交替進(jìn)行解碼。
步驟4:輔助通道解碼單元25對輔助通道碼流,按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行 解碼,生成a號輔助通道的重建遮擋圖R、,對a號輔助通道的預(yù)測圖Pa和重 建遮擋圖R'a作和,生成a號輔助通道的重建圖像幀I,a 。
步驟5:深度產(chǎn)生單元23,根據(jù)輸入的a號通道重建圖像幀I,a ,和與其鄰 近的通道的同一時刻的重建圖像幀,生成a號通道該時刻重建圖像幀的深度圖 Z'a 。若a < c,則a+1號通道已先于a號通道被重建,深度產(chǎn)生單元23對I,a 和IV,進(jìn)行立體匹配,以生成Z,a;若a〉c,則a-l號通道已先于a號通道被 重建,深度產(chǎn)生單元23對I,a和I^進(jìn)行立體匹配,以生成Z、。
步驟6:通道預(yù)測單元24根據(jù)a號通道的重建圖像幀I、和深度圖Z、,和 與其鄰近的k號輔助通道同一時刻的重建圖像幀I'k和深度圖Z'k ,采用DIBR 的方法,合成出位于a號通道和k號通道中心位置的虛擬通道預(yù)測圖,記該虛 擬通道預(yù)測圖為Va ,該虛擬通道位置對應(yīng)一個虛擬攝像機,其光心位于a號通 道攝像機光心和k號通道攝像機光心的連線的中點位置,其光軸平行于中心通 道。若a〈c, k等于a+l;若a〉c, k等于a-l。合成出Va后,若a等于l,回 到步驟3;若a等于N,跳到步驟8;若Ka〈N,進(jìn)行下一步驟。
步驟7:通道預(yù)測單元24,根據(jù)I,a和Z'a ,采用DIBR的方法,合成出同a 號通道鄰近的q號輔助通道的預(yù)測圖。若a〈c, q等于a-l,令a等于a-l;若a >c, q等于a+l,令a等于a+l?;氐讲襟E4。
步驟8:圖像反校正單元26,根據(jù)輸入的攝像機參數(shù),對中心通道重建圖像 幀、輔助通道重建圖像幀、虛擬通道預(yù)測圖,進(jìn)行反校正。虛擬通道需要的虛擬 攝像機參數(shù),根據(jù)與其相鄰的兩個通道的攝像機參數(shù),進(jìn)行線性加權(quán)插值得到。
權(quán)利要求
1.一種多通道視頻流編碼器,其特征在于,包括圖像校正單元,用于對輸入的多個通道視頻流圖像幀進(jìn)行校正,以使對應(yīng)點位于水平掃描線上;通道選擇單元,用于從輸入的多個視頻通道中選擇中心通道和輔助通道;深度產(chǎn)生單元,用于生成中心通道和輔助通道視頻流內(nèi)每個圖像幀的深度圖;輔助通道預(yù)測單元,用于根據(jù)通道重建單元產(chǎn)生的重建幀,和深度產(chǎn)生單元產(chǎn)生的深度圖,產(chǎn)生輔助通道圖像幀的預(yù)測圖;中心通道編碼單元,用于對中心通道視頻流,和深度圖組成的深度流,按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行編碼,以生成中心通道碼流,視頻編碼標(biāo)準(zhǔn)方法包括視頻編碼國際標(biāo)準(zhǔn)MPEG-X、H.26X和視頻編碼國家標(biāo)準(zhǔn)AVS;輔助通道編碼單元,用于對輔助通道圖像幀的遮擋圖按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行編碼,以生成輔助通道碼流;通道重建單元,用于對中心通道碼流和輔助通道碼流,按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行解碼,以生成中心通道重建圖像幀、重建深度圖和輔助通道重建遮擋圖,根據(jù)重建遮擋圖和輔助通道預(yù)測單元產(chǎn)生的輔助通道圖像幀的預(yù)測圖,產(chǎn)生輔助通道重建幀;復(fù)用器,用于將攝像機參數(shù)、中心通道碼流和輔助通道碼流,按照時分復(fù)用方式,生成多通道視頻壓縮碼流。
2. 根據(jù)權(quán)利要求1所述的一種多通道視頻流編碼器,其特征在于所述的深度 產(chǎn)生單元根據(jù)中心通道圖像幀,和與其鄰近的任意一個輔助通道的同一時刻的 圖像幀,產(chǎn)生中心通道該時刻圖像幀的深度圖;根據(jù)通道重建單元產(chǎn)生的當(dāng)前 通道的重建幀,和當(dāng)前通道的鄰近通道的同一時刻的重建幀,產(chǎn)生當(dāng)前通道該 時刻的重建幀的深度圖。
3. 根據(jù)權(quán)利要求1所述的一種多通道視頻流編碼器,其特征在于所述的輔助 通道預(yù)測單元根據(jù)通道重建單元產(chǎn)生的重建幀,和深度產(chǎn)生單元產(chǎn)生的該重建 幀的深度圖,按照基于深度圖像渲染的方法,合成出該重建幀所在通道的鄰近 通道的同 一 時刻的圖像幀的預(yù)測圖。
4. 根據(jù)權(quán)利要求1所述的一種多通道視頻流編碼器,其特征在于所述的輔助 通道編碼單元,對輔助通道圖像幀和輔助通道預(yù)測單元產(chǎn)生的該圖像幀的預(yù)測圖作差,產(chǎn)生輔助通道遮擋圖,遮擋圖反映了由于遮擋而沒有在預(yù)測圖上出現(xiàn) 的信息。
5. —種多通道視頻流解碼器,其特征在于,包括解復(fù)用器,用于把多通道視頻壓縮碼流分解為攝像機參數(shù)、中心通道碼流 和輔助通道碼流;中心通道解碼單元,用于對中心通道碼流,按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行解 碼,以生成中心通道重建圖像幀和重建深度圖,視頻編碼標(biāo)準(zhǔn)方法包括視頻編 碼國際標(biāo)準(zhǔn)MPEG-X、 H.26X和視頻編碼國家標(biāo)準(zhǔn)AVS;深度產(chǎn)生單元,用于產(chǎn)生輔助通道重建圖像幀的深度圖;通道預(yù)測單元,用于產(chǎn)生輔助通道圖像幀的預(yù)測圖,和虛擬通道圖像幀的預(yù)測圖;輔助通道解碼單元,用于對輔助通道碼流,按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行解 碼,以生成輔助通道圖像幀的重建遮擋圖,對該重建遮擋圖和通道預(yù)測單元產(chǎn) 生的預(yù)測圖相加,以生成輔助通道的重建圖像幀;圖像反校正單元,用于對解碼生成的中心通道重建圖像幀、輔助通道重建 圖像幀和虛擬通道預(yù)測圖像幀進(jìn)行反校正,以使各通道圖像幀恢復(fù)到拍攝的位 置。
6. 根據(jù)權(quán)利要求5所述的一種多通道視頻流解碼器,其特征在于所述的深度 產(chǎn)生單元,根據(jù)輔助通道解碼單元產(chǎn)生的當(dāng)前輔助通道的重建圖像幀,和當(dāng)前 輔助通道的鄰近通道的同一時刻的重建圖像幀,產(chǎn)生當(dāng)前輔助通道的該重建圖 像幀的深度圖。
7. 根據(jù)權(quán)利要求5所述的一種多通道視頻流解碼器,其特征在于所述的通道 預(yù)測單元,根據(jù)中心通道解碼單元產(chǎn)生的中心通道的重建圖像幀和該圖像幀的 深度圖,按照基于深度圖像渲染的方法,產(chǎn)生同中心通道鄰近的輔助通道的同 一時刻的圖像幀的預(yù)測圖;根據(jù)輔助通道解碼單元產(chǎn)生的當(dāng)前輔助通道的重建 圖像幀,和深度產(chǎn)生單元產(chǎn)生的該圖像幀的深度圖,按照基于深度圖像渲染的 方法,產(chǎn)生同當(dāng)前輔助通道鄰近的未重建的輔助通道的同一時刻的圖像幀的預(yù) 測圖。
8. 根據(jù)權(quán)利要求5所述的一種多通道視頻流解碼器,其特征在于所述的通道 預(yù)測單元,在兩個鄰近通道的中心位置,根據(jù)該兩個通道的同一時刻的重建圖 像幀和深度圖,產(chǎn)生虛擬通道圖像幀的預(yù)測圖,該虛擬通道的虛擬攝像機的光 心處于其兩個鄰近通道的攝像機的光心的連線的中點,該虛擬攝像機的光軸和中心通道的攝像機的光軸平行。
9. 根據(jù)權(quán)利要求5所述的一種多通道視頻流解碼器,其特征在于所述的圖像 反校正單元,對于輸入解碼器的N個通道的壓縮視頻流,輸出2N-1個通道的非 壓縮視頻流,其中包括解碼恢復(fù)出的N個通道的重建非壓縮視頻流,和采用深 度圖像渲染技術(shù)合成出的N-1個虛擬通道的非壓縮視頻流。
10. 根據(jù)權(quán)利要求5所述的一種多通道視頻流解碼器,其特征在于所述的圖 像反校正單元,輸出的2N-1個通道分為重建通道和虛擬通道,對N個重建通道, 按其真實攝像機的相對位置順序排列,對虛擬通道,插入到與該虛擬通道鄰近 的兩個重建通道的中心位置;輸出的2N-1個通道,共可以產(chǎn)生2N-2個立體視 點觀看位置,每個立體視點觀看位置由一個重建通道和一個虛擬通道組成。
全文摘要
本發(fā)明公開了一種基于深度圖像渲染的多通道視頻流編碼器和解碼器。本發(fā)明在對多通道視頻流進(jìn)行編碼時,對中心通道視頻流圖像幀和深度圖按照視頻編碼標(biāo)準(zhǔn)方法進(jìn)行編碼;根據(jù)通道重建后的圖像幀和深度圖,采用深度圖像渲染技術(shù)得到鄰近的待編碼的輔助通道的預(yù)測圖,對遮擋信息進(jìn)行變換、量化、熵編碼。本發(fā)明在對多通道視頻壓縮碼流進(jìn)行解碼時,利用人類視覺系統(tǒng)的生理特點,采用深度圖像渲染技術(shù),根據(jù)兩個相鄰?fù)ǖ赖膱D像幀和其深度圖,得到位于該兩個相鄰?fù)ǖ乐行奈恢玫囊粋€虛擬通道。在采用本發(fā)明解碼器輸出視頻流的顯示端,每個立體視點由一個高質(zhì)量通道和一個虛擬通道構(gòu)成,觀眾可以獲得良好的立體視覺體驗。
文檔編號H04N13/00GK101309412SQ20081006286
公開日2008年11月19日 申請日期2008年7月7日 優(yōu)先權(quán)日2008年7月7日
發(fā)明者何賽軍, 馮雅美, 明 張, 朱夢堯, 李東曉, 冰 石, 謝賢海, 凱 駱 申請人:浙江大學(xué)