解碼然后使用HM 12. 0 (Max⑶Size限于32,關閉 AMP)進行編碼速度快約120倍,并與使用主配置(Main profile)和中等預設置(Medium preset)的x264H. 264編碼器相比,實現(xiàn)了平均40 %的RD性能增益。這些測試是在配備 Intel Quad Core 3.30GHz Haswell CPU 以及 32GB RAM 的服務器上完成的。
[0067] 如表5所示,通過實現(xiàn)WPP,HM 12. 0編碼器變得比原來單線程版本更快約4. 3倍。 表6示出,使用SM)和匯編優(yōu)化,編碼器可實現(xiàn)另外2. 2倍加速。我們的轉(zhuǎn)碼器基于具有 WPP和S頂D特征的優(yōu)化的HM 12. 0編碼器。
[0068] 利用本文描述的快速決策算法,可通過充分利用輸入的H. 264信息實現(xiàn)另外12. 8 倍加速。因此,總體上,描述的轉(zhuǎn)碼器比HM 12. 0編碼器快約120倍。與前面采用H. 264編 碼器信息的轉(zhuǎn)碼器相比,本文描述的轉(zhuǎn)碼器更快2至8倍,這取決于輸入比特流和視頻分辨 率,如表7所示。
[0070] 表5 :采用WPP獲得的加速
[0074] 表7 :與以前的轉(zhuǎn)換器相比獲得的加速
[0075] 圖9示出了生成H. 265HEVC比特流的方法。該方法900從接收被分解的H. 264比特 流開始,該H. 264比特流被分解成多個可獨立解碼的圖像組(GOP)以用于并行處理(902)。 這些GOP可被送至不同處理器進行進一步處理。對于每一個GOP (904),該多個編碼樹單元 (CTU)通過使用從H. 264比特流提取出的編碼信息確定各個CTU的編碼參數(shù)(906)以及使 用所確定的編碼參數(shù)將各個GOP的CTU編碼成相應的H. 265比特流(908)進行處理。對接 下來的GOP進行處理(910)。對這些GOP的處理可并行完成(910)。來自GOP的經(jīng)編碼的 CTU比特流被結(jié)合到H. 265HEVC視頻文件中(912)。
[0076] 當前轉(zhuǎn)碼器的RD性能可從兩種角度進行驗證。第一,如圖10A、圖IOB所示的那 樣驗證作為轉(zhuǎn)碼器的RD性能,其給出了轉(zhuǎn)碼處理中PSNR的變化。此外,由于HEVC編碼器 可通過將X264H. 264編碼器與當前轉(zhuǎn)碼器進行級聯(lián)來實現(xiàn),在級聯(lián)的HEVC編碼器中所推薦 的系統(tǒng)的RD性能使用可用的原始未壓縮的剪輯來分析。圖IlA和圖IlB中的PSNR在原始 未壓縮序列和從由轉(zhuǎn)碼器生成的HEVC比特流解碼的序列之間計算出。由于轉(zhuǎn)碼器輸出的 PSNR總是低于輸入的H. 264比特流,(通過使用速度較低且復雜性較高的編碼配置)改進 H. 264比特流的質(zhì)量將獲得更好的質(zhì)量,如圖11中推薦的上曲線和推薦的下曲線所示。
[0077] 本文描述了一種以多核處理器和分布式系統(tǒng)為目標的優(yōu)化的H. 264到HEVC轉(zhuǎn)碼 器。通過分配處理G0P,利用從H. 264比特流中提取的信息,WPP處理以及SHffi加速,所 推薦的系統(tǒng)與HEVC HM 12.0參考軟件相比,能夠獲得約120倍加速,并且與廣泛使用的 x264H. 264的實現(xiàn)相比可實現(xiàn)將比特率減少40%。
[0078] 提供以上描述的功能的硬件、軟件、固件及其組合可駐留在同一物理系統(tǒng)中,也可 以分布在多個裝置和/或系統(tǒng)中。
[0079] 雖然本文描述了特定的實施例,但是將理解到的是,可對這些實施例作出修改而 不背離本教導的范圍。據(jù)此,所附權利要求書的范圍不應由所闡述的這些特定實施例限定, 而應由符合作為整體的本說明書的教導的最廣義的解釋給出。
【主權項】
1. 一種產(chǎn)生H. 265/HEVC比特流的方法,包括: 將先前編碼的比特流分解成多個獨立可解碼的圖像組(GOP),以便并行處理; 針對每個G0P,通過以下步驟處理多個編碼樹單元(CTU): 使用從所述先前編碼的比特流提取的編碼信息確定各個CTU的編碼參數(shù);和 使用確定的編碼參數(shù)將所述各個GOP的CTU編碼成各個GOP-H. 265/HEVC比特流;以及 將各個GOP的各個GOP-H. 265/HEVC比特流組合成H. 265/HEVC比特流。2. 如權利要求1所述的方法,其中所述編碼參數(shù)包括分區(qū)尺寸、預測模式、參考圖像和 運動矢量。3. 如權利要求1所述的方法,其中當編碼各個G0P-H. 265比特流時,基于從先前編碼的 比特流提取出的分區(qū)尺寸、預測模式、參考圖像和運動矢量預測的編碼參數(shù)被用于加速模 式?jīng)Q策和運動估計處理。4. 如權利要求1所述的方法,其中使用波前并行處理(WPP)處理所述多個CU。5. 如權利要求4所述的方法,其中處理較高行的CU的線程的線程優(yōu)先級高于處理較低 行的CU的線程的優(yōu)先級。6. 如權利要求1所述的方法,其中分解的GOP由分離的多核處理器處理。7. 如權利要求1所述的方法,其中所述多個CTU各自包括多個編碼單元(CU),每個編 碼單元被標識為以下中的一者: 遺留CU,具有所述先前編碼的比特流中的相應的宏塊(MB)或子MB分區(qū);和 擴展CU,對應于所述先前編碼的比特流中的多個MB。8. 如權利要求7所述的方法,其中所述CU被檢查,以確定分區(qū)尺寸和預測模式。9. 如權利要求8所述的方法,其中,針對遺留CU,對應于用于先前編碼的比特流中的分 區(qū)尺寸檢查分區(qū)尺寸,如果所述分區(qū)尺寸在當前劃分深度,所述分區(qū)將停止分成更小的分 區(qū)。10. 如權利要求8所述的方法,其中針對擴展CU,分區(qū)和模式基于由所述擴展CU覆蓋 的MB進行檢查。11. 如權利要求10所述的方法,其中檢查的分區(qū)和模式為: 合并2Nx2N模式總是被檢查; 當存在多于2MB使用幀間16x16模式時,檢查幀間2Nx2N模式; 當左方的兩個MB均使用所述幀間16 X16模式或者右方的兩個MB均使用所述幀間 16x16模式時,檢查幀間Nx2N模式; 當上方的兩個或下方的兩個MB均使用所述幀間16x16模式時,檢查幀間2NxN模式;以 及 當存在多于2MB使用幀內(nèi)模式時,檢查幀內(nèi)2Nx2N模式。12. 如權利要求8所述的方法,其中在確定所述分區(qū)尺寸和預測模式之后,選擇參考圖 像。13. 如權利要求12所述的方法,其中: 針對遺留CU中的預測單元(PU),用于所述先前編碼的比特流中的相應MB或子MB分區(qū) 的參考圖像被檢查;以及 針對擴展CU中的PU,由所述預測單元覆蓋的幀間MB的所有參考圖像被檢查。14. 如權利要求12所述的方法,其中使用由所述擴展CU覆蓋的幀間MB的運動矢量與 根據(jù)H. 265/HEVC確定的運動矢量預測量的平均來估計擴展CU的運動矢量。15. -種用于產(chǎn)生H. 265/HEVC比特流的系統(tǒng),包括: 通過千兆或者高速通信網(wǎng)絡連接在一起的多個計算系統(tǒng),所述多個計算系統(tǒng)配置成執(zhí) 行根據(jù)權利要求1-14中任一項所述的方法。
【專利摘要】與H.264/AVC相比,最新的高效視頻編碼(HEVC)標準實現(xiàn)了壓縮效率的顯著進步,但要付出計算復雜度高很多的代價。本申請?zhí)峁┝艘环N用于在多核處理器和分布式系統(tǒng)上進行的基于軟件的H.264至HEVC轉(zhuǎn)碼的框架。通過利用從輸入H.264比特流提取的信息,可以高比例地加速轉(zhuǎn)碼處理,而產(chǎn)生的視覺質(zhì)量損失適度。還實施波前并行處理(WPP)和SIMD加速,從而用SIMD指令組擴展改善在多核處理器上的轉(zhuǎn)碼效率?;贖EVC?HM12.0參考軟件和通過使用標準HEVC測試比特流,本申請?zhí)嶙h的轉(zhuǎn)碼器可以實現(xiàn)與基于ffmpeg和HM軟件的解碼和重新編碼相比速度提高了約120倍,而不會產(chǎn)生顯著的R-D性能損失。
【IPC分類】H04N19/40, H04N19/436, H04N19/114, H04N19/177
【公開號】CN105245897
【申請?zhí)枴緾N201510122963
【發(fā)明人】溫江濤, 陳宇聰, 溫子煜, 沈彤
【申請人】南京云巖信息科技有限公司
【公開日】2016年1月13日
【申請日】2015年3月20日
【公告號】CA2885501A1, EP2922296A2, EP2922296A3, US20150271531