一種近似視頻編碼系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種近似視頻編碼系統(tǒng),包括:分析器,用于檢測各視頻間的近似關(guān)系,獲得一組近似視頻,并輸出與該近似視頻相應(yīng)的索引文件:編碼器,與分析器連接,用于接收分析器輸出的索引文件,并根據(jù)該索引文件對近似視頻進行編碼壓縮,輸出與每個視頻相對應(yīng)的獨立碼流:集成器,與編碼器連接,用于將所有獨立碼流進行整合,生成一個單一碼流:解碼器,與集成器連接,用于對整合后的單一碼流進行解碼。與現(xiàn)有技術(shù)相比,本發(fā)明具有壓縮效率高、可有效降低視頻數(shù)據(jù)庫空間消耗等優(yōu)點。
【專利說明】一種近似視頻編碼系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及視頻編碼領(lǐng)域,尤其是涉及一種近似視頻編碼系統(tǒng)。
【背景技術(shù)】
[0002]伴隨著多媒體原創(chuàng)互動體系的崛起,網(wǎng)絡(luò)多媒體和移動多媒體等新媒體的流行,在互聯(lián)網(wǎng)上的視頻數(shù)量正呈現(xiàn)海量級爆炸式地增長。國內(nèi)外眾多的網(wǎng)絡(luò)電視臺,如:中國網(wǎng)絡(luò)電視臺、CNN、ABC等,以不同語言全天候播報視頻信息;視頻分享網(wǎng)站如雨后春筍般地涌現(xiàn),包括國外的YouTube,國內(nèi)的優(yōu)酷、土豆、酷六、六間房、迅雷等;用戶還可通過便攜智能終端設(shè)備(如:IPhone,IPad、筆記本等)訪問網(wǎng)絡(luò)來獲取并發(fā)布圖像、視頻等信息;社交網(wǎng)絡(luò)快速的增長使得數(shù)以萬計的網(wǎng)絡(luò)視頻可供人們觀看與分享。海量的視頻在數(shù)據(jù)服務(wù)器中進行存儲并在互聯(lián)網(wǎng)上進行傳輸,通過互聯(lián)網(wǎng)搜索和觀看豐富的視頻資源已成為廣大網(wǎng)民獲取信息的重要方式。
[0003]面對海量的視頻數(shù)據(jù),如何更有效地對其進行存儲和傳輸已成為一項迫切的任務(wù)。實際上,在新聞視頻和網(wǎng)絡(luò)視頻等大型視頻數(shù)據(jù)庫中存在著大量的近似視頻(Near-Duplicate Video, NDV)。NDV指的是多個具有相似或相同圖像內(nèi)容的視頻序列,但是在捕獲條件、獲取時間、渲染條件、圖像變化(如:光線、亮度改變)和后期編輯(如:添加邊框、圖標(biāo)、字幕)等方面造成內(nèi)容雖相似但視頻圖像本身可能并不完全相同。相關(guān)研究表明,在大型的新聞視頻數(shù)據(jù)庫和網(wǎng)絡(luò)視頻數(shù)據(jù)庫中,存在NDV的比率通常占整個數(shù)據(jù)庫的20?30%,甚至更高。因此,如果可以對大量的NDV進行高效壓縮和存儲,將有效降低視頻數(shù)據(jù)庫的存儲空間消耗。目前,對于構(gòu)成NDV中的每一個分量視頻,都采用獨立方式進行壓縮編碼并在視頻庫中進行存儲;NDV中各分量視頻之間的相關(guān)性沒有被很好地利用,視頻壓縮效率有待進一步提聞。
[0004]綜上所述,為了有效提高NDV的視頻編碼效率,本發(fā)明提出了一種面向NDV的聯(lián)合編碼框架,在保證NDV中各視頻圖像編碼質(zhì)量的前提下,提高NDV壓縮效率,減少視頻數(shù)據(jù)庫存儲空間消耗。本發(fā)明將為海量視頻數(shù)據(jù)的存儲、組織和管理提供新的解決方法。
[0005]在本發(fā)明所提出的近似視頻聯(lián)合編碼框架中,涉及到兩項【背景技術(shù)】:近似視頻檢索和多視點視頻編碼(Multiview Video Coding,MVC)。其中,近似視頻檢索用于查找和定位視頻數(shù)據(jù)庫中的近似視頻;多視點視頻編碼則為本發(fā)明所提出的近似視頻聯(lián)合編碼框架提供了原型參考。
[0006]迄今為止,關(guān)于近似視頻檢索的研究大致可分為兩類:一類追求檢索的速度,另一類則追求檢索的準(zhǔn)確性。追求速度的檢索方法經(jīng)常采用視頻圖像的全局特征,例如:顏色、邊緣和序(Ordinal)等,因此檢索速度較快。當(dāng)視頻內(nèi)容變化較小時,這類方法通常能達到很好的檢索效果;可是當(dāng)視頻內(nèi)容的變化較大時,這類算法的檢索效果就變得差強人意。另一方面,追求檢索準(zhǔn)確性的算法采用局部特征,并在此基礎(chǔ)上進行擴展,從而提高檢索的準(zhǔn)確性和速度,例如:使用三維結(jié)構(gòu)張量的描述模型提高算法的準(zhǔn)確度,同時跳過不必要的匹配對來加快算法的速度。[0007]另一項【背景技術(shù)】,多視點視頻編碼MVC已經(jīng)在多媒體研究應(yīng)用中引起了廣泛關(guān)注,例如:三維電視、自由視點電視等。多視點視頻是指由多個攝像機從不同的角度或地點對同一場景進行拍攝而采集的多個相關(guān)的視頻序列。相比于將多視點視頻進行單獨編碼,多視點視頻編碼MVC不僅充分利用了視頻在時間維度上的相關(guān)性,而且很好地利用了多視點視頻在視點間的相關(guān)性,從而對多視點視頻進行聞效壓縮。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種壓縮效率高、可有效降低視頻數(shù)據(jù)庫空間消耗的近似視頻編碼(Near-Duplicate Video Coding, NDVC)系統(tǒng)。
[0009]本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):
[0010]一種近似視頻編碼系統(tǒng),包括:
[0011]分析器,用于檢測各視頻間的近似關(guān)系,獲得一組近似視頻,并輸出與該近似視頻相應(yīng)的索引文件;
[0012]編碼器,與分析器連接,用于接收分析器輸出的索引文件,并根據(jù)該索引文件對近似視頻進行編碼壓縮,輸出與每個視頻相對應(yīng)的獨立碼流;
[0013]集成器,與編碼器連接,用于將所有獨立碼流進行整合,生成一個單一碼流;
[0014]解碼器,與集成器連接,用于對整合后的單一碼流進行解碼。
[0015]所述的分析器輸出索引文件的步驟具體為:
[0016]101)分析器采用近似視頻檢索方法檢測并確定各視頻間的近似關(guān)系,獲得一組近似視頻;
[0017]102)指定該組視頻中的一個為基本視頻,其余為依賴視頻;
[0018]103)對每個依賴視頻中的一幀,分析器從基本視頻中檢索與該幀相似度最高的幀,判斷該最高相似度是否大于給定閾值,若是,則將該最高相似度對應(yīng)的基本視頻幀作為相應(yīng)依賴視頻幀的參考幀,并記錄,若否,則依賴視頻幀以本視頻當(dāng)中的幀作為參考幀,并記錄;
[0019]104)重復(fù)步驟103),獲得所有依賴視頻幀與基本視頻幀的參照關(guān)系,生成索引文件并輸出。
[0020]所述的步驟101)具體為:
[0021]對每個視頻進行視頻特征提取,確定其特征向量,當(dāng)兩個視頻的特征向量之間的離散余弦相似度值大于指定的閾值時,即確定為滿足近似關(guān)系。
[0022]所述的指定的閾值為0.83?0.89。
[0023]所述的編碼器根據(jù)該索引文件對近似視頻進行編碼壓縮具體為:
[0024]201)參考幀控制器在索引文件基礎(chǔ)上,對當(dāng)前待編碼幀執(zhí)行基于率失真最優(yōu)模式選擇的編碼過程,確定最優(yōu)的編碼參數(shù);
[0025]202)編碼器通過運動補償生成預(yù)測殘差來去除當(dāng)前待編碼幀的冗余信息;
[0026]203)通過離散余弦變換、量化和熵編碼生成編碼后的碼流;
[0027]204)編碼器通過反量化、反向離散余弦變換對編碼后的碼流進行重構(gòu),生成重構(gòu)幀,存入?yún)⒖紟彺鎱^(qū)中,作為后續(xù)幀編碼時的參考幀。[0028]所述的基于率失真最優(yōu)模式選擇的編碼過程具體為:
[0029]301)將待編碼幀拆分成大小相等的由像素組成的矩陣,即宏塊,并用其作為編碼的基本單位;
[0030]302)將待編碼幀的宏塊依次與參考幀中的幾個指定宏塊進行編碼預(yù)測,并選擇其中率失真效果最優(yōu)的作為參考宏塊;
[0031]303)對宏塊進行壓縮編碼,隨后整合成統(tǒng)一的待編碼幀的碼流。
[0032]所述的編碼參數(shù)包括參考索引、編碼模式和運動向量。
[0033]所述的解碼器中設(shè)有參考幀控制器和解碼緩沖區(qū)。
[0034]所述的解碼器對單一碼流進行解碼的過程為編碼器編碼壓縮的逆過程。
[0035]與現(xiàn)有技術(shù)相比,本發(fā)明在保證近似視頻中各視頻圖像編碼質(zhì)量的前提下,提高近似視頻的壓縮效率,有效降低視頻數(shù)據(jù)庫的存儲空間消耗。
【專利附圖】
【附圖說明】
[0036]圖1為本發(fā)明的結(jié)構(gòu)示意圖;
[0037]圖2為本發(fā)明編碼過程不意圖;
[0038]圖3為本發(fā)明解碼過程示意圖;
[0039]圖4為本發(fā)明與單獨編碼方法的率失真曲線對比示意圖;
[0040]圖4中,(4a)為說唱視頻序列的率失真曲線示意圖;(4b)為籃球視頻序列的率失真曲線示意圖;(4c)為音樂視頻序列的率失真曲線示意圖;(4d)為自然景色視頻序列的率失真曲線示意圖;(4e)為哈林搖視頻序列的率失真曲線示意圖;(4f)為動畫視頻序列的率失真曲線示意圖。
【具體實施方式】
[0041]下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細說明。本實施例以本發(fā)明技術(shù)方案為前提進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。
[0042]如圖1所示,一種近似視頻編碼(NDVC)系統(tǒng),包括依次連接的分析器1、編碼器2、集成器3和解碼器4,分析器I用于檢測各視頻間的近似關(guān)系,獲得一組近似視頻,并輸出與該近似視頻相應(yīng)的索引文件;編碼器2用于接收分析器輸出的索引文件,并根據(jù)該索引文件對近似視頻進行編碼壓縮,輸出與每個視頻相對應(yīng)的獨立碼流;集成器3用于將所有獨立碼流進行整合,生成一個單一碼流,方便傳輸和存儲;解碼器4用于對整合后的單一碼流進行解碼。
[0043]分析器I輸出索引文件的步驟具體為:
[0044]101)分析器采用近似視頻檢索方法檢測并確定各視頻間的近似關(guān)系,當(dāng)確定滿足近似關(guān)系后,獲得一組近似視頻;
[0045]滿足近似關(guān)系是指:每個視頻由傳統(tǒng)的視頻特征提取方法來確定其特征向量,當(dāng)兩個視頻的特征向量之間的離散余弦相似度值大于指定的閾值時,即確定為滿足近似關(guān)系,指定的閾值優(yōu)選為0.83?0.89 ;
[0046]102)指定該組視頻中的一個為基本視頻,其余為依賴視頻,依賴視頻在編解碼時需要使用基本視頻作為參照;
[0047]103)對每個依賴視頻中的一幀,分析器從基本視頻中檢索與該幀相似度最高的幀,判斷該最高相似度是否大于給定閾值,若是,則將該最高相似度對應(yīng)的基本視頻幀作為相應(yīng)依賴視頻幀的參考幀,并記錄,在編解碼時使用,若否,則依賴視頻幀以本視頻當(dāng)中的中貞作為參考巾貞,并記錄;
[0048]104)重復(fù)步驟103),獲得所有依賴視頻幀與基本視頻幀的參照關(guān)系,生成索引文件并輸出。
[0049]在實際應(yīng)用中,這種參照關(guān)系可能是一種間接的映射關(guān)系,例如:使用不同參數(shù)的攝像機從不同的角度對同一場景進行拍攝。在這種情況下,被參照的視頻幀可能需要進行預(yù)處理變換,例如:使用單應(yīng)性矩陣進行變換,從而得到更準(zhǔn)確的參考幀。因此,分析器需要對視頻組進行預(yù)處理分析,包括確定哪些視頻滿足近似關(guān)系,其中的基本視頻是否可以直接用作參考視頻或者需要先進行矩陣變換后再作為參考視頻。
[0050]編碼器2中設(shè)有參考幀控制器和參考幀緩存區(qū)。如圖2所示,編碼器根據(jù)該索引文件對近似視頻進行編碼壓縮具體為:
[0051]201)參考幀控制器在索引文件基礎(chǔ)上,對當(dāng)前待編碼幀執(zhí)行基于率失真最優(yōu)模式選擇的編碼過程,確定最優(yōu)的編碼參數(shù),包括參考索引、編碼模式和運動向量等;
[0052]202)編碼器通過運動補償生成預(yù)測殘差來去除當(dāng)前待編碼幀的冗余信息;
[0053]203)通過離散余弦變換(Discrete Cosine Transform, DCT)、量化和熵編碼生成編碼后的碼流;
[0054]204)編碼器通過反量化、反向離散余弦變換(Inverse Discrete CosineTransform, IDCT)對編碼后的碼流進行重構(gòu),生成重構(gòu)幀,存入?yún)⒖紟彺鎱^(qū)中,作為后續(xù)幀編碼時的參考幀。
[0055]上述步驟201)中,基于率失真最優(yōu)模式選擇的編碼過程具體為:
[0056]301)將待編碼幀拆分成大小相等的由像素組成的矩陣(宏塊),并用其作為編碼的基本單位;
[0057]302)將待編碼幀的宏塊依次與參考幀中的幾個指定宏塊進行編碼預(yù)測,并選擇其中率失真效果最優(yōu)的作為參考宏塊;
[0058]303)對宏塊進行壓縮編碼,隨后整合成統(tǒng)一的待編碼幀的碼流。
[0059]解碼器3中設(shè)有參考幀控制器和解碼緩沖區(qū)。如圖3所示,解碼器對單一碼流進行解碼的過程為編碼器編碼壓縮的逆過程。
[0060]為了檢驗本發(fā)明的性能,以Google公司在Google Zeitgeist網(wǎng)站上公布的2012年搜索量最高的視頻排行榜中前10的視頻,連同Youku網(wǎng)站上6個分類里各選取一個點擊率較高的視頻,共16個視頻作為原始視頻,并對它們進行了 4種近似變換來測試所提出的NDVC系統(tǒng)。這4種變換包括:(I)在視頻中加入字幕和標(biāo)簽,(2)加入高斯白噪聲,(3)將視頻的前2/3部分播放速度減為原來的一半,并在最后1/3部分將播放速度加快為原來的兩倍,(4)將視頻的寬和高均調(diào)整為原來的1/2。所有的視頻的格式均為4:2:0YUV,原始視頻的分辨率為320x240,幀率為每秒25幀,播放長度為1575幀。
[0061]在實驗過程中,我們使用了兩個評判標(biāo)準(zhǔn),包括峰值信噪比(Peak-Signal-to-Noise Ratio, PSNR)的改變 ΔP 和壓縮比 C%,其定義如下:[0062]
【權(quán)利要求】
1.一種近似視頻編碼系統(tǒng),其特征在于,包括: 分析器,用于檢測各視頻間的近似關(guān)系,獲得一組近似視頻,并輸出與該近似視頻相應(yīng)的索引文件; 編碼器,與分析器連接,用于接收分析器輸出的索引文件,并根據(jù)該索引文件對近似視頻進行編碼壓縮,輸出與每個視頻相對應(yīng)的獨立碼流; 集成器,與編碼器連接,用于將所有獨立碼流進行整合,生成一個單一碼流; 解碼器,與集成器連接,用于對整合后的單一碼流進行解碼。
2.根據(jù)權(quán)利要求1所述的一種近似視頻編碼系統(tǒng),其特征在于,所述的分析器輸出索引文件的步驟具體為: 101)分析器采用近似視頻檢索方法檢測并確定各視頻間的近似關(guān)系,獲得一組近似視頻; 102)指定該組視頻中的一個為基本視頻,其余為依賴視頻; 103)對每個依賴視頻中的一幀,分析器從基本視頻中檢索與該幀相似度最高的幀,判斷該最高相似度是否大于給定閾值,若是,則將該最高相似度對應(yīng)的基本視頻幀作為相應(yīng)依賴視頻幀的參考幀,并記錄,若否,則依賴視頻幀以本視頻當(dāng)中的幀作為參考幀,并記錄; 104)重復(fù)步驟103),獲得所有依賴視頻幀與基本視頻幀的參照關(guān)系,生成索引文件并輸出。
3.根據(jù)權(quán)利要求2所述的`一種近似視頻編碼系統(tǒng),其特征在于,所述的步驟101)具體為: 對每個視頻進行視頻特征提取,確定其特征向量,當(dāng)兩個視頻的特征向量之間的離散余弦相似度值大于指定的閾值時,即確定為滿足近似關(guān)系。
4.根據(jù)權(quán)利要求3所述的一種近似視頻編碼系統(tǒng),其特征在于,所述的指定的閾值為0.83 ~0.89。
5.根據(jù)權(quán)利要求1所述的一種近似視頻編碼系統(tǒng),其特征在于,所述的編碼器中設(shè)有參考幀控制器和參考幀緩存區(qū)。
6.根據(jù)權(quán)利要求5所述的一種近似視頻編碼系統(tǒng),其特征在于,所述的編碼器根據(jù)該索引文件對近似視頻進行編碼壓縮具體為: 201)參考幀控制器在索引文件基礎(chǔ)上,對當(dāng)前待編碼幀執(zhí)行基于率失真最優(yōu)模式選擇的編碼過程,確定最優(yōu)的編碼參數(shù); 202)編碼器通過運動補償生成預(yù)測殘差來去除當(dāng)前待編碼幀的冗余信息; 203)通過離散余弦變換、量化和熵編碼生成編碼后的碼流; 204)編碼器通過反量化、反向離散余弦變換對編碼后的碼流進行重構(gòu),生成重構(gòu)幀,存入?yún)⒖紟彺鎱^(qū)中,作為后續(xù)幀編碼時的參考幀。
7.根據(jù)權(quán)利要求6所述的一種近似視頻編碼系統(tǒng),其特征在于,所述的基于率失真最優(yōu)模式選擇的編碼過程具體為: 301)將待編碼幀拆分成大小相等的由像素組成的矩陣,即宏塊,并用其作為編碼的基本單位; 302)將待編碼幀的宏塊依次與參考幀中的幾個指定宏塊進行編碼預(yù)測,并選擇其中率失真效果最優(yōu)的作為參考宏塊; 303)對宏塊進行壓縮編碼,隨后整合成統(tǒng)一的待編碼幀的碼流。
8.根據(jù)權(quán)利要求6所述的一種近似視頻編碼系統(tǒng),其特征在于,所述的編碼參數(shù)包括參考索引、編碼模式和運動向量。
9.根據(jù)權(quán)利要求6所述的一種近似視頻編碼系統(tǒng),其特征在于,所述的解碼器中設(shè)有參考幀控制器和解碼緩沖區(qū)。
10.根據(jù)權(quán)利要求9所述的一種近似視頻編碼系統(tǒng),其特征在于,所述的解碼器對單一碼流進行解碼的過程為編碼器編`碼壓縮的逆過程。
【文檔編號】H04N19/61GK103533353SQ201310455325
【公開日】2014年1月22日 申請日期:2013年9月29日 優(yōu)先權(quán)日:2013年9月29日
【發(fā)明者】王瀚漓, 馬鳴 申請人:同濟大學(xué)