本公開的實(shí)施例一般涉及視覺數(shù)據(jù)處理技術(shù),并且更具體地,涉及基于神經(jīng)網(wǎng)絡(luò)的視覺數(shù)據(jù)編解碼。
背景技術(shù):
1、過去的十年已經(jīng)見證了深度學(xué)習(xí)在各種領(lǐng)域的快速發(fā)展,特別是在計(jì)算機(jī)視覺和圖像處理中。神經(jīng)網(wǎng)絡(luò)最初是利用神經(jīng)科學(xué)和數(shù)學(xué)的跨學(xué)科研究發(fā)明的。它在非線性變換和分類方面顯示出強(qiáng)大的實(shí)力?;谏窠?jīng)網(wǎng)絡(luò)的圖像/視頻壓縮技術(shù)在過去的五年期間已經(jīng)取得了顯著的進(jìn)步。據(jù)報(bào)道,最新的基于神經(jīng)網(wǎng)絡(luò)的圖像壓縮算法實(shí)現(xiàn)了與通用視頻編解碼(vvc)相當(dāng)?shù)穆适д?r-d)性能。隨著神經(jīng)圖像的性能不斷提高,基于神經(jīng)網(wǎng)絡(luò)的視頻壓縮成為積極發(fā)展的研究領(lǐng)域。然而,通常期望進(jìn)一步提高基于神經(jīng)網(wǎng)絡(luò)的圖像/視頻編解碼的編解碼效率。
技術(shù)實(shí)現(xiàn)思路
1、本公開的實(shí)施例提供了一種用于視覺數(shù)據(jù)處理的解決方案。
2、在第一方面中,提出了一種用于視覺數(shù)據(jù)處理的方法。該方法包括:針對(duì)視覺數(shù)據(jù)與視覺數(shù)據(jù)的比特流之間的轉(zhuǎn)換,獲取與視覺數(shù)據(jù)的第一表示相關(guān)聯(lián)的統(tǒng)計(jì)信息,第一表示基于將第一神經(jīng)網(wǎng)絡(luò)應(yīng)用于視覺數(shù)據(jù)被生成;基于統(tǒng)計(jì)信息從視覺數(shù)據(jù)的第二表示確定至少一個(gè)樣本,至少一個(gè)樣本的值不在比特流中,第二表示通過量化第一表示被獲??;以及基于確定執(zhí)行轉(zhuǎn)換。
3、根據(jù)本公開的第一方面的方法,視覺數(shù)據(jù)的表示的量化的至少一個(gè)樣本的值不被包括在比特流中。所以,所提出的方法使得在熵編解碼過程期間可以跳過量化的至少一部分。以此方式,所提出的方法可以有利地提高編解碼速度和編解碼效率。
4、在第二方面中,提出了一種用于視覺數(shù)據(jù)處理的裝置。該裝置包括處理器和其上具有指令的非暫態(tài)存儲(chǔ)器。該指令在由處理器執(zhí)行時(shí)使處理器執(zhí)行根據(jù)本公開的第一方面的方法。
5、在第三方面中,提出了一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。該非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有指令,該指令使處理器執(zhí)行根據(jù)本公開的第一方面的方法。
6、在第四方面中,提出了另一種非暫態(tài)計(jì)算機(jī)可讀記錄介質(zhì)。非暫態(tài)計(jì)算機(jī)可讀記錄介質(zhì)存儲(chǔ)視覺數(shù)據(jù)的比特流,比特流通過由視覺數(shù)據(jù)處理裝置執(zhí)行的方法而生成。該方法包括:針對(duì)視覺數(shù)據(jù)與視覺數(shù)據(jù)的比特流之間的轉(zhuǎn)換,獲取與視覺數(shù)據(jù)的第一表示相關(guān)聯(lián)的統(tǒng)計(jì)信息,第一表示基于將第一神經(jīng)網(wǎng)絡(luò)應(yīng)用于視覺數(shù)據(jù)被生成;基于統(tǒng)計(jì)信息從視覺數(shù)據(jù)的第二表示確定至少一個(gè)樣本,至少一個(gè)樣本的值不在比特流中,第二表示通過量化第一表示被獲?。灰约盎诖_定生成比特流。
7、在第五方面中,提出了一種用于存儲(chǔ)視覺數(shù)據(jù)的比特流的方法。該方法包括:針對(duì)視覺數(shù)據(jù)與視覺數(shù)據(jù)的比特流之間的轉(zhuǎn)換,獲取與視覺數(shù)據(jù)的第一表示相關(guān)聯(lián)的統(tǒng)計(jì)信息,第一表示基于將第一神經(jīng)網(wǎng)絡(luò)應(yīng)用于視覺數(shù)據(jù)被生成;基于統(tǒng)計(jì)信息從視覺數(shù)據(jù)的第二表示確定至少一個(gè)樣本,至少一個(gè)樣本的值不在比特流中,第二表示通過量化第一表示被獲?。换诖_定生成比特流;以及將比特流存儲(chǔ)在非暫態(tài)計(jì)算機(jī)可讀記錄介質(zhì)中。
8、提供本公開內(nèi)容以引入簡(jiǎn)化形式的概念的選擇,這將在以下具體實(shí)施方式中進(jìn)一步描述。本公開內(nèi)容不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或基本特征,也不旨在用于限制所要求保護(hù)的主題的范圍。
1.一種用于視覺數(shù)據(jù)處理的方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中所述第一表示包括所述視覺數(shù)據(jù)的隱表示或所述視覺數(shù)據(jù)的殘差隱表示。
3.根據(jù)權(quán)利要求1-2中任一項(xiàng)所述的方法,其中從所述第二表示確定所述至少一個(gè)樣本包括:
4.根據(jù)權(quán)利要求1-2中任一項(xiàng)所述的方法,其中從所述第二表示確定所述至少一個(gè)樣本包括:
5.根據(jù)權(quán)利要求1-2中任一項(xiàng)所述的方法,其中從所述第二表示確定所述至少一個(gè)樣本包括:
6.根據(jù)權(quán)利要求1-2中任一項(xiàng)所述的方法,其中從所述第二表示確定所述至少一個(gè)樣本包括:
7.根據(jù)權(quán)利要求4或6所述的方法,其中所述第一度量是所述第一統(tǒng)計(jì)值的平均、所述第一統(tǒng)計(jì)值中的最小第一統(tǒng)計(jì)值、或所述第一統(tǒng)計(jì)值中的最大第一統(tǒng)計(jì)值,或者
8.根據(jù)權(quán)利要求4和7-8中任一項(xiàng)所述的方法,其中所述塊的大小為n乘m,并且n和m均為正整數(shù)。
9.根據(jù)權(quán)利要求8所述的方法,其中n和m在所述比特流中被指示。
10.根據(jù)權(quán)利要求3-9中任一項(xiàng)所述的方法,其中所述第一統(tǒng)計(jì)值為方差。
11.根據(jù)權(quán)利要求3-10中任一項(xiàng)所述的方法,其中樣本的目標(biāo)值包括以下一項(xiàng):
12.根據(jù)權(quán)利要求11所述的方法,其中所述第一預(yù)定值為零,或者所述第二統(tǒng)計(jì)值為平均值。
13.根據(jù)權(quán)利要求3-12中任一項(xiàng)所述的方法,其中所述概率基于所述統(tǒng)計(jì)信息被確定。
14.根據(jù)權(quán)利要求3-13中任一項(xiàng)所述的方法,其中以下至少一個(gè)閾值在所述比特流中被指示:所述第一閾值、所述第二閾值、所述第三閾值、所述第四閾值、所述第五閾值、所述第六閾值、所述第七閾值、所述第八閾值、所述第九閾值、所述第十閾值、所述第十一閾值、所述第十二閾值、所述第十三閾值或所述第十四閾值。
15.根據(jù)權(quán)利要求1-14中任一項(xiàng)所述的方法,其中執(zhí)行所述轉(zhuǎn)換包括:
16.根據(jù)權(quán)利要求15所述的方法,其中所述至少一個(gè)樣本包括所述第二表示的所有樣本,并且重構(gòu)所述第二表示包括:
17.根據(jù)權(quán)利要求15所述的方法,其中所述第二表示包括所述至少一個(gè)樣本和不同于所述至少一個(gè)樣本的第一組樣本,并且重構(gòu)所述第二表示包括:
18.根據(jù)權(quán)利要求16-17中任一項(xiàng)所述的方法,其中確定所述至少一個(gè)樣本的值包括:
19.根據(jù)權(quán)利要求18所述的方法,其中所述第二預(yù)定值為常數(shù)標(biāo)量。
20.根據(jù)權(quán)利要求18所述的方法,其中所述第二預(yù)定值為零。
21.根據(jù)權(quán)利要求18-20中任一項(xiàng)所述的方法,其中所述第三統(tǒng)計(jì)值為平均值。
22.根據(jù)權(quán)利要求15-21中任一項(xiàng)所述的方法,其中所述第一表示是所述視覺數(shù)據(jù)的隱表示,并且基于經(jīng)重構(gòu)的所述第二表示執(zhí)行所述轉(zhuǎn)換包括:
23.根據(jù)權(quán)利要求15-21中任一項(xiàng)所述的方法,其中所述第一表示是所述視覺數(shù)據(jù)的殘差隱表示,并且執(zhí)行所述轉(zhuǎn)換包括:
24.根據(jù)權(quán)利要求1-14中任一項(xiàng)所述的方法,其中所述至少一個(gè)樣本包括所述第二表示的所有樣本,并且執(zhí)行所述轉(zhuǎn)換包括:
25.根據(jù)權(quán)利要求1-14中任一項(xiàng)所述的方法,其中所述第二表示包括所述至少一個(gè)樣本和不同于所述至少一個(gè)樣本的第一組樣本,并且執(zhí)行所述轉(zhuǎn)換包括:
26.根據(jù)權(quán)利要求24-25中任一項(xiàng)所述的方法,其中所述第一表示是所述視覺數(shù)據(jù)的隱表示,并且所述方法還包括:
27.根據(jù)權(quán)利要求24-25中任一項(xiàng)所述的方法,其中所述第一表示為所述視覺數(shù)據(jù)的殘差隱表示,并且所述方法還包括:
28.根據(jù)權(quán)利要求23或28所述的方法,其中所述第四統(tǒng)計(jì)值為平均值。
29.根據(jù)權(quán)利要求1-28中任一項(xiàng)所述的方法,其中所述統(tǒng)計(jì)信息通過使用第二神經(jīng)網(wǎng)絡(luò)被生成。
30.根據(jù)權(quán)利要求29所述的方法,其中所述第二神經(jīng)網(wǎng)絡(luò)是估計(jì)模型。
31.根據(jù)權(quán)利要求29-30中任一項(xiàng)所述的方法,其中所述第二神經(jīng)網(wǎng)絡(luò)包括基于神經(jīng)網(wǎng)絡(luò)的子網(wǎng)絡(luò)。
32.根據(jù)權(quán)利要求29-31中任一項(xiàng)所述的方法,其中所述第二神經(jīng)網(wǎng)絡(luò)的輸入包括所述比特流或所述視覺數(shù)據(jù)的隱表示。
33.根據(jù)權(quán)利要求29-30中任一項(xiàng)所述的方法,其中所述統(tǒng)計(jì)信息包括第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,并且所述第二神經(jīng)網(wǎng)絡(luò)包括用于生成所述第一統(tǒng)計(jì)值的第一子網(wǎng)絡(luò)和用于生成所述第二統(tǒng)計(jì)值的第二子網(wǎng)絡(luò)。
34.根據(jù)權(quán)利要求33所述的方法,其中所述第一統(tǒng)計(jì)值為方差,并且所述第二統(tǒng)計(jì)值為平均值。
35.根據(jù)權(quán)利要求33所述的方法,其中所述第一統(tǒng)計(jì)值為高斯概率分布的方差,并且所述第二統(tǒng)計(jì)值為所述高斯概率分布的平均值。
36.根據(jù)權(quán)利要求33-35中任一項(xiàng)所述的方法,其中所述第一子網(wǎng)絡(luò)為超尺度解碼器子網(wǎng)絡(luò),并且所述第二子網(wǎng)絡(luò)為超解碼器子網(wǎng)絡(luò)。
37.根據(jù)權(quán)利要求1-36中任一項(xiàng)所述的方法,其中以下至少一項(xiàng)在所述比特流中被指示:
38.根據(jù)權(quán)利要求1-36中任一項(xiàng)所述的方法,其中以下至少一項(xiàng)取決于所述視覺數(shù)據(jù)的顏色格式和/或顏色分量:
39.根據(jù)權(quán)利要求1-38中任一項(xiàng)所述的方法,其中被包括在所述比特流中的值在以下一項(xiàng)處被編解碼:
40.根據(jù)權(quán)利要求1-39中任一項(xiàng)所述的方法,其中被包括在所述比特流中的值在被編解碼之前被二值化。
41.根據(jù)權(quán)利要求1-40中任一項(xiàng)所述的方法,其中被包括在所述比特流中的值利用至少一個(gè)算術(shù)編解碼上下文而被編解碼。
42.根據(jù)權(quán)利要求1-41中任一項(xiàng)所述的方法,其中所述視覺數(shù)據(jù)包括視頻的圖片或圖像。
43.根據(jù)權(quán)利要求1-42中任一項(xiàng)所述的方法,其中所述轉(zhuǎn)換包括將所述視覺數(shù)據(jù)編碼到所述比特流中。
44.根據(jù)權(quán)利要求1-42中任一項(xiàng)所述的方法,其中所述轉(zhuǎn)換包括從所述比特流中解碼所述視覺數(shù)據(jù)。
45.一種用于視覺數(shù)據(jù)處理的裝置,包括處理器和其上具有指令的非暫態(tài)存儲(chǔ)器,其中所述指令在由所述處理器執(zhí)行時(shí)使所述處理器執(zhí)行根據(jù)權(quán)利要求1-44中任一項(xiàng)所述的方法。
46.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有指令,所述指令使處理器執(zhí)行根據(jù)權(quán)利要求1-44中任一項(xiàng)所述的方法。
47.一種非暫態(tài)計(jì)算機(jī)可讀記錄介質(zhì),存儲(chǔ)視覺數(shù)據(jù)的比特流,所述比特流通過由視覺數(shù)據(jù)處理裝置執(zhí)行的方法而生成,其中所述方法包括:
48.一種用于存儲(chǔ)視覺數(shù)據(jù)的比特流的方法,包括: