本發(fā)明實施例中的至少一個實施例總體上涉及一種用于使用神經網絡對視頻數據進行編碼和解碼的方法和裝置,并且具體地,涉及一種允許共享神經網絡信息從而在解碼器側允許靈活推理過程的方法。
背景技術:
1、為了實現高壓縮效率,視頻編碼方案通常采用預測和變換來利用視頻內容中的空間和時間冗余。在編碼期間,將視頻內容的圖片劃分為樣本塊(即,像素),然后將這些塊分割為一個或多個子塊(以下稱為原始子塊)。然后,對每個子塊應用幀內或幀間預測以利用圖像內或圖像間的相關性。無論使用哪種預測方法(幀內或幀間),都針對每個原始子塊確定預測子塊。然后,對表示原始子塊與預測子塊之間的差異的子塊(通常表示為預測誤差子塊、預測殘差子塊或簡稱為殘差子塊)進行變換、量化和熵編碼,以生成編碼的視頻流。為了重建視頻,通過與變換、量化和熵編碼相對應的逆過程來解碼壓縮數據。
2、在最近探索的視頻編碼解決方案中,已經提出了例如在后濾波階段或用于塊預測的基于神經網絡的處理。在實際使用之前,需要訓練神經網絡以便能夠提供準確的結果。神經網絡的訓練是通常需要針對大量輸入數據將由神經網絡提供的輸出數據與這些輸出數據的預期值進行比較的計算密集型過程。一旦經過訓練,神經網絡就可以將其學到的內容應用于輸入數據,即使在訓練過程期間從未考慮過這些輸入數據也是如此。將經訓練的神經網絡應用于輸入數據以獲得輸出數據的過程被稱為推理。
3、在視頻壓縮領域眾所周知,在編碼器側應用的過程應可在解碼器側完全復制,以確保編碼器與解碼器之間沒有漂移。這同樣適用于在編碼器和解碼器的預測環(huán)路中應用的基于神經網絡(nn)的過程。這種對可復制性的要求意味著在解碼器側推理的輸出數據應與在編碼器側推理的輸出數據相同。另外,通常預期兩個解碼器(可能具有不同的實現方式)系統地提供相同的結果。然而,通常將編碼器和解碼器設計為具有不同的軟件或硬件約束。例如,編碼器可以能夠比解碼器在存儲器中存儲更多的數據。處理速度通常是關鍵問題的解碼器與沒有相同處理速度問題的編碼器相比可以能夠并行處理更多的數據。在智能手機中實現的解碼器與在pc上實現的解碼器相比通常沒有相同的硬件約束。在這種情況下,編碼器和解碼器的開發(fā)者在設計基于nn的過程的推理過程時應留出盡可能多的靈活性,同時首先確保由編碼器側的基于nn的環(huán)內過程提供的輸出在解碼器側的可復制性,并且其次確保具有不同實現方式的兩個解碼器提供相同的結果。
4、期望提出能克服上述問題的解決方案。特別地,期望提出允許確保nn推理過程的推理過程的靈活性的解決方案。
技術實現思路
1、在第一方面,本發(fā)明實施例中的一個或多個提供了一種方法,所述方法包括:
2、獲得視頻流;
3、獲得與所述視頻流相關聯的元數據,所述元數據表示用于基于神經網絡的圖像處理工具的推理過程的面片(patch)周圍的容許余量;以及
4、應用所述基于神經網絡的圖像處理工具對所述視頻流進行解碼。
5、在實施例中,所述容許余量取決于感受野,所述感受野取決于所述基于神經網絡的圖像處理工具中使用的神經網絡。
6、在實施例中,所述元數據包括表示至少一個句法元素,該至少一個句法元素取決于所述基于神經網絡的圖像處理工具中使用的所述神經網絡的所述感受野。
7、在實施例中,所述至少一個句法元素包括:豎直定義所述感受野的第一句法元素和水平定義所述感受野的第二句法元素。
8、在實施例中,通過將表示取決于所述神經網絡的所述感受野的至少一個值與在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片周圍的余量進行比較,確定所述推理過程處理比在所述基于神經網路的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小更大的面片的能力。
9、在實施例中,在所述元數據中通過句法元素來指定所述推理過程處理比在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小更大的面片的能力。
10、在實施例中,所述元數據包括至少一個句法元素,所述至少一個句法元素表示至少一個偏移,所述至少一個偏移被添加到表示取決于所述神經網絡的所述感受野的值或在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片周圍的余量,響應于由所述推理過程基于當前面片的位置處理所述當前面片而使用偏移,所述當前面片的大小小于在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小。
11、在實施例中,所述元數據包括至少一個句法元素,所述至少一個句法元素表示所述基于神經網絡的圖像處理工具的所述推理過程的輸出面片在由所述推理過程生成的輸出張量中的位置。
12、在第二方面,本發(fā)明實施例中的一個或多個提供了一種方法,所述方法包括:
13、獲得視頻流;以及
14、以與所述視頻流相關聯的元數據的形式發(fā)信號通知表示用于基于神經網絡的圖像處理工具的推理過程的面片周圍的容許余量的信息。
15、在實施例中,所述容許余量取決于感受野,所述感受野取決于所述基于神經網絡的圖像處理工具中使用的神經網絡。
16、在實施例中,所述元數據包括至少一個句法元素,該至少一個句法元素表示取決于所述基于神經網絡的圖像處理工具上使用的所述神經網絡的所述感受野。
17、在實施例中,所述至少一個句法元素包括:豎直定義所述感受野的第一句法元素和水平定義所述感受野的第二句法元素。
18、在實施例中,通過將表示取決于所述神經網絡的所述感受野的至少一個值與在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片周圍的余量進行比較,確定所述推理過程處理比在所述基于神經網路的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小更大的面片的能力。
19、在實施例中,在所述元數據中通過句法元素來指定所述推理過程處理比在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小更大的面片的能力。
20、在實施例中,所述元數據包括至少一個句法元素,所述至少一個句法元素表示至少一個偏移,所述至少一個偏移被添加到表示取決于所述神經網絡的所述感受野的值或在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片周圍的余量,響應于由所述推理過程基于當前面片的位置處理所述當前面片而使用偏移,所述當前面片的大小小于在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小。
21、在實施例中,所述元數據包括至少一個句法元素,所述至少一個句法元素表示所述基于神經網絡的圖像處理工具的所述推理過程的輸出面片在由所述推理過程生成的輸出張量中的位置。
22、在實施例中,通過對原始視頻應用視頻壓縮過程來獲得所述視頻流,所述視頻壓縮過程包括在所述視頻壓縮過程的預測環(huán)路中的所述基于神經網絡的圖像處理工具,或者作為后處理工具的所述基于神經網絡的圖像處理工具。
23、在第三方面,本發(fā)明實施例中的一個或多個提供了一種信號,所述信號包括與視頻流相關聯的元數據,所述元數據表示用于基于神經網絡的圖像處理工具的推理過程的面片周圍的容許余量。
24、在第四方面,本發(fā)明實施例中的一個或多個提供了一種計算機程序,所述計算機程序包括用于實現第一方面或第二方面的方法的程序代碼指令。
25、在第五方面,本發(fā)明實施例中的一個或多個提供了一種非暫時性信息存儲介質,所述非暫時性信息存儲介質包括用于實現第一方面或第二方面的方法的程序代碼指令。
26、在第六方面,本發(fā)明實施例中的一個或多個提供了一種裝置,所述裝置包括電子電路,所述電子電路被配置為:
27、獲得視頻流;
28、獲得與所述視頻流相關聯的元數據,所述元數據表示用于基于神經網絡的圖像處理工具的推理過程的面片周圍的容許余量;以及
29、應用所述基于神經網絡的圖像處理工具對所述視頻流進行解碼。
30、在實施例中,所述容許余量取決于感受野,所述感受野取決于所述基于神經網絡的圖像處理工具中使用的神經網絡。
31、在實施例中,所述元數據包括至少一個句法元素,該至少一個句法元素表示取決于所述基于神經網絡的圖像處理工具中使用的所述神經網絡的所述感受野。
32、在實施例中,所述至少一個句法元素包括:豎直定義所述感受野的第一句法元素和水平定義所述感受野的第二句法元素。
33、在實施例中,通過將表示取決于所述神經網絡的所述感受野的至少一個值與在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片周圍的余量進行比較,確定所述推理過程處理比在所述基于神經網路的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小更大的面片的能力。
34、在實施例中,在所述元數據中通過句法元素來指定所述推理過程處理比在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小更大的面片的能力。
35、在實施例中,所述元數據包括至少一個句法元素,所述至少一個句法元素表示至少一個偏移,所述至少一個偏移被添加到表示取決于所述神經網絡的所述感受野的值或在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片周圍的余量,響應于由所述推理過程基于當前面片的位置處理所述當前面片而使用偏移,所述當前面片的大小小于在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小。
36、在實施例中,所述元數據包括至少一個句法元素,所述至少一個句法元素表示所述基于神經網絡的圖像處理工具的所述推理過程的輸出面片在由所述推理過程生成的輸出張量中的位置。
37、在第七方面,本發(fā)明實施例中的一個或多個提供了一種裝置,所述裝置包括電子電路,所述電子電路被配置為:
38、獲得視頻流;以及
39、以與所述視頻流相關聯的元數據的形式發(fā)信號通知表示用于基于神經網絡的圖像處理工具的推理過程的面片周圍的容許余量的信息。
40、在實施例中,所述容許余量取決于感受野,所述感受野取決于所述基于神經網絡的圖像處理工具中使用的神經網絡。
41、在實施例中,所述元數據包括至少一個句法元素,該至少一個句法元素表示取決于所述基于神經網絡的圖像處理工具上使用的所述神經網絡的所述感受野。
42、在實施例中,所述至少一個句法元素包括:豎直定義所述感受野的第一句法元素和水平定義所述感受野的第二句法元素。
43、在實施例中,通過將表示取決于所述神經網絡的所述感受野的至少一個值與在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片周圍的余量進行比較,確定所述推理過程處理比在所述基于神經網路的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小更大的面片的能力。
44、在實施例中,在所述元數據中通過句法元素來指定所述推理過程處理比在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小更大的面片的能力。
45、在實施例中,所述元數據包括至少一個句法元素,所述至少一個句法元素表示至少一個偏移,所述至少一個偏移被添加到表示取決于所述神經網絡的所述感受野的值或在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片周圍的余量,響應于由所述推理過程基于當前面片的位置處理所述當前面片而使用偏移,所述當前面片的大小小于在所述基于神經網絡的圖像處理工具中使用的所述神經網絡的定義期間考慮的面片大小。
46、在實施例中,所述元數據包括至少一個句法元素,所述至少一個句法元素表示所述基于神經網絡的圖像處理工具的所述推理過程的輸出面片在由所述推理過程生成的輸出張量中的位置。
47、在實施例中,通過對原始視頻應用視頻壓縮過程來獲得所述視頻流,所述視頻壓縮過程包括在所述視頻壓縮過程的預測環(huán)路中的所述基于神經網絡的圖像處理工具,或者作為后處理工具的所述基于神經網絡的圖像處理工具。