本申請(qǐng)一些實(shí)施例涉及圖像編解碼。更具體地講,涉及一種圖像編碼方法及裝置。
背景技術(shù):
1、目前,圖像/視頻編碼算法普遍是針對(duì)人類視覺系統(tǒng)進(jìn)行優(yōu)化,適于人類觀看應(yīng)用,但對(duì)于其它應(yīng)用場(chǎng)景,如現(xiàn)在非常常見的圖像處理和機(jī)器視覺應(yīng)用,則沒有進(jìn)行優(yōu)化。對(duì)于這些應(yīng)用,往往需要先將圖像完全解碼得到重建圖像/視頻,然后才能將重建圖像/視頻作為這些應(yīng)用的輸入。這一過程復(fù)雜耗時(shí),同時(shí)解碼后的有損圖像也往往會(huì)對(duì)機(jī)器視覺任務(wù)的準(zhǔn)確性產(chǎn)生負(fù)面影響。在保持圖像主觀質(zhì)量不變的情況下減少碼率,同提供一種適合直接作為機(jī)器視覺輸入數(shù)據(jù)的表示已成為一個(gè)亟待解決的問題,因此高效的機(jī)器視頻編碼(video?coding?for?machines,vcm)已經(jīng)成為學(xué)術(shù)界和工業(yè)界的一個(gè)重要課題。vcm技術(shù)致力于在一定程度上連接圖像/視頻壓縮和特征壓縮這兩個(gè)獨(dú)立的研究方向,同時(shí)盡可能聯(lián)合優(yōu)化高準(zhǔn)確度的機(jī)器視覺任務(wù)和高保真度的人眼視覺重構(gòu)。基于此,動(dòng)態(tài)圖像專家組(moving?picture?expert?group,mpeg)成立了一個(gè)名為vcm的小組,以研究vcm技術(shù)標(biāo)準(zhǔn)化的需求。jpeg?ai是聯(lián)合圖像專家組(joint?photographic?experts?group,jpeg)創(chuàng)建的一個(gè)基于機(jī)器學(xué)習(xí)的可拓展圖像編碼標(biāo)準(zhǔn)。jpeg?ai針對(duì)人眼視覺與傳統(tǒng)的圖像編碼相比,在相同的主觀質(zhì)量下,獲得了更低的碼率。同時(shí),jpeg?ai的模型也提出vcm相應(yīng)的需求。
2、目前,基于機(jī)器學(xué)習(xí)的可拓展圖像編碼器中,輸入圖像經(jīng)過分析變換網(wǎng)絡(luò)處理獲取輸入圖像的潛在特征(latent?represetation),然后將潛在特征的前預(yù)設(shè)數(shù)量個(gè)通道確定為增強(qiáng)層通道以及將剩余通道確定為基礎(chǔ)層通道,基礎(chǔ)層通道和增強(qiáng)層通道在經(jīng)過進(jìn)一步消除冗余后得到碼流。如上所述,目前的基于機(jī)器學(xué)習(xí)的可拓展圖像編碼器中,潛在特征會(huì)被按照固定位置分割為基礎(chǔ)層潛在特征和增強(qiáng)層潛在特征,然而直接按照位置將潛在特征剪裁為基礎(chǔ)層潛在特征和增強(qiáng)層潛在特征,很可能會(huì)出現(xiàn)基礎(chǔ)層潛在特征中部分通道的特征不適用于下游任務(wù)等問題,進(jìn)而影響編碼性能以及機(jī)器視覺性能。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)示例性的實(shí)施方式提供一種圖像編碼方法及裝置,用于提升基于機(jī)器學(xué)習(xí)的可拓展圖像編碼器的編碼性能以及機(jī)器視覺性能。
2、本申請(qǐng)一些實(shí)施例提供技術(shù)方案如下:
3、第一方面,本申請(qǐng)一些實(shí)施例提供了一種圖像編碼方法,包括:
4、獲取目標(biāo)圖像的潛在特征;
5、基于預(yù)設(shè)量化參數(shù)對(duì)所述潛在特征進(jìn)行量化處理,以獲取量化潛在特征;
6、基于通道注意力機(jī)制對(duì)所述量化潛在特征進(jìn)行處理,以獲取所述潛在特征的通道注意力掩碼;
7、根據(jù)所述潛在特征的通道注意力掩碼將所述潛在特征劃分為基礎(chǔ)層潛在特征和增強(qiáng)層潛在特征;
8、根據(jù)所述基礎(chǔ)層潛在特征和所述增強(qiáng)層潛在特征生成所述目標(biāo)圖像的編碼數(shù)據(jù)。
9、第二方面,本申請(qǐng)一些實(shí)施例提供了一種圖像編碼裝置,包括:
10、存儲(chǔ)器,被配置為存儲(chǔ)計(jì)算機(jī)程序;
11、處理器,被配置為用于在調(diào)用計(jì)算機(jī)程序時(shí),使得所述圖像編碼裝置實(shí)現(xiàn)第一方面所述的圖像編碼方法。
12、第三方面,本申請(qǐng)一些實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被計(jì)算設(shè)備執(zhí)行時(shí),使得所述計(jì)算設(shè)備實(shí)現(xiàn)第一方面所述的圖像編碼方法。
13、第四方面,本申請(qǐng)一些實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)所述計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí),使得所述計(jì)算機(jī)實(shí)現(xiàn)第一方面所述的圖像編碼方法。
14、由以上技術(shù)方案可知,本申請(qǐng)實(shí)施例提供的圖像編碼方法在對(duì)目標(biāo)圖像進(jìn)行編碼時(shí),首先獲取目標(biāo)圖像的潛在特征,然后基于預(yù)設(shè)量化參數(shù)對(duì)所述潛在特征進(jìn)行量化處理,以獲取量化潛在特征,再基于通道注意力機(jī)制對(duì)所述量化潛在特征進(jìn)行處理,以獲取所述潛在特征的通道注意力掩碼,以及根據(jù)所述潛在特征的通道注意力掩碼將所述潛在特征劃分為基礎(chǔ)層潛在特征和增強(qiáng)層潛在特征,最后根據(jù)所述基礎(chǔ)層潛在特征和所述增強(qiáng)層潛在特征生成所述目標(biāo)圖像的編碼數(shù)據(jù)。相比于現(xiàn)有技術(shù)中按照固定位置將潛在特征分割為基礎(chǔ)層潛在特征和增強(qiáng)層潛在特征,本申請(qǐng)實(shí)施例可以基于通道注意力機(jī)制獲取潛在特征的通道注意力掩碼,然后再根據(jù)所述潛在特征的通道注意力掩碼將所述潛在特征劃分為基礎(chǔ)層潛在特征和增強(qiáng)層潛在特征,因此本申請(qǐng)實(shí)施例可以更加合理的將潛在特征劃分為基礎(chǔ)層潛在特征和增強(qiáng)層潛在特征,進(jìn)而提升基于機(jī)器學(xué)習(xí)的可拓展圖像編碼器的編碼性能以及機(jī)器視覺性能。
1.一種圖像編碼方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取目標(biāo)圖像的潛在特征,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于通道注意力機(jī)制對(duì)所述量化潛在特征進(jìn)行處理,以獲取所述潛在特征的通道注意力掩碼,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述潛在特征的通道注意力掩碼將所述潛在特征劃分為基礎(chǔ)層潛在特征和增強(qiáng)層潛在特征,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在根據(jù)所述基礎(chǔ)層潛在特征和所述增強(qiáng)層潛在特征生成所述目標(biāo)圖像的編碼數(shù)據(jù)之前,所述方法還包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述基礎(chǔ)層潛在特征和所述增強(qiáng)層潛在特征生成所述目標(biāo)圖像的編碼數(shù)據(jù),包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)所述基礎(chǔ)層重建潛在特征和所述增強(qiáng)層重建潛在特征對(duì)所述增強(qiáng)層量化潛在特征和所述基礎(chǔ)層量化潛在特征進(jìn)行熵編碼,包括:
9.根據(jù)權(quán)利要求7所述的方法,所述根據(jù)所述基礎(chǔ)層重建潛在特征和所述增強(qiáng)層重建潛在特征對(duì)所述增強(qiáng)層量化潛在特征和所述基礎(chǔ)層量化潛在特征進(jìn)行熵編碼,包括:
10.根據(jù)權(quán)利要求9所述的方法,所述根據(jù)所述基礎(chǔ)層重建潛在特征和所述增強(qiáng)層重建潛在特征對(duì)所述增強(qiáng)層量化潛在特征和所述基礎(chǔ)層量化潛在特征進(jìn)行熵編碼,以獲取第三編碼數(shù)據(jù)和第四編碼數(shù)據(jù),包括:
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述根據(jù)所述基礎(chǔ)層重建潛在特征和所述增強(qiáng)層重建潛在特征對(duì)所述增強(qiáng)層量化潛在特征和所述基礎(chǔ)層量化潛在特征進(jìn)行熵編碼,以獲取第三編碼數(shù)據(jù)和第四編碼數(shù)據(jù),還包括:
12.一種圖像編碼裝置,其特征在于,包括: