本發(fā)明屬于自注意力機制處理圖像數(shù)據(jù),具體涉及基于vit的融合高價值局部信息的圖像編碼方法及系統(tǒng)。
背景技術:
1、圖像壓縮是指以較少的比特有損或無損地表示原來的像素矩陣的技術,以減少表示數(shù)字圖像時需要的數(shù)據(jù)量,也稱圖像編碼·。
2、一般而言,在使用自注意力機制去處理圖像,vit(vision?transformer)是值得依賴的有效的方法。通過將圖片分為16乘16的window,再將每個window投影為固定長度的向量送入transformer。從而減少了輸入隊列的長度,降低算法復雜度。由于vit是將劃分的window整個作為輸入,會丟失window內部的局部信息,在使用vit提取圖像特征時,會選擇加入部分window間的自注意力機制以補償丟失的局部信息。
技術實現(xiàn)思路
1、針對現(xiàn)有技術的不足,本發(fā)明公開了一種基于vit的融合高價值局部信息的圖像編碼方法及系統(tǒng),先生成全局信息,由全局信息為選擇局部信息提取時提供指導,使得選擇的patch塊相關性更強,所提取的window內部的局部信息更有價值。
2、為實現(xiàn)上述目的,本發(fā)明提供了如下方案:
3、基于vit的融合高價值局部信息的圖像編碼方法,包括以下步驟:
4、獲取待壓縮圖像,并將所述待壓縮圖像進行基于窗口劃分的全局特征提取,獲得窗口之間的信息;基于窗口之間的信息,獲得全局信息;
5、基于所述全局信息,進行窗口之內的特征提取,獲得局部信息;
6、基于自注意力機制,將所述全局信息與所述局部信息進行融合,獲得融合信息,完成基于vit的融合高價值局部信息的圖像編碼。
7、優(yōu)選的,將所述待壓縮圖像平均劃分為若干非重疊窗口,并在每個窗口中添加patch大小的class?token;
8、基于自注意力機制,對添加了class?token的窗口內部進行特征提取,獲得代表當前窗口特征的class?token;
9、基于自注意力機制,對所有代表當前窗口特征的class?token進行特征提取,獲得所述全局信息。
10、優(yōu)選的,基于所述全局信息,獲得窗口與窗口親合度的相關性矩陣;
11、基于所述相關性矩陣,選取與每個窗口滿足預設相關性的窗口,獲得檢索矩陣;
12、基于所述檢索矩陣,利用自注意力機制進行窗口之內的特征提取,獲得所述局部信息。
13、優(yōu)選的,將所述全局信息與所述局部信息進行融合的方法為:
14、基于所述全局信息,獲得查詢矩陣;
15、基于所述局部信息,獲得密鑰矩陣;
16、對所述查詢矩陣以及所述密鑰矩陣做自注意力機制,獲得權重參數(shù)矩陣;
17、將所述權重參數(shù)矩陣與所述全局信息相乘,并將相乘結果與所述局部信息相加,獲得所述融合信息。
18、本發(fā)明還提供一種基于vit的融合高價值局部信息的圖像編碼系統(tǒng),用于實現(xiàn)所述的方法,包括:
19、全局信息獲取模塊,用于獲取待壓縮圖像,并將所述待壓縮圖像進行基于窗口劃分的全局特征提取,獲得窗口之間的信息;基于窗口之間的信息,獲得全局信息;
20、局部信息獲取模塊,用于基于所述全局信息,進行窗口之內的特征提取,獲得局部信息;
21、信息融合模塊,用于基于自注意力機制,將所述全局信息與所述局部信息進行融合,獲得融合信息,完成基于vit的融合高價值局部信息的圖像編碼。
22、優(yōu)選的,所述全局信息獲取模塊包括:
23、劃分單元,用于將所述待壓縮圖像平均劃分為若干非重疊窗口,并在每個窗口中添加patch大小的class?token;
24、第一特征提取單元,用于基于自注意力機制,對添加了class?token的窗口內部進行特征提取,獲得代表當前窗口特征的class?token;
25、第二特征提取單元,用于基于自注意力機制,對所有代表當前窗口特征的classtoken進行特征提取,獲得所述全局信息。
26、優(yōu)選的,所述局部信息獲取模塊包括:
27、相關性矩陣獲取單元,用于基于所述全局信息,獲得窗口與窗口親合度的相關性矩陣;
28、檢索矩陣獲取單元,用于基于所述相關性矩陣,選取與每個窗口滿足預設相關性的窗口,獲得檢索矩陣;
29、局部信息獲取單元,用于基于所述檢索矩陣,利用自注意力機制進行窗口之內的特征提取,獲得所述局部信息。
30、優(yōu)選的,所述信息融合模塊包括:
31、查詢矩陣獲取單元,用于基于所述全局信息,獲得查詢矩陣;
32、密鑰矩陣獲取單元,用于基于所述局部信息,獲得密鑰矩陣;
33、權重參數(shù)矩陣獲取單元,用于對所述查詢矩陣以及所述密鑰矩陣做自注意力機制,獲得權重參數(shù)矩陣;
34、信息融合單元,用于將所述權重參數(shù)矩陣與所述全局信息相乘,并將相乘結果與所述局部信息相加,獲得所述融合信息。
35、與現(xiàn)有技術相比,本發(fā)明的有益效果為:本發(fā)明公開的全局信息提取步驟,可以只使用劃分窗口數(shù)量的class?token作為自注意力機制的輸入,即能獲取整張圖像的信息,又減少了參與計算的輸入。局部特征提取步驟在窗口相關性矩陣的指引下選擇性的提取窗口間內部patch的信息,即減少了計算,又確保所提取的局部信息來自于更有相關性的窗口間。特征信息融合步驟使得全局信息與局部信息相融合,使得最終的結果即包含整體信息局部信息在同一緯度恰當?shù)娜诤掀饋恚沟米罱K的壓縮結果保存信息更加全面,圖形信息的損失可以被有效降低,同時由于并非計算所有窗口之間的局部信息計算負擔也會被減輕。
1.基于vit的融合高價值局部信息的圖像編碼方法,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的基于vit的融合高價值局部信息的圖像編碼方法,其特征在于,獲得所述全局信息的方法為:
3.根據(jù)權利要求1所述的基于vit的融合高價值局部信息的圖像編碼方法,其特征在于,獲得所述局部信息的方法為:
4.根據(jù)權利要求1所述的基于vit的融合高價值局部信息的圖像編碼方法,其特征在于,將所述全局信息與所述局部信息進行融合的方法為:
5.基于vit的融合高價值局部信息的圖像編碼系統(tǒng),其特征在于,用于實現(xiàn)權利要求1-4任一項所述的方法,包括
6.根據(jù)權利要求5所述的基于vit的融合高價值局部信息的圖像編碼系統(tǒng),其特征在于,所述全局信息獲取模塊包括:
7.根據(jù)權利要求5所述的基于vit的融合高價值局部信息的圖像編碼系統(tǒng),其特征在于,所述局部信息獲取模塊包括:
8.根據(jù)權利要求7所述的基于vit的融合高價值局部信息的圖像編碼系統(tǒng),其特征在于,所述信息融合模塊包括: