基于ViT的融合高價值局部信息的圖像編碼方法及系統(tǒng)

文檔序號：39618260發(fā)布日期：2024-10-11 13:33閱讀：12來源：國知局

本發(fā)明屬于自注意力機制處理圖像數(shù)據(jù)，具體涉及基于vit的融合高價值局部信息的圖像編碼方法及系統(tǒng)。

背景技術：

1、圖像壓縮是指以較少的比特有損或無損地表示原來的像素矩陣的技術，以減少表示數(shù)字圖像時需要的數(shù)據(jù)量，也稱圖像編碼·。

2、一般而言，在使用自注意力機制去處理圖像，vit(vision?transformer)是值得依賴的有效的方法。通過將圖片分為16乘16的window,再將每個window投影為固定長度的向量送入transformer。從而減少了輸入隊列的長度，降低算法復雜度。由于vit是將劃分的window整個作為輸入，會丟失window內部的局部信息，在使用vit提取圖像特征時,會選擇加入部分window間的自注意力機制以補償丟失的局部信息。

技術實現(xiàn)思路

1、針對現(xiàn)有技術的不足，本發(fā)明公開了一種基于vit的融合高價值局部信息的圖像編碼方法及系統(tǒng)，先生成全局信息，由全局信息為選擇局部信息提取時提供指導，使得選擇的patch塊相關性更強，所提取的window內部的局部信息更有價值。

2、為實現(xiàn)上述目的，本發(fā)明提供了如下方案：

3、基于vit的融合高價值局部信息的圖像編碼方法，包括以下步驟：

4、獲取待壓縮圖像，并將所述待壓縮圖像進行基于窗口劃分的全局特征提取，獲得窗口之間的信息；基于窗口之間的信息，獲得全局信息；

5、基于所述全局信息，進行窗口之內的特征提取，獲得局部信息；

6、基于自注意力機制，將所述全局信息與所述局部信息進行融合，獲得融合信息，完成基于vit的融合高價值局部信息的圖像編碼。

7、優(yōu)選的，將所述待壓縮圖像平均劃分為若干非重疊窗口，并在每個窗口中添加patch大小的class?token；

8、基于自注意力機制，對添加了class?token的窗口內部進行特征提取，獲得代表當前窗口特征的class?token；

9、基于自注意力機制，對所有代表當前窗口特征的class?token進行特征提取，獲得所述全局信息。

10、優(yōu)選的，基于所述全局信息，獲得窗口與窗口親合度的相關性矩陣；

11、基于所述相關性矩陣，選取與每個窗口滿足預設相關性的窗口，獲得檢索矩陣；

12、基于所述檢索矩陣，利用自注意力機制進行窗口之內的特征提取，獲得所述局部信息。

13、優(yōu)選的，將所述全局信息與所述局部信息進行融合的方法為：

14、基于所述全局信息，獲得查詢矩陣；

15、基于所述局部信息，獲得密鑰矩陣；

16、對所述查詢矩陣以及所述密鑰矩陣做自注意力機制，獲得權重參數(shù)矩陣；

17、將所述權重參數(shù)矩陣與所述全局信息相乘，并將相乘結果與所述局部信息相加，獲得所述融合信息。

18、本發(fā)明還提供一種基于vit的融合高價值局部信息的圖像編碼系統(tǒng)，用于實現(xiàn)所述的方法，包括：

19、全局信息獲取模塊，用于獲取待壓縮圖像，并將所述待壓縮圖像進行基于窗口劃分的全局特征提取，獲得窗口之間的信息；基于窗口之間的信息，獲得全局信息；

20、局部信息獲取模塊，用于基于所述全局信息，進行窗口之內的特征提取，獲得局部信息；

21、信息融合模塊，用于基于自注意力機制，將所述全局信息與所述局部信息進行融合，獲得融合信息，完成基于vit的融合高價值局部信息的圖像編碼。

22、優(yōu)選的，所述全局信息獲取模塊包括：

23、劃分單元，用于將所述待壓縮圖像平均劃分為若干非重疊窗口，并在每個窗口中添加patch大小的class?token；

24、第一特征提取單元，用于基于自注意力機制，對添加了class?token的窗口內部進行特征提取，獲得代表當前窗口特征的class?token；

25、第二特征提取單元，用于基于自注意力機制，對所有代表當前窗口特征的classtoken進行特征提取，獲得所述全局信息。

26、優(yōu)選的，所述局部信息獲取模塊包括：

27、相關性矩陣獲取單元，用于基于所述全局信息，獲得窗口與窗口親合度的相關性矩陣；

28、檢索矩陣獲取單元，用于基于所述相關性矩陣，選取與每個窗口滿足預設相關性的窗口，獲得檢索矩陣；

29、局部信息獲取單元，用于基于所述檢索矩陣，利用自注意力機制進行窗口之內的特征提取，獲得所述局部信息。

30、優(yōu)選的，所述信息融合模塊包括：

31、查詢矩陣獲取單元，用于基于所述全局信息，獲得查詢矩陣；

32、密鑰矩陣獲取單元，用于基于所述局部信息，獲得密鑰矩陣；

33、權重參數(shù)矩陣獲取單元，用于對所述查詢矩陣以及所述密鑰矩陣做自注意力機制，獲得權重參數(shù)矩陣；

34、信息融合單元，用于將所述權重參數(shù)矩陣與所述全局信息相乘，并將相乘結果與所述局部信息相加，獲得所述融合信息。

35、與現(xiàn)有技術相比，本發(fā)明的有益效果為：本發(fā)明公開的全局信息提取步驟，可以只使用劃分窗口數(shù)量的class?token作為自注意力機制的輸入，即能獲取整張圖像的信息，又減少了參與計算的輸入。局部特征提取步驟在窗口相關性矩陣的指引下選擇性的提取窗口間內部patch的信息，即減少了計算，又確保所提取的局部信息來自于更有相關性的窗口間。特征信息融合步驟使得全局信息與局部信息相融合，使得最終的結果即包含整體信息局部信息在同一緯度恰當?shù)娜诤掀饋恚沟米罱K的壓縮結果保存信息更加全面，圖形信息的損失可以被有效降低，同時由于并非計算所有窗口之間的局部信息計算負擔也會被減輕。

技術特征：

1.基于vit的融合高價值局部信息的圖像編碼方法，其特征在于，包括以下步驟：

2.根據(jù)權利要求1所述的基于vit的融合高價值局部信息的圖像編碼方法，其特征在于，獲得所述全局信息的方法為：

3.根據(jù)權利要求1所述的基于vit的融合高價值局部信息的圖像編碼方法，其特征在于，獲得所述局部信息的方法為：

4.根據(jù)權利要求1所述的基于vit的融合高價值局部信息的圖像編碼方法，其特征在于，將所述全局信息與所述局部信息進行融合的方法為：

5.基于vit的融合高價值局部信息的圖像編碼系統(tǒng)，其特征在于，用于實現(xiàn)權利要求1-4任一項所述的方法，包括

6.根據(jù)權利要求5所述的基于vit的融合高價值局部信息的圖像編碼系統(tǒng)，其特征在于，所述全局信息獲取模塊包括：

7.根據(jù)權利要求5所述的基于vit的融合高價值局部信息的圖像編碼系統(tǒng)，其特征在于，所述局部信息獲取模塊包括：

8.根據(jù)權利要求7所述的基于vit的融合高價值局部信息的圖像編碼系統(tǒng)，其特征在于，所述信息融合模塊包括：

技術總結
本發(fā)明提供基于ViT的融合高價值局部信息的圖像編碼方法及系統(tǒng)，方法包括以下步驟：獲取待壓縮圖像，并將所述待壓縮圖像進行基于窗口劃分的全局特征提取，獲得窗口之間的信息；基于窗口之間的信息，獲得全局信息；基于所述全局信息，進行窗口之內的特征提取，獲得局部信息；基于自注意力機制，將所述全局信息與所述局部信息進行融合，獲得融合信息，完成基于ViT的融合高價值局部信息的圖像編碼?；诒景l(fā)明的技術方案，能夠實現(xiàn)低計算，低碼率，低損失的圖形壓縮技術。

技術研發(fā)人員：高艷博,王韞,蔡珣,張承瀟,李帥,朱波,張德亮
受保護的技術使用者：山東大學
技術研發(fā)日：
技術公布日：2024/10/10

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：高艷博,王韞,蔡珣,張承瀟,李帥,朱波,張德亮
技術所有人：山東大學
我是此專利的發(fā)明人

上一篇：一種卡馬西平噴霧劑的制作方法
上一篇：一種SiO2氣凝膠復合保溫材料及其制備方法與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術及應用 3.機電一體化產品開發(fā) 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于ViT的融合高價值局部信息的圖像編碼方法及系統(tǒng)