一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng)

文檔序號(hào)：40391892發(fā)布日期：2024-12-20 12:15閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)增強(qiáng)，尤其涉及一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng)。

背景技術(shù)：

1、為了防止深度網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)的過擬合，數(shù)據(jù)增強(qiáng)得到了廣泛的研究。數(shù)據(jù)增強(qiáng)用于擴(kuò)展訓(xùn)練數(shù)據(jù)集，從而使模型在訓(xùn)練時(shí)接觸到更多的樣本變體，減少模型的過擬合現(xiàn)象，即：在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好但在新數(shù)據(jù)上表現(xiàn)差的現(xiàn)象。目前的數(shù)據(jù)增強(qiáng)方法包括mixup、cutmix和augmix等。mixup通過從兩幅隨機(jī)選擇的圖像中線性插值像素值來生成合成圖像；cutmix則是將一幅圖像中的隨機(jī)塊粘貼到另一幅圖像中；augmix是對(duì)輸入圖像采用隨機(jī)組合的數(shù)據(jù)增強(qiáng)操作；saliencymix利用顯著圖像增強(qiáng)，通過結(jié)合原始圖像和其顯著性圖來生成新的數(shù)據(jù)樣本。

2、然而，無論是基于顯著性區(qū)域的線性插值mix方法，還是基于標(biāo)簽保留的mix方法，都會(huì)對(duì)前景信息進(jìn)行一定程度的改變，導(dǎo)致標(biāo)簽的污染。例如，mixup通過線性插值兩張圖像的像素值，包括前景和背景，從而導(dǎo)致前景內(nèi)容被改變并可能不再與原始標(biāo)簽一致。類似地，cutmix通過將圖像塊粘貼到另一張圖像中，雖然前景信息可能部分保留，但前景和背景的混合可能導(dǎo)致標(biāo)簽不再準(zhǔn)確匹配實(shí)際的圖像內(nèi)容，從而出現(xiàn)標(biāo)簽污染的問題。此外，這些方法主要關(guān)注如何提升前景的特征表現(xiàn)或生成新的前景樣本，而不關(guān)注如何保持或優(yōu)化背景信息的一致性和有用性，背景處理不夠全面，最終導(dǎo)致增強(qiáng)樣本中背景信息不均衡、不可控。

3、因此，需要提出一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng)，能夠充分利用背景的上下文信息，通過處理圖像背景完成數(shù)據(jù)擴(kuò)增，實(shí)現(xiàn)數(shù)據(jù)集的標(biāo)簽零污染，幫助提高模型的泛化能力。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本發(fā)明提供一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng)，用以解決現(xiàn)有數(shù)據(jù)增強(qiáng)技術(shù)會(huì)對(duì)前景信息進(jìn)行一定程度的改變，且對(duì)背景處理不夠全面，存在增強(qiáng)樣本中背景信息不均衡、不可控的技術(shù)問題。

2、為達(dá)到上述技術(shù)目的，本發(fā)明采取了以下技術(shù)方案：

3、第一方面，本發(fā)明提供了一種基于可控背景混合的圖像擴(kuò)增方法，包括：

4、基于視覺語言大模型獲取原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息的描述文本，得到包含多個(gè)圖像-文本對(duì)的多模態(tài)數(shù)據(jù)集；

5、利用大語言模型根據(jù)所述多模態(tài)數(shù)據(jù)集對(duì)前景對(duì)象進(jìn)行分類、對(duì)背景信息進(jìn)行關(guān)鍵詞提取，得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞；

6、對(duì)每類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析，根據(jù)分析結(jié)果和預(yù)設(shè)的背景均衡化閾值確定背景均衡方案；

7、基于所述背景均衡方案生成擴(kuò)增圖像，將所述擴(kuò)增圖像添加到所述原始圖像數(shù)據(jù)集中補(bǔ)充每類前景對(duì)象缺少的背景信息，得到背景均衡的擴(kuò)展數(shù)據(jù)集。

8、進(jìn)一步的，基于所述背景均衡方案生成擴(kuò)增圖像，包括：

9、根據(jù)所述背景均衡方案確定任一前景對(duì)象的缺失背景，基于所述缺失背景生成背景擴(kuò)展提示詞；

10、將所述背景擴(kuò)展提示詞輸入到預(yù)設(shè)擴(kuò)散模型中，指導(dǎo)所述擴(kuò)散模型生成擴(kuò)增圖像，使所述擴(kuò)增圖像的前景對(duì)象與原始圖像中的保持一致、背景為原始圖像數(shù)據(jù)集中所述前景對(duì)象缺失的背景。

11、進(jìn)一步的，基于所述背景均衡方案生成擴(kuò)增圖像，還包括：

12、根據(jù)所述背景均衡方案確定任一前景對(duì)象的缺失背景，基于所述缺失背景生成背景擴(kuò)展提示詞；

13、選擇原始圖像數(shù)據(jù)集中包含所述前景對(duì)象的任一張圖像，對(duì)所述圖像進(jìn)行圖像分割，得到前景對(duì)象掩碼圖像；

14、根據(jù)背景擴(kuò)展提示詞在預(yù)設(shè)背景數(shù)據(jù)集中選擇所述前景對(duì)象所缺失的背景圖像，將前景對(duì)象掩碼圖像和所述背景圖像進(jìn)行拼接，得到擴(kuò)增圖像。

15、進(jìn)一步的，將所述背景擴(kuò)展提示詞輸入到預(yù)設(shè)擴(kuò)散模型中，指導(dǎo)所述擴(kuò)散模型生成擴(kuò)增圖像，包括：

16、選擇原始圖像數(shù)據(jù)集中包含所述前景對(duì)象的任一張圖像，對(duì)所述圖像進(jìn)行圖像分割，得到前景對(duì)象掩碼圖像；

17、在預(yù)設(shè)背景數(shù)據(jù)集中選擇所述前景對(duì)象所缺失的背景圖像，將前景對(duì)象掩碼圖像和所述背景圖像進(jìn)行拼接，得到擴(kuò)增圖像。

18、進(jìn)一步的，對(duì)所述圖像進(jìn)行圖像分割，得到前景對(duì)象掩碼圖像，包括：

19、將所述圖像輸入到預(yù)設(shè)的sam模型中進(jìn)行圖像分割，生成前景對(duì)象的二值圖像，將所述前景對(duì)象的二值圖像作為前景對(duì)象掩碼圖像。

20、進(jìn)一步的，所述預(yù)設(shè)背景數(shù)據(jù)集的生成方法為：

21、根據(jù)背景關(guān)鍵詞，通過爬蟲工具下載相應(yīng)的背景圖片；

22、對(duì)下載的背景圖片進(jìn)行異常圖片刪除和去重處理，將處理后的圖片進(jìn)行分類存儲(chǔ)，得到背景數(shù)據(jù)集。

23、進(jìn)一步的，基于視覺語言大模型獲取原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息的描述文本，包括：

24、創(chuàng)建圖片信息提示規(guī)則，將所述圖片信息提示規(guī)則輸入至預(yù)訓(xùn)練的視覺語言大模型中，批量生成原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息的文本描述。

25、進(jìn)一步的，利用大語言模型根據(jù)所述多模態(tài)數(shù)據(jù)集對(duì)前景對(duì)象進(jìn)行分類、對(duì)背景信息進(jìn)行關(guān)鍵詞提取，得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞，包括：

26、遍歷所述多模態(tài)數(shù)據(jù)集中的每一個(gè)圖像-文本對(duì)，使用大語言模型對(duì)背景信息的文本描述進(jìn)行分析，提取對(duì)應(yīng)的背景詞匯；

27、基于預(yù)設(shè)的背景詞典將背景詞匯映射為相應(yīng)的背景關(guān)鍵詞，得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞。

28、進(jìn)一步的，對(duì)每類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析，根據(jù)分析結(jié)果和預(yù)設(shè)的背景均衡化閾值確定背景均衡方案，包括：

29、遍歷每一類前景對(duì)象，統(tǒng)計(jì)每個(gè)背景關(guān)鍵詞出現(xiàn)的頻率，得到與每一類前景對(duì)象的背景關(guān)鍵詞分布；

30、根據(jù)所述背景關(guān)鍵詞分布確定數(shù)量小于預(yù)設(shè)背景均衡化閾值的缺失背景種類；

31、基于缺失背景種類確定待補(bǔ)充的背景類型和圖片擴(kuò)增數(shù)量。

32、第二方面，本發(fā)明提供了一種基于可控背景混合的圖像擴(kuò)增系統(tǒng)，包括：

33、文本描述模塊，用于基于視覺語言大模型獲取原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象和背景信息的描述文本，得到包含多個(gè)圖像-文本對(duì)的多模態(tài)數(shù)據(jù)集；

34、關(guān)鍵詞提取模塊，用于利用大語言模型對(duì)所述前景對(duì)象進(jìn)行分類、對(duì)背景信息描述文本進(jìn)行關(guān)鍵詞提取，得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞；

35、方案制定模塊，用于對(duì)每類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析，根據(jù)分析結(jié)果和預(yù)設(shè)的背景均衡化閾值確定背景均衡方案；

36、數(shù)據(jù)集生成模塊，用于基于所述背景均衡方案生成新的圖像樣本，將所述新的圖像樣本添加到所述原始圖像數(shù)據(jù)集中補(bǔ)充每類前景對(duì)象缺少的背景信息，得到背景均衡的擴(kuò)展數(shù)據(jù)集。

37、第三方面，本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)上述技術(shù)方案任一所述的基于可控背景混合的圖像擴(kuò)增方法。

38、相比于現(xiàn)有技術(shù)，本發(fā)明提供的方法及系統(tǒng)，首先，通過視覺語言大模型對(duì)原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息進(jìn)行文本描述；其次，利用大語言模型對(duì)背景信息進(jìn)行關(guān)鍵詞提取，對(duì)每一類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析并確定背景均衡方案；最后基于背景均衡方案生成擴(kuò)增圖像，將所述擴(kuò)增圖像添加到所述原始圖像數(shù)據(jù)集中補(bǔ)充每類前景對(duì)象缺少的背景信息，最終創(chuàng)建一個(gè)高質(zhì)量的擴(kuò)展數(shù)據(jù)集。本發(fā)明的方法充分利用了背景信息為圖片識(shí)別提供的豐富的上下文信息，更精確地完成了圖像識(shí)別和語義分割，根據(jù)當(dāng)前數(shù)據(jù)集的背景信息，利用提示工程指導(dǎo)擴(kuò)散模型生成背景可控且均衡的擴(kuò)增數(shù)據(jù)集，能夠在不改變前景信息的基礎(chǔ)上，通過處理背景實(shí)現(xiàn)數(shù)據(jù)擴(kuò)增，從而實(shí)現(xiàn)標(biāo)簽零污染，提高了前景對(duì)象分類的效果。本方法生成的背景均衡可控的數(shù)據(jù)集能夠在確保數(shù)據(jù)集質(zhì)量的同時(shí)，提高模型的泛化能力，使其在實(shí)際應(yīng)用中表現(xiàn)得更加穩(wěn)定和準(zhǔn)確。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅俊,王爍,王之川,李就良,柳成林,陳燕敏,周夢(mèng)瑤
技術(shù)所有人：華中農(nóng)業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種汽車側(cè)滑門的線束裝配工裝的制作方法
上一篇：一種多位置碰撞試驗(yàn)臺(tái)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng)