本發(fā)明涉及數(shù)據(jù)增強(qiáng),尤其涉及一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng)。
背景技術(shù):
1、為了防止深度網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)的過擬合,數(shù)據(jù)增強(qiáng)得到了廣泛的研究。數(shù)據(jù)增強(qiáng)用于擴(kuò)展訓(xùn)練數(shù)據(jù)集,從而使模型在訓(xùn)練時(shí)接觸到更多的樣本變體,減少模型的過擬合現(xiàn)象,即:在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好但在新數(shù)據(jù)上表現(xiàn)差的現(xiàn)象。目前的數(shù)據(jù)增強(qiáng)方法包括mixup、cutmix和augmix等。mixup通過從兩幅隨機(jī)選擇的圖像中線性插值像素值來生成合成圖像;cutmix則是將一幅圖像中的隨機(jī)塊粘貼到另一幅圖像中;augmix是對(duì)輸入圖像采用隨機(jī)組合的數(shù)據(jù)增強(qiáng)操作;saliencymix利用顯著圖像增強(qiáng),通過結(jié)合原始圖像和其顯著性圖來生成新的數(shù)據(jù)樣本。
2、然而,無論是基于顯著性區(qū)域的線性插值mix方法,還是基于標(biāo)簽保留的mix方法,都會(huì)對(duì)前景信息進(jìn)行一定程度的改變,導(dǎo)致標(biāo)簽的污染。例如,mixup通過線性插值兩張圖像的像素值,包括前景和背景,從而導(dǎo)致前景內(nèi)容被改變并可能不再與原始標(biāo)簽一致。類似地,cutmix通過將圖像塊粘貼到另一張圖像中,雖然前景信息可能部分保留,但前景和背景的混合可能導(dǎo)致標(biāo)簽不再準(zhǔn)確匹配實(shí)際的圖像內(nèi)容,從而出現(xiàn)標(biāo)簽污染的問題。此外,這些方法主要關(guān)注如何提升前景的特征表現(xiàn)或生成新的前景樣本,而不關(guān)注如何保持或優(yōu)化背景信息的一致性和有用性,背景處理不夠全面,最終導(dǎo)致增強(qiáng)樣本中背景信息不均衡、不可控。
3、因此,需要提出一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng),能夠充分利用背景的上下文信息,通過處理圖像背景完成數(shù)據(jù)擴(kuò)增,實(shí)現(xiàn)數(shù)據(jù)集的標(biāo)簽零污染,幫助提高模型的泛化能力。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明提供一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng),用以解決現(xiàn)有數(shù)據(jù)增強(qiáng)技術(shù)會(huì)對(duì)前景信息進(jìn)行一定程度的改變,且對(duì)背景處理不夠全面,存在增強(qiáng)樣本中背景信息不均衡、不可控的技術(shù)問題。
2、為達(dá)到上述技術(shù)目的,本發(fā)明采取了以下技術(shù)方案:
3、第一方面,本發(fā)明提供了一種基于可控背景混合的圖像擴(kuò)增方法,包括:
4、基于視覺語言大模型獲取原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息的描述文本,得到包含多個(gè)圖像-文本對(duì)的多模態(tài)數(shù)據(jù)集;
5、利用大語言模型根據(jù)所述多模態(tài)數(shù)據(jù)集對(duì)前景對(duì)象進(jìn)行分類、對(duì)背景信息進(jìn)行關(guān)鍵詞提取,得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞;
6、對(duì)每類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析,根據(jù)分析結(jié)果和預(yù)設(shè)的背景均衡化閾值確定背景均衡方案;
7、基于所述背景均衡方案生成擴(kuò)增圖像,將所述擴(kuò)增圖像添加到所述原始圖像數(shù)據(jù)集中補(bǔ)充每類前景對(duì)象缺少的背景信息,得到背景均衡的擴(kuò)展數(shù)據(jù)集。
8、進(jìn)一步的,基于所述背景均衡方案生成擴(kuò)增圖像,包括:
9、根據(jù)所述背景均衡方案確定任一前景對(duì)象的缺失背景,基于所述缺失背景生成背景擴(kuò)展提示詞;
10、將所述背景擴(kuò)展提示詞輸入到預(yù)設(shè)擴(kuò)散模型中,指導(dǎo)所述擴(kuò)散模型生成擴(kuò)增圖像,使所述擴(kuò)增圖像的前景對(duì)象與原始圖像中的保持一致、背景為原始圖像數(shù)據(jù)集中所述前景對(duì)象缺失的背景。
11、進(jìn)一步的,基于所述背景均衡方案生成擴(kuò)增圖像,還包括:
12、根據(jù)所述背景均衡方案確定任一前景對(duì)象的缺失背景,基于所述缺失背景生成背景擴(kuò)展提示詞;
13、選擇原始圖像數(shù)據(jù)集中包含所述前景對(duì)象的任一張圖像,對(duì)所述圖像進(jìn)行圖像分割,得到前景對(duì)象掩碼圖像;
14、根據(jù)背景擴(kuò)展提示詞在預(yù)設(shè)背景數(shù)據(jù)集中選擇所述前景對(duì)象所缺失的背景圖像,將前景對(duì)象掩碼圖像和所述背景圖像進(jìn)行拼接,得到擴(kuò)增圖像。
15、進(jìn)一步的,將所述背景擴(kuò)展提示詞輸入到預(yù)設(shè)擴(kuò)散模型中,指導(dǎo)所述擴(kuò)散模型生成擴(kuò)增圖像,包括:
16、選擇原始圖像數(shù)據(jù)集中包含所述前景對(duì)象的任一張圖像,對(duì)所述圖像進(jìn)行圖像分割,得到前景對(duì)象掩碼圖像;
17、在預(yù)設(shè)背景數(shù)據(jù)集中選擇所述前景對(duì)象所缺失的背景圖像,將前景對(duì)象掩碼圖像和所述背景圖像進(jìn)行拼接,得到擴(kuò)增圖像。
18、進(jìn)一步的,對(duì)所述圖像進(jìn)行圖像分割,得到前景對(duì)象掩碼圖像,包括:
19、將所述圖像輸入到預(yù)設(shè)的sam模型中進(jìn)行圖像分割,生成前景對(duì)象的二值圖像,將所述前景對(duì)象的二值圖像作為前景對(duì)象掩碼圖像。
20、進(jìn)一步的,所述預(yù)設(shè)背景數(shù)據(jù)集的生成方法為:
21、根據(jù)背景關(guān)鍵詞,通過爬蟲工具下載相應(yīng)的背景圖片;
22、對(duì)下載的背景圖片進(jìn)行異常圖片刪除和去重處理,將處理后的圖片進(jìn)行分類存儲(chǔ),得到背景數(shù)據(jù)集。
23、進(jìn)一步的,基于視覺語言大模型獲取原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息的描述文本,包括:
24、創(chuàng)建圖片信息提示規(guī)則,將所述圖片信息提示規(guī)則輸入至預(yù)訓(xùn)練的視覺語言大模型中,批量生成原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息的文本描述。
25、進(jìn)一步的,利用大語言模型根據(jù)所述多模態(tài)數(shù)據(jù)集對(duì)前景對(duì)象進(jìn)行分類、對(duì)背景信息進(jìn)行關(guān)鍵詞提取,得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞,包括:
26、遍歷所述多模態(tài)數(shù)據(jù)集中的每一個(gè)圖像-文本對(duì),使用大語言模型對(duì)背景信息的文本描述進(jìn)行分析,提取對(duì)應(yīng)的背景詞匯;
27、基于預(yù)設(shè)的背景詞典將背景詞匯映射為相應(yīng)的背景關(guān)鍵詞,得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞。
28、進(jìn)一步的,對(duì)每類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析,根據(jù)分析結(jié)果和預(yù)設(shè)的背景均衡化閾值確定背景均衡方案,包括:
29、遍歷每一類前景對(duì)象,統(tǒng)計(jì)每個(gè)背景關(guān)鍵詞出現(xiàn)的頻率,得到與每一類前景對(duì)象的背景關(guān)鍵詞分布;
30、根據(jù)所述背景關(guān)鍵詞分布確定數(shù)量小于預(yù)設(shè)背景均衡化閾值的缺失背景種類;
31、基于缺失背景種類確定待補(bǔ)充的背景類型和圖片擴(kuò)增數(shù)量。
32、第二方面,本發(fā)明提供了一種基于可控背景混合的圖像擴(kuò)增系統(tǒng),包括:
33、文本描述模塊,用于基于視覺語言大模型獲取原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象和背景信息的描述文本,得到包含多個(gè)圖像-文本對(duì)的多模態(tài)數(shù)據(jù)集;
34、關(guān)鍵詞提取模塊,用于利用大語言模型對(duì)所述前景對(duì)象進(jìn)行分類、對(duì)背景信息描述文本進(jìn)行關(guān)鍵詞提取,得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞;
35、方案制定模塊,用于對(duì)每類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析,根據(jù)分析結(jié)果和預(yù)設(shè)的背景均衡化閾值確定背景均衡方案;
36、數(shù)據(jù)集生成模塊,用于基于所述背景均衡方案生成新的圖像樣本,將所述新的圖像樣本添加到所述原始圖像數(shù)據(jù)集中補(bǔ)充每類前景對(duì)象缺少的背景信息,得到背景均衡的擴(kuò)展數(shù)據(jù)集。
37、第三方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述技術(shù)方案任一所述的基于可控背景混合的圖像擴(kuò)增方法。
38、相比于現(xiàn)有技術(shù),本發(fā)明提供的方法及系統(tǒng),首先,通過視覺語言大模型對(duì)原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息進(jìn)行文本描述;其次,利用大語言模型對(duì)背景信息進(jìn)行關(guān)鍵詞提取,對(duì)每一類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析并確定背景均衡方案;最后基于背景均衡方案生成擴(kuò)增圖像,將所述擴(kuò)增圖像添加到所述原始圖像數(shù)據(jù)集中補(bǔ)充每類前景對(duì)象缺少的背景信息,最終創(chuàng)建一個(gè)高質(zhì)量的擴(kuò)展數(shù)據(jù)集。本發(fā)明的方法充分利用了背景信息為圖片識(shí)別提供的豐富的上下文信息,更精確地完成了圖像識(shí)別和語義分割,根據(jù)當(dāng)前數(shù)據(jù)集的背景信息,利用提示工程指導(dǎo)擴(kuò)散模型生成背景可控且均衡的擴(kuò)增數(shù)據(jù)集,能夠在不改變前景信息的基礎(chǔ)上,通過處理背景實(shí)現(xiàn)數(shù)據(jù)擴(kuò)增,從而實(shí)現(xiàn)標(biāo)簽零污染,提高了前景對(duì)象分類的效果。本方法生成的背景均衡可控的數(shù)據(jù)集能夠在確保數(shù)據(jù)集質(zhì)量的同時(shí),提高模型的泛化能力,使其在實(shí)際應(yīng)用中表現(xiàn)得更加穩(wěn)定和準(zhǔn)確。