国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng)

      文檔序號(hào):40391892發(fā)布日期:2024-12-20 12:15閱讀:4來源:國知局
      一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng)

      本發(fā)明涉及數(shù)據(jù)增強(qiáng),尤其涉及一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng)。


      背景技術(shù):

      1、為了防止深度網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)的過擬合,數(shù)據(jù)增強(qiáng)得到了廣泛的研究。數(shù)據(jù)增強(qiáng)用于擴(kuò)展訓(xùn)練數(shù)據(jù)集,從而使模型在訓(xùn)練時(shí)接觸到更多的樣本變體,減少模型的過擬合現(xiàn)象,即:在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好但在新數(shù)據(jù)上表現(xiàn)差的現(xiàn)象。目前的數(shù)據(jù)增強(qiáng)方法包括mixup、cutmix和augmix等。mixup通過從兩幅隨機(jī)選擇的圖像中線性插值像素值來生成合成圖像;cutmix則是將一幅圖像中的隨機(jī)塊粘貼到另一幅圖像中;augmix是對(duì)輸入圖像采用隨機(jī)組合的數(shù)據(jù)增強(qiáng)操作;saliencymix利用顯著圖像增強(qiáng),通過結(jié)合原始圖像和其顯著性圖來生成新的數(shù)據(jù)樣本。

      2、然而,無論是基于顯著性區(qū)域的線性插值mix方法,還是基于標(biāo)簽保留的mix方法,都會(huì)對(duì)前景信息進(jìn)行一定程度的改變,導(dǎo)致標(biāo)簽的污染。例如,mixup通過線性插值兩張圖像的像素值,包括前景和背景,從而導(dǎo)致前景內(nèi)容被改變并可能不再與原始標(biāo)簽一致。類似地,cutmix通過將圖像塊粘貼到另一張圖像中,雖然前景信息可能部分保留,但前景和背景的混合可能導(dǎo)致標(biāo)簽不再準(zhǔn)確匹配實(shí)際的圖像內(nèi)容,從而出現(xiàn)標(biāo)簽污染的問題。此外,這些方法主要關(guān)注如何提升前景的特征表現(xiàn)或生成新的前景樣本,而不關(guān)注如何保持或優(yōu)化背景信息的一致性和有用性,背景處理不夠全面,最終導(dǎo)致增強(qiáng)樣本中背景信息不均衡、不可控。

      3、因此,需要提出一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng),能夠充分利用背景的上下文信息,通過處理圖像背景完成數(shù)據(jù)擴(kuò)增,實(shí)現(xiàn)數(shù)據(jù)集的標(biāo)簽零污染,幫助提高模型的泛化能力。


      技術(shù)實(shí)現(xiàn)思路

      1、有鑒于此,本發(fā)明提供一種基于可控背景混合的圖像擴(kuò)增方法及系統(tǒng),用以解決現(xiàn)有數(shù)據(jù)增強(qiáng)技術(shù)會(huì)對(duì)前景信息進(jìn)行一定程度的改變,且對(duì)背景處理不夠全面,存在增強(qiáng)樣本中背景信息不均衡、不可控的技術(shù)問題。

      2、為達(dá)到上述技術(shù)目的,本發(fā)明采取了以下技術(shù)方案:

      3、第一方面,本發(fā)明提供了一種基于可控背景混合的圖像擴(kuò)增方法,包括:

      4、基于視覺語言大模型獲取原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息的描述文本,得到包含多個(gè)圖像-文本對(duì)的多模態(tài)數(shù)據(jù)集;

      5、利用大語言模型根據(jù)所述多模態(tài)數(shù)據(jù)集對(duì)前景對(duì)象進(jìn)行分類、對(duì)背景信息進(jìn)行關(guān)鍵詞提取,得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞;

      6、對(duì)每類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析,根據(jù)分析結(jié)果和預(yù)設(shè)的背景均衡化閾值確定背景均衡方案;

      7、基于所述背景均衡方案生成擴(kuò)增圖像,將所述擴(kuò)增圖像添加到所述原始圖像數(shù)據(jù)集中補(bǔ)充每類前景對(duì)象缺少的背景信息,得到背景均衡的擴(kuò)展數(shù)據(jù)集。

      8、進(jìn)一步的,基于所述背景均衡方案生成擴(kuò)增圖像,包括:

      9、根據(jù)所述背景均衡方案確定任一前景對(duì)象的缺失背景,基于所述缺失背景生成背景擴(kuò)展提示詞;

      10、將所述背景擴(kuò)展提示詞輸入到預(yù)設(shè)擴(kuò)散模型中,指導(dǎo)所述擴(kuò)散模型生成擴(kuò)增圖像,使所述擴(kuò)增圖像的前景對(duì)象與原始圖像中的保持一致、背景為原始圖像數(shù)據(jù)集中所述前景對(duì)象缺失的背景。

      11、進(jìn)一步的,基于所述背景均衡方案生成擴(kuò)增圖像,還包括:

      12、根據(jù)所述背景均衡方案確定任一前景對(duì)象的缺失背景,基于所述缺失背景生成背景擴(kuò)展提示詞;

      13、選擇原始圖像數(shù)據(jù)集中包含所述前景對(duì)象的任一張圖像,對(duì)所述圖像進(jìn)行圖像分割,得到前景對(duì)象掩碼圖像;

      14、根據(jù)背景擴(kuò)展提示詞在預(yù)設(shè)背景數(shù)據(jù)集中選擇所述前景對(duì)象所缺失的背景圖像,將前景對(duì)象掩碼圖像和所述背景圖像進(jìn)行拼接,得到擴(kuò)增圖像。

      15、進(jìn)一步的,將所述背景擴(kuò)展提示詞輸入到預(yù)設(shè)擴(kuò)散模型中,指導(dǎo)所述擴(kuò)散模型生成擴(kuò)增圖像,包括:

      16、選擇原始圖像數(shù)據(jù)集中包含所述前景對(duì)象的任一張圖像,對(duì)所述圖像進(jìn)行圖像分割,得到前景對(duì)象掩碼圖像;

      17、在預(yù)設(shè)背景數(shù)據(jù)集中選擇所述前景對(duì)象所缺失的背景圖像,將前景對(duì)象掩碼圖像和所述背景圖像進(jìn)行拼接,得到擴(kuò)增圖像。

      18、進(jìn)一步的,對(duì)所述圖像進(jìn)行圖像分割,得到前景對(duì)象掩碼圖像,包括:

      19、將所述圖像輸入到預(yù)設(shè)的sam模型中進(jìn)行圖像分割,生成前景對(duì)象的二值圖像,將所述前景對(duì)象的二值圖像作為前景對(duì)象掩碼圖像。

      20、進(jìn)一步的,所述預(yù)設(shè)背景數(shù)據(jù)集的生成方法為:

      21、根據(jù)背景關(guān)鍵詞,通過爬蟲工具下載相應(yīng)的背景圖片;

      22、對(duì)下載的背景圖片進(jìn)行異常圖片刪除和去重處理,將處理后的圖片進(jìn)行分類存儲(chǔ),得到背景數(shù)據(jù)集。

      23、進(jìn)一步的,基于視覺語言大模型獲取原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息的描述文本,包括:

      24、創(chuàng)建圖片信息提示規(guī)則,將所述圖片信息提示規(guī)則輸入至預(yù)訓(xùn)練的視覺語言大模型中,批量生成原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息的文本描述。

      25、進(jìn)一步的,利用大語言模型根據(jù)所述多模態(tài)數(shù)據(jù)集對(duì)前景對(duì)象進(jìn)行分類、對(duì)背景信息進(jìn)行關(guān)鍵詞提取,得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞,包括:

      26、遍歷所述多模態(tài)數(shù)據(jù)集中的每一個(gè)圖像-文本對(duì),使用大語言模型對(duì)背景信息的文本描述進(jìn)行分析,提取對(duì)應(yīng)的背景詞匯;

      27、基于預(yù)設(shè)的背景詞典將背景詞匯映射為相應(yīng)的背景關(guān)鍵詞,得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞。

      28、進(jìn)一步的,對(duì)每類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析,根據(jù)分析結(jié)果和預(yù)設(shè)的背景均衡化閾值確定背景均衡方案,包括:

      29、遍歷每一類前景對(duì)象,統(tǒng)計(jì)每個(gè)背景關(guān)鍵詞出現(xiàn)的頻率,得到與每一類前景對(duì)象的背景關(guān)鍵詞分布;

      30、根據(jù)所述背景關(guān)鍵詞分布確定數(shù)量小于預(yù)設(shè)背景均衡化閾值的缺失背景種類;

      31、基于缺失背景種類確定待補(bǔ)充的背景類型和圖片擴(kuò)增數(shù)量。

      32、第二方面,本發(fā)明提供了一種基于可控背景混合的圖像擴(kuò)增系統(tǒng),包括:

      33、文本描述模塊,用于基于視覺語言大模型獲取原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象和背景信息的描述文本,得到包含多個(gè)圖像-文本對(duì)的多模態(tài)數(shù)據(jù)集;

      34、關(guān)鍵詞提取模塊,用于利用大語言模型對(duì)所述前景對(duì)象進(jìn)行分類、對(duì)背景信息描述文本進(jìn)行關(guān)鍵詞提取,得到每個(gè)類別的前景對(duì)象對(duì)應(yīng)的背景關(guān)鍵詞;

      35、方案制定模塊,用于對(duì)每類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析,根據(jù)分析結(jié)果和預(yù)設(shè)的背景均衡化閾值確定背景均衡方案;

      36、數(shù)據(jù)集生成模塊,用于基于所述背景均衡方案生成新的圖像樣本,將所述新的圖像樣本添加到所述原始圖像數(shù)據(jù)集中補(bǔ)充每類前景對(duì)象缺少的背景信息,得到背景均衡的擴(kuò)展數(shù)據(jù)集。

      37、第三方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述技術(shù)方案任一所述的基于可控背景混合的圖像擴(kuò)增方法。

      38、相比于現(xiàn)有技術(shù),本發(fā)明提供的方法及系統(tǒng),首先,通過視覺語言大模型對(duì)原始圖像數(shù)據(jù)集中每個(gè)圖像的前景對(duì)象及背景信息進(jìn)行文本描述;其次,利用大語言模型對(duì)背景信息進(jìn)行關(guān)鍵詞提取,對(duì)每一類前景對(duì)象的背景關(guān)鍵詞進(jìn)行均衡性分析并確定背景均衡方案;最后基于背景均衡方案生成擴(kuò)增圖像,將所述擴(kuò)增圖像添加到所述原始圖像數(shù)據(jù)集中補(bǔ)充每類前景對(duì)象缺少的背景信息,最終創(chuàng)建一個(gè)高質(zhì)量的擴(kuò)展數(shù)據(jù)集。本發(fā)明的方法充分利用了背景信息為圖片識(shí)別提供的豐富的上下文信息,更精確地完成了圖像識(shí)別和語義分割,根據(jù)當(dāng)前數(shù)據(jù)集的背景信息,利用提示工程指導(dǎo)擴(kuò)散模型生成背景可控且均衡的擴(kuò)增數(shù)據(jù)集,能夠在不改變前景信息的基礎(chǔ)上,通過處理背景實(shí)現(xiàn)數(shù)據(jù)擴(kuò)增,從而實(shí)現(xiàn)標(biāo)簽零污染,提高了前景對(duì)象分類的效果。本方法生成的背景均衡可控的數(shù)據(jù)集能夠在確保數(shù)據(jù)集質(zhì)量的同時(shí),提高模型的泛化能力,使其在實(shí)際應(yīng)用中表現(xiàn)得更加穩(wěn)定和準(zhǔn)確。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1