圖像生成方法、電子設備、存儲介質(zhì)以及計算機程序產(chǎn)品與流程

文檔序號：39963068發(fā)布日期：2024-11-15 14:09閱讀：11來源：國知局

本申請涉及大模型技術、圖像生成領域，具體而言，涉及一種圖像生成方法、電子設備、存儲介質(zhì)以及計算機程序產(chǎn)品。

背景技術：

1、目前，由于深度學習時代模型對數(shù)據(jù)的渴求和特定領域的特點，獲得足夠的真實世界數(shù)據(jù)是極其昂貴和困難的。在各種場景文本任務中，大量研究證明了合成數(shù)據(jù)的重要性。因此，合成數(shù)據(jù)的使用已成為標準做法，使得文本圖像生成為熱門研究課題。然而，現(xiàn)有的文本圖像生成方法主要分為兩類，基于規(guī)則渲染和基于擴散模型的文本圖像生成方案，它們均在生成圖像的真實性或可用性上存在局限性，導致其在真實自然場景中效果受限，為滿足深度學習中模型對有效合成數(shù)據(jù)的需求，亟需更加先進的文本圖像合成方法。

2、針對上述的問題，目前尚未提出有效的解決方案。

技術實現(xiàn)思路

1、本申請實施例提供了一種圖像生成方法、電子設備、存儲介質(zhì)以及計算機程序產(chǎn)品，以至少解決相關技術中圖像的生成效果較差的技術問題。

2、根據(jù)本申請實施例的一個方面，提供了一種圖像生成方法，包括：獲取原始圖像、文本內(nèi)容數(shù)據(jù)和文本區(qū)域數(shù)據(jù)，其中，文本內(nèi)容數(shù)據(jù)用于描述原始圖像中需要渲染出的文本，文本區(qū)域數(shù)據(jù)用于描述原始圖像中需要渲染出文本的位置；基于文本區(qū)域數(shù)據(jù)構建局部區(qū)域數(shù)據(jù)，其中，局部區(qū)域數(shù)據(jù)用于表征原始圖像中需要渲染出文本的區(qū)域；利用局部區(qū)域數(shù)據(jù)，控制圖像生成模型基于文本內(nèi)容數(shù)據(jù)和原始圖像，生成局部圖像，其中，局部圖像包含文本，且局部圖像的尺寸與局部區(qū)域數(shù)據(jù)的尺寸相同；基于局部區(qū)域數(shù)據(jù)，將局部圖像與原始圖像進行融合，生成目標圖像。

3、根據(jù)本申請實施例的一個方面，提供了一種圖像生成方法，包括：捕獲真實場景的場景圖像，并獲取文本內(nèi)容數(shù)據(jù)和文本區(qū)域數(shù)據(jù)，其中，文本內(nèi)容數(shù)據(jù)用于描述場景圖像中需要渲染出的文本，文本區(qū)域數(shù)據(jù)用于描述場景圖像中需要渲染出文本的位置；基于文本區(qū)域數(shù)據(jù)構建局部區(qū)域數(shù)據(jù)，其中，局部區(qū)域數(shù)據(jù)用于表征場景圖像中需要渲染出文本所處區(qū)域的位置；利用局部區(qū)域數(shù)據(jù)，控制圖像生成模型基于文本內(nèi)容數(shù)據(jù)和場景圖像，生成局部圖像，其中，局部圖像包含文本，且局部圖像的尺寸與局部區(qū)域數(shù)據(jù)的尺寸相同；基于局部區(qū)域數(shù)據(jù)，將局部圖像與場景圖像進行融合，生成目標圖像。

4、根據(jù)本申請實施例的一個方面，提供了一種圖像生成方法，包括：響應作用于操作界面上的輸入指令，在操作界面上顯示原始圖像、文本內(nèi)容數(shù)據(jù)和文本區(qū)域數(shù)據(jù)，其中，文本內(nèi)容數(shù)據(jù)用于描述原始圖像中需要渲染出的文本，文本區(qū)域數(shù)據(jù)用于描述原始圖像中需要渲染出文本中的單詞的位置；響應作用于操作界面上的生成指令，在操作界面上顯示目標圖像，其中，目標圖像是基于局部區(qū)域數(shù)據(jù)，將局部圖像與原始圖像進行融合所得到的圖像，局部區(qū)域數(shù)據(jù)是基于文本區(qū)域數(shù)據(jù)構建的，局部區(qū)域數(shù)據(jù)用于表征原始圖像中需要渲染出文本所處區(qū)域的位置，局部圖像是利用局部區(qū)域數(shù)據(jù)，控制圖像生成模型基于文本內(nèi)容數(shù)據(jù)和原始圖像生成的圖像，局部圖像包含文本，且局部圖像的尺寸與局部區(qū)域數(shù)據(jù)的尺寸相同。

5、根據(jù)本申請實施例的一個方面，提供了一種圖像生成方法，包括：通過調(diào)用第一接口獲取原始圖像、文本內(nèi)容數(shù)據(jù)和文本區(qū)域數(shù)據(jù)，其中，第一接口包括第一參數(shù)，第一參數(shù)的參數(shù)值包括原始圖像、文本內(nèi)容數(shù)據(jù)和文本區(qū)域數(shù)據(jù)，文本內(nèi)容數(shù)據(jù)用于描述原始圖像中需要渲染出的文本，文本區(qū)域數(shù)據(jù)用于描述原始圖像中需要渲染出文本的位置；基于文本區(qū)域數(shù)據(jù)構建局部區(qū)域數(shù)據(jù)，其中，局部區(qū)域數(shù)據(jù)用于表征原始圖像中需要渲染出文本所處區(qū)域的位置；利用局部區(qū)域數(shù)據(jù)，控制圖像生成模型基于文本內(nèi)容數(shù)據(jù)和原始圖像，生成局部圖像，其中，局部圖像包含文本，且局部圖像的尺寸與局部區(qū)域數(shù)據(jù)的尺寸相同；基于局部區(qū)域數(shù)據(jù)，將局部圖像與原始圖像進行融合，生成目標圖像；通過調(diào)用第二接口輸出目標圖像，其中，第二接口包括第二參數(shù)，第二參數(shù)的參數(shù)值包括目標圖像。

6、根據(jù)本申請實施例的另一方面，還提供了一種電子設備，包括：存儲器，存儲有可執(zhí)行程序；處理器，用于運行程序，其中，程序運行時執(zhí)行本申請各個實施例中的方法。

7、根據(jù)本申請實施例的另一方面，還提供了一種計算機可讀存儲介質(zhì)，計算機可讀存儲介質(zhì)包括存儲的可執(zhí)行程序，其中，在可執(zhí)行程序運行時控制計算機可讀存儲介質(zhì)所在設備執(zhí)行本申請各個實施例中的方法。

8、根據(jù)本申請實施例的另一方面，還提供了一種計算機程序產(chǎn)品，包括計算機程序，計算機程序在被處理器執(zhí)行時實現(xiàn)本申請各個實施例中的方法。

9、根據(jù)本申請實施例的另一方面，還提供了一種計算機程序產(chǎn)品，包括非易失性計算機可讀存儲介質(zhì)，非易失性計算機可讀存儲介質(zhì)存儲計算機程序，計算機程序被處理器執(zhí)行時實現(xiàn)本申請各個實施例中的方法。

10、根據(jù)本申請實施例的另一方面，還提供了一種計算機程序，計算機程序被處理器執(zhí)行時實現(xiàn)本申請各個實施例中的方法。

11、在本申請實施例中，獲取原始圖像、文本內(nèi)容數(shù)據(jù)和文本區(qū)域數(shù)據(jù)，其中，文本內(nèi)容數(shù)據(jù)用于描述原始圖像中需要渲染出的文本，文本區(qū)域數(shù)據(jù)用于描述原始圖像中需要渲染出文本的位置；基于文本區(qū)域數(shù)據(jù)構建局部區(qū)域數(shù)據(jù)，其中，局部區(qū)域數(shù)據(jù)用于表征原始圖像中需要渲染出文本所處區(qū)域的位置；利用局部區(qū)域數(shù)據(jù)，控制圖像生成模型基于文本內(nèi)容數(shù)據(jù)和原始圖像，生成局部圖像，其中，局部圖像包含文本，且局部圖像的尺寸與局部區(qū)域數(shù)據(jù)的尺寸相同；基于局部區(qū)域數(shù)據(jù)，將局部圖像與原始圖像進行融合，生成目標圖像，實現(xiàn)了提高圖像的生成效果。容易注意到的是，可以將圖像的生成過程解耦成基于局部區(qū)域數(shù)據(jù)和文本內(nèi)容數(shù)據(jù)確定原始圖像中局部圖像的方式，可以將局部圖像與原始圖像進行融合，使得所生成的目標圖像可以包含任意尺度的文本，更加符合自然場景的特征，提高的圖像的生成效果，進而解決了相關技術中圖像的生成效果較差的技術問題。

12、容易注意到的是，上面的通用描述和后面的詳細描述僅僅是為了對本申請進行舉例和解釋，并不構成對本申請的限定。

技術特征：

1.一種圖像生成方法，其特征在于，包括：

2.根據(jù)權利要求1所述的方法，其特征在于，所述利用所述局部區(qū)域數(shù)據(jù)，控制圖像生成模型基于所述文本內(nèi)容數(shù)據(jù)和所述原始圖像，生成局部圖像，包括：

3.根據(jù)權利要求2所述的方法，其特征在于，所述基于所述原始圖像和所述文本區(qū)域數(shù)據(jù)，構建圖像級條件，包括：

4.根據(jù)權利要求2所述的方法，其特征在于，所述基于所述文本內(nèi)容數(shù)據(jù)，構建特征級條件，包括：

5.根據(jù)權利要求2所述的方法，其特征在于，所述將所述輸入圖像、所述圖像級條件和所述特征級條件輸入至所述圖像生成模型，得到所述圖像生成模型輸出的所述目標噪聲，包括：

6.根據(jù)權利要求5中所述的方法，其特征在于，所述方法還包括：

7.根據(jù)權利要求6所述的方法，其特征在于，所述基于所述樣本局部區(qū)域數(shù)據(jù)和樣本噪聲對所述樣本圖像進行處理，生成樣本輸入圖像，包括：

8.根據(jù)權利要求7所述的方法，其特征在于，所述基于所述樣本噪聲、所述預測噪聲、所述樣本輸入圖像，構建所述初始模型的總損失函數(shù)，包括：

9.根據(jù)權利要求1至8中任意一項所述的方法，其特征在于，在基于所述文本區(qū)域數(shù)據(jù)構建局部區(qū)域數(shù)據(jù)之后，所述方法還包括：

10.根據(jù)權利要求1至8中任意一項所述的方法，其特征在于，在利用所述局部區(qū)域數(shù)據(jù)，控制圖像生成模型基于所述文本內(nèi)容數(shù)據(jù)和所述原始圖像，生成局部圖像之后，所述方法還包括：

11.根據(jù)權利要求1至8中任意一項所述的方法，其特征在于，在基于所述局部區(qū)域數(shù)據(jù)，將所述局部圖像與所述原始圖像進行融合，生成目標圖像之后，所述方法還包括：

12.一種圖像生成方法，其特征在于，包括：

13.根據(jù)權利要求12所述的方法，其特征在于，所述利用所述局部區(qū)域數(shù)據(jù)，控制圖像生成模型基于所述文本內(nèi)容數(shù)據(jù)和所述場景圖像，生成局部圖像，包括：

14.一種圖像生成方法，其特征在于，包括：

15.一種電子設備，其特征在于，包括：

16.一種計算機可讀存儲介質(zhì)，其特征在于，所述計算機可讀存儲介質(zhì)包括存儲的可執(zhí)行程序，其中，在所述可執(zhí)行程序運行時控制所述計算機可讀存儲介質(zhì)所在設備執(zhí)行權利要求1至14中任意一項所述的方法。

17.一種計算機程序產(chǎn)品，其特征在于，包括計算機程序，所述計算機程序在被處理器執(zhí)行時實現(xiàn)權利要求1至14中任意一項所述的方法。

技術總結
本申請公開了一種圖像生成方法、電子設備、存儲介質(zhì)以及計算機程序產(chǎn)品，涉及大模型技術、圖像生成領域。其中，該方法包括：獲取原始圖像、文本內(nèi)容數(shù)據(jù)和文本區(qū)域數(shù)據(jù)，其中，文本內(nèi)容數(shù)據(jù)用于描述原始圖像中需要渲染出的文本，文本區(qū)域數(shù)據(jù)用于描述原始圖像中需要渲染出文本的位置；基于文本區(qū)域數(shù)據(jù)構建局部區(qū)域數(shù)據(jù)；利用局部區(qū)域數(shù)據(jù)，控制圖像生成模型基于文本內(nèi)容數(shù)據(jù)和原始圖像，生成局部圖像；基于局部區(qū)域數(shù)據(jù)，將局部圖像與原始圖像進行融合，生成目標圖像。本申請解決了相關技術中圖像的生成效果較差的技術問題。

技術研發(fā)人員：朱遠志,劉佳偉,高飛宇,楊志博,姚聰
受保護的技術使用者：阿里巴巴（中國）有限公司
技術研發(fā)日：
技術公布日：2024/11/14

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：朱遠志,劉佳偉,高飛宇,楊志博,姚聰
技術所有人：阿里巴巴（中國）有限公司
我是此專利的發(fā)明人

上一篇：一種體檢中心采血用手臂托的制作方法
上一篇：側立式冷板及電池包的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

圖像生成方法、電子設備、存儲介質(zhì)以及計算機程序產(chǎn)品與流程

圖像生成方法、電子設備、存儲介質(zhì)以及計算機程序產(chǎn)品與流程