本申請涉及圖像處理,具體而言,涉及一種圖像生成方法、裝置、電子設(shè)備及非易失性存儲介質(zhì)。
背景技術(shù):
1、相關(guān)技術(shù)中的圖像生成技術(shù)的圖像生成質(zhì)量不一致,且效果收提示詞影響較大,好的提示詞能大幅提高生成圖像質(zhì)量,而普通用戶往往沒有提示詞編寫的基礎(chǔ),導致圖像生成效果差等問題。
2、針對上述的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)思路
1、本申請實施例提供了一種圖像生成方法、裝置、電子設(shè)備及非易失性存儲介質(zhì),以至少解決由于圖像生成的質(zhì)量受提示詞影響較大,而普通用戶往往沒有提示詞編寫的基礎(chǔ),造成的圖像生成效果差的技術(shù)問題。
2、根據(jù)本申請實施例的一個方面,提供了一種圖像生成方法,包括:獲取基礎(chǔ)提示詞,其中,基礎(chǔ)提示詞為用戶輸入的用于描述計劃生成的圖像的自然語言文本;在基礎(chǔ)提示詞的語種類型為目標語種的情況下,確定系統(tǒng)的提示詞數(shù)據(jù)集中與基礎(chǔ)提示詞對應的標準提示詞,其中,目標語種為圖像生成大模型所支持的語種類型,標準提示詞為在歷史的圖像生成過程中,圖像評分超過預設(shè)分數(shù)閾值的圖像所對應的提示詞,圖像評分用于表征圖像生成大模型所生成的圖像的圖像質(zhì)量;依據(jù)基礎(chǔ)提示詞和/或標準提示詞,確定目標提示詞,并采用圖像生成大模型,依據(jù)目標提示詞,生成目標圖像。
3、可選地,在獲取基礎(chǔ)提示詞之后,方法還包括:判斷基礎(chǔ)提示詞的語種類型是否為目標語種;在基礎(chǔ)提示詞的語種類型不為目標語種的情況下,采用翻譯大模型,將基礎(chǔ)提示詞的語種類型轉(zhuǎn)換為目標語種,其中,翻譯大模型能夠通過代理模塊來調(diào)用智能工具,并利用智能工具對基礎(chǔ)提示詞進行分析處理,其中,代理模塊包括以下至少之一:langchainagent,智能工具的功能包括以下至少之一:網(wǎng)頁搜索、天氣查詢。
4、可選地,提示詞數(shù)據(jù)集中包含不同描述場景下的多個標準提示詞對應的模板向量;確定系統(tǒng)的提示詞數(shù)據(jù)集中與基礎(chǔ)提示詞對應的標準提示詞包括:對基礎(chǔ)提示詞進行向量化處理,得到基礎(chǔ)提示詞對應的特征向量;確定特征向量與提示詞數(shù)據(jù)集中各模板向量之間的相似度參數(shù),其中,相似度參數(shù)用于表征特征向量與模板向量之間的相似程度;將提示詞數(shù)據(jù)集中相似度參數(shù)超出預設(shè)相似度閾值的模板向量對應的標準提示詞,確定為與基礎(chǔ)提示詞對應的標準提示詞。
5、可選地,依據(jù)基礎(chǔ)提示詞和/或標準提示詞,確定目標提示詞包括:采用圖像生成大模型,對基礎(chǔ)提示詞和標準提示詞進行潤色處理,得到目標提示詞;或者,采用圖像生成大模型,對基礎(chǔ)提示詞進行潤色處理,得到目標提示詞,其中,訓練圖像生成大模型多采用的訓練數(shù)據(jù)集中包括以下至少之一:與繪畫相關(guān)的資料,潤色處理包括以下至少之一:調(diào)整語法、調(diào)整語句邏輯、增加描述細節(jié)。
6、可選地,采用圖像生成大模型,依據(jù)目標提示詞,生成目標圖像包括:采用圖像生成大模型,依據(jù)目標提示詞,生成至少一個候選圖像;采用圖文理解大模型,對候選圖像的圖像內(nèi)容進行分析,得到候選圖像對應的圖像文本,其中,圖像文本用于描述候選圖像中的畫面內(nèi)容;在圖像文本中包含預設(shè)敏感詞的情況下,判定候選圖像不合規(guī),并刪除不合規(guī)的候選圖像;依據(jù)圖像文本,確定剩余的候選圖像對應的圖像評分,并將圖像評分最高的預設(shè)數(shù)量個候選圖像,確定為目標圖像。
7、可選地,依據(jù)圖像文本,確定剩余的候選圖像對應的圖像評分包括:確定圖像文本與候選圖像對應的目標提示詞之間的第一指標,其中,第一指標用于表征圖像文本與目標提示詞之間的相似程度;依據(jù)候選圖像的圖像參數(shù),確定第二指標,其中,圖像參數(shù)包括以下至少之一:清晰度、亮度、對比度、色彩準確度、失真程度,第二指標用于表征候選圖像的畫面質(zhì)量;依據(jù)第一指標和第二指標,確定候選圖像對應的圖像評分。
8、可選地,方法還包括:響應于二次優(yōu)化指令,采用圖像生成大模型,依據(jù)圖像評分、以及圖像評分對應的分析報告,重新生成與目標提示詞對應的目標圖像,其中,分析報告用于表征圖像評分的評分標準和得分細則。
9、根據(jù)本申請實施例的另一個方面,還提供了一種圖像生成裝置,包括:提示詞獲取模塊,用于獲取基礎(chǔ)提示詞,其中,基礎(chǔ)提示詞為用戶輸入的用于描述計劃生成的圖像的自然語言文本;提示詞優(yōu)化模塊,用于在基礎(chǔ)提示詞的語種類型為目標語種的情況下,確定系統(tǒng)的提示詞數(shù)據(jù)集中與基礎(chǔ)提示詞對應的標準提示詞,其中,目標語種為圖像生成大模型所支持的語種類型,標準提示詞為在歷史的圖像生成過程中,圖像評分超過預設(shè)分數(shù)閾值的圖像所對應的提示詞,圖像評分用于表征圖像生成大模型所生成的圖像的圖像質(zhì)量;圖像生成模塊,用于依據(jù)基礎(chǔ)提示詞和/或標準提示詞,確定目標提示詞,并采用圖像生成大模型,依據(jù)目標提示詞,生成目標圖像。
10、根據(jù)本申請實施例的又一方面,還提供了一種電子設(shè)備,包括:存儲器和處理器,處理器用于運行存儲在存儲器中的程序,其中,程序運行時執(zhí)行圖像生成方法。
11、根據(jù)本申請實施例的再一方面,還提供了一種非易失性存儲介質(zhì),非易失性存儲介質(zhì)包括存儲的計算機程序,其中,非易失性存儲介質(zhì)所在設(shè)備通過運行計算機程序執(zhí)行圖像生成方法。
12、根據(jù)本申請實施例的再一方面,還提供了一種計算機程序產(chǎn)品,包括計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)圖像生成方法的步驟。
13、在本申請實施例中,采用獲取基礎(chǔ)提示詞,其中,基礎(chǔ)提示詞為用戶輸入的用于描述計劃生成的圖像的自然語言文本;在基礎(chǔ)提示詞的語種類型為目標語種的情況下,確定系統(tǒng)的提示詞數(shù)據(jù)集中與基礎(chǔ)提示詞對應的標準提示詞,其中,目標語種為圖像生成大模型所支持的語種類型,標準提示詞為在歷史的圖像生成過程中,圖像評分超過預設(shè)分數(shù)閾值的圖像所對應的提示詞,圖像評分用于表征圖像生成大模型所生成的圖像的圖像質(zhì)量;依據(jù)基礎(chǔ)提示詞和/或標準提示詞,確定目標提示詞,并采用圖像生成大模型,依據(jù)目標提示詞,生成目標圖像的方式,通過大模型對提示詞的翻譯與潤色與優(yōu)質(zhì)提示詞模板的向量匹配,達到了提升生成圖像的質(zhì)量的目的,進而解決了由于圖像生成的質(zhì)量受提示詞影響較大,而普通用戶往往沒有提示詞編寫的基礎(chǔ),造成的圖像生成效果差技術(shù)問題。
1.一種圖像生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,在獲取基礎(chǔ)提示詞之后,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述提示詞數(shù)據(jù)集中包含不同描述場景下的多個所述標準提示詞對應的模板向量;確定系統(tǒng)的提示詞數(shù)據(jù)集中與所述基礎(chǔ)提示詞對應的標準提示詞包括:
4.根據(jù)權(quán)利要求3所述的圖像生成方法,其特征在于,依據(jù)所述基礎(chǔ)提示詞和/或所述標準提示詞,確定目標提示詞包括:
5.根據(jù)權(quán)利要求3所述的圖像生成方法,其特征在于,采用所述圖像生成大模型,依據(jù)所述目標提示詞,生成目標圖像包括:
6.根據(jù)權(quán)利要求5所述的圖像生成方法,其特征在于,依據(jù)所述圖像文本,確定剩余的所述候選圖像對應的所述圖像評分包括:
7.根據(jù)權(quán)利要求6所述的圖像生成方法,其特征在于,所述方法還包括:
8.一種圖像生成裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:存儲器和處理器,所述處理器用于運行存儲在所述存儲器中的程序,其中,所述程序運行時執(zhí)行權(quán)利要求1至7中任意一項所述的圖像生成方法。
10.一種非易失性存儲介質(zhì),其特征在于,所述非易失性存儲介質(zhì)包括存儲的計算機程序,其中,所述非易失性存儲介質(zhì)所在設(shè)備通過運行所述計算機程序執(zhí)行權(quán)利要求1至7中任意一項所述的圖像生成方法。
11.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任意一項所述的圖像生成方法的步驟。