本發(fā)明涉及金融科技,尤其涉及一種圖片生成方法、裝置、系統(tǒng)及介質(zhì)。
背景技術(shù):
1、圖片生成是計算機視覺領(lǐng)域的非?;钴S且有較多實際應用場景的研究,其中diffusion模型生成圖片比gan更具多樣性,而且質(zhì)量更高,diffusion模型的訓練過程也更加穩(wěn)定,使得圖片生成服務業(yè)務如推廣營銷、創(chuàng)意設計等成為了現(xiàn)實。但是由于diffusion本身的局限如訓練數(shù)據(jù)業(yè)務相關(guān)性弱、輸出結(jié)果依賴prompt質(zhì)量等原因?qū)е乱徊降轿簧蓸I(yè)務所需圖片難度較大,通常需要迭代多次。
2、然而,在宣傳海報、營銷海報的制作過程中,業(yè)務方通常要求自動生成可選素材作為背景、主體等供業(yè)務設計使用,且要求無感迭代更新,也就是說無需業(yè)務方額外頻繁輸入來迭代生成。這就要求生成結(jié)果在滿足業(yè)務要求的情況還要具有隨機性或者說多樣性,來滿足業(yè)務方持續(xù)進行創(chuàng)意設計、迭代宣傳文案的需求。因此如何提高圖片生成結(jié)果的多樣性是目前亟待解決的問題。
技術(shù)實現(xiàn)思路
1、鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供可應用于金融科技或其它相關(guān)領(lǐng)域的一種圖片生成方法、裝置、系統(tǒng)及介質(zhì),其主要目的在于提高圖片生成結(jié)果的多樣性。
2、本發(fā)明的技術(shù)方案如下:
3、本發(fā)明第一方面提供一種圖片生成方法,包括:
4、獲取基礎描述文本;
5、按預設擴展策略對所述基礎描述文本進行擴展,得到多個擴展描述文本;
6、根據(jù)所述多個擴展描述文本與所述基礎描述文本的偏移程度對所述多個擴展描述文本進行過濾,得到目標描述文本集合;
7、將所述目標描述文本集合輸入到diffusion模型中,生成與所述目標描述文本集合對應的圖片集合。
8、在一個實施例中,所述按預設擴展策略對所述基礎描述文本進行擴展,得到多個擴展描述文本,包括:
9、對所述基礎描述文本進行多次中英互譯,得到多個不同的互譯文本;
10、對所述基礎描述文本和多個互譯文本均進行最小語義排列組合,得到多個擴展描述文本。
11、在一個實施例中,所述按預設擴展策略對所述基礎描述文本進行擴展,得到多個擴展描述文本,包括:
12、將所述基礎描述文本輸入到訓練好的文本擴展模型中,對所述基礎描述文本進行擴展;
13、控制所述文本擴展模型的輸出結(jié)果長度,得到多個不同長度的擴展描述文本。
14、在一個實施例中,所述根據(jù)所述多個擴展描述文本與所述基礎描述文本的偏移程度對所述多個擴展描述文本進行過濾,得到目標描述文本集合,包括:
15、根據(jù)所述多個擴展描述文本的文本嵌入向量與所述基礎描述文本的文本嵌入向量計算相應的余弦距離值;
16、根據(jù)各個余弦距離值計算對應擴展描述文本的z分數(shù);
17、濾除所述多個擴展描述文本中z分數(shù)處于預設過濾區(qū)間的擴展描述文本,得到目標描述文本集合。
18、在一個實施例中,所述將所述目標描述文本集合輸入到diffusion模型中,生成與所述目標描述文本集合對應的圖片集合,包括:
19、根據(jù)所述目標描述文本集合中的多條目標描述文本生成相應的提示語文本;
20、將所述提示語文本輸入到diffusion模型中,并調(diào)整所述diffusion模型在正向過程中添加噪聲的隨機采樣結(jié)果以及在逆向過程中降噪的隨機強度,生成與多條提示語文本對應的圖片集合。
21、在一個實施例中,所述將所述目標描述文本集合輸入到diffusion模型中,生成與所述目標描述文本集合對應的圖片集合之后,還包括:
22、在所述圖片集合中確定與所述基礎描述文本距離最小的基準圖片;
23、根據(jù)所述圖片集合中其他圖片與所述基準圖片的偏移程度對其他圖片進行過濾,得到目標圖片集合。
24、在一個實施例中,所述根據(jù)所述圖片集合中其他圖片與所述基準圖片的偏移程度對其他圖片進行過濾,得到目標圖片集合,包括:
25、根據(jù)所述圖片集合中其他圖片的圖片嵌入向量與所述基準圖片的圖片嵌入向量計算相應的余弦距離值;
26、根據(jù)各個余弦距離值計算對應圖片的z分數(shù);
27、濾除所述圖片集合中z分數(shù)處于預設過濾區(qū)間的圖片,得到目標圖片集合。
28、本發(fā)明第二方面提供一種圖片生成裝置,包括:
29、文本獲取模塊,用于獲取基礎描述文本;
30、文本擴展模塊,用于按預設擴展策略對所述基礎描述文本進行擴展,得到多個擴展描述文本;
31、文本過濾模塊,用于根據(jù)所述多個擴展描述文本與所述基礎描述文本的偏移程度對所述多個擴展描述文本進行過濾,得到目標描述文本集合;
32、圖片生成模塊,用于將所述目標描述文本集合輸入到diffusion模型中,生成與所述目標描述文本集合對應的圖片集合。
33、本發(fā)明第三方面提供一種圖片生成系統(tǒng),所述系統(tǒng)包括至少一個處理器;以及,
34、與所述至少一個處理器通信連接的存儲器;其中,
35、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述圖片生成方法。
36、本發(fā)明第四方面提供一種非易失性計算機可讀存儲介質(zhì),所述非易失性計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,該計算機可執(zhí)行指令被一個或多個處理器執(zhí)行時,可使得所述一個或多個處理器執(zhí)行上述的圖片生成方法。
37、有益效果:本發(fā)明公開了一種圖片生成方法、裝置、系統(tǒng)及介質(zhì),相比于現(xiàn)有技術(shù),本發(fā)明實施例獲取基礎描述文本;按預設擴展策略對所述基礎描述文本進行擴展,得到多個擴展描述文本;根據(jù)所述多個擴展描述文本與所述基礎描述文本的偏移程度對所述多個擴展描述文本進行過濾,得到目標描述文本集合;將所述目標描述文本集合輸入到diffusion模型中,生成與所述目標描述文本集合對應的圖片集合。通過對基礎描述文本進行擴展并基于偏移程度進行過濾,得到具有多樣性和隨機性的目標描述文本集合,使得可以結(jié)合diffusion模型自動生成多種多樣的與業(yè)務強相關(guān)的圖片,提高圖片生成結(jié)果的多樣性。
1.一種圖片生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的圖片生成方法,其特征在于,所述按預設擴展策略對所述基礎描述文本進行擴展,得到多個擴展描述文本,包括:
3.根據(jù)權(quán)利要求1所述的圖片生成方法,其特征在于,所述按預設擴展策略對所述基礎描述文本進行擴展,得到多個擴展描述文本,包括:
4.根據(jù)權(quán)利要求1所述的圖片生成方法,其特征在于,所述根據(jù)所述多個擴展描述文本與所述基礎描述文本的偏移程度對所述多個擴展描述文本進行過濾,得到目標描述文本集合,包括:
5.根據(jù)權(quán)利要求1所述的圖片生成方法,其特征在于,所述將所述目標描述文本集合輸入到diffusion模型中,生成與所述目標描述文本集合對應的圖片集合,包括:
6.根據(jù)權(quán)利要求1所述的圖片生成方法,其特征在于,所述將所述目標描述文本集合輸入到diffusion模型中,生成與所述目標描述文本集合對應的圖片集合之后,還包括:
7.根據(jù)權(quán)利要求6所述的圖片生成方法,其特征在于,所述根據(jù)所述圖片集合中其他圖片與所述基準圖片的偏移程度對其他圖片進行過濾,得到目標圖片集合,包括:
8.一種圖片生成裝置,其特征在于,包括:
9.一種圖片生成系統(tǒng),其特征在于,所述系統(tǒng)包括至少一個處理器;以及,
10.一種非易失性計算機可讀存儲介質(zhì),其特征在于,所述非易失性計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,該計算機可執(zhí)行指令被一個或多個處理器執(zhí)行時,可使得所述一個或多個處理器執(zhí)行權(quán)利要求1-7任一項所述的圖片生成方法。