本發(fā)明涉及人工智能和計(jì)算機(jī)視覺(jué),具體涉及短文本生成圖像模型訓(xùn)練方法、系統(tǒng)、短文本到圖像的生成方法、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
::1、隨著智能計(jì)算和深度學(xué)習(xí)的快速發(fā)展,文本生成圖像的ai模型已經(jīng)取得了引人注目的進(jìn)展。近年來(lái),短文本生成圖像的需求也日益增長(zhǎng),例如遙感圖像的生成、多媒體內(nèi)容的生成、電商商品圖的合成等。很多人,尤其是非專業(yè)人士和一些通常缺乏專業(yè)設(shè)計(jì)背景的普通用戶,往往依靠簡(jiǎn)短的文字描述來(lái)表達(dá)自己的視覺(jué)需求,而他們的描述往往是簡(jiǎn)潔而不完整的,用“兩只小白兔”或“城里有一輛車(chē)”等模糊的概念來(lái)傳達(dá)自己的需求。2、在這種情況下,短文本到圖像的生成不僅可以幫助用戶將這些最初的想法轉(zhuǎn)化為具體的視覺(jué)內(nèi)容,而且可以顯著提高創(chuàng)意效率,特別是在需要用簡(jiǎn)單的文本表達(dá)需求的場(chǎng)景中。因此,解決短文本生成圖像的任務(wù)是圖像處理和智能計(jì)算的必要條件。3、然而,短文本表達(dá)式的局限性給短文本到圖像的生成任務(wù)帶來(lái)了一定的挑戰(zhàn)。雖然像stable?diffusion這樣的人工智能模型在圖像生成任務(wù)方面取得了進(jìn)展,但與大型語(yǔ)言模型(large?language?models,?llm)和人類相比,它們從短文本中理解強(qiáng)語(yǔ)義信息的能力有限。同時(shí),人們普遍認(rèn)為,短文本往往缺乏足夠的語(yǔ)義信息來(lái)詳細(xì)描述復(fù)雜的圖像需求。例如,用戶可能會(huì)提供一個(gè)簡(jiǎn)短的描述,如“桌子上的蛋糕”,而沒(méi)有指定關(guān)鍵細(xì)節(jié),如桌子有兩條腿以上,蛋糕的顏色,或整體氛圍,導(dǎo)致生成的圖像有不舒服的地方與日常常識(shí)和用戶的愿望沖突。再如,生成的熊腿很奇怪、面部表情不正常,飛機(jī)的排列不合理、數(shù)量也存在錯(cuò)誤。這不僅會(huì)影響圖像的實(shí)際適用性,還可能破壞用戶對(duì)自動(dòng)生成技術(shù)的信任。4、因此,現(xiàn)有的短文本到圖像的生成方法,從短文本中理解強(qiáng)語(yǔ)義信息的能力有限,導(dǎo)致生成的圖像與日常常識(shí)不符,難以滿足用戶期望。技術(shù)實(shí)現(xiàn)思路1、基于此,本技術(shù)提出一種短文本生成圖像模型訓(xùn)練方法、系統(tǒng)、短文本到圖像的生成方法、電子設(shè)備及存儲(chǔ)介質(zhì),旨在能夠解決現(xiàn)有的短文本到圖像的生成方法,從短文本中理解強(qiáng)語(yǔ)義信息的能力有限,導(dǎo)致生成的圖像與日常常識(shí)不符,難以滿足用戶期望的問(wèn)題。2、本技術(shù)的第一方面提供了一種短文本生成圖像模型訓(xùn)練方法,所述方法包括:3、獲取短文本訓(xùn)練樣本;4、根據(jù)所述短文本訓(xùn)練樣本提取短文本主體特征,以及根據(jù)大語(yǔ)言模型和過(guò)濾規(guī)則,從所述短文本訓(xùn)練樣本中獲得多個(gè)有效常識(shí)特征;5、對(duì)所述短文本主體特征和所述多個(gè)有效常識(shí)特征進(jìn)行權(quán)重分配和特征標(biāo)準(zhǔn)化,獲得常識(shí)增強(qiáng)的短文本特征;6、根據(jù)驗(yàn)證噪聲數(shù)據(jù)和去噪規(guī)則,得到去噪特征,所述去噪規(guī)則由所述常識(shí)增強(qiáng)的短文本特征和權(quán)重增加的所述多個(gè)有效常識(shí)特征構(gòu)建所得;7、將所述去噪特征輸入預(yù)設(shè)目標(biāo)檢測(cè)模型,獲得主體特征;8、根據(jù)所述去噪規(guī)則,構(gòu)建去噪損失函數(shù);9、根據(jù)所述常識(shí)增強(qiáng)的短文本特征、所述多個(gè)有效常識(shí)特征和所述主體特征,構(gòu)建主體生成損失函數(shù);10、根據(jù)所述去噪損失函數(shù)和所述主體生成損失函數(shù)構(gòu)建自適應(yīng)損失函數(shù);11、根據(jù)所述自適應(yīng)損失函數(shù)對(duì)短文本生成圖像模型進(jìn)行優(yōu)化,得到目標(biāo)短文本生成圖像模型。12、作為第一方面的一種可選實(shí)施方式,根據(jù)大語(yǔ)言模型和過(guò)濾規(guī)則,從所述短文本訓(xùn)練樣本中獲得多個(gè)有效常識(shí)特征的步驟包括:13、將所述短文本訓(xùn)練樣本輸入第一大語(yǔ)言模型,生成多個(gè)第一常識(shí)特征;14、將所述短文本訓(xùn)練樣本和所述多個(gè)第一常識(shí)特征輸入第二大語(yǔ)言模型,得到篩選后的多個(gè)第二常識(shí)特征;15、使用經(jīng)人工反饋機(jī)制制定的過(guò)濾規(guī)則對(duì)所述多個(gè)第二常識(shí)特征進(jìn)行賦分,得到多個(gè)有效常識(shí)特征。16、作為第一方面的一種可選實(shí)施方式,根據(jù)大語(yǔ)言模型和過(guò)濾規(guī)則,從所述短文本訓(xùn)練樣本中獲得多個(gè)有效常識(shí)特征的步驟之后還包括:17、根據(jù)所述短文本主體特征和所述多個(gè)有效常識(shí)特征輸入第三大語(yǔ)言模型,得到面向短文本主體特征的多個(gè)有效常識(shí)特征;18、將所述面向短文本主體特征的多個(gè)有效常識(shí)特征輸入文本編碼器,得到文本信息,所述文本信息用于進(jìn)行常識(shí)增強(qiáng)操作時(shí)生成所述多個(gè)有效常識(shí)特征和所述常識(shí)增強(qiáng)的短文本特征。19、作為第一方面的一種可選實(shí)施方式,對(duì)所述短文本主體特征和所述多個(gè)有效常識(shí)特征進(jìn)行權(quán)重分配和特征標(biāo)準(zhǔn)化,獲得常識(shí)增強(qiáng)的短文本特征的步驟包括:20、使用交叉注意力機(jī)制,捕獲所述短文本主體特征和所述多個(gè)有效常識(shí)特征之間的長(zhǎng)距離依賴關(guān)系并動(dòng)態(tài)分配權(quán)重;以及使用殘差連接機(jī)制,保留所述短文本主體特征和得到多個(gè)初始常識(shí)增強(qiáng)特征;21、將所述多個(gè)初始常識(shí)增強(qiáng)特征經(jīng)過(guò)一個(gè)投影網(wǎng)絡(luò)以進(jìn)行特征標(biāo)準(zhǔn)化,得到所述常識(shí)增強(qiáng)的短文本特征,所述投影網(wǎng)絡(luò)包括線性層和層歸一化層。22、作為第一方面的一種可選實(shí)施方式,根據(jù)所述短文本訓(xùn)練樣本提取短文本主體特征的步驟包括:23、使用基于預(yù)訓(xùn)練的中文命名實(shí)體識(shí)別模型,從所述短文本訓(xùn)練樣本中提取所述短文本主體特征。24、作為第一方面的一種可選實(shí)施方式,所述去噪規(guī)則包括:25、向所述多個(gè)有效常識(shí)特征添加動(dòng)態(tài)權(quán)值,所述動(dòng)態(tài)權(quán)值隨著時(shí)間步長(zhǎng)的增加而動(dòng)態(tài)增大,得到權(quán)重增加的所述多個(gè)有效常識(shí)特征;26、根據(jù)所述常識(shí)增強(qiáng)的短文本特征和權(quán)重增加的所述多個(gè)有效常識(shí)特征,構(gòu)建去噪條件函數(shù),所述去噪條件函數(shù)用于從所述驗(yàn)證噪聲數(shù)據(jù)中復(fù)原出所述去噪特征。27、本技術(shù)的第二方面提供了一種短文本生成圖像模型訓(xùn)練系統(tǒng),所述系統(tǒng)包括:28、樣本獲取模塊,用于獲取短文本訓(xùn)練樣本;29、常識(shí)抽取模塊,包括大模型抽取單元和小模型抽取單元,所述小模型抽取單元用于根據(jù)所述短文本訓(xùn)練樣本提取短文本主體特征,所述大模型抽取單元用于根據(jù)大語(yǔ)言模型和過(guò)濾規(guī)則,從所述短文本訓(xùn)練樣本中獲得多個(gè)有效常識(shí)特征;30、模型學(xué)習(xí)模塊,包括常識(shí)增強(qiáng)單元和圖像去噪單元,所述常識(shí)增強(qiáng)單元用于對(duì)所述短文本主體特征和所述多個(gè)有效常識(shí)特征進(jìn)行權(quán)重分配和特征標(biāo)準(zhǔn)化獲得常識(shí)增強(qiáng)的短文本特征,所述圖像去噪單元用于根據(jù)驗(yàn)證噪聲數(shù)據(jù)和去噪規(guī)則得到去噪特征,所述去噪規(guī)則由所述常識(shí)增強(qiáng)的短文本特征和權(quán)重增加的所述多個(gè)有效常識(shí)特征構(gòu)建所得,將所述去噪特征輸入預(yù)設(shè)目標(biāo)檢測(cè)模型獲得主體特征;31、模型訓(xùn)練模塊,用于根據(jù)去噪損失函數(shù)和主體生成損失函數(shù)構(gòu)建自適應(yīng)損失函數(shù),根據(jù)所述自適應(yīng)損失函數(shù)對(duì)短文本生成圖像模型進(jìn)行優(yōu)化得到目標(biāo)短文本生成圖像模型;所述模型訓(xùn)練模塊包括第一損失函數(shù)單元和第二損失函數(shù)單元,所述第一損失函數(shù)單元用于根據(jù)所述去噪規(guī)則構(gòu)建去噪損失函數(shù),所述第二損失函數(shù)單元用于根據(jù)所述常識(shí)增強(qiáng)的短文本特征、所述多個(gè)有效常識(shí)特征和所述主體特征構(gòu)建主體生成損失函數(shù)。32、本技術(shù)的第三方面提供了一種短文本到圖像的生成方法,所述方法包括:33、獲取目標(biāo)短文本;34、將所述目標(biāo)短文本輸入目標(biāo)短文本生成圖像模型,所述目標(biāo)短文本生成圖像模型是通過(guò)如上述的短文本生成圖像模型訓(xùn)練方法訓(xùn)練而得到的;35、基于所述目標(biāo)短文本生成圖像模型得到所述目標(biāo)短文本對(duì)應(yīng)的目標(biāo)圖像。36、本技術(shù)的第四方面提供了一種短文本到圖像的生成系統(tǒng),所述系統(tǒng)包括:37、短文本獲取模塊,用于獲取目標(biāo)短文本;38、文本輸入模塊,用于將所述目標(biāo)短文本輸入目標(biāo)短文本生成圖像模型,所述目標(biāo)短文本生成圖像模型是通過(guò)如上述的短文本生成圖像模型訓(xùn)練方法訓(xùn)練而得到的;39、圖像生成模塊,用于基于所述目標(biāo)短文本生成圖像模型得到所述目標(biāo)短文本對(duì)應(yīng)的目標(biāo)圖像。40、本技術(shù)的第五方面提供了一種電子設(shè)備,包括:處理器;用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;其中,所述處理器被配置為執(zhí)行所述可執(zhí)行指令,以實(shí)現(xiàn)如上述的短文本生成圖像模型訓(xùn)練方法或如上述的短文本到圖像的生成方法。41、本技術(shù)的第六方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得所述電子設(shè)備能夠執(zhí)行如上述的短文本生成圖像模型訓(xùn)練方法或如上述的短文本到圖像的生成方法。42、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果包括:1.通過(guò)提取短文本的主體特征,模型能夠理解文本的核心內(nèi)容和主題;利用大語(yǔ)言模型和過(guò)濾規(guī)則提取的常識(shí)特征,能夠?yàn)槟P吞峁┍尘爸R(shí)和上下文信息,增強(qiáng)其理解能力。2.對(duì)短文本主體特征和有效常識(shí)特征進(jìn)行權(quán)重分配和標(biāo)準(zhǔn)化,有助于平衡不同特征對(duì)模型訓(xùn)練的影響,使得模型在生成圖像時(shí)能夠更好地結(jié)合文本內(nèi)容和常識(shí)信息;3.通過(guò)驗(yàn)證噪聲數(shù)據(jù)和去噪規(guī)則,模型能夠識(shí)別并去除訓(xùn)練數(shù)據(jù)中的噪聲,提高數(shù)據(jù)質(zhì)量;去噪規(guī)則的構(gòu)建依賴于常識(shí)增強(qiáng)的短文本特征和有效常識(shí)特征,確保去噪過(guò)程能夠有效保留有用信息;將去噪特征輸入預(yù)設(shè)目標(biāo)檢測(cè)模型,能夠提取出更為準(zhǔn)確的主體特征,這些特征將直接影響生成圖像的質(zhì)量和相關(guān)性;4.去噪損失函數(shù)的構(gòu)建確保模型在訓(xùn)練過(guò)程中能夠有效減少噪聲對(duì)生成結(jié)果的影響;主體生成損失函數(shù)則確保生成的圖像能夠準(zhǔn)確反映短文本的主體特征;結(jié)合去噪損失函數(shù)和主體生成損失函數(shù),形成自適應(yīng)損失函數(shù),使得模型在訓(xùn)練過(guò)程中能夠動(dòng)態(tài)調(diào)整損失權(quán)重,優(yōu)化生成效果;通過(guò)自適應(yīng)損失函數(shù)對(duì)短文本生成圖像模型進(jìn)行優(yōu)化,最終得到的目標(biāo)短文本生成圖像模型將具備更強(qiáng)的生成能力,能夠生成與輸入短文本高度相關(guān)且質(zhì)量較高的圖像。因此,本方案能夠解決現(xiàn)有的短文本到圖像的生成方法,從短文本中理解強(qiáng)語(yǔ)義信息的能力有限,導(dǎo)致生成的圖像與日常常識(shí)不符,難以滿足用戶期望的問(wèn)題。43、本技術(shù)的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本技術(shù)的實(shí)施例了解到。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12