本發(fā)明涉及圖像生成,特別是涉及一種虛擬換裝模型的訓(xùn)練方法、虛擬換裝方法及裝置。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,出現(xiàn)了虛擬換裝技術(shù),通過(guò)虛擬換裝技術(shù),用戶只需上傳人物照片進(jìn)行匹配服裝,就能實(shí)現(xiàn)在線的虛擬換裝。然而,現(xiàn)有的虛擬換裝方法只是簡(jiǎn)單的服裝替換,即,將指定圖像中的服裝區(qū)域分割出來(lái)并遷移到另一圖像中的人物身上,在此過(guò)程中服裝區(qū)域可能被簡(jiǎn)單的縮放或旋轉(zhuǎn)等。但是,不同人物的體型或姿態(tài)復(fù)雜多樣,將同一件服裝遷移到不同體型或姿態(tài)的人身上,會(huì)存在較大的誤差,導(dǎo)致服裝區(qū)域和人物姿態(tài)不匹配、和人物身體部位的銜接部分的處理較為粗糙等,導(dǎo)致生成的換裝圖像與預(yù)期不符,換裝效果不佳。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例的目的在于提供一種虛擬換裝模型的訓(xùn)練方法、虛擬換裝方法及裝置,以實(shí)現(xiàn)提升虛擬換裝的自然度、靈活度以及真實(shí)感,為用戶提供更加豐富、個(gè)性化的虛擬換裝體驗(yàn)。具體技術(shù)方案如下:
2、在本發(fā)明實(shí)施的第一方面,首先提供了一種虛擬換裝模型的訓(xùn)練方法,所述方法包括:
3、獲取第一人物的第一原始圖像并獲取第一服飾的第一服飾圖像,其中,所述第一原始圖像中所述第一人物穿著所述第一服飾;
4、獲取用于描述所述第一原始圖像中除所述第一服飾外的其他元素的第一文本、所述第一原始圖像中所述第一人物所處的第一姿勢(shì);
5、將所述第一服飾圖像、所述第一文本以及所述第一姿勢(shì)輸入至原始虛擬換裝模型,得到所述原始虛擬換裝模型輸出的第一換裝圖像;
6、根據(jù)所述第一換裝圖像與所述第一原始圖像之間的差異,調(diào)整所述原始虛擬換裝模型的模型參數(shù),得到目標(biāo)虛擬換裝模型。
7、在一種可能的實(shí)施例中,所述獲取第一人物的第一原始圖像并獲取第一服飾的第一服飾圖像,包括:
8、從第一預(yù)設(shè)數(shù)據(jù)集中查找第一人物的第一原始圖像以及所述第一服飾的第一服飾圖像;
9、或,
10、從第二預(yù)設(shè)數(shù)據(jù)集中查找第一人物的第一原始圖像;
11、利用語(yǔ)義分割算法對(duì)所述第一原始圖像進(jìn)行分割得到所述第一服飾的第一服飾圖像。
12、在一種可能的實(shí)施例中,所述獲取用于描述所述第一原始圖像中除所述第一服飾外的其他元素的第一文本,包括:
13、利用文本描述算法確定用于描述所述第一原始圖像中所有元素的第二文本;
14、展示所述第二文本;
15、響應(yīng)于針對(duì)所述第二文本中用于描述所述第一服飾的第三文本的刪除指令,刪除所述刪除指令所指示的文本,將剩余的文本作為第一文本。
16、在一種可能的實(shí)施例中,所述獲取所述第一原始圖像中所述第一人物所處的第一姿勢(shì),包括:
17、利用姿勢(shì)識(shí)別算法對(duì)所述第一原始圖像中的第一人物進(jìn)行識(shí)別得到人體關(guān)鍵點(diǎn),作為第一姿勢(shì);
18、或,
19、利用深度估計(jì)算法對(duì)所述第一原始圖像中的第一人物進(jìn)行識(shí)別得到人體深度圖像,作為第一姿勢(shì)。
20、在一種可能的實(shí)施例中,所述虛擬換裝模型中包括圖像特征提取模塊、文本特征提取模塊、第一擴(kuò)散模塊以及第二擴(kuò)散模塊,所述擴(kuò)散模塊包括前向擴(kuò)散子模塊和逆向擴(kuò)散子模塊;
21、所述將所述第一服飾圖像、所述第一文本以及所述第一姿勢(shì)輸入至原始虛擬換裝模型,得到所述原始虛擬換裝模型輸出的第一換裝圖像,包括:
22、將所述第一服飾圖像輸入至所述圖像特征提取模塊,得到第一圖像特征;
23、將所述第一文本輸入至所述文本特征提取模塊,得到第一文本特征;
24、將所述第一姿勢(shì)輸入至所述第一擴(kuò)散模塊的逆向擴(kuò)散子模塊,得到目標(biāo)姿勢(shì);
25、將所述第一圖像特征和所述第一文本特征輸入至所述第二擴(kuò)散模塊的前向擴(kuò)散子模塊和逆向擴(kuò)散子模塊,并將所述目標(biāo)姿勢(shì)輸入至所述第二擴(kuò)散模塊的逆向擴(kuò)散子模塊,得到所述第二擴(kuò)散模塊輸出的預(yù)測(cè)換裝圖像,作為所述原始虛擬換裝模型輸出的第一換裝圖像。
26、在一種可能的實(shí)施例中,所述第二擴(kuò)散模塊還包括線性投射子模塊;
27、所述將所述第一圖像特征和所述第一文本特征輸入至所述第二擴(kuò)散模塊的前向擴(kuò)散子模塊和逆向擴(kuò)散子模塊,包括:
28、將所述第一圖像特征和所述第一文本特征輸入至所述線性投射子模塊,得到第一線性特征;
29、將所述第一線性特征輸入至所述第二擴(kuò)散模塊的前向擴(kuò)散子模塊和逆向擴(kuò)散子模塊;
30、所述調(diào)整所述原始虛擬換裝模型的模型參數(shù),得到目標(biāo)虛擬換裝模型,包括:
31、調(diào)整所述圖像特征提取模塊的模塊參數(shù),或,所述圖像特征提取模塊和所述線性投射子模塊的模塊參數(shù),得到目標(biāo)虛擬換裝模型。
32、在一種可能的實(shí)施例中,所述方法還包括:
33、將目標(biāo)換裝數(shù)據(jù)輸入至原始虛擬換裝模型,得到所述原始虛擬換裝模型輸出的目標(biāo)換裝圖像,其中,所述目標(biāo)換裝數(shù)據(jù)中包括所述第一服飾圖像、所述第一文本和所述第一姿勢(shì),或,所述第一服飾圖像和所述第一文本,或,所述第一服飾圖像和所述第一姿勢(shì);
34、所述根據(jù)所述第一換裝圖像與所述第一原始圖像之間的差異,調(diào)整所述原始虛擬換裝模型的模型參數(shù),得到目標(biāo)虛擬換裝模型,包括:
35、根據(jù)所述第一換裝圖像與所述第一原始圖像之間的差異、所述第一換裝圖像與所述目標(biāo)換裝圖像之間的差異,調(diào)整所述原始虛擬換裝模型的模型參數(shù),得到目標(biāo)虛擬換裝模型。
36、在本發(fā)明實(shí)施的第二方面,還提供了一種虛擬換裝方法,所述方法包括:
37、獲取待換裝數(shù)據(jù),其中,所述待換裝數(shù)據(jù)包括第二服飾的第二服飾圖像、第二文本以及第二姿勢(shì);
38、將所述待換裝數(shù)據(jù)輸入至目標(biāo)虛擬換裝模型,得到所述目標(biāo)虛擬換裝模型輸出的第二換裝圖像,所述目標(biāo)虛擬換裝模型為預(yù)先采用前述第一方面任一所述的虛擬換裝模型的訓(xùn)練方法步驟訓(xùn)練得到的,其中,所述第二換裝圖像中第二人物穿著所述第二服飾,所述第二人物在所述第二換裝圖像中所處的姿勢(shì)為所述第二姿勢(shì),所述第二換裝圖像符合所述第二文本的描述。
39、在本發(fā)明實(shí)施的第三方面,還提供了一種虛擬換裝模型的訓(xùn)練裝置,所述裝置包括:
40、獲取模塊,用于獲取第一人物的第一原始圖像并獲取第一服飾的第一服飾圖像,其中,所述第一原始圖像中所述第一人物穿著所述第一服飾;
41、確定模塊,用于獲取用于描述所述第一原始圖像中除所述第一服飾外的其他元素的第一文本、所述第一原始圖像中所述第一人物所處的第一姿勢(shì);
42、輸入模塊,用于將所述第一服飾圖像、所述第一文本以及所述第一姿勢(shì)輸入至原始虛擬換裝模型,得到所述原始虛擬換裝模型輸出的第一換裝圖像;
43、調(diào)整模塊,用于根據(jù)所述第一換裝圖像與所述第一原始圖像之間的差異,調(diào)整所述原始虛擬換裝模型的模型參數(shù),得到目標(biāo)虛擬換裝模型。
44、在一種可能的實(shí)施例中,所述獲取模塊,包括:
45、獲取第一子模塊,用于從第一預(yù)設(shè)數(shù)據(jù)集中查找第一人物的第一原始圖像以及所述第一服飾的第一服飾圖像;
46、或,
47、獲取第二子模塊,用于從第二預(yù)設(shè)數(shù)據(jù)集中查找第一人物的第一原始圖像;
48、獲取第三子模塊,用于利用語(yǔ)義分割算法對(duì)所述第一原始圖像進(jìn)行分割得到所述第一服飾的第一服飾圖像。
49、在一種可能的實(shí)施例中,所述確定模塊,包括:
50、確定第一子模塊,用于利用文本描述算法確定用于描述所述第一原始圖像中所有元素的第二文本;
51、確定第二子模塊,用于展示所述第二文本;
52、確定第三子模塊,用于響應(yīng)于針對(duì)所述第二文本中用于描述所述第一服飾的第三文本的刪除指令,刪除所述刪除指令所指示的文本,將剩余的文本作為第一文本。
53、在一種可能的實(shí)施例中,所述確定模塊,包括:
54、確定第四子模塊,用于利用姿勢(shì)識(shí)別算法對(duì)所述第一原始圖像中的第一人物進(jìn)行識(shí)別得到人體關(guān)鍵點(diǎn),作為第一姿勢(shì);
55、或,
56、確定第五子模塊,用于利用深度估計(jì)算法對(duì)所述第一原始圖像中的第一人物進(jìn)行識(shí)別得到人體深度圖像,作為第一姿勢(shì)。
57、在一種可能的實(shí)施例中,所述虛擬換裝模型中包括圖像特征提取模塊、文本特征提取模塊、第一擴(kuò)散模塊以及第二擴(kuò)散模塊,所述擴(kuò)散模塊包括前向擴(kuò)散子模塊和逆向擴(kuò)散子模塊;
58、所述輸入模塊,包括:
59、輸入第一子模塊,用于將所述第一服飾圖像輸入至所述圖像特征提取模塊,得到第一圖像特征;
60、輸入第二子模塊,用于將所述第一文本輸入至所述文本特征提取模塊,得到第一文本特征;
61、輸入第三子模塊,用于將所述第一姿勢(shì)輸入至所述第一擴(kuò)散模塊的逆向擴(kuò)散子模塊,得到目標(biāo)姿勢(shì);
62、輸入第四子模塊,用于將所述第一圖像特征和所述第一文本特征輸入至所述第二擴(kuò)散模塊的前向擴(kuò)散子模塊和逆向擴(kuò)散子模塊,并將所述目標(biāo)姿勢(shì)輸入至所述第二擴(kuò)散模塊的逆向擴(kuò)散子模塊,得到所述第二擴(kuò)散模塊輸出的預(yù)測(cè)換裝圖像,作為所述原始虛擬換裝模型輸出的第一換裝圖像。
63、在一種可能的實(shí)施例中,所述第二擴(kuò)散模塊還包括線性投射子模塊;
64、所述輸入第四子模塊,包括:
65、輸入第一子單元,用于將所述第一圖像特征和所述第一文本特征輸入至所述線性投射子模塊,得到第一線性特征;
66、輸入第二子單元,用于將所述第一線性特征輸入至所述第二擴(kuò)散模塊的前向擴(kuò)散子模塊和逆向擴(kuò)散子模塊;
67、所述調(diào)整模塊,包括:
68、調(diào)整第一子模塊,用于調(diào)整所述圖像特征提取模塊的模塊參數(shù),或,所述圖像特征提取模塊和所述線性投射子模塊的模塊參數(shù),得到目標(biāo)虛擬換裝模型。
69、在一種可能的實(shí)施例中,所述裝置還包括:
70、篩選模塊,用于將目標(biāo)換裝數(shù)據(jù)輸入至原始虛擬換裝模型,得到所述原始虛擬換裝模型輸出的目標(biāo)換裝圖像,其中,所述目標(biāo)換裝數(shù)據(jù)中包括所述第一服飾圖像、所述第一文本和所述第一姿勢(shì),或,所述第一服飾圖像和所述第一文本,或,所述第一服飾圖像和所述第一姿勢(shì);
71、所述調(diào)整模塊,包括:
72、調(diào)整第二子模塊,用于根據(jù)所述第一換裝圖像與所述第一原始圖像之間的差異、所述第一換裝圖像與所述目標(biāo)換裝圖像之間的差異,調(diào)整所述原始虛擬換裝模型的模型參數(shù),得到目標(biāo)虛擬換裝模型。
73、在本發(fā)明實(shí)施的第四方面,還提供了一種虛擬換裝裝置,所述裝置包括:
74、待換裝數(shù)據(jù)獲取模塊,用于獲取待換裝數(shù)據(jù),其中,所述待換裝數(shù)據(jù)包括第二服飾的第二服飾圖像、第二文本以及第二姿勢(shì);
75、換裝圖像輸出模塊,用于將所述待換裝數(shù)據(jù)輸入至目標(biāo)虛擬換裝模型,得到所述目標(biāo)虛擬換裝模型輸出的第二換裝圖像,所述目標(biāo)虛擬換裝模型為預(yù)先采用前述第一方面任一所述的虛擬換裝模型的訓(xùn)練方法步驟訓(xùn)練得到的,其中,所述第二換裝圖像中第二人物穿著所述第二服飾,所述第二人物在所述第二換裝圖像中所處的姿勢(shì)為所述第二姿勢(shì),所述第二換裝圖像符合所述第二文本的描述。
76、在本發(fā)明實(shí)施的第五方面,還提供了一種電子設(shè)備,包括處理器、通信接口、存儲(chǔ)器和通信總線,其中,處理器,通信接口,存儲(chǔ)器通過(guò)通信總線完成相互間的通信;
77、存儲(chǔ)器,用于存放計(jì)算機(jī)程序;
78、處理器,用于執(zhí)行存儲(chǔ)器上所存放的程序時(shí),實(shí)現(xiàn)上述任一所述的虛擬換裝模型的訓(xùn)練方法或虛擬換裝方法。
79、在本發(fā)明實(shí)施的又一方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一所述的虛擬換裝模型的訓(xùn)練方法或虛擬換裝方法。
80、在本發(fā)明實(shí)施的又一方面,還提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述任一所述的虛擬換裝模型的訓(xùn)練方法或虛擬換裝方法。
81、本發(fā)明實(shí)施例提供的虛擬換裝模型的訓(xùn)練方法、虛擬換裝方法及裝置,通過(guò)精確提取第一原始圖像中的第一人物所穿著服飾的服飾圖像以及描述非服飾元素的文本,并且由于服飾是附著在人物身體上的,人物姿勢(shì)的不同會(huì)影響服飾在圖像中所呈現(xiàn)的視覺(jué)效果,因此還精準(zhǔn)捕捉了第一原始圖像中第一人物的姿勢(shì),將這些信息作為輸入,并且進(jìn)一步地,以第一原始圖像為真值,通過(guò)比較模型輸出的換裝圖像與原始圖像之間的差異,對(duì)模型參數(shù)進(jìn)行針對(duì)性調(diào)整,以縮小換裝圖像與原始圖像之間的差距,使得最終獲得的目標(biāo)虛擬換裝模型能夠根據(jù)不同的文本提示、不同的人物姿勢(shì)調(diào)整服飾的呈現(xiàn)方式,從而保證了換裝圖像在不同姿態(tài)下的自然度和貼合度,大大增強(qiáng)了換裝的靈活性和真實(shí)感,為用戶提供了更加豐富、個(gè)性化的虛擬換裝體驗(yàn)。