本發(fā)明屬于圖像處理領(lǐng)域,具體涉及一種環(huán)境交互感知關(guān)聯(lián)的物體消除方法和裝置。
背景技術(shù):
::1、隨著人工智能技術(shù)的快速發(fā)展,將人工智能應(yīng)用于藝術(shù)創(chuàng)作領(lǐng)域已成為一個(gè)熱點(diǎn)研究方向。特別是在影視藝術(shù)創(chuàng)作中,如何利用人工智能技術(shù)輔助影視場(chǎng)景構(gòu)建、情感表達(dá)等,對(duì)提升影視藝術(shù)的創(chuàng)作效率和質(zhì)量具有重要意義。2、目前,影視場(chǎng)景構(gòu)建主要依賴于人工設(shè)計(jì)與搭建,存在耗時(shí)長(zhǎng)、成本高等問題。此外,影視場(chǎng)景中往往包含大量對(duì)情感表達(dá)、美學(xué)呈現(xiàn)有重要影響的物體元素,然而這些物體元素與場(chǎng)景之間往往存在錯(cuò)綜復(fù)雜的關(guān)聯(lián),給場(chǎng)景構(gòu)建和后期編輯帶來諸多不便。3、影視藝術(shù)創(chuàng)作中,一個(gè)重要的應(yīng)用是利用人工智能從影視素材中自動(dòng)提取物體信息。但目前的方法大多只關(guān)注物體本身的分割和識(shí)別,忽略了物體與周圍環(huán)境的關(guān)聯(lián)。事實(shí)上,影視場(chǎng)景中的物體往往會(huì)對(duì)環(huán)境產(chǎn)生復(fù)雜的影響,如遮擋背景、投射陰影、反射光線等。4、公開號(hào)為cn112184738a的發(fā)明專利申請(qǐng)公開了一種圖像分割方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。該方法包括:融合原始圖像對(duì)應(yīng)的視覺特征和描述語言對(duì)應(yīng)的文本特征,得到多模態(tài)特征,描述語言用于指定原始圖像中待分割的目標(biāo)物體;根據(jù)多模態(tài)特征對(duì)應(yīng)的圖像確定目標(biāo)物體的視覺區(qū)域,并將視覺區(qū)域?qū)?yīng)的圖像記為響應(yīng)熱度圖;根據(jù)多模態(tài)特征對(duì)應(yīng)的圖像和響應(yīng)熱度圖,確定目標(biāo)物體的分割結(jié)果。上述方案對(duì)圖像分割過程進(jìn)行了分解,首先基于融合得到的多模態(tài)特征對(duì)應(yīng)的圖像確定目標(biāo)物體的視覺區(qū)域,得到響應(yīng)熱度圖,然后根據(jù)多模態(tài)特征對(duì)應(yīng)的圖像和響應(yīng)熱度圖進(jìn)一步確定分割結(jié)果,有效消除了圖像和描述語言之間的語義鴻溝,分割出了描述語言指定的目標(biāo)物體。但該專利公開的方法無法針對(duì)物體對(duì)環(huán)境產(chǎn)生復(fù)雜的影響進(jìn)行消除。5、因此,亟需一種智能化技術(shù),能夠精準(zhǔn)建模影視場(chǎng)景中物體與環(huán)境的關(guān)聯(lián),并支持靈活的物體編輯和場(chǎng)景重構(gòu),同時(shí)為實(shí)現(xiàn)物體摳圖、背景融合等應(yīng)用提供技術(shù)支持。6、近年來,以穩(wěn)定擴(kuò)散模型(stable?diffusion)為代表的生成式ai模型在圖像生成與編輯領(lǐng)域取得了突破性進(jìn)展。特別是穩(wěn)定擴(kuò)散xl(sdxl)模型,具備更強(qiáng)大的學(xué)習(xí)能力,能夠生成高分辨率、高質(zhì)量、富含細(xì)節(jié)的逼真圖像。穩(wěn)定擴(kuò)散xl還支持圖像局部編輯功能,為影視場(chǎng)景中物體編輯提供了新的可能。7、基于穩(wěn)定擴(kuò)散xl模型的影視圖像物體消除方法,正是在這一背景下提出的。該方法利用穩(wěn)定擴(kuò)散xl模型強(qiáng)大的學(xué)習(xí)能力,建模影視場(chǎng)景中物體與環(huán)境的復(fù)雜關(guān)聯(lián),實(shí)現(xiàn)智能化、精細(xì)化的物體消除和場(chǎng)景修復(fù)。這將為影視藝術(shù)創(chuàng)作提供有力的技術(shù)支撐,助力智能影視制作,推動(dòng)視聽藝術(shù)與人工智能技術(shù)的深度融合,具有廣闊的應(yīng)用前景。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明提供了一種環(huán)境交互感知關(guān)聯(lián)的物體消除方法,該圖像物體消除方法能夠較為精確的消除物體及其影響。2、本發(fā)明提供了一種環(huán)境交互感知關(guān)聯(lián)的物體消除方法,包括:3、將獲得的原始圖像轉(zhuǎn)換為原始隱向量,基于原始隱向量通過第一穩(wěn)定擴(kuò)散模型進(jìn)行t次采樣得到多個(gè)第一過程隱向量和最后一次采樣得到的第一噪聲隱編碼;4、獲得在0.4t~0.6t次迭代的任意一次迭代中第一穩(wěn)定擴(kuò)散模型的unet模塊中不同尺寸上采樣層輸出的多個(gè)自注意力特征a,基于獲得的物體掩膜從每個(gè)自注意力特征a中提取對(duì)應(yīng)的自注意力特征并取均值得到多個(gè)尺寸的自注意力特征;5、將多個(gè)尺寸的自注意力特征從低尺寸到高尺寸進(jìn)行多尺度融合得到物體及其影響的掩膜,其中,在每次尺度融合得到的當(dāng)前融合特征的張量中將低于當(dāng)前尺寸掩碼閾值的值替換為0,得到當(dāng)前融合閾值化特征,將當(dāng)前融合閾值化特征進(jìn)行平滑、上采樣后進(jìn)行下一尺寸融合;6、構(gòu)建第二穩(wěn)定擴(kuò)散模型,所述第二穩(wěn)定擴(kuò)散模型包括抑制unet模塊,所述抑制unet模塊為基于物體及其影響的掩膜對(duì)unet模塊的自注意力層進(jìn)行掩膜抑制操作得到,通過第二穩(wěn)定擴(kuò)散模型對(duì)第一噪聲隱編碼進(jìn)行t次采樣得到多個(gè)過程融合隱向量和最終噪聲隱編碼,其中,在每次采樣過程中得到的融合隱向量包括通過抑制unet模塊輸出的當(dāng)前次采樣的第二過程隱向量中物體及其影響的掩膜范圍內(nèi)的數(shù)據(jù)和t-當(dāng)前次的采樣的第一過程隱向量中物體及其影響的掩膜范圍外的數(shù)據(jù),對(duì)最終噪聲隱編碼進(jìn)行解碼得到將圖像物體消除的最終圖像。7、優(yōu)選地,基于獲得的物體掩膜從每個(gè)自注意力特征a中提取對(duì)應(yīng)的自注意力特征并且取均值得到多個(gè)尺寸的自注意力特征,包括:8、將獲得的物體掩膜進(jìn)行下采樣,使得物體掩膜與自注意力特征a的尺寸保持一致;9、并基于與自注意特征a保持尺寸一致的物體掩膜的非零點(diǎn)坐標(biāo)從每個(gè)自注意力特征a中提取物體范圍內(nèi)的自注意力特征,將提取的自注意力特征取均值得到自注意力特征b,將相同尺寸的自注意力特征b取均值得到多個(gè)尺寸的自注意力特征。10、優(yōu)選地,將多個(gè)尺寸的自注意力特征從低尺寸到高尺寸進(jìn)行多尺度融合得到物體及其影響的掩膜,包括:11、s1、將當(dāng)前尺寸的自注意力特征與上一層迭代得到的上采樣特征做加權(quán)融合得到當(dāng)前融合特征;12、s2、在當(dāng)前融合特征的張量中將低于當(dāng)前尺寸掩碼閾值的值替換為0,得到當(dāng)前融合閾值化特征,采用2d高斯濾波核將當(dāng)前融合閾值化特征進(jìn)行平滑,對(duì)平滑后的當(dāng)前融合閾值化特征使用雙邊線性插值上采樣得到當(dāng)前上采樣特征;13、s3、迭代步驟s1-s2,直至多個(gè)尺寸的自注意力特征融合完成,從而得到物體及其影響的掩膜。14、優(yōu)選地,在當(dāng)前融合特征的張量中將低于當(dāng)前尺寸掩碼閾值的值替換為0,其中,當(dāng)前尺寸掩碼閾值為常數(shù)值或局部變化值;15、當(dāng)前尺寸掩碼閾值為局部變化值時(shí),構(gòu)建局部變化值的方法,包括:16、設(shè)定閾值常數(shù)c、滑動(dòng)窗口大小s,卷積核大小為(1,1,s,s),卷積的步長(zhǎng)為s,確?;瑒?dòng)窗口之間不重疊;17、利用所述卷積核對(duì)當(dāng)前融合特征的張量進(jìn)行滑動(dòng)窗口計(jì)算,獲得每個(gè)窗口內(nèi)像素的局部均值,基于每個(gè)窗口內(nèi)像素的局部均值構(gòu)建局部均值張量,通過插值操作使得局部均值張量的尺寸與當(dāng)前融合特征的張量尺寸相同;18、將閾值常數(shù)減去附權(quán)重的插值操作后的局部均值張量得到局部變化值。19、優(yōu)選地,基于物體及其影響的掩膜對(duì)unet模塊的自注意力層進(jìn)行掩膜抑制操作得到抑制unet模塊,包括:20、向unet模塊擴(kuò)展掩膜輸入通道,通過掩膜輸入通道將物體及其影響的掩膜輸入不同尺寸的自注意力層,使得不同尺寸的自注意力層輸出的自注意力分?jǐn)?shù)進(jìn)行掩膜抑制;21、掩膜抑制的自注意力分?jǐn)?shù)為:22、,,其中,?,分別為常規(guī)自注意力計(jì)算中的query向量,key向量,
d為key向量的維度,常規(guī)自注意力計(jì)算中的query向量,key向量,
d為key向量的維度,為物體及其影響的掩膜,為對(duì)每個(gè)q向量的取最小值操作,沿k向量對(duì)應(yīng)的維度方向復(fù)制獲取的最小值,為元素級(jí)乘法。
23、優(yōu)選地,通過第二穩(wěn)定擴(kuò)散模型對(duì)第一噪聲隱編碼進(jìn)行t次采樣得到最終噪聲隱編碼,包括:24、s1、將第一噪聲隱編碼通過抑制unet模塊得到當(dāng)前次采樣的第二過程隱向量;25、s2、將當(dāng)前次采樣的第二過程隱向量中物體及其影響的掩膜范圍內(nèi)的數(shù)據(jù)和對(duì)應(yīng)的t-當(dāng)前次的采樣的第一過程隱向量中物體及其影響的掩膜范圍外的數(shù)據(jù)構(gòu)建當(dāng)前次采樣的融合隱向量;26、s3、迭代步驟s1-s2,直至完成t次采樣得到最終噪聲隱編碼。27、優(yōu)選地,構(gòu)建融合向量的方法,包括:28、將當(dāng)前采樣的第二過程隱向量與二值化的物體及其影響的掩膜相乘得到第二過程抑制隱向量;29、將噪聲程度相同的第一過程隱向量與自反的二值化的物體及其影響的掩膜相乘得到第一過程抑制隱向量;30、將第一過程抑制隱向量和第二過程抑制隱向量加和得到當(dāng)前采樣的融合向量。31、優(yōu)選地,第s次采樣的融合隱向量為:32、,其中,為第s次采樣得到的第二過程隱向量,為第
t-s次采樣得到的第一過程隱向量,為二值化操作,為物體及其影響的掩膜。
33、本發(fā)明還提供了一種環(huán)境交互感知關(guān)聯(lián)的物體消除裝置,包括:包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于實(shí)現(xiàn)任一項(xiàng)所述的環(huán)境交互感知關(guān)聯(lián)的物體消除方法。34、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:35、本發(fā)明從而在0.4t~0.6t次迭代的任意一次迭代過程中提取的多個(gè)自注意力特征a為能夠獲得較為準(zhǔn)確反應(yīng)物體及其影響的自注意力特征,并基于獲得的物體掩膜將物體對(duì)應(yīng)的自注意力特征a進(jìn)行提取,從而將物體和背景分離,且保留更多的環(huán)境信息,并對(duì)均值化的自注意力特征a進(jìn)行多尺度融合和閾值化處理得到物體及其影響的掩膜。36、本發(fā)明基于物體及其影響的掩膜對(duì)unet模塊的自注意力層進(jìn)行掩膜抑制操作,使得通過抑制unet模塊得到的第二過程隱向量中物體及其影響部分被消除,從而通過多次采樣得到的最終噪聲隱編碼中物體及其影響部分被消除。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12