本技術涉及計算機視覺領域,更具體地說,它涉及一種人臉超分重建檢測方法、裝置及設備。
背景技術:
1、人臉檢測是計算機視覺領域的一個重要分支,是所有人臉圖像處理任務(如人臉識別、人臉跟蹤、姿態(tài)估計等)中的關鍵第一步。它廣泛應用于數(shù)字視頻處理、人機交互、社交媒體應用以及用戶行為分析等多個領域。隨著技術的發(fā)展,人臉檢測的應用背景已經(jīng)超出了傳統(tǒng)的人臉識別系統(tǒng)范疇,成為保障公共安全、提升用戶體驗的重要工具。
2、在實際應用中,由于拍攝條件(如拍攝距離、光照條件等)的限制,獲取到的人臉圖像往往質量較低,表現(xiàn)為分辨率低、模糊、噪聲多等問題。這些低質量的人臉圖像給后續(xù)的人臉檢測與識別帶來了巨大挑戰(zhàn),降低了識別系統(tǒng)的準確性和可靠性。為了克服低質量人臉圖像帶來的挑戰(zhàn),超分辨率重建技術被引入到人臉檢測與識別領域。超分辨率重建技術是一種圖像處理技術,它能夠通過一系列低分辨率的圖像來生成高分辨率的圖像。這種方法利用了圖像處理中的插值技術、深度學習等技術手段,通過對低分辨率圖像進行插值或學習,得到高分辨率圖像中的像素值,從而使圖像的細節(jié)更加清晰。傳統(tǒng)的超分辨率重建方法主要依賴于插值算法或重建濾波器,這些方法雖然能夠一定程度上提高圖像的分辨率,但往往無法有效地恢復圖像中的高頻細節(jié)信息,導致重建圖像的質量受限。
3、esrgan(enhanced?super-resolution?generative?adversarial?network)是一種基于生成對抗網(wǎng)絡(gan)的圖像超分辨率算法,旨在將低分辨率(lr)圖像轉化為高分辨率(hr)圖像,同時保持甚至提升圖像的質量。但esrgan對于包括復雜紋理、細節(jié)或動態(tài)場景的圖像,可能難以準確重建所有高頻信息,特別是在邊緣、紋理細節(jié)等區(qū)域,可能出現(xiàn)偽影或模糊現(xiàn)象,這影響了生成圖像的質量(如模糊、鋸齒等)。
技術實現(xiàn)思路
1、本技術提供了一種人臉超分重建檢測方法、裝置及設備,解決了現(xiàn)有技術提供的esrgan網(wǎng)絡在重建圖像分辨率的過程中,仍存在一定的噪聲和偽影,這影響了生成圖像的質量的問題。
2、本技術的第一方面,提供了一種人臉超分重建檢測方法,方法包括:
3、檢測低分辨率圖像是否存在待確認人臉區(qū)域;
4、在檢測出低分辨率圖像存在待確認人臉區(qū)域時,將待確認人臉區(qū)域的圖像輸入至人臉超分重建網(wǎng)絡中進行超分辨率重建,以確認出圖像中的人臉區(qū)域;其中,由生成器和鑒別器構建的增強型生成對抗網(wǎng)絡作為所述人臉超分重建網(wǎng)絡,且生成器的db殘差密集塊被替換為多個堆疊的swin?transformer塊結構,鑒別器的重建損失函數(shù)被引入用于判別是否為人臉區(qū)域的交叉熵損失函數(shù)。
5、在一些實施例中,通過以下方式來檢測低分辨率圖像是否存在待確認人臉區(qū)域:調用人臉檢測網(wǎng)絡對低分辨率圖像進行檢測,獲得人臉檢測區(qū)域;
6、對人臉檢測區(qū)域按照置信度閾值進行劃分,若大于第一置信度閾值,則人臉檢測區(qū)域為確認人臉區(qū)域,若小于第一置信度閾值大于第二置信度閾值,則人臉檢測區(qū)域為待確認人臉區(qū)域,若小于第二置信度閾值,則人臉檢測區(qū)域為非人臉區(qū)域。
7、在一些實施例中,所述生成器包括淺層特征提取網(wǎng)絡和深層特征提取網(wǎng)絡;
8、所述淺層特征提取網(wǎng)絡為一個3×3大小的卷積層,用于將待確認人臉區(qū)域的圖像映射為大小為c×w×h的第一特征圖;其中c為通道數(shù),w和h分別是圖像的寬度和高度
9、所述深層特征提取網(wǎng)絡包括多個堆疊的swin?transformer塊結構、多個3×3大小的卷積層、上采樣層和至少一個激活函數(shù)層。
10、在一些實施例中,每個所述swin?transformer塊結構包括第一swin?transformer子塊結構、第一卷積層、第二swin?transformer子塊結構和第二卷積層;其中,第一swintransformer子塊結構和第二swin?transformer子塊結構均是由三個swin?transformer塊依次連接構成的;
11、第一swin?transformer子塊結構通過三個swin?transformer塊的自注意力機制與相對位置編碼捕獲所述第一特征圖的局部特征和上下文信息,獲得大小為2c×w×h的第二特征圖;
12、第一卷積層用于將第一特征圖與第二特征圖融合,獲得大小為2c×w×h的第三特征圖;
13、第二swin?transformer子塊結構通過三個swin?transformer塊的自注意力機制與相對位置編碼捕獲所述第三特征圖的局部特征和上下文信息,獲得大小為3c×w×h的第四特征圖;
14、第二卷積層用于將第一特征圖、第三特征圖和第四特征圖歸一化到大小為c×w×h的第五特征圖。
15、在一些實施例中,所述swin?transformer塊是由兩個層歸一化層、多頭自注意力機制模塊和多層感知機模塊構成的;
16、其中,第一特征圖作為一個層歸一化層的輸入,一個層歸一化層的輸出作為多頭自注意力機制模塊的輸入,多頭自注意力機制模塊的輸出和第一特征圖融合所得的第一融合結果作為另一個層歸一化層的輸入,另一個層歸一化層的輸出作為多層感知機模塊的輸入,多層感知機模塊的輸出和第一融合結果融合所得的第二融合結果,作為一個所述swintransformer塊的輸出。
17、在一些實施例中,所述重建損失函數(shù)包括像素損失函數(shù)和對抗損失函數(shù),其中所述像素損失函數(shù)采用均方差損失函數(shù)。
18、在一些實施例中,所述鑒別器的網(wǎng)絡結構包括八個3×3大小的卷積層、lrelu激活函數(shù)層和批歸一化層構成;其中八個3×3大小的卷積層的卷積核的數(shù)量依次為64、128、128、128、256、256、512、512;最后一個卷積核數(shù)量為512的卷積層連接一個全連接層,全連接層的輸出連接lrelu激活函數(shù)層,在lrelu激活函數(shù)層的輸出再連接兩個全連接層,以構建一個二分類網(wǎng)絡,所述二分類網(wǎng)絡分別用于判斷輸入的待確認人臉區(qū)域的圖像是否為高分辨率圖像,判斷輸入的待確認人臉區(qū)域的圖像是否是人臉區(qū)域。
19、本技術第二方面,提供了一種人臉超分重建檢測裝置,裝置包括:
20、人臉區(qū)域檢測模塊,用于檢測低分辨率圖像是否存在待確認人臉區(qū)域;
21、人臉區(qū)域重建模塊,用于在檢測出低分辨率圖像存在待確認人臉區(qū)域時,將待確認人臉區(qū)域的圖像輸入至人臉超分重建網(wǎng)絡中進行超分辨率重建,以確認出圖像中的人臉區(qū)域;其中,由生成器和鑒別器構建的增強型生成對抗網(wǎng)絡作為所述人臉超分重建網(wǎng)絡,且生成器的db殘差密集塊被替換為多個堆疊的swin?transformer塊結構,鑒別器的重建損失函數(shù)被引入用于判別是否為人臉區(qū)域的交叉熵損失函數(shù)。
22、在一些實施例中,人臉區(qū)域檢測模塊,包括:
23、檢測模塊,用于調用人臉檢測網(wǎng)絡對低分辨率圖像進行檢測,獲得人臉檢測區(qū)域;
24、區(qū)域確認模塊,用于對人臉檢測區(qū)域按照置信度閾值進行劃分,若大于第一置信度閾值,則人臉檢測區(qū)域為確認人臉區(qū)域,若小于第一置信度閾值大于第二置信度閾值,則人臉檢測區(qū)域為待確認人臉區(qū)域,若小于第二置信度閾值,則人臉檢測區(qū)域為非人臉區(qū)域。
25、本技術的第三方面,提供了一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如本技術的第一方面提供的一種人臉超分重建檢測方法。
26、與現(xiàn)有技術相比,本技術具有以下有益效果:
27、在本技術提供的一種人臉超分重建檢測方法中,將esrgan的生成器與swintransformer深度整合,以構建出人臉超分重建網(wǎng)絡。具體的,swin?transformer的分層結構和局部注意力機制使得模型能夠在不同尺度上提取特征,并通過跨層連接進行多尺度特征融合。有助于減少這些偽影的產(chǎn)生,從而提高圖像質量。同時swin?transformer具有更強的特征提取能力,因此它能夠更好地恢復人臉圖像中的細節(jié)信息,如皮膚紋理、發(fā)絲等。這使得超分辨率重建后的人臉圖像更加真實、自然。swin?transformer通過自注意力機制能夠捕獲圖像中的全局上下文信息,如人臉圖像中的細節(jié)(如眼睛、鼻子、嘴巴等)與整個人臉面部的結構關系,全局信息的引入有助于更好地恢復這些細節(jié),從而提升了人臉超分重建網(wǎng)絡的特征提取能力和重建質量,保證了生成圖像的圖像質量。