本發(fā)明屬于計算機(jī)視覺,涉及一種基于暗通道先驗引導(dǎo)注意力機(jī)制的霧天目標(biāo)檢測方法。
背景技術(shù):
1、近年來,由于無人駕駛和無人機(jī)的廣泛應(yīng)用,作為其“眼睛”的目標(biāo)檢測任務(wù)愈發(fā)凸顯其重要性。得益于深度學(xué)習(xí)的迅猛發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測方法取得了顯著進(jìn)展。在實際應(yīng)用中,霧天等惡劣天氣條件是一個不可忽視的現(xiàn)實場景。但是,現(xiàn)有方法往往針對良好天氣環(huán)境設(shè)計,難以適應(yīng)霧天等惡劣天氣條件。主要原因在于,霧天條件下,被拍攝物體和相機(jī)之間的特定光譜會受到微小的懸浮顆粒(如水滴、冰晶、灰塵和其他顆粒)的吸收和散射影響,導(dǎo)致圖像能見度顯著降低,圖像質(zhì)量變差。而現(xiàn)有神經(jīng)網(wǎng)絡(luò)難以從這類降質(zhì)圖像中提取具有鑒別力強(qiáng)的特征用于目標(biāo)檢測,這嚴(yán)重限制了目標(biāo)檢測的準(zhǔn)確性。因此,提高霧天條件下目標(biāo)檢測精度的關(guān)鍵在于,增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型在霧天圖像中提取具有強(qiáng)鑒別力特征的能力。
2、任務(wù)定義:基于暗通道先驗引導(dǎo)注意力機(jī)制的霧天目標(biāo)檢測方法的關(guān)鍵是,首先結(jié)合霧天場景中的先驗知識,再通過引導(dǎo)注意力機(jī)制,充分挖掘具有分辨力和魯棒性的利于檢測的關(guān)鍵信息,從而提高霧天條件下的目標(biāo)檢測的性能。
3、相關(guān)方法的局限性:霧天會導(dǎo)致圖像質(zhì)量下降,從而導(dǎo)致目標(biāo)檢測的性能下降。目前已經(jīng)存在一些方法在霧天條件下進(jìn)行目標(biāo)檢測。霧天目標(biāo)檢測主要該有以下三種方法。第一個最直接的方法是通過圖像預(yù)處理來去除特定的天氣信息,得到清晰的圖片之后再進(jìn)行目標(biāo)檢測。li和yang是最先提出通過損失監(jiān)督來恢復(fù)清晰圖像并進(jìn)行目標(biāo)檢測的方法。第二種基于多任務(wù)學(xué)習(xí)的方法同時學(xué)習(xí)的多個任務(wù),其中一項任務(wù)可能有益于其他任務(wù)。huang設(shè)計了一個雙子網(wǎng)框架,通過設(shè)計與檢測子網(wǎng)共享特征提取層的圖像恢復(fù)子網(wǎng)來生成干凈的特征,同時聯(lián)合學(xué)習(xí)三個任務(wù),包括可見性增強(qiáng)、對象分類和定位。cui預(yù)測圖像的退化參數(shù)并同時檢測目標(biāo)以提取具有更好表示的特征。第三種方法是應(yīng)用聯(lián)合增強(qiáng)與檢測方法。首先,通過某種方式對輸入的有霧圖像進(jìn)行增強(qiáng)。然后,將增強(qiáng)后的圖像輸入到普通的目標(biāo)檢測模型中進(jìn)行檢測。liu提出了一種可微分圖像處理(dip)模塊,其參數(shù)由小型卷積神經(jīng)網(wǎng)絡(luò)(cnn-pp)預(yù)測,以便每個圖像都可以自適應(yīng)增強(qiáng)。qin提出了一種聯(lián)合增強(qiáng)檢測框架denet,將輸入圖像分解為低頻和高頻分量,并自適應(yīng)增強(qiáng)每個分量,并以端到端的方式使用yolov3模型進(jìn)行檢測。以上這些方法通常依次執(zhí)行圖像去霧和目標(biāo)檢測。但是,這些方法存在兩個主要缺點。首先,雖然去霧圖像可能會增強(qiáng)人眼的感知質(zhì)量,但它們不一定會改善機(jī)器的感知。此外,圖像去霧引入了相當(dāng)大的計算復(fù)雜性。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種基于暗通道先驗引導(dǎo)注意力機(jī)制的霧天目標(biāo)檢測方法,旨在提升霧天場景的檢測精度,該方法可用于無人車、無人機(jī)等多種場景,有效彌補(bǔ)無人車、無人機(jī)在霧天環(huán)境下檢測精度不高的缺陷,從而擴(kuò)展了無人車、無人機(jī)的應(yīng)用場景。
2、為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于暗通道先驗引導(dǎo)注意力機(jī)制的霧天目標(biāo)檢測方法,包括以下步驟:
4、s1:收集包含各種類別目標(biāo)的霧天圖像,對所述圖像進(jìn)行預(yù)處理,并對每張圖像中的所有感興趣目標(biāo)進(jìn)行標(biāo)注,劃分訓(xùn)練集、驗證集和測試集;
5、s2:構(gòu)建基于暗通道先驗引導(dǎo)注意力機(jī)制的霧天目標(biāo)檢測模型,包括暗通道先驗引導(dǎo)注意力模型、骨干神經(jīng)網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)以及目標(biāo)檢測頭網(wǎng)絡(luò);所述骨干神經(jīng)網(wǎng)絡(luò)用于提取輸入圖像的多尺度特征;所述暗通道先驗引導(dǎo)注意力模型用于執(zhí)行以下步驟:
6、s21:依據(jù)暗通道的定義,對輸入圖像生成相應(yīng)的暗通道先驗;
7、s22:對其進(jìn)行下采樣處理,獲得與骨干神經(jīng)網(wǎng)絡(luò)提取特征大小相匹配的先驗圖;
8、s23:利用所述先驗圖計算引導(dǎo)注意力權(quán)重,挖掘暗通道先驗中所蘊(yùn)含的霧濃度信息與目標(biāo)景深信息;
9、s24:將注意力權(quán)重與骨干神經(jīng)網(wǎng)絡(luò)所生成的多尺度特征進(jìn)行融合,得到增強(qiáng)特征;
10、所述特征金字塔網(wǎng)絡(luò)與目標(biāo)檢測頭網(wǎng)絡(luò)基于所述增強(qiáng)特征,回歸和分類對應(yīng)尺度的目標(biāo);
11、s3:利用訓(xùn)練集對所述基于暗通道先驗引導(dǎo)注意力機(jī)制的霧天目標(biāo)檢測模型進(jìn)行訓(xùn)練,利用驗證集對訓(xùn)練后的基于暗通道先驗引導(dǎo)注意力機(jī)制的霧天目標(biāo)檢測模型進(jìn)行驗證,到表現(xiàn)最佳的訓(xùn)練模型,利用測試集對所述最佳的訓(xùn)練模型進(jìn)行測試;
12、s4:利用測試完成的基于暗通道先驗引導(dǎo)注意力機(jī)制的霧天目標(biāo)檢測模型計算并輸出圖像中目標(biāo)的位置以及類別信息。
13、進(jìn)一步,步驟s1中所述預(yù)處理包括:調(diào)整圖像的分辨率,轉(zhuǎn)換為統(tǒng)一的格式,并通過過數(shù)據(jù)增強(qiáng)擴(kuò)充數(shù)據(jù)集,所述數(shù)據(jù)增強(qiáng)包括隨機(jī)或水平翻轉(zhuǎn),隨機(jī)裁剪,圖像縮放。
14、進(jìn)一步,所述骨干神經(jīng)網(wǎng)絡(luò)提取的多尺度特征大小分別相當(dāng)于原圖大小的1/4、1/8、
15、1/16和1/32,分別表示為{x0,x1,x2,x3}。
16、進(jìn)一步,所述暗通道先驗引導(dǎo)注意力模型包括暗通道先驗計算模塊(pc)和暗通道先驗引導(dǎo)注意力模塊(pga);
17、所述暗通道先驗計算模塊用于生成有霧圖像的暗通道先驗,根據(jù)大氣散射模型,透射率圖的定義如下:
18、t(x)=e-βd(x)
19、其中t(x)代表透射率圖,β是包含霧濃度信息的大氣散射系數(shù),d(x)是場景深度;暗通道先驗常用于恢復(fù)透射率圖,根據(jù)透射率圖的定義,可以推斷暗通道先驗包含霧濃度信息和景深信息,能用于輔助排除霧的干擾;
20、根據(jù)輸入的有霧圖像計算暗通道先驗(dcp):首先獲取有霧圖像的rgb三通道中最小像素值的通道,獲取單通道之后,再選取局部區(qū)域內(nèi)的最小值,暗通道定義用公式表示如下:
21、
22、其中j是任意圖像,jc是j的顏色通道c∈{r,g,b},ω(x)表示以x為中心的局部塊區(qū)域。jdark(x)表示為rgb通道和ω(x)中所有像素之間的最小值;
23、所述暗通道先驗引導(dǎo)注意力模塊用于增強(qiáng)骨干網(wǎng)絡(luò)提取的特征;在原始暗通道先驗上采用雙線性插值下采樣方法得到與對應(yīng)特征圖大小一致的分辨率;根據(jù)骨干神經(jīng)網(wǎng)絡(luò)提取的多尺度特征的分辨率大小,對暗通道特征分別下采樣1/8,1/16和1/32,下采樣之后的暗通道先驗(dcp)特征記為然后利用引導(dǎo)注意力機(jī)制,暗通道先驗特征與對應(yīng)的骨干網(wǎng)絡(luò)特征x,通過所述暗通道先驗引導(dǎo)注意力模塊,暗通道先驗依次通過三個卷積層豐富先驗特征,進(jìn)一步挖掘dcp的潛在特征,通過三個卷積層之后輸出的先驗特征記作y;然后將先驗特征y作為引導(dǎo)注意力權(quán)重,與骨干特征x相乘,引導(dǎo)檢測器聚焦于對檢測友好的有利信息。
24、進(jìn)一步,所述暗通道先驗引導(dǎo)注意力模塊中三個卷積層具體的操作如下:
25、首先,暗通道先驗通過一個1×1的卷積層,將先驗的通道數(shù)由1升高到與對應(yīng)骨干特征通道數(shù)的1/4,然后再通過一個3×3的卷積層,保持通道數(shù)不變;最后再通過1×1的卷積層將通道數(shù)升高4倍,與對應(yīng)的骨干特征通道數(shù)相同,表示為:
26、
27、其中表示輸入的dcp特征,i表示骨干網(wǎng)絡(luò)提取的多尺度特征層級,f1×1代表卷積核大小為1的卷積操作,f3×3表示卷積核大小為3,yi表示經(jīng)過三個卷積層之后輸出的dcp先驗特征;
28、引入注意力機(jī)制,將dcp特征作為位置感知注意權(quán)重與骨干提取的特征按位相乘,注意力權(quán)重通過對卷積運算之后的dcp特征yi進(jìn)行sigmoid運算獲得;再將骨干特征xi通過一個3×3卷積運算,再與權(quán)重相乘;采用殘差連接避免不同域融合引起的偏移;該計算過程表示如下:
29、
30、其中,σ表示sigmoid激活函數(shù),表示經(jīng)過暗通道先驗引導(dǎo)注意力模塊之后最終的輸出。
31、進(jìn)一步,將通過暗通道先驗引導(dǎo)注意力模塊之后的多級特征輸入到特征金字塔網(wǎng)絡(luò)中,得到增強(qiáng)后的多層級特征;檢測頭網(wǎng)絡(luò)使用特征金字塔網(wǎng)絡(luò)獲得的特征進(jìn)行目標(biāo)的分類和邊界框回歸。
32、進(jìn)一步,步驟s3的訓(xùn)練階段,訓(xùn)練總損失ltotal表示如下:
33、ltotal=lcls+lloc
34、lcls為檢測頭網(wǎng)絡(luò)用于分類訓(xùn)練所采用的焦點損失;lloc為檢測頭網(wǎng)絡(luò)對于邊界框回歸所采用的smoothl1損失。
35、本發(fā)明的有益效果在于:本發(fā)明通過采用基于暗通道先驗的引導(dǎo)注意力機(jī)制,充分挖掘暗通道先驗中蘊(yùn)含的霧濃度信息與目標(biāo)景深信息,增強(qiáng)了模型對多變霧濃度的魯棒性,并充分利用景深信息對目標(biāo)的存在性和位置進(jìn)行推理,從而提升骨干神經(jīng)網(wǎng)絡(luò)提取圖像特征的鑒別力,進(jìn)而提高霧天環(huán)境下目標(biāo)檢測的精度。該機(jī)制能夠增強(qiáng)模型在霧天環(huán)境下的魯棒性,進(jìn)一步推動本發(fā)明方法在智能監(jiān)控、自動駕駛等眾多領(lǐng)域的應(yīng)用,提升不同任務(wù)場景下的環(huán)境適應(yīng)性。
36、本發(fā)明的其他優(yōu)點、目標(biāo)和特征在某種程度上將在隨后的說明書中進(jìn)行闡述,并且在某種程度上,基于對下文的考察研究對本領(lǐng)域技術(shù)人員而言將是顯而易見的,或者可以從本發(fā)明的實踐中得到教導(dǎo)。本發(fā)明的目標(biāo)和其他優(yōu)點可以通過下面的說明書來實現(xiàn)和獲得。