本發(fā)明屬于深度學(xué)習(xí)領(lǐng)域,具體涉及一種基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法。
背景技術(shù):
1、汽車成為人們最重要的交通工具。然而,道路上的交通安全問(wèn)題日益嚴(yán)重,駕駛員操作不規(guī)范,駕駛疲勞等因素導(dǎo)致的交通事故頻繁發(fā)生。智能駕駛技術(shù)作為一種解決方案,可以通過(guò)感知周圍場(chǎng)景并做出相應(yīng)操縱來(lái)減少駕駛員參與度,提高交通安全性和通行效率。其中,環(huán)境感知模塊是智能駕駛系統(tǒng)中至關(guān)重要的一環(huán),它通過(guò)處理傳感器采集的駕駛環(huán)境信息得到有效的檢測(cè)結(jié)果,并為決策規(guī)劃和運(yùn)動(dòng)控制模塊提供必要信息。因此,對(duì)智能駕駛?cè)S目標(biāo)檢測(cè)算法的研究具有十分重要的意義。
2、智能汽車常見(jiàn)的車載傳感器有:攝像頭、激光雷達(dá)、毫米波雷達(dá)、慣性測(cè)量單元、全球定位系統(tǒng)等。其中,攝像頭和激光雷達(dá)使用最為廣泛。不同類型的傳感器各有優(yōu)點(diǎn)和缺陷,單一傳感器難以應(yīng)對(duì)復(fù)雜多變的交通環(huán)境,激光雷達(dá)傳感器抗干擾能力強(qiáng)、可靠性高且可以獲取距離信息,但成本高、數(shù)據(jù)稀疏、分辨率低且難以識(shí)別目標(biāo)種類;攝像頭成本較低、提供色彩和紋理信息,但無(wú)法提供深度信息且容易受極端天氣和時(shí)間條件影響。因此,基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)可以有效結(jié)合二者的優(yōu)勢(shì),進(jìn)一步提高檢測(cè)性能。
3、由于點(diǎn)云和圖像的數(shù)據(jù)形式有很大差異,如何對(duì)二者進(jìn)行有效融合從而最大化發(fā)揮出各自的優(yōu)勢(shì)也是現(xiàn)在研究的難點(diǎn)。根據(jù)傳感器信息在不同層次上的融合,可以將融合方式分為特征級(jí)融合以及決策級(jí)融合。
4、決策級(jí)融合直接利用二維和三維目標(biāo)檢測(cè)網(wǎng)絡(luò)分別對(duì)圖像和點(diǎn)云進(jìn)行檢測(cè),將檢測(cè)結(jié)果進(jìn)行融合。決策級(jí)融合的優(yōu)點(diǎn)是:避免了圖像和點(diǎn)云特征的交互,推理速度快,并且檢測(cè)結(jié)果不會(huì)依賴于點(diǎn)云和圖像的配準(zhǔn)精度。但是,也有一定的缺點(diǎn):決策級(jí)融合無(wú)法充分整合圖像的豐富語(yǔ)義信息和點(diǎn)云的深度信息,限制了發(fā)展的潛力。
5、特征級(jí)融合是在基于點(diǎn)云的三維目標(biāo)檢測(cè)器的中間階段,例如在骨干網(wǎng)絡(luò)中,或在pr?oposal生成階段,或在roi細(xì)化階段,融合圖像和激光雷達(dá)特征。例如mv3d,avod以及mvx-net等模型都是特征級(jí)融合的多模態(tài)三維目標(biāo)檢測(cè)模型。
技術(shù)實(shí)現(xiàn)思路
1、為了解決背景技術(shù)中的問(wèn)題,本發(fā)明旨在基于深度學(xué)習(xí)的方法提出了一種改進(jìn)mvx-net模型的多模態(tài)三維目標(biāo)檢測(cè)算法。相比較于原始的mvx-net模型有著更高的精度。
2、一種基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法,包括以下步驟:
3、s1、在目標(biāo)區(qū)域內(nèi),拍攝圖像和獲取雷達(dá)點(diǎn)云。
4、所述圖像數(shù)據(jù)采集為:使用無(wú)人機(jī)或車載相機(jī)等設(shè)備進(jìn)行拍攝,獲取高分辨率的地面影像;所述點(diǎn)云數(shù)據(jù)采集為:使用激光雷達(dá)等設(shè)備對(duì)同一場(chǎng)景進(jìn)行掃描,獲取高密度、高精度的點(diǎn)云數(shù)據(jù)。
5、s2、數(shù)據(jù)配準(zhǔn):利用相機(jī)標(biāo)定得到的攝像頭內(nèi)參和外參參數(shù),以及雷達(dá)點(diǎn)云數(shù)據(jù)中的表面幾何信息,通過(guò)幾何約束關(guān)系來(lái)實(shí)現(xiàn)點(diǎn)云和圖像之間的配準(zhǔn)。
6、由于圖像和點(diǎn)云數(shù)據(jù)來(lái)源不同,二者之間存在空間信息上的差異。因此需要進(jìn)行數(shù)據(jù)配準(zhǔn),通過(guò)棋盤格標(biāo)定法將不同數(shù)據(jù)源的圖像和點(diǎn)云數(shù)據(jù)統(tǒng)一到同一坐標(biāo)系下,以便后續(xù)的特征提取和目標(biāo)檢測(cè)。
7、s3、使用標(biāo)注軟件annotate和labelme分別對(duì)點(diǎn)云和圖像進(jìn)行標(biāo)注,將需要被識(shí)別的目標(biāo)依次標(biāo)記上標(biāo)簽。通過(guò)標(biāo)注,為每個(gè)點(diǎn)云和圖像樣本提供目標(biāo)的方向、定位和類別信息。所述類別信息包括機(jī)動(dòng)車、行人、騎行者。
8、s4、標(biāo)注完成后,使用改進(jìn)的mvx-net模型進(jìn)行訓(xùn)練。將標(biāo)注好的圖像和點(diǎn)云樣本按照7:3的比例劃分為訓(xùn)練集和驗(yàn)證集,使用模型進(jìn)行三維目標(biāo)檢測(cè)的訓(xùn)練。通過(guò)多輪的迭代訓(xùn)練,模型會(huì)逐漸學(xué)習(xí)到檢測(cè)目標(biāo)的特征信息,并以此判斷的方向,定位和類別。在訓(xùn)練結(jié)束后,選擇在驗(yàn)證集中檢測(cè)性能最好的模型作為最終模型。
9、相對(duì)于原始的mvx-net多模態(tài)三維目標(biāo)檢測(cè)方法,本發(fā)明在精度上有較大的提高,并主要具有以下幾點(diǎn)改進(jìn):
10、(a)圖像骨干網(wǎng)絡(luò)階段:將圖像分支的骨干網(wǎng)絡(luò)替換為resnext-50,并將最后兩個(gè)卷積階段的普通3*3卷積更改為可變形卷積dcnv2。
11、為了減少模型復(fù)雜度并加快模型訓(xùn)練和推理的速度,只將resnext-50最后兩個(gè)階段的普通3*3卷積替換為可變形卷積dcnv2。
12、(b)圖像頸部網(wǎng)絡(luò)階段:對(duì)輸入的每個(gè)特征圖添加cbam注意力。cbam注意力機(jī)制包含兩個(gè)模塊:通道注意力模塊和空間注意力模塊。通道注意力模塊通過(guò)自適應(yīng)地調(diào)整每個(gè)通道的權(quán)重系數(shù),使得重要的特征通道得到更多的關(guān)注,從而有助于提高特征表達(dá)的準(zhǔn)確性??臻g注意力模塊則針對(duì)通道之間的位置信息進(jìn)行處理,允許模型學(xué)習(xí)到不同位置上的特征之間的相互作用方式,從而進(jìn)一步提高特征表達(dá)的穩(wěn)定性和魯棒性。
13、通道注意力模塊通過(guò)自適應(yīng)地調(diào)整每個(gè)通道的權(quán)重系數(shù),使得重要的特征通道得到更多的關(guān)注,從而有助于提高特征表達(dá)的準(zhǔn)確性;空間注意力模塊則針對(duì)通道之間的位置信息進(jìn)行處理,允許模型學(xué)習(xí)到不同位置上的特征之間的相互作用方式,從而進(jìn)一步提高特征表達(dá)的穩(wěn)定性和魯棒性。
14、(c)點(diǎn)云圖像融合階段:在點(diǎn)云與圖像的融合階段使用了自適應(yīng)融合,基于注意力的思想對(duì)點(diǎn)云和圖像的特征進(jìn)行加權(quán)融合,使得融合更加地充分和有效。首先將點(diǎn)云和圖像的特征張量按通道拼接,再對(duì)所有特征求平均得到一個(gè)新的張量,之后通過(guò)兩層全連接將張量擴(kuò)張到與拼接張量相同的尺寸作為權(quán)重張量,最后將權(quán)重張量和拼接張量相乘作為點(diǎn)云和圖像特征加權(quán)融合后的結(jié)果。
15、s5、對(duì)新的圖像和點(diǎn)云進(jìn)行三維目標(biāo)檢測(cè)時(shí),同樣需要進(jìn)行數(shù)據(jù)配準(zhǔn)。從訓(xùn)練好的多模態(tài)目標(biāo)檢測(cè)模型文件中,加載模型結(jié)構(gòu)和權(quán)重等參數(shù),將三維點(diǎn)云數(shù)據(jù)和二維圖像數(shù)據(jù)輸入到模型中。通過(guò)前向傳播算法,模型會(huì)對(duì)輸入的多模態(tài)數(shù)據(jù)進(jìn)行計(jì)算,并輸出包含目標(biāo)方向、定位和類別等信息的結(jié)果。使用非極大值抑制(nms)算法進(jìn)一步對(duì)檢測(cè)結(jié)果進(jìn)行后處理,去除重疊的檢測(cè)框,保留最可能的目標(biāo)框,提高檢測(cè)精度。
16、通過(guò)上述改進(jìn),我們的方法在三維目標(biāo)檢測(cè)中顯著提高了檢測(cè)精度,這對(duì)于智能駕駛等領(lǐng)域具有重要意義,因?yàn)槟軌驕?zhǔn)確地檢測(cè)出道路上各個(gè)目標(biāo)的定位和方向。
17、本發(fā)明實(shí)例提供的改進(jìn)mvx-net模型的三維目標(biāo)檢測(cè)方法,在智能汽車領(lǐng)域具有重要應(yīng)用價(jià)值,通過(guò)優(yōu)化模型結(jié)構(gòu),能夠更準(zhǔn)確地識(shí)別道路上的目標(biāo),為自動(dòng)駕駛的環(huán)境感知提供了有力支持。
1.一種基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法,其特征在于,所述步驟s1中:
3.根據(jù)權(quán)利要求1所述的一種基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法,其特征在于,所述步驟s4具體為:
4.根據(jù)權(quán)利要求1所述的一種基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法,其特征在于,所述步驟4.1)具體為:
5.根據(jù)權(quán)利要求1所述的一種基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法,其特征在于,所述步驟4.2)具體為:在圖像分支的頸部網(wǎng)絡(luò)中,對(duì)輸入的每個(gè)特征圖添加cbam注意力機(jī)制;
6.根據(jù)權(quán)利要求1所述的一種基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法,其特征在于,所述通道注意力模塊的數(shù)學(xué)公式如下:
7.根據(jù)權(quán)利要求1所述的一種基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法,其特征在于,所述步驟4.3)中,點(diǎn)云和圖像的特征經(jīng)自適應(yīng)融合模塊加權(quán)融合后輸入3d區(qū)域建議網(wǎng)絡(luò);所述自適應(yīng)融合模塊具體為:
8.根據(jù)權(quán)利要求1所述的一種基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法,其特征在于,所述步驟s5具體為:
9.一種終端,其特征在于,所述終端包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的三維目標(biāo)檢測(cè)程序,所述處理器執(zhí)行三維目標(biāo)檢測(cè)程序時(shí),實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有三維目標(biāo)檢測(cè)程序,所述三維目標(biāo)檢測(cè)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的基于圖像和點(diǎn)云融合的三維目標(biāo)檢測(cè)方法。