本發(fā)明屬于3d目標(biāo)檢測,具體涉及一種基于參數(shù)自進(jìn)化策略的多視角3d目標(biāo)檢測方法的設(shè)計。
背景技術(shù):
1、3d目標(biāo)檢測是自動駕駛和機(jī)器人等領(lǐng)域的關(guān)鍵任務(wù)之一,是自駕車輛感知和規(guī)控的基礎(chǔ)。以視覺圖像為輸入的3d目標(biāo)檢測算法將圖像反投影到3d空間進(jìn)行預(yù)測,輸出為圖像中目標(biāo)在真實空間中相對于拍攝設(shè)備的位置及目標(biāo)的大小、朝向和屬性信息,包括是否靜止等。在自動駕駛場景下,環(huán)視多視角通常設(shè)置5個及以上的攝像頭,共同構(gòu)成以車輛為中心的環(huán)形視野,全方位獲取車輛周圍的信息。通過純視覺算法感知3d場景已經(jīng)成為一個較為成熟的研究方向,在工業(yè)界受到了廣泛的關(guān)注,一些車企已經(jīng)在車輛上部署了純視覺的感知算法,以多視角的視覺信息作為輸入,利用transformer網(wǎng)絡(luò),使用密集柵格通過視角轉(zhuǎn)換將前視視角特征轉(zhuǎn)為鳥瞰視角(bev)下的特征,在實際應(yīng)用中取得了不遜于激光雷達(dá)輸入的性能表現(xiàn)。
2、現(xiàn)有的環(huán)視視角下的3d目標(biāo)檢測方案在輸入環(huán)視多視角圖片時,由于視角存在的對稱關(guān)系,即前后方向左右是鏡像的,而網(wǎng)絡(luò)接收的是六個視角圖片的堆疊,并不區(qū)分輸入的圖像是前視圖或后視圖,在采樣和預(yù)測過程中,如果前視圖一個采樣點落在目標(biāo)的右側(cè),網(wǎng)絡(luò)學(xué)習(xí)的是一個空間中向左的相對偏移,而后視圖中網(wǎng)絡(luò)在2d圖像上的向左偏移對應(yīng)的實際空間中向右的相對偏移,這導(dǎo)致了網(wǎng)絡(luò)在學(xué)習(xí)中不同視角偏置的正負(fù)存在混淆,不利于網(wǎng)絡(luò)的學(xué)習(xí)和收斂。
3、針對這種對稱問題,一類常見的方法采用基于密集查詢的方式,將bev特征和預(yù)測的查詢都使用極坐標(biāo)的編碼方式,取得了有限的性能提升(nds只提升了0.3個點),網(wǎng)絡(luò)編碼能力相比于稀疏的方法表達(dá)能力更強(qiáng),受環(huán)視對稱視角的影響較小。但這種基于密集查詢的方法也帶來了更多的參數(shù)量和計算量,對網(wǎng)絡(luò)的實際部署并不友好。
4、典型基于稀疏查詢的3d目標(biāo)檢測算法采用編碼-解碼結(jié)構(gòu),編碼器使用cnn框架提取多視角圖像特征,解碼器采用多層堆疊的transformer塊來進(jìn)行2d到3d的特征轉(zhuǎn)換。由于稀疏查詢省略了bev特征的編碼過程,所需要的參數(shù)量和計算量更少。這類方法利用空間位置,根據(jù)相機(jī)內(nèi)外參將3d位置投影到2d圖像上,通過一組初始化查詢和對應(yīng)的空間位置,在交叉注意力模塊使用采樣的方式,通過相機(jī)位姿將空間位置投影到圖像中,提取對應(yīng)位置的特征,迭代優(yōu)化學(xué)習(xí)到2d圖像到3d目標(biāo)框的對應(yīng)關(guān)系。在交叉注意力階段,這類方法額外加入了一種3d空間位置的特征嵌入,通過多個線性映射將空間位置映射為多維特征并加入查詢特征中,使查詢特征同時耦合了位置和像素,來提升網(wǎng)絡(luò)的性能。但這種硬編碼的方式不僅帶來了參數(shù)的冗余,也存在過擬合場景的風(fēng)險,此外,這種耦合也導(dǎo)致一些基于2d特征采樣的增強(qiáng)方法在性能方面提升不明顯甚至產(chǎn)生了性能下降的結(jié)果。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是為了解決硬編碼方式存在參數(shù)冗余以及對性能不佳的問題,提出了一種基于參數(shù)自進(jìn)化策略的多視角3d目標(biāo)檢測方法。
2、本發(fā)明的技術(shù)方案為:一種基于參數(shù)自進(jìn)化策略的多視角3d目標(biāo)檢測方法,包括以下步驟:
3、s1.獲取車載環(huán)視的多視角圖像,并將多視角圖像的 rgb通道進(jìn)行歸一化處理,得到預(yù)處理后的圖像;
4、s2.構(gòu)建基于解耦位置嵌入和內(nèi)容嵌入學(xué)習(xí)的自適應(yīng)參數(shù)網(wǎng)絡(luò),進(jìn)行訓(xùn)練,得到3d目標(biāo)檢測模型;
5、s3.將預(yù)處理后的圖像輸入3d目標(biāo)檢測模型的編碼模塊,輸出得到圖像的多尺度視覺特征;
6、s4.將圖像的多尺度視覺特征輸入3d目標(biāo)檢測模型的解碼模塊進(jìn)行特征學(xué)習(xí),輸出得到圖像場景中的交通目標(biāo)的類別和3d框,完成多視角3d目標(biāo)檢測。
7、本發(fā)明的有益效果是:
8、本發(fā)明提出利用基于解耦位置嵌入和內(nèi)容嵌入學(xué)習(xí)的自適應(yīng)參數(shù)網(wǎng)絡(luò)來構(gòu)建3d目標(biāo)檢測模型,對車載環(huán)視的多視角圖進(jìn)行識別檢測,解耦了網(wǎng)絡(luò)中目標(biāo)外觀和位置的表征,實現(xiàn)了即時性自進(jìn)化,使得學(xué)習(xí)出的視覺表征更加適應(yīng)不同的輸入目標(biāo),而且能夠利用不同目標(biāo)之間的相互關(guān)系來得到更準(zhǔn)確的位置。
9、作為優(yōu)選,步驟s2中對所述自適應(yīng)參數(shù)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,具體為:
10、從數(shù)據(jù)集中隨機(jī)采樣出同一時間戳下同一批次的六視角圖像,輸入基于解耦位置嵌入和內(nèi)容嵌入學(xué)習(xí)的自適應(yīng)參數(shù)網(wǎng)絡(luò),對自適應(yīng)參數(shù)網(wǎng)絡(luò)的參數(shù)進(jìn)行自適應(yīng)計算和調(diào)整;
11、根據(jù)損失函數(shù)計算損失,通過反向傳播方法計算出所有可訓(xùn)練參數(shù)的梯度,根據(jù)梯度對所有可訓(xùn)練的參數(shù)進(jìn)行更新,直至訓(xùn)練輪次達(dá)到設(shè)定的數(shù)目,結(jié)束訓(xùn)練。
12、作為優(yōu)選,所述損失函數(shù)包括分類損失和回歸損失;所述分類損失為 focalloss損失函數(shù);所述回歸損失為l1損失函數(shù);
13、所述損失函數(shù)的計算公式為:
14、
15、其中,表示損失函數(shù),表示分類損失,表示回歸損失,表示分類損失的權(quán)重系數(shù),有,表示回歸損失的權(quán)重系數(shù),有,表示 focalloss損失函數(shù),表示l1損失函數(shù),表示類別的預(yù)測分布,表示真實類別的分布,表示預(yù)測的3d框數(shù)值,表示真實的3d框數(shù)值。
16、作為優(yōu)選,所述編碼模塊包括依次連接的預(yù)訓(xùn)練的視覺骨干網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò);
17、所述預(yù)訓(xùn)練的視覺骨干網(wǎng)絡(luò),用于接收所述預(yù)處理后的圖像,輸出圖像特征;
18、所述特征金字塔網(wǎng)絡(luò),用于接收所述圖像特征,輸出圖像的多尺度視覺特征。
19、作為優(yōu)選,所述解碼模塊包括多個堆疊的 transformer變體網(wǎng)絡(luò)和兩層堆疊的線性層;
20、所述 transformer變體網(wǎng)絡(luò)包括依次連接的交叉注意力層、自注意力層和前饋層。
21、上述優(yōu)選方案設(shè)計了一種解耦位置嵌入和內(nèi)容嵌入學(xué)習(xí)的自適應(yīng)參數(shù)網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)學(xué)習(xí)的是2d-3d映射關(guān)系而不是記住目標(biāo)在空間中的位置。同時發(fā)揮2d檢測中較為成熟的技術(shù)和先驗,使用自適應(yīng)的參數(shù)學(xué)習(xí)方式增強(qiáng)像素特征,讓網(wǎng)絡(luò)能夠利用圖像中存在的目標(biāo)間的位置關(guān)系,提升網(wǎng)絡(luò)的表達(dá)能力。
22、作為優(yōu)選,所述步驟s4具體包括以下步驟:
23、s41.接收圖像的多尺度視覺特征,并設(shè)定一組初始化目標(biāo)查詢;
24、s42.將初始化的目標(biāo)查詢映射到空間坐標(biāo)位置,得到3d框的中心點坐標(biāo);
25、s43.將3d框的中心點坐標(biāo)投影到圖像的多尺度視覺特征上進(jìn)行特征采樣,得到采樣特征;
26、s44.根據(jù)采樣特征計算得到各查詢的2d特征,并根據(jù)采樣特征學(xué)習(xí)自適應(yīng)映射參數(shù),根據(jù)映射參數(shù)對各查詢的2d特征進(jìn)行通道加權(quán),得到待更新到目標(biāo)查詢的特征;
27、s45.根據(jù)待更新到目標(biāo)查詢的特征對目標(biāo)查詢進(jìn)行更新,得到更新后的查詢特征;
28、s46.重復(fù)步驟s42至步驟s45,直至解碼模塊所有層完成對目標(biāo)查詢的迭代更新,執(zhí)行步驟s47;
29、s47.將完成迭代更新的目標(biāo)查詢輸入兩層堆疊的線性層,輸出得到圖像場景中的3d框信息和分類目標(biāo)類別,完成多視角3d目標(biāo)檢測;
30、所述3d框信息的計算公式為:
31、
32、其中,表示將特征轉(zhuǎn)換為3d框參數(shù)的線性轉(zhuǎn)換,表示更新前的目標(biāo)查詢;
33、所述分類目標(biāo)類別的計算公式為:
34、
35、其中,表示將特征轉(zhuǎn)換為類別分布的線性變換。
36、作為優(yōu)選,所述步驟s42具體包括以下公式:
37、3d框的中心點坐標(biāo)的計算公式為:
38、
39、其中,表示3d框的中心點坐標(biāo),表示線性層將目標(biāo)查詢映射到空間參考點坐標(biāo)的變換,表示更新前的目標(biāo)查詢,表示三維實數(shù)集;
40、空間坐標(biāo)位置采用極坐標(biāo)編碼,將3d框的中心點坐標(biāo)由直角坐標(biāo)系轉(zhuǎn)換為極坐標(biāo)系表示,得到:
41、
42、則,3d框的中心點坐標(biāo)為,表示3d框的中心點在直角坐標(biāo)系中的橫坐標(biāo),表示3d框的中心點在直角坐標(biāo)系中的縱坐標(biāo),表示3d框的中心點在極坐標(biāo)系中的極徑,表示3d框的中心點坐標(biāo)在極坐標(biāo)系中的方位角,表示3d框的中心點坐標(biāo)在極坐標(biāo)系中的仰角,表示反正切函數(shù)。
43、作為優(yōu)選,所述步驟s43中選擇雙線性插值方法進(jìn)行特征采樣;
44、所述采樣特征的計算公式為:
45、
46、其中,表示采樣特征,表示雙線性插值采樣操作,表示圖像的多尺度視覺特征,表示齊次映射前3d框的中心點坐標(biāo)。
47、作為優(yōu)選,所述步驟s44具體包括以下公式:
48、
49、其中,表示各查詢的2d特征,表示參考點是否落在圖像平面上,表示為避免分母為0而添加的一個極小的數(shù),有,表示采樣特征,表示編碼模塊中特征金字塔網(wǎng)絡(luò)的層數(shù),表示相機(jī)的索引;
50、
51、其中,表示待更新到目標(biāo)查詢的特征,表示映射參數(shù),表示根據(jù)空間位置對應(yīng)的相機(jī)的外參和內(nèi)參矩陣的乘積,表示3d框的中心點坐標(biāo)的齊次坐標(biāo),表示可變形采樣的位置偏移量,表示編碼模塊中特征金字塔網(wǎng)絡(luò)的層總數(shù),表示對應(yīng)位置上各查詢的2d特征的線性映射。
52、作為優(yōu)選,步驟s45中所述更新后的查詢特征的計算公式為:
53、
54、其中,表示更新前的目標(biāo)查詢;表示更新后的目標(biāo)查詢。
55、上述優(yōu)選方案的有益效果是:
56、通過上述公式計算,能夠準(zhǔn)確捕獲空間中目標(biāo)的位置,同時增強(qiáng)了特征表達(dá),有助于得到更為準(zhǔn)確的多視角3d目標(biāo)檢測結(jié)果。