一種基于參數(shù)自進(jìn)化策略的多視角3D目標(biāo)檢測方法

文檔序號：40400345發(fā)布日期：2024-12-20 12:23閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于3d目標(biāo)檢測，具體涉及一種基于參數(shù)自進(jìn)化策略的多視角3d目標(biāo)檢測方法的設(shè)計。

背景技術(shù)：

1、3d目標(biāo)檢測是自動駕駛和機(jī)器人等領(lǐng)域的關(guān)鍵任務(wù)之一，是自駕車輛感知和規(guī)控的基礎(chǔ)。以視覺圖像為輸入的3d目標(biāo)檢測算法將圖像反投影到3d空間進(jìn)行預(yù)測，輸出為圖像中目標(biāo)在真實空間中相對于拍攝設(shè)備的位置及目標(biāo)的大小、朝向和屬性信息，包括是否靜止等。在自動駕駛場景下，環(huán)視多視角通常設(shè)置5個及以上的攝像頭，共同構(gòu)成以車輛為中心的環(huán)形視野，全方位獲取車輛周圍的信息。通過純視覺算法感知3d場景已經(jīng)成為一個較為成熟的研究方向，在工業(yè)界受到了廣泛的關(guān)注，一些車企已經(jīng)在車輛上部署了純視覺的感知算法，以多視角的視覺信息作為輸入，利用transformer網(wǎng)絡(luò)，使用密集柵格通過視角轉(zhuǎn)換將前視視角特征轉(zhuǎn)為鳥瞰視角（bev）下的特征，在實際應(yīng)用中取得了不遜于激光雷達(dá)輸入的性能表現(xiàn)。

2、現(xiàn)有的環(huán)視視角下的3d目標(biāo)檢測方案在輸入環(huán)視多視角圖片時，由于視角存在的對稱關(guān)系，即前后方向左右是鏡像的，而網(wǎng)絡(luò)接收的是六個視角圖片的堆疊，并不區(qū)分輸入的圖像是前視圖或后視圖，在采樣和預(yù)測過程中，如果前視圖一個采樣點落在目標(biāo)的右側(cè)，網(wǎng)絡(luò)學(xué)習(xí)的是一個空間中向左的相對偏移，而后視圖中網(wǎng)絡(luò)在2d圖像上的向左偏移對應(yīng)的實際空間中向右的相對偏移，這導(dǎo)致了網(wǎng)絡(luò)在學(xué)習(xí)中不同視角偏置的正負(fù)存在混淆，不利于網(wǎng)絡(luò)的學(xué)習(xí)和收斂。

3、針對這種對稱問題，一類常見的方法采用基于密集查詢的方式，將bev特征和預(yù)測的查詢都使用極坐標(biāo)的編碼方式，取得了有限的性能提升（nds只提升了0.3個點），網(wǎng)絡(luò)編碼能力相比于稀疏的方法表達(dá)能力更強(qiáng)，受環(huán)視對稱視角的影響較小。但這種基于密集查詢的方法也帶來了更多的參數(shù)量和計算量，對網(wǎng)絡(luò)的實際部署并不友好。

4、典型基于稀疏查詢的3d目標(biāo)檢測算法采用編碼-解碼結(jié)構(gòu)，編碼器使用cnn框架提取多視角圖像特征，解碼器采用多層堆疊的transformer塊來進(jìn)行2d到3d的特征轉(zhuǎn)換。由于稀疏查詢省略了bev特征的編碼過程，所需要的參數(shù)量和計算量更少。這類方法利用空間位置，根據(jù)相機(jī)內(nèi)外參將3d位置投影到2d圖像上，通過一組初始化查詢和對應(yīng)的空間位置，在交叉注意力模塊使用采樣的方式，通過相機(jī)位姿將空間位置投影到圖像中，提取對應(yīng)位置的特征，迭代優(yōu)化學(xué)習(xí)到2d圖像到3d目標(biāo)框的對應(yīng)關(guān)系。在交叉注意力階段，這類方法額外加入了一種3d空間位置的特征嵌入，通過多個線性映射將空間位置映射為多維特征并加入查詢特征中，使查詢特征同時耦合了位置和像素，來提升網(wǎng)絡(luò)的性能。但這種硬編碼的方式不僅帶來了參數(shù)的冗余，也存在過擬合場景的風(fēng)險，此外，這種耦合也導(dǎo)致一些基于2d特征采樣的增強(qiáng)方法在性能方面提升不明顯甚至產(chǎn)生了性能下降的結(jié)果。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是為了解決硬編碼方式存在參數(shù)冗余以及對性能不佳的問題，提出了一種基于參數(shù)自進(jìn)化策略的多視角3d目標(biāo)檢測方法。

2、本發(fā)明的技術(shù)方案為：一種基于參數(shù)自進(jìn)化策略的多視角3d目標(biāo)檢測方法，包括以下步驟：

3、s1.獲取車載環(huán)視的多視角圖像，并將多視角圖像的 rgb通道進(jìn)行歸一化處理，得到預(yù)處理后的圖像；

4、s2.構(gòu)建基于解耦位置嵌入和內(nèi)容嵌入學(xué)習(xí)的自適應(yīng)參數(shù)網(wǎng)絡(luò)，進(jìn)行訓(xùn)練，得到3d目標(biāo)檢測模型；

5、s3.將預(yù)處理后的圖像輸入3d目標(biāo)檢測模型的編碼模塊，輸出得到圖像的多尺度視覺特征；

6、s4.將圖像的多尺度視覺特征輸入3d目標(biāo)檢測模型的解碼模塊進(jìn)行特征學(xué)習(xí)，輸出得到圖像場景中的交通目標(biāo)的類別和3d框，完成多視角3d目標(biāo)檢測。

7、本發(fā)明的有益效果是：

8、本發(fā)明提出利用基于解耦位置嵌入和內(nèi)容嵌入學(xué)習(xí)的自適應(yīng)參數(shù)網(wǎng)絡(luò)來構(gòu)建3d目標(biāo)檢測模型，對車載環(huán)視的多視角圖進(jìn)行識別檢測，解耦了網(wǎng)絡(luò)中目標(biāo)外觀和位置的表征，實現(xiàn)了即時性自進(jìn)化，使得學(xué)習(xí)出的視覺表征更加適應(yīng)不同的輸入目標(biāo)，而且能夠利用不同目標(biāo)之間的相互關(guān)系來得到更準(zhǔn)確的位置。

9、作為優(yōu)選，步驟s2中對所述自適應(yīng)參數(shù)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，具體為：

10、從數(shù)據(jù)集中隨機(jī)采樣出同一時間戳下同一批次的六視角圖像，輸入基于解耦位置嵌入和內(nèi)容嵌入學(xué)習(xí)的自適應(yīng)參數(shù)網(wǎng)絡(luò)，對自適應(yīng)參數(shù)網(wǎng)絡(luò)的參數(shù)進(jìn)行自適應(yīng)計算和調(diào)整；

11、根據(jù)損失函數(shù)計算損失，通過反向傳播方法計算出所有可訓(xùn)練參數(shù)的梯度，根據(jù)梯度對所有可訓(xùn)練的參數(shù)進(jìn)行更新，直至訓(xùn)練輪次達(dá)到設(shè)定的數(shù)目，結(jié)束訓(xùn)練。

12、作為優(yōu)選，所述損失函數(shù)包括分類損失和回歸損失；所述分類損失為 focalloss損失函數(shù)；所述回歸損失為l1損失函數(shù)；

13、所述損失函數(shù)的計算公式為：

14、

15、其中，表示損失函數(shù)，表示分類損失，表示回歸損失，表示分類損失的權(quán)重系數(shù)，有，表示回歸損失的權(quán)重系數(shù)，有，表示 focalloss損失函數(shù)，表示l1損失函數(shù)，表示類別的預(yù)測分布，表示真實類別的分布，表示預(yù)測的3d框數(shù)值，表示真實的3d框數(shù)值。

16、作為優(yōu)選，所述編碼模塊包括依次連接的預(yù)訓(xùn)練的視覺骨干網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)；

17、所述預(yù)訓(xùn)練的視覺骨干網(wǎng)絡(luò)，用于接收所述預(yù)處理后的圖像，輸出圖像特征；

18、所述特征金字塔網(wǎng)絡(luò)，用于接收所述圖像特征，輸出圖像的多尺度視覺特征。

19、作為優(yōu)選，所述解碼模塊包括多個堆疊的 transformer變體網(wǎng)絡(luò)和兩層堆疊的線性層；

20、所述 transformer變體網(wǎng)絡(luò)包括依次連接的交叉注意力層、自注意力層和前饋層。

21、上述優(yōu)選方案設(shè)計了一種解耦位置嵌入和內(nèi)容嵌入學(xué)習(xí)的自適應(yīng)參數(shù)網(wǎng)絡(luò)結(jié)構(gòu)，網(wǎng)絡(luò)學(xué)習(xí)的是2d-3d映射關(guān)系而不是記住目標(biāo)在空間中的位置。同時發(fā)揮2d檢測中較為成熟的技術(shù)和先驗，使用自適應(yīng)的參數(shù)學(xué)習(xí)方式增強(qiáng)像素特征，讓網(wǎng)絡(luò)能夠利用圖像中存在的目標(biāo)間的位置關(guān)系，提升網(wǎng)絡(luò)的表達(dá)能力。

22、作為優(yōu)選，所述步驟s4具體包括以下步驟：

23、s41.接收圖像的多尺度視覺特征，并設(shè)定一組初始化目標(biāo)查詢；

24、s42.將初始化的目標(biāo)查詢映射到空間坐標(biāo)位置，得到3d框的中心點坐標(biāo)；

25、s43.將3d框的中心點坐標(biāo)投影到圖像的多尺度視覺特征上進(jìn)行特征采樣，得到采樣特征；

26、s44.根據(jù)采樣特征計算得到各查詢的2d特征，并根據(jù)采樣特征學(xué)習(xí)自適應(yīng)映射參數(shù)，根據(jù)映射參數(shù)對各查詢的2d特征進(jìn)行通道加權(quán)，得到待更新到目標(biāo)查詢的特征；

27、s45.根據(jù)待更新到目標(biāo)查詢的特征對目標(biāo)查詢進(jìn)行更新，得到更新后的查詢特征；

28、s46.重復(fù)步驟s42至步驟s45，直至解碼模塊所有層完成對目標(biāo)查詢的迭代更新，執(zhí)行步驟s47；

29、s47.將完成迭代更新的目標(biāo)查詢輸入兩層堆疊的線性層，輸出得到圖像場景中的3d框信息和分類目標(biāo)類別，完成多視角3d目標(biāo)檢測；

30、所述3d框信息的計算公式為：

31、

32、其中，表示將特征轉(zhuǎn)換為3d框參數(shù)的線性轉(zhuǎn)換，表示更新前的目標(biāo)查詢；

33、所述分類目標(biāo)類別的計算公式為：

34、

35、其中，表示將特征轉(zhuǎn)換為類別分布的線性變換。

36、作為優(yōu)選，所述步驟s42具體包括以下公式：

37、3d框的中心點坐標(biāo)的計算公式為：

38、

39、其中，表示3d框的中心點坐標(biāo)，表示線性層將目標(biāo)查詢映射到空間參考點坐標(biāo)的變換，表示更新前的目標(biāo)查詢，表示三維實數(shù)集；

40、空間坐標(biāo)位置采用極坐標(biāo)編碼，將3d框的中心點坐標(biāo)由直角坐標(biāo)系轉(zhuǎn)換為極坐標(biāo)系表示，得到：

41、

42、則，3d框的中心點坐標(biāo)為，表示3d框的中心點在直角坐標(biāo)系中的橫坐標(biāo)，表示3d框的中心點在直角坐標(biāo)系中的縱坐標(biāo)，表示3d框的中心點在極坐標(biāo)系中的極徑，表示3d框的中心點坐標(biāo)在極坐標(biāo)系中的方位角，表示3d框的中心點坐標(biāo)在極坐標(biāo)系中的仰角，表示反正切函數(shù)。

43、作為優(yōu)選，所述步驟s43中選擇雙線性插值方法進(jìn)行特征采樣；

44、所述采樣特征的計算公式為：

45、

46、其中，表示采樣特征，表示雙線性插值采樣操作，表示圖像的多尺度視覺特征，表示齊次映射前3d框的中心點坐標(biāo)。

47、作為優(yōu)選，所述步驟s44具體包括以下公式：

48、

49、其中，表示各查詢的2d特征，表示參考點是否落在圖像平面上，表示為避免分母為0而添加的一個極小的數(shù)，有，表示采樣特征，表示編碼模塊中特征金字塔網(wǎng)絡(luò)的層數(shù)，表示相機(jī)的索引；

50、

51、其中，表示待更新到目標(biāo)查詢的特征，表示映射參數(shù)，表示根據(jù)空間位置對應(yīng)的相機(jī)的外參和內(nèi)參矩陣的乘積，表示3d框的中心點坐標(biāo)的齊次坐標(biāo)，表示可變形采樣的位置偏移量，表示編碼模塊中特征金字塔網(wǎng)絡(luò)的層總數(shù)，表示對應(yīng)位置上各查詢的2d特征的線性映射。

52、作為優(yōu)選，步驟s45中所述更新后的查詢特征的計算公式為：

53、

54、其中，表示更新前的目標(biāo)查詢；表示更新后的目標(biāo)查詢。

55、上述優(yōu)選方案的有益效果是：

56、通過上述公式計算，能夠準(zhǔn)確捕獲空間中目標(biāo)的位置，同時增強(qiáng)了特征表達(dá)，有助于得到更為準(zhǔn)確的多視角3d目標(biāo)檢測結(jié)果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張艷寧,王鵬,席玉玲
技術(shù)所有人：西北工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種脫扣器鉚壓結(jié)構(gòu)的制作方法
上一篇：一種割草機(jī)的自動放線裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于參數(shù)自進(jìn)化策略的多視角3D目標(biāo)檢測方法