本技術(shù)涉及智能駕駛,尤其涉及基于多模態(tài)特征的障礙檢測方法及裝置。
背景技術(shù):
1、在智能駕駛領(lǐng)域中,檢測車輛的可行駛區(qū)域是非常重要的一環(huán),具體檢測可行駛區(qū)域也可以理解為是檢測車輛周圍是否存在障礙物,進(jìn)而根據(jù)無障礙物的區(qū)域確定車輛的可行駛區(qū)域。
2、目前,對于障礙物檢測來說,通常是將采集到的3d(3維)激光點云投影到前視圖像后與2d(2維)圖像特征進(jìn)行融合,進(jìn)而利用融合特征進(jìn)行障礙物檢測;或者,將3d激光點云與通過2d圖像特征得到的障礙物預(yù)測結(jié)果進(jìn)行后融合,進(jìn)而確定是否存在障礙物。
3、但是,上述方法都在一定程度上損失了激光點云的3d結(jié)構(gòu)信息,障礙檢測的精度低,進(jìn)而導(dǎo)致自動駕駛車輛的安全性低。
技術(shù)實現(xiàn)思路
1、本技術(shù)的主要目的在于提供一種基于多模態(tài)特征的障礙檢測方法及裝置,旨在解決障礙檢測的精度低,自動駕駛車輛的安全性低的技術(shù)問題。
2、為實現(xiàn)上述目的,本技術(shù)提出一種基于多模態(tài)特征的障礙檢測方法,所述方法包括:
3、確定車輛在目標(biāo)方向上的待測空間,采集所述待測空間對應(yīng)的當(dāng)前激光點云和當(dāng)前相機(jī)圖像;其中,所述當(dāng)前激光點云為在當(dāng)前時刻采集的單幀激光點云,所述當(dāng)前相機(jī)圖像為在所述當(dāng)前時刻采集的單幀相機(jī)圖像;
4、對所述當(dāng)前激光點云進(jìn)行特征提取,得到第一3d體素特征;對所述當(dāng)前相機(jī)圖像進(jìn)行特征提取,得到第一2d圖像特征;
5、對所述第一3d體素特征和所述第一2d圖像特征進(jìn)行多模態(tài)特征融合,得到第一融合特征;
6、將所述第一融合特征輸入至預(yù)先訓(xùn)練好的障礙檢測模型中,得到所述障礙檢測模型輸出的所述待測空間內(nèi)的障礙信息;其中,所述障礙信息包括:3d占用柵格和/或3d占用柵格對應(yīng)的語義,所述3d占用柵格用于表征所述待測空間內(nèi)障礙物的位置信息,所述3d占用柵格對應(yīng)的語義用于表征所述待測空間內(nèi)障礙物的屬性信息。
7、在一實施例中,所述對所述第一3d體素特征和所述第一2d圖像特征進(jìn)行多模態(tài)特征融合,得到第一融合特征的步驟,包括:
8、對于所述第一3d體素特征中的每一個目標(biāo)體素,確定所述目標(biāo)體素在所述第一2d圖像特征中投影出的n個圖像像素點,作為n個直接投影點;其中,n為大于0的整數(shù);
9、根據(jù)所述n個直接投影點在所述當(dāng)前相機(jī)圖像上的位置,在所述當(dāng)前相機(jī)圖像上劃分出包含所述n個直接投影點對應(yīng)位置的目標(biāo)區(qū)域;
10、根據(jù)所述目標(biāo)區(qū)域,確定所述目標(biāo)體素對應(yīng)的交叉注意力區(qū)域;
11、將所述第一3d體素特征中的所有目標(biāo)體素的體素特征,分別與各所述目標(biāo)體素對應(yīng)的交叉注意力區(qū)域中圖像像素點的圖像特征之間進(jìn)行交叉注意力計算,得到第一融合特征。
12、在一實施例中,所述根據(jù)所述目標(biāo)區(qū)域,確定所述目標(biāo)體素對應(yīng)的交叉注意力區(qū)域的步驟,包括:
13、確定所述目標(biāo)區(qū)域中圖像像素點的像素點數(shù);
14、判斷所述像素點數(shù)與預(yù)設(shè)數(shù)量之間的大小關(guān)系;
15、在判定所述像素點數(shù)小于預(yù)設(shè)數(shù)量的情況下,擴(kuò)大所述目標(biāo)區(qū)域的范圍,直至擴(kuò)大后的目標(biāo)區(qū)域中圖像像素點的像素點數(shù)等于所述預(yù)設(shè)數(shù)量,確定所述擴(kuò)大后的目標(biāo)區(qū)域為所述交叉注意力區(qū)域;
16、在判定所述像素點數(shù)等于預(yù)設(shè)數(shù)量的情況下,確定所述目標(biāo)區(qū)域為所述交叉注意力區(qū)域;
17、在判定所述像素點數(shù)大于預(yù)設(shè)數(shù)量的情況下,將所述n個直接投影點和m個間接投影點組成所述交叉注意力區(qū)域;其中,m為所述預(yù)設(shè)數(shù)量與n的差值,所述間接投影點為所述當(dāng)前相機(jī)圖像上除所述n個直接投影點外的其他圖像像素點。
18、在一實施例中,所述將所述第一3d體素特征中的所有目標(biāo)體素的體素特征,分別與各所述目標(biāo)體素對應(yīng)的交叉注意力區(qū)域中圖像像素點的圖像特征之間進(jìn)行交叉注意力計算,得到第一融合特征,包括:
19、將各所述目標(biāo)體素對應(yīng)的體素特征作為查詢集合,將各所述目標(biāo)體素對應(yīng)的交叉注意力區(qū)域中圖像像素點對應(yīng)的圖像特征作為鍵值集合,進(jìn)行交叉注意力計算,得到第一融合特征。
20、在一實施例中,在將所述第一融合特征輸入至預(yù)先訓(xùn)練好的障礙檢測模型中,得到所述障礙檢測模型輸出的所述待測空間內(nèi)的障礙信息之前,所述方法還包括:
21、獲取預(yù)先訓(xùn)練好的教師模型;其中,所述教師模型采用編碼器-解碼器結(jié)構(gòu),所述教師模型通過預(yù)先采集的多幀激光點云和對應(yīng)的單幀相機(jī)圖像訓(xùn)練得到;
22、構(gòu)建學(xué)生模型;其中,所述學(xué)生模型采用編碼器-解碼器結(jié)構(gòu);
23、通過在所述教師模型對應(yīng)的第一中間結(jié)果與所述學(xué)生模型對應(yīng)的第二中間結(jié)果之間進(jìn)行特征蒸餾的方式,訓(xùn)練所述學(xué)生模型,將訓(xùn)練后的學(xué)生模型作為所述障礙檢測模型;其中,所述第一中間結(jié)果為所述教師模型的編碼器的輸出結(jié)果,所述第二中間結(jié)果為所述學(xué)生模型的編碼器的輸出結(jié)果。
24、在一實施例中,所述通過在所述教師模型對應(yīng)的第一中間結(jié)果與所述學(xué)生模型對應(yīng)的第二中間結(jié)果之間進(jìn)行特征蒸餾的方式,訓(xùn)練所述學(xué)生模型,將訓(xùn)練后的學(xué)生模型作為所述障礙檢測模型的步驟,包括:
25、確定所述第一中間結(jié)果中n個第一體素特征與所述第二中間結(jié)果中n個第二體素特征之間的一一對應(yīng)關(guān)系;其中,n為大于0的整數(shù);
26、對于所述第一中間結(jié)果中的每一個第一體素特征,執(zhí)行以下步驟:
27、在所述第一體素特征為非空的情況下,判斷在所述第二中間結(jié)果中與所述第一體素特征對應(yīng)的目標(biāo)體素特征是否為空;
28、在判定所述目標(biāo)體素特征為空的情況下,采用l2損失作為損失函數(shù),計算所述目標(biāo)體素特征對應(yīng)的第一損失值;
29、根據(jù)所述第二中間結(jié)果中n個第二體素特征對應(yīng)的第一損失值,確定特征蒸餾損失;
30、利用所述特征蒸餾損失訓(xùn)練所述學(xué)生模型,將訓(xùn)練后的學(xué)生模型作為所述障礙檢測模型。
31、在一實施例中,在所述判斷在所述第二中間結(jié)果中與所述第一體素特征對應(yīng)的目標(biāo)體素特征是否為空之后,所述方法還包括:
32、在判定所述目標(biāo)體素特征為非空的情況下,采用kl散度作為損失函數(shù),計算所述目標(biāo)體素特征對應(yīng)的第二損失值;
33、所述根據(jù)所述第二中間結(jié)果中n個第二體素特征對應(yīng)的第一損失值,確定特征蒸餾損失的步驟,包括:
34、根據(jù)所述第二中間結(jié)果中n個第二體素特征對應(yīng)的第一損失值或第二損失值,確定特征蒸餾損失。
35、在一實施例中,所述根據(jù)所述第二中間結(jié)果中n個第二體素特征對應(yīng)的第一損失值或第二損失值,確定特征蒸餾損失的步驟,包括:
36、累加所述第二中間結(jié)果中n個第二體素特征對應(yīng)的所述第一損失值,得到第三損失值,并累加所述第二中間結(jié)果中n個第二體素特征對應(yīng)的所述第二損失值,得到第四損失值;
37、計算第五損失值與所述第四損失值的總和,作為所述特征蒸餾損失;其中,所述第五損失值為所述第三損失值與預(yù)先設(shè)置的損失加權(quán)系數(shù)的乘積。
38、在一實施例中,所述教師模型具體通過以下步驟訓(xùn)練得到:
39、隨著預(yù)先設(shè)置的采集車輛的運動,從第一時刻開始,每間隔預(yù)設(shè)時間采集一幀所述采集車輛在目標(biāo)方向上的激光點云,共采集到x幀激光點云;其中,x為大于1的整數(shù);
40、在采集第x幀激光點云的第二時刻,采集所述采集車輛在所述目標(biāo)方向上的單幀相機(jī)圖像;
41、根據(jù)所述采集車輛的運動信息,將所述x幀激光點云同步至所述第二時刻;其中,所述運動信息用于推測所述第一時刻至所述第二時刻的x幀激光點云之間的對應(yīng)關(guān)系;
42、對同步至所述第二時刻后的x幀激光點云進(jìn)行特征提取,得到第二3d體素特征;對所述第二時刻采集的單幀相機(jī)圖像進(jìn)行特征提取,得到第二2d圖像特征;
43、對所述第二3d體素特征和所述第二2d圖像特征進(jìn)行多模態(tài)特征融合,得到第二融合特征;
44、將所述第二融合特征輸入至預(yù)先設(shè)置的候選模型中,得到所述候選模型輸出的第一障礙預(yù)測結(jié)果;其中,所述候選模型采用編碼器-解碼器結(jié)構(gòu),所述第一障礙預(yù)測結(jié)果包括所述第一時刻至所述第二時刻對應(yīng)的占用柵格及占用柵格對應(yīng)的語義;
45、獲取所述第一時刻至所述第二時刻對應(yīng)的第一障礙預(yù)測真值;
46、根據(jù)所述第一障礙預(yù)測真值和所述第一障礙預(yù)測結(jié)果,計算訓(xùn)練損失函數(shù);
47、根據(jù)所述訓(xùn)練損失函數(shù)對所述候選模型進(jìn)行訓(xùn)練,將訓(xùn)練后的候選模型作為所述教師模型。
48、在一實施例中,在所述根據(jù)所述第一障礙預(yù)測真值和所述第一障礙預(yù)測結(jié)果,計算訓(xùn)練損失函數(shù)之前,所述方法還包括:
49、將所述第二融合特征輸入至所述候選模型中,得到所述候選模型輸出的第二障礙預(yù)測結(jié)果;其中,所述第二障礙預(yù)測結(jié)果包括第三時刻對應(yīng)的占用柵格及占用柵格對應(yīng)的語義,所述第三時刻為在所述第二時刻后間隔所述預(yù)設(shè)時間的時刻;
50、獲取所述第三時刻對應(yīng)的第二障礙預(yù)測真值;
51、所述根據(jù)所述第一障礙預(yù)測真值和所述第一障礙預(yù)測結(jié)果,計算訓(xùn)練損失函數(shù)的步驟,包括:
52、根據(jù)所述第一障礙預(yù)測真值、所述第二障礙預(yù)測真值、所述第一障礙預(yù)測結(jié)果和所述第二障礙預(yù)測結(jié)果,計算訓(xùn)練損失函數(shù)。
53、在一實施例中,所述第一障礙預(yù)測結(jié)果包括第一占用柵格結(jié)果和第一語義結(jié)果,所述第二障礙預(yù)測結(jié)果包括第二占用柵格結(jié)果;
54、所述根據(jù)所述第一障礙預(yù)測真值、所述第二障礙預(yù)測真值、所述第一障礙預(yù)測結(jié)果和所述第二障礙預(yù)測結(jié)果,計算訓(xùn)練損失函數(shù)的步驟,包括:
55、計算所述第一障礙預(yù)測真值中的占用柵格真值與所述第一占用柵格結(jié)果之間的soft-iou損失,作為第六損失值;
56、計算所述第一障礙預(yù)測真值中的語義真值與所述第一語義結(jié)果之間的交叉熵?fù)p失,作為第七損失值;
57、計算所述第二障礙預(yù)測真值中的占用柵格真值與所述第二占用柵格結(jié)果之間的soft-iou損失,作為第八損失值;
58、根據(jù)所述第六損失值、所述第七損失值和所述第八損失值,計算所述訓(xùn)練損失函數(shù)。
59、此外,為實現(xiàn)上述目的,本技術(shù)還提出一種基于多模態(tài)特征的障礙檢測裝置,所述基于多模態(tài)特征的障礙檢測裝置包括:
60、采集模塊,用于確定車輛在目標(biāo)方向上的待測空間,采集所述待測空間對應(yīng)的當(dāng)前激光點云和當(dāng)前相機(jī)圖像;其中,所述當(dāng)前激光點云為在當(dāng)前時刻采集的單幀激光點云,所述當(dāng)前相機(jī)圖像為在所述當(dāng)前時刻采集的單幀相機(jī)圖像;
61、特征提取模塊,用于對所述當(dāng)前激光點云進(jìn)行特征提取,得到第一3d體素特征;對所述當(dāng)前相機(jī)圖像進(jìn)行特征提取,得到第一2d圖像特征;
62、特征融合模塊,用于對所述第一3d體素特征和所述第一2d圖像特征進(jìn)行多模態(tài)特征融合,得到第一融合特征;
63、障礙檢測模塊,用于將所述第一融合特征輸入至預(yù)先訓(xùn)練好的障礙檢測模型中,得到所述障礙檢測模型輸出的所述待測空間內(nèi)的障礙信息。
64、此外,為實現(xiàn)上述目的,本技術(shù)還提出一種基于多模態(tài)特征的障礙檢測設(shè)備,所述設(shè)備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機(jī)程序,所述計算機(jī)程序配置為實現(xiàn)如上文所述的基于多模態(tài)特征的障礙檢測方法的步驟。
65、此外,為實現(xiàn)上述目的,本技術(shù)還提出一種存儲介質(zhì),所述存儲介質(zhì)為計算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上文所述的基于多模態(tài)特征的障礙檢測方法的步驟。
66、此外,為實現(xiàn)上述目的,本技術(shù)還提供一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上文所述的基于多模態(tài)特征的障礙檢測方法的步驟。
67、本技術(shù)提出的一個或多個技術(shù)方案,至少具有以下技術(shù)效果:
68、本技術(shù)先確定車輛在目標(biāo)方向上的待測空間,進(jìn)而在當(dāng)前時刻采集待測空間的當(dāng)前激光點云和當(dāng)前相機(jī)圖像,再對當(dāng)前激光點云進(jìn)行特征提取,得到第一3d體素特征,對當(dāng)前相機(jī)圖像進(jìn)行特征提取,得到第一2d圖像特征,并對第一3d體素特征和第一2d圖像特征進(jìn)行多模態(tài)特征融合,得到第一融合特征后,將第一融合特征輸入至訓(xùn)練好的障礙檢測模型中,以由該模型根據(jù)第一融合特征,確定待測空間內(nèi)的障礙信息,進(jìn)而例如可以基于該障礙信息進(jìn)一步確定車輛的可行駛區(qū)域,輔助車輛進(jìn)行智能駕駛。
69、相較于相關(guān)技術(shù),本技術(shù)對采集的激光點云進(jìn)行體素化處理并提取3d體素特征,最大限度保留了點云的3d空間結(jié)構(gòu)特征,再對3d體素特征和2d圖像特征進(jìn)行特征級融合后,利用融合特征通過障礙檢測模型進(jìn)行障礙物預(yù)測,其支持不同模態(tài)的特征在更早的階段進(jìn)行交互,也即在障礙預(yù)測前就對3d體素特征和2d圖像特征進(jìn)行了多模態(tài)特征的融合,有助于更好地捕獲3d-2d模態(tài)間的復(fù)雜關(guān)系,提高了障礙檢測的精度,進(jìn)而提高了自動駕駛車輛的安全性。