本發(fā)明涉及3d物體識別,特別是涉及一種基于圖注意力網(wǎng)絡的3d物體識別和檢索方法。
背景技術:
1、隨著激光掃描技術、視差法、多視角重建等三維采集技術的發(fā)展和成熟,3d模型識別和檢索成為了計算機視覺領域重要的研究方向之一。如今主流的方法分為三種:基于體素的方法、基于點云的方法和基于視圖的方法。由于基于視圖的方法的計算量遠小于基于體素和基于點云的方法,因此本發(fā)明是采用基于視圖的方法對3d模型進行識別和檢索。與基于體素或點云的方法不同,基于視圖的方法不直接處理三維模型,而是先通過渲染軟件將三維物體投影成多個視角下的2d圖像。接著,3d模型識別問題轉化為在二維圖像上進行處理,這避免了直接對三維數(shù)據(jù)進行復雜的計算。隨著遷移學習的發(fā)展,利用已經(jīng)在imagenet等大規(guī)模數(shù)據(jù)集上訓練好的卷積神經(jīng)網(wǎng)絡,能夠加速模型的收斂速度,使模型更快地達到最優(yōu)解。然而,現(xiàn)有的3d模型識別方法主要還存在以下幾個問題:沒有同時結合視圖的局部特征和全局特征進行判別、沒有考慮到不同視圖間的幾何位置關系、沒有對多視圖信息進行去冗余操作、沒有考慮到不同視角所能提供為3d模型識別的有用信息量是不一樣的,沒能考慮到數(shù)據(jù)不平衡問題。
2、現(xiàn)有技術在3d模型識別和檢索方法中,基于圖卷積神經(jīng)網(wǎng)絡的方法取得了優(yōu)異的性能,其包括如下步驟:將多視角圖像輸入一個共享的卷積神經(jīng)網(wǎng)絡得到多個視角的二維的視圖特征;利用knn算法選擇距離最近的視點進行連接構造以多視圖為圖節(jié)點的視圖-圖結構;通過圖卷積的模塊將連接的視點特征進行融合;引入非局部消息傳遞模塊將所有視點特征進行融合;基于最遠點采樣對視圖-圖結構進行逐步粗化;通過多層感知機網(wǎng)絡得到模型的輸出向量,基于輸出向量的相似度進行排序檢索。然而,該方法雖然融合了局部特征和全局特征,考慮到不同視圖間幾何位置關系,但引入了多視圖冗余的信息,沒有考慮到不同視角所能提供為3d模型識別的有用信息量是不一樣的,也沒有考慮到數(shù)據(jù)的不平衡問題。
技術實現(xiàn)思路
1、本發(fā)明的首要目的是克服現(xiàn)有技術存在的問題,提供一種基于圖注意力網(wǎng)絡的3d物體識別和檢索方法,本發(fā)明能夠減少多視圖的冗余信息,并充分考慮多視角圖之間的聯(lián)系來提高3d物體識別的準確率。
2、為了實現(xiàn)上述目的,本發(fā)明提供了一種基于圖注意力網(wǎng)絡的3d物體識別和檢索方法,包括:
3、s1:獲取多個3d物體的多張不同視角圖像和每一張視角圖像對應的標簽,基于所述標簽對所有視角圖像進行預處理,獲得數(shù)據(jù)集,將所述數(shù)據(jù)集按比例分為訓練集和驗證集;
4、s2:構建識別模型,使用所述訓練集反向迭代訓練所述識別模型,獲得最優(yōu)的識別模型,其中,所述識別模型包括卷積神經(jīng)網(wǎng)絡、圖注意力網(wǎng)絡、全局池化模塊和多層感知機模塊;
5、s3:將待識別3d物體的多個不同視角圖像輸入最優(yōu)的識別模型,獲得最終向量,基于所述最終向量確定識別和檢索結果。
6、進一步地,s1中所述的預處理具體包括:
7、s1.1:將所有視角圖像按所述標簽進行分類,對每個標簽的視角圖像進行重采樣;
8、s1.2:對重采樣之后的每個標簽內的視角圖像按通道維度進行數(shù)據(jù)標準化處理;
9、s1.3:將標準化處理之后的視角圖像進行隨機的仿射變換,獲得數(shù)據(jù)集,將所述數(shù)據(jù)集按比例分為訓練集和驗證集,其中,比例為8:2,所述仿射變換至少包括隨機縮放、隨機平移和隨機旋轉中一種。
10、進一步地s2中所述使用所述訓練集反向迭代訓練所述識別模型,獲得最優(yōu)的識別模型,包括:
11、s2.1:將所述訓練集輸入卷積神經(jīng)網(wǎng)絡,獲得每一張視角圖像的初級特征
12、向量;
13、s2.2:計算每一張視角圖像的初級特征向量與其他視角圖像的初級特征向量之間的相似度,并對所述相似度進行排序,獲得排序結果;
14、s2.3:基于所述排序結果,建立以初級特征向量為節(jié)點的連接圖,所述連接圖至少包括最近連接圖、最遠連接圖和全連接圖中一種;
15、s2.4:將所述連接圖輸入圖注意力網(wǎng)絡,獲得局部特征描述符和全局特征描述符;
16、s2.5:對所述局部特征描述符和所述全局特征描述符進行全局池化處理,并將處理結果輸入多層感知器,獲得輸出向量;
17、s2.6:將每一張視角圖像對應的標簽轉換為獨熱編碼,計算所述輸出向量與所述獨熱編碼的損失函數(shù),利用隨機梯度下降法對所述識別模型的參數(shù)進行更新;
18、s2.7:重復步驟s2.1至s2.6,直到訓練次數(shù)到達規(guī)定次數(shù),在驗證集上準確率最高的識別模型作為最優(yōu)的識別模型。
19、進一步地s2.1中所述卷積神經(jīng)網(wǎng)絡為resnet34神經(jīng)網(wǎng)絡。
20、進一步地s2.2中計算相似度的方式如下:
21、
22、其中,為第張視角圖像對應的初級特征向量,為第張視角圖像對應的初級特征向量,為初級特征向量的l2范數(shù),為初級特征向量的l2范數(shù)。
23、進一步地,s2.3具體為:
24、基于所述排序結果,將每一張視角圖像對應的初級特征向量與相似度最高的k個視角圖像對應的初級特征向量連接,獲得最近連接圖;將每一張視角圖像對應的初級特征向量與相似度最低的k個視角圖像對應的初級特征向量連接,獲得最遠連接圖;將每一張視角圖像對應的初級特征向量與所有視角圖像對應的初級特征向量連接,獲得全連接圖,其中,k的取值由s1中獲取視角圖像的視角數(shù)量確定。
25、進一步地,所述k的取值由s1中獲取視角圖像的視角數(shù)量確定,具體為:若s1中從12個不同視角獲取視角圖像,則k取2,若s1中從20個不同視角獲取視角圖像,則k取3。
26、進一步地,s2.4包括:
27、將所述最近連接圖和所述最遠連接圖輸入圖注意力網(wǎng)絡,獲得第一融合特征,對所述第一融合特征進行平均池化、拼接操作,獲得局部特征描述符;
28、將所述全連接圖輸入圖注意力網(wǎng)絡,獲得第二融合特征,對所述第二融合特征進行平均池化、拼接操作,獲得全局特征描述符。
29、進一步地,s2.6中所述的損失函數(shù)如下:
30、
31、
32、其中,為最近連接圖輸入多層感知機后的輸出分類分數(shù),為最遠連接圖輸入多層感知機后的輸出分類分數(shù),為全連接圖輸入多層感知機后的輸出分類分數(shù),為標簽,為不同連接圖的超參數(shù)權重,在12視圖的循環(huán)配置中為,在20視圖的配置中為,為超參數(shù),默認值為2,為識別模型預測的概率值,為類別權重系數(shù),的值與類別的數(shù)量成反比。
33、進一步地,所述基于所述最終向量確定識別和檢索結果,具體包括:
34、對于識別任務,則根據(jù)所述最終向量中最大元素對應的索引作為識別類別;
35、對于檢索任務,則計算每個待識別3d物體對應的輸出向量之間的余弦相似度,基于預設的閾值過濾低于所述閾值的3d物體,將高于所述閾值的3d模型作為檢索結果。
36、本發(fā)明與現(xiàn)有技術相比,其有益效果在于:
37、本發(fā)明通過建立包括卷積神經(jīng)網(wǎng)絡、圖注意力網(wǎng)絡、全局池化模塊和多層感知機模塊的識別模型,3d物體的多視角的圖像首先輸入卷積神經(jīng)網(wǎng)絡進行初步的特征提取,獲得每一張視角圖像對應的初級特征向量,接著計算每一張視角圖像的初級特征向量之間的相似度,基于相似度構建連接圖,其中,最近連接圖側重于3d物體幾何位置的信息的學習,最遠連接圖強化了差異化信息的表達,減少了視圖的冗余信息的輸入,全連接圖用于更新3d物體的全局信息,連接圖再通過具有動態(tài)注意力機制的圖神經(jīng)網(wǎng)絡進行進一步的特征融合,充分考慮了多視圖之間的聯(lián)系,提高3d物體識別的準確率。