本發(fā)明涉及圖像識(shí)別領(lǐng)域,特別是涉及圖像提取分類區(qū)域的方法、應(yīng)用該圖像提取分類區(qū)域的方法的物體識(shí)別方法及應(yīng)用該物體識(shí)別方法的汽車。
背景技術(shù):
基于深度學(xué)習(xí)的物體分類算法越來(lái)越多,但是算法的速度很難達(dá)到實(shí)時(shí)程度,這樣限制了算法應(yīng)用性推廣。算法的瓶頸在于,深度學(xué)習(xí)經(jīng)過(guò)卷積層卷積之后,需要全局搜索查找需要分類區(qū)域(regionproposal),這樣就拖慢算法的計(jì)算速度。例如在無(wú)人駕駛領(lǐng)域,分類的實(shí)時(shí)性是至關(guān)重要的性能,提前快速的對(duì)物體進(jìn)行分類能給后續(xù)的決策提供關(guān)鍵的決策依據(jù)及時(shí)間。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要針對(duì)傳統(tǒng)深度學(xué)習(xí)需要對(duì)全圖像查找分類區(qū)域耗費(fèi)大量時(shí)間的缺陷問(wèn)題,提供一種圖像提取分類區(qū)域的方法。
一種圖像提取分類區(qū)域的方法,包括:獲取感興趣區(qū)域?qū)?yīng)的點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù);將點(diǎn)云數(shù)據(jù)坐標(biāo)系中的點(diǎn)投影到圖像數(shù)據(jù)坐標(biāo)系;將所述點(diǎn)云數(shù)據(jù)聚類,對(duì)每個(gè)聚類中的點(diǎn)云數(shù)據(jù)計(jì)算外接長(zhǎng)方體;將所述外接長(zhǎng)方體投影到所述圖像數(shù)據(jù)坐標(biāo)系,并計(jì)算外接矩形;所述外接矩形作為分類區(qū)域。
在其中一個(gè)實(shí)施例中,獲取點(diǎn)云數(shù)據(jù)的設(shè)備為非光學(xué)式三維測(cè)量設(shè)備。
在其中一個(gè)實(shí)施例中,所述非光學(xué)式三維測(cè)量設(shè)備是利用物體對(duì)x射線具有吸收特性的計(jì)算機(jī)斷層成像設(shè)備或基于磁學(xué)原理的核磁共振成像設(shè)備或利用聲波信號(hào)的聲吶設(shè)備。
在其中一個(gè)實(shí)施例中,獲取點(diǎn)云數(shù)據(jù)的設(shè)備為光學(xué)式三維測(cè)量設(shè)備。
在其中一個(gè)實(shí)施例中,所述光學(xué)式三維測(cè)量設(shè)備為激光雷達(dá)。
在其中一個(gè)實(shí)施例中,所述計(jì)算外接長(zhǎng)方體包括:提取所述每個(gè)聚類中的點(diǎn)云數(shù)據(jù)中的所有點(diǎn)的x軸坐標(biāo)的最大值、x軸坐標(biāo)的最小值、y軸坐標(biāo)的最大值、y軸坐標(biāo)的最小值、z軸坐標(biāo)的最大值和z軸坐標(biāo)的最小值;以所述x軸坐標(biāo)的最大值、x軸坐標(biāo)的最小值、y軸坐標(biāo)的最大值、y軸坐標(biāo)的最小值、z軸坐標(biāo)的最大值和z軸坐標(biāo)的最小值作為邊界獲得所述外接長(zhǎng)方體。
在其中一個(gè)實(shí)施例中,所述計(jì)算外接矩形包括:提取所述長(zhǎng)方體投影到所述圖像數(shù)據(jù)坐標(biāo)系中的所有點(diǎn)的x軸坐標(biāo)的最大值、x軸坐標(biāo)的最小值、y軸坐標(biāo)的最大值和y軸坐標(biāo)的最小值;以所述x軸坐標(biāo)的最大值、x軸坐標(biāo)的最小值、y軸坐標(biāo)的最大值和y軸坐標(biāo)的最小值作為邊界獲得所述外接矩形。
一種物體識(shí)別方法,包括:
通過(guò)上述的圖像提取分類區(qū)域的方法得到外接矩形;根據(jù)圖像與圖像卷積層的映射關(guān)系公式映射到深度學(xué)習(xí)的特征圖,提取區(qū)域物體的特征值;將提取到的特征值放入到深度學(xué)習(xí)的softmax分類器計(jì)算分類;即
其中,p(i)表示該類別的概率,
在其中一個(gè)實(shí)施例中,所述映射關(guān)系公式為:
其中,x'、y'表示映射之后的坐標(biāo),x、y表示原圖像坐標(biāo),f表示降采樣次數(shù)。
一種汽車,包括:物體識(shí)別系統(tǒng),所述物體識(shí)別系統(tǒng)應(yīng)用上述的物體識(shí)別方法。
上述圖像提取分類區(qū)域的方法、物體識(shí)別方法及汽車,利用點(diǎn)云數(shù)據(jù)提供場(chǎng)景的空間信息,圖像數(shù)據(jù)結(jié)合點(diǎn)云數(shù)據(jù)后加速分類區(qū)域提取,有效提升深度學(xué)習(xí)的實(shí)時(shí)性。
附圖說(shuō)明
圖1為一實(shí)施例中的圖像提取分類區(qū)域的方法的流程圖。
圖2為一實(shí)施例中說(shuō)明4鄰接的示意圖。
圖3為一實(shí)施例中說(shuō)明8鄰接的示意圖。
圖4為一實(shí)施例中具有兩連通域的圖形的示意圖。
圖5為一實(shí)施例中的物體識(shí)別方法的流程圖。
具體實(shí)施方式
如圖1所示,是一種圖像提取分類區(qū)域的方法的流程圖,該方法包括以下步驟s110~步驟s150。
步驟s110、獲取感興趣區(qū)域?qū)?yīng)的點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù)。
感興趣區(qū)域roi(regionofinterest)是需要圖像處理的區(qū)域。可以利用多種途徑獲取感興趣區(qū)域的點(diǎn)云數(shù)據(jù),例如利用非光學(xué)式三維測(cè)量設(shè)備,具體可以是利用物體對(duì)x射線具有吸收特性的計(jì)算機(jī)斷層成像設(shè)備或基于磁學(xué)原理的核磁共振成像設(shè)備或利用聲波信號(hào)的聲吶設(shè)備;例如利用光學(xué)式三維測(cè)量設(shè)備,具體可以是激光雷達(dá)。可以理解,本實(shí)施例不對(duì)獲取點(diǎn)云數(shù)據(jù)的途徑進(jìn)行限制。
可以通過(guò)數(shù)碼相機(jī)對(duì)感興趣區(qū)域進(jìn)行拍攝獲取圖像數(shù)據(jù)。可以理解除了數(shù)碼相機(jī)也可以利用其它設(shè)備來(lái)獲取圖像數(shù)據(jù),本實(shí)施例不對(duì)獲取圖像數(shù)據(jù)的途徑進(jìn)行限制。
步驟s120、將點(diǎn)云數(shù)據(jù)坐標(biāo)系中的點(diǎn)投影到圖像數(shù)據(jù)坐標(biāo)系。
此時(shí),點(diǎn)云數(shù)據(jù)坐標(biāo)系和圖像數(shù)據(jù)坐標(biāo)系完成了配準(zhǔn),配準(zhǔn)就是將不同數(shù)據(jù)通過(guò)數(shù)學(xué)模型變換,實(shí)現(xiàn)空間坐標(biāo)的統(tǒng)一和同名像點(diǎn)坐標(biāo)的統(tǒng)一。
具體地,可以通過(guò)求解投影矩陣的方法完成投影。找到點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù)一一對(duì)應(yīng)的四個(gè)點(diǎn),通過(guò)以下公式,計(jì)算出投影矩陣。
x=px
其中,x表示圖像上的點(diǎn),x表示點(diǎn)云的點(diǎn),p是3x4投影矩陣。
求解出投影矩陣后,再通過(guò)以上公式,把點(diǎn)云數(shù)據(jù)坐標(biāo)系中的點(diǎn)投影到圖像數(shù)據(jù)坐標(biāo)系。
步驟s130、將所述點(diǎn)云數(shù)據(jù)聚類,對(duì)每個(gè)聚類中的點(diǎn)云數(shù)據(jù)計(jì)算外接長(zhǎng)方體。
聚類是指將物理或者抽象的對(duì)象集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程,同一個(gè)類中的對(duì)象有較大的相似性,而不同類間的對(duì)象有較明顯的差異。目前關(guān)于點(diǎn)云聚類的算法主要有k均值聚類算法、基于投影的聚類算法、層次聚類算法、譜聚類算法和密度聚類算法等。可以理解,本實(shí)施例中不對(duì)點(diǎn)云數(shù)據(jù)聚類的具體算法進(jìn)行限制。
具體地,本實(shí)施例采用找連通域的方法進(jìn)行聚類。
把點(diǎn)云數(shù)據(jù)坐標(biāo)系上的三維點(diǎn)投影到點(diǎn)云數(shù)據(jù)坐標(biāo)系的x軸y軸確定的xy平面上。接著在xy平面上找投影點(diǎn)的連通域(常見(jiàn)的鄰接關(guān)系有2種:4鄰接與8鄰接。4鄰接一共4個(gè)點(diǎn),即上下左右,如圖2所示。8鄰接的點(diǎn)一共有8個(gè),包括了對(duì)角線位置的點(diǎn),如圖3所示。
如果像素點(diǎn)a與b鄰接,我們稱a與b連通,于是我們不加證明的有如下的結(jié)論:如果a與b連通,b與c連通,則a與c連通。在視覺(jué)上看來(lái),彼此連通的點(diǎn)形成了一個(gè)區(qū)域,而不連通的點(diǎn)形成了不同的區(qū)域。這樣的一個(gè)所有的點(diǎn)彼此連通點(diǎn)構(gòu)成的集合,我們稱為一個(gè)連通區(qū)域,如圖4有兩個(gè)連通域。本文采用8鄰域方法確定連通域,只要連通域中的投影點(diǎn)數(shù)超過(guò)設(shè)定的閾值,則認(rèn)為該連通域中包含了一個(gè)物體。所有點(diǎn)云的點(diǎn)與連通域中的點(diǎn)有相同的x和y坐標(biāo),都認(rèn)為是同一個(gè)物體。
對(duì)每個(gè)物體即每個(gè)聚類中的點(diǎn)云數(shù)據(jù)計(jì)算外接長(zhǎng)方體。
具體地,先提取所述每個(gè)聚類中的點(diǎn)云數(shù)據(jù)中的所有點(diǎn)的x軸坐標(biāo)的最大值、x軸坐標(biāo)的最小值、y軸坐標(biāo)的最大值、y軸坐標(biāo)的最小值、z軸坐標(biāo)的最大值和z軸坐標(biāo)的最小值。以所述x軸坐標(biāo)的最大值、x軸坐標(biāo)的最小值、y軸坐標(biāo)的最大值、y軸坐標(biāo)的最小值、z軸坐標(biāo)的最大值和z軸坐標(biāo)的最小值作為邊界獲得所述外接長(zhǎng)方體。
步驟s140、將所述外接長(zhǎng)方體投影到所述圖像數(shù)據(jù)坐標(biāo)系,并計(jì)算外接矩形。
具體地,可以同樣利用上述將點(diǎn)云數(shù)據(jù)坐標(biāo)系中的點(diǎn)投影到圖像數(shù)據(jù)坐標(biāo)系的方法將所述外接長(zhǎng)方體投影到所述圖像數(shù)據(jù)坐標(biāo)系,即利用投影矩陣的方法,在此不再重復(fù)。
將外接長(zhǎng)方體投影到所述圖像數(shù)據(jù)坐標(biāo)系后,計(jì)算外接矩形。
具體地,先提取所述長(zhǎng)方體投影到所述圖像數(shù)據(jù)坐標(biāo)系中的所有點(diǎn)的x軸坐標(biāo)的最大值、x軸坐標(biāo)的最小值、y軸坐標(biāo)的最大值和y軸坐標(biāo)的最小值。以所述x軸坐標(biāo)的最大值、x軸坐標(biāo)的最小值、y軸坐標(biāo)的最大值和y軸坐標(biāo)的最小值作為邊界獲得所述外接矩形。
步驟s150、所述外接矩形作為分類區(qū)域。
通過(guò)點(diǎn)云數(shù)據(jù)坐標(biāo)系中的點(diǎn)投影到圖像數(shù)據(jù)坐標(biāo)系,點(diǎn)云數(shù)據(jù)坐標(biāo)系和圖像數(shù)據(jù)坐標(biāo)系完成了配準(zhǔn),將所述點(diǎn)云數(shù)據(jù)聚類,對(duì)每個(gè)聚類中的點(diǎn)云數(shù)據(jù)計(jì)算外接長(zhǎng)方體,將所述外接長(zhǎng)方體投影到所述圖像數(shù)據(jù)坐標(biāo)系,并計(jì)算外接矩形,這樣的話就把點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù)結(jié)合起來(lái),在圖像提取分類區(qū)域時(shí)利用點(diǎn)云數(shù)據(jù)提供的空間信息,加速分類區(qū)域提取,有效提升深度學(xué)習(xí)的實(shí)時(shí)性。
如圖5所示,是一種物體識(shí)別方法的流程圖,該方法包括以下步驟s210~步驟s230。
步驟s210、通過(guò)上述的圖像提取分類區(qū)域的方法得到外接矩形。
此時(shí),外接矩形作為分類區(qū)域。
步驟s220、根據(jù)圖像與圖像卷積層的映射關(guān)系公式映射到深度學(xué)習(xí)的特征圖,提取區(qū)域物體的特征值。
具體地,映射關(guān)系公式為:
其中,x'、y'表示映射之后的坐標(biāo),x、y表示原圖像坐標(biāo),f表示降采樣次數(shù)。
本實(shí)施例采用的卷積神經(jīng)網(wǎng)絡(luò)模型依次為輸入層、卷積層、降采樣層、卷積層、降采樣層、卷積層、降采樣層……和輸出層,采用卷積層和降采樣層依次交替的模型結(jié)構(gòu),卷積層使原始信號(hào)得到增強(qiáng),提高信噪比,降采樣層利用圖像局部相關(guān)性原理,對(duì)圖像進(jìn)行鄰域間采樣,在減少數(shù)據(jù)量的同時(shí)提取有用信息。
步驟s230、將提取到的特征值放入到深度學(xué)習(xí)的softmax分類器計(jì)算分類;即
其中,p(i)表示該類別的概率,
目前機(jī)器學(xué)習(xí)領(lǐng)域最常用的分類器可大致歸類為:樸素貝葉斯(naivebayesian,nb),邏輯回歸(logisticregression,lr)模,決策樹(shù)(decisiontree,dt),支持向量機(jī)(supportvectormachine,svm)。針對(duì)分類的應(yīng)用場(chǎng)景和復(fù)雜度,可選擇不同的分類器去解決問(wèn)題。
logistics回歸是一種廣義的線性回歸分析模型,softmax回歸是對(duì)logistics的一種推廣,可用來(lái)解決分類問(wèn)題中類型標(biāo)簽多于兩種的情況。softmax是一種監(jiān)督式學(xué)習(xí)算法,以多項(xiàng)式分布(multinomialdistribution)為模型建模的,本實(shí)施例采用softmax分類器來(lái)對(duì)提取到的特征進(jìn)行分類。
一種汽車,包括:物體識(shí)別系統(tǒng),所述物體識(shí)別系統(tǒng)應(yīng)用上述的物體識(shí)別方法。
以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡(jiǎn)潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說(shuō)明書(shū)記載的范圍。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。