本發(fā)明涉及特征提取、特征拼層和物體檢測技術(shù)領(lǐng)域,具體的說,是涉及一種自動駕駛場景中小且密集的交通標(biāo)志檢測方法。
背景技術(shù):
近年來,自動駕駛是人工智能領(lǐng)域的熱點(diǎn)研究和應(yīng)用。在自動駕駛場景中,交通標(biāo)志的檢測和識別對行車周圍環(huán)境的理解至關(guān)重要。精確的檢測對后續(xù)識別,輔助定位和導(dǎo)航起著決定性的作用。例如,通過交通標(biāo)志檢測識別限速標(biāo)志來控制當(dāng)前車輛的速度;將交通標(biāo)志嵌入到高精度地圖中,對定位導(dǎo)航起到關(guān)鍵的輔助作用等。交通標(biāo)志的種類眾多,大小、角度不一,本身就很難做到精確檢測,并且在真實(shí)的行車環(huán)境中,拍攝到的交通標(biāo)志還存在著很多的問題。例如在場景較為復(fù)雜的十字路口,存在著很多密集的交通標(biāo)志,也可能存在很多顏色、形狀與交通標(biāo)志相似的物體,它們會干擾交通標(biāo)志的精確檢測;交通標(biāo)志的顏色還會受到光照和天氣的影響,白天強(qiáng)烈的光照會影響交通標(biāo)志的檢測,夜晚也會受到路燈、車尾燈光反射的影響;拍攝到的交通標(biāo)志還會受到建筑物、樹木、行人等的遮擋;交通標(biāo)志長期暴露在自然環(huán)境下,經(jīng)受風(fēng)吹日曬雨淋,與空氣中的污染物質(zhì)發(fā)生化學(xué)反應(yīng),會使交通標(biāo)志褪色變形。拍攝的圖片中存在大量較小的交通標(biāo)志。如何檢測到圖片中大量小且密集的交通標(biāo)志是一個(gè)重點(diǎn),也是一個(gè)難點(diǎn)。
在過去的幾年里,得益于卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,基于深度學(xué)習(xí)的物體檢測方法得到了很大的提升?,F(xiàn)有的基于深度學(xué)習(xí)的物體檢測方法大致可以分為兩大類:一類是基于候選框提取的物體檢測算法,也就是說,首先通過一些提取候選框的方法來產(chǎn)生候選目標(biāo)框,然后對這些候選框提取特征進(jìn)行分類,再通過邊框回歸算法對物體的位置進(jìn)行修正,最后通過非極大值抑制算法來去除同一物體重復(fù)的候選框,保留物體最精確的位置。r-cnn物體檢測框架是基于候選框提取的物體檢測算法的經(jīng)典代表之作。2012年,krizhevsky等人設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)來做圖像分類,在2012年大規(guī)模圖像視覺挑戰(zhàn)賽(ilsvrc)上,使用該卷積神經(jīng)網(wǎng)絡(luò)將top-5的錯(cuò)誤率降到了15.3%,比使用傳統(tǒng)方法做分類的第二名低了大約11%。rossgirshick等人認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)在圖像分類上取得了很好的效果,何不把它與物體檢測結(jié)合起來呢。于是他們提出了r-cnn(基于候選框的卷積神經(jīng)網(wǎng)絡(luò))目標(biāo)檢測框架,將卷積神經(jīng)網(wǎng)絡(luò)和物體檢測結(jié)合到了一起。r-cnn首先通過selectivesearch(選擇性搜索)算法來提取大約2000個(gè)候選框,把它們縮放到同樣大小輸入到卷積神經(jīng)網(wǎng)絡(luò)來提取特征,再用提取到的特征訓(xùn)練一個(gè)較好的svm(支持向量機(jī))來做分類,然后再使用邊框回歸算法對物體的位置進(jìn)行修正,最后通過非極大值抑制找到物體最精確的位置。r-cnn的訓(xùn)練過程分為多個(gè)階段,且要保存中間特征,浪費(fèi)時(shí)間和空間。spp-net(空間金字塔網(wǎng)絡(luò)),fastr-cnn(快速基于候選框的卷積神經(jīng)網(wǎng)絡(luò))在此基礎(chǔ)上逐步做了改進(jìn),分別提出候選框共享卷積網(wǎng)絡(luò),多任務(wù)訓(xùn)練網(wǎng)絡(luò),將候選框分類和邊框回歸同時(shí)加入到網(wǎng)絡(luò)中來訓(xùn)練,除去候選框的提取,網(wǎng)絡(luò)的訓(xùn)練過程是端到端的,候選框的提取成為了限制物體檢測速度的瓶頸。為了解決這個(gè)問題,fasterr-cnn(更快基于候選框的卷積神經(jīng)網(wǎng)絡(luò))提出了rpn(候選框提取網(wǎng)絡(luò))來提取候選框,rpn和fastr-cnn結(jié)合起來,使得整個(gè)網(wǎng)絡(luò)的訓(xùn)練過程都是端到端的,這一策略使得物體檢測的速度和精度又有了很大的提升。為了進(jìn)一步解決圖像分類時(shí)的旋轉(zhuǎn)不變性和物體檢測時(shí)的位置的旋轉(zhuǎn)可變性之間的矛盾,r-fcn(基于候選框的全卷積網(wǎng)絡(luò))將roipooling(候選框下采樣)層后移,提出位置敏感權(quán)重圖策略使得網(wǎng)絡(luò)變成一個(gè)全卷積網(wǎng)絡(luò),不再有全連接層,進(jìn)一步加快了目標(biāo)檢測的速度和準(zhǔn)確率。另一類基于回歸方法的物體檢測框架的典型代表是yolo和ssd,它們不必先提取候選框,再進(jìn)行候選框的分類和位置調(diào)整,而是直接對圖像進(jìn)行網(wǎng)格劃分,在每個(gè)網(wǎng)格對應(yīng)位置回歸出目標(biāo)位置和類別信息,它們網(wǎng)絡(luò)訓(xùn)練的整個(gè)過程都是端到端的,檢測速度非??欤耆梢赃_(dá)到實(shí)時(shí)的要求,但它們的檢測精度還有待提高,尤其是對于小物體的位置檢測。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是為了克服現(xiàn)有技術(shù)中的不足,提供一種自動駕駛場景中小且密集的交通標(biāo)志檢測方法,本發(fā)明基于r-fcn物體檢測框架,使用具有淺層特征的vgg16作為r-fcn的主體特征提取網(wǎng)絡(luò),對vgg16網(wǎng)絡(luò)進(jìn)行修改,提出降低特征圖縮小倍數(shù)、特征拼層的策略,使得小物體的檢測得到了很大的提升,很好地解決了自動駕駛場景中交通標(biāo)志的檢測問題。
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
一種自動駕駛場景中小且密集的交通標(biāo)志檢測方法,包括以下步驟:
(1)采集車輛行車記錄儀拍攝的視頻數(shù)據(jù),從中提取圖片,對圖片中的交通標(biāo)志進(jìn)行標(biāo)注,形成由<圖像,目標(biāo)框>對構(gòu)成的交通標(biāo)志數(shù)據(jù)集;
(2)數(shù)據(jù)預(yù)處理,對所述交通標(biāo)志數(shù)據(jù)集進(jìn)行預(yù)處理;
(3)使用淺層網(wǎng)絡(luò)vgg16作為r-fcn物體檢測框架的主體網(wǎng)絡(luò);
(4)改進(jìn)vgg16網(wǎng)絡(luò)模型,采用淺層特征,縮小特征圖下降倍數(shù),訓(xùn)練rpn網(wǎng)絡(luò)提取候選框;
(5)改進(jìn)vgg16網(wǎng)絡(luò)模型,將淺層同組特征進(jìn)行特征組合,輸入到r-fcn后續(xù)的檢測框架中,對候選框進(jìn)行分類和邊框回歸,最終檢測到圖片中的所有交通標(biāo)志。
接下來對本發(fā)明交通標(biāo)志檢測方法的五個(gè)步驟進(jìn)行詳細(xì)介紹:
步驟(1)的過程如下;
a.車輛行車記錄儀拍攝了行車過程中的道路狀況,保存了大量的視頻數(shù)據(jù),從這些視頻數(shù)據(jù)中按照一定的時(shí)間間隔來提取視頻幀,或者人工挑選視頻幀,并對這些視頻幀進(jìn)行編號,構(gòu)成圖片數(shù)據(jù)集合
b.每張圖片中都會存在大量的交通標(biāo)志,需要人工把圖片中的所有交通標(biāo)志的具體位置用矩形框標(biāo)注出來,每一個(gè)交通標(biāo)志對應(yīng)的位置數(shù)據(jù)是boundingbox=(x1,y1,x2,y2),其中x1,y1是交通標(biāo)志在圖片中對應(yīng)的矩形框的左上角位置,x2,y2是交通標(biāo)志在圖片中對應(yīng)的矩形框的右下角位置;
c.通過現(xiàn)有的圖像集合img以及每個(gè)圖像對應(yīng)的所有的交通標(biāo)志位置數(shù)據(jù)集合boundingboxes構(gòu)成最終的交通標(biāo)志數(shù)據(jù)集dataset={img,boundingboxes}。
步驟(2)對交通標(biāo)志數(shù)據(jù)集存在的問題進(jìn)行預(yù)處理包括:
a.行車記錄儀在拍攝行車道路環(huán)境時(shí)會受到很多因素的影響,由于光照,天氣,運(yùn)動抖動等原因,使得拍攝的圖像中會存在著一定的噪聲,需要對這些噪聲進(jìn)行一些預(yù)處理。通過圖像增強(qiáng)、圖像均衡、圖像去噪等算法,將圖像的光線均衡化,使得圖中的交通標(biāo)志變得更加清晰。
b.rpn網(wǎng)絡(luò)提取候選框時(shí)采用了平移可變性的anchors(錨點(diǎn))機(jī)制,對最后一層卷積層的每一個(gè)特征點(diǎn)預(yù)測出9個(gè)anchors,它們的寬高比和尺度分別是1:2,1:1,2:1和1282,2562,5122,交通標(biāo)志數(shù)據(jù)集中存在大量較小的交通標(biāo)志,交通標(biāo)志的類型有很多種,也就存在著很多的寬高比,因此需要對所有交通標(biāo)志目標(biāo)框的寬高比進(jìn)行統(tǒng)計(jì),通過聚類的方法找到目標(biāo)框的3個(gè)寬高比中心點(diǎn),由于交通標(biāo)志數(shù)據(jù)集中存在大量較小的交通標(biāo)志,本發(fā)明增加了一個(gè)較小的acnhor尺度642,使小物體的檢測變得更加準(zhǔn)確。
步驟(3)中:由于深層網(wǎng)絡(luò)googlenet,resnet-50,resnet-101對于圖片分類取得了很好的效果,resnet-50,resnet-101作為r-fcn物體檢測框架的主體網(wǎng)絡(luò)對于較大物體的檢測效果還不錯(cuò),但是對于小物體的檢測效果并不是很好。深層網(wǎng)絡(luò)最后一層的卷積層特征神經(jīng)元感受野比較大,特征比較粗糙,對于小物體的定位比較困難。因此,針對較小交通標(biāo)志的檢測,本發(fā)明采用層數(shù)不是很深的vgg16來作為r-fcn物體檢測框架的主體網(wǎng)絡(luò);vgg16網(wǎng)絡(luò)有13個(gè)卷積層,分別是{conv1_1,conv1_2,conv2_1,conv2_2,conv3_1,conv3_2,conv3_3,conv4_1,conv4_2,conv4_3,conv5_1,conv5_2,conv5_3},每個(gè)卷積層的卷積核大小都是3×3,步長是1,這13個(gè)卷積層可以劃分為5組,每一組特征圖的尺度大小都是相同的,每一組卷積層后面都接了一個(gè)大小為2×2,步長為2的下采樣層,即{pool1,pool2,pool3,pool4,pool5},只把vgg16卷積層conv1_1到conv5_3層的特征來作為r-fcn的主體框架,并在此基礎(chǔ)上對vgg16網(wǎng)絡(luò)進(jìn)行改進(jìn),使得小物體的檢測更加準(zhǔn)確。
步驟(4)中,雖然vgg16作為r-fcn物體檢測的主體網(wǎng)絡(luò)對于小物體的檢測效果有一定的提升,但是通過分析交通標(biāo)志數(shù)據(jù)集中目標(biāo)框的短邊范圍,發(fā)現(xiàn)交通標(biāo)志數(shù)據(jù)集中存在大量短邊范圍小于16的目標(biāo)框,vgg16從卷積conv1_1到卷積conv5_3中間經(jīng)過了4次步長為2的下采樣操作,使得最后一層特征圖的邊長相比原始圖片縮小了16倍,也就是說最后一層卷積特征圖中的一個(gè)特征點(diǎn)對應(yīng)原始圖片中16×16個(gè)像素點(diǎn),rpn網(wǎng)絡(luò)在conv5_3上進(jìn)行候選框的提取,提取出的邊長小于16的候選框被過濾掉了,因?yàn)檫呴L小于16的候選框在和最后一層卷積層作映射時(shí)無法找到對應(yīng)的位置,這就使得數(shù)據(jù)集中的邊長小于16的交通標(biāo)志無法被更好地檢測出來,因此對vgg16進(jìn)行改進(jìn)。
該步驟(4)中使用了縮小特征圖下降尺度的策略,將vgg16網(wǎng)絡(luò)的卷積層特征conv5_1,conv5_2,conv5_3和卷積conv4_3層后面的下采樣層pool4去掉,使用l2normalizelayer對conv4_3層的特征進(jìn)行標(biāo)準(zhǔn)化,然后輸入到后續(xù)的rpn網(wǎng)絡(luò)中來提取候選框。從conv1_1到con4_3中間經(jīng)過了3次步長為2的下采樣操作,原始圖片到conv4_3層邊長相當(dāng)于縮小了8倍,這樣邊長在8到16范圍內(nèi)的小物體得到了更好的檢測。
步驟(5)中由于rpn網(wǎng)絡(luò)產(chǎn)生的邊長較小的候選框和最后一層卷積特征作映射后得到的特征圖較小,只用conv4_3層輸入到r-fcn后續(xù)的網(wǎng)絡(luò)中來做分類和邊框回歸特征不充足,對于小物體位置定位來說檢測效果不是很好,還有待提升。為了能夠豐富小物體的特征信息,使得對于小物體的位置定位更加精確,該步驟中將vgg16同組的卷積conv4_1,conv4_2,conv4_3分別通過l2normalizelayer標(biāo)準(zhǔn)化,然后再將它們拼接起來,稱之為組合特征,輸入到后續(xù)的網(wǎng)絡(luò)中來做分類和邊框回歸,這一改進(jìn)能夠檢測到更多的小物體,小物體的定位精確度也得到了一定的提升。
根據(jù)第(3)、(4)、(5)步,設(shè)計(jì)好訓(xùn)練模型的網(wǎng)絡(luò)配置文件train.prototxt,test.prototxt,solver.prototxt,將采集到的交通標(biāo)志數(shù)據(jù)集按照pascalvoc數(shù)據(jù)集的格式進(jìn)行處理,并放置到相應(yīng)的文件夾下,注意各個(gè)文件存放的路徑,調(diào)用訓(xùn)練模型的腳本文件開始訓(xùn)練模型,每迭代10000保存一個(gè)訓(xùn)練模型,最后從中挑選測試最好的模型來作為最終的檢測模型,來檢測圖片中的所有的交通標(biāo)志。
與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案所帶來的有益效果是:
現(xiàn)存的一些物體檢測框架,對于較大物體的檢測效果還不錯(cuò),但是對于存在較多密集的小物體的圖片而言,檢測效果很差,會出現(xiàn)檢測不到,定位不準(zhǔn)確的問題。而本發(fā)明在r-fcn物體檢測框架上做了改進(jìn),使用淺層的vgg16網(wǎng)絡(luò)來代替深層的resnet-50,resnet-101網(wǎng)絡(luò),并對vgg16網(wǎng)絡(luò)進(jìn)行了改進(jìn),為了能夠檢測到邊長小于16的物體,去掉了vgg16網(wǎng)絡(luò)的第5組卷積層特征conv5_1,conv5_2,conv5_3,同時(shí)也去掉了卷積層conv4_3后面的下采樣pool4層,增大了特征圖的分辨率,rpn在提取候選框的時(shí)候可以保存邊長范圍在8到16個(gè)像素的小的候選框。將經(jīng)過l2normalizelayer標(biāo)準(zhǔn)化后的卷積層conv4_1,conv4_2,conv4_3通過concatelayer(連接層)拼接到一起,輸入到r-fcn后續(xù)的網(wǎng)絡(luò)中,在最后一個(gè)卷積層和rpn提取出來的候選框作映射進(jìn)行分類和邊框回歸。此外通過實(shí)驗(yàn)證明本發(fā)明方法的檢測效果非常不錯(cuò),小物體的定位也非常準(zhǔn)確,為后續(xù)交通標(biāo)志的識別帶來了很大的便利。
附圖說明
圖1是本發(fā)明使用的物體檢測框圖;
圖2具體實(shí)施過程中采集到的交通標(biāo)志數(shù)據(jù)集中的原始圖片;
圖3-1、3-2和3-3是對不同模型檢測結(jié)果的對比圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明作進(jìn)一步的描述。
本實(shí)施例選取一幅行車記錄儀拍攝的圖像作為待檢測的圖片,使用本發(fā)明提出的物體檢測框架檢測出圖片中所有的交通標(biāo)志,并將它們用矩形框框選出來。
1.采集車輛行車記錄儀拍攝的視頻數(shù)據(jù),從中提取圖片,對圖片中的交通標(biāo)志進(jìn)行標(biāo)注,形成由<圖像,目標(biāo)框>對構(gòu)成的交通標(biāo)志數(shù)據(jù)集:
(1)從車輛行車記錄儀拍攝的視頻中按照一定的時(shí)間間隔來提取視頻幀,或者人工挑選視頻幀,并對這些視頻幀進(jìn)行編號,構(gòu)成圖片數(shù)據(jù)集合img={image1,…,imagend},其中nd是數(shù)據(jù)集合img中的圖像總數(shù);
(2)將圖片中所有交通標(biāo)志的具體位置用矩形框標(biāo)注出來,每一個(gè)交通標(biāo)志用四個(gè)數(shù)值來表示,boundingboxs=(x1,y1,x2,y2),其中x1,y1是交通標(biāo)志在圖片中對應(yīng)的矩形框的左上角位置,x2,y2是交通標(biāo)志在圖片中對應(yīng)的矩形框的右下角位置;
(3)通過現(xiàn)有的圖像集合img以及每個(gè)圖像對應(yīng)的所有的交通標(biāo)志位置數(shù)據(jù)集合boundingboxes構(gòu)成最終的交通標(biāo)志數(shù)據(jù)集dataset={img,boundingboxes}。
2.數(shù)據(jù)預(yù)處理,對交通標(biāo)志數(shù)據(jù)集存在的問題進(jìn)行預(yù)處理;
(1)對圖片進(jìn)行去噪處理,通過圖像增強(qiáng)、圖像均衡、圖像去噪等算法,將圖像的光線均衡化,突出關(guān)鍵信息,使圖片中的交通標(biāo)志更容易被檢測出來。
(2)rpn網(wǎng)絡(luò)提出了anchor(錨點(diǎn))機(jī)制,訓(xùn)練網(wǎng)絡(luò)時(shí)需要設(shè)置anchor的尺度和寬高比,本實(shí)施例設(shè)置了4種anchor尺度,即64×64,128×128,256×256,512×512;anchor寬高比設(shè)置需要統(tǒng)計(jì)人工標(biāo)注的boundingboxs也即groundtruth(真實(shí)目標(biāo)框)的寬高比,并通過聚類方法得到3個(gè)寬高比中心點(diǎn),設(shè)置為anchor的3個(gè)寬高比。假設(shè)總共有n個(gè)boundingbox目標(biāo)框:
center=kmeans(ratios,3),ratios={ratio1,ratio2,…,ration}(3)
公式(1)是訓(xùn)練集標(biāo)注的所有目標(biāo)框的集合,公式(2)是計(jì)算一個(gè)boundingbox的寬高比,公式(3)是對n個(gè)boundingbox的寬高比通過k-means算法進(jìn)行聚類,得到3個(gè)中心點(diǎn),center(聚類中心點(diǎn))是長度為3的向量,表示3個(gè)聚類中心點(diǎn)。
3.使用淺層網(wǎng)絡(luò)vgg16作為r-fcn物體檢測框架的主體網(wǎng)絡(luò):
修改r-fcn的網(wǎng)絡(luò)結(jié)構(gòu),將r-fcn的主干網(wǎng)絡(luò)resnet-50或resnet-101替換為vgg16網(wǎng)絡(luò)的卷積層。深層網(wǎng)絡(luò)檢測較大物體的準(zhǔn)確度比較高,但對于小物體的定位比較困難。因?yàn)樯顚泳W(wǎng)絡(luò)如resnet-50,resnet-101最后一層卷積層的神經(jīng)元感受野比較大,對于較小的物體無法映射到最后一層卷積層上或者位置定位不準(zhǔn)確,因此小物體的檢測精度比較差。本發(fā)明選用層數(shù)不是很深的vgg16網(wǎng)絡(luò)。
4.改進(jìn)vgg16網(wǎng)絡(luò)模型,采用淺層特征,縮小特征圖下降倍數(shù),訓(xùn)練rpn網(wǎng)絡(luò)提取候選框:
vgg16網(wǎng)絡(luò)總共有13個(gè)卷積層,分別是{conv1_1,conv1_2,conv2_1,conv2_2,conv3_1,conv3_2,conv3_3,conv4_1,conv4_2,conv4_3,conv5_1,conv5_2,conv5_3},可以分為5組,前兩組每組有2個(gè)卷積層,后三組每組有三個(gè)卷積層,前4組每組卷積層后面接一個(gè)大小為2×2,步長為2的下采樣層,所以從卷積conv1_1到卷積conv5_3特征圖的邊長縮小了16倍,在卷積conv5_3上提取到的候選框邊長小于16的需要去掉,因?yàn)檫呴L小于16的候選框無法通過psroipooling(位置敏感興趣候選框下采樣)層和最后一層卷積層特征作映射,這樣圖片中邊長小于16的小物體無法被更準(zhǔn)確的檢測出來。因此,本發(fā)明提出降低特征圖縮小倍數(shù)的策略,將vgg16的卷積層conv5_1,conv5_2,conv5_3和下采樣層pool4去掉,用rpn在卷積conv4_3層上提取候選框,從conv1_1到conv4_3中間經(jīng)過了3次步長為2的下采樣層,特征圖邊長下降了8倍,這樣邊長范圍在8到16的小物體可以更好的被檢測到。
5.改進(jìn)vgg16網(wǎng)絡(luò)模型,將淺層同組特征進(jìn)行特征組合,輸入到r-fcn后續(xù)的檢測框架中,對候選框進(jìn)行分類和邊框回歸:
單層的卷積層conv4_3輸入到r-fcn的后續(xù)網(wǎng)絡(luò),使用1×1大小的卷積核在conv4_3上繼續(xù)進(jìn)行卷積得到最后一層卷積層,在該卷積層上和rpn網(wǎng)絡(luò)提取的候選框進(jìn)行映射,然后進(jìn)行分類和邊框回歸,卷積conv4_3共有512個(gè)特征圖,對于映射后的小物體的特征表達(dá)還不夠,因此,將卷積conv4_1,conv4_2,conv4_3分別通過l2normalizelayer層進(jìn)行標(biāo)準(zhǔn)化,然后通過concate層將這三層特征拼接起來,輸入到r-fcn后續(xù)的網(wǎng)絡(luò)中,拼層后的特征可以豐富小物體的特征信息,對于小物體的位置定位更加準(zhǔn)確。
進(jìn)一步的,用訓(xùn)練好的模型提取候選框,并進(jìn)行分類和邊框回歸,從而檢測到圖片中的所用交通標(biāo)志:按照上述5個(gè)步驟整理數(shù)據(jù)集,設(shè)計(jì)物體檢測網(wǎng)絡(luò)模型,將數(shù)據(jù)處理成pascalvoc數(shù)據(jù)集格式,用vgg16在imagenet數(shù)據(jù)集上訓(xùn)練好的模型作為預(yù)訓(xùn)練模型,按照r-fcn物體檢測模型訓(xùn)練的方式在此基礎(chǔ)上微調(diào)提出的物體檢測網(wǎng)絡(luò),得到最終的檢測模型。將待檢測的圖片通過測試網(wǎng)絡(luò),通過rpn網(wǎng)絡(luò)保存300個(gè)置信度較高的候選框,再將300個(gè)候選框輸入到r-fcn后續(xù)網(wǎng)絡(luò)進(jìn)行分類和邊框回歸,從而得到該圖片上交通標(biāo)志的精確坐標(biāo)框。本實(shí)施例中imagenet數(shù)據(jù)集是大規(guī)模圖像視覺挑戰(zhàn)賽(ilsvrc)發(fā)布的數(shù)據(jù)集,
圖1表示的是本發(fā)明提出的小物體檢測框架圖,使用vgg16網(wǎng)絡(luò)作為r-fcn物體檢測框架的主體網(wǎng)絡(luò),去掉vgg16網(wǎng)絡(luò)的卷積conv5_1,conv5_2,conv5_3層,同時(shí)去掉卷積conv4_3層后面的下采樣pool4層,使用l2normalizelayer標(biāo)準(zhǔn)化卷積層conv4_1,conv4_2,conv4_3,將標(biāo)準(zhǔn)化后的conv4_3層輸入到rpn網(wǎng)絡(luò)提取候選框,將標(biāo)準(zhǔn)化后的conv4_1,conv4_2,conv4_3層通過concatelayer(連接層)拼接到一起,輸入到r-fcn后續(xù)的網(wǎng)絡(luò)中,經(jīng)過若干次卷積層到達(dá)最后一層卷積層,特征圖尺度和conv4_3層保持一致,將rpn網(wǎng)絡(luò)在conv4_3層提取的候選框(roi)和最后一層卷積層輸入到psroipooling(位置敏感興趣候選框下采樣)層,為每一個(gè)候選框(per-roi)計(jì)算一個(gè)權(quán)重圖對該候選框進(jìn)行投票表決(vote),從而對該候選框進(jìn)行分類和邊框回歸,最后得到檢測到的目標(biāo)框。
圖2表示的是采集到的交通標(biāo)志數(shù)據(jù)集中的原始圖片,圖片的分辨率為720×1280,為了便于看清楚圖片中的交通標(biāo)志,將其中的一小部分放大,可以看到圖片中存在大量較小的交通標(biāo)志,本發(fā)明的任務(wù)就是精確的找到圖片中所有的交通標(biāo)志,為后續(xù)的交通標(biāo)志識別帶來便利。
圖3-1至圖3-3是對不同模型檢測結(jié)果的一個(gè)對比,圖3-1是使用vgg16網(wǎng)絡(luò)的卷積conv5_3來做rpn提取候選框得到的檢測結(jié)果,圖3-2是使用卷積conv4_3來提取候選框,圖3-3是使用卷積conv4_3來提取候選框,并將通過l2normalizelayer(l2標(biāo)準(zhǔn)化層)標(biāo)準(zhǔn)化后的conv4_1,con4_2,conv4_3層特征拼接到一起,構(gòu)成組合特征,輸入到后續(xù)的r-fcn網(wǎng)絡(luò)中,和rpn提取到的候選框作映射,訓(xùn)練分類和邊框回歸,得到最終的模型的檢測結(jié)果,可以看到本發(fā)明提出的使用vgg16淺層特征,將淺層conv4_1,conv4_2,conv4_3拼接到一起構(gòu)成組合特征輸入到后續(xù)r-fcn網(wǎng)絡(luò)的策略對于小物體的檢測結(jié)果有很大的提升。
綜上:本發(fā)明方法主要用于自動駕駛場景中的交通標(biāo)志的檢測。主要過程包括:數(shù)據(jù)集的采集;網(wǎng)絡(luò)設(shè)計(jì),使用vgg16網(wǎng)絡(luò)作為r-fcn的主體網(wǎng)絡(luò);修改vgg16網(wǎng)路,把vgg16的淺層特征conv4_3輸入到rpn網(wǎng)絡(luò)提取候選框;修改vgg16網(wǎng)絡(luò),將淺層的conv4_1,conv4_2,conv4_3通過concate層拼接起來,輸入到r-fcn后續(xù)網(wǎng)絡(luò)做分類和邊框回歸。該方法對于小物體的檢測具有很好的準(zhǔn)確率,在存在大量較小交通標(biāo)志的數(shù)據(jù)集上得到了很好的驗(yàn)證,可以應(yīng)用到自動駕駛場景中的交通標(biāo)志檢測中。
參考文獻(xiàn):
k.simonyan,a.zisserman.《深度卷積網(wǎng)絡(luò)用于大規(guī)模圖像識別》,學(xué)習(xí)表征國際會議,pp.1-3,2015.
k.he,x.zhang,s.ren,andj.sun.《深度卷積網(wǎng)絡(luò)的空間金字塔池化用于視覺分類》,歐洲計(jì)算機(jī)視覺國際會議,pp.346-361,2014..
j.dai,y.li,k.he,j.sun.《全卷積網(wǎng)絡(luò)用于基于候選框的物體檢測》,神經(jīng)信息處理系統(tǒng)會議,pp.379-387,2016.
r.girshick.《卷積神經(jīng)網(wǎng)絡(luò)用于快速物體檢測》,國際計(jì)算機(jī)視覺大會,pp.1440-14489,2015.
s.ren,k.he,r.girshick,j.sun.《基于候選框提取網(wǎng)絡(luò)面向?qū)崟r(shí)的物體檢測》,神經(jīng)信息處理系統(tǒng)會議,pp.91-99,2015.
j.redmon,s.divvala,r.girshick,a.farhadi.《只看一次:統(tǒng)一實(shí)時(shí)物體檢測》,計(jì)算機(jī)視覺和模式識別會議,pp.779-788,2016.
k.he,x.zhang,s.ren,j.sun.《深度殘差學(xué)習(xí)用于圖像識別》,計(jì)算機(jī)視覺和模式識別會議,pp.770-778,2016.
本發(fā)明并不限于上文描述的實(shí)施方式。以上對具體實(shí)施方式的描述旨在描述和說明本發(fā)明的技術(shù)方案,上述的具體實(shí)施方式僅僅是示意性的,并不是限制性的。在不脫離本發(fā)明宗旨和權(quán)利要求所保護(hù)的范圍情況下,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下還可做出很多形式的具體變換,這些均屬于本發(fā)明的保護(hù)范圍之內(nèi)。