本發(fā)明涉及駕駛員異常行為檢測,具體涉及一種基于多視圖的駕駛員異常行為檢測系統(tǒng)及方法。
背景技術(shù):
1、針對駕駛員行為檢測識別的問題,現(xiàn)在很多國內(nèi)外的專家和學(xué)者都對其進行了深入地研究。當(dāng)前,駕駛員行為識別技術(shù)主要是從三個方面進行深入研究:采用人體的多個生理特征進行識別、利用機器學(xué)習(xí)的駕駛員行為的方法進行識別以及采用深度學(xué)習(xí)的駕駛員行為識別的方法。多個生理特征檢測往往采用接觸式傳感器進行數(shù)據(jù)收集,這種方法檢測精度很高,但佩戴不方便,采集信息的過程中也會對駕駛員本身造成不適,影響駕駛員的正常駕駛。本發(fā)明采用的是非接觸式傳感器,通過多個相機采集駕駛數(shù)據(jù)。
2、基于傳統(tǒng)機器學(xué)習(xí)方法需要進行手工特征的設(shè)定,依據(jù)手工特征的方法對圖像中相關(guān)的信息進行查找,再對其駕駛行為進行分類。常用的分類方法有很多,例如最近鄰、貝葉斯學(xué)習(xí)等;craye等人用隱馬爾科夫模型和adaboost分類器進行駕駛員異常行為檢測;chou?y等人在貝葉斯網(wǎng)絡(luò)和支持向量機上改進,從而檢測異常行為;gupter?a等人通過特征融合的方法去實現(xiàn)駕駛員的行為檢測。這些方法都取得的顯著的效果,但由于手工特征在大場景下的適應(yīng)性較弱,不能在單一場景下?lián)碛懈玫男阅?,很難去遷移到更多的場景。
3、近年來,隨著深度學(xué)習(xí)的迅速發(fā)展,很多針對駕駛員行為的算法也被提出,yu等人提出了一種使用bp神經(jīng)網(wǎng)絡(luò)和支持向量機對網(wǎng)絡(luò)訓(xùn)練的方法;peng等人使用vgg-19網(wǎng)絡(luò)提取語義信息在通過lstm對駕駛員的行為進行檢測;xu通過輕量級網(wǎng)絡(luò)結(jié)合多變量時間序列分析駕駛員的異常行為。
4、隨著計算機視覺的飛速發(fā)展,越來越多針對駕駛員行為檢測算法被提出,但是仍存在一些問題:
5、(1)當(dāng)前基于深度學(xué)習(xí)的駕駛員異常行為檢測的方法只是使用了單一的角度進行編碼和識別,在實驗中存在光線差等原因造成的圖像信噪比大、對比度低以及遮擋造成的影響,從而導(dǎo)致識別性能較低;
6、(2)實驗采用的數(shù)據(jù)集大都來源于模擬實驗條件下,和真實場景下存在一定的誤差,所以需要盡可能貼近現(xiàn)實;
7、(3)許多檢測系統(tǒng)的響應(yīng)時間過長,參數(shù)量大,不能做到實時反饋給駕駛員從而避免危險的問題。因此,本發(fā)明提出了一種能快速準(zhǔn)確識別駕駛員異常行為并實時提醒駕駛員的檢測系統(tǒng)。
技術(shù)實現(xiàn)思路
1、為了克服以上技術(shù)問題,本發(fā)明的目的在于提供一種基于多視圖的駕駛員異常行為檢測系統(tǒng)及方法,快速分析不同駕駛時間段的駕駛員行為信息,通過深度學(xué)習(xí)算法檢測出異常行為,實時顯示并通過語音信息提醒駕駛員,從而提前規(guī)避和預(yù)防一些交通事故的發(fā)生。
2、為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
3、一種基于多視圖的駕駛員異常行為檢測系統(tǒng),包括人機交互ui模塊和駕駛員異常行為檢測模塊;
4、所述人機交互ui模塊用于駕駛員通過觸控或者語音識別的方式獲取指令,根據(jù)駕駛員需求返回最匹配的結(jié)果,實現(xiàn)自然的人機交互;很大程度上提升了駕駛員的安全保障能力;
5、所述駕駛員異常行為檢測模塊用于把輸入的視頻信息通過所提出的行為檢測算法處理后,把結(jié)果通過語音、圖像和文字的信息反饋給駕駛員。
6、所述人機交互ui模塊包括圖像與參數(shù)顯示、行為檢測識別結(jié)果顯示以及系統(tǒng)控制與操作;
7、所述圖像與參數(shù)顯示用于顯示檢測視頻中的異常動作的參數(shù);例如出現(xiàn)手機和眨眼次數(shù)以及關(guān)鍵部位的框選;
8、所述行為檢測識別結(jié)果顯示用于顯示檢測后駕駛員異常行為,并標(biāo)明屬于哪類異常行為信息;
9、所述系統(tǒng)控制與操作用于處理駕駛員和系統(tǒng)的交互功能。
10、所述駕駛員異常行為檢測模塊包括視頻流輸入、異常行為識別以及語音提示;
11、所述視頻流輸入用于把傳感器收集的視頻信息傳進系統(tǒng)內(nèi);
12、所述異常行為識別用于對所輸入的信息通過改進后的圖像分類算法進行特征提取、卷積、特征融合的操作進行處理分析;
13、所述語音提示用于把處理結(jié)果反饋給后臺并語音提醒駕駛員。
14、系統(tǒng)可視化界面是所述人機交互ui模塊和所述駕駛員異常行為檢測模塊的可視化表現(xiàn),包括駕駛員異常行為可視化界面、行為識別以及數(shù)據(jù)處理;
15、所述異常行為可視化界面用于展示系統(tǒng)的功能、操作界面與顯示區(qū)域;
16、所述數(shù)據(jù)處理用于把從不同視角中收集到的數(shù)據(jù)進行去除噪聲和異常值、歸一化處理和去除冗余信息的操作,從而提高模型的準(zhǔn)確性和預(yù)測性能;
17、所述行為識別用于通過算法檢測出駕駛員的異常行為。
18、所述數(shù)據(jù)處理中包括雙視角圖像、多視圖圖像組合;
19、所述雙視角圖像用于收集兩個不同視角的駕駛員行為信息;兩個視角分別位于駕駛員的正前方和右45°前方;
20、所述多視圖圖像組合用于對雙視角的圖像信息做一個特征融合,提高模型的檢測精度。
21、多視圖圖像組合包括把不同角度提取到的數(shù)據(jù)做一個整合,將輸入特征圖同時輸入到兩個分支中進行處理,再將兩個分支處理得到的特征圖在通道方向上進行拼接,同時使用1*1卷積核構(gòu)成的卷積層來進行降維,減少參數(shù)量;
22、所述行為識別中包括改進后的mvcnn和分類器;
23、所述改進后的mvcnn用于對傳統(tǒng)的cnn用于圖像識別進行改進;通過在mvcnn基礎(chǔ)框架添加了一個新模塊mmobnet,它由特征提取模塊、特征融合模塊和分類模塊組成,它可以有效利用多個視角圖像特征,使分類結(jié)果更加準(zhǔn)確;
24、所述分類器用于對算法處理后的異常行為信息進行分類;通過softmax函數(shù)的輸出向量進行分類任務(wù)。
25、一種基于多視圖的駕駛員異常行為檢測系統(tǒng)的檢測方法,包括以下步驟;
26、步驟1:通過不同視角傳感器獲取駕駛員行為數(shù)據(jù),并制作多視角的駕駛行為數(shù)據(jù)集;
27、步驟2:取步驟1中的數(shù)據(jù)集,通過特征提取模塊用于從數(shù)據(jù)集圖像中提取多尺度特征信息,從而保證了網(wǎng)絡(luò)在深度上不損失特征信息的同時,獲得更多不同感受野下的特征信息,避免源圖像關(guān)鍵信息的過度丟失;
28、步驟3:通過特征融合模塊對所述多尺度特征信息進行融合,輸出多視圖特征圖;
29、通過特征融合模塊用于模型能更加考慮到各視圖之間的特征差異,結(jié)合引入的視圖注意力模塊,可以提升有效視圖的權(quán)重,還有助于模型實現(xiàn)更高的識別精度和更好的泛化能力,還能提高模型的性能;
30、步驟4:通過分類模塊用于把從特征融合模塊得到的特征圖通過分類器進行分類;
31、最終的結(jié)果是根據(jù)不同行為的判別方式判斷具體的異常行為。
32、所述步驟2中:
33、提取多尺度特征信息的具體步驟是去掉cnn的全連接層,利用卷積層提取conv特征,將圖像進行縮放得到多個不同尺寸的圖像,然后分別輸入cnn提取conv特征并作feature?aggregaton,最后將各尺寸圖像對應(yīng)的特征進行合并。
34、所述步驟3中:
35、(1)對所有圖片的特征圖進行空間特征提取,使用的方案基于空間注意力機制(spatial?attention?module,sam);
36、在特征提取層得到的特征圖尺寸為[b,576,7,7],其中b為batchsize,576為通道數(shù),7*7為特征圖的高寬;
37、在通道方向上使用global?max?pooling和global?mean?pooling兩個操作,進行全局最大池化和全局平均池化,將兩個[b,1,7,7]進行拼接得到[b,2,7,7],再使用一個尺寸為1*1的過濾器進行卷積操作,經(jīng)過激活函數(shù)sigmoid后得到的[b,1,7,7]即為各個圖片的空間特征;
38、(2)基于視圖的空間特征權(quán)重學(xué)習(xí)
39、對獲取的圖片空間特征基于視圖進行權(quán)重學(xué)習(xí),即視圖的空間特征注意力機制,在得到[b,1,7,7]的空間特征后,將特征圖尺寸進行轉(zhuǎn)換,增加一個num_views尺度,即視圖數(shù)量尺度,得到[b/num_views,num_views,1,7,7],其中b在圖片輸入時設(shè)置為b*num_views,所以b/num_views永遠為一個整數(shù);將一個batchsize中的圖片依據(jù)視角數(shù)(num_views)進行劃分,加上圖片輸入時采用同一時間的圖片連續(xù)輸入的方法,使得視圖注意力機制作用在一個時間內(nèi)的多視圖內(nèi);由于第二個維度尺寸為1,因此省略該維度,再轉(zhuǎn)換為[b/num_views,num_views,7,7],該特征圖的第二個維度是指視圖數(shù)(num_views),該特征圖可以表示為b/num_views組特征,每組是b/num_views個7*7的特征,即b/num_views組多視圖特征圖的空間特征;然后針對空間特征進行g(shù)lobal?max?pooling和global?meanpooling兩個操作,實現(xiàn)全局最大池化和全局平均池化,得到兩個[b/num_views,num_views,1,1]的特征圖,將兩者分別送入一個兩層的神經(jīng)網(wǎng)絡(luò)中,第一層1*1的過濾器個數(shù)為1024,第二個1*1的過濾器個數(shù)恢復(fù)至num_views,中間使用了relu作為激活函數(shù);最后,將神經(jīng)網(wǎng)絡(luò)輸出的兩個特征圖進行相應(yīng)元素相加,再經(jīng)過sigmoid函數(shù)激活,得到最終經(jīng)過權(quán)重學(xué)習(xí)的視圖注意力特征(view-based?attention?feature);
40、最后將視圖注意力特征與對應(yīng)的多視圖特征圖相乘,最終得到經(jīng)過視圖權(quán)重學(xué)習(xí)的多視圖特征圖。
41、所述步驟4中:
42、使用三層卷積的全卷積層取代了通常的全連接層,卷積層之間使用了dropout層和h-swish激活函數(shù);
43、從特征融合模塊得到的特征圖尺寸為[b,576,7,7],第一個卷積層卷積核尺寸為7*7,數(shù)量為576,輸出為[b,576,1,1];
44、第二個卷積層卷積核尺寸為1*1,數(shù)量為1024,輸出為[b,1024,1,1];
45、第三個卷積層卷積核尺寸為1*1,數(shù)量為任務(wù)分類數(shù),輸出為[b,nclasses,1,1],nclasses為任務(wù)分類數(shù),分類器會為每個可能的類別輸出一個預(yù)測概率。
46、本發(fā)明的有益效果:
47、(1)本發(fā)明提出多視圖融合策略,能夠綜合多個行為的特征,比起單視圖方法,決策更為準(zhǔn)確。
48、(2)將遷移學(xué)習(xí)引入異常行為檢測,兼?zhèn)涓呔群偷陀?xùn)練時間。
49、(3)提出視圖注意力機制vam,可以有效強調(diào)對檢測任務(wù)重要性高的特征,同時抑制冗余特征。