本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,更進(jìn)一步涉及基于深度學(xué)習(xí)的人體動(dòng)作識(shí)別,具體是一種基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法方法,可用于小區(qū)、酒店、商場(chǎng)以及保密場(chǎng)所等區(qū)域?qū)ΡO(jiān)控視頻中的人體動(dòng)作進(jìn)行檢測(cè)識(shí)別。
背景技術(shù):
隨著科技的快速發(fā)展和人們生活水平的不斷提高的提高,人們對(duì)于生活中的安全問(wèn)題也越來(lái)越關(guān)注?,F(xiàn)在視頻監(jiān)控設(shè)備越來(lái)越普及,在小區(qū)、酒店、停車(chē)場(chǎng)、商場(chǎng)、十字路口、公司以及保密場(chǎng)所等很多地方都裝有視頻監(jiān)控設(shè)備。隨著視頻監(jiān)控設(shè)備規(guī)模不斷擴(kuò)大,視頻監(jiān)控對(duì)更加智能化的技術(shù)和系統(tǒng)的需求也更大。智能監(jiān)控系統(tǒng)可以主動(dòng)對(duì)監(jiān)控視頻中的人進(jìn)行分析、識(shí)別,在發(fā)現(xiàn)異常情況時(shí)及時(shí)發(fā)出警報(bào),避免可能存在的罪犯或者危險(xiǎn),人體動(dòng)作識(shí)別技術(shù)涉及到人們?nèi)粘I畹姆椒矫婷?,研究人體動(dòng)作識(shí)別對(duì)改善和提高人們的生活質(zhì)量有重要的作用和潛在經(jīng)濟(jì)價(jià)值。
人體動(dòng)作識(shí)別是指以數(shù)字圖像或視頻信號(hào)流為對(duì)象,通過(guò)圖像處理與自動(dòng)識(shí)別方法,獲得人體動(dòng)作信息的一種實(shí)用技術(shù)。由于人體動(dòng)作的自由性,相機(jī)運(yùn)動(dòng),光線(xiàn)強(qiáng)度變化,衣服的不同,不同人體型的差距,人體具有非剛體的特性以及不同環(huán)境條件下的差異性等等問(wèn)題的存在,因此使得人體動(dòng)作識(shí)別的研究成為一個(gè)多學(xué)科交叉并且特別具體挑戰(zhàn)性的技術(shù)問(wèn)題。
目前,人體動(dòng)作識(shí)別方法主要有基于模板匹配,神經(jīng)網(wǎng)絡(luò),時(shí)空特征等方法。由上述方法提取的特征受到復(fù)雜背景的影響很大,實(shí)時(shí)性差并且特征大所需內(nèi)存很大,實(shí)現(xiàn)復(fù)雜,從而導(dǎo)致此類(lèi)方法在處理大量復(fù)雜背景數(shù)據(jù)時(shí),因魯棒性不強(qiáng)降低了人體動(dòng)作識(shí)別的精度。
現(xiàn)有的大部分人體動(dòng)作識(shí)別算法,過(guò)程復(fù)雜,計(jì)算量太大,識(shí)別率不高,容易受到環(huán)境條件的影響,所以需要新的研究方法的提出。
hengwang等人在其發(fā)表的論文“actionrecognitionbydensetrajectories”(conferenceoncomputervision&patternrecognition,2011,42(7):3169-3176)中提出了一種基于密集軌跡特征和支持向量機(jī)svm的人體動(dòng)作識(shí)別的方法,該方法首先對(duì)視頻進(jìn)行多尺度密集采樣,然后對(duì)采集到的特征點(diǎn)進(jìn)行跟蹤形成軌跡,沿著軌跡將軌跡鄰域劃分成更小的子空間,對(duì)每個(gè)子空間構(gòu)造描述靜態(tài)特征hog,像素絕對(duì)運(yùn)動(dòng)特征hof,像素相對(duì)運(yùn)動(dòng)特征mbh,然后使用k均值聚類(lèi)學(xué)習(xí)得到的詞袋,最后利用支持向量機(jī)進(jìn)行分類(lèi)。該方法存在的不足之處是,計(jì)算量大,導(dǎo)致速度慢,實(shí)時(shí)性差,而且存在軌跡漂移問(wèn)題。
合肥金諾數(shù)碼科技股份有限公司申請(qǐng)的專(zhuān)利“一種基于kinect的人體動(dòng)作識(shí)別方法”(專(zhuān)利申請(qǐng)?zhí)枺篶n201310486754.8,公開(kāi)號(hào):cn103529944b)公開(kāi)了一種基于kinect的人體動(dòng)作識(shí)別方法。該方法利用kinect獲取目標(biāo)人體的骨骼關(guān)節(jié)點(diǎn)的空間位置信息,然后通過(guò)判斷其是否滿(mǎn)足預(yù)設(shè)的各種人體動(dòng)作的判定標(biāo)準(zhǔn)來(lái)識(shí)別目標(biāo)人體的動(dòng)作類(lèi)型。該方法存在的不足之處是時(shí)間復(fù)雜度高,容易受遮擋和人體差異的影響,因此準(zhǔn)確率不高,適合簡(jiǎn)單動(dòng)作的識(shí)別。
重慶郵電大學(xué)申請(qǐng)的專(zhuān)利“一種基于高斯過(guò)程隱變量模型的人體動(dòng)作識(shí)別方法”(專(zhuān)利申請(qǐng)?zhí)枺篶n201610226853.6,公開(kāi)號(hào):cn105930770a)公開(kāi)了一種基于高斯過(guò)程隱變量模型和隱條件隨機(jī)場(chǎng)的判別式人體動(dòng)作識(shí)別方法,該方法主要包括以下三個(gè)部分:在獲取運(yùn)動(dòng)數(shù)據(jù)方面,通過(guò)動(dòng)作捕捉技術(shù)或kinect體感技術(shù)獲取人體的骨骼結(jié)構(gòu)和運(yùn)動(dòng)信息;在提取運(yùn)動(dòng)特征方面,采用加入動(dòng)態(tài)過(guò)程和稀疏近似的高斯過(guò)程隱變量模型來(lái)得到高維運(yùn)動(dòng)信息在低維隱空間中的流行結(jié)構(gòu),以表示運(yùn)動(dòng)特征;在人體動(dòng)作識(shí)別方面,利用判別式的隱條件隨機(jī)場(chǎng)對(duì)時(shí)序運(yùn)動(dòng)數(shù)據(jù)的特征進(jìn)行建模,并對(duì)動(dòng)作進(jìn)行分類(lèi)。該方法存在的不足之處是過(guò)程復(fù)雜,容易受遮擋和人體差異的影響。
目前,人體動(dòng)作識(shí)別在科研方面具有研究?jī)r(jià)值是由于人體動(dòng)作識(shí)別在生活中有廣泛的應(yīng)用。已有的人體動(dòng)作識(shí)別方法存在時(shí)間復(fù)雜度高,計(jì)算量大,實(shí)時(shí)性差,易受遮擋、光線(xiàn)強(qiáng)度變化和人體差異的影響。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是針對(duì)上述現(xiàn)有技術(shù)存在的不足,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法,以減小計(jì)算量,提高實(shí)時(shí)性和識(shí)別的準(zhǔn)確度。
本發(fā)明是一種基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法,其特征在于,包括有如下步驟:
(1)獲取人體動(dòng)作光流圖:輸入人體動(dòng)作數(shù)據(jù)集中視頻,對(duì)其利用稠密光流tv-l1進(jìn)行處理,獲取人體動(dòng)作數(shù)據(jù)集中視頻的光流圖;
(2)調(diào)整視頻和光流圖大?。簩?duì)人體動(dòng)作數(shù)據(jù)集中視頻的每幀圖像和得到的光流圖進(jìn)行調(diào)整,調(diào)整單幀圖像到大小為224×224像素;
(3)獲取視頻和光流圖的卷積特征圖:
(3a)卷積神經(jīng)網(wǎng)絡(luò)cnn有11層,這11層依次是卷積層conv1,池化層pool1,卷積層conv2,池化層pool2,卷積層conv3,卷積層conv4,卷積層conv5,池化層pool5,全連接層fc6,全連接層fc7,分類(lèi)層softmax;
(3b)獲取視頻圖像卷積特征圖:將已調(diào)整大小的人體動(dòng)作數(shù)據(jù)集中每個(gè)視頻的所有幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò)cnn,視頻是由多幀圖像鏈接而成的,圖像從卷積神經(jīng)網(wǎng)絡(luò)cnn輸入層經(jīng)過(guò)逐級(jí)的變換,傳送到卷積神經(jīng)網(wǎng)絡(luò)cnn輸出層,每一張圖像從池化層pool5獲取512張6×6像素大小的特征圖;
(3c)獲取光流圖卷積特征圖:將已調(diào)整大小的光流圖輸入卷積神經(jīng)網(wǎng)絡(luò)cnn,光流圖從卷積神經(jīng)網(wǎng)絡(luò)cnn輸入層經(jīng)過(guò)逐級(jí)的變換,傳送到卷積神經(jīng)網(wǎng)絡(luò)cnn輸出層,每一張光流圖從池化層pool5獲取512張6×6像素大小的特征圖;
(4)獲取局部特征累積描述子:對(duì)視頻和光流圖獲取的卷積特征進(jìn)行局部特征累積編碼獲取局部特征累積描述子;
(5)降維白化處理:將視頻和光流獲取的局部特征累積描述子輸入主成分分析pca中進(jìn)行降維白化處理;
(6)獲取局部特征聚合描述符vlad向量:
(6a)降維白化后的局部特征累積描述子通過(guò)k均值k-means聚類(lèi),學(xué)習(xí)得到k個(gè)聚類(lèi)中心(c1,...,cj,...,ck),j∈[1,k];
(6b)每個(gè)視頻和光流分別獲取局部特征聚合描述符vlad向量并對(duì)獲取的vlad向量進(jìn)行l(wèi)2歸一化;
(7)獲取人體動(dòng)作視頻分類(lèi)數(shù)據(jù):合并視頻獲取的vlad向量和對(duì)應(yīng)光流視頻獲取的vlad向量獲取人體動(dòng)作視頻分類(lèi)數(shù)據(jù);
(8)利用支持向量機(jī)分類(lèi)器分類(lèi)處理人體動(dòng)作視頻分類(lèi)數(shù)據(jù);
(8a)將最后的vlad向量分成兩部分,分別作為訓(xùn)練樣本和測(cè)試樣本;
(8b)用訓(xùn)練樣本訓(xùn)練支持向量機(jī)分類(lèi)器得到分類(lèi)模型;
(8c)用分類(lèi)模型對(duì)測(cè)試樣本進(jìn)行分類(lèi),獲得所輸入的人體動(dòng)作的識(shí)別結(jié)果。
本發(fā)明的基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法,減小了計(jì)算量,提高實(shí)時(shí)性和識(shí)別的準(zhǔn)確度。
本發(fā)明與現(xiàn)有技術(shù)相比具有以下優(yōu)點(diǎn):
第一、由于本發(fā)明采用局部特征累積編碼方法對(duì)視頻和光流圖進(jìn)行編碼獲取局部特征累積描述子,一張卷積特征圖通過(guò)本發(fā)明中的局部特征累積編碼可以獲取36個(gè)局部特征累積描述子,增加特征個(gè)數(shù)提高人體動(dòng)作的識(shí)別率度;局部特征累積編碼是對(duì)特征圖上相同位置像素進(jìn)行累積疊加計(jì)算簡(jiǎn)單。
第二、由于本發(fā)明采用稠密光流tv-l1獲取光流圖獲取人體動(dòng)作的光流圖,稠密光流tv-l1能夠計(jì)算出相鄰幀圖像上所有點(diǎn)的光流,克服了稀疏光流易受背景運(yùn)動(dòng)影響,精度不高的問(wèn)題,獲取更精準(zhǔn)的結(jié)果。
第三、由于本發(fā)明將視頻獲取的vlad向量和光流獲取的vlad向量進(jìn)行合并進(jìn)行人體動(dòng)作識(shí)別,將視頻的空間信息和光流的動(dòng)作信息進(jìn)行融合,相對(duì)于單獨(dú)的視頻幀圖像信息和單獨(dú)的光流中動(dòng)作信息融合這兩種信息使獲取的向量特征更穩(wěn)定,不僅提高人體動(dòng)作的識(shí)別效果而且使算法的魯棒性更好。
附圖說(shuō)明
圖1是本發(fā)明的實(shí)現(xiàn)流程圖;
圖2是本發(fā)明中的光流圖示意圖;
圖3是本發(fā)明分類(lèi)結(jié)果的混淆矩陣示意圖。
圖4是本發(fā)明局部動(dòng)作分類(lèi)結(jié)果的混淆矩陣示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明詳細(xì)描述。
實(shí)施例1
目前,由于人體動(dòng)作識(shí)別在生活中有廣泛的應(yīng)用價(jià)值。在科研方面也有許多關(guān)于人體動(dòng)作識(shí)別的研究?,F(xiàn)有的人體動(dòng)作識(shí)別方法主要有基于模板匹配,神經(jīng)網(wǎng)絡(luò),時(shí)空特征等方法。上述方法在實(shí)現(xiàn)人體動(dòng)作識(shí)別方法上具有時(shí)間復(fù)雜度高,計(jì)算量大,實(shí)時(shí)性差,易受遮擋,所需內(nèi)存很大,實(shí)現(xiàn)復(fù)雜,識(shí)別率不高,容易受到環(huán)境條件的影響,從而導(dǎo)致此類(lèi)方法在處理大量復(fù)雜背景數(shù)據(jù)時(shí),因魯棒性不強(qiáng)降低了人體動(dòng)作識(shí)別的精度。針對(duì)此現(xiàn)狀本發(fā)明展開(kāi)了創(chuàng)新與研究,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法,參見(jiàn)圖1,人體動(dòng)作識(shí)別過(guò)程包括有如下步驟:
(1)針對(duì)人體動(dòng)作數(shù)據(jù)集選擇視頻對(duì)應(yīng)的空間方向和光流對(duì)應(yīng)的動(dòng)作方向兩個(gè)流向來(lái)進(jìn)行信息處理;
(2)在動(dòng)作方向首先獲取人體運(yùn)動(dòng)光流圖:輸入人體運(yùn)動(dòng)數(shù)據(jù)集中視頻,對(duì)其利用稠密光流tv-l1進(jìn)行處理,獲取人體運(yùn)動(dòng)數(shù)據(jù)集中視頻的光流圖,對(duì)兩個(gè)方向分別進(jìn)行卷積特征圖獲取、局部特征累積編碼、降維白化處理、vlad向量處理;
(3)調(diào)整視頻和光流圖大?。簩?duì)從空間方向的人體運(yùn)動(dòng)數(shù)據(jù)集中獲取視頻的每幀圖像和從動(dòng)作方向得到的光流圖分別進(jìn)行調(diào)整,調(diào)整單幀圖像到大小為224×224像素,為卷積神經(jīng)網(wǎng)絡(luò)輸入做準(zhǔn)備。
(4)獲取空間方向視頻和動(dòng)作方向光流圖的卷積特征圖:
(4a)卷積神經(jīng)網(wǎng)絡(luò)cnn有11層,這11層依次是卷積層conv1,池化層pool1,卷積層conv2,池化層pool2,卷積層conv3,卷積層conv4,卷積層conv5,池化層pool5,全連接層fc6,全連接層fc7,分類(lèi)層softmax;
(4b)在空間方向獲取視頻圖像卷積特征圖:將空間方向已調(diào)整大小的人體運(yùn)動(dòng)數(shù)據(jù)集中每個(gè)視頻的所有幀圖像輸入卷積神經(jīng)網(wǎng)絡(luò)cnn,視頻是由多幀圖像鏈接而成的,圖像從卷積神經(jīng)網(wǎng)絡(luò)cnn輸入層經(jīng)過(guò)逐級(jí)的變換,傳送到卷積神經(jīng)網(wǎng)絡(luò)cnn輸出層,每一張圖像從池化層pool5獲取512張6×6像素大小的特征圖;
(4c)在動(dòng)作方向獲取光流圖卷積特征圖:將動(dòng)作方向已調(diào)整大小的光流圖輸入卷積神經(jīng)網(wǎng)絡(luò)cnn,光流圖從卷積神經(jīng)網(wǎng)絡(luò)cnn輸入層經(jīng)過(guò)逐級(jí)的變換,傳送到卷積神經(jīng)網(wǎng)絡(luò)cnn輸出層,每一張光流圖從池化層pool5獲取512張6×6像素大小的特征圖;
(5)獲取局部特征累積描述子:對(duì)空間方向獲取的卷積特征和動(dòng)作方向獲取的卷積特征均利用局部特征累積編碼方式進(jìn)行編碼分別得到空間方向的局部特征累積描述子和動(dòng)作方向的局部特征累積描述子;
(6)降維白化處理:將空間方向的局部特征累積描述子和動(dòng)作方向的局部特征累積描述子分別輸入主成分分析pca中進(jìn)行降維白化處理;
(7)在空間方向和動(dòng)作方向分別獲取局部特征聚合描述符vlad向量:
(7a)降維白化后的局部特征累積描述子通過(guò)k均值k-means聚類(lèi),學(xué)習(xí)得到k個(gè)聚類(lèi)中心(c1,...,cj,...,ck),j∈[1,k];
(7b)空間方向的每個(gè)視頻和動(dòng)作方向的光流分別獲取局部特征聚合描述符vlad向量并分別對(duì)獲取的vlad向量進(jìn)行l(wèi)2歸一化;
(8)合并兩個(gè)方向信息得到人體動(dòng)作分類(lèi)數(shù)據(jù):將空間方向視頻獲取的vlad向量和動(dòng)作方向?qū)?yīng)光流獲取的vlad向量進(jìn)行合并,得到人體動(dòng)作分類(lèi)數(shù)據(jù);
(9)利用支持向量機(jī)分類(lèi)器分類(lèi)處理人體動(dòng)作分類(lèi)數(shù)據(jù);
(9a)將人體動(dòng)作分類(lèi)數(shù)據(jù)分成兩部分,分別作為訓(xùn)練樣本和測(cè)試樣本;
(9b)用訓(xùn)練樣本訓(xùn)練支持向量機(jī)分類(lèi)器得到分類(lèi)模型;
(9c)用分類(lèi)模型對(duì)測(cè)試樣本進(jìn)行人體動(dòng)作分類(lèi),獲得所輸入的人體動(dòng)作的識(shí)別結(jié)果。
本發(fā)明中采用稠密光流tv-l1的方法獲取人體動(dòng)作的光流圖,相比稀疏光流本發(fā)明采用的稠密光流方法計(jì)算更精準(zhǔn)。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)獲取人體動(dòng)作的卷積特征圖,卷積神經(jīng)網(wǎng)絡(luò)自學(xué)習(xí)的特征對(duì)環(huán)境變化具有更高的魯棒性。對(duì)獲取的人體動(dòng)作的卷積特征圖利用局部特征累積編碼對(duì)人體動(dòng)作視頻和光流的卷積特征圖進(jìn)行編碼,本發(fā)明的局部特征累積編碼方式計(jì)算簡(jiǎn)單而且增加了特征數(shù)目提高識(shí)別效果。對(duì)獲取的局部特征累積描述子利用主成分分析pca進(jìn)行降維白化處理,降低局部特征累積描述子的維數(shù)減少特征之間的冗余,使本發(fā)明計(jì)算更簡(jiǎn)單并且可以提高識(shí)別率。對(duì)將維白化后的局部特征累積描述子利用k均值k-means聚類(lèi)獲取k個(gè)聚類(lèi)中心,每段視頻和對(duì)應(yīng)光流分別用vlad向量表示,合并視頻獲取的vlad向量和光流獲取的vlad向量獲取人體動(dòng)作視頻分類(lèi)數(shù)據(jù),合并視頻和光流的vlad向量將形狀信息和動(dòng)作信息合并,提高了人體動(dòng)作的識(shí)別精度而且提高了算法的魯棒性。
實(shí)施例2
基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法同實(shí)施例1,本發(fā)明步驟(5)中對(duì)空間方向視頻的卷積特征和動(dòng)作方向光流圖的卷積特征分別進(jìn)行局部特征累積編碼獲取局部特征累積描述子,包括如下步驟:
(5a)在空間方向?qū)θ梭w動(dòng)作視頻圖像中每張圖像獲取的512張6×6像素大小卷積特征圖中相同位置的像素值進(jìn)行累積疊加,可得到36個(gè)512維的局部特征累積描述子,一段視頻的局部特征累積描述子可表示為n×(36×512),其中n表示視頻的幀數(shù);
(5b)在動(dòng)作方向?qū)γ繌埞饬鲌D獲取的512張6×6像素大小卷積特征圖,通過(guò)(5a)中的局部特征累積編碼方法,得到36個(gè)512維的局部特征累積描述子,一段光流視頻的局部特征累積描述子可表示為a×(36×512),其中a表示光流視頻的幀數(shù)
本發(fā)明中的編碼方式對(duì)于視頻數(shù)據(jù)量少,硬件條件有限,時(shí)間復(fù)雜度高,識(shí)別精度低等問(wèn)題有較好的改善。一張圖像得到一個(gè)卷積特征圖而本發(fā)明中一張卷積特征圖可以獲取36個(gè)局部特征累積描述子增加了特征個(gè)數(shù),相比于同樣層數(shù)的卷積神經(jīng)網(wǎng)絡(luò)cnn本發(fā)明精度有明顯提高,相對(duì)于現(xiàn)有的精度相似的方法本發(fā)明訓(xùn)練速度更快,硬件要求更低。
實(shí)施例3
基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法同實(shí)施例1-2,本發(fā)明步驟(6)中利用主成分分析pca分別對(duì)空間方向和動(dòng)作方向的局部特征累積描述子進(jìn)行降維白化處理,按如下步驟進(jìn)行:
(6a)在空間方向利用主成分分析pca對(duì)局部特征累積描述子進(jìn)行降維白化處理;
(6a1)從編碼后的局部特征累積描述子中隨機(jī)抽取10000個(gè)局部特征累積描述子,表示為{x1,...,xi,...,xm},作為pca處理的輸入數(shù)據(jù),其中i∈[1,m],m為局部特征累積描述子個(gè)數(shù);
(6a2)按照下式,分別計(jì)算每個(gè)局部特征累積描述子的均值
其中,xi表示第i個(gè)局部特征累積描述子;
(6a3)用每個(gè)局部特征累積描述子減去均值,得到去均值化的局部特征累積描述子;
(6a4)計(jì)算局部特征累積描述子的奇異矩陣:
其中,u表示局部特征累積描述子左奇異向量組成的矩陣,s表示局部特征累積描述子的奇異值元素組成的對(duì)角矩陣,v表示局部特征累積描述子的右奇異向量組成的矩陣,svd(·)表示奇異值分解函數(shù),x′i表示第i張去均值化的局部特征累積描述子;
(6a5)按照下式,對(duì)去均值化局部特征累積描述子進(jìn)行降維處理:
利用局部特征累積描述子左奇異向量組成的矩陣u可以將局部特征累積描述子進(jìn)行降維,將局部特征累積描述子降維到d維表示如下:
y=ud×x′i
其中,y表示降維后的局部特征累積描述子,ud表示u的前d列;
(6a6)降維后的局部特征累積描述子y利用下式進(jìn)行白化處理:
其中,t表示白化后的局部特征累積描述子。
(6b)在動(dòng)作方向方向利用主成分分析pa對(duì)局部特征累積描述子進(jìn)行降維白化處理,具體計(jì)算步驟同(6a);
本發(fā)明中經(jīng)過(guò)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),在人體動(dòng)作識(shí)別精度相似的條件下,局部特征累積描述子的維數(shù)越低越好,維數(shù)越低計(jì)算越簡(jiǎn)單,本發(fā)明在保證識(shí)別精度的條件下將局部特征累積描述子降維到256的維數(shù)是最合適的,進(jìn)行白化處理可以降低特征之間的關(guān)聯(lián)性提高人體動(dòng)作識(shí)別的精度。
實(shí)施例4
基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法同實(shí)施例1-3,步驟(8)中合并兩個(gè)方向信息得到人體動(dòng)作分類(lèi)數(shù)據(jù),
按如下式進(jìn)行:
用vf表示視頻獲取的vlad向量,va表示對(duì)應(yīng)光流視頻獲取的vlad向量,合并后的vlad向量為fa:
fa=[vftvat]t
本發(fā)明中合并視頻獲取的vlad向量與對(duì)應(yīng)光流視頻獲取的vlad向量是將視頻信息和光流信息進(jìn)行融合,相對(duì)于單獨(dú)的只有視頻幀的圖像信息和單獨(dú)的光流中的動(dòng)作信息,融合這兩種信息可以使獲取的向量特征更穩(wěn)定,提高了人體動(dòng)作的識(shí)別精度和算法的魯棒性。
下面,從某些發(fā)明步驟更詳細(xì)的角度對(duì)本發(fā)明實(shí)現(xiàn)技術(shù)方案說(shuō)明如下:
實(shí)施例5
基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法同實(shí)施例1-4
本例中從整體的角度對(duì)本發(fā)明人體動(dòng)作識(shí)別方法再做說(shuō)明,參見(jiàn)圖1,通過(guò)以下步驟實(shí)現(xiàn)基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別:
1)圖1中左側(cè)為本發(fā)明視頻對(duì)應(yīng)的空間方向信息處理過(guò)程,右側(cè)為光流對(duì)應(yīng)的動(dòng)作方向信息處理過(guò)程。在光流方向首先獲取人體動(dòng)作光流圖,對(duì)人體動(dòng)作數(shù)據(jù)集ucf101中視頻利用稠密光流tv-l1進(jìn)行處理得到光流圖。本發(fā)明所用的稠密光流tv-l1相對(duì)于稀疏光流效果更好,特征信息更多。
2)將人體動(dòng)作數(shù)據(jù)集ucf101中視頻和光流圖調(diào)整為像素大小為224×224。
3)獲取空間方向和動(dòng)作方向的人體動(dòng)作識(shí)別卷積特征圖;
3a)卷積神經(jīng)網(wǎng)絡(luò)cnn有11層,這11層依次是卷積層conv1,池化層pool1,卷積層conv2,池化層pool2,卷積層conv3,卷積層conv4,卷積層conv5,池化層pool5,全連接層fc6,全連接層fc7,分類(lèi)層softmax。
3b)在圖1中左側(cè)空間方向,將已調(diào)整大小的人體動(dòng)作數(shù)據(jù)集中的視頻輸入卷積神經(jīng)網(wǎng)絡(luò)cnn,視頻是由多幀圖像鏈接而成的,圖像從卷積神經(jīng)網(wǎng)絡(luò)cnn輸入層經(jīng)過(guò)逐級(jí)的變換,傳送到卷積神經(jīng)網(wǎng)絡(luò)cnn輸出層,每一張圖像從池化層pool5獲取512張6×6像素大小的特征圖用于后續(xù)編碼。
3c)在圖1中右側(cè)動(dòng)作方向,將已調(diào)整大小的光流圖輸入卷積神經(jīng)網(wǎng)絡(luò)cnn,光流圖從卷積神經(jīng)網(wǎng)絡(luò)cnn輸入層經(jīng)過(guò)逐級(jí)的變換,傳送到卷積神經(jīng)網(wǎng)絡(luò)cnn輸出層,每一張光流圖從池化層pool5獲取512張6×6像素大小的特征圖用于后續(xù)編碼。
4)對(duì)空間方向和動(dòng)作方向的人體動(dòng)作識(shí)別卷積特征圖分別進(jìn)行局部特征累積編碼獲取相應(yīng)的局部特征累積描述子。
5)分別利用主成分分析pca對(duì)空間方向和動(dòng)作方向的局部特征累積描述子進(jìn)行降維白化處理。
6)降維白化后的局部特征累積描述子通過(guò)k均值k-means聚類(lèi),學(xué)習(xí)得到k個(gè)聚類(lèi)中心(c1,...,cj,...,ck),j∈[1,k]。本發(fā)明中經(jīng)過(guò)實(shí)驗(yàn)數(shù)據(jù)對(duì)比發(fā)現(xiàn)將聚類(lèi)中心個(gè)數(shù)k與計(jì)算復(fù)雜度相關(guān),本發(fā)明給出聚類(lèi)中心個(gè)數(shù)k的最佳值,k定為256最為合適,聚類(lèi)中心個(gè)數(shù)高于256人體動(dòng)作識(shí)別精度沒(méi)有明顯提高而且時(shí)間計(jì)算復(fù)雜度有明顯提高,聚類(lèi)中心個(gè)數(shù)低于256人體動(dòng)作識(shí)別精度明顯降低。
7)對(duì)每個(gè)視頻和光流獲取局部特征聚合描述符vlad向量并對(duì)獲取的vlad向量進(jìn)行l(wèi)2歸一化。
8)對(duì)圖1中左側(cè)空間方向視頻獲取的vlad向量和對(duì)應(yīng)圖1右側(cè)動(dòng)作方向光流獲取的vlad向量進(jìn)行合并形成最終的人體動(dòng)作視頻分類(lèi)數(shù)據(jù)。
9)利用支持向量機(jī)分類(lèi)器分類(lèi)處理人體動(dòng)作視頻分類(lèi)數(shù)據(jù);
9a)將人體動(dòng)作視頻分類(lèi)數(shù)據(jù)分成兩部分,分別作為訓(xùn)練樣本和測(cè)試樣本;
9b)用訓(xùn)練樣本訓(xùn)練支持向量機(jī)分類(lèi)器得到分類(lèi)模型;
9c)用分類(lèi)模型對(duì)測(cè)試樣本進(jìn)行分類(lèi),獲得所輸入的人體運(yùn)動(dòng)的識(shí)別結(jié)果。
本發(fā)明的方法對(duì)動(dòng)作種類(lèi)多,背景復(fù)雜的人體動(dòng)作數(shù)據(jù)有很好的識(shí)別效果,本算法計(jì)算更簡(jiǎn)單,需要的硬件設(shè)備低,相對(duì)于現(xiàn)有算法的計(jì)算復(fù)雜,特征維數(shù)高等問(wèn)題,本發(fā)明的方法在現(xiàn)實(shí)應(yīng)用中有更好的效果。
下面給出一個(gè)更加詳實(shí)的例子,結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步描述:
實(shí)施例6
基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法同實(shí)施例1-5,
參照?qǐng)D1,本發(fā)明的實(shí)現(xiàn)包括有如下步驟:
步驟1,對(duì)人體運(yùn)動(dòng)數(shù)據(jù)集利用稠密光流tv-l1進(jìn)行處理得到光流圖,如圖2,圖2中左側(cè)一列為人體動(dòng)作視頻序列,右側(cè)第一列flow_x為光流的水平分量光流圖,水平分量光流圖為視頻中相同兩幀圖像之間的位移分量的水平分量,flow_y第二列為光流的垂直分量光流圖,垂直分量光流圖為視頻中相同兩幀圖像之間的位移分量的垂直分量。圖2中右側(cè)的光流圖中,用顏色的深淺來(lái)表示位移量的大小,向前移動(dòng)的位移越大亮度越大,向后移動(dòng)的位移越大就越暗。
本發(fā)明采用的稠密光流tv-l1的目標(biāo)函數(shù)表示如下:
其中t(x,y)為參考圖像,i(x,y)為當(dāng)前圖像,也是待配準(zhǔn)圖像,u,v是圖像上每一點(diǎn)的偏移量,λ權(quán)重因子。
步驟2,鑒于卷積神經(jīng)網(wǎng)絡(luò)輸入圖像為固定大小,分別對(duì)空間方向和動(dòng)作方向的人體動(dòng)作數(shù)據(jù)集中視頻的每幀圖像和光流圖進(jìn)行調(diào)整,調(diào)整視頻和光流的單幀圖像到大小為224×224像素,為卷積神經(jīng)網(wǎng)絡(luò)輸入做準(zhǔn)備。
步驟3,獲取空間方向和動(dòng)作方向的人體動(dòng)作識(shí)別卷積特征圖;
(3a)卷積神經(jīng)網(wǎng)絡(luò)cnn有11層,這11層依次是卷積層conv1,池化層pool1,卷積層conv2,池化層pool2,卷積層conv3,卷積層conv4,卷積層conv5,池化層pool5,全連接層fc6,全連接層fc7,分類(lèi)層softmax。
(3b)獲取圖1中左側(cè)空間方向的視頻圖像卷積特征圖:將已調(diào)整大小的人體動(dòng)作數(shù)據(jù)集中的視頻輸入卷及神經(jīng)網(wǎng)絡(luò)cnn,視頻是由多幀圖像鏈接而成的,圖像從卷積神經(jīng)網(wǎng)絡(luò)cnn輸入層經(jīng)過(guò)逐級(jí)的變換,傳送到卷積神經(jīng)網(wǎng)絡(luò)cnn輸出層,每一張圖像從池化層pool5獲取512張6×6像素大小的特征圖。
(3b1)將224×224像素大小的待檢測(cè)視頻中每一幀圖像輸入卷積層conv1,對(duì)其進(jìn)行塊大小為7×7像素和步長(zhǎng)為2個(gè)像素的卷積操作,總共用96個(gè)卷積核,得到96張109×109像素大小的特征圖。
(3b2)將卷積層conv1輸出的96張?zhí)卣鲌D輸入到池化層pool1,對(duì)其進(jìn)行最大池化操作,池化塊的大小為3×3像素,步長(zhǎng)為2個(gè)像素,得到96張分辨率為54×54像素的特征圖。
(3b3)將池化層pool1輸出的96張?zhí)卣鲌D輸入卷積層conv2,對(duì)其進(jìn)行塊大小為5×5像素和步長(zhǎng)為2個(gè)像素的卷積操作,總共用256個(gè)卷積核,得到256張分辨率為26×26像素的特征圖。
(3b4)將卷積層conv2輸出的256張?zhí)卣鲌D輸入到池化層pool2,對(duì)其進(jìn)行最大池化操作,池化塊的大小為3×3像素,步長(zhǎng)為2個(gè)像素,得到256張分辨率為13×13像素的特征圖。
(3b5)將池化層pool2輸出的256張?zhí)卣鲌D輸入卷積層conv3,對(duì)其進(jìn)行塊大小為3×3像素和步長(zhǎng)為1個(gè)像素的卷積操作,總共用512個(gè)卷積核,得到512張分辨率為13×13像素的特征圖。
(3b6)將卷積層conv3輸出的512張?zhí)卣鲌D輸入卷積層conv4,對(duì)其進(jìn)行塊大小為3×3像素和步長(zhǎng)為1個(gè)像素的卷積操作,總共用512個(gè)卷積核,得到512張分辨率為13×13像素的特征圖。
(3b7)將卷積層conv4輸出的512張?zhí)卣鲌D輸入卷積層conv5,對(duì)其進(jìn)行塊大小為3×3像素和步長(zhǎng)為1個(gè)像素的卷積操作,總共用512個(gè)卷積核,得到512張分辨率為13×13像素的特征圖。
(3b8)將卷積層conv5輸出的512張?zhí)卣鲌D輸入池化層pool5,對(duì)其進(jìn)行塊大小為3×3像素和步長(zhǎng)為2個(gè)像素的卷積操作,總共用512個(gè)卷積核,得到512張分辨率為6×6像素的特征圖,此處512張分辨率為6×6像素的特征圖就是要求的卷積特征圖。
(3c)獲取圖1中右側(cè)動(dòng)作方向的光流圖卷積特征圖:將已調(diào)整大小的光流圖輸入卷及神經(jīng)網(wǎng)絡(luò)cnn,光流圖從卷積神經(jīng)網(wǎng)絡(luò)cnn輸入層經(jīng)過(guò)逐級(jí)的變換,傳送到卷積神經(jīng)網(wǎng)絡(luò)cnn輸出層,每一張光流圖從池化層pool5獲取512張6×6像素大小的特征圖,獲得卷積特征圖的詳細(xì)步驟與步驟(3b)獲取圖1中左側(cè)空間方向的視頻圖像卷積特征圖相同。
步驟4,對(duì)空間方向和動(dòng)作方向的人體動(dòng)作識(shí)別卷積特征圖分別進(jìn)行局部特征累積編碼獲取相應(yīng)的局部特征累積描述子;
(4a)對(duì)圖1中左側(cè)空間方向的視頻中每幀圖像獲取的512張6×6像素大小卷積特征圖中相同位置的像素值進(jìn)行累積疊加,可得到36個(gè)512維的局部特征累積描述子,一段視頻的局部特征累積描述子可表示為n×(36×512),其中n表示視頻的幀數(shù)。
(4b)對(duì)圖1中右側(cè)動(dòng)作方向的每張光流圖獲取的512張6×6像素大小卷積特征圖,通過(guò)(4a)中的編碼方法,同樣可得到36個(gè)512維的局部特征累積描述子,一段光流視頻的局部特征累積描述子可表示為a×(36×512),其中a表示光流視頻的幀數(shù)。
步驟5,圖1將局部特征累積描述子輸入主成分分析pca中進(jìn)行降維白化處理;
(5a)從編碼后的局部特征累積描述子中隨機(jī)抽取10000個(gè)局部特征累積描述子,表示為{x1,...,xi,...,xm},作為主成分分析pca處理的輸入數(shù)據(jù),其中i∈[1,m],m為局部特征累積描述子個(gè)數(shù)。
(5b)按照下式,分別計(jì)算每個(gè)局部特征累積描述子的均值:
其中,
(5c)用每個(gè)局部特征累積描述子減去均值,得到去均值化的局部特征累積描述子。
(5d)計(jì)算局部特征累積描述子的奇異矩陣:
其中,u表示局部特征累積描述子左奇異向量組成的矩陣,s表示局部特征累積描述子的奇異值元素組成的對(duì)角矩陣,v表示局部特征累積描述子的右奇異向量組成的矩陣,svd(·)表示奇異值分解函數(shù),m表示局部特征累積描述子的個(gè)數(shù),x′i表示第i張去均值化的局部特征累積描述子,i∈[1,m]。
(5e)按照下式,對(duì)去均值化局部特征累積描述子進(jìn)行降維處理:
利用局部特征累積描述子左奇異向量組成的矩陣u可以將局部特征累積描述子進(jìn)行降維,將局部特征累積描述子降維到d維表示如下:
y=ud×x′i(5-3)
其中,y表示降維后的局部特征累積描述子,ud表示u的前d列。
(5f)降維后的局部特征累積描述子y利用下式進(jìn)行白化處理:
其中,t表示白化后的局部特征累積描述子。
步驟6,圖1中對(duì)降維白化后的局部特征累積描述子通過(guò)k均值k-means聚類(lèi),學(xué)習(xí)得到k個(gè)聚類(lèi)中心(c1,...,cj,...,ck),j∈[1,k];
(6a)利用步驟(5a)中隨機(jī)抽取10000個(gè)局部特征累積描述子{x1,...,xi,...,xm},來(lái)進(jìn)行k均值k-means聚類(lèi)。
(6b)選擇k個(gè)點(diǎn)最為初始中心點(diǎn),表示為c1,...,cl,...,ck,其中l(wèi)∈[1,k],k為聚類(lèi)中心個(gè)數(shù)。
(6c)對(duì)每個(gè)局部特征累積描述子xi,分別于c1,...,ci,...,ck比較,然后將xi劃分到最近的中心點(diǎn)中。
(6d)計(jì)算每個(gè)聚類(lèi)的平均值,并作為新的中心點(diǎn)。
(6e)重復(fù)(6c)(6d)直到每個(gè)聚類(lèi)不發(fā)生變化,獲得最終的聚類(lèi)中心。
步驟7,獲取圖1中左側(cè)空間方向的視頻和右側(cè)動(dòng)作方向光流的局部特征聚合描述符vlad向量:每個(gè)視頻和對(duì)應(yīng)光流可以表示成一個(gè)vlad向量,將降維白化后的局部特征累積描述子和聚類(lèi)的中心cj的差的累積和vj,將所有的向量vj連接形成該視頻的vlad向量,其中vj的計(jì)算公式如下;
其中ti為視頻降維白化后的特征描述子,cj為(6)中得到的聚類(lèi)中心,nn(ti)是離ti最近的聚類(lèi)中心。
步驟8,對(duì)圖1中左側(cè)空間方向視頻獲取的vlad向量和對(duì)應(yīng)圖1右側(cè)動(dòng)作方向光流獲取的vlad向量進(jìn)行合并形成最終的人體動(dòng)作視頻分類(lèi)數(shù)據(jù);
用vf表示視頻獲取的vlad向量,va表示對(duì)應(yīng)光流視頻獲取的vlad向量,合并后的vlad向量為fa:
fa=[vftvat]t(8-1)
步驟9,利用支持向量機(jī)分類(lèi)器分類(lèi)處理人體動(dòng)作視頻分類(lèi)數(shù)據(jù);
9a)將人體動(dòng)作視頻分類(lèi)數(shù)據(jù)分成兩部分,分別作為訓(xùn)練樣本和測(cè)試樣本;
9b)用訓(xùn)練樣本訓(xùn)練支持向量機(jī)分類(lèi)器得到分類(lèi)模型;
9c)用分類(lèi)模型對(duì)測(cè)試樣本進(jìn)行分類(lèi),獲得所輸入的人體動(dòng)作的識(shí)別結(jié)果。
下面結(jié)合仿真實(shí)驗(yàn)對(duì)本發(fā)明的效果再做詳細(xì)描述。
實(shí)施例7
基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法同實(shí)施例1
仿真實(shí)驗(yàn)條件:
實(shí)驗(yàn)數(shù)據(jù):實(shí)驗(yàn)中采用人體動(dòng)作數(shù)據(jù)庫(kù)ucf101,實(shí)驗(yàn)數(shù)據(jù)庫(kù)包括101種已經(jīng)分類(lèi)好的人體動(dòng)作,共13320個(gè)視頻,每個(gè)動(dòng)作包含25個(gè)不同場(chǎng)景,實(shí)驗(yàn)樣本圖像背景復(fù)雜,相同場(chǎng)景,視角不同、動(dòng)作存在差異;不同場(chǎng)景,光照影像不同。
實(shí)驗(yàn)中采用的深度學(xué)習(xí)框架是基于ubuntu14.04操作系統(tǒng),intelcore2duocpue6550@2.33ghz、2gbram的運(yùn)行環(huán)境。
實(shí)驗(yàn)內(nèi)容與結(jié)果:
本發(fā)明首先對(duì)人體動(dòng)作數(shù)據(jù)集ucf101中的視頻進(jìn)行tv-l1光流處理得到光流圖,視頻是由多幀圖像鏈接而成的,然后將視頻中每一幀圖像和光流圖調(diào)整為像素大小為224×224。將視頻中每幀圖像和光流圖分別通過(guò)卷積神經(jīng)網(wǎng)絡(luò)cnn獲取池化層pool5層512張6×6像素大小的特征圖。對(duì)每張?zhí)卣鲌D相同位置的像素值進(jìn)行累積,得到36×512的局部特征累積描述子,然后利用主成分分析pca對(duì)局部特征累積描述子進(jìn)行降維白化處理。降維白化后局部特征累積描述子通過(guò)k均值k-means聚類(lèi),每個(gè)視頻和對(duì)應(yīng)光流分別用局部特征聚合描述符vlad向量表示,將視頻獲取的vlad向量和對(duì)應(yīng)光流獲取的vlad向量合并形成人體動(dòng)作分類(lèi)數(shù)據(jù)。人體動(dòng)作分類(lèi)數(shù)據(jù)分成兩部分,分別作為訓(xùn)練樣本和測(cè)試樣本,用訓(xùn)練樣本訓(xùn)練線(xiàn)性支持向量機(jī)分類(lèi)器得到分類(lèi)模型,用分類(lèi)模型對(duì)測(cè)試樣本進(jìn)行分類(lèi)。
圖3是本發(fā)明分類(lèi)結(jié)果的混淆矩陣示意圖,實(shí)驗(yàn)采用了大量的人體動(dòng)的視頻數(shù)據(jù),人體動(dòng)作種類(lèi)繁多,背景復(fù)雜,實(shí)驗(yàn)的結(jié)果表明,即使在人體動(dòng)作種類(lèi)繁多,光照不同,動(dòng)作之間具有很大的相似性的情況下,本發(fā)明也能獲得很高的人體動(dòng)作識(shí)別準(zhǔn)確率。圖3的最終分類(lèi)結(jié)果混淆矩陣顯示,圖3中對(duì)角矩陣為每類(lèi)人體動(dòng)作的識(shí)別精度,由圖3的結(jié)果圖中可以看出,本發(fā)明對(duì)大量的人體動(dòng)作都具有很高的識(shí)別精度。本發(fā)明對(duì)于人體動(dòng)作識(shí)別的分類(lèi)結(jié)果可達(dá)到92%,為了清晰的顯示人體動(dòng)作的識(shí)別效果,本發(fā)明中用圖4的局部數(shù)據(jù)分類(lèi)結(jié)果的混淆矩陣顯示。
實(shí)施例8
基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法同實(shí)施例1-6,仿真條件和實(shí)驗(yàn)內(nèi)容同實(shí)施例8,
參見(jiàn)圖4,給出了一個(gè)局部人體動(dòng)作識(shí)別的結(jié)果顯示,圖4中對(duì)角矩陣為每類(lèi)人體動(dòng)作的識(shí)別精度比率,矩陣中除了對(duì)角矩陣以外的值為動(dòng)作之間的錯(cuò)分的比率。圖4中可以看出本發(fā)明對(duì)大多數(shù)人體動(dòng)作的有很高的識(shí)別精度,圖中識(shí)別精度最低的為打高爾夫(golfswing),本動(dòng)作識(shí)別效果低的原因?yàn)榇藙?dòng)作動(dòng)作幅度小,只有局部動(dòng)作。敲擊(drumming)有16%錯(cuò)分為打高爾夫(golfswing),因?yàn)榍脫糁泻芏嘁曨l都是用手動(dòng)作,和打高爾夫的動(dòng)作相似很難辨別。圖4大部分動(dòng)作的識(shí)別精度都在96%以上,甚至有一部分動(dòng)作的識(shí)別精度達(dá)到100%??傊谔幚韽?fù)雜視頻,種類(lèi)繁多,光照不同,動(dòng)作之間具有很大的相似性的視頻時(shí),本發(fā)明的人體動(dòng)作識(shí)別的精度很高。
本發(fā)明主要解決現(xiàn)有技術(shù)的計(jì)算復(fù)雜、時(shí)間復(fù)雜度高、實(shí)時(shí)性差、識(shí)別率不高、容易受到環(huán)境條件的影響等問(wèn)題。其實(shí)現(xiàn)方案是:首先獲取人體動(dòng)作光流圖;分別從視頻的空間方向和光流的動(dòng)作方向依次進(jìn)行以下步驟1)、2)、3)和4),獲取獲取空間方向的vlad向量和動(dòng)作方向的vlad向量vlad向量;1)獲取卷積特征圖;2)對(duì)卷積特征圖進(jìn)行局部特征累積編碼獲取局部特征累積描述子;3)對(duì)局部特征累積描述子進(jìn)行降維白化處理;4)k均值聚類(lèi)并獲取局部特征聚合描述符vlad向量;合并視頻空間和光流動(dòng)作兩個(gè)方向信息獲取人體動(dòng)作分類(lèi)數(shù)據(jù);分類(lèi)處理人體動(dòng)作分類(lèi)數(shù)據(jù)。本發(fā)明對(duì)卷積特征進(jìn)行局部特征累積編碼,使得本發(fā)明在處理復(fù)雜背景數(shù)據(jù)時(shí)提高了識(shí)別率并且減少了計(jì)算量,而且將視頻和光流的vlad向量進(jìn)行融合獲取的特征對(duì)環(huán)境變化具有更高的魯棒性,可用于小區(qū)、酒店、商場(chǎng)以及保密場(chǎng)所等區(qū)域?qū)ΡO(jiān)控視頻中的人體動(dòng)作進(jìn)行檢測(cè)識(shí)別。
簡(jiǎn)而言之,本發(fā)明提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)特征編碼的人體動(dòng)作識(shí)別方法,主要解決現(xiàn)有技術(shù)計(jì)算復(fù)雜、準(zhǔn)確率低的問(wèn)題。實(shí)現(xiàn)方案是:利用tv-l1得到視頻的光流圖;分別從視頻的空間方向和光流的動(dòng)作方向依次進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)、局部特征累積編碼、降維白化處理、vlad向量處理,獲取空間方向的vlad向量和動(dòng)作方向的vlad向量vlad向量;合并視頻空間和光流動(dòng)作兩個(gè)方向信息得到人體動(dòng)作分類(lèi)數(shù)據(jù),然后進(jìn)行分類(lèi)處理。本發(fā)明對(duì)卷積特征進(jìn)行局部特征累積編碼,使得本發(fā)明在處理復(fù)雜背景數(shù)據(jù)時(shí)提高了識(shí)別率并減少了計(jì)算量,融合視頻和光流的vlad向量獲取的特征對(duì)環(huán)境變化具有更高的魯棒性,可用于小區(qū)、酒店、商場(chǎng)以及保密場(chǎng)所等區(qū)域?qū)ΡO(jiān)控視頻中的人體動(dòng)作進(jìn)行檢測(cè)識(shí)別。