本發(fā)明屬于視頻處理技術領域,更進一步涉及一種行為識別方法,可用于智能視頻監(jiān)控和人機交互。
背景技術:
在之前數十年中,人體行為識別及其相關研究領域向來被認為是計算機視覺學科中非常具有挑戰(zhàn)性的科研方向。人體行為識別通過算法設計讓計算機學習、分析、理解并識記人體行為,實現計算機對人體行為視頻的分類判別。人體行為識別相關技術被廣泛使用,如:攝像監(jiān)控、多媒體語義標注與索引、行人跟蹤和人機互動等,越來越多的學者和機構在相關方面相繼進行了大量的研究工作。行為分類的本質就是對運動圖像進行分析,其最根本的任務就是從序列中獲取運動信息,從而分析出運動規(guī)律,行為識別目標產生的運動信息復雜多樣,如何將這些底層特征有效的提取出來并分析其中的相關性,是行為識別方向上備受關注的研究課題。
小波變換因其優(yōu)秀的時頻特性,在圖像和視頻特征提取上獲得了廣泛的應用,此外小波變換的多尺度分析能力,也是充分挖掘數據信息有力保證。目前基于小波變換的行為識別有:
(1).minhasr,baradarania,seifzadehs,etal.humanactionrecognitionusingnon-separableoriented3ddual-treecomplexwavelets[j].computervision–accv2009,2010:226-235。這種方法將三維雙樹復小波變換用于行為的識別和分類。該方法在對視頻數據進行小波分解前,將視頻進行分割使其只包含運動目標的小三維立方體,以降低背景的干擾,復數的引入使得其所提特征能攜帶相頻特性,以便提供更多的位置信息,且該方法對平移更穩(wěn)定。相對于三維基本小波分解可以得到八個方向子帶,該方法可獲得32個方向子帶,特征能提供的方向和其他運動信息也更加豐富。但是這種方法計算復雜度明顯提高,且對視頻分割準確度要求非常高,對復雜背景、遮擋等干擾較敏感。
(2).shaol,gaor.awaveletbasedlocaldescriptorforhumanactionrecognition[c]//bmvc.2010:1-10。這種方法將二維小波變換與興趣點檢測方法相結合用于人體行為識別。該方法先提取時空興趣點,然后在興趣點周圍的立方體中進行二維小波分解,可以獲得具備鑒別性和可靠性的描述子,特征維度低,對噪聲、光照等影響具有一定的容許性,但該方法在進行小波分解時只選取局部立方體內的三個代表平面,對數據的覆蓋范圍不足,且使用興趣點提取方法屬于直接將二維分析擴展至三維,忽略了時域結構和空域結構的區(qū)別,所獲取空時信息不充分。此外該方法特征構造時僅將小波系數串聯(lián),未考慮系數方向、系數間關系等特性。
技術實現要素:
本發(fā)明的目的在于針對上述已有技術的不足,提出一種基于小波域聯(lián)合統(tǒng)計描述子的行為識別方法,以有效利用小波系數間的依賴關系,對視頻時空關系進行更充分的描述,進一步提高人體行為識別準確率。
實現本發(fā)明的主要方案是:首先提取運動視頻稠密軌跡并在軌跡周圍構建局部立方體;對視頻數據進行3d平穩(wěn)小波變換,將視頻中包含信息轉換到小波域,然后在軌跡周圍局部立方體內分別構建小波系數子帶間互信息和小波系數共現直方圖兩個聯(lián)合統(tǒng)計描述子,用于定量和定性的表示小波系數間的依賴關系;然后對串聯(lián)后的上述兩個特征描述子使用詞袋模型進行編碼,形成行為視頻直方圖表示;最后使用svm分類器實現行為的分類識別。
實現步驟包括如下:
(1)對行為視頻序列進行稠密采樣,并提取稠密運動軌跡;
(2)以提取的各條軌跡為中心,構建沿軌跡彎曲的立方體;
(3)使用3d平穩(wěn)小波變換對視頻數據進行分解,獲得各方向的系數子帶;
(4)在沿軌跡彎曲的立方體內,構建小波系數子帶間互信息描述子dm:
(4a)計算具有父-子或表兄弟關系的系數子帶間互信息:
其中,x表示沿軌跡彎曲的立方體中父子帶系數或表兄子帶系數,y表示沿軌跡彎曲的立方體中子子帶系數或表弟子帶系數,mi(x;y)為軌跡立方體中具有父-子或表兄弟關系的兩個子帶間的互信息;hij表示兩個系數子帶聯(lián)合統(tǒng)計直方圖中(i,j)單元的值,hi=∑jhij表示父子帶或表兄子帶的邊緣統(tǒng)計直方圖,hj=∑ihij表示子子帶或表弟子帶的邊緣統(tǒng)計直方圖,n表示沿軌跡彎曲的立方體中像素點的總數目;
(4b)將所有滿足父-子或表兄弟關系的系數子帶間互信息進行串連,獲得小波系數子帶間互信息描述子dm;
(5)在沿軌跡彎曲的立方體內,構建近似系數子帶與細節(jié)系子帶對間小波系數共現直方圖描述子dc:
(5a)在一個鄰域方向上,聯(lián)合統(tǒng)計一個近似子帶和細節(jié)子帶對的累加共現直方圖,并歸一化,得到兩個歸一化累加共現直方圖hn1和hn2,利用最小二乘法分別獲取hn1和hn2通道最高點的兩條回歸線方程:y1=k1x1+b1和y2=k2x2+b2,其中,x為系數所屬直方圖通道值,y為值小于等于x的所有系數的數目,k為直線斜率,b為一個常數;記兩直線與y=0直線交點間的距離為d1,與y=1直線交點間的距離為d2;
(5b)從兩條直線上選取[k1,k2,b1,b2,d1,d2]作為一個鄰域方向共現直方圖的特征描述向量v,將所有選定鄰域方向的特征描述向量vt串連,得到一個子帶對的描述向量v=[v1,v2,...,vt,...,vp],t=1,2,...,p,p為所選方向數目;再將所有選定子帶對的描述向量串連,獲得小波系數共現直方圖描述子dc=[v1,v2,...,vs,...,vq],其中,vs為第s個子帶對的描述向量,s=1,2,...,q,q為所選系數對數目;
(6)將小波系數子帶間互信息描述子dm和小波系數共現直方圖描述子dc進行串接,得到小波域聯(lián)合統(tǒng)計描述子du;
(7)將所有視頻樣本的小波域聯(lián)合統(tǒng)計描述子劃分為訓練集dtr和測試集dte,使用詞袋模型獲到訓練集dtr的直方圖向量htr和測試集dte的直方圖向量hte;
(8)使用訓練集的直方圖向量htr訓練svm分類器,將測試集的直方圖向量hte輸入到訓練好的svm中,輸出測試集dte對應的測試樣本所屬的行為類別。
本發(fā)明與現有技術相比具有以下優(yōu)點:
1)本發(fā)明在三維空間中對小波系數進行聯(lián)合統(tǒng)計,充分挖掘小波系數間的依賴關系,并分別進行定量和定性的描述,相對于現有小波域特征如能量、對比度、不變矩等特征,能夠更有效地獲取視頻中的時空信息。
2)本發(fā)明中小波域描述子是在以軌跡為中心的立方體中實現的,相對于現有的基于時空興趣點或全局表示的方法,能夠更有效提取視頻數據中的空時結構信息,且可以降低背景等干擾對統(tǒng)計結果的影響。
附圖說明
圖1是本發(fā)明的實現流程圖。
具體實施方式
參照圖1,本發(fā)明的基于小波域聯(lián)合統(tǒng)計描述子的行為識別方法,步驟如下:
步驟1,對行為視頻進行稠密采樣,提取視頻序列的稠密軌跡。
常見的軌跡提取方法有基于klt(kanade-lucas-tomasi)的軌跡追蹤、基于sift(scaleinvariantfeaturetransform)描述子匹配的軌跡追蹤和基于稠密光流的軌跡追蹤。本發(fā)明采用wang等人于2011年在文章“actionrecognitionbydensetrajectories”中提出的基于稠密光流的軌跡追蹤方法,提取行為視頻的運動軌跡,其步驟如下:
(1.1)依次在八個尺度空間使用密集網格對視頻進行稠密采樣,每兩個尺度空間之間的縮放因子為
(1.2)計算采樣后視頻的稠密光流,依據采樣點的稠密光流對相鄰幀的稠密采樣點進行跟蹤匹配,形成運動軌跡。
步驟2,以步驟1中提取的運動軌跡為中心,構建的沿軌跡彎曲的立方體。
在每條軌跡周圍構建的一個一個大小均為w×h×l的立方體,其中w和h分別為立方體一個時間點橫截面的長和寬,l為運動軌跡的長度。
步驟3,對視頻數據進行3d平穩(wěn)小波變換分解。
3d平穩(wěn)小波變換相對于3d離散小波變換,在對視頻的分解過程中,不進行降采樣操作,這樣可保證算法的平移穩(wěn)定性,同時3d平穩(wěn)小波變換將視頻分解為與原數據大小相同的子帶,便于對不同子帶間進行聯(lián)合分析和處理,其分解步驟如下:
(3.1)將數據集中的視頻樣本進行由彩色數據轉換為灰度數據的預處理,以降低計算復雜度;
(3.2)將預處理后的視頻數據分解為大小與原始數據相同的le個近似系數子帶llll和7×le個七個不同方向的細節(jié)系數子帶hlll、lhll、llhl、hhll、hlhl、lhhl、hhhl,其中,l為小波分解級數,l=1,2,...,le,le為分解總級數,lll表示其包含三個維度的近似信息,hll表示其包含第一個維度的細節(jié)信息,第二和第三個維度的近似信息,其他方向子帶以此類推。
步驟4,在沿軌跡彎曲的立方體內,構建小波系數子帶間互信息描述子。
平穩(wěn)小波變換分解所得各子帶內系數存在一定的依賴關系,具有較大量級的系數,在不同尺度和不同方向的子帶中,趨于出現在空間的相同位置。
將位于不同尺度相同方向的小波系數子帶間定義為父-子關系,將位于相同尺度不同方向的小波系數子帶間定義為表兄弟關系。
為了定量的衡量具有父-子或表兄弟關系的系數子帶間的依賴關系,需要構建子帶間互信息描述子,其步驟如下:
(4.1)計算具有父-子或表兄弟關系的系數子帶間互信息:
其中,x表示沿軌跡彎曲的立方體中父子帶系數或表兄子帶系數,y表示沿軌跡彎曲的立方體中子子帶系數或表弟子帶系數,mi(x;y)為軌跡立方體中具有父-子或表兄弟關系的兩個子帶間的互信息;hij表示兩個系數子帶聯(lián)合統(tǒng)計直方圖中(i,j)單元的值,hi=∑jhij表示父子帶或表兄子帶的邊緣統(tǒng)計直方圖,hj=∑ihij表示子子帶或表弟子帶的邊緣統(tǒng)計直方圖,n表示沿軌跡彎曲的立方體中像素點的總數目;
(4.2)計算平穩(wěn)小波分解獲得的子帶中,滿足上述關系的所有子帶對之間的互信息,并將其串連獲得小波系數子帶間互信息描述子dm,表示為:
dm=[mi1,mi2,...,mif,...,miz],
其中,mif表示第f對具有父-子或表兄弟關系的系數子帶間的互信息,f=1,2,...,z,z為具有父-子或表兄弟關系的系數子帶對數目。
步驟5,在沿軌跡彎曲的立方體內,構建各級平穩(wěn)小波變換近似系數子帶與細節(jié)系子帶間共現直方圖描述子:
(5.1)將步驟(3.2)中獲得的近似子帶和細節(jié)子帶組成q個子帶對:(llll,hlll)、(llll,lhll)、(llll,llhl)、(llll,hhll)、(llll,hlhl)、(llll,lhhl)和(llll,hhhl),用于定性地分析各方向的細節(jié)子帶與同一尺度的近似子帶間的依賴關系。
(5.2)以子帶對(llll,hlll)為例,定義第一直方圖h1和第二直方圖h2為聯(lián)合統(tǒng)計子帶對(llll,hlll)所使用的兩個共現直方圖,且第一直方圖h1和第二直方圖h2中的各通道頻數均初始化為零;
(5.3)將近似子帶llll中,位于沿軌跡彎曲的立方體內的任一點對應的系數a選為目標系數,通過比較min(a,dt)與min(d,at)的大小,計算在a→at,d→dt鄰域方向上,a所屬第一直方圖h1的通道的頻數h1(ch)和第二直方圖h2的通道的頻數h2(ch):
若min(a,dt)≥min(d,at),則:
若min(a,dt)<min(d,at),則:
其中,at表示與目標系數a距離為1的三維鄰域內的一個系數,d為a在細節(jié)子帶hlll中對應位置的系數,dt為at在細節(jié)子帶hlll中對應位置的系數,ch為系數a所屬的直方圖通道;
(5.4)計算沿軌跡彎曲的立方體中,所有的點對應系數ag所屬直方圖通道的頻數h1(chg)和h2(chg),得到在a→at,d→dt鄰域方向,子帶對的共現直方圖h1和共現直方圖h2:
其中g=1,2,...,u,u為直方圖的通道總數目;
(5.5)計算第一共現直方圖h1對應的第一累加共現直方圖ha1和第二共現直方圖h2對應的第二累加共現直方圖ha2:
(5.6)分別對第一累加共現直方圖ha1和第二累加共現直方圖ha2進行歸一化,得到第一歸一化累加共現直方圖hn1和第二歸一化累加共現直方圖hn2;
(5.7)用最小二乘法分別求出兩個歸一化累加直方圖hn1和hn2,每個通道最高點對應的兩個直線方程:y1=k1x1+b1,y2=k2x2+b2,其中,x為系數所屬直方圖通道值,y為值小于等于x的所有系數的數目,k為直線斜率,b為一個常數,記兩直線與y=0直線交點間的距離為d1,與y=1直線交點間的距離為d2;
(5.8)從兩條直線上選取[k1,k2,b1,b2,d1,d2]作為a→at,d→dt鄰域方向共現直方圖的特征描述向量v,將所有選定鄰域方向的特征描述向量vt串連,得到一對子帶的描述向量v=[v1,v2,...,vt,...,vp],t=1,2,...,p,p為所選方向數目;
(5.9)將所有選定子帶對的描述向量串連,獲得小波系數共現直方圖描述子dc=[v1,v2,...,vs,...,vq],其中vs為第s個子帶對的描述向量,s=1,2,...,q,q為所選系數對數目。
步驟6,根據小波系數子帶間互信息描述子dm和小波系數共現直方圖描述子dc,得到小波域聯(lián)合統(tǒng)計描述子du。
將小波系數子帶間互信息描述子dm=[mi1,mi2,...,mif,...,miz]和小波系數共現直方圖描述子dc=[v1,v2,...,vs,...,vq]進行串接,得到小波域聯(lián)合統(tǒng)計描述子du=[mi1,mi2,...,mif,...,miz,v1,v2,...,vs,...,vq]。
步驟7,對小波域聯(lián)合統(tǒng)計描述子構建詞袋模型,獲取視頻的表示,并訓練svm分類器。
(7.1)根據不同人體數據集常用劃分比例,將所有視頻樣本對應的小波域聯(lián)合統(tǒng)計描述子劃分為訓練集dtr和測試集dte;以人體行為數據庫kth為例,每類行為有25個視頻樣本,將其中16個樣本對應的小波域聯(lián)合統(tǒng)計描述子作為訓練集,剩余9個樣本對應的小波域聯(lián)合統(tǒng)計描述子作為測試集。
(7.2)對訓練集dtr采用k-means聚類方法生成詞典dide×ce,通過詞典dide×ce,將訓練集dtr和測試集dte進行量化編碼,得到訓練集dtr的直方圖向量htr和測試集dte的直方圖向量hte,其中de表示特征維數,ce表示聚類中心數;
步驟8,使用訓練集的直方圖向量htr訓練svm分類器,將測試集的直方圖向量hte輸入到訓練好的svm中,輸出測試集dte對應的測試樣本所屬的行為類別。
為驗證本發(fā)明的有效性,在常用的人體行為數據庫kth和ucf-sports上,利用本發(fā)明進行行為的識別;
識別的結果為:在數據庫kth上的正確識別率為97.17%,在數據庫ucf-sports上的正確識別率為96.00%。