基于局部時空特征描述與金字塔詞匯樹的視頻行為識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于局部時空特征描述和金字塔詞匯樹的視頻行為識別方法。
【背景技術(shù)】
[0002] 隨著計算機視覺領(lǐng)域的研究不斷深入、信號和圖像處理技術(shù)的不斷更新和發(fā)展, 行為識別日益成為一項具有挑戰(zhàn)性的研究內(nèi)容。行為識別是機器視覺的一項基礎(chǔ)工作,也 是許多視頻挖掘應(yīng)用的關(guān)鍵技術(shù)?;谝曨l的人體行為識別課題的主要研究內(nèi)容是對采集 到的視頻中的運動人體進(jìn)行行為檢測,并對行為作特征提取和描述,構(gòu)造有效的人體行為 識別模型來自動分析視頻數(shù)據(jù),理解視頻中運動人體的行為內(nèi)容,以正確識別視頻中的人 體行為類別,并不斷提高行為識別精度。
[0003] 綜觀國內(nèi)外人體行為識別領(lǐng)域的相關(guān)研究,人體行為識別出現(xiàn)了兩大研究方向: 基于全局特征的人體行為識別和基于局部特征的人體行為識別。
[0004] 基于全局特征的人體行為識別將整個運動人體作為檢測和識別的對象。首先,采 用背景差法、軌跡追蹤或其他方法定位視頻中的運動人體,提取包含運動人體在內(nèi)的興趣 區(qū)域。然后,計算興趣區(qū)域中運動人體的輪廓、姿態(tài)、軌跡等信息,生成人體行為的全局特 征。最后,利用得到的人體行為全局特征進(jìn)行訓(xùn)練和建模,實現(xiàn)對視頻中運動人體行為的分 類與識別?;谌痔卣鞯娜梭w行為識別得到的行為特征包含了豐富的信息,有很強的行 為識別能力。
[0005] 基于局部特征的人體行為識別將運動人體看作由若干個身體支部構(gòu)成的集合,對 運動人體身上發(fā)生顯著變化的局部區(qū)域(如手肘、膝蓋、腿、腳等)進(jìn)行檢測和識別。首先,定 位視頻數(shù)據(jù)中在空間維度和時間維度上都發(fā)生明顯變化的關(guān)鍵像素點。然后,提取這些關(guān) 鍵像素點附近的視頻信息,計算得到人體行為的局部特征。最后,對獲得的人體行為局部特 征進(jìn)行學(xué)習(xí)、訓(xùn)練,構(gòu)造分類模型,實現(xiàn)人體行為的分類與識別。
[0006] 盡管視頻中的人體行為識別課題已經(jīng)成為機器視覺研究領(lǐng)域的一大熱點,眾多國 內(nèi)外學(xué)者對人體行為識別已展開了多方面的深入研究,各種行之有效的人體行為識別模型 及其改進(jìn)也被不斷提出,但是,面臨各種真實環(huán)境的復(fù)雜性、現(xiàn)實場景的多樣性以及運動人 體的差異性,識別視頻中的人體行為仍極具挑戰(zhàn)。例如,復(fù)雜背景中的人體行為識別、多人 交互情況下的人體行為識別、多種動作連續(xù)發(fā)生的人體行為識別等復(fù)雜條件下的人體行為 識別的正確率都有待進(jìn)一步提高。這種多樣化的、更為復(fù)雜的人體行為識別場景正是將來 人體行為識別應(yīng)用領(lǐng)域的發(fā)展趨勢,具有長遠(yuǎn)的、典型的現(xiàn)實意義。
[0007] 利用傳統(tǒng)LBP(Local Binary Patterns)算法對視頻紋理進(jìn)行描述的方法只考慮 了鄰點與閾值之間的關(guān)系并沒有考慮鄰點和鄰點之間的關(guān)系。LBP在被擴展到三維后即 LBP-T0P算法同樣繼承了它的缺點,而且由于三維時空特性,LBP-T0P算法對時域和空域進(jìn) 行相同編碼忽略了時域和空域特征的差異性。而傳統(tǒng)詞袋模型忽略了視覺單詞的時序特 性,也忽略了視覺單詞之間的關(guān)系。
【發(fā)明內(nèi)容】
[0008] 針對LBP-T0P算法忽略了鄰點之間的關(guān)系而丟失了鄰域結(jié)構(gòu)信息的問題,以及忽 略了時空特征在時域和空域上變化所具有差異性的問題,本發(fā)明提出了一種基于局部時空 特征描述與金字塔詞匯樹的視頻行為識別方法,該方法對時空興趣點所形成的時空立方體 切片的時域和空域采取不同的時空紋理描述策略。
[0009] 為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0010] 基于局部時空特征描述與金字塔詞匯樹的視頻行為識別方法,包括以下步驟:
[0011] 步驟1特征的提?。?br>[0012] 步驟1.1首先將視頻數(shù)據(jù)集轉(zhuǎn)換成大小為圖像高度*圖像寬度*視頻幀數(shù)的矩陣數(shù) 據(jù);
[0013] 步驟1.2設(shè)置局部時空立方體特征提取方法的相關(guān)參數(shù):空間尺度〇、時間尺度τ、 響應(yīng)閾值R-thresh以及時空興趣點個數(shù);
[0014] 步驟1.3通過計算視頻數(shù)據(jù)中的每一個像素點響應(yīng)值R,如果計算得到的像素點的 響應(yīng)值R>R-thresh,則提取并保存該像素點的(X,y,t)坐標(biāo)及響應(yīng)值R;
[0015] 步驟1.4將提取出來的像素點根據(jù)其響應(yīng)值R的大小進(jìn)行降序排列,選取前η個像 素點作為時空興趣點;
[0016] 步驟1.5在找到響應(yīng)值比較高的興趣點后,就以興趣點為中心生成時空子區(qū)域,用 時空子區(qū)域中的信息對行為特征進(jìn)行描述;
[0017] 步驟2特征的描述:
[0018] 步驟2.1首先使用Avg-LBP算法將鄰域的均值代替中心點像素灰度值作為閾值中 心實現(xiàn)對時空紋理的描述,Avg-LBP算法的計算公式為:
[0019]
[0020]
[0021 ] P為鄰域像素數(shù),gP為鄰域中的P鄰點的灰度值為P個鄰點的像素均值; * /.-(1
[0022]步驟2.2在時域和空域使用dLBP描述子對8鄰域的方向信息進(jìn)行描述,描述了鄰域 之間的變化率和變化方向,計算公式為:
[0023]
[0024] 其中,P'=P/2,gc為鄰域中心像素點的灰度值,gP,和g P是沿中心點方向上中心點 兩側(cè)P'鄰點和P鄰點的灰度值;
[0025]步驟2.3利用TLBP描述子描述鄰域像素之間的關(guān)系,其在每一行中比較了行中像 素的關(guān)系,按行順序的將像素灰度值進(jìn)行比較并進(jìn)行模式統(tǒng)計,計算公式為:
[0026]
尸
[0027] 步驟3構(gòu)造模型,進(jìn)行識別:
[0028] 步驟3.1基于等多視覺詞匯森林的金字塔匹配核構(gòu)造算法先將人體行為表示成 SMVVF的直方圖向量:令X為某段視頻的時空興趣點集合,< 為第m個VVF第1層的直方圖向 量,假設(shè)用…表示第m個視覺詞匯森林直方圖向量, ?F21~是第1層的權(quán)重,則多重視覺詞匯森林直方圖向量2Hx,...,mHx),M為多重 視覺詞匯森林中詞匯森林的個數(shù);
[0029] 步驟3.2然后將直方圖向量轉(zhuǎn)換為PMK核特征;
[0030] 步驟3.3將PMK核特征用于SVM分類,實現(xiàn)對視頻行為的識別。
[0031] 所述步驟1.4中時空興趣點的提取方法是通過線性可分的濾波器對視頻序列進(jìn)行 處理來實現(xiàn):空域上使用二維Gaussian濾波對圖像進(jìn)行加權(quán)平滑處理,目的是為了降噪;在 時域上,使用一維Gabor濾波器捕捉像素在時序上的紋理變化;通過一個響應(yīng)函數(shù)來判斷每 一個像素的響應(yīng)值,響應(yīng)值高的就可以作為興趣點,響應(yīng)函數(shù)如下:
[0032] R=(I*g*hev)2+(I*g*h〇d)2
[0033] 公式中I為視頻圖像,g = g (X,y,σ)為空間維度的2維平滑高斯核函數(shù),hgv和h〇d為 時域中正交的一維Gabor濾波器,分別定義為:
[0034]
[0035]
[0036] 而參數(shù)〇和1,對應(yīng)為高斯濾波的空間尺度和Gabor濾波的時間尺度。
[0037]所述步驟2的具體過程為:在時空立方體上,以時空興趣點為中心在xy、xt、yt三個 正交平面上等距離取三個切片圖像,對每一幅切片圖像使用Avg-LBP算法進(jìn)行描述,將描述 結(jié)果進(jìn)行串聯(lián),形成Avg-LBP聯(lián)合直方圖,對立方體每一幅切片圖像使用dLBP算法進(jìn)行描 述,將切描述結(jié)果進(jìn)行串聯(lián),形成dLBP聯(lián)合直方圖;接著對立方體中的xt和yt切片圖像使用 TLBP算法進(jìn)行描述并進(jìn)行串聯(lián),形成TLBP聯(lián)合直方圖;最后將切片圖像的Avg-LBP直方圖、 dLBP直方圖和TLBP直方圖進(jìn)行串聯(lián),得到聯(lián)合直方圖形成DT-LBPT0P特征。
[0038]本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點為:(1)特征描述方法采用DT-LBPT0P算法,解 決了鄰域之間變化率以及變化方向的問題。(2)另對時域采取針對性的時空紋理描述策略, 對時域鄰域像素使用TLBP(Local Binary Pattern)描述子進(jìn)行描述,反映紋理在時序上的 變化特性。(3)分類模型提出使用多重等規(guī)模子集視覺詞匯森林,用金字塔匹配核快速計算 高維無序特征間的的相似度,建立了 一種新型分類模型。
【附圖說明】
[0039] 圖1為人體行為識別模型的一般性框架;
[0040] 圖2為本發(fā)明DT-LBPT0P算法向量組成示意圖;
[0041] 圖3為dLBP編碼的四個基本方向;
[0042] 圖4為dLBP的編碼規(guī)則;
[0043] 圖5為TLBP算法描述示意圖。
【具體實施方式】
[0044] 本實施例以公開的人體運動視頻數(shù)據(jù)集KTH數(shù)據(jù)集進(jìn)行行為識別。
[0045] 首先對數(shù)據(jù)集進(jìn)行特征提取,包括以下步驟:
[0046] 將行為個數(shù)設(shè)置為對應(yīng)的六種行為(walk),慢跑(jog),跑(run),揮手(hand wave)和鼓掌(hand clap),每個視頻提取的興趣點數(shù)設(shè)置為200。將立方體局部時空特征提 取方法的相關(guān)參數(shù)設(shè)置為:空間尺度〇 = 2.4、時間尺度τ = 1.6、響應(yīng)閾值R-threSh = 2eT4。設(shè) 置立方體 LBP 描述子參數(shù) iscuboid = 1,P = 1,R = 8,ExtFLAG = 1,GradFLAG = 1。
[0047] 通過轉(zhuǎn)換程序?qū)⒃曨l數(shù)據(jù)轉(zhuǎn)換成大小為圖像高度*圖像寬度*視頻幀數(shù)的矩陣 數(shù)據(jù)。
[0048] 通過特征提取程序計算視頻數(shù)據(jù)中的每一個像素點響應(yīng)值R,如果計算得到的像 素點的響應(yīng)值R>R-thresh,就提取并保存該像素點的(X,y,t)坐標(biāo)及響應(yīng)值R。
[0049]將提取出來的像素點根據(jù)其響應(yīng)值R的大小進(jìn)行降序排列,選取前ncuboids個像 素點作為時空興趣點。
[0050]在找到響應(yīng)值比較高的興趣點后,就以興趣點為中心生成時空子區(qū)域。
[0051 ] 特征提取之后對特征進(jìn)行特征描述,包括以下步驟:
[0052] 在時空立方體以后,以時空興趣點為中心在Xy、Xt、yt三個正交平面上等距離取三 個切片圖像,對每一幅切片圖像使用Avg-LBP算法進(jìn)行描述,將描述結(jié)果進(jìn)行串聯(lián),形成 Avg-LBP聯(lián)合直方圖,對立方體每一幅切片圖像使用dLBP算法進(jìn)行描述,將切描述結(jié)果進(jìn)行 串聯(lián),形成dLBP聯(lián)合直方圖;接著對立方體中的xt和y t切片圖像使用TLBP算法進(jìn)行描述并 進(jìn)行串聯(lián),形成TLBP聯(lián)合直方圖;最后將切片圖像的Avg-LBP直方圖、dLBP直方圖和TLBP直 方圖進(jìn)行串聯(lián),得到聯(lián)合直方圖形成DT-LBPT0P特征。
[0053] LBP(Local Binary Patterns)紋理特征算法具有旋轉(zhuǎn)不變性和灰度不變性。其最 初的定義為:在3 X 3的窗口中,把窗口的中心像素灰度值作為閾值,將其鄰域的8個相鄰像 素點的灰度值與其進(jìn)行比較,如果鄰點像素灰度值大于中心像素灰度值,則標(biāo)記該像素點 為1,否則為0。這樣,將3*3鄰域的標(biāo)記結(jié)果串聯(lián)起來就得到了一個8比特的無符號數(shù),即得 到了該窗口的LBP值,將該無符號數(shù)轉(zhuǎn)換為十進(jìn)制數(shù)就得到了該中心像素點的LBP模式值。 LBP算法擴展到三維空間并將其稱之為LBP_T0P(LBP three orthogonal planes),原理是 在時空立方體中以興趣點為中心,取XY、XT、YT三個正交平面面作為視頻切片分別計算LBP 編碼,從而得到三個切片的描述直方圖,然后將三個直方圖進(jìn)行串聯(lián),