基于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方法
【專利摘要】本發(fā)明公開了基于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方法,包括步驟1:對(duì)攝像頭采集的視頻中的交互行為進(jìn)行運(yùn)動(dòng)檢測(cè)與分割;步驟2:對(duì)視頻中左右動(dòng)作執(zhí)行人分別進(jìn)行分區(qū)域HOG特征提取;步驟3:利用步驟2中提取的HOG特征,采用K?means算法構(gòu)建視覺(jué)單詞,生成視覺(jué)詞袋,并對(duì)視覺(jué)詞袋中的單詞進(jìn)行編碼;利用相似度量函數(shù),對(duì)區(qū)域特征進(jìn)行視覺(jué)單詞編碼;統(tǒng)計(jì)時(shí)間維度中交互個(gè)體之間的視覺(jué)共生關(guān)系,得到視覺(jué)共生矩陣序列來(lái)表示視頻中的異常雙人交互行為;步驟4:HMM算法的訓(xùn)練與識(shí)別。本發(fā)明提出的算法過(guò)程的方法簡(jiǎn)單、高效,識(shí)別準(zhǔn)確率較高;針對(duì)識(shí)別智能監(jiān)控系統(tǒng)中異常的雙人交互行為,具有較好的識(shí)別性能。
【專利說(shuō)明】
基于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于計(jì)算機(jī)視覺(jué)領(lǐng)域,具體設(shè)及基于視覺(jué)共生矩陣序列的異常雙人交互行 為識(shí)別方法。
【背景技術(shù)】
[0002] 在大數(shù)據(jù)時(shí)代的背景下,計(jì)算機(jī)視覺(jué)領(lǐng)域備受關(guān)注,其中人體異常交互行為識(shí)別 算法研究已成為熱點(diǎn)問(wèn)題,擁有交互行為識(shí)別能力的計(jì)算機(jī)能夠代替人高效且準(zhǔn)確地完成 繁瑣而重要的工作;因此,異常交互行為的識(shí)別算法研究具有較高的實(shí)用價(jià)值,其成果在識(shí) 別智能監(jiān)控系統(tǒng)中異常的雙人交互行為,有著廣泛的應(yīng)用前景。
[0003] 目前異常雙人交互行為識(shí)別方法大體有兩種框架,一種是基于整體的交互動(dòng)作識(shí) 別與理解的框架,該框架處理簡(jiǎn)單且無(wú)需分割個(gè)體,但往往無(wú)法準(zhǔn)確表述交互動(dòng)作的內(nèi)在 屬性,需要依靠十分復(fù)雜的特征表示及匹配方法來(lái)保證識(shí)別的準(zhǔn)確性;交互動(dòng)作通常是由 動(dòng)作執(zhí)行個(gè)體的具體時(shí)間順序的多個(gè)子動(dòng)作在高層次的結(jié)合而成的;另外一種基于個(gè)體分 割的交互動(dòng)作識(shí)別與理解的框架,正是將交互動(dòng)作分解為單個(gè)人的子動(dòng)作并結(jié)合考慮人與 人之間的運(yùn)動(dòng)關(guān)系進(jìn)行交互行為的識(shí)別與理解,該框架下得到的交互信息較為豐富,因此 得到了大量研究者的重視,目前基于個(gè)體分割的識(shí)別方法主要可分為=類:
[0004] (1)基于語(yǔ)義描述的識(shí)別方法:此類方法側(cè)重于利用語(yǔ)義對(duì)個(gè)體姿態(tài)、原子動(dòng)作或 整個(gè)交互行為的表述;文獻(xiàn)[1]等提出了基于上下文無(wú)關(guān)文法的表示方法,利用已定義的語(yǔ) 法規(guī)則實(shí)現(xiàn)交互行為的識(shí)別與理解;文獻(xiàn)[2]提出交互短語(yǔ)來(lái)描述執(zhí)行人間的運(yùn)動(dòng)關(guān)系,并 訓(xùn)練基于SVM的識(shí)別模型對(duì)交互動(dòng)作進(jìn)行識(shí)別;然而該類方法往往需要預(yù)先定義所有可能 的產(chǎn)生式規(guī)則,工作繁瑣;詳見:[l]Ry〇〇 M.S.,Agga;rwal J.K..Reco 即 ition of composite human activities through context-free grammar based representation [C].Proc. IEEE Computer Society Conf.Computer Vision and Pattern Recognition, NY,USAa,2006:1709-1719.[2]Kong Y.,Jia Y.,Fu Y.. Interactive phrases:semantic descriptions for human interaction recognition!! J] . IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(9):1775-1788。
[0005] (2)基于概率圖模型的識(shí)別方法:此類方法通常利用概率圖模型對(duì)個(gè)體動(dòng)作和雙 人交互動(dòng)作進(jìn)行分層建模與識(shí)別;文獻(xiàn)[3-4]提出了一種基于整體光流特征和身體部分局 部特征描述的禪合隱條件隨機(jī)場(chǎng)模型,該模型通過(guò)分層建模身體各部分及單人動(dòng)作間的運(yùn) 動(dòng)關(guān)系實(shí)現(xiàn)交互行為的識(shí)別與理解;該方法將復(fù)雜的交互動(dòng)作看成多個(gè)身體部分子動(dòng)作及 單人動(dòng)作的級(jí)聯(lián),可W較好的建模復(fù)雜的交互動(dòng)作,但是太過(guò)于依賴身體各部分區(qū)域的準(zhǔn) 確檢測(cè);詳見:[3]DongZ.,KongY.,LiuC,LiH.,JiaY..Reco即izinghuman interaction by multiple features[C].Proc. Ist Asian Conf. Pattern ReCOgnition.Beijing,China,2011:77-81.[4]Kong Y.,Liang W.,Dong Z. ,Jia Y..Recognizing human interaction from videos by a discriminative model[J] .Institution of Engineering and Technology Computer Vision,2014,8(4):277-286。
[0006] (3)基于共生原子動(dòng)作的匹配識(shí)別方法:此類方法對(duì)來(lái)自不同個(gè)體的成對(duì)出現(xiàn)的 共生原子動(dòng)作進(jìn)行模板表示,然后采用模板匹配的方法進(jìn)行識(shí)別;文獻(xiàn)[5]將視頻序列用一 系列具有一致空間結(jié)構(gòu)和一致運(yùn)動(dòng)的組件表示,通過(guò)對(duì)比運(yùn)些成對(duì)組件的時(shí)空關(guān)系對(duì)雙人 交互行為進(jìn)行識(shí)別;文獻(xiàn)[6]提出了一種基于共生視覺(jué)詞典的方法,該方法提取3D-SIFT特 征,并通過(guò)統(tǒng)計(jì)動(dòng)作執(zhí)行人間共生視覺(jué)詞的發(fā)生頻率對(duì)雙人交互行為進(jìn)行表示和識(shí)別;該 類方法原理簡(jiǎn)單,容易實(shí)現(xiàn),但算法通常計(jì)算量大,特征表述能力不強(qiáng),分類器的性能有待 提高,運(yùn)也導(dǎo)致目前此類方法的準(zhǔn)確性不高;詳見:[5]Yuan F. ,Prinet V. ,Yuan J..Middle-Level representation for human activities recognition:the role of spatio-temporal relationships[C].Proc . IIth European Conf.Computer Vision, Heraklion,Greece,2010:168-180.[6]Slimani K.,Benezeth Y.,Souami F..Human interaction recognition based on the co-occurrence of visual words[C] .Proc.IEEE Conf.Computer Vision and Pattern Recognition Workshops .Columbus, Ohio,USA,2014:461-466。
【發(fā)明內(nèi)容】
[0007] 為解決上述異常雙人交互識(shí)別研究中存在的識(shí)別率較低、計(jì)算復(fù)雜度較高的技術(shù) 問(wèn)題,本發(fā)明有效結(jié)合了基于共生原子動(dòng)作描述及概率圖模型識(shí)別方法的優(yōu)勢(shì),設(shè)計(jì)了基 于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方法。
[0008] 本發(fā)明采用的技術(shù)方案為:基于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方 法,包括W下幾個(gè)步驟:
[0009] 步驟1:對(duì)攝像頭采集的視頻中的交互行為進(jìn)行運(yùn)動(dòng)檢測(cè)與分割;
[0010] 步驟2:對(duì)視頻中左右動(dòng)作執(zhí)行人分別進(jìn)行分區(qū)域冊(cè)G特征提?。?br>[0011] 步驟3:利用步驟2中提取的HOG特征,采用K-means聚類算法構(gòu)建視覺(jué)單詞,生成視 覺(jué)詞袋,并對(duì)視覺(jué)詞袋中的單詞進(jìn)行編碼;利用相似度量函數(shù),對(duì)區(qū)域特征進(jìn)行視覺(jué)單詞編 碼;統(tǒng)計(jì)時(shí)間維度中交互個(gè)體之間的視覺(jué)共生關(guān)系,得到視覺(jué)共生矩陣序列來(lái)表示視頻中 的異常雙人交互行為;
[0012] 步驟4:利用HMM算法,對(duì)各類異常雙人交互行為進(jìn)行訓(xùn)練,利用訓(xùn)練好的不同交互 行為模型,對(duì)實(shí)際輸入視頻進(jìn)行異常雙人交互行為識(shí)別。
[0013] 作為一種優(yōu)選的技術(shù)方案,所述的步驟1具體包括:
[0014] 步驟1.1:拍攝視頻:啟動(dòng)攝像頭,錄制雙人交互視頻,收集不同動(dòng)作執(zhí)行人的各類 交互動(dòng)作視頻,作為交互動(dòng)作的訓(xùn)練視頻,并對(duì)各類訓(xùn)練視頻進(jìn)行交互行為含義標(biāo)記,建立 視頻訓(xùn)練集;利用攝像頭捕捉需要進(jìn)行測(cè)試的視頻流,進(jìn)而形成視頻測(cè)試集;
[0015] 步驟1.2:檢測(cè)與分割:對(duì)拍攝的視頻進(jìn)行運(yùn)動(dòng)檢測(cè)處理,利用ViBe算法進(jìn)行動(dòng)態(tài) 背景建模,建模后視頻背景置為黑色,交互的前景區(qū)域?yàn)椴噬?,完成運(yùn)動(dòng)檢測(cè),并且利用人 體的輪廓信息W及體屯、距離,將交互的左右動(dòng)作執(zhí)行人實(shí)現(xiàn)運(yùn)動(dòng)分割,得到兩個(gè)彼此分開 的個(gè)體;最后,將視頻進(jìn)行灰度化處理,便于后續(xù)特征提取。
[0016] 作為一種優(yōu)選的技術(shù)方案,所述的步驟2具體包括:
[0017] 步驟2.1:提取序列圖像的梯度幅值與梯度方向,如公式(1)所示:
[001引
(I)
[0019] 其中Gx為圖像中像素點(diǎn)(x,y)處的水平方向梯度,Gy是垂直方向梯度,其像素點(diǎn)(X, y)處的梯度幅值G(x,y)和梯度方向口片,>〇分別為公式(2)和公式(3)所示:
[0020] (2)
[0021] ㈱
[0022] 步驟2.2:將整帖圖像分成CXr個(gè)塊區(qū)域,然后計(jì)算各區(qū)域中像素點(diǎn)的梯度大小對(duì) 其不同方向區(qū)域,方向個(gè)數(shù)為q,貢獻(xiàn)不同的權(quán)重,累加權(quán)重到所有的梯度方向上,最終得到 特征向量。
[0023] 作為一種優(yōu)選的技術(shù)方案,所述的步驟3具體包括:
[0024] 步驟3.1:采用K-means算法構(gòu)建視覺(jué)單詞,生成視覺(jué)詞袋:
[0025] ①分別提取視頻訓(xùn)練集中左右動(dòng)作執(zhí)行人的分區(qū)域HOG特征向量seti,共同生成 一個(gè)特征向量集沈T,SET= {seti,set2,'''setm};其中m為特征向量的總數(shù),且i = l,2,m [00%]②對(duì)SET進(jìn)行K-means算法操作,生成具有代表性的視覺(jué)單詞wp,組成詞袋W,W = {wi,W2,…,Wn},其中n為視覺(jué)單詞個(gè)數(shù),且P = I,2,. . .n;
[0027]③利用哈希技術(shù)將W中的視覺(jué)單詞Wp單一映射到h = f(wp),實(shí)現(xiàn)對(duì)視覺(jué)詞袋中單詞 的量化編碼,量化編碼的取值范圍為1~N,且he {1,2,-'N},哈希函數(shù)如公式(4)所示:
[002引
(4)
[0029] 其中,WjGW;
[0030] 步驟3.2:完成對(duì)左右動(dòng)作執(zhí)行人分區(qū)域特征的視覺(jué)單詞編碼:
[0031] ①對(duì)視頻中每帖圖片左右執(zhí)行人的局部區(qū)域HOG特征向量seti,采用相似度量函 數(shù),將seti與W= Iwi,W2,…,Wn}中的視覺(jué)單詞進(jìn)行相似性比較,得到與之最相似的視覺(jué)單 詞;
[0032] ②將分塊的視頻帖左右動(dòng)作執(zhí)行人局部區(qū)域的seti,分別標(biāo)記為該視覺(jué)單詞經(jīng)過(guò) 哈希函數(shù)得到的量化編碼,從而完成視頻區(qū)域特征的視覺(jué)單詞編碼;
[0033] 步驟3.3:將視頻描述為對(duì)應(yīng)的視覺(jué)共生矩陣序列:
[0034] ①W視頻帖圖像為單位建立一個(gè)NXN的視覺(jué)共生矩陣,用來(lái)統(tǒng)計(jì)每帖中左右執(zhí)行 人之間視覺(jué)單詞共生的頻數(shù)。例如:左邊執(zhí)行人的視覺(jué)單詞編碼hi與右邊執(zhí)行人的視覺(jué)單 詞編碼hj共同出現(xiàn)的頻數(shù)為k,則在視覺(jué)共生矩陣對(duì)應(yīng)化i,hj)的位置處記為k。最終得到一 個(gè)表示視頻帖圖片中左右執(zhí)行人之間關(guān)系的視覺(jué)共生矩陣VC,并進(jìn)行歸一化處理;
[0035] ②對(duì)于視頻來(lái)說(shuō),在時(shí)間維度T上得到視覺(jué)共生矩陣序列VC= { VCl,VC2,…,VCnumI 來(lái)表征基于視頻的交互行為信息,對(duì)于測(cè)試視頻同樣進(jìn)行本步驟操作;
[0036] 步驟3.4:由于在雙人交互過(guò)程中,存在動(dòng)作執(zhí)行人的左右位置不同,運(yùn)將導(dǎo)致視 覺(jué)單詞對(duì)共生的位置發(fā)生變化,因此,運(yùn)里將采用W二VC,. + Vr,7'得到VC,并取其上=角視覺(jué) 共生矩陣代替原來(lái)的矩陣,來(lái)增加算法的魯棒性。
[0037]作為一種優(yōu)選的技術(shù)方案,所述的步驟4具體包括:
[003引步驟4.1: HMM算法的訓(xùn)練
[0039] -個(gè)HMM可W由A= {A,B,JT}來(lái)描述,其中A為狀態(tài)轉(zhuǎn)移矩陣,B是觀察概率矩陣,JT表 示初始狀態(tài)概率矢量;采用Ba皿-Welch算法訓(xùn)練基于視覺(jué)共生矩陣序列的雙人交互HMM,采 用K-means算法為Baum-Welch算法選取初始值,K-means算法具體包括:
[0040] 步驟4.1.1:初值選取:選取一類訓(xùn)練動(dòng)作的N個(gè)等間距帖的特征作為K-means算法 的初始值UW-start},其中
[0041] 步驟:4.1.2更新過(guò)程;求取每一個(gè)觀察向量Ot與每一個(gè)Ui的距離di (Ot ),把Ot劃分 到與其距離最近的類中,獲得更新的N類觀察向量,并計(jì)算每類新觀察向量的均值, 如公式化)所示:
[0042]
巧)
[0043] 其中Oxi為第i類觀察向量,Ni為其個(gè)數(shù);
[0044] 步驟4.1.3:終止條件:每類新觀察向量均值if 壞在變化,將每類動(dòng)作的聚類 中屯、作為各類HMM的初始值,利用Baum-Welch算法采用多個(gè)訓(xùn)練序列來(lái)訓(xùn)練各類交互行為 的HMM,來(lái)完成動(dòng)作識(shí)別;
[0045] 步驟4.2: HMM算法的識(shí)別:
[0046] 利用HMM算法識(shí)別過(guò)程如下:需要采用forward-backward算法依次計(jì)算測(cè)試序列0 ={〇1,02,…,ot}與訓(xùn)練得到的各類交互行為HMM的相似度,相似度最大的模型所代表的交 互行為,則為測(cè)試視頻最終的交互行為。
[0047] 與現(xiàn)有技術(shù)相比較,本發(fā)明的有益效果在于:(1)本發(fā)明創(chuàng)新性的設(shè)計(jì)了雙人交互 行為的特征描述方法,并充分利用HMM進(jìn)行雙人交互行為的識(shí)別;(2)利用冊(cè)G提取的特征, 設(shè)計(jì)基于視覺(jué)共生矩陣序列的特征描述方法,得到交互行為視頻的全局特征與分布特征; (3)利用HMM實(shí)現(xiàn)了交互行為的分類與識(shí)別;(4)本發(fā)明提高了相似交互行為的識(shí)別率,且方 法簡(jiǎn)單、實(shí)時(shí)性好。
【附圖說(shuō)明】
[004引圖1為本發(fā)明算法流程圖;
[0049] 圖2為HOG底層特征提取算法示意圖;
[0050] 圖3為基于視覺(jué)共生矩陣序列描述的算法框圖。
【具體實(shí)施方式】:
[0051] 下面結(jié)合附圖對(duì)本發(fā)明的較佳實(shí)施例進(jìn)行詳細(xì)闡述,W使本發(fā)明的優(yōu)點(diǎn)和特征能 更易于被本領(lǐng)域技術(shù)人員理解,從而對(duì)本發(fā)明的保護(hù)范圍做出更為清楚明確的界定。
[0052] 本發(fā)明選擇了計(jì)算復(fù)雜度較低的分區(qū)域HOG特征作為底層特征,在兼顧局部特征 優(yōu)勢(shì)的同時(shí),也包含區(qū)域之間的位置信息;然后,本發(fā)明設(shè)計(jì)將左右動(dòng)作執(zhí)行人的特征集在 帖圖像層上建立視覺(jué)單詞共生矩陣,利用視覺(jué)共生矩陣序列描述一個(gè)交互行為視頻的特 征,豐富了視頻中隱含的內(nèi)在信息,同時(shí)增強(qiáng)了不同交互行為的區(qū)分度;最后,考慮到基于 概率圖模型的識(shí)別方法能夠較好地建模人體運(yùn)動(dòng)的動(dòng)態(tài)過(guò)程,所W采用基于隱馬爾科夫模 型算法進(jìn)行動(dòng)作建模和識(shí)別;提高了交互行為識(shí)別的準(zhǔn)確率和識(shí)別速度。
[0053] 下面依據(jù)附圖1-3,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述:
[0054] 基于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方法,包括W下幾個(gè)步驟:
[0055] 步驟1:對(duì)攝像頭采集的視頻中的交互行為進(jìn)行運(yùn)動(dòng)檢測(cè)與分割;雙人交互行為識(shí) 別系統(tǒng)實(shí)現(xiàn)首先是進(jìn)行運(yùn)動(dòng)檢測(cè)與左右動(dòng)作執(zhí)行人的分割,完成視頻的預(yù)處理操作,本發(fā) 明采用普通的視頻監(jiān)控?cái)z像頭采集視頻,獲取RGB彩色視頻流;采用ViBe算法進(jìn)行背景建 模,得到視頻的前景,即雙人交互的感興趣區(qū)域;背景模型為每個(gè)背景點(diǎn)存儲(chǔ)了一個(gè)樣本 集,并用每個(gè)新的像素值與其比較,來(lái)判斷是否為背景點(diǎn);可W知道若一個(gè)新的觀察值屬于 背景點(diǎn),則它應(yīng)該和樣本集中的采樣值比較接近;并利用形態(tài)學(xué)原理將得到的交互行為前 景信息進(jìn)行閉運(yùn)算,進(jìn)而填補(bǔ)前景的空桐部分,然后采用中值濾波進(jìn)行降噪處理;然后根據(jù) 人體的外部輪廓特征和體屯、距離,實(shí)現(xiàn)雙人交互行為的檢測(cè)與個(gè)體分割。
[0056] 步驟2:對(duì)視頻中左右動(dòng)作執(zhí)行人分別進(jìn)行分區(qū)域冊(cè)G特征提取;HOG特征是表征人 體運(yùn)動(dòng)的邊緣梯度信息,無(wú)需進(jìn)行邊緣檢測(cè),運(yùn)種方法能夠克服因光照、尺度變化、衣著W 及背景的變化所帶來(lái)的干擾,即使在一些復(fù)雜的背景環(huán)境仍然能有較強(qiáng)的抗干擾能力;HOG 特征采用分區(qū)域的方法,對(duì)像素點(diǎn)求取梯度的幅值和方向,能夠更好的描述細(xì)節(jié)和分布特 征;圖2說(shuō)明了雙人交互視頻分區(qū)域HOG特征提取的過(guò)程;
[0057] 步驟3:利用步驟2中提取的HOG特征,采用K-means算法構(gòu)建視覺(jué)單詞,生成視覺(jué)詞 袋,并對(duì)視覺(jué)詞袋中的單詞進(jìn)行編碼;利用相似度量函數(shù),對(duì)區(qū)域特征進(jìn)行視覺(jué)單詞編碼; 統(tǒng)計(jì)時(shí)間維度中交互個(gè)體之間的視覺(jué)共生關(guān)系,得到視覺(jué)共生矩陣序列來(lái)表示視頻中的異 常雙人交互行為;本發(fā)明基于共生矩陣的思想,并合理地結(jié)合了HOG和BOW各自的優(yōu)勢(shì),通過(guò) 對(duì)圖像構(gòu)建視覺(jué)單詞共生矩陣序列來(lái)描述刻畫視覺(jué)單詞間在空間上的相關(guān)性,圖3說(shuō)明了 雙人交互視頻中視覺(jué)共生矩陣序列特征描述的過(guò)程;
[0058] 步驟4:利用HMM算法,對(duì)各類異常雙人交互行為進(jìn)行訓(xùn)練。利用訓(xùn)練好的不同交互 行為模型,對(duì)實(shí)際輸入視頻進(jìn)行異常雙人交互行為識(shí)別。
[0059] 作為一種優(yōu)選的技術(shù)方案,所述的步驟1具體包括:
[0060] 步驟1.1:拍攝視頻:啟動(dòng)攝像頭,錄制雙人交互視頻,收集不同動(dòng)作執(zhí)行人的各類 交互動(dòng)作視頻,作為交互動(dòng)作的訓(xùn)練視頻,并對(duì)各類訓(xùn)練視頻進(jìn)行交互行為含義標(biāo)記,建立 視頻訓(xùn)練集;利用攝像頭捕捉需要進(jìn)行測(cè)試的視頻流,進(jìn)而形成視頻測(cè)試集;
[0061] 步驟1.2:檢測(cè)與分割:對(duì)拍攝的視頻進(jìn)行運(yùn)動(dòng)檢測(cè)處理,利用ViBe算法進(jìn)行動(dòng)態(tài) 背景建模,建模后視頻背景置為黑色,交互的前景區(qū)域?yàn)椴噬?,完成運(yùn)動(dòng)檢測(cè),并且利用人 體的輪廓信息W及體屯、距離,將交互的左右動(dòng)作執(zhí)行人實(shí)現(xiàn)運(yùn)動(dòng)分割,得到兩個(gè)彼此分開 的個(gè)體;最后,將視頻進(jìn)行灰度化處理,便于后續(xù)特征提取。
[0062] 作為一種優(yōu)選的技術(shù)方案,所述的步驟2具體包括:
[0063] 步驟2.1:提取序列圖像的梯度幅值與梯度方向,如公式(1)所示:
[0064]
(1)
[0065] 其中Gx為圖像中像素點(diǎn)(x,y)處的水平方向梯度,Gy是垂直方向梯度,其像素點(diǎn)(X, y)處的梯度幅值G(x,y)和梯度方向^^(x,.v)分別為公式(2)和公式(3)所示:
[0066] 掛
[0067] 獻(xiàn)
[0068] 步驟2.2:將整帖圖像分成cXr個(gè)塊區(qū)域,然后計(jì)算各區(qū)域中像素點(diǎn)的梯度大小對(duì) 其不同方向區(qū)域,方向個(gè)數(shù)為q,貢獻(xiàn)不同的權(quán)重,累加權(quán)重到所有的梯度方向上,最終得到 特征向量。
[0069] 作為一種優(yōu)選的技術(shù)方案,所述的步驟3具體包括:
[0070] 步驟3.1:采用K-means算法構(gòu)建視覺(jué)單詞,生成視覺(jué)詞袋:
[0071] ①分別提取視頻訓(xùn)練集中左右動(dòng)作執(zhí)行人的分區(qū)域HOG特征向量seti,共同生成 一個(gè)特征向量集沈T,SET= {seti,set2,'''setm};其中m為特征向量的總數(shù),且i = l,2,m
[0072] ②對(duì)SET進(jìn)行K-means算法操作,生成具有代表性的視覺(jué)單詞Wp,組成詞袋W,W = {wi,W2,…,Wn},其中n為視覺(jué)單詞個(gè)數(shù),且P = I,2,. . .n;
[0073] ③利用哈希技術(shù)將W中的視覺(jué)單詞Wp單一映射到h = f(wp),實(shí)現(xiàn)對(duì)視覺(jué)詞袋中單詞 的量化編碼,量化編碼的取値范圍為1~N,目.h G U,2,…的,哈希函數(shù)如公式(4)所示:
[0074]
(4)
[0075] 其中,WjGW;
[0076] 步驟3.2:完成對(duì)左右動(dòng)作執(zhí)行人分區(qū)域特征的視覺(jué)單詞編碼:
[0077] ①對(duì)視頻中每帖圖片左右執(zhí)行人的局部區(qū)域HOG特征向量seti,采用相似度量函 數(shù),將seti與W= Iwi,W2,…,Wn}中的視覺(jué)單詞進(jìn)行相似性比較,得到與之最相似的視覺(jué)單 詞;
[0078] ②將分塊的視頻帖左右動(dòng)作執(zhí)行人局部區(qū)域的seti,分別標(biāo)記為該視覺(jué)單詞經(jīng)過(guò) 哈希函數(shù)得到的量化編碼,從而完成視頻區(qū)域特征的視覺(jué)單詞編碼;
[0079] 步驟3.3:將視頻描述為對(duì)應(yīng)的視覺(jué)共生矩陣序列:
[0080] ①W視頻帖圖像為單位建立一個(gè)NXN的視覺(jué)共生矩陣,用來(lái)統(tǒng)計(jì)每帖中左右執(zhí)行 人之間視覺(jué)單詞共生的頻數(shù)。例如:左邊執(zhí)行人的視覺(jué)單詞編碼hi與右邊執(zhí)行人的視覺(jué)單 詞編碼hj共同出現(xiàn)的頻數(shù)為k,則在視覺(jué)共生矩陣對(duì)應(yīng)化i,hj)的位置處記為k。最終得到一 個(gè)表示視頻帖圖片中左右執(zhí)行人之間關(guān)系的視覺(jué)共生矩陣VC,并進(jìn)行歸一化處理;
[0081 ] ②對(duì)于視頻來(lái)說(shuō),在時(shí)間維度T上得到視覺(jué)共生矩陣序列VC= { VCl,VC2,…,VCnumI 來(lái)表征基于視頻的交互行為信息,對(duì)于測(cè)試視頻同樣進(jìn)本步驟操作;
[0082] 步驟3.4:由于在雙人交互過(guò)程中,存在動(dòng)作執(zhí)行人的左右位置不同,運(yùn)將導(dǎo)致視 覺(jué)單詞對(duì)共生的位置發(fā)生變化,因此,運(yùn)里將采用做=供,+促f得到VC,并取其上S角視覺(jué) 共生矩陣代替原來(lái)的矩陣,來(lái)增加算法的魯棒性。
[0083] 作為一種優(yōu)選的技術(shù)方案,所述的步驟4具體包括:
[0084] 步驟4.1: HMM算法的訓(xùn)練
[0085] -個(gè)HMM可W由A= {A,B,JT}來(lái)描述,其中A為狀態(tài)轉(zhuǎn)移矩陣,B是觀察概率矩陣,JT表 示初始狀態(tài)概率矢量;采用Ba皿-Welch算法訓(xùn)練基于視覺(jué)共生矩陣序列的雙人交互HMM,采 用K-means算法為Baum-We Ich算法選取初始值,K-means算法包括:
[0086] 步驟4.1.1:初估佛取.佛取一苯站I鏈動(dòng)化的N個(gè)望巧距帖的特征作為K-means算法 的初始值UW-start},其中
[0087] 步驟:4.1.2更新過(guò)程;求取每一個(gè)觀察向量Ot與每一個(gè)Ui的距離di(ot),把Ot劃分 到與其距離最近的類中,獲得更新的N類觀察向量,并計(jì)算每類新觀察向量的均值, 如公式(5)所示:
[008引
(日.)
[0089] 其中Oxi為第i類觀察向量,Ni為其個(gè)數(shù);
[0090] 步驟4.1.3:終止條件:每類新觀察向量均值不在變化,將每類動(dòng)作的聚類 中屯、作為各類HMM的初始值,利用Baum-Welch算法采用多個(gè)訓(xùn)練序列來(lái)訓(xùn)練各類交互行為 的HMM,來(lái)完成動(dòng)作識(shí)別;
[0091] 步驟4.2: HMM算法的識(shí)別:
[0092] 利用HMM算法識(shí)別過(guò)程如下:需要采用forward-backward算法依次計(jì)算測(cè)試序列0 = {oi,〇2,...,ot}與訓(xùn)練得到的各類交互行為HMM的相似度,相似度最大的模型所代表的交 互行為,則為測(cè)試視頻最終的交互行為。
[0093] W上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā) 明說(shuō)明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技 術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 基于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方法,其特征在于,包括以下幾個(gè) 步驟: 步驟1:對(duì)攝像頭采集的視頻中的交互行為進(jìn)行運(yùn)動(dòng)檢測(cè)與分割; 步驟2:對(duì)視頻中左右動(dòng)作執(zhí)行人分別進(jìn)行分區(qū)域HOG特征提取; 步驟3:利用步驟2中提取的HOG特征,采用K-means聚類算法構(gòu)建視覺(jué)單詞,生成視覺(jué)詞 袋,并對(duì)視覺(jué)詞袋中的單詞進(jìn)行編碼;利用相似度量函數(shù),對(duì)區(qū)域特征進(jìn)行視覺(jué)單詞編碼; 統(tǒng)計(jì)時(shí)間維度中交互個(gè)體之間的視覺(jué)共生關(guān)系,得到視覺(jué)共生矩陣序列來(lái)表示視頻中的異 常雙人交互行為; 步驟4:利用HMM算法,對(duì)各類異常雙人交互行為進(jìn)行訓(xùn)練,利用訓(xùn)練好的不同交互行為 模型,對(duì)實(shí)際輸入視頻進(jìn)行異常雙人交互行為識(shí)別。2. 根據(jù)權(quán)利要求1所述的基于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方法,其特 征在于,所述的步驟1具體包括: 步驟1.1:拍攝視頻:啟動(dòng)攝像頭,錄制雙人交互視頻,收集不同動(dòng)作執(zhí)行人的各類交互 動(dòng)作視頻,作為交互動(dòng)作的訓(xùn)練視頻,并對(duì)各類訓(xùn)練視頻進(jìn)行交互行為含義標(biāo)記,建立視頻 訓(xùn)練集;利用攝像頭捕捉需要進(jìn)行測(cè)試的視頻流,形成視頻測(cè)試集; 步驟1.2:檢測(cè)與分割:對(duì)拍攝的視頻進(jìn)行運(yùn)動(dòng)檢測(cè)處理,利用ViBe算法進(jìn)行動(dòng)態(tài)背景 建模,建模后視頻背景置為黑色,交互的前景區(qū)域?yàn)椴噬?,完成運(yùn)動(dòng)檢測(cè),并且利用人體的 輪廓信息以及體心距離,將交互的左右動(dòng)作執(zhí)行人實(shí)現(xiàn)運(yùn)動(dòng)分割,得到兩個(gè)彼此分開的個(gè) 體;最后,將視頻進(jìn)行灰度化處理,便于后續(xù)特征提取。3. 根據(jù)權(quán)利要求1所述的基于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方法,其特 征在于,所述的步驟2具體包括: 步驟2.1:提取序列圖像的梯度幅值與梯度方向,如公式(1)所示:(1)其中Gx為圖像中像素點(diǎn)(x,y)處的水平方向梯度,Gy是垂直方向梯度,其像素點(diǎn)(x,y)處 的梯度幅倌,v)和梯度方向ο?λνν)分別為公式(2)和公式(3)所示: ⑵ ⑶ 步驟2.2:將整幀圖像分成cXr個(gè)塊區(qū)域,然后計(jì)算各區(qū)域中像素點(diǎn)的梯度大小對(duì)其不 同方向區(qū)域,方向個(gè)數(shù)為q,貢獻(xiàn)不同的權(quán)重,累加權(quán)重到所有的梯度方向上,最終得到特征 向量。4. 根據(jù)權(quán)利要求1所述的基于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方法,其特 征在于,所述的步驟3具體包括: 步驟3.1:采用K-means算法構(gòu)建視覺(jué)單詞,生成視覺(jué)詞袋: ① 分別提取視頻訓(xùn)練集中左右動(dòng)作執(zhí)行人的分區(qū)域HOG特征向量se ti,共同生成一個(gè)特 征向量集SET,SET= {seti,set2,"_setm};其中m為特征向量的總數(shù),且i = l,2,m; ② 對(duì)SET進(jìn)行K-means算法操作,生成具有代表性的視覺(jué)單詞Wp,組成詞袋W,W= {wi, W2,···,wn},其中η為視覺(jué)單詞個(gè)數(shù),且p=l,2,. . .η; ③利用哈希技術(shù)將W中的視覺(jué)單詞Wp單一映射到h = f (Wp ),實(shí)現(xiàn)對(duì)視覺(jué)詞袋中單詞的量 化編碼,量化編碼的取值范圍為1~N,且1!£{1,2,一《,哈希函數(shù)如公式(4)所示:(4) 其中,WjGW; 步驟3.2:完成對(duì)左右動(dòng)作執(zhí)行人分區(qū)域特征的視覺(jué)單詞編碼: ① 對(duì)視頻中每幀圖片左右執(zhí)行人的局部區(qū)域HOG特征向量s e t i,采用相似度量函數(shù),將 seti與W= {wi,W2,···,wn}中的視覺(jué)單詞進(jìn)行相似性比較,得到與之最相似的視覺(jué)單詞; ② 將分塊的視頻幀左右動(dòng)作執(zhí)行人局部區(qū)域的Set1,分別標(biāo)記為該視覺(jué)單詞經(jīng)過(guò)哈希 函數(shù)得到的量化編碼,從而完成視頻區(qū)域特征的視覺(jué)單詞編碼; 步驟3.3:將視頻描述為對(duì)應(yīng)的視覺(jué)共生矩陣序列: ① 以視頻幀圖像為單位建立一個(gè)NXN的視覺(jué)共生矩陣,用來(lái)統(tǒng)計(jì)每幀中左右執(zhí)行人之 間視覺(jué)單詞共生的頻數(shù);最終得到一個(gè)表示視頻幀圖片中左右執(zhí)行人之間關(guān)系的視覺(jué)共生 矩陣vc,并進(jìn)行歸一化處理; ② 對(duì)于視頻來(lái)說(shuō),在時(shí)間維度T上得到視覺(jué)共生矩陣序列VC= { VCl,VC2,…,VCm?}來(lái)表 征基于視頻的交互行為信息,對(duì)于視頻測(cè)試集同樣進(jìn)行本步驟操作; 步驟3.4:當(dāng)在雙人交互過(guò)程中,存在動(dòng)作執(zhí)行人的左右位置不同,這將導(dǎo)致視覺(jué)單詞 對(duì)共生的位置發(fā)生變化,因此,采用VC = VCi+vcf得到VC,并取其上三角視覺(jué)共生矩陣代替 原來(lái)的矩陣,來(lái)增加算法的魯棒性。5.根據(jù)權(quán)利要求1所述的基于視覺(jué)共生矩陣序列的異常雙人交互行為識(shí)別方法,其特 征在于,所述的步驟4具體包括: 步驟4.1: HMM算法的訓(xùn)練 HMM由λ= {A,B,π}來(lái)描述,其中A為狀態(tài)轉(zhuǎn)移矩陣,B是觀察概率矩陣,π表示初始狀態(tài)概 率矢量;采用Baum-Welch算法訓(xùn)練基于視覺(jué)共生矩陣序列的雙人交互HMM,采用K-means算 法為Baum-Welch算法選取初始值,K-means算法具體包括: 步驟4.1.1:初值選取:選取一類訓(xùn)練動(dòng)作的N個(gè)等間距幀的特征作為K-means算法的初 始值u(K-start),其中σ體-伽" ={?丨人~郵-伽,必 步驟:4.1.2更新過(guò)程;求取每一個(gè)觀察向量〇t與每一個(gè)U1的距離Cl1(O t),把〇t劃分到與 其距離最近的類中,獲得更新的N類觀察向量,并計(jì)算每類新觀察向量的均值,如公 式(5)所示:(5) 其中〇xi為苐i類觀察問(wèn)量,Ni為其個(gè)數(shù); 步驟4.1.3:終止條件:每類新觀察向量均值if 不在變化,將每類動(dòng)作的聚類中心作 為各類HMM的初始值,利用Baum-We I ch算法采用多個(gè)訓(xùn)練序列來(lái)訓(xùn)練各類交互行為的HMM, 來(lái)完成動(dòng)作識(shí)別; (2)步驟4.2: HMM算法的識(shí)別: 采用forward-backward算法依次計(jì)算測(cè)試序列O= {οι,〇2, . . .,οτ}與訓(xùn)練得到的各類 交互行為HMM的相似度,相似度最大的模型所代表的交互行為,則為測(cè)試視頻最終的交互行 為。
【文檔編號(hào)】G06K9/00GK106022251SQ201610326773
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月17日
【發(fā)明人】姬曉飛, 左鑫孟, 王艷輝, 王揚(yáng)揚(yáng), 劉洋
【申請(qǐng)人】沈陽(yáng)航空航天大學(xué)