基于光流圖深度學(xué)習(xí)模型在視頻中人體交互動作識別方法與流程

文檔序號：11134619閱讀：1852來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種視頻中人體交互動作識別方法，特別是涉及一種基于光流圖深度學(xué)習(xí)模型在視頻中人體交互動作識別方法。

背景技術(shù)：

隨著技術(shù)的不斷發(fā)展，視頻內(nèi)容的理解需求也不斷提高。攝像頭的廣泛運用使得視頻信息越來越多。然而這些海量信息難以全部靠人工處理，所以需要相關(guān)方法來分析視頻中的內(nèi)容。在智能監(jiān)控領(lǐng)域中，對人體的交互動作識別尤為重要。突發(fā)性事件如打架斗毆，異常行為的檢測等等都依賴于人體交互動作的準確識別。所以，準確的人體交互動作識別具有重要的社會意義。

視頻內(nèi)容理解旨在讓計算機像人類一樣可以理解視頻里面的內(nèi)容。動作識別是視頻內(nèi)容理解中的重要組成部分。相關(guān)研究包括：單人動作識別，人與物體的交互識別，人體交互動作識別，群體行為理解。深度學(xué)習(xí)方法是近些年圖像處理的比較有效的一類方法，許多學(xué)者致力于將深度學(xué)習(xí)的方法拓展到視頻領(lǐng)域，并在動作識別領(lǐng)域取得了較多有價值的研究成果。由于動作識別的模式變化較多，又容易受到背景噪聲的干擾，準確識別人體動作的難度比較大，但是在近十年內(nèi)也取得了進展。

經(jīng)過對現(xiàn)有人體動作/交互動作識別技術(shù)的檢索發(fā)現(xiàn)，中國專利公開號為CN 102136066A的專利記載了“一種人體動作識別的方法”，公開日為2011年7月27日。該技術(shù)采用計算視頻序列的差分邊緣直方圖作為特征，通過對目標區(qū)域的若干子區(qū)域分別求像素變化直方圖和邊緣梯度直方圖提高動作細節(jié)識別的準確率。該專利側(cè)重于識別的實時性，對識別的準確率要求不高。而且采用的是手工特征方法，適用場景受限。

中國專利公開號為CN101964047B的專利記載了“一種基于多跟蹤點的人體動作識別方法”，公開日期為2012年10月10日。該技術(shù)在需要判斷的動作上，要設(shè)置至少一個跟蹤點，根據(jù)跟蹤點的相應(yīng)動作數(shù)據(jù)來識別相應(yīng)動作。該專利并非使用在視頻領(lǐng)域，而且對數(shù)據(jù)采集要求較高，需要硬件傳感器的支持。

本發(fā)明與上述技術(shù)方案的不同在于，本發(fā)明在視頻領(lǐng)域可以對復(fù)雜的人體交互動作進行準確識別，且采用深度學(xué)習(xí)模型可以方便適用于各種應(yīng)用場景。上述技術(shù)方案仍然采用了傳統(tǒng)的手工特征方法，視頻領(lǐng)域利用深度學(xué)習(xí)模型進行人體交互動作識別的相關(guān)專利仍然是個空白。

技術(shù)實現(xiàn)要素：

本發(fā)明所要解決的技術(shù)問題是提供一種基于光流圖深度學(xué)習(xí)模型在視頻中人體交互動作識別方法，其填補了利用深度學(xué)習(xí)模型進行人體動作識別的相關(guān)的專利的空白，識別準確率高，且該方法適用于多種場景。

本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題的：一種基于光流圖深度學(xué)習(xí)模型在視頻中人體交互動作識別方法，其步驟主要包括：

步驟一，對測試集視頻和訓(xùn)練集視頻進行解幀，利用相鄰兩幀計算光流序列圖，得到測試集視頻和訓(xùn)練集視頻的光流序列圖；

步驟二，對光流序列圖進行預(yù)處理，刪去信息量較少的光流圖，保留信息量較多的光流圖，得到預(yù)處理后的測試集和訓(xùn)練集光流序列；

步驟三，利用步驟二中得到的訓(xùn)練集光流序列訓(xùn)練殘差神經(jīng)網(wǎng)絡(luò)，得到殘差神經(jīng)網(wǎng)絡(luò)模型；用測試集光流圖序列和訓(xùn)練集光流圖序列作為輸入，得到測試集空域特征和訓(xùn)練集空域特征；

步驟四，利用步驟三得到的訓(xùn)練集空域特征，放到LSTM中進行訓(xùn)練，得到LSTM模型，用測試集空域特征作為輸入，對每個輸入特征得到每類的分類概率；

步驟五，根據(jù)步驟四對一段視頻輸出每類概率，統(tǒng)計其投票最多的類，作為其判別類輸出。

優(yōu)選地，所述步驟一包括如下步驟：

步驟十一，用ffmpeg工具將視頻解成圖片幀；

步驟十二，用farneback算法計算兩幀之間的位移來計算光流，組成光流圖序列。

優(yōu)選地，所述步驟二包括如下步驟：

步驟二十一，對光流圖按照光流運動量從高到底排列；

步驟二十二，選取光流運動量最多的前45幀按照其在原來視頻中的相對位置組成新的光流序列。

優(yōu)選地，所述步驟三包括如下步驟：

步驟三十一，用ResNet網(wǎng)絡(luò)進行訓(xùn)練，訓(xùn)練數(shù)據(jù)是步驟二得到的預(yù)處理后的訓(xùn)練集光流圖序列；輸出是ResNet模型；

步驟三十二，用預(yù)處理后的訓(xùn)練集和測試集光流圖序列作為輸入，利用訓(xùn)練好的ResNet模型，得到訓(xùn)練集和測試集的空域特征集。

優(yōu)選地，所述步驟四包括如下步驟：

步驟四十一，用訓(xùn)練集空域特征作為輸入，訓(xùn)練LSTM模型；

步驟四十二，用測試集空域特征作為輸入LSTM模型，每幀的空域特征輸入，對應(yīng)對各類別的概率預(yù)測輸出。

優(yōu)選地，所述步驟五包括如下步驟：

步驟五十一，每類投票數(shù)初始為0，根據(jù)每幀概率輸出結(jié)果預(yù)測概率最大的類別投票數(shù)加一；

步驟五十二，統(tǒng)計一段視頻所有幀的投票結(jié)果；

步驟五十三，得票數(shù)最多的那類作為分類結(jié)果輸出。

本發(fā)明的積極進步效果在于：本發(fā)明填補了利用深度學(xué)習(xí)模型進行人體動作識別的相關(guān)的專利的空白，識別準確率高，且該方法適用于多種場景。

附圖說明

圖1為本發(fā)明基于光流圖深度學(xué)習(xí)模型在視頻中人體交互動作識別方法的模型框架圖。

圖2為本發(fā)明的光流圖序列預(yù)處理流程圖。

圖3為本發(fā)明的ResNet空域向量提取流程圖。

圖4為本發(fā)明的訓(xùn)練LSTM模型流程圖。

圖5為本發(fā)明的投票分類判決流程圖。

圖6為ResNet網(wǎng)絡(luò)結(jié)構(gòu)圖。

圖7為LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖。

具體實施方式

下面結(jié)合附圖給出本發(fā)明較佳實施例，以詳細說明本發(fā)明的技術(shù)方案。

如圖1所示，本發(fā)明公開了一種基于光流圖深度學(xué)習(xí)模型在視頻中人體交互動作識別方法，其步驟主要包括：

步驟一，對測試集視頻和訓(xùn)練集視頻進行解幀，利用相鄰兩幀計算光流序列圖，得到測試集視頻和訓(xùn)練集視頻的光流序列圖；

步驟二，對光流序列圖進行預(yù)處理，刪去信息量較少的光流圖，保留信息量較多的光流圖，得到預(yù)處理后的測試集和訓(xùn)練集光流序列；

步驟三，利用步驟二中得到的訓(xùn)練集光流序列訓(xùn)練殘差神經(jīng)網(wǎng)絡(luò)ResNet，得到殘差神經(jīng)網(wǎng)絡(luò)模型；用測試集光流圖序列和訓(xùn)練集光流圖序列作為輸入，得到測試集空域特征和訓(xùn)練集空域特征；

步驟四，利用步驟三得到的訓(xùn)練集空域特征，放到LSTM(Long Short Term Memory，長短時記憶)中進行訓(xùn)練，得到LSTM模型，用測試集空域特征作為輸入，對每個輸入特征得到每類的分類概率；

步驟五，根據(jù)步驟四對一段視頻輸出每類概率，統(tǒng)計其投票最多的類，作為其判別類輸出。

所述步驟一包括如下步驟：

步驟十一，用ffmpeg(開源計算機程序)工具將視頻解成圖片幀；

步驟十二，用farneback算法計算兩幀之間的位移來計算光流，組成光流圖序列；光流計算技術(shù)大致分為：基于梯度的方法，基于匹配的方法，基于能量的方法，基于相位的方法；稠密光流需要使用差值方法在比較容易跟蹤的像素之間進行插值以解決不明確的像素，計算開銷比較大；使用Gunnar Farneback(稀疏光流)的算法計算稠密光流，即圖像上所有像素點的光流都計算出來；Opencv(跨平臺計算機視覺庫)中有函數(shù)直接調(diào)用；或用CUDA(通用并行計算架構(gòu))編程利用GPU(圖形處理器)加速光流計算，調(diào)用GPU版的Opencv函數(shù)即可。

如圖2所示，所述步驟二包括如下步驟：

步驟二十一，光流場是圖片中每個像素都有的一個x方向和y方向的位移；對光流圖按照光流運動量從高到底排列；光流運動量定義如下式(1)：

M表示光流運動量，i表示像素點的位置，P表示整個圖像的光流點集合，f_i表示在x軸方向的位移，g_i表示在y軸方向的位移；因為位移有正負，所以取其平方和表示位移量，對整個圖片求和就得到整張圖的光流運動量；

步驟二十二，選取光流運動量最多的前45幀按照其在原來視頻中的相對位置組成新的光流序列，即預(yù)處理后的光流圖序列。

如圖3所示，所述步驟三包括如下步驟：

步驟三十一，用ResNet(資源)網(wǎng)絡(luò)進行訓(xùn)練，訓(xùn)練數(shù)據(jù)是步驟二得到的預(yù)處理后的訓(xùn)練集光流圖序列；輸出是ResNet模型；

ResNet模型是由Building block(建立基本構(gòu)件)組成的神經(jīng)網(wǎng)絡(luò)，每個building block表示為如下式(2)：

Y＝ReLU(F(X,W)+P·X)……(2)

X為輸入矩陣，Y為輸出矩陣，W是building block的權(quán)重，F(xiàn)(X,W)是通過訓(xùn)練集學(xué)習(xí)的映射函數(shù)，P是一個矩陣，保證P和X的乘積和F(X,W)相加；ReLU是一種激活函數(shù)，此函數(shù)在輸入變量小于0是一直為0，大于0時斜率保持為1；采用的ResNet結(jié)構(gòu)如圖6所示；

步驟三十二，用預(yù)處理后的訓(xùn)練集和測試集光流圖序列作為輸入，利用訓(xùn)練好的ResNet模型，得到訓(xùn)練集和測試集的空域特征集；如圖6所示，每個光流圖作為矩陣輸入后，經(jīng)過每個building block的訓(xùn)練好的權(quán)重計算，到達最底層的全連接層時候已經(jīng)編程一維向量，此向量就是空域特征；在深度學(xué)習(xí)框架torch7(科學(xué)計算框架)中，已經(jīng)有ResNet的實現(xiàn)，需要定義的網(wǎng)絡(luò)結(jié)構(gòu)，和訓(xùn)練集數(shù)據(jù)自己訓(xùn)練模型，然后得到訓(xùn)練集和測試集的空域特征。

如圖4所示，所述步驟四包括如下步驟：

步驟四十一，用訓(xùn)練集空域特征作為輸入，訓(xùn)練LSTM模型，如圖7所示；LSTM是一種特殊的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))，它模仿人類的思考模型，自動丟棄或保留數(shù)據(jù)，用以解決長距離依賴問題；LSTM的結(jié)構(gòu)見圖7；用如下公式(3)至(8)表示：

i_t=σ(w_xix_t+w_hih_t-1+b_i)……(3)

f_t＝σ(w_xfx_t+w_hfh_t-1+b_f)……(4)

o_t＝σ(w_xox_t+w_hoh_t-1+b_o)……(5)

g_t＝tanh(w_xcx_t+w_hch_t-1+b_c)……(6)

c_t＝f_t⊙c_t-1+i_t⊙g_t……(7)

h_t＝o_t⊙tanh(c_t)……(8)

各符號含義見下表1所示：

表1 符號含義表

記憶單元c_t是由遺忘門f_t，輸入調(diào)制狀態(tài)g_t，輸入門i_t和前一時刻的狀態(tài)組成；因為i_t和f_t都是sigmoidal(反曲)形函數(shù)，其值被限制在0和1之間，LSTM通過0表示忘記，1表示記憶保持，在0到1之間表示記憶的程度；輸出門o_t學(xué)習(xí)有多少記憶單元轉(zhuǎn)移到隱藏狀態(tài)；

在深度學(xué)習(xí)框架torch7中也有相關(guān)的包；在程序中采用FastLSTM的結(jié)構(gòu)；這種結(jié)構(gòu)簡化了傳統(tǒng)LSTM的結(jié)構(gòu)，使其訓(xùn)練速度加快；定義LSTM的inputSize(輸入大小值)和hiddenSize(隱藏大小值)均設(shè)置成512，即512個LSTM單元，LSTM的輸入和輸出之間還有一層0.5ratio(比例)的dropout(流失)層，減少模型過擬合的可能性，也增加了模型的泛化能力；優(yōu)化的標準采用負似然函數(shù)criterion(標準)，在torch7的實現(xiàn)中同樣用到了CUDA(通用并行計算架構(gòu))加速；

LSTM訓(xùn)練與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)以及ResNet相同，采用隨機梯度下降法，訓(xùn)練數(shù)據(jù)前向傳輸?shù)慕Y(jié)果，與分類結(jié)果的差異進行后向傳輸更新LSTM結(jié)構(gòu)單元的權(quán)重；因為LSTM特殊的結(jié)構(gòu)設(shè)計，使其不會產(chǎn)生傳統(tǒng)RNN梯度消失或者爆炸的情況；

步驟四十二，用測試集空域特征作為輸入LSTM模型，每幀的空域特征輸入，對應(yīng)對各類別的概率預(yù)測輸出；LSTM層之后再接上logSoftmax(對數(shù)軟間隔最大)層用來做多分類概率預(yù)測輸出；logSoftmax對概率做了對數(shù)化處理，我們要稍微轉(zhuǎn)換一下，softmax(最大值)是對該幀屬于某類的可能性給出概率上的預(yù)測。

如圖5所示，所述步驟五包括如下步驟：

步驟五十一，每類投票數(shù)初始為0，根據(jù)每幀概率輸出結(jié)果預(yù)測概率最大的類別投票數(shù)加一；

步驟五十二，統(tǒng)計一段視頻所有幀的投票結(jié)果；

步驟五十三，得票數(shù)最多的那類作為分類結(jié)果輸出如下式(9)：

class＝argmax({C₁,C2,…,C_n})……(9)

C_i表示i類別的得票數(shù)，class表示最終分類類別。

本發(fā)明填補了用深度學(xué)習(xí)方法對人體交互動作識別相關(guān)領(lǐng)域的空白，提高了檢測準確性。

以上所述的具體實施例，對本發(fā)明的解決的技術(shù)問題、技術(shù)方案和有益效果進行了進一步詳細說明，所應(yīng)理解的是，以上所述僅為本發(fā)明的具體實施例而已，并不用于限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔣興浩;孫錟鋒;趙陽;
技術(shù)所有人：上海交通大學(xué);
我是此專利的發(fā)明人

上一篇：基于手指靜脈識別的自助式社保生存認證裝置的制造方法
上一篇：指紋識別方法、裝置及移動終端與制造工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于光流圖深度學(xué)習(xí)模型在視頻中人體交互動作識別方法與流程