基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法

文檔序號(hào)：39621782發(fā)布日期：2024-10-11 13:41閱讀：16來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于計(jì)算機(jī)視覺及圖像處理領(lǐng)域，涉及采用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻進(jìn)行細(xì)粒度的行為識(shí)別，具體涉及一種基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法。

背景技術(shù)：

1、視頻行為識(shí)別對(duì)于廣泛的視覺分析應(yīng)用具有重要意義，如智能監(jiān)控、社交場景理解和體育視頻分析。隨著深度學(xué)習(xí)在各種視頻識(shí)別任務(wù)上取得了巨大的成功，許多時(shí)空特征學(xué)習(xí)行為識(shí)別方法(如stm、tsm和i3d)和長期建模方法(如tcn、tdrn和slowfast)被提出用來做視頻行為識(shí)別。為了提高運(yùn)動(dòng)模式感知的網(wǎng)絡(luò)能力，tea(yan?li,bin?ji,xintianshi,jianguo?zhang,bin?kang,and?limin?wang.tea:temporal?excitation?andaggregation?for?action?recognition.in?ieee?cvpr,june,pages?906–915,2020)利用特征水平的時(shí)間差異來激活運(yùn)動(dòng)敏感通道，形成一個(gè)用于行為識(shí)別的層次殘差結(jié)構(gòu)。tdn(limin?wang,zhan?tong,bin?ji,and?gangshan?wu.tdn:temporal?difference?networksfor?efficient?action?recognition.in?ieee,cvpr,june,pages?1895–1904,2021)專注于明確地利用短期和長期運(yùn)動(dòng)建模之間的時(shí)間差異來捕獲時(shí)間上下文。

2、由于在專業(yè)領(lǐng)域的許多人類活動(dòng)之間只存在著細(xì)微的差異，行為識(shí)別最近已經(jīng)發(fā)展到了更細(xì)粒度的水平。傳統(tǒng)的行為識(shí)別主要側(cè)重于識(shí)別物體和背景的視覺外觀線索，如體操和籃球，而細(xì)粒度的行為識(shí)別則是在子類別水平上區(qū)分動(dòng)作類別。例如，建立在高清體育視頻上的現(xiàn)有細(xì)粒度數(shù)據(jù)集的動(dòng)作對(duì)時(shí)間相關(guān)性比對(duì)象和背景更敏感。finegym數(shù)據(jù)集由各種微妙的方面組成，如姿勢(shì)、移動(dòng)范圍和戲劇性的肢體變形。也就是說，細(xì)粒度的行為識(shí)別明顯比傳統(tǒng)的行為識(shí)別更具挑戰(zhàn)性。

3、現(xiàn)有的行為識(shí)別框架通常集中于易于區(qū)分的片段，而忽略了局部動(dòng)作細(xì)節(jié)的動(dòng)態(tài)，最近的一些作品已經(jīng)引起了人們對(duì)理解細(xì)粒度行為識(shí)別的細(xì)微差異的挑戰(zhàn)的關(guān)注。例如，mdcn(baoli?sun,xinchen?ye,tiantian?yan,zhihui?wang,haojie?li,and?zhiyongwang.fine-grained?action?recognition?with?robust?motion?representationdecoupling?and?concentration.in?the?30th?acm?mm,lisboa,portugal,october,pages4779–4788,2022)被提出通過將運(yùn)動(dòng)表征與動(dòng)作相關(guān)的運(yùn)動(dòng)表征分離來學(xué)習(xí)不同的運(yùn)動(dòng)表征。dsts(tianjiao?li,lin?geng?foo,qiuhong?ke,hossein?rahmani,anran?wang,jinghua?wang,and?jun?liu.dynamic?spatio-temporal?specialization?learning?forfine-grained?action?recognition.in?eccv,october,part?iv,volume?13664,pages386–403,2022)被提出通過一個(gè)動(dòng)態(tài)時(shí)空專業(yè)化模塊學(xué)習(xí)區(qū)分細(xì)粒度差異來區(qū)分這些相似的樣本。此外，我們還注意到，一個(gè)動(dòng)作視頻的每一幀中最突出的信息通常分布在幾個(gè)隨時(shí)間演化的小局部區(qū)域中。雖然顯式地定位和跟蹤區(qū)分特定動(dòng)作的局部區(qū)域作為輔助任務(wù)是一種簡單的解決方案，但它通常缺乏區(qū)域級(jí)注釋。因此，我們的目標(biāo)是隱式地識(shí)別和跟蹤獨(dú)特的局部細(xì)節(jié)沿著時(shí)間維度。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明旨在克服傳統(tǒng)方法技術(shù)的不足，提出了一個(gè)基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別網(wǎng)絡(luò)。該網(wǎng)絡(luò)由時(shí)序信息增強(qiáng)模塊、空間區(qū)域語義激活模塊和運(yùn)動(dòng)軌跡產(chǎn)生及行為預(yù)測模塊組成。時(shí)序信息增強(qiáng)模塊的通過將輸入的特征送入到編碼器當(dāng)中，通過多頭自注意力機(jī)制的計(jì)算實(shí)現(xiàn)對(duì)長時(shí)序特征增強(qiáng)，提升模型對(duì)長時(shí)序信息的能力。特定區(qū)域語義激活模塊針對(duì)傳統(tǒng)方法不能夠關(guān)注到更細(xì)粒度的人體動(dòng)作這一問題，提出挑選每一幀圖片判別性區(qū)域的處理方案，挑選出視頻中更有判別性的動(dòng)作區(qū)域。運(yùn)動(dòng)軌跡產(chǎn)生及預(yù)測模塊將所得到的軌跡特征向量沿時(shí)間維度進(jìn)行拼接，得到最終的細(xì)粒度動(dòng)作分類結(jié)果。

2、本發(fā)明的技術(shù)方案為，一種基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法，所述方法包括下列步驟：

3、第一步，準(zhǔn)備初始的訓(xùn)練數(shù)據(jù)：訓(xùn)練數(shù)據(jù)包括對(duì)視頻分幀后的彩色圖像序列；

4、第二步，時(shí)序信息增強(qiáng)模塊的構(gòu)建：時(shí)序信息增強(qiáng)模塊由transformer編碼器組成。transformer編碼器利用自注意力機(jī)制增強(qiáng)時(shí)間上下文，以獲得對(duì)于視頻中長期時(shí)間依賴特性的關(guān)注；

5、第三步，空間區(qū)域語義激活模塊的構(gòu)建：空間區(qū)域語義激活模塊由一個(gè)transformer解碼器和一組可學(xué)習(xí)的特征查詢向量組成。所述特征查詢向量作為每個(gè)視頻幀的區(qū)域查詢，用于查詢局部區(qū)域的細(xì)節(jié)，獲得空間區(qū)域的語義響應(yīng)；

6、第四步，運(yùn)動(dòng)軌跡生成及行為預(yù)測模塊的構(gòu)建：在獲得所有視頻幀的空間區(qū)域的語義響應(yīng)之后，將這些響應(yīng)重新排列以生成運(yùn)動(dòng)軌跡。這些運(yùn)動(dòng)軌跡與整個(gè)視頻的全局表示集成，獲得最終的行為預(yù)測結(jié)果；

7、第五步，構(gòu)建損失函數(shù)并訓(xùn)練網(wǎng)絡(luò)；

8、損失函數(shù)衡量訓(xùn)練數(shù)據(jù)中由輸入視頻預(yù)測的動(dòng)作類別標(biāo)簽和真實(shí)類別標(biāo)簽的差距；

9、

10、其中，是一個(gè)監(jiān)督學(xué)習(xí)損失，用于訓(xùn)練網(wǎng)絡(luò)以提取行為識(shí)別相關(guān)的特征和建模全局行為表示。用于監(jiān)督最終的行為識(shí)別結(jié)果，將運(yùn)動(dòng)軌跡與整個(gè)視頻的全局表示集成，生成視頻的最終預(yù)測結(jié)果。這個(gè)損失函數(shù)確保了軌跡表示和全局表示在預(yù)測時(shí)的一致性。表示多級(jí)軌跡對(duì)比損失，用于在空間、時(shí)間和軌跡級(jí)別上對(duì)區(qū)域感知語義響應(yīng)進(jìn)行自監(jiān)督約束。λ是一個(gè)超參數(shù)，用于平衡多個(gè)損失函數(shù)之間的權(quán)重。網(wǎng)絡(luò)訓(xùn)練過程即使用訓(xùn)練數(shù)據(jù)不斷優(yōu)化網(wǎng)絡(luò)參數(shù)，使收斂得到最終的網(wǎng)絡(luò)模型；

11、第六步，通過訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行細(xì)粒度視頻行為識(shí)別。

12、本發(fā)明的有益效果是：

13、本發(fā)明基于深度神經(jīng)網(wǎng)絡(luò)搭建的一個(gè)基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別的框架，最終得到細(xì)粒度動(dòng)作的分類結(jié)果，具有以下特點(diǎn)：

14、1、系統(tǒng)容易構(gòu)建，能夠識(shí)別人體細(xì)粒度的動(dòng)作；

15、2、我們提出了一個(gè)動(dòng)作軌跡網(wǎng)絡(luò)來發(fā)現(xiàn)和跟蹤視頻幀中局部區(qū)域的獨(dú)特細(xì)節(jié)，以豐富空間和時(shí)間上下文的編碼，以便更好地推理細(xì)粒度的動(dòng)作；

16、3、我們?cè)O(shè)計(jì)了一個(gè)多層次的軌跡對(duì)比損失來指導(dǎo)網(wǎng)絡(luò)在空間、時(shí)間和軌跡水平上以有效的自我監(jiān)督的方式準(zhǔn)確地捕獲動(dòng)作細(xì)節(jié)；

17、4、實(shí)驗(yàn)結(jié)果在四個(gè)廣泛使用的細(xì)粒度行為識(shí)別數(shù)據(jù)集中具有先進(jìn)的優(yōu)越性。

技術(shù)特征：

1.基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法，其特征在于，包括如下步驟：

2.根據(jù)權(quán)利要求1所述的基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法，其特征在于，第一步中，在對(duì)視頻分幀得到彩色圖片序列后，對(duì)分幀后的彩色圖片進(jìn)行固定幀率的采樣，再通進(jìn)行數(shù)據(jù)增強(qiáng)。

3.根據(jù)權(quán)利要求1所述的基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法，其特征在于，第二步中，時(shí)序信息增強(qiáng)模塊由一個(gè)transformer編碼器組成，transformer編碼器利用自注意力機(jī)制增強(qiáng)時(shí)間上下文，以獲得對(duì)于視頻中長期時(shí)間依賴特性的關(guān)注；包括以下步驟：

4.根據(jù)權(quán)利要求1所述的基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法，其特征在于，第三步具體為：空間區(qū)域語義激活模塊的目的是從時(shí)間增強(qiáng)的區(qū)域表示中提取出視頻幀中空間區(qū)域的語義響應(yīng)；引入一組可學(xué)習(xí)的特征查詢向量xq作為每個(gè)視頻幀的區(qū)域查詢，用于查詢局部區(qū)域的細(xì)節(jié)，獲得空間區(qū)域的語義響應(yīng)；具體流程為：將時(shí)間增強(qiáng)的區(qū)域表示和特征查詢向量輸入到transformer解碼器中，通過交叉注意力機(jī)制來捕捉區(qū)域特定的語義響應(yīng)；其中交叉注意力操作crossatten(·)表達(dá)為：

5.根據(jù)權(quán)利要求1所述的基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法，其特征在于，第四步具體為：運(yùn)動(dòng)軌跡生成及行為預(yù)測模塊：在獲得所有視頻幀的空間區(qū)域的語義響應(yīng)之后，將中同一順序但不同幀的響應(yīng)重新排列以生成運(yùn)動(dòng)軌跡，它鏈接了視頻中沿時(shí)間維度的不同幀中的空間區(qū)域的細(xì)節(jié)，第m條軌跡trm的定義如下：

6.根據(jù)權(quán)利要求1所述的基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法，其特征在于，第五步中構(gòu)建損失函數(shù)：

技術(shù)總結(jié)
本發(fā)明屬于計(jì)算機(jī)視覺及圖像處理領(lǐng)域，涉及采用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻分幀后的圖片序列進(jìn)行細(xì)粒度的動(dòng)作分類，具體涉及一種基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法。本發(fā)明程序簡單，易于實(shí)現(xiàn)，能夠獲得能夠識(shí)別人體細(xì)粒度的動(dòng)作，對(duì)于人體的細(xì)粒度動(dòng)作，可以隱式的通過建模動(dòng)作的運(yùn)動(dòng)軌跡來發(fā)現(xiàn)和跟蹤視頻幀中局部區(qū)域的獨(dú)特細(xì)節(jié)，以豐富空間和時(shí)間上下文的編碼，以便更好地推理細(xì)粒度的動(dòng)作。此外，本方法對(duì)于不同的層次使用多層次的軌跡對(duì)比損失來指導(dǎo)網(wǎng)絡(luò)在空間、時(shí)間和軌跡水平上以有效的自我監(jiān)督的方式準(zhǔn)確地捕獲動(dòng)作細(xì)節(jié)。

技術(shù)研發(fā)人員：王智慧,孫寶利
受保護(hù)的技術(shù)使用者：大連理工大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王智慧,孫寶利
技術(shù)所有人：大連理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

視頻行為分析系統(tǒng)相關(guān)技術(shù)

行為識(shí)別系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法