本發(fā)明屬于圖像處理與計算機視覺,涉及一種基于視覺語言模型和圖卷積的第一人稱行為識別方法。
背景技術(shù):
1、第一人稱行為識別是計算機視覺和機器學(xué)習領(lǐng)域的一個重要研究方向。它旨在通過對攝像頭拍攝到的第一人稱視角視頻進行分析,識別出其中的行為和活動。這種技術(shù)在多個應(yīng)用場景中具有廣泛的潛力,如智能監(jiān)控、虛擬現(xiàn)實(vr)、增強現(xiàn)實(ar)、以及人機交互等。
2、隨著互聯(lián)網(wǎng)的飛速發(fā)展,從第一人稱視角捕獲的視頻數(shù)據(jù)越來越豐富,這為第一人稱視角下交通行為識別提供了大量的數(shù)據(jù)基礎(chǔ),然而第一人稱行為識別仍面臨著一系列挑戰(zhàn)。首先由于攝像頭的視角限制,第一人稱視頻中的動作和行為通常呈現(xiàn)出不同的視角和角度,這使得從這些視角中識別行為變得更加困難。其次在第一人稱視角下,快速或復(fù)雜的動作可能會造成模糊,使得行為識別更加具有挑戰(zhàn)性。此外,不同的環(huán)境和場景會影響行為的表現(xiàn),例如,在狹小的空間和寬闊的空間中,行為的呈現(xiàn)方式可能大相徑庭。
3、傳統(tǒng)的行為識別方法主要依賴于視頻中的動作特征和視覺特征。這些方法通?;诰矸e神經(jīng)網(wǎng)絡(luò)(cnn)來提取空間特征,基于遞歸神經(jīng)網(wǎng)絡(luò)(rnn)或長短時記憶網(wǎng)絡(luò)(lstm)來建模時間序列。然而,這些方法在處理復(fù)雜動作和多樣場景時存在一定局限性,特別是在第一人稱視角下,傳統(tǒng)的方法可能無法有效捕捉到行為的細節(jié)。
技術(shù)實現(xiàn)思路
1、為解決上述問題,本發(fā)明提供了一種基于視覺語言模型和圖卷積的第一人稱行為識別方法,包括以下步驟:
2、s1.獲取圖像組數(shù)據(jù)集及其對應(yīng)的標簽提示詞數(shù)據(jù)集;所述圖像組數(shù)據(jù)集包括多個圖像組,每一圖像組對應(yīng)一個標簽提示詞,且每一圖像組包括針對同一目標采集的8幀圖像;
3、s2.將標簽提示詞數(shù)據(jù)集輸入預(yù)訓(xùn)練的視覺語言模型clip的文本編輯器,得到文本特征集;將圖像組數(shù)據(jù)集輸入預(yù)訓(xùn)練的視覺語言模型clip的視覺編輯器,得到視覺特征集;
4、s3.基于文本特征集和視覺特征集,采用圖卷積網(wǎng)絡(luò)獲取對偶融合知識圖;
5、s4.對圖像組數(shù)據(jù)集進行形狀重塑得到第一重塑數(shù)據(jù)集,將第一重塑數(shù)據(jù)輸入視覺編輯器得到重塑視覺特征;
6、s5.對重塑視覺特征進行形狀重塑得到第二重塑視覺特征,將第二重塑視覺特征輸入時序融合模型得到時間視覺特征;
7、s6.將時間視覺特征與對偶融合知識圖融合得到識別結(jié)果,根據(jù)識別結(jié)果計算損失反向傳播訓(xùn)練圖卷積網(wǎng)絡(luò)、時序融合模型和視覺語言模型clip的視覺編輯器;
8、s7.采用視覺語言模型clip的文本編輯器和視覺編輯器,以及訓(xùn)練完成的圖卷積網(wǎng)絡(luò)、時序融合模型構(gòu)建第一人稱行為識別模型;采用第一人稱行為識別模型進行識別。
9、進一步的,步驟s3具體包括:
10、s31.根據(jù)文本特征集表示第c=1,2,…,c類文本特征,c表示類別數(shù);以每一類文本特征為一個節(jié)點,計算每兩個節(jié)點間的余弦相似度作為邊,從而構(gòu)建文本知識子圖gt;
11、s32.采用文本特征集zt與視覺特征集zv進行重復(fù)匹配合并得到合并視覺特征集,以合并視覺特征集中每一類合并視覺特征為一個節(jié)點,計算每兩個節(jié)點間的余弦相似度作為邊,從而構(gòu)建合并視覺知識子圖gvt;其中表示第c類視覺特征組;
12、s33.將文本知識子圖gt和合并視覺知識子圖gvt送入不同的圖卷積網(wǎng)絡(luò),得到文本知識圖和視覺知識圖;將文本知識圖和視覺知識圖融合得到對偶融合知識圖。
13、進一步的,在步驟s32中,文本特征集zt包括c類文本特征,每一類文本特征的大小為1×d;視覺特征集zv包括c類視覺特征組,每一視覺特征組包括m個視覺特征,每一個視覺特征的大小為1×d;其中c表示類別數(shù),d表示特征維數(shù),k=c×m,m表示采樣幀數(shù);將每一個視覺特征組與其對應(yīng)類別的文本特征合并,最終得到k個1×d大小的合并視覺特征形成合并視覺特征集。
14、進一步的,采用resnet50網(wǎng)絡(luò)作為視覺語言模型clip的骨架網(wǎng)絡(luò)。
15、進一步的,圖像組數(shù)據(jù)集形狀為(采樣樣本數(shù),采樣幀數(shù),通道數(shù),寬度,高度);對圖像組數(shù)據(jù)集進行形狀重塑得到第一重塑數(shù)據(jù)集,第一重塑數(shù)據(jù)集形狀為(采樣樣本數(shù)×采樣幀數(shù),通道數(shù),寬度,高度);將第一重塑數(shù)據(jù)輸入視覺編輯器得到重塑視覺特征,重塑視覺特征形狀為(采樣樣本數(shù)×采樣幀數(shù),特征維數(shù));對重塑視覺特征進行形狀重塑得到第二重塑視覺特征,第二重塑視覺特征形狀為(采樣樣本數(shù),采樣幀數(shù),特征維數(shù))。
16、進一步的,時序融合模型包括6個residualattentionblock,每個residualattentionblock包括多頭注意力層、層歸一化和多層感知機。
17、本發(fā)明的有益效果:
18、本發(fā)明提供了一種基于視覺語言模型和圖卷積的第一人稱行為識別方法,該方法主要從視覺語言模型、知識圖譜和時間特征融合三方面進行。首先,通過視覺語言模型為動作過程中的局部模糊或遮擋提供語義上的補充信息;其次,基于視覺語言模型提取的特征構(gòu)建知識圖譜,從而對行為動作進行更全面的建模;最后采用時間特征融合將樣本的時空信息融合,從而捕捉動作的動態(tài)變化。通過結(jié)合三種技術(shù),本發(fā)明能夠在面對復(fù)雜和模糊的第一人稱視角視頻時,提供更加準確和穩(wěn)定的行為識別結(jié)果。視覺語言模型通過上下文信息補充視覺信息,知識圖譜通過結(jié)構(gòu)化的特征提升行為理解,時間特征融合則確保了動態(tài)變化下的行為識別。
1.一種基于視覺語言模型和圖卷積的第一人稱行為識別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于視覺語言模型和圖卷積的第一人稱行為識別方法,其特征在于,步驟s3具體包括:
3.根據(jù)權(quán)利要求2所述的一種基于視覺語言模型和圖卷積的第一人稱行為識別方法,其特征在于,在步驟s32中,文本特征集zt包括c類文本特征,每一類文本特征的大小為1×d;視覺特征集zv包括c類視覺特征組,每一視覺特征組包括m個視覺特征,每一個視覺特征的大小為1×d;其中c表示類別數(shù),d表示特征維數(shù),k=c×m,m表示采樣幀數(shù);將每一個視覺特征組與其對應(yīng)類別的文本特征合并,最終得到k個1×d大小的合并視覺特征形成合并視覺特征集。
4.根據(jù)權(quán)利要求1所述的一種基于視覺語言模型和圖卷積的第一人稱行為識別方法,其特征在于,采用resnet50網(wǎng)絡(luò)作為視覺語言模型clip的骨架網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求1所述的一種基于視覺語言模型和圖卷積的第一人稱行為識別方法,其特征在于,圖像組數(shù)據(jù)集形狀為(采樣樣本數(shù),采樣幀數(shù),通道數(shù),寬度,高度);對圖像組數(shù)據(jù)集進行形狀重塑得到第一重塑數(shù)據(jù)集,第一重塑數(shù)據(jù)集形狀為(采樣樣本數(shù)×采樣幀數(shù),通道數(shù),寬度,高度);將第一重塑數(shù)據(jù)輸入視覺編輯器得到重塑視覺特征,重塑視覺特征形狀為(采樣樣本數(shù)×采樣幀數(shù),特征維數(shù));對重塑視覺特征進行形狀重塑得到第二重塑視覺特征,第二重塑視覺特征形狀為(采樣樣本數(shù),采樣幀數(shù),特征維數(shù))。
6.根據(jù)權(quán)利要求1所述的一種基于視覺語言模型和圖卷積的第一人稱行為識別方法,其特征在于,時序融合模型包括6個residualattentionblock,每個residualattentionblock包括多頭注意力層、層歸一化和多層感知機。