本發(fā)明涉及基于骨架的人體動(dòng)作識(shí)別,尤其涉及一種基于動(dòng)作語(yǔ)義引導(dǎo)的自監(jiān)督骨架行為識(shí)別方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、動(dòng)作和行為屬于人的生物密碼范疇,識(shí)別和理解被觀察個(gè)體的行動(dòng)和行為是人類視覺(jué)感知和認(rèn)知的基本心理屬性。人體動(dòng)作識(shí)別作為計(jì)算機(jī)視覺(jué)的一個(gè)基礎(chǔ)而重要的課題,它具有廣泛的應(yīng)用范圍,包括視頻檢索、人機(jī)交互、手語(yǔ)識(shí)別和自動(dòng)駕駛。另外,行為識(shí)別在個(gè)體識(shí)別、溝通互動(dòng)和推斷他人的行為意圖中起著至關(guān)重要的作用。
2、隨著深度傳感器和姿態(tài)估計(jì)算法的快速發(fā)展,三維骨架數(shù)據(jù)變得更容易獲取。此外,與其他模式的數(shù)據(jù)不同,緊湊的骨架數(shù)據(jù)提供了人體關(guān)節(jié)具體的位置和運(yùn)動(dòng)信息,方便了時(shí)空和運(yùn)動(dòng)的構(gòu)建,避免了背景環(huán)境的干擾,能有效地提高噪聲場(chǎng)景下動(dòng)作識(shí)別的準(zhǔn)確性和魯棒性。在過(guò)去的幾年里,自監(jiān)督對(duì)比學(xué)習(xí)骨架行為識(shí)別方法取得了優(yōu)秀的表現(xiàn),然而,這些方法仍然面臨著很多問(wèn)題:首先,現(xiàn)有的骨架數(shù)據(jù)增強(qiáng)策略無(wú)法為對(duì)比學(xué)習(xí)提供豐富的困難對(duì)比對(duì)來(lái)有效地學(xué)習(xí)一般的鑒別性時(shí)空骨架運(yùn)動(dòng)表征;其次,骨架數(shù)據(jù)缺乏上下文信息和交互對(duì)象,相似動(dòng)作類間差異小。因此,基于骨架時(shí)空特征直接進(jìn)行建模,對(duì)難以區(qū)分的模糊行為在性能方面帶來(lái)的是有限的回報(bào);模糊動(dòng)作組即編碼器難以區(qū)分的一組相似動(dòng)作,限制了骨架行為識(shí)別模型的分類性能,如何有效的捕捉相似動(dòng)作類間最具區(qū)別性和最具代表性的運(yùn)動(dòng)特征和語(yǔ)義特征仍然具有挑戰(zhàn)性。
3、專利申請(qǐng)一種基于多模態(tài)注意力融合網(wǎng)絡(luò)的行為識(shí)別方法及系統(tǒng)(cn114170683a),首先利用多模態(tài)注意力融合網(wǎng)絡(luò)中的resnext101網(wǎng)絡(luò)提取待識(shí)別的視頻中的rgb特征;并利用多模態(tài)注意力融合網(wǎng)絡(luò)中的shift-gcn網(wǎng)絡(luò)提取骨骼特征;對(duì)利用多模態(tài)注意力融合網(wǎng)絡(luò)中的模態(tài)融合網(wǎng)絡(luò)對(duì)rgb特征和骨骼特征進(jìn)行模態(tài)融合,確定模態(tài)融合后的特征;利用多模態(tài)注意力融合網(wǎng)絡(luò)中的通道融合網(wǎng)絡(luò)對(duì)模態(tài)融合后的特征進(jìn)行通道融合,確定通道融合后的特征;對(duì)rgb特征的損失、骨骼特征的損失以及通道融合后的特征的損失進(jìn)行整合,確定多模態(tài)損失,并利用多模態(tài)損失優(yōu)化多模態(tài)注意力融合網(wǎng)絡(luò),輸出行為識(shí)別結(jié)果。此申請(qǐng)采用了rgb數(shù)據(jù)和骨架數(shù)據(jù)進(jìn)行多模態(tài)特征融合,并且使用了gcn的方法進(jìn)行動(dòng)作識(shí)別分類,這種方法需要對(duì)數(shù)據(jù)集進(jìn)行大量的標(biāo)注標(biāo)簽工作,而且采用rgb圖像數(shù)據(jù)又要面臨著占據(jù)大量存儲(chǔ)空間和易受復(fù)雜環(huán)境影響的難題,不利于提高識(shí)別準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、為了克服上述現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明的目的在于提供一種基于動(dòng)作語(yǔ)義引導(dǎo)的自監(jiān)督骨架行為識(shí)別方法、系統(tǒng)、設(shè)備及介質(zhì),結(jié)合多模態(tài)訓(xùn)練開(kāi)發(fā)了一種新的對(duì)比學(xué)習(xí)框架,它利用自動(dòng)生成原型提示來(lái)進(jìn)行骨架動(dòng)作識(shí)別,利用大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(gpt-3)作為知識(shí)引擎,為每一類動(dòng)作生成一組相關(guān)的有意義的動(dòng)作文本描述,使用動(dòng)作的文本描述來(lái)給正負(fù)樣本對(duì)添加額外的動(dòng)作語(yǔ)義信息,輔助模型學(xué)習(xí)更好的動(dòng)作表示,提高動(dòng)作識(shí)別模型的準(zhǔn)確性高和魯棒性。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下的技術(shù)方案:
3、一種基于動(dòng)作語(yǔ)義引導(dǎo)的自監(jiān)督骨架行為識(shí)別方法,首先,獲取待訓(xùn)練骨架視頻樣本并進(jìn)行預(yù)處理;其次,通過(guò)動(dòng)作語(yǔ)義生成模塊生成預(yù)處理后人體骨架數(shù)據(jù)集中每類動(dòng)作的語(yǔ)義原型即生成對(duì)應(yīng)動(dòng)作文本語(yǔ)義特征;另外,將預(yù)處理后的人體骨架數(shù)據(jù)集輸入到特征增強(qiáng)模塊(fam),實(shí)現(xiàn)骨架數(shù)據(jù)增強(qiáng),生成對(duì)應(yīng)動(dòng)作的骨架特征;最后,使用多模態(tài)融合模塊融合對(duì)應(yīng)動(dòng)作的動(dòng)作文本語(yǔ)義特征和骨架特征,輔助模型從語(yǔ)義層面學(xué)習(xí)更具區(qū)別性和代表性的動(dòng)作表示,提升模糊動(dòng)作識(shí)別精度,通過(guò)對(duì)比學(xué)習(xí)的方法,以自監(jiān)督的方式在保證模型識(shí)別性能的同時(shí)降低對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴,實(shí)現(xiàn)基于骨架的人體動(dòng)作分類。
4、一種基于動(dòng)作語(yǔ)義引導(dǎo)的自監(jiān)督骨架行為識(shí)別方法,具體包括以下步驟:
5、步驟1,采集待訓(xùn)練骨架視頻樣本:利用公開(kāi)網(wǎng)絡(luò)資源,獲取包含人體骨架動(dòng)作的數(shù)據(jù)集,并進(jìn)行預(yù)處理操作,所述預(yù)處理操作包括提取原始骨架數(shù)據(jù)、去除噪聲干擾和視角歸一化,以獲得經(jīng)過(guò)預(yù)處理的人體骨架數(shù)據(jù)集;
6、步驟2,通過(guò)動(dòng)作語(yǔ)義生成模塊生成預(yù)處理后人體骨架數(shù)據(jù)集中每類動(dòng)作的語(yǔ)義原型,具體來(lái)說(shuō),首先為大規(guī)模語(yǔ)言模型(llm)設(shè)計(jì)動(dòng)作提示生成行為描述,其次生成的描述被饋送到文本編碼器生成對(duì)應(yīng)動(dòng)作文本語(yǔ)義特征;
7、步驟3,將步驟1預(yù)處理后的人體骨架數(shù)據(jù)集輸入到特征增強(qiáng)模塊(fam),實(shí)現(xiàn)骨架數(shù)據(jù)增強(qiáng);增強(qiáng)的骨架數(shù)據(jù)經(jīng)過(guò)骨架編碼器,投影,嵌入,生成對(duì)應(yīng)動(dòng)作的骨架特征;
8、步驟4,將步驟2得到的動(dòng)作文本語(yǔ)義特征和步驟3得到的骨架特征輸入到多模態(tài)特征融合模塊(fam),實(shí)現(xiàn)語(yǔ)義特征和骨架特征融合;通過(guò)對(duì)比損失函數(shù)的設(shè)置,比較同一個(gè)特征空間中不同動(dòng)作樣本生成的融合后的特征表示的相似度,來(lái)區(qū)分不同的動(dòng)作樣本,反向傳播訓(xùn)練骨架編碼器;最后,在反向傳播訓(xùn)練的骨架編碼器后增加一個(gè)具有softmax激活函數(shù)的全連接層,并使用一種完全監(jiān)督的方法來(lái)訓(xùn)練分類器,實(shí)現(xiàn)動(dòng)作分類。
9、所述步驟2包括:
10、首先,從段落、同義詞和上下文推理三個(gè)層面生成數(shù)據(jù)集包含的每一類動(dòng)作的一組動(dòng)作文本描述,再通過(guò)聚類算法獲得動(dòng)作的語(yǔ)義原型表示;隨后,將語(yǔ)義原型表示輸入到文本編碼器et(·)中,生成語(yǔ)義原型向量:
11、
12、其中,text表示llm生成的動(dòng)作描述,textencoder(·)表示文本編碼器,normalization(·)表示聚合特征的歸一化,生成的歸一化特征的投影是嵌入文本信息的特征向量。
13、步驟3所述的特征增強(qiáng)模塊(fam)包括數(shù)據(jù)增強(qiáng)(包括裁剪crop和剪切shear)模塊和隨機(jī)骨架掩碼數(shù)據(jù)增強(qiáng)模塊;
14、3.1在數(shù)據(jù)增強(qiáng)模塊中,給定原始骨架序列s,通過(guò)裁剪和剪切變換得到增強(qiáng)后的骨架序列,使用查詢編碼器和動(dòng)量更新的鍵值編碼器提取人體骨架的時(shí)空特征,然后使用全局平均池化(gap)獲得查詢嵌入z和鍵值嵌入
15、3.2通過(guò)隨機(jī)骨架掩碼數(shù)據(jù)增強(qiáng)模塊,使動(dòng)作識(shí)別在時(shí)序動(dòng)作區(qū)間上的部分序列來(lái)執(zhí)行:
16、3.2.1進(jìn)行原始骨架序列可視化,由于動(dòng)作通常發(fā)生在一個(gè)很小的局部時(shí)序區(qū)域,動(dòng)作開(kāi)始的數(shù)個(gè)時(shí)間幀無(wú)運(yùn)動(dòng)發(fā)生;將數(shù)據(jù)增強(qiáng)模塊中增強(qiáng)的骨架序列和表示人體關(guān)節(jié)物理連接的鄰接矩陣分別表示為x和a,特征提取計(jì)算為:
17、
18、這里,是對(duì)角度矩陣,i是單位陣,σ(·)是激活函數(shù);w是可學(xué)習(xí)矩陣;采用骨架編碼器,輸入增強(qiáng)的骨架序列;
19、3.2.2對(duì)上述增強(qiáng)后的骨架序列的特征xa進(jìn)行截?cái)郼%,丟棄剩余序列,生成一組密集的靜態(tài)錨點(diǎn)(staticancor):
20、
21、這里,是第i批序列中第t幀的數(shù)據(jù),t在截?cái)嗟姆秶畠?nèi),即0<t<t×c%,n是批量大小,v是節(jié)點(diǎn)個(gè)數(shù),c是超參數(shù);
22、3.2.3計(jì)算原始骨架sn,1,與靜態(tài)錨點(diǎn)sn,2之間的相似性,為了挖掘運(yùn)動(dòng)區(qū)域,將靜態(tài)錨點(diǎn)與數(shù)據(jù)增強(qiáng)模塊中得到的骨架序列進(jìn)行比較,生成掩碼矩陣mr:
23、
24、這里,的x∈rc×t×v是原始骨架數(shù)據(jù),a∈rv×v,n是骨架序列的數(shù)量,f是骨架編碼器,t是數(shù)據(jù)增強(qiáng),c是超參數(shù),mr∈rc×t×v是一個(gè)[0,1]掩碼矩陣;
25、3.2.4根據(jù)掩碼矩陣掩蔽一些時(shí)間幀數(shù)據(jù),生成一個(gè)掩碼后的骨架序列g(shù)r,表示為:
26、
27、掩碼后的序列需要被統(tǒng)一為固定長(zhǎng)度的序列數(shù)據(jù),采用多次插值將掩碼后的骨架序列調(diào)整到的目標(biāo)長(zhǎng)度。
28、所述步驟4的具體方法為:
29、4.1首先將步驟3.1所得到的經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后的特征向量與步驟2所得到的文本特征向量融合,得到對(duì)應(yīng)融合后的多模態(tài)特征向量:
30、
31、其中,z'分別代表經(jīng)過(guò)裁剪和剪切變換數(shù)據(jù)增強(qiáng)后的特征向量與文本特征向量融合的多模態(tài)特征向量,linear(·)表示線性變化,alignment將骨架特征與文本特征融合;定義一個(gè)先入先出的內(nèi)存隊(duì)列q中的嵌入mi是上一輪次的鍵值嵌入z',其中,k代表隊(duì)列大小,和z'形成正樣本對(duì),而z'和q中的嵌入mi形成負(fù)樣本對(duì);
32、infonce損失可以表述為:
33、
34、其中,表示嵌入z'與內(nèi)存隊(duì)列q之間的相似性;
35、4.2同理,掩碼后的骨架序列g(shù)r經(jīng)過(guò)全局平均池化(gap)得到查詢嵌入與和z'分別構(gòu)成兩個(gè)正樣本對(duì),下面用代表和z',而和q中的嵌入形成負(fù)樣本對(duì);因此,掩碼視圖的對(duì)比度損失表述為:
36、
37、這里,為查詢編碼器,其參數(shù)通過(guò)梯度反向傳播進(jìn)行更新,為鍵值編碼器,而的參數(shù)使用查詢編碼器的移動(dòng)平均值更新,表示為:
38、
39、其中,m∈[0,1)是一個(gè)動(dòng)量系數(shù),通常接近于1,以保持在內(nèi)存隊(duì)列中嵌入的一致性;
40、最后,用損失l優(yōu)化編碼器:
41、
42、其中,λ是一個(gè)平衡兩個(gè)對(duì)比對(duì)的超參數(shù);
43、通過(guò)梯度下降算法,根據(jù)計(jì)算出的損失函數(shù)l來(lái)更新編碼器的參數(shù),進(jìn)行迭代訓(xùn)練直到模型達(dá)到設(shè)定的訓(xùn)練輪數(shù),保留編碼器作為特征提取器,用于后續(xù)的下游任務(wù),實(shí)現(xiàn)動(dòng)作分類。
44、一種基于動(dòng)作語(yǔ)義引導(dǎo)的自監(jiān)督骨架行為識(shí)別系統(tǒng),包括:
45、動(dòng)作語(yǔ)義生成模塊,用于步驟2,通過(guò)聚類算法實(shí)現(xiàn)每一類動(dòng)作的段落、同義詞和上下文推理三個(gè)層面的一組動(dòng)作文本描述的語(yǔ)義原型表示,然后通過(guò)為llms精心設(shè)計(jì)動(dòng)作提示生成行為描述,生成的描述被饋送到文本編碼器生成對(duì)應(yīng)動(dòng)作文本語(yǔ)義特征;
46、特征增強(qiáng)模塊(fam),用于步驟3,首先,通過(guò)裁剪和剪切變換實(shí)現(xiàn)骨架序列的常規(guī)增強(qiáng);其次,設(shè)置靜態(tài)錨點(diǎn),通過(guò)與常規(guī)數(shù)據(jù)增強(qiáng)的骨架序列進(jìn)行比較得到掩碼矩陣,根據(jù)掩碼矩陣實(shí)現(xiàn)隨機(jī)骨架掩碼數(shù)據(jù)增強(qiáng)碼,實(shí)現(xiàn)運(yùn)動(dòng)區(qū)域的挖掘;
47、動(dòng)作語(yǔ)義引導(dǎo)多模態(tài)融合模塊,用于步驟4,通過(guò)疊加動(dòng)作語(yǔ)義原型向量于骨架向量,實(shí)現(xiàn)骨架與文本特征融合,輔助模型從語(yǔ)義層面學(xué)習(xí)更具區(qū)別性和代表性的動(dòng)作表示,提升模糊動(dòng)作識(shí)別精度。
48、一種基于動(dòng)作語(yǔ)義引導(dǎo)的自監(jiān)督骨架行為識(shí)別設(shè)備,包括:
49、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;
50、處理器,用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)步驟1至4所述的基于動(dòng)作語(yǔ)義引導(dǎo)的自監(jiān)督骨架行為識(shí)別方法。
51、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)能夠基于步驟1至4所述方法實(shí)現(xiàn)基于動(dòng)作語(yǔ)義引導(dǎo)的自監(jiān)督骨架行為識(shí)別。
52、相對(duì)于現(xiàn)有技術(shù),本發(fā)明有益效果如下:
53、1、動(dòng)作語(yǔ)義原型提?。罕景l(fā)明使用自動(dòng)生成原型提示進(jìn)行基于骨架動(dòng)作識(shí)別的工作,它通過(guò)gpt-3.5生成多方面動(dòng)作文本描述,使用聚類算法獲得每一類動(dòng)作的語(yǔ)義原型表示。利用動(dòng)作的文本描述來(lái)給正負(fù)樣本對(duì)添加額外的語(yǔ)義信息,輔助模型學(xué)習(xí)更好的動(dòng)作表征,用于動(dòng)作識(shí)別。
54、2、隨機(jī)骨架掩碼數(shù)據(jù)增強(qiáng)模塊:本發(fā)明將一組數(shù)據(jù)增強(qiáng)t應(yīng)用于原始骨架序列,增強(qiáng)骨架序列經(jīng)過(guò)單層骨架編碼器提取骨架空間特征,以增大對(duì)應(yīng)幀中的骨架特征差異。通過(guò)截?cái)喈?dāng)前批次動(dòng)作開(kāi)始的數(shù)個(gè)時(shí)間幀生成一組密集的靜態(tài)錨點(diǎn),比較增強(qiáng)骨架序列與靜態(tài)錨點(diǎn)挖掘運(yùn)動(dòng)區(qū)域,這是一種有效的骨架數(shù)據(jù)增強(qiáng)策略,提升了編碼器的特征提取能力。
55、3、語(yǔ)義原型引導(dǎo)的骨架動(dòng)作識(shí)別:開(kāi)發(fā)了一種新的semantic?representation-guided?contrastive?learning框架(sg-clr)用于基于骨架的動(dòng)作識(shí)別。結(jié)合了多模態(tài)訓(xùn)練開(kāi)發(fā)的一種新的對(duì)比學(xué)習(xí)框架,利用動(dòng)作的文本描述來(lái)給正負(fù)樣本對(duì)添加額外的文本語(yǔ)義信息,增強(qiáng)了模型的語(yǔ)義感知能力,輔助模型從語(yǔ)義層面分辨模糊動(dòng)作。
56、4、驗(yàn)證實(shí)驗(yàn)和性能優(yōu)勢(shì):通過(guò)充分的消融實(shí)驗(yàn),證明了所提出的創(chuàng)新子模塊的有效性,這驗(yàn)證了發(fā)明的可行性和有效性。通過(guò)與現(xiàn)有的基于gcn方法和基于transformer的方法進(jìn)行對(duì)比實(shí)驗(yàn),本發(fā)明展示了在三個(gè)不同數(shù)據(jù)集上的性能優(yōu)勢(shì),這意味著sg-clr模型在動(dòng)作分類方面取得了更好的結(jié)果。
57、本發(fā)明引入了一種創(chuàng)新的骨架動(dòng)作識(shí)別方法,通過(guò)語(yǔ)義特征提取及多模態(tài)特征融合的骨架動(dòng)作識(shí)別方法,提高了動(dòng)作分類的準(zhǔn)確性和魯棒性。
58、相較于現(xiàn)有技術(shù),本發(fā)明具有以下優(yōu)點(diǎn):
59、1、相似性動(dòng)作識(shí)別的有效解決:與現(xiàn)有一種基于多模態(tài)注意力融合網(wǎng)絡(luò)的行為識(shí)別方法(cn113761975b)采用rgb信息和骨架信息相比,本發(fā)明采用了語(yǔ)義信息與骨架信息,更專注于處理模糊性的動(dòng)作識(shí)別的問(wèn)題。這是傳統(tǒng)骨架動(dòng)作識(shí)別方法的關(guān)鍵挑戰(zhàn)之一,而本發(fā)明采用多模態(tài)數(shù)據(jù),通過(guò)加入語(yǔ)義信息到骨架特征來(lái)應(yīng)對(duì)這些問(wèn)題,在處理相似動(dòng)作時(shí),傳統(tǒng)方法可能因?yàn)閯?dòng)作間微小差異而難以區(qū)分,導(dǎo)致識(shí)別精度下降。而通過(guò)語(yǔ)義特征提取,模型能夠捕捉到更深層次、更抽象的動(dòng)作特征,這些特征對(duì)于區(qū)分相似動(dòng)作至關(guān)重要。
60、2、更低的數(shù)據(jù)依賴:利用深度學(xué)習(xí)和多模態(tài)信息融合的方法可以在噪聲數(shù)據(jù)存在的情況下學(xué)習(xí)到有效的特征表示,降低了預(yù)處理數(shù)據(jù)的依賴。多模態(tài)特征融合方法可以綜合不同來(lái)源的信息,增加了模型對(duì)動(dòng)作的整體理解,同時(shí)也使得模型在面對(duì)不同場(chǎng)景、不同角度或者不同執(zhí)行者產(chǎn)生的動(dòng)作變異時(shí),仍然能夠保持較高的識(shí)別性能。這種泛化能力是處理實(shí)際應(yīng)用中的動(dòng)作識(shí)別問(wèn)題所必需的。
61、3、更好的復(fù)雜動(dòng)作的處理能力:語(yǔ)義特征提取關(guān)注于理解動(dòng)作的意義和上下文,它不僅僅局限于動(dòng)作的物理表現(xiàn)(如手的運(yùn)動(dòng)路徑),而是進(jìn)一步挖掘動(dòng)作的內(nèi)在含義(如招手表示的是打招呼)。對(duì)于復(fù)雜動(dòng)作,這種語(yǔ)義層面的理解尤其重要,因?yàn)閺?fù)雜動(dòng)作往往包含更多的抽象含義和微妙的變化,僅僅依賴于物理特征很難進(jìn)行準(zhǔn)確識(shí)別。通過(guò)語(yǔ)義特征提取,可以識(shí)別出動(dòng)作中的細(xì)微差別,從而有效地區(qū)分非常相似的動(dòng)作,提高細(xì)粒度動(dòng)作的識(shí)別率;在動(dòng)態(tài)或復(fù)雜的動(dòng)作中,多模態(tài)融合能夠有效地利用各種信息源,保持識(shí)別性能。
62、4、更好的數(shù)據(jù)效率:對(duì)比學(xué)習(xí)能夠有效地利用未標(biāo)記數(shù)據(jù),通過(guò)自監(jiān)督的方式生成大量的訓(xùn)練樣本。這對(duì)于動(dòng)作識(shí)別任務(wù)特別有價(jià)值,因?yàn)槭占蜆?biāo)注大量高質(zhì)量的動(dòng)作數(shù)據(jù)可能非常耗時(shí)和昂貴。其次,只在訓(xùn)練階段需要加入語(yǔ)義信息,且是在利用自監(jiān)督的對(duì)比學(xué)習(xí)方法完成骨架數(shù)據(jù)分類之后再加入語(yǔ)義信息,因此這節(jié)省了標(biāo)記數(shù)據(jù)集的成本。通過(guò)對(duì)多模態(tài)特征進(jìn)行對(duì)比學(xué)習(xí),可以從已有的數(shù)據(jù)中挖掘出更多的價(jià)值,提高數(shù)據(jù)使用效率。
63、5、廣泛應(yīng)用潛力:利用語(yǔ)義特征和多模態(tài)信息,模型能夠?qū)W習(xí)到更加泛化的動(dòng)作表示,這種表示不僅限于訓(xùn)練數(shù)據(jù)中出現(xiàn)的動(dòng)作實(shí)例,而是能夠捕捉到動(dòng)作的本質(zhì)特征。而對(duì)比學(xué)習(xí)通過(guò)大量的正負(fù)樣本對(duì)來(lái)訓(xùn)練模型,有助于模型捕捉到更為通用的數(shù)據(jù)特征,而不是僅僅過(guò)度擬合于訓(xùn)練數(shù)據(jù)的特定屬性。這意味著對(duì)比學(xué)習(xí)方法訓(xùn)練出的模型具有更好的泛化能力,能夠在未見(jiàn)過(guò)的數(shù)據(jù)上表現(xiàn)更好。鑒于本發(fā)明的良好的魯棒性和泛化能力,它具有廣泛的應(yīng)用潛力,包括運(yùn)動(dòng)分析、健康監(jiān)測(cè)、虛擬現(xiàn)實(shí)、姿勢(shì)識(shí)別和安全領(lǐng)域等,應(yīng)用前景廣闊。
64、本發(fā)明側(cè)重于對(duì)模型進(jìn)行特殊設(shè)計(jì)。首先,分別對(duì)骨架數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行特征提取。對(duì)于骨架數(shù)據(jù),采取隨機(jī)骨架掩碼數(shù)據(jù)增強(qiáng)方式得到更豐富的硬樣本,使用st-gcn作為編碼器捕捉人體關(guān)節(jié)間的依賴關(guān)系;對(duì)于文本數(shù)據(jù),利用預(yù)訓(xùn)練的語(yǔ)言模型(gpt-3.5)來(lái)提取多層次動(dòng)作描述的語(yǔ)義特征,使用聚類的方法提取語(yǔ)義原型來(lái)指導(dǎo)后續(xù)的學(xué)習(xí)過(guò)程;最后,通過(guò)拼接(concat)的方式將語(yǔ)義向量加入到骨架特征向量中,生成一個(gè)統(tǒng)一的多模態(tài)特征表示,利用融合后的多模態(tài)特征,通過(guò)對(duì)比學(xué)習(xí)的方式,模型被訓(xùn)練以優(yōu)化對(duì)于相似動(dòng)作之間的區(qū)分度。
65、總體而言,本發(fā)明通過(guò)這種結(jié)合了語(yǔ)義原型引導(dǎo)、大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型和對(duì)比學(xué)習(xí)的方法,能夠從不同層面理解和識(shí)別人類動(dòng)作,尤其是在處理復(fù)雜、細(xì)微差異的動(dòng)作時(shí),展現(xiàn)出更高的準(zhǔn)確性和效率。這一方法不僅在理論上具有普適性,而且在實(shí)際應(yīng)用中表現(xiàn)出了顯著的性能優(yōu)勢(shì)。
66、綜上所述,本發(fā)明采用多模態(tài)機(jī)制,這種設(shè)計(jì)在不同數(shù)據(jù)集中表現(xiàn)出普適性,無(wú)需為各個(gè)數(shù)據(jù)集進(jìn)行個(gè)性化調(diào)整。通過(guò)將注意力集中在焦點(diǎn)運(yùn)動(dòng)幀上,不僅能夠更有效地識(shí)別人體動(dòng)作,還能夠自動(dòng)適應(yīng)不同數(shù)據(jù)集的特征差異。與傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法相比,我們的模型更注重從數(shù)據(jù)中學(xué)習(xí)運(yùn)動(dòng)幀數(shù)據(jù)的關(guān)鍵信息,通過(guò)采用語(yǔ)義引導(dǎo)多模態(tài)融合模塊,解決了相似性動(dòng)作的區(qū)分問(wèn)題,提高了在真實(shí)世界場(chǎng)景中的動(dòng)作識(shí)別能力,取得了高精度的骨架動(dòng)作分類結(jié)果,為多個(gè)領(lǐng)域的應(yīng)用提供了高效、可靠的解決方案。