本發(fā)明涉及計算機視覺領(lǐng)域,尤其涉及一種基于事件驅(qū)動的頭部姿態(tài)估計方法、系統(tǒng)、設(shè)備與介質(zhì)。
背景技術(shù):
1、頭部姿態(tài)估計在計算機視覺領(lǐng)域也是一個重要的研究方向。其主要任務(wù)是通過分析場景序列中的人臉圖像,準確計算出頭部的三個旋轉(zhuǎn)角度(俯仰角、偏航角和翻滾角)。頭部姿態(tài)估計技術(shù)在多個應(yīng)用領(lǐng)域中發(fā)揮著關(guān)鍵作用,包括駕駛員監(jiān)控系統(tǒng)中的注意力檢測、虛擬現(xiàn)實中的用戶交互、人機交互系統(tǒng)中的情感分析,以及安防監(jiān)控中的身份識別等。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,頭部姿態(tài)估計的精度和魯棒性得到了顯著提升,現(xiàn)有的方法能夠更準確地估計頭部姿態(tài),同時提高對快速運動和部分遮擋的適應(yīng)能力。
2、然而,盡管在較慢速度和正常光照下取得了顯著成就,頭部姿態(tài)估計技術(shù)在復(fù)雜光照條件和快速運動場景下的應(yīng)用仍然面臨重大挑戰(zhàn)。在這種條件下,傳統(tǒng)圖像的質(zhì)量通常會遭受嚴重的質(zhì)量退化,例如,在高速運動場景下會出現(xiàn)泛模糊的情況、強光條件下頭部紋理信息失真、弱光條件下頭部細節(jié)的大量丟失以及顏色信息的嚴重失真、光照動態(tài)變化的條件下信息捕捉不足等問題,都會影響到頭部姿態(tài)估計算法的精度和穩(wěn)定性。更為關(guān)鍵的是,大多數(shù)現(xiàn)行的傳統(tǒng)圖像估計算法比較依賴清晰、高質(zhì)量的圖像輸入作為前提,而這一條件在緊急制動、夜間駕駛或遠近光燈間接性閃爍等實際場景中往往難以滿足。正因為對清晰高質(zhì)量的頭部圖像的依賴性,極大地限制了傳統(tǒng)圖像頭部姿態(tài)估計技術(shù)在多樣環(huán)境下的應(yīng)用潛力和實際效果。
3、有鑒于此,特提出本發(fā)明。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供一種基于事件驅(qū)動的頭部姿態(tài)估計方法、系統(tǒng)、設(shè)備與介質(zhì),旨在利用事件數(shù)據(jù)的高動態(tài)特性以及捕捉物體的高速運動特性,從而能提高在高速運動時的頭部姿態(tài)估計的精度,并能提升多種光照條件下的魯棒性。
2、本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
3、一種基于事件驅(qū)動的頭部姿態(tài)估計方法,包括:
4、收集不同分辨率下的場景事件流,進行體素網(wǎng)格化處理,并獲得標簽信息;
5、構(gòu)建多場景下的頭部姿態(tài)估計網(wǎng)絡(luò),其包括:事件時空信息融合模塊、特征提取模塊、事件運動信息感知注意力模塊以及頭部姿態(tài)估計模塊;
6、使用體素網(wǎng)格化處理后的事件數(shù)據(jù)訓(xùn)練所述頭部姿態(tài)估計網(wǎng)絡(luò),包括:輸入體素網(wǎng)格化處理后的事件數(shù)據(jù),經(jīng)事件時空信息融合模塊分別提取均值信息和峰值信息,并進行邊緣檢測后生成融合空間信息的事件表征,經(jīng)過特征提取模塊提取特征信息后,所述事件運動信息感知注意力模塊采用注意力機制捕獲頭部信息,獲得事件運動信息感知的特征信息,再經(jīng)頭部姿態(tài)估計模塊估計出頭部姿態(tài)信息;結(jié)合估計出的頭部姿態(tài)信息與對應(yīng)的標簽信息計算訓(xùn)練損失函數(shù),使用訓(xùn)練損失函數(shù)訓(xùn)練所述頭部姿態(tài)估計網(wǎng)絡(luò);
7、對于輸入的體素網(wǎng)格化處理后的事件數(shù)據(jù),通過訓(xùn)練后的頭部姿態(tài)估計網(wǎng)絡(luò)估計頭部姿態(tài)信息。
8、一種基于事件驅(qū)動的頭部姿態(tài)估計系統(tǒng),包括:
9、數(shù)據(jù)收集與處理單元,用于收集不同分辨率下的場景事件流,進行體素網(wǎng)格化處理,并獲得標簽信息;
10、網(wǎng)絡(luò)構(gòu)建單元,用于構(gòu)建多場景下的頭部姿態(tài)估計網(wǎng)絡(luò),其包括:事件時空信息融合模塊、特征提取模塊、事件運動信息感知注意力模塊以及頭部姿態(tài)估計模塊;
11、網(wǎng)絡(luò)訓(xùn)練單元,用于使用體素網(wǎng)格化處理后的事件數(shù)據(jù)訓(xùn)練所述頭部姿態(tài)估計網(wǎng)絡(luò),包括:輸入體素網(wǎng)格化處理后的事件數(shù)據(jù),經(jīng)事件時空信息融合模塊分別提取均值信息和峰值信息,并進行邊緣檢測后生成融合空間信息的事件表征,經(jīng)過特征提取模塊提取特征信息后,所述事件運動信息感知注意力模塊采用注意力機制捕獲頭部信息,獲得事件運動信息感知的特征信息,再經(jīng)頭部姿態(tài)估計模塊估計出頭部姿態(tài)信息;結(jié)合估計出的頭部姿態(tài)信息與對應(yīng)的標簽信息計算訓(xùn)練損失函數(shù),使用訓(xùn)練損失函數(shù)訓(xùn)練所述頭部姿態(tài)估計網(wǎng)絡(luò);
12、頭部姿態(tài)估計單元,用于對于輸入的體素網(wǎng)格化處理后的事件數(shù)據(jù),通過訓(xùn)練后的頭部姿態(tài)估計網(wǎng)絡(luò)估計頭部姿態(tài)信息。
13、一種處理設(shè)備,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序;
14、其中,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器實現(xiàn)前述的方法。
15、一種可讀存儲介質(zhì),存儲有計算機程序,當(dāng)計算機程序被處理器執(zhí)行時實現(xiàn)前述的方法。
16、由上述本發(fā)明提供的技術(shù)方案可以看出,基于事件信號驅(qū)動,通過利用事件信號的獨特優(yōu)勢應(yīng)用于多樣場景下的頭部姿態(tài)估計任務(wù)中,這種方法在提高傳統(tǒng)圖像在頭部高速運動場景下的泛模糊情況有顯著優(yōu)勢,同時對復(fù)雜光照場景下傳統(tǒng)圖像紋理失真也有很好的改善作用;構(gòu)建的網(wǎng)絡(luò)中通過事件時空信息融合模塊,降低了某些場景下事件信息的稀疏所帶來的影響,提高了多場景下頭部姿態(tài)估計的精度,通過事件運動信息感知模塊,將注意力集中于對頭部姿態(tài)估計幫助更大的人臉關(guān)鍵部位,有效提高了關(guān)注稀疏事件運動信息有效部分的能力,進一步增強了系統(tǒng)在復(fù)雜環(huán)境中的應(yīng)用能力;并且,采用有監(jiān)督的訓(xùn)練方式進行訓(xùn)練,利用事件信息的高動態(tài)和去模糊的特性提高了不同場景下的頭部姿態(tài)估計精度。
1.一種基于事件驅(qū)動的頭部姿態(tài)估計方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于事件驅(qū)動的頭部姿態(tài)估計方法,其特征在于,所述收集不同分辨率下的場景事件流,進行體素網(wǎng)格化處理,并獲得標簽信息包括:
3.根據(jù)權(quán)利要求1所述的一種基于事件驅(qū)動的頭部姿態(tài)估計方法,其特征在于,所述事件時空信息融合模塊包括:均值信息提取模塊、峰值信息模塊、邊緣檢測模塊與融合模塊;其中:
4.根據(jù)權(quán)利要求1所述的一種基于事件驅(qū)動的頭部姿態(tài)估計方法,其特征在于,所述事件運動信息感知注意力模塊包括:若干層處理模塊,每一層處理模塊包括:依次設(shè)置的第一卷積層、分組卷積模塊、深度膨脹卷積模塊、批量歸一化模塊、第二卷積層與注意力乘積模塊,且每一卷積層后方均設(shè)有激活函數(shù);
5.根據(jù)權(quán)利要求1所述的一種基于事件驅(qū)動的頭部姿態(tài)估計方法,其特征在于,所述經(jīng)頭部姿態(tài)估計模塊估計出頭部姿態(tài)信息表示為:
6.根據(jù)權(quán)利要求1或5所述的一種基于事件驅(qū)動的頭部姿態(tài)估計方法,其特征在于,結(jié)合估計出的頭部姿態(tài)信息與對應(yīng)的標簽信息計算損失函數(shù)包括:
7.根據(jù)權(quán)利要求6所述的一種基于事件驅(qū)動的頭部姿態(tài)估計方法,其特征在于,
8.一種基于事件驅(qū)動的頭部姿態(tài)估計系統(tǒng),其特征在于,包括:
9.一種處理設(shè)備,其特征在于,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序;
10.一種可讀存儲介質(zhì),存儲有計算機程序,其特征在于,當(dāng)計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1~7任一項所述的方法。