本技術(shù)涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種手勢(shì)識(shí)別方法、裝置、介質(zhì)、設(shè)備及車輛。
背景技術(shù):
1、在當(dāng)代社會(huì),人機(jī)交互已經(jīng)逐漸成為我們工作和生活中不可或缺的一部分。而隨著人工智能,尤其是深度學(xué)習(xí)的不斷發(fā)展,人機(jī)交互變得越來越智能和高效。近些年來,隨著不同領(lǐng)域?qū)W者之間的合作和研究,各種各樣的人機(jī)交互方式被開發(fā)出來以方便我們的生活與工作。作為一種重要的肢體語言,手勢(shì)是我們生活中不可或缺的一部分,例如,路上的交警用手勢(shì)來指揮交通,聾啞人用手語來實(shí)現(xiàn)與他人的交流等。因此手勢(shì)交互也受到了來自學(xué)術(shù)界和工業(yè)界越來越多的關(guān)注,已然成為了人機(jī)交互領(lǐng)域中重要的交互方式之一。
2、近幾年,卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?network,cnn)在靜態(tài)圖像分類方面取得巨大的進(jìn)步,人們很自然的想把這種進(jìn)步拓展到視頻方面,進(jìn)行動(dòng)態(tài)手勢(shì)識(shí)別,但動(dòng)態(tài)手勢(shì)識(shí)別技術(shù)由于需要對(duì)手勢(shì)進(jìn)行跟蹤和識(shí)別,其計(jì)算工作量較大且速度較慢,難以用于實(shí)時(shí)識(shí)別系統(tǒng)。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種手勢(shì)識(shí)別方法、裝置、介質(zhì)、設(shè)備及車輛,能夠提高手勢(shì)識(shí)別的準(zhǔn)確性和效率。
2、本技術(shù)實(shí)施例第一方面提供一種手勢(shì)識(shí)別方法,上述方法包括:
3、獲取動(dòng)態(tài)手勢(shì)視頻的數(shù)據(jù)集,所述數(shù)據(jù)集針對(duì)不同的應(yīng)用場景拍攝或下載獲取;
4、對(duì)所述數(shù)據(jù)集中的每一幀圖像進(jìn)行標(biāo)注,標(biāo)注的信息包括動(dòng)作從開始到結(jié)束分別是第幾幀以及動(dòng)作所屬的分類,得到樣本集;
5、構(gòu)建動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò),所述動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)包括深度可分離卷積模塊,特征金字塔模塊和長短時(shí)記憶模塊;其中,
6、所述深度可分離卷積模塊用于對(duì)所述樣本集中的圖像進(jìn)行初級(jí)特征提取,得到第一特征圖像;
7、所述特征金字塔模塊用于對(duì)所述第一特征圖像進(jìn)行下采樣得到不同尺度的特征圖,并通過上采樣及橫向連接將特征圖融合,得到包含不同深度特征的融合特征圖;
8、所述長短時(shí)記憶模塊用于對(duì)所述融合特征圖進(jìn)行局部特征提取并進(jìn)行時(shí)序處理,捕捉圖像的時(shí)序空間特征,并將處理后的特征圖映射到預(yù)設(shè)的手勢(shì)類別上,輸出動(dòng)態(tài)手勢(shì)識(shí)別結(jié)果;
9、引入預(yù)訓(xùn)練權(quán)重作為動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)的初始化權(quán)重,并將所述樣本集中的圖像輸入所述動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸出預(yù)測(cè)結(jié)果;
10、將動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與所述樣本集中對(duì)應(yīng)標(biāo)注的信息進(jìn)行不斷對(duì)比,計(jì)算網(wǎng)絡(luò)的損失值,并將所述損失值反饋至動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)中,對(duì)網(wǎng)絡(luò)進(jìn)行不斷參數(shù)修正,得到訓(xùn)練后的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò);
11、利用訓(xùn)練后的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)來對(duì)動(dòng)態(tài)手勢(shì)視頻進(jìn)行手勢(shì)識(shí)別。
12、可選地,所述深度可分離卷積模塊中的任一所述深度可分離卷積,包括:輸入層、深度卷積層、逐點(diǎn)卷積層和輸出層;其中,
13、所述輸入層的輸入為三通道圖像;
14、所述深度卷積層用于對(duì)輸入的三通道圖像進(jìn)行逐通道卷積操作,利用三個(gè)卷積核分別對(duì)三通道進(jìn)行卷積,生成三張通道特征圖;
15、所述逐點(diǎn)卷積層用于利用三維卷積核對(duì)三張通道特征圖進(jìn)行線性組合和降維,將三張通道特征圖合成一張?zhí)卣鲌D,并通過所述輸出層輸出。
16、可選地,所述特征金字塔模塊包括輸入層、對(duì)稱的多個(gè)下采樣層和多個(gè)上采樣層,上采樣層和下采樣層之間橫向連接,且橫向連接的所述上采樣層和所述下采樣層輸出的特征圖的尺寸相同;其中:
17、所述特征金字塔模塊的輸入層獲取所述第一特征圖后,通過多個(gè)下采樣層對(duì)所述第一特征圖進(jìn)行連續(xù)下采樣,逐層提取具有全局結(jié)構(gòu)的場景上下文信息,得到第二特征圖,其中,每個(gè)下采樣層輸出的特征圖的尺寸依次減半;
18、通過橫向連接將每個(gè)所述下采樣層提取的特征融合到對(duì)應(yīng)的上采樣層中,并通過多個(gè)上采樣層對(duì)所述第二特征圖進(jìn)行連續(xù)上采樣,將所述第二特征圖的尺寸逐層恢復(fù)到所述第一特征圖對(duì)應(yīng)的原始大小,得到所述融合特征圖。
19、可選地,所述方法還包括:
20、將所述樣本集中的任一圖像調(diào)整為預(yù)設(shè)尺寸,得到第一中間圖像;
21、對(duì)所述第一中間圖像進(jìn)行灰度化處理和標(biāo)準(zhǔn)化處理,得到第二中間圖像;
22、對(duì)所述第二中間圖像進(jìn)行隨機(jī)旋轉(zhuǎn)、平移、縮放和鏡像處理,得到預(yù)處理后的圖像;
23、將所述預(yù)處理后的圖像進(jìn)行數(shù)據(jù)集劃分,得到訓(xùn)練集、驗(yàn)證集和測(cè)試集;
24、利用所述訓(xùn)練集對(duì)所述動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,調(diào)整網(wǎng)絡(luò)權(quán)重及偏差,降低網(wǎng)絡(luò)的損失值;
25、利用所述驗(yàn)證集對(duì)所述動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)進(jìn)行交叉驗(yàn)證,調(diào)整網(wǎng)絡(luò)的超參數(shù),優(yōu)化網(wǎng)絡(luò)性能;
26、利用所述測(cè)試集對(duì)所述動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)的性能進(jìn)行評(píng)估,得到所述訓(xùn)練后的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)。
27、可選地,利用訓(xùn)練后的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)來對(duì)動(dòng)態(tài)手勢(shì)視頻進(jìn)行手勢(shì)識(shí)別,包括:
28、將所述訓(xùn)練后的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)部署到智能駕駛系統(tǒng)中,對(duì)駕駛過程中產(chǎn)生的手勢(shì)數(shù)據(jù)進(jìn)行手勢(shì)識(shí)別;
29、獲取用戶反饋,并基于用戶反饋和駕駛過程中產(chǎn)生的手勢(shì)數(shù)據(jù)對(duì)所述動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)進(jìn)行應(yīng)用化評(píng)估,得到應(yīng)用化評(píng)估結(jié)果;
30、基于所述應(yīng)用化評(píng)估結(jié)果,對(duì)所述動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)進(jìn)行迭代更新和優(yōu)化。
31、可選地,在將所述訓(xùn)練后的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)部署到智能駕駛系統(tǒng)之前,所述方法還包括:
32、對(duì)所述動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)進(jìn)行模型剪枝處理,移除網(wǎng)絡(luò)中冗余的神經(jīng)元和連接,對(duì)網(wǎng)絡(luò)進(jìn)行壓縮。
33、基于相同發(fā)明構(gòu)思,本技術(shù)實(shí)施例第二方面提供一種手勢(shì)識(shí)別裝置,上述裝置包括:
34、數(shù)據(jù)集獲取模塊,用于獲取動(dòng)態(tài)手勢(shì)視頻的數(shù)據(jù)集,所述數(shù)據(jù)集針對(duì)不同的應(yīng)用場景拍攝或下載獲??;
35、樣本集生成模塊,用于對(duì)所述數(shù)據(jù)集中的每一幀圖像進(jìn)行標(biāo)注,標(biāo)注的信息包括動(dòng)作從開始到結(jié)束分別是第幾幀以及動(dòng)作所屬的分類,得到樣本集;
36、網(wǎng)絡(luò)構(gòu)建模塊,用于構(gòu)建動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò),所述動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)包括深度可分離卷積模塊,特征金字塔模塊和長短時(shí)記憶模塊;其中,
37、所述深度可分離卷積模塊用于對(duì)所述樣本集中的圖像進(jìn)行初級(jí)特征提取,得到第一特征圖像;
38、所述特征金字塔模塊用于對(duì)所述第一特征圖像進(jìn)行下采樣得到不同尺度的特征圖,并通過上采樣及橫向連接將特征圖融合,得到包含不同深度特征的融合特征圖;
39、所述長短時(shí)記憶模塊用于對(duì)所述融合特征圖進(jìn)行局部特征提取并進(jìn)行時(shí)序處理,捕捉圖像的時(shí)序空間特征,并將處理后的特征圖映射到預(yù)設(shè)的手勢(shì)類別上,輸出動(dòng)態(tài)手勢(shì)識(shí)別結(jié)果;
40、訓(xùn)練模塊,用于引入預(yù)訓(xùn)練權(quán)重作為動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)的初始化權(quán)重,并將所述樣本集中的圖像輸入所述動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸出預(yù)測(cè)結(jié)果;
41、調(diào)整優(yōu)化模塊,用于將動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與所述樣本集中對(duì)應(yīng)標(biāo)注的信息進(jìn)行不斷對(duì)比,計(jì)算網(wǎng)絡(luò)的損失值,并將所述損失值反饋至動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)中,對(duì)網(wǎng)絡(luò)進(jìn)行不斷參數(shù)修正,得到訓(xùn)練后的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò);
42、應(yīng)用模塊,用于利用訓(xùn)練后的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)來對(duì)動(dòng)態(tài)手勢(shì)視頻進(jìn)行手勢(shì)識(shí)別。
43、基于相同發(fā)明構(gòu)思,本技術(shù)實(shí)施例第三方面提供一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有機(jī)器可執(zhí)行指令,所述機(jī)器可執(zhí)行指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本技術(shù)第一方面提出的手勢(shì)識(shí)別方法。
44、基于相同發(fā)明構(gòu)思,本技術(shù)實(shí)施例第四方面提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如本技術(shù)第一方面提出的手勢(shì)識(shí)別方法。
45、基于相同發(fā)明構(gòu)思,本技術(shù)實(shí)施例第五方面提供一種車輛,包括處理器和存儲(chǔ)器;所述存儲(chǔ)器存儲(chǔ)有能夠被所述處理器執(zhí)行的機(jī)器可執(zhí)行指令,所述處理器用于執(zhí)行機(jī)器可執(zhí)行指令,以實(shí)現(xiàn)如本技術(shù)第一方面提出的手勢(shì)識(shí)別方法。
46、與現(xiàn)有技術(shù)相比,本技術(shù)包括以下優(yōu)點(diǎn):
47、本技術(shù)實(shí)施例提供的一種手勢(shì)識(shí)別方法,首先通過采集不同來源和不同場景的多樣化的手勢(shì)圖像數(shù)據(jù)并進(jìn)行標(biāo)注,形成類型豐富多樣的樣本集。然后,基于手勢(shì)識(shí)別的實(shí)際應(yīng)用場景,構(gòu)建適合的輕量化的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò),包括深度可分離卷積模塊,特征金字塔模塊和長短時(shí)記憶模塊,并利用多樣化的樣本集對(duì)該動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以通過深度可分離卷積在保持特征提取能力的同時(shí)減少網(wǎng)絡(luò)的復(fù)雜度,并通過特征金字塔模塊融合手勢(shì)的整體結(jié)構(gòu)信息和局部細(xì)節(jié)信息,再通過長短時(shí)記憶模塊學(xué)習(xí)手勢(shì)的時(shí)空特征,進(jìn)而識(shí)別出不同的手勢(shì)動(dòng)作。最后,將訓(xùn)練后的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)部署到實(shí)際應(yīng)用場景中,以進(jìn)行實(shí)時(shí)的手勢(shì)識(shí)別,提高手勢(shì)識(shí)別的準(zhǔn)確性和效率。