本發(fā)明申請為申請日2023年7月21日,申請?zhí)枮椋?02310899391.4,名稱為“一種人體關(guān)鍵點檢測方法及系統(tǒng)”的發(fā)明專利申請的分案申請。本發(fā)明涉及計算機視覺,尤其涉及一種人體關(guān)鍵點檢測方法及系統(tǒng)。
背景技術(shù):
1、人體關(guān)鍵點檢測通過對人體主要骨骼點(關(guān)鍵點)的位置預(yù)測,實現(xiàn)人體姿態(tài)估計。人體姿態(tài)估計是計算機視覺領(lǐng)域的基礎(chǔ)任務(wù)之一,可廣泛應(yīng)用于動作識別、行人跟蹤、自動駕駛、人機交互等領(lǐng)域。行業(yè)內(nèi)的技術(shù)采用分為自底而上(bottom-up)和自頂而下(top-down)兩種思路。
2、自底而上的方法直接從原圖檢測人體關(guān)鍵點,再根據(jù)不同關(guān)鍵點間的關(guān)系進行分組。自頂而下的方法先檢測行人區(qū)域,再對每個行人進行關(guān)鍵點檢測,可視為行人檢測和單人姿態(tài)估計的組合。通常自頂而下的技術(shù)方案的準確性要高于自底而上,但是效率卻要低于自底而下。
3、為了實現(xiàn)高精度的人體關(guān)鍵點檢測,發(fā)明專利一種多人人體姿態(tài)估計方法(cn111339903b),公開了采用自底向上與自頂向下兩種方法結(jié)合的兩階段訓練方法,訓練深度特征人體關(guān)鍵點檢測模型,首先進行自底向上的方法訓練該深度特征人體關(guān)鍵點檢測模型,然后進行自頂向下的方法訓練該深度特征人體關(guān)鍵點檢測模型,最終利用兩階段訓練好深度特征人體關(guān)鍵點檢測模型檢測人體關(guān)鍵點,采用自底向上訓練深度特征人體關(guān)鍵點檢測模型,輸出人體關(guān)鍵點檢測置信度熱圖;采用自頂向下訓練深度特征人體關(guān)鍵點檢測模型,識別裁剪后的圖像中的所有人體關(guān)鍵點。
4、上述方法,可實現(xiàn)圖像中多人體關(guān)鍵點的識別,但模型訓練過程復(fù)雜,特提出本發(fā)明,本發(fā)明是在自頂而下的基礎(chǔ)上次加以改進,在確保自頂而下技術(shù)方案的準確性的同時,又提高了運行效率。
技術(shù)實現(xiàn)思路
1、本發(fā)明的發(fā)明目的是針對現(xiàn)有技術(shù)的不足,提供了一種人體關(guān)鍵點檢測方法及系統(tǒng),可精確實現(xiàn)人體關(guān)鍵點的估計,適用范圍廣。
2、第一方面,本技術(shù)提供一種人體關(guān)鍵點檢測方法,包括:
3、步驟1,構(gòu)建人體關(guān)鍵點估計網(wǎng)絡(luò),所述人體關(guān)鍵點估計網(wǎng)絡(luò)包括多尺度特征提取模塊、檢測頭模塊、人體位置框檢測模塊、感興趣區(qū)域?qū)R模塊和人體關(guān)鍵點檢測模塊;
4、所述多尺度特征提取模塊用于接受輸入圖像并輸出多個尺度的特征圖;
5、所述檢測頭模塊用于接受特征圖并輸出多個尺度的檢測頭特征圖;
6、所述人體位置框檢測模塊用于接受檢測頭特征圖并輸出多個尺度的預(yù)測人體位置框;
7、所述感興趣區(qū)域?qū)R模塊用于接受檢測頭特征圖、人體位置框并輸出多個尺度的對齊特征圖;
8、所述人體關(guān)鍵點檢測模塊用于接受對齊特征圖并輸出不同尺度的人體關(guān)鍵點預(yù)測坐標;
9、步驟2,利用訓練數(shù)據(jù)集訓練所述人體關(guān)鍵點估計網(wǎng)絡(luò),得到人體關(guān)鍵點估計模型;
10、步驟3,將待檢測圖像輸入所述人體關(guān)鍵點估計模型,輸出不同尺度的人體關(guān)鍵點預(yù)測坐標;
11、步驟4,對不同尺度的所述人體關(guān)鍵點預(yù)測坐標進行融合,得到人體關(guān)鍵點坐標。
12、進一步地,所述多尺度特征圖提取模塊輸出4個尺度的特征圖,所述檢測頭模塊輸出4個尺度的檢測頭特征圖,所述人體位置框檢測模塊輸出4個尺度的預(yù)測人體位置框;所述感興趣區(qū)域?qū)R模塊輸出4個尺度的對齊特征圖,所述人體關(guān)鍵點檢測模塊輸出4個不同尺度的17個人體關(guān)鍵點預(yù)測坐標。
13、進一步地,所述多尺度特征圖提取模塊包括backbone特征提取模塊、自上而下多尺度特征融合模塊以及自下而上多尺度特征融合模塊。
14、進一步地,所述backbone特征提取模塊采用多個殘差網(wǎng)絡(luò)塊,得到至少4個尺度的特征圖,輸出分辨率從小到大的最后4個尺度的特征圖,分別為:boneend,boneend-1,boneend-2,boneend-3;
15、所述自上而下多尺度特征融合模塊,輸出4個尺度的特征圖,分辨率從小到大分別為upend,upend-1,upend-2,upend-3,其中,upend通過對boneend進行卷積操作得到;upend-1通過對upend進行轉(zhuǎn)置卷積并加上boneend-1的卷積操作后得到;upend-2通過對upend-1進行轉(zhuǎn)置卷積并加上boneend-2的卷積操作后得到;upend-3通過對upend-2進行轉(zhuǎn)置卷積并加上boneend-3的卷積操作后得到;
16、所述自下而上多尺度特征融合模塊,輸出4個尺度的特征圖,分辨率從小到大分別為downend,downend-1,downend-2,downend-3,其中,downend-3通過對upend-3卷積操作得到;downend-2通過對downend-3卷積操作并加上upend-2的卷積操作后得到;downend-1通過對downend-2卷積操作并加上upend-1的卷積操作后得到;downend通過對downend-1卷積操作并加上upend的卷積操作后得到。
17、進一步地,所述檢測頭模塊通過對4個尺度的特征圖分別做卷積操作,輸出4個尺度的檢測頭特征圖,分別為:headend,headend-1,headend-2,headend-3。
18、進一步地,所述人體位置框檢測模塊分別對4個尺度的檢測頭特征圖做卷積操作,得到4個尺度的預(yù)測人體位置框,分別為boxend,bonend-1,boxend-2,boxend-3,為每個尺度中的每個像素預(yù)測至少1個anchor,每個anchor預(yù)測6個值,分別為人體位置框的中心位置的橫坐標、人體位置框的中心位置的縱坐標、人體位置框相對中心位置寬的偏移量、人體位置框相對中心位置高的偏移量、目標存在的置信度boxconf以及人體類別置信度humanconf。
19、進一步地,所述預(yù)測人體位置框的特征圖的通道數(shù)為18,為每個像素預(yù)測3個anchor。
20、進一步地,所述感興趣區(qū)域?qū)R模塊采用感興趣區(qū)域?qū)R技術(shù),輸出4個尺度的對齊特征圖,分別為alignend,alignend-1,alignend-2,alignend-3。
21、進一步地,所述人體關(guān)鍵點檢測模塊對4個尺度的對齊特征圖采用卷積操作,得到4個尺度的人體關(guān)鍵點預(yù)測特征圖,分別為pointend,pointend-1,pointend-2,pointend-3,所述人體關(guān)鍵點預(yù)測特征圖的通道數(shù)為17。
22、進一步地,所述步驟2包括:
23、步驟21,選擇所述訓練數(shù)據(jù)集,所述訓練數(shù)據(jù)集為coco數(shù)據(jù)集;
24、步驟22,所述人體位置框為真實人體位置框或所述預(yù)測人體位置框,所述真實人體位置框為coco數(shù)據(jù)集中標注的人體位置框,訓練過程中實時獲取所述真實人體位置框以及所述預(yù)測人體位置框;
25、當所述真實人體位置框與所述預(yù)測人體位置框的iou≤80%時,所述人體關(guān)鍵點估計網(wǎng)絡(luò)的感興趣區(qū)域?qū)R模塊輸入的人體位置框為真實人體位置框;
26、當所述真實人體位置框與所述預(yù)測人體位置框的iou>80%時,所述人體關(guān)鍵點估計網(wǎng)絡(luò)的感興趣區(qū)域?qū)R模塊輸入的人體位置框為真實人體位置框和預(yù)測人體位置框;
27、步驟23,采用梯度下降法訓練所述人體關(guān)鍵點估計網(wǎng)絡(luò),得到人體關(guān)鍵點估計中間模型;
28、步驟24,對所述人體關(guān)鍵點估計中間模型的感興趣區(qū)域?qū)R模塊進行調(diào)整,使其輸入的所述人體位置框為所述預(yù)測人體位置框,得到人體關(guān)鍵點估計模型。
29、進一步地,所述步驟2中,總誤差公式為:
30、lossptotal=αlossbox+(1-α)losspoint
31、其中,losstotal為總誤差,lossbox為人體位置框總誤差,losspoint為人體關(guān)鍵點總誤差,α∈(0,1)用以權(quán)衡人體位置框總誤差和人體關(guān)鍵點總誤差的權(quán)重。
32、進一步地,所述人體位置框總誤差公式為:
33、
34、采用siou來計算所述真實人體位置框和所述預(yù)測人體位置框之間的交集;
35、其中,d表示不同的尺度,i和j分表示人體位置預(yù)測特征圖的橫縱坐標,k表示anchor的序號,boxgt表示真實人體位置框,boxpred表示預(yù)測人體位置框。
36、進一步地,所述人體關(guān)鍵點總誤差公式為:
37、
38、其中,d為不同的尺度,h為人體關(guān)鍵點的序號,m和n分別為人體關(guān)鍵點預(yù)測特征圖的橫縱坐標,xm,n,s,h為人體關(guān)鍵點真實高斯值,為人體關(guān)鍵點預(yù)測坐標。
39、進一步地,所述人體關(guān)鍵點真實高斯值根據(jù)coco數(shù)據(jù)集中標定的人體關(guān)鍵點坐標,采用高斯分布對所述人體關(guān)鍵點坐標進行變換獲得。
40、進一步地,人體關(guān)鍵點的采用高斯分布來表示,將人體的關(guān)鍵點真實位置坐標的映射到不同尺度的人體關(guān)鍵點預(yù)測特征圖,并對坐標并取整,設(shè)為;設(shè)置高斯圓的半徑,設(shè)為r;在人體關(guān)鍵點預(yù)測特征圖上,以為圓心,半徑為r填充高斯函數(shù)計算值。
41、進一步地,所述步驟3具體步驟為:
42、步驟31,將待檢測圖像輸入所述多尺度特征提取模,輸出多個尺度的特征圖;
43、步驟32,將所述特征圖輸入所述檢測頭模,輸出多個尺度的檢測頭特征圖;
44、步驟33,將所述檢測頭特征圖輸入所述人體位置框檢測模塊,輸出多個尺度的預(yù)測人體位置框;
45、步驟34,將所述檢測頭特征圖以及所述預(yù)測人體位置框輸入所述感興趣區(qū)域?qū)R模塊,輸出多個尺度的對齊特征圖;
46、步驟35,將所述對齊特征圖輸入人體關(guān)鍵點檢測模塊,輸出多個尺度的人體關(guān)鍵點預(yù)測特征圖;
47、步驟36,在每個尺度的所述人體關(guān)鍵點預(yù)測特征圖中,取每個通道中最大值的坐標作為人體關(guān)鍵點預(yù)測坐標,得到不同尺度的人體關(guān)鍵點預(yù)測坐標。
48、進一步地,所述步驟4包括:
49、步驟41,將不同尺度的所述人體關(guān)鍵點預(yù)測坐標映射回所述待檢測圖像中,得到不同尺度的人體關(guān)鍵點映射坐標;
50、步驟42,將不同尺度的所述人體關(guān)鍵點映射坐標求均值,得到所述人體關(guān)鍵點坐標。
51、第二方面,本技術(shù)還提供一種人體關(guān)鍵點檢測系統(tǒng),包括人體關(guān)鍵點估計網(wǎng)絡(luò)構(gòu)建模塊、網(wǎng)絡(luò)訓練模塊、人體關(guān)鍵點坐標預(yù)測模塊、人體關(guān)鍵點坐標融合模塊;
52、所述人體關(guān)鍵點估計網(wǎng)絡(luò)構(gòu)建模塊用于構(gòu)建人體關(guān)鍵點估計網(wǎng)絡(luò),所述人體關(guān)鍵點估計網(wǎng)絡(luò)包括多尺度特征提取模塊、檢測頭模塊、人體位置框檢測模塊、感興趣區(qū)域?qū)R模塊和人體關(guān)鍵點檢測模塊;
53、所述多尺度特征提取模塊用于接受輸入圖像并輸出多個尺度的特征圖;
54、所述檢測頭模塊用于接受特征圖并輸出多個尺度的檢測頭特征圖;
55、所述人體位置框檢測模塊用于接受檢測頭特征圖并輸出多個尺度的預(yù)測人體位置框;
56、所述感興趣區(qū)域?qū)R模塊用于接受檢測頭特征圖、人體位置框并輸出多個尺度的對齊特征圖;
57、所述人體關(guān)鍵點檢測模塊用于接受對齊特征圖并輸出不同尺度的人體關(guān)鍵點預(yù)測坐標;
58、所述網(wǎng)絡(luò)訓練模塊利用訓練數(shù)據(jù)集訓練所述人體關(guān)鍵點估計網(wǎng)絡(luò),得到人體關(guān)鍵點估計模型;
59、人體關(guān)鍵點坐標預(yù)測模塊,通過將待檢測圖像輸入所述人體關(guān)鍵點估計模型,輸出不同尺度的人體關(guān)鍵點預(yù)測坐標;
60、人體關(guān)鍵點坐標融合模塊,通過將不同尺度的所述人體關(guān)鍵點預(yù)測坐標進行融合,得到人體關(guān)鍵點坐標。
61、本發(fā)明的有益效果在于:
62、(1)本發(fā)明是在自頂而下的基礎(chǔ)上次加以改進,采用一次前向推理的結(jié)構(gòu),包括了人體位置框檢測和人體關(guān)鍵點檢測,即只需要單個模型就可實現(xiàn)人體位置的檢測和人體關(guān)鍵點的檢測,確保了自頂而下技術(shù)方案的準確性的同時,又提高了運行效率。
63、(2)設(shè)計了集成多尺度特征提取模塊、檢測頭模塊、人體位置框檢測模塊、感興趣區(qū)域?qū)R模塊和人體關(guān)鍵點檢測模塊的人體關(guān)鍵點檢測網(wǎng)絡(luò),使用多通道、多階段的模式對多尺度特征圖進行分析,得到不同尺度的人體關(guān)鍵點預(yù)測坐標,最后以多尺度融合的方式將多尺度的人體關(guān)鍵點預(yù)測坐標進行融合,得到更加全面且有效的人體關(guān)鍵點坐標,實現(xiàn)人體關(guān)鍵點的高精度識別。
64、(3)集合在密集人群的應(yīng)用場景中,本發(fā)明可實現(xiàn)多人的人體框和關(guān)鍵點同時識別,能夠準確且快速地實現(xiàn)人體關(guān)鍵點的估計,無需額外的模型預(yù)先提取人體框,算法流程簡便,運算量低,滿足各種低算力設(shè)備的輕量化部署要求。