本發(fā)明屬于機(jī)器人視覺感知和人機(jī)交互領(lǐng)域,具體涉及一種相機(jī)感知解耦和不確定性建模的無監(jiān)督領(lǐng)域適應(yīng)的人物再識(shí)別方法。
背景技術(shù):
1、人物再識(shí)別(re-id)是機(jī)器人視覺感知和人機(jī)交互領(lǐng)域的重要問題。由于機(jī)器人可能配備有多個(gè)角度的相機(jī),拍攝的照片時(shí)間、環(huán)境與角度各不相同,需要將不同照片的信息相互整合并提取關(guān)鍵信息。機(jī)器人人物再識(shí)別技術(shù)是從機(jī)器人多個(gè)相機(jī)拍攝的畫廊圖像集合中匹配到查詢?nèi)宋飯D像。人物再識(shí)別技術(shù)在公共安全、人機(jī)交互與智能助理等領(lǐng)域有著廣泛的應(yīng)用,并且作為機(jī)器人視覺感知與處理的重要環(huán)節(jié),性能直接關(guān)乎著機(jī)器人視覺功能是否能很好地運(yùn)行。近年來,人物再識(shí)別技術(shù)已經(jīng)成功應(yīng)用于廣泛的現(xiàn)實(shí)世界場(chǎng)景。
2、傳統(tǒng)的人物再識(shí)別方法主要包括:手工設(shè)計(jì)的特征提取、度量學(xué)習(xí)方法、統(tǒng)計(jì)建模方法等,隨著深度學(xué)習(xí)的興起,基于深度神經(jīng)網(wǎng)絡(luò)的人物再識(shí)別方法受到越來越多的研究學(xué)者關(guān)注并取得了顯著的進(jìn)展。這些方法使用深度神經(jīng)網(wǎng)絡(luò)(deep?neural?network,dnn)等深度學(xué)習(xí)模型來提取人物圖像的特征,并通過訓(xùn)練大規(guī)模的數(shù)據(jù)集來學(xué)習(xí)人物的表征??梢詫⒒谏疃葘W(xué)習(xí)的人物再識(shí)別方法大致分為四類,即:基于卷積神經(jīng)網(wǎng)絡(luò)的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法、基于注意力機(jī)制的方法、基于生成對(duì)抗網(wǎng)絡(luò)的方法。卷積神經(jīng)網(wǎng)絡(luò)方法使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?networks,cnn)模型,將圖像輸入網(wǎng)絡(luò)中進(jìn)行特征提取并用全連接層或降維方法(如主成分分析)來獲得最終的特征表示?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的方法是使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent?neural?networks,rnn)來對(duì)人物圖像進(jìn)行建模比如:長(zhǎng)短期記憶網(wǎng)絡(luò)(long?short-term?memory,lstm)或門控循環(huán)單元(gated?recurrent?unit,gru)來捕捉人物圖像的時(shí)序信息,該方法可以獲取更豐富的特征表示。注意力機(jī)制方法通過引入注意力機(jī)制來對(duì)人物圖像的不同區(qū)域進(jìn)行加權(quán),以突出重要的區(qū)域最終提高識(shí)別的準(zhǔn)確性。生成對(duì)抗網(wǎng)絡(luò)的方法是通過訓(xùn)練一個(gè)生成器網(wǎng)絡(luò)和一個(gè)判別器網(wǎng)絡(luò),前者可以生成具有更好魯棒性的特征表示,后者則可以更好地評(píng)估生成的特征與真實(shí)特征之間的差異。然而,上面提到的這些方法主要依賴于手動(dòng)標(biāo)記的數(shù)據(jù)集并且具有較差的泛化性能,限制在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用。為了解決這些問題,越來越多的研究人員自然地將注意力轉(zhuǎn)向無監(jiān)督域自適應(yīng)(unsupervised?domain?adaptation,uda)的人物再識(shí)別工作上。已有的uda?re-id方法又可以大致分為三類,即中層特征對(duì)齊、域風(fēng)格轉(zhuǎn)移和基于聚類的方法。其中,基于聚類的uda?re-id效果最好,通常包括三步,第一步:在標(biāo)記的源數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,第二步:通過聚類生成目標(biāo)數(shù)據(jù)集的偽標(biāo)簽,第三步:以有監(jiān)督的方式與目標(biāo)數(shù)據(jù)集進(jìn)行微調(diào)。但不同的相機(jī)和區(qū)域分布,以及需要處理帶有噪音的樣本都給這一問題帶來了新的挑戰(zhàn)。使模型提取獨(dú)立于相機(jī)的特征,并對(duì)噪聲標(biāo)簽具有魯棒性是重要的研究方向。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明著重針對(duì)復(fù)雜場(chǎng)景中兩個(gè)重要的挑戰(zhàn):(1)攝像頭變換:由于攝像頭的差異,包括攝像頭屬性、攝像頭視角和環(huán)境信息,具有相同身份的圖像可能被歸類為不同的類別(拍攝同一個(gè)人物卻被錯(cuò)誤識(shí)別為不同的人);(2)域偏移:由于源域和目標(biāo)域之間存在域差異(帶有明確人物標(biāo)簽的照片與缺乏標(biāo)簽的照片的背景環(huán)境完全不同),此時(shí)簡(jiǎn)單的進(jìn)行聚類分配的通常包含錯(cuò)誤的標(biāo)簽,會(huì)嚴(yán)重誤導(dǎo)模型的特征學(xué)習(xí)和照片中人物識(shí)別的正確率,因此我們提出了一種基于相機(jī)感知的風(fēng)格解耦和不確定性建模模型(camera-styleseparation?and?uncertainty?estimation,csue)的無監(jiān)督領(lǐng)域適應(yīng)的人物再識(shí)別方法。
2、本發(fā)明采用的技術(shù)方案如下:
3、一種基于相機(jī)感知解耦和不確定性建模的人物再識(shí)別方法,其步驟包括:
4、1)構(gòu)建csue模型,所述csue模型包括特征提取模塊、相機(jī)感知解耦模塊、不確定性建模模塊、協(xié)同教學(xué)模塊;將機(jī)器人所帶相機(jī)拍攝的照片進(jìn)行標(biāo)注,得到一樣本并存入源數(shù)據(jù)集;將所述源數(shù)據(jù)集中機(jī)器人所帶相機(jī)拍攝的照片的鄰居分解為兩類和代表由同一相機(jī)在不同時(shí)刻所拍攝照片組成的集合,代表同一時(shí)刻由不同相機(jī)在不同角度拍攝的照片所組成的集合;
5、2)利用有標(biāo)記的源數(shù)據(jù)集預(yù)訓(xùn)練所述csue模型;其中,
6、所述特征提取模塊包括兩個(gè)具有相同架構(gòu)但不同隨機(jī)種子的第一協(xié)同網(wǎng)絡(luò)net1和第二協(xié)同網(wǎng)絡(luò)net2;第一輪訓(xùn)練時(shí),對(duì)于所述源數(shù)據(jù)集中機(jī)器人所帶相機(jī)拍攝的一照片,將其分別輸入第一協(xié)同網(wǎng)絡(luò)net1和第二協(xié)同網(wǎng)絡(luò)net2得到輸出f1、f2,然后將分別輸入所述相機(jī)感知解耦模塊、不確定性建模模塊;記錄第一協(xié)同網(wǎng)絡(luò)net1、第二協(xié)同網(wǎng)絡(luò)net2在每次迭代訓(xùn)練時(shí)的參數(shù)取值;后續(xù)每一輪訓(xùn)練時(shí),根據(jù)第一協(xié)同網(wǎng)絡(luò)net1已完成的各迭代訓(xùn)練時(shí)的參數(shù)平均值建立第一時(shí)間平均網(wǎng)絡(luò)根據(jù)第二協(xié)同網(wǎng)絡(luò)net2已完成的各迭代訓(xùn)練時(shí)的參數(shù)平均值建立第二時(shí)間平均網(wǎng)絡(luò)對(duì)于所述源數(shù)據(jù)集中機(jī)器人所帶相機(jī)拍攝的一照片將其分別輸入到第一協(xié)同網(wǎng)絡(luò)net1、第二協(xié)同網(wǎng)絡(luò)net2、第一時(shí)間平均網(wǎng)絡(luò)和第二時(shí)間平均網(wǎng)絡(luò)得到對(duì)應(yīng)的輸出f1、f2和然后將分別輸入所述相機(jī)感知解耦模塊、不確定性建模模塊,將輸入所述不確定性建模模塊;
7、所述相機(jī)感知解耦模塊包含一存儲(chǔ)庫m,用于存儲(chǔ)所述特征提取模塊輸出的特征,并以動(dòng)量的方式更新所述存儲(chǔ)庫m中的特征,以及計(jì)算相機(jī)解耦損失lcam所需的信息并將其發(fā)送給所述協(xié)同教學(xué)模塊;
8、所述不確定性建模模塊,用于對(duì)所述特征提取模塊輸出的特征進(jìn)行聚類,將每一聚類中的聚類中心特征存儲(chǔ)到存儲(chǔ)庫w,并以動(dòng)量的方式更新所述存儲(chǔ)庫w中的聚類中心特征,以及計(jì)算識(shí)別損失luid、軟標(biāo)簽標(biāo)記損失lusid、三重態(tài)損耗lutri和軟三重態(tài)損失lustri所需的信息并將其發(fā)送給所述協(xié)同教學(xué)模塊;
9、所述協(xié)同教學(xué)模塊根據(jù)收到的信息計(jì)算損失函數(shù)l=λ1luid+λ2lusid+λ3lutri+λ4lustri+λ5lcam;然后根據(jù)損失函數(shù)值優(yōu)化所述csue模型;λ1,λ2,λ3,λ4,λ5相應(yīng)的權(quán)重因子;
10、3)將機(jī)器人拍攝的無標(biāo)識(shí)照片輸入預(yù)訓(xùn)練后的所述csue模型,得到所述無標(biāo)識(shí)照片的識(shí)別結(jié)果。
11、進(jìn)一步的,所述相機(jī)感知解耦模塊更新特征的方法為:其中,μ∈[0,1]表示控制更新速度的參數(shù),m[i]表示的更新特征;計(jì)算與中的照片共享相同身份的概率α是縮放系數(shù),m[j]表示的更新特征,m[k]表示中的照片的更新特征,為所述特征提取模塊從照片提取輸出的特征;相機(jī)解耦損失pi,k為與共享相同身份的概率,wi,j,wi,k是權(quán)重系數(shù)。
12、進(jìn)一步的,所述不確定性建模模塊計(jì)算識(shí)別損失luid、軟標(biāo)簽標(biāo)記損失lusid、三重態(tài)損耗lutri和軟三重態(tài)損失lustri所需的信息的方法為:
13、31)計(jì)算第j類的平均特征信息w[j]與樣本的特征之間的相似性si,得到計(jì)算第j類的平均特征信息w[j]與樣本的特征之間的相似性sj,得到
14、32)計(jì)算sj與之間的差異ui作為樣本的不確定性值;
15、33)計(jì)算
16、其中,yi為xi標(biāo)注的標(biāo)簽,xi代表正在處理的樣本,p1(yi|xi)代表將xi輸入?yún)f(xié)同網(wǎng)絡(luò)net1的輸出結(jié)果通過聚類方法所得聚類結(jié)果作為xi的偽標(biāo)簽情況下輸出正確標(biāo)簽yi的概率,p2(yi|xi)代表將xi輸入?yún)f(xié)同網(wǎng)絡(luò)net2的輸出結(jié)果通過聚類方法所得聚類結(jié)果作為xi的偽標(biāo)簽情況下輸出正確標(biāo)簽yi的概率;代表將xi輸入時(shí)間平均網(wǎng)絡(luò)的輸出結(jié)果通過聚類方法所得聚類結(jié)果作為xi的偽標(biāo)簽情況下輸出正確標(biāo)簽yi的概率;代表將xi輸入時(shí)間平均網(wǎng)絡(luò)的輸出結(jié)果通過聚類方法所得聚類結(jié)果作為xi的偽標(biāo)簽情況下輸出正確標(biāo)簽yi的概率;nt為源數(shù)據(jù)集中的照片總數(shù);
17、34)針對(duì)每一樣本,選擇與該樣本距離最近的k個(gè)樣本作為錨樣本p,將每一錨樣本p和其他樣本a之間的不確定度優(yōu)化距離因子設(shè)置為其中,dap表示由net1提取的兩個(gè)樣本a,p的特征之間的歐幾里得距離,ua代表樣本a的不確定性值,up代表錨樣本p的不確定性值;eap為由net2提取的兩個(gè)樣本a,p的特征之間的歐幾里得距離;表示由提取的兩個(gè)樣本a,p的特征之間的歐幾里得距離,表示由提取的兩個(gè)樣本a,p的特征之間的歐幾里得距離,dan表示由net1提取的兩個(gè)樣本a,n的特征之間的歐幾里得距離,un代表樣本n的不確定性值;ean表示由net2提取的兩個(gè)樣本a,n的特征之間的歐幾里得距離;表示由提取的兩個(gè)樣本a,n的特征之間的歐幾里得距離;表示由提取的兩個(gè)樣本a,n的特征之間的歐幾里得距離;
18、34)計(jì)算
19、
20、進(jìn)一步的,
21、進(jìn)一步的,使用kullback–leibler散度測(cè)量sj與之間的差異
22、一種服務(wù)器,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被配置為由所述處理器執(zhí)行,所述計(jì)算機(jī)程序包括用于執(zhí)行上述方法中各步驟的指令。
23、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
24、本發(fā)明主要內(nèi)容包括:
25、1)構(gòu)建由特征提取模塊、相機(jī)感知解耦模塊、不確定性建模模塊、協(xié)同教學(xué)模塊四個(gè)部分構(gòu)成的csue模型;
26、2)利用有標(biāo)記的源數(shù)據(jù)集來預(yù)訓(xùn)練csue模型包括:特征提取模塊,相機(jī)感知解耦模塊、不確定性建模模塊,模型的損失函數(shù)利用協(xié)同教學(xué)模塊構(gòu)建;
27、3)利用已經(jīng)預(yù)訓(xùn)練好csue模型的特征提取模塊為想要處理機(jī)器人所拍攝的照片中沒有標(biāo)識(shí)的數(shù)據(jù)進(jìn)行特征提取用于生成偽標(biāo)簽,實(shí)現(xiàn)對(duì)機(jī)器人拍攝的照片特征提取與目標(biāo)物體的初步標(biāo)記;
28、4)基于協(xié)同教學(xué)優(yōu)化方法,利用已經(jīng)預(yù)訓(xùn)練好csue模型的相機(jī)感知解耦(cs)模塊、不確定性建模(ue)模塊對(duì)目標(biāo)域的偽標(biāo)簽進(jìn)行微調(diào),完成機(jī)器人拍攝的照片中物體的最終標(biāo)記。
29、進(jìn)一步地,步驟1)中提到的csue模型如附圖1所示。我們提出的csue模型是無監(jiān)督的方法,步驟2)對(duì)應(yīng)模型基于源數(shù)據(jù)集的訓(xùn)練過程,步驟3),4)對(duì)應(yīng)模型基于目標(biāo)數(shù)據(jù)集的實(shí)驗(yàn)過程。
30、進(jìn)一步地,步驟2)中具體而言,是將帶有標(biāo)簽的源數(shù)據(jù)集分別通過特征提取模塊、相機(jī)感知解耦(cs)模塊、不確定性建模(ue)模塊的處理,最后借助模塊的輸出構(gòu)造損失函數(shù),以獲得預(yù)訓(xùn)練的csue模型,具體的訓(xùn)練過程將在下文詳細(xì)闡述。
31、進(jìn)一步地,步驟4)中含有的相機(jī)感知解耦(cs)模塊、不確定性建模(ue)模塊是本發(fā)明的重要?jiǎng)?chuàng)新點(diǎn),前者有助于促使網(wǎng)絡(luò)提取更多獨(dú)立于相機(jī)風(fēng)格的判別特征,后者探索了基于不確定性驅(qū)動(dòng)的偽標(biāo)簽優(yōu)化方法,以進(jìn)一步提升模型的能力。
32、與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
33、本發(fā)明將相機(jī)感知解耦和不確定性估計(jì)算法應(yīng)用到人物再識(shí)別的問題中,通過預(yù)訓(xùn)練并輸出偽標(biāo)簽然后再微調(diào)標(biāo)簽進(jìn)一步提高模型輸出效果的方法,利用標(biāo)簽的不確定性有助于細(xì)化偽標(biāo)簽。特別是在微調(diào)部分:通過對(duì)特征學(xué)習(xí)的相機(jī)感知約束的設(shè)計(jì),網(wǎng)絡(luò)挖掘出了更多獨(dú)立于相機(jī)的辨別特征;通過充分利用標(biāo)簽的不確定性,模型最終高效的細(xì)化了偽標(biāo)簽。值得一提的是,提出的csue模型不會(huì)給推理帶來額外負(fù)擔(dān),并且可以靈活地使用現(xiàn)有的網(wǎng)絡(luò)架構(gòu)。