背景技術(shù):
1、為了識別和分配個人所有物的所有權(quán),監(jiān)視系統(tǒng)必須有效地在環(huán)境中的物品和人之間進(jìn)行關(guān)聯(lián)。所確定的個人物品的所有權(quán)可以通過例如識別個人物品是否與特定人相關(guān)聯(lián)、是否從一個人傳遞到另一個人和/或是否被放棄——以及由誰和/或在哪里放棄該物品,來提供對安全性的洞察。監(jiān)視系統(tǒng)通常依賴于檢測設(shè)備(例如,相機(jī))來監(jiān)視環(huán)境。然而,由于檢測設(shè)備的不同參數(shù)(例如,視角、視野、遮擋等),檢測設(shè)備可能不能捕獲容易分析的用于將人與物品相關(guān)聯(lián)的數(shù)據(jù)。例如,可能難以使用相機(jī)來監(jiān)視其中正監(jiān)視許多人和物品的擁擠環(huán)境。
2、用于對象到人關(guān)聯(lián)的一些常規(guī)系統(tǒng)可使用單個人和單個對象的靜止圖像來做出一個或更多個確定。例如,在兒童踢球時,如由圖像所表示的,計算機(jī)視覺算法可以用于識別在所捕獲的圖像中是什么——例如,“兒童踢球?!比欢驗檫@些靜止圖像僅表示單個人和單個對象,所以兩者之間的關(guān)聯(lián)可能不被確定。例如,當(dāng)在擁擠環(huán)境中采用這些常規(guī)算法時,人相對于對象的動作可能被錯誤地識別為不具有關(guān)系(例如,誤否定檢測)或不準(zhǔn)確地肯定地是被為具有關(guān)系(例如,誤肯定檢測),其他常規(guī)系統(tǒng)可以執(zhí)行人與對象之間的初步關(guān)聯(lián)——如通過使用對象與人之間的聯(lián)合區(qū)域,或表示它們的邊界形狀。然而,這些關(guān)聯(lián)通常是不準(zhǔn)確的。例如,在存在兩個人且從相機(jī)的視角來看第一人的對象(例如,背包)與第二人(例如,未攜帶背包的人)重疊的擁擠環(huán)境中,這些常規(guī)系統(tǒng)可能不正確地生成第二人與對象之間的關(guān)聯(lián)。因此,由系統(tǒng)進(jìn)行的確定將是不準(zhǔn)確的,并且所產(chǎn)生的關(guān)于對象的預(yù)測可能導(dǎo)致無效的安全措施。
技術(shù)實現(xiàn)思路
1、本公開部分地涉及通過使用一個或更多個機(jī)器學(xué)習(xí)模型來將對象關(guān)聯(lián)到人。與常規(guī)系統(tǒng)(如在此描述的那些系統(tǒng))相比,本公開的系統(tǒng)利用機(jī)器學(xué)習(xí)模型(如卷積神經(jīng)網(wǎng)絡(luò)(cnn))來使用與圖像區(qū)域相對應(yīng)的數(shù)據(jù)生成人與對象之間的關(guān)聯(lián)和關(guān)系。例如,可以使用對應(yīng)于人、對象、其聯(lián)合或其重疊的圖像的區(qū)域的位置來生成掩模的圖像數(shù)據(jù)和/或坐標(biāo),以應(yīng)用于機(jī)器學(xué)習(xí)模型。使用掩模而不是裁剪可以有益于神經(jīng)網(wǎng)絡(luò),因為可以保留空間信息——諸如人和對象的維度。
2、照此,在不同實施例中,確定人與對象之間的關(guān)聯(lián)可利用被訓(xùn)練為使用掩模的圖像數(shù)據(jù)和/或坐標(biāo)來計算人與對象關(guān)聯(lián)的置信度的神經(jīng)網(wǎng)絡(luò)。在一些示例中,可使用多通道方法,其中可使用不同掩模來生成圖像的多個版本并將其應(yīng)用于神經(jīng)網(wǎng)絡(luò)的單個流。在另一示例中,可使用多分支方法,其中可生成圖像的多個版本并將其作為輸入提供給神經(jīng)網(wǎng)絡(luò)的相應(yīng)分支或流。這些流中的每一個的輸出隨后可被級聯(lián),并被提供給神經(jīng)網(wǎng)絡(luò)的附加層(例如,一個或更多個全連接層)以預(yù)測置信度。在進(jìn)一步的實施例中,不是生成圖像的三個版本,而是單個圖像可被用作到神經(jīng)網(wǎng)絡(luò)的輸入,并且感興趣區(qū)域(roi)池化可被神經(jīng)網(wǎng)絡(luò)用來分析圖像的與對象、人和其聯(lián)合區(qū)域相對應(yīng)的各個區(qū)域。例如,圖像可被輸入到神經(jīng)網(wǎng)絡(luò)的一系列層,并且除了roi坐標(biāo)之外,層的輸出也可被輸入到roi池化層,以幫助神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和預(yù)測對應(yīng)于對象、人及其聯(lián)合的特征。在這樣的示例中,通過使用具有roi池化的單個圖像,可以在沒有關(guān)于預(yù)測對象與人之間的關(guān)聯(lián)的置信度的準(zhǔn)確度損失的情況下降低系統(tǒng)的運行時間。
3、在不同示例中,除了roi池化之外或替代roi池化,還可以使用多層感知器(mlp)網(wǎng)絡(luò)。例如,除了對應(yīng)于人的邊界形狀的歸一化坐標(biāo)、對應(yīng)于對象的邊界形狀的歸一化坐標(biāo)、人邊界形狀面積與聯(lián)合邊界形狀(例如,對象和人的聯(lián)合)之比、以及對象邊界形狀與聯(lián)合邊界形狀之比之外,還可以使用利用roi池化的神經(jīng)網(wǎng)絡(luò)的預(yù)測置信度,來生成對象與人之間的關(guān)聯(lián)的更新的置信度或最終置信度。照此,包括roi池化的神經(jīng)網(wǎng)絡(luò)預(yù)測的置信度可以由mlp網(wǎng)絡(luò)修改或驗證以生成最終結(jié)果。
1.一種處理器,包括:
2.根據(jù)權(quán)利要求1所述的處理器,其中確定所述對象是否與所述人相關(guān)聯(lián)包括以下中的至少一個:確定所述一個或更多個置信度值是否大于閾值,或確定所述一個或更多個置信度值大于使用所述一個或更多個神經(jīng)網(wǎng)絡(luò)計算的且對應(yīng)于另一人與所述對象之間的另一關(guān)聯(lián)的一個或更多個其他置信度值。
3.根據(jù)權(quán)利要求1所述的處理器,其中使用所述一個或更多個神經(jīng)網(wǎng)絡(luò)的所述計算包括:使用所述一個或更多個神經(jīng)網(wǎng)絡(luò)的一個或更多個第一層處理表示與所述人區(qū)域相對應(yīng)的第一子圖像的第一數(shù)據(jù),使用所述一個或更多個神經(jīng)網(wǎng)絡(luò)的一個或更多個第二層處理表示與所述對象區(qū)域相對應(yīng)的第二子圖像的第二數(shù)據(jù),以及使用所述一個或更多個神經(jīng)網(wǎng)絡(luò)的一個或更多個第三層處理表示所述子圖像的第三數(shù)據(jù),其中所述一個或更多個第一層、所述一個或更多個第二層和所述一個或更多個第三層彼此不同。
4.根據(jù)權(quán)利要求1所述的處理器,其中所述對象區(qū)域至少部分地由與所述對象相對應(yīng)的第一邊界形狀來定義,所述人區(qū)域至少部分地由與所述人相對應(yīng)的第二邊界形狀來定義,并且所述聯(lián)合區(qū)域至少部分地由所述第一邊界形狀和所述第二邊界形狀的組合來定義。
5.根據(jù)權(quán)利要求1所述的處理器,還包括處理電路,所述處理電路用于:
6.根據(jù)權(quán)利要求1所述的處理器,還包括處理電路,所述處理電路用于:
7.根據(jù)權(quán)利要求1所述的處理器,其中生成所述子圖像包括:至少基于來自所述圖像的像素值與未包括在所述聯(lián)合區(qū)域中的所述圖像的一個或更多個部分相對應(yīng)來將所述像素值轉(zhuǎn)換為掩模值。
8.根據(jù)權(quán)利要求1所述的處理器,其中所述圖像是圖像序列中的最新圖像,時間平滑被用于根據(jù)關(guān)于所述圖像序列中的其他圖像為所述人與所述對象之間的關(guān)聯(lián)預(yù)測的一個或更多個先前置信度值對所述一個或更多個置信值進(jìn)行加權(quán),并且確定所述對象是否與所述人相關(guān)聯(lián)是至少基于一個或更多個經(jīng)時間平滑的置信度值的。
9.一種方法,包括:
10.根據(jù)權(quán)利要求9所述的方法,其中所述對象區(qū)域至少部分地由與所述對象相對應(yīng)的第一邊界形狀來定義,所述人區(qū)域至少部分地由與所述人相對應(yīng)的第二邊界形狀來定義,并且所述聯(lián)合區(qū)域至少部分由所述第一邊界形狀和所述第二邊界形狀的組合來定義。
11.根據(jù)權(quán)利要求9所述的方法,還包括:
12.根據(jù)權(quán)利要求9所述的方法,其中所述一個或更多個層均包括一個或更多個卷積層。
13.根據(jù)權(quán)利要求9所述的方法,其中計算所述置信度包括:
14.根據(jù)權(quán)利要求9所述的方法,其中所述操作進(jìn)一步包括:
15.根據(jù)權(quán)利要求9所述的方法,其中生成所述子圖像包括:將掩模應(yīng)用于所述圖像。
16.根據(jù)權(quán)利要求9所述的方法,其中所述圖像是圖像序列中的最新圖像,并且時間平滑被用于根據(jù)為所述人與所述對象之間的關(guān)聯(lián)預(yù)測的先前置信度對所述置信度進(jìn)行加權(quán)以生成最終置信度,進(jìn)一步其中,所述最終置信度被用于將所述對象與所述人相關(guān)聯(lián)。
17.一種系統(tǒng),包括:
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其中確定所述對象是否與所述人相關(guān)聯(lián)包括以下中的至少一個:確定所述一個或更多個置信度值是否大于閾值,或確定所述一個或更多個置信度值大于使用所述一個或更多個神經(jīng)網(wǎng)絡(luò)計算的且對應(yīng)于另一人與所述對象之間的另一關(guān)聯(lián)的一個或更多個其他置信度值。
19.根據(jù)權(quán)利要求17所述的系統(tǒng),其中所述計算包括:使用所述一個或更多個神經(jīng)網(wǎng)絡(luò)的一個或更多個第一層來處理表示所述對象區(qū)域的第一數(shù)據(jù),使用所述一個或更多個神經(jīng)網(wǎng)絡(luò)的一個或更多個第二層來處理表示所述人區(qū)域的第二數(shù)據(jù),以及使用所述一個或更多個神經(jīng)網(wǎng)絡(luò)的一個或更多個第三層來處理表示所述聯(lián)合區(qū)域的第三數(shù)據(jù),其中所述一個或更多個第一層、所述一個或更多個第二層和所述一個或更多個第三層彼此不同。
20.根據(jù)權(quán)利要求17所述的系統(tǒng),其中所述對象區(qū)域至少部分地由與所述對象相對應(yīng)的第一邊界形狀來定義,所述人區(qū)域至少部分地由與所述人相對應(yīng)的第二邊界形狀來定義,并且所述聯(lián)合區(qū)域至少部分地由所述第一邊界形狀和所述第二邊界形狀的組合來定義。