背景技術(shù):
1、本說明書涉及使用神經(jīng)網(wǎng)絡(luò)來處理圖像。
2、神經(jīng)網(wǎng)絡(luò)是采用一個(gè)或多個(gè)非線性單元層來預(yù)測(cè)接收到的輸入的輸出的機(jī)器學(xué)習(xí)模型。除了輸出層之外,一些神經(jīng)網(wǎng)絡(luò)還包括一個(gè)或多個(gè)隱藏層。每個(gè)隱藏層的輸出用作網(wǎng)絡(luò)中的下一層(即,另一隱藏層或輸出層)的輸入。網(wǎng)絡(luò)的每個(gè)層根據(jù)相應(yīng)參數(shù)集的當(dāng)前值從接收到的輸入生成輸出。
技術(shù)實(shí)現(xiàn)思路
1、本說明書描述了一種實(shí)現(xiàn)為在一個(gè)或多個(gè)位置中的一個(gè)或多個(gè)計(jì)算機(jī)上的計(jì)算機(jī)程序的系統(tǒng),該系統(tǒng)使用共享計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)來執(zhí)行多個(gè)計(jì)算機(jī)視覺任務(wù)中的任何計(jì)算機(jī)視覺任務(wù)。
2、本說明書中描述的主題可在特定實(shí)施例中實(shí)現(xiàn),以便實(shí)現(xiàn)以下優(yōu)點(diǎn)中的一個(gè)或多個(gè)優(yōu)點(diǎn)。
3、常規(guī)地,各種計(jì)算機(jī)視覺任務(wù)的輸入和輸出已經(jīng)用非常不同的輸出空間并且有時(shí)用不同的輸入空間來表示。因此,存在用于不同視覺任務(wù)的不同架構(gòu)和損失函數(shù)的激增。
4、另一方面,使用所描述的技術(shù),單個(gè)共享計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)可用于執(zhí)行多個(gè)不同的計(jì)算機(jī)視覺任務(wù)。特別地,通過將每個(gè)任務(wù)的輸出表示為詞元化序列,共享計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)可用于執(zhí)行具有不同輸出空間的任務(wù)。因此,所描述的系統(tǒng)比其他單任務(wù)方法消耗顯著更少的存儲(chǔ)器,同時(shí)在多個(gè)任務(wù)上提供比其他多任務(wù)方法顯著更好的準(zhǔn)確性。也就是說,通過使用統(tǒng)一接口將每個(gè)任務(wù)的輸出公式化為離散詞元序列,具有單個(gè)模型架構(gòu)和損失函數(shù)的神經(jīng)網(wǎng)絡(luò)可在所有這些任務(wù)上同時(shí)進(jìn)行訓(xùn)練,而沒有特定于任務(wù)的定制,同時(shí)仍然在多個(gè)任務(wù)上實(shí)現(xiàn)與專用架構(gòu)相當(dāng)或比之更好的性能。
5、因此,相對(duì)于針對(duì)多個(gè)任務(wù)中的每個(gè)任務(wù)需要分開的神經(jīng)網(wǎng)絡(luò)的系統(tǒng),所描述的系統(tǒng)在被部署用于執(zhí)行多個(gè)任務(wù)時(shí)消耗顯著更少的存儲(chǔ)器。也就是說,所描述的系統(tǒng)僅需要存儲(chǔ)共享計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)的單個(gè)網(wǎng)絡(luò)參數(shù)集,而不是用于多個(gè)不同的特定于任務(wù)的計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)的多個(gè)網(wǎng)絡(luò)參數(shù)集。
6、本說明書的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和以下描述中進(jìn)行闡述。
7、根據(jù)所述描述、附圖和權(quán)利要求書,本主題的其他特征、方面和優(yōu)點(diǎn)將變得顯而易見。
1.一種由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行的方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中所述共享計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)包括:
3.根據(jù)權(quán)利要求2所述的方法,其中所述提示序列是來自所述共享詞匯表的詞元的序列,并且其中所述自回歸解碼器神經(jīng)網(wǎng)絡(luò)被配置為在每個(gè)時(shí)間步處:
4.根據(jù)權(quán)利要求2或權(quán)利要求3所述的方法,其中所述自回歸解碼器神經(jīng)網(wǎng)絡(luò)是自回歸自注意力解碼器神經(jīng)網(wǎng)絡(luò)。
5.根據(jù)任一項(xiàng)前述權(quán)利要求所述的方法,其中所述編碼器神經(jīng)網(wǎng)絡(luò)是視覺transformer、卷積神經(jīng)網(wǎng)絡(luò)、或包括卷積神經(jīng)網(wǎng)絡(luò)層和自注意力層兩者的神經(jīng)網(wǎng)絡(luò)。
6.根據(jù)任一項(xiàng)前述權(quán)利要求所述的方法,其中所述計(jì)算機(jī)視覺任務(wù)是對(duì)象檢測(cè),并且其中從所述輸出序列中的所述詞元生成所述目標(biāo)計(jì)算機(jī)視覺任務(wù)的輸出包括:從所述輸出序列中的所述詞元生成標(biāo)識(shí)所述輸入圖像中的一個(gè)或多個(gè)邊界框的數(shù)據(jù),并且對(duì)于每個(gè)邊界框,所述數(shù)據(jù)標(biāo)識(shí)別來自所述邊界框中描繪的對(duì)象所屬的所述對(duì)象類別集的相應(yīng)對(duì)象類別。
7.根據(jù)權(quán)利要求6所述的方法,其中所述輸出序列包括與所述一個(gè)或多個(gè)邊界框中的每個(gè)邊界框相對(duì)應(yīng)的相應(yīng)子序列,并且其中生成標(biāo)識(shí)所述一個(gè)或多個(gè)邊界框的所述數(shù)據(jù)包括,對(duì)于每個(gè)邊界框:
8.根據(jù)權(quán)利要求7所述的方法,其中所述相應(yīng)子序列包括來自所述第一詞元集的四個(gè)詞元,并且其中由所述四個(gè)詞元表示的四個(gè)離散數(shù)字指定所述邊界框的兩個(gè)角在所述輸入圖像中的坐標(biāo)。
9.根據(jù)權(quán)利要求7所述的方法,其中所述相應(yīng)子序列包括來自所述第一詞元集的四個(gè)詞元,并且其中由所述四個(gè)詞元表示的四個(gè)離散數(shù)字指定所述邊界框的中心在所述輸入圖像中的坐標(biāo)以及所述邊界框的高度和寬度。
10.根據(jù)權(quán)利要求7至9中任一項(xiàng)所述的方法,還包括:從由所述神經(jīng)網(wǎng)絡(luò)指派給一個(gè)或多個(gè)詞元的所述集的相應(yīng)分?jǐn)?shù)生成所述對(duì)象的置信度分?jǐn)?shù)。
11.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其中所述計(jì)算機(jī)視覺任務(wù)是關(guān)鍵點(diǎn)預(yù)測(cè)任務(wù),其中所述提示序列標(biāo)識(shí)所述輸入圖像中的對(duì)象實(shí)例,并且其中所述輸出序列包括一個(gè)或多個(gè)關(guān)鍵點(diǎn)中的每個(gè)關(guān)鍵點(diǎn)的量化圖像坐標(biāo)值的相應(yīng)子序列,所述量化圖像坐標(biāo)值指定所述關(guān)鍵點(diǎn)在所述輸入圖像中的位置。
12.根據(jù)權(quán)利要求11所述的方法,其中每個(gè)關(guān)鍵點(diǎn)的所述相應(yīng)子序列包括來自所述第二詞元集的表示所述關(guān)鍵點(diǎn)的描述的詞元的集。
13.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其中所述計(jì)算機(jī)視覺任務(wù)是圖像文字說明,并且其中所述輸出序列是來自所述第二詞元集的表示所述輸入圖像的文本說明文字的詞元的序列。
14.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其中所述計(jì)算機(jī)視覺任務(wù)是實(shí)例分割,其中所述提示序列標(biāo)識(shí)對(duì)象的實(shí)例,并且其中所述輸出序列是來自所述第一詞元集的表示覆蓋在所述輸入圖像中的所述對(duì)象實(shí)例上的多邊形的量化坐標(biāo)的詞元的序列。
15.根據(jù)權(quán)利要求14所述的方法,還包括:以相同提示序列為條件生成一個(gè)或多個(gè)附加輸出序列,并且生成最終實(shí)例分割輸出包括對(duì)從所述輸出序列中的每個(gè)輸出序列生成的密集掩碼進(jìn)行平均。
16.一種系統(tǒng),包括:
17.一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)指令,所述指令在由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行時(shí)使所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1至15中任一項(xiàng)所述的方法的相應(yīng)操作。