本發(fā)明屬于神經(jīng)網(wǎng)絡(luò),尤其涉及一種針對多核加速器的多卷積神經(jīng)網(wǎng)絡(luò)任務(wù)調(diào)度方法。
背景技術(shù):
1、卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?network,cnn)是一種深度學(xué)習(xí)模型,在圖像處理、模式識別、醫(yī)學(xué)影像分析、自動駕駛等多個領(lǐng)域都取得了顯著的成就?,F(xiàn)實中,某些應(yīng)用需要多個卷積神經(jīng)網(wǎng)絡(luò)同時工作,例如自動駕駛系統(tǒng)需要不同的卷積神經(jīng)網(wǎng)絡(luò)分別完成車道線感知、交通燈檢測、行人檢測等任務(wù)。
2、卷積神經(jīng)網(wǎng)絡(luò)加速器是專門用于加速卷積神經(jīng)網(wǎng)絡(luò)模型推理過程的硬件設(shè)備。由于深度學(xué)習(xí)中的卷積層計算密集,傳統(tǒng)的通用處理器在執(zhí)行這些任務(wù)時可能效率較低。因此,為了提高性能和能效,研究者和工程師設(shè)計了專門加速卷積神經(jīng)網(wǎng)絡(luò)推理的硬件加速器。
3、現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)的調(diào)度方法的步驟通常是:首先,獲取用戶輸入的卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)和硬件資源參數(shù);其次,將戶輸入的卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)和硬件資源參數(shù)轉(zhuǎn)化為.json類型文件;之后,根據(jù).json類型文件確定數(shù)據(jù)存儲結(jié)構(gòu),生成中間結(jié)果文件;最后,根據(jù)中間結(jié)果文件生成指令程序和層配置信息,來控制可編程神經(jīng)網(wǎng)絡(luò)處理器實現(xiàn)對圖像、卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值和偏執(zhí)等數(shù)據(jù)的調(diào)度。該方法存在的不足之處是,該調(diào)度方法主要針對單個卷積神經(jīng)網(wǎng)絡(luò),當(dāng)需要調(diào)度多個卷積神經(jīng)網(wǎng)絡(luò)時只能將其按先后順序排列,忽視了多核加速器同時處理多個神經(jīng)網(wǎng)絡(luò)的可能,極可能造成某些神經(jīng)網(wǎng)絡(luò)耗時超過限制,導(dǎo)致任務(wù)失敗。
4、現(xiàn)有的另一種卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)調(diào)度方法將圖像數(shù)據(jù)分成n個目標(biāo)圖像數(shù)據(jù),所述n為大于1的整數(shù),然后將第一目標(biāo)圖像數(shù)據(jù)載入第一數(shù)據(jù)緩沖模塊,計算單元讀取上述第一數(shù)據(jù)緩沖模塊存儲的上述第一目標(biāo)圖像數(shù)據(jù)后進行卷積計算,在這個過程中將第二目標(biāo)圖像數(shù)據(jù)載入第二數(shù)據(jù)緩沖模塊。最后計算單元得到計算結(jié)果后將計算結(jié)果傳到外部存儲器。該方法存在的不足之處是,首先,該方法沒有考慮當(dāng)加速器具有多核結(jié)構(gòu)時如何同時高效處理多個卷積神經(jīng)網(wǎng)絡(luò)。其次,該方法采用的流水線粒度過大,以一幅輸入圖像為單位,不利于提高硬件資源的利用率,尤其在處理多卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜情況下,容易造成某些對延時敏感的任務(wù)因超時導(dǎo)致的失敗。
5、可見,現(xiàn)有技術(shù)在對多核加速器上調(diào)度多個神經(jīng)網(wǎng)絡(luò)需求下,延時敏感任務(wù)失敗率高。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題,本發(fā)明揭示了一種針對多核加速器的多卷積神經(jīng)網(wǎng)絡(luò)任務(wù)調(diào)度方法,所述方法包括如下步驟:
2、s100:將多卷積神經(jīng)網(wǎng)絡(luò)任務(wù)進行抽象化,得到多個有向無環(huán)圖dag;
3、s200:利用變異系數(shù)cv平衡節(jié)點的計算負(fù)載,得到多個新生成的具有負(fù)載平衡的dag;
4、s300:通過傳輸內(nèi)容感知調(diào)度得到一個調(diào)度方案;
5、s400:利用評估工具對步驟s300產(chǎn)生的調(diào)度方案進行運行時間評估,如果每個卷積神經(jīng)網(wǎng)絡(luò)的計算時延均滿足其時延限制,則輸出該調(diào)度方案;否則將時延超出限制的卷積神經(jīng)網(wǎng)絡(luò)對應(yīng)的dag拆分為兩個子dag,對所述兩個子dag重新進行傳輸內(nèi)容感知調(diào)度。
6、該方法利用變異系數(shù)cv平衡節(jié)點的計算負(fù)載,并使用一種傳輸內(nèi)容感知的調(diào)度方法,將卷積神經(jīng)網(wǎng)絡(luò)對應(yīng)的dag節(jié)點進行分類,盡可能地將互連的節(jié)點映射到子加速器陣列的相鄰位置或同一條直線上,減少通信帶來的延時,同時支持將已被占用的子加速器釋放給優(yōu)先級別更高的節(jié)點,減小時延敏感任務(wù)的失敗率。
7、本發(fā)明與現(xiàn)有技術(shù)相比具有以下優(yōu)點:
8、第一,本發(fā)明將卷積神經(jīng)網(wǎng)絡(luò)任務(wù)抽象為dag,充分考慮了卷積神經(jīng)網(wǎng)絡(luò)分支和匯合的拓?fù)浣Y(jié)構(gòu)。相比現(xiàn)有技術(shù)將卷積神經(jīng)網(wǎng)絡(luò)各層順序計算,本發(fā)明可以充分利用硬件資源,將卷積神經(jīng)網(wǎng)絡(luò)的多個分支進行并行計算,有效減少計算時延。同時,本發(fā)明可以更好地適應(yīng)層出不窮的新型卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜拓?fù)浣Y(jié)構(gòu)。
9、第二,本發(fā)明利用變異系數(shù)cv平衡節(jié)點的計算負(fù)載。該方法是一種自動平衡負(fù)載的方法,優(yōu)于傳統(tǒng)方法,可以更高效地對差異性極大的諸多計算負(fù)載進行平衡,減少因為負(fù)載差異大造成的硬件資源空閑等待,提高硬件資源的利用率。
10、第三,本發(fā)明構(gòu)建了一種傳輸內(nèi)容感知的調(diào)度方法。該調(diào)度方法將卷積神經(jīng)網(wǎng)絡(luò)對應(yīng)的dag節(jié)點進行分類,盡可能地將互連的節(jié)點映射到子加速器陣列的相鄰位置或同一條直線上,減少通信帶來的延時。此方法既考慮了卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)依賴關(guān)系,又考慮了多核加速器上各子加速器的空間位置分布,最大程度地避免了各卷積神經(jīng)網(wǎng)絡(luò)對硬件資源的競爭造成的沖突。
11、第四,本發(fā)明支持將已被占用的子加速器釋放給優(yōu)先級別更高的節(jié)點。相比現(xiàn)有的固定調(diào)度方法,本發(fā)明可以極大程度地提升時延敏感的關(guān)鍵任務(wù)的成功率,避免因關(guān)鍵任務(wù)超時造成的災(zāi)難性后果(如自動駕駛中未能即時檢測到行人)。
1.一種針對多核加速器的多卷積神經(jīng)網(wǎng)絡(luò)任務(wù)調(diào)度方法,所述方法包括如下步驟:
2.如權(quán)利要求1所述的方法,優(yōu)選的,在所述步驟s300進一步包括如下步驟:
3.如權(quán)利要求2所述的方法,步驟s302中的所述最空閑子加速器指最早完成其已有計算負(fù)載的子加速器。
4.如權(quán)利要求1所述的方法,每個子圖保留圖的原始連接結(jié)構(gòu),并且兩個子圖在拆分維度上各保留一半數(shù)值。