本發(fā)明涉及神經(jīng)網(wǎng)絡(luò)壓縮和加速技術(shù),具體公開一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法,屬于計算、推算或計數(shù)的。
背景技術(shù):
1、近年來,深度學(xué)習(xí)的發(fā)展推動了圖像分類、目標(biāo)檢測等各種計算機視覺任務(wù)的進步。在目前的神經(jīng)網(wǎng)絡(luò)中,vision?transformer(vit)架構(gòu)展現(xiàn)出了卓越的性能和靈活性,與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比,vit能夠通過自注意力機制更好地捕捉圖像中的全局信息,因此在許多視覺任務(wù)中取得了最先進的性能。
2、然而,vit神經(jīng)網(wǎng)絡(luò)的高性能伴隨著高計算復(fù)雜度和高存儲需求:網(wǎng)絡(luò)中存在大量的矩陣乘法,并且其中多頭自注意力機制的計算量相對輸入令牌的數(shù)量具有平方級的復(fù)雜度,網(wǎng)絡(luò)的參數(shù)量也遠高于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),vit神經(jīng)網(wǎng)絡(luò)的這些特點限制了其在資源受限的嵌入式系統(tǒng)、移動設(shè)備等邊緣端設(shè)備上的應(yīng)用。
3、剪枝是解決上述問題的一種有效方案,去除網(wǎng)絡(luò)中冗余的權(quán)重可以顯著減少參數(shù)量和計算量,去除圖像中的冗余令牌能夠平方級地降低多頭自注意力模塊的計算量,從而提高模型的推理速度,降低硬件開銷。然而在現(xiàn)有的研究中主要包含以下三類令牌剪枝方案:第一類令牌剪枝方案直接剪枝多頭自注意力模塊,是一種極其粗粒度的剪枝,嚴(yán)重降低了網(wǎng)絡(luò)精度;第二類令牌剪枝方案引入神經(jīng)網(wǎng)絡(luò)和非線性函數(shù)實現(xiàn)令牌的識別和剪枝,但是這會帶來額外的參數(shù)、推理延遲和硬件開銷,對資源受限的邊緣端設(shè)備并不友好;第三類令牌剪枝方案對令牌進行固定剪枝,不同復(fù)雜度的圖像剪枝的令牌數(shù)量相同,這種剪枝方法會將復(fù)雜圖像中的物體對應(yīng)的令牌剪枝掉,對網(wǎng)絡(luò)精度的影響較大。在目前的權(quán)重剪枝方法中,網(wǎng)絡(luò)的所有層采用相同的剪枝率,網(wǎng)絡(luò)精度損失較大。此外,針對降低網(wǎng)絡(luò)計算量和參數(shù)量的同時保持較好網(wǎng)絡(luò)精度這一亟待解決的難題,目前鮮有研究同時考慮令牌剪枝和權(quán)重剪枝。
4、因此,本發(fā)明旨在提出一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法,以克服上述缺陷。
技術(shù)實現(xiàn)思路
1、本發(fā)明的發(fā)明目的是針對上述背景技術(shù)的不足,提供一種基于visiontransformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法,將逐層n:m權(quán)重剪枝和自適應(yīng)令牌剪枝相結(jié)合,解決vit神經(jīng)網(wǎng)絡(luò)計算復(fù)雜度高、存儲需求高的技術(shù)問題,實現(xiàn)降低vit神經(jīng)網(wǎng)絡(luò)的推理延遲、降低邊緣端部署的硬件開銷和提高網(wǎng)絡(luò)在資源受限環(huán)境下的推理速度和能效的發(fā)明目的。
2、本發(fā)明為實現(xiàn)上述發(fā)明目的采用如下技術(shù)方案:
3、一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法,包括如下步驟:
4、步驟1,計算神經(jīng)網(wǎng)絡(luò)各層的平均海森跡;
5、步驟2,根據(jù)各層平均海森跡的分布進行逐層n:m權(quán)重剪枝,n和m為正整數(shù)且n<m;
6、步驟3,重訓(xùn)練經(jīng)步驟2權(quán)重剪枝后的網(wǎng)絡(luò)并更新權(quán)重;
7、步驟4,對步驟3重訓(xùn)練后的網(wǎng)絡(luò)進行非參數(shù)化的多階段自適應(yīng)令牌剪枝;
8、步驟5,重訓(xùn)練經(jīng)步驟4令牌剪枝后的網(wǎng)絡(luò),獲取vision?transformer神經(jīng)網(wǎng)絡(luò),將vision?transformer神經(jīng)網(wǎng)絡(luò)部署至硬件平臺。
9、作為一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法的進一步優(yōu)化方案,步驟1根據(jù)預(yù)訓(xùn)練權(quán)重計算神經(jīng)網(wǎng)絡(luò)各層的平均海森跡,每層的平均海森跡包括:多頭自注意力模塊的平均海森跡和前饋模塊的平均海森跡,多頭自注意力模塊的平均海森跡包括輸入映射的平均海森跡和輸出映射的平均海森跡,前饋模塊的平均海森跡包括兩個全連接層的平均海森跡。
10、作為一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法的再進一步優(yōu)化方案,步驟2根據(jù)各層平均海森跡的分布進行逐層n:m權(quán)重剪枝的具體方法為:根據(jù)各層多頭自注意力模塊平均海森跡的分布情況,確定各層多頭自注意力模塊平均海森跡的最優(yōu)數(shù)值區(qū)間劃分方式,依據(jù)最優(yōu)數(shù)值區(qū)間劃分方式為各層多頭自注意力模塊平均海森跡的各數(shù)值區(qū)間配置n:m的取值;采用同樣的方式為各層前饋模塊平均海森跡的各數(shù)值區(qū)間配置n:m的取值;按照配置的n:m對各層多頭自注意力模塊的權(quán)重矩陣以及各層前饋模塊的權(quán)重矩陣按列剪枝。
11、作為一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法的再進一步優(yōu)化方案,步驟4對步驟3重訓(xùn)練后的網(wǎng)絡(luò)進行非參數(shù)化的多階段自適應(yīng)令牌剪枝的具體方法為:在網(wǎng)絡(luò)正向推理過程中選取令牌剪枝層,根據(jù)令牌剪枝層中多頭自注意力模塊所有頭的softmax函數(shù)輸出矩陣計算所述令牌剪枝層的每個圖像令牌分?jǐn)?shù)以及剪枝閾值,對令牌剪枝層的各個圖像令牌分?jǐn)?shù)進行降序排序,對降序排序后的各個圖像令牌分?jǐn)?shù)按序進行部分和累加操作,在累加獲取的部分和大于令牌剪枝層的剪枝閾值時停止累加操作,并根據(jù)未參與部分和累加操作的圖像令牌生成剪枝決定指令,輸入至令牌剪枝層前饋模塊前的層歸一化模塊的圖像令牌執(zhí)行剪枝決定指令。
12、作為一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法的再進一步優(yōu)化方案,按照配置的n:m對各層多頭自注意力模塊的權(quán)重矩陣以及各層前饋模塊的權(quán)重矩陣按列剪枝,具體為:按照m的數(shù)值對各列權(quán)重進行分組,每組權(quán)重中最大的n個權(quán)重保持原值且其它權(quán)重賦值為零。
13、作為一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法的再進一步優(yōu)化方案,根據(jù)網(wǎng)絡(luò)精度和權(quán)重剪枝收益確定各層多頭自注意力模塊平均海森跡的最優(yōu)數(shù)值區(qū)間劃分方式以及各層前饋模塊平均海森跡的最優(yōu)數(shù)值區(qū)間劃分方式。
14、作為一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法的再進一步優(yōu)化方案,根據(jù)所述令牌剪枝層中多頭自注意力模塊所有頭的softmax函數(shù)輸出矩陣計算令牌剪枝層的每個圖像令牌分?jǐn)?shù)以及剪枝閾值,具體為:對令牌剪枝層中多頭自注意力模塊所有頭的softmax函數(shù)輸出矩陣的第一行數(shù)據(jù)求和,獲取一行新的數(shù)據(jù),一行新的數(shù)據(jù)中除去第一個元素剩下的元素對應(yīng)所述令牌剪枝層的各個圖像令牌分?jǐn)?shù),對令牌剪枝層的各個圖像令牌分?jǐn)?shù)求和后乘以比例因子,獲取令牌剪枝層的剪枝閾值。
15、作為一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法的再進一步優(yōu)化方案,令牌剪枝層的剪枝閾值為其中,threshold為令牌剪枝層的剪枝閾值,α為剪枝的比例因子,0<α<1,token?scorei為第i個圖像令牌的分?jǐn)?shù),n為令牌剪枝層中輸入的圖像令牌的數(shù)量。
16、作為一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法的更進一步優(yōu)化方案,步驟5獲取的vision?transformer神經(jīng)網(wǎng)絡(luò)包括至少一層網(wǎng)絡(luò)結(jié)構(gòu),各層網(wǎng)絡(luò)結(jié)構(gòu)均包括串行執(zhí)行計算任務(wù)的多頭自注意力模塊和前饋模塊,令牌剪枝層還包括與該層多頭自注意力模塊并行執(zhí)行計算任務(wù)的自適應(yīng)令牌剪枝模塊,自適應(yīng)令牌剪枝模塊接收令牌剪枝層中多頭自注意力模塊所有頭的softmax函數(shù)輸出矩陣,自適應(yīng)令牌剪枝模塊輸出剪枝決定指令至令牌剪枝層中前饋模塊前的層歸一化模塊的輸入端。
17、作為一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法的更進一步優(yōu)化方案,自適應(yīng)令牌剪枝模塊包括:令牌分?jǐn)?shù)和剪枝閾值計算單元、令牌分?jǐn)?shù)降序排序單元以及令牌分?jǐn)?shù)部分和計算單元;
18、令牌分?jǐn)?shù)和剪枝閾值計算單元,其輸入端接收令牌剪枝層中多頭自注意力模塊所有頭的softmax函數(shù)輸出矩陣,根據(jù)令牌剪枝層中多頭自注意力模塊所有頭的softmax函數(shù)輸出矩陣計算令牌剪枝層的每個圖像令牌分?jǐn)?shù)以及剪枝閾值;
19、令牌分?jǐn)?shù)降序排序單元,其輸入端接收令牌剪枝層的每個圖像令牌分?jǐn)?shù),對令牌剪枝層的各個圖像令牌分?jǐn)?shù)進行降序排序;
20、令牌分?jǐn)?shù)部分和計算單元,其輸入端接收令牌剪枝層的剪枝閾值以及降序排序后的各個圖像令牌分?jǐn)?shù),對降序排序后的各個圖像令牌分?jǐn)?shù)按序進行部分和累加操作,在累加獲取的部分和大于令牌剪枝層的剪枝閾值時停止累加操作,并根據(jù)未參與部分和累加操作的圖像令牌生成剪枝決定指令,輸出剪枝決定指令至令牌剪枝層中前饋模塊前的層歸一化模塊的輸入端。
21、本發(fā)明采用上述技術(shù)方案,具有以下有益效果:
22、(1)本發(fā)明提供一種基于vision?transformer神經(jīng)網(wǎng)絡(luò)的硬件友好的剪枝方法,將權(quán)重剪枝和令牌剪枝相結(jié)合,可以同時減少vit網(wǎng)絡(luò)的計算量和參數(shù)量,降低網(wǎng)絡(luò)的推理延遲和硬件開銷的同時保持高精度,為網(wǎng)絡(luò)在資源受限的邊緣端的部署提供了優(yōu)化方法。
23、(2)考慮到vit網(wǎng)絡(luò)的不同層的權(quán)重對誤差的敏感程度不同,本發(fā)明采用逐層n:m權(quán)重剪枝方法進行權(quán)重剪枝,將海森跡應(yīng)用于權(quán)重剪枝,不同層和同一層中的不同模塊的權(quán)重的剪枝率不同,有效降低網(wǎng)絡(luò)參數(shù)量及存儲開銷的同時降低了剪枝帶來了精度損失,并且采用的n:m剪枝方法對硬件加速十分友好。
24、(3)本發(fā)明采用的令牌剪枝方法是一種自適應(yīng)的令牌剪枝方案,對于不同復(fù)雜度的圖像剪枝的令牌數(shù)量不同,這更加符合現(xiàn)實中的圖像和應(yīng)用場景,且采用的令牌剪枝方法使用vit網(wǎng)絡(luò)推理的中間值實現(xiàn)令牌的剪枝,不引入額外的網(wǎng)絡(luò)、參數(shù)和非線性函數(shù),對硬件加速十分友好。
25、(4)本發(fā)明提出的剪枝方法的實施過程簡單,各個步驟之間的功能區(qū)分清晰,可以很方便的應(yīng)用在各種vit網(wǎng)絡(luò)及相關(guān)變體中。