本發(fā)明涉及網(wǎng)絡(luò)正則化,特別涉及一種雙正則化網(wǎng)絡(luò)訓(xùn)練方法。
背景技術(shù):
1、近年來,隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(dnn)在圖像識(shí)別、自然語言處理、語音識(shí)別等多個(gè)領(lǐng)域取得了顯著成果。然而,神經(jīng)網(wǎng)絡(luò)的高效訓(xùn)練和部署仍面臨諸多挑戰(zhàn),其中之一就是如何在不影響模型性能的前提下,減少模型的復(fù)雜度和存儲(chǔ)需求。特別是在資源受限的存內(nèi)計(jì)算電路上部署神經(jīng)網(wǎng)絡(luò)時(shí),模型的權(quán)重位寬限制和存儲(chǔ)瓶頸成為一個(gè)關(guān)鍵問題。
2、傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法通常采用固定位寬的權(quán)重表示,這在硬件實(shí)現(xiàn)中容易受到物理限制,導(dǎo)致權(quán)重精度不足或硬件資源占用過多。同時(shí),過多的模型參數(shù)還可能導(dǎo)致模型過擬合,使得在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好的模型在測(cè)試數(shù)據(jù)上表現(xiàn)不佳。為了克服這些問題,研究人員提出了各種正則化技術(shù),如l1正則化和l2正則化,以控制模型的復(fù)雜性和提高其泛化能力。
3、l1正則化通過對(duì)模型權(quán)重的絕對(duì)值施加懲罰,促使部分權(quán)重收斂至零,從而實(shí)現(xiàn)稀疏化和特征選擇;而l2正則化則通過對(duì)權(quán)重的平方施加懲罰,使權(quán)重保持較小但不為零,以平滑模型并防止過擬合。然而,在實(shí)際應(yīng)用中,尤其是在處理復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型時(shí),單一正則化方法的效果往往受限,難以同時(shí)滿足權(quán)重稀疏化和平滑收斂的需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種雙正則化網(wǎng)絡(luò)訓(xùn)練方法,適用于在限制權(quán)重位寬的存算電路上部署高效的神經(jīng)網(wǎng)絡(luò)模型,同時(shí)提高模型的泛化能力和抗過擬合能力。
2、本發(fā)明實(shí)施例提供一種雙正則化網(wǎng)絡(luò)訓(xùn)練方法,包括以下步驟:
3、通過前向傳播和反向傳播對(duì)網(wǎng)絡(luò)權(quán)重分組,得到第一權(quán)重組和第二權(quán)重組,其中,所述第一權(quán)重組包含卷積核權(quán)重位寬限制范圍外的權(quán)重,所述第二權(quán)重組包含已滿足卷積核權(quán)重位寬限制范圍標(biāo)準(zhǔn)的權(quán)重;
4、對(duì)所述第一權(quán)重組中的權(quán)重進(jìn)行權(quán)重絕對(duì)值的l1正則化,將l1正則化后所述第一權(quán)重組中滿足卷積核權(quán)重位寬限制范圍標(biāo)準(zhǔn)的權(quán)重轉(zhuǎn)移至第二權(quán)重組,對(duì)所述第二權(quán)重分組進(jìn)行基于權(quán)重平方的l2正則化,使得所述第一權(quán)重組和所述第二權(quán)重組均收斂。
5、可選地,在本發(fā)明的一個(gè)實(shí)施例中,所述第一權(quán)重組包含位于卷積核kernel[4n]范圍外且不在0到3之間的權(quán)重。
6、可選地,在本發(fā)明的一個(gè)實(shí)施例中,所述前向傳播包括權(quán)重輸入w、位置分類possplit、閾值分類thresh?split、所述第一權(quán)重組、所述第二權(quán)重組、卷積層、雙正則化模塊和損失函數(shù),其中,位置分類pos?split的條件為權(quán)重是否處于卷積核kernel[4n]的位置,閾值分類thresh?split的條件為權(quán)重值是否處于0到3的范圍,所述第一權(quán)重組表示權(quán)重位寬限制范圍外的權(quán)重,即數(shù)值在0到3范圍以外,所述第二權(quán)重組表示已滿足標(biāo)準(zhǔn)的權(quán)重,即數(shù)值在0到3范圍以內(nèi)。
7、可選地,在本發(fā)明的一個(gè)實(shí)施例中,前向傳播具體處理過程:
8、1)輸入的權(quán)重w通過卷積層進(jìn)行初步處理;
9、2)通過位置分類pos?split和閾值分類thresh?split將權(quán)重分為所述第一權(quán)重組和所述第二權(quán)重組;
10、3)所述第一權(quán)重組通過l1正則化進(jìn)行處理,使其快速收斂至0;
11、4)所述第二權(quán)重組通過l2正則化進(jìn)行平滑收斂;
12、5)經(jīng)過正則化處理的所述第一權(quán)重組和所述第二權(quán)重組再通過卷積層輸出,輸出值與目標(biāo)值進(jìn)行比較,并計(jì)算損失函數(shù)。
13、可選地,在本發(fā)明的一個(gè)實(shí)施例中,所述反向傳播包括卷積層、雙正則化模塊、所述第一權(quán)重組、所述第二權(quán)重組、權(quán)重合并模塊和權(quán)重輸出;反向傳播具體處理過程為:
14、1)前向傳播中已經(jīng)滿足標(biāo)準(zhǔn)的所述第一權(quán)重組中的權(quán)重通過合并操作移至所述第二權(quán)重組;
15、2)對(duì)所述第一權(quán)重組進(jìn)行l(wèi)1正則化處理,l1正則化通過懲罰權(quán)重的絕對(duì)值,使得權(quán)重值趨向于零,促使模型稀疏化;
16、3)對(duì)所述第二權(quán)重組則繼續(xù)進(jìn)行l(wèi)2正則化處理,限制權(quán)重平方值;
17、4)所述第一權(quán)重組和所述第二權(quán)重組通過卷積層進(jìn)行計(jì)算并生成梯度,更新模型的參數(shù);
18、5)更新所述第一權(quán)重組和所述第二權(quán)重組的權(quán)重值以最小化損失函數(shù)。
19、本發(fā)明實(shí)施例的雙正則化網(wǎng)絡(luò)訓(xùn)練方法,旨在解決存算電路中權(quán)重位寬限制的問題。該方法結(jié)合了l1和l2正則化的優(yōu)點(diǎn),通過將網(wǎng)絡(luò)權(quán)重分為兩組,分別進(jìn)行不同的正則化處理,以實(shí)現(xiàn)對(duì)權(quán)重的精細(xì)控制。具體而言,位于限制范圍外的wa權(quán)重通過l1正則化快速收斂至零,減少不必要的權(quán)重,降低模型復(fù)雜度;而滿足標(biāo)準(zhǔn)的wb權(quán)重則通過l2正則化進(jìn)行平滑收斂,保持模型的穩(wěn)定性和精度。該方法通過前向傳播和反向傳播的協(xié)同作用,有效地控制了權(quán)重的收斂速度和大小,適用于在限制權(quán)重位寬的存算電路上部署高效神經(jīng)網(wǎng)絡(luò)模型,同時(shí)提高模型的泛化能力和抗過擬合能力。
20、本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
1.一種雙正則化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一權(quán)重組包含位于卷積核kernel[4n]范圍外且不在0到3之間的權(quán)重。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述前向傳播包括權(quán)重輸入w、位置分類pos?split、閾值分類thresh?split、所述第一權(quán)重組、所述第二權(quán)重組、卷積層、雙正則化模塊和損失函數(shù),其中,位置分類pos?split的條件為權(quán)重是否處于卷積核kernel[4n]的位置,閾值分類thresh?split的條件為權(quán)重值是否處于0到3的范圍,所述第一權(quán)重組表示權(quán)重位寬限制范圍外的權(quán)重,即數(shù)值在0到3范圍以外,所述第二權(quán)重組表示已滿足標(biāo)準(zhǔn)的權(quán)重,即數(shù)值在0到3范圍以內(nèi)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,前向傳播具體處理過程:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述反向傳播包括卷積層、雙正則化模塊、所述第一權(quán)重組、所述第二權(quán)重組、權(quán)重合并模塊和權(quán)重輸出;反向傳播具體處理過程為: