本發(fā)明涉及神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,具體涉及一種基于分層-反饋機(jī)制和teg引導(dǎo)的可微神經(jīng)架構(gòu)搜索方法。
背景技術(shù):
1、深度卷積神經(jīng)網(wǎng)絡(luò)(dcnn)的發(fā)展在計算機(jī)視覺任務(wù)的成功中起到了至關(guān)重要的作用。然而,手工設(shè)計新的網(wǎng)絡(luò)架構(gòu)不僅耗時耗力,還需要豐富的網(wǎng)絡(luò)訓(xùn)練經(jīng)驗,難以擴(kuò)展。神經(jīng)架構(gòu)搜索(neural?architecture?search,nas)近年來被用來替代人工設(shè)計,能夠在給定的搜索空間中自動發(fā)現(xiàn)高效的網(wǎng)絡(luò)架構(gòu),從而減少了人力和成本投入。
2、盡管nas在自動化方面具有顯著優(yōu)勢,但仍面臨大量計算時間和資源消耗的問題。大多數(shù)nas方法主要依賴于驗證集,并進(jìn)行基于精度的架構(gòu)優(yōu)化。因此,頻繁地訓(xùn)練和評估采樣架構(gòu)成為阻礙搜索效率和解釋能力的主要瓶頸。即使采用了多種有效的啟發(fā)式方法進(jìn)行信道近似或架構(gòu)采樣,超網(wǎng)絡(luò)的訓(xùn)練收斂速度依然非常緩慢。近似代理推理技術(shù),如截斷訓(xùn)練和提前停止,雖然可以加速搜索過程,但通常會引入嚴(yán)重的搜索偏差。
3、可微分架構(gòu)搜索(differentiable?architecture?search,darts)因其相對較低的計算成本和競爭力的性能,已成為當(dāng)前最受歡迎的nas方法之一。與傳統(tǒng)方法在一組離散的候選架構(gòu)上進(jìn)行搜索不同,darts將搜索空間松弛為連續(xù)空間,從而可以通過梯度下降對架構(gòu)進(jìn)行優(yōu)化。這種基于梯度優(yōu)化的效率將搜索成本從數(shù)千個gpu-days減少到僅幾個gpu-days。根據(jù)最近的nas調(diào)查,由于darts架構(gòu)的簡潔和優(yōu)雅,相關(guān)的研究工作非常豐富。此外,梯度優(yōu)化在連續(xù)搜索策略中的應(yīng)用,已成為nas領(lǐng)域的重要發(fā)展趨勢。
4、然而,現(xiàn)有的darts方法需要將搜索過程分為搜索和評估兩個步驟。搜索步驟使用一個淺層網(wǎng)絡(luò)來發(fā)現(xiàn)最優(yōu)的單元結(jié)構(gòu),而評估步驟將這些單元堆疊起來構(gòu)建一個深層網(wǎng)絡(luò)以進(jìn)行最終評估。這種方法導(dǎo)致搜索過程的優(yōu)化獨立于目標(biāo)評價網(wǎng)絡(luò)。pdarts試圖通過逐步深化搜索網(wǎng)絡(luò)來緩解這種深度差距。而entrannas通過結(jié)合評估網(wǎng)絡(luò)模塊與搜索網(wǎng)絡(luò)模塊,構(gòu)建了一個搜索網(wǎng)絡(luò),以縮小這種差距。此外,snas和gdas分別采用了gumbel-softmax和改進(jìn)的直通gumbel-softmax來緩解離散化引起的間隙,而autohas通過熵項增強(qiáng)了gdas,以同時搜索超參數(shù)和架構(gòu)。盡管這些方法在一定程度上優(yōu)化了搜索和評估過程,但仍然將這兩個過程分開,導(dǎo)致搜索網(wǎng)絡(luò)中發(fā)現(xiàn)的架構(gòu)性能與評估網(wǎng)絡(luò)實際性能的相關(guān)性有限。
5、另一方面,最近的一些研究對darts的有效性提出了質(zhì)疑。li和talwalkar觀察到,即使是簡單的隨機(jī)搜索方法也可以找到優(yōu)于原始darts的架構(gòu)。zela等人和liang等人表明,darts容易退化為充滿無參數(shù)操作(如跳過連接)的網(wǎng)絡(luò),導(dǎo)致搜索架構(gòu)的性能較差。為了緩解這些問題,yu等人提出了一種循環(huán)可微架構(gòu)搜索方法,稱為cdarts。cdarts將搜索和評估網(wǎng)絡(luò)整合到一個統(tǒng)一的架構(gòu)中,并以循環(huán)的方式聯(lián)合訓(xùn)練兩個網(wǎng)絡(luò),但仍存在著搜索訓(xùn)練成本較高的問題。
6、最近,人們通過提出免訓(xùn)練的nas來解決這個問題。研究發(fā)現(xiàn),即使在初始化時(即沒有梯度下降),樣本jacobian、neural?tangent?kernel和“synflow”等指標(biāo)也與網(wǎng)絡(luò)的精度高度相關(guān)。這大大降低了搜索成本。然而,這些工作只驗證了一些高度定制的搜索方法,并以經(jīng)驗或特別的方式利用了深度網(wǎng)絡(luò)的有限屬性。此外,這些不需要訓(xùn)練的指標(biāo)仍然只追求最終的搜索性能,對搜索軌跡和不同搜索空間的解釋和理解提供的好處有限。為了解決這些問題,chen等人提出了一種統(tǒng)一的、可視化的、無需訓(xùn)練的nas框架,稱為teg(trainability,expressivity,generalization),能夠提高搜索時間,同時提高了搜索模型的準(zhǔn)確性。
7、盡管pdarts通過逐步增加網(wǎng)絡(luò)深度來改善搜索和評估之間的差距,cdarts通過引入循環(huán)反饋機(jī)制來聯(lián)合優(yōu)化搜索和評估網(wǎng)絡(luò),但這些方法在架構(gòu)選擇和性能優(yōu)化方面仍有改進(jìn)空間。
技術(shù)實現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供一種基于分層-反饋機(jī)制和teg引導(dǎo)的可微神經(jīng)架構(gòu)搜索方法,結(jié)合pdarts和cdarts優(yōu)點的創(chuàng)新方法,進(jìn)一步引入teg指標(biāo),旨在優(yōu)化搜索效率和架構(gòu)性能。在第一階段采用pdarts的分階段深度遞增,并結(jié)合teg指標(biāo)優(yōu)化架構(gòu)選擇,而在第二階段引入循環(huán)反饋機(jī)制,并利用teg指標(biāo)進(jìn)一步優(yōu)化最終深層網(wǎng)絡(luò)的性能。通過這種分層與反饋機(jī)制的整合,本發(fā)明的方法很大程度上提高了搜索效率,同時保持了較高的搜索模型的準(zhǔn)確性。
2、為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
3、一種基于分層-反饋機(jī)制和teg引導(dǎo)的可微神經(jīng)架構(gòu)搜索方法,包括以下步驟:
4、步驟一,分層搜索階段:基于可微分架構(gòu)搜索方法進(jìn)行神經(jīng)架構(gòu)搜索,可微分架構(gòu)搜索方法包括搜索步驟和評估步驟,搜索步驟中包含多個搜索階段,每個搜索階段對應(yīng)一個搜索網(wǎng)絡(luò),且隨著搜索階段的增加,對應(yīng)的搜索網(wǎng)絡(luò)的單元的數(shù)量隨之增加,并逐漸接近評估步驟使用的評估網(wǎng)絡(luò)中的單元的數(shù)量;
5、在每個搜索階段開始時,計算當(dāng)前搜索階段的搜索網(wǎng)絡(luò)的teg指標(biāo),并使用teg指標(biāo)引導(dǎo)優(yōu)化當(dāng)前搜索階段的搜索網(wǎng)絡(luò)參數(shù)ωs和架構(gòu)權(quán)重α,
6、步驟二,反饋搜索階段:
7、評估網(wǎng)絡(luò)由最后一個搜索階段的搜索網(wǎng)絡(luò)擴(kuò)充而來,將搜索網(wǎng)絡(luò)與評估網(wǎng)絡(luò)整合,并以循環(huán)的方式聯(lián)合訓(xùn)練最后一個搜索階段的搜索網(wǎng)絡(luò)和評估網(wǎng)絡(luò);
8、在聯(lián)合訓(xùn)練的過程中,對每條可選邊逐步遞減對應(yīng)的可選操作,直到僅剩下兩個權(quán)重最高的操作,最后在訓(xùn)練集上取識別成功率最高的一組操作形成最終所需要的網(wǎng)絡(luò)。
9、進(jìn)一步地,搜索步驟包括三個搜索階段,三個搜索階段對應(yīng)的搜索網(wǎng)絡(luò)中的單元數(shù)量分別為5、8、11;評估步驟使用的評估網(wǎng)絡(luò)中的單元的數(shù)量為20。
10、進(jìn)一步地,步驟一中,使用teg指標(biāo)引導(dǎo)優(yōu)化當(dāng)前搜索階段的搜索網(wǎng)絡(luò)參數(shù)ωs和架構(gòu)權(quán)重α?xí)r,對應(yīng)的雙層優(yōu)化問題為:
11、
12、其中,rteg為當(dāng)前搜索階段的搜索網(wǎng)絡(luò)的teg指標(biāo);λω與λα是權(quán)重參數(shù),用于平衡損失和teg指標(biāo)在總損失中的權(quán)重;與分別表示驗證損失函數(shù)與訓(xùn)練損失函數(shù),表示網(wǎng)絡(luò)參數(shù)。
13、進(jìn)一步地,所述將搜索網(wǎng)絡(luò)與評估網(wǎng)絡(luò)整合,以循環(huán)的方式聯(lián)合訓(xùn)練最后一個搜索階段的搜索網(wǎng)絡(luò)和評估網(wǎng)絡(luò),具體包括:
14、將體系架構(gòu)搜索建模為搜索網(wǎng)絡(luò)與評估網(wǎng)絡(luò)的聯(lián)合優(yōu)化問題,聯(lián)合優(yōu)化問題的目標(biāo)函數(shù)為:
15、
16、
17、其中ωe與為評估網(wǎng)絡(luò)的參數(shù),ωs與是搜索網(wǎng)絡(luò)的參數(shù);與分別表示驗證損失函數(shù)與訓(xùn)練損失函數(shù),表示相應(yīng)的權(quán)重參數(shù),rteg為當(dāng)前搜索階段的搜索網(wǎng)絡(luò)的teg指標(biāo);
18、采用單獨學(xué)習(xí)和聯(lián)合學(xué)習(xí)兩個階段優(yōu)化聯(lián)合優(yōu)化問題的目標(biāo)函數(shù);在單獨訓(xùn)練階段,采用權(quán)重共享策略來更新ωe,根據(jù)搜索網(wǎng)絡(luò)的架構(gòu)權(quán)重更新評估網(wǎng)絡(luò)的結(jié)構(gòu);評估網(wǎng)絡(luò)的權(quán)重通過搜索網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化;
19、在聯(lián)合學(xué)習(xí)階段,搜索算法通過內(nèi)省蒸餾,利用評價網(wǎng)絡(luò)的特征反饋更新架構(gòu)權(quán)重α;所述聯(lián)合優(yōu)化問題的目標(biāo)函數(shù)進(jìn)一步表述為:
20、
21、其中,表示使用固定的權(quán)重來優(yōu)化搜索網(wǎng)絡(luò)中的架構(gòu)權(quán)重α,表示使用固定的架構(gòu)權(quán)重α來優(yōu)化評估網(wǎng)絡(luò)中的權(quán)重ωe,表示內(nèi)省蒸餾過程,用于將知識從評估網(wǎng)絡(luò)轉(zhuǎn)移到搜索網(wǎng)絡(luò),且使用從評估網(wǎng)絡(luò)中得到的特征作為監(jiān)督信號來引導(dǎo)搜索網(wǎng)絡(luò)中架構(gòu)權(quán)重α的更新。
22、與現(xiàn)有技術(shù)相比,本發(fā)明的有益技術(shù)效果是:
23、本發(fā)明提出了一種基于分層-反饋機(jī)制和teg引導(dǎo)的可微神經(jīng)架構(gòu)搜索框架,稱為darts-hf-teg。本發(fā)明的方法分為兩個階段,第一階段為分層搜索階段采用分階段網(wǎng)絡(luò)深度遞增,并結(jié)合teg指標(biāo)引導(dǎo)進(jìn)行架構(gòu)選擇;第二階段為反饋搜索階段,引入循環(huán)反饋機(jī)制,并利用teg指標(biāo)進(jìn)一步優(yōu)化最終深層網(wǎng)絡(luò)的性能。本發(fā)明在cifar、imagenet和nats-bench上的實驗和分析表明了該方法的有效性。具體來說,在darts搜索空間中,本發(fā)明在cifar10上實現(xiàn)了平均97.50%的top-1準(zhǔn)確率(僅需0.16gpu-days),在imagenet上實現(xiàn)了75.9%的top-1準(zhǔn)確率(僅需0.8gpu-days)。