基于分層-反饋機(jī)制和TEG引導(dǎo)的可微神經(jīng)架構(gòu)搜索方法

文檔序號：40393598發(fā)布日期：2024-12-20 12:16閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索，具體涉及一種基于分層-反饋機(jī)制和teg引導(dǎo)的可微神經(jīng)架構(gòu)搜索方法。

背景技術(shù)：

1、深度卷積神經(jīng)網(wǎng)絡(luò)(dcnn)的發(fā)展在計算機(jī)視覺任務(wù)的成功中起到了至關(guān)重要的作用。然而，手工設(shè)計新的網(wǎng)絡(luò)架構(gòu)不僅耗時耗力，還需要豐富的網(wǎng)絡(luò)訓(xùn)練經(jīng)驗，難以擴(kuò)展。神經(jīng)架構(gòu)搜索(neural?architecture?search,nas)近年來被用來替代人工設(shè)計，能夠在給定的搜索空間中自動發(fā)現(xiàn)高效的網(wǎng)絡(luò)架構(gòu)，從而減少了人力和成本投入。

2、盡管nas在自動化方面具有顯著優(yōu)勢，但仍面臨大量計算時間和資源消耗的問題。大多數(shù)nas方法主要依賴于驗證集，并進(jìn)行基于精度的架構(gòu)優(yōu)化。因此，頻繁地訓(xùn)練和評估采樣架構(gòu)成為阻礙搜索效率和解釋能力的主要瓶頸。即使采用了多種有效的啟發(fā)式方法進(jìn)行信道近似或架構(gòu)采樣，超網(wǎng)絡(luò)的訓(xùn)練收斂速度依然非常緩慢。近似代理推理技術(shù)，如截斷訓(xùn)練和提前停止，雖然可以加速搜索過程，但通常會引入嚴(yán)重的搜索偏差。

3、可微分架構(gòu)搜索(differentiable?architecture?search,darts)因其相對較低的計算成本和競爭力的性能，已成為當(dāng)前最受歡迎的nas方法之一。與傳統(tǒng)方法在一組離散的候選架構(gòu)上進(jìn)行搜索不同，darts將搜索空間松弛為連續(xù)空間，從而可以通過梯度下降對架構(gòu)進(jìn)行優(yōu)化。這種基于梯度優(yōu)化的效率將搜索成本從數(shù)千個gpu-days減少到僅幾個gpu-days。根據(jù)最近的nas調(diào)查，由于darts架構(gòu)的簡潔和優(yōu)雅，相關(guān)的研究工作非常豐富。此外，梯度優(yōu)化在連續(xù)搜索策略中的應(yīng)用，已成為nas領(lǐng)域的重要發(fā)展趨勢。

4、然而，現(xiàn)有的darts方法需要將搜索過程分為搜索和評估兩個步驟。搜索步驟使用一個淺層網(wǎng)絡(luò)來發(fā)現(xiàn)最優(yōu)的單元結(jié)構(gòu)，而評估步驟將這些單元堆疊起來構(gòu)建一個深層網(wǎng)絡(luò)以進(jìn)行最終評估。這種方法導(dǎo)致搜索過程的優(yōu)化獨立于目標(biāo)評價網(wǎng)絡(luò)。pdarts試圖通過逐步深化搜索網(wǎng)絡(luò)來緩解這種深度差距。而entrannas通過結(jié)合評估網(wǎng)絡(luò)模塊與搜索網(wǎng)絡(luò)模塊，構(gòu)建了一個搜索網(wǎng)絡(luò)，以縮小這種差距。此外，snas和gdas分別采用了gumbel-softmax和改進(jìn)的直通gumbel-softmax來緩解離散化引起的間隙，而autohas通過熵項增強(qiáng)了gdas，以同時搜索超參數(shù)和架構(gòu)。盡管這些方法在一定程度上優(yōu)化了搜索和評估過程，但仍然將這兩個過程分開，導(dǎo)致搜索網(wǎng)絡(luò)中發(fā)現(xiàn)的架構(gòu)性能與評估網(wǎng)絡(luò)實際性能的相關(guān)性有限。

5、另一方面，最近的一些研究對darts的有效性提出了質(zhì)疑。li和talwalkar觀察到，即使是簡單的隨機(jī)搜索方法也可以找到優(yōu)于原始darts的架構(gòu)。zela等人和liang等人表明，darts容易退化為充滿無參數(shù)操作(如跳過連接)的網(wǎng)絡(luò)，導(dǎo)致搜索架構(gòu)的性能較差。為了緩解這些問題，yu等人提出了一種循環(huán)可微架構(gòu)搜索方法，稱為cdarts。cdarts將搜索和評估網(wǎng)絡(luò)整合到一個統(tǒng)一的架構(gòu)中，并以循環(huán)的方式聯(lián)合訓(xùn)練兩個網(wǎng)絡(luò)，但仍存在著搜索訓(xùn)練成本較高的問題。

6、最近，人們通過提出免訓(xùn)練的nas來解決這個問題。研究發(fā)現(xiàn)，即使在初始化時(即沒有梯度下降)，樣本jacobian、neural?tangent?kernel和“synflow”等指標(biāo)也與網(wǎng)絡(luò)的精度高度相關(guān)。這大大降低了搜索成本。然而，這些工作只驗證了一些高度定制的搜索方法，并以經(jīng)驗或特別的方式利用了深度網(wǎng)絡(luò)的有限屬性。此外，這些不需要訓(xùn)練的指標(biāo)仍然只追求最終的搜索性能，對搜索軌跡和不同搜索空間的解釋和理解提供的好處有限。為了解決這些問題，chen等人提出了一種統(tǒng)一的、可視化的、無需訓(xùn)練的nas框架，稱為teg(trainability,expressivity,generalization)，能夠提高搜索時間，同時提高了搜索模型的準(zhǔn)確性。

7、盡管pdarts通過逐步增加網(wǎng)絡(luò)深度來改善搜索和評估之間的差距，cdarts通過引入循環(huán)反饋機(jī)制來聯(lián)合優(yōu)化搜索和評估網(wǎng)絡(luò)，但這些方法在架構(gòu)選擇和性能優(yōu)化方面仍有改進(jìn)空間。

技術(shù)實現(xiàn)思路

1、為解決上述技術(shù)問題，本發(fā)明提供一種基于分層-反饋機(jī)制和teg引導(dǎo)的可微神經(jīng)架構(gòu)搜索方法,結(jié)合pdarts和cdarts優(yōu)點的創(chuàng)新方法，進(jìn)一步引入teg指標(biāo)，旨在優(yōu)化搜索效率和架構(gòu)性能。在第一階段采用pdarts的分階段深度遞增，并結(jié)合teg指標(biāo)優(yōu)化架構(gòu)選擇，而在第二階段引入循環(huán)反饋機(jī)制，并利用teg指標(biāo)進(jìn)一步優(yōu)化最終深層網(wǎng)絡(luò)的性能。通過這種分層與反饋機(jī)制的整合，本發(fā)明的方法很大程度上提高了搜索效率，同時保持了較高的搜索模型的準(zhǔn)確性。

2、為解決上述技術(shù)問題，本發(fā)明采用如下技術(shù)方案：

3、一種基于分層-反饋機(jī)制和teg引導(dǎo)的可微神經(jīng)架構(gòu)搜索方法，包括以下步驟：

4、步驟一，分層搜索階段：基于可微分架構(gòu)搜索方法進(jìn)行神經(jīng)架構(gòu)搜索，可微分架構(gòu)搜索方法包括搜索步驟和評估步驟，搜索步驟中包含多個搜索階段，每個搜索階段對應(yīng)一個搜索網(wǎng)絡(luò)，且隨著搜索階段的增加，對應(yīng)的搜索網(wǎng)絡(luò)的單元的數(shù)量隨之增加，并逐漸接近評估步驟使用的評估網(wǎng)絡(luò)中的單元的數(shù)量；

5、在每個搜索階段開始時，計算當(dāng)前搜索階段的搜索網(wǎng)絡(luò)的teg指標(biāo)，并使用teg指標(biāo)引導(dǎo)優(yōu)化當(dāng)前搜索階段的搜索網(wǎng)絡(luò)參數(shù)ωs和架構(gòu)權(quán)重α，

6、步驟二，反饋搜索階段：

7、評估網(wǎng)絡(luò)由最后一個搜索階段的搜索網(wǎng)絡(luò)擴(kuò)充而來，將搜索網(wǎng)絡(luò)與評估網(wǎng)絡(luò)整合，并以循環(huán)的方式聯(lián)合訓(xùn)練最后一個搜索階段的搜索網(wǎng)絡(luò)和評估網(wǎng)絡(luò)；

8、在聯(lián)合訓(xùn)練的過程中，對每條可選邊逐步遞減對應(yīng)的可選操作，直到僅剩下兩個權(quán)重最高的操作，最后在訓(xùn)練集上取識別成功率最高的一組操作形成最終所需要的網(wǎng)絡(luò)。

9、進(jìn)一步地，搜索步驟包括三個搜索階段，三個搜索階段對應(yīng)的搜索網(wǎng)絡(luò)中的單元數(shù)量分別為5、8、11；評估步驟使用的評估網(wǎng)絡(luò)中的單元的數(shù)量為20。

10、進(jìn)一步地，步驟一中，使用teg指標(biāo)引導(dǎo)優(yōu)化當(dāng)前搜索階段的搜索網(wǎng)絡(luò)參數(shù)ωs和架構(gòu)權(quán)重α?xí)r，對應(yīng)的雙層優(yōu)化問題為：

11、

12、其中，rteg為當(dāng)前搜索階段的搜索網(wǎng)絡(luò)的teg指標(biāo)；λω與λα是權(quán)重參數(shù)，用于平衡損失和teg指標(biāo)在總損失中的權(quán)重；與分別表示驗證損失函數(shù)與訓(xùn)練損失函數(shù)，表示網(wǎng)絡(luò)參數(shù)。

13、進(jìn)一步地，所述將搜索網(wǎng)絡(luò)與評估網(wǎng)絡(luò)整合，以循環(huán)的方式聯(lián)合訓(xùn)練最后一個搜索階段的搜索網(wǎng)絡(luò)和評估網(wǎng)絡(luò)，具體包括：

14、將體系架構(gòu)搜索建模為搜索網(wǎng)絡(luò)與評估網(wǎng)絡(luò)的聯(lián)合優(yōu)化問題，聯(lián)合優(yōu)化問題的目標(biāo)函數(shù)為：

15、

16、

17、其中ωe與為評估網(wǎng)絡(luò)的參數(shù)，ωs與是搜索網(wǎng)絡(luò)的參數(shù)；與分別表示驗證損失函數(shù)與訓(xùn)練損失函數(shù)，表示相應(yīng)的權(quán)重參數(shù)，rteg為當(dāng)前搜索階段的搜索網(wǎng)絡(luò)的teg指標(biāo)；

18、采用單獨學(xué)習(xí)和聯(lián)合學(xué)習(xí)兩個階段優(yōu)化聯(lián)合優(yōu)化問題的目標(biāo)函數(shù)；在單獨訓(xùn)練階段，采用權(quán)重共享策略來更新ωe，根據(jù)搜索網(wǎng)絡(luò)的架構(gòu)權(quán)重更新評估網(wǎng)絡(luò)的結(jié)構(gòu)；評估網(wǎng)絡(luò)的權(quán)重通過搜索網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化；

19、在聯(lián)合學(xué)習(xí)階段，搜索算法通過內(nèi)省蒸餾，利用評價網(wǎng)絡(luò)的特征反饋更新架構(gòu)權(quán)重α；所述聯(lián)合優(yōu)化問題的目標(biāo)函數(shù)進(jìn)一步表述為：

20、

21、其中，表示使用固定的權(quán)重來優(yōu)化搜索網(wǎng)絡(luò)中的架構(gòu)權(quán)重α，表示使用固定的架構(gòu)權(quán)重α來優(yōu)化評估網(wǎng)絡(luò)中的權(quán)重ωe，表示內(nèi)省蒸餾過程，用于將知識從評估網(wǎng)絡(luò)轉(zhuǎn)移到搜索網(wǎng)絡(luò)，且使用從評估網(wǎng)絡(luò)中得到的特征作為監(jiān)督信號來引導(dǎo)搜索網(wǎng)絡(luò)中架構(gòu)權(quán)重α的更新。

22、與現(xiàn)有技術(shù)相比，本發(fā)明的有益技術(shù)效果是：

23、本發(fā)明提出了一種基于分層-反饋機(jī)制和teg引導(dǎo)的可微神經(jīng)架構(gòu)搜索框架，稱為darts-hf-teg。本發(fā)明的方法分為兩個階段，第一階段為分層搜索階段采用分階段網(wǎng)絡(luò)深度遞增，并結(jié)合teg指標(biāo)引導(dǎo)進(jìn)行架構(gòu)選擇；第二階段為反饋搜索階段，引入循環(huán)反饋機(jī)制，并利用teg指標(biāo)進(jìn)一步優(yōu)化最終深層網(wǎng)絡(luò)的性能。本發(fā)明在cifar、imagenet和nats-bench上的實驗和分析表明了該方法的有效性。具體來說，在darts搜索空間中，本發(fā)明在cifar10上實現(xiàn)了平均97.50％的top-1準(zhǔn)確率(僅需0.16gpu-days)，在imagenet上實現(xiàn)了75.9％的top-1準(zhǔn)確率(僅需0.8gpu-days)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張成,史繼森,韓鵬,周昊,章權(quán)兵,程鴻,沈川,韋穗
技術(shù)所有人：安徽大學(xué)
我是此專利的發(fā)明人

上一篇：一種可視化多功能水下打撈工具的制作方法
上一篇：一種高適用性的騎馬卡的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于分層-反饋機(jī)制和TEG引導(dǎo)的可微神經(jīng)架構(gòu)搜索方法