国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于深度強(qiáng)化學(xué)習(xí)算法的風(fēng)力發(fā)電機(jī)葉片無(wú)人機(jī)巡檢方法

      文檔序號(hào):39345121發(fā)布日期:2024-09-10 12:08閱讀:68來(lái)源:國(guó)知局
      基于深度強(qiáng)化學(xué)習(xí)算法的風(fēng)力發(fā)電機(jī)葉片無(wú)人機(jī)巡檢方法

      本發(fā)明屬于無(wú)人機(jī)巡檢,具體是涉及一種基于深度強(qiáng)化學(xué)習(xí)算法的風(fēng)力發(fā)電機(jī)葉片無(wú)人機(jī)巡檢方法。


      背景技術(shù):

      1、面對(duì)當(dāng)前全球能源轉(zhuǎn)型的趨勢(shì),各國(guó)積極支持推動(dòng)風(fēng)電行業(yè)的發(fā)展。但是,由于風(fēng)力發(fā)電機(jī)葉片暴露在自然環(huán)境中,受到各種自然因素的影響導(dǎo)致葉片損傷,不僅會(huì)影響能量輸出減少,還可能引起風(fēng)機(jī)失衡,縮短設(shè)備壽命。因此,對(duì)葉片的維護(hù)和檢查工作變得尤為重要。

      2、近年來(lái),隨著無(wú)人機(jī)技術(shù)的飛速發(fā)展,使用四旋翼無(wú)人機(jī)自主巡檢風(fēng)機(jī)葉片的方法已經(jīng)成為主流,如中國(guó)專利公開(kāi)(公告)號(hào)為cn116906276a的專利,提供了一種針對(duì)風(fēng)機(jī)葉片的智能巡檢方法,該發(fā)明包括確定無(wú)人機(jī)的巡檢路徑、圖像信息采集和故障類型判斷,但葉片損傷圖像的清晰度受到無(wú)人機(jī)穩(wěn)定程度的影響,在復(fù)雜風(fēng)場(chǎng)環(huán)境下無(wú)人機(jī)穩(wěn)定程度有限,在很大程度上會(huì)影響圖像信息的采集。中國(guó)專利公開(kāi)(公告)號(hào)為cn116906276a的專利,公開(kāi)了一種針對(duì)風(fēng)機(jī)葉片的智能巡檢方法,根據(jù)建立的待巡檢風(fēng)機(jī)的模型,確定巡檢路徑,使用無(wú)人機(jī)進(jìn)行自主巡檢,但在復(fù)雜風(fēng)場(chǎng)環(huán)境下受風(fēng)場(chǎng)擾動(dòng)影響,無(wú)人機(jī)會(huì)偏離規(guī)劃的巡檢路徑穩(wěn)定程度有限。

      3、為了提高無(wú)人機(jī)穩(wěn)定性,降低維護(hù)成本,探索以深度強(qiáng)化學(xué)習(xí)算法用于無(wú)人機(jī)巡檢控制為出發(fā)點(diǎn),研究和改進(jìn)td3算法用于復(fù)雜風(fēng)場(chǎng)環(huán)境下無(wú)人機(jī)巡檢控制具有重要意義。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明公開(kāi)了一種基于深度強(qiáng)化學(xué)習(xí)算法的風(fēng)力發(fā)電機(jī)葉片無(wú)人機(jī)巡檢方法,適用于風(fēng)力發(fā)電機(jī)葉片巡檢任務(wù),能控制無(wú)人機(jī)高效穩(wěn)定巡檢,其能夠在獎(jiǎng)勵(lì)稀疏的環(huán)境下,綜合考慮能耗、穩(wěn)定性等問(wèn)題,完成無(wú)人機(jī)對(duì)風(fēng)機(jī)葉片的自主巡檢任務(wù)。

      2、一種基于深度強(qiáng)化學(xué)習(xí)算法的風(fēng)力發(fā)電機(jī)葉片無(wú)人機(jī)巡檢方法,其包括以下步驟:

      3、步驟1:構(gòu)建無(wú)人機(jī)巡檢風(fēng)力發(fā)電機(jī)葉片任務(wù)的強(qiáng)化學(xué)習(xí)模型;

      4、步驟2:定義基于連續(xù)位置和能耗的啟發(fā)式動(dòng)態(tài)獎(jiǎng)勵(lì)函數(shù);

      5、步驟3:搭建改進(jìn)的雙延遲深度確定性策略梯度td3算法;

      6、步驟4:在復(fù)雜風(fēng)場(chǎng)環(huán)境下訓(xùn)練算法以控制無(wú)人機(jī)實(shí)現(xiàn)葉片巡檢任務(wù)。

      7、作為優(yōu)選,步驟1具體包括以下步驟:

      8、步驟1-1:對(duì)無(wú)人機(jī)巡檢風(fēng)力發(fā)電機(jī)葉片的強(qiáng)化學(xué)習(xí)模型(s,a,p,r,γ)進(jìn)行構(gòu)建,其中s為環(huán)境的所有可能集合,在強(qiáng)化學(xué)習(xí)框架下,s包含無(wú)人機(jī)巡檢所需的全部信息;a為無(wú)人機(jī)在每個(gè)狀態(tài)下可以采取的所有可能的動(dòng)作集合;p為狀態(tài)轉(zhuǎn)移概率,在當(dāng)前狀態(tài)下采取動(dòng)作后轉(zhuǎn)移到另一個(gè)狀態(tài)的可能性;r為獎(jiǎng)勵(lì)函數(shù);γ為折扣因子。無(wú)人機(jī)在環(huán)境中的可行性空間為h×l×w的三維環(huán)境空間,h表示該可行性空間的高度;l為該空間的長(zhǎng)度,w為該空間的寬度,此區(qū)域?yàn)闊o(wú)人機(jī)巡檢葉片的可行性空間;

      9、步驟1-2:定義強(qiáng)化學(xué)習(xí)模型的狀態(tài)空間;設(shè)定狀態(tài)為:s=[sl,sa,sv,sw,sp],其中,狀態(tài)sl=[x,y,z]表示無(wú)人機(jī)在環(huán)境中的三維坐標(biāo)位置;表示無(wú)人機(jī)的歐拉角,為無(wú)人機(jī)的翻滾角、θ為無(wú)人機(jī)的俯仰角、ψ為無(wú)人機(jī)的偏航角,將無(wú)人機(jī)的歐拉角限制在合理范圍內(nèi),超過(guò)設(shè)定范圍代表無(wú)人機(jī)運(yùn)動(dòng)激烈則終止:sv=[vx,vy,vz]表示無(wú)人機(jī)的運(yùn)動(dòng)速度在三維坐標(biāo)系下的速度分量;sw=[ωx,ωy,ωz]表示無(wú)人機(jī)的角速度在三維坐標(biāo)系下的角速度分量;sp=[δx,δy,δz]表示無(wú)人機(jī)當(dāng)前位置坐標(biāo)距離待巡檢點(diǎn)三維坐標(biāo)的坐標(biāo)差;

      10、步驟1-3:定義強(qiáng)化學(xué)習(xí)模型的動(dòng)作空間:無(wú)人機(jī)的輸出動(dòng)作a表示無(wú)人機(jī)在每個(gè)狀態(tài)下可以采取的所有可能的動(dòng)作集合;輸出動(dòng)作a=[w1,w2,w3,w4],其中,w1…w4表示無(wú)人機(jī)四個(gè)旋翼的轉(zhuǎn)速;對(duì)無(wú)人機(jī)四個(gè)旋翼的轉(zhuǎn)速以及無(wú)人機(jī)的加速度進(jìn)行約束,防止無(wú)人機(jī)激烈運(yùn)動(dòng):wi∈[wmin,wmax],其中,wmin、wmax分別表示無(wú)人機(jī)旋翼的最低、最高轉(zhuǎn)速;ai∈[amin,amax]分別代表無(wú)人機(jī)的最小和最大加速度。

      11、作為優(yōu)選,步驟2具體包括以下步驟:

      12、步驟2-1:定義獎(jiǎng)勵(lì)函數(shù)r,利用無(wú)人機(jī)傳感器獲取無(wú)人機(jī)到待巡檢點(diǎn)的距離,通過(guò)設(shè)置連續(xù)位置與能耗的啟發(fā)式動(dòng)態(tài)獎(jiǎng)勵(lì)函數(shù),控制無(wú)人機(jī)以最少能耗和最穩(wěn)定的方式對(duì)風(fēng)力發(fā)電機(jī)葉片進(jìn)行自主巡檢,通過(guò)對(duì)無(wú)人機(jī)設(shè)置避障獎(jiǎng)勵(lì)和完成任務(wù)獎(jiǎng)勵(lì),加快訓(xùn)練過(guò)程;

      13、步驟2-2:設(shè)置連續(xù)位置啟發(fā)式動(dòng)態(tài)獎(jiǎng)勵(lì)函數(shù)rp如下式所示:

      14、

      15、其中,η是獎(jiǎng)勵(lì)系數(shù),dt是當(dāng)前狀態(tài)下無(wú)人機(jī)到待巡檢點(diǎn)的距離,dt+1是下一狀態(tài)下無(wú)人機(jī)到待巡檢點(diǎn)的距離。當(dāng)無(wú)人機(jī)執(zhí)行當(dāng)前動(dòng)作時(shí),如果下一狀態(tài)更接近待巡檢點(diǎn),則將獲得正獎(jiǎng)勵(lì),如果下一狀態(tài)遠(yuǎn)離待巡檢點(diǎn),則給予懲罰,距離越遠(yuǎn)懲罰越大;

      16、步驟2-3:在本技術(shù)無(wú)人機(jī)巡檢風(fēng)機(jī)葉片的任務(wù)中,由于風(fēng)機(jī)葉片長(zhǎng)度較長(zhǎng),且風(fēng)機(jī)塔筒的高度較高一般在100m左右,為了延長(zhǎng)無(wú)人機(jī)的飛行時(shí)間,需要減少電池電量的消耗。為此,在本技術(shù)無(wú)人機(jī)巡檢任務(wù)中,還需設(shè)計(jì)關(guān)于能耗的獎(jiǎng)勵(lì)函數(shù),連續(xù)能耗獎(jiǎng)勵(lì)函數(shù)re為:re=t+0.3·v2+0.5·a,其中,t為無(wú)人機(jī)總運(yùn)動(dòng)時(shí)長(zhǎng),v2與無(wú)人機(jī)動(dòng)能成正比,通過(guò)調(diào)整速度進(jìn)而鼓勵(lì)低能耗的運(yùn)動(dòng),a為無(wú)人機(jī)的加速度,與速度類似,加速度的增加通常會(huì)導(dǎo)致能量消耗的增加(例如,通過(guò)更多的推力來(lái)加速)。因此在獎(jiǎng)勵(lì)函數(shù)中,a越大,能耗懲罰越大;

      17、步驟2-4:當(dāng)無(wú)人機(jī)與待巡檢點(diǎn)的距離小于0.5m時(shí),則認(rèn)為無(wú)人機(jī)已完成飛行任務(wù),并獲得100的正獎(jiǎng)勵(lì)rs;

      18、步驟2-5:設(shè)置避障獎(jiǎng)勵(lì)函數(shù)為rc=0.5-d,其中,d為當(dāng)前無(wú)人機(jī)到待巡檢點(diǎn)的距離;

      19、綜合無(wú)人機(jī)連續(xù)位置獎(jiǎng)勵(lì)函數(shù)、能耗獎(jiǎng)勵(lì)函數(shù)、完成任務(wù)獎(jiǎng)勵(lì)與避障獎(jiǎng)勵(lì)得到獎(jiǎng)勵(lì)函數(shù)r為:r=rp+re+rs+rc

      20、步驟2-6:定義折扣因子γ:折扣因子γ取值范圍為(0,1),用于計(jì)算獎(jiǎng)勵(lì)累計(jì)值,γ越大,表示越注重長(zhǎng)期回報(bào)。

      21、作為優(yōu)選,步驟3具體包含以下步驟:

      22、步驟3-1:改進(jìn)的雙延遲深度確定性策略梯度算法使用6個(gè)網(wǎng)絡(luò),4個(gè)critic網(wǎng)絡(luò)和2個(gè)actor網(wǎng)絡(luò),2個(gè)actor網(wǎng)絡(luò)將狀態(tài)作為輸入,4個(gè)critic網(wǎng)絡(luò)將狀態(tài)和動(dòng)作作為輸入,狀態(tài)由15個(gè)元素構(gòu)成分別是四旋翼無(wú)人機(jī)的三維坐標(biāo)位置、無(wú)人機(jī)的歐拉角、無(wú)人機(jī)在3個(gè)坐標(biāo)上的線速度和角速度以及當(dāng)前坐標(biāo)與待巡檢點(diǎn)位置坐標(biāo)的坐標(biāo)差。網(wǎng)絡(luò)的輸出有所不同,對(duì)于4個(gè)critic網(wǎng)絡(luò),采用對(duì)決網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),輸出優(yōu)勢(shì)值和狀態(tài)值,而對(duì)于2個(gè)actor網(wǎng)絡(luò),將有4個(gè)輸出,即四旋翼無(wú)人機(jī)的四個(gè)電機(jī)的轉(zhuǎn)速。其中,critic網(wǎng)絡(luò),將狀態(tài)輸入經(jīng)過(guò)一個(gè)128層的全連接層后分為兩個(gè)部分一個(gè)部分經(jīng)過(guò)64層的全連接層輸出為狀態(tài)值;另一個(gè)經(jīng)過(guò)64層的全連接層后與經(jīng)過(guò)128層、64層的全連接層的動(dòng)作輸入相連接輸入到64層全連接層后輸出為優(yōu)勢(shì)值,如圖2。actor網(wǎng)絡(luò),是由2個(gè)具有relu激活的128個(gè)節(jié)點(diǎn)和64個(gè)節(jié)點(diǎn)的隱藏層和一個(gè)具有tanh激活函數(shù)的輸出層組成的,

      23、步驟3-2:構(gòu)建優(yōu)先經(jīng)驗(yàn)回放緩沖池:引入td_error,決定經(jīng)驗(yàn)被抽樣的概率,高td_error的經(jīng)驗(yàn)被認(rèn)為是更有價(jià)值的,因?yàn)樗硎緹o(wú)人機(jī)對(duì)這些經(jīng)驗(yàn)的預(yù)測(cè)有很大的偏差,從這些經(jīng)驗(yàn)中學(xué)習(xí)有可能帶來(lái)更大的價(jià)值函數(shù)的更新。作為優(yōu)選,步驟4,在復(fù)雜風(fēng)場(chǎng)環(huán)境下訓(xùn)練算法以控制無(wú)人機(jī)實(shí)現(xiàn)葉片巡檢任務(wù),具體包含以下步驟:

      24、步驟4-1:在ue4和airsim仿真環(huán)境下構(gòu)建風(fēng)機(jī)模型與復(fù)雜風(fēng)場(chǎng)環(huán)境,風(fēng)場(chǎng)環(huán)境按照無(wú)人機(jī)抗風(fēng)能力國(guó)標(biāo)要求進(jìn)行設(shè)計(jì),由三種風(fēng)場(chǎng)組成:持續(xù)風(fēng)、陣風(fēng)和切向風(fēng)給;在搭建的仿真環(huán)境下訓(xùn)練改進(jìn)的td3算法;

      25、步驟4-2:初始化仿真環(huán)境和神經(jīng)網(wǎng)絡(luò)模型,仿真環(huán)境包括風(fēng)場(chǎng)環(huán)境和無(wú)人機(jī)自主起飛到起始點(diǎn)保持懸停;對(duì)于神經(jīng)網(wǎng)絡(luò),critic網(wǎng)絡(luò)采用了對(duì)決網(wǎng)絡(luò)結(jié)構(gòu)將q值函數(shù)分解為狀態(tài)值函數(shù)和優(yōu)勢(shì)值函數(shù),數(shù)學(xué)表達(dá)式如下:

      26、

      27、設(shè)置算法的超參數(shù):學(xué)習(xí)率、單個(gè)回合內(nèi)最大動(dòng)作步數(shù),最大訓(xùn)練回合數(shù)、優(yōu)先經(jīng)驗(yàn)池的最大容量、軟更新參數(shù)以及噪聲參數(shù)等;

      28、步驟4-3:在每個(gè)訓(xùn)練步驟中,執(zhí)行以下操作:

      29、選擇具有探索噪聲的動(dòng)作,執(zhí)行動(dòng)作a并得到獎(jiǎng)勵(lì)r,觀察無(wú)人機(jī)新?tīng)顟B(tài)s`:s`,r,done=step(a)

      30、為當(dāng)前轉(zhuǎn)換計(jì)算優(yōu)先級(jí),計(jì)算公式如下:

      31、td-error=|q1(s,a)-r-γ×min(q1_tar(s',π_tar(s')),q2_tar(s',π_tar(s')))|

      32、priority=(td-error+ε)×α

      33、其中,td_error用于衡量當(dāng)前估計(jì)值和目標(biāo)值之間的差異,q1(s,a)critic_1網(wǎng)絡(luò)對(duì)于當(dāng)前狀態(tài)s和選擇的動(dòng)作a的估計(jì)值,r是執(zhí)行動(dòng)作a后得到的獎(jiǎng)勵(lì),γ是折扣因子用于衡量未來(lái)獎(jiǎng)勵(lì)的重要性,min(q1_tar(s',π_tar(s')),q2_tar(s',π_tar(s')))表示下一個(gè)狀態(tài)s`使用目標(biāo)策略π_tar選擇動(dòng)作時(shí),所估計(jì)的critic網(wǎng)絡(luò)的最小q值;

      34、優(yōu)先級(jí)是根據(jù)td_error計(jì)算的用于指導(dǎo)經(jīng)驗(yàn)回放時(shí)的采樣過(guò)程,公式中,將td_error加上極小的正數(shù)ε確保每個(gè)樣品都有優(yōu)先級(jí);

      35、隨后,將經(jīng)驗(yàn)元組(s,a,r,s`)存入優(yōu)先經(jīng)驗(yàn)回訪池,更新當(dāng)前狀態(tài)為新?tīng)顟B(tài);

      36、進(jìn)行網(wǎng)絡(luò)更新,方式如下:

      37、從優(yōu)先經(jīng)驗(yàn)回放池中根據(jù)優(yōu)先級(jí)采樣最小批次的樣本,如下式所示,進(jìn)行經(jīng)驗(yàn)和網(wǎng)絡(luò)參數(shù)的更新:

      38、transitions,indices,weights=d.sample(batch_size,β)

      39、其中,transitions是采樣得到的經(jīng)驗(yàn)樣本,包含狀態(tài)轉(zhuǎn)換的元組,indices是索引用于后續(xù)更新經(jīng)驗(yàn)的優(yōu)先級(jí),weights是重要性權(quán)重,batch_size是批量大小,β是重要性采樣參數(shù),用于調(diào)整經(jīng)驗(yàn)采樣時(shí)的權(quán)重;

      40、更新critic網(wǎng)絡(luò):

      41、其中,lcritic表示critic網(wǎng)絡(luò)的損失函數(shù),n是批量大小,wi是樣本i的重要性采樣權(quán)重,用于調(diào)整每個(gè)樣本對(duì)損失函數(shù)的貢獻(xiàn),表示樣本i的td_error平方,衡量網(wǎng)絡(luò)的預(yù)測(cè)誤差;

      42、采用延遲更新actor網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò):

      43、

      44、其中,▽?duì)萳表示損失函數(shù)關(guān)于actor網(wǎng)絡(luò)參數(shù)的梯度,e表示期望,表示critic網(wǎng)絡(luò)關(guān)于動(dòng)作a的梯度,表示actor網(wǎng)絡(luò)關(guān)于參數(shù)θ的梯度;

      45、φ'i←τφi+(1-τ)φ'i

      46、θ′←τθ+(1-τ)θ′

      47、其中,τ決定了當(dāng)前參數(shù)和目標(biāo)參數(shù)的權(quán)衡,用于控制滑動(dòng)平均更新的超參數(shù),φi是當(dāng)前critic網(wǎng)絡(luò)的參數(shù),φ'i是目標(biāo)critic網(wǎng)絡(luò)的參數(shù),θ是當(dāng)前actor網(wǎng)絡(luò)的參數(shù),θ′是目標(biāo)actor網(wǎng)絡(luò)的參數(shù),通過(guò)滑動(dòng)平均更新策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的目標(biāo)參數(shù),以提高訓(xùn)練的穩(wěn)定性和效率;

      48、更新經(jīng)驗(yàn)的優(yōu)先級(jí):

      49、new_priorities=|y-q1(s,a)|+ε

      50、d.update_priorities(indices,new_priorities);

      51、步驟4-4:設(shè)置超參數(shù)并在設(shè)計(jì)的仿真環(huán)境下控制無(wú)人機(jī)實(shí)現(xiàn)巡檢風(fēng)機(jī)葉片任務(wù),對(duì)比改進(jìn)的td3算法和td3算法的控制效果。

      52、本發(fā)明的有益效果是:

      53、針對(duì)目前無(wú)人機(jī)在復(fù)雜環(huán)境下巡檢風(fēng)力發(fā)電機(jī)葉片不穩(wěn)定的問(wèn)題,本技術(shù)提出了一種基于深度強(qiáng)化學(xué)習(xí)算法的無(wú)人機(jī)控制方法,在復(fù)雜環(huán)境下具有更好的適應(yīng)性和穩(wěn)定性,其設(shè)計(jì)思路是先創(chuàng)建無(wú)人機(jī)巡檢風(fēng)力發(fā)電機(jī)葉片的強(qiáng)化學(xué)習(xí)模型,定義無(wú)人機(jī)在環(huán)境中的可行性空間;狀態(tài)空間,包含了無(wú)人機(jī)在環(huán)境中的三維坐標(biāo)位置、歐拉角、速度、角速度和距離這15個(gè)元素;以及無(wú)人機(jī)的動(dòng)作空間,為防止無(wú)人機(jī)采取激進(jìn)運(yùn)動(dòng),限制無(wú)人機(jī)的歐拉角、速度、加速度的取值范圍。其次針對(duì)巡檢任務(wù)需求設(shè)計(jì)了連續(xù)位置和能耗的啟發(fā)式動(dòng)態(tài)獎(jiǎng)勵(lì)函數(shù)以及完成任務(wù)和避障的獎(jiǎng)勵(lì)函數(shù)控制無(wú)人機(jī)以最穩(wěn)定、最少能耗路徑對(duì)風(fēng)力發(fā)電機(jī)葉片進(jìn)行自主巡檢。針對(duì)風(fēng)機(jī)巡檢任務(wù),改進(jìn)td3深度強(qiáng)化學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)先經(jīng)驗(yàn)回放技術(shù),加速訓(xùn)練過(guò)程。最后,在搭建的風(fēng)機(jī)和風(fēng)場(chǎng)仿真環(huán)境下,對(duì)比td3算法和改進(jìn)的td3算法的控制效果,實(shí)驗(yàn)結(jié)果證明,在受到復(fù)雜風(fēng)場(chǎng)擾動(dòng)時(shí),基于改進(jìn)td3算法控制無(wú)人機(jī)巡檢的方式具有更好的穩(wěn)定性和魯棒性,路徑的平滑性更好、偏離程度更小且修正動(dòng)作更少。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1