一種基于增強(qiáng)學(xué)習(xí)算法的無人船側(cè)向控制方法與流程

文檔序號：12915551閱讀：480來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

一種基于增強(qiáng)學(xué)習(xí)算法的無人船側(cè)向控制方法與流程

本發(fā)明涉及無人艇控制技術(shù)領(lǐng)域，具體涉及一種基于增強(qiáng)學(xué)習(xí)算法的無人船側(cè)向控制方法。

背景技術(shù)：

海底地形地貌是一切海洋開發(fā)和利用活動的基礎(chǔ)，其信息獲取是海洋測繪中最基礎(chǔ)的工作。近年來，隨著衛(wèi)星導(dǎo)航定位、聲學(xué)探測、數(shù)據(jù)通訊、計(jì)算機(jī)數(shù)據(jù)處理與可視化、圖像學(xué)和圖形學(xué)以及現(xiàn)代測量數(shù)據(jù)處理理論和方法等相關(guān)領(lǐng)域的發(fā)展，我國的海底地形地貌信息獲取技術(shù)正在向高精度、高分辨率、自主集成、綜合化和標(biāo)準(zhǔn)化方向發(fā)展。

無人船是一種多用途的觀測平臺。可搭載多種海洋測量傳感器用于實(shí)施多種專業(yè)測量，無人水面測量船作為一種執(zhí)行實(shí)時、無人、自動測量的綜合作業(yè)平臺，將測量人員從繁重的水下地形測量工作中解脫出來、是現(xiàn)代海洋測量技術(shù)裝備發(fā)展的必然趨勢。

無人船需要在復(fù)雜的海洋環(huán)境中自主航行和作業(yè)，因此無人船對操縱性、控制性能和可靠性均提出了更為苛刻的要求。為了保證無人船安全、可靠、自主地完成各種復(fù)雜任務(wù)，這就要求自主地完成各種復(fù)雜任務(wù)，這就要求它具備靈活機(jī)動性和環(huán)境適應(yīng)能力，為了更好的完成任務(wù)就需要研究更加先進(jìn)的無人船智能運(yùn)動控制技術(shù)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的就是要針對現(xiàn)有裝置的不足，其能夠優(yōu)化無人船側(cè)向控制器的設(shè)計(jì)，提高無人船的控制性能，獲得更好的控制效果。

為實(shí)現(xiàn)上述目的，本發(fā)明所涉及的一種基于增強(qiáng)學(xué)習(xí)算法的無人船側(cè)向控制方法，包括如下步驟：

步驟1：建立無人船行駛的動力學(xué)模型，采用簡化的船體-路徑一體化模型；

步驟2：根據(jù)無人船側(cè)向控制性能的要求，選擇無人船側(cè)向控制器的設(shè)計(jì)方案；

步驟3：無人船側(cè)向控制器中增強(qiáng)學(xué)習(xí)控制器采用actor-critic結(jié)構(gòu)，分為執(zhí)行器網(wǎng)絡(luò)和評價器網(wǎng)絡(luò)；

步驟4：設(shè)計(jì)無人船的側(cè)向偏差參考模型；

步驟5：通過對性能指標(biāo)的優(yōu)化，實(shí)現(xiàn)系統(tǒng)狀態(tài)或輸出對參考模型狀態(tài)的跟隨，進(jìn)而保證了系統(tǒng)的性能優(yōu)化。

進(jìn)一步地，所述步驟1：

采用如下簡化的船體-路徑一體化模型：

其中：y為路徑跟蹤的側(cè)向偏差，θ為方向角偏差，即船體的縱軸方向與期望路徑切線方向的偏差；a(t)為轉(zhuǎn)向舵偏角，ac(t)為轉(zhuǎn)向舵偏角的控制量；τa(t)為方向控制的時間常數(shù)；ρ為路徑曲率。

更進(jìn)一步地，所述步驟2：

所述基于增強(qiáng)學(xué)習(xí)的自適應(yīng)pid控制律具有如下形式：

其中：kp0，ka0，kd和ki為固定增益常數(shù)，根據(jù)手工調(diào)整的pid參數(shù)設(shè)定；δka，δkp為執(zhí)行器神經(jīng)網(wǎng)絡(luò)的輸出。

進(jìn)一步地，所述步驟3：

所述評價器網(wǎng)絡(luò)采用cmac網(wǎng)絡(luò)，第一層特征映射cqⁿ→f1是由輸入狀態(tài)空間到狀態(tài)空間檢測器的層疊式編碼映射，在狀態(tài)空間檢測器中有c個針對整個狀態(tài)空間量化編碼結(jié)構(gòu)a1,a2,a3,……,ac，第二層狀態(tài)特征映射f2對每個狀態(tài)檢測器單元計(jì)算唯一的物理地址，此時需要的物理地址單元總數(shù)為cqⁿ，最后一層映射為輸出映射，該映射通過對被激活的物理地址單元中的權(quán)值求和來計(jì)算輸出，學(xué)習(xí)算法采用td(λ)學(xué)習(xí)算法，選擇算法的關(guān)鍵參數(shù)折扣因子和適合度軌跡參數(shù)；

更進(jìn)一步地，所述步驟3：

所述執(zhí)行器網(wǎng)絡(luò)采用兩個多層前饋神經(jīng)網(wǎng)絡(luò)，采用高斯行為分布來確定實(shí)際控制量，多維高斯分布進(jìn)行執(zhí)行器網(wǎng)絡(luò)輸出的隨機(jī)探索：

其中：為多個執(zhí)行器網(wǎng)絡(luò)輸出構(gòu)成的向量；σ為行為探索的方差，仍然由如下公式?jīng)Q定：

其中：v(δy)為評價器對當(dāng)前狀態(tài)的值函數(shù)估計(jì)；σ1，σ2為常數(shù)，

進(jìn)一步地，所述步驟3：

所述執(zhí)行器網(wǎng)絡(luò)的學(xué)習(xí)算法采用如下近似策略梯度估計(jì)算法：

其中：稱為內(nèi)部回報，由評價器的時域差值信號來提供，即：

更進(jìn)一步地，所述步驟4：

為實(shí)現(xiàn)路徑跟蹤性能的優(yōu)化，考慮采用如下形式的側(cè)向偏差性能參考模型：

其中：b＞0為常數(shù)。

進(jìn)一步地，所述步驟4中：

所述參考模型的基礎(chǔ)上，對回報函數(shù)的設(shè)計(jì)如下：

其中：e1、e2和c為常數(shù)，且0≤e2≤e1；k＜0為回報比例系數(shù)。

更進(jìn)一步地，所述步驟5：

在設(shè)計(jì)具有期望性能的參考模型的基礎(chǔ)上，對回報函數(shù)的設(shè)計(jì)需要考慮系統(tǒng)狀態(tài)或輸出對參考模型的跟隨性能，通?？梢圆捎萌缦碌母S誤差線性函數(shù)形式：rt＝c|δy|

其中：c為比例系數(shù)，可以為常數(shù)或分段常數(shù)，

由于采用了actor-critic結(jié)構(gòu)，則增強(qiáng)學(xué)習(xí)控制器的優(yōu)化目標(biāo)是下面的折扣回報指標(biāo)：

其中：γ為折扣因子，通常選擇為接近1的常數(shù)，

通過對性能指標(biāo)j的優(yōu)化，實(shí)現(xiàn)系統(tǒng)狀態(tài)或輸出對參考模型狀態(tài)的跟隨，進(jìn)而保證了系統(tǒng)的性能優(yōu)化。

本發(fā)明的優(yōu)點(diǎn)在于：增強(qiáng)學(xué)習(xí)基于動物學(xué)習(xí)心理學(xué)的“試誤法”原理，使得無人船能夠在與環(huán)境的交互過程中根據(jù)評價性的反饋信號實(shí)現(xiàn)序貫決策的優(yōu)化，從而可以用于解決某些監(jiān)督學(xué)習(xí)難以應(yīng)用的優(yōu)化控制問題。

附圖說明

圖1為本發(fā)明中自適應(yīng)pid控制器的結(jié)構(gòu)圖；

圖2為actor-critic結(jié)構(gòu)圖。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)描述：

如圖1～2，一種基于增強(qiáng)學(xué)習(xí)算法的無人船側(cè)向控制方法，包括如下步驟：

步驟1：建立無人船行駛的動力學(xué)模型，采用如下簡化的船體-路徑一體化模型：

其中：y為路徑跟蹤的側(cè)向偏差，θ為方向角偏差，即船體的縱軸方向與期望路徑切線方向的偏差；a(t)為轉(zhuǎn)向舵偏角，ac(t)為轉(zhuǎn)向舵偏角的控制量；τa(t)為方向控制的時間常數(shù)；ρ為路徑曲率；

步驟2：根據(jù)無人船側(cè)向控制性能的要求，選擇無人船側(cè)向控制器的設(shè)計(jì)方案，基于增強(qiáng)學(xué)習(xí)的自適應(yīng)pid控制律具有如下形式：

其中：kp0，ka0，kd和ki為固定增益常數(shù)，根據(jù)手工調(diào)整的pid參數(shù)設(shè)定；δka，δkp為執(zhí)行器神經(jīng)網(wǎng)絡(luò)的輸出；

步驟3：無人船側(cè)向控制器中增強(qiáng)學(xué)習(xí)控制器采用actor-critic結(jié)構(gòu)，分為執(zhí)行器網(wǎng)絡(luò)和評價器網(wǎng)絡(luò)；

評價器網(wǎng)絡(luò)采用cmac網(wǎng)絡(luò)，第一層特征映射cqⁿ→f1是由輸入狀態(tài)空間到狀態(tài)空間檢測器的層疊式編碼映射，在狀態(tài)空間檢測器中有c個針對整個狀態(tài)空間量化編碼結(jié)構(gòu)a1,a2,a3,……,ac，第二層狀態(tài)特征映射f2對每個狀態(tài)檢測器單元計(jì)算唯一的物理地址，此時需要的物理地址單元總數(shù)為cqⁿ，最后一層映射為輸出映射，該映射通過對被激活的物理地址單元中的權(quán)值求和來計(jì)算輸出，學(xué)習(xí)算法采用td(λ)學(xué)習(xí)算法，選擇算法的關(guān)鍵參數(shù)折扣因子和適合度軌跡參數(shù)；

執(zhí)行器網(wǎng)絡(luò)采用兩個多層前饋神經(jīng)網(wǎng)絡(luò)，采用高斯行為分布來確定實(shí)際控制量，多維高斯分布進(jìn)行執(zhí)行器網(wǎng)絡(luò)輸出的隨機(jī)探索：

其中：為多個執(zhí)行器網(wǎng)絡(luò)輸出構(gòu)成的向量；σ為行為探索的方差，仍然由如下公式?jīng)Q定：

其中：v(δy)為評價器對當(dāng)前狀態(tài)的值函數(shù)估計(jì)；σ1，σ2為常數(shù)，學(xué)習(xí)算法采用如下近似策略梯度估計(jì)算法：

其中：稱為內(nèi)部回報，由評價器的時域差值信號來提供，即：

步驟4：設(shè)計(jì)無人船的側(cè)向偏差參考模型，為實(shí)現(xiàn)路徑跟蹤性能的優(yōu)化，考慮采用如下形式的側(cè)向偏差性能參考模型：

其中：b＞0為常數(shù)；

在參考模型的基礎(chǔ)上，對回報函數(shù)的設(shè)計(jì)如下：

其中：e1、e2和c為常數(shù)，且0≤e2≤e1；k＜0為回報比例系數(shù)；

步驟5：在設(shè)計(jì)具有期望性能的參考模型的基礎(chǔ)上，對回報函數(shù)的設(shè)計(jì)需要考慮系統(tǒng)狀態(tài)或輸出對參考模型的跟隨性能，通常可以采用如下的跟隨誤差線性函數(shù)形式：rt＝c|δy|

其中：c為比例系數(shù)，可以為常數(shù)或分段常數(shù)，

由于采用了actor-critic結(jié)構(gòu)，則增強(qiáng)學(xué)習(xí)控制器的優(yōu)化目標(biāo)是下面的折扣回報指標(biāo)：

其中：γ為折扣因子，通常選擇為接近1的常數(shù)，

通過對性能指標(biāo)j的優(yōu)化，可以實(shí)現(xiàn)系統(tǒng)狀態(tài)或輸出對參考模型狀態(tài)的跟隨，進(jìn)而保證了系統(tǒng)的性能優(yōu)化。

本發(fā)明實(shí)際使用時：

對于無人船的側(cè)向控制問題，基于增強(qiáng)學(xué)習(xí)的自適應(yīng)pid控制律具有如下形式：

其中：kp0，ka0，kd和ki為固定增益常數(shù)，根據(jù)手工調(diào)整的pid參數(shù)設(shè)定；δka，δkp為執(zhí)行器神經(jīng)網(wǎng)絡(luò)的輸出，分別用于對方向角偏差和側(cè)向偏差的比例增益進(jìn)行自適應(yīng)調(diào)整。

基于上述自適應(yīng)pid控制律，增強(qiáng)學(xué)習(xí)控制器由一個評價器網(wǎng)絡(luò)和一個執(zhí)行器網(wǎng)絡(luò)構(gòu)成。

評價器網(wǎng)絡(luò)的輸入為系統(tǒng)的狀態(tài)，包括：側(cè)向偏差y及其變化率方向角偏差θ及其變化率輸出為系統(tǒng)的狀態(tài)值函數(shù)估計(jì)。評價器網(wǎng)絡(luò)采用cmac網(wǎng)絡(luò)，其結(jié)構(gòu)參數(shù)如下：泛化參數(shù)c＝4，每個輸入的量化等級m＝7，經(jīng)過hash映射后的物理地址空間大小n＝100。學(xué)習(xí)算法采用td(λ)算法，有關(guān)參數(shù)如下：折扣因子γ＝0.95，適合度軌跡參數(shù)λ＝0.6。

執(zhí)行器網(wǎng)絡(luò)的輸入與評價器相同，輸出用于確定pid控制器的可變增益，采用兩個多層前饋神經(jīng)網(wǎng)絡(luò)，中間層節(jié)點(diǎn)數(shù)為6。δka，δkp由高斯分布進(jìn)行行為探索，高斯分布的均值由執(zhí)行器網(wǎng)絡(luò)輸出確定。設(shè)兩個執(zhí)行器網(wǎng)絡(luò)的輸出分別為z1，z2(0≤z1,z2≤1)，則δka，δkp的均值由如下公式?jīng)Q定：

其中：uδp，uδa分別可變增益kp，ka的變化范圍。

為實(shí)現(xiàn)路徑跟蹤性能的優(yōu)化，考慮采用如下形式的側(cè)向偏差性能參考模型：

其中：b＞0為常數(shù)。以上參考模型對側(cè)向偏差的變化給出了一種指數(shù)收斂的性能指標(biāo)曲線，適當(dāng)?shù)剡x擇常數(shù)b可以進(jìn)一步對系統(tǒng)性能進(jìn)行優(yōu)化。

在設(shè)計(jì)了參考模型的基礎(chǔ)上，對回報函數(shù)的設(shè)計(jì)如下：

其中：e1、e2和c為常數(shù)，且0≤e2≤e1；k＜0為回報比例系數(shù)。以上回報函數(shù)的設(shè)計(jì)使為了盡量是系統(tǒng)側(cè)向偏差的變化接近給定的參考模型，即具有指數(shù)收斂的性能。

根據(jù)技術(shù)方案的步驟5，基于增強(qiáng)學(xué)習(xí)的自適應(yīng)pid控制器的算法描述：

給定回報函數(shù)r(δy)，由執(zhí)行器網(wǎng)絡(luò)和評價器網(wǎng)絡(luò)構(gòu)成的增強(qiáng)學(xué)習(xí)控制器，單次運(yùn)行的時間長度t。

1、初始化學(xué)習(xí)控制器的參數(shù)，包括神經(jīng)網(wǎng)絡(luò)的權(quán)值，折扣因子γ，時域差值學(xué)習(xí)算法的有關(guān)控制參數(shù)(λ，p0或α)，執(zhí)行器網(wǎng)絡(luò)的學(xué)習(xí)因子β，評價器網(wǎng)絡(luò)權(quán)值的適合度軌跡向量，學(xué)習(xí)次數(shù)n＝0。

2、循環(huán)，直到滿足算法停止的條件。

(1)初始化控制對象的狀態(tài)，控制時間步t＝0。

(2)根據(jù)當(dāng)前的控制對象狀態(tài)和參考模型狀態(tài)，計(jì)算模型跟隨誤差；

(3)根據(jù)當(dāng)前時刻的模型跟隨誤差δyt，計(jì)算執(zhí)行器網(wǎng)絡(luò)輸出k和評價網(wǎng)絡(luò)的輸出v(δyt)；

(4)計(jì)算實(shí)際的pid參數(shù)整定δk(t)，從而計(jì)算pid控制器的控制量輸出u；

(5)將輸出u作用于控制對象，觀測下一采樣時刻的對象狀態(tài)和參考模型狀態(tài)，計(jì)算新的模型跟隨誤差，同時計(jì)算回報函數(shù)rt；

(6)對評價器網(wǎng)絡(luò)的權(quán)值，利用td(λ)算法進(jìn)行時域差值學(xué)習(xí)，對執(zhí)行器網(wǎng)絡(luò)，計(jì)算策略梯度估計(jì)，進(jìn)行權(quán)值的迭代；

(7)t＝t+1,若t＝t,則n＝n+1,返回b),否則，返回c)。

上述算法停止的準(zhǔn)則可以選擇為系統(tǒng)性能指標(biāo)達(dá)到給定要求或?qū)W習(xí)次數(shù)達(dá)到給定的最大值。

最后，應(yīng)當(dāng)指出，以上實(shí)施例僅是本發(fā)明較有代表性的例子。顯然，本發(fā)明不限于上述實(shí)施例，還可以有許多變形。凡依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對以上實(shí)施例所做的任何簡單修改、等同變化及修飾，均應(yīng)認(rèn)為屬于本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙東明;周浩;朱楷;柳欣
技術(shù)所有人：武漢理工大學(xué)
我是此專利的發(fā)明人

上一篇：一種用于噴涂設(shè)備的夾持裝置的制作方法
上一篇：用于汽車內(nèi)開啟手柄自動噴涂的工裝的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動穩(wěn)定性 3.汽車流場分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于增強(qiáng)學(xué)習(xí)算法的無人船側(cè)向控制方法與流程