基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法與流程

文檔序號：12728503閱讀：347來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>發(fā)電;變電;配電裝置的制造技術(shù)

基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法與流程

本發(fā)明涉及一種雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制，特別是涉及一種基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning，RL)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法。

背景技術(shù)：

變速恒頻雙饋發(fā)電是目前風(fēng)力發(fā)電普遍采用的一種發(fā)電方式，其發(fā)電機(jī)采用雙饋感應(yīng)電機(jī)(double-fed induction generator，DFIG)。當(dāng)機(jī)組工作在額定風(fēng)速以下時(shí)，通過調(diào)節(jié)發(fā)電機(jī)轉(zhuǎn)子轉(zhuǎn)速，保持最佳葉尖速比，實(shí)現(xiàn)對風(fēng)能的最大捕獲。其控制系統(tǒng)常采用基于定子磁場定向的矢量控制，實(shí)現(xiàn)發(fā)電機(jī)有功、無功功率的解耦控制。

由于風(fēng)能具有強(qiáng)烈的隨機(jī)性、時(shí)變性，且系統(tǒng)含有未建?；驘o法準(zhǔn)確建模的動(dòng)態(tài)部分，使雙饋發(fā)電系統(tǒng)成為一個(gè)多變量、非線性、強(qiáng)耦合系統(tǒng)，因此僅采用傳統(tǒng)矢量控制難以滿足控制系統(tǒng)對高適應(yīng)性和高魯棒性的要求。目前有采用各種不同的控制方案，但控制效果都不是非常理想，如采用神經(jīng)網(wǎng)絡(luò)控制方案，該控制方案改善了控制性能，但穩(wěn)態(tài)誤差較大。而采用模糊滑?？刂撇呗裕瑢⒛：刂坪突？刂葡嘟Y(jié)合，雖取得了良好的控制效果，但實(shí)現(xiàn)較復(fù)雜。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明目的在于克服現(xiàn)有技術(shù)的問題，提供一種能夠快速自動(dòng)地優(yōu)化風(fēng)機(jī)控制系統(tǒng)的輸出，不僅實(shí)現(xiàn)了對風(fēng)能的最大追蹤，而且具有良好的動(dòng)態(tài)性能，顯著增強(qiáng)了控制系統(tǒng)的魯棒性和適應(yīng)性的基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法。

本發(fā)明目的通過如下技術(shù)方案實(shí)現(xiàn)：

基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法：在基于PI控制的矢量控制系統(tǒng)中的PI控制器上增加RL控制器，動(dòng)態(tài)校正PI控制器的輸出，RL控制器包括RL-P控制器和RL-Q控制器，RL-P控制器和RL-Q控制器分別對有功和無功功率控制信號校正；該自校正控制方法包括如下步驟：

S1：RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ；RL-P控制器和RL-Q控制器分別判斷功率誤差值ΔP和ΔQ所屬區(qū)間s_k；

S2：對于所識別的區(qū)間s_k，RL-P控制器或RL-Q控制器根據(jù)該s_k所對應(yīng)的動(dòng)作概率分布用隨機(jī)函數(shù)輸出動(dòng)作α_k，得RL-P控制器或RL-Q控制器輸出的校正信號；動(dòng)作α相應(yīng)的被選擇的概率的集合構(gòu)成概率分布，每個(gè)區(qū)間s有其對應(yīng)的概率分布P_s(a)；

對于RL-P控制器，動(dòng)作值α_k與PI控制器的輸出信號用加法器相加得到定子q軸電流的給定值i_qs^*，即有功功率的控制信號；

對于RL-Q控制器，動(dòng)作值α_k與PI控制器的輸出信號用加法器相加得到定子d軸電流的給定值i_ds^*，即無功功率的控制信號；

S3：RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ并判斷其所屬區(qū)間s_k+1；

S4：RL控制器由獎(jiǎng)勵(lì)函數(shù)獲得立即獎(jiǎng)勵(lì)值r_k；獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為：

式中值是動(dòng)作集A的指針，即第k次動(dòng)作值α在動(dòng)作集A中的序號，μ₁和μ₂為平衡前后各平方項(xiàng)的權(quán)重值，其數(shù)值均為通過大量仿真實(shí)驗(yàn)調(diào)試所得；

S5：基于Q值迭代公式更新Q矩陣；Q函數(shù)為一種期望折扣獎(jiǎng)勵(lì)值，Q學(xué)習(xí)的目的是估計(jì)最優(yōu)控制策略的Q值，設(shè)Q^k為最優(yōu)值函數(shù)Q^*的第k次迭代值，Q值迭代公式設(shè)計(jì)為：

式中α、γ為折扣因子，其數(shù)值均為通過大量仿真實(shí)驗(yàn)調(diào)試所得；

S6：根據(jù)動(dòng)作選擇策略更新公式更新動(dòng)作概率分布；利用一種追蹤算法設(shè)計(jì)動(dòng)作選擇策略，策略基于概率分布，初始化時(shí)，賦予各狀態(tài)下每個(gè)可行動(dòng)作相等的被選概率，隨著迭代的進(jìn)行，概率隨Q值表格的變化而變化；RL控制器找出狀態(tài)s_k下具有最高Q值的動(dòng)作a_g，a_g稱為貪婪動(dòng)作；動(dòng)作概率分布的迭代公式為：

和分別為第k次迭代時(shí)s_k狀態(tài)和非s_k狀態(tài)下選擇動(dòng)作a的概率；β為動(dòng)作搜索速度，其數(shù)值通過大量仿真實(shí)驗(yàn)調(diào)試所得；

S7：令k＝k+1，并返回步驟S2；根據(jù)動(dòng)作概率分布選擇并輸出動(dòng)作α_k+1，被選擇的動(dòng)作與PI控制器的輸出信號相疊加產(chǎn)生相應(yīng)的定子電流給定值信號，即功率控制信號，并按順序依次執(zhí)行接下來的步驟不斷循環(huán)，在經(jīng)過多次的迭代后，每個(gè)狀態(tài)s存在Q_s^k以概率1收斂于Q_s^*，即獲得一個(gè)以Q_s^*表示的最優(yōu)控制策略以及該最優(yōu)控制策略所對應(yīng)的貪婪動(dòng)作a_g，至此完成自校正過程，此時(shí)每個(gè)狀態(tài)s下RL控制器輸出值a_g與PI控制器的輸出信號疊加即可自動(dòng)優(yōu)化PI控制器的控制性能，使功率誤差值誤差值小。

本發(fā)明提出一種自校正控制架構(gòu)，即基于PI控制的矢量控制系統(tǒng)中的PI控制器上附加一個(gè)RL控制器，來動(dòng)態(tài)校正PI控制器的輸出，其中RL-P和RL-Q控制器分別對有功和無功功率控制信號校正。

相對于現(xiàn)有技術(shù)，本發(fā)明具有如下優(yōu)點(diǎn)：

1)本發(fā)明提出一種基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法，該方法引入強(qiáng)化學(xué)習(xí)控制算法，對被控對象的數(shù)學(xué)模型和運(yùn)行狀態(tài)不敏感，其自學(xué)習(xí)能力對參數(shù)變化或外部干擾具有較強(qiáng)的自適應(yīng)性和魯棒性。該方法通過Matlab/Simulink仿真平臺進(jìn)行仿真，仿真結(jié)果表明該自校正控制器能夠快速自動(dòng)地優(yōu)化風(fēng)機(jī)控制系統(tǒng)的輸出，不僅實(shí)現(xiàn)了對風(fēng)能的最大追蹤，而且具有良好的動(dòng)態(tài)性能，顯著增強(qiáng)了控制系統(tǒng)的魯棒性和適應(yīng)性。

2)本發(fā)明控制策略無需改變原PI控制器的結(jié)構(gòu)和參數(shù)，只需增加一個(gè)自校正模塊，工程實(shí)現(xiàn)十分簡便。同時(shí)，由于RL控制器的控制信號為離散動(dòng)作值，易導(dǎo)致超調(diào)，后續(xù)研究中可考慮結(jié)合模糊控制對輸入輸出信號模糊化。

附圖說明

圖1為本發(fā)明強(qiáng)化學(xué)習(xí)系統(tǒng)原理圖；

圖2為本發(fā)明雙饋風(fēng)力發(fā)電系統(tǒng)自校正控制框圖；

圖3為基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正學(xué)習(xí)流程圖；

圖4為實(shí)施例中無功功率調(diào)節(jié)的無功功率響應(yīng)曲線；

圖5為實(shí)施例中無功功率調(diào)節(jié)的RL-Q控制器控制信號；

圖6為實(shí)施例中無功功率調(diào)節(jié)的有功功率曲線；

圖7為實(shí)施例中有功功率調(diào)節(jié)的有功功率響應(yīng)曲線；

圖8為實(shí)施例中有功功率調(diào)節(jié)的RL-P控制器控制信號；

圖9為實(shí)施例中有功功率調(diào)節(jié)的無功功率曲線；

圖10為實(shí)施例中擾動(dòng)分析過程參數(shù)變化時(shí)的有功功率曲線；

圖11為實(shí)施例中擾動(dòng)分析過程參數(shù)變化時(shí)的無功功率曲線；

圖12為實(shí)施例中擾動(dòng)分析過程參數(shù)變化時(shí)的RL-P控制器控制信號；

圖13為實(shí)施例中擾動(dòng)分析過程參數(shù)變化時(shí)的RL-Q控制器控制信號。

具體實(shí)施方式

為更好地理解本發(fā)明，下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的說明，但本發(fā)明的實(shí)施方式不限如此。

針對雙饋感應(yīng)風(fēng)力發(fā)電系統(tǒng)結(jié)構(gòu)復(fù)雜，受參數(shù)變化和外部干擾較顯著，具有非線性、時(shí)變、強(qiáng)耦合的特點(diǎn)，若僅采用傳統(tǒng)矢量控制則難以滿足控制系統(tǒng)對高適應(yīng)性和高魯棒性的要求。

本發(fā)明在傳統(tǒng)矢量控制的基礎(chǔ)上，提出一種基于強(qiáng)化學(xué)習(xí)(RL)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法，該方法引入Q學(xué)習(xí)算法，并作為強(qiáng)化學(xué)習(xí)核心算法，可快速自動(dòng)地在線優(yōu)化PI控制器的輸出，在引入強(qiáng)化學(xué)習(xí)自校正控制后，保持了原系統(tǒng)最大風(fēng)能捕獲的能力，同時(shí)改善了其動(dòng)態(tài)性能，增強(qiáng)了魯棒性和自適應(yīng)性。

第一，雙饋感應(yīng)風(fēng)力發(fā)電系統(tǒng)在定子磁鏈定向下的基于PI控制的矢量控制系統(tǒng)設(shè)計(jì)。

當(dāng)定子取發(fā)電機(jī)慣例，轉(zhuǎn)子取電動(dòng)機(jī)慣例時(shí)，三相對稱系統(tǒng)中具有均勻氣隙的雙饋感應(yīng)發(fā)電機(jī)在兩相同步旋轉(zhuǎn)dq坐標(biāo)系下的數(shù)學(xué)模型為：

定子電壓方程

轉(zhuǎn)子電壓方程

定子磁鏈方程

轉(zhuǎn)子磁鏈方程

電磁轉(zhuǎn)矩方程

定子功率輸出方程

公式(1)～(6)中：下標(biāo)d和q分別表示d軸和q軸分量；下標(biāo)s和r分別表示定子和轉(zhuǎn)子分量；U、i、ψ、T_e、P、Q分別表示電壓、電流、磁鏈、電磁轉(zhuǎn)矩、有功和無功功率；R、L分別表示電阻和電感；ω₁為同步轉(zhuǎn)速；ω_s為轉(zhuǎn)差電角速度，ω_s＝ω₁-ω_r＝sω₁；ω_r為發(fā)電機(jī)轉(zhuǎn)子電角速度，s為轉(zhuǎn)差率；n_p為極對數(shù)；p為微分算子。

采用定子磁鏈定向矢量控制，將定子磁鏈?zhǔn)噶慷ㄏ蛴赿軸上，有ψ_ds＝ψ_s，ψ_qs＝0。穩(wěn)態(tài)運(yùn)行時(shí)，定子磁鏈保持恒定，忽略定子繞組電阻壓降，則U_ds＝0，U_qs＝ω₁ψ_s＝U_s，U_s為定子電壓矢量幅值。

由式(6)得

在該式中各變量含義如下：P：有功功率；Q:無功功率；U_qs：定子電壓矢量的q軸分量；I_qs：定子電流矢量的q軸分量；U_s：定子電壓矢量幅值；i_ds：定子電流的d軸分量。從式公式(7)可得定子電流控制功率的傳遞函數(shù)。

由公式(3)得：

在該公式中，各變量含義如下：i_dr:轉(zhuǎn)子電流的d軸分量；i_qr:轉(zhuǎn)子電流的q軸分量；L_s:定子電感；L_m:定子與轉(zhuǎn)子間的互感；i_ds:定子電流的d軸分量；i_qs:定子電流的q軸分量；ψ_s:定子磁鏈?zhǔn)噶糠担?/p>

由公式(4)得

在該公式中，各變量含義如下，ψ_dr：轉(zhuǎn)子磁鏈?zhǔn)噶康膁軸分量；ψ_qr：轉(zhuǎn)子磁鏈?zhǔn)噶康膓軸分量；ψ_s：定子磁鏈?zhǔn)噶糠?；L_m：定子與轉(zhuǎn)子間的互感；L_s：定子電感；L_r：轉(zhuǎn)子電感；i_dr：轉(zhuǎn)子電流的d軸分量；i_qr：轉(zhuǎn)子電流的q軸分量；

再由公式(2)得

在該公式中，各變量含義如下，u_dr：轉(zhuǎn)子電壓的d軸分量；u_qr：轉(zhuǎn)子電壓的q軸分量；i_dr：轉(zhuǎn)子電流的d軸分量；i_qr：轉(zhuǎn)子電流的q軸分量；ψ_s：定子磁鏈?zhǔn)噶糠?；R_r：轉(zhuǎn)子電阻；p：微分算子；ω_s：轉(zhuǎn)差電角速度。從公式(8)(9)(10)可得到由轉(zhuǎn)子電壓控制定子電流的傳遞函數(shù)。

根據(jù)上述公式(7)～(10)可設(shè)計(jì)出雙饋感應(yīng)風(fēng)力發(fā)電系統(tǒng)在定子磁鏈定向下的基于PI控制的矢量控制系統(tǒng)。本發(fā)明自校正控制方法即在上述所設(shè)計(jì)系統(tǒng)中的PI控制器的基礎(chǔ)上附加一個(gè)RL控制器，用兩控制器的輸出信號的疊加值作為功率的控制信號。

第二，基于強(qiáng)化學(xué)習(xí)的自校正控制器設(shè)計(jì)。

強(qiáng)化學(xué)習(xí)(簡稱為RL)算法是系統(tǒng)從環(huán)境狀態(tài)到動(dòng)作映射的學(xué)習(xí)，是一種試探評價(jià)的學(xué)習(xí)過程?？捎酶綀D1來描述。Agent根據(jù)學(xué)習(xí)算法選擇一個(gè)動(dòng)作作用于環(huán)境(即系統(tǒng))，引起環(huán)境狀態(tài)s的變化，環(huán)境再反饋一個(gè)立即強(qiáng)化信號(獎(jiǎng)或罰)給Agent，Agent根據(jù)強(qiáng)化信號及環(huán)境的新狀態(tài)s′再選擇下一個(gè)動(dòng)作。RL的學(xué)習(xí)原則是：若Agent的某個(gè)決策行為(動(dòng)作)使強(qiáng)化信號得到改善，就使以后產(chǎn)生這個(gè)決策行為的趨勢加強(qiáng)。近年來，RL理論在電力系統(tǒng)中諸于調(diào)度、無功優(yōu)化和電力市場等領(lǐng)域的應(yīng)用研究成果顯著。

如圖1所示，圖1為強(qiáng)化學(xué)習(xí)系統(tǒng)原理圖。根據(jù)圖1，Q學(xué)習(xí)算法是一種從長期的觀點(diǎn)通過試錯(cuò)與環(huán)境交互來改進(jìn)控制策略的強(qiáng)化學(xué)習(xí)算法，其顯著特點(diǎn)之一是對象模型的無關(guān)性。

Q學(xué)習(xí)的目的是去估計(jì)最優(yōu)控制策略的Q值。設(shè)Q^k表示最優(yōu)值函數(shù)Q^*的第k次迭代值，Q值按迭代公式(11)更新：

動(dòng)作選擇策略是Q學(xué)習(xí)控制算法的關(guān)鍵。定義Agent在狀態(tài)s下選擇具有最高Q值的動(dòng)作稱為貪婪策略p^*，其動(dòng)作稱為貪婪動(dòng)作。

若Agent每次迭代都選取Q值最高的動(dòng)作，會導(dǎo)致收斂于局部最優(yōu)，因?yàn)榭偸菆?zhí)行相同的動(dòng)作鏈而未搜索其他動(dòng)作。為避免這種情況，本發(fā)明利用一種追蹤算法來設(shè)計(jì)動(dòng)作選擇策略。該算法基于概率分布，初始化時(shí)，賦予各狀態(tài)下每個(gè)可行動(dòng)作相等的被選概率，隨著迭代的進(jìn)行，概率隨Q值表格的變化而變化，更新公式如下：

式中：和分別為第k次迭代時(shí)s_k狀態(tài)和非s_k狀態(tài)下選擇動(dòng)作a的概率；a_g為貪婪動(dòng)作；β為動(dòng)作搜索速度。由式(13)可看出，具有較高Q值的動(dòng)作被選擇的概率較大，對應(yīng)環(huán)境某一具體的狀態(tài)，貪婪動(dòng)作的被選概率隨著該狀態(tài)的復(fù)現(xiàn)而不斷變大，在經(jīng)過足夠多數(shù)的迭代后，Q^k將會以概率1收斂于Q^*，也即獲得一個(gè)以Q^*表示的最優(yōu)控制策略。

基于此，自校正控制器的結(jié)構(gòu)設(shè)計(jì)描述如下。以固定增益的PI控制器構(gòu)建的現(xiàn)有雙饋感應(yīng)風(fēng)機(jī)控制系統(tǒng)，當(dāng)系統(tǒng)工況改變時(shí)，控制性能會下降。本發(fā)明提出一種自校正控制架構(gòu)，如圖2所示為雙饋風(fēng)力發(fā)電系統(tǒng)自校正控制框圖。在原PI控制器的基礎(chǔ)上附加一個(gè)RL控制器，來動(dòng)態(tài)校正PI控制器的輸出，RL控制器包括RL-P控制器和RL-Q控制器，其中RL-P控制器和RL-Q控制器分別對有功和無功功率控制信號校正。RL-P控制器的輸入值為有功功率誤差值ΔP，通過Q學(xué)習(xí)算法所得動(dòng)作概率分布選擇并輸出動(dòng)作α_k，該動(dòng)作α_k與PI控制器的輸出信號用加法器相加得到定子q軸電流的給定值i_qs^*，即有功功率的控制信號；RL-Q控制器的輸入值為無功功率誤差值ΔQ，通過Q學(xué)習(xí)算法所得動(dòng)作概率分布選擇并輸出動(dòng)作α_k，該動(dòng)作α_k與PI控制器的輸出信號用加法器相加得到定子d軸電流的給定值i_ds^*，即無功功率的控制信號。RL控制器在運(yùn)行過程一直處于在線學(xué)習(xí)狀態(tài)，被控量一旦偏離控制目標(biāo)(比如參數(shù)變化或外部擾動(dòng)所致)，便自動(dòng)調(diào)整控制策略，從而增加原控制系統(tǒng)的自適應(yīng)和自學(xué)習(xí)能力。

自校正控制器的核心控制算法流程如附圖3所示，其描述如下：

S1：RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ。RL-P控制器和RL-Q控制器分別判斷功率誤差值ΔP和ΔQ所屬區(qū)間s_k，功率誤差值劃分為(-∞,-0.1)、[-0.1,-0.06)、[-0.06,-0.03)、[-0.03,-0.02)、[-0.02,-0.005)、[-0.005,0.005]、(0.005,0.02]、(0.02,0.03]、(0.03,0.06]、(0.06,0.1]、(0.1,+∞)11個(gè)不同區(qū)間s，構(gòu)成狀態(tài)集合S；

S2：對于所識別的區(qū)間s_k，RL-P控制器或RL-Q控制器根據(jù)該s_k所對應(yīng)的動(dòng)作概率分布用隨機(jī)函數(shù)輸出動(dòng)作α_k，得RL-P控制器或RL-Q控制器輸出的校正信號；動(dòng)作α_k在每個(gè)s下總共有11種選擇，構(gòu)成動(dòng)作空間A，11種選擇分別是[0.06,0.04,0.03,0.02,0.01,0,-0.01,-0.02,-0.03,-0.04,-0.06]，在同一個(gè)區(qū)間s下每個(gè)動(dòng)作α有相應(yīng)的被選擇的概率，11個(gè)動(dòng)作α相應(yīng)的被選擇的概率的集合構(gòu)成了所述的概率分布P_s(a)，每個(gè)區(qū)間s有其對應(yīng)的概率分布P_s(a)；對于RL-P控制器，動(dòng)作值α_k與PI控制器的輸出信號用加法器相加得到定子q軸電流的給定值i_qs^*，即有功功率的控制信號；對于RL-Q控制器，動(dòng)作值α_k與PI控制器的輸出信號用加法器相加得到定子d軸電流的給定值i_ds^*，即無功功率的控制信號。

S3：RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ并判斷其所屬區(qū)間s_k+1；

S4：RL控制器由獎(jiǎng)勵(lì)函數(shù)獲得立即獎(jiǎng)勵(lì)值r_k；獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為：式中值是動(dòng)作集A的指針，即第k次動(dòng)作值α在動(dòng)作集A中的序號，μ₁和μ₂為平衡前后各平方項(xiàng)的權(quán)重值，其數(shù)值均為通過大量仿真實(shí)驗(yàn)調(diào)試所得；獎(jiǎng)勵(lì)函數(shù)取負(fù)值能使控制目標(biāo)功率誤差值盡可能??；

式中α、γ為折扣因子，其數(shù)值均為通過大量仿真實(shí)驗(yàn)調(diào)試所得。步驟S4中功率誤差值越小，r_k值越大，Q^k+1(s_k,a_k)值越大；

S6：根據(jù)動(dòng)作選擇策略更新公式更新動(dòng)作概率分布；若智能體Agent每次迭代都選取Q值最高的動(dòng)作，會導(dǎo)致收斂于局部最優(yōu)，因此總是執(zhí)行相同的動(dòng)作鏈而未搜索其他動(dòng)作，為避免這種情況的發(fā)生，本發(fā)明利用一種追蹤算法設(shè)計(jì)動(dòng)作選擇策略，策略基于概率分布，初始化時(shí)，賦予各狀態(tài)下每個(gè)可行動(dòng)作相等的被選概率，隨著迭代的進(jìn)行，概率隨Q值表格的變化而變化；RL控制器找出狀態(tài)s_k下具有最高Q值的動(dòng)作a_g，a_g稱為貪婪動(dòng)作；動(dòng)作概率分布的迭代公式為：

和分別為第k次迭代時(shí)s_k狀態(tài)和非s_k狀態(tài)下選擇動(dòng)作a的概率；β為動(dòng)作搜索速度，其數(shù)值通過大量仿真實(shí)驗(yàn)調(diào)試所得。

由功率分布迭代公式可知，具有較高Q值的動(dòng)作即能使功率誤差值較小的動(dòng)作被選擇的概率較大，對應(yīng)環(huán)境某一具體的狀態(tài)s，貪婪動(dòng)作的被選概率隨著該狀態(tài)的復(fù)現(xiàn)而不斷變大并趨近于1；

S7：令k＝k+1，并返回步驟S2；根據(jù)動(dòng)作概率分布選擇并輸出動(dòng)作α_k+1，被選擇的動(dòng)作與PI控制器的輸出信號相疊加產(chǎn)生相應(yīng)的定子電流給定值信號，即功率控制信號。并按順序依次執(zhí)行接下來的步驟不斷循環(huán)。在經(jīng)過足夠多數(shù)的迭代后，每個(gè)狀態(tài)s存在Q_s^k以概率1收斂于Q_s^*，也即獲得一個(gè)以Q_s^*表示的最優(yōu)控制策略以及該最優(yōu)控制策略所對應(yīng)的貪婪動(dòng)作a_g，至此完成自校正過程，此時(shí)每個(gè)狀態(tài)s下RL控制器輸出值a_g與PI控制器的輸出信號疊加即可自動(dòng)優(yōu)化PI控制器的控制性能，使功率誤差值誤差值盡可能小。

在迭代前需對Q矩陣以及概率分布進(jìn)行初始化。Q矩陣每個(gè)元素的初值為0，即令令各狀態(tài)下每個(gè)可行動(dòng)作相等的被選概率,即令

根據(jù)前面的描述，本發(fā)明提供了一種基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法，該方法在引入強(qiáng)化學(xué)習(xí)自校正控制后，無需改變原PI控制器的結(jié)構(gòu)和參數(shù)，工程實(shí)現(xiàn)十分簡便，保持了原系統(tǒng)最大風(fēng)能捕獲的能力，同時(shí)改善了其動(dòng)態(tài)性能，增強(qiáng)了魯棒性和自適應(yīng)性。

實(shí)施例

針對雙饋感應(yīng)風(fēng)力發(fā)電機(jī)，驗(yàn)證本發(fā)明所設(shè)計(jì)的控制器的正確性和有效性。

雙饋感應(yīng)風(fēng)力發(fā)電機(jī)選擇如下參數(shù)進(jìn)行仿真驗(yàn)證：雙饋風(fēng)力發(fā)電機(jī)額定功率為P＝9MW(＝6*1.5MW)，R_s＝0.007pu，R_r＝0.005pu，L_s＝3.071pu，L_r＝3.056pu，L_m＝2.9pu，n_p＝3，這些參數(shù)可以代入到上面的公式(1)～(10)中進(jìn)行計(jì)算雙饋風(fēng)力發(fā)電機(jī)相應(yīng)的參數(shù)。兩PI控制器的參數(shù)為：比例增益：K_p＝6.9；積分增益：K_i＝408，RL-P控制器的參數(shù)為：權(quán)重值μ₁＝0.001，折扣因子α＝0.6，γ＝0.001，動(dòng)作搜索速度β＝0.9；RL-Q控制器的參數(shù)為：權(quán)重值μ₂＝0.001，折扣因子α＝0.6，γ＝0.001，動(dòng)作搜索速度β＝0.9。

(1)無功功率調(diào)節(jié)

應(yīng)用本發(fā)明提供的算法來控制雙饋風(fēng)力發(fā)電機(jī)的無功功率調(diào)節(jié)過程，該調(diào)節(jié)過程中，無功功率初始給定為0.9Mvar，1s時(shí)降為0var，2s后再次上升0.9Mvar，3s時(shí)仿真結(jié)束。仿真期間，保持風(fēng)速為10m/s不變，無功功率調(diào)節(jié)過程中無功功率響應(yīng)曲線由圖4給出，該圖中，基于強(qiáng)化學(xué)習(xí)算法的自校正控制動(dòng)態(tài)性能優(yōu)于傳統(tǒng)矢量控制。圖5為強(qiáng)化學(xué)習(xí)控制器基于無功功率偏差輸出的校正控制信號，圖6為無功功率調(diào)節(jié)過程中有功功率曲線圖，從圖6可看出，在無功功率調(diào)節(jié)過程中，有功功率始終保持不變，很好地實(shí)現(xiàn)了解耦。

(2)有功功率調(diào)節(jié)

應(yīng)用本發(fā)明提供的算法來控制雙饋風(fēng)力發(fā)電機(jī)的有功功率調(diào)節(jié)過程，該調(diào)節(jié)過程中，風(fēng)速初始給定為10m/s，2s時(shí)上升為11m/s，30s時(shí)仿真結(jié)束。仿真期間，設(shè)定無功功率為0var不變，有功功率調(diào)節(jié)過程系統(tǒng)響應(yīng)仿真結(jié)果如下圖所示。圖7給出了有功功率調(diào)節(jié)過程中的有功功率響應(yīng)曲線，從該圖可看出基于強(qiáng)化學(xué)習(xí)算法的自校正控制和傳統(tǒng)矢量控制有功功率響應(yīng)曲線基本重合，這是因?yàn)榛谧畲箫L(fēng)能捕獲原理，當(dāng)風(fēng)速突變時(shí)，有功功率參考值不突變而是按照最佳功率曲線變化，功率偏差始終很小，未達(dá)到強(qiáng)化學(xué)習(xí)設(shè)定最小動(dòng)作值的狀態(tài)，故強(qiáng)化學(xué)習(xí)控制器輸出控制信號為0，從而兩條曲線重合。圖8為有功功率調(diào)節(jié)過程中的RL-P控制器控制信號，而圖9為有功功率調(diào)節(jié)過程中的無功功率曲線，從圖9可看出，在有功功率調(diào)節(jié)過程中，無功功率不受影響，實(shí)現(xiàn)了解耦。

(3)擾動(dòng)分析

應(yīng)用本發(fā)明提供的算法對雙饋風(fēng)力發(fā)電機(jī)控制過程中的擾動(dòng)進(jìn)行分析，為考察系統(tǒng)對電機(jī)參數(shù)變化的魯棒性，假設(shè)風(fēng)速為10m/s不變，在t＝2s時(shí)b增大一倍。圖10、圖11、圖12和圖13分別給出了參數(shù)變化后參數(shù)變化時(shí)動(dòng)態(tài)響應(yīng)圖，相同條件下傳統(tǒng)矢量控制與基于強(qiáng)化學(xué)習(xí)算法的自校正控制的動(dòng)態(tài)響應(yīng)下的有功功率曲線、無功功率曲線、RL-P控制器控制信號和RL-Q控制器控制信號。由圖12和圖13可看出，當(dāng)參數(shù)變化導(dǎo)致有功和無功功率與參考值出現(xiàn)偏差后，強(qiáng)化學(xué)習(xí)控制器根據(jù)偏差值立即輸出校正控制信號，來補(bǔ)償參數(shù)變化的影響。由圖10和圖11可看出，采用自校正控制，超調(diào)較小，改善了動(dòng)態(tài)品質(zhì)，提高了控制性能。

本發(fā)明提供一種基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法，算法控制對象為雙饋風(fēng)力發(fā)電系統(tǒng)，該系統(tǒng)具有多變量、非線性、受參數(shù)變化和外部干擾顯著的特點(diǎn)。利用強(qiáng)化學(xué)習(xí)算法具有的在線自學(xué)習(xí)能力和模型無關(guān)性特點(diǎn)，本發(fā)明設(shè)計(jì)了風(fēng)機(jī)自校正控制器，可有效提高其控制系統(tǒng)的魯棒性和自適應(yīng)性。此外，該控制策略無需改變原PI控制器的結(jié)構(gòu)和參數(shù)，只需增加一個(gè)自校正模塊，工程實(shí)現(xiàn)十分簡便。同時(shí)，由于RL控制器的控制信號為離散動(dòng)作值，易導(dǎo)致超調(diào)，后續(xù)研究中可考慮結(jié)合模糊控制對輸入輸出信號模糊化。

本發(fā)明提供了一種基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法，該方法引入Q學(xué)習(xí)算法作為強(qiáng)化學(xué)習(xí)核心算法，強(qiáng)化學(xué)習(xí)控制算法對被控對象的數(shù)學(xué)模型和運(yùn)行狀態(tài)不敏感，其學(xué)習(xí)能力對參數(shù)變化或外部干擾具有較強(qiáng)的自適應(yīng)性和魯棒性，可快速自動(dòng)地在線優(yōu)化PI控制器的輸出，基于MATLAB/Simulink環(huán)境，在風(fēng)速低于額定風(fēng)速時(shí)對系統(tǒng)進(jìn)行仿真，結(jié)果表明該方法在進(jìn)入強(qiáng)化學(xué)習(xí)自校正控制后，能夠快速自動(dòng)地優(yōu)化風(fēng)機(jī)控制系統(tǒng)的輸出，不僅實(shí)現(xiàn)了對風(fēng)能的最大追蹤，而且具有良好的動(dòng)態(tài)性能，顯著增強(qiáng)了控制系統(tǒng)的魯棒性和適應(yīng)性。

以上所述實(shí)施例僅表達(dá)了本發(fā)明的一種實(shí)施方式，其描述較為具體和詳細(xì)，但并不能因此而理解為對本發(fā)明范圍的限制。應(yīng)當(dāng)指出的是，對于本領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)，這些都屬于本發(fā)明的保護(hù)范圍。因此，本發(fā)明的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余濤;程樂峰;李靖;王克英
技術(shù)所有人：華南理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、朱老師：1.聚合物絕緣材料老化 2.電力系統(tǒng)可靠性分析
2、趙老師：1.智能控制理論及應(yīng)用 2.機(jī)器人控制技術(shù) 3.新能源控制技術(shù)與應(yīng)用
3、楊老師：工程電磁場與磁技術(shù)，無線電能傳輸技術(shù)
4、李老師：新型電力電子技術(shù)在微網(wǎng)中的應(yīng)用
5、王老師：薄膜光電子材料與器件、太陽能電池、光伏能源器件及材料測試
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法與流程