本發(fā)明涉及一種雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制,特別是涉及一種基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法。
背景技術(shù):
變速恒頻雙饋發(fā)電是目前風(fēng)力發(fā)電普遍采用的一種發(fā)電方式,其發(fā)電機(jī)采用雙饋感應(yīng)電機(jī)(double-fed induction generator,DFIG)。當(dāng)機(jī)組工作在額定風(fēng)速以下時(shí),通過調(diào)節(jié)發(fā)電機(jī)轉(zhuǎn)子轉(zhuǎn)速,保持最佳葉尖速比,實(shí)現(xiàn)對風(fēng)能的最大捕獲。其控制系統(tǒng)常采用基于定子磁場定向的矢量控制,實(shí)現(xiàn)發(fā)電機(jī)有功、無功功率的解耦控制。
由于風(fēng)能具有強(qiáng)烈的隨機(jī)性、時(shí)變性,且系統(tǒng)含有未建?;驘o法準(zhǔn)確建模的動(dòng)態(tài)部分,使雙饋發(fā)電系統(tǒng)成為一個(gè)多變量、非線性、強(qiáng)耦合系統(tǒng),因此僅采用傳統(tǒng)矢量控制難以滿足控制系統(tǒng)對高適應(yīng)性和高魯棒性的要求。目前有采用各種不同的控制方案,但控制效果都不是非常理想,如采用神經(jīng)網(wǎng)絡(luò)控制方案,該控制方案改善了控制性能,但穩(wěn)態(tài)誤差較大。而采用模糊滑??刂撇呗裕瑢⒛:刂坪突?刂葡嘟Y(jié)合,雖取得了良好的控制效果,但實(shí)現(xiàn)較復(fù)雜。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的在于克服現(xiàn)有技術(shù)的問題,提供一種能夠快速自動(dòng)地優(yōu)化風(fēng)機(jī)控制系統(tǒng)的輸出,不僅實(shí)現(xiàn)了對風(fēng)能的最大追蹤,而且具有良好的動(dòng)態(tài)性能,顯著增強(qiáng)了控制系統(tǒng)的魯棒性和適應(yīng)性的基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法。
本發(fā)明目的通過如下技術(shù)方案實(shí)現(xiàn):
基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法:在基于PI控制的矢量控制系統(tǒng)中的PI控制器上增加RL控制器,動(dòng)態(tài)校正PI控制器的輸出,RL控制器包括RL-P控制器和RL-Q控制器,RL-P控制器和RL-Q控制器分別對有功和無功功率控制信號校正;該自校正控制方法包括如下步驟:
S1:RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ;RL-P控制器和RL-Q控制器分別判斷功率誤差值ΔP和ΔQ所屬區(qū)間sk;
S2:對于所識別的區(qū)間sk,RL-P控制器或RL-Q控制器根據(jù)該sk所對應(yīng)的動(dòng)作概率分布用隨機(jī)函數(shù)輸出動(dòng)作αk,得RL-P控制器或RL-Q控制器輸出的校正信號;動(dòng)作α相應(yīng)的被選擇的概率的集合構(gòu)成概率分布,每個(gè)區(qū)間s有其對應(yīng)的概率分布Ps(a);
對于RL-P控制器,動(dòng)作值αk與PI控制器的輸出信號用加法器相加得到定子q軸電流的給定值iqs*,即有功功率的控制信號;
對于RL-Q控制器,動(dòng)作值αk與PI控制器的輸出信號用加法器相加得到定子d軸電流的給定值ids*,即無功功率的控制信號;
S3:RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ并判斷其所屬區(qū)間sk+1;
S4:RL控制器由獎(jiǎng)勵(lì)函數(shù)獲得立即獎(jiǎng)勵(lì)值rk;獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為:
式中值是動(dòng)作集A的指針,即第k次動(dòng)作值α在動(dòng)作集A中的序號,μ1和μ2為平衡前后各平方項(xiàng)的權(quán)重值,其數(shù)值均為通過大量仿真實(shí)驗(yàn)調(diào)試所得;
S5:基于Q值迭代公式更新Q矩陣;Q函數(shù)為一種期望折扣獎(jiǎng)勵(lì)值,Q學(xué)習(xí)的目的是估計(jì)最優(yōu)控制策略的Q值,設(shè)Qk為最優(yōu)值函數(shù)Q*的第k次迭代值,Q值迭代公式設(shè)計(jì)為:
式中α、γ為折扣因子,其數(shù)值均為通過大量仿真實(shí)驗(yàn)調(diào)試所得;
S6:根據(jù)動(dòng)作選擇策略更新公式更新動(dòng)作概率分布;利用一種追蹤算法設(shè)計(jì)動(dòng)作選擇策略,策略基于概率分布,初始化時(shí),賦予各狀態(tài)下每個(gè)可行動(dòng)作相等的被選概率,隨著迭代的進(jìn)行,概率隨Q值表格的變化而變化;RL控制器找出狀態(tài)sk下具有最高Q值的動(dòng)作ag,ag稱為貪婪動(dòng)作;動(dòng)作概率分布的迭代公式為:
和分別為第k次迭代時(shí)sk狀態(tài)和非sk狀態(tài)下選擇動(dòng)作a的概率;β為動(dòng)作搜索速度,其數(shù)值通過大量仿真實(shí)驗(yàn)調(diào)試所得;
S7:令k=k+1,并返回步驟S2;根據(jù)動(dòng)作概率分布選擇并輸出動(dòng)作αk+1,被選擇的動(dòng)作與PI控制器的輸出信號相疊加產(chǎn)生相應(yīng)的定子電流給定值信號,即功率控制信號,并按順序依次執(zhí)行接下來的步驟不斷循環(huán),在經(jīng)過多次的迭代后,每個(gè)狀態(tài)s存在Qsk以概率1收斂于Qs*,即獲得一個(gè)以Qs*表示的最優(yōu)控制策略以及該最優(yōu)控制策略所對應(yīng)的貪婪動(dòng)作ag,至此完成自校正過程,此時(shí)每個(gè)狀態(tài)s下RL控制器輸出值ag與PI控制器的輸出信號疊加即可自動(dòng)優(yōu)化PI控制器的控制性能,使功率誤差值誤差值小。
本發(fā)明提出一種自校正控制架構(gòu),即基于PI控制的矢量控制系統(tǒng)中的PI控制器上附加一個(gè)RL控制器,來動(dòng)態(tài)校正PI控制器的輸出,其中RL-P和RL-Q控制器分別對有功和無功功率控制信號校正。
相對于現(xiàn)有技術(shù),本發(fā)明具有如下優(yōu)點(diǎn):
1)本發(fā)明提出一種基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法,該方法引入強(qiáng)化學(xué)習(xí)控制算法,對被控對象的數(shù)學(xué)模型和運(yùn)行狀態(tài)不敏感,其自學(xué)習(xí)能力對參數(shù)變化或外部干擾具有較強(qiáng)的自適應(yīng)性和魯棒性。該方法通過Matlab/Simulink仿真平臺進(jìn)行仿真,仿真結(jié)果表明該自校正控制器能夠快速自動(dòng)地優(yōu)化風(fēng)機(jī)控制系統(tǒng)的輸出,不僅實(shí)現(xiàn)了對風(fēng)能的最大追蹤,而且具有良好的動(dòng)態(tài)性能,顯著增強(qiáng)了控制系統(tǒng)的魯棒性和適應(yīng)性。
2)本發(fā)明控制策略無需改變原PI控制器的結(jié)構(gòu)和參數(shù),只需增加一個(gè)自校正模塊,工程實(shí)現(xiàn)十分簡便。同時(shí),由于RL控制器的控制信號為離散動(dòng)作值,易導(dǎo)致超調(diào),后續(xù)研究中可考慮結(jié)合模糊控制對輸入輸出信號模糊化。
附圖說明
圖1為本發(fā)明強(qiáng)化學(xué)習(xí)系統(tǒng)原理圖;
圖2為本發(fā)明雙饋風(fēng)力發(fā)電系統(tǒng)自校正控制框圖;
圖3為基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正學(xué)習(xí)流程圖;
圖4為實(shí)施例中無功功率調(diào)節(jié)的無功功率響應(yīng)曲線;
圖5為實(shí)施例中無功功率調(diào)節(jié)的RL-Q控制器控制信號;
圖6為實(shí)施例中無功功率調(diào)節(jié)的有功功率曲線;
圖7為實(shí)施例中有功功率調(diào)節(jié)的有功功率響應(yīng)曲線;
圖8為實(shí)施例中有功功率調(diào)節(jié)的RL-P控制器控制信號;
圖9為實(shí)施例中有功功率調(diào)節(jié)的無功功率曲線;
圖10為實(shí)施例中擾動(dòng)分析過程參數(shù)變化時(shí)的有功功率曲線;
圖11為實(shí)施例中擾動(dòng)分析過程參數(shù)變化時(shí)的無功功率曲線;
圖12為實(shí)施例中擾動(dòng)分析過程參數(shù)變化時(shí)的RL-P控制器控制信號;
圖13為實(shí)施例中擾動(dòng)分析過程參數(shù)變化時(shí)的RL-Q控制器控制信號。
具體實(shí)施方式
為更好地理解本發(fā)明,下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的說明,但本發(fā)明的實(shí)施方式不限如此。
針對雙饋感應(yīng)風(fēng)力發(fā)電系統(tǒng)結(jié)構(gòu)復(fù)雜,受參數(shù)變化和外部干擾較顯著,具有非線性、時(shí)變、強(qiáng)耦合的特點(diǎn),若僅采用傳統(tǒng)矢量控制則難以滿足控制系統(tǒng)對高適應(yīng)性和高魯棒性的要求。
本發(fā)明在傳統(tǒng)矢量控制的基礎(chǔ)上,提出一種基于強(qiáng)化學(xué)習(xí)(RL)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法,該方法引入Q學(xué)習(xí)算法,并作為強(qiáng)化學(xué)習(xí)核心算法,可快速自動(dòng)地在線優(yōu)化PI控制器的輸出,在引入強(qiáng)化學(xué)習(xí)自校正控制后,保持了原系統(tǒng)最大風(fēng)能捕獲的能力,同時(shí)改善了其動(dòng)態(tài)性能,增強(qiáng)了魯棒性和自適應(yīng)性。
第一,雙饋感應(yīng)風(fēng)力發(fā)電系統(tǒng)在定子磁鏈定向下的基于PI控制的矢量控制系統(tǒng)設(shè)計(jì)。
當(dāng)定子取發(fā)電機(jī)慣例,轉(zhuǎn)子取電動(dòng)機(jī)慣例時(shí),三相對稱系統(tǒng)中具有均勻氣隙的雙饋感應(yīng)發(fā)電機(jī)在兩相同步旋轉(zhuǎn)dq坐標(biāo)系下的數(shù)學(xué)模型為:
定子電壓方程
轉(zhuǎn)子電壓方程
定子磁鏈方程
轉(zhuǎn)子磁鏈方程
電磁轉(zhuǎn)矩方程
定子功率輸出方程
公式(1)~(6)中:下標(biāo)d和q分別表示d軸和q軸分量;下標(biāo)s和r分別表示定子和轉(zhuǎn)子分量;U、i、ψ、Te、P、Q分別表示電壓、電流、磁鏈、電磁轉(zhuǎn)矩、有功和無功功率;R、L分別表示電阻和電感;ω1為同步轉(zhuǎn)速;ωs為轉(zhuǎn)差電角速度,ωs=ω1-ωr=sω1;ωr為發(fā)電機(jī)轉(zhuǎn)子電角速度,s為轉(zhuǎn)差率;np為極對數(shù);p為微分算子。
采用定子磁鏈定向矢量控制,將定子磁鏈?zhǔn)噶慷ㄏ蛴赿軸上,有ψds=ψs,ψqs=0。穩(wěn)態(tài)運(yùn)行時(shí),定子磁鏈保持恒定,忽略定子繞組電阻壓降,則Uds=0,Uqs=ω1ψs=Us,Us為定子電壓矢量幅值。
由式(6)得
在該式中各變量含義如下:P:有功功率;Q:無功功率;Uqs:定子電壓矢量的q軸分量;Iqs:定子電流矢量的q軸分量;Us:定子電壓矢量幅值;ids:定子電流的d軸分量。從式公式(7)可得定子電流控制功率的傳遞函數(shù)。
由公式(3)得:
在該公式中,各變量含義如下:idr:轉(zhuǎn)子電流的d軸分量;iqr:轉(zhuǎn)子電流的q軸分量;Ls:定子電感;Lm:定子與轉(zhuǎn)子間的互感;ids:定子電流的d軸分量;iqs:定子電流的q軸分量;ψs:定子磁鏈?zhǔn)噶糠担?/p>
由公式(4)得
在該公式中,各變量含義如下,ψdr:轉(zhuǎn)子磁鏈?zhǔn)噶康膁軸分量;ψqr:轉(zhuǎn)子磁鏈?zhǔn)噶康膓軸分量;ψs:定子磁鏈?zhǔn)噶糠?;Lm:定子與轉(zhuǎn)子間的互感;Ls:定子電感;Lr:轉(zhuǎn)子電感;idr:轉(zhuǎn)子電流的d軸分量;iqr:轉(zhuǎn)子電流的q軸分量;
再由公式(2)得
在該公式中,各變量含義如下,udr:轉(zhuǎn)子電壓的d軸分量;uqr:轉(zhuǎn)子電壓的q軸分量;idr:轉(zhuǎn)子電流的d軸分量;iqr:轉(zhuǎn)子電流的q軸分量;ψs:定子磁鏈?zhǔn)噶糠?;Rr:轉(zhuǎn)子電阻;p:微分算子;ωs:轉(zhuǎn)差電角速度。從公式(8)(9)(10)可得到由轉(zhuǎn)子電壓控制定子電流的傳遞函數(shù)。
根據(jù)上述公式(7)~(10)可設(shè)計(jì)出雙饋感應(yīng)風(fēng)力發(fā)電系統(tǒng)在定子磁鏈定向下的基于PI控制的矢量控制系統(tǒng)。本發(fā)明自校正控制方法即在上述所設(shè)計(jì)系統(tǒng)中的PI控制器的基礎(chǔ)上附加一個(gè)RL控制器,用兩控制器的輸出信號的疊加值作為功率的控制信號。
第二,基于強(qiáng)化學(xué)習(xí)的自校正控制器設(shè)計(jì)。
強(qiáng)化學(xué)習(xí)(簡稱為RL)算法是系統(tǒng)從環(huán)境狀態(tài)到動(dòng)作映射的學(xué)習(xí),是一種試探評價(jià)的學(xué)習(xí)過程??捎酶綀D1來描述。Agent根據(jù)學(xué)習(xí)算法選擇一個(gè)動(dòng)作作用于環(huán)境(即系統(tǒng)),引起環(huán)境狀態(tài)s的變化,環(huán)境再反饋一個(gè)立即強(qiáng)化信號(獎(jiǎng)或罰)給Agent,Agent根據(jù)強(qiáng)化信號及環(huán)境的新狀態(tài)s′再選擇下一個(gè)動(dòng)作。RL的學(xué)習(xí)原則是:若Agent的某個(gè)決策行為(動(dòng)作)使強(qiáng)化信號得到改善,就使以后產(chǎn)生這個(gè)決策行為的趨勢加強(qiáng)。近年來,RL理論在電力系統(tǒng)中諸于調(diào)度、無功優(yōu)化和電力市場等領(lǐng)域的應(yīng)用研究成果顯著。
如圖1所示,圖1為強(qiáng)化學(xué)習(xí)系統(tǒng)原理圖。根據(jù)圖1,Q學(xué)習(xí)算法是一種從長期的觀點(diǎn)通過試錯(cuò)與環(huán)境交互來改進(jìn)控制策略的強(qiáng)化學(xué)習(xí)算法,其顯著特點(diǎn)之一是對象模型的無關(guān)性。
Q學(xué)習(xí)的目的是去估計(jì)最優(yōu)控制策略的Q值。設(shè)Qk表示最優(yōu)值函數(shù)Q*的第k次迭代值,Q值按迭代公式(11)更新:
動(dòng)作選擇策略是Q學(xué)習(xí)控制算法的關(guān)鍵。定義Agent在狀態(tài)s下選擇具有最高Q值的動(dòng)作稱為貪婪策略p*,其動(dòng)作稱為貪婪動(dòng)作。
若Agent每次迭代都選取Q值最高的動(dòng)作,會導(dǎo)致收斂于局部最優(yōu),因?yàn)榭偸菆?zhí)行相同的動(dòng)作鏈而未搜索其他動(dòng)作。為避免這種情況,本發(fā)明利用一種追蹤算法來設(shè)計(jì)動(dòng)作選擇策略。該算法基于概率分布,初始化時(shí),賦予各狀態(tài)下每個(gè)可行動(dòng)作相等的被選概率,隨著迭代的進(jìn)行,概率隨Q值表格的變化而變化,更新公式如下:
式中:和分別為第k次迭代時(shí)sk狀態(tài)和非sk狀態(tài)下選擇動(dòng)作a的概率;ag為貪婪動(dòng)作;β為動(dòng)作搜索速度。由式(13)可看出,具有較高Q值的動(dòng)作被選擇的概率較大,對應(yīng)環(huán)境某一具體的狀態(tài),貪婪動(dòng)作的被選概率隨著該狀態(tài)的復(fù)現(xiàn)而不斷變大,在經(jīng)過足夠多數(shù)的迭代后,Qk將會以概率1收斂于Q*,也即獲得一個(gè)以Q*表示的最優(yōu)控制策略。
基于此,自校正控制器的結(jié)構(gòu)設(shè)計(jì)描述如下。以固定增益的PI控制器構(gòu)建的現(xiàn)有雙饋感應(yīng)風(fēng)機(jī)控制系統(tǒng),當(dāng)系統(tǒng)工況改變時(shí),控制性能會下降。本發(fā)明提出一種自校正控制架構(gòu),如圖2所示為雙饋風(fēng)力發(fā)電系統(tǒng)自校正控制框圖。在原PI控制器的基礎(chǔ)上附加一個(gè)RL控制器,來動(dòng)態(tài)校正PI控制器的輸出,RL控制器包括RL-P控制器和RL-Q控制器,其中RL-P控制器和RL-Q控制器分別對有功和無功功率控制信號校正。RL-P控制器的輸入值為有功功率誤差值ΔP,通過Q學(xué)習(xí)算法所得動(dòng)作概率分布選擇并輸出動(dòng)作αk,該動(dòng)作αk與PI控制器的輸出信號用加法器相加得到定子q軸電流的給定值iqs*,即有功功率的控制信號;RL-Q控制器的輸入值為無功功率誤差值ΔQ,通過Q學(xué)習(xí)算法所得動(dòng)作概率分布選擇并輸出動(dòng)作αk,該動(dòng)作αk與PI控制器的輸出信號用加法器相加得到定子d軸電流的給定值ids*,即無功功率的控制信號。RL控制器在運(yùn)行過程一直處于在線學(xué)習(xí)狀態(tài),被控量一旦偏離控制目標(biāo)(比如參數(shù)變化或外部擾動(dòng)所致),便自動(dòng)調(diào)整控制策略,從而增加原控制系統(tǒng)的自適應(yīng)和自學(xué)習(xí)能力。
自校正控制器的核心控制算法流程如附圖3所示,其描述如下:
S1:RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ。RL-P控制器和RL-Q控制器分別判斷功率誤差值ΔP和ΔQ所屬區(qū)間sk,功率誤差值劃分為(-∞,-0.1)、[-0.1,-0.06)、[-0.06,-0.03)、[-0.03,-0.02)、[-0.02,-0.005)、[-0.005,0.005]、(0.005,0.02]、(0.02,0.03]、(0.03,0.06]、(0.06,0.1]、(0.1,+∞)11個(gè)不同區(qū)間s,構(gòu)成狀態(tài)集合S;
S2:對于所識別的區(qū)間sk,RL-P控制器或RL-Q控制器根據(jù)該sk所對應(yīng)的動(dòng)作概率分布用隨機(jī)函數(shù)輸出動(dòng)作αk,得RL-P控制器或RL-Q控制器輸出的校正信號;動(dòng)作αk在每個(gè)s下總共有11種選擇,構(gòu)成動(dòng)作空間A,11種選擇分別是[0.06,0.04,0.03,0.02,0.01,0,-0.01,-0.02,-0.03,-0.04,-0.06],在同一個(gè)區(qū)間s下每個(gè)動(dòng)作α有相應(yīng)的被選擇的概率,11個(gè)動(dòng)作α相應(yīng)的被選擇的概率的集合構(gòu)成了所述的概率分布Ps(a),每個(gè)區(qū)間s有其對應(yīng)的概率分布Ps(a);對于RL-P控制器,動(dòng)作值αk與PI控制器的輸出信號用加法器相加得到定子q軸電流的給定值iqs*,即有功功率的控制信號;對于RL-Q控制器,動(dòng)作值αk與PI控制器的輸出信號用加法器相加得到定子d軸電流的給定值ids*,即無功功率的控制信號。
S3:RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ并判斷其所屬區(qū)間sk+1;
S4:RL控制器由獎(jiǎng)勵(lì)函數(shù)獲得立即獎(jiǎng)勵(lì)值rk;獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為:式中值是動(dòng)作集A的指針,即第k次動(dòng)作值α在動(dòng)作集A中的序號,μ1和μ2為平衡前后各平方項(xiàng)的權(quán)重值,其數(shù)值均為通過大量仿真實(shí)驗(yàn)調(diào)試所得;獎(jiǎng)勵(lì)函數(shù)取負(fù)值能使控制目標(biāo)功率誤差值盡可能??;
S5:基于Q值迭代公式更新Q矩陣;Q函數(shù)為一種期望折扣獎(jiǎng)勵(lì)值,Q學(xué)習(xí)的目的是估計(jì)最優(yōu)控制策略的Q值,設(shè)Qk為最優(yōu)值函數(shù)Q*的第k次迭代值,Q值迭代公式設(shè)計(jì)為:
式中α、γ為折扣因子,其數(shù)值均為通過大量仿真實(shí)驗(yàn)調(diào)試所得。步驟S4中功率誤差值越小,rk值越大,Qk+1(sk,ak)值越大;
S6:根據(jù)動(dòng)作選擇策略更新公式更新動(dòng)作概率分布;若智能體Agent每次迭代都選取Q值最高的動(dòng)作,會導(dǎo)致收斂于局部最優(yōu),因此總是執(zhí)行相同的動(dòng)作鏈而未搜索其他動(dòng)作,為避免這種情況的發(fā)生,本發(fā)明利用一種追蹤算法設(shè)計(jì)動(dòng)作選擇策略,策略基于概率分布,初始化時(shí),賦予各狀態(tài)下每個(gè)可行動(dòng)作相等的被選概率,隨著迭代的進(jìn)行,概率隨Q值表格的變化而變化;RL控制器找出狀態(tài)sk下具有最高Q值的動(dòng)作ag,ag稱為貪婪動(dòng)作;動(dòng)作概率分布的迭代公式為:
和分別為第k次迭代時(shí)sk狀態(tài)和非sk狀態(tài)下選擇動(dòng)作a的概率;β為動(dòng)作搜索速度,其數(shù)值通過大量仿真實(shí)驗(yàn)調(diào)試所得。
由功率分布迭代公式可知,具有較高Q值的動(dòng)作即能使功率誤差值較小的動(dòng)作被選擇的概率較大,對應(yīng)環(huán)境某一具體的狀態(tài)s,貪婪動(dòng)作的被選概率隨著該狀態(tài)的復(fù)現(xiàn)而不斷變大并趨近于1;
S7:令k=k+1,并返回步驟S2;根據(jù)動(dòng)作概率分布選擇并輸出動(dòng)作αk+1,被選擇的動(dòng)作與PI控制器的輸出信號相疊加產(chǎn)生相應(yīng)的定子電流給定值信號,即功率控制信號。并按順序依次執(zhí)行接下來的步驟不斷循環(huán)。在經(jīng)過足夠多數(shù)的迭代后,每個(gè)狀態(tài)s存在Qsk以概率1收斂于Qs*,也即獲得一個(gè)以Qs*表示的最優(yōu)控制策略以及該最優(yōu)控制策略所對應(yīng)的貪婪動(dòng)作ag,至此完成自校正過程,此時(shí)每個(gè)狀態(tài)s下RL控制器輸出值ag與PI控制器的輸出信號疊加即可自動(dòng)優(yōu)化PI控制器的控制性能,使功率誤差值誤差值盡可能小。
在迭代前需對Q矩陣以及概率分布進(jìn)行初始化。Q矩陣每個(gè)元素的初值為0,即令令各狀態(tài)下每個(gè)可行動(dòng)作相等的被選概率,即令
根據(jù)前面的描述,本發(fā)明提供了一種基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法,該方法在引入強(qiáng)化學(xué)習(xí)自校正控制后,無需改變原PI控制器的結(jié)構(gòu)和參數(shù),工程實(shí)現(xiàn)十分簡便,保持了原系統(tǒng)最大風(fēng)能捕獲的能力,同時(shí)改善了其動(dòng)態(tài)性能,增強(qiáng)了魯棒性和自適應(yīng)性。
實(shí)施例
針對雙饋感應(yīng)風(fēng)力發(fā)電機(jī),驗(yàn)證本發(fā)明所設(shè)計(jì)的控制器的正確性和有效性。
雙饋感應(yīng)風(fēng)力發(fā)電機(jī)選擇如下參數(shù)進(jìn)行仿真驗(yàn)證:雙饋風(fēng)力發(fā)電機(jī)額定功率為P=9MW(=6*1.5MW),Rs=0.007pu,Rr=0.005pu,Ls=3.071pu,Lr=3.056pu,Lm=2.9pu,np=3,這些參數(shù)可以代入到上面的公式(1)~(10)中進(jìn)行計(jì)算雙饋風(fēng)力發(fā)電機(jī)相應(yīng)的參數(shù)。兩PI控制器的參數(shù)為:比例增益:Kp=6.9;積分增益:Ki=408,RL-P控制器的參數(shù)為:權(quán)重值μ1=0.001,折扣因子α=0.6,γ=0.001,動(dòng)作搜索速度β=0.9;RL-Q控制器的參數(shù)為:權(quán)重值μ2=0.001,折扣因子α=0.6,γ=0.001,動(dòng)作搜索速度β=0.9。
(1)無功功率調(diào)節(jié)
應(yīng)用本發(fā)明提供的算法來控制雙饋風(fēng)力發(fā)電機(jī)的無功功率調(diào)節(jié)過程,該調(diào)節(jié)過程中,無功功率初始給定為0.9Mvar,1s時(shí)降為0var,2s后再次上升0.9Mvar,3s時(shí)仿真結(jié)束。仿真期間,保持風(fēng)速為10m/s不變,無功功率調(diào)節(jié)過程中無功功率響應(yīng)曲線由圖4給出,該圖中,基于強(qiáng)化學(xué)習(xí)算法的自校正控制動(dòng)態(tài)性能優(yōu)于傳統(tǒng)矢量控制。圖5為強(qiáng)化學(xué)習(xí)控制器基于無功功率偏差輸出的校正控制信號,圖6為無功功率調(diào)節(jié)過程中有功功率曲線圖,從圖6可看出,在無功功率調(diào)節(jié)過程中,有功功率始終保持不變,很好地實(shí)現(xiàn)了解耦。
(2)有功功率調(diào)節(jié)
應(yīng)用本發(fā)明提供的算法來控制雙饋風(fēng)力發(fā)電機(jī)的有功功率調(diào)節(jié)過程,該調(diào)節(jié)過程中,風(fēng)速初始給定為10m/s,2s時(shí)上升為11m/s,30s時(shí)仿真結(jié)束。仿真期間,設(shè)定無功功率為0var不變,有功功率調(diào)節(jié)過程系統(tǒng)響應(yīng)仿真結(jié)果如下圖所示。圖7給出了有功功率調(diào)節(jié)過程中的有功功率響應(yīng)曲線,從該圖可看出基于強(qiáng)化學(xué)習(xí)算法的自校正控制和傳統(tǒng)矢量控制有功功率響應(yīng)曲線基本重合,這是因?yàn)榛谧畲箫L(fēng)能捕獲原理,當(dāng)風(fēng)速突變時(shí),有功功率參考值不突變而是按照最佳功率曲線變化,功率偏差始終很小,未達(dá)到強(qiáng)化學(xué)習(xí)設(shè)定最小動(dòng)作值的狀態(tài),故強(qiáng)化學(xué)習(xí)控制器輸出控制信號為0,從而兩條曲線重合。圖8為有功功率調(diào)節(jié)過程中的RL-P控制器控制信號,而圖9為有功功率調(diào)節(jié)過程中的無功功率曲線,從圖9可看出,在有功功率調(diào)節(jié)過程中,無功功率不受影響,實(shí)現(xiàn)了解耦。
(3)擾動(dòng)分析
應(yīng)用本發(fā)明提供的算法對雙饋風(fēng)力發(fā)電機(jī)控制過程中的擾動(dòng)進(jìn)行分析,為考察系統(tǒng)對電機(jī)參數(shù)變化的魯棒性,假設(shè)風(fēng)速為10m/s不變,在t=2s時(shí)b增大一倍。圖10、圖11、圖12和圖13分別給出了參數(shù)變化后參數(shù)變化時(shí)動(dòng)態(tài)響應(yīng)圖,相同條件下傳統(tǒng)矢量控制與基于強(qiáng)化學(xué)習(xí)算法的自校正控制的動(dòng)態(tài)響應(yīng)下的有功功率曲線、無功功率曲線、RL-P控制器控制信號和RL-Q控制器控制信號。由圖12和圖13可看出,當(dāng)參數(shù)變化導(dǎo)致有功和無功功率與參考值出現(xiàn)偏差后,強(qiáng)化學(xué)習(xí)控制器根據(jù)偏差值立即輸出校正控制信號,來補(bǔ)償參數(shù)變化的影響。由圖10和圖11可看出,采用自校正控制,超調(diào)較小,改善了動(dòng)態(tài)品質(zhì),提高了控制性能。
本發(fā)明提供一種基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法,算法控制對象為雙饋風(fēng)力發(fā)電系統(tǒng),該系統(tǒng)具有多變量、非線性、受參數(shù)變化和外部干擾顯著的特點(diǎn)。利用強(qiáng)化學(xué)習(xí)算法具有的在線自學(xué)習(xí)能力和模型無關(guān)性特點(diǎn),本發(fā)明設(shè)計(jì)了風(fēng)機(jī)自校正控制器,可有效提高其控制系統(tǒng)的魯棒性和自適應(yīng)性。此外,該控制策略無需改變原PI控制器的結(jié)構(gòu)和參數(shù),只需增加一個(gè)自校正模塊,工程實(shí)現(xiàn)十分簡便。同時(shí),由于RL控制器的控制信號為離散動(dòng)作值,易導(dǎo)致超調(diào),后續(xù)研究中可考慮結(jié)合模糊控制對輸入輸出信號模糊化。
本發(fā)明提供了一種基于強(qiáng)化學(xué)習(xí)算法的雙饋感應(yīng)風(fēng)力發(fā)電機(jī)自校正控制方法,該方法引入Q學(xué)習(xí)算法作為強(qiáng)化學(xué)習(xí)核心算法,強(qiáng)化學(xué)習(xí)控制算法對被控對象的數(shù)學(xué)模型和運(yùn)行狀態(tài)不敏感,其學(xué)習(xí)能力對參數(shù)變化或外部干擾具有較強(qiáng)的自適應(yīng)性和魯棒性,可快速自動(dòng)地在線優(yōu)化PI控制器的輸出,基于MATLAB/Simulink環(huán)境,在風(fēng)速低于額定風(fēng)速時(shí)對系統(tǒng)進(jìn)行仿真,結(jié)果表明該方法在進(jìn)入強(qiáng)化學(xué)習(xí)自校正控制后,能夠快速自動(dòng)地優(yōu)化風(fēng)機(jī)控制系統(tǒng)的輸出,不僅實(shí)現(xiàn)了對風(fēng)能的最大追蹤,而且具有良好的動(dòng)態(tài)性能,顯著增強(qiáng)了控制系統(tǒng)的魯棒性和適應(yīng)性。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的一種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對本發(fā)明范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。