本申請(qǐng)屬于電機(jī)控制,尤其涉及基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法。
背景技術(shù):
1、伺服電機(jī)控制器作為現(xiàn)代機(jī)電一體化系統(tǒng)的核心部件,對(duì)于精確調(diào)節(jié)電機(jī)的速度、位置和轉(zhuǎn)矩起著關(guān)鍵作用。它的性能直接關(guān)系到整個(gè)系統(tǒng)的精度、響應(yīng)速度和穩(wěn)定性。永磁同步電機(jī)伺服系統(tǒng)在現(xiàn)代工業(yè)系統(tǒng)中得到了廣泛的應(yīng)用。同時(shí),永磁同步電機(jī)驅(qū)動(dòng)系統(tǒng)具有高度非線性、強(qiáng)耦合、多變量的特點(diǎn),且電機(jī)在運(yùn)行過程中會(huì)出現(xiàn)外部負(fù)載擾動(dòng),使得傳統(tǒng)pi控制在保證驅(qū)動(dòng)系統(tǒng)動(dòng)態(tài)響應(yīng)和抗干擾能力方面存在明顯的不足。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供了一種基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,可以解決現(xiàn)有技術(shù)中進(jìn)度跟蹤程度不足、抗干擾能力差的問題。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,包括:
3、獲取目標(biāo)電機(jī)運(yùn)行時(shí)的三相定子電流,并將所述三相定子電流進(jìn)行轉(zhuǎn)換,得到第一電流分量和第二電流分量,所述第一電流分量用于表征目標(biāo)電機(jī)轉(zhuǎn)子磁通量的控制基準(zhǔn),所述第二電流分量用于表征目標(biāo)電機(jī)的轉(zhuǎn)矩輸出能力;
4、將所述第一電流分量和所述第二電流分量分別與預(yù)設(shè)參考值進(jìn)行比較,得到誤差數(shù)據(jù);
5、獲取針對(duì)所述目標(biāo)電機(jī)的補(bǔ)償數(shù)據(jù),并將所述誤差數(shù)據(jù)和所述補(bǔ)償數(shù)據(jù)輸入預(yù)設(shè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),得到第一電壓指令和第二電壓指令;
6、通過空間矢量脈寬調(diào)制算法,根據(jù)所述第一電壓指令和所述第二電壓指令確定三相電壓波形,進(jìn)而根據(jù)所述三相電壓波形控制所述目標(biāo)電機(jī)。
7、可選地,所述獲取目標(biāo)電機(jī)運(yùn)行時(shí)的三相定子電流的步驟,包括:
8、建立所述目標(biāo)電機(jī)的初始pmsm模型,所述初始pmsm模型表示為:
9、
10、根據(jù)數(shù)學(xué)運(yùn)算規(guī)則對(duì)所述初始pmsm模型進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)換后的初始pmsm模型:
11、
12、利用一階歐拉公式對(duì)轉(zhuǎn)換后的初始pmsm模型進(jìn)行離散處理,得到目標(biāo)pmsm模型:
13、
14、將帶有摩擦項(xiàng)的負(fù)載數(shù)據(jù)輸入所述目標(biāo)pmsm模型,得到目標(biāo)電機(jī)運(yùn)行時(shí)的三相定子電流。
15、可選地,在所述將帶有摩擦項(xiàng)的負(fù)載數(shù)據(jù)輸入所述目標(biāo)pmsm模型的步驟之前,還包括:
16、建立用于計(jì)算所述摩擦項(xiàng)的摩擦力模型,所述摩擦力模型表示為:
17、
18、其中,tc是庫(kù)侖摩擦轉(zhuǎn)矩,ts是最大靜摩擦轉(zhuǎn)矩;ω是旋轉(zhuǎn)角速度,ωs是stribeck速度,σ0為剛毛剛度系數(shù),σ1為剛毛阻尼系數(shù)、σ2為粘滯摩擦系數(shù);
19、將所述目標(biāo)電機(jī)運(yùn)行時(shí)的速度反饋數(shù)據(jù)帶入所述摩擦力模型,得到所述摩擦項(xiàng)。
20、可選地,所述將所述三相定子電流進(jìn)行轉(zhuǎn)換,得到第一電流分量和第二電流分量的步驟,包括:
21、利用clark變換技術(shù),將所述三相定子電流轉(zhuǎn)換至兩相正交坐標(biāo)系下,得到第一電流信號(hào)和第二電流信號(hào);
22、通過park變換,將所述第一電流信號(hào)和所述第二電流信號(hào)映射至旋轉(zhuǎn)坐標(biāo)系,獲得第一電流分量和第二電流分量。
23、可選地,在所述將所述第一電流分量和所述第二電流分量分別與預(yù)設(shè)參考值進(jìn)行比較,得到誤差數(shù)據(jù)的步驟之前,還包括:
24、通過位置傳感器獲取所述目標(biāo)電機(jī)的角速度,并基于所述角速度計(jì)算所述目標(biāo)電機(jī)的初始轉(zhuǎn)速;
25、對(duì)所述初始轉(zhuǎn)速進(jìn)行濾波,得到所述目標(biāo)電機(jī)的目標(biāo)轉(zhuǎn)速;
26、將所述目標(biāo)轉(zhuǎn)速和參考轉(zhuǎn)速輸入預(yù)設(shè)pi控制器,得到所述預(yù)設(shè)參考值中與所述第二電流分量對(duì)應(yīng)的第二閾值。
27、可選地,所述獲取針對(duì)所述目標(biāo)電機(jī)的補(bǔ)償數(shù)據(jù)的步驟,包括:
28、將所述目標(biāo)轉(zhuǎn)速和所述第二電流分量輸入預(yù)設(shè)擾動(dòng)觀測(cè)模型,得到所述目標(biāo)電機(jī)的補(bǔ)償數(shù)據(jù),其中,所述預(yù)設(shè)擾動(dòng)觀測(cè)模型包括低通濾波器。
29、可選地,所述將所述第一電流分量和所述第二電流分量分別與預(yù)設(shè)參考值進(jìn)行比較,得到誤差數(shù)據(jù)的步驟,包括:
30、將所述第一電流分量與所述預(yù)設(shè)參考值中的第一閾值進(jìn)行比較,得到所述誤差數(shù)據(jù)中的第一誤差數(shù)據(jù);
31、將所述第二電流分量與所述預(yù)設(shè)參考值中的第二閾值進(jìn)行比較,得到所述誤差數(shù)據(jù)中的第二誤差數(shù)據(jù)。
32、可選地,所述將所述誤差數(shù)據(jù)和所述補(bǔ)償數(shù)據(jù)輸入預(yù)設(shè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),得到第一電壓指令和第二電壓指令的步驟,包括:
33、基于所述補(bǔ)償數(shù)據(jù)修正所述誤差數(shù)據(jù)中的第二誤差數(shù)據(jù),將修正后的第二誤差數(shù)據(jù)和所述第一誤差數(shù)據(jù)輸入所述預(yù)設(shè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),得到第一電壓信號(hào)和第二電壓信號(hào),其中,所述預(yù)設(shè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)包括actor子神經(jīng)網(wǎng)絡(luò)和critic子神經(jīng)網(wǎng)絡(luò),所述actor子神經(jīng)網(wǎng)絡(luò)用于更新動(dòng)作策略;所述critic子神經(jīng)網(wǎng)絡(luò)用于對(duì)動(dòng)作和狀態(tài)進(jìn)行評(píng)價(jià),并輸出評(píng)價(jià)數(shù)據(jù);所述actor子神經(jīng)網(wǎng)絡(luò)根據(jù)所述critic子神經(jīng)網(wǎng)絡(luò)輸出的評(píng)價(jià)數(shù)據(jù)對(duì)所述動(dòng)作策略進(jìn)行更新;所述預(yù)設(shè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)還包括獎(jiǎng)勵(lì)函數(shù),所述獎(jiǎng)勵(lì)函數(shù)表示為:
34、
35、ω1、ω2、ω3是獎(jiǎng)勵(lì)增益,為過去控制增益,pk是懲罰項(xiàng),gk為目標(biāo)函數(shù),所述目標(biāo)函數(shù)表示為:
36、
37、將所述第一電壓信號(hào)和所述第二電壓信號(hào)進(jìn)行逆park變換,得到第一電壓指令和第二電壓指令。
38、可選地,所述通過空間矢量脈寬調(diào)制算法,根據(jù)所述第一電壓指令和所述第二電壓指令確定三相電壓波形的步驟,包括:
39、將所述第一電壓指令和所述第二電壓指令輸入所述空間矢量脈寬調(diào)制算法,確定目標(biāo)電壓矢量的所屬扇區(qū),所述目標(biāo)電壓矢量為由所述第一電壓指令和所述第二電壓指令合成的電壓矢量;
40、基于所述目標(biāo)電壓矢量的所屬扇區(qū)計(jì)算為所述目標(biāo)電機(jī)供電的三相逆變器各橋臂開關(guān)管的導(dǎo)通時(shí)間;
41、根據(jù)所述導(dǎo)通時(shí)間,以最優(yōu)化的方式確定所述三相電壓波形。
42、可選地,所述將所述誤差數(shù)據(jù)和所述補(bǔ)償數(shù)據(jù)輸入預(yù)設(shè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的過程為一個(gè)馬爾可夫決策過程,所述馬爾可夫決策過程由一個(gè)元組(x,a,p,r,γ)定義,其中x是狀態(tài)空間,a是行動(dòng)空間,p(xk+1|xk,ak)過渡函數(shù),r(xk,ak)獎(jiǎng)勵(lì)函數(shù),γ∈[0,1]貼現(xiàn)因子,所述預(yù)設(shè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)用于確定目標(biāo)行為,目標(biāo)行為由策略π定義,以最大化代理的總預(yù)期貼現(xiàn)回報(bào)j(π),表示為:
43、
44、本申請(qǐng)實(shí)施例與現(xiàn)有技術(shù)相比存在的有益效果是:
45、將強(qiáng)化學(xué)習(xí)算法巧妙地引入到永磁同步電機(jī)控制中,不僅賦予了電機(jī)控制器自我學(xué)習(xí)和優(yōu)化的能力,還使其能夠通過與環(huán)境的不斷交互,精準(zhǔn)地學(xué)習(xí)到最佳的控制策略,實(shí)現(xiàn)了更為高效、精確的電機(jī)控制,同時(shí)有效地濾除噪聲,從而獲得更為清晰平滑的擾動(dòng)轉(zhuǎn)矩信號(hào),提升系統(tǒng)的整體性能,并確保其穩(wěn)定運(yùn)行。將強(qiáng)化學(xué)習(xí)與摩擦力補(bǔ)償技術(shù)相結(jié)合,不僅解決了永磁同步電機(jī)在輸出轉(zhuǎn)矩時(shí)產(chǎn)生的轉(zhuǎn)矩脈動(dòng)問題,還通過智能學(xué)習(xí)的方式優(yōu)化了控制策略,提高了控制系統(tǒng)的整體性能。
1.一種基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,其特征在于,所述獲取目標(biāo)電機(jī)運(yùn)行時(shí)的三相定子電流的步驟,包括:
3.如權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,其特征在于,在所述將帶有摩擦項(xiàng)的負(fù)載數(shù)據(jù)輸入所述目標(biāo)pmsm模型的步驟之前,還包括:
4.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,其特征在于,所述將所述三相定子電流進(jìn)行轉(zhuǎn)換,得到第一電流分量和第二電流分量的步驟,包括:
5.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,其特征在于,在所述將所述第一電流分量和所述第二電流分量分別與預(yù)設(shè)參考值進(jìn)行比較,得到誤差數(shù)據(jù)的步驟之前,還包括:
6.如權(quán)利要求5所述的基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,其特征在于,所述獲取針對(duì)所述目標(biāo)電機(jī)的補(bǔ)償數(shù)據(jù)的步驟,包括:
7.如權(quán)利要求5所述的基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,其特征在于,所述將所述第一電流分量和所述第二電流分量分別與預(yù)設(shè)參考值進(jìn)行比較,得到誤差數(shù)據(jù)的步驟,包括:
8.如權(quán)利要求7所述的基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,其特征在于,所述將所述誤差數(shù)據(jù)和所述補(bǔ)償數(shù)據(jù)輸入預(yù)設(shè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),得到第一電壓指令和第二電壓指令的步驟,包括:
9.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,其特征在于,所述通過空間矢量脈寬調(diào)制算法,根據(jù)所述第一電壓指令和所述第二電壓指令確定三相電壓波形的步驟,包括:
10.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的伺服電機(jī)控制方法,其特征在于,所述將所述誤差數(shù)據(jù)和所述補(bǔ)償數(shù)據(jù)輸入預(yù)設(shè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的過程為一個(gè)馬爾可夫決策過程,所述馬爾可夫決策過程由一個(gè)元組(x,a,p,r,γ)定義,其中x是狀態(tài)空間,a是行動(dòng)空間,p(xk+1|xk,ak)過渡函數(shù),r(xk,ak)獎(jiǎng)勵(lì)函數(shù),γ∈[0,1]貼現(xiàn)因子,所述預(yù)設(shè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)用于確定目標(biāo)行為,目標(biāo)行為由策略π定義,以最大化代理的總預(yù)期貼現(xiàn)回報(bào)j(π),表示為: