S12:根據(jù)最優(yōu)動(dòng)作值函數(shù)和控制動(dòng)作得到參數(shù)調(diào)整因子,其中參數(shù)調(diào)整因子是最 優(yōu)動(dòng)作值函數(shù)對(duì)于控制動(dòng)作的偏導(dǎo)數(shù);
[0024] S13 :根據(jù)參數(shù)調(diào)整因子調(diào)整模糊控制參數(shù);
[0025] S14 :根據(jù)當(dāng)前時(shí)刻的車況和調(diào)整后的模糊控制參數(shù)更新控制動(dòng)作;
[0026] S15 :根據(jù)更新后的控制動(dòng)作得到轉(zhuǎn)矩比例;
[0027] S16 :根據(jù)轉(zhuǎn)矩比例輸出電機(jī)轉(zhuǎn)矩和發(fā)動(dòng)機(jī)轉(zhuǎn)矩。
[0028] 當(dāng)車輛剛啟動(dòng)時(shí),所采用的控制動(dòng)作是根據(jù)初始化的神經(jīng)網(wǎng)絡(luò)權(quán)重值和模糊控制 參數(shù)值得到的,其后重復(fù)執(zhí)行步驟Sll至S16得到新的控制動(dòng)作,通過采用上述方法步驟, 隨著車況的不斷變化,控制動(dòng)作會(huì)不斷更新,從而可以得到最優(yōu)的電機(jī)轉(zhuǎn)矩與發(fā)動(dòng)機(jī)的轉(zhuǎn) 矩比例,使得瞬時(shí)油耗值f;趨于小于目標(biāo)值f t,從而達(dá)到節(jié)省燃油的效果。
[0029] 具體地,步驟Sll中的最優(yōu)動(dòng)作值函數(shù)可以利用Q-學(xué)習(xí)(Q-Learning)算法來得 到,可以通過神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)Q-學(xué)習(xí)算法。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,采用各種現(xiàn)有 的神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)Q-學(xué)習(xí)算法都是可行的,例如BP (后向傳播)神經(jīng)網(wǎng)絡(luò)模型或TD (時(shí) 分)神經(jīng)網(wǎng)絡(luò)模型等,在本實(shí)施例中以BP神經(jīng)網(wǎng)絡(luò)模型為例來說明本發(fā)明。
[0030] BP神經(jīng)網(wǎng)絡(luò)模型可以處理在時(shí)間上展開的輸入數(shù)據(jù),分別由輸入層、隱含層和輸 出層構(gòu)成,如圖2所示,在本實(shí)施例中節(jié)點(diǎn)個(gè)數(shù)為4-10-1,其中U(1)、U(2)、U(3)、U(4)是輸 入信號(hào),依次為需求轉(zhuǎn)矩T rai、電池剩余電量SOC、車速V和控制動(dòng)作U,W(l),. . .,w(40)是 輸出層與隱含層之間的權(quán)重值,a(l), . . .,a(10)是隱含層的輸入,y(l), . . .,y(10)是隱含 層的輸出,w(41),. . .,w(50)是隱含層與輸出層之間的權(quán)重,V是輸出層的輸入,Q(x, u)是 輸出層的輸出,即最優(yōu)動(dòng)作值函數(shù)。具體的數(shù)學(xué)表達(dá)式為:
【主權(quán)項(xiàng)】
1. 一種混合動(dòng)力汽車控制方法,其特征在于,包括: 根據(jù)當(dāng)前時(shí)刻的車況、獎(jiǎng)賞信號(hào)和控制動(dòng)作得到最優(yōu)動(dòng)作值函數(shù),其中所述獎(jiǎng)賞信號(hào) 與實(shí)際瞬時(shí)油耗值和預(yù)設(shè)油耗目標(biāo)值有關(guān); 根據(jù)所述最優(yōu)動(dòng)作值函數(shù)和所述控制動(dòng)作得到參數(shù)調(diào)整因子,其中所述參數(shù)調(diào)整因子 是所述最優(yōu)動(dòng)作值函數(shù)對(duì)于所述控制動(dòng)作的偏導(dǎo)數(shù); 根據(jù)所述參數(shù)調(diào)整因子調(diào)整模糊控制參數(shù); 根據(jù)所述當(dāng)前時(shí)刻的車況和調(diào)整后的模糊控制參數(shù)更新所述控制動(dòng)作; 根據(jù)所述更新后的控制動(dòng)作得到轉(zhuǎn)矩比例; 根據(jù)所述轉(zhuǎn)矩比例輸出電機(jī)轉(zhuǎn)矩和發(fā)動(dòng)機(jī)轉(zhuǎn)矩。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)所述混合動(dòng)力汽車剛啟動(dòng)時(shí),所述控制 動(dòng)作根據(jù)初始化的神經(jīng)網(wǎng)絡(luò)權(quán)重值和模糊控制參數(shù)值得到。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)當(dāng)前時(shí)刻的車況、獎(jiǎng)賞信號(hào)和控 制動(dòng)作得到最優(yōu)動(dòng)作值函數(shù),包括: 根據(jù)前一時(shí)刻的最優(yōu)控制動(dòng)作函數(shù)、當(dāng)前時(shí)刻的車況以及獎(jiǎng)賞信號(hào)更新神經(jīng)網(wǎng)絡(luò)權(quán)重 值; 根據(jù)更新后神經(jīng)網(wǎng)絡(luò)權(quán)重值獲取當(dāng)前時(shí)刻的最優(yōu)動(dòng)作值函數(shù)。
4. 根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述更新后的控制 動(dòng)作得到轉(zhuǎn)矩比例,包括: 根據(jù)所述更新后的控制動(dòng)作得到隨機(jī)動(dòng)作,所述隨機(jī)動(dòng)作是均值為〇的標(biāo)準(zhǔn)正態(tài)分布 在輸入為所述更新后的控制動(dòng)作的輸出值; 將所述更新后的控制動(dòng)作和所述隨機(jī)動(dòng)作相加得到所述轉(zhuǎn)矩比例。
5. -種混合動(dòng)力汽車控制系統(tǒng),其特征在于,包括: 參數(shù)調(diào)整單元,用于根據(jù)當(dāng)前時(shí)刻的車況、獎(jiǎng)賞信號(hào)和控制動(dòng)作得到最優(yōu)動(dòng)作值函數(shù), 其中所述獎(jiǎng)賞信號(hào)與實(shí)際瞬時(shí)油耗值和預(yù)設(shè)油耗目標(biāo)值有關(guān); 偏導(dǎo)單元,用于根據(jù)所述最優(yōu)動(dòng)作值函數(shù)和所述控制動(dòng)作得到參數(shù)調(diào)整因子,其中所 述參數(shù)調(diào)整因子是所述最優(yōu)動(dòng)作值函數(shù)對(duì)于所述控制動(dòng)作的偏導(dǎo)數(shù); 模糊控制調(diào)整單元,用于根據(jù)所述參數(shù)調(diào)整因子調(diào)整模糊控制參數(shù); 模糊控制單元,用于根據(jù)所述當(dāng)前時(shí)刻的車況和調(diào)整后的模糊控制參數(shù)更新所述控制 動(dòng)作; 動(dòng)作搜索單元,用于根據(jù)所述更新后的控制動(dòng)作得到轉(zhuǎn)矩比例; 轉(zhuǎn)矩輸出單元,用于根據(jù)所述轉(zhuǎn)矩比例輸出電機(jī)轉(zhuǎn)矩和發(fā)動(dòng)機(jī)轉(zhuǎn)矩。
6. 根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,當(dāng)所述混合動(dòng)力汽車剛啟動(dòng)時(shí),所述控制 動(dòng)作根據(jù)初始化的神經(jīng)網(wǎng)絡(luò)權(quán)重值和模糊控制參數(shù)值得到。
7. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述參數(shù)調(diào)整單元包括: 權(quán)重值更新模塊,用于根據(jù)前一時(shí)刻的最優(yōu)控制動(dòng)作函數(shù)、當(dāng)前時(shí)刻的車況以及獎(jiǎng)賞 信號(hào)更新神經(jīng)網(wǎng)絡(luò)權(quán)重值; 最優(yōu)動(dòng)作值函數(shù)獲取模塊,用于根據(jù)更新后神經(jīng)網(wǎng)絡(luò)權(quán)重值獲取當(dāng)前時(shí)刻的最優(yōu)動(dòng)作 值函數(shù)。
8. 根據(jù)權(quán)利要求5至7中任一項(xiàng)所述的系統(tǒng),其特征在于,所述動(dòng)作搜索單元包括: 隨機(jī)動(dòng)作獲取模塊,用于根據(jù)所述更新后的控制動(dòng)作得到隨機(jī)動(dòng)作,所述隨機(jī)動(dòng)作是 均值為0的標(biāo)準(zhǔn)正態(tài)分布在輸入為所述更新后的控制動(dòng)作的輸出值; 轉(zhuǎn)矩比例獲取模塊,用于將所述更新后的控制動(dòng)作和所述隨機(jī)動(dòng)作相加得到所述轉(zhuǎn)矩 比例。
【專利摘要】本發(fā)明涉及一種混合動(dòng)力汽車控制方法和系統(tǒng),其中所述方法包括:根據(jù)當(dāng)前時(shí)刻的車況、獎(jiǎng)賞信號(hào)和控制動(dòng)作得到最優(yōu)動(dòng)作值函數(shù),其中所述獎(jiǎng)賞信號(hào)與實(shí)際瞬時(shí)油耗值和預(yù)設(shè)油耗目標(biāo)值有關(guān);根據(jù)所述最優(yōu)動(dòng)作值函數(shù)和所述控制動(dòng)作得到參數(shù)調(diào)整因子,其中所述參數(shù)調(diào)整因子是所述最優(yōu)動(dòng)作值函數(shù)對(duì)于所述控制動(dòng)作的偏導(dǎo)數(shù);根據(jù)所述參數(shù)調(diào)整因子調(diào)整模糊控制參數(shù);根據(jù)所述當(dāng)前時(shí)刻的車況和調(diào)整后的模糊控制參數(shù)更新所述控制動(dòng)作;根據(jù)所述更新后的控制動(dòng)作得到轉(zhuǎn)矩比例;根據(jù)所述轉(zhuǎn)矩比例輸出電機(jī)轉(zhuǎn)矩和發(fā)動(dòng)機(jī)轉(zhuǎn)矩。
【IPC分類】B60W10-06, B60W20-00, B60W10-08
【公開號(hào)】CN104527637
【申請(qǐng)?zhí)枴緾N201410789806
【發(fā)明人】李衛(wèi)民, 徐回, 胡悅, 潘云龍, 徐國卿
【申請(qǐng)人】中國科學(xué)院深圳先進(jìn)技術(shù)研究院, 濟(jì)寧中科先進(jìn)技術(shù)研究院有限公司
【公開日】2015年4月22日
【申請(qǐng)日】2014年12月17日