發(fā)明作進(jìn)一步描述: 實(shí)施例一:一種機(jī)器人運(yùn)動控制方法,通過攝像頭采集視頻數(shù)據(jù),對視頻數(shù)據(jù)進(jìn)行處理 獲得當(dāng)前機(jī)器人的位置信息、障礙物分布信息,給定目的地信息;對通過視頻數(shù)據(jù)的分析獲 得地圖,W機(jī)器人所在的位置作為機(jī)器人的狀態(tài)X,機(jī)器人的運(yùn)動方向作為動作U;如圖1所 示,具體的控制方法包括學(xué)習(xí)過程和運(yùn)動控制。
[0023] 所述學(xué)習(xí)過程包括W下步驟: 1狀態(tài)遷移 根據(jù)環(huán)境模型進(jìn)行機(jī)器人狀態(tài)的遷移,再依據(jù)行為策略選擇新狀態(tài)下應(yīng)該執(zhí)行的動 作。行為策略采用完全隨機(jī)策略,即任一狀態(tài)下所有動作的選擇概率均相等且和為1。
[0024] 2計(jì)算離策略因子 離策略因子.好二J(。切/&Ui; ,其中.譚知[讀是評估策略,患終鍵是行為策略。該行 為策略即為步驟1中所述的行為策略。本發(fā)明中所采用的評估策略的形式為:
即用基函數(shù)與策略參數(shù)e的內(nèi)積值表示動作值,評 估策略即為運(yùn)一分式,分子為自然對數(shù)底的動作值次方,分母為分子對于所有動作的和。 該評估策略滿足在任意狀態(tài)動作對I疋化對策略參數(shù)替是連續(xù)可導(dǎo)的,因此可W保證在任 意狀態(tài)動作對處梯度存在。
[0025] 3更新平均值 本發(fā)明中有兩個(gè)近似平均值,一個(gè)是近似平均獎賞值#,一個(gè)是近似平均平方獎賞值 :癥。用公式表示則為^
其中是譚=幾吟谷,#是當(dāng)前時(shí) 間步,?就是當(dāng)前獲得的獎賞值。
[0026] 4計(jì)算時(shí)間差分 本發(fā)明中需要計(jì)算兩個(gè)時(shí)間差分,分別是近似平均獎賞的時(shí)間差分蠻與近似平均平方獎 賞的時(shí)間差分為,具體計(jì)算公式可W采用如下公式。具體形式為
其中盛i語近似值函數(shù),巾驚接^是近似平方值 函數(shù),賦若紹是一個(gè)折扣因子。值函數(shù)的計(jì)算采用線性函數(shù)近似的方式,也就是計(jì)算特征值 與值函數(shù)參數(shù)的內(nèi)積,即為該狀態(tài)動作對的值。本發(fā)明中所用的近似線性函數(shù)如下:
其中馬與緝?分別是近似值函數(shù)參數(shù)與近似平方值函數(shù)參數(shù)。運(yùn)里采用的是伴隨特征 值
即基函數(shù)減去所有動作的基函數(shù)與動作概率乘積的和, 使用伴隨特征值的好處是可W得到無偏近似。
[0027] 5更新評論家 本發(fā)明采用梯度下降方法更新參數(shù)值。如上所述,由于采用的是線性函數(shù)近似,所W值 函數(shù)的梯度就是伴隨特征值,于是參數(shù)更新形式為
其中馬與繳分別是兩組參數(shù)更新時(shí)的步長參數(shù)。運(yùn)種迭代式的更新可W實(shí)時(shí)的更新 值函數(shù)參數(shù)值,因此本發(fā)明可W實(shí)現(xiàn)方法的在線實(shí)時(shí)學(xué)習(xí)。
[002引6更新行動者 運(yùn)一步驟中最核屯、的操作就是更新策略參數(shù)備。本發(fā)明采用的更新方式是 常=袋4礙辭滾篡策J,其中皆爵藥禱與具體采用的方差相關(guān)風(fēng)險(xiǎn)標(biāo)準(zhǔn)有關(guān)。當(dāng)采用標(biāo)準(zhǔn) 玉一婆護(hù)時(shí),其中媒是懲罰因子,則巧來藍(lán)轉(zhuǎn)心Ρ+2爲(wèi)讀巧樂-與鍵穿。
[0029] 7狀態(tài)動作更替 該步驟最主要的目的是不斷地更替狀態(tài)動作對,使迭代一直進(jìn)行下去,直到參數(shù)收斂。 在強(qiáng)化學(xué)習(xí)中,參數(shù)收斂是指前后兩輪更新后的參數(shù)值完全相同或者變化不大。
[0030] 完成學(xué)習(xí)過程中,采用學(xué)習(xí)過程確定的參數(shù)進(jìn)行運(yùn)動控制。
[0031] 為了說明方差相關(guān)的離策略行動者-評論家機(jī)器人控制方法的效果,選擇彈球仿 真模擬實(shí)驗(yàn)。圖2為彈球示意圖。彈球?qū)嶒?yàn)的目標(biāo)是控制球進(jìn)入右上角的桐中,中間多邊形 即為障礙物。當(dāng)球撞擊障礙物或邊界時(shí)會發(fā)生彈性形變,所W可W選擇避開運(yùn)些障礙物,也 可W選擇利用障礙物的彈性形變加快到達(dá)目標(biāo)的過程。彈球問題由于撞擊時(shí)的彈性形變使 得其狀態(tài)發(fā)生劇烈變化,所W它比一般的控制問題更加復(fù)雜,也更具挑戰(zhàn)性。因此W此仿真 實(shí)驗(yàn)來進(jìn)行比較,更能體現(xiàn)方法的優(yōu)越性。
[0032] 圖3為本方法(V0PAC)與其他方法累積獎賞的概率分布圖,橫坐標(biāo)為每個(gè)情節(jié)結(jié)束 時(shí)的累積獎賞值,縱坐標(biāo)為累積獎賞值的概率。曲線越窄越高表示累積獎賞值越集中在該 范圍,該方法的方差越小,控制越穩(wěn)定。從該圖可W直觀地看出本方法的累積獎賞值更集 中,也就是方差最小,控制效果最好。
[0033] 圖4為本方法與其他方法的每個(gè)情節(jié)執(zhí)行總步數(shù)的概率分布圖,橫坐標(biāo)為每個(gè)情 節(jié)結(jié)束時(shí)的總時(shí)間步數(shù),縱坐標(biāo)為時(shí)間步數(shù)的概率。曲線越窄越高表示時(shí)間步數(shù)越集中在 該范圍,該方法的方差越小,控制越穩(wěn)定。從該圖也可W直觀地看出本方法的總步數(shù)比其他 方法小,步數(shù)值也更加集中,即方差更小。
[0034] 表1具體給出了各方法的最少步數(shù),平均步數(shù),最大步數(shù)與方差值,其中,輿取 0.01。從表1中可W看出本方法的方差比其他方法小很多,運(yùn)與圖1與圖2的直觀結(jié)果相一 致。
[0035] 表1各方法方差對比圖
' 圖5為本發(fā)明的裝置圖。機(jī)器人裝配一個(gè)攝像頭和TMS320C6670忍片,該忍片可W將攝 像頭采集的視頻數(shù)據(jù)進(jìn)行預(yù)處理后得到當(dāng)前機(jī)器人的位置信息,然后將此位置信息通過無 線W太網(wǎng)傳輸?shù)胶笈_數(shù)據(jù)處理器,數(shù)據(jù)處理器通過本發(fā)明提出的方差相關(guān)離策略AC方法對 位置信息進(jìn)行處理計(jì)算得到動作控制信息,然后將動作控制信息傳回給處理忍片,控制機(jī) 器人的運(yùn)行。
[0036] 為進(jìn)一步確定本發(fā)明的效果,在學(xué)習(xí)完成后,利用固定策略控制機(jī)器人的運(yùn)動,確 定機(jī)器人到達(dá)目的地分別需要的平均步數(shù)。本發(fā)明與對比方法的平均步數(shù)如下: 本實(shí)施例 801.4 Off-PAC 1242.4 0PGTD2(A) 1125.2 SARSA 1747.8 在本發(fā)明的方法中,改變不同的μ值得到的結(jié)果:
【主權(quán)項(xiàng)】
1. 一種基于行動者-評論家方法的機(jī)器人運(yùn)動控制方法,其特征在于,包括W下步驟: (1) 通過攝像頭采集視頻數(shù)據(jù),對視頻數(shù)據(jù)進(jìn)行處理獲得當(dāng)前機(jī)器人的位置信息、障礙 物分布信息,給定目的地信息; (2) 對通過視頻數(shù)據(jù)的分析獲得地圖,W機(jī)器人所在的位置作為機(jī)器人的狀態(tài)X,機(jī)器 人的運(yùn)動方向作為動作U; (3) 狀態(tài)遷移:在當(dāng)前狀態(tài)X下選擇對應(yīng)的當(dāng)前動作U,執(zhí)行當(dāng)前動作U得到相應(yīng)獎賞r并 且遷移到下一狀態(tài)X',再根據(jù)行為策略條苗選擇下一狀態(tài)X'對應(yīng)的下一動作U' ;其中,行 為策略杳初始狀態(tài)采用完全隨機(jī)策略,任一狀態(tài)下所有動作的選擇概率均相等且和 為1; (4) 計(jì)算離策略因子:根據(jù)評估策略迅糾為與行為策略凌編禱計(jì)算得到離策略因子 '夢=奈按i麥!舜I捧?'文!,其中,楚細(xì)姑.!為基函數(shù), 爲(wèi)為策略參數(shù),U為動作的集合; (5) 更新平均值:根據(jù)當(dāng)前時(shí)間步下所得到的獎賞r更新近似平均獎賞值芽與近似平均 平方獎賞值Μ ; (6) 計(jì)算時(shí)間差分:根據(jù)步驟一中得到的遷移知識,計(jì)算當(dāng)前的平均獎賞時(shí)間差分霉與 平均平方獎賞時(shí)間差分 <如; (7) 更新評論家:根據(jù)步驟(3)至步驟(6)中學(xué)習(xí)到的信息,進(jìn)行評論家部分的迭代更 新,包括近似平均獎賞參數(shù)墻的迭代更新W及近似平均平方獎賞參數(shù):;麵的迭代更新; (8) 更新行動者:根據(jù)步驟(3)至步驟(7)中學(xué)習(xí)到的信息,進(jìn)行行動者部分的迭代更 新,包括近似平均獎賞的梯度病^的計(jì)算,近似平均平方獎賞的梯度赫r的計(jì)算W及策略參 數(shù)疫的更新; (9) 狀態(tài)動作更替:重設(shè)當(dāng)前狀態(tài)X的值為原下一狀態(tài)X',當(dāng)前動作U的值為原下一動作 U',重復(fù)步驟(3)至步驟(9),直到策略參數(shù)收斂,完成機(jī)器人的學(xué)習(xí)過程; (10) 根據(jù)機(jī)器人學(xué)習(xí)過程確定的到達(dá)目的地的運(yùn)動策略,實(shí)現(xiàn)機(jī)器人的運(yùn)動控制。2. 根據(jù)權(quán)利要求1所述的基于行動者-評論家方法的機(jī)器人運(yùn)動控制方法,其特征在 于:步驟(5 )中,近似平均獎賞值+,近似平均平方獎賞值癢中,貧疋賊是當(dāng)前時(shí)間步。3. 根據(jù)權(quán)利要求1所述的基于行動者-評論家方法的機(jī)器人運(yùn)動控制方法,其特征在 于:步驟(6)中,近似平均獎賞的時(shí)間差分,近似平均平方 獎賞的時(shí)間差分,其中,雜細(xì)蛛是近似值函 數(shù),:鑛快被)是近似平方值函數(shù),癸是折扣因子,貨驚r遠(yuǎn)先。4. 根據(jù)權(quán)利要求3所述的基于行動者-評論家方法的機(jī)器人運(yùn)動控制方法,其特征在 于:值函數(shù)的計(jì)算采用線性函數(shù)近似的方式,其中,琢與%分別是近似值函數(shù)參數(shù)與近似平方值函數(shù)參數(shù)。5. 根據(jù)權(quán)利要求1所述的基于行動者-評論家方法的機(jī)器人運(yùn)動控制方法,其特征在 于:步驟(7)中,采用梯度下降方法更新參數(shù)值,更新形式為,其中,ilj與分別是兩組參數(shù)更新時(shí)的步長參數(shù)。6. 根據(jù)權(quán)利要求1所述的基于行動者-評論家方法的機(jī)器人運(yùn)動控制方法,其特征在 于:步驟(8)中,近似平均獎賞的梯度觀。鄉(xiāng)細(xì)患P:鮮g寅批泌):,近似平均平方獎賞的梯度其中嫁皆猿鮮根據(jù)采用 的方差風(fēng)險(xiǎn)標(biāo)準(zhǔn)確定。7. 根據(jù)權(quán)利要求6所述的基于行動者-評論家方法的機(jī)器人運(yùn)動控制方法,其特征在 于:方差風(fēng)險(xiǎn)標(biāo)準(zhǔn)采甩與f,其中與是懲罰因子,8. -種基于行動者-評論家方法的機(jī)器人運(yùn)動控制裝置,其特征在于:機(jī)器人裝配有攝 像頭和控制器,與機(jī)器人配合設(shè)有后臺數(shù)據(jù)處理器,機(jī)器人中的控制器經(jīng)無線網(wǎng)絡(luò)與所述 后臺數(shù)據(jù)處理器連接,其特征在于:所述攝像頭的輸出信號連接至所述控制器,所述控制器 中設(shè)有視頻數(shù)據(jù)預(yù)處理模塊,所述后臺數(shù)據(jù)處理器中設(shè)有基于權(quán)利要求1-7中任一基于行 動者-評論家方法的機(jī)器人運(yùn)動巧制方法的巧制模塊。
【專利摘要】本發(fā)明公開了一種基于行動者-評論家方法的機(jī)器人運(yùn)動控制方法和裝置,控制方法包括:采集視頻數(shù)據(jù),獲得當(dāng)前機(jī)器人的位置信息、障礙物分布信息,給定目的地信息;以機(jī)器人所在的位置作為機(jī)器人的狀態(tài),機(jī)器人的運(yùn)動方向作為動作;進(jìn)行狀態(tài)遷移;計(jì)算離策略因子;更新近似平均獎賞值與近似平均平方獎賞值;計(jì)算當(dāng)前的平均獎賞時(shí)間差分與平均平方獎賞時(shí)間差分;進(jìn)行近似平均獎賞參數(shù)的迭代更新以及近似平均平方獎賞參數(shù)的迭代更新;進(jìn)行近似平均獎賞的梯度的計(jì)算,近似平均平方獎賞的梯度的計(jì)算以及策略參數(shù)的更新;狀態(tài)動作更替。重復(fù)以上步驟,直到策略參數(shù)收斂,實(shí)現(xiàn)機(jī)器人的運(yùn)動控制。本發(fā)明實(shí)現(xiàn)了機(jī)器人的智能運(yùn)動控制,控制結(jié)果穩(wěn)定。
【IPC分類】B25J9/16
【公開號】CN105690392
【申請?zhí)枴緾N201610232236
【發(fā)明人】劉全, 許丹, 朱斐
【申請人】蘇州大學(xué)
【公開日】2016年6月22日
【申請日】2016年4月14日