本發(fā)明涉及一種機器人模仿學習方法,具體涉及一種基于高斯過程的機器人模仿學習方法,屬于智能產(chǎn)品技術(shù)領(lǐng)域。
背景技術(shù):
人類和其他生物能夠通過觀察和模仿同伴的行為,有效地獲得同伴行為的運動方式,并理解這些行為的涵義,賦予機器人像人類一樣模仿學習的能力,能夠有效地解決機器人運動技能獲取的問題,提高機器人的學習效率和自適應能力,是機器人仿生研究的一個重要研究方向;模仿學習的一般學習形式為動作復制,動作復制主要是基于示教者的動作軌跡,通過解決從示教者軌跡到執(zhí)行動作的回歸問題,以決定控制策略,模仿者執(zhí)行控制策略進行行為再現(xiàn),實現(xiàn)模仿學習,在模仿學習算法中大多采用逆強化學習算法尋求控制策略,逆強化學習的方法主要是基于模仿者對示教行為進行模仿學習的代價函數(shù),尋求使代價函數(shù)最小的控制策略.然而,逆強化學習的方法對代價函數(shù)要求較高,不適用于代價函數(shù)難以獲取的模仿學習任務(wù)。
技術(shù)實現(xiàn)要素:
(一)要解決的技術(shù)問題
為解決上述問題,本發(fā)明提出了一種基于高斯過程的機器人模仿學習方法,將高斯過程應用于機器人模仿學習控制策略算法的研究,通過采集示教機器人的示教行為樣本點,利用高斯過程算法進行樣本點訓練,學習示教機器人的感知和行為之間的映射關(guān)系,并將此映射關(guān)系應用于模仿機器人模仿學習控制策略并加以執(zhí)行。
(二)技術(shù)方案
本發(fā)明的基于高斯過程的機器人模仿學習方法,包括以下步驟:
第一步:示教機器人采用Braitenberg車的非交叉連接方式,光傳感器輸出值與對應的電機輸出值成反比例關(guān)系,光源位置任意設(shè)定,模仿機器人同樣采用Braitenberg車的非交叉連接方式,光傳感器輸出值與對應的電機輸出值之間的關(guān)系未知,需要通過模仿學習策略給出;
第二步:示教機器人進行動作示范,完成趨光動作,同時隨機選取樣本點,構(gòu)成樣本點集合,每個樣本點包含兩個參數(shù);
第三步:用高斯過程的方法對樣本點集合進行訓練,建立并求解其高斯過程模型,得到示教機器人傳感器與電機之間的映射關(guān)系;
第四步:模仿機器人將此映射關(guān)系應用于自身控制策略,進行模仿示教機器人行為的模仿學習;
第五步:模仿行為分析。
進一步地,所述第二步中的兩個參數(shù)為光傳感器輸出值和對應的電機輸出值。
(三)有益效果
與現(xiàn)有技術(shù)相比,本發(fā)明的基于高斯過程的機器人模仿學習方法,將高斯過程應用于機器人模仿學習控制策略算法的研究,通過采集示教機器人的示教行為樣本點,利用高斯過程算法進行樣本點訓練,學習示教機器人的感知和行為之間的映射關(guān)系,并將此映射關(guān)系應用于模仿機器人模仿學習控制策略并加以執(zhí)行。
具體實施方式
一種基于高斯過程的機器人模仿學習方法,包括以下步驟:
第一步:示教機器人采用Braitenberg車的非交叉連接方式,光傳感器輸出值與對應的電機輸出值成反比例關(guān)系,光源位置任意設(shè)定,模仿機器人同樣采用Braitenberg車的非交叉連接方式,光傳感器輸出值與對應的電機輸出值之間的關(guān)系未知,需要通過模仿學習策略給出;
第二步:示教機器人進行動作示范,完成趨光動作,同時隨機選取樣本點,構(gòu)成樣本點集合,每個樣本點包含兩個參數(shù);
第三步:用高斯過程的方法對樣本點集合進行訓練,建立并求解其高斯過程模型,得到示教機器人傳感器與電機之間的映射關(guān)系;
第四步:模仿機器人將此映射關(guān)系應用于自身控制策略,進行模仿示教機器人行為的模仿學習;
第五步:模仿行為分析。
其中,所述第二步中的兩個參數(shù)為光傳感器輸出值和對應的電機輸出值。
上面所述的實施例僅僅是對本發(fā)明的優(yōu)選實施方式進行描述,并非對本發(fā)明的構(gòu)思和范圍進行限定。在不脫離本發(fā)明設(shè)計構(gòu)思的前提下,本領(lǐng)域普通人員對本發(fā)明的技術(shù)方案做出的各種變型和改進,均應落入到本發(fā)明的保護范圍,本發(fā)明請求保護的技術(shù)內(nèi)容,已經(jīng)全部記載在權(quán)利要求書中。