專利名稱:基于韻律模式的機器人未知環(huán)境下行走學習信息處理方法
技術領域:
本發(fā)明涉及一種機器人行走學習信息處理方法,尤其是涉及一種基于韻律模式的機器人未知環(huán)境下行走學習信息處理方法。
背景技術:
有足機器人由于其運動機構的高自由度和靈活性,因而相比于輪式機器人對地形環(huán)境具有更好的適應性,在優(yōu)良的運動控制下,有足機器人將會比輪式機器人適用于更加廣泛的領域。然而,另一方面正是由于有足機器人的運動機構的高自由度和高耦合性,快速、穩(wěn)定的有足機器人行走控制成為一件非常困難的問題,尤其是不確定性的行走表面上的行走控制更是如此。而且有足機器人的行走性能對行走表面的特性十分敏感,且通常在特定環(huán)境下表現(xiàn)不錯的行走控制,其性能在新的行走表面上也會發(fā)生顯著的下降,甚至會使機器人無法行走或發(fā)生翻倒。針對如何使有足機器人在不同行走環(huán)境下的行走控制和行走適應問題,國際上已有許多學者做出過大量的研究工作。有人解決方向放在對有足機器人腿部的機械設計上, 以使機器人可以適應任何行走表面,但這些研究并沒把機器人的行走速度的提升著重考慮。事實上,許多情況下不僅是要求機器人可以行走,而是能盡可能快的行走,如機器人足球賽,運動物體的跟蹤等任務。有些學者采用如進化算法、策略梯度下降等學習算法和一些新穎的學習策略實現(xiàn)讓有足機器人自我調整以適應新的行走表面,并取得了不錯的效果。 然而在他們的方法中主要是通過機器視覺的方法對候選控制參數(shù)的性能進行評估的,而目前機器視覺的技術主要是通過環(huán)境數(shù)據(jù)采樣、特征提取,然后進行模式匹配的方法進行視覺物體識別的,這就要求需對環(huán)境有一定的預先的了解,或至少是視覺上的環(huán)境是已知的, 這就在一定程度上限制了以上有足機器人行走學習的方法在不確定環(huán)境下的應用,特別是視覺環(huán)境未知或無法用目前已有機器視覺技術獲取所需信息的情況。
發(fā)明內容
本發(fā)明的目的就是為了克服上述現(xiàn)有技術存在的缺陷而提供一種提高有足機器人對環(huán)境的適應能力的基于韻律模式的機器人未知環(huán)境下行走學習信息處理方法。本發(fā)明的目的可以通過以下技術方案來實現(xiàn)一種基于韻律模式的機器人未知環(huán)境下行走學習信息處理方法,其特征在于,包括以下步驟1)將機器人放置在一個先驗知識已知的環(huán)境中,將先驗知識信息作為行走學習的評估函數(shù),控制機器人學習一組穩(wěn)定快速的行走參數(shù),同時機器人利用位于身體內的加速度傳感器采集該行走參數(shù)控制下機器人行走狀態(tài)信息,處理器根據(jù)該行走狀態(tài)信息計算行走韻律模式(WRP)特征向量并記錄下來,作為基準模型M。m;2)當機器人處于先驗知識未知的環(huán)境時,機器人通過先前設定行走參數(shù)行走一定的步數(shù),計算當前的WRP特征向量,如果該WRP與Mom匹配度低于設定值,則將當前行走參數(shù)作為第一代個體輸入到遺傳算法學習模塊開始行走再學習;3)遺傳算法學習模塊根據(jù)行走參數(shù)對應的WRP特征向量與M。m之間的匹配程度來排序,淘汰劣勢個體,并通過變異和交叉來產生新個體,進行循環(huán),直到種群中個體的平均適應度在一定迭代后沒有明顯的改進時,執(zhí)行步驟4);4)將最優(yōu)種群中的最優(yōu)個體作為最終的行走參數(shù),并將該行走參數(shù)發(fā)送給機器人運動模塊。所述的WRP特征向量計算過稱如下1)對輸入的加速度傳感器數(shù)據(jù)窗口化為相互重疊的數(shù)據(jù)塊,窗口的寬度為 _3] Wd = fwdPgTffl (1)每次窗口移動寬度為Wsd = fwsdPgTffl (2)其中,Tm為動作模塊中每單位處理幀所用的時間;Pg為行走控制中機器人每半步所用的動作幀數(shù)(LF) ;fwd = 2為窗口寬度因子,控制窗口的寬度;fwsd= 1為窗口移動因子, 由于傳感器采樣周期Ts和動作幀Tm為常數(shù),因而可得到每窗中的三個方向傳感器采樣點數(shù)量為
f PTNi = wd g “‘ , k e {AccelX, AccelY, AccelZ} (3)其中上標k表示不同方向的傳感器數(shù)據(jù);使用Harming窗將每幀的輸入數(shù)據(jù)窗口化為Skw (n) = St (η) χ Wliann (n),0< <iV*-l(4)其中,紀(《)為原始傳感器輸入數(shù)據(jù),Wllann(η)為Harming窗口函數(shù),Wflann ( ) = 0.5 - 0.5οο3(2π(η^°·5))(5)2)對窗口化的數(shù)據(jù)計算功率譜,先對每幀數(shù)據(jù)做長度為Nfft快速傅里葉變換 (FFT),F(xiàn)FT輸入數(shù)據(jù)為
權利要求
1.一種基于韻律模式的機器人未知環(huán)境下行走學習信息處理方法,其特征在于,包括以下步驟1)將機器人放置在一個先驗知識已知的環(huán)境中,將先驗知識信息作為行走學習的評估函數(shù),控制機器人學習一組穩(wěn)定快速的行走參數(shù),同時機器人利用位于身體內的加速度傳感器采集該行走參數(shù)控制下機器人行走狀態(tài)信息,處理器根據(jù)該行走狀態(tài)信息計算WRP特征向量并記錄下來,作為基準模型M。m ;2)當機器人處于先驗知識未知的環(huán)境時,機器人通過先前設定行走參數(shù)行走一定的步數(shù),計算當前的WRP特征向量,如果該WRP與Mom匹配度低于設定值,則將當前行走參數(shù)作為第一代個體輸入到遺傳算法學習模塊開始行走再學習;3)遺傳算法學習模塊根據(jù)行走參數(shù)對應的WRP特征向量與M。m之間的匹配程度來排序, 淘汰劣勢個體,并通過變異和交叉來產生新個體,進行循環(huán),直到種群中個體的平均適應度在一定迭代后沒有明顯的改進時,執(zhí)行步驟4);4)將最優(yōu)種群中的最優(yōu)個體作為最終的行走參數(shù),并將該行走參數(shù)發(fā)送給機器人運動模塊。
2.根據(jù)權利要求1所述的一種基于韻律模式的機器人未知環(huán)境下行走學習信息處理方法,其特征在于,所述的WRP特征向量計算過稱如下1)對輸入的加速度傳感器數(shù)據(jù)窗口化為相互重疊的數(shù)據(jù)塊,窗口的寬度為Wd — f WdPgTm (1)每次窗口移動寬度為Wsd — fwsdPgTm ⑵其中,Tm為動作模塊中每單位處理幀所用的時間;Pg為行走控制中機器人每半步所用的動作幀數(shù)(LF) ;fwd = 2為窗口寬度因子,控制窗口的寬度;fwsd= 1為窗口移動因子,由于傳感器采樣周期Ts和動作幀Tm為常數(shù),因而可得到每窗中的三個方向傳感器采樣點數(shù)量為f PTK - W" g ‘“ , k e {AccelX,AccelY,AccelZ} (3)J S其中上標k表示不同方向的傳感器數(shù)據(jù);使用Harming窗將每幀的輸入數(shù)據(jù)窗口化為
3.根據(jù)權利要求1所述的一種基于韻律模式的機器人未知環(huán)境下行走學習信息處理方法,其特征在于,所述的步驟3)中的WRP特征向量與M。m之間的匹配程度計算如下 Y = 100/Nspec*exp (-(vc- μ om)T Σ。;1 (vc- μ。m))其中ν。為當前行走參數(shù)的WRP特征向量,μ。m = Mean(Vftat)為基準模型M。m的WRP特征向量平均值,σ。m = Var(Vfeat)為各WRP特征向量的方差,Σ。m = diag{o J。
全文摘要
本發(fā)明涉及一種基于韻律模式的機器人未知環(huán)境下行走學習信息處理方法,包括以下步驟1)在環(huán)境知識已知的情況下,獲取基準模型Mom;2)當機器人處于先驗知識未知的環(huán)境時,機器人通過先前設定行走參數(shù)行走一定的步數(shù),計算當前的行走韻律模式(WRP)特征向量,如果該WRP與Mom匹配度低于設定值,則將當前行走參數(shù)作為第一代個體輸入到遺傳算法學習模塊開始行走再學習;3)遺傳算法學習模塊進行排序,淘汰劣勢個體,并通過變異和交叉來產生新個體,進行循環(huán),直到種群中個體的平均適應度在一定迭代后沒有明顯的改進時,執(zhí)行步驟4);4)將最優(yōu)種群中的最優(yōu)個體作為最終的行走參數(shù)。與現(xiàn)有技術相比,本發(fā)明具有提高有足機器人對環(huán)境的適應能力等優(yōu)點。
文檔編號G05B13/02GK102375412SQ20101025277
公開日2012年3月14日 申請日期2010年8月13日 優(yōu)先權日2010年8月13日
發(fā)明者許濤, 陳啟軍 申請人:同濟大學