本發(fā)明涉及機(jī)器人智能控制領(lǐng)域,特別是指一種基于多功能抓取及對(duì)象無(wú)關(guān)框架的機(jī)器人抓取方法及系統(tǒng)。
背景技術(shù):
1、在機(jī)器人研究領(lǐng)域中,機(jī)器人智能抓取一直是熱門的研究方向之一,可廣泛應(yīng)用于工業(yè)制造、物流運(yùn)輸、家庭服務(wù)等領(lǐng)域。傳統(tǒng)的機(jī)器人抓取主要通過(guò)研究人員針對(duì)不同的抓取場(chǎng)景分別設(shè)計(jì)抓取特征,這不僅耗時(shí),同時(shí)還要求研究人員具有一定的先驗(yàn)知識(shí)。研究人員提前規(guī)劃好機(jī)器人運(yùn)動(dòng)軌跡并通過(guò)數(shù)學(xué)的方法獲取物體的抓取位姿,通過(guò)這種方式抓取物體非常耗時(shí)且效率低下。隨著視覺(jué)技術(shù)的引入和人工智能的飛速發(fā)展,人們對(duì)機(jī)器人的抓取能力提出了更高要求?,F(xiàn)代抓取場(chǎng)景不再局限于結(jié)構(gòu)化環(huán)境,而是更貼近真實(shí)生活,物體擺放雜亂無(wú)章,甚至存在多個(gè)物體堆疊的情況。在這樣的背景下,深度學(xué)習(xí)技術(shù),尤其是卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)領(lǐng)域的突破,為機(jī)器人的抓取技術(shù)帶來(lái)了新的發(fā)展機(jī)遇。國(guó)內(nèi)外研究者在機(jī)器人抓取研究中廣泛采用基于深度學(xué)習(xí)的檢測(cè)算法,通過(guò)大量數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)模型,網(wǎng)絡(luò)輸出最高質(zhì)量的抓取位姿,機(jī)器人得到該抓取位姿進(jìn)行抓取任務(wù)。這種方法使得機(jī)器人在面對(duì)非結(jié)構(gòu)化場(chǎng)景時(shí)也能取得良好的抓取效果。然而,現(xiàn)實(shí)生活中的抓取環(huán)境往往更為復(fù)雜,如大型垃圾場(chǎng)的垃圾分類和零件分揀等任務(wù),這些場(chǎng)景中的物體堆疊、形狀各異,對(duì)機(jī)器人抓取是一項(xiàng)極其艱巨的挑戰(zhàn)。
2、現(xiàn)有技術(shù)主要存在下述問(wèn)題:
3、1)傳統(tǒng)的iou計(jì)算策略將抓取矩形框的中心區(qū)域和夾持器兩端的區(qū)域被視為同等重要的程度,在這種計(jì)算策略下網(wǎng)絡(luò)預(yù)測(cè)出的抓取位姿會(huì)使得機(jī)器人的夾持器在抓取時(shí)造成不穩(wěn)定的抓取,甚至造成物體與夾持器的碰撞。
4、2)iou在非重疊抓取框情況下作為損失函數(shù)存在局限性,當(dāng)網(wǎng)絡(luò)預(yù)測(cè)的抓取框與真值不相互重疊時(shí),?iou指標(biāo)將無(wú)法準(zhǔn)確衡量它們之間的相對(duì)位置關(guān)系,直接給出零值,損失函數(shù)關(guān)于網(wǎng)絡(luò)參數(shù)的梯度也將為0,最終網(wǎng)絡(luò)無(wú)法通過(guò)梯度反向傳播來(lái)更新其權(quán)重以優(yōu)化預(yù)測(cè)抓取框的輸出。
5、3)現(xiàn)有的抓取檢測(cè)網(wǎng)絡(luò)缺乏對(duì)全局信息的感知力,使用卷積操作提取特征時(shí)導(dǎo)致輸入數(shù)據(jù)的位置信息丟失,無(wú)法對(duì)特征進(jìn)行全局建模。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)存在的技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供了一種基于多功能抓取及對(duì)象無(wú)關(guān)框架的機(jī)器人抓取方法及系統(tǒng),該對(duì)復(fù)雜環(huán)境及不同物體的適應(yīng)性極強(qiáng),能夠在存在噪聲和干擾的情況下保持穩(wěn)定的抓取性能。所述技術(shù)方案如下:
2、一種基于多功能抓取及對(duì)象無(wú)關(guān)框架的機(jī)器人抓取方法,包括:
3、s1、對(duì)訓(xùn)練集中的rgb圖像信息進(jìn)行預(yù)處理,得到處理后的rgb圖像信息;
4、s2、根據(jù)所述處理后的rgb圖像信息和深度信息,搭建抓取檢測(cè)模型;
5、s3、基于iou計(jì)算得到損失計(jì)算策略;
6、s4、基于損失計(jì)算策略,對(duì)所述抓取檢測(cè)模型進(jìn)行訓(xùn)練,得到攜帶最優(yōu)的權(quán)重參數(shù)的抓取檢測(cè)模型;
7、s5、控制器根據(jù)所述攜帶最優(yōu)的權(quán)重參數(shù)的抓取檢測(cè)模型,建立抓取位姿配置在相機(jī)坐標(biāo)系與世界坐標(biāo)系間的轉(zhuǎn)化關(guān)系,得到三維世界坐標(biāo)系下的抓取位姿;
8、s6、機(jī)器人根據(jù)三維世界坐標(biāo)系下的抓取位姿,將物體運(yùn)輸至制定的目標(biāo)位置。
9、可選地,所述s1的對(duì)訓(xùn)練集中的rgb圖像信息進(jìn)行預(yù)處理,得到處理后的rgb圖像信息包括:
10、s101、對(duì)rgb圖像信息進(jìn)行放縮和旋轉(zhuǎn)后,對(duì)rgb圖像信息進(jìn)行水平方向和垂直方向上的隨機(jī)移位,得到隨機(jī)移位后的rgb圖像信息;
11、s102、以所述隨機(jī)移位后的rgb圖像信息的中心為基準(zhǔn),裁剪預(yù)設(shè)尺寸的圖像塊;
12、s103、對(duì)所述圖像塊和對(duì)應(yīng)的標(biāo)簽進(jìn)行歸一化處理,得到處理后的rgb圖像信息。
13、可選地,所述s2的根據(jù)所述處理后的rgb圖像信息和深度信息,搭建抓取檢測(cè)模型包括:
14、s201、所述處理后的rgb圖像信息和深度信息依次經(jīng)過(guò)卷積層和歸一化層后,進(jìn)行非線性化處理,得到輸入特征;
15、s202、全局信息串聯(lián)與局部聚合模塊根據(jù)所述輸入特征,得到全局重要關(guān)鍵特征;
16、s203、基于卷積前饋跳躍子網(wǎng)絡(luò),將全局重要關(guān)鍵特征轉(zhuǎn)為二維特征圖像的形式的輸出特征;
17、s204、多維多尺度關(guān)注及自適應(yīng)特征融合模塊對(duì)所述輸出特征處理,使所述輸出特征中的與抓取檢測(cè)關(guān)聯(lián)的特征的注意力增強(qiáng),得到抓取檢測(cè)模型。
18、可選地,所述s202的局信息串聯(lián)與局部聚合模塊根據(jù)所述輸入特征,得到全局重要關(guān)鍵特征包括:
19、s2021、對(duì)所述輸入特征進(jìn)行窗口分割,并計(jì)算每個(gè)窗口的維度,所述輸入特征的維度為d;
20、s2022、每個(gè)窗口獨(dú)立執(zhí)行注意力計(jì)算,得到每個(gè)窗口對(duì)應(yīng)的查詢q、鍵k和值矩陣v;
21、s2023、分別計(jì)算每個(gè)窗口對(duì)應(yīng)的查詢q、鍵k和值矩陣v的點(diǎn)積,將查詢q、鍵k和值矩陣v的點(diǎn)積除以縮放因子,得到每個(gè)頭的注意力分?jǐn)?shù);
22、s2024、基于softmax函數(shù)將所述每個(gè)頭的注意力分?jǐn)?shù)轉(zhuǎn)換為對(duì)應(yīng)的注意力權(quán)重,基于注意力權(quán)重對(duì)值矩陣v進(jìn)行加權(quán)求和,得到每個(gè)頭的輸出;
23、s2025、將所述每個(gè)頭的輸出沿著最后的輸入維度拼接,得到一個(gè)張量;
24、s2026、將所述張量經(jīng)過(guò)線性層變換為全局重要關(guān)鍵特征,所述全局重要關(guān)鍵特征與所述輸入特征的維度相等。
25、可選地,所述s3的基于iou計(jì)算得到損失計(jì)算策略包括:
26、s301、基于預(yù)測(cè)的抓取矩形框與真值矩形框之間的距離增加時(shí),預(yù)測(cè)抓取框與真值抓取框相交的區(qū)域面積為0,損失函數(shù)的值對(duì)應(yīng)減小的原則,對(duì)損失函數(shù)iou進(jìn)行改進(jìn),得到改進(jìn)后的損失函數(shù);
27、其中,所述改進(jìn)后的損失函數(shù)的計(jì)算公式為公式(1):
28、;(1)
29、a(a,b)是包含真值抓取框和預(yù)測(cè)抓取框的最小外接矩形面積,a為真值抓取框的最小外接矩形面積,b為預(yù)測(cè)抓取框的最小外接矩形面積;
30、η(a,b)是真值抓取框和預(yù)測(cè)抓取框的并集面積;
31、eiou為改進(jìn)后的損失函數(shù);
32、s302、根據(jù)eiou定義eiou損失函數(shù),其中,eiou損失函數(shù)的公式為公式(2):
33、=0.5-eiou;(2)
34、為eiou損失函數(shù),為損失計(jì)算策略。
35、可選地,所述s302的根據(jù)eiou定義eiou損失函數(shù)包括:
36、計(jì)算真值抓取框a和預(yù)測(cè)抓取框b不相交時(shí),eiou的值,包括公式(3):
37、;(3)
38、其中,m=包含真值抓取框a和預(yù)測(cè)抓取框b的最小外接矩形面積-真值抓取框a和預(yù)測(cè)抓取框b的并集面積;
39、計(jì)算真值抓取框a和預(yù)測(cè)抓取框b相交時(shí),eiou的值,包括公式(4):
40、;(4)
41、其中,q=真值抓取框a和預(yù)測(cè)抓取框b的交集面積;
42、根據(jù)公式(3)和公式(4)得到eiou損失函數(shù)。
43、可選地,所述s4的基于損失計(jì)算策略,對(duì)所述抓取檢測(cè)模型進(jìn)行訓(xùn)練,得到攜帶最優(yōu)的權(quán)重參數(shù)的抓取檢測(cè)模型包括:
44、s401、基于損失計(jì)算策略,得到抓取檢測(cè)模型的損失函數(shù),其中,抓取檢測(cè)模型的總損失函數(shù)的計(jì)算公式為公式(5):
45、;(5)
46、其中,為抓取檢測(cè)模型的總損失函數(shù);是抓取置信度損失函數(shù),是抓取角度損失函數(shù)總和,是抓取寬度損失函數(shù);
47、s402、基于抓取檢測(cè)模型的損失函數(shù),通過(guò)驗(yàn)證集對(duì)抓取檢測(cè)模型進(jìn)行測(cè)試,得到攜帶最優(yōu)的權(quán)重參數(shù)的抓取檢測(cè)模型。
48、可選地,所述s5的控制器根據(jù)所述攜帶最優(yōu)的權(quán)重參數(shù)的抓取檢測(cè)模型,建立抓取位姿配置在相機(jī)坐標(biāo)系與世界坐標(biāo)系間的轉(zhuǎn)化關(guān)系,得到三維世界坐標(biāo)系下的抓取位姿包括:
49、s501、控制器調(diào)用深度相機(jī)獲取外部場(chǎng)景信息,利用攜帶最優(yōu)的權(quán)重參數(shù)的抓取檢測(cè)模型生成所述外部場(chǎng)景信息下的多個(gè)的抓取位姿;
50、s502、基于深度相機(jī)的內(nèi)參hci,結(jié)合使用halcon標(biāo)定法得出的相機(jī)坐標(biāo)系與機(jī)器人末端工具坐標(biāo)系之間的旋轉(zhuǎn)矩陣hrc;
51、s503、基于相機(jī)內(nèi)參hci和旋轉(zhuǎn)矩陣hrc計(jì)算得到三維世界坐標(biāo)系下的抓取位姿gw,包括公式(6):
52、gw?=?hrc(hci(g));(6)。
53、可選地,所述s6的機(jī)器人根據(jù)三維世界坐標(biāo)系下的抓取位姿,將物體運(yùn)輸至制定的目標(biāo)位置包括:
54、機(jī)器人接受三維世界坐標(biāo)系下的抓取位姿,基于利用moveit接口與逆運(yùn)動(dòng)學(xué)解算,所述機(jī)器人運(yùn)動(dòng)到目標(biāo)位置抓取物體并將物體運(yùn)輸至制定的目標(biāo)位置。
55、一種基于多功能抓取及對(duì)象無(wú)關(guān)框架的機(jī)器人抓取系統(tǒng),應(yīng)用于上述的基于多功能抓取及對(duì)象無(wú)關(guān)框架的機(jī)器人抓取,所述系統(tǒng)包括:
56、預(yù)處理模塊,用于對(duì)訓(xùn)練集中的rgb圖像信息進(jìn)行預(yù)處理,得到處理后的rgb圖像信息;
57、搭建模塊,用于根據(jù)所述處理后的rgb圖像信息和深度信息,搭建抓取檢測(cè)模型;
58、策略模塊,用于根據(jù)iou計(jì)算得到損失計(jì)算策略;
59、訓(xùn)練模塊,用于根據(jù)損失計(jì)算策略,對(duì)所述抓取檢測(cè)模型進(jìn)行訓(xùn)練,得到攜帶最優(yōu)的權(quán)重參數(shù)的抓取檢測(cè)模型;
60、坐標(biāo)系轉(zhuǎn)化模塊,用于控制器根據(jù)所述攜帶最優(yōu)的權(quán)重參數(shù)的抓取檢測(cè)模型,建立抓取位姿配置在相機(jī)坐標(biāo)系與世界坐標(biāo)系間的轉(zhuǎn)化關(guān)系,得到三維世界坐標(biāo)系下的抓取位姿;
61、驅(qū)動(dòng)模塊,用于驅(qū)動(dòng)機(jī)器人根據(jù)三維世界坐標(biāo)系下的抓取位姿,將物體運(yùn)輸至制定的目標(biāo)位置。
62、本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果至少包括:
63、本發(fā)明提升了機(jī)器人抓取物體的能力,從原先僅能抓取固定位置的特定物體,發(fā)展到能夠識(shí)別并抓取任意擺放位置的各種類型物體,實(shí)現(xiàn)從物體觀測(cè)數(shù)據(jù)到精確抓取位置和姿態(tài)的準(zhǔn)確映射。
64、本發(fā)明解決了抓取實(shí)時(shí)性難以得到保障的問(wèn)題,本發(fā)明設(shè)計(jì)的方法以毫秒級(jí)別的速度在一個(gè)復(fù)雜場(chǎng)景中生成多個(gè)高質(zhì)量的抓取姿態(tài),在滿足實(shí)時(shí)性的同時(shí)具有極高的抓取成功率。
65、本發(fā)明可應(yīng)用于各類非結(jié)構(gòu)化場(chǎng)景,解決了傳統(tǒng)的機(jī)器人抓取技術(shù)依賴于物理模型的簡(jiǎn)化和完全可觀測(cè)環(huán)境的假設(shè)難題。給定一個(gè)未知的復(fù)雜工作場(chǎng)景,本發(fā)明的方法即可解算出該工作場(chǎng)景下最優(yōu)的抓取配置,具有智能性。
66、本發(fā)明搭建了一體化的機(jī)器人抓取軟件平臺(tái)系統(tǒng),增強(qiáng)了人機(jī)交互性。