本發(fā)明涉及基于要在其中執(zhí)行任務的場景的多個圖像來操控機器人以執(zhí)行預給定任務。
背景技術:
1、機器人可以以高精度、特別是高重復準確度來執(zhí)行操縱任務。但是,必須針對每個單獨的工作步驟專門操控這些機器人。在機器人能夠履行(abarbeiten)復雜的任務之前,必須首先將其拆解為子任務,然后才能由機器人履行這些子任務。機器人自動化執(zhí)行任務所帶來的額外好處因此被手動將任務分解為子任務所付出的努力所抵消。
2、(m.ahn等人的“do?as?i?can,not?as?i?say:grounding?language?in?roboticaffordances”,arxiv:2204.01691v2(2022))公開了一種方法:借助經(jīng)過訓練的語言模型(例如gpt-3)中所包含的語義信息至少部分地自動將復雜任務分解為子任務。
技術實現(xiàn)思路
1、本發(fā)明提供一種操控機器人以執(zhí)行預給定任務的方法。
2、在該方法的范疇內(nèi),提供要在其中執(zhí)行任務的場景的至少一個圖像。所述一個或多個圖像尤其可以例如用由機器人攜帶的攝像機來記錄和/或監(jiān)視機器人在其中工作的環(huán)境。在此情況下,任何成像模態(tài)都可以被使用并且也可以相互融合。
3、針對圖像中的一個或多個對象確定對象類型。這意味著對象類型被分配給屬于相應對象的一個或多個像素。該分配可以可選地甚至更加細化(feingliedriger),并且例如也可以在服務于不同目的的對象的不同區(qū)域之間進行區(qū)分。例如,對象類型的確定可以特別是任意程度地自動化。在特別有利的設計方案中,經(jīng)過訓練的圖像分類器可以用于此目的。替代地或者與此相結合地,例如,對象類型也可以由用戶來注釋。
4、與對象類型相結合地,將要履行的任務輸送給經(jīng)過訓練的語言模型。經(jīng)過訓練的語言模型然后輸出多個候選動作。這些候選動作尤其可以包括例如如下動作,這些動作可以利用所識別的對象類型的對象而被執(zhí)行,諸如“搜尋”、“拾取”和“放下”以及特定于相應對象的任何其他動作。各自的對象。
5、現(xiàn)在根據(jù)當前場景和由此確定的對象類型來評價這些候選動作。
6、該評價的一個方面構成預給定的進度指標(fortschritt-metrik)。該進度指標衡量:相應候選功能的執(zhí)行會期望帶來鑒于預給定任務方面的多大進度。特別是,該指標例如可用于過濾掉被語言模型關聯(lián)到這些對象和這些預給定任務而實際上卻與該任務沒有任何關系的候選動作。例如,如果任務是“收集所有水果”,并且場景包含多種一起用于制作著名的雞尾酒的水果,那么基于日常文本(alltagstexten)所訓練的語言模型也可以將由該任務以及這些對象類型所組成的組合特別是關聯(lián)到“調(diào)制雞尾酒”、“飛行度假”或“在海灘上享受夜晚”。
7、該評價的另一個方面構成預給定的成功指標。此成功指標衡量:對于執(zhí)行候選動作的嘗試將導致成功的概率有多大。以這種方式,例如,可以特別是考慮到要相繼執(zhí)行的多個步驟之間的依賴性。例如,只有在上一工作步驟中已定位到對象的精確位置的情況下,對于抓取該對象并將其移動到另一位置的嘗試才會導致成功。
8、關于候選動作方面的進度指標和成功指標的值被組合成該候選動作的總體評價。這種總體評價不僅限于單純的數(shù)值聚合。在所提及的具有任務“收集所有水果”的示例中,調(diào)制雞尾酒”、“飛行度假”或“在海灘上享受夜晚”這些關聯(lián)(assoziation)可以僅基于由進度指標進行的較差的評價而被消除。而這并不能通過對成功指標的特別好的評價而“被恢復(heilen)”。
9、選擇總體評價最高的候選動作。操控機器人以執(zhí)行所選擇的候選動作。
10、認識到了:不僅在確定候選動作時而且在隨后評價這些候選動作時使用對象類型會導致:機器人最終執(zhí)行的動作有更高概率會實際推進(voranbringen)預給定任務的履行。針對操控機器人而言一般并不切實際的是,對類型和復雜度例如與眾所周知的gpt-3模型相當?shù)恼Z言模型進行訓練。相反,如上所述,采用的是已利用大量日常文本所訓練的已經(jīng)現(xiàn)有的模型。其中許多這些日常文本都超出在所述方法范疇內(nèi)所設置的技術應用的上下文之外。這促進了:顯然與該技術應用無關的關聯(lián)。通過額外地考慮對象類型,可以從一開始就避免這種不可用的關聯(lián),或者可以在評價候選動作時抑制這種不可用的關聯(lián)。
11、同時,對對象類型的這種額外考慮使得能夠:使用更多在語言模型中學到的知識。例如,語言模型因此會包含如下方面的知識:哪些概念是哪些其他概念的同義詞或上位概念。例如,語言模型因此會知道哪些對象落入上位概念“水果”或“工具”。由此,能夠例如基于任務“收集所有水果”來直接規(guī)劃接下來的待處理任務,而不必首先具體說明“水果”究竟應理解為都有什么。同樣,可以將與不同概念相關聯(lián)但都表示同一個對象的知識組合在一起。恰恰是經(jīng)過通用訓練(generisch?trainiert)的語言模型已經(jīng)看到了針對同一個對象的許多可能的概念。于是,其中所包含的與烙鐵相關的知識中的一部分例如與概念“烙鐵”相關聯(lián),一部分與“焊烙鐵”相關聯(lián),一部分與“焊接設備”相關聯(lián)。
12、在特別有利的設計方案中,在執(zhí)行所選擇的候選動作之后,分支返回以重新記錄該場景的圖像。以這種方式,可以迭代地履行預給定任務。例如,如果要收集所有的水果,那么在拾取第一個水果后,場景發(fā)生了如下變化:存在的水果少了一個。此外,例如,還有其他水果可能由于機器人的工作而被移動。所有這些都可以通過重新記錄而被檢測到,否則就可能以與第一個完全類似的方式來被履行。
13、在另一特別有利的設計方案中,候選動作包括:確定出在當前場景中預給定任務已經(jīng)被完全履行。例如,如果任務是收集所有水果,并且該場景的圖像不再包含任何可以歸入概念“水果”的對象,則可以得出結論,不再有什么可以收集的了。因此,考慮對象類型還提供有關如下方面的更精確的信號:該任務是何時被履行的。
14、如上所述,在特別有利的設計方案中,預給定任務包括:利用落入預給定上位概念的所有對象的實例(instanz)來執(zhí)行預給定動作。對于有對象類型可用的每個對象實例,語言模型于是可以回答如下問題:該對象類型是否落入該預給定上位概念。
15、在另一特別有利的設計方案中,使用經(jīng)過訓練的編碼器模型針對圖像的像素分別確定具有預給定長度d的描述符向量。這些描述符向量中的至少一個鏈接到所確定的對象類型之一。通過這種方式,可以超出該圖像中的位置以外地對關于該對象的任何信息進行編碼,并使該信息可供機器人使用以進行處理。
16、例如,在特別有利的設計方案中,可以選擇編碼器模型,該編碼器模型鑒于如下目標被訓練:使描述符向量相對于圖像的并不改變圖像語義內(nèi)容的至少一種變換(transformation)而言是不變的(invariant)。因此,如果第一圖像和由第一圖像通過變換而產(chǎn)生的第二圖像分別被輸送到編碼器模型,則針對這兩個圖像給對象上的一個且同一個點分配基本上相同的描述符向量。對此的前提條件僅僅是:該點在這兩個圖像中都可見并且例如在第二個圖像中不被掩蓋。針對保持圖像語義內(nèi)容不變的多個變換的示例是曝光變化和/或顏色變化、對象的移動和/或旋轉以及陰影。
17、通過這種方式,可以在該場景的多個連續(xù)的圖像中一再地找到多個特定的點。例如,這可以特別是用于以機器人駛向所述點。
18、因此,在另一特別有利的設計方案中,至少一個候選動作包含:以機器人駛向由描述符向量表示的點和/或?qū)ο?。例如,如果基于第一圖像做出有關駛向特定對象的決策,則在記錄第二圖像并使用經(jīng)過訓練的編碼器模型處理該第二圖像之后無需重新搜尋就可以駛向該對象。
19、作為以描述符向量表示的點可以特別是例如選擇如下點,機器人要在該點抓取對象。特別是,機器人無法在每個點上同樣地抓取微電子器件。例如,合理地,在沒有引腳從殼體突出的外殼側面上抓取集成電路(ic),特別是以便避免引腳彎曲或者也避免靜電通過引腳而輸入電路中。
20、在另一特別有利的設計方案中,除了對象類型之外,還為至少一個對象確定狀態(tài)。然后,該狀態(tài)也被包括在候選動作的評價中。在此情況下所述狀態(tài)例如可以涉及:任何物理狀態(tài)變量,例如聚集狀態(tài)(aggregatzustand)或溫度。但是,該狀態(tài)還可以涉及例如處理狀態(tài)。以這種方式,可以特別是獲得合理的處理步驟順序。例如,當烹調(diào)蔬菜湯時,針對“烹煮蔬菜”步驟的成功概率可能取決于:蔬菜是否已被事先切碎,并在必要時已被去皮。同樣,例如,“將湯做成糜狀”這一步驟的成功概率可能取決于蔬菜是否已事先煮得足夠軟。
21、在另一特別有利的設計方案中,預給定任務包括將多個單獨部件組裝成待制造的產(chǎn)品和/或?qū)Χ鄠€單獨部件進行分類。在此類任務中,始終用機器人拾取正確類型的對象尤為重要。
22、同樣的內(nèi)容適用于另一特別有利的設計方案中,在該設計方案中,預給定任務包括基于彼此而構建的多個步驟,并且這些步驟中的至少一個需要使用一個或多個工具。在此類任務的上下文中,進度指標和成功指標還可以分別取決于:針對下一個要執(zhí)行的步驟是否存在所有前提條件。
23、該方法尤其可以完全或部分地由計算機來實現(xiàn)。因此,本發(fā)明還涉及一種具有機器可讀指令的計算機程序,當在一個或多個計算機上執(zhí)行這些機器可讀指令時,這些機器可讀指令使得所述一個或多個計算機執(zhí)行所描述的方法。從這個意義上說,也能夠執(zhí)行機器可讀指令的車輛控制設備和技術設備嵌入式系統(tǒng)也被視為計算機。
24、本發(fā)明還涉及機器可讀數(shù)據(jù)載體和/或具有計算機程序的下載產(chǎn)品。下載產(chǎn)品是能夠通過數(shù)據(jù)網(wǎng)絡傳輸?shù)臄?shù)字產(chǎn)品,也就是說,能夠由數(shù)據(jù)網(wǎng)絡的用戶下載的數(shù)字產(chǎn)品,所述數(shù)字產(chǎn)品可以在例如線上商店中出售以供立即下載。
25、此外,計算機可以配備有計算機程序、機器可讀數(shù)據(jù)載體或下載產(chǎn)品。
26、下面結合根據(jù)附圖而對本發(fā)明的優(yōu)選實施例進行的描述,更詳細地示出改進本發(fā)明的進一步措施。