機(jī)器人的交互方法及系統(tǒng)與流程

文檔序號(hào)：11202369閱讀：817來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明實(shí)施例涉及機(jī)器人技術(shù)領(lǐng)域，尤其涉及一種機(jī)器人的交互方法及系統(tǒng)。

背景技術(shù)：

機(jī)器人(robot)是自動(dòng)執(zhí)行工作的機(jī)器系統(tǒng)。它既可以接受人類指揮，又可以運(yùn)行預(yù)先編排的程序，也可以根據(jù)以人工智能技術(shù)制定的原則綱領(lǐng)行動(dòng)，用于協(xié)助或取代人類工作。

目前，隨著科學(xué)技術(shù)的快速發(fā)展，機(jī)器人不僅僅可以應(yīng)用于商業(yè)或工業(yè)，還可以作為用戶的玩伴，能夠?qū)崿F(xiàn)與人類的正常交互。在現(xiàn)有技術(shù)中，由于機(jī)器人接收到外界語音后，會(huì)對(duì)接收到的語音進(jìn)行解析，再匹配出與該語音相對(duì)應(yīng)的文字作為應(yīng)答，因此并不能快速的做出應(yīng)答。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例提供一種機(jī)器人的交互方法及系統(tǒng)，能夠改善機(jī)器人與人類交互中反應(yīng)速度慢的現(xiàn)象。

第一方面，本發(fā)明實(shí)施例提供了一種機(jī)器人的交互方法，包括：

采集交互用戶的圖像信息；

將所述交互用戶的圖像信息發(fā)送至服務(wù)器；

接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫；

于所述關(guān)鍵字符庫中，根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字。

進(jìn)一步的，所述將所述交互用戶的圖像信息發(fā)送至服務(wù)器包括：

將所述交互用戶的圖像信息以圖片格式發(fā)送至所述服務(wù)器；

或者，若所述圖像信息為視頻信息時(shí)，將所述交互用戶的圖像信息以幀圖格式發(fā)送至所述服務(wù)器。

進(jìn)一步的，所述交互用戶的圖像信息包括所述交互用戶的面部表情或者動(dòng)作。

進(jìn)一步的，還包括：

基于所述服務(wù)器中預(yù)存的日常圖像信息，將所述日常圖像信息進(jìn)行分類并匹配相應(yīng)的關(guān)鍵字符庫。

進(jìn)一步的，所述將所述日常圖像信息進(jìn)行分類包括；

按照發(fā)生情景對(duì)所述日常圖像信息進(jìn)行分類；

或者，按照所述交互用戶的情緒對(duì)所述日常圖像信息進(jìn)行分類。

第二方面，本發(fā)明實(shí)施例還提供了一種機(jī)器人的交互系統(tǒng)，包括：

圖像信息采集模塊，用以采集交互用戶的圖像信息；

圖像信息發(fā)送模塊，用以將所述交互用戶的圖像信息發(fā)送至服務(wù)器；

關(guān)鍵字符庫接收模塊，用以接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫；

目標(biāo)關(guān)鍵字確定模塊，用以于所述關(guān)鍵字符庫中，根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字。

進(jìn)一步的，所述圖像信息發(fā)送模塊具體用以：

將所述交互用戶的圖像信息以圖片格式發(fā)送至所述服務(wù)器；

或者，若所述圖像信息為視頻信息時(shí)，將所述交互用戶的圖像信息以幀圖格式發(fā)送至所述服務(wù)器。

進(jìn)一步的，所述交互用戶的圖像信息包括所述交互用戶的面部表情或者動(dòng)作。

進(jìn)一步的，還包括：

分類模塊，用以基于所述服務(wù)器中預(yù)存的日常圖像信息，將所述日常圖像信息進(jìn)行分類并匹配相應(yīng)的關(guān)鍵字符庫。

進(jìn)一步的，所述分類模塊具體用以：

按照發(fā)生情景對(duì)所述日常圖像信息進(jìn)行分類；

或者，按照所述交互用戶的情緒對(duì)所述日常圖像信息進(jìn)行分類。

本發(fā)明實(shí)施例提供了一種機(jī)器人的交互方法及系統(tǒng)，若采集交互用戶的圖像信息；將所述交互用戶的圖像信息發(fā)送至服務(wù)器；接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫；于所述關(guān)鍵字符庫中，根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字，通過交互用戶的圖像信息縮小原有關(guān)鍵字符庫的范圍，在該關(guān)鍵字符庫中匹配出目標(biāo)關(guān)鍵字，能夠改善機(jī)器人與人類交互中反應(yīng)速度慢的問題，提高機(jī)器人交互中的應(yīng)答速度。

附圖說明

圖1是本發(fā)明實(shí)施例一中的一種機(jī)器人的交互方法的流程圖；

圖2是本發(fā)明實(shí)施例二中的一種機(jī)器人的交互系統(tǒng)的結(jié)構(gòu)圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。可以理解的是，此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明，而非對(duì)本發(fā)明的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。

實(shí)施例一

圖1為本發(fā)明實(shí)施例一提供的一種機(jī)器人的交互方法的流程圖，本實(shí)施例可適用于機(jī)器人的交互情況，該方法可以由本發(fā)明實(shí)施例提供的機(jī)器人的交互系統(tǒng)來執(zhí)行。如圖1所示，具體包括：

s110、采集交互用戶的圖像信息。

其中，交互用戶可以是機(jī)器人固定服務(wù)的專屬用戶，也可以是任何出現(xiàn)在機(jī)器人視覺系統(tǒng)中的任意用戶。圖像信息可以包括圖片信息與視頻信息。當(dāng)光線照射在一個(gè)物體上時(shí)，物體的表面就會(huì)反射光線。反射光進(jìn)入我們的眼睛，使我們看見東西。同理，機(jī)器人能夠看見交互用戶也是基于這個(gè)原理。又由于光的傳播速度大于聲音的傳播速度，因此機(jī)器人的視覺系統(tǒng)能夠先看見交互用戶的圖像信息，而后聽覺系統(tǒng)才能接收到交互用戶的聲音信息。

因此，機(jī)器人可以先采集交互用戶的圖像信息，根據(jù)該圖像信息分析交互用戶所在的場景或者情緒，再根據(jù)該場景或者情緒縮小機(jī)器人回復(fù)給交互用戶的應(yīng)答范圍。

示例性的，所述交互用戶的圖像信息包括所述交互用戶的面部表情或者動(dòng)作。

具體的，交互用戶的圖像信息內(nèi)容可以包括近距離拍攝的交互用戶的面部表情，也可以是遠(yuǎn)距離拍攝的交互用戶的動(dòng)作行為。例如，機(jī)器人的視覺系統(tǒng)若在預(yù)設(shè)時(shí)間閾值內(nèi)檢測到交互用戶無明顯動(dòng)作幅度，則可以近距離拍攝交互用戶的面部表情；若在預(yù)設(shè)時(shí)間閾值內(nèi)檢測到交互用戶具有重復(fù)性的動(dòng)作行為，則也可以近距離拍攝交互用戶的動(dòng)作行為；若在預(yù)設(shè)時(shí)間閾值內(nèi)檢測到交互用戶有明顯的動(dòng)作幅度，則可以遠(yuǎn)距離拍攝交互用戶的面部表情。具體例如，若交互用戶一直走路或者坐在椅子上不動(dòng)，則可以近距離拍攝交互用戶細(xì)微的面部表情；若交互用戶走路突然跌倒時(shí)，可以遠(yuǎn)距離拍攝交互用戶的動(dòng)作行為。

s120、將所述交互用戶的圖像信息發(fā)送至服務(wù)器。

由于機(jī)器人也屬于一種智能設(shè)備，而智能設(shè)備的弊端是存儲(chǔ)器內(nèi)存容量有限以及計(jì)算處理效率慢等。因此，大多數(shù)智能終端均會(huì)與服務(wù)器相連，將存儲(chǔ)以及計(jì)算處理的任務(wù)轉(zhuǎn)移至服務(wù)器，由服務(wù)器進(jìn)行處理。在本實(shí)施例中，當(dāng)機(jī)器人的視覺系統(tǒng)采集到交互用戶的圖像信息后，也會(huì)將該圖像信息發(fā)送至服務(wù)器。

示例性的，所述將所述交互用戶的圖像信息發(fā)送至服務(wù)器包括：將所述交互用戶的圖像信息以圖片格式發(fā)送至所述服務(wù)器；或者，若所述圖像信息為視頻信息時(shí)，將所述交互用戶的圖像信息以幀圖格式發(fā)送至所述服務(wù)器。

由于機(jī)器人的視覺系統(tǒng)檢測到交互用戶后，采集圖像信息可以是以不斷拍攝交互用戶的方式，以圖片格式的圖像信息發(fā)送至服務(wù)器，也可以是以連續(xù)拍攝關(guān)于交互用戶的視頻信息的方式，將視頻信息拆分成一幅幅幀圖像，以幀圖格式發(fā)送至服務(wù)器，或者還可以是直接將拍攝的關(guān)于交互用戶的視頻信息發(fā)送至服務(wù)器。

s130、接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫。

其中，關(guān)鍵字符庫為服務(wù)器存儲(chǔ)的用于機(jī)器人語音輸出的文字的集合。關(guān)鍵字符庫中包含了所有的字、詞以及語句，且關(guān)鍵字符庫中包含的語言種類不做限定。

具體的，服務(wù)器當(dāng)接收到機(jī)器人上傳的關(guān)于交互用戶的圖像信息后，將對(duì)該圖像信息進(jìn)行處理。例如，服務(wù)器可以提取圖像信息中含有的交互用戶的圖像，對(duì)交互用戶的動(dòng)作或者面部表情進(jìn)行分析，從而確定與之相匹配的關(guān)鍵字符庫。并將該關(guān)鍵字符庫發(fā)送至機(jī)器人。

通過篩選出與交互用戶的圖像信息相匹配的關(guān)鍵字符庫，避免了機(jī)器人在檢測到交互用戶的聲音信息后，在包含全部字、詞或語句中的關(guān)鍵字符庫中進(jìn)行匹配，由于縮小了關(guān)鍵字符庫的范圍，因此機(jī)器人的應(yīng)答速度大幅度提高。

示例性的，還包括：基于所述服務(wù)器中預(yù)存的日常圖像信息，將所述日常圖像信息進(jìn)行分類并匹配相應(yīng)的關(guān)鍵字符庫。

具體的，服務(wù)器中可以預(yù)存日常圖像信息，用于輔助對(duì)接收到的交互用戶的圖像信息進(jìn)行分析。其中，日常圖像信息可以是存入的各種場景的圖像，也可以是輸入的電視劇或者電影場景。將日常圖像信息進(jìn)行歸類并匹配上與該日常圖像信息相對(duì)應(yīng)的關(guān)鍵字符庫，其中，與該日常圖像信息相對(duì)應(yīng)的關(guān)鍵字符庫中包含的文字全部適用于該日常圖像信息。

示例性的，所述將所述日常圖像信息進(jìn)行分類包括；按照發(fā)生情景對(duì)所述日常圖像信息進(jìn)行分類；或者，按照所述交互用戶的情緒對(duì)所述日常圖像信息進(jìn)行分類。

由于交互用戶可以在任何情境下跟機(jī)器人進(jìn)行互動(dòng)，因此，日常圖像信息可以根據(jù)發(fā)生場景進(jìn)行分類。例如，若交互用戶在家里寫作業(yè)，與之相對(duì)應(yīng)的關(guān)鍵字符庫可以包含學(xué)習(xí)類的文字。又例如，若交互用戶在室外打球，與之相對(duì)應(yīng)的關(guān)鍵字符庫可以包含球類相關(guān)的文字，或者鼓勵(lì)類的文字。

或者，日常圖像信息可以是按照交互用戶的情緒進(jìn)行分類。例如，若交互用戶的心情很差，在圖像信息的表現(xiàn)方式可以是撅嘴或者流眼淚，這時(shí)與之相對(duì)應(yīng)的關(guān)鍵字符庫可以包含安慰類的文字。又例如，若用戶的心情很好，在圖像信息的表現(xiàn)方式可以是笑臉或者歡呼雀躍，這時(shí)與之相對(duì)應(yīng)的關(guān)鍵字符庫可以包含慶祝類的文字。

s140、于所述關(guān)鍵字符庫中，根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字。

具體的，機(jī)器人在接收到服務(wù)器已縮小了范圍的關(guān)鍵字符庫后，在接收到交互用戶的聲音信息后，對(duì)聲音信息進(jìn)行分析，在范圍縮小后的關(guān)鍵字符庫中匹配出與聲音信息對(duì)應(yīng)的關(guān)鍵字，并將該對(duì)應(yīng)的關(guān)鍵字作為目標(biāo)關(guān)鍵字進(jìn)行輸出。

需要說明的是，現(xiàn)有技術(shù)中的機(jī)器人與交互用戶之間的交互都是基于檢測到交互用戶的聲音后，將采集的交互用戶的語音轉(zhuǎn)化為文字，再對(duì)該文字進(jìn)行識(shí)別分析，從而在包含所有字、詞與語句的關(guān)鍵字符庫中匹配出與聲音。本實(shí)施例通過預(yù)先對(duì)拍攝的圖像信息處理，能夠縮小元還有關(guān)鍵字符庫的范圍，從而提高機(jī)器人的應(yīng)答效率。

例如，交互用戶為小孩，一個(gè)小孩在跟機(jī)器人玩耍時(shí)，不小心摔倒。一般情況下，小孩會(huì)想讓機(jī)器人提供安慰的回應(yīng)。因此，機(jī)器人拍攝到小孩摔倒的圖像信息，該圖像信息包含小孩摔倒的動(dòng)作以及小孩的面部表情，那么機(jī)器人將該圖像信息上傳至服務(wù)器，接收由服務(wù)器匹配出與該圖像信息相對(duì)應(yīng)的關(guān)鍵字符庫，該關(guān)鍵字符庫只包含了安慰類以及摔倒等相關(guān)的關(guān)鍵字，排除了開心、興奮等其他情緒，也排除了寫作業(yè)、吃飯以及打球等其他情景。隨后，機(jī)器人在檢測到小孩的聲音信息后，可以直接在該關(guān)鍵字符庫中進(jìn)行匹配目標(biāo)關(guān)鍵字并轉(zhuǎn)化為語音進(jìn)行輸出。

本發(fā)明實(shí)施例提供了一種機(jī)器人的交互方法，若采集交互用戶的圖像信息；將所述交互用戶的圖像信息發(fā)送至服務(wù)器；接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫；于所述關(guān)鍵字符庫中，根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字，通過交互用戶的圖像信息縮小原有關(guān)鍵字符庫的范圍，在該關(guān)鍵字符庫中匹配出目標(biāo)關(guān)鍵字，能夠改善機(jī)器人與人類交互中反應(yīng)速度慢的問題，提高機(jī)器人交互中的應(yīng)答速度。

實(shí)施例二

圖2為本發(fā)明實(shí)施例二提供的一種機(jī)器人的交互系統(tǒng)的結(jié)構(gòu)示意圖，本實(shí)施例可適用于各種機(jī)器人的交互情況。如圖2所示，具體包括：圖像信息采集模塊21、圖像信息發(fā)送模塊22、關(guān)鍵字符庫接收模塊23和目標(biāo)關(guān)鍵字確定模塊24。

圖像信息采集模塊21，用以采集交互用戶的圖像信息；

圖像信息發(fā)送模塊22，用以將所述交互用戶的圖像信息發(fā)送至服務(wù)器；

關(guān)鍵字符庫接收模塊23，用以接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫；

目標(biāo)關(guān)鍵字確定模塊24，用以于所述關(guān)鍵字符庫中，根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字。

在上述實(shí)施例基礎(chǔ)上，所述圖像信息發(fā)送模塊22具體用以：將所述交互用戶的圖像信息以圖片格式發(fā)送至所述服務(wù)器；或者，若所述圖像信息為視頻信息時(shí)，將所述交互用戶的圖像信息以幀圖格式發(fā)送至所述服務(wù)器。

在上述實(shí)施例基礎(chǔ)上，所述交互用戶的圖像信息包括所述交互用戶的面部表情或者動(dòng)作。

在上述實(shí)施例基礎(chǔ)上，還包括：分類模塊25；

分類模塊25，用以基于所述服務(wù)器中預(yù)存的日常圖像信息，將所述日常圖像信息進(jìn)行分類并匹配相應(yīng)的關(guān)鍵字符庫。

在上述實(shí)施例基礎(chǔ)上，所述分類模塊25具體用以：按照發(fā)生情景對(duì)所述日常圖像信息進(jìn)行分類；或者，按照所述交互用戶的情緒對(duì)所述日常圖像信息進(jìn)行分類。

本實(shí)施例所述機(jī)器人的交互系統(tǒng)用于執(zhí)行上述各實(shí)施例所述的機(jī)器人的交互方法，其技術(shù)原理和產(chǎn)生的技術(shù)效果類似，這里不再贅述。

注意，上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解，本發(fā)明不限于這里所述的特定實(shí)施例，對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此，雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明，但是本發(fā)明不僅僅限于以上實(shí)施例，在不脫離本發(fā)明構(gòu)思的情況下，還可以包括更多其他等效實(shí)施例，而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2