本發(fā)明實(shí)施例涉及機(jī)器人技術(shù)領(lǐng)域,尤其涉及一種機(jī)器人的交互方法及系統(tǒng)。
背景技術(shù):
機(jī)器人(robot)是自動(dòng)執(zhí)行工作的機(jī)器系統(tǒng)。它既可以接受人類指揮,又可以運(yùn)行預(yù)先編排的程序,也可以根據(jù)以人工智能技術(shù)制定的原則綱領(lǐng)行動(dòng),用于協(xié)助或取代人類工作。
目前,隨著科學(xué)技術(shù)的快速發(fā)展,機(jī)器人不僅僅可以應(yīng)用于商業(yè)或工業(yè),還可以作為用戶的玩伴,能夠?qū)崿F(xiàn)與人類的正常交互。在現(xiàn)有技術(shù)中,由于機(jī)器人接收到外界語音后,會(huì)對(duì)接收到的語音進(jìn)行解析,再匹配出與該語音相對(duì)應(yīng)的文字作為應(yīng)答,因此并不能快速的做出應(yīng)答。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種機(jī)器人的交互方法及系統(tǒng),能夠改善機(jī)器人與人類交互中反應(yīng)速度慢的現(xiàn)象。
第一方面,本發(fā)明實(shí)施例提供了一種機(jī)器人的交互方法,包括:
采集交互用戶的圖像信息;
將所述交互用戶的圖像信息發(fā)送至服務(wù)器;
接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫;
于所述關(guān)鍵字符庫中,根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字。
進(jìn)一步的,所述將所述交互用戶的圖像信息發(fā)送至服務(wù)器包括:
將所述交互用戶的圖像信息以圖片格式發(fā)送至所述服務(wù)器;
或者,若所述圖像信息為視頻信息時(shí),將所述交互用戶的圖像信息以幀圖格式發(fā)送至所述服務(wù)器。
進(jìn)一步的,所述交互用戶的圖像信息包括所述交互用戶的面部表情或者動(dòng)作。
進(jìn)一步的,還包括:
基于所述服務(wù)器中預(yù)存的日常圖像信息,將所述日常圖像信息進(jìn)行分類并匹配相應(yīng)的關(guān)鍵字符庫。
進(jìn)一步的,所述將所述日常圖像信息進(jìn)行分類包括;
按照發(fā)生情景對(duì)所述日常圖像信息進(jìn)行分類;
或者,按照所述交互用戶的情緒對(duì)所述日常圖像信息進(jìn)行分類。
第二方面,本發(fā)明實(shí)施例還提供了一種機(jī)器人的交互系統(tǒng),包括:
圖像信息采集模塊,用以采集交互用戶的圖像信息;
圖像信息發(fā)送模塊,用以將所述交互用戶的圖像信息發(fā)送至服務(wù)器;
關(guān)鍵字符庫接收模塊,用以接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫;
目標(biāo)關(guān)鍵字確定模塊,用以于所述關(guān)鍵字符庫中,根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字。
進(jìn)一步的,所述圖像信息發(fā)送模塊具體用以:
將所述交互用戶的圖像信息以圖片格式發(fā)送至所述服務(wù)器;
或者,若所述圖像信息為視頻信息時(shí),將所述交互用戶的圖像信息以幀圖格式發(fā)送至所述服務(wù)器。
進(jìn)一步的,所述交互用戶的圖像信息包括所述交互用戶的面部表情或者動(dòng)作。
進(jìn)一步的,還包括:
分類模塊,用以基于所述服務(wù)器中預(yù)存的日常圖像信息,將所述日常圖像信息進(jìn)行分類并匹配相應(yīng)的關(guān)鍵字符庫。
進(jìn)一步的,所述分類模塊具體用以:
按照發(fā)生情景對(duì)所述日常圖像信息進(jìn)行分類;
或者,按照所述交互用戶的情緒對(duì)所述日常圖像信息進(jìn)行分類。
本發(fā)明實(shí)施例提供了一種機(jī)器人的交互方法及系統(tǒng),若采集交互用戶的圖像信息;將所述交互用戶的圖像信息發(fā)送至服務(wù)器;接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫;于所述關(guān)鍵字符庫中,根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字,通過交互用戶的圖像信息縮小原有關(guān)鍵字符庫的范圍,在該關(guān)鍵字符庫中匹配出目標(biāo)關(guān)鍵字,能夠改善機(jī)器人與人類交互中反應(yīng)速度慢的問題,提高機(jī)器人交互中的應(yīng)答速度。
附圖說明
圖1是本發(fā)明實(shí)施例一中的一種機(jī)器人的交互方法的流程圖;
圖2是本發(fā)明實(shí)施例二中的一種機(jī)器人的交互系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。可以理解的是,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
實(shí)施例一
圖1為本發(fā)明實(shí)施例一提供的一種機(jī)器人的交互方法的流程圖,本實(shí)施例可適用于機(jī)器人的交互情況,該方法可以由本發(fā)明實(shí)施例提供的機(jī)器人的交互系統(tǒng)來執(zhí)行。如圖1所示,具體包括:
s110、采集交互用戶的圖像信息。
其中,交互用戶可以是機(jī)器人固定服務(wù)的專屬用戶,也可以是任何出現(xiàn)在機(jī)器人視覺系統(tǒng)中的任意用戶。圖像信息可以包括圖片信息與視頻信息。當(dāng)光線照射在一個(gè)物體上時(shí),物體的表面就會(huì)反射光線。反射光進(jìn)入我們的眼睛,使我們看見東西。同理,機(jī)器人能夠看見交互用戶也是基于這個(gè)原理。又由于光的傳播速度大于聲音的傳播速度,因此機(jī)器人的視覺系統(tǒng)能夠先看見交互用戶的圖像信息,而后聽覺系統(tǒng)才能接收到交互用戶的聲音信息。
因此,機(jī)器人可以先采集交互用戶的圖像信息,根據(jù)該圖像信息分析交互用戶所在的場景或者情緒,再根據(jù)該場景或者情緒縮小機(jī)器人回復(fù)給交互用戶的應(yīng)答范圍。
示例性的,所述交互用戶的圖像信息包括所述交互用戶的面部表情或者動(dòng)作。
具體的,交互用戶的圖像信息內(nèi)容可以包括近距離拍攝的交互用戶的面部表情,也可以是遠(yuǎn)距離拍攝的交互用戶的動(dòng)作行為。例如,機(jī)器人的視覺系統(tǒng)若在預(yù)設(shè)時(shí)間閾值內(nèi)檢測到交互用戶無明顯動(dòng)作幅度,則可以近距離拍攝交互用戶的面部表情;若在預(yù)設(shè)時(shí)間閾值內(nèi)檢測到交互用戶具有重復(fù)性的動(dòng)作行為,則也可以近距離拍攝交互用戶的動(dòng)作行為;若在預(yù)設(shè)時(shí)間閾值內(nèi)檢測到交互用戶有明顯的動(dòng)作幅度,則可以遠(yuǎn)距離拍攝交互用戶的面部表情。具體例如,若交互用戶一直走路或者坐在椅子上不動(dòng),則可以近距離拍攝交互用戶細(xì)微的面部表情;若交互用戶走路突然跌倒時(shí),可以遠(yuǎn)距離拍攝交互用戶的動(dòng)作行為。
s120、將所述交互用戶的圖像信息發(fā)送至服務(wù)器。
由于機(jī)器人也屬于一種智能設(shè)備,而智能設(shè)備的弊端是存儲(chǔ)器內(nèi)存容量有限以及計(jì)算處理效率慢等。因此,大多數(shù)智能終端均會(huì)與服務(wù)器相連,將存儲(chǔ)以及計(jì)算處理的任務(wù)轉(zhuǎn)移至服務(wù)器,由服務(wù)器進(jìn)行處理。在本實(shí)施例中,當(dāng)機(jī)器人的視覺系統(tǒng)采集到交互用戶的圖像信息后,也會(huì)將該圖像信息發(fā)送至服務(wù)器。
示例性的,所述將所述交互用戶的圖像信息發(fā)送至服務(wù)器包括:將所述交互用戶的圖像信息以圖片格式發(fā)送至所述服務(wù)器;或者,若所述圖像信息為視頻信息時(shí),將所述交互用戶的圖像信息以幀圖格式發(fā)送至所述服務(wù)器。
由于機(jī)器人的視覺系統(tǒng)檢測到交互用戶后,采集圖像信息可以是以不斷拍攝交互用戶的方式,以圖片格式的圖像信息發(fā)送至服務(wù)器,也可以是以連續(xù)拍攝關(guān)于交互用戶的視頻信息的方式,將視頻信息拆分成一幅幅幀圖像,以幀圖格式發(fā)送至服務(wù)器,或者還可以是直接將拍攝的關(guān)于交互用戶的視頻信息發(fā)送至服務(wù)器。
s130、接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫。
其中,關(guān)鍵字符庫為服務(wù)器存儲(chǔ)的用于機(jī)器人語音輸出的文字的集合。關(guān)鍵字符庫中包含了所有的字、詞以及語句,且關(guān)鍵字符庫中包含的語言種類不做限定。
具體的,服務(wù)器當(dāng)接收到機(jī)器人上傳的關(guān)于交互用戶的圖像信息后,將對(duì)該圖像信息進(jìn)行處理。例如,服務(wù)器可以提取圖像信息中含有的交互用戶的圖像,對(duì)交互用戶的動(dòng)作或者面部表情進(jìn)行分析,從而確定與之相匹配的關(guān)鍵字符庫。并將該關(guān)鍵字符庫發(fā)送至機(jī)器人。
通過篩選出與交互用戶的圖像信息相匹配的關(guān)鍵字符庫,避免了機(jī)器人在檢測到交互用戶的聲音信息后,在包含全部字、詞或語句中的關(guān)鍵字符庫中進(jìn)行匹配,由于縮小了關(guān)鍵字符庫的范圍,因此機(jī)器人的應(yīng)答速度大幅度提高。
示例性的,還包括:基于所述服務(wù)器中預(yù)存的日常圖像信息,將所述日常圖像信息進(jìn)行分類并匹配相應(yīng)的關(guān)鍵字符庫。
具體的,服務(wù)器中可以預(yù)存日常圖像信息,用于輔助對(duì)接收到的交互用戶的圖像信息進(jìn)行分析。其中,日常圖像信息可以是存入的各種場景的圖像,也可以是輸入的電視劇或者電影場景。將日常圖像信息進(jìn)行歸類并匹配上與該日常圖像信息相對(duì)應(yīng)的關(guān)鍵字符庫,其中,與該日常圖像信息相對(duì)應(yīng)的關(guān)鍵字符庫中包含的文字全部適用于該日常圖像信息。
示例性的,所述將所述日常圖像信息進(jìn)行分類包括;按照發(fā)生情景對(duì)所述日常圖像信息進(jìn)行分類;或者,按照所述交互用戶的情緒對(duì)所述日常圖像信息進(jìn)行分類。
由于交互用戶可以在任何情境下跟機(jī)器人進(jìn)行互動(dòng),因此,日常圖像信息可以根據(jù)發(fā)生場景進(jìn)行分類。例如,若交互用戶在家里寫作業(yè),與之相對(duì)應(yīng)的關(guān)鍵字符庫可以包含學(xué)習(xí)類的文字。又例如,若交互用戶在室外打球,與之相對(duì)應(yīng)的關(guān)鍵字符庫可以包含球類相關(guān)的文字,或者鼓勵(lì)類的文字。
或者,日常圖像信息可以是按照交互用戶的情緒進(jìn)行分類。例如,若交互用戶的心情很差,在圖像信息的表現(xiàn)方式可以是撅嘴或者流眼淚,這時(shí)與之相對(duì)應(yīng)的關(guān)鍵字符庫可以包含安慰類的文字。又例如,若用戶的心情很好,在圖像信息的表現(xiàn)方式可以是笑臉或者歡呼雀躍,這時(shí)與之相對(duì)應(yīng)的關(guān)鍵字符庫可以包含慶祝類的文字。
s140、于所述關(guān)鍵字符庫中,根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字。
具體的,機(jī)器人在接收到服務(wù)器已縮小了范圍的關(guān)鍵字符庫后,在接收到交互用戶的聲音信息后,對(duì)聲音信息進(jìn)行分析,在范圍縮小后的關(guān)鍵字符庫中匹配出與聲音信息對(duì)應(yīng)的關(guān)鍵字,并將該對(duì)應(yīng)的關(guān)鍵字作為目標(biāo)關(guān)鍵字進(jìn)行輸出。
需要說明的是,現(xiàn)有技術(shù)中的機(jī)器人與交互用戶之間的交互都是基于檢測到交互用戶的聲音后,將采集的交互用戶的語音轉(zhuǎn)化為文字,再對(duì)該文字進(jìn)行識(shí)別分析,從而在包含所有字、詞與語句的關(guān)鍵字符庫中匹配出與聲音。本實(shí)施例通過預(yù)先對(duì)拍攝的圖像信息處理,能夠縮小元還有關(guān)鍵字符庫的范圍,從而提高機(jī)器人的應(yīng)答效率。
例如,交互用戶為小孩,一個(gè)小孩在跟機(jī)器人玩耍時(shí),不小心摔倒。一般情況下,小孩會(huì)想讓機(jī)器人提供安慰的回應(yīng)。因此,機(jī)器人拍攝到小孩摔倒的圖像信息,該圖像信息包含小孩摔倒的動(dòng)作以及小孩的面部表情,那么機(jī)器人將該圖像信息上傳至服務(wù)器,接收由服務(wù)器匹配出與該圖像信息相對(duì)應(yīng)的關(guān)鍵字符庫,該關(guān)鍵字符庫只包含了安慰類以及摔倒等相關(guān)的關(guān)鍵字,排除了開心、興奮等其他情緒,也排除了寫作業(yè)、吃飯以及打球等其他情景。隨后,機(jī)器人在檢測到小孩的聲音信息后,可以直接在該關(guān)鍵字符庫中進(jìn)行匹配目標(biāo)關(guān)鍵字并轉(zhuǎn)化為語音進(jìn)行輸出。
本發(fā)明實(shí)施例提供了一種機(jī)器人的交互方法,若采集交互用戶的圖像信息;將所述交互用戶的圖像信息發(fā)送至服務(wù)器;接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫;于所述關(guān)鍵字符庫中,根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字,通過交互用戶的圖像信息縮小原有關(guān)鍵字符庫的范圍,在該關(guān)鍵字符庫中匹配出目標(biāo)關(guān)鍵字,能夠改善機(jī)器人與人類交互中反應(yīng)速度慢的問題,提高機(jī)器人交互中的應(yīng)答速度。
實(shí)施例二
圖2為本發(fā)明實(shí)施例二提供的一種機(jī)器人的交互系統(tǒng)的結(jié)構(gòu)示意圖,本實(shí)施例可適用于各種機(jī)器人的交互情況。如圖2所示,具體包括:圖像信息采集模塊21、圖像信息發(fā)送模塊22、關(guān)鍵字符庫接收模塊23和目標(biāo)關(guān)鍵字確定模塊24。
圖像信息采集模塊21,用以采集交互用戶的圖像信息;
圖像信息發(fā)送模塊22,用以將所述交互用戶的圖像信息發(fā)送至服務(wù)器;
關(guān)鍵字符庫接收模塊23,用以接收所述服務(wù)器發(fā)送的與所述交互用戶的圖像信息相匹配的關(guān)鍵字符庫;
目標(biāo)關(guān)鍵字確定模塊24,用以于所述關(guān)鍵字符庫中,根據(jù)接收的所述交互用戶的聲音信息確定目標(biāo)關(guān)鍵字。
在上述實(shí)施例基礎(chǔ)上,所述圖像信息發(fā)送模塊22具體用以:將所述交互用戶的圖像信息以圖片格式發(fā)送至所述服務(wù)器;或者,若所述圖像信息為視頻信息時(shí),將所述交互用戶的圖像信息以幀圖格式發(fā)送至所述服務(wù)器。
在上述實(shí)施例基礎(chǔ)上,所述交互用戶的圖像信息包括所述交互用戶的面部表情或者動(dòng)作。
在上述實(shí)施例基礎(chǔ)上,還包括:分類模塊25;
分類模塊25,用以基于所述服務(wù)器中預(yù)存的日常圖像信息,將所述日常圖像信息進(jìn)行分類并匹配相應(yīng)的關(guān)鍵字符庫。
在上述實(shí)施例基礎(chǔ)上,所述分類模塊25具體用以:按照發(fā)生情景對(duì)所述日常圖像信息進(jìn)行分類;或者,按照所述交互用戶的情緒對(duì)所述日常圖像信息進(jìn)行分類。
本實(shí)施例所述機(jī)器人的交互系統(tǒng)用于執(zhí)行上述各實(shí)施例所述的機(jī)器人的交互方法,其技術(shù)原理和產(chǎn)生的技術(shù)效果類似,這里不再贅述。
注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。