一種智能機器人多模態(tài)交互方法和智能機器人的制作方法
【專利摘要】本發(fā)明公開了一種智能機器人多模態(tài)交互方法以及機器人系統(tǒng)。本發(fā)明的方法包括:采集多模態(tài)交互輸入信息;分析所述多模態(tài)交互輸入信息以獲取用戶狀態(tài)信息并判斷當前是否存在交互需求;當當前不存在交互需求時進入非交互行為模式;在所述非交互行為模式下輸出多模態(tài)交互信息,所述多模態(tài)交互信息配置為與所述用戶狀態(tài)信息對應(yīng)。根據(jù)本發(fā)明的方法以及系統(tǒng),可以令機器人模擬人與人相處中陪伴狀態(tài),形成自然舒適的人機交互體驗,大大提高了機器人的用戶體驗。
【專利說明】
一種智能機器人多模態(tài)交互方法和智能機器人
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及機器人領(lǐng)域,具體說涉及一種機器人交互方法。
【背景技術(shù)】
[0002]隨著計算機技術(shù)的不斷發(fā)展以及人工智能技術(shù)的不斷進步。在家用領(lǐng)域小型智能機器人的應(yīng)用也越來越廣泛,面向家用的小型智能機器人正在迅猛發(fā)展。
[0003]現(xiàn)有面向家用的小型機器人,多數(shù)是采用被動應(yīng)答的交互方式,機器人在沒有接收到交互輸入時不能主動行為。這樣的交互模式固化呆板,容易令人厭倦。為了提高機器人的用戶體驗,一些機器人采用了主動交互的交互方式,但是由于主動交互的切入時機把握不好,失去了主動交互的意義。甚至在某些情況下,機器人發(fā)起的主動交互會對用戶造成干擾,反而降低了用戶體驗。
[0004]因此,為了讓機器人的行為更自然生動,提高機器人的用戶體驗,需要一種新的機器人交互方法。
【發(fā)明內(nèi)容】
[0005]為了讓機器人的行為更自然生動,提高機器人的用戶體驗,本發(fā)明提供了一種智能機器人多模態(tài)交互方法,包括:
[0006]采集多模態(tài)交互輸入信息;
[0007]分析所述多模態(tài)交互輸入信息以獲取用戶狀態(tài)信息并判斷當前是否存在交互需求;
[0008]當當前不存在交互需求時進入非交互行為模式;
[0009]在所述非交互行為模式下輸出多模態(tài)交互信息,所述多模態(tài)交互信息配置為與所述用戶狀態(tài)信息對應(yīng)。
[0010]在一實施例中,在處理所述多模態(tài)交互輸入信息的過程中,分析所述多模態(tài)交互輸入信息以判斷當前是否存在用戶,其中,當不存在用戶時進入所述非交互行為模式。
[0011]在一實施例中,在處理所述多模態(tài)交互輸入信息的過程中,分析所述多模態(tài)交互輸入信息以判斷用戶是否存在交互意愿,其中,當所述用戶不存在交互意愿時進入所述非交互行為模式。
[0012]在一實施例中,在處理所述多模態(tài)交互輸入信息的過程中,分析所述圖像信息和/或所述聲音信息進行以確定用戶的身份,其中:
[0013]從所述圖像信息中提取所述用戶的面部圖像信息,分析所述面部圖像信息以確定所述用戶的身份;
[0014]從所述聲音信息中提取所述用戶的語音信息,對所述語音信息進行聲紋識別以確定所述用戶的身份。
[0015]在一實施例中,在處理所述多模態(tài)交互輸入信息的過程中,通過對所述圖像信息和/或所述聲音信息進行分析以確定所述用戶的情緒,其中:
[0016]從所述圖像信息中提取所述用戶的面部圖像信息,分析所述面部圖像信息以確定所述用戶的情緒;
[0017]從所述聲音信息中提取所述用戶的語音信息,對所述語音信息進行聲紋識別以確定所述用戶的情緒。
[0018]本發(fā)明還提出了一種智能機器人多模態(tài)交互系統(tǒng),包括:
[0019]信息采集模塊,其配置為采集多模態(tài)交互輸入信息,所述信息采集模塊包括圖像采集裝置和聲音采集裝置;
[0020]交互信息處理模塊,其配置為處理所述多模態(tài)交互輸入信息以獲取當前用戶所處狀態(tài)信息并判斷當前是否存在交互需求;
[0021]非交互行為輸出模塊,其配置為當當前不存在交互需求時輸出多模態(tài)交互信息,所述多模態(tài)交互信息配置為與所述當前用戶所處狀態(tài)信息對應(yīng)。
[0022]在一實施例中,所述交互信息處理模塊包含用戶辨別裝置,所述用戶辨別裝置配置為分析所述多模態(tài)交互輸入信息以辨別當前是否存在用戶。
[0023]在一實施例中,所述交互信息處理模塊包含交互意愿辨別裝置,所述交互意愿辨別裝置配置為分析所述多模態(tài)交互輸入信息以辨別用戶是否存在交互意愿。
[0024]在一實施例中,所述交互信息處理模塊包含身份確認裝置,所述身份確認裝置配置為分析所述多模態(tài)交互輸入信息以確定用戶的身份。
[0025]在一實施例中,所述交互信息處理模塊包含情緒確認裝置,所述身份確認裝置配置為分析所述多模態(tài)交互輸入信息以確定用戶的情緒。
[0026]根據(jù)本發(fā)明的方法以及系統(tǒng),可以令機器人模擬人與人相處中陪伴狀態(tài),形成自然舒適的人機交互體驗,大大提高了機器人的用戶體驗。
[0027]本發(fā)明的其它特征或優(yōu)點將在隨后的說明書中闡述。并且,本發(fā)明的部分特征或優(yōu)點將通過說明書而變得顯而易見,或者通過實施本發(fā)明而被了解。本發(fā)明的目的和部分優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的步驟來實現(xiàn)或獲得。
【附圖說明】
[0028]附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例共同用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0029]圖1是根據(jù)本發(fā)明一實施例的流程圖;
[0030]圖2、圖3、圖4以及圖5分別是根據(jù)本發(fā)明不同實施例的部分流程圖;
[0031]圖6是根據(jù)本發(fā)明一實施例的系統(tǒng)結(jié)構(gòu)簡圖。
【具體實施方式】
[0032]以下將結(jié)合附圖及實施例來詳細說明本發(fā)明的實施方式,借此本發(fā)明的實施人員可以充分理解本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達成技術(shù)效果的實現(xiàn)過程并依據(jù)上述實現(xiàn)過程具體實施本發(fā)明。需要說明的是,只要不構(gòu)成沖突,本發(fā)明中的各個實施例以及各實施例中的各個特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護范圍之內(nèi)。
[0033]現(xiàn)有面向家用的小型機器人,多數(shù)是采用被動應(yīng)答的交互方式,機器人在沒有接收到交互輸入時不能主動行為。這樣的交互模式固化呆板,容易令人厭倦。為了提高機器人的用戶體驗,一些機器人采用了主動交互的交互方式,但是由于主動交互的切入時機把握不好,往往會陷入自言自語的狀態(tài),失去了主動交互的意義。甚至在某些情況下,機器人發(fā)起的主動交互會對用戶造成干擾,反而降低了用戶體驗。
[0034]為了讓機器人的行為更自然生動,提高機器人的用戶體驗,本發(fā)明提出了一種智能機器人多模態(tài)交互方法。接下來基于流程圖詳細描述根據(jù)本發(fā)明實施例的方法的具體實施步驟。附圖的流程圖中示出的步驟可以在包含諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行。雖然在流程圖中示出了各步驟的邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0035]在本說明書描述中所涉及到的機器人由執(zhí)行機構(gòu)、驅(qū)動裝置、控制系統(tǒng)和采集設(shè)備構(gòu)成。所述執(zhí)行機構(gòu)主要包括頭部、上肢部、軀干和下肢部,在驅(qū)動裝置可包括電驅(qū)動裝置等??刂葡到y(tǒng)作為機器人的核心部分,類似于人的大腦,其主要包括處理器和關(guān)節(jié)伺服控制器。
[0036]采集系統(tǒng)包括內(nèi)部傳感器和外部傳感器。外部傳感器包括攝像頭、麥克風(fēng)、紅外裝置,用以感知外界多種信息。攝像頭可以設(shè)置在頭部,類似于人眼。紅外裝置可以設(shè)置在軀干的任意部位上,或者其它位置,用以輔助攝像頭感應(yīng)物體的存在或者外界環(huán)境。機器人具有聽覺、視覺、觸覺采集能力。
[0037]這里需要說明的是,本發(fā)明所涉及的機器人的具體結(jié)構(gòu)并不限于上述描述。根據(jù)實際需要,機器人在可實現(xiàn)本發(fā)明所述的方法的基礎(chǔ)上,可以采用任意的其他硬件結(jié)構(gòu)。
[0038]本發(fā)明的方法描述的是在計算機系統(tǒng)中實現(xiàn)的。該計算機系統(tǒng)例如可以設(shè)置在機器人的控制核心處理器中。例如,本文所述的方法可以實現(xiàn)為能以控制邏輯來執(zhí)行的軟件,其由機器人控制系統(tǒng)中的CPU來執(zhí)行。本文所述的功能可以實現(xiàn)為存儲在非暫時性有形計算機可讀介質(zhì)中的程序指令集合。當以這種方式實現(xiàn)時,該計算機程序包括一組指令,當該組指令由計算機運行時其促使計算機執(zhí)行能實施上述功能的方法??删幊踢壿嬁梢詴簳r或永久地安裝在非暫時性有形計算機可讀介質(zhì)中,例如只讀存儲器芯片、計算機存儲器、磁盤或其他存儲介質(zhì)。除了以軟件來實現(xiàn)之外,本文所述的邏輯可利用分立部件、集成電路、與可編程邏輯設(shè)備(諸如,現(xiàn)場可編程門陣列(FPGA)或微處理器)結(jié)合使用的可編程邏輯,或者包括它們?nèi)我饨M合的任何其他設(shè)備來體現(xiàn)。所有此類實施例旨在落入本發(fā)明的范圍之內(nèi)。
[0039]在本發(fā)明一實施例中,如圖1所示,首先執(zhí)行步驟S110,采集多模態(tài)交互輸入信息。然后執(zhí)行步驟S120,分析采集到的多模態(tài)交互輸入信息以獲取用戶狀態(tài)信息(在本說明書中,用戶狀態(tài)信息包含但不限于下文提到的一切和用戶狀態(tài)、用戶特征有關(guān)的信息)。接下來執(zhí)行步驟S130,根據(jù)分析獲得的用戶狀態(tài)信息判斷是否存在交互需求,也就是判斷當前是否需要機器人進行人機交互。如果存在交互需求,則執(zhí)行步驟S140,機器人進入交互行為模式。如果不存在交互需求,則執(zhí)行步驟SI 50,機器人進入非交互行為模式。
[0040]在交互行為模式下,機器人分析處理用戶的交互輸入信息以輸出相應(yīng)的多模態(tài)交互信息從而實現(xiàn)人機交互。
[0041]在非交互行為模式下,機器人輸出與用戶狀態(tài)信息對應(yīng)的多模態(tài)交互信息。與交互行為模式不同,在非交互行為模式下機器人輸出的多模態(tài)交互信息并不是為了實現(xiàn)與用戶的交互,而是避免機器人出現(xiàn)呆板等待的狀態(tài)(通常機器人在不與用戶交互時會呆立不動,傻傻等待,影響機器人擬人化水平,降低用戶體驗)。在本發(fā)明中,機器人在非交互行為模式下輸出多模態(tài)交互信息,其目的是實現(xiàn)不無聊,吸引用戶的注意,提高用戶的交互興趣(例如自助游走、低聲哼歌或是四處張望等行為)。
[0042]這里需要注意的是,在本發(fā)明中,機器人在非交互行為模式下的輸出的一切多模態(tài)交互信息都是以不干擾用戶為前提的。例如,判斷用戶處于安靜休息狀態(tài),機器人則不做大幅度的動作,避免發(fā)出聲音,打擾用戶休息。
[0043]特別的,機器人在非交互行為模式下分析用戶狀態(tài)信息,輸出對應(yīng)用戶狀態(tài)信息的非交互行為。例如在本發(fā)明一實施例中,機器人在非交互行為模式下具有自由活動、原地活動、自言自語、安靜陪伴、休息等多個不同的行為狀態(tài)模式。機器人根據(jù)具體的用戶狀態(tài)信息,選擇進入相應(yīng)的行為狀態(tài)模式。
[0044]通過對當前是否存在交互需求的判斷,機器人可以智能的選擇自己的行為模式。這樣不僅不會影響機器人實現(xiàn)正常的人機交互,而且還可以避免機器人的交互行為干擾用戶。進一步的,機器人在非交互行為模式下輸出與用戶狀態(tài)信息對應(yīng)多模態(tài)交互信息,避免了機器人在非交互狀態(tài)下的呆板等待狀態(tài),使得機器人的行為更加靈活生動。根據(jù)本發(fā)明的方法,以不打擾和不無聊為目的,模擬人與人相處中陪伴狀態(tài),形成自然舒適的人機交互體驗,大大提高了機器人的用戶體驗。
[0045]本發(fā)明的方法,其關(guān)鍵點之一是判斷當前是否存在交互需求。在本發(fā)明一實施例中,首先通過判斷當前是否存在用戶來判斷當前是否存在交互需求。具體的,即是根據(jù)采集到的多模態(tài)交互輸入信息判斷當前是否存在可以交互的對象(用戶)。當不存在可以交互的對象(用戶)時,自然也不會存在交互需求,此時就可以進入非交互行為模式。
[0046]多模態(tài)交互輸入信息包括圖像信息。在本發(fā)明一實施例中,通過對圖像信息的分析判斷當前是否存在可以交互的對象。具體的,即分析圖像信息中是否存在人形,如果存在人形,則說明機器人的可視范圍內(nèi)存在用戶(可以交互的對象)。進一步的,在分析是否存在人形的過程中,為了保證分析結(jié)果的正確性,還需要對人形進行活體檢測,排除把照片、影像等虛擬形象誤識別為人。
[0047]多模態(tài)交互輸入信息還包括聲音信息。在本發(fā)明一實施例中,通過對聲音信息的分析判斷當前是否存在可以交互的對象。具體的,分析聲音信息中是否包含可以識別的人聲,如果包含可以識別的人聲,則說明在機器人可交互范圍內(nèi)有人(可交互對象)的存在。
[0048]在本發(fā)明的實施例中,可以采用多種上述圖像分析或聲音分析中的一種來分析判斷當前是否存在用戶,也可以采用上述兩種方法結(jié)合的方式來分析判斷當前是否存在用戶。
[0049]在實際交互環(huán)境下,存在用戶(可交互的對象)并不等于用戶希望與機器人進行交互。如果在用戶不希望與機器人進行交互時與用戶交互,那么必然是對用戶的打擾。因此,為了避免打擾用戶,在本發(fā)明一實施例中需要進一步判斷用戶是否具有交互意愿。
[0050]具體的,如圖2所示,首先判斷是否存在用戶(執(zhí)行步驟S210),如果不存在用戶,執(zhí)行步驟S250,進入非交互行為模式。如果存在用戶,則執(zhí)行步驟S220,判斷用戶是否具有交互意愿。當用戶具有交互意愿時,執(zhí)行步驟S240,進入交互行為模式。當用戶沒有交互意愿時,執(zhí)行步驟S250,進入非交互行為模式。
[0051]進一步的,機器人在非交互行為模式下輸出多模態(tài)交互信息的目的是在不打擾用戶的前提下避免呆板等待(不打擾和不無聊)。然而如果當前不存在用戶,自然也就不涉及到打攪用戶。另外,如果不存在用戶,那么也就不存在實施不無聊的表現(xiàn)客體(是否呆板等待都沒有意義,因為沒有用戶會看到機器人現(xiàn)在的狀態(tài))。因此,為了節(jié)約能源,在本發(fā)明一實施例中,當不存在可以交互的對象(用戶)時,機器人進入非交互行為模式,進一步的,以不存在可交互對象為前提,此時的機器人不進行任何自主行為,而是停止運行,進入休眠狀
??τ O
[0052]在本發(fā)明一實施例中,通過對用戶行為的分析來判斷用戶是否具有交互意愿。具體的,如圖3所示,首先執(zhí)行步驟S310,分析聲音信息中是否包含用戶語音。當聲音信息中包含用戶語音時執(zhí)行步驟S320,根據(jù)用戶語音判斷交互意愿。
[0053]具體的,分析用戶語音的具體語義,辨別用戶語音是否包含與機器人交互的意愿。例如,如果用戶語音的具體語義表明用戶是在同其他人交談,則當前用戶沒有交互意愿(與機器人交互的意愿)。如果用戶語音的具體語義表明用戶在對機器人交談(例如,用戶向機器人提問“現(xiàn)在幾點了” ),那么當前用戶有交互意愿。
[0054]如果根據(jù)用戶語音無法斷定當前用戶是否有交互意愿(例如用戶在哼歌,其具體的語義機器人無法理解識別)或者當前不存在用戶語音,則進一步分析用戶行為。首先執(zhí)行步驟S330,分析圖像信息中是否包含用戶動作。當圖像信息中包含用戶動作時執(zhí)行步驟S340,根據(jù)用戶動作判斷交互意圖。
[0055]具體的,分析用戶動作的具體含義,辨別用戶動作是否包含與機器人交互的意愿。例如,如果用戶動作的具體含義表明用戶是在忙于做與機器人無關(guān)的事情(例如用戶正在打字),則當前用戶沒有交互意愿。如果用戶動作的具體含義表明用戶是在對機器人動作(例如,用戶向機器人揮手指示機器人靠過來),那么則當前用戶有交互意愿。
[0056]實際交互中,如果用戶主動發(fā)出交互請求(對機器人發(fā)出包含交互含義的聲音或者動作),那必然可以直接視為用戶具有交互意愿;如果用戶行為明確表明用戶在忙于其他事物,那可以直接視為用戶不具有交互意愿。然而,如果用戶沒有發(fā)出任何交互請求(沒有發(fā)出任何包含交互含義的聲音或者動作,進一步的,用戶處于靜止狀態(tài),沒有發(fā)出任何可以識別的聲音或者動作)或是機器人無法從用戶的行為中識別用戶是否具有交互意愿時,并不能表明用戶沒有交互意愿。
[0057]針對上述情況,在圖3所示實施例中采用了主動試探的方式。即如果無法根據(jù)用戶行為識別用戶是否具有交互意愿(根據(jù)用戶語音、用戶動作均無法識別或是當前不存在用戶語音/動作)時,執(zhí)行步驟S370,主動交互試探。在步驟S370中,機器人向用戶主動發(fā)出交互請求,試探用戶是否存在交互意愿。例如,機器人向用戶打招呼“您好,今天天氣不錯”或是向用戶提問“您現(xiàn)在忙么”。
[0058]在步驟S370之后,機器人等待用戶回應(yīng)并執(zhí)行步驟S380,判斷用戶是否做出交互回應(yīng)。當經(jīng)過預(yù)設(shè)時間(根據(jù)通常的交互習(xí)慣設(shè)定問答等待時間)后并沒有得到用戶的交互回應(yīng),則說明用戶不想回應(yīng)機器人或是處于無法回應(yīng)的狀態(tài),此時用戶沒有交互意愿。
[0059]如果機器人接收到用戶的交互回應(yīng),則執(zhí)行步驟S390,根據(jù)交互回應(yīng)判斷交互意愿,分析交互回應(yīng)的具體語義,判斷用戶是否有交互意愿。例如,機器人向用戶提問“您現(xiàn)在忙么”,用戶回答“我很忙”,則可以判斷用戶沒有交互意愿。
[0060]以一具體應(yīng)用場景為例,用戶在跑步機上跑步。機器人首先采集圖像信息以及聲音信息。雖然聲音信息中不包含用戶語音(用戶沒有說話),但圖像信息包含人形,因此機器人判斷當前存在用戶。
[0061]接下來分析用戶的交互意愿,由于聲音信息中并不包含用戶語音,因此分析圖像信息中的用戶動作,用戶在跑步機上跑步,機器人無法識別這個跑步動作具體代表用戶是否具有交互意愿,于是機器人發(fā)出主動交互試探。機器人向用戶提問“您好,您在做什么呢”。
[0062]假設(shè)用戶跑步很累,不想說話,那么用戶可以不回答機器人。機器人沒有得到交互回應(yīng),于是判斷用戶不具有交互意愿,機器人進入非交互行為模式,在用戶附近自主的自由游走。
[0063]假設(shè)用戶可以說話,但是正在思考問題,可以直接回答“我很忙”。機器人通過分析交互回應(yīng)的語義判斷用戶不具有交互意愿,機器人進入非交互行為模式,在用戶附近自主的自由游走。
[0064]假設(shè)用戶想和機器人隨便聊聊,那么用戶可以順著機器人的提問進行回答。機器人通過分析交互回應(yīng)的語義判斷用戶具有交互意愿,機器人進入交互行為模式,順著用戶的回答開始和用戶聊天。
[0065]進一步的,為了使機器人更加人性化,提高機器人的用戶體驗,在本實施例中,在判斷用戶是否具有交互意愿時還采用了情緒分析。具體的,在機器人主動交互試探(步驟S370)之前,如果經(jīng)過步驟S310、320、330以及340無法根據(jù)用戶行為識別用戶是否具有交互意愿時,首先執(zhí)行步驟S350,分析用戶情緒。然后執(zhí)行步驟S360,判斷用戶情緒是否適合交互。如果適合交互,則執(zhí)行步驟S370。如果不適合交互,則判斷用戶不具備交互意愿。
[0066]具體的,在步驟S350中,可以采用聲紋識別的方式分析識別用戶情緒。即分析用戶語音的語氣、語調(diào)以及語義從而分析判斷用戶當前的情緒。也可以采用面部識別的方式分析識別用戶情緒。即從圖像信息中分析提取用戶的面部圖像,然后對用戶的面部圖像進行表情識別從而分析識別用戶當前的情緒。
[0067]在這里需要說明的是,本實施例采用用戶語音以及用戶面部圖像綜合分析的方式來分析獲取用戶情緒。在本發(fā)明其他實施例中,可以采用以上兩種方式中的任一種方式進行分析識別。
[0068]進一步的,在圖3所示實施例中,判斷用戶情緒的目地是分析用戶情緒是否適合交互,但是在實際交互時并不能準確判斷用戶的情緒是否適合交互,因此在本發(fā)明的另一實施例中,用戶情緒的分析主要是輔助作用。例如,在進行主動交互試探(步驟S370)時基于用戶情緒采用不同的試探內(nèi)容/方式;在分析交互回應(yīng)(步驟S390)時基于用戶情緒輔助判斷交互回應(yīng)是否包含交互意愿。
[0069]另外,用戶情緒的分析也可以貫穿整個交互執(zhí)行過程,即在交互進行時隨時監(jiān)控用戶情緒,基于用戶情緒隨時調(diào)整機器人具體輸出的交互行為。例如,如果用戶情緒低落,機器人在交互過程中可以針對性的唱歌或者講笑話;如果用戶在生氣(其沒有交互意愿,因此機器人進入非交互模式,自主自由行動),機器人可以降低自由行動的范圍以及動作幅度(甚至直接進入休眠狀態(tài)),避免干擾用戶。
[0070]這里需要注意的是,在判斷用戶是否具有交互意圖的過程中,由于主動交互試探行為(步驟S370)會打攪到用戶。因此在本實施例中,在其他判斷手段執(zhí)行完畢且均不能做出有效判斷時才執(zhí)行步驟S370。
[0071]在人與人的正常交互中,人們會根據(jù)交互對象的不同身份采用不同的交互回應(yīng)。為了提高機器人的擬人化水平,提高機器人的交互靈活性,在本發(fā)明一實施例中,采用了身份識別機制。
[0072]如圖4所示,首先執(zhí)行步驟S410,判斷是否存在用戶,不存在用戶時則執(zhí)行步驟S460,進入非交互行為模式。如果存在用戶,則執(zhí)行步驟S420,確定用戶身份。
[0073]具體的,在本實施例中,通過分析聲音信息來確定用戶身份。即從聲音信息中分離用戶語音,然后對用戶語音進行聲紋分析以確定用戶身份。進一步的,在本實施例中也基于圖像分析來確定用戶身份。即從圖像信息中分析提取用戶的面部圖像,然后對用戶的面部圖像進行面部識別從而確定用戶身份。
[0074]在這里需要說明的是,本實施例采用用戶語音以及用戶面部圖像綜合分析的方式來確定用戶身份。在本發(fā)明其他實施例中,可以采用以上兩種方式中的任一種方式進行分析識別。
[0075]當用戶身份確定了之后,執(zhí)行步驟S430,判斷用戶是否具有交互權(quán)限(在本實施例中,對應(yīng)無法識別身份的用戶,均認為其不具備交互權(quán)限)。如果用戶沒有交互權(quán)限(也就是說,不容許機器人與該用戶進行交互),那么機器人執(zhí)行步驟S460,進入非交互行為模式。如果用戶有交互權(quán)限,則執(zhí)行步驟S440,判斷用是否具有交互意愿。如果有交互意愿,執(zhí)行步驟S450,進入交互行為模式。如果沒有交互意愿,執(zhí)行步驟S460,進入非交互行為模式。
[0076]進一步的,為了提高機器人的擬人化水平,在本發(fā)明其他實施例中,可以根據(jù)實際需求做更為細致的劃分。如圖5所示,在步驟S510中判斷是否有用戶存在,當用戶存在時確定用戶身份(步驟S520),之后并不是直接基于用戶身份劃分是否進入非交互行為模式。而是執(zhí)行步驟S540,判斷用戶是否有交互意愿。與圖3所示實施例不同,在步驟S540中,會基于不同的用戶身份采用不同的主動交互試探方式,從而使得機器人的主動試探行為更加人性化,大大提高了機器人的應(yīng)用體驗。
[0077]例如,如果無法識別用戶身份,機器人可以提問“您是哪位”;如果識別出用戶是機器人的擁有者,機器人可以打招呼“主人早上好”;如果識別出用戶是機器人擁有者的朋友王某,機器人可以打招呼“王先生早上好,您找主人有事么”。
[0078]進一步的,身份識別結(jié)果在整個機器人的交互過程中都起輔助作用。機器人可以依照交互對象身份的不同采取不同內(nèi)容的交互回應(yīng)。例如,如果無法識別用戶身份,那么機器人在交互時就會避免提及和擁有者隱私相關(guān)的內(nèi)容,即使被問及也可以不做回答。
[0079]進一步的,機器人在非交互行為模式下也可以根據(jù)在場的用戶的身份采取不同的行為輸出。例如,如果是機器人擁有者在場(其沒有交互意愿,因此機器人進入非交互模式,自主自由行動),機器人可以采用較為引人注目的自主行為吸引擁有者的注意,提高擁有者的交互興趣;如果是不能識別身份的用戶在場(其沒有交互意愿,因此機器人進入非交互模式,自主自由行動),機器人可以采用比較悠閑的自主行為,甚至可以進入休眠狀態(tài)(在這里設(shè)定機器人只需要吸引其擁有者的注意,不需要吸引不能識別身份的用戶)。
[0080]這里需要說明的是,圖1-圖5所示實施例默認機器人的最初狀態(tài)是剛啟動(既不處于交互行為模式也不處于非交互行為模式,并沒有開始和用戶進行交互)ο當機器人進入交互行為模式或非交互行為模式后,也可以執(zhí)行圖1-圖5所示流程判斷自身下一步需要進入的模式。
[0081]以圖2所示實施例為例,當機器人正在和用戶交互時,隨時監(jiān)測用戶狀態(tài)(步驟S210),當用戶離開(不存在用戶),則意味著交互終止,機器人執(zhí)行步驟S250。如果用戶沒有離開,則機器人在執(zhí)行交互行為時隨時判斷用戶是否有交互意愿(步驟S220),如果用戶有交互意愿,則執(zhí)行步驟S240,繼續(xù)交互,如果用戶沒有交互意愿,則終止交互(結(jié)束話題,避免打攪用戶),執(zhí)行步驟S250。
[0082]當機器人處于非交互行為模式時,隨時監(jiān)測用戶是否具有交互意圖(圖3所示流程),當用戶具有交互意圖時脫離非交互行為模式,進入交互行為模式。
[0083]這里需要注意的是,在監(jiān)測用戶是否具有交互意圖的過程中,由于主動交互試探行為會打攪到用戶。因此執(zhí)行過主動交互試探且試探結(jié)果為用戶不具備交互意愿時,在預(yù)設(shè)的時間段(根據(jù)用戶通常的交互頻次設(shè)定時間值)內(nèi)不能再次執(zhí)行主動交互試探。這樣就能避免連續(xù)多次的主動交互試探打攪到用戶。
[0084]綜上,根據(jù)本發(fā)明的方法,以不打擾和不無聊為目的,模擬人與人相處中陪伴狀態(tài),形成自然舒適的人機交互體驗,大大提高了機器人的用戶體驗。進一步的,相較于現(xiàn)有技術(shù),本發(fā)明的系統(tǒng)更加全面的分析了機器人所處的交互環(huán)境以及用戶的交互狀態(tài),從而可以輸出更加匹配實際情況的機器人交互輸出,機器人的擬人化程度和靈活性得到大大提高,進一步提高了機器人的用戶體驗。
[0085]基于本發(fā)明的方法,本發(fā)明還提出了一種智能機器人多模態(tài)交互系統(tǒng)。如圖6所示,系統(tǒng)包括信息采集模塊610、交互信息處理模塊620、交互行為輸出模塊630以及非交互行為輸出模塊640。
[0086]信息采集模塊610配置為采集多模態(tài)交互輸入信息,其包括圖像采集裝置611和聲音采集裝置612;交互信息處理模塊620配置為處理多模態(tài)交互輸入信息(圖像信息以及聲音信息)以獲取當前用戶所處狀態(tài)信息并判斷當前是否存在交互需求;交互行為輸出模塊630配置為當當前存在交互需求時輸出與當前用戶所處狀態(tài)信息對應(yīng)的多模態(tài)交互信息;非交互行為輸出模塊640配置為當當前不存在交互需求時輸出與當前用戶所處狀態(tài)信息對應(yīng)的多模態(tài)交互信息。
[0087]交互行為輸出模塊630與非交互行為輸出模塊640輸出的多模態(tài)交互信息的基本區(qū)別在于:
[0088]交互行為輸出模塊630輸出的多模態(tài)交互信息主要用途是實現(xiàn)與用戶的交互;
[0089]非交互行為輸出模塊640輸出的多模態(tài)交互信息是要在不打攪用戶的前提下避免機器人呆板的等待行為,實現(xiàn)不無聊。
[0090]為了提高機器人的人性化程度,交互信息處理模塊620包含用戶辨別裝置621、交互意愿辨別裝置622、身份確認裝置623以及情緒確認裝置624,其中:
[0091]用戶辨別裝置621配置為分析多模態(tài)交互輸入信息以辨別當前是否存在用戶;
[0092]交互意愿辨別裝置622配置為分析多模態(tài)交互輸入信息以辨別用戶是否存在交互意愿;
[0093]身份確認裝置623配置為分析多模態(tài)交互輸入信息以確定用戶的身份;
[0094]情緒確認裝置624配置為分析所述多模態(tài)交互輸入信息以確定用戶的情緒。
[0095]基于上述裝置,交互信息處理模塊620可以更加精確的識別當前機器人所處的交互環(huán)境以及用戶的具體交互狀態(tài)等特征信息,從而更加人性化的判斷是否進入交互行為模式/非交互行為模式。并且在交互行為模式/非交互行為模式基于不同的交互環(huán)境以及用戶狀態(tài)采取匹配的交互應(yīng)對。
[0096]以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
[0097]根據(jù)本發(fā)明的系統(tǒng),以不打擾和不無聊為目的,模擬人與人相處中陪伴狀態(tài),形成自然舒適的人機交互體驗,大大提高了機器人的用戶體驗。進一步的,相較于現(xiàn)有技術(shù),本發(fā)明的系統(tǒng)更加全面的分析了機器人所處的交互環(huán)境以及用戶的交互狀態(tài),從而可以輸出更加匹配實際情況的機器人交互輸出,機器人的擬人化程度和靈活性得到大大提高,進一步提高了機器人的用戶體驗。
[0098]雖然本發(fā)明所公開的實施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實施方式,并非用以限定本發(fā)明。本發(fā)明所述的方法還可有其他多種實施例。說明書中提到的“一個實施例”或“實施例”意指結(jié)合實施例描述的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個實施例中。因此,說明書通篇各個地方出現(xiàn)的短語“一個實施例”或“實施例”并不一定均指同一個實施例。
[0099]在不背離本發(fā)明實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當可根據(jù)本發(fā)明作出各種相應(yīng)的改變或變形,但這些相應(yīng)的改變或變形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護范圍。
【主權(quán)項】
1.一種智能機器人多模態(tài)交互方法,其特征在于,包括: 采集多模態(tài)交互輸入信息; 分析所述多模態(tài)交互輸入信息以獲取用戶狀態(tài)信息并判斷當前是否存在交互需求; 當當前不存在交互需求時進入非交互行為模式; 在所述非交互行為模式下輸出多模態(tài)交互信息,所述多模態(tài)交互信息配置為與所述用戶狀態(tài)信息對應(yīng)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在處理所述多模態(tài)交互輸入信息的過程中,分析所述多模態(tài)交互輸入信息以判斷當前是否存在用戶,其中,當不存在用戶時進入所述非交互行為模式。3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在處理所述多模態(tài)交互輸入信息的過程中,分析所述多模態(tài)交互輸入信息以判斷用戶是否存在交互意愿,其中,當所述用戶不存在交互意愿時進入所述非交互行為模式。4.根據(jù)權(quán)利要求1-3中任一項所述的方法,其特征在于,在處理所述多模態(tài)交互輸入信息的過程中,分析所述圖像信息和/或所述聲音信息進行以確定用戶的身份,其中: 從所述圖像信息中提取所述用戶的面部圖像信息,分析所述面部圖像信息以確定所述用戶的身份; 從所述聲音信息中提取所述用戶的語音信息,對所述語音信息進行聲紋識別以確定所述用戶的身份。5.根據(jù)權(quán)利要求1-4中任一項所述的方法,其特征在于,在處理所述多模態(tài)交互輸入信息的過程中,通過對所述圖像信息和/或所述聲音信息進行分析以確定所述用戶的情緒,其中: 從所述圖像信息中提取所述用戶的面部圖像信息,分析所述面部圖像信息以確定所述用戶的情緒; 從所述聲音信息中提取所述用戶的語音信息,對所述語音信息進行聲紋識別以確定所述用戶的情緒。6.一種智能機器人系統(tǒng),其特征在于,包括: 信息采集模塊,其配置為采集多模態(tài)交互輸入信息,所述信息采集模塊包括圖像采集裝置和聲音采集裝置; 交互信息處理模塊,其配置為處理所述多模態(tài)交互輸入信息以獲取當前用戶所處狀態(tài)信息并判斷當前是否存在交互需求; 非交互行為輸出模塊,其配置為當當前不存在交互需求時輸出多模態(tài)交互信息,所述多模態(tài)交互信息配置為與所述當前用戶所處狀態(tài)信息對應(yīng)。7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述交互信息處理模塊包含用戶辨別裝置,所述用戶辨別裝置配置為分析所述多模態(tài)交互輸入信息以辨別當前是否存在用戶。8.根據(jù)權(quán)利要求6或7所述的系統(tǒng),其特征在于,所述交互信息處理模塊包含交互意愿辨別裝置,所述交互意愿辨別裝置配置為分析所述多模態(tài)交互輸入信息以辨別用戶是否存在交互意愿。9.根據(jù)權(quán)利要求6-8中任一項所述的系統(tǒng),其特征在于,所述交互信息處理模塊包含身份確認裝置,所述身份確認裝置配置為分析所述多模態(tài)交互輸入信息以確定用戶的身份。10.根據(jù)權(quán)利要求6-9中任一項所述的系統(tǒng),其特征在于,所述交互信息處理模塊包含情緒確認裝置,所述情緒確認裝置配置為分析所述多模態(tài)交互輸入信息以確定用戶的情緒ο
【文檔編號】G06F17/27GK105868827SQ201610179233
【公開日】2016年8月17日
【申請日】2016年3月25日
【發(fā)明人】郭家, 石琰
【申請人】北京光年無限科技有限公司