本專利涉及數(shù)字數(shù)據(jù)處理領(lǐng)域,更特別地涉及語音合成和交互式對話的處理,尤其是在機器人與人類用戶之間的交談的特定背景下。
背景技術(shù):
陪伴機器人有益地能夠與人類建立情感關(guān)系。通過語音或?qū)υ捚つw的對話的動態(tài)適應(yīng)能夠?qū)崿F(xiàn)豐富的交互。
現(xiàn)有的用于講話或語音合成的系統(tǒng)大多數(shù)被動且無變化:超過比如男人或女性語音選擇的幾個選項,語言生成引擎的音色相當中性。而且,提供回應(yīng)缺乏文化參照。工業(yè)或大眾市場語音回答系統(tǒng)的目標確切地是提供普遍接受的回應(yīng),即,被盡可能廣泛地理解。這暗指避免任何上下文參照,更不用說文化參照。語音命令通常限于具體的上下文。例如,語音聽寫軟件主要用于獨立軟件應(yīng)用(例如,文字處理軟件)的上下文中。根據(jù)現(xiàn)代操作系統(tǒng)越來越提供的一些可訪問性特征,用戶能夠使用語音命令來執(zhí)行一些動作(例如,開始應(yīng)用,復(fù)制和粘貼,等等)。這些預(yù)定義的動作相當有限。這種視覺或聽覺交互模式通常是被動的(例如,用戶主動地給予指示,機器執(zhí)行指示)。即使使用近期的計算機交互模型,諸如那些在例如回答系統(tǒng)中所實現(xiàn)的模型,也會發(fā)生從機器到用戶的有限交互。
在伴隨類人機器人的背景下,當相比于與個人計算機(及其不同的形式)的交互模型時,與人類用戶的交互模型顯著地變化。與機器人的認知交互基本上不同于與平板PC或智能手機的認知交互。特別地,調(diào)制機器人的講話合成的能力即便對豐富交互不主要也是有益的,這進而能夠允許采集相關(guān)的數(shù)據(jù)并且改善機器人或所連接的設(shè)備所呈現(xiàn)的服務(wù)。
對于尤其在機器人與人類用戶之間的交談的特定背景下處理語音合成(形式)以及相關(guān)聯(lián)的交互對話(實質(zhì))的方法和系統(tǒng)存在需求。
技術(shù)實現(xiàn)要素:
公開了一種處理機器人與人類用戶之間的音頻對話的計算機實現(xiàn)的方法,所述方法包括:在所述音頻對話期間,接收音頻數(shù)據(jù)并且將所述音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù);響應(yīng)于對所述文本數(shù)據(jù)的一個或多個對話模式執(zhí)行規(guī)則進行的核驗,選擇修改后的對話模式;其中對話模式包括一個或多個對話內(nèi)容以及一個或多個對話語音皮膚;其中對話內(nèi)容包括預(yù)定義句子的集合,所述集合包括問題句子和回答句子;并且其中對話語音皮膚包括語音渲染參數(shù),所述語音渲染參數(shù)包括頻率、音色、速度和音高。
在發(fā)展中,該方法還包括執(zhí)行所述選擇的修改后的對話模式。
在發(fā)展中,修改后的對話模式是通過修改當前對話的當前對話內(nèi)容和/或當前對話語音皮膚來獲得的。
在發(fā)展中,修改當前對話內(nèi)容的步驟包括使用所述對話內(nèi)容的詞語的同義詞以及應(yīng)用句法修改,所述句法修改包括所述對話內(nèi)容的一個或多個詞語的插入或置換或替代。
在發(fā)展中,修改所述當前對話語音皮膚的步驟包括修改所述當前對話語音皮膚的頻率和/或音色和/或速度和/或音高。
在發(fā)展中,修改后的對話模式是通過激活預(yù)定義對話模式來獲得的,所述預(yù)定義對話已經(jīng)由所述一個或多個對話執(zhí)行規(guī)則選定并且所述預(yù)定義對話模式包括預(yù)定義對話內(nèi)容和/或預(yù)定義對話語音皮膚。
在發(fā)展中,對話模式執(zhí)行規(guī)則取決于機器人所感知到的環(huán)境。
在發(fā)展中,對話模式執(zhí)行規(guī)則包括從包括如下的列表中選出的參數(shù):用戶年齡、用戶性別、用戶的情緒、用戶的情感、用戶數(shù)量、與用戶的交互歷史、用戶偏好、機器人和/或用戶的空間放置、機器人和/或用戶的姿勢或姿勢的組合、在機器人的環(huán)境中的檢測到的事件、本地天氣、地理位置、日期、時間及其組合。
在發(fā)展中,對話模式執(zhí)行規(guī)則是從因特網(wǎng)動態(tài)取回的和/或是用戶可配置的。
在發(fā)展中,一個或多個對話內(nèi)容或?qū)ζ涞倪x擇是通過一個或多個過濾器的應(yīng)用來節(jié)制的,所述過濾器包括一個或多個詞語的黑名單、一個或多個詞語的白名單和/或?qū)υ捘J綀?zhí)行規(guī)則。
在發(fā)展中,對話內(nèi)容和/或?qū)υ捳Z音皮膚是通過語音命令或用戶請求來選定的。
在發(fā)展中,該方法還包括:標識缺失的對話模式,在與用戶的對話期間取回所述缺失的對話模式并安裝于所述機器人中。在發(fā)展中,該方法還包括:在執(zhí)行選定的對話模式之前,接收用戶的確認。在發(fā)展中,該方法還包括:在修改的對話模式執(zhí)行之后,接收用戶的反饋。在發(fā)展中,該方法的步驟能夠迭代(例如,對話模式能進一步被修改)。
公開了一種計算機程序,包括當所述計算機程序在適合的計算機設(shè)備或機器人設(shè)備上執(zhí)行時,用于實施所述方法的一個或多個步驟的指令。公開了一種包括適于實施該方法的一個或多個步驟的裝置的系統(tǒng)。
陪伴機器人通常是多模態(tài)的。沿著與個人計算機及其類似物對比來表征機器人的進展,語音交互構(gòu)成了與用戶的交互的重要部分。用戶與機器人之間的對話能夠增強或個性化交互且最后改善了用戶體驗。在實施例中,機器人使其自身通過其對話模式的適應(yīng)而適應(yīng)當前感知到的背景。機器人例如可以對外人說“先生”,或者如果過去被允許則可以使用一個人的姓,講話更加或較不正式,取決于用戶和/或上下文。具體的詞語同樣可以被過濾,取決于用戶、歷史、反饋、情緒、位置、日期和時間(舉例)。當一個人不理解一個句子時,機器人在被請求時或者自己自主地可以慢速重復(fù)和/或用同義詞重復(fù)。機器人還能夠?qū)W習(xí)用戶的偏好(使用哪種詞匯表講話更加或較不快速),改善用戶的情緒。
有益地,機器人能夠?qū)崿F(xiàn)新語言擴展,渲染每個機器人的獨特之處,開始積極情感,以及因此加強機器人與人類的關(guān)系。
有益地,根據(jù)一些實施例,人機交互是主動的,而不再是被動的:機器人從人類的視角,能夠采取一些主動性(例如,機器人能夠詢問問題,例如,為了澄清的目的)。此外,利用以個性化或其它相關(guān)方式表達的適應(yīng)的對話內(nèi)容或格式,人機交互得以進一步優(yōu)化。
有益地,交互的交談模式允許與用戶有更“親密的”“關(guān)系”,至少越來越“自然的”交互。該更佳的用戶體驗可能導(dǎo)致機器對人類用戶的增強的“理解”。通過相關(guān)的語音皮膚和/或?qū)υ捑渥影凳竞图訌姷呐c機器的相關(guān)聯(lián)的“接近度”能夠促進來自用戶以及關(guān)于用戶的數(shù)據(jù)的采集。用戶和機器人都可以更“具表達性”。術(shù)語“表達力”是指這樣的事實:因為人機交互(更加)自然,所以用戶將更多的數(shù)據(jù)傳達給機器人,機器人進而能夠得知且存儲關(guān)于用戶的更多的數(shù)據(jù),在有效的圈內(nèi)進一步豐富了交互。對于個人計算機,情況并非如此。平板設(shè)備可以嘗試詢問“問題”,例如,為小測驗或問卷的形式或者通過講話合成,但是由于平板設(shè)備不被認為是能夠(自主地)自我移動、將物體移位或者跟隨人類的“陪伴”,所以仍有殘存偏差。當與伴隨機器人相比時,所能夠捕獲的數(shù)據(jù)量較小。伴隨機器人能夠使用有趣的或其它相關(guān)的語音皮膚或?qū)υ捀袷降氖聦嵓訌娏诉@種捕獲數(shù)據(jù)的能力。
關(guān)于用戶的主動或被動地采集的信息(例如,用戶配置文件或者用戶聲稱的偏好)能夠被用作用于開始條件的輸入(例如,語音皮膚或?qū)υ捀袷綉?yīng)當僅在用戶喜愛“Bienvenue chez les Ch'tis(歡迎來北方)”的情況下才開始。機器學(xué)習(xí)機制能夠被執(zhí)行:通過系統(tǒng)所開始或執(zhí)行的語音皮膚或?qū)υ捀袷綄⒏鶕?jù)關(guān)于用戶所學(xué)習(xí)到的來演進。
附圖說明
現(xiàn)在,將參照附圖通過示例的方式來描述本發(fā)明的實施例,在附圖中相似的標記指代相似的元件,并且在附圖中:
圖1圖示說明了本發(fā)明的全局技術(shù)環(huán)境;
圖2詳述了方法的實施例的一些方面。
具體實施方式
“對話”包括預(yù)制作的句子。對話是預(yù)定義句子的集合,包括對問題的回應(yīng)。對于多個問題的預(yù)期回應(yīng)構(gòu)成了對話。
“對話模式”包括影響規(guī)劃的句子的實質(zhì)(“對話格式”或“對話內(nèi)容”)和形式(“語音皮膚”或“語音渲染”)的一個或多個修改操作。換言之,“對話模式”與實質(zhì)性方面(例如,消息所傳達的實際內(nèi)容或信息)相關(guān)聯(lián)以及與形式方面(例如,所講語言的表達力或情感或音色)相關(guān)聯(lián)。對話模式能夠以可下載軟件程序的形式來實現(xiàn),所述程序包括當在適當?shù)臋C器人設(shè)備上執(zhí)行時使得所述機器人設(shè)備執(zhí)行特定物理動作的指令,物理動作包括執(zhí)行編程的對話模式(對話內(nèi)容和/或語音皮膚)。軟件程序能夠被提供作為“擴展模塊”或“插件”或“附加物”。附加的對話模式能夠與機器人的缺省對話內(nèi)容和語音皮膚組合或添加到機器人的缺省對話內(nèi)容和語音皮膚或替代機器人的缺省對話內(nèi)容和語音皮膚。在實施例中,對于安裝在機器人上的其它軟件應(yīng)用,對話模式可以稱為服務(wù)。例如,天氣應(yīng)用可以在某上下文中(例如,滿月)使用Dark Vador的語音。對話模式和/或相關(guān)聯(lián)的執(zhí)行規(guī)則能夠通過網(wǎng)絡(luò)來訪問或者在本地訪問。在一些實施例中,通過訪問網(wǎng)絡(luò)和遠程知識庫來補充或增補對話模式和/或相關(guān)聯(lián)的執(zhí)行規(guī)則。
“對話內(nèi)容”或“對話格式”或“對話話題”是指預(yù)定義句子的集合,所述句子對應(yīng)于問題和(預(yù)期的或期望的或可能的)回答,例如,圍繞某主題或話題或感興趣領(lǐng)域(但是不一定,因為可以構(gòu)想句子的一般范圍)。句法修改可以修改安裝在機器人中的現(xiàn)有對話內(nèi)容的實質(zhì)(例如,比如“超級”的最高級詞的插入,詞語的置換,等等)。對話內(nèi)容或格式能夠使得某些詞語被審查(例如,無論有二義性或者根據(jù)概率或閾值,確定詞語的使用會被禁止),一些其它詞語能夠被允許,或者一些詞語的使用能夠被鼓勵(偏置)。對話內(nèi)容或格式尤其可以包括(或添加,如果修改)實質(zhì)性內(nèi)容和其它文化參照。詞語的選擇可以取決于上下文并且包括暗指或文化參照。對話可以因此包括一個對話內(nèi)容(由句子構(gòu)成的預(yù)制作的對話)。例如,不是其唯一的商業(yè)名稱,游戲應(yīng)用可被機器人稱為“具有鳥和綠色豬的游戲”或者“其中你須將鳥投向目標的游戲”等等。這些由句子、可能的問題和回答構(gòu)成的元描述構(gòu)成了對話內(nèi)容。這些對話內(nèi)容允許機器人與用戶進行交談。例如,如果用戶問到“我愿意和鳥一起玩”,則機器人可進一步問到“你想要和真實的鳥玩還是和虛擬的鳥一起玩?”。如果用戶以“和虛擬的鳥”回應(yīng),則機器人可以請求確認“那么你想要玩游戲嗎?!”。如果用戶以“是的”回應(yīng),則機器人可更進一步請求確認,例如,“我有一個你須將鳥投向綠色豬的游戲”。
“對話皮膚”或“語音皮膚”是指音頻渲染修改。該音頻渲染修改影響“形式”(例如,頻率、速度、音高和音色)。換言之,對話皮膚的應(yīng)用能夠根本地改變機器人的表達力,而不修改底層的預(yù)制作句子。與機器人的講話交互的修改的影響可以在不同水平下進行評估:以內(nèi)容的方式(實質(zhì))和/或形式(音色等)。語音皮膚可以包括導(dǎo)致模仿某些語音的參數(shù)??梢蕴幚矶喾N多樣的語音參數(shù)來管理講話合成。語音參數(shù)包括頻率(判定機器人是否將更嚴厲或更深切地講話)、速度(機器人講話多快或多慢)、音色(例如,如果演員Sylvester Stallone和人物Master Yoda以相同速度和頻率講話,則它們不具有相同的音色)。在實施例中,用戶可以要求他的陪伴機器人像Master Yoda或Sylvester Stallone一樣講話。通過用預(yù)定義語音參數(shù)適當?shù)匦薷恼Z音參數(shù),能夠獲得接近的結(jié)果。“動態(tài)”模仿貌似合理(記錄音頻摘錄、推導(dǎo)參數(shù)以及應(yīng)用相關(guān)的修改)并且可允許機器人模仿一個或多個用戶。在實施例中,多個語音皮膚能夠組合。一些語音皮膚會不兼容組合(相互排斥)。一些其它語音皮膚可以在一定程度上組合。一些其它語音皮膚可以是加性的。
“對話執(zhí)行規(guī)則”是指管控一個或多個語音皮膚和/或?qū)υ拑?nèi)容或格式的應(yīng)用的執(zhí)行規(guī)則?!皥?zhí)行規(guī)則”可以包括腳本、程序代碼或其它布爾表達或邏輯規(guī)則,它們允許適應(yīng)機器人所能說的措辭(詞匯表、一些表達加在句子之前或句子末尾,等等)。每當機器人要對人類用戶說某事物時(例如,因為機器人正在嘗試回答問題或澄清情形),如果機器人的規(guī)劃句子確實匹配一個或多個對話執(zhí)行皮膚規(guī)則,則將根據(jù)這些規(guī)則來修改句子,隨后機器人將它說出。在實施例中,一個或多個對話執(zhí)行規(guī)則可應(yīng)用于一個或多個句子(即,規(guī)劃以便由機器人說出)。在實施例中,所述規(guī)則能夠應(yīng)用于每個句子以便由機器人說出。在實施例中,規(guī)則能夠應(yīng)用于句子子集,例如,那些包括預(yù)定義詞語或表達的句子子集。對話執(zhí)行規(guī)則能夠預(yù)定義。對話執(zhí)行規(guī)則還能夠從因特網(wǎng)動態(tài)地取回。一些規(guī)則可以是加性的,而一些其它規(guī)則可以是互斥的。例如,執(zhí)行規(guī)則可以包括(例如,編碼)年齡限制。累加執(zhí)行規(guī)則能夠使用或應(yīng)用。例如,特定的語音皮膚可以在年齡在12以上的用戶面前授權(quán)和/或根據(jù)某些情形(一天中的時間、測得的聽眾的情感等)來授權(quán)。一些執(zhí)行規(guī)則可以是用戶能配置的(例如,父母控制)。
作為示例,句子“我現(xiàn)在能跳舞”對應(yīng)于標準的預(yù)定義措辭(寫入機器人存儲器內(nèi))?!拔椰F(xiàn)在能跳hein biloute舞”對應(yīng)于在應(yīng)用了稱為“Ch'tis”的對話格式后機器人所表達的措辭。音頻渲染或語音皮膚“Ch'tis”可以(任選地)還提供適當?shù)穆曇粽{(diào)制。形式和實質(zhì)可以進行多樣地修改:能夠添加具體的口音或語調(diào)(例如,形成Northern France),能夠豐富機器人所使用的詞匯表,能夠添加新的交談話題(例如,問題與回答的模型)。
對話模式(對話內(nèi)容和/或?qū)υ捚つw)能夠?qū)崿F(xiàn)在軟件包中,其能夠由軟件編輯器來定義或編程。該軟件可以是可修改的或不可修改。換言之,對話模式(例如,語音皮膚)可以是完全確定的(例如,不可以正式地允許進一步的參數(shù)化)。可替代地,對話模式可以僅部分確定。例如,一些(例如,有限數(shù)量的)本地參數(shù)可以仍在終端用戶的控制之下,而大多數(shù)設(shè)置不會改變(以維持例如語音皮膚的整體完整性)。
換言之,超越了文字含義的軟件應(yīng)用(當在適當?shù)挠嬎銠C設(shè)備上執(zhí)行時能夠執(zhí)行一個或多個步驟的計算機程序代碼)可以(或者關(guān)聯(lián))對話內(nèi)容(例如,預(yù)定義句子的集合,包括對預(yù)期問題的回應(yīng))和/或?qū)υ捚つw(例如,在對話內(nèi)容之上編程,即,諸如根據(jù)環(huán)境、與頭部運動同步、燈光(如果有)的激活等的適應(yīng)的執(zhí)行規(guī)則)及其組合(例如,在跳舞的同時對話)。軟件應(yīng)用可以相互依存。作為多模態(tài)輸出的結(jié)果,軟件應(yīng)用可進一步組合(在輸出級或者在較低級,例如,變量或參數(shù)或腳本能夠在軟件應(yīng)用之間共享或修改)。例如,機器人能夠使得所講結(jié)果“外面-10℃度”伴隨著將外面冷符號化的姿勢的組合。
軟件應(yīng)用有益地能夠通過對話接口呈現(xiàn)給用戶,即在與用戶的(“自然”)對話的動作過程中。換言之,對話系統(tǒng)可以對于用戶充當“瓶頸”以便能夠開始或執(zhí)行一個或多個應(yīng)用。
圖1示出了本發(fā)明的全局與技術(shù)環(huán)境。機器人130包括傳感器和執(zhí)行器。邏輯或“思想”100實現(xiàn)在機器人中或者與機器人相關(guān)聯(lián)(例如,遠程地)并且包括軟件組件110和硬件組件120的集合。機器人130正在與一個或多個用戶150交互(通過雙方或雙向通信140,包括一個或多個對話會話)。所述一個或多個用戶能夠訪問其它計算設(shè)備160(例如,諸如可佩戴式計算機或智能手機或平板設(shè)備的個人計算機),其能夠是連接的設(shè)備(與服務(wù)器云通信和/或與一隊其它機器人或連接對象通信,等等)。尤其是,連接設(shè)備可以是可佩戴式計算機(例如,手表、眼鏡、沉浸式頭盔等)。
在圖中的具體的機器人130被看作僅僅是能夠?qū)崿F(xiàn)本發(fā)明的類人機器人的示例。在圖中機器人的下肢沒有行走功能,但是能夠在其基座上在任意方向上移動,基座在其所在的表面上滾動。本發(fā)明能夠容易地實現(xiàn)在適合行走的機器人中。
在本發(fā)明的一些實施例中,機器人可以包括各種傳感器。其中一些傳感器用于控制機器人的位置和運動。這是例如位于機器人的軀干中的慣性單元的情況,包括3軸陀螺儀和3軸加速度計。機器人還可以包括在機器人前額(上和下)的兩個2D彩色RGB照相機。在機器人的眼睛后面也可以包括3D傳感器。機器人還能夠任選地包括激光線發(fā)生器,例如,在頭部和基座中,從而能夠感測其與其環(huán)境中的對象/人的相對位置。機器人還可以包括能夠感測其環(huán)境中的聲音的麥克風。本發(fā)明的機器人還可以包括聲納傳感器、可能位于其基座的前部和后部,以測量距其環(huán)境中的對象/人類的距離。機器人還可以包括觸傳感器,在其頭部上以及在手部上,以允許與人類交互。機器人還可以包括在其基座上的緩沖器以感測其在路線中所遇到的障礙物。為了轉(zhuǎn)換其情感以及與其環(huán)境中的人類溝通,本發(fā)明的機器人還可以包括LED,例如,在其眼睛、耳部中以及在其肩部上以及揚聲器(例如,位于其耳部中)。機器人能夠通過各種網(wǎng)絡(luò)(3G、4G/LTE、Wifi、BLE、網(wǎng)格等)與基站通信,與其它連接的設(shè)備通信,或者與其它機器人通信。機器人包括電池或能源。機器人能夠訪問適合于其所包含的電池類型的充電站。機器人的位置/運動由其電動機利用算法來控制,算法根據(jù)傳感器的測量來激活由每個肢部以及限定在每個肢部的端部處的效應(yīng)器所限定的鏈。
在具體的實施例中,機器人能夠嵌入平板設(shè)備,利用該平板設(shè)備,機器人能夠?qū)⑾?音頻、視頻、網(wǎng)頁)傳達給其環(huán)境,或者通過平板設(shè)備的觸摸接口接收來自用戶的輸入。在另一實施例中,機器人不嵌入或呈現(xiàn)屏幕,但是其確實具有視頻投影儀,利用該視頻投影儀,能夠?qū)?shù)據(jù)或信息投影到機器人附近的表面上。所述表面可以是平坦的(例如,地板)或不是平坦的(例如,投影表面的變形處可被補償以獲得基本上平坦的投影)。在兩個實施例中(利用屏幕和/或利用投影儀),本發(fā)明的實施例均保持有效:要求保護的交互模型僅由視覺交互手段來增補或補充。在任意情況下,只要圖形裝置無序或被有意地去激活,交互的交談模式保留。
在實施例中,機器人不包括這種圖形用戶接口裝置?,F(xiàn)有的類人機器人通常被提供了先進的語言能力,但是通常沒有被提供GUI。日益增加的用戶的群體可能不使用圖形裝置(例如,平板設(shè)備,智能手機),甚至作為補充,來與機器人通信,通過選擇和/或必需(年輕人、功能缺損者,因?qū)嶋H情形,等等)。
軟件110的集合(非窮盡地)包括彼此交互的軟件模塊或?qū)ο蠡蜍浖a部分,包括“提取器”111、“活動建議”112、“思想優(yōu)先化”113、“包管理器”114、“用戶歷史數(shù)據(jù)”115、“專注自主活動”116和“專注對話話題”117和“健康監(jiān)視服務(wù)”118。
“提取器服務(wù)”111通常感應(yīng)或感知在機器人內(nèi)或外的某物并且將短期數(shù)據(jù)提供給機器人的存儲器。提取器服務(wù)接收來自機器人傳感器的輸入讀數(shù);這些傳感器讀數(shù)經(jīng)預(yù)處理從而提取與機器人的位置、在其環(huán)境中的對象/人類的標識、所述對象/人類的距離、人類所講的詞語或其情感有關(guān)的相關(guān)數(shù)據(jù)。提取器服務(wù)尤其包括:面部識別、人感知、接合區(qū)、波動檢測、微笑檢測、注視檢測、情感檢測、語音分析、語言識別、聲音定位、移動檢測、全景羅盤、機器人姿態(tài)、機器人健康診斷、電池、QR碼處理、家庭自動化、宗族、時間和安排。
“執(zhí)行器服務(wù)”使得機器人130物理地做或執(zhí)行動作。運動跟蹤器、LED、行為管理器是“執(zhí)行器服務(wù)”。
“數(shù)據(jù)服務(wù)”提供長期存儲的數(shù)據(jù)。數(shù)據(jù)服務(wù)的示例是用戶會話服務(wù)115,其存儲用戶數(shù)據(jù),以及它們已經(jīng)對機器人和包管理器服務(wù)114所做的歷史,這利用它們的高級定義、開始條件和標簽提供了機器人執(zhí)行的程序的可擴展存儲?!鞍芾砥鳌庇绕涮峁┝嘶顒雍蛯υ挼目蓴U展存儲,以及展示?!罢故尽卑酥T如開始條件、標簽和高級描述的元數(shù)據(jù)。
“思想服務(wù)”(例如,服務(wù)思想優(yōu)先化113)是在其開始動作時由機器人的中心“思想”控制的服務(wù)?!八枷敕?wù)”與“執(zhí)行器服務(wù)”130、“提取器服務(wù)”111和“數(shù)據(jù)服務(wù)”115結(jié)合在一起?;靖兄恰八枷敕?wù)”。其訂閱“提取器服務(wù)”,諸如人感知、運動檢測和聲音定位,來告知運動服務(wù)移動。“思想”113基于該情形來配置基本感知行為。在其它時候,基本感知要么自我作用,要么由運行活動(Running Activity)來配置。
“自主生命”是思想服務(wù)。其執(zhí)行行為活動?;谇樾蔚纳舷挛?,思想能夠告知自主生命專注何種活動(“專注自主活動”116)。在展示中的元數(shù)據(jù)將該信息結(jié)合思想。任何活動能夠訪問操作系統(tǒng)API中的一個或多個?;顒舆€可以直接告知自主生命專注于何種活動,或者告知對話服務(wù)專注于何種話題。
“對話”服務(wù)能夠配置為思想服務(wù)。其訂閱講話識別提取器并且能夠使用“動畫講話執(zhí)行器服務(wù)”來說話?;谇樾蔚纳舷挛?,思想能夠告知對話專注于何種話題(“對話話題”)?!皩υ挕狈?wù)還使其算法來管理交談并且通常自我起作用。對話服務(wù)的一個部件可以是“專注對話話題”服務(wù)117。對話話題能夠在任何時候編程地告知思想切換注意力于(或者執(zhí)行或開始)不同的活動或?qū)υ捲掝}。確定對話話題的可能的方法的一個示例包括:在對話話題或活動的開始條件變?yōu)檎婊蚣俚臅r刻,該時刻的全部可能的活動或?qū)υ捲掝}的列表送給思想;列表根據(jù)活動優(yōu)先化來過濾;列表次序隨機化;列表被分類(或計分)以對“獨特的”且已經(jīng)不太經(jīng)常啟動的活動或?qū)υ捲掝}給予優(yōu)先權(quán);確保該列表中的頂級對話話題或活動的特殊檢查不是與先前所執(zhí)行的活動相同的活動。該列表可以再次根據(jù)用戶的偏好進行分類和過濾。
機器人能夠?qū)崿F(xiàn)“健康監(jiān)視”服務(wù)118。該服務(wù)能夠充當守護進程或“看門狗”,以閱覽或控制或調(diào)節(jié)機器人的不同優(yōu)先級。該服務(wù)能夠監(jiān)視(持續(xù)地、間斷地或者周期性地)機器人的內(nèi)部組件的狀況并且測量或預(yù)期或預(yù)測或校正硬件故障。在發(fā)展中,監(jiān)視一隊(例如,安裝的庫)機器人。嵌入式服務(wù)能夠持續(xù)地檢測出錯情況且將它們與“云”服務(wù)同步(例如,每分鐘一次)。
硬件組件120包括處理器件121、存儲器件122、輸入/輸出I/O器件123、大容量存儲器件124和網(wǎng)絡(luò)訪問器件125、所述器件彼此交互(高速緩存、交換、分布式計算、負載平衡等)。處理器件121可以是CPU(多核或許多核)或FPGA。存儲器器件122包括閃速存儲器或隨機存取存儲器中的一個或多個。I/O器件123可以包括屏幕(例如,觸摸屏)、燈或LED、觸覺反饋、虛擬鍵盤、鼠標、跟蹤球、操縱桿或投影儀(包括激光投影儀)中的一個或多個。存儲器件124可以包括硬盤驅(qū)動器或SSD中的一個或多個。網(wǎng)絡(luò)訪問器件能夠提供對諸如3G、4G/LTE、Wifi、BLE或網(wǎng)格網(wǎng)絡(luò)的一個或多個網(wǎng)絡(luò)的訪問。網(wǎng)絡(luò)業(yè)務(wù)量可以被加密(例如,隧道、SSL等)。
在實施例中,計算資源(運算、存儲器、I/O器件、存儲和連接)能夠遠程地訪問,例如,作為(在機器人自身內(nèi)可用的)本地資源的補充。例如,另外的CPU單元能夠通過用于語音識別計算任務(wù)的云來訪問。計算資源還能夠共享。尤其是,多個機器人能夠共享資源。在機器人附近的連接的設(shè)備也能夠在一定程度上例如經(jīng)由安全協(xié)議來共享資源。還能夠共享顯示器件。例如,電視能夠在機器人經(jīng)過時被機器人用作另外的顯示器。
圖2詳述了該方法的實施例的一些方面。機器人130正在與人類用戶150交互(例如,對話、姿勢、命令)。交互的部分是對話140,包括句子(回答、問題、指示、斷言、評論等)。機器人通常使用其缺省的標準語音皮膚(形式)并且輸出標準的和預(yù)定義的對話內(nèi)容(實質(zhì))。例如,機器人說出對話句子141。根據(jù)某些參數(shù)(用戶請求或環(huán)境參數(shù)),機器人能夠切換到另一語音皮膚和/或另一對話內(nèi)容,例如142。機器人還能夠切換回到初始或缺省的語音。在更詳細地,以缺省的語音皮膚和對話內(nèi)容200開始(或者根據(jù)初始/修改后的語音皮膚和/或修改后的對話內(nèi)容),對話執(zhí)行規(guī)則220判定對話是否已經(jīng)修改以及在何種程度上修改。
對話執(zhí)行規(guī)則220例如由用戶請求221和/或由感知到的環(huán)境222來影響或確定(例如,通過傳感器或機器人確定,通過提取器或者根據(jù)關(guān)于在機器人思想中實現(xiàn)的邏輯的所描述的實施例來過濾)。例如,環(huán)境參數(shù)包括:附近的一個或多個用戶的年齡組(孩子,成年人)、附近的一個或多個用戶的性別、附近的用戶總數(shù)、當前地點、當前日期和時間、一個或多個用戶的當前情緒(例如,微笑、大笑、哭等)。用戶請求221對應(yīng)于新對話模式的激活的“按需”模式(例如,用戶可以說“現(xiàn)在模仿Dark Vador”)。通過感知的環(huán)境的確定強調(diào)了新對話模式的激活的“自動觸發(fā)”模式。機器人能夠前攝地激活或者去激活對話模式的一個或多個參數(shù)(減弱或夸大語音皮膚、適應(yīng)對話內(nèi)容等)。兩種激活(或去激活)模式能夠組合,即,新對話模式的觸發(fā)能夠部分地由用戶請求確定,部分地由環(huán)境確定。例如,在用戶請求時,環(huán)境參數(shù)能夠確認或抑制對話模式的變化??商娲?,自動切換可以要求用戶的確認或授權(quán)來激活。對話模式通常可以在任何時候激活或去激活。在實施例中,有希望是有趣的,機器人能夠來回使用多個對話模式。任選地,在變化數(shù)量上的限制能夠被實現(xiàn)(以避免用戶飽和或者給出機器人極其愚蠢的印象)。
對話執(zhí)行規(guī)則220作用于實質(zhì)和/或形式,實質(zhì)和/或形式保持獨立地處理。規(guī)則能夠確定新對話內(nèi)容210的加載(例如,參照劇院電影,通過表達公知的句子),以及控制音頻渲染變化230。即使沒有選擇211對話內(nèi)容,新語音皮膚能夠應(yīng)用230。新的或修改的對話內(nèi)容還可以在沒有新語音皮膚231的情況下應(yīng)用。所確定的參數(shù)應(yīng)用于對話模式(或者新的對話模式加載或替代機器人使用的當前對話模式)。例如,應(yīng)用稱為“Ch'tis”對話模式并且講出句子142。可以觀察到,整體地或者部分地,對話內(nèi)容和/或語音皮膚參數(shù)能夠從因特網(wǎng)或云223取回。
現(xiàn)在描述對話模式(對話內(nèi)容以及尤其是語音皮膚)的示例。
在實施例中,“實用”對話模式(例如,對話內(nèi)容的修改)允許使用一個或多個詞典(或詞庫)以便機器人能夠以不同方式說出給定的句子。例如,可以使用同義詞。有益地,該實施例避免了機器人重復(fù)詞語。語言學(xué)家(編輯預(yù)制作對話句子)能夠?qū)懞芏鄬υ拑?nèi)容或話題,從而使得機器人能夠講出很多事情。同義詞的使用增加了機器人的表達的多樣性,像人類在使用不同詞語時共同完成的。對話模式能夠不同地渲染對話句子。例如,不是重復(fù)“今天天氣很好”,機器人將能夠說出“今天天氣令人舒服”。
在實施例中,“本地”適應(yīng)允許定制或個性化對話內(nèi)容和/或語音皮膚,取決于多個參數(shù),包括地理位置。例如,一些地理區(qū)域——例如,機器人將在此商業(yè)化——的一些語言特征,能夠通過應(yīng)用適合的語音皮膚來處理。在該實施例中,一些詞語的發(fā)音能夠例如基于地理位置來改動。語音皮膚的觸發(fā)條件例如可以包括地理位置參數(shù)。實際上,在法國南部商業(yè)化的機器人能夠自動地加載法國南部口音,反之亦然,對于法國北部加載北方口音。還可以應(yīng)用慣用表達。
在實施例中,能夠?qū)崿F(xiàn)或執(zhí)行“教育”對話模式。一般而言,由于實質(zhì)性內(nèi)容的添加可以是對話模式的應(yīng)用的部分,所以可以設(shè)想一些教育范圍。在該模式中,能夠?qū)崿F(xiàn)教育對話模式(例如,利用先決條件、目標的定義、因此的教育內(nèi)容、同化的核驗步驟)。用戶可以利用陪伴機器人來學(xué)習(xí)外語。用戶還可以發(fā)現(xiàn)他們的母語的方面。例如,不同的語言式樣能夠教導(dǎo)年輕用戶(法國“Soutenu”、法國“Verlan”、法國“argot”等)。對話模式還能夠?qū)崿F(xiàn)具體的專業(yè)術(shù)語(醫(yī)療、律師等)。
在實施例中,能夠?qū)崿F(xiàn)“有趣”對話模式。例如機器人能夠模仿或參照近期發(fā)布的劇院電影。例如,語音皮膚可以是“Dark Vador”或“Master Yoda”皮膚(Yoda人物經(jīng)常變換動詞和主語,Dark Vador可以將“我是你的父親”添加到句子末尾并且以噪聲呼吸)。
在發(fā)展中,電影院的發(fā)布與可下載程序相關(guān)聯(lián),當可下載程序加載到機器人上時會使得所述機器人實現(xiàn)具體的對話模式(根據(jù)對話內(nèi)容和/或語音皮膚表達力)。例如,在電影院發(fā)布了比如“Bienvenue chez les Ch'tis”后,對應(yīng)的對話模式能夠供用作“特別吸引人的東西”或衍生產(chǎn)品。在實施例中,能夠在DVD外套的背面上或者在電影票上使用的QR碼可由圖像獲取器件來讀取并且實現(xiàn)相應(yīng)的對話模式的它們對應(yīng)的軟件程序能夠被下載且進一步安裝。任選地,該軟件程序的效果的持續(xù)時間可以在時間上受限制(例如,兩周)。在另一實施例中,著名明星或名人或英雄可以具有他們的數(shù)字對話模式對應(yīng)部分。例如,Claude(法國的著名歌唱家)的愛好者可以在機器人中實現(xiàn)對應(yīng)的語音皮膚(例如,語音模仿、語調(diào))和/或?qū)υ拑?nèi)容(例如,復(fù)制品、引用語、會晤確切復(fù)制或重構(gòu),等)。作為多模態(tài)對象,除了所描述的對話模式之外(以及任選地),機器人例如能夠編舞或者像Claude一樣跳舞或者以歌唱家的過去記錄的會晤的真實摘錄(關(guān)于版權(quán)的方面如果適用)排他地回應(yīng)。
在實施例中,機器人能夠從與用戶的交互中達到長期同化。例如,個性化的以及持久的對話模型能夠逐漸地與給定機器人相關(guān)聯(lián)。長期品質(zhì)的選擇和持續(xù)能夠幫助定義與機器人相關(guān)聯(lián)的“性格”的獨特性。例如,比如“vin de diouss”的某些表達可以呈現(xiàn)出沿某些用戶的充分高的可接受性,使得皮膚的特定方面將永久地實現(xiàn)。經(jīng)過一個又一個皮膚,機器人的“個性”因此能夠固定,混合不同對話模式的不同的特別之處,以及尤其是語音皮膚的不同的特別之處。
語言交互能夠暗示學(xué)習(xí)曲線,既針對機器人,又針對用戶。該交互可以命名為“社會交互”,即使一個參與者是機器人。鼓勵(確認)所強調(diào)的重復(fù)性以及迭代性的語言交互例如能夠促進學(xué)習(xí)活動。對話交互通常減少了“使用”與“學(xué)習(xí)”階段之間的分離度。陪伴機器人能夠嘗試模仿其“教育者”,例如重新使用人類的口語表達和/或利用相似的音速。更多的與機器人的交互通常意味著更相關(guān)的交互,因為知識庫得以豐富和交叉檢查。
現(xiàn)在描述對話模式的觸發(fā)的示例(例如,對話內(nèi)容和/或?qū)υ捚つw的激活或去激活,例如利用執(zhí)行規(guī)則)。
對話模式(例如,語音皮膚)能夠與一個或多個執(zhí)行規(guī)則相關(guān)聯(lián)??梢愿鶕?jù)該執(zhí)行規(guī)則來觸發(fā)(激活或去激活)對話模式。下文描述不同的實施例。存在多種在人類用戶與機器人之間的包括句子的對話期間觸發(fā)包括對話內(nèi)容和對話語音皮膚的對話模式的開始或執(zhí)行的方式。這些不同的觸發(fā)一個或多個對話模式的開始或執(zhí)行的方式(尤其所下文所描述的)能夠獨立并且能夠進一步彼此結(jié)合。
在實施例中,一個或多個軟件應(yīng)用的開始或執(zhí)行在與用戶的對話(與用戶的交互)期間被觸發(fā)。音頻信號被捕獲,任選的被過濾和增強,執(zhí)行講話-文本操作(在機器人上本地地和/或在云上遠程地),所獲得的文本被分析,并且利用所述格式來執(zhí)行一個或多個比較。在一個或多個匹配時,任選地利用閾值,在那些安裝到機器人上的對話模式中選定一個或多個對話模式。結(jié)果,執(zhí)行一個或多個對話模式。
在實施例中,對話模式的開始是全自動的,即無需用戶同意或確認。在發(fā)展中,用戶或超級用戶(例如,父母)能夠中斷或暫?;蚪K止或結(jié)束對話模式的執(zhí)行。在另一實施例中,對話模式的開始要求用戶的明確確認。機器人能夠聲明其開始某對話模式的意圖,但是將在繼續(xù)之前等待確認。例如,機器人能夠聲明“我打算像Dark Vador一樣講話”并且用戶仍能夠回復(fù)“現(xiàn)在不可以”。
在實施例中,能夠取決于開始條件或參數(shù)執(zhí)行對話模式。這些條件或參數(shù)可以是事實或規(guī)則或者兩者(關(guān)于事實的規(guī)則)。這些事實例如包括用戶的類型或種類、當前上下文或情形或環(huán)境,其特征在于一個環(huán)境值(例如,當前本地天氣、日期和時間、檢測到的情感、用戶數(shù)量等)。執(zhí)行規(guī)則的范圍從簡單規(guī)則到復(fù)雜規(guī)則。執(zhí)行規(guī)則可以是有條件的。例如,在實施例中,多個規(guī)則必須其它規(guī)則中同時滿足以授權(quán)或允許對話模式的執(zhí)行。在另一實施例中,多個規(guī)則必須順序地滿足(例如,按某次序和/或利用時間限制或閾值)。一些執(zhí)行規(guī)則可以被預(yù)定義。一些其它執(zhí)行規(guī)則可以被動態(tài)地定義(例如,一些規(guī)則可以取自因特網(wǎng))。
在實施例中,執(zhí)行規(guī)則可以是簡單規(guī)則。例如,執(zhí)行規(guī)則可以包括(例如,編碼)年齡限制。在另一實施例中,多個執(zhí)行規(guī)則可以累加地使用或應(yīng)用。例如,特定的語音皮膚可以在年齡在12以上的用戶面前授權(quán)和/或根據(jù)某些情形(一天中的時間、測得的聽眾的情感等)來授權(quán)。在實施例中,對話語音皮膚或?qū)υ拑?nèi)容的應(yīng)用由機器人檢測到預(yù)定義事件時觸發(fā),所述事件確定時間標準(日歷、一天中的時間等)和空間標準(在附近檢測到的用戶數(shù)量、所述用戶的相應(yīng)的年齡、從所述用戶感知到的情感態(tài)度,例如微笑與否)的具體組合。
在實施例中,一些執(zhí)行規(guī)則能夠是用戶可配置的(例如,父母控制)。一些執(zhí)行規(guī)則可以預(yù)定義,而其它執(zhí)行規(guī)則可以動態(tài)地取回,例如從因特網(wǎng)和/或從其它機器人。在同一對話期間能夠激活或去激活對話模式:這些激活或去激活可以是動態(tài)的,例如能夠以不同方式取決于所感知到的環(huán)境。
在實施例中,對話模式(例如,對話內(nèi)容和/或?qū)υ捚つw,獨立地)能夠根據(jù)多種參數(shù)來激活或結(jié)束,包括“標簽”的使用和/或“條件”的使用和/或“先決條件”的使用。
標簽是能夠與機器人所能說的一個或多個表達相關(guān)聯(lián)的標記。這些標簽?zāi)軌騽討B(tài)地激活或去激活并且能夠判定是否能夠保存相關(guān)聯(lián)的表達。例如,在機器人詢問“你喜歡談?wù)撆腼儐??”,如果用戶回?yīng)“不,我對烹飪不感興趣”(或類似的),標簽“烹飪”被去激活。機器人更新與標識的用戶相關(guān)聯(lián)的對話話題的列表。機器人未來將避免所述對話話題。
“條件”和“交叉條件”使得能夠修改機器人將要說的,其根據(jù)預(yù)定義變量(例如,用戶偏好)。例如,對于機器人問的問題“你的年齡是”,用戶可以回應(yīng)“我12歲”。在該情況下,機器人將值12存儲為所標識的用戶的值的年齡。后來,機器人可以問“你今晚做什么”。如果用戶回應(yīng)“什么也不做”,則機器人將回應(yīng)存儲為與“晚間活動”相關(guān)聯(lián)的變量。從年齡組和夜晚事務(wù)的缺失,機器人的推理后來可以在夜晚推導(dǎo)或提議“你想要和我玩嗎?”。
在實施例中,觸發(fā)(即,對話模式或語音皮膚或?qū)υ拑?nèi)容的激活或去激活)能夠由上下文(例如,環(huán)境、數(shù)據(jù)、時間、地點等)來驅(qū)動。在實施例中,機器人能夠監(jiān)視并記錄一個或多個用戶表達。在檢測到類似“氛圍(atmosphere)”的詞語時,機器人則可以說“atmosphere,atmosphere,est ce j'ai une gueule d'atmosphere?”。這是文化參照的示例。然而,對話還可以更復(fù)雜的事實和規(guī)則來觸發(fā),例如,通過所謂的“事件”檢測。例如,在某年齡組存在的情況下,不允許某些對話模式或皮膚。事實上,機器人例如能夠評估至少用戶年齡在12以下并且檢測到交談中的詞語“法國油炸馬鈴薯”且隨后加載特定的預(yù)定義皮膚(“Ch'tis”)。當用戶觸摸機器人的頭時,事件的另一示例發(fā)生。在該情況下,可以加載、激活和執(zhí)行特定的皮膚。事件可以包括諸如空間放置、姿勢或姿勢的組合、對話內(nèi)容(關(guān)鍵詞或關(guān)鍵表達)、年齡組和或性別的評估、用戶偏好的參數(shù)。
在實施例中,在對話期間執(zhí)行一個或多個應(yīng)用,通過一個或多個執(zhí)行規(guī)則的滿足(或核驗或滿意)而觸發(fā)該一個或多個應(yīng)用。人與機器之間的對話被監(jiān)視并且“格式”(例如)從對話流中持續(xù)地提取(“協(xié)作對話”模式)。在實施例中,講話流被接收且持續(xù)地分析。提取超越了講話流中帶有或者不帶有標記(“好的,Glass,拍照”)的語音命令(例如,關(guān)鍵表達)的唯一提取。尤其是,用戶的詞語或表達被提取且與預(yù)定義條件、標簽、標記或交叉條件進行比較或匹配。
在另一實施例中,預(yù)定義一個或多個執(zhí)行規(guī)則。軟件應(yīng)用由編輯者或出版者提供,包括包含執(zhí)行規(guī)則列表的文件以便能夠或允許或授權(quán)所述對話模式的執(zhí)行。執(zhí)行規(guī)則被測試:如果它們令人滿意或允許或核驗,則能夠選擇一個或多個對話模式。一些規(guī)則可以是最小滿足標準。一些其它規(guī)則時間能夠定義優(yōu)選的開始或執(zhí)行條件。例如,最小執(zhí)行規(guī)則可以是“如果用戶年齡在12以下且在22pm之前,則Dark Vador語音皮膚被授權(quán)”,優(yōu)選的規(guī)則可以是“如果三個用戶位于5m內(nèi),并且至少兩個用戶年齡在12以下,并且至少一個正在微笑且如果沒其它相反指示,則提議用Dark Vador的語音來開玩笑”。
現(xiàn)在描述各個實施例。
現(xiàn)在描述反作用循環(huán)和相關(guān)反饋。在一個實施例中,給定的對話模式(例如,語音皮膚)的整體的成功或失敗,從人類用戶的視角,能夠被接收和/或量化。在發(fā)展中,利用細粒度的粒度,機器人的每個語言主動性可以由用戶確認或不確認(例如,通過檢測明確的許可或者甚至從組合了姿勢和語音命令的復(fù)雜人類行為得到的隱式的許可)。而且,協(xié)作模型能夠?qū)崿F(xiàn):在用戶/機器人的群體之間統(tǒng)計地執(zhí)行給定表達的驗證或無效。例如,如果表達“cha va biloute”接收到關(guān)于安裝的庫的部分的積極反饋超過75%,則所述表達能夠在全局規(guī)模上被驗證。相反,如果表達“à”接收到過少的積極反饋(或者接收到否定反饋),則所述表達可以永久地從具體的對話模式或模型移除。
在發(fā)展中,人類提供給“帶皮膚的”對話的回應(yīng)可以被記錄以及進一步利用。在實施例中,回應(yīng)用于衡量機器人干預(yù)的質(zhì)量。在另一實施例中,它們的回應(yīng)的實質(zhì)進而能夠用于進一步豐富交談模型。例如,如果一個回應(yīng)被循環(huán)地觀察到,則回應(yīng)進一步重新用于對話模式(即,對話內(nèi)容)。
關(guān)于涉及到技術(shù)問題的商業(yè)方面,在實施例中,對話模式(例如,語音皮膚)經(jīng)由電子市場分布。一些皮膚能夠自由下載;一些其它皮膚會要求支付。一些皮膚可以時間上、區(qū)域上或其它硬件要求上受限制。
即使陪伴機器人理論上能夠記錄人類所說的每個詞語,但是隱私方面阻止這樣的記錄。通過使用機器學(xué)習(xí)技術(shù),機器人仍獲取高級和非侵入的特征。例如,利用機器學(xué)習(xí)技術(shù),能夠提取循環(huán)的格式(詞匯表的類型、優(yōu)選的表達,等等)。同樣,從劇院電影有限提取可以從副標題的分析中發(fā)生(在Master Yoda的示例中,能夠從這些分析確定對話內(nèi)容)。關(guān)于音色和頻率的方面,監(jiān)督學(xué)習(xí)能夠允許機器人模仿某些指定的人。例如,機器人可以開始講話并且可以進一步被請求修改某些參數(shù)(“講話更嚴厲點”)。在實施例中,自動化陪伴能夠在實現(xiàn)的語音皮膚與真實音頻摘錄之間執(zhí)行,從而提供用于改善反饋環(huán)的機會。
現(xiàn)在描述對話內(nèi)容的著作。不同的實體可能編輯對話內(nèi)容。在實施例中,操作者或機器人平臺可以著作對話句子(例如,語言學(xué)家編寫對話句子)。在實施例中,對話內(nèi)容由第三方公司(例如,軟件開發(fā)者)編寫和商業(yè)化。在實施例中,對話模式由機器人的用戶或所有者來編寫。例如,軟件工具(“DJ-skins”)或網(wǎng)絡(luò)平臺可以促進語音皮膚的創(chuàng)建或修改。用戶能夠提交新的語音皮膚、在線編輯它們、為流行的語音皮膚投票或評分。版本可以包括混合預(yù)定義語音皮膚和/或為用戶提供某些創(chuàng)建控件來微調(diào)語音皮膚和/或上傳并共享聲音或記錄的句子,或其組合。可用的皮膚可以伴有證書或者沒有,免費或者付費。語音皮膚能夠由機器人的用戶選定,用戶例如可以收聽不同的語音皮膚的不同應(yīng)用并且選擇或選定一個或多個優(yōu)選的應(yīng)用。在另一實施例中,對話由多方共同著作。在實施例中,對話是從機器人的安裝的庫以及從作為不同機器人的所有者的用戶的真正的回應(yīng)合并的。所述合并可以是對初始對話的補充。在另一實施例中,也是作為補充或替代,對話內(nèi)容由在因特網(wǎng)內(nèi)容上進行的提取來編寫(例如,監(jiān)督或非監(jiān)督方法能夠允許標識、提取和使用問題和回答)。有益地,這些實施例允許快速改善對話內(nèi)容,接收分布式的反饋。所述改進能夠迅速地在安裝的庫之間傳播。例如,通過使用閉環(huán)機器學(xué)習(xí),流行的語音皮膚能夠在世界范圍內(nèi)傳播。
如果多個實體能夠貢獻于對話模式的定義(即,提供對話內(nèi)容和/或語音皮膚和/或相關(guān)聯(lián)的執(zhí)行規(guī)則),則最終的實現(xiàn)能夠由機器人的提供者來控制。進一步的控制或調(diào)節(jié)層能夠調(diào)制或過濾或減弱或放大或增加或鼓勵或減少或抑制或限制或避免或禁止對話模式的使用。尤其是,如所述的,對話模式的使用能夠通過執(zhí)行規(guī)則來調(diào)節(jié):機器人的制造商或提供者能夠支配這些規(guī)則,或者部分地支配這些規(guī)則。
在實施例中,機器人的提供者能夠控制最終音頻渲染設(shè)備,即在類比復(fù)原之前的最新點。換言之,由選定的對話模式或內(nèi)容或皮膚應(yīng)用于對話的預(yù)制作句子所得到的機器人的規(guī)劃音頻表達能夠在有效音頻復(fù)原之前濾除。
為了確?;蚝侠淼卮_保機器人不會講出任何差的詞語,能夠?qū)崿F(xiàn)授權(quán)詞語的白名單和禁用詞語的黑名單以及灰名單(能夠取決于實際上下文而被授權(quán)或不被授權(quán)的詞語或表達)。在該情況下,將語音皮膚應(yīng)用于對話內(nèi)容的預(yù)制作句子上的結(jié)果可以與該名單進行比較。超過名單的使用的復(fù)雜的邏輯規(guī)則同樣可以被使用。在成功時,如果經(jīng)授權(quán)或允許,則句子被講出(和/或相應(yīng)地修改)。
另一將一個或多個對話內(nèi)容和/或語音皮膚應(yīng)用于機器人所表達的最終對話的調(diào)節(jié)方法可以包括使用安全啟動方法。例如,對特定對話模式編碼的每個軟件包能夠與(例如,二進制形式的程序的)散列值相關(guān)聯(lián)。通過安裝在機器人中的軟件包的散列值的核驗所證明的所述程序的適當?shù)拇嬖谀軌蛟诔晒蓑灪笥袟l件地授權(quán)機器人的啟動(或者在功能上進行一些限制)。
作為(通常是安裝在機器人中的軟件應(yīng)用的)對話模式的執(zhí)行的進一步調(diào)節(jié),機器人的健康監(jiān)視服務(wù)能夠調(diào)節(jié)執(zhí)行優(yōu)先級。尤其是,軟件應(yīng)用的執(zhí)行可以考慮到該“健康監(jiān)視”服務(wù)。換言之,高級優(yōu)先級方案能夠進一步調(diào)節(jié)軟件應(yīng)用的執(zhí)行,包括對話模式。在實施例中,機器人不與用戶交互(即,沒有與任何人交互)。在該情況下,機器人執(zhí)行或者能夠執(zhí)行自主任務(wù)。在另一實施例中,機器人處于危險中(例如,“防護模式”、電池電量低或者臨界、障礙物的存在或者掉落的風險,等等)。在該情況下,機器人的優(yōu)先級是處理并解決其自身的問題(例如,執(zhí)行其自身的任務(wù))。例如,如果電池電量臨界,則機器人能夠中斷與用戶的對話并且嘗試到達能源基地。如果在附近檢測到用戶和/或如果機器人不處于臨界情形(其中機器人可以不執(zhí)行其基本功能),能夠激活對話模式。相反,如果在附近沒有檢測到用戶和/或機器人處于臨界情形,則對話模式模塊可以被去激活。
公開的方法能夠采取完全硬件的實施例(例如,F(xiàn)PGA)、完全軟件實施例或者包含硬件元件和軟件元件兩者的實施例的形式。軟件實施例包括但不限于固件、常駐軟件、微碼等。本發(fā)明能夠采取計算機程序產(chǎn)品的形式,計算機程序產(chǎn)品能夠從提供由計算機或任何指令執(zhí)行系統(tǒng)使用或者與其相結(jié)合的程序代碼的計算機可用或計算機可讀介質(zhì)來訪問。計算機可用或計算機可讀可以是任何能夠包含、存儲、傳達、傳播或傳送由指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用的或者與其相結(jié)合的程序的裝置。介質(zhì)可以是電子的、磁的、光的、電磁的、紅外的或半導(dǎo)體系統(tǒng)(或裝置或設(shè)備)或傳播介質(zhì)。