国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于視覺和語音的對話數(shù)據(jù)交互處理方法及裝置的制造方法

      文檔序號:10553339閱讀:320來源:國知局
      基于視覺和語音的對話數(shù)據(jù)交互處理方法及裝置的制造方法
      【專利摘要】本發(fā)明提供了一種基于視覺和語音的對話數(shù)據(jù)交互處理方法,其包括以下步驟:在監(jiān)聽語音的同時,捕獲對應的當前場景圖像;基于卷積神經(jīng)網(wǎng)絡算法對所捕獲的當前場景圖像進行視覺特征識別;對監(jiān)聽到的與當前場景圖像對應的語音進行語音特征識別;將識別出的語音特征與識別出的圖像特征結合起來作為主題或關鍵詞以進行語義解析;針對語義解析得到的結果進行響應,輸出語音回答和對應的動作表達。由于采用了視覺識別與語音識別技術的結合得到對話話題的關鍵詞,同時根據(jù)對話生成模型或者答案搜索庫的方式提供答案,使得使用者同機器人的聊天可以更加符合用戶的意圖,對于用戶的提問或者給出的話題可以給出適當?shù)幕貜汀?br>【專利說明】
      基于視覺和語音的對話數(shù)據(jù)交互處理方法及裝置
      技術領域
      [0001]本發(fā)明涉及智能機器人領域,具體地說,涉及一種基于視覺和語音的對話數(shù)據(jù)交互處理方法及裝置。
      【背景技術】
      [0002]在對話數(shù)據(jù)交互的技術領域中,需要提供一種能夠讓智能機器人根據(jù)當前聊天場景下的各種特征綜合給出對話答案的交互數(shù)據(jù)處理方法或系統(tǒng),從而提高用戶的使用體驗,滿足用戶的聊天需求。

      【發(fā)明內容】

      [0003]為解決現(xiàn)有技術的上述問題,本發(fā)明提供了一種基于視覺和語音的對話數(shù)據(jù)交互處理方法,所述處理方法包括以下步驟:
      [0004]在監(jiān)聽語音的同時,捕獲對應的當前場景圖像;
      [0005]基于卷積神經(jīng)網(wǎng)絡算法對所捕獲的當前場景圖像進行視覺特征識別;
      [0006]對監(jiān)聽到的與當前場景圖像對應的語音進行語音特征識別;
      [0007]將識別出的語音特征與識別出的圖像特征結合起來作為主題或關鍵詞以進行語義解析;
      [0008]針對語義解析得到的結果進行響應,輸出語音回答和對應的動作表達。
      [0009]根據(jù)本發(fā)明的一個實施例,在基于視覺和語音的對話數(shù)據(jù)交互處理方法中,對所捕獲的當前場景圖像進行視覺識別包括對當前場景圖像進行人體身份特征識別、主題特征識別以及發(fā)出動作的意圖特征識別。
      [0010]根據(jù)本發(fā)明的一個實施例,在進行語義解析的步驟中,將所述識別出的語音特征和所述識別出的圖像特征作為知識庫匹配答案的參考項進行輸出。
      [0011]根據(jù)本發(fā)明的一個實施例,在進行語義解析的步驟中,將所述識別出的語音特征和所述識別出的圖像特征作為循環(huán)神經(jīng)網(wǎng)絡的對話生成模塊的額外輸入信息進行輸出。
      [0012]根據(jù)本發(fā)明的一個實施例,在進行語義解析的步驟中,還需要發(fā)出要指令機器人的其他運動系統(tǒng)做出某動作的信號。
      [0013]根據(jù)本發(fā)明的另一個方面,還提供了一種基于視覺和語音的對話數(shù)據(jù)交互處理裝置,所述處理裝置包括:
      [0014]監(jiān)聽與捕獲模塊,其用于在監(jiān)聽語音的同時,捕獲對應的當前場景圖像;
      [0015]圖像識別模塊,其用于基于卷積神經(jīng)網(wǎng)絡算法對所捕獲的當前場景圖像進行視覺特征識別;
      [0016]語音識別模塊,其用于對監(jiān)聽到的與當前場景圖像對應的語音進行語音特征識別;
      [0017]語義解析模塊,其用于將識別出的語音特征與識別出的圖像特征結合起來作為主題或關鍵詞以進行語義解析;
      [0018]對話輸出模塊,針對語義解析得到的結果進行響應,輸出語音回答和對應的動作表達。
      [0019]根據(jù)本發(fā)明的一個實施例,在圖像識別模塊中,還包括對當前場景圖像進行人體身份特征識別的身份識別單元、主題特征識別單元以及發(fā)出動作的意圖特征識別單元。
      [0020]根據(jù)本發(fā)明的一個實施例,在語義解析模塊中還包括答案搜索接口單元,其用于將所述識別出的語音特征和所述識別出的圖像特征作為知識庫匹配答案的參考項進行輸出。
      [0021 ]根據(jù)本發(fā)明的一個實施例,在語義解析模塊中還包括對話生成模塊接口單元,其用于將所述識別出的語音特征和所述識別出的圖像特征作為循環(huán)神經(jīng)網(wǎng)絡的對話生成模塊的額外輸入信息進行輸出。
      [0022]根據(jù)本發(fā)明的一個實施例,所述處理裝置還包括動作決策模塊,其中所述動作決策模塊與所述語義解析模塊耦接,以接收所述語義解析模塊發(fā)出的要指令機器人的其他運動系統(tǒng)做出某動作的信號,并根據(jù)該信號作出相應動作的決策。
      [0023]根據(jù)本發(fā)明的基于視覺和語音的對話交互數(shù)據(jù)處理方法或者實現(xiàn)該方法的裝置,由于采用了視覺識別與語音識別技術的結合對對話場景進行分析,得到對話話題的關鍵詞,同時根據(jù)對話生成模型或者搜索答案庫的方式提供答案,使得使用者同機器人的聊天可以更加符合用戶的意圖,機器人對于用戶的提問或者給出的話題可以給出適當?shù)幕貜停粫霈F(xiàn)像現(xiàn)有技術中沒有考慮應用場景的錯誤的語義識別的問題出現(xiàn)。
      [0024]本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權利要求書以及附圖中所特別指出的結構來實現(xiàn)和獲得。
      【附圖說明】
      [0025]附圖用來提供對本發(fā)明的進一步理解,并且構成說明書的一部分,與本發(fā)明的實施例共同用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中:
      [0026]圖1是根據(jù)本發(fā)明的一個實施例的用于結合視覺識別和語音識別同時輸出語音和對應動作的對話數(shù)據(jù)交互處理方法的流程圖;
      [0027]圖2是根據(jù)本發(fā)明的一個實施例對所捕獲的當前場景圖像中的各個特征進行分類的不意圖;
      [0028]圖3是根據(jù)本發(fā)明的一個實施例的對話數(shù)據(jù)交互處理裝置的結構框圖。
      【具體實施方式】
      [0029]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,以下結合附圖對本發(fā)明實施例作進一步地詳細說明。
      [0030]本發(fā)明的方法是在智能機器人中實現(xiàn)的。如圖1所示,其中顯示了根據(jù)本發(fā)明的一個實施例的用于結合視覺識別和語音識別同時輸出語音和對應動作的對話數(shù)據(jù)交互處理方法的流程圖。
      [0031]在該圖中,方法開始于步驟S101。在步驟SlOl中,機器人的聽覺系統(tǒng)在監(jiān)聽外界語音的同時,還通過視覺感知系統(tǒng)捕獲發(fā)出語音時刻對應的當前場景圖像。例如,當監(jiān)聽到聲音“好累啊!”時,機器人同時捕獲場景圖像,例如用戶正在球場拿著球的畫面,或者用戶在書桌上看書的畫面。
      [0032]在該場景圖像中,包括人的圖像、物體圖像、背景圖像以及所捕獲的一系列動作序列幀圖像。通過對這些不同的圖像進行分類視覺識別,從而判斷出所發(fā)出語音的準確語義。
      [0033]為了提高視覺識別的準確性,本發(fā)明采用卷積神經(jīng)網(wǎng)絡算法進行視覺特征的提取和分析。因此,接下來,在步驟S102中,基于卷積神經(jīng)網(wǎng)絡算法對所捕獲的當前場景圖像進行視覺特征識別。
      [0034]卷積網(wǎng)絡最初是受視覺神經(jīng)機制的啟發(fā)而設計的,是為識別二維形狀而設計的一個多層感知器。由于這種網(wǎng)絡結構對平移、比例縮放、傾斜或者其它形式的變形具有高度不變性,因此,在圖像識別技術領域,卷積網(wǎng)絡得到廣泛應用。
      [0035]而卷積神經(jīng)網(wǎng)絡是近年發(fā)展起來并引起廣泛重視的一種高效的圖像特征的識別方法。20世紀60年代,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時發(fā)現(xiàn)其獨特的網(wǎng)絡結構可以有效地降低反饋神經(jīng)網(wǎng)絡的復雜性,繼而提出了卷積神經(jīng)網(wǎng)絡(Convolut1nal Neural Networks,簡稱CNN)?,F(xiàn)在,CNN已經(jīng)成為眾多科學領域的研究熱點之一。特別是在模式分類領域,由于該網(wǎng)絡避免了對圖像的復雜前期預處理,可以直接輸入原始圖像,因而得到了更為廣泛的應用。K.Fukushima在1980年提出的新識別機是卷積神經(jīng)網(wǎng)絡的第一個實現(xiàn)網(wǎng)絡。隨后,更多的科研工作者對該網(wǎng)絡進行了改進。其中,具有代表性的研究成果是Alexander和Taylor提出的“改進認知機”,該方法綜合了各種改進方法的優(yōu)點并避免了耗時的誤差反向傳播。
      [0036]—般地,CNN的基本結構包括兩層。其一為特征提取層,每個神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其它特征間的位置關系也隨之確定下來。其二是特征映射層,網(wǎng)絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經(jīng)元的權值相等。特征映射結構采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡的激活函數(shù),使得特征映射具有位移不變性。
      [0037]此外,由于一個映射面上的神經(jīng)元共享權值,因而減少了網(wǎng)絡自由參數(shù)的個數(shù)。卷積神經(jīng)網(wǎng)絡中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結構減小了特征分辨率。
      [0038]CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓練數(shù)據(jù)進行學習,因此在使用CNN時,避免了顯示的特征抽取,而隱式地從訓練數(shù)據(jù)中進行學習。再者由于同一特征映射面上的神經(jīng)元權值相同,所以網(wǎng)絡可以并行學習,這也是卷積網(wǎng)絡相對于神經(jīng)元彼此相連網(wǎng)絡的一大優(yōu)勢。卷積神經(jīng)網(wǎng)絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優(yōu)越性,其布局更接近于實際的生物神經(jīng)網(wǎng)絡,權值共享降低了網(wǎng)絡的復雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡這一特點避免了特征提取和分類過程中數(shù)據(jù)重建的復雜度。
      [0039]基于卷積神經(jīng)網(wǎng)絡的一個變形是神經(jīng)認知機,其將一個視覺模式分解成許多子模式(特征),然后進入分層遞階式相連的特征平面進行處理。它試圖將視覺系統(tǒng)模型化,使其能夠在即使物體有位移或輕微變形的時候,也能完成識別。神經(jīng)認知機能夠利用位移恒定能力從激勵模式中學習,并且可識別這些模式的變化形。在其后的應用研究中,F(xiàn)ukushima將神經(jīng)認知機主要用于手寫數(shù)字的識別。隨后,國內外的研究人員提出多種卷積神經(jīng)網(wǎng)絡形式,在郵政編碼識別(Y.LeCun etc)、車牌識別和人臉識別等方面得到了廣泛的應用。
      [0040]本發(fā)明利用了上述技術對所采集到的圖像信息進行特征識別,例如識別出場景圖像中針對人圖像的身份特征、物體圖像的主題特征、人發(fā)出一系列動作的意圖特征以及背景圖像中的其它特征等(如圖2所示),以便進行接下來的交互決策。
      [0041]繼續(xù)參照圖1,在步驟S103中,對監(jiān)聽到的與當前場景圖像對應的語音進行語音特征識別。
      [0042]在步驟S104中,將上述識別出的語音特征和識別出的圖像特征進行結合,并作為主題或關鍵詞進行語義解析。
      [0043]例如,當機器人聽到主人說“好累啊!”此時機器人捕捉畫面,可能的畫面是“主人拿著一個籃球”,也可能是“主人正在看書”。針對于這兩種場景,圖像識別模塊分別識別到了 “籃球”這個物體特征和“書”這個物體特征。背景也許分別是草場或者書房的特征。
      [0044]剛才提到說是主人,說明在此之前,機器人已經(jīng)先進行了人體的身份特征識別,并識別出發(fā)出語音的對象就是主人,或者主人的朋友。對于身份特征識別,機器人需要進行精確的人面部特征的識別,對于畫面中出現(xiàn)的三角形感興趣區(qū)域采用卷積神經(jīng)網(wǎng)絡方法進行識別。因為在捕獲場景圖像時,人的圖像尤其是人臉的特征因為角度的問題會發(fā)生變化。
      [0045]因此這些特征在機器人語義理解方面是非常有幫助的,雖然聽到的是同一句話,但是假如沒有這些視覺特征的話,機器人可能回答的答案是一樣。但是我們知道,打籃球的累和看書學習的累顯然有不同的處理方法,機器人要提供不同的回答。
      [0046]在步驟S104中,將識別出的語音特征與識別出的圖像特征結合起來作為主題或關鍵詞以進行語義解析。如上所述,機器人僅靠語音識別,而不考慮具體場景圖像,很可能理解的意思是錯誤的或者說不恰當?shù)?,因此這樣的交流沒有意義。本發(fā)明在語義解析時,還基于視覺識別特征。通過將語音特征與圖像識別技術獲得的人體身份特征、背景圖像中的主題特征以及發(fā)出動作的意圖特征進行結合,這樣獲得的主題或關鍵詞作為語義解析的基礎。例如通過對話生成模塊作為其額外輸入信息,從而產生針對用戶對話的準確的答案。或者,在語義解析后,可以將所識別出的語音特征和所識別出的圖像特征作為知識庫匹配答案的參考項進行輸出。
      [0047]在步驟S105中,針對語義解析得到的結果進行響應,輸出語音回答和對應的動作表達。
      [0048]語音回答的答案可例如通過上述的知識庫匹配答案的方式獲得,也可以通過采用循環(huán)神經(jīng)網(wǎng)絡的對話生成模塊來獲得。
      [0049]然而對應的動作表達需要動作決策模塊來根據(jù)語義回答和情緒等作出相應的動作。因此,在語義解析之后,還需要發(fā)出命令機器人的其他運動系統(tǒng)作出某動作的信號。例如針對“你好”的語音發(fā)出自動作出伸出手來進行握手的動作。或者,根據(jù)當時的回答做出搖頭的動作等等。
      [0050]針對所捕獲的當前場景圖像,如圖2所示,其可以進行進一步的分類。例如針對人體圖像,需要識別面部特征、表情特征、衣服顏色特征、樣式特征、發(fā)型等等。而對于物體圖像,需要識別出是屬于哪一類物體如文具、玩具、寵物等等。對于背景圖像,需要識別出環(huán)境特征,天氣、地理位置等等。而對于捕獲的一系列動作,需要識別出人發(fā)出這些動作與語音配合的意圖特征等。當然,場景圖像中還包括了其他特征,這里不一一贅述。
      [0051]由于本發(fā)明的方法描述的是在計算機系統(tǒng)中實現(xiàn)的。該計算機系統(tǒng)例如可以設置在機器人的控制核心處理器中。例如,本文所述的方法可以實現(xiàn)為能以控制邏輯來執(zhí)行的軟件,其由機器人控制系統(tǒng)中的CPU來執(zhí)行。本文所述的功能可以實現(xiàn)為存儲在非暫時性有形計算機可讀介質中的程序指令集合。當以這種方式實現(xiàn)時,該計算機程序包括一組指令,當該組指令由計算機運行時其促使計算機執(zhí)行能實施上述功能的方法。可編程邏輯可以暫時或永久地安裝在非暫時性有形計算機可讀介質中,例如只讀存儲器芯片、計算機存儲器、磁盤或其他存儲介質。除了以軟件來實現(xiàn)之外,本文所述的邏輯可利用分立部件、集成電路、與可編程邏輯設備(諸如,現(xiàn)場可編程門陣列(FPGA)或微處理器)結合使用的可編程邏輯,或者包括它們任意組合的任何其他設備來體現(xiàn)。所有此類實施例旨在落入本發(fā)明的范圍之內。
      [0052]因此,根據(jù)本發(fā)明的另一個方面,還提供了一種基于視覺和語音的對話數(shù)據(jù)交互處理裝置600。如圖3所示,該對話數(shù)據(jù)交互處理裝置600包括:監(jiān)聽與捕獲模塊601、圖像識別模塊602、語音識別模塊603、語義解析模塊605、對話輸出模塊606。
      [0053]其中,監(jiān)聽與捕獲模塊601用于在監(jiān)聽語音的同時,捕獲對應的當前場景圖像。如圖所示,其與交互層通信,通過交互層中的視覺系統(tǒng)和聽覺系統(tǒng)來監(jiān)聽語音和捕獲圖像。
      [0054]圖像識別模塊602,其用于基于卷積神經(jīng)網(wǎng)絡算法對所捕獲的當前場景圖像進行視覺特征識別。而語音識別模塊603,其用于對監(jiān)聽到的與當前場景圖像對應的語音進行語音特征識別。
      [0055]在圖像識別模塊602中,其還包括身份識別單元、主題識別單元、意圖識別單元。通過這些單元,圖像識別模塊可以將捕獲的場景圖像中的各個要素進行逐一識別。例如,針對人的圖像,通過識別面部特征、表情特征、衣服顏色特征、樣式特征、發(fā)型等等。而對于物體圖像,需要識別出是屬于哪一類物體如文具、玩具、寵物等等。對于背景圖像,需要識別出環(huán)境特征,天氣、地理位置等等。而對于捕獲的一系列動作,需要識別出人發(fā)出這些動作與語音配合的意圖特征等。
      [0056]在語義解析模塊605中,該模塊用于將識別出的語音特征與識別出的圖像特征結合起來作為主題或關鍵詞以進行語義解析。在一個實施例中,為了將結合了語音特征和視覺特征得到的對話的主題或關鍵詞進行對話的應用,可以通過設置答案搜索接口來把主題或關鍵詞作為知識庫的搜索輸入項進行答案的搜索,或者通過對話生成接口將主題或關鍵詞作為循環(huán)網(wǎng)絡的對話生成模塊的附加輸入項來進行對話答案的生成。
      [0057]對話輸出模塊606針對語義解析得到的結果進行響應,輸出語音回答和對應的動作表達。輸出語音回答就是通過音頻處理系統(tǒng)將要輸出的例如文本形式的回答轉換成可以通過麥克風播放的語音。進行對應的動作表達,需要調用機器人的運動決策模塊,通過該模塊根據(jù)回答做出相應動作的決策,并通過執(zhí)行機構運動相應部件。
      [0058]因此,所述處理裝置600還包括動作決策模塊,其中所述動作決策模塊與所述語義解析模塊耦接,以接收所述語義解析模塊發(fā)出的命令機器人的其他運動系統(tǒng)做出某動作的信號,并根據(jù)該信號作出相應動作的決策。
      [0059]應該理解的是,本發(fā)明所公開的實施例不限于這里所公開的特定結構、處理步驟或材料,而應當延伸到相關領域的普通技術人員所理解的這些特征的等同替代。還應當理解的是,在此使用的術語僅用于描述特定實施例的目的,而并不意味著限制。
      [0060]說明書中提到的“一個實施例”或“實施例”意指結合實施例描述的特定特征、結構或特性包括在本發(fā)明的至少一個實施例中。因此,說明書通篇各個地方出現(xiàn)的短語“一個實施例”或“實施例”并不一定均指同一個實施例。
      [0061]雖然本發(fā)明所公開的實施方式如上,但所述的內容只是為了便于理解本發(fā)明而采用的實施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術領域內的技術人員,在不脫離本發(fā)明所公開的精神和范圍的前提下,可以在實施的形式上及細節(jié)上作任何的修改與變化,但本發(fā)明的專利保護范圍,仍須以所附的權利要求書所界定的范圍為準。
      【主權項】
      1.一種基于視覺和語音的對話數(shù)據(jù)交互處理方法,其特征在于,所述處理方法包括以下步驟: 在監(jiān)聽語音的同時,捕獲對應的當前場景圖像; 基于卷積神經(jīng)網(wǎng)絡算法對所捕獲的當前場景圖像進行視覺特征識別; 對監(jiān)聽到的與當前場景圖像對應的語音進行語音特征識別; 將識別出的語音特征與識別出的圖像特征結合起來作為主題或關鍵詞以進行語義解析; 針對語義解析得到的結果進行響應,輸出語音回答和對應的動作表達。2.如權利要求1所述的基于視覺和語音的對話數(shù)據(jù)交互處理方法,其特征在于,對所捕獲的當前場景圖像進行視覺識別包括對當前場景圖像進行人體身份特征識別、主題特征識別以及發(fā)出動作的意圖特征識別。3.如權利要求2所述的基于視覺和語音的對話數(shù)據(jù)交互處理方法,其特征在于,在進行語義解析的步驟中,將所述識別出的語音特征和所述識別出的圖像特征作為知識庫匹配答案的參考項進行輸出。4.如權利要求2所述的基于視覺和語音的對話數(shù)據(jù)交互處理方法,其特征在于,在進行語義解析的步驟中,將所述識別出的語音特征和所述識別出的圖像特征作為循環(huán)神經(jīng)網(wǎng)絡的對話生成模塊的額外輸入信息進行輸出。5.如權利要求1-4中任一項所述的基于視覺和語音的對話數(shù)據(jù)交互處理方法,其特征在于,在進行語義解析的步驟中,還需要發(fā)出命令機器人的其他運動系統(tǒng)做出某動作的信號。6.一種基于視覺和語音的對話數(shù)據(jù)交互處理裝置,其特征在于,所述處理裝置包括: 監(jiān)聽與捕獲模塊,其用于在監(jiān)聽語音的同時,捕獲對應的當前場景圖像; 圖像識別模塊,其用于基于卷積神經(jīng)網(wǎng)絡算法對所捕獲的當前場景圖像進行視覺特征識別; 語音識別模塊,其用于對監(jiān)聽到的與當前場景圖像對應的語音進行語音特征識別; 語義解析模塊,其用于將識別出的語音特征與識別出的圖像特征結合起來作為主題或關鍵詞以進行語義解析; 對話輸出模塊,針對語義解析得到的結果進行響應,輸出語音回答和對應的動作表達。7.如權利要求6所述的基于視覺和語音的對話數(shù)據(jù)交互處理裝置,其特征在于,在圖像識別模塊中,還包括對當前場景圖像進行人體身份特征識別的身份識別單元、主題特征識別單元以及發(fā)出動作的意圖特征識別單元。8.如權利要求7所述的基于視覺和語音的對話數(shù)據(jù)交互處理裝置,其特征在于,在語義解析模塊中還包括答案搜索接口單元,其用于將所述識別出的語音特征和所述識別出的圖像特征作為知識庫匹配答案的參考項進行輸出。9.如權利要求7所述的基于視覺和語音的對話數(shù)據(jù)交互處理裝置,其特征在于,在語義解析模塊中還包括對話生成模塊接口單元,其用于將所述識別出的語音特征和所述識別出的圖像特征作為循環(huán)神經(jīng)網(wǎng)絡的對話生成模塊的額外輸入信息進行輸出。10.如權利要求6-9中任一項所述的基于視覺和語音的對話數(shù)據(jù)交互處理裝置,其特征在于,所述處理裝置還包括動作決策模塊,其中所述動作決策模塊與所述語義解析模塊耦接,以接收所述語義解析模塊發(fā)出的命令機器人的其他運動系統(tǒng)做出某動作的信號,并根據(jù)該信號作出相應動作的決策。
      【文檔編號】G10L15/02GK105913039SQ201610265947
      【公開日】2016年8月31日
      【申請日】2016年4月26日
      【發(fā)明人】徐振敬, 陸羽皓
      【申請人】北京光年無限科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1