基于語音和手勢識別的多模態(tài)非觸摸人機交互方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于人機交互領(lǐng)域,具體涉及一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法及系統(tǒng)。
【背景技術(shù)】
[0002]在當(dāng)前的高速發(fā)展的移動互聯(lián)網(wǎng)技術(shù)領(lǐng)域,人與移動終端(比如手機)的接觸越來越多,移動終端在人們的生活中也變得越來越不可或缺。隨著移動互聯(lián)網(wǎng)的發(fā)展,更加自然的人機交互方法的需求將會非常強烈。
[0003]在移動終端領(lǐng)域,現(xiàn)有的人機交互方法主要包括按鍵、觸摸屏等接觸式的交互手段以及基于語音的非觸摸的交互方法。而在傳統(tǒng)人機交互領(lǐng)域,多通道的人機交互方法正在興起[I]。這類多通道人機交互界面整合了語音及手勢的多通道輸入,降低了用戶的認(rèn)知負(fù)荷,彌補了單一交互模式給用戶帶來的限制和負(fù)擔(dān)。但是這類方法采用的是單輪次的命令式交互,缺乏對多輪次對話式人機交互的支持。而多輪次對話式的交互正是更加自然、貝占近生活的交互方式。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的旨在針對上述現(xiàn)有技術(shù)中的不足之處,提供一種能給用戶提供非常自然的交互體驗的基于語音和手勢識別的多模態(tài)非觸摸人機交互方法及系統(tǒng)。
[0005]本發(fā)明的目的可以通過以下技術(shù)方案來達到:
[0006]本發(fā)明第一方面提供一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法,包括以下步驟:
[0007]S1、解析用戶輸入的語音或手勢,確定用戶意圖;
[0008]S2、根據(jù)用戶意圖制定語音與手勢的聯(lián)合語義表示,建立語義搜索空間和手勢搜索空間的映射;
[0009]S3、當(dāng)語音和手勢多路輸入同時存在時,融合語音和手勢識別的語義,根據(jù)對話的狀態(tài)切換兩種不同的輸入通道,處理多路輸入沖突時的語義解析;
[0010]S4、優(yōu)化縮小語音識別和手勢識別的語義搜索空間,最終得到用戶的真實意圖。
[0011]進一步地,步驟S2包括:
[0012]使用對話過程中的用戶語義和系統(tǒng)反饋語義的聯(lián)合分布定義系統(tǒng)狀態(tài);
[0013]根據(jù)不同的系統(tǒng)狀態(tài)以及語音語義和手勢語義的交并集處理,對兩種輸入的語義作語義映射。
[0014]進一步地,步驟S3包括:
[0015]支持語音輸入和手勢輸入的雙通道識別,并在特定的系統(tǒng)狀態(tài)下自動開啟手勢識別;
[0016]將語音和手勢作為互斥輸入源,一旦接收到其中一路有效輸入后就立即關(guān)閉另外一路的輸入信息。
[0017]在處理多路輸入沖突時的語義解析時,步驟S3亦可以采取基于統(tǒng)計機器學(xué)習(xí)、以分類器的置信度或者概率輸出進行通道選擇判斷以及融合的方法處理多路輸入沖突。分類器以語音輸入和手勢輸入的信號數(shù)字特征、識別中間結(jié)果、識別置信度等作為輸入特征,通過數(shù)據(jù)學(xué)習(xí),對語音和手勢輸入輸出信號通道的選擇置信度或者概率。若其中一方通道的置信度或者概率值大于設(shè)置好的閾值時,則關(guān)閉另外一路的輸入信息;否則以概率整合的形式合并兩路輸入的語義解析結(jié)果。
[0018]進一步地,步驟S4包括:
[0019]使用語義槽和對應(yīng)值的方法進行用戶意圖理解,使用戶的一句話可以被解析為許多的語義槽-對應(yīng)值對;
[0020]對于有歧義的語義槽,使用領(lǐng)域先驗知識和對話上下文信息作為先驗知識,再通過后驗概率的加權(quán),優(yōu)化縮小語音識別和手勢識別的語義搜索空間,修改語音識別和手勢識別的語義備選項的置信度或概率值,最終得到用戶的真實意圖。
[0021]本發(fā)明第二方面提供一種基于語音和手勢識別的多模態(tài)非觸摸人機交互系統(tǒng),包括語音輸入和手勢輸入模塊、多通道輸入的語義融合、切換以及沖突解析模塊和語義搜索空間優(yōu)化模塊。
[0022]所述語音輸入和手勢輸入模塊用于接收和識別輸入的語音信號與手勢信號。
[0023]所述多通道輸入的語義融合、切換以及沖突解析模塊用于根據(jù)當(dāng)前系統(tǒng)狀態(tài)以及使用通道判別分類器進行多通道輸入的融合、切換和沖突解決。
[0024]所述語義搜索空間優(yōu)化模塊用于根據(jù)領(lǐng)域信息和對話上下文內(nèi)容提供語義搜索空間的優(yōu)化。
[0025]所述語音輸入和手勢輸入模塊、多通道輸入的語義融合、切換以及沖突解析模塊與語義搜索空間優(yōu)化模塊依次串聯(lián)組成流水過程,用于實現(xiàn)上述的一種基于語音和手勢的多模態(tài)非接觸人機交互方法。
[0026]本發(fā)明提供的所述于語音和手勢識別的多模態(tài)非觸摸人機交互方法及系統(tǒng)定義了語音及手勢的聯(lián)合語義,動態(tài)整合語音及手勢的語義結(jié)果,并基于對話的領(lǐng)域先驗知識和上下文信息,通過多輪語音或者手勢的混合交互手段對用戶的意圖進行理解,從而提供給用戶一種非常自然的交互體驗。
【附圖說明】
[0027]圖1是本發(fā)明提供的基于語音和手勢識別的多模態(tài)非觸摸人機交互方法的流程示意圖。
【具體實施方式】
[0028]下面將結(jié)合附圖對本發(fā)明的技術(shù)方案作進一步詳述:
[0029]請參照圖1,一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法,包括以下步驟:
[0030]S1、解析用戶輸入的語音或手勢,確定用戶意圖;
[0031]S2、根據(jù)用戶意圖制定語音與手勢的聯(lián)合語義表示,建立語義搜索空間和手勢搜索空間的映射;
[0032]S3、當(dāng)語音和手勢多路輸入同時存在時,融合語音和手勢識別的語義,根據(jù)對話的狀態(tài)切換兩種不同的輸入通道,處理多路輸入沖突時的語義解析;
[0033]S4、優(yōu)化縮小語音識別和手勢識別的語義搜索空間,最終得到用戶的真實意圖。
[0034]在建立語義搜索空間和手勢搜索空間的映射時,先使用對話過程中的用戶語義和系統(tǒng)反饋語義的聯(lián)合分布定義系統(tǒng)狀態(tài),然后根據(jù)不同的系統(tǒng)狀態(tài)以及語音語義和手勢語義的交并集處理,對兩種輸入的語義作語義映射。比如在機器給用戶提供一個二選一的語義反饋的時候,如“確認(rèn)還是取消? ”,手向左移動表示“確認(rèn)”,向右移動表示“取消”。具體語義函數(shù)表示為,機器反饋=select (slot I, slot2),左移=affirm (slot I),右移=affirm(slot2)。其中select (slotl, slot2)表示機器請求用戶在兩個語義槽slotl和slot2中做選擇,affirm(slot)表示確定選擇其中一個slot。
[0035]在處理多路輸入沖突時的語義解析時,首先在特定的系統(tǒng)狀態(tài)下自動開啟手勢識另IJ,再將語音和手勢作為互斥輸入源,一旦接收到其中一路有效輸入后就立即關(guān)閉另外一路的輸入信息,兩路輸入通道可以互相打斷,語音輸入可以打斷手勢輸入,手勢輸入可以打斷語音輸入。比如簡單地,在機器給出一個二選一的反饋(比如“撥打座機還是手機? ”)時,系統(tǒng)同時開啟語音輸入和手勢輸入通道。一旦檢測到有效的手勢輸入,則丟棄已有的不完整的語音輸入。
[0036]在處理多路輸入沖突時的語義解析時,亦可以采取基于統(tǒng)計機器學(xué)習(xí)、以分類器的置信度或者概率輸出進行通道選擇判斷以及融合的方法處理多路輸入沖突。分類器以語音輸入和手勢輸入的信號數(shù)字特征、識別中間結(jié)果、識別置信度等作為輸入特征,通過數(shù)據(jù)學(xué)習(xí),對語音和手勢輸入輸出信號通道的選擇置信度或者概率。若其中一方通道的置信度或者概率值大于設(shè)置好的閾值時,則關(guān)閉另外一路的輸入信息;否則以概率整合的形式合并兩路輸入的語義解析結(jié)果?;谕ǖ肋x擇置信度的不確定性,可以將語音輸入的語義結(jié)果和手勢輸入的語義結(jié)果以概率整合的方式融合在一起,最后產(chǎn)生帶概率的多候選語義結(jié)果(所有候選結(jié)果的概率和等于一)。該方法可以處