本發(fā)明屬于多模態(tài)人機(jī)交互領(lǐng)域,具體涉及一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)及方法。
背景技術(shù):
1、近年來,隨著傳感器技術(shù)、大數(shù)據(jù)技術(shù)、人工智能技術(shù)等新型技術(shù)的發(fā)展,人機(jī)交互正向著智能感知、高效便捷、以人為本的方向不斷發(fā)展。傳統(tǒng)的鍵盤、鼠標(biāo)、觸屏等接觸式人機(jī)交互方式已無法滿足智能人機(jī)交互的需求,亟需構(gòu)建新型、高效、便捷、智能的人機(jī)交互方式,以實(shí)現(xiàn)人與系統(tǒng)的自然高效互動(dòng)。
2、隨著計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等智能理論與技術(shù)的不斷發(fā)展,研究人員在人機(jī)交互系統(tǒng)中植入語音或手勢等單模態(tài)、非接觸式的智能交互方式,以此拓寬人機(jī)交互的信息來源與實(shí)現(xiàn)方式,提升人機(jī)交互系統(tǒng)的便捷性。然而,語音、手勢等單一模態(tài)的交互輸入方式易受噪聲、顛簸、光照變化等環(huán)境因素影響,導(dǎo)致系統(tǒng)無法全面、準(zhǔn)確地捕捉用戶的交互指令,造成用戶操作意圖的理解偏差,致使系統(tǒng)錯(cuò)誤響應(yīng),進(jìn)而降低人機(jī)交互的準(zhǔn)確性與可靠性。因此,單一模態(tài)的智能人機(jī)交互方式難以滿足高效、準(zhǔn)確的人機(jī)交互需求。
3、面向上述問題,多模態(tài)人機(jī)交互技術(shù)成為研究熱點(diǎn)方向以及應(yīng)用重點(diǎn)方向,通過對語音、手勢等交互信息進(jìn)行有效的結(jié)合,實(shí)現(xiàn)各通道信息互補(bǔ),以此提高智能人機(jī)交互的準(zhǔn)確性與可靠性,提升人機(jī)交互效率,實(shí)現(xiàn)更智能、自然、和諧、高效的人機(jī)交互方式。
技術(shù)實(shí)現(xiàn)思路
1、(一)要解決的技術(shù)問題
2、本發(fā)明要解決的技術(shù)問題是如何提供一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)及方法,以解決單一模態(tài)的智能人機(jī)交互方式難以滿足高效、準(zhǔn)確的人機(jī)交互需求的問題。
3、(二)技術(shù)方案
4、為了解決上述技術(shù)問題,本發(fā)明提出一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng),該系統(tǒng)包括:交互感知層、交互解析層以及交互響應(yīng)層;
5、交互感知層,用于獲取多模態(tài)交互信息,負(fù)責(zé)手勢、語音模態(tài)信息采集設(shè)備的接入,以及交互信息原始信號(hào)的采集與處理,包括:手勢信息獲取模塊、語音信息獲取模塊;
6、交互解析層是人機(jī)交互系統(tǒng)的核心,用于定義各通道人機(jī)交互信息的含義,并解析多模態(tài)交互信息的含義與指令意圖,包括:交互指令定義模塊、手勢指令識(shí)別模塊、語音指令識(shí)別模塊、多模態(tài)指令融合模塊;
7、交互響應(yīng)層是人機(jī)交互系統(tǒng)的輸出窗口,用于實(shí)現(xiàn)交互解析層獲取的人機(jī)交互意圖與應(yīng)用系統(tǒng)的交互操作映射,包括指令-操作轉(zhuǎn)換模塊。
8、本發(fā)明還提供一種融合手勢與語音的多模態(tài)人機(jī)交互方法,該方法包括如下步驟:
9、步驟s1、交互信息感知:通過交互感知層,經(jīng)由相關(guān)傳感器設(shè)備采集用戶手勢、語音交互信息;
10、步驟s2、單模態(tài)交互信息解析:交互感知層將采集到的交互信息傳輸至交互解析層的手勢指令識(shí)別模塊與語音指令識(shí)別模塊;在交互解析層的交互指令定義模塊定義具體的手勢、語音的交互映射指令;按照交互指令定義模塊,由手勢指令識(shí)別模塊采用手勢識(shí)別方法識(shí)別用戶手勢信息的指令含義,由語音指令識(shí)別模塊采用語音識(shí)別方法識(shí)別用戶語音信息的指令含義;
11、步驟s3、多模態(tài)指令語義判斷:使用多模態(tài)指令語義判斷方法判斷各模態(tài)通道的指令信息是否具備操作語義,當(dāng)存在某一模態(tài)的指令信息不存在操作語義,直接輸出具有操作意圖語義的指令信息,并跳轉(zhuǎn)至步驟s5,反之,進(jìn)入步驟s4;
12、步驟s4、多模態(tài)信息融合解析:將手勢指令與語音指令輸入至多模態(tài)指令融合理解模型,由多模態(tài)指令融合理解模型綜合手勢交互信息與語音交互信息,對照交互指令定義模塊的指令定義,評(píng)估并解析用戶的操作意圖;
13、步驟s5、指令-操作轉(zhuǎn)換:將用戶操作意圖傳輸至交互響應(yīng)層的指令-操作轉(zhuǎn)換模塊,由指令-操作轉(zhuǎn)換模塊根據(jù)用戶操作意圖及gis地圖軟件操作api自動(dòng)生成操作指令;
14、步驟s6、應(yīng)用系統(tǒng)響應(yīng):將指令-操作轉(zhuǎn)換模塊生成的操作指令傳輸至gis地圖軟件,由gis地圖軟件做出響應(yīng)響應(yīng),實(shí)現(xiàn)人機(jī)交互操作閉環(huán)。
15、(三)有益效果
16、本發(fā)明提出一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)及方法,本發(fā)明的有益效果體現(xiàn)在:
17、(1)通過手勢、語音等多通道、多模態(tài)人機(jī)交互方式充分拓寬人機(jī)交互信息輸入能力,為用戶提供更自然、便捷的人機(jī)交互方式,加快人機(jī)交互的操作效率;
18、(2)通過多模態(tài)交互信息融合的方式,避免單通道交互信息受環(huán)境影響時(shí)交互準(zhǔn)確性下降的問題,改善人機(jī)交互方法的魯棒性;
19、(3)多模態(tài)人機(jī)交互系統(tǒng)采用模塊化設(shè)計(jì)方式,可以通過先進(jìn)技術(shù)進(jìn)行模塊功能、性能升級(jí),具有較強(qiáng)的可擴(kuò)展性。
1.一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng),其特征在于,該系統(tǒng)包括:交互感知層、交互解析層以及交互響應(yīng)層;
2.如權(quán)利要求1所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng),其特征在于,
3.如權(quán)利要求2所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng),其特征在于,所述攝像頭經(jīng)由交互感知層的手勢信息獲取模塊接入多模態(tài)人機(jī)交互系統(tǒng),為人機(jī)交互應(yīng)用系統(tǒng)提供手勢圖像信息來源;所述氣導(dǎo)麥克風(fēng)經(jīng)由交互感知層的語音信息獲取模塊接入多模態(tài)人機(jī)交互系統(tǒng),為人機(jī)交互應(yīng)用系統(tǒng)提供語音信息來源;所述交互響應(yīng)層的指令-操作轉(zhuǎn)換模塊與gis地圖軟件提供應(yīng)用操作軟件接口相連接,通過指令-操作轉(zhuǎn)換模塊將用戶意圖轉(zhuǎn)換為相應(yīng)操作指令,促使gis地圖軟件做出相關(guān)操作響應(yīng)。
4.一種基于權(quán)利要求1-3任一項(xiàng)所述的系統(tǒng)的融合手勢與語音的多模態(tài)人機(jī)交互方法,其特征在于,該方法包括如下步驟:
5.如權(quán)利要求4所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng),其特征在于,所述步驟s2中,手勢指令識(shí)別模塊采用的手勢識(shí)別方法分為手勢姿態(tài)估計(jì)與手勢指令識(shí)別兩部分,具體實(shí)現(xiàn)步驟如下:
6.如權(quán)利要求6所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng),其特征在于,交互指令定義模塊中的手部動(dòng)作-手勢指令映射關(guān)系中,動(dòng)態(tài)手勢指令包括:單指點(diǎn)擊、雙指點(diǎn)擊、抓握、捏合、張開、平移和旋轉(zhuǎn),靜態(tài)手勢指令包括:“1~9”、“ok”;手部動(dòng)作-手勢指令映射關(guān)系依據(jù)實(shí)際應(yīng)用需求增加、修改或刪除。
7.如權(quán)利要求4所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng),其特征在于,所述步驟s2中語音指令識(shí)別模塊采用asrframe中文語音識(shí)別框架構(gòu)建語音識(shí)別系統(tǒng),實(shí)現(xiàn)用戶語音信息的識(shí)別;交互指令定義模塊中定義語音信息輸入中的指令關(guān)鍵字,包括:“向左”、“向右”、“向上”、“向下”、“平移”、“順時(shí)針”、“逆時(shí)針”、“旋轉(zhuǎn)”、“選中”、“標(biāo)繪”、“標(biāo)記”、“放大”以及“縮小”。
8.如權(quán)利要求4-7任一項(xiàng)所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng),其特征在于,所述步驟s4中的多模態(tài)指令融合理解模型基于transformer網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)設(shè)計(jì),包括:信息編碼、位置編碼、編碼器、解碼器4部分:
9.如權(quán)利要求8所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng),其特征在于,多模態(tài)指令融合理解模型中的歸一化采取層歸一化方式實(shí)現(xiàn)。
10.如權(quán)利要求8所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng),其特征在于,多模態(tài)指令融合理解模型使用交叉熵函數(shù)作為模型的損失函數(shù)進(jìn)行模型訓(xùn)練。