一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)及方法與流程

文檔序號(hào)：40385900發(fā)布日期：2024-12-20 12:08閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)及方法與流程

本發(fā)明屬于多模態(tài)人機(jī)交互領(lǐng)域，具體涉及一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)及方法。

背景技術(shù)：

1、近年來，隨著傳感器技術(shù)、大數(shù)據(jù)技術(shù)、人工智能技術(shù)等新型技術(shù)的發(fā)展，人機(jī)交互正向著智能感知、高效便捷、以人為本的方向不斷發(fā)展。傳統(tǒng)的鍵盤、鼠標(biāo)、觸屏等接觸式人機(jī)交互方式已無法滿足智能人機(jī)交互的需求，亟需構(gòu)建新型、高效、便捷、智能的人機(jī)交互方式，以實(shí)現(xiàn)人與系統(tǒng)的自然高效互動(dòng)。

2、隨著計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等智能理論與技術(shù)的不斷發(fā)展，研究人員在人機(jī)交互系統(tǒng)中植入語音或手勢等單模態(tài)、非接觸式的智能交互方式，以此拓寬人機(jī)交互的信息來源與實(shí)現(xiàn)方式，提升人機(jī)交互系統(tǒng)的便捷性。然而，語音、手勢等單一模態(tài)的交互輸入方式易受噪聲、顛簸、光照變化等環(huán)境因素影響，導(dǎo)致系統(tǒng)無法全面、準(zhǔn)確地捕捉用戶的交互指令，造成用戶操作意圖的理解偏差，致使系統(tǒng)錯(cuò)誤響應(yīng)，進(jìn)而降低人機(jī)交互的準(zhǔn)確性與可靠性。因此，單一模態(tài)的智能人機(jī)交互方式難以滿足高效、準(zhǔn)確的人機(jī)交互需求。

3、面向上述問題，多模態(tài)人機(jī)交互技術(shù)成為研究熱點(diǎn)方向以及應(yīng)用重點(diǎn)方向，通過對語音、手勢等交互信息進(jìn)行有效的結(jié)合，實(shí)現(xiàn)各通道信息互補(bǔ)，以此提高智能人機(jī)交互的準(zhǔn)確性與可靠性，提升人機(jī)交互效率，實(shí)現(xiàn)更智能、自然、和諧、高效的人機(jī)交互方式。

技術(shù)實(shí)現(xiàn)思路

1、(一)要解決的技術(shù)問題

2、本發(fā)明要解決的技術(shù)問題是如何提供一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)及方法，以解決單一模態(tài)的智能人機(jī)交互方式難以滿足高效、準(zhǔn)確的人機(jī)交互需求的問題。

3、(二)技術(shù)方案

4、為了解決上述技術(shù)問題，本發(fā)明提出一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)，該系統(tǒng)包括：交互感知層、交互解析層以及交互響應(yīng)層；

5、交互感知層，用于獲取多模態(tài)交互信息，負(fù)責(zé)手勢、語音模態(tài)信息采集設(shè)備的接入，以及交互信息原始信號(hào)的采集與處理，包括：手勢信息獲取模塊、語音信息獲取模塊；

6、交互解析層是人機(jī)交互系統(tǒng)的核心，用于定義各通道人機(jī)交互信息的含義，并解析多模態(tài)交互信息的含義與指令意圖，包括：交互指令定義模塊、手勢指令識(shí)別模塊、語音指令識(shí)別模塊、多模態(tài)指令融合模塊；

7、交互響應(yīng)層是人機(jī)交互系統(tǒng)的輸出窗口，用于實(shí)現(xiàn)交互解析層獲取的人機(jī)交互意圖與應(yīng)用系統(tǒng)的交互操作映射，包括指令-操作轉(zhuǎn)換模塊。

8、本發(fā)明還提供一種融合手勢與語音的多模態(tài)人機(jī)交互方法，該方法包括如下步驟：

9、步驟s1、交互信息感知：通過交互感知層，經(jīng)由相關(guān)傳感器設(shè)備采集用戶手勢、語音交互信息；

10、步驟s2、單模態(tài)交互信息解析：交互感知層將采集到的交互信息傳輸至交互解析層的手勢指令識(shí)別模塊與語音指令識(shí)別模塊；在交互解析層的交互指令定義模塊定義具體的手勢、語音的交互映射指令；按照交互指令定義模塊，由手勢指令識(shí)別模塊采用手勢識(shí)別方法識(shí)別用戶手勢信息的指令含義，由語音指令識(shí)別模塊采用語音識(shí)別方法識(shí)別用戶語音信息的指令含義；

11、步驟s3、多模態(tài)指令語義判斷：使用多模態(tài)指令語義判斷方法判斷各模態(tài)通道的指令信息是否具備操作語義，當(dāng)存在某一模態(tài)的指令信息不存在操作語義，直接輸出具有操作意圖語義的指令信息，并跳轉(zhuǎn)至步驟s5，反之，進(jìn)入步驟s4；

12、步驟s4、多模態(tài)信息融合解析：將手勢指令與語音指令輸入至多模態(tài)指令融合理解模型，由多模態(tài)指令融合理解模型綜合手勢交互信息與語音交互信息，對照交互指令定義模塊的指令定義，評(píng)估并解析用戶的操作意圖；

13、步驟s5、指令-操作轉(zhuǎn)換：將用戶操作意圖傳輸至交互響應(yīng)層的指令-操作轉(zhuǎn)換模塊，由指令-操作轉(zhuǎn)換模塊根據(jù)用戶操作意圖及gis地圖軟件操作api自動(dòng)生成操作指令；

14、步驟s6、應(yīng)用系統(tǒng)響應(yīng)：將指令-操作轉(zhuǎn)換模塊生成的操作指令傳輸至gis地圖軟件，由gis地圖軟件做出響應(yīng)響應(yīng)，實(shí)現(xiàn)人機(jī)交互操作閉環(huán)。

15、(三)有益效果

16、本發(fā)明提出一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)及方法，本發(fā)明的有益效果體現(xiàn)在：

17、(1)通過手勢、語音等多通道、多模態(tài)人機(jī)交互方式充分拓寬人機(jī)交互信息輸入能力，為用戶提供更自然、便捷的人機(jī)交互方式，加快人機(jī)交互的操作效率；

18、(2)通過多模態(tài)交互信息融合的方式，避免單通道交互信息受環(huán)境影響時(shí)交互準(zhǔn)確性下降的問題，改善人機(jī)交互方法的魯棒性；

19、(3)多模態(tài)人機(jī)交互系統(tǒng)采用模塊化設(shè)計(jì)方式，可以通過先進(jìn)技術(shù)進(jìn)行模塊功能、性能升級(jí)，具有較強(qiáng)的可擴(kuò)展性。

技術(shù)特征：

1.一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)，其特征在于，該系統(tǒng)包括：交互感知層、交互解析層以及交互響應(yīng)層；

2.如權(quán)利要求1所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)，其特征在于，

3.如權(quán)利要求2所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)，其特征在于，所述攝像頭經(jīng)由交互感知層的手勢信息獲取模塊接入多模態(tài)人機(jī)交互系統(tǒng)，為人機(jī)交互應(yīng)用系統(tǒng)提供手勢圖像信息來源；所述氣導(dǎo)麥克風(fēng)經(jīng)由交互感知層的語音信息獲取模塊接入多模態(tài)人機(jī)交互系統(tǒng)，為人機(jī)交互應(yīng)用系統(tǒng)提供語音信息來源；所述交互響應(yīng)層的指令-操作轉(zhuǎn)換模塊與gis地圖軟件提供應(yīng)用操作軟件接口相連接，通過指令-操作轉(zhuǎn)換模塊將用戶意圖轉(zhuǎn)換為相應(yīng)操作指令，促使gis地圖軟件做出相關(guān)操作響應(yīng)。

4.一種基于權(quán)利要求1-3任一項(xiàng)所述的系統(tǒng)的融合手勢與語音的多模態(tài)人機(jī)交互方法，其特征在于，該方法包括如下步驟：

5.如權(quán)利要求4所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)，其特征在于，所述步驟s2中，手勢指令識(shí)別模塊采用的手勢識(shí)別方法分為手勢姿態(tài)估計(jì)與手勢指令識(shí)別兩部分，具體實(shí)現(xiàn)步驟如下：

6.如權(quán)利要求6所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)，其特征在于，交互指令定義模塊中的手部動(dòng)作-手勢指令映射關(guān)系中，動(dòng)態(tài)手勢指令包括：單指點(diǎn)擊、雙指點(diǎn)擊、抓握、捏合、張開、平移和旋轉(zhuǎn)，靜態(tài)手勢指令包括：“1～9”、“ok”；手部動(dòng)作-手勢指令映射關(guān)系依據(jù)實(shí)際應(yīng)用需求增加、修改或刪除。

7.如權(quán)利要求4所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)，其特征在于，所述步驟s2中語音指令識(shí)別模塊采用asrframe中文語音識(shí)別框架構(gòu)建語音識(shí)別系統(tǒng)，實(shí)現(xiàn)用戶語音信息的識(shí)別；交互指令定義模塊中定義語音信息輸入中的指令關(guān)鍵字，包括：“向左”、“向右”、“向上”、“向下”、“平移”、“順時(shí)針”、“逆時(shí)針”、“旋轉(zhuǎn)”、“選中”、“標(biāo)繪”、“標(biāo)記”、“放大”以及“縮小”。

8.如權(quán)利要求4-7任一項(xiàng)所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)，其特征在于，所述步驟s4中的多模態(tài)指令融合理解模型基于transformer網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)設(shè)計(jì)，包括：信息編碼、位置編碼、編碼器、解碼器4部分：

9.如權(quán)利要求8所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)，其特征在于，多模態(tài)指令融合理解模型中的歸一化采取層歸一化方式實(shí)現(xiàn)。

10.如權(quán)利要求8所述的融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)，其特征在于，多模態(tài)指令融合理解模型使用交叉熵函數(shù)作為模型的損失函數(shù)進(jìn)行模型訓(xùn)練。

技術(shù)總結(jié)
本發(fā)明涉及一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)及方法，屬于多模態(tài)人機(jī)交互領(lǐng)域。本發(fā)明的系統(tǒng)包括：交互感知層、交互解析層以及交互響應(yīng)層；交互感知層，用于獲取多模態(tài)交互信息，負(fù)責(zé)手勢、語音模態(tài)信息采集設(shè)備的接入，以及交互信息原始信號(hào)的采集與處理；交互解析層用于定義各通道人機(jī)交互信息的含義，并解析多模態(tài)交互信息的含義與指令意圖；交互響應(yīng)層用于實(shí)現(xiàn)交互解析層獲取的人機(jī)交互意圖與應(yīng)用系統(tǒng)的交互操作映射，包括指令?操作轉(zhuǎn)換模塊。本發(fā)明備手勢指令和語音指令的獨(dú)立識(shí)別與融合識(shí)別功能，改善人機(jī)交互系統(tǒng)的魯棒性，提供更自然、便捷的人機(jī)交互方式，滿足智能人機(jī)交互發(fā)展需求。

技術(shù)研發(fā)人員：程智鵬,劉宗寶,劉更,郭申,閔新宇
受保護(hù)的技術(shù)使用者：北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：程智鵬,劉宗寶,劉更,郭申,閔新宇
技術(shù)所有人：北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所
我是此專利的發(fā)明人

上一篇：一種金屬沙發(fā)腳加工的定位工裝的制作方法
上一篇：一種防撞護(hù)足運(yùn)動(dòng)鞋的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種融合手勢與語音的多模態(tài)人機(jī)交互系統(tǒng)及方法與流程