本發(fā)明涉及人工智能與生物醫(yī)學(xué)工程交叉,具體為基于多模態(tài)的無接觸生理和心理檢測(cè)系統(tǒng)。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,傳統(tǒng)的生理和心理健康檢測(cè)方法(如血壓計(jì)、心理問卷等)存在一定的局限性,通常需要專門設(shè)備或?qū)I(yè)人員操作,且檢測(cè)過程不夠靈活和實(shí)時(shí)?,F(xiàn)有的研究逐漸轉(zhuǎn)向無接觸、多模態(tài)的檢測(cè)方法,利用計(jì)算機(jī)視覺、語音分析、深度學(xué)習(xí)等技術(shù),能夠在非接觸的情況下實(shí)時(shí)、準(zhǔn)確地檢測(cè)和預(yù)測(cè)個(gè)體的生理和心理狀態(tài)。
2、本發(fā)明的目的是設(shè)計(jì)一種基于多模態(tài)信息融合的無接觸式生理和心理檢測(cè)系統(tǒng),結(jié)合面部動(dòng)態(tài)表情分析、生理指標(biāo)檢測(cè)、聲音變化檢測(cè)和自然語言處理等技術(shù),全面、實(shí)時(shí)地評(píng)估用戶的生理與心理健康狀態(tài)。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了基于多模態(tài)的無接觸生理和心理檢測(cè)系統(tǒng),解決了背景技術(shù)中提到的問題。
2、為實(shí)現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實(shí)現(xiàn):基于多模態(tài)的無接觸生理和心理檢測(cè)系統(tǒng),包括數(shù)據(jù)采集模塊,特征提取模塊,多模態(tài)信息融合模塊和心理與生理狀態(tài)評(píng)估模塊;
3、所述數(shù)據(jù)采集模塊通過攝像頭和麥克風(fēng)采集用戶的面部圖像和聲音信號(hào);
4、所述特征提取模塊包括面部表情分析單元,生理指標(biāo)檢測(cè)單元,聲音變化分析單元和自然語言處理分析單元;
5、其中,面部表情分析單元:使用計(jì)算機(jī)視覺技術(shù)提取面部表情特征,如眼睛神態(tài)、微表情、臉部肌肉變化;
6、生理指標(biāo)檢測(cè)單元:通過計(jì)算機(jī)視覺和深度學(xué)習(xí)模型從面部圖像中提取心率、呼吸頻率和血氧飽和度;
7、聲音變化分析單元:利用語音信號(hào)處理技術(shù)分析用戶的聲音特征,包括語速、音調(diào)和音量變化;
8、自然語言處理分析單元:分析用戶與ai心理師的對(duì)話內(nèi)容,提取與心理狀態(tài)相關(guān)的語言特征;
9、所述多模態(tài)信息融合模塊基于貝葉斯網(wǎng)絡(luò)方法,融合來自面部表情、生理指標(biāo)、聲音特征和語言內(nèi)容的多模態(tài)信息,進(jìn)行綜合分析;
10、所述心理與生理狀態(tài)評(píng)估模塊結(jié)合融合后的多模態(tài)信息,利用機(jī)器學(xué)習(xí)模型預(yù)測(cè)用戶的心理與生理狀態(tài),并給出健康評(píng)估報(bào)告。
11、優(yōu)選的,所述數(shù)據(jù)采集模塊包括圖像采集單元和音頻采集單元;
12、所述圖像采集單元通過攝像頭捕捉用戶的面部圖像,獲取用戶的面部表情和生理特征信息;圖像采集單元從攝像頭獲取連續(xù)的面部圖像序列iface;
13、
14、式中,表示預(yù)處理后的面部圖像,prepreocess表示系列圖像處理技術(shù),包括噪聲消除、亮度調(diào)整和幾何校正;
15、所述音頻采集單元通過麥克風(fēng)采集用戶的語音信號(hào),用于分析用戶的語速、音調(diào)、音量和情感狀態(tài);音頻采集單元獲取用戶的語音信號(hào)a,并通過預(yù)處理步驟,包括噪聲抑制和音量歸一化對(duì)信號(hào)進(jìn)行處理;預(yù)處理過程可以表示為:
16、apre=audiopreprocess(a);
17、式中,apre表示預(yù)處理后的音頻信號(hào),audiopreprocess包括濾波、去噪和音量調(diào)整。
18、優(yōu)選的,所述特征提取模塊包括面部表情分析單元,生理指標(biāo)檢測(cè)單元,聲音變化分析單元和自然語言處理分析單元;
19、所述面部表情分析單元通過計(jì)算機(jī)視覺技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)(cnn)從采集到的面部圖像中提取用戶的面部表情特征;能夠識(shí)別用戶的眼神、微表情、肌肉運(yùn)動(dòng)等,為判斷用戶的情緒狀態(tài)提供數(shù)據(jù)支持;
20、使用預(yù)處理后的面部圖像作為輸入,通過卷積神經(jīng)網(wǎng)絡(luò)(cnn)提取面部表情特征:
21、
22、式中,fface表示提取的面部特征向量,具體包括眼部活動(dòng)、眉毛位置和嘴角變化特征。
23、優(yōu)選的,所述生理指標(biāo)檢測(cè)單元通過光電容積圖(ppg)技術(shù),從面部圖像中提取心率、呼吸頻率和血氧飽和度;
24、從預(yù)處理后的面部圖像中提取皮膚區(qū)域的顏色變化信號(hào),通過ppg技術(shù)計(jì)算心率和血氧飽和度:
25、
26、式中,t表示從ppg信號(hào)中提取的心跳周期時(shí)間,hr表示每分鐘的心率;
27、通過傅里葉變換分析圖像像素值的周期性變化,計(jì)算呼吸頻率rr:
28、所述呼吸頻率rr通過以下公式獲取:
29、
30、式中,tresp表示呼吸周期。
31、優(yōu)選的,所述聲音變化分析單元使用語音信號(hào)處理技術(shù),從用戶的語音信號(hào)中提取特征,包括語速、
32、音調(diào)和音量;
33、對(duì)預(yù)處理后的音頻信號(hào)apre進(jìn)行mfcc(梅爾頻率倒譜系數(shù))提取,獲取音頻特征向量faudio:
34、所述音頻特征向量faudio通過以下公式獲?。?/p>
35、faudio=mfcc(apre);
36、式中,faudio表示音頻特征向量,具體包括語音信號(hào)的頻率特征和時(shí)域特征。
37、所述自然語言處理分析單元通過分析用戶與ai心理師的對(duì)話內(nèi)容,提取與心理狀態(tài)相關(guān)的語言特征,包括情感詞匯和語義模式;
38、使用預(yù)處理后的文本對(duì)話數(shù)據(jù)tpre,通過預(yù)訓(xùn)練的語言模型bert進(jìn)行語義分析,提取語言特征向量fnlp;
39、所述語言特征向量fnlp通過以下公式獲取:
40、fnlp=bert(tpre);
41、式中,fnlp表示語言特征向量,具體包括用戶的心理情感特征,用于識(shí)別用戶的情感狀態(tài)變化,包括焦慮和抑郁。
42、優(yōu)選的,所述多模態(tài)信息融合模塊包括特征對(duì)齊與規(guī)范化單元和特征融合與加權(quán)求和單元;
43、所述特征對(duì)齊與規(guī)范化單元對(duì)特征進(jìn)行對(duì)齊和規(guī)范化處理,確保所有模態(tài)特征在同一尺度下進(jìn)行融合;
44、faligned(t)=align(fface(t),fphysio(t),faudio(t),fnlp(t));
45、式中,faligned(t)表示對(duì)齊后的特征向量,fface(t),fphysio(t),faudio(t)和fnlp(t)分別表示時(shí)間t的面部特征向量,生理指標(biāo)特征向量,聲音特征向量和自然語言特征向量;align(.)表示對(duì)齊函數(shù);
46、對(duì)對(duì)齊后的特征進(jìn)行規(guī)范化處理,以消除不同模態(tài)之間的尺度差異,通過以下公式獲?。?/p>
47、fnorm(t)=normalize(faligned(t));
48、式中,normalize(.)表示特征規(guī)范化操作。
49、優(yōu)選的,所述特征融合與加權(quán)求和單元在完成特征對(duì)齊與規(guī)范化后,該單元負(fù)責(zé)對(duì)不同模態(tài)的特征進(jìn)行融合;包括貝葉斯網(wǎng)絡(luò)或深度神經(jīng)網(wǎng)絡(luò),通過加權(quán)求和模型的學(xué)習(xí),來綜合各模態(tài)的特征,從而生成一個(gè)統(tǒng)一的評(píng)估特征向量;
50、
51、式中,ffusion(t)表示第i個(gè)模態(tài)的規(guī)范化特征向量,ωi表示權(quán)重參數(shù)。
52、優(yōu)選的,所述心理與生理狀態(tài)評(píng)估模塊該單元利用融合后的特征向量,通過預(yù)先訓(xùn)練好的機(jī)器學(xué)習(xí)模型實(shí)時(shí)評(píng)估用戶的心理與生理狀態(tài)。它負(fù)責(zé)處理當(dāng)前的輸入數(shù)據(jù),并輸出當(dāng)前時(shí)刻的狀態(tài)評(píng)估結(jié)果;
53、s(t)=ml_model(ffusion(t));
54、式中,s(t)表示在時(shí)刻t用戶的心理與生理狀態(tài)評(píng)估結(jié)果,ml_model表示機(jī)器學(xué)習(xí)模型,ffusion(t)融合后的特征向量,表示在時(shí)刻t從不同模態(tài)中提取并融合的特征;
55、輸出的狀態(tài)評(píng)估結(jié)果s(t)是一個(gè)多維向量,包含了用戶在當(dāng)前時(shí)刻的心理狀態(tài)焦慮、抑郁和生理狀態(tài)心率異常、疲勞。
56、本發(fā)明提供了基于多模態(tài)的無接觸生理和心理檢測(cè)系統(tǒng),具備以下有益效果:
57、(1)通過集成攝像頭、麥克風(fēng)等多種傳感器,系統(tǒng)能夠同時(shí)采集用戶的面部圖像、聲音信號(hào)等多模態(tài)數(shù)據(jù)。這種多源數(shù)據(jù)的融合使得系統(tǒng)能夠更全面地捕捉用戶的生理和心理狀態(tài)變化,從而提高評(píng)估的準(zhǔn)確性和可靠性。系統(tǒng)采用無接觸的方式進(jìn)行數(shù)據(jù)采集,避免了傳統(tǒng)生理監(jiān)測(cè)設(shè)備可能帶來的不適感和限制。用戶只需面對(duì)攝像頭和麥克風(fēng),即可進(jìn)行生理和心理狀態(tài)的檢測(cè),極大地提高了使用的便捷性和舒適度。
58、系統(tǒng)能夠?qū)崟r(shí)處理和分析采集到的數(shù)據(jù),快速反饋用戶的生理和心理狀態(tài)。這種實(shí)時(shí)性使得系統(tǒng)能夠及時(shí)發(fā)現(xiàn)用戶狀態(tài)的變化,為及時(shí)干預(yù)和提供個(gè)性化建議提供了可能。同時(shí),系統(tǒng)還支持動(dòng)態(tài)監(jiān)測(cè),能夠持續(xù)跟蹤用戶的生理和心理狀態(tài)變化,為用戶提供長期的健康管理和指導(dǎo)。系統(tǒng)利用機(jī)器學(xué)習(xí)模型對(duì)融合后的多模態(tài)信息進(jìn)行綜合分析,能夠根據(jù)不同用戶的特征和需求,提供個(gè)性化的生理和心理狀態(tài)評(píng)估報(bào)告。這種智能化的處理方式使得系統(tǒng)更加貼近用戶的實(shí)際需求,提高了評(píng)估的針對(duì)性和有效性。
59、(2)通過結(jié)合圖像采集單元和音頻采集單元的數(shù)據(jù),本實(shí)施例能夠提供一種更為全面的用戶情感分析方法。通過分析用戶的面部表情和生理特征信息,以及語音信號(hào)中的語速、音調(diào)、音量和情感狀態(tài),系統(tǒng)能夠更準(zhǔn)確地判斷用戶的情緒狀態(tài)。
60、該系統(tǒng)綜合運(yùn)用了多種非接觸檢測(cè)技術(shù),如計(jì)算機(jī)視覺、語音分析和自然語言處理,能夠從多個(gè)維度對(duì)用戶的生理和心理狀態(tài)進(jìn)行評(píng)估。非接觸檢測(cè)技術(shù)減少了對(duì)用戶的干擾,使得檢測(cè)過程更為自然和高效。
61、系統(tǒng)利用時(shí)序模型,如長短期記憶網(wǎng)絡(luò)(lstm)等,能夠?qū)τ脩舻臓顟B(tài)進(jìn)行動(dòng)態(tài)跟蹤和實(shí)時(shí)分析。這種實(shí)時(shí)性使得系統(tǒng)能夠在用戶狀態(tài)發(fā)生變化時(shí)迅速做出反應(yīng),從而提高評(píng)估的準(zhǔn)確性和及時(shí)性。
62、系統(tǒng)通過大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),構(gòu)建健康狀態(tài)預(yù)測(cè)模型,能夠提前檢測(cè)到用戶的心理和生理異常,提供預(yù)警并建議相應(yīng)的干預(yù)措施。這一功能幫助用戶在早期階段識(shí)別潛在的健康問題。
63、(3)通過整合面部表情分析單元、生理指標(biāo)檢測(cè)單元、聲音變化分析單元和自然語言處理分析單元所提取的多模態(tài)數(shù)據(jù),可以實(shí)現(xiàn)對(duì)用戶心理狀態(tài)的全面評(píng)估。這種綜合分析方法能夠提供比單一模態(tài)更為準(zhǔn)確和全面的心理健康評(píng)估結(jié)果。
64、面部表情分析單元能夠捕捉到用戶在與ai心理師交流過程中的細(xì)微表情變化,這些變化往往與用戶的真實(shí)情緒狀態(tài)密切相關(guān)。生理指標(biāo)檢測(cè)單元?jiǎng)t通過非侵入式的方式,從面部圖像中提取心率、呼吸頻率和血氧飽和度等生理指標(biāo),這些指標(biāo)能夠反映用戶的身體反應(yīng)和自主神經(jīng)系統(tǒng)活動(dòng),從而間接反映心理狀態(tài)。聲音變化分析單元通過分析語音信號(hào),提取語速、音調(diào)和音量等特征,這些特征能夠揭示用戶的情緒波動(dòng)和心理壓力。自然語言處理分析單元?jiǎng)t通過分析對(duì)話內(nèi)容,提取情感詞匯和語義模式,從而識(shí)別用戶的心理情感特征。
65、(4)通過多模態(tài)數(shù)據(jù)融合,系統(tǒng)能夠綜合考慮來自不同傳感器的信息,從而提供更為全面和準(zhǔn)確的心理與生理狀態(tài)評(píng)估結(jié)合心率、皮膚電活動(dòng)、面部表情和語音特征等多種生理和行為信號(hào),可以更準(zhǔn)確地判斷用戶的情緒狀態(tài)和健康狀況。
66、系統(tǒng)采用實(shí)時(shí)數(shù)據(jù)處理和評(píng)估機(jī)制,能夠即時(shí)反饋用戶的當(dāng)前狀態(tài)。這對(duì)于需要即時(shí)監(jiān)控生理和心理狀態(tài)的場(chǎng)景尤為重要。由于系統(tǒng)使用了機(jī)器學(xué)習(xí)模型,它可以根據(jù)用戶的個(gè)人特征和歷史數(shù)據(jù)進(jìn)行個(gè)性化訓(xùn)練,從而提供更加符合個(gè)體特征的評(píng)估結(jié)果。隨著使用時(shí)間的增長,系統(tǒng)的評(píng)估精度會(huì)逐漸提高,更好地適應(yīng)用戶的特定需求。