本發(fā)明涉及計算機和心理學,尤其涉及一種基于多模態(tài)情緒識別的心理干預方法、系統(tǒng)、設備及介質。
背景技術:
1、隨著社會和經(jīng)濟的繁榮發(fā)展,人們的生活水平得到了很大的提高,現(xiàn)有的心理咨詢方法一般是找心理咨詢師,通過與咨詢師談話將壓抑在心中的矛盾和積壓的情緒都發(fā)泄出來,并得到咨詢師的開導,但找心理咨詢師需要花費大量的時間和金錢,而且很多有心理疾病的患者都有溝通障礙,一般情況下對人的防備心理比較重。
2、智能心理機器人咨詢系統(tǒng)是一種利用人工智能技術和心理學知識相結合的創(chuàng)新咨詢工具。在人機交流過程中,情感是多種信息綜合表達的結果,單一模態(tài)的情感識別因為自身的局限性很難滿足現(xiàn)實的需求,語音情感容易受到噪聲的干擾,表情識別容易遭到光線或角度的影響,達不到理想的識別效果,從而影響智能心理咨詢效果。
技術實現(xiàn)思路
1、本發(fā)明提供一種基于多模態(tài)情緒識別的心理干預方法、系統(tǒng)、設備及介質,其主要目的在于提高情緒識別的準確性,有效提高心理干預的準確性。
2、第一方面,本發(fā)明實施例提供一種基于多模態(tài)情緒識別的心理干預方法,包括:
3、獲取人機交互過程中生成的視頻數(shù)據(jù)和語音數(shù)據(jù),并分別對所述視頻數(shù)據(jù)和所述語音數(shù)據(jù)進行預處理;
4、對預處理后的視頻數(shù)據(jù)的每一時間戳對應的幀圖像進行情緒識別,得到每一時間戳對應的圖像情緒識別結果;
5、將預處理后的音頻數(shù)據(jù)的每一時間戳對應的音頻、第一任務提示詞和第二任務提示詞,輸入到語音轉錄情感識別一體化模型中,得到每一時間戳對應的語音情緒識別結果,所述語音轉錄情感識別一體化模型由樣本進行訓練后得到,所述第一任務提示詞為轉錄音頻文字,所述第二任務提示詞為識別音頻情感;
6、根據(jù)每一時間戳對應的圖像情緒識別結果和每一時間戳對應的語音情緒識別結果,得到每一時間戳對應的最終情緒識別結果;
7、根據(jù)每一時間戳對應的最終情緒識別結果,生成情感狀態(tài)識別報告,以根據(jù)所述情感狀態(tài)識別報告,對用戶進行心理干預。
8、進一步地,所述語音轉錄情感識別一體化模型包括編碼器、文本嵌入器和增強語言模型的解碼器,所述將預處理后的音頻數(shù)據(jù)的每一時間戳對應的音頻、第一任務提示詞和第二任務提示詞,輸入到語音轉錄情感識別一體化模型中,得到每一時間戳對應的語音情緒識別結果,步驟包括:
9、將每一時間戳對應的音頻輸入到所述編碼器中,得到音頻向量;
10、將所述第一任務提示詞和所述第二任務提示詞分別輸入到所述文本嵌入器中,得到第一任務向量和第二任務向量;
11、對所述音頻向量和所述第一任務向量進行拼接,得到第一拼接向量,對所述第一任務向量和所述第二任務向量進行拼接,得到第二拼接向量;
12、將所述第一拼接向量和所述第二拼接向量輸入到所述解碼器中,得到每一時間戳對應的轉錄文本和每一時間戳對應的語音情緒識別結果。
13、進一步地,所述根據(jù)每一時間戳對應的圖像情緒識別結果和每一時間戳對應的語音情緒識別結果,得到每一時間戳對應的最終情緒識別結果,步驟包括:
14、對于每一時間戳,若所述圖像情緒識別結果和所述語音情緒識別結果一致,則將所述圖像情緒識別結果/所述語音情緒識別結果作為所述最終情緒識別結果;
15、若所述圖像情緒識別結果和所述語音情緒識別結果不一致,則獲取當前時間戳之前的多個時間戳對應的最終情緒識別結果,將頻率出現(xiàn)最高的情緒作為所述最終情緒識別結果。
16、進一步地,所述根據(jù)每一時間戳對應的最終情緒識別結果,生成情感狀態(tài)識別報告,步驟包括:
17、獲取人機交互過程中的每一輪對話;
18、根據(jù)每一輪對話的發(fā)生時間和每一時間戳對應的最終情緒識別結果,獲取每一輪對話對應的實時情緒;
19、將每一輪對話對應的對話內容和每一輪對話對應的實時情緒整合為每一輪對話對應的第三任務提示詞;
20、將每一輪對話對應的第三提示詞輸入到大語言模型,得到每輪對話對應的情感類別;
21、統(tǒng)計每一情感類別的占比,生成所述情感狀態(tài)識別報告。
22、進一步地,所述圖像情緒識別結果和所述語音情緒識別結果包括恐懼、沮喪、焦慮、憤怒、快樂、驚訝、興奮、厭惡、壓力大;
23、所述情感類別包括情感豐富、情感強度弱、情感缺乏、情感不恰當。
24、進一步地,所述對預處理后的視頻數(shù)據(jù)的每一時間戳對應的幀圖像進行情緒識別,得到每一時間戳對應的圖像情緒識別結果,步驟包括:
25、每秒設置至少3個時間戳,并提取預處理后的視頻數(shù)據(jù)的每一時間戳對應的幀圖像;
26、將每一時間戳對應的幀圖像輸入到視覺語言模型,得到每一時間戳對應的圖像情緒識別結果。
27、進一步地,所述分別對所述視頻數(shù)據(jù)和所述語音數(shù)據(jù)進行預處理,步驟包括:
28、依次對所述視頻數(shù)據(jù)進行格式轉換、去噪操作,獲取預處理后的視頻數(shù)據(jù);
29、對所述語音數(shù)據(jù)進行降噪、回聲消除操作,獲取預處理后的語音數(shù)據(jù)。
30、第二方面,本發(fā)明實施例提供一種基于多模態(tài)情緒識別的心理干預系統(tǒng),包括:
31、預處理模塊,用于獲取人機交互過程中生成的視頻數(shù)據(jù)和語音數(shù)據(jù),并分別對所述視頻數(shù)據(jù)和所述語音數(shù)據(jù)進行預處理;
32、圖像識別模塊,用于對預處理后的視頻數(shù)據(jù)的每一時間戳對應的幀圖像進行情緒識別,得到每一時間戳對應的圖像情緒識別結果;
33、語音識別模塊,用于將預處理后的音頻數(shù)據(jù)的每一時間戳對應的音頻、第一任務提示詞和第二任務提示詞,輸入到語音轉錄情感識別一體化模型中,得到每一時間戳對應的語音情緒識別結果,所述語音轉錄情感識別一體化模型由樣本進行訓練后得到,所述第一任務提示詞為轉錄音頻文字,所述第二任務提示詞為識別音頻情感;
34、融合模塊,用于根據(jù)每一時間戳對應的圖像情緒識別結果和每一時間戳對應的語音情緒識別結果,得到每一時間戳對應的最終情緒識別結果;
35、干預模塊,用于根據(jù)每一時間戳對應的最終情緒識別結果,生成情感狀態(tài)識別報告,以根據(jù)所述情感狀態(tài)識別報告,對用戶進行心理干預。
36、第三方面,本發(fā)明實施例提供一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述一種基于多模態(tài)情緒識別的心理干預方法的步驟。
37、第四方面,本發(fā)明實施例提供一種計算機存儲介質,所述計算機存儲介質存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述一種基于多模態(tài)情緒識別的心理干預方法的步驟。
38、本發(fā)明提出的一種基于多模態(tài)情緒識別的心理干預方法、系統(tǒng)、設備及介質,先對人機交互過程中生成的視頻數(shù)據(jù)和語音數(shù)據(jù)進行預處理;再對預處理后的視頻中每個時間戳對應的幀圖像進行情緒識別,得到每個時間戳對應的圖像情緒識別結果;接著將每個時間戳對應的音頻、第一任務提示詞和第二任務提示詞,輸入到語音轉錄情感識別一體化模型中,得到每個時間戳對應的語音情緒識別結果;最后對圖像情緒識別結果和語音情緒識別結果進行融合,得到最終情緒識別結果,并生成情感狀態(tài)識別報告,對用戶進行心理干預。
39、由于單一模態(tài)的情緒識別可能存在偏差,本發(fā)明中分別基于視頻數(shù)據(jù)、語音數(shù)據(jù)進行情緒識別,并融合兩種情緒識別結果得到最終情緒識別結果,使得情緒識別結果更加精準;另外,傳統(tǒng)的語音進行文本轉錄和情感識別時,產生了計算和存儲冗余,本發(fā)明提出的語音轉錄情感識別一體化模型通過復用編碼器抽取的音頻特征,在這個過程中音頻編碼器只需編碼一次,因此大幅節(jié)省了計算和存儲成本,并提高了分析的實時性。