基于機器學習的嬰幼兒哭聲增強方法、裝置及設備與流程

文檔序號：39346619發(fā)布日期：2024-09-10 12:11閱讀：80來源：國知局

本發(fā)明涉及音頻處理，尤其涉及一種基于機器學習的嬰幼兒哭聲增強方法、裝置及設備。

背景技術(shù)：

1、嬰幼兒尤其是新生兒和不會說話的嬰幼兒，其哭聲是表達情緒和生理需求的重要方式，包括饑餓、疼痛、不舒服或者需要照顧等。而嬰幼兒父母大多數(shù)因為工作忙碌而沒有太多的時間照顧孩子，所以智能嬰幼兒看護設備的出現(xiàn)成為一種趨勢。然而，在家庭環(huán)境或醫(yī)院病房中，由于存在其他聲音干擾如人聲、電器噪音、環(huán)境背景音等影響，導致嬰幼兒看護設備不能準確辨識出是否存在嬰幼兒哭聲，或者收集到的嬰幼兒哭聲因環(huán)境聲音嘈雜而無法從嬰幼兒哭聲中判別出嬰幼兒哭聲的類型，從而不能較好地起到智能看護嬰幼兒的作用。

2、傳統(tǒng)的方法可能需要人工監(jiān)聽和分析，不僅耗時費力，且易受主觀因素影響?，F(xiàn)有技術(shù)中有通過人工預先標記純凈的嬰幼兒哭聲音頻，再對音頻處理，從而增強嬰幼兒啼哭的聲音；或通過收集嬰幼兒的哭聲進行訓練，將聲音分為正負樣本并分別進行標簽，然后根據(jù)混合增強的方法通過線性插值的方法獲得新的虛擬樣本和標簽，增加樣本數(shù)據(jù)，從而達到增強的效果。

3、收集到的嬰幼兒哭聲受限于環(huán)境噪音、背景音樂、多人交談等多種聲音源的干擾，難以準確區(qū)分和提取出嬰幼兒哭聲的有效數(shù)據(jù)，需要人工預先標記好干凈哭聲樣本，增加了數(shù)據(jù)準備的成本且因收集到的嬰幼兒哭聲音頻質(zhì)量差，而導致根據(jù)哭聲判斷的嬰幼兒智能看護設備難以準確識別出嬰幼兒哭聲類型。

技術(shù)實現(xiàn)思路

1、有鑒于此，本發(fā)明提供了一種基于機器學習的嬰幼兒哭聲增強方法、裝置及設備，用以解決現(xiàn)有技術(shù)中收集到的嬰幼兒哭聲受限于環(huán)境噪音、背景音樂、多人交談等多種聲音源的干擾，難以準確區(qū)分和提取出嬰幼兒哭聲的有效成分，需要人工預先標記的干凈哭聲樣本，增加了數(shù)據(jù)準備的成本且因收集到的嬰幼兒哭聲音頻質(zhì)量差而導致根據(jù)哭聲判斷的嬰幼兒智能看護受到影響的問題。

2、本發(fā)明采用的技術(shù)方案是：

3、第一方面，本發(fā)明提供了一種基于機器學習的嬰幼兒哭聲增強方法，所述方法包括：

4、獲取第一音頻數(shù)據(jù)，其中，所述第一音頻數(shù)據(jù)包括至少一段含有嬰幼兒哭聲的音頻數(shù)據(jù)；

5、對所述第一音頻數(shù)據(jù)進行預處理，得到第一音頻數(shù)據(jù)對應的頻譜圖；

6、將所述頻譜圖輸入自編碼器模型，輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息；

7、根據(jù)所述音頻特征信息，對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理，得到增強后的第二音頻數(shù)據(jù)。

8、優(yōu)選地，所述對所述第一音頻數(shù)據(jù)進行預處理，得到第一音頻數(shù)據(jù)對應的頻譜圖包括：

9、將所述第一音頻數(shù)據(jù)設置為相同采樣率；

10、將設置為相同采樣率的所述第一音頻數(shù)據(jù)進行分段處理，其中，每個分段音頻數(shù)據(jù)包括部分所述第一音頻數(shù)據(jù)，相鄰兩段分段音頻數(shù)據(jù)有部分音頻數(shù)據(jù)重疊；

11、對各所述分段音頻數(shù)據(jù)進行轉(zhuǎn)換，得到所述分段音頻數(shù)據(jù)對應的頻譜圖；

12、對各所述頻譜圖按照預設特征增強處理方式進行增強處理，得到增強后的頻譜圖。

13、優(yōu)選地，所述預設特征增強處理方式包括：對數(shù)轉(zhuǎn)換處理方式、頻率軸調(diào)整處理方式或頻譜平滑處理方式。

14、優(yōu)選地，所述將所述頻譜圖輸入自編碼器模型，輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息包括：

15、將所述頻譜圖進行標準化處理，得到標準化頻譜圖；

16、構(gòu)建用于提取嬰幼兒哭聲特征的自編碼器模型；

17、根據(jù)所述標準化頻譜圖輸入所述自編碼器模型進行訓練，得到訓練后的自編碼器模型；

18、將所述標準化頻譜圖輸入訓練后的自編碼器模型，輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息。

19、優(yōu)選地，所述根據(jù)所述音頻特征信息，對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理，得到增強后的第二音頻數(shù)據(jù)包括：

20、根據(jù)所述嬰幼兒哭聲特征，對所述第一音頻數(shù)據(jù)對應的頻譜圖進行重構(gòu)，得到第二頻譜圖；

21、將所述第二頻譜圖進行轉(zhuǎn)換，得到所述第二頻譜圖對應的音頻數(shù)據(jù)；

22、對所述第二頻譜圖對應的音頻數(shù)據(jù)進行信號增強處理，得到增強后的第二音頻數(shù)據(jù)。

23、優(yōu)選地，所述對所述第二頻譜圖對應的音頻數(shù)據(jù)進行信號增強處理，得到增強后的第二音頻數(shù)據(jù)，包括：

24、獲取預設能量門限值，其中，所述預設能量門限值用于區(qū)分哭聲或非哭聲；

25、對所述第二頻譜圖對應的音頻數(shù)據(jù)中的信號能量值大于所述預設能量門限值的部分進行增強處理，對所述第二頻譜圖對應的音頻數(shù)據(jù)中的信號能量值小于所述預設能量門限值的部分進行抑制處理。

26、優(yōu)選地，所述的基于機器學習的嬰幼兒哭聲增強方法包括：

27、獲取多名嬰幼兒的哭聲的第三音頻數(shù)據(jù)；

28、將第三音頻數(shù)據(jù)進行聲源定位處理，得到各嬰幼兒對應的哭聲信息；

29、根據(jù)各所述哭聲信息，對所述第三音頻數(shù)據(jù)進行聲源分離處理，得到各嬰幼兒對應的哭聲音頻數(shù)據(jù)。

30、第二方面，本發(fā)明提供了一種基于機器學習的嬰幼兒哭聲增強裝置，所述裝置包括：

31、第一音頻數(shù)據(jù)獲取模塊：用于獲取第一音頻數(shù)據(jù)，其中，所述第一音頻數(shù)據(jù)包括至少一段含有嬰幼兒哭聲的音頻數(shù)據(jù)；

32、預處理模塊：用于對所述第一音頻數(shù)據(jù)進行預處理，得到第一音頻數(shù)據(jù)對應的頻譜圖；

33、哭聲特征提取模塊：用于將所述頻譜圖輸入自編碼器模型，輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息；

34、音頻數(shù)據(jù)增強模塊：用于根據(jù)所述音頻特征信息，對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理，得到增強后的第二音頻數(shù)據(jù)。

35、第三方面，本發(fā)明實施例還提供了一種電子設備，包括：至少一個處理器、至少一個存儲器以及存儲在存儲器中的計算機程序指令，當計算機程序指令被處理器執(zhí)行時實現(xiàn)如上述實施方式中第一方面的方法。

36、第四方面，本發(fā)明實施例還提供了一種存儲介質(zhì)，其上存儲有計算機程序指令，當計算機程序指令被處理器執(zhí)行時實現(xiàn)如上述實施方式中第一方面的方法。

37、綜上所述，本發(fā)明的有益效果如下：

38、本發(fā)明提供的一種基于機器學習的嬰幼兒哭聲增強方法、裝置及設備，首先獲取第一音頻數(shù)據(jù)，其中，所述第一音頻數(shù)據(jù)包括至少一段含有嬰幼兒哭聲的音頻數(shù)據(jù)；對所述第一音頻數(shù)據(jù)進行預處理，得到第一音頻數(shù)據(jù)對應的頻譜圖；將所述頻譜圖輸入自編碼器模型，輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息；根據(jù)所述音頻特征信息，對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理，得到增強后的第二音頻數(shù)據(jù)。整體上有效地從嘈雜環(huán)境中提取并增強了嬰幼兒哭聲，顯著提高了哭聲信號的純凈度和識別率，有助于即時關(guān)注嬰幼兒狀態(tài)，提升護理質(zhì)量和效率。

技術(shù)特征：

1.一種基于機器學習的嬰幼兒哭聲增強方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的基于機器學習的嬰幼兒哭聲增強方法，其特征在于，所述對所述第一音頻數(shù)據(jù)進行預處理，得到第一音頻數(shù)據(jù)對應的頻譜圖包括：

3.根據(jù)權(quán)利要求2所述的基于機器學習的嬰幼兒哭聲增強方法，其特征在于，所述預設特征增強處理方式包括：對數(shù)轉(zhuǎn)換處理方式、頻率軸調(diào)整處理方式或頻譜平滑處理方式。

4.根據(jù)權(quán)利要求3所述的基于機器學習的嬰幼兒哭聲增強方法，其特征在于，所述將所述頻譜圖輸入自編碼器模型，輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息包括：

5.根據(jù)權(quán)利要求4所述的基于機器學習的嬰幼兒哭聲增強方法，其特征在于，所述根據(jù)所述音頻特征信息，對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理，得到增強后的第二音頻數(shù)據(jù)包括：

6.根據(jù)權(quán)利要求5所述的基于機器學習的嬰幼兒哭聲增強方法，其特征在于，所述對所述第二頻譜圖對應的音頻數(shù)據(jù)進行信號增強處理，得到增強后的第二音頻數(shù)據(jù)包括：

7.根據(jù)權(quán)利要求1所述的基于機器學習的嬰幼兒哭聲增強方法，其特征在于，所述對所述第一音頻數(shù)據(jù)進行預處理，得到第一音頻數(shù)據(jù)對應的頻譜圖之前還包括：

8.一種基于機器學習的嬰幼兒哭聲增強裝置，其特征在于，所述裝置包括：

9.一種電子設備，其特征在于，包括：至少一個處理器、至少一個存儲器以及存儲在所述存儲器中的計算機程序指令，當所述計算機程序指令被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的基于機器學習的嬰幼兒哭聲增強方法。

10.一種存儲介質(zhì)，其上存儲有計算機程序指令，其特征在于，當所述計算機程序指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的基于機器學習的嬰幼兒哭聲增強方法。

技術(shù)總結(jié)
本發(fā)明涉及音頻處理技術(shù)領域，解決了現(xiàn)有技術(shù)中收集到的嬰幼兒哭聲受限于雜音的干擾，難以準確區(qū)分和提取出有效嬰幼兒哭聲的問題，提供了一種基于機器學習的嬰幼兒哭聲增強方法、裝置及設備。該方法包括：獲取第一音頻數(shù)據(jù)，其中，所述第一音頻數(shù)據(jù)包括至少一段含有嬰幼兒哭聲的音頻數(shù)據(jù)；對所述第一音頻數(shù)據(jù)進行預處理，得到第一音頻數(shù)據(jù)對應的頻譜圖；將所述頻譜圖輸入自編碼器模型，輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息；根據(jù)所述音頻特征信息，對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理，得到增強后的第二音頻數(shù)據(jù)。本發(fā)明有效地從嘈雜環(huán)境中提取并增強了嬰幼兒哭聲，顯著提高了哭聲信號的純凈度和識別率。

技術(shù)研發(fā)人員：張智,陳輝,熊章,張青軍,胡國湖
受保護的技術(shù)使用者：寧波星巡智能科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/9/9

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張智,陳輝,熊章,張青軍,胡國湖
技術(shù)所有人：寧波星巡智能科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于機器學習的嬰幼兒哭聲增強方法、裝置及設備與流程

基于機器學習的嬰幼兒哭聲增強方法、裝置及設備與流程