本發(fā)明涉及音頻處理,尤其涉及一種基于機器學習的嬰幼兒哭聲增強方法、裝置及設備。
背景技術(shù):
1、嬰幼兒尤其是新生兒和不會說話的嬰幼兒,其哭聲是表達情緒和生理需求的重要方式,包括饑餓、疼痛、不舒服或者需要照顧等。而嬰幼兒父母大多數(shù)因為工作忙碌而沒有太多的時間照顧孩子,所以智能嬰幼兒看護設備的出現(xiàn)成為一種趨勢。然而,在家庭環(huán)境或醫(yī)院病房中,由于存在其他聲音干擾如人聲、電器噪音、環(huán)境背景音等影響,導致嬰幼兒看護設備不能準確辨識出是否存在嬰幼兒哭聲,或者收集到的嬰幼兒哭聲因環(huán)境聲音嘈雜而無法從嬰幼兒哭聲中判別出嬰幼兒哭聲的類型,從而不能較好地起到智能看護嬰幼兒的作用。
2、傳統(tǒng)的方法可能需要人工監(jiān)聽和分析,不僅耗時費力,且易受主觀因素影響?,F(xiàn)有技術(shù)中有通過人工預先標記純凈的嬰幼兒哭聲音頻,再對音頻處理,從而增強嬰幼兒啼哭的聲音;或通過收集嬰幼兒的哭聲進行訓練,將聲音分為正負樣本并分別進行標簽,然后根據(jù)混合增強的方法通過線性插值的方法獲得新的虛擬樣本和標簽,增加樣本數(shù)據(jù),從而達到增強的效果。
3、收集到的嬰幼兒哭聲受限于環(huán)境噪音、背景音樂、多人交談等多種聲音源的干擾,難以準確區(qū)分和提取出嬰幼兒哭聲的有效數(shù)據(jù),需要人工預先標記好干凈哭聲樣本,增加了數(shù)據(jù)準備的成本且因收集到的嬰幼兒哭聲音頻質(zhì)量差,而導致根據(jù)哭聲判斷的嬰幼兒智能看護設備難以準確識別出嬰幼兒哭聲類型。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種基于機器學習的嬰幼兒哭聲增強方法、裝置及設備,用以解決現(xiàn)有技術(shù)中收集到的嬰幼兒哭聲受限于環(huán)境噪音、背景音樂、多人交談等多種聲音源的干擾,難以準確區(qū)分和提取出嬰幼兒哭聲的有效成分,需要人工預先標記的干凈哭聲樣本,增加了數(shù)據(jù)準備的成本且因收集到的嬰幼兒哭聲音頻質(zhì)量差而導致根據(jù)哭聲判斷的嬰幼兒智能看護受到影響的問題。
2、本發(fā)明采用的技術(shù)方案是:
3、第一方面,本發(fā)明提供了一種基于機器學習的嬰幼兒哭聲增強方法,所述方法包括:
4、獲取第一音頻數(shù)據(jù),其中,所述第一音頻數(shù)據(jù)包括至少一段含有嬰幼兒哭聲的音頻數(shù)據(jù);
5、對所述第一音頻數(shù)據(jù)進行預處理,得到第一音頻數(shù)據(jù)對應的頻譜圖;
6、將所述頻譜圖輸入自編碼器模型,輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息;
7、根據(jù)所述音頻特征信息,對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理,得到增強后的第二音頻數(shù)據(jù)。
8、優(yōu)選地,所述對所述第一音頻數(shù)據(jù)進行預處理,得到第一音頻數(shù)據(jù)對應的頻譜圖包括:
9、將所述第一音頻數(shù)據(jù)設置為相同采樣率;
10、將設置為相同采樣率的所述第一音頻數(shù)據(jù)進行分段處理,其中,每個分段音頻數(shù)據(jù)包括部分所述第一音頻數(shù)據(jù),相鄰兩段分段音頻數(shù)據(jù)有部分音頻數(shù)據(jù)重疊;
11、對各所述分段音頻數(shù)據(jù)進行轉(zhuǎn)換,得到所述分段音頻數(shù)據(jù)對應的頻譜圖;
12、對各所述頻譜圖按照預設特征增強處理方式進行增強處理,得到增強后的頻譜圖。
13、優(yōu)選地,所述預設特征增強處理方式包括:對數(shù)轉(zhuǎn)換處理方式、頻率軸調(diào)整處理方式或頻譜平滑處理方式。
14、優(yōu)選地,所述將所述頻譜圖輸入自編碼器模型,輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息包括:
15、將所述頻譜圖進行標準化處理,得到標準化頻譜圖;
16、構(gòu)建用于提取嬰幼兒哭聲特征的自編碼器模型;
17、根據(jù)所述標準化頻譜圖輸入所述自編碼器模型進行訓練,得到訓練后的自編碼器模型;
18、將所述標準化頻譜圖輸入訓練后的自編碼器模型,輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息。
19、優(yōu)選地,所述根據(jù)所述音頻特征信息,對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理,得到增強后的第二音頻數(shù)據(jù)包括:
20、根據(jù)所述嬰幼兒哭聲特征,對所述第一音頻數(shù)據(jù)對應的頻譜圖進行重構(gòu),得到第二頻譜圖;
21、將所述第二頻譜圖進行轉(zhuǎn)換,得到所述第二頻譜圖對應的音頻數(shù)據(jù);
22、對所述第二頻譜圖對應的音頻數(shù)據(jù)進行信號增強處理,得到增強后的第二音頻數(shù)據(jù)。
23、優(yōu)選地,所述對所述第二頻譜圖對應的音頻數(shù)據(jù)進行信號增強處理,得到增強后的第二音頻數(shù)據(jù),包括:
24、獲取預設能量門限值,其中,所述預設能量門限值用于區(qū)分哭聲或非哭聲;
25、對所述第二頻譜圖對應的音頻數(shù)據(jù)中的信號能量值大于所述預設能量門限值的部分進行增強處理,對所述第二頻譜圖對應的音頻數(shù)據(jù)中的信號能量值小于所述預設能量門限值的部分進行抑制處理。
26、優(yōu)選地,所述的基于機器學習的嬰幼兒哭聲增強方法包括:
27、獲取多名嬰幼兒的哭聲的第三音頻數(shù)據(jù);
28、將第三音頻數(shù)據(jù)進行聲源定位處理,得到各嬰幼兒對應的哭聲信息;
29、根據(jù)各所述哭聲信息,對所述第三音頻數(shù)據(jù)進行聲源分離處理,得到各嬰幼兒對應的哭聲音頻數(shù)據(jù)。
30、第二方面,本發(fā)明提供了一種基于機器學習的嬰幼兒哭聲增強裝置,所述裝置包括:
31、第一音頻數(shù)據(jù)獲取模塊:用于獲取第一音頻數(shù)據(jù),其中,所述第一音頻數(shù)據(jù)包括至少一段含有嬰幼兒哭聲的音頻數(shù)據(jù);
32、預處理模塊:用于對所述第一音頻數(shù)據(jù)進行預處理,得到第一音頻數(shù)據(jù)對應的頻譜圖;
33、哭聲特征提取模塊:用于將所述頻譜圖輸入自編碼器模型,輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息;
34、音頻數(shù)據(jù)增強模塊:用于根據(jù)所述音頻特征信息,對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理,得到增強后的第二音頻數(shù)據(jù)。
35、第三方面,本發(fā)明實施例還提供了一種電子設備,包括:至少一個處理器、至少一個存儲器以及存儲在存儲器中的計算機程序指令,當計算機程序指令被處理器執(zhí)行時實現(xiàn)如上述實施方式中第一方面的方法。
36、第四方面,本發(fā)明實施例還提供了一種存儲介質(zhì),其上存儲有計算機程序指令,當計算機程序指令被處理器執(zhí)行時實現(xiàn)如上述實施方式中第一方面的方法。
37、綜上所述,本發(fā)明的有益效果如下:
38、本發(fā)明提供的一種基于機器學習的嬰幼兒哭聲增強方法、裝置及設備,首先獲取第一音頻數(shù)據(jù),其中,所述第一音頻數(shù)據(jù)包括至少一段含有嬰幼兒哭聲的音頻數(shù)據(jù);對所述第一音頻數(shù)據(jù)進行預處理,得到第一音頻數(shù)據(jù)對應的頻譜圖;將所述頻譜圖輸入自編碼器模型,輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息;根據(jù)所述音頻特征信息,對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理,得到增強后的第二音頻數(shù)據(jù)。整體上有效地從嘈雜環(huán)境中提取并增強了嬰幼兒哭聲,顯著提高了哭聲信號的純凈度和識別率,有助于即時關(guān)注嬰幼兒狀態(tài),提升護理質(zhì)量和效率。
1.一種基于機器學習的嬰幼兒哭聲增強方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于機器學習的嬰幼兒哭聲增強方法,其特征在于,所述對所述第一音頻數(shù)據(jù)進行預處理,得到第一音頻數(shù)據(jù)對應的頻譜圖包括:
3.根據(jù)權(quán)利要求2所述的基于機器學習的嬰幼兒哭聲增強方法,其特征在于,所述預設特征增強處理方式包括:對數(shù)轉(zhuǎn)換處理方式、頻率軸調(diào)整處理方式或頻譜平滑處理方式。
4.根據(jù)權(quán)利要求3所述的基于機器學習的嬰幼兒哭聲增強方法,其特征在于,所述將所述頻譜圖輸入自編碼器模型,輸出所述第一音頻數(shù)據(jù)中與嬰幼兒哭聲對應的音頻特征信息包括:
5.根據(jù)權(quán)利要求4所述的基于機器學習的嬰幼兒哭聲增強方法,其特征在于,所述根據(jù)所述音頻特征信息,對含有嬰幼兒哭聲的音頻數(shù)據(jù)進行處理,得到增強后的第二音頻數(shù)據(jù)包括:
6.根據(jù)權(quán)利要求5所述的基于機器學習的嬰幼兒哭聲增強方法,其特征在于,所述對所述第二頻譜圖對應的音頻數(shù)據(jù)進行信號增強處理,得到增強后的第二音頻數(shù)據(jù)包括:
7.根據(jù)權(quán)利要求1所述的基于機器學習的嬰幼兒哭聲增強方法,其特征在于,所述對所述第一音頻數(shù)據(jù)進行預處理,得到第一音頻數(shù)據(jù)對應的頻譜圖之前還包括:
8.一種基于機器學習的嬰幼兒哭聲增強裝置,其特征在于,所述裝置包括:
9.一種電子設備,其特征在于,包括:至少一個處理器、至少一個存儲器以及存儲在所述存儲器中的計算機程序指令,當所述計算機程序指令被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的基于機器學習的嬰幼兒哭聲增強方法。
10.一種存儲介質(zhì),其上存儲有計算機程序指令,其特征在于,當所述計算機程序指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的基于機器學習的嬰幼兒哭聲增強方法。