国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法及系統(tǒng)的制作方法

      文檔序號(hào):2826131閱讀:724來(lái)源:國(guó)知局
      基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法及系統(tǒng)的制作方法
      【專(zhuān)利摘要】本發(fā)明提供了一種基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法及系統(tǒng),所述方法包括采集訓(xùn)練用嬰兒啼哭聲數(shù)據(jù);對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注;提取每一個(gè)分類(lèi)標(biāo)注的訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)以生成訓(xùn)練用數(shù)據(jù)文件;根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值;根據(jù)深層神經(jīng)網(wǎng)絡(luò)中所有層的初始權(quán)值并采用BP算法獲取所述深層神經(jīng)網(wǎng)絡(luò)的哭聲模型;采集待識(shí)別的嬰兒啼哭聲數(shù)據(jù),提取待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù);根據(jù)待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)和所述哭聲模型進(jìn)行哭聲識(shí)別,能夠提高對(duì)嬰兒啼哭聲的識(shí)別率。
      【專(zhuān)利說(shuō)明】基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法及系統(tǒng)

      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及一種基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法及系統(tǒng)。

      【背景技術(shù)】
      [0002]嬰兒啼哭聲識(shí)別的研究自上個(gè)世紀(jì)六七十年代就已出現(xiàn),限于之前的技術(shù)水平和數(shù)據(jù)規(guī)模,有應(yīng)用前景的產(chǎn)品和技術(shù)不多,少量面市的產(chǎn)品也大多存在識(shí)別性能不可靠、技術(shù)含量低等缺點(diǎn)。這一方面是由于歷史上嬰兒啼哭聲數(shù)據(jù)采集和標(biāo)注的規(guī)模較小,有的甚至只有幾十段音頻,通常只能對(duì)差異度特別大的哭聲類(lèi)型進(jìn)行有效識(shí)別,如健康嬰兒和聾兒哭聲的識(shí)別,難以充分挖掘嬰兒啼哭聲背后的規(guī)律,對(duì)更多狀態(tài)的區(qū)分可靠性不高;另一方面是由于之前做嬰兒哭聲識(shí)別多是采用普通神經(jīng)網(wǎng)絡(luò)模型,普通神經(jīng)網(wǎng)絡(luò)的建模能力有限,不能充分對(duì)嬰兒啼哭聲建模,因而對(duì)有限狀態(tài)的識(shí)別率也不高,很少有成功應(yīng)用。


      【發(fā)明內(nèi)容】

      [0003]本發(fā)明的目的在于提供一種基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法及系統(tǒng),能夠提高對(duì)嬰兒啼哭聲的識(shí)別率。
      [0004]為解決上述問(wèn)題,本發(fā)明提供一種基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法,包括:
      [0005]采集訓(xùn)練用嬰兒啼哭聲數(shù)據(jù);
      [0006]對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注;
      [0007]提取每一個(gè)分類(lèi)標(biāo)注的訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)以生成訓(xùn)練用數(shù)據(jù)文件;
      [0008]根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值;
      [0009]根據(jù)深層神經(jīng)網(wǎng)絡(luò)中所有層的初始權(quán)值并采用8?算法獲取所述深層神經(jīng)網(wǎng)絡(luò)的哭聲模型;
      [0010]采集待識(shí)別的嬰兒啼哭聲數(shù)據(jù),提取待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù);
      [0011]根據(jù)待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)和所述哭聲模型進(jìn)行哭聲識(shí)別。
      [0012]進(jìn)一步的,在上述方法中,對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注的步驟之前還包括:
      [0013]對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行剔除噪音和背景說(shuō)話(huà)聲的預(yù)處理。
      [0014]進(jìn)一步的,在上述方法中,所述分類(lèi)標(biāo)注包括病理性嬰兒啼哭聲和非病理性嬰兒啼哭聲。
      [0015]進(jìn)一步的,在上述方法中,根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值的步驟中,
      [0016]從第四層開(kāi)始的每一層初始權(quán)值包括:從第一層至第化2層中相鄰兩層之間的第一權(quán)值以及從第化2層至第~層中相鄰兩層之間的隨機(jī)權(quán)值,其中4為待獲取初始權(quán)值的當(dāng)前層的層數(shù),^為大于等于四的正整數(shù)。
      [0017]進(jìn)一步的,在上述方法中,根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值的步驟中,采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)的層數(shù)為九層。
      [0018]根據(jù)本發(fā)明的另一面,提供一種基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別系統(tǒng),包括:
      [0019]第一采集模塊,用于采集訓(xùn)練用嬰兒啼哭聲數(shù)據(jù);
      [0020]標(biāo)注模塊,用于對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注;
      [0021]第一提取模塊,用于提取每一個(gè)分類(lèi)標(biāo)注的訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)以生成訓(xùn)練用數(shù)據(jù)文件;
      [0022]初始權(quán)值模塊,用于根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值;
      [0023]哭聲模型模塊,用于根據(jù)深層神經(jīng)網(wǎng)絡(luò)中所有層的初始權(quán)值并采用8?算法獲取所述深層神經(jīng)網(wǎng)絡(luò)的哭聲模型;
      [0024]第二采集模塊,用于采集待識(shí)別的嬰兒啼哭聲數(shù)據(jù),提取待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù);
      [0025]哭聲識(shí)別器模塊,用于根據(jù)待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)和所述哭聲模型進(jìn)行哭聲識(shí)別。
      [0026]進(jìn)一步的,在上述系統(tǒng)中,所述標(biāo)注模塊,還用于在對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注之前,對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行剔除噪音和背景說(shuō)話(huà)聲的預(yù)處理。
      [0027]進(jìn)一步的,在上述系統(tǒng)中,所述標(biāo)注模塊進(jìn)行的所述分類(lèi)標(biāo)注包括病理性嬰兒啼哭聲和非病理性嬰兒啼哭聲。
      [0028]進(jìn)一步的,在上述系統(tǒng)中,所述初始權(quán)值模塊得到深層神經(jīng)網(wǎng)絡(luò)中從第四層開(kāi)始的每一層初始權(quán)值包括:從第一層至第化2層中相鄰兩層之間的第一權(quán)值以及從第化2層至第~層中相鄰兩層之間的隨機(jī)權(quán)值,其中4為待獲取初始權(quán)值的當(dāng)前層的層數(shù)4為大于等于四的正整數(shù)。
      [0029]進(jìn)一步的,在上述系統(tǒng)中,所述初始權(quán)值模塊采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)的層數(shù)為九層。
      [0030]與現(xiàn)有技術(shù)相比,本發(fā)明通過(guò)采集訓(xùn)練用嬰兒啼哭聲數(shù)據(jù);對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注;提取每一個(gè)分類(lèi)標(biāo)注的訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)以生成訓(xùn)練用數(shù)據(jù)文件;根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值;根據(jù)深層神經(jīng)網(wǎng)絡(luò)中所有層的初始權(quán)值并采用8?算法獲取所述深層神經(jīng)網(wǎng)絡(luò)的哭聲模型;采集待識(shí)別的嬰兒啼哭聲數(shù)據(jù),提取待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù);根據(jù)待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)和所述哭聲模型進(jìn)行哭聲識(shí)別,能夠提高對(duì)嬰兒啼哭聲的識(shí)別率。

      【專(zhuān)利附圖】

      【附圖說(shuō)明】
      [0031]圖1是本發(fā)明一實(shí)施例的基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法的流程圖;
      [0032]圖2是本發(fā)明一實(shí)施例的基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別系統(tǒng)的模塊圖。

      【具體實(shí)施方式】
      [0033]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
      [0034]實(shí)施例一
      [0035]如圖1所示,本發(fā)明提供一種基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法,包括步驟31?步驟38。
      [0036]步驟31,采集訓(xùn)練用嬰兒啼哭聲數(shù)據(jù);
      [0037]優(yōu)選的,步驟33之前還可包括:
      [0038]步驟32,對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行剔除噪音和背景說(shuō)話(huà)聲的預(yù)處理。
      [0039]步驟33,對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注;
      [0040]優(yōu)選的,所述分類(lèi)標(biāo)注包括病理性嬰兒啼哭聲和非病理性嬰兒啼哭聲。具體的,嬰兒啼哭聲數(shù)據(jù)的采集和分類(lèi)標(biāo)注可在專(zhuān)業(yè)的兒童醫(yī)院進(jìn)行,對(duì)每個(gè)嬰兒錄制約2分鐘的哭聲音頻,由育兒專(zhuān)家確定嬰兒啼哭時(shí)的原因,將所有原因歸為病理性和非病理性?xún)深?lèi),并對(duì)音頻進(jìn)行標(biāo)記。得到全部錄音數(shù)據(jù)后,對(duì)數(shù)據(jù)進(jìn)行篩選,剔除噪音太多、說(shuō)話(huà)聲太多等不符合要求的數(shù)據(jù),從而生成數(shù)據(jù)量較全的嬰兒啼哭聲數(shù)據(jù)庫(kù)。
      [0041]步驟34,提取每一個(gè)分類(lèi)標(biāo)注的訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)(即⑶)以生成訓(xùn)練用數(shù)據(jù)文件;具體的,得到訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)后,提取每段音頻的即⑶參數(shù),加上標(biāo)注后生成訓(xùn)練用數(shù)據(jù)文件,可將文件中每連續(xù)11幀的特征數(shù)據(jù)合并,以充分利用連續(xù)多幀的相關(guān)性信息。
      [0042]步驟35,根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式(匕丫虹-七此¢11-6-1:1-81111118)得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值;
      [0043]優(yōu)選的,步驟35中,從第四層開(kāi)始的每一層初始權(quán)值包括:從第一層至第化2層中相鄰兩層之間的第一權(quán)值以及從第化2層至第~層中相鄰兩層之間的隨機(jī)權(quán)值,其中4為待獲取初始權(quán)值的當(dāng)前層的層數(shù),^為大于等于四的正整數(shù)。
      [0044]較佳的,步驟35中,采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)(0剛)的層數(shù)為九層。
      [0045]具體的,步驟35為預(yù)訓(xùn)練階段,采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)的初始權(quán)值,即從三層網(wǎng)絡(luò)開(kāi)始進(jìn)行有監(jiān)督的神經(jīng)網(wǎng)絡(luò)訓(xùn)練,然后增加到四層網(wǎng)絡(luò),其中,第四層網(wǎng)絡(luò)的初始權(quán)值包含了第三層網(wǎng)絡(luò)訓(xùn)練得到的第一二層之間的第一權(quán)值和兩層隨機(jī)權(quán)值和……依此類(lèi)推,直到第九層神經(jīng)網(wǎng)絡(luò)。為敘述方便起見(jiàn),上述權(quán)值也包含偏置,即輸出恒為1的結(jié)點(diǎn)與其他層結(jié)點(diǎn)的連接權(quán)值。詳細(xì)的,以九層的深層神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),第四層網(wǎng)絡(luò)的初始權(quán)值包含了第三層網(wǎng)絡(luò)訓(xùn)練得到的第一二層之間的第一權(quán)值&2和兩層隨機(jī)權(quán)值I^23、,第五層網(wǎng)絡(luò)的初始權(quán)值包含了第四層網(wǎng)絡(luò)訓(xùn)練得到的第一二三層之間的第一權(quán)值和兩層隨機(jī)權(quán)值,第六層網(wǎng)絡(luò)的初始權(quán)值包含了第五層網(wǎng)絡(luò)訓(xùn)練得到的第一二三四層之間的第一權(quán)值?^23、%4和兩層隨機(jī)權(quán)值,第七層網(wǎng)絡(luò)的初始權(quán)值包含了第六層網(wǎng)絡(luò)訓(xùn)練得到的第一二三四五層之間的第一權(quán)值%2,23,34、^45和兩層隨機(jī)權(quán)值,第八層網(wǎng)絡(luò)的初始權(quán)值包含了第七層網(wǎng)絡(luò)訓(xùn)練得到的第一二三四五六層之間的第一權(quán)值5、%;和兩層隨機(jī)權(quán)值,第九層網(wǎng)絡(luò)的初始權(quán)值包含了第八層網(wǎng)絡(luò)訓(xùn)練得到的第一二三四五六七層之間的第一權(quán)值%2,23,34、^45, ^56, ^67和兩層隨機(jī)權(quán)值I
      [0046]步驟36,根據(jù)深層神經(jīng)網(wǎng)絡(luò)中所有層的初始權(quán)值并采用8?算法
      &180^1獲取所述深層神經(jīng)網(wǎng)絡(luò)的哭聲模型;具體的,步驟36為正式訓(xùn)練階段,采用預(yù)訓(xùn)練階段得到的多層神經(jīng)網(wǎng)絡(luò)如九層的初始權(quán)值進(jìn)行標(biāo)準(zhǔn)的8?神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
      [0047]步驟37,采集待識(shí)別的嬰兒啼哭聲數(shù)據(jù),提取待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù);
      [0048]步驟38,根據(jù)待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)和所述哭聲模型進(jìn)行哭聲識(shí)別。
      [0049]本實(shí)施例利用利用逐層預(yù)訓(xùn)練的方式(18761-^186得到深層神經(jīng)網(wǎng)絡(luò)的初始權(quán)值,然后用傳統(tǒng)的8?算法^1^01-11:11111)訓(xùn)練該深層神經(jīng)網(wǎng)絡(luò)得到最終的網(wǎng)絡(luò)模型以用于識(shí)別,能夠利用深層神經(jīng)網(wǎng)絡(luò)對(duì)嬰兒啼哭聲做出病理性和非病理性識(shí)別,與普通神經(jīng)網(wǎng)絡(luò)模型相比,識(shí)別率有較大提升。
      [0050]實(shí)施例二
      [0051]如圖2所示,本發(fā)明還提供另一種基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別系統(tǒng),包括第一采集模塊1、標(biāo)注模塊2、第一提取模塊3、初始權(quán)值模塊4、哭聲模型模塊5、第二采集模塊6、哭聲識(shí)別器模塊7。
      [0052]第一采集模塊1,用于采集訓(xùn)練用嬰兒啼哭聲數(shù)據(jù);
      [0053]標(biāo)注模塊2,用于對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注;
      [0054]優(yōu)選的,所述標(biāo)注模塊2,還用于在對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注之前,對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行剔除噪音和背景說(shuō)話(huà)聲的預(yù)處理。
      [0055]較佳的,所述標(biāo)注模塊2進(jìn)行的所述分類(lèi)標(biāo)注包括病理性嬰兒啼哭聲和非病理性嬰兒啼哭聲。
      [0056]第一提取模塊3,用于提取每一個(gè)分類(lèi)標(biāo)注的訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)以生成訓(xùn)練用數(shù)據(jù)文件;
      [0057]初始權(quán)值模塊4,用于根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值;
      [0058]優(yōu)選的,所述初始權(quán)值模塊4得到深層神經(jīng)網(wǎng)絡(luò)中從第四層開(kāi)始的每一層初始權(quán)值包括:從第一層至第化2層中相鄰兩層之間的第一權(quán)值以及從第化2層至第~層中相鄰兩層之間的隨機(jī)權(quán)值,其中,~為待獲取初始權(quán)值的當(dāng)前層的層數(shù),~為大于等于四的正整數(shù)。
      [0059]較佳的,所述初始權(quán)值模塊4采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)的層數(shù)為九層。
      [0060]哭聲模型模塊5,用于根據(jù)深層神經(jīng)網(wǎng)絡(luò)中所有層的初始權(quán)值并采用8?算法獲取所述深層神經(jīng)網(wǎng)絡(luò)的哭聲模型;
      [0061]第二采集模塊6,用于采集待識(shí)別的嬰兒啼哭聲數(shù)據(jù),提取待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù);
      [0062]哭聲識(shí)別器模塊7,用于根據(jù)待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)和所述哭聲模型進(jìn)行哭聲識(shí)別。
      [0063]本實(shí)施例二的其它詳細(xì)內(nèi)容具體可參見(jiàn)實(shí)施例一的相應(yīng)部分,在此不再贅述。
      [0064]綜上所述,本發(fā)明通過(guò)采集訓(xùn)練用嬰兒啼哭聲數(shù)據(jù);對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注;提取每一個(gè)分類(lèi)標(biāo)注的訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)以生成訓(xùn)練用數(shù)據(jù)文件;根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值;根據(jù)深層神經(jīng)網(wǎng)絡(luò)中所有層的初始權(quán)值并采用8?算法獲取所述深層神經(jīng)網(wǎng)絡(luò)的哭聲模型;采集待識(shí)別的嬰兒啼哭聲數(shù)據(jù),提取待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù);根據(jù)待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)和所述哭聲模型進(jìn)行哭聲識(shí)別,能夠提高對(duì)嬰兒啼哭聲的識(shí)別率。
      [0065]本說(shuō)明書(shū)中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見(jiàn)即可。對(duì)于實(shí)施例公開(kāi)的系統(tǒng)而言,由于與實(shí)施例公開(kāi)的方法相對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法部分說(shuō)明即可。
      [0066]專(zhuān)業(yè)人員還可以進(jìn)一步意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專(zhuān)業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
      [0067]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包括這些改動(dòng)和變型在內(nèi)。
      【權(quán)利要求】
      1.一種基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法,其特征在于,包括: 采集訓(xùn)練用嬰兒啼哭聲數(shù)據(jù); 對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注; 提取每一個(gè)分類(lèi)標(biāo)注的訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)以生成訓(xùn)練用數(shù)據(jù)文件; 根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值; 根據(jù)深層神經(jīng)網(wǎng)絡(luò)中所有層的初始權(quán)值并采用BP算法獲取所述深層神經(jīng)網(wǎng)絡(luò)的哭聲模型; 采集待識(shí)別的嬰兒啼哭聲數(shù)據(jù),提取待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù); 根據(jù)待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)和所述哭聲模型進(jìn)行哭聲識(shí)別。
      2.如權(quán)利要求1所述的基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法,其特征在于,對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注的步驟之前還包括: 對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行剔除噪音和背景說(shuō)話(huà)聲的預(yù)處理。
      3.如權(quán)利要求1所述的基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法,其特征在于,所述分類(lèi)標(biāo)注包括病理性嬰兒啼哭聲和非病理性嬰兒啼哭聲。
      4.如權(quán)利要求1所述的基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法,其特征在于,根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值的步驟中, 從第四層開(kāi)始的每一層初始權(quán)值包括:從第一層至第N-2層中相鄰兩層之間的第一權(quán)值以及從第N-2層至第N層中相鄰兩層之間的隨機(jī)權(quán)值,其中,N為待獲取初始權(quán)值的當(dāng)前層的層數(shù),N為大于等于四的正整數(shù)。
      5.如權(quán)利要求1所述的基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別方法,其特征在于,根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值的步驟中,采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)的層數(shù)為九層。
      6.一種基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別系統(tǒng),其特征在于,包括: 第一采集模塊,用于采集訓(xùn)練用嬰兒啼哭聲數(shù)據(jù); 標(biāo)注模塊,用于對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注; 第一提取模塊,用于提取每一個(gè)分類(lèi)標(biāo)注的訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)以生成訓(xùn)練用數(shù)據(jù)文件; 初始權(quán)值模塊,用于根據(jù)所述訓(xùn)練用數(shù)據(jù)文件并采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)中每一層的初始權(quán)值; 哭聲模型模塊,用于根據(jù)深層神經(jīng)網(wǎng)絡(luò)中所有層的初始權(quán)值并采用BP算法獲取所述深層神經(jīng)網(wǎng)絡(luò)的哭聲模型; 第二采集模塊,用于采集待識(shí)別的嬰兒啼哭聲數(shù)據(jù),提取待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù); 哭聲識(shí)別器模塊,用于根據(jù)待識(shí)別的嬰兒啼哭聲數(shù)據(jù)中每段音頻的梅爾域倒譜系數(shù)和所述哭聲模型進(jìn)行哭聲識(shí)別。
      7.如權(quán)利要求6所述的基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別系統(tǒng),其特征在于,所述標(biāo)注模塊,還用于在對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注之前,對(duì)所述訓(xùn)練用嬰兒啼哭聲數(shù)據(jù)進(jìn)行剔除噪音和背景說(shuō)話(huà)聲的預(yù)處理。
      8.如權(quán)利要求6所述的基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別系統(tǒng),其特征在于,所述標(biāo)注模塊進(jìn)行的所述分類(lèi)標(biāo)注包括病理性嬰兒啼哭聲和非病理性嬰兒啼哭聲。
      9.如權(quán)利要求6所述的基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別系統(tǒng),其特征在于,所述初始權(quán)值模塊得到深層神經(jīng)網(wǎng)絡(luò)中從第四層開(kāi)始的每一層初始權(quán)值包括:從第一層至第N-2層中相鄰兩層之間的第一權(quán)值以及從第N-2層至第N層中相鄰兩層之間的隨機(jī)權(quán)值,其中,N為待獲取初始權(quán)值的當(dāng)前層的層數(shù),N為大于等于四的正整數(shù)。
      10.如權(quán)利要求6所述的基于深層神經(jīng)網(wǎng)絡(luò)的嬰兒啼哭聲識(shí)別系統(tǒng),其特征在于,所述初始權(quán)值模塊采用逐層預(yù)訓(xùn)練的方式得到深層神經(jīng)網(wǎng)絡(luò)的層數(shù)為九層。
      【文檔編號(hào)】G10L25/24GK104347066SQ201310347807
      【公開(kāi)日】2015年2月11日 申請(qǐng)日期:2013年8月9日 優(yōu)先權(quán)日:2013年8月9日
      【發(fā)明者】景亞鵬, 張峰, 吳義堅(jiān) 申請(qǐng)人:盛樂(lè)信息技術(shù)(上海)有限公司
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1