国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于GMM模型的語(yǔ)音激活檢測(cè)方法與流程

      文檔序號(hào):11387969閱讀:456來(lái)源:國(guó)知局
      一種基于GMM模型的語(yǔ)音激活檢測(cè)方法與流程

      本發(fā)明屬于音頻處理技術(shù)領(lǐng)域,尤其涉及voip通訊過(guò)程的音頻處理技術(shù)。



      背景技術(shù):

      隨著voip及視頻會(huì)議技術(shù)的不斷發(fā)展創(chuàng)新,voip、視頻會(huì)議已成為公司日常工作溝通和交流的重要手段,因此長(zhǎng)時(shí)間的視頻會(huì)議,語(yǔ)音會(huì)議司空見慣。在會(huì)議間隙不免可能會(huì)有長(zhǎng)時(shí)間的資料整理,錄入,調(diào)試等工作,這段時(shí)間沒有人說(shuō)話,但是由于與會(huì)者離voip終端較近,會(huì)導(dǎo)致對(duì)端聽到鍵盤敲擊聲,紙張翻閱,或者其他的的較大的噪聲,對(duì)對(duì)端造成干擾。為了避免上述尷尬的發(fā)生,本發(fā)明提出一種語(yǔ)音激活檢測(cè)方法,其對(duì)語(yǔ)音通話中特定噪聲檢測(cè)并做相應(yīng)處理,當(dāng)有人重新說(shuō)話時(shí),則開啟正常通話模式。

      現(xiàn)有的語(yǔ)音激活檢測(cè)方法,大多只能區(qū)別比較小的背景噪音與語(yǔ)音,對(duì)于鍵盤敲擊等特定的較大的噪聲,則無(wú)法判別。本發(fā)明提出基于對(duì)語(yǔ)音信號(hào)和特定噪聲分別用gmm(gaussianmixturemodel,高斯混合模型)訓(xùn)練模型并用于檢測(cè)區(qū)別語(yǔ)音信號(hào)與特定噪聲的語(yǔ)音激活檢測(cè)方法。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明的目的在于提供一種基于gmm模型的語(yǔ)音激活檢測(cè)方法,為了實(shí)現(xiàn)在voip通話過(guò)程中在無(wú)人說(shuō)話時(shí)對(duì)特定的噪聲信號(hào)進(jìn)行噪聲處理,以減少通話間隙長(zhǎng)時(shí)間無(wú)人說(shuō)話時(shí),一些噪聲對(duì)對(duì)端與會(huì)者造成干擾。

      為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明一種基于gmm模型的語(yǔ)音激活檢測(cè)方法,主要包括以下操作:數(shù)據(jù)訓(xùn)練:建立訓(xùn)練樣本庫(kù)和用em核心算法分別訓(xùn)練語(yǔ)音信號(hào)gmm模型、噪聲信號(hào)gmm模型;數(shù)據(jù)測(cè)試:對(duì)實(shí)時(shí)通話進(jìn)行檢測(cè),包括:分幀處理、特征提取、概率計(jì)算;數(shù)據(jù)判斷:根據(jù)語(yǔ)音信號(hào)概率及噪聲信號(hào)概率判斷測(cè)試幀信號(hào)為語(yǔ)音信號(hào)還是噪聲信號(hào)。

      優(yōu)選的,該數(shù)據(jù)訓(xùn)練進(jìn)一步包括:步驟1-a:收集語(yǔ)音信號(hào)樣本集和噪聲信號(hào)樣本集,對(duì)語(yǔ)音信號(hào)樣本集和噪聲信號(hào)樣本集中的音頻文件分別進(jìn)行分幀,語(yǔ)音幀信號(hào)集記為,噪聲幀信號(hào)集記為;步驟1-b:提取用于gmm訓(xùn)練的特征集,即對(duì)語(yǔ)音幀信號(hào)集提取的語(yǔ)音特征集記為,對(duì)噪聲幀信號(hào)集提取的噪聲特征集記為;步驟1-c:對(duì)語(yǔ)音特征集、噪聲特征集進(jìn)行g(shù)mm訓(xùn)練,分別得到:語(yǔ)音模型gmm參數(shù)集、噪聲模型gmm參數(shù)集

      優(yōu)選的,該數(shù)據(jù)測(cè)試包括:步驟2-a:對(duì)測(cè)試信號(hào)分幀處理;步驟2-b:對(duì)測(cè)試信號(hào)提取用于gmm測(cè)試的特征集,記為測(cè)試特征集;步驟2-c:分別計(jì)算語(yǔ)音信號(hào)概率和噪聲信號(hào)概率。

      優(yōu)選的,語(yǔ)音信號(hào)概率是根據(jù)測(cè)試特征集和語(yǔ)音模型gmm參數(shù)集計(jì)算所得;噪聲信號(hào)概率是根據(jù)測(cè)試特征集和噪聲模型gmm參數(shù)集計(jì)算所得。

      優(yōu)選的,語(yǔ)音幀信號(hào)集包含10ms長(zhǎng)度的幀語(yǔ)音信號(hào);噪聲幀信號(hào)集包含10ms長(zhǎng)度的幀噪聲信號(hào),為語(yǔ)音信號(hào)幀總數(shù)以及噪聲信號(hào)幀總數(shù)。

      優(yōu)選的,語(yǔ)音特征集包括所有語(yǔ)音幀信號(hào)提取的特征集集合,是對(duì)中的每一幀語(yǔ)音信號(hào)提取基音頻率特征和時(shí)域特征;噪聲特征集包括所有噪聲幀信號(hào)提取的特征集集合,是對(duì)中的每一幀噪聲信號(hào)提取基音頻率特征和時(shí)域特征。

      優(yōu)選的,數(shù)據(jù)訓(xùn)練還包括:提取訓(xùn)練特征操作,記為第幀語(yǔ)音信號(hào),其為時(shí)域采樣點(diǎn)的集合,記為,其中為10ms一幀信號(hào)包含的時(shí)域采樣點(diǎn)總數(shù),由基音頻率、過(guò)零率、短時(shí)能量、歸一化自相關(guān)系數(shù)、第一語(yǔ)音線性預(yù)測(cè)系數(shù)這五個(gè)特征組成,即,其中,由現(xiàn)有的基音檢測(cè)技術(shù),即對(duì)自相關(guān)系數(shù)求峰值得到,為第一個(gè)lpc(線性預(yù)測(cè)編碼)系數(shù),lpc為現(xiàn)有的較為成熟的語(yǔ)音線性預(yù)測(cè)編碼技術(shù),其他三個(gè)特征的計(jì)算公式分別如下:,其中為符號(hào)函數(shù),即;;。

      優(yōu)選的,對(duì)整理為gmm模型訓(xùn)練算法的輸入矩陣形式,即,每一行對(duì)應(yīng)每一幀語(yǔ)音信號(hào)的特征集,并對(duì)用gmm訓(xùn)練器訓(xùn)練語(yǔ)音信號(hào)模型參數(shù);對(duì)整理為gmm模型訓(xùn)練算法的輸入矩陣形式,即,每一行對(duì)應(yīng)每一幀噪聲信號(hào)的特征集,并對(duì)用gmm訓(xùn)練器訓(xùn)練噪聲信號(hào)模型參數(shù)

      優(yōu)選的,數(shù)據(jù)測(cè)試包括:步驟2-a:對(duì)測(cè)試信號(hào)提取基音頻率特征和時(shí)域特征,由基音頻率、過(guò)零率、短時(shí)能量、歸一化自相關(guān)系數(shù)、第一語(yǔ)音線性預(yù)測(cè)系數(shù)這五個(gè)特征組成,記為;步驟2-b:用多維高斯概率密度計(jì)算公式,根據(jù)及訓(xùn)練部分的,計(jì)算測(cè)試幀信號(hào)為語(yǔ)音信號(hào)的概率,根據(jù)及訓(xùn)練部分的計(jì)算測(cè)試幀信號(hào)為噪聲信號(hào)的概率,其計(jì)算公式如下:,

      優(yōu)選的,數(shù)據(jù)判斷包括:根據(jù)判別所述測(cè)試幀信號(hào)為語(yǔ)音信號(hào)還是噪聲信號(hào),若則判別為語(yǔ)音信號(hào),否則判別為噪聲信號(hào);對(duì)判別為語(yǔ)音信號(hào)的幀信號(hào)保持正常通話模式,對(duì)判別為噪聲信號(hào)的幀信號(hào)則進(jìn)行相應(yīng)處理。

      本發(fā)明提供的方案在會(huì)議通話過(guò)程中,有效監(jiān)測(cè)通話信號(hào)為噪聲信號(hào)還是語(yǔ)音信號(hào),從而對(duì)無(wú)效噪聲信號(hào)進(jìn)行相應(yīng)處理。

      本發(fā)明提供的技術(shù)方案對(duì)特定噪聲信號(hào)進(jìn)行采集,提取特征集,并用gmm訓(xùn)練特定噪聲模型參數(shù)集,從而用于對(duì)實(shí)時(shí)信號(hào)計(jì)算其為噪聲信號(hào)的概率,對(duì)特定噪聲信號(hào)的訓(xùn)練,能夠有針對(duì)性的處理目標(biāo)噪聲信號(hào),如敲擊聲,腳步聲等。

      本發(fā)明提供的技術(shù)方案對(duì)語(yǔ)音信號(hào)提取特征集,并用gmm訓(xùn)練語(yǔ)音模型參數(shù)集,用于對(duì)實(shí)時(shí)信號(hào)計(jì)算其為語(yǔ)音信號(hào)的概率,從而保證在無(wú)人說(shuō)話的消噪狀態(tài)到有人說(shuō)話時(shí)恢復(fù)正常通話狀態(tài)的準(zhǔn)確切換。

      本發(fā)明先用噪聲信號(hào)及語(yǔ)音信號(hào)預(yù)先訓(xùn)練gmm模型參數(shù),再對(duì)實(shí)時(shí)通話信號(hào)進(jìn)行檢測(cè)判別其為噪聲信號(hào)還是語(yǔ)音信號(hào)時(shí)對(duì)提取的信號(hào)特征,根據(jù)預(yù)先訓(xùn)練的gmm模型參數(shù)分別計(jì)算其為噪聲的概率還是語(yǔ)音的概率,計(jì)算復(fù)雜度低,保證實(shí)時(shí)性。

      附圖說(shuō)明

      圖1為本發(fā)明具體實(shí)施例中g(shù)mm模型參數(shù)訓(xùn)練框圖。

      圖2為本發(fā)明具體實(shí)施例中測(cè)試幀信號(hào)測(cè)試框圖。

      具體實(shí)施方式

      發(fā)明的基本原理:本發(fā)明采用gmm對(duì)特定噪聲和語(yǔ)音分別訓(xùn)練模型參數(shù),用于實(shí)時(shí)檢測(cè)voip通話信號(hào)為特定噪聲信號(hào)還是語(yǔ)音信號(hào),如果為噪聲信號(hào)則做相應(yīng)處理,為語(yǔ)音信號(hào)則為正常通話狀態(tài)。用于gmm訓(xùn)練和檢測(cè)的語(yǔ)音信號(hào)的特征集為語(yǔ)音基音頻率特征與時(shí)域特征的結(jié)合。

      為了更清楚地說(shuō)明本發(fā)明實(shí)例的技術(shù)方案,下面將結(jié)合示例圖對(duì)本發(fā)明的具體實(shí)施例進(jìn)行詳細(xì)的介紹,下面的描述僅僅是本發(fā)明的一些實(shí)施例。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些實(shí)施例獲得本發(fā)明的其他實(shí)施方式。

      本發(fā)明實(shí)施例提供了一種對(duì)voip終端采集信號(hào)判斷其為噪聲還是語(yǔ)音信號(hào)并做相應(yīng)處理,從而實(shí)現(xiàn)在無(wú)人說(shuō)話時(shí),針對(duì)性的處理會(huì)議室如敲擊聲,鍵盤聲,腳步聲等噪聲,避免與會(huì)者在對(duì)端無(wú)人說(shuō)話時(shí),受其噪聲干擾。

      本發(fā)明實(shí)施例提供的基于gmm對(duì)特定噪聲訓(xùn)練模型的語(yǔ)音激活檢測(cè)方法分為訓(xùn)練部分和檢測(cè)部分。訓(xùn)練部分對(duì)特定噪聲信號(hào)訓(xùn)練gmm噪聲模型參數(shù)集,對(duì)語(yǔ)音信號(hào)訓(xùn)練gmm語(yǔ)音模型參數(shù)集。

      圖1為本發(fā)明具體實(shí)施例中g(shù)mm模型參數(shù)訓(xùn)練框圖。如圖1所示,本發(fā)明的訓(xùn)練部分主要內(nèi)容包括:

      步驟s110:收集語(yǔ)音信號(hào)樣本集,應(yīng)盡量包含多種語(yǔ)音,多個(gè)說(shuō)話人,多樣化內(nèi)容;收集噪聲信號(hào)樣本集,應(yīng)包含需要檢測(cè)的會(huì)議室特定噪聲如敲擊聲,文件翻閱聲,腳步聲等。

      步驟s120:對(duì)語(yǔ)音信號(hào)樣本集和噪聲信號(hào)樣本集中的音頻文件分別進(jìn)行分幀,每一幀幀長(zhǎng)固定,對(duì)語(yǔ)音幀信號(hào)記為,對(duì)噪聲幀信號(hào)記為。

      步驟s130:對(duì)語(yǔ)音幀信號(hào)提取用于gmm訓(xùn)練的特征集,記為,對(duì)噪聲幀信號(hào)提取用于gmm訓(xùn)練的特征集,記為

      其中,為語(yǔ)音特征的集合,包括基音頻率特征,時(shí)域特征。

      步驟s140:對(duì)用gmm訓(xùn)練,得到語(yǔ)音模型gmm參數(shù)集,對(duì)用gmm訓(xùn)練,得到噪聲模型gmm參數(shù)集。

      圖2為本發(fā)明具體實(shí)施例中測(cè)試幀信號(hào)測(cè)試框圖。由該圖所示,本發(fā)明的測(cè)試部分主要內(nèi)容包括:

      步驟s210:對(duì)測(cè)試信號(hào)分幀處理,該測(cè)試幀信號(hào)記為。

      步驟s220:對(duì)提取用于gmm測(cè)試的特征集,記為。

      其中,包含的語(yǔ)音特征的集合與訓(xùn)練部分步驟s130中的,包含的特征集合一致,即基音頻率特征,時(shí)域特征。

      步驟s230:根據(jù)及訓(xùn)練部分的計(jì)算測(cè)試幀信號(hào)為語(yǔ)音信號(hào)的概率,根據(jù)及訓(xùn)練部分的計(jì)算測(cè)試幀信號(hào)為噪聲信號(hào)的概率。

      步驟s240:根據(jù)判別測(cè)試幀信號(hào)為語(yǔ)音信號(hào)還是噪聲信號(hào)。

      步驟s250:根據(jù)步驟s240判決結(jié)果,對(duì)判別為語(yǔ)音信號(hào)的幀信號(hào)保持正常通話模式,對(duì)判別為噪聲信號(hào)的幀信號(hào)則進(jìn)行噪聲處理模式。

      此時(shí),訓(xùn)練過(guò)程具體實(shí)施方案如下所述:

      首先是對(duì)于訓(xùn)練部分,主要包括建立訓(xùn)練樣本庫(kù)和用em核心算法分別訓(xùn)練語(yǔ)音信號(hào)gmm模型、噪聲信號(hào)gmm模型。

      步驟s310:收集語(yǔ)音信號(hào)樣本庫(kù)。通過(guò)網(wǎng)絡(luò)下載及自己錄制獲得一定數(shù)量的語(yǔ)音信號(hào)音頻文件,將這些文件用音頻編輯軟件進(jìn)行整理,獲得語(yǔ)音樣本集,其中包含的語(yǔ)音文件為,采樣率,大小均相同。收集噪聲音頻文件,建立噪聲信號(hào)樣本集,其中包含的噪聲文件為,主要來(lái)源為網(wǎng)絡(luò)下載的部分噪聲音頻文件以及自己錄制會(huì)議室容易產(chǎn)生的噪聲,如鍵盤敲擊聲,腳步聲,紙張翻閱聲等噪聲音頻文件。其中,為樣本庫(kù)中包含的音頻文件總數(shù),即語(yǔ)音信號(hào)樣本庫(kù)包含個(gè)文件大小相同,采樣率相同的語(yǔ)音音頻文件,噪聲信號(hào)樣本庫(kù)包含個(gè)與語(yǔ)音信號(hào)樣本庫(kù)中語(yǔ)音文件大小相同,采樣率相同的噪聲音頻文件。

      步驟s320:對(duì)語(yǔ)音信號(hào)樣本集中的所有語(yǔ)音文件以10ms時(shí)間長(zhǎng)度為一幀進(jìn)行分幀,得到語(yǔ)音幀信號(hào)集,包含的都是10ms長(zhǎng)度的幀語(yǔ)音信號(hào)。對(duì)噪聲信號(hào)樣本集中的所有噪聲信號(hào)文件以10ms時(shí)間長(zhǎng)度為一幀進(jìn)行分幀,得到噪聲幀信號(hào)集,包含的都是10ms長(zhǎng)度的幀噪聲信號(hào)。其中,為語(yǔ)音信號(hào)幀總數(shù)以及噪聲信號(hào)幀總數(shù)。

      步驟s330:對(duì)中的每一幀語(yǔ)音信號(hào)提取基音頻率特征和時(shí)域特征,組成用于gmm訓(xùn)練的語(yǔ)音特征集,記所有語(yǔ)音幀信號(hào)提取的特征集集合為。對(duì)中的每一幀噪聲信號(hào)提取基音頻率特征和時(shí)域特征,組成用于gmm訓(xùn)練的噪聲特征集,記所有噪聲幀信號(hào)提取的特征集集合為。

      3-a記為第幀語(yǔ)音信號(hào),其為時(shí)域采樣點(diǎn)的集合,記為,其中為10ms一幀信號(hào)包含的時(shí)域采樣點(diǎn)總數(shù)。由基音頻率,過(guò)零率,短時(shí)能量,歸一化自相關(guān)系數(shù),第一語(yǔ)音線性預(yù)測(cè)系數(shù)這五個(gè)特征組成。即,。由現(xiàn)有的基音檢測(cè)技術(shù),即對(duì)自相關(guān)系數(shù)求峰值得到。為第一個(gè)lpc(線性預(yù)測(cè)編碼)系數(shù),lpc為現(xiàn)有的較為成熟的語(yǔ)音線性預(yù)測(cè)編碼技術(shù)。其他三個(gè)特征的計(jì)算公式如下:

      ,其中為符號(hào)函數(shù),即;

      。

      3-b對(duì)語(yǔ)音幀信號(hào)中的每一幀信號(hào),均按照3-a中的步驟提取特征集,從而獲得語(yǔ)音信號(hào)特征集集合。同樣,按照3-a中的各特征計(jì)算方法和公式,對(duì)噪聲信號(hào)中的每一幀信號(hào),計(jì)算噪聲信號(hào)特征集集合。

      步驟s340對(duì)信號(hào)特征集集合用em為核心算法的gmm模型訓(xùn)練,得到語(yǔ)音信號(hào)gmm模型參數(shù)集,對(duì)噪聲特征集集合用em為核心算法的gmm模型訓(xùn)練,得到噪聲信號(hào)gmm模型參數(shù)集

      4-a.對(duì)整理為gmm模型訓(xùn)練算法的輸入矩陣形式,即,即每一行對(duì)應(yīng)每一幀語(yǔ)音信號(hào)的特征集;

      4-b.對(duì)用gmm訓(xùn)練器訓(xùn)練語(yǔ)音信號(hào)模型參數(shù);

      4-c.對(duì)整理為gmm模型訓(xùn)練算法的輸入矩陣形式,即

      ,每一行對(duì)應(yīng)每一幀噪聲信號(hào)的特征集;

      4-d.對(duì)用gmm訓(xùn)練器訓(xùn)練噪聲信號(hào)模型參數(shù)

      步驟4-c,4-d中,為高斯混合模型數(shù)。

      本發(fā)明的測(cè)試部分主要為:

      步驟s410:以10ms為一幀長(zhǎng)對(duì)測(cè)試信號(hào)時(shí)域采樣點(diǎn)進(jìn)行讀取,得到測(cè)試幀信號(hào),記為。

      步驟s420:對(duì)提取基音頻率特征和時(shí)域特征,由基音頻率,過(guò)零率,短時(shí)能量,歸一化自相關(guān)系數(shù),第一語(yǔ)音線性預(yù)測(cè)系數(shù)這五個(gè)特征組成,記為,。測(cè)試幀信號(hào)特征提取方法與訓(xùn)練部分步驟3中的提取訓(xùn)練特征的提取方法一致。

      步驟s430:用多維高斯概率密度計(jì)算公式,根據(jù)及訓(xùn)練部分的,計(jì)算測(cè)試幀信號(hào)為語(yǔ)音信號(hào)的概率,根據(jù)及訓(xùn)練部分的計(jì)算測(cè)試幀信號(hào)為噪聲信號(hào)的概率。計(jì)算公式如下:

      步驟s440:根據(jù)判別測(cè)試幀信號(hào)為語(yǔ)音信號(hào)還是噪聲信號(hào),若則判別為語(yǔ)音信號(hào),否則判別為噪聲信號(hào)。

      步驟s450:根據(jù)步驟s440判決結(jié)果,對(duì)判別為語(yǔ)音信號(hào)的幀信號(hào)保持正常通話模式,對(duì)判別為噪聲信號(hào)的幀信號(hào)則進(jìn)行相應(yīng)處理。

      以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1