本發(fā)明屬于音頻處理技術(shù)領(lǐng)域,尤其涉及voip通訊過(guò)程的音頻處理技術(shù)。
背景技術(shù):
隨著voip及視頻會(huì)議技術(shù)的不斷發(fā)展創(chuàng)新,voip、視頻會(huì)議已成為公司日常工作溝通和交流的重要手段,因此長(zhǎng)時(shí)間的視頻會(huì)議,語(yǔ)音會(huì)議司空見慣。在會(huì)議間隙不免可能會(huì)有長(zhǎng)時(shí)間的資料整理,錄入,調(diào)試等工作,這段時(shí)間沒有人說(shuō)話,但是由于與會(huì)者離voip終端較近,會(huì)導(dǎo)致對(duì)端聽到鍵盤敲擊聲,紙張翻閱,或者其他的的較大的噪聲,對(duì)對(duì)端造成干擾。為了避免上述尷尬的發(fā)生,本發(fā)明提出一種語(yǔ)音激活檢測(cè)方法,其對(duì)語(yǔ)音通話中特定噪聲檢測(cè)并做相應(yīng)處理,當(dāng)有人重新說(shuō)話時(shí),則開啟正常通話模式。
現(xiàn)有的語(yǔ)音激活檢測(cè)方法,大多只能區(qū)別比較小的背景噪音與語(yǔ)音,對(duì)于鍵盤敲擊等特定的較大的噪聲,則無(wú)法判別。本發(fā)明提出基于對(duì)語(yǔ)音信號(hào)和特定噪聲分別用gmm(gaussianmixturemodel,高斯混合模型)訓(xùn)練模型并用于檢測(cè)區(qū)別語(yǔ)音信號(hào)與特定噪聲的語(yǔ)音激活檢測(cè)方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種基于gmm模型的語(yǔ)音激活檢測(cè)方法,為了實(shí)現(xiàn)在voip通話過(guò)程中在無(wú)人說(shuō)話時(shí)對(duì)特定的噪聲信號(hào)進(jìn)行噪聲處理,以減少通話間隙長(zhǎng)時(shí)間無(wú)人說(shuō)話時(shí),一些噪聲對(duì)對(duì)端與會(huì)者造成干擾。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明一種基于gmm模型的語(yǔ)音激活檢測(cè)方法,主要包括以下操作:數(shù)據(jù)訓(xùn)練:建立訓(xùn)練樣本庫(kù)和用em核心算法分別訓(xùn)練語(yǔ)音信號(hào)gmm模型、噪聲信號(hào)gmm模型;數(shù)據(jù)測(cè)試:對(duì)實(shí)時(shí)通話進(jìn)行檢測(cè),包括:分幀處理、特征提取、概率計(jì)算;數(shù)據(jù)判斷:根據(jù)語(yǔ)音信號(hào)概率
優(yōu)選的,該數(shù)據(jù)訓(xùn)練進(jìn)一步包括:步驟1-a:收集語(yǔ)音信號(hào)樣本集
優(yōu)選的,該數(shù)據(jù)測(cè)試包括:步驟2-a:對(duì)測(cè)試信號(hào)
優(yōu)選的,語(yǔ)音信號(hào)概率
優(yōu)選的,語(yǔ)音幀信號(hào)集
優(yōu)選的,語(yǔ)音特征集
優(yōu)選的,數(shù)據(jù)訓(xùn)練還包括:提取訓(xùn)練特征操作,記
優(yōu)選的,對(duì)
優(yōu)選的,數(shù)據(jù)測(cè)試包括:步驟2-a:對(duì)測(cè)試信號(hào)
優(yōu)選的,數(shù)據(jù)判斷包括:根據(jù)
本發(fā)明提供的方案在會(huì)議通話過(guò)程中,有效監(jiān)測(cè)通話信號(hào)為噪聲信號(hào)還是語(yǔ)音信號(hào),從而對(duì)無(wú)效噪聲信號(hào)進(jìn)行相應(yīng)處理。
本發(fā)明提供的技術(shù)方案對(duì)特定噪聲信號(hào)進(jìn)行采集,提取特征集,并用gmm訓(xùn)練特定噪聲模型參數(shù)集,從而用于對(duì)實(shí)時(shí)信號(hào)計(jì)算其為噪聲信號(hào)的概率,對(duì)特定噪聲信號(hào)的訓(xùn)練,能夠有針對(duì)性的處理目標(biāo)噪聲信號(hào),如敲擊聲,腳步聲等。
本發(fā)明提供的技術(shù)方案對(duì)語(yǔ)音信號(hào)提取特征集,并用gmm訓(xùn)練語(yǔ)音模型參數(shù)集,用于對(duì)實(shí)時(shí)信號(hào)計(jì)算其為語(yǔ)音信號(hào)的概率,從而保證在無(wú)人說(shuō)話的消噪狀態(tài)到有人說(shuō)話時(shí)恢復(fù)正常通話狀態(tài)的準(zhǔn)確切換。
本發(fā)明先用噪聲信號(hào)及語(yǔ)音信號(hào)預(yù)先訓(xùn)練gmm模型參數(shù),再對(duì)實(shí)時(shí)通話信號(hào)進(jìn)行檢測(cè)判別其為噪聲信號(hào)還是語(yǔ)音信號(hào)時(shí)對(duì)提取的信號(hào)特征,根據(jù)預(yù)先訓(xùn)練的gmm模型參數(shù)分別計(jì)算其為噪聲的概率還是語(yǔ)音的概率,計(jì)算復(fù)雜度低,保證實(shí)時(shí)性。
附圖說(shuō)明
圖1為本發(fā)明具體實(shí)施例中g(shù)mm模型參數(shù)訓(xùn)練框圖。
圖2為本發(fā)明具體實(shí)施例中測(cè)試幀信號(hào)測(cè)試框圖。
具體實(shí)施方式
發(fā)明的基本原理:本發(fā)明采用gmm對(duì)特定噪聲和語(yǔ)音分別訓(xùn)練模型參數(shù),用于實(shí)時(shí)檢測(cè)voip通話信號(hào)為特定噪聲信號(hào)還是語(yǔ)音信號(hào),如果為噪聲信號(hào)則做相應(yīng)處理,為語(yǔ)音信號(hào)則為正常通話狀態(tài)。用于gmm訓(xùn)練和檢測(cè)的語(yǔ)音信號(hào)的特征集為語(yǔ)音基音頻率特征與時(shí)域特征的結(jié)合。
為了更清楚地說(shuō)明本發(fā)明實(shí)例的技術(shù)方案,下面將結(jié)合示例圖對(duì)本發(fā)明的具體實(shí)施例進(jìn)行詳細(xì)的介紹,下面的描述僅僅是本發(fā)明的一些實(shí)施例。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些實(shí)施例獲得本發(fā)明的其他實(shí)施方式。
本發(fā)明實(shí)施例提供了一種對(duì)voip終端采集信號(hào)判斷其為噪聲還是語(yǔ)音信號(hào)并做相應(yīng)處理,從而實(shí)現(xiàn)在無(wú)人說(shuō)話時(shí),針對(duì)性的處理會(huì)議室如敲擊聲,鍵盤聲,腳步聲等噪聲,避免與會(huì)者在對(duì)端無(wú)人說(shuō)話時(shí),受其噪聲干擾。
本發(fā)明實(shí)施例提供的基于gmm對(duì)特定噪聲訓(xùn)練模型的語(yǔ)音激活檢測(cè)方法分為訓(xùn)練部分和檢測(cè)部分。訓(xùn)練部分對(duì)特定噪聲信號(hào)訓(xùn)練gmm噪聲模型參數(shù)集,對(duì)語(yǔ)音信號(hào)訓(xùn)練gmm語(yǔ)音模型參數(shù)集。
圖1為本發(fā)明具體實(shí)施例中g(shù)mm模型參數(shù)訓(xùn)練框圖。如圖1所示,本發(fā)明的訓(xùn)練部分主要內(nèi)容包括:
步驟s110:收集語(yǔ)音信號(hào)樣本集
步驟s120:對(duì)語(yǔ)音信號(hào)樣本集
步驟s130:對(duì)語(yǔ)音幀信號(hào)
其中,
步驟s140:對(duì)
圖2為本發(fā)明具體實(shí)施例中測(cè)試幀信號(hào)測(cè)試框圖。由該圖所示,本發(fā)明的測(cè)試部分主要內(nèi)容包括:
步驟s210:對(duì)測(cè)試信號(hào)分幀處理,該測(cè)試幀信號(hào)記為
步驟s220:對(duì)
其中,
步驟s230:根據(jù)
步驟s240:根據(jù)
步驟s250:根據(jù)步驟s240判決結(jié)果,對(duì)判別為語(yǔ)音信號(hào)的幀信號(hào)保持正常通話模式,對(duì)判別為噪聲信號(hào)的幀信號(hào)則進(jìn)行噪聲處理模式。
此時(shí),訓(xùn)練過(guò)程具體實(shí)施方案如下所述:
首先是對(duì)于訓(xùn)練部分,主要包括建立訓(xùn)練樣本庫(kù)和用em核心算法分別訓(xùn)練語(yǔ)音信號(hào)gmm模型、噪聲信號(hào)gmm模型。
步驟s310:收集語(yǔ)音信號(hào)樣本庫(kù)。通過(guò)網(wǎng)絡(luò)下載及自己錄制獲得一定數(shù)量的語(yǔ)音信號(hào)音頻文件,將這些文件用音頻編輯軟件進(jìn)行整理,獲得語(yǔ)音樣本集
步驟s320:對(duì)語(yǔ)音信號(hào)樣本集
步驟s330:對(duì)
3-a記
3-b對(duì)語(yǔ)音幀信號(hào)
步驟s340對(duì)信號(hào)特征集集合用em為核心算法的gmm模型訓(xùn)練,得到語(yǔ)音信號(hào)gmm模型參數(shù)集
4-a.對(duì)
4-b.對(duì)
4-c.對(duì)
4-d.對(duì)
步驟4-c,4-d中
本發(fā)明的測(cè)試部分主要為:
步驟s410:以10ms為一幀長(zhǎng)對(duì)測(cè)試信號(hào)時(shí)域采樣點(diǎn)進(jìn)行讀取,得到測(cè)試幀信號(hào),記為
步驟s420:對(duì)
步驟s430:用多維高斯概率密度計(jì)算公式,根據(jù)
步驟s440:根據(jù)
步驟s450:根據(jù)步驟s440判決結(jié)果,對(duì)判別為語(yǔ)音信號(hào)的幀信號(hào)保持正常通話模式,對(duì)判別為噪聲信號(hào)的幀信號(hào)則進(jìn)行相應(yīng)處理。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。