一種基于MRMR準則的語音情感識別特征融合方法與流程

文檔序號：11954805閱讀：209來源：國知局

本發(fā)明屬于語音信號處理領域，具體涉及一種語音情感識別特征融合方法。
背景技術：
：在語音情感識別的研究過程中，使用的情感特征種類非常多，常用特征包括了韻律特征、音質特征、譜特征等。許多研究者認為韻律特征中包含了最多的情感信息，語音情感識別能力強，而譜特征缺少與情感狀態(tài)直觀的關聯性，語音情感識別能力要弱于韻律特征和音質特征。技術實現要素：發(fā)明目的：針對現有技術中存在的問題，本發(fā)明公開了一種魯棒的語音情感識別特征融合方法，該方法融合了語音的韻律特征和譜特征，一定程度上消除了多個特征之間的信息冗余。技術方案：本發(fā)明公開了一種基于MRMR(MaximumRelevanceMinimumRedundancy，最大相關最小冗余)準則的語音情感識別特征融合方法，包括如下步驟：(1)提取語音信號的韻律特征、音質特征和譜特征；(2)對提取的韻律特征、音質特征和譜特征采用MRMR準則進行特征融合。其中韻律特征包括：基音頻率及其一階與二階導數的六維統(tǒng)計值，能量特征及其一階與二階導數的六維統(tǒng)計值，語音速率特征和句尾特征；音質特征包括：第一、第二以及第三共振峰頻率均值；譜特征包括：12階LFPC系數及其一二階導數的六維統(tǒng)計值；句尾特征包括：歸一化基頻斜率、歸一化基頻均值、歸一化能量斜率、歸一化能量斜率均值和歸一化持續(xù)時間。步驟(2)中MRMR準則中最大相關最小冗余度判決準則為：maxD(S,c),D=1|S|Σyi∈SI(yi;c)---(1)]]>minR(S),R=1|S|2Σyi,yj∈SI(yi;yj),---(2)]]>其中S表示的是特征集合，|S|表示的是集合中包含特征的數目，c表示目標類別，yi與yj分別表示特征i與特征j，I(yi；c)表示特征i與目標類別c之間的互信息，I(yi；yj)則表示特征i與特征j之間的互信息，對應公式如下：I(x,y)=Σx∈XΣy∈Yp(x,y)lbp(x,y)p(x)p(y)---(3)]]>p(x)與p(y)分別表示的是兩個隨機變量x與y的概率密度，p(x,y)為聯合概率密度。優(yōu)選地，步驟(2)中MRMR準則中最大相關最小冗余度判決準則為：其中D=1|S|Σyi∈SI(yi;c)R=1|S|2Σyi,yj∈SI(yi;yj)---(5)]]>S表示的是特征集合，|S|表示的是集合中包含特征的數目，c表示目標類別，yi與yj分別表示特征i與特征j，I(yi；c)表示yi與目標類別c之間的互信息，I(yi；yj)則表示yi與yj之間的互信息，對應公式如下：I(x,y)=Σx∈XΣy∈Yp(x,y)lbp(x,y)p(x)p(y)---(6)]]>其中，p(x)與p(y)分別表示的是兩個隨機變量x與y的概率密度，p(x,y)為聯合概率密度；概率密度的估計函數如下：p^(x)=1nhΣi=1nK(x-xih)=1nΣi=1nKh(x-xi)---(7)]]>p^(x,y)=1nΣi=1nKhx(x-xi)Khy(y-yi)---(8)]]>其中n表示用于估計的樣本數量，K表示的是非負密度核函數，為正態(tài)分布；h表示窗寬度，其近似值為：h=(34)1/5σn-1/5≈1.06σn-1/5]]>σ表示用于估計的樣本標準差，Kh表示h窗寬度下的K核函數；Khx和Khy分別表示x、y特征在h窗寬度下的K核函數。有益效果：與現有技術相比，本發(fā)明公開的語音情感識別特征融合方法具有以下優(yōu)點：1、該方法融合了語音的韻律特征、音質特征和譜特征，一定程度上消除了多個特征之間的信息冗余，實現了客觀的信息壓縮；2、保留了參與融合的單個特征對分類的有效判別信息，采用融合后的特征子集比采用單一特征類型的子集識別率更高。附圖說明圖1是MRMR獲取最優(yōu)特征子集流程。具體實施方式下面結合附圖和具體實施方式，進一步闡明本發(fā)明。表1特征列表表2句尾特征本發(fā)明從自制語音情感數據庫中選取五種情感的樣本語句各210條，并依據表1所列內容提取相應的韻律特征、音質特征和譜特征。五種情感為：高興、憤怒、悲傷、害怕和平靜。這樣每個樣本語句提取出的特征就有10個，五種情感共有1050個樣本語句，提取出的特征有10500個，組成特征集合Sf。本發(fā)明采取遍歷所有特征組合的方式來對特征進行選擇，從而獲取最優(yōu)特征子集，完成傳統(tǒng)特征融合。流程如圖1所示。1.在特征集合Sf中隨機選擇k個特征，組成特征子集Sk，將Sk中每個特征樣本代入式(5)-(8)，計算出此時的D,R值；將計算出的D,R值代入式(4)，計算出此時的和記為和2.在集合Sf中選擇Sk之外的一個特征，與Sk組成特征子集Sk+1，將Sk+1中每個特征樣本代入式(5)-(8)，計算出此時的D,R值；將計算出的D,R值代入式(4)，計算出此時的和記為和3.比較和和如果且更新k＝k+1,Sk＝Sk+1,跳轉到步驟2,直到Sf中所有的特征被遍歷完，最后得到最優(yōu)特征子集Sk。經過上述特征融合的步驟，本實施例將特征集合Sf經選擇后得到最優(yōu)特征子集Sk，Sk中特征維度為133。采用特征子集Sk進行識別，識別率達到了81.3％，而系統(tǒng)最高識別率為82.2％。通過本發(fā)明公開的方法極大地去除了特征之間的冗余信息，在保證識別率的同時通過優(yōu)選優(yōu)化了特征向量維度，提高了系統(tǒng)效率。當前第1頁1 2 3

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：張昕然;趙力;魏昕;巨曉正;查誠;
技術所有人：東南大學;
我是此專利的發(fā)明人

上一篇：音頻信號的噪聲檢測方法與裝置與流程
上一篇：一種橋梁鋼模圓弧筋板擠壓成型機的制作方法與工藝

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音識別fbank特征相關技術

語音情感識別相關技術

語音情感識別源代碼相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于MRMR準則的語音情感識別特征融合方法與流程