一種融合長跨度情感歷史的語音情感識別方法
【專利摘要】本發(fā)明公開了一種融合長跨度情感歷史的語音情感識別方法。該方法包括以下步驟:利用時(shí)域和變換域上的不同參數(shù)進(jìn)行端點(diǎn)檢測,剔除原始語音序列中的非語音數(shù)據(jù),獲得待識別語音段數(shù)據(jù);將待識別語音段數(shù)據(jù)切分為獨(dú)立的語音段數(shù)據(jù)單元;利用第一支持向量機(jī)對語音段數(shù)據(jù)單元分別進(jìn)行情感狀態(tài)初步分類;對情感狀態(tài)初步分類結(jié)果進(jìn)行加窗,并利用第二支持向量機(jī)進(jìn)行融合,得到融合長跨度情感歷史的情感識別結(jié)果。本發(fā)明在保證對語音信號的局部單元進(jìn)行高精度分類的同時(shí),又充分利用信號序列的長跨度內(nèi)的上下文信息,以達(dá)到對序列中的每一單元達(dá)到最優(yōu)的分類結(jié)果。本發(fā)明能夠用于語音信號的情感識別,具有實(shí)時(shí)性好、并能夠大幅度提高識別精度等優(yōu)點(diǎn)。
【專利說明】 ー種融合長跨度情感歷史的語音情感識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語音信號處理領(lǐng)域,具體地涉及ー種融合長跨度情感歷史的語音情感識別方法,并以此來提高連續(xù)語音情感識別的精度。
【背景技術(shù)】
[0002]數(shù)十年來,國內(nèi)外研究人員對語音情感識別進(jìn)行了大量的研究工作,提出了許多用于情感識別的有效算法。這些方法從處理策略上可以分為基于靜態(tài)分類器的檢測方法和基于動態(tài)分類器的檢測方法。基于靜態(tài)分類器的檢測方法,多利用支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)、Boosting等,且這類分類器多為判別式模型。由于具有較強(qiáng)的區(qū)分能力,因此廣泛應(yīng)用于情感狀態(tài)識別領(lǐng)域,但這種方法忽略了相鄰語音信號的情感狀態(tài)之間的相互聯(lián)系,也即忽視了情感歷史在分類模型中的關(guān)鍵作用。情感狀態(tài)是ー個(gè)逐漸變化的、平滑的過程,有著很強(qiáng)的上下文相關(guān)性,充分考慮情感歷史信息將有助于分類精度的提升。基于動態(tài)分類器的檢測方法大都采用基于隱馬爾科夫(HMM)的分類模型,HMM在序列上下文信息建模方面有著突出的優(yōu)勢,因而對于語音信號序列,能夠較好的融合序列信號的上下文信息,融合一定的情感歷史信息。然而,由于HMM屬于生成式分類模型,其分類性能方面不如判別式分類器。同時(shí),其不能進(jìn)行長跨度的上下文信息建模,也即情感歷史的融合范圍有限,不能完全反應(yīng)情感歷史信息在情感識別中的關(guān)鍵作用。
[0003]本發(fā)明在基于靜態(tài)分類器分類方法的基礎(chǔ)上,為有效利用長跨度的情感狀態(tài)歷史信息,將廣泛應(yīng)用于情感識別領(lǐng)域的支持向量機(jī)算法引入,用于對序列中的上下文信息進(jìn)行長跨度建摸,融合語音信號序列中連續(xù)語音信號單元間的情感狀態(tài)信息,實(shí)現(xiàn)連續(xù)語音情感信息的分類和識別。
【發(fā)明內(nèi)容】
[0004]為了解決上述連續(xù)語音序列的情感信息識別問題,本發(fā)明提出ー種融合長跨度情感歷史的語音情感識別方法,在本發(fā)明的識別過程中,對語音信號的每個(gè)單元(如:單詞級另Ij)進(jìn)行逐個(gè)識別,完成對語音情感狀態(tài)的實(shí)時(shí)檢測;在情感信息建模方面,采用的是PAD維度情感模型,在PAD維度空間中,包含愉悅度、激活度和優(yōu)勢度3個(gè)維度;在訓(xùn)練語料庫中,對語音信號在三個(gè)維度上,分別進(jìn)行人エ標(biāo)注,獲得語音序列每個(gè)單元的維度值,由于這些維度值是連續(xù)的,在實(shí)際檢測中,根據(jù)每個(gè)単元的維度值與訓(xùn)練庫所有語料在該維度上的平均值的進(jìn)行比較,將每個(gè)單元在各自維度上的維度值量化為+1、-1兩個(gè)標(biāo)簽,大于平均值的標(biāo)簽為+1,小于平均值的標(biāo)簽為-1,在三個(gè)維度上分別進(jìn)行正負(fù)極性檢測。
[0005]本發(fā)明提出的ー種融合長跨度情感歷史的語音情感識別方法包括以下步驟:
[0006](I)模型第一層將已輸入的語音序列切分為獨(dú)立的単元(如:單詞級別、句子級別),并利用支持向量機(jī)分類器對這些單元分別進(jìn)行情感狀態(tài)的初步識別;
[0007](2)模型第二層完成對每個(gè)単元的最終情感狀態(tài)識別。通過對第一層識別結(jié)果加窗,利用支持向量機(jī)算法,將此單元向前(包括此單元本身)若干個(gè)單元在第一層的情感識別結(jié)果加以融合,并最終得到此單元的情感狀態(tài)信息。重復(fù)此步驟以獲得每個(gè)單元的最終情感狀態(tài)。
[0008]本發(fā)明方法中兩層支持向量機(jī)相串聯(lián)的分類模型一方面通過支持向量機(jī)相串聯(lián),充分利用了支持向量機(jī)的強(qiáng)分類能力;另一方面,將廣泛用于情感識別領(lǐng)域的支持向量機(jī)算法應(yīng)用于序列上下文信息的融合中,用以融合長跨度的情感狀態(tài)的歷史變化信息。因而,本發(fā)明既充分利用了判別式分類器的強(qiáng)分類能力,又考慮了情感狀態(tài)變化的動態(tài)變化特性。本發(fā)明具有操作簡單、實(shí)時(shí)性好、識別精度高等優(yōu)點(diǎn),是一種用于連續(xù)語音情感狀態(tài)分類和識別的使用技術(shù)。
【專利附圖】
【附圖說明】
[0009]圖1是本發(fā)明所提出的一種融合長跨度情感歷史信息的語音情感識別方法的流程圖;
[0010]圖2是本發(fā)明支持向量機(jī)長跨度情感歷史融合過程示意圖。
【具體實(shí)施方式】
[0011]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。
[0012]需要說明的是,在附圖或說明書描述中,相似或相同的部分都使用相同的圖號。附圖中未繪示或描述的實(shí)現(xiàn)方式,為所屬【技術(shù)領(lǐng)域】中普通技術(shù)人員所知的形式。應(yīng)該指出,所描述的實(shí)例僅僅視為說明的目的,而不是對本發(fā)明的限制。
[0013]圖1是本發(fā)明所提出的一種融合長跨度情感歷史信息的語音情感識別方法的流程圖,如圖1所示,所述融合長跨度情感歷史的語音情感識別方法包括以下步驟:
[0014]步驟SI,輸入待識別的語音序列,并利用時(shí)域和變換域上的不同參數(shù)進(jìn)行端點(diǎn)檢測,剔除原始語音序列中的非語音數(shù)據(jù),獲得待識別的語音段數(shù)據(jù);
[0015]利用短時(shí)能量和短時(shí)過零率可以有效的從原始語音序列中檢測出靜音段數(shù)據(jù)和寬帶噪聲;通過分析語音序列數(shù)據(jù)中各頻帶能量的比重可以有效的從原始語音序列中檢測出周期噪聲和沖擊性噪聲,利用上述各參數(shù)就可以有效的從原始語音序列中保留語音數(shù)據(jù),剔除非語音數(shù)據(jù)。
[0016]步驟S2,將所述待識別的語音段數(shù)據(jù)切分為獨(dú)立的語音段數(shù)據(jù)單元;
[0017]在本發(fā)明一實(shí)施例中,將所述待識別的語音段數(shù)據(jù)通過采用隱馬爾科夫模型的分詞或分句方法切分為單詞級別、句子級別等獨(dú)立的語音段數(shù)據(jù)單元,當(dāng)然也可以根據(jù)其他切分準(zhǔn)則切分為其他獨(dú)立語音段數(shù)據(jù)單元,比如可以切分為等間隔的獨(dú)立語音段數(shù)據(jù)單
J Li ο
[0018]步驟S3,利用第一支持向量機(jī)對所述語音段數(shù)據(jù)單元分別進(jìn)行情感狀態(tài)初步分類,并將分類結(jié)果使用相應(yīng)后驗(yàn)概率的形式來表示;
[0019]所述步驟S3進(jìn)一步包括以下步驟:
[0020]步驟S31,對每個(gè)語音段數(shù)據(jù)單元分別進(jìn)行特征參數(shù)提?。?br>
[0021]在本發(fā)明一實(shí)施例中,提取的特征參數(shù)包括基音頻率、共振峰、Mel頻率倒譜系數(shù)等在語音情感識別中任意常用的聲學(xué)或韻律特征,但這里的特征參數(shù)并不限于上述參數(shù),然后將這些提取得到的特征參數(shù)分別表示為固定維數(shù)的特征向量,每個(gè)特征向量中的各個(gè)分量為各相應(yīng)特征參數(shù)的統(tǒng)計(jì)值,包括平均值、方差、最大/最小值、變化范圍等。
[0022]步驟S32,對于所述步驟S31提取得到的每個(gè)語音段數(shù)據(jù)單元的特征參數(shù),利用支持向量機(jī)算法進(jìn)行分類,以使每個(gè)語音段數(shù)據(jù)單元分別產(chǎn)生針對于每個(gè)情感類別的后驗(yàn)概率。
[0023]該步驟進(jìn)ー步包括以下步驟:
[0024]步驟S321,針對情感空間的三個(gè)維度,利用所述第一支持向量機(jī)分別訓(xùn)練得到一個(gè)分類模型,共得到三個(gè)分類模型;
[0025]在這三個(gè)分類模型的訓(xùn)練過程中,輸入特征均為所述步驟S31提取得到的特征參數(shù),輸入的標(biāo)簽為每個(gè)語音段數(shù)據(jù)單元在對應(yīng)維度上的標(biāo)簽,然后采用二分模式(可以使用線性核),采用最終輸出為概率形式的方式進(jìn)行分類模型的訓(xùn)練。
[0026]步驟S322,將每個(gè)語音段數(shù)據(jù)單元在所述步驟S31提取得到的特征參數(shù)送入所述三個(gè)分類模型中,從而獲得三個(gè)情感空間維度上的分類結(jié)果,其中每個(gè)維度上的分類結(jié)果分別包含ー個(gè)+1或-1標(biāo)簽,以及對應(yīng)于標(biāo)簽+1的后驗(yàn)概率和對應(yīng)于標(biāo)簽-1的后驗(yàn)概率。
[0027]步驟S4,對所述步驟S3得到的情感狀態(tài)初步分類結(jié)果進(jìn)行加窗,并利用第二支持向量機(jī)對所述初步分類結(jié)果進(jìn)行融合,得到融合長跨度情感歷史的情感識別結(jié)果。
[0028]步驟S4所描述的融合過程如圖2所示,圖2中,d (t)表示第t個(gè)語音段數(shù)據(jù)單元在所述步驟S3得到的情感狀態(tài)初步分類結(jié)果,對所述初步分類結(jié)果施加長度為N的窗,將d (t)、d (t-1) -(Kt-N-1)N個(gè)情感狀態(tài)初步分類結(jié)果輸入到第二支持向量機(jī)中,得到的輸出即為第t個(gè)語音段數(shù)據(jù)單`元的最終情感識別結(jié)果0 (t)。這里的N代表所融合的情感歷史范圍,N越大表明融合范圍越大。具體應(yīng)用過程中,N的大小由手工選定。
[0029]所述步驟S4進(jìn)ー步包括以下步驟:
[0030]步驟S41,針對情感空間的三個(gè)維度,利用所述第二支持向量機(jī)分別訓(xùn)練得到ー個(gè)分類模型,共得到三個(gè)分類模型;
[0031]對于某ー個(gè)特定維度,將按時(shí)間順序連續(xù)N個(gè)單元在所述步驟S32所獲得的情感類別后驗(yàn)概率作為所述第二支持向量機(jī)的輸入特征向量,將按時(shí)間順序最后出現(xiàn)的ー個(gè)語音段數(shù)據(jù)單元的實(shí)際情感類別標(biāo)簽作為輸出,然后采用高斯核或者其他非線性核進(jìn)行訓(xùn)練,獲得所述第二支持向量機(jī)的分類模型。
[0032]輸入特征比如可以為:
[0033]P (ft I yt=l)、P (ft I yt=-l)、P (ft_! I Yh = D、P (ft-1 I Yt-1=-D、P (ft-2 I yt-2=D、
P (ft-21 yt-2=-1)、...P (ft-k I yt-k=D、P (ft-k I yt-k=-D、...p (ft-N+i I yt-N+i=i)、p (ft-N+i I yt-N+i=-1);
[0034]輸入的標(biāo)簽為:yt ;
[0035]其中沖ぴ上片)、?^、=-!)為第t個(gè)語音段數(shù)據(jù)單元在第一支持向量機(jī)中的分類結(jié)果,也就是上文提到的兩個(gè)后驗(yàn)概率,P (ft_k I yt_k=l)、P (ft_kI yt_k=-l)為第t個(gè)語音段數(shù)據(jù)序列向前的第k個(gè)語音段數(shù)據(jù)單元的分類結(jié)果,也就是說,所述第二支持向量機(jī)的輸入特征向量共2N維,輸入的標(biāo)簽yt為第t個(gè)語音単元的真實(shí)標(biāo)簽。
[0036]步驟S42,將每個(gè)語音段數(shù)據(jù)單元在所述步驟S32所獲得的后驗(yàn)概率作為特征參數(shù)分別送入所述步驟S41所得到的三個(gè)分類模型中,從而獲得所述語音段數(shù)據(jù)單元在三個(gè)情感空間維度上的分類結(jié)果。[0037]綜上所述,本發(fā)明提出一種融合長跨度情感歷史的語音情感識別方法,該方法采用兩層支持向量機(jī)相串聯(lián)的情感分類模型,該模型融合了長跨度的情感狀態(tài)變化歷史,在充分利用支持向量機(jī)強(qiáng)分類能力的同時(shí),使靜態(tài)分類器支持向量機(jī)能夠進(jìn)行長跨度的序列上下文信息建模,因而可用于連續(xù)語音的情感分類和識別。本發(fā)明在語音情感識別中,強(qiáng)調(diào)了長跨度情感狀態(tài)變化歷史的重要性,從而使得情感識別的結(jié)果更加準(zhǔn)確。
[0038]以上所述的具體實(shí)施例,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種融合長跨度情感歷史的語音情感識別方法,其特征在于,該方法包括以下步驟: 步驟SI,輸入待識別的語音序列,并利用時(shí)域和變換域上的不同參數(shù)進(jìn)行端點(diǎn)檢測,剔除原始語音序列中的非語音數(shù)據(jù),獲得待識別的語音段數(shù)據(jù); 步驟S2,將所述待識別的語音段數(shù)據(jù)切分為獨(dú)立的語音段數(shù)據(jù)單元; 步驟S3,利用第一支持向量機(jī)對所述語音段數(shù)據(jù)單元分別進(jìn)行情感狀態(tài)初步分類,并將分類結(jié)果使用相應(yīng)后驗(yàn)概率的形式來表示; 步驟S4,對所述步驟S3得到的情感狀態(tài)初步分類結(jié)果進(jìn)行加窗,并利用第二支持向量機(jī)對所述初步分類結(jié)果進(jìn)行融合,得到融合長跨度情感歷史的情感識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI中剔除原始語音序列中的非語音數(shù)據(jù)具體為:利用短時(shí)能量和短時(shí)過零率從原始語音序列中檢測出靜音段數(shù)據(jù)和寬帶噪聲;通過分析語音序列數(shù)據(jù)中各頻帶能量的比重從原始語音序列中檢測出周期噪聲和沖擊性噪聲,從而從原始語音序列中保留語音數(shù)據(jù),剔除非語音數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獨(dú)立的語音段數(shù)據(jù)單元為單詞級別獨(dú)立語音段數(shù)據(jù)單元、句子級別獨(dú)立語音段數(shù)據(jù)單元或等間隔獨(dú)立語音段數(shù)據(jù)單元。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3進(jìn)一步包括以下步驟: 步驟S31,對每個(gè)語音段數(shù)據(jù)單元分別進(jìn)行特征參數(shù)提?。? 步驟S32,對于所述步驟S31提取得到的每個(gè)語音段數(shù)據(jù)單元的特征參數(shù),利用支持向量機(jī)算法進(jìn)行分類,以使每個(gè)語音段數(shù)據(jù)單元分別產(chǎn)生針對于每個(gè)情感類別的后驗(yàn)概率。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S32進(jìn)一步包括以下步驟: 步驟S321,針對情感空間的三個(gè)維度,利用所述第一支持向量機(jī)分別訓(xùn)練得到一個(gè)分類模型,共得到三個(gè)分類模型; 步驟S322,將每個(gè)語音段數(shù)據(jù)單元在所述步驟S31提取得到的特征參數(shù)送入所述三個(gè)分類模型中,從而獲得三個(gè)情感空間維度上的分類結(jié)果,其中每個(gè)維度上的分類結(jié)果分別包含一個(gè)標(biāo)簽,以及對應(yīng)于該標(biāo)簽的后驗(yàn)概率。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S4進(jìn)一步包括以下步驟: 步驟S41,針對情感空間的三個(gè)維度,利用所述第二支持向量機(jī)分別訓(xùn)練得到一個(gè)分類模型,共得到三個(gè)分類模型; 步驟S42,將每個(gè)語音段數(shù)據(jù)單元在所述步驟S32所獲得的后驗(yàn)概率作為特征參數(shù)分別送入所述步驟S41所得到的三個(gè)分類模型中,從而獲得所述語音段數(shù)據(jù)單元在三個(gè)情感空間維度上的分類結(jié)果。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,對于所述第一支持向量機(jī),輸入特征為所述步驟S31提取得到的特征參數(shù),輸入的標(biāo)簽為每個(gè)語音段數(shù)據(jù)單元在對應(yīng)維度上的標(biāo)簽,輸出為針對于每個(gè)情感類別的后驗(yàn)概率;對于所述第二支持向量機(jī),輸入特征向量為按時(shí)間順序連續(xù)N個(gè)單元在所述步驟S32所獲得的情感類別后驗(yàn)概率,輸出為按時(shí)間順序最后出現(xiàn)的一個(gè)語音段數(shù)據(jù)單元的實(shí)際情感類別標(biāo)簽。
【文檔編號】G10L15/06GK103531207SQ201310481318
【公開日】2014年1月22日 申請日期:2013年10月15日 優(yōu)先權(quán)日:2013年10月15日
【發(fā)明者】陶建華, 楊明浩, 巢林林 申請人:中國科學(xué)院自動化研究所