聲帶-喉室-聲道聯(lián)動的物理模型及精神壓力檢測方法
【技術領域】
[0001] 本發(fā)明涉及一種智能語音技術領域,特別涉及利用語音技術進行精神壓力的檢測 方法。
【背景技術】
[0002] 心理壓力是指人們發(fā)現(xiàn)真實或想象的事情超出自己意料之外時的生理和精神上 的綜合反映。心理學表明,過于沉重的壓力會導致消極、痛苦的應激反應,引發(fā)如抑郁、緊 張、焦慮和憤怒等負面情緒,從而造成工作效率和生活質(zhì)量的下降。心理學家認為,長期生 活在生活壓力下會導致嚴重的心理疾病,并且使人體對疾病的敏感度增加,嚴重的甚至引 發(fā)癌癥。而情感與壓力存在著較為顯著的相關關系,心理壓力能誘發(fā)多種情感,如興奮、失 落、厭煩等,而且在不同程度的壓力源下,會引發(fā)不同程度的緊張情緒,所以情感可以說在 某種程度上是壓力的一種外在表現(xiàn)形式,而且在程度上可以對壓力進行量化。
[0003] 壓力一個重要體現(xiàn)方式是說話人說話時的語音,成為影響語音產(chǎn)生非常重要的一 個影響因素。當周圍環(huán)境或話者自身條件發(fā)生異常變化時,或者由于使用者大都專注于某 項工作,語音識別只是輔助于其它工作的次要工作,在這個過程中,這時由于工作壓力的存 在,說話人受到精神壓力,對話者發(fā)音將會有較大的影響,從而產(chǎn)生了異常狀態(tài),產(chǎn)生的語 音變異,而異常狀態(tài)往往會體現(xiàn)在說話人的語音當中,形成了壓力異常狀態(tài)下的語音信號。
[0004] 但是,精神壓力下的變異語音,特別是多任務腦負荷壓力下的變異語音,從聽覺上 的區(qū)分度相對較低,一般的聲學特征不能將其正確分類,缺乏穩(wěn)定性和魯棒性。此外,由于 變異語音的生成機制與一般正常語音有比較顯著的區(qū)別,在聲學特征層面對變異狀態(tài)的表 現(xiàn)程度較低,區(qū)分度相對不高。因此,在檢測過程中,我們很難提高變異語音分類的可靠性。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是提供一種聲帶-喉室-聲道聯(lián)動的物理模型,以便于獲得模擬語音 數(shù)據(jù)。
[0006] 為了解決上述技術問題,本發(fā)明提供了一種聲帶-喉室-聲道聯(lián)動的物理模型,包 括:
[0007] 用于描述聲帶運動模式的機械方程組,用于描述沿聲門深度方向及喉室、假聲帶 和聲道方向所對應壓降分布的空氣動力學方程組。
[0008] 進一來_ 太如《古辟鉬仞拓.
[0009]
[0010]
[0011] (3)
[0012]上式(1)、(2)和(3)中,
[0013] mi、m2和Π 13分另丨」為用于構(gòu)建聲帶模型的三個質(zhì)量塊,且該三個質(zhì)量塊依次排列;
[0014] Χ1、χ2和X3分別為三個質(zhì)量塊在垂直方向運動的位移;
[0015] kC1#PkC23分別為三個質(zhì)量塊之間兩兩耦合的彈簧剛性系數(shù);
[0016] n、r#Pr3分別為三個質(zhì)量塊的等效粘滯阻尼系數(shù);
[0017] FhFdPFs分別為三個質(zhì)量塊所受的強迫作用力;以及
[0018] S1、82和83分別表示與三個質(zhì)量塊相配合的彈簧,且表示為:
[0019] Si(xi) =ki(xi+nxi3) i = 1,2,3 (4)
[0020] 上式(4)中,i表示第i個質(zhì)量塊,1^表示與第i個質(zhì)量塊相配合的彈簧的剛性系數(shù), η是彈簧的非線性系數(shù)。
[0021] 進一步,所述空氣動力學方程組包括:
[0022] 沿聲門深度方向的空氣動力學子方程組,以及喉室、假聲帶和聲道方向所對應壓 降分布的空氣動力學子方程組。
[0023] 講一步,所沭沿聲門深度方向的空氣動力學子方稈組包括:
[0028] 上式(5)、(6)、(7)和(8)中,
[0029] Pn、Pi2表示第i個質(zhì)量塊入口處、出口處的壓強;
[0030] Agl表示第i個質(zhì)量塊所對應的靜態(tài)聲門隙截面積;
[0031 ] Ug表示聲門波,即通過聲門的氣流速度;
[0032] 0.37表示由于聲門入口截面積的陡降,氣流產(chǎn)生射流緊縮現(xiàn)象,導致聲帶與氣管 連接處的壓力降的影響損失系數(shù);以及
[0033] Ps表示聲門下壓強,p表示空氣密度,μ表示切變粘滯系數(shù),lg表示聲帶模型的長 度,cU表示與第i個質(zhì)量塊相對應的聲帶模型的厚度。
[0034] 進一步,所述喉室、假聲帶和聲道方向所對應壓降分布的空氣動力學子方程組包 括: L〇〇39J 上式(9)、(10)、(11)和(12)中,
[0040] Pv、Av分別表示喉室內(nèi)壓強、喉室截面積,PfdPPf2分別表示假聲帶兩端的壓強,Af 表示假聲帶的截面積,Ae表示喉室入口處的截面積,Μ ^:分別表示聲道入口處的截面積、壓 強。
[0041] 又一方面,在上述建立聲帶-喉室-聲道聯(lián)動的物理模型的基礎上,本發(fā)明還提供 了一種基于語音生成建模的壓力檢測方法,以解決通過語音實現(xiàn)精神壓力測試。
[0042]所述壓力檢測方法包括:
[0043]步驟S1,建立聲帶-喉室-聲道聯(lián)動的物理模型;
[0044] 步驟S2,通過所述物理模型,生成在真實世界中的相應壓力下的模擬語音信號;
[0045] 步驟S3,根據(jù)生理參數(shù)估計算法,估計出說話人在相應壓力狀態(tài)下發(fā)聲時的相應 生理參數(shù),以建立語音信號對應的生理特征關系;
[0046]步驟S4,根據(jù)生理特征關系進行精神壓力的檢測。
[0047] 進一步,所述步驟S3中根據(jù)生理參數(shù)估計算法包括如下步驟:
[0048] 步驟S31,通過線性預測得到真實語音的聲源信息,即殘差信號;
[0049] 步驟S32,對殘差信號進行傅里葉變換得到真實語音的頻譜;
[0050] 步驟S32,將殘差信號通過帶通濾波器分離出高頻分量和低頻分量,并對該高頻分 量和低頻分量分別進行一次初擬合,以及將相應初擬合獲得的相應參數(shù)作為二次擬合的初 始值;
[0051] 步驟S33,執(zhí)行二次擬合,即獲得所述模擬語音信號的頻譜,進而構(gòu)造基于語音頻 譜的全局性特征的成本函數(shù);
[0052]步驟S34,不斷變化聲帶聲道生理參數(shù),以獲得最小化成本函數(shù),使得所述物理模 型生成新的語音信號,從而通過成本函數(shù)最小化在解空間里搜索最優(yōu)解,實現(xiàn)對生理參數(shù) 進行估計。
[0053]第三方面,本發(fā)明還提供了一種基于語音的生理參數(shù)估計算法,以通過真實語音 數(shù)據(jù)與模擬語音數(shù)據(jù)實現(xiàn)對生理參數(shù)進行估計。
[0054] 所述基于語音的生理參數(shù)估計算法,包括如下步驟:
[0055] 步驟S1',獲得真實語音的頻譜及二次擬合的初始值;
[0056] 步驟S2',執(zhí)行二次擬合,以構(gòu)造基于語音頻譜的全局性特征的成本函數(shù);
[0057]步驟S3',根據(jù)成本函數(shù)對生理參數(shù)進行估計。
[0058]進一步,所述步驟S1'中獲得真實語音的頻譜及二次擬合的初始值的方法包括如 下步驟:
[0059] 步驟S11',通過線性預測得到真實語音的聲源信息,即殘差信號;
[0060] 步驟S12',對殘差信號進行傅里葉變換得到真實語音的頻譜,并將殘差信號通過 帶通濾波器分離出高頻分量和低頻分量,并對該高頻分量和低頻分量分別進行一次初擬 合,以及將相應初擬合獲得的相應參數(shù)作為二次擬合的初始值;
[0061] 所述步驟S2'中執(zhí)行二次擬合,以構(gòu)造基于語音頻譜的全局性特征的成本函數(shù)的 方法包括:執(zhí)行二次擬合,即通過所述物理模型產(chǎn)生模擬語音信號,并獲得該模擬語音信號 的頻譜,進而構(gòu)造基于語音頻譜的全局性特征的成本函數(shù);以及
[0062]所述步驟S3'中根據(jù)成本函數(shù)對生理參數(shù)進行估計的方法包括:
[0063]為了最小化成本函數(shù),不斷變化聲帶聲道生理參數(shù),使得所述物理模型生成新的 語音信號,從而通過成本函數(shù)最小化在解空間里搜索最優(yōu)解,實現(xiàn)對生理參數(shù)進行估計。
[0064] 進一步,所述成本函數(shù)爻 .各 ' 1=1
[0065] ω )為模擬語音信號的頻譜,而S( ω )為真實語音信號的頻譜。
[0066]本發(fā)明的有益效果是,本發(fā)明的建立聲帶-喉室-聲道聯(lián)動的物理模型,并且通過 該物理模型設計生理參數(shù)估計算法,以便于研究在壓力狀態(tài)下發(fā)聲的生理變異機制,即提 取出說話人壓力狀態(tài)下發(fā)聲時的聲帶聲道以及喉室等生理特征參數(shù),建立從真實語音信號 到生理特征的關系;并且根據(jù)估計出的生理參數(shù),獲得各發(fā)聲器官及其中氣流流態(tài)在壓力 變異因素影響下的變化特征,最終用以精神壓力的檢測,提高檢測識別的精度與可靠性。
【附圖說明】
[0067]下面結(jié)合附圖和實施例對本發(fā)明進一步說明。
[0068]圖1是本發(fā)明建立的聲帶-喉室-聲