本發(fā)明涉及計算機輔助醫(yī)療診斷技術(shù)領(lǐng)域,特別是涉及一種基于語音特征與機器學(xué)習的抑郁癥自動評估系統(tǒng)和方法。
背景技術(shù):
抑郁癥是一種普遍的心理疾病,影響著全世界約3.5億人,世界衛(wèi)生組織(World Health Organization,WHO)預(yù)測到2020年抑郁癥將成為全球第二大主要病因,因此找到一種有效的評估抑郁癥的方法很有必要。目前,抑郁癥的診斷和療效評估缺少客觀的測量方法和工具,主要依靠家屬供史、患者自述以及臨床量表等主觀評估方法,從而造成早期情感障礙識別困難,患者常常因此失去最佳治療時機。
隨著語音信號分析與處理技術(shù)的發(fā)展,尤其是線性預(yù)測技術(shù)在語音處理中的應(yīng)用,基音頻率、共振峰、線性預(yù)測系數(shù)、線性預(yù)測倒譜系數(shù)、Mel頻率倒譜系數(shù)等語音特征參數(shù)被證實與情感(尤其是抑郁癥狀)密切相關(guān),因此,可以通過對用戶語音信號特征的分析,為抑郁癥的臨床診斷提供一種基于被試實際表現(xiàn)的客觀參考。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種基于語音特征與機器學(xué)習的抑郁癥自動評估系統(tǒng)和方法,基于語音處理、特征提取、機器學(xué)習技術(shù),通過尋找語音特征與抑郁癥之間的聯(lián)系,從而實現(xiàn)以非侵入式的方式客觀評估被試是否抑郁的目的。
本發(fā)明的技術(shù)方案是:
1.一種基于語音特征與機器學(xué)習的抑郁癥自動評估系統(tǒng),其特征在于,包括(a)語音采集錄音模塊,用于對被試者施以不同的情緒語料刺激的同時,記錄被試者的語音信息;(b)語音特征計算模塊,用于對采集的語音信號進行預(yù)處理后,計算語音的聲學(xué)特征;(c)語音數(shù)據(jù)庫模塊,包含用于語音特征有效性分析、分類器訓(xùn)練優(yōu)化、系統(tǒng)分類率的相關(guān)數(shù)據(jù);(d)機器學(xué)習模塊,用語音數(shù)據(jù)庫的數(shù)據(jù)進行語音特征與抑郁癥的相關(guān)性分析,以確定有效特征的提取方式,并訓(xùn)練用于自動評估的分類器;(e)自動評估模塊,提取被試者有效語音特征并進行抑郁程度分類,實現(xiàn)依據(jù)輸入的語音樣本自動評估被試者的抑郁程度。
2.所述語音采集錄音模塊包括錄音設(shè)備,采集設(shè)備有電腦控制端、噪聲計、監(jiān)聽耳機、音箱、麥克風、聲卡、防噴罩、話筒支架;所述監(jiān)聽耳機、音箱、麥克風、聲卡均連接至電腦;錄音設(shè)備采用NEUMANN TLM102麥克風和采樣率為44.1kHz、數(shù)據(jù)長度為24位的RME FIREFACE UCX聲卡;采集的錄音數(shù)據(jù)以.WAV格式保存。
3.所述語音特征計算模塊包含預(yù)處理模塊,所述預(yù)處理模塊包括依次連接的預(yù)加重、降噪、濾波模塊,對采集的語音信號依次進行預(yù)加重、降噪和濾波處理;所述預(yù)加重模塊采用k值為0.97的預(yù)加重濾波器,所述濾波模塊采用通帶頻率為60~4500Hz的濾波器。
4.所述機器學(xué)習模塊包括分類器,使用的分類器模型為支持向量機(Support Vector Machine,SVM);SVM使用LIBSVM來實現(xiàn),選取的核函數(shù)為RBF(Radial Basis Function)。
5.所述語音數(shù)據(jù)庫模塊運行在本系統(tǒng)的計算機上,用Microsoft SQL Server實現(xiàn);包含的數(shù)據(jù)為:語音文件的語音特征、人工診斷標簽、分類器分類標簽,該數(shù)據(jù)庫只保存經(jīng)過醫(yī)生診斷的被試數(shù)據(jù)。
6.一種基于語音特征與機器學(xué)習的抑郁癥自動評估方法,其特征在于,包括以下步驟:
1)語音信息采集錄音獲取語音樣本:通過對被試者施以不同的情緒語料刺激的同時,使用錄音設(shè)備記錄被試者的語音信息;
2)語音特征計算獲取語音特征集:語音樣本通過預(yù)處理后,計算語音的聲學(xué)特征;將經(jīng)過醫(yī)生診斷的語音聲學(xué)特征,包含診斷結(jié)果一起存入語音數(shù)據(jù)庫;沒有經(jīng)過醫(yī)生診斷的被試語音樣本則進入步驟4);
3)依據(jù)存入語音數(shù)據(jù)庫的語音聲學(xué)特征進行機器學(xué)習,確定語音有效特征提取方式,訓(xùn)練用于自動評估的分類器;
4)提取有效特征并進行分類得出評估結(jié)論:提取出被試語音樣本在評估抑郁癥過程中最有效的語音特征,即有效特征;并通過訓(xùn)練好的分類器對提取的有效特征進行分類,實現(xiàn)依據(jù)輸入的語音樣本自動評估被試者的抑郁程度。
7.所述步驟1)中,包括以下步驟:首先測量現(xiàn)場噪音,排除噪聲源,在噪聲符合要求之后,開始語音采集;語音采集過程中分別施以不同的情緒語料刺激,包括“語音問答”、“文本朗讀”、“圖片描述”三個不同的實驗情境。
8.所述步驟2)中,包括語音聲學(xué)特征計算的步驟:第一步,將語音切分為幀,在單個語音幀中計算出局部聲學(xué)特征;第二步,在多個語音幀之間,計算出統(tǒng)計學(xué)特征;第三步,若是已經(jīng)過醫(yī)生診斷的被試,將該被試的所有語音特征和人工診斷結(jié)果存入語音數(shù)據(jù)庫;所述的特征提取算法包括但不限于:共振峰計算、有聲段檢測、MFCC、TEO、HNR、SNR、PPQ、APQ。
9.所述步驟3)中,包括特征有效性分析與分類器訓(xùn)練的步驟:第一步,使用語音樣本庫中的已有人工診斷結(jié)論的數(shù)據(jù),先采用最小冗余最大相關(guān)的方式,去掉明顯不相關(guān)的特征,從語音聲學(xué)特征計算出的特征集中初步篩選出一個特征的子集,作為待選特征集;第二步,在待選特征集中,排除一個特征后,用剩余特征訓(xùn)練分類器,若分類率明顯降低,則說明該特征有效,并重復(fù)第二步;多次循環(huán),對待選特征集進行至少一次的遍歷之后,保留下來的特征,即構(gòu)成有效特征集;有效特征集包含的特征即為有效特征;通過所述步驟最終訓(xùn)練出的分類器,即為用于自動評估時使用的分類器。
10.所述步驟4)中,包括自動診斷的步驟:第一步,將沒有人工診斷結(jié)果的被試語音樣本,按照步驟3)確定的有效特征提取方式,計算出有效特征;第二步,將有效特征輸入由步驟3)訓(xùn)練好的分類器,由分類器進行抑郁程度的分類;所述分類是指以兩種標簽:正常、抑郁進行分類。
本發(fā)明的技術(shù)效果:
本發(fā)明提供的一種基于語音特征與機器學(xué)習的抑郁癥自動評估系統(tǒng)和方法,是結(jié)合了語音信號處理、特征計算與提取、模式識別的,具有一定學(xué)習能力的抑郁癥自動篩查系統(tǒng)和方法?;谡Z音處理、特征提取、機器學(xué)習等技術(shù),通過對用戶語音信號特征的分析,通過語音采集、特征計算,并結(jié)合醫(yī)生的診斷結(jié)論,抑郁癥量表評分之后,能夠通過尋找語音特征與抑郁癥之間的聯(lián)系,通過非侵入的方式,實現(xiàn)自動評估抑郁癥的功能,可以為臨床診斷提供基于客觀標準的參考。
附圖說明
圖1是本發(fā)明的系統(tǒng)總體框架示意圖。
圖2是本發(fā)明的方法流程示意圖。
圖3是語音采集流程示意圖。
圖4是語音預(yù)處理流程示意圖。
圖5是語音聲學(xué)特征計算和特征提取流程示意圖。
圖6是特征有效性分析與分類器訓(xùn)練流程示意圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的實施例作進一步詳細說明。
圖1是本發(fā)明的系統(tǒng)總體框架示意圖。一種基于語音特征與機器學(xué)習的抑郁癥自動評估系統(tǒng),包括(a)語音采集錄音模塊,用于對被試者施以不同的情緒語料刺激的同時,記錄被試者的語音信息;(b)語音特征計算模塊,用于對采集的語音信號進行預(yù)處理后,計算語音的聲學(xué)特征;(c)語音數(shù)據(jù)庫模塊,包含用于語音特征有效性分析、分類器訓(xùn)練優(yōu)化、系統(tǒng)分類率的相關(guān)數(shù)據(jù);(d)機器學(xué)習模塊,用語音數(shù)據(jù)庫的數(shù)據(jù)進行語音特征與抑郁癥的相關(guān)性分析,以確定有效特征的提取方式,并訓(xùn)練用于自動評估的分類器;(e)自動評估模塊,提取被試者有效語音特征并進行抑郁程度分類,實現(xiàn)依據(jù)輸入的語音樣本自動評估被試者的抑郁程度。
其中,語音特征計算模塊包含預(yù)處理模塊,預(yù)處理模塊包括依次連接的預(yù)加重、降噪、濾波模塊,對采集的語音信號依次進行預(yù)加重、降噪和濾波處理;所述預(yù)加重模塊采用k值為0.97的預(yù)加重濾波器,所述濾波模塊采用通帶頻率為60~4500Hz的濾波器。語音采集錄音模塊的硬件部分包括錄音設(shè)備,采集設(shè)備有電腦控制端、噪聲計、監(jiān)聽耳機、音箱、麥克風、聲卡、防噴罩、話筒支架;所述監(jiān)聽耳機、音箱、麥克風、聲卡均連接至電腦;錄音設(shè)備采用NEUMANN TLM102麥克風和采樣率為44.1kHz、數(shù)據(jù)長度為24位的RME FIREFACE UCX聲卡;采集的錄音數(shù)據(jù)以.WAV格式保存。機器學(xué)習模塊包含一個分類器,該分類器在本系統(tǒng)中的作用為,通過分類正確率對樣本有效性做出檢驗,以及在自動評估模塊中,對抑郁癥做出診斷。本系統(tǒng)中采用了一種已被廣泛應(yīng)用的分類器:支持向量機(Support Vector Machine,SVM),使用LIBSVM來實現(xiàn),選取的核函數(shù)為RBF(Radial Basis Function)。訓(xùn)練和使用方式在下面說明,此處不再贅述。語音數(shù)據(jù)庫模塊運行在本系統(tǒng)的計算機上,用Microsoft SQL Server實現(xiàn);包含的數(shù)據(jù)為:語音文件的語音特征、人工診斷標簽、分類器分類標簽,該數(shù)據(jù)庫只保存經(jīng)過醫(yī)生診斷的被試數(shù)據(jù)。
圖2是本發(fā)明的方法流程示意圖。一種基于語音特征與機器學(xué)習的抑郁癥自動評估方法,包括以下步驟:
1)語音信息采集錄音獲取語音樣本:通過對被試者施以不同的情緒語料刺激的同時,使用錄音設(shè)備記錄被試者的語音信息;
2)語音特征計算獲取語音特征集:語音樣本通過預(yù)處理后,計算語音的聲學(xué)特征;將經(jīng)過醫(yī)生診斷的語音聲學(xué)特征,包含診斷結(jié)果一起存入語音數(shù)據(jù)庫;沒有經(jīng)過醫(yī)生診斷的被試語音樣本則進入步驟4);
3)依據(jù)語音數(shù)據(jù)庫的語音聲學(xué)特征進行機器學(xué)習,確定語音有效特征提取方式,訓(xùn)練用于自動評估的分類器;
4)提取有效特征并進行分類得出評估結(jié)論:提取出被試語音樣本在評估抑郁癥過程中最有效的語音特征,即有效特征;并通過訓(xùn)練好的分類器對提取的有效特征進行抑郁程度分類,實現(xiàn)依據(jù)輸入的語音樣本自動評估被試者的抑郁程度。
圖3是語音采集流程示意圖。該部分作用在于:為實驗采集初始數(shù)據(jù),收集用于后續(xù)算法需要的語音文件。在獲取算法訓(xùn)練所需數(shù)據(jù),以及對待診斷患者進行診斷時,該部分的硬件構(gòu)成、操作步驟應(yīng)盡量保持一致。
首先由主持測試的人員測量現(xiàn)場噪音,若現(xiàn)場噪音在60dB以下,則須排除噪聲源,或等待噪聲降低至55dB以下之后,再開始語音采集。
語音采集過程分為“語音問答”、“文本朗讀”、“圖片描述”三個模塊,分別對應(yīng)不同的實驗情境,實驗采集時按照被試的編號規(guī)則顯現(xiàn)情緒材料。問題的語音播放完,“?!甭暫笞詣娱_始錄音。被試回答完畢,點擊“結(jié)束回答”按鈕停止錄音。此時按鈕變?yōu)椤袄^續(xù)”,點擊“繼續(xù)”按鈕進入保存界面。如此反復(fù),直到語音文件全部錄制完成。
本過程中各模塊的內(nèi)容為:
語音問答:包含9個問題,其中包含正向、中性、負向三種情緒的問題各3個。由主試提出問題之后,對被試的回答進行錄音。
文本朗讀:包含3段文字,分別帶有正向、中性、負向三種情緒。主試發(fā)出開始提示后,被試朗讀文本。
圖片描述:包含6張圖片,其中包含正向、中性、負向三種情緒的圖片各2張,主試發(fā)出開始提示后,由被試描述圖片內(nèi)容。
語音樣本保存:每一位被試的所有錄音文件將保存在與被試編號相同的文件夾下。保存過程中不帶有個人信息,僅保留用以區(qū)分的編號以及診斷結(jié)論(正常、抑郁或未經(jīng)診斷)。其中帶有診斷結(jié)論的語音樣本經(jīng)特征提取后,存入語音數(shù)據(jù)庫。
對采集的語音信息進行語音特征提取與選擇,是實現(xiàn)抑郁診斷的重要環(huán)節(jié),在這之前,首先需要對采集的語音信息進行預(yù)處理。
圖4是語音預(yù)處理流程示意圖。預(yù)處理是本系統(tǒng)中算法的第一部分,對采集的語音信號依次進行預(yù)加重、降噪和濾波。該部分的作用在于:提高信號的信噪比,增強某些頻段的信號以便提取特征,提高后續(xù)特征計算部分的穩(wěn)定性與準確性等。該部分中包含的操作:
預(yù)加重:語音信號存在低頻信號能量高于高頻信號能量的特點,為更好地對語音信號進行分析,須適當加強高頻部分的能量。本系統(tǒng)中采用了k值為0.97的預(yù)加重濾波器。
降噪:因現(xiàn)場存在的噪音不可能完全消除,以及錄音設(shè)備本身電路中可能存在噪音等原因,必須對采集的音頻信號進行濾波降噪后,再進行處理。該操作能夠提高后續(xù)的特征提取等算法的穩(wěn)定性與準確性,在本系統(tǒng)中采用的降噪方式為:將錄音中無聲段作為噪聲樣本,并以此為依據(jù)來去除錄音中的背景噪聲。
濾波:通常認為,人類語音的能量集中在200Hz~4000Hz的頻段中。因此需要設(shè)計一個帶通濾波器,用以保留有效信息。本系統(tǒng)中采用了通帶頻率為60~4500Hz的濾波器來完成這一處理。
對采集的語音信息預(yù)處理后,進行特征提取還包括進行語音聲學(xué)特征計算的步驟。圖5是語音聲學(xué)特征計算和特征提取流程示意圖。
由于語音原始信號數(shù)據(jù)量龐大,不可能直接輸入分類器進行訓(xùn)練、分類等操作,必須對語音信號進行特征提取,在保留語音樣本主要信息的同時降低數(shù)據(jù)量,才能進行后續(xù)處理。語音的特征可以分為聲學(xué)特征和語義特征,但本系統(tǒng)在設(shè)計時,希望能通過語音提取出與語言無關(guān)的、能有效區(qū)分抑郁的普適性特征,故本系統(tǒng)只對聲學(xué)特征進行了提取,而沒有進行語義分析的工作。同樣的,聲學(xué)特征也可以分為兩個大類:局部特征(Low-level Descriptor,LLD)與統(tǒng)計學(xué)特征。在計算局部特征時,通常采用將語音切分為幀的方式,對單個語音幀進行計算。而統(tǒng)計學(xué)特征通常是在多個語音幀之間進行計算。
切分幀:為盡量保證特征計算的精度與時間分辨率,本系統(tǒng)采用的切分方式為,以10毫秒為切分步長,每次切分出一段時間長度為25毫秒的語音片段作為語音幀。切分采用的窗函數(shù)為hamming窗。
特征計算:本部分中,計算出總計1753個局部特征和統(tǒng)計學(xué)特征,采用的特征計算方法包含但不限于:共振峰計算、有聲段檢測、MFCC、TEO、HNR、SNR、PPQ、APQ等。由于采用的特征提取算法及特征數(shù)目太多,此處不再詳述。
考慮到某些語音特征與抑郁癥并無明顯相關(guān)性,而這些特征的存在可能會干擾到最終對于抑郁癥的診斷,因此,在提取了語音信號的大量特征后,還應(yīng)根據(jù)語音樣本所對應(yīng)的診斷結(jié)果,對每個特征與抑郁癥診斷結(jié)果之間進行相關(guān)性分析,以保證最終保留下來的特征對于抑郁癥的診斷是最有效的。這一步驟的作用在于:去除不相關(guān)的、冗余或無用的特征;減少數(shù)據(jù)量,提高系統(tǒng)運行效率。同時,篩選出與抑郁癥相關(guān)的有效特征,對抑郁癥的相關(guān)研究工作也有一定的促進作用。
步驟3)中,包括特征有效性分析與分類器訓(xùn)練的步驟,圖6是機器學(xué)習模塊中的特征有效性分析與分類器訓(xùn)練流程示意圖。有效特征提取工作分為兩步:第一步,先采用最小冗余最大相關(guān)(minimal-redundancy-maximal-relevance,mRMR)的方式,去掉明顯不相關(guān)的特征,從語音數(shù)據(jù)庫中保存的語音特征中初步篩選出一個特征的子集,作為待選特征集。第二步,在待選特征集中,排除一個特征后,用特征子集去訓(xùn)練一個分類器,計算出該特征子集的分類率。若分類率明顯降低,則說明該特征有效,應(yīng)作為有效特征;若分類率不改變或升高,說明該特征為無效特征。多次重復(fù)第二步操作,對待選特征集進行至少一次的遍歷之后,保留下來的特征,即構(gòu)成有效特征集。
預(yù)篩選:采用mRMR方法,來初步提取出一個特征子集,作為有效特征集的待選集合。該方法具有速度快的優(yōu)點,面對大量特征,能夠很快篩選出與分類標簽相關(guān)性較高且冗余度較小的有效特征。因此,將該方法作為特征提取的前置步驟。
精確篩選:圖6中除去預(yù)篩選之外的所有部分均為精確篩選的步驟。該步驟采取的是序列前向浮動選擇(Sequential Forward Floating Selection,SFFS),即根據(jù)特征集與對應(yīng)標簽,訓(xùn)練一個分類器,并采用交叉排除驗證(Leave-One-Out Cross-Validation,LOOCV)策略來驗證每個特征與分類率之間的相關(guān)性。其實現(xiàn)方式為:使用待選特征集中的特征,訓(xùn)練一個分類器,并驗證該分類器的分類率。然后,從待選特征集中排除一個特征,若分類率下降,則說明該特征是有效的特征,應(yīng)將其作為一個有效特征,予以保留;若分類率上升或不改變,說明該特征為無效或冗余特征,將其從待選特征集中排除。最后,循環(huán)上述實現(xiàn)方式,直到滿足下列兩個條件:從待選特征集中排除任何一個特征,都會導(dǎo)致分類率下降;向待選特征集中添加任何一個特征,分類率都不會有明顯提升。此時的待選特征集,即可視為最終篩選出的有效特征集。有效特征集中包含的特征,即為有效特征。在本系統(tǒng)用于抑郁癥的診斷時,只需提取有效特征即可。而用于診斷時的分類器,也是本過程最后所訓(xùn)練得到的分類器。
最后,步驟4)中的自動診斷的步驟具體包括:第一步,將沒有人工診斷結(jié)果的被試語音樣本,按照步驟3)確定的有效特征提取方式,計算出有效特征;第二步,將有效特征輸入由步驟3)訓(xùn)練好的分類器,由分類器進行抑郁程度的分類;具體分類是以兩種標簽:正常、抑郁進行了分類。
本文雖然已經(jīng)給出了本發(fā)明的一些實施例,但是本領(lǐng)域的技術(shù)人員應(yīng)當理解,在不脫離本發(fā)明精神的情況下,可以對本文的實施例進行改變。上述實施例只是示例性的,不應(yīng)以本文的實施例作為本發(fā)明權(quán)利范圍的限定。