專利名稱:基于廣義流利的口語流利度自動(dòng)評(píng)估方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音識(shí)別領(lǐng)域,涉及一種基于語音識(shí)別的多種流利度特征融合得到分
數(shù)并結(jié)合規(guī)則進(jìn)行診斷的方法。
背景技術(shù):
多項(xiàng)口語評(píng)分的研究表明,流利度和準(zhǔn)確性是衡量口語發(fā)音質(zhì)量評(píng)估的兩個(gè)重要 指標(biāo)。以英語為例,傳統(tǒng)的英語口語考試評(píng)分主要采用人工對(duì)以上兩種指標(biāo)進(jìn)行綜合考察, 得到考生的總體分?jǐn)?shù),這種方法有以下缺點(diǎn)1)速度慢,批閱一段發(fā)音需要基本將發(fā)音聽 完,然后根據(jù)教師的經(jīng)驗(yàn)和考綱要求進(jìn)行批閱;在一場(chǎng)大型的考試中,如果人數(shù)超過10萬 人,老師的工作量是非常繁縟的;2)全面性差,教師不可能將一段發(fā)音完整的聽完,然后根 據(jù)各個(gè)詞匯和短語,音素的發(fā)音細(xì)節(jié)綜合評(píng)分,而更多見的是只根據(jù)一小段發(fā)音的印象進(jìn) 行評(píng)分,這種"以偏概全"的方法顯然會(huì)帶來誤差;3)尺度不統(tǒng)一,口語考試評(píng)分是一種主 觀性很強(qiáng)的評(píng)估,各個(gè)教師尺度的不同勢(shì)必帶來評(píng)分的偏頗. 近年來,圍繞口語流利度自動(dòng)評(píng)估進(jìn)行了很多研究,而傳統(tǒng)的發(fā)音流利度評(píng)估方 法僅僅從識(shí)別的特征層次考慮流利質(zhì)量,而隨著語言學(xué)研究的進(jìn)展,發(fā)現(xiàn)流利度不再是一 個(gè)單純的衡量發(fā)音順暢的指標(biāo),而需要對(duì)包括發(fā)音的準(zhǔn)確,主觀認(rèn)知性等多種技能的掌握 進(jìn)行評(píng)估比較,從而衡量在豐富表達(dá)意思的前提下個(gè)體對(duì)于語言的連貫產(chǎn)生和準(zhǔn)確表達(dá)的 駕馭能力。 傳統(tǒng)的口語自動(dòng)評(píng)估方法主要以發(fā)音質(zhì)量的各項(xiàng)指標(biāo)為出發(fā),如Catia等人的方 法。該方法以評(píng)分人對(duì)于口語發(fā)音流利度所關(guān)注的指標(biāo)出發(fā),譬如在規(guī)定時(shí)間內(nèi)發(fā)音詞數(shù) 的發(fā)音速度,突然變快或變慢的發(fā)音次數(shù),停頓的頻率和停頓長(zhǎng)度等等。之后利用人工評(píng)分 對(duì)各項(xiàng)指標(biāo)進(jìn)行訓(xùn)練,構(gòu)造線性回歸或者神經(jīng)網(wǎng)絡(luò)等非線性模型,之后對(duì)于新的發(fā)音,同樣 提取相同的語音質(zhì)量特征,采用先前構(gòu)造的模型進(jìn)行測(cè)試,得到發(fā)音人的流利度得分。但 是,這些方法不能用訓(xùn)練出來模型進(jìn)行更深入的推廣。因?yàn)椋骼戎笜?biāo)依賴的因素很多, 譬如話題內(nèi)容,腳本的難度,詞匯,語法,口音等,在這之中一個(gè)重要的指標(biāo)就是交流和理解 的準(zhǔn)確程度。 一些研究表明,發(fā)音的準(zhǔn)確程度和流利程度是互相制約,此消彼漲的兩個(gè)方 面,這就決定了流利度的評(píng)估不能僅僅停留在發(fā)音的流暢上;另一方面,在口語發(fā)音自動(dòng)評(píng) 估中,由于面向的對(duì)象大多是非英語母語的學(xué)生,如何在流暢而準(zhǔn)確的表達(dá)下最大程度的 進(jìn)行英語交流才是教學(xué)和考試的任務(wù)。傳統(tǒng)的流利度評(píng)估方法在實(shí)際應(yīng)用中和人工評(píng)分的 相關(guān)度較低,這也說明了對(duì)于非英語為母語的學(xué)生來講,流利度不是單純衡量學(xué)生的發(fā)音 有多么流暢,而是針對(duì)本國(guó)學(xué)生的特點(diǎn),在考察基本流利度指標(biāo)的基礎(chǔ)上,探索學(xué)生在一些 可能的高級(jí)技巧上的發(fā)揮程度,使之更趨近于正規(guī)的英語會(huì)話。 口語考試的各項(xiàng)指標(biāo)有很多, 一般采用10分為滿分,評(píng)分采用多位老師的評(píng)分取
平均。不用分?jǐn)?shù)段代表的流利度水平為
5很少甚至沒有語言交際0-2
十分猶豫,話語簡(jiǎn)單,語流不正常中斷,猶豫,很難 聽懂,詞序容易引起混亂或歧義2-4
基本能表達(dá)意義,語流不正常中斷,猶豫,影響理解, 內(nèi)容簡(jiǎn)單,內(nèi)容豐富者給54-6
語流有點(diǎn)象母語,用較短篇幅進(jìn)行了有效的交際,語 速快,停頓猶豫有點(diǎn)突然,不自然,每分鐘產(chǎn)出12到13 個(gè)句子以上者得7分6-8
交流輕松,高效率,篇幅長(zhǎng),語言流暢,表達(dá)象母語 般輕松8-10
發(fā)明內(nèi)容
為了解決現(xiàn)有口語考試尤其是英語口語考試中人工評(píng)分速度慢、全面性差和尺度 不統(tǒng)一的問題,以及當(dāng)前自動(dòng)口語發(fā)音流利度評(píng)估中考察指標(biāo)單一,和人工評(píng)分相關(guān)性差 的缺點(diǎn),本發(fā)明的目的是針對(duì)口語教學(xué)和口語自動(dòng)化考試,提出一種基于廣義流利的口語 流利度自動(dòng)評(píng)估方法和系統(tǒng)實(shí)現(xiàn)。 為達(dá)成所述目的,本發(fā)明的一種基于廣義流利的口語流利度自動(dòng)化評(píng)估方法,包 括以下步驟 步驟Sl :利用語音輸入設(shè)備,分不同年齡和口語水平收集語音數(shù)據(jù); 步驟S2 :采用基于廣義流利度的特征和機(jī)器學(xué)習(xí)的方法訓(xùn)練異常流利度錯(cuò)誤決
策樹分類模型、流利度評(píng)分回歸分析模型和流利度診斷規(guī)則模型; 步驟S3 :根據(jù)語音數(shù)據(jù)不同話題的腳本和發(fā)音者的性別,配置相應(yīng)參數(shù)的語音識(shí) 別系統(tǒng); 步驟S4 :利用對(duì)語音數(shù)據(jù)中語速連貫、內(nèi)容理解、高級(jí)技巧和重構(gòu)標(biāo)特征進(jìn)行量 化,計(jì)算機(jī)自動(dòng)從專家評(píng)估角度綜合提取語音數(shù)據(jù)中流利度的特征; 步驟S5 :采用回歸擬合分析和數(shù)據(jù)挖掘中的決策樹方法對(duì)異常流利度錯(cuò)誤的檢
測(cè)和流利度評(píng)分、診斷。 本發(fā)明的有益效果 本發(fā)明是針對(duì)口語教學(xué)和口語自動(dòng)化考試,提出的一種新的基于語音識(shí)別多種特 征融合得到分?jǐn)?shù)并結(jié)合規(guī)則進(jìn)行診斷的方法,解決口語發(fā)音的流利度計(jì)算機(jī)自動(dòng)評(píng)估問 題。 由于本發(fā)明的方法采用大詞匯量連續(xù)語音識(shí)別系統(tǒng)進(jìn)行識(shí)別,以及更全面更趨近 與人的特征提取方式,在評(píng)分過程中采用現(xiàn)代信號(hào)處理技術(shù)和統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論相結(jié)合的 方法,使得機(jī)器評(píng)分更加趨進(jìn)與專家的評(píng)分。 在測(cè)試中,按照國(guó)際上專家系統(tǒng)一般的評(píng)分管理,每個(gè)發(fā)音錄制腳本由5個(gè)專家
6打分,由于專家之間存在評(píng)分尺度差異的情況,專家個(gè)人打分也存在一定誤差,故最后該腳 本的分?jǐn)?shù)為5個(gè)專家的平均分決定。 經(jīng)過對(duì)不同專家和平均分之間的相關(guān)性(Inter-correlation),同一個(gè)專家對(duì)相 同一批打分重復(fù)打分的相關(guān)性(Intra-correlation)進(jìn)行測(cè)試,本方法得到的機(jī)器流利度 分?jǐn)?shù)可以達(dá)到與專家接近的水平。在相關(guān)度指標(biāo)上可以超過一般5個(gè)專家中的2-3個(gè)。
同時(shí),該方法評(píng)分速度快,在O. l倍實(shí)時(shí)性以下,大大節(jié)省了人工評(píng)分的時(shí)間,不 僅可以取代專家評(píng)分,而且可以針對(duì)不同發(fā)音腳本給出診斷報(bào)告,對(duì)測(cè)試者在流利度中流 暢性,停頓,連讀和失去爆破上的發(fā)音意見,以及一些今后改進(jìn)和矯正方面的建議。同時(shí),該 系統(tǒng)可以嵌入到口語自動(dòng)化評(píng)分考試系統(tǒng)中,作為一個(gè)重要模塊評(píng)測(cè)發(fā)音質(zhì)量中流利度這 一指標(biāo)。 本發(fā)明可以針對(duì)口語考試中朗讀,跟讀和話題簡(jiǎn)述等開放題型。提取發(fā)音內(nèi)容的 可接受性與廣義流利中的可接受性相關(guān),強(qiáng)調(diào)產(chǎn)生的語言符合目標(biāo)語標(biāo)準(zhǔn)的程度,重視語 言的用法而非使用,將會(huì)話的話題和閱讀的內(nèi)容指標(biāo)引入到流利度特征指標(biāo)中來,避免學(xué) 生因?yàn)樘崆氨痴b與主題無關(guān)的段落,或者亂說一段無意義的片段而得到高分。系統(tǒng)分兩種 情況來進(jìn)行,1)如果題目為閱讀或者跟讀題型,由于朗讀中有修正現(xiàn)象,則匹配算法采用反 向動(dòng)態(tài)規(guī)劃,同時(shí),為了避免諸如"the, an"等高頻詞在動(dòng)態(tài)規(guī)劃過程中出現(xiàn)錯(cuò)位的匹配, 匹配過程中只有連續(xù)兩個(gè)詞同時(shí)和腳本相同才計(jì)入正確,之后計(jì)算正確表達(dá)內(nèi)容所占的比 率。2)如果題目為話題簡(jiǎn)述等開放題型,則計(jì)算N-gram命中率加權(quán)得分。
本發(fā)明的專家系統(tǒng)模擬教師對(duì)學(xué)生口語流利度進(jìn)行評(píng)分。該系統(tǒng)適用于閱讀,跟 讀和話題簡(jiǎn)述等多種題型,利用基于客觀流暢性和主觀認(rèn)知性的多種特征進(jìn)行評(píng)估,利用 決策樹和回歸模型融合的方法得到評(píng)分結(jié)果,并給出具體的診斷報(bào)告和改進(jìn)方向。如
語速適中,能平穩(wěn)順暢地朗讀全文,可保持這樣的語
速;朗讀時(shí)有些重復(fù)或自我更正,有部分不自然的停頓和
流不應(yīng)有的插入語,表明考生在某些詞匯和語法的掌握方面
利B可能存在問題,需加強(qiáng)對(duì)短文某些句子的理解;節(jié)奏掌握
性一般,有一定的朗讀節(jié)奏感,重讀、弱讀掌握一般,對(duì)于
有些句子的表達(dá)過于平緩;連讀掌握一般,意群的連貫性
有些欠缺,基本能掌握失爆、同化等朗讀技巧。
圖1為本發(fā)明方法模擬專家建立模型,評(píng)分和診斷的總流程框圖 圖2為本發(fā)明系統(tǒng)訓(xùn)練流利度各個(gè)模型的流程框圖 圖3為本發(fā)明計(jì)算可接受性得分的流程框圖 圖4為本發(fā)明Trap特征和匹配規(guī)整的流程框圖 圖5為本發(fā)明重讀和弱讀的檢測(cè)流程框圖 圖6為本發(fā)明Miscues檢測(cè)中的語法拓?fù)浣Y(jié)構(gòu)圖
具體實(shí)施例方式
下面結(jié)合附圖詳細(xì)說明本發(fā)明技術(shù)方案中所涉及的各個(gè)細(xì)節(jié)問題。應(yīng)指出的是,
所描述的實(shí)施例僅旨在便于對(duì)本發(fā)明的理解,而對(duì)其不起任何限定作用。 在口語質(zhì)量評(píng)測(cè)中,雖然準(zhǔn)確性(包括發(fā)音錯(cuò)誤)是最重要的指標(biāo),而流利性和總
分也呈現(xiàn)出很強(qiáng)的相關(guān)性。經(jīng)過統(tǒng)計(jì)表明,流利度也影響準(zhǔn)確性的衡量,如果會(huì)話不流利,
那么準(zhǔn)確性錯(cuò)誤的發(fā)生概率為37.2%到57.8%之間(p< 0.001).所以,針對(duì)當(dāng)前流利度
自動(dòng)評(píng)估的發(fā)展現(xiàn)狀和實(shí)際要求,本發(fā)明力求在各個(gè)方面對(duì)考生的流利度進(jìn)行綜合評(píng)估,
其特點(diǎn)在于 1)以準(zhǔn)確性的準(zhǔn)繩衡量下的流利度評(píng)估,發(fā)明根據(jù)英語語言學(xué)總結(jié)出的專家系統(tǒng)
對(duì)于流利度的各項(xiàng)指標(biāo)要求,充分考慮了語境,腳本,話題內(nèi)容,利用最前沿的語音識(shí)別技
術(shù)和多年來我們?cè)谟⒄Z口語考試中獲得的樣本作為數(shù)據(jù)驅(qū)動(dòng),定量計(jì)算出受試者發(fā)音的各
項(xiàng)指標(biāo)。同時(shí)利用大量英語教育者對(duì)于不同層次英語學(xué)習(xí)者發(fā)音流利度的打分作為參照,
采用機(jī)器學(xué)習(xí)的方法對(duì)先驗(yàn)知道的英語學(xué)習(xí)者水平和其真實(shí)得分進(jìn)行訓(xùn)練,建立評(píng)分模
型,自動(dòng)給出流利度綜合評(píng)價(jià),并且也可應(yīng)用到漢語等其他語言的流利度評(píng)估中。 2)不僅給出流利度的綜合評(píng)價(jià),本系統(tǒng)尤其針對(duì)中國(guó)人學(xué)習(xí)英語的特點(diǎn),對(duì)于中
國(guó)人在流利表達(dá)英語的特點(diǎn)上進(jìn)行研究,在音素個(gè)數(shù)種類選取,聲學(xué)模型訓(xùn)練,診斷易錯(cuò)點(diǎn)
上,都采用從大量中國(guó)不同水平發(fā)音者的真實(shí)樣本中統(tǒng)計(jì)出的規(guī)律進(jìn)行建模。 3)輸出診斷結(jié)果報(bào)告,分不同的考察點(diǎn)以分?jǐn)?shù)形式定量給出發(fā)音者流利度不足反
映在哪些方面,給出發(fā)音者應(yīng)該從哪些方面提高流利度的措施。 4)從"廣義流利"出發(fā),特征提取更加全面,不僅提取諸如基本的語速,停頓等特 征,還利用連讀,失去爆破,自我修正,重復(fù),節(jié)奏韻律特征,重讀,弱讀等多項(xiàng)高階特征,同 時(shí)設(shè)計(jì)了一種新的語法模型,提取錯(cuò)讀和修正(Miscues)特征.綜合考察高水平閱讀者的 流利程度,試圖在高分段建立統(tǒng)計(jì)學(xué)習(xí)模型,達(dá)到和專家評(píng)分相關(guān)度的一致性。
— .語音識(shí)別系統(tǒng)搭建簡(jiǎn)述 本發(fā)明的實(shí)施例,所述語音識(shí)別系統(tǒng)根據(jù)不同話題腳本、發(fā)音者性別配置相應(yīng)語 言模型和聲學(xué)模型,采用常用的聲學(xué)解碼器得到識(shí)別結(jié)果;識(shí)別器同時(shí)輸出每個(gè)詞和音素 對(duì)應(yīng)的起止時(shí)間以及對(duì)應(yīng)的可信度,供流利度特征提取使用,其中
聲學(xué)模型訓(xùn)練步驟如下 1):使用相同年齡段男女生的標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)及其對(duì)應(yīng)不同話題腳本,對(duì)每條訓(xùn)練 語音提取39維梅爾倒譜(MFCC)和一階,二階差分,規(guī)一化能量特征; 2):通過強(qiáng)制對(duì)齊算法和前后向算法對(duì)各音子對(duì)應(yīng)幀特征進(jìn)行估計(jì),得到單音子 聲學(xué)模型; 3):通過設(shè)計(jì)決策樹和前后向算法,訓(xùn)練得到三音子聲學(xué)模型; 4):通過區(qū)分度模型訓(xùn)練算法,訓(xùn)練得到具有區(qū)分度信息的三音子模型; 語言模型訓(xùn)練步驟如下 1):對(duì)每個(gè)話題腳本收集對(duì)應(yīng)詞匯范圍內(nèi)的各個(gè)衍生詞與腳本中詞匯訓(xùn)練得到對(duì) 應(yīng)的三元語言模型; 2):為了增加對(duì)話題腳本外內(nèi)容的識(shí)別兼容性,采用大規(guī)模話題無關(guān)語料訓(xùn)練得 到一個(gè)垃圾語言模型(Garbage Model);
8
3):每個(gè)話題腳本對(duì)應(yīng)的語言模型通過與通用語言模型融合得到對(duì)應(yīng)題目的最終 語言模型。 識(shí)別過程是這樣的,語音需要送進(jìn)大詞匯量連續(xù)語音識(shí)別系統(tǒng)進(jìn)行識(shí)別。采用 10ms幀移,25ms幀長(zhǎng)的分幀策略,對(duì)每幀提取39維MFCC特征,包括規(guī)一化能量特征, 一階 差分和二階差分;然后進(jìn)入語音識(shí)別模塊,根據(jù)被測(cè)試人的性別和當(dāng)前口語內(nèi)容,選擇使用 的語言模型(trigram)和聲學(xué)模型以及詞表,其中,詞表包含該話題口語中可能出現(xiàn)的詞 匯發(fā)音音節(jié)序列。而針對(duì)發(fā)音對(duì)象多為學(xué)生這一特點(diǎn),聲學(xué)模型訓(xùn)練采用發(fā)音標(biāo)準(zhǔn)的中學(xué) 生數(shù)據(jù),特征共形成16個(gè)混合G匪,訓(xùn)練出每個(gè)連續(xù)HMM中包含三個(gè)狀態(tài),另外還有兩個(gè)額 外的HMM,一個(gè)代表靜音,一個(gè)代表其他非語音的聲音。利用語音識(shí)別引擎對(duì)特征序列進(jìn)行 識(shí)別;輸出每個(gè)詞和音素對(duì)應(yīng)的起止時(shí)間以及對(duì)應(yīng)的可信度等信息后進(jìn)入流利度特征提取 模塊。 二 .流利度特征提取 本發(fā)明的實(shí)施例,所述流利度自動(dòng)評(píng)估方法,選取特征力求更能反映教育研究者 提出的"廣義流利"。系統(tǒng)利用語音識(shí)別系統(tǒng)輸出的每個(gè)詞和音素對(duì)應(yīng)的起止時(shí)間以及對(duì)應(yīng) 的可信度等信息,提取四大類特征為會(huì)話的語速連貫特征,內(nèi)容理解特征,高級(jí)技巧特征, 重構(gòu)特征 1.會(huì)話的語速連貫特征,強(qiáng)調(diào)時(shí)間性和言語的流暢延續(xù)。其最高標(biāo)準(zhǔn)是達(dá)到母語 般的速度,所以這里我們提取的特征為能夠直觀反映會(huì)話速度的特征,如整體語速,句子語 速,平均語流長(zhǎng)、有效停頓比率等。 1)語速(ROS):每時(shí)間段發(fā)音音素(Phone)個(gè)數(shù),計(jì)算方法為
Nph。ne/(Trec-Tsil-Tpau) 其中Nph。ne代表識(shí)別出Phone個(gè)數(shù),Tra代表識(shí)別結(jié)果總時(shí)間,Tsil代表靜音時(shí)間, Ipau代表停頓時(shí)長(zhǎng)。系統(tǒng)將根據(jù)整篇腳本或者單個(gè)句子分別進(jìn)行統(tǒng)計(jì) 2)平均語流長(zhǎng)(AUD)指以某一時(shí)間長(zhǎng)度為閾值指定為停頓時(shí)間長(zhǎng)度,所有停頓和 停頓之間時(shí)間的平均長(zhǎng)度 ^-^-
S (11, C/ M ) > 當(dāng)然,句子和句子之間是有稍許停頓的,而影響人聽覺的停頓閾值通常要比這個(gè) 長(zhǎng)。 3)有效停頓比例 統(tǒng)計(jì)有效停頓總數(shù)占所有需要停頓總數(shù)的比例 2.會(huì)話的內(nèi)容理解特征,強(qiáng)調(diào)語言的可接受性。如果一段對(duì)話與主題跟本無關(guān),但 是流利度的打分卻很高,顯然是不可取的,所以流利性的打分會(huì)依據(jù)內(nèi)容相應(yīng)調(diào)整。所述內(nèi) 容理解特征與廣義流利度中的可接受性相關(guān),分不同題型來進(jìn)行提??; 1)如果題目為閱讀或者跟讀題型,由于朗讀中有修正現(xiàn)象,故匹配算法采用反向 動(dòng)態(tài)規(guī)劃,如下計(jì)算麗R: 正確表達(dá)語句比率(麗R):如圖3,通過對(duì)識(shí)別出的內(nèi)容和腳本中的正確內(nèi)容做匹 配,由于測(cè)試人可能出現(xiàn)自我修正等現(xiàn)象,所以匹配算法采用反向DP :
9
di,j = min(dw,j+w(Xi, e) , di,j+1+w(e, y」),di+1, j+1+w(x丄,y》}
《j代表匹配過程中的距離函數(shù),w代表插入,刪除或替換過程中的耗費(fèi)函數(shù)。
同時(shí),為了避免諸如"the , an "等高頻詞在DP過程中出現(xiàn)錯(cuò)位的匹配,匹配回溯過 程中只有連續(xù)兩個(gè)詞同時(shí)和腳本相同才計(jì)入正確。 2)如果題目為話題簡(jiǎn)述或開放題型,則計(jì)算N-gram命中率加權(quán)得分。
衡量識(shí)別結(jié)果中N元詞匯在幾個(gè)候選正確腳本中的命中概率得分, 此處使用近似于機(jī)器翻譯中Bleu打分的策略,5]w" logP"其中wn為第n-gram得
w=l ,
分的權(quán)重,Pn為第n-gram的概率得分。 3.提取高級(jí)技巧特征,考察語言抑揚(yáng)頓挫衡量的三個(gè)指標(biāo)。1)流利的發(fā)音并不代 表一味得讀快,而是要考慮在恰當(dāng)?shù)脑~匯和句群,段落進(jìn)行適當(dāng)長(zhǎng)度的停頓,2)在某些影響 表達(dá)感情和意思的重點(diǎn)詞匯上采用重讀,3)在一些輔助性詞匯上采用弱讀,同時(shí)考慮一些 高級(jí)特性,即連讀(link)和失去爆破(assimilation),如"And you "如果沒有考慮連讀 的讀法是"ae n d y uw",考慮連讀的讀法是"ae n dh uw", "d"和"y"連成一個(gè)發(fā)音,這 樣的發(fā)音如果比較多,應(yīng)該考慮適當(dāng)加分,在識(shí)別的時(shí)候也要對(duì)容易連讀的詞匯單獨(dú)考慮, 失去爆破指對(duì)于一些單詞尾部的輔音,采用不讀和弱讀的方式,以更快地增加語速,這種技 能為多見于流利度掌握很好的母語者或優(yōu)秀的發(fā)音者,系統(tǒng)將根據(jù)評(píng)分專家標(biāo)注的流利度 診斷模型,對(duì)以上特征分別進(jìn)行提取。 1)正確停頓得分計(jì)算該特征前需要預(yù)先根據(jù)句群結(jié)構(gòu)標(biāo)注應(yīng)該正確停頓的地 方,之后對(duì)識(shí)別腳本進(jìn)行分析,判斷實(shí)際正確停頓個(gè)數(shù)占所有應(yīng)正確停頓個(gè)數(shù)的比例。其他 停頓診斷特征為 ptr (音素率Phone Time Ratio):所有phone持續(xù)時(shí)間/錄音總時(shí)間 art(清晰發(fā)音率Articulaion Ratio):總音節(jié)個(gè)數(shù)/去處靜音和其他音后的錄音
時(shí)間 spc(靜音率Silence Pause Count):大于0. 2s的所有停頓長(zhǎng)度 tdp(停頓時(shí)長(zhǎng)Total duraion of pause):所有大于0. 2s的句子和句子的停頓長(zhǎng)
度 mlp(停頓平均長(zhǎng)度Mean length of pauses):所有大于0. 2s的平均停頓長(zhǎng)度
2)連讀(Link)和失去爆破(Assimilation):采用對(duì)于腳本中可能產(chǎn)生連讀和失 爆的詞匯進(jìn)行標(biāo)注,同時(shí)擴(kuò)展該詞的詞表或者合并多個(gè)詞組成連接詞詞表,識(shí)別過程中采 用新的詞表進(jìn)行,由于解碼過程總是采用DP并裁減掉其他路徑,如果測(cè)試者在閱讀中有連 讀或失去爆破的技巧,則對(duì)應(yīng)詞表的詞會(huì)優(yōu)先識(shí)別出來,之后對(duì)識(shí)別結(jié)果進(jìn)行分析,統(tǒng)計(jì)連 讀或失爆詞匯占所有應(yīng)連讀或失爆詞匯的比率。 3)重讀或弱讀得分由于重讀或者弱讀的音節(jié)表現(xiàn)為能量,時(shí)長(zhǎng)和基頻,而其中 前兩者占據(jù)主導(dǎo)地位,這里我們發(fā)明了一種將時(shí)長(zhǎng)模型得分,能量強(qiáng)度模型得分,神經(jīng)網(wǎng)絡(luò) (NN)后驗(yàn)概率得分相融合的方法,如圖5所示 計(jì)算段長(zhǎng)得分前,應(yīng)該將該音節(jié)的段長(zhǎng)進(jìn)行規(guī)一化,消除不同人發(fā)音快慢的差 異,以英語為例,模型的訓(xùn)練采用發(fā)音標(biāo)準(zhǔn)的中國(guó)學(xué)生和英語母語者,需要采用維特比 (Viterbi)切分確定每個(gè)音節(jié)的時(shí)長(zhǎng),而某一段Phone的段長(zhǎng)得分如下
D = ^|>g07(/W)k) f (eg為消除不同說話人快慢差異的段長(zhǎng)規(guī)一化函數(shù),qi代表第i段的phone。而 概率得計(jì)算采用16個(gè)高斯的混合模型。同樣方法,計(jì)算該段Phone的能量強(qiáng)度模型得分。
而NN得到Phone后驗(yàn)概率方法近年來被廣泛采用,本方法如圖4所示,利用多層 感知NN的方法,特征提取時(shí)采用Trap形式,即MFCC中每一個(gè)Band采用幀前和幀后幾幀做 為整體,對(duì)每個(gè)Band采用不同的神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,第二層再利用NN對(duì)識(shí)別結(jié)果進(jìn)行合 并。得到當(dāng)前幀的后驗(yàn)概率得分。而Phone的后驗(yàn)概率得分采用將整句話利用神經(jīng)網(wǎng)絡(luò)后 驗(yàn)概率得分進(jìn)行動(dòng)態(tài)規(guī)劃切分,得到每個(gè)Phone的邊界,并確定每個(gè)Phone的后驗(yàn)概率得 分。 另外一個(gè)顯著特征就是Phone在一段話元音中的特征度量排序,試想如果該 Phone為重讀,那么其周圍的元音Phone必然就會(huì)減弱,所以,假設(shè)一段話中有N個(gè)元音,那
么第i個(gè)元音的能量排序特征為
,「 iV"-i a"A:,Aa"M" =-L
iV , 其中Ranki為第i個(gè)Phone在所有Phone中的能量排序 同樣,我們提取該元音的基頻排序特征。而重讀分?jǐn)?shù)得出也是通過對(duì)大量標(biāo)注好 的重讀和弱讀Phone以上述特征進(jìn)行訓(xùn)練,每個(gè)Phone得到兩類的支持向量機(jī)(SVM)模型, 訓(xùn)練過程中,由于訓(xùn)練樣本多數(shù)Phone會(huì)出現(xiàn)正負(fù)類分布差異懸殊的的情況,影響識(shí)別結(jié) 果。所以這里我們提出一種將診斷Phone進(jìn)行歸類的方法,以歸類后Phone按照類別為單 位訓(xùn)練模型。 新的測(cè)試樣本重讀和弱讀得分是這樣得到的首先,通過專家對(duì)腳本中應(yīng)該重讀 或弱讀會(huì)提高流利程度的地方進(jìn)行標(biāo)注,之后對(duì)測(cè)試語音在這些可能發(fā)生重讀或弱讀的 地方分別對(duì)其包括的所有Phone提取特征進(jìn)行判別,每個(gè)Phone的得分是其對(duì)應(yīng)群類別 (Group)的SVM得分,如果SVM判別類別和標(biāo)注答案相同,則取正分,相反,則取負(fù)分。最后, 該段重讀或弱讀得分為所有考察點(diǎn)Phone得分的平均值。如下所示 2] (r"' == W《)? "ore,.: —score,. 4.會(huì)話的重構(gòu)特征,考察錯(cuò)讀或修正(Miscues),我們稱這種方式為重構(gòu)模式。即 語言學(xué)習(xí)者對(duì)于內(nèi)容沒有在大腦中預(yù)先形成完整的構(gòu)思,隨著時(shí)間的推移,逐漸形成語句, 于是伴隨發(fā)音后進(jìn)行語句重組。所述重構(gòu)特征的提取,主要包括以下兩部分一是異常停 頓和回溯詞率,回溯詞定義為拖延時(shí)間用來使大腦形成重構(gòu)語句的詞匯,通過在識(shí)別結(jié)果 中統(tǒng)計(jì)這些詞的分布得到特征;二是只在閱讀題型中出現(xiàn)的,需要已知閱讀腳本的先驗(yàn)知 識(shí),提取自我修正率(Self correction)、單詞不完整性(Partial word)、慢讀(Sounding out)、拖音(Stalling)、疑問(Questioninglntonation)。 1)異常停頓和回溯詞率前者指發(fā)音者欲說出某一句子,停頓一段時(shí)間,再說 出.反映了發(fā)音者對(duì)于語言沒有預(yù)先形成構(gòu)思。后者指一些輔助性發(fā)語詞所占比率,包括 well,mhm等詞以及發(fā)音者因?yàn)椴皇煜ふZ句輕聲發(fā)出的微語。如
11
"Many teenagers suffer, mhm,from stress,well,there are some simpleways
to deal with this problem" 其中well, mhm都算作輔助性詞匯。 識(shí)別前我們將所有回溯詞的發(fā)音也放入到發(fā)音詞典中去,同時(shí)在聲學(xué)訓(xùn)練中訓(xùn)練 背景音模型,識(shí)別結(jié)束后,統(tǒng)計(jì)該指標(biāo)計(jì)算方法為
(r尸。j^ i r尸叫> rrtre) w+^v"G—g函"
Tpau為停頓時(shí)長(zhǎng),即單詞和單詞之間的時(shí)間長(zhǎng)度.Tt^為停頓時(shí)長(zhǎng)門限,W為常數(shù)權(quán)
重,Neart,WOTd為回溯詞匯個(gè)數(shù),NWOTd為識(shí)別出的總詞個(gè)數(shù) 2)自我修正率是指自我修正的次數(shù),以下是自我修正的例子"Many teenagers have from,suffer from stress,there are some simpleways
to do with, to deal with this problem" 其中"suffer from"和"to deal with"都算作修正詞匯,在計(jì)算發(fā)音內(nèi)容時(shí),應(yīng) 該以修正后的內(nèi)容為準(zhǔn)。 3)單詞不完整(Partial Word):如果一個(gè)單詞只念出一半,之后再念出完整的單 詞或直接放棄,我們將這種現(xiàn)象稱為單詞不完整。 4)慢讀(So皿ding-0ut):指發(fā)音者對(duì)于詞匯不熟悉,在每一個(gè)音素發(fā)音中間帶有 較長(zhǎng)的間隙。 這三種特征只適用于閱讀題型,即在已知目標(biāo)腳本情況下利用強(qiáng)制切分(Force Alignment)判斷,因?yàn)樵谧晕倚拚?,單詞不完整或者慢讀的語音中,依靠識(shí)別結(jié)果判斷自我 修正和單詞不完整是不可取的,因?yàn)閷?duì)于自我修正的語句,念錯(cuò)的第一遍內(nèi)容在識(shí)別過程 中很容易發(fā)生錯(cuò)誤;而對(duì)于單詞不完整,通過在詞典中加入不完整的詞匯,這個(gè)工作量也是 非常大的,所以這里我們提出一種新的語法結(jié)構(gòu).主要用來識(shí)別不完整和重復(fù)的詞匯,如 圖6所示,假設(shè)部分詞模型只有三個(gè)phone.在識(shí)別出大致的句子起止和中止點(diǎn)后,利用圖 中的語法結(jié)構(gòu)進(jìn)行強(qiáng)制切分.BG模塊指訓(xùn)練得到的背景模型,而切分中仍然保留傳統(tǒng)完整 的詞切分模型,在之前需要過一個(gè)部分詞模型,可以按照順序任意跳轉(zhuǎn)切分出詞中的單個(gè) Phone,同時(shí),為了識(shí)別慢讀錯(cuò)誤,Phone和Phone之間也有一個(gè)背景模型進(jìn)行連接.
之后,運(yùn)用統(tǒng)計(jì)學(xué)和拓?fù)涞姆椒ㄓ?jì)算Partial Word模型經(jīng)過的次數(shù),跳轉(zhuǎn)的方式 和拓?fù)浣Y(jié)構(gòu),以及在詞內(nèi)部Phone模型跳轉(zhuǎn)和詞間跳轉(zhuǎn)時(shí)BG模型的數(shù)量和分布等指標(biāo),來 確定自我修正,單詞不完整的程度以及慢讀單詞的數(shù)量. 5)拖音(Stalling):指發(fā)音者經(jīng)常對(duì)于某個(gè)單詞的第一個(gè)Phone發(fā)很長(zhǎng)的音。
6)疑問(Questioning Intonation):指發(fā)音者帶著疑問的語調(diào)說出單詞的結(jié)尾, 也反映了其對(duì)于單詞的不確定。在這些Miscues特征中,Stalling和Questioning和總體評(píng)分相關(guān)度很小,而測(cè) 試樣本中這些現(xiàn)象并不多見,所以在本發(fā)明中只提取前4種Miscues特征。
三.流利度模型訓(xùn)練 本發(fā)明的實(shí)施例,在模型訓(xùn)練方面,通過對(duì)特征提取模塊得到的流利度的特征和 評(píng)分專家在考察點(diǎn)上的打分平均值建立對(duì)應(yīng)回歸分析模型;對(duì)評(píng)分專家評(píng)價(jià)出的典型錯(cuò)誤
12樣本進(jìn)行特征分析,訓(xùn)練得到針對(duì)典型錯(cuò)誤流利度的決策樹分類模型;由評(píng)分專家根據(jù)發(fā)
音者的發(fā)音特點(diǎn),對(duì)不同話題的腳本中容易發(fā)生連讀、失去爆破、停頓、重讀或弱讀的詞匯
或短語進(jìn)行標(biāo)記,取多數(shù)專家認(rèn)同的診斷點(diǎn),得到診斷規(guī)則模型。具體步驟如下 1.挑選發(fā)音腳本,統(tǒng)計(jì)各個(gè)候選腳本的各項(xiàng)考察特征,利用特征分布的熵,盡量保
證能夠考察到發(fā)音者在流利度各項(xiàng)高級(jí)技巧充分表現(xiàn)的短語或句群;同時(shí),選取各個(gè)層次
的發(fā)音者進(jìn)行訓(xùn)練樣本錄制,每個(gè)發(fā)音者隨機(jī)錄制多個(gè)腳本,并保存為供訓(xùn)練的錄音文件。 2.所述異常流利度錯(cuò)誤決策樹分類模型,是為了避免非常明顯的錯(cuò)誤(如與主題
無關(guān)錯(cuò)誤),旨在通過的決策樹規(guī)則將評(píng)分診斷容易出錯(cuò)的典型會(huì)話區(qū)分開來。系統(tǒng)對(duì)專家
評(píng)價(jià)出的一些典型錯(cuò)誤樣本進(jìn)行特征分析,訓(xùn)練得到?jīng)Q策樹分類模型,這樣做的目的旨在
消除回歸模型對(duì)特征進(jìn)行擬合得到的分?jǐn)?shù)不能真正反映典型流利度錯(cuò)誤樣本的情況,當(dāng)?shù)?br>
型錯(cuò)誤發(fā)生時(shí),直接得到對(duì)應(yīng)錯(cuò)誤的診斷結(jié)果。其步驟如下 1)選取所有專家評(píng)價(jià)出的典型流利度異常樣本,并對(duì)其進(jìn)行歸類,同時(shí)將流利度 正常和大致正常腳本歸為一類。 2)提取特征并規(guī)一化后,用決策樹訓(xùn)練軟件得到多個(gè)RuleSet組成的流利度決策 樹模型。模型訓(xùn)練中應(yīng)該將流利度正常模型的權(quán)重設(shè)置偏大,以在測(cè)試中使大部分樣本進(jìn) 行流利度回歸模型的測(cè)試。 3.所述流利度回歸分析模型,通過對(duì)特征提取模塊所提取的流利度各項(xiàng)特征和 專家在各項(xiàng)考察點(diǎn)打分平均值建立對(duì)應(yīng)關(guān)系,通過回歸訓(xùn)練得到流利度評(píng)分模型。該回歸 模型可以是多項(xiàng)式線性回歸模型,也可以是支持向量回歸機(jī)(SVR)模型或神經(jīng)網(wǎng)絡(luò)模型 (NN),但是實(shí)際過程中發(fā)現(xiàn)SVR和NN模型雖然得到的評(píng)分和人工評(píng)分相關(guān)度高,但是對(duì)于 一些流利度非常好或者非常差的發(fā)音不能夠得到客觀的反映。故在此我們根據(jù)線性回歸擬 合出分?jǐn)?shù)的特點(diǎn),即8分以上擬合的分?jǐn)?shù)會(huì)比專家打分略低,4分以下擬合的分?jǐn)?shù)會(huì)比專家 打分略高,采用分段線性回歸(Segmental LR)模型。得到考生語速連貫,內(nèi)容理解,高級(jí)技 巧,重構(gòu)上的模型LRModeljk, k = 1,2,3,4 4.所述流利度診斷規(guī)則模型,由專家對(duì)腳本中容易發(fā)生連讀,失去爆破,停頓,重 讀或弱讀的詞匯或短語進(jìn)行標(biāo)記后,取多數(shù)專家認(rèn)同的診斷點(diǎn),得到診斷規(guī)則模型,該模型 用來診斷測(cè)試者在一些高級(jí)流利度技巧上的發(fā)揮。
四.模擬專家評(píng)分和診斷 本發(fā)明的實(shí)施例,所述對(duì)異常流利度錯(cuò)誤的檢測(cè)和流利度評(píng)分、診斷,強(qiáng)調(diào)評(píng)分和 診斷在系統(tǒng)中的結(jié)合,并利用機(jī)器學(xué)習(xí)和數(shù)字信號(hào)處理技術(shù),使得計(jì)算機(jī)評(píng)分和人工評(píng)分 在最大程度上相關(guān),具體步驟如下 步驟51 :對(duì)發(fā)音者發(fā)音文件進(jìn)行語速連貫,內(nèi)容理解,高級(jí)技巧,重構(gòu)等特征的提 取并歸一化,存儲(chǔ)特征。對(duì)于第i個(gè)發(fā)音者朗讀的第j個(gè)腳本,特征文件記為feature^
步驟52 :運(yùn)用第j個(gè)腳本的典型流利度錯(cuò)誤規(guī)則決策樹模型DTModelj,對(duì)特征文 件進(jìn)行測(cè)試;如果落入決策樹的某個(gè)典型錯(cuò)誤分支,則直接給出典型錯(cuò)誤判決結(jié)果,否則, 進(jìn)行步驟3 ; 步驟53 :訓(xùn)練好的第j個(gè)腳本在第k個(gè)考察點(diǎn)的分段流利度回歸模型LRModeljk, k = 1,2,3,4,對(duì)決策樹判別流利度基本正常的發(fā)音進(jìn)行測(cè)試,得到發(fā)音者在流利度語速連 貫,內(nèi)容理解,高級(jí)技巧,重構(gòu)考察點(diǎn)上規(guī)一化到0-10分之間的得分SCorek, k = 1,2,3,4。
13之后,根據(jù)考試需要考察各項(xiàng)指標(biāo)的權(quán)重,得到發(fā)音者在流利度上的總得分St, = Z 5to/^i. w; 步驟54 :將第i個(gè)發(fā)音者在所有腳本發(fā)音流利度的平均分作為其最終流利度得 分;同時(shí),也根據(jù)該發(fā)音者在不同特征上表現(xiàn)的平均值作為其在該診斷項(xiàng)目上的分項(xiàng)得 分; 步驟55 :利用最終流利度得分和分項(xiàng)得分,結(jié)合訓(xùn)練數(shù)據(jù)中對(duì)這一分?jǐn)?shù)段發(fā)音者
會(huì)話流利度總體的客觀評(píng)價(jià),給出該發(fā)音者的診斷報(bào)告,綜合評(píng)價(jià),希望以后的改進(jìn)措施等等。 實(shí)施例l 參照附圖l-6所示 所述流利度自動(dòng)化評(píng)估系統(tǒng)具體實(shí)施如圖1所示,虛線模塊標(biāo)號(hào)對(duì)應(yīng)實(shí)施方式中 1-5個(gè)步驟,圖2是對(duì)步驟1, 2即系統(tǒng)離線部分,包括數(shù)據(jù)準(zhǔn)備和各種模型訓(xùn)練的具體闡述; 圖3是對(duì)步驟4-2中提取發(fā)音內(nèi)容的可接受性特征的具體闡述;圖4是對(duì)步驟4-3中神經(jīng) 網(wǎng)絡(luò)后驗(yàn)概率得分的具體闡述;圖5是對(duì)步驟4-3中重讀和弱讀提取方法的具體闡述;圖6 是對(duì)步驟4-4中重復(fù)和自我修正特征提取中語言模型建立的具體闡述。
1.如圖2所示,收集供訓(xùn)練流利度模型用發(fā)音數(shù)據(jù),其步驟如下
1)挑選發(fā)音腳本,利用腳本中各項(xiàng)特征分布熵,選取能夠考察到發(fā)音者在流利度 各項(xiàng)高級(jí)技巧充分表現(xiàn)的短語或句群。如優(yōu)先考慮對(duì)各個(gè)音素涵蓋全面,既有停頓,又有連 讀,失去爆破等高級(jí)流利度技巧的腳本。 2)挑選發(fā)音人,保證各個(gè)層次,不同性別和年齡人群的均勻分布。如針對(duì)的測(cè)試人 群是學(xué)生,則發(fā)音人群的選取中學(xué)生的比例應(yīng)該占大部分,同時(shí)應(yīng)該盡量選取發(fā)音標(biāo)準(zhǔn)的錄音。 3)制作符合上述要求的錄音工具和標(biāo)注工具,指定人按照發(fā)音文本進(jìn)行錄音。錄 音工具操作應(yīng)該考慮快捷鍵,回放,重錄,時(shí)頻域?qū)崟r(shí)顯示,隨時(shí)更新配置腳本等功能。錄制 過程中,音量一定適中,并保證錄制的發(fā)音清晰而標(biāo)準(zhǔn)。而標(biāo)注工具也應(yīng)該考慮進(jìn)行多項(xiàng)特 征的標(biāo)注,同時(shí)允許多個(gè)專家同時(shí)進(jìn)行標(biāo)注,輸出分?jǐn)?shù)和診斷點(diǎn)結(jié)果。 2.如圖2所示,訓(xùn)練流利度評(píng)測(cè)需要的各項(xiàng)模型。包括異常流利度錯(cuò)誤決策樹模 型,流利度評(píng)分的回歸模型和流利度診斷模型,其具體步驟如下 1)通過對(duì)特征提取模塊得到的流利度各項(xiàng)特征和專家在各項(xiàng)考察點(diǎn)打分平均值 建立對(duì)應(yīng)回歸分析模型。實(shí)施過程中,提取的各項(xiàng)特征要進(jìn)行規(guī)一化,如可以采用均值方差 歸一化方法;在對(duì)應(yīng)回歸分析建模中,采用分段線性回歸模型,每一分?jǐn)?shù)段內(nèi)采用支持向量 回歸機(jī)模型進(jìn)行訓(xùn)練。得到考生語速連貫,內(nèi)容理解,高級(jí)技巧,重構(gòu)上的模型LRModeljk,k =1,2,3,4,其中j代表閱讀或者話題腳本,k代表各項(xiàng)考察點(diǎn)。 2)對(duì)專家評(píng)價(jià)出的一些典型錯(cuò)誤樣本進(jìn)行特征分析,訓(xùn)練得到針對(duì)典型錯(cuò)誤流利 度的決策樹分類模型。如對(duì)于每一個(gè)錄制的發(fā)音,由5個(gè)專家進(jìn)行判斷,當(dāng)3個(gè)或以上專家 判斷為某一種形式的流利度錯(cuò)誤(如太多的自我修正錯(cuò)誤)時(shí),則將這種典型的流利度錯(cuò) 誤樣本挑選出來。訓(xùn)練決策樹模型過程中,可采用數(shù)據(jù)挖掘軟件See5. 0,采用RuleSet決策 形式,通過大量的訓(xùn)練樣本得到判決的RuleSet,而測(cè)試樣本的判決結(jié)果由這些RuleSet的結(jié)果融合決定。 3)由專家對(duì)腳本中容易發(fā)生連讀,失去爆破,停頓,重讀或弱讀的詞匯或短語進(jìn)行標(biāo)記后,取多數(shù)專家認(rèn)同的診斷點(diǎn),得到診斷規(guī)則模型。實(shí)施過程中,有一個(gè)單獨(dú)的診斷規(guī)則模型生成器模塊,生成的模型中不同的高級(jí)特征診斷點(diǎn)由不同的符號(hào)進(jìn)行標(biāo)記。
3.根據(jù)不同話題,配置相應(yīng)參數(shù)的語音識(shí)別系統(tǒng), 1)識(shí)別解碼可以采用劍橋大學(xué)的語音識(shí)別工具HTK (http: 〃htk. eng. cam.
ac. uk)。識(shí)別器同時(shí)輸出每個(gè)詞和音素對(duì)應(yīng)的起止時(shí)間以及對(duì)應(yīng)的可信度。 2)在聲學(xué)模型訓(xùn)練時(shí),使用相同年齡段男女生的標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)及其對(duì)應(yīng)腳本。如
使用大詞匯連續(xù)語音聲學(xué)模型訓(xùn)練平臺(tái)訓(xùn)練得到三音子模型,步驟如下 a.對(duì)每條訓(xùn)練語音提取39維MFCC和一階,二階差分,規(guī)一化能量特征。 b.通過強(qiáng)制對(duì)齊算法和前后向算法估計(jì),得到單音子聲學(xué)模型。 c.通過設(shè)計(jì)決策樹和前后向算法,訓(xùn)練得到三音子聲學(xué)模型。 d.通過區(qū)分度模型訓(xùn)練算法,訓(xùn)練得到具有區(qū)分度信息的三音子。 3)在語言模型訓(xùn)練時(shí),步驟如下 a.對(duì)每個(gè)腳本收集對(duì)應(yīng)詞匯范圍內(nèi)的衍生詞與所有腳本中詞匯訓(xùn)練得到對(duì)應(yīng)的三元語言模型。 b.為了增加腳本外內(nèi)容的識(shí)別兼容性,采用中學(xué)生課本語料訓(xùn)練得到一個(gè)與主題無關(guān)(Garbage)語言模型。 每個(gè)腳本對(duì)應(yīng)語言模型通過與通用語言模型融合得到對(duì)應(yīng)題目的最終語言模型。
4.根據(jù)原始語音和識(shí)別結(jié)果提取流利度各項(xiàng)特征。具體提取四方面特征,步驟如下 1)提取時(shí)間和會(huì)話的流暢性特征,主要包括整體語速,平均語流長(zhǎng),有效停頓比率。 2)提取發(fā)音內(nèi)容的可接受性特征,這項(xiàng)特征的輸入就是語音識(shí)別系統(tǒng)的識(shí)別結(jié)果。分兩種情況來進(jìn)行,l)如果題目為閱讀或者跟讀題型,由于朗讀中有修正現(xiàn)象,故匹配算法采用反向動(dòng)態(tài)規(guī)劃,如圖3所示,首先將識(shí)別結(jié)果和正確腳本做動(dòng)態(tài)規(guī)劃,得到編輯距離矩陣,通過該矩陣統(tǒng)計(jì)出插入,刪除,替換詞匯的比率,之后將這三個(gè)指標(biāo)做加權(quán)平均
SAccept = 0. 6 SIns+0. 2 SDel+0. 2 SSub 同時(shí),為了避免諸如"the, an"等高頻詞在動(dòng)態(tài)規(guī)劃過程中出現(xiàn)錯(cuò)位的匹配,匹配過程中只有連續(xù)兩個(gè)詞同時(shí)和腳本相同才計(jì)入正確,之后計(jì)算正確表達(dá)內(nèi)容所占的比率;2)如果題目為話題簡(jiǎn)述等開放題型,則計(jì)算N-gram命中率加權(quán)得分。 3)提取能夠考察流利度抑揚(yáng)頓挫等高級(jí)特征,主要包括連讀和失去爆破,重讀和弱讀,影響韻律的適當(dāng)停頓等特征,其中重讀和弱讀的提取如圖5所示,這里,通過提取特征,將時(shí)長(zhǎng)模型得分,能量強(qiáng)度模型得分,神經(jīng)網(wǎng)絡(luò)(NN)后驗(yàn)概率得分相融合,利用SVM分類器得到音節(jié)的類別(重讀,次重讀,弱讀),詳細(xì)過程參見說明書重讀和弱讀得分部分。
4)提取自我修正和自我重復(fù)特征,主要包括回溯詞率和自我修正率,單詞不完整和慢讀,其中語言模型建模如圖6所示,詳細(xì)闡述過程見說明書自我修正,單詞不完整和慢讀部分。 最后,統(tǒng)計(jì)各項(xiàng)特征的均值和方差,進(jìn)行歸一化。歸一化的方式要和訓(xùn)練數(shù)據(jù)的歸一化方式相同 5.異常流利度錯(cuò)誤的檢測(cè)和流利度評(píng)分,診斷,具體步驟如下 1)利用步驟4的特征提取方法提取發(fā)音者流利度發(fā)音特征并規(guī)一化,存儲(chǔ)特征,
對(duì)于第i個(gè)發(fā)音者朗讀的第j個(gè)腳本,特征文件記為feature^ 2)運(yùn)用第j個(gè)腳本的典型流利度錯(cuò)誤規(guī)則決策樹模型DTModelj,對(duì)特征文件進(jìn)行 測(cè)試。如果落入決策樹的某個(gè)典型錯(cuò)誤分支,則直接給出判決結(jié)果,否則,視為近似正常流 利度語音.進(jìn)行第3步。 3)運(yùn)用第2步訓(xùn)練好的第j個(gè)腳本的分段流利度回歸模型LRModeljk, k = 1,2, 3, 4,對(duì)決策樹判別流利度基本正常及其以上的發(fā)音進(jìn)行測(cè)試,得到發(fā)音者在流利度語速連 貫,內(nèi)容理解,高級(jí)技巧,重構(gòu)考察點(diǎn)上的分別得分Scorek,k二 1,2,3,4。之后,根據(jù)考試需 要考察各項(xiàng)指標(biāo)的權(quán)重,得到發(fā)音者在流利度上的總得分5tore = Z 5tc^i. Wj 4)將第i個(gè)考生在所有腳本發(fā)音的流利度的平均分作為其最終流利度得分。同
時(shí),也根據(jù)該考生在不同特征上表現(xiàn)的平均值作為其在該診斷項(xiàng)目上的分項(xiàng)得分。 5)利用第4)步得到的結(jié)果,結(jié)合之前對(duì)這一分?jǐn)?shù)段發(fā)音者會(huì)話流利度的客觀評(píng)
價(jià),給出該學(xué)生的診斷報(bào)告。 以上所述,僅為本發(fā)明中的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任 何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在 本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
1權(quán)利要求
一種基于廣義流利的口語流利度自動(dòng)化評(píng)估方法,其特征在于,以下步驟步驟S1利用語音輸入設(shè)備,分不同年齡和口語水平收集語音數(shù)據(jù);步驟S2采用基于廣義流利度的特征和機(jī)器學(xué)習(xí)的方法訓(xùn)練異常流利度錯(cuò)誤決策樹分類模型、流利度評(píng)分回歸分析模型和流利度診斷規(guī)則模型;步驟S3根據(jù)語音數(shù)據(jù)不同話題的腳本和發(fā)音者的性別,配置相應(yīng)參數(shù)的語音識(shí)別系統(tǒng);步驟S4利用對(duì)語音數(shù)據(jù)中語速連貫、內(nèi)容理解、高級(jí)技巧和重構(gòu)標(biāo)特征進(jìn)行量化,計(jì)算機(jī)自動(dòng)從專家評(píng)估角度綜合提取語音數(shù)據(jù)中流利度的特征;步驟S5采用回歸擬合分析和數(shù)據(jù)挖掘中的決策樹方法對(duì)異常流利度錯(cuò)誤的檢測(cè)和流利度評(píng)分、診斷。
2. 根據(jù)權(quán)利要求1所述口語流利度評(píng)估方法,其特征在于,所述提取流利度特征的步 驟如下步驟S41 :利用語音識(shí)別結(jié)果提取會(huì)話的流暢性特征,該流暢性特征為整體語速、句子 語速、平均語流長(zhǎng)、有效停頓比率;步驟S42 :采用動(dòng)態(tài)規(guī)劃提取發(fā)音的內(nèi)容可接受性特征,該可接受性特征為正確表達(dá) 比率、N元語法(N-gram)命中率加權(quán)得分;步驟S43 :采用基于帶回溯和跳轉(zhuǎn)的語言模型詞圖提取能夠考察流利度抑揚(yáng)頓挫的高 級(jí)特征,該高級(jí)特征為連讀和失去爆破、重讀和弱讀以及影響韻律的適當(dāng)停頓特征;步驟S44 :采用正反雙向動(dòng)態(tài)規(guī)劃方法提取錯(cuò)讀或修正特征為回溯詞率和自我修正率。
3. 根據(jù)權(quán)利要求2所述流利度特征的提取方法,其特征在于,所述抑揚(yáng)頓挫高級(jí)技巧 特征的提取,統(tǒng)計(jì)三方面特性l)在恰當(dāng)?shù)脑~匯、句群和段落進(jìn)行適當(dāng)長(zhǎng)度的停頓,2)在影 響表達(dá)感情和意思的重點(diǎn)詞匯上采用重讀或弱讀,3)在某些連詞之間采用連讀(link)和 失去爆破(assimilation),根據(jù)評(píng)分專家標(biāo)注的流利度診斷模型,對(duì)感興趣的詞匯、短語和 句群進(jìn)行特征提取。
4. 根據(jù)權(quán)利要求l所述口語流利度評(píng)估方法,其特征在于所述重構(gòu)特征的提取,統(tǒng)計(jì) 如下特性一是異常停頓和回溯詞率,回溯詞定義為拖延時(shí)間用來使大腦形成重構(gòu)語句的 詞匯,通過在識(shí)別結(jié)果中統(tǒng)計(jì)這些詞的分布得到特征;二是只在閱讀題型中出現(xiàn)的,需要已 知閱讀腳本內(nèi)容這個(gè)先驗(yàn)知識(shí),提取自我修正、不完整單詞性、慢讀、拖音、疑問特征。
5. 根據(jù)權(quán)利要求1所述流利度特征的提取方法,其特征在于,所述內(nèi)容理解特征與廣 義流利度中的可接受性相關(guān),分不同題型來進(jìn)行提?。徊襟ES31 :如果題目為閱讀或者跟讀題型,則匹配算法采用反向動(dòng)態(tài)規(guī)劃,匹配過程中 只有連續(xù)兩個(gè)或兩個(gè)以上的詞與腳本匹配才計(jì)入正確,并計(jì)算正確表達(dá)內(nèi)容所占的比率; 步驟S32 :如果題目為話題簡(jiǎn)述或開放題型,則計(jì)算N-gram命中率加權(quán)得分。
6. 根據(jù)權(quán)利要求1所述的口語流利度評(píng)估方法,其特征在于,所述訓(xùn)練流利度評(píng)測(cè)模 型包括異常流利度錯(cuò)誤決策樹分類模型、流利度評(píng)分的回歸分析模型和流利度診斷規(guī)則 模型;訓(xùn)練流利度各評(píng)測(cè)模型步驟如下步驟S41 :通過對(duì)特征提取模塊得到的流利度的特征和評(píng)分專家在考察點(diǎn)上的打分平 均值建立對(duì)應(yīng)回歸分析模型;步驟S42 :對(duì)評(píng)分專家評(píng)價(jià)出的典型錯(cuò)誤樣本進(jìn)行特征分析,訓(xùn)練得到異常流利度錯(cuò) 誤決策樹分類模型;步驟S43 :由評(píng)分專家根據(jù)發(fā)音者的發(fā)音特點(diǎn),對(duì)不同話題的腳本中容易發(fā)生連讀、失 去爆破、停頓、重讀或弱讀的詞匯或短語進(jìn)行標(biāo)記,取多數(shù)專家認(rèn)同的診斷點(diǎn),得到診斷規(guī) 則模型。
7. 根據(jù)權(quán)利要求6所述的口語流利度評(píng)估方法,其特征在于,所述異常流利度錯(cuò)誤決 策樹分類模型,是強(qiáng)調(diào)語言主題有關(guān)的流暢會(huì)話的可接受性,系統(tǒng)選取容易使評(píng)分診斷出 錯(cuò)的典型會(huì)話進(jìn)行特征提取,通過數(shù)據(jù)挖掘訓(xùn)練工具進(jìn)行訓(xùn)練,建立決策樹分類模型,旨在 通過的決策樹規(guī)則將評(píng)分診斷容易出錯(cuò)的典型會(huì)話區(qū)分開來。
8. 根據(jù)權(quán)利要求1所述的口語流利度評(píng)估方法,其特征在于所述語音識(shí)別系統(tǒng)根據(jù) 不同話題腳本、發(fā)音者性別配置相應(yīng)語言模型和聲學(xué)模型,采用聲學(xué)解碼得到識(shí)別結(jié)果;識(shí) 別器同時(shí)輸出每個(gè)詞和音素對(duì)應(yīng)的起止時(shí)間以及對(duì)應(yīng)的可信度,其中聲學(xué)模型訓(xùn)練步驟如下步驟S31 :使用相同年齡段男女生的標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)及其對(duì)應(yīng)不同話題腳本,對(duì)每條訓(xùn)練語音提取39維梅爾倒譜(MFCC)和一階,二階差分,規(guī)一化能量特征;步驟S32 :通過強(qiáng)制對(duì)齊算法和前后向算法對(duì)各音子對(duì)應(yīng)幀特征進(jìn)行估計(jì),得到單音子聲學(xué)模型;步驟S33 :通過設(shè)計(jì)決策樹和前后向算法,訓(xùn)練得到三音子聲學(xué)模型; 步驟S34 :通過區(qū)分度模型訓(xùn)練算法,訓(xùn)練得到具有區(qū)分度信息的三音子模型; 語言模型訓(xùn)練步驟如下步驟S35 :對(duì)每個(gè)話題腳本收集對(duì)應(yīng)詞匯范圍內(nèi)的各個(gè)衍生詞與腳本中詞匯訓(xùn)練得到 對(duì)應(yīng)的三元語言模型;步驟S36 :為了增加對(duì)話題腳本外內(nèi)容的識(shí)別兼容性,采用大規(guī)模話題無關(guān)語料訓(xùn)練 得到一個(gè)垃圾語言模型(Garbage Model);步驟S37 :每個(gè)話題腳本對(duì)應(yīng)的語言模型通過與通用語言模型融合得到對(duì)應(yīng)題目的最 終語言模型。
9. 根據(jù)權(quán)利要求1所述的口語流利度評(píng)估方法,其特征在于所述對(duì)異常流利度錯(cuò)誤 的檢測(cè)和流利度評(píng)分、診斷,強(qiáng)調(diào)評(píng)分和診斷在系統(tǒng)中的結(jié)合,并利用機(jī)器學(xué)習(xí)和數(shù)字信號(hào)處理技術(shù),使得計(jì)算機(jī)評(píng)分和人工評(píng)分在最大程度上相關(guān),具體步驟如下步驟S51 :利用特征提取方法提取發(fā)音者流利度發(fā)音特征并規(guī)一化,存儲(chǔ)特征,對(duì)于第i個(gè)發(fā)音者朗讀的第j個(gè)腳本,特征文件記為feature ;步驟S52 :運(yùn)用第j個(gè)腳本的典型流利度錯(cuò)誤規(guī)則決策樹模型DTModelj,對(duì)特征文件進(jìn)行測(cè)試;如果落入決策樹的某個(gè)典型錯(cuò)誤分支,則直接給出典型錯(cuò)誤判決結(jié)果,否則,進(jìn)行步驟S53 ;步驟S53 :運(yùn)用訓(xùn)練好的第j個(gè)腳本的分段流利度得分回歸模型LRModeljk, k = 1,2, 3, 4,對(duì)決策樹判別結(jié)果在近似正常以上閾值的發(fā)音進(jìn)行測(cè)試,分別得到發(fā)音者在流利度語 速連貫、內(nèi)容理解、高級(jí)技巧和重構(gòu)考察點(diǎn)上的得分Scores k = 1,2,3,4 ;再根據(jù)考試需要 考察指標(biāo)的權(quán)重,通過加權(quán)和得到發(fā)音者在流利度上的總得分;步驟S54 :將第i個(gè)發(fā)音者在所有腳本發(fā)音流利度的平均分作為其最終流利度得分;同時(shí),也根據(jù)該發(fā)音者在不同特征上表現(xiàn)的平均值作為其在該診斷項(xiàng)目上的分項(xiàng)得分;步驟S55 :利用最終流利度得分和分項(xiàng)得分,結(jié)合訓(xùn)練數(shù)據(jù)中對(duì)這一分?jǐn)?shù)段發(fā)音者會(huì) 話流利度總體的客觀評(píng)價(jià),給出該發(fā)音者的診斷報(bào)告。
全文摘要
本發(fā)明為基于廣義流利的口語流利度自動(dòng)化評(píng)估方法,包括利用語音輸入設(shè)備,分不同年齡和口語水平收集語音數(shù)據(jù);采用基于廣義流利度的特征和機(jī)器學(xué)習(xí)訓(xùn)練流利度評(píng)測(cè)模型;根據(jù)語音數(shù)據(jù)不同話題的腳本和發(fā)音者的性別,配置相應(yīng)參數(shù)的語音識(shí)別系統(tǒng);利用對(duì)語音數(shù)據(jù)中語速連貫、內(nèi)容理解、高級(jí)技巧和重構(gòu)標(biāo)特征進(jìn)行量化,從專家評(píng)估角度綜合提取語音數(shù)據(jù)中流利度的特征;采用回歸擬合分析和數(shù)據(jù)挖掘中的決策樹方法對(duì)異常流利度錯(cuò)誤的檢測(cè)和流利度評(píng)分、診斷。得到的機(jī)器流利度分?jǐn)?shù)可以達(dá)到與評(píng)分專家接近的水平,在相關(guān)度指標(biāo)上超過一般5個(gè)專家中的2-3個(gè);速度快,可以嵌入到口語自動(dòng)化評(píng)分系統(tǒng)中,作為重要模塊評(píng)測(cè)發(fā)音質(zhì)量中流利度指標(biāo)。
文檔編號(hào)G10L15/00GK101740024SQ20081022667
公開日2010年6月16日 申請(qǐng)日期2008年11月19日 優(yōu)先權(quán)日2008年11月19日
發(fā)明者徐波, 李鵬, 梁家恩, 王士進(jìn), 高鵬, 黃申 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所