一種智能口語(yǔ)測(cè)評(píng)方法與流程

文檔序號(hào)：12128429閱讀：446來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語(yǔ)言溝通領(lǐng)域，尤其涉及一種智能口語(yǔ)測(cè)評(píng)方法。

背景技術(shù)：

隨著全球經(jīng)濟(jì)一體化的發(fā)展，英語(yǔ)作為國(guó)際通用語(yǔ)言，越來(lái)越顯示出其重要的作用。商務(wù)往來(lái)、文化交流、跨國(guó)旅游等活動(dòng)日益頻繁，越來(lái)越多的人需要學(xué)習(xí)一門外語(yǔ)，這樣口語(yǔ)交際能力的提高已經(jīng)成為了外語(yǔ)學(xué)習(xí)的迫切需求。如何提高外語(yǔ)的學(xué)習(xí)效果，更好地滿足用戶對(duì)外語(yǔ)學(xué)習(xí)的需求，已經(jīng)成為目前亟待解決的問(wèn)題。

技術(shù)實(shí)現(xiàn)要素：

為了克服上述現(xiàn)有技術(shù)中的不足，本發(fā)明的目的在于，提供一種智能口語(yǔ)測(cè)評(píng)方法，方法包括：

S1：使用計(jì)算機(jī)的錄音設(shè)備獲取用戶的口語(yǔ)語(yǔ)音數(shù)據(jù)信息，提取用戶語(yǔ)音數(shù)據(jù)中的用戶語(yǔ)音特征；

S2：將用戶語(yǔ)音特征與標(biāo)準(zhǔn)語(yǔ)音特征進(jìn)行對(duì)齊，并將用戶語(yǔ)音特征中的母音，輔音分別對(duì)應(yīng)與標(biāo)準(zhǔn)語(yǔ)音特征的母音，輔音進(jìn)行對(duì)比，形成對(duì)比數(shù)據(jù)信息；

S3：將對(duì)比數(shù)據(jù)信息進(jìn)行評(píng)分；

S4：將對(duì)比數(shù)據(jù)信息及評(píng)分結(jié)果儲(chǔ)存至數(shù)據(jù)庫(kù)中。

優(yōu)選地，步驟S1之前還包括：設(shè)置標(biāo)準(zhǔn)朗讀文本，獲取標(biāo)準(zhǔn)朗讀文本的標(biāo)準(zhǔn)語(yǔ)音特征；

將標(biāo)準(zhǔn)語(yǔ)音特征按時(shí)間進(jìn)行分段，分為n段，以20ms為一時(shí)間分段；

將每一時(shí)間段標(biāo)準(zhǔn)語(yǔ)音特征分為靜態(tài)特征及動(dòng)態(tài)特征；

將每一時(shí)間段標(biāo)準(zhǔn)語(yǔ)音特征的頻譜能量進(jìn)行分解，分解出每一時(shí)間段標(biāo)準(zhǔn)語(yǔ)音特征的母音節(jié)的頻譜能量分布以及輔音節(jié)的頻譜能量分布；

設(shè)置每一時(shí)間段內(nèi)標(biāo)準(zhǔn)語(yǔ)音特征的母音節(jié)MFCC特征向量，輔音節(jié)MFCC特征向量；

將每一時(shí)間段內(nèi)標(biāo)準(zhǔn)語(yǔ)音特征的母音節(jié)MFCC特征向量，輔音節(jié)MFCC特征向量?jī)?chǔ)存至數(shù)據(jù)庫(kù)中。

優(yōu)選地，步驟S1還包括：

S11將用戶語(yǔ)音數(shù)據(jù)按時(shí)間進(jìn)行分段，分為n段，以20ms為一時(shí)間分段，對(duì)每一時(shí)間段用戶語(yǔ)音數(shù)據(jù)加矩形窗，或漢明窗處理得到分段語(yǔ)音信號(hào)X_n，n為分段數(shù)；

S12對(duì)分段語(yǔ)音信號(hào)X_n進(jìn)行短時(shí)傅里葉變換，變換為頻域信號(hào)，將短時(shí)時(shí)域信號(hào)轉(zhuǎn)化為頻域信號(hào)Y_n，并通過(guò)Q_n＝│Y_n│²計(jì)算其短時(shí)能量譜Q_n；

S13采用先進(jìn)先出的方式將短時(shí)能量譜Q_n從矢量空間S移動(dòng)至帶通濾波器進(jìn)行濾波；由于每一個(gè)頻帶中分量的作用在人耳中是疊加的，因此將每個(gè)濾波器頻帶內(nèi)的能量進(jìn)行疊加，這時(shí)第k個(gè)濾波器輸出功率譜x'(k)；

S14將每個(gè)濾波器的輸出取對(duì)數(shù)，得到相應(yīng)頻帶的對(duì)數(shù)功率譜；并進(jìn)行反離散余弦變換，得到M個(gè)MFCC系數(shù)，一般M取13～15個(gè)；MFCC系數(shù)為：

S15將得到的每一時(shí)間段的用戶語(yǔ)音MFCC特征作為靜態(tài)特征，再將所述靜態(tài)特征做一階和二階差分，得到相應(yīng)的動(dòng)態(tài)特征。

優(yōu)選地，步驟S1還包括：

獲取每一語(yǔ)音段頻率范圍的頻譜能量(f_k)，該語(yǔ)音段內(nèi)的頻率上限值k₁,下限值k₂，獲取語(yǔ)音段內(nèi)的頻譜能量比值PN_n；

優(yōu)選地，步驟S1還包括：

若語(yǔ)音段內(nèi)頻譜能量(f_k)≥第一閾值，該語(yǔ)音段內(nèi)頻譜能量比值PN_n≥第二閾值，則判斷此語(yǔ)音段為母音節(jié)；第一閾值0.1-0.5，第二閾值取60％-85％；

以具有母音節(jié)的頻譜能量為基準(zhǔn)，判斷具有母音節(jié)的頻譜能量之前的頻譜能量的過(guò)零率是否大于第三閾值，若大于第三閾值，則斷定該頻譜能量為母音前的輔音節(jié)，第三閾值取100；

以具有母音節(jié)的頻譜能量為基準(zhǔn)，判斷具有母音節(jié)的頻譜能量之后的頻譜能量的過(guò)零率是否大于第三閾值，若大于第三閾值，則判斷該頻譜能量為母音后的輔音；

若具有母音節(jié)的頻譜能量之后的頻譜能量的過(guò)零率大于第三閾值，且該頻譜能量為語(yǔ)音段的最后一幀，則判斷為鼻尾輔音。

優(yōu)選地，步驟S2還包括：

設(shè)置每一時(shí)間段內(nèi)用戶語(yǔ)音特征的母音節(jié)MFCC特征向量，輔音節(jié)MFCC特征向量；

使用DTW算法，得到一條誤差最小的對(duì)齊路徑以，得到一條誤差最小的對(duì)齊路徑和對(duì)應(yīng)的DTW距離；

基于該對(duì)齊路徑和對(duì)應(yīng)的DTW距離，將相同時(shí)間段內(nèi)用戶語(yǔ)音特征的母音節(jié)MFCC特征向量與標(biāo)準(zhǔn)語(yǔ)音特征的母音節(jié)MFCC特征向量進(jìn)行語(yǔ)音比較以及將相同時(shí)間段內(nèi)用戶語(yǔ)音特征的輔音節(jié)MFCC特征向量與標(biāo)準(zhǔn)語(yǔ)音特征的輔音節(jié)MFCC特征向量進(jìn)行語(yǔ)音比較，得出用戶語(yǔ)音特征與標(biāo)準(zhǔn)語(yǔ)音特征之間的發(fā)音差別。

優(yōu)選地，步驟S2還包括：

設(shè)置每一時(shí)間段內(nèi)標(biāo)準(zhǔn)語(yǔ)音特征的母音節(jié)標(biāo)準(zhǔn)語(yǔ)音特征向量為P₁＝[p₁(1),p₁(2),…,p₁(R)]，一階差分向量為P_Δ1＝[p_Δ1(1),p_Δ1(2),…,p_Δ1(R)](R為標(biāo)準(zhǔn)語(yǔ)音特征的母音節(jié)語(yǔ)音長(zhǎng)度)，P_Δ1(n)＝|p₁(n)-p₁(n-1)|,n＝1,2,…,R,p₁(0)＝0；

設(shè)置每一時(shí)間段內(nèi)標(biāo)準(zhǔn)語(yǔ)音特征的輔音節(jié)標(biāo)準(zhǔn)語(yǔ)音特征向量為P’₁＝[p’₁(1)，p’₁(2)，…，p’₁(R)]，一階差分向量為P’_Δ1＝[p’_Δ1(1)，p’_Δ1(2)，…，p’_Δ1(R)](R為標(biāo)準(zhǔn)語(yǔ)音特征的語(yǔ)音長(zhǎng)度)，P’_Δ1(n)＝|p’₁(n)-p’₁(n-1)|，n＝1，2，…，R，p’₁(0)＝0；

優(yōu)選地，步驟S2還包括：

設(shè)置每一時(shí)間段內(nèi)用戶語(yǔ)音特征的母音節(jié)特征向量為P₂＝[p₂(1),p₂(2),…,p₂(T)]，其一階差分向量為P_Δ2＝[p_Δ2(1),p_Δ2(2),…,p_Δ2(T)](T為待評(píng)價(jià)語(yǔ)音的長(zhǎng)度)，P_Δ2(n)＝|p₂(n)-p₂(n-1)|,n＝1,2,…,T,p₂(0)＝0；

設(shè)置每一時(shí)間段內(nèi)用戶語(yǔ)音特征的輔音節(jié)特征向量為P’₂＝[p’₂(1)，p’₂(2)，…，p’₂(T)]，其一階差分向量為P’_Δ2＝[p’_Δ2(1)，p’_Δ2(2)，…，p’_Δ2(T)](T為待評(píng)價(jià)語(yǔ)音的長(zhǎng)度)，

P’_Δ2(n)＝|p’₂(n)-p’₂(n-1)|，n＝1，2，…，T，p’₂(0)＝0；

使用DTW算法，得到一條誤差最小的對(duì)齊路徑以，得到一條誤差最小的對(duì)齊路徑，進(jìn)行每一時(shí)間段內(nèi)的母音節(jié)和輔音節(jié)比較；

比較得出母音節(jié)的差距d_p，以及變化量的差距Δd_p，比較得出輔音節(jié)的差距d’_p，以及變化量的差距Δd’_p，來(lái)獲得用戶語(yǔ)音特征與標(biāo)準(zhǔn)語(yǔ)音特征的相似度，即：

d_p＝|p₁(n)-p₂(m)|

d’_p＝|p’₁(n)-p’₂(m)|

Δd_p＝|Δp₁(n)-Δp₂(m)|

Δd’_p＝|Δp’₁(n)-Δp’₂(m)|

其中，Δp_i(n)＝|p_i(n)-p_i(n-1)|

Δp’_i(n)＝|p’_i(n)-p’_i(n-1)|。

優(yōu)選地，步驟S3還包括：評(píng)分s為：

s＝ω1(ω11s11+ω12s12+……+ω1js1j)+ω2(ω21s21+ω22s22+……+ω2js2j)+……+ωn(ωn1sn1+ωn2sn2+……+ωnjsnj)

其中，ω1，ω2，ωn分別代表每一語(yǔ)音段的權(quán)重；

j代表每一語(yǔ)音段內(nèi)母音節(jié)加輔音節(jié)的總數(shù)量；

ω11，ω12……ω1j分別代表第一個(gè)語(yǔ)音段內(nèi)音節(jié)的權(quán)重；

s11，s12……+s1j，代表第一個(gè)語(yǔ)音段內(nèi)的各個(gè)音節(jié)；

ω21，ω22……ω2j分別代表第二個(gè)語(yǔ)音段內(nèi)音節(jié)的權(quán)重；

s21，s22……+s2j，代表第二個(gè)語(yǔ)音段內(nèi)的各個(gè)音節(jié)；

ωn1，ωn2……ωnj分別代表第n個(gè)語(yǔ)音段內(nèi)音節(jié)的權(quán)重；

sn1，sn2……+snj，代表第n個(gè)語(yǔ)音段內(nèi)的各個(gè)音節(jié)。

從以上技術(shù)方案可以看出，本發(fā)明具有以下優(yōu)點(diǎn)：

智能口語(yǔ)測(cè)評(píng)方法使得用戶與計(jì)算機(jī)獲取同樣的一片文本，進(jìn)行朗讀對(duì)比，使用戶能夠獲悉到自己的口語(yǔ)與標(biāo)準(zhǔn)的口語(yǔ)有哪些詞語(yǔ)發(fā)音不準(zhǔn)確，還需要在哪些詞語(yǔ)進(jìn)行改進(jìn)及進(jìn)一步學(xué)習(xí)。這樣給學(xué)習(xí)者帶來(lái)了學(xué)習(xí)語(yǔ)言的便捷性，提高外語(yǔ)學(xué)習(xí)的效率，增加用戶學(xué)習(xí)興趣。

附圖說(shuō)明

圖1為智能口語(yǔ)測(cè)評(píng)方法的流程圖。

具體實(shí)施方式

為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點(diǎn)能夠更加的明顯和易懂，下面將運(yùn)用具體的實(shí)施例及附圖，對(duì)本發(fā)明保護(hù)的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，下面所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而非全部的實(shí)施例?；诒緦＠械膶?shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例，都屬于本專利保護(hù)的范圍。

本發(fā)明提供一種智能口語(yǔ)測(cè)評(píng)方法，如圖1所示，本方法采用一標(biāo)準(zhǔn)朗讀文本，計(jì)算機(jī)先獲取該標(biāo)準(zhǔn)朗讀文本的內(nèi)容，并獲取標(biāo)準(zhǔn)朗讀文本的標(biāo)準(zhǔn)讀音。本發(fā)明所涉及的方法是基于計(jì)算機(jī)硬件配合相應(yīng)的程序?qū)崿F(xiàn)。這樣用戶與計(jì)算機(jī)獲取同樣的一片文本，進(jìn)行朗讀對(duì)比，使得用戶能夠獲悉到自己的口語(yǔ)與標(biāo)準(zhǔn)的口語(yǔ)有哪些詞語(yǔ)發(fā)音不準(zhǔn)確，還需要在哪些詞語(yǔ)進(jìn)行改進(jìn)及進(jìn)一步學(xué)習(xí)。這樣給學(xué)習(xí)者帶來(lái)了學(xué)習(xí)語(yǔ)言的便捷性，提高外語(yǔ)學(xué)習(xí)的效率，增加用戶學(xué)習(xí)興趣。

方法包括：

S1：使用計(jì)算機(jī)的錄音設(shè)備獲取用戶的口語(yǔ)語(yǔ)音數(shù)據(jù)信息，提取用戶語(yǔ)音數(shù)據(jù)中的用戶語(yǔ)音特征；

S3：將對(duì)比數(shù)據(jù)信息進(jìn)行評(píng)分；

S4：將對(duì)比數(shù)據(jù)信息及評(píng)分結(jié)果儲(chǔ)存至數(shù)據(jù)庫(kù)中。

步驟S1之前還包括：設(shè)置標(biāo)準(zhǔn)朗讀文本，獲取標(biāo)準(zhǔn)朗讀文本的標(biāo)準(zhǔn)語(yǔ)音特征；

將標(biāo)準(zhǔn)語(yǔ)音特征按時(shí)間進(jìn)行分段，分為n段，以20ms為一時(shí)間分段；

將每一時(shí)間段標(biāo)準(zhǔn)語(yǔ)音特征分為靜態(tài)特征及動(dòng)態(tài)特征；

設(shè)置每一時(shí)間段內(nèi)標(biāo)準(zhǔn)語(yǔ)音特征的母音節(jié)MFCC特征向量，輔音節(jié)MFCC特征向量；

將每一時(shí)間段內(nèi)標(biāo)準(zhǔn)語(yǔ)音特征的母音節(jié)MFCC特征向量，輔音節(jié)MFCC特征向量?jī)?chǔ)存至數(shù)據(jù)庫(kù)中。

步驟S1還包括：

本實(shí)施例中，步驟S1還包括：

獲取每一語(yǔ)音段頻率范圍的頻譜能量(f_k)，該語(yǔ)音段內(nèi)的頻率上限值k₁,下限值k₂，獲取語(yǔ)音段內(nèi)的頻譜能量比值PN_n；

步驟S1還包括：

以具有母音節(jié)的頻譜能量為基準(zhǔn)，判斷具有母音節(jié)的頻譜能量之前的頻譜能量的過(guò)零率是否大于第三閾值，若大于第三閾值，則斷定該頻譜能量為母音前的輔音，第三閾值取100；

若具有母音節(jié)的頻譜能量之后的頻譜能量的過(guò)零率大于第三閾值，且該頻譜能量為語(yǔ)音段的最后一幀，則判斷為鼻尾輔音。

將用戶的每一語(yǔ)音段進(jìn)行分解得出母音節(jié)，輔音節(jié)以及在語(yǔ)音段的最后一幀是否有鼻尾輔音，鼻尾輔音即為鼻音。

在計(jì)算機(jī)預(yù)先設(shè)置了標(biāo)準(zhǔn)朗讀文本中每一語(yǔ)音段的母音節(jié)，輔音節(jié)以及在語(yǔ)音段的最后一幀是否有鼻尾輔音，鼻尾輔音即為鼻音。將用戶朗讀的每一語(yǔ)音段的母音節(jié)，輔音節(jié)以及在語(yǔ)音段的最后一幀的鼻尾輔音，分別與標(biāo)準(zhǔn)語(yǔ)音特征進(jìn)行比較。

本實(shí)施例中，步驟S2還包括：

設(shè)置每一時(shí)間段內(nèi)用戶語(yǔ)音特征的母音節(jié)MFCC特征向量，輔音節(jié)MFCC特征向量；

使用DTW算法，得到一條誤差最小的對(duì)齊路徑以，得到一條誤差最小的對(duì)齊路徑和對(duì)應(yīng)的DTW距離；

本實(shí)施例中，步驟S2還包括：

步驟S2還包括：

P’_Δ2(n)＝|p’₂(n)-p’₂(n-1)|，n＝1，2，…，T，p’₂(0)＝0；

d_p＝|p₁(n)-p₂(m)|

d’_p＝|p’₁(n)-p’₂(m)|

Δd_p＝|Δp₁(n)-Δp₂(m)|

Δd’_p＝|Δp’₁(n)-Δp’₂(m)|

其中，Δp_i(n)＝|p_i(n)-p_i(n-1)|

Δp’_i(n)＝|p’_i(n)-p’_i(n-1)|。

步驟S3還包括：評(píng)分s為：

s＝ω1(ω11s11+ω12s12+……+ω1js1j)+ω2(ω21s21+ω22s22+……+ω2js2j)+……+ωn(ωn1sn1+ωn2sn2+……+ωnjsnj)

其中，ω1，ω2，ωn分別代表每一語(yǔ)音段的權(quán)重；

j代表每一語(yǔ)音段內(nèi)母音節(jié)加輔音節(jié)的總數(shù)量；

ω11，ω12……ω1j分別代表第一個(gè)語(yǔ)音段內(nèi)音節(jié)的權(quán)重；

s11，s12……+s1j，代表第一個(gè)語(yǔ)音段內(nèi)的各個(gè)音節(jié)；

在第一個(gè)語(yǔ)音段內(nèi)如果第一個(gè)音節(jié)是輔音節(jié)則s11為輔音節(jié)，如果第一個(gè)音節(jié)是母音節(jié)則s11為母音節(jié)；如果第一個(gè)音節(jié)是輔音節(jié)則s12為輔音節(jié)，如果第一個(gè)音節(jié)是母音節(jié)則s12為母音節(jié)；每一個(gè)語(yǔ)音段以此類推。

ω21，ω22……ω2j分別代表第二個(gè)語(yǔ)音段內(nèi)音節(jié)的權(quán)重；

s21，s22……+s2j，代表第二個(gè)語(yǔ)音段內(nèi)的各個(gè)音節(jié)；

ωn1，ωn2……ωnj分別代表第n個(gè)語(yǔ)音段內(nèi)音節(jié)的權(quán)重；

sn1，sn2……+snj，代表第n個(gè)語(yǔ)音段內(nèi)的各個(gè)音節(jié)。

各個(gè)權(quán)重參數(shù)，是經(jīng)由大量的實(shí)驗(yàn)得出，也可以由每一語(yǔ)音段的權(quán)重比例分配得知。也可以根據(jù)每一語(yǔ)音段對(duì)于文本的重要性設(shè)定。也可以由研發(fā)人員基于大量實(shí)驗(yàn)后得出最佳效果進(jìn)行設(shè)定。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：潘奕君;
技術(shù)所有人：潘奕君;
我是此專利的發(fā)明人

上一篇：大型立式廣告標(biāo)示牌裝置的制作方法
上一篇：聲學(xué)回聲評(píng)估系統(tǒng)及方法與流程

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種智能口語(yǔ)測(cè)評(píng)方法與流程