国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法

      文檔序號(hào):2831156閱讀:315來源:國(guó)知局
      專利名稱:基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語(yǔ)音識(shí)別和多系統(tǒng)融合技術(shù)在發(fā)音質(zhì)量評(píng)估和發(fā)音錯(cuò)誤檢測(cè)上的應(yīng)
      用技術(shù)領(lǐng)域,具體涉及一種基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法。
      背景技術(shù)
      目前,國(guó)內(nèi)英語(yǔ)口語(yǔ)考試仍采用人工評(píng)價(jià)形式,由于需要在短時(shí)間內(nèi)對(duì)大量考生 進(jìn)行測(cè)試,其考務(wù)組織繁重,測(cè)試成本高,且效率低下,同時(shí)人工評(píng)判的主觀性較強(qiáng),很難保 證考試的客觀公正性。利用計(jì)算機(jī)技術(shù)對(duì)發(fā)音質(zhì)量和發(fā)音錯(cuò)誤進(jìn)行自動(dòng)評(píng)估和檢測(cè)可以有 效彌補(bǔ)人工評(píng)價(jià)手段的不足,并可以為語(yǔ)言輔助教學(xué)提供巨大幫助。 現(xiàn)有的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法普遍依賴于語(yǔ)音識(shí)別的后驗(yàn)概率,并且使用 單一的特征或方法進(jìn)行評(píng)檢。模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域的大量理論和實(shí)踐都表明,單一的 特征和方法很難進(jìn)一步提高系統(tǒng)性能,而使用多種特征并對(duì)多個(gè)系統(tǒng)進(jìn)行信息融合可以充 分發(fā)揮不同特征和方法的優(yōu)勢(shì),取得單一特征和系統(tǒng)難以達(dá)到的效果。

      發(fā)明內(nèi)容
      ( — )要解決的技術(shù)問題 有鑒于此,針對(duì)現(xiàn)有技術(shù)使用單一特征和方法進(jìn)行發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)的不 足,本發(fā)明的主要目的在于提供一種基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè) 方法,以有效利用多種語(yǔ)音特征,充分使用多種評(píng)估和檢測(cè)系統(tǒng)并進(jìn)行信息融合,從而在最 大程度上發(fā)揮各種特征和系統(tǒng)的優(yōu)勢(shì),保證發(fā)音評(píng)估和檢錯(cuò)的準(zhǔn)確性和可靠性。
      ( 二 )技術(shù)方案 為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案如下 —種基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,該方法利用多種
      特征參數(shù)描述發(fā)音質(zhì)量并使用多種評(píng)檢系統(tǒng)相互融合的方法對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)估和錯(cuò)誤
      檢測(cè),包括以下步驟 語(yǔ)音識(shí)別及其自動(dòng)切分對(duì)齊; 提取用于發(fā)音質(zhì)量評(píng)估和檢錯(cuò)的特征參數(shù); 獲取發(fā)音質(zhì)量評(píng)估和檢錯(cuò)模型訓(xùn)練數(shù)據(jù); 訓(xùn)練多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng); 多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng)的融合;以及 對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)估和對(duì)發(fā)音錯(cuò)誤進(jìn)行檢測(cè)。 上述方案中,所述語(yǔ)音識(shí)別及其自動(dòng)切分對(duì)齊的步驟,具體包括 收集發(fā)音語(yǔ)料,并對(duì)收集的發(fā)音語(yǔ)料進(jìn)行詞和音素級(jí)的人工標(biāo)注; 利用收集的發(fā)音語(yǔ)料訓(xùn)練語(yǔ)音識(shí)別和切分對(duì)齊需要的發(fā)音模型; 在具備發(fā)音模型、發(fā)音變異詞典、內(nèi)容腳本以及相應(yīng)的語(yǔ)言模型的基礎(chǔ)上,使用語(yǔ)
      音識(shí)別和自動(dòng)切分引擎,對(duì)輸入語(yǔ)音進(jìn)行識(shí)別并輸出詞級(jí)和音素級(jí)的對(duì)齊信息。
      上述方案中,所述發(fā)音變異詞典是根據(jù)不同地域的語(yǔ)言背景和特點(diǎn)考慮其特定的 發(fā)音變異情況而形成的詞典,所述語(yǔ)言模型是在對(duì)應(yīng)的內(nèi)容腳本的基礎(chǔ)上生成的限制性語(yǔ) 言約束關(guān)系。 上述方案中,所述提取用于發(fā)音質(zhì)量評(píng)估和檢錯(cuò)的特征參數(shù)的步驟,具體包括
      提取語(yǔ)音幀的PLP、 Pitch和Formant特征,并將音素邊界內(nèi)所有幀的PLP、 Pitch 和Formant特征作為G匪評(píng)檢系統(tǒng)的特征; 將語(yǔ)音幀的PLP、Pitch和Formant特征轉(zhuǎn)換為GLDS特征,并將音素邊界內(nèi)所有幀 的GLDS特征作為SVM評(píng)檢系統(tǒng)的特征; 提取語(yǔ)音幀的TRAP特征,并將詞匯邊界內(nèi)所有幀的TRAP特征作為MLP評(píng)檢系統(tǒng) 的特征。 上述方案中,所述提取語(yǔ)音幀的PLP、 Pitch和Formant特征之后,進(jìn)一步包括對(duì) 提取的Pitch (即FO)和Formant特征進(jìn)行規(guī)一化,F(xiàn)ormant取Fl、 F2和F3,同時(shí)提供F0、 Fl、 F2和F3的一階和二階差分參數(shù)。 上述方案中,所述獲取發(fā)音質(zhì)量評(píng)估和檢錯(cuò)模型訓(xùn)練數(shù)據(jù)的步驟,具體包括
      利用收集的標(biāo)準(zhǔn)發(fā)音語(yǔ)料及其人工標(biāo)注,通過語(yǔ)音識(shí)別和切分對(duì)齊分別得到各音 素的語(yǔ)音樣本,以此作為訓(xùn)練各音素G匪模型的數(shù)據(jù); 利用收集的標(biāo)準(zhǔn)發(fā)音語(yǔ)料及其人工標(biāo)注,通過語(yǔ)音識(shí)別和切分對(duì)齊分別得到各音 素的語(yǔ)音樣本,將當(dāng)前音素的樣本作為正樣本,其他音素的樣本作為當(dāng)前音素的負(fù)樣本,以 各音素對(duì)應(yīng)的正負(fù)樣本作為訓(xùn)練各音素SVM模型的數(shù)據(jù); 利用收集的標(biāo)準(zhǔn)發(fā)音語(yǔ)料及其人工標(biāo)注,通過語(yǔ)音識(shí)別和切分對(duì)齊得到語(yǔ)音樣本 和標(biāo)注結(jié)果的對(duì)應(yīng)關(guān)系,以此作為訓(xùn)練MLP模型的數(shù)據(jù)。 上述方案中,所述將當(dāng)前音素的樣本作為正樣本,其他音素的樣本作為當(dāng)前音素 的負(fù)樣本,具體包括 對(duì)于英文,元音和輔音分開,元音的其他音素只針對(duì)元音,輔音的其他音素只針對(duì) 輔音; 對(duì)于中文,聲母和韻母分開,聲母的其他音素只針對(duì)聲母,韻母的其他音素只針對(duì) 韻母。 上述方案中,所述在訓(xùn)練各音素SVM模型時(shí),所需要的負(fù)樣本由發(fā)音錯(cuò)誤樣本構(gòu)
      成,或者使用將除了當(dāng)前音素以外的其他音素的樣本作為當(dāng)前音素負(fù)樣本的策略。 上述方案中,所述訓(xùn)練多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng)的步驟,具體包括 訓(xùn)練G匪評(píng)檢模型; 訓(xùn)練SVM評(píng)檢模型;以及 訓(xùn)練MLP評(píng)檢模型。 上述方案中,所述訓(xùn)練G匪評(píng)檢模型,具體包括 針對(duì)英文,利用所有元輔音的訓(xùn)練樣本訓(xùn)練得到自身獨(dú)立的通用背景模型,然后
      再利用每個(gè)音素的樣本分別在該通用背景模型基礎(chǔ)上訓(xùn)練得到相應(yīng)的G匪模型; 針對(duì)中文,利用所有聲韻母的訓(xùn)練樣本訓(xùn)練得到自身獨(dú)立的通用背景模型,然后
      再利用每個(gè)音素的樣本分別在該通用背景模型基礎(chǔ)上訓(xùn)練得到相應(yīng)的G匪模型。 上述方案中,所述訓(xùn)練SVM評(píng)檢模型,具體包括SVM訓(xùn)練的正負(fù)樣本比例保持在i : l左右,使用多項(xiàng)式映射、最小均方誤差準(zhǔn)則算法和廣義線性判別序列核函數(shù),訓(xùn)練svM
      評(píng)檢模型。 上述方案中,在訓(xùn)練SVM模型時(shí),為每個(gè)音素隨機(jī)提供多套負(fù)樣本數(shù)據(jù),即使用 SVM訓(xùn)練工具為每個(gè)音素訓(xùn)練多個(gè)SVM模型,并以多個(gè)SVM模型的平均模型作為音素的最 終SVM模型;當(dāng)某個(gè)音素的正樣本較少時(shí),通過鄰近類別音素合并的手段降低數(shù)據(jù)量不足 對(duì)SVM模型精度的影響。 上述方案中,所述訓(xùn)練MLP評(píng)檢模型,具體包括利用語(yǔ)音樣本和對(duì)應(yīng)的標(biāo)注結(jié) 果,使用MLP訓(xùn)練工具訓(xùn)練得到統(tǒng)一的MLP模型。 上述方案中,所述多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng)的融合的步驟,具體包括
      1)、利用G匪模型計(jì)算當(dāng)前音素的GOP得分,記為score,; 2)、將當(dāng)前音素的GLDS特征送入對(duì)應(yīng)的SVM模型得到其SVM得分,記為score,;
      3)、將當(dāng)前詞所有幀的TRAP特征送入MLP模型后得到各音素的MLP得分,記為 scoremlp ; 4)、將scoregmm、 scoresvm和scoremlp變換到統(tǒng)一的得分域; 5)、當(dāng)前音素的最終置信度得分為score = wg_ 'score^+Ws^ 'scoresvm+w一 'scor
      emlp,其中wgmm、wsvm和wmlp為G匪、SVM和MLP方法的權(quán)重,根據(jù)實(shí)際情況或?qū)W習(xí)樣本庫(kù)進(jìn)行設(shè)置。 上述方案中,步驟1)中所述計(jì)算當(dāng)前音素的GOP得分,是將當(dāng)前音素在自身G匪
      模型上的對(duì)數(shù)概率減去在所有G匪模型上的對(duì)數(shù)概率之和。 上述方案中,所述在計(jì)算當(dāng)前音素的GOP得分的過程中,具體包括 對(duì)于英文,元音的所有G匪模型只計(jì)算元音,輔音的所有G匪模型只計(jì)算輔音; 對(duì)于中文,聲母的所有G匪模型只計(jì)算聲母,韻母的所有G匪模型只計(jì)算韻母。 上述方案中,步驟2)中所述SVM得分的計(jì)算方法是,直接通過GLDS特征與SVM模
      型進(jìn)行內(nèi)積運(yùn)算獲得。 上述方案中,步驟3)中所述MLP得分的計(jì)算方法是,對(duì)當(dāng)前詞所有幀的MLP輸出
      值進(jìn)行動(dòng)態(tài)規(guī)劃,以最佳路徑回溯規(guī)整得到的平均得分作為各音素的MLP得分。 上述方案中,所述對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)估和對(duì)發(fā)音錯(cuò)誤進(jìn)行檢測(cè)的步驟,具體包
      括 1)、根據(jù)音素的置信度得分,分別折算出音素、詞匯、句子和段落層次的發(fā)音質(zhì)量 評(píng)分,并作為不同層次上發(fā)音質(zhì)量評(píng)估的指標(biāo); 2)、利用學(xué)習(xí)樣本庫(kù),在音素或詞匯的發(fā)音質(zhì)量評(píng)分的基礎(chǔ)上,通過設(shè)置發(fā)音錯(cuò)誤 檢測(cè)門限的方法達(dá)到檢出率和誤檢率的平衡,并根據(jù)對(duì)檢出率和誤檢率的實(shí)際要求調(diào)整工 作點(diǎn); 3)、將音素或詞匯的發(fā)音質(zhì)量評(píng)分與已經(jīng)確定好的錯(cuò)誤檢測(cè)門限進(jìn)行比較,如果 發(fā)音質(zhì)量評(píng)分小于門限,則認(rèn)為音素或詞匯發(fā)生發(fā)音錯(cuò)誤。 上述方案中,步驟1)中所述音素、詞匯、句子和段落層次的發(fā)音質(zhì)量評(píng)分折算方 法分別為 音素層次的發(fā)音質(zhì)量評(píng)分即音素的置信度得分; 詞匯層次的發(fā)音質(zhì)量評(píng)分為詞匯內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的平均值;
      句子層次的發(fā)音質(zhì)量評(píng)分為句子內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的平均值; 段落層次的發(fā)音質(zhì)量評(píng)分為段落內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的平均值。 上述方案中,所述在計(jì)算詞匯、句子和段落層次的發(fā)音質(zhì)量評(píng)分時(shí),對(duì)針對(duì)英文的
      元音和輔音或者對(duì)針對(duì)中文的聲母和韻母,音素發(fā)音質(zhì)量評(píng)分以不同的權(quán)重。 上述方案中,步驟2)中所述發(fā)音錯(cuò)誤檢測(cè)門限,對(duì)于不同音素,其門限值不同。 上述方案中,步驟3)中所述對(duì)發(fā)音錯(cuò)誤進(jìn)行檢測(cè),進(jìn)一步包括 將發(fā)音質(zhì)量定義為正確、錯(cuò)誤和缺陷三個(gè)層次,并通過門限1和門限2將得分域劃
      分為三部分,分別對(duì)應(yīng)錯(cuò)誤、缺陷和正確三個(gè)層次; 當(dāng)發(fā)音質(zhì)量評(píng)分小于門限1時(shí),認(rèn)為發(fā)音錯(cuò)誤,當(dāng)發(fā)音質(zhì)量評(píng)分大于門限1且小于
      門限2時(shí),認(rèn)為發(fā)音有缺陷,當(dāng)發(fā)音質(zhì)量評(píng)分大于門限2時(shí),認(rèn)為發(fā)音正確。(三)有益效果 從上述技術(shù)方案可以看出,本發(fā)明使用多種語(yǔ)音特征提取和多種系統(tǒng)融合的方法 進(jìn)行發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè),綜合利用了 PLP、 Pitch、 Formant、 GLDS和TRAP特征,有效 地融合了 G匪、SVM和MLP評(píng)檢方法,具有以下有益效果 1)多種特征可以更加全面地刻畫語(yǔ)音的特性和發(fā)音的質(zhì)量,彌補(bǔ)單一特征的不 足,具體來說,PLP是識(shí)別和發(fā)音評(píng)估中比較魯棒的主流特征,Pitch和Formant具有明顯的 物理意義并增強(qiáng)了對(duì)元音(韻母)的描述能力,GLDS將低維特征變換成高維特征以利于提 高分類性能,TRAP相對(duì)于PLP加強(qiáng)了對(duì)語(yǔ)音時(shí)序變化的描述并與MLP實(shí)現(xiàn)了很好的銜接;
      2)G匪是一種統(tǒng)計(jì)模型,多用于描述語(yǔ)音特征及其分布,而SVM和MLP作為區(qū)分性 辨別模型在模式分類方面表現(xiàn)突出,且SVM具有很強(qiáng)的外推能力,多系統(tǒng)融合充分利用了 上述系統(tǒng)的特點(diǎn),將單個(gè)系統(tǒng)的優(yōu)勢(shì)很好地結(jié)合起來; 3)本發(fā)明充分利用了積累的大量具有人工標(biāo)注的語(yǔ)音數(shù)據(jù)和學(xué)習(xí)樣本庫(kù),考慮了 不同性別、不同年齡和不同地域的差異性,評(píng)檢方法具有良好的推廣性;
      4)本發(fā)明涉及的多系統(tǒng)融合權(quán)重和錯(cuò)誤檢測(cè)門限等參數(shù)均可以根據(jù)實(shí)際情況進(jìn) 行調(diào)節(jié),便于用戶使用; 5)本發(fā)明可以提供面向音素、詞匯、句子和段落等多個(gè)層次的發(fā)音質(zhì)量評(píng)估和錯(cuò) 誤檢測(cè),發(fā)明中涉及的特征和評(píng)檢方法對(duì)語(yǔ)種沒有限制。


      圖1是本發(fā)明發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)系統(tǒng)框圖;
      圖2是本發(fā)明GMM評(píng)檢模型的訓(xùn)練流程圖;
      圖3是本發(fā)明SVM評(píng)檢模型的訓(xùn)練流程圖;
      圖4是本發(fā)明MLP評(píng)檢模型的訓(xùn)練流程圖;
      圖5是本發(fā)明多系統(tǒng)融合與評(píng)檢策略流程圖; 圖6是本發(fā)明第一實(shí)施例流程圖,詞匯發(fā)音的質(zhì)量評(píng)估和錯(cuò)誤檢測(cè); 圖7是本發(fā)明第二實(shí)施例流程圖,英語(yǔ)口語(yǔ)考試中段落朗讀題型的發(fā)音質(zhì)量評(píng)估
      和錯(cuò)誤檢測(cè)。
      具體實(shí)施例方式
      首先,詳細(xì)介紹本發(fā)明涉及的技術(shù)術(shù)語(yǔ)。 PLP :感知加權(quán)線性預(yù)測(cè)參數(shù)(Perc印tual Linear Prediction),是一種基于聽覺 模型的特征,使用經(jīng)過聽覺模型處理后的信號(hào)替代傳統(tǒng)的線性預(yù)測(cè)分析,同時(shí)加入了消噪 技術(shù),對(duì)語(yǔ)音識(shí)別具有較高的穩(wěn)健性。 Pitch :即基音頻率,是指發(fā)音時(shí)聲帶振動(dòng)引起的周期性,為語(yǔ)音信號(hào)最重要的特 征之一。 Formant :即共振峰,是指聲音在聲道內(nèi)引起的共振特性,共振峰頻率和軌跡是區(qū) 分不同元音或韻母的重要參數(shù)。GU)S :艮卩廣義線性判別序列(Generalized Linear Discrimi鍾tSequence),對(duì)于 SVM,使用多項(xiàng)式映射函數(shù)將低維特征轉(zhuǎn)換到高維空間,并與廣義線性判別核函數(shù)做內(nèi)積運(yùn)算。
      TRAP :時(shí)域模式特征(TempoRAl Patterns), 一種用于語(yǔ)音識(shí)別和音素識(shí)別的語(yǔ)音 特征。 G匪高斯混合模型(Gaussian Mixture Model),是一種使用多維概率密度函數(shù)對(duì) 信號(hào)的特性和分布進(jìn)行描述的方法。 SVM :支持向量機(jī)(Support Vector Machine),是基于統(tǒng)計(jì)學(xué)習(xí)理論發(fā)展而來的一 種較新的模式識(shí)別方法。 MLP :多層感知器(Multi-Layer Perc印tron),是一種常見的用于模式識(shí)別和分類 的神經(jīng)網(wǎng)絡(luò)。 HTK:即Hidden Markov Tool Kit,是英國(guó)劍橋大學(xué)提供的用于語(yǔ)音識(shí)別領(lǐng)域的開 源工具。 本發(fā)明的核心內(nèi)容是利用多種特征參數(shù)描述發(fā)音質(zhì)量并使用多種評(píng)檢系統(tǒng)相互 融合的方法對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)估和錯(cuò)誤檢測(cè),包括以下步驟語(yǔ)音識(shí)別及其自動(dòng)切分對(duì)齊; 提取用于發(fā)音質(zhì)量評(píng)估和檢錯(cuò)的特征參數(shù);獲取發(fā)音質(zhì)量評(píng)估和檢錯(cuò)模型訓(xùn)練數(shù)據(jù);訓(xùn)練 多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng);多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng)的融合;以及對(duì)發(fā)音質(zhì)量進(jìn) 行評(píng)估和對(duì)發(fā)音錯(cuò)誤進(jìn)行檢測(cè)。 所述語(yǔ)音識(shí)別及其自動(dòng)切分對(duì)齊的步驟,具體包括收集發(fā)音語(yǔ)料,并對(duì)收集的發(fā) 音語(yǔ)料進(jìn)行詞和音素級(jí)的人工標(biāo)注;利用收集的發(fā)音語(yǔ)料訓(xùn)練語(yǔ)音識(shí)別和切分對(duì)齊需要的 發(fā)音模型;在具備發(fā)音模型、發(fā)音變異詞典、內(nèi)容腳本以及相應(yīng)的語(yǔ)言模型的基礎(chǔ)上,使用 語(yǔ)音識(shí)別和自動(dòng)切分引擎,對(duì)輸入語(yǔ)音進(jìn)行識(shí)別并輸出詞級(jí)和音素級(jí)的對(duì)齊信息。所述發(fā) 音變異詞典是根據(jù)不同地域的語(yǔ)言背景和特點(diǎn)考慮其特定的發(fā)音變異情況而形成的詞典, 所述語(yǔ)言模型是在對(duì)應(yīng)的內(nèi)容腳本的基礎(chǔ)上生成的限制性語(yǔ)言約束關(guān)系。
      所述提取用于發(fā)音質(zhì)量評(píng)估和檢錯(cuò)的特征參數(shù)的步驟,具體包括提取語(yǔ)音幀的 PLP、Pitch和Formant特征,并將音素邊界內(nèi)所有幀的PLP、Pitch和Formant特征作為G匪 評(píng)檢系統(tǒng)的特征;將語(yǔ)音幀的PLP、 Pitch和Formant特征轉(zhuǎn)換為GLDS特征,并將音素邊界 內(nèi)所有幀的GLDS特征作為SVM評(píng)檢系統(tǒng)的特征;提取語(yǔ)音幀的TRAP特征,并將詞匯邊界內(nèi) 所有幀的TRAP特征作為MLP評(píng)檢系統(tǒng)的特征。 所述提取語(yǔ)音幀的PLP、 Pitch和Formant特征之后,進(jìn)一 步包括對(duì)提取的 Pitch(即F0)和Formant特征進(jìn)行規(guī)一化,F(xiàn)ormant取F1、F2和F3,同時(shí)提供F0、F1、F2和F3的一階和二階差分參數(shù)。 所述獲取發(fā)音質(zhì)量評(píng)估和檢錯(cuò)模型訓(xùn)練數(shù)據(jù)的步驟,具體包括利用收集的標(biāo)準(zhǔn) 發(fā)音語(yǔ)料及其人工標(biāo)注,通過語(yǔ)音識(shí)別和切分對(duì)齊分別得到各音素的語(yǔ)音樣本,以此作為 訓(xùn)練各音素G匪模型的數(shù)據(jù);利用收集的標(biāo)準(zhǔn)發(fā)音語(yǔ)料及其人工標(biāo)注,通過語(yǔ)音識(shí)別和切 分對(duì)齊分別得到各音素的語(yǔ)音樣本,將當(dāng)前音素的樣本作為正樣本,其他音素的樣本作為 當(dāng)前音素的負(fù)樣本,以各音素對(duì)應(yīng)的正負(fù)樣本作為訓(xùn)練各音素SVM模型的數(shù)據(jù);利用收集 的標(biāo)準(zhǔn)發(fā)音語(yǔ)料及其人工標(biāo)注,通過語(yǔ)音識(shí)別和切分對(duì)齊得到語(yǔ)音樣本和標(biāo)注結(jié)果的對(duì)應(yīng) 關(guān)系,以此作為訓(xùn)練MLP模型的數(shù)據(jù)。 所述將當(dāng)前音素的樣本作為正樣本,其他音素的樣本作為當(dāng)前音素的負(fù)樣本,具 體包括對(duì)于英文,元音和輔音分開,元音的其他音素只針對(duì)元音,輔音的其他音素只針對(duì) 輔音;對(duì)于中文,聲母和韻母分開,聲母的其他音素只針對(duì)聲母,韻母的其他音素只針對(duì)韻 母。 所述在訓(xùn)練各音素SVM模型時(shí),所需要的負(fù)樣本由發(fā)音錯(cuò)誤樣本構(gòu)成,或者使用 將除了當(dāng)前音素以外的其他音素的樣本作為當(dāng)前音素負(fù)樣本的策略。 所述訓(xùn)練多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng)的步驟,具體包括訓(xùn)練G匪評(píng)檢模型;訓(xùn) 練SVM評(píng)檢模型;以及訓(xùn)練MLP評(píng)檢模型。 所述訓(xùn)練GMM評(píng)檢模型,具體包括針對(duì)英文,利用所有元輔音的訓(xùn)練樣本訓(xùn)練得 到自身獨(dú)立的通用背景模型,然后再利用每個(gè)音素的樣本分別在該通用背景模型基礎(chǔ)上訓(xùn) 練得到相應(yīng)的G匪模型;針對(duì)中文,利用所有聲韻母的訓(xùn)練樣本訓(xùn)練得到自身獨(dú)立的通用 背景模型,然后再利用每個(gè)音素的樣本分別在該通用背景模型基礎(chǔ)上訓(xùn)練得到相應(yīng)的G匪 模型。 所述訓(xùn)練SVM評(píng)檢模型,具體包括SVM訓(xùn)練的正負(fù)樣本比例保持在1 : 1左右, 使用多項(xiàng)式映射、最小均方誤差準(zhǔn)則算法和廣義線性判別序列核函數(shù),訓(xùn)練SVM評(píng)檢模型。 在訓(xùn)練SVM模型時(shí),為每個(gè)音素隨機(jī)提供多套負(fù)樣本數(shù)據(jù),即使用SVM訓(xùn)練工具為每個(gè)音素 訓(xùn)練多個(gè)SVM模型,并以多個(gè)SVM模型的平均模型作為音素的最終SVM模型;當(dāng)某個(gè)音素的 正樣本較少時(shí),通過鄰近類別音素合并的手段降低數(shù)據(jù)量不足對(duì)SVM模型精度的影響。
      所述訓(xùn)練MLP評(píng)檢模型,具體包括利用語(yǔ)音樣本和對(duì)應(yīng)的標(biāo)注結(jié)果,使用MLP訓(xùn) 練工具訓(xùn)練得到統(tǒng)一的MLP模型。 所述多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng)的融合的步驟,具體包括
      1)、利用G匪模型計(jì)算當(dāng)前音素的G0P得分,記為score,; 2)、將當(dāng)前音素的GLDS特征送入對(duì)應(yīng)的SVM模型得到其SVM得分,記為score,;
      3)、將當(dāng)前詞所有幀的TRAP特征送入MLP模型后得到各音素的MLP得分,記為 scoremlp ; 4)、將scoregmm、 scoresvm和scoremlp變換到統(tǒng)一的得分域; 5)、當(dāng)前音素的最終置信度得分為score = wg_ 'score,+w, 'score,+w一 *scor
      emlp,其中wgmm、wsvm和wmlp為G匪、SVM和MLP方法的權(quán)重,根據(jù)實(shí)際情況或?qū)W習(xí)樣本庫(kù)進(jìn)行設(shè)置。 步驟l)中所述計(jì)算當(dāng)前音素的GOP得分,是將當(dāng)前音素在自身G匪模型上的對(duì)數(shù) 概率減去在所有G匪模型上的對(duì)數(shù)概率之和。所述在計(jì)算當(dāng)前音素的GOP得分的過程中,對(duì)于英文,元音的所有G匪模型只計(jì)算元音,輔音的所有G匪模型只計(jì)算輔音;對(duì)于中文,聲 母的所有GMM模型只計(jì)算聲母,韻母的所有GMM模型只計(jì)算韻母。 步驟2)中所述SVM得分的計(jì)算方法是,直接通過GLDS特征與SVM模型進(jìn)行內(nèi)積 運(yùn)算獲得。 步驟3)中所述MLP得分的計(jì)算方法是,對(duì)當(dāng)前詞所有幀的MLP輸出值進(jìn)行動(dòng)態(tài)規(guī)
      劃,以最佳路徑回溯規(guī)整得到的平均得分作為各音素的MLP得分。 所述對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)估和對(duì)發(fā)音錯(cuò)誤進(jìn)行檢測(cè)的步驟,具體包括 1)、根據(jù)音素的置信度得分,分別折算出音素、詞匯、句子和段落層次的發(fā)音質(zhì)量
      評(píng)分,并作為不同層次上發(fā)音質(zhì)量評(píng)估的指標(biāo);本步驟中所述音素、詞匯、句子和段落層次
      的發(fā)音質(zhì)量評(píng)分折算方法分別為音素層次的發(fā)音質(zhì)量評(píng)分即音素的置信度得分;詞匯層
      次的發(fā)音質(zhì)量評(píng)分為詞匯內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的平均值;句子層次的發(fā)音質(zhì)量評(píng)分
      為句子內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的平均值;段落層次的發(fā)音質(zhì)量評(píng)分為段落內(nèi)部所有音
      素發(fā)音質(zhì)量評(píng)分的平均值。所述在計(jì)算詞匯、句子和段落層次的發(fā)音質(zhì)量評(píng)分時(shí),對(duì)針對(duì)英
      文的元音和輔音或者對(duì)針對(duì)中文的聲母和韻母,音素發(fā)音質(zhì)量評(píng)分以不同的權(quán)重。 2)、利用學(xué)習(xí)樣本庫(kù),在音素或詞匯的發(fā)音質(zhì)量評(píng)分的基礎(chǔ)上,通過設(shè)置發(fā)音錯(cuò)誤
      檢測(cè)門限的方法達(dá)到檢出率和誤檢率的平衡,并根據(jù)對(duì)檢出率和誤檢率的實(shí)際要求調(diào)整工
      作點(diǎn);本步驟中所述發(fā)音錯(cuò)誤檢測(cè)門限,對(duì)于不同音素,其門限值不同。 3)、將音素或詞匯的發(fā)音質(zhì)量評(píng)分與已經(jīng)確定好的錯(cuò)誤檢測(cè)門限進(jìn)行比較,如果 發(fā)音質(zhì)量評(píng)分小于門限,則認(rèn)為音素或詞匯發(fā)生發(fā)音錯(cuò)誤。本步驟中所述對(duì)發(fā)音錯(cuò)誤進(jìn)行 檢測(cè),進(jìn)一步包括將發(fā)音質(zhì)量定義為正確、錯(cuò)誤和缺陷三個(gè)層次,并通過門限1和門限2 將得分域劃分為三部分,分別對(duì)應(yīng)錯(cuò)誤、缺陷和正確三個(gè)層次,當(dāng)發(fā)音質(zhì)量評(píng)分小于門限1 時(shí),認(rèn)為發(fā)音錯(cuò)誤,當(dāng)發(fā)音質(zhì)量評(píng)分大于門限1且小于門限2時(shí),認(rèn)為發(fā)音有缺陷,當(dāng)發(fā)音質(zhì) 量評(píng)分大于門限2時(shí),認(rèn)為發(fā)音正確。 以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。
      第一實(shí)施例 參見圖1至圖6所示,是本發(fā)明第一實(shí)施例流程圖,是對(duì)詞匯發(fā)音的質(zhì)量進(jìn)行評(píng)估 和錯(cuò)誤檢測(cè),其步驟為 步驟101,用戶讀出需要評(píng)估和檢錯(cuò)的詞匯語(yǔ)音; 步驟102,對(duì)原始語(yǔ)音進(jìn)行預(yù)處理,分幀處理以25ms為幀長(zhǎng)度,10ms為幀間隔,重 復(fù)處理直至語(yǔ)音信號(hào)結(jié)束; 步驟103,在詞匯內(nèi)容已知的情況下對(duì)語(yǔ)音進(jìn)行自動(dòng)切分對(duì)齊,對(duì)詞匯語(yǔ)音略去語(yǔ) 音識(shí)別環(huán)節(jié)。切分對(duì)齊使用的發(fā)音模型使用大量具有人工標(biāo)注的中文或英文語(yǔ)料訓(xùn)練得 到,英文使用44個(gè)音素發(fā)音模型(20個(gè)元音,24個(gè)輔音),中文使用61個(gè)音素發(fā)音模型(36 個(gè)韻母,25個(gè)聲母,包括零聲母)。發(fā)音模型的訓(xùn)練可以采用劍橋大學(xué)的HTK工具(http:〃 htk. eng. cam. ac. uk)。本實(shí)施例經(jīng)過切分對(duì)齊后獲得各音素的邊界信息;
      步驟104,提取語(yǔ)音幀的PLP、F0、F1、F2、F3特征以及F0、F1、F2、F3的一階和二階 差分參數(shù),并對(duì)FO、 Fl、 F2、 F3進(jìn)行規(guī)一化。將音素邊界內(nèi)所有幀的PLP、 Pitch和Formant 特征作為音素的G匪特征送入G匪評(píng)檢系統(tǒng); 步驟105,將步驟104中提取的PLP、 Pitch和Formant特征轉(zhuǎn)換為GLDS特征,并將音素邊界內(nèi)所有幀的GLDS特征作為音素的SVM特征送入SVM評(píng)檢系統(tǒng); 步驟106,提取語(yǔ)音幀的TRAP特征,并將詞匯邊界內(nèi)所有幀的TRAP特征作為詞匯
      的MLP特征送入MLP評(píng)檢系統(tǒng); 步驟107,準(zhǔn)備G匪評(píng)檢模型訓(xùn)練數(shù)據(jù)利用積累的標(biāo)準(zhǔn)發(fā)音語(yǔ)料及其人工標(biāo)注, 通過語(yǔ)音識(shí)別和切分對(duì)齊得到各音素的語(yǔ)音樣本并作為訓(xùn)練各音素G匪模型的數(shù)據(jù);
      步驟108,訓(xùn)練G匪評(píng)檢模型對(duì)于英文,首先利用所有元音和所有輔音的訓(xùn)練樣 本分別訓(xùn)練得到元音和輔音的通用背景模型(UBM),然后再利用每個(gè)元音和輔音音素的樣 本分別在元音和輔音UBM基礎(chǔ)上訓(xùn)練得到相應(yīng)的G匪模型。對(duì)于中文,首先利用所有聲母 和所有韻母的訓(xùn)練樣本分別訓(xùn)練得到聲母和韻母的通用背景模型(UBM),然后再利用每個(gè) 聲母和韻母音素的樣本分別在聲母和韻母UBM基礎(chǔ)上訓(xùn)練得到相應(yīng)的G匪模型;
      步驟109,準(zhǔn)備SVM評(píng)檢模型訓(xùn)練數(shù)據(jù)利用積累的具有人工標(biāo)注的標(biāo)準(zhǔn)發(fā)音語(yǔ) 料,通過語(yǔ)音識(shí)別和切分對(duì)齊得到各音素的語(yǔ)音樣本,把當(dāng)前音素的樣本作為正樣本,其他 音素的樣本作為當(dāng)前音素的負(fù)樣本。對(duì)于英文,元音的其他音素只針對(duì)元音,輔音的其他音 素只針對(duì)輔音;對(duì)于中文,聲母的其他音素只針對(duì)聲母,韻母的其他音素只針對(duì)韻母。將各 音素對(duì)應(yīng)的正負(fù)樣本作為訓(xùn)練各音素SVM模型的數(shù)據(jù); 步驟110,訓(xùn)練SVM評(píng)檢模型SVM訓(xùn)練的正負(fù)樣本比例保持在1 : l左右,為每個(gè)
      音素隨機(jī)提供多套負(fù)樣本數(shù)據(jù),即使用SVM訓(xùn)練工具為每個(gè)音素訓(xùn)練多個(gè)SVM模型,并以多
      個(gè)SVM模型的平均模型作為音素的最終模型,SVM模型使用廣義線性核函數(shù); 步驟lll,準(zhǔn)備MLP評(píng)檢模型訓(xùn)練數(shù)據(jù)將積累的具有人工標(biāo)注的標(biāo)準(zhǔn)發(fā)音語(yǔ)料直
      接作為訓(xùn)練MLP模型的數(shù)據(jù); 步驟112,訓(xùn)練MLP評(píng)檢模型利用語(yǔ)音樣本和對(duì)應(yīng)的標(biāo)注結(jié)果,使用MLP訓(xùn)練工 具訓(xùn)練得到統(tǒng)一的MLP模型; 步驟113,利用G匪模型計(jì)算當(dāng)前音素的GOP得分,記為score,。 GOP得分的計(jì)算 方法是當(dāng)前音素在本身G匪模型上的對(duì)數(shù)概率減去在所有G匪模型上的對(duì)數(shù)概率之和。 對(duì)于英文,元音的所有G匪模型只計(jì)算元音,輔音的所有G匪模型只計(jì)算輔音;對(duì)于中文,聲 母的所有GMM模型只計(jì)算聲母,韻母的所有GMM模型只計(jì)算韻母; 步驟114,將當(dāng)前音素的GLDS特征送入對(duì)應(yīng)的SVM模型得到其SVM得分,記為 score,。 SVM得分的計(jì)算方法是直接通過GLDS特征與SVM模型進(jìn)行內(nèi)積運(yùn)算獲得;
      步驟115,將當(dāng)前詞所有幀的TRAP特征送入MLP模型后歸整得到各音素的MLP得 分,記為score自。MLP得分的計(jì)算方法是對(duì)當(dāng)前詞所有幀的MLP輸出值進(jìn)行動(dòng)態(tài)規(guī)劃,以 最佳路徑回溯歸整得到的平均得分作為各音素的MLP得分; 步驟116,統(tǒng)一 score,、 scoresvm禾口 scoremlp的得分域,score, = exp (score,), scoresvm = sigmoid (score,) , scoremlp = exp (scoremlp); 步驟117,將各系統(tǒng)輸出的得分加權(quán)得到音素最終的置信度得分,score = w,*sc ore,+w, 'score,+w一 'score由,其中wgnm、wsvm和wmlp表示G匪、SVM和MLP方法的權(quán)重,設(shè) 置為0. 3,0. 4,0. 3 ; 步驟118,音素的發(fā)音質(zhì)量評(píng)分即音素的置信度得分。詞匯的發(fā)音質(zhì)量評(píng)分為詞 匯內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的加權(quán)平均值,對(duì)于英文,元音和輔音得分的權(quán)重分別為0. 6 和0. 4,對(duì)于中文,韻母和聲母得分的權(quán)重分別為0. 6和0. 4 ;
      步驟119,利用學(xué)習(xí)樣本庫(kù),在音素和詞匯發(fā)音質(zhì)量評(píng)分的基礎(chǔ)上,將檢出率90% 和誤檢率10%作為當(dāng)前工作點(diǎn),并以此分別設(shè)置各音素和詞匯的發(fā)音錯(cuò)誤檢測(cè)門限;
      步驟120,將音素或詞匯的發(fā)音質(zhì)量評(píng)分與已經(jīng)確定好的錯(cuò)誤檢測(cè)門限進(jìn)行比較,
      如果發(fā)音質(zhì)量評(píng)分小于門限,則認(rèn)為音素或詞匯的發(fā)音錯(cuò)誤。
      第二實(shí)施例 參見圖1至圖5,以及圖7所示,是本發(fā)明第二實(shí)施例流程圖,對(duì)英語(yǔ)口語(yǔ)考試中段
      落朗讀題型的發(fā)音質(zhì)量進(jìn)行評(píng)估和錯(cuò)誤檢測(cè),其步驟為
      步驟201,考生朗讀需要評(píng)估和檢錯(cuò)的英文段落; 步驟202,對(duì)原始語(yǔ)音進(jìn)行預(yù)處理,分幀處理以25ms為幀長(zhǎng)度,10ms為幀間隔,重 復(fù)處理直至語(yǔ)音信號(hào)結(jié)束; 步驟203,在段落內(nèi)容已知的情況下進(jìn)行語(yǔ)音識(shí)別和自動(dòng)切分對(duì)齊。利用大量具有 人工標(biāo)注的英文語(yǔ)料訓(xùn)練得到發(fā)音模型,共44個(gè)音素模型(20個(gè)元音,24個(gè)輔音)。使用 帶發(fā)音變異的BEEP詞典,利用已知段落內(nèi)容腳本生成識(shí)別過程中需要的語(yǔ)言模型。模型訓(xùn) 練和識(shí)別引擎可以采用HTK工具,本發(fā)明對(duì)此不加以限制。本實(shí)施例經(jīng)過識(shí)別和切分后獲 得各詞和音素的邊界信息; 步驟204,提取語(yǔ)音幀的PLP、 FO、 Fl 、 F2、 F3特征以及FO、 Fl 、 F2、 F3的一階和二階 差分參數(shù),F(xiàn)0、F1、F2、F3進(jìn)行規(guī)一化。將音素邊界內(nèi)所有幀的PLP、 Pitch和Formant特征 作為音素的G匪特征送入G匪評(píng)檢系統(tǒng); 步驟205,將步驟204中提取的PLP、 Pitch和Formant轉(zhuǎn)換為GLDS特征,并將音 素邊界內(nèi)所有幀的GLDS特征作為音素的SVM特征送入SVM評(píng)檢系統(tǒng);
      步驟206,提取語(yǔ)音幀的TRAP特征,并將詞匯邊界內(nèi)所有幀的TRAP特征作為詞匯 的MLP特征送入MLP評(píng)檢系統(tǒng); 步驟207,準(zhǔn)備G匪評(píng)檢模型訓(xùn)練數(shù)據(jù)利用積累的標(biāo)準(zhǔn)發(fā)音語(yǔ)料及其人工標(biāo)注, 通過語(yǔ)音識(shí)別和切分對(duì)齊得到各音素的語(yǔ)音樣本并作為訓(xùn)練各音素G匪模型的數(shù)據(jù);
      步驟208,訓(xùn)練G匪評(píng)檢模型首先利用所有元音和所有輔音的訓(xùn)練樣本分別訓(xùn)練 得到元音和輔音的通用背景模型(UBM),然后再利用每個(gè)元音和輔音音素的樣本分別在元 音和輔音UBM基礎(chǔ)上訓(xùn)練得到相應(yīng)的G匪模型; 步驟209,準(zhǔn)備SVM評(píng)檢模型訓(xùn)練數(shù)據(jù)利用積累的具有人工標(biāo)注的標(biāo)準(zhǔn)發(fā)音語(yǔ) 料,通過語(yǔ)音識(shí)別和切分對(duì)齊得到各音素的語(yǔ)音樣本,把當(dāng)前音素的樣本作為正樣本,其他 音素的樣本作為當(dāng)前音素的負(fù)樣本。元音的其他音素只計(jì)算元音,輔音的其他音素只計(jì)算 輔音。將各音素對(duì)應(yīng)的正負(fù)樣本作為訓(xùn)練各音素SVM模型的數(shù)據(jù); 步驟219,訓(xùn)練SVM評(píng)檢模型SVM訓(xùn)練的正負(fù)樣本比例保持在1 : l左右,為每個(gè)
      音素隨機(jī)提供多套負(fù)樣本數(shù)據(jù),即使用SVM訓(xùn)練工具為每個(gè)音素訓(xùn)練多個(gè)SVM模型,并以多
      個(gè)SVM模型的平均模型作為音素的最終模型,SVM模型使用廣義線性核函數(shù); 步驟211 ,準(zhǔn)備MLP評(píng)檢模型訓(xùn)練數(shù)據(jù)將積累的具有人工標(biāo)注的標(biāo)準(zhǔn)發(fā)音語(yǔ)料直
      接作為訓(xùn)練MLP模型的數(shù)據(jù); 步驟212,訓(xùn)練MLP評(píng)檢模型利用語(yǔ)音樣本和對(duì)應(yīng)的標(biāo)注結(jié)果,使用MLP訓(xùn)練工 具訓(xùn)練得到統(tǒng)一的MLP模型; 步驟213,利用G匪模型計(jì)算當(dāng)前音素的GOP得分,記為score,。 GOP得分的計(jì)算方法是當(dāng)前音素在本身G匪模型上的對(duì)數(shù)概率減去在所有G匪模型上的對(duì)數(shù)概率之和,元 音的所有GMM模型只計(jì)算元音,輔音的所有GMM模型只計(jì)算輔音; 步驟214,將當(dāng)前音素的GLDS特征送入對(duì)應(yīng)的SVM模型得到其SVM得分,記為 score,。 SVM得分的計(jì)算方法是直接通過GLDS特征與SVM模型進(jìn)行內(nèi)積運(yùn)算獲得;
      步驟215,將當(dāng)前詞所有幀的TRAP特征送入MLP模型后歸整得到各音素的MLP得 分,記為score自。MLP得分的計(jì)算方法是對(duì)當(dāng)前詞所有幀的MLP輸出值進(jìn)行動(dòng)態(tài)規(guī)劃,以 最佳路徑回溯歸整得到的平均得分作為音素的MLP得分; 步驟216,統(tǒng)一 score,、 scoresvm禾口 scoremlp的得分域,score, = exp (score,), scoresvm = sigmoid (score,) , scoremlp = exp (scoremlp); 步驟217,將各系統(tǒng)輸出的得分加權(quán)得到音素最終的置信度得分,score = W, sc ore,+w, 'score,+w一 'score由,其中wgnm、wsvm和wmlp表示G匪、SVM和MLP方法的權(quán)重,設(shè) 置為0. 3,0. 4,0. 3 ; 步驟218,分別給出音素、詞匯、句子和段落層次的發(fā)音質(zhì)量評(píng)估。音素層次的發(fā) 音質(zhì)量評(píng)分即音素的置信度得分,詞匯層次的發(fā)音質(zhì)量評(píng)分為詞匯內(nèi)部所有音素發(fā)音質(zhì)量 評(píng)分的平均值,句子層次的發(fā)音質(zhì)量評(píng)分為句子內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的平均值,段 落層次的發(fā)音質(zhì)量評(píng)分為段落內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的平均值。在質(zhì)量評(píng)分折算過程 中,元音和輔音得分的權(quán)重分別為0. 6和0. 4 ; 步驟219,利用學(xué)習(xí)樣本庫(kù),在音素和詞匯發(fā)音質(zhì)量評(píng)分的基礎(chǔ)上,將檢出率90% 和誤檢率10%作為當(dāng)前工作點(diǎn),并以此分別設(shè)置各音素和詞匯的發(fā)音錯(cuò)誤檢測(cè)門限;
      步驟220,將音素或詞匯的發(fā)音質(zhì)量評(píng)分與已經(jīng)確定好的錯(cuò)誤檢測(cè)門限進(jìn)行比較, 如果發(fā)音質(zhì)量評(píng)分小于門限,則認(rèn)為音素或詞匯的發(fā)音錯(cuò)誤。 以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳 細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡 在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保 護(hù)范圍之內(nèi)。
      權(quán)利要求
      一種基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,該方法利用多種特征參數(shù)描述發(fā)音質(zhì)量并使用多種評(píng)檢系統(tǒng)相互融合的方法對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)估和錯(cuò)誤檢測(cè),包括以下步驟語(yǔ)音識(shí)別及其自動(dòng)切分對(duì)齊;提取用于發(fā)音質(zhì)量評(píng)估和檢錯(cuò)的特征參數(shù);獲取發(fā)音質(zhì)量評(píng)估和檢錯(cuò)模型訓(xùn)練數(shù)據(jù);訓(xùn)練多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng);多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng)的融合;以及對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)估和對(duì)發(fā)音錯(cuò)誤進(jìn)行檢測(cè)。
      2. 根據(jù)權(quán)利要求1所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述語(yǔ)音識(shí)別及其自動(dòng)切分對(duì)齊的步驟,具體包括收集發(fā)音語(yǔ)料,并對(duì)收集的發(fā)音語(yǔ)料進(jìn)行詞和音素級(jí)的人工標(biāo)注;利用收集的發(fā)音語(yǔ)料訓(xùn)練語(yǔ)音識(shí)別和切分對(duì)齊需要的發(fā)音模型;在具備發(fā)音模型、發(fā)音變異詞典、內(nèi)容腳本以及相應(yīng)的語(yǔ)言模型的基礎(chǔ)上,使用語(yǔ)音識(shí)別和自動(dòng)切分引擎,對(duì)輸入語(yǔ)音進(jìn)行識(shí)別并輸出詞級(jí)和音素級(jí)的對(duì)齊信息。
      3. 根據(jù)權(quán)利要求2所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述發(fā)音變異詞典是根據(jù)不同地域的語(yǔ)言背景和特點(diǎn)考慮其特定的發(fā)音變異情況而形成的詞典,所述語(yǔ)言模型是在對(duì)應(yīng)的內(nèi)容腳本的基礎(chǔ)上生成的限制性語(yǔ)言約束關(guān)系。
      4. 根據(jù)權(quán)利要求1所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述提取用于發(fā)音質(zhì)量評(píng)估和檢錯(cuò)的特征參數(shù)的步驟,具體包括提取語(yǔ)音幀的感知加權(quán)線性預(yù)測(cè)參數(shù)PLP、基音頻率Pitch和共振峰Formant特征,并將音素邊界內(nèi)所有幀的PLP、 Pitch和Formant特征作為高斯混合模型G匪評(píng)檢系統(tǒng)的特征;將語(yǔ)音幀的PLP、Pitch和Formant特征轉(zhuǎn)換為廣義線性判別序列GLDS特征,并將音素邊界內(nèi)所有幀的GLDS特征作為支持向量機(jī)SVM評(píng)檢系統(tǒng)的特征;提取語(yǔ)音幀的時(shí)域模式特征TRAP,并將詞匯邊界內(nèi)所有幀的TRAP特征作為多層感知器MLP評(píng)檢系統(tǒng)的特征。
      5. 根據(jù)權(quán)利要求4所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述提取語(yǔ)音幀的PLP、 Pitch和Formant特征之后,進(jìn)一步包括對(duì)提取的Pitch和Formant特征進(jìn)行規(guī)一化,Pitch即為F0, Formant取F1、F2和F3,同時(shí)提供F0、F1、F2和F3的一階和二階差分參數(shù)。
      6. 根據(jù)權(quán)利要求1所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述獲取發(fā)音質(zhì)量評(píng)估和檢錯(cuò)模型訓(xùn)練數(shù)據(jù)的步驟,具體包括利用收集的標(biāo)準(zhǔn)發(fā)音語(yǔ)料及其人工標(biāo)注,通過語(yǔ)音識(shí)別和切分對(duì)齊分別得到各音素的語(yǔ)音樣本,以此作為訓(xùn)練各音素G匪模型的數(shù)據(jù);利用收集的標(biāo)準(zhǔn)發(fā)音語(yǔ)料及其人工標(biāo)注,通過語(yǔ)音識(shí)別和切分對(duì)齊分別得到各音素的語(yǔ)音樣本,將當(dāng)前音素的樣本作為正樣本,其他音素的樣本作為當(dāng)前音素的負(fù)樣本,以各音素對(duì)應(yīng)的正負(fù)樣本作為訓(xùn)練各音素SVM模型的數(shù)據(jù);利用收集的標(biāo)準(zhǔn)發(fā)音語(yǔ)料及其人工標(biāo)注,通過語(yǔ)音識(shí)別和切分對(duì)齊得到語(yǔ)音樣本和標(biāo)注結(jié)果的對(duì)應(yīng)關(guān)系,以此作為訓(xùn)練MLP模型的數(shù)據(jù)。
      7. 根據(jù)權(quán)利要求6所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述將當(dāng)前音素的樣本作為正樣本,其他音素的樣本作為當(dāng)前音素的負(fù)樣本,具體包括對(duì)于英文,元音和輔音分開,元音的其他音素只針對(duì)元音,輔音的其他音素只針對(duì)輔對(duì)于中文,聲母和韻母分開,聲母的其他音素只針對(duì)聲母,韻母的其他音素只針對(duì)韻母。
      8. 根據(jù)權(quán)利要求6所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述在訓(xùn)練各音素SVM模型時(shí),所需要的負(fù)樣本由發(fā)音錯(cuò)誤樣本構(gòu)成,或者使用將除了當(dāng)前音素以外的其他音素的樣本作為當(dāng)前音素負(fù)樣本的策略。
      9. 根據(jù)權(quán)利要求1所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述訓(xùn)練多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng)的步驟,具體包括訓(xùn)練GMM評(píng)檢模型;訓(xùn)練SVM評(píng)檢模型;以及訓(xùn)練MLP評(píng)檢模型。
      10. 根據(jù)權(quán)利要求9所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述訓(xùn)練G匪評(píng)檢模型,具體包括針對(duì)英文,利用所有元輔音的訓(xùn)練樣本訓(xùn)練得到自身獨(dú)立的通用背景模型,然后再利用每個(gè)音素的樣本分別在該通用背景模型基礎(chǔ)上訓(xùn)練得到相應(yīng)的G匪模型;針對(duì)中文,利用所有聲韻母的訓(xùn)練樣本訓(xùn)練得到自身獨(dú)立的通用背景模型,然后再利用每個(gè)音素的樣本分別在該通用背景模型基礎(chǔ)上訓(xùn)練得到相應(yīng)的G匪模型。
      11. 根據(jù)權(quán)利要求9所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述訓(xùn)練SVM評(píng)檢模型,具體包括SVM訓(xùn)練的正負(fù)樣本比例保持在1 : l左右,使用多項(xiàng)式映射、最小均方誤差準(zhǔn)則算法和廣義線性判別序列核函數(shù),訓(xùn)練SVM評(píng)檢模型。
      12. 根據(jù)權(quán)利要求11所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,在訓(xùn)練SVM模型時(shí),為每個(gè)音素隨機(jī)提供多套負(fù)樣本數(shù)據(jù),即使用SVM訓(xùn)練工具為每個(gè)音素訓(xùn)練多個(gè)SVM模型,并以多個(gè)SVM模型的平均模型作為音素的最終SVM模型;當(dāng)某個(gè)音素的正樣本較少時(shí),通過鄰近類別音素合并的手段降低數(shù)據(jù)量不足對(duì)SVM模型精度的影響。
      13. 根據(jù)權(quán)利要求9所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述訓(xùn)練MLP評(píng)檢模型,具體包括利用語(yǔ)音樣本和對(duì)應(yīng)的標(biāo)注結(jié)果,使用MLP訓(xùn)練工具訓(xùn)練得到統(tǒng)一的MLP模型。
      14. 根據(jù)權(quán)利要求1所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng)的融合的步驟,具體包括1) 、利用G匪模型計(jì)算當(dāng)前音素的G0P得分,記為score,;2) 、將當(dāng)前音素的GLDS特征送入對(duì)應(yīng)的SVM模型得到其SVM得分,記為score,;3) 、將當(dāng)前詞所有幀的TRAP特征送入MLP模型后得到各音素的MLP得分,記為scoremlp ;4) 、將score,、 scoresvm和scoremlp變換到統(tǒng)一的得分域;5) 、當(dāng)前音素的最終置信度得分為score = w, 'scoreg腿+w, 'score,+w由*scoremlp,其中wgnm、wsvm和wmlp為G匪、SVM和MLP方法的權(quán)重,根據(jù)實(shí)際情況或?qū)W習(xí)樣本庫(kù)進(jìn)行設(shè)置。
      15. 根據(jù)權(quán)利要求14所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,步驟1)中所述計(jì)算當(dāng)前音素的GOP得分,是將當(dāng)前音素在自身G匪模型上的對(duì)數(shù)概率減去在所有G匪模型上的對(duì)數(shù)概率之和。
      16. 根據(jù)權(quán)利要求15所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述在計(jì)算當(dāng)前音素的GOP得分的過程中,具體包括對(duì)于英文,元音的所有G匪模型只計(jì)算元音,輔音的所有G匪模型只計(jì)算輔音;對(duì)于中文,聲母的所有GMM模型只計(jì)算聲母,韻母的所有GMM模型只計(jì)算韻母。
      17. 根據(jù)權(quán)利要求14所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,步驟2)中所述SVM得分的計(jì)算方法是,直接通過GLDS特征與SVM模型進(jìn)行內(nèi)積運(yùn)算獲得。
      18. 根據(jù)權(quán)利要求14所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,步驟3)中所述MLP得分的計(jì)算方法是,對(duì)當(dāng)前詞所有幀的MLP輸出值進(jìn)行動(dòng)態(tài)規(guī)劃,以最佳路徑回溯規(guī)整得到的平均得分作為各音素的MLP得分。
      19. 根據(jù)權(quán)利要求1所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)估和對(duì)發(fā)音錯(cuò)誤進(jìn)行檢測(cè)的步驟,具體包括1) 、根據(jù)音素的置信度得分,分別折算出音素、詞匯、句子和段落層次的發(fā)音質(zhì)量評(píng)分,并作為不同層次上發(fā)音質(zhì)量評(píng)估的指標(biāo);2) 、利用學(xué)習(xí)樣本庫(kù),在音素或詞匯的發(fā)音質(zhì)量評(píng)分的基礎(chǔ)上,通過設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限的方法達(dá)到檢出率和誤檢率的平衡,并根據(jù)對(duì)檢出率和誤檢率的實(shí)際要求調(diào)整工作點(diǎn);3) 、將音素或詞匯的發(fā)音質(zhì)量評(píng)分與已經(jīng)確定好的錯(cuò)誤檢測(cè)門限進(jìn)行比較,如果發(fā)音質(zhì)量評(píng)分小于門限,則認(rèn)為音素或詞匯發(fā)生發(fā)音錯(cuò)誤。
      20. 根據(jù)權(quán)利要求19所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,步驟1)中所述音素、詞匯、句子和段落層次的發(fā)音質(zhì)量評(píng)分折算方法分別為音素層次的發(fā)音質(zhì)量評(píng)分即音素的置信度得分;詞匯層次的發(fā)音質(zhì)量評(píng)分為詞匯內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的平均值;句子層次的發(fā)音質(zhì)量評(píng)分為句子內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的平均值;段落層次的發(fā)音質(zhì)量評(píng)分為段落內(nèi)部所有音素發(fā)音質(zhì)量評(píng)分的平均值。
      21. 根據(jù)權(quán)利要求20所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,所述在計(jì)算詞匯、句子和段落層次的發(fā)音質(zhì)量評(píng)分時(shí),對(duì)針對(duì)英文的元音和輔音或者對(duì)針對(duì)中文的聲母和韻母,音素發(fā)音質(zhì)量評(píng)分以不同的權(quán)重。
      22. 根據(jù)權(quán)利要求19所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,步驟2)中所述發(fā)音錯(cuò)誤檢測(cè)門限,對(duì)于不同音素,其門限值不同。
      23.根據(jù)權(quán)利要求19所述的基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,其特征在于,步驟3)中所述對(duì)發(fā)音錯(cuò)誤進(jìn)行檢測(cè),進(jìn)一步包括將發(fā)音質(zhì)量定義為正確、錯(cuò)誤和缺陷三個(gè)層次,并通過門限1和門限2將得分域劃分為三部分,分別對(duì)應(yīng)錯(cuò)誤、缺陷和正確三個(gè)層次;當(dāng)發(fā)音質(zhì)量評(píng)分小于門限1時(shí),認(rèn)為發(fā)音錯(cuò)誤,當(dāng)發(fā)音質(zhì)量評(píng)分大于門限1且小于門限2時(shí),認(rèn)為發(fā)音有缺陷,當(dāng)發(fā)音質(zhì)量評(píng)分大于門限2時(shí),認(rèn)為發(fā)音正確。
      全文摘要
      本發(fā)明公開了一種基于多特征和多系統(tǒng)融合的發(fā)音質(zhì)量評(píng)估和錯(cuò)誤檢測(cè)方法,利用多種特征參數(shù)描述發(fā)音質(zhì)量并使用多種評(píng)檢系統(tǒng)相互融合的方法對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)估和錯(cuò)誤檢測(cè),包括以下步驟語(yǔ)音識(shí)別及其自動(dòng)切分對(duì)齊;提取用于發(fā)音質(zhì)量評(píng)估和檢錯(cuò)的特征參數(shù);獲取發(fā)音質(zhì)量評(píng)估和檢錯(cuò)模型訓(xùn)練數(shù)據(jù);訓(xùn)練多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng);多個(gè)發(fā)音質(zhì)量評(píng)估和檢錯(cuò)系統(tǒng)的融合;以及對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)估和對(duì)發(fā)音錯(cuò)誤進(jìn)行檢測(cè)。利用本發(fā)明,有效地利用了多種語(yǔ)音特征,充分使用了多種評(píng)估和檢測(cè)系統(tǒng)并進(jìn)行信息融合,從而在最大程度上發(fā)揮了各種特征和系統(tǒng)的優(yōu)勢(shì),保證了發(fā)音評(píng)估和檢錯(cuò)的準(zhǔn)確性和可靠性。
      文檔編號(hào)G10L15/08GK101727903SQ20081022540
      公開日2010年6月9日 申請(qǐng)日期2008年10月29日 優(yōu)先權(quán)日2008年10月29日
      發(fā)明者徐波, 李宏言, 李鵬, 梁家恩, 王士進(jìn), 高鵬 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1