用于生成用于自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)的方法和系統(tǒng)的制作方法

文檔序號：2828971閱讀：1010來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于生成用于自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明通常涉及用于生成用于以特定采樣頻率操作的自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)的方法和系統(tǒng)。此外，本發(fā)明涉及用于訓(xùn)練自動(dòng)語音識別系統(tǒng)的方法，以及用于生成用在用于生成訓(xùn)練數(shù)據(jù)的方法中的密碼本的方法和系統(tǒng)。
背景技術(shù)：
自動(dòng)語音識別器用于各種應(yīng)用，諸如控制界面、自動(dòng)導(dǎo)航系統(tǒng)、對話系統(tǒng)等等，其中，識別和解釋語音輸入。通常，這種自動(dòng)語音識別器(ASR)的用戶向麥克風(fēng)說話，其中，模擬語音輸入通過用于窗口化和采樣輸入模擬信號，即以連續(xù)速率測量模擬信號的振幅以便提供離散采樣集的常用技術(shù)，轉(zhuǎn)換成數(shù)字形式。采樣信號的速率稱為采樣速率或采樣頻率。離散樣本的最終順序提供模擬信號的時(shí)域描述。例如通過在采樣輸入信號上執(zhí)行快速傅立葉變換，將該輸入信號的時(shí)域描述轉(zhuǎn)換成頻域描述，其中，執(zhí)行各種處理步驟以便提取用于輸入信號的特征，通常以特征向量的形式。通過將這些特征與模板或其他模型進(jìn)行比較，在下文中稱為“模型”，以及確定最適當(dāng)?shù)钠ヅ?，ASR能分析語音輸入以便確定用戶說了什么以及最終將執(zhí)行哪些動(dòng)作。
通常使用訓(xùn)練數(shù)據(jù)計(jì)算由自動(dòng)語音識別器使用的模型，訓(xùn)練數(shù)據(jù)通常是所說話語，諸如詞、句子或整個(gè)會(huì)話的集合。將訓(xùn)練數(shù)據(jù)輸入自動(dòng)語音識別器的前端，即第一處理級，并處理來計(jì)算用于自動(dòng)語音識別器的模型。為增加自動(dòng)語音識別器在操作期間正確地識別和理解輸入語音的成功率，通常將多個(gè)揚(yáng)聲器用于訓(xùn)練自動(dòng)語音識別器，通過區(qū)分重音或聲調(diào)來提供盡可能寬的話語的選擇?？捎糜谟?xùn)練自動(dòng)語音識別器的話語越多，其性能越好。如果在類似于意圖操作自動(dòng)語音識別器的條件的聲學(xué)條件下，記錄訓(xùn)練數(shù)據(jù)，甚至能獲得更好性能。
將每一模擬信號視為不同頻率的許多分量正弦波的合成。根據(jù)樣本的所需質(zhì)量，選擇采樣頻率。高采樣速率確保將更高頻率分量包括在采樣信號中。根據(jù)Nyquist，采樣頻率必須是最高所需頻率分量的頻率的至少二倍，因?yàn)樵诓蓸又衼G失低于采樣速率的一半的任何分量頻率。因此，由于在提高語音識別的更高頻帶中的另外的信息，自動(dòng)語音識別器將從用于該輸入語音的較高采樣速率受益。例如，在汽車中操作的自動(dòng)語音識別器能以較高采樣速率更好地執(zhí)行。為訓(xùn)練以較高采樣速率操作的這種自動(dòng)語音識別器，有必要首先收集以該采樣速率獲得的訓(xùn)練音頻數(shù)據(jù)。
用于自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)應(yīng)當(dāng)包含盡可能寬的多個(gè)所說話語，例如單詞、整個(gè)語句，或甚至整個(gè)會(huì)話。理想地，所說詞來自具有不同重音或清晰度質(zhì)量的多個(gè)揚(yáng)聲器。因此，為收集計(jì)算用于自動(dòng)語音識別器的魯棒性能的所需多個(gè)模型的足夠的原始數(shù)據(jù)，將要求許多人在實(shí)際條件下錄制多個(gè)測試詞來反映典型的汽車的嘈雜環(huán)境。通過話語的適當(dāng)不同集合，訓(xùn)練數(shù)據(jù)能確保自動(dòng)語音識別器的魯棒操作，以及在實(shí)際工作條件下可靠識別語音。然而，用于在較高采樣頻率操作的自動(dòng)語音識別器，例如用于用在汽車應(yīng)用中的自動(dòng)語音識別器的訓(xùn)練語音數(shù)據(jù)不易于得到，因?yàn)樵诓焕h(huán)境中，諸如在嘈雜汽車中收集數(shù)據(jù)非常耗時(shí)，因此造價(jià)昂貴。并且，每種自動(dòng)語音識別器要求以其自己的特定格式，以特征模型的形式的訓(xùn)練數(shù)據(jù)。以用于特定ASR品牌的格式的訓(xùn)練數(shù)據(jù)可能非常不適合于不同類型的ASR。

發(fā)明內(nèi)容
因此，本發(fā)明的目的是提供用于生成自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)的簡單和廉價(jià)方法和系統(tǒng)。
為此，本發(fā)明提供用于生成用于為特定第一采樣頻率所構(gòu)成的自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)的方法-通過從以低于第一采樣頻率的第二采樣頻率采樣的音頻數(shù)據(jù)導(dǎo)出頻譜特性，通過檢索帶寬擴(kuò)展信息，擴(kuò)展頻譜特性的帶寬，以及處理帶寬擴(kuò)展頻譜特性以便提供所需訓(xùn)練數(shù)據(jù)。
信號頻譜是指在其不同頻率分量上分布的信號中的線路能量(wayenergy)。能使用頻譜的各種特性來描述頻域中的信號。這些特性在下文中稱為“頻譜特性”或“頻譜表示”，以及可以用多種方法計(jì)算。
該方法的固有優(yōu)點(diǎn)在于用來生成訓(xùn)練數(shù)據(jù)的訓(xùn)練音頻數(shù)據(jù)可以是已經(jīng)用在其他、不同應(yīng)用中的數(shù)據(jù)，以及可以以低于訓(xùn)練數(shù)據(jù)所需的頻率采樣。因此，例如，可以實(shí)現(xiàn)可用電話音頻數(shù)據(jù)的數(shù)據(jù)庫，因?yàn)檫@些數(shù)據(jù)庫已經(jīng)可獲得，通常相當(dāng)大，以及包含通常來自不同揚(yáng)聲器集的各種所說詞和/或整個(gè)語句。因?yàn)?KHz的帶寬通常滿足電話使用，通常以8KHz采樣音頻電話數(shù)據(jù)。使用根據(jù)本發(fā)明的方法，該8KHz數(shù)據(jù)可以用來訓(xùn)練汽車自動(dòng)語音識別器，由于性能質(zhì)量原因，可以以相當(dāng)高頻率，諸如11KHz或甚至更高的頻率操作。
用于生成用于以特定第一采樣頻率操作的自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)的適當(dāng)系統(tǒng)包括用于從以低于第一采樣頻率的第二頻率采樣的音頻數(shù)據(jù)導(dǎo)出頻譜特性的轉(zhuǎn)換器，檢索單元，用于從密碼本檢索用于頻譜特性的帶寬擴(kuò)展信息，以及處理模塊，用于處理帶寬擴(kuò)展頻譜特性以便給出所需訓(xùn)練數(shù)據(jù)。
根據(jù)本發(fā)明，擴(kuò)展以較低采樣頻率可獲得的數(shù)據(jù)的頻譜特性的帶寬以致輸入似乎以更高頻率采樣。從存儲它的適當(dāng)源，以適當(dāng)形式檢索帶寬擴(kuò)展信息。這里，這種源通常稱為“密碼本”。因此，密碼本是以能與以相同形式的其他數(shù)據(jù)比較的模板或某一形式的隨機(jī)混合模型的集合。數(shù)據(jù)形式通常相當(dāng)復(fù)雜，例如，用于典型的ASR的特征向量可以是n維向量，其中，n通常是相當(dāng)大的數(shù)，以及數(shù)據(jù)與模板的比較通常包含定位“最佳匹配”。用來生成用于自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)的該密碼本不與可以用在自動(dòng)語音識別器的稍后階段中的不同類型的密碼本混淆，并且不相關(guān)。
能在下一步驟中處理帶寬擴(kuò)展頻譜特性以便提供以自動(dòng)語音識別器的另外的階段所需的形式的訓(xùn)練數(shù)據(jù)。
為實(shí)現(xiàn)此，需要允許帶寬擴(kuò)展的適當(dāng)密碼本。因此，本發(fā)明的另一目的是提供用于生成這種密碼本的方法和系統(tǒng)。
根據(jù)本發(fā)明，生成用在上述系統(tǒng)中的密碼本包含用于將以較低采樣頻率采樣的音頻數(shù)據(jù)的頻譜特性的帶寬擴(kuò)展到用于較高采樣頻率的頻譜特性的項(xiàng)-包括用于該密碼本的每一項(xiàng)的多個(gè)步驟。在第一步驟中，由以第一采樣頻率采樣的音頻數(shù)據(jù)導(dǎo)出第一頻譜特性集。然后，在該音頻數(shù)據(jù)上執(zhí)行到第二采樣頻率的采樣速率變換，以及導(dǎo)出相應(yīng)的第二頻譜特性集。因此，第一和第二頻譜特性集均描述相同的音頻樣本，但以不同采樣頻率。對于第二頻譜特性集，計(jì)算密碼本項(xiàng)，以及增加來自第一頻譜特性集的另外的較高頻率信息。然后，將該項(xiàng)存儲在密碼本中。
用于生成用于將以第二采樣頻率采樣的音頻數(shù)據(jù)的頻譜特性集的帶寬擴(kuò)展到用于以高于第二采樣頻率的第一采樣頻率的頻譜特性集的密碼本的適當(dāng)設(shè)備，包括用于從以第一采樣頻率采樣的音頻數(shù)據(jù)導(dǎo)出第一頻譜特性集的轉(zhuǎn)換器，用于在音頻數(shù)據(jù)上執(zhí)行到第二采樣頻率的采樣速率變換以及導(dǎo)出用于第二采樣頻率的相應(yīng)第二頻譜特性集的模塊，以及密碼本項(xiàng)生成器，用于基于第二頻譜特性集生成用于密碼本的項(xiàng)，以及用于使密碼本項(xiàng)增加來自相應(yīng)的第一頻譜特性集的另外的更高頻率信息。
從屬權(quán)利要求和后續(xù)說明書具體公開了本發(fā)明的有利實(shí)施例和特征。
在兩種情況-生成用于ASR的訓(xùn)練數(shù)據(jù)和生成密碼本中-通過在音頻數(shù)據(jù)上首先執(zhí)行時(shí)間/頻率域變換，將音頻數(shù)據(jù)轉(zhuǎn)換成頻譜特性集，以便提供頻域系數(shù)集。在要求從較高采樣頻率到較低采樣頻率的下采樣的步驟的情況下，可以在已經(jīng)窗口化和采樣的輸入音頻數(shù)據(jù)上直接執(zhí)行下采樣，或可以在音頻數(shù)據(jù)的時(shí)間-頻率域變換后執(zhí)行。另外，可以通過用適當(dāng)?shù)牡屯V波器過濾音頻數(shù)據(jù)以便修剪上述頻率，實(shí)現(xiàn)下采樣效果。
時(shí)間/頻率域變換最好是快速傅立葉變換(FFT)，因?yàn)檫@種變換允許快速和有效獲得采樣信號的離散傅立葉變換。通過DFT或FFT確定的系數(shù)表示音頻信號的頻率分量的每一個(gè)的振幅以及描述音頻信號的頻譜。根據(jù)需要，同樣可以實(shí)現(xiàn)不同類型的時(shí)間/頻率域變換，例如離散余弦變換(DCT)。
由時(shí)間/頻率域變換產(chǎn)生的系數(shù)能用作頻譜特性。然而，由于它們的使用意味著在生成密碼本中的更多努力，通常執(zhí)行另外的處理步驟以便在稍后階段省去麻煩。例如，能通過濾波器組過濾時(shí)間/頻率域變換的輸出以便提供濾波器組功率值集。
這種濾波器組的一個(gè)優(yōu)點(diǎn)是最終頻譜描述要求相當(dāng)少的數(shù)據(jù)，以及如果需要，能失真或翹曲(warp)頻率軸。
通常在計(jì)算頻譜后執(zhí)行頻率軸的翹曲以便模擬人類耳蝸的性能，因?yàn)槎佒械穆曇舴治鲆苑蔷€性頻率比例，稱為Bark或mel比例發(fā)生。該比例近似地線性達(dá)約1000Hz并且此后近似為對數(shù)的。在本發(fā)明的具體優(yōu)選實(shí)施例中，構(gòu)造濾波器組中的濾波器以便實(shí)現(xiàn)頻率軸的所需翹曲。
然后，可以將濾波器組輸出功率值用作頻譜特性。
也可以通過在另一處理步驟中，計(jì)算濾波器組功率值的對數(shù)，以便提供對數(shù)頻譜系數(shù)集，獲得頻譜特性。在根據(jù)mel比例，在濾波器組中實(shí)現(xiàn)頻率軸的翹曲的情況下，能將最終系數(shù)稱為mel頻率系數(shù)。通常這種對數(shù)頻譜系數(shù)是用于生成用在諸如自動(dòng)語音識別器的系統(tǒng)中的特征向量的基礎(chǔ)。對數(shù)頻譜系數(shù)也可以使用不同的、同樣適當(dāng)?shù)募夹g(shù)計(jì)算。
在本發(fā)明的具體優(yōu)選實(shí)施例中，對數(shù)頻譜系數(shù)用作用于生成用于用在生成用于自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)的系統(tǒng)中的帶寬擴(kuò)展密碼本的項(xiàng)的頻譜特性。通過在對數(shù)頻譜系數(shù)上執(zhí)行DCT，能將這些變換成對數(shù)倒譜系數(shù)，特別適合于在自動(dòng)語音識別器的另外的處理步驟中的應(yīng)用，諸如語音識別和理解。
在用于訓(xùn)練自動(dòng)語音識別器的適當(dāng)方法中，使用以較低頻率采樣并增加從密碼本檢索的帶寬擴(kuò)展信息的音頻數(shù)據(jù)，提供似乎以更高采樣頻率獲得的訓(xùn)練數(shù)據(jù)，足以生成所需訓(xùn)練數(shù)據(jù)。不必說，以較低頻率采樣的訓(xùn)練數(shù)據(jù)能與以所需頻率采樣的訓(xùn)練數(shù)據(jù)一起使用。
通過使用以更高頻率采樣的相對小的高質(zhì)量音頻數(shù)據(jù)集，構(gòu)建用在從以較低頻率采樣的音頻數(shù)據(jù)生成訓(xùn)練數(shù)據(jù)中的密碼本。分別對較高頻率的音頻數(shù)據(jù)，和下采樣到較低頻率的音頻數(shù)據(jù)計(jì)算第一和第二頻譜特性集。因此，第一和第二頻譜特性集均有效地描述相同的輸入音頻數(shù)據(jù)樣本。然而，第一集包含在第二集合中不存在的另外的高頻信息。因此，使用相應(yīng)的第一頻譜特性集，增加為第二頻譜特性集計(jì)算的密碼本項(xiàng)。
在本發(fā)明的一個(gè)實(shí)施例中，每一密碼本項(xiàng)可以包括來自第一和第二頻譜特性集的信息，最好以兩個(gè)集合彼此相關(guān)，而且保持分離的方式存儲。
在另一實(shí)施例中，每一密碼本項(xiàng)可以包括來自第二頻譜特性集的信息，以及從第一頻譜特性集提取的另外的帶寬擴(kuò)展信息。
根據(jù)用來構(gòu)建密碼本的較高頻率的音頻數(shù)據(jù)的質(zhì)量，有必要通過移除某些不希望的頻譜分量，諸如背景噪聲，修改音頻數(shù)據(jù)的頻譜。為此，對第二頻譜特性集，連續(xù)地計(jì)算平均值或平均頻譜。然后，在計(jì)算密碼本項(xiàng)前，從音頻數(shù)據(jù)的頻譜特性減去或消除平均頻譜。用這種方式，相對“清潔(clean)”的數(shù)據(jù)用于構(gòu)建密碼本。
類似地，以較低頻率采樣并用來生成用于自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)的音頻數(shù)據(jù)也可以要求頻譜改進(jìn)以便消除不希望的噪聲或溝道效應(yīng)。在音頻數(shù)據(jù)中存在的這種頻譜特征當(dāng)包含在訓(xùn)練數(shù)據(jù)中時(shí)，可能具有反面效果，以及最好通過由音頻數(shù)據(jù)連續(xù)地計(jì)算平均值或平均頻譜以及在從密碼本檢索帶寬擴(kuò)展信息前，從音頻數(shù)據(jù)的頻譜特性減去平均頻譜來消除。這確保為自動(dòng)語音識別器生成的訓(xùn)練數(shù)據(jù)基本上無不希望的噪聲或溝道效應(yīng)。
由于用于自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)應(yīng)當(dāng)真實(shí)地反映期望操作的環(huán)境的典型的音頻質(zhì)量，可以期望增加或插入適當(dāng)?shù)谋尘霸肼曅畔ⅲ蚱渌愃频念l譜特征。為此，可以調(diào)整帶寬擴(kuò)展頻譜特性的頻譜以便在可選處理步驟中修改其頻譜屬性。為計(jì)算方便，最好在線性域中執(zhí)行該處理步驟。這使得計(jì)算頻譜特性的反對數(shù)成為必要，這些應(yīng)當(dāng)以對數(shù)形式。然后，通過增加所需特征，修改音頻數(shù)據(jù)的頻譜。然后，根據(jù)需要，再次計(jì)算頻譜的對數(shù)，以便將頻譜返回到對數(shù)域中。
本發(fā)明的其他目的和特征從結(jié)合附圖考慮的下述詳細(xì)說明變得顯而易見。然而，應(yīng)理解到僅為示例目的設(shè)計(jì)了附圖，而不是本發(fā)明的限制的定義。

圖1是表示在自動(dòng)語音識別器的前端中的普通處理步驟的框圖；圖2是根據(jù)本發(fā)明的實(shí)施例，用于生成密碼本的系統(tǒng)的框圖；圖3是根據(jù)本發(fā)明的實(shí)施例，用于生成用于自動(dòng)語音識別器的訓(xùn)練數(shù)據(jù)的系統(tǒng)的框圖；圖4是表示用于在導(dǎo)出用于由圖2和3描述的系統(tǒng)的頻譜特性的模塊中的處理步驟的框圖；圖5是表示在用于導(dǎo)出用于由圖2描述的系統(tǒng)的頻譜特性的模塊中的處理步驟的框圖。
具體實(shí)施例方式
在圖1中，簡化表示示處了包含在處理輸入模擬音頻信號A以便生成用于在語音識別的后續(xù)階段中使用的音頻信號的特征向量V中的自動(dòng)語音識別器的典型前端中的階段。首先窗口化和以采樣頻率f采樣模擬音頻信號A，可以包括語音和噪聲分量，以便提供數(shù)字音頻樣本集。對每一數(shù)字樣本集執(zhí)行快速傅立葉變換(FFT)，提供相應(yīng)的傅立葉系數(shù)集。將這些依次轉(zhuǎn)送到濾波器組，其中，根據(jù)Bark或mel比例，以非線性方式構(gòu)造濾波器，以便計(jì)算信號的各個(gè)頻率分量的能量，提供濾波器組能量值集。以對數(shù)單位，對濾波器組能量值計(jì)算對數(shù)，以提供對數(shù)濾波器系數(shù)集。在對數(shù)濾波器組系數(shù)上執(zhí)行長期規(guī)格化(LTN)，以便規(guī)格化溝道效應(yīng)。然后，通過在對數(shù)頻譜系數(shù)上執(zhí)行離散余弦變換(DCT)，進(jìn)一步處理LTN輸出，以便提供特征向量V，在這種情況下為倒譜系數(shù)(cepstral coefficient)。在自動(dòng)語音識別器的另外的階段中，在該圖中未示出，特征向量V用于語音識別和語音理解。
圖2表示用于生成用在根據(jù)圖3的用于生成用于為采樣頻率fH構(gòu)建的以及將使用以較低頻率fL采樣的數(shù)據(jù)訓(xùn)練的自動(dòng)語音識別器2的訓(xùn)練數(shù)據(jù)的系統(tǒng)中密碼本的系統(tǒng)。通過模塊9，處理已經(jīng)以較高頻率fH采樣的音頻數(shù)據(jù)DCH，部分與在圖1中所述的自動(dòng)語音識別器的前端類似。同時(shí)，通過類似的模塊10，處理音頻數(shù)據(jù)。能分別在圖4和5中詳細(xì)看見模塊9和10。
圖4表示為從已經(jīng)通過窗口化和以所需采樣頻率f采樣模擬信號獲得的輸入音頻數(shù)據(jù)30，提取頻譜特性34構(gòu)建的模塊9。在塊41中處理樣本30以便計(jì)算FFT系數(shù)31，然后，在濾波器組單元42中過濾以便提供濾波器組功率值32，在對數(shù)塊43中計(jì)算其對數(shù)頻譜值33。在塊44中，在對數(shù)頻譜值33上執(zhí)行長期規(guī)格化以便提供頻譜特性集34。
圖5中的處理步驟的順序基本上與圖4相同，但具有在下采樣塊46中，下采樣輸入音頻數(shù)據(jù)30以便提供較低采樣頻率fL樣本的另一步驟。已經(jīng)使用相同的輸入樣本計(jì)算分別為音頻數(shù)據(jù)DCH計(jì)算并從塊9和10輸出的頻譜特性，即SCH和SCL，但SCH包含在SCL中不存在的較高頻率信息。
在可選單元20中，在它們與用來生成帶寬擴(kuò)展數(shù)據(jù)的音頻數(shù)據(jù)DL(圖3)相差不可忽略的量的情況下，能規(guī)格化溝道或附加噪聲特性。該單元20能包括溝道規(guī)格化或附加噪聲補(bǔ)償?shù)娜魏芜m當(dāng)?shù)难b置。在圖2中，例如，在平均頻譜計(jì)算塊17中，計(jì)算用于對數(shù)頻譜特性SCL的對數(shù)平均頻譜18，以及在平均減法塊19中，從對數(shù)頻譜特性SCL減去。能適當(dāng)?shù)睾喜K10和12以避免處理步驟重復(fù)，例如，在另外的噪聲/溝道補(bǔ)償要求在線性頻譜域中處理(在計(jì)算對數(shù)前)的情況下。如果在其頻譜表示SCL中顯示出的音頻數(shù)據(jù)DCH的溝道和噪聲特性的低頻部分非常接近音頻數(shù)據(jù)DL的那些，該可選單元20能省略。否則，使用該單元20來消除或規(guī)格化存在于音頻數(shù)據(jù)DCH中的溝道和噪聲效應(yīng)。
在密碼本項(xiàng)生成單元11中，對頻譜特性SCL集，計(jì)算用于密碼本6的密碼本項(xiàng)12。通過使用存在于相應(yīng)的頻譜特性SCH集并存儲在密碼本6中的較高頻率分量，增加或擴(kuò)展這些項(xiàng)12。因此，使用實(shí)際上已經(jīng)以較高頻率fH采樣，并包含否則將在向下采樣中丟失的一些或全部較高頻率信息的音頻數(shù)據(jù)，匯編包括用于以fL采樣的音頻數(shù)據(jù)的項(xiàng)的密碼本6。
能在圖3中看到如何使用該密碼本來生成用于構(gòu)造成在采樣頻率fH操作的自動(dòng)語音識別器2(fH)的訓(xùn)練數(shù)據(jù)。用于訓(xùn)練自動(dòng)語音識別器2(fH)的輸入音頻數(shù)據(jù)DL可在較低頻率fL獲得。在模塊3中首先處理輸入音頻數(shù)據(jù)DL，部分與已經(jīng)在圖1中所述的自動(dòng)語音識別器的前端類似，以提供頻譜特性集SL。以與用來在圖2所述的密碼本生成過程中處理音頻數(shù)據(jù)的模塊9相同的方式，構(gòu)建模塊3。這表示在兩種情況下，以相同的方式處理較高采樣頻率的音頻數(shù)據(jù)。
可選單元16表示圖2中的單元20的對應(yīng)單元。該單元16也能包括對應(yīng)于單元20，用于溝道規(guī)格化或另外的噪聲補(bǔ)償?shù)娜魏芜m當(dāng)?shù)难b置。因此，在該例子中，在平均頻譜計(jì)算塊13中，對對數(shù)頻譜特性SL計(jì)算對數(shù)平均頻譜14以及在平均減法塊15中，從對數(shù)頻譜特性SL中減去。如果音頻數(shù)據(jù)DL的溝道和噪聲特性與用來訓(xùn)練密碼本6的音頻數(shù)據(jù)DCH非常類似，也能省略該可選單元16。否則，使用ASR訓(xùn)練數(shù)據(jù)生成系統(tǒng)1的單元16和圖2的密碼本生成系統(tǒng)5的單元20來分別規(guī)格化音頻數(shù)據(jù)DL和DCH的溝道和噪聲特性。該步驟的原因是確保不會(huì)由于訓(xùn)練和使用密碼本間的溝道和/或背景噪聲不匹配，不利地引起密碼本查找的過程。
現(xiàn)在，通過從密碼本6檢索帶寬擴(kuò)展信息IBR，擴(kuò)展每一頻譜特性集SL的帶寬以便包括更高頻率分量。該帶寬擴(kuò)展信息IBE能從最接近匹配頻譜特性集SL的密碼本6中的項(xiàng)或模板獲得或經(jīng)加權(quán)內(nèi)插從所有項(xiàng)計(jì)算(見下文)。
將頻譜特性與密碼本中的模板匹配的過程很大程度上取決于構(gòu)成密碼本的方式。
在其最通用版本中，“隨機(jī)混合模型”用在密碼本中，用于模擬由以特定采樣頻率采樣的輸入數(shù)據(jù)獲得的頻譜特性的概率分布?；旌夏Ｐ褪菃畏甯怕拭芏群瘮?shù)的加權(quán)和。最通常和最簡單的處理單峰函數(shù)是高斯分布?？偤图訖?quán)表示用于混合分布的每一單個(gè)單峰分布(模式)的先驗(yàn)概率。為帶寬擴(kuò)展目的，混合模型的每一模式具有相關(guān)輸出向量。對每一輸入向量，對能導(dǎo)出每一模式的概率的每一混合模式，計(jì)算概率密度值。通過附屬于所計(jì)算的概率用作加權(quán)(加權(quán)內(nèi)插)的每一模式的輸出向量的加權(quán)總和，計(jì)算輸出向量(來自更高頻帶的輸入或另外部分的帶寬擴(kuò)展型)。
能將其他類型的密碼本和模板匹配方法(“密碼本查找”)視作上述混合模型的特殊情形或近似，諸如例如1.高斯混合模型，將高斯分布用于每一模式；2.將具有單位矩陣的高斯用作協(xié)方差矩陣。這些僅由它們的平均值表示。概率密度計(jì)算總計(jì)計(jì)算輸入向量和平均值間的“距離”；3.通過將其設(shè)置成對于具有最高概率的模型為1.0(“最接近”模式)和對于所有其他的為0.0，計(jì)算用于每一輸入向量的概率的近似值。
其中，輸出向量對應(yīng)于用來代替或擴(kuò)展頻譜特性SL的帶寬擴(kuò)展信息IBE以便提供頻譜特性集SL，E，似乎已經(jīng)通過以較高頻率fH采樣獲得。
在最終處理模塊7中，在塊23中，在對數(shù)頻譜上執(zhí)行離散余弦變換以便提供由自動(dòng)語音處理器2所需的特征向量或訓(xùn)練數(shù)據(jù)DT。訓(xùn)練數(shù)據(jù)DT能直接轉(zhuǎn)發(fā)到自動(dòng)語音處理器2的下一階段，或能存儲在數(shù)據(jù)庫21中，用于以后使用。
為反映自動(dòng)語音識別器2將操作的環(huán)境，能在可選塊8中，相應(yīng)地修改頻譜特性SL，E。該可選塊8在此示為最終處理模塊7的一部分，位于DCT前。例如，能將噪聲添加到頻譜上以便反映汽車中的噪聲環(huán)境。由于這種類型的操作應(yīng)當(dāng)在線性頻域中執(zhí)行，在再次增加噪聲頻譜和計(jì)算用于頻譜特性SL，E的對數(shù)前，首先計(jì)算用于頻譜特性SL，E的反對數(shù)。
盡管以優(yōu)選實(shí)施例和變形的形式公開了本發(fā)明，將理解到在不背離本發(fā)明的范圍的情況下，能做出各種另外的改進(jìn)和改變。用來描述輸入音頻的屬性的頻譜特性可以用作FFT系數(shù)、濾波器組功率值、對數(shù)頻譜系數(shù)或任何其他適當(dāng)?shù)念l譜描述(諸如小波等等)?？梢赃x擇將執(zhí)行帶寬擴(kuò)展的點(diǎn)以便最適合實(shí)現(xiàn)。同樣地，可以選擇相對于其他階段，設(shè)置LTN、DCT或其他處理階段的順序來適合實(shí)現(xiàn)的需求。
為清楚起見，還應(yīng)理解到在整個(gè)申請中使用“一”或“一個(gè)”不排除多個(gè)，以及“包括”不排除其他步驟或元件?！皢卧被颉澳K”可以包括多個(gè)塊或設(shè)備，除非清楚地描述為單一實(shí)體。以硬件的形式和/或通過實(shí)現(xiàn)軟件模塊，本領(lǐng)域的技術(shù)人員可以實(shí)現(xiàn)單元、模塊、塊和設(shè)備。術(shù)語“頻譜”和“頻譜的”也表示“倒譜”和“倒譜的”，根據(jù)Bark或mel比例，其指的是在翹曲后對數(shù)頻譜的FFT或DCT變換。
權(quán)利要求
1.一種用于生成用于以特定第一采樣頻率(fH)操作的自動(dòng)語音識別器(2)的訓(xùn)練數(shù)據(jù)(DT)的方法，包括下述步驟-從以低于第一采樣頻率(fH)的第二采樣頻率(fL)采樣的音頻數(shù)據(jù)(DL)導(dǎo)出頻譜特性(SL)；-通過從密碼本(6)檢索帶寬擴(kuò)展信息(IBE)擴(kuò)展頻譜特性(SL)的帶寬；-處理帶寬擴(kuò)展頻譜特性(SLE)以便產(chǎn)生所需訓(xùn)練數(shù)據(jù)(DT)。
2.如權(quán)利要求1所述的方法，其中，將音頻數(shù)據(jù)(DH，DL)轉(zhuǎn)換成頻譜特性集(SH，SL)包括計(jì)算音頻數(shù)據(jù)(DH，DL)的FFT以便產(chǎn)生傅立葉系數(shù)集(31)以及用濾波器組(22)過濾FFT的輸出以便產(chǎn)生濾波器組功率值集(32)。
3.如權(quán)利要求2所述的方法，其中，將音頻數(shù)據(jù)(DH，DL)轉(zhuǎn)換成頻譜特性集(SH，SL)包括處理FFT系數(shù)(31)或?yàn)V波器組功率值(32)以便產(chǎn)生對數(shù)頻譜系數(shù)集(33)。
4.如權(quán)利要求1至3的任何一個(gè)所述的方法，其中，處理帶寬擴(kuò)展頻譜特性(SL，E)包括改變頻譜以便調(diào)整音頻數(shù)據(jù)(DL)的信號屬性的步驟。
5.如權(quán)利要求4所述的方法，其中，在線性域中執(zhí)行改變頻譜以便調(diào)整音頻數(shù)據(jù)(DL)的信號屬性的步驟。
6.如權(quán)利要求1至5的任何一個(gè)所述的方法，其中，從音頻數(shù)據(jù)(DL)導(dǎo)出頻譜特性(SL)在從頻譜特性(SL)減去平均頻譜的步驟后。
7.一種用于訓(xùn)練自動(dòng)語音識別系統(tǒng)(2)的方法，其中，用于訓(xùn)練的數(shù)據(jù)(DL)至少部分使用根據(jù)權(quán)利要求1至6的任何一個(gè)的方法生成。
8.一種用于生成密碼本(6)的方法，用于將用于以第二采樣頻率(fL)采樣的音頻數(shù)據(jù)(DL)的頻譜特性(SL)的帶寬擴(kuò)展到用于高于第二采樣頻率(fL)的第一采樣頻率(fH)的頻譜特性(SH)，包括用于密碼本(6)的每一項(xiàng)的下述步驟-從以第一采樣頻率(fH)采樣的音頻數(shù)據(jù)(DCH)導(dǎo)出第一頻譜特性集(SCH)；-在音頻數(shù)據(jù)(DCH)上執(zhí)行到第二采樣頻率(fL)的采樣速率變換，以及導(dǎo)出相應(yīng)的第二頻譜特性集(SCL)；-基于第二頻譜特性集(SCL)生成密碼本項(xiàng)(12)以及向密碼本項(xiàng)(12)增加來自第一頻譜特性集(SH)的另外的較高頻率信息。
9.如權(quán)利要求8所述的方法，其中，增加密碼本項(xiàng)(12)包括從屬于高于第二采樣頻率(fL)的頻率的相應(yīng)的第一頻譜特性集(SH)抽取信息，以及將該信息附加到密碼本(6)的密碼本項(xiàng)(12)。
10.如權(quán)利要求8或9所述的方法，其中，導(dǎo)出第二頻譜特性集(SCL)在背景降噪和/或溝道規(guī)格化步驟后。
11.如權(quán)利要求10所述的方法，其中，頻譜特性(SCL)包括對數(shù)頻譜表示，以及通過從對數(shù)頻譜特性(SCL)減去平均對數(shù)頻譜，執(zhí)行溝道規(guī)格化。
12.如權(quán)利要求10所述的方法，其中，頻譜特性(SCL)包括線性頻譜表示，以及通過從線性頻譜特性(SCL)減去背景噪聲頻譜，執(zhí)行背景降噪。
13.如權(quán)利要求11和12所述的方法，其中，通過從線性頻譜特性(SCL)減去背景噪聲頻譜，接著，計(jì)算對數(shù)，然后從對數(shù)頻譜特性減去平均對數(shù)頻譜，執(zhí)行背景降噪。
14.一種用于生成用于以特定第一采樣頻率(fH)操作的自動(dòng)語音識別器(2)的訓(xùn)練數(shù)據(jù)(DT)的系統(tǒng)，包括-轉(zhuǎn)換器(3)，用于由以低于第一采樣頻率(fH)的第二采樣頻率(fL)采樣的音頻數(shù)據(jù)(DC)導(dǎo)出頻譜特性(SL)；-檢索單元(4)，用于從密碼本(6)檢索用于頻譜特性(SL)的帶寬擴(kuò)展信息；-處理模塊(7)，用于處理帶寬擴(kuò)展頻譜特性(SL，E)以便產(chǎn)生所需訓(xùn)練數(shù)據(jù)(DT)。
15.一種用于生成密碼本(6)的系統(tǒng)(5)，用于將用于以第二采樣頻率(fL)采樣的音頻數(shù)據(jù)(DL)的頻譜特性集(SL)的帶寬擴(kuò)展到用于高于第二采樣頻率(fL)的第一采樣頻率(fH)的頻譜特性(SH)，包括-轉(zhuǎn)換器(9)，用于從以第一采樣頻率(fH)采樣的音頻數(shù)據(jù)(DCH)導(dǎo)出第一頻譜特性集(SCH)；-模塊(10)，用于在音頻數(shù)據(jù)(DCH)上執(zhí)行到第二采樣頻率(fL)的采樣速率變換，以及用于導(dǎo)出用于第二采樣頻率(fL)的相應(yīng)的第二頻譜特性集(SCL)；密碼本項(xiàng)生成器(12)，用于基于第二頻譜特性集(SCL)生成用于密碼本(6)的項(xiàng)(12)以及用于向密碼本項(xiàng)(12)增加來自相應(yīng)的第一頻譜特性集(SCH)的另外的較高頻率信息。
全文摘要
本發(fā)明描述了用于生成用于以特定第一采樣頻率(f
文檔編號G10L15/065GK101014997SQ200580005136
公開日2007年8月8日申請日期2005年2月10日優(yōu)先權(quán)日2004年2月18日
發(fā)明者A·菲舍爾, R·D·比普斯申請人:皇家飛利浦電子股份有限公司

完整全部詳細(xì)技術(shù)資料下載