改進的用于asr的混合控制器的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明一般滴地涉及自動語音識別(ASR),更具體地說,涉及移動設(shè)備上的客戶 機-服務(wù)器ASR。
【背景技術(shù)】
[0002] 自動語音識別(ASR)系統(tǒng)確定語音輸入的語義含義。典型地,輸入語音被處理為 數(shù)字語音特征幀的序列。每一語音特征幀可被認為是多維向量,其表示在語音的短時窗期 間呈現(xiàn)的語音信號的各種特性。例如每一語音幀的多維向量可從語音信號的短時傅立葉變 換頻譜的倒頻譜特征(MFCC) -一給定頻帶的短時功率或分量一一以及相應(yīng)的一階和二階 導(dǎo)數(shù)("delta"和"delta-delta")而得出。在連續(xù)識別系統(tǒng)中,可變數(shù)量的語音幀組織 成"話語"一一其表示停頓之前的一段語音,這在現(xiàn)實生活中松散地對應(yīng)于所說的句子或短 語。
[0003] ASR系統(tǒng)對比輸入話語以找出與向量序列特性最佳匹配的統(tǒng)計聲學(xué)模型,并確定 與聲學(xué)模型相關(guān)聯(lián)的對應(yīng)的文字表示。更正式地,給定一些輸入觀察值A(chǔ),特定詞串W被說 出的概率表示為P (W|A),其中ASR系統(tǒng)試圖確定最可能的詞串:
【主權(quán)項】
1. 一種適于自動語音識別(ASR)的移動設(shè)備,包括: 用于接收來自用戶的未知語音輸入信號的語音輸入部; 本地控制器,用于: a. 確定是否滿足遠程ASR處理條件, b. 將語音輸入信號轉(zhuǎn)換成多種不同的語音表示類型中的所選類型,和 c. 發(fā)送轉(zhuǎn)換后的語音輸入信號至遠程服務(wù)器用于遠程ASR處理; 本地ASR布置,用于執(zhí)行語音輸入的本地ASR處理,本地ASR處理包括處理從遠程服務(wù) 器接收到的任何語音識別結(jié)果。
2. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中本地控制器與遠程ASR處理條件是否被滿足無 關(guān)地轉(zhuǎn)換語音輸入信號并發(fā)送轉(zhuǎn)換后的語音輸入信號。
3. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中本地控制器只有在遠程ASR處理條件被滿足時 轉(zhuǎn)換語音輸入信號和發(fā)送轉(zhuǎn)換后的語音輸入信號。
4. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中如果本地控制器確定遠程ASR條件不被滿足,則 本地控制器暫停轉(zhuǎn)換語音輸入信號和發(fā)送轉(zhuǎn)換后的語音輸入信號。
5. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中即使遠程ASR處理條件滿足,本地ASR布置仍繼 續(xù)本地ASR處理。
6. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中如果遠程ASR處理條件滿足,則本地ASR布置過 程暫停除處理從遠程服務(wù)器接收到的語音識別結(jié)果之外的本地ASR處理。
7. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中當(dāng)本地ASR布置執(zhí)行本地ASR處理時,本地控制 器確定遠程ASR處理條件是否滿足。
8. 根據(jù)權(quán)利要求7所述移動設(shè)備,其中在本地控制器確定遠程ASR處理條件滿足之后, 本地控制器從語音輸入信號起始點開始,開始發(fā)送轉(zhuǎn)換后的語音信號至遠程服務(wù)器。
9. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中在本地ASR布置產(chǎn)生識別結(jié)果之后,本地控制器 確定遠程ASR處理條件是否滿足。
10. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中本地控制器基于語音表示類型的不同帶寬特 性來選擇語音表示類型中的一種。
11. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中遠程ASR處理條件是根據(jù)與語音輸入信號的本 地ASR處理相關(guān)聯(lián)的識別置信度的。
12. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中遠程ASR處理條件是根據(jù)移動設(shè)備與遠程服務(wù) 器之間的連接狀態(tài)的。
13. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中遠程ASR處理條件是根據(jù)與遠程ASR處理相關(guān) 聯(lián)的預(yù)計準確性效益的。
14. 根據(jù)權(quán)利要求13所述移動設(shè)備,其中預(yù)計準確性效益基于反映應(yīng)用狀態(tài)和對話上 下文中的一個或兩個的元數(shù)據(jù)功能。
15. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中遠程ASR處理條件是根據(jù)本地ASR處理延遲特 性和遠程ASR處理延遲特性中一個或兩個的。
16. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中遠程ASR處理條件是根據(jù)識別成本特性的。
17. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中多種不同的語音識別類型包括以下中的一個 或多個:ASR特征向量、有損壓縮語音、無損壓縮語音和未壓縮語音。
18. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中確定遠程ASR處理條件是否被滿足反映基于語 音識別操作的隨時間的適應(yīng)過程。
19. 根據(jù)權(quán)利要求18所述移動設(shè)備,其中適應(yīng)過程是自動化無監(jiān)督的適應(yīng)過程。
20. 根據(jù)權(quán)利要求1所述移動設(shè)備,其中來自遠程服務(wù)器的識別結(jié)果包括以下中的一 個或多個:未格式化的識別文本、格式化的識別文本和語義解釋。
【專利摘要】描述了一種適于自動語音識別(ASR)的移動設(shè)備。語音輸入部接收來自用戶的未知語音輸入信號。本地控制器確定遠程ASR處理條件是否滿足,將語音輸入信號轉(zhuǎn)換為許多不同的語音表示類型中的所選一種,并發(fā)送轉(zhuǎn)換后的語音輸入信號到遠程服務(wù)器用于遠程ASR處理。本地ASR布置執(zhí)行語音輸入的本地ASR處理,本地ASR處理包括處理從遠程服務(wù)器接收到的任何語音識別結(jié)果。
【IPC分類】G10L15-30
【公開號】CN104769668
【申請?zhí)枴緾N201280076276
【發(fā)明人】D·維利特, 吳建雄, P·沃茲拉, W·F·甘農(nóng)三世
【申請人】紐昂斯通訊公司
【公開日】2015年7月8日
【申請日】2012年10月4日
【公告號】EP2904608A1, US20150279352, WO2014055076A1