專利名稱:智能語音識別方法和芯片、云設(shè)備以及云服務(wù)器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及基于云解析的語音識別技術(shù)領(lǐng)域,特別涉及智能語音識別方法和芯片、云設(shè)備以及云服務(wù)器。
背景技術(shù):
隨著電子產(chǎn)品向智能化方向發(fā)展,語音識別需要從小詞匯量、孤立詞識別、特定人識別等簡單任務(wù)發(fā)展到大詞匯量、連續(xù)語音、非特定人識別任務(wù)。目前的語音識別芯片或模塊主要分為兩類特定說話者的語音識別和與說話者無關(guān)的語音識別。針對特定說話者的語音識別,需要說話者對每個(gè)識別詞語進(jìn)行訓(xùn)練,詞匯量有一定限制;與說話者無關(guān)的語音識別,不限定說話人,但命令的識別數(shù)量由系統(tǒng)的存儲空間的容量決定,非常有限。可見,現(xiàn)有的語音識別的智能化程度不高。發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供一種智能語音識別芯片,方法以及云解析系統(tǒng)、云設(shè)備、云服務(wù)器。
在第一方面,本發(fā)明提供一種智能語音識別芯片,其特征在于,所述芯片包括采集轉(zhuǎn)換模塊,用于采集環(huán)境中的語音信號,經(jīng)過A/D轉(zhuǎn)換得到數(shù)字語音信號;處理模塊,用于接收數(shù)字語音信號,并對該數(shù)字語音信號進(jìn)行檢測,當(dāng)檢測到引導(dǎo)詞時(shí)從該數(shù)字語音信號提取語音特征數(shù)據(jù),當(dāng)檢測到端點(diǎn)時(shí)停止提取語音特征數(shù)據(jù);存儲模塊,用于存儲處理模塊提取的語音特征數(shù)據(jù);輸入輸出模塊,用于輸出存儲模塊存儲的語音特征數(shù)據(jù)。
在第二方面,本發(fā)明提供一種云設(shè)備,所述云設(shè)備包括所述的智能語音識別芯片, 以及CPU,其中CPU,用于接收智能語音識別芯片傳送的語音特征數(shù)據(jù),并將其轉(zhuǎn)交給云服務(wù)器。
在第三方面,本發(fā)明提供一種云服務(wù)器,所述云服務(wù)器包括數(shù)據(jù)接收模塊,用于接收云設(shè)備轉(zhuǎn)交的語音特征數(shù)據(jù);數(shù)據(jù)解析模塊,用于解析接收的語音特征數(shù)據(jù),得到一條或多條命令;命令返回模塊,用于將得到的一條或多條命令返回給云設(shè)備。
在第四方面,本發(fā)明提供一種云解析系統(tǒng),其特征在于,所述系統(tǒng)包括如第二方面所述的云設(shè)備,以及如第三方面所述的云服務(wù)器。
在第五方面,本發(fā)明提供一種智能語音識別方法,所述方法包括采集環(huán)境中的語音信號,經(jīng)過A/D轉(zhuǎn)換得到數(shù)字語音信號;對該數(shù)字語音信號檢測引導(dǎo)詞或端點(diǎn);檢測到引導(dǎo)詞時(shí),開始提取語音特征數(shù)據(jù),檢測端點(diǎn)時(shí),停止提取語音特征數(shù)據(jù);解析提取的語音特征數(shù)據(jù),得到對應(yīng)的語音命令。
本發(fā)明將云解析應(yīng)用于語音識別,提高了語音識別的成功率,簡化了語音識別芯片的結(jié)構(gòu)。
下面將參照附圖對本發(fā)明的具體實(shí)施方案進(jìn)行更詳細(xì)的說明,在附圖中
圖1是本發(fā)明實(shí)施例的云解析系統(tǒng)示意圖2是本發(fā)明實(shí)施例的智能語音芯片示意圖3是本發(fā)明實(shí)施例的智能語音芯片工作流程示意圖4是本發(fā)明實(shí)施例的云設(shè)備工作流程示意圖5是本發(fā)明實(shí)施例的云服務(wù)器工作流程示意圖。
具體實(shí)施方式
下面結(jié)合附圖及具體實(shí)施例對本發(fā)明作進(jìn)一步的描述。
圖1是本發(fā)明實(shí)施例的云解析系統(tǒng)示意圖。如圖1所示,所述云解析系統(tǒng)包括云服務(wù)器、云設(shè)備。所述的云設(shè)備包括智能語音識別芯片以及中央處理器CPU。智能語音識別芯片用于記錄環(huán)境中的語音信號,將其轉(zhuǎn)換為數(shù)字語音信號,并將數(shù)字語音信號中的語音特征數(shù)據(jù)提取出來通過總線發(fā)送給云設(shè)備的CPU。中央處理器CPU將所述的語音特征數(shù)據(jù)上傳至云服務(wù)器。云服務(wù)器用于解析所述的語音特征數(shù)據(jù)后得到一條或多條命令,將所述命令返回給云設(shè)備。所述的云設(shè)備還進(jìn)一步用于執(zhí)行所述的命令。
所述的云設(shè)備優(yōu)選是電視,也可能是其它設(shè)備,比如機(jī)頂盒,個(gè)人電腦,手機(jī)等,在此不做限定。
所述的云服務(wù)器優(yōu)選地是語音云服務(wù)器,也可能是其它類型的云服務(wù)器,例如語音和視頻綜合云服務(wù)器,在此不做限定。
圖2是本發(fā)明實(shí)施例的智能語音芯片示意圖。如圖2所示,智能語音芯片包括采集模塊、處理模塊、輸入輸出模塊和存儲模塊。采集模塊用以對環(huán)境中的語音進(jìn)行實(shí)時(shí)采樣, 經(jīng)過A/D轉(zhuǎn)換將模擬語音信號變成數(shù)字語音信號。處理模塊用來對數(shù)字語音信號進(jìn)行預(yù)處理,包括引導(dǎo)詞檢測、端點(diǎn)檢測、提取特征數(shù)據(jù)、壓縮編碼、數(shù)據(jù)打包等操作。存儲模塊用于存儲處理模塊提取的特征數(shù)據(jù)。輸入輸出模塊用來請求云設(shè)備的CPU接收數(shù)據(jù),并將打包后的數(shù)據(jù)輸出給CPU以便上傳給云服務(wù)器,接收CPU指令等。
要說明的是,上述存儲模塊存儲處理模塊提取的特征數(shù)據(jù)。可以是處理模塊一邊提取特征數(shù)據(jù),一邊暫且交予一緩存器存儲,待從引導(dǎo)詞到端點(diǎn)之間數(shù)字語音信號的所有特征數(shù)據(jù)提取完畢,再將所提取的全部特征數(shù)據(jù)交予存儲模塊進(jìn)行存儲。也可以是處理模塊一邊提取特征數(shù)據(jù),一邊暫且交予一緩存器存儲,然后分批將積累的部分特征數(shù)據(jù)交予存儲模塊進(jìn)行存儲。在此不做限定。
圖3是本發(fā)明實(shí)施例的智能語音芯片工作流程示意圖。如圖3所示,在步驟300, 智能語音芯片的采集模塊實(shí)時(shí)進(jìn)行語音采樣,將環(huán)境中的模擬語音信號轉(zhuǎn)換為數(shù)字語音信號提交給處理模塊。
在步驟302,處理模塊檢測語音信號中是否有引導(dǎo)詞。具體地說,處理模塊接收到采集模塊生成的數(shù)字語音信號后,對數(shù)字語音信號進(jìn)行檢測。當(dāng)檢測到引導(dǎo)詞的特征信號時(shí)認(rèn)定說話者開始對云設(shè)備發(fā)出語音指令,進(jìn)入步驟304,處理模塊開始提取數(shù)字語音信號中的語音特征數(shù)據(jù)。上述的引導(dǎo)詞的特征信號例如是“電視音量大點(diǎn)”中的“電視”; 語音特征數(shù)據(jù)是由數(shù)字語音信號依據(jù)一定算法經(jīng)過運(yùn)算得到的一組數(shù)據(jù),例如是通過計(jì)算 LPCC (Linear Predictive Cepstral Coding,線性預(yù)測倒普參數(shù))得到的語音特征數(shù)據(jù),亦或是通過計(jì)算MFCC (Mel-scaled cepstrum coefficients,Mel尺度倒普參數(shù))得到的語音特征數(shù)據(jù)等。
在步驟306,處理模塊檢測語音信號中是否有端點(diǎn)。具體地說,在處理模塊開始提取語音特征數(shù)據(jù)之后,處理模塊會檢測數(shù)字語音信號中是否有端點(diǎn)。當(dāng)檢測到端點(diǎn)時(shí)認(rèn)定說話者已停止發(fā)出語音指令,此時(shí)進(jìn)入步驟308,處理模塊停止提取語音特征數(shù)據(jù)。所述的端點(diǎn)是指說話者發(fā)出語音指令的結(jié)束點(diǎn),檢測端點(diǎn)便于芯片只存儲和處理有效的數(shù)字語音信號。所述的檢測端點(diǎn)是依據(jù)一定算法計(jì)算數(shù)字語音信號的某個(gè)參數(shù),例如是短時(shí)能量,短時(shí)過零率等,作為判斷是否是端點(diǎn)的標(biāo)準(zhǔn)。
在步驟310,處理模塊通過輸入輸出模塊將提取的語音特征數(shù)據(jù)輸出至云設(shè)備的 CPU。在一個(gè)例子中,在所述將提取的語音特征數(shù)據(jù)輸出至云設(shè)備的CPU之前,處理模塊對其進(jìn)行壓縮編碼,以減小對存儲空間的占用,再進(jìn)行打包處理,以保證在云網(wǎng)絡(luò)中數(shù)據(jù)傳輸?shù)陌踩院头€(wěn)定性。最后處理模塊將打包后的語音特征數(shù)據(jù)經(jīng)輸入輸出模塊輸出至云設(shè)備的 CPU。
在一個(gè)例子中,在傳輸所述的打包后的語音特征數(shù)據(jù)前,輸入輸出模塊向CPU發(fā)出數(shù)據(jù)發(fā)送請求,CPU準(zhǔn)備好接收數(shù)據(jù)時(shí)返回應(yīng)答消息。輸入輸出模塊接收到CPU返回的應(yīng)答消息后向CPU發(fā)送打包數(shù)據(jù)。
要說明的是,上述智能語音識別芯片的處理模塊所負(fù)責(zé)的壓縮編碼、打包過程也可以直接交給云設(shè)備的CPU來完成。也即,在步驟310中,將步驟306和步驟308中所提取的語音特征數(shù)據(jù)直接傳送給云設(shè)備的CPU,由該云設(shè)備的CPU進(jìn)行壓縮編碼、打包之后再提交給云服務(wù)器。而且,更進(jìn)一步地,在整個(gè)云設(shè)備中也可以不對步驟306和步驟308中所提取的語音特征數(shù)據(jù)進(jìn)行壓縮編碼以及打包。即在步驟310中,將所提取的語音特征數(shù)據(jù)直接傳送給云設(shè)備的CPU,再經(jīng)云設(shè)備的CPU直接提交給云服務(wù)器。
圖4是本發(fā)明實(shí)施例的云設(shè)備工作流程示意圖。如圖4所示,在步驟400中,云設(shè)備的CPU接收到來自智能語音識別芯片的語音特征數(shù)據(jù);在步驟402中,將該語音特征數(shù)據(jù)上傳給云網(wǎng)絡(luò)中的云服務(wù)器供其進(jìn)行解析。
待云服務(wù)器解析完畢后,在步驟404中,云設(shè)備的CPU接收云服務(wù)器返回的命令組,例如“音量”、“大點(diǎn)”,然后在步驟406中,根據(jù)命令組中的命令執(zhí)行操作,例如將音量設(shè)置調(diào)大一級,得以實(shí)現(xiàn)說話者對云設(shè)備的語音控制。
圖5是本發(fā)明實(shí)施例的云服務(wù)器工作流程示意圖。如圖5所述,在步驟500中,云服務(wù)器接收到云設(shè)備的CPU上傳的語音特征數(shù)據(jù),進(jìn)入步驟502,對所述的語音特征數(shù)據(jù)進(jìn)行解析。在一個(gè)例子中,如果所述的語音特征數(shù)據(jù)是經(jīng)過壓縮編碼以及打包處理的,則需要對所述語音特征數(shù)據(jù)進(jìn)行組包解包,然后將組包解包后的數(shù)據(jù)進(jìn)行解碼、解壓縮得到中間數(shù)據(jù),再對該中間數(shù)據(jù)進(jìn)行語音特征解析,識別出所含的語音命令信息并轉(zhuǎn)化為可供云設(shè)備操作的命令組,最后將命令組回傳給云設(shè)備。所述的語音命令信息可以是“音量大點(diǎn)”,所述的命令組可以是“設(shè)置音量”,以及“增大一級”。云設(shè)備接收到命令組后即可執(zhí)行相應(yīng)操作,例如將音量增大一級。
在一個(gè)例子中,云服務(wù)器在執(zhí)行上述語音特征解析時(shí)需要借助于一個(gè)配置數(shù)據(jù)庫,在該配置數(shù)據(jù)庫中預(yù)先設(shè)置了一些命令模板,比如對應(yīng)“音量調(diào)大一些”的語音特征可以匹配命令組“設(shè)置音量”,以及“增大一級”。所述的配置數(shù)據(jù)庫需要在執(zhí)行語音識別之前提前設(shè)置于所述的云服務(wù)器中。
本發(fā)明實(shí)施例的語音識別基于云服務(wù)器的云解析,而一般的云服務(wù)器具有很大的存儲容量以及很強(qiáng)的處理能力,因此本發(fā)明實(shí)施例能夠滿足語音識別的高智能化、海量處理、及時(shí)響應(yīng)、操作簡便等需求。
最后說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1.一種智能語音識別芯片,其特征在于,所述芯片包括采集轉(zhuǎn)換模塊,用于采集環(huán)境中的語音信號,經(jīng)過A/D轉(zhuǎn)換得到數(shù)字語音信號; 處理模塊,用于接收數(shù)字語音信號,并對該數(shù)字語音信號進(jìn)行檢測,當(dāng)檢測到引導(dǎo)詞時(shí)從該數(shù)字語音信號提取語音特征數(shù)據(jù),當(dāng)檢測到端點(diǎn)時(shí)停止提取語音特征數(shù)據(jù); 存儲模塊,用于存儲處理模塊提取的語音特征數(shù)據(jù); 輸入輸出模塊,用于輸出存儲模塊存儲的語音特征數(shù)據(jù)。
2.—種云設(shè)備,其特征在于,所述云設(shè)備包括如權(quán)利要求1所述的智能語音識別芯片, 以及CPU,其中CPU,用于接收智能語音識別芯片傳送的語音特征數(shù)據(jù),并將其轉(zhuǎn)交給云服務(wù)器。
3.—種云服務(wù)器,其特征在于,所述云服務(wù)器包括 數(shù)據(jù)接收模塊,用于接收云設(shè)備轉(zhuǎn)交的語音特征數(shù)據(jù);數(shù)據(jù)解析模塊,用于解析接收的語音特征數(shù)據(jù),得到一條或多條命令; 命令返回模塊,用于將得到的一條或多條命令返回給云設(shè)備。
4.一種云解析系統(tǒng),其特征在于,所述系統(tǒng)包括如權(quán)利要求2所述的云設(shè)備,以及如權(quán)利要求3的云服務(wù)器。
5.一種智能語音識別方法,其特征在于,所述方法包括 采集環(huán)境中的語音信號,經(jīng)過A/D轉(zhuǎn)換得到數(shù)字語音信號; 對該數(shù)字語音信號檢測引導(dǎo)詞或端點(diǎn);檢測到引導(dǎo)詞時(shí),開始提取語音特征數(shù)據(jù),檢測到端點(diǎn)時(shí),停止提取語音特征數(shù)據(jù); 解析提取的語音特征數(shù)據(jù),得到對應(yīng)的語音命令。
6.如權(quán)利要求5的方法,其特征在于,所述解析提取的語音特征數(shù)據(jù)包括 將提取的語音特征數(shù)據(jù)交給云服務(wù)器進(jìn)行解析。
全文摘要
本發(fā)明實(shí)施例公開了一種智能語音識別芯片、方法以及云解析系統(tǒng)、云設(shè)備、云服務(wù)器。其中智能語音識別芯片包括采集轉(zhuǎn)換模塊,用于采集環(huán)境中的語音信號,經(jīng)過A/D轉(zhuǎn)換得到數(shù)字語音信號,將所述數(shù)字語音信號發(fā)送給處理模塊;處理模塊,用于接收數(shù)字語音信號,并對該數(shù)字語音信號進(jìn)行檢測,當(dāng)檢測到引導(dǎo)詞時(shí)從該數(shù)字語音信號提取語音特征數(shù)據(jù),當(dāng)檢測到端點(diǎn)時(shí)停止提取語音特征數(shù)據(jù);存儲模塊,用于存儲處理模塊提取的語音特征數(shù)據(jù);輸入輸出模塊,用于輸出存儲模塊存儲的語音特征數(shù)據(jù)。本發(fā)明提高了語音識別的成功率、簡化了芯片結(jié)構(gòu)。
文檔編號G10L15/26GK102543083SQ20121007072
公開日2012年7月4日 申請日期2012年3月16日 優(yōu)先權(quán)日2012年3月16日
發(fā)明者劉巍 申請人:北京海爾集成電路設(shè)計(jì)有限公司