專利名稱:一種基于sopc的可進化的語音識別紅外控制器的制作方法
一種基于SOPC的可進化的語音識別紅外控制器技術(shù)領(lǐng)域
本發(fā)明屬于語音控制技術(shù)領(lǐng)域,具體涉及一種基于SOPC的可進化的語音識別紅外控制器。
背景技術(shù):
SOPC (System On Programmable Chip)系統(tǒng)是以基于FPGA的軟核或硬核處理器和外周電路構(gòu)成的SOC(System on Chip)系統(tǒng)。其基本思想是構(gòu)建以應(yīng)用為中心,以計算機技術(shù)為基礎(chǔ),以可編程芯片為載體,軟硬件可剪裁、可重構(gòu)、可進化,可靠性,成本,體積,功耗有著嚴格要求的專用計算機系統(tǒng)。
語音識別技術(shù),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入, 例如按鍵、二進制編碼或者字符序列?;谔囟ㄈ斯铝⒃~的語音識別系統(tǒng)的主要目的是通過分析和提取特定人的孤立詞語音命令聲學(xué)特征,以獲取語音詞匯的特征訓(xùn)練庫作為語音命令匹配的主要依據(jù)。聲學(xué)特征的提取與選擇是語音識別的一個重要環(huán)節(jié)。聲學(xué)特征的提取既是一個信息大幅度壓縮的過程,也是一個信號解卷過程,目的是使模式劃分器能更好地劃分。
紅外控制技術(shù)是一種利用紅外線進行點對點通信的技術(shù),它在技術(shù)上的主要優(yōu)點是1、無需專門申請?zhí)囟l率的使用執(zhí)照;2、具有移動通信設(shè)備所必需的體積小、功率低的特點;3、傳輸速率適合于家庭和辦公室使用的網(wǎng)絡(luò);4、信號無干擾,傳輸準確度高;5、成本低廉。
然而,首先,現(xiàn)有的家用電子設(shè)備的紅外控制器往往由于廠商標準的差異采用不同協(xié)議速率和數(shù)據(jù)格式,彼此難以兼容并且種類繁多,為了使用多種設(shè)備,用戶不得不頻繁切換于不同的控制器之間。另一方面,紅外控制設(shè)備的功能趨于復(fù)雜,對視覺障礙和高齡用戶群體具有非常不友好的用戶體驗。其次,現(xiàn)有的語音識別控制技術(shù)往往關(guān)注于新產(chǎn)品的應(yīng)用與推廣,而忽略了巨大的用戶現(xiàn)有的傳統(tǒng)設(shè)備的保有量。導(dǎo)致用戶為了體驗語音識別控制技術(shù)的便捷,不得不購置提供相應(yīng)功能的設(shè)備,需要付出可觀的成本。最后,現(xiàn)有的成本敏感的SOC系統(tǒng),產(chǎn)品一旦硬件設(shè)計實現(xiàn)完成,系統(tǒng)結(jié)構(gòu)和功能就被固化,不能再加以進化和升級。
而本發(fā)明提出的基于SOPC的可進化的語音識別紅外控制器則通過提供了一個兼容性高,可采樣且非揮發(fā)性保存的紅外信號采集機制,具備了整合不同種紅外設(shè)備功能無需手動切換的能力。并進一步將其與語音識別技術(shù)相結(jié)合,以語音命令代替按鍵操作,為用戶,特別是視覺障礙人士以及高齡用戶提供了友好的用戶體驗。同時,還將系統(tǒng)的硬件實現(xiàn)基于可重構(gòu)的低成本FPGA技術(shù),從根本上改變了傳統(tǒng)產(chǎn)品硬件無法升級的局面。本發(fā)明可以通過對設(shè)備的重新配置而達到硬件升級和進化的目的。發(fā)明內(nèi)容
本發(fā)明的目的在于針對當(dāng)前家用消費電子設(shè)備的紅外控制器的種類繁復(fù)使用不便的問題,提供了一種無關(guān)現(xiàn)有設(shè)備預(yù)置功能的、低成本、可進化的語音識別紅外控制器。
本發(fā)明提供的可進化的語音識別紅外控制器,是基于SOPC的,該控制器采用低成本的FPGA實現(xiàn)的可配置的軟核處理器、數(shù)字信號處理部件以及外周存儲電路和紅外收發(fā)器作為核心單元,采用軟件控制和硬件處理協(xié)同工作,在減少系統(tǒng)復(fù)雜性的同時,實現(xiàn)了低成本的、基于現(xiàn)有家用紅外設(shè)備的語音識別控制器。
本發(fā)明的可進化的基于SOPC的語音紅外控制器,包括可配置軟核處理器及其接口、數(shù)字信號處理部件、FLASH存儲器、語音編碼器、紅外收發(fā)器和LCD模塊,其中所述的可配置軟核處理器及其接口,采用Altera公司生產(chǎn)的Cyclone II EP-2C35實現(xiàn),其內(nèi)部包括軟核處理器、紅外FIFO接口電路、FLASH控制器。所述軟核處理器作為控制單元,負責(zé)通過執(zhí)行用戶軟件指令,實現(xiàn)語音數(shù)據(jù)與紅外控制數(shù)據(jù)的采集、調(diào)度和模板匹配;所述紅外FIFO接口電路提供與軟核處理器內(nèi)部總線匹配的數(shù)據(jù)采集接口,以方便通過軟件指令來調(diào)度和匹配紅外控制信號;所述FLASH控制器負責(zé)匹配片外FLASH存儲器的讀寫時序,以保證可靠的數(shù)據(jù)讀寫。
所述的數(shù)字信號處理部件,是指運算Mel倒譜特征參數(shù)的所有硬線數(shù)據(jù)處理單元,包括256點FFT、Mel濾波器、離散余弦變換單元。所采集到的語音信號通過256點FFT運算得到語音信號的功率譜;Mel濾波器為一組Mel頻標上線性分布的三角窗濾波器,用于對語音信號的功率譜進行濾波,以此模擬人耳的掩蔽效應(yīng);離散余弦變換單元(Discrete Cosine Transformation, DCT)用以去除各維信號之間的相關(guān)性。Mel倒譜特征參數(shù)的提取過程如圖2所示,該數(shù)字信號處理部件以流水的形式對數(shù)字信號進行復(fù)數(shù)幀的特征參數(shù)的提取。
所述的FLASH存儲器,采用Spansion公司生產(chǎn)的S29AL032D_Flash存儲器,電原理圖如圖3所示。該FLASH存儲器為語音數(shù)據(jù)(語音信號)的特征參數(shù)以及紅外控制信號的存儲提供了非揮發(fā)性的存儲介質(zhì)。以保證用戶在設(shè)備掉電后,用戶的語音命令、紅外信號數(shù)據(jù)、系統(tǒng)配置信息不會丟失。同時,F(xiàn)PGA芯片的配置文件和軟件也存儲在FLASH存儲器上, 以實現(xiàn)上電后自動配置為設(shè)計的系統(tǒng)。
所述的語音編碼器,采用Wolfson生產(chǎn)的WM8731語音編碼芯片,其結(jié)構(gòu)框圖如圖4所示。該芯片用于將用戶的模擬信號語音命令通過ADC采樣量化為脈沖調(diào)制 PCM(Pulse-coded modulation)的數(shù)字信號,并提供低通濾波和降噪處理,高保真地為語音命令的特征參數(shù)提取提供數(shù)據(jù)源。
所述的紅外線收發(fā)器,采用Agilent "Technologies生產(chǎn)的HSDL-3201紅外收發(fā)器,如圖5所示。通過使用該收發(fā)器將用戶的紅外控制設(shè)備的信號進行接收、采集并與相應(yīng)的語音命令配對后,存儲在上述的FLASH存儲器中,形成用戶的語音命令庫等待用戶調(diào)用。
所述LCD 模塊,采用 Crystalfontz America 公司生產(chǎn)的 CFAH1602B-TMC-JP 字符型LCD顯示屏。用于用戶和系統(tǒng)之間的信息交互。
本發(fā)明提出的可進化的語音識別紅外控制器,其輸入為用戶的語音命令和用戶定義的紅外控制設(shè)備的紅外控制信號,通過語音編碼器的語音編碼、數(shù)字信號處理部件的特征提取,再經(jīng)過紅外線收發(fā)器的紅外控制采集、模板匹配后,輸出用戶期望的語音命令代表的紅外控制信號。
本發(fā)明中,所述的S29AL032D FLASH存儲器通過接口電路與EP-2C35實現(xiàn)的軟核處理器硬線連接提供存儲空間;所述的語音編碼器WM8731通過EP2C-35實現(xiàn)的接口 FIFO 與軟核處理器硬線連接,并由EP2C35實現(xiàn)的分頻電路提供WM8731所需要時鐘信號;同時與線性輸入和MIC輸入端口硬線相連,提供一條模擬語音電平到數(shù)字語音數(shù)據(jù)的通路;所述紅外收發(fā)器HSDL-3201通過EP-2C35實現(xiàn)的接口 FIFO與軟核處理器硬線連接,提供紅外信號的數(shù)據(jù)收發(fā)通路;所述IXD模塊CFAH1602B-TMC-JP通過EP2C-35實現(xiàn)的IXD模塊控制器與軟核處理器硬線相連,提供用戶信息交互界面。
本發(fā)明由于采用了 FIFO (先入先出存儲器)對紅外信號全部波形進行過采樣存儲, 所以可以兼容不同協(xié)議速率的紅外控制信號。語音識別方面,采用了軟件實現(xiàn)調(diào)度、模板匹配,硬件實現(xiàn)提取特征參數(shù)相結(jié)合的方式,在獲得快速系統(tǒng)響應(yīng)的同時降低了電路的復(fù)雜性。與一般的商用語音識別控制設(shè)備相比,本設(shè)計的結(jié)構(gòu)簡單,在不改變不增加用戶額外成本,不改造現(xiàn)有設(shè)備的條件下,充分利用了用戶現(xiàn)有的設(shè)備功能,不僅可以按照用戶喜好整合多種紅外控制器的功能,還將其與語音命令相結(jié)合,以基于低成本FPGA的SOPC系統(tǒng)實現(xiàn)語音驅(qū)動的紅外控制。更為重要的是,鑒于FPGA可重構(gòu)的特性,為進一步優(yōu)化硬件系統(tǒng)和軟件系統(tǒng),改善用戶體驗提供了非常大的可行性與便捷性。這是目前一般語音識別控制設(shè)備不能提供的。
圖1語音識別控制器的整體結(jié)構(gòu)框圖。
圖2特征參數(shù)的提取過程示意圖。
圖3S^AL032D_Flash存儲器電原理圖。
圖4WM8731電原理圖。
圖 5HSDL-3201 電原理圖。
圖 6CFAH1602B-TMC-JP LCD 顯示屏電原理圖。
具體實施方式
下面結(jié)合附圖1和具體實施方式
對本發(fā)明做進一步說明。
如圖1所示,一種可進化的語音識別控制器的包含了,3. 3V穩(wěn)壓芯片,用于配置的USB BLASTER,用于上電配置的FLASH存儲器EPCS,用于信息交互的LCD模塊,EP-2C35 FPGA,用于程序運行和數(shù)據(jù)采集的FLASH存儲器,用于語音采樣編碼的WM8731以及線路輸入和MIC輸入的輸入端子,紅外收發(fā)器(IrDA),以及用來輸入的4個控制按鍵。
所示穩(wěn)壓芯片為系統(tǒng)芯片提供穩(wěn)定的3. 3v工作電壓,以使芯片處于正常的工作區(qū)間。用于配置USB BLASTER為41切1^的? 64/^ 0)程序下載芯片,通過計算機的舊8接口可對Altera的FPGA/CPLD以及配置芯片進行編程、調(diào)試等操作。USB-Blaster 驅(qū)動來自 PC的配置或者編程數(shù)據(jù),對Altera器件進行配置或者編程。下載電纜與標準USB PC端口連接。通過EPCS串行配置存儲器與FPGA連接,提供上電后的主動串行配置碼流。線路輸入端口和MIC輸入端口與、WM8731相連,提供模擬信號輸入通道。IXD模塊、WM8731、FLASH 存儲器、控制按鍵、紅外收發(fā)器通過FPGA與內(nèi)部軟核處理器以及數(shù)字信號處理部件相連。
系統(tǒng)上電后,由EPCS主動配置FPGA,并從FLASH中加載固件程序,隨后系統(tǒng)進入待機狀態(tài),由LCD提示用戶可以進行命令輸入或者訓(xùn)練新的語音命令。
當(dāng)用戶按下按鍵1,選擇進行新語音命令的輸入后,用戶有&的窗口時間通過MIC 或者線性輸入端口發(fā)出語音命令。用戶的語音命令信號通過SWiz的采樣頻率,16bit的量化精度轉(zhuǎn)換為PCM數(shù)字信號。通過串并轉(zhuǎn)換,端點識別,語音分幀后,送入數(shù)字信號處理部件。分別對每一幀語音信號進行MEL倒譜特征參數(shù)的提取。提取后的特征參數(shù)由軟核處理器進一步處理后存入FLASH中。隨后,IXD將反饋信息給用戶提示輸入紅外線信號。此時用戶按下按鍵2后,可以使用期望的紅外控制設(shè)備向系統(tǒng)發(fā)送一個紅外信號,該紅外信號通過過采樣由FIFO進行采集,通過串并轉(zhuǎn)換存入FLASH中和語音特征參數(shù)建立匹配。此時系統(tǒng)將提示配對成功,隨后進入待機狀態(tài)。至此,一次完整的語音命令訓(xùn)練結(jié)束。
當(dāng)在待機狀態(tài)下,用戶按下按鍵0時,將發(fā)起一次語音命令的接收過程。與訓(xùn)練過程類似,此時用戶有k時間通過線性輸入或者MIC輸入端口發(fā)出一個語音命令。當(dāng)k窗口時間結(jié)束,系統(tǒng)提取特征參數(shù)完畢后,將進入模板匹配流程。系統(tǒng)采用DTW動態(tài)時間規(guī)整, 對于不同長度的語音信號的特征參數(shù)矢量進行非線性映射,待測矢量和模板矢量的時間軸非線性地相映射在一起,再去計算其歐拉距離。如果命中,則將存儲在FLASH中的紅外信號發(fā)出;如果沒有命中,則通過LCD提示失敗信息,系統(tǒng)隨后進入待機狀態(tài)。上述循環(huán)可以多次進行,以實現(xiàn)多次命令匹配或者多條語音命令的訓(xùn)練。
當(dāng)新的硬件升級文件發(fā)布后,用戶可以選擇升級設(shè)備以提高系統(tǒng)性能或者增加新功能。用戶可以使用USB線纜連接在任何兼容USB1. 1/2. 0、安裝了 WINXP以上操作系統(tǒng),以及免費版的Quartus II 6. 0以上的個人電腦上,通過將提供的新的配置文件下載在EPCS 串行配置存儲器中以實現(xiàn)系統(tǒng)的升級,實現(xiàn)可進化的目標。
按鍵3用作擴展按鍵,為未來升級預(yù)留。
通過上面的分析可以得出,本發(fā)明設(shè)計的結(jié)構(gòu)簡單的語音識別控制器,不僅可以實現(xiàn)語音命令驅(qū)動的紅外控制信號的匹配和發(fā)送,還通過FPGA可配置的特性,完全實現(xiàn)了產(chǎn)品售出后硬件可以免費靈活升級的可進化特性。通過多組語音和紅外控制信號的匹配, 可以將用戶現(xiàn)有的紅外控制器功能整合在本系統(tǒng)中,并通過語音命令進行發(fā)送,徹底將用戶從多種家用電器的繁雜的紅外控制器中解放出來,有效提高用戶體驗。
參考文獻[1].Rabiner L, Juang B H. Fundamentals of Speech Recognition.Prentice-Hall International. Inc, 1999. p. 17。
權(quán)利要求
1.一種基于SOPC的可進化的語音識別紅外控制器,其特征在于包括可配置軟核處理器及其接口、數(shù)字信號處理部件、FLASH存儲器、語音編碼器、紅外收發(fā)器和LCD模塊,其中所述的可配置軟核處理器及其接口,采用Altera公司生產(chǎn)的Cyclone II EP-2C35實現(xiàn),其內(nèi)部包括軟核處理器、紅外FIFO接口電路、FLASH控制器;其中,所述軟核處理器作為控制單元,負責(zé)通過執(zhí)行用戶軟件指令,實現(xiàn)語音數(shù)據(jù)與紅外控制數(shù)據(jù)的采集、調(diào)度和模板匹配;所述紅外FIFO接口電路提供與軟核處理器內(nèi)部總線匹配的數(shù)據(jù)采集接口,以方便通過軟件指令來調(diào)度和匹配紅外控制信號;所述FLASH控制器負責(zé)匹配片外FLASH存儲器的讀寫時序,以保證可靠的數(shù)據(jù)讀寫;所述的數(shù)字信號處理部件,指運算Mel倒譜特征參數(shù)的所有硬線數(shù)據(jù)處理單元,包括 256點FFT、Mel濾波器、離散余弦變換單元;所采集到的語音信號通過256點FFT運算得到語音信號的功率譜;Mel濾波器為一組Mel頻標上線性分布的三角窗濾波器,用于對語音信號的功率譜進行濾波,以此模擬人耳的掩蔽效應(yīng);離散余弦變換單元用以去除各維信號之間的相關(guān)性;該數(shù)字信號處理部件以流水的形式對語音信號進行復(fù)數(shù)幀的特征參數(shù)的提??;所述的FLASH存儲器,采用Spansion公司生產(chǎn)的S29AL032D_Flash存儲器,該FLASH存儲器為語音信號的特征參數(shù)以及紅外控制信號的存儲提供非揮發(fā)性的存儲介質(zhì);FPGA芯片的配置文件和軟件也存儲在FLASH存儲器上,以實現(xiàn)上電后自動配置為設(shè)計的系統(tǒng);所述的語音編碼器,采用Wolfson生產(chǎn)的WM8731語音編碼芯片,該芯片用于將用戶的模擬信號語音命令通過ADC采樣量化為脈沖調(diào)制PCM的數(shù)字信號,并提供低通濾波和降噪處理,高保真地為語音命令的特征參數(shù)提取提供數(shù)據(jù)源;所述的紅外線收發(fā)器,采用Agilent Technologies生產(chǎn)的HSDL-3201紅外收發(fā)器,該紅外收發(fā)器將用戶的紅外控制設(shè)備的信號進行接收、采集并與相應(yīng)的語音命令配對后,存儲在上述的FLASH存儲器中,形成用戶的語音命令庫等待用戶調(diào)用; 所述LCD模塊,用于用戶和系統(tǒng)之間的信息交互;本發(fā)明的可進化的語音識別識別紅外控制器,其輸入為用戶的語音命令和用戶定義的紅外控制設(shè)備的紅外控制信號,通過語音編碼器的語音編碼、數(shù)字信號處理部件的特征提取,再經(jīng)過紅外線收發(fā)器的紅外控制采集、模板匹配后,輸出用戶期望的語音命令代表的紅外控制信號。
2.根據(jù)權(quán)利要求1所述的基于SOPC的可進化的語音識別紅外控制器,其特征在于所述的S29AL032D FLASH存儲器通過接口電路與EP-2C35實現(xiàn)的軟核處理器硬線連接提供存儲空間;所述的語音編碼器WM8731通過EP2C-35實現(xiàn)的接口 FIFO與軟核處理器硬線連接, 并由EP2C35實現(xiàn)的分頻電路提供WM8731所需要時鐘信號;同時與線性輸入和MIC輸入端口硬線相連,提供一條模擬語音電平到數(shù)字語音數(shù)據(jù)的通路;所述紅外收發(fā)器HSDL-3201 通過EP-2C35實現(xiàn)的接口 FIFO與軟核處理器硬線連接,提供紅外信號的數(shù)據(jù)收發(fā)通路;所述IXD模塊CFAH1602B-TMC-JP通過EP2C-35實現(xiàn)的IXD模塊控制器與軟核處理器硬線相連,提供用戶信息交互界面。
全文摘要
本發(fā)明屬于語音識別控制技術(shù)領(lǐng)域,具體為是一種基于SOPC的可進化的語音識別紅外控制器。該控制器由可配置軟核處理器及其接口、可配置語音處理芯片、FLASH存儲器、數(shù)字信號處理器、紅外收發(fā)機、LCD模塊組成。本發(fā)明通過對用戶的語音訓(xùn)練庫進行采集和基于MEL倒譜的特征提取,形成識別用戶語音命令的語料庫,并通過與紅外控制信號進行庫匹配,實現(xiàn)基于紅外信號的語音識別控制系統(tǒng)。本發(fā)明實現(xiàn)了應(yīng)用范圍廣、兼容性高的紅外信號收發(fā)機制,通過采樣保存不同紅外信號,達到了整合種類繁雜的紅外控制器的目的,并進一步與語音識別結(jié)合,實現(xiàn)了兼容所有紅外協(xié)議的語音控制系統(tǒng)。同時基于SOPC系統(tǒng)可進化的特性,提供了一種低成本、高實用性的語音控制解決方案。
文檔編號G10L15/02GK102496262SQ201110425600
公開日2012年6月13日 申請日期2011年12月19日 優(yōu)先權(quán)日2011年12月19日
發(fā)明者井冰, 任俊彥, 葉凡, 薛元坤 申請人:復(fù)旦大學(xué)