一種基于sopc的可進化的語音識別紅外控制器的制作方法

文檔序號：2836123閱讀：357來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種基于sopc的可進化的語音識別紅外控制器的制作方法
一種基于SOPC的可進化的語音識別紅外控制器技術(shù)領(lǐng)域
本發(fā)明屬于語音控制技術(shù)領(lǐng)域，具體涉及一種基于SOPC的可進化的語音識別紅外控制器。
背景技術(shù)：
SOPC (System On Programmable Chip)系統(tǒng)是以基于FPGA的軟核或硬核處理器和外周電路構(gòu)成的SOC(System on Chip)系統(tǒng)。其基本思想是構(gòu)建以應(yīng)用為中心，以計算機技術(shù)為基礎(chǔ)，以可編程芯片為載體，軟硬件可剪裁、可重構(gòu)、可進化，可靠性，成本，體積，功耗有著嚴格要求的專用計算機系統(tǒng)。
語音識別技術(shù)，其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入，例如按鍵、二進制編碼或者字符序列?；谔囟ㄈ斯铝⒃~的語音識別系統(tǒng)的主要目的是通過分析和提取特定人的孤立詞語音命令聲學(xué)特征，以獲取語音詞匯的特征訓(xùn)練庫作為語音命令匹配的主要依據(jù)。聲學(xué)特征的提取與選擇是語音識別的一個重要環(huán)節(jié)。聲學(xué)特征的提取既是一個信息大幅度壓縮的過程，也是一個信號解卷過程，目的是使模式劃分器能更好地劃分。
紅外控制技術(shù)是一種利用紅外線進行點對點通信的技術(shù)，它在技術(shù)上的主要優(yōu)點是1、無需專門申請?zhí)囟l率的使用執(zhí)照；2、具有移動通信設(shè)備所必需的體積小、功率低的特點；3、傳輸速率適合于家庭和辦公室使用的網(wǎng)絡(luò)；4、信號無干擾，傳輸準確度高；5、成本低廉。
然而，首先，現(xiàn)有的家用電子設(shè)備的紅外控制器往往由于廠商標準的差異采用不同協(xié)議速率和數(shù)據(jù)格式，彼此難以兼容并且種類繁多，為了使用多種設(shè)備，用戶不得不頻繁切換于不同的控制器之間。另一方面，紅外控制設(shè)備的功能趨于復(fù)雜，對視覺障礙和高齡用戶群體具有非常不友好的用戶體驗。其次，現(xiàn)有的語音識別控制技術(shù)往往關(guān)注于新產(chǎn)品的應(yīng)用與推廣，而忽略了巨大的用戶現(xiàn)有的傳統(tǒng)設(shè)備的保有量。導(dǎo)致用戶為了體驗語音識別控制技術(shù)的便捷，不得不購置提供相應(yīng)功能的設(shè)備，需要付出可觀的成本。最后，現(xiàn)有的成本敏感的SOC系統(tǒng)，產(chǎn)品一旦硬件設(shè)計實現(xiàn)完成，系統(tǒng)結(jié)構(gòu)和功能就被固化，不能再加以進化和升級。
而本發(fā)明提出的基于SOPC的可進化的語音識別紅外控制器則通過提供了一個兼容性高，可采樣且非揮發(fā)性保存的紅外信號采集機制，具備了整合不同種紅外設(shè)備功能無需手動切換的能力。并進一步將其與語音識別技術(shù)相結(jié)合，以語音命令代替按鍵操作，為用戶，特別是視覺障礙人士以及高齡用戶提供了友好的用戶體驗。同時，還將系統(tǒng)的硬件實現(xiàn)基于可重構(gòu)的低成本FPGA技術(shù)，從根本上改變了傳統(tǒng)產(chǎn)品硬件無法升級的局面。本發(fā)明可以通過對設(shè)備的重新配置而達到硬件升級和進化的目的。發(fā)明內(nèi)容
本發(fā)明的目的在于針對當(dāng)前家用消費電子設(shè)備的紅外控制器的種類繁復(fù)使用不便的問題，提供了一種無關(guān)現(xiàn)有設(shè)備預(yù)置功能的、低成本、可進化的語音識別紅外控制器。
本發(fā)明提供的可進化的語音識別紅外控制器，是基于SOPC的，該控制器采用低成本的FPGA實現(xiàn)的可配置的軟核處理器、數(shù)字信號處理部件以及外周存儲電路和紅外收發(fā)器作為核心單元，采用軟件控制和硬件處理協(xié)同工作，在減少系統(tǒng)復(fù)雜性的同時，實現(xiàn)了低成本的、基于現(xiàn)有家用紅外設(shè)備的語音識別控制器。
本發(fā)明的可進化的基于SOPC的語音紅外控制器，包括可配置軟核處理器及其接口、數(shù)字信號處理部件、FLASH存儲器、語音編碼器、紅外收發(fā)器和LCD模塊，其中所述的可配置軟核處理器及其接口，采用Altera公司生產(chǎn)的Cyclone II EP-2C35實現(xiàn)，其內(nèi)部包括軟核處理器、紅外FIFO接口電路、FLASH控制器。所述軟核處理器作為控制單元，負責(zé)通過執(zhí)行用戶軟件指令，實現(xiàn)語音數(shù)據(jù)與紅外控制數(shù)據(jù)的采集、調(diào)度和模板匹配；所述紅外FIFO接口電路提供與軟核處理器內(nèi)部總線匹配的數(shù)據(jù)采集接口，以方便通過軟件指令來調(diào)度和匹配紅外控制信號；所述FLASH控制器負責(zé)匹配片外FLASH存儲器的讀寫時序，以保證可靠的數(shù)據(jù)讀寫。
所述的數(shù)字信號處理部件，是指運算Mel倒譜特征參數(shù)的所有硬線數(shù)據(jù)處理單元，包括256點FFT、Mel濾波器、離散余弦變換單元。所采集到的語音信號通過256點FFT運算得到語音信號的功率譜；Mel濾波器為一組Mel頻標上線性分布的三角窗濾波器，用于對語音信號的功率譜進行濾波，以此模擬人耳的掩蔽效應(yīng)；離散余弦變換單元(Discrete Cosine Transformation, DCT)用以去除各維信號之間的相關(guān)性。Mel倒譜特征參數(shù)的提取過程如圖2所示，該數(shù)字信號處理部件以流水的形式對數(shù)字信號進行復(fù)數(shù)幀的特征參數(shù)的提取。
所述的FLASH存儲器，采用Spansion公司生產(chǎn)的S29AL032D_Flash存儲器，電原理圖如圖3所示。該FLASH存儲器為語音數(shù)據(jù)(語音信號)的特征參數(shù)以及紅外控制信號的存儲提供了非揮發(fā)性的存儲介質(zhì)。以保證用戶在設(shè)備掉電后，用戶的語音命令、紅外信號數(shù)據(jù)、系統(tǒng)配置信息不會丟失。同時，F(xiàn)PGA芯片的配置文件和軟件也存儲在FLASH存儲器上，以實現(xiàn)上電后自動配置為設(shè)計的系統(tǒng)。
所述的語音編碼器，采用Wolfson生產(chǎn)的WM8731語音編碼芯片，其結(jié)構(gòu)框圖如圖4所示。該芯片用于將用戶的模擬信號語音命令通過ADC采樣量化為脈沖調(diào)制 PCM(Pulse-coded modulation)的數(shù)字信號，并提供低通濾波和降噪處理，高保真地為語音命令的特征參數(shù)提取提供數(shù)據(jù)源。
所述的紅外線收發(fā)器，采用Agilent "Technologies生產(chǎn)的HSDL-3201紅外收發(fā)器，如圖5所示。通過使用該收發(fā)器將用戶的紅外控制設(shè)備的信號進行接收、采集并與相應(yīng)的語音命令配對后，存儲在上述的FLASH存儲器中，形成用戶的語音命令庫等待用戶調(diào)用。
所述LCD 模塊，采用 Crystalfontz America 公司生產(chǎn)的 CFAH1602B-TMC-JP 字符型LCD顯示屏。用于用戶和系統(tǒng)之間的信息交互。
本發(fā)明提出的可進化的語音識別紅外控制器，其輸入為用戶的語音命令和用戶定義的紅外控制設(shè)備的紅外控制信號，通過語音編碼器的語音編碼、數(shù)字信號處理部件的特征提取，再經(jīng)過紅外線收發(fā)器的紅外控制采集、模板匹配后，輸出用戶期望的語音命令代表的紅外控制信號。
本發(fā)明中，所述的S29AL032D FLASH存儲器通過接口電路與EP-2C35實現(xiàn)的軟核處理器硬線連接提供存儲空間；所述的語音編碼器WM8731通過EP2C-35實現(xiàn)的接口 FIFO 與軟核處理器硬線連接，并由EP2C35實現(xiàn)的分頻電路提供WM8731所需要時鐘信號；同時與線性輸入和MIC輸入端口硬線相連，提供一條模擬語音電平到數(shù)字語音數(shù)據(jù)的通路；所述紅外收發(fā)器HSDL-3201通過EP-2C35實現(xiàn)的接口 FIFO與軟核處理器硬線連接，提供紅外信號的數(shù)據(jù)收發(fā)通路；所述IXD模塊CFAH1602B-TMC-JP通過EP2C-35實現(xiàn)的IXD模塊控制器與軟核處理器硬線相連，提供用戶信息交互界面。
本發(fā)明由于采用了 FIFO (先入先出存儲器)對紅外信號全部波形進行過采樣存儲，所以可以兼容不同協(xié)議速率的紅外控制信號。語音識別方面，采用了軟件實現(xiàn)調(diào)度、模板匹配，硬件實現(xiàn)提取特征參數(shù)相結(jié)合的方式，在獲得快速系統(tǒng)響應(yīng)的同時降低了電路的復(fù)雜性。與一般的商用語音識別控制設(shè)備相比，本設(shè)計的結(jié)構(gòu)簡單，在不改變不增加用戶額外成本，不改造現(xiàn)有設(shè)備的條件下，充分利用了用戶現(xiàn)有的設(shè)備功能，不僅可以按照用戶喜好整合多種紅外控制器的功能，還將其與語音命令相結(jié)合，以基于低成本FPGA的SOPC系統(tǒng)實現(xiàn)語音驅(qū)動的紅外控制。更為重要的是，鑒于FPGA可重構(gòu)的特性，為進一步優(yōu)化硬件系統(tǒng)和軟件系統(tǒng)，改善用戶體驗提供了非常大的可行性與便捷性。這是目前一般語音識別控制設(shè)備不能提供的。

圖1語音識別控制器的整體結(jié)構(gòu)框圖。
圖2特征參數(shù)的提取過程示意圖。
圖3S^AL032D_Flash存儲器電原理圖。
圖4WM8731電原理圖。
圖 5HSDL-3201 電原理圖。
圖 6CFAH1602B-TMC-JP LCD 顯示屏電原理圖。
具體實施方式
下面結(jié)合附圖1和具體實施方式
對本發(fā)明做進一步說明。
如圖1所示，一種可進化的語音識別控制器的包含了，3. 3V穩(wěn)壓芯片，用于配置的USB BLASTER，用于上電配置的FLASH存儲器EPCS，用于信息交互的LCD模塊，EP-2C35 FPGA，用于程序運行和數(shù)據(jù)采集的FLASH存儲器，用于語音采樣編碼的WM8731以及線路輸入和MIC輸入的輸入端子，紅外收發(fā)器(IrDA)，以及用來輸入的4個控制按鍵。
所示穩(wěn)壓芯片為系統(tǒng)芯片提供穩(wěn)定的3. 3v工作電壓，以使芯片處于正常的工作區(qū)間。用于配置USB BLASTER為41切1^的？ 64/^ 0)程序下載芯片，通過計算機的舊8接口可對Altera的FPGA/CPLD以及配置芯片進行編程、調(diào)試等操作。USB-Blaster 驅(qū)動來自 PC的配置或者編程數(shù)據(jù)，對Altera器件進行配置或者編程。下載電纜與標準USB PC端口連接。通過EPCS串行配置存儲器與FPGA連接，提供上電后的主動串行配置碼流。線路輸入端口和MIC輸入端口與、WM8731相連，提供模擬信號輸入通道。IXD模塊、WM8731、FLASH 存儲器、控制按鍵、紅外收發(fā)器通過FPGA與內(nèi)部軟核處理器以及數(shù)字信號處理部件相連。
系統(tǒng)上電后，由EPCS主動配置FPGA，并從FLASH中加載固件程序，隨后系統(tǒng)進入待機狀態(tài)，由LCD提示用戶可以進行命令輸入或者訓(xùn)練新的語音命令。
當(dāng)用戶按下按鍵1，選擇進行新語音命令的輸入后，用戶有&的窗口時間通過MIC 或者線性輸入端口發(fā)出語音命令。用戶的語音命令信號通過SWiz的采樣頻率，16bit的量化精度轉(zhuǎn)換為PCM數(shù)字信號。通過串并轉(zhuǎn)換，端點識別，語音分幀后，送入數(shù)字信號處理部件。分別對每一幀語音信號進行MEL倒譜特征參數(shù)的提取。提取后的特征參數(shù)由軟核處理器進一步處理后存入FLASH中。隨后，IXD將反饋信息給用戶提示輸入紅外線信號。此時用戶按下按鍵2后，可以使用期望的紅外控制設(shè)備向系統(tǒng)發(fā)送一個紅外信號，該紅外信號通過過采樣由FIFO進行采集，通過串并轉(zhuǎn)換存入FLASH中和語音特征參數(shù)建立匹配。此時系統(tǒng)將提示配對成功，隨后進入待機狀態(tài)。至此，一次完整的語音命令訓(xùn)練結(jié)束。
當(dāng)在待機狀態(tài)下，用戶按下按鍵0時，將發(fā)起一次語音命令的接收過程。與訓(xùn)練過程類似，此時用戶有k時間通過線性輸入或者MIC輸入端口發(fā)出一個語音命令。當(dāng)k窗口時間結(jié)束，系統(tǒng)提取特征參數(shù)完畢后，將進入模板匹配流程。系統(tǒng)采用DTW動態(tài)時間規(guī)整，對于不同長度的語音信號的特征參數(shù)矢量進行非線性映射，待測矢量和模板矢量的時間軸非線性地相映射在一起，再去計算其歐拉距離。如果命中，則將存儲在FLASH中的紅外信號發(fā)出；如果沒有命中，則通過LCD提示失敗信息，系統(tǒng)隨后進入待機狀態(tài)。上述循環(huán)可以多次進行，以實現(xiàn)多次命令匹配或者多條語音命令的訓(xùn)練。
當(dāng)新的硬件升級文件發(fā)布后，用戶可以選擇升級設(shè)備以提高系統(tǒng)性能或者增加新功能。用戶可以使用USB線纜連接在任何兼容USB1. 1/2. 0、安裝了 WINXP以上操作系統(tǒng)，以及免費版的Quartus II 6. 0以上的個人電腦上，通過將提供的新的配置文件下載在EPCS 串行配置存儲器中以實現(xiàn)系統(tǒng)的升級，實現(xiàn)可進化的目標。
按鍵3用作擴展按鍵，為未來升級預(yù)留。
通過上面的分析可以得出，本發(fā)明設(shè)計的結(jié)構(gòu)簡單的語音識別控制器，不僅可以實現(xiàn)語音命令驅(qū)動的紅外控制信號的匹配和發(fā)送，還通過FPGA可配置的特性，完全實現(xiàn)了產(chǎn)品售出后硬件可以免費靈活升級的可進化特性。通過多組語音和紅外控制信號的匹配，可以將用戶現(xiàn)有的紅外控制器功能整合在本系統(tǒng)中，并通過語音命令進行發(fā)送，徹底將用戶從多種家用電器的繁雜的紅外控制器中解放出來，有效提高用戶體驗。
參考文獻[1].Rabiner L, Juang B H. Fundamentals of Speech Recognition.Prentice-Hall International. Inc, 1999. p. 17。
權(quán)利要求
1.一種基于SOPC的可進化的語音識別紅外控制器，其特征在于包括可配置軟核處理器及其接口、數(shù)字信號處理部件、FLASH存儲器、語音編碼器、紅外收發(fā)器和LCD模塊，其中所述的可配置軟核處理器及其接口，采用Altera公司生產(chǎn)的Cyclone II EP-2C35實現(xiàn)，其內(nèi)部包括軟核處理器、紅外FIFO接口電路、FLASH控制器；其中，所述軟核處理器作為控制單元，負責(zé)通過執(zhí)行用戶軟件指令，實現(xiàn)語音數(shù)據(jù)與紅外控制數(shù)據(jù)的采集、調(diào)度和模板匹配；所述紅外FIFO接口電路提供與軟核處理器內(nèi)部總線匹配的數(shù)據(jù)采集接口，以方便通過軟件指令來調(diào)度和匹配紅外控制信號；所述FLASH控制器負責(zé)匹配片外FLASH存儲器的讀寫時序，以保證可靠的數(shù)據(jù)讀寫；所述的數(shù)字信號處理部件，指運算Mel倒譜特征參數(shù)的所有硬線數(shù)據(jù)處理單元，包括 256點FFT、Mel濾波器、離散余弦變換單元；所采集到的語音信號通過256點FFT運算得到語音信號的功率譜；Mel濾波器為一組Mel頻標上線性分布的三角窗濾波器，用于對語音信號的功率譜進行濾波，以此模擬人耳的掩蔽效應(yīng)；離散余弦變換單元用以去除各維信號之間的相關(guān)性；該數(shù)字信號處理部件以流水的形式對語音信號進行復(fù)數(shù)幀的特征參數(shù)的提??；所述的FLASH存儲器，采用Spansion公司生產(chǎn)的S29AL032D_Flash存儲器，該FLASH存儲器為語音信號的特征參數(shù)以及紅外控制信號的存儲提供非揮發(fā)性的存儲介質(zhì)；FPGA芯片的配置文件和軟件也存儲在FLASH存儲器上，以實現(xiàn)上電后自動配置為設(shè)計的系統(tǒng)；所述的語音編碼器，采用Wolfson生產(chǎn)的WM8731語音編碼芯片，該芯片用于將用戶的模擬信號語音命令通過ADC采樣量化為脈沖調(diào)制PCM的數(shù)字信號，并提供低通濾波和降噪處理，高保真地為語音命令的特征參數(shù)提取提供數(shù)據(jù)源；所述的紅外線收發(fā)器，采用Agilent Technologies生產(chǎn)的HSDL-3201紅外收發(fā)器，該紅外收發(fā)器將用戶的紅外控制設(shè)備的信號進行接收、采集并與相應(yīng)的語音命令配對后，存儲在上述的FLASH存儲器中，形成用戶的語音命令庫等待用戶調(diào)用；所述LCD模塊，用于用戶和系統(tǒng)之間的信息交互；本發(fā)明的可進化的語音識別識別紅外控制器，其輸入為用戶的語音命令和用戶定義的紅外控制設(shè)備的紅外控制信號，通過語音編碼器的語音編碼、數(shù)字信號處理部件的特征提取，再經(jīng)過紅外線收發(fā)器的紅外控制采集、模板匹配后，輸出用戶期望的語音命令代表的紅外控制信號。
2.根據(jù)權(quán)利要求1所述的基于SOPC的可進化的語音識別紅外控制器，其特征在于所述的S29AL032D FLASH存儲器通過接口電路與EP-2C35實現(xiàn)的軟核處理器硬線連接提供存儲空間；所述的語音編碼器WM8731通過EP2C-35實現(xiàn)的接口 FIFO與軟核處理器硬線連接，并由EP2C35實現(xiàn)的分頻電路提供WM8731所需要時鐘信號；同時與線性輸入和MIC輸入端口硬線相連，提供一條模擬語音電平到數(shù)字語音數(shù)據(jù)的通路；所述紅外收發(fā)器HSDL-3201 通過EP-2C35實現(xiàn)的接口 FIFO與軟核處理器硬線連接，提供紅外信號的數(shù)據(jù)收發(fā)通路；所述IXD模塊CFAH1602B-TMC-JP通過EP2C-35實現(xiàn)的IXD模塊控制器與軟核處理器硬線相連，提供用戶信息交互界面。
全文摘要
本發(fā)明屬于語音識別控制技術(shù)領(lǐng)域，具體為是一種基于SOPC的可進化的語音識別紅外控制器。該控制器由可配置軟核處理器及其接口、可配置語音處理芯片、FLASH存儲器、數(shù)字信號處理器、紅外收發(fā)機、LCD模塊組成。本發(fā)明通過對用戶的語音訓(xùn)練庫進行采集和基于MEL倒譜的特征提取，形成識別用戶語音命令的語料庫，并通過與紅外控制信號進行庫匹配，實現(xiàn)基于紅外信號的語音識別控制系統(tǒng)。本發(fā)明實現(xiàn)了應(yīng)用范圍廣、兼容性高的紅外信號收發(fā)機制，通過采樣保存不同紅外信號，達到了整合種類繁雜的紅外控制器的目的，并進一步與語音識別結(jié)合，實現(xiàn)了兼容所有紅外協(xié)議的語音控制系統(tǒng)。同時基于SOPC系統(tǒng)可進化的特性，提供了一種低成本、高實用性的語音控制解決方案。
文檔編號G10L15/02GK102496262SQ201110425600
公開日2012年6月13日申請日期2011年12月19日優(yōu)先權(quán)日2011年12月19日
發(fā)明者井冰, 任俊彥, 葉凡, 薛元坤申請人:復(fù)旦大學(xué)

完整全部詳細技術(shù)資料下載