基于嵌入式的開集說話人識別系統(tǒng)的制作方法

文檔序號：2822687閱讀：489來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：：基于嵌入式的開集說話人識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
：本實(shí)用新型涉及語音信號處理領(lǐng)域的說話人識別，尤其是涉及采用開集方式的說話人識別系統(tǒng)，特別涉及利用嵌入式系統(tǒng)實(shí)現(xiàn)的開集說話人識別系統(tǒng)。
背景技術(shù)：
：通過查閱相關(guān)資料和有關(guān)專利，主要引證下列專利國名公開號公開日期1.中國CN101350196A2009.7.192.中國CN101064043A2007.10.313.中國CN1746972A2006.3.15專利1(CN101350196A)申請公開了一種任務(wù)相關(guān)的說話人身份確認(rèn)片上系統(tǒng)及其確認(rèn)方法。使用專用的語音處理芯片UniLite400進(jìn)行系統(tǒng)的硬件設(shè)計(jì)，對說話人確認(rèn)方法進(jìn)行系統(tǒng)實(shí)現(xiàn)。在芯片UniLite400接收到語音后，提取12維美爾頻率倒譜系數(shù)和短時歸一化對數(shù)能量共13維，作為說話人的語音特征參數(shù)，采用動態(tài)規(guī)劃的矢量匹配技術(shù)進(jìn)行用戶的訓(xùn)練和確認(rèn)。專利2(CN101064043A)申請公開了一種聲紋門禁系統(tǒng)及其應(yīng)用。采用兩個微處理器進(jìn)行系統(tǒng)硬件設(shè)計(jì)，采集到的語音信號經(jīng)過預(yù)處理模塊，提取大幀特征、DTff模板特征和DCT模板特征數(shù)據(jù)作為說話的語音特征參數(shù)。在用戶進(jìn)行語音模型的訓(xùn)練時，首先錄制10遍語音口令，每個口令經(jīng)過預(yù)處理模塊形成一個訓(xùn)練樣本集，按時間順序保存，訓(xùn)練DTW和DCT模板。然后進(jìn)行人工神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練。在進(jìn)行用戶識別時，首先進(jìn)行DCT特征比對，得到最小距離的N個用戶，然后使用DTW特征比對，得到一個最小距離的用戶，最后利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行最后的用戶識別。專利3(CN1746972A)申請公開了一種語音鎖。由電子信號處理電路和鎖具動作執(zhí)行機(jī)構(gòu)構(gòu)成，電子信號處理電路由語音接收裝置、語音預(yù)處理模塊、訓(xùn)練模塊、識別模塊和開鎖模塊構(gòu)成。語音接收裝置接收被識別人的語音信號，并把語音信號傳送至所述的語音預(yù)處理模塊，語音預(yù)處理模塊通過所述的鍵盤取得用戶ID號碼，對用戶ID號碼進(jìn)行確認(rèn)，確認(rèn)ID號碼有效以后，對語音信號進(jìn)行語音分析處理，提取語音的微特征參數(shù)，并將ID號碼和語音微特征參數(shù)輸入到訓(xùn)練和識別模塊中。訓(xùn)練模塊接收語音預(yù)處理的處理結(jié)果并對該ID號碼相對應(yīng)的語音樣本進(jìn)行訓(xùn)練，形成主人獨(dú)有的語音鑰匙聲紋編碼，識別模塊根據(jù)語音預(yù)處理模塊提供的ID號碼，利用多層聚類神經(jīng)網(wǎng)絡(luò)識別出說話人。上述專利在解決本申請的技術(shù)要求方面主要存在下面幾點(diǎn)問題1.專利1采用專用的語音處理芯片UniLite400進(jìn)行系統(tǒng)的硬件設(shè)計(jì)，導(dǎo)致的外圍芯片類型的選擇受到限制。專利2采用兩個微處理器進(jìn)行系統(tǒng)硬件設(shè)計(jì)，增加了系統(tǒng)的成本。2.當(dāng)用戶數(shù)大于1時，實(shí)際的說話人識別系統(tǒng)是一個開集的識別系統(tǒng)，不僅要判斷待識別語音是屬于參考說話人中的哪一個，同時對于系統(tǒng)的冒認(rèn)者還要給出一個拒絕的格外判定。然而上述專利對說話人確認(rèn)系統(tǒng)進(jìn)行嵌入式系統(tǒng)的實(shí)現(xiàn)，無法滿足開集方式的說話人識別系統(tǒng)的實(shí)際要求。3.為了增強(qiáng)系統(tǒng)的通用性，使系統(tǒng)能夠適應(yīng)不同的應(yīng)用環(huán)境，系統(tǒng)安全等級的設(shè)定十分重要。上述專利沒有考慮系統(tǒng)安全等級的問題，無法使系統(tǒng)適應(yīng)于不同的應(yīng)用場合。4.功耗問題嚴(yán)重制約著嵌入式系統(tǒng)的應(yīng)用與發(fā)展，尤其是對于便攜式的嵌入式系統(tǒng)。上述專利沒有考慮系統(tǒng)實(shí)際應(yīng)用的功耗問題。在本專利中，解決了上述說話人識別系統(tǒng)實(shí)用化過程中存在的四個問題。
發(fā)明內(nèi)容本實(shí)用新型提供一種基于嵌入式的開集說話人識別系統(tǒng)，以解決上述說話人識別系統(tǒng)實(shí)用化過程中存在的四個問題。本實(shí)用新型采取的技術(shù)方案是語音信號處理單元分別與語音信號采集單元、數(shù)據(jù)存儲單元、人機(jī)接口單元、通信接口單元連接，電源管理模塊與語音信號處理單元連接，人機(jī)接口單元包括狀態(tài)指示模塊、鍵盤模塊、顯示模塊、啟動模塊。上述系統(tǒng)以語音信號處理單元為核心，控制語音信號采集單元、系統(tǒng)數(shù)據(jù)存儲單元、人機(jī)接口單元和通信接口單元完成相應(yīng)的功能。本實(shí)用新型的優(yōu)點(diǎn)在于，采用基于模糊核矢量量化的開集說話人識別方法對說話人的語音模型進(jìn)行訓(xùn)練和識別，包括語音信號的預(yù)處理和特征提取、基于模糊核矢量量化的參考說話人語音模型的訓(xùn)練、基于模糊核矢量量化的最近近鄰分類器的開集模式匹配方法。在語音信號的預(yù)處理和特征提取階段，對由AD采樣得到的短時幀采樣信號進(jìn)行處理，保證系統(tǒng)的實(shí)時性要求。增加了語音信號的小數(shù)據(jù)、尖峰及飽和處理，并采用循環(huán)維納濾波的擴(kuò)展譜相減的語音增強(qiáng)算法，提高輸入語音的質(zhì)量。參考說話人語音模型的訓(xùn)練不僅形成參考說話人的語音模型，同時在訓(xùn)練識別過程對形成的語音模型進(jìn)行可靠性判斷，并對產(chǎn)生可靠語音模型的參考說話人產(chǎn)生說話人確認(rèn)的初始閾值，提高了模型產(chǎn)生的可靠性。開集模式匹配采用先辨認(rèn)后確認(rèn)的模式匹配方法，利用模糊核矢量量化的最近近鄰分類器完成說話人的辨認(rèn)，利用辨認(rèn)過程產(chǎn)生的最小失真與待識別語音參數(shù)與背景模型的匹配失真值的差值，根據(jù)不同安全設(shè)置，對說話人的確認(rèn)采用不同的判決決策，使系統(tǒng)能夠適應(yīng)不同的應(yīng)用場合，同時提高了系統(tǒng)的安全性能。設(shè)計(jì)嵌入式系統(tǒng)對上述開集說話人識別方法進(jìn)行嵌入式實(shí)現(xiàn)，該系統(tǒng)具有實(shí)時性高、識別性能好、低功耗、低成本、便攜、通用性強(qiáng)等特點(diǎn)ο圖1是基于嵌入式的開集說話人識別系統(tǒng)結(jié)構(gòu)示意圖。圖2是本實(shí)用新型的用戶操作界面。圖3a是本實(shí)用新型的存儲單元硬件系統(tǒng)邏輯圖。圖3b是本實(shí)用新型的AD芯片AIC23與DSPVC5416接口框圖。圖3c是本實(shí)用新型的AIC23的電路連接原理圖。圖3d鍵盤顯示擴(kuò)展芯片HD7279A與DSPVC5416接口框圖。圖3e是本實(shí)用新型的鍵盤電路原理圖.圖3f是本實(shí)用新型的指示模塊電路示意圖。具體實(shí)施方案如圖1所示，語音信號處理單元101分別與語音信號采集單元102、數(shù)據(jù)存儲單元103、人機(jī)接口單元104、通信接口單元106連接，電源管理模塊105與語音信號處理單元連接，人機(jī)接口單元包括狀態(tài)指示模塊、鍵盤模塊、顯示模塊、啟動模塊。上述系統(tǒng)以語音信號處理單元101為核心，控制語音信號采集單元102、系統(tǒng)數(shù)據(jù)存儲單元103、人機(jī)接口單元104和通信接口單元106完成相應(yīng)的功能。語音信號處理單元101采用TI公司54X系列的增強(qiáng)型數(shù)字信號處理器(DSPDigitalSignalProcessor)TMS320VC5416完成語音信號的預(yù)處理、說話人語音個性特征的提取、說話人聲紋識別建模、相似度匹配等系統(tǒng)所需的運(yùn)算，同時還作為核心微處理芯片對外圍芯片進(jìn)行接口控制操作。TMS320VC5416(以下簡稱VC5416)是為實(shí)現(xiàn)低功耗、高性能而專門設(shè)計(jì)的定點(diǎn)DSP芯片，也是TI公司TMS320VC54X系列DSP中性價(jià)比最高的一款芯片。語音采集單元102由麥克和可編程增益、采樣率調(diào)節(jié)A/D轉(zhuǎn)換器組成，由DSP控制完成語音信號的增益控制和數(shù)字化處理。DSP采用DMA方式對由麥克輸入的語音進(jìn)行采樣，在采樣的同時可以對采集的前一幀語音信號進(jìn)行預(yù)處理和特征提取，預(yù)處理的時間小于一幀語音信號的采樣時間，因此保證了系統(tǒng)的實(shí)時性。數(shù)據(jù)存儲單元103使用FLASH存儲器實(shí)現(xiàn)DSP程序代碼以及用戶語音模型信息的永久存儲，并構(gòu)建基于FLASH的DSP脫機(jī)獨(dú)立運(yùn)行系統(tǒng)。當(dāng)用戶進(jìn)行訓(xùn)練、刪除、識別操作后，系統(tǒng)自動完成用戶信息的在線實(shí)時更新。人機(jī)接口單元[104]由狀態(tài)指示模塊、鍵盤模塊、顯示模塊、啟動模塊組成。其中狀態(tài)指示模塊、鍵盤模塊和顯示模塊都由鍵盤顯示擴(kuò)展芯片控制。系統(tǒng)的指示模塊，由三個指示燈和一個蜂鳴器組成，指示系統(tǒng)當(dāng)前的狀態(tài)并提示用戶進(jìn)行相應(yīng)的操作。系統(tǒng)的鍵盤模塊由數(shù)字按鍵及功能按鍵組成，其中數(shù)字按鍵包括0-9的10個數(shù)字，功能鍵包括訓(xùn)練、識另O、刪除、取消、確認(rèn)、安全鍵等。顯示模塊可以由LED數(shù)碼管或IXD顯示器構(gòu)成，系統(tǒng)的用戶操作界面如圖7所示。啟動模塊包括總電源開關(guān)和呼吸模式開關(guān)，系統(tǒng)采用電池供電，由電源管理模塊105進(jìn)行電壓轉(zhuǎn)換，整個嵌入式系統(tǒng)的上電都由總電源開關(guān)控制。呼吸模式開關(guān)采用紅外掃描的方式，實(shí)現(xiàn)系統(tǒng)的休眠與啟動。當(dāng)用戶到來時，紅外掃描電路觸發(fā)，系統(tǒng)啟動開始進(jìn)行語音的錄入。這樣不但降低了本實(shí)用新型的功耗，而且使本實(shí)用新型不需要長期處于連續(xù)工作狀態(tài)，延長了系統(tǒng)電池的使用壽命。通信接口單元106采用有線或無線兩種模式和上位機(jī)進(jìn)行通信，二者可自動切換。本實(shí)用新型采用四種方式對系統(tǒng)進(jìn)行低功耗設(shè)計(jì)。(1)低電壓供電的CMOS器件。包括低電壓供電的DSP芯片、存儲單元Flash、用于邏輯控制的CPLD、以及語音采集轉(zhuǎn)換芯片；(2)分時/分區(qū)供電技術(shù)。利用電源開關(guān)對電源進(jìn)行分割，從而控制系統(tǒng)的各個部分，使系統(tǒng)在休眠或掉電工作時關(guān)掉外圍電路的電源，僅僅保留DSP的電源；(3)DSP的節(jié)電模式。在系統(tǒng)無人操作時，令DSP進(jìn)入空閑方式，使DSP處于休眠狀態(tài)；(4)多種工作頻率在線變換技術(shù)。動態(tài)改變DSP的工作時鐘，在等待中斷還有非語音處理等DSP相對空閑階段，降低DSP系統(tǒng)的工作時鐘，當(dāng)需要DSP進(jìn)行高速運(yùn)算時，再提高DSP系統(tǒng)的工作時鐘。系統(tǒng)使用16位并行引導(dǎo)裝載模式構(gòu)建基于FLASH的DSP脫機(jī)獨(dú)立運(yùn)行系統(tǒng)，并使DSP工作在并行裝載模式下的數(shù)據(jù)容量達(dá)到最大，即可以引導(dǎo)裝載最大為32K的程序代碼，并且在運(yùn)行程序時DSP所尋址的64K的區(qū)域(0000H-0FFFFH)都可以作為運(yùn)行時的程序或數(shù)據(jù)區(qū)使用。DSP通過CPLD選通FLASH，其邏輯連接如圖8a。TLV320AIC23B(以下簡稱AIC23)是TI推出的一款高性能的立體聲音頻Codec芯片。內(nèi)置耳機(jī)輸出放大器，支持MIC和LINEIN兩種輸入方式，且對輸入和輸出都具有可編程增益調(diào)節(jié)。AIC23的模數(shù)轉(zhuǎn)換(ADC)和數(shù)模轉(zhuǎn)換(DAC)可以在8K到96K的頻率范圍內(nèi)提供16bit、20bit、24bit、32bit的采樣。在本系統(tǒng)設(shè)計(jì)中，DSPVC5416以SPI模式(時鐘停止模式)與多通道緩沖串行口1(McBSPl)連接。AIC23做為主設(shè)備，VC5416的McBSPl的發(fā)送與接收時鐘均由AIC23的數(shù)據(jù)口位時鐘信號(BCLK)來提供。DSP需要處理來自AIC23的數(shù)據(jù)，這些來自AIC23的數(shù)據(jù)要先經(jīng)過CPLD進(jìn)行鎖存緩沖和時序規(guī)整后再傳向DSP的McBSPl。本設(shè)計(jì)中McBSPl通過DMA方式向VC5416的內(nèi)存?zhèn)鬏敂?shù)據(jù)，每當(dāng)通過DMA接收完一組數(shù)據(jù)時，就向CPU產(chǎn)生中斷請求。AIC23與DSP接口框圖如圖8b所示，AIC23的電路連接原理圖如圖8c所示。說明了DSPVC5416與鍵盤顯示擴(kuò)展芯片HD7279A的接口方式，令DSP的主從接口HPI口為普通IO口，將HD7279A的DATA和CLK弓|腳分別連接到DSP的HDO和HDl引腳。HD7279A的而引腳通過CPLD進(jìn)行電壓轉(zhuǎn)換后接到DSP的INTO引腳上。DSP通過程序來模擬HD7279A的命令時序，完成同HD7279A的通信。HD7279A芯片能同時控8個8位LED數(shù)碼管(或64只LED指示燈)及64鍵鍵盤(內(nèi)含去抖動電路)。HD7279A內(nèi)部含有譯碼器，可直接接受BCD碼或16進(jìn)制碼，具有多種控制指令(消隱、閃爍、左移、右移、段尋址等)。其邏輯標(biāo)準(zhǔn)為5VTTL電平，兼容3.3VTTL電平，可與DSP無縫連接。圖8e給出了鍵盤電路原理圖。在系統(tǒng)的設(shè)計(jì)中，設(shè)有9個小鍵盤(從0到8)，通過HD7279A來與DSP通信，占用DSP資源卻極少，只占用兩個I/O口(DSP的HDO，HDl)和一個外部中斷INTO。這9個小鍵盤是合法用戶在訓(xùn)練前輸入密碼驗(yàn)證用的。其中，鍵盤值與鍵盤碼值的對應(yīng)關(guān)系如下表所示。表1鍵盤值與鍵盤碼值的對應(yīng)關(guān)系<table>tableseeoriginaldocumentpage6</column></row><table>下面給出HD7279A讀取鍵盤數(shù)據(jù)指令的格式，如表3_3所示。表2HD7279A讀鍵盤的指令格式<table>tableseeoriginaldocumentpage7</column></row><table>[0049]讀取鍵盤數(shù)據(jù)指令，寬度為16bit，前8bit(00010101B)為微處理器發(fā)到HD7279A的指令，后8bit為HD7279A返回的鍵盤代碼。執(zhí)行此指令時，數(shù)據(jù)在CLK引腳上升沿被寫入HD7279A的緩沖寄存器，HD7279A的DATA端在第9個CLK脈沖的上升沿變?yōu)檩敵鰻顟B(tài)，并在第16個脈沖的下降沿回復(fù)為輸入狀態(tài)，等待接收下一個指令。為了方便與HD7279的通信，將DSP的主從接口(HPI接口)中的HDl、HDO配置為通用1/0口，即GPI0。當(dāng)HD7279A檢測到有效的按鍵時，ΚΕ引腳從高電平變?yōu)榈碗娖饺ビ|發(fā)DSP的INTO中斷，并一直保持到按鍵結(jié)束。在此期間，如果HD7279A接收到“讀鍵盤數(shù)據(jù)指令”，則輸出當(dāng)前按鍵的鍵盤代碼；如果在收到“讀鍵盤數(shù)據(jù)指令”時沒有有效按鍵，HD7279A將輸出FFH。為了方便用戶的操作，設(shè)計(jì)了系統(tǒng)的指示模塊，它由三個發(fā)光LED和一個蜂鳴器組成。將HPI接口中的HD2、HD3、HD4、HD7配置為GPI0，其中HD2、HD3、HD4依次對應(yīng)紅黃綠三種顏色。當(dāng)GPIO為高電平時，與其相應(yīng)的指示起作用。指示模塊部分的電路示意圖如圖8f所示。權(quán)利要求一種基于嵌入式的開集說話人識別系統(tǒng)，其特征在于語音信號處理單元分別與語音信號采集單元、數(shù)據(jù)存儲單元、人機(jī)接口單元、通信接口單元連接，電源管理模塊與語音信號處理單元連接，人機(jī)接口單元包括狀態(tài)指示模塊、鍵盤模塊、顯示模塊、啟動模塊。專利摘要本實(shí)用新型涉及一種基于嵌入式的開集說話人識別系統(tǒng)，屬于利用嵌入式系統(tǒng)實(shí)現(xiàn)的開集說話人識別系統(tǒng)。語音信號處理單元分別與語音信號采集單元、數(shù)據(jù)存儲單元、人機(jī)接口單元、通信接口單元連接，電源管理模塊與語音信號處理單元連接，人機(jī)接口單元包括狀態(tài)指示模塊、鍵盤模塊、顯示模塊、啟動模塊。本實(shí)用新型的優(yōu)點(diǎn)在于結(jié)構(gòu)新穎，具有實(shí)時性高、識別性能好、低功耗、低成本、便攜、通用性強(qiáng)等特點(diǎn)。文檔編號G10L17/00GK201570259SQ20092009507公開日2010年9月1日申請日期2009年12月31日優(yōu)先權(quán)日2009年12月31日發(fā)明者孫曉穎,林琳,溫泉,燕學(xué)智,王波,胡封曄,陳建,魏小麗申請人:吉林大學(xué)

完整全部詳細(xì)技術(shù)資料下載