不適用。
關(guān)于聯(lián)邦政府資助研究或開發(fā)的聲明
不適用。
技術(shù)領(lǐng)域
本發(fā)明屬于音頻輸入的主動(dòng)感測(cè)(active sensing)領(lǐng)域。實(shí)施例針對(duì)感測(cè)音頻中的具體特征的檢測(cè)。
背景技術(shù):
半導(dǎo)體制造和傳感器技術(shù)的最新進(jìn)展已經(jīng)使對(duì)傳感器和控制器的低功率網(wǎng)絡(luò)的使用的新能力能夠監(jiān)測(cè)環(huán)境以及控制過程。預(yù)期這些網(wǎng)絡(luò)來進(jìn)行廣泛應(yīng)用(包括運(yùn)輸、制造、生物醫(yī)學(xué)、環(huán)境管理、安全以及保密)的部署。這些低功率網(wǎng)絡(luò)中的許多低功率網(wǎng)絡(luò)涉及廣域網(wǎng)上的機(jī)器對(duì)機(jī)器(“M2M”)通信,現(xiàn)在這種網(wǎng)絡(luò)通常被稱為“物聯(lián)網(wǎng)”(“IoT”)。
被設(shè)想作為這些網(wǎng)絡(luò)中的傳感器的輸入的特定的環(huán)境屬性或事件也是廣范圍的,包括如溫度、濕度、地震活動(dòng)、壓力、機(jī)械應(yīng)變或振動(dòng)等條件。在這些網(wǎng)絡(luò)化系統(tǒng)中還設(shè)想感測(cè)音頻屬性或事件。例如,在安全性背景中,可以部署傳感器來檢測(cè)特定聲音,如槍聲、玻璃打破聲、人聲、腳步聲、附近的汽車聲、動(dòng)物咀嚼電力電纜聲、天氣狀況等。
音頻信號(hào)或輸入的感測(cè)還由這種用戶設(shè)備(如移動(dòng)電話、個(gè)人電腦、平板電腦、汽車音響系統(tǒng)、家庭娛樂或照明系統(tǒng)等)實(shí)施。例如,在現(xiàn)代移動(dòng)電話手機(jī)中,軟件“app”的語音激活通常是可用的。典型地,通過檢測(cè)感測(cè)到的音頻中的特定特征或“簽名”以及調(diào)用相應(yīng)的應(yīng)用或行動(dòng)作為響應(yīng)來運(yùn)行常規(guī)的語音激活。能夠由這些用戶設(shè)備感測(cè)的其他類型的音頻輸入包括背景聲音(如用戶是否為辦公環(huán)境、餐廳、移動(dòng)的汽車或其他運(yùn)輸工具中),設(shè)備響應(yīng)于這些音頻輸入而對(duì)其響應(yīng)或操作進(jìn)行修改。
在低功率網(wǎng)絡(luò)設(shè)備和電池供電移動(dòng)設(shè)備中,對(duì)考慮到最大靈活性和電池壽命以及最小形狀系數(shù)來說,低功率操作是關(guān)鍵的。例如,已經(jīng)觀察到的是,在等待預(yù)期的事件發(fā)生同時(shí),一些類型的傳感器(如在IoT背景環(huán)境中部署的無線環(huán)境傳感器)能夠在環(huán)境或信道監(jiān)測(cè)上使用其可用功率的一大部分??紤]通常在語音或聲音識(shí)別中需要的大量的功率,對(duì)聲學(xué)傳感器來說是尤其如此。這種類型的常規(guī)傳感器通常根據(jù)低功率或“睡眠”運(yùn)行模式來運(yùn)行,在該運(yùn)行模式中,傳感器組件(例如,信號(hào)發(fā)送器電路系統(tǒng))的后端被有效地?cái)嚯娭钡浇邮盏街甘绢A(yù)期事件發(fā)生的信號(hào)。而此方法能夠顯著地減少傳感器組件的功率消耗,許多小功率循環(huán)系統(tǒng)在空閑周期期間仍然消耗大量功率,以便構(gòu)成總功率預(yù)算的主要部分,在這些小功率循環(huán)系統(tǒng)中,每個(gè)傳感器組件花費(fèi)非常小量的時(shí)間執(zhí)行數(shù)據(jù)傳輸。
圖1示出了典型的常規(guī)聲音識(shí)別系統(tǒng)300,例如應(yīng)用于人類語言的檢測(cè)。識(shí)別系統(tǒng)300的麥克風(fēng)312接收來自周圍環(huán)境的聲音310,并且將其轉(zhuǎn)換為模擬信號(hào)。系統(tǒng)300的模擬前端(AFE)級(jí)320中的模數(shù)轉(zhuǎn)換器(ADC)322將此模擬輸入信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),具體地,以數(shù)字采樣324的序列的形式。作為本領(lǐng)域的基本原理,ADC 322的采樣率超過兩倍的感興趣的最大頻率的尼奎斯特率(Nyquist rate)。對(duì)典型的人類語言識(shí)別系統(tǒng)來說高達(dá)大約20kHz的聲音信號(hào)是感興趣的,并且對(duì)典型的人類語言識(shí)別系統(tǒng)來說采樣率將為至少40kHz。
在此常規(guī)系統(tǒng)300中,系統(tǒng)300的數(shù)字邏輯330將數(shù)字采樣324轉(zhuǎn)換為聲音信息(D2I)。數(shù)字邏輯330通常由通用微控制器單元(MCU)、專用數(shù)字信號(hào)處理器(DSP)、專用集成電路(ASIC)或其他類型的可編程邏輯實(shí)現(xiàn),并且在此布置中將采樣劃分為幀340以及然后使用定義的轉(zhuǎn)換函數(shù)344將組幀(frame)的采樣轉(zhuǎn)換342為信息特征。然后,通過模式識(shí)別和跟蹤邏輯350將這些信息特征映射到聲音簽名(I2S)。
識(shí)別邏輯350通常由一種或更多種類型的已知模式識(shí)別技術(shù)(如神經(jīng)網(wǎng)絡(luò)、分級(jí)樹、隱馬爾科夫模型、條件隨機(jī)域、支持向量機(jī)等)實(shí)現(xiàn),并且以由時(shí)間點(diǎn)t0360,t1361,t2362等表示的周期的方式運(yùn)行。例如,由轉(zhuǎn)換342產(chǎn)生的每個(gè)信息特征(例如,特征346)與預(yù)先識(shí)別的特征的數(shù)據(jù)庫(kù)370比較。在每個(gè)時(shí)間步驟,識(shí)別邏輯350企圖找到由轉(zhuǎn)換邏輯342產(chǎn)生的信息特征的序列和存儲(chǔ)在數(shù)據(jù)庫(kù)370中的聲音簽名的序列之間的匹配。被識(shí)別的每個(gè)候選簽名352被分配指示其與數(shù)據(jù)庫(kù)370中的特征之間的匹配程度的分?jǐn)?shù)值。那些具有超過閾值的分?jǐn)?shù)的簽名352被識(shí)別器300識(shí)別為與已知簽名匹配。
由于復(fù)雜的信號(hào)分段,因此在識(shí)別系統(tǒng)300中是信號(hào)轉(zhuǎn)換和最終模式識(shí)別操作在數(shù)字域執(zhí)行,需要ADC 322的高性能和高精度實(shí)現(xiàn)以及其余的模擬前端(AFE)320來為接下來復(fù)雜的數(shù)字處理提供足夠的數(shù)字信號(hào)。例如,由典型的常規(guī)聲音識(shí)別系統(tǒng)進(jìn)行的具有8kHz帶寬的聲音信號(hào)的語音識(shí)別將需要以16KSps(每秒采樣)或更高采樣率運(yùn)行的具有16比特精度的ADC。此外,由于原始輸入信號(hào)310本質(zhì)上由系統(tǒng)300記錄,因此信號(hào)能夠從存儲(chǔ)的數(shù)據(jù)、提高隱私和安全問題方面被重建。
另外,為了緩解電池供電應(yīng)用中的高功率消耗問題,在一些工作周期,系統(tǒng)300可以在正常檢測(cè)和備用操作模式之間切換。例如,有時(shí),整個(gè)系統(tǒng)可以被開啟并且運(yùn)行在全功率模式用于檢測(cè),然后是低功率備用模式中的間隔。然而,這種周期性工作操作增加了在備用模式期間丟失事件的可能性。
借助于進(jìn)一步的背景,2015年3月5日公開的通常由此參考指定在此并結(jié)合于此的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066498,描述了配置成接收可能包括簽名聲音的模擬信號(hào)的低功率聲音識(shí)別傳感器。在此傳感器中,使用模擬部分的檢測(cè)部分評(píng)估接收到的模擬信號(hào)以確定何時(shí)超過模擬信號(hào)上的背景噪聲。當(dāng)超過背景噪聲時(shí),觸發(fā)模擬部分的特征提取部分以從模擬信號(hào)中提取稀疏的聲音參數(shù)信息。當(dāng)期望的聲音可能以模擬信號(hào)的形式被接收時(shí),聲音參數(shù)信息的初始截?cái)嗖糠峙c隨著聲音識(shí)別傳感器本地存儲(chǔ)的截?cái)嗦曇魠?shù)數(shù)據(jù)庫(kù)比較以進(jìn)行檢測(cè)。當(dāng)期望的聲音可能以超過閾值的形式被接收時(shí),產(chǎn)生觸發(fā)信號(hào)以觸發(fā)分類邏輯。
借助于進(jìn)一步的背景,2015年3月5日公開的通常由此參考指定在此并結(jié)合于此的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495,描述了配置成接收可能包括簽名聲音的模擬信號(hào)的低功率聲音識(shí)別傳感器。在此傳感器中,當(dāng)在模擬信號(hào)中接收簽名聲音時(shí),從模擬信號(hào)中提取稀疏的聲音參數(shù)信息,并且將該稀疏的聲音參數(shù)信息與隨著聲音識(shí)別傳感器本地存儲(chǔ)的聲音參數(shù)參考比較以進(jìn)行檢測(cè)。稀疏的聲音參數(shù)信息的部分為微分零交叉(ZC)計(jì)數(shù)。通過測(cè)量在時(shí)間幀的每個(gè)序列期間模擬信號(hào)交叉閾值的次數(shù)以形成ZC計(jì)數(shù)的序列以及通過ZC計(jì)數(shù)的選擇對(duì)之間的區(qū)別來形成微分ZC計(jì)數(shù)的序列,可以確定微分ZC率。
技術(shù)實(shí)現(xiàn)要素:
所公開的實(shí)施例提供了以減少的功率消耗有效識(shí)別具體音頻事件的音頻識(shí)別系統(tǒng)和方法。
所公開的實(shí)施例提供了以改進(jìn)的精度識(shí)別具體音頻事件的這種系統(tǒng)和方法。
所公開的實(shí)施例提供了實(shí)現(xiàn)提高的硬件效率(具體結(jié)合模擬電路系統(tǒng)和功能電路)的這種系統(tǒng)和方法。
所公開的實(shí)施例提供了能夠以更高的頻帶分辨率而不增加檢測(cè)信道復(fù)雜度執(zhí)行這種音頻識(shí)別的這種系統(tǒng)和方法。
所公開的實(shí)施例提供了這種系統(tǒng)和在音頻識(shí)別系統(tǒng)中降低模擬濾波器失配的方法。
通過參照以下說明連同其附圖,所公開的實(shí)施例的其他目標(biāo)和優(yōu)點(diǎn)對(duì)本領(lǐng)域普通技術(shù)人員將是明顯的。
根據(jù)特定的實(shí)施例,通過將信號(hào)持續(xù)時(shí)間劃分成多個(gè)間隔(例如,劃分為多個(gè)幀),在接收的音頻信號(hào)上執(zhí)行模擬音頻檢測(cè)。從在信號(hào)中的不同時(shí)間以不同頻率特性濾波的信號(hào)中識(shí)別模擬信號(hào)特征,因此在輸入信號(hào)中的具體時(shí)間點(diǎn)識(shí)別具體頻率的信號(hào)特征。根據(jù)識(shí)別的模擬信號(hào)特征構(gòu)造輸出特征序列,并且針對(duì)檢測(cè)的事件,將輸出特征序列與預(yù)定義的特征序列比較。
附圖說明
圖1為框圖形式的常規(guī)音頻識(shí)別系統(tǒng)的電路圖。
圖2為框圖形式的根據(jù)公開的實(shí)施例的音頻識(shí)別系統(tǒng)的電路圖。
圖3為框圖形式的根據(jù)實(shí)施例的具有模擬特征提取能力的模擬前端的電路圖。
圖4為框圖形式的根據(jù)實(shí)施例的圖3的模擬前端的模擬特征提取功能電路的功能圖。
圖5示出了濾波的信號(hào)的曲線圖,該曲線圖將多信道濾波方法與實(shí)施例的操作進(jìn)行比較。
圖6a和圖6b為框圖形式的根據(jù)替代實(shí)施例的時(shí)間相關(guān)的模擬濾波特征提取和排序(sequencing)功能電路的電路圖。
圖7為框圖形式的根據(jù)公開的實(shí)施例的利用A2I稀疏聲音特征進(jìn)行聲音識(shí)別的系統(tǒng)的電路圖。
具體實(shí)施方式
將此說明中描述的一個(gè)或更多個(gè)實(shí)施例實(shí)現(xiàn)為(例如移動(dòng)電話手機(jī)中的)語音識(shí)別功能,如設(shè)想在其上下文中這種實(shí)現(xiàn)是特別有利的。然而,還設(shè)想本發(fā)明的概念可以在其他應(yīng)用中有益地應(yīng)用和實(shí)現(xiàn),例如,在如可以由遠(yuǎn)程傳感器、安全以及其他環(huán)境傳感器等實(shí)施的聲音檢測(cè)中實(shí)現(xiàn)。因此,將理解的是,以下描述僅以示例的方式提供且不旨在限制如要求保護(hù)的本發(fā)明的真實(shí)范圍。
圖2功能性地示出模擬信息(analog-to-information)(A2I)聲音識(shí)別系統(tǒng)5的架構(gòu)和操作,本發(fā)明的實(shí)施例可以在該系統(tǒng)中實(shí)現(xiàn)。在此布置中,如上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498中大體描述的,系統(tǒng)5作用于從模擬輸入信號(hào)中直接提取的稀疏信息,其中模擬輸入信號(hào)在該實(shí)例中由麥克風(fēng)M接收。根據(jù)此布置,模擬前端(AFE)10還執(zhí)行各種形式的模擬信號(hào)處理,如具有期望的頻率特性的模擬濾波器的應(yīng)用、濾波信號(hào)的組幀(frame)等。
如結(jié)合這些實(shí)施例在下面將進(jìn)一步描述的,AFE 10還執(zhí)行模擬域處理來提取接收的輸入信號(hào)中的具體特征。將這些典型地“稀疏的”提取模擬特征分類(例如,通過比較存儲(chǔ)在簽名/冒名(imposter)數(shù)據(jù)庫(kù)17中的簽名特征),然后將其數(shù)字化并且轉(zhuǎn)發(fā)至數(shù)字微控制器單元(MCU)20(該數(shù)字微控制器單元可以由通用微處理器單元、專用數(shù)字信號(hào)處理器(DSP)、專用集成電路(ASIC)等實(shí)現(xiàn))。MCU 20應(yīng)用一種或更多種類型的已知模式識(shí)別技術(shù)(如神經(jīng)網(wǎng)絡(luò)、分級(jí)樹、隱馬爾科夫模型、條件隨機(jī)域、支持向量機(jī)等)來對(duì)由此布置中的AFE 10提取的數(shù)字化特征執(zhí)行數(shù)字域模式識(shí)別。一旦MCU 20從那些特征中檢測(cè)聲音簽名,相應(yīng)的信息以常規(guī)的方式從聲音識(shí)別系統(tǒng)5轉(zhuǎn)發(fā)至系統(tǒng)5在其中實(shí)施的系統(tǒng)中合適的目標(biāo)功能電路。根據(jù)此布置,聲音識(shí)別系統(tǒng)5僅數(shù)字化提取的特征(即,包括有用的和可識(shí)別的信息的那些特征)而不是全部輸入信號(hào),并且基于那些特征而不是全部輸入信號(hào)的數(shù)字化版本執(zhí)行數(shù)字模式識(shí)別。根據(jù)此布置,由于輸入聲音在模擬域中被處理和組幀,因此可能出現(xiàn)在聲音信號(hào)中的許多噪聲和干擾在數(shù)字化之前被移除,這繼而降低了AFE 10中需要的精度,具體地,降低了AFE 10中模擬數(shù)字轉(zhuǎn)換(ADC)功能的速度和性能需求。所產(chǎn)生的對(duì)AFE 10的性能需求的放寬使聲音識(shí)別系統(tǒng)5能夠在非常低的功率水平上運(yùn)行,這在現(xiàn)代電池供電系統(tǒng)中是關(guān)鍵的。
如圖2所示,AFE 10(特別是其模擬特征提取功能電路)能夠與簽名/冒名數(shù)據(jù)庫(kù)17的在線實(shí)施通信以執(zhí)行其特征識(shí)別功能。在此布置中,聲音識(shí)別系統(tǒng)5功能性地包括網(wǎng)絡(luò)鏈路15,系統(tǒng)5通過該網(wǎng)絡(luò)鏈路能夠與服務(wù)器16通信,在針對(duì)接收的輸入信號(hào)的識(shí)別過程中其反過來實(shí)時(shí)的訪問簽名/冒名數(shù)據(jù)庫(kù)17。替代性的,本地存儲(chǔ)器資源可以存儲(chǔ)系統(tǒng)5中的本地特征識(shí)別的必要數(shù)據(jù),該本地存儲(chǔ)器資源在聲音識(shí)別系統(tǒng)5中或在系統(tǒng)5在其中實(shí)施的終端用戶系統(tǒng)(例如,移動(dòng)電話手機(jī))中的其他地方。在此示例中,如圖2所示,設(shè)想通過“基于云端的”在線訓(xùn)練18可以開發(fā)應(yīng)用在信號(hào)特征的識(shí)別中的數(shù)據(jù),如在上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498中描述的,或在本領(lǐng)域已知的其他常規(guī)方式中描述的。
圖3示出了根據(jù)這些實(shí)施例的AFE 10的功能化布置。在此實(shí)現(xiàn)中,由麥克風(fēng)M接收的模擬信號(hào)被放大器22放大,并且應(yīng)用于在模擬前端10中的模擬信號(hào)處理電路系統(tǒng)24。信號(hào)處理電路系統(tǒng)24執(zhí)行各種形式的模擬域信號(hào)處理和調(diào)節(jié),如適合于下游功能;設(shè)想?yún)⒖即苏f明書的本領(lǐng)域技術(shù)人員將能夠容易地實(shí)現(xiàn)如適合具體的實(shí)現(xiàn)而不進(jìn)行過度實(shí)驗(yàn)的模擬信號(hào)處理功能電路24。在此實(shí)施例中,模擬特征提取在逐幀(frame-by-frame)基礎(chǔ)上實(shí)施,模擬組幀功能電路26將處理過的模擬信號(hào)分成時(shí)域幀。每個(gè)幀的長(zhǎng)度可以根據(jù)具體的應(yīng)用而變化,例如,從大約1毫秒到大約20毫秒的典型的幀值范圍。然后,將處理過的模擬信號(hào)幀轉(zhuǎn)發(fā)至模擬特征提取功能電路28。
圖4示出了根據(jù)此實(shí)施例的模擬特征提取功能電路28的功能化布置。信號(hào)觸發(fā)器30被實(shí)現(xiàn)為評(píng)估組幀的模擬信號(hào)相對(duì)背景噪聲以確定之后的信號(hào)鏈中的功能是否將從備用狀態(tài)被喚醒的模擬電路系統(tǒng),這允許AFE 10中的電路系統(tǒng)的許多電路多次斷電。在信號(hào)觸發(fā)器30檢測(cè)具體數(shù)量的信號(hào)能量的事件中(例如,比較信號(hào)的放大版本與模擬閾值),將組幀的模擬信號(hào)傳遞到時(shí)間相關(guān)的模擬濾波特征提取和排序功能電路35。
上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498描述了模擬特征提取的方法,其中多個(gè)模擬信道作用于模擬信號(hào)上以提取不同的模擬特征。如那些公開中描述的,使用選擇的帶通、低通、高通或其他類型的濾波器,一個(gè)或更多個(gè)信道可以從模擬輸入信號(hào)各自的濾波版本中提取這種屬性(如零交叉信息和總能量)。提取的特征可以基于微分(differential)零交叉(ZC)計(jì)數(shù),例如相鄰聲音幀(即在時(shí)域中)之間的ZC率中的差,通過使用不同的閾值電壓代替僅一個(gè)參考閾值(即在振幅域中)來確定ZC率的差;通過使用不同的采樣時(shí)鐘頻率(即在頻域中)來確定ZC率的差,通過單獨(dú)或結(jié)合使用的這些或其他微分ZC措施來識(shí)別具體的特征。能夠分析從模擬信號(hào)中提取的總能量值和該信號(hào)的各種濾波版本來檢測(cè)具體頻帶內(nèi)的能量值,該總能量值和各種濾波版本還能夠指示具體的特征。
根據(jù)上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498中的方法,在接收信號(hào)的持續(xù)時(shí)間內(nèi)應(yīng)用模擬特征提取信道。圖5示出了被這些不同的模擬信道應(yīng)用的濾波的說明性示例。在此示例中,模擬信號(hào)i(t)為在一段時(shí)間內(nèi)(如在第二事件的持續(xù)時(shí)間內(nèi)或在一些數(shù)量的幀內(nèi))接收的輸入信號(hào)。例如,如果期望的聲音事件通常在一秒鐘內(nèi)發(fā)生,并且由組幀功能電路26產(chǎn)生的幀的長(zhǎng)度為20毫秒,那么模擬信號(hào)i(t)將具有大約五十幀的持續(xù)時(shí)間。在一個(gè)模擬特征提取信道中,低通濾波器LPF1使用具有0.5kHz的截止頻率fCO的低通濾波器濾波此接收的模擬信號(hào)i(t),以產(chǎn)生如所示的濾波的模擬信號(hào)i(t)LPE1。類似地,在另一個(gè)特征提取信道中,低通濾波器LPF2將具有2.5kHz的截止頻率fCO的濾波器應(yīng)用于輸入信號(hào)i(t)以產(chǎn)生如所示的濾波的模擬信號(hào)i(t)LPF2。根據(jù)上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498中描述的實(shí)現(xiàn),然后通過特征提取電路(如零交叉(ZC)計(jì)數(shù)器、微分ZC分析器、導(dǎo)出總能量的積分器等)分析這些信號(hào)i(t)LPF1和i(t)LPF2中的每個(gè)信號(hào),該特征提取電路確定在相應(yīng)的濾波信號(hào)i(t)LPF1和i(t)LPF2中的具體模擬信號(hào)特征的振幅。
結(jié)合本發(fā)明已經(jīng)發(fā)現(xiàn),在信號(hào)內(nèi)的具體時(shí)間間隔的具體頻帶內(nèi)的信號(hào)特征對(duì)簽名識(shí)別來說能夠比在該間隔期間的其他頻帶內(nèi)的特征更重要,并且比在該信號(hào)內(nèi)的其他時(shí)間的相同的具體頻帶內(nèi)的特征更重要。根據(jù)這些實(shí)施例,提供時(shí)間相關(guān)的模擬濾波特征提取和排序功能電路35(圖4)以使得信號(hào)中的特征的提取能夠在音頻信號(hào)事件持續(xù)時(shí)間內(nèi)的不同時(shí)間以不同頻率敏感度來執(zhí)行。
設(shè)想在輸入信號(hào)持續(xù)時(shí)間內(nèi)應(yīng)用的濾波頻率特性的具體序列將通常在簽名/冒名數(shù)據(jù)庫(kù)17的發(fā)展中由在線訓(xùn)練功能電路18確定。通常,此訓(xùn)練將運(yùn)行以識(shí)別待檢測(cè)的聲音事件的最獨(dú)特的特征(如上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498中描述的),附加必要的訓(xùn)練來識(shí)別具體頻帶和幀間隔,那些特征在幀間隔處出現(xiàn)在該信號(hào)內(nèi)。根據(jù)這些實(shí)施例,在該信號(hào)持續(xù)時(shí)間內(nèi)(視情況而定),此訓(xùn)練導(dǎo)致濾波頻帶序列以及待應(yīng)用或檢測(cè)的相應(yīng)信號(hào)特征的確定。
根據(jù)這些實(shí)施例的通過低通濾波器LPF(t)的時(shí)間相關(guān)的模擬濾波特征提取和排序功能電路35的操作的一個(gè)示例在圖5中示出,該功能電路將具有時(shí)間相關(guān)的截止頻率fCO(t)的濾波器應(yīng)用到輸入信號(hào)i(t)以產(chǎn)生濾波的輸入信號(hào)i(t)LPF(t)。在此示例中,低通濾波器LPF(t)在輸入信號(hào)序列中的第一幀期間以及在靠近該輸入信號(hào)序列的中間的兩個(gè)獨(dú)立的幀期間應(yīng)用具有2.5kHz的截止頻率fCO的低通濾波器LPF2,并且在輸入信號(hào)i(t)持續(xù)時(shí)間內(nèi)的其他幀期間應(yīng)用具有0.5kHz的截止頻率fCO的低通濾波器LPF1。如果待測(cè)的期望的聲音簽名在聲音事件早期(即在第一幀期間)以及還在靠近選擇低通濾波器LPF2時(shí)的聲音事件的中間的兩個(gè)獨(dú)立的幀內(nèi)在高頻處具有高能量,以及在該事件中的其他時(shí)間在較低頻處具有特征,那么該模式是有用的。通過時(shí)間相關(guān)的模擬濾波特征提取和排序功能電路35,在那些間隔內(nèi)將模擬特征提取應(yīng)用到這些各自的濾波信號(hào)中,以在輸入信號(hào)i(t)持續(xù)時(shí)間內(nèi)產(chǎn)生信號(hào)特征序列。以此方式,時(shí)間相關(guān)的模擬濾波特征提取和排序功能電路35實(shí)現(xiàn)信號(hào)間隔內(nèi)的不同時(shí)間的不同頻率處的信號(hào)特征的識(shí)別,并且因此實(shí)現(xiàn)簽名檢測(cè)的精度改進(jìn)。
參照?qǐng)D6a,現(xiàn)在將進(jìn)一步詳細(xì)描述根據(jù)一個(gè)實(shí)施例的時(shí)間相關(guān)的模擬濾波特征提取和排序功能電路35的構(gòu)建與操作。在此實(shí)施例中,可調(diào)諧濾波器40接收模擬輸入信號(hào)i(t),并且根據(jù)在該信號(hào)持續(xù)時(shí)間內(nèi)能夠隨時(shí)間變化的頻率特性來濾波該信號(hào)。例如,可以將可調(diào)諧濾波器40構(gòu)造為模擬濾波器,在該模擬濾波器中響應(yīng)于數(shù)字控制信號(hào)可以將選擇的部件(例如,電阻器、電容器)切換到或切換出濾波器電路。在這種實(shí)施例中,時(shí)基控制器42包括用于生成數(shù)字控制信號(hào)的合適的邏輯電路系統(tǒng),該數(shù)字控制信號(hào)選擇可調(diào)諧濾波器40應(yīng)用的濾波器特性。在圖4的此實(shí)施例中,針對(duì)表示為m個(gè)幀的序列的模擬輸入信號(hào)i(t)的示例,時(shí)基控制器42向可調(diào)諧濾波器40發(fā)出合適的控制信號(hào)以使得其將具體的濾波器特性應(yīng)用到m個(gè)幀的序列的每個(gè)幀內(nèi)的輸入信號(hào)i(t)。這些濾波器特性的示例包括具有不同的截止頻率的低通濾波器、帶通濾波器、高通濾波器、陷波濾波器等,如圖5的簡(jiǎn)單示例中的LPF1和LPF2的情況。例如,時(shí)基控制器42能夠針對(duì)m個(gè)幀的每個(gè),控制從可用濾波器特性的集合F={F1,F(xiàn)2,F(xiàn)3,...,F(xiàn)X}的可調(diào)諧濾波器40的可適用濾波器特性的選擇,以使得應(yīng)用于給定幀n的選擇濾波器特性為該集合(例如,F(xiàn)(n)∈F)的成員。當(dāng)然,成功的幀可以應(yīng)用相同的濾波器特性,例如,如圖5所示通過更長(zhǎng)的間隔,在該間隔內(nèi)應(yīng)用低通濾波器LPF1。
如以上所指出的,基于在線訓(xùn)練功能電路18的結(jié)果或者以其他方式對(duì)應(yīng)于待測(cè)的聲音簽名的簽名/冒名數(shù)據(jù)庫(kù)17中的預(yù)先知道的特征序列能夠預(yù)定義在m個(gè)幀的序列內(nèi)由時(shí)基控制器42選擇的濾波器特性序列。
因此,根據(jù)此實(shí)施例,組幀濾波模擬信號(hào)F(n)的序列由可調(diào)諧濾波器40提供給特征提取功能電路45,根據(jù)可以在m個(gè)幀的序列的幀之間變化的濾波器特性濾波該組幀濾波模擬信號(hào)的每個(gè)信號(hào)。構(gòu)造特征提取功能電路45以從每個(gè)幀中的濾波信號(hào)中提取一個(gè)或更多個(gè)特征。例如,如上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498中描述的,可以構(gòu)造特征提取功能電路45來提取特征如ZC計(jì)數(shù)、ZC微分、總能量等。設(shè)想通過參考此說明連同上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498,本領(lǐng)域技術(shù)人員將能夠容易的實(shí)現(xiàn)零交叉電路系統(tǒng)、積分器電路系統(tǒng)等,以根據(jù)此實(shí)施例從可調(diào)諧濾波器40產(chǎn)生的信號(hào)F(n)中提取期望的特征而不進(jìn)行過度實(shí)驗(yàn)。因此,特征提取功能電路45產(chǎn)生所提取的特征的逐幀序列E(F(n))/ZC(F(n)),其中,在信號(hào)的持續(xù)時(shí)間內(nèi)的各時(shí)間處從輸入信號(hào)的具體頻率中提取那些特征。
然后,如圖4所示,在模擬特征提取功能電路28中將提取的特征的此序列E(F(n))/ZC(F(n))提供給事件觸發(fā)器36。如以上討論的,類似于上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498中描述的,事件觸發(fā)器36被實(shí)現(xiàn)為將提取的特征的序列E(F(n))/ZC(F(n))與預(yù)定義的特征序列比較并基于該比較決定是否喚醒MCU 20中的數(shù)字分類器功能電路來運(yùn)行完整的簽名檢測(cè)的邏輯。根據(jù)此實(shí)施例,事件觸發(fā)器36可以依賴于序列E(F(n))/ZC(F(n))中的一個(gè)或更多個(gè)模擬信號(hào)特征來發(fā)送開始點(diǎn)以與已知特征比較,例如那些由在線訓(xùn)練18確定的已知特征或以其他方式存儲(chǔ)在簽名/冒名數(shù)據(jù)庫(kù)17中的已知特征??梢詫⒂纱司唧w系統(tǒng)5識(shí)別的具體特征(例如,用戶具體特征)存儲(chǔ)在事件觸發(fā)器36內(nèi)部的存儲(chǔ)器或以其他方式由事件觸發(fā)器可訪問的存儲(chǔ)器中的一個(gè)或更多個(gè)聲音簽名的數(shù)據(jù)庫(kù)中,用于在此比較中使用,從而使得提取的特征的序列E(F(n))/ZC(F(n))可以與預(yù)定義的特征序列比較,例如在每個(gè)時(shí)間間隔內(nèi)(例如,一個(gè)或更多個(gè)幀)具體頻率特征由可調(diào)諧模擬濾波器40應(yīng)用。一旦事件觸發(fā)器36檢測(cè)到根據(jù)匹配準(zhǔn)則可能匹配(例如由識(shí)別的特征序列E(F(n))/ZC(F(n))與預(yù)定義的已知特征的比較超過閾值的一些測(cè)量),事件觸發(fā)器36斷言啟動(dòng)由數(shù)字處理電路系統(tǒng)執(zhí)行的行動(dòng)的信號(hào),如,引起MCU 20喚醒以及引起其數(shù)字分類邏輯在模擬特征提取功能電路28提取的稀疏的聲音特征上執(zhí)行嚴(yán)格的聲音識(shí)別過程的觸發(fā)信號(hào)。在此實(shí)施例中,特征序列E(F(n))/ZC(F(n))自身轉(zhuǎn)發(fā)至ADC 29以進(jìn)行數(shù)字化以及轉(zhuǎn)發(fā)至MCU 20用于此嚴(yán)格的數(shù)字聲音識(shí)別任務(wù);替代地,接收的模擬信號(hào)自身(即不根據(jù)可調(diào)諧模擬濾波器40的時(shí)間相關(guān)的濾波而被濾波)反而可以轉(zhuǎn)發(fā)至ADC 29以使得數(shù)字聲音識(shí)別在完整的信號(hào)上執(zhí)行。
參照?qǐng)D6b,現(xiàn)在將進(jìn)一步詳細(xì)描述根據(jù)另一個(gè)實(shí)施例的時(shí)間相關(guān)的模擬濾波特征提取和排序功能電路35’的構(gòu)建與操作。在此布置中,提取和排序功能電路35’而不是可調(diào)諧模擬濾波器包括一組模擬濾波器50a,50b,...,50k,每個(gè)濾波器在輸入信號(hào)i(t)的整個(gè)持續(xù)時(shí)間內(nèi)接收和濾波所述輸入信號(hào)。然而,根據(jù)此實(shí)施例,模擬濾波器50a至50k彼此應(yīng)用不同濾波器特性到輸入信號(hào)i(t);而圖6b通過低通濾波指示示出了模擬濾波器50a至50k的每個(gè),由這些濾波器應(yīng)用的濾波特性當(dāng)然不限于低通濾波器??梢杂赡M濾波器50a至50k的單獨(dú)的一個(gè)應(yīng)用的濾波器特性的示例包括低通濾波器、帶通濾波器、高通濾波器、陷波濾波器等,它們具有不同的截止頻率,如圖5的簡(jiǎn)單的低通濾波器示例中的LPF1和LPF2的情況。
然后,將由模擬濾波器50a至50k產(chǎn)生的濾波信號(hào)應(yīng)用到相應(yīng)的特征提取功能電路55a,55b,...,55k,這些特征提取功能電路經(jīng)構(gòu)造以從相應(yīng)的濾波信號(hào)中提取一個(gè)或更多個(gè)特征。設(shè)想可以相似于特征提取功能電路45構(gòu)造特征提取功能電路55a至55k,其中每個(gè)實(shí)例提取特征(如ZC計(jì)數(shù)器、ZC微分、總能量等),該特征提取功能電路45在上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498中描述。設(shè)想通過參考此說明連同上述結(jié)合的美國(guó)專利申請(qǐng)公開號(hào)US 2015/0066495和US 2015/0066498,本領(lǐng)域技術(shù)人員將能夠容易地以零交叉電路系統(tǒng)、積分器電路系統(tǒng)等形式實(shí)現(xiàn)特征提取功能電路55a至55k,適合于從來自相應(yīng)的模擬濾波器50a至50k的濾波信號(hào)中提取期望的特征而不進(jìn)行過度實(shí)驗(yàn)。設(shè)想來自一個(gè)或更多個(gè)模擬濾波器50a至50k的濾波輸出可以被提供至多于一個(gè)相應(yīng)的特征提取功能電路55a至55k。例如,如圖6b所示,將來自模擬濾波器50c的濾波信號(hào)應(yīng)用于兩個(gè)特征提取功能電路55c1、55c2;這些功能電路55c1、55c2可以被布置以從濾波信號(hào)中提取不同的特征,例如,用功能電路55c1提取總能量以及功能電路55c2提取ZC計(jì)數(shù)或微分等。
根據(jù)此實(shí)施例,多個(gè)模擬濾波器50a至50k的每個(gè)模擬濾波器可以被使能以在輸入信號(hào)i(t)的整個(gè)持續(xù)時(shí)間內(nèi)濾波輸入信號(hào)i(t),特征提取功能電路55a至55k的每個(gè)特征提取功能電路的輸出應(yīng)用到多路復(fù)用器60的相應(yīng)輸入。多路復(fù)用器60的輸出將特征序列E(F(n))/ZC(F(n))提供給以上描述的觸發(fā)器邏輯36和ADC 29(圖4)。在此實(shí)施例中,多路復(fù)用器60經(jīng)構(gòu)造以響應(yīng)于來自時(shí)基控制器42的控制信號(hào),從特征提取功能電路55a至55k中選擇一個(gè)或更多個(gè)提取特征。類似于以上關(guān)于圖6a的描述,時(shí)基控制器42包括用于產(chǎn)生控制信號(hào)的合適的邏輯電路系統(tǒng),這些控制信號(hào)引起多路復(fù)用器60在輸入信號(hào)i(t)的持續(xù)時(shí)間內(nèi)的期望的幀或時(shí)間間隔處選擇合適的提取特征。在模擬輸入信號(hào)i(t)被呈現(xiàn)為m個(gè)幀的序列的圖4的實(shí)施例中,時(shí)基控制器42向多路復(fù)用器60發(fā)出合適的控制信號(hào),從而使得其在m個(gè)幀的序列中的每一個(gè)幀中的特征提取功能電路55a至55k選擇所提取的特征中的一個(gè)或更多個(gè)特征。以此方式,多路復(fù)用器60的輸出產(chǎn)生所提取的特征的逐幀序列E(F(n))/ZC(F(n)),其中,在信號(hào)的持續(xù)時(shí)間內(nèi)的各時(shí)間處從輸入信號(hào)的具體頻率中提取那些特征。
如在圖6a的實(shí)施例中,然后由時(shí)間相關(guān)的模擬濾波特征提取和排序功能電路35’的多路復(fù)用器60將所提取的特征的序列E(F(n))/ZC(F(n))提供至模擬特征提取功能電路28(圖4)中的事件觸發(fā)器36。如以上所描述的,事件觸發(fā)器36將所提取的特征的序列E(F(n))/ZC(F(n))與預(yù)定義的特征序列比較,并且如以上相對(duì)于圖6a描述的,基于該比較以及適用的匹配準(zhǔn)則決定是否喚醒在MCU 20中的數(shù)字分類器功能以進(jìn)行完整的簽名檢測(cè)。如果是,則觸發(fā)器邏輯130斷言啟動(dòng)對(duì)下游電路系統(tǒng)部分的行動(dòng)的信號(hào),例如,使MCU 20喚醒并且使其數(shù)字分類邏輯對(duì)模擬特征提取功能28所提取的稀疏聲音特征執(zhí)行嚴(yán)密的聲音識(shí)別過程的信號(hào)?;蛘咛卣餍蛄蠩(F(n))/ZC(F(n))自身轉(zhuǎn)發(fā)至ADC 29用于數(shù)字化并且轉(zhuǎn)發(fā)至MCU 20用于此嚴(yán)密的數(shù)字聲音識(shí)別任務(wù),或者所接收的模擬信號(hào)(由時(shí)間相關(guān)的模擬濾波特征提取和排序功能電路35’從該模擬信號(hào)中提取特征)自身轉(zhuǎn)發(fā)至ADC 29用于數(shù)字化以及由MCU 20進(jìn)行數(shù)字聲音識(shí)別。
圖7是根據(jù)這些實(shí)施例的利用A2I稀疏聲音特征的示例性移動(dòng)蜂窩電話1000的框圖,比如用于命令識(shí)別。數(shù)字基帶(DBB)單元1002可以包括數(shù)字處理處理器系統(tǒng)(DSP),該數(shù)字處理處理器系統(tǒng)包括嵌入式存儲(chǔ)器和安全特征。激勵(lì)處理(SP)單元1004從手機(jī)麥克風(fēng)1013a接收語音數(shù)據(jù)流并將語音數(shù)據(jù)流發(fā)送至手機(jī)單聲道揚(yáng)聲器1013b。SP單元1004還從麥克風(fēng)1014a接收語音數(shù)據(jù)流并將語音數(shù)據(jù)流發(fā)送至單聲道耳機(jī)1014b。通常,SP和DBB是單獨(dú)的IC。在多數(shù)實(shí)施例中,SP并不嵌入可編程處理器芯片,但是基于由在DBB上運(yùn)行的軟件設(shè)置的音頻路徑、濾波、增益等的配置來執(zhí)行處理。在可替代的實(shí)施例中,在執(zhí)行DBB處理的相同的處理器上執(zhí)行SP處理。在另一個(gè)實(shí)施例中,單獨(dú)的DSP或者其他類型的處理器執(zhí)行SP處理。
在此實(shí)施方式中,SP單元1004包括采用以上所描述的聲音識(shí)別系統(tǒng)5的形式的A2I聲音提取模塊,其允許移動(dòng)電話1000以超低功率消耗模式運(yùn)行同時(shí)持續(xù)監(jiān)測(cè)可以被配置成喚醒移動(dòng)電話1000的口頭字命令或者其他聲音。可以提取并向數(shù)字基帶模塊1002提供魯棒的聲音特征用于分類和識(shí)別命令字的詞匯表,該命令字然后調(diào)用移動(dòng)電話1000的各種運(yùn)行特征的中使用。例如,可以執(zhí)行至地址簿中的聯(lián)系人的語音撥號(hào)。如以上更加詳細(xì)地描述的,可以經(jīng)由RF收發(fā)器1006將魯棒的聲音特征發(fā)送至基于云的訓(xùn)練服務(wù)器。
RF收發(fā)器1006是數(shù)字無線電處理器并且包括用于經(jīng)由天線1007從蜂窩基站接收編碼的數(shù)據(jù)幀流的接收器,以及用于經(jīng)由天線1007將編碼的數(shù)據(jù)幀流發(fā)送至蜂窩基站的發(fā)送器。RF收發(fā)器1006被耦合至DBB 1002,該DBB提供對(duì)移動(dòng)電話1000接收并發(fā)送的編碼的數(shù)據(jù)幀的處理。
DBB單元1002可以向連接至通用串行總線(USB)端口1026的各種設(shè)備發(fā)送或者接收數(shù)據(jù)。能夠?qū)BB 1002連接至用戶識(shí)別模塊(SIM)卡1010,并且該DBB能夠存儲(chǔ)并檢索用于經(jīng)由蜂窩系統(tǒng)來做出呼叫的信息。還能夠?qū)BB 1002連接至存儲(chǔ)器1012,該存儲(chǔ)器增加板載內(nèi)存并且用于各種處理需要。能夠?qū)BB 1002連接至藍(lán)牙基帶單元1030用于與發(fā)送和接收語音數(shù)據(jù)的麥克風(fēng)1032a和耳機(jī)1032b的無線連接。還能夠?qū)BB 1002連接至顯示器1020,該DBB能夠向該顯示器發(fā)送信息以在呼叫過程中與移動(dòng)UE 1000進(jìn)行交互??梢詫⒂|摸屏1021連接至DBB 1002用于觸覺反饋。顯示器1020還可以顯示從網(wǎng)絡(luò)、從本地?cái)z像機(jī)1028或者從如USB 1026的其他源接收的圖片。DBB 1002還可以經(jīng)由RF收發(fā)器1006或者攝像機(jī)1028將從如蜂窩網(wǎng)絡(luò)的各種源接收的視頻流發(fā)送至顯示器1020。DBB 1002還可以經(jīng)由在復(fù)合輸出終端1024之上的編碼器1022將視頻流發(fā)送至外部視頻顯示單元。編碼器單元1022能夠根據(jù)PAL/SECAM/NTSC視頻標(biāo)準(zhǔn)提供編碼。在一些實(shí)施例中,音頻編解碼器1009從FM無線電調(diào)諧器1008接收音頻流并將音頻流發(fā)送至立體聲耳機(jī)1016和/或立體聲揚(yáng)聲器1018。在其他實(shí)施例中,可能存在音頻流的其他源,比如光盤(CD)播放器、固態(tài)存儲(chǔ)器模塊等。
根據(jù)本實(shí)施例的模擬濾波特征提取和排序功能在音頻事件、命令等的識(shí)別中提供重要益處。由根據(jù)這些實(shí)施例的模擬特征提取產(chǎn)生的一個(gè)這種益處是減少下游數(shù)字聲音識(shí)別過程的復(fù)雜性。這些實(shí)施例能夠呈現(xiàn)所提取的特征的單個(gè)序列,而不是接收并處理由多個(gè)模擬信道處理的多個(gè)模擬特征序列,這允許數(shù)字分類器的復(fù)雜性顯著減小。這些實(shí)施例還改進(jìn)了通過固定頻帶實(shí)施方式的聲音識(shí)別過程的潛在頻帶分辨率,在固定頻帶實(shí)施方式中,頻帶分辨率與信道數(shù)目成比例。在這些實(shí)施例中,能夠向輸入信號(hào)的某些時(shí)間間隔分配不同的頻帶,使單個(gè)信道在多個(gè)頻率上達(dá)到良好的分辨率。這些實(shí)施例的這種屬性還通過使訓(xùn)練過程提取待檢測(cè)的音頻事件的在時(shí)間和頻率上都孤立的最獨(dú)特的特征來改進(jìn)聲音識(shí)別過程的整體精確度和效率,這在改進(jìn)識(shí)別的精確度的同時(shí)減少了識(shí)別簽名的計(jì)算工作。
以上所描述的一些實(shí)施例提供硬件效率和改進(jìn)的硬件性能。更具體地,與多信道方法相比,在信號(hào)持續(xù)時(shí)間內(nèi)的不同時(shí)間應(yīng)用不同頻率特性的可調(diào)諧模擬濾波器的使用減少了模擬濾波器的數(shù)量以及在模擬前端中的特征提取功能電路的數(shù)量。此外,使用可調(diào)諧模擬濾波器的實(shí)施例消除了在多個(gè)并行運(yùn)行的濾波器之間的濾波器不匹配的可能性;反而,許多相同的電路元件被用于在不同的時(shí)間應(yīng)用多個(gè)濾波器特性。
設(shè)想?yún)⒖急菊f明書的本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到所描述的實(shí)施例的變型形式和替代形式,并且要理解的是,這種變型形式和替代形式旨在落入權(quán)利要求的范圍內(nèi)。例如,當(dāng)這些實(shí)施例在對(duì)輸入模擬信號(hào)進(jìn)行組幀之后執(zhí)行模擬濾波和特征提取的同時(shí),設(shè)想可以在特征提取和識(shí)別之后可替代地執(zhí)行組幀。此外,其他實(shí)施例可以包括其他類型的模擬信號(hào)處理電路,這些模擬信號(hào)處理電路可以被裁剪成提取可以用于檢測(cè)如馬達(dá)或引擎運(yùn)行聲音、電弧聲音、汽車碰撞聲音、剎車聲音、動(dòng)物咀嚼電力電纜的聲音、雨聲、風(fēng)聲等特定類型的聲音的聲音信息。設(shè)想?yún)⒄毡菊f明書的本領(lǐng)域的技術(shù)人員能夠容易地實(shí)施并實(shí)現(xiàn)這種替代形式,而沒有過度實(shí)驗(yàn)。
已經(jīng)在本說明書中描述了一個(gè)或更多個(gè)實(shí)施例的同時(shí),當(dāng)然設(shè)想這些實(shí)施例的修改形式和替代形式,這種修改形式和替代形式能夠獲得本發(fā)明的一個(gè)或更多個(gè)優(yōu)點(diǎn)和益處,這對(duì)參照本說明書以及其附圖的本領(lǐng)域的普通技術(shù)人員而言將是明顯的。設(shè)想這種修改形式和替代形式在如隨后在本文中所要求保護(hù)的本發(fā)明的范圍內(nèi)。