語音識別的制作方法
【專利摘要】本發(fā)明提供一種語音識別電路,包括:活動檢測電路,用于在輸入電子信號中識別聲音信號的存在;觸發(fā)短語檢測器,用于在任何已識別的聲音信號中識別觸發(fā)短語;比較電路,用于將在所述輸入電子信號中的聲音信號的存在被識別的次數(shù)與在所述聲音信號中所述觸發(fā)短語被識別的次數(shù)作比較,并且用于響應于所述比較而調(diào)整所述活動檢測電路。另外,本發(fā)明還提供了相應的語音識別方法、語音識別系統(tǒng)、模擬-數(shù)字轉換器、以及用于在語音識別系統(tǒng)中使用的集成電路。
【專利說明】語音識別
【技術領域】
[0001] 本發(fā)明涉及語音識別,且具體涉及一種系統(tǒng),該系統(tǒng)能夠檢測到密碼短語已經(jīng)被 講出,并且也能夠證實該密碼短語由指定的說話人講出,允許該系統(tǒng)被用作激活更高功耗 功能(諸如消費者設備中的語音識別)的免提低功耗裝置,其中智能電話只是這樣的消費 者設備的一個實施例。本發(fā)明的多個方面還涉及適合用在這樣的系統(tǒng)或設備中的模擬-數(shù) 字轉換器。
【背景技術】
[0002] 提供當在待機模式時能夠連續(xù)監(jiān)聽語音命令的電路系統(tǒng)是已知的。這免除了對用 于將該設備從待機模式總體"喚醒"(例如以激活語音識別功能)的按鈕或其他機械觸發(fā)器 的需求。
[0003] 啟動免提操作的一種可能方式是使電話的用戶說一個關鍵短語,例如"電話你好 (Hello phone)"。然后,該設備能夠識別該關鍵短語已被講出,并喚醒語音識別功能,以及 還可能喚醒該設備的其余部分。此外,該免提命令可以被編程為用戶專用的,在此情況下, 只有先前注冊的用戶(或多個用戶)能夠說出該關鍵短語,且該設備將能夠驗證就是那個 特定用戶在講話(識別講話人)且進而喚醒語音識別功能。
[0004] 然而,這樣的電路系統(tǒng)實施了相對復雜的算法且因此具有相對高的功耗,意味著 將這樣的電路系統(tǒng)在具有有限電池容量或其他電力可用性約束的便攜設備之內(nèi)保持連續(xù) 激活是有點不切實際的。
[0005] 為了執(zhí)行對聲音的數(shù)字處理,通常有必要用傳聲器檢測聲音,傳聲器生成模擬信 號,并且以適合這樣的處理的形式進行模擬-數(shù)字轉換,以生成數(shù)字信號。
[0006] 為了在語音信號的數(shù)字化中為可靠的語音識別或用戶識別提供足夠的準確度,需 要高性能的模擬-數(shù)字轉換器(ADC)。通常,這將包含嵌入在反饋回路中以將量化噪音頻譜 塑形的一些單個位(single-bit)或多位(multi-bit)量化器,例如作為Δ-Σ模擬-數(shù)字 轉換器。
[0007] 量化器可采取多種形式,包含電壓-頻率轉換器(或電壓控制振蕩器(VC0)),后 跟計數(shù)器。VC0以取決于其輸入模擬電壓信號的當前值的頻率生成脈沖串(pulse train)。 該計數(shù)器可以計數(shù)在給定時間區(qū)間內(nèi)由該電壓控制振蕩器生成的脈沖的數(shù)量。在每個區(qū)間 期間累積的數(shù)字計數(shù)值因此取決于生成脈沖的頻率,且因此是對呈現(xiàn)給該量化器的模擬信 號的當前值的度量。
[0008] ADC反饋回路通常也會包括數(shù)字-模擬轉換器(DAC),以從該量化器的數(shù)字輸出提 供模擬反饋信號;以及模擬運放積分器,以接納此反饋信號和輸入信號。這些模擬組件必須 具有低的熱噪聲和足夠的速度,且因此它們將會消耗相對高的功率。同樣,將這樣的ADC電 路系統(tǒng)在具有有限電池容量或其他電力可用性約束的便攜設備之內(nèi)保持連續(xù)激活是有點 不切實際的。
【發(fā)明內(nèi)容】
[0009] 根據(jù)本發(fā)明,提供了一種語音識別系統(tǒng),包括:
[0010] 一個輸入,用于接收來自至少一個傳聲器的輸入信號;
[0011] 第一緩存器,用于存儲所述輸入信號;
[0012] 降噪模塊,用于接收所述輸入信號并且生成一個降噪輸入信號;
[0013] 語音識別引擎,用于接收從所述第一緩存器輸出的輸入信號或接收來自所述降噪 模塊的降噪輸入信號;以及
[0014] 選擇電路,用于將從所述第一緩存器輸出的輸入信號或來自所述降噪模塊的降噪 輸入信號導引到所述語音識別引擎。
【專利附圖】
【附圖說明】
[0015] 為了更好地理解本發(fā)明,以及示出如何實施本發(fā)明,將以示例方式參照附圖,在附 圖中:
[0016] 圖1不出了移動電話和多種外圍設備;
[0017] 圖2示出了圖1的移動電話中的音頻處理電路系統(tǒng)的組件;
[0018] 圖3示出了圖2的涉及該設備的語音識別的組件的簡化示意圖;
[0019] 圖4是例示了用于使能語音識別系統(tǒng)的過程的總體形式的流程圖;
[0020] 圖5a例示了在語音識別系統(tǒng)中的功能模塊;
[0021] 圖5b_5e例示了圖5a的系統(tǒng)的運行;
[0022] 圖6是例示了圖4中示出的過程的修改形式的流程圖;
[0023] 圖7a_7k例示了圖5的系統(tǒng)中的信號的時間關系曲線圖(time history);
[0024] 圖8是例示了模擬-數(shù)字轉換器的示意圖;
[0025] 圖9是例示了圖5的系統(tǒng)的部件的示意圖;
[0026] 圖10是在一般意義上例示了模擬-數(shù)字轉換器的形式的圖;
[0027] 圖11是例示了與圖10中示出的模擬-數(shù)字轉換器相同的總體形式的模擬-數(shù)字 轉換器的電路圖;
[0028] 圖12是更詳細地示出了在圖11的電路中的一個組件的形式的電路圖;
[0029] 圖13是更詳細地示出了在圖11的電路中的另一個組件的形式的電路圖;
[0030] 圖14是更詳細地示出了在圖11的電路中的組件的一種替代形式的電路圖;
[0031] 圖15是時間關系曲線圖,例示了圖11的模擬-數(shù)字轉換器的運行;
[0032] 圖16是例示了與圖10中示出的模擬-數(shù)字轉換器相同的總體形式的模擬-數(shù)字 轉換器的電路圖;
[0033] 圖17是例示了與圖10中示出的模擬-數(shù)字轉換器相同的總體形式的模擬-數(shù)字 轉換器的電路圖;
[0034] 圖18是例示了與圖17中示出的模擬-數(shù)字轉換器相同的總體形式的模擬-數(shù)字 轉換器的電路圖;
[0035] 圖19是例示了與圖10中示出的模擬-數(shù)字轉換器相同的總體形式的模擬-數(shù)字 轉換器的電路圖;
[0036] 圖20是傳聲器封裝的示意圖;以及
[0037] 圖21是例示了模擬-數(shù)字轉換器的使用的電路圖。
【具體實施方式】
[0038] 圖1示出了根據(jù)本發(fā)明的一方面的消費者設備,在此實施例中,該消費者設備是 使用語音識別能夠至少部分地被控制的移動電話1的形式的通信設備,更具體地是智能電 話的形式的通信設備。在此實施例中,移動電話1具有屏幕3和鍵盤5,然而本發(fā)明當然同 樣可適用于具有觸摸屏和/或其他用戶界面的設備,以及諸如像平板計算機的用戶設備, 或具有更有限的通信能力的設備諸如(純粹)藍牙?使能的設備,或不具有通信能力的設 備。移動電話1還具有內(nèi)置揚聲器7和內(nèi)置主傳聲器9,兩者都是模擬換能器。該移動電話 1還具有多個(在此具體實施例中是4個)傳聲器11 (其可以是模擬或數(shù)字傳聲器),允許 多個聲學信號被接收并且被轉換成相應的電信號,例如以提供用于在噪聲抵消系統(tǒng)中使用 的多個環(huán)境噪聲電信號,或者例如提供多個信號以允許波束成形能力從而增強到語音識別 系統(tǒng)的信號輸入。
[0039] 如圖1中示出的,移動電話1可具有插孔插座(未例示)或類似的連接裝置(諸如 USB插座或多針腳連接器插座),允許頭戴送受話器(headset)(包括一對立體聲耳塞13并 且可能地還包括傳聲器15)通過相應的導線和插孔插頭(未例示)或類似的連接裝置(諸 如USB插頭或多針腳連接器插頭)連接到該移動電話。替代地,移動電話1可被無線連接 (例如使用藍牙?通信協(xié)議)到無線頭戴送受話器17,該無線頭戴送受話器17具有耳塞19 并且可能地還具有傳聲器21。雖然未例示,耳塞13、19也可包括一個或多個環(huán)境噪聲傳聲 器(其可以是模擬或數(shù)字傳聲器),允許接收一個或多個環(huán)境噪聲信號,例如用于在噪聲抵 消系統(tǒng)中使用。
[0040] 圖2示出了移動電話1中的音頻處理系統(tǒng)的組件。與蜂窩電話網(wǎng)絡29的通信是通 過一個基帶處理器(有時稱為通信處理器)31處理的。應用處理器33處理的過程包括但 不限于,其中從存儲器35復制音頻數(shù)據(jù)或?qū)⒁纛l數(shù)據(jù)存儲到存儲器35 (存儲器可以是固態(tài) 的或在磁盤上的,且存儲器例如可以是內(nèi)置的或是可附接的,例如或是永久地在該移動電 話之內(nèi)或是在可拆卸的存儲器設備上)內(nèi)的過程,以及其中在電話1之內(nèi)內(nèi)部地生成音頻 數(shù)據(jù)的其他過程。例如,應用處理器33可以處理:語音識別;以數(shù)字方式存儲在存儲器35 之內(nèi)的立體聲音樂的復制;將電話會話和其他音頻數(shù)據(jù)向存儲器35之內(nèi)的記錄;衛(wèi)星導航 命令的生成;以及用于確認鍵盤5上任何按鈕的按下的音調(diào)的生成。無線收發(fā)機(或無線 編解碼器)37用藍牙?協(xié)議或其他短程通信協(xié)議處理通信,例如用無線頭戴送受話器17。
[0041] 基帶處理器31、應用處理器33和無線收發(fā)器37都向音頻集線器39形式的開關電 路系統(tǒng)發(fā)送音頻數(shù)據(jù),并且從音頻集線器39形式的開關電路系統(tǒng)接收音頻數(shù)據(jù)。音頻集線 器39在這個所描述的實施方案中采取集成電路形式。
[0042] 在上述實施方案中,音頻集線器39與基帶處理器31、應用處理器33和無線收發(fā) 器37之間的音頻信號都是數(shù)字的,并且它們中的一些可以是立體聲的,包括左音頻數(shù)據(jù)流 和右音頻數(shù)據(jù)流。附加地,至少在與應用處理器33通信的情況下,又一些數(shù)據(jù)流可以被復 用到這些音頻信號中,例如以使得應用處理器33能夠提供立體聲音樂,同時也提供其他音 頻信號,諸如按鍵確認音調(diào)。
[0043] 音頻集線器39經(jīng)由相應的音頻數(shù)據(jù)鏈路(即,總線38b、38a、38c)與基帶處理器 31、應用處理器33和無線收發(fā)器37通信,并且音頻集線器39具有用于這些數(shù)據(jù)鏈路的相 應的數(shù)字接口 40b、40a、40c。
[0044] 應理解,在例如其中不要求無線收發(fā)機37的應用中,音頻集線器39僅需要具有兩 個音頻數(shù)據(jù)鏈路和兩個相應的數(shù)字接口。
[0045] 音頻集線器39也向移動電話1的內(nèi)置模擬音頻換能器提供音頻信號,并且從移動 電話1的內(nèi)置模擬音頻換能器接收音頻信號。如圖2中所示,音頻集線器39向揚聲器7提 供輸出音頻信號,并且從傳聲器9、11接收輸入音頻信號。
[0046] 音頻集線器39也可以被連接到其他輸出換能器43,輸出換能器43可以是模擬或 數(shù)字換能器,并且可以被內(nèi)置到移動電話1(例如在觸覺輸出換能器的情況下)或者移動電 話1外部的設備(例如圖1中示出的有線頭戴送受話器的耳塞13)。音頻集線器39也可以 被連接到其他輸入換能器45,輸入換能器45也可以是模擬或數(shù)字換能器,并且也可以被內(nèi) 置到移動電話1 (例如超聲傳聲器)或者移動電話1外部的設備(例如有線頭戴送受話器 的傳聲器15)。
[0047] 應理解,圖2僅僅示出了能夠通過語音識別被控制的一種可能的設備,并且應理 解總體類似的架構(例如基于如本文所描述的音頻集線器集成電路周圍的架構)可用在各 種各樣的電子設備中,包含工業(yè)設備、專業(yè)設備或消費者設備,諸如攝像機(DSC和/或錄像 機)、便攜媒體播放器、PDA、游戲控制臺、衛(wèi)星導航設備、平板電腦、筆記本計算機、電視,或 諸如此類。構成本發(fā)明的其他實施方案或方面的設備可具有不同的架構,例如只具有單個 數(shù)據(jù)接口,或甚至不具有到其他處理器的音頻數(shù)據(jù)接口。
[0048] 圖3是示出了在語音識別功能中可涉及的音頻系統(tǒng)的組件的方框圖。該一個傳聲 器或多個傳聲器11、音頻集線器39以及應用處理器33位于移動電話1之內(nèi),而外圍音頻輸 入設備46通過有線或無線連接被連接到移動電話1。
[0049] 響應于相應的聲學刺激由一個或多個傳聲器11或外圍音頻輸入設備46連續(xù)地 生成的電信號被輸入到音頻集線器39之內(nèi)。這些生成的一個或多個音頻信號然后被路由 經(jīng)過音頻集線器39,其中所述音頻信號可以通過一個或多個數(shù)字信號處理(DSP)元件來處 理。在音頻集線器39之內(nèi),音頻信號并非被限制于一個路由,且能夠以許多不同方式被處 理。如下文更詳細描述的,此處理可以包括關鍵短語檢測、降噪、改變頻率響應以及改變信 號增益。當其他組件諸如該音頻系統(tǒng)的應用處理器33是在待機模式(即,在低功率模式) 時,可以在音頻集線器39中進行音頻信號分析和處理。
[0050] 在這個已描述的實施例中,語音識別功能使用多階段過程運行。
[0051] 圖4是例示了此多階段過程的總體形式的流程圖。此過程始于步驟80,在此步驟 從傳聲器接收到一個信號。如參照圖3所描述的,該傳聲器可被置于手持機(handset)之 內(nèi),或可以在分立的外圍設備中。
[0052] 在步驟82處,在階段1的處理中,確定已接收的電子信號是否含有信號活動。這 樣的信號活動可表示語音。如果沒有檢測到信號活動,則該過程繼續(xù)監(jiān)視已接收的電子信 號以查找這樣的活動。當在步驟82中檢測到可以表示語音的信號活動時,該過程傳到步驟 84和階段2的處理,在該處理中確定所檢測到的信號是否含有表示預設觸發(fā)詞或短語-- 即"神秘詞"或"神秘短語"--的語音。在一個實施例中,觸發(fā)短語是由該手持機或其他 設備的制造商預設的,且因此對于所有這樣的設備可能都是相同的,或者至少對于在一個 特定地區(qū)內(nèi)銷售的或是向講一種特定語言的人銷售的所有這樣的設備是相同的。因此,該 觸發(fā)短語可能是通用的問候諸如"你好電話(hello phone)"。在其他實施方案中,該觸發(fā) 短語可以是任何(可能是非語言的)發(fā)聲。
[0053] 在其他實施例中,該手持機或其他設備可能允許用戶設置他們自己的觸發(fā)短語, 但是這將需要滿足特定準則。例如,該短語可能具有最大允許長度,且該短語將需要被選擇 以避免過度的誤檢測,例如該短語不應是一個常用的會話短語也不應該太短例如是單個音 素(phoneme)〇
[0054] 如果在步驟84中確定該信號含有不表示預設觸發(fā)短語的語音,則該過程返回到 開始以繼續(xù)監(jiān)視已接收的電子信號以查找活動。
[0055] 當在步驟84中確定該信號含有表示預設觸發(fā)短語的語音時,該過程傳到步驟86 和階段3的處理,在該處理中確定該觸發(fā)短語是否由與該觸發(fā)短語相關聯(lián)的用戶講出,請 注意可能有多個用戶使用該設備且每個用戶都可能具有他們自己的相關聯(lián)的觸發(fā)短語。
[0056] 具體地,如果在步驟84中確定,在該信號中已經(jīng)被檢測到的觸發(fā)短語正在由該用 戶講出,則該過程將傳到步驟88,在該步驟中使能一個語音識別引擎。否則,該過程返回到 開始,以繼續(xù)監(jiān)視已接收的電子信號以查找活動。
[0057] -旦傳到步驟88,語音識別引擎則檢測該用戶的后續(xù)的語音,且例如將其轉換成 用于通過該手持機執(zhí)行的命令以用于本地執(zhí)行,或可能轉換成用于通過連接到蜂窩電話網(wǎng) 絡29的另一些設備執(zhí)行的命令以用于遠程執(zhí)行。
[0058] 此多階段方法能夠允許語音識別以"始終接通"方式運行。也就是說,用戶無需按 下按鈕或執(zhí)行任何其他動作來激活語音識別。因此,語音識別是完全無需手動操作的,這是 有利的。只要說出觸發(fā)短語,就足以激活語音識別。此外,優(yōu)選地,該觸發(fā)短語的同樣的實 例可被用在第三階段中來執(zhí)行講話者驗證,以確保只有被授權的用戶能夠以此方式向該設 備發(fā)送命令或從該設備給出命令。
[0059] 該多階段方法具有的優(yōu)點是,"始終接通"的運行不使用過多量的功率。因此,只有 第一階段即信號活動檢測階段是始終運行的,而第二階段即觸發(fā)短語檢測,則是僅當?shù)谝?階段檢測到可能表示語音的信號時才激活。
[0060] 第一階段能夠使用非常低的功率運行,且因此該第一階段始終接通這一事實不會 導致高的連續(xù)功率消耗。
[0061] 第二階段使用相對低的功率運行,且在相對小份額的時間內(nèi)接通,且因此當在包 括高份額的無活動的時間區(qū)間上取平均時,這也不會導致高的功率消耗。
[0062] 第三階段使用相對高的功率,但被預期僅在非常小份額的時間內(nèi)運行,且因此這 還是不會導致高的平均功率消耗。
[0063] 在圖3中示出的一般類型的音頻系統(tǒng)中,其中有兩個或更多個處理器,可以在一 個集成電路諸如音頻集線器39中執(zhí)行第一階段(且還有第二階段)處理,而可以在另一個 集成電路諸如移動電話1中的應用處理器33中執(zhí)行第三階段處理。這具有的優(yōu)點是,當手 持機處于待機模式時,除非第二階段處理確定已經(jīng)有觸發(fā)短語被講出,否則應用處理器33 甚至不需要被喚醒。
[0064] 另外,與可以用該設備的計算和數(shù)據(jù)庫資源實時地執(zhí)行的相比,尤其是為了為語 音識別(或者甚至其他應用諸如實時語言翻譯)提供更復雜的算法,可以有利地根本不在 移動電話1中執(zhí)行實際的語音識別,而是可能通過建立一個來自移動電話的網(wǎng)絡連接、使 用基于云的處理來執(zhí)行。因為這將會在極少情況下被觸發(fā),且當實際需要時,用該網(wǎng)絡連接 所涉及的功率消耗也不會大幅提高總的平均功率消耗。
[0065] 因此,這種處理功率的累進式投入使用意味著,該系統(tǒng)作為一個整體能夠以表面 上"始終接通"的方式運行,而該系統(tǒng)的平均功率消耗保持相對低。
[0066] 圖5a是更詳細地例示了如本文所描述的語音識別系統(tǒng)的功能性的一個方框圖。 所要求的功能性可以按照要求以硬件或軟件提供,且具體地本文描述的任何功能可以作為 計算機可讀代碼來提供,該計算機可讀代碼可以存儲在非易失性介質(zhì)上以用于在任何適合 的計算資源上運行以提供所要求的功能。應理解,根據(jù)要求,此功能可以分布在多個分立的 集成電路中,或者甚至遍及幾個較大的設備。例如,在基于圖2中所示的架構的一個實施方 案中,可以在音頻集線器集成電路之內(nèi)的一個數(shù)字信號處理器中執(zhí)行第一階段和第二階段 運行,而可以在應用處理器中執(zhí)行第三階段運行,并且可以在通過互聯(lián)網(wǎng)接入的服務器計 算機中執(zhí)行實際語音識別。存在其他可能,尤其是在具有不同處理器架構的設備中。
[0067] 在一個替代架構中,第三階段運行也可在音頻集線器中執(zhí)行。
[0068] 在另一個替代架構中,在單個主機處理器之內(nèi)執(zhí)行所有處理,在此情況下第一階 段(且可能地還有第二階段)處理可以在該處理器的一個獨立供電區(qū)(power island)內(nèi) 執(zhí)行,該獨立供電區(qū)始終通電,而該處理器的其余部分僅當?shù)诙A段確定所述觸發(fā)短語已 被講出時才被通電或被使能執(zhí)行第三階段。
[0069] 圖5a示出了用于聲音系統(tǒng)的多個可能的資源。具體地,圖5a示出了一個系統(tǒng),其 具有多個內(nèi)部傳聲器1〇〇。例如,手持機可在其前表面上設有一個傳聲器以及在其后表面上 設有一個傳聲器,但是當然其他配置也是相當可能的。如下所述,在具有多個傳聲器的一個 系統(tǒng)中,至少對于語音檢測的啟動階段使用僅來自一個傳聲器的信號可能就是足夠的。
[0070] 此外,在圖5a中示出的系統(tǒng)有可能具有與其相連接的至少一個外圍設備102。例 如,該外圍設備可以是頭戴送受話器,具有有線的或無線的(例如藍牙?)連接。當這樣的 頭戴送受話器被佩戴時,在該頭戴送受話器上的傳聲器通常將會比在手持機上的傳聲器更 好地拾取用戶的語音,且因此每當該頭戴送受話器被連接到該手持機時通常將會優(yōu)選使用 由該頭戴送受話器上的傳聲器檢測到的信號以用于語音識別的目的。因此,源選擇模塊104 被連接,以接收來自(一個或多個)內(nèi)部傳聲器100和外圍設備102上的多個傳聲器的信 號,并且選擇這些信號之一以用于進一步處理。在這個實施例中,當檢測到頭戴送受話器被 插入到手持機時,或當檢測到手持機具有到頭戴送受話器的藍牙?連接時,源選擇模塊104 就可以選擇來自外圍設備102的信號。
[0071] 如上文提到的,多階段的語音識別系統(tǒng)的至少啟動階段能夠有利地使用來自單個 傳聲器的輸入,即使當多個傳聲器可用時。然而,可能優(yōu)選的是不依賴于來自預定傳聲器的 輸入,因為手持機上的一個或多個傳聲器可能被遮擋,例如如果手持機被放置在平坦表面 上或是裝在包或衣袋中。因此該系統(tǒng)在此實施例中包含傳聲器輪詢功能106,其檢測所述傳 聲器中是否有一個或多個被遮擋,并從被確定為未被遮擋的傳聲器選擇信號。
[0072] 例如,在音頻集線器39 (或主機處理器33)上運行的算法可以周期性地依次使能 每個傳聲器(包含頭戴送受話器,如果連接的話),比較在頻譜的不同部分上每個傳聲器的 輸出的幅度,確定哪個傳聲器具有最強和"最平坦"的信號(即,與可能的或想要的語音信 號最相似的頻譜形狀),并且將此傳聲器選作階段1運行的源,禁用其余傳聲器。
[0073] 從模塊104所選擇的傳聲器接收到的信號被傳到至少一個緩存器110,該緩存器 110通常能夠存儲表示一個時間段(比方說例如2至10秒)的聲音的信號:顯然,該緩存 器可被調(diào)整大小,以便存儲所要求的時間段的變化(一個或多個)信號。在此實施例中,緩 存器110僅存儲由所選擇的傳聲器產(chǎn)生的信號Dout。然而,應理解,緩存器110可以存儲由 所選擇的多個傳聲器或所有可用的傳聲器生成的信號,如果源選擇器104具有此能力且被 控制以同時地選擇和輸出多個信號。
[0074] 階段1處理將會花費有限的時間以確定已接收信號Dout是否含有語音。雖然緩 存器110有可能相對迅速地被激活(即,被喚醒),但當階段1的處理確定已接收信號Dout 可能含有語音以便從該時間點起保存已接收信號Dout時,將可理解已接收信號Dout中的 一些將不會是已經(jīng)存儲在緩存器100之內(nèi)的且因此將會被永久地丟失,這是不利的。避免 已接收信號Dout (即數(shù)據(jù))的丟失的一個解決方案將是,作為階段1處理的一部分,運行整 個緩存器110,以便連續(xù)地存儲表示已接收信號的最后2至10秒的信號。因此,無論緩存 器110被設計為存儲數(shù)據(jù)(即已接收信號Dout)達多久,數(shù)據(jù)都是基于先進先出而被連續(xù) 地存儲的。
[0075] 就功率消耗方面而言,在這樣的連續(xù)基礎上運行緩存器110不是高效的。
[0076] 為了在功率消耗和信號(Dout)丟失之間折衷,在一個示例實施方案中,緩存器 110被分區(qū)成為多個部分,該多個部分響應于所述多階段的語音識別系統(tǒng)而運行。因此,緩 存器110可以響應于多階段的語音識別系統(tǒng)以多個模式運行。
[0077] 在一個分區(qū)緩存器實施方案中,緩存器110被分區(qū)成至少兩個區(qū)(section)或部 分,且因此可以在至少兩個獨立模式下運行,其中第一區(qū)小于第二區(qū)。
[0078] 緩存器110的第一區(qū)應該是使得它連續(xù)地緩存--即記錄--至少足夠的已接收 信號Dout,以便考慮需要階段1處理以確定已接收信號Dout確實含有語音所花費的有限 時間。因此,這樣的部分緩存,相對于完全緩存,保證沒有語音信號被丟失。在現(xiàn)實中,緩存 器110的第一區(qū)將會緩存的時間比需要階段1處理以確定已接收信號Dout確實含有語音 所花費的有限時間更長,例如長200ms。這個額外的緩存,例如相當于200ms,確保語音識別 系統(tǒng)的功能所要求的密碼短語不會丟失。
[0079] 緩存器110應當優(yōu)選地具有低功率性質(zhì),其中計時(clocking)是最少化的,并且 在存儲位置之間的數(shù)據(jù)移動如果不是不存在的話,至少是最少化的。本領域技術人員將理 解,可以從靜態(tài)隨機存取存儲器(RAM)構造適合的低功率型緩存器1110,例如其中指針被 用來相對于時間事件而指示存儲位置。
[0080] 圖5b例示了如何相對于已接收信號Dout將緩存器110分區(qū)的一個原則。
[0081] 已接收信號Dout被例示為包括三個組成部分:環(huán)境噪聲、觸發(fā)短語以及一個或多 個句子。
[0082] 應當理解的是,在此圖5b中例不的/[目號Dout是關于實際數(shù)字/[目號Dout在事實上 是什么樣的模擬類型的表示,且為清楚和易于解釋的原因已經(jīng)以此方式進行例示。將會注 意到,這個有代表性的已接收信號Dout的環(huán)境噪聲部分被例示為具有比密碼短語和句子 更小的幅度。
[0083] 在階段1 ( 01)處理中的延遲是階段1處理電路系統(tǒng)和/或軟件確定已接收信號 Dout含有語音所花費的時間,這在圖5b中被例示為是1^-1^(=01處理延遲),在這一時間 點,階段1處理電路系統(tǒng)輸出信號(02 EN),該信號指示已接收信號Dout含有語音。
[0084] 如上文所討論的,為了確保沒有語音信號丟失,緩存器110(110a、110b)應該優(yōu)選 地被分區(qū)到至少如下程度:使得第一區(qū)ll〇a能夠存儲階段1處理延遲的等同物,S卩,相當于 的已接收信號Dout。
[0085] 在現(xiàn)實中,最佳的設計實踐應該允許與在階段1處理中的延遲相比更多的緩存。 因此,圖5c例示了緩存器110被分區(qū)成(110a、100b)以使得第一區(qū)110a能夠存儲得多 于階段1處理延遲的等同物相當?shù)慕邮招盘朌out,這在圖5c中被描繪為其中
[0086] 作為一個非限制性的實施例,《tf%》=《t2-ti》+2OOins=01處理延遲 +200ms〇
[0087] 一旦階段1處理確定已接收信號Dout含有語音,其輸出一個信號02 EN,以便使 能階段2處理。
[0088] 如在下文將討論的,來自階段1處理電路系統(tǒng)的此02 EN信號,也控制緩存器110 的運行模式,以使得能夠緩存,即,存儲已接收信號Dout中的更多。
[0089] 相對于圖5b在時間&所示的已接收信號Dout,圖5c示出緩存器110的第一元 件ll〇a的內(nèi)容。如圖5c中可見,緩存器110的第一元件110a在時間段上已經(jīng)存儲 了已接收信號Dout,其中h是密碼短語開始的時間,而時間段是只有環(huán)境噪聲的時 間。因此,第一元件ll〇a在此時間段^、期間僅存儲了環(huán)境噪聲。應理解,時間段心^ 表示了為確保語音識別系統(tǒng)的功能所要求的密碼短語不丟失所要求的最小緩存時間,即, 因此,在時間段期間,緩存器運行在第一模式或階段1模式(即,最 小緩存器模式)。
[0090] 相對于圖5b在時間t2所示的已接收信號Dout,圖5d示出緩存器110的第一區(qū)段 ll〇a的內(nèi)容。如圖5d中可見,緩存器110的第一元件110a已經(jīng)在時間段t2-tQ,上存儲了 已接收信號Dout,其中t 2是這樣的時間,在該時間所述階段1處理電路系統(tǒng)和/或軟件輸 出一個信號(02 EN),該信號(02 EN)表明已接收信號Dout含有語音。應理解,時間段 t2-V相當于的時間段,S卩,最小緩存時間。信號02 EN不僅控制階段2電路系統(tǒng)和 /或軟件(其將在下文更詳細地討論),而且還控制緩存器110的運行模式。因此,當信號 02 EN改變狀態(tài)表明已接收信號Dout包含語音時,其控制緩存器110以使得它將會緩存, 艮P,存儲已接收信號Dout中的更多。因此,信號02 EN控制緩存器110的運行模式。
[0091] 相對于圖5b在時間t3,所示的已接收信號Dout,圖5e示出緩存器110的第一區(qū)段 ll〇a的內(nèi)容。如圖5e中可見,緩存器110的整個第一元件110a和緩存器110的第二元件 110b的一部分已經(jīng)在它們之間存儲了至少整個密碼短語t 3-ti。時間段t3,-t3表示了在疑 似表示該觸發(fā)短語的信號的末尾處的一個短的暫停(例如約100ms)。
[0092] 從上文的描述中且從圖5a_5e中,可以理解,緩存器110將需要足夠大以存儲例如 2到10秒之間的已接收信號Dout,該已接收信號Dout將包含某些環(huán)境噪聲、密碼短語以及 一個(或多個)命令短語,命令短語例如是至少一個句子的形式。
[0093] 圖5的分區(qū)緩存器實施方案例示了在存儲足夠的已接收信號Dout用于觸發(fā)短語 檢測的背后的原理。本領域技術人員應理解,不依賴于以物理方式將緩存器(110a、110b) 分區(qū)的其他技術也可被用來緩存已接收信號Dout。例如,不是將緩存器110以物理方式劃 分,而是可以使用一對指針,所述一對指針在足夠的已接收信號Dout被寫入經(jīng)過--即行 波(ripple)傳送經(jīng)過--緩存器110時,指示用于對觸發(fā)短語檢測的足夠的已接收信號 Dout的起始和結束的位置。
[0094] 因此,當階段1處理電路系統(tǒng)確定已接收信號Dout可能含有語音時,緩存器110 被控制以使得它能夠被用來在相關的時間段內(nèi)存儲更多的信號Dout。
[0095] 回見圖5a,從源選擇模塊104輸出的信號Dout是數(shù)字形式的。當傳聲器100和外 圍設備102生成模擬信號時,可以在源選擇模塊104中設置模擬-數(shù)字轉換器,例如使得只 有所選擇的信號被轉換成數(shù)字形式。這具有的好處是模擬-數(shù)字轉換只在實際待要被使用 的(一個或多個)信號上執(zhí)行,而不是浪費功率來提供將不會被使用的信號的已轉換形式。
[0096] 在其他實施方案中,傳聲器100和外圍設備102可能生成數(shù)字信號,在此情況下它 們通常均會包含至少一個模擬-數(shù)字轉換器。
[0097] 從由模塊104選擇的(一個或多個)傳聲器接收到的信號Dout,也被傳到第一階 段處理電路系統(tǒng)112,且具體地是到一個或多個濾波器模塊114。第一階段處理的目的是在 已接收到的信號Dout中檢測可能表示語音的信號。
[0098] 濾波器模塊114可以例如在相應的頻帶移除或衰減該信號的分量。這些頻帶可以 是相對窄的,例如用于以特定頻率移除干擾信號,或者可以是相對寬的,例如為了確保語音 中通常不會含有的頻帶中的信號不被傳送通過。因此,在一個實施例中,濾波器模塊114包 含帶通濾波器,其使語音典型的頻率范圍(諸如300Hz - 3kHz)內(nèi)的信號通過。
[0099] 經(jīng)濾波的信號SF被傳送到信號活動檢測(SAD)模塊116。如上文所提到的,此模 塊116的目的是為了辨識已接收到的可能表示語音的傳聲器信號Dout,以使得接下來能夠 更詳細地檢查這樣的信號以確定它們是否含有預定的觸發(fā)短語。已經(jīng)存在許多信號或語音 活動檢測(VAD)電路116(例如用在降噪系統(tǒng)或語音無線通信協(xié)議中的),且任何適當?shù)恼Z 音/信號活動檢測模塊/電路116可以用在這里。然而,應注意的是,某些活動檢測模塊/ 電路116旨在以高可靠性檢測用戶的語音且因此是相對復雜的,從而要求相對高的功率消 耗。
[0100] 在此情況,由信號活動檢測模塊116做出的一次肯定性確定的結果(02 EN),使 能了階段2處理,并且控制緩存器110的運行模式。
[0101] 因此,使用相對簡單形式的活動檢測模塊116可能是有利的,其具有相對較低的 功率消耗,并且容忍更多數(shù)量的誤檢測事件。例如,活動檢測模塊116可以簡單地確定其已 接收的信號是否超過一個閾值水平。應當基于該信號的總體包絡而不是閾值水平以上的單 個采樣做出這樣的確定。
[0102] 當該信號活動檢測模塊116確定該信號可能含有語音時,階段2處理(模塊118) 被使能。具體地,階段2處理包含觸發(fā)短語檢測模塊120。
[0103] 在此實施例中,從所選擇的傳聲器接收到的信號Dout被傳送通過濾波器114,然 后確定它是否可能表示語音。來自所選擇的傳聲器的信號Dout也被存儲在緩存器110之 內(nèi)。當信號活動檢測模塊116確定信號Dout的一個特定部分可能表示語音時,由所選擇的 傳聲器在同一時間段ty-V內(nèi)生成的未濾波的信號Dout被從緩存器110中取出,并且被傳 送到觸發(fā)短語檢測模塊/電路120。(這里,"未濾波"被用來指未通過濾波器模塊114的 信號:這樣的信號可能已經(jīng)通過源選擇器104中包含的某些濾波器、或從100/102到110和 112的路徑的公共部分中包含的某些濾波器。)
[0104] 更具體地,被傳送到觸發(fā)短語檢測模塊120的信號,不僅含有來自與由該信號活 動檢測模塊辨識的信號相應的時間段的未濾波信號,而且還含有來自在那個時間段之前的 一個短時間段(例如200ms)和在那個時間段之后的一個短時間段(例如100ms)的未濾波 信號。這允許觸發(fā)短語檢測模塊120檢測環(huán)境噪聲,并且在當試圖檢測觸發(fā)短語時將環(huán)境 噪聲納入考慮。這還允許在階段1之內(nèi)的信號檢測中的任何延遲(t 2_ti)。各種不同形式 的觸發(fā)短語檢測模塊的一般操作是本領域技術人員已知的,且在本文中不做進一步描述。
[0105] 當觸發(fā)短語檢測模塊120確定已接收信號含有表示觸發(fā)短語的語音時,使能信號 (03 EN)被發(fā)送到階段3處理(模塊122)。應注意的是,在階段2處理中的觸發(fā)短語檢測 模塊120簡單地試圖識別在已接收信號Dout之內(nèi)的預定觸發(fā)詞或短語的存在。它不試圖 確認該觸發(fā)短語是正在被該設備的授權用戶講出的。
[0106] 為了最小化該語音識別系統(tǒng)的總體功率消耗,對如下一個過程進行調(diào)整是有用 的,即,模塊112中的階段1處理藉以通過該過程導致模塊118中的階段2處理被使能,圖 6例示了可以如何做到這一點。
[0107] 圖6是流程圖,例示了圖4的過程,帶有合適的修改。除了在此描述的以外,圖6 的過程與圖4的過程完全相同。圖5a示出了在此過程中使用的計數(shù)電路123,包括計數(shù)器 124、126和計數(shù)分析模塊128。當該過程開始時,兩個計數(shù)器124、126被設置成零。
[0108] 在該過程的步驟82中,當模塊112中的階段1處理導致模塊118中的階段2處理 被使能時,第一計數(shù)器124的計數(shù)值在步驟162中被增加1。相似地,在該過程的步驟84 中,當模塊118中的階段2處理導致模塊122中的階段3處理被使能時,第二計數(shù)器126的 計數(shù)值在步驟164中被增加1。
[0109] 在步驟166中,計數(shù)分析模塊128接收來自計數(shù)器124U26的計數(shù)值。計數(shù)分析 模塊128然后將在一個預定時間段期間比較已接收的計數(shù)值。應理解,此計數(shù)分析功能既 可以用硬件又可以用軟件來執(zhí)行。如果第二計數(shù)器126的計數(shù)值與第一計數(shù)器124的計數(shù) 值的比小于一個預定比值(可以根據(jù)情況將該預定比值設定到想要的值,例如或 0. 1% ),這表明階段1處理正在生成過多數(shù)量的誤觸發(fā)事件。在預定時間段之后,計數(shù)值被 復位到零,且獲取用于后續(xù)時間段的計數(shù)值。
[0110] 在另一個實施例中,分析模塊128可以檢查在第一計數(shù)器124的計數(shù)值和第二計 數(shù)器126的計數(shù)值之間的差值,而不是它們的比,且如果在一個預定時間段上累計的此差 值(代表階段2處理被錯誤使能的次數(shù))超過與預定數(shù)量對應的閾值,則可采取步驟。在 此情況下,兩個計數(shù)器124、126可以被一個異或門以及單個計數(shù)器替代,該異或門被連接 以接收階段2使能信號(02 EN)和階段3使能信號(03 EN)(帶有合適的延遲以將由階 段2處理所花費的時間納入考慮)。
[0111] 作為另一個實施例,可以只提供第一計數(shù)器124,且分析模塊128可以簡單地檢 查階段2處理在預定時間段上被使能的次數(shù),且如果此次數(shù)超過一個對應于預定速率的閾 值,則可采取步驟。
[0112] 一般地,可以通過硬件計數(shù)器或是在可編程計算電路系統(tǒng)上運行的軟件來執(zhí)行, 確定所述階段1處理是否生成過多數(shù)量的誤觸發(fā)事件的計數(shù)。
[0113] 當已經(jīng)確定所述階段1處理已生成過多數(shù)量的誤觸發(fā)事件時,可采取步驟以減少 誤觸發(fā)事件的次數(shù)。例如,信號活動檢測模塊116可以響應于一個定期發(fā)生的干擾而使能 階段2處理,該干擾具有與語音相同的性質(zhì)但卻不是語音。因此,有一種可能性是,在當信 號活動檢測模塊116檢測到它認為可能是語音的信號的時刻,檢驗已接收信號的頻譜。例 如,如果發(fā)現(xiàn)已接收信號Dout在這樣的時刻包括一個特定頻率的分量,則計數(shù)分析模塊 128可發(fā)送控制信號給濾波器模塊114以調(diào)整所述濾波,并且更具體地是將在那個特定頻 率的分量過濾掉。具體地,在具有接近于語音頻帶或就在語音頻帶中的恒定高水平噪聲的 環(huán)境中,可以將濾波器模塊114中的帶通濾波器調(diào)整以將該噪聲排除。相似地,如果在語 音頻帶之內(nèi)的一個窄帶中有噪聲(諸如來自附近設備的一個2kHz音調(diào)),則在濾波器模塊 114之內(nèi)的均衡器中的陷波器(notch)可處理此事。
[0114] 另一種可能性是讓分析模塊128發(fā)送控制信號給檢測模塊116,以增大其使能 (02 EN)階段2處理的閾信號水平。這將簡單地減少檢測模塊116將使能階段2處理的 時機數(shù)量,同時在當語音實際存在時在所有時機仍然使能階段2處理。
[0115] 如果響應于由計數(shù)電路123執(zhí)行的分析結果而修改階段1處理,則該處理或是可 以隨時間的推移返回到基線條件,或是可以當階段1觸發(fā)頻率落到限定的最小值以下時返 回到基線條件。
[0116] 因此,通過基于錯誤的肯定性檢測的相對數(shù)量來調(diào)整信號活動檢測116的運行, 可以減小平均功率消耗,同時維持實際信號活動的檢測的足夠可靠性。更一般地說,借助于 分析模塊128調(diào)整處理模塊112的運行,可以減小平均功率消耗,同時維持實際信號活動的 檢測的足夠可靠性。
[0117] 如上文所提到的,階段3處理是由來自觸發(fā)短語檢測模塊120的信號(03 EN)使 能的。具體地,在階段3處理模塊122中,執(zhí)行觸發(fā)短語證實功能130。觸發(fā)短語證實功能 130試圖確定該觸發(fā)短語是否正在由該設備的授權用戶講出。
[0118] 觸發(fā)短語證實功能130運行在被觸發(fā)短語檢測模塊120使用的初始信號的同一區(qū) 上,即,在緩存器110中存儲的信號區(qū)t 3,-V。(對于有多個傳聲器可用的情況下,這將會 來自由傳聲器輪詢功能106所選擇的傳聲器。)這允許觸發(fā)短語證實的接連階段對于用戶 而言透明地進行,無需該用戶重復該短語,在提供安全性的同時而不犧牲相對自然的通信 方式,這是有利的。
[0119] 因此,該觸發(fā)短語證實功能130需要被用戶訓練,作為對該系統(tǒng)的初始化的一部 分,該用戶可能例如需要多次且在多種條件下講出該觸發(fā)短語。于是,當階段3處理被使 能時,觸發(fā)短語證實功能130可以將語音數(shù)據(jù)和在此初始化期間獲得的已存儲數(shù)據(jù)進行比 較,以判斷該觸發(fā)短語是否已由該用戶講出。用于執(zhí)行此功能的技術是對于本領域技術人 員已知的,因此在這里不再進一步詳細描述這些技術,因為它們對于理解本發(fā)明是不相關 的。
[0120] 當觸發(fā)短語證實功能130確定該觸發(fā)短語是由已授權的用戶講出的時,則一個使 能信號(SR EN)被發(fā)送至語音識別引擎(SRE) 132,該語音識別引擎可被設置在專用處理器 之內(nèi),且也可能如前所述,被總體設置在一個分立的設備中。語音識別功能132的目的是在 該用戶講出觸發(fā)短語之后辨識他所講出的命令。然后可以按照控制目的來行使這些命令, 例如用于控制移動電話1或其他設備的運行的一個方面。例如,該命令可以是向該命令中 指定的另一人撥打電話的指令。
[0121] 在一個實施例中,該系統(tǒng)被配置以使得某些功能可以由任何人執(zhí)行,無須等待短 語證實功能130完成其對當前語音采樣的分析或做出其決定。如上文所提到的,正常運行 是第二階段處理將會識別指定的觸發(fā)短語已被講出,而第三階段處理將會識別該短語是否 由指定的用戶講出。只有當?shù)谌A段處理識別出觸發(fā)短語是由指定的用戶講出的時,后續(xù) 的語音才會被發(fā)送給語音識別引擎以用于解釋和處理。
[0122] 然而,如果后續(xù)的語音含有一個預定短語(其可以例如是"緊急響應"類型短語的 一個列表中的一個短語,諸如"呼叫999"、"呼叫救護車",等等),則這被識別,且采取適當?shù)?行動,無需首先確定是否是授權用戶講出該觸發(fā)短語。為了實現(xiàn)該目的,此識別步驟可以在 觸發(fā)短語檢測模塊120中進行。替代地,每當在階段2處理中檢測到觸發(fā)短語時,可以總是 將后續(xù)的語音發(fā)送給語音識別引擎132 (與觸發(fā)短語證實功能130平行),以確定其是否含 有指定的緊急呼叫短語之一。
[0123] 為了能夠以高準確度執(zhí)行語音識別,在執(zhí)行語音識別之前對語音信號執(zhí)行降噪會 是有利的。
[0124] 因此,由源選擇模塊104輸出的信號Dout可被送到降噪模塊134,以使得該降噪 模塊產(chǎn)生一個降噪輸出DNRout。在另一個實施例中,來自多個傳聲器的信號可被供應給 降噪模塊134,以使得該降噪模塊例如通過自適應波束形成從多個輸入生成單個降噪輸出 DNRout。在降噪模塊134中,降噪被專門地優(yōu)化以用于自動化語音識別。如在下文更詳細地 描述的,此降噪模塊134的輸出信號DNRout最終被傳到語音識別功能。為了節(jié)省功率,僅當 觸發(fā)短語檢測模塊120已經(jīng)確定了該觸發(fā)短語已被講出時才將降噪模塊134接通(即,信 號02 EN使能降噪模塊134的運行)將會是有利的。相似地,如果該系統(tǒng)正被用在具有多 個傳聲器的設備中,則源選擇器104可被控制以使得在階段1處理和階段2處理期間只有 來自一個被選擇的傳聲器的信號被傳到緩存器110,但只有當觸發(fā)短語被檢測時(03 EN) 或僅當該觸發(fā)短語在階段3處理中被證實(SR EN)時,才將來自所述多個傳聲器的信號傳 到降噪模塊134。
[0125] 同時,由源選擇模塊104輸出的信號Dout可被傳到第二降噪模塊136,在第二降噪 模塊136中降噪被專門地優(yōu)化以用于人際通信(human communication)或是待要使用的網(wǎng) 絡語音通信信道的特性。在該設備是移動電話的情況下,第二降噪模塊136的輸出最終通 過移動通信鏈路傳輸。合適的第二降噪模塊136的運行對于本領域技術人員是已知的,且 將不會在此進一步描述。
[0126] 因此應注意,由第一降噪模塊134和第二降噪模塊136執(zhí)行的功能是不同的。在 一個實施例中,由第二降噪模塊136執(zhí)行的功能是由第一降噪模塊134執(zhí)行的功能的一個 子集。更具體地,為人際通信而執(zhí)行的降噪往往會引起失真和其他假象,這對語音識別有不 利影響。因此,在第二降噪模塊136中使用低失真形式的處理以用于語音識別。
[0127] 第一降噪模塊134的輸出DNRout (其被優(yōu)化以用于語音識別)和緩存器110 的輸出DBout (其是緩存的未濾波的數(shù)字輸入語音信號Dout)均能夠被傳到路徑選擇模 塊140,該路徑選擇模塊140由選擇驅(qū)動器142控制。由路徑選擇模塊140選擇的信號 (DBout,DNRout)然后可以被傳到觸發(fā)短語證實模塊130和語音識別引擎132。
[0128] 在一個實施例中,如上文所討論的,階段2處理118以及相關聯(lián)的功能(包含緩存 器110和路徑選擇模塊140)被設置在一個集成電路諸如音頻集線器即音頻編解碼器之內(nèi), 而階段3處理被設置在另一個集成電路諸如移動電話的應用處理器之內(nèi)。
[0129] 在階段3處理被設置在另一個集成電路中的情況下,音頻集線器可借助于一個總 線而被連接到應用處理器,該總線能夠以相對高速的突發(fā)(burst)來提供數(shù)據(jù)。一個能夠 以相對高速的突發(fā)來提供數(shù)據(jù)的總線是SPI總線(串行外設接口總線),所謂的"突發(fā)性" 類型總線。為了利用SPI總線的"突發(fā)性"性質(zhì),可借助緩存器144將路徑選擇模塊140連 接到觸發(fā)短語證實模塊130。在緩存器144之內(nèi)的對數(shù)據(jù)的相對高速的轉移和后續(xù)的存 儲--即緩存,有利地允許了觸發(fā)短語證實模塊130在被觸發(fā)短語檢測模塊120激活(03 EN)之后有足夠的時間來準備接收輸入數(shù)據(jù)。第一降噪模塊134還包含緩存器146以管理 將數(shù)據(jù)在整個突發(fā)性(SPI)總線上移動的實用性。"突發(fā)性"類型總線固有地具有一個帶 寬,以使得它可能在某些時間段內(nèi)是不可用的,且因此一定量的緩存有助于避免數(shù)據(jù)丟失。
[0130] 在一個實施例中,存儲在緩存器110之內(nèi)的信號經(jīng)由路徑選擇模塊140和緩存器 144而被傳到觸發(fā)短語證實模塊130。如果觸發(fā)短語證實模塊130確定(SR EN)該觸發(fā)短 語是由授權用戶講出的,則然后降噪模塊134的輸出DNRout被傳到語音識別引擎132。
[0131] 然而,為了最優(yōu)性能,應當協(xié)調(diào)對信號DBout和DNRout的選擇的時序。因此,在另 一個實施例中,存儲在緩存器110之內(nèi)的信號被傳到觸發(fā)短語證實模塊130。如果觸發(fā)短語 證實模塊130確定該觸發(fā)短語是由授權用戶講出的,則緩存器110的輸出DBout被傳到語 音識別引擎132。語音識別引擎132然后能夠確定合適的時間來切換為接收來自降噪模塊 134的輸出信號DNRout,而驅(qū)動器142控制路徑選擇模塊140以在那時間開始將從降噪模 塊134輸出的信號DNRout導引到語音識別引擎132。緩存器110提供足夠的歷史,即存儲 足夠的數(shù)據(jù),從而能夠管理從緩存器110輸出的數(shù)據(jù)和從降噪模塊134輸出的數(shù)據(jù)(在改 變數(shù)據(jù)源時,這些輸出的數(shù)據(jù)具有一定的延遲)的時間校準。
[0132] 例如,語音識別引擎132可被設計以使得能夠確定在用戶的語音中有停頓時(例 如代表著講出的句子的末尾)的時間。這是語音識別引擎的共同特征,以允許講出的語音 的整個句子被一起發(fā)送到遠程語音識別系統(tǒng)。
[0133] 語音識別引擎132然后可以識別語音中的停頓,且可以確定這是合適的時間以切 換到對來自降噪模塊134的信號DNRout的接收。
[0134] 為了確保由語音識別引擎132接收穩(wěn)定的數(shù)據(jù)流,必須進行合適的緩存。
[0135] 圖7是時間關系曲線圖,示出了在不同時間遍及該語音識別系統(tǒng)的多種信號形 式。在這個純粹示意性的表示中,高水平的數(shù)字信號表示含有語音的信號,而低水平的數(shù)字 信號表不不含有語音的信號。
[0136] 圖7a例示了在語音識別系統(tǒng)所處的設備外部的模擬環(huán)境噪聲和語音信號的表 示,這些模擬環(huán)境噪聲和語音信號待要被該系統(tǒng)的一個或多個傳聲器捕獲且隨后被用于語 音識別。
[0137] 圖7a更具體地例示了模擬環(huán)境噪聲和語音的表示,其包括:
[0138] 模擬環(huán)境噪聲的第一時間段,到&為止,接下來是;
[0139] 語音的時間段ti_t3,其出于此解釋目的表示一個觸發(fā)詞或短語,接下來是;
[0140] 模擬環(huán)境噪聲的第二時間段t3_t4,接下來是;
[0141] 語音的時間段、45;其出于此解釋目的以第一句子(句子1)的形式表示一個命 令短語,接下來是;
[0142] 模擬環(huán)境噪聲的第三第二(third second)時間段t5_t6,接下來是;
[0143] 語音的時間段、47;其出于此解釋目的以第二句子(句子2)的形式表示另一個 命令短語;以及
[0144] 模擬環(huán)境噪聲的第三時間段t7_t8。
[0145] 圖7b例示了圖7a的模擬環(huán)境噪聲和語音的數(shù)字表示。
[0146] 應當注意的是,為解釋清楚起見,假設在模擬環(huán)境噪聲和語音信號到數(shù)字環(huán)境噪 聲和語音信號(Dout)的轉換中沒有延遲。因此,上文關于圖7a描述的在'-^之間的多個 時間段同樣也可適用于圖7b。
[0147] 圖7c例示了數(shù)字信號02 EN,如上文關于圖5b所描述的,作為階段1處理的一部 分指示數(shù)字環(huán)境噪聲和語音信號(Dout)可能含有語音。
[0148] 指示語音的可能的存在的信號02 EN既被用來控制階段2處理(模塊118)又被 用來控制緩存器110。
[0149] 在此實施例中,從可選擇的源接收的信號Dout,作為階段1處理的一部分,被通過 濾波器114,然后確定它是否可能表示語音。信號Dout也被存儲在緩存器110之內(nèi)。當信 號活動檢測模塊116確定信號Dout的一個特定部分可能表示語音時,在時間段V-V期 間由所選擇的(一個或多個)傳聲器生成的未濾波的信號Dout(參見圖5b)從緩存器110 中被取出,并且被傳到觸發(fā)短語檢測模塊/電路120作為階段2處理的一部分。在這里,術 語"未濾波"被用來指代未通過濾波器模塊114的信號:這樣的信號可能已經(jīng)通過源選擇器 104之內(nèi)包含的某些濾波器、或從100/102到110和112的路徑的公共部分之內(nèi)包含的某些 濾波器。
[0150] 更具體地,如圖7d中所例示的,被傳到觸發(fā)短語檢測模塊120的信號DBout不僅 含有來自與由信號活動檢測模塊辨識的信號相對應的時間段的未濾波信號,而且還含有來 自在那個時間段之前一個短時間段(例如200ms)和在那個時間段之后一個短時間段(例 如100ms)的未濾波信號。這允許觸發(fā)短語檢測器120檢測環(huán)境噪聲,并且當試圖檢測觸發(fā) 短語時將環(huán)境噪聲納入考慮。這還允許在階段1之內(nèi)的信號檢測中的任何延遲。多 種形式的觸發(fā)短語檢測模塊的一般運行對于本領域技術人員是已知的,從而在此不做進一 步描述。
[0151] 因此,階段2處理器118接收來自緩存器110的信號DBout輸出,并且試圖確定信 號Dout的起初相對短的突發(fā)是否含有觸發(fā)短語。如果作為階段2的處理的結果,檢測到了 可能的觸發(fā)短語,則階段2處理模塊118輸出一個階段3使能信號(03 EN),如圖7e中所 例示的,指示觸發(fā)短語的可能存在。由于為執(zhí)行階段2處理所耗費的有限時間,階段3使能 信號(03 EN)在觸發(fā)短語結束之后一個短時間段在時間t4,被輸出。
[0152] 響應于階段3使能信號(03 EN),階段3處理122被激活。階段3使能信號(03 EN)也控制緩存器110和路徑選擇模塊140。因此,存儲在緩存器110中的信號(Dout)經(jīng) 由路徑選擇模塊140被輸出(PSDout)以階段3處理,如圖7f中所示。
[0153] 在現(xiàn)實中,階段3處理將會要求一段有限的時間來變得有效。因此,來自緩存器 110的輸出(PSDout)經(jīng)由路徑選擇140被傳到另一個緩存器144以施加另一個延遲,如圖 7g中所例示的。階段3處理122當其已經(jīng)經(jīng)由緩存器144在時間t4,,接收了全部的初始短 暫突發(fā)的語音之后,確定--即證實--該觸發(fā)短語是否確實由授權用戶講出,并且輸出 一個控制語音識別引擎(SRE) 132的控制信號SR EN。圖7h例示了 SR EN控制信號。
[0154] 如上文所描述的,如果來自可選擇的源的原始信號Dout在通過了降噪模塊134之 后被語音識別引擎132接收到,則語音識別引擎能夠非常成功地運行。因此,在信號Dout被 緩存器110接收的同時,降噪模塊134接收來自源選擇模塊104的信號Dout,如圖7i中所 例示的。降噪模塊134包括緩存器146,用于緩存輸入到降噪模塊134的輸入信號Dout。緩 存器146以與緩存器110相同的方式運行,且允許原始信號Dout被存儲以供降噪模塊134 的后續(xù)處理。
[0155] 僅當階段3處理通過控制信號SR EN證實觸發(fā)短語是由授權用戶講出時,才開始 降噪處理。對于語音識別引擎132來說,通過路徑選擇140立即開始處理降噪電路系統(tǒng)的 輸出信號PSDNRout是不實際的,因為在切換期間的任何瞬態(tài)效應都將會破壞語音識別。此 夕卜,降噪模塊134中的降噪算法需要花時間來"熱身"或收斂到最終降噪方案,并且使用在 此初始時間段期間的該降噪算法的輸出會導致失真。另外,降噪算法的延遲不是完全可預 測或恒定的,且因此,當進行路徑選擇切換時,未必有可能將來自緩存器110的數(shù)據(jù)和來自 降噪模塊134的數(shù)據(jù)可靠地時間校準,而不導致重復的或丟失的采樣。
[0156] 因此,緩存器110的輸出PSDBout經(jīng)由路徑選擇140最初被傳到語音識別引擎 132。對這樣的電路系統(tǒng)的常規(guī)要求是,它應該能夠識別語音中的間隙,諸如在1 344和1546 等等之間例示的那些間隙。因此,在此實施例中,當語音識別引擎132識別出在該語音中的 間隙時,就抓住機會來切換路徑選擇模塊140,以使得降噪模塊134的輸出被傳到語音識別 引擎132。在語音中的間隙期間進行此切換,減輕或避免了上文討論的問題。
[0157] 因此,在這個例示的實施例中,語音識別引擎132識別出在語音中的間隙,該間隙 在觸發(fā)短語和第一個句子之間。此時,路徑選擇模塊140被切換以使得,降噪模塊134的輸 出被傳到語音識別引擎132。因為由降噪模塊134中的降噪電路系統(tǒng)施加的延遲通常小于 由緩存器110施加的延遲,降噪模塊134也緩存降噪信號,這施加了進一步的延遲(如圖7j 和7k中所例示的),以使得降噪模塊134的輸出可以是和緩存器110的輸出基本時間對準 的。任何細微的未對準都是無關緊要的,因為它將會落在該信號不含有語音時的時間內(nèi)。
[0158] 因此,降噪模塊134的輸出可以在時間t5開始供應給語音識別引擎132。
[0159] 圖8包含圖8(a) - (d),且含有例示在不同場景中的語音識別系統(tǒng)的運行的時間 關系曲線圖。在這些時間關系曲線圖的每一個中,環(huán)境噪聲的起初時間段200都跟隨著語 音202,該語音202說出如下詞語"電話你好,請導航到最近的咖啡館",其中"電話你好"是 觸發(fā)短語,而"請導航到最近的咖啡館"是待要被語音識別引擎解釋的語音命令且被用作對 諸如衛(wèi)星導航應用等功能的輸入。在講出的詞語之后跟隨著另一個時間段204的環(huán)境噪 聲。
[0160] 此外,在圖8(a) - (d)中例示的每一種情況下,含有語音的時間段202在時間tn 開始,而階段1處理在時間t12識別語音的存在。當語音的存在被信號活動檢測功能識別 時,階段2處理即開始。緩存器的作用是,存儲含有語音的信號,并且也存儲在時間t 13開始 的至少大約200ms的在先時間段期間的信號。
[0161] 如上文所提到的,在時間段202期間的語音以觸發(fā)短語"電話你好"開始,而階段 2處理模塊在時間t 14識別該觸發(fā)短語已被講出。在這個時間點,階段2處理模塊發(fā)送信號 以激活階段3處理模塊,但由于初始化所述階段3處理模塊所花費的時間,直到時間t 15才 能夠開始讀取來自緩存器110的存儲信號。當然,在時間t15,階段3處理模塊開始讀取從 時間t 13起的緩存器數(shù)據(jù)。
[0162] 圖8(a)例示了一個實施例,其中如箭頭210所示出的,響應于由階段2處理模塊 在時間t 14的肯定性確定,(在諸如圖3所示的一個實施方式中,在音頻集線器39中)立即 做出決定以啟動降噪模塊134。即,一檢測到觸發(fā)短語,就開始降噪。圖8(a)還例示了一種 情況,其中在從緩存器110輸出的原始數(shù)據(jù)和從降噪模塊134輸出的數(shù)據(jù)之間有一個無縫 過渡。
[0163] 圖8(b)例示了一個實施例,其中如箭頭212所示出的,在諸如圖3中所示出的一 個實施方式中,在階段2處理模塊的肯定性確定之后將應用處理器初始化以后,在應用處 理器33中做出啟動降噪模塊134的決定。即,在時間t 16啟動降噪。圖8(b)還例示了一種 情況,其中在從緩存器110輸出的原始數(shù)據(jù)和從降噪模塊134輸出的數(shù)據(jù)之間有一個無縫 過渡。
[0164] 圖8(c)例示了一個實施例,其中如箭頭214所示出的,在諸如圖3中所示出的一 個實施方式中,在階段2處理模塊的肯定性確定之后將應用處理器初始化以后,在應用處 理器33中做出啟動降噪模塊134的決定。圖8(c)例示了一種情況,其中在從緩存器110 輸出的原始數(shù)據(jù)和從降噪模塊134輸出的數(shù)據(jù)之間的過渡并不是無縫的,且可能導致死區(qū) 時間(dead time)。即,在降噪模塊134啟動之后緊接著的時間段內(nèi)的數(shù)據(jù)可能被丟失。因 此,在圖8(c)中例示的實施例中,降噪模塊134的啟動被延遲直到語音202的末尾,且因此 在從t 17到t18的時間段內(nèi)可能被丟失的數(shù)據(jù)僅含有環(huán)境噪聲。
[0165] 圖8(d)例示了一個實施例,其中如箭頭216所示出的,在諸如圖3中所示出的一 個實施方式中,在階段2處理模塊的肯定性確定之后將應用處理器初始化以后,在應用處 理器33中做出啟動降噪模塊134的決定。圖8(d)也例示了一種情況,其中在從緩存器110 輸出的原始數(shù)據(jù)和從降噪模塊134輸出的數(shù)據(jù)之間的過渡并不是無縫的,且可能導致死區(qū) 時間。即,在降噪模塊134啟動之后緊接著的時間段內(nèi)的數(shù)據(jù)可能被丟失。在圖8(d)中所 示出的實施例中,降噪模塊134在應用處理器33已被初始化之后的任意時間被啟動,且因 此數(shù)據(jù)在從t 19到t2(l的潛在死區(qū)時間內(nèi)可能被丟失。
[0166] 上文提到,雖然傳聲器100和外圍設備102生成模擬信號,但在源選擇模塊104之 內(nèi)可以設置模擬-數(shù)字轉換器,以使得只有所選擇的信號被轉換成數(shù)字形式。這具有的好 處是模擬-數(shù)字轉換只在實際待要被使用的(一個或多個)信號上執(zhí)行,而不是浪費功率 來提供將不會被使用的信號的轉換版本。
[0167] 如上文所提到的,為了在語音信號的數(shù)字化中提供足夠的準確度以用于可靠的語 音識別或用戶識別,需要高性能的ADC。通常ADC也將包括消耗大量功率的低噪聲模擬電路 系統(tǒng)。在此處所描述的一個實施例中,例如當較低的性能是可接受時,高性能模擬-數(shù)字轉 換器被配置成也能夠在第二模式下運行,該第二模式是相對低功率監(jiān)視模式。
[0168] 圖9是例示了圖5的系統(tǒng)的相關部分的示意圖。具體地,圖9示出了一個模擬-數(shù) 字轉換器(ADC) 250,如上所述,其可以被設置在源選擇模塊104之內(nèi),或者可被連接以接收 被源選擇模塊104選擇和輸出的信號。由該模擬-數(shù)字轉換器250生成的數(shù)字信號被供 應到語音活動檢測(VAD)模塊,更具體地被描述為信號活動檢測(SAD)模塊252。當VAD/ SAD模塊252檢測到由模擬-數(shù)字轉換器250在其監(jiān)視模式下生成的信號中存在感興趣信 號時,VAD/SAD模塊252發(fā)送控制信號給模擬-數(shù)字轉換器250以將其運行從正常的第一 模式切換到所述第二模式。因此,該ADC具有第一模式或高性能模式或相對高功率模式或 處理模式,以及第二模式或低性能模式或相對低功率模式或監(jiān)視模式。
[0169] 圖9還不出了 一個數(shù)字信號處理器(DSP) 254,其可以例如含有信號處理功能的相 關部分,諸如在圖5中示出的實施例中的觸發(fā)短語檢測模塊120和后續(xù)的處理模塊。具體 地,由模擬-數(shù)字轉換器250輸出的信號被供應給DSP254(例如在圖9的實施例中在通過 緩存器110之后)。DSP中的一些或全部可以由所示的控制信號"使能"啟用或禁用。
[0170] 在一些實施方案中,到ADC和DSP的這些控制信號可以是等效的(S卩,除了也許極 性或相對延遲以外都是相同的,以補償在將ADC耦合到DSP的路徑中的任何信號延遲)。因 此,當模擬-數(shù)字轉換器250是在其低功率監(jiān)視模式下時,DSP254可以被禁用。且因此,在 VAD/SAD模塊252發(fā)送控制信號給模擬-數(shù)字轉換器250以將其轉換到其高性能模式的同 時,該VAD/SAD模塊252還發(fā)送使能信號給DSP254。然后,DSP254能夠接收和處理由在第 二模式下運行的模擬-數(shù)字轉換器250所產(chǎn)生的信號。
[0171] 在其他實施方案中,例如在DSP既可以實施觸發(fā)短語檢測功能又可以實施語音識 別功能,且使用較低分辨率的ADC輸出就可以使得觸發(fā)短語檢測足夠準確,然而語音識別 功能要求較高質(zhì)量的ADC運行模式的情況下,則VAD/SAD可以在不同時間改變使能ADC的 控制信號以及使能DSP的控制信號。
[0172] 圖10是在一般意義上例示了模擬-數(shù)字轉換器250的一種可能形式的模塊示意 圖。更具體地,圖10示出了模擬-數(shù)字轉換器250,其接收輸入模擬信號S in,并且生成輸出 數(shù)字信號。模擬-數(shù)字轉換器250還從檢測模塊諸如圖9中的VAD/SAD252接收"模式 (MODE)" 信號。
[0173] 輸入信號Sin被施加到減法器270的第一輸入,并且被施加到多路復用器272的第 一輸入。輸出信號D wt通過數(shù)字-模擬轉換器(DAC) 274被反饋,而作為結果的模擬信號Sfb 被傳到減法器270的第二輸入。減法器270的輸出Sdiff被傳到具有濾波器傳遞函數(shù)G(f) 的濾波器模塊276,而經(jīng)濾波的信號S filt被施加到多路復用器272的第二輸入。所選擇的從 多路復用器272輸出的輸入信號Sin/S filt表不被傳到量化器(Q) 278的輸入信號Qin,從該量 化器生成輸出數(shù)字信號D。^。
[0174] 輸入"模式"信號被用來生成用于數(shù)字-模擬轉換器274的使能(ΕΝ)信號和用于 濾波器模塊276的使能(ΕΝ)信號,且被用來選擇多路復用器272的哪個輸入信號S in/Sfilt 被選作量化器(Q) 278的輸入信號Qin。
[0175] 因此,在正常運行(即,上文提到的"第一模式")中,數(shù)字-模擬轉換器274和濾 波器模塊276被使能,且多路復用器272的第二輸入信號S filt被傳到其輸出,即被用作到量 化器(Q) 278的輸入信號Qin。DAC274、減法器270和濾波器模塊276然后為輸出信號Dwt在 量化器(Q) 278周圍提供一個負反饋路徑,且因此有助于抑制由量化器(Q) 278的有限分辨 率(以及其他誤差分量,諸如任何非線性)引入的音頻頻帶量化噪聲。
[0176] 然而,在監(jiān)視模式下(即,上文提到的"第二模式""模式"信號運行,以使得多 路復用器272的第一輸入信號Sin被傳到其輸出,且因此輸入信號Sin被直接施加到量化器 Q (即,Qin = Sin),且量化器輸出被用作數(shù)字輸出。(盡管認識到在Sin信號路徑中可能 有其他濾波器和/或放大器,或其他處理模塊諸如在量化器之后的抽取濾波器。而且,如虛 線路徑279所示出的,輸入信號S in可通過該濾波器模塊276被傳到多路復用器272。)因 此,模擬-數(shù)字轉換器250現(xiàn)在在開環(huán)模式(即第二模式)下而不是在閉環(huán)模式(即第一 模式)下運行。
[0177] 監(jiān)視模式是低性能模式,因為不再有反饋回路來抑制量化噪聲或任何量化器的非 線性。為了降低在此模式下的功耗,至少濾波器模塊276或數(shù)字-模擬轉換器274 (但優(yōu)選 兩者)也響應于"模式"信號被禁用。
[0178] 如在下文所討論的,"禁用"濾波器模塊276或數(shù)字-模擬轉換器274可能涉及在 信號路徑中斷開一個串聯(lián)開關(series switch),或者將相應的輸出節(jié)點置于高阻抗狀態(tài), 或者提供一個恒定輸出(零)或以其他方式。優(yōu)選地,禁用包括從有源電路系統(tǒng)諸如放大器 的級(stage)移除偏置電流,具有降低功耗的好處。禁用此濾波器模塊276可能涉及施加 門控的時鐘、移除功率供應源或者減少所施加的功率供應來減少泄漏電流。通常,數(shù)字-模 擬轉換器和在模擬濾波器276中的放大器將會消耗模擬-數(shù)字轉換器的功率的大約80 %, 且因此在監(jiān)視模式(即,第二模式)下,功耗可被顯著降低。
[0179] 減法器270的組件可以和濾波器276共享或是物理地定位在濾波器276之內(nèi)。多 路復用器272可以至少部分地通過以下方式來實施,S卩,將濾波器276的輸出、或者替代路 徑(即,到多路復用器272的第一輸入的路徑)中的某些緩存級置于高阻抗模式下。該替 代路徑可以再利用濾波器模塊276的元件以提供內(nèi)部旁路路徑。圖10示出了在減法器270 之前啟動的替代路徑,但其可以替代地在減法器之后啟動,因為如果沒有反饋信號則節(jié)點 是等效的。
[0180] 濾波器模塊276自身可以是可改變的,以改變其系數(shù)等,從而提供所述替代路徑 的等效物。有效地,將可通過在物理上位于濾波器內(nèi)部而不是在外部的信號路由來提供類 似于圖10中所示出路徑的替代前饋路徑。
[0181] 圖10示出了一個DAC274,在其輸出節(jié)點上產(chǎn)生顯性信號(explicit signal),其 電壓、電流或電荷對應于數(shù)字反饋信號sfb。然而,在具有同樣接收輸入信號sin的電容器的 某些開關電容網(wǎng)絡的開關時序中,DAC功能可以替代地是隱性的,以使得DAC功能的輸出電 荷立即與輸入信號電荷相混合,從而沒有分立地可測量的電壓、電流或甚至電荷直接對應 于該數(shù)字反饋信號,但信號處理效果和使用離散DAC是等效的。
[0182] 在一些實施例中,量化器(Q) 278也可以是可被"模式"信號控制的,以使得,當模 擬-數(shù)字轉換器250在其第二模式(S卩,其監(jiān)視模式)下運行時,量化器(Q) 278在低功率模 式下運行,例如在對于監(jiān)視輸入信號Sin而言足夠的低采樣率模式或低分辨率模式下運轉。 當模擬-數(shù)字轉換器250切換到正常的閉環(huán)模式(即,第一模式)下時,量化器(Q) 278在 高功率模式下運行,該模式提供了如準確的語音識別或用戶聲音識別所要求的更高準確度 的數(shù)字輸出。
[0183] 如參照圖9描述的,"模式"信號可以由本地語音檢測器252來提供,其中當模 擬-數(shù)字轉換器250在監(jiān)視模式下時,下游電路系統(tǒng)(諸如,硬件或軟件DSP)不被激活,以 最小化總體功率消耗。然而,對于至少一些下游硬件或軟件也可能是始終激活的,且將從 Dwt或某個下游信號生成該"模式"信號。
[0184] 圖11是更詳細地例示了與圖10中所示出的模擬-數(shù)字轉換器250具有相同的總 體形式的模擬-數(shù)字轉換器290的示意電路圖。與圖10中示出的電路的元件相同的圖11 中所示出的元件被用相同的參考數(shù)字表示,從而在此不進一步描述。
[0185] 輸入信號Sin被施加到電阻器292,該電阻器具有電阻值Rin且其另一端附接到運 算放大器虛擬地節(jié)點以生成對應的電流S in/Rin,且數(shù)字-模擬轉換器274采取電流數(shù)字-模 擬轉換器(IDAC)的形式,以使得通過它抽取的電流與從電路的輸出反饋的數(shù)字信號D wt 成比例。
[0186] 從對應于輸入信號的電流中減去該電流,且最后獲得的凈電流作為輸入被供應 到濾波器模塊,該濾波器模塊在此實施例中采取反相積分器的形式,其中放大器294使其 反相輸入連接到電阻器292和IDAC274的連結點,而電容器(C int) 296連接在其輸出和所述 反相輸入端子之間。
[0187] 多路復用器采取由"模式"信號控制的開關298的形式,可能是CMOS傳輸門的形 式。
[0188] 量化器采取電壓控制振蕩器300的形式,其接收量化器輸入信號Qin并且被連接到 計數(shù)器302。
[0189] 圖12是一個示意電路圖,其更詳細地示出了在圖11的電路中的電流數(shù)字-模擬 轉換器(IDAC) 274的一種可能的形式。
[0190] 具體地,圖12示出了一個參考電流IMf,其被供應到IDAC272,且被鏡像通過三個 電流鏡像晶體管310、312和314,所述電流鏡像晶體管用作電流源,以根據(jù)晶體管的尺寸比 生成相應不同的電流。更具體地,電流鏡像電路310生成一個電流,該電流是由電流鏡像電 路312生成的電流的兩倍,而電流鏡像電路312繼而生成一個電流,該電流是由電流鏡像電 路314生成的電流的兩倍。IDAC272在偏置電壓V B1上運行,偏置電壓VB1可以是在IDAC內(nèi) 部或外部生成。
[0191] IDAC272也接收模擬-數(shù)字轉換器290的數(shù)字輸出信號,其在此情況下是3比 特數(shù)字信號,具有比特值α [0]、α [1]、α [2],其中α [0]是最高位。這三個比特值被用來 分別接通或關斷在電流鏡像電路310、312、314中的電流源,因此輸出電流Sfb與數(shù)字輸出信 號〇_成比例。
[0192] 在其他實施方案中,至少一些電流鏡像從屬電流源(current mirror slave current source)可以是相等的值,且反饋數(shù)字信號可在路由期間受到修改以實施已知技 術諸如動態(tài)元件匹配(DEM)從而改善反饋信號的平均線性,盡管在電流源之間有隨機制造 不匹配。
[0193] 圖13是示意電路圖,其更詳細地示出了在圖11的電路中的電壓控制振蕩器 (VC0)300的形式。
[0194] 具體地,在圖13中示出的實施例中的電壓控制振蕩器采取三級環(huán)形振蕩器的形 式,具有三個反相器320、322和324,每個都包括一對PM0S和NM0S晶體管。每個反相器延 遲輸入信號,且來自輸出的反饋導致輸出信號VCO^振蕩。眾所周知,由每個反相器引入的 延遲依賴于電壓V c,且因此輸出信號VCO^的頻率依賴于電壓Vc。在此情況下,電流源326 生成電流I B以偏置一個PM0S源跟隨器,其柵極連接到Qin,因此輸入信號Qin連同由I B限定 的幾乎恒定的PMOS柵源偏置電壓一起確定了電壓V。,且因此確定了 ν〇)_的頻率。
[0195] 當模擬-數(shù)字轉換器290處在監(jiān)視模式時,模式信號被用來減少在電流源326之 內(nèi)的電流,而這繼而減小了柵極-源極偏置電壓的幅度,因此減小了電壓V。,并且因此減少 了 VC0的靜態(tài)頻率。此頻率減少也會減少計數(shù)器326的動態(tài)功率消耗。
[0196] 對于在此描述的全部模擬電路系統(tǒng),可使用微分實施方案,例如以幫助提高對來 自他處(例如在同一集成電路上)的串擾的敏感性。在此情況下,可將一對互補的微分輸 入信號施加到一對相應的VC0和計數(shù)器的各自的輸入端,而量化器輸出就是在這兩個計數(shù) 器的計數(shù)之間的差。
[0197] 圖14是一個示意電路圖,其更詳細地示出圖11的電路中的一個替代的電壓控制 振蕩器(VC0)330的形式,其在此情況下是基于電流控制振蕩器。
[0198] 再次,在圖14中所示的實施例中的電壓控制振蕩器采取三級環(huán)形振蕩器的形式, 具有三個反相器332、334、336,每個包括一對PM0S和NM0S晶體管。電流I CP被施加到這三 個反相器,而從所述輸出到第一反相器332的反饋導致輸出信號ΙΟ)_振蕩。
[0199] 電流ICP由一個輸入電路生成,該輸入電路接收輸入電壓Qin并且將其施加到放大 器338的非反相輸入。放大器338的反相輸入通過數(shù)字可編程可變電阻器342而被連接到 地,該電阻器342具有電阻值R s,而該放大器338的輸出被連接到晶體管340的柵極,晶體 管340的源極經(jīng)過可變電阻器342連接到地且也被連接以給放大器338的反相輸入提供反 饋路徑。此反饋導致運算放大器驅(qū)動晶體管340的柵極,從而在電阻器342上施加等于Q in 的電壓。這生成電流ISP,其等于Qin/Rs,通過電阻器342且通過晶體管340到達電流鏡像電 路344、346,該電流鏡像電路344、346生成相對應的電流I CP,其可以等于ISP也可以是ISP 的適當?shù)乜s放的形式。
[0200] 于是電流ICP隨著在Qin中的增加而增加,而如果電流I CP增加則ICO的振蕩頻率也 將增加,因此在ICO^處觀察到的振蕩頻率依賴于輸入電壓Qin。
[0201] 再次,當模擬-數(shù)字轉換器290處在監(jiān)視模式時,模式信號被用來通過更改電阻器 342的值減小電流,且因此減小VC0330的靜態(tài)頻率。
[0202] 如參照圖13所描述的,微分實施方案也是可能的。
[0203] 圖15是時間關系曲線圖,例示了圖11的模擬-數(shù)字轉換器290中的量化器以及 相似電路的運行。
[0204] 具體地,圖15示出了響應于輸入信號Qin而生成的、電壓控制振蕩器300 (或者在 圖13中示出的實施方式中的330)的輸出信號VCO^。時鐘信號仁#由計數(shù)器302使用。時 鐘信號f Mf的頻率可以是恒定的,或者當模擬-數(shù)字轉換器290處于監(jiān)視模式時,時鐘信號 fMf的頻率可以響應于模式信號而減小,以降低功率消耗。計數(shù)器302在時鐘信號fMf的每 個周期的開始被復位到零,然后在f Mf的那個周期期間對信號VCOm中的脈沖數(shù)量計數(shù),并 且生成輸出信號D^,以表不這樣的脈沖的數(shù)量。
[0205] 使用VC0作為量化器具有這樣的優(yōu)點,即對于給定的分辨率,低頻率量化噪聲被 減小,以與更常規(guī)的一階A-SADC相似的方式,但卻具有更小的尺寸以及簡單性,并且放 松了對設備匹配的要求。
[0206] 在時鐘信號fraf的每個循環(huán)期間,輸出信號DOTt只有有限的準確度(例如,在圖15 中例示的極其粗糙的分辨率實施例中,該輸出信號在4和5之間變動)。然而,在長時 期內(nèi),由于VCO未被復位,計數(shù)平均數(shù)(即,在該長時期上連續(xù)振蕩的VCO的循環(huán)總數(shù)除以 相關的fMf時鐘循環(huán)的數(shù)量)對應于在任意長時間上的一個計數(shù)的分辨率之內(nèi)的平均輸入 信號,也即任意大的總計數(shù),且因此在原則上沒有直流量化引入的誤差;所有誤差都在較高 的頻率。
[0207] 也可以從一個不同的視角理解該行為,如果VC0在f;ef周期的開始已經(jīng)經(jīng)過了一 個循環(huán)的一部分,這影響它在下一個f Mf邊沿經(jīng)過另一個循環(huán)何種程度。因此,每個fMf循 環(huán)對其輸出波形的"階段"進行測量,并且添加在循環(huán)結束之前構建起的任何更多階段。因 此,它對量化誤差做一階積分,類似于更常規(guī)的一階△-SADC中的模擬積分器的誤差積分 功能,所以量化噪聲頻譜相似于一階Δ - SADC。
[0208] 因此,量化器不僅是小而簡單,它還給出了比單單從計數(shù)器302的分辨率可能預 期的要少得多的音頻頻帶量化噪聲。
[0209] 圖16是更詳細地例示了與圖10中示出的模擬-數(shù)字轉換器250相同的總體形式 的模擬-數(shù)字轉換器360的示意電路圖。與圖10中示出的電路的元件相同的圖16中示出 的電路的元件被用相同的參考數(shù)字表示,且在此不再進一步描述。
[0210] 在圖10的轉換器中,在正常運行中,來自DAC的反饋信號在輸入處被反饋到單個 減法器。在更復雜的架構中,例如,為了實施更高階轉換器來獲得更多的噪聲整形,已知通 過在濾波器G(f)之內(nèi)的中間點處的減法器節(jié)點、或甚至在濾波器G(f)輸出處的減法器節(jié) 點提供在正常運行中的信號反饋,如圖16中例示的。同樣在某些情況下,輸入信號可被濾 波并且前饋到在濾波器之內(nèi)或之后的減法節(jié)點,繞過輸入減法器。本發(fā)明的實施方案可以 在前向路徑中包括這樣的濾波器架構,在低功率操作模式下被適當?shù)亟谩?br>
[0211] 圖16還示出濾波器362,其具有在反饋路徑中的濾波器傳遞函數(shù)H (f),S卩,在將輸 出信號濾波之后將其傳到數(shù)字-模擬轉換器274。這再次給出了更多靈活性,以優(yōu)化信 號和噪聲傳遞函數(shù)。
[0212] 圖17是更詳細地例示了與圖11中示出的模擬-數(shù)字轉換器290相同的總體形式、 但卻使用開關電容器技術實施的模擬-數(shù)字轉換器390的示意電路圖。與圖11中示出的電 路的元件相同的在圖17中示出的電路的元件被用相同的參考數(shù)字表示,且在此不再描述。
[0213] 輸入信號Sin經(jīng)由輸入電容器Cin402被聯(lián)接到積分器輸入,該輸入電容器在其每一 端都與開關串聯(lián),所述開關受雙相位(two-phase)時鐘控制,該雙相位時鐘處于時鐘生成 模塊CKGEN400生成的頻率f; ef。
[0214] 在時鐘的第一相位中,Cin通過這些開關被連接在Sin和地之間,并且存儲電荷 sin *cin;在第二相位中,cin被連接在地和運算放大器虛接地之間,且運算放大器將此電荷添 加到已經(jīng)存儲在積分電容器C int296上的任何電荷。
[0215] 相似地,電容器陣列被聯(lián)接到虛接地,以提供反饋信號分量。在第一時鐘相位 中,該陣列中的每個電容器都在兩端被連接到地,以將每個電容器放電。在第二相位中,該 陣列的每個電容器在一端連接到虛接地,而另一端可根據(jù)從量化器輸出信號得出的控制字 的相應位的極性被連接到在每個時鐘循環(huán)中的兩個參考電壓V KP或中的一個或另一個。 該連接可以是通過另外的串聯(lián)開關、或通過門控被施加至將該每個電容器聯(lián)接到VKP或V KN 的開關元件的時鐘。
[0216] 因此,響應于表示值α的控制字,在每個第二時鐘相位中,比方說Cfb的一個 部份α被充電到VKP,而Cfb的剩余部份l-α被充電到,從而在該陣列上的總電荷是 (α ·νκΡ+(1_α) ·νΜ) ·&。此電荷表示數(shù)字量化器輸出。(為簡便起見,在圖17中該陣列 僅由兩個電容器396、398表示,這兩個電容器具有可變尺寸且可連接到相應的參考電壓)。
[0217] 由于電容器在第一相位放電,對應于控制信號α的此電荷須需通過從積分電容 器傳遞來供應。
[0218] 控制信號其自身是通過解碼器模塊392從得出的(可能包含如上提到的動態(tài) 元件匹配(DEM)功能)。因此每個時鐘周期,從在積分電容器上蓄積的電荷中減去一個對應 于量化器輸出Q^t的電荷。
[0219] 在圖17的電路中,在轉移到積分電容器上之前,表示Sin的電荷被保持在C in上,而 表示Dwt的電荷被保持在Cfb上。在一些情況下,反饋電容器陣列中的一些或全部可以和輸 入電容器陣列相融合,且因此從輸入信號中減去反饋信號可能是不明顯的,并且從而不能 夠從輸入信號中分離地辨識出反饋模擬信號。然而,電路的運行仍然是等效的。
[0220] 圖18是這樣的布置的一個示意電路圖,其中模擬-數(shù)字轉換器420是與圖17中 示出的模擬-數(shù)字轉換器390相同的總體形式。與圖17中示出的電路的元件相同的在圖 18中示出的電路的元件被用相同的參考數(shù)字表示,且在此不再描述。
[0221] 在模擬-數(shù)字轉換器420中,在第一時鐘相位中,輸入信號Sin通過相應的開關 422、424被施加到反饋電容器陣列的電容器396、398,生成電荷S in · Cfb。在第二相位中,參 考電壓VKP或被連接到相應的Cfb部份以將在Q上的電荷改變一個代表D wt的量,但從 沒有這樣一個相位其中該陣列保持一個完全代表而不代表Sin的電荷。
[0222] 為了增加轉換增益(以比特每伏特為單位),即在Sin和之間的輸入處改變相 對加權,可能需要一個附加的電容器426 (Cinx)。相反,附加的電容器426也可能不在那里, 而是可以提供反饋帽的次級陣列來減少轉換增益。
[0223] 圖19是更詳細地例示了與圖10中示出的模擬-數(shù)字轉換器250相同的總體形式 的模擬-數(shù)字轉換器440的示意電路圖。與圖10中示出的電路的元件相同的在圖19中示 出的電路的元件被用相同的參考數(shù)字表示,且在此不再描述。
[0224] 在圖19的模擬-數(shù)字轉換器440中,輸出數(shù)字信號Dwt被傳送通過積分器442和 第二數(shù)字-模擬轉換器444,以生成反饋信號S defb,該反饋信號被傳到在起自Sin的路徑中的 另一個減法器XXX。當激活時,此第二反饋路徑以低的(亞音頻)頻率提供高增益反饋,從 而將該電路系統(tǒng)的或在信號Sin中明顯的任何直流偏移清零。但該路徑不經(jīng)過可覺察的音 頻信號,從而不影響ADC對音頻輸入信號的響應。
[0225] 這個第二"直流伺服"反饋回路會消耗相對少的功率,因此在ADC的兩個模式下均 可以是激活的。然而,其可能僅在初始化階段期間是運行的,且然后被禁用。此禁用的目的 主要是避免由輸出信號分量對減去的信號做任何調(diào)制,而不是為了節(jié)省功率。此外,在第二 反饋路徑中的信號反饋是用于與在第一反饋路徑中的反饋(為了通過信號頻帶負反饋而 將該系統(tǒng)線性化)不同的目的(為了移除直流)。
[0226] 圖20是例示了如上文所描述的在半導體芯片469上的模擬-數(shù)字轉換器的使用 的示意圖,該半導體芯片469與傳聲器傳感器462共同封裝在單個封裝器件460中。
[0227] 更具體地,圖20示出傳聲器462,其接收偏置電壓%并且生成一個信號,該信號被 傳到預放大器464然后被傳到模擬-數(shù)字轉換器466。除了實際的傳聲器電容性傳感器462 之外,所有電路系統(tǒng)都可被一起集成在如示出的單個半導體芯片469上,但在一些實施方 案中該電容性傳感器也可被集成在與示出的電路系統(tǒng)的全部或至少一部分相同的芯片上。
[0228] 時鐘信號CK被用來給模擬-數(shù)字轉換器466以及輸出數(shù)字接口模塊(FMT) 468計 時。
[0229] 檢測模塊470檢測模擬-數(shù)字轉換器466的輸出,并基于檢測結果控制模擬-數(shù) 字轉換器466的運行模式。相同的控制信號也可被用來控制預放大器464和輸出接口模塊 468。例如,檢測結果可被用來減少預放大器464在低功率模式下的偏置,以失真或熱噪聲 性能為代價。
[0230] 輸出接口模塊468可以僅僅重新定時輸出的ADC數(shù)據(jù),或者可以包含噪聲整形比 特寬度減小電路系統(tǒng),以將多比特ADC輸出轉換成方便的單比特格式,或者可以將Λ-Σ輸 出信號重新格式化成另一種格式,例如脈沖長度調(diào)制(PLM)格式,或(通過抽?。┲匦?格式成標準多比特格式,例如I2S,處于24比特且fs = 48kHZ。
[0231] 重新格式化可允許一些控制型比特連同數(shù)據(jù)一起被傳輸,例如將檢測模塊470的 輸出標記到下游電路系統(tǒng)。例如,檢測模塊470可充當信號檢測模塊并且控制下游的觸發(fā) 短語檢測模塊。下游電路系統(tǒng)諸如計數(shù)分析電路系統(tǒng)也可以通信回向設備460,以更改檢測 參數(shù),或是通過分立的針腳,或是通過調(diào)制時鐘CK的脈沖的長度或相位、或者時鐘CK的邊 沿的相位。
[0232] 圖21是與圖10中示出的模擬-數(shù)字轉換器250相同的總體形式的另一種模 擬-數(shù)字轉換器480的示意電路圖。與圖10中示出的電路的元件相同的在圖21中示出的 電路的元件被用相同的參考數(shù)字表示,且在此不再描述。
[0233] 在圖21中示出的電路適合用于多個輸入信號可用的情況,在此情況下是兩個輸 入信號可用,且有必要選擇哪一個(如果任一均可)應被轉換成高質(zhì)量數(shù)字輸出。例如,在 具有多個傳聲器的通信設備中,當一個或多個傳聲器可能有時被遮擋時,周期性地輪詢傳 聲器來決定應該使用哪個傳聲器是非常有用的。
[0234] 因此,圖21的電路接收多個輸入模擬信號SinA、SinB,并且生成對應的多個相應的輸 出數(shù)字信號D。^、D wtB??墒褂梅答伮窂竭x擇這些輸入信號中的一個以用于高質(zhì)量的轉換, 另一些輸入信號仍可被轉換,但使用的是相應的量化器、開環(huán),僅僅提供低質(zhì)量的輸出但卻 具有小的額外功率消耗且不需要用于每個信道的數(shù)字濾波器或反饋DAC。
[0235] 輸入模擬信號SinA、SinB被施加到多路復用器482,該多路復用器的輸出可被聯(lián)接 (可能經(jīng)由如所示出的可編程增益放大器)到減法器270的第一輸入,且輸入模擬信號S inA、 SinB也被施加到多路復用器486、488的相應的第一輸入。輸出數(shù)字信號被傳到多 路復用器484,多路復用器484的輸出信號被反饋經(jīng)過數(shù)字-模擬轉換器(DAC) 274,并且最 后獲得的模擬信號Sfb被傳到減法器270的第二輸入。減法器270的輸出Sdiff被傳到具有 濾波器傳遞函數(shù)G(f)的濾波器模塊276,而經(jīng)濾波的信號5_被施加到多路復用器486、488 的相應的第二輸入。多路復用器486的輸出被傳到第一量化器(Q) 490以形成第一輸出數(shù) 字信號DwtA,而多路復用器488的輸出被傳到第二量化器(Q) 492以形成第二輸出數(shù)字信號 D〇utB。
[0236] 控制信號Ml、M2和SEL控制所述多路復用器且因此控制電路系統(tǒng)的運行模式。另 一個控制信號"模式"被用于生成使能(EN)信號以用于數(shù)字-模擬轉換器274,以及以用于 濾波器模塊276。圖22例示了如下三種運行模式所要求的"模式(MODE) "的邏輯水平:Ml、 M2和SEL : (a) SinA和SinB兩者的低功率轉換,(b) SinA的高質(zhì)量轉換和SinB的低功率轉換,以 及(c) SinA的低功率轉換和SinB的高質(zhì)量轉換。由于只有一個反饋DAC和一個濾波器G(f), 不可能以高質(zhì)量同時轉換兩個輸入信號(但是可以通過以相似方式添加另外的DAC、濾波 器和多路復用器來方便地擴展電路,以允許選擇更多信道用于并發(fā)的高質(zhì)量轉換)。
[0237] 在此實施例中,存在檢測模塊252。此模塊接收輸出數(shù)字信號,并且使用 這些信號以通過生成如上所述的適當?shù)目刂菩盘査絹磉x擇哪些輸入模擬信號應該被用 來生成輸出。然而在其他實施方案中,這些控制信號可以是從別處供應的,例如從不同種類 的下游檢測器。
[0238] 輸入選擇信號(SEL)被用來確定輸入模擬信號SinA、SinB中的哪個應當由多路復用 器482傳到減法器270,還被用來確定輸出數(shù)字信號D。^、D。^中的哪個由多路復用器484 傳到數(shù)字-模擬轉換器(DAC) 274。同時,控制信號Ml被用來確定多路復用器486的哪個輸 入被傳到第一量化器490,且控制信號M2被用來確定多路復用器488的哪個輸入被傳到第 二量化器492。
[0239] 因此,在上述的模式(b)和(c)中,數(shù)字-模擬轉換器274和濾波器模塊276被使 能,且多路復用器486、488之一的第二輸入被傳到其相應的輸出。DAC274、減法器270和濾 波器模塊276然后為相應的輸出信號在相應的量化器周圍提供一個負反饋路徑。
[0240] 然而,在上述的模式(a)中,Ml和M2信號被設定,以使得多路復用器486、488中 每個的第一輸入被傳到每個相應的輸出,且因此每個相應的輸入信號被直接施加到相應的 量化器Q。模擬-數(shù)字轉換器480因此現(xiàn)在對于兩個輸入信道都是運行在開環(huán)模式下而不 是閉環(huán)模式下。
[0241] 由于兩個信道都是開環(huán)地運行的,不需要DAC或濾波器,或不需要可選的可編程 增益放大器,因此可以通過將"模式"設定成〇來禁用這些模塊。雖然未示出,這也可以禁 用減法器270和多路復用器482和484。
[0242] 在一些應用中,可能需要在轉換成高質(zhì)量模式之前將施加到輸入信號的增益進行 編程,但不需要在低功率模式下調(diào)整此增益,例如固定增益可能對于初始信號檢測是足夠 的,但可編程增益對于優(yōu)化用于更復雜的下游處理的動態(tài)范圍是有用的。因此,將放大器放 置在輸入和減法器270之間而不是放置在從輸入到量化器多路復用器的路徑中是有利的。 此外,由于只可能以高質(zhì)量轉換一個信道,故而只需要一個可編程增益放大器。因此,將這 樣的增益級定位在多路復用器482之后是有利的。
[0243] 因此公開了一種模擬-數(shù)字轉換器,其能夠提供高質(zhì)量輸出,且也能夠在低功率 模式下運行。
[0244] 應注意,上文提到的實施方案例示而非限制了本發(fā)明,且本領域技術人員將能夠 在不背離所附權利要求的范圍的前提下設計許多替代實施方案。詞語"包括"并不排除在 權利要求中所列出的元件和步驟之外存在其他元件或步驟,"一"、"一個"不排除復數(shù),并且 權利要求中記載的多個單元的功能可能通過單個特征或其他單元來達成。術語"觸發(fā)短語" 和"觸發(fā)詞"在本說明書中是可互換的。權利要求書中的任何參考標記不應被解釋為限制 權利要求的范圍。
【權利要求】
1. 語音識別電路,其特征在于,包括: 活動檢測電路,用于在輸入電子信號中識別聲音信號的存在; 觸發(fā)短語檢測器,用于在任何已識別的聲音信號中識別觸發(fā)短語; 比較電路,用于將在所述輸入電子信號中的聲音信號的存在被識別的次數(shù)與在所述聲 音信號中所述觸發(fā)短語被識別的次數(shù)作比較,并且用于響應于所述比較而調(diào)整所述活動檢 測電路。
2. 根據(jù)權利要求1所述的語音識別電路,其中所述比較電路被配置以獲得作為在所述 輸入電子信號中的聲音信號的存在被識別的次數(shù)的第一計數(shù)值,并且獲得作為在所述聲音 信號中所述觸發(fā)短語被識別的次數(shù)的第二計數(shù)值,并且獲得作為所述第二計數(shù)值與所述第 一計數(shù)值的比的檢測比。
3. 根據(jù)權利要求1或2所述的語音識別電路,其中所述活動檢測電路適于當所述輸入 電子信號的水平超過預定閾值水平時識別所述輸入電子信號中的聲音信號的存在,且其中 所述比較電路適于通過調(diào)整所述預定閾值水平來調(diào)整所述活動檢測電路。
4. 根據(jù)權利要求1或2所述的語音識別電路,其中所述活動檢測電路適于在識別出所 述輸入電子信號中的聲音信號的存在之前將所述輸入電子信號濾波,且其中所述比較電路 適于通過調(diào)整所述濾波來調(diào)整所述活動檢測電路。
5. 根據(jù)權利要求4所述的語音識別電路,其中所述比較電路適于基于所述輸入電子信 號的頻率分量來調(diào)整所述濾波。
6. 多階段的語音識別方法,其特征在于,包括: 第一階段,包含,試圖在輸入電子信號中識別聲音信號的存在;以及 第二階段,包含,當在所述第一階段中識別到聲音信號的存在時,試圖在所述聲音信號 中識別觸發(fā)短語; 所述方法還包括: 將在所述輸入電子信號中的聲音信號的存在被識別的次數(shù)與在所述聲音信號中所述 觸發(fā)短語被識別的次數(shù)作比較;以及 當所述比較滿足一個預定判據(jù)時,調(diào)整所述第一階段的方法。
7. 根據(jù)權利要求6所述的語音識別方法,其中比較的步驟包括: 獲得作為在一個時間段內(nèi)在所述輸入電子信號中的聲音信號的存在被識別的次數(shù)的 第一計數(shù)值; 獲得作為在所述時間段內(nèi)在所述聲音信號中所述觸發(fā)短語被識別的次數(shù)的第二計數(shù) 值; 獲得作為所述第二計數(shù)值與所述第一計數(shù)值的比的檢測比;以及 當所述檢測比低于一個預定閾值比時,調(diào)整所述第一階段的方法。
8. 根據(jù)權利要求6或7所述的方法,其中所述第一階段的方法包括,通過確定所述輸入 電子信號的水平是否超過一個預定閾值水平而在所述輸入電子信號中識別聲音信號的存 在,并且其中通過調(diào)整所述預定閾值水平來調(diào)整所述第一階段的方法。
9. 根據(jù)權利要求6或7所述的方法,其中所述第一階段的方法包括在試圖識別所述輸 入電子信號中的聲音信號的存在之前將所述輸入電子信號濾波,并且其中通過調(diào)整所述濾 波來調(diào)整所述第一階段的方法。
10. 根據(jù)權利要求9所述的方法,當權利要求9從屬于權利要求7時,該方法包括:當 所述檢測比低于所述預定閾值比時,檢查所述輸入電子信號的頻率分量,并且通過基于所 述輸入電子信號的頻率分量調(diào)整所述濾波來調(diào)整所述第一階段的方法。
11. 多階段的語音識別電路,其特征在于,包括: 信號檢測電路系統(tǒng),用于在輸入信號中檢測聲音信號的存在; 觸發(fā)短語檢測電路系統(tǒng),用于當通過所述信號檢測電路系統(tǒng)檢測到聲音信號的存在 時,在所述聲音信號中檢測觸發(fā)短語; 該語音識別電路還包括: 第一計數(shù)器,用于計數(shù)所述信號檢測電路系統(tǒng)在輸入電子信號中檢測到聲音信號的存 在的次數(shù),并且提供第一計數(shù)值; 第二計數(shù)器,用于計數(shù)所述觸發(fā)短語檢測電路系統(tǒng)在所述聲音信號中檢測到觸發(fā)短語 的存在的次數(shù),并且提供第二計數(shù)值; 計數(shù)電路系統(tǒng),用于獲得作為所述第二計數(shù)值與所述第一計數(shù)值的比的檢測比,并且 用于當所述檢測比低于一個預定閾值比時調(diào)整所述信號檢測電路系統(tǒng)。
12. 語音識別電路,其特征在于,包括: 第一檢測電路系統(tǒng),用于在輸入信號中檢測聲音信號的存在; 第二檢測電路系統(tǒng),用于當通過信號檢測電路系統(tǒng)檢測到聲音信號的存在時,在所述 聲音信號中檢測觸發(fā)要素; 所述語音識別電路還包括: 計數(shù)電路系統(tǒng),用于: 計數(shù)所述第一檢測電路系統(tǒng)在輸入電子信號中檢測到聲音信號的存在的次數(shù),并且提 供第一計數(shù)值; 計數(shù)所述第二檢測電路系統(tǒng)在所述聲音信號中檢測到觸發(fā)短語的存在的次數(shù),并且提 供第二計數(shù)值; 獲得作為所述第二計數(shù)值與所述第一計數(shù)值的比的檢測比;并且 用于當所述檢測比低于一個預定閾值比時調(diào)整所述信號檢測電路系統(tǒng)。
13. 多階段的語音識別電路,其特征在于,包括: 信號活動檢測電路系統(tǒng),用于確定在輸入信號中的聲音信號的存在;以及 關鍵詞檢測電路系統(tǒng),用于當通過所述信號活動檢測電路系統(tǒng)檢測到聲音信號的存在 時,確定在所述聲音信號中的關鍵詞的存在; 該語音識別電路還包括: 第一計數(shù)器,用于計數(shù)在輸入電子信號中的聲音信號的存在被識別的次數(shù); 第二計數(shù)器,用于計數(shù)在所述聲音信號中的所述關鍵詞被識別的次數(shù); 計數(shù)分析器,用于確定在所述第二計數(shù)器與所述第一計數(shù)器之間的檢測比,并且用于 當所述檢測比低于一個預定閾值比時,響應于所述檢測比調(diào)整所述信號活動檢測電路系統(tǒng) 對所述輸入信號的靈敏度。
14. 語音識別電路,其特征在于,包括: 輸入電路系統(tǒng),用于確定在輸入信號中的聲音信號的存在;以及 關鍵詞電路系統(tǒng),用于確定在所述聲音信號中的關鍵詞的存在, 所述語音識別電路還包括: 第一計數(shù)器,用于計數(shù)在所述輸入信號中的聲音信號的存在被識別的次數(shù); 第二計數(shù)器,用于計數(shù)在所述聲音信號中的關鍵詞的存在被識別的次數(shù); 計數(shù)分析器,用于確定在所述第二計數(shù)器與所述第一計數(shù)器之間的計數(shù)比, 其中當所述計數(shù)比低于一個預定閾值時,調(diào)整所述輸入電路系統(tǒng)的靈敏度以增加所述 計數(shù)比。
15. 語音識別電路,其特征在于,包括: 輸入電路系統(tǒng),用于確定在輸入信號中的聲音信號的存在以及在所述聲音信號中的關 鍵詞的存在, 語音識別電路系統(tǒng)還包括: 計數(shù)器,用于計數(shù)聲音信號的存在被識別的次數(shù)和關鍵詞的存在被識別的次數(shù); 計數(shù)分析器,用于確定在已識別的關鍵字的存在與聲音信號的存在之間的計數(shù)比, 其中基于所述計數(shù)比調(diào)整所述輸入電路系統(tǒng)。
16. 語音識別電路系統(tǒng),其特征在于,包括: 輸入電路系統(tǒng),用于確定在輸入信號中的聲音信號的存在以及在所述聲音信號中的關 鍵詞的存在, 語音識別電路系統(tǒng)還包括: 計數(shù)電路系統(tǒng),用于確定在關鍵字的存在與聲音信號的存在之間的計數(shù)比, 其中響應于所述計數(shù)比調(diào)整所述輸入電路系統(tǒng)。
17. 模擬-數(shù)字轉換器,用于轉換在輸入處接收的模擬信號,其特征在于,該模擬-數(shù)字 轉換器包括: 量化器,具有量化器輸入和量化器輸出;以及 反饋路徑,在所述量化器附近, 其中所述模擬-數(shù)字轉換器能夠運行在第一模式,在該第一模式中,所述反饋路徑被 使能以使得在將輸入信號施加到所述量化器輸入之前,將輸入信號和反饋信號作比較;以 及 其中所述模擬-數(shù)字轉換器能夠運行在第二模式,在該第二模式中,所述反饋路徑被 禁用,以使得所述輸入信號不經(jīng)與反饋信號作比較就被施加到所述量化器輸入。
18. 模擬-數(shù)字轉換器,其特征在于,包括: 輸入,用于接收輸入信號; 輸出,用于提供輸出數(shù)字信號;以及 控制器,用于將所述模擬-數(shù)字轉換器在第一低功率模式和第二高精度模式之間切 換。
19. 語音處理系統(tǒng),其特征在于,包括: 輸入,用于接收來自至少一個傳聲器的輸入信號; 第一信號路徑,用于將所述輸入連接到一個輸出; 第二信號路徑,用于將所述輸入連接到所述輸出; 選擇電路系統(tǒng),用于選擇所述第一信號路徑或所述第二信號路徑,以將所述輸入信號 從所述輸入運送到所述輸出;其中 所述第一信號路徑含有第一緩存器用于存儲所述輸入信號;且 所述第二信號路徑含有降噪模塊用于接收所述輸入信號并且向所述輸出供應一個降 噪信號,還含有第二緩存器;其中 所述第二緩存器在所述第二信號路徑中施加一個延遲,以使得所述降噪信號與所述第 一緩存器的輸出是基本時間對準的。
20. 用于語音識別的方法,其特征在于,包括: 接收來自至少一個傳聲器的輸入信號,其中 所述輸入信號能夠經(jīng)由第一信號路徑或第二信號路徑在一個輸入和一個輸出之間行 進, 選擇所述第一信號路徑或所述第二信號路徑用于將所述輸入信號運送到所述輸出;其 中 如果所述第一信號路徑被選擇,則第一緩存器存儲所述輸入信號;且 如果所述第二信號路徑被選擇,則向所述輸出供應一個降噪信號,且第二緩存器在所 述第二信號路徑中施加一個延遲,以使得所述降噪信號與所述第一緩存器的輸出是基本時 間對準的。
21. 語音識別系統(tǒng),其特征在于,包括: 語音識別引擎, 輸入,用于接收來自至少一個傳聲器的輸入信號; 第一信號路徑,用于將所述輸入連接到所述語音識別引擎; 第二信號路徑,用于將所述輸入連接到所述語音識別引擎;其中 所述第二信號路徑包含降噪模塊用于接收所述輸入信號并且向所述語音識別引擎供 應一個降噪信號;以及 選擇電路系統(tǒng),用于選擇所述第一信號路徑或所述第二信號路徑,以將所述輸入信號 從所述輸入運送到所述語音識別引擎。
22. 用于語音識別的方法,其特征在于,包括: 接收來自至少一個傳聲器的輸入信號;其中, 所述輸入信號能夠經(jīng)由第一信號路徑或第二信號路徑在一個輸入和一個輸出之間行 進,以及 選擇所述第一信號路徑或所述第二信號路徑,其中 如果選擇所述第二信號路徑,則向所述輸出供應一個降噪信號。
23. 語音識別系統(tǒng),其特征在于,包括: 輸入,用于接收來自至少一個傳聲器的輸入信號; 語音識別引擎,以及 降噪電路系統(tǒng),用于接收所述輸入信號,如果在所述輸入信號中檢測到由授權用戶講 出的有效的觸發(fā)短語,則所述降噪電路系統(tǒng)產(chǎn)生一個降噪信號以輸入到所述語音識別引 擎。
24. 語音識別系統(tǒng),其特征在于,包括: 輸入,用于接收來自至少一個傳聲器的輸入信號; 第一緩存器,用于存儲所述輸入信號; 降噪模塊,用于接收所述輸入信號并且生成降噪輸入信號; 語音識別引擎,用于接收從所述第一緩存器輸出的輸入信號或來自所述降噪模塊的降 噪輸入信號;以及 選擇電路,用于將從所述第一緩存器輸出的輸入信號或來自所述降噪模塊的降噪輸入 信號導引到所述語音識別引擎。
25.集成電路,用于在語音識別系統(tǒng)中使用,其特征在于,該集成電路包括: 輸入,用于接收來自至少一個傳聲器的輸入信號; 第一緩存器,用于存儲所述輸入信號;以及 降噪模塊,包括第二緩存器,用于接收所述輸入信號并且生成已緩存的降噪輸入信號, 以使得或者能夠從所述第一緩存器將所存儲的輸入信號輸出到語音識別引擎,或者能 夠從所述第二緩存器將所述已緩存的降噪輸入信號輸出到語音識別引擎。
【文檔編號】G10L15/00GK104252860SQ201410294260
【公開日】2014年12月31日 申請日期:2014年6月26日 優(yōu)先權日:2013年6月26日
【發(fā)明者】R·J·哈特菲爾德, J·P·萊索 申請人:沃福森微電子股份有限公司