頭部安裝的多－感覺音頻輸入系統(tǒng)的制作方法

文檔序號：2821672閱讀：250來源：國知局

專利名稱：頭部安裝的多－感覺音頻輸入系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及音頻輸入系統(tǒng)。更具體地說，本發(fā)明涉及在多-感覺變送器輸入系統(tǒng)中的語音處理。
背景技術：
在許多不同的語音識別應用中，具有清晰和一致的音頻輸入是非常重要且可以是決定性的，音頻輸入代表著要提供給自動語音識別系統(tǒng)的語音。傾向于破壞給語音識別系統(tǒng)的音頻輸入的兩類噪聲是環(huán)境噪聲和由背景語音產(chǎn)生的噪聲。為了消除來自音頻輸入的環(huán)境噪聲，現(xiàn)在已經(jīng)在開發(fā)噪聲消除技術方面進行了大量的工作。有些技術已經(jīng)在音頻處理軟件中商業(yè)化，或者集成到數(shù)字話筒諸如通用串行總線(USB)話筒中。
處理與背景語音有關的噪聲是一個更難以解決問題。這可以在各種各樣不同的噪聲環(huán)境中發(fā)生。例如，當感興趣的說話者在人群中或者在他人之間說話，常規(guī)的話筒經(jīng)常拾取不同于感興趣的說話者的說話者語音。實際上，在其它人正在講話的任何環(huán)境中，由感興趣的說話者產(chǎn)生的音頻信號能受其他人講話的危害。
處理背景語音的一個現(xiàn)有的解決方案是在耳機線上或在聽筒上提供開啟/關閉開關。開啟/關閉開關稱為“推按講話(push-to-talk)”按鈕，并要求用戶在說話之前推按該按鈕。當用戶推按按鈕時，它產(chǎn)生一個按鈕信號。按鈕信號向語音識別系統(tǒng)表示，感興趣的說話者正在說話，或者將要說話。不過，有些可用性研究顯示這種類型的系統(tǒng)不令人滿意或者不是用戶所想要的。
另外，已經(jīng)在嘗試將由話筒拾取的背景說話者與感興趣的說話者(或前臺話說者)分離開來方面進行了工作。這在清楚的辦公室環(huán)境中工作得相當好，但已證明了在高度嘈雜的環(huán)境中不行。
在另外一種現(xiàn)有技術中，將來自標準話筒的信號與來自喉式話筒的信號組合起來。喉式話筒間接地通過測量在說話過程中穿過喉嚨的電氣阻抗方面的變化來記錄喉部的行為。將由喉式話筒產(chǎn)生的信號與常規(guī)的話筒組合起來，并生成模擬組合信號的頻譜含量的模型。
使用一種算法將嘈雜的、組合標準和喉式話筒信號特征映射成清楚的標準話筒特征。這是使用概率最優(yōu)濾波器來估計的。然而，雖然喉式話筒徹底不受背景噪聲的影響，但喉式話筒的頻譜含量是十分有限的。因此，使用它來映射成清楚的估計的特征向量并不很準確。在Frankco等人的、由FL的Orlando的DARPA ROAR工作室出版(2001)的COMBINING HETEROGENEOUS SENSORS WITHSTANDARD MICROPHONES FOR NOISY ROBUST RECOGNITION(將不同種類的傳感器與標準話筒結合起來用于噪聲的穩(wěn)固識別)更詳細地描述了此技術。另外，戴喉式話筒給用戶增加了不便。

發(fā)明內(nèi)容
本發(fā)明將常規(guī)的音頻話筒與提供基于附加輸入的語音傳感器信號的語音傳感器組合起來。語音傳感器信號是基于由說話者在講話過程中采取的動作而產(chǎn)生的，諸如面部運動、骨振動、喉部阻抗變化等等。語音檢測器組件從語音傳感器接收輸入并輸出語音檢測信號，表示用戶是否正在說話。語音檢測器基于話筒信號和語音傳感器信號產(chǎn)生語音檢測信號。
在一個實施例中，將語音檢測信號提供給語音識別引擎。語音識別引擎提供識別輸出，它基于話筒信號和來自額外的語音傳感器的語音檢測信號，表示由來自音頻話筒的話筒信號代表的語音。
本發(fā)明還可以具體化為檢測語音的方法。該方法包括產(chǎn)生表示關于音頻話筒的音頻輸入的第一信號，產(chǎn)生表示由面部運動傳感器檢測到的用戶的面部運動的第二信號，以及基于第一和第二信號檢測用戶是否正在說話。
在一個實施例中，第二信號包括用戶的脖子的振動或阻抗變化，或者用戶的頭骨或鄂部的振動。在另一個實施例中，第二信號包括表示用戶嘴部運動的圖象。在另一個實施例中，將溫度傳感器諸如熱敏電阻放在呼吸氣流中，諸如在挨著話筒的話筒支桿上，并根據(jù)溫度的變化檢測語音。

圖1是可以在其中使用本發(fā)明的一個實施例的方框圖。
圖2是可以由其使用本發(fā)明的語音識別系統(tǒng)的方框圖。
圖3是按照本發(fā)明的一個實施例的語音檢測器系統(tǒng)的方框圖。
圖4和5說明圖3所示系統(tǒng)的一部分的兩個不同實施例。
圖6是信號幅度相對于時間的曲線，對應于話筒信號和紅外線傳感器信號。
圖7例示常規(guī)話筒和語音傳感器的一個實施例的實物圖。
圖8示出骨敏感話筒連同常規(guī)的音頻話筒的實物圖。
圖9是信號幅度相對于時間的曲線圖，分別對應于話筒信號和音頻話筒信號。
圖10示出喉式話筒連同常規(guī)的音頻話筒的實物圖。
圖11示出耳內(nèi)話筒連同近距離談話話筒的實物圖。
具體實施例方式
本發(fā)明涉及語音檢測。更具體地說，本發(fā)明涉及多-感覺變送器輸入的捕捉并基于所捕捉的多-感覺輸入生成表示用戶是否正在說話的輸出信號。不過，在更詳細地討論本發(fā)明之前，討論一個可以在其中使用本發(fā)明的環(huán)境的說明性例子。
圖1說明一個在其上可實現(xiàn)本發(fā)明的典型操作環(huán)境100。計算系統(tǒng)環(huán)境100只是適合的計算環(huán)境的一個例子，并且不是想要建議有關本發(fā)明的使用范圍或功能的任何限制。也不應該將這個計算環(huán)境解釋為具有與在示例性操作系統(tǒng)100中所示的組件的任何一個或組合有關的任何依賴性或要求。
本發(fā)明可與眾多的其它通用或專用計算系統(tǒng)環(huán)境或配置一起運行。眾所周知的計算系統(tǒng)、環(huán)境和/或配置的例子包括，但不限于，個人計算機、服務器計算機、手持或膝上型設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費電子產(chǎn)品、網(wǎng)絡PC、小型計、大型計算機、包括任何上述系統(tǒng)或設備的分布式計算環(huán)境等等。
可在由計算機可執(zhí)行指令諸如由計算機執(zhí)行的程序模塊完成的的一般環(huán)境中描述本發(fā)明。通常，程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結構等。本發(fā)明也可在分布式計算環(huán)境中實施，在所述分布式計算環(huán)境中由通過通信網(wǎng)絡連接的遠程處理設備執(zhí)行任務。在分布式計算環(huán)境中，程序模塊可位于本地和遠程兩者的包括存儲器設備在內(nèi)的計算機存儲介質中。
參考圖1，用于實現(xiàn)本發(fā)明的示例性系統(tǒng)包括計算機110形式的通用計算設備。計算機110的組件包括，但不限于，處理單元120，系統(tǒng)存儲器130，以及將包括系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件連接至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可能是任何幾種類型總線結構包括存儲器總線或存儲控制器，外設總線，使用任何各種各樣總線結構的局部總線。作為例子，但不限于，這樣的結構包括工業(yè)標準結構(ISA)總線，微通道結構(MCA)，增強ISA(EISA)總線，視頻電子標準協(xié)會(VESA)局部總線，以及外部部件互連(PCI)總線，也被稱為夾層(Mezzanine)總線。
計算機110一般包括各種條樣的計算機可讀介質。計算機可讀介質可以是能由計算機110訪問的任何可用介質，并且包括易失性介質和非易失性介質兩者，可移動和不可移動的介質。作為例子，但不限于，計算機可讀介質可包括計算機存儲介質和通信介質。計算機存儲介質包括以用于信息存儲的任何方法或技術實現(xiàn)的易失性和非易失性兩者，可移動和不可移動的介質，諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù)。計算機存儲介質包括，但不限于，RAM，ROM，EEPROM，閃存或者其它存儲技術，CD-ROM，數(shù)字通用盤(DVD)或其它光盤存儲器，磁帶盒，磁帶，磁盤存儲器或者其它磁存儲設備，或者能用于存儲想要的信息以及能由計算機110訪問的任何其它介質。通信介質一般包括在調(diào)制的數(shù)據(jù)信號諸如載波或者其它傳輸機制中的計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù)，并且包括任何信息傳遞介質。術語″調(diào)制的數(shù)據(jù)信號″指以設置或改變信號的一個或多個特征如此以便在信號中編碼信息的信號。作為例子，不是限制，通信介質包括有線的介質諸如有線網(wǎng)絡或者直接線的連接，以及無線介質諸如聲音、RF、紅外線和其它無線介質。任何上述各項的組合也應該包括在計算機可讀介質的范圍內(nèi)。
系統(tǒng)存儲器130包括易失性/或非易失性存儲器形式的計算機存儲介質，諸如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132?；据斎?輸出系統(tǒng)133(BIOS)，包含幫助在計算機110內(nèi)的部件之間傳送信息，諸如在啟動時，有時存儲在ROM 131中。RAM 132一般包括數(shù)據(jù)和/或程序模塊，可由處理單元120立即訪問和/或當即操作。作為例子，但不限于，圖1例示操作系統(tǒng)134，應用程序135，其它程序模塊136和程序數(shù)據(jù)137。
計算機110還可包括其它可移動的/不可移動的、易失性的/非易失性的計算機存儲介質。只作為例子，圖1例示了讀寫不可移動的、非易失性的磁介質的硬盤驅動器141，讀寫可移動的、非易失性磁盤152的磁盤驅動器151，以及讀寫可移動的、非易失性光盤156諸如CD ROM或者其它光介質的光盤驅動器155。能在示例性操作環(huán)境中使用的其它可移動的/不可移動的、易失性的/非易失性的計算機存儲介質包括，但不限于，磁帶盒、閃存卡、數(shù)字通用盤、數(shù)字視頻帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅動器141一般通過不可移動的存儲器接口諸如接口140連接至系統(tǒng)總線121，以及磁盤驅動器151和光盤驅動器155一般通過可移動的存儲器接口諸如接口150連接至系統(tǒng)總線121。
上面討論的并且在圖1中所示的驅動器及其相關的計算機存儲介質，為計算機110提供計算機可讀指令、數(shù)據(jù)結構、程序模塊和其它數(shù)據(jù)的存儲。在圖1中，例如，硬盤驅動器141被例示為存儲操作系統(tǒng)144、應用程序145、其它程序模塊146以及程序數(shù)據(jù)147。注意，這些組件能夠與操作系統(tǒng)134、應用程序135、其它程序模塊136和程序數(shù)據(jù)137或者相同或者不同。在這里為操作系統(tǒng)144，應用程序145，其它程序模塊146和程序數(shù)據(jù)147給出不同的數(shù)字用以說明，至少它們是不同的拷貝。
用戶可通過輸入設備諸如鍵盤162、話筒163和的定位設備161諸如鼠標、軌跡球或者觸摸板，將命令和信息輸入到計算機110中。其它輸入設備(未示出)可包括操縱桿、游戲板、衛(wèi)星天線、掃描儀等等。這些和其它輸入設備常常通過連接到系統(tǒng)總線的用戶輸入接口160耦合到處理單元120，但可通過其它接口和總線結構連接，諸如并行口、游戲口或者通用串行總線(USB)。監(jiān)視器191或者其它類型的顯示設備也可通過接口諸如視頻接口190連接到系統(tǒng)總線121。除監(jiān)視器外，計算機還可包括其它輸出設備諸如揚聲器197和打印機196，它們可通過輸出外設與接口195相連接。
計算機110可在使用邏輯連接至一個或多個遠程計算機諸如遠程計算機180的網(wǎng)絡化環(huán)境中操作。遠程計算機180可能是個人計算機、手持式設備、服務器、路由器、網(wǎng)絡PC、對等設備或者其它普通網(wǎng)絡節(jié)點，并且一般包括許多或者所有上面相對于計算機110所述的部件。在圖1中所示的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173，但還可包括其它網(wǎng)絡。這樣網(wǎng)絡環(huán)境在辦公室、企業(yè)級計算機網(wǎng)絡、企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)中是很普通的。
當在LAN網(wǎng)絡環(huán)境中使用時，計算機110通過網(wǎng)絡接口或適配器170連接至LAN171。當在WAN網(wǎng)絡環(huán)境中使用時，計算機110一般包括調(diào)制解調(diào)器172或者用于在WAN 173諸如因特網(wǎng)上建立通信的其它裝置。可能是內(nèi)置或外置的調(diào)制解調(diào)器172，可通過用戶輸入接口160或者其它適當?shù)臋C制與系統(tǒng)總線121相連接。在網(wǎng)絡化環(huán)境中，相對于計算機110所述的程序模塊或者其部分，可存儲在遠程存儲器設備中。作為例子，不是限制，圖1例示遠程應用程序185為駐留在存儲器設備181上。將意識到，所示的網(wǎng)絡連接是示例性的，并且可使用在計算機之間建立通信連接的其它方法。
應該注意，本發(fā)明可以在諸如參考圖1所述的計算機系統(tǒng)上執(zhí)行。但是，本發(fā)明可以在服務器、專用于消息處理的計算機上或在分布式系統(tǒng)上執(zhí)行，在所述分布式系統(tǒng)中，本發(fā)明的不同部分在分布式計算系統(tǒng)的不同部分上執(zhí)行。
圖2例示了可以使用本發(fā)明的示例性語音識別系統(tǒng)的方框圖。在圖2中，說話者400向著話筒404說話。將由話筒404檢測到的音頻信號轉換成電子信號，提供給模數(shù)(A-至-D)轉換器406。
A-至-D轉換器406將來自話筒400的模擬信號轉換成一系列數(shù)字值。在若干實施例中，A-至-D轉換器406以16kHz取樣模擬信號，每個樣本16位，從而每秒產(chǎn)生32千字節(jié)的語音數(shù)據(jù)。這些數(shù)字值被提供給幀構造器(frameconstructor)407，在一個實施例中，它將值組合成相距10毫秒開始的25毫秒。
由幀構造器407產(chǎn)生的數(shù)據(jù)幀被提供給特征提取器(featureextractor)408，它從每一幀提取特征。特征提取模塊的例子包括這樣一些模塊，用于執(zhí)行線性預測編碼(Linear Predictive Coding)(LPC)，LPC導出的倒譜(LPC derived cepstrum)，感知線性預測(Perceptive LinearPrediction)(PLP)，聽覺模式特征提取和美頻倒譜系數(shù)(Mel-FrequencyCepstrum Coefficient)(MFCC)特征提取。注意，本發(fā)明不限于這些特征提取模塊，并可在本發(fā)明的環(huán)境中使用其它模塊。
特征提取模塊408產(chǎn)生特征向量的流，每一特征向量與一個語音信號幀相關聯(lián)。這個特征向量的流被提供給解碼器412，它基于這個特征向量的流、詞匯(lexicon)414、語言模型416(例如，基于N元語法，上下文無關語法或它們的混合)和聲學模型418，識別一個最有可能的詞語序列。被用于解碼的特定方法對于本發(fā)明不是重要的。但是，本發(fā)明的諸方面包括對聲學模型418的修改及其使用。
假設詞語的最有可能的序列可以提供給可選的置信度測量模塊420。置信度測量模塊420識別哪些詞語最有可能由語音識別器不正確地識別。這可以部分地基于第二聲學模型(未示出)。置信度測量模塊420隨后將假設詞語的序列連同表示哪些詞語可能已經(jīng)不正確地識別的標識符一起提供給輸出模塊422。那些本領域熟練技術人員將認識到，置信度測量模塊420對于本發(fā)明的實施不是必要的。
在訓練期間，相應于訓練文本426的語音信號連同訓練文本426的詞匯副本(lexical transcription)一起輸入到解碼器412。訓練器424基于訓練輸入訓練聲學模型418。
圖3例示了按照本發(fā)明的一個實施例的語音檢測系統(tǒng)300。語音檢測系統(tǒng)300包括語音傳感器或變送器301，常規(guī)音頻話筒303，多-感覺信號捕捉組件302和多-感覺信號處理器304。
捕捉組件302以音頻信號的形式捕捉來自常規(guī)話筒303的信號。組件302還捕捉來自語音變送器301的輸入信號，它表示用戶是否正在講話。由該變送器產(chǎn)生的信號可以由多種多樣其它變送器產(chǎn)生。例如，在一個實施例中，變送器是紅外線傳感器，它一般瞄準用戶的臉，尤其是嘴部區(qū)域，并產(chǎn)生表示相應于講話的用戶的面部運動的變化的信號。在另一個實施例中，傳感器包括多個紅外線發(fā)射器和瞄準用戶臉部的不同部分的傳感器。在又另一個實施例中，語音傳感器301可以包括喉式話筒，它測量經(jīng)過用戶喉部的阻抗或喉部振動。在又另一個實施例中，傳感器是骨振動敏感話筒，它的位置毗鄰于用戶的面部骨或頭骨(諸如顎骨)，并且檢測相應于由用戶產(chǎn)生的語音的振動。這種類型的傳感器還可以放置為與喉部接觸，或者毗鄰于耳內(nèi)或在用戶的耳內(nèi)。在另一個實施例中，溫度傳感器諸如熱敏電阻被放置在呼吸氣流諸如在保持常規(guī)話筒的同一支架上。在用戶說話時，呼出的氣息引起傳感器中溫度的變化，并因而檢測到語音。這可以通過使小的穩(wěn)定狀態(tài)流(small steady statecurrent)經(jīng)過熱敏電阻加熱它輕微大于環(huán)境溫度來增強。呼吸氣流隨后傾向于冷卻熱敏電阻，這可以通過經(jīng)過熱敏電阻的電壓變化檢測到。在任何情況下，變送器301例示性地對于背景語音高度不敏感，但強烈地表示用戶是否正在講話。
在一個實施例中，組件302捕捉來自變送器301和話筒303的信號并將它們轉換數(shù)字形式，如同步時間系列的信號樣本。組件302隨后提供一個或多個輸出給多-感覺信號處理器304。處理器304處理由組件302捕捉的輸入信號并在其輸出處提供語音檢測信號306，它表示用戶是否正在說話。處理器304也可以基于來自各種各樣不同變送器，可選地輸出附加信號308諸如音頻輸出信號，它表示用戶正在說話的可能性或概率。其它輸出308將例示性地基于要完成的任務而變化。不過，在一個實施例中，輸出308包括在語音識別系統(tǒng)中使用的增強的音頻信號。
圖4更詳細地說明多-感覺信號處理器304的一個實施例。在圖4所示的實施例中，將參考來自變送器301的變送器輸入描述處理器304，變送器輸入是由位置靠近用戶臉的紅外線傳感器產(chǎn)生的紅外線信號。當然，應該意識到，圖4的描述相對于來自喉部傳感器、振動傳感器等的變送器信號是一樣容易的。
總之，圖4示出處理器304包括基于紅外線(IR)的語音檢測器310，基于音頻的語音檢測器312和組合的語音檢測器組件314?；贗R的語音檢測器310接收由IR發(fā)射器發(fā)射的并從說話者反射回的IR信號，基于IR信號檢測用戶是否正在說話?；谝纛l的語音檢測器312接收音頻信號并基于音頻信號檢測用戶是否正在說話。來自解碼器310和312的輸出被提供給組合的語音檢測器組件314。組件314接收這些信號并基于這兩個輸入信號就用戶是否正在說話作出一個全面的估計。來自組件314的輸出包括語音檢測信號306。在一個實施例中，語音檢測信號306被提供給背景語音清除組件316。語音檢測信號306用于表示在音頻信號中什么時候用戶實際在說話。
更準確地說，兩個獨立的檢測器310和312，在一個實施例中，每一檢測器產(chǎn)生一個概率描述關于用戶正在說話的可能性程度。在一個實施例中，基于IR的語音檢測器310的輸出是根據(jù)IR輸入信號的用戶正在說話的概率。同樣，來自基于音頻的語音檢測器312的輸出信號是根據(jù)音頻輸入信號的用戶正在說話的概率。在一個例子中，隨后在組件314中考慮這兩個信號，以作出關于用戶是否正在說話的二元判定。
信號306可以用于進一步在組件316中處理以消除背景語音。在一個實施例中，在語音檢測信號306表示用戶正在說話時，信號306僅用于通過組件316提供語音信號給語音識別引擎。如果語音檢測信號306表示用戶不是正在說話，那么不將語音信號通過組件316提供給語音識別引擎。
在另一個實施例中，組件314提供語音檢測信號306作為概率測量，它表示用戶正在說話的概率。在那個實施例中，在組件316中將音頻信號乘以包含在語音檢測信號306中的概率。因此，當用戶正在說話的概率高時，通過組件316提供給語音識別引擎的語音信號也具有大的幅度。然而，當用戶正在說話的概率低時，通過組件316提供給語音識別引擎的語音信號具有非常低的幅度。當然，在另一個實施例中，語音檢測信號306可以簡單地直接提供給語音識別引擎，語音識別引擎本身可以確定用戶是否正在說話并根據(jù)那個確定來如何處理語音信號。
圖5更詳細地說明多-感覺信號處理器304的另一個實施例。代替具有用于檢測用戶是否正在說話的多個檢測器，圖5所示的實施例例示了由單個合并的語音檢測器320構成的處理器304。檢測器320接收IR信號和音頻信號兩者，基于這兩個信號，作出用戶是否正在說話的判定。在那個實施例中，首先獨立地從紅外線和音頻信號中提取特征，并將那些特征送進檢測器320?；诮邮盏降奶卣?，檢測器320檢測用戶是否正在說話并相應地輸出語音檢測信號306。
無論使用哪一種類型的系統(tǒng)(圖4所示的系統(tǒng)或圖5所示的系統(tǒng))，都可以生成語音檢測器并使用訓練數(shù)據(jù)來訓練它們，在訓練數(shù)據(jù)中連同IR信號并且還連同手工指示(諸如推按講話信號)一起提供噪聲音頻信號，手工指示明確地表示用戶正在說話。
為更好地描述這一點，圖6示出音頻信號400和紅外線信號402的曲線圖，按照幅度相對于時間。圖6還示出語音檢測信號404，它表示何時用戶正在說話。當在邏輯高狀態(tài)時，信號404表示由語音檢測器的判定說話者正在說話。當在邏輯低狀態(tài)時，信號404表示用戶不是正在說話。為了基于信號400和402確定用戶正在說話并產(chǎn)生信號404，周期性地諸如每100毫秒計算信號400和402的均方差。使用均方差計算作為基線均方差值，相對于這些值作出語音檢測判定?？梢钥吹揭纛l信號400和紅外線信號402在用戶正在說話時具有比用戶沒有在說話時較大的方差。因此，當進行觀測時，諸如每隔5-10毫秒，將在觀測過程中信號的均方差(或僅方差)與基線均方差(或僅方差)比較。如果觀測值大于基線值，那么確定用戶正在說話。如果不大于基線值，那么確定用戶沒有在說話。在一個例示性實施例中，基于預定的閾值作出語音檢測判定。例如，在每個觀測過程中，如果紅外線信號不是在基線平均的三個標準偏差之內(nèi)，則認為用戶正在說話。對于音頻信號可以使用同樣的方法。
按照本發(fā)明的另一個實施例，檢測器310、312、314或320也可以在使用期間適應，諸如以適應環(huán)境光條件的變化，或者諸如用戶頭部位置的變化，這些變化可能引起影響IR信號的照明的輕微變化。例如，基線均方差值可以每隔5-10秒重新估計，或者使用另外的循環(huán)時間窗(revolving time window)。這允許更新那些值以反映隨著時間過去的變化。而且，在使用滑動窗口(movingwindow)更新基線均方差之前，首先可以確定輸入信號是否相應于說話的和不在說話的用戶?？梢灾皇褂孟鄳诓辉谡f話的用戶的信號的一部分來重新計算均方差。
另外，從圖6可以看到IR信號一般可領先于音頻信號。這是因為用戶一般而言可在產(chǎn)生任何聲音之前改變嘴部和臉部的位置。因此，這允許系統(tǒng)甚至在語音信號可得到之前檢測到語音。
圖7是按照本發(fā)明的IR傳感器和音頻話筒的一個實施例的實物圖。在圖7中，為頭戴式耳機420提供了一對耳機422和424，連同吊桿426。吊桿426在其遠端有一個常規(guī)的音頻話筒428，連同紅外線收發(fā)器430。例示性地，收發(fā)器430可以是一個紅外光發(fā)射二極管(LED)和紅外線接收器。用戶在講話過程中正在移動他或她的臉尤其是嘴時，從用戶的臉部尤其是嘴部反射回的并在IR傳感器信號中代表的光將改變，如在圖6中所示。因而，可以基于IR傳感器信號確定用戶是否正在說話。
應該注意，雖然在圖7中的實施例示出單個紅外線收發(fā)器，但本發(fā)明預料到也可使用多個紅外線收發(fā)器。在那個實施例中，與由每個紅外線收發(fā)器產(chǎn)生的IR信號相關聯(lián)的概率可以分別或同時處理。如果分別處理它們，簡單的表決邏輯可以用于確定紅外線信號是否表示說話者是否正在說話?？晒┨鎿Q地，可以使用概率模型基于多個IR信號來確定用戶是否正在說話。
如上所述，附加的變送器301可以采用不同于紅外線變送器的許多形式。圖8是頭戴式耳機450的實物圖，包括帶有耳機452和454的頭部支架(headmount)451，以及常規(guī)的音頻話筒456，加上骨敏感話筒(bone sensitivemicrophone)458。兩個話筒456和458可以以機械方式甚至剛性地與頭部支架451相連接。骨敏感話筒458將面骨的振動在通過說話者的頭骨傳播時轉換成電子聲音信號。這些類型的話筒是公知的并且以各種各樣的形狀和尺寸商業(yè)化。骨敏感話筒458一般作為接觸式話筒構成，被戴在頭骨的頂部或耳后(以接觸乳突骨(mastoid))。骨傳導話筒(bone conductive microphone)對于骨頭的振動是敏感的，而對外部的聲音源不太敏感。
圖9例示了多個信號，包括來自常規(guī)的話筒456的信號460，來自骨敏感話筒458的信號462和相應于語音檢測器的輸出的二元語音檢測信號464。當信號464處于邏輯高狀態(tài)時，它表示檢測器已經(jīng)確定說話者正在說話。當它處于邏輯低狀態(tài)時，它相應于說話者不在說話的判定。在圖9中的信號是從一個環(huán)境中捕捉到的，在這個環(huán)境中，收集數(shù)據(jù)同時用戶正戴著上面圖8所示的話筒系統(tǒng)，在背景音頻播放著的情況下。因而，音頻信號460示出即使當用戶不在說話時的顯著活動。不過，骨敏感話筒信號462示出當用戶正在實際說話時接受的微不足道的信號活動。因而可以看到，只考慮音頻信號460，很難確定用戶是否正在實際說話。但是，當使用來自骨敏感話筒的信號時，或者單獨地或者結合音頻信號，變得很容易確定何時用戶正在說話。
圖10示出本發(fā)明的另一個實施例，在這個實施例中，頭戴式耳機500包括頭部支架501，連同常規(guī)音頻話筒504的耳機502和喉式話筒506。兩個話筒504和506以機械方式與頭部支架501相連接，并且可以剛性地與它相連接。存在可以使用的各種各樣不同喉式話筒。例如，目前有單元件和雙元件設計。通過檢測喉部的振動并將振動轉換成話筒信號的兩個功能。喉式話筒例示性地戴在脖子周圍并由彈力線制成的帶子或領圈保持在適當?shù)奈恢?。當檢測元件定位在用戶的喉頭上用戶的“金剛石蘋果(Adams apple)”的任一側時，它們良好地完成任務。
圖11示出本發(fā)明的另一個實施例，在這個實施例中，頭戴式耳機550包括耳內(nèi)話筒(in-ear microphone)552連同常規(guī)的音頻話筒554。在圖11中說明的實施例中，耳內(nèi)話筒552與耳機554集成起來。不過，應該注意，耳機能構成獨立的組件，與耳內(nèi)話筒552分開。圖11還示出，常規(guī)的音頻話筒554具體化為通過吊桿556與耳內(nèi)話筒552相連接的近距離談話話筒(close-talkmicrophone)。吊桿556可以是剛性的或者是柔軟的。在頭戴式耳機550中，頭戴式耳機的頭部支架部分包括耳內(nèi)話筒552和可選的耳機554，它將頭戴式耳機550通過與說話者的耳朵內(nèi)部的摩擦連接安裝到說話者的頭部。
耳內(nèi)話筒552檢測通過說話者的耳道或者通過圍繞說話者的耳道的骨頭或通過這兩者傳輸?shù)穆曇粽駝?。系統(tǒng)以相似的方式對具有圖8所示的骨敏感話筒458的頭戴式耳機工作。由耳內(nèi)話筒552檢測的聲音振動被轉換成在下游(down-stream)處理中使用的話筒信號。
雖然已描述了語音傳感器或變送器301的多個實施例，但應該意識到，同樣可以使用其它語音傳感器或變送器。例如，對于IR傳感器，可以用相似的方式使用電荷耦合裝置(或數(shù)字攝像機)。而且，同樣可以使用喉部傳感器。僅為了示例的緣故描述了上述實施例。
現(xiàn)在描述用于檢測語音的、使用音頻和/或語音傳感器信號的另一種技術。在一個說明性實施例中，在用戶規(guī)定的時間內(nèi)(諸如在一分鐘之內(nèi)等)保持最近的幀的所有方差的柱狀圖。對于之后的每一觀測幀，為輸入信號計算方差并將方差與柱狀圖值比較以確定當前幀代表著說話者正在說話還是不在說話。然后更新柱狀圖。應該注意，如果當前幀只是被插入到柱狀圖中且去除最舊的幀，則柱狀圖可能只代表說話幀，在用戶在一段長時間中一直說話的情況下。為了處理這種情況，跟蹤柱狀圖中說話幀和非說話幀的數(shù)量，并選擇性地更新柱狀圖。如果當前幀被分類為說話，而在柱狀圖中說話幀的數(shù)量大于幀總數(shù)的一半，則簡單地不將當前幀插入柱狀圖。當然，同樣可以使用其它更新技術，而這只是為了示例的目的而給出的。
可以在多種多樣的應用中使用本系統(tǒng)。例如，許多當前的推按講話系統(tǒng)要求用戶推按并保持輸入激勵器(諸如按鈕)，以便與語音模式交互。可用性研究已表示出，用戶難以令人滿意地操縱這些。同樣，用戶在按壓硬件按鈕的同時開始說話，導致在開始發(fā)音處的截去。因而，本系統(tǒng)可以只用于語音識別，代替推按講話系統(tǒng)。
同樣，本發(fā)明可以用于去除背景語音。背景語音已被識別為一個極其普通的噪聲源，僅次于電話振鈴和空調(diào)。使用如上所述的語音檢測信號，可以消除大部分這種背景噪聲。
同樣，可以改進可變速率語音編碼系統(tǒng)。由于本發(fā)明提供表示用戶是否正在說話的輸出，因此可以使用有效得多的語音編碼系統(tǒng)。這樣一個系統(tǒng)減少電話會議(audio conferencing)時對帶寬的要求，因為語音編碼只有在用戶實際說話時才進行。
同樣可以改進實時通信中的發(fā)言權控制(floor control)。在常規(guī)的電話會議中丟失的一個重要方面是缺少一種機制來用于通知其它人一個電話會議參加者希望說話。這可以導致一個參加者獨占一個會議的情況，僅僅因為他或她不知道其它人希望說話。有了本發(fā)明，用戶只需要激勵傳感器以表示這個用戶希望說話。例如，當使用紅外線傳感器時，用戶只需要以模仿講話的方式運動他或她的面部肌肉。這將提供表示用戶正在說話或者希望說話的語音檢測信號。使用喉部或骨話筒，用戶可簡單地以非常柔和的音調(diào)哼哼，這將再次觸發(fā)喉部或骨話筒來表示用戶正在或希望說話。
在又另一個應用中，可以改進用于個人數(shù)字助理或小計算設備的功率管理，諸如掌上電腦、筆記本計算機或其它相似類型的計算機。電池壽命是這類便攜式設備主要關心的。通過了解用戶是否正在說話，分配給完成常規(guī)計算功能所要求的數(shù)字信號處理的資源和完成語音識別所要求的資源，可以以有效得多的方式來分配。
在又另一個應用中，來自常規(guī)的音頻話筒的音頻信號和來自語音傳感器的信號可以用一種智能的方式組合起來，使得可以從音頻信號中消除背景語音，甚至當背景說話者在感興趣的說話者的同時講話時。完成這類語音增強的能力在某些環(huán)境中可能是非常需要的。
雖然已參考特定實施例描述了本發(fā)明，但本領域熟練技術工人將認識到，可在不脫離本發(fā)明的精神和范圍的情況下在形式和細節(jié)上作出變化。
權利要求
1.一種語音識別系統(tǒng)，其特征在于，包括音頻話筒，基于檢測到音頻輸入輸出話筒信號；語音傳感器，基于由語音動作產(chǎn)生的非音頻輸入輸出傳感器信號；以及語音檢測器組件，基于傳感器信號輸出語音檢測信號，表示用戶是否正在說話。
2.如權利要求1所述的語音檢測系統(tǒng)，其特征在于，語音檢測器組件基于傳感器信號的第一特性和基于話筒信號輸出語音檢測信號。
3.如權利要求2所述的語音檢測信號，其特征在于，傳感器信號的第一特性具有用戶正在說話時的第一電平和用戶不在說話時的第二電平，其中，語音檢測器組件基于傳感器信號的第一特性的電平相對于包括特性的第一和第二電平中的預定的一個的第一特性的基線電平，輸出語音檢測信號。
4.如權利要求3所述的語音檢測系統(tǒng)，其特征在于，基線電平是基于經(jīng)過一段時間的第一特性的電平來計算的。
5.如權利要求4所述的語音檢測系統(tǒng)，其特征在于，基線電平是通過平均經(jīng)過一段時間的第一特性的電平來計算的。
6.如權利要求4所述的語音檢測系統(tǒng)，其特征在于，基線電平是間歇地在語音檢測系統(tǒng)的操作過程中重新計算的。
7.如權利要求6所述的語音檢測系統(tǒng)，其特征在于，基線電平是周期性地重新計算的，以代表經(jīng)過一個循環(huán)的時間窗的第一特性的電平。
8.如權利要求6所述的語音檢測系統(tǒng)，其特征在于，語音檢測器組件基于傳感器信號的第一特性的電平與基線電平的比較，輸出語音檢測信號，其中，比較是周期性地進行的。
9.如權利要求8所述的語音檢測系統(tǒng)，其特征在于，比較是比重新計算基線電平更頻繁地進行的。
10.如權利要求1所述的語音檢測系統(tǒng)，其特征在于，音頻話筒和語音傳感器安裝在頭戴式耳機上。
11.一種語音識別系統(tǒng)，其特征在于，包括語音檢測系統(tǒng)，包括音頻話筒，基于檢測到音頻輸入，輸出話筒信號；語音傳感器，基于由語音動作產(chǎn)生的非音頻輸入，輸出傳感器信號；以及語音檢測器組件，基于話筒信號和傳感器信號，輸出語音檢測信號，表示用戶是否正在說話；以及語音識別引擎，基于話筒信號和語音檢測信號，提供識別輸出，表示在檢測到的音頻輸入中的語音。
12.如權利要求11所述的語音識別系統(tǒng)，其特征在于，語音檢測器組件計算語音檢測信號作為語音檢測測量，表示用戶正在說話的概率。
13.如權利要求12所述的語音識別系統(tǒng)，其特征在于，語音檢測器組件將語音檢測測量與話筒信號組合起來以產(chǎn)生組合信號。
14.如權利要求13所述的語音識別系統(tǒng)，其特征在于，語音識別引擎基于組合信號產(chǎn)生識別輸出。
15.如權利要求14所述的語音識別系統(tǒng)，其特征在于，語音檢測測量包括用戶正在說話的概率。
16.如權利要求15所述的語音識別系統(tǒng)，其特征在于，組合信號包括概率與話筒信號的乘積。
17.一種檢測語音的方法，其特征在于，包括用音頻話筒產(chǎn)生第一信號，表示音頻輸入；產(chǎn)生第二信號，表示用戶的面部運動，它是由面部運動傳感器檢測的；以及基于第一和第二信號檢測用戶是否正在說話。
18.如權利要求17所述的方法，其特征在于，產(chǎn)生第二信號包括檢測用戶的顎部和脖子之一的振動。
19.如權利要求17所述的方法，產(chǎn)生第二信號包括檢測表示用戶嘴部的運動的圖象。
20.如權利要求17所述的方法，其特征在于，還包括基于檢測用戶是否正在說話，提供語音檢測信號。
21.如權利要求20所述的方法，其特征在于，還包括基于第一信號和語音檢測信號，識別語音。
22.如權利要求21所述的方法，其特征在于，識別語音包括如果語音檢測信號表示用戶正在說話，增加識別語音的可能性；以及如果語音檢測信號表示說話者不在說話，減少識別語音的可能性。
23.一種頭戴式耳機，其特征在于，包括頭部支架；音頻話筒，以機械方式與頭部支架相連接；變送器，配置為基于表示語音的輸入產(chǎn)生電子信號，它與頭部支架相連接。
24.如權利要求23所述的頭戴式耳機，其特征在于，還包括至少一個耳機以機械方式與頭部支架相連接。
25.如權利要求23所述的頭戴式耳機，其特征在于，變送器包括紅外線傳感器。
26.如權利要求23所述的頭戴式耳機，其特征在于，變送器包括喉式話筒。
27.如權利要求23所述的耳機，其特征在于，變送器包括骨話筒。
28.如權利要求23所述的頭戴式耳機，其特征在于，變送器包括溫度傳感器。
29.如權利要求23所述的頭戴式耳機，其特征在于，將變送器定位在用戶的耳朵內(nèi)部的位置。
30.如權利要求23所述的頭戴式耳機，其特征在于，將變送器定位在與用戶的頭骨或面骨有效接觸的位置。
31.如權利要求23所述的頭戴式耳機，其特征在于，將變送器定位在與用戶的喉部接觸的位置。
32.如權利要求23所述的耳機，其特征在于，變送器剛性地與頭部支架相連接。
33.如權利要求32所述的頭戴式耳機，其特征在于，音頻話筒剛性地與頭部支架相連接。
34.一種語音檢測系統(tǒng)，其特征在于，包括音頻話筒，基于音頻輸入，輸出話筒信號；語音傳感器，配置為檢測用戶臉的運動并且輸出表示運動的傳感器信號；以及語音檢測器組件，配置為接收傳感器信號，并基于傳感器信號輸出語音檢測信號，表示用戶是否正在說話。
35.一種檢測用戶是否正在說話的方法，其特征在于，包括提供傳感器信號，表示檢測到的從用戶的臉反射的輻射；以及基于傳感器信號檢測用戶是否正在說話。
36.一種音頻輸入系統(tǒng)，其特征在于，包括頭戴式耳機，包括音頻話筒和傳感器，傳感器被配置為檢測用戶臉的運動并輸出表示運動的傳感器信號。
37.一種語音識別系統(tǒng)，其特征在于，包括頭戴式耳機，包括音頻話筒和語音傳感器，音頻話筒基于音頻輸入，輸出話筒信號，以及語音傳感器被配置為檢測表示語音的物理特性并輸出表示檢測到的物理特性的傳感器信號；以及語音識別引擎，基于話筒信號和傳感器信號識別語音。
38.一種音頻輸入系統(tǒng)，其特征在于，包括頭戴式耳機，包括音頻話筒和傳感器，傳感器被配置為檢測表示用戶說話或正準備說話的用戶物理特性。
全文摘要
本發(fā)明將常規(guī)的音頻話筒與附加的語音傳感器組合起來，語音傳感器基于輸入提供語音傳感器信號。語音傳感器信號是基于由說話者在講話期間采取的動作諸如面部運動、骨振動、喉部阻抗變化等而產(chǎn)生的。語音檢測器組件從語音傳感器接收輸入并輸出語音檢測信號，表示用戶是否正在說話。語音檢測器基于話筒信號和語音傳感器信號產(chǎn)生語音檢測信號。
文檔編號G10L25/78GK1591568SQ200410055738
公開日2005年3月9日申請日期2004年7月29日優(yōu)先權日2003年7月29日
發(fā)明者黃學東, 劉自成, 張正友, M·J·辛克萊爾, A·阿塞羅申請人:微軟公司

完整全部詳細技術資料下載