国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      話音活動(dòng)檢測(cè)的制作方法

      文檔序號(hào):2832766閱讀:549來(lái)源:國(guó)知局
      專利名稱:話音活動(dòng)檢測(cè)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語(yǔ)音信號(hào)的處理。
      背景技術(shù)
      以前在安靜的辦公室或家庭環(huán)境中進(jìn)行的許多活動(dòng)當(dāng)今是在聲學(xué)上可變的情形中進(jìn)行,例如汽車、街道或咖啡廳。舉例來(lái)說(shuō),一個(gè)人可能希望使用話音通信信道與另一個(gè) 人通信。所述信道可例如由移動(dòng)無(wú)線手持機(jī)或頭戴式耳機(jī)、步話機(jī)、雙向無(wú)線電、汽車套件或另一通信裝置提供。因此,大量的話音通信是在用戶被其他人包圍的環(huán)境中使用移動(dòng)裝置(例如,智能電話、手持機(jī)和/或頭戴式耳機(jī))來(lái)進(jìn)行,所述環(huán)境具有在人們趨于聚集的情況下通常遇到的種類的噪聲內(nèi)容。此噪聲往往使得在電話對(duì)話的遠(yuǎn)端的用戶分心或煩惱。而且,許多標(biāo)準(zhǔn)自動(dòng)化商業(yè)事務(wù)(例如,賬戶余額或股票報(bào)價(jià)查詢)采用了基于話音辨識(shí)的數(shù)據(jù)查詢,且這些系統(tǒng)的準(zhǔn)確性可能受到干擾噪聲的顯著妨礙。對(duì)于其中通信發(fā)生于有噪聲的環(huán)境中的應(yīng)用,可能期望將所需語(yǔ)音信號(hào)與背景噪聲分離??蓪⒃肼暯缍楦蓴_所需信號(hào)或以另外方式使所需信號(hào)降級(jí)的所有信號(hào)的組合。背景噪聲可包含產(chǎn)生于聲環(huán)境內(nèi)的許多噪聲信號(hào),例如其他人的背景對(duì)話,以及從所需信號(hào)和/或其它信號(hào)中的任一者產(chǎn)生的反射和混響。除非所需語(yǔ)音信號(hào)與背景噪聲分離,否則可能難以可靠且有效地利用所需語(yǔ)音信號(hào)。在一個(gè)特定實(shí)例中,在有噪聲的環(huán)境中產(chǎn)生語(yǔ)音信號(hào),且使用語(yǔ)音處理方法來(lái)將所述語(yǔ)音信號(hào)與環(huán)境噪聲分離。在移動(dòng)環(huán)境中遇到的噪聲可包含多種不同分量,例如競(jìng)爭(zhēng)性講話者、音樂(lè)、混串音、街道噪聲和/或機(jī)場(chǎng)噪聲。由于此噪聲的特征通常是非靜止的且接近于用戶自己的頻率特征,因此所述噪聲可能難以使用傳統(tǒng)單個(gè)麥克風(fēng)或固定波束成形型方法來(lái)模型化。單個(gè)麥克風(fēng)噪聲減少技術(shù)通常需要主要參數(shù)調(diào)諧以實(shí)現(xiàn)最優(yōu)性能。舉例來(lái)說(shuō),合適的噪聲參考在這些情況下可能并不直接可用,且可能必須間接地導(dǎo)出噪聲參考。因此,可能需要基于多個(gè)麥克風(fēng)的高級(jí)信號(hào)處理來(lái)支持用于話音通信的移動(dòng)裝置在有噪聲的環(huán)境中的使用。

      發(fā)明內(nèi)容
      根據(jù)一般配置的處理音頻信號(hào)的方法包含針對(duì)所述音頻信號(hào)的第一多個(gè)連續(xù)片段中的每一者,確定所述片段中存在話音活動(dòng)。此方法還包含針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之后立即出現(xiàn)的所述音頻信號(hào)的第二多個(gè)連續(xù)片段中的每一者,確定所述片段中不存在話音活動(dòng)。此方法還包含檢測(cè)在所述第二多個(gè)連續(xù)片段當(dāng)中的不是將在所述第二多者當(dāng)中出現(xiàn)的第一片段的一個(gè)片段期間出現(xiàn)所述音頻信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變,以及產(chǎn)生話音活動(dòng)檢測(cè)信號(hào),其針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段具有指示活動(dòng)和缺乏活動(dòng)當(dāng)中的一者的對(duì)應(yīng)值。在此方法中,針對(duì)所述第一多個(gè)連續(xù)片段中的每一者,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng)。在此方法中,針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之前出現(xiàn)的每一者,且基于所述針對(duì)所述第一多者中的至少一個(gè)片段確定所述片段中存在話音活動(dòng),所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng),且針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之后出現(xiàn)的每一者,且響應(yīng)于所述檢測(cè)到出現(xiàn)所述音頻信號(hào)的語(yǔ)音活動(dòng)狀態(tài)的轉(zhuǎn)變,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示缺乏活動(dòng)。還揭示具有存儲(chǔ)機(jī)器可執(zhí)行指令的有形結(jié)構(gòu)的計(jì)算機(jī)可讀媒體,所述機(jī)器可執(zhí)行指令在由一個(gè)或一個(gè)以上處理器執(zhí)行時(shí)致使所述一個(gè)或一個(gè)以上處理器執(zhí)行此方法。
      根據(jù)另一一般配置的用于處理音頻信號(hào)的設(shè)備包含用于針對(duì)所述音頻信號(hào)的第一多個(gè)連續(xù)片段中的每一者確定所述片段中存在話音活動(dòng)的裝置。此設(shè)備還包含用于針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之后立即出現(xiàn)的所述音頻信號(hào)的第二多個(gè)連續(xù)片段中的每一者確定所述片段中不存在話音活動(dòng)的裝置。此設(shè)備還包含用于檢測(cè)在所述第二多個(gè)連續(xù)片段當(dāng)中的一個(gè)片段期間出現(xiàn)所述音頻信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變的裝置,以及用于產(chǎn)生話音活動(dòng)檢測(cè)信號(hào)的裝置,所述話音活動(dòng)檢測(cè)信號(hào)針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段具有指示活動(dòng)和缺乏活動(dòng)當(dāng)中的一者的對(duì)應(yīng)值。在此設(shè)備中,針對(duì)所述第一多個(gè)連續(xù)片段中的每一者,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng)。在此設(shè)備中,針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之前出現(xiàn)的每一者,且基于所述針對(duì)所述第一多者中的至少一個(gè)片段確定所述片段中存在話音活動(dòng),所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng)。在此設(shè)備中,針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之后出現(xiàn)的每一者,且響應(yīng)于所述檢測(cè)到出現(xiàn)所述音頻信號(hào)的語(yǔ)音活動(dòng)狀態(tài)的轉(zhuǎn)變,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示缺乏活動(dòng)。根據(jù)另一配置的用于處理音頻信號(hào)的設(shè)備包含第一話音活動(dòng)檢測(cè)器,其經(jīng)配置以針對(duì)所述音頻信號(hào)的第一多個(gè)連續(xù)片段中的每一者,確定所述片段中存在話音活動(dòng)。所述第一話音活動(dòng)檢測(cè)器還經(jīng)配置以針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之后立即出現(xiàn)的所述音頻信號(hào)的第二多個(gè)連續(xù)片段中的每一者,確定所述片段中不存在話音活動(dòng)。此設(shè)備還包含第二話音活動(dòng)檢測(cè)器,其經(jīng)配置以檢測(cè)在所述第二多個(gè)連續(xù)片段當(dāng)中的一個(gè)片段期間出現(xiàn)所述音頻信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變;以及信號(hào)產(chǎn)生器,其經(jīng)配置以產(chǎn)生話音活動(dòng)檢測(cè)信號(hào),所述話音活動(dòng)檢測(cè)信號(hào)針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段具有指示活動(dòng)和缺乏活動(dòng)當(dāng)中的一者的對(duì)應(yīng)值。在此設(shè)備中,針對(duì)所述第一多個(gè)連續(xù)片段中的每一者,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng)。在此設(shè)備中,針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之前出現(xiàn)的每一者,且基于所述針對(duì)所述第一多者中的至少一個(gè)片段確定所述片段中存在話音活動(dòng),所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng)。在此設(shè)備中,針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之后出現(xiàn)的每一者,且響應(yīng)于所述檢測(cè)到出現(xiàn)所述音頻信號(hào)的語(yǔ)音活動(dòng)狀態(tài)的轉(zhuǎn)變,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示缺乏活動(dòng)。


      圖IA和IB分別展示高頻率譜功率(垂直軸)在時(shí)間(水平軸;前后軸指示頻率X IOOHz)上的一階導(dǎo)數(shù)的繪圖的俯視圖和側(cè)視圖。圖2A展示根據(jù)一般配置的方法MlOO的流程圖。圖2B展示方法MlOO的應(yīng)用的流程圖。圖2C展示根據(jù)一般配置的設(shè)備AlOO的框圖。圖3A展示方法MlOO的實(shí)施方案MllO的流程圖。圖3B展示設(shè)備AlOO的實(shí)施方案AllO的框圖。

      圖4A展示方法MlOO的實(shí)施方案M120的流程圖。圖4B展示設(shè)備AlOO的實(shí)施方案A120的框圖。圖5A和5B展示在不同噪聲環(huán)境中且在不同聲壓級(jí)下的同一近端話音信號(hào)的譜圖。圖6展示與圖5A的譜圖相關(guān)的若干繪圖。圖7展示與圖5B的譜圖相關(guān)的若干繪圖。圖8展示對(duì)非語(yǔ)音脈沖的響應(yīng)。圖9A展示方法MlOO的實(shí)施方案M130的流程圖。圖9B展示方法M130的實(shí)施方案M132的流程圖。圖IOA展示方法MlOO的實(shí)施方案M140的流程圖。圖IOB展示方法M140的實(shí)施方案M142的流程圖。圖11展示對(duì)非語(yǔ)音脈沖的響應(yīng)。圖12展示第一立體聲語(yǔ)音記錄的譜圖。圖13A展示根據(jù)一般配置的方法M200的流程圖。圖13B展示任務(wù)TM300的實(shí)施方案TM302的框圖。圖14A說(shuō)明方法M200的實(shí)施方案的操作的實(shí)例。圖14B展示根據(jù)一般配置的設(shè)備A200的框圖。圖14C展示設(shè)備A200的實(shí)施方案A205的框圖。圖15A展示設(shè)備A205的實(shí)施方案A210的框圖。圖15B展示信號(hào)產(chǎn)生器SG12的實(shí)施方案SG14的框圖。圖16A展示信號(hào)產(chǎn)生器SG12的實(shí)施方案SG16的框圖。圖16B展示根據(jù)一般配置的設(shè)備MF200的框圖。圖17到19展示應(yīng)用于圖12的記錄的不同話音檢測(cè)策略的實(shí)例。圖20展示第二立體聲語(yǔ)音記錄的譜圖。圖21到23展示圖20的記錄的分析結(jié)果。圖24展示未正規(guī)化相位和接近度VAD測(cè)試統(tǒng)計(jì)的散布繪圖。圖25展示基于接近度的VAD測(cè)試統(tǒng)計(jì)的所跟蹤的最小和最大測(cè)試統(tǒng)計(jì)。圖26展示基于相位的VAD測(cè)試統(tǒng)計(jì)的所跟蹤的最小和最大測(cè)試統(tǒng)計(jì)。圖27展示經(jīng)正規(guī)化相位和接近度VAD測(cè)試統(tǒng)計(jì)的散布繪圖。圖28展示經(jīng)正規(guī)化相位和接近度VAD測(cè)試統(tǒng)計(jì)的散布繪圖,其中α =0. 5。
      圖29展示經(jīng)正規(guī)化相位和接近度VAD測(cè)試統(tǒng)計(jì)的散布繪圖,其中對(duì)于相位VAD統(tǒng)計(jì),α =0. 5,且對(duì)于接近度VAD統(tǒng)計(jì),α =0. 25。圖30Α展示陣列RlOO的實(shí)施方案R200的框圖。圖30Β展示陣列R200的實(shí)施方案R210的框圖。圖31Α展示根據(jù)一般配置的裝置DlO的框圖。圖31Β展示作為裝置DlO的實(shí)施方案的通信裝置D20的框圖。圖32Α到32D展示頭戴式耳機(jī)DlOO的各種視圖。圖33展示在使用中的頭戴式耳機(jī)DlOO的實(shí)例的俯視圖。圖34展示在使用中的裝置DlOO的各種標(biāo)準(zhǔn)定向的側(cè)視圖。 圖35Α到3 展示頭戴式耳機(jī)D200的各種視圖。圖36Α展示手持機(jī)D300的橫截面圖。圖36Β展示手持機(jī)D300的實(shí)施方案D310的橫截面圖。圖37展示在使用中的手持機(jī)D300的各種標(biāo)準(zhǔn)定向的側(cè)視圖。圖38展示手持機(jī)D340的各種視圖。圖39展示手持機(jī)D360的各種視圖。圖40Α到40Β展示手持機(jī)D320的視圖。圖40C到40D展示手持機(jī)D330的視圖。圖41Α到41C展示便攜式音頻感測(cè)裝置的額外實(shí)例。圖41D展示根據(jù)一般配置的設(shè)備MF100的框圖。圖42Α展示媒體播放器D400的圖。圖42Β展示播放器D400的實(shí)施方案D410的圖。圖42C展示播放器D400的實(shí)施方案D420的圖。圖43Α展示汽車套件D500的圖。圖43Β展示書寫裝置D600的圖。圖44Α到44Β展示計(jì)算裝置D700的視圖。圖44C到44D展示計(jì)算裝置D710的視圖。圖45展示便攜式多麥克風(fēng)音頻感測(cè)裝置D800的圖。圖46Α到46D展示會(huì)議裝置的若干實(shí)例的俯視圖。圖47Α展示指示高頻率起始和截止活動(dòng)的譜圖。圖47Β列舉VAD策略的若干組合。
      具體實(shí)施例方式在語(yǔ)音處理應(yīng)用(例如,話音通信應(yīng)用,例如電話)中,可能期望對(duì)載運(yùn)語(yǔ)音信息的音頻信號(hào)的片段執(zhí)行準(zhǔn)確檢測(cè)。此話音活動(dòng)檢測(cè)(VAD)例如在保存語(yǔ)音信息時(shí)可為重要的。語(yǔ)音譯碼器(也稱為編碼器-解碼器(編解碼器)或聲碼器)通常經(jīng)配置以分配比用來(lái)對(duì)被識(shí)別為噪聲的片段進(jìn)行編碼的位更多的位來(lái)對(duì)被識(shí)別為語(yǔ)音的片段進(jìn)行編碼,使得載運(yùn)語(yǔ)音信息的片段的誤識(shí)別可能降低經(jīng)解碼片段中的所述信息的質(zhì)量。在另一實(shí)例中,噪聲減少系統(tǒng)在話音活動(dòng)檢測(cè)階段未能將低能量無(wú)話音語(yǔ)音片段識(shí)別為語(yǔ)音的情況下可能激進(jìn)地衰減這些片段。
      對(duì)寬帶(WB)和超寬帶(SWB)編解碼器的最近關(guān)注強(qiáng)調(diào)了保存高頻語(yǔ)音信息,這對(duì)于高質(zhì)量語(yǔ)音以及可理解性來(lái)說(shuō)可為重要的。輔音通常具有跨越高頻范圍(例如,從四到八千赫)在時(shí)間上大體一致的能量。雖然輔音的高頻能量與元音的低頻能量相比通常較低,但環(huán)境噪聲水平在高頻中通常較低。圖IA和IB展示經(jīng)記錄語(yǔ)音片段的譜圖功率在時(shí)間上的一階導(dǎo)數(shù)的實(shí)例。在這些圖中,可清楚地辨別語(yǔ)音起始(如在較寬高頻范圍上的若干正值的同時(shí)發(fā)生所指示)以及語(yǔ)音截止(如在較寬高頻范圍上的若干負(fù)值的同時(shí)發(fā)生所指示)??赡芷谕谌缦略韥?lái)執(zhí)行語(yǔ)音起始和/或截止的檢測(cè)相干且可檢測(cè)的能量改變?cè)谡Z(yǔ)音的起始和截止處在多個(gè)頻率上發(fā)生??衫缤ㄟ^(guò)在所需頻率范圍(例如,高頻范圍,例如從四到八kHz)中在若干頻率分量上計(jì)算能量的一階時(shí)間導(dǎo)數(shù)(即,能量隨著時(shí)間的改變速率)來(lái)檢測(cè)此能量改變。通過(guò)將這些導(dǎo)數(shù)的振幅與閾值進(jìn)行比較,可計(jì)算每一頻率區(qū)間的激活指示,且在針對(duì)每一時(shí)間間隔(例如,針對(duì)每一 10毫秒巾貞)的頻率范圍上組合(例如,平均化)激活指示以獲得VAD統(tǒng)計(jì)。在此情況下,當(dāng)大量頻帶展示在時(shí)間上相干的急劇能量增加時(shí)可指示語(yǔ)音起始,且當(dāng)大量頻帶展示在時(shí)間上相干的急劇能量減小時(shí) 可指示語(yǔ)音截止。此統(tǒng)計(jì)在本文中稱為“高頻語(yǔ)音連續(xù)性”。圖47A展示譜圖,其中概略描繪了歸因于起始的相干高頻活動(dòng)以及歸因于截止的相干高頻活動(dòng)。除非由其上下文明確限制,否則本文中使用術(shù)語(yǔ)“信號(hào)”來(lái)指示其普通意義中的任一者,包含在電線、總線或其它傳輸媒體上表達(dá)的存儲(chǔ)器位置(或存儲(chǔ)器位置集合)的狀態(tài)。除非由其上下文明確限制,否則本文中使用術(shù)語(yǔ)“產(chǎn)生”來(lái)指示其普通意義中的任一者,例如計(jì)算或以另外方式產(chǎn)生。除非由其上下文明確限制,否則本文中使用術(shù)語(yǔ)“計(jì)算”來(lái)指示其普通意義中的任一者,例如運(yùn)算、估計(jì)、平滑和/或從多個(gè)值中進(jìn)行選擇。除非由其上下文明確限制,否則使用術(shù)語(yǔ)“獲得”來(lái)指示其普通意義中的任一者,例如計(jì)算、導(dǎo)出、接收(例如,從外部裝置)和/或檢索(例如,從存儲(chǔ)元件陣列)。除非由其上下文明確限制,否則使用術(shù)語(yǔ)“選擇”來(lái)指示其普通意義中的任一者,例如識(shí)別、指示、應(yīng)用和/或使用兩者或兩者以上的集合中的至少一者且少于全部。在術(shù)語(yǔ)“包括”用于本描述和權(quán)利要求書中的情況下,其不排除其它元件或操作。術(shù)語(yǔ)“基于”(如在“A基于B”中)用以指示其普通意義中的任一者,包含如下情況(i) “從…導(dǎo)出”(例如,“B是A的前體”),(ii) “至少基于”(例如,“A至少基于B”),以及如果在特定上下文中適當(dāng)?shù)脑挘?iii) “等于”(例如,“A等于B”或“A與B相同”)。類似地,使用術(shù)語(yǔ)“響應(yīng)于”來(lái)指示其普通意義中的任一者,包含“至少響應(yīng)于”。對(duì)多麥克風(fēng)音頻感測(cè)裝置的麥克風(fēng)的“位置”的參考指示所述麥克風(fēng)的聲學(xué)敏感面的中心的位置,除非上下文另外指示。根據(jù)特定上下文,術(shù)語(yǔ)“通道”有時(shí)用以指示信號(hào)路徑且在其它時(shí)候用以指示由此路徑載運(yùn)的信號(hào)。除非另外指示,否則術(shù)語(yǔ)“系列”用以指示兩個(gè)或兩個(gè)以上項(xiàng)目的序列。術(shù)語(yǔ)“對(duì)數(shù)”用以指示以十為基數(shù)的對(duì)數(shù),但此運(yùn)算向其它基數(shù)的擴(kuò)展屬于本發(fā)明的范圍內(nèi)。術(shù)語(yǔ)“頻率分量”用以指示信號(hào)的一組頻率或頻帶當(dāng)中的一者,例如所述信號(hào)的頻域表示(例如,如由快速傅立葉變換產(chǎn)生)或所述信號(hào)的子帶(例如,巴克(Bark)尺度或梅爾(mel)尺度子帶)的樣本(或“區(qū)間”)。除非另外指出,否則對(duì)具有特定特征的設(shè)備的操作的任何揭示內(nèi)容還明確地既定揭示具有類似特征的方法(且反之亦然),且對(duì)根據(jù)特定配置的設(shè)備的操作的任何揭示內(nèi)容還明確地既定揭示根據(jù)類似配置的方法(且反之亦然)。術(shù)語(yǔ)“配置”可參考由其特定上下文指示的方法、設(shè)備和/或系統(tǒng)來(lái)使用。一般地且可互換地使用術(shù)語(yǔ)“方法”、“過(guò)程”、“程序”和“技術(shù)”,除非特定上下文另外指示。也一般地且可互換地使用術(shù)語(yǔ)“設(shè)備”和“裝置”,除非特定上下文另外指示。術(shù)語(yǔ)“元件”和“模塊”通常用以指示較大配置的一部分。除非由其上下文明確限制,否則本文中使用術(shù)語(yǔ)“系統(tǒng)”來(lái)指示其普通意義中的任一者,包含“交互以用于共同目的的一組元件”。一個(gè)文檔的一部分以引用的方式的任何并入也應(yīng)理解為并入了在所述部分內(nèi)參考的術(shù)語(yǔ)或變量的定義(其中這些定義在所述文檔的其它地方出現(xiàn))以及在所并入的部分中參考的任何圖式??蓪⒔鼒?chǎng)界定為距聲音接收器(例如,麥克風(fēng)或麥克風(fēng)陣列)小于一個(gè)波長(zhǎng)的空間區(qū)。在此定義下,到所述區(qū)的邊界的距離隨著頻率相反地變化。舉例來(lái)說(shuō),在兩百、七百和兩千赫茲的頻率下,到一個(gè)波長(zhǎng)邊界的距離分別為約170、49和17厘米。改為將近場(chǎng)/遠(yuǎn)場(chǎng)邊界視為距麥克風(fēng)或陣列一個(gè)特定距離(例如,距麥克風(fēng)或距陣列中的一麥克風(fēng)或距陣列的質(zhì)心五十厘米,或者距麥克風(fēng)或距陣列中的一麥克風(fēng)或距陣列的質(zhì)心I米或I. 5米)可能是有用的。
      除非上下文另外指示,否則本文中使用術(shù)語(yǔ)“截止”作為術(shù)語(yǔ)“起始”的反義詞。圖2A展示根據(jù)一般配置的方法MlOO的流程圖,其包含任務(wù)了2003300、了4003500和T600。方法MlOO通常經(jīng)配置以在音頻信號(hào)的一系列片段中的每一者上反復(fù),以指示所述片段中是否存在話音活動(dòng)狀態(tài)的轉(zhuǎn)變。典型的片段長(zhǎng)度范圍是從約五或十毫秒到約四十或五十毫秒,且片段可重疊(例如,鄰近的片段重疊25%或50%)或不重疊。在一個(gè)特定實(shí)例中,將信號(hào)劃分為一系列不重疊的片段或“幀”,每一者具有十毫秒的長(zhǎng)度。由方法MlOO處理的片段也可為由不同操作處理的較大片段的片段(即,“子幀”),或反之亦然。任務(wù)T200計(jì)算片段η的每一頻率分量k在所需頻率范圍上的能量E(k,η)的值(也稱為“功率”或“強(qiáng)度”)。圖2Β展示方法MlOO的應(yīng)用的流程圖,其中在頻域中提供音頻信號(hào)。此應(yīng)用包含獲得頻域信號(hào)(例如,通過(guò)計(jì)算音頻信號(hào)的快速傅立葉變換)的任務(wù)TlOO0在此情況下,任務(wù)Τ200可經(jīng)配置以基于對(duì)應(yīng)頻率分量的量值來(lái)計(jì)算能量(例如,作為平方量值)。在替代實(shí)施方案中,方法MlOO經(jīng)配置以(例如,從濾波器組)接收音頻信號(hào)作為多個(gè)時(shí)域子帶信號(hào)。在此情況下,任務(wù)Τ200可經(jīng)配置以基于對(duì)應(yīng)子帶的時(shí)域樣本值的平方和來(lái)計(jì)算能量(例如,作為和,或作為通過(guò)樣本數(shù)目正規(guī)化的和(例如,平均平方值))。子帶方案也可用于任務(wù)Τ200的頻域?qū)嵤┓桨钢?例如,通過(guò)計(jì)算每一子帶的能量的值作為子帶k中的若干頻率區(qū)間的平均能量,或作為所述頻率區(qū)間的平均量值的平方)。在這些時(shí)域和頻域情況中的任一者中,子帶劃分方案可為均勻的,使得每一子帶具有大體上相同寬度(例如,在約百分之十內(nèi))?;蛘?,子帶劃分方案可為不均勻的,例如超越方案(例如,基于巴克尺度的方案)或?qū)?shù)方案(例如,基于梅爾尺度的方案)。在一個(gè)此實(shí)例中,一組七個(gè)巴克尺度子帶的邊緣對(duì)應(yīng)于頻率20、300、630、1080、1720、2700、4400和7700 Hz。此子帶布置可用于具有16 kHz的取樣速率的寬帶語(yǔ)音處理系統(tǒng)中。在此劃分方案的其它實(shí)例中,省略較低子帶以獲得六子帶布置,且/或使高頻限制從7700Hz增加到8000Hz。不均勻子帶劃分方案的另一實(shí)例是四頻帶準(zhǔn)巴克方案300到510Hz、510到920Hz、920到1480Hz以及1480到4000Hz。此子帶布置可用于具有8kHz的取樣速率的窄帶語(yǔ)音處理系統(tǒng)中。
      可能期望任務(wù)T200計(jì)算能量的值作為時(shí)間上經(jīng)平滑的值。舉例來(lái)說(shuō),任務(wù)T200可經(jīng)配置以根據(jù)例如E (k, η) = β Eu(k,η) + (I- β ) E (k, η_1)的表達(dá)式來(lái)計(jì)算能量,其中Eu(k, η)是如上所述計(jì)算的能量的未經(jīng)平滑的值,E(k,n)和E(k,n-1)分別是當(dāng)前和先前經(jīng)平滑的值,且β是平滑因數(shù)。平滑因數(shù)β的值的范圍可為從O (最大平滑,無(wú)更新)到1(無(wú)平滑),且平滑因數(shù)β的典型值(對(duì)于起始檢測(cè)可能不同于截止檢測(cè))包含0.05、0.1、0.2、O. 25 和 O. 3??赡芷谕桀l率范圍延伸到高于2000Hz?;蛘呋蛄硗?可能期望所需頻率范圍包含音頻信號(hào)的頻率范圍的上半部的至少一部分(例如,在8kHz下取樣的音頻信號(hào)的從2000到4000Hz的范圍的至少一部分,或在16kHz下取樣的音頻信號(hào)的從4000到8000Hz的范圍的至少一部分)。在一個(gè)實(shí)例中,任務(wù)T200經(jīng)配置以在從四到八千赫的范圍上計(jì)算能量值。在另一實(shí)例中,任務(wù)T200經(jīng)配置以在從500Hz到8kHz的范圍上計(jì)算能量值。任務(wù)T300計(jì)算片段的每一頻率分量的能量的時(shí)間導(dǎo)數(shù)。在一個(gè)實(shí)例中,任務(wù)T300經(jīng)配置以計(jì)算能量的時(shí)間導(dǎo)數(shù)作為每一幀η的每一頻率分量k的能量差A(yù)E(k,η)[例如, 根據(jù)例如 Δ E (k, n) =E (k, η) - E (k, η - I)的表達(dá)式]??赡芷谕蝿?wù)Τ300將AE(k,n)計(jì)算為在時(shí)間上經(jīng)平滑的值。舉例來(lái)說(shuō),任務(wù)T300可經(jīng)配置以根據(jù)例如 Δ E (k, n) = a [E (k, η) - E (k, η - I) ] + (1 _ α ) [ Δ E (k, η - I)]的表達(dá)式來(lái)計(jì)算能量的時(shí)間導(dǎo)數(shù),其中α是平滑因數(shù)。此時(shí)間平滑可幫助增加起始和/或截止檢測(cè)的可靠性(例如,通過(guò)不再?gòu)?qiáng)調(diào)有噪聲的假象)。平滑因數(shù)α的值的范圍可為從0(最大平滑,無(wú)更新)到I (無(wú)平滑),且平滑因數(shù)α的典型值包含O. 05、0. 1、0. 2、0. 25和O. 3。對(duì)于起始檢測(cè),可能期望使用極少平滑或不使用平滑(例如,以允許快速響應(yīng))??赡芷谕谄鹗紮z測(cè)結(jié)果而改變用于起始和/或截止的平滑因子α和/或β的值。任務(wù)Τ400產(chǎn)生片段的每一頻率分量的活動(dòng)指示A (k,η)。任務(wù)Τ400可經(jīng)配置以通過(guò)將AE(k,n)與激活閾值進(jìn)行比較來(lái)將A(k,η)計(jì)算為例如二進(jìn)制值??赡芷谕せ铋撝滇槍?duì)語(yǔ)音起始的檢測(cè)具有正值Tart_m。在一個(gè)此實(shí)例中,任務(wù)T400經(jīng)配置以根據(jù)如下表達(dá)式來(lái)計(jì)算起始激活參數(shù)Am(k,η)
      Γηηοο1 , (ιjl, M(k,n)>Toa_
      它怙況或Io5M它怙況a 可能期望激活閾值針對(duì)語(yǔ)音截止的檢測(cè)具有負(fù)值在一個(gè)此實(shí)例中,任務(wù)T400經(jīng)配置以根據(jù)如下表達(dá)式來(lái)計(jì)算截止激活參數(shù)Atjff (k,η)
      _4] JflrM=I0,.其它情況或續(xù)其它怙況. 在另一此實(shí)例中,任務(wù)T400經(jīng)配置以根據(jù)如下表達(dá)式來(lái)計(jì)算Atjff (k,η)
      ,!r( ’ 'I O,It 它估況 3 , ) —t O,認(rèn)它 W 況 a任務(wù)T500組合片段η的活動(dòng)指示以產(chǎn)生片段活動(dòng)指示S(η)。在一個(gè)實(shí)例中,任務(wù)Τ500經(jīng)配置以將S(n)計(jì)算為片段的值A(chǔ)(k,n)的和。在另一實(shí)例中,任務(wù)T500經(jīng)配置以將S(n)計(jì)算為片段的值A(chǔ)(k,n)的經(jīng)正規(guī)化和(例如,平均值)。任務(wù)T600將經(jīng)組合的活動(dòng)指示S (η)的值與轉(zhuǎn)變檢測(cè)閾值Ttx進(jìn)行比較。在一個(gè)實(shí)例中,如果S(n)大于(或者不小于)Ttx,那么任務(wù)T600指示話音活動(dòng)狀態(tài)的轉(zhuǎn)變的存在。對(duì)于其中A(k,η)[例如,AtjffGi, η)]的值可能為負(fù)的情況,如在以上實(shí)例中,如果S(η)小于(或者不大于)轉(zhuǎn)變檢測(cè)閾值Ttx,那么任務(wù)T600可經(jīng)配置以指示話音活動(dòng)狀態(tài)的轉(zhuǎn)變的存在。圖2C展示根據(jù)一般配置的設(shè)備AlOO的框圖,其包含計(jì)算器EC10、微分器DF10、第一比較器CP10、組合器COlO以及第二比較器CP20。設(shè)備AlOO通常經(jīng)配置以針對(duì)音頻信號(hào)的一系列片段中的每一者產(chǎn)生所述片段中是否存在話音活動(dòng)狀態(tài)的轉(zhuǎn)變的指示。計(jì)算器EClO經(jīng)配置以在所需頻率范圍上計(jì)算所述片段的每一頻率分量的能量的值(例如,如本文中參考任務(wù)T200所描述)。在此特定實(shí)例中,變換模塊FFTl對(duì)多通道信號(hào)的通道S10-1的片段執(zhí)行快速傅立葉變換以對(duì)設(shè)備AlOO (例如,計(jì) 算器EC10)提供頻域中的所述片段。微分器DFlO經(jīng)配置以計(jì)算所述片段的每一頻率分量的能量的時(shí)間導(dǎo)數(shù)(例如,如本文中參考任務(wù)T300所描述)。比較器CPlO經(jīng)配置以產(chǎn)生所述片段的每一頻率分量的活動(dòng)指示(例如,如本文中參考任務(wù)T400所描述)。組合器COlO經(jīng)配置以組合片段的活動(dòng)指示以產(chǎn)生片段活動(dòng)指示(例如,如本文中參考任務(wù)T500所描述)。比較器CP20經(jīng)配置以將片段活動(dòng)指示的值與轉(zhuǎn)變檢測(cè)閾值進(jìn)行比較(例如,如本文中參考任務(wù)T600所描述)。圖41D展示根據(jù)一般配置的設(shè)備MF100的框圖。設(shè)備MF100通常經(jīng)配置以處理音頻信號(hào)的一系列片段中的每一者以指示所述片段中是否存在話音活動(dòng)狀態(tài)的轉(zhuǎn)變。設(shè)備MF100包含用于在所需頻率范圍上計(jì)算片段的每一分量的能量(例如,如本文中參考任務(wù)T200所揭示)的裝置F200。設(shè)備MF100還包含用于計(jì)算每一分量的能量的時(shí)間導(dǎo)數(shù)(例如,如本文中參考任務(wù)T300所揭示)的裝置F300。設(shè)備MF100還包含用于指示每一分量的活動(dòng)(例如,如本文中參考任務(wù)T400所揭示)的裝置F400。設(shè)備MF100還包含用于組合活動(dòng)指示(例如,如本文中參考任務(wù)T500所揭示)的裝置F500。設(shè)備MF100還包含用于將經(jīng)組合活動(dòng)指示與閾值進(jìn)行比較(例如,如本文中參考任務(wù)T600所揭示)以產(chǎn)生語(yǔ)音狀態(tài)轉(zhuǎn)變指示TIlO的裝置F600??赡芷谕到y(tǒng)(例如,便攜式音頻感測(cè)裝置)執(zhí)行經(jīng)配置以檢測(cè)起始的方法MlOO的實(shí)例以及經(jīng)配置以檢測(cè)截止的方法MlOO的另一實(shí)例,其中方法MlOO的每一實(shí)例通常具有不同的相應(yīng)閾值。或者,可能期望此系統(tǒng)執(zhí)行將所述實(shí)例組合的方法MlOO的實(shí)施方案。圖3A展示方法MlOO的此實(shí)施方案MllO的流程圖,其包含活動(dòng)指示任務(wù)T400的多個(gè)實(shí)例T400a、T400b、組合任務(wù)T500的多個(gè)實(shí)例T500a、T500b,以及狀態(tài)轉(zhuǎn)變指示任務(wù)T600的多個(gè)實(shí)例T600a、T600b。圖3B展示設(shè)備AlOO的對(duì)應(yīng)實(shí)施方案AllO的框圖,其包含比較器CPlO的多個(gè)實(shí)例CPIOa、CPIOb、組合器COlO的多個(gè)實(shí)例COlOa、COlOb,以及比較器CP20的多個(gè)實(shí)例 CP20a、CP20b。可能期望將如上所述的起始和截止指示組合為單個(gè)量度。此經(jīng)組合起始/截止得分可用以支持對(duì)語(yǔ)音活動(dòng)(例如,近端語(yǔ)音能量的改變)隨著時(shí)間的準(zhǔn)確跟蹤,即使在不同的噪聲環(huán)境和聲壓級(jí)下也是如此。經(jīng)組合起始/截止得分機(jī)制的使用還可使得更容易調(diào)諧起始/截止VAD??墒褂萌缟纤鐾ㄟ^(guò)任務(wù)T500的相應(yīng)起始和截止實(shí)例針對(duì)每一片段計(jì)算的片段活動(dòng)指示S (η)的值來(lái)計(jì)算經(jīng)組合起始/截止得分Sra^ff (η)。圖4Α展示方法MlOO的此實(shí)施方案Μ120的流程圖,其包含頻率分量激活指示任務(wù)Τ400和組合任務(wù)Τ500分別的起始和截止實(shí)例T400a、T500a和T400b、T500b。方法M120還包含任務(wù)T550,其基于由任務(wù)T500a (Son (η))和T500b (Soff (η))產(chǎn)生的S (η)的值來(lái)計(jì)算經(jīng)組合起始-截止得分Sm^ff (η)。舉例來(lái)說(shuō),任務(wù)Τ550可經(jīng)配置以根據(jù)例如SmfOikabs (S。JnHStjff (η))的表達(dá)式來(lái)計(jì)算Son_off(n)。在此實(shí)例中,方法M120還包含任務(wù)T610,其將Sra^ff(Ii)的值與閾值進(jìn)行比較以產(chǎn)生每一片段η的對(duì)應(yīng)二進(jìn)制VAD指示。圖4Β展示設(shè)備AlOO的對(duì)應(yīng)實(shí)施方案Α120的框圖。圖5Α、5Β、6和7展示可如何使用此經(jīng)組合起始/截止活動(dòng)量度來(lái)幫助跟蹤近端語(yǔ)音能量在時(shí)間上的改變的實(shí)例。圖5Α和5Β展不在不同噪聲環(huán)境中和在不同聲壓級(jí)下包含相同近端話音的信號(hào)的譜圖。圖6和7的繪圖A分別展示在時(shí)域中的圖5Α和5Β的信號(hào)(作為振幅對(duì)以樣本數(shù)計(jì)的時(shí)間的曲線關(guān)系)。圖6和7的繪圖B展示對(duì)繪圖A的信號(hào)執(zhí)行方法MlOO的實(shí)施方案以獲得起始指示信號(hào)的結(jié)果(作為值對(duì)以幀數(shù)計(jì)的時(shí)間的曲線關(guān)系)。圖6和7的繪圖C展示對(duì)繪圖A的信號(hào)執(zhí)行方法MlOO的實(shí)施方案以獲得截止指示信號(hào)的結(jié)果(作為值對(duì)以幀數(shù)計(jì)的時(shí)間的曲線關(guān)系)。在繪圖B和C中,將對(duì)應(yīng)幀活動(dòng)指示信號(hào)展示為多值信號(hào),將對(duì)應(yīng)激活閾值展示為水平線(在繪圖6Β和7Β中處于約+0. I且在繪圖6C和7C中處于約-O. I),且將對(duì)應(yīng)轉(zhuǎn)變指示信號(hào)展示為二進(jìn)制值信號(hào)(在繪圖6Β和 7Β中具有O和約+0. 6的值,且在繪圖6C和7C中具有O和約-O. 6的值)。圖6和7的繪圖D展示對(duì)繪圖A的信號(hào)執(zhí)行方法Μ120的實(shí)施方案以獲得經(jīng)組合起始/截止指示信號(hào)的結(jié)果(作為值對(duì)以幀數(shù)計(jì)的時(shí)間的曲線關(guān)系)。圖6和7的繪圖D的比較證明此檢測(cè)器在不同噪聲環(huán)境中和在不同聲壓級(jí)下的一致性能。例如猛關(guān)上的門、落下的板或拍手等非語(yǔ)音聲音脈沖也可產(chǎn)生展示在一頻率范圍上的一致功率改變的響應(yīng)。圖8展示對(duì)包含若干非語(yǔ)音脈沖性事件的信號(hào)執(zhí)行起始和截止檢測(cè)(例如,使用方法MlOO的對(duì)應(yīng)實(shí)施方案或方法MllO的實(shí)例)的結(jié)果。在此圖中,繪圖A展示時(shí)域中的信號(hào)(作為振幅對(duì)以樣本數(shù)計(jì)的時(shí)間的曲線關(guān)系),繪圖B展示對(duì)繪圖A的信號(hào)執(zhí)行方法MlOO的實(shí)施方案以獲得起始指示信號(hào)的結(jié)果(作為值對(duì)與以幀數(shù)計(jì)的時(shí)間的曲線關(guān)系),且繪圖C展示對(duì)繪圖A的信號(hào)執(zhí)行方法MlOO的實(shí)施方案以獲得截止指示信號(hào)的結(jié)果(作為值對(duì)以幀數(shù)計(jì)的時(shí)間的曲線關(guān)系)。(在繪圖B和C中,如參考圖6和7的繪圖B和C而描述來(lái)展示對(duì)應(yīng)的幀活動(dòng)指示信號(hào)、激活閾值和轉(zhuǎn)變指示信號(hào)。)圖8中的最左邊箭頭指示對(duì)由門猛關(guān)引起的不連續(xù)的起始(即,在正檢測(cè)截止時(shí)檢測(cè)到的起始)的檢測(cè)。圖8中的中心和最右邊箭頭指示由拍手引起的起始和截止檢測(cè)。可能期望區(qū)別這些脈沖性事件與話音活動(dòng)狀態(tài)轉(zhuǎn)變(例如,語(yǔ)音起始和截止)。非語(yǔ)音脈沖性激活可能比語(yǔ)音起始或截止在更寬頻率范圍上一致,語(yǔ)音起始或截止通常展現(xiàn)相對(duì)于時(shí)間的能量改變,其僅在約4到SkHz的范圍上是連續(xù)的。因此,非語(yǔ)音脈沖性事件可能引起經(jīng)組合活動(dòng)指示(例如,S(η))具有過(guò)高而無(wú)法由語(yǔ)音使用的值??蓪?shí)施方法MlOO以利用此性質(zhì)來(lái)區(qū)別非語(yǔ)音脈沖性事件與話音活動(dòng)狀態(tài)轉(zhuǎn)變。圖9Α展示包含任務(wù)Τ650的方法MlOO的此實(shí)施方案Μ130的流程圖,所述任務(wù)Τ650將S (η)的值與脈沖閾值Timp進(jìn)行比較。圖9Β展示包含任務(wù)Τ700的方法Μ130的實(shí)施方案Μ132的流程圖,所述任務(wù)Τ700在S (η)大于(或者不小于)Timp的情況下超馳任務(wù)Τ600的輸出以消除話音活動(dòng)轉(zhuǎn)變指示。對(duì)于其中A(k,η)[例如,AtjffG^n)]的值可為負(fù)(例如,如在以上截止實(shí)例中)的此情況,任務(wù)Τ700可經(jīng)配置以僅在S(η)小于(或者不大于)對(duì)應(yīng)超馳閾值的情況下指示話音活動(dòng)轉(zhuǎn)變指示。另外或在此過(guò)度激活檢測(cè)的替代方案中,此脈沖抑制可包含對(duì)方法MllO的修改以將不連續(xù)的起始(例如,同一片段中的起始和截止的指示)識(shí)別為脈沖性噪聲。也可通過(guò)起始的速度來(lái)區(qū)別非語(yǔ)音脈沖性噪聲與語(yǔ)音。舉例來(lái)說(shuō),頻率分量中的語(yǔ)音起始或截止的能量往往隨著時(shí)間比由于非語(yǔ)音脈沖性事件引起的能量更緩慢地改變,且可實(shí)施方法MlOO以利用此性質(zhì)(例如,另外或在如上所述的過(guò)度激活的替代方案中)以區(qū)別非語(yǔ)音脈沖性事件與話音活動(dòng)狀態(tài)轉(zhuǎn)變。圖IOA展示方法MlOO的實(shí)施方案M140的流程圖,其包含起始速度計(jì)算任務(wù)T800以及任務(wù)T400、T500和T600分別的實(shí)例T410、T510和T620。任務(wù)T800針對(duì)片段η的每一頻率分量k計(jì)算起始速度△ΖΕΟ ,η)(即,能量相對(duì)于時(shí)間的二階導(dǎo)數(shù))。舉例來(lái)說(shuō),任務(wù)Τ800可經(jīng)配置以根據(jù)例如Δ 2Ε(k, n) = [ AE(k, η) - AE(k, η - I)]的表達(dá)式來(lái)計(jì)算起始
      速度。 任務(wù)Τ400的實(shí)例Τ410經(jīng)布置以針對(duì)片段η的每一頻率分量計(jì)算脈沖性激活值A(chǔ)imp-d2x(k,n)。任務(wù)T410可經(jīng)配置以例如通過(guò)將A2E(k,n)與脈沖性激活閾值進(jìn)行比較來(lái)將Aimp_d2(k,η)計(jì)算為二進(jìn)制值。在一個(gè)此實(shí)例中,任務(wù)Τ410經(jīng)配置以根據(jù)如下表達(dá)式來(lái)計(jì)算脈沖性激活參數(shù)Aimp_d2(k,η)細(xì)={『雄
      j/ y \ (是, ^act—imp
      …糾”=u.其它怙況α任務(wù)Τ500的實(shí)例Τ510組合片段η的脈沖性活動(dòng)指示以產(chǎn)生片段脈沖性活動(dòng)指示Simp_d2 (η)。在一個(gè)實(shí)例中,任務(wù)Τ510經(jīng)配置以將Simp_d2 (η)計(jì)算為所述片段的值A(chǔ)imp_d2 (k, η)的和。在另一實(shí)例中,任務(wù)Τ510經(jīng)配置以將Simp_d2(n)計(jì)算為所述片段的值A(chǔ)imp_d2(k,n)的經(jīng)正規(guī)化和(例如,平均值)。任務(wù)T600的實(shí)例T620將片段脈沖性活動(dòng)指示Simp_d2 (η)的值與脈沖檢測(cè)閾值Timp-d2進(jìn)行比較且在Simp_d2(n)大于(或者不小于)Timp_d2的情況下指示檢測(cè)到脈沖性事件。圖IOB展示方法M140的實(shí)施方案M142的流程圖,其包含任務(wù)T700的實(shí)例,任務(wù)T700經(jīng)布置以在任務(wù)T620指示S(n)大于(或者不小于)Timp_d2的情況下超馳任務(wù)T600的輸出以消除話音活動(dòng)轉(zhuǎn)變指示。圖11展示其中語(yǔ)音起始導(dǎo)數(shù)技術(shù)(例如,方法M140)正確地檢測(cè)由圖8中的三個(gè)箭頭指示的脈沖的實(shí)例。在此圖中,繪圖A展示時(shí)域中的信號(hào)(作為振幅對(duì)以樣本數(shù)計(jì)的時(shí)間),繪圖B展示對(duì)繪圖A的信號(hào)執(zhí)行方法MlOO的實(shí)施方案以獲得起始指示信號(hào)的結(jié)果(作為值對(duì)以幀數(shù)計(jì)的時(shí)間的曲線關(guān)系),且繪圖C展示對(duì)繪圖A的信號(hào)執(zhí)行方法M140的實(shí)施方案以獲得脈沖性事件的指示的結(jié)果(作為值對(duì)以幀數(shù)計(jì)的時(shí)間的曲線關(guān)系)。(在繪圖B和C中,如參考圖6和7的繪圖B和C所描述來(lái)展示對(duì)應(yīng)的幀活動(dòng)指示信號(hào)、激活閾值和轉(zhuǎn)變指示信號(hào)。)在此實(shí)例中,脈沖檢測(cè)閾值Timp_d2具有約O. 2的值。由如本文描述的方法MlOO的實(shí)施方案產(chǎn)生的語(yǔ)音起始和/或截止的指示(或經(jīng)組合起始/截止得分)可用以改善VAD級(jí)的準(zhǔn)確性和/或快速地跟蹤時(shí)間上的能量改變。舉例來(lái)說(shuō),VAD級(jí)可經(jīng)配置以將由方法MlOO的實(shí)施方案產(chǎn)生的話音活動(dòng)狀態(tài)的轉(zhuǎn)變的存在或不存在的指示與由一個(gè)或一個(gè)以上其它VAD技術(shù)(例如,使用“與”或“或”邏輯)產(chǎn)生的指示進(jìn)行組合以產(chǎn)生話音活動(dòng)檢測(cè)信號(hào)。其結(jié)果可與方法MlOO的實(shí)施方案的結(jié)果相組合的其它VAD技術(shù)的實(shí)例包含經(jīng)配置以基于一個(gè)或一個(gè)以上因數(shù)將片段分類為有效(例如,語(yǔ)音)或無(wú)效(例如,噪聲)的技術(shù),所述因數(shù)例如為幀能量、信噪比、周期性、語(yǔ)音和/或殘余(例如,線性預(yù)測(cè)譯碼殘余)的自相關(guān)、過(guò)零率和/或第一反射系數(shù)。此分類可包含將此因數(shù)的值或量值與閾值進(jìn)行比較和/或?qū)⒋艘驍?shù)的改變的量值與閾值進(jìn)行比較?;蛘呋蛄硗猓朔诸惪砂瑢⒁粋€(gè)頻帶中的此因數(shù)(例如,能量)的值或量值或此因數(shù)的改變的量值與另一頻帶中的類似值進(jìn)行比較。可能期望實(shí)施此VAD技術(shù)以基于多個(gè)準(zhǔn)則(例如,能量、過(guò)零率等)和/或最近VAD決策的記憶來(lái)執(zhí)行話音活動(dòng)檢測(cè)。其結(jié)果可與方法MlOO的實(shí)施方案的結(jié)果相組合的話音活動(dòng)檢測(cè)操作的一個(gè)實(shí)例包含將片段的高頻帶和低頻帶能量與例如在2010年10月的3GPP2文檔C. S0014-D (v3. O)的第4. 7章(第4_48到4_55頁(yè))中描述的相應(yīng)閾值進(jìn)行比較,所述文檔的題目為“增強(qiáng)型可變速率編解碼器,用于寬帶展頻數(shù)字系統(tǒng)的語(yǔ)音服務(wù)選項(xiàng)3、68、70 和73 (Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems),,(在 www-dot-3gpp-dot_org 處可在線獲得)。其它實(shí)例包含比較幀能量與平均能量的比率和/或低頻帶能量與高頻帶能量的比率。其中每一通道是基于由麥克風(fēng)陣列中的一個(gè)對(duì)應(yīng)麥克風(fēng)產(chǎn)生的信號(hào)的多通道信號(hào)(例如,雙通道或立體聲信號(hào))通常含有可用于話音活動(dòng)檢測(cè)的關(guān)于源方向和/或接近度的信息。此多通道VAD操作可例如通過(guò)區(qū)別含有從特定方向范圍(例如,例如用戶的嘴等所需聲音源的方向)到達(dá)的方向性聲音的片段與含有漫射聲音或從其它方向到達(dá)的方向性聲音的片段而基于到達(dá)方向(DOA)。一類基于DOA的VAD操作是基于多通道信號(hào)的兩個(gè)通道中的每一者中的頻率分量之間的相位差(針對(duì)所需頻率范圍中片段的每一頻率分量)。此VAD操作可經(jīng)配置以在相位差與頻率之間的關(guān)系在一寬頻率范圍(例如500到2000Hz)上一致時(shí)(即,當(dāng)相位差與頻率的相關(guān)是線性的時(shí))指示話音檢測(cè)。下文更詳細(xì)描述的此基于相位的VAD操作與方法MlOO的類似之處在于,點(diǎn)源的存在是由指示符在多個(gè)頻率上的一致性來(lái)指示。另一類基于DOA的VAD操作是基于每一通道中的信號(hào)的實(shí)例之間的時(shí)間延遲(例如,通過(guò)在時(shí)域中使所述通道交叉相關(guān)而確定)。多通道VAD操作的另一實(shí)例是基于多通道信號(hào)的通道的電平(也稱為增益)之間的差。基于增益的VAD操作可經(jīng)配置以例如在兩個(gè)通道的能量的比率超過(guò)閾值(指示信號(hào)正在從近場(chǎng)源到達(dá)且從麥克風(fēng)陣列的軸方向中的一個(gè)所需方向到達(dá))時(shí)指示話音檢測(cè)。此檢測(cè)器可經(jīng)配置以在頻域中(例如,在一個(gè)或一個(gè)以上特定頻率范圍上)或在時(shí)域中對(duì)信號(hào)進(jìn)行操作??赡芷谕麑⑵鹗?截止檢測(cè)結(jié)果(例如,由方法MlOO或設(shè)備AlOO或MF100的實(shí)施方案產(chǎn)生)與來(lái)自基于多通道信號(hào)的通道之間的差的一個(gè)或一個(gè)以上VAD操作的結(jié)果進(jìn)行組合。舉例來(lái)說(shuō),如本文描述的語(yǔ)音起始和/或截止的檢測(cè)可用以識(shí)別通過(guò)基于增益和/或基于相位的VAD仍未檢測(cè)到的語(yǔ)音片段。將起始和/或截止統(tǒng)計(jì)并入到VAD決策中還可支持針對(duì)單通道和/或多通道(例如,基于增益的或基于相位的)VAD使用減小的拖尾周期。基于通道間增益差的多通道話音活動(dòng)檢測(cè)器以及單通道(例如,基于能量的)話音活動(dòng)檢測(cè)器通常依賴于來(lái)自一寬頻率范圍(例如,O到4kHz、500到4000Hz、0到8kHz或500到8000Hz范圍)的信息?;诘竭_(dá)方向(DOA)的多通道話音活動(dòng)檢測(cè)器通常依賴于來(lái)自低頻率范圍(例如,500到2000Hz或500到2500Hz范圍)的信息。假定有話音的語(yǔ)音在這些范圍中通常具有顯著能量?jī)?nèi)容,那么這些檢測(cè)器可大體上經(jīng)配置以可靠地指示有話音的語(yǔ)音的片段。然而,無(wú)話音的語(yǔ)音的片段通常具有低能量,尤其是與低頻率范圍中的元音的能量相比。可包含無(wú)話音的輔音以及有話音的輔音的無(wú)話音部分的這些片段也往往在500到2000 Hz范圍中缺乏重要信息。因此,話音活動(dòng)檢測(cè)器可能無(wú)法將這些片段指示為語(yǔ)音,這可能導(dǎo)致譯碼低效和/或語(yǔ)音信息損失(例如,通過(guò)不適當(dāng)?shù)淖g碼和/或過(guò)于激進(jìn)的噪聲減少)??赡芷谕ㄟ^(guò)將基于由譜圖交叉頻率連續(xù)性指示的語(yǔ)音起始和/或截止的檢測(cè) (例如,方法MlOO的實(shí)施方案)的語(yǔ)音檢測(cè)方案與基于例如通道間增益差和/或通道間相位差的相干性等其它特征的檢測(cè)方案進(jìn)行組合來(lái)獲得集成的VAD級(jí)。舉例來(lái)說(shuō),可能期望用經(jīng)配置以跟蹤主要出現(xiàn)在高頻率中的語(yǔ)音起始和/或截止事件的方法MlOO的實(shí)施方案來(lái)補(bǔ)充基于增益和/或基于相位的VAD框架結(jié)構(gòu)。此經(jīng)組合分類器的個(gè)別特征可彼此補(bǔ)充,因?yàn)榕c基于增益和基于相位的VAD相比,起始/截止檢測(cè)往往對(duì)不同頻率范圍中的不同語(yǔ)音特性敏感。舉例來(lái)說(shuō),500到2000Hz相位敏感VAD與4000到8000Hz高頻語(yǔ)音起始/截止檢測(cè)器的組合允許保存低能量語(yǔ)音特征(例如,在單詞的富含輔音的開(kāi)始處)以及高能量語(yǔ)音特征??赡芷谕O(shè)計(jì)經(jīng)組合檢測(cè)器來(lái)提供從起始到對(duì)應(yīng)截止的連續(xù)檢測(cè)指示。圖12展示近場(chǎng)說(shuō)話者的多通道記錄的譜圖,其也包含遠(yuǎn)場(chǎng)干擾語(yǔ)音。在此圖中,頂部的記錄是來(lái)自靠近用戶的嘴的麥克風(fēng),且底部的記錄是來(lái)自較遠(yuǎn)離用戶的嘴的麥克風(fēng)。來(lái)自語(yǔ)音輔音和齒擦音的高頻能量在頂部譜圖中清楚地可辨別。為了有效地保存出現(xiàn)在有話音的片段的末尾的低能量語(yǔ)音分量,可能期望例如基于增益或基于相位的多通道話音活動(dòng)檢測(cè)器或基于能量的單通道話音活動(dòng)檢測(cè)器等話音活動(dòng)檢測(cè)器包含慣性機(jī)制。此機(jī)制的一個(gè)實(shí)例是經(jīng)配置以禁止檢測(cè)器將其輸出從有效切換到無(wú)效直到檢測(cè)器繼續(xù)在若干連續(xù)幀(例如,兩個(gè)、三個(gè)、四個(gè)、五個(gè)、十個(gè)或二十個(gè)幀)的拖尾周期上檢測(cè)到無(wú)效性為止的邏輯。舉例來(lái)說(shuō),此拖尾邏輯可經(jīng)配置以致使VAD繼續(xù)在最近檢測(cè)之后的某個(gè)周期中將片段識(shí)別為語(yǔ)音??赡芷谕衔仓芷谧銐蜷L(zhǎng)以俘獲任何未檢測(cè)到的語(yǔ)音片段。舉例來(lái)說(shuō),可能期望基于增益或基于相位的話音活動(dòng)檢測(cè)器包含約兩百毫秒(例如,約二十個(gè)幀)的拖尾周期以覆蓋由于低能量或在相關(guān)頻率范圍中缺乏信息而被錯(cuò)過(guò)的語(yǔ)音片段。然而,如果未檢測(cè)到的語(yǔ)音在拖尾周期之前結(jié)束,或者如果沒(méi)有低能量語(yǔ)音分量實(shí)際上存在,那么拖尾邏輯可能致使VAD在拖尾周期期間傳遞噪聲。語(yǔ)音截止檢測(cè)可用以減少在單詞末尾處的VAD拖尾周期的長(zhǎng)度。如上所述,可能期望提供具有拖尾邏輯的話音活動(dòng)檢測(cè)器。在此情況下,可能期望在一布置中將此檢測(cè)器與語(yǔ)音截止檢測(cè)器組合以有效地響應(yīng)于截止檢測(cè)而終止拖尾周期(例如,通過(guò)將拖尾邏輯復(fù)位或以另外方式控制經(jīng)組合檢測(cè)結(jié)果)。此布置可經(jīng)配置以支持連續(xù)檢測(cè)結(jié)果,直到可檢測(cè)到對(duì)應(yīng)截止為止。在特定實(shí)例中,經(jīng)組合VAD包含具有拖尾邏輯(例如,具有標(biāo)稱200毫秒周期)的增益和/或相位VAD和經(jīng)布置以每當(dāng)檢測(cè)到截止的末尾時(shí)便致使經(jīng)組合檢測(cè)器停止指示語(yǔ)音的截止VAD。以此方式,可獲得自適應(yīng)拖尾。圖13A展示根據(jù)一般配置的方法M200的流程圖,其可用以實(shí)施自適應(yīng)拖尾。方法M200包含任務(wù)TM100,其確定在音頻信號(hào)的第一多個(gè)連續(xù)片段中的每一者中存在話音活動(dòng);以及任務(wù)TM200,其確定在所述音頻信號(hào)的緊跟所述信號(hào)中的第一多個(gè)連續(xù)片段之后的第二多個(gè)連續(xù)片段中的每一者中不存在話音活動(dòng)。任務(wù)TM100和TM200可例如由如本文描述的單通道或多通道話音活動(dòng)檢測(cè)器執(zhí)行。方法M200還包含方法MlOO的實(shí)例,其檢測(cè)在第二多個(gè)片段當(dāng)中的一者中的話音活動(dòng)狀態(tài)的轉(zhuǎn)變?;谌蝿?wù)TM100、TM200和MlOO的結(jié)果,任務(wù)TM300產(chǎn)生話音活動(dòng)檢測(cè)信號(hào)。圖13B展示任務(wù)TM300的實(shí)施方案TM302的框圖,其包含子任務(wù)TM310和TM320。針對(duì)第一多個(gè)片段中的每一者,且針對(duì)第二多個(gè)片段中的在其中檢測(cè)到轉(zhuǎn)變的片段之前出現(xiàn)的每一者,任務(wù)TM310產(chǎn)生VAD信號(hào)的對(duì)應(yīng)值以指示活動(dòng)(例如,基于任務(wù)TM100的結(jié)果)。針對(duì)第二多個(gè)片段中的在其中檢測(cè)到轉(zhuǎn)變的片段之后出現(xiàn)的每一者,任務(wù)TM320產(chǎn)生 VAD信號(hào)的對(duì)應(yīng)值以指示缺乏活動(dòng)(例如,基于任務(wù)TM200的結(jié)果)。任務(wù)TM302可經(jīng)配置以使得檢測(cè)到的轉(zhuǎn)變是截止的開(kāi)始或者截止的末尾。圖14A說(shuō)明方法M200的實(shí)施方案的操作的實(shí)例,其中用于轉(zhuǎn)變片段(指示為X)的VAD信號(hào)的值可通過(guò)設(shè)計(jì)而選擇為O或I。在一個(gè)實(shí)例中,用于其中檢測(cè)到截止的末尾的片段的VAD信號(hào)值是指示缺乏活動(dòng)的第一個(gè)值。在另一實(shí)例中,用于緊跟其中檢測(cè)到截止的末尾的片段之后的片段的VAD信號(hào)值是指示缺乏活動(dòng)的第一個(gè)值。圖14B展示根據(jù)一般配置的設(shè)備A200的框圖,其可用以實(shí)施具有自適應(yīng)拖尾的經(jīng)組合VAD級(jí)。設(shè)備A200包含第一話音活動(dòng)檢測(cè)器VADlO (例如,如本文描述的單通道檢測(cè)器或多通道檢測(cè)器),其可經(jīng)配置以執(zhí)行如本文描述的任務(wù)TM100和TM200的實(shí)施方案。設(shè)備A200還包含第二話音活動(dòng)檢測(cè)器VAD20,其可經(jīng)配置以執(zhí)行如本文描述的語(yǔ)音截止檢測(cè)。設(shè)備A200還包含信號(hào)產(chǎn)生器SG10,其可經(jīng)配置以執(zhí)行如本文描述的任務(wù)TM300的實(shí)施方案。圖14C展示設(shè)備A200的實(shí)施方案A205的框圖,其中將第二話音活動(dòng)檢測(cè)器VAD20實(shí)施為設(shè)備AlOO的實(shí)例(例如,設(shè)備A100、A110或A120)。圖15A展示設(shè)備A205的實(shí)施方案A210的框圖,其包含第一檢測(cè)器VADlO的實(shí)施方案VAD12,所述實(shí)施方案VAD12經(jīng)配置以接收多通道音頻信號(hào)(在此實(shí)例中,在頻域中)且產(chǎn)生基于通道間增益差的對(duì)應(yīng)VAD信號(hào)VlO和基于通道間相位差的對(duì)應(yīng)VAD信號(hào)V20。在一個(gè)特定實(shí)例中,增益差VAD信號(hào)VlO是基于在從O到SkHz的頻率范圍上的差,且相位差VAD信號(hào)V20是基于從500到2500Hz的頻率范圍中的差。設(shè)備A210還包含如本文描述的設(shè)備AlOO的實(shí)施方案A110,其經(jīng)配置以接收多通道信號(hào)的一個(gè)通道(例如,主要通道)且產(chǎn)生對(duì)應(yīng)的起始指示TIlOa和對(duì)應(yīng)的截止指示TIlOb0在一個(gè)特定實(shí)例中,指示TIIOa和TIIOb是基于在5IOHz到8kHz的頻率范圍中的差。(應(yīng)明確注意,一般來(lái)說(shuō),經(jīng)布置以調(diào)適多通道檢測(cè)器的拖尾周期的語(yǔ)音起始和/或截止檢測(cè)器可在不同于由所述多通道檢測(cè)器接收的通道的通道上操作。)在特定實(shí)例中,起始指示TIlOa和截止指示TIlOb是基于從500到8000Hz的頻率范圍中的能量差。設(shè)備A210還包含信號(hào)產(chǎn)生器SGlO的實(shí)施方案SG12,其經(jīng)配置以接收VAD信號(hào)VlO和V20以及轉(zhuǎn)變指示TIlOa和TIlOb且產(chǎn)生對(duì)應(yīng)的經(jīng)組合VAD信號(hào)V30。圖15B展示信號(hào)產(chǎn)生器SG12的實(shí)施方案SG14的框圖。此實(shí)施方案包含“或”邏輯0R10,其用于組合增益差VAD信號(hào)VlO與相位差VAD信號(hào)V20以獲得經(jīng)組合多通道VAD信號(hào);拖尾邏輯H010,其經(jīng)配置以基于截止指示TIlOb對(duì)經(jīng)組合多通道信號(hào)強(qiáng)加自適應(yīng)拖尾周期,以產(chǎn)生經(jīng)延伸VAD信號(hào);以及“或”邏輯0R20,其用于組合經(jīng)延伸VAD信號(hào)與起始指示TIlOa以產(chǎn)生經(jīng)組合VAD信號(hào)V30。在一個(gè)實(shí)例中,拖尾邏輯HOlO經(jīng)配置以在截止指示TIlOb指示截止的末尾時(shí)終止拖尾周期。最大拖尾值的特定實(shí)例包含用于基于相位的VAD的零個(gè)、一個(gè)、十個(gè)和二十個(gè)片段以及用于基于增益的VAD的八個(gè)、十個(gè)、十二個(gè)和二十個(gè)片段。應(yīng)注意,也可實(shí)施信號(hào)產(chǎn)生器SGlO以將拖尾應(yīng)用于起始指示TIlOa和/或截止指示 TIlOb0圖16A展示信號(hào)產(chǎn)生器SG12的另一實(shí)施方案SG16的框圖,其中改為通過(guò)使用“與”邏輯ANlO組合增益差VAD信號(hào)VlO與相位差VAD信號(hào)V20來(lái)產(chǎn)生經(jīng)組合多通道VAD信號(hào)。信號(hào)產(chǎn)生器SG14或SG16的另外實(shí)施方案還可包含經(jīng)配置以延伸起始指示TIlOa的 拖尾邏輯、用以針對(duì)其中起始指示TIlOa和截止指示TIlOb均為有效的片段超馳話音活動(dòng)的指示的邏輯,和/或用于在“與”邏輯AN10、“或”邏輯ORlO和/或“或”邏輯0R20處的一個(gè)或一個(gè)以上其它VAD信號(hào)的輸入。另外或在自適應(yīng)拖尾控制的替代方案中,起始和/或截止檢測(cè)可用以改變另一VAD信號(hào)(例如增益差VAD信號(hào)VlO和/或相位差VAD信號(hào)V20)的增益。舉例來(lái)說(shuō),可響應(yīng)于起始和/或截止指示而將VAD統(tǒng)計(jì)(在閾值處理之前)乘以大于一的因數(shù)。在一個(gè)此實(shí)例中,如果針對(duì)片段指示起始檢測(cè)或截止檢測(cè),那么將基于相位的VAD統(tǒng)計(jì)(例如,相干性測(cè)量)乘以大于I的因數(shù)ph_mult,且將基于增益的VAD統(tǒng)計(jì)(例如,通道電平之間的差)乘以大于I的因數(shù)pd_mult。ph_mult的值的實(shí)例包含2、3、3. 5、3. 8、4和4. 5。pd_mult的值的實(shí)例包含I. 2、I. 5、I. 7和2. O?;蛘撸身憫?yīng)于在片段中缺乏起始和/或截止檢測(cè)而使一個(gè)或一個(gè)以上此統(tǒng)計(jì)衰減(例如,乘以小于一的因數(shù))。一般來(lái)說(shuō),可使用響應(yīng)于起始和/或截止檢測(cè)而將統(tǒng)計(jì)偏置的任何方法(例如,加上響應(yīng)于檢測(cè)的正偏置值或響應(yīng)于缺乏檢測(cè)的負(fù)偏置值,根據(jù)起始和/或截止檢測(cè)而升高或降低用于測(cè)試統(tǒng)計(jì)的閾值,和/或以另外方式修改測(cè)試統(tǒng)計(jì)與對(duì)應(yīng)閾值之間的關(guān)系)。可能期望對(duì)已經(jīng)正規(guī)化(例如,如參考以下表達(dá)式(NI)到(N4)所描述)的VAD統(tǒng)計(jì)執(zhí)行此乘法且/或在選擇此偏置時(shí)調(diào)整用于VAD統(tǒng)計(jì)的閾值。還注意到,可使用方法MlOO的不同實(shí)例來(lái)產(chǎn)生起始和/或截止指示以用于此目的,此實(shí)例不同于用以產(chǎn)生起始和/或截止指示以用于組合為經(jīng)組合VAD信號(hào)V30的實(shí)例。舉例來(lái)說(shuō),方法MlOO的增益控制實(shí)例可在任務(wù)T600中使用與方法MlOO的VAD實(shí)例不同的閾值(例如,用于起始的O. 01或O. 02 ;用于截止的 O. 05,0. 07,0. 09 或 I. O)。可與本文描述的那些相組合(例如,通過(guò)信號(hào)產(chǎn)生器SG10)的另一 VAD策略是單通道VAD信號(hào),其可基于幀能量與平均能量的比率和/或基于低頻帶和高頻帶能量。可能期望將此單通道VAD檢測(cè)器朝向高錯(cuò)誤警報(bào)率偏置??膳c本文描述的那些相組合的另一 VAD策略是多通道VAD信號(hào),其基于低頻率范圍(例如,低于900Hz或低于500Hz)中的通道間增益差。此檢測(cè)器可預(yù)期準(zhǔn)確地以低錯(cuò)誤警報(bào)率檢測(cè)有話音的片段。圖47B列出可用以產(chǎn)生經(jīng)組合VAD信號(hào)的VAD策略的組合的若干實(shí)例。在此圖中,P表示基于相位的VAD,G表示基于增益的VAD,ON表示起始VAD,OFF表示截止VAD,LF表示低頻率的基于增益的VAD,PB表示經(jīng)提升的基于相位的VAD,GB表示經(jīng)提升的基于增益的VAD,且SC表示單通道VAD。圖16B展示根據(jù)一般配置的設(shè)備MF200的框圖,其可用以實(shí)施具有自適應(yīng)拖尾的經(jīng)組合VAD級(jí)。設(shè)備MF200包含用于確定在音頻信號(hào)的第一多個(gè)連續(xù)片段中的每一者中存在話音活動(dòng)的裝置FM10,其可經(jīng)配置以執(zhí)行如本文描述的任務(wù)TM100的實(shí)施方案。設(shè)備MF200包含用于確定音頻信號(hào)的緊跟所述信號(hào)中的第一多個(gè)連續(xù)片段之后的第二多個(gè)連續(xù)片段中的每一者中不存在話音活動(dòng)的裝置FM20,其可經(jīng)配置以執(zhí)行如本文描述的任務(wù)TM200的實(shí)施方案。裝置FMlO和FM20可例如實(shí)施為如本文描述的單通道或多通道話音活動(dòng)檢測(cè)器。設(shè)備A200還包含用于檢測(cè)第二多個(gè)片段當(dāng)中的一者中的話音活動(dòng)狀態(tài)的轉(zhuǎn)變(例如,用于執(zhí)行如本文描述的語(yǔ)音截止檢測(cè))的裝置FM100的實(shí)例。設(shè)備A200還包含用于產(chǎn)生話音活動(dòng)檢測(cè)信號(hào)(例如,如本文中參考任務(wù)TM3 00和/或信號(hào)產(chǎn)生器SGlO所描述)的裝置FM30。組合來(lái)自不同VAD技術(shù)的結(jié)果也可用以減小VAD系統(tǒng)對(duì)麥克風(fēng)放置的敏感性。舉例來(lái)說(shuō),當(dāng)電話保持在下方(例如,遠(yuǎn)離用戶的嘴)時(shí),基于相位和基于增益的話音活動(dòng)檢測(cè)器可能均失效。在此情況下,可能期望經(jīng)組合檢測(cè)器更多地依賴于起始和/或截止檢測(cè)。集成VAD系統(tǒng)也可與音高跟蹤相組合。雖然基于增益和基于相位的話音活動(dòng)檢測(cè)器可能在SNR非常低時(shí)出問(wèn)題,但噪聲在高頻率下通常不是問(wèn)題,使得起始/截止檢測(cè)器可經(jīng)配置以包含拖尾間隔(和/或時(shí)間平滑操作),其可在SNR較低時(shí)增大(例如,以補(bǔ)償其它檢測(cè)器的停用)?;谡Z(yǔ)音起始/截止統(tǒng)計(jì)的檢測(cè)器也可用以通過(guò)填充衰減與增加基于增益/相位的VAD統(tǒng)計(jì)之間的間隙來(lái)允許較精確的語(yǔ)音/噪聲分段,因此使得能夠減小用于那些檢測(cè)器的拖尾周期。例如拖尾邏輯等慣性方法自身對(duì)于保存富含輔音的單詞(例如“the”)的發(fā)音開(kāi)始來(lái)說(shuō)不是有效的。語(yǔ)音起始統(tǒng)計(jì)可用以在一個(gè)或一個(gè)以上其它檢測(cè)器錯(cuò)過(guò)的單詞開(kāi)始處檢測(cè)語(yǔ)音起始。此布置可包含時(shí)間平滑和/或拖尾周期以延伸起始轉(zhuǎn)變指示直到可觸發(fā)另一檢測(cè)器為止。對(duì)于其中在多通道上下文中使用起始和/或截止檢測(cè)的大多數(shù)情況,對(duì)對(duì)應(yīng)于最靠近用戶的嘴定位或以另外方式經(jīng)定位以最直接接收用戶話音的麥克風(fēng)(也稱為“靠近說(shuō)話”或“主要”麥克風(fēng))的通道執(zhí)行此檢測(cè)可能是足夠的。然而,在一些情況下,可能期望對(duì)一個(gè)以上麥克風(fēng)執(zhí)行起始和/或截止檢測(cè),例如對(duì)雙通道實(shí)施方案中的兩個(gè)麥克風(fēng)執(zhí)行起始和/或截止檢測(cè)(例如,針對(duì)其中電話經(jīng)旋轉(zhuǎn)以背向用戶的嘴的使用情形)。圖17到19展示應(yīng)用于圖12的記錄的不同話音檢測(cè)策略的實(shí)例。這些圖的頂部繪圖指示時(shí)域中的輸入信號(hào)以及通過(guò)組合個(gè)別VAD結(jié)果中的兩者或兩者以上而產(chǎn)生的二進(jìn)制檢測(cè)結(jié)果。這些圖的其它繪圖中的每一者指示VAD統(tǒng)計(jì)的時(shí)域波形、用于對(duì)應(yīng)檢測(cè)器的閾值(由每一繪圖中的水平線指示)以及所得的二進(jìn)制檢測(cè)決策。從上到下,圖17中的繪圖展示㈧使用來(lái)自其它繪圖的所有檢測(cè)結(jié)果的組合的全局VAD策略;(B)基于麥克風(fēng)間相位差與500到2500Hz頻帶上的頻率的相關(guān)的VAD策略(不具有拖尾);(C)基于由O到8000Hz頻帶上的麥克風(fēng)間增益差指示的接近度決策的VAD策略(不具有拖尾);⑶基于由在500到8000Hz頻帶上的譜圖交叉頻率連續(xù)性指示的語(yǔ)音起始的檢測(cè)(例如,方法MlOO的實(shí)施方案)的VAD策略;以及(E)基于由500到8000 Hz頻帶上的譜圖交叉頻率連續(xù)性指示的語(yǔ)音截止的檢測(cè)(例如,方法MlOO的另一實(shí)施方案)的VAD策略。圖17的底部處的箭頭指示由基于相位的VAD指示的若干錯(cuò)誤肯定的在時(shí)間上的位置。圖18與圖17的不同之處在于,在圖18的頂部繪圖中所示的二進(jìn)制檢測(cè)結(jié)果是通過(guò)(在此情況下,使用“或”邏輯)僅組合分別如繪圖B和C中所示的基于相位和基于增益的檢測(cè)結(jié)果而獲得。在圖18的底部處的箭頭指示通過(guò)基于相位的VAD和基于增益的VAD中的任一者未檢測(cè)到的語(yǔ)音截止的在時(shí)間上的位置。圖19與圖17的不同之處在于,在圖19的頂部繪圖中所示的二進(jìn)制檢測(cè)結(jié)果是通過(guò)(在此情況下,使用“或”邏輯)僅組合分別如繪圖B中所示的基于增益的檢測(cè)結(jié)果和如繪圖D和E中所示的起始/截止檢測(cè)結(jié)果而獲得,且基于相位的VAD和基于增益的VAD兩者經(jīng)配置以包含拖尾。在此情況下,由于圖16中指示的多個(gè)錯(cuò)誤肯定而丟棄來(lái)自基于相位的VAD的結(jié)果。通過(guò)組合語(yǔ)音起始/截止VAD結(jié)果與基于增益的VAD結(jié)果,基于增益的VAD的拖尾減少,且無(wú)需基于相位的VAD。雖然此記錄還包含遠(yuǎn)場(chǎng)干擾語(yǔ)音,但近場(chǎng)語(yǔ)音起始/截 止檢測(cè)器適當(dāng)?shù)厥Ф粰z測(cè)此遠(yuǎn)場(chǎng)干擾語(yǔ)音,因?yàn)檫h(yuǎn)場(chǎng)語(yǔ)音往往缺乏突出的高頻信息。高頻信息對(duì)于語(yǔ)音可理解性可為重要的。因?yàn)榭諝忸愃朴诘屯V波器而作用于行進(jìn)經(jīng)過(guò)空氣的聲音,所以由麥克風(fēng)拾取的高頻信息的量將通常隨著聲源與麥克風(fēng)之間的距離增加而減小。類似地,低能量語(yǔ)音往往隨著所需說(shuō)話者與麥克風(fēng)之間的距離增加而變?yōu)槁袢胗诒尘霸肼曋小H欢?,如本文中參考方法Ml 00描述的在高頻范圍上相干的若干能量激活的指示符可用以跟蹤近場(chǎng)語(yǔ)音,即使在可能使低頻語(yǔ)音特性模糊的噪聲的存在下也是如此,因?yàn)榇烁哳l特征仍可以在經(jīng)記錄的譜中可檢測(cè)到。圖20展示埋入于街道噪聲中的近場(chǎng)語(yǔ)音的多通道記錄的譜圖,且圖21到23展示應(yīng)用于圖20的記錄的不同話音檢測(cè)策略的實(shí)例。這些圖的頂部繪圖指示時(shí)域中的輸入信號(hào)以及通過(guò)組合個(gè)別VAD結(jié)果中的兩者或兩者以上而產(chǎn)生的二進(jìn)制檢測(cè)結(jié)果。這些圖的其它繪圖中的每一者指示VAD統(tǒng)計(jì)的時(shí)域波形、用于對(duì)應(yīng)檢測(cè)器的閾值(由每一繪圖中的水平線指示)以及所得的二進(jìn)制檢測(cè)決策。圖21展示可如何使用語(yǔ)音起始和/或截止檢測(cè)來(lái)補(bǔ)充基于增益和基于相位的VAD的實(shí)例。左邊的箭頭群組指示僅由語(yǔ)音截止VAD檢測(cè)到的語(yǔ)音截止,且右邊的箭頭群組指示僅由語(yǔ)音起始VAD檢測(cè)到的語(yǔ)音起始(在低SNR中發(fā)音“to”和“pure”的起始)。圖22說(shuō)明僅無(wú)拖尾的基于相位和基于增益的VAD(繪圖B和C)的組合(繪圖A)頻繁地錯(cuò)失可使用起始/截止統(tǒng)計(jì)(繪圖D和E)檢測(cè)到的低能量語(yǔ)音特征。圖23的繪圖A說(shuō)明組合來(lái)自所有四個(gè)個(gè)別檢測(cè)器的結(jié)果(圖23的繪圖B到E,所有檢測(cè)器上均具有拖尾)支持準(zhǔn)確的截止檢測(cè),從而允許對(duì)基于增益和基于相位的VAD使用較小的拖尾,同時(shí)還正確地檢測(cè)單詞起始??赡芷谕褂迷捯艋顒?dòng)檢測(cè)(VAD)操作的結(jié)果以用于噪聲減少和/或抑制。在一個(gè)此實(shí)例中,將VAD信號(hào)作為增益控制應(yīng)用于通道中的一者或一者以上(例如,以衰減噪聲頻率分量和/或片段)。在另一此實(shí)例中,應(yīng)用VAD信號(hào)以計(jì)算(例如,更新)針對(duì)基于經(jīng)更新噪聲估計(jì)的多通道信號(hào)的至少一個(gè)通道上的噪聲減少操作的噪聲估計(jì)(例如,使用已通過(guò)VAD操作分類為噪聲的頻率分量或片段)。此噪聲減少操作的實(shí)例包含譜減法操作和維納(Wiener)濾波操作??膳c本文揭示的VAD策略一起使用的處理后操作(例如,殘余噪聲抑制、噪聲估計(jì)組合)的另外實(shí)例在第61/406,382號(hào)美國(guó)專利申請(qǐng)案(辛(Shin)等人,2010年10月25日申請(qǐng))中描述。典型環(huán)境中的聲學(xué)噪聲可包含混串音噪聲、機(jī)場(chǎng)噪聲、街道噪聲、競(jìng)爭(zhēng)性講話者的話音和/或來(lái)自干擾源(例如,電視機(jī)或廣播)的聲音。因此,此噪聲通常是非靜止的且可具有接近于用戶自身話音的譜的平均譜。根據(jù)單個(gè)麥克風(fēng)信號(hào)計(jì)算的噪聲功率參考信號(hào)通常僅是近似的靜止噪聲估計(jì)。而且,此計(jì)算通常帶來(lái)噪聲功率估計(jì)延遲,使得僅可在顯著延遲之后執(zhí)行子帶增益的對(duì)應(yīng)調(diào)整??赡芷谕@得環(huán)境噪聲的可靠且同時(shí)期的估計(jì)。噪聲估計(jì)的實(shí)例包含基于單通道VAD的單通道長(zhǎng)期估計(jì)以及由多通道BSS濾波器產(chǎn)生的噪聲參考。通過(guò)使用來(lái)自接近度檢測(cè)操作的(雙通道)信息以分類主要麥克風(fēng)通道的分量和/或片段,可計(jì)算單通道噪聲參考。此噪聲估計(jì)可能比其它方法快得多地可用,因?yàn)槠洳恍枰L(zhǎng)期估計(jì)。此單通道噪聲參考也可俘獲非靜止噪聲,這不同于基于長(zhǎng)期估計(jì)的方法,基于長(zhǎng)期估計(jì)的方法通常不能支持非靜止噪聲的移除。此方法可提供快速、準(zhǔn)確且非靜止的噪聲參考。噪聲參考可經(jīng)平滑(例如,可能在每一頻率分量上使用一級(jí)平滑器)。接近度檢測(cè)的使用可使得裝置能夠使用此方法來(lái)抑制附近的瞬態(tài),例如傳遞到方向性掩蔽功 能的前瓣中的汽車噪聲聲音。如本文描述的VAD指示可用以支持噪聲參考信號(hào)的計(jì)算。舉例來(lái)說(shuō),當(dāng)VAD指示指示了一個(gè)幀是噪聲時(shí),可使用所述幀來(lái)更新噪聲參考信號(hào)(例如,主要麥克風(fēng)通道的噪聲分量的譜分布)??稍陬l域中例如通過(guò)對(duì)頻率分量值進(jìn)行時(shí)間平滑(例如,通過(guò)用當(dāng)前噪聲估計(jì)的對(duì)應(yīng)分量的值更新每一分量的先前值)來(lái)執(zhí)行此更新。在一個(gè)實(shí)例中,維納濾波器使用噪聲參考信號(hào)來(lái)對(duì)主要麥克風(fēng)通道執(zhí)行噪聲減少操作。在另一實(shí)例中,譜減法操作使用噪聲參考信號(hào)來(lái)對(duì)主要麥克風(fēng)通道執(zhí)行噪聲減少操作(例如,通過(guò)從主要麥克風(fēng)通道減去噪聲譜)。當(dāng)VAD指示指示了一個(gè)幀不是噪聲時(shí),可使用所述幀來(lái)更新主要麥克風(fēng)通道的信號(hào)分量的譜分布,所述分布也可由維納濾波器使用以執(zhí)行噪聲減少操作。所得操作可被視為利用雙通道VAD操作的準(zhǔn)單通道噪聲減少算法。如上文描述的自適應(yīng)拖尾可用于聲碼器上下文中以提供語(yǔ)音片段與噪聲之間的更準(zhǔn)確區(qū)分,同時(shí)在語(yǔ)音間隔期間維持連續(xù)檢測(cè)結(jié)果。然而,在另一上下文中,可能期望允許VAD結(jié)果的較快速轉(zhuǎn)變(例如,以消除拖尾),即使此動(dòng)作致使VAD結(jié)果在同一語(yǔ)音間隔內(nèi)改變狀態(tài)也是如此。舉例來(lái)說(shuō),在噪聲減少上下文中,可能期望基于話音活動(dòng)檢測(cè)器識(shí)別為噪聲的片段來(lái)計(jì)算噪聲估計(jì),且使用所計(jì)算得的噪聲估計(jì)來(lái)對(duì)語(yǔ)音信號(hào)執(zhí)行噪聲減少操作(例如,維納濾波或其它譜減法操作)。在此情況下,可能期望配置檢測(cè)器以獲得較準(zhǔn)確的分段(例如,基于逐個(gè)幀),即使此調(diào)諧致使VAD信號(hào)在用戶正講話時(shí)改變狀態(tài)也是如此。方法MlOO的實(shí)施方案可單獨(dú)地或與一個(gè)或一個(gè)以上其它VAD技術(shù)組合地經(jīng)配置以針對(duì)信號(hào)的每一片段產(chǎn)生二進(jìn)制檢測(cè)結(jié)果(例如,針對(duì)話音的高或“1”,否則為低或“O”)?;蛘?,方法MlOO的實(shí)施方案可單獨(dú)地或與一個(gè)或一個(gè)以上其它VAD技術(shù)組合地經(jīng)配置以針對(duì)每一片段產(chǎn)生一個(gè)以上檢測(cè)結(jié)果。舉例來(lái)說(shuō),可使用語(yǔ)音起始和/或截止的檢測(cè)來(lái)獲得時(shí)間-頻率VAD技術(shù),其基于跨越片段的不同頻率子帶的起始和/或截止連續(xù)性來(lái)個(gè)別地表征所述頻帶。在此情況下,可使用上文提到的子帶劃分方案中的任一者(例如,均勻、巴克尺度、梅爾尺度),且可針對(duì)每一子帶執(zhí)行任務(wù)T500和T600的實(shí)例。對(duì)于不均勻的子帶劃分方案,可能期望任務(wù)T500的每一子帶實(shí)例正規(guī)化(例如,平均化)針對(duì)對(duì)應(yīng)子帶的激活的數(shù)目,使得(舉例來(lái)說(shuō))任務(wù)T600的每一子帶實(shí)例可使用相同閾值(例如,用于起始的O. 7、用于截止的-O. 15)。舉例來(lái)說(shuō),此子帶VAD技術(shù)可指示給定片段在500到IOOOHz頻帶中載運(yùn)語(yǔ)音,在1000到1200Hz頻帶中載運(yùn)噪聲,且在1200到2000 Hz頻帶中載運(yùn)語(yǔ)音??蓱?yīng)用這些結(jié)果以增加譯碼效率和/或噪聲減少性能。還可能期望此子帶VAD技術(shù)在各種子帶中的每一者中使用獨(dú)立的拖尾邏輯(以及可能不同的拖尾間隔)。在子帶VAD技術(shù)中,如本文描述的拖尾周期的調(diào)適可在各種子帶中的每一者中獨(dú)立地執(zhí)行。經(jīng)組合VAD技術(shù)的子帶實(shí)施方案可包含組合每一個(gè)別檢測(cè)器的子帶結(jié)果,或者可包含組合來(lái)自少于全部檢測(cè)器(可能僅一個(gè))的子帶結(jié)果與來(lái)自其它檢測(cè)器的片段級(jí)結(jié)果。在基于相位的VAD的一個(gè)實(shí)例中,在每一頻率分量處應(yīng)用方向性掩蔽功能以確定所述頻率處的相位差是否對(duì)應(yīng)于在所需范圍內(nèi)的方向,且根據(jù)在受測(cè)頻率范圍上的此掩蔽的結(jié)果來(lái)計(jì)算相干性測(cè)量且將其與閾值進(jìn)行比較以獲得二進(jìn)制VAD指示。此方法可包含將每一頻率處的相位差轉(zhuǎn)換為不依賴于頻率的方向指示符,例如到達(dá)方向或到達(dá)時(shí)間差(例 如,使得可在所有頻率處使用單個(gè)方向性掩蔽功能)?;蛘撸朔椒砂瑢⒉煌南鄳?yīng)掩蔽功能應(yīng)用于在每一頻率處觀察到的相位差。在基于相位的VAD的另一實(shí)例中,基于在受測(cè)頻率范圍中的個(gè)別頻率分量的到達(dá)方向的分布形狀(例如,個(gè)別DOA經(jīng)分組在一起的緊密程度)來(lái)計(jì)算相干性測(cè)量。在任一情況下,可能期望僅基于作為當(dāng)前音高估計(jì)的倍數(shù)的頻率來(lái)在相位VAD中計(jì)算相干性測(cè)量。舉例來(lái)說(shuō),對(duì)于待檢查的每一頻率分量,基于相位的檢測(cè)器可經(jīng)配置以將相位估計(jì)為對(duì)應(yīng)FFT系數(shù)的虛數(shù)項(xiàng)與FFT系數(shù)的實(shí)數(shù)項(xiàng)的比率的反正切(也稱為反切)。可能期望配置基于相位的話音活動(dòng)檢測(cè)器以確定在寬帶頻率范圍上每一對(duì)通道之間的方向相干性。此寬帶范圍可例如從0、50、100或200Hz的低頻界限延伸到3、3. 5或4kHz (或甚至更高,例如高達(dá)7或8 kHz或更高)的高頻界限。然而,檢測(cè)器可能不必計(jì)算信號(hào)的整個(gè)帶寬上的相位差。舉例來(lái)說(shuō),對(duì)于此寬帶范圍中的許多頻帶,相位估計(jì)可為不實(shí)際的或不必要的。所接收波形在極低頻率處的相位關(guān)系的實(shí)際評(píng)價(jià)通常需要變換器之間的對(duì)應(yīng)較大的間距。因此,麥克風(fēng)之間的最大可用間距可確立低頻界限。另一方面,麥克風(fēng)之間的距離不應(yīng)超過(guò)最小波長(zhǎng)的一半以便避免空間混疊。舉例來(lái)說(shuō),八千赫的取樣速率給出從零到四千赫的帶寬。4 kHz信號(hào)的波長(zhǎng)為約8. 5厘米,因此在此情況下,鄰近的麥克風(fēng)之間的間距不應(yīng)超過(guò)約四厘米??蓪?duì)麥克風(fēng)通道進(jìn)行低通濾波以便移除可能帶來(lái)空間混疊的頻率。可能期望定目標(biāo)于特定頻率分量或特定頻率范圍,語(yǔ)音信號(hào)(或其它所需信號(hào))在所述特定頻率范圍上可預(yù)期為方向上相干的??深A(yù)期例如方向性噪聲(例如,來(lái)自例如汽車等源)和/或漫射噪聲等背景噪聲在同一范圍上將不是方向上相干的。語(yǔ)音在從四千赫到八千赫的范圍中往往具有低功率,因此可能期望在至少此范圍上放棄相位估計(jì)。舉例來(lái)說(shuō),可能期望在從約七百赫茲到約兩千赫的范圍上執(zhí)行相位估計(jì)和確定方向相干性。因此,可能期望配置檢測(cè)器以針對(duì)少于全部的頻率分量(例如,針對(duì)FFT的少于全部的頻率樣本)計(jì)算相位估計(jì)。在一個(gè)實(shí)例中,檢測(cè)器針對(duì)700Hz到2000Hz的頻率范圍計(jì)算相位估計(jì)。對(duì)于四千赫帶寬信號(hào)的128點(diǎn)FFT,700到2000Hz的范圍大致對(duì)應(yīng)于從第十個(gè)樣本到第三十二個(gè)樣本的23個(gè)頻率樣本。還可能期望配置檢測(cè)器以僅考慮對(duì)應(yīng)于信號(hào)的當(dāng)前音高估計(jì)的倍數(shù)的頻率分量的相位差。基于相位的檢測(cè)器可經(jīng)配置以基于來(lái)自所計(jì)算得的相位差的信息來(lái)評(píng)估通道對(duì)的方向相干性。將多通道信號(hào)的“方向相干性”界定為信號(hào)的各種頻率分量從同一方向到
      達(dá)的程度。對(duì)于理想的方向上相干的通道對(duì),f的值針對(duì)所有頻率均等于常數(shù)k,其中k的
      值與到達(dá)方向Θ和到達(dá)時(shí)間延遲τ相關(guān)??衫缤ㄟ^(guò)針對(duì)每一頻率分量根據(jù)其與特定方向一致的程度(例如,由方向性掩蔽功能指示)將所估計(jì)的到達(dá)方向分級(jí)(也可由相位差與頻率的比率或由到達(dá)時(shí)間延遲來(lái)指示),且隨后組合各種頻率分量的分級(jí)結(jié)果以獲得信號(hào)的相干性測(cè)量,來(lái)量化多通道信號(hào)的方向相干性??赡芷谕a(chǎn)生相干性測(cè)量作為經(jīng)時(shí)間平滑的值(例如,使用時(shí)間平滑功能計(jì)算相干性測(cè)量)。可將相干性測(cè)量的對(duì)比表達(dá)為相干性測(cè)量的當(dāng)前值與相干性測(cè)量的隨著時(shí)間的平均值(例如,在最近十個(gè)、二十個(gè)、五十個(gè)或一百個(gè)幀上的平均、模式或中值)之間的關(guān)系的值(例如,差或比率)??墒褂脮r(shí)間平滑功能來(lái)計(jì)算相干性測(cè)量的平均值。基于相位 的VAD技術(shù),包含方向相干性的測(cè)量的計(jì)算和應(yīng)用,還在例如第2010/0323652 Al號(hào)和第2011/038489 Al號(hào)美國(guó)公開(kāi)專利申請(qǐng)案(維瑟(Visser)等人)中描述。基于增益的VAD技術(shù)可經(jīng)配置以基于每一通道的增益測(cè)量的對(duì)應(yīng)值之間的差來(lái)指示片段中的話音活動(dòng)的存在或不存在。此增益測(cè)量(可在時(shí)域中或在頻域中計(jì)算)的實(shí)例包含總量值、平均量值、RMS振幅、中值量值、峰值量值、總能量以及平均能量??赡芷谕渲脵z測(cè)器以對(duì)增益測(cè)量和/或所計(jì)算得的差執(zhí)行時(shí)間平滑操作。如上所述,基于增益的VAD技術(shù)可經(jīng)配置以產(chǎn)生片段級(jí)結(jié)果(例如,在所需頻率范圍上)或者針對(duì)每一片段的多個(gè)子帶中的每一者的結(jié)果。通道之間的增益差可用于接近度檢測(cè),其可支持較激進(jìn)的近場(chǎng)/遠(yuǎn)場(chǎng)區(qū)分,例如較好的前方噪聲抑制(例如,對(duì)在用戶前方的干擾性說(shuō)話者的抑制)。取決于麥克風(fēng)之間的距離,經(jīng)平衡的麥克風(fēng)通道之間的增益差將通常僅在源處于五十厘米或一米以內(nèi)的情況下出現(xiàn)?;谠鲆娴腣AD技術(shù)可經(jīng)配置以檢測(cè)當(dāng)通道的增益之間的差大于閾值時(shí)片段是來(lái)自所需源(例如,以指示話音活動(dòng)的檢測(cè))。所述閾值可試探性地來(lái)確定,且可能期望取決于例如信噪比(SNR)、噪聲底限等一個(gè)或一個(gè)以上因數(shù)而使用不同的閾值(例如,當(dāng)SNR較低時(shí)使用較高閾值)?;谠鲆娴腣AD技術(shù)還在第2010/0323652 Al號(hào)美國(guó)公開(kāi)專利申請(qǐng)案(維瑟(Visser)等人)中描述。還應(yīng)注意,經(jīng)組合檢測(cè)器中的個(gè)別檢測(cè)器中的一者或一者以上可經(jīng)配置以在與所述個(gè)別檢測(cè)器中的另一者不同的時(shí)間尺度上產(chǎn)生結(jié)果。舉例來(lái)說(shuō),當(dāng)η小于m時(shí),基于增益的、基于相位的或起始-截止檢測(cè)器可經(jīng)配置以針對(duì)具有長(zhǎng)度η的每一片段產(chǎn)生VAD指示,以與來(lái)自經(jīng)配置以針對(duì)具有長(zhǎng)度m的每一片段產(chǎn)生VAD指示的基于增益的、基于相位的或起始-截止檢測(cè)器的結(jié)果相組合。區(qū)別語(yǔ)音有效幀與語(yǔ)音無(wú)效幀的話音活動(dòng)檢測(cè)(VAD)是語(yǔ)音增強(qiáng)和語(yǔ)音譯碼的重要部分。如上所述,單通道VAD的實(shí)例包含基于SNR的VAD、基于似然比的VAD以及基于語(yǔ)音起始/截止的VAD,且雙通道VAD技術(shù)的實(shí)例包含基于相位差的VAD和基于增益差(也稱為基于接近度)的VAD。雖然雙通道VAD大體上比單通道技術(shù)更準(zhǔn)確,但其通常高度依賴于麥克風(fēng)增益失配和/或用戶正固持電話的角度。圖24展示針對(duì)6 dB SNR的基于接近度的VAD測(cè)試統(tǒng)計(jì)對(duì)基于相位差的VAD測(cè)試統(tǒng)計(jì)的散布繪圖,其中固持角度為與水平方向成-30、-50、-70和-90度。在圖24和圖27到29中,灰點(diǎn)對(duì)應(yīng)于語(yǔ)音有效幀,而黑點(diǎn)對(duì)應(yīng)于語(yǔ)音無(wú)效幀。對(duì)于基于相位差的VAD,在此實(shí)例中使用的測(cè)試統(tǒng)計(jì)是所估計(jì)DoA在觀看方向范圍中的頻率區(qū)間的平均數(shù)目(也稱為相位相干性測(cè)量),且對(duì)于基于量值差的VAD,在此實(shí)例中使用的測(cè)試統(tǒng)計(jì)是主要麥克風(fēng)與次要麥克風(fēng)之間的對(duì)數(shù)RMS電平差。圖24證明為何固定閾值可能不適合于不同的固持角度。便攜式音頻感測(cè)裝置(例如,頭戴式耳機(jī)或手持機(jī))的用戶在相對(duì)于用戶的嘴的并非最佳的定向(也稱為固持位置或固持角度)上使用裝置且/或在裝置使用期間改變固持角度是常見(jiàn)的事。此固持角度變化可能不利地影響VAD級(jí)的性能。解決可變的固持角度的一種方法是檢測(cè)固持角度(例如,使用到達(dá)方向(DoA)估計(jì),其可基于相位差或到達(dá)時(shí)間差(TDOA),和/或麥克風(fēng)之間的增益差)。可替代地或另外使用的解決可變的固持角度的另一方法是將VAD測(cè)試統(tǒng)計(jì)正規(guī)化。此方法可經(jīng)實(shí)施為具有 使VAD閾值成為與固持角度相關(guān)的統(tǒng)計(jì)的函數(shù)的作用,而無(wú)需明確地估計(jì)固持角度。對(duì)于在線處理,可利用基于最小統(tǒng)計(jì)的方法。提出基于最大和最小統(tǒng)計(jì)跟蹤的VAD測(cè)試統(tǒng)計(jì)的正規(guī)化以最大化區(qū)別能力,即使對(duì)于其中固持角度變化且麥克風(fēng)的增益響應(yīng)未良好匹配的情形也是如此。先前用于噪聲功率譜估計(jì)算法的最小統(tǒng)計(jì)算法在此處適用于最小和最大經(jīng)平滑測(cè)試統(tǒng)計(jì)跟蹤。對(duì)于最大測(cè)試統(tǒng)計(jì)跟蹤,同一算法用于(20測(cè)試統(tǒng)計(jì))的輸入。舉例來(lái)說(shuō),最大測(cè)試統(tǒng)計(jì)跟蹤可使用同一算法從最小統(tǒng)計(jì)跟蹤方法導(dǎo)出,使得可能期望從參考點(diǎn)(例如,20 dB)減去最大測(cè)試統(tǒng)計(jì)。隨后,可使測(cè)試統(tǒng)計(jì)扭曲以使最小經(jīng)平滑統(tǒng)計(jì)值為零且最大經(jīng)平滑統(tǒng)計(jì)值為一,如下
      L ^MAX xjIiiin J其中St表示輸入測(cè)試統(tǒng)計(jì),S;表示經(jīng)正規(guī)化測(cè)試統(tǒng)計(jì),Smin表示所跟蹤的最小經(jīng)平滑測(cè)試統(tǒng)計(jì),Smax表示所跟蹤的最大經(jīng)平滑測(cè)試統(tǒng)計(jì),且ξ表示原始(固定)閾值。應(yīng)注意,經(jīng)正規(guī)化測(cè)試統(tǒng)計(jì)St'可歸因于平滑而具有在
      范圍之外的值。明確預(yù)期且特此揭示,表達(dá)式(NI)中所示的決策規(guī)則可使用未經(jīng)正規(guī)化測(cè)試統(tǒng)計(jì)St與自適應(yīng)閾值來(lái)等效地實(shí)施,如下
      S, ^ [Cl=(SMAX-Smin) c+ Smm], (Ν2)其中(SMX_Smin) ξ +Smin表示自適應(yīng)閾值ξ ’,其等效于使用固定閾值ξ與經(jīng)正規(guī)化測(cè)試統(tǒng)計(jì)St'。雖然基于相位差的VAD通常不受麥克風(fēng)的增益響應(yīng)的差影響,但基于增益差的VAD通常對(duì)此失配高度敏感。此方案的潛在額外益處在于,經(jīng)正規(guī)化測(cè)試統(tǒng)計(jì)St'獨(dú)立于麥克風(fēng)增益校準(zhǔn)。舉例來(lái)說(shuō),如果次要麥克風(fēng)的增益響應(yīng)比正常高ldB,那么當(dāng)前測(cè)試統(tǒng)計(jì)St以及最大統(tǒng)計(jì)Smax和最小統(tǒng)計(jì)Smin將低I dB。因此,經(jīng)正規(guī)化測(cè)試統(tǒng)計(jì)St'將相同。圖25展示針對(duì)6dB SNR的基于接近度的VAD測(cè)試統(tǒng)計(jì)的所跟蹤最小(黑,下部軌跡)和最大(灰,上部軌跡)測(cè)試統(tǒng)計(jì),其中固持角度為與水平方向成-30、-50、-70和-90度。圖26展示針對(duì)6dB SNR的基于相位的VAD測(cè)試統(tǒng)計(jì)的所跟蹤最小(黑,下部軌跡)和最大(灰,上部軌跡)測(cè)試統(tǒng)計(jì),其中固持角度為與水平方向成-30、-50、-70和-90度。圖27展示根據(jù)等式(NI)正規(guī)化的這些測(cè)試統(tǒng)計(jì)的散布繪圖。每一繪圖中的兩條灰線和三條黑線指示針對(duì)兩個(gè)不同VAD閾值的可能建議(具有一種色彩的所有線的右上側(cè)被視為語(yǔ)音有效幀),所述閾值被設(shè)定為針對(duì)全部四個(gè)固持角度為相同的。等式(NI)中的正規(guī)化的一個(gè)問(wèn)題在于,雖然整個(gè)分布經(jīng)良好正規(guī)化,但僅噪聲間隔(黑點(diǎn))的經(jīng)正規(guī)化得分方差針對(duì)較窄未經(jīng)正規(guī)化測(cè)試統(tǒng)計(jì)范圍的情況相對(duì)增加。舉例來(lái)說(shuō),圖27展示黑點(diǎn)群集隨著固持角度從-30度改變到-90度而分散??墒褂萌缦碌男薷膩?lái)控制此分散
      權(quán)利要求
      1.一種處理音頻信號(hào)的方法,所述方法包括 針對(duì)所述音頻信號(hào)的第一多個(gè)連續(xù)片段中的每一者,確定所述片段中存在話音活動(dòng); 針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之后立即出現(xiàn)的所述音頻信號(hào)的第二多個(gè)連續(xù)片段中的每一者,確定所述片段中不存在話音活動(dòng); 檢測(cè)在所述第二多個(gè)連續(xù)片段當(dāng)中的不是將在所述第二多者當(dāng)中出現(xiàn)的第一片段的一個(gè)片段期間出現(xiàn)所述音頻信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變;以及 產(chǎn)生話音活動(dòng)檢測(cè)信號(hào),其針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段具有指示活動(dòng)和缺乏活動(dòng)當(dāng)中的一者的對(duì)應(yīng)值, 其中針對(duì)所述第一多個(gè)連續(xù)片段中的每一者,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng),且 其中針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之前出現(xiàn)的每一者,且基于所述針對(duì)所述第一多者中的至少一個(gè)片段確定所述片段中存在話音活動(dòng),所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng),且 其中針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之后出現(xiàn)的每一者,且響應(yīng)于所述檢測(cè)到出現(xiàn)所述音頻信號(hào)的語(yǔ)音活動(dòng)狀態(tài)的轉(zhuǎn)變,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示缺乏活動(dòng)。
      2.根據(jù)權(quán)利要求I所述的方法,其中所述方法包括計(jì)算在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間的第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù),且其中所述檢測(cè)在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間出現(xiàn)所述轉(zhuǎn)變是基于所述所計(jì)算得的能量的時(shí)間導(dǎo)數(shù)。
      3.根據(jù)權(quán)利要求2所述的方法,其中所述檢測(cè)出現(xiàn)所述轉(zhuǎn)變包含針對(duì)所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量的時(shí)間導(dǎo)數(shù),產(chǎn)生所述頻率分量是否為活動(dòng)的對(duì)應(yīng)指示,且 其中所述檢測(cè)出現(xiàn)所述轉(zhuǎn)變是基于指示所述對(duì)應(yīng)頻率分量為活動(dòng)的所述指示的數(shù)目與第一閾值之間的關(guān)系。
      4.根據(jù)權(quán)利要求3所述的方法,其中所述方法包括針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的片段 計(jì)算在所述片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù); 針對(duì)所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量的時(shí)間導(dǎo)數(shù),產(chǎn)生所述頻率分量是否為活動(dòng)的對(duì)應(yīng)指示;以及 基于(A)指示所述對(duì)應(yīng)頻率分量為活動(dòng)的所述指示的數(shù)目與(B)高于所述第一閾值的第二閾值之間的關(guān)系,確定在所述片段期間不出現(xiàn)所述音頻信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變。
      5.根據(jù)權(quán)利要求3所述的方法,其中所述方法包括針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的片段 針對(duì)在所述片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者,計(jì)算能量相對(duì)于時(shí)間的二階導(dǎo)數(shù); 針對(duì)所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量相對(duì)于時(shí)間的二階導(dǎo)數(shù),產(chǎn)生所述頻率分量是否為脈沖性的對(duì)應(yīng)指示;以及基于指示所述對(duì)應(yīng)頻率分量為脈沖性的所述指示的數(shù)目與閾值之間的關(guān)系,確定在所述片段期間不出現(xiàn)所述音頻信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變。
      6.根據(jù)權(quán)利要求I所述的方法,其中針對(duì)所述音頻信號(hào)的所述第一多個(gè)連續(xù)片段中的每一者,所述確定所述片段中存在話音活動(dòng)是基于在所述片段期間的所述音頻信號(hào)的第一通道與在所述片段期間的所述音頻信號(hào)的第二通道之間的差,且 其中針對(duì)所述音頻信號(hào)的所述第二多個(gè)連續(xù)片段中的每一者,所述確定所述片段中不存在話音活動(dòng)是基于在所述片段期間的所述音頻信號(hào)的第一通道與在所述片段期間的所述音頻信號(hào)的第二通道之間的差。
      7.根據(jù)權(quán)利要求6所述的方法,其中針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段,所述差為在所述片段期間的所述第一通道的電平與所述第二通道的電平之間的差。
      8.根據(jù)權(quán)利要求6所述的方法,其中針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段,所述差為在所述片段期間的所述第一通道中的信號(hào)的實(shí)例與在所述片段期間的所述第二通道中的所述信號(hào)的實(shí)例之間的時(shí)間差。
      9.根據(jù)權(quán)利要求6所述的方法,其中針對(duì)所述第一多者中的每一片段,所述確定所述片段中存在話音活動(dòng)包括針對(duì)在所述片段期間的所述音頻信號(hào)的第一多個(gè)不同頻率分量中的每一者,計(jì)算所述第一通道中的所述頻率分量的相位與所述第二通道中的所述頻率分量的相位之間的差,其中在所述片段期間的所述第一通道與在所述片段期間的所述第二通道之間的所述差為所述所計(jì)算得的相位差中的一者,且 其中針對(duì)所述第二多者中的每一片段,所述確定所述片段中不存在話音活動(dòng)包括針對(duì)在所述片段期間的所述音頻信號(hào)的所述第一多個(gè)不同頻率分量中的每一者,計(jì)算所述第一通道中的所述頻率分量的相位與所述第二通道中的所述頻率分量的相位之間的差,其中在所述片段期間的所述第一通道與在所述片段期間的所述第二通道之間的所述差為所述所計(jì)算得的相位差中的一者。
      10.根據(jù)權(quán)利要求9所述的方法,其中所述方法包括計(jì)算在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間的所述第一通道的第二多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù),且 其中所述檢測(cè)在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間出現(xiàn)所述轉(zhuǎn)變是基于所述所計(jì)算得的能量的時(shí)間導(dǎo)數(shù),且 其中包含所述第一多個(gè)頻率分量的頻帶與包含所述第二多個(gè)頻率分量的頻帶分離。
      11.根據(jù)權(quán)利要求9所述的方法,其中針對(duì)所述第一多者中的每一片段,所述確定所述片段中存在話音活動(dòng)是基于指示至少所述多個(gè)不同頻率分量的到達(dá)方向之間的相干性程度的相干性測(cè)量的對(duì)應(yīng)值,其中所述值是基于來(lái)自所述對(duì)應(yīng)多個(gè)所計(jì)算得的相位差的信息,且 其中針對(duì)所述第二多者中的每一片段,所述確定所述片段中不存在話音活動(dòng)是基于指示至少所述多個(gè)不同頻率分量的所述到達(dá)方向之間的相干性程度的所述相干性測(cè)量的對(duì)應(yīng)值,其中所述值是基于來(lái)自所述對(duì)應(yīng)多個(gè)所計(jì)算得的相位差的信息。
      12.一種用于處理音頻信號(hào)的設(shè)備,所述設(shè)備包括 用于針對(duì)所述音頻信號(hào)的第一多個(gè)連續(xù)片段中的每一者確定所述片段中存在話音活動(dòng)的裝置; 用于針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之后立即出現(xiàn)的所述音頻信號(hào)的第二多個(gè)連續(xù)片段中的每一者確定所述片段中不存在話音活動(dòng)的裝置; 用于檢測(cè)在所述第二多個(gè)連續(xù)片段當(dāng)中的一個(gè)片段期間出現(xiàn)所述音頻信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變的裝置;以及 用于產(chǎn)生話音活動(dòng)檢測(cè)信號(hào)的裝置,所述話音活動(dòng)檢測(cè)信號(hào)針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段具有指示活動(dòng)和缺乏活動(dòng)當(dāng)中的一者的對(duì)應(yīng)值,且 其中針對(duì)所述第一多個(gè)連續(xù)片段中的每一者,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng),且 其中針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之前出現(xiàn)的每一者,且基于所述針對(duì)所述第一多者中的至少一個(gè)片段確定所述片段中存在話音活動(dòng),所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng),且 其中針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之后出現(xiàn)的每一者,且響應(yīng)于所述檢測(cè)到出現(xiàn)所述音頻信號(hào)的語(yǔ)音活動(dòng)狀態(tài)的轉(zhuǎn)變,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示缺乏活動(dòng)。
      13.根據(jù)權(quán)利要求12所述的設(shè)備,其中所述設(shè)備包括用于計(jì)算在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間的第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù)的裝置,且 其中所述用于檢測(cè)在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間出現(xiàn)所述轉(zhuǎn)變的裝置經(jīng)配置以基于所述所計(jì)算得的能量的時(shí)間導(dǎo)數(shù)來(lái)檢測(cè)所述轉(zhuǎn)變。
      14.根據(jù)權(quán)利要求13所述的設(shè)備,其中所述用于檢測(cè)出現(xiàn)所述轉(zhuǎn)變的裝置包含用于針對(duì)所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量的時(shí)間導(dǎo)數(shù)產(chǎn)生所述頻率分量是否為活動(dòng)的對(duì)應(yīng)指示的裝置,且 其中所述用于檢測(cè)出現(xiàn)所述轉(zhuǎn)變的裝置經(jīng)配置以基于指示所述對(duì)應(yīng)頻率分量為活動(dòng)的所述指示的數(shù)目與第一閾值之間的關(guān)系來(lái)檢測(cè)所述轉(zhuǎn)變。
      15.根據(jù)權(quán)利要求14所述的設(shè)備,其中所述設(shè)備包括 用于針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的片段計(jì)算在所述片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù)的裝置; 用于針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的所述片段的所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量的時(shí)間導(dǎo)數(shù)來(lái)產(chǎn)生所述頻率分量是否為活動(dòng)的對(duì)應(yīng)指示的裝置;以及 用于基于(A)指示所述對(duì)應(yīng)頻率分量為活動(dòng)的所述指示的數(shù)目與(B)高于所述第一閾值的第二閾值之間的關(guān)系來(lái)確定在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的所述片段期間不出現(xiàn)所述音頻信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變的裝置。
      16.根據(jù)權(quán)利要求14所述的設(shè)備,其中所述設(shè)備包括 用于針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的片段計(jì)算在所述片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者的能量相對(duì)于時(shí)間的二階導(dǎo)數(shù)的裝置;用于針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的所述片段的所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量相對(duì)于時(shí)間的二階導(dǎo)數(shù)來(lái)產(chǎn)生所述頻率分量是否為脈沖性的對(duì)應(yīng)指示的裝置;以及 用于基于指示所述對(duì)應(yīng)頻率分量為脈沖性的所述指示的數(shù)目與閾值之間的關(guān)系來(lái)確定在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的所述片段期間不出現(xiàn)所述音頻信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變的裝置。
      17.根據(jù)權(quán)利要求12所述的設(shè)備,其中針對(duì)所述音頻信號(hào)的所述第一多個(gè)連續(xù)片段中的每一者,所述用于確定所述片段中存在話音活動(dòng)的裝置經(jīng)配置以基于在所述片段期間的所述音頻信號(hào)的第一通道與在所述片段期間的所述音頻信號(hào)的第二通道之間的差來(lái)執(zhí)行所述確定,且 其中針對(duì)所述音頻信號(hào)的所述第二多個(gè)連續(xù)片段中的每一者,所述用于確定所述片段中不存在話音活動(dòng)的裝置經(jīng)配置以基于在所述片段期間的所述音頻信號(hào)的第一通道與在所述片段期間的所述音頻信號(hào)的第二通道之間的差來(lái)執(zhí)行所述確定。
      18.根據(jù)權(quán)利要求17所述的設(shè)備,其中針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段,所述差為在所述片段期間的所述第一通道的電平與所述第二通道的電平之間的差。
      19.根據(jù)權(quán)利要求17所述的設(shè)備,其中針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段,所述差為在所述片段期間的所述第一通道中的信號(hào)的實(shí)例與在所述片段期間的所述第二通道中的所述信號(hào)的實(shí)例之間的時(shí)間差。
      20.根據(jù)權(quán)利要求17所述的設(shè)備,其中所述用于確定所述片段中存在話音活動(dòng)的裝置包括用于針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段并且針對(duì)在所述片段期間的所述音頻信號(hào)的第一多個(gè)不同頻率分量中的每一者計(jì)算所述第一通道中的所述頻率分量的相位與所述第二通道中的所述頻率分量的相位之間的差的裝置,其中在所述片段期間的所述第一通道與在所述片段期間的所述第二通道之間的所述差為所述所計(jì)算得的相位差中的一者。
      21.根據(jù)權(quán)利要求20所述的設(shè)備,其中所述設(shè)備包括用于計(jì)算在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間的所述第一通道的第二多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù)的裝置,且 其中所述用于檢測(cè)在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間出現(xiàn)所述轉(zhuǎn)變的裝置經(jīng)配置以基于所述所計(jì)算得的能量的時(shí)間導(dǎo)數(shù)來(lái)檢測(cè)出現(xiàn)所述轉(zhuǎn)變,且 其中包含所述第一多個(gè)頻率分量的頻帶與包含所述第二多個(gè)頻率分量的頻帶分離。
      22.根據(jù)權(quán)利要求20所述的設(shè)備,其中所述用于針對(duì)所述第一多者中的每一片段確定所述片段中存在話音活動(dòng)的裝置經(jīng)配置以基于指示至少所述多個(gè)不同頻率分量的到達(dá)方向之間的相干性程度的相干性測(cè)量的對(duì)應(yīng)值來(lái)確定存在所述話音活動(dòng),其中所述值是基于來(lái)自所述對(duì)應(yīng)多個(gè)所計(jì)算得的相位差的信息,且 其中所述用于針對(duì)所述第二多者中的每一片段確定所述片段中不存在話音活動(dòng)的裝置經(jīng)配置以基于指示至少所述多個(gè)不同頻率分量的所述到達(dá)方向之間的相干性程度的所述相干性測(cè)量的對(duì)應(yīng)值來(lái)確定不存在話音活動(dòng),其中所述值是基于來(lái)自所述對(duì)應(yīng)多個(gè)所計(jì)算得的相位差的信息。
      23.一種用于處理音頻信號(hào)的設(shè)備,所述設(shè)備包括 第一話音活動(dòng)檢測(cè)器,其經(jīng)配置以確定 針對(duì)所述音頻信號(hào)的第一多個(gè)連續(xù)片段中的每一者,所述片段中存在話音活動(dòng),以及 針對(duì)在所述音頻信號(hào)中的所述第一多個(gè)連續(xù)片段之后立即出現(xiàn)的所述音頻信號(hào)的第二多個(gè)連續(xù)片段中的每一者,所述片段中不存在話音活動(dòng); 第二話音活動(dòng)檢測(cè)器,其經(jīng)配置以檢測(cè)在所述第二多個(gè)連續(xù)片段當(dāng)中的一個(gè)片段期間出現(xiàn)所述音頻信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變;以及 信號(hào)產(chǎn)生器,其經(jīng)配置以產(chǎn)生話音活動(dòng)檢測(cè)信號(hào),所述話音活動(dòng)檢測(cè)信號(hào)針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段具有指示活動(dòng)和缺乏活動(dòng)當(dāng)中的一者的對(duì)應(yīng)值, 其中針對(duì)所述第一多個(gè)連續(xù)片段中的每一者,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng),且 其中針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之前出現(xiàn)的每一者,且基于所述針對(duì)所述第一多者中的至少一個(gè)片段確定所述片段中存在話音活動(dòng),所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng),且 其中針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之后出現(xiàn)的每一者,且響應(yīng)于所述檢測(cè)到出現(xiàn)所述音頻信號(hào)的語(yǔ)音活動(dòng)狀態(tài)的轉(zhuǎn)變,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示缺乏活動(dòng)。
      24.根據(jù)權(quán)利要求23所述的設(shè)備,其中所述設(shè)備包括計(jì)算器,所述計(jì)算器經(jīng)配置以計(jì)算在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間的第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù),且 其中所述第二話音活動(dòng)檢測(cè)器經(jīng)配置以基于所述所計(jì)算得的能量的時(shí)間導(dǎo)數(shù)來(lái)檢測(cè)所述轉(zhuǎn)變。
      25.根據(jù)權(quán)利要求24所述的設(shè)備,其中所述第二話音活動(dòng)檢測(cè)器包含比較器,所述比較器經(jīng)配置以針對(duì)所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量的時(shí)間導(dǎo)數(shù)來(lái)產(chǎn)生所述頻率分量是否為活動(dòng)的對(duì)應(yīng)指示,且 其中所述第二話音活動(dòng)檢測(cè)器經(jīng)配置以基于指示所述對(duì)應(yīng)頻率分量為活動(dòng)的所述指示的數(shù)目與第一閾值之間的關(guān)系來(lái)檢測(cè)所述轉(zhuǎn)變。
      26.根據(jù)權(quán)利要求25所述的設(shè)備,其中所述設(shè)備包括 計(jì)算器,其經(jīng)配置以針對(duì)在多通道信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的片段計(jì)算在所述片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù);以及 比較器,其經(jīng)配置以針對(duì)在所述多通道信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的所述片段的所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量的時(shí)間導(dǎo)數(shù)來(lái)產(chǎn)生所述頻率分量是否為活動(dòng)的對(duì)應(yīng)指示, 其中所述第二話音活動(dòng)檢測(cè)器經(jīng)配置以基于(A)指示所述對(duì)應(yīng)頻率分量為活動(dòng)的所述指示的數(shù)目與(B)高于所述第一閾值的第二閾值之間的關(guān)系來(lái)確定在所述多通道信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的所述片段期間不出現(xiàn)所述多通道信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變。
      27.根據(jù)權(quán)利要求25所述的設(shè)備,其中所述設(shè)備包括 計(jì)算器,其經(jīng)配置以針對(duì)在所述多通道信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的片段計(jì)算在所述片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者的能量相對(duì)于時(shí)間的二階導(dǎo)數(shù);以及 比較器,其經(jīng)配置以針對(duì)在所述多通道信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的所述片段的所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量相對(duì)于時(shí)間的二階導(dǎo)數(shù)來(lái)產(chǎn)生所述頻率分量是否為脈沖性的對(duì)應(yīng)指示, 其中所述第二話音活動(dòng)檢測(cè)器經(jīng)配置以基于指示所述對(duì)應(yīng)頻率分量為脈沖性的所述指示的數(shù)目與閾值之間的關(guān)系來(lái)確定在所述多通道信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的所述片段期間不出現(xiàn)所述多通道信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變。
      28.根據(jù)權(quán)利要求23所述的設(shè)備,其中所述第一話音活動(dòng)檢測(cè)器經(jīng)配置以針對(duì)所述音頻信號(hào)的所述第一多個(gè)連續(xù)片段中的每一者基于在所述片段期間的所述音頻信號(hào)的第一通道與在所述片段期間的所述音頻信號(hào)的第二通道之間的差來(lái)確定所述片段中存在話音活動(dòng),且 其中所述第一話音活動(dòng)檢測(cè)器經(jīng)配置以針對(duì)所述音頻信號(hào)的所述第二多個(gè)連續(xù)片段中的每一者基于在所述片段期間的所述音頻信號(hào)的第一通道與在所述片段期間的所述音頻信號(hào)的第二通道之間的差來(lái)確定所述片段中不存在話音活動(dòng)。
      29.根據(jù)權(quán)利要求28所述的設(shè)備,其中針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段,所述差為在所述片段期間的所述第一通道的電平與所述第二通道的電平之間的差。
      30.根據(jù)權(quán)利要求28所述的設(shè)備,其中針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段,所述差為在所述片段期間的所述第一通道中的信號(hào)的實(shí)例與在所述片段期間的所述第二通道中的所述信號(hào)的實(shí)例之間的時(shí)間差。
      31.根據(jù)權(quán)利要求28所述的設(shè)備,其中所述第一話音活動(dòng)檢測(cè)器包含計(jì)算器,所述計(jì)算器經(jīng)配置以針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段并且針對(duì)在所述片段期間的所述多通道信號(hào)的第一多個(gè)不同頻率分量中的每一者計(jì)算所述第一通道中的所述頻率分量的相位與所述第二通道中的所述頻率分量的相位之間的差,其中在所述片段期間的所述第一通道與在所述片段期間的所述第二通道之間的所述差為所述所計(jì)算得的相位差中的一者。
      32.根據(jù)權(quán)利要求31所述的設(shè)備,其中所述設(shè)備包括計(jì)算器,所述計(jì)算器經(jīng)配置以計(jì)算在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間的所述第一通道的第二多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù),且 其中所述第二話音活動(dòng)檢測(cè)器經(jīng)配置以基于所述所計(jì)算得的能量的時(shí)間導(dǎo)數(shù)來(lái)檢測(cè)出現(xiàn)所述轉(zhuǎn)變,且 其中包含所述第一多個(gè)頻率分量的頻帶與包含所述第二多個(gè)頻率分量的頻帶分離。
      33.根據(jù)權(quán)利要求31所述的設(shè)備,其中所述第一話音活動(dòng)檢測(cè)器經(jīng)配置以針對(duì)所述第一多者中的每一片段基于指示至少所述多個(gè)不同頻率分量的到達(dá)方向之間的相干性程度的相干性測(cè)量的對(duì)應(yīng)值來(lái)確定所述片段中存在所述話音活動(dòng),其中所述值是基于來(lái)自所述對(duì)應(yīng)多個(gè)所計(jì)算得的相位差的信息,且其中所述第一話音活動(dòng)檢測(cè)器經(jīng)配置以針對(duì)所述第二多者中的每一片段基于指示至少所述多個(gè)不同頻率分量的所述到達(dá)方向之間的相干性程度的所述相干性測(cè)量的對(duì)應(yīng)值來(lái)確定所述片段中不存在話音活動(dòng),其中所述值是基于來(lái)自所述對(duì)應(yīng)多個(gè)所計(jì)算得的相位差的信息。
      34.一種具有存儲(chǔ)機(jī)器可執(zhí)行指令的有形結(jié)構(gòu)的計(jì)算機(jī)可讀媒體,所述機(jī)器可執(zhí)行指令在由一個(gè)或一個(gè)以上處理器執(zhí)行時(shí)致使所述一個(gè)或一個(gè)以上處理器 針對(duì)多通道信號(hào)的第一多個(gè)連續(xù)片段中的每一者且基于在所述片段期間的所述多通道信號(hào)的第一通道與在所述片段期間的所述多通道信號(hào)的第二通道之間的差,確定所述片段中存在話音活動(dòng); 針對(duì)在所述多通道信號(hào)中的所述第一多個(gè)連續(xù)片段之后立即出現(xiàn)的所述多通道信號(hào)的第二多個(gè)連續(xù)片段中的每一者且基于在所述片段期間的所述多通道信號(hào)的第一通道與在所述片段期間的所述多通道信號(hào)的第二通道之間的差,確定所述片段中不存在話音活動(dòng); 檢測(cè)在所述第二多個(gè)連續(xù)片段當(dāng)中的不是將在所述第二多者當(dāng)中出現(xiàn)的第一片段的一個(gè)片段期間出現(xiàn)所述多通道信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變;以及 產(chǎn)生話音活動(dòng)檢測(cè)信號(hào),其針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段具有指示活動(dòng)和缺乏活動(dòng)當(dāng)中的一者的對(duì)應(yīng)值, 其中針對(duì)所述第一多個(gè)連續(xù)片段中的每一者,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng),且 其中針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之前出現(xiàn)的每一者,且基于所述針對(duì)所述第一多者中的至少一個(gè)片段確定所述片段中存在話音活動(dòng),所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示活動(dòng),且 其中針對(duì)所述第二多個(gè)連續(xù)片段中的在其中出現(xiàn)所述所檢測(cè)到的轉(zhuǎn)變的所述片段之后出現(xiàn)的每一者,且響應(yīng)于所述檢測(cè)到出現(xiàn)所述多通道信號(hào)的語(yǔ)音活動(dòng)狀態(tài)的轉(zhuǎn)變,所述話音活動(dòng)檢測(cè)信號(hào)的所述對(duì)應(yīng)值指示缺乏活動(dòng)。
      35.根據(jù)權(quán)利要求34所述的媒體,其中所述指令在由所述一個(gè)或一個(gè)以上處理器執(zhí)行時(shí)致使所述一個(gè)或一個(gè)以上處理器計(jì)算在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù),且 其中所述檢測(cè)在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間出現(xiàn)所述轉(zhuǎn)變是基于所述所計(jì)算得的能量的時(shí)間導(dǎo)數(shù)。
      36.根據(jù)權(quán)利要求35所述的媒體,其中所述檢測(cè)出現(xiàn)所述轉(zhuǎn)變包含針對(duì)所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量的時(shí)間導(dǎo)數(shù),產(chǎn)生所述頻率分量是否為活動(dòng)的對(duì)應(yīng)指示,且 其中所述檢測(cè)出現(xiàn)所述轉(zhuǎn)變是基于指示所述對(duì)應(yīng)頻率分量為活動(dòng)的所述指示的數(shù)目與第一閾值之間的關(guān)系。
      37.根據(jù)權(quán)利要求36所述的媒體,其中所述指令在由一個(gè)或一個(gè)以上處理器執(zhí)行時(shí)致使所述一個(gè)或一個(gè)以上處理器針對(duì)在所述多通道信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的片段 計(jì)算在所述片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù); 針對(duì)所述多個(gè)不同頻率分量中的每一者且基于所述對(duì)應(yīng)所計(jì)算得的能量的時(shí)間導(dǎo)數(shù),產(chǎn)生所述頻率分量是否為活動(dòng)的對(duì)應(yīng)指示;以及 基于(A)指示所述對(duì)應(yīng)頻率分量為活動(dòng)的所述指示的數(shù)目與(B)高于所述第一閾值的第二閾值之間的關(guān)系,確定在所述片段期間不出現(xiàn)所述多通道信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變。
      38.根據(jù)權(quán)利要求36所述的媒體,其中所述指令在由一個(gè)或一個(gè)以上處理器執(zhí)行時(shí)致使所述一個(gè)或一個(gè)以上處理器針對(duì)在所述多通道信號(hào)中的所述第一多個(gè)連續(xù)片段之前出現(xiàn)的片段 針對(duì)在所述片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者,計(jì)算能量相對(duì)于時(shí)間的二階導(dǎo)數(shù); 針對(duì)所述多個(gè)不同頻率分量中的每一者,且基于所述對(duì)應(yīng)所計(jì)算得的能量相對(duì)于時(shí)間的二階導(dǎo)數(shù),產(chǎn)生所述頻率分量是否為脈沖性的對(duì)應(yīng)指示;以及 基于指示所述對(duì)應(yīng)頻率分量為脈沖性的所述指示的數(shù)目與閾值之間的關(guān)系,確定在所述片段期間不出現(xiàn)所述多通道信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變。
      39.根據(jù)權(quán)利要求34所述的媒體,其中針對(duì)所述音頻信號(hào)的所述第一多個(gè)連續(xù)片段中的每一者,所述確定所述片段中存在話音活動(dòng)是基于在所述片段期間的所述音頻信號(hào)的第一通道與在所述片段期間的所述音頻信號(hào)的第二通道之間的差,且 其中針對(duì)所述音頻信號(hào)的所述第二多個(gè)連續(xù)片段中的每一者,所述確定所述片段中不存在話音活動(dòng)是基于在所述片段期間的所述音頻信號(hào)的第一通道與在所述片段期間的所述音頻信號(hào)的第二通道之間的差。
      40.根據(jù)權(quán)利要求39所述的媒體,其中針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段,所述差為在所述片段期間的所述第一通道的電平與所述第二通道的電平之間的差。
      41.根據(jù)權(quán)利要求39所述的媒體,其中針對(duì)所述第一多者中的每一片段且針對(duì)所述第二多者中的每一片段,所述差為在所述片段期間的所述第一通道中的信號(hào)的實(shí)例與在所述片段期間的所述第二通道中的所述信號(hào)的實(shí)例之間的時(shí)間差。
      42.根據(jù)權(quán)利要求39所述的媒體,其中針對(duì)所述第一多者中的每一片段,所述確定所述片段中存在話音活動(dòng)包括針對(duì)在所述片段期間的所述多通道信號(hào)的第一多個(gè)不同頻率分量中的每一者,計(jì)算所述第一通道中的所述頻率分量的相位與所述第二通道中的所述頻率分量的相位之間的差,其中在所述片段期間的所述第一通道與在所述片段期間的所述第二通道之間的所述差為所述所計(jì)算得的相位差中的一者,且其中針對(duì)所述第二多者中的每一片段,所述確定所述片段中不存在話音活動(dòng)包括針對(duì)在所述片段期間的所述多通道信號(hào)的所述第一多個(gè)不同頻率分量中的每一者,計(jì)算所述第一通道中的所述頻率分量的相位與所述第二通道中的所述頻率分量的相位之間的差,其中在所述片段期間的所述第一通道與在所述片段期間的所述第二通道之間的所述差為所述所計(jì)算得的相位差中的一者。
      43.根據(jù)權(quán)利要求42所述的媒體,其中所述指令在由一個(gè)或一個(gè)以上處理器執(zhí)行時(shí)致使所述一個(gè)或一個(gè)以上處理器計(jì)算在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間的所述第一通道的第二多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù),且其中所述檢測(cè)在所述第二多個(gè)片段當(dāng)中的所述一個(gè)片段期間出現(xiàn)所述轉(zhuǎn)變是基于所述所計(jì)算得的能量的時(shí)間導(dǎo)數(shù),且 其中包含所述第一多個(gè)頻率分量的頻帶與包含所述第二多個(gè)頻率分量的頻帶分離。
      44.根據(jù)權(quán)利要求42所述的媒體,其中針對(duì)所述第一多者中的每一片段,所述確定所述片段中存在話音活動(dòng)是基于指示至少所述多個(gè)不同頻率分量的到達(dá)方向之間的相干性程度的相干性測(cè)量的對(duì)應(yīng)值,其中所述值是基于來(lái)自所述對(duì)應(yīng)多個(gè)所計(jì)算得的相位差的信息,且 其中針對(duì)所述第二多者中的每一片段,所述確定所述片段中不存在話音活動(dòng)是基于指示至少所述多個(gè)不同頻率分量的到達(dá)方向之間的相干性程度的相干性測(cè)量的對(duì)應(yīng)值,其中所述值是基于來(lái)自所述對(duì)應(yīng)多個(gè)所計(jì)算得的相位差的信息。
      45.根據(jù)權(quán)利要求I所述的方法,其中所述方法包括 計(jì)算在所述第一和第二多個(gè)片段中的一者的片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù);以及 產(chǎn)生所述第一和第二多者中的一者的所述片段的話音活動(dòng)檢測(cè)指示, 其中所述產(chǎn)生所述話音活動(dòng)檢測(cè)指示包含將所述片段的測(cè)試統(tǒng)計(jì)的值與閾值的值進(jìn)行比較,且 其中所述產(chǎn)生所述話音活動(dòng)檢測(cè)指示包含基于所述所計(jì)算得的多個(gè)能量的時(shí)間導(dǎo)數(shù)來(lái)修改所述測(cè)試統(tǒng)計(jì)與所述閾值之間的關(guān)系,且 其中所述第一和第二多者中的一者的所述片段的所述話音活動(dòng)檢測(cè)信號(hào)的值是基于所述話音活動(dòng)檢測(cè)指示。
      46.根據(jù)權(quán)利要求12所述的設(shè)備,其中所述設(shè)備包括 用于計(jì)算在所述第一和第二多個(gè)片段中的一者的片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù)的裝置;以及 用于產(chǎn)生所述第一和第二多者中的一者的所述片段的話音活動(dòng)檢測(cè)指示的裝置,其中所述用于產(chǎn)生所述話音活動(dòng)檢測(cè)指示的裝置包含用于將所述片段的測(cè)試統(tǒng)計(jì)的值與閾值進(jìn)行比較的裝置,且 其中所述用于產(chǎn)生所述話音活動(dòng)檢測(cè)指示的裝置包含用于基于所述所計(jì)算得的多個(gè)能量的時(shí)間導(dǎo)數(shù)來(lái)修改所述測(cè)試統(tǒng)計(jì)與所述閾值之間的關(guān)系的裝置,且 其中所述第一和第二多者中的一者的所述片段的所述話音活動(dòng)檢測(cè)信號(hào)的值是基于所述話音活動(dòng)檢測(cè)指示。
      47.根據(jù)權(quán)利要求23所述的設(shè)備,其中所述設(shè)備包括 第三話音活動(dòng)檢測(cè)器,其經(jīng)配置以計(jì)算在所述第一和第二多個(gè)片段中的一者的片段期間的所述第一通道的多個(gè)不同頻率分量中的每一者的能量的時(shí)間導(dǎo)數(shù);以及 第四話音活動(dòng)檢測(cè)器,其經(jīng)配置以基于將所述片段的測(cè)試統(tǒng)計(jì)的值與閾值進(jìn)行比較的結(jié)果來(lái)產(chǎn)生所述第一和第二多者中的一者的所述片段的話音活動(dòng)檢測(cè)指示, 其中所述第四話音活動(dòng)檢測(cè)器經(jīng)配置以基于所述所計(jì)算得的多個(gè)能量的時(shí)間導(dǎo)數(shù)來(lái)修改所述測(cè)試統(tǒng)計(jì)與所述閾值之間的關(guān)系,且 其中所述第一和第二多者中的一者的所述片段的所述話音活動(dòng)檢測(cè)信號(hào)的值是基于所述話音活動(dòng)檢測(cè)指示。
      48.根據(jù)權(quán)利要求47所述的設(shè)備,其中所述第四話音活動(dòng)檢測(cè)器為所述第一話音活動(dòng)檢測(cè)器,且 其中所述確定所述片段中存在或不存在話音活動(dòng)包含產(chǎn)生所述話音活動(dòng)檢測(cè)指示。
      全文摘要
      本發(fā)明揭示用于基于跨越音頻信號(hào)的一頻率范圍的在時(shí)間上一致的能量變化來(lái)檢測(cè)所述信號(hào)的話音活動(dòng)狀態(tài)的轉(zhuǎn)變的實(shí)施方案和應(yīng)用。
      文檔編號(hào)G10L25/18GK102884575SQ201180023361
      公開(kāi)日2013年1月16日 申請(qǐng)日期2011年4月22日 優(yōu)先權(quán)日2010年4月22日
      發(fā)明者埃里克·維瑟, 伊恩·埃爾納恩·劉, 辛鐘元 申請(qǐng)人:高通股份有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1