国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于在語(yǔ)音信號(hào)處理中檢測(cè)語(yǔ)音片段的方法和裝置的制作方法

      文檔序號(hào):2824580閱讀:213來源:國(guó)知局
      專利名稱:用于在語(yǔ)音信號(hào)處理中檢測(cè)語(yǔ)音片段的方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語(yǔ)音信號(hào)處理,尤其涉及用于檢測(cè)語(yǔ)音片段的方法和裝置。
      背景技術(shù)
      在涉及了包括語(yǔ)音分析、合成、語(yǔ)音識(shí)別、語(yǔ)音譯碼、語(yǔ)音編碼等的語(yǔ)音信號(hào)處理的技術(shù)領(lǐng)域中精確檢測(cè)語(yǔ)音信號(hào)的語(yǔ)音片段是非常重要的。
      但是在用來檢測(cè)語(yǔ)音片段的典型檢測(cè)器的情況下,所述設(shè)備的結(jié)構(gòu)復(fù)雜、計(jì)算量大,并且不能執(zhí)行實(shí)時(shí)處理。
      換句話說,例如,典型的語(yǔ)音片段檢測(cè)方法包括能量和零交叉速率檢測(cè)方法、通過獲取由名稱標(biāo)識(shí)的片段的逆譜系數(shù)以及當(dāng)前片段的逆譜距離來確定語(yǔ)音信號(hào)存在的方法、通過測(cè)量話音和噪聲信號(hào)間的相干性來確定語(yǔ)音信號(hào)存在的方法等等。
      這些典型的語(yǔ)音信號(hào)檢測(cè)方法都是有問題的,例如,檢測(cè)語(yǔ)音片段的性能在實(shí)際應(yīng)用中并不突出、所述設(shè)備的結(jié)構(gòu)復(fù)雜、如果SNR(信噪比)較低則很難應(yīng)用所述方法以及如果通過外部環(huán)境突然改變檢測(cè)到背景噪聲則很難檢測(cè)到語(yǔ)音片段。
      因此,在應(yīng)用諸如通信系統(tǒng)、移動(dòng)通信系統(tǒng)、語(yǔ)音識(shí)別系統(tǒng)之類的語(yǔ)音信號(hào)處理的技術(shù)領(lǐng)域中,需要一種用于語(yǔ)音片段檢測(cè)的方法,使得就算是在背景噪聲突然改變、用于語(yǔ)音片段檢測(cè)的計(jì)算量較小并且期望進(jìn)行實(shí)時(shí)處理的情況下,話音片段檢測(cè)的性能也能十分突出。

      發(fā)明內(nèi)容
      因此,本發(fā)明的目標(biāo)在于提供一種用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的方法和裝置,其中所述設(shè)備即使在嘈雜環(huán)境中也能精確檢測(cè)語(yǔ)音片段、對(duì)于語(yǔ)音片段檢測(cè)所需要的計(jì)算量較小,并且具有實(shí)時(shí)處理的能力。
      為了完成上述目標(biāo),根據(jù)本發(fā)明提供了用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的裝置,所述裝置包括用于接收輸入信號(hào)的輸入部分;用于控制語(yǔ)音片段檢測(cè)全部操作的信號(hào)處理部分;用于在信號(hào)處理部分的控制下根據(jù)噪聲的頻率特性將輸入信號(hào)的臨界頻帶分成預(yù)定數(shù)目區(qū)域的臨界頻帶劃分部分;用于在信號(hào)處理部分的控制下通過劃分的區(qū)域計(jì)算自適應(yīng)信號(hào)閾值的信號(hào)閾值計(jì)算部分;用于在信號(hào)處理部分的控制下通過劃分的區(qū)域計(jì)算自適應(yīng)噪聲閾值的噪聲閾值計(jì)算部分;以及用于根據(jù)輸入信號(hào)每一區(qū)域的對(duì)數(shù)能量鑒別當(dāng)前幀(frame)是噪聲片段還是語(yǔ)音片段的片段鑒別部分。
      為了完成上述目標(biāo),根據(jù)本發(fā)明提供了用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的裝置,所述裝置包括用于接收指示語(yǔ)音片段檢測(cè)的用戶控制命令的用戶界面部分;用于根據(jù)所述用戶控制命令接收輸入信號(hào)的輸入部分;以及處理器,它用于依據(jù)臨界頻帶的幀使輸入信號(hào)格式化、根據(jù)噪聲的頻率特性將每個(gè)幀的臨界頻帶劃分成預(yù)定數(shù)目的區(qū)域、按區(qū)域自適應(yīng)地計(jì)算信號(hào)閾值以及噪聲閾值、自適應(yīng)地比較每一區(qū)域?qū)?shù)能量與每一區(qū)域信號(hào)閾值和噪聲閾值,并且根據(jù)比較的結(jié)果鑒別每一幀的語(yǔ)音片段是語(yǔ)音片段還是噪聲片段。
      為了完成上述目標(biāo),根據(jù)本發(fā)明提供了用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的方法,所述方法包括如下步驟根據(jù)噪聲的頻率特性將輸入信號(hào)的臨界頻帶劃分成預(yù)定數(shù)目的區(qū)域;比較按區(qū)域不同地設(shè)置的自適應(yīng)閾值以及按區(qū)域計(jì)算的對(duì)數(shù)能量,并且確定輸入信號(hào)是否是語(yǔ)音片段。
      用于檢測(cè)語(yǔ)音片段的方法還包括通過使用按區(qū)域并且根據(jù)確定結(jié)果算出的對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差對(duì)自適應(yīng)閾值進(jìn)行更新的步驟。
      自適應(yīng)閾值包括自適應(yīng)信號(hào)閾值和自適應(yīng)噪聲閾值。
      為了完成上述目標(biāo),根據(jù)本發(fā)明提供了用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的方法,所述方法包括如下步驟按臨界頻帶的幀使所述輸入信號(hào)格式化;根據(jù)噪聲的頻率特性將當(dāng)前幀劃分成預(yù)定數(shù)目的區(qū)域;比較按當(dāng)前幀區(qū)域的信號(hào)閾值和噪聲閾值和按區(qū)域算出的對(duì)數(shù)能量;確定當(dāng)前幀是否是語(yǔ)音片段;并且通過使用每個(gè)區(qū)域的對(duì)數(shù)能量選擇性地更新所述信號(hào)閾值和噪聲閾值。


      為了進(jìn)一步理解本發(fā)明,作為說明書一部分的附圖示出了本發(fā)明的實(shí)施例并且連同說明一起解釋了本發(fā)明的原理。
      在附圖中圖1是根據(jù)本發(fā)明示出了用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的典型方法的配置實(shí)例的視圖;圖2是根據(jù)本發(fā)明示出了根據(jù)噪聲的頻率特性用于確定臨界頻帶的劃分區(qū)域數(shù)目的典型方法的視圖;圖3是根據(jù)本發(fā)明示出了用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的典型方法實(shí)例的視圖;圖4是根據(jù)本發(fā)明示出了用于語(yǔ)音片段檢測(cè)的典型幀結(jié)構(gòu)的視圖。
      具體實(shí)施例方式
      通常情況下,人類的聽力的頻率范圍大約是從20Hz到20,000Hz,并且此范圍被稱為臨界頻帶。該臨界頻帶可根據(jù)諸如熟練程度和物理殘障情況擴(kuò)展或縮減。上述臨界頻帶是考慮了人類聽覺特征的頻帶。
      在本發(fā)明中,為了使用人類聽覺特征,通過考慮各種噪聲的頻率特性,將臨界頻帶劃分成特定數(shù)目的區(qū)域,為每一區(qū)域自適應(yīng)地算出信號(hào)閾值和噪聲閾值,并且通過比較每一區(qū)域的對(duì)數(shù)能量與每一區(qū)域的信號(hào)閾值和噪聲閾值來鑒別每一幀是語(yǔ)音片段還是噪聲片段。
      圖1是根據(jù)本發(fā)明示出了用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的典型方法的配置實(shí)例的視圖。
      根據(jù)本發(fā)明的用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的裝置可以包括用于輸入語(yǔ)音信號(hào)的輸入部分100;用于控制語(yǔ)音片段檢測(cè)全部操作的信號(hào)處理部分110;用于在信號(hào)處理部分110的控制下根據(jù)噪聲的頻率特性將輸入信號(hào)的臨界頻帶劃分成預(yù)定數(shù)目區(qū)域的臨界頻帶劃分部分130;用于在信號(hào)處理部分110的控制下按劃分的區(qū)域計(jì)算自適應(yīng)信號(hào)閾值的信號(hào)閾值計(jì)算部分170;用于在信號(hào)處理部分110的控制下按劃分的區(qū)域計(jì)算自適應(yīng)噪聲閾值的噪聲閾值計(jì)算部分160;以及用于根據(jù)輸入信號(hào)每一區(qū)域的對(duì)數(shù)能量鑒別當(dāng)前幀是噪聲片段還是語(yǔ)音片段的片段鑒別部分150。
      所述語(yǔ)音信號(hào)可包括噪聲成分。
      用于檢測(cè)語(yǔ)音片段的裝置還包括用于輸入指示語(yǔ)音片段檢測(cè)的控制信號(hào)的用戶界面部分180;用于輸出檢測(cè)到語(yǔ)音片段的輸出部分140;以及用于存儲(chǔ)語(yǔ)音片段檢測(cè)操作所需程序和數(shù)據(jù)的存儲(chǔ)器部分120。
      所述用戶界面180可包括鍵盤和其他類型的輸入工具。
      將在以下描述根據(jù)本發(fā)明配置的用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的裝置的操作。
      在這里的語(yǔ)音信號(hào)處理設(shè)備可包括提供了語(yǔ)音片段檢測(cè)功能的各種設(shè)備,諸如具有語(yǔ)音識(shí)別功能的移動(dòng)終端和語(yǔ)音識(shí)別設(shè)備等等。
      在本發(fā)明中,根據(jù)各種類型噪聲的頻率特性將臨界頻帶劃分成特定數(shù)目的區(qū)域、比較按區(qū)域算出的對(duì)數(shù)能量與按區(qū)域設(shè)置的信號(hào)閾值和噪聲閾值,并且根據(jù)比較的結(jié)果檢測(cè)語(yǔ)音片段。
      例如,如果用戶位于車輛環(huán)境中,則因?yàn)樵肼暥鄶?shù)分布在低頻帶,所以根據(jù)本發(fā)明以1-2KHz的邊界將臨界頻帶劃分成兩個(gè)區(qū)域。如果用戶正在步行,那么就根據(jù)本發(fā)明將臨界頻帶劃分成三至四個(gè)區(qū)域。由此在本發(fā)明中,對(duì)臨界頻帶劃分的區(qū)域數(shù)目可以根據(jù)噪聲的頻率特性變化。因此本發(fā)明可以根據(jù)背景噪聲的頻率特性進(jìn)一步改善語(yǔ)音片段檢測(cè)性能。
      圖2是根據(jù)本發(fā)明示出了根據(jù)噪聲的頻率特性用于確定臨界頻帶的劃分區(qū)域數(shù)目的典型方法的視圖。
      在期望檢測(cè)語(yǔ)音片段的情況下(S11),所述語(yǔ)音信號(hào)處理設(shè)備檢查用戶是否為了根據(jù)噪聲的頻率特性設(shè)置劃分區(qū)域的數(shù)目而請(qǐng)求設(shè)置噪聲環(huán)境的類型。當(dāng)用戶請(qǐng)求設(shè)置噪聲環(huán)境的類型時(shí)(S13),所述語(yǔ)音信號(hào)處理設(shè)備就輸出噪聲環(huán)境的類型(S15)。所述噪聲環(huán)境的類型可包括車輛環(huán)境、步行環(huán)境等等。
      例如,當(dāng)用戶在車內(nèi)時(shí),用戶可在語(yǔ)音信號(hào)處理設(shè)備提供的各選項(xiàng)中選擇車輛環(huán)境。當(dāng)用戶選擇了噪聲環(huán)境時(shí)(S17),語(yǔ)音信號(hào)處理設(shè)備就對(duì)應(yīng)于所選的噪聲環(huán)境設(shè)置區(qū)域的數(shù)目(S19)。
      一旦設(shè)置了劃分區(qū)域的數(shù)目,語(yǔ)音信號(hào)處理設(shè)備就根據(jù)上述用于語(yǔ)音片段檢測(cè)的劃分區(qū)域設(shè)置數(shù)目對(duì)臨界頻帶作出劃分。
      圖3是根據(jù)本發(fā)明示出了用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的典型方法實(shí)例的視圖。圖4是根據(jù)本發(fā)明示出了用于語(yǔ)音片段檢測(cè)的典型幀結(jié)構(gòu)的視圖。
      當(dāng)施加工作電源時(shí),語(yǔ)音信號(hào)處理設(shè)備通過載入來自存儲(chǔ)器部分120的操作程序、應(yīng)用程序和數(shù)據(jù)而進(jìn)入就緒狀態(tài)。
      在需要檢測(cè)語(yǔ)音片段的情況中(S21),語(yǔ)音信號(hào)處理設(shè)備的臨界頻帶劃分部分130就如圖4所示按幀對(duì)輸入信號(hào)進(jìn)行格式化(S23)。每一幀都具有臨界頻帶的頻率信號(hào)。
      臨界頻帶劃分部分130將每一幀細(xì)分為特定數(shù)目的區(qū)域(S25)。這時(shí)可根據(jù)圖2中設(shè)置的劃分區(qū)域的數(shù)目劃分每一幀,即臨界頻帶。在此將結(jié)合把一幀劃分成三個(gè)區(qū)域的實(shí)例進(jìn)行描述。盡管如此,可以容易理解的是本發(fā)明也可應(yīng)用于把每一幀劃分為其他數(shù)目區(qū)域的情況。
      首先,語(yǔ)音信號(hào)處理設(shè)備的信號(hào)閾值計(jì)算部分170和噪聲閾值計(jì)算部分160考慮在輸入信號(hào)的第一特定數(shù)目幀期間不包含語(yǔ)音信號(hào)的無聲片段,并且對(duì)于考慮為無聲片段的幀的第一特定數(shù)目而計(jì)算的每一區(qū)域,計(jì)算對(duì)數(shù)能量的初始平均值和初始標(biāo)準(zhǔn)差(S27)。如數(shù)學(xué)表達(dá)式1所示,信號(hào)閾值計(jì)算部分170通過使用對(duì)幀的特定數(shù)目算出的每一區(qū)域的對(duì)數(shù)能量的初始平均值和初始標(biāo)準(zhǔn)差,計(jì)算在無聲片段之后輸入的幀的每一區(qū)域的初始語(yǔ)音閾值。如數(shù)學(xué)表達(dá)式2所示,噪聲閾值計(jì)算部分160通過使用對(duì)幀的特定數(shù)目算出的每一區(qū)域的對(duì)數(shù)能量的初始平均值和初始標(biāo)準(zhǔn)差,計(jì)算在無聲片段之后輸入的幀的每一區(qū)域的初始噪聲閾值(S29)。
      (數(shù)學(xué)表達(dá)式1)Ts1=μn1+αs1*δn1Ts2=μn2+αs2*δn2Tsk=μnk+αsk*δnk其中μ是平均值,δ是標(biāo)準(zhǔn)差的值,α是滯后值,而k是幀劃分區(qū)域的數(shù)目。
      (數(shù)學(xué)表達(dá)式2)Tn1=μn1+βn1*δn1Tn2=μn2+βn2*δn2Tnk=μnk+βnk*δnk其中μ是平均值,δ是標(biāo)準(zhǔn)差的值,β是滯后值,而k是幀劃分區(qū)域的數(shù)目。
      滯后值α和β由實(shí)驗(yàn)確定,并且存儲(chǔ)在存儲(chǔ)器部分120內(nèi)。在本發(fā)明實(shí)例中,k等于3。
      在移動(dòng)終端等開機(jī)之后,存在至少持續(xù)100ms的無聲持續(xù)時(shí)間的趨勢(shì),隨后就有語(yǔ)音輸入。如果在語(yǔ)音信號(hào)處理內(nèi)使用的幀是20ms,那么100ms的幀將被劃分為四至五個(gè)幀片段。因此,用于計(jì)算初始平均值和初始標(biāo)準(zhǔn)差的幀的第一特定數(shù)目可以是,例如,4或5。
      例如,如果考慮為無聲片段的幀的數(shù)目是4,那么臨界頻帶劃分部分130把在四個(gè)幀(即第一至第四個(gè)幀)之后輸入的每個(gè)幀細(xì)分為三個(gè)區(qū)域。
      其后,片段鑒別部分150按區(qū)域?yàn)槊恳粠?jì)算對(duì)數(shù)能量。在第五次幀輸入的情況下(第五幀),片段鑒別部分150為第五幀的第一區(qū)域計(jì)算對(duì)數(shù)能量E1、為第五幀的第二區(qū)域計(jì)算對(duì)數(shù)能量E2,并且為第五幀的第三區(qū)域計(jì)算對(duì)數(shù)能量E3。
      圖4是根據(jù)本發(fā)明示出了用于語(yǔ)音片段檢測(cè)的幀結(jié)構(gòu)的視圖。
      片段鑒別部分150通過使用數(shù)學(xué)表達(dá)式3鑒別每一幀是語(yǔ)音片段還是噪聲片段。
      (數(shù)學(xué)表達(dá)式3)IF(E1>Ts1OR E2>Ts2OR E3>Ts3)VOICE_ACTIVITY=語(yǔ)音片段ELSE IF(E1<Tn1OR E2<Tn2OR E3<Tn3)VOICE_ACTIVITY=噪聲片段ELSE VOICE_ACTIVITY=VOICE_ACTIVITY之前,其中E是對(duì)數(shù)能量,Ts是信號(hào)閾值,而Tn是噪聲閾值。
      換句話說,片段鑒別部分150比較第五幀的每一區(qū)域的對(duì)數(shù)能量與其每一區(qū)域中的信號(hào)閾值Ts1和噪聲閾值Tn1。如果至少存在一個(gè)對(duì)數(shù)能量大于信號(hào)閾值的區(qū)域,那么片段鑒別部分150就確定第五幀是語(yǔ)音片段,并將其設(shè)置為語(yǔ)音片段。如果沒有對(duì)數(shù)能量大于語(yǔ)音閾值的區(qū)域,但是存在一個(gè)或多個(gè)對(duì)數(shù)能量小于噪聲閾值的區(qū)域,那么片段鑒別部分150就確定第五幀是噪聲片段,并將其設(shè)置為噪聲片段(S31)。
      由此,當(dāng)完成對(duì)當(dāng)前幀(第五幀)是噪聲片段還是語(yǔ)音片段的鑒別時(shí),信號(hào)處理部分110就可通過輸出部分140輸出當(dāng)前幀(S33)。
      其后,如果當(dāng)前幀不是最后的幀(S35),那么信號(hào)處理部分110控制信號(hào)閾值計(jì)算部分170或噪聲閾值計(jì)算部分160從而可以更新信號(hào)閾值或噪聲閾值。
      換句話說,在把當(dāng)前幀鑒別為語(yǔ)音片段的情況中(S37),信號(hào)閾值計(jì)算部分170在信號(hào)處理部分110的控制下使用如數(shù)學(xué)表達(dá)式4示出的方法重新計(jì)算每一區(qū)域的語(yǔ)音對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且使算出的語(yǔ)音對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差適用于數(shù)學(xué)表達(dá)式1,從而為每一區(qū)域更新信號(hào)閾值(S39)。這時(shí)不更新噪聲閾值。
      (數(shù)學(xué)表達(dá)式4)μs1(t)=γ*μs1(t-1)+(1-γ)*E1[E12]mean(t)=γ*[E12]mean(t-1)+(1-γ)*E12δs1(t)=root([E12]mean(t)-[μs1(t)]2)μs2(t)=γ*μs2(t-1)+(1-γ)*E2[E22]mean(t)=γ*[E22]mean(t-1)+(1-γ)*E22δs2(t)=root([E22]mean(t)-[μs2(t)]2)μs3(t)=γ*μs3(t-1)+(1-γ)*E3[E32]mean(t)=γ*[E32]mean(t-1)+(1-γ)*E32δs3(t)=root([E32]mean(t)-[μs3(t)]2)其中μ是語(yǔ)音對(duì)數(shù)能量的平均值,δ是標(biāo)準(zhǔn)差的值,t是幀時(shí)間的值,γ是作為實(shí)驗(yàn)值的權(quán)值,而E1、E2和E3是相應(yīng)區(qū)域內(nèi)的語(yǔ)音對(duì)數(shù)能量值。
      在鑒別當(dāng)前幀作為噪聲片段的情況中(S41),信號(hào)閾值計(jì)算部分170在信號(hào)處理部分110的控制下通過如數(shù)學(xué)表達(dá)式5所示的方法,為每一區(qū)域重新計(jì)算噪聲對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且使算出的噪聲對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差適用于數(shù)學(xué)表達(dá)式2,從而為每一區(qū)域更新了信號(hào)閾值(S43)。
      (數(shù)學(xué)表達(dá)式5)
      μn2(t)=γ*μn2(t-1)+(1-γ)*E2[E22]mean(t)=γ*[E22]mean(t-1)+(1-γ)*E22δn2(t)=root([E22]mean(t)-[μn2(t)]2)μn3(t)=γ*μn3(t-1)+(1-γ)*E3[E32]mean(t)=γ*[E32]mean(t-1)+(1-γ)*E32δn3(t)=root([E32]mean(t)-[μn3(t)]2)其中μ是噪聲對(duì)數(shù)能量的平均值,δ是標(biāo)準(zhǔn)差的值,t是幀時(shí)間的值,γ是作為實(shí)驗(yàn)值的權(quán)值,而E1、E2和E3是相應(yīng)區(qū)域內(nèi)噪聲對(duì)數(shù)能量值。
      在數(shù)學(xué)表達(dá)式4和數(shù)學(xué)表達(dá)式5中,γ可以具有諸如0.95的值,并且存儲(chǔ)在存儲(chǔ)器部分120內(nèi)。在數(shù)學(xué)表達(dá)式4和數(shù)學(xué)表達(dá)式5中,使用遞歸的方法計(jì)算每一區(qū)域?qū)?shù)能量的平均值從而能夠算出自適應(yīng)于輸入信號(hào)的相應(yīng)閾值,并且通過遞歸方法對(duì)平均值的計(jì)算也有利于語(yǔ)音片段處理器的實(shí)時(shí)處理。
      盡管如此,在步驟S31中,參見相應(yīng)幀每一區(qū)域的對(duì)數(shù)能量與每一區(qū)域信號(hào)閾值Ts1和噪聲閾值Ts1間的比較結(jié)果,如果不存在對(duì)數(shù)能量大于信號(hào)閾值的區(qū)域,并且也不存在對(duì)數(shù)能量小于噪聲閾值的區(qū)域,那么片段鑒別部分150就把前一幀鑒別出的片段應(yīng)用于相應(yīng)的幀(S45)。
      換句話說,如果前一幀是語(yǔ)音片段,那么片段鑒別部分150就確定相應(yīng)幀(當(dāng)前幀)是語(yǔ)音片段,如果前一幀是噪聲片段,那么片段鑒別部分150就確定相應(yīng)幀是噪聲片段。
      一旦鑒別出相應(yīng)幀(當(dāng)前幀)的片段類型,信號(hào)處理部分110就行進(jìn)到步驟S35。
      如上所述,本發(fā)明通過為檢測(cè)來自噪聲環(huán)境內(nèi)輸入信號(hào)輸入的語(yǔ)音片段而使用的快速實(shí)時(shí)處理,僅使用較小計(jì)算(操作)量就能夠精確檢測(cè)語(yǔ)音片段。
      同時(shí),下面將要描述根據(jù)本發(fā)明用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的典型裝置的另一個(gè)配置實(shí)例。
      根據(jù)本發(fā)明用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的裝置包括用于接收指示語(yǔ)音片段檢測(cè)的用戶控制命令的用戶界面部分;用于根據(jù)所述用戶控制命令接收輸入信號(hào)的輸入部分;以及處理器,它用于依據(jù)臨界頻帶的幀使輸入信號(hào)格式化、根據(jù)噪聲的頻率特性將每個(gè)幀的臨界頻帶劃分成預(yù)定數(shù)目的區(qū)域、自適應(yīng)地按區(qū)域計(jì)算信號(hào)閾值以及噪聲閾值、自適應(yīng)地比較每一區(qū)域?qū)?shù)能量與每一區(qū)域信號(hào)閾值和噪聲閾值,并且根據(jù)比較的結(jié)果鑒別每一幀的語(yǔ)音片段是語(yǔ)音片段還是噪聲片段。
      用于檢測(cè)語(yǔ)音片段的所述裝置還包括用于輸出已檢測(cè)語(yǔ)音片段的輸出部分;以及用于存儲(chǔ)語(yǔ)音片段檢測(cè)操作要求的程序和數(shù)據(jù)的存儲(chǔ)器部分。
      能夠按參考圖2和圖3解釋的操作相同的(等效的或相似的)方法來執(zhí)行根據(jù)本發(fā)明配置的用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的裝置的操作。
      如上所述,本發(fā)明可以僅使用較小的操作量而實(shí)時(shí)檢測(cè)從噪聲環(huán)境內(nèi)輸入信號(hào)輸入的語(yǔ)音片段。
      本發(fā)明甚至可以在噪聲環(huán)境中精確檢測(cè)語(yǔ)音片段,因?yàn)樗鶕?jù)噪聲的頻率特性將臨界頻帶細(xì)分為預(yù)定數(shù)目的區(qū)域,并且檢測(cè)每一區(qū)域的語(yǔ)音片段。
      本發(fā)明還可以通過根據(jù)噪聲環(huán)境區(qū)分臨界頻帶的多個(gè)劃分區(qū)域而根據(jù)噪聲的頻率特性更精確地檢測(cè)語(yǔ)音片段。
      上述實(shí)施例和優(yōu)點(diǎn)僅是示意性的,并且不應(yīng)被解釋為對(duì)本發(fā)明的限制?,F(xiàn)有的教程也可方便地應(yīng)用于其他類型的裝置。本發(fā)明的描述旨在說明,并非限制權(quán)利要求的范圍。更多的可選、修改和變化對(duì)本領(lǐng)域普通技術(shù)人員來說都是顯而易見的。在權(quán)利要求中,方法加功能的條款旨在覆蓋在此描述的執(zhí)行所述功能的結(jié)構(gòu),并且不但覆蓋結(jié)構(gòu)性的等效物,也覆蓋等效的結(jié)構(gòu)。
      權(quán)利要求
      1.一種用于檢測(cè)語(yǔ)音信號(hào)的語(yǔ)音片段的裝置,所述裝置包括用于接收輸入信號(hào)的輸入部分;用于控制語(yǔ)音片段檢測(cè)的全部操作的信號(hào)處理部分;用于在信號(hào)處理部分的控制下根據(jù)噪聲的頻率特性將所述輸入信號(hào)的臨界頻帶分成特定數(shù)目區(qū)域的臨界頻帶劃分部分;用于在信號(hào)處理部分的控制下通過劃分的區(qū)域計(jì)算自適應(yīng)信號(hào)閾值的信號(hào)閾值計(jì)算部分;用于在信號(hào)處理部分的控制下通過劃分的區(qū)域計(jì)算自適應(yīng)噪聲閾值的噪聲閾值計(jì)算部分;以及用于根據(jù)所述輸入信號(hào)每一區(qū)域的對(duì)數(shù)能量鑒別當(dāng)前幀是噪聲片段還是語(yǔ)音片段的片段鑒別部分。
      2.如權(quán)利要求1所述的裝置,其特征在于,還包括用于輸入指示語(yǔ)音片段檢測(cè)的控制信號(hào)的用戶界面部分;用于輸出檢測(cè)到的語(yǔ)音片段的輸出部分;以及用于存儲(chǔ)語(yǔ)音片段檢測(cè)操作所需程序和數(shù)據(jù)的存儲(chǔ)器部分。
      3.如權(quán)利要求1所述的裝置,其特征在于,如果噪聲的頻率特性涉及車輛噪聲,那么將所述臨界頻帶劃分成的區(qū)域數(shù)目就是2。
      4.如權(quán)利要求1所述的裝置,其特征在于,如果噪聲的頻率特性涉及步行時(shí)產(chǎn)生的外圍噪聲,那么將所述臨界頻帶劃分成的區(qū)域數(shù)目就是3或4。
      5.如權(quán)利要求1所述的裝置,其特征在于,所述臨界頻帶劃分部分根據(jù)噪聲環(huán)境的類型將所述臨界頻帶分成不同數(shù)目的區(qū)域。
      6.如權(quán)利要求1所述的裝置,其特征在于,所述信號(hào)處理部分檢查如果請(qǐng)求語(yǔ)音片段檢查,用戶請(qǐng)求是否要設(shè)置臨界頻帶劃分成的區(qū)域數(shù)目,并且根據(jù)用戶所選的噪聲環(huán)境類型設(shè)置聲臨界頻帶劃分成的區(qū)域數(shù)目。
      7.如權(quán)利要求1所述的裝置,其特征在于,信號(hào)處理部分為了初始階段特定幀輸入數(shù)目而控制按區(qū)域計(jì)算能量對(duì)數(shù)的初始平均值和初始標(biāo)準(zhǔn)差的操作。
      8.如權(quán)利要求7所述的裝置,其特征在于,初始階段幀輸入的數(shù)目是4或5。
      9.如權(quán)利要求1所述的裝置,其特征在于,當(dāng)由片段鑒別部分鑒別出相應(yīng)幀是語(yǔ)音片段時(shí),所述信號(hào)閾值計(jì)算部分為該幀的每一部分計(jì)算所述語(yǔ)音對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述信號(hào)閾值。
      10.如權(quán)利要求9所述的裝置,其特征在于,由以下數(shù)學(xué)表達(dá)式按區(qū)域更新信號(hào)閾值Tsk=μsk+αsk*δsk其中μ是所述幀第k個(gè)區(qū)域的語(yǔ)音對(duì)數(shù)能量的平均值,δ是所述幀第k個(gè)區(qū)域的語(yǔ)音對(duì)數(shù)能量的標(biāo)準(zhǔn)差的值,α是滯后值,Tsk是信號(hào)閾值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
      11.如權(quán)利要求9所述的裝置,其特征在于,由如下數(shù)學(xué)表達(dá)式算出所述平均值和標(biāo)準(zhǔn)差的值μsk(t)=γ*μsk(t-1)+(1-γ)*Ek[Ek2]mean(t)=&gamma;*[Ek2]mean(t-1)+(1-&gamma;)*Ek2]]>&delta;sk(t)=root([Ek2]mean(t)-[&mu;sk(t)]2)]]>其中μsk(t-1)是前一幀第k個(gè)區(qū)域的語(yǔ)音對(duì)數(shù)能量的平均值,Ek是所述幀(當(dāng)前幀)第k個(gè)區(qū)域的語(yǔ)音對(duì)數(shù)能量,δsk(t)是所述幀第k個(gè)區(qū)域的語(yǔ)音對(duì)數(shù)能量的標(biāo)準(zhǔn)差的值,γ是加權(quán)值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
      12.如權(quán)利要求1所述的裝置,其特征在于,當(dāng)由片段鑒別部分鑒別出相應(yīng)幀是噪聲片段時(shí),所述信號(hào)閾值計(jì)算部分為該幀的每一部分計(jì)算所述噪聲對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述信號(hào)閾值。
      13.如權(quán)利要求12所述的裝置,其特征在于,由以下數(shù)學(xué)表達(dá)式按區(qū)域算出噪聲閾值Tnk=μnk+βnk*δnk其中μ是所述幀第k個(gè)區(qū)域的噪聲對(duì)數(shù)能量的平均值,δ是所述幀第k個(gè)區(qū)域的噪聲對(duì)數(shù)能量的標(biāo)準(zhǔn)差的值,βnk是所述幀第k個(gè)區(qū)域的滯后值,Tnk是噪聲閾值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
      14.如權(quán)利要求12所述的裝置,其特征在于,由如下數(shù)學(xué)表達(dá)式算出所述平均值和標(biāo)準(zhǔn)差的值μnk(t)=γ*μnk(t-1)+(1-γ)*Ek[Ek2]mean(t)=&gamma;*[Ek2]mean(t-1)+(1-&gamma;)*Ek2]]>&delta;nk(t)=root([Ek2]mean(t)-[&mu;nk(t)]2)]]>其中μnk(t-1)是前一幀第k個(gè)區(qū)域的噪聲對(duì)數(shù)能量的平均值,Ek是所述幀(當(dāng)前幀)第k個(gè)區(qū)域的噪聲對(duì)數(shù)能量,δnk(t)是所述幀第k個(gè)區(qū)域的噪聲對(duì)數(shù)能量的標(biāo)準(zhǔn)差的值,γ是加權(quán)值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
      15.如權(quán)利要求1所述的裝置,其特征在于,片段鑒別部分為所述輸入信號(hào)的所述幀的每一區(qū)域計(jì)算對(duì)數(shù)能量,并且如果存在至少一個(gè)具有的對(duì)數(shù)能量大于信號(hào)閾值的區(qū)域,就將該幀鑒別為語(yǔ)音片段。
      16.如權(quán)利要求1所述的裝置,其特征在于,片段鑒別部分為述輸入信號(hào)的所述幀的每一區(qū)域計(jì)算對(duì)數(shù)能量,并且如果不存在具有的對(duì)數(shù)能量大于信號(hào)閾值的區(qū)域但是存在至少一個(gè)具有的對(duì)數(shù)能量小于噪聲閾值的區(qū)域,就將該幀鑒別為噪聲片段。
      17.如權(quán)利要求1所述的裝置,其特征在于,片段鑒別部分為述輸入信號(hào)的所述幀的每一區(qū)域計(jì)算對(duì)數(shù)能量,并且在不存在具有的對(duì)數(shù)能量大于信號(hào)閾值的區(qū)域并且不存在具有的對(duì)數(shù)能量小于噪聲閾值的區(qū)域的情況下,對(duì)于所述幀應(yīng)用前一幀鑒別出的片段。
      18.如權(quán)利要求1所述的裝置,其特征在于,所述片段鑒別部分通過如下表達(dá)式鑒別幀的片段IF(E1>Ts1OR E2>Ts2OR Ek>Tsk),那么鑒別所述幀為語(yǔ)音片段ELSE IF(E1<Tn1OR E2<Tn2OR Ek<Tnk),那么鑒別所述幀為噪聲片段ELSE,鑒別所述片段被前一幀所鑒別出的片段其中E是每一區(qū)域的對(duì)數(shù)能量,Ts是用于每一區(qū)域的信號(hào)閾值,Tn是用于每一區(qū)域的噪聲閾值,而k是所述幀劃分區(qū)域的數(shù)目。
      19.一種用于檢測(cè)語(yǔ)音信號(hào)的語(yǔ)音片段的裝置,所述裝置包括用于接收指示語(yǔ)音片段檢測(cè)的用戶控制命令的用戶界面部分;用于根據(jù)所述用戶控制命令接收輸入信號(hào)的輸入部分;以及處理器,它用于通過所述臨界頻帶的幀使輸入信號(hào)格式化、根據(jù)噪聲的頻率特性將每個(gè)幀的臨界頻帶劃分成預(yù)定數(shù)目的區(qū)域、自適應(yīng)地按區(qū)域計(jì)算信號(hào)閾值以及噪聲閾值、自適應(yīng)地比較每一區(qū)域的對(duì)數(shù)能量與每一區(qū)域信號(hào)閾值和噪聲閾值,并且根據(jù)比較結(jié)果鑒別每一幀的語(yǔ)音片段是語(yǔ)音片段還是噪聲片段。
      20.如權(quán)利要求19所述的裝置,其特征在于,所述處理器檢查在接收到用戶控制命令時(shí)是否需要對(duì)所述幀劃分區(qū)域的數(shù)目進(jìn)行設(shè)置,并且根據(jù)用戶所選的噪聲環(huán)境類型設(shè)置所述臨界頻帶劃分成的區(qū)域數(shù)目。
      21.如權(quán)利要求19所述的裝置,其特征在于,所述處理器為了初始階段幀輸入的預(yù)定數(shù)目而計(jì)算用于每一區(qū)域的對(duì)數(shù)能量的初始平均值和初始標(biāo)準(zhǔn)差,并且通過使用所述初始平均值和初始標(biāo)準(zhǔn)差計(jì)算初始信號(hào)閾值和初始噪聲閾值。
      22.如權(quán)利要求19所述的裝置,其特征在于,所述處理器通過如下表達(dá)式鑒別當(dāng)前幀是語(yǔ)音片段還是噪聲片段IF(E1>Ts1OR E2>Ts2OR Ek>Tsk),那么鑒別所述幀為語(yǔ)音片段ELSE IF(E1<Tn1OR E2<Tn2OR Ek<Tnk),那么鑒別所述幀為噪聲片段ELSE,鑒別所述片段為前一幀所鑒別出的片段其中E是每一區(qū)域的對(duì)數(shù)能量,Ts是用于每一區(qū)域的信號(hào)閾值,Tn是用于每一區(qū)域的噪聲閾值,而k是所述幀劃分區(qū)域的數(shù)目。
      23.如權(quán)利要求22所述的裝置,其特征在于,當(dāng)鑒別所述幀為語(yǔ)音片段時(shí),所述處理器為該幀的每一區(qū)域計(jì)算所述語(yǔ)音對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述信號(hào)閾值。
      24.如權(quán)利要求22所述的裝置,其特征在于,當(dāng)鑒別所述幀為噪聲片段時(shí),所述處理器為該幀的每一區(qū)域計(jì)算所述噪聲對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述噪聲閾值。
      25.一種檢測(cè)語(yǔ)音信號(hào)的語(yǔ)音片段的方法,所述方法包括根據(jù)噪聲的頻率特性將輸入信號(hào)的臨界頻帶劃分成預(yù)定數(shù)目的區(qū)域;比較按區(qū)域不同地設(shè)置的自適應(yīng)閾值與按區(qū)域計(jì)算的對(duì)數(shù)能量;以及確定輸入信號(hào)是否是語(yǔ)音片段。
      26.如權(quán)利要求25所述的方法,其特征在于,還包括通過使用按區(qū)域計(jì)算出的所述對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差以及根據(jù)確定結(jié)果來更新自適應(yīng)閾值的步驟。
      27.如權(quán)利要求26所述的方法,其特征在于,所述自適應(yīng)閾值包括自適應(yīng)信號(hào)閾值和自適應(yīng)噪聲閾值。
      28.如權(quán)利要求27所述的方法,其特征在于,當(dāng)確定輸入信號(hào)是語(yǔ)音片段時(shí),處理器通過使用按區(qū)域算出的所述對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差來更新所述自適應(yīng)信號(hào)閾值。
      29.如權(quán)利要求28所述的方法,其特征在于,當(dāng)確定輸入信號(hào)是噪聲片段時(shí),處理器通過使用按區(qū)域算出的所述對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差來更新所述自適應(yīng)噪聲閾值。
      30.如權(quán)利要求25所述的方法,其特征在于,還包括如下步驟為了初始階段輸入的幀的預(yù)定數(shù)目而計(jì)算用于每一區(qū)域?qū)?shù)能量的初始平均值和初始標(biāo)準(zhǔn)差;以及通過使用所述初始平均值和初始標(biāo)準(zhǔn)差為每一區(qū)域設(shè)置初始閾值。
      31.一種用于檢測(cè)語(yǔ)音信號(hào)的語(yǔ)音片段的方法,所述方法包括按臨界頻帶的幀使所述輸入信號(hào)格式化;根據(jù)噪聲的頻率特性將當(dāng)前幀劃分成預(yù)定數(shù)目的區(qū)域;比較按當(dāng)前幀區(qū)域設(shè)置的信號(hào)閾值和噪聲閾值以及按區(qū)域算出的對(duì)數(shù)能量;確定當(dāng)前幀是否是語(yǔ)音片段;以及通過使用每個(gè)區(qū)域的對(duì)數(shù)能量選擇性地更新所述信號(hào)閾值和噪聲閾值。
      32.如權(quán)利要求31所述的方法,其特征在于,所述方法還包括如下步驟通過使用為了在初始階段輸入的幀的預(yù)定數(shù)目按區(qū)域算出的對(duì)數(shù)能量的初始平均值和初始標(biāo)準(zhǔn)差,為每一區(qū)域設(shè)置初始信號(hào)閾值和初始噪聲閾值。
      33.如權(quán)利要求32所述的方法,其特征在于,幀的預(yù)定數(shù)目是3或4。
      34.如權(quán)利要求31所述的方法,其特征在于,如果噪聲的頻率特性是車輛噪聲的頻率特性,那么所述臨界頻帶的幀劃分成的區(qū)域數(shù)目就是2。
      35.如權(quán)利要求31所述的方法,其特征在于,如果噪聲的頻率特性是步行時(shí)產(chǎn)生外圍噪聲的頻率特性,那么所述臨界頻帶的幀劃分成的區(qū)域數(shù)目就是3或4。
      36.如權(quán)利要求31所述的方法,其特征在于,根據(jù)用戶輸入的噪聲環(huán)境類型設(shè)置由臨界頻帶的幀劃分成的區(qū)域數(shù)目。
      37.如權(quán)利要求31所述的方法,其特征在于,如果存在至少一個(gè)其對(duì)數(shù)能量大于信號(hào)閾值的區(qū)域,那么片段鑒別部分就將所述幀鑒別為語(yǔ)音片段。
      38.如權(quán)利要求31所述的方法,其特征在于,如果不存在其對(duì)數(shù)能量大于信號(hào)閾值的區(qū)域但是存在至少一個(gè)其對(duì)數(shù)能量小于噪聲閾值的區(qū)域,那么片段鑒別部分就將所述幀鑒別為噪聲片段。
      39.如權(quán)利要求31所述的方法,其特征在于,如果不存在其對(duì)數(shù)能量大于信號(hào)閾值的區(qū)域并且不存在其對(duì)數(shù)能量小于噪聲閾值的區(qū)域,那么片段鑒別部分確定當(dāng)前幀的片段與前一幀的片段相同。
      40.如權(quán)利要求31所述的方法,其特征在于,所述片段鑒別部分通過如下表達(dá)式鑒別當(dāng)前幀是語(yǔ)音片段還是噪聲片段IF(E1>Ts1OR E2>Ts2OR Ek>Tsk),那么鑒別所述幀為語(yǔ)音片段ELSE IF(E1<Tn1OR E2<Tn2OR Ek<Tnk),那么鑒別所述幀為噪聲片段ELSE鑒別所述片段為前一幀所鑒別出的片段其中E是每一區(qū)域的對(duì)數(shù)能量,Ts是用于每一區(qū)域的信號(hào)閾值,Tn是用于每一區(qū)域的噪聲閾值,而k是所述幀被劃分成的數(shù)目。
      41.如權(quán)利要求31所述的方法,其特征在于,當(dāng)確定所述幀是語(yǔ)音片段時(shí),所述信號(hào)閾值計(jì)算部分為該幀的每一部分計(jì)算所述語(yǔ)音對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述信號(hào)閾值。
      42.如權(quán)利要求41所述的方法,其特征在于,由以下數(shù)學(xué)表達(dá)式算出按區(qū)域更新的信號(hào)閾值Tsk=μsk+αsk*δsk其中μ是所述幀第k個(gè)區(qū)域的語(yǔ)音對(duì)數(shù)能量的平均值,δ是所述幀第k個(gè)區(qū)域的語(yǔ)音對(duì)數(shù)能量的標(biāo)準(zhǔn)差的值,α是滯后值,Tsk是信號(hào)閾值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
      43.如權(quán)利要求41所述的方法,其特征在于,由如下數(shù)學(xué)表達(dá)式算出所述平均值和標(biāo)準(zhǔn)差的值μsk(t)=γ*μsk(t-1)+(1-γ)*Ek[Ek2]mean(t)=&gamma;*[Ek2]mean(t-1)+(1-&gamma;)*Ek2]]>&delta;sk(t)=root([Ek2]mean(t)-[&mu;sk(t)]2)]]>其中μsk(t-1)是前一幀第k個(gè)區(qū)域的語(yǔ)音對(duì)數(shù)能量的平均值,Ek是所述幀(當(dāng)前幀)第k個(gè)區(qū)域的語(yǔ)音對(duì)數(shù)能量,δsk(t)是所述幀第k個(gè)區(qū)域的語(yǔ)音對(duì)數(shù)能量的標(biāo)準(zhǔn)差的值,γ是加權(quán)值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
      44.如權(quán)利要求31所述的方法,其特征在于,當(dāng)鑒別所述當(dāng)前幀為噪聲片段時(shí),所述信號(hào)閾值計(jì)算部分為該幀的每一部分計(jì)算所述噪聲對(duì)數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述信號(hào)閾值。
      45.如權(quán)利要求44所述的方法,其特征在于,由以下數(shù)學(xué)表達(dá)式算出按區(qū)域更新的信號(hào)閾值Tnk=μnk+βnk*δnk其中μ是所述幀第k個(gè)區(qū)域的噪聲對(duì)數(shù)能量的平均值,δ是所述幀第k個(gè)區(qū)域的噪聲對(duì)數(shù)能量的標(biāo)準(zhǔn)差的值,βnk是所述幀第k個(gè)區(qū)域的滯后值,Tnk是信號(hào)閾值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
      46.如權(quán)利要求45所述的方法,其特征在于,由如下數(shù)學(xué)表達(dá)式算出所述平均值和標(biāo)準(zhǔn)差的值μnk(t)=γ*μnk(t-1)+(1-γ)*Ek[Ek2]mean(t)=&gamma;*[Ek2]mean(t-1)+(1-&gamma;)*Ek2]]>&delta;nk(t)=root([Ek2]mean(t)-[&mu;nk(t)]2)]]>其中μnk(t-1)是前一幀第k個(gè)區(qū)域的噪聲對(duì)數(shù)能量的平均值,Ek是所述幀(當(dāng)前幀)第k個(gè)區(qū)域的噪聲對(duì)數(shù)能量,δnk(t)是所述幀第k個(gè)區(qū)域的噪聲對(duì)數(shù)能量的標(biāo)準(zhǔn)差的值,γ是加權(quán)值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
      全文摘要
      一種用于檢測(cè)語(yǔ)音信號(hào)處理設(shè)備的語(yǔ)音片段的方法和裝置。根據(jù)噪聲的頻率特性將臨界頻帶劃分為特定數(shù)目的區(qū)域,按每一幀的區(qū)域設(shè)置自適應(yīng)信號(hào)閾值和自適應(yīng)噪聲閾值,并且通過比較按每一幀的區(qū)域算出的所述對(duì)數(shù)能量與按區(qū)域設(shè)置的信號(hào)閾值和噪聲閾值來確定每一幀是語(yǔ)音片段還是噪聲片段。這樣,即使在噪聲環(huán)境內(nèi)也可通過使用較小操作量而快速并精確地檢測(cè)語(yǔ)音片段。
      文檔編號(hào)G10L11/00GK1805007SQ20051012679
      公開日2006年7月19日 申請(qǐng)日期2005年11月21日 優(yōu)先權(quán)日2004年11月20日
      發(fā)明者禹敬浩 申請(qǐng)人:Lg電子株式會(huì)社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1