在處理語音信號中通過把語音作為目標和忽略噪聲以降噪的系統(tǒng)及方法

文檔序號：2824836閱讀：434來源：國知局

專利名稱：在處理語音信號中通過把語音作為目標和忽略噪聲以降噪的系統(tǒng)及方法
技術(shù)領(lǐng)域：
本發(fā)明涉及在處理語音信號中的降噪。更具體地說，本發(fā)明涉及使用自適應濾波器以從含有噪聲的語音信號中提取語音信息。相關(guān)技術(shù)的描述自動語音識別系統(tǒng)(“ASR”)將含有口頭語言的音頻信號轉(zhuǎn)換成文本。這種系統(tǒng)的“前端”通過從目標語音信號中提取關(guān)鍵性的識別語音的“特征”來初始化轉(zhuǎn)換過程。當目標語音信號被噪聲損壞時，ASR系統(tǒng)的特征提取性能顯著地降低。事實上，噪聲阻礙了 ASR系統(tǒng)在眾多其他實踐應用中的廣泛使用。任何其他的使用口頭語言作為輸入信號并為了使該信號被更加清晰地聽見或理解的目的而處理該信號的通訊或聽覺系統(tǒng)同樣如此，例如助聽器、頭戴耳機、或無線電設(shè)備、有線或基于互聯(lián)網(wǎng)的聲音通訊。當前的降噪系統(tǒng)試圖通過將噪聲建模并將其從信號中減去以降低噪聲。這些系統(tǒng)需要準確評估噪聲信號。然而，由于噪聲信號的不穩(wěn)定性使準確評估非常困難，并且當噪聲不同于所述模型或如果噪聲隨時間變化時，這些技術(shù)失效或限制了其有效性。其他的方法依賴于試圖訓練ASR系統(tǒng)識別被噪聲損壞的語音的訓練模型。然而，環(huán)境噪聲和系統(tǒng)噪聲的幅值通常太大或過于動態(tài)而不能產(chǎn)生具有必要的可靠性的訓練模型。最后，其他的方法試圖利用語音的諧波特性來改善語音識別。然而，檢測和跟蹤語音的諧波結(jié)構(gòu)的先前嘗試是不足夠的。發(fā)明概述本發(fā)明涉及一種使用濾波器以從包含人類語音的噪聲信號中提取語音信息和忽略所提取資料的不攜帶語音信息的部分的系統(tǒng)及方法。本發(fā)明的某些實施方式涉及集中于被噪聲損壞最輕的諧波子集。本發(fā)明的某些實施方式涉及忽略具有低信噪比的信號諧波。某些實施方式涉及忽略與語音不一致的振幅調(diào)制。本發(fā)明的目前優(yōu)選的實施方式涉及處理信號的系統(tǒng)，所述系統(tǒng)集中于被噪聲損壞最輕的諧波子集，忽略具有低信噪比的信號諧波，和忽略與語音不一致的振幅調(diào)制。本發(fā)明的某些實施方式涉及一種具有處理器的系統(tǒng)，所述處理器包括多個用于執(zhí)行自動語音提取的處理模塊。在目前優(yōu)選的實施方式中，處理器包括諧波頻率識別器、自適應濾波器應用器、調(diào)制器、功率比構(gòu)造器、低功率諧波消除器、和非語音諧波消除器，其中這些模塊被配置為以這樣的方式處理信號使得集中于被噪聲損壞最輕的諧波子集、忽略具有低信噪比的信號諧波、和忽略與語音不一致的振幅調(diào)制。
附圖
簡述圖IA是依據(jù)本發(fā)明的某些實施方式的說話者發(fā)出含有存儲于音高和其諧波子集中的信息的單詞的頻率隨時間變化的曲線圖；圖IB是依據(jù)本發(fā)明的某些實施方式的語音信號諧波隨時間變化的振幅調(diào)制值的曲線圖；圖2圖示了依據(jù)本發(fā)明的目前優(yōu)選的實施方式的自動語音提取的方法；圖3A圖示了原始聲音信號的聲譜圖；圖;3B圖示了增加了噪聲分量的聲音信號的聲譜圖；圖3C圖示了依據(jù)本發(fā)明的某些實施方式的聲音信號的語音轉(zhuǎn)換重構(gòu)的聲譜圖；圖4A圖示了依據(jù)本發(fā)明的某些實施方式的自動語音提取系統(tǒng)；圖4B圖示了依據(jù)本發(fā)明的目前優(yōu)選的實施方式的包括多個用于執(zhí)行自動語音提取的處理模塊的處理引擎；以及圖5是在計算機系統(tǒng)的示例性形式中的機器的示意性框圖，在計算機系統(tǒng)內(nèi)部可以編程一套指令以使該機器執(zhí)行本發(fā)明的邏輯步驟。本發(fā)明的詳細描述如以上解釋的，眾多建立用于處理計算機可識別的語音的系統(tǒng)的先前嘗試都是以建模和消除噪聲為中心的，并且當噪聲條件不同于其模型時將失敗。事實上，由于這個原因等，當前最先進的ASR系統(tǒng)無論何處也不能接近人的技能。其他的使用聲音輸入的系統(tǒng)同樣如此，例如助聽器、無線電設(shè)備，有線或基于互聯(lián)網(wǎng)的語音通訊系統(tǒng)。另一方面，人類可以可靠地理解在適量的眾多不同類型的噪聲中和在時變條件下的語音。人類并非通過消除噪聲而是通過忽略噪聲并將注意力更強烈地且有選擇地集中于語音信息信號的相關(guān)方面來低效有噪聲的語音信號中的噪聲。我們的降噪方法的目標是比最先進的降噪技術(shù)更加接近人的技能。語音信號由包含基波頻率，即“音高”，和基波頻率的整數(shù)倍，即“諧波”的諧波結(jié)構(gòu)組成。濁音語音呈現(xiàn)出能量集中于音高和諧波處的諧波結(jié)構(gòu)。這意味著在濁音語音中的能量集中于音高的頻率和其整數(shù)倍的諧波頻率中。本發(fā)明是一種檢測和跟蹤所述諧波結(jié)構(gòu)的系統(tǒng)及方法，其中與語音理解最相關(guān)的信號方面被提取。發(fā)明人已經(jīng)注意到，由于相關(guān)能量集中存在于諧波中，音高和其諧波具有最高的局部信噪比。這意味著，當噪聲電平增大時，諧波是突顯于噪聲的信號的最后方面。諧波的振幅調(diào)制編碼用于語音感知的信息。該信息有些冗余地被編碼。因此，通過僅依賴于諧波的子集來傳達語音信息。由于可以通過選擇性注意被噪聲損壞最輕的諧波以接收消息，集中于諧波的子集將進一步提高人類理解語音的能力。本發(fā)明的目前優(yōu)選的實施方式將同樣具有這種選擇性地集中于被噪聲損壞最輕的諧波子集的能力。對于本發(fā)明的目的，術(shù)語“噪聲”將指聲音信號中的任何不需要的噪音，包括但不局限于環(huán)境噪聲、信道噪聲、以及兩者的結(jié)合。存在眾多允許選擇性地集中于被較少損壞的諧波的方法。這些方法可以被單獨使用或結(jié)合使用以選擇性地集中于諧波子集。將在以下更加詳細地解釋這些方法。
圖IA和IB圖示了濁音語音的諧波結(jié)構(gòu)和語音信號的諧波的振幅調(diào)制，其圖示了諧波子集如何傳達大部分的語音信息。圖IA是說話者發(fā)出單詞“一”的頻率隨時間變化的曲線圖。如圖所示，單詞“一” 在時標37開始并進行至時標102。所述濁音語音的諧波結(jié)構(gòu)清晰明顯。如以上解釋的，語音信號的振幅調(diào)制提供了關(guān)于哪些諧波攜帶最多的語音信息的信息。圖IB是以上單詞“一”的發(fā)音的語音信號諧波隨時間變化的振幅調(diào)制值的曲線圖。如在圖IB中所示，振幅調(diào)制的模式表示了語音。例如，在該單詞的結(jié)尾處的“η噪音”期間只有最低的諧波具有較大的能量。如以上解釋的，由于可以通過選擇性注意被噪聲損壞最輕的諧波以接收消息，集中于諧波子集將進一步提高人類理解語音的能力。同樣地，本發(fā)明的目前優(yōu)選的實施方式涉及從可靠的諧波子集重構(gòu)語音的系統(tǒng)及方法。當語音產(chǎn)生時，通過聲道的不斷變化的配置導致了諧波的調(diào)制。發(fā)明人已經(jīng)注意至|J，對語音信息進行編碼的諧波的振幅調(diào)制非常慢大約16ΗΖ。由于觀察到大于16Hz的調(diào)制速率與語音源不一致，因此可以將其濾除，因地可以忽略比大約16Hz更加快速地調(diào)制諧波振幅的噪聲。本發(fā)明的目前優(yōu)選的實施方式涉及通過三個獨立的機制降噪的系統(tǒng)及方法。首先，忽略所有的非諧波能量。其次，忽略具有低信噪比的信號諧波。最后，忽略與語音不一致的振幅調(diào)制。圖2圖示了依據(jù)本發(fā)明的目前優(yōu)選的實施方式的自動語音提取的方法200。所述方法200開始于在自動語音識別系統(tǒng)中傳輸與接收聲音信號201。其次，識別所述聲音信號的音高及其諧波頻率202。通過處理信號本身的固有特性來識別所述聲音信號的音高。在濁音語音期間，表現(xiàn)了強諧波模式。所述諧波是所述音高的整數(shù)倍。一套自適應窄帶濾波器被用來在整個頻譜跟蹤局部最強的能量集中。這些濾波器將鎖定諧波和其他較強的窄頻信號。鎖定的頻率被檢查以選擇與諧波系列一致的頻率。所述音高被選定作為諧波系列的基頻。事實上，不需要濾波器鎖定基頻以確定所述音高。在傳入的語音信號中，所述諧波通過人說話來進行振幅調(diào)制。通過孤立諧波及其與語音源一致的振幅調(diào)制，我們捕獲了許多相關(guān)的語音信息同時忽略了許多不相關(guān)的噪聲。為了重構(gòu)其大部分噪聲被消除的信號，在所述振幅模式在IHz和16Hz之間被帶通濾波以消除與語音源不一致的調(diào)制之后，我們將利用其自身提取的振幅模式調(diào)制每一選定的諧波。一旦所述基頻及其諧波被識別，一個或多個過濾器被應用于信號以忽略非諧波能量203。所述自適應窄帶濾波器通過其窄帶使非諧波能量減弱。所述自適應濾波器使用處理器以從其輸出估計瞬時頻率和振幅。產(chǎn)生其中心頻率等于估計值的窄帶濾波器。計算所述瞬時頻率和此頻率的輸出振幅以提供更加精確的估計值。在本發(fā)明的某些實施方式中，該精準化過程可以被重復更多的次數(shù)直到所述輸出穩(wěn)定。最終的估計值被用作下一步驟中的寬帶濾波器的中心頻率以跟蹤諧波分量。其次，僅調(diào)制所述諧波信號204。在目前優(yōu)選的實施方式中，調(diào)制步驟204包括振幅調(diào)制。
所述方法200繼續(xù)，為振幅調(diào)制的諧波信號構(gòu)造信噪比205并忽略其信噪比降至給定的閾值幅值以下的諧波206以集中注意力于被噪聲損壞最輕的諧波。如以上解釋的，存在眾多允許選擇性地集中于損壞較輕的諧波的方法。這些方法可以被單獨使用或結(jié)合使用以選擇性地集中于諧波子集。在本發(fā)明的某些實施方式中，所述系統(tǒng)通過利用未被損壞的諧波的頻譜的信噪比較高的事實忽略被噪聲損壞的諧波。這些實施方式涉及定義均以諧波為中心的窄帶和寬帶。在某些實施方式中，所述寬帶從所述音高沿兩個方向向外延伸至遠離所述音高預定的距離。在某些實施方式中，所述寬帶在百分比距離延伸至相鄰的較低的諧波和相鄰的較高的諧波。優(yōu)選地，所述寬帶從到相鄰的較低的諧波頻率的實質(zhì)上的一半處延伸至到相鄰的較高的諧波頻率的實質(zhì)上的一半處，其中實質(zhì)上的一半包括在到最近諧波的距離的40%到 60%之間的距離。在某些其他的實施方式中，所述寬帶向相鄰的較低的諧波頻率延伸恰好一半，和向相鄰的較高的諧波頻率延伸恰好一半。同樣地，優(yōu)選地通過跟蹤濾波器確定所述窄帶的帶寬；然而，所述帶寬將小于所述寬帶的帶寬。在未被損壞的語音信號中，幾乎所有的能量都集中在諧波附近。因此，與諧波附近的信噪比相關(guān)的函數(shù)可以被計算作為所述窄帶中的能量與所述寬帶中的能量的比值。因此，忽略其信噪比降至給定的閾值幅值以下的諧波的步驟涉及忽略所述窄帶中的能量與所述寬帶中的能量的比值高于預定的閾值的諧波。在本發(fā)明的某些實施方式中，基于所述系統(tǒng)的期望性能選擇所述預定的閾值。在本發(fā)明的某些其他的實施方式中，所述系統(tǒng)通過利用每一諧波的所估計的頻率受到所述諧波頻率附近的噪聲分量的影響的觀察以忽略被噪聲損壞的諧波。所述噪聲將 “推進(pull) ”諧波估計。由于諧波系列的頻率關(guān)系固定，對于任何給定的諧波，參照剩余的諧波可以被用來計算“期望的”諧波頻率。諧波估計值與其期望值的偏差是在諧波附近的損壞的量度。因此，本發(fā)明的某些實施方式涉及基于所述音高估計出所述諧波的頻率，通過分析所述信號確定所觀察的諧波的實際頻率，確定在所述估計頻率和所觀察的實際頻率之間的偏差值，將所述偏差歸因于噪聲，并忽略偏差值超出預定值的諧波。最后，在本發(fā)明的目前優(yōu)選的實施方式中，所述方法通過使用窄帶中的能量與寬帶中的能量的比值和通過使用與期望值的偏差忽略被噪聲損壞的諧波，其與選擇性地集中于損壞較輕的諧波協(xié)調(diào)使用。最后，所述方法200選擇性地忽略與人類語音不一致的剩余的振幅調(diào)制信號207。在某些實施方式中，與人類語音不一致的振幅調(diào)制通過將所提取的振幅模式通過具有表征人類語音的范圍的帶通濾波器被抑制住。優(yōu)選地，所述帶通濾波器具有IHz至16Hz的范圍。語音信號識別方法200的最終結(jié)果是音頻信號不受噪聲和被復制以最接近地匹配原始信號的主要分量的非關(guān)鍵的識別信息的影響。用于語音識別及其他的聲音信號處理應用的特征提取的現(xiàn)有技術(shù)方法不使用所公開的方法200的步驟來將語音信息從噪聲中分離。在另一方面，所述方法200演示了在顯著的噪聲電平下的可靠跟蹤。例如，圖3A 至圖3C圖示了顯示本發(fā)明的益處的信號的聲譜圖。圖3A圖示了原始聲音信號的聲譜圖。圖:3B圖示了增加了噪聲分量的聲音信號的聲譜圖。最后，圖3C圖示了依據(jù)本發(fā)明的某些實施方式的聲音信號的語音轉(zhuǎn)換重構(gòu)的聲譜圖。如圖所示，所述重構(gòu)精確地再現(xiàn)了沒有噪聲分量的語音信號。在本發(fā)明的某些實施方式中，自動語音提取系統(tǒng)包括被配置成利用執(zhí)行自動語音提取的方法200的信號處理器。圖4A圖示了依據(jù)本發(fā)明的某些實施方式的自動語音提取的基本系統(tǒng)400。依據(jù)圖4A，輸入信號被發(fā)送至與存儲器402耦合的處理器401。在本發(fā)明的目前優(yōu)選的實施方式中，處理器401被配置成執(zhí)行圖2中的方法。同樣在本發(fā)明的目前優(yōu)選的實施方式中，處理器401包括用于執(zhí)行各種需要的執(zhí)行步驟的多個處理模塊。圖4A中的系統(tǒng)400可以包含在任何自動語音識別系統(tǒng)以及利用受到噪聲損壞的言語作為輸入的任何其他的系統(tǒng)或設(shè)備中，包括，但不局限于助聽器，頭戴耳機，或通過有線、無線或因特網(wǎng)進行的語音通訊，包括空對空通訊和地空通訊。圖4B圖示了依據(jù)本發(fā)明的目前優(yōu)選的實施方式的包括多個用于執(zhí)行自動語音提取的處理模塊的處理引擎405。依據(jù)圖4B，處理引擎405包括諧波頻率識別器410、自適應濾波器應用器420、調(diào)制器430、功率比構(gòu)造器440、低功率諧波消除器450和非語音諧波消除器460。依據(jù)本發(fā)明的目前優(yōu)選的實施方式，處理引擎405被配置為執(zhí)行方法200。圖5是在計算機系統(tǒng)1600的示例性形式中的機器的示意性框圖，在計算機系統(tǒng) 1600內(nèi)部可以編程一套指令以使該機器執(zhí)行本發(fā)明的邏輯步驟。在選擇性的實施方式中，所述機器可以包括網(wǎng)絡路由器、網(wǎng)絡交換機、網(wǎng)橋、個人數(shù)字助理(PDA)、移動電話、網(wǎng)絡設(shè)備或任何能夠執(zhí)行一系列指令的機器，所述指令規(guī)定由所述機器采取的動作。計算機系統(tǒng)1600包括處理器1602、主存儲器1604和靜態(tài)存儲器1606，其通過總線1608相互通信。計算機系統(tǒng)1600可以還包括顯示單元1610，例如，液晶顯示器(IXD)或陰極射線管(CRT)。計算機系統(tǒng)1600還包括字母數(shù)字輸入設(shè)備1612，例如，鍵盤；光標控制設(shè)備1614，例如，鼠標；磁盤驅(qū)動單元1616，信號發(fā)生設(shè)備1618，例如，揚聲器，和網(wǎng)絡接口設(shè)備1620。磁盤驅(qū)動單元1616包括機器可讀介質(zhì)1624，在機器可讀介質(zhì)上存儲有一套可執(zhí)行的指令，即軟件16 ，所述軟件包含本文描述的方法的任何一種、或全部。軟件16 也被顯示為完全或至少部分地駐留在主存儲器1604內(nèi)部和/或處理器1602內(nèi)部。軟件16 可以進一步在網(wǎng)絡1628、1630上依靠網(wǎng)絡接口設(shè)備1620被傳輸或接收。與以上論述的系統(tǒng)1600形成對比，一個不同的實施方式使用邏輯電路替代計算機執(zhí)行的指令以實現(xiàn)處理實體。根據(jù)應用在速度、支出、工具成本等方面的特定需要，通過構(gòu)造具有數(shù)以千計的微小的集成晶體管的專用集成電路(ASIC)可以實現(xiàn)這種邏輯。這種 ASIC可以使用CMOS (互補金屬氧化物半導體)，TTL(晶體管-晶體管邏輯)，VLSI (超大規(guī)模系統(tǒng)集成)，或另一合適的結(jié)構(gòu)實現(xiàn)。其他的選擇包括數(shù)字信號處理芯片(DSP)、分立電路(如電阻器、電容器、二極管、電感器和晶體管)、現(xiàn)場可編程門陣列(FPGA)、可編程邏輯陣列(PLA)、可編程邏輯器件(PLD)、以及其他類似物。應該理解，實施方式可以被用來作為或支持在某種形式的處理核(如計算機的 CPU)上執(zhí)行或以其他方式在機器或計算機可讀介質(zhì)上或其內(nèi)部實施或?qū)崿F(xiàn)的軟件程序或軟件模塊。機器可讀介質(zhì)包括用于以機器(例如計算機)可讀的形式存儲或傳輸信息的任何機制。例如，機器可讀介質(zhì)包括只讀存儲器(ROM)；隨機訪問存儲器(RAM)；磁盤存儲介質(zhì)；光學存儲介質(zhì)；閃存設(shè)備；電學、光學、聲學或其他形式的傳播信號，例如，載波、紅外信號、數(shù)字信號等等；或任何其他類型的適用于存儲或傳輸信息的介質(zhì)。
熟悉本領(lǐng)域的那些技術(shù)人員將理解，本發(fā)明可以體現(xiàn)在其他具體的形式中而沒有偏離本發(fā)明的精神或必要特征。同樣地，構(gòu)件、特征、屬性，以及其他方面的特定命名和分類都不是強制的或重要的，以及實施本發(fā)明的機制或其特征可以具有不同的名稱、分類和/ 或格式。因此，本發(fā)明的公開內(nèi)容意在解釋說明本發(fā)明的范圍，并非意在限制本發(fā)明的范圍，本發(fā)明的范圍在以下權(quán)利要求中提出。
權(quán)利要求
1.一種在自動語音提取系統(tǒng)中把語音作為目標和忽略噪聲的方法，包括以下步驟在自動語音提取系統(tǒng)中接收聲音信號；識別所述聲音信號的基頻；識別所述基頻的一個或多個諧波；將濾波器應用于所述基頻和所述一個或多個諧波，因而形成一個或多個僅有諧波的信號；對所述一個或多個僅有諧波的信號執(zhí)行振幅調(diào)制；為所述一個或多個僅有諧波的信號構(gòu)造一個或多個信噪比；忽略所述一個或多個僅有諧波的信號中的信噪比落入閾值幅值以下的一個或多個信號；以及忽略所述一個或多個僅有諧波的信號中的振幅調(diào)制與人類語音不一致的一個或多個信號；其中輸出最終信號。
2.如權(quán)利要求1所述的處理聲音信號的方法，其中識別所述聲音信號的基頻的步驟還包括給被配置用于處理所述聲音信號的處理器提供數(shù)字濾波器。
3.如權(quán)利要求2所述的處理聲音信號的方法，其中所述數(shù)字濾波器包括一個或多個自適應窄帶濾波器，所述自適應窄帶濾波器被配置成在所述聲音信號的整個頻譜上跟蹤所述聲音信號的局部最強的能量集中。
4.如權(quán)利要求3所述的處理聲音信號的方法，還包括配置所述處理器以用于選擇與諧波系列一致的局部最強的能量集中，和選擇與所述局部最強的能量集中相關(guān)聯(lián)的頻率作為所述基頻。
5.如權(quán)利要求4所述的處理聲音信號的方法，還包括配置所述處理器以用于選擇與所述諧波系列一致的一個或多個另外的局部較強的能量集中，和選擇與所述諧波系列一致的頻率作為所述基頻的諧波。
6.如權(quán)利要求3所述的處理聲音信號的方法，其中配置所述一個或多個自適應窄帶濾波器的步驟還包括生成估計的中心頻率；使用所述估計的中心頻率計算所述聲音信號的瞬時頻率和振幅，因而提供更加精確的中心頻率；以及用所述更加精確的中心頻率替換所述估計的中心頻率。
7.如權(quán)利要求1所述的處理聲音信號的方法，其中忽略所述一個或多個僅有諧波的信號中的信噪比落入閾值幅值以下的一個或多個信號的步驟還包括定義至少一個寬帶，所述至少一個寬帶以所述基頻為中心，并從到相鄰的較低的諧波頻率的實質(zhì)上的一半處延伸至到相鄰的較高的諧波頻率的實質(zhì)上的一半處；定義至少一個以所述基頻為中心的窄帶，其中所述窄帶的帶寬小于所述寬帶的帶寬；計算所述窄帶中的能量與所述寬帶中的能量的比值；以及忽略所述一個或多個僅有諧波的信號中的在所述窄帶中的能量與在所述寬帶中的能量的比值高于閾值的一個或多個信號。
8.如權(quán)利要求1所述的處理聲音信號的方法，其中忽略所述一個或多個僅有諧波的信號中的信噪比落入閾值幅值以下的一個或多個信號的步驟還包括基于所述基頻估計一個或多個諧波的頻率；確定在識別所述基頻的一個或多個諧波的步驟中觀察的所述一個或多個諧波的實際頻率；確定在所述一個或多個諧波的估計頻率和所述一個或多個諧波的實際頻率之間的偏差值；以及忽略所述一個或多個僅有諧波的信號中的偏差值超出預定值的一個或多個信號。
9.如權(quán)利要求1所述的處理聲音信號的方法，其中忽略所述一個或多個僅有諧波的信號中的信噪比落入閾值幅值以下的一個或多個信號的步驟還包括定義至少一個寬帶，所述至少一個寬帶以所述基頻為中心，并從到相鄰的較低的諧波頻率的實質(zhì)上的一半處延伸至到相鄰的較高的諧波頻率的實質(zhì)上的一半處；定義至少一個以所述基頻為中心的窄帶，其中所述窄帶的帶寬小于所述寬帶的帶寬；計算所述窄帶中的能量與所述寬帶中的能量的比值；以及忽略所述一個或多個僅有諧波的信號中的在所述窄帶中的能量與在所述寬帶中的能量的比值高于閾值的一個或多個信號；基于所述基頻估計一個或多個諧波的頻率；確定在識別所述基頻的一個或多個諧波的步驟中觀察的所述一個或多個諧波的實際頻率；確定在所述一個或多個諧波的估計頻率和所述一個或多個諧波的實際頻率之間的偏差值；以及忽略所述一個或多個僅有諧波的信號中的偏差值超出預定值的一個或多個信號。
10.如權(quán)利要求1所述的處理聲音信號的方法，其中忽略所述一個或多個僅有諧波的信號中的振幅調(diào)制與人類語音不一致的一個或多個信號的步驟還包括使所述振幅調(diào)制通過具有IHz到16Hz的范圍的帶通濾波器。
11.一種存儲有指令的可執(zhí)行的計算機可讀介質(zhì)，當執(zhí)行所述指令時，執(zhí)行權(quán)利要求1 的方法。
12.一種用于處理聲音信號以進行自動語音提取的裝置，所述裝置包括聲音信號輸入設(shè)備，其被配置為在自動語音提取系統(tǒng)中接收聲音信號；處理器，其可操作地與存儲設(shè)備和所述聲音信號輸入設(shè)備耦合，其中所述處理器包括多個處理模塊，所述多個處理模塊包括諧波頻率識別器，其被配置為識別所述聲音信號的基頻；濾波器應用器，其被配置為將濾波器應用于所述基頻和所述一個或多個諧波，因而形成一個或多個僅有諧波的信號；調(diào)制器，其被配置為對所述一個或多個僅有諧波的信號執(zhí)行振幅調(diào)制；功率比構(gòu)造器，其被配置為構(gòu)造所述一個或多個僅有諧波的信號的一個或多個信噪比；低功率諧波消除器，其被配置為忽略所述一個或多個僅有諧波的信號中的信噪比落入閾值幅值以下的一個或多個信號；以及非語音諧波消除器，其被配置為忽略所述一個或多個僅有諧波的信號中的振幅調(diào)制與人類語音不一致的一個或多個信號；以及處理過的信號被輸出。
13.如權(quán)利要求12所述的裝置，其中所述濾波器應用器被配置有一個或多個自適應窄帶濾波器，所述自適應窄帶濾波器被配置成在所述聲音信號的整個頻譜上跟蹤所述聲音信號的局部最強的能量集中。
14.如權(quán)利要求13所述的裝置，其中所述濾波器應用器被配置為選擇與諧波系列一致的局部最強的能量集中，和選擇與該局部最強的能量集中相關(guān)聯(lián)的頻率作為所述基頻。
15.如權(quán)利要求14所述的裝置，其中所述濾波器應用器被配置為選擇與所述諧波系列一致的一個或多個另外的局部較強的能量集中，和選擇與所述諧波系列一致的頻率作為所述基頻的諧波。
16.如權(quán)利要求12所述的裝置，其中所述低功率諧波消除器還被配置為定義至少一個寬帶，所述至少一個寬帶以所述基頻為中心，并從到相鄰的較低的諧波頻率的實質(zhì)上的一半處延伸至到相鄰的較高的諧波頻率的實質(zhì)上的一半處；定義至少一個以所述基頻為中心的窄帶，其中所述窄帶的帶寬小于所述寬帶的帶寬；計算所述窄帶中的能量與所述寬帶中的能量的比值；以及忽略所述一個或多個僅有諧波的信號中的在所述窄帶中的能量與在所述寬帶中的能量的比值高于一閾值的一個或多個信號。
17.如權(quán)利要求12所述的裝置，其中所述低功率諧波消除器還被配置為基于所述基頻估計一個或多個諧波的頻率，確定在識別所述基頻的一個或多個諧波的步驟中觀察的所述一個或多個諧波的實際頻率，確定在所述一個或多個諧波的估計頻率和所述一個或多個諧波的實際頻率之間的偏差值，以及忽略所述一個或多個僅有諧波的信號中的偏差值超出預定值的一個或多個信號。
18.如權(quán)利要求12所述的裝置，其中所述低功率諧波消除器還被配置為定義至少一個寬帶，所述至少一個寬帶以所述基頻為中心，并從到相鄰的較低的諧波頻率的實質(zhì)上的一半處延伸至到相鄰的較高的諧波頻率的實質(zhì)上的一半處；定義至少一個以所述基頻為中心的窄帶，其中所述窄帶的帶寬小于所述寬帶的帶寬；計算所述窄帶中的能量與所述寬帶中的能量的比值；忽略所述一個或多個僅有諧波的信號中的所述窄帶中的能量與所述寬帶中的能量的比值高于閾值的一個或多個信號；基于所述基頻估計一個或多個諧波的頻率；確定在識別所述基頻的一個或多個諧波的步驟中觀察的所述一個或多個諧波的實際頻率；確定在所述一個或多個諧波的估計頻率和所述一個或多個諧波的實際頻率之間的偏差值；以及忽略所述一個或多個僅有諧波的信號中的偏差值超出預定值的一個或多個信號。
19.如權(quán)利要求12所述的裝置，其中所述非語音諧波消除器被配置為通過使所述振幅調(diào)制經(jīng)過具有IHz至16Hz的范圍的帶通濾波器以忽視所述一個或多個僅有諧波的信號中的一個或多個信號。
20.一種處理聲音信號以進行自動語音提取的方法，所述方法包括以下步驟在自動語音提取系統(tǒng)中接收聲音信號；識別所述聲音信號的基頻；識別所述基頻的一個或多個諧波；將濾波器應用于所述基頻和所述一個或多個諧波，因而形成一個或多個僅有諧波的信號；對所述一個或多個僅有諧波的信號執(zhí)行振幅調(diào)制；構(gòu)造所述一個或多個僅有諧波的信號的一個或多個信噪比；忽略所述一個或多個僅有諧波的信號中的信噪比落入閾值幅值以下的一個或多個信號，該步驟還包括定義至少一個寬帶，所述至少一個寬帶以所述基頻為中心，并從到相鄰的較低的諧波頻率的實質(zhì)上的一半處延伸至到相鄰的較高的諧波頻率的實質(zhì)上的一半處；定義至少一個以所述基頻為中心的窄帶，其中所述窄帶的帶寬小于所述寬帶的帶寬；計算所述窄帶中的能量與所述寬帶中的能量的比值；以及忽略所述一個或多個僅有諧波的信號中的在所述窄帶中的能量與在所述寬帶中的能量的比值高于閾值的一個或多個信號；基于所述基頻估計一個或多個諧波的頻率；確定在識別所述基頻的一個或多個諧波的步驟中觀察的所述一個或多個諧波的實際頻率；確定在所述一個或多個諧波的估計頻率和所述一個或多個諧波的實際頻率之間的偏差值；以及忽略所述一個或多個僅有諧波的信號中的偏差值超出預定值的一個或多個信號；以及忽略所述一個或多個僅有諧波的信號中的振幅調(diào)制與人類語音不一致的一個或多個信號；其中輸出最終的信號。
全文摘要
一種用于處理在噪聲信道中傳遞或具有環(huán)境噪聲的語音信號的系統(tǒng)及方法，所述系統(tǒng)及方法集中于被噪聲損壞最輕的諧波子集，忽略具有低信噪比的信號諧波，以及忽略與語音不一致的振幅調(diào)制。
文檔編號G10L21/02GK102483926SQ201080033092
公開日2012年5月30日申請日期2010年7月27日優(yōu)先權(quán)日2009年7月27日
發(fā)明者馬克·品森申請人:Scti控股公司

完整全部詳細技術(shù)資料下載