依賴于情境的瞬態(tài)抑制的制作方法
【專利摘要】所提供的是用于提供對(duì)于音頻信號(hào)的依賴于情境的瞬態(tài)噪聲抑制的方法和系統(tǒng)。取決于每個(gè)參與者是否在講話(音頻的濁音段或清音段/非語(yǔ)音段是否存在),將不同策略(例如,侵略性的層級(jí))的瞬態(tài)抑制和信號(hào)恢復(fù)應(yīng)用在與視頻/音頻會(huì)議中的參與者相關(guān)聯(lián)的音頻信號(hào)上。如果參與者未在講話或者存在清音聲音/非語(yǔ)音聲音,用于瞬態(tài)抑制和信號(hào)恢復(fù)的較高侵略性策略可以被利用。在另一方面,檢測(cè)到濁音音頻(例如,參與者正在講話)的情況下,方法和系統(tǒng)應(yīng)用較輕柔、較低侵略性的抑制和恢復(fù)過(guò)程。
【專利說(shuō)明】
依賴于情境的瞬態(tài)抑制
【背景技術(shù)】
[0001]在典型的音頻或視頻通話(尤其是在涉及許多參與者的音頻或視頻通話)中,由未講話的參與者生成的噪聲能夠影響正在講話的參與者的話音,由此導(dǎo)致注意力分散或者甚至打斷對(duì)話。一種示例場(chǎng)景是,會(huì)議通話的每個(gè)參與者都使用他或她自己的計(jì)算機(jī)來(lái)連接到通話并且還使用該計(jì)算機(jī)來(lái)并行地進(jìn)行任務(wù)(例如,鍵入關(guān)于通話的筆記)。雖然計(jì)算機(jī)(例如,膝上型計(jì)算機(jī))中內(nèi)嵌的麥克風(fēng)、揚(yáng)聲器、和網(wǎng)絡(luò)攝像機(jī)已經(jīng)使會(huì)議通話的建立變得很容易,但是這些特征也引入了特定的噪聲滋擾,諸如反饋、風(fēng)扇噪聲和敲鍵噪聲。通常由按鍵輸入所導(dǎo)致的機(jī)械脈沖引起的敲鍵噪聲能夠包括令人不快的敲鍵聲,除了主對(duì)話外通話的所有參與者都能夠聽(tīng)到該敲鍵聲。例如,在膝上型計(jì)算機(jī)的場(chǎng)境中,由于膝上型計(jì)算機(jī)外殼內(nèi)的麥克風(fēng)與鍵盤(pán)之間的機(jī)械連接,敲鍵噪聲能夠是極大的滋擾。
[0002]諸如敲鍵聲的瞬態(tài)噪聲對(duì)全體用戶體驗(yàn)的影響取決于其發(fā)生時(shí)的情境。例如,與靜默時(shí)段期間或僅存在背景噪聲的情況期間相比,在活躍的濁音話音段中,與來(lái)自正在講話的參與者的語(yǔ)音混合的敲鍵聲被更好地遮蓋而較少被其他參與者察覺(jué)。在后面這些情境下,敲鍵聲可能更容易被參與者注意并且被感知為較大的煩擾或干擾。
【發(fā)明內(nèi)容】
[0003]本
【發(fā)明內(nèi)容】
以簡(jiǎn)化的形式介紹了概念的選擇,從而提供對(duì)本公開(kāi)的一些方面的基本理解。本
【發(fā)明內(nèi)容】
不是本公開(kāi)的廣泛概述,也并非旨在標(biāo)識(shí)本公開(kāi)的關(guān)鍵的或重要的元素,也并非旨在記述本公開(kāi)的范圍。本
【發(fā)明內(nèi)容】
僅呈現(xiàn)本公開(kāi)的概念中的一些以作為下文所提供的【具體實(shí)施方式】的前序。
[0004]本公開(kāi)大體涉及用于信號(hào)處理的方法和系統(tǒng)。更具體地,本公開(kāi)的方面涉及考慮到所檢測(cè)到的瞬態(tài)和已分類的段,在不同類型的音頻段(例如,濁音話音段、清音段等)上執(zhí)行不同類型或量的噪聲抑制。
[0005]本公開(kāi)的一個(gè)實(shí)施例涉及用于抑制音頻信號(hào)中的瞬態(tài)噪聲的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括估計(jì)包含瞬態(tài)噪聲的所述音頻信號(hào)的段語(yǔ)音概率,所估計(jì)的語(yǔ)音概率是所述段包含語(yǔ)音數(shù)據(jù)的概率;響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率大于閾值概率,在所述段上執(zhí)行第一類型的抑制;以及響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率小于所述閾值概率,在所述段上執(zhí)行第二類型的抑制,其中所述第二類型的抑制將包含在所述段中的所述瞬態(tài)噪聲抑制到與所述第一類型的抑制不同的程度。
[0006]在另一實(shí)施例中,用于抑制瞬態(tài)噪聲的方法進(jìn)一步包括將所述段的所估計(jì)的語(yǔ)音概率與閾值概率進(jìn)行比較;以及基于所述比較來(lái)確定所估計(jì)的語(yǔ)音概率大于所述閾值概率。
[0007]在又另一實(shí)施例中,用于抑制瞬態(tài)噪聲的方法進(jìn)一步包括將所述段的所估計(jì)的語(yǔ)音概率與閾值概率進(jìn)行比較;以及基于所述比較來(lái)確定所估計(jì)的語(yǔ)音概率小于所述閾值概率。
[0008]在又另一實(shí)施例中,用于抑制瞬態(tài)噪聲的方法進(jìn)一步包括接收所述音頻信號(hào)的所述段的所估計(jì)的瞬態(tài)概率,所估計(jì)的瞬態(tài)概率是瞬態(tài)噪聲存在于所述段中的概率;以及基于所接收的所估計(jì)的瞬態(tài)概率,確定所述音頻信號(hào)的所述段包含瞬態(tài)噪聲。
[0009]本公開(kāi)的另一實(shí)施例涉及用于抑制音頻信號(hào)中的瞬態(tài)噪聲的系統(tǒng),所述系統(tǒng)包括至少一個(gè)處理器以及被耦合至所述至少一個(gè)處理器的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可讀介質(zhì)具有存儲(chǔ)于其上的指令,當(dāng)由所述至少一個(gè)處理器執(zhí)行所述指令時(shí),致使所述至少一個(gè)處理器:估計(jì)包含瞬態(tài)噪聲的所述音頻信號(hào)的段的語(yǔ)音概率,所估計(jì)的語(yǔ)音概率是所述段包含語(yǔ)音數(shù)據(jù)的概率;響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率大于閾值概率,在所述段上執(zhí)行第一類型的抑制;以及響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率小于所述閾值概率,在所述段上執(zhí)行第二類型的抑制;其中所述第二類型的抑制將包含在所述段中的所述瞬態(tài)噪聲抑制到與所述第一類型的抑制不同的程度。
[0010]在另一實(shí)施例中,進(jìn)一步致使用于抑制瞬態(tài)噪聲的所述系統(tǒng)中的所述至少一個(gè)處理器識(shí)別聲帶振動(dòng)的所述段的區(qū)域;以及確定聲帶振動(dòng)的所述段的所述區(qū)域是包含濁音話音的區(qū)域。
[0011]在又另一實(shí)施例中,進(jìn)一步致使用于抑制瞬態(tài)噪聲的所述系統(tǒng)中的所述至少一個(gè)處理器將所述段的所估計(jì)的語(yǔ)音概率與閾值概率進(jìn)行比較;以及基于所述比較來(lái)確定所估計(jì)的語(yǔ)音概率大于所述閾值概率。
[0012]在又另一實(shí)施例中,進(jìn)一步致使用于抑制瞬態(tài)噪聲的所述系統(tǒng)中的所述至少一個(gè)處理器將所述段的所估計(jì)的語(yǔ)音概率與閾值概率進(jìn)行比較;以及基于所述比較來(lái)確定所估計(jì)的語(yǔ)音概率小于所述閾值概率。
[0013]在另一實(shí)施例中,進(jìn)一步致使用于抑制瞬態(tài)噪聲的所述系統(tǒng)中的所述至少一個(gè)處理器接收所述音頻信號(hào)的所述段的所估計(jì)的瞬態(tài)概率,所估計(jì)的瞬態(tài)概率是瞬態(tài)噪聲存在于所述段中的概率;以及基于所接收的所估計(jì)的瞬態(tài)概率,確定所述音頻信號(hào)的所述段包含瞬態(tài)噪聲。
[0014]本公開(kāi)的另一實(shí)施例涉及用于抑制音頻信號(hào)中的瞬態(tài)噪聲的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括:估計(jì)包含瞬態(tài)噪聲的所述音頻信號(hào)的段的語(yǔ)音概率,所估計(jì)的語(yǔ)音概率是所述段包含語(yǔ)音數(shù)據(jù)的概率;響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率與第一語(yǔ)音狀態(tài)相對(duì)應(yīng),在所述段上執(zhí)行第一類型的抑制;以及響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率與第二語(yǔ)音狀態(tài)相對(duì)應(yīng),在所述段上執(zhí)行第二類型的抑制,其中所述第二類型的抑制將包含在所述段中的所述瞬態(tài)噪聲抑制到與所述第一類型的抑制不同的程度。
[0015]在又另一實(shí)施例中,用于抑制瞬態(tài)噪聲的所述方法進(jìn)一步包括,響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率與第三語(yǔ)音狀態(tài)相對(duì)應(yīng),在所述段上執(zhí)行第三類型的抑制,其中所述第三類型的抑制將包含在所述段中的所述瞬態(tài)噪聲抑制到與所述第一類型和所述第二類型的抑制不同的程度。
[0016]在一個(gè)或多個(gè)其他實(shí)施例中,本文所述的方法和系統(tǒng)可以選擇性地包括以下附加特征中的一個(gè)或多個(gè):所估計(jì)的語(yǔ)音概率基于從基音估計(jì)器所接收的濁音度信息;估計(jì)所述音頻信號(hào)的所述段的所述語(yǔ)音概率包括識(shí)別包含濁音話音的所述段的區(qū)域;識(shí)別包含濁音話音的所述段的區(qū)域包括識(shí)別聲帶振動(dòng)的所述段的區(qū)域;所述音頻信號(hào)的所述段的所估計(jì)的語(yǔ)音概率基于被接收用于所述音頻信號(hào)的所述段的語(yǔ)音活動(dòng)數(shù)據(jù);所述第二類型的抑制將包含在所述段中的所述瞬態(tài)噪聲抑制到比所述第一類型的抑制更大的程度;和/或所述第二類型的抑制將包含在所述段中的所述瞬態(tài)噪聲抑制到比所述第一類型的抑制更小的程度。
[0017]根據(jù)以下給出的【具體實(shí)施方式】,本公開(kāi)進(jìn)一步的適用范圍將變得顯而易見(jiàn)。然而,應(yīng)當(dāng)理解,盡管指示了優(yōu)選實(shí)施例,但【具體實(shí)施方式】和具體示例僅以圖示說(shuō)明的方式給出,這是因?yàn)楦鶕?jù)此【具體實(shí)施方式】,本公開(kāi)的精神和范圍內(nèi)的各種變化和修改對(duì)于本領(lǐng)域技術(shù)人員將變得顯而易見(jiàn)。
【附圖說(shuō)明】
[0018]根據(jù)結(jié)合所附權(quán)利要求和附圖對(duì)以下【具體實(shí)施方式】的學(xué)習(xí),本公開(kāi)的這些以及其他目的、特征和特性對(duì)于本領(lǐng)域技術(shù)人員將變得顯而易見(jiàn),其全部?jī)?nèi)容形成本說(shuō)明書(shū)的一部分。在附圖中:
[0019]圖1為圖示根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例的依賴于情境的噪聲抑制的示例應(yīng)用的不意圖。
[0020]圖2為圖示根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例的用于依賴于情境的瞬態(tài)噪聲抑制的示例系統(tǒng)的框圖。
[0021]圖3為圖示根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例的用于音頻信號(hào)的瞬態(tài)噪聲抑制和恢復(fù)的示例方法的流程圖。
[0022]圖4為圖示根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例的用于基于確定音頻信號(hào)包含清音/非話音音頻數(shù)據(jù)的音頻信號(hào)的恢復(fù)的示例方法的流程圖。
[0023]圖5為圖示根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例的用于基于確定音頻信號(hào)包含語(yǔ)音數(shù)據(jù)的音頻信號(hào)的恢復(fù)的示例方法的流程圖。
[0024]圖6為圖示根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例的為了依賴于情境的瞬態(tài)噪聲抑制所布置的示例計(jì)算設(shè)備的框圖。
[0025]本文提供的標(biāo)題僅僅為了方便起見(jiàn),并且未必影響本公開(kāi)中所要求保護(hù)的范圍或內(nèi)涵。
[0026]在附圖中,為了便于理解和方便,相同附圖標(biāo)記和任何縮略語(yǔ)識(shí)別具有相同或相似結(jié)構(gòu)或功能的元素或動(dòng)作。在以下【具體實(shí)施方式】的過(guò)程中將詳細(xì)描述附圖。
【具體實(shí)施方式】
[0027]現(xiàn)在將描述各種示例和實(shí)施例。以下描述提供了用于全面理解以及使能對(duì)這些示例進(jìn)行描述的具體細(xì)節(jié)。然而相關(guān)領(lǐng)域技術(shù)人員將理解,本文所述的一個(gè)或多個(gè)實(shí)施例可以在沒(méi)有這些細(xì)節(jié)中的許多的情況下被實(shí)踐。同樣,相關(guān)領(lǐng)域技術(shù)人員還將理解,本公開(kāi)的一個(gè)或多個(gè)實(shí)施例能夠包括本文未詳細(xì)描述的許多其他明顯特征。此外,以下可以不對(duì)一些公知的結(jié)構(gòu)或功能詳細(xì)示出或描述,從而防止不必要地模糊相關(guān)描述。
[0028]在現(xiàn)有的噪聲抑制方法論的場(chǎng)境中,在抑制和話音失真之間通常要作出設(shè)計(jì)權(quán)衡。例如,在至少一些現(xiàn)有途徑中,較高的抑制通常要以使經(jīng)過(guò)對(duì)噪聲加以抑制的話音信號(hào)失真為代價(jià)。
[0029]本公開(kāi)的實(shí)施例涉及用于提供對(duì)于音頻信號(hào)的依賴于情境的瞬態(tài)噪聲抑制的方法和系統(tǒng)。鑒于與用于瞬態(tài)噪聲的噪聲抑制的現(xiàn)有途徑相關(guān)的以上所述缺陷,本公開(kāi)的方法和系統(tǒng)被設(shè)計(jì)為在信號(hào)中檢測(cè)到較少話音或未檢測(cè)到話音的情境中,執(zhí)行增大(例如,較高水平或較高侵略性策略)的瞬態(tài)噪聲抑制和信號(hào)恢復(fù);而在信號(hào)的濁音話音段期間,執(zhí)行降低(例如,較低水平或較低侵略性策略)的瞬態(tài)噪聲抑制和信號(hào)恢復(fù)。如以下將更詳細(xì)描述的,考慮到所檢測(cè)到的瞬態(tài)和已分類的段,本公開(kāi)的方法和系統(tǒng)在不同類型的音頻段(例如,濁音話音段、清音段等)期間利用不同類型(例如,量)的噪聲抑制。
[0030]根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例,取決于用戶是否在講話(例如,與用戶相關(guān)聯(lián)的信號(hào)是否包含音頻的濁音段或清音段/非話音段),不同種類(例如,類型、量等)的抑制可以被應(yīng)用在與用戶相關(guān)聯(lián)的音頻信號(hào)。例如,根據(jù)至少一個(gè)實(shí)施例,如果參與者未在講話或者與該參與者相關(guān)聯(lián)的信號(hào)包含清音/非話音音頻段,用于瞬態(tài)抑制和信號(hào)恢復(fù)的較高侵略性的策略可以被用于該參與者的信號(hào)。在另一方面,在參與者的信號(hào)中檢測(cè)到濁音音頻(例如,該參與者正在講話)的情況下,本文所述的方法和系統(tǒng)可以應(yīng)用較輕柔、較低侵略性的抑制和恢復(fù)。
[0031]對(duì)包含濁音音頻的信號(hào)應(yīng)用較輕柔的抑制和恢復(fù)使信號(hào)的任何失真最小化,因此保持了從該信號(hào)所生成的合成的話音的可懂度。通過(guò)根據(jù)對(duì)于每個(gè)信號(hào)所確定的“語(yǔ)音狀態(tài)”來(lái)應(yīng)用不同的抑制和恢復(fù)方案,無(wú)需在抑制所有所檢測(cè)到的瞬態(tài)(并由此使包含在信號(hào)中的話音失真)與完全不執(zhí)行任何抑制(并因此防止失真,但允許信號(hào)包含瞬態(tài))之間進(jìn)行選擇。根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例,例如,可以基于對(duì)于段所生成的語(yǔ)音概率估計(jì)來(lái)對(duì)于音頻段確定語(yǔ)音狀態(tài),其中所述語(yǔ)音概率估計(jì)是該段包含語(yǔ)音數(shù)據(jù)(例如,話音)的概率。
[0032]本文所述的一個(gè)或多個(gè)實(shí)施例涉及噪聲抑制組件,該噪聲抑制組件被配置為抑制從音頻流所檢測(cè)到的包括敲鍵聲在內(nèi)的瞬態(tài)噪聲。例如,根據(jù)至少一個(gè)實(shí)施例,噪聲抑制在頻域中被執(zhí)行并且依賴于假設(shè)已給出的瞬態(tài)噪聲的存在概率。應(yīng)當(dāng)理解,本領(lǐng)域技術(shù)人員已知的各種瞬態(tài)噪聲檢測(cè)器中的任何一種都可以被用于這個(gè)目的。
[0033]圖1圖示出了根據(jù)本公開(kāi)的一個(gè)或多個(gè)實(shí)施例的依賴于情境的瞬態(tài)噪聲抑制的示例應(yīng)用。例如,多個(gè)用戶(例如,參與者、個(gè)人等)120a、120b、120c、一直到120η(其中η為任意數(shù)字)可以參與音頻/視頻通信會(huì)話(例如,音頻/視頻會(huì)議)。例如,用戶120可以通過(guò)有線或無(wú)線連接或網(wǎng)絡(luò)105來(lái)相互通信,并且用戶120中的每一個(gè)可以使用合適的用戶設(shè)備130(例如,膝上型計(jì)算機(jī)、桌面計(jì)算機(jī)、平板計(jì)算機(jī)、智能手機(jī)等)中的任意一種來(lái)參與通信會(huì)話。
[0034]根據(jù)至少一個(gè)實(shí)施例,被用于參與通信會(huì)話的計(jì)算設(shè)備130中的一個(gè)或多個(gè)可以包括作為可能的瞬態(tài)噪聲源的組件或附件。例如,計(jì)算設(shè)備130中的一個(gè)或多個(gè)可以具有鍵盤(pán)或打字板,如果在通信會(huì)話期間所述鍵盤(pán)或打字板被參與者120使用,則可以生成可被其他參與者察覺(jué)(例如,被察覺(jué)為聽(tīng)得見(jiàn)的敲鍵聲或聲音)的瞬態(tài)噪聲。
[0035]圖2圖示出了根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例的用于基于信號(hào)的所確定的語(yǔ)音狀態(tài)在傳入的音頻信號(hào)上執(zhí)行依賴于情境的瞬態(tài)抑制的示例系統(tǒng)。根據(jù)至少一個(gè)實(shí)施例,系統(tǒng)200可以在用于視頻/音頻會(huì)議的通信路徑的發(fā)送側(cè)端點(diǎn)處(例如,在與圖1中示出的用戶120中的一個(gè)或多個(gè)用戶相關(guān)聯(lián)的端點(diǎn)處)操作,并且可以包括瞬態(tài)檢測(cè)器220、語(yǔ)音活動(dòng)檢測(cè)(VAD)單元230、噪聲抑制器240、以及發(fā)射單元270。此外,系統(tǒng)200可以執(zhí)行與以下將更詳細(xì)描述的圖3至圖5所圖示的算法類似的一種或多種算法。
[0036]輸入到檢測(cè)系統(tǒng)200內(nèi)的音頻信號(hào)210可以被傳遞到瞬態(tài)檢測(cè)器220、VAD單元230以及噪聲抑制器240。根據(jù)至少一個(gè)實(shí)施例,瞬態(tài)檢測(cè)器可以被配置為主要或?qū)iT(mén)使用與信號(hào)2相關(guān)聯(lián)的傳入的音頻數(shù)據(jù)來(lái)檢測(cè)音頻信號(hào)210中瞬態(tài)噪聲的存在。例如,瞬態(tài)檢測(cè)器可以利用音頻信號(hào)210的某些時(shí)頻表示(例如,離散小波變換(DWT)、小波包變換(WPT)等)作為預(yù)測(cè)性模型的基礎(chǔ)(例如,通過(guò)利用瞬態(tài)噪聲脈沖與話音信號(hào)之間的頻譜特性和時(shí)間特性的比較)來(lái)識(shí)別信號(hào)中的離群瞬態(tài)噪聲事件。因此,瞬態(tài)檢測(cè)器可以確定存在于信號(hào)210中的瞬態(tài)噪聲的所估計(jì)的概率,并且將該瞬態(tài)概率估計(jì)(225)發(fā)送至噪聲抑制器240。
[0037]VAD單元230可以被配置為分析輸入信號(hào)210并且使用本領(lǐng)域技術(shù)人員已知的各種技術(shù)中的任意來(lái)檢測(cè)語(yǔ)音數(shù)據(jù)是否存在于信號(hào)210中?;谄鋵?duì)信號(hào)210的分析,VAD單元230可以將語(yǔ)音概率估計(jì)(235)發(fā)送至噪聲抑制器240。
[0038]瞬態(tài)概率估計(jì)(225)和語(yǔ)音概率估計(jì)(235)可以被噪聲抑制器240用來(lái)確定將多種類型的抑制/恢復(fù)中的哪一種應(yīng)用到信號(hào)210。如本文將更詳細(xì)描述的,取決于信號(hào)是否包含語(yǔ)音音頻(例如,話音數(shù)據(jù)),噪聲抑制器240可以在音頻信號(hào)210上執(zhí)行“硬”或“軟”恢復(fù)。
[0039]應(yīng)當(dāng)注意到,根據(jù)本公開(kāi)的一個(gè)或多個(gè)其他實(shí)施例,除了以上所述的發(fā)送方側(cè)端點(diǎn)以外或代替該發(fā)送側(cè)端點(diǎn),系統(tǒng)200可以在視頻/音頻會(huì)議中的參與者之間的通信路徑中的其他點(diǎn)處操作。例如,系統(tǒng)200可以在用于在通信路徑的接收者端點(diǎn)處播放的所接收的信號(hào)上執(zhí)行依賴于情境的瞬態(tài)抑制。
[0040]圖3圖示出了根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例的用于音頻信號(hào)的瞬態(tài)噪聲抑制和恢復(fù)的示例過(guò)程。根據(jù)至少一個(gè)實(shí)施例,示例過(guò)程300可以由上文詳細(xì)描述并在圖2中圖示出的用于依賴于情境的瞬態(tài)抑制的示例系統(tǒng)200中的組件中的一個(gè)或多個(gè)來(lái)執(zhí)行。
[0041]如圖所示,取決于音頻段被確定為濁音段還是清音/非話音段,過(guò)程300應(yīng)用不同的抑制策略(例如,塊315和塊320)。例如,在塊305處對(duì)音頻信號(hào)段應(yīng)用快速傅里葉變換(FFT)以將該段變換至頻域后,在塊310處可以做出與該段相關(guān)聯(lián)的語(yǔ)音概率是否大于閾值概率的確定。例如,閾值概率可以是預(yù)定的固定概率。根據(jù)至少一個(gè)實(shí)施例,與音頻段相關(guān)聯(lián)的語(yǔ)音概率基于在示例過(guò)程300之外和/或之前所生成的語(yǔ)音信息。例如,例如,在塊310處所利用的語(yǔ)音概率可以基于從語(yǔ)音活動(dòng)檢測(cè)單元(例如,圖2所示的示例系統(tǒng)200中的VAD單元230)接收的語(yǔ)音信息。在另一示例中,例如,與段相關(guān)聯(lián)的語(yǔ)音概率可以基于與從基音估計(jì)算法或基音估計(jì)器接收的話音內(nèi)的濁音度相關(guān)的信息。例如,與從基音估計(jì)器接收的話音內(nèi)的濁音度相關(guān)的信息可以被用來(lái)識(shí)別聲帶振動(dòng)的音頻段的區(qū)域。
[0042]如果在塊310處確定與音頻段相關(guān)聯(lián)的語(yǔ)音概率大于閾值概率,則在塊320處通過(guò)“軟”恢復(fù)(例如,與塊315處的“硬”恢復(fù)相比,較低侵略性的抑制)來(lái)處理該段。在另一方面,如果在塊310處確定與音頻段相關(guān)聯(lián)的語(yǔ)音概率等于或小于閾值概率,則在塊315處通過(guò)“硬”恢復(fù)(例如,與塊320處的“軟”恢復(fù)相比,較高侵略性的抑制)來(lái)處理該段。
[0043]基于(在塊310處)與段相關(guān)聯(lián)的語(yǔ)音概率和閾值概率的比較(分別在塊315和塊320處)執(zhí)行軟恢復(fù)或硬恢復(fù),允許清音/非話音音頻塊的較高侵略性抑制以及包含濁音聲音的音頻塊的較保守的抑制處理。根據(jù)本公開(kāi)的至少一個(gè)實(shí)施例,在塊315處所執(zhí)行的(用于硬恢復(fù)的)操作可以與在圖4中示出并在下文更具體描述的示例過(guò)程400中的塊405處所執(zhí)行的操作相對(duì)應(yīng)。類似地,在塊320處所執(zhí)行的(用于軟恢復(fù)的)操作可以與在圖5中圖示出并也在下文更具體描述的示例過(guò)程500中的塊510處所執(zhí)行的操作相對(duì)應(yīng)。
[0044]在塊315處和在塊320處的抑制/恢復(fù)過(guò)程其中一項(xiàng)之后,在塊325處可以對(duì)于音頻段更新頻譜均值。在塊330處,信號(hào)可以經(jīng)過(guò)快速傅里葉逆變換(IFFT)來(lái)被變換回時(shí)域。
[0045]圖4圖示出了用于基于確定音頻信號(hào)包含清音/非話音音頻數(shù)據(jù)的音頻信號(hào)的硬恢復(fù)的示例過(guò)程。例如,可以基于具有(例如,與信號(hào)包含語(yǔ)音數(shù)據(jù)的不同概率相對(duì)應(yīng)的多個(gè)可能的語(yǔ)音狀態(tài)的)第一語(yǔ)音狀態(tài)的音頻信號(hào)來(lái)執(zhí)行硬恢復(fù)過(guò)程400,其中所述第一語(yǔ)音狀態(tài)與和該信號(hào)為低(指示該信號(hào)包含清音/非語(yǔ)音數(shù)據(jù)的概率高)相關(guān)聯(lián)的語(yǔ)音概率估計(jì)相對(duì)應(yīng),第二語(yǔ)音狀態(tài)與比與第一語(yǔ)音狀態(tài)相對(duì)應(yīng)的概率估計(jì)更高的語(yǔ)音概率估計(jì)相對(duì)應(yīng),以此類推。根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例,可以由上文詳細(xì)描述并在圖2中圖示出的用于依賴于情境的瞬態(tài)抑制的示例系統(tǒng)200中的組件中的一個(gè)或多個(gè)(例如,噪聲抑制器240)來(lái)執(zhí)行示例過(guò)程400。應(yīng)當(dāng)理解,根據(jù)至少一個(gè)實(shí)施例,除了以上所介紹的示例對(duì)應(yīng)外或代替該示例對(duì)應(yīng),語(yǔ)音狀態(tài)可以以一種或多種其他方式來(lái)與語(yǔ)音概率估計(jì)相對(duì)應(yīng)。
[0046]此外,根據(jù)本公開(kāi)的至少一個(gè)實(shí)施例,在示例過(guò)程400中的(包括塊410和塊415的)塊405處所執(zhí)行的操作可以與上文所述且在圖3中圖示出的示例過(guò)程300中的塊315處所執(zhí)行的操作相對(duì)應(yīng)。
[0047]應(yīng)當(dāng)注意到,在執(zhí)行過(guò)程400時(shí),可能有必要保持對(duì)頻譜均值的跟蹤以抑制所檢測(cè)到的瞬態(tài)并且恢復(fù)原始音頻信號(hào)。還應(yīng)當(dāng)注意到,根據(jù)至少一個(gè)實(shí)施例,包括塊405的操作可以對(duì)于每個(gè)頻率區(qū)間以迭代的方式來(lái)執(zhí)行。例如,在塊410處,可以將給定頻率區(qū)間的幅值與(所跟蹤的)頻譜均值進(jìn)行比較。
[0048]如果在塊410處確定幅值大于頻譜均值,則對(duì)信號(hào)進(jìn)行抑制并且在塊415處計(jì)算出新幅值。在另一方面,如果在塊410處確定幅值不大于頻譜均值(例如,等于或小于頻譜均值),則不執(zhí)行抑制并且可以對(duì)于下一頻率重復(fù)塊405的操作。
[0049]如果由于塊410處所做的確定而執(zhí)行了抑制,則在塊415處可以計(jì)算出新幅值。根據(jù)至少一個(gè)實(shí)施例,取決于檢測(cè)概率(例如,圖2所示的示例系統(tǒng)200中,在噪聲抑制器240處接收的來(lái)自瞬態(tài)檢測(cè)器220的瞬態(tài)概率估計(jì)(225)),塊415處所計(jì)算的新幅值可以是先前的幅值與頻譜均值的線性組合。例如,可以按照如下計(jì)算新幅值:
[0050]新幅值=(1-檢測(cè))*幅值+檢測(cè)*頻譜均值
[0051]其中,“檢測(cè)”與存在瞬態(tài)的所估計(jì)的概率相對(duì)應(yīng)而“幅值”與先前幅值相對(duì)應(yīng)(例如,在塊410處進(jìn)行比較的幅值)。鑒于以上計(jì)算,如果(例如,基于所估計(jì)的概率)確定存在瞬態(tài),則新幅值為頻譜均值。然而,如果瞬態(tài)概率估計(jì)指示該塊中不存在瞬態(tài),則不進(jìn)行抑制。
[0052]圖5圖示出了用于基于確定音頻信號(hào)包含語(yǔ)音數(shù)據(jù)的音頻信號(hào)的軟恢復(fù)的示例過(guò)程。例如,可以基于具有第二語(yǔ)音狀態(tài)的音頻信號(hào)來(lái)執(zhí)行軟恢復(fù)過(guò)程500,其中如上文關(guān)于圖4所示的示例過(guò)程400所描述的,第二語(yǔ)音狀態(tài)與比和第一語(yǔ)音狀態(tài)相對(duì)應(yīng)的語(yǔ)音概率估計(jì)更高的語(yǔ)音概率估計(jì)相對(duì)應(yīng)。根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例,可以由上文詳細(xì)描述并在圖2中圖示出的用于依賴于情境的瞬態(tài)抑制的示例系統(tǒng)200中的組件(例如,噪聲抑制器240)中的一個(gè)或多個(gè)來(lái)執(zhí)行示例過(guò)程500。
[0053]此外,根據(jù)本公開(kāi)的至少一個(gè)實(shí)施例,在示例過(guò)程500中的(包括塊515、塊520、以及塊525的)塊510處所執(zhí)行的操作可以與上文所述且在圖3中圖示出的示例過(guò)程300中的塊320處所執(zhí)行的操作相對(duì)應(yīng)。
[0054]正如用于以上所述的硬恢復(fù)的示例過(guò)程(例如,過(guò)程400),應(yīng)當(dāng)注意到在執(zhí)行過(guò)程500時(shí),用于音頻塊的頻譜均值可以在塊505處被算出。還應(yīng)當(dāng)注意到,根據(jù)至少一個(gè)實(shí)施例,包括塊510的操作可以對(duì)于每個(gè)頻率區(qū)間以迭代的方式來(lái)執(zhí)行。
[0055]在塊515處,對(duì)于給定的頻率區(qū)間,(在塊505處確定的)塊均值的因子可以被計(jì)算出來(lái)。根據(jù)至少一個(gè)實(shí)施例,塊均值的因子可以是固定的頻譜加權(quán),弱化典型的話音頻譜頻率。例如,在塊515處確定的塊均值的因子可以是當(dāng)前塊頻譜的平均數(shù)值。在塊515處計(jì)算的因子可以具有(例如,在I到5之間的)連續(xù)值,該因子對(duì)于話音頻率(例如300Hz到3500Hz)而言是較低的。
[0056]在塊520處,可以將頻率的幅值與所計(jì)算的頻譜均值相比較并且也可以與在塊515處計(jì)算出的塊均值的因子相比較。例如,在塊520處,可以確定該幅值是否大于頻譜均值且小于塊均值的因子。在塊520處確定這樣的條件是否被滿足使得有可能在保持語(yǔ)音泛音的同時(shí)抑制泛音之間的瞬態(tài)噪聲。
[0057]如果在塊520處確定該幅值大于頻譜均值且小于塊均值的因子,則執(zhí)行抑制并且在塊525處繼續(xù)操作,在塊525處可以計(jì)算出新的幅值。在另一方面,如果在塊520處確定該幅值不大于頻譜均值(例如,等于或小于頻譜均值)、該幅值不小于塊均值的因子(例如,等于或大于塊均值的因子),或者以上二者,則不執(zhí)行抑制并且可以對(duì)于下一頻率重復(fù)塊510的操作。
[0058]如果由于在塊520處作出的確定而執(zhí)行抑制,則可以在塊525處計(jì)算出新幅值。根據(jù)至少一個(gè)實(shí)施例,可以以與在示例過(guò)程400的塊415處所執(zhí)行的新幅值計(jì)算(上文所述并且在圖4中圖示出)類似的方式來(lái)在塊525處計(jì)算出的新幅值。例如,取決于檢測(cè)概率(例如,在圖2中所示的示例系統(tǒng)200中,在噪聲抑制器240處接收的來(lái)自瞬態(tài)檢測(cè)器220的瞬態(tài)概率估計(jì)(225))在塊525處計(jì)算的新幅值可以是先前幅值和頻譜均值的線性組合。例如,在塊525處新幅值可以被計(jì)算如下:
[0059]新幅值=(1-檢測(cè))*幅值+檢測(cè)*頻譜均值
[0060]其中“檢測(cè)”與存在瞬態(tài)的所估計(jì)的概率相對(duì)應(yīng)而“幅值”與先前幅值相對(duì)應(yīng)(例如,在塊520處進(jìn)行比較的幅值)。鑒于以上計(jì)算,如果(例如,基于所估計(jì)的概率)確定存在瞬態(tài),則新幅值為頻譜均值。然而,如果瞬態(tài)概率估計(jì)指示該塊中不存在瞬態(tài),則不進(jìn)行抑制。
[0061]圖6是根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例的用于依賴于情境的瞬態(tài)噪聲抑制所布置的示例性計(jì)算機(jī)(600)的高層級(jí)框圖。在非?;镜呐渲?601)中,計(jì)算設(shè)備(600)通常包括一個(gè)或多個(gè)處理器(610)和系統(tǒng)存儲(chǔ)器(620)。存儲(chǔ)器總線(630)能夠被用于處理器(610)與系統(tǒng)存儲(chǔ)器(620)之間的通信。
[0062]取決于所期望的配置,處理器(610)可以是任何類型,包括但不限于:微處理器(μP)、微控制器(yC)、數(shù)字信號(hào)處理器(DSP)或者其任何組合。處理器(610)可以包括一個(gè)諸如層級(jí)一緩存(611)和層級(jí)二緩存(612)的多層級(jí)緩存、處理器核(613)和寄存器(614)。該處理器核(613)能夠包括算法邏輯單元(ALU)、浮點(diǎn)單元(FPU)、數(shù)字信號(hào)處理核(DSP核)或者其任何組合。存儲(chǔ)器控制器(616)還可以與處理器(610) —起使用,或者在一些實(shí)施方式中,存儲(chǔ)器控制器(615)可以是處理器(610)的內(nèi)部部分。
[0063]取決于所期望的配置,系統(tǒng)存儲(chǔ)器(620)可以是任何類型,包括但不限于:易失性存儲(chǔ)器(諸如RAM)、非易失性存儲(chǔ)器(諸如R0M、閃速存儲(chǔ)器等)或者其任何組合。系統(tǒng)存儲(chǔ)器(620)通常包括操作系統(tǒng)(621)、一個(gè)或多個(gè)應(yīng)用(622)以及程序數(shù)據(jù)(624)。應(yīng)用(622)可以包括用于基于確定信號(hào)是否包含語(yǔ)音數(shù)據(jù)來(lái)將不同種類(例如,類型、量、層級(jí)等)的抑制/恢復(fù)應(yīng)用到音頻信號(hào)的依賴于情境的瞬態(tài)抑制算法(623)。根據(jù)至少一個(gè)實(shí)施例,取決于用戶是否在講話(例如,與該用戶相關(guān)聯(lián)的信號(hào)是否包含音頻的濁音段或清音/非話音段),依賴于情境的瞬態(tài)抑制算法(623)可以操作以在與用戶相關(guān)聯(lián)的音頻信號(hào)上執(zhí)行更多/更少侵略性的抑制/恢復(fù)。例如,根據(jù)至少一個(gè)實(shí)施例,如果參與者未在講話或者與該參與者相關(guān)聯(lián)的信號(hào)包含清音/非話音音頻段,則對(duì)于該參與者的信號(hào),依賴于情境的瞬態(tài)抑制算法(623)可以應(yīng)用用于瞬態(tài)抑制和信號(hào)恢復(fù)的更具侵略性的策略。另一方面,在參與者的信號(hào)中檢測(cè)到濁音音頻(例如,該參與者正在講話)的情況下,依賴于情境的瞬態(tài)抑制算法(623)可以應(yīng)用較輕柔、較少侵略性的抑制和恢復(fù)。
[0064]程序數(shù)據(jù)(624)可以包括儲(chǔ)存指令,所述指令當(dāng)由一個(gè)或多個(gè)處理設(shè)備執(zhí)行該儲(chǔ)存指令時(shí),實(shí)現(xiàn)用于根據(jù)本文所述的一個(gè)或多個(gè)實(shí)施例的用于音頻信號(hào)的依賴于情境的瞬態(tài)噪聲抑制和恢復(fù)的方法。此外,根據(jù)至少一個(gè)實(shí)施例,程序數(shù)據(jù)(624)可以包括音頻信號(hào)數(shù)據(jù)(625),其可以包括與音頻信號(hào)包含語(yǔ)音數(shù)據(jù)的概率有關(guān)的數(shù)據(jù)、或與瞬態(tài)噪聲存在于該信號(hào)中的概率有關(guān)的信號(hào)、或者以上兩者。在一些實(shí)施例中,應(yīng)用(622)能夠被布置為在操作系統(tǒng)(621)上與程序數(shù)據(jù)(624)共同操作。
[0065]計(jì)算設(shè)備(600)能夠具有附加特征或功能,以及促進(jìn)基本配置(601)與任何所需設(shè)備和接口之間的通信的附加接口。
[0066]系統(tǒng)存儲(chǔ)器(620)是計(jì)算機(jī)存儲(chǔ)介質(zhì)的示例。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于RAM、R0M、EEPR0M、閃速存儲(chǔ)器或其它存儲(chǔ)技術(shù)、CD-ROM、數(shù)字化視頻光盤(pán)(DVD)或其它光學(xué)存儲(chǔ)設(shè)備、磁帶盒、磁帶、磁盤(pán)存儲(chǔ)或其它磁性存儲(chǔ)設(shè)備、或者能夠用于儲(chǔ)存所期望的信息并且能夠由計(jì)算設(shè)備600訪問(wèn)的任何其它介質(zhì)。任何這樣的計(jì)算機(jī)存儲(chǔ)介質(zhì)能夠是計(jì)算設(shè)備(600)的一部分。
[0067]計(jì)算設(shè)備(600)能夠被實(shí)現(xiàn)為小型便攜式(或移動(dòng))電子設(shè)備的一部分,諸如,蜂窩電話、智能電話、個(gè)人數(shù)據(jù)助理(PDA)、個(gè)人媒體播放器設(shè)備、平板式計(jì)算機(jī)(平板)、無(wú)線web收看設(shè)備、個(gè)人耳機(jī)設(shè)備、專用設(shè)備、或者包括任何上述功能的混合設(shè)備。計(jì)算設(shè)備(600)還能夠被實(shí)現(xiàn)為包括膝上型計(jì)算機(jī)和非膝上型計(jì)算機(jī)配置這二者的個(gè)人計(jì)算機(jī)。
[0068]經(jīng)由對(duì)框圖、流程圖、和/或示例的使用,前述的詳細(xì)描述已闡述了設(shè)備和/或處理的各種實(shí)施例。在包含一個(gè)或多個(gè)功能和/或操作的這樣的框圖、流程圖、和/或示例的范圍內(nèi),本領(lǐng)域技術(shù)人員將理解,能夠由廣泛的硬件、軟件、固件或?qū)嶋H上其任何組合單獨(dú)地和/或共同地實(shí)現(xiàn)這樣的框圖、流程圖、或示例內(nèi)的每個(gè)功能和/或操作。在一個(gè)實(shí)施例中,可以經(jīng)由專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)、數(shù)字信號(hào)處理器(DSP)、或者其它集成的形式來(lái)實(shí)現(xiàn)本文所描述的主題的若干部分。然而,本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,本文所公開(kāi)的實(shí)施例的一些方面能夠整體或部分地作為在一個(gè)或多個(gè)計(jì)算機(jī)上運(yùn)行的一個(gè)或更多個(gè)計(jì)算機(jī)程序、作為在一個(gè)或更多個(gè)處理器上運(yùn)行的一個(gè)或更多個(gè)程序、作為固件、或者作為實(shí)際上其任何組合,來(lái)等效地實(shí)現(xiàn)在集成電路中,并且根據(jù)該公開(kāi),對(duì)于軟件和/或固件來(lái)設(shè)計(jì)電路和/或編寫(xiě)代碼完全在本領(lǐng)域技術(shù)人員的技能范圍之內(nèi)。
[0069]此外,本領(lǐng)域技術(shù)人員將理解的是,本文所述的主題的機(jī)制能夠以各種形式被分布作為程序產(chǎn)品,并且,本文所述的主題的說(shuō)明性實(shí)施例的應(yīng)用與用于實(shí)際執(zhí)行分布的非瞬時(shí)性信號(hào)承載介質(zhì)的特定類型無(wú)關(guān)。非瞬時(shí)性信號(hào)承載介質(zhì)的示例包括但不限于以下:諸如軟盤(pán)、硬盤(pán)驅(qū)動(dòng)器、光盤(pán)(CD)、數(shù)字視頻盤(pán)(DVD)、數(shù)字磁帶、計(jì)算機(jī)存儲(chǔ)器等的可記錄型介質(zhì);以及諸如數(shù)字和/或模擬通信介質(zhì)(例如,光纜、波導(dǎo)、有線通信鏈路、無(wú)線通信鏈路等)的傳輸型介質(zhì)。
[0070]對(duì)于本文使用的相對(duì)多的任何復(fù)數(shù)和/或單數(shù)術(shù)語(yǔ),只要其適合于上下文和/或應(yīng)用,則本領(lǐng)域的技術(shù)人員能夠?qū)?fù)數(shù)轉(zhuǎn)化為單數(shù)和/或?qū)螖?shù)轉(zhuǎn)化為復(fù)數(shù)。為清楚起見(jiàn),本文明確闡述了各種單數(shù)/復(fù)數(shù)排列組合。
[0071]因此,已經(jīng)描述了本主題的特定實(shí)施例。其他實(shí)施例落入以下權(quán)利要求的范圍內(nèi)。在一些情況下,權(quán)利要求中所引用的動(dòng)作能夠按不同的順序執(zhí)行且依然能夠獲得所期望的結(jié)果。此外,附圖中所描繪的過(guò)程未必要求所示的特定順序或依次順序,以獲得所期望的結(jié)果。在某些實(shí)施方式中,多任務(wù)和并行處理可以是有利的。
【主權(quán)項(xiàng)】
1.一種用于抑制音頻信號(hào)中的瞬態(tài)噪聲的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括: 估計(jì)包含瞬態(tài)噪聲的所述音頻信號(hào)的段的語(yǔ)音概率,所估計(jì)的語(yǔ)音概率是所述段包含語(yǔ)音數(shù)據(jù)的概率; 響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率大于閾值概率,對(duì)所述段執(zhí)行第一類型的抑制;以及 響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率小于所述閾值概率,對(duì)所述段執(zhí)行第二類型的抑制, 其中所述第二類型的抑制將在所述段中包含的所述瞬態(tài)噪聲抑制到與所述第一類型的抑制不同的程度。2.根據(jù)權(quán)利要求1所述的方法,其中所估計(jì)的語(yǔ)音概率基于從基音估計(jì)器所接收的濁音度信息。3.根據(jù)權(quán)利要求1所述的方法,其中估計(jì)所述音頻信號(hào)的所述段的所述語(yǔ)音概率包括:識(shí)別包含濁音話音的所述段的區(qū)域。4.根據(jù)權(quán)利要求3所述的方法,其中識(shí)別包含濁音話音的所述段的區(qū)域包括:識(shí)別聲帶振動(dòng)的所述段的區(qū)域。5.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括: 將所述段的所估計(jì)的語(yǔ)音概率與閾值概率進(jìn)行比較;以及 基于所述比較來(lái)確定所估計(jì)的語(yǔ)音概率大于所述閾值概率。6.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括: 將所述段的所估計(jì)的語(yǔ)音概率與閾值概率進(jìn)行比較;以及 基于所述比較來(lái)確定所估計(jì)的語(yǔ)音概率小于所述閾值概率。7.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括: 接收所述音頻信號(hào)的所述段的所估計(jì)的瞬態(tài)概率,所估計(jì)的瞬態(tài)概率是瞬態(tài)噪聲存在于所述段中的概率;以及 基于所接收的所估計(jì)的瞬態(tài)概率,確定所述音頻信號(hào)的所述段包含瞬態(tài)噪聲。8.根據(jù)權(quán)利要求1所述的方法,其中所述音頻信號(hào)的所述段的所估計(jì)的語(yǔ)音概率是基于針對(duì)所述音頻信號(hào)的所述段所接收的語(yǔ)音活動(dòng)數(shù)據(jù)。9.根據(jù)權(quán)利要求1所述的方法,其中所述第二類型的抑制將在所述段中包含的所述瞬態(tài)噪聲抑制到比所述第一類型的抑制更大的程度。10.—種用于抑制音頻信號(hào)中的瞬態(tài)噪聲的系統(tǒng),所述系統(tǒng)包括: 至少一個(gè)處理器;以及 被耦合至所述至少一個(gè)處理器的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可讀介質(zhì)具有存儲(chǔ)于其上的指令,當(dāng)由所述至少一個(gè)處理器執(zhí)行所述指令時(shí),致使所述至少一個(gè)處理器: 估計(jì)包含瞬態(tài)噪聲的所述音頻信號(hào)的段的語(yǔ)音概率,所估計(jì)的語(yǔ)音概率是所述段包含語(yǔ)音數(shù)據(jù)的概率; 響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率大于閾值概率,對(duì)所述段執(zhí)行第一類型的抑制;以及 響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率小于所述閾值概率,對(duì)所述段執(zhí)行第二類型的抑制, 其中所述第二類型的抑制將在所述段中包含的所述瞬態(tài)噪聲抑制到與所述第一類型的抑制不同的程度。11.根據(jù)權(quán)利要求10所述的系統(tǒng),其中所估計(jì)的語(yǔ)音概率基于從基音估計(jì)器所接收的濁音度信息。12.根據(jù)權(quán)利要求10所述的系統(tǒng),其中進(jìn)一步致使所述至少一個(gè)處理器: 識(shí)別聲帶振動(dòng)的所述段的區(qū)域;以及 確定聲帶振動(dòng)的所述段的所述區(qū)域是包含濁音話音的區(qū)域。13.根據(jù)權(quán)利要求10所述的系統(tǒng),其中進(jìn)一步致使所述至少一個(gè)處理器: 將所述段的所估計(jì)的語(yǔ)音概率與閾值概率進(jìn)行比較;以及 基于所述比較來(lái)確定所估計(jì)的語(yǔ)音概率大于所述閾值概率。14.根據(jù)權(quán)利要求10所述的系統(tǒng),其中進(jìn)一步致使所述至少一個(gè)處理器: 將所述段的所估計(jì)的語(yǔ)音概率與閾值概率進(jìn)行比較;以及 基于所述比較來(lái)確定所估計(jì)的語(yǔ)音概率小于所述閾值概率。15.根據(jù)權(quán)利要求10所述的系統(tǒng),其中進(jìn)一步致使所述至少一個(gè)處理器: 接收所述音頻信號(hào)的所述段的所估計(jì)的瞬態(tài)概率,所估計(jì)的瞬態(tài)概率是瞬態(tài)噪聲存在于所述段中的概率;以及 基于所接收的所估計(jì)的瞬態(tài)概率,確定所述音頻信號(hào)的所述段包含瞬態(tài)噪聲。16.根據(jù)權(quán)利要求10所述的系統(tǒng),其中所述音頻信號(hào)的所述段的所估計(jì)的語(yǔ)音概率是基于針對(duì)所述音頻信號(hào)的所述段所接收的語(yǔ)音活動(dòng)數(shù)據(jù)。17.根據(jù)權(quán)利要求10所述的系統(tǒng),其中所述第二類型的抑制將在所述段中包含的所述瞬態(tài)噪聲抑制到比所述第一類型的抑制更大的程度。18.—種用于抑制音頻信號(hào)中的瞬態(tài)噪聲的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括: 估計(jì)包含瞬態(tài)噪聲的所述音頻信號(hào)的段的語(yǔ)音概率,所估計(jì)的語(yǔ)音概率是所述段包含語(yǔ)音數(shù)據(jù)的概率; 響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率與第一語(yǔ)音狀態(tài)相對(duì)應(yīng),對(duì)所述段執(zhí)行第一類型的抑制;以及 響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率與第二語(yǔ)音狀態(tài)相對(duì)應(yīng),對(duì)所述段執(zhí)行第二類型的抑制, 其中所述第二類型的抑制將在所述段中包含的所述瞬態(tài)噪聲抑制到與所述第一類型的抑制不同的程度。19.根據(jù)權(quán)利要求18所述的方法,其中所述第二類型的抑制將在所述段中包含的所述瞬態(tài)噪聲抑制到比所述第一類型的抑制更小的程度。20.根據(jù)權(quán)利要求18所述的方法,進(jìn)一步包括: 響應(yīng)于確定所述段的所估計(jì)的語(yǔ)音概率與第三語(yǔ)音狀態(tài)相對(duì)應(yīng),對(duì)所述段執(zhí)行第三類型的抑制, 其中所述第三類型的抑制將在所述段中包含的所述瞬態(tài)噪聲抑制到與所述第一類型和所述第二類型的抑制不同的程度。
【文檔編號(hào)】G10L21/0208GK105900171SQ201580003757
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2015年3月31日
【發(fā)明人】簡(jiǎn)·斯科格隆, 亞歷杭德羅·呂布斯
【申請(qǐng)人】谷歌公司