本申請要求2014年10月10日遞交的發(fā)明名稱為“改進時域編碼與頻域編碼之間的分類(ImprovingClassificationBetweenTime-DomainCodingandFrequencyDomainCoding)”的第14/511,943號美國非臨時專利申請案的在先申請優(yōu)先權(quán),該在先申請要求2014年7月26日遞交的發(fā)明名稱為“針對高比特率改進時域編碼與頻域編碼之間的分類(ImprovingClassificationBetweenTime-DomainCodingandFrequencyDomainCodingforHighBitRates)”的第62/029,437號美國臨時專利申請案的在先申請優(yōu)先權(quán),這兩個在先申請的內(nèi)容以引入的方式并入本文本中。
技術(shù)領(lǐng)域:
:本發(fā)明大體上涉及信號編碼領(lǐng)域。具體而言,本發(fā)明涉及改進時域編碼與頻域編碼之間的分類的領(lǐng)域。
背景技術(shù):
::語音編碼是指一種降低語音文件的比特率的過程。語音編碼是一種對包含語音的數(shù)字音頻信號進行數(shù)據(jù)壓縮的應(yīng)用。語音編碼通過使用音頻信號處理技術(shù)使用特定語音參數(shù)估計來建模語音信號,結(jié)合通用數(shù)據(jù)壓縮算法以小型比特流表示所得的建模參數(shù)。語音編碼的目的是:通過減少每個樣本的比特數(shù)來實現(xiàn)所需內(nèi)存存儲空間、傳輸帶寬和傳輸功率的節(jié)省,使得在感知上難以區(qū)分已解碼(已壓縮)語音和原始語音。然而,語音編碼器是有損編碼器,即,已解碼信號不同于原始信號。因此,語音編碼中的其中一個目標(biāo)是:在給定比特率下使失真(或可感知的損失)最小化,或者使比特率最小化以達到給定的失真。語音編碼與音頻編碼的不同之處在于語音比多數(shù)其它音頻信號簡單地多,而且關(guān)于語音屬性的統(tǒng)計信息更多。因此,與音頻編碼相關(guān)的一些聽覺信息在語音編碼上下文中可以是不必要的。在語音編碼中,最重要的標(biāo)準(zhǔn)是語音的可懂度和“愉悅度”,該語音具有限量的傳輸數(shù)據(jù)。語音的可懂度除了包括實際文字內(nèi)容,還包括說話者標(biāo)識、情緒、語調(diào)、音色,所有這些對于完美可懂度都很重要。惡化語音的愉悅度這個較抽象概念是一個不同于可懂度的屬性,因為惡化語音有可能是完全可懂的,但是主觀上卻不能愉悅聽眾。傳統(tǒng)上,所有參數(shù)語音編碼方法利用語音信號內(nèi)在的冗余度來減少必須發(fā)送的信息量以及在短的間隔內(nèi)估計信號的語音樣本的參數(shù)。這種冗余主要來自語音波形以準(zhǔn)周期性速率重復(fù),以及語音信號的緩慢變化的頻譜包絡(luò)??梢詤⒖既舾刹煌愋偷恼Z音信號,例如濁音和清音信號,來考慮語音波形的冗余。濁音,例如‘a(chǎn)’、‘b’基本上是由于聲帶的振動,而且是振蕩的。因此,在短時間內(nèi),它們通過正弦等周期性信號的和來很好地建模。換言之,濁音語音信號基本上是周期性的。然而,這種周期性在語音片段的持續(xù)時間內(nèi)可能是變化的,而且周期性波的形狀通常逐片段變化。這種周期性研究可大大有利于低比特率語音編碼。這種周期性研究可大大有利于時域語音編碼。濁音周期還被稱為基音,基音預(yù)測通常被稱為長期預(yù)測(Long-TermPrediction,LTP)。相比之下,‘s’、‘sh’等清音更似噪聲。這是因為清音語音信號更像一種隨機噪聲,并且可預(yù)測性較小。在任一情況下,參數(shù)編碼可以用于通過將語音信號的激勵分量與以較低速率發(fā)生變化的頻譜包絡(luò)分量分離來減少語音片段的冗余,。緩慢變化的頻譜包絡(luò)可以通過線性預(yù)測編碼(LinearPredictionCoding,LPC),也稱為短期預(yù)測(Short-TermPrediction,STP)來表示。這種短期預(yù)測研究也可大大有利于低比特率語音編碼。編碼優(yōu)點來自于參數(shù)變化時的低速率。然而,這些參數(shù)在幾毫秒內(nèi)保持的值明顯不同是很少見的。在最新的著名標(biāo)準(zhǔn),例如G.723.1、G.729、G.718、增強型全速率(EnhancedFullRate,EFR)、可選擇模式聲碼器(SelectableModeVocoder,SMV)、自適應(yīng)多速率(AdaptiveMulti-Rate,AMR)、可變速率多模式寬帶(Variable-RateMultimodeWideband,VMR-WB)或自適應(yīng)多速率寬帶(AdaptiveMulti-RateWideband,AMR-WB)中,已經(jīng)采用了碼激勵線性預(yù)測技術(shù)(CodeExcitedLinearPredictionTechnique,“CELP”)。CELP通常被理解為編碼激勵、長期預(yù)測和短期預(yù)測的技術(shù)組合。CELP主要用于通過受益于具體人類聲音特性或人類嗓音發(fā)聲模型對語音信號進行編碼。CELP語音編碼在語音壓縮領(lǐng)域是一種非常流行的算法原理,但是,不同編碼器下的CELP細節(jié)可能會大大不同。由于其普遍性,CELP算法已經(jīng)應(yīng)用于各種ITU-T、MPEG、3GPP和3GPP2標(biāo)準(zhǔn)中。CELP的變體包括代數(shù)CELP、松散CELP、低時延CELP以及矢量和激勵線性預(yù)測,以及其它。CELP是一類算法的通用術(shù)語,而不是針對特定的編解碼器。CELP算法基于四個主要觀點。第一,使用通過線性預(yù)測(linearprediction,LP)的語音產(chǎn)生的源濾波器模型。語音產(chǎn)生的源濾波器將語音建模為聲源,例如聲帶,和線性聲濾波器,即聲道(和輻射特征)的組合。在語音產(chǎn)生的源濾波器模型的實施方式中,對于濁音語音,聲源或激勵信號通常被建模為周期性脈沖序列;或?qū)τ谇逡粽Z音,聲源或激勵信號通常被建模為白噪聲。第二,將自適應(yīng)和固定碼本用作LP模型的輸入(激勵)。第三,在“感知上加權(quán)的域”的閉環(huán)中執(zhí)行搜索。第四,應(yīng)用矢量量化(vectorquantization,VQ)。技術(shù)實現(xiàn)要素:根據(jù)本發(fā)明一實施例,一種用于在對包括音頻數(shù)據(jù)的數(shù)字信號進行編碼之前處理語音信號的方法包括:基于將用于對所述數(shù)字信號進行編碼的編碼比特率和所述數(shù)字信號的短基音周期檢測來選擇頻域編碼或時域編碼。根據(jù)本發(fā)明一替代性實施例,一種用于在對包括音頻數(shù)據(jù)的數(shù)字信號進行編碼之前處理語音信號的方法包括:當(dāng)編碼比特率高于比特率上限時,選擇頻域編碼來對所述數(shù)字信號進行編碼。或者,當(dāng)所述編碼比特率低于比特率下限時,所述方法選擇時域編碼來對所述數(shù)字信號進行編碼。所述數(shù)字信號包括基音周期短于基音周期限度的短基音信號。根據(jù)本發(fā)明一替代性實施例,一種用于在編碼之前處理語音信號的方法包括:當(dāng)數(shù)字信號不包括短基音信號并且所述數(shù)字信號被歸類為清音語音或正常語音時,選擇時域編碼來對包括音頻數(shù)據(jù)的所述數(shù)字信號進行編碼。所述方法還包括:當(dāng)編碼比特率處于比特率下限與比特率上限中間時,選擇頻域編碼來對所述數(shù)字信號進行編碼。所述數(shù)字信號包括短基音信號,且濁音周期較低。所述方法還包括:當(dāng)編碼比特率處于中間、所述數(shù)字信號包括短基音信號且濁音周期非常強時,選擇時域編碼來對所述數(shù)字信號進行編碼。根據(jù)本發(fā)明一替代性實施例,一種用于在對包括音頻數(shù)據(jù)的數(shù)字信號進行編碼之前處理語音信號的裝置包括:編碼選擇器,用于基于將用于對所述數(shù)字信號進行編碼的編碼比特率和所述數(shù)字信號的短基音周期檢測來選擇頻域編碼或時域編碼。附圖說明為了更完整地理解本發(fā)明及其優(yōu)點,現(xiàn)在參考下文結(jié)合附圖進行的描述,其中:圖1示出了在使用傳統(tǒng)CELP編碼器對原始語音進行編碼期間執(zhí)行的操作;圖2示出了在使用CELP解碼器對原始語音進行解碼期間執(zhí)行的操作;圖3示出了傳統(tǒng)CELP編碼器;圖4示出了對應(yīng)于圖3中的編碼器的基本CELP解碼器;圖5和圖6示出了示意性語音信號以及其與時域中的幀大小和子幀大小的關(guān)系的示例;圖7示出了原始濁音寬帶頻譜的示例;圖8示出了圖7所示的原始濁音寬帶頻譜的使用雙重基音周期編碼的編碼濁音寬帶頻譜;圖9A和9B示出了典型頻域感知編解碼器的示意圖,其中圖9A示出了頻域編碼器而圖9B示出了頻域解碼器;圖10示出了根據(jù)本發(fā)明實施例的在對包括音頻數(shù)據(jù)的語音信號進行編碼之前在編碼器處執(zhí)行的操作的示意圖;圖11示出了根據(jù)本發(fā)明實施例的通信系統(tǒng)10;圖12示出了可以用于實施本文公開的設(shè)備和方法的處理系統(tǒng)的框圖;圖13示出了用于在對一個數(shù)字信號進行編碼前進行語音信號處理的裝置的框圖;圖14示出了用于在對一個數(shù)字信號進行編碼前進行語音信號處理的另一裝置的框圖。具體實施方式在現(xiàn)代音頻/語音數(shù)字信號通信系統(tǒng)中,數(shù)字信號在編碼器處壓縮,而且壓縮的信息或比特流可以打包并且通過通信信道逐幀向解碼器發(fā)送。解碼器接收和解碼已壓縮的信息以獲取音頻/語音數(shù)字信號。在現(xiàn)代音頻/語音數(shù)字信號通信系統(tǒng)中,數(shù)字信號在編碼器處壓縮,而且壓縮的信息或比特流可以打包并且通過通信信道逐幀向解碼器發(fā)送。編碼器和解碼器在一起的系統(tǒng)被稱為編解碼器。語音/音頻壓縮可以用來減少表示語音/音頻信號的比特數(shù),從而降低傳輸所需的帶寬和/或比特率。一般而言,較高的比特率將帶來較高的音頻質(zhì)量,而較低的比特率將導(dǎo)致較低的音頻質(zhì)量。圖1示出了在使用傳統(tǒng)CELP編碼器對原始語音進行編碼期間執(zhí)行的操作。圖1示出了傳統(tǒng)初始CELP編碼器,其中通常通過使用合成分析方法使合成語音102和原始語音101之間的加權(quán)誤差109最小化,這意味著通過在感知上優(yōu)化閉環(huán)中的已解碼(合成)信號執(zhí)行編碼(分析)。所有語音編碼器利用的基本原理是語音信號是高度相關(guān)的波形這一事實。作為說明,可以使用如下等式(1)所示的自回歸(autoregressive,AR)模型表示語音。在等式(11)中,每個樣本被表示為前P個樣本加白噪聲的線性組合。加權(quán)系數(shù)a1、a2……aP被稱為線性預(yù)測系數(shù)(LinearPredictionCoefficient,LPC)。對于每個幀,選擇加權(quán)系數(shù)a1,a2,...aP,使得使用上述模型生成的頻譜{X1,X2,...,XN}最匹配輸入語音幀的頻譜?;蛘?,語音信號還可以通過諧波模型和噪聲模型的組合表示。模型的諧波部分實際上是信號的周期性分量的傅里葉級數(shù)表示。一般而言,對于濁音信號,語音的諧波加噪聲模型由諧波和噪聲的混合物組成。濁音語音中的諧波和噪聲的比例取決于多個因素,包括說話者特征(例如,說話者的聲音在哪個程度上是正常的或者呼吸聲);語音片段特征(例如,語音片段在哪個程度上是周期性的)以及頻率。濁音語音的頻率越高,噪聲型分量的比例越高。線性預(yù)測模型和諧波噪聲模型是用于對語音信號進行建模和編碼的兩種主要方法。線性預(yù)測模型尤其擅長對語音的頻譜包絡(luò)進行建模,而諧波噪聲模型擅長對語音的精細結(jié)構(gòu)進行建模??梢越Y(jié)合這兩種方法以利用它們的相對優(yōu)勢。如先前所指示,在進行CELP編碼之前,例如以每秒8000個樣本的速率,對到達手機麥克風(fēng)的輸入信號進行濾波和采樣。隨后,例如利用每個樣本13個比特對每個樣本進行量化。將采樣的語音分段成20ms的片段或幀(例如,在這種情況為160個樣本)。分析語音信號,并且提取它的LP模型、激勵信號和基音。LP模型表示語音的頻譜包絡(luò)。它被轉(zhuǎn)換為一組線譜頻率(linespectralfrequency,LSF)系數(shù),其是線性預(yù)測參數(shù)的替代性表示,因為LSF系數(shù)具有良好的量化特性??梢詫SF系數(shù)進行標(biāo)量量化,或者更高效地,可以使用先前訓(xùn)練的LSF矢量碼本對它們進行矢量量化。碼激勵包括含有碼矢量的碼本,這些碼矢量具有全部獨立選擇的分量,使得每個碼矢量可以具有近似‘白’頻譜。對于輸入語音的每個子幀而言,通過短期線性預(yù)測濾波器103和長期預(yù)測濾波器105對每個碼矢量進行濾波,并且將輸出與語音樣本進行比較。在每個子幀處,選擇輸出與輸入語音最匹配(誤差最小)的碼矢量來表示該子幀。編碼激勵108通常包括脈沖型信號或噪聲型信號,這些在數(shù)學(xué)上構(gòu)建或保存在碼本中。該碼本可用于編碼器和接收解碼器。編碼激勵108,其可以是隨機或固定碼本,可以是(隱式或顯式地)硬編碼到編解碼器的矢量量化字典。此種固定碼本可以是代數(shù)碼激勵的線性預(yù)測或可以顯示地存儲。通過適當(dāng)?shù)脑鲆鎭碚{(diào)整碼本中的碼矢量以使能量等于輸入語音的能量。相應(yīng)地,編碼激勵108的輸出在進入線性濾波器之間通過增益Gc107調(diào)整。短期線性預(yù)測濾波器103形成碼矢量的‘白’頻譜以類似于輸入語音的頻譜。同樣,在時域中,短期線性預(yù)測濾波器103將短期相關(guān)性(與先前樣本的相關(guān)性)并入白序列中。對激勵進行整形的濾波器具有形式為1/A(z)的全極點模型(短期線性預(yù)測濾波器103),其中A(z)被稱為預(yù)測濾波器并且可通過線性預(yù)測(例如,萊文森—德賓算法)獲得。在一項或多項實施例中,可以使用全極點濾波器,因為它是人類聲道的很好表現(xiàn)而且很容易計算。短期線性預(yù)測濾波器103通過分析原始信號101獲得并且通過一組系數(shù)表示:如先前所述,濁音語音的區(qū)域顯示長期周期。這種周期,稱為基音,被基音濾波器1/(B(z))引入到合成頻譜中。長期預(yù)測濾波器105的輸出取決于基音和基音增益。在一項或多項實施例中,可以從原始信號、殘差信號或加權(quán)原始信號中估計該基音。在一項實施例中,可以使用如下等式(3)表示長期預(yù)測函數(shù)(B(z))。B(z)=1-Gp·z-Pitch(3)加權(quán)濾波器110與上述短期預(yù)測濾波器有關(guān)。可以如等式(4)所述表示其中一個典型的加權(quán)濾波器。其中β<α,0<β<1,0<α≤1。在另一項實施例中,加權(quán)濾波器W(z)在如下等式(5)中可以使用一項實施例所示的帶寬擴展從LPC濾波器推導(dǎo)出。在等式(5)中,γ1>γ2,它們是極點用來向原點移動的因子。相應(yīng)地,對于語音的每個幀,計算LPC和基音,并且更新濾波器。對于語音的每個子幀,選擇產(chǎn)生‘最佳’濾波的輸出的碼矢量來表示子幀。增益的對應(yīng)量化值必須向解碼器傳輸以便進行適當(dāng)?shù)慕獯a。LPC和基音值還必須進行量化并且在每幀中發(fā)送以便重構(gòu)解碼器處的濾波器。相應(yīng)地,向解碼器傳輸編碼激勵索引、量化增益索引、量化長期預(yù)測參數(shù)索引和量化短期預(yù)測參數(shù)索引。圖2示出了在使用CELP解碼器對原始語音進行解碼期間執(zhí)行的操作。通過使接收到的碼矢量通過對應(yīng)的濾波器來在解碼器處重構(gòu)語音信號。因此,除了后處理之外的每個塊具有如圖1的編碼器所述的相同定義。在接收設(shè)備處接收和解封裝80已編碼CELP比特流。對于每個接收到的子幀,使用接收到的編碼激勵索引、量化增益索引、量化長期預(yù)測參數(shù)索引和量化短期預(yù)測參數(shù)索引通過對應(yīng)的解碼器,例如,增益解碼器81、長期預(yù)測解碼器82和短期預(yù)測解碼器83求出對應(yīng)的參數(shù)。例如,可以從接收到的編碼激勵索引確定激勵脈沖的位置和幅度信號以及碼激勵402的代數(shù)碼矢量。參考圖2,解碼器是若干塊的組合,該解碼器包括編碼激勵201、長期預(yù)測203、短期預(yù)測205。初始解碼器還包括合成語音206之后的后處理塊207。后處理還可包括短期后處理和長期后處理。圖3示出了傳統(tǒng)CELP編碼器。圖3示出了使用額外的自適應(yīng)碼本來改進長期線性預(yù)測的基本CELP編碼器。通過將自適應(yīng)碼本307和碼激勵308的貢獻相加產(chǎn)生激勵,碼激勵308可以是如先前所述的隨機或固定碼本。自適應(yīng)碼本中的條目包括激勵的時延版本。這使得它有可能有效率地對周期性信號,例如濁音,進行編碼。參考圖3,自適應(yīng)碼本307包括過去合成激勵304或在基音周期內(nèi)重復(fù)過去激勵基音循環(huán)。當(dāng)基音延遲很大或很長時,可以將它編碼為整數(shù)值。當(dāng)基音延遲很小或很短時,通常將它編碼為更準(zhǔn)確的分?jǐn)?shù)值。使用基音的周期性信息以生成激勵的自適應(yīng)分量。隨后通過增益Gp305(還稱為基音增益)來調(diào)整這種激勵分量。長期預(yù)測對于濁音語音編碼非常重要,因為濁音語音具有強周期。濁音語音的相鄰基音循環(huán)彼此相似,這意味著在數(shù)學(xué)上,以下激勵表達式中的基音增益Gp很高或接近于1。所得的激勵可以在等式(6)中表示為各個激勵的組合。e(n)=Gp·ep(n)+Gc·ec(n)(6)其中,ep(n)是索引為n的樣本序列的一個子幀,來自于自適應(yīng)碼本307,其包括經(jīng)過反饋回路的過去激勵304(圖3)。ep(n)可以自適應(yīng)地低通濾波為低頻區(qū)域,該低頻區(qū)域的周期和諧波通常比高頻區(qū)域的多。ec(n)來自編碼激勵碼本308(還稱為固定碼本),其是當(dāng)前激勵貢獻。此外,還可以例如通過使用高通濾波增強、基音增強、色散增強、共振峰增強和其它來增強ec(n)。對于濁音語音,自適應(yīng)碼本307中ep(n)的貢獻可能是主導(dǎo)的,而且基音增益Gp305的值約為1。通常更新每個子幀的激勵。典型的幀大小是20毫秒,典型的子幀大小是5毫秒。如圖1所述,固定編碼激勵308在進入線性濾波器之前通過增益Gc306調(diào)整。在通過短期線性預(yù)測濾波器303進行濾波之前,將固定碼本激勵108和自適應(yīng)碼本307中的兩個調(diào)整的激勵分量相加在一起。量化這兩個增益(Gp和Gc)并向解碼器傳輸。相應(yīng)地,向接收音頻設(shè)備傳輸編碼激勵索引、自適應(yīng)碼本索引、量化增益索引和量化短期預(yù)測參數(shù)索引。在接收設(shè)備處接收使用圖3所示的設(shè)備編碼的CELP比特率。圖4示出了接收設(shè)備的對應(yīng)解碼器。圖4示出了對應(yīng)于圖3中的編碼器的基本CELP解碼器。圖4包括接收來自主解碼器的合成語音407的后處理塊408。該解碼器類似于圖3,除了自適應(yīng)碼本307。對于接收到的每個子幀,使用接收到的編碼激勵索引、量化編碼激勵增益索引、量化基音索引、量化自適應(yīng)碼本增益索引和量化短期預(yù)測參數(shù)索引來通過對應(yīng)的解碼器,例如,增益解碼器81、基音解碼器84、自適應(yīng)碼本增益解碼器85和短期預(yù)測解碼器83,求出對應(yīng)的參數(shù)。在各種實施例中,CELP解碼器是若干塊的組合并且包括編碼激勵402、自適應(yīng)碼本401、短期預(yù)測406和后處理408。除了后處理,每個塊還具有如圖3的編碼器所述的相同定義。后處理還可包括短期后處理和長期后處理。碼激勵塊(參考圖3中的標(biāo)號308和圖4中的402)示出了用于進行一般CELP編碼的固定碼本(FixedCodebook,F(xiàn)CB)的位置。從FCB中選擇的碼矢量通過通常示為Gc306的增益調(diào)整。圖5和圖6示出了示意性語音信號以及其與時域中的幀大小和子幀大小的關(guān)系的示例。圖5和圖6示出了包括多個子幀的幀。輸入語音的每個樣本被劃分為樣本塊,每個樣本塊被稱為幀,例如,80至240個樣本或幀。每個幀被劃分為更小的樣本塊,每個更小的樣本塊被稱為子幀。以8kHz、12.8kHz或16kHz的采樣速率,語音編碼算法是這樣的:標(biāo)稱幀時長在十到三十毫秒的范圍內(nèi),通常是二十毫秒。在所示的圖5中,幀具有幀大小1和子幀大小2,其中每個幀被劃分為4個子幀。參考圖5和圖6的下部或底部部分,語音中的濁音區(qū)域在時域表示中像近周期信號。說話者聲帶的周期性開合引起濁音語音信號中的諧波結(jié)構(gòu)。因此,在短時間內(nèi),對于所有實際分析和處理,可將濁音語音分段視為周期性的。與這類分段相關(guān)的周期性在時域中被定義為“基音周期”,或簡單地,為“基音”;在頻域中,被定義為“基音頻率或基礎(chǔ)頻率f0”。基音周期的反面是語音的基礎(chǔ)頻率。語音的基音和基礎(chǔ)頻率這兩個術(shù)語經(jīng)常交換使用。對于大多數(shù)濁音語音,一個幀包括兩個以上基音循環(huán)。圖5還示出了基音周期3小于子幀大小2的示例。相反,圖6示出了基音周期4大于子幀大小2且小于半個幀大小的示例。為了更高效地對語音信號進行編碼,可以將語音信號劃分為不同的類別,并且以不同的方式對每個類別進行編碼。例如,在G.718、VMR-WB或AMR-WB等一些標(biāo)準(zhǔn)中,將語音信號分類為UNVOICED、TRANSITION、GENERIC、VOICED和NOISE。對于每個類別,經(jīng)常使用LPC或STP濾波器來表示頻譜包絡(luò)。然而,對LPC濾波器的激勵可能是不同的。UNVOICED和NOISE類別可使用噪聲激勵和某一激勵增強來進行編碼。TRANSITION類別可在不使用自適應(yīng)碼本或LTP的情況下使用脈沖激勵和某一激勵增強來進行編碼。GENERIC可使用傳統(tǒng)CELP方法來進行編碼,例如,在G.729或AMR-WB中使用的代數(shù)CELP,其中一個20毫秒的幀包括四個5毫秒的子幀。自適應(yīng)碼本激勵分量和固定碼本激勵分量兩者都使用每個子幀的某一激勵增強來產(chǎn)生。第一和第三子幀中的自適應(yīng)碼本的基音周期在從最小基音限制PIT_MIN到最大基音限制PIT_MAX的全范圍中進行編碼。第二和第四子幀中的自適應(yīng)碼本的基音周期與先前編碼的基音周期有區(qū)別地進行編碼。VOICED類別可通過與GENERIC類別略有不同的方式進行編碼。例如,第一子幀中的基音周期可在從最小基音限制PIT_MIN到最大基音限制PIT_MAX的全范圍中進行編碼。其它子幀中的基音周期可與先前編碼的基音周期有區(qū)別地進行編碼。作為說明,假如激勵采樣速率是12.8kHz,那么示例PIT_MIN值可以是34,示例PIT_MAX值可以是231?,F(xiàn)將描述本發(fā)明的改進時域編碼與頻域編碼之間的分類的實施例。一般來說,最好對語音信號使用時域編碼且對音樂信號使用頻域編碼,以便以相當(dāng)高的比特率(例如,24kbps≤比特率≤64kbps)實現(xiàn)最佳質(zhì)量。然而,對于某一特定語音信號,例如短基音信號、振鳴語音信號或非常嘈雜的語音信號,最好使用頻域編碼。對于某一特定音樂信號,例如非常周期性的信號,最好通過從非常高的LTP增益獲益來使用時域編碼。比特率是用于分類的重要參數(shù)。通常,時域編碼支持低比特率,頻域編碼支持高比特率。還考慮到比特率范圍和編碼算法的特性,時域編碼與頻域編碼之間的最佳分類或選擇需要謹(jǐn)慎決定。在接下來的部分中將描述正常語音和段基音信號的檢測。正常語音是除振鳴語音信號、短基音語音信號或語音/音樂混合信號之外的語音信號。正常語音還可以是快速變化的語音信號,其頻譜和/或能量的變化快于大部分音樂信號。通常,對于對正常語音信號進行編碼,時域編碼算法優(yōu)于頻域編碼算法。以下是檢測正常語音信號的示例算法。對于基音候選P,通常以如等式(8)中的數(shù)學(xué)形式定義歸一化基音相關(guān)系數(shù)。在等式(8)中,sw(n)是加權(quán)語音信號,分子是相關(guān)系數(shù),分母是能量歸一化因子。假設(shè)Voicing指示當(dāng)前語音幀中的四個子幀的平均歸一化基音相關(guān)系數(shù)值,Voicing可按以下等式(9)計算。Voicing=[R1(P1)+R2(P2)+R3(P3)+R4(P4)]/4(9)R1(P1)、R2(P2)、R3(P3)和R4(P4)是針對各個子幀計算的四個歸一化基音相關(guān)系數(shù);各個子幀的P1,、P2、P3和P4是在從P=PIT_MIN到P=PIT_MAX的基音范圍中找到的最佳基音候選。從前一幀到當(dāng)前幀的平滑后的基音相關(guān)系數(shù)可以如等式(10)計算。在等式(10)中,VAD是語音活動檢測(VoiceActivityDetection),VAD=1指存在語音信號。假設(shè)Fs是采樣速率,非常低的頻率范圍[0,FMIN=Fs/PIT_MIN](Hz)中的最大能量是Energy0(dB),低頻范圍[FMIN,900](Hz)中的最大能量是Energy1(dB),高頻范圍[5000,5800](Hz)中的最大能量是Energy3(dB),頻譜傾斜參數(shù)Tilt如下定義。Tilt=energy3-max{energy0,energy1}(11)平滑后的頻譜傾斜參數(shù)如等式(12)指示。當(dāng)前幀與前一幀的差分頻譜傾斜可如等式(13)給出。Diff_tilt=|tilt-old_tilt|(13)平滑后的差分頻譜傾斜如等式(14)給出。當(dāng)前幀與前一幀的差分低頻能量為Diff_energy1=|energy1-old_energy1|(15)平滑后的差分能量通過等式(16)給出。此外,在濁音區(qū)域中通過考慮由Energy變化得到的Diff_energy1_sm、由Voicing變化得到Voicing_sm和由Diff_tilt變化Diff_tilt_sm來確定和改變一個由Speech_flag表示的正常語音標(biāo)記,如公式(17)所示。將描述本發(fā)明的檢測短基音信號的實施例。對于正常語音信號,大多數(shù)CELP編解碼器效果良好。然而,對于音樂信號和/或振鳴語音信號,低比特率CELP編解碼經(jīng)常失敗。如果基音編碼范圍是從PIT_MIN到PIT_MAX且實際基音周期小于PIT_MIN,則CELP編碼性能可能由于雙重基音或三重基音而感知不佳。例如,采樣頻率Fs=12.8kHz時,PIT_MIN=34到PIT_MAX=231的基音范圍適合大多數(shù)人類聲音。然而,規(guī)律性音樂或振鳴濁音信號的實際基音周期可能比上述示例CELP算法中定義的最小限制PIT_MIN=34短得多。當(dāng)實際基音周期為P時,對應(yīng)的歸一化基本頻率(或第一諧波)為f0=Fs/P,其中,F(xiàn)s是采樣頻率,f0是頻譜中第一諧振峰的位置。因此,對于給定的采樣頻率,最小基音限制PIT_MIN實際上定義了CELP算法的最大基本諧波頻率限制FM=Fs/PIT_MIN。圖7示出了原始濁音寬帶頻譜的示例。圖8示出了圖7所示的原始濁音寬帶頻譜的使用雙重基音周期編碼的編碼濁音寬帶頻譜。換言之,圖7示出了編碼之前的頻譜,圖8示出了編碼之后的頻譜。在圖7所示的示例中,頻譜由諧振峰701和頻譜包絡(luò)702形成。實際基本諧波頻率(第一諧振峰的位置)已超過最大基本諧波頻率限制FM,因此針對CELP算法的已傳輸基音周期無法等于實際基音周期,其會是實際基音周期的雙倍或更多倍。傳輸?shù)亩啾队趯嶋H基音周期的錯誤基音周期會導(dǎo)致明顯的質(zhì)量下降。換言之,當(dāng)諧波音樂信號或振鳴語音信號的實際基音周期小于CELP算法中定義的最小基因周期限制PIT_MIN時,傳輸?shù)幕糁芷跁菍嶋H基音周期的雙倍、三倍或更多倍。因此,具有已傳輸基音周期的編碼信號的頻譜可以如圖8所示。如圖8所示,除了包括諧振峰8011和頻譜包絡(luò)802,還可以看到實際諧振峰之間的多余小峰803,而正確的頻譜應(yīng)像圖7中的頻譜。圖8中的這些小頻譜峰會導(dǎo)致不舒服的感知失真。根據(jù)本發(fā)明的實施例,在CELP對于某些特定信號失敗時,解決該問題的一個方案是使用頻域編碼而非時域編碼。通常,音樂諧波信號或振鳴語音信號比正常語音信號更平穩(wěn)。正常語音信號的基音周期(或基本頻率)一直在變化。然而,音樂信號或振鳴語音信號的基音周期(或基本頻率)在相當(dāng)長的時間內(nèi)經(jīng)常保持相對較慢的變化。從PIT_MIN0到PIT_MIN定義一個非常短的基音范圍。在采樣頻率Fs=12.8kHz時,非常短的基音范圍的示例定義可以是從PIT_MIN0≤17到PIT_MIN=34。因為基音候選如此短,所以從0Hz到FMIN=Fs/PIT_MINHz的能量一定要相對足夠低。在檢測短基音信號的存在時,可以增加其它條件,例如語音活動監(jiān)測和濁音分類。以下兩個參數(shù)有助于檢測非常短的基音信號的可能存在。一個的特征是“缺少非常低的頻率能量”,另一個的特征是“頻譜銳度”。如上文已經(jīng)提及的,假設(shè)頻域[0,FMIN](Hz)中的最大能量是Energy0(dB),頻域[FMIN,900](Hz)中的最大能量是Energy1(dB),Energy0與Energy1之間的相對能量比在以下等式(18)中提供。Ratio=Energy1-Energy0(18)該能量比可以通過乘以平均歸一化基音相關(guān)系數(shù)值濁音度來加權(quán),其在以下等式(19)中示出。使用Voicing因子在等式(19)中進行加權(quán)的原因在于,對于濁音語音或諧波音樂,短基音檢測是有意義的,對于清音語音或非諧波音樂,短基音檢測是無意義的。在使用Ratio參數(shù)檢測低頻能量的缺少之前,最好將其平滑以便降低如等式(20)中的不確定性。如果LF_lack_flag=1是指檢測到缺少低頻能量(否則LF_lack_flag=0),則可以通過以下流程確定LF_lack_flag。通過以下方式確定頻譜銳度相關(guān)的參數(shù)。假設(shè)Energy1(dB)是低頻區(qū)域[FMIN,900](Hz)中的最大能量,i_peak是頻率區(qū)域[FMIN,900](Hz)中的最大能量諧振峰位置,Energy2(dB)是頻域區(qū)域[i_peak,i_peak+400](Hz)中的平均能量。一個頻譜銳度參數(shù)如等式(21)定義。SpecSharp=max{Energy1-Energy2,0}(21)平滑后的頻譜銳度參數(shù)如下給定。if(VAD=1){SpecSharp_sm=(7·SpecSharp_sm+SpecSharp)/8}指示短基音信號的可能存在的一個頻譜銳度標(biāo)記通過以下流程求值。如果以上條件都不滿足,則SpecSharp_flag保持不變。在各種實施例中,可以使用以上估算的參數(shù)來改進時域編碼與頻域編碼的分類或選擇。假設(shè)Sp_Aud_Deci=1表示選擇了頻域編碼,Sp_Aud_Deci=0表示選擇了時域編碼。以下流程給出了針對不同編碼比特率改進時域編碼與頻域編碼的分類的示例算法。本發(fā)明的實施例可用于改進針對高比特率信號的編碼,例如,編碼比特率大于或等于46200bps。當(dāng)編碼比特率非常高且可能存在短基音信號時,選擇頻域編碼,因為頻域編碼能夠交付穩(wěn)健且可靠的質(zhì)量,而時域編碼存在受到錯誤基音檢測的負(fù)面影響的風(fēng)險。相反,當(dāng)不存在短基音信號且信號是清音語音或正常語音時,選擇時域編碼,因為對于正常語音信號,時域編碼能夠比頻域編碼交付更好的質(zhì)量。本發(fā)明的實施例可用于改進針對中等比特率信號的編碼,例如,當(dāng)比特率在24.4kbps與46200bps之間時。當(dāng)可能存在短基音信號且濁音周期較低時,選擇頻域編碼,因為頻域編碼能夠交付穩(wěn)健且可靠的質(zhì)量,而時域編碼存在受到低濁音周期的負(fù)面影響的風(fēng)險。當(dāng)不存在短基音信號且信號是清音語音或正常語音時,選擇時域編碼,因為對于正常語音信號,時域編碼能夠比頻域編碼交付更好的質(zhì)量。當(dāng)濁音周期非常強時,選擇時域編碼,因為時域編碼能夠通過非常強的濁音周期從高LTP增益受益良多。本發(fā)明的實施例還可用于改進針對高比特率信號的編碼,例如,編碼比特率小于24.4kbps。當(dāng)存在短基音信號、濁音周期不低且短基音周期檢測正確時,不選擇頻域編碼,因為頻域編碼在低速率時無法交付穩(wěn)健且可靠的質(zhì)量,而時域編碼能夠很好地從LTP函數(shù)受益。以下算法示出了以上實施例的特定實施例作為說明。所有參數(shù)均可如先前在一項或多項實施例中描述的來計算。在各種實施例中,可使用時域編碼與頻域編碼的分類或選擇來顯著提高某些特定語音信號或音樂信號的感知質(zhì)量?;跒V波器組技術(shù)的音頻編碼在頻域編碼中廣泛使用。在信號處理中,濾波器組是一組將輸入信號分離成多個分量的帶通濾波器,每個分量攜帶原始輸入信號的單個頻率子帶。由濾波器組執(zhí)行的分解過程稱為分析,濾波器組分析的輸出被稱為子帶信號,其中子帶信號具有與濾波器組中的濾波器一樣多的子帶。重構(gòu)過程被稱為濾波器組合成。在數(shù)字信號處理中,術(shù)語濾波器組通常還應(yīng)用到一組接收器中,接收器還可將子帶下變頻為能夠以降低的速率重新采樣的低中心頻率。有時可以通過對帶通子帶進行下采樣獲得相同的合成結(jié)果。濾波器組分析的輸出可采用復(fù)系數(shù)形式。每個復(fù)系數(shù)具有分別表示濾波器組中每個子帶的余弦項和正弦項的實元素和虛元素。濾波器組分析和濾波器組合成是一種變換對,其將時域信號變換為頻域系數(shù),并將頻域系數(shù)逆變換為時域信號。其它流行的變換對,例如(FFT和iFFT)、(DFT和iDFT)以及(MDCT和iMDCT),也可在語音/音頻編碼中使用。在應(yīng)用濾波器組進行信號壓縮時,一些頻率在感知上比其它頻率更重要。在分解之后,可以使用高分辨率對感知上重要的頻率進行編碼,因為使用會保留這些差異的編碼方案會保證在感知上會注意到這些頻率的微小差異。另一方面,少數(shù)感知上重要的頻率不被盡可能精確地重復(fù)。因此,可以使用更粗略的編碼方案,即使一些更精細的細節(jié)在編碼時將會丟失。典型的更粗略編碼方案可基于帶寬擴展(BandwidthExtension,BWE),還稱為高頻帶擴展(HighBandExtension,HBE)這個概念。最近流行的一種特定BWE或HBE方法稱為子帶復(fù)制(SubBandReplica,SBR)或頻段復(fù)制(SpectralBandReplication,SBR)。這些技術(shù)是類似的,因為他們利用小比特率預(yù)算,甚至是零比特率預(yù)算,對一些子頻帶(通常是高頻帶)進行編碼和解碼,從而產(chǎn)生明顯低于正常編碼/解碼方法的比特率。通過SBR技術(shù),可以從低頻帶中復(fù)制高頻帶中的頻譜精細結(jié)構(gòu),而且可以增加隨機噪聲。然后,通過使用從編碼器向解碼器傳輸?shù)倪呅畔⑿纬筛哳l帶的頻譜包絡(luò)。對音頻壓縮的設(shè)計使用心理聲學(xué)原則或感知掩蔽效應(yīng)是合理的。音頻/語音設(shè)備或通信旨在通過它們的所有能力和感知限制與人類交互。傳統(tǒng)音頻設(shè)備嘗試再現(xiàn)最接近原始信號的信號。更合適地定向的且經(jīng)常更有效的目標(biāo)是實現(xiàn)人類可感知的保真度。這是感知編碼器的目標(biāo)。雖然數(shù)字音頻感知編碼器的一個主要目標(biāo)是數(shù)據(jù)歸約,但是感知編碼還可用于通過高級比特分配來改進數(shù)字音頻的表示。感知編碼器的一個示例可以是多頻帶系統(tǒng),其通過模仿心理聲學(xué)的臨界頻帶的方式來劃分頻譜。通過對人類感知進行建模,感知編碼器可以像人類一樣處理信號,并利用掩蔽等現(xiàn)象。雖然這是它們的目標(biāo),但是過程依靠精確算法。由于很難具有覆蓋覆蓋普通人類聽覺行為的非常精確的感知模型的事實,感知模型的任何數(shù)學(xué)表示的精確度都仍然是有限的。然而,通過有限的精確度,感知概念已在音頻編解碼器的設(shè)計中提供了幫助。很多MPEG音頻編碼方案已從感知掩蔽效應(yīng)研究中受益。若干ITU標(biāo)準(zhǔn)編解碼器也使用感知概念。例如,ITUG.729.1基于感知掩蔽概念執(zhí)行所謂的動態(tài)比特分配?;诟兄匾缘膭討B(tài)比特分配概念還在最近的3GPPEVS編解碼器中使用。圖9A和9B示出了典型頻域感知編解碼器的示意圖。圖9A示出了頻域編碼器而圖9B示出了頻域解碼器。首先將原始信號901變換為頻域以獲得未量化的頻域系數(shù)902。在量化系數(shù)之前,掩蔽功能(感知重要性)將頻譜劃分為許多子帶(為簡單起見,常等距劃分)。每個子帶動態(tài)分配所需比特數(shù),同時保持分配給所有子帶的總比特數(shù)不超過上限。如果判斷為在掩蔽閾值之下,則一些子帶可能會分到0比特。一旦確定什么可以被丟棄,剩余的就會分到可用比特數(shù)。因為比特沒有浪費在掩蔽頻譜上,所以能夠?qū)?shù)量更多的比特分配給剩余信號。根據(jù)所分配的比特,量化系數(shù)并將比特流703發(fā)送給解碼器。雖然感知掩蔽概念在編解碼器設(shè)計中有很大幫助,但是由于各種原因和限制,其仍然是不完美的。參考圖9B,解碼器側(cè)后處理能夠進一步提高通過有限比特流產(chǎn)生的解碼信號的感知質(zhì)量。解碼器首先使用接收的比特904來重構(gòu)量化系數(shù)905。然后,合理設(shè)計的模塊906對它們進行后處理以獲得增強系數(shù)907。對增強系數(shù)執(zhí)行逆變換以得到最終時域輸出908。圖10示出了根據(jù)本發(fā)明實施例的在對包括音頻數(shù)據(jù)的語音信號進行編碼之前在編碼器處執(zhí)行的操作的示意圖。參考圖10,方法包括基于將用于對數(shù)字信號進行編碼的編碼比特率和數(shù)字信號的基音周期來選擇頻域編碼或時域編碼(方框1000)。頻域編碼或時域編碼的選擇包括確定數(shù)字信號是否包括短基音信號的步驟,其中該短基音信號的基音周期短于基音周期限度(方框1010)。此外,確定編碼比特率是否高于比特率上限(方框1020)。如果數(shù)字信號包括短基音信號且編碼比特率高于比特率上限,則選擇頻域編碼來對數(shù)字信號進行編碼。否則,確定編碼比特率是否低于比特率下限(方框1030)。如果數(shù)字信號包括短基音信號且編碼比特率低于比特率下限,則選擇時域編碼來對數(shù)字信號進行編碼。否則,確定編碼比特率是否在比特率上限與比特率下限中間(方框1040)。然后確定濁音周期(方框1050)。如果數(shù)字信號包括短基音信號、編碼比特率處于中間且濁音周期較低,則選擇頻域編碼來對數(shù)字信號進行編碼?;蛘撸绻麛?shù)字信號包括短基音信號、編碼比特率處于中間且濁音周期非常強,則選擇時域編碼來對數(shù)字信號進行編碼?;蛘?,參考方框1010,數(shù)字信號不包括基音周期短于基音周期限度的短基音信號。確定數(shù)字信號是否被歸類為清音語音或正常語音(方框1070)。如果數(shù)字信號不包括短基音信號且如果數(shù)字信號被歸類為清音語音或正常語音,則選擇時域編碼來對數(shù)字信號進行編碼。因此,在各種實施例中,一種用于在對包括音頻數(shù)據(jù)的數(shù)字信號進行編碼之前處理語音信號的方法包括:基于將用于對數(shù)字信號進行編碼的編碼比特率和數(shù)字信號的短基音周期檢測來選擇頻域編碼或時域編碼。數(shù)字信號包括基音周期短于基音周期限度的短基音信號。在各種實施例中,選擇頻域編碼或時域編碼的方法包括:當(dāng)編碼比特率高于比特率上限時,選擇頻域編碼來對數(shù)字信號進行編碼;當(dāng)編碼比特率低于比特率下限時,選擇時域編碼來對數(shù)字信號進行編碼。當(dāng)編碼比特率大于或等于46200bps時,編碼比特率高于比特率上限。當(dāng)編碼比特率小于24.4kbps時,編碼比特率低于比特率下限。類似地,在另一實施例中,一種用于在對包括音頻數(shù)據(jù)的數(shù)字信號進行編碼之前處理語音信號的方法包括:當(dāng)編碼比特率高于比特率上限時,選擇頻域編碼來對數(shù)字信號進行編碼?;蛘?,當(dāng)編碼比特率低于比特率下限時,該方法選擇時域編碼來對數(shù)字信號進行編碼。數(shù)字信號包括基音周期短于基音周期限度的短基音信號。當(dāng)編碼比特率大于或等于46200bps時,編碼比特率高于比特率上限。當(dāng)編碼比特率小于24.4kbps時,編碼比特率低于比特率下限。類似地,在另一實施例中,一種用于在編碼之前處理語音信號的方法包括:當(dāng)數(shù)字信號不包括短基音信號并且數(shù)字信號被歸類為清音語音或正常語音時,選擇時域編碼來對包括音頻數(shù)據(jù)的數(shù)字信號進行編碼。該方法還包括:當(dāng)編碼比特率處于比特率下限與比特率上限中間時,選擇頻域編碼來對數(shù)字信號進行編碼。數(shù)字信號包括短基音信號,且濁音周期較低。該方法還包括:當(dāng)編碼比特率處于中間、數(shù)字信號包括短基音信號且濁音周期非常強時,選擇時域編碼來對數(shù)字信號進行編碼。比特率下限為24.4kbps,比特率上限為46.2kbps。圖11示出了根據(jù)本發(fā)明實施例的通信系統(tǒng)10。通信系統(tǒng)10具有經(jīng)由通信鏈路38和40耦合到網(wǎng)絡(luò)36的音頻接入設(shè)備7和8。在一項實施例中,音頻接入設(shè)備7和8是基于IP的語音傳輸(voiceoverinternetprotocol,VOIP)設(shè)備,網(wǎng)絡(luò)36是廣域網(wǎng)(wideareanetwork,WAN)、公共交換電話網(wǎng)絡(luò)(publicswitchedtelephonenetwork,PSTB)和/或互聯(lián)網(wǎng)。在另一項實施例中,通信鏈路38和40是有線和/或無線寬帶連接。在另一替代性實施例中,音頻接入設(shè)備7和8是蜂窩或移動電話,鏈路38和40是無線移動電話信道,網(wǎng)絡(luò)36表示移動電話網(wǎng)絡(luò)。音頻接入設(shè)備7使用麥克風(fēng)12將聲音,例如音樂或人的聲音,轉(zhuǎn)換成模擬音頻輸入信號28。麥克風(fēng)接口16將模擬音頻輸入信號28轉(zhuǎn)換成數(shù)字音頻信號33以輸入到編解碼器20的編碼器22中。根據(jù)本發(fā)明實施例,編碼器22產(chǎn)生已編碼音頻信號TX以便經(jīng)由網(wǎng)絡(luò)接口26向網(wǎng)絡(luò)26傳輸。編解碼器20內(nèi)的解碼器24經(jīng)由網(wǎng)絡(luò)接口26接收來自網(wǎng)絡(luò)36的已編碼音頻信號RX,并且將已編碼音頻信號RX轉(zhuǎn)換成數(shù)字音頻信號34。揚聲器接口18將數(shù)字音頻信號34轉(zhuǎn)換成適用于驅(qū)動揚聲器14的音頻信號30。在本發(fā)明實施例中,當(dāng)音頻接入設(shè)備7為VOIP設(shè)備時,音頻接入設(shè)備7內(nèi)的一些或所有組件在手機內(nèi)實施。然而,在一些實施例中,麥克風(fēng)12和揚聲器14為單獨的單元,麥克風(fēng)接口16、揚聲器接口18、編解碼器20和網(wǎng)絡(luò)接口26在個人計算機內(nèi)實施。編解碼器20可以在運行在計算機或?qū)S锰幚砥魃系能浖袑嵤┗蛲ㄟ^專用集成電路(applicationspecificintegratedcircuit,ASIC)等上的專用硬件實施。麥克風(fēng)接口16通過模數(shù)(analog-to-digital,A/D)轉(zhuǎn)換器以及位于手機和/或計算機內(nèi)的其它接口電路來實施。同樣地,揚聲器接口18通過數(shù)模轉(zhuǎn)換器和位于手機和/或計算機內(nèi)的其它接口電路來實施。在其它實施例中,音頻接入設(shè)備7可以通過本領(lǐng)域已知的其它方式來實施和劃分。在本發(fā)明實施例中,當(dāng)音頻接入設(shè)備7為蜂窩或移動電話時,音頻接入設(shè)備7內(nèi)的元件在蜂窩手機內(nèi)實施。編解碼器20通過運行在手機內(nèi)的處理器上的軟件或通過專用硬件來實施。在本發(fā)明的其它實施例中,音頻接入設(shè)備可以在諸如端到端有線和無線數(shù)字通信系統(tǒng),例如對講機和無線手機,之類的其它設(shè)備中實施。在客戶音頻設(shè)備等應(yīng)用中,音頻接入設(shè)備可包括數(shù)字麥克風(fēng)系統(tǒng)或音樂播放設(shè)備中的只具有例如編碼器22或解碼器24的編解碼器。在本發(fā)明的其它實施例中,編解碼器20可以在沒有麥克風(fēng)12和揚聲器14的情況下在接入PSTN的蜂窩基站中使用。本發(fā)明各種實施例中描述的用于改進清音/濁音分類的語音處理可以在編碼器22或解碼器24等中實施。用于改進清音/濁音分類的語音處理可以在各種實施例中的硬件或軟件中實施。例如,編碼器22或解碼器24可以是數(shù)字信號處理(digitalsignalprocessing,DSP)芯片的一部分。圖12示出了可以用于實施本文公開的設(shè)備和方法的處理系統(tǒng)的方框圖。特定設(shè)備可利用所有示出的組件或僅組件子集,且設(shè)備之間的集成程度可能不同。此外,設(shè)備可以包括組件的多個實例,例如多個處理單元、處理器、存儲器、發(fā)射器、接收器等。處理系統(tǒng)可包括配備一個或多個輸入/輸出設(shè)備,例如揚聲器、麥克風(fēng)、鼠標(biāo)、觸摸屏、按鍵、鍵盤、打印機、顯示器等的處理單元。處理單元可包括中央處理器(centralprocessingunit,CPU)、存儲器、大容量存儲器設(shè)備、視頻適配器以及連接至總線的I/O接口??偩€可以是任意類型的若干總線架構(gòu)中的一個或多個,包括存儲總線或存儲控制器、外設(shè)總線、視頻總線等等。CPU可包括任意類型的電子數(shù)據(jù)處理器。存儲器可包括任意類型的系統(tǒng)存儲器,例如靜態(tài)隨機存取存儲器(staticrandomaccessmemory,SRAM)、動態(tài)隨機存取存儲器(dynamicrandomaccessmemory,DRAM)、同步DRAM(synchronousDRAM,SDRAM)、只讀存儲器(read-onlymemory,ROM)或它們的組合,等等。在實施例中,存儲器可包括在開機時使用的ROM以及執(zhí)行程序時使用的程序和數(shù)據(jù)存儲器的DRAM。大容量存儲器設(shè)備可包括任意類型的存儲器設(shè)備,其用于存儲數(shù)據(jù)、程序和其它信息,并使這些數(shù)據(jù)、程序和其它信息可通過總線訪問。大容量存儲器設(shè)備可包括如下項中的一項或多項:固態(tài)磁盤、硬盤驅(qū)動器、磁盤驅(qū)動器、光盤驅(qū)動器等等。視頻適配器和I/O接口提供接口來將外部輸入和輸出設(shè)備耦合到處理單元。如所圖示,輸入和輸出設(shè)備的示例包括耦合到視頻適配器的顯示器以及耦合到I/O接口的鼠標(biāo)/鍵盤/打印機。其它設(shè)備可耦合到處理單元,并且可利用額外的或較少的接口卡。例如,通用串行總線(UniversalSerialBus,UBS)(未示出)等串行接口可用于為打印機提供接口。處理單元還包括一個或多個網(wǎng)絡(luò)接口,網(wǎng)絡(luò)接口可包括以太網(wǎng)電纜等有線鏈路,和/或用以接入節(jié)點或不同網(wǎng)絡(luò)的無線鏈路。網(wǎng)絡(luò)接口允許處理單元通過網(wǎng)絡(luò)與遠程單元通信。例如,網(wǎng)絡(luò)接口可以通過一個或多個發(fā)射器/發(fā)射天線以及一個或多個接收器/接收天線來提供無線通信。在實施例中,處理單元耦合到局域網(wǎng)或廣域網(wǎng)上以用于數(shù)據(jù)處理以及與遠程設(shè)備通信,遠程設(shè)備可為其它處理單元、互聯(lián)網(wǎng)、遠程存儲設(shè)施,等等。雖然已參考說明性實施例描述了本發(fā)明,但此描述并不旨在限制本發(fā)明。所屬領(lǐng)域技術(shù)人員在參考該描述后將會明白說明性實施例的各種修改和組合以及本發(fā)明的其它實施例。例如,上述各種實施例可以彼此組合。參考圖13,描述了用于在對數(shù)字信號進行編碼之前處理語音信號的裝置130的實施例。該裝置包括:編碼選擇器131,用于基于將用于對數(shù)字信號進行編碼的編碼比特率和數(shù)字信號的短基音周期檢測來選擇頻域編碼或時域編碼。其中,當(dāng)數(shù)字信號包括基音周期短于基音周期限度的短基音信號時,編碼選擇器用于:當(dāng)編碼比特率高于比特率上限時,選擇頻域編碼來對數(shù)字信號進行編碼,以及當(dāng)編碼比特率低于比特率下限時,選擇時域編碼來對數(shù)字信號進行編碼。其中,當(dāng)數(shù)字信號包括基音周期短于基音周期限度的短基音信號時,編碼選擇器用于:當(dāng)編碼比特率處于比特率下限與比特率上限中間且其中濁音周期較低時,選擇頻域編碼來對數(shù)字信號進行編碼。其中,當(dāng)數(shù)字信號不包括基音周期短于基音周期限度的短基音信號時,編碼選擇器用于:當(dāng)數(shù)字信號被歸類為清音語音或正常語音時,選擇時域編碼來對數(shù)字信號進行編碼。其中,當(dāng)數(shù)字信號包括基音周期短于基音周期限度的短基音信號時,編碼選擇器用于:當(dāng)編碼比特率處于比特率下限與比特率上限中間且濁音周期非常強時,選擇時域編碼來對數(shù)字信號進行編碼。該裝置還包括編碼單元132,該編碼單元用于使用選擇器131選擇的頻域編碼或選擇器131選擇的時域編碼來對數(shù)字信號進行編碼。編碼選擇器和編碼單元可以通過CPU或通過FPGA、ASIC等一些硬件電路來實施。參考圖14,描述了用于在對數(shù)字信號進行編碼之前處理語音信號的裝置140的實施例。該裝置包括:編碼選擇單元141,該編碼選擇單元用于:當(dāng)數(shù)字信號不包括短基音信號且數(shù)字信號被歸類為清音語音或正常語音時,選擇時域編碼來對包括音頻數(shù)據(jù)的數(shù)字信號進行編碼;當(dāng)編碼比特率處于比特率下限與比特率上限中間、數(shù)字信號包括短基音信號且濁音周期較低時,選擇頻域編碼來對數(shù)字信號進行編碼;以及當(dāng)編碼比特率處于中間、數(shù)字信號包括短基音信號且濁音周期非常強時,選擇時域編碼來對數(shù)字信號進行編碼。該裝置還包括第二編碼單元142,第二編碼單元用于使用編碼選擇單元141選擇的頻域編碼或編碼選擇單元141選擇的時域編碼來對數(shù)字信號進行編碼。編碼選擇單元和編碼單元可以通過CPU或通過FPGA、ASIC等一些硬件電路來實施。雖然已詳細地描述了本發(fā)明及其優(yōu)點,但是應(yīng)理解,可以在不脫離如所附權(quán)利要求書所界定的本發(fā)明的精神和范圍的情況下對本發(fā)明做出各種改變、替代和更改。例如,上文所論述的許多特征和功能可以由軟件、硬件、固件或其組合來實施。此外,本發(fā)明的范圍并不局限于說明書中所述的過程、機器、制造、物質(zhì)組分、構(gòu)件、方法和步驟的具體實施例。所屬領(lǐng)域的一般技術(shù)人員可從本發(fā)明中輕易地了解,可根據(jù)本發(fā)明使用現(xiàn)有的或即將開發(fā)出的,具有與本文所描述的相應(yīng)實施例實質(zhì)相同的功能,或能夠取得與所述實施例實質(zhì)相同的結(jié)果的過程、機器、制造、物質(zhì)組分、構(gòu)件、方法或步驟。相應(yīng)地,所附權(quán)利要求范圍包括這些流程、機器、制造、物質(zhì)組分、構(gòu)件、方法及步驟。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3