專利名稱:語音信號的編碼和傳輸?shù)姆椒?br>
技術領域:
本發(fā)明涉及一種語音信號編碼的方法、特別是在有多種代碼本,通過代碼本的項使語音信號成為近似值,的情況下涉及的一種語音信號編碼的方法,和涉及一種傳輸語音信號的方法。
在數(shù)字語音通信系統(tǒng)、如固定網(wǎng)、因特網(wǎng)或數(shù)字移動網(wǎng)中,使用多種語音編碼方法,以便降低要傳輸?shù)谋忍芈?。語音編碼方法通常提供一個已經進行語音編碼的比特的比特流,該比特流被劃分成分別代表譬如為20ms的語音信號的幀。一個幀內的多個比特一般表示參量的一個確定的組。一個幀又多次地劃分成子幀,以致于某些參量一次按每幀傳輸,在下一次按每個子幀傳輸。作為舉例給出了US-TDMA增強型全速率(EFR)語音編譯碼,其速率為7.4kbps,也即每20ms的幀為148比特。在此,一幀由4個子幀組成。
下面就這種語音編碼方法示范性地介紹在所謂的CELP(碼激勵線性預測)碼中所出現(xiàn)的參量的意義-所謂的LPC(線性預測編碼)合成濾波器的10個系數(shù),它用26比特/幀被進行量化。濾波器在當前幀的區(qū)內顯示語音信號的頻譜包絡。用于這種濾波器的激勵信號以相加地方式組成,有一個用所謂的“自適應放大系數(shù)”g-1加權的所謂的“自適應激勵信號”s-a和一個用所謂的“固定的放大系數(shù)”g-2加權的所謂的“固定的激勵信號”s-f。
-借助4×17個比特對固定激勵信號的4個子幀量化。固定的激勵信號s-f由所謂的“固定的代碼本”的項組成,該項用固定的放大系數(shù)g-2加權。固定的代碼本的項各由一脈沖序列組成,該脈沖序列只在很少時刻與0不同。
-借助2×8個比特和2×5個比特表示語音基頻的4個值。在所謂的通過合成進行分析的CELP編碼方法中產生的自適應激勵信號,在延遲語音基頻一個周期的情況下,從LPC合成濾波器的激勵信號中確定。所有可能的已量化的語音基頻都構成所謂的“自適應代碼本”,該代碼本包括相應移位的激勵信號。
-借助4×7個比特對每幀4個放大系數(shù)對進行矢量量化?!白赃m應放大系數(shù)”被用到自適應激勵信號上,“固定的放大系數(shù)”被用到固定的激勵信號上。然后,如上所述,LPC合成濾波器的總激勵信號以相加地方式由加權的自適應的和固定的激勵信號組成。
代碼本的項一般稱做代碼字或代碼矢量。
自適應代碼本之所以稱之為“自適應”,是因為在該代碼本中包含的代碼矢量不是一個常數(shù)或更甚之以暫存的方式存在,而是對每個子幀都自適應地從過去的LPC合成濾波器的總激勵信號中來確定該代碼矢量。固定的代碼本之所以是“固定”,是由于代碼矢量或者是以固定存儲方式存在(噪聲激勵)或者是至少通過所確定的計算規(guī)范算出(代數(shù)代碼本),該計算規(guī)范不依賴于各自的子幀。分別分配的放大系數(shù)通常也稱之為“自適應”或“固定”。需要說明的是,所有4種參量類型即自適應和固定的激勵信號,以及自適應和固定的放大系數(shù),自然都可在每個子幀中確定,并且在這種意義上所有的4種參量都具有“自適應性質”。此外,確應堅持以前引用的術語(在文獻中也是常用的)或使用概念“第一放大系數(shù)”代替“自適應放大系數(shù)”和使用概念“第二放大系數(shù)”代替“固定的放大系數(shù)”。
激勵信號S`在進行LPC合成濾除之后,應盡可能準確地反映在這個時間出現(xiàn)的語音段、語音信號S。
所以,應如此選擇參量g-1、g-2、s-a、s-f,以致于能由此盡可能好地表示語音信號。
激勵信號s`=g-1*s-a+g-2*s-f以此在接收機一端進行LPC合成濾除之后近似為語音信號。
對總的激勵信號S`來說,各個被加數(shù)g-1*s-a或g-2*s-f的量值變化取決于語音信號段的語音特點。
語音信號包括幀序列或子幀序列,在這些幀中語音信號可作為穩(wěn)定的,也即無須按時間展開其統(tǒng)計特性進行模擬。在此系指周期性的段譬如可表示元音的段。這種周期性通過被加數(shù)g-1*s-a的量值進入總激勵信號S`之內。
但是也甚至于具有很不穩(wěn)定的語音信號段,譬如象所謂的“突發(fā)開始”(“Onsets”)或“語音爆破音”(“Sprach-Onsets”)。在此譬如系指一個字開始的爆破音。在這種情況下,被加數(shù)g-2*s-f表示對激勵信號S`的主要量值。
一個具有突發(fā)開始的幀或子幀的統(tǒng)計特性通常不用從后面的幀或子幀就可估算出來。特別是在突發(fā)開始時確定不了長時間周期性,也即語音基頻的值完全不能表達和不能使用。因而,為對語音信號段編碼,在突發(fā)開始時,由自適應代碼本的自適應放大系數(shù)和項組成的量值,確可表達語音信號的長時間周期性,與其說是有利不如說是不利。自適應激勵信號的量值對總激勵信號來說在突發(fā)開始時按規(guī)則是不利的如果根本就不出現(xiàn)周期性,也即在自適應代碼本查找的范圍內不出現(xiàn)合適的自適應激勵信號,則得到的最佳的自適應放大系數(shù)為0。
現(xiàn)在,自適應和固定的放大系數(shù)g-1和g-2作為數(shù)對(g-1、g-2)多次借助放大系數(shù)的其它代碼本進行量化。在對參量進行并行的彼此相關的量化的這種情況下,稱之為矢量量化。這種代碼本自然只有一個有限的數(shù)量,典型為7比特,以此就可實現(xiàn)27=128項,這些項的標號譬如是從0-127。
只傳輸標號到接收機上,由此在與常規(guī)傳輸相比在g-1和g-2進行標量量化后單獨得到一個數(shù)據(jù)壓縮的結果。標量量化可理解成是一種參量的單個的、彼此獨立的量化。如上所述,在這個代碼本中項的數(shù)量是有限的。
因此,可作為在這個代碼本中的項來使用那些數(shù)對(g-1、g-2),通過數(shù)對的總和,也即具有標號0-127的數(shù)對使盡可能地表示所有可能出現(xiàn)的g-1和g-2的組合。然后,這些按常規(guī)方式提供給一個所謂的矢量量化。在采用自適應放大系數(shù)g-1=0時,原則上可能出現(xiàn)固定放大系數(shù)g-2的任意值,因為在非周期性語音段中,如上所述,自適應部分g-1*s-a恰好比固定部分小得多,由此通過后者來確定LPC合成濾波器的激勵信號S`,并且在這種情況下不可能從過去存在的值中計算固定部分。
為了在這種情況下即g-1=0的情況下,在LPC合成濾波后通過參量g-1、g-2、s-a、s-f使激勵信號S`與原語音信號S也可進行最佳匹配,因此必須將許多個一對值(g-1=0、g-2)納入代碼本,由于存儲空間的原因,這自然是不可能的。就這方面來說,在情況g-1=0進行參量匹配時大多會得到g-2的一個匹配不佳的值。這在量化后將導致總的激勵信號S`中出現(xiàn)非預期的信號部分。
大多數(shù)常用的語音編碼器根本不能解決這些問題。
許多語音編碼器譬如GSM增強型全速率編碼器(GSM-EFR)都可進行放大系數(shù)的標量量化。這就是說在這種情況下,即每個子幀具有4個比特的自適應放大系數(shù)和每個子幀具有5個比特的固定的放大系數(shù)都可單個地和彼此獨立地進行量化。這具有的優(yōu)點是,在某些不穩(wěn)定的語音段中譬如在突發(fā)開始時可以很容易使自適應放大系數(shù)量化為0,并且固定的放大系數(shù)可以在量化后成為一個與此不相關的值。可是,與矢量量化相比它就具有編碼效率低的缺點在GSM-EFR編碼器中對放大系數(shù)需要有4+5=9比特,而矢量量化7個比特就夠了。
在此,還有另一個缺點就是無附加比特提供使用,以便相當準確地量化固定的激勵或固定的放大系數(shù)。在選擇自適應放大系數(shù)為0的情況下,仍不使用自適應代碼本的比特也即語音基頻。
相比之下,GSM-半速率編碼器(GSM-HR)以多種模式工作。一種模式規(guī)定,在某些子幀中譬如表示突發(fā)開始的這樣的子幀中,用第二個固定的代碼本代替自適應代碼本。這雖然以某種方式解決了問題,但是對第二代碼本來說復雜性比較高并且也需要存儲空間。還有,在傳輸過程中增加了易出現(xiàn)誤碼的可能性,因為與模式有關使用了完全新型的編譯碼參量。此外,在采用GSM-HR編譯碼時必須顯式地通過模式比特使自適應代碼本的斷開信號化。
于是,本發(fā)明基于的任務是提供進行編碼和傳輸?shù)囊环N方法,這種方法工作起來節(jié)省存儲空間、效率高和誤碼率低,特別是運行起來復雜性低和編碼效率高,同時譯碼后具有高信號質量。
這個任務可由獨立權利要求1和6來解決,擴展實施方案由獨立權利要求得出。
按照本發(fā)明在信號分類器的確定值時,就可確定分配給自適應代碼本的第一放大系數(shù)的值。由此可實現(xiàn)減少數(shù)據(jù)量,該數(shù)據(jù)量是表示第一放大系數(shù)和自適應代碼本項的總和所需要的。語音信號分解成各個時間段。這些段譬如可表示幀或子幀。
信號分類器譬如說明是否存在一個穩(wěn)定的或一個不穩(wěn)定的語音段,也就是說是否譬如涉及語音爆破音。
如果現(xiàn)在有這種類型情況,則可分配給第一放大系數(shù)一個由信號分類器確定的值。譬如通過相應的標號可如此確定第一放大系數(shù)的這個值,以致于這個值的表達式比常用的表達式所需的比特少。同樣達到壓縮當然是可選擇的、可自由選擇或其它可能的途徑,其方式是通過當確定了第一放大系數(shù)時,則可壓縮自適應代碼本的項的表達式。由此,就可得出一個與現(xiàn)有技術相比編碼效率高的表達式,至少是一個在語音編碼的過程中所出現(xiàn)的一個參量的表達式。
特別是如果第一放大系數(shù)確定為0,則這種方法證明是有利的。由此可提高語音譯碼信號的質量,因為如開始所述,譬如在不穩(wěn)定的語音段中出現(xiàn)的量化誤碼信號部分很少。
如果第一放大系數(shù)確定了,則另一個擴展方案規(guī)定第二放大系數(shù)以標量方式量化。于是,譬如可提高第二放大系數(shù)量化的分辨率。
由此,譬如在出現(xiàn)用激勵信號g-2*s-f的固定部分表示語音爆破音的情況中,允許第二放大系數(shù)有一個擴大的取值范圍,這就使得能更準確地描述這樣的語音信號段。
在另一個擴展方案中規(guī)定,編碼器用固定的數(shù)據(jù)率工作,這就是說,對于語音信號的一個段規(guī)定一個固定的數(shù)據(jù)量。用達到數(shù)據(jù)量的減少來表示第一放大系數(shù)和可選擇地或自由選擇地表示自適應代碼本的項,可應得到如下充分使用,以致于可使用數(shù)據(jù)量的現(xiàn)未被用數(shù)據(jù)占用的部分來表示語音編碼時所出現(xiàn)的其它參量。
在另一個擴展方案中,規(guī)定語音段用減少的數(shù)據(jù)量表示。這種方法特別是可以在使用具有可變的比特率的一種編碼方法中得到應用。
此外,本發(fā)明涉及傳輸按照前述權利要求之一進行編碼的語音信號的方法。在此,主要是不傳輸?shù)谝环糯笙禂?shù)和/或自適應代碼本的項。
特別是這種方法具有的優(yōu)點是,當通過信息給接收機或譯碼器指出為表示各個參量進行了數(shù)據(jù)量的這種減少。這些信息譬如可以是占用由于減少而未用數(shù)據(jù)占用的數(shù)據(jù)量的一部分,或者可以是除所述的幀或子幀的數(shù)據(jù)量以外還可被發(fā)送出去的信息。
下面就幾個實施例說明本發(fā)明,部分地結合
。
圖中圖1示出了語音編碼中關于合成分析(Analyse-durch-Synthese)原理構成的概況圖,圖2示出了具有所屬的放大系數(shù)的自適應的和固定的代碼本的應用。
圖1示出了按照用合成分析原理以方框圖的形式表示語音編碼的過程。
基本上是將原語音信號10與合成的語音信號11比較。合成的語音信號11應是這樣的,即在合成的語音信號11和原語音信號10之間的偏差最小。這種偏差必要時還要以頻譜方式加權。這要經一種加權濾波器W(z)實現(xiàn)。產生合成的語音信號可借助一個LPC合成濾波器H(z)。這種合成濾波器通過激勵信號12進行激勵。最后傳輸這個激勵信號12的參量(并且必要時還有LPC合成濾波器的系數(shù)),因此應盡可能地高效地進行編碼。
于是,本發(fā)明的目的是盡可能有效地表示描述激勵發(fā)生器的參量。
在圖2中可詳細看出未串接LPC合成濾波器的激勵產生器。
激勵信號12由一個自適應部分,借助于此主要表示周期性的語音段,和一個固定的部分,用于表示非周期性的段,組成。這在本文開頭已詳盡地作了說明。自適應代碼本1用來表示自適應的部分,自適應代碼本的項用第一放大系數(shù)3加權。
自適應代碼本1的項通過前述的語音段來確定。這通過反饋回路2實現(xiàn)。第一放大系數(shù)3通過與原語音信號10的匹配來確定。固定的代碼本4,如其名稱所述,包括不由前面的時間段確定的項。在代碼本中的每個項即所謂的代碼字、代數(shù)的代碼矢量是一個脈沖序列,該脈沖序列只在很少的確定的時刻具有的值不等于0。應選擇這種項或激勵序列,借助此序列使合成的信號11與原語音信號10的偏差降低。與此相應地確定分配給固定的代碼本的放大系數(shù)5。
首先規(guī)定對每個幀都要計算一個所謂的信號分類器。這種信號分類器可提供譬如一個二進制的判決,即是否應使用或不應使用自適應代碼本。為此目的,這應該指的是一種具有突發(fā)開始的識別器。規(guī)定依賴于分類器將自適應放大系數(shù)置0,也即自適應激勵不納入LPC合成濾波器的總激勵信號。此外還規(guī)定,不再傳輸至少一個參量。對此,有多種有意義的選擇方案-如果譬如傳輸?shù)淖赃m應放大系數(shù)的值為0,則不需再傳輸自適應代碼本的項(也即語音基頻),因為它甚至在接收端eh與0相乘。
-如果譬如對譯碼器來說通過自適應代碼本的備用的字(也即語音基頻)使自適應激勵的置零信號化,則不需再傳輸自適應放大系數(shù)。在自適應和固定的放大系數(shù)的矢量量化的情況下,固定的放大系數(shù)譬如可按標量量化。
-如果分類器通過一個顯式比特進行傳輸,則在突發(fā)開始的情況下甚至放棄傳輸自適應代碼本的項(語音基頻)和自適應放大系數(shù)。
每個這種可能的實現(xiàn)方案的優(yōu)點是,與現(xiàn)有技術相比可傳輸較少的比特數(shù)。在采用有固定的比特率的編碼方法時,于是可使用這些比特,以便改進固定放大系數(shù)的量化、和/或固定激勵的量化、和/或LPC系數(shù)的量化。在一般的情況下,每個剩余的編譯參量都可能從改進的量化中獲益。與GSM-HR編碼器相反沒有規(guī)定新的參量(也即沒有第二個固定的代碼本),可是代之于此的是已有參量的改進的量化。這簡化了計算的復雜性和節(jié)省了存儲空間,并且也使得可能考慮具有突發(fā)開始的子幀的特有的特殊形式。此外,通過巧妙地將附加地可使用的比特插入其它編譯參量的量化表中,就可進行存儲效率高地編碼。
總之可以說,通過在突發(fā)開始情況下對自適應激勵置零,和通過使用自適應激勵的或自適應放大系數(shù)的釋放的比特都可獲得改進的剩余的編譯參量的量化。
下面簡短地概述巧妙地插入附加釋放的比特。假定,通過在自適應代碼本中的一個備用字使自適應激勵的置零信號化。然后,固定的放大系數(shù),該放大系數(shù)在此前與自適應放大系數(shù)一起共用7個比特進行矢量量化,在有大約相同的量化誤差時例如按標量方式用5比特進行量化。固定的放大系數(shù)的用5比特量化的值可從7個比特矢量代碼本的25%的子量中得出,而且是一個用從7比特中任意5比特可尋址的子量中得出。這樣實現(xiàn)的5比特標量量化器節(jié)省了附加的存儲器。于是,可使用釋放的2比特譬如可對固定的激勵進行更精確的量化。
除了在此所提及的例子外,在本發(fā)明范圍內還有許多其它的改進的實施方案,這些改進的實施方案由專業(yè)人員進行實施無須很大的花費就可在實踐中應用。
權利要求
1.語音信號編碼的方法,-其中將語音信號分解成語音信號段,-其中合成濾波器的激勵信號至少借助一固定的代碼本和一分配的第二放大系數(shù),并且可自由選擇地借助一具有一所屬第一放大系數(shù)的自適應代碼本來組成,-其中按照語音的特點通過一個信號分類器對語音信號段進行分類,并且-其中依賴信號分類器確定第一放大系數(shù)的值,以此減少了表示自適應代碼本項和第一放大系數(shù)的總和所需的數(shù)據(jù)量。
2.按照權利要求1所述的方法,其中確定第一放大系數(shù)為0。
3.按照權利要求1或2之一所述的方法,其中第二放大系數(shù)按標量量化。
4.按照上述權利要求之一所述的方法,其中對一個語音信號段保留一個以前所確定的數(shù)據(jù)量,并且根據(jù)壓縮表示第一放大系數(shù)和自適應代碼本的項的總和的數(shù)據(jù)量的減少,至少在語音編碼中所出現(xiàn)的另一個參量要求占用較大部分的以前所確定的數(shù)據(jù)量。
5.按照權利要求1所述的方法,其中根據(jù)對第一放大系數(shù)的確定為表示語音信號段需要較少數(shù)量的比特。
6.傳輸按照權利要求1-5之一進行編碼的語音信號的方法,其中不傳輸自適應代碼本的項和/或第一放大系數(shù)。
7.按照權利要求6所述的方法,其中通過為此保留的信息給一個接收機顯示,將第一放大系數(shù)設置為接收機已經知道的值。
全文摘要
本發(fā)明涉及對語音信號、特別是所謂的“語音爆破音”段進行編碼的方法。通過確定第一放大系數(shù),減少了表示第一或自適應放大系數(shù)和自適應代碼本項的總和的數(shù)據(jù)量,以此可準確地表示在語音編碼過程中所出現(xiàn)的其它參量。此外,本發(fā)明還涉及傳輸進行如此編碼的語音信號的方法。
文檔編號G10L19/083GK1533564SQ02814429
公開日2004年9月29日 申請日期2002年5月2日 優(yōu)先權日2001年5月18日
發(fā)明者T·芬謝德特, T 芬謝德特, H·塔戴, I·瓦加 申請人:西門子公司