專利名稱:語音編碼方法和裝置,輸入信號判別方法,語音解碼方法和裝置以及程序提供介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及當無聲間隔內(nèi)的比特率與有聲間隔內(nèi)的比特率不同時對輸入語音信號編碼的編碼方法和裝置。本發(fā)明還涉及對用該編碼方法和裝置進行編碼和傳輸?shù)木幋a數(shù)據(jù)進行解碼的方法和裝置,并且涉及用于通過軟件相關(guān)技術(shù)執(zhí)行編碼方法和解碼方法的程序提供介質(zhì)。
近來,在需要傳輸路徑的通信領(lǐng)域,為了實現(xiàn)高效地使用傳輸帶寬,希望在傳輸輸入信號前根據(jù)輸入信號的種類,諸如被分為例如有聲聲音和無聲聲音的語音信號間隔,或者背景噪音間隔,來改變傳輸?shù)妮斎胄盘柕木幋a率。
例如,如果給出的間隔被檢驗為背景噪音間隔,在解碼設(shè)備不會特意產(chǎn)生背景噪音的情況下,就會希望不要傳輸編碼參數(shù)而只是簡單地對該間隔進行靜噪。
然而這樣會導(dǎo)致不自然呼叫,因為背景噪音是疊加在通信一方發(fā)出的語音上,并且在沒有語音時會突然產(chǎn)生無聲狀態(tài)。
考慮到這一點,常規(guī)處理是這樣的,即,如果給出的間隔被檢驗為背景噪音間隔,那么不發(fā)出一些編碼參數(shù),這時解碼設(shè)備通過重復(fù)使用過去的參數(shù)產(chǎn)生背景噪音。
然而,如果一直以重復(fù)的方式使用過去的參數(shù),會得到這樣的印象,即,噪音自身具有音調(diào),從而產(chǎn)生非自然的噪音。只要線譜對(LSP)參數(shù)保持相同,即使電平等發(fā)生改變也會發(fā)生這樣的情況。
因此本發(fā)明的一個目的是提出一種語音編碼方法和裝置,輸入信號判別方法,語音解碼方法和裝置以及程序提供介質(zhì),其中,在語音編解碼器中,相對大量的傳輸比特被給予語音間隔的語言語音判據(jù),使非語言語音和背景噪音序列中減少的比特數(shù)抑制傳輸比特的總數(shù)并且減少了傳輸比特的平均量。
一方面,本發(fā)明提出了一種在輸入語音信號的有聲間隔和無聲間隔之間以不同比率進行有效編碼的語音編碼裝置,包括輸入信號檢驗裝置,用來在時間軸上將語音信號以預(yù)置單位進行劃分并且根據(jù)信號電平和預(yù)置單位的頻譜包絡(luò)的時間變化來檢驗無聲間隔是背景噪音間隔還是語音間隔,其中編碼比特的分配在背景噪音間隔的參數(shù)、語音間隔的參數(shù)和有聲間隔的參數(shù)之間是不同的。
另一方面,本發(fā)明提出了一種在輸入語音信號的有聲間隔和無聲間隔之間以不同比率進行有效編碼的語音編碼方法,包括輸入信號檢驗步驟,用來在時間軸上將語音信號以預(yù)置單位進行劃分并且根據(jù)信號電平和預(yù)置單位的頻譜包絡(luò)的時間變化來檢驗無聲間隔是背景噪音間隔還是語音間隔,其中編碼比特的分配在背景噪音間隔的參數(shù)、語音間隔的參數(shù)和有聲間隔的參數(shù)之間是不同的。
再一方面,本發(fā)明提出了一種對輸入信號進行檢驗的方法,包括以預(yù)置單位劃分輸入語音信號并且以預(yù)置單位尋找信號電平時間改變的步驟,以該單位尋找頻譜包絡(luò)時間改變的步驟,和根據(jù)信號電平時間改變及頻譜包絡(luò)時間改變檢驗可能出現(xiàn)的背景噪音的步驟。
另一方面,本發(fā)明提出了一種將不同比特分配的編碼比特解碼為無聲間隔參數(shù)和語音間隔參數(shù)的解碼裝置,包括檢驗所述編碼比特中的間隔是語音間隔還是背景噪音間隔的檢驗裝置,以及通過使用當前或當前及過去接收到的LPC系數(shù)、當前或當前及過去接收到的CELP增益索引信號和如果所述檢驗裝置去掉了表示背景噪音間隔的信息則在內(nèi)部隨機產(chǎn)生的CELP整形索引信號而在背景噪音間隔解碼編碼比特的解碼器件。
另一方面,本發(fā)明提出了一種將不同比特分配的編碼比特解碼為無聲間隔參數(shù)和語音間隔參數(shù)的解碼方法,包括檢驗所述編碼比特中的間隔是語音間隔還是背景噪音間隔的檢測步驟,以及通過使用當前或當前及過去接收到的LPC系數(shù)、當前或當前及過去接收到的CELP增益索引信號和在內(nèi)部隨機產(chǎn)生的CELP整形索引信號而在背景噪音間隔解碼編碼比特的解碼步驟。
另一方面,本發(fā)明提出了一種用于提供在輸入語音信號的有聲間隔和無聲間隔之間以不同比率進行編碼的語音編碼程序的介質(zhì),其中該程序包括輸入信號檢驗步驟,用來在時間軸上將輸入語音信號以預(yù)置單位進行劃分并且根據(jù)信號電平的時間變化和預(yù)置單位的頻譜包絡(luò)來檢驗無聲間隔是背景噪音間隔還是語音間隔。編碼比特的分配在背景噪音間隔的參數(shù)、語音間隔的參數(shù)和有聲間隔的參數(shù)之間是不同的。
另一方面,本發(fā)明提出了一種用于提供將以不同比特分配進行編碼的傳輸比特解碼為無聲間隔參數(shù)和有聲間隔參數(shù)的語音解碼程序的介質(zhì),其中該程序包括檢驗編碼比特中的間隔是語音間隔還是背景噪音間隔的檢驗步驟,以及通過使用當前或當前及過去接收到的LPC系數(shù)、當前或當前及過去接收到的CELP增益索引信號和在內(nèi)部隨機產(chǎn)生的CELP整形索引信號而在背景噪音間隔解碼編碼比特的解碼步驟。
通過根據(jù)本發(fā)明的解碼方法和裝置,能夠保持語音信號的連續(xù)性從而解碼高質(zhì)量的語音。
此外,通過根據(jù)本發(fā)明的程序提供介質(zhì),能夠使計算機系統(tǒng)保持語音信號的連續(xù)性從而解碼高質(zhì)量的語音。
圖1是表示體現(xiàn)本發(fā)明的便攜電話設(shè)備的結(jié)構(gòu)方框圖;圖2表示便攜電話設(shè)備除輸入信號判別單元和參數(shù)控制器之外的語音編碼設(shè)備的內(nèi)部詳細結(jié)構(gòu);圖3表示輸入信號判別單元和參數(shù)控制器的詳細結(jié)構(gòu);圖4是表示計算穩(wěn)態(tài)電平均方值的處理流程圖;圖5表示模糊推理單元的模糊規(guī)則;圖6表示模糊規(guī)則中關(guān)于信號電平的隸屬函數(shù);圖7表示模糊規(guī)則中關(guān)于頻譜的隸屬函數(shù);圖8表示模糊規(guī)則中關(guān)于推理結(jié)果的隸屬函數(shù);圖9表示模糊推理單元中的推理的一個特定的例子;圖10是表示在參數(shù)產(chǎn)生單元中確定傳輸參數(shù)的處理部分的流程圖;圖11是表示在參數(shù)產(chǎn)生單元中確定傳輸參數(shù)的剩余處理部分的流程圖;圖12表示作為一個例子使用在MPEG4(運動圖象專家組4)中采用的語音編解碼器HVXC(諧波向量激發(fā)編碼)編碼每一個條件下的比特;圖13是表示語音解碼裝置的詳細結(jié)構(gòu)方框圖;圖14是表示語音編碼設(shè)備的基本和周邊部分的結(jié)構(gòu)方框圖;圖15是LPC參數(shù)再現(xiàn)控制單元的LPC參數(shù)再現(xiàn)部分的詳細流程圖;圖16表示標題比特的結(jié)構(gòu);圖17是表示應(yīng)用本發(fā)明的傳輸系統(tǒng)的方框圖;圖18是構(gòu)成傳輸系統(tǒng)的服務(wù)器方框圖;圖19是構(gòu)成傳輸系統(tǒng)的客戶終端方框圖。
參照附圖,將詳細描述根據(jù)本發(fā)明的編碼方法和裝置以及語音解碼方法和裝置的優(yōu)選實施例。
基本上,這樣的系統(tǒng)可以這樣描述,在發(fā)射側(cè)分析語音以找到編碼參數(shù),發(fā)射編碼參數(shù)并且在接收側(cè)合成語音。特別地,發(fā)射側(cè)根據(jù)輸入語音的特性將編碼模式分類,并且改變比特率來消除傳輸比特率的平均值。
一個特定的例子是便攜電話設(shè)備,其結(jié)構(gòu)如圖1所示。該便攜電話設(shè)備以圖1所示語音編碼設(shè)備20和語音解碼設(shè)備31的形式使用根據(jù)本發(fā)明的編碼方法和裝置以及解碼方法和裝置。
語音編碼設(shè)備20進行編碼以便與有聲(V)間隔的比特率相比降低輸入語音信號的無聲(UV)間隔的比特率。語音編碼設(shè)備20還在無聲間隔將背景噪音間隔(無語音間隔)和語音間隔相互判別從而在無聲間隔以相當?shù)捅忍芈蔬M行編碼。它還從語音間隔判別無語音間隔從而將判別結(jié)果發(fā)射到語音解碼設(shè)備31。
在語音編碼設(shè)備20中,通過輸入信號判別單元21a在輸入語音信號中判別無聲間隔和有聲間隔或者在無聲間隔判別無語音間隔和語音間隔。接著將詳細解釋該輸入信號判別單元21a。
首先,解釋發(fā)射側(cè)的結(jié)構(gòu)。從麥克風(fēng)1輸入的語音信號通過A/D轉(zhuǎn)換器10轉(zhuǎn)換為數(shù)字信號并且由語音編碼設(shè)備20以不同的比率編碼。接著傳輸路徑編碼器22將編碼信號編碼從而使語音質(zhì)量不容易被傳輸路徑的質(zhì)量所損壞。調(diào)制器23調(diào)制結(jié)果信號并且由發(fā)射器24為發(fā)射做處理,以便通過天線共享器25經(jīng)天線26發(fā)射。
另一方面,接收側(cè)的語音解碼器31接收一個標記,該標記表示給出的間隔是語音間隔還是無語音間隔。如果間隔是無語音間隔,語音解碼器31使用當前或當前及過去接收的LPC系數(shù)、當前或當前及過去接收的CELP(碼激發(fā)線性預(yù)測)增益索引信號和在解碼器中隨機產(chǎn)生的CELP的整形索引信號,對所述間隔解碼。
下面解釋接收側(cè)的結(jié)構(gòu)。接收器27通過天線共享器25接收天線26捕獲的電磁波并且由解調(diào)器13解調(diào),從而接著由傳輸路徑解碼器30修正傳輸差錯。D/A轉(zhuǎn)換器32將結(jié)果信號轉(zhuǎn)換回由揚聲器33輸出的模擬語音信號。
控制器34控制上述各個部分,同時合成器28將發(fā)射/接收頻率通知發(fā)射器24和接收器27。鍵盤35和LCD顯示器36作為人機交互界面。
下面參照圖2和3詳細解釋語音編碼設(shè)備20。圖2給出了語音編碼設(shè)備20內(nèi)部的編碼單元的詳細結(jié)構(gòu),不包括輸入信號判別單元21a和參數(shù)控制單元21b。圖3給出了輸入信號判別單元21a和參數(shù)控制單元21b的詳細結(jié)構(gòu)。
將采樣頻率為8kHz的語音信號提供給輸入端101。在高通濾波器(HPF)109中將不需要波段的信號從輸入語音信號中去掉并且接著提供給輸入信號判別單元21a,LPC(線性預(yù)測編碼)分析量化單元113的LPC分析電路132和LPC反濾波電路111。
參照圖3,輸入信號判別單元21a包括一個均方根計算單元2,用來計算濾波輸入語音信號的rms(均方根)值并提供給輸入端1,穩(wěn)態(tài)電平計算單元3,用來通過有效值的均方根計算有效值的穩(wěn)態(tài)電平,還包括除法器4,用于用穩(wěn)態(tài)電平計算單元3的輸出min_rms除均方根計算單元2的輸出均方根以得到商rmsg,還包括LPC分析單元5,用于對來自輸入端1的輸入語音信號進行LPC分析以找到LPC系數(shù)α(m),還包括LPC對數(shù)倒頻譜系數(shù)計算單元6,用來將來自LPC分析單元5的LPC系數(shù)α(m)轉(zhuǎn)換為LPC對數(shù)倒頻譜系數(shù)CL(m),和對數(shù)幅值計算單元7,用來從LPC對數(shù)倒頻譜系數(shù)計算單元6的LPC對數(shù)倒頻譜系數(shù)CL(m)找到平均對數(shù)振幅logAmp(i)。輸入信號判別單元21a包括對數(shù)振幅差分計算單元8,用于從對數(shù)振幅計算單元7的平均對數(shù)振幅logAmp(i)中找到對數(shù)振幅差分wdif,以及一個模糊推理單元9,用于通過除法器4的rmsg和對數(shù)振幅差分計算單元8的對數(shù)振幅差分wdif輸出一個判別標記decflag。同時,后面將解釋到,如圖2所示,示出包括V/UV判斷單元115的編碼單元,該編碼單元用于從輸入語音信號輸出idVUV判斷結(jié)果并編碼各種參數(shù)以輸出編碼參數(shù),為便于描述,該編碼單元作為語音編碼單元13在圖3示出。
參數(shù)控制單元21b包括一個計數(shù)器控制器11,用來根據(jù)來自V/VU判斷單元115的idVUV判斷結(jié)果和來自模糊推理單元9的判斷結(jié)果decflag設(shè)置背景噪音計數(shù)器bgnCnt,和參數(shù)產(chǎn)生單元12,用于確定一個更新標記Flag并將該標記在輸出端106上輸出。
現(xiàn)在詳細解釋輸入信號判別單元21a以及參數(shù)控制單元21b的的不同部分的操作。首先,下面是輸入信號判別單元21a的不同部分的操作。
均方根計算單元2將以8kHz頻率采樣的輸入語音信號分為20毫秒基本幀(160個樣值)。對于語音分析,在重疊的32毫秒幀(256個樣值)上執(zhí)行。輸入信號s(n)被分為8個間隔并且由下面的公式(1)得到間隔冪ene(i)ene(i)=Σn=031s(32i+n)2,(i=0,···,7)···(1)]]>通過下面的公式(2)或者(3)由ene(i)得到使前一邊相對后一邊信號間隔部分比率ratio最大的邊界m 這里公式(2)是當前一部分大于后一部分時的比率,而公式(3)是當后一部分大于前一部分時的比率。
需要指出的是m限制為m=2,…,6。
這樣根據(jù)下面的公式(4)或(5),信號有效值值rms就能夠通過較大的前一部分或后一部分的均方根,以及這樣得到的邊界值m而得到 需要注意的是公式(4)是當前一部分大于后一部分時的有效值rms,而公式(5)是當后一部分大于前一部分時的有效值rms。
通過前面描述的有效值rms,穩(wěn)態(tài)電平計算單元3按照圖4的流程圖計算有效值的穩(wěn)態(tài)電平。在步驟S1,根據(jù)過去幀的有效值rms的穩(wěn)態(tài)檢測計數(shù)器的狀態(tài)st_cnt是否小于4。如果在步驟S1檢測的結(jié)果是YES,則穩(wěn)態(tài)電平計算單元3執(zhí)行步驟S2來將過去連續(xù)4幀的第二大的rms值設(shè)置為near_rms。接著,在步驟3,從前面的rms中找到最小值minval,它是far_rms(i)(i=0,1)和near_rms。
如果這樣在步驟S4中找到的最小值minval大于作為穩(wěn)態(tài)rms的min_rms,穩(wěn)態(tài)電平計算單元3執(zhí)行步驟S5以便如下面的公式(6)所示更新min_rmsmin_rms=0.8·min_rms+0.2·minval …(6)接著,在步驟S6,按下面的公式(7)和(8)更新far_rmsfar_rms(0)=far_rms(1) …(7)far_rms(1)=near_rms…(8)接著,在步驟S7,rms和標準電平STD_LEVEL中較小的一個被設(shè)置為max_val,這里STD LEVEL等于信號電平-30dB,以便設(shè)置一個上限電平,從而使當前rms是一個較高信號電平時不會發(fā)生故障。在步驟S8,將maxval與min_rms進行比較以便如下更新min_rms即,如果maxval小于min_rms,在步驟S9只稍微更新min_rms,如公式(9)所示,然而,如果maxval不小于min_rms,在步驟S10只稍微更新min_rms,如公式(10)所示min_rms=min_rms+0.001·maxval(maxval≥min_rms)…(9)min_rms=min_rms+0.002·(maxval≥min_rms) …(10)在步驟S11,如果min_rms小于靜音電平MIN_LEVEL,設(shè)置min_rms=MIN_LEVEL,這里MIN_LEVEL是信號電平-66dB。
同時,如果在步驟S12前面與后面信號部分的電平比率ratio小于4,同時rms小于STD_LEVEL,幀信號是穩(wěn)定的。因此,穩(wěn)態(tài)電平計算單元3執(zhí)行步驟S13將穩(wěn)定指示計數(shù)器st_cnt增加到1,如果是其它情況,穩(wěn)態(tài)電平計算單元3執(zhí)行步驟S14設(shè)置st_cnt=0,因為這時的穩(wěn)定性較低。這樣實現(xiàn)了目標穩(wěn)態(tài)rms。
除法器4將rms計算單元2的輸出rms除以穩(wěn)態(tài)電平計算單元3的輸出min_rms來計算rmsg。即,該rmsg表示當前rms相對穩(wěn)態(tài)rms的大概電平。
接著LPC分析單元5從輸入語音信號s(n)中找到短期預(yù)測(LPG)系數(shù)α(m)(m=1,K10)。同時,也可以用語音編碼單元13的內(nèi)部LPC分析得到的LPC系數(shù)α(m)。LPC對數(shù)倒頻譜系數(shù)計算單元6將LPC系數(shù)α(m)轉(zhuǎn)換為LPC系數(shù)CL(m)。
對數(shù)振幅計算單元7能夠按照下面的公式(11)從LPC系數(shù)CL(m)中找到對數(shù)平方振幅特性ln|HL(ejΩ)|21n|HL(ejΩ)|2=2Σm=0∞CL(m)cos(Ωm)···(11)]]>然而,這里上面公式右邊的求和計算的上限,在無窮大的位置上,設(shè)為16,并且按照下面的公式(12)和(13)找到一個整數(shù)以找到間隔平均logAmp(i)。同時,CL(0)=0因此忽略掉。 其中對于平均間隔(ω=Ωi+1-Ω1)設(shè)置ω為500Hz(=π/8)。這里,對應(yīng)于以500Hz為間隔4等分范圍0到2kHz,計算i=0,…,3時的logAmp(i)。
現(xiàn)在解釋對數(shù)振幅差分計算單元8和模糊推理單元9。在本發(fā)明中,使用模糊理論檢測靜音和背景噪音。模糊推理單元9如下所述使用除法器4用min_rms除rms得到的rmsg值和來自對數(shù)振幅差分計算單元8的wdif輸出判斷標記decflag。
圖5給出的是模糊推理單元9中使用的模糊規(guī)則。在圖5中,上一行(a),中間行(b)和下一行(c)是用于背景噪音的規(guī)則,分別主要是噪音參數(shù)更新規(guī)則和語言規(guī)則。還有,在圖5中,左面的一列,中間列和右面的一列分別表示rms的隸屬函數(shù),頻譜包絡(luò)的隸屬函數(shù)和推理結(jié)果。
模糊推理單元9首先使用圖5左面一列的隸屬函數(shù)將除法器4用min_rms除rms得到的rms。值分類。從上面一行,如圖6所示定義隸屬函數(shù)μAil(x1)(i=1,2,3)。同時,x1=rmsg。
另一方面,對數(shù)振幅差分計算單元8保持過去n(例如,4)幀的頻譜的對數(shù)振幅logAmp(i)并找到平均值aveAmp(i)。對數(shù)振幅差分計算單元8接著通過下面的公式(14)找到aveAmp(i)與當前l(fā)ogAmp(i)之差的平方和wdifwdif=14Σi=03(logAmp(i)-aveaAmp(i))2···(14)]]>模糊推理單元9用圖5中間一行所示的隸屬函數(shù)對對數(shù)振幅差分計算單元8如上所述得到的wdif進行分類。通過上面一行,如圖7所示定義隸屬函數(shù)μAj1(x1)(i=1,2,3),這里x2=wdif。即,圖5中間一列所示的隸屬函數(shù)從上面一行(a),中間行(b)到下面一行(c)定義為μA12(x2),μA22(x2)和μA32(x2)。同時,如果rms小于上述常數(shù)MIN LEVEL(靜音電平),圖7未給出,但是這時μA12(x2)=1而μA22(x2)=μA32(x2)=0。原因是,如果信號較弱,頻譜變化比一般情況更加劇烈從而影響判斷。
由于從μAij(xj)得到推理結(jié)果,模糊推理單元9如下得到隸屬函數(shù)μBi(y)首先,在圖5的上面,中間和下面行中的每行的μAi1(x1)和μAi2(x2)中的較小者被設(shè)定為該行的μBi(y),如下面的公式(15)所示μBi(y)=min(μAi1(x1),μAj2(x2))(i=1,2,3)(15)注意到這樣的配置,其中,如果表示語音的隸屬函數(shù)μA31(x1)和μA32(x2)中的一個為1,輸出μB1(y)=μB2(y)=0和μB3(y)=1。
注意,從公式(15)得到的每一級的μBi(y)等于圖5的右側(cè)列的函數(shù)值。如圖8所示定義隸屬函數(shù)μBi(y)。即,右列所示的隸屬函數(shù)以圖8所示的上面行(a),中間行(b)和下面行(c)所示的順序被定義為μB1(y),μB2(y)和μB3(y)。
根據(jù)這些值,模糊推理單元9進行推理,其通過下面公式(16)所示的區(qū)域法進行判別y*=Σi=13Si·yi*Σi=13Si,Si=∫γμBi(y)dy(16)]]>這里y*和yi*表示推理結(jié)果和每行的隸屬函數(shù)的重心。在圖5,以上面,中間和下面行的順序分別是0.1389,0.5和0.8611。Si表示一個區(qū)域。使用隸屬函數(shù)μBi(y),從下面的公式(17),(18)和(19)可以得到S1到S3S1=μB1(y)·(1-μB1(y)/3)/2(17)S2=μB2(y)·(2/3-μB2(y)/3)(18)S3=μB3(y)·(1-μB3(y)/3)/2(19)通過從這些值得到的y*的推理結(jié)果值,判定標記decFlag的輸出值定義如下0≤y*≤0.34→decFlag=00.34<y*<0.66→decFlag=2
0.66≤y*≤1→decFlag=1這里decFlag=0指出判定結(jié)果表示背景噪音,decFlag=2指出參數(shù)需要被更新,以及decFlag=1指出語音判別結(jié)果。
圖9示出一個具體的例子。假定x1=1.6和x2=0.35,從這里,如下定義μAij(xj),μAi2(x2)和μBi(y)μA11(x1)=0.4,μA12(x2)=0,μB1(y)=0μA21(x1)=0.4,μA22(x2)=0.5,μB2(y)=0.4μA31(x1)=0.6,μA32(x2)=0.5,μB3(y)=0.5如果從這里計算一個區(qū)域,則S1=0,S2=0.2133以及S3=0.2083,因此最終y*=0.6785以及decFlag=1,這樣就指出語音。
前面的是輸入信號判別單元21a的操作。下面解釋參數(shù)控制單元21b的各個部分的詳細操作。
計數(shù)器控制器11根據(jù)來自V/UV判定單元115的idVUV的判定結(jié)果和來自模糊推理單元9的標記decflag設(shè)定背景噪音計數(shù)器bgnCnt以及背景噪音間隔計數(shù)器bgnIntvl。
參數(shù)產(chǎn)生單元12從計數(shù)器控制器11的bgnIntvl和idVUV的判定結(jié)果確定idVUV參數(shù)和更新標記Flag以設(shè)定從輸出端106發(fā)出的更新標記Flag。
確定傳輸參數(shù)的流程圖如圖10和11所示。定義背景噪音計數(shù)器bgnCnt以及背景噪音間隔計數(shù)器bgnIntvl,二者都具有初始值0。首先,如果圖10中的步驟S21的輸入信號的分析結(jié)果指示無聲聲音(idVUV=0),并且在步驟S22到S24decFlag=0,則程序進入步驟S25將背景噪音間隔計數(shù)器bgnIntvl增加1。如果decFlag=2,則保持bgnCnt。在步驟S26,如果bgnCnt不小于一個恒定的BGN_CNT,例如6,則程序進入步驟S27以便將idVUV設(shè)定到表示背景噪音的值或1。在步驟S28,如果decFlag=0,并且bgnCnt>BGN_CNT,則在步驟S29將bgnCnt增加1。如果在步驟S31,bgnIntvl等于一個恒定的BGN_CNT,例如16,則程序進入步驟S32以便設(shè)定bgnIntvl=0。如果在步驟S28 dec Flag=2或者bgnCnt=BGN=CNT,則程序進入步驟S30,在這里設(shè)定bgmIntvl=0。
在步驟S21,如果該聲音為有聲(idVUV=2,3),或者如果在步驟S22,decFlag=1,則程序進入步驟S23,在這里bgnCnt=0并設(shè)定bgnIntvl=0。
參照圖11,如果在步驟S33該聲音為無聲或者背景噪音(idVUV=0,1),并且如果在步驟S35,如果該聲音為無聲(idVUV=0),則在步驟S36輸出無聲參數(shù)。
如果在步驟S35背景噪音(idVUV=1)并且如果在步驟S37,bgnIntvl=0,則在步驟S38輸出背景噪音參數(shù)(BGN=背景噪音)。另一方面,如果在步驟S37bgnIntvl>0,則程序進入步驟S39以便今發(fā)射標題比特。
標題比特的配置如圖16所示。注意,idVUV比特被直接設(shè)定到上面的兩個比特。如果背景噪音周期(idVUV=1)和幀不是更新幀,則下一個比特被設(shè)定為0并且,如果是其他情況,則下一個比特被設(shè)定為1。
作為一個示例,采用MPEG4所使用的語音編解碼器HVXC((諧波向量激發(fā)編碼),在圖12詳細示出各種條件下的編碼比特。
對于有聲,無聲,背景噪音更新或背景噪音無更新,使用兩個比特編碼idVUV。作為更新標記,在背景噪音更新和無更新時每次分配1比特。
LSP參數(shù)被分為LSP0,LSP2,LSP3,LSP4和LSP5。在這些參數(shù)中,LSP0是第10個LSP的代碼本索引并用作基本的包絡(luò)參數(shù)。對于20毫秒幀,分配5比特。LSP2是第5個低頻糾錯的LSP參數(shù)的代碼本索引并且已將7個比特分配在這里。LSP3是第5個高頻范圍糾錯的LSP參數(shù)的代碼本索引并且已將5個比特分配在這里。LSP5是第10個全頻范圍糾錯的LSP參數(shù)的代碼本索引并且已將8個比特分配在這里。在這些參數(shù)中,當LSP0還不能充分表示包絡(luò)時,LSP2,LSP3和LSP5是用作補償前面級的差錯并被補充使用的索引。LSP4是用于選擇編碼時的編碼模式是直接模式還是差模差分模式的1比特選擇標記。具體地說,其表示通過量化得到的直接模式的LSP和從量化差值得到的LSP之間的選擇,無論哪個值都具有與從原始波形分析得到的原始LSP參數(shù)較小的差值。如果LSP4是0或1,則模式分別為直接模式或差模差分模式。
對于有聲聲音,其全部的LSP參數(shù)為編碼比特。對于有聲聲音和背景噪音更新,從編碼比特中去除LSP5。在背景噪音的無更新時不發(fā)送LSP代碼比特。特別是,背景噪音更新時的LSP代碼比特為量化最新的三個幀的LSP參數(shù)的平均值時所得到的編碼比特。
音調(diào)參數(shù)PCH為僅用于有聲聲音的7-比特代碼比特。頻譜代碼本的代碼本參數(shù)idS被分為第零LPC剩余頻譜代碼本索引idS0以及第一LPC剩余頻譜代碼本索引idS1。對于有聲聲音,兩個索引都為4代碼比特。對于無聲征引在6個比特內(nèi)編碼該噪音代碼本索引idSL00,idSL01。
對于有聲聲音,LPC剩余頻譜增益代碼本索引idG被設(shè)定為5比特代碼標志(bot)。對于無聲聲音,將4比特代碼比特分配給噪音代碼本增益索引idGL00和idGL11中的每一個。對于背景噪音更新,僅將4比特代碼比特分配給idGL00。背景噪音更新內(nèi)的這4比特idGL00為量化最新4幀(8個子幀)的CELP增益的平均值所得到的代碼比特。
對于有聲聲音,將7,10,9和6比特分別分配給表示為idS0_4k的零擴展LPC剩余頻譜代碼本索引,表示為idS1_4k的第一擴展LPC剩余頻譜代碼本索引,表示為idS2_4k的第二擴展LPC剩余頻譜代碼本索引以及表示為idS3_4k的第三擴展LPC剩余頻譜代碼本索引。
分別分配80比特用于有聲聲音,40比特用于無有聲聲音,25比特用于背景噪音更新以及3比特用于背景噪音無更新。
參照圖2,詳細解釋圖12所示的用于產(chǎn)生代碼比特的語音編碼器。
提供給輸入端101的語音信號由高通濾波器(HPF)109濾波以取出不必要頻率范圍的信號。如上所述,濾波輸出送到輸入信號判別單元21a,LPC(線性預(yù)測編碼)分析量化單元113的LPC分析電路132以及LPC反濾波電路111。
LPC分析量化單元113的LPC分析電路132應(yīng)用具有大約256個樣值作為一個模塊的輸入信號波形的長度的Hamming窗口,以便通過自相關(guān)方法找到線性預(yù)測系數(shù),該系統(tǒng)也稱為α-參數(shù)。作為數(shù)據(jù)輸出單元的成幀間隔大約為160個樣值。采用例如8kHz的采樣頻率fs,幀間隔為160個樣值或20毫秒。
來自LPC分析電路132的α-參數(shù)被送到用于轉(zhuǎn)換到線性頻譜對(LSP)參數(shù)的α-LSP轉(zhuǎn)換電路133。在這種情況下,所找到的作為直接濾波器系數(shù)的α-參數(shù)通過例如Newton-Rhapson方法被轉(zhuǎn)換為,例如為5對的10個LSP參數(shù)。因為LSP參數(shù)的插補特性優(yōu)于α-參數(shù)的描補特性,所以使用到LSP參數(shù)的轉(zhuǎn)換。
來自α-LSP轉(zhuǎn)換電路133的LSP參數(shù)被LSP量化器134進行矩陣或向量量化。在向量量化之前首先消除幀到幀的差值。作為一種替換,通過矩陣量化可以一起取出并量化數(shù)個幀。這里,20毫秒是一幀并且每20毫秒計算的LSP參數(shù)被一起取出并進行矩陣或向量量化。
作為LSP量化索引的LSP量化器134的量化輸出在終端102輸出,同時量化LSP向量被送到LSP插補電路136。
LSP插補電路136插補每20毫秒或每40毫秒量化的LSP向量,以便將比率提高因數(shù)8,從而LSP向量每2.5毫秒被更新。其原因是,如果剩余波形被諧波編碼/解碼方法分析-合成,則合成波形的包絡(luò)極為光滑,因此,如果LPC系數(shù)變化劇烈,將導(dǎo)致產(chǎn)生極大的聲音。即,如果LPC系數(shù)每2.5毫秒逐漸變化,則將阻止產(chǎn)生極大的聲音。
對于使用插補基于2.5毫秒的LSP向量執(zhí)行輸入語音的反-濾波,通過LSP-α轉(zhuǎn)換電路137將LSP參數(shù)轉(zhuǎn)換為α-參數(shù),該α-參數(shù)為具有大約10級的直接類型濾波器的系數(shù)。LSP-α轉(zhuǎn)換電路137的輸出被送到LPC反-濾波電路111,在這里使用每2.5毫秒更新的α-參數(shù)完成反-濾波以便實現(xiàn)光滑輸出。LPC反-濾波電路111的輸出被送到正弦分析編碼單元114,具體為諧波編碼電路的諸如離散傅立葉變換電路之類的正交轉(zhuǎn)換電路145。
來自LPC分析量化單元113的LPC分析電路132的α-參數(shù)被送到心理加權(quán)濾波器計算電路139,在這里找到用于心理加權(quán)的數(shù)據(jù)。該加權(quán)數(shù)據(jù)被送到第二編碼單元120的心理加權(quán)向量量化單元116,心理加權(quán)濾波器125以及心理加權(quán)合成濾波器122。
正弦分析編碼單元114可以是諸如諧波編碼電路之類的電路,LPC反-濾波電路111的輸出通過諧波編碼方法進行分析。即,正弦分析編碼單元檢測音調(diào),計算每個諧波的幅值A(chǔ)m并執(zhí)行V/UV判別。正弦分析編碼單元還在幅值上將具有變化音調(diào)的幅值A(chǔ)m或諧波的包絡(luò)轉(zhuǎn)換為恒定數(shù)。
在圖2示出的正弦分析編碼單元114的一個具體的示例,預(yù)先抑制例行諧波編碼。特別是,在多-頻帶激勵(MBE)編碼中,假定在同時發(fā)生的每個頻率范圍或頻段,即,在相同的幀塊出現(xiàn)一個語言部分和一個無語言部分的情況下進行建模。在其他的諧波編碼形式中,一種替換判定是就該幀塊內(nèi)的語音是語言還是無語言進行判定。在下面的解釋中,基于幀的V/UV含義是在采用MBE編碼情況下當整個頻帶為UV時的給定幀的V/UV。就分析方法的合成而言,由本專利受讓人提出的日本特開專利H-5-265487公開了一種本專利受讓人建議的具體示例。
將來自輸入端101的輸入語音信號反饋給圖2的正弦分析編碼單元114的開環(huán)音調(diào)查找單元141,同時將來自高通濾波器(HPF)109的信號反饋給過零計數(shù)器142。將來自LPC反-濾波電路111的LPC剩余或線性預(yù)測剩余反饋給正弦分析編碼單元114的正交轉(zhuǎn)換電路145。開環(huán)音調(diào)查找單元141取出輸入信號的LPC剩余以便通過取出取出輸入信號的LPC剩余執(zhí)行相對粗糙的音調(diào)查找。所提取的粗音調(diào)數(shù)據(jù)被送到高準確性音調(diào)查找單元146,在這里執(zhí)行后面所述的閉環(huán)查找高準確性音調(diào)(精細音調(diào)查找)。從開環(huán)音調(diào)查找單元141,與粗音調(diào)數(shù)據(jù)一起取出標準化LPC剩余的最大自相關(guān)值時得到的最大標準化自相關(guān)值r(p),并將其送到V/UV判定單元115。
正交轉(zhuǎn)換電路145執(zhí)行諸如離散余弦變換(DFT)之類的處理以便將時間州上的LPC剩余轉(zhuǎn)換為頻率軸上的頻譜幅值數(shù)據(jù)。正交轉(zhuǎn)換電路145的輸出被送到高準確性音調(diào)查找單元146以及用于評價頻譜幅值或包絡(luò)的頻譜評價單元148。
將開環(huán)音調(diào)查找單元141提取的相對較粗音調(diào)的粗音調(diào)數(shù)據(jù)和開環(huán)音調(diào)查找單元141提取的頻率間隔上的數(shù)據(jù)反饋給高準確性音調(diào)查找單元146。在該高準確性音調(diào)查找單元146,以粗音調(diào)數(shù)據(jù)為中心音調(diào)數(shù)據(jù)被偏移正負數(shù)個樣值以接近具有最佳小數(shù)點(浮點)的精細音調(diào)數(shù)據(jù)值。作為精細查找技術(shù),使用由合成方法進行的所謂分析并選擇音調(diào)以便合成功率頻譜將最接近原始語音的功率頻譜。通過閉環(huán)來自高準確性音調(diào)查找單元146的音調(diào)數(shù)據(jù)通過開關(guān)118被送到輸出端104。
在頻譜評價單元148,根據(jù)作為LPC剩余的正交轉(zhuǎn)換輸出的音調(diào)和頻譜幅值評價其設(shè)定的每個諧波的幅值和頻譜包絡(luò)。評價結(jié)果送到高準確性音調(diào)查找單元146,V/UV判定單元115以及心理加權(quán)向量量化單元116。
在V/UV判定單元115,根據(jù)正交轉(zhuǎn)換電路145的輸出,高準確生音調(diào)查找單元146的最佳音調(diào),頻譜評價單元148的幅值數(shù)據(jù),開環(huán)音調(diào)查找單元141的最大標準化自相關(guān)值r(p)以及過零計數(shù)器142的過零值給出所述幀的V/UV判定。MBE編碼情況下的基于頻帶的V/UV判定結(jié)果的邊界位置也用作所述幀的V/UV判定條件。經(jīng)輸出端105取出V/UV判定單元115的判定輸出。
頻譜評價單元148的輸出或向量量化單元116的輸入提供給多個轉(zhuǎn)換單元119,該轉(zhuǎn)換單元是一種采樣率轉(zhuǎn)換單元。在考慮到音調(diào)改變在頻率間隔分開的頻帶數(shù)目從而改變數(shù)據(jù)量的情況下,該數(shù)據(jù)轉(zhuǎn)換單元的數(shù)目用于將包絡(luò)的幅值數(shù)據(jù)|Am|設(shè)定為恒定數(shù)。即,如果有效頻帶高達3400kHz,則根據(jù)音調(diào)將該有效頻帶分為8到63個頻帶,以便從頻帶到頻帶所得到的幅值數(shù)據(jù)|Am|的數(shù)字mMX+1也在8到63的范圍內(nèi)變化。因此,數(shù)據(jù)轉(zhuǎn)換單元119的數(shù)目將變化的數(shù)字mMX+1幅值數(shù)據(jù)轉(zhuǎn)換為恒定數(shù)M,例如,44。
按照預(yù)設(shè)定的數(shù)據(jù)數(shù),例如44數(shù)據(jù)收集上述諸如44之類的恒定數(shù),來自頻譜評價單元148的輸出提供的數(shù)據(jù)轉(zhuǎn)換單元數(shù)的振幅數(shù)據(jù)或包絡(luò)數(shù)據(jù)或向量量化單元116的輸入作為進行加權(quán)向量量化的向量。由心理加權(quán)濾波器計算電路139的輸出進行加權(quán)。來自向量量化單元116的上述包絡(luò)的索引idS在輸出端103通過開關(guān)117輸出。同時,在加權(quán)向量量化之前取出采用適當漏出系數(shù)的內(nèi)幀差值以用于由預(yù)設(shè)定數(shù)據(jù)數(shù)組成的向量。
下面將描述具有所謂的CELP(編碼激勵線性預(yù)測)編碼配置的編碼方法。該編碼方法用于編碼輸入語音信號的無聲部分。在用于輸入語音信號的無聲語音部分的該CELP編碼配置中,對應(yīng)于作為噪音代碼本各輸出的無聲語音的LPC剩余的噪音輸出,或所謂的隨機代碼本121通過增益電路126送到心理加權(quán)合成濾波器122。加權(quán)合成濾波器122通過LPC合成方法LPC合成輸入噪音以便將產(chǎn)生的加權(quán)無聲語音信號送到減法器123。將輸入端101提供的語音信號經(jīng)高通濾波器(HPF)109反饋給減法器,該信號已由心理加權(quán)濾波器125心理加權(quán)。這樣,減法器從合成濾波器122的信號得到差值或誤差。注意到在心理加權(quán)濾波器125的輸出開始減去心理加權(quán)合成濾波器的零輸入響應(yīng)。該誤差被送到距離計算電路124以便進行查找最小化噪音代碼本121的誤差的表示值向量的距離計算。也就是通過采用閉環(huán)查找,采用合成方法的依次合成所得到的時間間隔波形,該波形是被量化的向量。
就用于體現(xiàn)CELP編碼配置的編碼單元的UV(無聲)部分的數(shù)據(jù)而言,取出來自噪音代碼本121的代碼本的整形索引idSI以及來自增益電路126的代碼本的增益索引idGI。作為來自噪音代碼本121的UV數(shù)據(jù)的整形索引idSI經(jīng)開關(guān)127a送到輸出端107a,同時作為增益電路126的的UV數(shù)據(jù)的增益索引idGI經(jīng)開關(guān)127g送到輸出端107g。
根據(jù)V/UV判定單元115的V/UV判定結(jié)果接通/斷開控制這些開關(guān)127s,127g以及上述開關(guān)117,118。當與現(xiàn)在發(fā)送有關(guān)的幀語音信號的V/UV判定結(jié)果指示有聲聲音(V)時接通開關(guān)117,118,同時當與現(xiàn)在發(fā)送有關(guān)的幀語音信號指出無聲聲音(UV)時接通開關(guān)127s,127g。
由傳輸路徑編碼器22編碼由上述語音編碼器以可變比率編碼的各個參數(shù),這些參數(shù)為LSP參數(shù)LSP,有聲/無聲判別參數(shù)idVUV,音調(diào)參數(shù)PCH,頻譜包絡(luò)的代碼本參數(shù)idS和增益索引idG,噪音代碼本參數(shù)idS1以及增益索引idG1,以便語音質(zhì)量不受傳輸路徑質(zhì)量的影響。所產(chǎn)生的信號由調(diào)制器23調(diào)制并被處理以用于發(fā)射器24發(fā)射,從而經(jīng)天線共享器25由天線發(fā)射。如上所述,上述參數(shù)也送到參數(shù)控制單元21b的參數(shù)產(chǎn)生單元12。參數(shù)產(chǎn)生單元12使用來自V/UV判定單元115的V/UV判定結(jié)果,來自計數(shù)器控制器11的上面參數(shù)以及bgnIntvl產(chǎn)生idVUV以及0更新標記。參數(shù)控制單元21b還管理控制,因此,如果從V/UV判定單元115產(chǎn)生指示背景噪音的idVUV=1,則作為LSP量化方法的差模差分模式(LSP4=1)禁止LSP量化器134使用,從而使得僅通過直接模式(LSP4=0)執(zhí)行量化。
解釋圖1所示的便攜電話設(shè)備的接收側(cè)的語音解碼設(shè)備31。將由天線26俘獲,由接收器27經(jīng)天線共享器25接收,由解調(diào)器29解調(diào)并由用于傳輸路徑誤差的傳輸路徑解碼器30校正的接收比特反饋給語音解碼設(shè)備31。
語音解碼設(shè)備31的結(jié)構(gòu)在圖13詳細示出。具體地說,語音解碼設(shè)備包括用于從輸入端200輸入的接收比特取出標題比特以便如圖16所示分開idVUV和更新標記并用于輸出代碼比特的標題比特解釋單元201,和用于通過idVUV和更新標記如后面所解釋的控制開關(guān)143和248的切換的切換控制器241。語音解碼設(shè)備還包括用于用于通過后面解釋的序列確定LPC參數(shù)或LSP參數(shù)的LPC參數(shù)再現(xiàn)控制器240,以及用于從代碼比特內(nèi)的LSP索引再現(xiàn)LPC參數(shù)的LPC參數(shù)再現(xiàn)單元213。語音解碼設(shè)備還包括用于將代碼比特分解為各個參數(shù)索引的代碼比特解釋單元209以及由切換控制器241控制,在接收到背景噪音更新幀閉合,反之斷開的開關(guān)248。語音解碼設(shè)備還包括由切換控制器241控制,使其在接收到背景噪音更新幀與RAM244連接,反之斷開的開關(guān)243,以及用于產(chǎn)生UV整形索引作為隨機數(shù)的隨機數(shù)發(fā)生器208。語音解碼設(shè)備還包括用于向量量化來自包絡(luò)索引的包絡(luò)的向量去量化器212和用于合成來自idVUV,音調(diào)和包絡(luò)的有聲聲音的語言語音合成單元211。語音解碼設(shè)備還包括LPC合成濾波器214以及用于在接收到背景噪音更新標記時保留代碼比特并在接收到背景噪音無更新標記時提供代碼比特的RAM244。
首先,標題比特解釋單元201從輸入端200提供的接收比特取出標題比特以便從更新標記Flag分離idVUV以識別所述幀內(nèi)的幀數(shù)。如果存在下一個后面的比特,則標題比特解釋單元201將其輸出作為一個代碼比特。如果標題比特配置的上面兩比特為00,則該比特被認為是背景噪音(BGN)。因此,如果下一個比特為0,則該幀為無更新幀,因此該處理接近結(jié)束。如果下一個比特為1,則讀出下面的22比特以讀出背景噪音的更新幀。如果上面兩位為10/11,則該幀被認為是語言,因此讀出下面的78比特。
切換控制器241檢查idVUV和更新標記。如果idVUV=1,并且更新標記Flag=1,則發(fā)生更新,因此開關(guān)248被閉合以便將代碼比特發(fā)送到RAM244。同時,開關(guān)243閉合到標題比特解釋單元201一側(cè)以便將代碼比特送到代碼比特解釋單元209。如果相反更新標記Flag=0,則未發(fā)生更新,因此開關(guān)248被斷開。開關(guān)243閉合到RAM244一側(cè)以便在更新開始時提供代碼比特。如果idVUV≠1,則開關(guān)248斷開,同時開關(guān)243打開到上面一側(cè)。
代碼比特解釋單元209將從標題比特解釋單元201經(jīng)開關(guān)243提供到這里的代碼比特分解為相應(yīng)的參數(shù)索引,也就是LSP索引,音調(diào),包絡(luò)索引,UV增益索引或UV整形索引。
隨機數(shù)發(fā)生器208產(chǎn)生UV整形索引作為隨機數(shù)。如果開關(guān)249接收到具有idVUV=1的背景噪音幀,則開關(guān)249由切換控制器241閉合以便將UV整形索引發(fā)送到無有聲聲音合成單元220。如果idVUV≠1,則UV整形索引經(jīng)開關(guān)249從代碼比特解釋單元209發(fā)送到無有聲聲音合成單元220。
LPC參數(shù)再現(xiàn)控制器240內(nèi)部具有一個切換控制器和一個索引判定單元并以后面解釋的方式,根據(jù)判定結(jié)果通過切換控制器檢測idVUV以控制LPC參數(shù)再現(xiàn)單元213的操作。
LPC參數(shù)再現(xiàn)單元213,無有聲聲音合成單元200,向量去量化器212,有聲聲音合成單元211以及LPC合成濾波器214構(gòu)成語音解碼設(shè)備31的基本部分。圖14示出這些基本部分和外圍部分的結(jié)構(gòu)。
將也被稱為代碼本索引的LSP向量量化輸出反饋給輸入端202。
將LSP索引發(fā)送給LPC參數(shù)再現(xiàn)單元213。如上所述,LPC參數(shù)再現(xiàn)單元213通過代碼比特內(nèi)的LSP索引再現(xiàn)LPC參數(shù)。LPC參數(shù)再現(xiàn)單元213由未示出的LPC參數(shù)再現(xiàn)控制器240內(nèi)的切換控制器控制。
首先,解釋LPC參數(shù)再現(xiàn)單元213。LPC參數(shù)再現(xiàn)單元213包括一個LSP去量化器231,轉(zhuǎn)換開關(guān)251,LSP插補電路232(用于V)以及233(用于UV),LSP-α轉(zhuǎn)換電路234(用于V)以及235(用于UV),開關(guān)252,RAM253,幀插補電路245,LSP插補電路246(用于BGN)以及LSP-α轉(zhuǎn)換電路247(用于BGN)。
LSP去量化器231去量化來自LSP索引的LSP參數(shù)。解釋LSP去量化器231內(nèi)的LSP參數(shù)的生成。這里,引入背景噪音計數(shù)器bgnIntvl(初始值=0)。在有聲聲音(idVUV=2,3)或無有聲聲音(idVUV=0)的情況下,通過用的解碼處理產(chǎn)生LSP參數(shù)。
在背景噪音(idVUV=1)的情況下,如果該幀為更新幀,則設(shè)定bgnIntvl=0,并且,如果相反,則將bgnIntvl增加1。如果當bgnIntvl增加1時,其等于后面解釋的BGN INTVL RX,則bgnIntvl不增加1。
接著,如下面公式(20)所述產(chǎn)生LSP參數(shù)。 注意到在更新幀為qLSP(prev)(1,…,10)之前直接接收LSP參數(shù),則在更新幀內(nèi)接收的LSP參數(shù)為qLSP(prev)(1,…,10)并且通過插補產(chǎn)生的LSP參數(shù)為qLSP(prev)(1,…,10)。
在上面的公式,BGN INTVL RX為恒定值,并且使用bgnIntvl和隨機數(shù)md(=-3,…,3)通過下面公式(21)產(chǎn)生bgnIntvl’bgnIntvl’=bgnIntvl+md…(21)注意到,如果當bgnIntvl’<0,bgnIntvl’=bgnIntvl以及bgnIntvl’≥BGN_INTVL_RX,則設(shè)定bgnIntvl’=bgnIntvl。
LPC參數(shù)再現(xiàn)控制器240內(nèi)的未示出的切換控制器根據(jù)V/UV參數(shù)以及更新標記Flag控制LPC參數(shù)再現(xiàn)單元213內(nèi)的開關(guān)252,262。
對于idVUV=0,2,3以及對于idVUV=1,開關(guān)251被分別設(shè)定到上端和下端。如果更新標記Flag=1,即,在背景噪音更新幀的情況下,開關(guān)252被閉合到將LSP參數(shù)發(fā)送到RAM253以便在qLSP(curr)更新qLSP(prev)之后更新qLSP(curr)。RAM253保留qLSP(prev)和qLSP(curr)。
幀插補電路245使用內(nèi)部計數(shù)器bgnIntvl從qLSP(prev)和qLSP(curr)產(chǎn)生qLSP。LSP插補電路246插補LSPs。LSP-α轉(zhuǎn)換電路247將用于BGN的LSP轉(zhuǎn)換為α。
參照圖15的流程圖將詳細解釋由LPC參數(shù)再現(xiàn)控制器240進行的LPC參數(shù)再現(xiàn)單元213的控制。
首先,在步驟S41 LPC參數(shù)再現(xiàn)控制器240的切換控制器檢測V/UV判定參數(shù)idVUV。如果該參數(shù)為0,則切換控制器進入步驟S42以便通過LSP插補電路233插補LSPs。接著切換控制器進入步驟S43,在這里通過LSP-0轉(zhuǎn)換電路235將LSPs轉(zhuǎn)換為α。
如果在步驟S41,idVUV=1,并且在步驟S44,更新標記Flag=1,則該幀為更新幀,因此在步驟S45在幀插補電路245設(shè)定bgnIntvl=0。
如果在步驟S44,更新標記Flag=0,并且bgnIntvl<BGN_INTVL_RX-1,則切換控制器進入步驟S47以便將bgnIntvl增加1。
在步驟S48,產(chǎn)生bgnIntvl’作為幀插補電路245使用的隨機數(shù)rnd。然而,如果bgnIntvl’<0或者如果bgnIntvl’≥BGN_INTVL_RX,則在步驟S50設(shè)定bgnIntvl’=bgnIntvl。
接著,在步驟S51,通過幀插補電路245幀-插補LSPs。在步驟S52,通過插補電路246插補LSPs并且在步驟S53,通過LSP-α轉(zhuǎn)換電路247將LSPs轉(zhuǎn)換為α。
如果在步驟S41,idVUV=2,3,則切換控制器進入步驟S54,在這里通過LSP插補電路232插補LSPs。在步驟S55,通過LSP-α轉(zhuǎn)換電路234將LSPs轉(zhuǎn)換為α。
LPC合成濾波器214將用于有聲部分的LPC合成濾波器236與無聲部分的LPC合成濾波器237分開。即,在有聲和無聲部分獨立執(zhí)行LPC系數(shù)插補以防止不利影響,該不利影響可能通過插補從有聲到無聲部分或從無聲到有聲部分轉(zhuǎn)換時的完全不同特性的LSPs引入。
將對應(yīng)于加權(quán)向量量化頻譜包絡(luò)Am的代碼索引數(shù)據(jù)反饋給輸入端203。將音調(diào)參數(shù)PCH的數(shù)據(jù)和上述V/UV判定數(shù)據(jù)idVUV分別反饋給輸入端204,205。
將對應(yīng)于來自輸入端203的加權(quán)向量量化頻譜包絡(luò)Am的索引數(shù)據(jù)發(fā)送到用于向量去量化的向量去量化器212。這樣,以對應(yīng)于數(shù)據(jù)數(shù)轉(zhuǎn)換的方式逆-轉(zhuǎn)換數(shù)據(jù)并檢驗送到有聲聲音合成單元211的正弦合成電路215的頻譜包絡(luò)數(shù)據(jù)。
如果在編碼內(nèi)的頻譜的向量量化之前得到幀到幀的差值,則在數(shù)據(jù)數(shù)轉(zhuǎn)換所跟隨的向量去量化之后執(zhí)行幀到幀的差值的解碼,以產(chǎn)生頻譜包絡(luò)數(shù)據(jù)。
將來自輸入端204的音調(diào)以及來自輸入端205的V/UV判定數(shù)據(jù)idVUV反饋給正弦合成電路215。從正弦合成電路215,輸出對應(yīng)于圖2的LPC逆-濾波器111的輸出的LPC剩余并將其送到加法器218。以本專利受讓人的姓名申請的日本專利申請H-4-91422或日本專利申請H-6-198451公開了該正弦合成的特定技術(shù)。
將來自向量去量化器212的包絡(luò)數(shù)據(jù),來自輸入端204,205的音調(diào)和V/UV判定數(shù)據(jù)以及V/UV判定數(shù)據(jù)idVU路由到適用于增加有聲(V)部分的噪音的噪音合成電路216。噪音合成電路216的輸出經(jīng)個加權(quán)的加權(quán)加法電路217被送到加法器218。這樣作的原因是,由于通過正弦合成檢驗到有聲聲音的LPC濾波器的輸入的激勵給出諸如男性聲音之類的低音調(diào)聲音的填充感覺并且聲音質(zhì)量在有聲(V)和無聲(UV)聲音之間突然改變從而產(chǎn)生不自然的感覺,噪音,該噪音考慮從諸如音調(diào),頻譜包絡(luò)幅值,幀的最大幅值之類的編碼語言數(shù)據(jù)得到的參數(shù)或者剩余信號電平被增加到LPC剩余信號的有聲部分。
加法器218的和輸出被發(fā)送到用于LPC合成濾波器214的有聲語音的合成濾波器236以進行LPC合成處理以便產(chǎn)生一個時間間隔波形信號,該波形信號接著由用于有聲語音238v的后濾波器濾波并路由到加法器239。
如圖14所示,作為UV數(shù)據(jù)的整形索引和增益索引被分別路由到輸入端207s和207g。接著將增益索引提供給無有聲聲音合成單元220。來自終端207s的整形索引被送到轉(zhuǎn)換開關(guān)249的固定端,將隨機數(shù)發(fā)生器208的輸出反饋給該開關(guān)的另一個固定端。如果接收到背景噪音幀,在圖13所示的切換控制器241的控制下,開關(guān)249閉合到隨機數(shù)發(fā)生器208的一側(cè)。將來自隨機數(shù)發(fā)生器208的整形索引反饋給無有聲聲音合成單元220。如果idVUV≠1,則通過開關(guān)249從代碼比特插補單元209提供整形索引。
即,在有聲聲音(idVUV=2,3)或無聲聲音(idVUV=0)的情況下通過例行解碼處理產(chǎn)生激勵信號。在背景噪音(idVUV=1)的情況下,產(chǎn)生CELP idSL00,idSL01的整形索引作為隨機數(shù)md(=0,…,N_SHAPE=LO-1,這里N_SHAPE=LO-1為CELP整形代碼向量數(shù))。將CELP增益索引idGL00,idGL01提供給更新幀內(nèi)的兩個子幀。
上面已經(jīng)解釋了具有體現(xiàn)本發(fā)明的編碼方法和設(shè)備以及解碼方法和設(shè)備的便攜電話設(shè)備。然而,本發(fā)明不限于便攜電話設(shè)備的編碼設(shè)備和解碼設(shè)備,而是可以應(yīng)用于,例如,傳輸系統(tǒng)。
圖17所示為實施本發(fā)明傳輸系統(tǒng)的實施例的示意性結(jié)構(gòu)。這時,系統(tǒng)是指多個設(shè)備的邏輯集成,而沒有考慮各個設(shè)備是否是處于相同的殼體內(nèi)。
在該傳輸系統(tǒng)中,客戶終端63擁有解碼設(shè)備,同時服務(wù)器61擁有編碼設(shè)備??蛻艚K端63和服務(wù)器61通過網(wǎng)絡(luò)62,例如因特網(wǎng),ISDN(綜合服務(wù)數(shù)字網(wǎng)),LAN(局域網(wǎng))或PSTN(公共交換電話網(wǎng))彼此相連。
如果從客戶終端63通過網(wǎng)絡(luò)62向服務(wù)器61發(fā)出例如音符這樣的音頻信號請求,對應(yīng)于請求音符的音頻信號的編碼參數(shù)受到保護以便響應(yīng)心理聲學(xué)的比特敏感度,防止在網(wǎng)絡(luò)62上產(chǎn)生傳輸路徑差錯,并傳輸?shù)娇蛻艚K端63,它接著解碼編碼參數(shù),這些編碼參數(shù)是受到保護的,以便防止對應(yīng)于解碼方法的來自服務(wù)器61的傳輸路徑差錯,并且從象揚聲器這樣的輸出設(shè)備中輸出解碼信號作為語音。
圖18所示為圖17的服務(wù)器61的示意性硬件結(jié)構(gòu)。
這里ROM(只讀存儲器)71存儲了例如IPL(初始程序裝入)程序。CPU(中央處理器)72根據(jù)存儲在ROM 71中的IPL程序執(zhí)行OS(操作系統(tǒng))程序。在OS控制下,執(zhí)行存儲在外部存儲設(shè)備76中的預(yù)先設(shè)置的應(yīng)用程序以便保護音頻信號的編碼處理并且編碼得到的編碼以便為客戶終端63進行編碼數(shù)據(jù)傳輸處理。RAM(隨機存儲器)73存儲CPU 72的操作所要求的程序或數(shù)據(jù)。輸入設(shè)備74由例如鍵盤,鼠標,麥克風(fēng)或外部接口構(gòu)成,當需要輸入數(shù)據(jù)或命令時發(fā)揮作用。輸入設(shè)備74還用于作為從設(shè)置到客戶終端63的數(shù)字音頻信號之外接收輸入的接口。輸出設(shè)備75由例如顯示器,揚聲器或打印機構(gòu)成,并且顯示和輸出需要的信息。外部存儲器76包括例如其中存有上述OS或預(yù)先設(shè)置的應(yīng)用程序的硬盤。通信設(shè)備77進行在網(wǎng)絡(luò)62上的通信所需要的控制。
存儲在外部存儲器76中的預(yù)先設(shè)置的應(yīng)用程序是用來使CPU 72執(zhí)行語音編碼器3,傳輸路徑編碼器4或調(diào)制器7所發(fā)揮的作用的程序。
圖19所示為圖17中的客戶終端63的示意性硬件結(jié)構(gòu)。
客戶終端63由連接到通信設(shè)備87的ROM81構(gòu)成并且基本結(jié)構(gòu)與由連接到通信設(shè)備77的ROM71構(gòu)成的服務(wù)器61的結(jié)構(gòu)類似。
需要注意的是,外部存儲器86中存儲了作為應(yīng)用程序的程序,用來執(zhí)行本發(fā)明的解碼方法以解碼來自服務(wù)器61的編碼數(shù)據(jù),或者存儲現(xiàn)在要解釋的進行其它處理的程序。通過執(zhí)行這些應(yīng)用程序,CPU 82解碼或再現(xiàn)防止出現(xiàn)傳輸路徑差錯的編碼數(shù)據(jù)。
具體地,外部存儲器86中存儲一個應(yīng)用程序,它使CPU 82執(zhí)行解調(diào)器13,傳輸路徑解碼器14和語音解碼器17的功能。
這樣,客戶終端63能夠通過軟件實現(xiàn)存儲在外部存儲器86中的解碼方法,而不需要圖1所示硬件結(jié)構(gòu)。
客戶終端還能夠存儲從服務(wù)器61傳輸?shù)酵獠看鎯ζ?6的編碼數(shù)據(jù)并在期望的時間讀出編碼數(shù)據(jù)并執(zhí)行編碼方法在期望的時間輸出語音。編碼數(shù)據(jù)還能夠存儲在另外的象磁光盤或其它記錄介質(zhì)這樣的外部存儲器中。
此外,作為服務(wù)器61的外部存儲器76,可以使用象磁光盤或磁記錄介質(zhì)這樣的可記錄介質(zhì)以便在這些記錄介質(zhì)上記錄編碼數(shù)據(jù)。
權(quán)利要求
1.一種以輸入語音信號的有聲間隔和無聲間隔之間的不同比率進行編碼的語音編碼裝置,包括輸入信號檢驗裝置,用來在時間軸上將輸入語音信號以預(yù)置單位進行劃分并且根據(jù)信號電平和預(yù)置單位的頻譜包絡(luò)的時間變化來檢驗無聲間隔是背景噪音間隔還是語音間隔;其中編碼比特的分配在背景噪音間隔的參數(shù)、語音間隔的參數(shù)和有聲間隔的參數(shù)之間是不同的。
2.根據(jù)權(quán)利要求1的語音編碼裝置,其中無聲間隔的參數(shù)比特率低于有聲間隔參數(shù)的比特率。
3.根據(jù)權(quán)利要求1的語音編碼裝置,其中背景噪音間隔的參數(shù)比特率低于語音間隔的參數(shù)比特率。
4.根據(jù)權(quán)利要求1的語音編碼裝置,其中在根據(jù)背景噪音間隔中的信號電平和頻譜包絡(luò)的時間變化的控制下產(chǎn)生表示所述背景噪音間隔中出現(xiàn)還是消失背景噪音參數(shù)更新的信息。
5.根據(jù)權(quán)利要求1的語音編碼裝置,其中如果背景噪音間隔中的信號電平和頻譜包絡(luò)的時間變化較小,則發(fā)出表示背景噪音間隔的信息和表示背景噪音參數(shù)不更新的信息,并且其中如果背景噪音間隔中的信號電平和頻譜包絡(luò)的時間變化較大,則發(fā)出表示背景噪音間隔的信息、更新的背景噪音參數(shù)和表示背景噪音參數(shù)更新的信息。
6.根據(jù)權(quán)利要求5的語音編碼裝置,其中為限制背景噪音間隔中表示背景噪音的參數(shù)的持續(xù)時間大于一個預(yù)置時間,至少在一個預(yù)置時間間隔內(nèi)更新背景噪音參數(shù)。
7.根據(jù)權(quán)利要求6的語音編碼裝置,其中所述背景噪音參數(shù)是表示CELP激發(fā)信號的增益參數(shù)的頻譜包絡(luò)或者索引的LPC系數(shù)。
8.一種以輸入語音信號的有聲間隔和無聲間隔之間的不同比率進行編碼的語音編碼方法,包括輸入信號檢驗步驟,用來在時間軸上將輸入語音信號以預(yù)置單位進行劃分并且根據(jù)信號電平和預(yù)置單位的頻譜包絡(luò)的時間變化來檢驗無聲間隔是背景噪音間隔還是語音間隔;其中編碼比特的分配在背景噪音間隔的參數(shù)、語音間隔的參數(shù)和有聲間隔的參數(shù)之間是不同的。
9.一種對輸入信號進行檢驗的方法,包括以預(yù)置單位在時間軸上劃分輸入語音信號并且以預(yù)設(shè)單位尋找信號電平的時間改變的步驟,以該單位尋找頻譜包絡(luò)時間改變的步驟,和根據(jù)所述信號電平及所述頻譜包絡(luò)的時間改變檢驗可能出現(xiàn)背景噪音的步驟。
10.根據(jù)權(quán)利要求9的對輸入信號進行檢驗的方法,其中使用模糊推理檢驗背景噪音出現(xiàn)的可能。
11.一種將不同比特分配的編碼比特解碼為無聲間隔參數(shù)和有聲間隔參數(shù)的解碼裝置,包括檢驗所述編碼比特中的間隔是語音間隔還是背景噪音間隔的檢驗裝置;和通過使用當前或當前及過去接收到的LPC系數(shù)、當前或當前及過去接收到的CELP增益索引和內(nèi)部隨機產(chǎn)生的CELP整形索引在背景噪音間隔解碼所述編碼比特的解碼器件。
12.根據(jù)權(quán)利要求11的解碼裝置,其中所述解碼器件通過內(nèi)插過去和當前接收的LPS系數(shù),或者通過內(nèi)插過去接收的LPS系數(shù)產(chǎn)生背景噪音間隔信號,其中使用隨機數(shù)產(chǎn)生LPC系數(shù)的內(nèi)插系數(shù)。
13.一種將不同比特分配的編碼比特解碼為無聲間隔參數(shù)和有聲間隔參數(shù)的解碼方法,包括檢驗所述編碼比特中的間隔是語音間隔還是背景噪音間隔的檢驗步驟;和通過使用當前或當前及過去接收到的LPC系數(shù)、當前或當前及過去接收到的CELP增益索引和內(nèi)部隨機產(chǎn)生的CELP整形索引在背景噪音間隔解碼所述編碼比特的解碼步驟。
14.一種用于提供在輸入語音信號的有聲間隔和無聲間隔之間以不同比率進行編碼的語音編碼程序的介質(zhì),該程序包括輸入信號檢驗步驟,用來在時間軸上將輸入語音信號以預(yù)置單位進行劃分,并且根據(jù)信號電平和預(yù)置單位的頻譜包絡(luò)的時間變化來檢驗無聲間隔是背景噪音間隔還是語音間隔;其中編碼比特的分配在背景噪音間隔的參數(shù)、語音間隔的參數(shù)和有聲間隔的參數(shù)之間是不同的。
15.一種用于提供將以不同比特分配進行編碼的傳輸比特解碼為無聲間隔參數(shù)和有聲間隔參數(shù)的語音解碼程序的介質(zhì),該程序包括檢測所述編碼比特中的間隔是語音間隔還是背景噪音間隔的檢測步驟;以及通過使用當前或當前及過去接收到的LPC系數(shù)、當前或當前及過去接收到的CELP增益索引和內(nèi)部隨機產(chǎn)生的CELP整形索引在背景噪音間隔解碼所述編碼比特的解碼步驟。
全文摘要
在語音編解碼器中,通過給予語音間隔中具有關(guān)鍵意義的有聲語音相對大量的比特,從而通過減少分配給無聲聲音和背景噪音的比特數(shù),來減少傳輸比特的總數(shù)從而減少傳輸比特的平均數(shù)。為此,該系統(tǒng)包括一個用來計算輸入端1提供的濾波輸入語音信號的均方根值(有效值)的rms計算單元2、用來通過rms值計算有效值的穩(wěn)態(tài)電平計算單元3、用來以穩(wěn)態(tài)電平計算單元3的輸出min-rms除rms計算單元2的輸出rms值從而得到商rms
文檔編號G10L19/14GK1282952SQ0012627
公開日2001年2月7日 申請日期2000年6月17日 優(yōu)先權(quán)日1999年6月18日
發(fā)明者前田祐児, 西口正之 申請人:索尼公司