專利名稱:聲音編碼裝置和聲音譯碼裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及將數(shù)字聲音信號(hào)壓縮為少的信息量的聲音編碼裝置和將由聲音編碼裝置等生成的聲音代碼譯碼后,再生數(shù)字聲音信號(hào)的聲音譯碼裝置。
在現(xiàn)有的很多聲音編碼裝置和聲音譯碼裝置中,采用將輸入聲音分為頻譜包絡(luò)信息和聲源、按幀單位將它們編碼后生成聲音代碼,通過將該聲音代碼譯碼后,利用合成濾波器將頻譜包絡(luò)信息和聲源組合,得到譯碼聲音的結(jié)構(gòu)。
作為最具代表性的聲音編碼裝置和聲音譯碼裝置,有使用代碼驅(qū)動(dòng)線性預(yù)測(cè)編碼(Code-Excited Linear Prediction:CELP)方式的裝置。
圖15是表示現(xiàn)有的CELP系的聲音編碼裝置的總體結(jié)構(gòu)的圖,圖中,1是輸入聲音,2是線性預(yù)測(cè)分析單元,3是線性預(yù)測(cè)系數(shù)編碼單元,4是自適應(yīng)聲源編碼單元,5是驅(qū)動(dòng)聲源編碼單元,6是增益編碼單元,7是多路復(fù)用單元,8是聲音代碼。
圖16是表示現(xiàn)有的CELP系的聲音譯碼裝置的總體結(jié)構(gòu)的圖,圖中,9是分離單元,10是線性預(yù)測(cè)系數(shù)譯碼單元,11是自適應(yīng)聲源譯碼單元,12是驅(qū)動(dòng)聲源譯碼單元,13是增益譯碼單元,14是合成濾波器,15是輸出聲音。
在現(xiàn)有的聲音編碼裝置和聲音譯碼裝置中,將約5~50ms作為1幀,按幀單位進(jìn)行處理。下面,說明該現(xiàn)有的聲音編碼裝置和聲音譯碼裝置的動(dòng)作。
首先,在聲音編碼裝置中,輸入聲音1輸入線性預(yù)測(cè)分析單元2和自適應(yīng)聲源編碼單元4。線性預(yù)測(cè)分析單元2將輸入聲音1進(jìn)行分析,抽出作為聲音的頻譜包絡(luò)信息的線性預(yù)測(cè)系數(shù)。線性預(yù)測(cè)系數(shù)編碼單元3將該線性預(yù)測(cè)系數(shù)進(jìn)行編碼,并將該代碼向多路復(fù)用單元7輸出,同時(shí)為了聲源的編碼,輸出已編碼的線性預(yù)測(cè)系數(shù)。
在自適應(yīng)聲源編碼單元4中,將過去的聲源作為自適應(yīng)聲源代碼表進(jìn)行存儲(chǔ),與各自適應(yīng)聲源代碼對(duì)應(yīng)地生成使過去的聲源周期性地反復(fù)的時(shí)間系列矢量。然后,對(duì)各時(shí)間系列矢量乘以適當(dāng)?shù)脑鲆妫怪ㄟ^使用上述已編碼的線性預(yù)測(cè)系數(shù)的合成濾波器,得到暫時(shí)的合成音。檢查該暫時(shí)的各合成音與輸入聲音1的距離,選擇使該距離為最小的自適應(yīng)聲源代碼,同時(shí)將與所選擇的自適應(yīng)聲源代碼對(duì)應(yīng)的時(shí)間系列矢量作為自適應(yīng)聲源而輸出。另外,向下一個(gè)驅(qū)動(dòng)聲源編碼單元5輸出輸入聲音1或從輸入聲音1中減去利用自適應(yīng)聲源的合成音后的信號(hào)。
在驅(qū)動(dòng)聲源編碼單元5中,首先與各驅(qū)動(dòng)聲源代碼對(duì)應(yīng)地從其內(nèi)部存儲(chǔ)的驅(qū)動(dòng)聲源代碼表中順序讀出時(shí)間系列矢量。其次,對(duì)各時(shí)間系列矢量和上述自適應(yīng)聲源乘以適當(dāng)?shù)脑鲆婧螅瑢烧呦嗉?,使之通過使用上述已編碼的線性預(yù)測(cè)系數(shù)的合成濾波器,得到暫時(shí)的各合成音。將該暫時(shí)的各合成音和從自適應(yīng)聲源編碼單元4中輸出的輸入聲音1或從輸入聲音1中減去利用自適應(yīng)聲源的合成音后的信號(hào)作為編碼對(duì)象信號(hào),檢查該編碼對(duì)象信號(hào)與上述暫時(shí)的各合成音的距離,選擇使該距離為最小的驅(qū)動(dòng)聲源代碼,同時(shí)將與所選擇的驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的時(shí)間系列矢量作為驅(qū)動(dòng)聲源而輸出。
增益編碼單元6首先與各增益代碼對(duì)應(yīng)地從其內(nèi)部存儲(chǔ)的增益代碼表中順序讀出增益頻譜。并且,將各增益矢量的各要素與上述自適應(yīng)聲源和上述驅(qū)動(dòng)聲源相乘后,將兩者相加,使之通過使用上述已編碼的線性預(yù)測(cè)系數(shù)的合成濾波器,得到暫時(shí)的各合成音。檢查該暫時(shí)的合成音與輸入聲音1的距離,選擇使該距離為最小的增益代碼。
最后,自適應(yīng)聲源編碼單元4將與所選擇的增益代碼對(duì)應(yīng)的增益矢量的各要素與上述自適應(yīng)聲源和上述驅(qū)動(dòng)聲源相乘后,將兩者相加,生成聲源,進(jìn)行自適應(yīng)聲源代碼表的更新。
多路復(fù)用單元7輸出將上述線性預(yù)測(cè)系數(shù)的代碼、自適應(yīng)聲源代碼、驅(qū)動(dòng)聲源代碼和增益代碼多路復(fù)用而得到的聲音代碼8。
在聲音譯碼裝置中,由分離單元9將上述聲音代碼8分為線性預(yù)測(cè)系數(shù)的代碼、自適應(yīng)聲源代碼、驅(qū)動(dòng)聲源代碼和增益代碼。
線性預(yù)測(cè)系數(shù)譯碼單元10根據(jù)線性預(yù)測(cè)系數(shù)的代碼,對(duì)線性預(yù)測(cè)系數(shù)進(jìn)行譯碼,并設(shè)定為合成濾波器14的系數(shù)。
然后,自適應(yīng)聲源譯碼單元11將過去的聲源作為自適應(yīng)聲源代碼表進(jìn)行存儲(chǔ),與自適應(yīng)聲源代碼對(duì)應(yīng)地輸出使過去的聲源周期性地反復(fù)的時(shí)間系列矢量,另外,驅(qū)動(dòng)聲源譯碼單元12輸出與驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的時(shí)間系列矢量。增益譯碼單元13輸出與增益代碼對(duì)應(yīng)的增益矢量。通過對(duì)上述2個(gè)時(shí)間系列矢量乘以上述增益矢量的各要素后相加而生成聲源,通過使該聲源通過合成濾波器14,生成輸出聲音15。
最后,自適應(yīng)聲源譯碼單元11使用上述已生成的聲源,進(jìn)行自適應(yīng)聲源代碼表的更新。
下面,試圖改良該CELP系聲音編碼裝置和聲音譯碼裝置的現(xiàn)有的技術(shù)。
文獻(xiàn)1片岡章俊、林伸二、守谷健弘、栗原祥子、間野一則在「CS—ACELPの基本ァルゴリズㄙ」(NTT R&D,Vo1.45,pp.325—330(1996年4月))中,以減少運(yùn)算量和存儲(chǔ)量為主要目的,公開了將脈沖聲源導(dǎo)入驅(qū)動(dòng)聲源的編碼中的CELP系聲音編碼裝置和聲音譯碼裝置。在該現(xiàn)有的結(jié)構(gòu)中,僅用數(shù)條脈沖的各位置信息和極性信息來表現(xiàn)驅(qū)動(dòng)聲源。這樣的聲源稱為代數(shù)聲源,結(jié)構(gòu)簡(jiǎn)單、編碼特性好,已被最近的很多標(biāo)準(zhǔn)方式采用。
圖17是表示在文獻(xiàn)1中使用的脈沖聲源的位置候選的表。在文獻(xiàn)1中,聲源編碼幀長(zhǎng)度為40取樣,驅(qū)動(dòng)聲源由4個(gè)脈沖構(gòu)成。如圖17所示,聲源號(hào)碼1~3的脈沖聲源的位置候選分別限制為8個(gè)位置,脈沖位置分別可以用3位進(jìn)行編碼。聲源號(hào)碼4的脈沖限制為16個(gè)位置,脈沖位置可以用4位進(jìn)行編碼。通過對(duì)脈沖聲源的位置候選加以限制,來抑制編碼特性的惡化,實(shí)現(xiàn)減少編碼位數(shù)、減少組合數(shù)從而減少運(yùn)算量。
改善該代數(shù)聲源的品質(zhì)的結(jié)構(gòu),已在特開平10—232696和文獻(xiàn)2Tadashi Amada、Kimio Miseki and Masami Akamine“CELP SPEECH CODING BASED ON AN ADAPTIVE PULSE POSITIONCODEBOOK”1999 IEEE International Conference on Acoustics,Speech,and Signal Processing,vol.I,pp.13-16(Mar1999)以及文獻(xiàn)3土屋、天田、三關(guān)
「適應(yīng)パルス位置ACELP音聲符號(hào)化の改善」日本音響學(xué)會(huì)1999年春季研究發(fā)表會(huì)演講論文集I、213—214中公開了。
在特開平10—232696中,是預(yù)先準(zhǔn)備多個(gè)固定波形,通過將該固定波形配置到以代數(shù)方式已編碼的聲源位置來生成驅(qū)動(dòng)聲源。另外,還具有多個(gè)驅(qū)動(dòng)聲源生成單元(噪音代碼表),根據(jù)編碼畸變或聲音的分析結(jié)果,選擇并使用其中的1個(gè)。作為多個(gè)驅(qū)動(dòng)聲源生成單元,公開了上述固定波形的個(gè)數(shù)相互不同的情況和生成至少1個(gè)與代數(shù)聲源不同的隨機(jī)數(shù)列或脈沖串的裝置。利用這樣的結(jié)構(gòu)來得到高品質(zhì)的輸出聲音。
在文獻(xiàn)2中,為了將脈沖聲源的位置候選集中在自適應(yīng)聲源的振幅包絡(luò)大的地方,對(duì)各幀自適應(yīng)地設(shè)定脈沖聲源的位置候選。由此,能夠改善編碼特性。
文獻(xiàn)3相當(dāng)于文獻(xiàn)2的改良。在驅(qū)動(dòng)聲源(在文獻(xiàn)3中,是ACELP聲源)的生成部中包含音調(diào)濾波器時(shí),就存在容易選擇最初的1音調(diào)周期的區(qū)間的聲源位置的傾向,這時(shí),就根據(jù)進(jìn)行了音調(diào)逆濾波處理的自適應(yīng)聲源的振幅包絡(luò)的大小,對(duì)各幀自適應(yīng)地設(shè)定脈沖聲源的位置候選。
在上述現(xiàn)有的方法中,存在以下所述的問題。
文獻(xiàn)1公開的聲音編碼裝置和聲音譯碼裝置的情況,是各聲源號(hào)碼的位置候選固定存在于將幀均等分割的各分割區(qū)域中,即均等地分布在幀內(nèi)。用這樣的結(jié)構(gòu),想實(shí)現(xiàn)低位速率時(shí),則只能減少脈沖數(shù)或以均等間隔間抽各聲源號(hào)碼的位置候選數(shù),但是,這時(shí)將導(dǎo)致特性急劇的惡化。
為了多少解決這一問題,在文獻(xiàn)2和文獻(xiàn)3中,公開了少許抑制該特性惡化的自適應(yīng)的間抽方法,但是,在輸入聲音的周期性發(fā)生紊亂變化時(shí),進(jìn)行自適應(yīng)的間抽,反而會(huì)引起更大的特性惡化。另外,該自適應(yīng)的間抽處理由于在通信線路中的代碼傳輸錯(cuò)誤而在自適應(yīng)聲源中發(fā)生錯(cuò)誤時(shí),也對(duì)驅(qū)動(dòng)聲源發(fā)生影響。
另外,在文獻(xiàn)3中,在驅(qū)動(dòng)聲源的生成部中包含音調(diào)濾波器時(shí),是通過將聲源位置候選集中到最初的1音調(diào)周期的區(qū)間中來得到平均的特性改善,但是,在聽覺上最重要的聲音的上升區(qū)間等中,反而有時(shí)幀的后半部是重要的,有時(shí)不能良好地表現(xiàn)幀的后半部,引起特性惡化,從而在收聽的感覺上就是發(fā)生了品質(zhì)惡化。
在特開平10—232696中,是通過具有多個(gè)驅(qū)動(dòng)聲源生成單元(噪音代碼表)來實(shí)現(xiàn)特性改善的,但是,配置固定聲源的位置候選本身沒有新的結(jié)構(gòu)(和文獻(xiàn)1相同),和文獻(xiàn)1一樣,在低位速率時(shí),將導(dǎo)致特性急劇的惡化。
另外,不論是文獻(xiàn)1還是特開平10—232696,作為編碼結(jié)果而得到的聲源位置集中在幀的后部時(shí),在幀的前半部,驅(qū)動(dòng)聲源將形成低振幅的區(qū)間,特別是像摩擦聲音等那樣,在自適應(yīng)聲源的振幅小的區(qū)間將會(huì)聽到振幅的不連續(xù)感。圖18是可以感覺到該不連續(xù)感的輸出聲音15的一例。由于幀內(nèi)的驅(qū)動(dòng)聲源的開頭位置遠(yuǎn)離幀的開頭,所以,在幀開頭附近發(fā)生了低振幅區(qū)間。在特開平10—232696中,通過具有用隨機(jī)數(shù)列等對(duì)聲源進(jìn)行編碼的模式,可以解決該問題,但是,將失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng)。
本發(fā)明就是為了解決這樣的問題而提案的,目的旨在提供即使是低位速率,品質(zhì)也良好的聲音編碼裝置和聲音譯碼裝置。
本發(fā)明的聲音編碼裝置是一種具有驅(qū)動(dòng)聲源編碼單元,增益編碼單元和頻譜包絡(luò)信息編碼單元,并將輸入聲音分為頻譜包絡(luò)信息和聲源,對(duì)每個(gè)稱為幀的指定長(zhǎng)區(qū)間進(jìn)行編碼的聲音編碼裝置,其特征在于頻譜包絡(luò)信息編碼單元對(duì)輸入聲音的頻譜包絡(luò)信息進(jìn)行編碼,驅(qū)動(dòng)聲源編碼單元包括分別具有聲源位置候選在幀內(nèi)的分布的偏移相互不同的聲源位置表,并參照頻譜包絡(luò)信息,按照從聲源位置表的聲源位置候選中選擇的聲源位置和極性,對(duì)輸入聲音的聲源進(jìn)行編碼的多個(gè)代數(shù)聲源編碼單元、從多個(gè)代數(shù)聲源編碼單元中選擇編碼畸變最小的代數(shù)聲源編碼單元,并輸出選擇信息和表示所選擇的代數(shù)聲源編碼單元輸出的聲源位置的代碼與極性的選擇單元,增益編碼單元根據(jù)上述驅(qū)動(dòng)聲源和頻譜包絡(luò)信息選擇增益代碼。
另外,本發(fā)明的聲音編碼裝置使上述多個(gè)代數(shù)聲源編碼單元的至少1個(gè)構(gòu)成為聲源位置表的聲源位置候選在當(dāng)前幀內(nèi)的分布的偏移更偏向于該幀的前部而分布。
另外,本發(fā)明的聲音編碼裝置使上述多個(gè)代數(shù)聲源編碼單元的至少1個(gè)構(gòu)成為聲源位置表的聲源位置候選在當(dāng)前幀內(nèi)的分布的偏移更偏向于當(dāng)前幀的后部而分布。
另外,本發(fā)明的聲音編碼裝置是一種具有驅(qū)動(dòng)聲源編碼單元、增益編碼單元和頻譜包絡(luò)信息編碼單元,并將輸入聲音分為頻譜包絡(luò)信息和聲源,對(duì)每個(gè)稱為幀的指定長(zhǎng)區(qū)間進(jìn)行編碼的聲音編碼裝置,其特征在于頻譜包絡(luò)信息編碼單元對(duì)輸入聲音的頻譜包絡(luò)信息進(jìn)行編碼,驅(qū)動(dòng)聲源編碼單元包括按照從聲源位置候選中選擇的聲源位置和極性,對(duì)輸入聲音的聲源進(jìn)行編碼的多個(gè)代數(shù)聲源編碼單元、從多個(gè)代數(shù)聲源編碼單元中選擇1個(gè)而輸出選擇信息和表示所選擇的代數(shù)聲源編碼單元輸出的聲源位置的代碼與極性的選擇單元,多個(gè)代數(shù)聲源編碼單元中的至少1個(gè)代數(shù)聲源編碼單元從幀開頭開始的很少的取樣范圍內(nèi),選擇1個(gè)以上的聲源位置,增益編碼單元根據(jù)上述驅(qū)動(dòng)聲源和頻譜包絡(luò)信息,選擇增益代碼。
另外,本發(fā)明的聲音編碼裝置是一種具有驅(qū)動(dòng)聲源編碼單元、增益編碼單元和頻譜包絡(luò)信息編碼單元,并將輸入聲音分為頻譜包絡(luò)信息和聲源,對(duì)每個(gè)稱為幀的指定長(zhǎng)區(qū)間進(jìn)行編碼的聲音編碼裝置,其特征在于頻譜包絡(luò)信息編碼單元對(duì)輸入聲音的頻譜包絡(luò)信息進(jìn)行編碼,驅(qū)動(dòng)聲源編碼單元包括按照從聲源位置候選中選擇的聲源位置和極性,對(duì)輸入聲音的聲源進(jìn)行編碼的多個(gè)代數(shù)聲源編碼單元、從多個(gè)代數(shù)聲源編碼單元中選擇1個(gè)而輸出選擇信息和表示所選擇的代數(shù)聲源編碼單元輸出的聲源位置的代碼與極性的選擇單元,多個(gè)代數(shù)聲源編碼單元將聲源位置候選相互不同的至少1個(gè)聲源位置候選中的對(duì)1個(gè)聲源的位置候選限定在從幀開頭開始的很少的取樣范圍內(nèi),增益編碼單元根據(jù)上述驅(qū)動(dòng)聲源和頻譜包絡(luò)信息,選擇增益代碼。
另外,本發(fā)明的聲音編碼裝置的特征在于上述選擇單元根據(jù)表示輸入聲音的特征的指定的參量,選擇代數(shù)聲源編碼單元。
另外,本發(fā)明的聲音編碼裝置的特征在于作為上述選擇單元的指定的參量,使用在上述選擇單元?jiǎng)幼饕郧暗玫降穆曇艟幋a裝置輸出的頻譜包絡(luò)信息,選擇單元只輸出表示聲源位置的代碼和極性。
另外,本發(fā)明的聲音編碼裝置是一種具有驅(qū)動(dòng)聲源編碼單元、增益編碼單元和頻譜包絡(luò)信息編碼單元,并將輸入聲音分為頻譜包絡(luò)信息和聲源,對(duì)每個(gè)稱為幀的指定長(zhǎng)區(qū)間進(jìn)行編碼的聲音編碼裝置,其特征在于頻譜包絡(luò)信息編碼單元對(duì)輸入聲音的頻譜包絡(luò)信息進(jìn)行編碼,驅(qū)動(dòng)聲源編碼單元是按照從聲源位置候選中選擇的聲源位置和極性,對(duì)聲源進(jìn)行編碼的代數(shù)聲源編碼單元,僅在表示輸入聲音特征的指定的參量滿足指定的條件時(shí),才對(duì)聲源位置的組合加以限制而進(jìn)行探索,增益編碼單元根據(jù)上述驅(qū)動(dòng)聲源和頻譜包絡(luò)信息,選擇增益代碼。
另外,本發(fā)明的聲音編碼裝置的特征在于作為上述聲源位置的組合的限制,采用將1個(gè)以上的聲源位置限定在從幀開頭開始的很少的取樣范圍內(nèi)。
另外,本發(fā)明的聲音編碼裝置的特征在于作為上述聲源位置的組合的限制,采用在將幀均等分割為脈沖個(gè)數(shù)的各分割區(qū)域中,一定各包含1個(gè)脈沖。
另外,本發(fā)明的聲音編碼裝置的特征在于上述指定取樣范圍只是幀開頭部分。
另外,本發(fā)明的聲音譯碼裝置是一種具有驅(qū)動(dòng)聲源譯碼單元、增益譯碼單元、頻譜包絡(luò)信息譯碼單元和合成濾波器,并按每個(gè)稱為幀的指定長(zhǎng)區(qū)間,對(duì)分為頻譜包絡(luò)信息和聲源進(jìn)行編碼的聲音代碼進(jìn)行譯碼的聲音譯碼裝置,其特征在于頻譜包絡(luò)信息譯碼單元根據(jù)聲源代碼,對(duì)頻譜包絡(luò)信息進(jìn)行譯碼,并設(shè)定合成濾波器的系數(shù),驅(qū)動(dòng)聲源譯碼單元包括分別具有聲源位置候選在幀內(nèi)分布的偏移相互不同的聲源位置表,并根據(jù)表示聲源代碼中的聲源位置的代碼,選擇聲源位置候選中的聲源位置,使用該聲源位置和上述極性,對(duì)聲源進(jìn)行譯碼的多個(gè)代數(shù)聲源譯碼單元、向多個(gè)代數(shù)聲源譯碼單元中的1個(gè)輸出表示聲音代碼中的聲源位置的代碼和極性的切換單元,增益譯碼單元輸出與增益代碼對(duì)應(yīng)的增益矢量,對(duì)聲源乘以增益矢量,合成濾波器使用由頻譜包絡(luò)信息譯碼單元設(shè)定的系數(shù),從乘以了增益矢量的聲源生成輸出聲音。
另外,本發(fā)明的聲音譯碼裝置的特征在于構(gòu)成為多個(gè)代數(shù)聲源譯碼單元所具有的多個(gè)聲源位置候選中的至少1個(gè)偏向于當(dāng)前幀的前部而分布。
另外,本發(fā)明的聲音譯碼裝置的特征在于構(gòu)成為多個(gè)代數(shù)聲源譯碼單元所具有的多個(gè)聲源位置候選中的至少1個(gè)偏向于當(dāng)前幀的后部而分布。
另外,本發(fā)明的聲音譯碼裝置是一種具有驅(qū)動(dòng)聲源譯碼單元、增益譯碼單元、頻譜包絡(luò)信息譯碼單元和合成濾波器,并按各稱為幀的指定長(zhǎng)區(qū)間,對(duì)分為頻譜包絡(luò)信息和聲源進(jìn)行編碼的聲音代碼進(jìn)行譯碼的聲音譯碼裝置,其特征在于頻譜包絡(luò)信息譯碼單元根據(jù)聲音代碼,對(duì)頻譜包絡(luò)信息進(jìn)行譯碼,并設(shè)定合成濾波器的系數(shù),驅(qū)動(dòng)聲源譯碼單元包括根據(jù)表示聲音代碼中的聲源位置的代碼,選擇聲源位置候選中的聲源位置,并使用該聲源位置和上述極性,對(duì)聲源進(jìn)行譯碼的多個(gè)代數(shù)聲源譯碼單元、向多個(gè)代數(shù)聲源譯碼單元中的1個(gè)輸出表示聲音代碼中的聲源位置的代碼和極性的切換單元,多個(gè)代數(shù)聲源譯碼單元將各個(gè)聲源位置候選相互不同的至少1個(gè)聲源位置候選中的對(duì)1個(gè)聲源的位置候選限定在從幀開頭開始的很少的指定取樣范圍內(nèi),增益譯碼單元輸出與增益代碼對(duì)應(yīng)的增益矢量,并對(duì)聲源乘以增益矢量,合成濾波器使用由頻譜包絡(luò)信息譯碼單元設(shè)定的系數(shù),從乘以了增益矢量的聲源生成輸出聲音。
另外,本發(fā)明的聲音譯碼裝置的特征在于采用上述聲源位置候選中對(duì)1個(gè)聲源的位置候選限定在從幀開頭開始的很少的指定取樣范圍內(nèi)的指定取樣范圍就只是幀開頭部分。
另外,本發(fā)明的聲音譯碼裝置的特征在于所接收的聲音代碼包含選擇信息,切換單元根據(jù)選擇信息,向多個(gè)代數(shù)聲源譯碼單元中的1個(gè)輸出表示聲音代碼中的聲源位置的代碼和極性。
另外,本發(fā)明的聲音譯碼裝置的特征在于切換單元根據(jù)所接收的聲音代碼或譯碼結(jié)果,求出選擇信息,根據(jù)該選擇信息,向多個(gè)代數(shù)聲源譯碼單元中的1個(gè)輸出表示聲音代碼中的聲源位置的代碼和極性。
圖1是本發(fā)明實(shí)施例1的聲音編碼裝置的驅(qū)動(dòng)聲源編碼單元的結(jié)構(gòu)圖。
圖2是本發(fā)明實(shí)施例1的聲音譯碼裝置的驅(qū)動(dòng)聲源譯碼單元的結(jié)構(gòu)圖。
圖3是實(shí)施例1使用的聲源位置表的說明圖。
圖4是實(shí)施例1的驅(qū)動(dòng)聲源編碼單元的輸出說明圖。
圖5是實(shí)施例2使用的聲源位置表的說明圖。
圖6是實(shí)施例2的驅(qū)動(dòng)聲源編碼單元的輸出說明圖。
圖7是本發(fā)明實(shí)施例3的聲音編碼裝置的驅(qū)動(dòng)聲源編碼單元的結(jié)構(gòu)圖。
圖8是本發(fā)明實(shí)施例3的聲音譯碼裝置的驅(qū)動(dòng)聲源譯碼單元的結(jié)構(gòu)圖。
圖9是實(shí)施例3使用的第2聲源位置表的說明圖。
圖10是實(shí)施例3的輸出聲音的說明圖。
圖11是本發(fā)明實(shí)施例4的聲音編碼裝置的驅(qū)動(dòng)聲源編碼單元的結(jié)構(gòu)圖。
圖12是第1帶限制的代數(shù)聲源編碼單元和第1聲源位置表部分的結(jié)構(gòu)圖。
圖13是實(shí)施例4的輸出聲音的說明圖。
圖14是實(shí)施例5的限制單元的說明圖。
圖15是現(xiàn)有的CELP系聲音編碼裝置的總體結(jié)構(gòu)圖。
圖16是現(xiàn)有的CELP系聲音譯碼裝置的總體結(jié)構(gòu)圖。
圖17是現(xiàn)有的在文獻(xiàn)1中使用的脈沖聲源的說明圖。
圖18是可以感覺到現(xiàn)有裝置的不連續(xù)感的輸出聲音的說明圖。
下面,參照
本發(fā)明的實(shí)施例。
實(shí)施例1.圖1表示本發(fā)明的聲音編碼裝置的驅(qū)動(dòng)聲源編碼單元5的結(jié)構(gòu)。聲音編碼裝置的總體結(jié)構(gòu)和圖15相同。圖中,16是第1代數(shù)聲源編碼單元、17是第1聲源位置表、18是第2代數(shù)聲源編碼單元、19是第2聲源位置表、20是選擇單元。
第1聲源位置表17在幀內(nèi)具有均等的位置分布,第2聲源位置表19則是位置分布在幀內(nèi)的前半部。
圖2表示本發(fā)明的聲音譯碼裝置的驅(qū)動(dòng)聲源譯碼單元12的結(jié)構(gòu)。聲音譯碼裝置的總體結(jié)構(gòu)和圖16相同。圖中,21是切換單元、22是第1代數(shù)聲源譯碼單元、23是第2代數(shù)聲源譯碼單元。
下面,根據(jù)圖說明其動(dòng)作。
首先,說明聲音編碼裝置。來自自適應(yīng)聲源編碼單元4的編碼對(duì)象信號(hào)和來自線性預(yù)測(cè)分析單元2的已編碼的線性預(yù)測(cè)系數(shù)輸入第1代數(shù)聲源編碼單元16和第2代數(shù)聲源編碼單元18。
在第1代數(shù)聲源編碼單元16中,順序讀出第1聲源位置表17存儲(chǔ)的聲源的位置候選,在各位置生成按適當(dāng)?shù)臉O性形成脈沖時(shí)的暫時(shí)的合成音,計(jì)算與編碼對(duì)象信號(hào)的距離,探索使該距離為最小的聲源位置和極性。并且,將最小的距離和表示這時(shí)的聲源位置的聲源位置代碼和極性向選擇單元20輸出。
在第2代數(shù)聲源編碼單元18中,順序讀出第2聲源位置表19存儲(chǔ)的聲源的位置候選,在各位置生成按適當(dāng)?shù)臉O性形成脈沖時(shí)的暫時(shí)的合成音,計(jì)算與編碼對(duì)象信號(hào)的距離,探索使該距離為最小的聲源位置和極性。并且,將最小的距離和表示這時(shí)的聲源位置的聲源位置代碼和極性向選擇單元20輸出。
這兩個(gè)代數(shù)聲源編碼單元的探索動(dòng)作和文獻(xiàn)1或特開平10—232696中記載的驅(qū)動(dòng)聲源編碼單元一樣。另外,如文獻(xiàn)3所示的那樣,在驅(qū)動(dòng)聲源的生成部的最后級(jí)導(dǎo)入了音調(diào)濾波器。即在各聲源位置對(duì)配置了脈沖或固定聲源的信號(hào)進(jìn)行音調(diào)濾波后作為聲源,生成與其對(duì)應(yīng)的暫時(shí)的合成音。并且,計(jì)算各聲源位置的暫時(shí)的合成音之間的相關(guān)關(guān)系和各聲源位置的暫時(shí)的合成音與編碼對(duì)象聲音的相關(guān)關(guān)系,使用這些相關(guān)關(guān)系,快速地進(jìn)行各位置的極性的決定和位置探索。結(jié)果,便可得到多個(gè)聲源位置和它們的極性。各聲源位置變換為與聲源位置表中的順序?qū)?yīng)的代碼,作為最終的聲源位置代碼而輸出。
圖3是表示聲源編碼的幀長(zhǎng)度為80點(diǎn)時(shí)使用的聲源位置表的一例的圖。分別具有4個(gè)聲源位置設(shè)定,代數(shù)聲源編碼單元從各聲源位置設(shè)定中逐個(gè)進(jìn)行選擇。圖3(a)是第1聲源位置表17的一例,圖3(b)是第2聲源位置表19的一例。該第1聲源位置表17分別是圖15所示的文獻(xiàn)1的聲源位置表的聲源位置的2倍。即每隔1個(gè)取樣設(shè)置聲源位置候選。與此相反,第2聲源位置表19則與圖15所示的文獻(xiàn)1的聲源位置表完全相同。結(jié)果,就僅將聲源幀的前半部的位置設(shè)定為聲源位置候選。即對(duì)聲源幀的后半部不設(shè)定聲源位置候選。
使用圖3所示的聲源位置表時(shí),在第1代數(shù)聲源編碼單元16中,限制每隔1個(gè)取樣的位置,但在整個(gè)幀內(nèi)可以均等地選擇4個(gè)聲源位置。在第2代數(shù)編碼單元18中,只能在幀前半部選擇聲源位置,但是,在音調(diào)周期小于40取樣時(shí),用4個(gè)位置信息就可以良好地表現(xiàn)包含幀內(nèi)最初的1音調(diào)周期的范圍的前半部的區(qū)間。
并且,選擇單元20將上述第1代數(shù)聲源編碼單元16輸出的最小距離和上述第2代數(shù)聲源編碼單元18輸出的最小的距離進(jìn)行比較,選擇輸出小的距離的代數(shù)聲源編碼單元,并輸出該選擇信息和所選擇的代數(shù)聲源編碼單元輸出的聲源位置代碼和極性。該聲源位置代碼和極性就成為驅(qū)動(dòng)聲源編碼單元5的輸出。
圖4是說明選擇單元20的選擇結(jié)果的說明圖。圖中,上部表示編碼對(duì)象聲音,下部表示作為驅(qū)動(dòng)聲源編碼單元5的編碼結(jié)果而得到的脈沖位置和極性。如果編碼對(duì)象聲音是穩(wěn)定的,如在文獻(xiàn)3中說明的那樣,將聲源位置集中在幀開頭的1音調(diào)周期內(nèi)的方式編碼畸變小,所以,選擇使用具有偏向于前分布的聲源位置候選的第2驅(qū)動(dòng)聲源編碼單元。另一方面,在編碼對(duì)象聲音變化大的區(qū)間中,就選擇使用適合于表現(xiàn)幀內(nèi)逐點(diǎn)微小的波形變化的均等分布的聲源位置候選的第1驅(qū)動(dòng)聲源編碼單元。
下面,說明聲音譯碼裝置的動(dòng)作。驅(qū)動(dòng)聲源譯碼單元12內(nèi)的切換單元21在輸入選擇信息、聲源位置代碼和極性時(shí),按照選擇信息,向第1代數(shù)聲源譯碼單元22和第2代數(shù)聲源譯碼單元23中的一方輸出上述聲源位置代碼和極性。
第1代數(shù)聲源譯碼單元22從第1聲源位置表17(和第1代數(shù)聲源編碼單元16的第1聲源位置表17相同)中讀出與聲源位置代碼對(duì)應(yīng)的聲源位置,并輸出對(duì)向該聲源位置配置賦予上述極性的脈沖或固定聲源的信號(hào)進(jìn)行音調(diào)濾波而得到的聲源。即使用圖3(a)所示的第1聲源位置表17時(shí),輸出向與3個(gè)聲源位置代碼對(duì)應(yīng)的3個(gè)位置分別配置脈沖或固定聲源,并進(jìn)行音調(diào)濾波后而得到的聲源。
第2代數(shù)聲源譯碼單元23從第2聲源位置表19(和第2代數(shù)聲源編碼單元18的第2聲源位置表19相同)中讀出與聲源位置代碼對(duì)應(yīng)的聲源位置,并輸出對(duì)向該聲源位置配置賦予上述極性的脈沖或固定聲源的信號(hào)進(jìn)行音調(diào)濾波而得到的聲源。即使用圖3(b)所示的第2聲源位置表19時(shí),輸出向與4個(gè)聲源位置代碼對(duì)應(yīng)的4個(gè)位置分別配置脈沖和固定聲源,并進(jìn)行音調(diào)濾波后而得到的聲源。
并且,由切換單元21將聲源位置代碼和極性輸入第1代數(shù)聲源譯碼單元22或第2代數(shù)聲源譯碼單元23的一方,所以,該輸入一方的代數(shù)聲源譯碼單元輸出的聲源就成為最終的驅(qū)動(dòng)聲源譯碼單元12的輸出。
在上述實(shí)施例中,是將音調(diào)濾波器導(dǎo)入驅(qū)動(dòng)聲源的生成部,但是,也可以采用將其僅導(dǎo)入驅(qū)動(dòng)聲源譯碼單元12,或驅(qū)動(dòng)聲源編碼單元5和驅(qū)動(dòng)聲源譯碼單元12都不導(dǎo)入的結(jié)構(gòu)。
另外,也可以通過切換開關(guān),將第1聲源位置表17和第2聲源位置表19與第1代數(shù)聲源編碼單元16連接,而省去第2代數(shù)聲源編碼單元18。同樣,也可以通過切換開關(guān),將第1聲源位置表17和第2聲源位置表19與第1代數(shù)聲源譯碼單元22連接,而省去第2代數(shù)聲源譯碼單元23。
另外,也可以將聲源位置表追加N—2個(gè)(N大于3),進(jìn)行N種代數(shù)聲源編碼,選擇單元20選擇其中可以得到最小距離的聲源位置表,并輸出選擇信息,切換單元21根據(jù)選擇信息,使用N種聲源位置表中的1個(gè)進(jìn)行代數(shù)聲源譯碼。
此外,也可以在第2聲源位置表19中,按音調(diào)周期,使用自適應(yīng)的聲源位置候選,進(jìn)一步獲得特性改善。
另外,也可以使用LSP等其他頻譜參量來取代線性預(yù)測(cè)系數(shù)。
另外,在子音部或聲音的上升區(qū)間等過渡部等的自適應(yīng)聲源的效率差的區(qū)間,去掉自適應(yīng)聲源編碼單元和自適應(yīng)聲源譯碼單元,僅用驅(qū)動(dòng)聲源和增益進(jìn)行編碼也是有效的。這時(shí),最好設(shè)置使用自適應(yīng)聲源的模式和不使用的模式,根據(jù)聲音的狀態(tài),選擇1個(gè)模式使用。另外,即使編碼信息量充分時(shí),也可以去掉自適應(yīng)聲源編碼單元和自適應(yīng)聲源譯碼單元,而僅用驅(qū)動(dòng)聲源和增益進(jìn)行編碼。
按照實(shí)施例1,具有使用幀內(nèi)的分布偏移相互不同的聲源位置候選的多個(gè)代數(shù)聲源編碼單元,并選擇編碼畸變最小的代數(shù)聲源編碼單元,所以,使用適合于輸入聲音的聲源位置候選進(jìn)行編碼,即使是低位速率,也可以提供品質(zhì)良好的聲音編碼裝置。
另外,按照實(shí)施例1,具有使用幀內(nèi)的分布偏移相互不同的聲源位置候選的多個(gè)代數(shù)聲源譯碼單元,根據(jù)選擇信息,使用其中的1個(gè),對(duì)聲源進(jìn)行譯碼,所以,使用最適合于輸入聲音而選擇的聲源位置候選進(jìn)行譯碼,即使是低位速率,也可以提供品質(zhì)良好的聲音譯碼裝置。
另外,由于使用了固定的聲源位置候選,所以,具有對(duì)通信線路的代碼傳輸錯(cuò)誤抑制仍維持一定程度下,能夠獲得特性改善的效果。即使在一部分導(dǎo)入自適應(yīng)的聲源位置候選時(shí),選擇使用其余的固定的聲源位置候選的代數(shù)聲源編碼時(shí),也可以在很大程度上忘卻傳輸錯(cuò)誤的影響,具有對(duì)通信線路的代碼傳輸錯(cuò)誤抑制仍維持一定程度下,能夠獲得特性改善的效果。
此外,上述多個(gè)聲源位置候選中的至少1個(gè)通過采用其分布偏向于當(dāng)前幀的前部的分布,在比較穩(wěn)定的母音部等,選擇使用偏向于該前部的分布的聲源位置候選的代數(shù)聲源編碼單元和代數(shù)聲源譯碼單元,可以良好地進(jìn)行編碼和譯碼(在文獻(xiàn)3中,說明了在驅(qū)動(dòng)聲源的生成部中包含音調(diào)濾波器時(shí),有容易選擇最初的1音調(diào)周期的區(qū)間的聲源位置的傾向),在使用偏向于該前部分布的聲源位置候選,不能良好地進(jìn)行編碼譯碼的幀中,選擇別的代數(shù)聲源編碼單元和代數(shù)聲源譯碼單元,可以進(jìn)行不是非常惡化的編碼和譯碼,所以,即使是低位速率,也可以提供品質(zhì)良好的聲音編碼裝置和聲音譯碼裝置。
與在幀內(nèi)均等地準(zhǔn)備聲源位置候選的現(xiàn)有結(jié)構(gòu)相比,通過使用偏向于幀的前部分布的聲源位置候選的代數(shù)聲源編碼單元,可以獲得平均的特性改善。并且,與將聲源位置候選集中在1音調(diào)周期的區(qū)間中的現(xiàn)有結(jié)構(gòu)相比,利用別的代數(shù)聲源編碼單元,也可以獲得能夠抑制上升部分等的品質(zhì)惡化的效果。這樣,便特別具有改善聽覺上的品質(zhì)的效果。
實(shí)施例2.圖5是表示聲源編碼的幀長(zhǎng)度為80點(diǎn)時(shí)使用的聲源位置表的其他一例的圖。
圖5(a)是第1聲源位置表17,圖5(b)是第2聲源位置表19。該第1聲源位置表17和圖3(a)一樣,分別為圖17所示的文獻(xiàn)1的聲源位置表的聲源位置的2倍。即每隔1個(gè)取樣設(shè)定聲源位置候選。與此相反,第2聲源位置表19則是在圖17所示的文獻(xiàn)1的聲源位置表的各位置值上加上40。結(jié)果,就僅將聲源幀的后半部的位置設(shè)定為聲源位置候選。即對(duì)聲源幀的前半部不設(shè)定聲源位置候選。
使用這些聲源位置表的驅(qū)動(dòng)聲源編碼單元5和驅(qū)動(dòng)聲源譯碼單元12的結(jié)構(gòu)與圖1和圖2所示的相同,各單元的動(dòng)作相同,所以,省略其說明。
使用圖5所示的聲源位置表時(shí),在第1代數(shù)聲源編碼單元16中,可以選擇4個(gè)限制在每隔1個(gè)取樣的位置,但在整個(gè)幀內(nèi)均等地分布的聲源位置。在第2代數(shù)聲源編碼單元18中,只能在幀后半部選擇聲源位置,但是,在聲音的上升區(qū)間等重要的信息僅集中在后半部時(shí),可以得到良好的編碼結(jié)果。
圖6是說明選擇單元20的選擇結(jié)果的說明圖。圖中,上部表示編碼對(duì)象聲音,下部表示作為驅(qū)動(dòng)聲源編碼單元5的編碼結(jié)果而得到的脈沖位置和極性。編碼對(duì)象聲音在聲音的上升區(qū)間等振幅集中在幀的后半部時(shí),選擇使用具有偏向于后部分布的聲源位置候選的第2驅(qū)動(dòng)聲源編碼單元。在除此以外的區(qū)間,選擇使用可以表現(xiàn)整個(gè)幀內(nèi)的均等分布的聲源位置候選的第1驅(qū)動(dòng)聲源編碼單元。
此外,也可以將聲源位置表追加N—2個(gè)(N大于3),進(jìn)行N種代數(shù)聲源編碼,選擇單元20選擇其中可以得到最小的距離的聲源位置表,并輸出選擇信息,切換單元21根據(jù)選擇信息使用N種聲源位置表中的1個(gè)進(jìn)行代數(shù)聲源譯碼。另外,也可以將使聲源位置集中在圖3(b)所示幀前半部的表作為第1聲源位置表使用。
另外,也可以和實(shí)施例1一樣,去掉自適應(yīng)聲源編碼單元和自適應(yīng)聲源譯碼單元,而僅用驅(qū)動(dòng)聲源和增益進(jìn)行編碼。
按照實(shí)施例2,具有使用幀內(nèi)的分布的偏移相互不同的聲源位置候選的多個(gè)代數(shù)聲源編碼單元,并選擇編碼畸變最小的代數(shù)聲源編碼單元,所以,和實(shí)施例1一樣,使用適合于輸入聲音的聲源位置候選進(jìn)行編碼,即使是低位速率,也可以提供品質(zhì)良好的聲音編碼裝置。
另外,按照實(shí)施例2,具有使用幀內(nèi)的分布的偏移相互不同的聲源位置候選的多個(gè)代數(shù)聲源譯碼單元,根據(jù)選擇信息,使用其中的1個(gè),對(duì)聲源進(jìn)行譯碼,所以,和實(shí)施例1一樣,使用選擇的最適合于輸入聲音的聲源位置候選進(jìn)行譯碼,即使是低位速率,也可以提供品質(zhì)良好的聲音譯碼裝置。
另外,由于使用固定的聲源位置候選,所以,具有對(duì)通信線路的代碼傳輸錯(cuò)誤抑制仍維持一定程度下,能夠獲得特性改善的效果。即使在一部分導(dǎo)入自適應(yīng)的聲源位置候選時(shí),選擇使用其余的固定的聲源位置候選的代數(shù)聲源編碼時(shí),也可以在很大程度上忘卻傳輸錯(cuò)誤的影響,具有對(duì)通信線路的代碼傳輸錯(cuò)誤抑制仍維持一定程度下,能夠獲得特性改善的效果。
此外,上述多個(gè)聲源位置候選中的至少1個(gè)其分布偏向于當(dāng)前幀的后部,在聲音的上升部分等選擇使用該偏向于后部分布的聲源位置候選的代數(shù)聲源編碼單元和代數(shù)聲源譯碼單元,可以良好地進(jìn)行編碼和譯碼,而在使用偏向于后部分布的聲源位置候選不能良好地進(jìn)行編碼譯碼的幀,選擇別的代數(shù)聲源編碼單元和代數(shù)聲源譯碼單元,可以進(jìn)行不是非常惡化的編碼譯碼,所以,即使是低位速率,也可以提供品質(zhì)良好的聲音編碼裝置和聲音譯碼裝置。
與在幀內(nèi)均等地準(zhǔn)備聲源位置候選的現(xiàn)有結(jié)構(gòu)相比,使用偏向于幀的后部分布的聲源位置候選的代數(shù)聲源編碼單元,可以獲得能夠抑制上升部分等的品質(zhì)惡化的效果。這樣,便特別具有改善聽覺上的品質(zhì)的效果。
實(shí)施例3.圖7表示本發(fā)明的聲音編碼裝置的驅(qū)動(dòng)聲源編碼單元5的結(jié)構(gòu)。聲音編碼裝置的總體結(jié)構(gòu)和圖15相同。圖中,16是第1代數(shù)聲源編碼單元,17是第1聲源位置表,18是第2代數(shù)聲源編碼單元,19是第2聲源位置表,24是判斷單元,25是選擇單元。
圖8表示本發(fā)明的聲音譯碼裝置的驅(qū)動(dòng)聲源譯碼單元12的結(jié)構(gòu)。聲音譯碼裝置的總體結(jié)構(gòu)和圖16相同,唯一不同的是線性預(yù)測(cè)系數(shù)譯碼單元10的輸出供給驅(qū)動(dòng)聲源譯碼單元5也供給驅(qū)動(dòng)聲源譯碼單元12。圖中,26是切換單元、22是第2代數(shù)聲源譯碼單元、23是第2代數(shù)聲源譯碼單元。
下面,根據(jù)
其動(dòng)作。
首先,在聲音編碼裝置中,編碼對(duì)象信號(hào)和已編碼的線性預(yù)測(cè)系數(shù)輸入判斷單元24和選擇單元25。
在判斷單元24中,分析已編碼的線性預(yù)測(cè)系數(shù),判斷當(dāng)前的幀是否具有摩擦聲音的特征,并將判斷結(jié)果向選擇單元25輸出。摩擦聲音的情況,多數(shù)是具有頻譜平坦或高頻傾斜的特征,另外,線性預(yù)測(cè)系數(shù)的預(yù)測(cè)增益小。因此,分析已編碼的線性預(yù)測(cè)系數(shù),在具有這兩者的特征時(shí),就判定當(dāng)前的幀是摩擦聲音的幀。
選擇單元25在上述判斷結(jié)果不是摩擦聲音的幀時(shí),就向第1代數(shù)聲源編碼單元16輸出編碼對(duì)象信號(hào)和已編碼的線性預(yù)測(cè)系數(shù)。在上述判斷結(jié)果是摩擦聲音的幀時(shí),就向第2代數(shù)聲源編碼單元18輸出編碼對(duì)象信號(hào)和已編碼的線性預(yù)測(cè)系數(shù)。
在第1代數(shù)聲源編碼單元16中,順序讀出第1聲源位置表17存儲(chǔ)的聲源的位置候選,在各位置生成按適當(dāng)?shù)臉O性形成脈沖時(shí)的暫時(shí)的合成音,計(jì)算與編碼對(duì)象信號(hào)的距離,探索使該距離為最小的聲源位置和極性。并且,輸出表示這時(shí)的聲源位置的聲源位置代碼和極性。
在第2代數(shù)聲源編碼單元18中,順序讀出第2聲源位置表19存儲(chǔ)的聲源的位置候選,在各位置生成按適當(dāng)?shù)臉O性形成脈沖時(shí)的暫時(shí)的合成音,計(jì)算與編碼對(duì)象信號(hào)的距離,探索使該距離為最小的聲源位置和極性。并且,輸出表示這時(shí)的聲源位置的聲源位置代碼和極性。
第1代數(shù)聲源編碼單元16或第2代數(shù)聲源編碼單元18輸出的聲源位置代碼和極性就成為驅(qū)動(dòng)聲源編碼單元5的輸出。
圖9是表示聲源編碼的幀長(zhǎng)度為80點(diǎn)時(shí)使用的第2聲源位置表19的一例的圖。對(duì)于第1聲源位置表,使用和圖3(a)相同的表。該第2聲源位置表19將聲源號(hào)碼1的脈沖位置候選限定在幀開頭。有效地靈活使用不需要傳送聲源號(hào)碼1的位置信息的信息位,增加1個(gè)聲源。
通過使用圖9所示的第2聲源位置表19,第2代數(shù)聲源編碼單元18總是輸出表示包含幀的開頭的聲源位置的5個(gè)聲源位置的代碼和極性。
在聲音譯碼裝置中,驅(qū)動(dòng)聲源譯碼單元12內(nèi)的判斷單元24的結(jié)構(gòu)和驅(qū)動(dòng)聲源編碼單元5內(nèi)的判斷單元相同,分析線性預(yù)測(cè)系數(shù)譯碼單元10輸出的線性預(yù)測(cè)系數(shù),判斷當(dāng)前的幀是否具有摩擦聲音的特征,并將判斷結(jié)果向切換單元26輸出。
切換單元26在輸入判斷單元24的判斷結(jié)果、聲源位置代碼和極性時(shí),根據(jù)判斷結(jié)果,向第1代數(shù)聲源譯碼單元22和第2代數(shù)聲源譯碼單元23中的一方輸出上述聲源位置代碼和極性。在判斷結(jié)果不是摩擦聲音的幀時(shí),就向第1代數(shù)聲源譯碼單元22輸出,在判斷結(jié)果是摩擦聲音的幀時(shí),就向第2代數(shù)聲源譯碼單元23輸出。
第1代數(shù)聲源譯碼單元22從第1聲源位置表17(和第1代數(shù)聲源編碼單元16的第1聲源位置表17相同)中讀出與聲源位置代碼對(duì)應(yīng)的聲源位置,輸出對(duì)向該聲源位置配置賦予上述極性的脈沖或固定聲源的信號(hào)進(jìn)行音調(diào)濾波而得到的聲源。即使用圖3(a)所示所第1聲源位置表17時(shí),輸出向與4個(gè)聲源位置代碼對(duì)應(yīng)的4個(gè)位置分別配置脈沖或固定聲源并進(jìn)行音調(diào)濾波而得到的聲源。
第2代數(shù)聲源譯碼單元23從第2聲源位置表19(和第2代數(shù)聲源編碼單元18的第2聲源位置表19相同)中讀出與聲源位置代碼對(duì)應(yīng)的聲源位置,輸出對(duì)向該聲源位置配置賦予上述極性的脈沖或固定聲源的信號(hào)進(jìn)行音調(diào)濾波而得到的聲源。即使用圖7所示的第2聲源位置表19時(shí),輸出向包含幀開頭的5個(gè)位置分別配置脈沖或固定聲源,并進(jìn)行音調(diào)濾波而得到的聲源。
并且,第1代數(shù)聲源譯碼單元22或第2代數(shù)譯碼單元23輸出的聲源就成為最終的驅(qū)動(dòng)聲源譯碼單元12的輸出。
圖10是使用從驅(qū)動(dòng)聲源譯碼單元12輸出的聲源而得到的輸出聲音15的一例。在判定為是摩擦聲音的幀中,由于一定將聲源配置到幀的開頭,所以,不會(huì)發(fā)生圖18所示的現(xiàn)有的那樣的低振幅區(qū)間。
在上述實(shí)施例中,是將音調(diào)濾波器導(dǎo)入驅(qū)動(dòng)聲源的生成部,但是,也可以采用將其僅導(dǎo)入驅(qū)動(dòng)聲源譯碼單元12,或驅(qū)動(dòng)聲源編碼單元5和驅(qū)動(dòng)聲源譯碼單元12都不導(dǎo)入的結(jié)構(gòu)。
另外,也可以通過切換開關(guān),將第1聲源位置表17和第2聲源位置表19與第1代數(shù)聲源編碼單元16連接,而省去第2代數(shù)聲源編碼單元18。同樣,也可以通過切換開關(guān)將第1聲源位置表17和第2聲源位置表19與第1代數(shù)聲源譯碼單元22連接,而省去第2代數(shù)聲源譯碼單元23。
另外,也可以將聲源位置表追加N—2個(gè)(N大于3),根據(jù)驅(qū)動(dòng)聲源編碼單元5內(nèi)的判斷單元24的判斷結(jié)果,進(jìn)行代數(shù)聲源編碼的選擇,并根據(jù)驅(qū)動(dòng)聲源譯碼單元12內(nèi)的判斷單元24的判斷結(jié)果,使用N種聲源位置表中的1個(gè),進(jìn)行代數(shù)聲源譯碼。
此外,作為由判斷單元24進(jìn)行分析的參量,除了已編碼的線性預(yù)測(cè)系數(shù)外,也可以使用功率信息等其他的編碼信息或者將它們組合。另外,也可以使用LSP等其他的頻譜參量來取代線性預(yù)測(cè)系數(shù)。
另外,毫無疑問,即使是摩擦聲音以外的聲音,例如是背景噪音等,將聲源配置在開頭附近的配置方式對(duì)于品質(zhì)變好的輸入,也可以設(shè)定為使用第2聲源位置表以便判斷單元24進(jìn)行判斷。
另外,和實(shí)施例1一樣,也可以去掉自適應(yīng)聲源編碼單元和自適應(yīng)聲源譯碼單元,而僅用驅(qū)動(dòng)聲源和增益進(jìn)行編碼。
按照實(shí)施例3,具有按照從幀內(nèi)的分布偏移相互不同的聲源位置候選中選擇的聲源位置和極性對(duì)聲源進(jìn)行編碼的多個(gè)代數(shù)聲源編碼單元,至少1個(gè)代數(shù)聲源編碼單元預(yù)先從幀開頭開始的很少的取樣范圍內(nèi)選擇1個(gè)以上的聲源位置,用以選擇該多個(gè)代數(shù)聲源編碼單元中的1個(gè),所以,可以使用適合于輸入聲音的聲源位置候選進(jìn)行編碼,即使是低位速率,也可以提供品質(zhì)良好的聲音編碼裝置。
特別是,通過將作為編碼結(jié)果而得到的聲源位置集中在幀的后部,在幀的前半部驅(qū)動(dòng)聲源形成低振幅的區(qū)間,從而可以解決像摩擦聲音等那樣在自適應(yīng)聲源的振幅小的區(qū)間聽到振幅的不連續(xù)感的問題。具有不失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng)而又可以解決問題的效果。
另外,按照實(shí)施例3,具有使用幀內(nèi)的分布偏移相互不同的聲源位置候選的多個(gè)代數(shù)聲源譯碼單元,至少1個(gè)代數(shù)聲源編碼單元預(yù)先從幀開頭開始的很少的取樣范圍內(nèi)選擇1個(gè)以上的聲源位置,使用該多個(gè)代數(shù)聲源譯碼單元中的1個(gè),對(duì)聲源進(jìn)行譯碼,所以,和實(shí)施例1一樣,可以使用最適合于輸入聲音而選擇的聲源位置候選進(jìn)行譯碼,即使是低位速率,也可以提供品質(zhì)良好的聲音譯碼裝置。
特別是,通過譯碼后的聲源位置集中在幀的后部,在幀的前半部,驅(qū)動(dòng)聲源形成低振幅的區(qū)間,從而可以解決像摩擦聲音等那樣在自適應(yīng)聲源的振幅小的區(qū)間聽到振幅的不連續(xù)感的問題。具有不失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng)而又可以解決問題的效果。
另外,通過將對(duì)各代數(shù)聲源編碼單元和各代數(shù)聲源譯碼單元使用的至少1各聲源位置候選中的1各聲源的位置候選限定在從幀開頭開始的很少的取樣范圍內(nèi),具有不完全失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng)而可以用簡(jiǎn)單的結(jié)構(gòu)實(shí)現(xiàn)解決上述不連續(xù)感的效果。
此外,通過根據(jù)表示輸入聲音的特征的指定的參量(線性預(yù)測(cè)系數(shù)等),進(jìn)行代數(shù)聲源編碼單元的選擇、根據(jù)表示輸入聲音的特征的指定的參量(線性預(yù)測(cè)系數(shù)等)或從聲音編碼裝置輸入的選擇信息,進(jìn)行代數(shù)聲源譯碼單元的選擇,具有判斷像摩擦聲音那樣容易發(fā)生不連續(xù)感的幀而將除此以外的幀的品質(zhì)惡化抑制到最小,從而可以實(shí)現(xiàn)解決上述不連續(xù)感的效果。
另外,作為指定的參量,通過使用以前得到的已編碼的線性預(yù)測(cè)系數(shù)等聲音編碼裝置的輸出,不傳送選擇信息,就可以實(shí)現(xiàn),所以,不會(huì)導(dǎo)致傳送信息量的增加,從而可以提供仍然以低位速率,解決不連續(xù)感的品質(zhì)良好的聲音編碼裝置。
另外,通過將上述指定取樣范圍僅取在幀開頭,可以最大限度地抑制幀開頭發(fā)生低振幅區(qū)間。
實(shí)施例4.圖11表示本發(fā)明的聲音編碼裝置的驅(qū)動(dòng)聲源編碼單元5的結(jié)構(gòu),總體結(jié)構(gòu)和圖15相同。圖中,27是第1代數(shù)聲源編碼單元、17是第1聲源位置表、28是第2代數(shù)聲源編碼單元、19是第2聲源位置表、24是判斷單元、20是選擇單元。
下面,根據(jù)圖說明其動(dòng)作。
首先,編碼對(duì)象信號(hào)和已編碼的線性預(yù)測(cè)系數(shù)輸入判斷單元24、第1帶限制的代數(shù)聲源編碼單元27和第2帶限制的代數(shù)聲源編碼單元28。
在判斷單元24中,分析已編碼的線性預(yù)測(cè)系數(shù),判斷當(dāng)前的幀是否具有摩擦聲音的特征,并將判斷結(jié)果向第1帶限制的代數(shù)聲源編碼單元27和第2帶限制的代數(shù)聲源編碼單元28輸出。
該判斷單元的判斷方法可以使用和實(shí)施例3相同的方法。即摩擦聲音的情況,多數(shù)是頻譜具有平坦或高頻傾斜的特征,并且線性預(yù)測(cè)系數(shù)的預(yù)測(cè)增益小。因此,分析已編碼的線性預(yù)測(cè)系數(shù),在具有這兩者的特征時(shí),就判定當(dāng)前的幀是摩擦聲音的幀。
此外,作為在判斷單元24中進(jìn)行分析的參量,除了已編碼的線性預(yù)測(cè)系數(shù)外,也可以使用功率信息等其他的編碼信息或者將它們組合。另外,也可以使用LSP等其他的頻譜參量來取代線性預(yù)測(cè)系數(shù)。
在第1帶限制的代數(shù)聲源編碼單元27中,在上述判斷單元24的判斷結(jié)果不是摩擦聲音的幀時(shí),就順序讀出第1聲源位置表17存儲(chǔ)的聲源的位置候選,在各位置生成按適當(dāng)?shù)臉O性形成脈沖時(shí)的暫時(shí)的合成音,計(jì)算與編碼對(duì)象信號(hào)的距離,探索使該距離為最小的聲源位置和極性。并且,將最小的距離和表示這時(shí)的聲源位置的聲源位置代碼和極性向選擇單元20輸出。
在上述判斷結(jié)果是摩擦聲音的幀時(shí),就從第1聲源位置表17存儲(chǔ)的聲源的位置候選的組合中順序讀出1個(gè)以上的聲源位置僅位于從幀開頭開始的N個(gè)取樣范圍內(nèi)的聲源的位置候選,在各位置生成按適當(dāng)?shù)臉O性形成脈沖時(shí)的暫時(shí)的合成音,計(jì)算與編碼對(duì)象信號(hào)的距離,探索使該距離為最小的聲源位置和極性。并且,就最小的距離和表示這時(shí)的聲源位置的聲源位置代碼和極性向選擇單元20輸出。N的值設(shè)定為對(duì)解決不連續(xù)聲音有效的小的值(約數(shù)個(gè)取樣)。
在第2帶限制的代數(shù)聲源編碼單元28中,在上述判斷結(jié)果不是摩擦聲音的幀時(shí),就順序讀出第2聲源位置表19存儲(chǔ)的聲源的位置候選,在各位置生成按適當(dāng)?shù)臉O性形成脈沖時(shí)的暫時(shí)的合成音,計(jì)算與編碼對(duì)象信號(hào)的距離,探索使該距離為最小的聲源位置和極性。并且,將最小的距離和表示這時(shí)的聲源位置的聲源位置代碼和極性向選擇單元20輸出。
在上述判斷結(jié)果是摩擦聲音的幀時(shí),就從第2聲源位置表19存儲(chǔ)的聲源的位置候選的組合中順序讀出1個(gè)以上的聲源位置位于從幀開頭開始的N個(gè)取樣范圍內(nèi)的聲源的位置候選,在各位置生成按適當(dāng)?shù)臉O性形成脈沖時(shí)的暫時(shí)的合成音,計(jì)算與編碼對(duì)象信號(hào)的距離,探索使該距離為最小的聲源位置和極性。并且,將最小的距離和表示這時(shí)的聲源位置的聲源位置代碼和極性向選擇單元20輸出。
并且,選擇單元20將上述第1帶限制的代數(shù)聲源編碼單元27輸出的最小的距離與上述第2帶限制的代數(shù)聲源編碼單元28輸出的最小的距離進(jìn)行比較,選擇輸出小的距離的帶限制的代數(shù)聲源編碼單元,并輸出該選擇信息和所選擇的帶限制的代數(shù)聲源編碼單元輸出的聲源位置代碼和極性。該聲源位置代碼和極性就成為驅(qū)動(dòng)聲源編碼單元5的輸出。
圖12是說明第1帶限制的代數(shù)聲源編碼單元27和第1聲源位置表17的部分的詳細(xì)結(jié)構(gòu)的圖。圖中,16是具有和實(shí)施例1相同結(jié)構(gòu)的第1代數(shù)聲源編碼單元、29是限制單元。
編碼對(duì)象信號(hào)和已編碼的線性預(yù)測(cè)系數(shù)輸入第1代數(shù)聲源編碼單元16。另外,判斷單元24輸出的判斷結(jié)果輸入限制單元29。
從第1聲源位置表17向第1帶限制的代數(shù)聲源編碼單元27內(nèi)的限制單元29順序輸出聲源的位置候選的組合。限制單元29在上述判斷結(jié)果是摩擦聲音的幀時(shí),將1個(gè)以上的聲源位置僅位于從幀開頭開始的N個(gè)取樣范圍內(nèi)的聲源位置候選的組合順序向第1代數(shù)聲源編碼單元16輸出。限制單元29在上述判斷結(jié)果不是摩擦聲音的幀時(shí),將輸入的聲源的位置候選的組合全部順序向第1代數(shù)聲源編碼單元16輸出。
并且,在第1代數(shù)聲源編碼單元16中,根據(jù)從限制單元29輸入的聲源的位置候選的各組合,在各位置生成按適當(dāng)?shù)臉O性形成脈沖時(shí)的暫時(shí)的合成音,計(jì)算與編碼對(duì)象信號(hào)的距離,探索使該距離為最小的聲源位置和極性。并且,將最小的距離和表示這時(shí)的聲源位置的聲源位置代碼和極性向選擇單元20輸出。
第2帶限制的代數(shù)聲源編碼單元28也是同樣的結(jié)構(gòu)。
與驅(qū)動(dòng)聲源編碼單元5對(duì)應(yīng)的譯碼處理可以使用和在實(shí)施例1中用圖2說明的驅(qū)動(dòng)聲源譯碼單元12相同的譯碼處理。
圖13是使用驅(qū)動(dòng)聲源編碼單元5時(shí)最終得到的輸出聲音15的一例。在判定為是摩擦聲音的幀中,由于一定將聲源配置在從幀的開頭開始的N個(gè)取樣內(nèi),所以,在很大程度上不會(huì)發(fā)生圖18所示的現(xiàn)有的那樣的低振幅區(qū)間。
另外,也可以通過切換開關(guān),將第1聲源位置表17和第2聲源位置表19與第1帶限制的代數(shù)聲源編碼單元27連接,而省去第2帶限制的代數(shù)聲源編碼單元28。
另外,也可以將聲源位置表追加N—2個(gè)(N大于3),進(jìn)行N種帶限制的代數(shù)聲源編碼,選擇單元20選擇其中可以得到最小距離的聲源位置表,并輸出選擇信息,切換單元21根據(jù)選擇信息使用N種聲源位置表中的1個(gè),進(jìn)行代數(shù)聲源譯碼。
另外,也可以和實(shí)施例1一樣,去掉自適應(yīng)聲源編碼單元和自適應(yīng)聲源譯碼單元,而僅用驅(qū)動(dòng)聲源和增益進(jìn)行編碼。
另外,即使像現(xiàn)有結(jié)構(gòu)那樣代數(shù)聲源探索單元是1個(gè)時(shí),也可以將其作為上述帶限制的代數(shù)聲源編碼單元。
按照實(shí)施例4,由于僅在表示輸入聲音的特征的指定的參量滿足指定的條件時(shí),才對(duì)聲源位置的組合加以限制,進(jìn)行探索,所以,作為編碼結(jié)果而得到的聲源位置通過集中在幀的一部分區(qū)域等,使驅(qū)動(dòng)聲源的振幅變化增大,可以解決像摩擦聲音等那樣在自適應(yīng)聲源的振幅小的區(qū)間聽到振幅的不連續(xù)感的問題。從而具有不失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng)而可以解決問題的效果。
特別是,作為聲源位置的組合的限制,是從幀開頭的很少的取樣范圍內(nèi)選擇1個(gè)以上的聲源位置,所以,通過將作為編碼結(jié)果而得到的聲源位置集中在幀的后部,在幀的前半部,驅(qū)動(dòng)聲源形成低振幅的區(qū)間,可以解決像摩擦聲音等那樣在自適應(yīng)聲源的振幅小的區(qū)間聽到振幅的不連續(xù)感的問題。從而具有不失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng)而可以解決問題的效果。
此外,通過根據(jù)表示輸入聲音的特征的指定的參量(線性預(yù)測(cè)系數(shù)等),進(jìn)行代數(shù)聲源編碼單元的選擇和根據(jù)表示輸入聲音的特征的指定的參量(線性預(yù)測(cè)系數(shù)等)或從聲音編碼裝置輸入的選擇信息,進(jìn)行代數(shù)聲源譯碼單元的選擇,判斷像摩擦聲音那樣容易發(fā)生不連續(xù)感的幀,并將除此以外的幀的品質(zhì)惡化抑制到最小,從而可以解決上述并連續(xù)感的問題。
另外,作為指定的參量,通過使用以前得到的已編碼的線性預(yù)測(cè)系數(shù)等聲音編碼裝置的輸出,不傳送選擇信息,就可以實(shí)現(xiàn),所以,不會(huì)導(dǎo)致傳送信息量的增加,從而可以提供仍然以低位速率,解決不連續(xù)感的品質(zhì)良好的聲音編碼裝置。
實(shí)施例5.在上述實(shí)施例4中,由限制單元29將1個(gè)以上的聲源位置限制為僅位于從幀開頭開始的N個(gè)取樣范圍內(nèi),但是,也可以將幀均等分割為脈沖個(gè)數(shù),并限制為各分割中一定各包含1個(gè)脈沖的組合。作為這時(shí)使用的聲源位置表,不是圖3(b)或圖5(b)那樣的分布的偏移,而必須是圖3(a)那樣的在幀內(nèi)均等地分布的的情況。
圖14是說明該一例的說明圖。作為聲源位置表,使用和圖3(a)相同的表。整個(gè)幀是從位置0到79的范圍。將其用脈沖數(shù)4均等分割時(shí),如圖所示,就分割為從0到19、從20到39、從40到59、從60到79。參照聲源位置表,從聲源號(hào)碼1的位置候選中選擇位置50、從聲源號(hào)碼2的位置候選中選擇位置32、從聲源號(hào)碼3的候選中選擇位置4、從聲源號(hào)碼4的位置候選中選擇位置68時(shí),就成為圖14所示的4個(gè)聲源位置,4個(gè)各分割中各配置1各聲源位置。像這樣,從各分割中一定各包含1個(gè)脈沖的組合中,對(duì)1個(gè)進(jìn)行探索。
按照實(shí)施例5,僅在表示輸入聲音的特征的指定的參量滿足指定的條件時(shí),才對(duì)聲源位置的組合加以限制而進(jìn)行探索,所以,通過將作為編碼結(jié)果而得到的聲源位置集中在幀的一部分區(qū)域等,驅(qū)動(dòng)聲源的振幅變化增大,從而可以解決像摩擦聲音那樣在自適應(yīng)聲源的振幅小的區(qū)間聽到振幅的不連續(xù)感的問題。具有不失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng)而可以解決問題的效果。
特別是利用聲源位置的組合的限制,聲源分散地配置在幀內(nèi),所以,在整個(gè)幀內(nèi)可以解決像摩擦聲音等那樣在自適應(yīng)聲源的振幅小在區(qū)間聽到振幅的不連續(xù)感的問題。從而具有不失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng)而可以解決問題的效果。
按照本發(fā)明的聲音編碼裝置,具有使用幀內(nèi)的分布的偏移相互不同的聲源位置候選的多個(gè)代數(shù)聲源編碼單元,并選擇編碼畸變最小的代數(shù)聲源編碼單元,所以,具有使用適合于輸入聲音的聲源位置候選進(jìn)行編碼、即使是低位速率,也可以提供品質(zhì)良好的聲音編碼裝置。
另外,由于使用固定的聲源位置候選,所以,具有對(duì)通信線路的代碼傳輸錯(cuò)誤抑制仍維持一定程度下,獲得特性改善的效果。即使在將自適應(yīng)的聲源位置導(dǎo)入一部分區(qū)域時(shí),選擇使用其余的固定的聲源位置后補(bǔ)的代數(shù)聲源編碼時(shí),也可在很大程度上忘卻傳輸錯(cuò)誤的影響,具有對(duì)通信線路的代碼傳輸錯(cuò)誤抑制仍維持一定程度下,能夠獲得特性改善的效果。
另外,按照本發(fā)明的聲音編碼裝置或聲音譯碼裝置,通過使上述多個(gè)聲源位置候選內(nèi)的至少1個(gè)分布偏向于當(dāng)前幀的前部,可以用比較穩(wěn)定的母音部等選擇使用該偏向于前部分布的聲源位置候選的代數(shù)聲源編碼單元和代數(shù)聲源譯碼單元,良好地進(jìn)行編碼和譯碼,在使用該偏向于前部分布的聲源位置候選,不能良好地進(jìn)行編碼譯碼的幀中,選擇其他的代數(shù)聲源編碼單元和代數(shù)聲源譯碼單元,可以進(jìn)行不是非常惡化的編碼和譯碼,所以,即使是低位速率,也可以提供品質(zhì)良好的聲音編碼裝置和聲音譯碼裝置。
與在幀均等地準(zhǔn)備聲源位置候選的現(xiàn)有結(jié)構(gòu)相比,利用使用偏向于幀的前部分布的聲源位置候選的代數(shù)聲源編碼單元,可以獲得平均的特性改善。并且,與將聲源位置候選集中在1音調(diào)周期的區(qū)間的現(xiàn)有結(jié)構(gòu)相比,利用其他的代數(shù)聲源編碼單元,也可以獲得能夠抑制在上升部分等的品質(zhì)惡化的效果。這樣,便特別具有改善聽覺上的品質(zhì)的效果。
另外,按照本發(fā)明的聲音編碼裝置或聲音譯碼裝置,通過使上述多個(gè)聲源位置候選中的至少1個(gè)分布偏向于當(dāng)前幀的后部,在聲音的上升部分等,選擇使用偏向于后部分布的聲源位置候選的代數(shù)聲源編碼單元和代數(shù)聲源譯碼單元,可以良好地進(jìn)行編碼和譯碼,在使用偏向于后部分布的聲源位置候選,不能良好地進(jìn)行編碼譯碼的幀中,選擇其他的代數(shù)聲源編碼單元和代數(shù)聲源譯碼單元,可以進(jìn)行不是非常惡化的編碼和譯碼,所以,即使是低位速率,也可以提供品質(zhì)良好的聲音編碼裝置和聲音譯碼裝置。
與在幀內(nèi)均等地準(zhǔn)備聲源位置候選的現(xiàn)有結(jié)構(gòu)相比,利用使用偏向于幀的后部分布的聲源位置候選的代數(shù)聲源編碼單元,可以獲得能夠抑制在上升部分等的品質(zhì)惡化的效果。這樣,便具有改善聽覺上的品質(zhì)的效果。
另外,按照本發(fā)明的聲音編碼裝置,具有按照從幀內(nèi)的分布偏移相互不同的聲源位置候選中選擇的聲源位置和極性,對(duì)聲源進(jìn)行編碼的多個(gè)代數(shù)聲源編碼單元,至少1個(gè)代數(shù)聲源編碼單元預(yù)先從幀開頭開始的很少的取樣范圍內(nèi)選擇1個(gè)以上的聲源位置,用以選擇該多個(gè)代數(shù)聲源編碼單元中的1個(gè),所以,可以使用適合于輸入聲音的聲源位置候選進(jìn)行編碼,即使是低位速率,也可以提供品質(zhì)良好的聲音編碼裝置。
另外,按照本發(fā)明的聲音編碼裝置,通過將各代數(shù)聲源編碼單元使用的至少1個(gè)聲源位置候選中的對(duì)1個(gè)聲源的位置候選限定在從幀開頭開始的很少的取樣范圍內(nèi),可以不失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng),用簡(jiǎn)單的結(jié)構(gòu)實(shí)現(xiàn)消除上述不連續(xù)感。
另外,按照本發(fā)明的聲音編碼裝置和聲音譯碼裝置,通過根據(jù)表示輸入聲音的特征的頻譜包絡(luò)信息,進(jìn)行代數(shù)聲源編碼單元的選擇、根據(jù)表示輸入聲音的特征的頻譜包絡(luò)信息或從聲音編碼裝置輸入的選擇信息,進(jìn)行代數(shù)聲源譯碼單元的選擇,可以判斷像摩擦聲音那樣容易發(fā)生不連續(xù)感的幀,從而可以將除此以外的幀的品質(zhì)惡化抑制到最小,實(shí)現(xiàn)消除上述不連續(xù)感。
另外,按照本發(fā)明的聲音編碼裝置,作為頻譜包絡(luò)信息,通過使用以前得到的已編碼的線性預(yù)測(cè)系數(shù)等聲音編碼裝置的輸出,不傳送選擇信息,就可以實(shí)現(xiàn),所以,不會(huì)導(dǎo)致傳送信息量的增加,從而可以提供仍然以低位速率,消除不連續(xù)感的品質(zhì)良好的聲音編碼裝置。
按照本發(fā)明的聲音編碼裝置,僅在表示輸入聲音的特征的指定的參量滿足指定的條件時(shí),才對(duì)聲源位置的組合加以限制,進(jìn)行探索,所以,通過將作為編碼結(jié)果而得到的聲源位置集中在幀的一部分區(qū)域等,驅(qū)動(dòng)聲源的振幅變化增大,從而可以解決像摩擦聲音等那樣在自適應(yīng)聲源的振幅小的區(qū)間中聽到不連續(xù)感的問題。具有不失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng)而可以解決問題的效果。
按照本發(fā)明的語音編碼裝置,作為聲源位置的組合的限制,從幀開頭開始的少的取樣范圍內(nèi),選擇1個(gè)以上的聲源位置,所以,通過將作為編碼結(jié)果而得到的聲源位置集中在幀的后部,在幀的前半部驅(qū)動(dòng)聲源形成低振幅的區(qū)間,具有能夠消除如摩擦聲音等那樣在自適應(yīng)聲源振幅小的區(qū)間聽到振幅的不連續(xù)感的問題的效果。從而具有不失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的優(yōu)點(diǎn)而可以解決問題的效果。
按照本發(fā)明的聲音編碼裝置,利用聲源位置的組合的限制,將聲源分散地配置在幀內(nèi),所以,在整個(gè)幀內(nèi)可以解決像摩擦聲音等那樣在自適應(yīng)聲源的振幅小的區(qū)間聽到振幅的不連續(xù)感的問題。從而具有不失去存儲(chǔ)量和運(yùn)算量少的代數(shù)聲源的特長(zhǎng)而可以解決問題的效果。
另外,按照本發(fā)明的聲音編碼裝置,通過將上述指定取樣范圍取在幀開頭,可以最良好地抑制幀開頭發(fā)生低振幅區(qū)間。
另外,按照本發(fā)明的聲音譯碼裝置,具有使用幀內(nèi)的分布的偏移相互不同的聲源位置候選的多個(gè)代數(shù)聲源譯碼單元,根據(jù)選擇信息,使用其中的1個(gè),對(duì)聲源進(jìn)行譯碼,所以,使用最適合于輸入聲音而選擇的聲源位置候選進(jìn)行譯碼,即使是低位速率,也可以提供品質(zhì)良好的聲音譯碼裝置。
另外,由于使用固定的聲源位置候選,所以,具有對(duì)通信線路的代碼傳輸錯(cuò)誤抑制仍維持一定程度下,能夠獲得特性改善的效果。即使在將自適應(yīng)的聲源位置候選導(dǎo)入一部分區(qū)域時(shí),選擇使用其余的固定的聲源位置候選的代數(shù)聲源編碼單元時(shí),也可以在很大程度上忘卻傳輸錯(cuò)誤的影響,具有對(duì)通信線路的代碼傳輸錯(cuò)誤抑制仍維持一定程度下,能夠獲得特性改善的效果。
另外,按照本發(fā)明的聲音譯碼裝置,具有使用幀內(nèi)的分布的偏移相互不同的聲源位置候選的多個(gè)代數(shù)聲源譯碼單元,至少1個(gè)代數(shù)聲源譯碼單元預(yù)先從幀開頭開始的很少的取樣范圍內(nèi)選擇1個(gè)以上的聲源位置,使用該多個(gè)代數(shù)聲源譯碼單元中的1個(gè),對(duì)聲源進(jìn)行譯碼,所以,可以使用最適合于輸入聲音而選擇的聲源位置候選進(jìn)行譯碼,即使是低位速率,也可以提供品質(zhì)良好的聲音譯碼裝置。
權(quán)利要求
1.一種具有驅(qū)動(dòng)聲源編碼單元、增益編碼單元和頻譜包絡(luò)信息編碼單元,并將輸入聲音分為頻譜包絡(luò)信息和聲源,對(duì)每個(gè)稱為幀的指定長(zhǎng)區(qū)間進(jìn)行編碼的聲音編碼裝置,其特征在于頻譜包絡(luò)信息編碼單元對(duì)輸入聲音的頻譜包絡(luò)信息進(jìn)行編碼;驅(qū)動(dòng)聲源編碼單元包括分別具有聲源位置候選在幀內(nèi)的分布的偏移相互不同的聲源位置表,并參照頻譜包絡(luò)信息,按照從聲源位置表的聲源位置候選中選擇的聲源位置和極性,對(duì)輸入聲音的聲源進(jìn)行編碼的多個(gè)代數(shù)聲源編碼單元、從多個(gè)代數(shù)聲源編碼單元中選擇編碼畸變最小的代數(shù)聲源編碼單元,并輸出選擇信息和表示所選擇的代數(shù)聲源編碼單元輸出的聲源位置的代碼與極性的選擇單元;增益編碼單元根據(jù)上述驅(qū)動(dòng)聲源和頻譜包絡(luò)信息,選擇增益代碼。
2.按權(quán)利要求1所述的聲音編碼裝置,其特征在于上述多個(gè)代數(shù)聲源編碼單元中的至少1個(gè)使聲源位置表的聲源位置候選在當(dāng)前幀內(nèi)的分布的偏移偏向于該幀的前部而分布。
3.按權(quán)利要求1所述的聲音編碼裝置,其特征在于上述多個(gè)代數(shù)聲源編碼單元中的至少1個(gè)使聲源位置表的聲源位置候選在當(dāng)前幀內(nèi)的分布偏移偏向于當(dāng)前幀的后部而分布。
4.一種具有驅(qū)動(dòng)聲源編碼單元、增益編碼單元和頻譜包絡(luò)信息編碼單元,并將輸入聲音分為頻譜包絡(luò)信息和聲源,對(duì)每個(gè)稱為幀的指定長(zhǎng)區(qū)間進(jìn)行編碼的聲音編碼裝置,其特征在于頻譜包絡(luò)信息編碼單元對(duì)輸入聲音的頻譜包絡(luò)信息進(jìn)行編碼;驅(qū)動(dòng)聲源編碼單元包括按照從聲源位置候選中選擇的聲源位置和極性,對(duì)輸入聲音的聲源進(jìn)行編碼的多個(gè)代數(shù)聲源編碼單元和從多個(gè)代數(shù)聲源編碼單元中選擇1個(gè)而輸出選擇信息和表示所選擇的代數(shù)聲源編碼單元輸出的聲源位置的代碼與極性的選擇單元,多個(gè)代數(shù)聲源編碼單元中的至少1個(gè)代數(shù)聲源編碼單元從幀開頭開始的很少的取樣范圍內(nèi),選擇1個(gè)以上的聲源位置;增益編碼單元根據(jù)上述驅(qū)動(dòng)聲源和頻譜包絡(luò)信息,選擇增益代碼。
5.一種具有驅(qū)動(dòng)聲源編碼單元、增益編碼單元和頻譜包絡(luò)信息編碼單元,并將輸入聲音分為頻譜包絡(luò)信息和聲源,對(duì)每個(gè)稱為幀的指定長(zhǎng)區(qū)間進(jìn)行編碼的聲音編碼裝置,其特征在于頻譜包絡(luò)信息編碼單元對(duì)輸入聲音的頻譜包絡(luò)信息進(jìn)行編碼;驅(qū)動(dòng)聲源編碼單元包括按照從聲源位置候選中選擇的聲源位置和極性,對(duì)輸入聲音的聲源進(jìn)行編碼的多個(gè)代數(shù)聲源編碼單元和從多個(gè)代數(shù)聲源編碼單元中選擇1個(gè)而輸出選擇信息和表示所選擇的代數(shù)聲源編碼單元輸出的聲源位置的代碼與極性的選擇單元,多個(gè)代數(shù)聲源編碼單元將聲源位置候選相互不同的至少1個(gè)聲源位置候選中的對(duì)1個(gè)聲源的位置候選限定在從幀開頭開始的很少的取樣范圍內(nèi);增益編碼單元根據(jù)上述驅(qū)動(dòng)聲源和頻譜包絡(luò)信息,選擇增益代碼。
6.按權(quán)利要求4所述的聲音編碼裝置,其特征在于上述選擇單元根據(jù)表示輸入聲音的特征的指定的參量,選擇代數(shù)聲源編碼單元。
7.按權(quán)利要求5所述的聲音編碼裝置,其特征在于上述選擇單元根據(jù)表示輸入聲音的特征的指定的參量,選擇代數(shù)聲源編碼單元。
8.一種具有驅(qū)動(dòng)聲源編碼單元、增益編碼單元和頻譜包絡(luò)信息編碼單元,并將輸入聲音分為頻譜包絡(luò)信息和聲源,對(duì)每個(gè)稱為幀的指定長(zhǎng)區(qū)間進(jìn)行編碼的聲音編碼裝置,其特征在于頻譜包絡(luò)信息編碼單元對(duì)輸入聲音的頻譜包絡(luò)信息進(jìn)行編碼;驅(qū)動(dòng)聲源編碼單元是按照從聲源位置候選中選擇的聲源位置和極性,對(duì)驅(qū)動(dòng)聲源進(jìn)行編碼的代數(shù)聲源編碼單元,僅在表示輸入聲音特征的指定的參量滿足指定的條件時(shí),才對(duì)聲源位置的組合加以限制,進(jìn)行探索;增益編碼單元根據(jù)上述驅(qū)動(dòng)聲源和頻譜包絡(luò)信息,選擇增益代碼。
9.按權(quán)利要求8所述的聲音編碼裝置,其特征在于作為上述聲源位置的組合的限制,采用將1個(gè)以上所聲源位置限定在從幀開頭開始的很少的取樣范圍內(nèi)。
10.按權(quán)利要求8所述的聲音編碼裝置,其特征在于作為上述聲源位置的組合的限制,采用在將幀均等分割為脈沖個(gè)數(shù)時(shí)的各分割中,一定各包含1個(gè)脈沖。
11.一種具有驅(qū)動(dòng)聲源譯碼單元、增益譯碼單元、頻譜包絡(luò)信息譯碼單元和合成濾波器,并按每個(gè)稱為幀的指定長(zhǎng)區(qū)間,對(duì)分為頻譜包絡(luò)信息和聲源進(jìn)行編碼的聲音代碼進(jìn)行譯碼的聲音譯碼裝置,其特征在于頻譜包絡(luò)信息譯碼單元根據(jù)聲源代碼,對(duì)頻譜包絡(luò)信息進(jìn)行譯碼,并設(shè)定合成濾波器的系數(shù);驅(qū)動(dòng)聲源譯碼單元包括分別具有聲源位置候選在幀內(nèi)分布的偏移相互不同的聲源位置,并根據(jù)表示聲源代碼中的聲源位置的代碼,選擇聲源位置候選中的聲源位置,使用該聲源位置和上述極性,對(duì)聲源進(jìn)行譯碼的多個(gè)代數(shù)聲源譯碼單元和向多個(gè)代數(shù)聲源譯碼單元中的1個(gè)輸出表示聲音代碼中的聲源位置的代碼和極性的切換單元;增益譯碼單元輸出與增益代碼對(duì)應(yīng)的增益矢量,對(duì)聲源乘以增益矢量;合成濾波器使用由頻譜包絡(luò)信息譯碼單元設(shè)定的系數(shù),從乘以了增益矢量的聲源生成輸出聲音。
12.按權(quán)利要求11所述的聲音譯碼裝置,其特征在于多個(gè)代數(shù)聲源譯碼單元具有的多個(gè)聲源位置候選中的至少1個(gè)偏向于當(dāng)前幀的前部而分布。
13.按權(quán)利要求11所述的聲音譯碼裝置,其特征在于多個(gè)代數(shù)聲源譯碼單元具有的多個(gè)聲源位置候選中的至少1個(gè)偏向于當(dāng)前幀的后部而分布。
14.一種具有驅(qū)動(dòng)聲源譯碼單元、增益譯碼單元、頻譜包絡(luò)信息譯碼單元和合成濾波器,并按各稱為幀的指定長(zhǎng)區(qū)間,對(duì)分為頻譜包絡(luò)信息和聲源進(jìn)行編碼的聲音代碼進(jìn)行譯碼的聲音譯碼裝置,其特征在于頻譜包絡(luò)信息譯碼單元根據(jù)聲音代碼,對(duì)頻譜包絡(luò)信息進(jìn)行譯碼,并設(shè)定合成濾波器的系數(shù);驅(qū)動(dòng)聲源譯碼單元包括根據(jù)表示聲音代碼中的聲源位置的代碼,選擇聲源位置候選中的聲源位置,并使用該聲源位置和上述極性,對(duì)聲源進(jìn)行譯碼的多個(gè)代數(shù)聲源譯碼單元和向多個(gè)代數(shù)聲源譯碼單元中的1個(gè)輸出表示聲音代碼中的聲源位置的代碼和極性的切換單元,多個(gè)代數(shù)聲源譯碼單元將各個(gè)聲源位置候選相互不同的至少1個(gè)聲源位置候選中的對(duì)1個(gè)聲源的位置候選限定在從幀開頭開始的很少的指定取樣范圍內(nèi);增益譯碼單元輸出與增益代碼對(duì)應(yīng)的增益矢量,并對(duì)聲源乘以增益矢量;合成濾波器使用由頻譜包絡(luò)信息譯碼單元設(shè)定的系數(shù),從乘以增益矢量的聲源生成輸出聲音。
全文摘要
現(xiàn)有的驅(qū)動(dòng)聲源編碼·譯碼單元會(huì)導(dǎo)致急劇的特性惡化。本發(fā)明的驅(qū)動(dòng)聲源編碼·譯碼單元分別具有聲源位置候選在幀內(nèi)的分布的偏移相互不同的聲源位置表,并具有參照頻譜包絡(luò)信息,按照聲源位置和極性,對(duì)聲源進(jìn)行編碼的多個(gè)代數(shù)聲源編碼·譯碼單元和從多個(gè)代數(shù)聲源編碼·譯碼單元中選擇編碼畸變最小的代數(shù)聲源編碼·譯碼單元,并輸出代碼和極性的選擇單元。
文檔編號(hào)G10L19/10GK1287347SQ0012167
公開日2001年3月14日 申請(qǐng)日期2000年7月21日 優(yōu)先權(quán)日1999年9月7日
發(fā)明者田崎裕久, 山浦正 申請(qǐng)人:三菱電機(jī)株式會(huì)社