語(yǔ)音編碼裝置及語(yǔ)音編碼方法

文檔序號(hào)：2829175閱讀：225來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：語(yǔ)音編碼裝置及語(yǔ)音編碼方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音編碼裝置以及語(yǔ)音編碼方法，特別涉及用于在有聲區(qū)間和無(wú)聲區(qū)間傳輸不同格式類(lèi)型的編碼數(shù)據(jù)的語(yǔ)音編碼裝置以及語(yǔ)音編碼方法。
背景技術(shù)：
在IP(Internet Protocol，因特網(wǎng)協(xié)議)網(wǎng)絡(luò)上的語(yǔ)音數(shù)據(jù)通信中，有時(shí)在有聲區(qū)間和無(wú)聲區(qū)間傳輸不同格式類(lèi)型的編碼數(shù)據(jù)。有聲是指包含語(yǔ)音信號(hào)為規(guī)定電平以上的語(yǔ)音分量的情況。無(wú)聲是指不包含語(yǔ)音信號(hào)為規(guī)定電平以上的語(yǔ)音分量的情況。在語(yǔ)音信號(hào)僅包含與語(yǔ)音分量不同的噪聲分量的情況下，該語(yǔ)音信號(hào)被識(shí)別為無(wú)聲。這樣的傳輸技術(shù)之一有被稱(chēng)作DTX控制的技術(shù)(例如，參照非專(zhuān)利文獻(xiàn)1以及非專(zhuān)利文獻(xiàn)2)。
例如圖1所示的語(yǔ)音編碼裝置10通過(guò)伴隨DTX控制的模式進(jìn)行語(yǔ)音編碼的情況下，有聲無(wú)聲判定部分11對(duì)于以規(guī)定長(zhǎng)度的區(qū)間(相當(dāng)于幀長(zhǎng))單位劃分的語(yǔ)音信號(hào)對(duì)每個(gè)該區(qū)間進(jìn)行有聲還是無(wú)聲的判定。然后，在判定為有聲的情況下即有聲區(qū)間的情況下，由語(yǔ)音編碼部分12生成的編碼數(shù)據(jù)作為有聲幀通過(guò)DTX控制部分13輸出。此時(shí)，有聲幀與用于通知有聲幀的傳輸?shù)膸?lèi)型信息被一同輸出。例如圖2(A)所示，有聲幀具有由Nv位的信息構(gòu)成的格式。
另一方面，在判定為無(wú)聲的情況下即無(wú)聲區(qū)間的情況下，由舒適噪聲編碼部分14進(jìn)行無(wú)聲幀編碼。無(wú)聲幀編碼是用于在解碼端得到模擬無(wú)聲區(qū)間中的周?chē)肼暤男盘?hào)的編碼，是以少于有聲區(qū)間的信息量即位數(shù)進(jìn)行的編碼。通過(guò)無(wú)聲幀編碼生成的編碼數(shù)據(jù)在連續(xù)的無(wú)聲區(qū)間中，以一定的周期作為所謂SID(Silence Descriptor，靜音描述)幀通過(guò)DTX控制部分13輸出。此時(shí)，SID幀與用于通知SID幀的傳輸?shù)膸?lèi)型信息一同被輸出。此外，例如圖2(B)所示，SID幀具有由Nuv位(Nuv＜Nv)的信息構(gòu)成的格式。
此外，在無(wú)聲區(qū)間中，除了傳輸SID幀不進(jìn)行編碼信息的傳輸。換言之，省略了無(wú)聲幀的傳輸。但是，通過(guò)DTX控制部分13僅輸出用于通知無(wú)聲幀的傳輸?shù)膸?lèi)型信息。這樣，在DTX控制中，由于實(shí)行控制而進(jìn)行不連續(xù)的傳輸，所以在無(wú)聲區(qū)間中減少了由傳輸路徑傳送的信息量或在解碼端解碼的信息量。
而通過(guò)不伴隨DTX控制的模式進(jìn)行語(yǔ)音編碼的情況下，語(yǔ)音信號(hào)一直作為有聲的信號(hào)被處理，其結(jié)果，一直連續(xù)地進(jìn)行編碼數(shù)據(jù)的傳輸。從而，在具有DTX控制功能的以往的語(yǔ)音編碼裝置中，在將語(yǔ)音編碼的模式預(yù)先設(shè)定為伴隨DTX控制的模式(有DTX控制)或不伴隨DTX控制的模式(無(wú)DTX控制)的其中一個(gè)之后，進(jìn)行語(yǔ)音編碼。
非專(zhuān)利文獻(xiàn)1”Mandatory speech CODEC speech processing functions；AMRspeech CODEC；General description”，3rd Generation Partnership Project，TS26.071非專(zhuān)利文獻(xiàn)2”Mandatory speech codec speech processing functions AdaptiveMultiRate(AMR)speech codec；Source controlled rate operation”，3rd GenerationPartnership Project，TS26.09
發(fā)明內(nèi)容發(fā)明需要解決的問(wèn)題但是，在上述以往的語(yǔ)音編碼裝置中，有DTX控制和無(wú)DTX控制所輸出的編碼數(shù)據(jù)序列會(huì)產(chǎn)生不同。例如，通過(guò)無(wú)DTX控制模式構(gòu)成編碼數(shù)據(jù)的編碼數(shù)據(jù)的格式為第1類(lèi)型。而通過(guò)有DTX控制模式，實(shí)際傳輸?shù)木幋a數(shù)據(jù)的格式為第2類(lèi)型，但實(shí)際存在的格式為第3類(lèi)型。基于這樣的不同，在編碼端進(jìn)行DTX控制的情況下，需要在解碼端通過(guò)與有DTX控制的語(yǔ)音編碼對(duì)應(yīng)的模式進(jìn)行語(yǔ)音解碼；而在編碼端不進(jìn)行DTX控制的情況下，需要通過(guò)與無(wú)DTX控制的語(yǔ)音編碼對(duì)應(yīng)的模式進(jìn)行語(yǔ)音解碼。換言之，在解碼端設(shè)定的語(yǔ)音解碼模式限制于在編碼端設(shè)定的語(yǔ)音編碼的模式，因此解碼端不能自由選擇語(yǔ)音解碼的模式。
即，將通過(guò)無(wú)DTX控制的模式生成的編碼數(shù)據(jù)傳輸給對(duì)應(yīng)DTX控制的語(yǔ)音解碼裝置時(shí)，即使某一編碼數(shù)據(jù)的原來(lái)的語(yǔ)音信號(hào)為無(wú)聲，在網(wǎng)絡(luò)上，也不能減少在無(wú)聲區(qū)間解碼的信息量，即不能提高傳輸效率，而且該語(yǔ)音解碼裝置也不能減輕處理負(fù)載。另一方面，將通過(guò)有DTX控制的模式生成的編碼數(shù)據(jù)傳輸給對(duì)應(yīng)DTX控制的語(yǔ)音解碼裝置時(shí)，語(yǔ)音解碼裝置中的服務(wù)(例如，通過(guò)將全區(qū)間作為有聲進(jìn)行解碼而得到的高質(zhì)量接收模式)的選擇的自由度被限制。
此外，將通過(guò)有DTX控制的模式得到的編碼數(shù)據(jù)傳輸給未對(duì)應(yīng)DTX控制的語(yǔ)音解碼裝置時(shí)，該語(yǔ)音解碼裝置不能對(duì)接收到的編碼數(shù)據(jù)進(jìn)行解碼。
從而，例如，語(yǔ)音編碼裝置在對(duì)包含對(duì)應(yīng)DTX控制的和未對(duì)應(yīng)DTX控制的多個(gè)語(yǔ)音解碼裝置進(jìn)行組播的情況下，無(wú)論通過(guò)有DTX控制的模式進(jìn)行語(yǔ)音編碼，還是通過(guò)無(wú)DTX控制的模式進(jìn)行語(yǔ)音編碼，都會(huì)產(chǎn)生上述問(wèn)題之一。
本發(fā)明的目的在于，提供一種語(yǔ)音編碼裝置以及語(yǔ)音編碼方法，能夠在解碼端自由地選擇與伴隨語(yǔ)音編碼而使用的控制方式所對(duì)應(yīng)的語(yǔ)音解碼的模式，同時(shí)生成即使解碼端未對(duì)應(yīng)該控制方式也能夠解碼的數(shù)據(jù)。
解決該問(wèn)題的方案本發(fā)明的語(yǔ)音編碼裝置采用以下結(jié)構(gòu)，即輸出與包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第一編碼數(shù)據(jù)和與不包含所述語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第二編碼數(shù)據(jù)，該語(yǔ)音編碼裝置具有編碼部件，以規(guī)定區(qū)間單位將輸入語(yǔ)音信號(hào)編碼并生成編碼數(shù)據(jù)；判定部件，對(duì)每個(gè)所述規(guī)定區(qū)間判定所述輸入語(yǔ)音信號(hào)是否包含所述語(yǔ)音分量；以及合成部件，僅對(duì)所述編碼數(shù)據(jù)中通過(guò)被判定為不包含所述語(yǔ)音分量的無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的合成，從而取得所述第一編碼數(shù)據(jù)和所述第二編碼數(shù)據(jù)。
本發(fā)明的語(yǔ)音解碼裝置采用以下結(jié)構(gòu)，即具有第一解碼部件，對(duì)合成了噪聲數(shù)據(jù)的編碼數(shù)據(jù)進(jìn)行解碼而生成第一解碼語(yǔ)音信號(hào)；第二解碼部件，僅對(duì)所述噪聲數(shù)據(jù)進(jìn)行解碼而生成第二解碼語(yǔ)音信號(hào)；以及選擇部件，選擇所述第一解碼語(yǔ)音信號(hào)以及所述第二解碼語(yǔ)音信號(hào)的其中一個(gè)。
本發(fā)明的語(yǔ)音編碼方法輸出與包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第一編碼數(shù)據(jù)和與不包含所述語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第二編碼數(shù)據(jù)，該語(yǔ)音編碼方法具有編碼步驟，以規(guī)定區(qū)間單位將輸入語(yǔ)音信號(hào)編碼并生成編碼數(shù)據(jù)；判定步驟，對(duì)每個(gè)所述規(guī)定區(qū)間判定所述輸入語(yǔ)音信號(hào)是否包含所述語(yǔ)音分量；以及合成步驟，僅對(duì)所述編碼數(shù)據(jù)中通過(guò)被判定為不包含所述語(yǔ)音分量的無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的合成，從而取得所述第一編碼數(shù)據(jù)和所述第二編碼數(shù)據(jù)。
本發(fā)明的語(yǔ)音解碼方法具有第一解碼步驟，對(duì)合成了噪聲數(shù)據(jù)的編碼數(shù)據(jù)進(jìn)行解碼而生成第一解碼語(yǔ)音信號(hào)；第二解碼步驟，僅對(duì)所述噪聲數(shù)據(jù)進(jìn)行解碼而生成第二解碼語(yǔ)音信號(hào)；以及選擇步驟，選擇所述第一解碼語(yǔ)音信號(hào)以及所述第二解碼語(yǔ)音信號(hào)的其中一個(gè)。
根據(jù)本發(fā)明，能夠在解碼端自由地選擇與伴隨語(yǔ)音編碼而使用的控制方式所對(duì)應(yīng)的語(yǔ)音解碼的模式，同時(shí)生成即使解碼端未對(duì)應(yīng)該控制方式也能夠解碼的數(shù)據(jù)。

圖1是表示以往的語(yǔ)音編碼裝置的結(jié)構(gòu)的一例的方框圖。
圖2是表示以往的有聲幀的結(jié)構(gòu)的一例以及以往的所謂SID幀的結(jié)構(gòu)的一例的圖。
圖3是表示本發(fā)明的實(shí)施方式1的語(yǔ)音編碼裝置的結(jié)構(gòu)的方框圖。
圖4A是表示本發(fā)明的實(shí)施方式1的語(yǔ)音解碼裝置的結(jié)構(gòu)的一例的方框圖。
圖4B是表示本發(fā)明的實(shí)施方式1的語(yǔ)音解碼裝置的結(jié)構(gòu)的另一例的方框圖。
圖5是表示本發(fā)明的實(shí)施方式1的格式類(lèi)型的例子的圖。
圖6是表示本發(fā)明的實(shí)施方式1的格式類(lèi)型的變化例的圖。
圖7是表示本發(fā)明的實(shí)施方式2的語(yǔ)音編碼裝置的結(jié)構(gòu)的方框圖。
圖8是表示本發(fā)明的實(shí)施方式2的語(yǔ)音編碼部分的結(jié)構(gòu)的方框圖。
圖9是表示本發(fā)明的實(shí)施方式2的第一編碼候補(bǔ)生成部分的結(jié)構(gòu)的方框圖。
圖10是本發(fā)明的實(shí)施方式2的第一編碼候補(bǔ)生成部分的動(dòng)作說(shuō)明圖。
圖11A是表示本發(fā)明的實(shí)施方式3的可伸縮(scalable)編碼裝置的結(jié)構(gòu)的方框圖。
圖11B是表示本發(fā)明的實(shí)施方式3的可伸縮解碼裝置的結(jié)構(gòu)的方框圖。
具體實(shí)施例方式
以下，使用附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式。
(實(shí)施方式1)
圖3是表示本發(fā)明的實(shí)施方式1的語(yǔ)音編碼裝置的結(jié)構(gòu)的方框圖。此外，圖4A是表示本發(fā)明的實(shí)施方式的語(yǔ)音解碼裝置的結(jié)構(gòu)的一例的方框圖。圖4B是表示本發(fā)明的實(shí)施方式的語(yǔ)音解碼裝置的結(jié)構(gòu)的另一例的方框圖。
首先，說(shuō)明圖3所示的語(yǔ)音編碼裝置100的結(jié)構(gòu)。語(yǔ)音編碼裝置100具有語(yǔ)音編碼部分102、位嵌入部分104、有聲無(wú)聲判定部分106、幀類(lèi)型判定部分108以及無(wú)聲參數(shù)分析/編碼部分110。
語(yǔ)音編碼部分102以規(guī)定長(zhǎng)度的區(qū)間(幀)單位對(duì)輸入語(yǔ)音信號(hào)進(jìn)行編碼，生成由多個(gè)(例如，Nv)位的編碼比特串構(gòu)成的編碼數(shù)據(jù)。語(yǔ)音編碼部分102通過(guò)配置在編碼時(shí)得到的Nv位的編碼比特串而生成編碼數(shù)據(jù)，以使生成的編碼數(shù)據(jù)的格式一直相同。此外，編碼數(shù)據(jù)的位數(shù)被預(yù)先決定。
有聲無(wú)聲判定部分106對(duì)每個(gè)所述區(qū)間判定輸入語(yǔ)音信號(hào)是否包含語(yǔ)音分量，將表示該判定結(jié)果的有聲無(wú)聲判定標(biāo)記輸出到幀類(lèi)型判定部分108以及無(wú)聲參數(shù)分析/編碼部分110。
幀類(lèi)型判定部分108使用輸入的有聲無(wú)聲判定標(biāo)記將由語(yǔ)音編碼部分102生成的編碼數(shù)據(jù)決定為三種幀類(lèi)型，即(a)有聲幀，(b)無(wú)聲幀(有嵌入)，(c)無(wú)聲幀(無(wú)嵌入)的其中一個(gè)。
更具體的說(shuō)，在有聲無(wú)聲判定標(biāo)記表示有聲的情況下，決定為(a)有聲幀。此外，在有聲無(wú)聲判定標(biāo)記表示無(wú)聲的情況下，決定為(b)無(wú)聲幀(有嵌入)或(c)無(wú)聲幀(無(wú)嵌入)。
進(jìn)而，在表示無(wú)聲的有聲無(wú)聲判定標(biāo)記連續(xù)的情況下，換言之，無(wú)聲區(qū)間連續(xù)的情況下，僅將每一定周期的幀(編碼數(shù)據(jù))決定為(b)無(wú)聲幀(有嵌入)，將除此以外決定為(c)無(wú)聲幀(無(wú)嵌入)。或者，在表示無(wú)聲的有聲無(wú)聲判定標(biāo)記連續(xù)的情況下，僅將輸入語(yǔ)音信號(hào)的信號(hào)特性發(fā)生變換時(shí)決定為(b)無(wú)聲幀(有嵌入)，將除此以外決定為(c)無(wú)聲幀(無(wú)嵌入)。這樣，能夠減輕位嵌入部分104的嵌入處理負(fù)載。決定的結(jié)果作為幀類(lèi)型信息被輸出。幀類(lèi)型信息是用于通知給無(wú)聲參數(shù)分析/編碼部分110以及位嵌入部分104的信息，并且也是與編碼數(shù)據(jù)一同傳輸?shù)男畔ⅰ?br> 在輸入語(yǔ)音信號(hào)由有聲無(wú)聲判定部分106判定為無(wú)聲的情況下，即無(wú)聲區(qū)間的情況下，無(wú)聲參數(shù)分析/編碼部分110生成作為模擬噪聲數(shù)據(jù)的無(wú)聲參數(shù)編碼數(shù)據(jù)。
更具體地說(shuō)，將在連續(xù)的無(wú)聲區(qū)間中對(duì)輸入語(yǔ)音信號(hào)的信號(hào)特性進(jìn)行平均化而得到的信息作為無(wú)聲參數(shù)。作為無(wú)聲參數(shù)中包含的信息，例如，可以舉出通過(guò)LPC(Linear Predictive Coding，線(xiàn)性預(yù)測(cè)編碼)分析得到的頻譜形狀信息、語(yǔ)音信號(hào)的能量、LPC頻譜合成中的驅(qū)動(dòng)音源信號(hào)的增益信息等。無(wú)聲參數(shù)分析/編碼部分110以少于有聲區(qū)間的輸入語(yǔ)音信號(hào)的位數(shù)(例如，Nuv位)編碼無(wú)聲參數(shù)而生成無(wú)聲參數(shù)編碼數(shù)據(jù)。換言之，無(wú)聲參數(shù)編碼數(shù)據(jù)的位數(shù)少于由語(yǔ)音編碼部分102編碼的輸入語(yǔ)音信號(hào)的位數(shù)(Nuv＜Nv)。在從幀類(lèi)型判定部分108輸出的幀類(lèi)型信息表示為無(wú)聲幀(有嵌入)的情況下，輸出生成的無(wú)聲參數(shù)編碼數(shù)據(jù)。
在從幀類(lèi)型判定部分108輸出的幀類(lèi)型信息表示有聲幀或無(wú)聲幀(無(wú)嵌入)的情況下，位嵌入部分104將從語(yǔ)音編碼部分102輸出的編碼幀原封不動(dòng)地輸出。從而，如圖5(A)所示，在該情況下輸出的編碼數(shù)據(jù)的格式與由語(yǔ)音編碼部分102生成的編碼數(shù)據(jù)的格式相同。
另一方面，在從幀類(lèi)型判定部分108輸出的幀類(lèi)型信息表示無(wú)聲幀(有嵌入)的情況下，位嵌入部分104在從語(yǔ)音編碼部分102輸出的編碼數(shù)據(jù)中嵌入從無(wú)聲參數(shù)分析/編碼部分110輸出的無(wú)聲參數(shù)編碼數(shù)據(jù)。然后，輸出嵌入了無(wú)聲參數(shù)編碼數(shù)據(jù)的編碼數(shù)據(jù)。從而，如圖5(B)所示，在該情況下輸出的編碼數(shù)據(jù)具有在由語(yǔ)音編碼部分102生成的編碼數(shù)據(jù)內(nèi)的規(guī)定位置嵌入了無(wú)聲參數(shù)編碼數(shù)據(jù)的格式類(lèi)型。
這樣，由于在編碼數(shù)據(jù)中嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)，不改變編碼數(shù)據(jù)的幀大小就能夠進(jìn)行編碼數(shù)據(jù)的傳輸。進(jìn)而，由于在編碼數(shù)據(jù)的規(guī)定位置嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)，因此能夠簡(jiǎn)化嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)時(shí)的控制處理。
更具體的說(shuō)，位嵌入部分104用由Nuv位構(gòu)成的無(wú)聲參數(shù)編碼數(shù)據(jù)置換配置在編碼數(shù)據(jù)的Nv位中規(guī)定位置上的Nuv位。這樣，可以傳輸無(wú)聲參數(shù)編碼數(shù)據(jù)來(lái)代替通過(guò)編碼得到的編碼數(shù)據(jù)的一部分位。此外，由于用無(wú)聲參數(shù)編碼數(shù)據(jù)置換由Nv位構(gòu)成的編碼數(shù)據(jù)的一部分，因此能夠傳輸編碼數(shù)據(jù)的剩余的位以及無(wú)聲參數(shù)編碼數(shù)據(jù)的二者。
或者，位嵌入部分104用由Nuv位構(gòu)成的無(wú)聲參數(shù)編碼數(shù)據(jù)覆寫(xiě)編碼數(shù)據(jù)的Nv位中配置在規(guī)定位置上的Nuv位。這樣，刪除通過(guò)編碼而得到的編碼數(shù)據(jù)的一部分位，從而能夠傳輸無(wú)聲參數(shù)編碼數(shù)據(jù)。此外，由于用無(wú)聲參數(shù)編碼數(shù)據(jù)覆寫(xiě)由Nv位構(gòu)成的編碼數(shù)據(jù)的一部分，因此能夠傳輸編碼數(shù)據(jù)的剩余的位以及無(wú)聲參數(shù)編碼數(shù)據(jù)的二者。
在即使進(jìn)行位的置換或覆寫(xiě)，也對(duì)解碼語(yǔ)音信號(hào)的質(zhì)量帶來(lái)的影響也低的情況下，以及編碼時(shí)得到的編碼比特串中存在重要度低的位的情況下等，該處理格外有效。
此外，在本實(shí)施方式中，說(shuō)明了通過(guò)進(jìn)行在編碼時(shí)得到的位的置換或覆寫(xiě)來(lái)嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)的情況。但是，代替嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)，如圖6所示，也可以在編碼時(shí)得到的Nv位的比特串的后端附加Nuv位的無(wú)聲參數(shù)編碼數(shù)據(jù)。換言之，位嵌入部分104通過(guò)進(jìn)行無(wú)聲參數(shù)編碼數(shù)據(jù)的嵌入或附加，從而合成無(wú)聲參數(shù)編碼數(shù)據(jù)和編碼數(shù)據(jù)。由此，進(jìn)行幀格式切換控制以取得在進(jìn)行該合成的情況和不進(jìn)行的情況下具有不同類(lèi)型的格式的編碼數(shù)據(jù)。這樣，雖然在無(wú)聲參數(shù)編碼數(shù)據(jù)被合成和不被合成為編碼數(shù)據(jù)的情況下，幀格式的類(lèi)型不同，但基本的幀結(jié)構(gòu)不變，所以能夠傳輸編碼數(shù)據(jù)序列。
此外，在附加無(wú)聲參數(shù)編碼數(shù)據(jù)的情況下，由于編碼數(shù)據(jù)的幀大小發(fā)生變化，所以?xún)?yōu)選的是將有關(guān)幀大小的信息與編碼數(shù)據(jù)一同以任意的形式來(lái)傳輸。
此外，在本實(shí)施方式中，說(shuō)明了將無(wú)聲參數(shù)編碼數(shù)據(jù)嵌入編碼數(shù)據(jù)的規(guī)定位置的情況。但是，無(wú)聲參數(shù)編碼數(shù)據(jù)的嵌入方法不限定于上述方法。例如，位嵌入部分104也可以在每次進(jìn)行嵌入時(shí)自適應(yīng)地決定無(wú)聲參數(shù)編碼數(shù)據(jù)被嵌入的位置。在該情況下，可以根據(jù)各位的靈敏度或重要度等，自適應(yīng)地改變成為置換對(duì)象的位的位置或成為覆寫(xiě)對(duì)象的位的位置。
接著，說(shuō)明圖4A以及圖4B所示的語(yǔ)音解碼裝置150a、150b的結(jié)構(gòu)。語(yǔ)音解碼裝置150a的結(jié)構(gòu)為不具有對(duì)應(yīng)語(yǔ)音編碼裝置100的幀格式的切換控制的功能，但語(yǔ)音解碼裝置150b的結(jié)構(gòu)為具有該功能。
圖4A所示的語(yǔ)音解碼裝置150a具有語(yǔ)音解碼部分152。
語(yǔ)音解碼部分152接收從語(yǔ)音編碼裝置100經(jīng)由傳輸路徑傳輸?shù)木幋a數(shù)據(jù)。此外，對(duì)接收編碼數(shù)據(jù)以幀為單位進(jìn)行解碼。更具體的說(shuō)，通過(guò)對(duì)構(gòu)成接收編碼數(shù)據(jù)的編碼數(shù)據(jù)進(jìn)行解碼，從而生成解碼語(yǔ)音信號(hào)。接收編碼數(shù)據(jù)中含有根據(jù)合成無(wú)聲參數(shù)編碼數(shù)據(jù)與否而改變格式的編碼數(shù)據(jù)。但是，由于連續(xù)地傳輸基本的幀結(jié)構(gòu)不發(fā)生變化的編碼數(shù)據(jù)，所以未對(duì)應(yīng)幀格式切換功能的語(yǔ)音解碼裝置150a能夠解碼從語(yǔ)音編碼裝置100接收的編碼數(shù)據(jù)。
圖4B所示的語(yǔ)音解碼裝置150b除了具有與語(yǔ)音解碼裝置150a中設(shè)置的相同的語(yǔ)音解碼部分152之外，還具有切換器154、無(wú)聲參數(shù)提取部分156、幀類(lèi)型判定部分158以及無(wú)聲幀解碼部分160。
無(wú)聲參數(shù)提取部分156提取合成于構(gòu)成接收編碼數(shù)據(jù)的編碼數(shù)據(jù)中作為無(wú)聲幀(有嵌入)傳輸?shù)木幋a數(shù)據(jù)的無(wú)聲參數(shù)編碼數(shù)據(jù)。
幀類(lèi)型判定部分158接收從語(yǔ)音編碼裝置100傳輸?shù)膸?lèi)型信息，判定接收的編碼數(shù)據(jù)相當(dāng)于三種幀類(lèi)型中的哪一種。判定結(jié)果通知給切換器154以及無(wú)聲幀解碼部分160。
在幀類(lèi)型信息所示的信息為無(wú)聲幀的情況下，無(wú)聲幀解碼部分160僅對(duì)由無(wú)聲參數(shù)提取部分156提取的無(wú)聲參數(shù)編碼數(shù)據(jù)進(jìn)行解碼。由此，取得無(wú)聲參數(shù)中包含的信息(例如，頻譜形狀信息或能量等)。然后，使用取得的信息生成包含無(wú)聲幀(有嵌入)以及無(wú)聲幀(無(wú)嵌入)的所有無(wú)聲幀中的解碼語(yǔ)音信號(hào)。
切換器154按照從幀類(lèi)型判定部分158通知的判定結(jié)果，切換語(yǔ)音解碼裝置150b的輸出。例如，在幀類(lèi)型信息所示的信息為有聲幀的情況下，控制連接，以使由語(yǔ)音解碼部分152生成的解碼語(yǔ)音信號(hào)成為語(yǔ)音解碼裝置150b的輸出。換言之，如圖4B所示，與語(yǔ)音解碼裝置150b的輸出的連接切換到a端。另一方面，在所示的信息為無(wú)聲幀的情況下，控制連接，以使由無(wú)聲幀解碼部分160生成的解碼語(yǔ)音信號(hào)成為語(yǔ)音解碼裝置150b的輸出。換言之，與語(yǔ)音解碼裝置150b的輸出的連接切換到b端。
上述的連接切換控制是為了根據(jù)傳輸?shù)木幋a數(shù)據(jù)的幀類(lèi)型來(lái)切換解碼對(duì)象而進(jìn)行的。但是，切換器154不進(jìn)行取決于傳輸?shù)木幋a數(shù)據(jù)的幀類(lèi)型的控制，而將與語(yǔ)音解碼裝置150b的輸出的連接一直固定于a端也是可以的。語(yǔ)音解碼裝置150b自己選擇進(jìn)行取決于幀類(lèi)型的連接切換控制還是進(jìn)行一直固定的連接。由此，語(yǔ)音解碼裝置150b能夠自由地選擇以下方式的一種在無(wú)聲參數(shù)編碼數(shù)據(jù)被合成的狀態(tài)下解碼編碼數(shù)據(jù)，以及選擇性地解碼合成了的無(wú)聲參數(shù)。
接著，說(shuō)明具有上述結(jié)構(gòu)的語(yǔ)音編碼裝置100中的無(wú)聲參數(shù)編碼數(shù)據(jù)嵌入動(dòng)作。
在語(yǔ)音編碼部分102中，進(jìn)行輸入語(yǔ)音信號(hào)的語(yǔ)音編碼，生成編碼數(shù)據(jù)。此外，進(jìn)行輸入語(yǔ)音信號(hào)的幀類(lèi)型判定。
然后，根據(jù)幀類(lèi)型判定的結(jié)果，在確定編碼數(shù)據(jù)為有聲幀的情況下，不進(jìn)行通過(guò)位嵌入部分104的無(wú)聲參數(shù)編碼數(shù)據(jù)嵌入，其結(jié)果，取得圖5(A)所示的格式的編碼數(shù)據(jù)。此外，即使在確定編碼數(shù)據(jù)為無(wú)聲幀(無(wú)嵌入)的情況下，也不進(jìn)行無(wú)聲參數(shù)編碼數(shù)據(jù)嵌入，其結(jié)果，取得圖5(A)所示的格式的編碼數(shù)據(jù)。另一方面，在確定編碼數(shù)據(jù)為無(wú)聲幀(有嵌入)的情況下，進(jìn)行無(wú)聲參數(shù)編碼數(shù)據(jù)嵌入，其結(jié)果，取得圖5(B)所示的格式的編碼數(shù)據(jù)。
這樣，根據(jù)本實(shí)施方式，僅對(duì)編碼數(shù)據(jù)中作為無(wú)聲幀(有嵌入)的編碼數(shù)據(jù)合成無(wú)聲參數(shù)編碼數(shù)據(jù)，由此能夠取得對(duì)應(yīng)包含語(yǔ)音分量的語(yǔ)音信號(hào)的編碼數(shù)據(jù)和對(duì)應(yīng)不包含所述語(yǔ)音分量的語(yǔ)音信號(hào)的編碼數(shù)據(jù)，即將無(wú)聲參數(shù)編碼數(shù)據(jù)合成于編碼數(shù)據(jù)，對(duì)解碼端連續(xù)地傳輸具有不同的格式類(lèi)型而具有同樣的幀結(jié)構(gòu)的編碼數(shù)據(jù)。因此，在通過(guò)將無(wú)聲參數(shù)編碼數(shù)據(jù)合成于編碼數(shù)據(jù)的模式來(lái)生成的編碼數(shù)據(jù)被傳輸?shù)浇獯a端的情況下，在解碼端能夠解碼在合成了無(wú)聲參數(shù)編碼數(shù)據(jù)的狀態(tài)下的編碼數(shù)據(jù)。即，在編碼端能夠生成即使解碼端未對(duì)應(yīng)伴隨語(yǔ)音編碼而使用的控制方式也能夠解碼的數(shù)據(jù)。進(jìn)而，在所述情況下，在解碼端能夠自由地選擇以下方式的一種在合成了無(wú)聲參數(shù)編碼數(shù)據(jù)的狀態(tài)下解碼編碼數(shù)據(jù)，以及選擇性地解碼合成的無(wú)聲參數(shù)編碼數(shù)據(jù)。即，在編碼端能夠使解碼端自由選擇與伴隨語(yǔ)音編碼而使用的控制方式所對(duì)應(yīng)的語(yǔ)音解碼的模式。
(實(shí)施方式2)圖7是表示本發(fā)明的實(shí)施方式2的語(yǔ)音編碼裝置的結(jié)構(gòu)的方框圖。另外，本實(shí)施方式中說(shuō)明的語(yǔ)音編碼裝置200具有與實(shí)施方式1中說(shuō)明的語(yǔ)音編碼裝置100同樣的基本結(jié)構(gòu)，因此對(duì)同一構(gòu)成元件賦予同一參照標(biāo)號(hào)，并省略其詳細(xì)的說(shuō)明。此外，通過(guò)實(shí)施方式1中說(shuō)明的語(yǔ)音解碼裝置150a、150b能夠解碼從語(yǔ)音編碼裝置200傳輸?shù)木幋a數(shù)據(jù)，所以這里省略語(yǔ)音解碼裝置相關(guān)的說(shuō)明。
語(yǔ)音編碼裝置200具有以下的結(jié)構(gòu)，即設(shè)置語(yǔ)音編碼部分202來(lái)代替語(yǔ)音編碼裝置100中設(shè)置的語(yǔ)音編碼部分102以及位嵌入部分104。
語(yǔ)音編碼部分202執(zhí)行使語(yǔ)音編碼部分102的動(dòng)作以及位嵌入部分104的動(dòng)作的組合動(dòng)作。此外，對(duì)語(yǔ)音編碼部分202應(yīng)用能夠有效率地對(duì)輸入語(yǔ)音信號(hào)進(jìn)行編碼的CELP(Code Excited Linear Prediction，碼激勵(lì)線(xiàn)性預(yù)測(cè))編碼。
如圖8所示，語(yǔ)音編碼部分202具有LPC分析部分204、第一編碼候補(bǔ)生成部分206、LPC量化部分208、自適應(yīng)碼增益碼本210、自適應(yīng)碼本212、乘法器214、加法器216、固定碼本218、乘法器220、第二編碼候補(bǔ)生成部分222、合成濾波器224、減法器226、加權(quán)誤差最小化部分228、無(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230以及復(fù)用部分232。
LPC分析部分204使用輸入語(yǔ)音信號(hào)進(jìn)行線(xiàn)性預(yù)測(cè)分析，并將其分析結(jié)果即LPC系數(shù)輸出到LPC量化部分208。
LPC量化部分208基于從第一編碼候補(bǔ)生成部分206輸出的編碼候補(bǔ)值以及編碼候補(bǔ)碼，對(duì)從LPC分析部分204輸出的LPC系數(shù)進(jìn)行向量量化。然后，將作為向量量化的結(jié)果得到的LPC量化碼輸出到復(fù)用部分232。此外，LPC量化部分208通過(guò)LPC系數(shù)得到解碼LPC系數(shù)，并將該解碼LPC系數(shù)輸出到合成濾波器224。
如圖9所示，第一編碼候補(bǔ)生成部分206具有碼本242以及搜索范圍限制部分244，生成在進(jìn)行輸入語(yǔ)音信號(hào)的語(yǔ)音編碼時(shí)由LPC量化部分208進(jìn)行的LPC系數(shù)的向量量化所使用的編碼候補(bǔ)值以及編碼候補(bǔ)碼，并將它們輸出到LPC量化部分208。
碼本242預(yù)先保有編碼語(yǔ)音信號(hào)時(shí)可能用于LPC量化部分208的編碼候補(bǔ)值以及編碼候補(bǔ)碼的列表。搜索范圍限制部分244生成編碼輸入語(yǔ)音信號(hào)時(shí)用于LPC量化部分208的編碼候補(bǔ)值以及編碼候補(bǔ)碼。更具體地說(shuō)，在來(lái)自幀類(lèi)型判定部分108的幀類(lèi)型信息表示為“有聲幀”或“無(wú)聲幀(無(wú)嵌入)”的情況下，搜索范圍限制部分244對(duì)碼本242中預(yù)先保有的編碼候補(bǔ)值以及編碼候補(bǔ)碼不進(jìn)行搜索范圍的限制。另一方面，在幀類(lèi)型信息表示為“無(wú)聲幀(有嵌入)”的情況下，搜索范圍限制部分244對(duì)編碼候補(bǔ)值以及編碼候補(bǔ)碼進(jìn)行搜索范圍的限制?；趶臒o(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230得到的分割參數(shù)碼的位數(shù)來(lái)進(jìn)行屏蔽碼的分配，并且按照屏蔽碼的分配來(lái)嵌入分割參數(shù)碼，由此決定限制的搜索范圍。
合成濾波器224使用從LPC量化部分208輸出的解碼LPC系數(shù)和從加法器216輸出的驅(qū)動(dòng)音源進(jìn)行濾波合成，并將合成信號(hào)輸出到減法器226。減法器226計(jì)算從合成濾波器224輸出的合成信號(hào)和輸入語(yǔ)音信號(hào)的誤差信號(hào)，并將該誤差信號(hào)輸出到加權(quán)誤差最小化部分228。
加權(quán)誤差最小化部分228對(duì)從減法器226輸出的誤差信號(hào)進(jìn)行聽(tīng)覺(jué)加權(quán)，計(jì)算聽(tīng)覺(jué)加權(quán)區(qū)域中的輸入語(yǔ)音信號(hào)和合成信號(hào)的失真。然后，決定應(yīng)由自適應(yīng)碼本212、固定碼本218和第二編碼候補(bǔ)生成部分222生成的信號(hào)，以使該失真成為最小。
更具體地說(shuō)，加權(quán)誤差最小化部分228從自適應(yīng)碼本212中選擇失真最小的自適應(yīng)音源滯后。此外，從固定碼本218中選擇失真最小的固定音源向量。此外，從自適應(yīng)碼增益碼本210中選擇失真最小的量化自適應(yīng)音源增益。此外，從第二編碼候補(bǔ)生成部分222中選擇量化固定音源增益。
自適應(yīng)碼本212具有緩沖器，將過(guò)去由加法器216輸出的驅(qū)動(dòng)音源存儲(chǔ)在該緩沖器中，從通過(guò)由加權(quán)誤差最小化部分228輸出的信號(hào)所確定的切出(cut-out)位置起，從緩沖器中切出一幀的采樣，作為自適應(yīng)音源向量輸出到乘法器214。此外，將表示決定結(jié)果的自適應(yīng)音源滯后碼輸出到復(fù)用部分232。此外，自適應(yīng)碼本212在每次接收到從加法器216輸出的驅(qū)動(dòng)音源時(shí)，進(jìn)行存儲(chǔ)于緩沖器的驅(qū)動(dòng)音源的更新。
自適應(yīng)碼增益碼本210基于從加權(quán)誤差最小化部分228輸出的信號(hào)來(lái)決定量化自適應(yīng)音源增益，并將其輸出到乘法器214。此外，將表示該決定結(jié)果的量化自適應(yīng)音源增益碼輸出到復(fù)用部分232。
乘法器214將從自適應(yīng)碼增益碼本210輸出的量化自適應(yīng)音源增益與從自適應(yīng)碼本212輸出的自適應(yīng)音源向量相乘，將其乘法結(jié)果輸出到加法器216。
固定碼本218將具有通過(guò)從加權(quán)誤差最小化部分228輸出的信號(hào)所確定的形狀的向量決定為固定音源向量，并輸出到乘法器220。此外，將表示該決定結(jié)果的固定音源向量碼輸出到復(fù)用部分232。
乘法器220將從第二編碼候補(bǔ)生成部分222輸出的量化固定音源增益與從固定碼本218輸出的固定音源向量相乘，將其乘法結(jié)果輸出到加法器216。
加法器216將從乘法器214輸出的自適應(yīng)音源向量和從乘法器220輸出的固定音源向量相加，并將作為其加法結(jié)果的驅(qū)動(dòng)音源輸出到合成濾波器224以及自適應(yīng)碼本212。
無(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230分割從無(wú)聲參數(shù)分析/編碼部分110輸出的無(wú)聲參數(shù)編碼數(shù)據(jù)。無(wú)聲參數(shù)編碼數(shù)據(jù)按嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)的量化碼的每個(gè)位數(shù)被分割。此外，在本實(shí)施方式中，對(duì)嵌入對(duì)象的量化碼指定幀單位的LPC量化碼以及子幀單位的量化固定音源增益碼。因此，無(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230將無(wú)聲參數(shù)編碼數(shù)據(jù)分割為(1+子幀數(shù))個(gè)部分，得到相當(dāng)于該個(gè)數(shù)的分割參數(shù)碼。
第二編碼候補(bǔ)生成部分222具有固定碼增益碼本，生成在進(jìn)行語(yǔ)音編碼時(shí)與固定音源向量相乘的量化固定音源增益的候補(bǔ)。更具體地說(shuō)，在來(lái)自幀類(lèi)型判定部分108的幀類(lèi)型信息表示為“有聲幀”或“無(wú)聲幀(無(wú)嵌入)”的情況下，第二編碼候補(bǔ)生成部分222對(duì)預(yù)先存儲(chǔ)在固定碼增益碼本中的量化固定音源增益候補(bǔ)不進(jìn)行搜索范圍的限制。另一方面，在幀類(lèi)型信息表示為“無(wú)聲幀(有嵌入)”的情況下，第二編碼候補(bǔ)生成部分222對(duì)量化固定音源增益候補(bǔ)進(jìn)行搜索范圍的限制?；趶臒o(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230得到的分割參數(shù)碼的位數(shù)來(lái)進(jìn)行屏蔽碼的分配，并且按照屏蔽碼的分配來(lái)嵌入分割參數(shù)碼，由此決定被限制的搜索范圍。這樣，生成量化固定音源增益候補(bǔ)。然后，將從生成的量化固定音源增益候補(bǔ)中基于來(lái)自加權(quán)誤差最小化部分228的信號(hào)確定的增益決定為應(yīng)與固定音源向量相乘的量化固定音源增益，并將其輸出到乘法器220。此外，將表示該決定結(jié)果的量化固定音源增益碼輸出到復(fù)用部分232。
復(fù)用部分232對(duì)來(lái)自L(fǎng)PC量化部分208的LPC量化碼、來(lái)自自適應(yīng)碼增益碼本210的量化自適應(yīng)音源增益碼、來(lái)自自適應(yīng)碼本212的自適應(yīng)音源向量碼、來(lái)自固定碼本218的固定音源向量碼、來(lái)自第二編碼候補(bǔ)生成部分222的量化固定音源增益碼進(jìn)行復(fù)用。通過(guò)該復(fù)用得到編碼數(shù)據(jù)。
接著，說(shuō)明語(yǔ)音編碼部分202中的搜索范圍限制動(dòng)作。這里，以第一編碼候補(bǔ)生成部分206中的搜索范圍限制動(dòng)作為例進(jìn)行說(shuō)明。
如圖10所示，在語(yǔ)音編碼部分202中，碼本242中作為編碼候補(bǔ)碼以及編碼候補(bǔ)值分別存儲(chǔ)了16組碼索引i和與各碼索引i對(duì)應(yīng)的碼向量C[i]的組合。
而且，在來(lái)自幀類(lèi)型判定部分108的幀類(lèi)型信息表示為“有聲幀”或“無(wú)聲幀(無(wú)嵌入)”的情況下，搜索范圍限制部分244不限制搜索范圍而將16組候補(bǔ)的組合輸出到LPC量化部分208。
另一方面，在幀類(lèi)型信息表示為“無(wú)聲幀(有嵌入)”的情況下，搜索范圍限制部分244基于從無(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230得到的分割參數(shù)碼的位數(shù)，對(duì)碼索引i分配屏蔽碼。在本實(shí)施方式中，將位靈敏度低于規(guī)定電平的規(guī)定數(shù)的編碼位或包含位靈敏度為最低的編碼位的規(guī)定數(shù)的編碼位作為置換以及屏蔽的對(duì)象。例如，在標(biāo)量(scalar)值的量化值按升序與碼對(duì)應(yīng)的情況下，從LSB(最低位)起分配屏蔽位。通過(guò)進(jìn)行這樣的屏蔽位分配來(lái)限制搜索范圍。即，預(yù)先進(jìn)行以嵌入為前提的碼本的限制。因此，能夠防止進(jìn)行嵌入所引起的編碼性能的惡化。
然后，在通過(guò)屏蔽碼分配而屏蔽的位嵌入分割參數(shù)碼，由此確定屬于限制的搜索范圍的搜索候補(bǔ)。在這里的例示中，由于對(duì)低位的2位分配了屏蔽位，所以搜索范圍從原來(lái)的16組候補(bǔ)限制為4組候補(bǔ)。然后，這4組的候補(bǔ)的組合輸出到LPC量化部分208。
這樣，根據(jù)本實(shí)施方式，進(jìn)行以無(wú)聲參數(shù)編碼數(shù)據(jù)的嵌入為前提的最佳的量化。即，將構(gòu)成作為無(wú)聲幀的編碼數(shù)據(jù)的多個(gè)位中具有規(guī)定電平以下的靈敏度的規(guī)定數(shù)的位或包含靈敏度最低的位的規(guī)定數(shù)的位作為屏蔽位分配以及分割參數(shù)碼嵌入的對(duì)象。因此，能夠降低對(duì)解碼語(yǔ)音的質(zhì)量帶來(lái)的影響，并且能夠提高進(jìn)行分割參數(shù)碼嵌入的情況下的編碼性能。
另外，在本實(shí)施方式中，說(shuō)明了對(duì)語(yǔ)音編碼使用CELP編碼的情況，但使用CELP編碼不是本發(fā)明的必要條件，使用其他的語(yǔ)音編碼方式也能夠?qū)崿F(xiàn)與上述同樣的技術(shù)效果。
此外，也可以使用在無(wú)聲參數(shù)的一部分或所有使用與通常的語(yǔ)音編碼參數(shù)共同的參數(shù)。例如，在無(wú)聲參數(shù)中對(duì)頻譜形狀信息使用了LPC參數(shù)的情況下，將該LPC參數(shù)的量化碼設(shè)為用于LPC量化部分208的LPC參數(shù)的量化碼或與其一部分相同。這樣，能夠提高進(jìn)行無(wú)聲參數(shù)編碼數(shù)據(jù)的嵌入(置換或覆寫(xiě)等)時(shí)的量化性能。
此外，在本實(shí)施方式中，說(shuō)明了將LPC量化碼以及量化固定音源增益碼作為嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)的對(duì)象的編碼數(shù)據(jù)的情況。但是，嵌入對(duì)象的編碼數(shù)據(jù)不僅限定于此，也可以將除此以外的編碼數(shù)據(jù)作為嵌入對(duì)象來(lái)采用。
(實(shí)施方式3)圖11A以及圖11B是分別表示本發(fā)明的實(shí)施方式9的可伸縮編碼裝置以及可伸縮解碼裝置的方框圖。在本實(shí)施方式中，說(shuō)明對(duì)作為可伸縮結(jié)構(gòu)具有頻帶伸縮功能的語(yǔ)音編碼的核心層(core layer)應(yīng)用了實(shí)施方式1(或?qū)嵤┓绞?)中說(shuō)明的各裝置的情況。
圖11A所示的可伸縮編碼裝置300具有下采樣部分302、語(yǔ)音編碼裝置100、局部解碼部分304、上采樣部分306以及增強(qiáng)層編碼部分308。
下采樣部分302將輸入語(yǔ)音信號(hào)下采樣為核心層的頻帶的信號(hào)。語(yǔ)音編碼裝置100具有與實(shí)施方式1中說(shuō)明的相同結(jié)構(gòu)，通過(guò)經(jīng)下采樣處理的輸入語(yǔ)音信號(hào)來(lái)生成編碼數(shù)據(jù)以及幀類(lèi)型信息，并將其輸出。生成的編碼數(shù)據(jù)被作為核心層編碼數(shù)據(jù)輸出。
局部解碼部分304對(duì)核心層編碼數(shù)據(jù)進(jìn)行局部解碼來(lái)得到核心層的解碼語(yǔ)音信號(hào)。上采樣部分306將核心層的解碼語(yǔ)音信號(hào)上采樣為增強(qiáng)層的頻帶的信號(hào)。增強(qiáng)層編碼部分308對(duì)具有增強(qiáng)層的信號(hào)頻帶的輸入語(yǔ)音信號(hào)進(jìn)行增強(qiáng)層的編碼，生成增強(qiáng)層編碼數(shù)據(jù)并輸出。
圖11B所示的可伸縮解碼裝置350具有語(yǔ)音解碼裝置150b、上采樣部分352以及增強(qiáng)層解碼部分354。
語(yǔ)音解碼裝置150b具有與實(shí)施方式1中說(shuō)明的相同的結(jié)構(gòu)，通過(guò)從可伸縮編碼裝置300傳輸?shù)暮诵膶泳幋a數(shù)據(jù)以及幀類(lèi)型信息來(lái)生成解碼語(yǔ)音信號(hào)并將其作為核心層解碼信號(hào)輸出。
上采樣部分352將核心層解碼信號(hào)上采樣為增強(qiáng)層的頻帶的信號(hào)。增強(qiáng)層解碼部分354解碼從可伸縮編碼裝置300傳輸?shù)脑鰪?qiáng)層編碼數(shù)據(jù)解碼而得到增強(qiáng)層解碼信號(hào)。然后，通過(guò)將經(jīng)上采樣處理的核心層解碼信號(hào)復(fù)用為增強(qiáng)層解碼信號(hào)，從而生成核心層+增強(qiáng)層解碼信號(hào)，并將其輸出。
另外，可伸縮編碼裝置300也可以具有實(shí)施方式2中說(shuō)明的語(yǔ)音編碼裝置200來(lái)代替所述語(yǔ)音編碼裝置100。
以下，說(shuō)明具有上述結(jié)構(gòu)的可伸縮解碼裝置350的動(dòng)作。假設(shè)在核心層中，不進(jìn)行幀格式切換控制。在該情況下，一直能夠得到核心層+增強(qiáng)層解碼信號(hào)。此外，設(shè)定為只解碼核心層，并且在核心層中進(jìn)行幀格式切換控制。在該情況下，可以得到編碼效率為最高并且比特速率低的解碼信號(hào)。此外，對(duì)于無(wú)聲幀，設(shè)定為有幀格式的切換控制并且僅解碼核心層，對(duì)于有聲幀，設(shè)定為解碼核心層+增強(qiáng)層。在該情況下，對(duì)于所述兩個(gè)情況能夠?qū)崿F(xiàn)中間性的語(yǔ)音質(zhì)量以及傳輸效率。
這樣，根據(jù)本實(shí)施方式，能夠不取決于編碼端的控制的設(shè)定狀態(tài)而在解碼端(或網(wǎng)絡(luò)上)自由地選擇多個(gè)種類(lèi)的解碼語(yǔ)音信號(hào)來(lái)進(jìn)行解碼。
另外，在上述各實(shí)施方式的說(shuō)明中使用的各功能塊典型地通過(guò)集成電路的LSI來(lái)實(shí)現(xiàn)。它們既可以單獨(dú)地實(shí)行單芯片化，也可以包含其中一部分或全部而實(shí)行單芯片化。
這里，雖稱(chēng)做LSI，但根據(jù)集成度的不同，有時(shí)也稱(chēng)作IC、系統(tǒng)LSI、超LSI、極大LSI(ultra LSI)。
此外，集成電路化的方法不限定于LSI，可以通過(guò)專(zhuān)用電路或通用處理器實(shí)現(xiàn)。也可以利用能在LSI制造后編程的FPGA(Field Programable GateArray，現(xiàn)場(chǎng)可編程門(mén)陣列)，或?qū)SI內(nèi)部的電路塊連接或設(shè)定重新配置的可重配置處理器。
進(jìn)而，如果由半導(dǎo)體技術(shù)的進(jìn)步或派生的其他技術(shù)置換為L(zhǎng)SI的集成電路化的技術(shù)出現(xiàn)，當(dāng)然使用該技術(shù)進(jìn)行功能塊的集成化也可以。也有使用生物技術(shù)等的可能性。
本說(shuō)明書(shū)基于2004年7月23日申請(qǐng)的特愿2004-216127。其內(nèi)容全部包含于此。
產(chǎn)業(yè)上的可利用性本發(fā)明的語(yǔ)音編碼裝置以及語(yǔ)音編碼方法用于傳輸在有聲區(qū)間和無(wú)聲區(qū)間不同的格式類(lèi)型的編碼數(shù)據(jù)。
權(quán)利要求
1.一種語(yǔ)音編碼裝置，輸出與包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第一編碼數(shù)據(jù)和與不包含所述語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第二編碼數(shù)據(jù)，該語(yǔ)音編碼裝置具有編碼部件，以規(guī)定區(qū)間單位將輸入語(yǔ)音信號(hào)編碼并生成編碼數(shù)據(jù)；判定部件，對(duì)每個(gè)所述規(guī)定區(qū)間判定所述輸入語(yǔ)音信號(hào)是否包含所述語(yǔ)音分量；以及合成部件，僅對(duì)所述編碼數(shù)據(jù)中通過(guò)被判定為不包含所述語(yǔ)音分量的無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的合成，從而取得所述第一編碼數(shù)據(jù)和所述第二編碼數(shù)據(jù)。
2.如權(quán)利要求1所述的語(yǔ)音編碼裝置，其中，所述合成部件對(duì)通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的所述編碼數(shù)據(jù)嵌入所述噪聲數(shù)據(jù)。
3.如權(quán)利要求1所述的語(yǔ)音編碼裝置，其中，所述合成部件在通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的所述編碼數(shù)據(jù)中的規(guī)定位置嵌入所述噪聲數(shù)據(jù)。
4.如權(quán)利要求1所述的語(yǔ)音編碼裝置，其中，所述合成部件用所述噪聲數(shù)據(jù)置換通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的所述編碼數(shù)據(jù)的位。
5.如權(quán)利要求1所述的語(yǔ)音編碼裝置，其中，所述合成部件用所述噪聲數(shù)據(jù)覆寫(xiě)通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的所述編碼數(shù)據(jù)的位。
6.如權(quán)利要求1所述的語(yǔ)音編碼裝置，其中，所述編碼部件生成通過(guò)多個(gè)位構(gòu)成的所述編碼數(shù)據(jù)，所述合成部件用所述噪聲數(shù)據(jù)置換所述編碼數(shù)據(jù)的所述多個(gè)位的一部分，所述編碼數(shù)據(jù)是通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的。
7.如權(quán)利要求1所述的語(yǔ)音編碼裝置，其中，所述編碼部件生成通過(guò)多個(gè)位構(gòu)成的所述編碼數(shù)據(jù)，所述合成部件用所述噪聲數(shù)據(jù)覆寫(xiě)所述編碼數(shù)據(jù)的所述多個(gè)位的一部分，所述編碼數(shù)據(jù)是通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的。
8.如權(quán)利要求6所述的語(yǔ)音編碼裝置，其中，所述合成部件用所述噪聲數(shù)據(jù)置換所述編碼數(shù)據(jù)的所述多個(gè)位中的、具有規(guī)定電平以下的靈敏度的規(guī)定數(shù)的位，所述編碼數(shù)據(jù)是通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的。
9.如權(quán)利要求6所述的語(yǔ)音編碼裝置，其中，所述合成部件用所述噪聲數(shù)據(jù)置換所述編碼數(shù)據(jù)的所述多個(gè)位中的、包含靈敏度最低的位的規(guī)定數(shù)的位，所述編碼數(shù)據(jù)是通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的。
10.如權(quán)利要求1所述的語(yǔ)音編碼裝置，其中，所述語(yǔ)音編碼裝置具有存儲(chǔ)部件，存儲(chǔ)用于語(yǔ)音信號(hào)的編碼的編碼候補(bǔ)，所述編碼部件對(duì)構(gòu)成所述編碼數(shù)據(jù)的多個(gè)位的其中一個(gè)分配屏蔽位，隨著所述屏蔽位的分配而限制用于所述輸入語(yǔ)音信號(hào)的編碼的所述編碼候補(bǔ)。
11.一種可伸縮編碼裝置，具有權(quán)利要求1所述的語(yǔ)音編碼裝置。
12.一種語(yǔ)音解碼裝置，具有第一解碼部件，對(duì)合成了噪聲數(shù)據(jù)的編碼數(shù)據(jù)進(jìn)行解碼而生成第一解碼語(yǔ)音信號(hào)；第二解碼部件，僅對(duì)所述噪聲數(shù)據(jù)進(jìn)行解碼而生成第二解碼語(yǔ)音信號(hào)；以及選擇部件，選擇所述第一解碼語(yǔ)音信號(hào)以及所述第二解碼語(yǔ)音信號(hào)的其中一個(gè)。
13.一種可伸縮解碼裝置，具有權(quán)利要求12所述的語(yǔ)音解碼裝置。
14.一種語(yǔ)音編碼方法，輸出與包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第一編碼數(shù)據(jù)和與不包含所述語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第二編碼數(shù)據(jù)，該語(yǔ)音編碼方法具有編碼步驟，以規(guī)定區(qū)間單位將輸入語(yǔ)音信號(hào)編碼并生成編碼數(shù)據(jù)；判定步驟，對(duì)每個(gè)所述規(guī)定區(qū)間判定所述輸入語(yǔ)音信號(hào)是否包含所述語(yǔ)音分量；以及合成步驟，僅對(duì)所述編碼數(shù)據(jù)中通過(guò)被判定為不包含所述語(yǔ)音分量的無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的合成，從而取得所述第一編碼數(shù)據(jù)和所述第二編碼數(shù)據(jù)。
15.一種可伸縮編碼方法，具有權(quán)利要求14所述的語(yǔ)音編碼方法。
16.一種語(yǔ)音解碼方法，具有第一解碼步驟，對(duì)合成了噪聲數(shù)據(jù)的編碼數(shù)據(jù)進(jìn)行解碼而生成第一解碼語(yǔ)音信號(hào)；第二解碼步驟，僅對(duì)所述噪聲數(shù)據(jù)進(jìn)行解碼而生成第二解碼語(yǔ)音信號(hào)；以及選擇步驟，選擇所述第一解碼語(yǔ)音信號(hào)以及所述第二解碼語(yǔ)音信號(hào)的其中一個(gè)。
17.一種可伸縮解碼方法，具有權(quán)利要求16所述的語(yǔ)音解碼方法。
全文摘要
提供一種語(yǔ)音編碼裝置，能夠在解碼端自由地選擇與伴隨語(yǔ)音編碼而使用的控制方式所對(duì)應(yīng)的語(yǔ)音解碼的模式，同時(shí)生成即使解碼端未對(duì)應(yīng)該控制方式也能夠解碼的數(shù)據(jù)。語(yǔ)音編碼裝置(100)輸出與包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的編碼數(shù)據(jù)和與不包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的編碼數(shù)據(jù)。語(yǔ)音編碼部分(102)以規(guī)定區(qū)間單位將輸入語(yǔ)音信號(hào)編碼并生成編碼數(shù)據(jù)。有聲無(wú)聲判定部分(106)對(duì)每個(gè)規(guī)定區(qū)間判定輸入語(yǔ)音信號(hào)是否包含語(yǔ)音分量。位嵌入部分(104)僅對(duì)由語(yǔ)音編碼部分(102)生成的編碼數(shù)據(jù)中通過(guò)無(wú)聲區(qū)間的輸入語(yǔ)音信號(hào)生成的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的合成，從而取得包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的編碼數(shù)據(jù)和與不包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的編碼數(shù)據(jù)。
文檔編號(hào)G10L19/00GK1989549SQ20058002443
公開(kāi)日2007年6月27日申請(qǐng)日期2005年6月29日優(yōu)先權(quán)日2004年7月23日
發(fā)明者吉田幸司申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吉田幸司
技術(shù)所有人：松下電器產(chǎn)業(yè)株式會(huì)社
我是此專(zhuān)利的發(fā)明人

上一篇：語(yǔ)音解碼裝置及補(bǔ)償幀生成方法
上一篇：音頻通道轉(zhuǎn)換的制作方法

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

電梯語(yǔ)音報(bào)站裝置相關(guān)技術(shù)

語(yǔ)音報(bào)警裝置相關(guān)技術(shù)

汽車(chē)語(yǔ)音報(bào)警裝置相關(guān)技術(shù)

人體感應(yīng)語(yǔ)音裝置相關(guān)技術(shù)

扶梯語(yǔ)音提示裝置相關(guān)技術(shù)

防跑車(chē)編碼裝置相關(guān)技術(shù)

談?wù)務(wù)Z音信號(hào)編碼相關(guān)技術(shù)

語(yǔ)音編碼相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語(yǔ)音編碼裝置及語(yǔ)音編碼方法