聲音編碼設(shè)備和聲音編碼方法

文檔序號(hào)：2821122閱讀：524來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音編碼設(shè)備和聲音編碼方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種高效率地對(duì)聲學(xué)信號(hào)如音樂信號(hào)或語(yǔ)音信號(hào)進(jìn)行壓縮和編碼的聲學(xué)編碼設(shè)備和聲學(xué)編碼方法，特別涉及一種執(zhí)行甚至能夠從編碼代碼的一部分對(duì)音樂和語(yǔ)音進(jìn)行解碼的可擴(kuò)展編碼的聲學(xué)編碼設(shè)備和聲學(xué)編碼方法。
背景技術(shù)：
以低比特率壓縮音樂信號(hào)或語(yǔ)音信號(hào)的聲學(xué)編碼技術(shù)對(duì)于在移動(dòng)通信和記錄介質(zhì)中有效地利用無(wú)線電波傳輸路徑容量等是重要的。作為用于對(duì)語(yǔ)音信號(hào)進(jìn)行編碼的語(yǔ)音編碼方法，存在諸如G726、G729的方法，其由ITU(國(guó)際電信聯(lián)盟)標(biāo)準(zhǔn)化。這些方法可以高質(zhì)量地以8千比特/秒到32千比特/秒的比特率對(duì)窄帶信號(hào)(300Hz到3.4kHz)執(zhí)行編碼。
而且，存在用于對(duì)寬帶信號(hào)(50Hz到7kHz)進(jìn)行編碼的標(biāo)準(zhǔn)方法，例如ITU的G722、G722.1以及3GPP(第三代伙伴計(jì)劃)的AMR-WB。這些方法可以高質(zhì)量地以6.6千比特/秒到64千比特/秒的比特率對(duì)寬帶語(yǔ)音信號(hào)執(zhí)行編碼。
一種用于高效率地以低比特率對(duì)語(yǔ)音信號(hào)有效地執(zhí)行編碼的方法是CELP(碼激勵(lì)線性預(yù)測(cè))。基于人類語(yǔ)音生成模型的工程模擬模型，CELP是使以隨機(jī)數(shù)或脈沖串表達(dá)的激勵(lì)信號(hào)通過(guò)對(duì)應(yīng)于周期性強(qiáng)度的基頻(pitch)濾波器并且通過(guò)對(duì)應(yīng)于聲道特征的合成濾波器，并且確定編碼參數(shù)，使得輸出信號(hào)與輸入信號(hào)之間的誤差平方在感覺特征的加權(quán)下變得最小。(例如，參見“Code-Excited Linear Prediction(CELP-碼激勵(lì)線性預(yù)測(cè))high quality speechat very low bit rates(極低比特率的高質(zhì)量語(yǔ)音)”，Proc.ICASSP 85，pp.937-940，1985。)很多新近的標(biāo)準(zhǔn)語(yǔ)音編碼方法基于CELP。例如，G729可以以8千比特/秒的比特率對(duì)窄帶信號(hào)執(zhí)行編碼，并且AMR-WB可以以6.6千比特/秒到23.85千比特/秒的比特率對(duì)寬帶信號(hào)執(zhí)行編碼。
另一方面，在對(duì)音樂信號(hào)進(jìn)行編碼的音頻編碼的情況下，通常使用變換編碼，其將音樂信號(hào)變換到頻域，并且使用感覺心理學(xué)模型對(duì)變換后的系數(shù)進(jìn)行編碼，例如由MPEG(活動(dòng)圖像專家組)標(biāo)準(zhǔn)化的MPEG-1第3層編碼和AAC編碼。公知的是，這些方法對(duì)于具有采樣率44.1kHz的信號(hào)以每信道64千比特/秒到96千比特/秒的比特率幾乎不產(chǎn)生惡化。
然而，當(dāng)對(duì)主要包括在背景中疊加有音樂和環(huán)境聲音的語(yǔ)音信號(hào)的信號(hào)進(jìn)行編碼時(shí)，應(yīng)用語(yǔ)音編碼涉及這樣的問(wèn)題，即由于背景中的音樂和環(huán)境聲音的影響，不僅背景中的信號(hào)而且語(yǔ)音信號(hào)都惡化，從而降低了總體質(zhì)量。這是由于語(yǔ)音編碼基于專用于CELP語(yǔ)音模型的方法這一事實(shí)而造成的問(wèn)題。此外，所存在的另一個(gè)問(wèn)題是由于結(jié)構(gòu)上的原因，語(yǔ)音編碼適用的信號(hào)頻帶最多高達(dá)7kHz，而具有更高頻率的信號(hào)不能被覆蓋。
另一方面，音樂編碼(音頻編碼)方法允許對(duì)音樂進(jìn)行高質(zhì)量的編碼，從而對(duì)于在背景中包括音樂和環(huán)境聲音的前述語(yǔ)音信號(hào)，也可獲得足夠的質(zhì)量。此外，音頻編碼適用于其采樣率達(dá)到大約22kHz的目標(biāo)信號(hào)的頻帶，這等同于CD質(zhì)量。
另一方面，為了實(shí)現(xiàn)高質(zhì)量編碼，有必要使用高比特率的信號(hào)，并且問(wèn)題是，如果比特率降至大約32千比特/秒那樣低，則解碼信號(hào)的質(zhì)量大幅降低。這將導(dǎo)致這樣的問(wèn)題該方法不能用于具有低傳輸比特率的通信網(wǎng)絡(luò)。
為了避免上述問(wèn)題，有可能采用組合這些技術(shù)的可擴(kuò)展編碼，其首先使用CELP在基本層中對(duì)輸入信號(hào)執(zhí)行編碼，然后計(jì)算通過(guò)從輸入信號(hào)減去解碼信號(hào)而獲得的剩余信號(hào)，并且在增強(qiáng)層中對(duì)該信號(hào)執(zhí)行變換編碼。
根據(jù)該方法，基本層采用CELP，從而可以高質(zhì)量地對(duì)語(yǔ)音信號(hào)執(zhí)行編碼，并且增強(qiáng)層可以高效地對(duì)不能由基本層表達(dá)的背景中的音樂和環(huán)境聲音以及具有比基本層所覆蓋的頻帶高的頻率分量的信號(hào)執(zhí)行編碼。此外，根據(jù)該配置，有可能將比特率抑制到低級(jí)別。另外，該配置允許僅從編碼代碼的一部分對(duì)聲學(xué)信號(hào)進(jìn)行解碼，也就是，基本層的編碼代碼和這樣的可擴(kuò)展功能對(duì)于實(shí)現(xiàn)向多個(gè)具有不同傳輸比特率的網(wǎng)絡(luò)的組播是有效的。
然而，這樣的可擴(kuò)展編碼具有一個(gè)問(wèn)題是增強(qiáng)層中的延遲增大。該問(wèn)題將利用圖1和圖2加以說(shuō)明。圖1示出傳統(tǒng)語(yǔ)音編碼中的基本層的幀(基本幀)和增強(qiáng)層的幀(增強(qiáng)幀)的例子。圖2示出傳統(tǒng)語(yǔ)音解碼中的基本層的幀(基本幀)和增強(qiáng)層的幀(增強(qiáng)幀)的例子。
在傳統(tǒng)語(yǔ)音編碼中，基本幀和增強(qiáng)幀由具有相同時(shí)間長(zhǎng)度的幀構(gòu)成。在圖1中，從時(shí)間T(n-1)到T(n)輸入的輸入信號(hào)為第n基本幀，并且在基本層中被編碼。另外，從T(n-1)到T(n)的剩余信號(hào)也在增強(qiáng)層中被編碼。
這里，當(dāng)在增強(qiáng)層中使用MDCT(改進(jìn)的離散余弦變換)時(shí)，有必要使兩個(gè)連續(xù)的MDCT分析幀以分析幀長(zhǎng)度的一半相互重疊。執(zhí)行該重疊以便防止合成過(guò)程中幀間的不連續(xù)。
在MDCT的情況下，正交基被設(shè)計(jì)成不僅在分析幀內(nèi)而且在連續(xù)的分析幀之間保持正交，因此相互重疊連續(xù)的分析幀并且在合成過(guò)程中相加這兩者防止了由于幀間的不連續(xù)而發(fā)生失真。在圖1中，將第n分析幀設(shè)成T(n-2)到T(n)的長(zhǎng)度，并且執(zhí)行編碼處理。
解碼處理生成包括第n基本幀和第n增強(qiáng)幀的解碼信號(hào)。增強(qiáng)層執(zhí)行IMDCT(改進(jìn)的離散余弦逆變換)，并且如上所述，有必要以合成幀長(zhǎng)度的一半重疊第n增強(qiáng)幀的解碼信號(hào)與前一幀(在本例中為第(n-1)增強(qiáng)幀)的解碼信號(hào)，并且相加這兩者。為此，解碼處理部件只能生成直到時(shí)間T(n-1)的信號(hào)。
也就是，發(fā)生如圖2所示其長(zhǎng)度與基本幀的長(zhǎng)度相同的延遲(在本例中為T(n)-T(n-1)的時(shí)間長(zhǎng)度)。如果假定基本幀的時(shí)間長(zhǎng)度為20毫秒，則增強(qiáng)層中新產(chǎn)生的延遲為20毫秒。這樣的延遲增大構(gòu)成了實(shí)現(xiàn)語(yǔ)音通信服務(wù)的嚴(yán)重問(wèn)題。
如上所述，傳統(tǒng)設(shè)備具有的問(wèn)題是難以以短延遲、低比特率和高質(zhì)量對(duì)主要包括在背景中疊加有音樂和噪聲的語(yǔ)音的信號(hào)執(zhí)行編碼。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種聲學(xué)編碼設(shè)備和聲學(xué)編碼方法，其能夠以短延遲、低比特率和高質(zhì)量對(duì)甚至是主要包括在背景中疊加有音樂和噪聲的語(yǔ)音的信號(hào)執(zhí)行編碼。
通過(guò)對(duì)增強(qiáng)層執(zhí)行編碼，其中增強(qiáng)層幀的時(shí)間長(zhǎng)度被設(shè)成短于基本層幀的時(shí)間長(zhǎng)度，并且以短延遲、低比特率和高質(zhì)量對(duì)主要包括在背景中疊加有音樂和噪聲的語(yǔ)音的信號(hào)執(zhí)行編碼，可以實(shí)現(xiàn)該目的。

圖1示出傳統(tǒng)語(yǔ)音編碼中的基本層的幀(基本幀)和增強(qiáng)層的幀(增強(qiáng)幀)的例子；圖2示出傳統(tǒng)語(yǔ)音解碼中的基本層的幀(基本幀)和增強(qiáng)層的幀(增強(qiáng)幀)的例子；圖3是示出根據(jù)本發(fā)明實(shí)施例1的聲學(xué)編碼設(shè)備的配置的方框圖；圖4示出聲學(xué)信號(hào)上的信息分布的例子；圖5示出基本層和增強(qiáng)層的要編碼的域的例子；圖6示出基本層和增強(qiáng)層的編碼的例子；圖7示出基本層和增強(qiáng)層的解碼的例子；圖8是示出根據(jù)本發(fā)明實(shí)施例1的聲學(xué)解碼設(shè)備的配置的方框圖；圖9是示出根據(jù)本發(fā)明實(shí)施例2的基本層編碼器的內(nèi)部配置的示例的方框圖；圖10是示出根據(jù)本發(fā)明實(shí)施例2的基本層解碼器的內(nèi)部配置的示例的方框圖；圖11是示出根據(jù)本發(fā)明實(shí)施例2的基本層解碼器的內(nèi)部配置的另一示例的方框圖；圖12是示出根據(jù)本發(fā)明實(shí)施例3的增強(qiáng)層編碼器的內(nèi)部配置的示例的方框圖；圖13示出MDCT系數(shù)的排列的例子；圖14是示出根據(jù)本發(fā)明實(shí)施例3的增強(qiáng)層解碼器的內(nèi)部配置的示例的方框圖；圖15是示出根據(jù)本發(fā)明實(shí)施例4的聲學(xué)編碼設(shè)備的配置的方框圖；圖16是示出上面實(shí)施例中的感覺屏蔽計(jì)算部件的內(nèi)部配置的示例方框圖；圖17是示出上面實(shí)施例中的增強(qiáng)層編碼器的內(nèi)部配置的示例方框圖；圖18是示出上面實(shí)施例中的感覺屏蔽計(jì)算部件的內(nèi)部配置的示例方框圖；圖19是示出根據(jù)本發(fā)明實(shí)施例5的增強(qiáng)層編碼器的內(nèi)部配置的示例方框圖；圖20示出MDCT系數(shù)的排列的例子；圖21是示出根據(jù)本發(fā)明實(shí)施例5的增強(qiáng)層解碼器的內(nèi)部配置的示例方框圖；
圖22是示出根據(jù)本發(fā)明實(shí)施例6的增強(qiáng)層編碼器的內(nèi)部配置的示例方框圖；圖23示出MDCT系數(shù)的排列的例子；圖24是示出根據(jù)本發(fā)明實(shí)施例6的增強(qiáng)層解碼器的內(nèi)部配置的示例方框圖；圖25是示出根據(jù)本發(fā)明實(shí)施例7的通信設(shè)備的配置的方框圖；圖26是示出根據(jù)本發(fā)明實(shí)施例8的通信設(shè)備的配置的方框圖；圖27是示出根據(jù)本發(fā)明實(shí)施例9的通信設(shè)備的配置的方框圖；以及圖28是示出根據(jù)本發(fā)明實(shí)施例10的通信設(shè)備的配置的方框圖。
具體實(shí)施例方式
下面將參照附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行說(shuō)明。
通過(guò)注意到基本幀的時(shí)間長(zhǎng)度與增強(qiáng)幀的時(shí)間長(zhǎng)度相同，其中基本幀為編碼輸入信號(hào)，并且增強(qiáng)幀為輸入信號(hào)與通過(guò)對(duì)編碼輸入信號(hào)進(jìn)行解碼而獲得的信號(hào)之間的編碼差值，并且這在解調(diào)的時(shí)候?qū)е铝溯^長(zhǎng)的延遲，本發(fā)明人提出了本發(fā)明。
也就是，本發(fā)明的實(shí)質(zhì)是對(duì)增強(qiáng)層執(zhí)行編碼，其中增強(qiáng)層幀的時(shí)間長(zhǎng)度被設(shè)成短于基本層幀的時(shí)間長(zhǎng)度，并且以短延遲、低比特率和高質(zhì)量對(duì)主要包括在背景中疊加有音樂和噪聲的語(yǔ)音的信號(hào)執(zhí)行編碼。
(實(shí)施例1)圖3是示出根據(jù)本發(fā)明實(shí)施例1的聲學(xué)編碼設(shè)備的配置的方框圖。圖3中的聲學(xué)編碼設(shè)備100主要由下采樣器(downsampler)101、基本層編碼器102、本地解碼器103、上采樣器(upsampler)104、延遲器105、減法器106、分幀器107、增強(qiáng)層編碼器108以及多路復(fù)用器109構(gòu)成。
在圖3中，下采樣器101接收采樣率2*FH的輸入數(shù)據(jù)(聲學(xué)數(shù)據(jù))，將該輸入數(shù)據(jù)轉(zhuǎn)換成低于采樣率2*FH的采樣率2*FL，并且將輸入數(shù)據(jù)輸出到基本層編碼器102。
基本層編碼器102以預(yù)定基本幀為單位對(duì)采樣率2*FL的輸入數(shù)據(jù)進(jìn)行編碼，并且將作為編碼輸入數(shù)據(jù)的第一編碼代碼輸出到本地解碼器103和多路復(fù)用器109。例如，基本層編碼器102根據(jù)CELP編碼對(duì)輸入數(shù)據(jù)進(jìn)行編碼。
本地解碼器103對(duì)第一編碼代碼進(jìn)行解碼，并且將通過(guò)解碼而獲得的解碼信號(hào)輸出到上采樣器104。上采樣器104將解碼信號(hào)的采樣率增加到2*FH，并且將解碼信號(hào)輸出到減法器106。
延遲器105將輸入信號(hào)延遲預(yù)定的時(shí)間，并且將延遲的輸入信號(hào)輸出到減法器106。將該延遲的長(zhǎng)度設(shè)成與在下采樣器101、基本層編碼器102、本地解碼器103和上采樣器104中產(chǎn)生的時(shí)間延遲相同的值防止了下一減法處理中的相移。例如，假定該延遲時(shí)間是下采樣器101、基本層編碼器102、本地解碼器103和上采樣器104上的處理時(shí)間的總和。減法器106從輸入信號(hào)中減去解碼信號(hào)，并且將減法結(jié)果作為剩余信號(hào)輸出到分幀器107。
分幀器107將剩余信號(hào)分成其時(shí)間長(zhǎng)度比基本幀短的增強(qiáng)幀，并且將分成增強(qiáng)幀的剩余信號(hào)輸出到增強(qiáng)層編碼器108。增強(qiáng)層編碼器108對(duì)分成增強(qiáng)幀的剩余信號(hào)進(jìn)行編碼，并且將通過(guò)該編碼而獲得的第二編碼代碼輸出到多路復(fù)用器109。多路復(fù)用器109多路復(fù)用第一編碼代碼和第二編碼代碼，以輸出多路復(fù)用代碼。
接下來(lái)，將說(shuō)明根據(jù)本實(shí)施例的聲學(xué)編碼設(shè)備的操作。這里，將說(shuō)明對(duì)作為采樣率2*FH的聲學(xué)數(shù)據(jù)的輸入信號(hào)進(jìn)行編碼的例子。
由下采樣器101將輸入信號(hào)轉(zhuǎn)換成低于采樣率2*FH的采樣率2*FL。然后，由基本層編碼器102對(duì)采樣率2*FL的輸入信號(hào)進(jìn)行編碼。由本地解碼器103對(duì)編碼輸入信號(hào)進(jìn)行解碼，并且生成解碼信號(hào)。由上采樣器104將解碼信號(hào)轉(zhuǎn)換到高于采樣率2*FL的采樣率2*FH。
在由延遲器105將輸入信號(hào)延遲預(yù)定的時(shí)間之后，將其輸出到減法器106。通過(guò)減法器106計(jì)算通過(guò)了延遲器105的輸入信號(hào)與轉(zhuǎn)換成采樣率2*FH的解碼信號(hào)之間的差值，獲得剩余信號(hào)。
由分幀器107將剩余信號(hào)分成具有短于在基本層編碼器102處編碼的幀單元的時(shí)間長(zhǎng)度的幀。由增強(qiáng)層編碼器108對(duì)劃分后的剩余信號(hào)進(jìn)行編碼。由多路復(fù)用器109多路復(fù)用由基本層編碼器102生成的編碼代碼和由增強(qiáng)層編碼器108生成的編碼代碼。
下面將說(shuō)明由基本層編碼器102和增強(qiáng)層編碼器108編碼的信號(hào)。圖4示出聲學(xué)信號(hào)的信息分布的例子。在圖4中，縱軸表示信息量，而橫軸表示頻率。圖4示出包括在輸入信號(hào)中的語(yǔ)音信息、背景音樂和背景噪聲信息存在于哪個(gè)頻帶內(nèi)以及它們的量是多少。
如圖4所示，語(yǔ)音信息在低頻域內(nèi)具有較多的信息，并且信息量隨著頻率的增大而減小。另一方面，與語(yǔ)音信息相比，背景音樂和背景噪聲信息具有相對(duì)較小數(shù)量的低頻帶信息，并且具有較多包括在高頻帶內(nèi)的信息。
因此，基本層使用CELP編碼高質(zhì)量地對(duì)語(yǔ)音信號(hào)進(jìn)行編碼，而增強(qiáng)層高效地對(duì)不能被基本層表達(dá)的背景音樂和環(huán)境聲音以及具有比由基本層覆蓋的頻帶高的頻率分量的信號(hào)進(jìn)行編碼。
圖5示出要由基本層和增強(qiáng)層編碼的域的例子。在圖5中，縱軸表示信息量，而橫軸表示頻率。圖5示出要由基本層編碼器102和增強(qiáng)層編碼器108編碼的信息的域。
基本層編碼器102被設(shè)計(jì)成高效地表達(dá)從0到FL的頻帶內(nèi)的語(yǔ)音信息，并且可以高質(zhì)量地對(duì)該域中的語(yǔ)音信息進(jìn)行編碼。然而，基本層編碼器102在從0到FL的頻帶內(nèi)不具有背景音樂和背景噪聲信息的高編碼質(zhì)量。
增強(qiáng)層編碼器108被設(shè)計(jì)成覆蓋上述基本層編碼器102的不足能力和從FL到FH的頻帶內(nèi)的信號(hào)。因此，組合基本層編碼器102和增強(qiáng)層編碼器108可以在寬頻帶內(nèi)高質(zhì)量地實(shí)現(xiàn)編碼。
如圖5所示，由于通過(guò)基本層編碼器102的編碼而獲得的第一編碼代碼包括從0到FL的頻帶內(nèi)的語(yǔ)音信息，因此有可能至少實(shí)現(xiàn)可擴(kuò)展的功能，由此單獨(dú)通過(guò)第一編碼代碼獲得解碼信號(hào)。
本實(shí)施例中的聲學(xué)編碼設(shè)備100將由增強(qiáng)層編碼器108編碼的幀的時(shí)間長(zhǎng)度設(shè)成足夠短于由基本層編碼器102編碼的幀的時(shí)間長(zhǎng)度，從而可以縮短在增強(qiáng)層中產(chǎn)生的延遲。
圖6示出基本層和增強(qiáng)層的編碼的例子。在圖6中，橫軸表示時(shí)間。在圖6中，作為第n幀處理從T(n-1)到T(n)的輸入信號(hào)?；緦泳幋a器102作為第n基本幀對(duì)第n幀進(jìn)行編碼，其中第n基本幀是一個(gè)基本幀。另一方面，增強(qiáng)層編碼器108通過(guò)將第n幀分成多個(gè)增強(qiáng)幀來(lái)對(duì)其進(jìn)行編碼。
這里，增強(qiáng)層的幀(增強(qiáng)幀)的時(shí)間長(zhǎng)度被設(shè)成相對(duì)于基本層的幀(基本幀)的1/J。在圖6中，為方便起見設(shè)置J＝8，但是本實(shí)施例不限于此值，并且可使用滿足J≥2的任何整數(shù)。
圖6中的例子假定J＝8，因此八個(gè)增強(qiáng)幀對(duì)應(yīng)于一個(gè)基本幀。以下，對(duì)應(yīng)于第n基本幀的每個(gè)增強(qiáng)幀將被表示為第n增強(qiáng)幀(#j)(j＝1到8)。每個(gè)增強(qiáng)層的分析幀被設(shè)成使兩個(gè)連續(xù)的分析幀以分析幀長(zhǎng)度的一半相互重疊，以防止在連續(xù)幀之間發(fā)生不連續(xù)，并使其經(jīng)歷編碼處理。例如，在第n增強(qiáng)幀(#1)中，組合幀401和幀402的域成為分析幀。然后，解碼側(cè)對(duì)通過(guò)使用基本層和增強(qiáng)層對(duì)上述輸入信號(hào)進(jìn)行編碼而獲得的信號(hào)進(jìn)行解碼。
圖7示出基本層和增強(qiáng)層的解碼的例子。在圖7中，橫軸表示時(shí)間。在解碼處理中，生成第n基本幀的解碼信號(hào)和第n增強(qiáng)幀的解碼信號(hào)。在增強(qiáng)層中，有可能對(duì)與有可能與前一幀進(jìn)行疊加的部分對(duì)應(yīng)的信號(hào)進(jìn)行解碼。在圖7中，生成解碼信號(hào)直到時(shí)間501，也就是，直到第n增強(qiáng)幀(#8)的中心位置。
也就是，根據(jù)本實(shí)施例的聲學(xué)編碼設(shè)備，在增強(qiáng)層中產(chǎn)生的延遲對(duì)應(yīng)于時(shí)間501到時(shí)間502，從而只需基本層的時(shí)間長(zhǎng)度的1/8。例如，當(dāng)基本幀的時(shí)間長(zhǎng)度是20毫秒時(shí)，在增強(qiáng)層中新產(chǎn)生的延遲為2.5毫秒。
本例是增強(qiáng)幀的時(shí)間長(zhǎng)度被設(shè)成基本幀的時(shí)間長(zhǎng)度的1/8的情況，但是一般而言，當(dāng)增強(qiáng)幀的時(shí)間長(zhǎng)度被設(shè)成基本幀的時(shí)間長(zhǎng)度的1/J時(shí)，在增強(qiáng)層中產(chǎn)生的延遲為1/J，并且有可能根據(jù)系統(tǒng)中允許的延遲的長(zhǎng)度來(lái)設(shè)置J。
接下來(lái)，將說(shuō)明執(zhí)行上述解碼的聲學(xué)解碼設(shè)備。圖8是示出根據(jù)本發(fā)明實(shí)施例1的聲學(xué)解碼設(shè)備的配置的方框圖。圖8中的聲學(xué)解碼設(shè)備600主要由多路分解器601、基本層解碼器602、上采樣器603、增強(qiáng)層解碼器604、疊加器605以及加法器606構(gòu)成。
多路分解器601將由聲學(xué)編碼設(shè)備100編碼的代碼分離成基本層的第一編碼代碼和增強(qiáng)層的第二編碼代碼，將第一編碼代碼輸出到基本層解碼器602，并且將第二編碼代碼輸出到增強(qiáng)層解碼器604。
基本層解碼器602對(duì)第一編碼代碼進(jìn)行解碼，以獲得具有采樣率2*FL的解碼信號(hào)。基本層解碼器602將解碼信號(hào)輸出到上采樣器603。上采樣器603將采樣率2*FL的解碼信號(hào)轉(zhuǎn)換成具有采樣率2*FH的解碼信號(hào)，并且將轉(zhuǎn)換后的信號(hào)輸出到加法器606。
增強(qiáng)層解碼器604對(duì)第二編碼代碼進(jìn)行解碼，以獲得具有采樣率2*FH的解碼信號(hào)。該第二編碼代碼是在聲學(xué)編碼設(shè)備100處通過(guò)以具有短于基本幀的時(shí)間長(zhǎng)度的增強(qiáng)幀為單位對(duì)輸入信號(hào)進(jìn)行編碼而獲得的代碼。然后，增強(qiáng)層解碼器604將該解碼信號(hào)輸出到疊加器605。
疊加器605以由增強(qiáng)層解碼器604解碼的增強(qiáng)幀為單位重疊該解碼信號(hào)，并且將重疊的解碼信號(hào)輸出到加法器606。更具體地說(shuō)，疊加器605將解碼信號(hào)乘以用于合成的窗口函數(shù)，以合成幀長(zhǎng)度的一半重疊該解碼信號(hào)與在前一幀中解碼的時(shí)域中的信號(hào)，并且相加這些信號(hào)，以生成輸出信號(hào)。
加法器606相加由上采樣器603上采樣的基本層中的解碼信號(hào)與由疊加器605重疊的增強(qiáng)層中的解碼信號(hào)，并且輸出所得到的信號(hào)。
因此，根據(jù)本實(shí)施例的聲學(xué)編碼設(shè)備和聲學(xué)解碼設(shè)備，聲學(xué)編碼設(shè)備側(cè)以具有短于基本幀的時(shí)間長(zhǎng)度的增強(qiáng)幀為單位劃分剩余信號(hào)，并且對(duì)劃分的剩余信號(hào)進(jìn)行編碼，而聲學(xué)解碼設(shè)備側(cè)對(duì)以具有短于該基本幀的時(shí)間長(zhǎng)度的時(shí)間長(zhǎng)度的增強(qiáng)幀為單位而編碼的剩余信號(hào)進(jìn)行解碼，重疊具有重疊時(shí)間區(qū)域的部分，從而有可能縮短可引起解碼期間的延遲的增強(qiáng)幀的時(shí)間長(zhǎng)度，并且縮短語(yǔ)音解碼中的延遲。
(實(shí)施例2)本實(shí)施例將描述使用CELP編碼對(duì)基本層進(jìn)行編碼的例子。圖9是示出根據(jù)本發(fā)明實(shí)施例2的基本層編碼器的內(nèi)部配置的示例方框圖。圖9示出圖3中的基本層編碼器102的內(nèi)部配置。圖9中的基本層編碼器102主要由LPC分析器701、感覺加權(quán)部件702、自適應(yīng)碼本搜索器703、自適應(yīng)向量增益量化器704、目標(biāo)向量生成器705、噪聲碼本搜索器706、噪聲向量增益量化器707以及多路復(fù)用器708構(gòu)成。
LPC分析器701計(jì)算采樣率2*FL的輸入信號(hào)的LPC系數(shù)，并且將這些LPC系數(shù)轉(zhuǎn)換成適于量化的參數(shù)集，如LSP系數(shù)，并且量化該參數(shù)集。然后，LPC分析器701將通過(guò)該量化而獲得的編碼代碼輸出到多路復(fù)用器708。
此外，LPC分析器701從編碼代碼計(jì)算量化LSP系數(shù)，將LSP系數(shù)轉(zhuǎn)換成LPC系數(shù)，并且將量化LPC系數(shù)輸出到自適應(yīng)碼本搜索器703、自適應(yīng)向量增益量化器704、噪聲碼本搜索器706和噪聲向量增益量化器707。此外，LPC分析器701將量化之前的LPC系數(shù)輸出到感覺加權(quán)部件702。
感覺加權(quán)部件702根據(jù)由LPC分析器701獲得的量化和未量化LPC系數(shù)兩者，向從下采樣器101輸出的輸入信號(hào)分配權(quán)重。這旨在執(zhí)行頻譜整形，使得量化失真的頻譜被輸入信號(hào)的頻譜包絡(luò)(spectral envelope)屏蔽。
自適應(yīng)碼本搜索器703使用感覺加權(quán)輸入信號(hào)作為目標(biāo)信號(hào)來(lái)搜索自適應(yīng)碼本。通過(guò)以基頻(pitch)周期重復(fù)過(guò)去的激勵(lì)串而獲得的信號(hào)稱作“自適應(yīng)向量”，并且自適應(yīng)碼本由以預(yù)定范圍內(nèi)的基頻周期生成的自適應(yīng)向量構(gòu)成。
當(dāng)假定感覺加權(quán)輸入信號(hào)為t(n)時(shí)，通過(guò)將由LPC系數(shù)構(gòu)成的合成濾波器的沖擊響應(yīng)卷積為具有基頻周期的自適應(yīng)向量而獲得的信號(hào)為pi(n)，自適應(yīng)碼本搜索器703將最小化表達(dá)式(1)中的評(píng)價(jià)函數(shù)D的自適應(yīng)向量的基頻周期i作為參數(shù)輸出到多路復(fù)用器708。
D=Σn=0N-1t2(n)-(Σn=0N-1t(n)pi(n))2Σn=0N-1pi2(n)---(1)]]>其中N表示向量長(zhǎng)度。表達(dá)式(1)中的第一項(xiàng)與基頻周期i無(wú)關(guān)，因此自適應(yīng)碼本搜索器703僅計(jì)算第二項(xiàng)。
自適應(yīng)向量增益量化器704量化與自適應(yīng)向量相乘的自適應(yīng)向量增益。自適應(yīng)向量增益β以下面表達(dá)式(2)表達(dá)，并且自適應(yīng)向量增益量化器704對(duì)該自適應(yīng)向量增益β進(jìn)行標(biāo)量量化，并且將通過(guò)該量化而獲得的代碼輸出到多路復(fù)用器708。
β=Σn=0N-1t(n)pi(n)Σn=0N-1pi2(n)---(2)]]>目標(biāo)向量生成器705從輸入信號(hào)減去自適應(yīng)向量的影響，生成要在噪聲碼本搜索器706和噪聲向量增益量化器707中使用的目標(biāo)向量，并且輸出這些目標(biāo)向量。在目標(biāo)向量生成器705中，如果假定pi(n)是通過(guò)將合成濾波器的脈沖響應(yīng)卷積為由表達(dá)式1表達(dá)的評(píng)價(jià)函數(shù)D最小時(shí)的自適應(yīng)向量而獲得的信號(hào)，并且βq是由表達(dá)式2表達(dá)的自適應(yīng)向量β進(jìn)行標(biāo)量量化時(shí)的量化值，則以下面表達(dá)式(3)表達(dá)目標(biāo)向量t2(n)t2(n)＝t(n)-βq·p1(n)...(3)噪聲碼本搜索器706使用目標(biāo)向量t2(n)和量化LPC系數(shù)搜索噪聲碼本。例如，隨機(jī)噪聲或者使用大量語(yǔ)音數(shù)據(jù)庫(kù)學(xué)習(xí)的信號(hào)可以用于噪聲碼本搜索器706中的噪聲碼本。此外，為噪聲碼本搜索器706提供的噪聲碼本可以如同代數(shù)碼本一樣，由具有預(yù)定非常小數(shù)目的幅度1的脈沖的向量表達(dá)。該代數(shù)碼本的特征在于能夠通過(guò)小量的計(jì)算確定脈沖位置和脈沖正負(fù)號(hào)(極性)的最佳組合。
當(dāng)假定目標(biāo)向量是t2(n)，并且通過(guò)將合成濾波器的脈沖響應(yīng)卷積為對(duì)應(yīng)于代碼j的噪聲向量而獲得的信號(hào)是cj(n)時(shí)，噪聲碼本搜索器706將最小化下面表達(dá)式(4)的評(píng)價(jià)函數(shù)D的噪聲向量的索引j輸出到多路復(fù)用器708。
D=Σn=0N-1t22(n)-(Σn=0N-1t2(n)cj(n))2Σn=0N-1cj2(n)---(4)]]>噪聲向量增益量化器707量化與噪聲向量相乘的噪聲向量增益。噪聲向量增益量化器707使用下面示出的表達(dá)式(5)計(jì)算噪聲向量增益γ，并且標(biāo)量量化該噪聲向量增益γ，并且將其輸出到多路復(fù)用器708。
γ=Σn=0N-1t2(n)cj(n)Σn=0N-1cj2(n)---(5)]]>多路復(fù)用器708多路復(fù)用量化LPC系數(shù)、自適應(yīng)向量、自適應(yīng)向量增益、噪聲向量以及噪聲向量增益的編碼代碼，并且它將多路復(fù)用結(jié)果輸出到本地解碼器103和多路復(fù)用器109。
下一步，將說(shuō)明解碼側(cè)。圖10是示出根據(jù)本發(fā)明實(shí)施例2的基本層解碼器的內(nèi)部配置的示例方框圖。圖10示出圖8中的基本層解碼器602的內(nèi)部配置。圖10中的基本層解碼器602主要由多路分解器801、激勵(lì)生成器802和合成濾波器803構(gòu)成。
多路分解器801將從多路分解器601輸出的第一編碼代碼分離為量化LPC系數(shù)、自適應(yīng)向量、自適應(yīng)向量增益、噪聲向量以及噪聲向量增益的編碼代碼，并且它將自適應(yīng)向量、自適應(yīng)向量增益、噪聲向量以及噪聲向量增益的編碼代碼輸出到激勵(lì)生成器802。同樣地，多路分解器801將量化LPC系數(shù)的編碼代碼輸出到合成濾波器803。
激勵(lì)生成器802對(duì)自適應(yīng)向量、自適應(yīng)向量增益、噪聲向量以及噪聲向量增益的編碼代碼進(jìn)行解碼，并且它使用下面示出的表達(dá)式(6)生成激勵(lì)向量ex(n)ex(n)＝βq·q(n)+γq·c(n) ...(6)其中q(n)表示自適應(yīng)向量，βq表示自適應(yīng)向量增益，c(n)表示噪聲向量，而γq表示噪聲向量增益。
合成濾波器803從LPC系數(shù)的編碼代碼解碼該量化LPC系數(shù)，并且使用下面示出的表達(dá)式(7)生成合成信號(hào)syn(n)
syn(n)=ex(n)+Σi=1NPαq(i)·syn(n-i)---(7)]]>其中αq表示解碼LPC系數(shù)，并且NP表示LPC系數(shù)的階。合成濾波器803將解碼信號(hào)syn(n)輸出到上采樣器603。
這樣，根據(jù)本實(shí)施例的聲學(xué)編碼設(shè)備和聲學(xué)解碼設(shè)備，發(fā)送側(cè)通過(guò)對(duì)基本層應(yīng)用CELP編碼而對(duì)輸入信號(hào)進(jìn)行編碼，并且接收側(cè)對(duì)基本層應(yīng)用CELP編碼的解碼方法，從而有可能以低比特率實(shí)現(xiàn)高質(zhì)量基本層。
本實(shí)施例的語(yǔ)音編碼設(shè)備也可以采用在合成濾波器803之后設(shè)有后置濾波器的配置，以改善主觀質(zhì)量。圖11是示出根據(jù)本發(fā)明實(shí)施例2的基本層解碼器的內(nèi)部配置的示例方框圖。然而，與圖10相同的組件被分配與圖10相同的標(biāo)號(hào)，并且將省略其詳細(xì)說(shuō)明。
對(duì)于后置濾波器902，可采用各種配置來(lái)改善主觀質(zhì)量。一種典型的方法是使用由通過(guò)多路分解器801的解碼而獲得的LPC系數(shù)構(gòu)成的共振峰增強(qiáng)濾波器的方法。共振峰增強(qiáng)濾波器Hf(z)以下面示出的表達(dá)式(8)表達(dá)Hf(z)=A(z/γn)A(z/γd)·(1-μz-1)---(8)]]>其中1/A(z)表示由解碼的LPC系數(shù)構(gòu)成的合成濾波器，并且γn、γd和μ表示確定濾波器特征的常量。
(實(shí)施例3)該實(shí)施例的特征在于使用變換編碼，由此將增強(qiáng)層的輸入信號(hào)變換成頻域的系數(shù)，然后對(duì)變換后的系數(shù)進(jìn)行編碼。將利用圖12說(shuō)明根據(jù)本實(shí)施例的增強(qiáng)層編碼器108的基本配置。圖12是示出根據(jù)本發(fā)明實(shí)施例3的增強(qiáng)層編碼器的內(nèi)部配置的示例方框圖。圖12示出圖3中的增強(qiáng)層編碼器108的內(nèi)部配置的例子。圖12中的增強(qiáng)層編碼器108主要由MDCT部件1001和量化器1002構(gòu)成。
MDCT部件1001對(duì)從分幀器107輸出的輸入信號(hào)進(jìn)行MDCT變換(改進(jìn)的離散余弦變換)，以獲得MDCT系數(shù)。MDCT變換以分析幀長(zhǎng)度的一半完全重疊連續(xù)的分析幀。并且MDCT的正交基包括分析幀的第一半的“奇函數(shù)”和第二半的“偶函數(shù)”。在合成過(guò)程中，MDCT變換不產(chǎn)生任何幀邊界失真，因?yàn)樗丿B且相加逆變換后的波形。當(dāng)執(zhí)行MDCT時(shí)，將輸入信號(hào)與諸如正弦窗口的窗口函數(shù)相乘。當(dāng)假定一組MDCT系數(shù)為X(n)時(shí)，可以通過(guò)下面示出的表達(dá)式(9)計(jì)算MDCT系數(shù)X(m)=1NΣn=02N-1x(n)cos{(2n+1+N)·(2m+1)π4N}---(9)]]>其中X(n)表示通過(guò)將輸入信號(hào)乘以窗口函數(shù)而獲得的信號(hào)。
量化器1002量化由MDCT部件1001計(jì)算的MDCT系數(shù)。更具體地說(shuō)，量化器1002對(duì)MDCT系數(shù)進(jìn)行標(biāo)量量化?；蛘?，由多個(gè)MDCT系數(shù)形成向量，并且對(duì)其進(jìn)行向量量化。尤其當(dāng)應(yīng)用標(biāo)量量化時(shí)，上述量化方法往往增大比特率，以便獲得足夠的質(zhì)量。為此，當(dāng)有可能將足夠的比特分配給增強(qiáng)層時(shí)，該量化方法是有效的。然后，量化器1002將通過(guò)對(duì)MDCT系數(shù)進(jìn)行量化而獲得的代碼輸出到多路復(fù)用器109。
接下來(lái)，將說(shuō)明通過(guò)緩和比特率的增大而高效地量化MDCT系數(shù)的方法。圖13示出MDCT系數(shù)的排列的例子。在圖13中，橫軸表示時(shí)間，而縱軸表示頻率。
要在增強(qiáng)層中編碼的MDCT系數(shù)可以如圖13所示采用具有時(shí)間方向和頻率方向的二維矩陣表達(dá)。在本實(shí)施例中，為一個(gè)基本幀設(shè)置八個(gè)增強(qiáng)幀，因此橫軸變成八維，并且縱軸具有與增強(qiáng)幀的長(zhǎng)度匹配的維數(shù)。在圖13中，縱軸以16維表達(dá)，但是維數(shù)不限于此。
為了為圖13中表達(dá)的所有MDCT系數(shù)獲得足夠高的SNR，量化需要很多比特。為了避免該問(wèn)題，本實(shí)施例的聲學(xué)編碼設(shè)備僅量化包括在預(yù)定頻帶內(nèi)的MDCT系數(shù)，并且不發(fā)送有關(guān)其它MDCT系數(shù)的信息。也就是，量化圖13的陰影區(qū)域1101內(nèi)的MDCT系數(shù)，而不量化其它MDCT系數(shù)。
該量化方法基于這樣的概念，即已經(jīng)在基本層中以足夠的質(zhì)量對(duì)要由基本層編碼的頻帶(0到FL)進(jìn)行了編碼，并且該頻帶具有足夠的信息量，因此在增強(qiáng)層中只需對(duì)其它頻帶(例如，F(xiàn)L到FH)進(jìn)行編碼。或者該量化方法基于這樣的概念，即編碼失真往往在由基本層編碼的頻帶的高頻部分中增大，因此只需對(duì)由基本層編碼的頻帶的高頻部分和未由基本層編碼的頻帶進(jìn)行編碼。
這樣，通過(guò)僅關(guān)心不能被基本層的編碼覆蓋的域或者不能被基本層的編碼覆蓋的域以及包括由基本層的編碼覆蓋的頻帶的一部分作為編碼目標(biāo)的域，有可能減少要編碼的信號(hào)，并且實(shí)現(xiàn)MDCT系數(shù)的高效量化，同時(shí)緩和比特率的增大。
接下來(lái)，將說(shuō)明解碼側(cè)。
以下，將說(shuō)明使用改進(jìn)的離散余弦逆變換(IMDCT)作為從頻域變換到時(shí)域的方法的情況。圖14是示出根據(jù)本發(fā)明實(shí)施例3的增強(qiáng)層解碼器的內(nèi)部配置的示例方框圖。圖14示出圖8中的增強(qiáng)層解碼器604的內(nèi)部配置的例子。圖14中的增強(qiáng)層解碼器604主要由MDCT系數(shù)解碼器1201和IMDCT部件1202構(gòu)成。
MDCT系數(shù)解碼器1201從由多路分解器601輸出的第二編碼代碼解碼該量化MDCT系數(shù)。IMDCT部件1202對(duì)從MDCT系數(shù)解碼器1201輸出的MDCT系數(shù)應(yīng)用IMDCT，生成時(shí)域信號(hào)，并且將時(shí)域信號(hào)輸出到疊加器605。
這樣，根據(jù)本實(shí)施例的聲學(xué)編碼設(shè)備和聲學(xué)解碼設(shè)備，將差值信號(hào)從時(shí)域變換到頻域，對(duì)不能被基本層編碼覆蓋的增強(qiáng)層中的變換信號(hào)的頻域進(jìn)行編碼，從而能夠?yàn)橹T如音樂的具有較大頻譜變化的信號(hào)實(shí)現(xiàn)高效的編碼。
要由增強(qiáng)層編碼的頻帶無(wú)需被固定為FL到FH。要在增強(qiáng)層中編碼的頻帶根據(jù)基本層的編碼方法的特征和包括在輸入信號(hào)的高頻帶內(nèi)的信息量而變化。因此，如實(shí)施例2所述，在寬帶信號(hào)的CELP編碼用于基本層并且輸入信號(hào)是語(yǔ)音的情況下，可推薦將由增強(qiáng)層編碼的頻帶設(shè)為6kHz到9kHz。
(實(shí)施例4)人類感覺特征具有屏蔽效應(yīng)，即當(dāng)提供特定信號(hào)時(shí)，其頻率接近于該信號(hào)的頻率的信號(hào)不能被聽到。本實(shí)施例的特征在于基于輸入信號(hào)找出感覺屏蔽，并且利用感覺屏蔽執(zhí)行增強(qiáng)層的編碼。
圖15是示出根據(jù)本發(fā)明實(shí)施例4的聲學(xué)編碼設(shè)備的配置的方框圖。然而，相同于圖3的組件被分配相同于圖3的標(biāo)號(hào)，并且將省略其詳細(xì)描述。圖15中的聲學(xué)編碼設(shè)備1300包括感覺屏蔽計(jì)算部件1301和增強(qiáng)層編碼器1302，并且其不同于圖3中的聲學(xué)編碼設(shè)備之處在于它從輸入信號(hào)的頻譜計(jì)算感覺屏蔽，并且量化MDCT系數(shù)，使得量化失真降到該屏蔽值之下。
延遲器105將輸入信號(hào)延遲預(yù)定時(shí)間，并且將延遲的輸入信號(hào)輸出到減法器106和感覺屏蔽計(jì)算部件1301。感覺屏蔽計(jì)算部件1301計(jì)算表示不能被人類聽覺感覺到的頻譜的幅度的感覺屏蔽，并且將該感覺屏蔽輸出到增強(qiáng)層編碼器1302。增強(qiáng)層編碼器1302對(duì)具有超過(guò)感覺屏蔽的頻譜的域的差值信號(hào)進(jìn)行編碼，并且將差值信號(hào)的編碼代碼輸出到多路復(fù)用器109。
接下來(lái)，將說(shuō)明感覺屏蔽計(jì)算部件1301的詳細(xì)信息。圖16是示出本實(shí)施例中的感覺屏蔽計(jì)算部件的內(nèi)部配置的示例方框圖。圖16中的感覺屏蔽計(jì)算部件1301主要由FFT部件1401、巴克(bark)頻譜計(jì)算器1402、擴(kuò)頻函數(shù)(spread function)卷積器1403、音調(diào)計(jì)算器1404以及感覺屏蔽計(jì)算器1405構(gòu)成。
在圖16中，F(xiàn)FT部件1401對(duì)從延遲器105輸出的輸入信號(hào)進(jìn)行傅立葉變換，并且計(jì)算傅立葉系數(shù){Re(m)，Im(m)}。這里，m表示頻率。
巴克頻譜計(jì)算器1402使用下面示出的表達(dá)式(10)計(jì)算巴克頻譜B(k)B(k)=Σm=fl(k)fh(k)P(m)---(10)]]>其中P(m)表示通過(guò)下面示出的表達(dá)式(11)計(jì)算的功率頻譜P(m)＝Re2(m)+Im2(m) ...(11)其中Re(m)和Im(m)分別表示具有頻率m的復(fù)譜的實(shí)部和虛部。此外，k對(duì)應(yīng)于巴克頻譜的序號(hào)，F(xiàn)L(k)和FH(k)分別表示第k個(gè)巴克頻譜的最小頻率(Hz)和最大頻率(Hz)。巴克頻譜B(k)表示當(dāng)在巴克標(biāo)度上以有規(guī)律的間隔將頻譜分成多個(gè)頻帶時(shí)頻譜的強(qiáng)度。當(dāng)以f表達(dá)赫茲標(biāo)度并且以B表達(dá)巴克標(biāo)度時(shí)，赫茲標(biāo)度和巴克標(biāo)度之間的關(guān)系以下面示出的表達(dá)式(12)表達(dá)B=13tan-1(0.76f)+3.5tan-1(f7.5)---(12)]]>擴(kuò)頻函數(shù)卷積器1403將擴(kuò)頻函數(shù)SF(k)卷積到巴克頻譜B(k)中，以計(jì)算C(k)。
C(k)＝B(k)*SF(k)...(13)音調(diào)計(jì)算器1404使用下面示出的表達(dá)式(14)從能頻P(m)計(jì)算每個(gè)巴克頻譜的頻譜平坦度SFM(k)SFM(k)=μg(k)μa(k)---(14)]]>其中μg(k)表示第k巴克頻譜的幾何平均值，而μa(k)表示第k個(gè)巴克頻譜的算術(shù)平均值。音調(diào)計(jì)算器1404利用下面示出的表達(dá)式(15)，從頻譜平坦度SFM(k)的分貝值SFM dB(k)計(jì)算音調(diào)系數(shù)α(k)α(k)=min(SFMdB(k)-60,1.0)---(15)]]>感覺屏蔽計(jì)算器1405利用下面示出的表達(dá)式(16)，從由音調(diào)計(jì)算器1404算出的音調(diào)系數(shù)α(k)計(jì)算每個(gè)巴克標(biāo)度的偏移O(k)O(k)＝α(k)·(14.5-k)+(1.0-α(k))·5.5...(16)然后，感覺屏蔽計(jì)算器1405利用下面示出的表達(dá)式(17)，從由擴(kuò)頻函數(shù)卷積器1403獲得的C(k)減去偏移O(k)，以計(jì)算感覺屏蔽T(k)。
T(k)=max(10log10(C(k))-(O(k)/10),Tq(k))---(17)]]>其中Tq(k)表示絕對(duì)閾值。該絕對(duì)閾值表示作為人類感覺特征而觀察到的感覺屏蔽的最小值。感覺屏蔽計(jì)算器1405將在巴克標(biāo)度上表達(dá)的感覺屏蔽T(k)變換成赫茲標(biāo)度M(m)，并且將其輸出到增強(qiáng)層編碼器1302。
利用這樣獲得的感覺屏蔽M(m)，增強(qiáng)層編碼器1302對(duì)MDCT系數(shù)進(jìn)行編碼。圖17是示出本實(shí)施例的增強(qiáng)層編碼器的內(nèi)部配置的示例方框圖。圖17中的增強(qiáng)層編碼器1302主要由MDCT部件1501和MDCT系數(shù)量化器1502構(gòu)成。
MDCT部件1501將從分幀器107輸出的輸入信號(hào)乘以分析窗口，對(duì)輸入信號(hào)進(jìn)行MDCT變換(改進(jìn)的離散余弦變換)，以獲得MDCT系數(shù)。MDCT以分析幀長(zhǎng)度的一半重疊連續(xù)的分析。并且MDCT的正交基包括分析幀的第一半的奇函數(shù)和第二半的偶函數(shù)。在合成過(guò)程中，MDCT重疊逆變換后的波形，并且相加這些波形，因此不發(fā)生幀邊界失真。當(dāng)執(zhí)行MDCT時(shí)，將輸入信號(hào)與諸如正弦窗口的窗口函數(shù)相乘。當(dāng)假定MDCT系數(shù)為X(n)時(shí)，根據(jù)表達(dá)式(9)計(jì)算MDCT系數(shù)。
MDCT系數(shù)量化器1502將從感覺屏蔽計(jì)算部件1301輸出的感覺屏蔽用于從MDCT部件1501輸出的MDCT系數(shù)，以將MDCT系數(shù)分類成要量化的系數(shù)和不要量化的系數(shù)，并且僅對(duì)要量化的系數(shù)進(jìn)行編碼。更具體地說(shuō)，MDCT系數(shù)量化器1502將MDCT系數(shù)X(m)與感覺屏蔽M(m)進(jìn)行比較，并且忽略其強(qiáng)度小于M(m)的MDCT系數(shù)X(m)，并且從編碼目標(biāo)中排除它們，因?yàn)檫@樣的MDCT系數(shù)X(m)由于感覺屏蔽效應(yīng)而不被人類聽覺感覺到，并且僅量化其強(qiáng)度大于M(m)的MDCT系數(shù)。然后，MDCT系數(shù)量化器1502將該量化MDCT系數(shù)輸出到多路復(fù)用器109。
這樣，本實(shí)施例的聲學(xué)編碼設(shè)備利用屏蔽效應(yīng)的特性，從輸入信號(hào)的頻譜計(jì)算感覺屏蔽，在增強(qiáng)層的編碼期間執(zhí)行量化，使得量化失真降到該屏蔽值之下，從而可以減少要量化的MDCT系數(shù)的數(shù)目，而不導(dǎo)致質(zhì)量降低，并且以低比特率和高質(zhì)量實(shí)現(xiàn)編碼。
上面實(shí)施例說(shuō)明了利用FFT計(jì)算感覺屏蔽的方法，但是也有可能利用MDCT而非FFT計(jì)算感覺屏蔽。圖18是示出本實(shí)施例的感覺屏蔽計(jì)算部件的內(nèi)部配置的示例方框圖。然而，相同于圖16的組件被分配相同于圖16的標(biāo)號(hào)，并且將省略其詳細(xì)說(shuō)明。
MDCT部件1601使用MDCT系數(shù)近似功率頻譜P(m)。更具體地說(shuō)，MDCT部件1601利用下面表達(dá)式(18)近似P(m)P(m)＝R2(m)...(18)其中R(m)表示通過(guò)對(duì)輸入信號(hào)進(jìn)行MDCT變換而獲得的MDCT系數(shù)。
巴克頻譜計(jì)算器1402從由MDCT部件1601近似的P(m)計(jì)算巴克頻譜B(k)。從那時(shí)起，根據(jù)上述方法計(jì)算感覺屏蔽。
(實(shí)施例5)該實(shí)施例涉及增強(qiáng)層編碼器1302，并且其特征是它涉及一種當(dāng)超過(guò)感覺屏蔽的MDCT系數(shù)是量化目標(biāo)時(shí)、高效地對(duì)這些MDCT系數(shù)的位置信息進(jìn)行編碼的方法。
圖19是示出根據(jù)本發(fā)明實(shí)施例5的增強(qiáng)層編碼器的內(nèi)部配置的示例方框圖。圖19示出圖15中的增強(qiáng)層編碼器1302的內(nèi)部配置的例子。圖19中的增強(qiáng)層編碼器1302主要由MDCT部件1701、量化位置確定部件1702、MDCT系數(shù)量化器1703、量化位置編碼器1704以及多路復(fù)用器1705構(gòu)成。
MDCT部件1701將從分幀器107輸出的輸入信號(hào)乘以分析窗口，然后對(duì)輸入信號(hào)進(jìn)行MDCT變換(改進(jìn)的離散余弦變換)，以獲得MDCT系數(shù)。通過(guò)以分析幀長(zhǎng)度的一半重疊連續(xù)的分析幀來(lái)執(zhí)行MDCT變換，并且使用分析幀的第一半的奇函數(shù)和第二半的偶函數(shù)的正交基。在合成過(guò)程中，MDCT變換重疊逆變換后的波形，并且相加這些波形，因此不發(fā)生幀邊界失真。當(dāng)執(zhí)行MDCT時(shí)，將輸入信號(hào)與諸如正弦窗口的窗口函數(shù)相乘。當(dāng)假定MDCT系數(shù)為X(n)時(shí)，根據(jù)表達(dá)式(9)計(jì)算MDCT系數(shù)。
由MDCT部件1701計(jì)算的MDCT系數(shù)表示為X(j，m)。這里，j表示增強(qiáng)幀的幀號(hào)，而m表示頻率。本實(shí)施例將說(shuō)明增強(qiáng)幀的時(shí)間長(zhǎng)度為基本幀的時(shí)間長(zhǎng)度的1/8的情況。圖20示出MDCT系數(shù)的排列的例子。MDCT系數(shù)X(j，m)如圖20所示，可以在其橫軸表示時(shí)間而其縱軸表示頻率的矩陣上表達(dá)。MDCT部件1701將MDCT系數(shù)X(j，m)輸出到量化位置確定部件1702和MDCT系數(shù)量化部件1703。
量化位置確定部件1702比較從感覺屏蔽計(jì)算部件1301輸出的感覺屏蔽M(j，m)與從MDCT部件1701輸出的MDCT系數(shù)X(j，m)，并且確定要量化哪些位置的MDCT系數(shù)。
更具體地說(shuō)，當(dāng)滿足下面示出的表達(dá)式(19)時(shí)，量化位置確定部件1702量化X(j，m)。
|X(j，m)|-M(j，m)＞0...(19)然后，當(dāng)滿足表達(dá)式(20)時(shí)，量化位置確定部件1702不量化X(j，m)。
|X(j，m)|-M(j，m)≤0...(20)然后，量化位置確定部件1702將要量化的MDCT系數(shù)X(j，m)的位置信息輸出到MDCT系數(shù)量化部件1703和量化位置編碼器1704。這里，位置信息表示時(shí)間j和頻率m的組合。
在圖20中，由量化位置確定部件1702確定的要量化的MDCT系數(shù)X(j，m)的位置以陰影區(qū)域表達(dá)。在本例中，位置(j，m)＝(6，1)、(5，3)、...、(7，15)、(5，16)的MDCT系數(shù)X(j，m)是量化目標(biāo)。
這里，假定通過(guò)與增強(qiáng)幀同步來(lái)計(jì)算感覺屏蔽M(j，m)。然而，由于計(jì)算量等的限制，也有可能與基本幀同步來(lái)計(jì)算感覺屏蔽M(j，m)。在這種情況下，與感覺屏蔽與增強(qiáng)幀同步的情況相比，感覺屏蔽的計(jì)算量減至1/8。此外，在這種情況下，首先通過(guò)基本幀獲得感覺屏蔽，然后將相同的感覺屏蔽用于所有增強(qiáng)幀。
MDCT系數(shù)量化部件1703量化在由量化位置確定部件1702確定的位置上的MDCT系數(shù)X(j，m)。當(dāng)執(zhí)行量化時(shí)，MDCT系數(shù)量化部件1703使用有關(guān)感覺屏蔽M(j，m)的信息，并且執(zhí)行量化，使得量化誤差降到感覺屏蔽M(j，m)之下。當(dāng)假定量化的MDCT系數(shù)為X’(j，m)時(shí)，MDCT系數(shù)量化部件1703執(zhí)行量化，使得滿足下面示出的表達(dá)式(21)。
|X(j，m)-X′(j，m)|≤M(j，m) ...(21)然后，MDCT系數(shù)量化部件1703將量化代碼輸出到多路復(fù)用器1705。
量化位置編碼器1704對(duì)位置信息進(jìn)行編碼。例如，量化位置編碼器1704使用游程長(zhǎng)度編碼方法對(duì)位置信息進(jìn)行編碼。量化位置編碼器1704在時(shí)間軸方向上從最低頻率開始掃描，并且以把要編碼的系數(shù)不連續(xù)存在的位置數(shù)和要編碼的系數(shù)連續(xù)存在的位置數(shù)視作位置信息的方式執(zhí)行編碼。
更具體地說(shuō)，量化位置編碼器1704在j增大的方向上從(j，m)＝(1，1)開始掃描，并且使用直到出現(xiàn)要編碼的系數(shù)為止的位置數(shù)作為位置信息執(zhí)行編碼。
在圖20中，從(j，m)＝(1，1)到成為第一個(gè)編碼目標(biāo)的系數(shù)的位置(j，m)＝(1，6)的距離是5，然后，由于只有一個(gè)要編碼的系數(shù)連續(xù)存在，因此要編碼的系數(shù)連續(xù)存在的位置數(shù)為1，然后不要編碼的系數(shù)連續(xù)存在的位置數(shù)為14。這樣，在圖20中，表達(dá)位置信息的代碼是5、1、14、1、4、1、4...、5、1、3。量化位置編碼器1704將該位置信息輸出到多路復(fù)用器1705。多路復(fù)用器1705多路復(fù)用有關(guān)MDCT系數(shù)X(j，m)的量化的信息和位置信息，并且將多路復(fù)用結(jié)果輸出到多路復(fù)用器109。
接下來(lái)，將說(shuō)明解碼側(cè)。圖21是示出根據(jù)本發(fā)明實(shí)施例5的增強(qiáng)層解碼器的內(nèi)部配置的示例方框圖。圖21示出圖8中的增強(qiáng)層解碼器604的內(nèi)部配置的例子。圖21中的增強(qiáng)層解碼器604主要由多路分解器1901、MDCT系數(shù)解碼器1902、量化位置解碼器1903、時(shí)間-頻率矩陣生成器1904以及IMDCT部件1905構(gòu)成。
多路分解器1901將從多路分解器601輸出的第二編碼代碼分離為MDCT系數(shù)量化信息以及量化位置信息，并且將MDCT系數(shù)量化信息輸出到MDCT系數(shù)解碼器1902，并且將量化位置信息輸出到量化位置解碼器1903。
MDCT系數(shù)解碼器1902從由多路分解器1901輸出的MDCT系數(shù)量化信息解碼MDCT系數(shù)，并且將解碼的MDCT系數(shù)輸出到時(shí)間-頻率矩陣生成器1904。
量化位置解碼器1903從由多路分解器1901輸出的量化位置信息解碼量化位置信息，并且將解碼的量化位置信息輸出到時(shí)間-頻率矩陣生成器1904。該量化位置信息是表示時(shí)間-頻率矩陣中的解碼MDCT系數(shù)的位置的信息。
時(shí)間-頻率矩陣生成器1904使用從量化位置解碼器1903輸出的量化位置信息和從MDCT系數(shù)解碼器1902輸出的解碼MDCT系數(shù)生成圖20所示的時(shí)間-頻率矩陣。圖20以陰影區(qū)域示出存在解碼MDCT系數(shù)的位置，并且以空白區(qū)域示出不存在解碼MDCT系數(shù)的位置。在空白區(qū)域內(nèi)的位置上，不存在解碼MDCT系數(shù)，因此，提供0作為解碼MDCT系數(shù)。
然后，時(shí)間-頻率矩陣生成器1904針對(duì)每個(gè)增強(qiáng)幀(j＝1到J)將解碼MDCT系數(shù)輸出到IMDCT部件1905。IMDCT部件1905對(duì)解碼MDCT系數(shù)應(yīng)用IMDCT，生成時(shí)域信號(hào)，并且將該信號(hào)輸出到疊加器605。
這樣，本實(shí)施例的聲學(xué)編碼設(shè)備和聲學(xué)解碼設(shè)備在增強(qiáng)層中編碼的期間將剩余信號(hào)從時(shí)域變換到頻域，然后執(zhí)行感覺屏蔽，以確定要編碼的系數(shù)，并且對(duì)有關(guān)頻率和幀號(hào)的兩維位置信息進(jìn)行編碼，從而可以利用要編碼的系數(shù)和不要編碼的系數(shù)的位置是連續(xù)的這一事實(shí)減少信息量，并且以低比特率和高質(zhì)量執(zhí)行編碼。
(實(shí)施例6)圖22是示出根據(jù)本發(fā)明實(shí)施例6的增強(qiáng)層編碼器的內(nèi)部配置的示例方框圖。圖22示出圖15中的增強(qiáng)層編碼器1302的內(nèi)部配置的例子。然而，相同于圖19的組件被分配相同于圖19的標(biāo)號(hào)，并且將省略其詳細(xì)說(shuō)明。圖22中的增強(qiáng)層編碼器1302包括分域器2001、量化域確定部件2002、MDCT系數(shù)量化部件2003以及量化域編碼器2004，并且涉及另一種當(dāng)超過(guò)感覺屏蔽的MDCT系數(shù)是量化目標(biāo)時(shí)、高效地對(duì)MDCT系數(shù)的位置信息進(jìn)行編碼的方法。
分域器2001將由MDCT部件1701獲得的MDCT系數(shù)X(j，m)分成多個(gè)域。這里，域是指多個(gè)MDCT系數(shù)的位置和集合，并且預(yù)先確定為為編碼器和解碼器共有的信息。
量化域確定部件2002確定要量化的域。更具體地說(shuō)，當(dāng)將域表達(dá)為S(k)(k＝1到K)時(shí)，量化域確定部件2002計(jì)算這些MDCT系數(shù)X(j，m)超過(guò)包括在域S(k)中的感覺屏蔽M(m)的量的總和，并且按照該總和的幅度以降序選擇K’(K’＜K)個(gè)域。
圖23示出MDCT系數(shù)的排列的例子。圖23示出域S(k)的例子。圖23中的陰影區(qū)域表示由量化域確定部件2002確定的要量化的域。在本例中，域S(k)是在時(shí)間軸方向上為四維、在頻率軸方向上為二維的矩形，并且量化目標(biāo)是四個(gè)域S(6)、S(8)、S(11)和S(14)。
如上所述，量化域確定部件2002根據(jù)MDCT系數(shù)X(j，m)超過(guò)感覺屏蔽M(j，m)的量的總和確定應(yīng)當(dāng)量化哪些域S(k)?？偤蚔(k)通過(guò)下面表達(dá)式(22)來(lái)計(jì)算V(k)=Σ(j,m)&Element;S(K)(MAX(|X(j,m)|-M(j,m),0))2---(22)]]>根據(jù)該方法，根據(jù)輸入信號(hào)可以幾乎不選擇高頻域V(k)。因此，代替表達(dá)式(22)，也有可能使用在下面示出的表達(dá)式(23)中表達(dá)的、以MDCT系數(shù)X(j，m)的強(qiáng)度歸一化的方法V(k)=Σ(j,m)&Element;S(K)(MAX(|X(j,m)|-M(j,m),0))2Σ(j,m)&Element;S(K)X(j,m)2---(23)]]>然后，量化域確定部件2002將有關(guān)要量化的域的信息輸出到MDCT系數(shù)量化部件2003和量化域編碼器2004。
量化域編碼器2004向要量化的域分配代碼1，而向其它域分配代碼0，并且將這些代碼輸出到多路復(fù)用器1705。在圖23的情況下，這些代碼為0000、0101、0010、0100。此外，該代碼還可使用游程長(zhǎng)度編碼方法來(lái)表達(dá)。在這種情況下，所獲得的代碼是5、1、1、1、2、1、2、1、2。
MDCT系數(shù)量化部件2003量化包括在由量化域確定部件2002確定的域中的MDCT系數(shù)。作為量化方法，還有可能從包括在域中的MDCT系數(shù)構(gòu)造一個(gè)或多個(gè)向量，并且執(zhí)行向量量化。在執(zhí)行向量量化中，還有可能使用由感覺屏蔽M(j，m)加權(quán)的標(biāo)度。
接下來(lái)，將說(shuō)明解碼側(cè)。圖24是示出根據(jù)本發(fā)明實(shí)施例6的增強(qiáng)層解碼器的內(nèi)部配置的示例方框圖。圖24示出圖8中的增強(qiáng)層解碼器604的內(nèi)部配置的例子。圖24中的增強(qiáng)層解碼器604主要由多路分解器2201、MDCT系數(shù)解碼器2202、量化域解碼器2203、時(shí)間-頻率矩陣生成器2204以及IMDCT部件2205構(gòu)成。
本實(shí)施例的特征在于能夠?qū)τ蓪?shí)施例6的前述增強(qiáng)層編碼器1302生成的編碼代碼進(jìn)行解碼。
多路分解器2201將從多路分解器601輸出的第二編碼代碼分離為MDCT系數(shù)量化信息和量化域信息，將MDCT系數(shù)量化信息輸出到MDCT系數(shù)解碼器2202，并將量化域信息輸出到量化域解碼器2203。
MDCT系數(shù)解碼器2202根據(jù)從多路分解器2201獲得的MDCT系數(shù)量化信息解碼MDCT系數(shù)。量化域解碼器2203根據(jù)從多路分解器2201獲得的量化域信息解碼量化域信息。該量化域信息是表達(dá)各個(gè)解碼MDCT系數(shù)屬于時(shí)間頻率矩陣中的哪個(gè)域的信息。
時(shí)間-頻率矩陣生成器2204使用從量化域解碼器2203獲得的量化域信息和從MDCT系數(shù)解碼器2202獲得的解碼MDCT系數(shù)，生成圖23所示的時(shí)間-頻率矩陣。在圖23中，以陰影區(qū)域表達(dá)存在解碼MDCT系數(shù)的域，而以空白區(qū)域表達(dá)不存在解碼MDCT系數(shù)的域。由于不存在解碼MDCT系數(shù)，因此空白區(qū)域提供0作為解碼MDCT系數(shù)。
然后，時(shí)間-頻率矩陣生成器2204將每個(gè)增強(qiáng)幀(j＝1到J)的解碼MDCT系數(shù)輸出到IMDCT部件2205。IMDCT部件2205對(duì)解碼MDCT系數(shù)應(yīng)用IMDCT，生成時(shí)域信號(hào)，并且將該信號(hào)輸出到疊加器605。
這樣，本實(shí)施例的聲學(xué)編碼設(shè)備和聲學(xué)解碼設(shè)備以組單元(域)設(shè)置存在超過(guò)感覺屏蔽的剩余信號(hào)的時(shí)域和頻域的位置信息，從而可以以較少比特表達(dá)要編碼的域的位置，并且實(shí)現(xiàn)低比特率。
(實(shí)施例7)接下來(lái)，將參照

實(shí)施例7。圖25是示出根據(jù)本發(fā)明實(shí)施例7的通信設(shè)備的配置的方框圖。本實(shí)施例的特征在于圖25中的信號(hào)處理設(shè)備2303由實(shí)施例1到實(shí)施例6所示的前述聲學(xué)編碼設(shè)備之一構(gòu)成。
如圖25所示，根據(jù)本發(fā)明實(shí)施例7的通信設(shè)備2300包括輸入設(shè)備2301、A/D轉(zhuǎn)換設(shè)備2302和連接到網(wǎng)絡(luò)2304的信號(hào)處理設(shè)備2303。
A/D轉(zhuǎn)換設(shè)備2302連接到輸入設(shè)備2301的輸出端。信號(hào)處理設(shè)備2303的輸入端連接到A/D轉(zhuǎn)換設(shè)備2302的輸出端。信號(hào)處理設(shè)備2303的輸出端連接到網(wǎng)絡(luò)2304。
輸入設(shè)備2301將可為人耳聽見的聲波轉(zhuǎn)換為作為電信號(hào)的模擬信號(hào)，并且將其提供給A/D轉(zhuǎn)換設(shè)備2302。A/D轉(zhuǎn)換設(shè)備2302將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)，并且將其提供給信號(hào)處理設(shè)備2303。信號(hào)處理設(shè)備2303對(duì)所輸入的數(shù)字信號(hào)進(jìn)行編碼，生成代碼，并且將該代碼輸出到網(wǎng)絡(luò)2304。
這樣，根據(jù)本發(fā)明的本實(shí)施例的通信設(shè)備可提供能夠?qū)崿F(xiàn)實(shí)施例1到6所示效果的聲學(xué)編碼設(shè)備，并且高效地以較少比特對(duì)聲學(xué)信號(hào)進(jìn)行編碼。
(實(shí)施例8)接下來(lái)，將參照

本發(fā)明的實(shí)施例8。圖26是示出根據(jù)本發(fā)明實(shí)施例8的通信設(shè)備的配置的方框圖。本實(shí)施例的特征在于圖26中的信號(hào)處理設(shè)備2303由實(shí)施例1到實(shí)施例6所示的前述聲學(xué)解碼設(shè)備之一構(gòu)成。
如圖26所示，根據(jù)本發(fā)明實(shí)施例8的通信設(shè)備2400包括連接到網(wǎng)絡(luò)2401的接收設(shè)備2402、信號(hào)處理設(shè)備2403、D/A轉(zhuǎn)換設(shè)備2404以及輸出設(shè)備2405。
接收設(shè)備2402的輸入端連接到網(wǎng)絡(luò)2401。信號(hào)處理設(shè)備2403的輸入端連接到接收設(shè)備2402的輸出端。D/A轉(zhuǎn)換設(shè)備2404的輸入端連接到信號(hào)處理設(shè)備2403的輸出端。輸出設(shè)備2405的輸入端連接到D/A轉(zhuǎn)換設(shè)備2404的輸出端。
接收設(shè)備2402從網(wǎng)絡(luò)2401接收數(shù)字編碼聲學(xué)信號(hào)，生成數(shù)字接收聲學(xué)信號(hào)，并且將其提供給信號(hào)處理設(shè)備2403。信號(hào)處理設(shè)備2403從接收設(shè)備2402接收所接收的聲學(xué)信號(hào)，對(duì)所接收聲學(xué)信號(hào)應(yīng)用解碼處理，生成數(shù)字解碼聲學(xué)信號(hào)，并且將其提供給D/A轉(zhuǎn)換設(shè)備2404。D/A轉(zhuǎn)換設(shè)備2404轉(zhuǎn)換來(lái)自信號(hào)處理設(shè)備2403的數(shù)字解碼語(yǔ)音信號(hào)，生成模擬解碼語(yǔ)音信號(hào)，并且將其提供給輸出設(shè)備2405。輸出設(shè)備2405將作為電信號(hào)的模擬解碼聲學(xué)信號(hào)轉(zhuǎn)換成空氣振動(dòng)，并且將其作為人耳可聽到的聲波輸出。
這樣，本實(shí)施例的通信設(shè)備可以在通信中實(shí)現(xiàn)實(shí)施例1到6所示的前述效果，高效地以較少比特對(duì)編碼聲學(xué)信號(hào)進(jìn)行解碼，從而輸出高質(zhì)量聲學(xué)信號(hào)。
(實(shí)施例9)接下來(lái)，將參照

本發(fā)明的實(shí)施例9。圖27是示出根據(jù)本發(fā)明實(shí)施例9的通信設(shè)備的配置的方框圖。本發(fā)明的實(shí)施例9的特征在于圖27中的信號(hào)處理設(shè)備2503由實(shí)施例1到實(shí)施例6所示的前述聲學(xué)編碼部件之一構(gòu)成。
如圖27所示，根據(jù)本發(fā)明實(shí)施例9的通信設(shè)備2500包括輸入設(shè)備2501、A/D轉(zhuǎn)換設(shè)備2502、信號(hào)處理設(shè)備2503、RF調(diào)制設(shè)備2504以及天線2505。
輸入設(shè)備2501將可為人耳聽見的聲波轉(zhuǎn)換為作為電信號(hào)的模擬信號(hào)，并且將其提供給A/D轉(zhuǎn)換設(shè)備2502。A/D轉(zhuǎn)換設(shè)備2502將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)，并且將其提供給信號(hào)處理設(shè)備2503。信號(hào)處理設(shè)備2503對(duì)所輸入的數(shù)字信號(hào)進(jìn)行編碼，生成編碼聲學(xué)信號(hào)，并且將其提供給RF調(diào)制設(shè)備2504。RF調(diào)制設(shè)備2504對(duì)編碼聲學(xué)信號(hào)進(jìn)行調(diào)制，生成調(diào)制的編碼聲學(xué)信號(hào)，并且將其提供給天線2505。天線2505作為無(wú)線電波發(fā)送調(diào)制的編碼聲學(xué)信號(hào)。
這樣，本實(shí)施例的通信設(shè)備可以在無(wú)線電通信中實(shí)現(xiàn)如實(shí)施例1到6所示的效果，并且高效地以較少比特對(duì)聲學(xué)信號(hào)進(jìn)行編碼。
本發(fā)明適用于使用音頻信號(hào)的發(fā)送設(shè)備、發(fā)送編碼設(shè)備或聲學(xué)信號(hào)編碼設(shè)備。此外，本發(fā)明還適用于移動(dòng)臺(tái)設(shè)備或基站設(shè)備。
(實(shí)施例10)接下來(lái)，將參照

本發(fā)明的實(shí)施例10。圖28是示出根據(jù)本發(fā)明實(shí)施例10的通信設(shè)備的配置的方框圖。本發(fā)明的實(shí)施例10的特征在于圖28中的信號(hào)處理設(shè)備2603由實(shí)施例1到實(shí)施例6所示的前述聲學(xué)編碼部件之一構(gòu)成。
如圖28所示，根據(jù)本發(fā)明實(shí)施例10的通信設(shè)備2600包括天線2601、RF解調(diào)設(shè)備2602、信號(hào)處理設(shè)備2603、D/A轉(zhuǎn)換設(shè)備2604以及輸出設(shè)備2605。
天線2601接收作為無(wú)線電波的數(shù)字編碼聲學(xué)信號(hào)，生成作為電信號(hào)的數(shù)字接收編碼聲學(xué)信號(hào)，并且將其提供給RF解調(diào)設(shè)備2602。RF解調(diào)設(shè)備2602對(duì)來(lái)自天線2601的接收編碼聲學(xué)信號(hào)進(jìn)行解調(diào)，生成解調(diào)的編碼聲學(xué)信號(hào)，并且將其提供給信號(hào)處理設(shè)備2603。
信號(hào)處理設(shè)備2603從RF解調(diào)設(shè)備2602接收數(shù)字解調(diào)編碼聲學(xué)信號(hào)，執(zhí)行解碼處理，生成數(shù)字解碼聲學(xué)信號(hào)，并且將其提供給D/A轉(zhuǎn)換設(shè)備2604。D/A轉(zhuǎn)換設(shè)備2604轉(zhuǎn)換來(lái)自信號(hào)處理設(shè)備2603的數(shù)字解碼語(yǔ)音信號(hào)，生成模擬解碼語(yǔ)音信號(hào)，并且將其提供給輸出設(shè)備2605。輸出設(shè)備2605將作為電信號(hào)的模擬解碼聲學(xué)信號(hào)轉(zhuǎn)換成空氣振動(dòng)，并且將其作為人耳可聽到的聲波輸出。
這樣，本實(shí)施例的通信設(shè)備可以在無(wú)線電通信中實(shí)現(xiàn)如實(shí)施例1到6所示的效果，高效地以較少比特對(duì)編碼聲學(xué)信號(hào)進(jìn)行解碼，從而輸出高質(zhì)量聲學(xué)信號(hào)。
本發(fā)明適用于使用音頻信號(hào)的接收設(shè)備、接收解碼設(shè)備或語(yǔ)音信號(hào)解碼設(shè)備。此外，本發(fā)明還適用于移動(dòng)臺(tái)設(shè)備或基站設(shè)備。
此外，本發(fā)明不限于上述實(shí)施例，而是可以以各種方式修改實(shí)現(xiàn)。例如，上述實(shí)施例描述了本發(fā)明被實(shí)現(xiàn)為信號(hào)處理設(shè)備的情況，但是本發(fā)明不限于此，并且該信號(hào)處理方法也可通過(guò)軟件來(lái)實(shí)現(xiàn)。
例如，有可能預(yù)先在ROM(只讀存儲(chǔ)器)中存儲(chǔ)用于執(zhí)行上述信號(hào)處理方法的程序，并且通過(guò)CPU(中央處理單元)運(yùn)行程序。
此外，還有可能在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)用于執(zhí)行上述信號(hào)處理方法的程序，將存儲(chǔ)在存儲(chǔ)介質(zhì)中的程序記錄在計(jì)算機(jī)的RAM(隨機(jī)存取存儲(chǔ)器)中，并且根據(jù)該程序操作計(jì)算機(jī)。
上述說(shuō)明描述了使用MDCT作為從時(shí)域變換到頻域的方法的情況，但是本發(fā)明不限于此，并且只要是至少提供正交變換，任何方法都是適用的。例如，可使用離散傅立葉變換或離散余弦變換等。
本發(fā)明適用于使用音頻信號(hào)的接收設(shè)備、接收解碼設(shè)備或語(yǔ)音信號(hào)解碼設(shè)備。此外，本發(fā)明還適用于移動(dòng)臺(tái)設(shè)備或基站設(shè)備。
從上述說(shuō)明可以清楚，本發(fā)明的聲學(xué)編碼設(shè)備和聲學(xué)編碼方法對(duì)增強(qiáng)層進(jìn)行編碼，其中增強(qiáng)層中的幀的時(shí)間長(zhǎng)度被設(shè)成短于基本層中的幀的時(shí)間長(zhǎng)度，從而能夠以短延遲、低比特率和高質(zhì)量對(duì)甚至是主要包括背景中疊加有音樂和噪聲的語(yǔ)音的信號(hào)進(jìn)行編碼。
本申請(qǐng)基于2002年9月6日提交的日本專利申請(qǐng)No.2002-261549，在此將其全文引作參考。
工業(yè)適用性本發(fā)明優(yōu)選地適用于高效地對(duì)諸如音樂信號(hào)或語(yǔ)音信號(hào)的聲學(xué)信號(hào)進(jìn)行壓縮和編碼的聲學(xué)編碼設(shè)備和通信設(shè)備。
權(quán)利要求
1.一種聲學(xué)編碼設(shè)備，包括下采樣部件，降低輸入信號(hào)的采樣率；基本層編碼部件，以預(yù)定基本幀為單元對(duì)具有降低采樣率的輸入信號(hào)進(jìn)行編碼；解碼部件，對(duì)編碼輸入信號(hào)進(jìn)行解碼，以獲得解碼信號(hào)；上采樣部件，將解碼信號(hào)的采樣率提高到與原始采樣率相同的采樣率；減法部件，獲得輸入信號(hào)時(shí)的輸入信號(hào)與具有提高采樣率的解碼信號(hào)之間的差值信號(hào)；以及增強(qiáng)層編碼部件，以短于基本幀的增強(qiáng)幀為單元對(duì)差值信號(hào)進(jìn)行編碼。
2.根據(jù)權(quán)利要求1所述的聲學(xué)編碼設(shè)備，還包括分幀部件，其以基本幀為單元將差值信號(hào)分成增強(qiáng)幀單元，其中增強(qiáng)層編碼部件對(duì)劃分后的差值信號(hào)進(jìn)行編碼。
3.根據(jù)權(quán)利要求1所述的聲學(xué)編碼設(shè)備，其中基本層編碼部件使用碼激勵(lì)線性預(yù)測(cè)編碼對(duì)輸入信號(hào)進(jìn)行編碼。
4.根據(jù)權(quán)利要求1所述的聲學(xué)編碼設(shè)備，其中增強(qiáng)層編碼部件將差值信號(hào)從時(shí)域變換到頻域，并且對(duì)變換后的差值信號(hào)進(jìn)行編碼。
5.根據(jù)權(quán)利要求4所述的聲學(xué)編碼設(shè)備，其中增強(qiáng)層編碼部件使用改進(jìn)的離散余弦變換將差值信號(hào)從時(shí)域變換到頻域。
6.根據(jù)權(quán)利要求4所述的聲學(xué)編碼設(shè)備，其中增強(qiáng)層編碼部件僅對(duì)變換到頻域的差值信號(hào)的預(yù)定頻帶進(jìn)行編碼。
7.根據(jù)權(quán)利要求4所述的聲學(xué)編碼設(shè)備，還包括感覺屏蔽部件，其計(jì)算表達(dá)不影響聽覺的幅度值的感覺屏蔽，其中增強(qiáng)層編碼部件不把感覺屏蔽內(nèi)的信號(hào)作為編碼目標(biāo)。
8.根據(jù)權(quán)利要求7所述的聲學(xué)編碼設(shè)備，其中增強(qiáng)層編碼部件計(jì)算感覺屏蔽與剩余信號(hào)之間的差值，把差值較大的剩余信號(hào)作為編碼目標(biāo)，并且對(duì)存在剩余信號(hào)的時(shí)域和頻域的位置進(jìn)行編碼。
9.根據(jù)權(quán)利要求8所述的聲學(xué)編碼設(shè)備，其中增強(qiáng)層編碼部件把時(shí)域和頻域的一個(gè)或兩者內(nèi)的多個(gè)域作為一個(gè)組，以組為單元計(jì)算感覺屏蔽與剩余信號(hào)之間的差值，并且僅對(duì)包括在差值較大的組中的剩余信號(hào)進(jìn)行編碼。
10.一種聲學(xué)解碼設(shè)備，包括基本層解碼部件，對(duì)第一編碼代碼進(jìn)行解碼，以獲得第一解碼信號(hào)，其中第一編碼代碼是通過(guò)在編碼側(cè)、以預(yù)定基本幀為單元，對(duì)輸入信號(hào)進(jìn)行編碼而獲得的；增強(qiáng)層解碼部件，對(duì)第二編碼代碼進(jìn)行解碼以獲得第二解碼信號(hào)，其中第二編碼代碼是通過(guò)在編碼側(cè)、以具有短于基本幀的時(shí)間長(zhǎng)度的時(shí)間長(zhǎng)度的增強(qiáng)幀為單元，對(duì)輸入信號(hào)與通過(guò)對(duì)第一編碼代碼進(jìn)行解碼而獲得的信號(hào)之間的剩余信號(hào)進(jìn)行編碼而獲得的；上采樣部件，將第一解碼信號(hào)的采樣率提高到與第二解碼信號(hào)的采樣率相同的采樣率；以及加法部件，將第二解碼信號(hào)加到具有提高采樣率的第一解碼信號(hào)。
11.根據(jù)權(quán)利要求10所述的聲學(xué)解碼設(shè)備，其中基本層解碼部件使用碼激勵(lì)線性預(yù)測(cè)編碼的解碼處理對(duì)第一編碼代碼進(jìn)行解碼。
12.根據(jù)權(quán)利要求10所述的聲學(xué)解碼設(shè)備，其中增強(qiáng)層解碼部件將通過(guò)對(duì)第二編碼代碼進(jìn)行解碼而獲得的信號(hào)從頻域變換到時(shí)域。
13.根據(jù)權(quán)利要求12所述的聲學(xué)解碼設(shè)備，還包括疊加部件，其以相同的定時(shí)相互重疊通過(guò)對(duì)第二解碼信號(hào)進(jìn)行編碼而獲得的幀部分，其中增強(qiáng)層解碼部件使用改進(jìn)的離散余弦逆變換，將通過(guò)對(duì)第二編碼代碼進(jìn)行解碼而獲得的信號(hào)從頻域變換到時(shí)域，從而解碼該第二解碼信號(hào)，并且將解碼信號(hào)輸出到加法部件，并且加法部件將由疊加部件重疊的第二解碼信號(hào)加到第一解碼信號(hào)。
14.根據(jù)權(quán)利要求12所述的聲學(xué)解碼設(shè)備，其中增強(qiáng)層解碼部件從第二編碼代碼解碼關(guān)于存在剩余信號(hào)的時(shí)域和頻域的信息，并且對(duì)存在剩余信號(hào)的時(shí)域和頻域進(jìn)行解碼。
15.根據(jù)權(quán)利要求14所述的聲學(xué)解碼設(shè)備，其中增強(qiáng)層解碼部件把時(shí)域和頻域的一個(gè)或兩者內(nèi)的多個(gè)域作為一個(gè)組，并且對(duì)包括在要解碼的組中的剩余信號(hào)進(jìn)行解碼。
16.一種聲學(xué)信號(hào)發(fā)送設(shè)備，包括聲學(xué)輸入部件，將聲學(xué)信號(hào)轉(zhuǎn)換成電信號(hào)；A/D轉(zhuǎn)換部件，將從該聲學(xué)輸入部件輸出的信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)；如權(quán)利要求1所述的聲學(xué)編碼設(shè)備，對(duì)從該A/D轉(zhuǎn)換部件輸出的數(shù)字信號(hào)進(jìn)行編碼；RF調(diào)制部件，將從該編碼設(shè)備輸出的編碼代碼調(diào)制成具有一射頻的信號(hào)；以及發(fā)送天線，將從該RF調(diào)制部件輸出的信號(hào)轉(zhuǎn)換成無(wú)線電波，并且發(fā)送該信號(hào)。
17.一種聲學(xué)信號(hào)接收設(shè)備，包括接收天線，接收無(wú)線電波；RF解調(diào)部件，對(duì)由該接收天線接收的信號(hào)進(jìn)行解調(diào)；如權(quán)利要求10所述的聲學(xué)解碼設(shè)備，對(duì)由該RF解調(diào)部件獲得的信息進(jìn)行解碼；D/A轉(zhuǎn)換部件，將從該解碼設(shè)備輸出的信號(hào)轉(zhuǎn)換成模擬信號(hào)；以及聲學(xué)輸出部件，將從該D/A轉(zhuǎn)換部件輸出的電信號(hào)轉(zhuǎn)換成聲學(xué)信號(hào)。
18.一種通信終端設(shè)備，包括根據(jù)權(quán)利要求16所述的聲學(xué)信號(hào)發(fā)送設(shè)備和根據(jù)權(quán)利要求17所述的聲學(xué)信號(hào)接收設(shè)備中的至少一個(gè)。
19.一種基站設(shè)備，包括根據(jù)權(quán)利要求16所述的聲學(xué)信號(hào)發(fā)送設(shè)備和根據(jù)權(quán)利要求17所述的聲學(xué)信號(hào)接收設(shè)備中的至少一個(gè)。
20.一種聲學(xué)編碼方法，包括以下步驟在編碼側(cè)，通過(guò)以預(yù)定基本幀單元對(duì)輸入信號(hào)進(jìn)行編碼而生成第一編碼代碼；對(duì)編碼輸入信號(hào)進(jìn)行解碼，以獲得第一解碼信號(hào)；獲得輸入信號(hào)與解碼信號(hào)之間的差值信號(hào)；以及以時(shí)間長(zhǎng)度短于基本幀的增強(qiáng)幀為單元對(duì)差值信號(hào)進(jìn)行編碼，以生成第二編碼代碼，并且在解碼側(cè)，對(duì)第一編碼代碼進(jìn)行解碼，以獲得第二解碼信號(hào)；對(duì)第二編碼代碼進(jìn)行解碼，以獲得第三解碼信號(hào)；以及將第二解碼信號(hào)加到第三解碼信號(hào)。
全文摘要
下采樣器(101)將采樣率FH的輸入數(shù)據(jù)轉(zhuǎn)換成低于采樣率FH的采樣率FL的數(shù)據(jù)?；緦泳幋a器(102)以預(yù)定的基本幀單位對(duì)采樣率FL的輸入數(shù)據(jù)進(jìn)行編碼。本地解碼器(103)對(duì)第一編碼代碼進(jìn)行解碼。上采樣器(104)將該解碼信號(hào)的采樣率提升到FH。減法器(106)從輸入信號(hào)減去該解碼信號(hào)，以提供減法結(jié)果作為剩余信號(hào)。分幀器(107)將剩余信號(hào)分成多個(gè)擴(kuò)展幀，其中每個(gè)擴(kuò)展幀在時(shí)間長(zhǎng)度上短于基本幀。擴(kuò)展層編碼器(108)對(duì)分成了擴(kuò)展幀的剩余信號(hào)進(jìn)行編碼，并且將通過(guò)該編碼而獲得的第二編碼代碼輸出到多路復(fù)用器(109)。
文檔編號(hào)G10L19/14GK1689069SQ0382441
公開日2005年10月26日申請(qǐng)日期2003年8月12日優(yōu)先權(quán)日2002年9月6日
發(fā)明者押切正浩申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：押切正浩
技術(shù)所有人：松下電器產(chǎn)業(yè)株式會(huì)社
我是此專利的發(fā)明人

上一篇：基于語(yǔ)音來(lái)控制設(shè)備的制作方法
上一篇：使用相位更新進(jìn)行正弦音頻編碼的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

聲音編碼設(shè)備和聲音編碼方法