国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語(yǔ)音編碼裝置及語(yǔ)音編碼方法

      文檔序號(hào):2829175閱讀:225來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):語(yǔ)音編碼裝置及語(yǔ)音編碼方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語(yǔ)音編碼裝置以及語(yǔ)音編碼方法,特別涉及用于在有聲區(qū)間和無(wú)聲區(qū)間傳輸不同格式類(lèi)型的編碼數(shù)據(jù)的語(yǔ)音編碼裝置以及語(yǔ)音編碼方法。
      背景技術(shù)
      在IP(Internet Protocol,因特網(wǎng)協(xié)議)網(wǎng)絡(luò)上的語(yǔ)音數(shù)據(jù)通信中,有時(shí)在有聲區(qū)間和無(wú)聲區(qū)間傳輸不同格式類(lèi)型的編碼數(shù)據(jù)。有聲是指包含語(yǔ)音信號(hào)為規(guī)定電平以上的語(yǔ)音分量的情況。無(wú)聲是指不包含語(yǔ)音信號(hào)為規(guī)定電平以上的語(yǔ)音分量的情況。在語(yǔ)音信號(hào)僅包含與語(yǔ)音分量不同的噪聲分量的情況下,該語(yǔ)音信號(hào)被識(shí)別為無(wú)聲。這樣的傳輸技術(shù)之一有被稱(chēng)作DTX控制的技術(shù)(例如,參照非專(zhuān)利文獻(xiàn)1以及非專(zhuān)利文獻(xiàn)2)。
      例如圖1所示的語(yǔ)音編碼裝置10通過(guò)伴隨DTX控制的模式進(jìn)行語(yǔ)音編碼的情況下,有聲無(wú)聲判定部分11對(duì)于以規(guī)定長(zhǎng)度的區(qū)間(相當(dāng)于幀長(zhǎng))單位劃分的語(yǔ)音信號(hào)對(duì)每個(gè)該區(qū)間進(jìn)行有聲還是無(wú)聲的判定。然后,在判定為有聲的情況下即有聲區(qū)間的情況下,由語(yǔ)音編碼部分12生成的編碼數(shù)據(jù)作為有聲幀通過(guò)DTX控制部分13輸出。此時(shí),有聲幀與用于通知有聲幀的傳輸?shù)膸?lèi)型信息被一同輸出。例如圖2(A)所示,有聲幀具有由Nv位的信息構(gòu)成的格式。
      另一方面,在判定為無(wú)聲的情況下即無(wú)聲區(qū)間的情況下,由舒適噪聲編碼部分14進(jìn)行無(wú)聲幀編碼。無(wú)聲幀編碼是用于在解碼端得到模擬無(wú)聲區(qū)間中的周?chē)肼暤男盘?hào)的編碼,是以少于有聲區(qū)間的信息量即位數(shù)進(jìn)行的編碼。通過(guò)無(wú)聲幀編碼生成的編碼數(shù)據(jù)在連續(xù)的無(wú)聲區(qū)間中,以一定的周期作為所謂SID(Silence Descriptor,靜音描述)幀通過(guò)DTX控制部分13輸出。此時(shí),SID幀與用于通知SID幀的傳輸?shù)膸?lèi)型信息一同被輸出。此外,例如圖2(B)所示,SID幀具有由Nuv位(Nuv<Nv)的信息構(gòu)成的格式。
      此外,在無(wú)聲區(qū)間中,除了傳輸SID幀不進(jìn)行編碼信息的傳輸。換言之,省略了無(wú)聲幀的傳輸。但是,通過(guò)DTX控制部分13僅輸出用于通知無(wú)聲幀的傳輸?shù)膸?lèi)型信息。這樣,在DTX控制中,由于實(shí)行控制而進(jìn)行不連續(xù)的傳輸,所以在無(wú)聲區(qū)間中減少了由傳輸路徑傳送的信息量或在解碼端解碼的信息量。
      而通過(guò)不伴隨DTX控制的模式進(jìn)行語(yǔ)音編碼的情況下,語(yǔ)音信號(hào)一直作為有聲的信號(hào)被處理,其結(jié)果,一直連續(xù)地進(jìn)行編碼數(shù)據(jù)的傳輸。從而,在具有DTX控制功能的以往的語(yǔ)音編碼裝置中,在將語(yǔ)音編碼的模式預(yù)先設(shè)定為伴隨DTX控制的模式(有DTX控制)或不伴隨DTX控制的模式(無(wú)DTX控制)的其中一個(gè)之后,進(jìn)行語(yǔ)音編碼。
      非專(zhuān)利文獻(xiàn)1”Mandatory speech CODEC speech processing functions;AMRspeech CODEC;General description”,3rd Generation Partnership Project,TS26.071非專(zhuān)利文獻(xiàn)2”Mandatory speech codec speech processing functions AdaptiveMultiRate(AMR)speech codec;Source controlled rate operation”,3rd GenerationPartnership Project,TS26.09
      發(fā)明內(nèi)容發(fā)明需要解決的問(wèn)題但是,在上述以往的語(yǔ)音編碼裝置中,有DTX控制和無(wú)DTX控制所輸出的編碼數(shù)據(jù)序列會(huì)產(chǎn)生不同。例如,通過(guò)無(wú)DTX控制模式構(gòu)成編碼數(shù)據(jù)的編碼數(shù)據(jù)的格式為第1類(lèi)型。而通過(guò)有DTX控制模式,實(shí)際傳輸?shù)木幋a數(shù)據(jù)的格式為第2類(lèi)型,但實(shí)際存在的格式為第3類(lèi)型。基于這樣的不同,在編碼端進(jìn)行DTX控制的情況下,需要在解碼端通過(guò)與有DTX控制的語(yǔ)音編碼對(duì)應(yīng)的模式進(jìn)行語(yǔ)音解碼;而在編碼端不進(jìn)行DTX控制的情況下,需要通過(guò)與無(wú)DTX控制的語(yǔ)音編碼對(duì)應(yīng)的模式進(jìn)行語(yǔ)音解碼。換言之,在解碼端設(shè)定的語(yǔ)音解碼模式限制于在編碼端設(shè)定的語(yǔ)音編碼的模式,因此解碼端不能自由選擇語(yǔ)音解碼的模式。
      即,將通過(guò)無(wú)DTX控制的模式生成的編碼數(shù)據(jù)傳輸給對(duì)應(yīng)DTX控制的語(yǔ)音解碼裝置時(shí),即使某一編碼數(shù)據(jù)的原來(lái)的語(yǔ)音信號(hào)為無(wú)聲,在網(wǎng)絡(luò)上,也不能減少在無(wú)聲區(qū)間解碼的信息量,即不能提高傳輸效率,而且該語(yǔ)音解碼裝置也不能減輕處理負(fù)載。另一方面,將通過(guò)有DTX控制的模式生成的編碼數(shù)據(jù)傳輸給對(duì)應(yīng)DTX控制的語(yǔ)音解碼裝置時(shí),語(yǔ)音解碼裝置中的服務(wù)(例如,通過(guò)將全區(qū)間作為有聲進(jìn)行解碼而得到的高質(zhì)量接收模式)的選擇的自由度被限制。
      此外,將通過(guò)有DTX控制的模式得到的編碼數(shù)據(jù)傳輸給未對(duì)應(yīng)DTX控制的語(yǔ)音解碼裝置時(shí),該語(yǔ)音解碼裝置不能對(duì)接收到的編碼數(shù)據(jù)進(jìn)行解碼。
      從而,例如,語(yǔ)音編碼裝置在對(duì)包含對(duì)應(yīng)DTX控制的和未對(duì)應(yīng)DTX控制的多個(gè)語(yǔ)音解碼裝置進(jìn)行組播的情況下,無(wú)論通過(guò)有DTX控制的模式進(jìn)行語(yǔ)音編碼,還是通過(guò)無(wú)DTX控制的模式進(jìn)行語(yǔ)音編碼,都會(huì)產(chǎn)生上述問(wèn)題之一。
      本發(fā)明的目的在于,提供一種語(yǔ)音編碼裝置以及語(yǔ)音編碼方法,能夠在解碼端自由地選擇與伴隨語(yǔ)音編碼而使用的控制方式所對(duì)應(yīng)的語(yǔ)音解碼的模式,同時(shí)生成即使解碼端未對(duì)應(yīng)該控制方式也能夠解碼的數(shù)據(jù)。
      解決該問(wèn)題的方案本發(fā)明的語(yǔ)音編碼裝置采用以下結(jié)構(gòu),即輸出與包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第一編碼數(shù)據(jù)和與不包含所述語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第二編碼數(shù)據(jù),該語(yǔ)音編碼裝置具有編碼部件,以規(guī)定區(qū)間單位將輸入語(yǔ)音信號(hào)編碼并生成編碼數(shù)據(jù);判定部件,對(duì)每個(gè)所述規(guī)定區(qū)間判定所述輸入語(yǔ)音信號(hào)是否包含所述語(yǔ)音分量;以及合成部件,僅對(duì)所述編碼數(shù)據(jù)中通過(guò)被判定為不包含所述語(yǔ)音分量的無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的合成,從而取得所述第一編碼數(shù)據(jù)和所述第二編碼數(shù)據(jù)。
      本發(fā)明的語(yǔ)音解碼裝置采用以下結(jié)構(gòu),即具有第一解碼部件,對(duì)合成了噪聲數(shù)據(jù)的編碼數(shù)據(jù)進(jìn)行解碼而生成第一解碼語(yǔ)音信號(hào);第二解碼部件,僅對(duì)所述噪聲數(shù)據(jù)進(jìn)行解碼而生成第二解碼語(yǔ)音信號(hào);以及選擇部件,選擇所述第一解碼語(yǔ)音信號(hào)以及所述第二解碼語(yǔ)音信號(hào)的其中一個(gè)。
      本發(fā)明的語(yǔ)音編碼方法輸出與包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第一編碼數(shù)據(jù)和與不包含所述語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第二編碼數(shù)據(jù),該語(yǔ)音編碼方法具有編碼步驟,以規(guī)定區(qū)間單位將輸入語(yǔ)音信號(hào)編碼并生成編碼數(shù)據(jù);判定步驟,對(duì)每個(gè)所述規(guī)定區(qū)間判定所述輸入語(yǔ)音信號(hào)是否包含所述語(yǔ)音分量;以及合成步驟,僅對(duì)所述編碼數(shù)據(jù)中通過(guò)被判定為不包含所述語(yǔ)音分量的無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的合成,從而取得所述第一編碼數(shù)據(jù)和所述第二編碼數(shù)據(jù)。
      本發(fā)明的語(yǔ)音解碼方法具有第一解碼步驟,對(duì)合成了噪聲數(shù)據(jù)的編碼數(shù)據(jù)進(jìn)行解碼而生成第一解碼語(yǔ)音信號(hào);第二解碼步驟,僅對(duì)所述噪聲數(shù)據(jù)進(jìn)行解碼而生成第二解碼語(yǔ)音信號(hào);以及選擇步驟,選擇所述第一解碼語(yǔ)音信號(hào)以及所述第二解碼語(yǔ)音信號(hào)的其中一個(gè)。
      根據(jù)本發(fā)明,能夠在解碼端自由地選擇與伴隨語(yǔ)音編碼而使用的控制方式所對(duì)應(yīng)的語(yǔ)音解碼的模式,同時(shí)生成即使解碼端未對(duì)應(yīng)該控制方式也能夠解碼的數(shù)據(jù)。


      圖1是表示以往的語(yǔ)音編碼裝置的結(jié)構(gòu)的一例的方框圖。
      圖2是表示以往的有聲幀的結(jié)構(gòu)的一例以及以往的所謂SID幀的結(jié)構(gòu)的一例的圖。
      圖3是表示本發(fā)明的實(shí)施方式1的語(yǔ)音編碼裝置的結(jié)構(gòu)的方框圖。
      圖4A是表示本發(fā)明的實(shí)施方式1的語(yǔ)音解碼裝置的結(jié)構(gòu)的一例的方框圖。
      圖4B是表示本發(fā)明的實(shí)施方式1的語(yǔ)音解碼裝置的結(jié)構(gòu)的另一例的方框圖。
      圖5是表示本發(fā)明的實(shí)施方式1的格式類(lèi)型的例子的圖。
      圖6是表示本發(fā)明的實(shí)施方式1的格式類(lèi)型的變化例的圖。
      圖7是表示本發(fā)明的實(shí)施方式2的語(yǔ)音編碼裝置的結(jié)構(gòu)的方框圖。
      圖8是表示本發(fā)明的實(shí)施方式2的語(yǔ)音編碼部分的結(jié)構(gòu)的方框圖。
      圖9是表示本發(fā)明的實(shí)施方式2的第一編碼候補(bǔ)生成部分的結(jié)構(gòu)的方框圖。
      圖10是本發(fā)明的實(shí)施方式2的第一編碼候補(bǔ)生成部分的動(dòng)作說(shuō)明圖。
      圖11A是表示本發(fā)明的實(shí)施方式3的可伸縮(scalable)編碼裝置的結(jié)構(gòu)的方框圖。
      圖11B是表示本發(fā)明的實(shí)施方式3的可伸縮解碼裝置的結(jié)構(gòu)的方框圖。
      具體實(shí)施例方式
      以下,使用附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式。
      (實(shí)施方式1)
      圖3是表示本發(fā)明的實(shí)施方式1的語(yǔ)音編碼裝置的結(jié)構(gòu)的方框圖。此外,圖4A是表示本發(fā)明的實(shí)施方式的語(yǔ)音解碼裝置的結(jié)構(gòu)的一例的方框圖。圖4B是表示本發(fā)明的實(shí)施方式的語(yǔ)音解碼裝置的結(jié)構(gòu)的另一例的方框圖。
      首先,說(shuō)明圖3所示的語(yǔ)音編碼裝置100的結(jié)構(gòu)。語(yǔ)音編碼裝置100具有語(yǔ)音編碼部分102、位嵌入部分104、有聲無(wú)聲判定部分106、幀類(lèi)型判定部分108以及無(wú)聲參數(shù)分析/編碼部分110。
      語(yǔ)音編碼部分102以規(guī)定長(zhǎng)度的區(qū)間(幀)單位對(duì)輸入語(yǔ)音信號(hào)進(jìn)行編碼,生成由多個(gè)(例如,Nv)位的編碼比特串構(gòu)成的編碼數(shù)據(jù)。語(yǔ)音編碼部分102通過(guò)配置在編碼時(shí)得到的Nv位的編碼比特串而生成編碼數(shù)據(jù),以使生成的編碼數(shù)據(jù)的格式一直相同。此外,編碼數(shù)據(jù)的位數(shù)被預(yù)先決定。
      有聲無(wú)聲判定部分106對(duì)每個(gè)所述區(qū)間判定輸入語(yǔ)音信號(hào)是否包含語(yǔ)音分量,將表示該判定結(jié)果的有聲無(wú)聲判定標(biāo)記輸出到幀類(lèi)型判定部分108以及無(wú)聲參數(shù)分析/編碼部分110。
      幀類(lèi)型判定部分108使用輸入的有聲無(wú)聲判定標(biāo)記將由語(yǔ)音編碼部分102生成的編碼數(shù)據(jù)決定為三種幀類(lèi)型,即(a)有聲幀,(b)無(wú)聲幀(有嵌入),(c)無(wú)聲幀(無(wú)嵌入)的其中一個(gè)。
      更具體的說(shuō),在有聲無(wú)聲判定標(biāo)記表示有聲的情況下,決定為(a)有聲幀。此外,在有聲無(wú)聲判定標(biāo)記表示無(wú)聲的情況下,決定為(b)無(wú)聲幀(有嵌入)或(c)無(wú)聲幀(無(wú)嵌入)。
      進(jìn)而,在表示無(wú)聲的有聲無(wú)聲判定標(biāo)記連續(xù)的情況下,換言之,無(wú)聲區(qū)間連續(xù)的情況下,僅將每一定周期的幀(編碼數(shù)據(jù))決定為(b)無(wú)聲幀(有嵌入),將除此以外決定為(c)無(wú)聲幀(無(wú)嵌入)。或者,在表示無(wú)聲的有聲無(wú)聲判定標(biāo)記連續(xù)的情況下,僅將輸入語(yǔ)音信號(hào)的信號(hào)特性發(fā)生變換時(shí)決定為(b)無(wú)聲幀(有嵌入),將除此以外決定為(c)無(wú)聲幀(無(wú)嵌入)。這樣,能夠減輕位嵌入部分104的嵌入處理負(fù)載。決定的結(jié)果作為幀類(lèi)型信息被輸出。幀類(lèi)型信息是用于通知給無(wú)聲參數(shù)分析/編碼部分110以及位嵌入部分104的信息,并且也是與編碼數(shù)據(jù)一同傳輸?shù)男畔ⅰ?br> 在輸入語(yǔ)音信號(hào)由有聲無(wú)聲判定部分106判定為無(wú)聲的情況下,即無(wú)聲區(qū)間的情況下,無(wú)聲參數(shù)分析/編碼部分110生成作為模擬噪聲數(shù)據(jù)的無(wú)聲參數(shù)編碼數(shù)據(jù)。
      更具體地說(shuō),將在連續(xù)的無(wú)聲區(qū)間中對(duì)輸入語(yǔ)音信號(hào)的信號(hào)特性進(jìn)行平均化而得到的信息作為無(wú)聲參數(shù)。作為無(wú)聲參數(shù)中包含的信息,例如,可以舉出通過(guò)LPC(Linear Predictive Coding,線(xiàn)性預(yù)測(cè)編碼)分析得到的頻譜形狀信息、語(yǔ)音信號(hào)的能量、LPC頻譜合成中的驅(qū)動(dòng)音源信號(hào)的增益信息等。無(wú)聲參數(shù)分析/編碼部分110以少于有聲區(qū)間的輸入語(yǔ)音信號(hào)的位數(shù)(例如,Nuv位)編碼無(wú)聲參數(shù)而生成無(wú)聲參數(shù)編碼數(shù)據(jù)。換言之,無(wú)聲參數(shù)編碼數(shù)據(jù)的位數(shù)少于由語(yǔ)音編碼部分102編碼的輸入語(yǔ)音信號(hào)的位數(shù)(Nuv<Nv)。在從幀類(lèi)型判定部分108輸出的幀類(lèi)型信息表示為無(wú)聲幀(有嵌入)的情況下,輸出生成的無(wú)聲參數(shù)編碼數(shù)據(jù)。
      在從幀類(lèi)型判定部分108輸出的幀類(lèi)型信息表示有聲幀或無(wú)聲幀(無(wú)嵌入)的情況下,位嵌入部分104將從語(yǔ)音編碼部分102輸出的編碼幀原封不動(dòng)地輸出。從而,如圖5(A)所示,在該情況下輸出的編碼數(shù)據(jù)的格式與由語(yǔ)音編碼部分102生成的編碼數(shù)據(jù)的格式相同。
      另一方面,在從幀類(lèi)型判定部分108輸出的幀類(lèi)型信息表示無(wú)聲幀(有嵌入)的情況下,位嵌入部分104在從語(yǔ)音編碼部分102輸出的編碼數(shù)據(jù)中嵌入從無(wú)聲參數(shù)分析/編碼部分110輸出的無(wú)聲參數(shù)編碼數(shù)據(jù)。然后,輸出嵌入了無(wú)聲參數(shù)編碼數(shù)據(jù)的編碼數(shù)據(jù)。從而,如圖5(B)所示,在該情況下輸出的編碼數(shù)據(jù)具有在由語(yǔ)音編碼部分102生成的編碼數(shù)據(jù)內(nèi)的規(guī)定位置嵌入了無(wú)聲參數(shù)編碼數(shù)據(jù)的格式類(lèi)型。
      這樣,由于在編碼數(shù)據(jù)中嵌入無(wú)聲參數(shù)編碼數(shù)據(jù),不改變編碼數(shù)據(jù)的幀大小就能夠進(jìn)行編碼數(shù)據(jù)的傳輸。進(jìn)而,由于在編碼數(shù)據(jù)的規(guī)定位置嵌入無(wú)聲參數(shù)編碼數(shù)據(jù),因此能夠簡(jiǎn)化嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)時(shí)的控制處理。
      更具體的說(shuō),位嵌入部分104用由Nuv位構(gòu)成的無(wú)聲參數(shù)編碼數(shù)據(jù)置換配置在編碼數(shù)據(jù)的Nv位中規(guī)定位置上的Nuv位。這樣,可以傳輸無(wú)聲參數(shù)編碼數(shù)據(jù)來(lái)代替通過(guò)編碼得到的編碼數(shù)據(jù)的一部分位。此外,由于用無(wú)聲參數(shù)編碼數(shù)據(jù)置換由Nv位構(gòu)成的編碼數(shù)據(jù)的一部分,因此能夠傳輸編碼數(shù)據(jù)的剩余的位以及無(wú)聲參數(shù)編碼數(shù)據(jù)的二者。
      或者,位嵌入部分104用由Nuv位構(gòu)成的無(wú)聲參數(shù)編碼數(shù)據(jù)覆寫(xiě)編碼數(shù)據(jù)的Nv位中配置在規(guī)定位置上的Nuv位。這樣,刪除通過(guò)編碼而得到的編碼數(shù)據(jù)的一部分位,從而能夠傳輸無(wú)聲參數(shù)編碼數(shù)據(jù)。此外,由于用無(wú)聲參數(shù)編碼數(shù)據(jù)覆寫(xiě)由Nv位構(gòu)成的編碼數(shù)據(jù)的一部分,因此能夠傳輸編碼數(shù)據(jù)的剩余的位以及無(wú)聲參數(shù)編碼數(shù)據(jù)的二者。
      在即使進(jìn)行位的置換或覆寫(xiě),也對(duì)解碼語(yǔ)音信號(hào)的質(zhì)量帶來(lái)的影響也低的情況下,以及編碼時(shí)得到的編碼比特串中存在重要度低的位的情況下等,該處理格外有效。
      此外,在本實(shí)施方式中,說(shuō)明了通過(guò)進(jìn)行在編碼時(shí)得到的位的置換或覆寫(xiě)來(lái)嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)的情況。但是,代替嵌入無(wú)聲參數(shù)編碼數(shù)據(jù),如圖6所示,也可以在編碼時(shí)得到的Nv位的比特串的后端附加Nuv位的無(wú)聲參數(shù)編碼數(shù)據(jù)。換言之,位嵌入部分104通過(guò)進(jìn)行無(wú)聲參數(shù)編碼數(shù)據(jù)的嵌入或附加,從而合成無(wú)聲參數(shù)編碼數(shù)據(jù)和編碼數(shù)據(jù)。由此,進(jìn)行幀格式切換控制以取得在進(jìn)行該合成的情況和不進(jìn)行的情況下具有不同類(lèi)型的格式的編碼數(shù)據(jù)。這樣,雖然在無(wú)聲參數(shù)編碼數(shù)據(jù)被合成和不被合成為編碼數(shù)據(jù)的情況下,幀格式的類(lèi)型不同,但基本的幀結(jié)構(gòu)不變,所以能夠傳輸編碼數(shù)據(jù)序列。
      此外,在附加無(wú)聲參數(shù)編碼數(shù)據(jù)的情況下,由于編碼數(shù)據(jù)的幀大小發(fā)生變化,所以?xún)?yōu)選的是將有關(guān)幀大小的信息與編碼數(shù)據(jù)一同以任意的形式來(lái)傳輸。
      此外,在本實(shí)施方式中,說(shuō)明了將無(wú)聲參數(shù)編碼數(shù)據(jù)嵌入編碼數(shù)據(jù)的規(guī)定位置的情況。但是,無(wú)聲參數(shù)編碼數(shù)據(jù)的嵌入方法不限定于上述方法。例如,位嵌入部分104也可以在每次進(jìn)行嵌入時(shí)自適應(yīng)地決定無(wú)聲參數(shù)編碼數(shù)據(jù)被嵌入的位置。在該情況下,可以根據(jù)各位的靈敏度或重要度等,自適應(yīng)地改變成為置換對(duì)象的位的位置或成為覆寫(xiě)對(duì)象的位的位置。
      接著,說(shuō)明圖4A以及圖4B所示的語(yǔ)音解碼裝置150a、150b的結(jié)構(gòu)。語(yǔ)音解碼裝置150a的結(jié)構(gòu)為不具有對(duì)應(yīng)語(yǔ)音編碼裝置100的幀格式的切換控制的功能,但語(yǔ)音解碼裝置150b的結(jié)構(gòu)為具有該功能。
      圖4A所示的語(yǔ)音解碼裝置150a具有語(yǔ)音解碼部分152。
      語(yǔ)音解碼部分152接收從語(yǔ)音編碼裝置100經(jīng)由傳輸路徑傳輸?shù)木幋a數(shù)據(jù)。此外,對(duì)接收編碼數(shù)據(jù)以幀為單位進(jìn)行解碼。更具體的說(shuō),通過(guò)對(duì)構(gòu)成接收編碼數(shù)據(jù)的編碼數(shù)據(jù)進(jìn)行解碼,從而生成解碼語(yǔ)音信號(hào)。接收編碼數(shù)據(jù)中含有根據(jù)合成無(wú)聲參數(shù)編碼數(shù)據(jù)與否而改變格式的編碼數(shù)據(jù)。但是,由于連續(xù)地傳輸基本的幀結(jié)構(gòu)不發(fā)生變化的編碼數(shù)據(jù),所以未對(duì)應(yīng)幀格式切換功能的語(yǔ)音解碼裝置150a能夠解碼從語(yǔ)音編碼裝置100接收的編碼數(shù)據(jù)。
      圖4B所示的語(yǔ)音解碼裝置150b除了具有與語(yǔ)音解碼裝置150a中設(shè)置的相同的語(yǔ)音解碼部分152之外,還具有切換器154、無(wú)聲參數(shù)提取部分156、幀類(lèi)型判定部分158以及無(wú)聲幀解碼部分160。
      無(wú)聲參數(shù)提取部分156提取合成于構(gòu)成接收編碼數(shù)據(jù)的編碼數(shù)據(jù)中作為無(wú)聲幀(有嵌入)傳輸?shù)木幋a數(shù)據(jù)的無(wú)聲參數(shù)編碼數(shù)據(jù)。
      幀類(lèi)型判定部分158接收從語(yǔ)音編碼裝置100傳輸?shù)膸?lèi)型信息,判定接收的編碼數(shù)據(jù)相當(dāng)于三種幀類(lèi)型中的哪一種。判定結(jié)果通知給切換器154以及無(wú)聲幀解碼部分160。
      在幀類(lèi)型信息所示的信息為無(wú)聲幀的情況下,無(wú)聲幀解碼部分160僅對(duì)由無(wú)聲參數(shù)提取部分156提取的無(wú)聲參數(shù)編碼數(shù)據(jù)進(jìn)行解碼。由此,取得無(wú)聲參數(shù)中包含的信息(例如,頻譜形狀信息或能量等)。然后,使用取得的信息生成包含無(wú)聲幀(有嵌入)以及無(wú)聲幀(無(wú)嵌入)的所有無(wú)聲幀中的解碼語(yǔ)音信號(hào)。
      切換器154按照從幀類(lèi)型判定部分158通知的判定結(jié)果,切換語(yǔ)音解碼裝置150b的輸出。例如,在幀類(lèi)型信息所示的信息為有聲幀的情況下,控制連接,以使由語(yǔ)音解碼部分152生成的解碼語(yǔ)音信號(hào)成為語(yǔ)音解碼裝置150b的輸出。換言之,如圖4B所示,與語(yǔ)音解碼裝置150b的輸出的連接切換到a端。另一方面,在所示的信息為無(wú)聲幀的情況下,控制連接,以使由無(wú)聲幀解碼部分160生成的解碼語(yǔ)音信號(hào)成為語(yǔ)音解碼裝置150b的輸出。換言之,與語(yǔ)音解碼裝置150b的輸出的連接切換到b端。
      上述的連接切換控制是為了根據(jù)傳輸?shù)木幋a數(shù)據(jù)的幀類(lèi)型來(lái)切換解碼對(duì)象而進(jìn)行的。但是,切換器154不進(jìn)行取決于傳輸?shù)木幋a數(shù)據(jù)的幀類(lèi)型的控制,而將與語(yǔ)音解碼裝置150b的輸出的連接一直固定于a端也是可以的。語(yǔ)音解碼裝置150b自己選擇進(jìn)行取決于幀類(lèi)型的連接切換控制還是進(jìn)行一直固定的連接。由此,語(yǔ)音解碼裝置150b能夠自由地選擇以下方式的一種在無(wú)聲參數(shù)編碼數(shù)據(jù)被合成的狀態(tài)下解碼編碼數(shù)據(jù),以及選擇性地解碼合成了的無(wú)聲參數(shù)。
      接著,說(shuō)明具有上述結(jié)構(gòu)的語(yǔ)音編碼裝置100中的無(wú)聲參數(shù)編碼數(shù)據(jù)嵌入動(dòng)作。
      在語(yǔ)音編碼部分102中,進(jìn)行輸入語(yǔ)音信號(hào)的語(yǔ)音編碼,生成編碼數(shù)據(jù)。此外,進(jìn)行輸入語(yǔ)音信號(hào)的幀類(lèi)型判定。
      然后,根據(jù)幀類(lèi)型判定的結(jié)果,在確定編碼數(shù)據(jù)為有聲幀的情況下,不進(jìn)行通過(guò)位嵌入部分104的無(wú)聲參數(shù)編碼數(shù)據(jù)嵌入,其結(jié)果,取得圖5(A)所示的格式的編碼數(shù)據(jù)。此外,即使在確定編碼數(shù)據(jù)為無(wú)聲幀(無(wú)嵌入)的情況下,也不進(jìn)行無(wú)聲參數(shù)編碼數(shù)據(jù)嵌入,其結(jié)果,取得圖5(A)所示的格式的編碼數(shù)據(jù)。另一方面,在確定編碼數(shù)據(jù)為無(wú)聲幀(有嵌入)的情況下,進(jìn)行無(wú)聲參數(shù)編碼數(shù)據(jù)嵌入,其結(jié)果,取得圖5(B)所示的格式的編碼數(shù)據(jù)。
      這樣,根據(jù)本實(shí)施方式,僅對(duì)編碼數(shù)據(jù)中作為無(wú)聲幀(有嵌入)的編碼數(shù)據(jù)合成無(wú)聲參數(shù)編碼數(shù)據(jù),由此能夠取得對(duì)應(yīng)包含語(yǔ)音分量的語(yǔ)音信號(hào)的編碼數(shù)據(jù)和對(duì)應(yīng)不包含所述語(yǔ)音分量的語(yǔ)音信號(hào)的編碼數(shù)據(jù),即將無(wú)聲參數(shù)編碼數(shù)據(jù)合成于編碼數(shù)據(jù),對(duì)解碼端連續(xù)地傳輸具有不同的格式類(lèi)型而具有同樣的幀結(jié)構(gòu)的編碼數(shù)據(jù)。因此,在通過(guò)將無(wú)聲參數(shù)編碼數(shù)據(jù)合成于編碼數(shù)據(jù)的模式來(lái)生成的編碼數(shù)據(jù)被傳輸?shù)浇獯a端的情況下,在解碼端能夠解碼在合成了無(wú)聲參數(shù)編碼數(shù)據(jù)的狀態(tài)下的編碼數(shù)據(jù)。即,在編碼端能夠生成即使解碼端未對(duì)應(yīng)伴隨語(yǔ)音編碼而使用的控制方式也能夠解碼的數(shù)據(jù)。進(jìn)而,在所述情況下,在解碼端能夠自由地選擇以下方式的一種在合成了無(wú)聲參數(shù)編碼數(shù)據(jù)的狀態(tài)下解碼編碼數(shù)據(jù),以及選擇性地解碼合成的無(wú)聲參數(shù)編碼數(shù)據(jù)。即,在編碼端能夠使解碼端自由選擇與伴隨語(yǔ)音編碼而使用的控制方式所對(duì)應(yīng)的語(yǔ)音解碼的模式。
      (實(shí)施方式2)圖7是表示本發(fā)明的實(shí)施方式2的語(yǔ)音編碼裝置的結(jié)構(gòu)的方框圖。另外,本實(shí)施方式中說(shuō)明的語(yǔ)音編碼裝置200具有與實(shí)施方式1中說(shuō)明的語(yǔ)音編碼裝置100同樣的基本結(jié)構(gòu),因此對(duì)同一構(gòu)成元件賦予同一參照標(biāo)號(hào),并省略其詳細(xì)的說(shuō)明。此外,通過(guò)實(shí)施方式1中說(shuō)明的語(yǔ)音解碼裝置150a、150b能夠解碼從語(yǔ)音編碼裝置200傳輸?shù)木幋a數(shù)據(jù),所以這里省略語(yǔ)音解碼裝置相關(guān)的說(shuō)明。
      語(yǔ)音編碼裝置200具有以下的結(jié)構(gòu),即設(shè)置語(yǔ)音編碼部分202來(lái)代替語(yǔ)音編碼裝置100中設(shè)置的語(yǔ)音編碼部分102以及位嵌入部分104。
      語(yǔ)音編碼部分202執(zhí)行使語(yǔ)音編碼部分102的動(dòng)作以及位嵌入部分104的動(dòng)作的組合動(dòng)作。此外,對(duì)語(yǔ)音編碼部分202應(yīng)用能夠有效率地對(duì)輸入語(yǔ)音信號(hào)進(jìn)行編碼的CELP(Code Excited Linear Prediction,碼激勵(lì)線(xiàn)性預(yù)測(cè))編碼。
      如圖8所示,語(yǔ)音編碼部分202具有LPC分析部分204、第一編碼候補(bǔ)生成部分206、LPC量化部分208、自適應(yīng)碼增益碼本210、自適應(yīng)碼本212、乘法器214、加法器216、固定碼本218、乘法器220、第二編碼候補(bǔ)生成部分222、合成濾波器224、減法器226、加權(quán)誤差最小化部分228、無(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230以及復(fù)用部分232。
      LPC分析部分204使用輸入語(yǔ)音信號(hào)進(jìn)行線(xiàn)性預(yù)測(cè)分析,并將其分析結(jié)果即LPC系數(shù)輸出到LPC量化部分208。
      LPC量化部分208基于從第一編碼候補(bǔ)生成部分206輸出的編碼候補(bǔ)值以及編碼候補(bǔ)碼,對(duì)從LPC分析部分204輸出的LPC系數(shù)進(jìn)行向量量化。然后,將作為向量量化的結(jié)果得到的LPC量化碼輸出到復(fù)用部分232。此外,LPC量化部分208通過(guò)LPC系數(shù)得到解碼LPC系數(shù),并將該解碼LPC系數(shù)輸出到合成濾波器224。
      如圖9所示,第一編碼候補(bǔ)生成部分206具有碼本242以及搜索范圍限制部分244,生成在進(jìn)行輸入語(yǔ)音信號(hào)的語(yǔ)音編碼時(shí)由LPC量化部分208進(jìn)行的LPC系數(shù)的向量量化所使用的編碼候補(bǔ)值以及編碼候補(bǔ)碼,并將它們輸出到LPC量化部分208。
      碼本242預(yù)先保有編碼語(yǔ)音信號(hào)時(shí)可能用于LPC量化部分208的編碼候補(bǔ)值以及編碼候補(bǔ)碼的列表。搜索范圍限制部分244生成編碼輸入語(yǔ)音信號(hào)時(shí)用于LPC量化部分208的編碼候補(bǔ)值以及編碼候補(bǔ)碼。更具體地說(shuō),在來(lái)自幀類(lèi)型判定部分108的幀類(lèi)型信息表示為“有聲幀”或“無(wú)聲幀(無(wú)嵌入)”的情況下,搜索范圍限制部分244對(duì)碼本242中預(yù)先保有的編碼候補(bǔ)值以及編碼候補(bǔ)碼不進(jìn)行搜索范圍的限制。另一方面,在幀類(lèi)型信息表示為“無(wú)聲幀(有嵌入)”的情況下,搜索范圍限制部分244對(duì)編碼候補(bǔ)值以及編碼候補(bǔ)碼進(jìn)行搜索范圍的限制?;趶臒o(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230得到的分割參數(shù)碼的位數(shù)來(lái)進(jìn)行屏蔽碼的分配,并且按照屏蔽碼的分配來(lái)嵌入分割參數(shù)碼,由此決定限制的搜索范圍。
      合成濾波器224使用從LPC量化部分208輸出的解碼LPC系數(shù)和從加法器216輸出的驅(qū)動(dòng)音源進(jìn)行濾波合成,并將合成信號(hào)輸出到減法器226。減法器226計(jì)算從合成濾波器224輸出的合成信號(hào)和輸入語(yǔ)音信號(hào)的誤差信號(hào),并將該誤差信號(hào)輸出到加權(quán)誤差最小化部分228。
      加權(quán)誤差最小化部分228對(duì)從減法器226輸出的誤差信號(hào)進(jìn)行聽(tīng)覺(jué)加權(quán),計(jì)算聽(tīng)覺(jué)加權(quán)區(qū)域中的輸入語(yǔ)音信號(hào)和合成信號(hào)的失真。然后,決定應(yīng)由自適應(yīng)碼本212、固定碼本218和第二編碼候補(bǔ)生成部分222生成的信號(hào),以使該失真成為最小。
      更具體地說(shuō),加權(quán)誤差最小化部分228從自適應(yīng)碼本212中選擇失真最小的自適應(yīng)音源滯后。此外,從固定碼本218中選擇失真最小的固定音源向量。此外,從自適應(yīng)碼增益碼本210中選擇失真最小的量化自適應(yīng)音源增益。此外,從第二編碼候補(bǔ)生成部分222中選擇量化固定音源增益。
      自適應(yīng)碼本212具有緩沖器,將過(guò)去由加法器216輸出的驅(qū)動(dòng)音源存儲(chǔ)在該緩沖器中,從通過(guò)由加權(quán)誤差最小化部分228輸出的信號(hào)所確定的切出(cut-out)位置起,從緩沖器中切出一幀的采樣,作為自適應(yīng)音源向量輸出到乘法器214。此外,將表示決定結(jié)果的自適應(yīng)音源滯后碼輸出到復(fù)用部分232。此外,自適應(yīng)碼本212在每次接收到從加法器216輸出的驅(qū)動(dòng)音源時(shí),進(jìn)行存儲(chǔ)于緩沖器的驅(qū)動(dòng)音源的更新。
      自適應(yīng)碼增益碼本210基于從加權(quán)誤差最小化部分228輸出的信號(hào)來(lái)決定量化自適應(yīng)音源增益,并將其輸出到乘法器214。此外,將表示該決定結(jié)果的量化自適應(yīng)音源增益碼輸出到復(fù)用部分232。
      乘法器214將從自適應(yīng)碼增益碼本210輸出的量化自適應(yīng)音源增益與從自適應(yīng)碼本212輸出的自適應(yīng)音源向量相乘,將其乘法結(jié)果輸出到加法器216。
      固定碼本218將具有通過(guò)從加權(quán)誤差最小化部分228輸出的信號(hào)所確定的形狀的向量決定為固定音源向量,并輸出到乘法器220。此外,將表示該決定結(jié)果的固定音源向量碼輸出到復(fù)用部分232。
      乘法器220將從第二編碼候補(bǔ)生成部分222輸出的量化固定音源增益與從固定碼本218輸出的固定音源向量相乘,將其乘法結(jié)果輸出到加法器216。
      加法器216將從乘法器214輸出的自適應(yīng)音源向量和從乘法器220輸出的固定音源向量相加,并將作為其加法結(jié)果的驅(qū)動(dòng)音源輸出到合成濾波器224以及自適應(yīng)碼本212。
      無(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230分割從無(wú)聲參數(shù)分析/編碼部分110輸出的無(wú)聲參數(shù)編碼數(shù)據(jù)。無(wú)聲參數(shù)編碼數(shù)據(jù)按嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)的量化碼的每個(gè)位數(shù)被分割。此外,在本實(shí)施方式中,對(duì)嵌入對(duì)象的量化碼指定幀單位的LPC量化碼以及子幀單位的量化固定音源增益碼。因此,無(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230將無(wú)聲參數(shù)編碼數(shù)據(jù)分割為(1+子幀數(shù))個(gè)部分,得到相當(dāng)于該個(gè)數(shù)的分割參數(shù)碼。
      第二編碼候補(bǔ)生成部分222具有固定碼增益碼本,生成在進(jìn)行語(yǔ)音編碼時(shí)與固定音源向量相乘的量化固定音源增益的候補(bǔ)。更具體地說(shuō),在來(lái)自幀類(lèi)型判定部分108的幀類(lèi)型信息表示為“有聲幀”或“無(wú)聲幀(無(wú)嵌入)”的情況下,第二編碼候補(bǔ)生成部分222對(duì)預(yù)先存儲(chǔ)在固定碼增益碼本中的量化固定音源增益候補(bǔ)不進(jìn)行搜索范圍的限制。另一方面,在幀類(lèi)型信息表示為“無(wú)聲幀(有嵌入)”的情況下,第二編碼候補(bǔ)生成部分222對(duì)量化固定音源增益候補(bǔ)進(jìn)行搜索范圍的限制?;趶臒o(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230得到的分割參數(shù)碼的位數(shù)來(lái)進(jìn)行屏蔽碼的分配,并且按照屏蔽碼的分配來(lái)嵌入分割參數(shù)碼,由此決定被限制的搜索范圍。這樣,生成量化固定音源增益候補(bǔ)。然后,將從生成的量化固定音源增益候補(bǔ)中基于來(lái)自加權(quán)誤差最小化部分228的信號(hào)確定的增益決定為應(yīng)與固定音源向量相乘的量化固定音源增益,并將其輸出到乘法器220。此外,將表示該決定結(jié)果的量化固定音源增益碼輸出到復(fù)用部分232。
      復(fù)用部分232對(duì)來(lái)自L(fǎng)PC量化部分208的LPC量化碼、來(lái)自自適應(yīng)碼增益碼本210的量化自適應(yīng)音源增益碼、來(lái)自自適應(yīng)碼本212的自適應(yīng)音源向量碼、來(lái)自固定碼本218的固定音源向量碼、來(lái)自第二編碼候補(bǔ)生成部分222的量化固定音源增益碼進(jìn)行復(fù)用。通過(guò)該復(fù)用得到編碼數(shù)據(jù)。
      接著,說(shuō)明語(yǔ)音編碼部分202中的搜索范圍限制動(dòng)作。這里,以第一編碼候補(bǔ)生成部分206中的搜索范圍限制動(dòng)作為例進(jìn)行說(shuō)明。
      如圖10所示,在語(yǔ)音編碼部分202中,碼本242中作為編碼候補(bǔ)碼以及編碼候補(bǔ)值分別存儲(chǔ)了16組碼索引i和與各碼索引i對(duì)應(yīng)的碼向量C[i]的組合。
      而且,在來(lái)自幀類(lèi)型判定部分108的幀類(lèi)型信息表示為“有聲幀”或“無(wú)聲幀(無(wú)嵌入)”的情況下,搜索范圍限制部分244不限制搜索范圍而將16組候補(bǔ)的組合輸出到LPC量化部分208。
      另一方面,在幀類(lèi)型信息表示為“無(wú)聲幀(有嵌入)”的情況下,搜索范圍限制部分244基于從無(wú)聲參數(shù)編碼數(shù)據(jù)分割部分230得到的分割參數(shù)碼的位數(shù),對(duì)碼索引i分配屏蔽碼。在本實(shí)施方式中,將位靈敏度低于規(guī)定電平的規(guī)定數(shù)的編碼位或包含位靈敏度為最低的編碼位的規(guī)定數(shù)的編碼位作為置換以及屏蔽的對(duì)象。例如,在標(biāo)量(scalar)值的量化值按升序與碼對(duì)應(yīng)的情況下,從LSB(最低位)起分配屏蔽位。通過(guò)進(jìn)行這樣的屏蔽位分配來(lái)限制搜索范圍。即,預(yù)先進(jìn)行以嵌入為前提的碼本的限制。因此,能夠防止進(jìn)行嵌入所引起的編碼性能的惡化。
      然后,在通過(guò)屏蔽碼分配而屏蔽的位嵌入分割參數(shù)碼,由此確定屬于限制的搜索范圍的搜索候補(bǔ)。在這里的例示中,由于對(duì)低位的2位分配了屏蔽位,所以搜索范圍從原來(lái)的16組候補(bǔ)限制為4組候補(bǔ)。然后,這4組的候補(bǔ)的組合輸出到LPC量化部分208。
      這樣,根據(jù)本實(shí)施方式,進(jìn)行以無(wú)聲參數(shù)編碼數(shù)據(jù)的嵌入為前提的最佳的量化。即,將構(gòu)成作為無(wú)聲幀的編碼數(shù)據(jù)的多個(gè)位中具有規(guī)定電平以下的靈敏度的規(guī)定數(shù)的位或包含靈敏度最低的位的規(guī)定數(shù)的位作為屏蔽位分配以及分割參數(shù)碼嵌入的對(duì)象。因此,能夠降低對(duì)解碼語(yǔ)音的質(zhì)量帶來(lái)的影響,并且能夠提高進(jìn)行分割參數(shù)碼嵌入的情況下的編碼性能。
      另外,在本實(shí)施方式中,說(shuō)明了對(duì)語(yǔ)音編碼使用CELP編碼的情況,但使用CELP編碼不是本發(fā)明的必要條件,使用其他的語(yǔ)音編碼方式也能夠?qū)崿F(xiàn)與上述同樣的技術(shù)效果。
      此外,也可以使用在無(wú)聲參數(shù)的一部分或所有使用與通常的語(yǔ)音編碼參數(shù)共同的參數(shù)。例如,在無(wú)聲參數(shù)中對(duì)頻譜形狀信息使用了LPC參數(shù)的情況下,將該LPC參數(shù)的量化碼設(shè)為用于LPC量化部分208的LPC參數(shù)的量化碼或與其一部分相同。這樣,能夠提高進(jìn)行無(wú)聲參數(shù)編碼數(shù)據(jù)的嵌入(置換或覆寫(xiě)等)時(shí)的量化性能。
      此外,在本實(shí)施方式中,說(shuō)明了將LPC量化碼以及量化固定音源增益碼作為嵌入無(wú)聲參數(shù)編碼數(shù)據(jù)的對(duì)象的編碼數(shù)據(jù)的情況。但是,嵌入對(duì)象的編碼數(shù)據(jù)不僅限定于此,也可以將除此以外的編碼數(shù)據(jù)作為嵌入對(duì)象來(lái)采用。
      (實(shí)施方式3)圖11A以及圖11B是分別表示本發(fā)明的實(shí)施方式9的可伸縮編碼裝置以及可伸縮解碼裝置的方框圖。在本實(shí)施方式中,說(shuō)明對(duì)作為可伸縮結(jié)構(gòu)具有頻帶伸縮功能的語(yǔ)音編碼的核心層(core layer)應(yīng)用了實(shí)施方式1(或?qū)嵤┓绞?)中說(shuō)明的各裝置的情況。
      圖11A所示的可伸縮編碼裝置300具有下采樣部分302、語(yǔ)音編碼裝置100、局部解碼部分304、上采樣部分306以及增強(qiáng)層編碼部分308。
      下采樣部分302將輸入語(yǔ)音信號(hào)下采樣為核心層的頻帶的信號(hào)。語(yǔ)音編碼裝置100具有與實(shí)施方式1中說(shuō)明的相同結(jié)構(gòu),通過(guò)經(jīng)下采樣處理的輸入語(yǔ)音信號(hào)來(lái)生成編碼數(shù)據(jù)以及幀類(lèi)型信息,并將其輸出。生成的編碼數(shù)據(jù)被作為核心層編碼數(shù)據(jù)輸出。
      局部解碼部分304對(duì)核心層編碼數(shù)據(jù)進(jìn)行局部解碼來(lái)得到核心層的解碼語(yǔ)音信號(hào)。上采樣部分306將核心層的解碼語(yǔ)音信號(hào)上采樣為增強(qiáng)層的頻帶的信號(hào)。增強(qiáng)層編碼部分308對(duì)具有增強(qiáng)層的信號(hào)頻帶的輸入語(yǔ)音信號(hào)進(jìn)行增強(qiáng)層的編碼,生成增強(qiáng)層編碼數(shù)據(jù)并輸出。
      圖11B所示的可伸縮解碼裝置350具有語(yǔ)音解碼裝置150b、上采樣部分352以及增強(qiáng)層解碼部分354。
      語(yǔ)音解碼裝置150b具有與實(shí)施方式1中說(shuō)明的相同的結(jié)構(gòu),通過(guò)從可伸縮編碼裝置300傳輸?shù)暮诵膶泳幋a數(shù)據(jù)以及幀類(lèi)型信息來(lái)生成解碼語(yǔ)音信號(hào)并將其作為核心層解碼信號(hào)輸出。
      上采樣部分352將核心層解碼信號(hào)上采樣為增強(qiáng)層的頻帶的信號(hào)。增強(qiáng)層解碼部分354解碼從可伸縮編碼裝置300傳輸?shù)脑鰪?qiáng)層編碼數(shù)據(jù)解碼而得到增強(qiáng)層解碼信號(hào)。然后,通過(guò)將經(jīng)上采樣處理的核心層解碼信號(hào)復(fù)用為增強(qiáng)層解碼信號(hào),從而生成核心層+增強(qiáng)層解碼信號(hào),并將其輸出。
      另外,可伸縮編碼裝置300也可以具有實(shí)施方式2中說(shuō)明的語(yǔ)音編碼裝置200來(lái)代替所述語(yǔ)音編碼裝置100。
      以下,說(shuō)明具有上述結(jié)構(gòu)的可伸縮解碼裝置350的動(dòng)作。假設(shè)在核心層中,不進(jìn)行幀格式切換控制。在該情況下,一直能夠得到核心層+增強(qiáng)層解碼信號(hào)。此外,設(shè)定為只解碼核心層,并且在核心層中進(jìn)行幀格式切換控制。在該情況下,可以得到編碼效率為最高并且比特速率低的解碼信號(hào)。此外,對(duì)于無(wú)聲幀,設(shè)定為有幀格式的切換控制并且僅解碼核心層,對(duì)于有聲幀,設(shè)定為解碼核心層+增強(qiáng)層。在該情況下,對(duì)于所述兩個(gè)情況能夠?qū)崿F(xiàn)中間性的語(yǔ)音質(zhì)量以及傳輸效率。
      這樣,根據(jù)本實(shí)施方式,能夠不取決于編碼端的控制的設(shè)定狀態(tài)而在解碼端(或網(wǎng)絡(luò)上)自由地選擇多個(gè)種類(lèi)的解碼語(yǔ)音信號(hào)來(lái)進(jìn)行解碼。
      另外,在上述各實(shí)施方式的說(shuō)明中使用的各功能塊典型地通過(guò)集成電路的LSI來(lái)實(shí)現(xiàn)。它們既可以單獨(dú)地實(shí)行單芯片化,也可以包含其中一部分或全部而實(shí)行單芯片化。
      這里,雖稱(chēng)做LSI,但根據(jù)集成度的不同,有時(shí)也稱(chēng)作IC、系統(tǒng)LSI、超LSI、極大LSI(ultra LSI)。
      此外,集成電路化的方法不限定于LSI,可以通過(guò)專(zhuān)用電路或通用處理器實(shí)現(xiàn)。也可以利用能在LSI制造后編程的FPGA(Field Programable GateArray,現(xiàn)場(chǎng)可編程門(mén)陣列),或?qū)SI內(nèi)部的電路塊連接或設(shè)定重新配置的可重配置處理器。
      進(jìn)而,如果由半導(dǎo)體技術(shù)的進(jìn)步或派生的其他技術(shù)置換為L(zhǎng)SI的集成電路化的技術(shù)出現(xiàn),當(dāng)然使用該技術(shù)進(jìn)行功能塊的集成化也可以。也有使用生物技術(shù)等的可能性。
      本說(shuō)明書(shū)基于2004年7月23日申請(qǐng)的特愿2004-216127。其內(nèi)容全部包含于此。
      產(chǎn)業(yè)上的可利用性本發(fā)明的語(yǔ)音編碼裝置以及語(yǔ)音編碼方法用于傳輸在有聲區(qū)間和無(wú)聲區(qū)間不同的格式類(lèi)型的編碼數(shù)據(jù)。
      權(quán)利要求
      1.一種語(yǔ)音編碼裝置,輸出與包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第一編碼數(shù)據(jù)和與不包含所述語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第二編碼數(shù)據(jù),該語(yǔ)音編碼裝置具有編碼部件,以規(guī)定區(qū)間單位將輸入語(yǔ)音信號(hào)編碼并生成編碼數(shù)據(jù);判定部件,對(duì)每個(gè)所述規(guī)定區(qū)間判定所述輸入語(yǔ)音信號(hào)是否包含所述語(yǔ)音分量;以及合成部件,僅對(duì)所述編碼數(shù)據(jù)中通過(guò)被判定為不包含所述語(yǔ)音分量的無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的合成,從而取得所述第一編碼數(shù)據(jù)和所述第二編碼數(shù)據(jù)。
      2.如權(quán)利要求1所述的語(yǔ)音編碼裝置,其中,所述合成部件對(duì)通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的所述編碼數(shù)據(jù)嵌入所述噪聲數(shù)據(jù)。
      3.如權(quán)利要求1所述的語(yǔ)音編碼裝置,其中,所述合成部件在通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的所述編碼數(shù)據(jù)中的規(guī)定位置嵌入所述噪聲數(shù)據(jù)。
      4.如權(quán)利要求1所述的語(yǔ)音編碼裝置,其中,所述合成部件用所述噪聲數(shù)據(jù)置換通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的所述編碼數(shù)據(jù)的位。
      5.如權(quán)利要求1所述的語(yǔ)音編碼裝置,其中,所述合成部件用所述噪聲數(shù)據(jù)覆寫(xiě)通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的所述編碼數(shù)據(jù)的位。
      6.如權(quán)利要求1所述的語(yǔ)音編碼裝置,其中,所述編碼部件生成通過(guò)多個(gè)位構(gòu)成的所述編碼數(shù)據(jù),所述合成部件用所述噪聲數(shù)據(jù)置換所述編碼數(shù)據(jù)的所述多個(gè)位的一部分,所述編碼數(shù)據(jù)是通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的。
      7.如權(quán)利要求1所述的語(yǔ)音編碼裝置,其中,所述編碼部件生成通過(guò)多個(gè)位構(gòu)成的所述編碼數(shù)據(jù),所述合成部件用所述噪聲數(shù)據(jù)覆寫(xiě)所述編碼數(shù)據(jù)的所述多個(gè)位的一部分,所述編碼數(shù)據(jù)是通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的。
      8.如權(quán)利要求6所述的語(yǔ)音編碼裝置,其中,所述合成部件用所述噪聲數(shù)據(jù)置換所述編碼數(shù)據(jù)的所述多個(gè)位中的、具有規(guī)定電平以下的靈敏度的規(guī)定數(shù)的位,所述編碼數(shù)據(jù)是通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的。
      9.如權(quán)利要求6所述的語(yǔ)音編碼裝置,其中,所述合成部件用所述噪聲數(shù)據(jù)置換所述編碼數(shù)據(jù)的所述多個(gè)位中的、包含靈敏度最低的位的規(guī)定數(shù)的位,所述編碼數(shù)據(jù)是通過(guò)所述無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的。
      10.如權(quán)利要求1所述的語(yǔ)音編碼裝置,其中,所述語(yǔ)音編碼裝置具有存儲(chǔ)部件,存儲(chǔ)用于語(yǔ)音信號(hào)的編碼的編碼候補(bǔ),所述編碼部件對(duì)構(gòu)成所述編碼數(shù)據(jù)的多個(gè)位的其中一個(gè)分配屏蔽位,隨著所述屏蔽位的分配而限制用于所述輸入語(yǔ)音信號(hào)的編碼的所述編碼候補(bǔ)。
      11.一種可伸縮編碼裝置,具有權(quán)利要求1所述的語(yǔ)音編碼裝置。
      12.一種語(yǔ)音解碼裝置,具有第一解碼部件,對(duì)合成了噪聲數(shù)據(jù)的編碼數(shù)據(jù)進(jìn)行解碼而生成第一解碼語(yǔ)音信號(hào);第二解碼部件,僅對(duì)所述噪聲數(shù)據(jù)進(jìn)行解碼而生成第二解碼語(yǔ)音信號(hào);以及選擇部件,選擇所述第一解碼語(yǔ)音信號(hào)以及所述第二解碼語(yǔ)音信號(hào)的其中一個(gè)。
      13.一種可伸縮解碼裝置,具有權(quán)利要求12所述的語(yǔ)音解碼裝置。
      14.一種語(yǔ)音編碼方法,輸出與包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第一編碼數(shù)據(jù)和與不包含所述語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的第二編碼數(shù)據(jù),該語(yǔ)音編碼方法具有編碼步驟,以規(guī)定區(qū)間單位將輸入語(yǔ)音信號(hào)編碼并生成編碼數(shù)據(jù);判定步驟,對(duì)每個(gè)所述規(guī)定區(qū)間判定所述輸入語(yǔ)音信號(hào)是否包含所述語(yǔ)音分量;以及合成步驟,僅對(duì)所述編碼數(shù)據(jù)中通過(guò)被判定為不包含所述語(yǔ)音分量的無(wú)聲區(qū)間的所述輸入語(yǔ)音信號(hào)生成的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的合成,從而取得所述第一編碼數(shù)據(jù)和所述第二編碼數(shù)據(jù)。
      15.一種可伸縮編碼方法,具有權(quán)利要求14所述的語(yǔ)音編碼方法。
      16.一種語(yǔ)音解碼方法,具有第一解碼步驟,對(duì)合成了噪聲數(shù)據(jù)的編碼數(shù)據(jù)進(jìn)行解碼而生成第一解碼語(yǔ)音信號(hào);第二解碼步驟,僅對(duì)所述噪聲數(shù)據(jù)進(jìn)行解碼而生成第二解碼語(yǔ)音信號(hào);以及選擇步驟,選擇所述第一解碼語(yǔ)音信號(hào)以及所述第二解碼語(yǔ)音信號(hào)的其中一個(gè)。
      17.一種可伸縮解碼方法,具有權(quán)利要求16所述的語(yǔ)音解碼方法。
      全文摘要
      提供一種語(yǔ)音編碼裝置,能夠在解碼端自由地選擇與伴隨語(yǔ)音編碼而使用的控制方式所對(duì)應(yīng)的語(yǔ)音解碼的模式,同時(shí)生成即使解碼端未對(duì)應(yīng)該控制方式也能夠解碼的數(shù)據(jù)。語(yǔ)音編碼裝置(100)輸出與包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的編碼數(shù)據(jù)和與不包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的編碼數(shù)據(jù)。語(yǔ)音編碼部分(102)以規(guī)定區(qū)間單位將輸入語(yǔ)音信號(hào)編碼并生成編碼數(shù)據(jù)。有聲無(wú)聲判定部分(106)對(duì)每個(gè)規(guī)定區(qū)間判定輸入語(yǔ)音信號(hào)是否包含語(yǔ)音分量。位嵌入部分(104)僅對(duì)由語(yǔ)音編碼部分(102)生成的編碼數(shù)據(jù)中通過(guò)無(wú)聲區(qū)間的輸入語(yǔ)音信號(hào)生成的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)的合成,從而取得包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的編碼數(shù)據(jù)和與不包含語(yǔ)音分量的語(yǔ)音信號(hào)對(duì)應(yīng)的編碼數(shù)據(jù)。
      文檔編號(hào)G10L19/00GK1989549SQ20058002443
      公開(kāi)日2007年6月27日 申請(qǐng)日期2005年6月29日 優(yōu)先權(quán)日2004年7月23日
      發(fā)明者吉田幸司 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1