用于數(shù)字音頻數(shù)據(jù)的編碼方法和解碼方法

文檔序號(hào)：2824129閱讀：299來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于數(shù)字音頻數(shù)據(jù)的編碼方法和解碼方法
技術(shù)領(lǐng)域：
本發(fā)明涉及編碼和解碼以一預(yù)定時(shí)間采樣的數(shù)字音頻數(shù)據(jù)的方法。
背景技術(shù)：
有某些常規(guī)方法被稱為信號(hào)波形的時(shí)基插值和展開法，其用于改變?cè)佻F(xiàn)速度同時(shí)保持說(shuō)話的音調(diào)周期(pitch period)和清晰度。這些方法也適用于語(yǔ)音編碼。即在編碼之前，語(yǔ)音數(shù)據(jù)曾經(jīng)受到時(shí)標(biāo)壓縮，而在解碼之后，該語(yǔ)音數(shù)據(jù)的時(shí)標(biāo)被擴(kuò)展，從而實(shí)現(xiàn)信息壓縮?；旧?，該信息壓縮是通過(guò)在音調(diào)周期削去一個(gè)信號(hào)波形實(shí)現(xiàn)的，并且所壓縮的信息基于在子波之間的間隔插入新的子波的信號(hào)波形插值而擴(kuò)展。用于這個(gè)過(guò)程的方法包括時(shí)域調(diào)和定標(biāo)(Time Domain HarmonicScaling，TDHS)和PICOLA(指針間隔控制重疊及添加)，它們是以三角形窗削去和插值、同時(shí)保持在該時(shí)域中語(yǔ)音間距的周期性的方法，并且是通過(guò)快速傅里葉變換在頻域內(nèi)削去和插值的方法。這些方法具有非周期性的和瞬變的部分處理問(wèn)題，并且在解碼方擴(kuò)展量化語(yǔ)音數(shù)據(jù)的過(guò)程中很可能出現(xiàn)失真。
在之前和之后的幀中保持語(yǔ)音間距的周期性的同時(shí)，插入子波的方法實(shí)際上也適用于當(dāng)一個(gè)幀的子波或者信息在分組傳輸中完全丟失時(shí)的情況。
在上述波形插值中作為在信息壓縮上的改進(jìn)而提出的方法包括基于時(shí)間頻率插值(TFI)、典型波形插值(PWI)或者更常規(guī)的波形插值(WI)的編碼方法。

發(fā)明內(nèi)容
本發(fā)明人研究了上述的現(xiàn)有技術(shù)，并且發(fā)現(xiàn)以下問(wèn)題。即，由于在解碼中，帶有再現(xiàn)速度改變功能的常規(guī)的語(yǔ)音數(shù)據(jù)編碼方法被配置為編碼數(shù)據(jù)而以較高優(yōu)先級(jí)給予語(yǔ)音的音調(diào)信息，故它們可以被用于處理語(yǔ)音本身，但是不能施用于包括除語(yǔ)音以外聲音的數(shù)字內(nèi)容，例如音樂(lè)本身、帶有音樂(lè)背景的聲音等等。因此，事實(shí)上是帶有再現(xiàn)速度變換功能的常規(guī)的語(yǔ)音數(shù)據(jù)編碼方法僅在電話等等有限的技術(shù)領(lǐng)域中適用。
完成本發(fā)明就是為了解決上述問(wèn)題，并且本發(fā)明的一個(gè)目的就是提供數(shù)字音頻數(shù)據(jù)的編碼和解碼方法，以供編碼和解碼經(jīng)由不同的數(shù)據(jù)通信和記錄介質(zhì)以及電話傳輸?shù)臄?shù)字內(nèi)容(其典型地是聲音、電影、新聞等等數(shù)字信息，主要包括音頻數(shù)據(jù)且其以下將被稱為數(shù)字音頻數(shù)據(jù))，同時(shí)在音頻清晰度得到保持的情況下，允許提高數(shù)據(jù)壓縮率、改變?cè)佻F(xiàn)速度等等。
根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法無(wú)需降低音頻的清晰度而能夠令人滿意地進(jìn)行數(shù)據(jù)壓縮。根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的解碼方法，通過(guò)利用由根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法所編碼的該編碼音頻數(shù)據(jù)，能夠容易和自由地改變?cè)佻F(xiàn)速度而無(wú)需在間隔方面改變。
根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法包括以下步驟預(yù)先設(shè)定以預(yù)定間隔分隔的離散頻率；基于成對(duì)的正弦分量和余弦分量——其中各分量對(duì)應(yīng)于每個(gè)離散頻率且每個(gè)分量被數(shù)字化，而在每個(gè)第二周期上，從以第一周期采樣的數(shù)字音頻數(shù)據(jù)中提取正弦分量和余弦分量對(duì)的幅度信息項(xiàng)；并且作為編碼的音頻數(shù)據(jù)的一部分，依次產(chǎn)生幀數(shù)據(jù)，該幀數(shù)據(jù)包括在相應(yīng)離散頻率上提取的正弦和余弦分量的幅度信息項(xiàng)對(duì)。
特別是，在所述數(shù)字音頻數(shù)據(jù)的編碼方法中，為預(yù)先確定的間隔所分隔的離散頻率被設(shè)定于受到采樣的數(shù)字音頻數(shù)據(jù)的頻域內(nèi)，并且在這些離散頻率中的每一個(gè)頻率上產(chǎn)生一對(duì)數(shù)字化的正弦分量和余弦分量。例如，公開號(hào)為2000-81897的日本專利申請(qǐng)公開了這樣一種方法編碼方受到配置而將整個(gè)頻率范圍劃分為多個(gè)頻帶，并在所劃分的這些頻帶的每一個(gè)頻帶中提取幅度信息，且解碼方受到配置而以所提取的幅度信息產(chǎn)生正弦波，并且合成在相應(yīng)頻帶中產(chǎn)生的正弦波以獲得原始音頻數(shù)據(jù)。劃分頻帶通常借助于數(shù)字濾波器實(shí)現(xiàn)。在此情況下，當(dāng)分隔精確度被提高時(shí)，處理量變得非常大；因此，難于提高編碼的速度。相比之下，由于根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法被配置成在所有頻率中的相應(yīng)離散頻率上產(chǎn)生正弦和余弦分量對(duì)，并且提取相應(yīng)的正弦和余弦分量的幅度信息項(xiàng)，故本方法可用于提高編碼處理的速度。
特定地，在所述數(shù)字音頻數(shù)據(jù)的編碼方法中，相對(duì)于采樣周期的第一周期而在每個(gè)第二周期上，使數(shù)字音頻數(shù)據(jù)與每一個(gè)彼此成對(duì)的正弦分量和余弦分量相乘，從而提取作為乘法結(jié)果的直流分量的每個(gè)幅度信息。當(dāng)以這種方法利用在每個(gè)離散頻率上的成對(duì)的正弦和余弦分量的幅度信息的時(shí)候，所得到的編碼音頻數(shù)據(jù)就同時(shí)包含了相位信息。以上所述的第二周期不需要等于是數(shù)字音頻數(shù)據(jù)的采樣周期的第一周期，并且該第二周期是在解碼方的再現(xiàn)周期的基準(zhǔn)周期。
在本發(fā)明中，如上所述，編碼方被配置成在一個(gè)頻率上提取正弦分量的幅度信息和余弦分量的幅度信息兩者，而解碼方被配置成通過(guò)使用這些幅度信息項(xiàng)產(chǎn)生數(shù)字音頻數(shù)據(jù)；因此，在頻率上傳輸相位信息并獲得具有較好清晰度的聲音質(zhì)量也是可行的。即，編碼方不必按過(guò)去要求執(zhí)行截?cái)?cut out)數(shù)字音頻數(shù)據(jù)波形的處理，從而使聲音的連續(xù)性得以保持；并且解碼方被配置成無(wú)需截?cái)嗖ㄐ螁卧奶幚?，使得在再現(xiàn)速度不改變的情況下，當(dāng)然也在再現(xiàn)速度被改變的情況下，保證了波形的連續(xù)性，從而獲得極好的清晰度和音質(zhì)。但是，由于人類聽覺(jué)在高頻域幾乎不能區(qū)分相位，較少需要在高頻域也傳輸相位信息，并且僅通過(guò)幅度信息就可以保證其中再現(xiàn)的音頻有足夠清晰度。
因此，根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法可以被安排成對(duì)于選自離散頻率的一個(gè)或多個(gè)頻率，特別是對(duì)于較少需要相位信息的高頻，計(jì)算在所選擇的每個(gè)頻率上的一和分量的平方根，其中該和分量作為彼此成對(duì)的正弦分量和余弦分量的相應(yīng)幅度信息項(xiàng)的平方和而給出，并且用由這些幅度信息對(duì)所獲得的和分量的平方根替換對(duì)應(yīng)于所選擇頻率的幅度信息對(duì)。這種安排實(shí)現(xiàn)了與近年來(lái)經(jīng)常使用的MPEG的數(shù)據(jù)壓縮率處于可比水平的數(shù)據(jù)壓縮率。
根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法還可以被安排成考慮到人類聽覺(jué)的特性削去無(wú)意義的幅度信息，從而提高數(shù)據(jù)壓縮率。一個(gè)例子是有一種方法有意削去不太可能為人類感知的數(shù)據(jù)，例如頻率掩蔽(frequency masking)或者時(shí)間掩蔽(time masking)；例如，一種有可能的安排是在幀數(shù)據(jù)中的整個(gè)幅度信息串是由對(duì)應(yīng)于相應(yīng)離散頻率的正弦和余弦分量的幅度信息對(duì)組成的情況下，在和分量的平方根之間或者之中進(jìn)行比較，其中該和分量(每個(gè)和分量是一個(gè)正弦分量的幅度信息項(xiàng)和一個(gè)余弦分量的幅度信息項(xiàng)的平方和)具有兩個(gè)或更多個(gè)彼此靠近的幅度信息對(duì)，且在經(jīng)過(guò)這樣比較的幅度信息對(duì)中，除了具有和分量的最大平方根的幅度信息對(duì)之外，從幀數(shù)據(jù)中消去其它幅度信息對(duì)。在幀數(shù)據(jù)中的幅度信息串的一部分由不包含相位信息(該信息由和分量的平方根組成并在下文中稱之為平方根信息)的幅度信息組成的情況下，也可能采用這樣一種配置其中在兩個(gè)或更多個(gè)彼此靠近的平方根信息條之間或者之中進(jìn)行比較，并且在經(jīng)過(guò)比較的這些平方根信息條中，除了最大平方根信息之外，消去其中的其它平方根信息條，這與上述相鄰幅度信息對(duì)(全部包括相位信息)的情況恰好相同。以上所述的任一種配置均可顯著提高數(shù)據(jù)壓縮率。
音頻傳輸系統(tǒng)近來(lái)普遍使用因特網(wǎng)等等而增加了將所傳輸?shù)囊纛l數(shù)據(jù)(數(shù)字信息，主要包括人類語(yǔ)音，諸如新聞節(jié)目、討論會(huì)、歌曲、廣播劇、語(yǔ)言節(jié)目等等)先行存儲(chǔ)的機(jī)會(huì)，上述音頻數(shù)據(jù)系存儲(chǔ)于諸如硬盤和半導(dǎo)體存儲(chǔ)器的記錄介質(zhì)中，并且爾后由此再現(xiàn)所傳輸?shù)囊纛l數(shù)據(jù)。尤其是，老年性耳聾患者包括一類難于聽取高講話速度的人。在將語(yǔ)言作為學(xué)習(xí)目標(biāo)的外語(yǔ)學(xué)習(xí)過(guò)程中，也存在降低講話速度的強(qiáng)烈需要。
在如上所述的社交情形之下，如果實(shí)現(xiàn)數(shù)字內(nèi)容的傳輸，而對(duì)該數(shù)字內(nèi)容應(yīng)用根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法和解碼方法，則用戶將無(wú)需在再現(xiàn)音頻的間距(用以提高或者降低再現(xiàn)速度)上進(jìn)行改變，而得以任意地調(diào)整再現(xiàn)速度。在這種情況下，用戶可以在他們不希望詳細(xì)聽取的部分提高再現(xiàn)速度(用戶甚至可以在接近正常再現(xiàn)速度二倍的速度上充分地了解內(nèi)容，因?yàn)殚g距沒(méi)有改變)，而在他們希望詳細(xì)聽取的部分可以瞬間返回到原始的再現(xiàn)速度，或者返回到比原始再現(xiàn)速度更慢的再現(xiàn)速度。
特定地，根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的解碼方法被安排成在其中如上所述編碼的幀數(shù)據(jù)的整個(gè)幅度信息串(其構(gòu)成編碼音頻數(shù)據(jù)的一部分)由對(duì)應(yīng)于相應(yīng)離散頻率的正弦和余弦分量的幅度信息項(xiàng)對(duì)組成的情況下，所述方法包括以下步驟首先在每個(gè)離散頻率上依次產(chǎn)生彼此成對(duì)的正弦分量和余弦分量，而以第三周期使其數(shù)字化；且隨后基于幅度信息對(duì)和所產(chǎn)生的對(duì)應(yīng)于相應(yīng)離散頻率的正弦和余弦分量對(duì)，依次產(chǎn)生以再現(xiàn)周期的第四周期(其基于上述第二周期而設(shè)定)恢復(fù)的幀數(shù)據(jù)中的數(shù)字音頻數(shù)據(jù)。
另一方面，在幀數(shù)據(jù)的幅度信息串的一部分由不包含相位信息(和分量的平方根由成對(duì)的正弦和余弦分量的幅度信息項(xiàng)的平方和所給出)的幅度信息組成的情況下，根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的解碼方法包括以下步驟基于在相應(yīng)離散頻率上數(shù)字化的正弦或者余弦分量，并基于與此相應(yīng)的和分量的平方根，依次產(chǎn)生數(shù)字音頻數(shù)據(jù)。
以上所述的兩種解碼方法可以被安排成以短于上述第四周期的第五周期依次產(chǎn)生一個(gè)或多個(gè)幅度插值信息條，用于在以第四周期恢復(fù)的幀數(shù)據(jù)之間實(shí)施幅度信息的線性插值或者曲線函數(shù)插值。
考慮到以下詳細(xì)說(shuō)明和及其附圖，可以充分理解根據(jù)本發(fā)明的各實(shí)施例。應(yīng)明白，所展示的這些實(shí)施例僅僅用于說(shuō)明，而非用于限定本發(fā)明。
通過(guò)下面詳細(xì)說(shuō)明，本發(fā)明的進(jìn)一步應(yīng)用的范圍將變得顯而易見。但應(yīng)注意到，詳細(xì)說(shuō)明和特定的例子所展示的是本發(fā)明的優(yōu)選實(shí)施例，并且它們是僅為了說(shuō)明起見而被提出的，顯然，鑒于詳細(xì)的描述，在本發(fā)明的精神和范圍內(nèi)的各種各樣的修改和改進(jìn)對(duì)于那些本領(lǐng)域技術(shù)人員來(lái)說(shuō)是顯而易見的。
附圖簡(jiǎn)要說(shuō)明

圖1A和圖1B是示例圖，用于從概念上解釋根據(jù)本發(fā)明的每個(gè)實(shí)施例(編號(hào)1)。
圖2是一個(gè)流程圖，用于解釋根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法。
圖3是示例圖，用于解釋以周期Δt采樣的數(shù)字音頻數(shù)據(jù)。
圖4是一個(gè)概念性示意圖，用于解釋從一對(duì)與相應(yīng)離散頻率對(duì)應(yīng)的正弦和余弦分量中提取各幅度信息的過(guò)程。
圖5是一個(gè)示例圖，其示出構(gòu)成編碼音頻數(shù)據(jù)的一部分的幀數(shù)據(jù)的第一結(jié)構(gòu)實(shí)例。
圖6是一個(gè)示出編碼音頻數(shù)據(jù)結(jié)構(gòu)的示例圖。
圖7是一個(gè)用于解釋加密處理的示意圖。
圖8A和圖8B是用于解釋對(duì)幀數(shù)據(jù)實(shí)施數(shù)據(jù)壓縮的第一實(shí)施例的示意圖。
圖9是一個(gè)示例圖，其示出構(gòu)成編碼音頻數(shù)據(jù)的一部分的幀數(shù)據(jù)的第二結(jié)構(gòu)實(shí)例。
圖10A和圖10B是示意圖，用于解釋對(duì)幀數(shù)據(jù)實(shí)施數(shù)據(jù)壓縮的第二實(shí)施例，而詳細(xì)地說(shuō)，圖10B是一個(gè)示例圖，其示出構(gòu)成編碼的音頻數(shù)據(jù)的一部分的幀數(shù)據(jù)的第三結(jié)構(gòu)實(shí)例。
圖11是一個(gè)流程圖，用于解釋根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的解碼過(guò)程。
圖12A、圖12B以及圖13均為示意圖，用于解釋要解碼的數(shù)字音頻數(shù)據(jù)的數(shù)據(jù)插值。
圖14是一個(gè)示例圖，用于從概念上解釋根據(jù)本發(fā)明的每個(gè)實(shí)施例(編號(hào)2)。
本發(fā)明的最佳實(shí)施方式在下面將參考圖1A～1B、2～7、8A～SB、9、10A～10B、11、12A～12B以及13～14描述根據(jù)本發(fā)明的音頻數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)等等的每一個(gè)實(shí)施例。無(wú)需贅述，貫穿各附圖的描述中，相同的部分將由相同的參考符號(hào)表示。
通過(guò)根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法而編碼的編碼音頻數(shù)據(jù)，在再現(xiàn)期間無(wú)需降低清晰度(易于聽到)，使用戶能實(shí)現(xiàn)新的音頻數(shù)據(jù)的解碼，而以用戶所自由設(shè)定的再現(xiàn)速度再現(xiàn)該音頻數(shù)據(jù)?；谠跀?shù)據(jù)通信環(huán)境中數(shù)字技術(shù)的最新發(fā)展和改進(jìn)，可設(shè)想出上述音頻數(shù)據(jù)的各種各樣的應(yīng)用形式。圖1A和1B是概念性示意圖，用于解釋將如何在產(chǎn)業(yè)中使用編碼音頻數(shù)據(jù)。
如圖1A所示，數(shù)字音頻數(shù)據(jù)由信息源10提供，該數(shù)字音頻數(shù)據(jù)作為一個(gè)對(duì)象，將通過(guò)根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法進(jìn)行編碼。信息源10最好是一種提供數(shù)字音頻數(shù)據(jù)的信息源，該數(shù)字音頻數(shù)據(jù)例如記錄在MO、CD(包括DVD)、H/D(硬盤)等等中，并且所述數(shù)據(jù)還可以例如是由市場(chǎng)上可買到的教育資料、電視臺(tái)、廣播電臺(tái)等等提供的音頻數(shù)據(jù)。其他可應(yīng)用的數(shù)據(jù)為直接經(jīng)由麥克風(fēng)取得的數(shù)據(jù)、或者在編碼過(guò)程之前通過(guò)將從前記錄在磁帶等等中的模擬音頻數(shù)據(jù)數(shù)字化而獲得的數(shù)據(jù)。編輯器100編碼數(shù)字音頻數(shù)據(jù)，而通過(guò)使用在編碼器200中的信息源10產(chǎn)生編碼的音頻數(shù)據(jù)，編碼器200包括諸如個(gè)人計(jì)算機(jī)的信息處理設(shè)備。在此情況下，考慮到現(xiàn)行的數(shù)據(jù)提供方法，這樣產(chǎn)生的編碼音頻數(shù)據(jù)通常是以該數(shù)據(jù)從前被記錄在記錄介質(zhì)20中的狀態(tài)被提供給用戶，記錄介質(zhì)20諸如為CD(包括DVD)、H/D等等?；蛟S還可以設(shè)想那些CD和H/D包括與編碼音頻數(shù)據(jù)相關(guān)的圖像數(shù)據(jù)的記錄。
尤其是，CD和DVD作為記錄介質(zhì)20，通常被作為雜志的附錄提供給用戶，或者在類似計(jì)算機(jī)軟件應(yīng)用、音樂(lè)CD等等(在市場(chǎng)上分發(fā))的商店中銷售。此外所產(chǎn)生的編碼音頻數(shù)據(jù)可能從服務(wù)器300經(jīng)信息通信裝置傳輸給用戶，該信息通信裝置例如是像因特網(wǎng)、蜂窩電話網(wǎng)這樣的網(wǎng)絡(luò)150和衛(wèi)星160，而無(wú)論其為有線或無(wú)線裝置。
為傳輸數(shù)據(jù)，由編碼器200產(chǎn)生的編碼音頻數(shù)據(jù)連同圖像數(shù)據(jù)等等一起，先在服務(wù)器300中存儲(chǔ)于存儲(chǔ)設(shè)備310(例如H/D)內(nèi)。然后，先存儲(chǔ)在H/D 310中的編碼音頻數(shù)據(jù)(其可以被加密)被通過(guò)收發(fā)信機(jī)320(圖中的I/O)發(fā)送給用戶終端400。在用戶終端400一方，通過(guò)收發(fā)信機(jī)450接收的編碼音頻數(shù)據(jù)先存儲(chǔ)在一個(gè)H/D(包含于外部存儲(chǔ)設(shè)備30中)內(nèi)。另一方面，在通過(guò)使用CD、DVD等等供應(yīng)數(shù)據(jù)的情況下，由用戶購(gòu)買的CD被安放在終端設(shè)備400的CD驅(qū)動(dòng)器或者DVD驅(qū)動(dòng)器上，CD驅(qū)動(dòng)器或者DVD驅(qū)動(dòng)器被用作該終端設(shè)備的外部記錄裝置30。
通常，用戶方終端設(shè)備400配備有一個(gè)輸入設(shè)備460，一個(gè)諸如CRT、液晶顯示器等等的顯示器470，以及揚(yáng)聲器480，而與圖像數(shù)據(jù)等等一起被記錄在外部存儲(chǔ)設(shè)備300中的編碼音頻數(shù)據(jù)先被終端設(shè)備400(其還可以通過(guò)軟件實(shí)現(xiàn))的解碼器410解碼，成為具有用戶個(gè)人指定的再現(xiàn)速度的音頻數(shù)據(jù)，爾后從揚(yáng)聲器480輸出。另一方面，存儲(chǔ)在外部存儲(chǔ)器300中的圖像數(shù)據(jù)在VRAM 432中先經(jīng)過(guò)解壓縮，并且爾后在顯示器470(位映像顯示器)上逐幀顯示。如果通過(guò)在外部存儲(chǔ)器30中依次存儲(chǔ)要由解碼器410解碼用于再現(xiàn)的數(shù)字音頻數(shù)據(jù)，在外部存儲(chǔ)器30中準(zhǔn)備幾種類型的數(shù)字音頻數(shù)據(jù)，用以在不同的再現(xiàn)速度上進(jìn)行再現(xiàn)，則通過(guò)利用如在日本專利No.2581700中所描述的技術(shù)，用戶將得以在具有不同再現(xiàn)速度的多個(gè)類型的數(shù)字音頻數(shù)據(jù)間實(shí)施切換再現(xiàn)。
用戶可以聽到從揚(yáng)聲器480輸出的聲音，同時(shí)在顯示器470上顯示相關(guān)的圖像471，如圖1B所示。如果在這個(gè)時(shí)候僅要在音頻的再現(xiàn)速度上進(jìn)行改變，圖像的顯示定時(shí)就可能偏移。因此，為了使解碼器410能夠控制圖像數(shù)據(jù)的顯示定時(shí)，指示圖像顯示定時(shí)的信息可以預(yù)先被加入在編碼器200中產(chǎn)生的編碼音頻數(shù)據(jù)中。
圖2是用于解釋根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法的流程圖，并且編碼方法在編碼器200中的信息處理設(shè)備中執(zhí)行，從而能夠快速和令人滿意地進(jìn)行數(shù)據(jù)壓縮而無(wú)需降低音頻的清晰度。
在根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法中，第一個(gè)步驟是指定以周期Δt采樣的數(shù)字音頻數(shù)據(jù)(步驟ST1)，并且接下來(lái)的步驟是設(shè)定一離散頻率(信道CH)，在該離散頻率上將提取幅度信息(步驟ST2)。
通常知道音頻數(shù)據(jù)在其頻譜中包含極大的頻率成分范圍。還知道音頻頻譜分量在相應(yīng)頻率上的相位不是恒定的，且因此對(duì)于在一個(gè)頻率上的一個(gè)音頻頻譜分量來(lái)說(shuō)，存在正弦分量和余弦分量二個(gè)分量。
圖3是一個(gè)示出隨時(shí)間推移以周期Δt采樣的音頻頻譜分量的示例圖。假定每個(gè)音頻頻譜分量以整個(gè)頻率域中有限數(shù)目信道CHi(離散頻率Fi，其中i＝1，2，…，N)上的信號(hào)分量表示，第M個(gè)采樣的音頻頻譜分量S(m)(其為處于從采樣開始過(guò)了時(shí)間(Δt·m)的一點(diǎn)上的一音頻頻譜分量)可以表示如下S(m)=Σi=1N(Ai·sin(2πFi(Δt·m))+Bi·cos·(2πFi(Δt·m)))---(1)]]>以上公式(1)表示音頻頻譜分量S(m)是由第1至第N個(gè)分量的N個(gè)頻率分量組成的。實(shí)際的音頻信息包括一千個(gè)以上的頻率分量。
根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法已經(jīng)基于本發(fā)明人發(fā)現(xiàn)的以下事實(shí)而實(shí)現(xiàn)，即即使編碼音頻數(shù)據(jù)是由有限數(shù)目的離散頻率分量表示，根據(jù)人類聽覺(jué)特性的性質(zhì)，音頻的清晰度以及聲音的質(zhì)量實(shí)際上保持未受影響。
在隨后的步驟中，涉及在步驟ST1指定的第M個(gè)采樣的數(shù)字音頻數(shù)據(jù)(具有音頻頻譜分量S(m)，處理器提取一正弦分量，即sin(2πFi(Δt·m))以及一余弦分量，即cos(2πFi(Δt·m))，將在步驟ST2設(shè)定的頻率Fi(信道CHi)數(shù)字化(步驟ST3)；并且處理器進(jìn)一步提取相應(yīng)的正弦分量和余弦分量的幅度信息項(xiàng)Ai、Bi(步驟ST4)。步驟ST3～ST4被實(shí)施于所有的N個(gè)信道(步驟ST5)。
圖4是概念性示意圖，其展示在相應(yīng)頻率(信道CH)上提取一對(duì)幅度信息的過(guò)程。由于如上所述音頻頻譜分量S(m)被表示為在頻率Fi上的正弦和余弦分量的合成波，故作為對(duì)信道CHi的處理，音頻頻譜分量S(m)乘以正弦分量sin(2πFi(Δt·m))例如可導(dǎo)致獲得帶有系數(shù)Ai的sin(2πFi(Δt·m))和另一個(gè)波動(dòng)分量(交流分量)的平方項(xiàng)。該平方項(xiàng)可以被分成直流分量和交流分量，如在下面普通公式(2)中那樣。
sin2θ＝1/2-cos2θ/2(2)因此，使用一個(gè)低通濾波器LPF，就可以從音頻頻譜分量S(m)乘以正弦分量sin(2πFi(Δt·m))的結(jié)果中提取直流分量，即幅度信息Ai/2。
類似地還可獲得余弦分量的幅度信息，以使用一個(gè)低通濾波器LPF從音頻頻譜分量S(m)乘以余弦分量cos(2πFi(Δt·m))的結(jié)果中提取直流分量，即幅度信息Bi/2。
這些幅度信息項(xiàng)以低于上述采樣周期的周期Tv(＝Δt·v，其中v為一任意值)受到采樣，例如，以50～100采樣/秒受到采樣，從而產(chǎn)生具有例如圖5所示結(jié)構(gòu)的幀數(shù)據(jù)800a。圖5是示出幀數(shù)據(jù)的第一結(jié)構(gòu)實(shí)例的示意圖，其中對(duì)應(yīng)于預(yù)先設(shè)定的相應(yīng)頻率Fi，幀數(shù)據(jù)由成對(duì)的正弦分量的幅度信息項(xiàng)Ai和余弦分量的幅度信息項(xiàng)Bi組成，并且諸如幅度信息的采樣速率的控制信息被用作再現(xiàn)周期的基準(zhǔn)頻率。例如，假定音頻波段是由110Hz～7000Hz的六個(gè)八度音階限定的，并且信道CH被設(shè)定為每個(gè)八度音階十二個(gè)頻率，以便匹配音樂(lè)的樂(lè)律，則在該音頻波段中總計(jì)設(shè)定七十二個(gè)(＝N)頻道CH。假定在每個(gè)頻道CH上給每個(gè)幅度信息項(xiàng)分配一個(gè)字節(jié)，并且給控制信息CD分配八個(gè)字節(jié)，結(jié)果所述幀數(shù)據(jù)800a就具有152(＝2N+8)個(gè)字節(jié)。
在根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法中，前述的步驟ST1～ST6被實(shí)施于所有采樣的數(shù)字音頻數(shù)據(jù)，從而產(chǎn)生具有如上所述結(jié)構(gòu)的幀數(shù)據(jù)800a，并且最終產(chǎn)生如圖6所示的編碼音頻數(shù)據(jù)900(步驟ST7)。
由于數(shù)字音頻數(shù)據(jù)的編碼方法被安排成在所有頻率中的每個(gè)離散頻率上產(chǎn)生一對(duì)正弦分量和余弦分量，并且如上所述地提取正弦分量和余弦分量的幅度信息項(xiàng)，故該編碼方法能夠提高編碼處理的速度。由于構(gòu)成編碼音頻數(shù)據(jù)900的一部分的幀數(shù)據(jù)800a是由在相應(yīng)離散頻率Fi上的相應(yīng)正弦和余弦分量對(duì)的幅度信息項(xiàng)Ai、Bi組成的，獲得的編碼音頻數(shù)據(jù)900包含相位信息。此外，不需要窗口處理而從原始音頻數(shù)據(jù)中截去頻率分量，從而使音頻數(shù)據(jù)的連續(xù)性得以保持。
所獲得的編碼音頻數(shù)據(jù)900可以經(jīng)由如圖1A所示的網(wǎng)絡(luò)等等提供給用戶，在這種情況下，如圖7所示，也可能加密每個(gè)幀數(shù)據(jù)800a，并且傳送由加密的數(shù)據(jù)850a組成的編碼音頻數(shù)據(jù)。雖然圖7示出在幀數(shù)據(jù)單元中加密，但是，也可能采用同時(shí)加密整個(gè)編碼音頻數(shù)據(jù)的加密處理，或者僅加密編碼音頻數(shù)據(jù)的一個(gè)或多個(gè)部分的加密處理。
在本發(fā)明中，編碼方被配置成在一個(gè)頻率上提取正弦分量的幅度信息和余弦分量的幅度信息兩者，而解碼方被配置成通過(guò)使用這些信息段產(chǎn)生數(shù)字音頻數(shù)據(jù)，因此，還可發(fā)送在該頻率上的相位信息，以便獲得具有較好清晰度的音質(zhì)。不過(guò)，人的聽覺(jué)幾乎不能在高頻領(lǐng)域中鑒別相位，因此，很少需要在高頻領(lǐng)域也發(fā)送相位信息，并且再現(xiàn)的音頻的令人滿意的清晰度可以僅通過(guò)幅度信息得到保證。
因此，根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法也可以被安排成與選自離散頻率中的一個(gè)或多個(gè)頻率有關(guān)，尤其是與較少需要相位信息的高頻有關(guān)，計(jì)算在每個(gè)選定頻率上相互成對(duì)的正弦和余弦分量的相應(yīng)幅度信息項(xiàng)的平方和所給出的和分量的平方根，并且，以從幅度信息對(duì)獲得的和分量的平方根替換對(duì)應(yīng)于在幀數(shù)據(jù)中選定頻率的幅度信息對(duì)。
即，如圖8A所示，讓我們考慮表示成對(duì)的幅度信息項(xiàng)Ai、Bi相互正交的矢量，然后，通過(guò)如圖8B所示的一個(gè)運(yùn)算電路，獲得由相應(yīng)幅度信息項(xiàng)Ai、Bi的平方和給出的和分量的平方根Ci。壓縮的幀數(shù)據(jù)是通過(guò)以如上所述獲得的平方根信息Ci替換一個(gè)對(duì)應(yīng)于每個(gè)高頻的幅度信息對(duì)而獲得的。圖9是一個(gè)示例圖，示出由省略如上所述的相位信息而產(chǎn)生的幀數(shù)據(jù)的第二結(jié)構(gòu)實(shí)例。
例如，在七十二個(gè)頻率上的正弦和余弦分量幅度信息項(xiàng)對(duì)的高頻率方，假定幅度信息對(duì)被二十四個(gè)頻率中的每個(gè)頻率上的平方根信息Ci所替代；其中，每個(gè)幅度信息和平方根信息被分配一個(gè)字節(jié)，而控制信息CD被分配八個(gè)字節(jié)，幀數(shù)據(jù)800b具有128(＝2×48+24+8)個(gè)字節(jié)。因此，當(dāng)與圖5所示幀數(shù)據(jù)800b相比較的時(shí)候，就在可比水平上獲得近年來(lái)經(jīng)常使用的MPEG音頻級(jí)上的數(shù)據(jù)壓縮率。
在圖9中，幀數(shù)據(jù)800b中的區(qū)域810是一個(gè)平方根信息Ci在其中替換幅度信息對(duì)的區(qū)域。這個(gè)幀數(shù)據(jù)800b也可以被加密，從而能夠作為如圖7所示的內(nèi)容被傳送。
此外，根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法還可以被配置為，削去構(gòu)成一個(gè)幀數(shù)據(jù)的其中一些幅度信息對(duì)，借此數(shù)據(jù)壓縮率可以被進(jìn)一步提高。圖10A和10B是用于解釋采用削去幅度信息的數(shù)據(jù)壓縮方法例子的示例圖。詳細(xì)地說(shuō)，圖10B是一個(gè)示例圖，其示出構(gòu)成編碼的音頻數(shù)據(jù)的一部分的幀數(shù)據(jù)的第三結(jié)構(gòu)實(shí)例。這個(gè)數(shù)據(jù)壓縮方法可以應(yīng)用于圖5所示的幀數(shù)據(jù)800a和圖9所示的幀數(shù)據(jù)800b兩者，以下是圖9所示的幀數(shù)據(jù)800b的壓縮的描述。
首先，涉及在幀數(shù)據(jù)800b的幅度信息串中由各對(duì)正弦和余弦分量的幅度信息項(xiàng)組成的部分，計(jì)算在相互鄰近的每組幅度信息對(duì)中，例如在組(A1，B1)和(A2，B2)、組(A3，B3)和(A4，B4)、…、組(Ai-2，Bi-2)和(Ai-1，Bi-1)中，相應(yīng)對(duì)的平方根信息項(xiàng)C1、C2、…、Ci-1，并在所得到的平方根信息項(xiàng)C1和C2、C3和C4、Ci-2和Ci-1之間進(jìn)行比較，以替代在相鄰的幅度信息對(duì)之間的比較。在上述各組中的每一組中，保留具有較大平方根信息的對(duì)。以上比較也可以在具有三個(gè)或三個(gè)以上相互鄰近的幅度信息對(duì)的每個(gè)組之中進(jìn)行。
在這種情況下，如圖10B所示，在幀數(shù)據(jù)800c中準(zhǔn)備一個(gè)鑒別位串(識(shí)別信息)，其中，如果保留的幅度信息對(duì)是較低頻方幅度信息對(duì)，則0被設(shè)定為鑒別位，并且，其中如果保留的幅度信息對(duì)是較高頻率方幅度信息對(duì)，則1被設(shè)定為鑒別位。
另一方面，在幅度信息對(duì)已經(jīng)預(yù)先被平方根信息項(xiàng)替代的情況下，如在810區(qū)域中(參看圖9)，則在Ci和Ci+1之間、…、在CN-1和CN之間進(jìn)行比較，而保留其較大者。在這種情況下，如果保留較低頻率方的平方根信息，0也被設(shè)定為鑒別位，同時(shí)如果保留較高頻率方平方根信息，1也被設(shè)定為鑒別位。以上比較也可以在具有三個(gè)或三個(gè)以上相互鄰近的平方根信息項(xiàng)的每個(gè)組之中進(jìn)行。
例如，在圖9示出的幀數(shù)據(jù)800b的情況下，如上所述，幀數(shù)據(jù)800b由四十八個(gè)幅度信息對(duì)(每個(gè)幅度信息項(xiàng)一個(gè)字節(jié))和二十四個(gè)平方根信息項(xiàng)(每個(gè)項(xiàng)一個(gè)字節(jié))組成，幅度信息串被簡(jiǎn)化為48個(gè)字節(jié)(＝2×24)，而平方根信息串被簡(jiǎn)化為12個(gè)字節(jié)；但另一方面，36位(4.5字節(jié))是為識(shí)別位所必需的。因此，在七十二個(gè)頻率上提取相應(yīng)正弦和余弦分量的幅度信息項(xiàng)的情況下，幀數(shù)據(jù)800c由60(＝2×24+1×12)個(gè)字節(jié)的幅度信息串組成，鑒別信息近似為5(4.5)字節(jié)，且控制信息為8字節(jié)(總計(jì)73字節(jié))。在同樣條件下，圖9所示幀數(shù)據(jù)800b具有128個(gè)字節(jié)，因此，數(shù)據(jù)可以被削減大約43％。
這個(gè)幀數(shù)據(jù)800c也可以如圖7所示加密。
近來(lái)使用因特網(wǎng)等等的音頻傳送系統(tǒng)普及，增加了在諸如硬盤之類記錄介質(zhì)上先存儲(chǔ)所傳輸?shù)囊纛l數(shù)據(jù)(主要包括人類語(yǔ)音的數(shù)字信息，諸如新聞節(jié)目、討論會(huì)、歌曲、廣播劇、語(yǔ)言文學(xué)節(jié)目等等)、且爾后由此再現(xiàn)所傳送的音頻數(shù)據(jù)的機(jī)會(huì)。尤其是，老年性耳聾患者包括一類難于聽取高講話速度的人。在將語(yǔ)言作為學(xué)習(xí)目標(biāo)的外語(yǔ)學(xué)習(xí)過(guò)程中，也存在降低講話速度的強(qiáng)烈需要。
在如上所述的社交情形之下，如果實(shí)現(xiàn)數(shù)字內(nèi)容的傳輸，而對(duì)該數(shù)字內(nèi)容應(yīng)用根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的編碼方法和解碼方法，則用戶將無(wú)需在再現(xiàn)音頻的間距(用以提高或者降低再現(xiàn)速度)上進(jìn)行改變，而得以任意地調(diào)整再現(xiàn)速度。在這種情況下，用戶可以在他們不希望詳細(xì)聽取的部分提高再現(xiàn)速度(用戶甚至可以在接近正常再現(xiàn)速度二倍的速度上充分地了解內(nèi)容，因?yàn)殚g距沒(méi)有改變)，而在他們希望詳細(xì)聽取的部分可以瞬間返回到原始的再現(xiàn)速度，或者返回到比原始再現(xiàn)速度更慢的再現(xiàn)速度。
圖11是一個(gè)流程圖，用于解釋根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的解碼方法，所述分方法通過(guò)使用如上所述編碼的編碼音頻數(shù)據(jù)900，能夠容易和自由地改變語(yǔ)音速度而無(wú)需在間距上進(jìn)行改變。
在根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的解碼方法中，第一個(gè)步驟是設(shè)定再現(xiàn)周期Tw，該再現(xiàn)周期即從存儲(chǔ)在諸如H/D的記錄介質(zhì)中的編碼數(shù)據(jù)依次恢復(fù)幀數(shù)據(jù)的周期(步驟ST10)，而下一個(gè)步驟是指定待解碼的第n個(gè)幀數(shù)據(jù)(步驟ST11)。這個(gè)再現(xiàn)周期Tw是由采樣周期Tv(＝Δt·v，其中v是一任意值)與用戶所指定的再現(xiàn)速度比R(以1為基礎(chǔ)，R＝0.5表示一半速度而R＝2表示二倍速度)的比值(Tv/R)給出的，其中采樣周期Tv是上述編碼處理的幅度信息的采樣周期。
隨后，設(shè)定信道CH的頻率Fi(i＝1-N)(步驟ST12)，并依次在每個(gè)頻率Fi上產(chǎn)生正弦分量sin(2πFi(Δτ·n))和余弦分量cos(2πFiΔτ·n))(步驟ST13和ST14)。
然后，基于在步驟ST13產(chǎn)生的相應(yīng)頻率Fi的正弦和余弦分量，產(chǎn)生自再現(xiàn)開始后經(jīng)過(guò)時(shí)間(Δτ·n)處的數(shù)字音頻數(shù)據(jù)，以及在步驟ST11指定的第n個(gè)幀數(shù)據(jù)中的幅度信息項(xiàng)Ai、Bi(步驟ST15)。
對(duì)于包括在編碼音頻數(shù)據(jù)900(參看圖6)內(nèi)的所有幀數(shù)據(jù)執(zhí)行以上所述的步驟ST11～ST15(步驟ST16)。
當(dāng)在步驟ST11指定的幀數(shù)據(jù)如圖9中的幀數(shù)據(jù)800b所示，包括平方根信息Ci的情況下，所述過(guò)程可以通過(guò)將信息Ci用作正弦分量和余弦分量中的任一分量的系數(shù)而執(zhí)行。理由是，涉及以信息Ci進(jìn)行替換的頻域是一個(gè)其中人類不太可能能夠鑒別它們的頻率區(qū)域，因此較少需要使正弦和余弦分量彼此區(qū)分開。如果在步驟ST11指定的幀數(shù)據(jù)中的一部分幅度信息丟失，正如在圖10B所示出的幀數(shù)據(jù)800c，則再現(xiàn)速度的降低將導(dǎo)致再現(xiàn)的音頻顯著地變得不連續(xù)，如圖12A和12B所示。由于這個(gè)緣故，如圖13所示，最好是將再現(xiàn)周期Tw的時(shí)間間隔劃分為(Tw/Δτ)區(qū)段，并且實(shí)施線性插值，或者在之前和之后的音頻數(shù)據(jù)條之間實(shí)施曲線函數(shù)插值。在這種情況下，產(chǎn)生Tw/Δτ倍的原始音頻數(shù)據(jù)項(xiàng)。
當(dāng)一個(gè)專用于如上所述的根據(jù)本發(fā)明的數(shù)字音頻數(shù)據(jù)的解碼方法的集成電路芯片處理器被結(jié)合進(jìn)諸如蜂窩電話的便攜式終端的時(shí)候，用戶被允許在移動(dòng)時(shí)以期望的速度再現(xiàn)內(nèi)容或者打電話。
圖14是一個(gè)示例圖，示出在全球規(guī)模數(shù)據(jù)通信系統(tǒng)中的應(yīng)用，該系統(tǒng)用于將數(shù)據(jù)傳輸?shù)秸?qǐng)求傳輸?shù)慕K端設(shè)備，其被配置為從一個(gè)諸如服務(wù)器的特定傳輸系統(tǒng)，經(jīng)由有線或者無(wú)線的通信線路，將終端設(shè)備所指定的內(nèi)容數(shù)據(jù)傳輸給該終端設(shè)備，并且，該系統(tǒng)主要能夠使諸如音樂(lè)、圖像等等特定內(nèi)容經(jīng)由因特網(wǎng)傳輸電路網(wǎng)而被分別地提供給用戶，該因特網(wǎng)傳輸電路網(wǎng)例如是有線電視網(wǎng)和公用電話網(wǎng)、諸如蜂窩電話和衛(wèi)星通信線路等等的無(wú)線電路網(wǎng)。由于數(shù)字技術(shù)的最新發(fā)展和在數(shù)據(jù)通信環(huán)境中的改進(jìn)，所述內(nèi)容傳輸系統(tǒng)的這種應(yīng)用可以通過(guò)多種可設(shè)想到的方式實(shí)現(xiàn)。
在所述內(nèi)容傳輸系統(tǒng)中，如圖14所示，作為輸送系統(tǒng)的服務(wù)器100配備有存儲(chǔ)設(shè)備110，用以臨時(shí)存儲(chǔ)按照用戶請(qǐng)求而傳輸?shù)膬?nèi)容數(shù)據(jù)(例如編碼音頻數(shù)據(jù))；和數(shù)據(jù)傳輸器120(I/O)，用以經(jīng)由有線網(wǎng)150或者經(jīng)由使用通信衛(wèi)星160的無(wú)線電鏈路將內(nèi)容數(shù)據(jù)傳輸給用戶方終端設(shè)備，該用戶方終端設(shè)備例如為PC 200或者蜂窩電話300。
作為終端設(shè)備(客戶機(jī))，PC 200配備有接收機(jī)210(I/O)，用以經(jīng)由網(wǎng)絡(luò)150或者通信衛(wèi)星160接收從服務(wù)器100傳輸?shù)膬?nèi)容數(shù)據(jù)。PC200還配備有作為外部存儲(chǔ)器的硬盤220(H/D)，和用以將經(jīng)由I/O 210接收的內(nèi)容數(shù)據(jù)臨時(shí)記錄到H/D 220的控制器230。此外，PC 200配備有輸入設(shè)備240(例如鍵盤和鼠標(biāo))，用以接收來(lái)自用戶的輸入操作；顯示設(shè)備250(例如CRT或者液晶顯示器)，用以顯示圖像數(shù)據(jù)；以及揚(yáng)聲器260，用以輸出音頻數(shù)據(jù)或者音樂(lè)數(shù)據(jù)。移動(dòng)信息處理設(shè)備近來(lái)值得注意的發(fā)展，已經(jīng)導(dǎo)致內(nèi)容輸送業(yè)務(wù)將蜂窩電話用作終端設(shè)備和存儲(chǔ)介質(zhì)400，其作為專用的再現(xiàn)裝置(例如具有大約64 MB存儲(chǔ)容量的存儲(chǔ)卡)，無(wú)需實(shí)際使用通信功能。特別是，為了在沒(méi)有通信功能的再現(xiàn)專用設(shè)備中提供記錄介質(zhì)400，PC 200還可以配備有I/O 270作為數(shù)據(jù)記錄器。
終端設(shè)備可以是一個(gè)本身帶有通信功能的便攜式信息處理設(shè)備300，如圖14所示。
工業(yè)實(shí)用性如上所述，與使用帶通濾波器的常規(guī)的頻帶分隔方法相比較，本發(fā)明令處理速度得以顯著地提高，這歸因于下列配置通過(guò)使用對(duì)應(yīng)于每個(gè)離散頻率的一對(duì)正弦分量和余弦分量，從被采樣的數(shù)字音頻數(shù)據(jù)中提取出該正弦和余弦分量的幅度信息項(xiàng)。由于產(chǎn)生的編碼音頻數(shù)據(jù)包括各對(duì)正弦和余弦分量的幅度信息項(xiàng)，該對(duì)正弦和余弦分量對(duì)應(yīng)于預(yù)先設(shè)定的相應(yīng)離散頻率，故在編碼方和解碼方間保存了每個(gè)離散頻率上的相位信息。因此，解碼方也能夠不降低音頻的清晰度，而以一個(gè)任意選擇的再現(xiàn)速度來(lái)再現(xiàn)音頻。
權(quán)利要求
1.一種數(shù)字音頻數(shù)據(jù)的編碼方法，包括以下步驟在以第一周期采樣的數(shù)字音頻數(shù)據(jù)的頻域中設(shè)定以預(yù)先確定的間距分隔開的離散頻率；通過(guò)使用對(duì)應(yīng)于所設(shè)定的每個(gè)所述離散頻率的彼此成對(duì)的正弦分量和余弦分量，將各所述分量數(shù)字化，在每個(gè)第二周期上從所述數(shù)字音頻數(shù)據(jù)中提取所述正弦分量和余弦分量對(duì)的幅度信息項(xiàng)；和作為編碼音頻數(shù)據(jù)的一部分，依次產(chǎn)生幀數(shù)據(jù)，該幀數(shù)據(jù)包括對(duì)應(yīng)于相應(yīng)的所述離散頻率的正弦和余弦分量的幅度信息項(xiàng)對(duì)。
2.根據(jù)權(quán)利要求1的數(shù)字音頻數(shù)據(jù)的編碼方法，其中對(duì)應(yīng)于每個(gè)所述離散頻率的所述正弦分量和余弦分量的每個(gè)幅度信息項(xiàng)通過(guò)將所述數(shù)字音頻數(shù)據(jù)乘以該正弦分量和余弦分量中的任何一個(gè)而提取。
3.根據(jù)權(quán)利要求1的數(shù)字音頻信息的編碼方法，進(jìn)一步包括以下步驟對(duì)于選自所述離散頻率中的一個(gè)或多個(gè)頻率，計(jì)算在每個(gè)所選頻率上的一和分量的平方根，該和分量作為彼此成對(duì)的所述正弦和余弦分量的相應(yīng)幅度信息項(xiàng)的平方和而給出；和用由該幅度信息對(duì)獲得的和分量的平方根替換包含在所述幀數(shù)據(jù)中的對(duì)應(yīng)于每個(gè)所選頻率的幅度信息對(duì)。
4.根據(jù)權(quán)利要求1的數(shù)字音頻數(shù)據(jù)的編碼方法，進(jìn)一步包括以下步驟從包含在所述幀數(shù)據(jù)中的所述幅度信息中削去一個(gè)或多個(gè)幅度信息。
5.根據(jù)權(quán)利要求1的數(shù)字音頻數(shù)據(jù)的編碼方法，進(jìn)一步包括以下步驟在包含在所述幀數(shù)據(jù)中的對(duì)應(yīng)于彼此靠近的兩個(gè)或更多個(gè)離散頻率的幅度信息對(duì)之間或者之中，比較一和分量的平方根，該和分量作為彼此成對(duì)的正弦和余弦分量的相應(yīng)幅度信息項(xiàng)的平方和而給出；和在經(jīng)過(guò)上述比較的兩個(gè)或更多個(gè)幅度信息對(duì)中，除了具有所述和分量的最大平方根的幅度信息對(duì)以外，從包含在所述編碼音頻數(shù)據(jù)中的所述幀數(shù)據(jù)中消去其它的所述幅度信息對(duì)。
6.根據(jù)權(quán)利要求3的數(shù)字音頻數(shù)據(jù)的編碼方法，進(jìn)一步包括以下步驟在包含在所述幀數(shù)據(jù)中的對(duì)應(yīng)于彼此靠近的兩個(gè)或更多個(gè)離散頻率的幅度信息對(duì)之間或者之中，比較所述和分量的平方根；和在經(jīng)過(guò)上述比較的兩個(gè)或更多個(gè)幅度信息對(duì)中，除了具有所述和分量的最大平方根的幅度信息對(duì)以外，從包含在所述編碼音頻數(shù)據(jù)中的所述幀數(shù)據(jù)中消去其它的所述幅度信息對(duì)。
7.一種數(shù)字音頻數(shù)據(jù)的解碼方法，其用于解碼通過(guò)根據(jù)權(quán)利要求1的數(shù)字音頻數(shù)據(jù)的編碼方法而編碼的編碼音頻數(shù)據(jù)，所述解碼方法包括以下步驟在每個(gè)所述離散頻率上依次產(chǎn)生彼此成對(duì)的正弦分量和余弦分量，以第三周期使其數(shù)字化；和對(duì)于從所述編碼音頻數(shù)據(jù)中以再現(xiàn)周期的第四周期依次恢復(fù)的每一個(gè)幀數(shù)據(jù)，通過(guò)使用對(duì)應(yīng)于所述相應(yīng)離散頻率的幅度信息對(duì)，依次產(chǎn)生數(shù)字音頻數(shù)據(jù)，其中所述相應(yīng)離散頻率的幅度信息對(duì)包含在所恢復(fù)的所述幀數(shù)據(jù)中以及所述正弦和余弦分量對(duì)中。
8.根據(jù)權(quán)利要求7的數(shù)字音頻數(shù)據(jù)的解碼方法，其中對(duì)于選自所述離散頻率的一個(gè)或多個(gè)頻率中的每一頻率設(shè)定所述幀數(shù)據(jù)，使得所述彼此成對(duì)的正弦分量和余弦分量的幅度信息項(xiàng)對(duì)被一和分量的平方根所替代，其中該和分量作為所述幅度信息項(xiàng)的平方和而給出；和其中通過(guò)所述編碼方法獲得的所述數(shù)字音頻數(shù)據(jù)的一部分是通過(guò)使用在所述幀數(shù)據(jù)中的所述和分量的平方根而產(chǎn)生的，并且所述正弦分量和余弦分量中的任一個(gè)對(duì)應(yīng)于該和分量的平方根所屬于的頻率。
9.根據(jù)權(quán)利要求7或者8的數(shù)字音頻數(shù)據(jù)的解碼方法，其中以短于所述第四周期的第五周期依次產(chǎn)生一個(gè)或多個(gè)幅度插值信息，用于在以所述第四周期依次恢復(fù)的幀數(shù)據(jù)之間實(shí)施幅度信息的線性插值或者曲線函數(shù)插值。
全文摘要
用于數(shù)字音頻數(shù)據(jù)的編碼方法和解碼方法，能夠根據(jù)不同的數(shù)字內(nèi)容并且無(wú)需犧牲話音清晰度而改變?cè)佻F(xiàn)速度。該編碼方法包括以下步驟對(duì)于每一個(gè)預(yù)定的離散頻率產(chǎn)生成對(duì)的數(shù)字化正弦波分量和余弦波分量，并且，通過(guò)使用該正弦波和余弦波分量，從以預(yù)定采樣周期采樣的數(shù)字語(yǔ)音數(shù)據(jù)中，提取該正弦波分量的幅度信息和該余弦波分量的幅度信息，幀數(shù)據(jù)包括各對(duì)根據(jù)相應(yīng)離散頻率所提取的正弦波分量幅度信息和余弦波分量幅度信息，其隨后被作為編碼音頻數(shù)據(jù)的一部分而依次產(chǎn)生。
文檔編號(hào)G10L21/04GK1493072SQ0182301
公開日2004年4月28日申請(qǐng)日期2001年1月22日優(yōu)先權(quán)日2001年1月22日
發(fā)明者關(guān)口博司申請(qǐng)人:卡納斯數(shù)據(jù)株式會(huì)社, 賓得株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載