基于網(wǎng)絡(luò)協(xié)議的低速語音編碼方法

文檔序號：2835803閱讀：744來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于網(wǎng)絡(luò)協(xié)議的低速語音編碼方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)字通信系統(tǒng)中數(shù)據(jù)編碼方法，尤其是基于網(wǎng)絡(luò)協(xié)議的低速語音編碼方法。
在數(shù)字通信系統(tǒng)中，用以傳輸信息的信道帶寬總是有限的，要在有限的帶寬內(nèi)盡可能多地增加系統(tǒng)容量或用戶數(shù)，就必須提高信道帶寬的利用率。采用低速語音編碼對信源數(shù)據(jù)進(jìn)行壓縮是提高帶寬利用率的重要手段。目前，低速語音編碼方法以固定幀長為基礎(chǔ)，基于IP(網(wǎng)絡(luò)協(xié)議)傳送的語音信號的數(shù)據(jù)報(bào)分割是以一幀或多幀語音的比特?cái)?shù)為單位的。
基于固定幀長的單幀或多幀IP語音傳送系統(tǒng)的工作流程如下在發(fā)送端，當(dāng)語音PCM(脈沖編碼調(diào)制)信號輸入后，首先確定語音性質(zhì)，再根據(jù)語音性質(zhì)和幀長確定編碼速率并對其進(jìn)行壓縮編碼，最后對壓縮后的單幀或多幀語音編碼TCP(傳輸控制協(xié)議)或UDP(用戶數(shù)據(jù)報(bào)協(xié)議)打包和IP打包后，通過信道傳送給接收端；在接收端，首先進(jìn)行IP和TCP或UDP解包，然后判斷數(shù)據(jù)包是否出錯(cuò)、丟包或延遲，如沒有上述情況，則正常譯碼后輸出語音PCM信號，否則，經(jīng)單幀或多幀語音預(yù)測譯碼后輸出語音PCM信號。在上述過程中，無論采用單幀還是多幀，由于采用了固定幀長，則其編碼效率低，不利于編碼效率的進(jìn)一步下降。當(dāng)采用多幀時(shí)，還不利于IP數(shù)據(jù)包丟失、傳送比特出錯(cuò)、延遲太大時(shí)對信源譯碼的處理，對語音譯碼質(zhì)量有影響。
針對以上現(xiàn)有技術(shù)中的問題，本發(fā)明的目的是，提供一種有利于提高編碼效率、降低壓縮速率、保證語音譯碼質(zhì)量的基于網(wǎng)絡(luò)協(xié)議的低速語音編碼方法。
為達(dá)到上述目的，本發(fā)明采用的技術(shù)方案是一種基于網(wǎng)絡(luò)協(xié)議的低速語音編碼方法，該方法包括以下步驟(1)信源根據(jù)語音數(shù)據(jù)采樣頻率，順序輸入量化的語音數(shù)據(jù)；(2)根據(jù)TN時(shí)間內(nèi)輸入的語音數(shù)據(jù)確定語音的性質(zhì)參數(shù)；(3)根據(jù)上述步驟(2)得到的語音性質(zhì)參數(shù)，確定語音后繼處理的最佳幀長T；(4)對最佳幀長T的語音數(shù)據(jù)進(jìn)行壓縮編碼；(5)對語音數(shù)據(jù)壓縮編碼后的數(shù)據(jù)比特，在利用TCP或UDP協(xié)議打包和IP協(xié)議打包后，通過信道輸出。
由于本方法采用變幀長語音壓縮編碼方法，可提高編碼效率，有利于編碼壓縮速率的進(jìn)一步下降，進(jìn)而提高了數(shù)據(jù)傳輸效率。同時(shí)由于本方法采用單幀語音編碼，在IP包數(shù)據(jù)丟失、傳送比特出錯(cuò)、延遲太大時(shí)，有利于信源譯碼的處理，對語音譯碼有好處，進(jìn)而保證了語音譯碼質(zhì)量。采用非正式聽音表明，使用本方法的數(shù)據(jù)編碼壓縮能力或在同等誤碼率上，以及在對語音譯碼能力方面，MOS分值提高0.1～0.2。
下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。

圖1是本發(fā)明的流程示意圖；圖2是基于自適應(yīng)變幀長變速率的單幀IP語音傳送系統(tǒng)流程示意圖；圖3是本發(fā)明的一個(gè)實(shí)施例系統(tǒng)邏輯示意圖；圖4是本發(fā)明的基于自適應(yīng)變幀長變速率的單幀IP語音傳送系統(tǒng)實(shí)施例流程示意圖。
本發(fā)明的原理描述如下，參考圖1、2。信源輸入為采樣量化的語音數(shù)據(jù)，數(shù)據(jù)是根據(jù)采樣率順序輸入的，語音性質(zhì)確定模塊根據(jù)每TN毫秒輸入的數(shù)據(jù)，確定輸入語音的性質(zhì)參數(shù)。上述時(shí)間TN按照下述原則確定首先編碼效率、壓縮率要盡可能高，其次延遲時(shí)間不能太長；經(jīng)實(shí)驗(yàn)證明，5ms≤TN≤30ms時(shí)為最佳。根據(jù)語音性質(zhì)參數(shù)，即語音的變化頻度確定輸入語音后續(xù)處理的最佳幀長T，基本原則為使輸入語音滿足短時(shí)特性不變，而可以分析的語音幀長盡量長，具體說，若語音的變化頻度快，則幀長短，反之幀長長。最佳幀長T＝T1，T2，...，TN，為一個(gè)有限集。對最佳幀長T的語音，再采用內(nèi)部變速率算法對其進(jìn)行壓縮編碼，輸出壓縮編碼后的比特，其比特?cái)?shù)NUM也是在一個(gè)有限集中，NUM＝NUM1，NUM2，......，NUMM。對語音壓縮編碼后輸出的NUM個(gè)比特利用TCP或UDP協(xié)議加上包頭，比特?cái)?shù)變?yōu)镹UM_P，IP打包模塊對NUM_P個(gè)比特再打包加上路由信息，得到NUM_IP個(gè)比特，由此，傳送到接收方，接收方進(jìn)行IP解包，TCP或UDP解包。在正常情況下，語音譯碼模塊正常譯碼，但由于在傳送過程中，可能會引入信道誤碼，傳輸延遲等情況，此時(shí)，由于只有一幀語音傳送，語音譯碼模塊可以很容易地處理傳輸中出現(xiàn)的問題。
編碼的基本操作流程如下(1)信源輸入為采樣量化的語音數(shù)據(jù)，數(shù)據(jù)是根據(jù)采樣率順序輸入的；(2)語音性質(zhì)確定模塊根據(jù)每TN毫秒輸入的數(shù)據(jù)確定輸入語音的性質(zhì)參數(shù)，根據(jù)語音的性質(zhì)參數(shù)，即語音的變化頻度確定輸入語音后續(xù)處理的最佳幀長T，T＝T1，T2，...，TN，為一個(gè)有限集；(3)對最佳幀長T的語音，再采用內(nèi)部變速率算法對其進(jìn)行壓縮編碼，輸出壓縮編碼后的比特，其比特?cái)?shù)NUM也是在一個(gè)有限集中，NUM＝NUM1，NUM2，......，NUMM；(4)對語音壓縮編碼后輸出的NUM個(gè)比特利用TCP或UDP協(xié)議加上包頭，比特?cái)?shù)變?yōu)镹UM_P；(5)IP打包模塊對NUM_P個(gè)比特再打包加上路由信息，得到NUM_IP個(gè)比特。
上述IP打包后的NUM_IP個(gè)比特通過信道，傳送到接收方。
譯碼的基本操作流程如下(1)接收方進(jìn)行IP解包；(2)TCP或UDP解包；
(3)在正常情況下，語音譯碼模塊正常譯碼；在處錯(cuò)條件下，進(jìn)行單幀預(yù)測譯碼；(4)輸出恢復(fù)的語音數(shù)據(jù)。
本發(fā)明可以應(yīng)用于目前Internet上公用網(wǎng)或?qū)Ｓ镁W(wǎng)IP語音傳送，也可用于未來移動通信中基于IP的核心網(wǎng)語音傳送。參考圖3。其中IP網(wǎng)關(guān)采用本發(fā)明提出的編譯碼，在Internet傳送IP包出現(xiàn)丟包、傳輸比特出錯(cuò)等情況下，譯碼器能夠根據(jù)本發(fā)明內(nèi)容糾正譯碼質(zhì)量，由于是變幀長傳輸，糾正的語音譯碼質(zhì)量能夠更好。對于IP網(wǎng)關(guān)，本例給出了一個(gè)結(jié)合變幀長、變速率語音編碼方法的實(shí)例，參考圖4，編碼速率為2Kbitps，4Kbitps，8Kbitps，其基本操作流程如下編碼(1)信源輸入為采樣量化的語音數(shù)據(jù)，采樣率8000Hz，數(shù)據(jù)是根據(jù)采樣率順序輸入的；T1＝5，T2＝10，T3＝15，T4＝20，T5＝25，T6＝30ms；(2)語音性質(zhì)確定模塊根據(jù)每30ms輸入的數(shù)據(jù)確定輸入語音的性質(zhì)參數(shù)，計(jì)算方法如下，計(jì)算每5ms的分段基音周期，分別計(jì)算10ms，15ms，20ms，25ms，30ms的基音周期方差D10，D15，D20，D25，D30；(3)根據(jù)語音的性質(zhì)參數(shù)，即語音的變化頻度確定輸入語音后續(xù)處理的最佳幀長T當(dāng){D30<Threshold則T＝30；D25<Threshold則T＝25；
D20<Threshold則T＝20；D15<Threshold則T＝15；D10<Threshold則T＝10；否則T＝5}其中Threshold是基音周期的一個(gè)方差的比較，其值的確定應(yīng)考慮在編碼效率和質(zhì)量之間作一個(gè)較好的權(quán)衡。
(4)對最佳幀長T的語音，采用內(nèi)部變速率算法壓縮編碼，壓縮編碼后的比特?cái)?shù)為NUM，NUM＝T*2，T*4，T*8，為三個(gè)檔次；(5)對語音壓縮編碼后輸出的NUM個(gè)比特利用TCP協(xié)議加上包頭，比特?cái)?shù)變?yōu)镹UM_P；(6)IP打包模塊對NUM_P個(gè)比特再打包加上路由信息，得到NUM_IP個(gè)比特。該NUM_IP個(gè)比特通過信道，傳送到接收方。譯碼(1)接收方進(jìn)行IP解包；(2)TCP解包；(3)在正常情況下，語音譯碼模塊正常譯碼；在處錯(cuò)條件下，進(jìn)行單幀預(yù)測譯碼；(4)·輸出恢復(fù)的語音數(shù)據(jù)。
權(quán)利要求
1.一種基于網(wǎng)絡(luò)協(xié)議的低速語音編碼方法，其特征在于，該方法包括以下步驟(1)信源根據(jù)語音數(shù)據(jù)采樣頻率，順序輸入量化的語音數(shù)據(jù)；(2)根據(jù)TN時(shí)間內(nèi)輸入的語音數(shù)據(jù)確定語音的性質(zhì)參數(shù)；(3)根據(jù)上述步驟(2)得到的語音性質(zhì)參數(shù)，確定語音后繼處理的最佳幀長T；(4)對最佳幀長T的語音數(shù)據(jù)進(jìn)行壓縮編碼；(5)對語音數(shù)據(jù)壓縮編碼后的數(shù)據(jù)比特，在利用TCP或UDP協(xié)議打包和IP協(xié)議打包后，通過信道輸出。
2.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)協(xié)議的低速語音編碼方法，其特征在于所述TN時(shí)間為滿足TN≥5ms且TN≤30ms的任一時(shí)間。
3.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)協(xié)議的低速語音編碼方法，其特征在于，所述根據(jù)語音性質(zhì)參數(shù)確定語音后繼處理的最佳幀長T是按照下述方法確定的若語音的變化頻度快，則幀長短，反之幀長長。
4.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)協(xié)議的低速語音編碼方法，其特征在于所述對最佳幀長T的語音數(shù)據(jù)進(jìn)行壓縮編碼是采用內(nèi)部變速率算法進(jìn)行的。
全文摘要
本發(fā)明提供了一種基于網(wǎng)絡(luò)協(xié)議的低速語音編碼方法,由于本方法采用單幀、變幀長、幀內(nèi)比特自適應(yīng)的低速語音壓縮編碼方法,可使編碼壓縮的能力進(jìn)一步提高,進(jìn)而提高了數(shù)據(jù)傳輸效率。同時(shí)由于IP的數(shù)據(jù)報(bào)分割以該語音編碼幀的分割為單位,對信源語音編譯碼的質(zhì)量會有較大的提高。采用非正式聽音表明,使用本方法的數(shù)據(jù)編碼壓縮能力或在同等誤碼率上,以及在對語音譯碼能力方面,MOS分值提高0.1～0.2。
文檔編號G10L19/18GK1338834SQ0012611
公開日2002年3月6日申請日期2000年8月19日優(yōu)先權(quán)日2000年8月19日
發(fā)明者潘勝昔, 李英濤申請人:華為技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載