国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法、裝置、設(shè)備及存儲介質(zhì)與流程

      文檔序號:40379558發(fā)布日期:2024-12-20 12:02閱讀:4來源:國知局
      基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法、裝置、設(shè)備及存儲介質(zhì)與流程

      本發(fā)明涉及音頻編解碼,尤其涉及一種基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法、裝置、設(shè)備及存儲介質(zhì)。


      背景技術(shù):

      1、目前比較流行的傳統(tǒng)編解碼器,更多的結(jié)合了如線性預(yù)測編碼、碼激勵線性預(yù)測和修正離散余弦變換等傳統(tǒng)方法。這些音頻編碼器在音頻壓縮編解碼的領(lǐng)域占據(jù)了重要的地位,但是仍然存在一些不足:傳統(tǒng)音頻編解碼器更多的依賴于人工預(yù)先設(shè)計的信號處理方法如線性預(yù)測編碼,這些算法通常需要在音頻質(zhì)量和壓縮編碼效率之間進行權(quán)衡,并且它們通常在中高比特率下表現(xiàn)良好,但在低比特率尤其是復(fù)雜音頻環(huán)境下往往容易出現(xiàn)難以避免的音質(zhì)下降。傳統(tǒng)音頻編解碼器通常是針對特定的音頻內(nèi)容進行設(shè)計和優(yōu)化,但難以在比較廣泛、一般的音頻內(nèi)容和應(yīng)用場景中表現(xiàn)出色;在存在復(fù)雜的底噪或回聲的場景中,傳統(tǒng)的音頻編解碼器的性能會有明顯的下降,因為它們主要依賴于規(guī)則驅(qū)動的音頻信號處理基數(shù),難以在復(fù)雜的環(huán)境下保持穩(wěn)定的性能;傳統(tǒng)編解碼器的設(shè)計往往是靜態(tài)的,這意味著他們大多需要在設(shè)計好的環(huán)境下運作,難以在不同碼率、采樣率或者延遲的要求下靈活調(diào)整。

      2、因此,現(xiàn)有技術(shù)還有待于改進和發(fā)展。


      技術(shù)實現(xiàn)思路

      1、為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法、裝置、設(shè)備及存儲介質(zhì),旨在解決傳統(tǒng)編解碼方法在低比特率下音質(zhì)下降、適應(yīng)性差以及缺乏靈活性的問題。

      2、本發(fā)明第一方面提供了一種基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法,包括:預(yù)先構(gòu)建編解碼器網(wǎng)絡(luò),所述編解碼器網(wǎng)絡(luò)包括:用于接收原始音頻數(shù)據(jù)輸入并輸出音頻潛表示z的編碼器網(wǎng)絡(luò)、用于壓縮所述音頻潛表示z并輸出壓縮潛表示zq的量化器,以及用于將所述壓縮潛表示zq重建為時域信號的解碼器網(wǎng)絡(luò);預(yù)先設(shè)計所述編解碼器網(wǎng)絡(luò)的融合損失函數(shù),所述融合損失函數(shù)包括:重構(gòu)損失、感知損失、殘差矢量化損失以及承諾損失,使用原始音頻數(shù)據(jù)作為輸入對所述編解碼器網(wǎng)絡(luò)進行端到端的訓(xùn)練,通過前向傳播得到模型輸出,計算所述融合損失函數(shù)的損失值,并使用反向傳播算法將損失值回傳至所述編解碼器網(wǎng)絡(luò)中的每個參數(shù),更新參數(shù)以減小損失值,得到音頻編解碼模型;將待處理音頻輸入所述音頻編解碼模型,輸出重建音頻信號。

      3、可選的,在本發(fā)明第一方面的第一種實現(xiàn)方式中,所述編碼器網(wǎng)絡(luò)包括一個通道數(shù)為c卷積核大小為7的第一卷積層,b個卷積塊,一個用于序列建模的lstm,以及一個卷積核大小為7輸出通道為d的第二卷積層;其中,每個卷積塊都由一個殘差單元組成,后跟著一個步幅為s的卷積組成的下采樣層,下采樣層的核大小k為步幅s的兩倍,殘差單元包含了兩個核大小為3的卷積和1個跳躍連接。

      4、可選的,在本發(fā)明第一方面的第二種實現(xiàn)方式中,所述量化器為殘差多階段矢量量化器,所述編碼器網(wǎng)絡(luò)輸出音頻潛表示z在所述殘差多階段矢量量化器中被壓縮成離散的量化索引,即碼本向量,所述量化索引表示經(jīng)過多級量化后得到的離散值,其中,所述殘差多階段矢量量化器由nq層矢量量化層級聯(lián)組成;未量化的輸入向量x通過第一個矢量量化器碼本進行處理并計算量化殘差,得到第一層的量化結(jié)果q1和第一個殘差r1;將殘差r1通過第二個矢量量化器碼本進行量化,得到第二層的量化結(jié)果q2和第二個殘差r2;迭代進行量化,直到達到預(yù)定的量化層數(shù)nq為止;每層的量化結(jié)果結(jié)合之后得到最終的量化結(jié)果,量化碼字q是整個量化過程的結(jié)果,代表了編碼后的信號,最終的量化特征。

      5、可選的,在本發(fā)明第一方面的第三種實現(xiàn)方式中,所述編解碼器網(wǎng)絡(luò)還包括位于量化器之后的熵編碼器,所述熵編碼器用于對量化索引的概率分布進行算數(shù)編碼,生成壓縮碼流。

      6、可選的,在本發(fā)明第一方面的第四種實現(xiàn)方式中,所述熵編碼器用于對量化索引的概率分布進行算數(shù)編碼,生成壓縮碼流,包括步驟:針對量化后的符號序列構(gòu)建概率模型,假設(shè)符號序列為s={s1,s2,…,sn},每個符號si的概率由歷史數(shù)據(jù)的統(tǒng)計結(jié)果得出,表示為p(si),則每個符號的累積概率c(si)是符號si之前所有符號概率的總和,即;在算術(shù)編碼開始時,定義一個初始區(qū)間[0,1],對于符號序列中的每個符號si,根據(jù)其概率p(si)和累積概率c(si),將當前區(qū)間[low,high]逐步縮小為更小的區(qū)間[low’,?high’],如下:;?;當所有符號處理完畢后,選擇該區(qū)間的中點作為最終的編碼結(jié)果,這個值通過二進制表示,即為最終的壓縮碼流。

      7、可選的,在本發(fā)明第一方面的第五種實現(xiàn)方式中,所述融合損失函數(shù):,其中,l_rec代表重構(gòu)損失,l_percept代表感知或判別損失,l_rvq代表殘差矢量量化損失,l_commit代表承諾損失,每個損失對應(yīng)的λ值表示在各個指標上的取舍和平衡。

      8、可選的,在本發(fā)明第一方面的第六種實現(xiàn)方式中,在對所述編解碼器網(wǎng)絡(luò)進行端到端的訓(xùn)練過程中,通過引入平衡器動態(tài)調(diào)整所述融合損失函數(shù)中每個損失項的梯度,均衡每個損失項在優(yōu)化過程中對模型的貢獻。

      9、本發(fā)明第二方面提供了一種基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼裝置,包括:網(wǎng)絡(luò)構(gòu)建模塊,用于預(yù)先構(gòu)建編解碼器網(wǎng)絡(luò),所述編解碼器網(wǎng)絡(luò)包括:用于接收原始音頻數(shù)據(jù)輸入并輸出音頻潛表示z的編碼器網(wǎng)絡(luò)、用于壓縮所述音頻潛表示z并輸出壓縮潛表示zq的量化器,以及用于將所述壓縮潛表示zq重建為時域信號的解碼器網(wǎng)絡(luò);損失函數(shù)設(shè)計模塊,用于預(yù)先設(shè)計所述編解碼器網(wǎng)絡(luò)的融合損失函數(shù),所述融合損失函數(shù)包括:重構(gòu)損失、感知損失、殘差矢量化損失以及承諾損失,使用原始音頻數(shù)據(jù)作為輸入對所述編解碼器網(wǎng)絡(luò)進行端到端的訓(xùn)練,通過前向傳播得到模型輸出,計算所述融合損失函數(shù)的損失值,并使用反向傳播算法將損失值回傳至所述編解碼器網(wǎng)絡(luò)中的每個參數(shù),更新參數(shù)以減小損失值,得到音頻編解碼模型;輸出模塊,用于將待處理音頻輸入所述音頻編解碼模型,輸出重建音頻信號。

      10、本發(fā)明第三方面提供了一種基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼設(shè)備,包括:存儲器和至少一個處理器,所述存儲器中存儲有計算機可讀指令,所述存儲器和所述至少一個處理器通過線路互連;所述至少一個處理器調(diào)用所述存儲器中的所述計算機可讀指令,以使得所述基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼設(shè)備執(zhí)行如上所述基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法的各個步驟。

      11、本發(fā)明的第四方面提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機可讀指令,當其在計算機上運行時,使得計算機執(zhí)行如上所述基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法的各個步驟。

      12、有益效果:本發(fā)明針對傳統(tǒng)音頻編解碼器在低比特率下音質(zhì)下降、適應(yīng)性差以及缺乏靈活性等技術(shù)問題,提供了一種基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法,首先,通過引入改進的殘差矢量量化方法,逐步量化音頻信號的殘差信息,在壓縮過程中更精細地保留音頻特征;然后,采用了一種融合了重構(gòu)損失、感知損失、殘差矢量量化損失和承諾損失的損失函數(shù),顯著提高了音頻信號在不同比特率下的重建質(zhì)量,能夠在保證高音質(zhì)的同時,實現(xiàn)高效的音頻壓縮;最后,通過在量化后引入了熵編碼的模塊,進一步降低了編碼的碼率,顯著減少了音頻實時傳輸?shù)膸捫枨蟆?/p>

      技術(shù)特征:

      1.一種基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法,其特征在于,包括步驟:

      2.根據(jù)權(quán)利要求1所述基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法,其特征在于,所述編碼器網(wǎng)絡(luò)包括一個通道數(shù)為c卷積核大小為7的第一卷積層,b個卷積塊,一個用于序列建模的lstm,以及一個卷積核大小為7輸出通道為d的第二卷積層;其中,每個卷積塊都由一個殘差單元組成,后跟著一個步幅為s的卷積組成的下采樣層,下采樣層的核大小k為步幅s的兩倍,殘差單元包含了兩個核大小為3的卷積和1個跳躍連接。

      3.根據(jù)權(quán)利要求1所述基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法,其特征在于,所述量化器為殘差多階段矢量量化器,所述編碼器網(wǎng)絡(luò)輸出音頻潛表示z在所述殘差多階段矢量量化器中被壓縮成離散的量化索引,即碼本向量,所述量化索引表示經(jīng)過多級量化后得到的離散值,其中,所述殘差多階段矢量量化器由nq層矢量量化層級聯(lián)組成;未量化的輸入向量x通過第一個矢量量化器碼本進行處理并計算量化殘差,得到第一層的量化結(jié)果q1和第一個殘差r1;將殘差r1通過第二個矢量量化器碼本進行量化,得到第二層的量化結(jié)果q2和第二個殘差r2;迭代進行量化,直到達到預(yù)定的量化層數(shù)nq為止;每層的量化結(jié)果結(jié)合之后得到最終的量化結(jié)果,量化碼字q是整個量化過程的結(jié)果,代表了編碼后的信號,最終的量化特征。

      4.根據(jù)權(quán)利要求3所述基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法,其特征在于,所述編解碼器網(wǎng)絡(luò)還包括位于量化器之后的熵編碼器,所述熵編碼器用于對量化索引的概率分布進行算數(shù)編碼,生成壓縮碼流。

      5.根據(jù)權(quán)利要求4所述基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法,其特征在于,所述熵編碼器用于對量化索引的概率分布進行算數(shù)編碼,生成壓縮碼流,包括步驟:

      6.根據(jù)權(quán)利要求1所述基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法,其特征在于,所述融合損失函數(shù):,其中,l_rec代表重構(gòu)損失,l_percept代表感知損失,l_rvq代表殘差矢量量化損失,l_commit代表承諾損失,每個損失對應(yīng)的λ值表示在各個指標上的取舍和平衡。

      7.根據(jù)權(quán)利要求1所述基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法,其特征在于,在對所述編解碼器網(wǎng)絡(luò)進行端到端的訓(xùn)練過程中,通過引入平衡器動態(tài)調(diào)整所述融合損失函數(shù)中每個損失項的梯度,均衡每個損失項在優(yōu)化過程中對模型的貢獻。

      8.一種基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼裝置,其特征在于,包括:

      9.一種基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼設(shè)備,其特征在于,包括存儲器和至少一個處理器,所述存儲器中存儲有計算機可讀指令;

      10.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機可讀指令,其特征在于,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法的各個步驟。


      技術(shù)總結(jié)
      本發(fā)明涉及音頻編解碼技術(shù)領(lǐng)域,公開了一種基于神經(jīng)網(wǎng)絡(luò)的音頻編解碼方法、裝置、設(shè)備及存儲介質(zhì)。該方法:首先,通過引入改進的殘差矢量量化方法,逐步量化音頻信號的殘差信息,在壓縮過程中更精細地保留音頻特征;然后,采用了一種融合了重構(gòu)損失、感知損失、殘差矢量量化損失和承諾損失的損失函數(shù),顯著提高了音頻信號在不同比特率下的重建質(zhì)量,能夠在保證高音質(zhì)的同時,實現(xiàn)高效的音頻壓縮;最后,通過在量化后引入了熵編碼的模塊,進一步降低了編碼的碼率,顯著減少了音頻實時傳輸?shù)膸捫枨蟆?br/>
      技術(shù)研發(fā)人員:常沛煒,李友高,許朝智,吳星辰,李榮基,戴瑤,李驍
      受保護的技術(shù)使用者:季華實驗室
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1