不同時(shí),在所述連續(xù)的多帖內(nèi)統(tǒng)計(jì)所述述連續(xù)的多帖包含的每種噪聲類(lèi)型 的帖數(shù)量,選擇帖數(shù)量最多的噪聲類(lèi)型作為所述音頻信號(hào)的當(dāng)前噪聲類(lèi)型;
[0271] 本實(shí)施例中,處理器111執(zhí)行的使用預(yù)先為所述音頻信號(hào)的噪聲類(lèi)型設(shè)置的神經(jīng) 網(wǎng)絡(luò)對(duì)所述音頻信號(hào)的待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,W獲取所述待增強(qiáng)帖的譜包 絡(luò)參數(shù)的純凈估計(jì)值的步驟,可W包括:
[0272] 使用預(yù)先為所述音頻信號(hào)的當(dāng)前噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所述音頻信號(hào)的待 增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,w獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值。
[0273] 本實(shí)施例中,上述神經(jīng)網(wǎng)絡(luò)可W包括:
[0274] 遞歸深度神經(jīng)網(wǎng)絡(luò)。
[0275] 本實(shí)施例中,解碼輸入的音頻信號(hào)的比特流,獲取所述音頻信號(hào)的待增強(qiáng)帖的譜 包絡(luò)參數(shù);使用預(yù)先為所述音頻信號(hào)中包含的噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所述音頻信號(hào)的 待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,W獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值; 對(duì)所述純凈估計(jì)值進(jìn)行量化,得到所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值的量化索引, 并將所述量化索引替換掉所述待增強(qiáng)帖的譜包絡(luò)參數(shù)對(duì)應(yīng)的比特。該樣可W實(shí)現(xiàn)只需要對(duì) 音頻信號(hào)帖的譜包絡(luò)參數(shù)對(duì)應(yīng)的比特進(jìn)行解碼,即進(jìn)行部分解碼,從而可W降低音頻信號(hào) 的增強(qiáng)過(guò)程中計(jì)算復(fù)雜度和附加時(shí)延。
[0276] 本領(lǐng)域普通技術(shù)人員可W理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可W 通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì) 中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁 碟、光盤(pán)、只讀存儲(chǔ)記憶體化eacHDnlyMemcxry,ROM)或隨機(jī)存取存儲(chǔ)器(RandomAccess Memoir,簡(jiǎn)稱(chēng)RAM)等。
[0277] W上所揭露的僅為本發(fā)明較佳實(shí)施例而已,當(dāng)然不能W此來(lái)限定本發(fā)明之權(quán)利范 圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【主權(quán)項(xiàng)】
1. 一種音頻信號(hào)增強(qiáng)方法,其特征在于,包括: 解碼輸入的音頻信號(hào)的比特流,獲取所述音頻信號(hào)的待增強(qiáng)幀的譜包絡(luò)參數(shù); 使用預(yù)先為所述音頻信號(hào)中包含的噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所述音頻信號(hào)的待增 強(qiáng)幀的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,以獲取所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的純凈估計(jì)值; 對(duì)所述純凈估計(jì)值進(jìn)行量化,得到所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的純凈估計(jì)值的量化索 弓丨,并將所述量化索引替換掉所述待增強(qiáng)幀的譜包絡(luò)參數(shù)對(duì)應(yīng)的比特。2. 如權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 解碼輸入的音頻信號(hào)的比特流,獲取所述音頻信號(hào)的音頻信號(hào)幀的譜包絡(luò)參數(shù); 使用所述譜包絡(luò)參數(shù)對(duì)所述音頻信號(hào)幀進(jìn)行噪聲分類(lèi),以獲取所述音頻信號(hào)幀的噪聲 類(lèi)型; 在所述音頻信號(hào)中包括所述音頻信號(hào)幀在內(nèi)的N個(gè)幀內(nèi)中統(tǒng)計(jì)所述N個(gè)幀包含的每一 種噪聲類(lèi)型的幀數(shù)量,選擇幀數(shù)量最多的噪聲類(lèi)型作為所述音頻信號(hào)中包含的噪聲類(lèi)型, 其中,所述N為大于或者等于1的整數(shù)。3. 如權(quán)利要求2所述的方法,其特征在于,所述使用所述譜包絡(luò)參數(shù)對(duì)所述音頻信號(hào) 幀進(jìn)行噪聲分類(lèi),以獲取所述音頻信號(hào)幀的噪聲類(lèi)型,包括: 從輸入的音頻信號(hào)的比特流中獲得對(duì)應(yīng)于所述音頻信號(hào)幀的碼書(shū)增益參數(shù),利用所述 碼書(shū)增益參數(shù)和所述譜包絡(luò)參數(shù)計(jì)算所述音頻信號(hào)幀對(duì)預(yù)設(shè)的M個(gè)噪聲模型中每個(gè)噪聲 模型的后驗(yàn)概率,選擇所述M個(gè)噪聲模型中后驗(yàn)概率最大的噪聲模型作為所述音頻信號(hào)幀 的噪聲類(lèi)型,其中,M為大于或者等于1的整數(shù)。4. 如權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,所述方法還包括: 對(duì)所述待增強(qiáng)幀的自適應(yīng)碼書(shū)增益和代數(shù)碼書(shū)增益進(jìn)行聯(lián)合調(diào)整,分別對(duì)聯(lián)合調(diào)整后 的自適應(yīng)碼書(shū)增益和代數(shù)碼書(shū)增益進(jìn)行量化,得到所述待增強(qiáng)幀的聯(lián)合調(diào)整后的自適應(yīng)碼 書(shū)增益的量化索引和代數(shù)碼書(shū)增益的量化索引,其中,所述待增強(qiáng)幀的自適應(yīng)碼書(shū)增益和 代數(shù)碼書(shū)增益是對(duì)所述待增強(qiáng)幀進(jìn)行解碼操作獲取的; 將所述待增強(qiáng)幀的聯(lián)合調(diào)整后的自適應(yīng)碼書(shū)增益的量化索引替換掉所述待增強(qiáng)幀的 自適應(yīng)碼書(shū)增益對(duì)應(yīng)的比特,將所述待增強(qiáng)幀的聯(lián)合調(diào)整后的代數(shù)碼書(shū)增益的量化索引替 換掉所述待增強(qiáng)幀的代數(shù)碼書(shū)增益對(duì)應(yīng)的比特。5. 如權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,所述使用預(yù)先為所述音頻信號(hào) 中包含的噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所述音頻信號(hào)的待增強(qiáng)幀的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處 理,以獲取所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的純凈估計(jì)值,包括: 計(jì)算所述音頻信號(hào)的待增強(qiáng)幀與若干幀的譜包絡(luò)參數(shù)的均值,其中,所述若干幀為所 述音頻信號(hào)中在所述待增強(qiáng)幀之前的若干幀; 計(jì)算所述待增強(qiáng)幀的去均值的譜包絡(luò)參數(shù),其中,所述去均值的譜包絡(luò)參數(shù)為所述待 增強(qiáng)幀的譜包絡(luò)參數(shù)與所述均值的差值; 使用預(yù)先為所述音頻信號(hào)中包含的噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所述去均值的譜包絡(luò) 參數(shù)進(jìn)行增強(qiáng)處理,以得到所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值; 將所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值與預(yù)先獲取的純凈音頻譜包絡(luò)參數(shù)的均值 相加,以得到所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的純凈估計(jì)值。6. 如權(quán)利要求2所述的方法,其特征在于,所述在所述音頻信號(hào)中包括所述音頻信號(hào) 幀在內(nèi)的N個(gè)幀內(nèi)中統(tǒng)計(jì)所述N個(gè)幀包含的每一種噪聲類(lèi)型的幀數(shù)量,選擇幀數(shù)量最多的 噪聲類(lèi)型作為所述音頻信號(hào)中包含的噪聲類(lèi)型,包括: 在所述音頻信號(hào)中包括所述音頻信號(hào)幀在內(nèi)的起始段的N個(gè)幀內(nèi)中統(tǒng)計(jì)所述N個(gè)幀包 含的每一種噪聲類(lèi)型的幀數(shù)量,選擇幀數(shù)量最多的噪聲類(lèi)型作為所述音頻信號(hào)中包含的噪 聲類(lèi)型;或者 在所述音頻信號(hào)中包括所述音頻信號(hào)幀在內(nèi)的且不存在語(yǔ)音信號(hào)的N個(gè)幀中統(tǒng)計(jì)所 述N個(gè)幀包含的每一種噪聲類(lèi)型的幀數(shù)量,選擇幀數(shù)量最多的噪聲類(lèi)型作為所述音頻信號(hào) 中包含的噪聲類(lèi)型。7. 如權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,所述方法還包括: 當(dāng)檢測(cè)到所述音頻信號(hào)中連續(xù)的多幀的噪聲類(lèi)型與之前判斷的所述音頻信號(hào)中包含 的噪聲類(lèi)型不同時(shí),在所述連續(xù)的多幀內(nèi)統(tǒng)計(jì)所述連續(xù)的多幀包含的每種噪聲類(lèi)型的幀數(shù) 量,選擇幀數(shù)量最多的噪聲類(lèi)型作為所述音頻信號(hào)的當(dāng)前噪聲類(lèi)型; 所述使用預(yù)先為所述音頻信號(hào)的噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所述音頻信號(hào)的待增強(qiáng) 幀的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,以獲取所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的純凈估計(jì)值,包括: 使用預(yù)先為所述音頻信號(hào)的當(dāng)前噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所述音頻信號(hào)的待增強(qiáng) 幀的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,以獲取所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的純凈估計(jì)值。8. 如權(quán)利要求1-6中任一項(xiàng)所述的方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)包括:遞歸深度神 經(jīng)網(wǎng)絡(luò)。9.一種音頻信號(hào)增強(qiáng)裝置,其特征在于,包括:解碼單元、增強(qiáng)單元和替換單元,其中: 所述解碼單元,用于解碼輸入的音頻信號(hào)的比特流,獲取所述音頻信號(hào)的待增強(qiáng)幀的 譜包絡(luò)參數(shù); 所述增強(qiáng)單元,用于使用預(yù)先為所述音頻信號(hào)中包含的噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所 述音頻信號(hào)的待增強(qiáng)幀的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,以獲取所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的 純凈估計(jì)值; 所述替換單元,用于對(duì)所述純凈估計(jì)值進(jìn)行量化,得到所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的 純凈估計(jì)值的量化索引,并將所述量化索引替換掉所述待增強(qiáng)幀的譜包絡(luò)參數(shù)對(duì)應(yīng)的比 特。10. 如權(quán)利要求9所述的裝置,其特征在于,所述解碼單元還用于解碼輸入的音頻信號(hào) 的比特流,獲取所述音頻信號(hào)的音頻信號(hào)幀的譜包絡(luò)參數(shù); 所述裝置還包括: 分類(lèi)單元,用于使用所述譜包絡(luò)參數(shù)對(duì)所述音頻信號(hào)幀進(jìn)行噪聲分類(lèi),以獲取所述音 頻信號(hào)幀的噪聲類(lèi)型; 統(tǒng)計(jì)單元,用于在所述音頻信號(hào)中包括所述音頻信號(hào)幀在內(nèi)的N個(gè)幀內(nèi)統(tǒng)計(jì)所述N個(gè) 幀包含的每一種噪聲類(lèi)型的幀數(shù)量,選擇幀數(shù)量最多的噪聲類(lèi)型作為所述音頻信號(hào)中包含 的噪聲類(lèi)型,其中,所述N為大于或者等于1的整數(shù)。11. 如權(quán)利要求10所述的裝置,其特征在于,所述分類(lèi)單元用于從輸入的音頻信號(hào)的 比特流中獲得對(duì)應(yīng)于所述音頻信號(hào)幀的碼書(shū)增益參數(shù),利用所述碼書(shū)增益參數(shù)和所述譜包 絡(luò)參數(shù)計(jì)算所述音頻信號(hào)幀對(duì)預(yù)設(shè)的M個(gè)噪聲模型中每個(gè)噪聲模型的后驗(yàn)概率,選擇所述 M個(gè)噪聲模型中后驗(yàn)概率最大的噪聲模型作為所述音頻信號(hào)幀的噪聲類(lèi)型。12. 如權(quán)利要求9-11中任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括: 調(diào)整單元,用于對(duì)所述待增強(qiáng)幀的自適應(yīng)碼書(shū)增益和代數(shù)碼書(shū)增益進(jìn)行聯(lián)合調(diào)整,分 別對(duì)聯(lián)合調(diào)整后的自適應(yīng)碼書(shū)增益和代數(shù)碼書(shū)增益進(jìn)行量化,得到所述待增強(qiáng)幀的聯(lián)合調(diào) 整后的自適應(yīng)碼書(shū)增益的量化索引和代數(shù)碼書(shū)增益的量化索引,其中,所述待增強(qiáng)幀的自 適應(yīng)碼書(shū)增益和代數(shù)碼書(shū)增益是對(duì)所述待增強(qiáng)幀進(jìn)行解碼操作獲取的; 所述替換單元還用于將所述待增強(qiáng)幀的聯(lián)合調(diào)整后的自適應(yīng)碼書(shū)增益的量化索引替 換掉所述待增強(qiáng)幀的自適應(yīng)碼書(shū)增益對(duì)應(yīng)的比特,將所述待增強(qiáng)幀的聯(lián)合調(diào)整后的代數(shù)碼 書(shū)增益的量化索引替換掉所述待增強(qiáng)幀的代數(shù)碼書(shū)增益對(duì)應(yīng)的比特。13. 如權(quán)利要求9-11中任一項(xiàng)所述的裝置,其特征在于,所述增強(qiáng)單元包括: 第一計(jì)算單元,用于計(jì)算所述音頻信號(hào)的待增強(qiáng)幀與若干幀的譜包絡(luò)參數(shù)的均值,其 中,所述若干幀為所述音頻信號(hào)中在所述待增強(qiáng)幀之前的若干幀; 第二計(jì)算單元,用于計(jì)算所述待增強(qiáng)幀的去均值的譜包絡(luò)參數(shù),其中,所述去均值的譜 包絡(luò)參數(shù)為所述待增強(qiáng)幀的譜包絡(luò)參數(shù)與所述均值的差值; 第三計(jì)算單元,用于使用預(yù)先為所述音頻信號(hào)的噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所述去均 值的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,以得到所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值; 第四計(jì)算單元,用于將所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值與預(yù)先獲取的純凈音頻 譜包絡(luò)參數(shù)的均值相加,以得到所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的純凈估計(jì)值。14. 如權(quán)利要求10所述的裝置,其特征在于,所述統(tǒng)計(jì)單元用于在所述音頻信號(hào)中包 括所述音頻信號(hào)幀在內(nèi)的起始段的N個(gè)幀內(nèi)中統(tǒng)計(jì)所述N個(gè)幀包含的每一種噪聲類(lèi)型的幀 數(shù)量,選擇幀數(shù)量最多的噪聲類(lèi)型作為所述音頻信號(hào)中包含的噪聲類(lèi)型;或者 所述統(tǒng)計(jì)單元用于在所述音頻信號(hào)中包括所述音頻信號(hào)幀在內(nèi)的且不存在語(yǔ)音信號(hào) 的N個(gè)幀中統(tǒng)計(jì)所述N個(gè)幀包含的每一種噪聲類(lèi)型的幀數(shù)量,選擇幀數(shù)量最多的噪聲類(lèi)型 作為所述音頻信號(hào)中包含的噪聲類(lèi)型。15. 如權(quán)利要求10所述的裝置,其特征在于,所述統(tǒng)計(jì)單元還用于當(dāng)檢測(cè)到所述音頻 信號(hào)中連續(xù)的多幀的噪聲類(lèi)型與之前判斷的所述音頻信號(hào)中包含的噪聲類(lèi)型不同時(shí),在所 述連續(xù)的多幀內(nèi)統(tǒng)計(jì)所述連續(xù)的多幀包含的每種噪聲類(lèi)型的幀數(shù)量,選擇幀數(shù)量最多的噪 聲類(lèi)型作為所述音頻信號(hào)的當(dāng)前噪聲類(lèi)型; 所述增強(qiáng)單元用于使用預(yù)先為所述音頻信號(hào)的當(dāng)前噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所述 音頻信號(hào)的待增強(qiáng)幀的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,以獲取所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的純 凈估計(jì)值。16. 如權(quán)利要求9-15中任一項(xiàng)所述的裝置,其特征在于,所述神經(jīng)網(wǎng)絡(luò)包括: 遞歸深度神經(jīng)網(wǎng)絡(luò)。
【專(zhuān)利摘要】本發(fā)明實(shí)施例公開(kāi)了一種音頻信號(hào)增強(qiáng)方法和裝置,該方法可包括:解碼輸入的音頻信號(hào)的比特流,獲取所述音頻信號(hào)的待增強(qiáng)幀的譜包絡(luò)參數(shù);使用預(yù)先為所述音頻信號(hào)中包含的噪聲類(lèi)型設(shè)置的神經(jīng)網(wǎng)絡(luò)對(duì)所述音頻信號(hào)的待增強(qiáng)幀的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,以獲取所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的純凈估計(jì)值;對(duì)所述純凈估計(jì)值進(jìn)行量化,得到所述待增強(qiáng)幀的譜包絡(luò)參數(shù)的純凈估計(jì)值的量化索引,并將所述量化索引替換掉所述待增強(qiáng)幀的譜包絡(luò)參數(shù)對(duì)應(yīng)的比特。本發(fā)明實(shí)施例可以降低音頻信號(hào)的增強(qiáng)過(guò)程中計(jì)算復(fù)雜度和附加時(shí)延。
【IPC分類(lèi)】G10L25/30, G10L21/0208, G10L21/0232
【公開(kāi)號(hào)】CN104966517
【申請(qǐng)?zhí)枴緾N201510295355
【發(fā)明人】夏丙寅, 周璇, 苗磊
【申請(qǐng)人】華為技術(shù)有限公司
【公開(kāi)日】2015年10月7日
【申請(qǐng)日】2015年6月2日