一種音頻信號增強(qiáng)方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及通信領(lǐng)域,尤其設(shè)及一種音頻信號增強(qiáng)方法和裝置。
【背景技術(shù)】
[0002] 在通信系統(tǒng)中,音頻信號往往都會受到噪聲的干擾,導(dǎo)致音頻信號質(zhì)量下降。目 前,通信領(lǐng)域中主要是通過音頻增強(qiáng)技術(shù)實(shí)現(xiàn)從被噪聲污染的音頻信號中提取盡可能的干 凈信號,W提高音頻信號質(zhì)量。由于實(shí)踐中需要考慮終端設(shè)備在計(jì)算能力、存儲空間和成本 等方面的限制,往往使用網(wǎng)絡(luò)設(shè)備實(shí)現(xiàn)對音頻信號的增強(qiáng)。其中,在網(wǎng)絡(luò)設(shè)備對音頻信號進(jìn) 行語音增強(qiáng)過程中包括對音頻信號進(jìn)行完全解碼、增強(qiáng)處理和重新編碼的操作。由于需要 對音頻信號進(jìn)行完全解碼,再對解碼后的數(shù)據(jù)進(jìn)行處理,從而目前音頻信號的增強(qiáng)過程中 計(jì)算復(fù)雜度和附加時(shí)延都會比較高。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明實(shí)施例提供了一種音頻信號增強(qiáng)方法和裝置,可W降低音頻信號的增強(qiáng)過 程中計(jì)算復(fù)雜度和附加時(shí)延。
[0004] 第一方面,本發(fā)明實(shí)施例提供一種音頻信號增強(qiáng)方法,包括:
[0005] 解碼輸入的音頻信號的比特流,獲取所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù);
[0006] 使用預(yù)先為所述音頻信號中包含的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述音頻信號的 待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,W獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值;
[0007] 對所述純凈估計(jì)值進(jìn)行量化,得到所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值的量 化索引,并將所述量化索引替換掉所述待增強(qiáng)帖的譜包絡(luò)參數(shù)對應(yīng)的比特。
[000引在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述方法還包括:
[0009] 解碼輸入的音頻信號的比特流,獲取所述音頻信號的音頻信號帖的譜包絡(luò)參數(shù);
[0010] 使用所述譜包絡(luò)參數(shù)對所述音頻信號帖進(jìn)行噪聲分類,W獲取所述音頻信號帖的 噪聲類型;
[0011] 在所述音頻信號中包括所述音頻信號帖在內(nèi)的N個(gè)帖內(nèi)中統(tǒng)計(jì)所述N個(gè)帖包含的 每一種噪聲類型的帖數(shù)量,選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中包含的噪聲類 型,其中,所述N為大于或者等于1的整數(shù)。
[0012] 結(jié)合第一方面第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的實(shí)現(xiàn)方式中, 所述使用所述譜包絡(luò)參數(shù)對所述音頻信號帖進(jìn)行噪聲分類,W獲取所述音頻信號帖的噪聲 類型,包括:
[0013] 從輸入的音頻信號的比特流中獲得對應(yīng)于所述音頻信號帖的碼書增益參數(shù),利用 所述碼書增益參數(shù)和所述譜包絡(luò)參數(shù)計(jì)算所述音頻信號帖對預(yù)設(shè)的M個(gè)噪聲模型中每個(gè) 噪聲模型的后驗(yàn)概率,選擇所述M個(gè)噪聲模型中后驗(yàn)概率最大的噪聲模型作為所述音頻信 號帖的噪聲類型,其中,M為大于或者等于1的整數(shù)。
[0014] 結(jié)合第一方面或者第一方面的第一種上可能的實(shí)現(xiàn)方式或者第一方面第二種可 能的實(shí)現(xiàn)方式,在第一方面的第=種可能的實(shí)現(xiàn)方式中,所述方法還包括:
[0015] 對所述待增強(qiáng)帖的自適應(yīng)碼書增益和代數(shù)碼書增益進(jìn)行聯(lián)合調(diào)整,分別對聯(lián)合調(diào) 整后的自適應(yīng)碼書增益和代數(shù)碼書增益進(jìn)行量化,得到所述待增強(qiáng)帖的聯(lián)合調(diào)整后的自適 應(yīng)碼書增益的量化索引和代數(shù)碼書增益的量化索引,其中,所述待增強(qiáng)帖的自適應(yīng)碼書增 益和代數(shù)碼書增益是對所述待增強(qiáng)帖進(jìn)行解碼操作獲取的;
[0016] 將所述待增強(qiáng)帖的聯(lián)合調(diào)整后的自適應(yīng)碼書增益的量化索引替換掉所述待增強(qiáng) 帖的自適應(yīng)碼書增益對應(yīng)的比特,將所述待增強(qiáng)帖的聯(lián)合調(diào)整后的代數(shù)碼書增益的量化索 引替換掉所述待增強(qiáng)帖的代數(shù)碼書增益對應(yīng)的比特。
[0017] 結(jié)合第一方面或者第一方面的第一種上可能的實(shí)現(xiàn)方式或者第一方面第二種可 能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方式中,所述使用預(yù)先為所述音頻信號中 包含的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理, W獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值,包括:
[001引計(jì)算所述音頻信號的待增強(qiáng)帖與若干帖的譜包絡(luò)參數(shù)的均值,其中,所述若干帖 為所述音頻信號中在所述待增強(qiáng)帖之前的若干帖;
[0019] 計(jì)算所述待增強(qiáng)帖的去均值的譜包絡(luò)參數(shù),其中,所述去均值的譜包絡(luò)參數(shù)為所 述待增強(qiáng)帖的譜包絡(luò)參數(shù)與所述均值的差值;
[0020] 使用預(yù)先為所述音頻信號中包含的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述去均值的譜 包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,W得到所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值;
[0021] 將所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值與預(yù)先獲取的純凈音頻譜包絡(luò)參數(shù)的 均值相加,W得到所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值。
[0022] 結(jié)合第一方面第一種可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式中, 所述在所述音頻信號中包括所述音頻信號帖在內(nèi)的N個(gè)帖內(nèi)中統(tǒng)計(jì)所述N個(gè)帖包含的每一 種噪聲類型的帖數(shù)量,選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中包含的噪聲類型, 包括:
[0023] 在所述音頻信號中包括所述音頻信號帖在內(nèi)的起始段的N個(gè)帖內(nèi)中統(tǒng)計(jì)所述N個(gè) 帖包含的每一種噪聲類型的帖數(shù)量,選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中包含 的噪聲類型;或者
[0024] 在所述音頻信號中包括所述音頻信號帖在內(nèi)的且不存在語音信號的N個(gè)帖中統(tǒng) 計(jì)所述N個(gè)帖包含的每一種噪聲類型的帖數(shù)量,選擇帖數(shù)量最多的噪聲類型作為所述音頻 信號中包含的噪聲類型。
[0025] 結(jié)合第一方面或者第一方面的第一種上可能的實(shí)現(xiàn)方式或者第一方面第二種可 能的實(shí)現(xiàn)方式,在第一方面的第六種可能的實(shí)現(xiàn)方式中,所述方法還包括:
[0026] 當(dāng)檢測到所述音頻信號中連續(xù)的多帖的噪聲類型與之前判斷的所述音頻信號中 包含的噪聲類型不同時(shí),在所述連續(xù)的多帖內(nèi)統(tǒng)計(jì)所述連續(xù)的多帖包含的每種噪聲類型的 帖數(shù)量,選擇帖數(shù)量最多的噪聲類型作為所述音頻信號的當(dāng)前噪聲類型;
[0027] 所述使用預(yù)先為所述音頻信號的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述音頻信號的待 增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,W獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值,包 括:
[002引使用預(yù)先為所述音頻信號的當(dāng)前噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述音頻信號的待 增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,w獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值。
[0029] 結(jié)合第一方面上述任一種可能的實(shí)現(xiàn)方式,在第一方面的第走種可能的實(shí)現(xiàn)方式 中,所述神經(jīng)網(wǎng)絡(luò)包括:
[0030] 遞歸深度神經(jīng)網(wǎng)絡(luò)。
[0031] 第二方面,本發(fā)明提供一種音頻信號增強(qiáng)裝置,包括:解碼單元、增強(qiáng)單元和替換 單元,其中:
[0032] 所述解碼單元,用于解碼輸入的音頻信號的比特流,獲取所述音頻信號的待增強(qiáng) 帖的譜包絡(luò)參數(shù);
[0033] 所述增強(qiáng)單元,用于使用預(yù)先為所述音頻信號中包含的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò) 對所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,W獲取所述待增強(qiáng)帖的譜包絡(luò)參 數(shù)的純凈估計(jì)值;
[0034] 所述替換單元,用于對所述純凈估計(jì)值進(jìn)行量化,得到所述待增強(qiáng)帖的譜包絡(luò)參 數(shù)的純凈估計(jì)值的量化索引,并將所述量化索引替換掉所述待增強(qiáng)帖的譜包絡(luò)參數(shù)對應(yīng)的 比特。
[0035] 在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述解碼單元還用于解碼輸入的音頻信 號的比特流,獲取所述音頻信號的音頻信號帖的譜包絡(luò)參數(shù);
[0036] 所述裝置還包括:
[0037] 分類單元,用于使用所述譜包絡(luò)參數(shù)對所述音頻信號帖進(jìn)行噪聲分類,W獲取所 述音頻信號帖的噪聲類型;
[003引統(tǒng)計(jì)單元,用于在所述音頻信號中包括所述音頻信號帖在內(nèi)的N個(gè)帖內(nèi)統(tǒng)計(jì)所述N個(gè)帖包含的每一種噪聲類型的帖數(shù)量,選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中 包含的噪聲類型,其中,所述N為大于或者等于1的整數(shù);
[0039] 結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第二種可能的實(shí)現(xiàn)方式 中,所述分類單元用于從輸入的音頻信號的比特流中獲得對應(yīng)于所述音頻信號帖的碼書增 益參數(shù),利用所述碼書增益參數(shù)和所述譜包絡(luò)參數(shù)計(jì)算所述音頻信號帖對預(yù)設(shè)的M個(gè)噪聲 模型中每個(gè)噪聲模型的后驗(yàn)概率,選擇所述M個(gè)噪聲模型中后驗(yàn)概率最大的噪聲模型作為 所述音頻信號帖的噪聲類型。
[0040] 結(jié)合第二方面或者第二方面的第一種可能的實(shí)現(xiàn)方式或者第二方面的第二種可 能的實(shí)現(xiàn)方式,在第二方面的第=種可能的實(shí)現(xiàn)方式中,所述裝置還包括:
[0041] 調(diào)整單元,用于對所述待增強(qiáng)帖的自適應(yīng)碼書增益和代數(shù)碼書增益進(jìn)行聯(lián)合調(diào) 整,分別對聯(lián)合調(diào)整后的自適應(yīng)碼書增益和代數(shù)碼書增益進(jìn)行量化,得到所述待增強(qiáng)帖的 聯(lián)合調(diào)整后的自適應(yīng)碼書增益的量化索引和代數(shù)碼書增益的量化索引,其中,所述待增強(qiáng) 帖的自適應(yīng)碼書增益和代數(shù)碼書增益是對所述待增強(qiáng)帖進(jìn)行解碼操作獲取的;
[0042] 所述替換單元還用于將所述待增強(qiáng)帖的聯(lián)合調(diào)整后的自適應(yīng)碼書增益的量化索 引替換掉所述待增強(qiáng)帖的自適應(yīng)碼書增益對應(yīng)的比特,將所述待增強(qiáng)帖的聯(lián)合調(diào)整后的代 數(shù)碼書增益的量化索引替換掉所述待增強(qiáng)帖的代數(shù)碼書增益對應(yīng)的比特。
[0043] 結(jié)合第二方面或者第二方面的第一種可能的實(shí)現(xiàn)方式或者第二方面的第二種可 能的實(shí)現(xiàn)方式,在第二方面的第四種可能的實(shí)現(xiàn)方式中,所述增強(qiáng)單元包括:
[0044] 第一計(jì)算單元,用于計(jì)算所述音頻信號的待增強(qiáng)帖與若干帖的譜包絡(luò)參數(shù)的均 值,其中,所述若干帖為所述音頻信號中在所述待增強(qiáng)帖之前的若干帖;
[0045] 第二計(jì)算單元,用于計(jì)算所述待增強(qiáng)帖的去均值的譜包絡(luò)參數(shù),其中,所述去均值 的譜包絡(luò)參數(shù)為所述待增強(qiáng)帖的譜包絡(luò)參數(shù)與所述均值的差值;
[0046] 第=計(jì)算單元,用于使用預(yù)先為所述音頻信號的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述 去均值的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,W得到所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值;
[0047] 第四計(jì)算單元,用于將所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值與預(yù)先獲取的純凈 音頻譜包絡(luò)參數(shù)的均值相加,W得到所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值。
[0048] 結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式,在第二方面的第五種可能的實(shí)現(xiàn)方式 中,所述統(tǒng)計(jì)單元用于在所述音頻信號中包括所述音頻信號帖在內(nèi)的起始段的N個(gè)帖內(nèi)中 統(tǒng)計(jì)所述N個(gè)帖包含的每一種噪聲類型的帖數(shù)量,選擇帖數(shù)量最多的噪聲類型作為所述音 頻信號中包含的噪聲類型;或者
[0049] 所述統(tǒng)計(jì)單元用于在所述音頻信號中包括所述音頻信號帖在內(nèi)的且不存在語音 信號的N個(gè)帖中統(tǒng)計(jì)所述N個(gè)帖包含的每一種噪聲類型的帖數(shù)量,選擇帖數(shù)量最多的噪聲 類型作為所述音頻信號中包含的噪聲類型。
[0化0] 結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第六種可能的實(shí)現(xiàn)方式 中,所述統(tǒng)計(jì)單元還用于當(dāng)檢測到所述音頻信號中連續(xù)的多帖的噪聲類型與之前判斷的所 述音頻信號中包含的噪聲類型不同時(shí),在所述連續(xù)的多帖內(nèi)統(tǒng)計(jì)所述連續(xù)的多帖包含的每 種噪聲類型的帖數(shù)量,選擇帖數(shù)量最多的噪聲類型作為所述音頻信號的當(dāng)前噪聲類型. [0化1] 所述增強(qiáng)單元用于使用預(yù)先為所述音頻信號的當(dāng)前噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對 所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理,W獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù) 的純凈估計(jì)值。
[0052] 結(jié)合第二方面上述任一種可能的實(shí)現(xiàn)方式,在第二方面的第八種可能的實(shí)現(xiàn)方式 中,所述神經(jīng)網(wǎng)絡(luò)包括:
[0化3] 遞歸深度神經(jīng)網(wǎng)絡(luò)。
[0化4] 上述技術(shù)方案中,解碼輸入的音頻信號的比特流,獲取所述音頻信號的待增強(qiáng)帖 的譜包絡(luò)參數(shù);使用預(yù)