一種音頻信號增強(qiáng)方法和裝置的制造方法

文檔序號：9249914閱讀：689來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種音頻信號增強(qiáng)方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及通信領(lǐng)域，尤其設(shè)及一種音頻信號增強(qiáng)方法和裝置。
【背景技術(shù)】
[0002] 在通信系統(tǒng)中，音頻信號往往都會受到噪聲的干擾，導(dǎo)致音頻信號質(zhì)量下降。目前，通信領(lǐng)域中主要是通過音頻增強(qiáng)技術(shù)實(shí)現(xiàn)從被噪聲污染的音頻信號中提取盡可能的干凈信號，W提高音頻信號質(zhì)量。由于實(shí)踐中需要考慮終端設(shè)備在計(jì)算能力、存儲空間和成本等方面的限制，往往使用網(wǎng)絡(luò)設(shè)備實(shí)現(xiàn)對音頻信號的增強(qiáng)。其中，在網(wǎng)絡(luò)設(shè)備對音頻信號進(jìn) 行語音增強(qiáng)過程中包括對音頻信號進(jìn)行完全解碼、增強(qiáng)處理和重新編碼的操作。由于需要對音頻信號進(jìn)行完全解碼，再對解碼后的數(shù)據(jù)進(jìn)行處理，從而目前音頻信號的增強(qiáng)過程中計(jì)算復(fù)雜度和附加時(shí)延都會比較高。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明實(shí)施例提供了一種音頻信號增強(qiáng)方法和裝置，可W降低音頻信號的增強(qiáng)過程中計(jì)算復(fù)雜度和附加時(shí)延。
[0004] 第一方面，本發(fā)明實(shí)施例提供一種音頻信號增強(qiáng)方法，包括：
[0005] 解碼輸入的音頻信號的比特流，獲取所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)；
[0006] 使用預(yù)先為所述音頻信號中包含的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理，W獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值；
[0007] 對所述純凈估計(jì)值進(jìn)行量化，得到所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值的量化索引，并將所述量化索引替換掉所述待增強(qiáng)帖的譜包絡(luò)參數(shù)對應(yīng)的比特。
[000引在第一方面的第一種可能的實(shí)現(xiàn)方式中，所述方法還包括：
[0009] 解碼輸入的音頻信號的比特流，獲取所述音頻信號的音頻信號帖的譜包絡(luò)參數(shù)；
[0010] 使用所述譜包絡(luò)參數(shù)對所述音頻信號帖進(jìn)行噪聲分類，W獲取所述音頻信號帖的噪聲類型；
[0011] 在所述音頻信號中包括所述音頻信號帖在內(nèi)的N個(gè)帖內(nèi)中統(tǒng)計(jì)所述N個(gè)帖包含的每一種噪聲類型的帖數(shù)量，選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中包含的噪聲類型，其中，所述N為大于或者等于1的整數(shù)。
[0012] 結(jié)合第一方面第一種可能的實(shí)現(xiàn)方式，在第一方面的第二種可能的實(shí)現(xiàn)方式中，所述使用所述譜包絡(luò)參數(shù)對所述音頻信號帖進(jìn)行噪聲分類，W獲取所述音頻信號帖的噪聲類型，包括：
[0013] 從輸入的音頻信號的比特流中獲得對應(yīng)于所述音頻信號帖的碼書增益參數(shù)，利用所述碼書增益參數(shù)和所述譜包絡(luò)參數(shù)計(jì)算所述音頻信號帖對預(yù)設(shè)的M個(gè)噪聲模型中每個(gè) 噪聲模型的后驗(yàn)概率，選擇所述M個(gè)噪聲模型中后驗(yàn)概率最大的噪聲模型作為所述音頻信號帖的噪聲類型，其中，M為大于或者等于1的整數(shù)。
[0014] 結(jié)合第一方面或者第一方面的第一種上可能的實(shí)現(xiàn)方式或者第一方面第二種可能的實(shí)現(xiàn)方式，在第一方面的第=種可能的實(shí)現(xiàn)方式中，所述方法還包括：
[0015] 對所述待增強(qiáng)帖的自適應(yīng)碼書增益和代數(shù)碼書增益進(jìn)行聯(lián)合調(diào)整，分別對聯(lián)合調(diào) 整后的自適應(yīng)碼書增益和代數(shù)碼書增益進(jìn)行量化，得到所述待增強(qiáng)帖的聯(lián)合調(diào)整后的自適應(yīng)碼書增益的量化索引和代數(shù)碼書增益的量化索引，其中，所述待增強(qiáng)帖的自適應(yīng)碼書增益和代數(shù)碼書增益是對所述待增強(qiáng)帖進(jìn)行解碼操作獲取的；
[0016] 將所述待增強(qiáng)帖的聯(lián)合調(diào)整后的自適應(yīng)碼書增益的量化索引替換掉所述待增強(qiáng) 帖的自適應(yīng)碼書增益對應(yīng)的比特，將所述待增強(qiáng)帖的聯(lián)合調(diào)整后的代數(shù)碼書增益的量化索引替換掉所述待增強(qiáng)帖的代數(shù)碼書增益對應(yīng)的比特。
[0017] 結(jié)合第一方面或者第一方面的第一種上可能的實(shí)現(xiàn)方式或者第一方面第二種可能的實(shí)現(xiàn)方式，在第一方面的第四種可能的實(shí)現(xiàn)方式中，所述使用預(yù)先為所述音頻信號中包含的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理， W獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值，包括：
[001引計(jì)算所述音頻信號的待增強(qiáng)帖與若干帖的譜包絡(luò)參數(shù)的均值，其中，所述若干帖為所述音頻信號中在所述待增強(qiáng)帖之前的若干帖；
[0019] 計(jì)算所述待增強(qiáng)帖的去均值的譜包絡(luò)參數(shù)，其中，所述去均值的譜包絡(luò)參數(shù)為所述待增強(qiáng)帖的譜包絡(luò)參數(shù)與所述均值的差值；
[0020] 使用預(yù)先為所述音頻信號中包含的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述去均值的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理，W得到所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值；
[0021] 將所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值與預(yù)先獲取的純凈音頻譜包絡(luò)參數(shù)的均值相加，W得到所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值。
[0022] 結(jié)合第一方面第一種可能的實(shí)現(xiàn)方式，在第一方面的第五種可能的實(shí)現(xiàn)方式中，所述在所述音頻信號中包括所述音頻信號帖在內(nèi)的N個(gè)帖內(nèi)中統(tǒng)計(jì)所述N個(gè)帖包含的每一種噪聲類型的帖數(shù)量，選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中包含的噪聲類型，包括：
[0023] 在所述音頻信號中包括所述音頻信號帖在內(nèi)的起始段的N個(gè)帖內(nèi)中統(tǒng)計(jì)所述N個(gè) 帖包含的每一種噪聲類型的帖數(shù)量，選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中包含的噪聲類型；或者
[0024] 在所述音頻信號中包括所述音頻信號帖在內(nèi)的且不存在語音信號的N個(gè)帖中統(tǒng) 計(jì)所述N個(gè)帖包含的每一種噪聲類型的帖數(shù)量，選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中包含的噪聲類型。
[0025] 結(jié)合第一方面或者第一方面的第一種上可能的實(shí)現(xiàn)方式或者第一方面第二種可能的實(shí)現(xiàn)方式，在第一方面的第六種可能的實(shí)現(xiàn)方式中，所述方法還包括：
[0026] 當(dāng)檢測到所述音頻信號中連續(xù)的多帖的噪聲類型與之前判斷的所述音頻信號中包含的噪聲類型不同時(shí)，在所述連續(xù)的多帖內(nèi)統(tǒng)計(jì)所述連續(xù)的多帖包含的每種噪聲類型的帖數(shù)量，選擇帖數(shù)量最多的噪聲類型作為所述音頻信號的當(dāng)前噪聲類型；
[0027] 所述使用預(yù)先為所述音頻信號的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理，W獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值，包括：
[002引使用預(yù)先為所述音頻信號的當(dāng)前噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理，w獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值。
[0029] 結(jié)合第一方面上述任一種可能的實(shí)現(xiàn)方式，在第一方面的第走種可能的實(shí)現(xiàn)方式中，所述神經(jīng)網(wǎng)絡(luò)包括：
[0030] 遞歸深度神經(jīng)網(wǎng)絡(luò)。
[0031] 第二方面，本發(fā)明提供一種音頻信號增強(qiáng)裝置，包括：解碼單元、增強(qiáng)單元和替換單元，其中：
[0032] 所述解碼單元，用于解碼輸入的音頻信號的比特流，獲取所述音頻信號的待增強(qiáng) 帖的譜包絡(luò)參數(shù)；
[0033] 所述增強(qiáng)單元，用于使用預(yù)先為所述音頻信號中包含的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò) 對所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理，W獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值；
[0034] 所述替換單元，用于對所述純凈估計(jì)值進(jìn)行量化，得到所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值的量化索引，并將所述量化索引替換掉所述待增強(qiáng)帖的譜包絡(luò)參數(shù)對應(yīng)的比特。
[0035] 在第二方面的第一種可能的實(shí)現(xiàn)方式中，所述解碼單元還用于解碼輸入的音頻信號的比特流，獲取所述音頻信號的音頻信號帖的譜包絡(luò)參數(shù)；
[0036] 所述裝置還包括：
[0037] 分類單元，用于使用所述譜包絡(luò)參數(shù)對所述音頻信號帖進(jìn)行噪聲分類，W獲取所述音頻信號帖的噪聲類型；
[003引統(tǒng)計(jì)單元，用于在所述音頻信號中包括所述音頻信號帖在內(nèi)的N個(gè)帖內(nèi)統(tǒng)計(jì)所述N個(gè)帖包含的每一種噪聲類型的帖數(shù)量，選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中包含的噪聲類型，其中，所述N為大于或者等于1的整數(shù)；
[0039] 結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式，在第二方面的第二種可能的實(shí)現(xiàn)方式中，所述分類單元用于從輸入的音頻信號的比特流中獲得對應(yīng)于所述音頻信號帖的碼書增益參數(shù)，利用所述碼書增益參數(shù)和所述譜包絡(luò)參數(shù)計(jì)算所述音頻信號帖對預(yù)設(shè)的M個(gè)噪聲模型中每個(gè)噪聲模型的后驗(yàn)概率，選擇所述M個(gè)噪聲模型中后驗(yàn)概率最大的噪聲模型作為所述音頻信號帖的噪聲類型。
[0040] 結(jié)合第二方面或者第二方面的第一種可能的實(shí)現(xiàn)方式或者第二方面的第二種可能的實(shí)現(xiàn)方式，在第二方面的第=種可能的實(shí)現(xiàn)方式中，所述裝置還包括：
[0041] 調(diào)整單元，用于對所述待增強(qiáng)帖的自適應(yīng)碼書增益和代數(shù)碼書增益進(jìn)行聯(lián)合調(diào) 整，分別對聯(lián)合調(diào)整后的自適應(yīng)碼書增益和代數(shù)碼書增益進(jìn)行量化，得到所述待增強(qiáng)帖的聯(lián)合調(diào)整后的自適應(yīng)碼書增益的量化索引和代數(shù)碼書增益的量化索引，其中，所述待增強(qiáng) 帖的自適應(yīng)碼書增益和代數(shù)碼書增益是對所述待增強(qiáng)帖進(jìn)行解碼操作獲取的；
[0042] 所述替換單元還用于將所述待增強(qiáng)帖的聯(lián)合調(diào)整后的自適應(yīng)碼書增益的量化索引替換掉所述待增強(qiáng)帖的自適應(yīng)碼書增益對應(yīng)的比特，將所述待增強(qiáng)帖的聯(lián)合調(diào)整后的代數(shù)碼書增益的量化索引替換掉所述待增強(qiáng)帖的代數(shù)碼書增益對應(yīng)的比特。
[0043] 結(jié)合第二方面或者第二方面的第一種可能的實(shí)現(xiàn)方式或者第二方面的第二種可能的實(shí)現(xiàn)方式，在第二方面的第四種可能的實(shí)現(xiàn)方式中，所述增強(qiáng)單元包括：
[0044] 第一計(jì)算單元，用于計(jì)算所述音頻信號的待增強(qiáng)帖與若干帖的譜包絡(luò)參數(shù)的均值，其中，所述若干帖為所述音頻信號中在所述待增強(qiáng)帖之前的若干帖；
[0045] 第二計(jì)算單元，用于計(jì)算所述待增強(qiáng)帖的去均值的譜包絡(luò)參數(shù)，其中，所述去均值的譜包絡(luò)參數(shù)為所述待增強(qiáng)帖的譜包絡(luò)參數(shù)與所述均值的差值；
[0046] 第=計(jì)算單元，用于使用預(yù)先為所述音頻信號的噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述去均值的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理，W得到所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值；
[0047] 第四計(jì)算單元，用于將所述去均值的譜包絡(luò)參數(shù)的純凈估計(jì)值與預(yù)先獲取的純凈音頻譜包絡(luò)參數(shù)的均值相加，W得到所述待增強(qiáng)帖的譜包絡(luò)參數(shù)的純凈估計(jì)值。
[0048] 結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式，在第二方面的第五種可能的實(shí)現(xiàn)方式中，所述統(tǒng)計(jì)單元用于在所述音頻信號中包括所述音頻信號帖在內(nèi)的起始段的N個(gè)帖內(nèi)中統(tǒng)計(jì)所述N個(gè)帖包含的每一種噪聲類型的帖數(shù)量，選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中包含的噪聲類型；或者
[0049] 所述統(tǒng)計(jì)單元用于在所述音頻信號中包括所述音頻信號帖在內(nèi)的且不存在語音信號的N個(gè)帖中統(tǒng)計(jì)所述N個(gè)帖包含的每一種噪聲類型的帖數(shù)量，選擇帖數(shù)量最多的噪聲類型作為所述音頻信號中包含的噪聲類型。
[0化0] 結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式，在第二方面的第六種可能的實(shí)現(xiàn)方式中，所述統(tǒng)計(jì)單元還用于當(dāng)檢測到所述音頻信號中連續(xù)的多帖的噪聲類型與之前判斷的所述音頻信號中包含的噪聲類型不同時(shí)，在所述連續(xù)的多帖內(nèi)統(tǒng)計(jì)所述連續(xù)的多帖包含的每種噪聲類型的帖數(shù)量，選擇帖數(shù)量最多的噪聲類型作為所述音頻信號的當(dāng)前噪聲類型. [0化1] 所述增強(qiáng)單元用于使用預(yù)先為所述音頻信號的當(dāng)前噪聲類型設(shè)置的神經(jīng)網(wǎng)絡(luò)對所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)進(jìn)行增強(qiáng)處理，W獲取所述待增強(qiáng)帖的譜包絡(luò)參數(shù) 的純凈估計(jì)值。
[0052] 結(jié)合第二方面上述任一種可能的實(shí)現(xiàn)方式，在第二方面的第八種可能的實(shí)現(xiàn)方式中，所述神經(jīng)網(wǎng)絡(luò)包括：
[0化3] 遞歸深度神經(jīng)網(wǎng)絡(luò)。
[0化4] 上述技術(shù)方案中，解碼輸入的音頻信號的比特流，獲取所述音頻信號的待增強(qiáng)帖的譜包絡(luò)參數(shù)；使用預(yù)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5 6