本發(fā)明屬于信息,特別是涉及一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法。
背景技術(shù):
1、語音包含了人類言語的豐富信息,包括語音內(nèi)容、音調(diào)、語速、身份信息等,可以用于語音識別、語義理解、聲紋識別以及語音情感識別等任務(wù)。電聲門圖是一種記錄聲帶振動的圖形化表示,與語音相比,它具有以下優(yōu)點:首先,電聲門圖數(shù)據(jù)提供了聲帶振動的可視化表示,能夠直觀地展現(xiàn)音調(diào)的特征和波形;其次,電聲門圖數(shù)據(jù)不受語音質(zhì)量和環(huán)境噪音的影響,具有較高的穩(wěn)定性和可靠性;最后,電聲門圖數(shù)據(jù)的存儲和傳輸成本更低,更易于處理和分析。語音數(shù)據(jù)集在語音識別、語音合成、情感識別等領(lǐng)域有著廣泛的應(yīng)用,可以應(yīng)用于智能助手、智能客服、語音翻譯等場景。電聲門圖數(shù)據(jù)集則不僅可以用于語音識別和情感識別,還可以應(yīng)用于說話人識別、語音質(zhì)量評估等領(lǐng)域。
2、現(xiàn)有的語音數(shù)據(jù)集往往多樣性不足,這限制了語音識別系統(tǒng)在極低信噪比場景和多名說話者下的泛化能力和魯棒性,此外,大多數(shù)數(shù)據(jù)集缺乏與語音同步的電聲門圖信息,這限制了對語音產(chǎn)生機制深層次理解的可能性。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法,以解決上述現(xiàn)有技術(shù)存在的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法,包括:
3、獲取由若干預(yù)設(shè)人員根據(jù)預(yù)設(shè)文本進行朗讀的原始多模態(tài)數(shù)據(jù),所述原始多模態(tài)數(shù)據(jù)包括語音數(shù)據(jù)和電聲門圖數(shù)據(jù);
4、對各所述原始多模態(tài)數(shù)據(jù)進行混合操作,得到不同信噪比條件下的混合多模態(tài)數(shù)據(jù);
5、為各所述原始多模態(tài)數(shù)據(jù)和各所述混合多模態(tài)數(shù)據(jù)生成對應(yīng)的標簽信息,基于預(yù)設(shè)文件存儲結(jié)構(gòu)對各多模態(tài)數(shù)據(jù)及對應(yīng)的標簽信息進行存儲,得到多模態(tài)數(shù)據(jù)集。
6、可選的,獲取由若干預(yù)設(shè)人員根據(jù)預(yù)設(shè)文本進行朗讀的原始多模態(tài)數(shù)據(jù),具體包括:
7、基于預(yù)設(shè)劃分規(guī)則對各預(yù)設(shè)人員和各所述預(yù)設(shè)文本分別進行編號分組,得到具有相同組數(shù)的預(yù)設(shè)人員組和預(yù)設(shè)文本組;
8、根據(jù)分組順序使各預(yù)設(shè)人員組和各預(yù)設(shè)文本組一一對應(yīng),使各組預(yù)設(shè)人員按照預(yù)設(shè)停頓間隔進行文本朗讀,得到若干雙通道音頻文件,所述雙通道音頻文件包括左聲道音頻文件和右聲道電聲門圖文件;
9、基于預(yù)設(shè)停頓間隔對各所述雙通道音頻文件進行文本分段,得到若干分段文本,對各所述分段文本進行命名,得到所述原始多模態(tài)數(shù)據(jù)。
10、可選的,在使各組預(yù)設(shè)人員按照預(yù)設(shè)停頓間隔進行文本朗讀的過程中,基于預(yù)設(shè)音頻采集設(shè)備采集各所述雙通道音頻文件,所述預(yù)設(shè)音頻采集設(shè)備包括麥克風(fēng)和電聲門圖儀器。
11、可選的,在基于預(yù)設(shè)停頓間隔對各所述雙通道音頻文件進行文本分段之前,還包括基于經(jīng)驗?zāi)B(tài)分解方法對各所述雙通道音頻文件進行降噪處理,得到降噪后的雙通道音頻文件,基于降噪后的雙通道音頻文件進行文本分段。
12、可選的,基于預(yù)設(shè)停頓間隔對各所述雙通道音頻文件進行文本分段,具體包括:
13、將聲音小于預(yù)設(shè)分貝閾值并持續(xù)時間超過預(yù)設(shè)停頓間隔的音頻片段作為靜音片段,提取各雙通道音頻文件中去除靜音片段后的音頻片段作為所述分段文本。
14、可選的,對各所述原始多模態(tài)數(shù)據(jù)進行混合操作,具體包括:
15、隨機選取兩位預(yù)設(shè)人員的原始多模態(tài)數(shù)據(jù),對選取的原始多模態(tài)數(shù)據(jù)進行音頻長度統(tǒng)一處理并按照設(shè)定信噪比進行音頻混合,進行命名,得到所述混合多模態(tài)數(shù)據(jù)。
16、可選的,還包括將各所述混合多模態(tài)數(shù)據(jù)及對應(yīng)原始多模態(tài)數(shù)據(jù)的音頻信息進行存儲,具體包括:
17、將各所述混合多模態(tài)數(shù)據(jù)輸入目標語音提取模型中進行語音提取,得到各所述混合多模態(tài)數(shù)據(jù)對應(yīng)的原始多模態(tài)數(shù)據(jù),將各所述混合多模態(tài)數(shù)據(jù)及對應(yīng)原始多模態(tài)數(shù)據(jù)的音頻信息以csv文件格式進行存儲;其中,所述目標語音提取模型是基于循環(huán)神經(jīng)網(wǎng)絡(luò)和門控循環(huán)網(wǎng)絡(luò)構(gòu)建的。
18、可選的,還包括,對所述多模態(tài)數(shù)據(jù)集的可用性進行驗證,具體包括:
19、將所述多模態(tài)數(shù)據(jù)集中的各多模態(tài)數(shù)據(jù)輸入語音識別模型中進行分類識別,得到各多模態(tài)數(shù)據(jù)對應(yīng)的預(yù)測標簽信息,對比預(yù)測標簽信息與對應(yīng)多模態(tài)數(shù)據(jù)的標簽信息,得到可用性驗證結(jié)果,其中,所述語音識別模型是基于神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的。
20、本發(fā)明的技術(shù)效果為:
21、本發(fā)明通過結(jié)合語音和電聲門圖數(shù)據(jù),可以獲得更加全面和多維度的信息,從而提高模型在語音識別和情感識別任務(wù)中的性能和準確性,在進行訓(xùn)練和評估語音處理系統(tǒng)方面,例如語音識別、語音合成等,該數(shù)據(jù)庫可以更好地訓(xùn)練和評估模型,能夠提高模型的泛化能力、準確性、魯棒性和可靠性。
1.一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法,其特征在于,獲取由若干預(yù)設(shè)人員根據(jù)預(yù)設(shè)文本進行朗讀的原始多模態(tài)數(shù)據(jù),具體包括:
3.根據(jù)權(quán)利要求2所述的一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法,其特征在于,在使各組預(yù)設(shè)人員按照預(yù)設(shè)停頓間隔進行文本朗讀的過程中,基于預(yù)設(shè)音頻采集設(shè)備采集各所述雙通道音頻文件,所述預(yù)設(shè)音頻采集設(shè)備包括麥克風(fēng)和電聲門圖儀器。
4.根據(jù)權(quán)利要求2所述的一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法,其特征在于,在基于預(yù)設(shè)停頓間隔對各所述雙通道音頻文件進行文本分段之前,還包括基于經(jīng)驗?zāi)B(tài)分解方法對各所述雙通道音頻文件進行降噪處理,得到降噪后的雙通道音頻文件,基于降噪后的雙通道音頻文件進行文本分段。
5.根據(jù)權(quán)利要求2所述的一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法,其特征在于,基于預(yù)設(shè)停頓間隔對各所述雙通道音頻文件進行文本分段,具體包括:
6.根據(jù)權(quán)利要求1所述的一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法,其特征在于,對各所述原始多模態(tài)數(shù)據(jù)進行混合操作,具體包括:
7.根據(jù)權(quán)利要求6所述的一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法,其特征在于,還包括將各所述混合多模態(tài)數(shù)據(jù)及對應(yīng)原始多模態(tài)數(shù)據(jù)的音頻信息進行存儲,具體包括:
8.根據(jù)權(quán)利要求1所述的一種語音與電聲門圖多模態(tài)數(shù)據(jù)集的生成方法,其特征在于,還包括,對所述多模態(tài)數(shù)據(jù)集的可用性進行驗證,具體包括: