本申請(qǐng)涉及計(jì)算機(jī),尤其涉及一種語(yǔ)音處理方法及相關(guān)裝置。
背景技術(shù):
1、語(yǔ)音處理是為了將人類的語(yǔ)音信號(hào)轉(zhuǎn)換成計(jì)算機(jī)可以理解和處理的形式,從而實(shí)現(xiàn)語(yǔ)音識(shí)別、語(yǔ)音合成、情感識(shí)別等功能。語(yǔ)音處理包括語(yǔ)音信號(hào)的采集、特征提取、模型訓(xùn)練與優(yōu)化等環(huán)節(jié)。隨著人工智能技術(shù)的發(fā)展,對(duì)于語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域的需求日益增加,而提升語(yǔ)音處理效率不僅能夠提高用戶體驗(yàn),還能推動(dòng)相關(guān)技術(shù)的應(yīng)用與發(fā)展。
2、在當(dāng)前的語(yǔ)音識(shí)別技術(shù)中,為了將語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為對(duì)應(yīng)的文本輸出,通常需要對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行識(shí)別處理。流行的端到端語(yǔ)音識(shí)別方法主要有基于編碼器-解碼器的注意力機(jī)制和基于連接主義時(shí)間分類(ctc,connectionist?temporal?classification)的方法。通過(guò)對(duì)語(yǔ)音數(shù)據(jù)的處理,可以減少冗余信息、增強(qiáng)關(guān)鍵特征的表達(dá)。因此如何高效的進(jìn)行語(yǔ)音處理是研究熱點(diǎn)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種語(yǔ)音處理方法及相關(guān)裝置,能夠縮短整體序列長(zhǎng)度,優(yōu)化解碼速度,從而提高語(yǔ)音處理效率。
2、本申請(qǐng)實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
3、本申請(qǐng)實(shí)施例提供一種語(yǔ)音處理方法,所述方法包括:
4、對(duì)待處理語(yǔ)音數(shù)據(jù)的n個(gè)語(yǔ)音幀進(jìn)行編碼處理,得到n個(gè)編碼特征,并確定每個(gè)編碼特征的聚類權(quán)重,一個(gè)語(yǔ)音幀對(duì)應(yīng)一個(gè)編碼特征,n為大于1的整數(shù);
5、基于每個(gè)編碼特征的聚類權(quán)重將所述n個(gè)編碼特征劃分為m個(gè)特征區(qū)間,m為大于或者等于1的整數(shù),且m小于或者等于n;
6、針對(duì)每個(gè)特征區(qū)間,基于所述特征區(qū)間所包括的編碼特征和編碼特征的聚類權(quán)重,確定所述特征區(qū)間的加權(quán)特征;
7、對(duì)m個(gè)特征區(qū)間的加權(quán)特征進(jìn)行解碼處理,得到所述待處理語(yǔ)音數(shù)據(jù)的語(yǔ)音處理結(jié)果。
8、本申請(qǐng)實(shí)施例提供一種語(yǔ)音處理裝置,包括:。
9、編碼模塊,用于對(duì)待處理語(yǔ)音數(shù)據(jù)的n個(gè)語(yǔ)音幀進(jìn)行編碼處理,得到n個(gè)編碼特征,并確定每個(gè)編碼特征的聚類權(quán)重,一個(gè)語(yǔ)音幀對(duì)應(yīng)一個(gè)編碼特征,n為大于1的整數(shù);
10、劃分模塊,用于基于每個(gè)編碼特征的聚類權(quán)重將所述n個(gè)編碼特征劃分為m個(gè)特征區(qū)間,m為大于或者等于1的整數(shù),且m小于或者等于n;
11、確定模塊,用于針對(duì)每個(gè)特征區(qū)間,基于所述特征區(qū)間所包括的編碼特征和編碼特征的聚類權(quán)重,確定所述特征區(qū)間的加權(quán)特征;
12、解碼模塊,用于對(duì)m個(gè)特征區(qū)間的加權(quán)特征進(jìn)行解碼處理,得到所述待處理語(yǔ)音數(shù)據(jù)的語(yǔ)音處理結(jié)果。
13、本申請(qǐng)實(shí)施例提供一種電子設(shè)備,所述電子設(shè)備包括:
14、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令;
15、處理器,用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)可執(zhí)行指令時(shí),實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的語(yǔ)音處理方法。
16、本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序或計(jì)算機(jī)可執(zhí)行指令,用于被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的語(yǔ)音處理方法。
17、本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)程序或計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí),實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的語(yǔ)音處理方法。
18、本申請(qǐng)實(shí)施例具有以下有益效果:
19、本申請(qǐng)實(shí)施例通過(guò)對(duì)待處理語(yǔ)音數(shù)據(jù)的n個(gè)語(yǔ)音幀進(jìn)行編碼處理,得到n個(gè)編碼特征,并確定每個(gè)編碼特征的聚類權(quán)重,其中,對(duì)每個(gè)語(yǔ)音幀進(jìn)行編碼處理可以將待處理語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為更具有表征性的編碼特征,將語(yǔ)音信號(hào)的復(fù)雜信息進(jìn)行了抽象和壓縮,從而有助于突出語(yǔ)音信號(hào)中的關(guān)鍵信息。確定每個(gè)編碼特征的聚類權(quán)重則可以更好地理解不同編碼特征之間的相關(guān)性以及編碼特征的重要性,從而在特征表示上更注重那些對(duì)語(yǔ)音信號(hào)具有顯著貢獻(xiàn)的關(guān)鍵信息。然后根據(jù)聚類權(quán)重將編碼特征劃分為m個(gè)特征區(qū)間,聚類權(quán)重反映了每個(gè)編碼特征的重要程度,通過(guò)將聚類權(quán)重應(yīng)用于特征劃分過(guò)程,將語(yǔ)音信號(hào)中的同一個(gè)字符對(duì)應(yīng)的多個(gè)編碼特征劃分成一個(gè)特征區(qū)間。針對(duì)每個(gè)特征區(qū)間,將特征區(qū)間中包含的多個(gè)編碼特征通過(guò)聚類權(quán)重整合為一個(gè)加權(quán)特征,如此在保留各個(gè)語(yǔ)音幀信息的同時(shí),還能夠強(qiáng)化聚類權(quán)重高的編碼特征,更好地捕獲語(yǔ)音信號(hào)的重要信息,從而保證在后續(xù)解碼過(guò)程中對(duì)加權(quán)特征進(jìn)行解碼所得到的解碼結(jié)果的準(zhǔn)確性,另外,由于是將一個(gè)特征區(qū)間中的多個(gè)編碼特征通過(guò)聚類權(quán)重整合為一個(gè)加權(quán)特征,因此在解碼處理階段,不必對(duì)待處理語(yǔ)音數(shù)據(jù)的原始的n個(gè)編碼特征進(jìn)行解碼,而只需對(duì)更少數(shù)量的加權(quán)特征進(jìn)行解碼,可以大大減少了需要處理的數(shù)據(jù)量和計(jì)算復(fù)雜度,從而降低了計(jì)算資源的消耗,提高語(yǔ)音處理效率。
1.一種語(yǔ)音處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于每個(gè)編碼特征的聚類權(quán)重將所述n個(gè)編碼特征劃分為m個(gè)特征區(qū)間,包括:
3.根據(jù)權(quán)利要求1中所述的方法,其特征在于,所述確定每個(gè)編碼特征的聚類權(quán)重,包括:
4.根據(jù)權(quán)利要求2中所述的方法,其特征在于,所述基于每個(gè)編碼特征的聚類權(quán)重,從n個(gè)編碼特征中選擇作為區(qū)間邊界的編碼特征,包括:
5.根據(jù)權(quán)利要求4中所述的方法,其特征在于,所述基于所述區(qū)間劃分位置將所述n個(gè)編碼特征劃分為m個(gè)特征區(qū)間,包括:
6.根據(jù)權(quán)利要求5中所述的方法,其特征在于,當(dāng)所述區(qū)間劃分規(guī)則指示向后重疊時(shí),所述按照預(yù)設(shè)的區(qū)間劃分規(guī)則,將所述n個(gè)編碼特征劃分為m個(gè)特征區(qū)間,包括:
7.根據(jù)權(quán)利要求5中所述的方法,其特征在于,當(dāng)所述區(qū)間劃分規(guī)則指示向前重疊時(shí),所述按照預(yù)設(shè)的區(qū)間劃分規(guī)則,將所述n個(gè)編碼特征劃分為m個(gè)特征區(qū)間,包括:
8.根據(jù)權(quán)利要求1中所述的方法,其特征在于,所述基于所述特征區(qū)間所包括的編碼特征和所述編碼特征的聚類權(quán)重,確定所述特征區(qū)間的加權(quán)特征,包括:
9.一種語(yǔ)音處理裝置,其特征在于,所述裝置包括:
10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令或者計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)可執(zhí)行指令或者計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至8任一項(xiàng)所述的方法。
12.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可執(zhí)行指令或計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)可執(zhí)行指令或計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至8任一項(xiàng)所述的方法。