本技術(shù)涉及音頻處理及數(shù)字醫(yī)療,尤其涉及一種音樂排序方法和裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、音樂排序是一種通過特定方式在大量音樂資源中查找與特定主題、風(fēng)格或特征相匹配的音樂音頻,并將匹配的結(jié)果排序輸出的過程。在數(shù)字醫(yī)療領(lǐng)域的音樂治療場景中,通過音樂排序確定與患者情感相匹配的音樂音頻,能夠更好地為患者起到輔助治療的作用。
2、目前,相關(guān)技術(shù)對于語音情感識別和音樂排序結(jié)合的跨域匹配方式,通常是先使用大量配對數(shù)據(jù),并學(xué)習(xí)一個映射函數(shù),使得配對數(shù)據(jù)在嵌入空間中的距離最小化,以對排序模型進(jìn)行訓(xùn)練。然而,這種方式訓(xùn)練得到的音樂音頻排序模型對音頻特征提取的準(zhǔn)確性不佳,從而影響了音樂排序的準(zhǔn)確性,因此,如何提高對音頻特征提取的準(zhǔn)確性,從而提高對音樂排序的準(zhǔn)確性,成為了亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的主要目的在于提出一種音樂排序方法和裝置、電子設(shè)備及存儲介質(zhì),旨在提高對音頻特征提取的準(zhǔn)確性,從而提高對音樂排序的準(zhǔn)確性。
2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第一方面提出了一種音樂排序方法,所述方法包括:
3、獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包括語言音頻子集和音樂音頻子集;其中,所述語言音頻子集包括原始語言音頻樣本、原始語言音頻正樣本、原始語言音頻負(fù)樣本和所述原始語言音頻樣本的語言音頻情感標(biāo)簽,所述音樂音頻子集包括原始音樂音頻樣本、原始音樂音頻正樣本、原始音樂音頻負(fù)樣本和所述原始音樂音頻樣本的音樂音頻情感標(biāo)簽,所述原始語言音頻樣本用于表征樣本對象發(fā)出的語言音頻片段,所述原始音樂音頻樣本用于表征待排序的音樂音頻片段;
4、基于所述語言音頻情感標(biāo)簽和所述音樂音頻情感標(biāo)簽進(jìn)行情感相似性矩陣構(gòu)建,得到所述情感相似性矩陣;
5、基于所述情感相似性矩陣對所述原始語言音頻正樣本和所述原始語言音頻負(fù)樣本進(jìn)行樣本選擇,確定目標(biāo)語言音頻樣本組,所述目標(biāo)語言音頻樣本組包括目標(biāo)語言音頻正樣本和目標(biāo)語言音頻負(fù)樣本;
6、基于所述情感相似性矩陣對所述原始音樂音頻正樣本和所述原始音樂音頻負(fù)樣本進(jìn)行樣本選擇,確定目標(biāo)音樂音頻樣本組,所述目標(biāo)音樂音頻樣本組包括目標(biāo)音樂音頻正樣本和目標(biāo)音樂音頻負(fù)樣本;
7、基于所述語言音頻情感標(biāo)簽、所述音樂音頻情感標(biāo)簽、所述目標(biāo)語言音頻樣本組和所述目標(biāo)音樂音頻樣本組對初始排序模型進(jìn)行模型參數(shù)調(diào)整,得到音樂音頻排序模型;
8、獲取目標(biāo)語言音頻,并將所述目標(biāo)語言音頻和預(yù)設(shè)音樂集輸入所述音樂音頻排序模型進(jìn)行音樂排序,得到音樂排序列表。
9、在一些實(shí)施例,所述初始排序模型包括特征提取子模型,所述基于所述情感相似性矩陣對所述原始語言音頻正樣本和所述原始語言音頻負(fù)樣本進(jìn)行樣本選擇,確定目標(biāo)語言音頻樣本組,包括:
10、基于所述特征提取子模型對原始語言音頻樣本進(jìn)行音頻特征提取,得到原始語言樣本特征;
11、基于所述特征提取子模型對原始音樂音頻樣本進(jìn)行音頻特征提取,得到原始音樂樣本特征;
12、基于所述原始語言樣本特征和所述原始音樂樣本特征進(jìn)行特征相似性矩陣構(gòu)建,得到特征相似性矩陣;
13、基于所述特征相似性矩陣和所述情感相似性矩陣對所述原始語言音頻正樣本進(jìn)行樣本選擇,確定所述目標(biāo)語言音頻樣本組的所述目標(biāo)語言音頻正樣本;
14、基于所述特征相似性矩陣和所述情感相似性矩陣對所述原始語言音頻負(fù)樣本進(jìn)行樣本選擇,確定所述目標(biāo)語言音頻樣本組的所述目標(biāo)語言音頻負(fù)樣本。
15、在一些實(shí)施例,所述基于所述語言音頻情感標(biāo)簽和所述音樂音頻情感標(biāo)簽進(jìn)行情感相似性矩陣構(gòu)建,得到所述情感相似性矩陣,包括:
16、對所述語言音頻情感標(biāo)簽進(jìn)行情感空間映射,得到語言情感映射數(shù)據(jù);
17、對所述音樂音頻情感標(biāo)簽進(jìn)行情感空間映射,得到音樂情感映射數(shù)據(jù);
18、對所述語言情感映射數(shù)據(jù)進(jìn)行向量化,得到語言情感映射向量;
19、對所述音樂情感映射數(shù)據(jù)進(jìn)行向量化,得到音樂情感映射向量;
20、對所述語言情感映射向量和所述音樂情感映射向量進(jìn)行向量相似度計算,得到標(biāo)簽映射相似度值;
21、基于所述標(biāo)簽映射相似度值進(jìn)行情感相似性矩陣構(gòu)建,得到所述情感相似性矩陣。
22、在一些實(shí)施例,所述基于所述語言音頻情感標(biāo)簽、所述音樂音頻情感標(biāo)簽、所述目標(biāo)語言音頻樣本組和所述目標(biāo)音樂音頻樣本組對初始排序模型進(jìn)行模型參數(shù)調(diào)整,得到音樂音頻排序模型,包括:
23、基于所述目標(biāo)語言音頻樣本組、所述語言情感映射向量、所述音樂情感映射向量進(jìn)行語音情感損失計算,得到語言情感損失函數(shù);
24、基于所述目標(biāo)音樂音頻樣本組、所述語言情感映射向量、所述音樂情感映射向量進(jìn)行音樂情感損失計算,得到音樂情感損失函數(shù);
25、基于所述原始語言樣本特征、所述原始音樂樣本特征、所述目標(biāo)語言音頻樣本組和所述目標(biāo)音樂音頻樣本組進(jìn)行關(guān)聯(lián)損失計算,得到關(guān)聯(lián)損失函數(shù);
26、對所述語言情感損失函數(shù)、所述音樂情感損失函數(shù)和所述關(guān)聯(lián)損失函數(shù)進(jìn)行加權(quán)計算,得到模型損失函數(shù);
27、基于所述模型損失函數(shù)對所述特征提取子模型進(jìn)行模型參數(shù)調(diào)整,得到所述音樂音頻排序模型。
28、在一些實(shí)施例,所述基于所述目標(biāo)語言音頻樣本組、所述語言情感映射向量、所述音樂情感映射向量進(jìn)行語音情感損失計算,得到語言情感損失函數(shù),包括:
29、對所述語言情感映射向量和所述音樂情感映射向量進(jìn)行向量拼接,得到目標(biāo)情感標(biāo)簽向量;
30、基于所述特征提取子模型對所述目標(biāo)語言音頻正樣本進(jìn)行音頻特征提取,得到第一關(guān)聯(lián)語言音頻特征;
31、基于所述特征提取子模型對所述目標(biāo)語言音頻負(fù)樣本進(jìn)行音頻特征提取,得到第二關(guān)聯(lián)語言音頻特征;
32、基于所述目標(biāo)情感標(biāo)簽向量、所述第一關(guān)聯(lián)語言音頻特征和所述第二關(guān)聯(lián)語言音頻特征進(jìn)行三元組損失計算,得到所述語言情感損失函數(shù)。
33、在一些實(shí)施例,所述特征提取子模型包括特征提取層和映射層,所述基于所述特征提取子模型對原始語言音頻樣本進(jìn)行音頻特征提取,得到原始語言樣本特征,包括:
34、基于所述特征提取層對所述原始語言音頻樣本進(jìn)行音頻編碼處理,得到語言音頻編碼特征;
35、基于所述映射層對所述語言音頻編碼特征進(jìn)行特征映射,得到所述原始語言樣本特征。
36、在一些實(shí)施例,所述音樂音頻排序模型包括特征提取子模型和排序子模型,所述將所述目標(biāo)語言音頻和預(yù)設(shè)音樂集輸入所述音樂音頻排序模型進(jìn)行音樂排序,得到音樂排序列表,包括:
37、基于所述特征提取子模型對所述目標(biāo)語言音頻進(jìn)行音頻特征提取,得到目標(biāo)語言音頻特征;
38、基于所述特征提取子模型對所述預(yù)設(shè)音樂集的候選音樂音頻進(jìn)行音頻特征提取,得到目標(biāo)音樂音頻特征;
39、將所述目標(biāo)語言音頻特征和所述目標(biāo)音樂音頻特征輸入所述排序子模型進(jìn)行相似度計算,得到候選相似度值;
40、基于所述候選相似度值對所述候選音樂音頻進(jìn)行音頻排序,得到所述音樂排序列表。
41、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第二方面提出了一種音樂排序裝置,所述裝置包括:
42、獲取模塊,用于獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包括語言音頻子集和音樂音頻子集;其中,所述語言音頻子集包括原始語言音頻樣本、原始語言音頻正樣本、原始語言音頻負(fù)樣本和所述原始語言音頻樣本的語言音頻情感標(biāo)簽,所述音樂音頻子集包括原始音樂音頻樣本、原始音樂音頻正樣本、原始音樂音頻負(fù)樣本和所述原始音樂音頻樣本的音樂音頻情感標(biāo)簽,所述原始語言音頻樣本用于表征樣本對象發(fā)出的語言音頻片段,所述原始音樂音頻樣本用于表征待排序的音樂音頻片段;
43、矩陣構(gòu)建模塊,用于基于所述語言音頻情感標(biāo)簽和所述音樂音頻情感標(biāo)簽進(jìn)行情感相似性矩陣構(gòu)建,得到所述情感相似性矩陣;
44、第一樣本選擇模塊,用于基于所述情感相似性矩陣對所述原始語言音頻正樣本和所述原始語言音頻負(fù)樣本進(jìn)行樣本選擇,確定目標(biāo)語言音頻樣本組,所述目標(biāo)語言音頻樣本組包括目標(biāo)語言音頻正樣本和目標(biāo)語言音頻負(fù)樣本;
45、第二樣本選擇模塊,用于基于所述情感相似性矩陣對所述原始音樂音頻正樣本和所述原始音樂音頻負(fù)樣本進(jìn)行樣本選擇,確定目標(biāo)音樂音頻樣本組,所述目標(biāo)音樂音頻樣本組包括目標(biāo)音樂音頻正樣本和目標(biāo)音樂音頻負(fù)樣本;
46、參數(shù)調(diào)整模塊,用于基于所述語言音頻情感標(biāo)簽、所述音樂音頻情感標(biāo)簽、所述目標(biāo)語言音頻樣本組和所述目標(biāo)音樂音頻樣本組對初始排序模型進(jìn)行模型參數(shù)調(diào)整,得到音樂音頻排序模型;
47、音樂排序模塊,用于獲取目標(biāo)語言音頻,并將所述目標(biāo)語言音頻和預(yù)設(shè)音樂集輸入所述音樂音頻排序模型進(jìn)行音樂排序,得到音樂排序列表。
48、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實(shí)現(xiàn)上述第一方面所述的一種音樂排序方法。
49、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第四方面提出了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述第一方面所述的一種音樂排序方法。
50、本技術(shù)提出的一種音樂排序方法和裝置、電子設(shè)備及存儲介質(zhì),其通過包括語言音頻子集和音樂音頻子集的訓(xùn)練樣本集對初始排序模型進(jìn)行模型訓(xùn)練,以得到音樂音頻排序模型,能夠深入地將語言音頻的情感信息與音頻特征提取進(jìn)行結(jié)合。具體地,獲取訓(xùn)練樣本集,該訓(xùn)練樣本集包括語言音頻子集和音樂音頻子集;其中,語言音頻子集包括原始語言音頻樣本、原始語言音頻正樣本、原始語言音頻負(fù)樣本和原始語言音頻樣本的語言音頻情感標(biāo)簽,音樂音頻子集包括原始音樂音頻樣本、原始音樂音頻正樣本、原始音樂音頻負(fù)樣本和原始音樂音頻樣本的音樂音頻情感標(biāo)簽,原始語言音頻樣本用于表征樣本對象發(fā)出的語言音頻片段,原始音樂音頻樣本用于表征待排序的音樂音頻片段;進(jìn)一步地,基于語言音頻情感標(biāo)簽和音樂音頻情感標(biāo)簽進(jìn)行情感相似性矩陣構(gòu)建,得到情感相似性矩陣;基于情感相似性矩陣對原始語言音頻正樣本和原始語言音頻負(fù)樣本進(jìn)行樣本選擇,確定目標(biāo)語言音頻樣本組,該目標(biāo)語言音頻樣本組包括目標(biāo)語言音頻正樣本和目標(biāo)語言音頻負(fù)樣本;并基于情感相似性矩陣對原始音樂音頻正樣本和原始音樂音頻負(fù)樣本進(jìn)行樣本選擇,確定目標(biāo)音樂音頻樣本組,該目標(biāo)音樂音頻樣本組包括目標(biāo)音樂音頻正樣本和目標(biāo)音樂音頻負(fù)樣本;進(jìn)一步地,基于語言音頻情感標(biāo)簽、音樂音頻情感標(biāo)簽、目標(biāo)語言音頻樣本組和目標(biāo)音樂音頻樣本組對初始排序模型進(jìn)行模型參數(shù)調(diào)整,得到音樂音頻排序模型;之后,獲取目標(biāo)語言音頻,并將目標(biāo)語言音頻和預(yù)設(shè)音樂集輸入音樂音頻排序模型進(jìn)行音樂排序,得到音樂排序列表。因此,本技術(shù)實(shí)施例能夠有效提高對音頻特征提取的準(zhǔn)確性,從而提高對音樂排序的準(zhǔn)確性。