本申請涉及人工智能與計算機視覺,特別是涉及樂器演奏的手部運動生成方法、裝置及介質。
背景技術:
1、人工智能在技能學習方面有著顯著的潛力,尤其在樂器學習領域。對于鋼琴,演奏者需要深刻理解樂譜與肢體動作之間的關聯(lián),通過反復練習才能熟練掌握鋼琴的指法和手部運動技巧。為了提供更直觀的鋼琴學習指導,ai鋼琴指導系統(tǒng)應運而生,能夠依據音樂生成鋼琴演奏時對應的3d手部運動圖像,幫助人們更好地學習鋼琴。
2、然而,目前的鋼琴指導方式過于專注于連續(xù)音符的局部指法約束,忽略長距離指法關系,導致得到的手勢的準確性比較低,不太符合現實演奏的手勢要求。
技術實現思路
1、本申請?zhí)峁┝藰菲餮葑嗟氖植窟\動生成方法、裝置及存儲介質,能夠提高手部運動圖生成的準確性。
2、第一方面,本申請?zhí)峁┮环N樂器演奏的手部運動生成方法,基本模型包括音頻細節(jié)提取器、手部位置預測器和手勢生成器;方法包括:
3、獲取目標音頻片段;
4、將目標音頻片段輸入基本模型,利用音頻細節(jié)提取器對目標音頻片段進行提取,得到音頻特征;
5、利用手部位置預測器對音頻特征進行手部位置預測,得到手部預測位置序列;
6、將目標音頻片段和手部預測位置序列輸入手勢生成器進行多步逆擴散處理,得到基本模型輸出的手部運動圖。
7、其進一步的技術方案為,得到音頻特征之后,方法還包括:
8、利用音頻細節(jié)提取器對音頻特征進行編碼,得到編碼后的音頻特征;
9、利用手部位置預測器對音頻特征進行手部位置預測,得到手部預測位置序列,包括:
10、利用手部位置預測器對編碼后的音頻特征進行手部位置預測,得到手部預測位置序列;
11、將目標音頻片段和手部預測位置序列輸入手勢生成器,得到基本模型輸出的手部運動圖,包括:
12、將編碼后的音頻特征和手部預測位置序列輸入手勢生成器,得到基本模型輸出的手部運動圖。
13、其進一步的技術方案為,手部位置預測器包括手部位置解碼器和線性映射層,利用手部位置預測器對編碼后的音頻特征進行手部位置預測,得到手部預測位置序列,包括:
14、將編碼后的音頻特征輸入手部位置解碼器,利用手部位置解碼器對編碼后的音頻特征進行解碼,得到潛在特征;
15、利用線性映射層將潛在特征映射到輸出位置,得到手部預測位置序列。
16、其進一步的技術方案為,手勢生成器包括時間嵌入層和手勢解碼器,將編碼后的音頻特征和手部預測位置序列輸入手勢生成器,得到基本模型輸出的手部運動圖,包括:
17、將編碼后的音頻特征輸入手勢解碼器,得到所述手勢解碼器輸出的手勢特征;
18、將預設擴散時間步數輸入時間嵌入層,得到所述時間嵌入層輸出的時間步嵌入信息;
19、將時間步嵌入信息,手勢特征和手部預測位置序列輸入已訓練的去噪模型,得到去噪手勢特征;
20、基于手部預測位置序列和去噪手勢特征,得到基本模型輸出的手部運動圖。
21、其進一步的技術方案為,預設噪聲樣本采用以下方式得到:
22、獲取待訓練的原始樣本;
23、利用前向擴散過程構建馬爾科夫鏈,在預設時間步長內,對待訓練的原始樣本逐步添加噪聲,得到預設噪聲樣本。
24、其進一步的技術方案為,基本模型的網絡訓練方式包括:
25、將編碼后的音頻特征輸入手部位置預測器;
26、利用手勢解碼器對編碼后的音頻特征進行解碼,得到潛在特征;
27、利用線性映射層將潛在特征映射到輸出位置,得到手部預測位置序列;
28、基于手部預測位置序列和手部真實位置,確定位置損失值和速度損失值;
29、利用位置損失值和速度損失值對位置預測器進行訓練。
30、其進一步的技術方案為,基于手部預測位置序列和手部真實位置,確定位置損失值和速度損失值,包括:
31、利用曼哈頓損失函數計算手部預測位置序列和手部真實位置之間的曼哈頓距離,得到位置損失值;
32、利用歐幾里得損失函數計算手部預測位置序列和手部真實位置之間的歐幾里得距離,得到速度損失值。
33、其進一步的技術方案為,基本模型的網絡訓練方式還包括:
34、利用已訓練的手部位置預測器指導手勢生成器進行速度預測訓練。
35、第二方面,本申請?zhí)峁┝艘环N樂器演奏手部運動的生成裝置,其特征在于,樂器演奏手部運動的生成裝置包括用于執(zhí)行如上述任一項方法的單元。
36、第三方面,本申請?zhí)峁┮环N計算機可讀存儲介質,該計算機可讀存儲介質用于存儲計算機程序,計算機程序在被處理器執(zhí)行時,用于實現如上述任一項方法的步驟。
37、本申請的有益效果是:區(qū)別于現有技術的情況,本申請通過音頻細節(jié)提取器,能夠深入分析目標音頻片段中的節(jié)奏、音高、強度等細微特征,以精確捕捉音樂與手部運動之間復雜的非線性關系,將音樂中的微妙變化反映到手部運動的微調上,提高手部動作生成的真實感,并利用位置預測器估計出的手部預測位置序列指導手勢生成器,使手勢生成器生成連貫流暢的手部運動路徑。
38、此外,由于手勢生成器采用多步逆擴散處理技術,結合目標音頻片段、預測出的手部位置以及特定的噪聲樣本,逐步細化并優(yōu)化手部運動圖,進而提高手部運動圖生成的準確性,使得最終生成的手部運動圖更加細膩、自然,能夠展現連續(xù)且富有表現力的手勢變化,從而更加符合現實演奏的手勢要求。
1.一種樂器演奏的手部運動生成方法,其特征在于,基本模型包括音頻細節(jié)提取器、手部位置預測器和手勢生成器;所述方法包括:
2.根據權利要求1所述的樂器演奏的手部運動生成方法,其特征在于,所述得到音頻特征之后,所述方法還包括:
3.根據權利要求2所述的樂器演奏的手部運動生成方法,其特征在于,所述手部位置預測器包括手部位置解碼器和線性映射層,所述利用所述手部位置預測器對所述編碼后的音頻特征進行手部位置預測,得到手部預測位置序列,包括:
4.根據權利要求2所述的樂器演奏的手部運動生成方法,其特征在于,所述手勢生成器包括時間嵌入層和手勢解碼器,所述將所述編碼后的音頻特征和所述手部預測位置序列輸入所述手勢生成器,得到所述基本模型輸出的手部運動圖,包括:
5.根據權利要求4所述的樂器演奏的手部運動生成方法,其特征在于,所述已訓練的去噪模型采用以下方式進行訓練:
6.根據權利要求4所述的樂器演奏的手部運動生成方法,其特征在于,所述基本模型的網絡訓練方式包括:
7.根據權利要求6所述的樂器演奏的手部運動生成方法,其特征在于,所述基于所述手部預測位置序列和手部真實位置,確定位置損失值和速度損失值,包括:
8.根據權利要求6所述的樂器演奏的手部運動生成方法,其特征在于,所述基本模型的網絡訓練方式還包括:
9.一種樂器演奏手部運動的生成裝置,其特征在于,所述樂器演奏手部運動的生成裝置包括用于執(zhí)行如權利要求1-8任一項所述方法的單元。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有程序數據,所述程序數據在被處理器執(zhí)行時,用于實現如權利要求1-8任一項所述的樂器演奏的手部運動生成方法。