模型訓(xùn)練方法、視頻配樂(lè)方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號(hào)：40282432發(fā)布日期：2024-12-11 13:23閱讀：13來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

模型訓(xùn)練方法、視頻配樂(lè)方法、裝置、設(shè)備及介質(zhì)與流程

本發(fā)明涉及視頻處理，特別是涉及模型訓(xùn)練方法、視頻配樂(lè)方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、隨著短視頻行業(yè)的迅速崛起，越來(lái)越多的互聯(lián)網(wǎng)用戶從消費(fèi)視頻內(nèi)容轉(zhuǎn)向自制視頻內(nèi)容，然而大多數(shù)人并非專業(yè)的視頻制作專家，缺乏一定的視頻制作知識(shí)以及視頻制作經(jīng)驗(yàn)儲(chǔ)備；背景音樂(lè)作為短視頻的一個(gè)非常重要的組成因素，對(duì)于視頻的質(zhì)量以及視頻對(duì)人的吸引程度都至關(guān)重要。所以使用人工智能技術(shù)為視頻選擇恰當(dāng)?shù)谋尘耙魳?lè)很有必要。

2、相關(guān)技術(shù)中，通常采用已有的帶有背景音樂(lè)的短視頻作為訓(xùn)練樣本，進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練，再利用訓(xùn)練好的深度學(xué)習(xí)模型為短視頻配樂(lè)，然而，現(xiàn)有的短視頻行業(yè)中，已有的短視頻的配樂(lè)往往是由短視頻制作者的主觀喜好決定的，大多數(shù)均為短視頻制作時(shí)的熱門配樂(lè)，因此已有短視頻的配樂(lè)與視頻本身的匹配度較低，基于這種訓(xùn)練樣本訓(xùn)練出的深度學(xué)習(xí)模型，也無(wú)法根據(jù)視頻內(nèi)容(包括：畫面、對(duì)話等)本身的特點(diǎn)為視頻確定出匹配度最高的背景音樂(lè)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例的目的在于提供一種模型訓(xùn)練方法、視頻配樂(lè)方法、裝置、設(shè)備及介質(zhì)，以從待匹配視頻內(nèi)容本身的特點(diǎn)出發(fā)為其匹配最合適的背景音樂(lè)。具體技術(shù)方案如下：

2、在本發(fā)明實(shí)施的第一方面，首先提供了一種模型訓(xùn)練方法，所述方法包括：

3、獲取影視音視頻數(shù)據(jù)；

4、從所述影視音視頻數(shù)據(jù)中提取出樣本音視頻片段；

5、從所述樣本音視頻片段中提取樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù)，所述樣本多模態(tài)數(shù)據(jù)表征樣本音視頻的主題信息、氛圍信息、環(huán)境信息；

6、基于所述樣本背景音樂(lè)數(shù)據(jù)和所述樣本多模態(tài)數(shù)據(jù)構(gòu)建訓(xùn)練樣本；

7、將所述樣本多模態(tài)數(shù)據(jù)輸入多模態(tài)模型，得到所述多模態(tài)模型從候選背景音樂(lè)庫(kù)中確定并輸出的預(yù)測(cè)背景音樂(lè)數(shù)據(jù)；

8、基于所述預(yù)測(cè)背景音樂(lè)數(shù)據(jù)和所述樣本背景音樂(lè)數(shù)據(jù)對(duì)所述多模態(tài)模型的模型參數(shù)進(jìn)行迭代更新，得到背景音樂(lè)匹配模型。

9、可選地，所述樣本多模態(tài)數(shù)據(jù)包括樣本文本類數(shù)據(jù)、樣本語(yǔ)音類數(shù)據(jù)和樣本視頻類數(shù)據(jù)，所述樣本文本類數(shù)據(jù)用于表征樣本音視頻的主題信息，所述樣本語(yǔ)音類數(shù)據(jù)用于表征樣本音視頻的氛圍信息，所述樣本視頻類數(shù)據(jù)用于表征樣本音視頻的環(huán)境信息。

10、可選地，從所述樣本音視頻片段中提取樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù)，包括：

11、基于所述時(shí)間點(diǎn)信息確定樣本音視頻片段對(duì)應(yīng)的樣本語(yǔ)音類數(shù)據(jù)和樣本視頻類數(shù)據(jù)；

12、對(duì)所述樣本視頻類數(shù)據(jù)進(jìn)行文字識(shí)別得到樣本文本類數(shù)據(jù)，或者，對(duì)所述樣本語(yǔ)音類數(shù)據(jù)進(jìn)行音頻轉(zhuǎn)化得到樣本文本類數(shù)據(jù)。

13、可選地，所述方法還包括：

14、確定各個(gè)樣本音視頻片段的時(shí)長(zhǎng)信息；

15、根據(jù)各個(gè)樣本音視頻片段的時(shí)長(zhǎng)信息和目標(biāo)時(shí)長(zhǎng)信息，分別對(duì)各個(gè)樣本音視頻片段進(jìn)行拆分。

16、可選地，基于所述存在背景音樂(lè)的片段的時(shí)間點(diǎn)信息，從所述影視音視頻數(shù)據(jù)中提取出樣本音視頻片段，包括：

17、基于所述存在背景音樂(lè)的片段的時(shí)間點(diǎn)信息，確定存在背景音樂(lè)的片段的時(shí)長(zhǎng)信息；

18、根據(jù)所述時(shí)長(zhǎng)信息和目標(biāo)時(shí)長(zhǎng)信息，對(duì)存在背景音樂(lè)的片段進(jìn)行劃分，得到多個(gè)樣本音視頻片段。

19、在本發(fā)明實(shí)施的第二方面，還提供了一種視頻配樂(lè)方法，所述方法包括：

20、獲取目標(biāo)視頻的多模態(tài)數(shù)據(jù)，所述多模態(tài)數(shù)據(jù)表征所述目標(biāo)視頻的主題信息、氛圍信息、環(huán)境信息；

21、將所述多模態(tài)數(shù)據(jù)和候選背景音樂(lè)庫(kù)輸入預(yù)先訓(xùn)練的背景音樂(lè)匹配模型，得到所述背景音樂(lè)匹配模型從所述候選背景音樂(lè)庫(kù)中確定并輸出的與所述目標(biāo)視頻匹配的目標(biāo)背景音樂(lè)；

22、所述背景音樂(lè)匹配是基于上述任一項(xiàng)所述的模型訓(xùn)練方法訓(xùn)練得到的。

23、可選地，在將所述多模態(tài)數(shù)據(jù)和候選背景音樂(lè)庫(kù)輸入預(yù)先訓(xùn)練的背景音樂(lè)匹配模型之前，所述方法還包括：

24、獲取一個(gè)或多個(gè)背景音樂(lè)庫(kù)中的背景音樂(lè)；

25、將點(diǎn)擊率大于點(diǎn)擊率閾值和/或轉(zhuǎn)發(fā)率大于轉(zhuǎn)發(fā)率閾值的背景音樂(lè)添加到候選背景音樂(lè)庫(kù)中。

26、在本發(fā)明實(shí)施的第三方面，還提供了一種模型訓(xùn)練裝置，所述裝置包括：

27、獲取模塊，用于獲取影視音視頻數(shù)據(jù)；

28、第一提取模塊，用于從所述影視音視頻數(shù)據(jù)中提取出樣本音視頻片段；

29、第二提取模塊，用于從所述樣本音視頻片段中提取樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù)，所述樣本多模態(tài)數(shù)據(jù)表征樣本音視頻的主題信息、氛圍信息、環(huán)境信息；

30、構(gòu)建模塊，用于基于所述樣本背景音樂(lè)數(shù)據(jù)和所述樣本多模態(tài)數(shù)據(jù)構(gòu)建訓(xùn)練樣本；

31、訓(xùn)練模塊，用于將所述樣本多模態(tài)數(shù)據(jù)輸入多模態(tài)模型，得到所述多模態(tài)模型從候選背景音樂(lè)庫(kù)中確定并輸出的預(yù)測(cè)背景音樂(lè)數(shù)據(jù)；基于所述預(yù)測(cè)背景音樂(lè)數(shù)據(jù)和所述樣本背景音樂(lè)數(shù)據(jù)對(duì)所述多模態(tài)模型的模型參數(shù)進(jìn)行迭代更新，得到背景音樂(lè)匹配模型。

32、可選地，所述樣本多模態(tài)數(shù)據(jù)包括樣本文本類數(shù)據(jù)、樣本語(yǔ)音類數(shù)據(jù)和視頻類數(shù)據(jù)，所述樣本文本類數(shù)據(jù)用于表征樣本音視頻的主題信息，所述樣本語(yǔ)音類數(shù)據(jù)用于表征樣本音視頻的氛圍信息，所述樣本視頻類數(shù)據(jù)用于表征樣本音視頻的環(huán)境信息。

33、可選地，第一提取模塊，包括：

34、背景音樂(lè)片段確定子模塊，用于確定所述影視音視頻數(shù)據(jù)中存在背景音樂(lè)的片段；

35、提取子模塊，用于基于所述存在背景音樂(lè)的片段的時(shí)間點(diǎn)信息，從所述影視音視頻數(shù)據(jù)中提取出樣本音視頻片段。

36、可選地，所述第二提取模塊，包括：

37、第一確定模塊，用于基于所述時(shí)間點(diǎn)信息確定樣本音視頻片段對(duì)應(yīng)的語(yǔ)音類數(shù)據(jù)和視頻類數(shù)據(jù)；

38、第二確定模塊，用于對(duì)所述視頻類數(shù)據(jù)進(jìn)行文字識(shí)別得到文本類數(shù)據(jù)，或者，對(duì)所述語(yǔ)音類數(shù)據(jù)進(jìn)行音頻轉(zhuǎn)化得到文本類數(shù)據(jù)。

39、可選地，所述提取子模塊，具體用于：

40、基于所述存在背景音樂(lè)的片段的時(shí)間點(diǎn)信息，確定存在背景音樂(lè)的片段的時(shí)長(zhǎng)信息；

41、根據(jù)所述時(shí)長(zhǎng)信息和目標(biāo)時(shí)長(zhǎng)信息，對(duì)存在背景音樂(lè)的片段進(jìn)行劃分，得到多個(gè)樣本音視頻片段。

42、在本發(fā)明實(shí)施的第四方面，還提供了一種視頻配樂(lè)裝置，所述裝置包括：

43、獲取模塊，用于獲取目標(biāo)視頻的多模態(tài)數(shù)據(jù)，所述多模態(tài)數(shù)據(jù)表征所述目標(biāo)視頻的主題信息、氛圍信息、環(huán)境信息；

44、匹配模塊，用于將所述多模態(tài)數(shù)據(jù)和候選背景音樂(lè)庫(kù)輸入預(yù)先訓(xùn)練的背景音樂(lè)匹配模型，得到所述背景音樂(lè)匹配模型從所述候選背景音樂(lè)庫(kù)中確定并輸出的與所述目標(biāo)視頻匹配的目標(biāo)背景音樂(lè)；

45、所述背景音樂(lè)匹配模型是基于上述任一項(xiàng)所述的模型訓(xùn)練裝置訓(xùn)練得到的。

46、可選地，所述裝置包括：

47、抓取模塊，用于獲取一個(gè)或多個(gè)背景音樂(lè)庫(kù)中的背景音樂(lè)；

48、確定模塊，用于將點(diǎn)擊率大于點(diǎn)擊率閾值和/或轉(zhuǎn)發(fā)率大于轉(zhuǎn)發(fā)率閾值的背景音樂(lè)添加到候選背景音樂(lè)庫(kù)中。

49、在本發(fā)明實(shí)施的又一方面，還提供了一種電子設(shè)備，包括處理器、通信接口、存儲(chǔ)器和通信總線，其中，處理器，通信接口，存儲(chǔ)器通過(guò)通信總線完成相互間的通信；

50、存儲(chǔ)器，用于存放計(jì)算機(jī)程序；

51、處理器，用于執(zhí)行存儲(chǔ)器上所存放的程序時(shí)，實(shí)現(xiàn)上述任一所述的模型訓(xùn)練方法或者任一所述的視頻配樂(lè)方法的步驟。

52、在本發(fā)明實(shí)施的又一方面，還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令，當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí)，使得計(jì)算機(jī)執(zhí)行上述任一所述的模型訓(xùn)練方法或者任一所述的視頻配樂(lè)方法。

53、本發(fā)明實(shí)施例提供的模型訓(xùn)練方法中，基于影視音視頻數(shù)據(jù)構(gòu)建訓(xùn)練樣本，可以理解，影視音視頻無(wú)論是從拍攝還是后期都投入大量的專業(yè)人員進(jìn)行打磨，其背景音樂(lè)也是專業(yè)人員根據(jù)視頻內(nèi)容需要進(jìn)行匹配的，由此可見(jiàn)，影視音視頻中的背景音樂(lè)和對(duì)應(yīng)的視頻內(nèi)容(例如：視頻主題、視頻氛圍、視頻畫面人物、視頻畫面環(huán)境等)必然具有較高的匹配度。本發(fā)明實(shí)施例中，從影視音視頻中提取出樣本音視頻片段，再?gòu)臉颖疽粢曨l片段中提取樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù)，其中，樣本多模態(tài)數(shù)據(jù)可以表征樣本音視頻的主題信息、氛圍信息、環(huán)境信息，由于影視音視頻中的背景音樂(lè)是和對(duì)應(yīng)的視頻內(nèi)容的主題信息、氛圍信息、環(huán)境信息相匹配的，因此，該樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù)也是相匹配的。本發(fā)明實(shí)施例中，再基于該樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù)對(duì)多模態(tài)模型進(jìn)行訓(xùn)練，得到背景音樂(lè)匹配模型。因此，該背景音樂(lè)匹配模型也可以基于目標(biāo)視頻的主題信息、氛圍信息、環(huán)境信息匹配出合適的背景音樂(lè)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周晨
技術(shù)所有人：北京奇藝世紀(jì)科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

訓(xùn)練模型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

模型訓(xùn)練方法、視頻配樂(lè)方法、裝置、設(shè)備及介質(zhì)與流程

模型訓(xùn)練方法、視頻配樂(lè)方法、裝置、設(shè)備及介質(zhì)與流程