本發(fā)明涉及視頻處理,特別是涉及模型訓(xùn)練方法、視頻配樂(lè)方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著短視頻行業(yè)的迅速崛起,越來(lái)越多的互聯(lián)網(wǎng)用戶從消費(fèi)視頻內(nèi)容轉(zhuǎn)向自制視頻內(nèi)容,然而大多數(shù)人并非專業(yè)的視頻制作專家,缺乏一定的視頻制作知識(shí)以及視頻制作經(jīng)驗(yàn)儲(chǔ)備;背景音樂(lè)作為短視頻的一個(gè)非常重要的組成因素,對(duì)于視頻的質(zhì)量以及視頻對(duì)人的吸引程度都至關(guān)重要。所以使用人工智能技術(shù)為視頻選擇恰當(dāng)?shù)谋尘耙魳?lè)很有必要。
2、相關(guān)技術(shù)中,通常采用已有的帶有背景音樂(lè)的短視頻作為訓(xùn)練樣本,進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練,再利用訓(xùn)練好的深度學(xué)習(xí)模型為短視頻配樂(lè),然而,現(xiàn)有的短視頻行業(yè)中,已有的短視頻的配樂(lè)往往是由短視頻制作者的主觀喜好決定的,大多數(shù)均為短視頻制作時(shí)的熱門配樂(lè),因此已有短視頻的配樂(lè)與視頻本身的匹配度較低,基于這種訓(xùn)練樣本訓(xùn)練出的深度學(xué)習(xí)模型,也無(wú)法根據(jù)視頻內(nèi)容(包括:畫面、對(duì)話等)本身的特點(diǎn)為視頻確定出匹配度最高的背景音樂(lè)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例的目的在于提供一種模型訓(xùn)練方法、視頻配樂(lè)方法、裝置、設(shè)備及介質(zhì),以從待匹配視頻內(nèi)容本身的特點(diǎn)出發(fā)為其匹配最合適的背景音樂(lè)。具體技術(shù)方案如下:
2、在本發(fā)明實(shí)施的第一方面,首先提供了一種模型訓(xùn)練方法,所述方法包括:
3、獲取影視音視頻數(shù)據(jù);
4、從所述影視音視頻數(shù)據(jù)中提取出樣本音視頻片段;
5、從所述樣本音視頻片段中提取樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù),所述樣本多模態(tài)數(shù)據(jù)表征樣本音視頻的主題信息、氛圍信息、環(huán)境信息;
6、基于所述樣本背景音樂(lè)數(shù)據(jù)和所述樣本多模態(tài)數(shù)據(jù)構(gòu)建訓(xùn)練樣本;
7、將所述樣本多模態(tài)數(shù)據(jù)輸入多模態(tài)模型,得到所述多模態(tài)模型從候選背景音樂(lè)庫(kù)中確定并輸出的預(yù)測(cè)背景音樂(lè)數(shù)據(jù);
8、基于所述預(yù)測(cè)背景音樂(lè)數(shù)據(jù)和所述樣本背景音樂(lè)數(shù)據(jù)對(duì)所述多模態(tài)模型的模型參數(shù)進(jìn)行迭代更新,得到背景音樂(lè)匹配模型。
9、可選地,所述樣本多模態(tài)數(shù)據(jù)包括樣本文本類數(shù)據(jù)、樣本語(yǔ)音類數(shù)據(jù)和樣本視頻類數(shù)據(jù),所述樣本文本類數(shù)據(jù)用于表征樣本音視頻的主題信息,所述樣本語(yǔ)音類數(shù)據(jù)用于表征樣本音視頻的氛圍信息,所述樣本視頻類數(shù)據(jù)用于表征樣本音視頻的環(huán)境信息。
10、可選地,從所述樣本音視頻片段中提取樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù),包括:
11、基于所述時(shí)間點(diǎn)信息確定樣本音視頻片段對(duì)應(yīng)的樣本語(yǔ)音類數(shù)據(jù)和樣本視頻類數(shù)據(jù);
12、對(duì)所述樣本視頻類數(shù)據(jù)進(jìn)行文字識(shí)別得到樣本文本類數(shù)據(jù),或者,對(duì)所述樣本語(yǔ)音類數(shù)據(jù)進(jìn)行音頻轉(zhuǎn)化得到樣本文本類數(shù)據(jù)。
13、可選地,所述方法還包括:
14、確定各個(gè)樣本音視頻片段的時(shí)長(zhǎng)信息;
15、根據(jù)各個(gè)樣本音視頻片段的時(shí)長(zhǎng)信息和目標(biāo)時(shí)長(zhǎng)信息,分別對(duì)各個(gè)樣本音視頻片段進(jìn)行拆分。
16、可選地,基于所述存在背景音樂(lè)的片段的時(shí)間點(diǎn)信息,從所述影視音視頻數(shù)據(jù)中提取出樣本音視頻片段,包括:
17、基于所述存在背景音樂(lè)的片段的時(shí)間點(diǎn)信息,確定存在背景音樂(lè)的片段的時(shí)長(zhǎng)信息;
18、根據(jù)所述時(shí)長(zhǎng)信息和目標(biāo)時(shí)長(zhǎng)信息,對(duì)存在背景音樂(lè)的片段進(jìn)行劃分,得到多個(gè)樣本音視頻片段。
19、在本發(fā)明實(shí)施的第二方面,還提供了一種視頻配樂(lè)方法,所述方法包括:
20、獲取目標(biāo)視頻的多模態(tài)數(shù)據(jù),所述多模態(tài)數(shù)據(jù)表征所述目標(biāo)視頻的主題信息、氛圍信息、環(huán)境信息;
21、將所述多模態(tài)數(shù)據(jù)和候選背景音樂(lè)庫(kù)輸入預(yù)先訓(xùn)練的背景音樂(lè)匹配模型,得到所述背景音樂(lè)匹配模型從所述候選背景音樂(lè)庫(kù)中確定并輸出的與所述目標(biāo)視頻匹配的目標(biāo)背景音樂(lè);
22、所述背景音樂(lè)匹配是基于上述任一項(xiàng)所述的模型訓(xùn)練方法訓(xùn)練得到的。
23、可選地,在將所述多模態(tài)數(shù)據(jù)和候選背景音樂(lè)庫(kù)輸入預(yù)先訓(xùn)練的背景音樂(lè)匹配模型之前,所述方法還包括:
24、獲取一個(gè)或多個(gè)背景音樂(lè)庫(kù)中的背景音樂(lè);
25、將點(diǎn)擊率大于點(diǎn)擊率閾值和/或轉(zhuǎn)發(fā)率大于轉(zhuǎn)發(fā)率閾值的背景音樂(lè)添加到候選背景音樂(lè)庫(kù)中。
26、在本發(fā)明實(shí)施的第三方面,還提供了一種模型訓(xùn)練裝置,所述裝置包括:
27、獲取模塊,用于獲取影視音視頻數(shù)據(jù);
28、第一提取模塊,用于從所述影視音視頻數(shù)據(jù)中提取出樣本音視頻片段;
29、第二提取模塊,用于從所述樣本音視頻片段中提取樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù),所述樣本多模態(tài)數(shù)據(jù)表征樣本音視頻的主題信息、氛圍信息、環(huán)境信息;
30、構(gòu)建模塊,用于基于所述樣本背景音樂(lè)數(shù)據(jù)和所述樣本多模態(tài)數(shù)據(jù)構(gòu)建訓(xùn)練樣本;
31、訓(xùn)練模塊,用于將所述樣本多模態(tài)數(shù)據(jù)輸入多模態(tài)模型,得到所述多模態(tài)模型從候選背景音樂(lè)庫(kù)中確定并輸出的預(yù)測(cè)背景音樂(lè)數(shù)據(jù);基于所述預(yù)測(cè)背景音樂(lè)數(shù)據(jù)和所述樣本背景音樂(lè)數(shù)據(jù)對(duì)所述多模態(tài)模型的模型參數(shù)進(jìn)行迭代更新,得到背景音樂(lè)匹配模型。
32、可選地,所述樣本多模態(tài)數(shù)據(jù)包括樣本文本類數(shù)據(jù)、樣本語(yǔ)音類數(shù)據(jù)和視頻類數(shù)據(jù),所述樣本文本類數(shù)據(jù)用于表征樣本音視頻的主題信息,所述樣本語(yǔ)音類數(shù)據(jù)用于表征樣本音視頻的氛圍信息,所述樣本視頻類數(shù)據(jù)用于表征樣本音視頻的環(huán)境信息。
33、可選地,第一提取模塊,包括:
34、背景音樂(lè)片段確定子模塊,用于確定所述影視音視頻數(shù)據(jù)中存在背景音樂(lè)的片段;
35、提取子模塊,用于基于所述存在背景音樂(lè)的片段的時(shí)間點(diǎn)信息,從所述影視音視頻數(shù)據(jù)中提取出樣本音視頻片段。
36、可選地,所述第二提取模塊,包括:
37、第一確定模塊,用于基于所述時(shí)間點(diǎn)信息確定樣本音視頻片段對(duì)應(yīng)的語(yǔ)音類數(shù)據(jù)和視頻類數(shù)據(jù);
38、第二確定模塊,用于對(duì)所述視頻類數(shù)據(jù)進(jìn)行文字識(shí)別得到文本類數(shù)據(jù),或者,對(duì)所述語(yǔ)音類數(shù)據(jù)進(jìn)行音頻轉(zhuǎn)化得到文本類數(shù)據(jù)。
39、可選地,所述提取子模塊,具體用于:
40、基于所述存在背景音樂(lè)的片段的時(shí)間點(diǎn)信息,確定存在背景音樂(lè)的片段的時(shí)長(zhǎng)信息;
41、根據(jù)所述時(shí)長(zhǎng)信息和目標(biāo)時(shí)長(zhǎng)信息,對(duì)存在背景音樂(lè)的片段進(jìn)行劃分,得到多個(gè)樣本音視頻片段。
42、在本發(fā)明實(shí)施的第四方面,還提供了一種視頻配樂(lè)裝置,所述裝置包括:
43、獲取模塊,用于獲取目標(biāo)視頻的多模態(tài)數(shù)據(jù),所述多模態(tài)數(shù)據(jù)表征所述目標(biāo)視頻的主題信息、氛圍信息、環(huán)境信息;
44、匹配模塊,用于將所述多模態(tài)數(shù)據(jù)和候選背景音樂(lè)庫(kù)輸入預(yù)先訓(xùn)練的背景音樂(lè)匹配模型,得到所述背景音樂(lè)匹配模型從所述候選背景音樂(lè)庫(kù)中確定并輸出的與所述目標(biāo)視頻匹配的目標(biāo)背景音樂(lè);
45、所述背景音樂(lè)匹配模型是基于上述任一項(xiàng)所述的模型訓(xùn)練裝置訓(xùn)練得到的。
46、可選地,所述裝置包括:
47、抓取模塊,用于獲取一個(gè)或多個(gè)背景音樂(lè)庫(kù)中的背景音樂(lè);
48、確定模塊,用于將點(diǎn)擊率大于點(diǎn)擊率閾值和/或轉(zhuǎn)發(fā)率大于轉(zhuǎn)發(fā)率閾值的背景音樂(lè)添加到候選背景音樂(lè)庫(kù)中。
49、在本發(fā)明實(shí)施的又一方面,還提供了一種電子設(shè)備,包括處理器、通信接口、存儲(chǔ)器和通信總線,其中,處理器,通信接口,存儲(chǔ)器通過(guò)通信總線完成相互間的通信;
50、存儲(chǔ)器,用于存放計(jì)算機(jī)程序;
51、處理器,用于執(zhí)行存儲(chǔ)器上所存放的程序時(shí),實(shí)現(xiàn)上述任一所述的模型訓(xùn)練方法或者任一所述的視頻配樂(lè)方法的步驟。
52、在本發(fā)明實(shí)施的又一方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述任一所述的模型訓(xùn)練方法或者任一所述的視頻配樂(lè)方法。
53、本發(fā)明實(shí)施例提供的模型訓(xùn)練方法中,基于影視音視頻數(shù)據(jù)構(gòu)建訓(xùn)練樣本,可以理解,影視音視頻無(wú)論是從拍攝還是后期都投入大量的專業(yè)人員進(jìn)行打磨,其背景音樂(lè)也是專業(yè)人員根據(jù)視頻內(nèi)容需要進(jìn)行匹配的,由此可見(jiàn),影視音視頻中的背景音樂(lè)和對(duì)應(yīng)的視頻內(nèi)容(例如:視頻主題、視頻氛圍、視頻畫面人物、視頻畫面環(huán)境等)必然具有較高的匹配度。本發(fā)明實(shí)施例中,從影視音視頻中提取出樣本音視頻片段,再?gòu)臉颖疽粢曨l片段中提取樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù),其中,樣本多模態(tài)數(shù)據(jù)可以表征樣本音視頻的主題信息、氛圍信息、環(huán)境信息,由于影視音視頻中的背景音樂(lè)是和對(duì)應(yīng)的視頻內(nèi)容的主題信息、氛圍信息、環(huán)境信息相匹配的,因此,該樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù)也是相匹配的。本發(fā)明實(shí)施例中,再基于該樣本多模態(tài)數(shù)據(jù)和樣本背景音樂(lè)數(shù)據(jù)對(duì)多模態(tài)模型進(jìn)行訓(xùn)練,得到背景音樂(lè)匹配模型。因此,該背景音樂(lè)匹配模型也可以基于目標(biāo)視頻的主題信息、氛圍信息、環(huán)境信息匹配出合適的背景音樂(lè)。