本發(fā)明涉及基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,屬于短視頻自動(dòng)剪輯應(yīng)用。
背景技術(shù):
1、短視頻是一種互聯(lián)網(wǎng)內(nèi)容傳播方式,質(zhì)量參差不齊,治不良短視頻非一朝一夕之功,短視頻的時(shí)長(zhǎng)一般在5分鐘以內(nèi),隨著移動(dòng)終端普及和網(wǎng)絡(luò)的提速,逐漸獲得各大平臺(tái)、視頻行業(yè)逐漸崛起一批內(nèi)容制作者,到了2017年,短視頻行業(yè)競(jìng)爭(zhēng)進(jìn)入白熱化階段,內(nèi)容制作者也偏向pgc化專業(yè)運(yùn)作,短視頻逐漸成為網(wǎng)民獲取信息、獲取服務(wù)、互動(dòng)交流、文化娛樂(lè)的重要載體與傳播方式。
2、在現(xiàn)有的視頻編輯工具中,諸如剪映等應(yīng)用程序允許用戶混合和編輯視頻片段,然而,這些工具主要支持靜態(tài)圖像和文本作為素材進(jìn)行處理,并不支持動(dòng)態(tài)視頻內(nèi)容的自動(dòng)化處理,用戶需要手動(dòng)標(biāo)注素材,無(wú)法通過(guò)先進(jìn)的大模型進(jìn)行自動(dòng)標(biāo)注和處理,缺少智能化的語(yǔ)音識(shí)別和文本到語(yǔ)音轉(zhuǎn)換功能,導(dǎo)致工作效率較低。
技術(shù)實(shí)現(xiàn)思路
1、在本實(shí)施例中提供了基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法用于解決現(xiàn)有技術(shù)中在現(xiàn)有的視頻編輯工具中,諸如剪映等應(yīng)用程序允許用戶混合和編輯視頻片段,然而,這些工具主要支持靜態(tài)圖像和文本作為素材進(jìn)行處理,并不支持動(dòng)態(tài)視頻內(nèi)容的自動(dòng)化處理,用戶需要手動(dòng)標(biāo)注素材,無(wú)法通過(guò)先進(jìn)的大模型進(jìn)行自動(dòng)標(biāo)注和處理,缺少智能化的語(yǔ)音識(shí)別和文本到語(yǔ)音轉(zhuǎn)換功能,導(dǎo)致工作效率較低的問(wèn)題。
2、本發(fā)明通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)上述目的,基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,所述短視頻自動(dòng)剪輯方法包括如下步驟:
3、s1.視頻知識(shí)庫(kù)構(gòu)建,視頻知識(shí)庫(kù)構(gòu)建包括帶配音的視頻知識(shí)庫(kù)構(gòu)建和不帶配音的視頻知識(shí)庫(kù)構(gòu)建;
4、s2.視頻片段生成召回,輸入文案,按標(biāo)點(diǎn)切分成切片,循環(huán)獲取切片直到漢字?jǐn)?shù)達(dá)到40個(gè)(>10秒),結(jié)果作為文案片段,從視頻知識(shí)庫(kù)獲取每個(gè)文案片段top?10匹配度的知識(shí)塊作為粗排結(jié)果,對(duì)結(jié)果根據(jù)時(shí)間和內(nèi)容進(jìn)行l(wèi)lm精排和格式化;同時(shí)將文案片段發(fā)送給tts服務(wù),轉(zhuǎn)換成文案語(yǔ)音片段;
5、s3.過(guò)濾,循環(huán)上一個(gè)步驟召回結(jié)果中的塊,將塊時(shí)長(zhǎng)進(jìn)行累加,保證累加時(shí)長(zhǎng)<當(dāng)前文案語(yǔ)音片段長(zhǎng)度,將匹配塊結(jié)果輸出給視頻剪輯程序;
6、s4.視頻剪輯,循環(huán)塊,根據(jù)塊文件id元數(shù)據(jù)獲取原始視頻,根據(jù)時(shí)間戳信息從原始視頻截取視頻片段,拼接在一起形成剪輯片段;計(jì)算文案語(yǔ)音片段長(zhǎng)度減去剪輯片段長(zhǎng)度作為長(zhǎng)度差,如果長(zhǎng)度差<1秒,在文案語(yǔ)音片段結(jié)尾插入空白,否則視頻片段降速,加轉(zhuǎn)場(chǎng),空鏡頭處理。
7、優(yōu)選的,所述帶配音的視頻知識(shí)庫(kù)構(gòu)建包括字幕生成和知識(shí)庫(kù)構(gòu)建。
8、優(yōu)選的,所述字幕生成為輸入視頻,調(diào)用asr服務(wù)生成視頻字幕,同時(shí)生成視頻元數(shù)據(jù)信息,獲取車型信息,并獲取字幕片段時(shí)長(zhǎng)。
9、優(yōu)選的,所述知識(shí)庫(kù)創(chuàng)建為輸入視頻字幕,按json對(duì)象切片和重疊,循環(huán)獲取切片直到漢字?jǐn)?shù)達(dá)到40個(gè)(>10秒),輸出結(jié)果字幕片段,同時(shí)獲取視頻元數(shù)據(jù),定義為自定義字段(custom?filed),與字幕片段一起保存到視頻知識(shí)庫(kù),同時(shí)進(jìn)行文本的embedding和向量化存儲(chǔ)(milvus數(shù)據(jù)庫(kù))和倒排索引(es);最后進(jìn)行視頻知識(shí)庫(kù)輸出。
10、優(yōu)選的,所述不帶配音的視頻知識(shí)庫(kù)構(gòu)建包括場(chǎng)景元數(shù)據(jù)生成和場(chǎng)景知識(shí)庫(kù)創(chuàng)建。
11、優(yōu)選的,所述場(chǎng)景元數(shù)據(jù)生成為輸入視頻,通過(guò)transnet模型進(jìn)行場(chǎng)景切分,同時(shí)利用現(xiàn)有公司累計(jì)的汽車圖片向量形式和標(biāo)簽對(duì)大模型進(jìn)行微調(diào),使之能夠準(zhǔn)確識(shí)別汽車部件,利用微調(diào)的大模型生成視頻元數(shù)據(jù)信息,包括車型信息、場(chǎng)景時(shí)間戳json、場(chǎng)景時(shí)長(zhǎng)。
12、優(yōu)選的,所述場(chǎng)景知識(shí)庫(kù)創(chuàng)建為輸入場(chǎng)景源數(shù)據(jù),按json對(duì)象抽幀,循環(huán)獲取幀截圖直到時(shí)長(zhǎng)<5秒,用llama模型檢測(cè)幀內(nèi)容,結(jié)果作為場(chǎng)景描述,保存到視頻知識(shí)庫(kù);同時(shí)獲取視頻元數(shù)據(jù),作為自定義字段保存到視頻知識(shí)庫(kù),輸出視頻知識(shí)庫(kù)。
13、優(yōu)選的,所述llama模型是由meta(前身為facebook)開發(fā)的一種大規(guī)模語(yǔ)言模型,旨在提高自然語(yǔ)言處理(nlp)任務(wù)的性能,所述llama模型是meta?ai在2023年發(fā)布的一種基礎(chǔ)語(yǔ)言模型集合,其參數(shù)范圍從7b(70億)到65b(650億)不等;該模型基于transformer架構(gòu),并經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練,以在多種語(yǔ)言任務(wù)中表現(xiàn)出色。
14、優(yōu)選的,所述transnet模型是一種基于深度學(xué)習(xí)的視頻處理模型,它專注于從視頻流中識(shí)別出鏡頭切換的邊界,鏡頭切換是視頻制作中常見的技術(shù)手段,用于連接不同的視頻片段,形成連貫的故事線,transnet通過(guò)學(xué)習(xí)和識(shí)別視頻幀之間的特征變化,能夠準(zhǔn)確地檢測(cè)出這些鏡頭切換點(diǎn)。
15、本發(fā)明的有益效果是:本發(fā)明中該種基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,通過(guò)智能識(shí)別視頻中的場(chǎng)景和內(nèi)容,自動(dòng)對(duì)視頻進(jìn)行拆分并進(jìn)行語(yǔ)義化標(biāo)注,提升了視頻素材的管理效率和精度,實(shí)現(xiàn)高精度的視頻片段匹配召回,保障了生成視頻的質(zhì)量和相關(guān)性,應(yīng)用大語(yǔ)言模型和微調(diào)的圖像檢測(cè)模型及汽車行業(yè)的預(yù)定義標(biāo)簽組,通過(guò)多重標(biāo)注體系對(duì)視頻內(nèi)容進(jìn)行精確標(biāo)注,確保了視頻素材的準(zhǔn)確性和一致性,自動(dòng)對(duì)齊音頻和視頻,利用自動(dòng)調(diào)速、補(bǔ)充空鏡頭、轉(zhuǎn)場(chǎng)等手段,生成更加流暢和專業(yè)的成品視頻,實(shí)現(xiàn)了視頻素材的高效管理和精準(zhǔn)匹配,顯著提升了短視頻制作的效率和質(zhì)量,具有廣泛的應(yīng)用前景。
1.基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,其特征在于:所述短視頻自動(dòng)剪輯方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,其特征在于:所述帶配音的視頻知識(shí)庫(kù)構(gòu)建包括字幕生成和知識(shí)庫(kù)構(gòu)建。
3.根據(jù)權(quán)利要求2所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,其特征在于:所述字幕生成為輸入視頻,調(diào)用asr服務(wù)生成視頻字幕,同時(shí)生成視頻元數(shù)據(jù)信息,獲取車型信息,并獲取字幕片段時(shí)長(zhǎng)。
4.根據(jù)權(quán)利要求2所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,其特征在于:所述知識(shí)庫(kù)創(chuàng)建為輸入視頻字幕,按json對(duì)象切片和重疊,循環(huán)獲取切片直到漢字?jǐn)?shù)達(dá)到40個(gè)(>10秒),輸出結(jié)果字幕片段,同時(shí)獲取視頻元數(shù)據(jù),定義為自定義字段(custom?filed),與字幕片段一起保存到視頻知識(shí)庫(kù),同時(shí)進(jìn)行文本的embedding和向量化存儲(chǔ)(milvus數(shù)據(jù)庫(kù))和倒排索引(es);最后進(jìn)行視頻知識(shí)庫(kù)輸出。
5.根據(jù)權(quán)利要求1所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,其特征在于:所述不帶配音的視頻知識(shí)庫(kù)構(gòu)建包括場(chǎng)景元數(shù)據(jù)生成和場(chǎng)景知識(shí)庫(kù)創(chuàng)建。
6.根據(jù)權(quán)利要求5所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,其特征在于:所述場(chǎng)景元數(shù)據(jù)生成為輸入視頻,通過(guò)transnet模型進(jìn)行場(chǎng)景切分,同時(shí)利用現(xiàn)有公司累計(jì)的汽車圖片向量形式和標(biāo)簽對(duì)大模型進(jìn)行微調(diào),使之能夠準(zhǔn)確識(shí)別汽車部件,利用微調(diào)的大模型生成視頻元數(shù)據(jù)信息,包括車型信息、場(chǎng)景時(shí)間戳json、場(chǎng)景時(shí)長(zhǎng)。
7.根據(jù)權(quán)利要求5所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,其特征在于:所述場(chǎng)景知識(shí)庫(kù)創(chuàng)建為輸入場(chǎng)景源數(shù)據(jù),按json對(duì)象抽幀,循環(huán)獲取幀截圖直到時(shí)長(zhǎng)<5秒,用llama模型檢測(cè)幀內(nèi)容,結(jié)果作為場(chǎng)景描述,保存到視頻知識(shí)庫(kù);同時(shí)獲取視頻元數(shù)據(jù),作為自定義字段保存到視頻知識(shí)庫(kù),輸出視頻知識(shí)庫(kù)。
8.根據(jù)權(quán)利要求5所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,其特征在于:所述llama模型是由meta(前身為facebook)開發(fā)的一種大規(guī)模語(yǔ)言模型,旨在提高自然語(yǔ)言處理(nlp)任務(wù)的性能,所述llama模型是meta?ai在2023年發(fā)布的一種基礎(chǔ)語(yǔ)言模型集合,其參數(shù)范圍從7b(70億)到65b(650億)不等;該模型基于transformer架構(gòu),并經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練,以在多種語(yǔ)言任務(wù)中表現(xiàn)出色。
9.根據(jù)權(quán)利要求5所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法,其特征在于:所述transnet模型是一種基于深度學(xué)習(xí)的視頻處理模型,它專注于從視頻流中識(shí)別出鏡頭切換的邊界,鏡頭切換是視頻制作中常見的技術(shù)手段,用于連接不同的視頻片段,形成連貫的故事線,transnet通過(guò)學(xué)習(xí)和識(shí)別視頻幀之間的特征變化,能夠準(zhǔn)確地檢測(cè)出這些鏡頭切換點(diǎn)。