基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法與流程

文檔序號(hào)：40286278發(fā)布日期：2024-12-13 11:00閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，屬于短視頻自動(dòng)剪輯應(yīng)用。

背景技術(shù)：

1、短視頻是一種互聯(lián)網(wǎng)內(nèi)容傳播方式，質(zhì)量參差不齊，治不良短視頻非一朝一夕之功，短視頻的時(shí)長(zhǎng)一般在5分鐘以內(nèi)，隨著移動(dòng)終端普及和網(wǎng)絡(luò)的提速，逐漸獲得各大平臺(tái)、視頻行業(yè)逐漸崛起一批內(nèi)容制作者，到了2017年，短視頻行業(yè)競(jìng)爭(zhēng)進(jìn)入白熱化階段，內(nèi)容制作者也偏向pgc化專業(yè)運(yùn)作，短視頻逐漸成為網(wǎng)民獲取信息、獲取服務(wù)、互動(dòng)交流、文化娛樂(lè)的重要載體與傳播方式。

2、在現(xiàn)有的視頻編輯工具中，諸如剪映等應(yīng)用程序允許用戶混合和編輯視頻片段，然而，這些工具主要支持靜態(tài)圖像和文本作為素材進(jìn)行處理，并不支持動(dòng)態(tài)視頻內(nèi)容的自動(dòng)化處理，用戶需要手動(dòng)標(biāo)注素材，無(wú)法通過(guò)先進(jìn)的大模型進(jìn)行自動(dòng)標(biāo)注和處理，缺少智能化的語(yǔ)音識(shí)別和文本到語(yǔ)音轉(zhuǎn)換功能，導(dǎo)致工作效率較低。

技術(shù)實(shí)現(xiàn)思路

1、在本實(shí)施例中提供了基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法用于解決現(xiàn)有技術(shù)中在現(xiàn)有的視頻編輯工具中，諸如剪映等應(yīng)用程序允許用戶混合和編輯視頻片段，然而，這些工具主要支持靜態(tài)圖像和文本作為素材進(jìn)行處理，并不支持動(dòng)態(tài)視頻內(nèi)容的自動(dòng)化處理，用戶需要手動(dòng)標(biāo)注素材，無(wú)法通過(guò)先進(jìn)的大模型進(jìn)行自動(dòng)標(biāo)注和處理，缺少智能化的語(yǔ)音識(shí)別和文本到語(yǔ)音轉(zhuǎn)換功能，導(dǎo)致工作效率較低的問(wèn)題。

2、本發(fā)明通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)上述目的，基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，所述短視頻自動(dòng)剪輯方法包括如下步驟：

3、s1.視頻知識(shí)庫(kù)構(gòu)建,視頻知識(shí)庫(kù)構(gòu)建包括帶配音的視頻知識(shí)庫(kù)構(gòu)建和不帶配音的視頻知識(shí)庫(kù)構(gòu)建；

4、s2.視頻片段生成召回,輸入文案，按標(biāo)點(diǎn)切分成切片，循環(huán)獲取切片直到漢字?jǐn)?shù)達(dá)到40個(gè)(>10秒)，結(jié)果作為文案片段，從視頻知識(shí)庫(kù)獲取每個(gè)文案片段top?10匹配度的知識(shí)塊作為粗排結(jié)果，對(duì)結(jié)果根據(jù)時(shí)間和內(nèi)容進(jìn)行l(wèi)lm精排和格式化；同時(shí)將文案片段發(fā)送給tts服務(wù)，轉(zhuǎn)換成文案語(yǔ)音片段；

5、s3.過(guò)濾，循環(huán)上一個(gè)步驟召回結(jié)果中的塊，將塊時(shí)長(zhǎng)進(jìn)行累加，保證累加時(shí)長(zhǎng)<當(dāng)前文案語(yǔ)音片段長(zhǎng)度，將匹配塊結(jié)果輸出給視頻剪輯程序；

6、s4.視頻剪輯，循環(huán)塊，根據(jù)塊文件id元數(shù)據(jù)獲取原始視頻，根據(jù)時(shí)間戳信息從原始視頻截取視頻片段，拼接在一起形成剪輯片段；計(jì)算文案語(yǔ)音片段長(zhǎng)度減去剪輯片段長(zhǎng)度作為長(zhǎng)度差，如果長(zhǎng)度差<1秒，在文案語(yǔ)音片段結(jié)尾插入空白，否則視頻片段降速，加轉(zhuǎn)場(chǎng)，空鏡頭處理。

7、優(yōu)選的，所述帶配音的視頻知識(shí)庫(kù)構(gòu)建包括字幕生成和知識(shí)庫(kù)構(gòu)建。

8、優(yōu)選的，所述字幕生成為輸入視頻，調(diào)用asr服務(wù)生成視頻字幕，同時(shí)生成視頻元數(shù)據(jù)信息，獲取車型信息，并獲取字幕片段時(shí)長(zhǎng)。

9、優(yōu)選的，所述知識(shí)庫(kù)創(chuàng)建為輸入視頻字幕，按json對(duì)象切片和重疊，循環(huán)獲取切片直到漢字?jǐn)?shù)達(dá)到40個(gè)(>10秒)，輸出結(jié)果字幕片段，同時(shí)獲取視頻元數(shù)據(jù)，定義為自定義字段(custom?filed)，與字幕片段一起保存到視頻知識(shí)庫(kù)，同時(shí)進(jìn)行文本的embedding和向量化存儲(chǔ)(milvus數(shù)據(jù)庫(kù))和倒排索引(es)；最后進(jìn)行視頻知識(shí)庫(kù)輸出。

10、優(yōu)選的，所述不帶配音的視頻知識(shí)庫(kù)構(gòu)建包括場(chǎng)景元數(shù)據(jù)生成和場(chǎng)景知識(shí)庫(kù)創(chuàng)建。

11、優(yōu)選的，所述場(chǎng)景元數(shù)據(jù)生成為輸入視頻，通過(guò)transnet模型進(jìn)行場(chǎng)景切分，同時(shí)利用現(xiàn)有公司累計(jì)的汽車圖片向量形式和標(biāo)簽對(duì)大模型進(jìn)行微調(diào)，使之能夠準(zhǔn)確識(shí)別汽車部件，利用微調(diào)的大模型生成視頻元數(shù)據(jù)信息，包括車型信息、場(chǎng)景時(shí)間戳json、場(chǎng)景時(shí)長(zhǎng)。

12、優(yōu)選的，所述場(chǎng)景知識(shí)庫(kù)創(chuàng)建為輸入場(chǎng)景源數(shù)據(jù)，按json對(duì)象抽幀，循環(huán)獲取幀截圖直到時(shí)長(zhǎng)<5秒，用llama模型檢測(cè)幀內(nèi)容，結(jié)果作為場(chǎng)景描述，保存到視頻知識(shí)庫(kù)；同時(shí)獲取視頻元數(shù)據(jù)，作為自定義字段保存到視頻知識(shí)庫(kù)，輸出視頻知識(shí)庫(kù)。

13、優(yōu)選的，所述llama模型是由meta(前身為facebook)開發(fā)的一種大規(guī)模語(yǔ)言模型，旨在提高自然語(yǔ)言處理(nlp)任務(wù)的性能，所述llama模型是meta?ai在2023年發(fā)布的一種基礎(chǔ)語(yǔ)言模型集合，其參數(shù)范圍從7b(70億)到65b(650億)不等；該模型基于transformer架構(gòu)，并經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練，以在多種語(yǔ)言任務(wù)中表現(xiàn)出色。

14、優(yōu)選的，所述transnet模型是一種基于深度學(xué)習(xí)的視頻處理模型，它專注于從視頻流中識(shí)別出鏡頭切換的邊界，鏡頭切換是視頻制作中常見的技術(shù)手段，用于連接不同的視頻片段，形成連貫的故事線，transnet通過(guò)學(xué)習(xí)和識(shí)別視頻幀之間的特征變化，能夠準(zhǔn)確地檢測(cè)出這些鏡頭切換點(diǎn)。

15、本發(fā)明的有益效果是：本發(fā)明中該種基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，通過(guò)智能識(shí)別視頻中的場(chǎng)景和內(nèi)容，自動(dòng)對(duì)視頻進(jìn)行拆分并進(jìn)行語(yǔ)義化標(biāo)注，提升了視頻素材的管理效率和精度，實(shí)現(xiàn)高精度的視頻片段匹配召回，保障了生成視頻的質(zhì)量和相關(guān)性，應(yīng)用大語(yǔ)言模型和微調(diào)的圖像檢測(cè)模型及汽車行業(yè)的預(yù)定義標(biāo)簽組，通過(guò)多重標(biāo)注體系對(duì)視頻內(nèi)容進(jìn)行精確標(biāo)注，確保了視頻素材的準(zhǔn)確性和一致性，自動(dòng)對(duì)齊音頻和視頻，利用自動(dòng)調(diào)速、補(bǔ)充空鏡頭、轉(zhuǎn)場(chǎng)等手段，生成更加流暢和專業(yè)的成品視頻，實(shí)現(xiàn)了視頻素材的高效管理和精準(zhǔn)匹配，顯著提升了短視頻制作的效率和質(zhì)量，具有廣泛的應(yīng)用前景。

技術(shù)特征：

1.基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，其特征在于：所述短視頻自動(dòng)剪輯方法包括如下步驟：

2.根據(jù)權(quán)利要求1所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，其特征在于：所述帶配音的視頻知識(shí)庫(kù)構(gòu)建包括字幕生成和知識(shí)庫(kù)構(gòu)建。

3.根據(jù)權(quán)利要求2所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，其特征在于：所述字幕生成為輸入視頻，調(diào)用asr服務(wù)生成視頻字幕，同時(shí)生成視頻元數(shù)據(jù)信息，獲取車型信息，并獲取字幕片段時(shí)長(zhǎng)。

4.根據(jù)權(quán)利要求2所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，其特征在于：所述知識(shí)庫(kù)創(chuàng)建為輸入視頻字幕，按json對(duì)象切片和重疊，循環(huán)獲取切片直到漢字?jǐn)?shù)達(dá)到40個(gè)(>10秒)，輸出結(jié)果字幕片段，同時(shí)獲取視頻元數(shù)據(jù)，定義為自定義字段(custom?filed)，與字幕片段一起保存到視頻知識(shí)庫(kù)，同時(shí)進(jìn)行文本的embedding和向量化存儲(chǔ)(milvus數(shù)據(jù)庫(kù))和倒排索引(es)；最后進(jìn)行視頻知識(shí)庫(kù)輸出。

5.根據(jù)權(quán)利要求1所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，其特征在于：所述不帶配音的視頻知識(shí)庫(kù)構(gòu)建包括場(chǎng)景元數(shù)據(jù)生成和場(chǎng)景知識(shí)庫(kù)創(chuàng)建。

6.根據(jù)權(quán)利要求5所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，其特征在于：所述場(chǎng)景元數(shù)據(jù)生成為輸入視頻，通過(guò)transnet模型進(jìn)行場(chǎng)景切分，同時(shí)利用現(xiàn)有公司累計(jì)的汽車圖片向量形式和標(biāo)簽對(duì)大模型進(jìn)行微調(diào)，使之能夠準(zhǔn)確識(shí)別汽車部件，利用微調(diào)的大模型生成視頻元數(shù)據(jù)信息，包括車型信息、場(chǎng)景時(shí)間戳json、場(chǎng)景時(shí)長(zhǎng)。

7.根據(jù)權(quán)利要求5所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，其特征在于：所述場(chǎng)景知識(shí)庫(kù)創(chuàng)建為輸入場(chǎng)景源數(shù)據(jù)，按json對(duì)象抽幀，循環(huán)獲取幀截圖直到時(shí)長(zhǎng)<5秒，用llama模型檢測(cè)幀內(nèi)容，結(jié)果作為場(chǎng)景描述，保存到視頻知識(shí)庫(kù)；同時(shí)獲取視頻元數(shù)據(jù)，作為自定義字段保存到視頻知識(shí)庫(kù)，輸出視頻知識(shí)庫(kù)。

8.根據(jù)權(quán)利要求5所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，其特征在于：所述llama模型是由meta(前身為facebook)開發(fā)的一種大規(guī)模語(yǔ)言模型，旨在提高自然語(yǔ)言處理(nlp)任務(wù)的性能，所述llama模型是meta?ai在2023年發(fā)布的一種基礎(chǔ)語(yǔ)言模型集合，其參數(shù)范圍從7b(70億)到65b(650億)不等；該模型基于transformer架構(gòu)，并經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練，以在多種語(yǔ)言任務(wù)中表現(xiàn)出色。

9.根據(jù)權(quán)利要求5所述的基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，其特征在于：所述transnet模型是一種基于深度學(xué)習(xí)的視頻處理模型，它專注于從視頻流中識(shí)別出鏡頭切換的邊界，鏡頭切換是視頻制作中常見的技術(shù)手段，用于連接不同的視頻片段，形成連貫的故事線，transnet通過(guò)學(xué)習(xí)和識(shí)別視頻幀之間的特征變化，能夠準(zhǔn)確地檢測(cè)出這些鏡頭切換點(diǎn)。

技術(shù)總結(jié)
本發(fā)明公開了基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法，所述短視頻自動(dòng)剪輯方法包括如下步驟：視頻知識(shí)庫(kù)構(gòu)建,視頻知識(shí)庫(kù)構(gòu)建包括帶配音的視頻知識(shí)庫(kù)構(gòu)建和不帶配音的視頻知識(shí)庫(kù)構(gòu)建；視頻片段生成召回,輸入文案，按標(biāo)點(diǎn)切分成切片，循環(huán)獲取切片直到漢字?jǐn)?shù)達(dá)到40個(gè)，結(jié)果作為文案片段，從視頻知識(shí)庫(kù)獲取每個(gè)文案片段Top?10匹配度的知識(shí)塊作為粗排結(jié)果，對(duì)結(jié)果根據(jù)時(shí)間和內(nèi)容進(jìn)行LLM精排和格式化；同時(shí)將文案片段發(fā)送給TTS服務(wù)，轉(zhuǎn)換成文案語(yǔ)音片段，過(guò)濾；視頻剪輯；本發(fā)明實(shí)現(xiàn)了視頻素材的高效管理和精準(zhǔn)匹配，顯著提升了短視頻制作的效率和質(zhì)量，具有廣泛的應(yīng)用前景。

技術(shù)研發(fā)人員：田震,張健,張?jiān)?br/>受保護(hù)的技術(shù)使用者：北京比特易湃信息技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/12

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：田震,張健,張?jiān)?/span>
技術(shù)所有人：北京比特易湃信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種生物降解地膜多層共擠模頭的制作方法
上一篇：三元前驅(qū)體制備裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于多路標(biāo)注召回的短視頻自動(dòng)剪輯方法與流程