1.一種基于大語言模型的智能視頻剪輯方法,其特征在于,所述方法步驟包括:
2.根據(jù)權(quán)利要求1所述的基于大語言模型的智能視頻剪輯方法,其特征在于,所述步驟1中的綜合智能分析包括:
3.根據(jù)權(quán)利要求1所述的基于大語言模型的智能視頻剪輯方法,其特征在于,所述步驟4,對于標記為同期聲的文字內(nèi)容,系統(tǒng)基于對文字稿件的語義理解,對同期聲索引進行相似度匹配,包括文字稿件與語音識別的文字結(jié)果不完全相同,以保證稿件中的書面文字與素材采訪、對話中的口語之間進行智能匹配;對于正文類型,系統(tǒng)基于文字的語義理解,從跨模態(tài)索引庫中,在向量維度將文字與視音頻內(nèi)容進行匹配,根據(jù)匹配的比對結(jié)果,形成相似度數(shù)據(jù),根據(jù)相似度來進行鏡頭的智能匹配。
4.根據(jù)權(quán)利要求1所述的基于大語言模型的智能視頻剪輯方法,其特征在于,所述步驟6的根據(jù)鏡頭匹配結(jié)果中前后鏡頭在原素材中的時間先后順序,進行場景智能合并方法如下:
5.根據(jù)權(quán)利要求1所述的基于大語言模型的智能視頻剪輯方法,其特征在于,所述步驟6中的使用視聽語言模型來進行對匹配鏡頭結(jié)果的分析和處理方法包括:將每一句/段文字的智能匹配的鏡頭結(jié)果進行判重;對智能匹配的鏡頭結(jié)果進行鏡頭長度的處理;對前后鏡頭的景別、攝法等視聽語音進行分析,與視聽語言模型中的蒙太奇句式相匹配;根據(jù)配音或同期聲的音頻長度,對視頻鏡頭的長度進行微調(diào);文稿中的每一句/段文字進行了鏡頭匹配之后,將鏡頭匹配的結(jié)果按照文稿或分鏡頭腳本的順序進行排列與拼接。
6.根據(jù)權(quán)利要求1所述的基于大語言模型的智能視頻剪輯方法,其特征在于,所述步驟7,可通過語音識別與語音合成引擎,為剪輯結(jié)果的旁白部分生成配音,為正文和同期中的語音,自動生成對白字幕,系統(tǒng)提供的音樂可進行情感分類,根據(jù)需要,對生成的智能剪輯結(jié)果,選擇相對應(yīng)的情感自動添加音樂。
7.根據(jù)權(quán)利要求1所述的基于大語言模型的智能視頻剪輯方法,其特征在于,所述最大鏡頭數(shù)量小于等于10。
8.根據(jù)權(quán)利要求2所述的基于大語言模型的智能視頻剪輯方法,其特征在于,所述步驟1.4對關(guān)鍵幀跨模態(tài)分析是:對視頻內(nèi)容按照每10幀抽取第1幀作為1個關(guān)鍵幀,對抽幀之后的關(guān)鍵幀進行向量分析,并將前后兩個關(guān)鍵幀的向量進行差值計算;