本發(fā)明涉及視頻剪輯,尤其涉及一種基于大語言模型的智能視頻剪輯方法。
背景技術(shù):
1、伴隨計(jì)算機(jī)視覺、語音識(shí)別等技術(shù)的不斷發(fā)展,跨模態(tài)大模型的應(yīng)用日趨成熟。這類模型能夠處理不同模態(tài)的數(shù)據(jù)(如文本、圖像、語音等),實(shí)現(xiàn)多模態(tài)信息的融合和交互,為人工智能應(yīng)用提供了更加豐富的可能性。大語言模型從模型的規(guī)?;?yīng)用場景的多樣化、先進(jìn)的技術(shù)創(chuàng)新,到跨模態(tài)大模型的深入發(fā)展,這些趨勢和所取得的成果不僅體現(xiàn)了人工智能領(lǐng)域取得的巨大進(jìn)步,也預(yù)示著未來大模型技術(shù)將在更多領(lǐng)域展現(xiàn)其獨(dú)特的價(jià)值和能力。
2、在視音頻內(nèi)容的生產(chǎn)創(chuàng)作過程中,圖像所包含的信息往往不僅僅局限于視覺信息,還可能涉及其他模態(tài)的數(shù)據(jù),如文本、語音等。因此,通過跨模態(tài)數(shù)據(jù)融合技術(shù)來完成視音頻內(nèi)容的智能生產(chǎn),成為本發(fā)明的重要研究與改進(jìn)方向。隨著媒體融合的深入發(fā)展,各媒體機(jī)構(gòu)都面臨著媒體內(nèi)容傳播渠道的變化,以及由此帶來的對(duì)視音頻內(nèi)容的海量需求。傳統(tǒng)的媒體機(jī)構(gòu),通過廣播電視等發(fā)布形式在固定的時(shí)間進(jìn)行播出,而互聯(lián)網(wǎng)新媒體,內(nèi)容的發(fā)布是隨時(shí)隨地的,不再受傳統(tǒng)的播出頻道、播出時(shí)間的限制。受眾的觀看渠道、觀看方式也發(fā)生了顯著變化,通過互聯(lián)網(wǎng)獲取新聞資訊已成為占比最高的方式,同時(shí)由于觀眾大多數(shù)通過碎片化時(shí)間觀看,對(duì)短視頻的需求也顯著增加。
3、在互聯(lián)網(wǎng)新媒體飛速發(fā)展的背景下,對(duì)視音頻內(nèi)容的產(chǎn)量和生產(chǎn)效率,都提出了新的要求,但傳統(tǒng)的視音頻內(nèi)容生產(chǎn)方式已經(jīng)難以滿足當(dāng)下的媒體融合發(fā)展的需求,各專業(yè)媒體機(jī)構(gòu)迫切的需要一種快速、高效且能保證內(nèi)容質(zhì)量的新生產(chǎn)工藝,來滿足融合媒體環(huán)境下的內(nèi)容生產(chǎn)需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提出一種基于大語言模型的智能視頻剪輯方法,所述方法基于大語言模型、跨模態(tài)分析等ai技術(shù),實(shí)現(xiàn)從文字稿件自動(dòng)生成專業(yè)媒體內(nèi)容,并結(jié)合視聽語言的特點(diǎn),對(duì)智能匹配的鏡頭進(jìn)行判重、長度優(yōu)化等一系列處理,滿足專業(yè)媒體對(duì)視頻生產(chǎn)在效率和質(zhì)量方面的要求。
2、本發(fā)明是這樣實(shí)現(xiàn)的:一種基于大語言模型的智能視頻剪輯方法,所述方法步驟包括:
3、步驟1,對(duì)素材進(jìn)行跨模態(tài)分析:素材入庫時(shí)自動(dòng)由跨模態(tài)模型、智能語音等ai引擎對(duì)素材進(jìn)行多維度的綜合智能分析;
4、步驟2,從機(jī)構(gòu)資源庫中選擇創(chuàng)作所需的素材或素材組;
5、步驟3,導(dǎo)入文字稿并進(jìn)行改寫和分類:導(dǎo)入視頻文字稿并使用大語言模型進(jìn)行視頻文字稿進(jìn)行改寫成需要的文字稿,并分類標(biāo)注同期聲和正文類型,
6、步驟4,根據(jù)文字稿的不同分類自動(dòng)使用不同的智能匹配模型進(jìn)行鏡頭匹配;
7、步驟5,對(duì)鏡頭的智能匹配結(jié)果進(jìn)行調(diào)整,生成匹配候選鏡頭組:將每一句/段文字的匹配結(jié)果保存為一個(gè)鏡頭組,并按照相似度進(jìn)行排序,定義鏡頭組中的最大鏡頭數(shù)量并將每一組鏡頭中匹配相似度最高的鏡頭作為首選結(jié)果提供給下一步處理;
8、步驟6,生成序列并根據(jù)視聽語言模型進(jìn)行調(diào)整,包括根據(jù)鏡頭匹配結(jié)果中前后鏡頭在原素材中的時(shí)間先后順序,進(jìn)行場景智能合并和使用視聽語言模型來進(jìn)行對(duì)匹配鏡頭結(jié)果的分析和處理;
9、步驟7,生成配合和字幕,并添加配樂;
10、步驟8,完成智能剪輯,進(jìn)行人工校對(duì),以滿足最終發(fā)布的審核要求。
11、進(jìn)一步的,所述步驟1中的綜合智能分析包括:
12、1.1,對(duì)視頻進(jìn)行轉(zhuǎn)場幀檢測,并根據(jù)檢測結(jié)果,將連續(xù)視頻素材拆分為多個(gè)場景片段;
13、1.2,針對(duì)每一個(gè)視頻的場景,進(jìn)行關(guān)鍵幀提??;
14、1.3,關(guān)鍵幀跨模態(tài)檢測、分析;
15、1.4,對(duì)關(guān)鍵幀跨模態(tài)分析,生成向量并保存到索引庫;
16、1.5,進(jìn)行音頻同期聲分析,生成同期聲索引并保存到索引庫。
17、進(jìn)一步的,所述步驟4,對(duì)于標(biāo)記為同期聲的文字內(nèi)容,系統(tǒng)基于對(duì)文字稿件的語義理解,對(duì)同期聲索引進(jìn)行相似度匹配,包括文字稿件與語音識(shí)別的文字結(jié)果不完全相同,以保證稿件中的書面文字與素材采訪、對(duì)話中的口語之間進(jìn)行智能匹配;對(duì)于正文類型,系統(tǒng)基于文字的語義理解,從跨模態(tài)索引庫中,在向量維度將文字與視音頻內(nèi)容進(jìn)行匹配,根據(jù)匹配的比對(duì)結(jié)果,形成相似度數(shù)據(jù),根據(jù)相似度來進(jìn)行鏡頭的智能匹配。
18、進(jìn)一步的,所述步驟6的根據(jù)鏡頭匹配結(jié)果中前后鏡頭在原素材中的時(shí)間先后順序,進(jìn)行場景智能合并方法如下:
19、每一個(gè)鏡頭匹配結(jié)果中包含其原始素材id?clipid、入點(diǎn)in、出點(diǎn)out等信息;
20、假定連續(xù)多句/段同期聲文字的匹配鏡頭結(jié)果分別為?c0、?c1、c2……;其對(duì)應(yīng)的原始素材id分別為clipid1、clipid2、clipid3……,對(duì)應(yīng)的原始素材入點(diǎn)分別為in1、in2、in3……,?對(duì)應(yīng)的原始素材出點(diǎn)分別為out1、out2、out3……;
21、首先對(duì)第一組的兩個(gè)鏡頭c1與c0進(jìn)行素材信息比對(duì),比較兩個(gè)鏡頭對(duì)應(yīng)的原始素材id是否相同;
22、若clipid2與clipid1不同,則兩個(gè)鏡頭匹配結(jié)果來源于不同素材,無需進(jìn)行場景合并,進(jìn)入下一組素材c2與c1比對(duì);
23、若clipid2與clipid1相同,則還需比較兩個(gè)鏡頭的連續(xù)性。比較鏡頭c1的素材入點(diǎn)in2與鏡頭c0的素材出點(diǎn)out1;
24、若in2—out1<t,t為系統(tǒng)預(yù)定義值,則表明第二個(gè)匹配鏡頭結(jié)果與第一個(gè)匹配鏡頭結(jié)果在時(shí)間上具備連續(xù)性,進(jìn)行場景合并;
25、若in2—out1≥?t,t為系統(tǒng)預(yù)定義值,?則表明第二個(gè)匹配鏡頭結(jié)果與第一個(gè)匹配鏡頭結(jié)果在時(shí)間上不具備連續(xù)性,不進(jìn)行場景合并;
26、以此類推,直到最后一個(gè)同期聲匹配鏡頭結(jié)果。
27、進(jìn)一步的,所述步驟6中的使用視聽語言模型來進(jìn)行對(duì)匹配鏡頭結(jié)果的分析和處理方法包括:將每一句/段文字的智能匹配的鏡頭結(jié)果進(jìn)行判重;對(duì)智能匹配的鏡頭結(jié)果進(jìn)行鏡頭長度的處理;對(duì)前后鏡頭的景別、攝法等視聽語音進(jìn)行分析,與視聽語言模型中的蒙太奇句式相匹配;根據(jù)配音或同期聲的音頻長度,對(duì)視頻鏡頭的長度進(jìn)行微調(diào);文稿中的每一句/段文字進(jìn)行了鏡頭匹配之后,將鏡頭匹配的結(jié)果按照文稿或分鏡頭腳本的順序進(jìn)行排列與拼接。
28、進(jìn)一步的,所述步驟7,可通過語音識(shí)別與語音合成引擎,為剪輯結(jié)果的旁白部分生成配音,為正文和同期中的語音,自動(dòng)生成對(duì)白字幕,系統(tǒng)提供的音樂可進(jìn)行情感分類,根據(jù)需要,對(duì)生成的智能剪輯結(jié)果,選擇相對(duì)應(yīng)的情感自動(dòng)添加音樂。
29、進(jìn)一步的,所述最大鏡頭數(shù)量小于等于10。
30、進(jìn)一步的,所述步驟1.4對(duì)關(guān)鍵幀跨模態(tài)分析是:對(duì)視頻內(nèi)容按照每10幀抽取第1幀作為1個(gè)關(guān)鍵幀,對(duì)抽幀之后的關(guān)鍵幀進(jìn)行向量分析,并將前后兩個(gè)關(guān)鍵幀的向量進(jìn)行差值計(jì)算;
31、若每兩個(gè)連續(xù)幀之間的向量差值?均小于預(yù)設(shè)值?,則認(rèn)為該場景無需進(jìn)一步拆分,將分析的每個(gè)關(guān)鍵幀的向量存入索引庫進(jìn)行保存;
32、若前后兩個(gè)連續(xù)關(guān)鍵幀之間的差值大于等于預(yù)設(shè)值?,則增加該兩個(gè)關(guān)鍵幀之間的中間幀該片段中的第6幀作為關(guān)鍵幀,將其分析結(jié)果向量進(jìn)行索引。
33、本發(fā)明的有益效果是:
34、(1)針對(duì)專業(yè)媒體機(jī)構(gòu)的特點(diǎn)而設(shè)計(jì),專業(yè)媒體機(jī)構(gòu)具有大量自有的視音頻素材資源,并建立了自己的機(jī)構(gòu)資源庫?;跈C(jī)構(gòu)資源庫素材進(jìn)行智能剪輯,可保證其生成內(nèi)容的真實(shí)性、可靠性及合法性,同時(shí)避免引用互聯(lián)網(wǎng)素材可能導(dǎo)致的版權(quán)糾紛。
35、(2)采用業(yè)內(nèi)首創(chuàng)的智能剪輯模式,將專業(yè)媒體稿件按照傳統(tǒng)視頻內(nèi)容生產(chǎn)的特點(diǎn),分為正文、同期等不同分類,并根據(jù)不同分類使用不同的ai模型智能匹配,提高智能剪輯的準(zhǔn)確度。
36、(3)對(duì)同期聲匹配,通過大語言模型進(jìn)行語義匹配,保證書面語、口語之間的匹配度。本發(fā)明針對(duì)同期聲進(jìn)行了專門的語義匹配模式設(shè)計(jì),不同于傳統(tǒng)的“文字—語音”匹配模式,對(duì)文字內(nèi)容先由大語言模型進(jìn)行語義理解,然后根據(jù)語義理解的向量與同期聲的音頻向量進(jìn)行匹配,保證了文字到語音的匹配寬容度;對(duì)于專業(yè)媒體機(jī)構(gòu),其稿件往往采用較為正式的書面語,而在采訪和日常對(duì)話中,難免會(huì)出現(xiàn)口語表達(dá),通過語義匹配模式,不但解決了書面語文字到口語語音的匹配難題,還能夠智能判斷前后語句的連貫性,保證通過文字匹配的結(jié)果中盡可能避免畫面的跳變。
37、(4)通過對(duì)同期聲匹配結(jié)果進(jìn)行智能合并算法,對(duì)同期聲智能匹配的鏡頭結(jié)果進(jìn)行了智能場景合并,可有效避免按單獨(dú)的文字進(jìn)行聲音匹配帶來的鏡頭畫面跳變、不連續(xù)等問題。
38、(5)在大語言模型和跨模態(tài)引擎的基礎(chǔ)上進(jìn)行視音頻的智能鏡頭匹配,同時(shí)還融合了視聽語言模型,對(duì)鏡頭之前的前后銜接進(jìn)行了智能化處理,既避免了在同一節(jié)目中使用重復(fù)鏡頭,還可根據(jù)觀眾觀看的習(xí)慣特點(diǎn),綜合鏡頭的時(shí)長、景別、場景等信息,進(jìn)行二次處理,形成最終的智能剪輯結(jié)果。
39、(6)在通過ai智能生成剪輯結(jié)果的同時(shí),還自動(dòng)生成了一系列與該句/段文字內(nèi)容匹配度較高的匹配候選鏡頭組,供編輯人員對(duì)智能編輯結(jié)果進(jìn)行人工的快速調(diào)整與修改。
40、(7)本智能剪輯系統(tǒng)所采用的核心模型大語言模型及跨模態(tài)模型支持本地私有化部署,可保證在進(jìn)行視頻的智能生產(chǎn)創(chuàng)作過程中,原始素材內(nèi)容不會(huì)外流,保證數(shù)據(jù)安全性。
41、本發(fā)明可廣泛應(yīng)用于新媒體短視頻、事件播報(bào)類視頻新聞、電視節(jié)目的二次創(chuàng)作、影視劇的片花和集錦等類型節(jié)目的智能生產(chǎn);通過ai智能技術(shù)的應(yīng)用,為各媒體機(jī)構(gòu)和專業(yè)內(nèi)容生產(chǎn)者提供全新的視頻生產(chǎn)方式,滿足互聯(lián)網(wǎng)時(shí)代,視頻推送制下對(duì)海量視頻內(nèi)容的生產(chǎn)要求。節(jié)省編輯人員瀏覽素材、從素材中挑選所需鏡頭的時(shí)間以及從采訪素材中扒詞、為成片拍唱詞的時(shí)間;借助ai配音,還可省去專業(yè)配音員配音的環(huán)節(jié),大幅度提高事件報(bào)道類內(nèi)容的生產(chǎn)效率。對(duì)于成品節(jié)目的二次創(chuàng)作,本發(fā)明可對(duì)成品節(jié)目進(jìn)行智能分析,選取成片節(jié)目中適合互聯(lián)網(wǎng)平臺(tái)的興趣點(diǎn)進(jìn)行提取和轉(zhuǎn)寫,生成新的短視頻稿件或腳本。并智能生成基于新的興趣點(diǎn)的短視頻版本,滿足面向不同觀眾群體進(jìn)行創(chuàng)作和推送的新需求。