国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種視頻及幻燈片生成方法、電子設(shè)備、存儲(chǔ)介質(zhì)與流程

      文檔序號(hào):40275245發(fā)布日期:2024-12-11 13:09閱讀:7來源:國知局
      一種視頻及幻燈片生成方法、電子設(shè)備、存儲(chǔ)介質(zhì)與流程

      本發(fā)明涉及計(jì)算機(jī),尤其是涉及一種視頻及幻燈片生成方法、電子設(shè)備、存儲(chǔ)介質(zhì)。


      背景技術(shù):

      1、近年來,深度學(xué)習(xí)技術(shù)的飛速發(fā)展使得視頻生成技術(shù)取得了突破性進(jìn)展。特別是在生成式人工智能領(lǐng)域,視頻生成模型的橫空出世,例如:擴(kuò)散模型(diffusion?models),向世界展現(xiàn)了生成式人工智能的巨大應(yīng)用潛力。這種方法已經(jīng)能夠在一定的輸入引導(dǎo)下,自動(dòng)生成逼真的視頻內(nèi)容。這類方法的確為視頻創(chuàng)作帶來了極大的便利,但由于其基于自回歸模型的特性,導(dǎo)致生成結(jié)果在穩(wěn)定性方面有較大不確定性,無法應(yīng)用在實(shí)際場(chǎng)景中。

      2、除了深度學(xué)習(xí)方法外,傳統(tǒng)的視頻生成、編輯技術(shù)多依賴于手動(dòng)操作和編輯(premiere?pro),用戶需要掌握一定的視頻編輯技能才能完成視頻制作。雖然有些自動(dòng)化工具可以生成視頻,但它們通常僅能處理短文本輸入,生成結(jié)果也較為簡(jiǎn)單,無法滿足復(fù)雜視頻制作的需求。

      3、此外,現(xiàn)有的生成系統(tǒng)在處理長(zhǎng)文本輸入時(shí),往往效率不高且生成的視頻質(zhì)量不佳。目前的技術(shù)尚缺乏一種能夠高效處理長(zhǎng)文本輸入并生成較高質(zhì)量視頻的自動(dòng)化系統(tǒng)。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種視頻及幻燈片生成方法、電子設(shè)備、存儲(chǔ)介質(zhì),以解決或部分解決不能輸入長(zhǎng)文本,且現(xiàn)有深度學(xué)習(xí)方法生成視頻隨機(jī)性高與文本內(nèi)容一致性低等的問題。

      2、本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):

      3、本發(fā)明的一個(gè)方面,提供了一種視頻及幻燈片生成方法,包括如下步驟:

      4、步驟s1,響應(yīng)于接收到文件,提取文件中的圖片信息和/或表格信息,通過檢測(cè)得到文件對(duì)應(yīng)的文件類型,基于文件類型對(duì)文件進(jìn)行處理,將文件轉(zhuǎn)化為預(yù)設(shè)形式;

      5、步驟s2,響應(yīng)于接收到故事背景和文本提示詞信息,將形式轉(zhuǎn)化后的文本信息作為大語言模型的輸入,以所述故事背景和文本提示詞信息作為指導(dǎo),通過大語言模型的理解推理生成輕量級(jí)語言文本;

      6、步驟s3,針對(duì)步驟s2得到的輕量級(jí)語言文本,通過轉(zhuǎn)換得到與文本中情緒相對(duì)應(yīng)的語音文件,將所述圖片信息和/或表格信息插入步驟s2得到的輕量級(jí)語言文本中,并轉(zhuǎn)換為幻燈片文件,將所述語音文件和所述幻燈片文件合成得到視頻文件,實(shí)現(xiàn)視頻及幻燈片的生成。

      7、作為優(yōu)選的技術(shù)方案,所述的基于文件類型對(duì)文件進(jìn)行處理,將文件轉(zhuǎn)化為預(yù)設(shè)形式的過程包括如下步驟:

      8、針對(duì)所述文本信息,當(dāng)文件類型為多模態(tài)文本時(shí),通過將結(jié)構(gòu)化文本轉(zhuǎn)換為可擴(kuò)展標(biāo)記語言,通過數(shù)據(jù)清洗剔除無效符號(hào)及內(nèi)容,當(dāng)文件類型為純文本時(shí),通過數(shù)據(jù)清洗剔除無效符號(hào)及內(nèi)容。

      9、作為優(yōu)選的技術(shù)方案,所述的多模態(tài)文本的文件類型包括pdf、html和docx等,所述的純文本的文件類型包括txt和md等。

      10、作為優(yōu)選的技術(shù)方案,所述的故事背景和文本提示詞信息的獲取過程包括如下步驟:

      11、從預(yù)設(shè)的模板庫中獲取指定的預(yù)定義的故事背景和文本提示詞信息,或通過交互獲取用戶自定義的故事背景和文本提示詞信息。

      12、作為優(yōu)選的技術(shù)方案,所述的圖片信息包括圖注和位置,所述的表格信息包括表格標(biāo)題和位置。

      13、作為優(yōu)選的技術(shù)方案,還包括如下步驟:

      14、步驟s4,響應(yīng)于接收到修改指令,通過交互獲取修改后的輕量級(jí)語言文本作為驟s2得到的輕量級(jí)語言文本,執(zhí)行步驟s3。

      15、作為優(yōu)選的技術(shù)方案,所述的步驟s3中,通過計(jì)算輕量級(jí)語言文本與所述圖片信息和/或表格信息的相似度,進(jìn)行文本與圖片和/或表格的匹配,實(shí)現(xiàn)所述圖片信息和/或表格信息的插入。

      16、作為優(yōu)選的技術(shù)方案,所述的步驟s3中,通過語音合成實(shí)現(xiàn)輕量級(jí)語言文本與語音文件的轉(zhuǎn)換。

      17、作為優(yōu)選的技術(shù)方案,針對(duì)專業(yè)人員反饋設(shè)計(jì)的故事背景和提示詞,利用大語言模型進(jìn)行多輪優(yōu)化,得到所述的故事背景和文本提示詞信息。

      18、本發(fā)明的另一個(gè)方面,提供了一種電子設(shè)備,包括:一個(gè)或多個(gè)處理器以及存儲(chǔ)器,所述存儲(chǔ)器內(nèi)儲(chǔ)存有一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行前述視頻及幻燈片生成方法的指令。

      19、本發(fā)明的另一個(gè)方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),包括供電子設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行前述視頻及幻燈片生成方法的指令。

      20、與現(xiàn)有技術(shù)相比,本發(fā)明至少具有以下有益效果之一:

      21、(1)生成的視頻關(guān)聯(lián)程度高:本發(fā)明從結(jié)構(gòu)化文本中自動(dòng)提取圖片和表格,并結(jié)合相似度計(jì)算,將這些元素插入生成的文本和幻燈片中,實(shí)現(xiàn)了圖片和表格的自動(dòng)提取與集成,極大地豐富了視頻和幻燈片內(nèi)容,此外,方法可以生成幻燈片,幻燈片可以展示比視頻更詳細(xì)的內(nèi)容,幫助用戶了解文件更多的細(xì)節(jié)。

      22、(2)靈活性強(qiáng):本發(fā)明基于交互式的視頻生成方法,采用靈活的故事背景和文本提示詞設(shè)計(jì),基礎(chǔ)內(nèi)容創(chuàng)作者可以選擇預(yù)定義的故事背景和文本提示詞,也支持用戶自定義,通過與大語言模型接口進(jìn)行交互生成,這種靈活性使得系統(tǒng)能夠生成更加個(gè)性化和多樣化的視頻內(nèi)容。

      23、(3)生成視頻質(zhì)量高,流程簡(jiǎn)單:本發(fā)明集成語音合成和視頻生成,通過語音合成方法將文本內(nèi)容轉(zhuǎn)換為高質(zhì)量語音,再結(jié)合生成的幻燈片和圖片,自動(dòng)生成高質(zhì)量的視頻內(nèi)容。這種集成化的處理方式簡(jiǎn)化了視頻生成流程,提高了效率和效果。

      24、(4)全流程自動(dòng)化:本發(fā)明從文本處理、圖片和表格提取、語音合成到視頻和幻燈片生成的整個(gè)流程實(shí)現(xiàn)自動(dòng)化,用戶只需進(jìn)行少量的輸入和選擇,即可生成完整的多媒體內(nèi)容。這大大降低了用戶的操作難度和時(shí)間成本。

      25、(5)可個(gè)性化定制:針對(duì)不同用戶,可以根據(jù)其需求,按照自定義或預(yù)設(shè)置的提示詞和故事背景庫對(duì)同一文件生成多種不同長(zhǎng)度的視頻。

      26、(6)方便用戶修改:如果用戶需要對(duì)生成視頻進(jìn)行修改,可通過修改上一輪輸出的文本修改視頻內(nèi)容。



      技術(shù)特征:

      1.一種視頻及幻燈片生成方法,其特征在于,包括如下步驟:

      2.根據(jù)權(quán)利要求1所述的一種視頻及幻燈片生成方法,其特征在于,所述的基于文件類型對(duì)文件進(jìn)行處理,將文件轉(zhuǎn)化為預(yù)設(shè)形式的過程包括如下步驟:

      3.根據(jù)權(quán)利要求2所述的一種視頻及幻燈片生成方法,其特征在于,所述的多模態(tài)文本的文件類型包括pdf、html和docx,所述的純文本的文件類型包括txt和md。

      4.根據(jù)權(quán)利要求1所述的一種視頻及幻燈片生成方法,其特征在于,所述的故事背景和文本提示詞信息的獲取過程包括如下步驟:

      5.根據(jù)權(quán)利要求1所述的一種視頻及幻燈片生成方法,其特征在于,所述的圖片信息包括圖注和位置,所述的表格信息包括表格和位置。

      6.根據(jù)權(quán)利要求1所述的一種視頻及幻燈片生成方法,其特征在于,還包括如下步驟:

      7.根據(jù)權(quán)利要求1所述的一種視頻及幻燈片生成方法,其特征在于,所述的步驟s3中,通過計(jì)算輕量級(jí)語言文本與所述圖片信息和/或表格信息的相似度,進(jìn)行文本與圖片和/或表格的匹配,實(shí)現(xiàn)所述圖片信息和/或表格信息的插入,通過語音合成實(shí)現(xiàn)輕量級(jí)語言文本與語音文件的轉(zhuǎn)換。

      8.根據(jù)權(quán)利要求1所述的一種視頻及幻燈片生成方法,其特征在于,所述的步驟s3中,針對(duì)專業(yè)人員反饋設(shè)計(jì)的故事背景和提示詞,利用大語言模型進(jìn)行多輪優(yōu)化,得到所述的故事背景和文本提示詞信息。

      9.一種電子設(shè)備,其特征在于,包括:一個(gè)或多個(gè)處理器以及存儲(chǔ)器,所述存儲(chǔ)器內(nèi)儲(chǔ)存有一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行如權(quán)利要求1-8任一所述視頻及幻燈片生成方法的指令。

      10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,包括供電子設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行如權(quán)利要求1-8任一所述視頻及幻燈片生成方法的指令。


      技術(shù)總結(jié)
      本發(fā)明涉及一種視頻及幻燈片生成方法、電子設(shè)備、存儲(chǔ)介質(zhì),方法包括:響應(yīng)于接收到文件,提取文件中的圖片信息和/或表格信息,通過檢測(cè)得到文件對(duì)應(yīng)的文件類型,基于文件類型對(duì)文件進(jìn)行處理,將文件轉(zhuǎn)化為預(yù)設(shè)形式;響應(yīng)于接收到故事背景和文本提示詞信息,將形式轉(zhuǎn)化后的文本信息作為大語言模型的輸入,以所述故事背景和文本提示詞信息作為指導(dǎo),生成輕量級(jí)語言文本;針對(duì)得到的輕量級(jí)語言文本,通過轉(zhuǎn)換得到語音文件,將所述圖片信息和/或表格信息插入得到的輕量級(jí)語言文本中,并轉(zhuǎn)換為幻燈片文件,將所述語音文件和所述幻燈片文件合成得到視頻文件,實(shí)現(xiàn)可控視頻生成。與現(xiàn)有技術(shù)相比,本發(fā)明具有生成的視頻關(guān)聯(lián)程度高等優(yōu)點(diǎn)。

      技術(shù)研發(fā)人員:董一英,郭國棟,陳志強(qiáng)
      受保護(hù)的技術(shù)使用者:寧波數(shù)字孿生(東方理工)研究院
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1