本技術(shù)涉及人工智能開(kāi)發(fā)與金融科技領(lǐng)域,尤其涉及基于人工智能的封面生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著人工智能生成內(nèi)容技術(shù)的飛速發(fā)展,數(shù)字創(chuàng)意產(chǎn)業(yè)迎來(lái)了前所未有的變革。在這一浪潮中,文本、圖像乃至視頻內(nèi)容的自動(dòng)化生成已成為現(xiàn)實(shí),極大地豐富了互聯(lián)網(wǎng)上的多媒體資源。尤其值得注意的是,短視頻作為當(dāng)前最為流行的內(nèi)容形式之一,其創(chuàng)作與消費(fèi)均呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì)。為了適應(yīng)快節(jié)奏的生活方式和碎片化的信息獲取習(xí)慣,大量長(zhǎng)視頻內(nèi)容被重新剪輯成短視頻,以滿足用戶在有限時(shí)間內(nèi)高效獲取信息的需求。
2、然而,在視頻內(nèi)容的制作與傳播過(guò)程中,視頻封面作為吸引觀眾點(diǎn)擊觀看的第一印象,其重要性不言而喻。傳統(tǒng)的視頻封面生成方式高度依賴(lài)于人工挑選。具體而言,人工挑選封面需要視頻制作者反復(fù)瀏覽視頻內(nèi)容,從中挑選出最具代表性或吸引力的畫(huà)面作為封面,這一過(guò)程需要不僅耗時(shí)耗力,效率低下,還容易因個(gè)人審美差異而導(dǎo)致封面選擇的不一致性,難以保證封面選擇的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的目的在于提出一種基于人工智能的封面生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),以解決現(xiàn)有的視頻封面生成方式高度依賴(lài)于人工挑選,不僅耗時(shí)耗力,效率低下,還容易因個(gè)人審美差異而導(dǎo)致封面選擇的不一致性,難以保證封面選擇的準(zhǔn)確性的技術(shù)問(wèn)題。
2、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例提供一種基于人工智能的封面生成方法,采用了如下所述的技術(shù)方案:
3、獲取待處理的目標(biāo)視頻,并對(duì)所述目標(biāo)視頻進(jìn)行抽幀處理得到對(duì)應(yīng)的圖像幀;其中,所述圖像幀的數(shù)量包括多個(gè);
4、基于預(yù)設(shè)的圖文理解模型中的圖像編碼器對(duì)所述圖像幀進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)圖像特征;
5、基于所述圖文理解模型中的全連接層對(duì)所述目標(biāo)圖像特征進(jìn)行處理,得到對(duì)應(yīng)的圖像質(zhì)量評(píng)分;
6、獲取與所述目標(biāo)視頻對(duì)應(yīng)的文本信息,并基于所述文本信息構(gòu)建查詢(xún)文本;
7、基于所述圖文理解模型中的文本編碼器對(duì)所述查詢(xún)文本進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)文本特征;
8、計(jì)算所述目標(biāo)圖像特征與所述目標(biāo)文本特征之間的語(yǔ)義匹配度;
9、基于所述圖像質(zhì)量評(píng)分與所述語(yǔ)義匹配度生成所述圖像幀的封面得分;
10、從所有所述圖像幀中篩選出封面得分最高的目標(biāo)圖像幀,并將所述目標(biāo)圖像幀作為所述目標(biāo)視頻的封面。
11、進(jìn)一步的,所述基于所述圖文理解模型中的全連接層對(duì)所述目標(biāo)圖像特征進(jìn)行處理,得到對(duì)應(yīng)的圖像質(zhì)量評(píng)分的步驟,具體包括:
12、基于所述全連接層對(duì)所述目標(biāo)圖像特征進(jìn)行預(yù)測(cè)處理,得到對(duì)應(yīng)的清晰度預(yù)測(cè)值與壓縮比預(yù)測(cè)值;
13、對(duì)所述清晰度預(yù)測(cè)值與所述壓縮比預(yù)測(cè)值進(jìn)行歸一化處理,得到對(duì)應(yīng)的指定清晰度預(yù)測(cè)值與指定壓縮比預(yù)測(cè)值;
14、調(diào)用預(yù)設(shè)的轉(zhuǎn)換公式;
15、基于所述轉(zhuǎn)換公式對(duì)所述指定清晰度預(yù)測(cè)值與所述指定壓縮比預(yù)測(cè)值進(jìn)行計(jì)算處理,得到對(duì)應(yīng)的計(jì)算結(jié)果;
16、將所述計(jì)算結(jié)果作為所述圖像質(zhì)量評(píng)分。
17、進(jìn)一步的,所述計(jì)算所述目標(biāo)圖像特征與所述目標(biāo)文本特征之間的語(yǔ)義匹配度的步驟,具體包括:
18、調(diào)用預(yù)設(shè)的相似度算法;
19、基于所述相似度算法計(jì)算所述目標(biāo)圖像特征與所述目標(biāo)文本特征之間的相似度;
20、將所述相似度作為所述語(yǔ)義匹配度。
21、進(jìn)一步的,所述基于所述圖像質(zhì)量評(píng)分與所述語(yǔ)義匹配度生成所述圖像幀的封面得分的步驟,具體包括:
22、獲取預(yù)設(shè)的權(quán)重確定算法;
23、基于所述權(quán)重確定算法生成與圖像質(zhì)量因素對(duì)應(yīng)的第一權(quán)重,以及生成與語(yǔ)義匹配度因素對(duì)應(yīng)的第二權(quán)重;
24、調(diào)用預(yù)設(shè)的得分計(jì)算公式;
25、基于所述得分計(jì)算公式對(duì)所述圖像質(zhì)量評(píng)分、所述語(yǔ)義匹配度、所述第一權(quán)重以及所述第二權(quán)重進(jìn)行處理,得到所述圖像幀的封面得分。
26、進(jìn)一步的,在所述基于預(yù)設(shè)的圖文理解模型中的圖像編碼器對(duì)所述圖像幀進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)圖像特征的步驟之前,還包括:
27、獲取預(yù)先構(gòu)建的預(yù)訓(xùn)練數(shù)據(jù)集,以及獲取預(yù)先構(gòu)建的微調(diào)數(shù)據(jù)集;
28、將所述預(yù)訓(xùn)練數(shù)據(jù)集劃分為多個(gè)批次的圖文對(duì)數(shù)據(jù);
29、調(diào)用預(yù)設(shè)的多模態(tài)學(xué)習(xí)模型,并將所述圖文對(duì)數(shù)據(jù)輸入至所述多模態(tài)學(xué)習(xí)模型內(nèi)得到對(duì)應(yīng)的特征數(shù)據(jù);其中,所述多模態(tài)學(xué)習(xí)模型至少包括圖像編碼器、文本編碼器以及全連接層;
30、基于所述特征數(shù)據(jù)計(jì)算回歸損失,以及基于所述特征數(shù)據(jù)計(jì)算對(duì)比損失;
31、基于所述回歸損失與所述對(duì)比損失構(gòu)建綜合損失;
32、基于所述綜合損失對(duì)所述多模態(tài)學(xué)習(xí)模型進(jìn)行訓(xùn)練處理,直至符合預(yù)設(shè)的訓(xùn)練批次,得到對(duì)應(yīng)的第一學(xué)習(xí)模型;
33、基于預(yù)設(shè)的訓(xùn)練策略,使用所述微調(diào)數(shù)據(jù)集對(duì)所述第一學(xué)習(xí)模型進(jìn)行微調(diào)處理,得到滿足預(yù)期構(gòu)建條件的第二學(xué)習(xí)模型;
34、將所述第二學(xué)習(xí)模型作為所述圖文理解模型。
35、進(jìn)一步的,所述獲取預(yù)先構(gòu)建的預(yù)訓(xùn)練數(shù)據(jù)集的步驟,具體包括:
36、從目標(biāo)網(wǎng)站上獲取指定數(shù)量的圖像數(shù)據(jù);
37、基于預(yù)設(shè)的圖像降質(zhì)算法對(duì)所述圖像數(shù)據(jù)進(jìn)行預(yù)處理,得到對(duì)應(yīng)的指定圖像數(shù)據(jù);
38、生成與所述指定圖像數(shù)據(jù)對(duì)應(yīng)的文本標(biāo)簽;
39、基于所述指定圖像數(shù)據(jù)與所述文本標(biāo)簽生成所述預(yù)訓(xùn)練數(shù)據(jù)集。
40、進(jìn)一步的,所述基于所述特征數(shù)據(jù)計(jì)算回歸損失的步驟,具體包括:
41、從所述特征數(shù)據(jù)中獲取圖像特征;
42、基于所述全連接層生成與所述圖像特征對(duì)應(yīng)的預(yù)測(cè)值;
43、獲取與所述圖像特征對(duì)應(yīng)的真實(shí)值;
44、計(jì)算所述真實(shí)值與所述預(yù)測(cè)值之間的歐幾里得距離;
45、將所述歐幾里得距離作為所述回歸損失。
46、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供一種基于人工智能的封面生成裝置,采用了如下所述的技術(shù)方案:
47、第一處理模塊,用于獲取待處理的目標(biāo)視頻,并對(duì)所述目標(biāo)視頻進(jìn)行抽幀處理得到對(duì)應(yīng)的圖像幀;其中,所述圖像幀的數(shù)量包括多個(gè);
48、第二處理模塊,用于基于預(yù)設(shè)的圖文理解模型中的圖像編碼器對(duì)所述圖像幀進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)圖像特征;
49、第三處理模塊,用于基于所述圖文理解模型中的全連接層對(duì)所述目標(biāo)圖像特征進(jìn)行處理,得到對(duì)應(yīng)的圖像質(zhì)量評(píng)分;
50、第一構(gòu)建模塊,用于獲取與所述目標(biāo)視頻對(duì)應(yīng)的文本信息,并基于所述文本信息構(gòu)建查詢(xún)文本;
51、第四處理模塊,用于基于所述圖文理解模型中的文本編碼器對(duì)所述查詢(xún)文本進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)文本特征;
52、第一計(jì)算模塊,用于計(jì)算所述目標(biāo)圖像特征與所述目標(biāo)文本特征之間的語(yǔ)義匹配度;
53、生成模塊,用于基于所述圖像質(zhì)量評(píng)分與所述語(yǔ)義匹配度生成所述圖像幀的封面得分;
54、第一確定模塊,用于從所有所述圖像幀中篩選出封面得分最高的目標(biāo)圖像幀,并將所述目標(biāo)圖像幀作為所述目標(biāo)視頻的封面。
55、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:
56、獲取待處理的目標(biāo)視頻,并對(duì)所述目標(biāo)視頻進(jìn)行抽幀處理得到對(duì)應(yīng)的圖像幀;其中,所述圖像幀的數(shù)量包括多個(gè);
57、基于預(yù)設(shè)的圖文理解模型中的圖像編碼器對(duì)所述圖像幀進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)圖像特征;
58、基于所述圖文理解模型中的全連接層對(duì)所述目標(biāo)圖像特征進(jìn)行處理,得到對(duì)應(yīng)的圖像質(zhì)量評(píng)分;
59、獲取與所述目標(biāo)視頻對(duì)應(yīng)的文本信息,并基于所述文本信息構(gòu)建查詢(xún)文本;
60、基于所述圖文理解模型中的文本編碼器對(duì)所述查詢(xún)文本進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)文本特征;
61、計(jì)算所述目標(biāo)圖像特征與所述目標(biāo)文本特征之間的語(yǔ)義匹配度;
62、基于所述圖像質(zhì)量評(píng)分與所述語(yǔ)義匹配度生成所述圖像幀的封面得分;
63、從所有所述圖像幀中篩選出封面得分最高的目標(biāo)圖像幀,并將所述目標(biāo)圖像幀作為所述目標(biāo)視頻的封面。
64、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),采用了如下所述的技術(shù)方案:
65、獲取待處理的目標(biāo)視頻,并對(duì)所述目標(biāo)視頻進(jìn)行抽幀處理得到對(duì)應(yīng)的圖像幀;其中,所述圖像幀的數(shù)量包括多個(gè);
66、基于預(yù)設(shè)的圖文理解模型中的圖像編碼器對(duì)所述圖像幀進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)圖像特征;
67、基于所述圖文理解模型中的全連接層對(duì)所述目標(biāo)圖像特征進(jìn)行處理,得到對(duì)應(yīng)的圖像質(zhì)量評(píng)分;
68、獲取與所述目標(biāo)視頻對(duì)應(yīng)的文本信息,并基于所述文本信息構(gòu)建查詢(xún)文本;
69、基于所述圖文理解模型中的文本編碼器對(duì)所述查詢(xún)文本進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)文本特征;
70、計(jì)算所述目標(biāo)圖像特征與所述目標(biāo)文本特征之間的語(yǔ)義匹配度;
71、基于所述圖像質(zhì)量評(píng)分與所述語(yǔ)義匹配度生成所述圖像幀的封面得分;
72、從所有所述圖像幀中篩選出封面得分最高的目標(biāo)圖像幀,并將所述目標(biāo)圖像幀作為所述目標(biāo)視頻的封面。
73、與現(xiàn)有技術(shù)相比,本技術(shù)實(shí)施例主要有以下有益效果:
74、本技術(shù)首先獲取待處理的目標(biāo)視頻,并對(duì)所述目標(biāo)視頻進(jìn)行抽幀處理得到對(duì)應(yīng)的圖像幀;其中,所述圖像幀的數(shù)量包括多個(gè);然后基于預(yù)設(shè)的圖文理解模型中的圖像編碼器對(duì)所述圖像幀進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)圖像特征;并基于所述圖文理解模型中的全連接層對(duì)所述目標(biāo)圖像特征進(jìn)行處理,得到對(duì)應(yīng)的圖像質(zhì)量評(píng)分;之后獲取與所述目標(biāo)視頻對(duì)應(yīng)的文本信息,并基于所述文本信息構(gòu)建查詢(xún)文本;后續(xù)基于所述圖文理解模型中的文本編碼器對(duì)所述查詢(xún)文本進(jìn)行處理,得到對(duì)應(yīng)的目標(biāo)文本特征;進(jìn)一步計(jì)算所述目標(biāo)圖像特征與所述目標(biāo)文本特征之間的語(yǔ)義匹配度;最后基于所述圖像質(zhì)量評(píng)分與所述語(yǔ)義匹配度生成所述圖像幀的封面得分,并從所有所述圖像幀中篩選出封面得分最高的目標(biāo)圖像幀,進(jìn)而將所述目標(biāo)圖像幀作為所述視頻的封面。本技術(shù)通過(guò)獲取待處理的目標(biāo)視頻,并對(duì)所述目標(biāo)視頻進(jìn)行抽幀處理得到對(duì)應(yīng)的圖像幀,然后基于圖文理解模型的使用對(duì)圖像幀進(jìn)行圖像質(zhì)量分析以得到相應(yīng)的圖像質(zhì)量評(píng)分,并會(huì)同時(shí)獲取與所述目標(biāo)視頻對(duì)應(yīng)的文本信息,并基于所述文本信息構(gòu)建查詢(xún)文本,之后基于圖文理解模型的使用對(duì)查詢(xún)文本與圖像幀進(jìn)行語(yǔ)義匹配處理以得到相應(yīng)的語(yǔ)義匹配度,后續(xù)基于所述圖像質(zhì)量評(píng)分與所述語(yǔ)義匹配度生成所述圖像幀的封面得分,最后從所有所述圖像幀中篩選出封面得分最高的目標(biāo)圖像幀,并將所述目標(biāo)圖像幀作為所述目標(biāo)視頻的封面,以實(shí)現(xiàn)自動(dòng)快速且準(zhǔn)確地生成目標(biāo)視頻的封面,避免了人工挑選封面的操作,有效地提高了封面生成的效率,保證了封面生成的準(zhǔn)確性。