本發(fā)明涉及視頻大數(shù)據(jù)推薦,具體為一種視頻大數(shù)據(jù)推薦訓(xùn)練方法、系統(tǒng)、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、視頻推薦是利用人工智能、大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),對海量視頻內(nèi)容進(jìn)行分析和理解,實(shí)現(xiàn)個(gè)性化推薦的,它在智能設(shè)備普及和視頻作為主流交流方式的背景下變得尤為重要,通過基于內(nèi)容、協(xié)同過濾和深度學(xué)習(xí)的算法進(jìn)行精準(zhǔn)推送,整體而言,視頻推薦系統(tǒng)正成為連接用戶與內(nèi)容的重要橋梁,不斷推動信息消費(fèi)模式的創(chuàng)新和發(fā)展。
2、視頻大數(shù)據(jù)推薦即將視頻進(jìn)行分類,打上不同的標(biāo)簽,推薦給喜好此標(biāo)簽的用戶,在相同標(biāo)簽下的視頻內(nèi)容存在質(zhì)量的不同,導(dǎo)致用戶的喜好程度也不同,因此需要對視頻本身與用戶交互數(shù)據(jù)進(jìn)行分析,來評判視頻的好壞,現(xiàn)有的技術(shù)中,通過獲取評論、觀看集、點(diǎn)贊、收藏以及轉(zhuǎn)發(fā)數(shù)據(jù)直接來評判視頻是否進(jìn)行推薦,會存在惡意刷數(shù)據(jù),導(dǎo)致通過評論、觀看集、點(diǎn)贊、收藏以及轉(zhuǎn)發(fā)數(shù)據(jù)推薦的不準(zhǔn)確,例如在申請公布號為cn116992159a的專利申請中,公開了一種內(nèi)容推薦方法與系統(tǒng),該方法在對用戶與視頻的交互信息進(jìn)行采集和計(jì)算的過程中,就只對用戶的點(diǎn)贊量和評論量進(jìn)行直接計(jì)算,缺少對用戶與視頻的交互信息的有效性篩選,并且該推薦方法僅用于給分析的用戶進(jìn)行推薦信息,不能夠?qū)σ曨l本身的熱度進(jìn)行分析;在基于對視頻或新聞信息進(jìn)行熱度評價(jià)和推薦的過程中,現(xiàn)有的分析方法在使用交互信息時(shí),也僅僅是對交互的數(shù)量進(jìn)行直接疊加匯總,例如在申請公開號為cn115964574a的專利申請中,公開了一種基于數(shù)據(jù)挖掘的智慧交通安全輿情熱度評估方法,該方法根據(jù)不同用戶等級為單篇轉(zhuǎn)發(fā)量、單篇評論量、單篇點(diǎn)贊量及情感評分四個(gè)指標(biāo)設(shè)置權(quán)重,對于交互數(shù)據(jù)的有效性沒有進(jìn)行篩選,權(quán)重的設(shè)置過程也較為主觀,權(quán)重的設(shè)置沒有基于網(wǎng)絡(luò)信息本身的瀏覽數(shù)據(jù)進(jìn)行分析,缺少對交互信息有效性的評估,導(dǎo)致視頻本身熱度分析不夠準(zhǔn)確,最終影響推薦的視頻質(zhì)量。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在至少在一定程度上解決現(xiàn)有技術(shù)中的技術(shù)問題之一,通過獲取視頻與用戶的交互數(shù)據(jù)集,分別對交互數(shù)據(jù)中的每個(gè)數(shù)據(jù)進(jìn)行真實(shí)熱度訓(xùn)練,得到相應(yīng)的真實(shí)率并進(jìn)行求和,獲得總體真實(shí)熱度;根據(jù)總體真實(shí)熱度的數(shù)值按照從大到小對視頻進(jìn)行推薦,用于解決現(xiàn)有技術(shù)中通過獲取評論、觀看集、點(diǎn)贊、收藏以及轉(zhuǎn)發(fā)數(shù)據(jù)直接來評判視頻是否進(jìn)行推薦,會存在惡意刷數(shù)據(jù),導(dǎo)致分析的數(shù)據(jù)有效性不足,視頻推薦不準(zhǔn)確的問題。
2、為實(shí)現(xiàn)上述目的,第一方面,本發(fā)明提供一種視頻大數(shù)據(jù)推薦訓(xùn)練方法,包括如下步驟:
3、獲取視頻與用戶的交互數(shù)據(jù)集,交互數(shù)據(jù)集包括:評論數(shù)據(jù)集、觀看數(shù)據(jù)集、點(diǎn)贊數(shù)據(jù)集、收藏?cái)?shù)據(jù)集以及轉(zhuǎn)發(fā)數(shù)據(jù)集;
4、分別對評論數(shù)據(jù)集、觀看數(shù)據(jù)集、點(diǎn)贊數(shù)據(jù)集、收藏?cái)?shù)據(jù)集以及轉(zhuǎn)發(fā)數(shù)據(jù)集進(jìn)行真實(shí)熱度訓(xùn)練,得到相應(yīng)的真實(shí)評論率、真實(shí)觀看率、真實(shí)點(diǎn)贊率、真實(shí)收藏率以及真實(shí)轉(zhuǎn)發(fā)率;
5、將真實(shí)評論率、真實(shí)觀看率、真實(shí)點(diǎn)贊率、真實(shí)收藏率以及真實(shí)轉(zhuǎn)發(fā)率進(jìn)行求和,獲得總體真實(shí)熱度;根據(jù)總體真實(shí)熱度的數(shù)值按照從大到小對視頻進(jìn)行推薦。
6、進(jìn)一步地,對評論數(shù)據(jù)集進(jìn)行真實(shí)熱度訓(xùn)練,得到真實(shí)評論率的過程包括如下子步驟:
7、從評論數(shù)據(jù)集中獲取所有評論;
8、將評論對照ascii編碼表區(qū)獲取純符號的評論字符,然后獲取純符號的評論字符長度,若評論字符長度小于等于兩個(gè)字符,將評論刪除;
9、將對視頻進(jìn)行直接評論的評論設(shè)定為第一級評論,對第一級評論進(jìn)行直接評論的評論設(shè)定為第二級評論,以此類推,對第i-1級評論進(jìn)行直接評論的評論設(shè)定為第i級評論,分別統(tǒng)計(jì)第一級到第i級的評論總量,分別用n1,n2,...,ni表示;
10、對評論進(jìn)行加權(quán)計(jì)算求和,具體公式為:
11、m=n1+a2*n2+a3*n3+...+ai*ni;
12、其中m為真實(shí)熱度評論總數(shù),a2到ai分別為第二級權(quán)重到第i級權(quán)重;
13、獲取觀看視頻的用戶總數(shù)y;
14、計(jì)算出真實(shí)評論率為:m/y。
15、進(jìn)一步地,對評論數(shù)據(jù)集進(jìn)行真實(shí)熱度訓(xùn)練,得到真實(shí)評論率的過程還包括如下子步驟:
16、獲取視頻的標(biāo)簽,選取第一歷史數(shù)量的同類標(biāo)簽的視頻進(jìn)行權(quán)重模擬訓(xùn)練,權(quán)重模擬訓(xùn)練用于通過模擬得到a2到ai,權(quán)重模擬訓(xùn)練包括:
17、統(tǒng)計(jì)第一歷史數(shù)量的同類標(biāo)簽的視頻的評論總數(shù)k,以及評論用戶總數(shù)l;
18、獲取評論用戶平均評論數(shù)為:k/l;
19、統(tǒng)計(jì)第一歷史數(shù)量的同類標(biāo)簽的視頻的第二級評論總數(shù)q2,統(tǒng)計(jì)第二級評論的用戶中與第一級評論的用戶不同的數(shù)量,設(shè)定為第二新增用戶數(shù)w2;
20、計(jì)算第二級用戶評論比例w2/q2;
21、通過公式計(jì)算第二級權(quán)重為a2=(k/l)*(w2/q2);
22、同理,統(tǒng)計(jì)第一歷史數(shù)量的同類標(biāo)簽的視頻的第i級評論總數(shù)qi,統(tǒng)計(jì)第i級評論的用戶中與第一級評論至第i-1級評論的用戶不同的數(shù)量,設(shè)定為第i新增用戶數(shù)wi;
23、計(jì)算第i級用戶評論比例wi/qi;
24、通過公式計(jì)算第i級權(quán)重為ai=(k/l)*(wi/qi);
25、則m中的各項(xiàng)權(quán)重?cái)?shù)據(jù)為:a2=(k/l)*(w2/q2),a3=(k/l)*(w3/q3),...,ai=(k/l)*(wi/qi);
26、每新增第一歷史數(shù)量的同類標(biāo)簽的視頻,將新增的第一歷史數(shù)量的同類標(biāo)簽的視頻重新通過權(quán)重模擬訓(xùn)練更新一次a2至ai。
27、進(jìn)一步地,對評論數(shù)據(jù)集進(jìn)行真實(shí)熱度訓(xùn)練,得到真實(shí)評論率的過程包括如下子步驟:
28、從觀看數(shù)據(jù)集中獲取視頻的總時(shí)長tz、每個(gè)用戶的觀看總時(shí)長tgz、用戶快進(jìn)的倍速vb以及相應(yīng)倍速下的觀看時(shí)長tb;
29、計(jì)算每個(gè)用戶的真實(shí)觀看時(shí)長為:(tgz-tb)+vb*tb;
30、將所有用戶的真實(shí)觀看時(shí)長求取平均值,標(biāo)記為平均用戶觀看時(shí)長tpg;
31、計(jì)算出真實(shí)觀看率為:tpg/tz。
32、進(jìn)一步地,對點(diǎn)贊數(shù)據(jù)集進(jìn)行真實(shí)熱度訓(xùn)練,得到真實(shí)點(diǎn)贊率的過程包括如下子步驟:
33、從點(diǎn)贊數(shù)據(jù)集中獲取對視頻點(diǎn)贊數(shù)dz;獲取點(diǎn)贊的用戶的真實(shí)觀看時(shí)長,設(shè)定為點(diǎn)贊用戶的真實(shí)觀看時(shí)長tdz;
34、將tz乘以第一比例得到有效觀看時(shí)長;
35、當(dāng)tdz小于有效觀看時(shí)長,刪除該點(diǎn)贊用戶的點(diǎn)贊數(shù),得到篩選點(diǎn)贊數(shù)dsz;
36、計(jì)算出真實(shí)點(diǎn)贊率為:dsz/y。
37、進(jìn)一步地,對收藏?cái)?shù)據(jù)集進(jìn)行真實(shí)熱度訓(xùn)練,得到真實(shí)收藏率的過程包括如下子步驟:
38、從收藏?cái)?shù)據(jù)集中獲取對視頻收藏?cái)?shù)sz;獲取的收藏的用戶的真實(shí)觀看時(shí)長,設(shè)定為收藏用戶的真實(shí)觀看時(shí)長tsc;
39、當(dāng)tsc小于有效觀看時(shí)長,刪除該收藏用戶的收藏?cái)?shù),得到篩選收藏?cái)?shù)ssz;
40、計(jì)算出真實(shí)收藏率:ssz/y。進(jìn)一步地,
41、進(jìn)一步地,對轉(zhuǎn)發(fā)數(shù)據(jù)集進(jìn)行真實(shí)熱度訓(xùn)練,得到真實(shí)轉(zhuǎn)發(fā)率的過程包括如下子步驟:
42、從轉(zhuǎn)發(fā)數(shù)據(jù)集中獲取對視頻轉(zhuǎn)發(fā)數(shù)zz;獲取的轉(zhuǎn)發(fā)的用戶的真實(shí)觀看時(shí)長,設(shè)定為轉(zhuǎn)發(fā)用戶的真實(shí)觀看時(shí)長tzf;
43、當(dāng)tzf小于有效觀看時(shí)長,刪除該轉(zhuǎn)發(fā)用戶的所有轉(zhuǎn)發(fā)數(shù),得到篩選轉(zhuǎn)發(fā)數(shù)zsz;
44、計(jì)算出真實(shí)轉(zhuǎn)發(fā)率:zsz/y;
45、第二方面,本發(fā)明提供一種視頻大數(shù)據(jù)推薦訓(xùn)練系統(tǒng),包括:數(shù)據(jù)獲取模塊、真實(shí)熱度訓(xùn)練模塊以及視頻推薦模塊;
46、所述數(shù)據(jù)獲取模塊用于獲取視頻與用戶的交互數(shù)據(jù)集,交互數(shù)據(jù)集包括:評論數(shù)據(jù)集、觀看數(shù)據(jù)集、點(diǎn)贊數(shù)據(jù)集、收藏?cái)?shù)據(jù)集以及轉(zhuǎn)發(fā)數(shù)據(jù)集;
47、所述真實(shí)熱度訓(xùn)練模塊用于分別對評論數(shù)據(jù)集、觀看數(shù)據(jù)集、點(diǎn)贊數(shù)據(jù)集、收藏?cái)?shù)據(jù)集以及轉(zhuǎn)發(fā)數(shù)據(jù)集進(jìn)行真實(shí)熱度訓(xùn)練,得到相應(yīng)的真實(shí)評論率、真實(shí)觀看率、真實(shí)點(diǎn)贊率、真實(shí)收藏率以及真實(shí)轉(zhuǎn)發(fā)率;
48、所述視頻推薦模塊將真實(shí)評論率、真實(shí)觀看率、真實(shí)點(diǎn)贊率、真實(shí)收藏率以及真實(shí)轉(zhuǎn)發(fā)率進(jìn)行求和,獲得總體真實(shí)熱度;根據(jù)總體真實(shí)熱度的數(shù)值按照從大到小對視頻進(jìn)行推薦。
49、第三方面,本發(fā)明提供一種電子設(shè)備,包括處理器以及存儲器,所述存儲器存儲有計(jì)算機(jī)可讀取指令,當(dāng)所述計(jì)算機(jī)可讀取指令由所述處理器執(zhí)行時(shí),運(yùn)行如上述方法中的步驟。
50、第四方面,本發(fā)明提供一種存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),運(yùn)行如上述方法中的步驟。
51、本發(fā)明的有益效果:本發(fā)明通過獲取視頻與用戶的交互數(shù)據(jù)集,分別對交互數(shù)據(jù)中的評論數(shù)據(jù)集、觀看數(shù)據(jù)集、點(diǎn)贊數(shù)據(jù)集、收藏?cái)?shù)據(jù)集以及轉(zhuǎn)發(fā)數(shù)據(jù)集進(jìn)行真實(shí)熱度訓(xùn)練,得到相應(yīng)的真實(shí)率并進(jìn)行求和,獲得總體真實(shí)熱度;根據(jù)總體真實(shí)熱度的數(shù)值按照從大到小對視頻進(jìn)行推薦,單一真實(shí)熱度高并不能代表視頻的好,該設(shè)計(jì)能夠分別對交互數(shù)據(jù)進(jìn)行訓(xùn)練然后結(jié)合相應(yīng)的真實(shí)率,對視頻熱度推薦有個(gè)整體的熱度判斷,訓(xùn)練中剔除數(shù)據(jù)中無效數(shù)據(jù)以及刷熱度的數(shù)據(jù),根據(jù)有效數(shù)據(jù)進(jìn)行視頻推薦。
52、本發(fā)明通過獲取視頻的標(biāo)簽,選取第一歷史數(shù)量的同類標(biāo)簽的視頻進(jìn)行權(quán)重模擬訓(xùn)練,權(quán)重模擬訓(xùn)練用于通過模擬得到a2到ai,該設(shè)計(jì)能夠通過歷史數(shù)據(jù)進(jìn)行權(quán)重模擬訓(xùn)練使數(shù)據(jù)權(quán)重更加準(zhǔn)確且具有普遍性。
53、本發(fā)明通過從觀看數(shù)據(jù)集中獲取視頻的總時(shí)長tz、每個(gè)用戶的觀看總時(shí)長tgz、用戶快進(jìn)的倍速vb以及相應(yīng)倍速下的觀看時(shí)長tb,計(jì)算每個(gè)用戶的真實(shí)觀看時(shí)長為:(tgz-tb)+vb*tb,該設(shè)計(jì)能夠防止用戶使用在倍速觀看下,卻使用單一的用戶觀看時(shí)長來判斷視頻是否達(dá)到有效觀看時(shí)長,導(dǎo)致真實(shí)觀看時(shí)長的統(tǒng)計(jì)有效性不足的問題。