本發(fā)明涉及人工智能,尤其涉及一種融合多模態(tài)數(shù)據(jù)基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的短視頻推薦方法和系統(tǒng)。
背景技術(shù):
1、最初,短視頻推薦的研究主要關(guān)注傳統(tǒng)的推薦系統(tǒng)方法,如協(xié)同過濾和內(nèi)容過濾,在短視頻推薦領(lǐng)域忽視了用戶與短視頻之間的復(fù)雜關(guān)系,難以揭示潛在用戶興趣與短視頻相關(guān)性。隨著圖神經(jīng)網(wǎng)絡(luò)的興起,研究者開始將其引入短視頻推薦中,這種新思路更好地建模了用戶與短視頻之間的關(guān)系網(wǎng)絡(luò)。圖神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)節(jié)點和邊的表示來捕捉圖中的復(fù)雜關(guān)系和潛在模式,從而提高了短視頻推薦的準(zhǔn)確性和個性化程度。近年來,隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,圖神經(jīng)網(wǎng)絡(luò)在短視頻推薦領(lǐng)域得到了廣泛應(yīng)用,通過深度學(xué)習(xí)訓(xùn)練的圖神經(jīng)網(wǎng)絡(luò)模型能更好地學(xué)習(xí)用戶和短視頻的表示。當(dāng)前,學(xué)者們正致力于進(jìn)一步探索圖神經(jīng)網(wǎng)絡(luò)在短視頻推薦領(lǐng)域的應(yīng)用,包括修改模型結(jié)構(gòu)、引入注意力機制等方法,以提升模型性能和效率。同時,他們還將短視頻推薦與其他領(lǐng)域相結(jié)合,如在短視頻的特征表示方面融合多種模態(tài)數(shù)據(jù),以充分表達(dá)其中潛在特征;在用戶特征表示方面,通過分析用戶的多種交互行為(如滑動、點贊、收藏)來挖掘用戶更深層次的偏好,實現(xiàn)更加精準(zhǔn)和個性化的推薦。
2、綜上所述,利用異構(gòu)圖神經(jīng)網(wǎng)絡(luò)分析用戶興趣偏好的技術(shù)經(jīng)歷了從傳統(tǒng)推薦系統(tǒng)到引入圖神經(jīng)網(wǎng)絡(luò),并結(jié)合深度學(xué)習(xí)、多模態(tài)等技術(shù)的發(fā)展,為短視頻推薦提供了更準(zhǔn)確和個性化的解決方案。未來,這一技術(shù)有望進(jìn)一步推動短視頻推薦系統(tǒng)領(lǐng)域的發(fā)展。
3、目前,短視頻推薦算法主要基于圖神經(jīng)網(wǎng)絡(luò)(graph?neural?networks,gnn)建模用戶和視頻之間復(fù)雜的交互關(guān)系,學(xué)習(xí)用戶-項目節(jié)點的高階聯(lián)系去豐富節(jié)點表示。盡管目前已經(jīng)有一些研究嘗試引入多模態(tài)信息(如文本、圖像、音頻等)來提升推薦效果,但大多數(shù)方法仍然采用簡單的多模態(tài)特征相加的方式,缺乏對不同模態(tài)之間關(guān)聯(lián)的深入挖掘。同時,現(xiàn)有的短視頻推薦算法往往忽略了用戶的多種交互行為(如瀏覽、點贊、收藏等)中潛在的興趣特征,導(dǎo)致推薦結(jié)果的局限性。
技術(shù)實現(xiàn)思路
1、本發(fā)明針對上述問題,提出一種融合多模態(tài)數(shù)據(jù)基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的短視頻推薦方法和系統(tǒng),通過融合短視頻的多種模態(tài)特征,并挖掘用戶多種交互行為以及時間上下文中潛在的興趣特征,最終利用異構(gòu)圖神經(jīng)網(wǎng)絡(luò)來分析用戶的偏好。本發(fā)明能夠更準(zhǔn)確地為用戶提供感興趣的短視頻內(nèi)容,從而使用戶停留時間更長。
2、為了實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、本發(fā)明一方面提出一種融合多模態(tài)數(shù)據(jù)基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的短視頻推薦方法,包括:
4、步驟1:收集短視頻平臺上多種用戶交互行為數(shù)據(jù),同時收集多模態(tài)數(shù)據(jù);并將得到的用戶交互行為分解成會話序列;所述用戶交互行為包括觀看、點贊、收藏行為;所述多模態(tài)數(shù)據(jù)包括短視頻內(nèi)容數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù);
5、步驟2:根據(jù)會話序列構(gòu)建異構(gòu)圖gn=(v,s,u,ev,e),其中v表示短視頻節(jié)點集,s表示會話節(jié)點集,u表示用戶節(jié)點集,ev表示短視頻之間的轉(zhuǎn)換關(guān)系集,e表示短視頻與會話、短視頻與用戶、用戶與會話的關(guān)系集;構(gòu)建多行為異構(gòu)圖其中表示用戶節(jié)點集,表示短視頻節(jié)點集,ε表示和之間的交互行為集;并按照交互行為類型將多行為異構(gòu)圖分割為多個行為子圖;
6、步驟3:通過圖注意力網(wǎng)絡(luò)對異構(gòu)圖gn中短視頻節(jié)點的異構(gòu)鄰居動態(tài)的進(jìn)行采樣,為每個短視頻節(jié)點選擇所有類型和相同數(shù)量的異構(gòu)鄰居;然后設(shè)計基于gru的異構(gòu)內(nèi)容編碼器聚合短視頻節(jié)點的異構(gòu)鄰居信息,融合不同模態(tài)特征,得到短視頻節(jié)點的初始嵌入表示;
7、步驟4:使用gru聚合得到的短視頻節(jié)點的初始嵌入表示,結(jié)合注意力機制,得到短視頻節(jié)點的最終嵌入表示,進(jìn)而得到初始會話嵌入表示,引入時間上下文信息,并結(jié)合軟注意力機制,得到最終的會話嵌入表示;
8、步驟5:基于gnn構(gòu)建多行為圖感知網(wǎng)絡(luò),以捕獲節(jié)點和行為之間的協(xié)同信號;所述多行為圖感知網(wǎng)絡(luò)包括特定于行為的嵌入傳播層和跨行為依賴建模模塊;將多個行為子圖輸入構(gòu)建的多行為圖感知網(wǎng)絡(luò),得到加入行為嵌入后的用戶表示;
9、步驟6:通過圖對比學(xué)習(xí),結(jié)合構(gòu)建的對比損失函數(shù),對得出的加入行為嵌入后的用戶表示進(jìn)行增強;
10、步驟7:對最終的會話嵌入表示和增強后的用戶表示進(jìn)行拼接,將拼接后的特征輸入因子分解機,得到對應(yīng)的預(yù)測評分,按照預(yù)測評分對用戶進(jìn)行短視頻推薦。
11、進(jìn)一步地,所述步驟3中,按照以下方式為每個短視頻節(jié)點選擇所有類型和相同數(shù)量的異構(gòu)鄰居:
12、對于所有短視頻節(jié)點,從每個短視頻節(jié)點開始隨機游走,在隨機游走的過程中,根據(jù)注意力權(quán)重以動態(tài)的概率迭代地移動到當(dāng)前節(jié)點的鄰居,控制每種類型節(jié)點游走的數(shù)量,保證隨機游走時得到所有類型的節(jié)點,并將所有游走的節(jié)點存儲在一個列表中;
13、對所述列表中的所有節(jié)點進(jìn)行分類,并為每個模態(tài)選擇相同數(shù)量的節(jié)點作為短視頻節(jié)點的異構(gòu)鄰居。
14、進(jìn)一步地,所述短視頻節(jié)點的初始嵌入表示為:
15、
16、其中是短視頻節(jié)點v的初始嵌入表示,d為節(jié)點嵌入的維度;為線性變換層;是連接運算;x是多種模態(tài)的集合,at是模態(tài)t的注意力權(quán)重,和表示雙向的gru。
17、進(jìn)一步地,所述步驟4中,按照以下方式聚合得到的短視頻節(jié)點的初始嵌入表示:
18、
19、其中,ft(v)是節(jié)點類型t下短視頻節(jié)點v的嵌入表示,nt(v)表示短視頻節(jié)點v的t型鄰域集,f(v)是短視頻節(jié)點v的初始嵌入表示。
20、進(jìn)一步地,所述步驟4中,按照以下方式得到短視頻節(jié)點的最終嵌入表示:
21、
22、式中
23、
24、其中,εv表示短視頻節(jié)點v的最終嵌入表示,av,t表示節(jié)點類型t對短視頻節(jié)點v的重要性,u是注意力參數(shù),ft表示節(jié)點類型t對節(jié)點v的重要性,fj是節(jié)點嵌入表示。
25、進(jìn)一步地,所述步驟4中,按照以下方式得到最終的會話嵌入表示:
26、
27、式中
28、sl=νs,n
29、
30、其中,sh表示最終的會話嵌入表示,sl是最后一次會話的局部嵌入,sg是全局會話嵌入,av是不同嵌入表示的注意力權(quán)重,νs,n是當(dāng)前會話中的最后一個短視頻的嵌入向量,w,w1,w2是用于生成會話嵌入的權(quán)重,σ表示sigmoid函數(shù),c是一個偏置項。
31、進(jìn)一步地,所述特定于行為的嵌入傳播層中,按照以下方式進(jìn)行消息傳遞:
32、
33、其中,表示用戶節(jié)點u在第i+1嵌入傳播層行為k下的嵌入,leakyrelu是整流線性單元的優(yōu)化版本,mean是取均值函數(shù),是行為k下u的近鄰集,w(i)是特定于層的參數(shù),⊙表示兩個向量的元素乘積,表示在第i嵌入傳播層中行為k的持續(xù)時間因素嵌入,表示在第i層中行為k下的所有用戶節(jié)點的嵌入,表示在第i+1嵌入傳播層中行為k下的所有用戶節(jié)點的嵌入,是特定于層的參數(shù)。
34、進(jìn)一步地,所述跨行為依賴建模模塊中,采用自注意機制,將用戶節(jié)點u在所有行為下的嵌入進(jìn)行連接,然后計算出用戶u在行為k下與其他行為之間依賴關(guān)系的系數(shù),進(jìn)而得到節(jié)點u在行為k下的增強嵌入,然后利用均值池來整合所有層的嵌入,得到加入行為嵌入后的用戶表示。
35、進(jìn)一步地,所述步驟6中,所述對比損失函數(shù)為:
36、
37、式中
38、
39、其中,是行為間的對比損失函數(shù),是行為ko和kp之間的對比損失,是消除特定用戶節(jié)點漏報的行為ko和kp之間的對比損失,是消除特定短視頻節(jié)點漏報的行為ko和kp之間的對比損失,fn(u)表示用戶節(jié)點u的漏報,分別是用戶節(jié)點u在行為ko和kp下的嵌入表示,是用戶節(jié)點v在行為kp下的嵌入表示,fn(v2)表示短視頻節(jié)點v2的漏報,分別是短視頻節(jié)點v1在行為ko和kp下的嵌入表示,是短視頻節(jié)點v2在行為kp下的嵌入表示,τ是softmax中的溫度超參數(shù),φ(·)表示兩個向量的內(nèi)積。
40、本發(fā)明另一方面提出一種融合多模態(tài)數(shù)據(jù)基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的短視頻推薦系統(tǒng),包括:
41、數(shù)據(jù)獲取單元,用于收集短視頻平臺上多種用戶交互行為數(shù)據(jù),同時收集多模態(tài)數(shù)據(jù);并將得到的用戶交互行為分解成會話序列;所述用戶交互行為包括觀看、點贊、收藏行為;所述多模態(tài)數(shù)據(jù)包括短視頻內(nèi)容數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù);
42、異構(gòu)圖構(gòu)建單元,用于根據(jù)會話序列構(gòu)建異構(gòu)圖gn=(v,s,u,ev,e),其中v表示短視頻節(jié)點集,s表示會話節(jié)點集,u表示用戶節(jié)點集,ev表示短視頻之間的轉(zhuǎn)換關(guān)系集,e表示短視頻與會話、短視頻與用戶、用戶與會話的關(guān)系集;構(gòu)建多行為異構(gòu)圖其中表示用戶節(jié)點集,表示短視頻節(jié)點集,ε表示和之間的交互行為集;并按照交互行為類型將多行為異構(gòu)圖分割為多個行為子圖;
43、多模態(tài)特征提取與融合單元,用于通過圖注意力網(wǎng)絡(luò)對異構(gòu)圖gn中短視頻節(jié)點的異構(gòu)鄰居動態(tài)的進(jìn)行采樣,為每個短視頻節(jié)點選擇所有類型和相同數(shù)量的異構(gòu)鄰居;然后設(shè)計基于gru的異構(gòu)內(nèi)容編碼器聚合短視頻節(jié)點的異構(gòu)鄰居信息,融合不同模態(tài)特征,得到短視頻節(jié)點的初始嵌入表示;
44、第一嵌入表示提取單元,用于使用gru聚合得到的短視頻節(jié)點的初始嵌入表示,結(jié)合注意力機制,得到短視頻節(jié)點的最終嵌入表示,進(jìn)而得到初始會話嵌入表示,引入時間上下文信息,并結(jié)合軟注意力機制,得到最終的會話嵌入表示;
45、第二嵌入表示提取單元,用于基于gnn構(gòu)建多行為圖感知網(wǎng)絡(luò),以捕獲節(jié)點和行為之間的協(xié)同信號;所述多行為圖感知網(wǎng)絡(luò)包括特定于行為的嵌入傳播層和跨行為依賴建模模塊;將多個行為子圖輸入構(gòu)建的多行為圖感知網(wǎng)絡(luò),得到加入行為嵌入后的用戶表示;
46、圖對比學(xué)習(xí)單元,用于通過圖對比學(xué)習(xí),結(jié)合構(gòu)建的對比損失函數(shù),對得出的加入行為嵌入后的用戶表示進(jìn)行增強;
47、短視頻推薦單元,用于對最終的會話嵌入表示和增強后的用戶表示進(jìn)行拼接,將拼接后的特征輸入因子分解機,得到對應(yīng)的預(yù)測評分,按照預(yù)測評分對用戶進(jìn)行短視頻推薦。
48、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果:
49、本發(fā)明充分考慮了短視頻的多種模態(tài)特征以及不同模態(tài)之間的依賴關(guān)系,利用異構(gòu)圖神經(jīng)網(wǎng)絡(luò)捕獲粒度更細(xì)的短視頻特征;其次通過引入用戶的多種交互行為以及上下文信息,通過圖感知網(wǎng)絡(luò)捕獲用戶的細(xì)節(jié)特征,使用圖對比學(xué)習(xí)緩解交互稀疏的問題。成功挖掘出用戶的潛在興趣,從而為用戶更加精準(zhǔn)和個性化地推薦短視頻。