本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理,特別是一種基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法。
背景技術(shù):
1、近年來(lái),廣告推薦系統(tǒng)在個(gè)性化營(yíng)銷領(lǐng)域中得到了廣泛應(yīng)用,尤其是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合使得廣告推薦的精準(zhǔn)性顯著提升。傳統(tǒng)的廣告推薦系統(tǒng)多依賴于靜態(tài)用戶特征與歷史數(shù)據(jù),往往無(wú)法有效應(yīng)對(duì)用戶行為的快速變化及多樣化需求。然而,隨著用戶行為數(shù)據(jù)、上下文信息及廣告特征的多樣性增加,如何整合這些信息并實(shí)現(xiàn)動(dòng)態(tài)更新成為亟待解決的技術(shù)難題。
2、現(xiàn)有技術(shù)在用戶特征的實(shí)時(shí)更新和特征融合上存在不足,許多系統(tǒng)無(wú)法高效處理多模態(tài)數(shù)據(jù),導(dǎo)致推薦效果不佳。例如,單一的特征提取方法往往無(wú)法全面捕捉用戶的興趣變化,而靜態(tài)的用戶畫像則無(wú)法適應(yīng)用戶行為的快速變化。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有存在的問題,提出了本發(fā)明。
2、因此,本發(fā)明提供了一種基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法解決如何動(dòng)態(tài)更新用戶畫像和優(yōu)化廣告推薦策略的問題。
3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:
4、第一方面,本發(fā)明實(shí)施例提供了一種基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法,其包括,集成用戶行為數(shù)據(jù)、上下文信息和廣告特征,并進(jìn)行處理,形成多模態(tài)特征向量;
5、對(duì)多模態(tài)特征向量進(jìn)行特征融合,得到融合后的用戶綜合特征向量;
6、根據(jù)用戶綜合特征向量,使用在線學(xué)習(xí)算法動(dòng)態(tài)更新用戶畫像;
7、根據(jù)用戶畫像和上下文信息,設(shè)計(jì)基于深度強(qiáng)化學(xué)習(xí)的智能體,制定廣告推薦策略;
8、收集用戶與推薦廣告互動(dòng)時(shí)產(chǎn)生的新數(shù)據(jù),并優(yōu)化廣告推薦策略。
9、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案,其中:所述用戶行為數(shù)據(jù)包括點(diǎn)擊記錄、搜索歷史和購(gòu)買記錄;
10、所述上下文信息包括地理位置、天氣情況和時(shí)間戳;
11、所述廣告特征包括廣告的類別、關(guān)鍵詞、圖像和視頻。
12、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案,其中:對(duì)用戶行為數(shù)據(jù)、上下文信息和廣告特征進(jìn)行處理,形成多模態(tài)特征向量,包括如下步驟,
13、對(duì)于用戶行為數(shù)據(jù),使用jieba分詞工具進(jìn)行中文分詞,使用nltk工具進(jìn)行英文分詞,使用bert模型進(jìn)行詞嵌入,將分詞后的文本轉(zhuǎn)換成固定長(zhǎng)度的文本特征向量;
14、對(duì)于廣告特征中的圖像,輸入圖像到resnet-50模型,提取最后一層全連接層之前的特征向量,對(duì)提取的特征向量進(jìn)行歸一化處理,得到標(biāo)準(zhǔn)化的圖像特征向量;
15、對(duì)于廣告特征中的視頻,將視頻逐幀輸入3d-cnn模型,提取每幀的特征向量,對(duì)每幀的特征向量進(jìn)行平均池化,得到視頻特征向量;
16、對(duì)于上下文信息,使用地理編碼服務(wù)將地理位置轉(zhuǎn)換為經(jīng)緯度坐標(biāo),對(duì)時(shí)間戳數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,轉(zhuǎn)換為一天內(nèi)的小時(shí)數(shù),使用獨(dú)熱編碼將天氣數(shù)據(jù)進(jìn)行編碼,表示不同的天氣類型;
17、將文本特征向量、圖像特征向量、視頻特征向量和上下文信息拼接在一起,形成多模態(tài)特征向量,表示為,
18、v=[vtext,vimage,vvideo,t,vweather];
19、其中,v為多模態(tài)特征,vtext為文本特征向量,vimage為圖像特征向量,vvideo為視頻特征向量,t為時(shí)間戳,vweather為獨(dú)熱編碼表示的天氣類型。
20、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案,其中:對(duì)多模態(tài)特征向量進(jìn)行特征融合,得到融合后的用戶綜合特征向量,包括如下步驟,
21、設(shè)計(jì)多層感知器,每個(gè)隱藏層使用relu激活函數(shù),最后一層使用線性激活函數(shù),第一層接受多模態(tài)特征向量作為輸入,則隱藏層的計(jì)算表達(dá)式為,
22、hl=σ(wlhl-1+bl);
23、其中,hl為第l層的輸出向量,wl為第l層的權(quán)重矩陣,hl-1為第l-1層的輸出向量,σ為激活函數(shù),bl為第l層的偏置向量;
24、輸出層輸出融合后的用戶綜合特征向量,表示為,
25、vfina1=wlhl-1+bl;
26、其中,vfinal為用戶綜合特征向量,bl為最后一層的偏置向量,wl為最后一層的權(quán)重矩陣,hl-1為倒數(shù)第二層的輸出向量。
27、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案,其中:根據(jù)用戶綜合特征向量,使用在線學(xué)習(xí)算法動(dòng)態(tài)更新用戶畫像,包括如下步驟,
28、通過用戶注冊(cè)時(shí)提供的信息和過往行為數(shù)據(jù)生成初始化用戶畫像;
29、根據(jù)用戶綜合特征向量,采用在線梯度下降學(xué)習(xí)算法動(dòng)態(tài)更新用戶畫像,表示為,
30、
31、其中,θt+1為更新后的用戶畫像的參數(shù),θt為當(dāng)前的用戶畫像的參數(shù),η為學(xué)習(xí)率,為損失函數(shù)的梯度,y為目標(biāo)標(biāo)簽。
32、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案,其中:根據(jù)用戶畫像和上下文信息,設(shè)計(jì)基于深度強(qiáng)化學(xué)習(xí)的智能體,包括如下步驟,
33、根據(jù)用戶畫像和上下文信息來(lái)定義狀態(tài)空間,設(shè)定動(dòng)作空間表示智能體選擇推薦的廣告,根據(jù)用戶與推薦廣告的互動(dòng)結(jié)果來(lái)定義獎(jiǎng)勵(lì)機(jī)制,選擇深度q網(wǎng)絡(luò)算法作為深度強(qiáng)化學(xué)習(xí)算法框架;
34、智能體使用深度神經(jīng)網(wǎng)絡(luò)估計(jì)狀態(tài)-動(dòng)作對(duì)的q值,并根據(jù)貝爾曼方程更新q值,表示為,
35、
36、其中,q(s,a)為在狀態(tài)s下采取動(dòng)作a的預(yù)期回報(bào),α為更新q值的學(xué)習(xí)率,r(s,a)為在狀態(tài)s下采取動(dòng)作a后立即獲得的獎(jiǎng)勵(lì),γ為折扣因子,s為執(zhí)行動(dòng)作a后的下一個(gè)狀態(tài),為在下一個(gè)狀態(tài)s下,所有動(dòng)作a中的最大q值;
37、使用經(jīng)驗(yàn)回放機(jī)制存儲(chǔ)智能體的歷史狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一個(gè)狀態(tài),并進(jìn)行智能體的訓(xùn)練,得到訓(xùn)練后的基于深度強(qiáng)化學(xué)習(xí)的智能體。
38、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案,其中:制定廣告推薦策略是指利用設(shè)計(jì)的智能體,根據(jù)當(dāng)前的狀態(tài),選擇具有最大q值的動(dòng)作作為推薦廣告,根據(jù)q值的不斷更新,生成廣告推薦策略。
39、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案,其中:收集用戶與推薦廣告互動(dòng)時(shí)產(chǎn)生的新數(shù)據(jù),并優(yōu)化廣告推薦策略,包括如下步驟,
40、收集用戶與推薦廣告互動(dòng)時(shí)產(chǎn)生的新數(shù)據(jù),將收集到的數(shù)據(jù)格式化為標(biāo)準(zhǔn)格式,存儲(chǔ)新數(shù)據(jù)到經(jīng)驗(yàn)回放緩沖區(qū)中,從經(jīng)驗(yàn)回放緩沖區(qū)中隨機(jī)抽取一批數(shù)據(jù)對(duì),使用隨機(jī)采樣的數(shù)據(jù)對(duì)更新q值,根據(jù)用戶的反饋動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)結(jié)構(gòu),將新的獎(jiǎng)勵(lì)結(jié)構(gòu)應(yīng)用于深度強(qiáng)化學(xué)習(xí)模型,觀察智能體的學(xué)習(xí)過程和推薦效果,根據(jù)監(jiān)測(cè)結(jié)果和用戶反饋,不斷調(diào)整和優(yōu)化獎(jiǎng)勵(lì)結(jié)構(gòu),確保智能體能夠適應(yīng)用戶行為的變化,以此優(yōu)化廣告推薦策略。
41、第二方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其中:所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的任一步驟。
42、第三方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中:所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的任一步驟。
43、本發(fā)明有益效果為:多模態(tài)特征向量的構(gòu)建,使得系統(tǒng)能夠綜合考慮用戶的行為數(shù)據(jù)、上下文信息和廣告特征,從而形成更全面的用戶畫像。在線學(xué)習(xí)算法的引入,確保了用戶畫像的實(shí)時(shí)更新,使系統(tǒng)能夠快速響應(yīng)用戶的行為變化,進(jìn)而優(yōu)化廣告推薦策略。這種動(dòng)態(tài)調(diào)整機(jī)制,有效避免了傳統(tǒng)系統(tǒng)中因靜態(tài)特征導(dǎo)致的推薦滯后問題。此外,結(jié)合深度強(qiáng)化學(xué)習(xí)的智能體能夠通過不斷學(xué)習(xí)用戶反饋,動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)結(jié)構(gòu),進(jìn)一步提升推薦的有效性。