一種基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法與流程

文檔序號(hào)：40395405發(fā)布日期：2024-12-20 12:18閱讀：7來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法與流程

本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理，特別是一種基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法。

背景技術(shù)：

1、近年來(lái)，廣告推薦系統(tǒng)在個(gè)性化營(yíng)銷領(lǐng)域中得到了廣泛應(yīng)用，尤其是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合使得廣告推薦的精準(zhǔn)性顯著提升。傳統(tǒng)的廣告推薦系統(tǒng)多依賴于靜態(tài)用戶特征與歷史數(shù)據(jù)，往往無(wú)法有效應(yīng)對(duì)用戶行為的快速變化及多樣化需求。然而，隨著用戶行為數(shù)據(jù)、上下文信息及廣告特征的多樣性增加，如何整合這些信息并實(shí)現(xiàn)動(dòng)態(tài)更新成為亟待解決的技術(shù)難題。

2、現(xiàn)有技術(shù)在用戶特征的實(shí)時(shí)更新和特征融合上存在不足，許多系統(tǒng)無(wú)法高效處理多模態(tài)數(shù)據(jù)，導(dǎo)致推薦效果不佳。例如，單一的特征提取方法往往無(wú)法全面捕捉用戶的興趣變化，而靜態(tài)的用戶畫像則無(wú)法適應(yīng)用戶行為的快速變化。

技術(shù)實(shí)現(xiàn)思路

1、鑒于上述現(xiàn)有存在的問題，提出了本發(fā)明。

2、因此，本發(fā)明提供了一種基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法解決如何動(dòng)態(tài)更新用戶畫像和優(yōu)化廣告推薦策略的問題。

3、為解決上述技術(shù)問題，本發(fā)明提供如下技術(shù)方案：

4、第一方面，本發(fā)明實(shí)施例提供了一種基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法，其包括，集成用戶行為數(shù)據(jù)、上下文信息和廣告特征，并進(jìn)行處理，形成多模態(tài)特征向量；

5、對(duì)多模態(tài)特征向量進(jìn)行特征融合，得到融合后的用戶綜合特征向量；

6、根據(jù)用戶綜合特征向量，使用在線學(xué)習(xí)算法動(dòng)態(tài)更新用戶畫像；

7、根據(jù)用戶畫像和上下文信息，設(shè)計(jì)基于深度強(qiáng)化學(xué)習(xí)的智能體，制定廣告推薦策略；

8、收集用戶與推薦廣告互動(dòng)時(shí)產(chǎn)生的新數(shù)據(jù)，并優(yōu)化廣告推薦策略。

9、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案，其中：所述用戶行為數(shù)據(jù)包括點(diǎn)擊記錄、搜索歷史和購(gòu)買記錄；

10、所述上下文信息包括地理位置、天氣情況和時(shí)間戳；

11、所述廣告特征包括廣告的類別、關(guān)鍵詞、圖像和視頻。

12、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案，其中：對(duì)用戶行為數(shù)據(jù)、上下文信息和廣告特征進(jìn)行處理，形成多模態(tài)特征向量，包括如下步驟，

13、對(duì)于用戶行為數(shù)據(jù)，使用jieba分詞工具進(jìn)行中文分詞，使用nltk工具進(jìn)行英文分詞，使用bert模型進(jìn)行詞嵌入，將分詞后的文本轉(zhuǎn)換成固定長(zhǎng)度的文本特征向量；

14、對(duì)于廣告特征中的圖像，輸入圖像到resnet-50模型，提取最后一層全連接層之前的特征向量，對(duì)提取的特征向量進(jìn)行歸一化處理，得到標(biāo)準(zhǔn)化的圖像特征向量；

15、對(duì)于廣告特征中的視頻，將視頻逐幀輸入3d-cnn模型，提取每幀的特征向量，對(duì)每幀的特征向量進(jìn)行平均池化，得到視頻特征向量；

16、對(duì)于上下文信息，使用地理編碼服務(wù)將地理位置轉(zhuǎn)換為經(jīng)緯度坐標(biāo)，對(duì)時(shí)間戳數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，轉(zhuǎn)換為一天內(nèi)的小時(shí)數(shù)，使用獨(dú)熱編碼將天氣數(shù)據(jù)進(jìn)行編碼，表示不同的天氣類型；

17、將文本特征向量、圖像特征向量、視頻特征向量和上下文信息拼接在一起，形成多模態(tài)特征向量，表示為，

18、v＝[vtext，vimage，vvideo，t，vweather]；

19、其中，v為多模態(tài)特征，vtext為文本特征向量，vimage為圖像特征向量，vvideo為視頻特征向量，t為時(shí)間戳，vweather為獨(dú)熱編碼表示的天氣類型。

20、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案，其中：對(duì)多模態(tài)特征向量進(jìn)行特征融合，得到融合后的用戶綜合特征向量，包括如下步驟，

21、設(shè)計(jì)多層感知器，每個(gè)隱藏層使用relu激活函數(shù)，最后一層使用線性激活函數(shù)，第一層接受多模態(tài)特征向量作為輸入，則隱藏層的計(jì)算表達(dá)式為，

22、hl＝σ(wlhl-1+bl)；

23、其中，hl為第l層的輸出向量，wl為第l層的權(quán)重矩陣，hl-1為第l-1層的輸出向量，σ為激活函數(shù)，bl為第l層的偏置向量；

24、輸出層輸出融合后的用戶綜合特征向量，表示為，

25、vfina1＝wlhl-1+bl；

26、其中，vfinal為用戶綜合特征向量，bl為最后一層的偏置向量，wl為最后一層的權(quán)重矩陣，hl-1為倒數(shù)第二層的輸出向量。

27、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案，其中：根據(jù)用戶綜合特征向量，使用在線學(xué)習(xí)算法動(dòng)態(tài)更新用戶畫像，包括如下步驟，

28、通過用戶注冊(cè)時(shí)提供的信息和過往行為數(shù)據(jù)生成初始化用戶畫像；

29、根據(jù)用戶綜合特征向量，采用在線梯度下降學(xué)習(xí)算法動(dòng)態(tài)更新用戶畫像，表示為，

30、

31、其中，θt+1為更新后的用戶畫像的參數(shù)，θt為當(dāng)前的用戶畫像的參數(shù)，η為學(xué)習(xí)率，為損失函數(shù)的梯度，y為目標(biāo)標(biāo)簽。

32、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案，其中：根據(jù)用戶畫像和上下文信息，設(shè)計(jì)基于深度強(qiáng)化學(xué)習(xí)的智能體，包括如下步驟，

33、根據(jù)用戶畫像和上下文信息來(lái)定義狀態(tài)空間，設(shè)定動(dòng)作空間表示智能體選擇推薦的廣告，根據(jù)用戶與推薦廣告的互動(dòng)結(jié)果來(lái)定義獎(jiǎng)勵(lì)機(jī)制，選擇深度q網(wǎng)絡(luò)算法作為深度強(qiáng)化學(xué)習(xí)算法框架；

34、智能體使用深度神經(jīng)網(wǎng)絡(luò)估計(jì)狀態(tài)-動(dòng)作對(duì)的q值，并根據(jù)貝爾曼方程更新q值，表示為，

35、

36、其中，q(s，a)為在狀態(tài)s下采取動(dòng)作a的預(yù)期回報(bào)，α為更新q值的學(xué)習(xí)率，r(s，a)為在狀態(tài)s下采取動(dòng)作a后立即獲得的獎(jiǎng)勵(lì)，γ為折扣因子，s為執(zhí)行動(dòng)作a后的下一個(gè)狀態(tài)，為在下一個(gè)狀態(tài)s下，所有動(dòng)作a中的最大q值；

37、使用經(jīng)驗(yàn)回放機(jī)制存儲(chǔ)智能體的歷史狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)，并進(jìn)行智能體的訓(xùn)練，得到訓(xùn)練后的基于深度強(qiáng)化學(xué)習(xí)的智能體。

38、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案，其中：制定廣告推薦策略是指利用設(shè)計(jì)的智能體，根據(jù)當(dāng)前的狀態(tài)，選擇具有最大q值的動(dòng)作作為推薦廣告，根據(jù)q值的不斷更新，生成廣告推薦策略。

39、作為本發(fā)明所述基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的一種優(yōu)選方案，其中：收集用戶與推薦廣告互動(dòng)時(shí)產(chǎn)生的新數(shù)據(jù)，并優(yōu)化廣告推薦策略，包括如下步驟，

40、收集用戶與推薦廣告互動(dòng)時(shí)產(chǎn)生的新數(shù)據(jù)，將收集到的數(shù)據(jù)格式化為標(biāo)準(zhǔn)格式，存儲(chǔ)新數(shù)據(jù)到經(jīng)驗(yàn)回放緩沖區(qū)中，從經(jīng)驗(yàn)回放緩沖區(qū)中隨機(jī)抽取一批數(shù)據(jù)對(duì)，使用隨機(jī)采樣的數(shù)據(jù)對(duì)更新q值，根據(jù)用戶的反饋動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)結(jié)構(gòu)，將新的獎(jiǎng)勵(lì)結(jié)構(gòu)應(yīng)用于深度強(qiáng)化學(xué)習(xí)模型，觀察智能體的學(xué)習(xí)過程和推薦效果，根據(jù)監(jiān)測(cè)結(jié)果和用戶反饋，不斷調(diào)整和優(yōu)化獎(jiǎng)勵(lì)結(jié)構(gòu)，確保智能體能夠適應(yīng)用戶行為的變化，以此優(yōu)化廣告推薦策略。

41、第二方面，本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，其中：所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的任一步驟。

42、第三方面，本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其中：所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法的任一步驟。

43、本發(fā)明有益效果為：多模態(tài)特征向量的構(gòu)建，使得系統(tǒng)能夠綜合考慮用戶的行為數(shù)據(jù)、上下文信息和廣告特征，從而形成更全面的用戶畫像。在線學(xué)習(xí)算法的引入，確保了用戶畫像的實(shí)時(shí)更新，使系統(tǒng)能夠快速響應(yīng)用戶的行為變化，進(jìn)而優(yōu)化廣告推薦策略。這種動(dòng)態(tài)調(diào)整機(jī)制，有效避免了傳統(tǒng)系統(tǒng)中因靜態(tài)特征導(dǎo)致的推薦滯后問題。此外，結(jié)合深度強(qiáng)化學(xué)習(xí)的智能體能夠通過不斷學(xué)習(xí)用戶反饋，動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)結(jié)構(gòu)，進(jìn)一步提升推薦的有效性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張峰,高潔,張超,張浩,張宇寧
技術(shù)所有人：北京鴻途信達(dá)科技股份有限公司
我是此專利的發(fā)明人

上一篇：一種自動(dòng)旋轉(zhuǎn)數(shù)碼相框的制作方法
上一篇：一種抗壓結(jié)構(gòu)及EPE包裝墊的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于深度強(qiáng)化學(xué)習(xí)的廣告營(yíng)銷推薦方法與流程