基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置與流程

文檔序號(hào)：40273925發(fā)布日期：2024-12-11 13:08閱讀：7來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置與流程

本申請(qǐng)涉及智能推薦相關(guān)，具體涉及一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置。

背景技術(shù)：

1、推薦系統(tǒng)是業(yè)界的一種非常流行的產(chǎn)品形態(tài)，廣泛應(yīng)用于資訊頻道、視頻頻道、應(yīng)用商城、購(gòu)物頻道等app服務(wù)的場(chǎng)景。推薦技術(shù)近幾年非常熱門，涉及的技術(shù)方法也是非常多的，基本都會(huì)涉及到多目標(biāo)預(yù)估和多目標(biāo)融合。

2、多目標(biāo)預(yù)估環(huán)節(jié)，最常用的模型是點(diǎn)擊率預(yù)估模型和時(shí)長(zhǎng)預(yù)估模型。多目標(biāo)融合環(huán)節(jié)就是把點(diǎn)擊率預(yù)估、時(shí)長(zhǎng)預(yù)估等模型產(chǎn)出的預(yù)估值進(jìn)行融合起來(lái)，形成統(tǒng)一的預(yù)估值。那么，如何能夠更有效地融合，對(duì)最終的推薦效果影響比較大。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本申請(qǐng)的實(shí)施例致力于提供一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置。

2、本申請(qǐng)?zhí)峁┮环N基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法，包括：

3、獲取用戶日志；

4、基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型；

5、其中，所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率，所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng)；

6、構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型；

7、其中，所述融合模型，還用于基于用戶的最新操作，調(diào)整內(nèi)部參數(shù)，以使得融合模型輸出的融合值，更加符合用戶的期望；

8、其中，點(diǎn)擊率和所述融合值正相關(guān)，閱讀時(shí)長(zhǎng)與所述融合值正相關(guān)；

9、基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。

10、在一些實(shí)施例中，所述點(diǎn)擊率預(yù)估模型，采用雙塔深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行點(diǎn)擊率預(yù)估，

11、所述點(diǎn)擊率預(yù)估模型的一側(cè)輸入的是用戶日志中用戶操作的特征，另一側(cè)輸入的是用戶日志中的內(nèi)容特征，基于用戶線上真實(shí)推薦結(jié)果的點(diǎn)擊日志提前離線訓(xùn)練。

12、在一些實(shí)施例中，所述閱讀時(shí)長(zhǎng)預(yù)估模型采用業(yè)界通用的雙塔深度神經(jīng)網(wǎng)絡(luò)進(jìn)行閱讀時(shí)長(zhǎng)預(yù)估，一側(cè)輸入的是用戶日志中用戶操作的特征，另一側(cè)輸入的是用戶日志中的內(nèi)容特征，基于用戶線上真實(shí)推薦結(jié)果的點(diǎn)擊日志提前離線訓(xùn)練。

13、在一些實(shí)施例中，每間隔預(yù)設(shè)時(shí)長(zhǎng)，基于最新的數(shù)據(jù)，對(duì)點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型進(jìn)行重新訓(xùn)練。

14、在一些實(shí)施例中，所述融合模型中使用t次冪的形式來(lái)做點(diǎn)擊率與時(shí)長(zhǎng)的融合，得到融合后的預(yù)測(cè)值q_final；

15、融合公式為：q_final=p_ctrt???p_duration(1-t)；

16、t取值范圍從0.40到1.0，取值步長(zhǎng)=0.01，p_ctr為點(diǎn)擊率預(yù)估值；p_duration為閱讀時(shí)長(zhǎng)預(yù)估值。

17、在一些實(shí)施例中，還包括：所述融合模型采用dqn網(wǎng)絡(luò)模型進(jìn)行線上應(yīng)用，實(shí)現(xiàn)馬爾科夫決策過(guò)程，并采用?--greed的方式進(jìn)行尋優(yōu)。

18、本申請(qǐng)還提供一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合裝置，包括：

19、獲取模塊，用于獲取用戶日志；

20、構(gòu)建模塊，用于基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型；其中，所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率，所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng)；構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型；其中，所述融合模型，還用于基于用戶的最新操作，調(diào)整內(nèi)部參數(shù)，以使得融合模型輸出的融合值，更加符合用戶的期望；其中，點(diǎn)擊率和所述融合值正相關(guān)，閱讀時(shí)長(zhǎng)與所述融合值正相關(guān)；

21、推薦模塊，用于基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。

22、本申請(qǐng)還提供一種電子設(shè)備，包括：

23、處理器，以及用于存儲(chǔ)所述處理器可執(zhí)行程序的存儲(chǔ)器；

24、所述處理器，用于通過(guò)運(yùn)行所述存儲(chǔ)器中的程序，實(shí)現(xiàn)如上述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法。

25、本申請(qǐng)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器運(yùn)行時(shí)使得所述處理器執(zhí)行如上述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法。

26、本申請(qǐng)所提供的一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法，獲取用戶日志；基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型；其中，所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率，所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng)；構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型；其中，所述融合模型，還用于基于用戶的最新操作，調(diào)整內(nèi)部參數(shù)，以使得融合模型輸出的融合值，更加符合用戶的期望；其中，點(diǎn)擊率和所述融合值正相關(guān)，閱讀時(shí)長(zhǎng)與所述融合值正相關(guān)；基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。如此設(shè)置，采用強(qiáng)化學(xué)習(xí)，使得每次用戶刷新時(shí)，推薦系統(tǒng)都能通過(guò)請(qǐng)求dqn網(wǎng)絡(luò)模型的在線服務(wù)，得到當(dāng)前狀態(tài)下的最佳候選推薦結(jié)果。解決了傳統(tǒng)方法根據(jù)推薦系統(tǒng)的歷史環(huán)境或歷史樣本進(jìn)行學(xué)習(xí)，無(wú)法及時(shí)針對(duì)推薦系統(tǒng)當(dāng)前的最新?tīng)顟B(tài)及時(shí)做出動(dòng)態(tài)調(diào)整，從而產(chǎn)生偏差的問(wèn)題。

技術(shù)特征：

1.一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法，其特征在于，所述點(diǎn)擊率預(yù)估模型，采用雙塔深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行點(diǎn)擊率預(yù)估；

3.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法，其特征在于，所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型采用業(yè)界通用的雙深度神經(jīng)網(wǎng)絡(luò)進(jìn)行閱讀時(shí)長(zhǎng)預(yù)估，一側(cè)輸入的是用戶日志中用戶操作的特征，另一側(cè)輸入的是用戶日志中的內(nèi)容特征，基于用戶線上真實(shí)推薦結(jié)果的點(diǎn)擊日志提前離線訓(xùn)練得到。

4.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法，其特征在于，每間隔預(yù)設(shè)時(shí)長(zhǎng)，基于最新的數(shù)據(jù)，對(duì)點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型進(jìn)行重新訓(xùn)練。

5.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法，其特征在于，所述融合模型中使用t次冪的形式來(lái)做點(diǎn)擊率與時(shí)長(zhǎng)的融合，得到融合后的預(yù)測(cè)值q_final；

6.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法，其特征在于，還包括：所述融合模型采用dqn網(wǎng)絡(luò)模型進(jìn)行線上應(yīng)用，實(shí)現(xiàn)馬爾科夫決策過(guò)程，并采用?--greed的方式進(jìn)行尋優(yōu)。

7.一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合裝置，其特征在于，包括：

8.一種電子設(shè)備，其特征在于，包括：

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器運(yùn)行時(shí)使得所述處理器執(zhí)行如權(quán)利要求1至6中任一項(xiàng)所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法。

技術(shù)總結(jié)
本申請(qǐng)涉及智能推薦相關(guān)技術(shù)領(lǐng)域，具體涉及一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置。其中，方法包括：獲取用戶日志；基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型；其中，所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率，所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng)；構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型；其中，所述融合模型，還用于基于用戶的最新操作，調(diào)整內(nèi)部參數(shù)，以使得融合模型輸出的融合值，更加符合用戶的期望；其中，點(diǎn)擊率和所述融合值正相關(guān)，閱讀時(shí)長(zhǎng)與所述融合值正相關(guān)；基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。

技術(shù)研發(fā)人員：于滿泉,莫倩,蔡錦森,張傳文,朱若曦
受保護(hù)的技術(shù)使用者：北京網(wǎng)智天元大數(shù)據(jù)科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于滿泉,莫倩,蔡錦森,張傳文,朱若曦
技術(shù)所有人：北京網(wǎng)智天元大數(shù)據(jù)科技有限公司
我是此專利的發(fā)明人

上一篇：一種新型槽底清渣器的制作方法
上一篇：一種有色焊帶分段涂覆裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置與流程