本申請(qǐng)涉及智能推薦相關(guān),具體涉及一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置。
背景技術(shù):
1、推薦系統(tǒng)是業(yè)界的一種非常流行的產(chǎn)品形態(tài),廣泛應(yīng)用于資訊頻道、視頻頻道、應(yīng)用商城、購(gòu)物頻道等app服務(wù)的場(chǎng)景。推薦技術(shù)近幾年非常熱門,涉及的技術(shù)方法也是非常多的,基本都會(huì)涉及到多目標(biāo)預(yù)估和多目標(biāo)融合。
2、多目標(biāo)預(yù)估環(huán)節(jié),最常用的模型是點(diǎn)擊率預(yù)估模型和時(shí)長(zhǎng)預(yù)估模型。多目標(biāo)融合環(huán)節(jié)就是把點(diǎn)擊率預(yù)估、時(shí)長(zhǎng)預(yù)估等模型產(chǎn)出的預(yù)估值進(jìn)行融合起來(lái),形成統(tǒng)一的預(yù)估值。那么,如何能夠更有效地融合,對(duì)最終的推薦效果影響比較大。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請(qǐng)的實(shí)施例致力于提供一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置。
2、本申請(qǐng)?zhí)峁┮环N基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,包括:
3、獲取用戶日志;
4、基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型;
5、其中,所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率,所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng);
6、構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型;
7、其中,所述融合模型,還用于基于用戶的最新操作,調(diào)整內(nèi)部參數(shù),以使得融合模型輸出的融合值,更加符合用戶的期望;
8、其中,點(diǎn)擊率和所述融合值正相關(guān),閱讀時(shí)長(zhǎng)與所述融合值正相關(guān);
9、基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。
10、在一些實(shí)施例中,所述點(diǎn)擊率預(yù)估模型,采用雙塔深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行點(diǎn)擊率預(yù)估,
11、所述點(diǎn)擊率預(yù)估模型的一側(cè)輸入的是用戶日志中用戶操作的特征,另一側(cè)輸入的是用戶日志中的內(nèi)容特征,基于用戶線上真實(shí)推薦結(jié)果的點(diǎn)擊日志提前離線訓(xùn)練。
12、在一些實(shí)施例中,所述閱讀時(shí)長(zhǎng)預(yù)估模型采用業(yè)界通用的雙塔深度神經(jīng)網(wǎng)絡(luò)進(jìn)行閱讀時(shí)長(zhǎng)預(yù)估,一側(cè)輸入的是用戶日志中用戶操作的特征,另一側(cè)輸入的是用戶日志中的內(nèi)容特征,基于用戶線上真實(shí)推薦結(jié)果的點(diǎn)擊日志提前離線訓(xùn)練。
13、在一些實(shí)施例中,每間隔預(yù)設(shè)時(shí)長(zhǎng),基于最新的數(shù)據(jù),對(duì)點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型進(jìn)行重新訓(xùn)練。
14、在一些實(shí)施例中,所述融合模型中使用t次冪的形式來(lái)做點(diǎn)擊率與時(shí)長(zhǎng)的融合,得到融合后的預(yù)測(cè)值q_final;
15、融合公式為:q_final=p_ctrt???p_duration(1-t);
16、t取值范圍從0.40到1.0,取值步長(zhǎng)=0.01,p_ctr為點(diǎn)擊率預(yù)估值;p_duration為閱讀時(shí)長(zhǎng)預(yù)估值。
17、在一些實(shí)施例中,還包括:所述融合模型采用dqn網(wǎng)絡(luò)模型進(jìn)行線上應(yīng)用,實(shí)現(xiàn)馬爾科夫決策過(guò)程,并采用?--greed的方式進(jìn)行尋優(yōu)。
18、本申請(qǐng)還提供一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合裝置,包括:
19、獲取模塊,用于獲取用戶日志;
20、構(gòu)建模塊,用于基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型;其中,所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率,所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng);構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型;其中,所述融合模型,還用于基于用戶的最新操作,調(diào)整內(nèi)部參數(shù),以使得融合模型輸出的融合值,更加符合用戶的期望;其中,點(diǎn)擊率和所述融合值正相關(guān),閱讀時(shí)長(zhǎng)與所述融合值正相關(guān);
21、推薦模塊,用于基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。
22、本申請(qǐng)還提供一種電子設(shè)備,包括:
23、處理器,以及用于存儲(chǔ)所述處理器可執(zhí)行程序的存儲(chǔ)器;
24、所述處理器,用于通過(guò)運(yùn)行所述存儲(chǔ)器中的程序,實(shí)現(xiàn)如上述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法。
25、本申請(qǐng)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器運(yùn)行時(shí)使得所述處理器執(zhí)行如上述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法。
26、本申請(qǐng)所提供的一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,獲取用戶日志;基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型;其中,所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率,所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng);構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型;其中,所述融合模型,還用于基于用戶的最新操作,調(diào)整內(nèi)部參數(shù),以使得融合模型輸出的融合值,更加符合用戶的期望;其中,點(diǎn)擊率和所述融合值正相關(guān),閱讀時(shí)長(zhǎng)與所述融合值正相關(guān);基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。如此設(shè)置,采用強(qiáng)化學(xué)習(xí),使得每次用戶刷新時(shí),推薦系統(tǒng)都能通過(guò)請(qǐng)求dqn網(wǎng)絡(luò)模型的在線服務(wù),得到當(dāng)前狀態(tài)下的最佳候選推薦結(jié)果。解決了傳統(tǒng)方法根據(jù)推薦系統(tǒng)的歷史環(huán)境或歷史樣本進(jìn)行學(xué)習(xí),無(wú)法及時(shí)針對(duì)推薦系統(tǒng)當(dāng)前的最新?tīng)顟B(tài)及時(shí)做出動(dòng)態(tài)調(diào)整,從而產(chǎn)生偏差的問(wèn)題。
1.一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,所述點(diǎn)擊率預(yù)估模型,采用雙塔深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行點(diǎn)擊率預(yù)估;
3.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型采用業(yè)界通用的雙深度神經(jīng)網(wǎng)絡(luò)進(jìn)行閱讀時(shí)長(zhǎng)預(yù)估,一側(cè)輸入的是用戶日志中用戶操作的特征,另一側(cè)輸入的是用戶日志中的內(nèi)容特征,基于用戶線上真實(shí)推薦結(jié)果的點(diǎn)擊日志提前離線訓(xùn)練得到。
4.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,每間隔預(yù)設(shè)時(shí)長(zhǎng),基于最新的數(shù)據(jù),對(duì)點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型進(jìn)行重新訓(xùn)練。
5.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,所述融合模型中使用t次冪的形式來(lái)做點(diǎn)擊率與時(shí)長(zhǎng)的融合,得到融合后的預(yù)測(cè)值q_final;
6.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,還包括:所述融合模型采用dqn網(wǎng)絡(luò)模型進(jìn)行線上應(yīng)用,實(shí)現(xiàn)馬爾科夫決策過(guò)程,并采用?--greed的方式進(jìn)行尋優(yōu)。
7.一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合裝置,其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括:
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器運(yùn)行時(shí)使得所述處理器執(zhí)行如權(quán)利要求1至6中任一項(xiàng)所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法。