国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置與流程

      文檔序號(hào):40273925發(fā)布日期:2024-12-11 13:08閱讀:7來(lái)源:國(guó)知局
      基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置與流程

      本申請(qǐng)涉及智能推薦相關(guān),具體涉及一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置。


      背景技術(shù):

      1、推薦系統(tǒng)是業(yè)界的一種非常流行的產(chǎn)品形態(tài),廣泛應(yīng)用于資訊頻道、視頻頻道、應(yīng)用商城、購(gòu)物頻道等app服務(wù)的場(chǎng)景。推薦技術(shù)近幾年非常熱門,涉及的技術(shù)方法也是非常多的,基本都會(huì)涉及到多目標(biāo)預(yù)估和多目標(biāo)融合。

      2、多目標(biāo)預(yù)估環(huán)節(jié),最常用的模型是點(diǎn)擊率預(yù)估模型和時(shí)長(zhǎng)預(yù)估模型。多目標(biāo)融合環(huán)節(jié)就是把點(diǎn)擊率預(yù)估、時(shí)長(zhǎng)預(yù)估等模型產(chǎn)出的預(yù)估值進(jìn)行融合起來(lái),形成統(tǒng)一的預(yù)估值。那么,如何能夠更有效地融合,對(duì)最終的推薦效果影響比較大。


      技術(shù)實(shí)現(xiàn)思路

      1、有鑒于此,本申請(qǐng)的實(shí)施例致力于提供一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置。

      2、本申請(qǐng)?zhí)峁┮环N基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,包括:

      3、獲取用戶日志;

      4、基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型;

      5、其中,所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率,所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng);

      6、構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型;

      7、其中,所述融合模型,還用于基于用戶的最新操作,調(diào)整內(nèi)部參數(shù),以使得融合模型輸出的融合值,更加符合用戶的期望;

      8、其中,點(diǎn)擊率和所述融合值正相關(guān),閱讀時(shí)長(zhǎng)與所述融合值正相關(guān);

      9、基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。

      10、在一些實(shí)施例中,所述點(diǎn)擊率預(yù)估模型,采用雙塔深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行點(diǎn)擊率預(yù)估,

      11、所述點(diǎn)擊率預(yù)估模型的一側(cè)輸入的是用戶日志中用戶操作的特征,另一側(cè)輸入的是用戶日志中的內(nèi)容特征,基于用戶線上真實(shí)推薦結(jié)果的點(diǎn)擊日志提前離線訓(xùn)練。

      12、在一些實(shí)施例中,所述閱讀時(shí)長(zhǎng)預(yù)估模型采用業(yè)界通用的雙塔深度神經(jīng)網(wǎng)絡(luò)進(jìn)行閱讀時(shí)長(zhǎng)預(yù)估,一側(cè)輸入的是用戶日志中用戶操作的特征,另一側(cè)輸入的是用戶日志中的內(nèi)容特征,基于用戶線上真實(shí)推薦結(jié)果的點(diǎn)擊日志提前離線訓(xùn)練。

      13、在一些實(shí)施例中,每間隔預(yù)設(shè)時(shí)長(zhǎng),基于最新的數(shù)據(jù),對(duì)點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型進(jìn)行重新訓(xùn)練。

      14、在一些實(shí)施例中,所述融合模型中使用t次冪的形式來(lái)做點(diǎn)擊率與時(shí)長(zhǎng)的融合,得到融合后的預(yù)測(cè)值q_final;

      15、融合公式為:q_final=p_ctrt???p_duration(1-t);

      16、t取值范圍從0.40到1.0,取值步長(zhǎng)=0.01,p_ctr為點(diǎn)擊率預(yù)估值;p_duration為閱讀時(shí)長(zhǎng)預(yù)估值。

      17、在一些實(shí)施例中,還包括:所述融合模型采用dqn網(wǎng)絡(luò)模型進(jìn)行線上應(yīng)用,實(shí)現(xiàn)馬爾科夫決策過(guò)程,并采用?--greed的方式進(jìn)行尋優(yōu)。

      18、本申請(qǐng)還提供一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合裝置,包括:

      19、獲取模塊,用于獲取用戶日志;

      20、構(gòu)建模塊,用于基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型;其中,所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率,所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng);構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型;其中,所述融合模型,還用于基于用戶的最新操作,調(diào)整內(nèi)部參數(shù),以使得融合模型輸出的融合值,更加符合用戶的期望;其中,點(diǎn)擊率和所述融合值正相關(guān),閱讀時(shí)長(zhǎng)與所述融合值正相關(guān);

      21、推薦模塊,用于基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。

      22、本申請(qǐng)還提供一種電子設(shè)備,包括:

      23、處理器,以及用于存儲(chǔ)所述處理器可執(zhí)行程序的存儲(chǔ)器;

      24、所述處理器,用于通過(guò)運(yùn)行所述存儲(chǔ)器中的程序,實(shí)現(xiàn)如上述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法。

      25、本申請(qǐng)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器運(yùn)行時(shí)使得所述處理器執(zhí)行如上述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法。

      26、本申請(qǐng)所提供的一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,獲取用戶日志;基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型;其中,所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率,所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng);構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型;其中,所述融合模型,還用于基于用戶的最新操作,調(diào)整內(nèi)部參數(shù),以使得融合模型輸出的融合值,更加符合用戶的期望;其中,點(diǎn)擊率和所述融合值正相關(guān),閱讀時(shí)長(zhǎng)與所述融合值正相關(guān);基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。如此設(shè)置,采用強(qiáng)化學(xué)習(xí),使得每次用戶刷新時(shí),推薦系統(tǒng)都能通過(guò)請(qǐng)求dqn網(wǎng)絡(luò)模型的在線服務(wù),得到當(dāng)前狀態(tài)下的最佳候選推薦結(jié)果。解決了傳統(tǒng)方法根據(jù)推薦系統(tǒng)的歷史環(huán)境或歷史樣本進(jìn)行學(xué)習(xí),無(wú)法及時(shí)針對(duì)推薦系統(tǒng)當(dāng)前的最新?tīng)顟B(tài)及時(shí)做出動(dòng)態(tài)調(diào)整,從而產(chǎn)生偏差的問(wèn)題。



      技術(shù)特征:

      1.一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,所述點(diǎn)擊率預(yù)估模型,采用雙塔深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行點(diǎn)擊率預(yù)估;

      3.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型采用業(yè)界通用的雙深度神經(jīng)網(wǎng)絡(luò)進(jìn)行閱讀時(shí)長(zhǎng)預(yù)估,一側(cè)輸入的是用戶日志中用戶操作的特征,另一側(cè)輸入的是用戶日志中的內(nèi)容特征,基于用戶線上真實(shí)推薦結(jié)果的點(diǎn)擊日志提前離線訓(xùn)練得到。

      4.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,每間隔預(yù)設(shè)時(shí)長(zhǎng),基于最新的數(shù)據(jù),對(duì)點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型進(jìn)行重新訓(xùn)練。

      5.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,所述融合模型中使用t次冪的形式來(lái)做點(diǎn)擊率與時(shí)長(zhǎng)的融合,得到融合后的預(yù)測(cè)值q_final;

      6.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法,其特征在于,還包括:所述融合模型采用dqn網(wǎng)絡(luò)模型進(jìn)行線上應(yīng)用,實(shí)現(xiàn)馬爾科夫決策過(guò)程,并采用?--greed的方式進(jìn)行尋優(yōu)。

      7.一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合裝置,其特征在于,包括:

      8.一種電子設(shè)備,其特征在于,包括:

      9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器運(yùn)行時(shí)使得所述處理器執(zhí)行如權(quán)利要求1至6中任一項(xiàng)所述的基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法。


      技術(shù)總結(jié)
      本申請(qǐng)涉及智能推薦相關(guān)技術(shù)領(lǐng)域,具體涉及一種基于強(qiáng)化學(xué)習(xí)智能體的推薦系統(tǒng)特征融合方法及裝置。其中,方法包括:獲取用戶日志;基于所述用戶日志分別構(gòu)建點(diǎn)擊率預(yù)估模型和閱讀時(shí)長(zhǎng)預(yù)估模型;其中,所述點(diǎn)擊率預(yù)估模型用于估計(jì)文章或視頻的點(diǎn)擊率,所述閱讀時(shí)長(zhǎng)預(yù)估模型用于估計(jì)文章或視頻的閱讀時(shí)長(zhǎng);構(gòu)建點(diǎn)擊率預(yù)估模型輸出結(jié)果和閱讀時(shí)長(zhǎng)預(yù)估模型輸出結(jié)果的融合模型;其中,所述融合模型,還用于基于用戶的最新操作,調(diào)整內(nèi)部參數(shù),以使得融合模型輸出的融合值,更加符合用戶的期望;其中,點(diǎn)擊率和所述融合值正相關(guān),閱讀時(shí)長(zhǎng)與所述融合值正相關(guān);基于所述點(diǎn)擊率預(yù)估模型、閱讀時(shí)長(zhǎng)預(yù)估模型和所述融合模型進(jìn)行推薦。

      技術(shù)研發(fā)人員:于滿泉,莫倩,蔡錦森,張傳文,朱若曦
      受保護(hù)的技術(shù)使用者:北京網(wǎng)智天元大數(shù)據(jù)科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1