国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于概率模型和用戶行為分析的個(gè)性化推薦方法、系統(tǒng)的制作方法_3

      文檔序號(hào):9810743閱讀:來(lái)源:國(guó)知局
      [0128] +P(categoryid|behaviorn)*ffeight(behavior n)
      [0129] 其中
      [0130] P( category id)代表的是在各種行為下的類別category id的最終權(quán)重
      [0131 ] P(categoryid | behavior)代表的是在行為類型behavior下的類別categoryid的 概率
      [0132] Weight(behavior)代表行為類型的權(quán)重。每種行為的價(jià)值是不同的,比如購(gòu)買比 點(diǎn)擊信息更有價(jià)值,也就是購(gòu)買行為更能代表用戶的興趣。最終就能得到用戶在各個(gè)維度 上的偏好數(shù)據(jù)。
      [0133]點(diǎn)擊行為下,母嬰、服裝和家居三個(gè)類別下的概率分布是[0.778,0.111,0.111] [0134]購(gòu)買行為下,母嬰、服裝和家居三個(gè)類別下的概率分布是[0.902,0.066,0.032] [0135]收藏行為下,母嬰、服裝和家居三個(gè)類別下的概率分布是[0.882,0.111,0.007]
      [0136]加入點(diǎn)擊、購(gòu)買和收藏的權(quán)重分布是[0.1,0.6,0.3]
      [0137] 則用戶對(duì)母嬰的偏好程度為:
      [0138] 0.778 X 0.1+0.902 X 0.6+0.882 X 0.3 = 0.8836
      [0139] 同理,可以計(jì)算對(duì)服裝和家居的偏好程度。
      [0140] 2)置信度的考量。在1)中計(jì)算概率分布使用的是"次數(shù)/總次數(shù)"的方式,忽略了另 外一個(gè)很重要的關(guān)注點(diǎn):置信度。用戶模型的各個(gè)指標(biāo)的值雖然相同,但可信度卻不同。換 句話說(shuō):用戶A看了 100篇文章,其中50篇是娛樂(lè)類的,得到偏好娛樂(lè)類的概率是0.5。而用戶 A又看了 10篇文章,其中5篇帶有互聯(lián)網(wǎng)標(biāo)簽的,得到偏好互聯(lián)網(wǎng)的概率也是0.5。在統(tǒng)計(jì)學(xué) 中,概率的可信性取決于樣本數(shù)。即:樣本數(shù)越大,得到結(jié)果的可信度越高,所以前一種更可 信一點(diǎn),在做個(gè)性化推薦時(shí)賦予的權(quán)重要更高一些。這種事件滿足統(tǒng)計(jì)學(xué)中的"二項(xiàng)分布", 為了解決這個(gè)問(wèn)題,我們加入了概率的置信區(qū)間。所謂"置信區(qū)間",就是說(shuō),以某個(gè)概率而 言,概率p會(huì)落在的那個(gè)區(qū)間。根據(jù)置信區(qū)間的下限來(lái)計(jì)算偏好程度。置信區(qū)間的寬窄與樣 本的數(shù)量有關(guān)。比如,用戶A對(duì)娛樂(lè)類與用戶A對(duì)互聯(lián)網(wǎng)標(biāo)簽的偏好程度都是0.5,但是在類 另IJ上的置信區(qū)間(假定[75%,85%])會(huì)比標(biāo)簽上的置信區(qū)間(假定[70%,90%])窄得多,因 此類別的置信區(qū)間的下限值(75%)會(huì)比標(biāo)簽(70%)大,所以,用戶類別更能表征用戶的需 求。置信區(qū)間的實(shí)質(zhì),就是進(jìn)行可信度的修正,彌補(bǔ)樣本量過(guò)小的影響。1927年,美國(guó)數(shù)學(xué)家 Edwin Bidwell Wilson提出了一個(gè)修正公式,被稱為〃威爾遜區(qū)間〃,很好地解決了小樣本 的準(zhǔn)確性問(wèn)題。威爾遜區(qū)間的下限值的計(jì)算公式是:
      [0142] 其中多表示的是屬性分布概率,η表示樣本大小
      表示對(duì)應(yīng)某個(gè)置信水平的ζ 統(tǒng)計(jì)量,是常數(shù),一般情況下,在95%的置信水平下,ζ統(tǒng)計(jì)量的值為1.96。
      [0143] 50篇點(diǎn)擊25次,之前計(jì)算的值為0.5,現(xiàn)在是0.37。
      [0144] 10篇點(diǎn)擊5次,之前計(jì)算的值為0.5,現(xiàn)在是0.24。
      [0145] 這種計(jì)算方式會(huì)起到拉低平均值的作用。
      [0146] 3)相似用戶的計(jì)算?,F(xiàn)實(shí)生活中,人們?cè)诿媾R不確定的選擇時(shí),會(huì)咨詢下周邊人的 看法。比如有什么好看的電影或者書(shū)籍,某某品牌的衣服或者化妝品如何如何。這就是個(gè)性 化推薦場(chǎng)景中的基于用戶的協(xié)同過(guò)濾思想。即發(fā)現(xiàn)與用戶喜好相近或者口味相似的用戶, 然后把這些用戶偏好的物品推薦出來(lái)。用戶興趣相似度最簡(jiǎn)單的方式是余弦相似度,但這 個(gè)方法過(guò)于粗糙。比如,在電商網(wǎng)站中很多用戶會(huì)選擇按照銷量排序,得到的都是熱門(mén)商 品,但有部分用戶會(huì)不斷的搜索和翻頁(yè)找到自己喜歡的商品。后一種方式更能反映用戶的 真實(shí)需求。也就是說(shuō),如果兩個(gè)用戶對(duì)冷門(mén)物品有過(guò)相同的行為的話,更能代表他們興趣的 相似度。John S.Breese提出了優(yōu)化的興趣相似度計(jì)算方法:
      [0148] N ( u )表示用戶u有過(guò)行為的物品列表,I N ( u ) I表示物品數(shù)量,公式中的
      削弱了用戶u和用戶v共同興趣列表中熱門(mén)物品對(duì)他們相似度計(jì)算的影響。
      [0149] 4)數(shù)據(jù)歸一化。不同的用戶屬性數(shù)值代表了不同的量綱。為了消除不同量綱的影 響,需要標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)的可比性。對(duì)用戶的相似用戶列表進(jìn)行歸一化處理:
      [0151] 其中simi(i)表示兩個(gè)用戶的相似度,min(sim)表示所有相似用戶中最小的相似 度,maX(sim)表示所有相似用戶中最大的相似度。這種線性函數(shù)的歸一化方法,是對(duì)原始數(shù) 據(jù)的等比例縮放,一定程度上反應(yīng)了數(shù)據(jù)的概率分布。
      [0152] 5)時(shí)間維度分析。用戶的行為數(shù)據(jù)隨著時(shí)間的推移,表征用戶興趣的能力在下降。 比如用戶一年的行為數(shù)據(jù)的價(jià)值就很少,時(shí)間越近表征用戶興趣和本質(zhì)需求的能力越強(qiáng)。 針對(duì)這一問(wèn)題,我們引入數(shù)據(jù)的時(shí)間衰減機(jī)制。衰減因子的計(jì)算方法如下:
      [0154] 其中time_diff表示某一次操作距離當(dāng)前時(shí)間的時(shí)間間隔,max_time_diff表示待 分析數(shù)據(jù)距離當(dāng)前時(shí)間最大的時(shí)間間隔,X是個(gè)調(diào)節(jié)系數(shù),可根據(jù)需要進(jìn)行動(dòng)態(tài)調(diào)整。這個(gè) 繼續(xù)方式是連續(xù)的,能夠精確表示數(shù)據(jù)的衰減特性。
      [0155] 另外,用戶本身需求也有時(shí)間周期性的,有的興趣會(huì)一直存在,有的興趣是臨時(shí)存 在。存在刻畫(huà)用戶需求的波動(dòng)特征。我們界定了用戶的長(zhǎng)期、短期和近期的用戶模型。長(zhǎng)期 需求能反應(yīng)用戶一直持續(xù)的興趣點(diǎn),短期需求用來(lái)刻畫(huà)用戶興趣點(diǎn)變更過(guò)程,近期刻畫(huà)用 戶一時(shí)興起的需求。比如用戶長(zhǎng)期一直喜歡看財(cái)經(jīng)類的新聞,近期喜歡上體育,開(kāi)始關(guān)注了 體育新聞。同事偶爾有個(gè)大事件發(fā)生,也臨時(shí)關(guān)注下。
      [0156] 目前長(zhǎng)期的用戶模型,我們通過(guò)取最近3個(gè)月的數(shù)據(jù)去分析挖掘,短期的取最近兩 周的數(shù)據(jù),近期的取最近24小之內(nèi)的。當(dāng)然這些時(shí)間點(diǎn)會(huì)隨著推薦效果的變化不斷調(diào)優(yōu)。
      [0157] 6)人群細(xì)分。用戶群體的劃分會(huì)根據(jù)業(yè)務(wù)場(chǎng)景的變化不斷調(diào)整。對(duì)于電商而言,我 們會(huì)根據(jù)用戶的各種行為日志去分析用戶對(duì)該電商的粘性程度、付費(fèi)意愿程度、對(duì)物品流 行度的關(guān)注程度、活躍程度、對(duì)大牌的喜好程度等,提供一個(gè)用戶的精確畫(huà)像用于個(gè)性化的 推薦和營(yíng)銷。
      [0158] 在本實(shí)施例中,最終得到用戶模型的數(shù)據(jù)格式如下:
      [0159] 〈userid,similar_ user-list,publisher-list,item-list,category-list,tag- list,price_ratio,fresh_ratio,...>
      [0160] 每一行表;^一個(gè)用戶的用戶模型。如圖5是本發(fā)明一實(shí)施例中的基于概率模型和 用戶行為分析的推薦系統(tǒng)的具體結(jié)構(gòu)關(guān)系示意圖,其中,
      [0161 ] similar_user_list相似列表501表示和用戶興趣相似的用戶列表,多個(gè),每一項(xiàng) 包括用戶userid和相似程度值。
      [0162] item_list物品列表502表示用戶偏好的物品列表,多個(gè),每一項(xiàng)包括物品itemid 及偏好權(quán)重。
      [0163] Brand_ 1 i s t品牌列表503表示用戶偏好的品牌列表,多個(gè),每一項(xiàng)包括類品牌 Brand及偏好權(quán)重。
      [0164] category_list類型列表505表示用戶偏好的類別列表,多個(gè),每一項(xiàng)包括類別 category id及偏好權(quán)重。
      [0165] tag_list標(biāo)簽列表504表示用戶偏好的標(biāo)簽列表,多個(gè),每一項(xiàng)包括標(biāo)簽tagid及 偏好權(quán)重。
      [0166] price_rati〇價(jià)格敏感度506表示用戶對(duì)物品價(jià)格的敏感程度。
      [0167] f resh_rat io新鮮敏感度507表示用戶對(duì)新物品的接受程度。
      [0168] 作為優(yōu)選地,還有用戶其它細(xì)分的屬性值508,包括:活躍度、高價(jià)值程度等。
      [0169] 4、個(gè)性化推薦
      [0170] 基于分析挖掘得到的用戶模型,得到用戶各個(gè)維度的興趣特征信息。這些信息都 是從某個(gè)角度刻畫(huà)用戶的信息需求,也就有自己特定的應(yīng)用場(chǎng)景,需要分開(kāi)處理。使用多種 推薦算法生成待推薦結(jié)果,最后進(jìn)行算法融合,得到了最終的用戶個(gè)性化推薦結(jié)果。如圖5 是本發(fā)明一實(shí)施例中的基于概率模型和用戶行為分析的推薦系統(tǒng)的具體結(jié)構(gòu)關(guān)系示意圖, 其中:
      [0171] 步驟S501基于用戶的協(xié)同過(guò)濾,主要思想是,找到與當(dāng)前用戶(userA)興趣相似的 用戶(userB),把這些相似用戶喜歡的同時(shí)當(dāng)前用戶不知道的物品(item)推薦給當(dāng)前用戶, 其中userA與userB的相似度記為simi,userB對(duì)item的喜歡程度記為bias,item本身的質(zhì)量 得分score。則把item推薦給userA的權(quán)重計(jì)算方式為:
      [0172] weight = simi*bias*score
      [0173] 這樣,對(duì)所有的相似用戶及用戶喜歡的物品進(jìn)行上述計(jì)算,得到推薦給userA的物 品列表及權(quán)重,按照權(quán)重從大到小排列,取權(quán)重最高的幾個(gè)物品,就得此算法的推薦結(jié)果。
      [0174] 步驟S502基于物品的協(xié)同過(guò)濾,預(yù)先計(jì)算好各個(gè)物品的相似物品列表,根據(jù)用戶 (user A)偏好的物品(i temA),把與此物品(i temA)相似的物品(i temB)推薦給用戶。物品相 似度記為simi,用戶對(duì)當(dāng)前物品(itemA)偏好程度記為bias,物品(itemB)本身的質(zhì)量得分 記為score,則將itemB推薦給用戶userA的權(quán)重計(jì)算方式為:
      [0175] weight = simi*bias*score
      [0176] 使用同樣的方式,得到待推薦的物品及權(quán)重,排序后去權(quán)重最高的部分物品。
      [0177] 步驟S503基于內(nèi)容的推薦,根據(jù)用戶偏好的類別、標(biāo)簽、品牌等與物品相關(guān)的信息 查找符合條件的物品推薦給用戶。其中,對(duì)類別、標(biāo)簽、品牌等的偏好程度記為bias,物品本 身的質(zhì)量得分為score,則把物品推薦給用戶的權(quán)重計(jì)算方式為:
      [0178] weight = bias 氺 score
      [0179] 這樣
      當(dāng)前第3頁(yè)1 2 3 4 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1