国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于計(jì)算機(jī)系統(tǒng)的推薦方法及其裝置的制造方法

      文檔序號:9929552閱讀:393來源:國知局
      基于計(jì)算機(jī)系統(tǒng)的推薦方法及其裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及W計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)的推薦技術(shù),特別涉及基于計(jì)算機(jī)系統(tǒng)的推薦方法 及其裝置。
      【背景技術(shù)】
      [0002] 推薦算法通常分為基于內(nèi)容的推薦,基于關(guān)聯(lián)規(guī)則的推薦,基于協(xié)同過濾推薦,W 及一些基本方法的組合。然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),當(dāng)前CF(Coll油orative Filtering, 協(xié)同過濾)算法存在一些問題,特別是在分布式環(huán)境下,有些問題更加明顯,從CF運(yùn)行邏輯 來理解,算法瓶頸主要在W下H個(gè)地方:
      [0003] 第一點(diǎn)存在于數(shù)據(jù)規(guī)模中,無論哪次推薦,分布式框架的每個(gè)計(jì)算節(jié)點(diǎn)都要保留 全局?jǐn)?shù)據(jù),因?yàn)槊總€(gè)re化cer不能提前得知當(dāng)前節(jié)點(diǎn)被分配的是哪些用戶,所W只存儲(chǔ)局 部數(shù)據(jù)會(huì)影響數(shù)據(jù)精度。送時(shí)每個(gè)re化cer就被實(shí)例化為一個(gè)小型的推薦場景。假設(shè)共有 t單位的計(jì)算資源,則全局?jǐn)?shù)據(jù)被兀余存儲(chǔ)了 t-1份,同時(shí)每個(gè)re化cer在真正的推薦過程 中只會(huì)遇到小部分?jǐn)?shù)據(jù)計(jì)算,其它數(shù)據(jù)也會(huì)造成極大的資源浪費(fèi)。因此當(dāng)數(shù)據(jù)規(guī)模較大時(shí), 無論從時(shí)間上還是存儲(chǔ)上,對每個(gè)計(jì)算節(jié)點(diǎn)都是巨大的負(fù)擔(dān)。在我們的實(shí)驗(yàn)過程中,由于編 程語言W及編譯器的本地設(shè)計(jì),當(dāng)用戶或者項(xiàng)目任一數(shù)據(jù)量超過千萬級時(shí),必然會(huì)出現(xiàn)數(shù) 組過大越界問題,當(dāng)用戶或者項(xiàng)目任一數(shù)據(jù)量在千萬級別時(shí),則由于集群中各個(gè)計(jì)算節(jié)點(diǎn) 的配置參差不齊,有些低配節(jié)點(diǎn)就會(huì)出現(xiàn)內(nèi)存不足問題。
      [0004] 第二點(diǎn)為數(shù)據(jù)傾斜問題。從CF算法過程來看,無論是基于項(xiàng)目還是基于用戶, 我們都需要計(jì)算項(xiàng)目之間的相似度。送里存在一個(gè)隱蔽的問題:實(shí)際應(yīng)用場景中,有些 項(xiàng)目屬于"活躍份子",有些屬于"不活躍份子",例如在使用MapRe化Ce化amework時(shí),在 <key, value〉數(shù)據(jù)schema(模式)下,有些key對應(yīng)的value會(huì)很多,有些會(huì)很少,送種數(shù)量 不一致,參差不齊的情況,稱為數(shù)據(jù)傾斜(data skew)。當(dāng)value數(shù)量在不同key之間相差 3個(gè)W上數(shù)量級時(shí),在計(jì)算項(xiàng)目之間相似度過程中就會(huì)造成嚴(yán)重的數(shù)據(jù)傾斜,"活躍份子"導(dǎo) 致計(jì)算時(shí)間長尾。同理,在推薦過程中,有些用戶之前積累的行為多,有些用戶之前積累的 行為少,送時(shí)"活躍用戶"就會(huì)拖累整體計(jì)算過程。
      [0005] 第H點(diǎn)為數(shù)據(jù)稀疏問題。在對象集合中,產(chǎn)生關(guān)系的對象對很少;可W理解為把所 有對象劃分為一個(gè)矩陣,其中(i,j)表示第i個(gè)用戶和第j個(gè)項(xiàng)目之間的關(guān)系,如果大多數(shù) 點(diǎn)均為0 (表示沒有關(guān)系),則定義為數(shù)據(jù)稀疏。數(shù)據(jù)稠密與之相反。特別是初始數(shù)據(jù)往往 是不完全的,送時(shí)在計(jì)算項(xiàng)目之間相似度時(shí)就很容易出現(xiàn)數(shù)據(jù)稀疏問題,即用戶項(xiàng)目矩陣 的大部分位置都是0。

      【發(fā)明內(nèi)容】

      [0006] 本發(fā)明的目的在于提供一種基于計(jì)算機(jī)系統(tǒng)的推薦方法及其裝置,可W在大數(shù)據(jù) 下實(shí)現(xiàn)高效的推薦方法,保證了系統(tǒng)的穩(wěn)定性和推薦的多樣性。
      [0007] 為解決上述技術(shù)問題,本發(fā)明的實(shí)施方式公開了一種基于計(jì)算機(jī)系統(tǒng)的推薦方 法,該方法包括W下步驟:
      [000引獲取各用戶對各項(xiàng)目的項(xiàng)目評分記錄;
      [0009] 根據(jù)每個(gè)用戶的項(xiàng)目評分記錄進(jìn)行聚類,將用戶特征數(shù)據(jù)劃分到R個(gè)類別中,R是 大于1的整數(shù);
      [0010] 在每個(gè)類別的用戶特征數(shù)據(jù)中,基于項(xiàng)目為目標(biāo)用戶推薦項(xiàng)目。
      [0011] 本發(fā)明的實(shí)施方式還公開了一種基于計(jì)算機(jī)系統(tǒng)的推薦裝置,裝置包括:
      [0012] 用戶項(xiàng)目初始關(guān)系計(jì)算模塊,用于獲取各用戶對各項(xiàng)目的項(xiàng)目評分記錄;
      [0013] 聚類模塊,用于根據(jù)用戶項(xiàng)目初始關(guān)系計(jì)算模塊獲取的每個(gè)用戶的項(xiàng)目評分記錄 進(jìn)行聚類,將用戶特征數(shù)據(jù)劃分到R個(gè)類別中,R是大于1的整數(shù);W及
      [0014] 推薦模塊,用于在聚類模塊所劃分的每個(gè)類別的用戶特征數(shù)據(jù)中,基于項(xiàng)目為目 標(biāo)用戶推薦項(xiàng)目。
      [0015] 本發(fā)明實(shí)施方式與現(xiàn)有技術(shù)相比,主要區(qū)別及其效果在于:
      [0016] 在本發(fā)明的推薦方法中,先根據(jù)每個(gè)用戶的項(xiàng)目評分記錄進(jìn)行聚類,將用戶特征 數(shù)據(jù)劃分到多個(gè)類別中,再在每個(gè)類別的用戶特征數(shù)據(jù)中基于項(xiàng)目為目標(biāo)用戶推薦項(xiàng)目, 可W在大數(shù)據(jù)下實(shí)現(xiàn)高效的推薦方法,保證了系統(tǒng)的穩(wěn)定性和推薦的多樣性。
      [0017] 進(jìn)一步地,每個(gè)計(jì)算節(jié)點(diǎn)不需要保存所有類別的用戶特征數(shù)據(jù),避免了內(nèi)存不足 的問題。
      [0018] 進(jìn)一步地,對于每個(gè)類別中的每個(gè)項(xiàng)目或每個(gè)用戶,只選取與其關(guān)系最強(qiáng)的幾個(gè) 項(xiàng)目,而不是保留與其有關(guān)系的所有項(xiàng)目,可W避免關(guān)系較弱的項(xiàng)目產(chǎn)生的數(shù)據(jù)傾斜問題。
      [0019] 進(jìn)一步地,采用數(shù)據(jù)稀疏度對數(shù)據(jù)稀疏問題進(jìn)行檢測,并在發(fā)現(xiàn)數(shù)據(jù)稀疏問題后, 通過項(xiàng)目間的二度關(guān)系進(jìn)行相似度補(bǔ)全,W避免數(shù)據(jù)稀疏對推薦準(zhǔn)確度的影響。
      [0020] 進(jìn)一步地,根據(jù)用戶數(shù)量來選擇是否要對用戶進(jìn)行聚類,W更好地適應(yīng)于小數(shù)據(jù) 下和大數(shù)據(jù)下的項(xiàng)目推薦。
      【附圖說明】
      [0021] 圖1是本發(fā)明第一實(shí)施方式中一種基于計(jì)算機(jī)系統(tǒng)的推薦方法的流程示意圖;
      [0022] 圖2本發(fā)明第一實(shí)施方式中一種基于計(jì)算機(jī)系統(tǒng)的推薦方法中聚類判斷的流程 示意圖;
      [0023] 圖3是本發(fā)明第二實(shí)施方式中一種基于計(jì)算機(jī)系統(tǒng)的推薦方法中推薦步驟的流 程TK意圖;
      [0024] 圖4是本發(fā)明第二實(shí)施方式中一種基于計(jì)算機(jī)系統(tǒng)的推薦方法中推薦步驟的流 程TK意圖;
      [0025] 圖5是本發(fā)明第二實(shí)施方式中一種基于計(jì)算機(jī)系統(tǒng)的推薦方法中推薦步驟的流 程TK意圖;
      [0026] 圖6是本發(fā)明第二實(shí)施方式中一種基于計(jì)算機(jī)系統(tǒng)的推薦方法中數(shù)據(jù)補(bǔ)全的流 程TK意圖;
      [0027] 圖7是現(xiàn)有的計(jì)算用戶相似度的示意圖;
      [0028] 圖8和圖9是現(xiàn)有的基于用戶的協(xié)同過濾的示意圖;
      [0029] 圖10和圖11是現(xiàn)有的基于項(xiàng)目的協(xié)同過濾的示意圖;
      [0030] 圖12是現(xiàn)有的實(shí)現(xiàn)分布式CF算法的MapRe化Ce框架圖;
      [0031] 圖13是本發(fā)明第二實(shí)施方式中一種基于計(jì)算機(jī)系統(tǒng)的推薦方法的流程示意圖;
      [0032] 圖14是本發(fā)明第二實(shí)施方式中一種基于計(jì)算機(jī)系統(tǒng)的推薦方法的流程示意圖;
      [0033] 圖15是本發(fā)明第H實(shí)施方式中一種基于計(jì)算機(jī)系統(tǒng)的推薦裝置的結(jié)構(gòu)示意圖;
      [0034] 圖16是本發(fā)明第四實(shí)施方式中一種基于計(jì)算機(jī)系統(tǒng)的推薦裝置中推薦模塊的結(jié) 構(gòu)示意圖。
      【具體實(shí)施方式】
      [0035] 在W下的敘述中,為了使讀者更好地理解本申請而提出了許多技術(shù)細(xì)節(jié)。但是,本 領(lǐng)域的普通技術(shù)人員可W理解,即使沒有送些技術(shù)細(xì)節(jié)和基于W下各實(shí)施方式的種種變化 和修改,也可W實(shí)現(xiàn)本申請各權(quán)利要求所要求保護(hù)的技術(shù)方案。
      [0036] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明的實(shí)施 方式作進(jìn)一步地詳細(xì)描述。
      [0037] 本發(fā)明第一實(shí)施方式涉及一種基于計(jì)算機(jī)系統(tǒng)的推薦方法。圖1是該基于計(jì)算機(jī) 系統(tǒng)的推薦方法的流程示意圖。如圖1所示,該方法包括W下步驟:
      [0038] 在步驟101中,獲取各用戶對各項(xiàng)目的項(xiàng)目評分記錄。可W理解,在本發(fā)明的各個(gè) 實(shí)施方式中,項(xiàng)目可W為商品、服務(wù)或其它推薦對象。
      [0039] 此后進(jìn)入步驟102,根據(jù)每個(gè)用戶的項(xiàng)目評分記錄進(jìn)行聚類,將用戶特征數(shù)據(jù)劃 分到R個(gè)類別中,R是大于1的整數(shù)??蒞理解,在本發(fā)明的各個(gè)實(shí)施方式中,可W采用 K-means算法直接對用戶特征數(shù)據(jù)進(jìn)行聚類,也可W先采用Canopy算法進(jìn)行粗聚類,再采 用K-means算法進(jìn)行細(xì)聚類。
      [0040] 先采用Canopy算法進(jìn)行粗聚類,再采用K-means算法進(jìn)行細(xì)聚類,在保證準(zhǔn)確性 的同時(shí),提高了聚類速度。
      [00川此外,可W理解,用戶特征數(shù)據(jù)是由用戶信息、項(xiàng)目信息和用戶對項(xiàng)目的評分記錄 組成的數(shù)據(jù)。
      [0042] 此后進(jìn)入步驟103,在每個(gè)類別的用戶特征數(shù)據(jù)中,基于項(xiàng)目為目標(biāo)用戶推薦項(xiàng) 目??蒞理解,在本發(fā)明的各個(gè)實(shí)施方式中,可W采用基于協(xié)同過濾、基于關(guān)聯(lián)規(guī)則或基于 效用的推薦算法來為目標(biāo)用戶推薦項(xiàng)目。
      [0043] 此后結(jié)束本流程。
      [0044] 當(dāng)然,在本發(fā)明的其他實(shí)施方式中,也可W W項(xiàng)目為對象進(jìn)行聚類,再在每個(gè)類別 的用戶特征數(shù)據(jù)中基于用戶來為目標(biāo)用戶推薦項(xiàng)目,或是聚類和推薦都基于用戶或都基于 項(xiàng)目。
      [0045] 在本實(shí)施方式的推薦方法中,先根據(jù)每個(gè)用戶的項(xiàng)目評分記錄進(jìn)行聚類,將用戶 特征數(shù)據(jù)劃分到多個(gè)類別中,再在每個(gè)類別的用戶特征數(shù)據(jù)中基于項(xiàng)目為目標(biāo)用戶推薦項(xiàng) 目,可W在大數(shù)據(jù)下實(shí)現(xiàn)高效的推薦方法,保證了系統(tǒng)的穩(wěn)定性和推薦的多樣性。
      [0046] 優(yōu)選地,上述計(jì)算機(jī)系統(tǒng)為分布式系統(tǒng)。該計(jì)算機(jī)系統(tǒng)包括至少兩個(gè)計(jì)算節(jié)點(diǎn)。
      [0047] 在步驟103中,將各類別的用戶特征數(shù)據(jù)分配給多個(gè)計(jì)算節(jié)點(diǎn),每個(gè)計(jì)算節(jié)點(diǎn)最 多保存R - 1個(gè)類別的用戶特征數(shù)據(jù),每個(gè)計(jì)算節(jié)點(diǎn)在所保存的每個(gè)類別的用戶特征數(shù)據(jù) 中基于項(xiàng)目為目標(biāo)用戶推薦項(xiàng)目。每個(gè)計(jì)算節(jié)點(diǎn)不需要保存所有類別的用戶特征數(shù)據(jù),避 免了內(nèi)存不足的問題。
      [0048] 優(yōu)選地,每個(gè)計(jì)算節(jié)點(diǎn)保存一個(gè)類別的用戶特征數(shù)據(jù)并進(jìn)行處理。此外,可W理 解,在本發(fā)明的各實(shí)施方式中,可W根據(jù)各計(jì)算節(jié)點(diǎn)的配置將兩個(gè)或兩個(gè)W上類別的用戶 特征數(shù)據(jù)分配給高配置的計(jì)算節(jié)點(diǎn)進(jìn)行處理。當(dāng)然,在用戶特征數(shù)據(jù)量不是很大的時(shí)候,也 可W由一個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行處理。
      [0049] 作為可選實(shí)施方式,如圖2所示,在步驟102前還包括W下步驟:
      [0050] 在步驟201中,判斷用戶數(shù)量是否大于用戶規(guī)模闊值。若用戶數(shù)量小于用戶規(guī)模 闊值,則進(jìn)入步驟202 ;若用戶數(shù)量大于用戶規(guī)模闊值,則進(jìn)入步驟102。
      [0051] 在步驟202中,直接在
      當(dāng)前第1頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1