用于計(jì)算排序分及建立模型的方法、裝置及商品推薦系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及排序技術(shù),具體涉及一種用于計(jì)算待評價(jià)客體排序分的方法。本申請 同時(shí)提供一種用于計(jì)算待評價(jià)客體排序分的裝置,一種用于建立排序分計(jì)算模型的方法和 裝置,以及一種商品推薦系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及和網(wǎng)站技術(shù)的發(fā)展,越來越多的用戶選擇在網(wǎng)上瀏覽、挑選、或 者購買自己需要的商品。在這種情況下,很多網(wǎng)站都不同程度地采用各種形式的推薦技術(shù) 向用戶進(jìn)行商品推薦,比較通用的做法是選取特定的排序因子,并按照預(yù)先設(shè)定的排序算 法計(jì)算待推薦商品的排序分,然后按照排序分值的高低選擇并推薦商品。
[0003] 在計(jì)算排序分的過程中所采用的排序因子是指,影響最終商品排序的因素,通常 可以選擇與商品相關(guān)的屬性作為排序因子,例如:價(jià)格、銷量、交易次數(shù)、買家數(shù)、熱搜詞次 數(shù)等;依據(jù)上述排序因子計(jì)算排序分的算法也是多種多樣的,通常根據(jù)應(yīng)用場景是否需要 引入新的排序因子,可以分為以下兩種實(shí)現(xiàn)方案:
[0004] 1)在日常排序場景(比如搜索,聚劃算等場景)下,影響最終排序結(jié)果的排序因 子較為穩(wěn)定,通常不會(huì)有新增排序因子融入進(jìn)來,因此通常采用建立模型的方式,而且模型 一般會(huì)設(shè)計(jì)的相對復(fù)雜,將每個(gè)特征(即:排序因子)與最終目標(biāo)的各種可能關(guān)系都考慮進(jìn) 來,并利用機(jī)器學(xué)習(xí)的方式來確定模型中的各個(gè)排序因子的權(quán)重系數(shù)。如果要在這種場景 下新增排序因子,通常需要修改已建立的模型,并重新求解模型中的所有排序因子的權(quán)重 系數(shù)。
[0005] 2)在新增業(yè)務(wù)排序因子較多的場景(例如,大促活動(dòng)專場的排行榜場景)下,影響 最終排序結(jié)果的排序因子較多,并且需要根據(jù)業(yè)務(wù)場景的特點(diǎn)在原有的常規(guī)排序因子的基 礎(chǔ)上引入新的排序因子,例如,賣家的交易等級、賣家的VIP會(huì)員的膠易額等。因此通常 采用比較簡單的方法計(jì)算排序分,即:根據(jù)專家經(jīng)驗(yàn)給定原有排序因子與新增排序因子之 間的權(quán)重系數(shù)(該權(quán)重系數(shù)反映了排序因子對最終排序結(jié)果的影響力),再用各個(gè)排序因 子的值與其權(quán)重系數(shù)相乘求和,得出最終的排序分,計(jì)算公式如下所示,其中Y為最終的排 序分,Wi為專家經(jīng)驗(yàn)給出的排序因子A的權(quán)重系數(shù)。
[0006] Y = ¥^!+. . . +wnfn
[0007] 通過上面的描述可以看出,采用現(xiàn)有技術(shù)的第1)種方式引入新的排序因子,因?yàn)?模型的變化,需要重新采集大量的訓(xùn)練數(shù)據(jù)并采用機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,重新計(jì)算新模 型的各個(gè)排序因子的權(quán)重系數(shù)值,然后才能依據(jù)該模型計(jì)算商品的排序分,整個(gè)過程比較 復(fù)雜;采用第2)種方式引入新的排序因子時(shí),人工干預(yù)的因素比較大,排序因子的權(quán)重系 數(shù)完全依靠專家的主觀經(jīng)驗(yàn)進(jìn)行設(shè)定,因此計(jì)算出來的排序分很可能不夠準(zhǔn)確,無法相對 客觀地反映商品實(shí)際的排序狀況。
【發(fā)明內(nèi)容】
[0008] 本申請?zhí)峁┮环N用于計(jì)算待評價(jià)客體排序分的方法和裝置,以解決現(xiàn)有技術(shù)無法 方便地引入新的排序因子、以及單純依賴專家經(jīng)驗(yàn)設(shè)置權(quán)重系數(shù)導(dǎo)致排序分計(jì)算結(jié)果不準(zhǔn) 確的問題。本申請另外提供一種用于建立排序分計(jì)算模型的方法和裝置,以及一種商品推 薦系統(tǒng)。
[0009] 本申請?zhí)峁┮环N用于計(jì)算待評價(jià)客體排序分的方法,包括:
[0010] 獲取待評價(jià)客體的原始評分?jǐn)?shù)據(jù)、新增排序因子的值、以及以實(shí)際交互行為系統(tǒng) 中對應(yīng)每個(gè)待評價(jià)客體的歷史行為數(shù)據(jù)為根據(jù),從中提取的對應(yīng)特定排序目標(biāo)的實(shí)際行為 數(shù)據(jù);
[0011] 以根據(jù)所述實(shí)際行為數(shù)據(jù)得到的實(shí)際排序分布、和根據(jù)預(yù)先設(shè)定的排序分計(jì)算模 型得到的預(yù)測排序分布之間的差異最小化為優(yōu)化目標(biāo),求解所述排序分計(jì)算模型中的新增 排序因子的權(quán)重系數(shù);
[0012] 以所述待評價(jià)客體的原始評分?jǐn)?shù)據(jù)、所述新增排序因子的值以及計(jì)算得到的所述 新增排序因子權(quán)重系數(shù)的值為輸入,采用所述排序分計(jì)算模型計(jì)算所述待評價(jià)客體的排序 分。
[0013] 可選的,在所述排序分計(jì)算模型中,針對每個(gè)新增排序因子采用冪次項(xiàng)求和的表 示方式;
[0014] 相應(yīng)的,所述新增排序因子的權(quán)重系數(shù)是指權(quán)重系數(shù)序列,所述序列中的每個(gè)權(quán) 重系數(shù)都與所述新增排序因子的一個(gè)冪次項(xiàng)相對應(yīng)。
[0015] 可選的,所述針對每個(gè)新增排序因子采用冪次項(xiàng)求和的表示方式具體是指,采用 四冪次項(xiàng)求和的表示方式。
[0016] 可選的,當(dāng)所述交互行為系統(tǒng)為在線交易系統(tǒng)時(shí),所述特定排序目標(biāo)為:點(diǎn)擊數(shù)、 交易量或者交易金額。
[0017] 可選的,所述實(shí)際排序分布和預(yù)測排序分布之間的差異具體是指,所述兩個(gè)分布 之間的KL距離。
[0018] 可選的,所述以根據(jù)所述實(shí)際行為數(shù)據(jù)得到的實(shí)際排序分布、和根據(jù)預(yù)先設(shè)定的 排序分計(jì)算模型得到的預(yù)測排序分布之間的差異最小化為優(yōu)化目標(biāo),求解所述排序分計(jì)算 模型中的新增排序因子的權(quán)重系數(shù),包括:
[0019] 通過計(jì)算待評價(jià)客體的所述實(shí)際行為數(shù)據(jù)與全部待評價(jià)客體的所述實(shí)際行為數(shù) 據(jù)總和的比值,獲取所述待評價(jià)客體的實(shí)際排序分布;
[0020] 以所述待評價(jià)客體的原始評分?jǐn)?shù)據(jù)、所述新增排序因子的值和所述新增排序因子 權(quán)重系數(shù)的當(dāng)前值為輸入,采用所述排序分計(jì)算模型計(jì)算所述待評價(jià)客體的預(yù)測排序分; 所述新增排序因子權(quán)重系數(shù)的當(dāng)前值是指,采用本方法上一次計(jì)算得到的所述權(quán)重系數(shù)的 值;
[0021] 以所述新增排序因子的權(quán)重系數(shù)為未知數(shù),將所述待評價(jià)客體的原始評分?jǐn)?shù)據(jù)、 所述新增排序因子的值代入所述排序分計(jì)算模型,并根據(jù)得到的表達(dá)式與待評價(jià)客體的所 述預(yù)測排序分的總和,獲取以所述新增排序因子的權(quán)重系數(shù)表示的預(yù)測排序分布;
[0022] 獲取所述實(shí)際排序分布和所述預(yù)測排序分布之間的KL距離的表達(dá)式;
[0023] 以所述KL距離表達(dá)式的值最小化為優(yōu)化目標(biāo),求解所述新增排序因子的權(quán)重系 數(shù)的值。
[0024] 可選的,所述以所述KL距離表達(dá)式的值最小化為優(yōu)化目標(biāo),求解所述新增排序因 子的權(quán)重系數(shù)的值是指,采用隨機(jī)梯度下降算法或者邏輯回歸優(yōu)化算法求解。
[0025] 可選的,在所述獲取所述待評價(jià)客體的實(shí)際排序分布和所述計(jì)算所述待評價(jià)客體 的預(yù)測排序分的步驟后,執(zhí)行下述操作:
[0026] 通過計(jì)算所述待評價(jià)客體的預(yù)測排序分與全部待評價(jià)客體的預(yù)測排序分總和的 比值,獲取所述待評價(jià)客體的預(yù)測排序分布;
[0027] 計(jì)算所述實(shí)際排序分布和所述預(yù)測排序分布之間的KL距離值;
[0028] 判斷所述KL距離值與上次采用本方法計(jì)算得到的KL距離值相比較,其數(shù)值減小 的比例是否小于預(yù)先設(shè)定的閾值;
[0029] 若是,則在后續(xù)使用本方法計(jì)算待評價(jià)客體排序分的過程中,不再執(zhí)行所述求解 所述排序分計(jì)算模型中的新增排序因子的權(quán)重系數(shù)的步驟;相應(yīng)的,所述以所述待評價(jià)客 體的原始評分?jǐn)?shù)據(jù)、所述新增排序因子的值以及計(jì)算得到的所述新增排序因子權(quán)重系數(shù)的 值為輸入,采用所述排序分計(jì)算模型計(jì)算所述待評價(jià)客體的排序分是指,以最近一次計(jì)算 得到的所述新增排序因子權(quán)重系數(shù)的值為輸入進(jìn)行求解。
[0030] 可選的,在第一次執(zhí)行所述采用所述排序分計(jì)算模型計(jì)算所述待評價(jià)客體的預(yù)測 排序分的步驟時(shí),將所述新增排序因子權(quán)重系數(shù)的當(dāng)前值設(shè)置為預(yù)先設(shè)定的初始值。
[0031] 可選的,在執(zhí)行所述求解所述排序分計(jì)算模型中的新增排序因子的權(quán)重系數(shù)的步 驟之前,執(zhí)行下述操作:
[0032] 判斷所述待評價(jià)客體的數(shù)目是否大于求解新增排序因子權(quán)重系數(shù)所需待評價(jià)客 體的預(yù)定數(shù)量;
[0033] 若是,按照所述待評價(jià)客體的原始評分?jǐn)?shù)據(jù)從大到小的順序,從中選擇所述預(yù)定 數(shù)量的待評價(jià)客體,作為后續(xù)使用本方法求解所述新增排序因子的權(quán)重系數(shù)所采用的待評 價(jià)客體。
[0034] 相應(yīng)的,本申請還提供一種用于計(jì)算待評價(jià)客體排序分的裝置,包括:
[0035] 數(shù)據(jù)獲取單元,用于獲取待評價(jià)客體的原始評分?jǐn)?shù)據(jù)、新增排序因子的值、以及以 實(shí)際交互行為系統(tǒng)中對應(yīng)每個(gè)待評價(jià)客體的歷史行為數(shù)據(jù)為根據(jù),從中提取的對應(yīng)特定排 序目標(biāo)的實(shí)際行為數(shù)據(jù);
[0036] 權(quán)重系數(shù)計(jì)算單元,用于以根據(jù)所述實(shí)際行為數(shù)據(jù)得到的實(shí)際排序分布、和根據(jù) 預(yù)先設(shè)定的排序分計(jì)算模型得到的預(yù)測排序分布之間的差異最小化為優(yōu)化目標(biāo),求解所述 排序分計(jì)算模型中的新增排序因子的權(quán)重系數(shù);
[0037] 排序分計(jì)算單元,用于以所述待評價(jià)客體的原始評分?jǐn)?shù)據(jù)、所述新增排序因子的 值以及計(jì)算得到的所述新增排序因子權(quán)重系數(shù)的值為輸入,采用所述排序分計(jì)算模型計(jì)算 所述待評價(jià)客體的排序分。
[0038] 可選的,所述權(quán)重系數(shù)計(jì)算單元和所述排序分計(jì)算單元采用的排序分計(jì)算模型 中,針對每個(gè)新增排序因子采用冪次項(xiàng)求和的表示方式。
[0039] 可選的,所述權(quán)重系數(shù)計(jì)算單元具體用于,以根據(jù)所述實(shí)際行為數(shù)據(jù)得到的實(shí)際 排序分布、和根據(jù)預(yù)先設(shè)定的排序分計(jì)算模型得到的預(yù)測排序分布之間的KL距離最小化 為優(yōu)化目標(biāo),求解所述排序分計(jì)算模型中的新增排序因子的權(quán)重系數(shù)。
[0040] 可選的,所述權(quán)重系數(shù)計(jì)算單元包括:
[0041] 實(shí)際排序分布獲取子單元,用于通過計(jì)算待評價(jià)客體的所述實(shí)際行為數(shù)據(jù)與全部 待評價(jià)客體的所述實(shí)際行為數(shù)據(jù)總和的比值,獲取所述待評價(jià)客體的實(shí)際排序分布;
[0042] 預(yù)測排序分計(jì)算子單元,用于以所述待評價(jià)客體的原始評分?jǐn)?shù)據(jù)、所述新增排序 因子的值和所述新增排序因子權(quán)重系數(shù)的當(dāng)前值為輸入,采用所述排序分計(jì)算模型計(jì)算所 述待評價(jià)客體的預(yù)測排序分;所述新增排序因子權(quán)重系數(shù)的當(dāng)前值是指,采用本方法上一 次計(jì)算得到的所述權(quán)重系數(shù)的值;
[0043] 預(yù)測排序分布表達(dá)式獲取子單元,用于以所述新增排序因子的權(quán)重系數(shù)為未知 數(shù),將所述待評價(jià)客體的原始評分?jǐn)?shù)據(jù)、所述新增排序因子的值代入所述排序分計(jì)算模型, 并根據(jù)得到的表達(dá)式與待評價(jià)客體的所述預(yù)測排序分的總和,獲取以所述新增排序因子的 權(quán)重系數(shù)表示的預(yù)測排序分布;
[0044] KL距離表達(dá)式獲取子單元,用于獲取所述實(shí)際排序分布和所述預(yù)測排序分布之間 的KL距離的表達(dá)式;
[0045] 權(quán)重系數(shù)求解子單元,用于以所述KL距離表達(dá)式的值最小化為優(yōu)化目標(biāo),求解所 述新增排序因子的權(quán)重系數(shù)的值。
[0046] 可選的,所述權(quán)重系數(shù)求解子單元具體用于,采用隨機(jī)梯度下降算法或者邏輯回 歸優(yōu)化算法求解所述新增排序因子的權(quán)重系數(shù)。
[0047] 可選的,所述權(quán)重系數(shù)計(jì)算單元還包括:
[0048] 預(yù)測排序分布獲取子單元,用于在獲取所述待評價(jià)客體的實(shí)際排序分布和計(jì)算所 述待評價(jià)客體的預(yù)測排序分之后,通過計(jì)算所述待評價(jià)客體的預(yù)測排序分與全部待評價(jià)客 體的預(yù)測排序分總和的比值,獲取所述待評價(jià)客體的預(yù)測排序分布;
[0049] KL距離值計(jì)算子單元,用于計(jì)算所述實(shí)際排序分布和所述預(yù)測排序分布獲取子單 元輸出的預(yù)測排序分布之間的KL距離值;
[0050] KL距離值判斷子單元,用于判斷所述KL距離值與上次采用本方法計(jì)算得到的KL 距離值相比較,其數(shù)值減小的比例是否小于預(yù)先設(shè)定的閾值;若是,則在后續(xù)使用本裝置計(jì) 算待評價(jià)客體排序分的過程中,不再觸發(fā)所述權(quán)重系數(shù)計(jì)算單元及其子單元工作,相應(yīng)的, 所述排序分計(jì)算單元具體用于以所述待評價(jià)客體的原始評分?jǐn)?shù)據(jù)、所述新增排序因子的值 以及最近一次計(jì)算得到的所述新增排序因子權(quán)重系數(shù)的值為輸入進(jìn)行求解。
[0051] 可選的,第一次觸發(fā)所述預(yù)測排序分計(jì)算子單元工作時(shí),將所述新增排序因子權(quán) 重系數(shù)的當(dāng)前值設(shè)置為預(yù)先設(shè)定的初始值。
[0052] 可選的,所述裝置還包括:
[0053] 客體數(shù)目判斷子單元,用于在觸發(fā)所述權(quán)重系數(shù)計(jì)算單元工作之前,判斷所述待 評價(jià)客體的數(shù)目是否大于求解新增排序因子權(quán)重系數(shù)所需待評價(jià)客體的預(yù)定數(shù)量;
[0054] 客體選擇子單元,用于當(dāng)所述客體數(shù)目判斷子單元的輸出為"是"時(shí),按照所述待 評價(jià)客體的原始評分?jǐn)?shù)據(jù)從大到小的順序,從中選擇所述預(yù)定數(shù)量的待評價(jià)客體,作為后 續(xù)使用本方法求解所述新增排序因子的權(quán)重系數(shù)所采用的待評價(jià)客體。
[0055] 此外,本申請還提供一種用于建立排序分計(jì)算模型的方法,包括:
[0056] 獲取待評價(jià)客體的原始評分?jǐn)?shù)據(jù)、新增排序因子的值、以及以實(shí)際交互行為系統(tǒng) 中對應(yīng)每個(gè)待評價(jià)客體的歷史行為數(shù)據(jù)為根據(jù),從中提取的對應(yīng)特定排序目標(biāo)的實(shí)際行為 數(shù)據(jù);
[0057] 計(jì)算根據(jù)所述實(shí)際行為數(shù)據(jù)得到的實(shí)際排序分布、和采用預(yù)先設(shè)定的排序分計(jì)算 模型得到的預(yù)測排序分布之間的差