基于時空偏好的興趣點推薦方法
【專利摘要】本發(fā)明提出了一個新的聯(lián)合用戶時間、空間偏好特性的興趣點推薦方法。該方法實現(xiàn)了一個類似LDA主題模型的概率生成模型,引入了簽到主題z和中心區(qū)域r兩個隱變量。綜合考慮了用戶不同時段出行規(guī)律和內(nèi)在興趣特征,以及簽到位置的距離影響力等多因素。最終通過Foursquare數(shù)據(jù)集實驗論證,在區(qū)域數(shù)為50,簽到主題數(shù)為150時,針對TOP?5推薦時本方法的推薦準確度可達25%;針對TOP?20推薦,推薦準確度可以達到34%。本模型能較好適用于帶有地理位置的興趣點推薦等領(lǐng)域。
【專利說明】基于時空偏好的興趣點推薦方法 所屬技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及用戶簽到位置的興趣點推薦研究,是基于用戶時間、空間偏好特征的 興趣點推薦方法。
【背景技術(shù)】
[0002] 隨著移動互聯(lián)網(wǎng)與智能手機的普及,餐廳、電影院、商鋪、賓館等傳統(tǒng)服務(wù)也從線 下走到了線上。用戶隨時隨地都可以輕松預(yù)訂這些線上服務(wù),也可以對這些服務(wù)體驗評論, 打分。興趣點P0I(P〇int of Interest)推薦成為了幫助用戶選擇出行簽到目的地的有效方 法。根據(jù)用戶以往在各個興趣點位置的歷史簽到記錄,針對用戶在當前時刻當前位置的查 詢請求,將當前時空背景下最有可能去的POI推薦給用戶。準確的推薦不但能提升用戶體 驗,還能將更多的用戶需求轉(zhuǎn)化為商品購買行為。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明提出了一個新的聯(lián)合用戶時間、空間偏好特性的興趣點推薦方法。該方法 實現(xiàn)了一個類似LDA主題模型的概率生成模型,引入了簽到主題z和中心區(qū)域r兩個隱變量。 首先將用戶不同時段的出行簽到記錄當作一篇文檔,用用戶不同時段對中心區(qū)域的多項分 布表示用戶出行偏好;用戶不同時段對簽到主題的多項分布表示用戶興趣。最終 通過多個數(shù)據(jù)集實驗論證,本方法的推薦準確度最好可以達到34%。
[0004] 本發(fā)明的核心思想是用四個Dirichlet-Multinomial共輒結(jié)構(gòu)描述了一個興趣點 的概率生成過程,用于興趣點推薦時的概率計算。并推導出了主題-區(qū)域隱變量對的后驗概 率,以及4個共輒結(jié)構(gòu)中每個多項分布的參數(shù)更新公式,用于Gibbs迭代采樣求出模型四個 多項分布的參數(shù)估計。該思想能將用戶個性化特征用概率分布量化表達,用于更準確的興 趣點推薦。
[0005] 本發(fā)明的有益效果是,通過對用戶出行規(guī)律和內(nèi)在興趣的捕捉,能更準確全面地 綜合考慮用戶出行簽到的各種影響因素。進而實現(xiàn)對用戶興趣點簽到行為的預(yù)測,向用戶 推薦當前時刻最可能去的地方。提升用戶體驗的同時,促進了用戶潛在需求向商品購買行 為轉(zhuǎn)化。
【附圖說明】
[0006] 下面結(jié)合附圖對本發(fā)明進行進一步說明。
[0007] 圖1興趣點概率生成模型。
[0008] 圖2模型參數(shù)更新方法。
[0009] 圖3 Foursquare東京數(shù)據(jù)集推薦測試結(jié)果。
【具體實施方式】
[0010] 如圖1所示,本方法認為用戶選擇一個興趣點主要受當前時間出行偏好和內(nèi)在興 趣聯(lián)合確定;并考慮了出行距離的影響力。比如某用戶在上午9點左右,一般都是出去吃完 早飯,趕公交或地鐵去工作區(qū)域上班;那么出行上自然對他的工作區(qū)域偏好較大,而興趣上 則對早餐、咖啡、面包店和附近地鐵興趣較高。本方法用四個Dirichlet-Multinomial共輒 結(jié)構(gòu)分別對用戶出行、興趣以及簽到主題、出行區(qū)域進行建模。如公式2-1所示:
[00"]
(2.1}
[0012] 其中,~為用戶u在時段t內(nèi),對多個簽到主題的偏好,也用多項分布描述;0ut表示 用戶u在時段t內(nèi),對多個隱區(qū)域的偏好,用多項分布描述。φζν是學習到簽到主題在興趣點上 的全局分布特征,對所有用戶都一樣的概率分布。Φ ζν根據(jù)全局所有用戶簽到記錄的共現(xiàn)頻 率(興趣點一起在某篇文檔中出現(xiàn))學習到的潛在語義,也可以理解為興趣點的自動聚類。 Φ rv描述的一個區(qū)域內(nèi)的V被生成的概率大小,可以理解為越流行的,生成概率越大。Q1,α 2, α3,α4為Dirchlet先驗概率,避免模型過擬合。
[0013] 由于dPz都是離散變量,所以聯(lián)合概率就是dPz兩兩任意組合的概率求和。T表示 模型所有參數(shù)集合,?表示時間的二維變量,(〇,2)表示工作日第二個時間段,(1,2)表示周 末一天中第二個時間段。每一個興趣點POI的訪問概率如下所示:
[0014]
(3-2)·
[0015] 為方便建立模型,假設(shè)潛在主題z和隱區(qū)域r的生成是相互獨立的,則上述概率可 以分解為兩個獨立概率乘積形式。
[0016]
(2-3)
[0017] 針對一個確定的區(qū)域-主題對(r,z),一個興趣點V的生成概率由區(qū)域、主題共同生 成。如公式2-4所示:
[0018]
(2-4)
[0019]將公式2-3、2-4代入2-2得到興趣點V被多個因素生成的聯(lián)合概率公式:
[0020] (2-5)
[0021]該公式將用于后面為用戶推薦時,計算每一個V可能被用戶u訪問的概率。由于該 模型是基于區(qū)域-主題對的概率生成模型,模型認為每一個可見變量V都可能由任何一個 (r,z)對生成,所以聯(lián)合概率是對(r,z)累積求和。興趣點選擇過程中各個影響因素分析如 下:
[0022] 1.時間特性因素
[0023]本方法優(yōu)先考慮時間特性對用戶簽到出行的影響,用兩個多項分布%/,。、慫/,,分 別描述用戶在不同時段,對簽到主題和中心區(qū)域的喜好差異。
[0024] 2.用戶興趣因素
[0025] 公式2-5中的仍表示用戶?時刻的興趣偏好在生成V的過程中影響作用,之前 的多數(shù)研究都是用戶直接對主題建模,本方法首次嘗試對用戶不同時間段上單獨描述興趣 特征。這無疑更能準確捕捉用戶的個性化興趣差異。比如某用戶習慣早上上班前去健身房 鍛煉,在之前的主題模型中,也能判斷出用戶對健身感興趣,但由于主題在時間上的分布是 建立在全局的,而大多數(shù)用戶都是下午或晚上健身,早上向該用戶推薦的興趣點將不會有 健身相關(guān)內(nèi)容。
[0026] 3.出行規(guī)律因素
[0027] 0,,表示從以往的簽到出行記錄軌跡來看,用戶當前時刻最有可能會去的中心區(qū) 域。之前的生成模型認為用戶對區(qū)域的偏好在任何時刻都是一樣。即使在晚上,也有可能工 作區(qū)域恰好距離用戶當前位置更近,而只向用戶推薦工作區(qū)域附近的興趣點,而無疑用戶 當前最可能選擇回家。
[0028] 4.距離影響力
[0029] P(lv|pr,1)表示待推薦的興趣點Iv與當前位置1間的距離對聯(lián)合概率的懲罰強度。 距離也小,懲罰越小,生成概率越大。本文為方便計算,用戶位置和興趣點位置在區(qū)域下的 二維高斯分布概率乘積近似表示距離懲罰因子。
[0030] 實際使用該方法時,先按圖2所示,通過歷史數(shù)據(jù)集學習到每個用戶的特征參數(shù)及 全局的主題和區(qū)域參數(shù),即四個多項分布的概率矩陣。根據(jù)區(qū)域-主題隱變量對的后驗概率 公式2-6,通過20個Gibbs采樣迭代周期,估計吐
[0031]
[0032] 針對每個數(shù)據(jù)集,調(diào)節(jié)區(qū)域和主題數(shù),選擇推薦準確度最高的參數(shù)組合作為該城 市的推薦參數(shù)。再按公式2-5計算每個興趣點生成概率,并向用戶推薦概率最高的N個興趣 點。該方法在Foursquare東京數(shù)據(jù)集上推薦測試結(jié)果如圖3所示。
【主權(quán)項】
1. 用戶簽到行為同時受當前時間、出行規(guī)律、內(nèi)在興趣以及出行距離等多種因素影響。 基于用戶時間、空間偏好特征的興趣點推薦方法其特征在于,參考了LDA主題模型,引入隱 變量對:簽到主題和出行區(qū)域,通過一個聯(lián)合概率生成過程進行興趣點推薦。2. 根據(jù)權(quán)利1所述的基于用戶時間、空間偏好特征的興趣點推薦方法,其特征在于用四 個多項分布分別描述用戶當前時間段出行規(guī)律、內(nèi)在興趣特征,以及一個城市簽到主題和 中心區(qū)域的聚類特征。3. 根據(jù)權(quán)利1所述的基于用戶時間、空間偏好特征的興趣點推薦方法,其特征在于用區(qū) 域-主題隱變量對的后驗概率進行Gibbs采樣,學習出權(quán)利2中所述的四個多項分布的概率 估計;并用于權(quán)利1所述的聯(lián)合概率生成過程進行興趣點被訪問的概率計算。
【文檔編號】G06Q30/02GK106056413SQ201610402819
【公開日】2016年10月26日
【申請日】2016年6月6日
【發(fā)明人】彭艦, 劉華山, 陳瑜, 寧黎苗, 黃飛虎, 李夢詩, 劉唐, 徐文政, 黎紅友
【申請人】四川大學