基于先驗知識的人口屬性預測方法
【技術領域】
[0001 ]本發(fā)明屬于計算機技術領域,特別設及基于先驗知識的人口屬性預測方法。
【背景技術】
[0002] 人口屬性的信息在互聯(lián)網(wǎng)個性化服務中起到重要的作用。在線互聯(lián)網(wǎng)行為定向廣 告通過獲取用戶行為,分析其用戶屬性,從而實現(xiàn)定向投放的廣告。然而獲得用戶的屬性非 常困難,例如:獲取用戶的性別、年齡等數(shù)據(jù)往往十分困難。
[0003] 現(xiàn)有技術主要是通過用戶瀏覽、點擊和購買等行為作為模型預測的特征。具體步 驟為:首先,通過問卷調查或者公司自有數(shù)據(jù)庫信息,生成已知確定人口屬性的樣本集合; 然后使用邏輯回歸模型對用戶人口屬性進行預測。此種方法需要依靠已知人口屬性的樣本 集合才能實現(xiàn)用戶人口屬性的預測,由于樣本集合需要花費大量的人力、物力,往往很難收 集到;并且由于調查問卷是具有地域性的,導致數(shù)據(jù)經(jīng)常是有偏差的,例如收集的大部分是 上海的數(shù)據(jù),在預測全國用戶的人口屬性時不具有說服力和普遍性,就會存在很大的偏差。
[0004] 因此,計算機技術領域急需基于先驗知識的人口屬性預測方法,不需要依賴于任 何具體的已知人口屬性的用戶樣本集合,而是通過相對易得的熱口網(wǎng)站人口屬性分布數(shù) 據(jù),W及統(tǒng)計機器學習的方式,再根據(jù)用戶的網(wǎng)站訪問記錄預測出非熱口網(wǎng)站的人口屬性; 全自動化,無需人為操作,克服了人為因素、地域因素的影響,更加科學、可靠。
【發(fā)明內容】
[0005] 本發(fā)明提供了基于先驗知識的人口屬性預測方法,技術方案如下:
[0006] 基于先驗知識的人口屬性預測方法,包括如下步驟:
[0007] 步驟一,確認需要預測人口屬性的用戶,查看和整理該類用戶的一周訪問記錄; [000引步驟二,獲取熱口網(wǎng)站的人口屬性分布數(shù)據(jù);
[0009] 步驟Ξ,通過熱口網(wǎng)站人口屬性分布的數(shù)據(jù)推測非熱口網(wǎng)站人口屬性分布,具體 步驟為:
[0010] 針對每個非熱口網(wǎng)站,選取出相似度最高的η個熱口網(wǎng)站,提取選定的每個熱口網(wǎng) 站用戶的一周訪問矩陣Α;
[0011] 進一步地,根據(jù)熱口網(wǎng)站的訪問矩陣Α,計算得出非熱口網(wǎng)站與熱口網(wǎng)站的相似 度,相似度公式為:
[0012]
[0013] 其中,用戶訪問過網(wǎng)站記錄為1,未訪問過網(wǎng)站則記錄為0,sim(i,j)表示非熱口網(wǎng) 站j與熱口網(wǎng)站i的相似度,A康示用戶訪問過熱口網(wǎng)站i的矩陣,A康示用戶訪問過非熱口 網(wǎng)站j的矩陣,|Ai|表示Ai矩陣中非零元素的個數(shù),lAiflAjl表示Ai與Aj交集矩陣中非零元素 的個數(shù),I Ai U Aj I表示Ai與A說集矩陣中非零元素的個數(shù);
[0014] 進一步地,計算每個熱口網(wǎng)站i的人口屬性分布的平均值取作為熱口網(wǎng)站i的人口 屬性分布;
[0015]
[001 W 其中,Ra表示熱口網(wǎng)站i的第a個人口屬性,m表示熱口網(wǎng)站i的人口數(shù)量;
[0017]進一步地,計算全網(wǎng)的人口屬性分布的平均值瓦品,作為全網(wǎng)的人口屬性分布;
[001 引
[0019]其中,η表示熱口網(wǎng)站i的數(shù)量;
[0020] 進一步地,根據(jù)非熱口網(wǎng)站與熱口網(wǎng)站的相似度sim(i,j)、熱口網(wǎng)站i的人口屬性 分布的平均值露和全網(wǎng)的人口屬性分布的平均值記品.計算得出非熱口網(wǎng)站j的人口屬性 分布,具體公式如下:
[0021]
[0022] 其中,的表示非熱口網(wǎng)站的人口屬性分布,叫表示非熱口網(wǎng)站的數(shù)量。
[0023] 優(yōu)選的,在上述基于先驗知識的人口屬性預測方法中,步驟二中還包括:對獲取的 熱口網(wǎng)站的人口屬性分布數(shù)據(jù)進行優(yōu)化,具體步驟為:
[0024] (1)將一天中用戶訪問過的網(wǎng)站的行為表示為矩陣A、B,xd表示熱口網(wǎng)站在維度d 上標注的用戶屬性值,標注的用戶屬性值通過矩陣表示,進而得出網(wǎng)站男女性比例,當用戶 P訪問過網(wǎng)站q,則Ap, q = 1,Bq,P = 1 /nq,nq表示訪問網(wǎng)站q的用戶總數(shù);當表示用戶P未訪問過 網(wǎng)站q,則Ap,q = 0,Bq,p = 0,矩陣A中的元素用Ap,q表示,矩陣B中的元素用Bq,p表示;
[0025] (2)假設每個熱口網(wǎng)站中每個維度d上的權重值為Wd,則得出所有用戶在維度d上 的用戶屬性值Rd,具體公式如下:
[0026]
[0027] 其中,Dim表示每個網(wǎng)站中包含的維度數(shù)量;
[0028] (3)根據(jù)所有用戶在維度d上的用戶屬性值Rd,預測出該熱口網(wǎng)站的用戶屬性值Rm, 具體公式如下:
[0029] Rm=BXRd
[0030] 進一步地,計算網(wǎng)站預測的用戶屬性值和網(wǎng)站標注的用戶屬性值的差,即為 I悼況.…A'dll!;
[0031] (4)為了防止過擬合作用對網(wǎng)站的影響,我們對目標函數(shù)進行優(yōu)化,優(yōu)化的目標函 數(shù)f為:
[0032]
[003引其中,C I!味I!:!表示相鄰維度上標注的屬性值之間的差距值,為優(yōu)化公式的L2正則 項;
[0034] (5)依據(jù)BFGS算法對優(yōu)化的目標函數(shù)f進行求解;
[0035] 首先,設初始X日為話,權重W的初始值W日夫
1日表示單位矩陣,即
[0036] 目標函數(shù)f的導數(shù)F/為:
[0037] 盡?二化U…萬if%.、.,巧執(zhí)mO
[003引其中式:f是目標函數(shù)f對權重wi變量進行偏導,即:
[0039]
[0040] 然后,根據(jù)相鄰維度權重值之間的公式W及黃金分割算法計算得出ak值,具體公 式如下:
[0041 ]
[0042] 進一步地,采用BFGS算法,進行循環(huán)往復計算,直至|fk+i-fk|含ε,ε=〇.〇1,求出最 優(yōu)權重W;
[00創(chuàng)其中,康示用戶在維度k+1上的權重值,^<表示用戶在維度k上的權重值,Qk表示 步長,化表示維度k上的上的正定矩陣,。發(fā)是目標函數(shù)f對權重Wk變量進行的偏導,fk+l表示 用戶在維度k+1上的目標函數(shù),fk表示用戶在維度k上的目標函數(shù);
[0044] (6)將最優(yōu)權重W代入(2)的公式中,求出用戶的最優(yōu)人口屬性值Rm,再將用戶訪問 過該熱口網(wǎng)站的不同維度上的所有用戶的最優(yōu)人口屬性值Rm求取平均值,得到該熱口網(wǎng)站 的優(yōu)化人口屬性分布。
[0045] 優(yōu)選的,在上述基于先驗知識的人口屬性預測方法中,還包括步驟四,根據(jù)熱口網(wǎng) 站的人口屬性W及計算出的非熱口網(wǎng)站的人口屬性分布數(shù)據(jù),計算得出用戶的平均屬性。
[0046] 本發(fā)明的有益效果:
[0047] 1、本發(fā)明無需通過問卷調查或者公司自有數(shù)據(jù)庫信息,無需花費大量的人力、物 力;本發(fā)明通過現(xiàn)有購買的熱口網(wǎng)站的人口屬性分布數(shù)據(jù),即可W能夠計算出非熱口網(wǎng)站 的人口屬性分布數(shù)據(jù),克服了調查問卷所產(chǎn)生的地域性的、數(shù)據(jù)偏差的影響,計算更加科 學,實用,經(jīng)濟型強。
[004引2、本發(fā)明進一步地對購買的熱口網(wǎng)站的人口屬性分布數(shù)據(jù)進行了優(yōu)化處理,克服 了熱口網(wǎng)站人口屬性分布的誤差,使計算出來的非熱口網(wǎng)站的人口屬性分布更加精確、科 學、可靠。
[0049] 3、本發(fā)明無需人工操作,實現(xiàn)了自動化,具有深遠的意義。
【附圖說明】
[0050] 下面結合附圖和【具體實施方式】來詳細說明本發(fā)明:
[0051 ]圖1是基于先驗知識的人口屬性預測方法的流程圖。
【具體實施方式】
[0052]為了使本發(fā)明技術實現(xiàn)的措施、創(chuàng)作特征、達成目的與功效易于明白了解,下面將 結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然, 所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施 例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于 本發(fā)明保護的范圍。
[0化3]實施例1:
[0054] 圖1是基于先驗知識的人口屬性預測方法的流程圖。
[0055] 如圖1