基于先驗知識的人口屬性預測方法

文檔序號：9865607閱讀：806來源：國知局

基于先驗知識的人口屬性預測方法
【技術領域】
[0001 ]本發(fā)明屬于計算機技術領域，特別設及基于先驗知識的人口屬性預測方法。
【背景技術】
[0002] 人口屬性的信息在互聯(lián)網(wǎng)個性化服務中起到重要的作用。在線互聯(lián)網(wǎng)行為定向廣告通過獲取用戶行為，分析其用戶屬性，從而實現(xiàn)定向投放的廣告。然而獲得用戶的屬性非常困難，例如:獲取用戶的性別、年齡等數(shù)據(jù)往往十分困難。
[0003] 現(xiàn)有技術主要是通過用戶瀏覽、點擊和購買等行為作為模型預測的特征。具體步驟為:首先，通過問卷調查或者公司自有數(shù)據(jù)庫信息，生成已知確定人口屬性的樣本集合；然后使用邏輯回歸模型對用戶人口屬性進行預測。此種方法需要依靠已知人口屬性的樣本集合才能實現(xiàn)用戶人口屬性的預測，由于樣本集合需要花費大量的人力、物力，往往很難收集到;并且由于調查問卷是具有地域性的，導致數(shù)據(jù)經(jīng)常是有偏差的，例如收集的大部分是上海的數(shù)據(jù)，在預測全國用戶的人口屬性時不具有說服力和普遍性，就會存在很大的偏差。
[0004] 因此，計算機技術領域急需基于先驗知識的人口屬性預測方法，不需要依賴于任何具體的已知人口屬性的用戶樣本集合，而是通過相對易得的熱口網(wǎng)站人口屬性分布數(shù) 據(jù)，W及統(tǒng)計機器學習的方式，再根據(jù)用戶的網(wǎng)站訪問記錄預測出非熱口網(wǎng)站的人口屬性；全自動化，無需人為操作，克服了人為因素、地域因素的影響，更加科學、可靠。

【發(fā)明內容】

[0005] 本發(fā)明提供了基于先驗知識的人口屬性預測方法，技術方案如下：
[0006] 基于先驗知識的人口屬性預測方法，包括如下步驟：
[0007] 步驟一，確認需要預測人口屬性的用戶，查看和整理該類用戶的一周訪問記錄； [000引步驟二，獲取熱口網(wǎng)站的人口屬性分布數(shù)據(jù)；
[0009] 步驟Ξ，通過熱口網(wǎng)站人口屬性分布的數(shù)據(jù)推測非熱口網(wǎng)站人口屬性分布，具體步驟為：
[0010] 針對每個非熱口網(wǎng)站，選取出相似度最高的η個熱口網(wǎng)站，提取選定的每個熱口網(wǎng) 站用戶的一周訪問矩陣Α;
[0011] 進一步地，根據(jù)熱口網(wǎng)站的訪問矩陣Α，計算得出非熱口網(wǎng)站與熱口網(wǎng)站的相似度，相似度公式為：
[0012]
[0013] 其中，用戶訪問過網(wǎng)站記錄為1，未訪問過網(wǎng)站則記錄為0，sim(i，j)表示非熱口網(wǎng) 站j與熱口網(wǎng)站i的相似度，A康示用戶訪問過熱口網(wǎng)站i的矩陣，A康示用戶訪問過非熱口網(wǎng)站j的矩陣，|Ai|表示Ai矩陣中非零元素的個數(shù)，lAiflAjl表示Ai與Aj交集矩陣中非零元素的個數(shù)，I Ai U Aj I表示Ai與A說集矩陣中非零元素的個數(shù)；
[0014] 進一步地，計算每個熱口網(wǎng)站i的人口屬性分布的平均值取作為熱口網(wǎng)站i的人口屬性分布；
[0015]
[001 W 其中，Ra表示熱口網(wǎng)站i的第a個人口屬性，m表示熱口網(wǎng)站i的人口數(shù)量；
[0017]進一步地，計算全網(wǎng)的人口屬性分布的平均值瓦品，作為全網(wǎng)的人口屬性分布；
[001 引
[0019]其中，η表示熱口網(wǎng)站i的數(shù)量；
[0020] 進一步地，根據(jù)非熱口網(wǎng)站與熱口網(wǎng)站的相似度sim(i，j)、熱口網(wǎng)站i的人口屬性分布的平均值露和全網(wǎng)的人口屬性分布的平均值記品.計算得出非熱口網(wǎng)站j的人口屬性分布，具體公式如下：
[0021]
[0022] 其中，的表示非熱口網(wǎng)站的人口屬性分布，叫表示非熱口網(wǎng)站的數(shù)量。
[0023] 優(yōu)選的，在上述基于先驗知識的人口屬性預測方法中，步驟二中還包括:對獲取的熱口網(wǎng)站的人口屬性分布數(shù)據(jù)進行優(yōu)化，具體步驟為：
[0024] (1)將一天中用戶訪問過的網(wǎng)站的行為表示為矩陣A、B，xd表示熱口網(wǎng)站在維度d 上標注的用戶屬性值，標注的用戶屬性值通過矩陣表示，進而得出網(wǎng)站男女性比例，當用戶 P訪問過網(wǎng)站q，則Ap, q = 1，Bq,P = 1 /nq，nq表示訪問網(wǎng)站q的用戶總數(shù)；當表示用戶P未訪問過網(wǎng)站q，則Ap,q = 0，Bq,p = 0，矩陣A中的元素用Ap,q表示，矩陣B中的元素用Bq,p表示；
[0025] (2)假設每個熱口網(wǎng)站中每個維度d上的權重值為Wd，則得出所有用戶在維度d上的用戶屬性值Rd，具體公式如下：
[0026]
[0027] 其中，Dim表示每個網(wǎng)站中包含的維度數(shù)量；
[0028] (3)根據(jù)所有用戶在維度d上的用戶屬性值Rd，預測出該熱口網(wǎng)站的用戶屬性值Rm，具體公式如下：
[0029] Rm=BXRd
[0030] 進一步地，計算網(wǎng)站預測的用戶屬性值和網(wǎng)站標注的用戶屬性值的差，即為 I悼況.…A'dll!;
[0031] (4)為了防止過擬合作用對網(wǎng)站的影響，我們對目標函數(shù)進行優(yōu)化，優(yōu)化的目標函數(shù)f為：
[0032]
[003引其中，C I!味I!:!表示相鄰維度上標注的屬性值之間的差距值，為優(yōu)化公式的L2正則項；
[0034] (5)依據(jù)BFGS算法對優(yōu)化的目標函數(shù)f進行求解；
[0035] 首先，設初始X日為話，權重W的初始值W日夫
1日表示單位矩陣，即
[0036] 目標函數(shù)f的導數(shù)F/為：
[0037] 盡?二化U…萬if%.、.，巧執(zhí)mO
[003引其中式:f是目標函數(shù)f對權重wi變量進行偏導，即：
[0039]
[0040] 然后，根據(jù)相鄰維度權重值之間的公式W及黃金分割算法計算得出ak值，具體公式如下：
[0041 ]
[0042] 進一步地，采用BFGS算法，進行循環(huán)往復計算，直至|fk+i-fk|含ε，ε=〇.〇1，求出最優(yōu)權重W;
[00創(chuàng)其中，康示用戶在維度k+1上的權重值，^<表示用戶在維度k上的權重值，Qk表示步長，化表示維度k上的上的正定矩陣，。發(fā)是目標函數(shù)f對權重Wk變量進行的偏導，fk+l表示用戶在維度k+1上的目標函數(shù)，fk表示用戶在維度k上的目標函數(shù)；
[0044] (6)將最優(yōu)權重W代入(2)的公式中，求出用戶的最優(yōu)人口屬性值Rm，再將用戶訪問過該熱口網(wǎng)站的不同維度上的所有用戶的最優(yōu)人口屬性值Rm求取平均值，得到該熱口網(wǎng)站的優(yōu)化人口屬性分布。
[0045] 優(yōu)選的，在上述基于先驗知識的人口屬性預測方法中，還包括步驟四，根據(jù)熱口網(wǎng) 站的人口屬性W及計算出的非熱口網(wǎng)站的人口屬性分布數(shù)據(jù)，計算得出用戶的平均屬性。
[0046] 本發(fā)明的有益效果：
[0047] 1、本發(fā)明無需通過問卷調查或者公司自有數(shù)據(jù)庫信息，無需花費大量的人力、物力；本發(fā)明通過現(xiàn)有購買的熱口網(wǎng)站的人口屬性分布數(shù)據(jù)，即可W能夠計算出非熱口網(wǎng)站的人口屬性分布數(shù)據(jù)，克服了調查問卷所產(chǎn)生的地域性的、數(shù)據(jù)偏差的影響，計算更加科學，實用，經(jīng)濟型強。
[004引2、本發(fā)明進一步地對購買的熱口網(wǎng)站的人口屬性分布數(shù)據(jù)進行了優(yōu)化處理，克服了熱口網(wǎng)站人口屬性分布的誤差，使計算出來的非熱口網(wǎng)站的人口屬性分布更加精確、科學、可靠。
[0049] 3、本發(fā)明無需人工操作，實現(xiàn)了自動化，具有深遠的意義。
【附圖說明】
[0050] 下面結合附圖和【具體實施方式】來詳細說明本發(fā)明：
[0051 ]圖1是基于先驗知識的人口屬性預測方法的流程圖。
【具體實施方式】
[0052]為了使本發(fā)明技術實現(xiàn)的措施、創(chuàng)作特征、達成目的與功效易于明白了解，下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
[0化3]實施例1:
[0054] 圖1是基于先驗知識的人口屬性預測方法的流程圖。
[0055] 如圖1

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：湯奇峰;吳鄭偉;
技術所有人：晶贊廣告（上海）有限公司;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于先驗知識的人口屬性預測方法