国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于先驗知識的人口屬性預測方法

      文檔序號:9865607閱讀:806來源:國知局
      基于先驗知識的人口屬性預測方法
      【技術領域】
      [0001 ]本發(fā)明屬于計算機技術領域,特別設及基于先驗知識的人口屬性預測方法。
      【背景技術】
      [0002] 人口屬性的信息在互聯(lián)網(wǎng)個性化服務中起到重要的作用。在線互聯(lián)網(wǎng)行為定向廣 告通過獲取用戶行為,分析其用戶屬性,從而實現(xiàn)定向投放的廣告。然而獲得用戶的屬性非 常困難,例如:獲取用戶的性別、年齡等數(shù)據(jù)往往十分困難。
      [0003] 現(xiàn)有技術主要是通過用戶瀏覽、點擊和購買等行為作為模型預測的特征。具體步 驟為:首先,通過問卷調查或者公司自有數(shù)據(jù)庫信息,生成已知確定人口屬性的樣本集合; 然后使用邏輯回歸模型對用戶人口屬性進行預測。此種方法需要依靠已知人口屬性的樣本 集合才能實現(xiàn)用戶人口屬性的預測,由于樣本集合需要花費大量的人力、物力,往往很難收 集到;并且由于調查問卷是具有地域性的,導致數(shù)據(jù)經(jīng)常是有偏差的,例如收集的大部分是 上海的數(shù)據(jù),在預測全國用戶的人口屬性時不具有說服力和普遍性,就會存在很大的偏差。
      [0004] 因此,計算機技術領域急需基于先驗知識的人口屬性預測方法,不需要依賴于任 何具體的已知人口屬性的用戶樣本集合,而是通過相對易得的熱口網(wǎng)站人口屬性分布數(shù) 據(jù),W及統(tǒng)計機器學習的方式,再根據(jù)用戶的網(wǎng)站訪問記錄預測出非熱口網(wǎng)站的人口屬性; 全自動化,無需人為操作,克服了人為因素、地域因素的影響,更加科學、可靠。

      【發(fā)明內容】

      [0005] 本發(fā)明提供了基于先驗知識的人口屬性預測方法,技術方案如下:
      [0006] 基于先驗知識的人口屬性預測方法,包括如下步驟:
      [0007] 步驟一,確認需要預測人口屬性的用戶,查看和整理該類用戶的一周訪問記錄; [000引步驟二,獲取熱口網(wǎng)站的人口屬性分布數(shù)據(jù);
      [0009] 步驟Ξ,通過熱口網(wǎng)站人口屬性分布的數(shù)據(jù)推測非熱口網(wǎng)站人口屬性分布,具體 步驟為:
      [0010] 針對每個非熱口網(wǎng)站,選取出相似度最高的η個熱口網(wǎng)站,提取選定的每個熱口網(wǎng) 站用戶的一周訪問矩陣Α;
      [0011] 進一步地,根據(jù)熱口網(wǎng)站的訪問矩陣Α,計算得出非熱口網(wǎng)站與熱口網(wǎng)站的相似 度,相似度公式為:
      [0012]
      [0013] 其中,用戶訪問過網(wǎng)站記錄為1,未訪問過網(wǎng)站則記錄為0,sim(i,j)表示非熱口網(wǎng) 站j與熱口網(wǎng)站i的相似度,A康示用戶訪問過熱口網(wǎng)站i的矩陣,A康示用戶訪問過非熱口 網(wǎng)站j的矩陣,|Ai|表示Ai矩陣中非零元素的個數(shù),lAiflAjl表示Ai與Aj交集矩陣中非零元素 的個數(shù),I Ai U Aj I表示Ai與A說集矩陣中非零元素的個數(shù);
      [0014] 進一步地,計算每個熱口網(wǎng)站i的人口屬性分布的平均值取作為熱口網(wǎng)站i的人口 屬性分布;
      [0015]
      [001 W 其中,Ra表示熱口網(wǎng)站i的第a個人口屬性,m表示熱口網(wǎng)站i的人口數(shù)量;
      [0017]進一步地,計算全網(wǎng)的人口屬性分布的平均值瓦品,作為全網(wǎng)的人口屬性分布;
      [001 引
      [0019]其中,η表示熱口網(wǎng)站i的數(shù)量;
      [0020] 進一步地,根據(jù)非熱口網(wǎng)站與熱口網(wǎng)站的相似度sim(i,j)、熱口網(wǎng)站i的人口屬性 分布的平均值露和全網(wǎng)的人口屬性分布的平均值記品.計算得出非熱口網(wǎng)站j的人口屬性 分布,具體公式如下:
      [0021]
      [0022] 其中,的表示非熱口網(wǎng)站的人口屬性分布,叫表示非熱口網(wǎng)站的數(shù)量。
      [0023] 優(yōu)選的,在上述基于先驗知識的人口屬性預測方法中,步驟二中還包括:對獲取的 熱口網(wǎng)站的人口屬性分布數(shù)據(jù)進行優(yōu)化,具體步驟為:
      [0024] (1)將一天中用戶訪問過的網(wǎng)站的行為表示為矩陣A、B,xd表示熱口網(wǎng)站在維度d 上標注的用戶屬性值,標注的用戶屬性值通過矩陣表示,進而得出網(wǎng)站男女性比例,當用戶 P訪問過網(wǎng)站q,則Ap, q = 1,Bq,P = 1 /nq,nq表示訪問網(wǎng)站q的用戶總數(shù);當表示用戶P未訪問過 網(wǎng)站q,則Ap,q = 0,Bq,p = 0,矩陣A中的元素用Ap,q表示,矩陣B中的元素用Bq,p表示;
      [0025] (2)假設每個熱口網(wǎng)站中每個維度d上的權重值為Wd,則得出所有用戶在維度d上 的用戶屬性值Rd,具體公式如下:
      [0026]
      [0027] 其中,Dim表示每個網(wǎng)站中包含的維度數(shù)量;
      [0028] (3)根據(jù)所有用戶在維度d上的用戶屬性值Rd,預測出該熱口網(wǎng)站的用戶屬性值Rm, 具體公式如下:
      [0029] Rm=BXRd
      [0030] 進一步地,計算網(wǎng)站預測的用戶屬性值和網(wǎng)站標注的用戶屬性值的差,即為 I悼況.…A'dll!;
      [0031] (4)為了防止過擬合作用對網(wǎng)站的影響,我們對目標函數(shù)進行優(yōu)化,優(yōu)化的目標函 數(shù)f為:
      [0032]
      [003引其中,C I!味I!:!表示相鄰維度上標注的屬性值之間的差距值,為優(yōu)化公式的L2正則 項;
      [0034] (5)依據(jù)BFGS算法對優(yōu)化的目標函數(shù)f進行求解;
      [0035] 首先,設初始X日為話,權重W的初始值W日夫
      1日表示單位矩陣,即
      [0036] 目標函數(shù)f的導數(shù)F/為:
      [0037] 盡?二化U…萬if%.、.,巧執(zhí)mO
      [003引其中式:f是目標函數(shù)f對權重wi變量進行偏導,即:
      [0039]
      [0040] 然后,根據(jù)相鄰維度權重值之間的公式W及黃金分割算法計算得出ak值,具體公 式如下:
      [0041 ]
      [0042] 進一步地,采用BFGS算法,進行循環(huán)往復計算,直至|fk+i-fk|含ε,ε=〇.〇1,求出最 優(yōu)權重W;
      [00創(chuàng)其中,康示用戶在維度k+1上的權重值,^<表示用戶在維度k上的權重值,Qk表示 步長,化表示維度k上的上的正定矩陣,。發(fā)是目標函數(shù)f對權重Wk變量進行的偏導,fk+l表示 用戶在維度k+1上的目標函數(shù),fk表示用戶在維度k上的目標函數(shù);
      [0044] (6)將最優(yōu)權重W代入(2)的公式中,求出用戶的最優(yōu)人口屬性值Rm,再將用戶訪問 過該熱口網(wǎng)站的不同維度上的所有用戶的最優(yōu)人口屬性值Rm求取平均值,得到該熱口網(wǎng)站 的優(yōu)化人口屬性分布。
      [0045] 優(yōu)選的,在上述基于先驗知識的人口屬性預測方法中,還包括步驟四,根據(jù)熱口網(wǎng) 站的人口屬性W及計算出的非熱口網(wǎng)站的人口屬性分布數(shù)據(jù),計算得出用戶的平均屬性。
      [0046] 本發(fā)明的有益效果:
      [0047] 1、本發(fā)明無需通過問卷調查或者公司自有數(shù)據(jù)庫信息,無需花費大量的人力、物 力;本發(fā)明通過現(xiàn)有購買的熱口網(wǎng)站的人口屬性分布數(shù)據(jù),即可W能夠計算出非熱口網(wǎng)站 的人口屬性分布數(shù)據(jù),克服了調查問卷所產(chǎn)生的地域性的、數(shù)據(jù)偏差的影響,計算更加科 學,實用,經(jīng)濟型強。
      [004引2、本發(fā)明進一步地對購買的熱口網(wǎng)站的人口屬性分布數(shù)據(jù)進行了優(yōu)化處理,克服 了熱口網(wǎng)站人口屬性分布的誤差,使計算出來的非熱口網(wǎng)站的人口屬性分布更加精確、科 學、可靠。
      [0049] 3、本發(fā)明無需人工操作,實現(xiàn)了自動化,具有深遠的意義。
      【附圖說明】
      [0050] 下面結合附圖和【具體實施方式】來詳細說明本發(fā)明:
      [0051 ]圖1是基于先驗知識的人口屬性預測方法的流程圖。
      【具體實施方式】
      [0052]為了使本發(fā)明技術實現(xiàn)的措施、創(chuàng)作特征、達成目的與功效易于明白了解,下面將 結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然, 所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施 例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于 本發(fā)明保護的范圍。
      [0化3]實施例1:
      [0054] 圖1是基于先驗知識的人口屬性預測方法的流程圖。
      [0055] 如圖1
      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1