本發(fā)明屬于數(shù)據(jù)挖掘分析領(lǐng)域,特別一種基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法。
背景技術(shù):
近年來,基于用戶職業(yè)軌跡預(yù)測(cè)用戶職位變遷受到了越來越多研究人員的關(guān)注。所謂職位變遷預(yù)測(cè),通常是指根據(jù)用戶的歷史職業(yè)軌跡數(shù)據(jù)為基礎(chǔ),結(jié)合用戶的個(gè)體特征信息,若用戶存在職業(yè)的變遷行為,可以對(duì)用戶下一個(gè)職位的情況進(jìn)行預(yù)測(cè)。其中,歷史職業(yè)軌跡數(shù)據(jù)主要來源于用戶在職業(yè)社交網(wǎng)絡(luò)中所補(bǔ)充完善的數(shù)據(jù)。通過對(duì)歷史職業(yè)軌跡數(shù)據(jù)挖掘,構(gòu)建用戶職位變遷的時(shí)空模型,發(fā)現(xiàn)職位變遷影響因素,借助現(xiàn)有算法可以準(zhǔn)確的預(yù)測(cè)用戶職位變遷情況。
通過對(duì)用戶歷史職業(yè)軌跡數(shù)據(jù)的觀察,其中不難發(fā)現(xiàn),用戶職位變遷蘊(yùn)含著豐富的時(shí)空規(guī)律。舉例來說,中高層次的職位,對(duì)于下一個(gè)職位級(jí)別不會(huì)低于當(dāng)前職位級(jí)別;不同的學(xué)歷背景,對(duì)于職位的級(jí)別會(huì)產(chǎn)生影響,高學(xué)歷,會(huì)擁有較高級(jí)別的職位;工作經(jīng)驗(yàn),同樣會(huì)對(duì)職位級(jí)別造成影響。
技術(shù)實(shí)現(xiàn)要素:
為了解決在用戶職業(yè)變遷時(shí)對(duì)于所獲得職位情況的問題,本發(fā)明提供一種基于歷史職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法,該方法以用戶職業(yè)數(shù)據(jù)為基礎(chǔ),發(fā)現(xiàn)職位變遷影響因素,結(jié)合現(xiàn)有的決策樹方法,對(duì)職位變遷進(jìn)行預(yù)測(cè)。
為實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
一種基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法,其特征在于,包括以下驟:
S1、在數(shù)據(jù)庫中提取簡(jiǎn)歷,獲取用戶的歷史職業(yè)軌跡數(shù)據(jù);
S2、通過對(duì)大規(guī)模用戶職業(yè)軌跡數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分類對(duì)比,發(fā)現(xiàn)用戶職位變遷時(shí)空特征,構(gòu)建用戶職位變遷時(shí)空模型;
S3、從用戶職位變遷時(shí)空模型中,提取并量化用戶職位變遷的影響因素;
S4、根據(jù)職位變遷影響因素定義與量化,結(jié)合用戶的職位變遷數(shù)據(jù),通過決策樹算法訓(xùn)練職位變遷預(yù)測(cè)模型。
S5、以S4中職位變遷預(yù)測(cè)模型為基礎(chǔ),根據(jù)用戶的當(dāng)前職位P,預(yù)測(cè)用戶職業(yè)變遷后的職位P’。
進(jìn)一步地,一種基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法S1中歷史職業(yè)軌跡數(shù)據(jù)包含用戶的教育背景情況、歷史職位變遷、工作時(shí)間長度等數(shù)據(jù)信息;所述的歷史職位變遷包括所在公司的規(guī)模,所在職位的級(jí)別。
進(jìn)一步地,一種基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法S1中時(shí)空特征包括時(shí)間上用戶職位變遷的特征和職位上用戶職位變遷的特征。
進(jìn)一步地,一種基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法S2包含子步驟:S21:首先對(duì)分析用戶職位變遷在時(shí)間上的變化情況以及用戶工作的時(shí)間跨度,發(fā)現(xiàn)時(shí)間上特征;S22:然后對(duì)不同公司,不同職位和不同教育背景用戶的職位變化進(jìn)行統(tǒng)計(jì)和度量,研究變化規(guī)律,發(fā)現(xiàn)空間上特征;S23:最后從時(shí)間上和空間上對(duì)一個(gè)用戶職位上變化描述,通過數(shù)據(jù)擬合,發(fā)現(xiàn)用戶職位變化規(guī)律。
進(jìn)一步地,一種基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法中用戶職位變遷空間模型表示為用戶職位變遷各種信息:包括用戶職業(yè)軌跡數(shù)據(jù)中的時(shí)間信息,職位信息,公司信息以及個(gè)人教育背景用于描述用戶職位變遷信息。
進(jìn)一步地,一種基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法S3中所述影響因素包含:
公司因素其中no.代表公司員工數(shù)量;
職位因素其中po代表用戶職位的級(jí)別;
教育因素EF=∑De,其中De表示學(xué)歷,De的量化定義為:
時(shí)間因素DF=離職時(shí)間-入職時(shí)間;
職位累積因素
進(jìn)一步地,一種基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法中S4所述職位變遷預(yù)測(cè)模型包括三部分,分別為輸入端,預(yù)測(cè)部分和輸出端,輸入端為用戶的職位變遷數(shù)據(jù),預(yù)測(cè)端為提取數(shù)據(jù)中影響因素,根據(jù)訓(xùn)練的模型通過計(jì)算處理對(duì)職位進(jìn)行預(yù)測(cè),輸出端為用戶的下一個(gè)職位信息。
進(jìn)一步地,一種基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法中S3中所述影響因素包含:即從每一位用戶i的職位變遷數(shù)據(jù)中分別提取上述影響因素,構(gòu)成一個(gè)一位向量Vi={CFi,PFi,EFi,DFi,PAi},將Vi與下一個(gè)職位Pi一一對(duì)應(yīng),通過決策樹算法訓(xùn)練職位變遷預(yù)測(cè)模型。
本發(fā)明具有以下有益效果:
在該方法中,更加全面的利用了用戶歷史的職業(yè)數(shù)據(jù),發(fā)現(xiàn)了包括公司、職位、教育、時(shí)間、職位累積等多種職位變遷影響因素,從而獲得的更高的預(yù)測(cè)準(zhǔn)確率。
附圖說明
圖1為本發(fā)明基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法流程圖;
圖2為本發(fā)明基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法時(shí)間特征職位變化分布圖;
圖3為本發(fā)明基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法空間特征職位變化分布圖;
圖4為本發(fā)明基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法時(shí)間空間特征職位變化擬合示意圖;
圖5為本發(fā)明基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法職位預(yù)測(cè)示意圖;
圖6為本發(fā)明基于職業(yè)軌跡數(shù)據(jù)的職位變遷預(yù)測(cè)方法不同職位預(yù)預(yù)測(cè)準(zhǔn)確統(tǒng)計(jì)圖。
具體實(shí)施方式
為了使本發(fā)明的目的及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
S1、在數(shù)據(jù)庫中提取簡(jiǎn)歷,獲取用戶的歷史職業(yè)軌跡數(shù)據(jù)。
歷史職業(yè)軌跡數(shù)據(jù)包含用戶的教育背景情況、歷史職位變遷、工作時(shí)間長度等數(shù)據(jù)信息;歷史職位變遷包括所在公司的規(guī)模,所在職位的級(jí)別。將這些職業(yè)軌跡根據(jù)用戶個(gè)人信息和職位劃分為職位變遷的數(shù)據(jù)片段,即從一個(gè)職位到另一個(gè)職位。
在本實(shí)施例中,共10418位用戶的歷史職業(yè)軌跡數(shù)據(jù),劃分為46673條數(shù)據(jù)片段。
S2、通過對(duì)大規(guī)模用戶職業(yè)軌跡數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分類對(duì)比,發(fā)現(xiàn)用戶職位變遷時(shí)空特征,構(gòu)建用戶職位變遷時(shí)空模型。
對(duì)S1中職位變遷片段進(jìn)行研究分析,統(tǒng)計(jì)不同職位之間變化規(guī)律,以及在公司,時(shí)間,學(xué)歷不同條件下職位變化的規(guī)律。綜合規(guī)律,提出職位變化的時(shí)空特征,構(gòu)建職位變化時(shí)空模型,具體為:
S21:首先對(duì)分析用戶職位變遷在時(shí)間上的變化情況以及用戶工作的時(shí)間跨度,發(fā)現(xiàn)時(shí)間上特征,如圖2所示;
S22:然后對(duì)不同公司,不同職位和不同教育背景用戶的職位變化進(jìn)行統(tǒng)計(jì)和度量,研究變化規(guī)律,發(fā)現(xiàn)空間上特征,如圖3所示;
S23:最后從時(shí)間上和空間上對(duì)一個(gè)用戶職位上變化描述,通過數(shù)據(jù)擬合,發(fā)現(xiàn)用戶職位變化規(guī)律,如圖4所示,說明時(shí)間和空間共同影響職位變化情況。
以上所示圖例均為S1中大量數(shù)據(jù)的統(tǒng)計(jì)擬合分析所得。
S3、從用戶職位變遷時(shí)空模型中,提取并量化用戶職位變遷的影響因素。
本實(shí)施例中根據(jù)公司員工數(shù)量對(duì)公司因素進(jìn)行量化,根據(jù)職位級(jí)別對(duì)職位因素進(jìn)行量化,根據(jù)學(xué)位情況對(duì)教育因素進(jìn)行度量,根據(jù)工作時(shí)間對(duì)時(shí)間因素進(jìn)行度量,根據(jù)歷史上職位和時(shí)間兩個(gè)因素對(duì)職位累積因素進(jìn)行度量:
公司因素其中no.代表公司員工數(shù)量;
職位因素其中po代表用戶職位的級(jí)別;
教育因素EF=∑De,其中De表示學(xué)歷,De的量化定義為:
時(shí)間因素DF=離職時(shí)間-入職時(shí)間;
職位累積因素
S4、根據(jù)職位變遷影響因素定義與量化,結(jié)合用戶的職位變遷數(shù)據(jù),通過決策樹算法訓(xùn)練職位變遷預(yù)測(cè)模型。
職位變遷預(yù)測(cè)模型包括三部分,分別為輸入端,預(yù)測(cè)部分和輸出端,輸入端為用戶的職位變遷數(shù)據(jù),預(yù)測(cè)端為提取數(shù)據(jù)中影響因素,根據(jù)訓(xùn)練的模型通過計(jì)算處理對(duì)職位進(jìn)行預(yù)測(cè),輸出端為用戶的下一個(gè)職位信息。根據(jù)職位變遷影響因素,結(jié)合用戶的歷史職位數(shù)據(jù),將這些因素?cái)?shù)據(jù)作為訓(xùn)練輸入端,采用決策樹算法訓(xùn)練數(shù)據(jù),生成職位變遷預(yù)測(cè)模型本實(shí)施例中從每一位用戶i的職位變遷數(shù)據(jù)中分別提取上述影響因素,構(gòu)成一個(gè)一位向量Vi={CFi,PFi,EFi,DFi,PAi},將Vi與下一個(gè)職位Pi一一對(duì)應(yīng),通過決策樹算法訓(xùn)練職位變遷預(yù)測(cè)模型。
本實(shí)施例使用了S1中80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),進(jìn)行預(yù)測(cè)模型訓(xùn)練生成。
S5、以S4中職位變遷預(yù)測(cè)模型為基礎(chǔ),根據(jù)用戶的當(dāng)前職位,預(yù)測(cè)用戶職業(yè)變遷后的職位。
輸入用戶的歷史職業(yè)軌跡數(shù)據(jù),當(dāng)前公司、職位、教育背景、工作時(shí)間,通過預(yù)測(cè)模型進(jìn)行預(yù)測(cè)計(jì)算,生成下一個(gè)職位情況,如圖5所示。對(duì)于預(yù)測(cè)生成的職位仍舊采用S3中定義,用于對(duì)不同預(yù)測(cè)職位做準(zhǔn)確性判斷,本實(shí)施例使用剩余20%的步驟1中的數(shù)據(jù)用于預(yù)測(cè),不同職位預(yù)測(cè)準(zhǔn)確性結(jié)果如圖6所示,在本實(shí)施例中職位預(yù)測(cè)準(zhǔn)確率可達(dá)74%。
以上所述僅是本發(fā)明的實(shí)施過程,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。