一種預(yù)測模型的建立方法及終端的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子計算領(lǐng)域,尤其涉及一種預(yù)測模型的建立方法及終端。
【背景技術(shù)】
[0002]廣告點(diǎn)擊率(Click-Through Rate)預(yù)估是互聯(lián)網(wǎng)計算廣告中的關(guān)鍵環(huán)節(jié),CTR預(yù)估的準(zhǔn)確性直接影響公司廣告收入。
[0003]目前,在對精準(zhǔn)內(nèi)容(如廣告投放/媒體推薦等)的點(diǎn)擊率進(jìn)行預(yù)測時,通常是通過建立CTR預(yù)測模型進(jìn)行預(yù)測。目前CTR預(yù)測模型主要是利用GBDT模型進(jìn)行建立CTR預(yù)測模型。但是,在利用GBDT(Gradient Boosting Decis1n Tree,梯度提升決策樹)模型進(jìn)行建立CTR預(yù)測模型時,樣本包括的特征信息中可包括枚舉型特征信息,枚舉型特征信息可如用戶的性別、所在地點(diǎn)等,該特征信息取值眾多,而由于GBDT模型較為復(fù)雜,無法支持非常大規(guī)模的訓(xùn)練數(shù)據(jù),因此也無法支持取值多的枚舉型特征信息。這使得GBDT模型在對樣本進(jìn)行訓(xùn)練時,往往是丟棄掉包括枚舉型特征信息的樣本進(jìn)行訓(xùn)練,這使得GBDT模型訓(xùn)練的樣本類型過少,從而使得訓(xùn)練獲得的CTR預(yù)測模型無法準(zhǔn)確預(yù)估結(jié)果,從而降低預(yù)測準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例所要解決的技術(shù)問題在于,提供一種預(yù)測模型的建立方法及終端??墒沟媒K端基于GBDT模型對枚舉型特征信息進(jìn)行訓(xùn)練獲得預(yù)測模型,提高預(yù)測模型的準(zhǔn)確性。
[0005]為了解決上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種預(yù)測模型的建立方法,包括:
[0006]從預(yù)置的第一訓(xùn)練樣本庫中獲取包括枚舉型特征信息的樣本;
[0007]將所述枚舉型特征信息轉(zhuǎn)換為所述枚舉型特征所對應(yīng)的權(quán)重,獲得包括所述權(quán)重的樣本;
[0008]從預(yù)置的第一訓(xùn)練樣本庫中獲取包括數(shù)值型特征信息的樣本,基于梯度提升決策樹GBDT模型對包括所述權(quán)重的樣本和包括所述數(shù)值型特征信息的樣本進(jìn)行訓(xùn)練,獲得預(yù)測模型。
[0009]其中,所述獲取預(yù)置的第一訓(xùn)練樣本庫之前包括:
[0010]從預(yù)置的第二訓(xùn)練樣本庫中獲取樣本,其中,所述樣本包括所述枚舉型特征信息;
[0011]采用邏輯回歸模型對所述樣本進(jìn)行訓(xùn)練,獲得所述枚舉型特征信息所對應(yīng)的權(quán)重;
[0012]建立所述枚舉型特征信息與所述權(quán)重的對應(yīng)關(guān)系。
[0013]其中,所述將所述枚舉型特征信息轉(zhuǎn)換為所述枚舉型特征所對應(yīng)的權(quán)重,獲得包括所述權(quán)重的樣本包括:
[0014]根據(jù)所述枚舉型特征信息與所述權(quán)重的對應(yīng)關(guān)系,獲取所述枚舉型特征信息所對應(yīng)的權(quán)重;
[0015]將所述枚舉型特征信息轉(zhuǎn)換為所述權(quán)重,獲得包括所述權(quán)重的樣本。
[0016]其中,所述從預(yù)置的第一訓(xùn)練樣本庫中獲取包括數(shù)值型特征信息的樣本,基于梯度提升決策樹GBDT模型對包括所述權(quán)重的樣本和包括所述數(shù)值型特征信息的樣本進(jìn)行訓(xùn)練,獲得預(yù)測模型之后還包括:
[0017]根據(jù)預(yù)置的測試樣本對所述預(yù)測模型進(jìn)行測試,獲得測試結(jié)果;
[0018]根據(jù)所述測試結(jié)果調(diào)整所述預(yù)測模式。
[0019]其中,所述從預(yù)置的第一訓(xùn)練樣本庫中獲取包括數(shù)值型特征信息的樣本,基于梯度提升決策樹GBDT模型對包括所述權(quán)重的樣本和包括所述數(shù)值型特征信息的樣本進(jìn)行訓(xùn)練,獲得預(yù)測模型之后包括:
[0020]當(dāng)接收到待預(yù)測的樣本時,根據(jù)所述預(yù)測模型對所述待預(yù)測的樣本進(jìn)行計算獲得預(yù)測結(jié)果;
[0021 ]根據(jù)所述預(yù)測結(jié)果輸出提示信息。
[0022 ]相應(yīng)地,本發(fā)明實(shí)施例還提供了一種終端,包括:
[0023]第一獲取單元,用于從預(yù)置的第一訓(xùn)練樣本庫中獲取包括枚舉型特征信息的樣本;
[0024]第二獲取單元,用于將所述枚舉型特征信息轉(zhuǎn)換為所述枚舉型特征所對應(yīng)的權(quán)重,獲得包括所述權(quán)重的樣本;
[0025]第一訓(xùn)練單元,用于從預(yù)置的第一訓(xùn)練樣本庫中獲取包括數(shù)值型特征信息的樣本,基于梯度提升決策樹GBDT模型對包括所述權(quán)重的樣本和包括所述數(shù)值型特征信息的樣本進(jìn)行訓(xùn)練,獲得預(yù)測模型。
[0026]其中,所述終端包括:
[0027]第三獲取單元,用于從預(yù)置的第二訓(xùn)練樣本庫中獲取樣本,其中,所述樣本包括所述枚舉型特征信息;
[0028]第二訓(xùn)練單元,用于采用邏輯回歸模型對所述樣本進(jìn)行訓(xùn)練,獲得所述枚舉型特征信息所對應(yīng)的權(quán)重;
[0029]建立單元,用于建立所述枚舉型特征信息與所述權(quán)重的對應(yīng)關(guān)系。
[0030]其中,所述第二獲取單元包括:
[0031]獲取子單元,用于根據(jù)所述枚舉型特征信息與所述權(quán)重的對應(yīng)關(guān)系,獲取所述枚舉型特征信息所對應(yīng)的權(quán)重;
[0032]轉(zhuǎn)換子單元,用于將所述枚舉型特征信息轉(zhuǎn)換為所述權(quán)重,獲得包括所述權(quán)重的樣本。
[0033]其中,所述終端還包括:
[0034]測試單元,用于根據(jù)預(yù)置的測試樣本對所述預(yù)測模型進(jìn)行測試,獲得測試結(jié)果;
[0035]調(diào)整單元,用于根據(jù)所述測試結(jié)果調(diào)整所述預(yù)測模式。
[0036]其中,所述終端還包括:
[0037]計算單元,用于當(dāng)接收到待預(yù)測的樣本時,根據(jù)所述預(yù)測模型對所述待預(yù)測的樣本進(jìn)行計算獲得預(yù)測結(jié)果;
[0038]輸出單元,用于根據(jù)所述預(yù)測結(jié)果輸出提示信息。
[0039]實(shí)施本發(fā)明實(shí)施例,具有如下有益效果:
[0040]本發(fā)明實(shí)施例通過從預(yù)置的第一訓(xùn)練樣本庫中獲取包括枚舉型特征信息的樣本,將所述枚舉型特征信息轉(zhuǎn)換為所述枚舉型特征所對應(yīng)的權(quán)重,獲得包括所述權(quán)重的樣本,從預(yù)置的第一訓(xùn)練樣本庫中獲取包括數(shù)值型特征信息的樣本,基于梯度提升決策樹GBDT模型對包括所述權(quán)重的樣本和包括所述數(shù)值型特征信息的樣本進(jìn)行訓(xùn)練,獲得預(yù)測模型,使得終端可基于GBDT模型對枚舉型特征信息進(jìn)行訓(xùn)練獲得預(yù)測模型,提高預(yù)測模型的準(zhǔn)確性。
【附圖說明】
[0041]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0042]圖1是本發(fā)明實(shí)施例提供的及一種預(yù)測模型的建立方法的第一實(shí)施例流程示意圖;
[0043]圖2是本發(fā)明實(shí)施例提供的及一種預(yù)測模型的建立方法的第二實(shí)施例流程示意圖;
[0044]圖3是本發(fā)明實(shí)施例提供的及一種預(yù)測模型的建立方法的第三實(shí)施例流程示意圖;
[0045]圖4是本發(fā)明一種終端的第一實(shí)施例結(jié)構(gòu)圖;
[0046]圖5是本發(fā)明一種終端的第二實(shí)施例結(jié)構(gòu)圖;
[0047]圖6是本發(fā)明一種終端的第三實(shí)施例結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0048]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0049]本發(fā)明實(shí)施例中所描述的終端可以是進(jìn)行樣本訓(xùn)練的服務(wù)器。
[0050]參見圖1,是本發(fā)明實(shí)施例提供的及一種預(yù)測模型的建立方法第一實(shí)施例流程示意圖。本發(fā)明實(shí)施例的及一種預(yù)測模型的建立方法包括如下步驟:
[0051]S100,從預(yù)置的第一訓(xùn)練樣本庫中獲取包括枚舉型特征信息的樣本。
[0052]在本發(fā)明實(shí)施例中,在進(jìn)行CTR預(yù)估時,終端可構(gòu)建第一訓(xùn)練樣本庫,其中,第一訓(xùn)練樣本庫可以是用戶將處理獲得的第一訓(xùn)練樣本庫預(yù)置在終端中,或者終端采集樣本存儲在第一訓(xùn)練樣本庫,為提高訓(xùn)練穩(wěn)定性,防止訓(xùn)練過擬合,第一訓(xùn)練樣本庫可包括適量樣本,如幾萬條樣本。進(jìn)一步的,樣本可包括特征信息以及特征信息對應(yīng)的目標(biāo)值,特征信息可以是,用戶的年齡,性別,地點(diǎn),職業(yè),學(xué)校,手機(jī)平臺、廣告大小,廣告文本,廣告所屬行業(yè),廣告圖片等信息。具體的,特征信息還可以是枚舉型特征信息或數(shù)值型特征信息。其中,枚舉型特征信息之間不具有大小關(guān)系,如性別、地點(diǎn)和學(xué)校等特征信息,且枚舉型特征信息可包括多個取值,如枚舉型特征信息“姓名”可包括多個姓名;數(shù)值型特征信息之間具有大小關(guān)系,如年齡、C0EC(Click Over Expected Click,超預(yù)期點(diǎn)擊)等取值為自然數(shù)或?qū)崝?shù)的特征信息,其中,COEC為歷史點(diǎn)擊量與歷史預(yù)期點(diǎn)擊量的比值,歷史預(yù)期點(diǎn)擊量為展現(xiàn)量與某展現(xiàn)位置上平均點(diǎn)擊率的乘積,目標(biāo)值可以是特征信息對應(yīng)的點(diǎn)擊率。進(jìn)一步的,樣本可以是一組向量,向量包括特征信息對應(yīng)的特征值及特征信息對應(yīng)的目標(biāo)值,目標(biāo)值的范圍可以是在{O,I}之間。
[0053]SlOl,將所述枚舉型特征信息轉(zhuǎn)換為所述枚舉型特征所對應(yīng)的權(quán)重,獲得包括所述權(quán)重的樣本。
[0054]在本發(fā)明實(shí)施例中,終端可從預(yù)置的第一訓(xùn)練樣本庫中獲取包括枚舉型特征信息的樣本,從而獲取樣本中的枚舉型特征信息。當(dāng)終端獲取到樣本中的枚舉型特征信息后,終端可根據(jù)預(yù)置的枚舉型特征信息與權(quán)重的對應(yīng)關(guān)系,獲取枚舉型特征信息所對應(yīng)的權(quán)重,其中,權(quán)重為一個自然數(shù)或?qū)崝?shù)。當(dāng)終端獲取到枚舉型特征信息所對應(yīng)的權(quán)重后,終端可將樣本中的枚舉型特征信息轉(zhuǎn)換為對應(yīng)的權(quán)重,獲得包括權(quán)重的樣本,即是將包括多個取值的枚舉型特征信息簡化為一個取值的權(quán)重,從而簡化了在處理枚舉型特征信息的計算量。
[0055]S102,從預(yù)置的第一訓(xùn)練樣本庫中獲取包括數(shù)值型特征信息的樣本,基于梯度提升決策樹GBDT模型對包括所述權(quán)重的樣本和包括所述數(shù)值型特征信