本發(fā)明涉及移動互聯(lián)網領域,特別涉及一種移動廣告平臺尋找相似用戶的方法。
背景技術:
現(xiàn)有技術中,對移動廣告平臺相似用戶的尋找也提出了一些解決方案。
例如,在Audience segment expansion using distributed in-database k-means clustering(ADKDD2013)中,其主要通過以下技術方案來實現(xiàn):通過提取用戶相關的關鍵詞或主題模型來作為每個用戶的特征,然后利用機器學習中的聚類方法(例如k-means)對用戶群進行聚類。種子用戶所在的聚類中其他用戶即為可擴展的用戶。
再例如,一種視頻網站相似用戶搜索系統(tǒng)和方法(申請?zhí)枺?01510142618.6申請日:2015-03-27),在該技術方案中,主要通過以下技術方案來實現(xiàn):步驟1,對用戶觀看內容進行統(tǒng)計分析,統(tǒng)計一段時間內的用戶視頻觀看記錄,結合視頻內容描述詞得到每個用戶對每一種視頻內容的觀看次數(shù)和頻率,其中,上述視頻內容描述詞通過視頻標簽、關鍵詞以及視頻標題分詞來描述;步驟2,建立用戶的倒排索引,根據(jù)上述步驟1中統(tǒng)計分析得到的觀看記錄,基于視頻內容描述詞建立用戶的倒排索引,該索引形式以視頻內容描述詞作為索引關鍵字,以觀看該描述詞的所有用戶標識及觀看頻率作為索引值;步驟3,進行相似用戶搜索并計算相似性,利用種子用戶的視頻觀看記錄,以視頻內容描述詞為搜索關鍵字,在索引文件上進行相似用戶的搜索,同時計算相應用戶的相似性,得到初步的搜索結果;步驟4,進行搜索結果排序,利用相似性對初步搜索結果進行由大到小的排序,經過過濾處理得到最終的相似人群搜索結果。
上述兩種技術方案,無論是基于聚類或者基于索引的方法,都需要計算用戶的相似性,當候選集很大的時候,計算量會相當大。在客戶對相似用戶擴展時間要求比較嚴格的情況下,上述兩個方法均不能在較短時間內實現(xiàn)擴展。對于多數(shù)聚類方法,其聚類結果往往是不確定的,造成了同一批種子用戶每次擴展的相似用戶也不同。
因此有必要提供一種新的尋找相似用戶的方法來滿足需求。
技術實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術的缺點與不足,提供一種移動廣告平臺尋找相似用戶的方法。
本發(fā)明的目的通過以下的技術方案實現(xiàn):
一種移動廣告平臺尋找相似用戶的方法,包含以下步驟:
(1)目標App的開發(fā)者(廣告主)提交目標App現(xiàn)有的種子用戶設備號列表;
(2)獲取目標App的非相似用戶設備號列表;
(3)利用系統(tǒng)級別的API獲取到移動用戶的App安裝包列表;
(4)安裝包過濾:計算移動用戶每個App的設備覆蓋率,將覆蓋設備比例非常高和非常低的App從App安裝包列表里面剔除;
(5)采用bag-of-words方法將移動用戶安裝包列表中剩下的app表達成1/0特征;
(6)根據(jù)用戶特征、相似用戶設備號列表和非相似客戶設備號列表,訓練一個邏輯回歸模型;
(7)計算移動用戶的三種特征:安裝的基本應用比例、付費應用數(shù)、平均付費價格;
(8)將邏輯回歸模型的輸出以及所述移動用戶的三種特征作為輸入,再訓練出GBDT(梯度提升樹)分類模型;
(9)對候選集的每個移動用戶,通過獲取該移動用戶的App安裝列表,并將App安裝列表表達成一個bag-of-words向量,先輸入到邏輯回歸模型中進行一遍預測,再加入用戶安裝的基本應用比例、付費應用數(shù)、平均付費價格這三個特征輸入到GBDT模型中進行預測,從而預測該用戶是否為種子用戶的相似用戶。
這樣就得到了用戶是否是相似用戶(1代表相似用戶,0代表非相似用戶)。
步驟(2)中,所述獲取非相似用戶設備號的方法包括:
a、目標App的開發(fā)者直接提交一份非相似用戶設備號列表;
b、從廣告平臺自有的設備列表中隨機提取出與相似用戶列表等量的設備號,作為非相似用戶設備號列表。
步驟(6)中,所述邏輯回歸模型是一種線性分類模型,邏輯回歸模型在線性回歸的基礎上,套用一個邏輯函數(shù)來得到最后的概率描述,邏輯回歸通過優(yōu)化方法極小化以下?lián)p失函數(shù):
其中m為樣本總數(shù),xi,yi分別為第i個樣本的特征和標簽,hθ(xi)為邏輯回歸函數(shù);
帶L2正則的邏輯回歸極小化以下?lián)p失函數(shù):
其中m為樣本總數(shù),Xi,yi分別為第i個樣本的特征和標簽,w和c分別為模型的特征權重和偏置項,C為正則化項和誤差的權重系數(shù)。
為限制過擬合,防止某一個app對預測結果影響太大,我們對邏輯回歸加入了L2正則,作用是對每個app的系數(shù)進行限制。
所述優(yōu)化方法包括牛頓方法、梯度下降。
步驟(8)中,所述GBDT分類模型為最終的分類模型,所述GBDT是一種迭代的決策樹算法,采用了Boost思想,該算法由多棵決策樹組成,所有決策樹的結論累加起來做最終答案。GBDT與傳統(tǒng)的Boost的區(qū)別是,每一次的計算是為了減少上一次的殘差,為消除殘差,在殘差減少的梯度方向上建立一個新的模型。因此在GBDT中,每個新的模型的建立是為了使得之前模型的殘差往梯度方向減少。
步驟(4)中,所述閾值M=50%,閾值N=1%。
本發(fā)明與現(xiàn)有技術相比,具有如下優(yōu)點和有益效果:
本發(fā)明在較小計算量下,根據(jù)客戶提供的種子用戶,準確的將相似用戶擴展出來。
附圖說明
圖1為本發(fā)明所述一種移動廣告平臺尋找相似用戶的方法的流程圖。
具體實施方式
下面結合實施例及附圖對本發(fā)明作進一步詳細的描述,但本發(fā)明的實施方式不限于此。
實施例一
一種移動廣告平臺尋找相似用戶的方法,包含以下步驟:
(1)目標App的開發(fā)者(廣告主)提交目標App現(xiàn)有的種子用戶設備號列表;
(2)獲取目標App的非相似用戶設備號列表:
a、目標App的開發(fā)者直接提交一份非相似用戶設備號列表;
b、從廣告平臺自有的設備列表中隨機提取出與相似用戶列表等量的設備號,作為非相似用戶設備號列表;
(3)利用系統(tǒng)級別的API獲取到移動用戶的App安裝包列表;
(4)安裝包過濾:計算移動用戶每個App的設備覆蓋率,將覆蓋設備比例非常高和非常低的App從App安裝包列表里面剔除;步驟(4)中,所述閾值M=50%,閾值N=1%;
(5)采用bag-of-words方法將移動用戶安裝包列表中剩下的app表達成1/0特征;
(6)根據(jù)用戶特征、種子用戶設備號列表和非相似客戶設備號列表,訓練一個邏輯回歸模型;
所述邏輯回歸模型是一種線性分類模型,邏輯回歸模型在線性回歸的基礎上,套用一個邏輯函數(shù)來得到最后的概率描述,邏輯回歸通過優(yōu)化方法極小化以下?lián)p失函數(shù):
其中m為樣本總數(shù),xi,yi分別為第i個樣本的特征和標簽,hθ(xi)為邏輯回歸函數(shù);
帶L2正則的邏輯回歸極小化以下?lián)p失函數(shù):
其中m為樣本總數(shù),Xi,yi分別為第i個樣本的特征和標簽,w和c分別為模型的特征權重和偏置項,C為正則化項和誤差的權重系數(shù);
所述優(yōu)化方法包括牛頓方法、梯度下降;
為限制過擬合,防止某一個app對預測結果影響太大,我們對邏輯回歸加入了L2正則,作用是對每個app的系數(shù)進行限制;
(7)計算移動用戶的三種特征:安裝的基本應用比例、付費應用數(shù)、平均付費價格;
(8)將邏輯回歸模型的輸出以及所述移動用戶的三種特征作為輸入,再訓練出GBDT(梯度提升樹)分類模型;
所述GBDT分類模型為最終的分類模型,所述GBDT是一種迭代的決策樹算法,采用了Boost思想,該算法由多棵決策樹組成,所有決策樹的結論累加起來做最終答案。GBDT與傳統(tǒng)的Boost的區(qū)別是,每一次的計算是為了減少上一次的殘差,為消除殘差,在殘差減少的梯度方向上建立一個新的模型。因此在GBDT中,每個新的模型的建立是為了使得之前模型的殘差往梯度方向減少;
(9)對候選集的每個移動用戶,通過獲取該移動用戶的App安裝列表,并將App安裝列表表達成一個bag-of-words向量,先輸入到邏輯回歸模型中進行一遍預測,再加入用戶安裝的基本應用比例、付費應用數(shù)、平均付費價格這三個特征輸入到GBDT模型中進行預測,從而預測該用戶是否為相似用戶。
這樣就得到了用戶是否是相似用戶(1代表相似用戶,0代表非相似用戶)。
實施例二
如圖1,一種移動廣告平臺尋找相似用戶的方法,包含以下步驟:
首先根據(jù)訓練用戶過濾之后的安裝列表以及標簽訓練出一個L2正則的邏輯回歸模型。對于一個新的用戶(特征見圓角矩形)安裝列表,利用訓練出的邏輯回歸模型得到一個[0,1]之間的預測值,表示其為相似用戶的概率。接著計算該用戶安裝列表中付費應用數(shù),基本應用占比,平均付費價格特征,將這些特征與上一步的邏輯回歸模型結果組合在一起,再訓練出一個GBDT模型,最終預測用戶是否為相似用戶(1代表相似用戶,0代表非相似用戶)。
上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的限制,其他的任何未背離本發(fā)明的精神實質與原理下所作的改變、修飾、替代、組合、簡化,均應為等效的置換方式,都包含在本發(fā)明的保護范圍之內。