本發(fā)明涉及計算機
技術(shù)領(lǐng)域:
,尤其涉及一種選擇數(shù)據(jù)內(nèi)容向終端推送的方法及裝置。
背景技術(shù):
:在傳統(tǒng)技術(shù)中的互聯(lián)網(wǎng)廣告、新聞咨詢、招聘信息發(fā)布網(wǎng)站等應用中,服務器通常需要向終端推送數(shù)據(jù)內(nèi)容。在傳統(tǒng)的在線廣告業(yè)務中,用戶打開網(wǎng)頁瀏覽的時候,服務器會向該用戶的終端推送(投放)與該用戶對應的在線廣告,并統(tǒng)計用戶點擊該在線廣告的點擊率(即該廣告推送后被點擊的次數(shù)與推送的次數(shù)的比值,又叫Click-Through-Rate,簡稱CTR)或者購買該在線廣告對應的產(chǎn)品或服務的概率等參數(shù)。這些參數(shù)可以體現(xiàn)服務器選擇的廣告內(nèi)容是否引起了終端用戶的興趣,符合用戶的需求。服務器在為某個特定用戶選擇廣告內(nèi)容時,也盡量選擇能夠使該用戶點擊該廣告或通過該廣告的鏈接進行購買的廣告。為了能夠選擇更加符合用戶的需求的廣告推送給該用戶,傳統(tǒng)技術(shù)中,通常根據(jù)用戶的屬性結(jié)合相應的匹配模型進行推薦。例如,常用的匹配模型包括:分群熱度模型(即根據(jù)用戶基礎(chǔ)屬性,例如年齡、性別劃分用戶人群,統(tǒng)計各個人群Top點擊率)、邏輯回歸模型(即根據(jù)用戶屬性,廣告基性,廣告位屬性,以及用戶、廣告位、廣告交叉屬性建立邏輯回歸模型)等。上述匹配模型通常采用機器學習的方法,需要每隔一段時間將前述統(tǒng)計的歷史數(shù)據(jù)作為樣本數(shù)據(jù)輸入到相應的模型中,然后通過機器學習調(diào)整模型中的各個參數(shù)的大小,從而使得模型能夠適應較新的用戶習慣。模型更新完畢后,服務器在選擇數(shù)據(jù)內(nèi)容向用戶的終端推送時,則可根據(jù)已更新的匹配模型選擇與用戶最匹配的數(shù)據(jù)內(nèi)容進行推送。然而,發(fā)明人經(jīng)研究發(fā)現(xiàn),上述根據(jù)匹配模型選擇與用戶屬性匹配的數(shù)據(jù)內(nèi)容的方式至少存在以下問題:匹配模型的更新為每隔一段時間根據(jù)樣本數(shù)據(jù) 離線對匹配模型進行機器學習來更新,因此,服務器在根據(jù)匹配模型選擇數(shù)據(jù)內(nèi)容進行推送時,匹配模型并不是根據(jù)最新的統(tǒng)計數(shù)據(jù)得到的模型參數(shù),使得服務器選擇的數(shù)據(jù)內(nèi)容與用戶的相關(guān)度或匹配程度較低,造成了數(shù)據(jù)內(nèi)容推送的準確度較低。技術(shù)實現(xiàn)要素:基于此,為了解決傳統(tǒng)技術(shù)中選擇數(shù)據(jù)內(nèi)容進行推送的準確度較低的技術(shù)問題,還提供了一種選擇數(shù)據(jù)內(nèi)容向終端推送的方法。一種選擇數(shù)據(jù)內(nèi)容向終端推送的方法,包括:獲取用戶標識,獲取所述用戶標識對應的在預設的用戶屬性類型下的特征值;獲取數(shù)據(jù)內(nèi)容,查找與所述數(shù)據(jù)內(nèi)容對應的決策樹對象,所述決策樹對象的樹節(jié)點包括分支節(jié)點和葉結(jié)點,分支節(jié)點與用戶屬性類型一一對應,且分支節(jié)點存儲有相應的用戶屬性類型的各個特征區(qū)間的特征閾值,所述分支節(jié)點的子節(jié)點與所述特征閾值一一對應;所述葉結(jié)點中存儲與所述葉結(jié)點對應的特征閾值對應的點擊數(shù)和推送數(shù);根據(jù)與所述用戶標識對應的在預設的用戶屬性類型下的特征值在所述決策樹對象中定位與所述用戶標識對應的葉結(jié)點,所述特征值與從所述決策樹對象的根節(jié)點到所述定位到的葉結(jié)點的路徑上的各個樹節(jié)點對應的特征閾值匹配;獲取定位到的葉結(jié)點中存儲的點擊數(shù)和推送數(shù),根據(jù)所述點擊數(shù)和推送數(shù)生成選擇參考值,根據(jù)所述選擇參考值選擇數(shù)據(jù)內(nèi)容推送到與所述用戶標識對應的終端。此外,為了解決傳統(tǒng)技術(shù)中選擇數(shù)據(jù)內(nèi)容進行推送的準確度較低的技術(shù)問題,還提供了一種選擇數(shù)據(jù)內(nèi)容向終端推送的裝置。一種選擇數(shù)據(jù)內(nèi)容向終端推送的裝置,包括:用戶標識獲取模塊,用于獲取用戶標識,獲取所述用戶標識對應的在預設的用戶屬性類型下的特征值;決策樹獲取模塊,用于獲取數(shù)據(jù)內(nèi)容,查找與所述數(shù)據(jù)內(nèi)容對應的決策樹對象,所述決策樹對象的樹節(jié)點包括分支節(jié)點和葉結(jié)點,分支節(jié)點與用戶屬性 類型一一對應,且分支節(jié)點存儲有相應的用戶屬性類型的各個特征區(qū)間的特征閾值,所述分支節(jié)點的子節(jié)點與所述特征閾值一一對應;所述葉結(jié)點中存儲與所述葉結(jié)點對應的特征閾值對應的點擊數(shù)和推送數(shù);葉結(jié)點定位模塊,用于根據(jù)與所述用戶標識對應的在預設的用戶屬性類型下的特征值在所述決策樹對象中定位與所述用戶標識對應的葉結(jié)點,所述特征值與從所述決策樹對象的根節(jié)點到所述定位到的葉結(jié)點的路徑上的各個樹節(jié)點對應的特征閾值匹配;數(shù)據(jù)內(nèi)容選擇模塊,用于獲取定位到的葉結(jié)點中存儲的點擊數(shù)和推送數(shù),根據(jù)所述點擊數(shù)和推送數(shù)生成選擇參考值,根據(jù)所述選擇參考值選擇數(shù)據(jù)內(nèi)容推送到與所述用戶標識對應的終端。實施本發(fā)明實施例,將具有如下有益效果:采用了上述決策樹對象作為匹配模型之后,可通過將用戶標識對應的特征值與數(shù)據(jù)內(nèi)容各自對應的決策樹對象中的分支節(jié)點進行匹配來查找到選擇參考值較大的數(shù)據(jù)內(nèi)容進行推送,且上述決策樹對象的邏輯結(jié)構(gòu)使得對決策樹對象可利用用戶的瀏覽記錄實時進行更新,而不需要定期采樣后,再根據(jù)采樣得到的樣本通過機器學習的方式離線對決策樹對象進行更新,也就是說,在將用戶標識對應的特征值與數(shù)據(jù)內(nèi)容各自對應的決策樹對象中的分支節(jié)點進行匹配時,決策樹對象中的統(tǒng)計數(shù)據(jù)均參考了較新的用戶瀏覽記錄,從而使得匹配的結(jié)果能夠更加符合運行時用戶的操作習慣或瀏覽習慣,從而提高了選擇數(shù)據(jù)內(nèi)容進行推送的準確度。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。其中:圖1為一個實施例中一種選擇數(shù)據(jù)內(nèi)容向終端推送的方法的流程圖;圖2為一個實施例中決策樹對象中各個樹節(jié)點之間的邏輯關(guān)系圖;圖3為一個實施例中決策樹對象中各個樹節(jié)點之間的邏輯關(guān)系圖;圖4為一個實施例中一種決策樹對象中的葉結(jié)點進行用戶屬性類型擴展的過程流程圖;圖5為一個實施例中對決策樹對象中的葉結(jié)點進行用戶屬性類型擴展的示意圖;圖6為一個實施例中一種選擇數(shù)據(jù)內(nèi)容向終端推送的裝置的示意圖。具體實施方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。為解決傳統(tǒng)技術(shù)中,由于匹配模型設計的不合理,無法實時得到更新,從而導致依賴匹配模型選擇數(shù)據(jù)內(nèi)容進行推送的準確度較低的技術(shù)問題,在一個實施例中,特提出了一種選擇數(shù)據(jù)內(nèi)容向終端推送的方法,該方法的執(zhí)行可依賴于計算機程序,該計算機程序可以是在線廣告投放程序、新聞資訊類應用、郵件廣告推廣程序、簡歷推送程序等通過篩選數(shù)據(jù)內(nèi)容并將其推送給相應的客戶端程序的服務器程序。該計算機程序可運行于馮諾依曼體系的計算機系統(tǒng)之上。該計算機系統(tǒng)可以是運行上述在線廣告投放程序、新聞資訊類應用、郵件廣告推廣程序、簡歷推送程序等通過篩選數(shù)據(jù)內(nèi)容并將其推送給相應的客戶端程序的服務器程序的服務器設備。在本實施例中,上述服務器設備中預先存儲有多項數(shù)據(jù)內(nèi)容,例如,在在線廣告投放程序中,設置有存儲在線廣告的廣告數(shù)據(jù)庫,每一條在線廣告即為一項數(shù)據(jù)內(nèi)容,在線廣告服務商可通過向廣告數(shù)據(jù)庫添加記錄來增加廣告數(shù)據(jù)庫中存儲的在線廣告;而在簡歷投放程序中,設置有存儲簡歷的簡歷數(shù)據(jù)庫,用戶可通過招聘網(wǎng)站創(chuàng)建簡歷,然后上傳到簡歷數(shù)據(jù)庫中。而選擇數(shù)據(jù)內(nèi)容的過程即為在服務器設備中存儲數(shù)據(jù)內(nèi)容的數(shù)據(jù)庫中查找 與某個用戶最為匹配,或者稱為推送后被某個用戶瀏覽的幾率最大的數(shù)據(jù)內(nèi)容的過程。在本實施例中,預設有多個用戶屬性類型,每個屬性類型下均設置有相應的特征區(qū)間。例如,在一個服裝類廣告推送系統(tǒng)中,預設的用戶屬性類型可包括:“性別”、“年齡段”、“品牌”等,而用戶屬性類型“性別”可包括“男”和“女”的特征區(qū)間,用戶屬性類型“年齡段”可包括“70后”、“80后”、“90后”、“00”后等特征區(qū)間,特征區(qū)間可通過特征閾值來定義,例如,“男”和“女”的特征區(qū)間可使用布爾變量定義,“70后”的特征區(qū)間可使用[70,79]的特征閾值來定義。被推送的終端上的用戶帳戶的用戶屬性也具有在上述用戶屬性類型下的多個特征值,選擇數(shù)據(jù)內(nèi)容的過程即為遍歷數(shù)據(jù)庫中的數(shù)據(jù)內(nèi)容,找到每項數(shù)據(jù)內(nèi)容對應的分類統(tǒng)計數(shù)據(jù),篩選出用戶屬性的多個特征值對應的統(tǒng)計數(shù)據(jù),根據(jù)該篩選出的統(tǒng)計數(shù)據(jù)預估遍歷到的數(shù)據(jù)內(nèi)容被推送后被瀏覽的概率,然后選擇被瀏覽概率較大的數(shù)據(jù)內(nèi)容進行推送。具體的,如圖1所示,選擇數(shù)據(jù)內(nèi)容向終端推送的方法包括:步驟S102:獲取用戶標識,獲取所述用戶標識對應的在預設的用戶屬性類型下的特征值。用戶標識即為用于區(qū)分用戶的標識信息,可以是用戶在服務器程序上注冊的用戶帳戶,也可以是無需注冊的用于推廣的用戶的電子郵件地址、IP地址、手機號等。用戶標識對應的用戶標識對應的在預設的用戶屬性類型下的特征值可通過對登錄的用戶賬號的用戶資料或用戶操作記錄中的屬性值進行提取得到。例如,在一個在線簡歷投送應用的應用場景中,該應用包括應聘者用戶和招聘者用戶兩種類型的用戶帳戶,應聘者用戶可創(chuàng)建簡歷,創(chuàng)建的簡歷即為在線簡歷投送應用的數(shù)據(jù)庫中存儲的數(shù)據(jù)內(nèi)容,應聘者用戶通常為個人。招聘者用戶即為在線簡歷的推送目標,通常為企業(yè)或機構(gòu)。在線簡歷投送應用的服務器程序可在應聘者用戶創(chuàng)建的海量簡歷中查找與某個企業(yè)最為匹配的簡歷,然后將該簡歷推送至該招聘者用戶對應的終端上(可推送給該終端上的在線簡歷投送應用的客戶端程序,也可以通過電子郵件發(fā)送給應聘者用戶的郵箱)。該企業(yè)的工作人員在注冊招聘者用戶時,需要根據(jù)預設的用戶屬性類型填寫該企業(yè)的資料。例如,預設的用戶屬性類型可包括公司名稱、行業(yè)類型、所屬地區(qū)、企業(yè) 性質(zhì)等,若注冊時在“公司名稱”項中填寫了“A”、“行業(yè)類型”項中填寫了“互聯(lián)網(wǎng)”、“所屬地區(qū)”項中填寫了“深圳”、“企業(yè)性質(zhì)”項中填寫了“國企”,則填寫的“A”、“互聯(lián)網(wǎng)”、“深圳”和“國企”即分別為在用戶屬性類型公司名稱、行業(yè)類型、所屬地區(qū)、企業(yè)性質(zhì)下的特征值。在一個在線廣告推廣程序的應用場景中,服務器上的數(shù)據(jù)庫中存儲有海量的廣告數(shù)據(jù)(可以是視頻廣告、圖片廣告等),該在線廣告推廣程序基于網(wǎng)頁搜索引擎,用戶標識可以是終端的IP地址,與用戶標識對應的在預設的用戶屬性類型下的特征值即可以通過查找與該IP地址對應的搜索記錄進行提取。例如,若預設的用戶屬性類型包括“興趣產(chǎn)品類型”、“終端位置”等,則可查找該IP地址對應的搜索記錄,若搜索記錄中的關(guān)鍵字包括:“奶粉”、“嬰兒車”、“尿不濕”等關(guān)鍵字,而用戶屬性類型“興趣產(chǎn)品類型”下的特征區(qū)間包括“嬰幼兒產(chǎn)品”,與該終端IP對應的在用戶屬性類型“興趣產(chǎn)品類型”下的特征值即為“嬰幼兒產(chǎn)品”;若通過查詢終端IP對應的地理位置為“東莞”,而用戶屬性類型“終端位置”下的特征區(qū)間包括“廣東省”,則與該終端IP對應的在用戶屬性類型“終端位置”下的特征值即為“廣東省”。步驟S104:獲取數(shù)據(jù)內(nèi)容,查找與所述數(shù)據(jù)內(nèi)容對應的決策樹對象,所述決策樹對象的樹節(jié)點包括分支節(jié)點和葉結(jié)點,分支節(jié)點與用戶屬性類型一一對應,且分支節(jié)點存儲有相應的用戶屬性類型的各個特征區(qū)間的特征閾值,所述分支節(jié)點的子節(jié)點與所述特征閾值一一對應;所述葉結(jié)點中存儲與所述葉結(jié)點對應的特征閾值對應的點擊數(shù)和推送數(shù)。決策樹對象可使用邏輯上符合樹結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)(即常見程序設計語言中定義的Tree類型)進行存儲。每項數(shù)據(jù)內(nèi)容對應一個決策樹對象。例如,在在線廣告投送程序中,每創(chuàng)建一條在線廣告,則會為該在線廣告分配一個在線廣告標識Aid,可以在映射表中存儲該在線廣告標識Aid和該Aid對應的決策樹對象,Aid即為映射表的鍵(key),決策樹對象即為映射表的值(value)。決策樹對象在邏輯上為樹形結(jié)構(gòu),在一個應用場景中,如圖2所示,該決策樹對象包括三個層級,其中,第一層級的樹節(jié)點(Node)為分支節(jié)點且為決策樹對象的根節(jié)點,第二層級的樹節(jié)點中,樹節(jié)點“男”為分支節(jié)點,樹節(jié)點“女”為葉結(jié)點,第三層級的樹節(jié)點均為葉結(jié)點。在圖2中,根節(jié)點與用戶屬性類型“性別”對應,存儲有用戶屬性類型“性 別”下的特征區(qū)間“男”和特征區(qū)間“女”的特征閾值,該閾值可使用布爾變量、數(shù)字或字符串定義。第二層級的樹節(jié)點均為根節(jié)點的子節(jié)點,作為根節(jié)點的子節(jié)點的樹節(jié)點“男”則與根節(jié)點對應的用戶屬性類型“性別”下的特征區(qū)間“男”的特征閾值對應,作為根節(jié)點的子節(jié)點的樹節(jié)點“女”則與根節(jié)點對應的用戶屬性類型“性別”下的特征區(qū)間“女”的特征閾值對應。第三層級的樹節(jié)點均為分支節(jié)點“男”的子節(jié)點,分支節(jié)點“男”與用戶屬性類型“學歷”對應,存儲有用戶屬性類型“學歷”下的特征區(qū)間“高中及以下”、特征區(qū)間“大?!焙吞卣鲄^(qū)間“碩士及以上”的特征閾值,該閾值可使用數(shù)字或字符串定義。葉結(jié)點“高中及以下”即與用戶屬性類型“學歷”下的特征區(qū)間“高中及以下”的特征閾值對應;葉結(jié)點“大?!奔磁c用戶屬性類型“學歷”下的特征區(qū)間“大?!钡奶卣鏖撝祵?,葉結(jié)點“碩士及以上”即與用戶屬性類型“學歷”下的特征區(qū)間“碩士及以上”的特征閾值對應。葉結(jié)點中存儲與該葉結(jié)點對應的特征閾值對應的點擊數(shù)和推送數(shù)。例如,如圖2所示,對于葉結(jié)點“大?!?,其中存儲有點擊數(shù)(click)200,推薦數(shù)(impression)1000,即表示在決策樹對象中與葉結(jié)點“大專”在邏輯上對應的點擊數(shù)為200,推薦數(shù)為1000。步驟S106:根據(jù)與所述用戶標識對應的在預設的用戶屬性類型下的特征值在所述決策樹對象中定位與所述用戶標識對應的葉結(jié)點,所述特征值與從所述決策樹對象的根節(jié)點到所述定位到的葉結(jié)點的路徑上的各個分支節(jié)點對應的特征區(qū)間的特征閾值匹配。根據(jù)與用戶標識對應的特征值在所述決策樹對象中定位的過程即為在決策樹的分支節(jié)點通過比較特征區(qū)間的特征閾值是否與特征值匹配,并進而移動到該分支節(jié)點的子節(jié)點遞歸執(zhí)行上述操作的過程。步驟S108:獲取定位到的葉結(jié)點中存儲的點擊數(shù)和推送數(shù),根據(jù)所述點擊數(shù)和推送數(shù)生成選擇參考值,根據(jù)所述選擇參考值選擇數(shù)據(jù)內(nèi)容推送到與所述用戶標識對應的終端。如圖2所示,若用戶在一個相親網(wǎng)站上填寫注冊資料時,在“性別”欄填寫的內(nèi)容為“男”,在“學歷”欄填寫的內(nèi)容為“大?!?,在“婚姻狀況”欄填寫的內(nèi)容為“離異”,在“年齡”欄填寫的內(nèi)容為“32”,則該用戶的用戶標識 在預設的用戶屬性類型“性別”下的特征值為“男”(在其他實施例中,可不使用字符串“男”表示該特征值,而可使用布爾變量、數(shù)字或英文字符等數(shù)據(jù)類型的特征值指代“男”,以下同),在用戶屬性類型“學歷”下的特征值為“大專”,在用戶屬性類型“婚姻狀況”下的特征值為“離異”,在用戶屬性類型“年齡段”下的特征值為“32”。參考圖2所示,在根據(jù)與用戶標識對應的特征值在所述決策樹對象中定位時,由于根節(jié)點對應的用戶屬性類型為“性別”,其中存儲的特征區(qū)間的特征閾值為用戶屬性類型“性別”下的特征閾值“男”和特征閾值“女”,因此,用戶標識對應的特征值中,特征值“男”可與根節(jié)點中存儲的特征閾值“男”匹配,從而可獲取根節(jié)點的子節(jié)點,即分支節(jié)點“男”進行進一步判斷。而分支節(jié)點“男”對應的用戶屬性類型為“學歷”,其中存儲的特征區(qū)間的特征閾值為用戶屬性類型“學歷”下的特征閾值“高中及以下”、特征閾值“大?!焙吞卣鏖撝怠按T士及以上”。因此,用戶標識對應的特征值中,特征值“大?!笨膳c分支節(jié)點“男”中存儲的特征閾值“大專”匹配,可獲取分支節(jié)點“男的”子節(jié)點,即葉結(jié)點“大?!边M行進一步判斷。而由于葉結(jié)點“大?!睘槿~結(jié)點,因此可獲取到葉結(jié)點中存儲的點擊數(shù)200和推送數(shù)1000,也就是說,在歷史統(tǒng)計中,該決策樹對象對應的數(shù)據(jù)內(nèi)容對于同時滿足了性別為“男”且學歷為“大?!钡挠脩?,一共推送了1000次,但只有200次被點擊,從而可得到該數(shù)據(jù)內(nèi)容對于同時滿足了性別為“男”且學歷為“大專”的用戶群體的歷史點擊率統(tǒng)計數(shù)據(jù),即可將該歷史點擊率統(tǒng)計數(shù)據(jù)作為該數(shù)據(jù)內(nèi)容相對于該用戶標識的選擇參考值。在本實施例中,可遍歷數(shù)據(jù)庫中的數(shù)據(jù)內(nèi)容,生成每個數(shù)據(jù)內(nèi)容相對于該用戶標識的選擇參考值,然后查找選擇參考值最大的數(shù)據(jù)內(nèi)容或大于預設的閾值的數(shù)據(jù)內(nèi)容將其推送給該用戶標識對應的終端。在其他實施例中,也可將其通過電子郵件、社交網(wǎng)絡平臺推送給所述用戶標識對應的終端。綜上所述,在確定需要被推送的用戶標識之后,即可查找與該用戶標識對應的選擇參考值較大的數(shù)據(jù)內(nèi)容進行推送,查找的方式即為將用戶標識對應的特征值與數(shù)據(jù)內(nèi)容的決策樹對象的各個分支節(jié)點對應的特征閾值進行匹配,找到匹配到的葉結(jié)點中存儲的點擊數(shù)和推送數(shù),從而查找到與該用戶標識對應的選擇參考值。而以此方式構(gòu)建的與數(shù)據(jù)內(nèi)容對應的決策樹對象也可根據(jù)用戶操作返回的瀏覽記錄得到實時更新,將用戶返回的瀏覽記錄對應的點擊數(shù)和推薦數(shù)添加到?jīng)Q策樹對象相應的葉結(jié)點中,即完成了對決策樹對象的實時更新。具體的,對決策樹對象進行更新的過程可具體為:接收終端上傳的瀏覽記錄,獲取所述終端對應的用戶標識以及所述瀏覽記錄對應的數(shù)據(jù)內(nèi)容;獲取所述數(shù)據(jù)內(nèi)容對應的決策樹對象,獲取所述用戶標識對應的在預設的用戶屬性類型下的特征值,根據(jù)獲取到的特征值在所述決策樹對象中定位所述與用戶標識對應的葉結(jié)點,根據(jù)所述瀏覽記錄增加所述定位到的葉結(jié)點中存儲的點擊數(shù)和推送數(shù)。如上例中,上述相親網(wǎng)站將與該注冊信息為“男”、“大?!?、“離異”、“32歲”的用戶發(fā)送了選擇參考值最大的數(shù)據(jù)內(nèi)容(例如較般配的用戶的資料)之后,若該用戶點擊了該數(shù)據(jù)內(nèi)容進行瀏覽,則返回的瀏覽記錄即為點擊數(shù)1,推送數(shù)為1。服務器在接收到該瀏覽記錄之后,查找到該瀏覽記錄對應的用戶的特征值為“男”、“大?!?、“離異”、“32歲”,則按照上述相同的定位方式可定位到該瀏覽記錄對應的數(shù)據(jù)內(nèi)容的決策樹對象中的葉結(jié)點“大?!?,然后將葉結(jié)點“大專”中存儲的點擊數(shù)增加為201,推送數(shù)增加為1001。同樣,若該用戶未點擊該數(shù)據(jù)內(nèi)容,則將葉結(jié)點“大?!敝写鎯Φ耐扑蛿?shù)增加為1001,而點擊數(shù)不變。進一步的,還可實時地根據(jù)歷史統(tǒng)計數(shù)據(jù)對決策樹對象進行擴展,增加決策樹對象的樹節(jié)點,也就是增加決策樹對象中的分支節(jié)點對應的用戶屬性類型,后續(xù)在選擇數(shù)據(jù)內(nèi)容進行推送時,可根據(jù)更新后的決策樹對象進行選擇,從而進一步提高推送的數(shù)據(jù)內(nèi)容的準確度,使其與用戶的操作系統(tǒng)或用戶屬性更加匹配,更容易引起用戶的興趣。具體的,根據(jù)所述瀏覽記錄增加所述定位到的葉結(jié)點中存儲的點擊數(shù)和推送數(shù)的步驟還包括:獲取所述瀏覽記錄中與所述數(shù)據(jù)內(nèi)容對應的點擊數(shù)和推送數(shù);獲取所述決策樹對象中所述根節(jié)點到所述定位到的葉結(jié)點的路徑上的分支節(jié)點,獲取預設的除所述路徑上的分支節(jié)點對應的用戶屬性類型之外的候選用戶屬性類型,按照各個候選用戶屬性類型下的各個特征區(qū)間歸類添加由所述瀏 覽記錄獲取到的與所述數(shù)據(jù)內(nèi)容對應的點擊數(shù)和推送數(shù)。如圖3所示,葉結(jié)點“大?!敝胁粌H存儲有同時符合性別“男”、學歷“大?!钡目傸c擊數(shù)200,總推薦數(shù)1000,還包括分類存儲的在用戶屬性類型“婚姻狀況”下的三個預設的特征區(qū)間內(nèi)的點擊數(shù),其中,與特征區(qū)間“未婚”對應的點擊數(shù)為120,推送數(shù)為400;與特征區(qū)間“離異”對應的點擊數(shù)為20,推送數(shù)為400;與特征區(qū)間“喪偶”對應的點擊數(shù)為60(三者之和也可以不等于總點擊數(shù)200,推送數(shù)為200。例如,用戶標識在某個用戶屬性類型下不對應任何一個特征區(qū)間);還包括分類存儲的在用戶屬性類型“年齡段”下的三個預設的特征區(qū)間內(nèi)的點擊數(shù),其中,與特征區(qū)間“30以下”對應的點擊數(shù)為130,推送數(shù)為500;與特征區(qū)間“30-40”對應的點擊數(shù)為30,推送數(shù)為400;與特征區(qū)間“40以上”對應的點擊數(shù)為40,推送數(shù)為100。如上例中,接收到注冊信息為“男”、“大?!?、“離異”、“32歲”的用戶返回的瀏覽記錄之后,則先定位到葉結(jié)點“大?!?,然后將與“離異”對應的點擊數(shù)增加成21,“30-40”對應的點擊數(shù)增加為31,總點擊數(shù)增加為201,總推送數(shù)增加為1001,而其他特征值對應的點擊數(shù)保持不變。候選用戶屬性類型即為決策樹對象的分支節(jié)點未對應的用戶屬性類型,如圖4所示,決策樹對象中由根節(jié)點至葉結(jié)點“大?!钡穆窂缴系姆种Ч?jié)點僅與“性別”和“學歷”產(chǎn)生了對應關(guān)系,但剩余的“婚姻狀況”和“年齡段”并沒有分支節(jié)點與其對應,因此,對于由根節(jié)點至葉結(jié)點“大?!钡穆窂?,“婚姻狀況”和“年齡段”即為相應的候選用戶屬性類型。而對于由根節(jié)點至葉結(jié)點“女”的路徑上的分支節(jié)點,僅與“性別”產(chǎn)生了對應關(guān)系,因此,對于由根節(jié)點至葉結(jié)點“女”的路徑,“學歷”、“婚姻狀況”和“年齡段”即為相應的候選用戶屬性類型。按照上述方式實時地對決策樹對象中的葉結(jié)點存儲的點擊數(shù)和推送數(shù)進行更新后,即可在根據(jù)葉結(jié)點中存儲的各個特征值對應的點擊數(shù)之間的相關(guān)性選擇候選用戶屬性類型擴展決策樹對象。具體的,如圖4所示,按照各個候選用戶屬性類型下的各個特征區(qū)間歸類添加由所述瀏覽記錄獲取到的與所述數(shù)據(jù)內(nèi)容對應的點擊數(shù)和推送數(shù)的步驟之后還包括:步驟S202:根據(jù)所述定位到的葉結(jié)點中歸類存儲的與候選用戶屬性類型下的各個特征區(qū)間對應的點擊數(shù)和推送數(shù)生成所述候選用戶屬性類型對應的信息 增益。在本實施例中,可根據(jù)公式:G(A)=Entropy(S)-Σv∈FAp(v)Entropy(Sv)Entropy(S)=-p1log2(p1)-(1-p1)log2(1-p1)Entropy(Sv)=-p2log2(p2)-(1-p2)log2(1-p2)]]>計算葉結(jié)點S下的用戶屬性類型A的信息增益;其中,F(xiàn)A為用戶屬性類型A的特征區(qū)間的集合,v為用戶屬性類型A下各個特征區(qū)間的特征閾值,p(v)為用戶屬性類型A下各個特征區(qū)間中的推送數(shù)的分布概率;Sv為各個特征區(qū)間的特征閾值v各自對應的點擊數(shù)與推薦數(shù)的集合,p1為與葉結(jié)點S對應的點擊數(shù)與推薦數(shù)的比值,p2為與Sv對應的點擊數(shù)與推薦數(shù)的比值。例如,參考圖4所示,p1的值即為葉結(jié)點“大?!敝写鎯Φ目傸c擊數(shù)200與總推送數(shù)1000的比值,因此:Entropy(S)=-0.2×log20.2-0.8×log20.8而用戶屬性類型“婚姻狀況”下各個特征區(qū)間的特征閾值v即遍歷到:“未婚”、“離異”和“喪偶”,其中:v為“未婚”時:p(v)即為400/1000=0.4,p2即為120/400=0.3;Entropy(Sv)=-0.3×log20.3-0.7×log20.7;v為“離異”時:p(v)即為400/1000=0.4,p2即為20/400=0.05;Entropy(Sv)=-0.05×log20.05-0.95×log20.95;v為“喪偶”時:p(v)即為200/1000=0.2,p2即為60/200=0.3;Entropy(Sv)=-0.3×log20.3-0.7×log20.7;從而得到用戶屬性類型“婚姻狀況”的信息增益。同理,參考圖3所示,用戶屬性類型“年齡段”下各個特征區(qū)間的特征閾值v即遍歷到:“30以下”、“30-40”和“40以上”,其中:v為“30以下”時:p(v)即為500/1000=0.5,p2即為130/500=0.26Entropy(Sv)=-0.26×log20.26-0.74×log20.74;v為“30-40”時:p(v)即為400/1000=0.4,p2即為30/400=0.075;Entropy(Sv)=-0.075×log20.075-0.925×log20.925;v為“40以上”時:p(v)即為100/1000=0.1,p2即為40/100=0.4;Entropy(Sv)=-0.4×log20.4-0.6×log26;因此,即可計算出Entropy(SA),從而得到用戶屬性類型“年齡段”的信息增益。步驟S204:查找信息增益與其他查找到的用戶屬性類型的信息增益的差值大于或等于信息增益閾值的候選用戶屬性類型。步驟S206:在查找到時,則將所述定位到的葉結(jié)點設置為分支節(jié)點,根據(jù)所述查找到的候選用戶屬性類型下的特征區(qū)間的特征閾值生成該分支節(jié)點的葉結(jié)點。例如,若G(婚姻狀況)-G(年齡段)=a,若a大于或等于信息增益閾值,則如圖5所示,將葉結(jié)點“大?!备聻榉种Ч?jié)點“大?!保榉种Ч?jié)點“大?!碧砑尤~結(jié)點“未婚”、葉結(jié)點“離異”和葉結(jié)點“喪偶”,即在分支節(jié)點“大?!敝写鎯μ卣鲄^(qū)間“未婚”、“離異”和“喪偶”的特征閾值,而每個葉結(jié)點中仍然存儲著按照“年齡段”的特征區(qū)間存儲的點擊數(shù)。需要說明的是,候選用戶屬性類型較多,例如,若某個葉結(jié)點下L有A、B、C、D4個候選用戶屬性,則先計算G(A)、G(B)、G(C)、G(D),然后找出G較大的兩個候選用戶屬性。例如,若G(A)>G(B)>G(C)>G(D),則計算G(A)-G(B),若G(A)-G(B)大于信息增益閾值,則選擇候選用戶屬性類型A與樹節(jié)點對應。而若G(A)-G(B)小于信息增益閾值,則可維持決策樹對象保持不變,不對決策樹對象的葉結(jié)點進行分裂。而對于分裂后生成的葉結(jié)點,如圖5所示,其中存儲有根據(jù)瀏覽記錄重新統(tǒng)計的該葉結(jié)點對應的總點擊數(shù)和總推薦數(shù),以及候選用戶屬性類型(如圖5中的用戶屬性類型“年齡段”)的各個特征區(qū)間對應的點擊數(shù)和推送數(shù)。對決策樹擴展,可進一步提高推送的準確度。而通過上述公式可看出,若某個候選用戶屬性類型中的特征區(qū)間對應的點擊數(shù)以及推送數(shù)分布較均勻,則 其信息增益較大,也就是說,對于決策樹對象進行擴展時,總是選擇特征區(qū)間對應的點擊數(shù)以及推送數(shù)分布較均勻的候選用戶屬性類型,從而使得在根據(jù)用戶標識對應的特征值進行定位時,進入分支節(jié)點下每個葉結(jié)點的概率相近。因此,通過計算候選用戶屬性類型的信息增益來選擇候選用戶屬性類型,可均衡決策樹對象中抵達各個葉結(jié)點的概率,從而避免某個葉結(jié)點由于匹配條件過于苛刻而僅有極少的概率被用于匹配用戶標識的特征值,從而提高存儲決策樹對象的空間利用率。而對于新加入的數(shù)據(jù)內(nèi)容,可在實時運行過程中為其創(chuàng)建決策樹對象,具體的,查找與所述數(shù)據(jù)內(nèi)容對應的決策樹對象的步驟還包括:若未查找到與所述數(shù)據(jù)內(nèi)容對應的決策樹對象,則創(chuàng)建與所述數(shù)據(jù)內(nèi)容對應的決策樹對象,該創(chuàng)建的決策樹對象的根節(jié)點為葉節(jié)點;為數(shù)據(jù)內(nèi)容分配默認的選擇參考值。也就是說,新加入的數(shù)據(jù)內(nèi)容創(chuàng)建決策樹對象之后,可根據(jù)后續(xù)的終端返回的瀏覽記錄實時地對決策樹對象進行擴展。決策樹對象初始可僅具有根節(jié)點一個單一節(jié)點(由于其沒有子節(jié)點,因此也必然為葉結(jié)點),而隨著接收到的瀏覽記錄的增加,可逐步選擇候選用戶屬性類型創(chuàng)建分支節(jié)點,從而使得決策樹對象得到完善。而且,采用擴展決策樹對象的方案之后,若后續(xù)添加了用戶屬性類型,則可根據(jù)對增加的用戶屬性類型的瀏覽記錄的統(tǒng)計在決策樹對象中添加與該用戶屬性類型對應的分支節(jié)點,從而使得決策樹對象可以隨著用戶屬性類型的擴展而實時地增加對用戶屬性類型的參考,從而提高了的可用于進行數(shù)據(jù)內(nèi)容推送的系統(tǒng)的擴展性??蛇x的,根據(jù)所述點擊數(shù)和推送數(shù)生成選擇參考值的步驟還包括:獲取所述數(shù)據(jù)內(nèi)容對應的計價權(quán)重系數(shù),將所述點擊數(shù)和推送數(shù)的比值與所述計價權(quán)重系數(shù)相乘后得到所述數(shù)據(jù)內(nèi)容的選擇參考值。例如,在在線廣告投送應用中,每類廣告點擊后的計費數(shù)值并不相同,在生成選擇參考值時,引入計價權(quán)重系數(shù),可使選擇參考值不僅參考歷史統(tǒng)計的點擊率,還可參考廣告的點擊收益,使得在線廣告的收益最大化??蛇x的,獲取數(shù)據(jù)內(nèi)容的步驟還包括:根據(jù)所述用戶標識對應的在預設的用戶屬性類型下的特征值通過關(guān)鍵字匹配對數(shù)據(jù)內(nèi)容進行預篩選。在現(xiàn)有的數(shù)據(jù)內(nèi)容推送的系統(tǒng)中,數(shù)據(jù)庫中存儲的數(shù)據(jù)內(nèi)容通常數(shù)量巨大, 因此,可預先根據(jù)所述用戶標識對應的在預設的用戶屬性類型下的特征值對數(shù)據(jù)庫中的數(shù)據(jù)內(nèi)容進行預篩選,若數(shù)據(jù)內(nèi)容中不包含與特征值對應的關(guān)鍵字,則過濾掉。例如,在一個相親網(wǎng)站的應用場景中,如果目標推送的用戶性別為男,則可預先篩選出女性用戶資料,再在女性用戶資料中按照上述步驟S104至步驟S108的過程找到選擇參考值較大的女性用戶資料推送給該男性用戶。對數(shù)據(jù)內(nèi)容進行預篩選,可大大減少決策樹對象匹配的次數(shù),從而減少了計算量,提高了計算機的執(zhí)行效率。在一個實施例中,為解決傳統(tǒng)技術(shù)中,由于匹配模型設計的不合理,無法實時得到更新,從而導致依賴匹配模型選擇數(shù)據(jù)內(nèi)容進行推送的準確度較低的技術(shù)問題,還提出了一種選擇數(shù)據(jù)內(nèi)容向終端推送的裝置,如圖6所示,包括:用戶標識獲取模塊102、決策樹獲取模塊104、葉結(jié)點定位模塊106以及數(shù)據(jù)內(nèi)容選擇模塊108,其中:用戶標識獲取模塊102,用于獲取用戶標識,獲取所述用戶標識對應的在預設的用戶屬性類型下的特征值;決策樹獲取模塊104,用于獲取數(shù)據(jù)內(nèi)容,查找與所述數(shù)據(jù)內(nèi)容對應的決策樹對象,所述決策樹對象的樹節(jié)點包括分支節(jié)點和葉結(jié)點,分支節(jié)點與用戶屬性類型一一對應,且分支節(jié)點存儲有相應的用戶屬性類型的各個特征區(qū)間的特征閾值,所述分支節(jié)點的子節(jié)點與所述特征閾值一一對應;所述葉結(jié)點中存儲與所述葉結(jié)點對應的特征閾值對應的點擊數(shù)和推送數(shù);葉結(jié)點定位模塊106,用于根據(jù)與所述用戶標識對應的在預設的用戶屬性類型下的特征值在所述決策樹對象中定位與所述用戶標識對應的葉結(jié)點,所述特征值與從所述決策樹對象的根節(jié)點到所述定位到的葉結(jié)點的路徑上的各個樹節(jié)點對應的特征閾值匹配;數(shù)據(jù)內(nèi)容選擇模塊108,用于獲取定位到的葉結(jié)點中存儲的點擊數(shù)和推送數(shù),根據(jù)所述點擊數(shù)和推送數(shù)生成選擇參考值,根據(jù)所述選擇參考值選擇數(shù)據(jù)內(nèi)容推送到與所述用戶標識對應的終端。在本實施例中,如圖6所示,選擇數(shù)據(jù)內(nèi)容向終端推送的裝置還包括決策樹更新模塊110,用于接收上傳的瀏覽記錄,獲取所述瀏覽記錄對應的用戶標識 以及所述瀏覽記錄對應的數(shù)據(jù)內(nèi)容;獲取所述數(shù)據(jù)內(nèi)容對應的決策樹對象,獲取所述用戶標識對應的在預設的用戶屬性類型下的特征值,根據(jù)獲取到的特征值在所述決策樹對象中定位所述與用戶標識對應的葉結(jié)點,根據(jù)所述瀏覽記錄增加所述定位到的葉結(jié)點中存儲的點擊數(shù)和推送數(shù)。在本實施例中,決策樹更新模塊110還用于獲取所述瀏覽記錄中與所述數(shù)據(jù)內(nèi)容對應的點擊數(shù)和推送數(shù);獲取所述決策樹對象中所述根節(jié)點到所述定位到的葉結(jié)點的路徑上的分支節(jié)點,獲取預設的除所述路徑上的分支節(jié)點對應的用戶屬性類型之外的候選用戶屬性類型,按照各個候選用戶屬性類型下的各個特征區(qū)間歸類添加由所述瀏覽記錄獲取到的與所述數(shù)據(jù)內(nèi)容對應的點擊數(shù)和推送數(shù)。在本實施例中,決策樹更新模塊110還用于根據(jù)所述定位到的葉結(jié)點中歸類存儲的與候選用戶屬性類型下的各個特征區(qū)間對應的點擊數(shù)和推送數(shù)生成所述候選用戶屬性類型對應的信息增益;查找信息增益與其他查找到的用戶屬性類型的信息增益的差值大于或等于信息增益閾值的候選用戶屬性類型;在查找到時,則將所述定位到的葉結(jié)點設置為分支節(jié)點,根據(jù)所述查找到的候選用戶屬性類型下的特征區(qū)間的特征閾值生成該分支節(jié)點的葉結(jié)點。在本實施例中,決策樹更新模塊110還用于根據(jù)公式:G(A)=Entropy(S)-Σv∈FAp(v)Entropy(Sv)Entropy(S)=-p1log2(p1)-(1-p1)log2(1-p1)Entropy(Sv)=-p2log2(p2)-(1-p2)log2(1-p2)]]>計算葉結(jié)點S下的用戶屬性類型A的信息增益;其中,F(xiàn)A為用戶屬性類型A的特征區(qū)間的集合,v為用戶屬性類型A下各個特征區(qū)間的特征閾值,p(v)為用戶屬性類型A下各個特征區(qū)間中的推送數(shù)的分布概率;Sv為各個特征區(qū)間的特征閾值v各自對應的點擊數(shù)與推薦數(shù)的集合,p1為與葉結(jié)點S對應的點擊數(shù)與推薦數(shù)的比值,p2為與Sv對應的點擊數(shù)與推薦數(shù)的比值。在本實施例中,如圖6所示,選擇數(shù)據(jù)內(nèi)容向終端推送的裝置還包括決策樹創(chuàng)建模塊112,用于在未查找與所述數(shù)據(jù)內(nèi)容對應的決策樹對象時,創(chuàng)建與所述數(shù)據(jù)內(nèi)容對應的決策樹對象,該創(chuàng)建的決策樹對象的根節(jié)點為葉節(jié)點;所述決策樹獲取模塊還用于在在未查找與所述數(shù)據(jù)內(nèi)容對應的決策樹對象時,為所述數(shù)據(jù)內(nèi)容分配默認的選擇參考值。在本實施例中,數(shù)據(jù)內(nèi)容選擇模塊108還用于獲取所述數(shù)據(jù)內(nèi)容對應的計價權(quán)重系數(shù),將所述點擊數(shù)和推送數(shù)的比值與所述計價權(quán)重系數(shù)相乘后得到所述數(shù)據(jù)內(nèi)容的選擇參考值。在本實施例中,如圖6所示,選擇數(shù)據(jù)內(nèi)容向終端推送的裝置還包括數(shù)據(jù)內(nèi)容篩選模塊114,還用于根據(jù)所述用戶標識對應的在預設的用戶屬性類型下的特征值通過關(guān)鍵字匹配對數(shù)據(jù)內(nèi)容進行預篩選。綜上所述,實施本發(fā)明實施例,將具有如下有益效果:采用了上述決策樹對象作為匹配模型之后,可通過將用戶標識對應的特征值與數(shù)據(jù)內(nèi)容各自對應的決策樹對象中的分支節(jié)點進行匹配來查找到選擇參考值較大的數(shù)據(jù)內(nèi)容進行推送,且上述決策樹對象的邏輯結(jié)構(gòu)使得對決策樹對象可利用用戶的瀏覽記錄實時進行更新,而不需要定期采樣后,再根據(jù)采樣得到的樣本通過機器學習的方式離線對決策樹對象進行更新,也就是說,在將用戶標識對應的特征值與數(shù)據(jù)內(nèi)容各自對應的決策樹對象中的分支節(jié)點進行匹配時,決策樹對象中的統(tǒng)計數(shù)據(jù)均參考了較新的用戶瀏覽記錄,從而使得匹配的結(jié)果能夠更加符合運行時用戶的操作習慣或瀏覽習慣,從而提高了選擇數(shù)據(jù)內(nèi)容進行推送的準確度。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-OnlyMemory,ROM)或隨機存儲記憶體(RandomAccessMemory,RAM)等。以上所揭露的僅為本發(fā)明較佳實施例而已,當然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。當前第1頁1 2 3