專利名稱:一種獲取目標(biāo)客戶群的方法、設(shè)備及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及移動互聯(lián)網(wǎng)的數(shù)據(jù)分析領(lǐng)域,尤其涉及一種移動互聯(lián)網(wǎng)行為分析獲取目標(biāo)客戶群的方法、設(shè)備及系統(tǒng)。
背景技術(shù):
隨著移動互聯(lián)網(wǎng)規(guī)模的日益龐大與內(nèi)容不斷豐富,手機(jī)閱讀、無線音樂、手機(jī)支付、手機(jī)導(dǎo)航和飛信等豐富多彩的移動互聯(lián)網(wǎng)應(yīng)用正逐漸滲透到人們生活、工作等領(lǐng)域,并進(jìn)而改變著個人生活。在此發(fā)展形勢下,迫切需要提高對移動互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展的業(yè)務(wù)支撐手段。為了更好支撐移動互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,需要對用戶訪問移動互聯(lián)網(wǎng)行為進(jìn)行深入分析,該訪問行為里面蘊含著豐富的客戶信息,如客戶在手機(jī)上瀏覽了什么新聞和小說,通 過搜索引擎搜索了什么關(guān)鍵字,在購物網(wǎng)站上購買了什么產(chǎn)品等等。根據(jù)這些信息即可以進(jìn)行業(yè)務(wù)的內(nèi)容分析、業(yè)務(wù)熱點分析以及客戶偏好分析等,從而更好把握客戶需求,以支撐移動互聯(lián)網(wǎng)新業(yè)務(wù)的精準(zhǔn)營銷。在此背景下建設(shè)了移動互聯(lián)網(wǎng)行為分析系統(tǒng),移動互聯(lián)網(wǎng)行為分析系統(tǒng)需要從海量的用戶上網(wǎng)日志中,根據(jù)定義的獲取目標(biāo)客戶群的規(guī)則,以及通過對用戶互聯(lián)網(wǎng)數(shù)據(jù)搜索及規(guī)則計算,得到需要的目標(biāo)客戶群。參考圖1,現(xiàn)有技術(shù)中的移動互聯(lián)網(wǎng)行為分析系統(tǒng)獲取目標(biāo)客戶群的方法具體為CKM向任務(wù)服務(wù)器發(fā)送獲取目標(biāo)客戶群的任務(wù);任務(wù)服務(wù)器接收到該任務(wù)后,將該任務(wù)寫入到任務(wù)文件中,分發(fā)到各個地市服務(wù)器;每個地市服務(wù)器均保存該地市的所有用戶的上網(wǎng)信息數(shù)據(jù),當(dāng)?shù)厥蟹?wù)器接收到任務(wù)文件中的任務(wù)后,進(jìn)行信息搜索及規(guī)則計算,得到該地市的目標(biāo)客戶群,并生成地市目標(biāo)客戶群結(jié)果文件,上傳到文件服務(wù)器?,F(xiàn)有技術(shù)將計算能力按照地市進(jìn)行了服務(wù)器劃分,各個地市的數(shù)據(jù)處理互不影響,每個任務(wù)可以按照地市進(jìn)行分解為多任務(wù)并行計算,在一定程度上解決了性能問題。但是,在當(dāng)某個地市的數(shù)據(jù)量大幅上升后,無法通過增加服務(wù)器來解決性能的問題,可擴(kuò)展性比較差;另外,由于每個地市的用戶數(shù)據(jù)差異較大,無法避免的出現(xiàn)負(fù)載無法均衡的情況;還有,當(dāng)該系統(tǒng)中某個地市分服務(wù)器出現(xiàn)問題而無法使用時,該地市分服務(wù)器對應(yīng)的任務(wù)由于無法執(zhí)行而丟失,可靠性較低。
發(fā)明內(nèi)容
本發(fā)明的實施例提供一種獲取目標(biāo)客戶群的方法、設(shè)備及系統(tǒng),用以增強(qiáng)移動互聯(lián)網(wǎng)行為分析系統(tǒng)的可擴(kuò)展性,同時提高系統(tǒng)負(fù)載的均衡能力。為達(dá)到上述目的,本發(fā)明的實施例采用如下技術(shù)方案一方面,本發(fā)明提供了一種獲取目標(biāo)客戶群的方法,包括集群服務(wù)器接收任務(wù)服務(wù)器發(fā)送的任務(wù)文件;所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將其中一份寫入文件得到的;接收數(shù)據(jù)提取、轉(zhuǎn)換和加載ETL工具根據(jù)所述集群服務(wù)器的數(shù)量發(fā)送的等額用戶互聯(lián)網(wǎng)數(shù)據(jù);針對所述用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器;以使得所述匯總服務(wù)器根據(jù)每個集群服務(wù)器上傳的結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器。另一方面,本發(fā)明提供了一種獲取目標(biāo)客戶群的方法,包括任務(wù)服務(wù)器接收CKM發(fā)起的初始任務(wù);分解所述初始任務(wù),得到多個子任務(wù);
根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件中,形成對應(yīng)于各自集群服務(wù)器的任務(wù)文件;將所述任務(wù)文件發(fā)送給對應(yīng)的每個集群服務(wù)器;以使得所述每個集群服務(wù)器針對其接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成相應(yīng)的結(jié)果文件,并上傳到匯總服務(wù)器,以便所述匯總服務(wù)器根據(jù)所述每個集群服務(wù)器上傳的所述結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器;其中,所述用戶互聯(lián)網(wǎng)數(shù)據(jù)為ETL工具根據(jù)所述集群服務(wù)器的數(shù)量分配的等額用戶互聯(lián)網(wǎng)數(shù)據(jù)。再一方面,本發(fā)明提供了一種獲取目標(biāo)客戶群的方法,包括匯總服務(wù)器接收每個集群服務(wù)器發(fā)送的結(jié)果文件;所述結(jié)果文件為所述每個集群服務(wù)器接收到任務(wù)服務(wù)器發(fā)送的對應(yīng)于各自集群服務(wù)器的任務(wù)文件,針對其接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù),執(zhí)行所述任務(wù)文件中的各個子任務(wù)后生成的;其中,所述用戶互聯(lián)網(wǎng)數(shù)據(jù)為ETL工具根據(jù)集群服務(wù)器的數(shù)量分配的等額用戶互聯(lián)網(wǎng)數(shù)據(jù);所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)所述集群服務(wù)器的數(shù)量將分解的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件得到的;按照所述結(jié)果文件的至少一個特征量,匯總所述結(jié)果文件中的數(shù)據(jù)信息,得到數(shù)據(jù)信息集合;按照獲取目標(biāo)客戶群的規(guī)則,從所述數(shù)據(jù)信息集合中搜索得到目標(biāo)客戶群數(shù)據(jù)信息,并上傳所述目標(biāo)客戶群數(shù)據(jù)信息到文件服務(wù)器。再一方面,本發(fā)明提供了一種獲取目標(biāo)客戶群的方法,包括在用戶互聯(lián)網(wǎng)數(shù)據(jù)庫中,數(shù)據(jù)提取、轉(zhuǎn)換和加載ETL工具按照預(yù)先設(shè)置的抽取規(guī)貝U,進(jìn)行數(shù)據(jù)抽??;根據(jù)集群服務(wù)器的數(shù)量將等額的用戶互聯(lián)網(wǎng)數(shù)據(jù)發(fā)送到每個集群服務(wù)器中;以使得所述每個集群服務(wù)器在接收到任務(wù)服務(wù)器發(fā)送的任務(wù)文件后,針對各自集群服務(wù)器中的所述用戶互聯(lián)網(wǎng)數(shù)據(jù),執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器,以便匯總服務(wù)器生成目標(biāo)客戶群信息,并上傳到文件服務(wù)器;其中,所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)所述集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件后得到的。再一方面,本發(fā)明提供了一種集群服務(wù)器,包括第一接收模塊,用于接收任務(wù)服務(wù)器發(fā)送的任務(wù)文件;所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將其中一份寫入文件得到的;第二接收模塊,用于接收數(shù)據(jù)提取、轉(zhuǎn)換和加載ETL工具根據(jù)所述集群服務(wù)器的數(shù)量發(fā)送的等額用戶互聯(lián)網(wǎng)數(shù)據(jù);執(zhí)行模塊,用于針對所述第二接收模塊接收到的所述用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器;以使得所述匯總服務(wù)器根據(jù)每個集群服務(wù)器上傳的結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器。再一方面,本發(fā)明還提供了一種集群服務(wù)器,所述集群服務(wù)器包括主結(jié)點服務(wù)器和子結(jié)點服務(wù)器;其中,所述主結(jié)點服務(wù)器包括第一接收模塊和第一分發(fā)模塊;所述第一接收模塊,用于接收任務(wù)服務(wù)器發(fā)送的任務(wù)文件;所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將其中一份寫入文件得到的; 所述第一分發(fā)模塊,用于將所述任務(wù)文件中的各個子任務(wù)分發(fā)給各個所述子結(jié)點服務(wù)器;子結(jié)點服務(wù)器包括第二接收模塊和執(zhí)行模塊;所述第二接收模塊,用于接收ETL工具根據(jù)所述集群服務(wù)器的數(shù)量發(fā)送的等額用戶互聯(lián)網(wǎng)數(shù)據(jù);并接收所述第一分發(fā)模塊發(fā)送的所述各個子任務(wù);所述執(zhí)行模塊,用于針對第二接收模塊接收到的所述用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器;以使得所述匯總服務(wù)器根據(jù)每個集群服務(wù)器上傳的結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器。再一方面,本發(fā)明還提供了一種任務(wù)服務(wù)器,包括接收模塊,用于接收CKM發(fā)起的初始任務(wù);處理模塊,用于分解所述初始任務(wù),得到多個子任務(wù);根據(jù)集群服務(wù)器的數(shù)量將分解后的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件中,形成對應(yīng)于各自集群服務(wù)器的任務(wù)文件;發(fā)送模塊,用于將所述任務(wù)文件發(fā)送給對應(yīng)的每個集群服務(wù)器;以使得所述每個集群服務(wù)器針對其接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成相應(yīng)的結(jié)果文件,并上傳到匯總服務(wù)器,以便所述匯總服務(wù)器根據(jù)所述集群服務(wù)器上傳的所述結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器;其中,所述用戶互聯(lián)網(wǎng)數(shù)據(jù)為ETL工具根據(jù)所述集群服務(wù)器的數(shù)量分配的等額用戶互聯(lián)網(wǎng)數(shù)據(jù)。再一方面,本發(fā)明還提供了一種匯總服務(wù)器,包括接收模塊,用于接收每個集群服務(wù)器發(fā)送的結(jié)果文件;所述結(jié)果文件為所述每個集群服務(wù)器接收到任務(wù)服務(wù)器發(fā)送的對應(yīng)于各自集群服務(wù)器的任務(wù)文件,針對其接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù),執(zhí)行所述任務(wù)文件中的各個子任務(wù)后生成的;其中,所述用戶互聯(lián)網(wǎng)數(shù)據(jù)為ETL工具根據(jù)集群服務(wù)器的數(shù)量分配的等額用戶互聯(lián)網(wǎng)數(shù)據(jù);所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)所述集群服務(wù)器的數(shù)量將分解的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件得到的;處理模塊,用于按照所述結(jié)果文件的至少一個特征量,匯總所述結(jié)果文件中的數(shù)據(jù)信息,得到數(shù)據(jù)信息集合;發(fā)送模塊,用于按照獲取目標(biāo)客戶群的規(guī)則,從所述數(shù)據(jù)信息集合中搜索得到目標(biāo)客戶群數(shù)據(jù)信息,并上傳所述目標(biāo)客戶群數(shù)據(jù)信息到文件服務(wù)器。再一方面,本發(fā)明還提供了一種數(shù)據(jù)提取、轉(zhuǎn)換和加載ETL工具,包括處理模塊,在用戶互聯(lián)網(wǎng)數(shù)據(jù)庫中,按照預(yù)先設(shè)置的抽取規(guī)則,進(jìn)行數(shù)據(jù)抽??;發(fā)送模塊,用于根據(jù)集群服務(wù)器的數(shù)量將等額的用戶互聯(lián)網(wǎng)數(shù)據(jù)發(fā)送到每個集群服務(wù)器中;以使得所述每個集群服務(wù)器在接收到任務(wù)服務(wù)器發(fā)送的任務(wù)文件后,針對各自集群服務(wù)器中的用戶互聯(lián)網(wǎng)數(shù)據(jù),執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器,以便匯總服務(wù)器生成目標(biāo)客戶群信息,并上傳到文件服務(wù)器;其中,所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù)后,得到多個子任務(wù)后,根據(jù)所述集群服務(wù)器的數(shù)量將分解后的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件后得到的。再一方面,本發(fā)明提供了一種獲取目標(biāo)客戶群的系統(tǒng),包括CKM ;文件服務(wù)器;上述任一集群服務(wù)器;上述任一任務(wù)服務(wù)器;上述任一匯總服務(wù)器;上述任一 ETL工具。本發(fā)明實施例提供的獲取目標(biāo)客戶群的方法、設(shè)備及系統(tǒng),任務(wù)服務(wù)器將初始任務(wù)進(jìn)行更細(xì)的分解,使每個集群服務(wù)器處理的子任務(wù)數(shù)量相同,且每個集群服務(wù)器處理的用戶互聯(lián)網(wǎng)數(shù)據(jù)量也基本相同,以使系統(tǒng)負(fù)載均衡的能力得到了更大提高;在移動上網(wǎng)用戶成倍增長時,只需通過擴(kuò)展集群服務(wù)器的數(shù)量或單個集群服務(wù)器的子結(jié)點數(shù)量,來提升系統(tǒng)的處理能力,從而增強(qiáng)移動互聯(lián)網(wǎng)行為分析系統(tǒng)的可擴(kuò)展性。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為現(xiàn)有技術(shù)中獲取目標(biāo)客戶群的系統(tǒng)架構(gòu)示意圖;圖2為本發(fā)明實施例提供的獲取目標(biāo)客戶群的系統(tǒng)架構(gòu)示意圖;圖3為本發(fā)明實施例提供的獲取目標(biāo)客戶群的方法的流程圖;圖4為本發(fā)明實施例提供的獲取目標(biāo)客戶群的系統(tǒng)的信令流示意圖;圖5為本發(fā)明實施例提供的獲取目標(biāo)客戶群的方法中預(yù)處理過程流程示意圖;圖6為本發(fā)明實施例提供的獲取目標(biāo)客戶群的方法中生成目標(biāo)客戶群數(shù)據(jù)信息的不意圖;圖7為本發(fā)明實施例提供的集群服務(wù)器的結(jié)構(gòu)示意框圖;圖8為本發(fā)明實施例提供的集群服務(wù)器的另一結(jié)構(gòu)示意框圖;、
圖9為本發(fā)明實施例提供的任務(wù)服務(wù)器的結(jié)構(gòu)示意框圖;圖10為本發(fā)明實施例提供的匯總服務(wù)器的結(jié)構(gòu)示意框圖;圖11為本發(fā)明實施例提供的ETL工具的結(jié)構(gòu)示意框圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明實施例提供一種獲取目標(biāo)客戶群的系統(tǒng),該系統(tǒng)通常為移動互聯(lián)網(wǎng)行為分 析系統(tǒng),示例性的,如圖2所示,該系統(tǒng)包括CKM(Customer Knowledge Management,客戶知識管理平臺),文件服務(wù)器,集群服務(wù)器,任務(wù)服務(wù)器,匯總服務(wù)器以及ETL(Extraction-Transformation-Loading,數(shù)據(jù)提取、轉(zhuǎn)換和加載)工具。其中的CKM以及文件服務(wù)器,都為現(xiàn)有技術(shù),用在本系統(tǒng)中可以執(zhí)行本實施例中的CKM以及文件服務(wù)器對應(yīng)的所有動作,在對此不做過多描述。對于該系統(tǒng)中的其他設(shè)備在下面的實施例中再做詳述。參照圖3,上述系統(tǒng)中各個設(shè)備間的信令流傳輸為ETL工具抽取用戶互聯(lián)網(wǎng)數(shù)據(jù)到各個集群服務(wù)器;CKM發(fā)起任務(wù);任務(wù)服務(wù)器接收CKM發(fā)送的任務(wù)并回應(yīng),任務(wù)服務(wù)器將任務(wù)文件發(fā)送到各個集群服務(wù)器;各個集群服務(wù)器執(zhí)行任務(wù)文件中的任務(wù)并將結(jié)果文件發(fā)送到匯總服務(wù)器;匯總服務(wù)器匯總結(jié)果文件,得到目標(biāo)客戶群數(shù)據(jù)信息并上傳到文件服務(wù)器;CKM獲取文件服務(wù)器上的目標(biāo)客戶群數(shù)據(jù)信息;需要說明的是,集群服務(wù)器可以由若干個服務(wù)器集合而成,它們聯(lián)接在一起,在邏輯上屬于同一系統(tǒng);業(yè)務(wù)上它們需要處理各自的數(shù)據(jù),也需要彼此之間的交換和處理;當(dāng)擴(kuò)充某個集群服務(wù)器中的節(jié)點或集群服務(wù)器時,對整個系統(tǒng)架構(gòu)影響較小?;趫D2所示的系統(tǒng),本發(fā)明實施例提供了一種獲取目標(biāo)客戶群的方法,如圖4所示,該方法包括以下步驟S101、在用戶互聯(lián)網(wǎng)數(shù)據(jù)庫中,ETL工具按照預(yù)先設(shè)置的抽取規(guī)則,進(jìn)行數(shù)據(jù)抽取。進(jìn)一步地,為了不影響系統(tǒng)正常運行,該步驟SlOl優(yōu)選為在用戶互聯(lián)網(wǎng)數(shù)據(jù)庫中,ETL工具按照預(yù)先設(shè)置的抽取規(guī)則,在系統(tǒng)閑置時間定時進(jìn)行數(shù)據(jù)抽??;例如,在晚上12:00至第二天早上6:00之間進(jìn)行數(shù)據(jù)抽取。S102、根據(jù)集群服務(wù)器的數(shù)量將等額的用戶互聯(lián)網(wǎng)數(shù)據(jù)發(fā)送到每個集群服務(wù)器中。需要說明的是,上述步驟SlOl到S102為預(yù)處理過程,CKM發(fā)起任務(wù)與上述預(yù)處理過程沒有順序關(guān)系,也就是說,在上述預(yù)處理過程中,CKM就可發(fā)起任務(wù)。另外,對于上述集群服務(wù)器的數(shù)量,在本發(fā)明中實施例中不做限定,根據(jù)實際情況可自行設(shè)置;此處所說的等額的用戶互聯(lián)網(wǎng)數(shù)據(jù)是指用戶互聯(lián)網(wǎng)數(shù)據(jù)量在一定誤差范圍內(nèi)的相等。S103、任務(wù)服務(wù)器接收CKM發(fā)起的獲取目標(biāo)客戶群的初始任務(wù);并向CKM發(fā)送接收到該初始任務(wù)的回復(fù)消息。示例性的,以CKM系統(tǒng)發(fā)起獲取"某省內(nèi)最近7天瀏覽過劉德華及演唱會相關(guān)網(wǎng)頁3次以上的客戶群"的初始任務(wù)為例進(jìn)行說明,該任務(wù)中的特征量可以為"劉德華"、"演唱會"、"某省包含的所有地市"、"日期";且該任務(wù)中的關(guān)鍵字可以為"劉德華"、"演唱會"。S104、任務(wù)服務(wù)器將該初始任務(wù)進(jìn)行分解,得到多個子任務(wù)。示例性的,該初始任務(wù)按上述的特征量可以分解的子任務(wù)數(shù)量可以這樣計算,假設(shè)某省有17個地市,搜索日期為2012年5月I日至2012年5月7日,那么該初始任務(wù)可被分解為2 (兩個關(guān)鍵字)*7 (7天)*17 (該省的地市數(shù))*2 (兩種搜索方式,一種為通過瀏覽網(wǎng)頁,一種為通過搜索引擎輸入關(guān)鍵字)= 476個子任務(wù)。
S105、任務(wù)服務(wù)器根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件中,形成對應(yīng)于每個集群服務(wù)器的任務(wù)文件。需要說明的是,假設(shè)集群服務(wù)器數(shù)量為10個,上述476個子任務(wù)不能被平均的分成整數(shù),因此,上述的將所有子任務(wù)平均分成多份,此處的平均是一個相對的平均,在實際操作過程中,在平均分配過程中可設(shè)置一定的誤差,以使得做到相對的平均分配,這樣盡量增強(qiáng)系統(tǒng)的均衡能力。另外,平均分配后的每一份中的所有子任務(wù)需寫入對應(yīng)的文件中,且寫入文件的格式可以包含上述的特征量,示例性的,子任務(wù)的格式可以為關(guān)鍵字......page/地市碼/日期,或,關(guān)鍵字......key/地市碼/日期。如劉德華......page/371/20120501 ;演唱會......page/371/20120501 ;劉德華......key/371/20120501 ;演唱會......key/371/20120501 ο其中,page表示瀏覽網(wǎng)頁的方式,其對應(yīng)于網(wǎng)頁內(nèi)容根據(jù)關(guān)鍵字詞典庫建立的索引;key表示通過搜索引擎輸入關(guān)鍵字搜索的方式,其對應(yīng)于通過搜索引擎輸入的關(guān)鍵字,根據(jù)關(guān)鍵字詞典庫建立的索引;371代表其中的一個地市碼;20120501為日期。S106、任務(wù)服務(wù)器將S105中的任務(wù)文件發(fā)送給對應(yīng)的每個集群服務(wù)器。S107、每個集群服務(wù)器接收任務(wù)服務(wù)器發(fā)送的對應(yīng)于各自集群服務(wù)器的任務(wù)文件。通過上述S101-S102,每個集群服務(wù)器能夠獲取等額的用戶互聯(lián)網(wǎng)數(shù)據(jù),通過上述S103-S107,每個集群服務(wù)器能夠獲取一個任務(wù)文件。S108、每個集群服務(wù)器針對接收到的等額的用戶互聯(lián)網(wǎng)數(shù)據(jù)(S102已描述),執(zhí)行對應(yīng)的任務(wù)文件,生成結(jié)果文件,并將結(jié)果文件上傳至匯總服務(wù)器。其中,所述結(jié)果文件中包含有符合所述任務(wù)文件中子任務(wù)的用戶互聯(lián)網(wǎng)數(shù)據(jù)。優(yōu)選的,上述集群服務(wù)器可以包括主結(jié)點服務(wù)器和子結(jié)點服務(wù)器,此時,上述S107-S108中該集群服務(wù)器的具體執(zhí)行過程可以如下所述每個集群服務(wù)器中的主結(jié)點服務(wù)器接收任務(wù)服務(wù)器發(fā)送的對應(yīng)于各自集群服務(wù)器的任務(wù)文件;此時需要說明的是,參考圖5,上述步驟S102中,ETL工具根據(jù)集群服務(wù)器的數(shù)量將等額發(fā)送用戶互聯(lián)網(wǎng)數(shù)據(jù)到每個集群服務(wù)器的子結(jié)點服務(wù)器中;集群服務(wù)器中的子結(jié)點服務(wù)器將用戶互聯(lián)網(wǎng)數(shù)據(jù)根據(jù)"關(guān)鍵字詞典庫"建立關(guān)鍵字索引庫。
示例的,子結(jié)點服務(wù)器分別按照"劉德華"、"演唱會"這兩個關(guān)鍵字將接收的用戶互聯(lián)網(wǎng)數(shù)據(jù)建立兩個關(guān)鍵字索引庫。在關(guān)鍵字為"劉德華"的索引庫中可以按照搜索方式(網(wǎng)頁搜索或通過搜索引擎輸入關(guān)鍵字搜索)建立索引文件,例如其中一個索引文件可以存放關(guān)鍵字為"劉德華"、搜索方式為網(wǎng)頁搜索的用戶互聯(lián)網(wǎng)數(shù)據(jù);另一個索引文件可以存放關(guān)鍵字為"劉德華"、搜索方式為通過搜索引擎輸入關(guān)鍵字搜索的用戶互聯(lián)網(wǎng)數(shù)據(jù)。在關(guān)鍵字為"演唱會"的索引庫中可以按照搜索方式建立索引文件,例如其中一個索引文件可以存放關(guān)鍵字為"演唱會"、搜索方式為網(wǎng)頁搜索的用戶互聯(lián)網(wǎng)數(shù)據(jù);另一個索引文件可以存放鍵字"演唱會"、搜索方式為通過搜索引擎輸入關(guān)鍵字搜索的用戶互聯(lián)網(wǎng)數(shù)據(jù)。當(dāng)某個集群服務(wù)器的主結(jié)點服務(wù)器接收到對應(yīng)于該集群服務(wù)器的任務(wù)文件后,將該任務(wù)文件中的各個子任務(wù)分發(fā)給各個子結(jié)點服務(wù)器。上述的各個子結(jié)點服務(wù)器在關(guān)鍵字索引庫中,按照各個子結(jié)點服務(wù)器所接收到的子任務(wù)中的特征量搜索,生成結(jié)果文件,并將結(jié)果文件上傳至匯總服務(wù)器。示例性的,若其中一個子結(jié)點服務(wù)器所接收的所有子任務(wù)中既包含特征量為"劉德華"的子任務(wù)又包含特征量為"演唱會"的子任務(wù),則該子結(jié)點服務(wù)器分別在上述所建立的兩個關(guān)鍵字索引庫中,執(zhí)行相應(yīng)的子任務(wù),生成結(jié)果文件,并將結(jié)果文件上傳至匯總服務(wù)器。需要說明的是,本系統(tǒng)中所有集群服務(wù)器的執(zhí)行過程優(yōu)選的是同時進(jìn)行的,根據(jù)每個集群服務(wù)器的任務(wù)量及用戶互聯(lián)網(wǎng)數(shù)據(jù)量,可增加某個集群服務(wù)器的子結(jié)點數(shù),以提高整個系統(tǒng)的性能;另外,上述S101-S102與S103-S107的執(zhí)行過程可以是同時進(jìn)行的,每個集群服務(wù)器接收到子任務(wù)后,根據(jù)子任務(wù)中的特征量在已經(jīng)建立的關(guān)鍵字索引庫的索引文件中進(jìn)行查詢,但是對于某個日期內(nèi)正在生成的索引文件,是不會被查詢的。S109、匯總服務(wù)器接收每個集群服務(wù)器發(fā)送的結(jié)果文件。S110、匯總服務(wù)器按照結(jié)果文件的至少一個特征量,匯總所述結(jié)果文件中的數(shù)據(jù)信息,得到數(shù)據(jù)信息集合。需要說明的是,結(jié)果文件的特征量與子任務(wù)的特征量一致。
示例性的,如圖6所示,匯總服務(wù)器在接收到上述的結(jié)果文件后,按照該省的各個地市和關(guān)鍵字,匯總出該省的各個地市關(guān)鍵字"劉德華"被搜索的數(shù)據(jù)信息以及該省的各個地市關(guān)鍵字"演唱會"被搜索的數(shù)據(jù)信息,得到數(shù)據(jù)信息集合。具體的,數(shù)據(jù)信息集合中包含34項搜索結(jié)果,分別為地市I、"劉德華"的搜索結(jié)果,地市I、"演唱會"的搜索結(jié)果,……,地市17、"劉德華",地市17、演唱會"的搜索結(jié)果。S111、匯總服務(wù)器按照獲取目標(biāo)客戶群的規(guī)則,從數(shù)據(jù)信息集合中搜索得到目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器。示例性的,根據(jù)接收到CKM發(fā)送的獲取目標(biāo)客戶群的規(guī)則,即瀏覽過"劉德華"及"演唱會"相關(guān)網(wǎng)頁3次以上的規(guī)則,在上述匯總出的數(shù)據(jù)信息集合中,得到目標(biāo)客戶群信息。進(jìn)一步地,匯總服務(wù)器還生成任務(wù)處理情況文件,并上傳該任務(wù)處理情況文件到文件服務(wù)器;以使得CKM通過定時讀取該任務(wù)處理情況文件,直到確認(rèn)匯總服務(wù)器已處理完畢后,獲取目標(biāo)客戶群數(shù)據(jù)信息。
本發(fā)明實施例提供的獲取目標(biāo)客戶群的方法,任務(wù)服務(wù)器將初始任務(wù)進(jìn)行更細(xì)的分解,使每個集群服務(wù)器處理的子任務(wù)數(shù)量相同,且每個集群服務(wù)器處理的用戶互聯(lián)網(wǎng)數(shù)據(jù)量也基本相同,以使系統(tǒng)負(fù)載均衡的能力得到了更大提高;在移動上網(wǎng)用戶成倍增長時,只需通過擴(kuò)展集群服務(wù)器的數(shù)量或單個集群服務(wù)器的子結(jié)點數(shù)量,來提升系統(tǒng)的處理能力,從而增強(qiáng)移動互聯(lián)網(wǎng)行為分析系統(tǒng)的可擴(kuò)展性。需要說明的是,本實施例是以獲取某省"劉德華演唱會目標(biāo)客戶群"的移動互聯(lián)網(wǎng)行為分析為例進(jìn)行說明,在實際應(yīng)用過程中,本發(fā)明并不限于此,可以是任何與移動互聯(lián)網(wǎng)行為分析有關(guān)活動。在本實施例中集群服務(wù)器的數(shù)量以及集群服務(wù)器中的主結(jié)點服務(wù)器、子結(jié)點服務(wù)器的數(shù)量并不受任何限制,根據(jù)實際需要自行配置。下面,本發(fā)明實施例還提供了上述方法中所涉及到的設(shè)備,由于各個設(shè)備中的功能模塊和上述方法中的步驟相對應(yīng),故在以下的實施例中對各個功能模塊不加詳述,具體可參見方法實施例。如圖7所示,本發(fā)明實施例提供了一種集群服務(wù)器70包括 第一接收模塊701,用于接收任務(wù)服務(wù)器發(fā)送的任務(wù)文件;該任務(wù)文件為任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將其中一份寫入文件得到的。第二接收模塊702,用于接收ETL工具根據(jù)集群服務(wù)器的數(shù)量發(fā)送的等額用戶互聯(lián)網(wǎng)數(shù)據(jù)。執(zhí)行模塊703,用于針對第二接受模塊702接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將結(jié)果文件上傳至匯總服務(wù)器;以使得匯總服務(wù)器根據(jù)每個集群服務(wù)器上傳的結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器。另外,如圖8所示,本發(fā)明實施例提供的集群服務(wù)器80,還可以是,具體包括主結(jié)點服務(wù)器801和子結(jié)點服務(wù)器802 ;其中,主結(jié)點服務(wù)器801包括第一接收模塊8001,用于接收任務(wù)服務(wù)器發(fā)送的任務(wù)文件;該任務(wù)文件為任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將其中一份寫入文件得到的。第一分發(fā)模塊8002,用于將任務(wù)文件中的各個子任務(wù)分發(fā)給各個子結(jié)點服務(wù)器。子結(jié)點服務(wù)器802包括第二接收模塊8003,用于接收ETL工具根據(jù)集群服務(wù)器的數(shù)量發(fā)送的等額用戶互聯(lián)網(wǎng)數(shù)據(jù);并接收第一分發(fā)模塊8002發(fā)送的各個子任務(wù)。執(zhí)行模塊8004,用于針對第二接收模塊8003接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將結(jié)果文件上傳至匯總服務(wù)器;以使得匯總服務(wù)器根據(jù)每個集群服務(wù)器上傳的結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器。進(jìn)一步地,該子結(jié)點服務(wù)器還包括建立模塊8005,將上述用戶互聯(lián)網(wǎng)數(shù)據(jù)根據(jù)"關(guān)鍵字詞典庫"建立關(guān)鍵字索引庫;以使得上述執(zhí)行模塊8004只需在該關(guān)鍵字索引庫中,按照各個子結(jié)點服務(wù)器所接收到的子任務(wù)中的特征量搜索,生成結(jié)果文件;并將結(jié)果文件上傳至匯總服務(wù)器;以使得匯總服務(wù)器根據(jù)每個集群服務(wù)器上傳的結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器;其中子任務(wù)中的特征量包含至少一個關(guān)鍵字。本發(fā)明實施例提供的集群服務(wù)器,每個集群服務(wù)器處理的任務(wù)數(shù)量相同,且任務(wù)對應(yīng)的數(shù)據(jù)量也基本相同,以使系統(tǒng)負(fù)載均衡的能力得到了更大提高;在移動上網(wǎng)用戶成倍增長時,只需通過擴(kuò)展集群服務(wù)器的數(shù)量或單個集群服務(wù)器的子結(jié)點數(shù)量,來提升系統(tǒng)的處理能力,從而增強(qiáng)移動互聯(lián)網(wǎng)行為分析系統(tǒng)的可擴(kuò)展性。如圖9所述,本發(fā)明實施例提供的任務(wù)服務(wù)器90,包括接收模塊901,用于接收CKM發(fā)起的初始任務(wù)。處理模塊902,用于分解初始任務(wù),得到多個子任務(wù);并根據(jù)集群服務(wù)器的數(shù)量將分解后的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件中,形成對應(yīng)于各自集群服務(wù)器的任務(wù)文件。
發(fā)送模塊903,用于將該任務(wù)文件發(fā)送給對應(yīng)的每個集群服務(wù)器;以使得每個集群服務(wù)器針對其接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行任務(wù)文件中的各個子任務(wù),生成相應(yīng)的結(jié)果文件,并上傳到匯總服務(wù)器,以便匯總服務(wù)器根據(jù)每個集群服務(wù)器上傳的結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器;其中,用戶互聯(lián)網(wǎng)數(shù)據(jù)為ETL工具根據(jù)集群服務(wù)器的數(shù)量分配的等額用戶互聯(lián)網(wǎng)數(shù)據(jù)。本發(fā)明實施例提供的任務(wù)服務(wù)器,將初始任務(wù)分解為多個子任務(wù),并根據(jù)集群服務(wù)器的數(shù)量,將所有子任務(wù)進(jìn)行平均分配,在需要處理的用戶互聯(lián)網(wǎng)數(shù)據(jù)量也基本相同時,使系統(tǒng)負(fù)載均衡的能力得到了更大提高。如圖10所述,本發(fā)明實施例提供的匯總服務(wù)器100,包括接收模塊1001,用于接收每個集群服務(wù)器發(fā)送的結(jié)果文件;該結(jié)果文件為每個集群服務(wù)器接收到任務(wù)服務(wù)器發(fā)送的對應(yīng)于各自集群服務(wù)器的任務(wù)文件,針對其接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù),執(zhí)行任務(wù)文件中的各個子任務(wù)后生成的;其中,用戶互聯(lián)網(wǎng)數(shù)據(jù)為ETL工具根據(jù)集群服務(wù)器的數(shù)量分配的等額用戶互聯(lián)網(wǎng)數(shù)據(jù);任務(wù)文件為任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將分解的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件得到的。處理模塊1002,用于按照上述結(jié)果文件的至少一個特征量,匯總該結(jié)果文件中的數(shù)據(jù)信息,得到數(shù)據(jù)信息集合。發(fā)送模塊1003,用于按照獲取目標(biāo)客戶群的規(guī)則,從這些數(shù)據(jù)信息集合中搜索得到目標(biāo)客戶群數(shù)據(jù)信息,并上傳目標(biāo)客戶群數(shù)據(jù)信息到文件服務(wù)器。進(jìn)一步地,處理模塊1002,還用于生成任務(wù)處理情況文件。發(fā)送模塊1003、還用于將處理模塊1002生成的任務(wù)處理情況文件上傳所述文件服務(wù)器;以使CKM通過讀取任務(wù)處理情況文件,直到確認(rèn)該匯總服務(wù)器100處理完畢后,獲取所述目標(biāo)客戶群信息結(jié)果文件。本發(fā)明實施例提供的匯總服務(wù)器,較現(xiàn)有技術(shù)而言,避免了每個集群服務(wù)器保存全部的用戶互聯(lián)網(wǎng)數(shù)據(jù),使得針對用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行的任務(wù)量減小,提升了系統(tǒng)的處理能力。如圖11所述,本發(fā)明實施例提供的ETL工具110,包括處理模塊1101,在用戶互聯(lián)網(wǎng)數(shù)據(jù)庫中,ETL工具按照預(yù)先設(shè)置的抽取規(guī)則,進(jìn)行數(shù)據(jù)抽取。
發(fā)送模塊1102,用于根據(jù)集群服務(wù)器的數(shù)量將等額的用戶互聯(lián)網(wǎng)數(shù)據(jù)發(fā)送到每個集群服務(wù)器中;以使得每個集群服務(wù)器在接收到任務(wù)服務(wù)器發(fā)送的任務(wù)文件后,針對各自集群服務(wù)器中的用戶互聯(lián)網(wǎng)數(shù)據(jù),執(zhí)行任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將結(jié)果文件上傳至匯總服務(wù)器,以便匯總服務(wù)器生成目標(biāo)客戶群信息,并上傳到文件服務(wù)器;其中,任務(wù)文件為任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù)后,得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將分解后的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件后得到的。ETL 工具可以是Informatica、Datastage、0WB、微軟 DTS。本發(fā)明實施例提供的ETL工具,根據(jù)集群服務(wù)器的數(shù)量將等額的用戶互聯(lián)網(wǎng)數(shù)據(jù)發(fā)送到每個集群服務(wù)器中,在集群服務(wù)器接收到的子任務(wù)量也基本相同時,使系統(tǒng)負(fù)載均衡的能力得到了更大提高。需要說明的是,上述的集群服務(wù)器在實際應(yīng)用中可以為hadoop集群服務(wù)器。其中,hadoop集群服務(wù)器為一個分布式系統(tǒng)基礎(chǔ)架構(gòu),hadoop集群服務(wù)器具有高速運算和存儲的能力,能夠提供高傳輸率來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程 序;同時,該hadoop集群服務(wù)器可擴(kuò)展性比較強(qiáng)。以上所述,僅為本發(fā)明的具體實施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種獲取目標(biāo)客戶群的方法,其特征在于,包括 集群服務(wù)器接收任務(wù)服務(wù)器發(fā)送的任務(wù)文件;所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將其中一份寫入文件得到的; 接收數(shù)據(jù)提取、轉(zhuǎn)換和加載ETL工具根據(jù)所述集群服務(wù)器的數(shù)量發(fā)送的等額用戶互聯(lián)網(wǎng)數(shù)據(jù); 針對所述用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器;以使得所述匯總服務(wù)器根據(jù)每個集群服務(wù)器上傳的結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述集群服務(wù)器包括主結(jié)點服務(wù)器和子結(jié)點服務(wù)器; 所述接收任務(wù)服務(wù)器發(fā)送的任務(wù)文件包括所述集群服務(wù)器中的主結(jié)點服務(wù)器接收所述任務(wù)服務(wù)器發(fā)送的任務(wù)文件; 所述接收ETL工具根據(jù)所述集群服務(wù)器的數(shù)量發(fā)送的等額用戶互聯(lián)網(wǎng)數(shù)據(jù)包括所述集群服務(wù)器中的子結(jié)點服務(wù)器接收ETL工具根據(jù)所述集群服務(wù)器的數(shù)量等額發(fā)送的用戶互聯(lián)網(wǎng)數(shù)據(jù);所述方法還包括所述主結(jié)點服務(wù)器將所述任務(wù)文件中的各個子任務(wù)分發(fā)給各個所述子結(jié)點服務(wù)器;所述針對所述用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器包括所述集群服務(wù)器中的各個所述子結(jié)點服務(wù)器針對所述用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行各個所述子結(jié)點服務(wù)器接收到的子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至所述匯總服務(wù)器。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述集群服務(wù)器中的子結(jié)點服務(wù)器接收ETL工具根據(jù)所述集群服務(wù)器的數(shù)量等額發(fā)送的用戶互聯(lián)網(wǎng)數(shù)據(jù)之后還包括 所述集群服務(wù)器中的子結(jié)點服務(wù)器將所述用戶互聯(lián)網(wǎng)數(shù)據(jù)根據(jù)"關(guān)鍵字詞典庫"建A關(guān)鍵字索引庫; 所述集群服務(wù)器中的各個所述子結(jié)點服務(wù)器針對所述用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行各個所述子結(jié)點服務(wù)器接收到的子任務(wù),生成結(jié)果文件包括 所述集群服務(wù)器中的各個所述子結(jié)點服務(wù)器在所述關(guān)鍵字索引庫中,按照各個所述子結(jié)點服務(wù)器所接收到的子任務(wù)中的特征量搜索,生成結(jié)果文件;其中所述特征量中包含至少一個所述關(guān)鍵字。
4.一種獲取目標(biāo)客戶群的方法,其特征在于,包括 任務(wù)服務(wù)器接收CKM發(fā)起的初始任務(wù); 分解所述初始任務(wù),得到多個子任務(wù); 根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件中,形成對應(yīng)于各自集群服務(wù)器的任務(wù)文件; 將所述任務(wù)文件發(fā)送給對應(yīng)的每個集群服務(wù)器;以使得所述每個集群服務(wù)器針對其接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成相應(yīng)的結(jié)果文件,并上傳到匯總服務(wù)器,以便所述匯總服務(wù)器根據(jù)所述每個集群服務(wù)器上傳的所述結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器;其中,所述用戶互聯(lián)網(wǎng)數(shù)據(jù)為ETL工具根據(jù)所述集群服務(wù)器的數(shù)量分配的等額用戶互聯(lián)網(wǎng)數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述分解所述初始任務(wù),得到多個子任務(wù)包括 根據(jù)所述初始任務(wù)中的特征量的任意組合,將所述初始任務(wù)分解為多個子任務(wù)。
6.一種獲取目標(biāo)客戶群的方法,其特征在于,包括 匯總服務(wù)器接收每個集群服務(wù)器發(fā)送的結(jié)果文件;所述結(jié)果文件為所述每個集群服務(wù)器接收到任務(wù)服務(wù)器發(fā)送的對應(yīng)于各自集群服務(wù)器的任務(wù)文件,針對其接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù),執(zhí)行所述任務(wù)文件中的各個子任務(wù)后生成的;其中,所述用戶互聯(lián)網(wǎng)數(shù)據(jù)為ETL工具根據(jù)集群服務(wù)器的數(shù)量分配的等額用戶互聯(lián)網(wǎng)數(shù)據(jù);所述任務(wù)文件為所述任務(wù)服務(wù)器分 解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)所述集群服務(wù)器的數(shù)量將分解的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件得到的; 按照所述結(jié)果文件的至少一個特征量,匯總所述結(jié)果文件中的數(shù)據(jù)信息,得到數(shù)據(jù)信息集合; 按照獲取的目標(biāo)客戶群的規(guī)則,從所述數(shù)據(jù)信息集合中搜索得到目標(biāo)客戶群數(shù)據(jù)信息,并上傳所述目標(biāo)客戶群數(shù)據(jù)信息到文件服務(wù)器。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述按照獲取目標(biāo)客戶群的規(guī)則,從所述數(shù)據(jù)信息集合中搜索得到目標(biāo)客戶群數(shù)據(jù)信息,并上傳所述目標(biāo)客戶群數(shù)據(jù)信息到文件服務(wù)器后,還包括 所述匯總服務(wù)器生成任務(wù)處理情況文件,并上傳所述任務(wù)處理情況文件到所述文件服務(wù)器;以使得所述CKM通過所述任務(wù)處理情況文件確認(rèn)所述匯總服務(wù)器處理完畢后,獲取所述目標(biāo)客戶群信息。
8.一種獲取目標(biāo)客戶群的方法,其特征在于,包括 在用戶互聯(lián)網(wǎng)數(shù)據(jù)庫中,數(shù)據(jù)提取、轉(zhuǎn)換和加載ETL工具按照預(yù)先設(shè)置的抽取規(guī)則,進(jìn)行數(shù)據(jù)抽??; 根據(jù)集群服務(wù)器的數(shù)量將等額的用戶互聯(lián)網(wǎng)數(shù)據(jù)發(fā)送到每個集群服務(wù)器中;以使得所述每個集群服務(wù)器在接收到任務(wù)服務(wù)器發(fā)送的任務(wù)文件后,針對各自集群服務(wù)器中的所述用戶互聯(lián)網(wǎng)數(shù)據(jù),執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器,以便匯總服務(wù)器生成目標(biāo)客戶群信息,并上傳到文件服務(wù)器;其中,所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)所述集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件后得到的。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述在用戶互聯(lián)網(wǎng)數(shù)據(jù)庫中,ETL工具按照預(yù)先設(shè)置的抽取規(guī)則進(jìn)行數(shù)據(jù)抽取,包括 在用戶互聯(lián)網(wǎng)數(shù)據(jù)庫中,ETL工具按照預(yù)先設(shè)置的抽取規(guī)則,在系統(tǒng)閑置時間定時進(jìn)行數(shù)據(jù)抽取。
10.一種集群服務(wù)器,其特征在于,包括 第一接收模塊,用于接收任務(wù)服務(wù)器發(fā)送的任務(wù)文件;所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將其中一份寫入文件得到的; 第二接收模塊,用于接收數(shù)據(jù)提取、轉(zhuǎn)換和加載ETL工具根據(jù)所述集群服務(wù)器的數(shù)量發(fā)送的等額用戶互聯(lián)網(wǎng)數(shù)據(jù); 執(zhí)行模塊,用于針對所述第二接收模塊接收到的所述用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器;以使得所述匯總服務(wù)器根據(jù)每個集群服務(wù)器上傳的結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器。
11.一種集群服務(wù)器,其特征在于,所述集群服務(wù)器包括主結(jié)點服務(wù)器和子結(jié)點服務(wù)器;其中,所述主結(jié)點服務(wù)器包括第一接收模塊和第一分發(fā)模塊; 所述第一接收模塊,用于接收任務(wù)服務(wù)器發(fā)送的任務(wù)文件;所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將其中一份寫入文件得到的; 所述第一分發(fā)模塊,用于將所述任務(wù)文件中的各個子任務(wù)分發(fā)給各個所述子結(jié)點服務(wù)器; 子結(jié)點服務(wù)器包括第二接收模塊和執(zhí)行模塊; 所述第二接收模塊,用于接收ETL工具根據(jù)所述集群服務(wù)器的數(shù)量發(fā)送的等額用戶互聯(lián)網(wǎng)數(shù)據(jù);并接收所述第一分發(fā)模塊發(fā)送的所述各個子任務(wù); 所述執(zhí)行模塊,用于針對第二接收模塊接收到的所述用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器;以使得所述匯總服務(wù)器根據(jù)每個集群服務(wù)器上傳的結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器。
12.根據(jù)權(quán)利要求11所述的集群服務(wù)器,其特征在于,所述子結(jié)點服務(wù)器還包括建立模塊; 所述建立模塊用于將所述用戶互聯(lián)網(wǎng)數(shù)據(jù)根據(jù)"關(guān)鍵字詞典庫"建立關(guān)鍵字索引庫; 所述執(zhí)行模塊,用于在所述關(guān)鍵字索引庫中,按照各個所述子結(jié)點服務(wù)器所接收到的子任務(wù)中的特征量搜索,生成結(jié)果文件;其中,所述子任務(wù)中的特征量包含至少一個所述關(guān)鍵字。
13.—種任務(wù)服務(wù)器,其特征在于,包括 接收模塊,用于接收CKM發(fā)起的初始任務(wù); 處理模塊,用于分解所述初始任務(wù),得到多個子任務(wù);根據(jù)集群服務(wù)器的數(shù)量將分解后的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件中,形成對應(yīng)于各自集群服務(wù)器的任務(wù)文件; 發(fā)送模塊,用于將所述任務(wù)文件發(fā)送給對應(yīng)的每個集群服務(wù)器;以使得所述每個集群服務(wù)器針對其接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成相應(yīng)的結(jié)果文件,并上傳到匯總服務(wù)器,以便所述匯總服務(wù)器根據(jù)所述每個集群服務(wù)器上傳的所述結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器;其中,所述用戶互聯(lián)網(wǎng)數(shù)據(jù)為ETL工具根據(jù)所述集群服務(wù)器的數(shù)量分配的等額用戶互聯(lián)網(wǎng)數(shù)據(jù)。
14.一種匯總服務(wù)器,其特征在于,包括 接收模塊,用于接收每個集群服務(wù)器發(fā)送的結(jié)果文件;所述結(jié)果文件為所述每個集群服務(wù)器接收到任務(wù)服務(wù)器發(fā)送的對應(yīng)于各自集群服務(wù)器的任務(wù)文件,針對其接收到的用戶互聯(lián)網(wǎng)數(shù)據(jù),執(zhí)行所述任務(wù)文件中的各個子任務(wù)后生成的;其中,所述用戶互聯(lián)網(wǎng)數(shù)據(jù)為ETL工具根據(jù)集群服務(wù)器的數(shù)量分配的等額用戶互聯(lián)網(wǎng)數(shù)據(jù);所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)所述集群服務(wù)器的數(shù)量將分解的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件得到的; 處理模塊,用于按照所述結(jié)果文件的至少一個特征量,匯總所述結(jié)果文件中的數(shù)據(jù)信息,得到數(shù)據(jù)信息集合; 發(fā)送模塊,用于按照獲取目標(biāo)客戶群的規(guī)則,從所述數(shù)據(jù)信息集合中搜索得到目標(biāo)客戶群數(shù)據(jù)信息,并上傳所述目標(biāo)客戶群數(shù)據(jù)信息到文件服務(wù)器。
15.根據(jù)權(quán)利要求14所述的匯總服務(wù)器,其特征在于, 所述處理模塊還用于生成任務(wù)處理情況文件; 所述發(fā)送模塊還用于將所述處理模塊生成的所述任務(wù)處理情況文件上傳所述文件服務(wù)器;以使所述CKM通過讀取所述任務(wù)處理情況文件,直到確認(rèn)所述匯總服務(wù)器處理完畢后,獲取所述目標(biāo)客戶群信息結(jié)果文件。
16.一種數(shù)據(jù)提取、轉(zhuǎn)換和加載ETL工具,其特征在于,包括 處理模塊,在用戶互聯(lián)網(wǎng)數(shù)據(jù)庫中,按照預(yù)先設(shè)置的抽取規(guī)則,進(jìn)行數(shù)據(jù)抽?。? 發(fā)送模塊,用于根據(jù)集群服務(wù)器的數(shù)量將等額的用戶互聯(lián)網(wǎng)數(shù)據(jù)發(fā)送到每個集群服務(wù)器中;以使得所述每個集群服務(wù)器在接收到任務(wù)服務(wù)器發(fā)送的任務(wù)文件后,針對各自集群服務(wù)器中的用戶互聯(lián)網(wǎng)數(shù)據(jù),執(zhí)行所述任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并將所述結(jié)果文件上傳至匯總服務(wù)器,以便匯總服務(wù)器生成目標(biāo)客戶群信息,并上傳到文件服務(wù)器;其中,所述任務(wù)文件為所述任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù)后,得到多個子任務(wù)后,根據(jù)所述集群服務(wù)器的數(shù)量將分解后的所有子任務(wù)平均分成多份,并將每一份寫入對應(yīng)的文件后得到的。
17.一種獲取目標(biāo)客戶群的系統(tǒng),包括CKM ;文件服務(wù)器;其特征在于,還包括 權(quán)利要求10至12任一所述的集群服務(wù)器; 權(quán)利要求13所述的任務(wù)服務(wù)器; 權(quán)利要求14或15所述的匯總服務(wù)器; 權(quán)利要求16所述的ETL工具。
全文摘要
本發(fā)明實施例提供的獲取目標(biāo)客戶群的方法、設(shè)備及系統(tǒng),涉及移動互聯(lián)網(wǎng)領(lǐng)域,提高了系統(tǒng)負(fù)載的均衡能力,同時使系統(tǒng)的可擴(kuò)展性增強(qiáng)。該方法包括集群服務(wù)器接收任務(wù)服務(wù)器發(fā)送的任務(wù)文件;該任務(wù)文件為任務(wù)服務(wù)器分解CKM發(fā)起的初始任務(wù),得到多個子任務(wù)后,根據(jù)集群服務(wù)器的數(shù)量將所有子任務(wù)平均分成多份,并將其中一份寫入文件得到的;集群服務(wù)器接收ETL工具發(fā)送的等額用戶互聯(lián)網(wǎng)數(shù)據(jù),并針對該用戶互聯(lián)網(wǎng)數(shù)據(jù)執(zhí)行任務(wù)文件中的各個子任務(wù),生成結(jié)果文件,并上傳至匯總服務(wù)器;以使得匯總服務(wù)器根據(jù)該結(jié)果文件生成目標(biāo)客戶群數(shù)據(jù)信息,并上傳到文件服務(wù)器。本發(fā)明實施例適用于由互聯(lián)網(wǎng)數(shù)據(jù)中獲取目標(biāo)客戶群的場景。
文檔編號G06F9/50GK102724290SQ20121016173
公開日2012年10月10日 申請日期2012年5月23日 優(yōu)先權(quán)日2012年5月23日
發(fā)明者舒俊杰 申請人:華為技術(shù)有限公司