大數(shù)據(jù)處理方法及平臺(tái)的制作方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種大數(shù)據(jù)處理方法及平臺(tái)。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)每天產(chǎn)生著巨大數(shù)量的數(shù)據(jù)。例如,國(guó)內(nèi)的博客、微博、交易平臺(tái),國(guó)外的Twitter、Facebook等社交網(wǎng)絡(luò),每天都在產(chǎn)生著海量的數(shù)據(jù)。數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,交易過(guò)程、產(chǎn)品使用和人類行為都可以數(shù)據(jù)化。可見,數(shù)據(jù)已成為重要的生產(chǎn)因素。
[0003]這些數(shù)據(jù)看似龐雜沒(méi)有規(guī)律可循,但是,從整體分布上,有存在一定的特性,能夠反映某些特點(diǎn)。從海量龐雜的數(shù)據(jù)中,如何挖掘、處理得到有用的信息,是大數(shù)據(jù)和數(shù)據(jù)挖掘(DataMining)領(lǐng)域的重要研究課題。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。
[0004]大數(shù)據(jù)挖掘中,一種重要的處理是對(duì)大數(shù)據(jù)進(jìn)行聚類處理。大量的數(shù)據(jù)對(duì)象的集合可被劃分為一系列有意義的子集,即聚類。聚類分析是把一組數(shù)據(jù)對(duì)象按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購(gòu)買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等多種領(lǐng)域。
[0005]聚類處理通常包括對(duì)數(shù)據(jù)對(duì)象分組,把相似的數(shù)據(jù)對(duì)象聚在一個(gè)類里?,F(xiàn)有技術(shù)中一種典型的聚類方法包括K-MEANS算法。這種算法接收輸入的聚類個(gè)數(shù)k,并接收包含N個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)庫(kù),將該N個(gè)數(shù)據(jù)對(duì)象輸出至滿足方差最小標(biāo)準(zhǔn)的k個(gè)聚類中。劃分至k個(gè)聚類中的N個(gè)數(shù)據(jù)對(duì)象,同一聚類中的數(shù)據(jù)對(duì)象相似度較高,而不同聚類中的數(shù)據(jù)對(duì)象相似度較小。通常,這種聚類相似度可以利用各聚類中數(shù)據(jù)對(duì)象的均值所獲得一個(gè)“中心對(duì)象”(引力中心)來(lái)進(jìn)行計(jì)算。
[0006]K-MEANS算法的實(shí)現(xiàn)過(guò)程具體包括:
[0007](I)從η個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;
[0008](2)根據(jù)每個(gè)聚類對(duì)象的均值(中心對(duì)象),計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;
[0009](3)重新計(jì)算每個(gè)(有變化)聚類的均值(中心對(duì)象);
[0010](4)計(jì)算標(biāo)準(zhǔn)測(cè)度函數(shù),當(dāng)滿足一定條件,如函數(shù)收斂時(shí),則算法終止;如果條件不滿足則回到步驟(2)。
[0011]在實(shí)現(xiàn)本申請(qǐng)過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問(wèn)題:
[0012]現(xiàn)有技術(shù)中采用K-MEANS算法進(jìn)行聚類的過(guò)程,常針對(duì)η為固定值的情況。對(duì)于數(shù)據(jù)數(shù)量η為變化值的情況,在處理過(guò)程中,η每變化一次,例如η的值增加I個(gè),對(duì)應(yīng)的情況例如需要處理的數(shù)據(jù)增加I個(gè)新的數(shù)據(jù)記錄,則需要重新執(zhí)行上述步驟(I)?(4)的過(guò)程。
[0013]對(duì)于大數(shù)據(jù)而言,需要相當(dāng)大的硬件資源執(zhí)行上述聚類過(guò)程,且當(dāng)數(shù)據(jù)數(shù)量發(fā)生變化時(shí)需要重新執(zhí)行一次上述過(guò)程。這種方式占用硬件資源的很大開銷。
【發(fā)明內(nèi)容】
[0014]本申請(qǐng)實(shí)施例的目的是提供一種大數(shù)據(jù)處理方法及平臺(tái),以節(jié)省硬件資源的開銷。
[0015]為解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種大數(shù)據(jù)處理方法及平臺(tái)是這樣實(shí)現(xiàn)的:
[0016]一種大數(shù)據(jù)處理方法,包括:
[0017]接收包含用戶第一數(shù)據(jù)的請(qǐng)求信息;
[0018]如果所述第一數(shù)據(jù)大于預(yù)定限額,查詢所述用戶的歷史數(shù)據(jù);
[0019]基于所述歷史數(shù)據(jù)在聚類后的分類中查找對(duì)應(yīng)分類;
[0020]將查找到的對(duì)應(yīng)分類按照預(yù)定映射規(guī)則得到動(dòng)態(tài)額度;
[0021]如果所述第一數(shù)據(jù)不大于預(yù)定限額與動(dòng)態(tài)額度之和,則批準(zhǔn)所述請(qǐng)求信息。
[0022]一種大數(shù)據(jù)處理平臺(tái),包括:
[0023]接收單元,用于接收包含用戶第一數(shù)據(jù)的請(qǐng)求信息;
[0024]查詢單元,用于當(dāng)所述第一數(shù)據(jù)大于預(yù)定限額時(shí),查詢所述用戶的歷史數(shù)據(jù);
[0025]查找單元,基于所述歷史數(shù)據(jù)在聚類后的分類中查找對(duì)應(yīng)分類;
[0026]映射單元,用于將查找到的對(duì)應(yīng)分類按照預(yù)定映射規(guī)則得到動(dòng)態(tài)額度;
[0027]審核單元,用于當(dāng)所述第一數(shù)據(jù)不大于預(yù)定限額與動(dòng)態(tài)額度之和時(shí),批準(zhǔn)所述請(qǐng)求信息。
[0028]由以上本申請(qǐng)實(shí)施例提供的技術(shù)方案可見,本申請(qǐng)實(shí)施例中的聚類可以預(yù)先根據(jù)預(yù)定數(shù)量的大數(shù)據(jù)完成。在新接收到用戶傳來(lái)數(shù)據(jù)請(qǐng)求的情況下,不需要將包括該新接收數(shù)據(jù)的大量數(shù)據(jù)重新進(jìn)行聚類,相反,基于所述用戶歷史數(shù)據(jù)在聚類后的分類中可以查找到對(duì)應(yīng)分類,從而依據(jù)預(yù)定映射規(guī)則可以得到動(dòng)態(tài)額度。這樣,可以節(jié)省硬件資源的開銷。
【附圖說(shuō)明】
[0029]為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0030]圖1為本申請(qǐng)大數(shù)據(jù)處理方法一個(gè)實(shí)施例的流程圖;
[0031]圖2為本申請(qǐng)大數(shù)據(jù)處理方法一實(shí)施例中群落和離群點(diǎn)示意圖;
[0032]圖3為本申請(qǐng)大數(shù)據(jù)處理方法一實(shí)施例中剔除離群點(diǎn)算法的示意圖;
[0033]圖4為本申請(qǐng)大數(shù)據(jù)處理平臺(tái)一個(gè)實(shí)施例的模塊圖;
[0034]圖5為本申請(qǐng)大數(shù)據(jù)處理平臺(tái)一個(gè)實(shí)施例的模塊圖;
[0035]圖6為本申請(qǐng)大數(shù)據(jù)處理方法中利用決策樹進(jìn)行分類的示意圖。
【具體實(shí)施方式】
[0036]本申請(qǐng)實(shí)施例提供一種大數(shù)據(jù)處理方法及平臺(tái)。
[0037]為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)中的技術(shù)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。
[0038]隨著電子商務(wù)的普及,支付平臺(tái)在人們的日常生活中扮演了越來(lái)越重要的作用。通過(guò)綁定用戶的銀行卡,支付平臺(tái)為用戶支付帶來(lái)了很大的便利,創(chuàng)造了良好的支付體驗(yàn),但同時(shí),支付的便捷性也增加了交易的風(fēng)險(xiǎn),這對(duì)風(fēng)險(xiǎn)控制提出了更高的要求,其中重要的控制手段就是對(duì)用戶的消費(fèi)進(jìn)行限額管理。支付平臺(tái)可以對(duì)用戶交易進(jìn)行限額管理?,F(xiàn)有技術(shù)中的,較常用的方式是按照固定限額對(duì)交易進(jìn)行限制。例如,支付平臺(tái)可以設(shè)置白名單,對(duì)白名單中的用戶給予較高的限額,對(duì)于不在白名單中的用戶給予較低的限額。進(jìn)而判斷用戶消費(fèi)是否超過(guò)限額以限制交易進(jìn)行。這種方式中,限額通常是由人工指定且固定不變的,不能根據(jù)不同用戶、不同場(chǎng)景靈活調(diào)整。
[0039]大數(shù)據(jù)中的聚類方法,可以應(yīng)用于限額的制定,以靈活調(diào)整不同用戶、不同場(chǎng)景中的限額,并設(shè)法節(jié)省硬件資源的開銷。以下結(jié)合附圖1說(shuō)明本申請(qǐng)大數(shù)據(jù)處理方法一實(shí)施例:
[0040]SlOO:接收包含用戶第一數(shù)據(jù)的請(qǐng)求信息。
[0041]所述請(qǐng)求信息中可以包含用戶的訂單,例如發(fā)送至交易平臺(tái)的購(gòu)買商品的訂單信肩、O
[0042]所述第一數(shù)據(jù),可以包括訂單信息中的待支付的金額。
[0043]此外,所述第一數(shù)據(jù),還可以包括訂單信息中的商品種類。
[0044]S200:如果所述第一數(shù)據(jù)大于預(yù)定限額,查詢所述用戶的歷史數(shù)據(jù)。
[0045]所述預(yù)定限額,可以是人為指定的,例如由系統(tǒng)設(shè)定或由用戶指定,此外,也