1.一種人群聚類的方法,其特征在于,包括:
獲得針對(duì)人群的樣本集以及所述樣本集的聚類中心集,所述樣本集中每個(gè)樣本點(diǎn)包括人群中對(duì)應(yīng)的個(gè)人的描述信息,所述描述信息至少包括年齡信息、性別信息、愛好信息和消費(fèi)金額信息;
針對(duì)所述樣本集中的每一個(gè)樣本點(diǎn),依次遍歷聚類中心集中的每一個(gè)聚類中心點(diǎn),確定所述每一個(gè)樣本點(diǎn)與所述聚類中心集中距離最近的聚類中心點(diǎn),并將所述每一個(gè)樣本點(diǎn)劃分到所述聚類中心集中距離最近的聚類中心點(diǎn)對(duì)應(yīng)的集合中,獲得所述聚類中心集中的每一個(gè)聚類中心點(diǎn)對(duì)應(yīng)的聚類集;
獲得所述聚類集中樣本點(diǎn)的平均值,并根據(jù)所述平均值更新所述聚類中心集;
根據(jù)第一聚類中心點(diǎn)上一次更新前后的自身差值獲取第一距離的預(yù)測(cè)值;其中,所述第一距離為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與所述第一聚類中心點(diǎn)之間的距離,所述第一聚類中心點(diǎn)為聚類距離遍歷中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
根據(jù)第二距離、所述第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,其中,所述第二距離為上一次聚類距離遍歷過程中所述第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,所述第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn);
按照三角形不等式規(guī)則將所述第一距離的預(yù)測(cè)值與所述第三距離的預(yù)測(cè)值進(jìn)行比較;
若所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的預(yù)測(cè)值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
基于已丟棄所述第二聚類中心點(diǎn)的聚類中心集進(jìn)行所述距離遍歷,獲得所述樣本集的聚類結(jié)果,所述聚類結(jié)果包括以所述年齡信息、所述性別信息、所述愛好信息和所述消費(fèi)金額信息為基準(zhǔn)維度對(duì)所述人群中的每一個(gè)人進(jìn)行聚類后的聚類信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述獲得所述樣本集的聚類結(jié)果之后,所述方法還包括:
對(duì)所述聚類結(jié)果進(jìn)行分析,以對(duì)所述聚類方法進(jìn)行評(píng)價(jià)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述聚類結(jié)果進(jìn)行分析,以對(duì)所述聚類方法進(jìn)行評(píng)價(jià),具體包括:
通過熵值驗(yàn)證算法或純度驗(yàn)證算法對(duì)所述聚類結(jié)果進(jìn)行分析;
在所述熵值驗(yàn)證算法獲得的所述聚類結(jié)果的熵值小于第一預(yù)設(shè)值時(shí),確定所述聚類方法滿足預(yù)設(shè)需求;或者
在所述純度驗(yàn)證算法獲得的所述聚類結(jié)果的純度大于第二預(yù)設(shè)值時(shí),確定所述聚類方法滿足所述預(yù)設(shè)需求。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
若所述第三距離的預(yù)測(cè)值小于兩倍的所述第一距離的預(yù)測(cè)值,則根據(jù)上一次更新后的所述第一聚類中心點(diǎn)對(duì)所述第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)上一次更新后的所述第一聚類中心點(diǎn)對(duì)所述第二聚類中心點(diǎn)進(jìn)行數(shù)據(jù)聚類處理,包括:
計(jì)算所述上一次更新后的所述第一聚類中心點(diǎn)與所述樣本點(diǎn)之間的距離,得到第一距離的實(shí)際值;
按照三角形不等式規(guī)則將所述第一距離的實(shí)際值與所述第三距離的預(yù)測(cè)值進(jìn)行比較;
若所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚 類中心點(diǎn)之間的距離;
若所述第三距離的預(yù)測(cè)值小于兩倍的所述第一距離的實(shí)際值,則計(jì)算第四距離,并確定所述第四距離是否小于所述第一距離的實(shí)際值;其中,所述第四距離為所述樣本點(diǎn)與所述第二聚類中心點(diǎn)的距離;
若所述第四距離小于所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
若所述第四距離大于或者等于所述第一距離的實(shí)際值,則將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述將所述第二聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn),包括:
若所述第四距離小于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成,則將所述第二聚類中心點(diǎn)賦值給所述上一次更新后的所述第一聚類中心點(diǎn),以及將所述第四距離賦值給所述第一距離的實(shí)際值;
若所述第四距離小于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷未完成,則將所述第二聚類中心點(diǎn)賦值給所述上一次更新后的所述第一聚類中心點(diǎn),以及將所述第四距離賦值給所述第一距離的實(shí)際值,并基于賦值后的第一聚類中心點(diǎn)及賦值后的第一距離的實(shí)際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn),包括:
若所述第四距離大于或者等于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離遍歷完成,則將所述上一次更新后的所述第一聚類中心點(diǎn)確定為當(dāng)前距離遍歷過程中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
若所述第四距離大于或者等于所述第一距離的實(shí)際值,并且當(dāng)前聚類距離 遍歷未完成,則基于所述上一次更新后的所述第一聚類中心點(diǎn)以及所述第一距離的實(shí)際值繼續(xù)遍歷所述當(dāng)前聚類中心集中的下一個(gè)聚類中心點(diǎn)。
8.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,在計(jì)算第四距離之前,所述方法還包括:
計(jì)算第五距離,所述第五距離為所述第二聚類中心點(diǎn)與所述上一次更新后的所述第一聚類中心點(diǎn)之間的距離;
按照三角形不等式規(guī)則將所述第一距離的實(shí)際值與所述第五距離進(jìn)行比較;
若所述第五距離大于或者等于兩倍的所述第一距離的實(shí)際值,則將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
所述計(jì)算第四距離,包括:
若所述第五距離小于兩倍的所述第一距離的實(shí)際值,則執(zhí)行所述計(jì)算所述第四距離。
9.根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)第二距離、所述第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,包括:
獲取所述第一聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算所述第一聚類中心點(diǎn)更新前后之間的第一差值;
獲取所述第二聚類中心點(diǎn)上一次更新前對(duì)應(yīng)的值及更新后對(duì)應(yīng)的值,并計(jì)算所述第二聚類中心點(diǎn)更新前后之間的第二差值;
將所述第二距離與所述第一差值及所述第二差值進(jìn)行減法計(jì)算,獲得所述第三距離的預(yù)測(cè)值。
10.一種人群聚類的裝置,其特征在于,包括:
獲得單元,用于獲得針對(duì)人群的樣本集以及所述樣本集的聚類中心集,所 述樣本集中每個(gè)樣本點(diǎn)包括人群中對(duì)應(yīng)的個(gè)人的描述信息,所述描述信息至少包括年齡信息、性別信息、愛好信息和消費(fèi)金額信息;
聚類集獲得單元,用于針對(duì)所述樣本集中的每一個(gè)樣本點(diǎn),依次遍歷聚類中心集中的每一個(gè)聚類中心點(diǎn),確定所述每一個(gè)樣本點(diǎn)與所述聚類中心集中距離最近的聚類中心點(diǎn),并將所述每一個(gè)樣本點(diǎn)劃分到所述聚類中心集中距離最近的聚類中心點(diǎn)對(duì)應(yīng)的集合中,獲得所述聚類中心集中的每一個(gè)聚類中心點(diǎn)對(duì)應(yīng)的聚類集;
平均值獲得單元,用于獲得所述聚類集中樣本點(diǎn)的平均值,并根據(jù)所述平均值更新所述聚類中心集;
第一獲取單元,用于根據(jù)第一聚類中心點(diǎn)上一次更新前后的自身差值獲取第一距離的預(yù)測(cè)值;其中,所述第一距離為需要進(jìn)行數(shù)據(jù)聚類的樣本點(diǎn)與所述第一聚類中心點(diǎn)之間的距離,所述第一聚類中心點(diǎn)為聚類距離遍歷中與所述樣本點(diǎn)距離最近的聚類中心點(diǎn);
第二獲取單元,用于根據(jù)第二距離、所述第一聚類中心點(diǎn)上一次更新前后的自身差值以及第二聚類中心點(diǎn)上一次更新前后的自身差值獲取第三距離的預(yù)測(cè)值,其中,所述第二距離為上一次聚類距離遍歷過程中所述第一聚類中心點(diǎn)與第二聚類中心點(diǎn)之間的距離,所述第二聚類中心點(diǎn)為當(dāng)前聚類距離遍歷過程中待遍歷的聚類中心點(diǎn);
比較單元,用于按照三角形不等式規(guī)則將所述第一獲取單元獲取的所述第一距離的預(yù)測(cè)值與所述第二獲取單元獲取的所述第三距離的預(yù)測(cè)值進(jìn)行比較;
丟棄單元,用于當(dāng)所述比較單元比較的所述第三距離的預(yù)測(cè)值大于或者等于兩倍的所述第一距離的預(yù)測(cè)值時(shí),將所述第二聚類中心點(diǎn)丟棄,以便進(jìn)行聚類距離遍歷時(shí),不再計(jì)算所述樣本點(diǎn)與所述第二聚類中心點(diǎn)之間的距離以及所述第二聚類中心點(diǎn)與其他待遍歷聚類中心點(diǎn)之間的距離;
聚類結(jié)果獲得單元,用于基于已丟棄所述第二聚類中心點(diǎn)的聚類中心集進(jìn)行所述距離遍歷,獲得所述樣本集的聚類結(jié)果,所述聚類結(jié)果包括以所述年齡 信息、所述性別信息、所述愛好信息和所述消費(fèi)金額信息為基準(zhǔn)維度對(duì)所述人群中的每一個(gè)人進(jìn)行聚類后的聚類信息。