數(shù)據(jù)分類方法和用于數(shù)據(jù)分類的裝置的制造方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)分類方法和用于數(shù)據(jù)分類的裝置,涉及大數(shù)據(jù)處理領(lǐng)域。其中的數(shù)據(jù)分類方法包括:按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分別進(jìn)行聚類,并根據(jù)每次聚類后各個(gè)類的類內(nèi)方差確定該次聚類的方差;按照各個(gè)預(yù)定聚類個(gè)數(shù)由小到大的順序,當(dāng)相鄰兩次聚類的方差的變化程度第一次小于預(yù)設(shè)值時(shí),將相鄰兩次聚類中選用的較大聚類個(gè)數(shù)確定為實(shí)際聚類個(gè)數(shù);按照實(shí)際聚類個(gè)數(shù)對(duì)數(shù)據(jù)集進(jìn)行聚類,并按照聚類結(jié)果對(duì)數(shù)據(jù)集進(jìn)行分類。通過預(yù)先進(jìn)行多次聚類,并根據(jù)各次聚類的類內(nèi)方差的變化趨勢確定實(shí)際聚類個(gè)數(shù),使聚類個(gè)數(shù)更合理,從而提升了按照聚類結(jié)果進(jìn)行數(shù)據(jù)分類的準(zhǔn)確性。
【專利說明】
數(shù)據(jù)分類方法和用于數(shù)據(jù)分類的裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及大數(shù)據(jù)處理領(lǐng)域,尤其設(shè)及一種數(shù)據(jù)分類方法和用于數(shù)據(jù)分類的裝 置。
【背景技術(shù)】
[0002] 聚類技術(shù)屬于一種數(shù)據(jù)挖掘中常用的無監(jiān)督學(xué)習(xí)方法,采用距離或相似度等度量 指標(biāo)對(duì)樣本進(jìn)行劃分,把相似的樣本劃分到相同的集合里面,不相似的樣本劃分到不同的 集合里面。
[0003] 然而,對(duì)于Kmeans化均值聚類)等需要預(yù)先指定聚類數(shù)量的聚類算法,其中的聚類 個(gè)數(shù)多是人工設(shè)定或算法直接給出,導(dǎo)致聚類效果不夠準(zhǔn)確,進(jìn)而使得基于聚類結(jié)果進(jìn)行 數(shù)據(jù)分類的分類效果不夠準(zhǔn)確,可用性差。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例所要解決的一個(gè)技術(shù)問題是:提高數(shù)據(jù)分類的準(zhǔn)確度。
[0005] 根據(jù)本發(fā)明實(shí)施例的第一個(gè)方面,提供了一種數(shù)據(jù)分類方法,包括:按照各個(gè)預(yù)定 聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分別進(jìn)行聚類,并根據(jù)每次聚類后各個(gè)類的類內(nèi)方差確定該次聚類的方 差;按照各個(gè)預(yù)定聚類個(gè)數(shù)由小到大的順序,當(dāng)相鄰兩次聚類的方差的變化程度第一次小 于預(yù)設(shè)值時(shí),將相鄰兩次聚類中選用的較大聚類個(gè)數(shù)確定為實(shí)際聚類個(gè)數(shù);按照實(shí)際聚類 個(gè)數(shù)對(duì)數(shù)據(jù)集進(jìn)行聚類,并按照聚類結(jié)果對(duì)數(shù)據(jù)集進(jìn)行分類。
[0006] 在一個(gè)實(shí)施例中,將每次聚類后的類內(nèi)所有數(shù)據(jù)點(diǎn)的均值作為類內(nèi)均值,將類內(nèi) 各個(gè)數(shù)據(jù)點(diǎn)與類內(nèi)均值之差的平方的總和作為該類的類內(nèi)方差,將每次聚類后各個(gè)類的類 內(nèi)方差的和或者均值確定為該次聚類的方差。
[0007] 在一個(gè)實(shí)施例中,在按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分別進(jìn)行聚類之前,方法還 包括:將數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的鄰域密度與鄰域密度平均值進(jìn)行比較,并剔除鄰域密度小于 鄰域密度平均值的數(shù)據(jù)點(diǎn);或者,計(jì)算數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的同一維度的元素值的均值和方 差,將同一維度的元素的均值與若干倍的方差的和與差分別作為預(yù)設(shè)范圍的上限和下限, 并剔除該維度的元素值超過預(yù)設(shè)范圍的數(shù)據(jù)點(diǎn)。
[000引在一個(gè)實(shí)施例中,在按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分別進(jìn)行聚類之前,方法還 包括:如果數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為具有至少兩個(gè)維度的向量,計(jì)算不同維度之間的相關(guān)性,對(duì) 于相關(guān)性大于預(yù)設(shè)值的不同維度,保留其中任意一個(gè)維度。
[0009] 在一個(gè)實(shí)施例中,在根據(jù)各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集進(jìn)行聚類之前,方法還包括: 如果數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為具有至少兩個(gè)維度的向量,根據(jù)每個(gè)維度的元素的均值和標(biāo)準(zhǔn)差 分別對(duì)各個(gè)維度的元素進(jìn)行標(biāo)準(zhǔn)化處理。
[0010] 在一個(gè)實(shí)施例中,采用Kmeans聚類算法對(duì)數(shù)據(jù)集進(jìn)行聚類。
[0011] 根據(jù)本發(fā)明實(shí)施例的第二個(gè)方面,提供一種用于數(shù)據(jù)分類的裝置,包括:預(yù)聚類模 塊,用于按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分別進(jìn)行聚類;類內(nèi)方差確定模塊,用于根據(jù)每次 聚類后各個(gè)類的類內(nèi)方差確定該次聚類的方差;實(shí)際聚類個(gè)數(shù)確定模塊,用于按照各個(gè)預(yù) 定聚類個(gè)數(shù)由小到大的順序,當(dāng)相鄰兩次聚類的方差的變化程度第一次小于預(yù)設(shè)值時(shí),將 相鄰兩次聚類中選用的較大聚類個(gè)數(shù)確定為實(shí)際聚類個(gè)數(shù);分類模塊,用于按照實(shí)際聚類 個(gè)數(shù)對(duì)數(shù)據(jù)集進(jìn)行聚類,并按照聚類結(jié)果對(duì)數(shù)據(jù)集進(jìn)行分類。
[0012] 在一個(gè)實(shí)施例中,類內(nèi)方差確定模塊用于將每次聚類后的類內(nèi)所有數(shù)據(jù)點(diǎn)的均值 作為類內(nèi)均值,將類內(nèi)各個(gè)數(shù)據(jù)點(diǎn)與類內(nèi)均值之差的平方的總和作為該類的類內(nèi)方差,將 每次聚類后各個(gè)類的類內(nèi)方差的和或者均值確定為該次聚類的方差。
[0013] 在一個(gè)實(shí)施例中,還包括數(shù)據(jù)點(diǎn)處理模塊,數(shù)據(jù)點(diǎn)處理模塊包括第一數(shù)據(jù)點(diǎn)處理 單元或者第二數(shù)據(jù)點(diǎn)處理單元;第一數(shù)據(jù)點(diǎn)處理單元用于將數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的鄰域密度 與鄰域密度平均值進(jìn)行比較,并剔除鄰域密度小于鄰域密度平均值的數(shù)據(jù)點(diǎn);第二數(shù)據(jù)點(diǎn) 處理單元用于計(jì)算數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的同一維度的元素值的均值和方差,將同一維度的元 素的均值與若干倍的方差的和與差分別作為預(yù)設(shè)范圍的上限和下限,并剔除該維度的元素 值超過預(yù)設(shè)范圍的數(shù)據(jù)點(diǎn)。
[0014] 在一個(gè)實(shí)施例中,還包括維度篩選模塊,用于當(dāng)數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為具有至少兩 個(gè)維度的向量時(shí),計(jì)算不同維度之間的相關(guān)性,對(duì)于相關(guān)性大于預(yù)設(shè)值的不同維度,保留其 中任意一個(gè)維度。
[0015] 在一個(gè)實(shí)施例中,還包括標(biāo)準(zhǔn)化模塊,用于當(dāng)數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為具有至少兩個(gè) 維度的向量時(shí),根據(jù)每個(gè)維度的元素的均值和標(biāo)準(zhǔn)差分別對(duì)各個(gè)維度的元素進(jìn)行標(biāo)準(zhǔn)化處 理。
[0016] 在一個(gè)實(shí)施例中,預(yù)聚類模塊和分類模塊采用Kmeans聚類算法對(duì)數(shù)據(jù)集進(jìn)行聚 類。
[0017] 根據(jù)本發(fā)明實(shí)施例的第=個(gè)方面,提供一種用于數(shù)據(jù)分類的裝置,包括:存儲(chǔ)器; W及禪接至存儲(chǔ)器的處理器,處理器被配置為基于存儲(chǔ)在存儲(chǔ)器中的指令,執(zhí)行前述任意 一種數(shù)據(jù)分類方法。
[0018] 本發(fā)明預(yù)先進(jìn)行多次聚類,并根據(jù)各次聚類的類內(nèi)方差的變化趨勢確定實(shí)際聚類 個(gè)數(shù),使聚類個(gè)數(shù)更合理,從而提升了按照聚類結(jié)果進(jìn)行數(shù)據(jù)分類的準(zhǔn)確性。
[0019] 通過W下參照附圖對(duì)本發(fā)明的示例性實(shí)施例的詳細(xì)描述,本發(fā)明的其它特征及其 優(yōu)點(diǎn)將會(huì)變得清楚。
【附圖說明】
[0020] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W 根據(jù)運(yùn)些附圖獲得其他的附圖。
[0021 ]圖1為本發(fā)明數(shù)據(jù)分類方法的一個(gè)實(shí)施例的流程圖。
[0022] 圖2為各次聚類的方差的變化趨勢的曲線示意圖。
[0023] 圖3為本發(fā)明數(shù)據(jù)分類方法的另一個(gè)實(shí)施例的流程圖。
[0024] 圖4為本發(fā)明用于數(shù)據(jù)分類的裝置的一個(gè)實(shí)施例的結(jié)構(gòu)圖。
[0025] 圖5為本發(fā)明用于數(shù)據(jù)分類的裝置的另一個(gè)實(shí)施例的結(jié)構(gòu)圖。
[0026] 圖6為本發(fā)明用于數(shù)據(jù)分類的裝置的又一個(gè)實(shí)施例的結(jié)構(gòu)圖。
[0027] 圖7為可W實(shí)施本發(fā)明用于數(shù)據(jù)分類的裝置的計(jì)算機(jī)系統(tǒng)的示例性硬件配置的框 圖。
【具體實(shí)施方式】
[0028] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。W下 對(duì)至少一個(gè)示例性實(shí)施例的描述實(shí)際上僅僅是說明性的,決不作為對(duì)本發(fā)明及其應(yīng)用或使 用的任何限制。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提 下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0029] 下面參考圖1描述本發(fā)明一個(gè)實(shí)施例的數(shù)據(jù)分類方法。該方法預(yù)先進(jìn)行多次聚類, 并根據(jù)各次聚類的類內(nèi)方差的變化趨勢確定實(shí)際聚類個(gè)數(shù),然后按照實(shí)際聚類個(gè)數(shù)進(jìn)行聚 類。
[0030] 圖1為本發(fā)明數(shù)據(jù)分類方法的一個(gè)實(shí)施例的流程圖。如圖1所示,該實(shí)施例的方法 包括:
[0031] 步驟S112,按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分別進(jìn)行聚類,并根據(jù)每次聚類后各 個(gè)類的類內(nèi)方差確定該次聚類的方差。
[0032] 在本發(fā)明中,進(jìn)行聚類所采用的算法為需要預(yù)先指定聚類個(gè)數(shù)的聚類算法,例如 Kmeans算法等,但不限于所列舉的具體聚類算法。
[0033] 其中,數(shù)據(jù)集包含具有相同維度的若干數(shù)據(jù)點(diǎn),數(shù)據(jù)點(diǎn)可W是一維的,也可W是多 維的。例如,根據(jù)用戶購買前考慮時(shí)長和瀏覽品類數(shù)量兩維信息構(gòu)成的數(shù)據(jù)集U= {Ui(Ti, 化),化化,化),…,lMTk,Nk)},其中,數(shù)據(jù)集U包括k個(gè)用戶數(shù)據(jù)點(diǎn),Uk(Tk,Nk)表示第k個(gè)用戶 數(shù)據(jù)點(diǎn),Tk和Nk分別表示該第k個(gè)用戶數(shù)據(jù)點(diǎn)的購買前考慮時(shí)長和瀏覽品類數(shù)量。除了用戶 購買前考慮時(shí)長和瀏覽品類數(shù)量W外,還可W將例如收藏夾商品數(shù)量、閱讀評(píng)價(jià)數(shù)量、訂閱 數(shù)量、相似商品瀏覽數(shù)量等指標(biāo)作為維度信息。根據(jù)需要,本領(lǐng)域計(jì)算人員也可W選擇其他 類型的指標(biāo)作為數(shù)據(jù)源,運(yùn)里不再寶述。
[0034] 預(yù)定聚類個(gè)數(shù)為預(yù)先設(shè)定的進(jìn)行聚類的個(gè)數(shù),可W指定若干整數(shù),也可W指定一 個(gè)范圍,該范圍中的各個(gè)整數(shù)即為預(yù)定聚類個(gè)數(shù)。
[0035] 在計(jì)算各個(gè)類的類內(nèi)方差和各次聚類的方差時(shí),將每次聚類后的類內(nèi)所有數(shù)據(jù)點(diǎn) 的均值作為類內(nèi)均值,將類內(nèi)各個(gè)數(shù)據(jù)點(diǎn)與類內(nèi)均值之差的平方的總和作為該類的類內(nèi)方 差,將每次聚類后各個(gè)類的類內(nèi)方差的和或者均值確定為該次聚類的方差。具體地,例如可 W采用如下方法。首先計(jì)算各個(gè)類的類內(nèi)方差:將類內(nèi)所有數(shù)據(jù)點(diǎn)的均值作為類內(nèi)均值,將 類內(nèi)各個(gè)數(shù)據(jù)點(diǎn)與類內(nèi)均值之差的平方的總和作為每次聚類后各個(gè)類的類內(nèi)方差。設(shè)類內(nèi) 共有n個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)采用Xi表示,U為該類中所有數(shù)據(jù)點(diǎn)的均值,則該類的類內(nèi)方差 var (X)的計(jì)算方法如公式(1)所示:
[0036]
( 1 )
[0037] 然后計(jì)算各次聚類的方差,每次聚類的方差根據(jù)該次聚類后各個(gè)類的類內(nèi)方差的 和或者均值確定,即將每次聚類后各個(gè)類的類內(nèi)方差的和或者均值作為該次聚類的方差。
[0038] 步驟S114,按照各個(gè)預(yù)定聚類個(gè)數(shù)由小到大的順序,當(dāng)相鄰兩次聚類的方差的變 化程度第一次小于預(yù)設(shè)值時(shí),將相鄰兩次聚類中選用的較大聚類個(gè)數(shù)確定為實(shí)際聚類個(gè) 數(shù)。
[0039] 為了形象地表示各次聚類的方差的變化趨勢,例如可W參考圖2,將各個(gè)預(yù)定聚類 個(gè)數(shù)W及相應(yīng)的方差分別作為橫、縱坐標(biāo)繪制曲線。W圖2為例,觀察曲線變化趨勢,W橫坐 標(biāo)為4的點(diǎn)為界,在其之前y值急劇下降,在其之后y值緩慢下降,橫坐標(biāo)為4的點(diǎn)為該曲線所 代表的變化趨勢的轉(zhuǎn)折點(diǎn)。即當(dāng)聚類數(shù)量為4時(shí),既能夠使聚類結(jié)果中各個(gè)類之間具有區(qū)分 度,又能夠保證各個(gè)類的內(nèi)部數(shù)據(jù)之間具有較高的相似度。因此,可W將該分界點(diǎn)處對(duì)應(yīng)的 預(yù)定聚類個(gè)數(shù)作為實(shí)際聚類個(gè)數(shù)。
[0040] 上述通過觀察曲線獲得類內(nèi)方差的變化趨勢的方法并非限制性的,而是示意性的 輔助手段。根據(jù)需要,本領(lǐng)域技術(shù)人員可W采用直接觀察數(shù)據(jù)、計(jì)算相鄰數(shù)據(jù)差值等其他方 法獲知各次聚類的方差的變化趨勢。例如,還可W按照各個(gè)預(yù)定聚類個(gè)數(shù)由小到大的順序, 當(dāng)相鄰兩次聚類的方差的差值第一次小于預(yù)設(shè)值時(shí),將相鄰兩次聚類中選用的較大聚類個(gè) 數(shù)確定為實(shí)際聚類個(gè)數(shù)。
[0041] 步驟Sl 16,按照實(shí)際聚類個(gè)數(shù)對(duì)數(shù)據(jù)集進(jìn)行聚類,并按照聚類結(jié)果對(duì)數(shù)據(jù)集進(jìn)行 分類。其中,本步驟采用的聚類算法與步驟S112中的聚類算法相同。
[0042] WKmeans算法為例,聚類過程如下:
[0043] 1、隨機(jī)選擇k個(gè)類的初始中屯、,其中,k的值為確定的實(shí)際聚類個(gè)數(shù)。
[0044] 2、對(duì)所有數(shù)據(jù)點(diǎn),計(jì)算其到k個(gè)中屯、的距離,將該數(shù)據(jù)點(diǎn)歸屬到距離最短的中屯、所 在類。
[0045] 3、更新各個(gè)類的中屯、點(diǎn)。
[0046] 4、判斷是否達(dá)到設(shè)定的收斂條件(或稱停止條件),如果不滿足,返回到2-3步驟進(jìn) 行繼續(xù)迭代;如果滿足,則停止迭代,該聚類中屯、為最優(yōu)聚類中屯、。
[0047] 其中,聚類收斂條件例如可W采用W下兩種方法設(shè)定。第一種方法為,當(dāng)聚類過程 中的迭代次數(shù)達(dá)到預(yù)設(shè)迭代次數(shù)時(shí),停止聚類。一般地,隨著迭代次數(shù)的增長,計(jì)算時(shí)間會(huì) 增長,但更容易收斂。因此,本領(lǐng)域技術(shù)人員可W根據(jù)數(shù)據(jù)量、計(jì)算能力等參考因素設(shè)定預(yù) 設(shè)迭代次數(shù)。第二種方法為,計(jì)算迭代后更新的聚類中屯、與原始聚類中屯、的距離,如果該距 離小于預(yù)設(shè)距離,停止聚類。迭代前后聚類中屯、的變化反映了類內(nèi)數(shù)據(jù)的變化,因此可W用 于判斷聚類是否達(dá)到收斂。
[0048] 本發(fā)明預(yù)先進(jìn)行多次聚類,并根據(jù)各次聚類的類內(nèi)方差的變化趨勢確定實(shí)際聚類 個(gè)數(shù),使聚類個(gè)數(shù)更合理,從而提升了按照聚類結(jié)果進(jìn)行數(shù)據(jù)分類的準(zhǔn)確性。
[0049] 由于部分聚類算法對(duì)數(shù)據(jù)較為敏感,當(dāng)數(shù)據(jù)理想時(shí),往往能夠獲得更好的效果,因 此在進(jìn)行聚類之前,還可W對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)處理,W優(yōu)化聚類結(jié)果。預(yù)處理的過程 例如可W包括數(shù)據(jù)標(biāo)準(zhǔn)化、離群點(diǎn)處理、維度篩選等操作。下面參考圖3描述本發(fā)明另一個(gè) 實(shí)施例的數(shù)據(jù)分類方法。
[0050] 圖3為本發(fā)明數(shù)據(jù)分類方法的另一個(gè)實(shí)施例的流程圖。如圖3所示,該實(shí)施例的方 法包括W下步驟:
[0051] 步驟S302,對(duì)數(shù)據(jù)集內(nèi)的數(shù)據(jù)點(diǎn)的各個(gè)維度進(jìn)行標(biāo)準(zhǔn)化處理。
[0052] 標(biāo)準(zhǔn)化處理的一個(gè)實(shí)施例包括,如果數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為具有至少兩個(gè)維度的向 量,根據(jù)每個(gè)維度的元素的均值和標(biāo)準(zhǔn)差分別對(duì)各個(gè)維度的元素進(jìn)行標(biāo)準(zhǔn)化處理。
[0053] 其中,可W根據(jù)業(yè)務(wù)需要選擇性地進(jìn)行步驟S302。數(shù)據(jù)的標(biāo)準(zhǔn)化處理是指將數(shù)據(jù) 按比例縮放,使之落入到一個(gè)小的特定區(qū)間。有時(shí),數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)可能存在不同維度之 間相差過大或者各個(gè)元素對(duì)應(yīng)的原始數(shù)據(jù)量綱不統(tǒng)一的情況,因此需要進(jìn)行標(biāo)準(zhǔn)化處理。 W數(shù)據(jù)點(diǎn)的其中兩個(gè)維度分別為購買前考慮時(shí)長和瀏覽品類數(shù)量兩個(gè)指標(biāo)為例,購買前考 慮時(shí)長是W時(shí)間為單位,瀏覽品類數(shù)量是W個(gè)數(shù)為單位,二者的量綱不統(tǒng)一,數(shù)值差距也較 大。因此,通過標(biāo)準(zhǔn)化的方法,可W消除各指標(biāo)間的量綱差異,使各個(gè)數(shù)據(jù)處于可比較的狀 態(tài)。
[0054] 標(biāo)準(zhǔn)化處理的過程例如可W采用如下方法。設(shè)數(shù)據(jù)集中的n個(gè)數(shù)據(jù)點(diǎn)分別為XI、 X2……Xn,則數(shù)據(jù)集中數(shù)據(jù)的均值(mean)和方差(Std)分別采用公式(2)和(3)計(jì)算獲得:
[0055] 2)
[0056] (3)
[0057] 對(duì)于數(shù)據(jù)點(diǎn)X1、X2……Xn中的任意一個(gè)數(shù)據(jù)點(diǎn)XI,可W采用公式(4)計(jì)算獲得標(biāo)準(zhǔn) 化處理后的數(shù)據(jù)點(diǎn)XI':
[005引
(4 )
[0059] 通過米用上述方法,可W使數(shù)據(jù)點(diǎn)落入到一個(gè)較小的特定區(qū)間,便于統(tǒng)一量綱,使 不同單位的指標(biāo)能夠進(jìn)行比較和加權(quán)。
[0060] 除了上述方法外,本領(lǐng)域技術(shù)人員還可W采用歸一化等方法對(duì)數(shù)據(jù)集中的數(shù)據(jù)點(diǎn) 進(jìn)行標(biāo)準(zhǔn)化處理。
[0061] 步驟S304,對(duì)數(shù)據(jù)集中的各個(gè)數(shù)據(jù)點(diǎn)進(jìn)行篩選,W便保留可靠數(shù)據(jù),剔除離群點(diǎn)。
[0062] 數(shù)據(jù)集中的具有極端大值或極端小值的點(diǎn)稱為離群點(diǎn)。例如,數(shù)據(jù)集中的數(shù)據(jù)點(diǎn) 代表用戶,數(shù)據(jù)點(diǎn)中的某一個(gè)維度代表各個(gè)用戶的購買前考慮時(shí)長。對(duì)于10個(gè)用戶來說,其 中9個(gè)用戶的購買前考慮時(shí)長為2、3、1、4、3、5、6、3、2,單位為天,而第10個(gè)用戶的購買前考 慮時(shí)長為400天。如果將該用戶對(duì)應(yīng)的用戶向量參與聚類,很可能使聚類結(jié)果不準(zhǔn)確。由于 極端值的存在會(huì)影響算法精度,因此需要篩選數(shù)據(jù)點(diǎn),對(duì)離群點(diǎn)進(jìn)行檢測和剔除。
[0063] 下面對(duì)剔除離群點(diǎn)的方法進(jìn)行舉例說明。
[0064] 第一種方法為基于密度的處理方法,將數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的鄰域密度與鄰域密度 平均值進(jìn)行比較,并剔除鄰域密度小于鄰域密度平均值的數(shù)據(jù)點(diǎn)。具體的,首先對(duì)鄰域的范 圍進(jìn)行設(shè)定,某一數(shù)據(jù)點(diǎn)的鄰域例如可W為與該數(shù)據(jù)點(diǎn)距離最近的K個(gè)點(diǎn);然后,計(jì)算數(shù)據(jù) 集中各個(gè)數(shù)據(jù)點(diǎn)的鄰域密度與平均密度,某一數(shù)據(jù)點(diǎn)的鄰域密度例如可W為該點(diǎn)到其鄰域 中各個(gè)點(diǎn)的平均距離的倒數(shù),數(shù)據(jù)集的鄰域密度平均值為所有數(shù)據(jù)點(diǎn)的鄰域密度的平均 值;最后,比較各個(gè)數(shù)據(jù)點(diǎn)的鄰域密度與數(shù)據(jù)集的平均密度,剔除鄰域密度低于平均密度的 數(shù)據(jù)點(diǎn)?;诿芏鹊奶幚矸椒紤]了各個(gè)維度的信息,綜合性較強(qiáng)。
[0065] 第二種方法為基于均值和方差的處理方法,計(jì)算數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的同一維度的 元素值的均值和標(biāo)準(zhǔn)差,將同一維度的元素的均值與若干倍的標(biāo)準(zhǔn)差的和與差分別作為預(yù) 設(shè)范圍的上限和下限,并剔除該維度的元素值超過預(yù)設(shè)范圍的數(shù)據(jù)點(diǎn)。W選取第一維度為 例,首先計(jì)算各個(gè)數(shù)據(jù)點(diǎn)的第一個(gè)元素所組成的數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差;然后,將同一維度 的元素的均值與若干倍的標(biāo)準(zhǔn)差的和與差分別作為預(yù)設(shè)范圍的上限和下限,例如將均值與 3倍標(biāo)準(zhǔn)差的和作為預(yù)設(shè)范圍上限,將均值與3倍標(biāo)準(zhǔn)差的差作為預(yù)設(shè)范圍下限;最后,剔除 數(shù)據(jù)集中元素的第一維度大于預(yù)設(shè)范圍上限或者小于預(yù)設(shè)范圍下限的數(shù)據(jù)點(diǎn)。基于均值和 標(biāo)準(zhǔn)差的方法計(jì)算過程較為簡單,計(jì)算量小。
[0066] 第S種方法,還可W采用基于四分位數(shù)的處理方法。四分位數(shù)(Quadile)的含義 為,將所有數(shù)值由小到大排列并分成四等份,處于=個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)。= 個(gè)分割點(diǎn)由小到大依次為:第一四分位數(shù)(Ql,又稱下四分位數(shù))、第二四分位數(shù)(Q2,又稱為 中位數(shù))、第S四分位數(shù)(Q3,又稱上四分位數(shù)),Q3與Ql的差又稱四分位距(IQR,Inter 如artile Range)?;谒姆治粩?shù)的處理方法例如可W為:確定數(shù)據(jù)集中數(shù)據(jù)處于相同維度 的元素的四分位數(shù)W及四分位距,將同一維度的元素的上四分位數(shù)與若干倍的四分位距的 和W及下四分位數(shù)與若干倍的四分位距的差分別作為預(yù)設(shè)范圍的上限和下限,并剔除該維 度的元素值超過預(yù)設(shè)范圍的數(shù)據(jù)點(diǎn)。例如,可W將(Q3+3*IQR)作為預(yù)設(shè)范圍的上限,將(Q1- 3*IQR)作為預(yù)設(shè)范圍的下限。分位數(shù)的劃分方法符合實(shí)際數(shù)據(jù)的分布,在后續(xù)處理中的魯 棒性強(qiáng)。
[0067] 通過采用上述方法進(jìn)行數(shù)據(jù)點(diǎn)篩選,能夠去除離群點(diǎn),保留可靠的數(shù)據(jù)點(diǎn),提高聚 類的精度和效果。
[0068] 上述各個(gè)方法為數(shù)據(jù)點(diǎn)篩選的示意性方法,根據(jù)需要,還可W采用其他方法,運(yùn)里 不再寶述。本領(lǐng)域計(jì)算人員可W根據(jù)業(yè)務(wù)需要選擇性地進(jìn)行步驟S304。此外,步驟S304可W 在步驟S302之前進(jìn)行,也可W在步驟S302之后進(jìn)行。
[0069] 步驟S306,對(duì)數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)進(jìn)行維度篩選,W去除冗余維度。
[0070] 維度篩選的一個(gè)實(shí)施例包括,如果數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為具有至少兩個(gè)維度的向 量,計(jì)算不同維度之間的相關(guān)性。對(duì)于相關(guān)性大于預(yù)設(shè)值的不同維度,保留其中任意一個(gè)維 度。
[0071] 例如,數(shù)據(jù)點(diǎn)中的其中兩個(gè)維度對(duì)應(yīng)購買前考慮時(shí)長和閱讀評(píng)價(jià)數(shù)量。如果上述 兩個(gè)指標(biāo)的相關(guān)性大于預(yù)設(shè)值,說明購買前考慮時(shí)長較長的用戶往往閱讀較多的評(píng)價(jià)數(shù) 量,因此可W任意保留其中一個(gè)用戶特征指標(biāo)用來代表用戶的運(yùn)一特性,從而減少了聚類 時(shí)的冗余程度。
[0072] 其中,可W采用相關(guān)性系數(shù)、基尼系數(shù)、相對(duì)賭等指標(biāo)體現(xiàn)相關(guān)性。下面W相關(guān)性 系數(shù)為例,詳細(xì)介紹不同維度之間的相關(guān)性的其中一種計(jì)算方法。
[0073] 首先,確定數(shù)據(jù)點(diǎn)的待計(jì)算的兩個(gè)維度,設(shè)其分別為第一維度和第二維度;然后, 建立數(shù)量等于數(shù)據(jù)點(diǎn)數(shù)量的第一向量,第一向量的維度等于數(shù)據(jù)點(diǎn)的維度,各個(gè)第一向量 的第一個(gè)元素為各個(gè)數(shù)據(jù)點(diǎn)中的第一維度對(duì)應(yīng)的元素,各個(gè)第一向量的第一個(gè)元素 W外的 其他元素為0;之后,建立數(shù)量等于數(shù)據(jù)點(diǎn)數(shù)量的第二向量,第二向量的維度等于數(shù)據(jù)點(diǎn)的 維度,各個(gè)第二向量的第一個(gè)元素為各個(gè)數(shù)據(jù)點(diǎn)中的第二維度對(duì)應(yīng)的元素,各個(gè)第二向量 的第一個(gè)元素 W外的其他元素為0;最后,根據(jù)所有第一向量的和W及平方和、所有第二向 量的和W及平方和、具有對(duì)應(yīng)關(guān)系的第一向量與第二向量之積的和計(jì)算第一維度和第二維 度的相關(guān)系數(shù),將上述相關(guān)系數(shù)作為第一維度和第二維度的相關(guān)性。
[0074] 例如,可W參考W下公式計(jì)算相關(guān)度。設(shè)X為第一向量,Y為與X對(duì)應(yīng)的第二向量,貝U 第一維度和第二維度的相關(guān)性r可W采用公式(5)進(jìn)行計(jì)算:
[0075]
巧
[0076] 通過采用相關(guān)性作為度量進(jìn)行維度篩選,將統(tǒng)計(jì)學(xué)中的計(jì)算方法引入聚類算法的 預(yù)處理中,可W保留關(guān)鍵維度,避免數(shù)據(jù)冗余,提升聚類的準(zhǔn)確性。
[0077] 其中,可W根據(jù)業(yè)務(wù)需要選擇性地進(jìn)行步驟S306。
[0078] 然后,進(jìn)行如下預(yù)聚類和實(shí)際聚類的步驟:
[0079] 步驟S112,按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分別進(jìn)行聚類,并根據(jù)每次聚類后各 個(gè)類的類內(nèi)方差確定該次聚類的方差。
[0080] 步驟S114,按照各個(gè)預(yù)定聚類個(gè)數(shù)由小到大的順序,當(dāng)相鄰兩次聚類的方差的變 化程度第一次小于預(yù)設(shè)值時(shí),將相鄰兩次聚類中選用的較大聚類個(gè)數(shù)確定為實(shí)際聚類個(gè) 數(shù)。
[0081] 步驟Sl 16,按照實(shí)際聚類個(gè)數(shù)對(duì)數(shù)據(jù)集進(jìn)行聚類,并按照聚類結(jié)果對(duì)數(shù)據(jù)集進(jìn)行 分類。
[0082] 通過在聚類前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,能夠去除無效和冗余的數(shù)據(jù),在減少聚類過程 中的計(jì)算量的同時(shí)提升了聚類的準(zhǔn)確度。
[0083] 本發(fā)明提供的聚類算法可W用于各類實(shí)際應(yīng)用場景,例如數(shù)據(jù)分析、用戶分類等 等。
[0084] W電子商務(wù)網(wǎng)站中的用戶分類為例。首先獲取包含用戶向量的數(shù)據(jù)集,用戶向量 中的各個(gè)元素為用戶的特征指標(biāo),W選取的特征指標(biāo)為用戶的購買前考慮時(shí)長、瀏覽商品 的品類數(shù)量為例;然后,采用上述各個(gè)實(shí)施例的數(shù)據(jù)分類方法確定實(shí)際聚類個(gè)數(shù),對(duì)數(shù)據(jù)集 中的用戶向量進(jìn)行聚類,獲得聚類結(jié)果;最后,對(duì)聚類結(jié)果進(jìn)行解讀,形成用戶分類結(jié)果。例 如,聚類結(jié)果中包含四類,可W對(duì)運(yùn)四類中所包含的用戶的特征的數(shù)值特點(diǎn)進(jìn)行分析歸納, W達(dá)到用戶分類和定性的目的。分類的結(jié)果例如可W參考表1。獲得分類結(jié)果后,還可W將 分類結(jié)果加工為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),W數(shù)據(jù)庫、分布式文件、xmUExtensibIe Mark叩 Language,可標(biāo)記擴(kuò)展語義)文件或文本文件等形式進(jìn)行存儲(chǔ),供下游經(jīng)數(shù)據(jù)庫系統(tǒng)、應(yīng)用 接口、互聯(lián)網(wǎng)傳輸協(xié)議等渠道進(jìn)行調(diào)用。
[0085]
[00化]表1
[0087] 下面參考圖4描述本發(fā)明一個(gè)實(shí)施例的用于數(shù)據(jù)分類的裝置。
[0088] 圖4為本發(fā)明用于數(shù)據(jù)分類的裝置的一個(gè)實(shí)施例的結(jié)構(gòu)圖。如圖4所示,該實(shí)施例 的裝置包括:預(yù)聚類模塊42,用于按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分別進(jìn)行聚類;類內(nèi)方差 確定模塊44,用于根據(jù)每次聚類后各個(gè)類的類內(nèi)方差確定該次聚類的方差;實(shí)際聚類個(gè)數(shù) 確定模塊46,用于按照各個(gè)預(yù)定聚類個(gè)數(shù)由小到大的順序,當(dāng)相鄰兩次聚類的方差的變化 程度第一次小于預(yù)設(shè)值時(shí),將相鄰兩次聚類中選用的較大聚類個(gè)數(shù)確定為實(shí)際聚類個(gè)數(shù); 分類模塊48,用于按照實(shí)際聚類個(gè)數(shù)對(duì)數(shù)據(jù)集進(jìn)行聚類,并按照聚類結(jié)果對(duì)數(shù)據(jù)集進(jìn)行分 類。
[0089] 本發(fā)明預(yù)先進(jìn)行多次聚類,并根據(jù)各次聚類的類內(nèi)方差的變化趨勢確定實(shí)際聚類 個(gè)數(shù),使聚類個(gè)數(shù)更合理,從而提升了按照聚類結(jié)果進(jìn)行數(shù)據(jù)分類的準(zhǔn)確性。
[0090] 其中,聚類所采用的算法為需要預(yù)先指定聚類數(shù)量的聚類算法,例如Kmeans算法 等。
[0091] 其中,類內(nèi)方差確定模塊44可W將每次聚類后的類內(nèi)所有數(shù)據(jù)點(diǎn)的均值作為類內(nèi) 均值,將類內(nèi)各個(gè)數(shù)據(jù)點(diǎn)與類內(nèi)均值之差的平方的總和作為該類的類內(nèi)方差,將每次聚類 后各個(gè)類的類內(nèi)方差的和或者均值確定為該次聚類的方差。
[0092] 其中,實(shí)際聚類個(gè)數(shù)確定模塊46可W用于按照各個(gè)預(yù)定聚類個(gè)數(shù)由小到大的順 序,當(dāng)相鄰兩次聚類的方差的差值第一次小于預(yù)設(shè)值時(shí),將相鄰兩次聚類中選用的較大聚 類個(gè)數(shù)確定為實(shí)際聚類個(gè)數(shù)。
[0093] 下面參考圖5描述本發(fā)明另一個(gè)實(shí)施例的用于數(shù)據(jù)分類的裝置。
[0094] 圖5為本發(fā)明用于數(shù)據(jù)分類的裝置的另一個(gè)實(shí)施例的結(jié)構(gòu)圖。如圖5所示,該實(shí)施 例的裝置還包括標(biāo)準(zhǔn)化模塊52、數(shù)據(jù)點(diǎn)處理模塊54、維度篩選模塊56中的一個(gè)或多個(gè)。
[0095] 標(biāo)準(zhǔn)化模塊52用于當(dāng)數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為具有至少兩個(gè)維度的向量時(shí),根據(jù)每個(gè) 維度的元素的均值和標(biāo)準(zhǔn)差分別對(duì)各個(gè)維度的元素進(jìn)行標(biāo)準(zhǔn)化處理。通過采用標(biāo)準(zhǔn)化模塊 52,可W使數(shù)據(jù)點(diǎn)落入到一個(gè)較小的特定區(qū)間,便于統(tǒng)一量綱,使不同單位的指標(biāo)能夠進(jìn)行 比較和加權(quán)。
[0096] 數(shù)據(jù)點(diǎn)處理模塊54包括第一數(shù)據(jù)點(diǎn)處理單元542或者第二數(shù)據(jù)點(diǎn)處理單元544;第 一數(shù)據(jù)點(diǎn)處理單元542用于將數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的鄰域密度與鄰域密度平均值進(jìn)行比較, 并剔除鄰域密度小于鄰域密度平均值的數(shù)據(jù)點(diǎn);第二數(shù)據(jù)點(diǎn)處理單元544用于計(jì)算數(shù)據(jù)集 中各數(shù)據(jù)點(diǎn)的同一維度的元素值的均值和方差,將同一維度的元素的均值與若干倍的方差 的和與差分別作為預(yù)設(shè)范圍的上限和下限,并剔除該維度的元素值超過預(yù)設(shè)范圍的數(shù)據(jù) 點(diǎn)。通過采用上述方法進(jìn)行數(shù)據(jù)點(diǎn)篩選,能夠去除離群點(diǎn),保留可靠的數(shù)據(jù)點(diǎn),提高聚類的 精度和效果。
[0097] 維度篩選模塊56用于當(dāng)數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為具有至少兩個(gè)維度的向量時(shí),計(jì)算不 同維度之間的相關(guān)性,對(duì)于相關(guān)性大于預(yù)設(shè)值的不同維度,保留其中任意一個(gè)維度。通過采 用相關(guān)性作為度量進(jìn)行維度篩選,將統(tǒng)計(jì)學(xué)中的計(jì)算方法引入聚類算法的預(yù)處理中,可W 保留關(guān)鍵維度,避免數(shù)據(jù)冗余,提升聚類的準(zhǔn)確性。
[0098] 下面參考圖6描述本發(fā)明又一個(gè)實(shí)施例的用于數(shù)據(jù)分類的裝置。
[0099] 圖6為本發(fā)明用于數(shù)據(jù)分類的裝置的又一個(gè)實(shí)施例的結(jié)構(gòu)圖。如圖6所示,該實(shí)施 例的裝置包括:存儲(chǔ)器64W及禪接至該存儲(chǔ)器64的處理器62,處理器62被配置為基于存儲(chǔ) 在存儲(chǔ)器64中的指令,執(zhí)行前述任意一個(gè)實(shí)施例中的數(shù)據(jù)分類方法。存儲(chǔ)器64中還可W存 儲(chǔ)前述實(shí)施例的方法中待處理或處理后的數(shù)據(jù),例如待分類的數(shù)據(jù)集、各次聚的方差、各個(gè) 類的類內(nèi)方差、分類結(jié)果等等。
[0100] 此夕h在一個(gè)設(shè)備中,存儲(chǔ)器64和處理器62可W通過總線(腳S)禪合。
[0101] 圖7為可W實(shí)施本發(fā)明用于數(shù)據(jù)分類的裝置的計(jì)算機(jī)系統(tǒng)的示例性硬件配置的框 圖。
[0102] 如圖7所示,計(jì)算機(jī)系統(tǒng)7000包括處理器62和存儲(chǔ)器,存儲(chǔ)器例如可W包括系統(tǒng)存 儲(chǔ)器7430、固定非易失性存儲(chǔ)器7441等等,還可W包括SD卡、U盤等設(shè)備。處理器62和系統(tǒng)存 儲(chǔ)器7430可經(jīng)由系統(tǒng)總線7121連接。計(jì)算機(jī)系統(tǒng)7000還可例如包括固定非易失性存儲(chǔ)器接 口 7140、移動(dòng)非易失性存儲(chǔ)器接口 7150、用戶輸入輸出接口 7190和網(wǎng)絡(luò)接口 7170。
[0103] 系統(tǒng)存儲(chǔ)器7430例如存儲(chǔ)有Boot Loader程序7433、操作系統(tǒng)7434、應(yīng)用程序 7435、其它程序模塊7436和某些程序數(shù)據(jù)7437。
[0104] 諸如閃存(Flash)忍片之類的固定非易失性存儲(chǔ)器7441可例如連接到固定非易失 性存儲(chǔ)器接口7140。固定非易失性存儲(chǔ)器7441例如可W存儲(chǔ)Boot Loader程序7443、操作系 統(tǒng)7444、應(yīng)用程序7445、其它程序模塊7446和某些程序數(shù)據(jù)7447。
[0105] 諸如通用串行總線化SB)接口 7151和安全數(shù)字卡(SD卡)插口 7155之類的可移動(dòng)非 易失性存儲(chǔ)器接口可例如連接到可移動(dòng)非易失性存儲(chǔ)器接口 7150。例如USB盤之類的可移 動(dòng)非易失性存儲(chǔ)器可連接到所述USB接口 7151,例如SD卡之類的器件可連接到所述SD卡插 日7155。
[0106] 計(jì)算機(jī)系統(tǒng)7000還可包括諸如觸摸屏之類的視頻輸出設(shè)備和用戶輸入設(shè)備。
[0107] 計(jì)算機(jī)系統(tǒng)7000可W通過網(wǎng)絡(luò)接口7170連接到遠(yuǎn)程計(jì)算機(jī),W便通過網(wǎng)絡(luò)進(jìn)行數(shù) 據(jù)的傳輸?shù)炔僮鳌?br>[0108] 圖7所示的計(jì)算機(jī)系統(tǒng)僅僅是說明性的一個(gè)示例,而決不意圖對(duì)本發(fā)明、其應(yīng)用或 用途的任何限制。
[0109] 圖7所示的計(jì)算機(jī)系統(tǒng)可W被實(shí)施于任何實(shí)施例,可作為獨(dú)立計(jì)算機(jī),也可作為設(shè) 備中的處理系統(tǒng),可W移除一個(gè)或多個(gè)不必要的組件,也可W向其添加一個(gè)或多個(gè)附加的 組件。例如,網(wǎng)絡(luò)接口 2170可W任何其他方式實(shí)現(xiàn)。處理單元可W包含一個(gè)或多個(gè)處理器。
[0110] 本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序 產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí) 施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī) 可用非瞬時(shí)性存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算 機(jī)程序產(chǎn)品的形式。
[0111] 本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程 圖和/或方框圖來描述的。應(yīng)理解為可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一 流程和/或方框、W及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻\(yùn)些計(jì)算機(jī)程 序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器W 產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于 實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝 置。
[0112] 運(yùn)些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備W特 定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指 令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或 多個(gè)方框中指定的功能。
[0113] 運(yùn)些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì) 算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟W產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或 其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一 個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0114] W上所述僅為本發(fā)明的較佳實(shí)施例,并不用W限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種數(shù)據(jù)分類方法,其特征在于,包括: 按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分別進(jìn)行聚類,并根據(jù)每次聚類后各個(gè)類的類內(nèi)方差 確定該次聚類的方差; 按照所述各個(gè)預(yù)定聚類個(gè)數(shù)由小到大的順序,當(dāng)相鄰兩次聚類的方差的變化程度第一 次小于預(yù)設(shè)值時(shí),將相鄰兩次聚類中選用的較大聚類個(gè)數(shù)確定為實(shí)際聚類個(gè)數(shù); 按照所述實(shí)際聚類個(gè)數(shù)對(duì)數(shù)據(jù)集進(jìn)行聚類,并按照聚類結(jié)果對(duì)數(shù)據(jù)集進(jìn)行分類。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,將每次聚類后的類內(nèi)所有數(shù)據(jù)點(diǎn)的均值作 為類內(nèi)均值,將類內(nèi)各個(gè)數(shù)據(jù)點(diǎn)與類內(nèi)均值之差的平方的總和作為該類的類內(nèi)方差,將每 次聚類后各個(gè)類的類內(nèi)方差的和或者均值確定為該次聚類的方差。3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分 別進(jìn)行聚類之前,所述方法還包括: 將數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的鄰域密度與鄰域密度平均值進(jìn)行比較,并剔除鄰域密度小于鄰 域密度平均值的數(shù)據(jù)點(diǎn); 或者,計(jì)算數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的同一維度的元素值的均值和標(biāo)準(zhǔn)差,將所述同一維度 的元素的均值與若干倍的標(biāo)準(zhǔn)差的和與差分別作為預(yù)設(shè)范圍的上限和下限,并剔除該維度 的元素值超過所述預(yù)設(shè)范圍的數(shù)據(jù)點(diǎn)。4. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分 別進(jìn)行聚類之前,所述方法還包括: 如果數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為具有至少兩個(gè)維度的向量,計(jì)算不同維度之間的相關(guān)性,對(duì) 于相關(guān)性大于預(yù)設(shè)值的不同維度,保留其中任意一個(gè)維度。5. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在根據(jù)各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集進(jìn) 行聚類之前,所述方法還包括: 如果數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為具有至少兩個(gè)維度的向量,根據(jù)每個(gè)維度的元素的均值和標(biāo) 準(zhǔn)差分別對(duì)各個(gè)維度的元素進(jìn)行標(biāo)準(zhǔn)化處理。6. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,采用Kmeans聚類算法對(duì)數(shù)據(jù)集進(jìn)行聚 類。7. -種用于數(shù)據(jù)分類的裝置,其特征在于,包括: 預(yù)聚類模塊,用于按照各個(gè)預(yù)定聚類個(gè)數(shù)對(duì)數(shù)據(jù)集分別進(jìn)行聚類; 類內(nèi)方差確定模塊,用于根據(jù)每次聚類后各個(gè)類的類內(nèi)方差確定該次聚類的方差; 實(shí)際聚類個(gè)數(shù)確定模塊,用于按照所述各個(gè)預(yù)定聚類個(gè)數(shù)由小到大的順序,當(dāng)相鄰兩 次聚類的方差的變化程度第一次小于預(yù)設(shè)值時(shí),將相鄰兩次聚類中選用的較大聚類個(gè)數(shù)確 定為實(shí)際聚類個(gè)數(shù); 分類模塊,用于按照所述實(shí)際聚類個(gè)數(shù)對(duì)數(shù)據(jù)集進(jìn)行聚類,并按照聚類結(jié)果對(duì)數(shù)據(jù)集 進(jìn)行分類。8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述類內(nèi)方差確定模塊用于將每次聚類后 的類內(nèi)所有數(shù)據(jù)點(diǎn)的均值作為類內(nèi)均值,將類內(nèi)各個(gè)數(shù)據(jù)點(diǎn)與類內(nèi)均值之差的平方的總和 作為該類的類內(nèi)方差,將每次聚類后各個(gè)類的類內(nèi)方差的和或者均值確定為該次聚類的方 差。9. 根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,還包括數(shù)據(jù)點(diǎn)處理模塊,所述數(shù)據(jù)點(diǎn)處 理模塊包括第一數(shù)據(jù)點(diǎn)處理單元或者第二數(shù)據(jù)點(diǎn)處理單元; 所述第一數(shù)據(jù)點(diǎn)處理單元用于將數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的鄰域密度與鄰域密度平均值進(jìn) 行比較,并剔除鄰域密度小于鄰域密度平均值的數(shù)據(jù)點(diǎn); 所述第二數(shù)據(jù)點(diǎn)處理單元用于計(jì)算數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)的同一維度的元素值的均值和 標(biāo)準(zhǔn)差,將所述同一維度的元素的均值與若干倍的標(biāo)準(zhǔn)差的和與差分別作為預(yù)設(shè)范圍的上 限和下限,并剔除該維度的元素值超過所述預(yù)設(shè)范圍的數(shù)據(jù)點(diǎn)。10. 根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,還包括維度篩選模塊,用于當(dāng)數(shù)據(jù)集 中的數(shù)據(jù)點(diǎn)為具有至少兩個(gè)維度的向量時(shí),計(jì)算不同維度之間的相關(guān)性,對(duì)于相關(guān)性大于 預(yù)設(shè)值的不同維度,保留其中任意一個(gè)維度。11. 根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,還包括標(biāo)準(zhǔn)化模塊,用于當(dāng)數(shù)據(jù)集中 的數(shù)據(jù)點(diǎn)為具有至少兩個(gè)維度的向量時(shí),根據(jù)每個(gè)維度的元素的均值和標(biāo)準(zhǔn)差分別對(duì)各個(gè) 維度的元素進(jìn)行標(biāo)準(zhǔn)化處理。12. 根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,所述預(yù)聚類模塊和所述分類模塊采用 Kmeans聚類算法對(duì)數(shù)據(jù)集進(jìn)行聚類。13. -種用于數(shù)據(jù)分類的裝置,其特征在于,包括: 存儲(chǔ)器;以及 耦接至所述存儲(chǔ)器的處理器,所述處理器被配置為基于存儲(chǔ)在所述存儲(chǔ)器中的指令, 執(zhí)行如權(quán)利要求1至7中任一項(xiàng)所述的數(shù)據(jù)分類方法。
【文檔編號(hào)】G06F17/30GK105956628SQ201610318133
【公開日】2016年9月21日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】劉朋飛, 王曉, 葛勝利
【申請(qǐng)人】北京京東尚科信息技術(shù)有限公司, 北京京東世紀(jì)貿(mào)易有限公司