樣本分布式聚類(lèi)計(jì)算方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息技術(shù)領(lǐng)域,具體涉及一種樣本分布式聚類(lèi)計(jì)算方法及裝置。
【背景技術(shù)】
[0002]聚類(lèi)是一種將物理或抽象對(duì)象的集合分成由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程,廣泛應(yīng)用于各類(lèi)信息的處理過(guò)程當(dāng)中,比如新聞文本的整合與分析、數(shù)據(jù)文件的整理與文件索引的建立等等?,F(xiàn)有技術(shù)中,常見(jiàn)的算法可以分為劃分法(Partit1ning Methods)、層次法(Hierarchical Methods)、基于密度的方法(Density-Based Methods)、基于網(wǎng)格的方法(Grid-Based Methods)、基于模型的方法(Model-Based Methods)。
[0003]例如在劃分法中,給定一個(gè)有N個(gè)元組或者紀(jì)錄的數(shù)據(jù)集,分裂法將構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)聚類(lèi),K〈N。而且這K個(gè)分組滿足下列條件:
[0004](I)每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄;
[0005](2)每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組;
[0006]對(duì)于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過(guò)反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一分組中的記錄越近越好,而不同分組中的紀(jì)錄越遠(yuǎn)越好。常見(jiàn)的劃分法算法有=K-MEANS算法、K-MED0IDS 算法和 CLARANS 算法。
[0007]然而,隨著信息化的普及,聚類(lèi)計(jì)算所面臨的數(shù)據(jù)規(guī)模日益龐大,傳統(tǒng)的聚類(lèi)算法處理小規(guī)模數(shù)據(jù)時(shí)性能比較好,但是當(dāng)數(shù)據(jù)規(guī)模增大時(shí),性能就會(huì)急劇下降,比如劃分法中的K-MED0IDS方法在處理小規(guī)模數(shù)據(jù)時(shí)計(jì)算性能很好,但是隨著數(shù)據(jù)量的增加,計(jì)算效率就逐漸下降,難以滿足實(shí)際的應(yīng)用需求。
【發(fā)明內(nèi)容】
[0008]針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種樣本分布式聚類(lèi)計(jì)算方法及裝置,可以解決現(xiàn)有的聚類(lèi)算法難以處理大規(guī)模數(shù)據(jù)的問(wèn)題。
[0009]第一方面,本發(fā)明提供了一種樣本分布式聚類(lèi)計(jì)算裝置,包括:
[0010]獲取單元,用于獲取所有待聚類(lèi)的樣本的特征值,以組成特征值集合;
[0011]估計(jì)單元,用于估計(jì)每一可用的計(jì)算設(shè)備的計(jì)算速度;
[0012]重復(fù)單元,用于在所述特征值集合中任意兩個(gè)特征值之間的相似度小于預(yù)設(shè)閾值之前,重復(fù)地執(zhí)行下述步驟:
[0013]根據(jù)所述估計(jì)單元得到的每一可用的計(jì)算設(shè)備的計(jì)算速度將所述特征值集合中的所有特征值分配給至少一個(gè)計(jì)算設(shè)備,以使所述至少一個(gè)計(jì)算設(shè)備在處理時(shí)間滿足預(yù)設(shè)條件的前提下對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值。
[0014]可選地,所述特征值為樣本在預(yù)設(shè)文件格式下的模糊哈希值。
[0015]可選地,所述估計(jì)單元具體包括:
[0016]發(fā)送模塊,用于將所述獲取單元得到的預(yù)設(shè)數(shù)量的特征值發(fā)送給任一可用的計(jì)算設(shè)備,以使該計(jì)算設(shè)備對(duì)所述預(yù)設(shè)數(shù)量的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值;
[0017]獲取模塊,用于獲取該計(jì)算設(shè)備的處理時(shí)間,以得到所述每一可用的計(jì)算設(shè)備的計(jì)算速度的估計(jì)值。
[0018]可選地,所述重復(fù)單元具體包括:
[0019]確定模塊,用于根據(jù)所述估計(jì)單元得到的每一可用的計(jì)算設(shè)備的計(jì)算速度和所述預(yù)設(shè)條件確定分配給每一計(jì)算設(shè)備的特征值的數(shù)量;
[0020]發(fā)送模塊,用于按照所述確定模塊得到的特征值的數(shù)量將所述特征值集合中的所有特征值分發(fā)給至少一個(gè)計(jì)算設(shè)備,以使所述至少一個(gè)計(jì)算設(shè)備對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值;
[0021]接收模塊,用于接收來(lái)自所述至少一個(gè)計(jì)算設(shè)備的篩選后的特征值,以更新所述特征值集合。
[0022]可選地,所述對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值,具體包括:
[0023]將一個(gè)特征值保留,并對(duì)其余的所有特征值依次執(zhí)行以下步驟:
[0024]判斷特征值是否與已保留的任一特征值之間的相似度大于等于所述預(yù)設(shè)閾值;
[0025]若是,則將該特征值去除;
[0026]若否,則將該特征值保留。
[0027]可選地,該裝置還包括:
[0028]劃分單元,用于在所述重復(fù)單元得到的特征值集合中的每一特征值對(duì)應(yīng)一個(gè)類(lèi)別的前提下,將所有待聚類(lèi)的樣本中的每一個(gè)按照特征值的相似度的大小劃分至一個(gè)類(lèi)別當(dāng)中。
[0029]可選地,所述劃分單元具體包括:
[0030]發(fā)送模塊,用于將所有待聚類(lèi)的樣本分為若干份,并與所述重復(fù)單元得到的特征值集合一起分別發(fā)送給若干個(gè)計(jì)算設(shè)備,以使所述計(jì)算設(shè)備依次計(jì)算每一樣本的特征值與所述特征值集合中所有特征值的相似度,并將每一樣本標(biāo)記為與該樣本的特征值之間的相似度最大的特征值所對(duì)應(yīng)的類(lèi)別;
[0031]接收模塊,用于接收來(lái)自所述若干個(gè)計(jì)算設(shè)備的每一樣本的類(lèi)別標(biāo)記,以對(duì)所有待聚類(lèi)的樣本進(jìn)行分類(lèi)。
[0032]可選地,該裝置還包括:
[0033]提取單元,用于提取屬于所述劃分單元得到的任一類(lèi)別的所有樣本的共同特征,用以獲得該類(lèi)別區(qū)別于其他類(lèi)別的特征。
[0034]可選地,所述預(yù)設(shè)條件包括:
[0035]任一計(jì)算設(shè)備的所述處理時(shí)間小于第一預(yù)設(shè)值;
[0036]和/ 或,
[0037]所有計(jì)算設(shè)備的所述處理時(shí)間趨于一致;
[0038]和/ 或,
[0039]在所述特征值集合中的特征值數(shù)量大于第二預(yù)設(shè)值時(shí),任一所述計(jì)算設(shè)備的所述處理時(shí)間趨近于第三預(yù)設(shè)值。
[0040]第二方面,本發(fā)明還提供了一種樣本分布式聚類(lèi)計(jì)算方法,包括:
[0041]獲取所有待聚類(lèi)的樣本的特征值,以組成特征值集合;
[0042]估計(jì)每一可用的計(jì)算設(shè)備的計(jì)算速度;
[0043]在所述特征值集合中任意兩個(gè)特征值之間的相似度小于預(yù)設(shè)閾值之前,重復(fù)地執(zhí)行下述步驟:
[0044]根據(jù)所述每一可用的計(jì)算設(shè)備的計(jì)算速度將所述特征值集合中的所有特征值分配給至少一個(gè)計(jì)算設(shè)備,以使所述至少一個(gè)計(jì)算設(shè)備在處理時(shí)間滿足預(yù)設(shè)條件的前提下對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值。
[0045]由上述技術(shù)方案可知,本發(fā)明將單一計(jì)算設(shè)備難以處理的大規(guī)模數(shù)據(jù)基于計(jì)算速度的估計(jì)分配給不同的計(jì)算設(shè)備進(jìn)行迭代計(jì)算,因而可以大大地提升計(jì)算效率;同時(shí),不同計(jì)算設(shè)備進(jìn)行計(jì)算時(shí)都基于去除相似特征值的相同標(biāo)準(zhǔn)進(jìn)行,可以有效保障聚類(lèi)效果。因此,本發(fā)明可以解決現(xiàn)有的聚類(lèi)算法難以處理大規(guī)模數(shù)據(jù)的問(wèn)題。
[0046]進(jìn)一步地,本發(fā)明可以將現(xiàn)有技術(shù)難以處理的大規(guī)模數(shù)據(jù)進(jìn)行分布式的聚類(lèi)計(jì)算,有效提高了聚類(lèi)計(jì)算的效率,不僅有利于推動(dòng)現(xiàn)有聚類(lèi)計(jì)算的實(shí)際應(yīng)用,還有利于將聚類(lèi)計(jì)算推廣至更廣闊的應(yīng)用范圍。
【附圖說(shuō)明】
[0047]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單的介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0048]圖1是本發(fā)明一個(gè)實(shí)施例中一種樣本分布式聚類(lèi)計(jì)算方法的步驟流程示意圖;
[0049]圖2是本發(fā)明一個(gè)實(shí)施例中一種進(jìn)行聚類(lèi)計(jì)算的步驟流程示意圖;
[0050]圖3是本發(fā)明一個(gè)實(shí)施例中一種估計(jì)運(yùn)算速度的步驟流程示意圖;
[0051]圖4是本發(fā)明一個(gè)實(shí)施例中一種樣本分布式聚類(lèi)計(jì)算裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0052]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0053]在本發(fā)明的描述中需要說(shuō)明的是,術(shù)語(yǔ)“上”、“下”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡(jiǎn)化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對(duì)本發(fā)明的限制。除非另有明確的規(guī)定和限定,術(shù)語(yǔ)“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過(guò)中間媒介間接相連,可以是兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語(yǔ)在本發(fā)明中的具體含義。
[0054]圖1是本發(fā)明一個(gè)實(shí)施例中一種樣本分布式聚類(lèi)計(jì)算方法的步驟流程示意圖。參見(jiàn)圖1,該方法包括:
[0055]步驟101:獲取所有待聚類(lèi)的樣本的特征值,以組成特征值集合;
[0056]步驟102:估計(jì)每一可用的計(jì)算設(shè)備的計(jì)算速度;
[0057]步驟103:判斷特征值集合中任意兩個(gè)特征值之間的相似度是否均小于預(yù)設(shè)閾值;
當(dāng)前第1頁(yè)
1 
2 
3 
4 
5