分布式支持向量聚類的方法及系統(tǒng)的制作方法

文檔序號：6639903閱讀：155來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

分布式支持向量聚類的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種分布式支持向量聚類的方法，包括：對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理，并對全局參數(shù)及任務(wù)進(jìn)行初始化；向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果；當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集，則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量，并按照預(yù)定公式進(jìn)行迭代運(yùn)算，計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值；找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量，并將所述支持向量進(jìn)行編號；利用所述支持向量以及各支持向量的權(quán)重系數(shù)，構(gòu)建支持函數(shù)，進(jìn)行簇劃分，得到所述支持向量的簇標(biāo)號，并標(biāo)定非支持向量樣本作為聚類分析的結(jié)果；該方法能夠有效提高支持向量聚類的效率。
【專利說明】分布式支持向量聚類的方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】，特別是涉及一種分布式支持向量聚類的方法及系統(tǒng)。

【背景技術(shù)】
[0002] 聚類分析是通過某種相似測度去發(fā)現(xiàn)對象集合中存在緊密關(guān)系的觀測值簇，使得簇內(nèi)部的對象彼此之間的相似度盡可能地大，而不同簇類的對象之間的相似度盡可能地小，甚至不同或不相關(guān)。
[0003] 目前對于聚類分析方法的優(yōu)劣是通過有效性度量和實(shí)現(xiàn)性能即時間效率和存儲效率進(jìn)行。
[0004] 對于有效性來說支持向量聚類方法較好，其中，支持向量聚類是基于核函數(shù)方法的一種，它通過使用核函數(shù)將數(shù)據(jù)從輸入空間映射到高維特征空間中，尋找一個具有最小半徑R的超球體盡可能地包圍住所有訓(xùn)練集樣本，再將該超球體逆向映射回輸入空間時，原描述超球體的樣本正好形成能夠描述數(shù)據(jù)分布區(qū)域邊界的輪廓。相對于其他方法，支持向量聚類的主要優(yōu)勢體現(xiàn)在對任意簇形狀的發(fā)現(xiàn)和描述能力，且無需預(yù)設(shè)簇數(shù)量。但是該方法最大的不足就是實(shí)現(xiàn)性能差，建立在整個訓(xùn)練集上的核矩陣對存儲空間的巨大消耗，和為求解描述超球體的支持函數(shù)時的昂貴時間代價。
[0005] 現(xiàn)有的對支持向量聚類分析方法效率提升的主要有1)轉(zhuǎn)換求解支持函數(shù)的對偶問題，但其雖對計算效率有益卻對一次性建立核矩陣的規(guī)模降低沒有幫助；2)訓(xùn)練集約簡，但作為預(yù)處理階段的改進(jìn)對于規(guī)模大或高維度（或二者兼具）的數(shù)據(jù)分析性能提升有限，且容易引入更多的參數(shù)增加算法復(fù)雜度。因此這些方法都不能夠有效的提升支持向量聚類分析方法效率。
[0006] 因此，如何有效提高支持向量聚類的效率，是本領(lǐng)域技術(shù)人員需要解決的技術(shù)問題。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明的目的是提供一種分布式支持向量聚類的方法，該方法能夠有效的提高支持向量聚類的存儲效率以及時間效率，本發(fā)明的另一目的是提供一種分布式支持向量聚類的系統(tǒng)。
[0008] 為解決上述技術(shù)問題，本發(fā)明提供一種分布式支持向量聚類的方法包括：
[0009] 對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理，并對全局參數(shù)及任務(wù)進(jìn)行初始化； [0010]向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果；
[0011] 當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集，則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量，并按照預(yù)定公式進(jìn)行迭代運(yùn)算，計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值；
[0012] 找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量，并將所述支持向量進(jìn) 行編號；
[0013] 利用所述支持向量以及各支持向量的權(quán)重系數(shù)，構(gòu)建支持函數(shù)，進(jìn)行簇劃分，得到所述支持向量的簇標(biāo)號，并標(biāo)定非支持向量的簇標(biāo)號，作為整個數(shù)據(jù)集的聚類分析的結(jié)果。
[0014] 其中，所述對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理，并對全局參數(shù)及任務(wù)進(jìn) 行初始化包括：
[0015] 對輸入的數(shù)據(jù)集進(jìn)行噪聲和/或非重要數(shù)據(jù)過濾；
[0016] 對處理后的所述數(shù)據(jù)集中每個樣本進(jìn)行規(guī)范化處理，形成預(yù)定數(shù)據(jù)集；
[0017] 規(guī)定計算節(jié)點(diǎn)個數(shù)，并對全局參數(shù)及任務(wù)進(jìn)行初始化。
[0018] 其中，所述初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量包括：
[0019] 設(shè)置當(dāng)前任務(wù)編號，并初始化預(yù)定數(shù)據(jù)中每個樣本的權(quán)重系數(shù)，根據(jù)特定值序列計算公式計算每個樣本相對應(yīng)的特定值。
[0020] 其中，所述按照預(yù)定公式進(jìn)行迭代運(yùn)算，計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán) 重系數(shù)值包括：
[0021] 根據(jù)任務(wù)編號確定樣本任務(wù)，利用臨時值計算公式，計算所述樣本任務(wù)相對應(yīng)的樣本的臨時值；
[0022] 根據(jù)所述樣本的權(quán)重系數(shù)值所對應(yīng)的范圍，利用參照值計算公式計算該樣本的參照值；
[0023] 判斷所述參照值的絕對值是否等于預(yù)定極小值，當(dāng)?shù)扔陬A(yù)定極小值時，該樣本任務(wù)計算完成，增加任務(wù)編號，進(jìn)行下一個樣本任務(wù)；
[0024] 當(dāng)不等于預(yù)定極小值時，根據(jù)樣本權(quán)重更新公式更新該樣本的權(quán)重系數(shù)值，根據(jù) 任務(wù)編號進(jìn)行樣本任務(wù)的計算。
[0025] 其中，所述利用所述支持向量以及各支持向量的權(quán)重系數(shù)之前還包括：
[0026] 對所述支持向量根據(jù)過濾條件進(jìn)行過濾，其中，過濾條件包括：
[0027] 濾除所述支持向量中權(quán)重系數(shù)大于第一預(yù)定值和小于第二預(yù)定值的支持向量；
[0028] 對過濾后的支持向量的權(quán)重系數(shù)進(jìn)行規(guī)范化操作。
[0029] 其中，所述標(biāo)定非支持向量的簇標(biāo)號包括：
[0030] 將非支持向量樣本的各個樣本標(biāo)定為距離各樣本距離數(shù)值最小的支持向量對應(yīng) 的簇標(biāo)號。
[0031] 本發(fā)明提供一種支持向量聚類的系統(tǒng)包括：
[0032] 準(zhǔn)備模塊，用于對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理，并對全局參數(shù)及任務(wù)進(jìn)行初始化；
[0033] 分配模塊，用于向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果；
[0034] 計算模塊，用于當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集，則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量，并按照預(yù)定公式進(jìn)行迭代運(yùn)算，計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值； [0035] 查找模塊，用于找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量，并將所述支持向量進(jìn)行編號；
[0036] 確定模塊，用于利用所述支持向量以及各支持向量的權(quán)重系數(shù)，構(gòu)建支持函數(shù)，進(jìn) 行簇劃分，得到所述支持向量的簇標(biāo)號，并標(biāo)定非支持向量的簇標(biāo)號，作為整個數(shù)據(jù)集的聚類分析的結(jié)果。
[0037] 其中，所述計算模塊包括：
[0038] 設(shè)置單元，用于當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集，則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量；
[0039] 第一計算單元，用于根據(jù)特定值序列計算公式計算每個樣本相對應(yīng)的特定值；
[0040] 第二計算單元，用于利用臨時值計算公式，計算所述樣本任務(wù)相對應(yīng)的樣本的臨時值；
[0041] 第三計算單元，用于根據(jù)所述樣本的權(quán)重系數(shù)值所對應(yīng)的范圍，利用參照值計算公式計算該樣本的參照值；
[0042] 判斷單元，用于判斷所述參照值的絕對值是否等于預(yù)定極小值；
[0043] 處理單元，用于當(dāng)?shù)扔陬A(yù)定極小值時，該樣本任務(wù)計算完成，增加任務(wù)編號，進(jìn)行下一個樣本任務(wù)；當(dāng)不等于預(yù)定極小值時，根據(jù)樣本權(quán)重更新公式更新該樣本的權(quán)重系數(shù) 值，根據(jù)任務(wù)編號進(jìn)行樣本任務(wù)的計算。
[0044] 其中,所述的支持向量聚類的系統(tǒng)還包括：
[0045] 過濾模塊，用于對所述支持向量根據(jù)過濾條件進(jìn)行過濾。
[0046] 其中，所述確定模塊包括：
[0047] 第一確定單元，用于利用所述支持向量以及各支持向量的權(quán)重系數(shù)，構(gòu)建支持函數(shù)，進(jìn)行簇劃分，得到所述支持向量的簇標(biāo)號；
[0048] 第二確定單元，用于將非支持向量樣本的各個樣本標(biāo)定為距離各樣本距離數(shù)值最小的支持向量對應(yīng)的簇標(biāo)號，作為整個數(shù)據(jù)集的支持向量聚類的結(jié)果。
[0049] 基于上述技術(shù)方案，本發(fā)明所提供的支持向量聚類的方法，對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理，并對全局參數(shù)及任務(wù)進(jìn)行初始化；向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù) 集或特定計算結(jié)果；當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集，則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量，并按照預(yù)定公式進(jìn)行迭代運(yùn)算，計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值；找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量，并將所述支持向量進(jìn)行編號；利用所述支持向量以及各支持向量的權(quán)重系數(shù)，構(gòu)建支持函數(shù)，進(jìn)行簇劃分，并標(biāo)定所述支持向量對應(yīng)的簇標(biāo)號，作為支持向量聚類的結(jié)果；通過構(gòu)建支持函數(shù)而求解的對偶問題分解，避開一次性核函數(shù)矩陣的構(gòu)建對存儲空間的消耗，以提升算法的存儲效率，并將數(shù)據(jù)集樣本在支持函數(shù)中的權(quán)重系數(shù)的評估過程并行化處理，以達(dá)到時間效率的顯著提升；并提升支持向量聚類的方法在大規(guī)模、高維度數(shù)據(jù)分析方面的性能。該方法能夠有效提高支持向量聚類的效率。

【專利附圖】

【附圖說明】
[0050] 為了更清楚的說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)的技術(shù)方案，下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單的介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā) 明的一些實(shí)施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0051] 圖1為本發(fā)明實(shí)施例提供的分布式支持向量聚類方法的流程圖；
[0052] 圖2為本發(fā)明實(shí)施例提供的計算樣本權(quán)重系數(shù)的方法的流程圖；
[0053] 圖3為本發(fā)明實(shí)施例提供的支持向量聚類的系統(tǒng)的結(jié)構(gòu)框圖；
[0054] 圖4為本發(fā)明實(shí)施例提供的計算模塊的結(jié)構(gòu)框圖；
[0055] 圖5為本發(fā)明實(shí)施例提供的另一支持向量聚類的系統(tǒng)的結(jié)構(gòu)框圖。

【具體實(shí)施方式】
[0056] 本發(fā)明的目的是提供一種分布式支持向量聚類的方法，該方法能夠有效的提高支持向量聚類方法的存儲效率以及時間效率，本發(fā)明的另一目的是提供一種支持向量聚類的系統(tǒng)。
[0057] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0058] 本發(fā)明將支持向量聚類中存儲空間消耗巨大、計算復(fù)雜度較高且耗時的對偶問題模型，從經(jīng)典的非線性問題模型轉(zhuǎn)換為線性的支持向量機(jī)模型，結(jié)合最新的對偶坐標(biāo)下降法原理，將原本需要一次性構(gòu)造完整的核函數(shù)矩陣或分塊順序處理的對偶問題求解過程做并行化處理，形成可直接完成超大規(guī)模、高維數(shù)據(jù)分析以提取支持函數(shù)的、簡潔的、快速的分布式處理形式。具體過程可參見圖1。
[0059] 請參考圖1，圖1為本發(fā)明實(shí)施例提供的支持向量聚類的方法的流程圖；該方法可以包括：
[0060] 步驟SlOO、對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理，并對全局參數(shù)及任務(wù)進(jìn) 行初始化；
[0061] 其中，該過程可以包括：預(yù)處理階段，通過對噪聲或非重要數(shù)據(jù)過濾、規(guī)范化處理等；來達(dá)到提商處理效率。
[0062] 全局參數(shù)及任務(wù)初始化階段，通過對支持向量聚類過程中所需的樣本數(shù)、計算節(jié) 點(diǎn)數(shù)、分配數(shù)量向量、核函數(shù)及懲罰因子等進(jìn)行全局初始化設(shè)置；方便后續(xù)計算過程的使用。將可能會消耗時間的過程都盡可能的進(jìn)行處理。
[0063] 其中，對輸入的數(shù)據(jù)集中每個樣本視為行、每個屬性視為列，進(jìn)行基本的規(guī)范化處理，以使數(shù)據(jù)取值范圍位于任務(wù)期望范圍內(nèi)。
[0064] 其中，在進(jìn)行規(guī)范化處理時，通常將數(shù)據(jù)集中每個樣本視為行、每個屬性視為列，然后按照橫向（行）或縱向（列）進(jìn)行規(guī)范化處理。處理后的數(shù)據(jù)取值范圍應(yīng)視具體任務(wù) 而定，通常建議為[-1，1]或[0, 1]之間；如果原值域范圍較大，且取值分布較為均勻，則應(yīng) 考慮聚類算法對精度的要求，適當(dāng)擴(kuò)大規(guī)范后的值域范圍。
[0065] 其中，全局參數(shù)可以包括：預(yù)定數(shù)據(jù)集樣本數(shù)L ;分布式計算框架下的計算節(jié)點(diǎn)數(shù) N，其中N彡1 ;分配數(shù)量向量\ = [L1,...，Ln]，其中LiQ e [1，N])為需要第i個計算節(jié) 點(diǎn)完成的計算任務(wù)數(shù)，即需要計算的權(quán)重系數(shù)個數(shù)；核函數(shù)寬度q和懲罰因子C ;其中，對于核函數(shù)寬度q和懲罰因子C。該兩個參數(shù)為經(jīng)典支持向量聚類模型中所需的參數(shù)，在用支持向量樣本來描述簇輪廓時，前者將決定輪廓的平滑程度，后者將決定輪廓的收縮與擴(kuò)張。 [0066] 其中，濾除數(shù)據(jù)中存在噪聲或非重要的數(shù)據(jù)，以便保留下來的數(shù)據(jù)具有相對清晰的簇輪廓，并使參數(shù)初始化工作變得更加容易。但是，如果待分析的數(shù)據(jù)維度較高，則通常存在濾除效果不明顯，此時建議調(diào)整懲罰因子C來解決或者為預(yù)處理增加必要的降維映射操作，如主成分提取等。此外，本發(fā)明并不對噪聲數(shù)據(jù)或非重要數(shù)據(jù)進(jìn)行明確界定，它們與具體的應(yīng)用和數(shù)據(jù)的分布有關(guān)，通常是那些位于清晰簇輪廓之外的部分稀疏且與多個簇沒有明確隸屬關(guān)系的數(shù)據(jù)樣本。
[0067] 步驟SllO、向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果；
[0068] 其中，分發(fā)數(shù)據(jù)或特定計算結(jié)果階段，通過向計算節(jié)點(diǎn)分發(fā)數(shù)據(jù)集或特定中間結(jié) 果，并按照數(shù)據(jù)配比通知每個計算節(jié)點(diǎn)待分析的預(yù)定數(shù)據(jù)集中樣本數(shù)量；即使得每個計算節(jié)點(diǎn)有預(yù)定個數(shù)個樣本需要進(jìn)行處理。
[0069] 其中，這些計算節(jié)點(diǎn)可以位于一個處理器內(nèi)，也可以位于多個處理器中。例如處理器可以為計算機(jī)中。
[0070] 其中，如果計算節(jié)點(diǎn)收到的是預(yù)定數(shù)據(jù)集，則根據(jù)任務(wù)指示自行計算所需中間結(jié) 果并存儲為本地常量，收到的是特定計算結(jié)果只需存儲該中間結(jié)果以后續(xù)計算之用。
[0071] 步驟S120、當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集，則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量，并按照預(yù)定公式進(jìn)行迭代運(yùn)算，計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值；
[0072] 其中，當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集，則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量可以有兩種形式，當(dāng)所述預(yù)定數(shù)據(jù)集為整個數(shù)據(jù)集時，將上述設(shè)置的全局參數(shù)、任務(wù)等分發(fā)給所有的計算節(jié)點(diǎn)，在要求計算節(jié)點(diǎn)根據(jù)所接收到的數(shù)據(jù)、參數(shù)及任務(wù)分配信息，并結(jié)合自身的節(jié)點(diǎn)編號在本地完成初始化L個樣本的權(quán)重系數(shù)a :，...，，然后計算特定值序列 ...，di，并按照分配數(shù)量向量'的要求將特定值序列分組分發(fā)給每個計算節(jié)點(diǎn)，即第 i個節(jié)點(diǎn)將得到腳標(biāo)范圍從E= L + 1.到IX11L + U的子序列值。這里，特定值序列 (?,…s 的計算公式為 G,廠二 2 "r/((>cr, x")，其中 K (xv，xu) = exp (_q I I Xv-Xu I 12)。得到并存儲么.....G/.,;然后將計算節(jié)點(diǎn)為待分析樣本子集初始化權(quán)重系數(shù)，且復(fù)制一份作為本地常量存儲，然后設(shè)置當(dāng)前任務(wù)編號。
[0073] 當(dāng)所述預(yù)定數(shù)據(jù)集不為整個數(shù)據(jù)集時，初始化L個樣本的權(quán)重系數(shù)Ci1, ...，c^，然后計算特定值序列，并按照分配數(shù)量向量 '的要求將特定值序列分組分發(fā)給每個計算節(jié)點(diǎn)，即第i個節(jié)點(diǎn)將得到腳標(biāo)范圍從CI11 " T I到" +心的子序列值。這里，特定值序列(J1,..., ^的計算公式為氣=2[^*=1 CitlIf (XwsXlj)，其中K(XV, Xu)= exp (_q I I Xv-Xu I 12)，第i個計算節(jié)點(diǎn)根據(jù)自身任務(wù)數(shù)的要求為待分析的L個樣本的權(quán)重系數(shù)a i，...，且可以復(fù)制一份作為本地常量存儲，最后可以設(shè)置當(dāng)前任務(wù)編號。
[0074] 其中，按照預(yù)定公式進(jìn)行迭代運(yùn)算這里可能會進(jìn)行多輪迭代，計算出所述預(yù)定數(shù) 據(jù)集中每個樣本的權(quán)重系數(shù)值。
[0075] 步驟S130、找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量，并將所述支持向量進(jìn)行編號；
[0076] 其中，所述預(yù)定極小值應(yīng)根據(jù)計算機(jī)的精度或具體應(yīng)用需要合理選擇一個大于0 的極小值作為替代。例如可以根據(jù)實(shí)際情況將數(shù)值〇替換為一個大于〇的極小值G，也可使用與整個數(shù)據(jù)規(guī)模L成反比關(guān)系的一個較小值I來替換，例如取C =MTfc1I
[0077] 步驟S140、利用所述支持向量以及各支持向量的權(quán)重系數(shù)，構(gòu)建支持函數(shù)，進(jìn)行簇劃分，得到所述支持向量的簇標(biāo)號，并標(biāo)定非支持向量的簇標(biāo)號，作為整個數(shù)據(jù)集的聚類分析的結(jié)果。
[0078] 其中，1)支持函數(shù)的構(gòu)造可以利用Ns個支持向量樣本和對應(yīng)的權(quán)重系數(shù)，構(gòu)造支持函數(shù)并計算得到最小包含球的半徑，公式如下：

【權(quán)利要求】
1. 一種分布式支持向量聚類的方法，其特征在于，包括：對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理，并對全局參數(shù)及任務(wù)進(jìn)行初始化；向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果；當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集，則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量，并按照預(yù)定公式進(jìn)行迭代運(yùn)算，計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值；找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量，并將所述支持向量進(jìn)行編號；利用所述支持向量以及各支持向量的權(quán)重系數(shù)，構(gòu)建支持函數(shù)，進(jìn)行簇劃分，得到所述支持向量的簇標(biāo)號，并標(biāo)定非支持向量的簇標(biāo)號，作為整個數(shù)據(jù)集的聚類分析的結(jié)果。
2. 如權(quán)利要求1所述的分布式支持向量聚類的方法，其特征在于，所述對輸入的數(shù)據(jù) 集按照預(yù)定處理規(guī)則進(jìn)行處理，并對全局參數(shù)及任務(wù)進(jìn)行初始化包括：對輸入的數(shù)據(jù)集進(jìn)行噪聲和/或非重要數(shù)據(jù)過濾；對處理后的所述數(shù)據(jù)集中每個樣本進(jìn)行規(guī)范化處理，形成預(yù)定數(shù)據(jù)集；規(guī)定計算節(jié)點(diǎn)個數(shù)，并對全局參數(shù)及任務(wù)進(jìn)行初始化。
3. 如權(quán)利要求1所述的分布式支持向量聚類的方法，其特征在于，所述初始化所述預(yù) 定數(shù)據(jù)集的權(quán)重向量包括：設(shè)置當(dāng)前任務(wù)編號，并初始化預(yù)定數(shù)據(jù)中每個樣本的權(quán)重系數(shù)，根據(jù)特定值序列計算公式計算每個樣本相對應(yīng)的特定值。
4. 如權(quán)利要求1所述的分布式支持向量聚類的方法，其特征在于，所述按照預(yù)定公式進(jìn)行迭代運(yùn)算，計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值包括：根據(jù)任務(wù)編號確定樣本任務(wù)，利用臨時值計算公式，計算所述樣本任務(wù)相對應(yīng)的樣本的臨時值；根據(jù)所述樣本的權(quán)重系數(shù)值所對應(yīng)的范圍，利用參照值計算公式計算該樣本的參照值；判斷所述參照值的絕對值是否等于預(yù)定極小值，當(dāng)?shù)扔陬A(yù)定極小值時，該樣本任務(wù)計算完成，增加任務(wù)編號，進(jìn)行下一個樣本任務(wù)；當(dāng)不等于預(yù)定極小值時，根據(jù)樣本權(quán)重更新公式更新該樣本的權(quán)重系數(shù)值，根據(jù)任務(wù) 編號進(jìn)行樣本任務(wù)的計算。
5. 如權(quán)利要求1所述的分布式支持向量聚類的方法，其特征在于，所述利用所述支持向量以及各支持向量的權(quán)重系數(shù)之前還包括：對所述支持向量根據(jù)過濾條件進(jìn)行過濾，其中，過濾條件包括：濾除所述支持向量中權(quán)重系數(shù)大于第一預(yù)定值和小于第二預(yù)定值的支持向量；對過濾后的支持向量的權(quán)重系數(shù)進(jìn)行規(guī)范化操作。
6. 如權(quán)利要求1所述的分布式支持向量聚類的方法，其特征在于，所述標(biāo)定非支持向量的簇標(biāo)號包括：將非支持向量樣本的各個樣本標(biāo)定為距離各樣本距離數(shù)值最小的支持向量對應(yīng)的簇標(biāo)號。
7. -種分布式支持向量聚類的系統(tǒng)，其特征在于，包括：準(zhǔn)備模塊，用于對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理，并對全局參數(shù)及任務(wù)進(jìn) 行初始化；分配模塊，用于向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果；計算模塊，用于當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集，則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量，并按照預(yù)定公式進(jìn)行迭代運(yùn)算，計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值；查找模塊，用于找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量，并將所述支持向量進(jìn)行編號；確定模塊，用于利用所述支持向量以及各支持向量的權(quán)重系數(shù)，構(gòu)建支持函數(shù)，進(jìn)行簇劃分，得到所述支持向量的簇標(biāo)號，并標(biāo)定非支持向量的簇標(biāo)號，作為整個數(shù)據(jù)集的聚類分析的結(jié)果。
8. 如權(quán)利要求7所述的分布式支持向量聚類的系統(tǒng)，其特征在于，所述計算模塊包括：設(shè)置單元，用于當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集，則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量；第一計算單元，用于根據(jù)特定值序列計算公式計算每個樣本相對應(yīng)的特定值；第二計算單元，用于利用臨時值計算公式，計算所述樣本任務(wù)相對應(yīng)的樣本的臨時值；第三計算單元，用于根據(jù)所述樣本的權(quán)重系數(shù)值所對應(yīng)的范圍，利用參照值計算公式計算該樣本的參照值；判斷單元，用于判斷所述參照值的絕對值是否等于預(yù)定極小值；處理單元，用于當(dāng)?shù)扔陬A(yù)定極小值時，該樣本任務(wù)計算完成，增加任務(wù)編號，進(jìn)行下一個樣本任務(wù)；當(dāng)不等于預(yù)定極小值時，根據(jù)樣本權(quán)重更新公式更新該樣本的權(quán)重系數(shù)值，根據(jù)任務(wù)編號進(jìn)行樣本任務(wù)的計算。
9. 如權(quán)利要求7所述的分布式支持向量聚類的系統(tǒng)，其特征在于，還包括：過濾模塊，用于對所述支持向量根據(jù)過濾條件進(jìn)行過濾。
10. 如權(quán)利要求7所述的分布式支持向量聚類的系統(tǒng)，其特征在于，所述確定模塊包括：第一確定單元，用于利用所述支持向量以及各支持向量的權(quán)重系數(shù)，構(gòu)建支持函數(shù)，進(jìn) 行簇劃分，得到所述支持向量的簇標(biāo)號；第二確定單元，用于將非支持向量樣本的各個樣本標(biāo)定為距離各樣本距離數(shù)值最小的支持向量對應(yīng)的簇標(biāo)號，作為整個數(shù)據(jù)集的支持向量聚類的結(jié)果。
【文檔編號】G06F17/30GK104408206SQ201410815788
【公開日】2015年3月11日申請日期:2014年12月23日優(yōu)先權(quán)日:2014年12月23日
【發(fā)明者】平源, 李慧娜, 張志立, 張永, 楊月華, 馬慧申請人:許昌學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：平源;李慧娜;張志立;張永;楊月華;馬慧;
技術(shù)所有人：許昌學(xué)院;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

向量聚類相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

分布式支持向量聚類的方法及系統(tǒng)的制作方法