分布式支持向量聚類的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種分布式支持向量聚類的方法,包括:對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理,并對全局參數(shù)及任務(wù)進(jìn)行初始化;向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果;當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集,則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量,并按照預(yù)定公式進(jìn)行迭代運(yùn)算,計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值;找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量,并將所述支持向量進(jìn)行編號;利用所述支持向量以及各支持向量的權(quán)重系數(shù),構(gòu)建支持函數(shù),進(jìn)行簇劃分,得到所述支持向量的簇標(biāo)號,并標(biāo)定非支持向量樣本作為聚類分析的結(jié)果;該方法能夠有效提高支持向量聚類的效率。
【專利說明】分布式支持向量聚類的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,特別是涉及一種分布式支持向量聚類的方法及系 統(tǒng)。
【背景技術(shù)】
[0002] 聚類分析是通過某種相似測度去發(fā)現(xiàn)對象集合中存在緊密關(guān)系的觀測值簇,使得 簇內(nèi)部的對象彼此之間的相似度盡可能地大,而不同簇類的對象之間的相似度盡可能地 小,甚至不同或不相關(guān)。
[0003] 目前對于聚類分析方法的優(yōu)劣是通過有效性度量和實(shí)現(xiàn)性能即時間效率和存儲 效率進(jìn)行。
[0004] 對于有效性來說支持向量聚類方法較好,其中,支持向量聚類是基于核函數(shù)方法 的一種,它通過使用核函數(shù)將數(shù)據(jù)從輸入空間映射到高維特征空間中,尋找一個具有最小 半徑R的超球體盡可能地包圍住所有訓(xùn)練集樣本,再將該超球體逆向映射回輸入空間時, 原描述超球體的樣本正好形成能夠描述數(shù)據(jù)分布區(qū)域邊界的輪廓。相對于其他方法,支持 向量聚類的主要優(yōu)勢體現(xiàn)在對任意簇形狀的發(fā)現(xiàn)和描述能力,且無需預(yù)設(shè)簇數(shù)量。但是該 方法最大的不足就是實(shí)現(xiàn)性能差,建立在整個訓(xùn)練集上的核矩陣對存儲空間的巨大消耗, 和為求解描述超球體的支持函數(shù)時的昂貴時間代價。
[0005] 現(xiàn)有的對支持向量聚類分析方法效率提升的主要有1)轉(zhuǎn)換求解支持函數(shù)的對 偶問題,但其雖對計算效率有益卻對一次性建立核矩陣的規(guī)模降低沒有幫助;2)訓(xùn)練集約 簡,但作為預(yù)處理階段的改進(jìn)對于規(guī)模大或高維度(或二者兼具)的數(shù)據(jù)分析性能提升有 限,且容易引入更多的參數(shù)增加算法復(fù)雜度。因此這些方法都不能夠有效的提升支持向量 聚類分析方法效率。
[0006] 因此,如何有效提高支持向量聚類的效率,是本領(lǐng)域技術(shù)人員需要解決的技術(shù)問 題。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的是提供一種分布式支持向量聚類的方法,該方法能夠有效的提高支 持向量聚類的存儲效率以及時間效率,本發(fā)明的另一目的是提供一種分布式支持向量聚類 的系統(tǒng)。
[0008] 為解決上述技術(shù)問題,本發(fā)明提供一種分布式支持向量聚類的方法包括:
[0009] 對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理,并對全局參數(shù)及任務(wù)進(jìn)行初始化; [0010]向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果;
[0011] 當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集,則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量,并按照預(yù)定 公式進(jìn)行迭代運(yùn)算,計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值;
[0012] 找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量,并將所述支持向量進(jìn) 行編號;
[0013] 利用所述支持向量以及各支持向量的權(quán)重系數(shù),構(gòu)建支持函數(shù),進(jìn)行簇劃分,得到 所述支持向量的簇標(biāo)號,并標(biāo)定非支持向量的簇標(biāo)號,作為整個數(shù)據(jù)集的聚類分析的結(jié)果。
[0014] 其中,所述對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理,并對全局參數(shù)及任務(wù)進(jìn) 行初始化包括:
[0015] 對輸入的數(shù)據(jù)集進(jìn)行噪聲和/或非重要數(shù)據(jù)過濾;
[0016] 對處理后的所述數(shù)據(jù)集中每個樣本進(jìn)行規(guī)范化處理,形成預(yù)定數(shù)據(jù)集;
[0017] 規(guī)定計算節(jié)點(diǎn)個數(shù),并對全局參數(shù)及任務(wù)進(jìn)行初始化。
[0018] 其中,所述初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量包括:
[0019] 設(shè)置當(dāng)前任務(wù)編號,并初始化預(yù)定數(shù)據(jù)中每個樣本的權(quán)重系數(shù),根據(jù)特定值序列 計算公式計算每個樣本相對應(yīng)的特定值。
[0020] 其中,所述按照預(yù)定公式進(jìn)行迭代運(yùn)算,計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán) 重系數(shù)值包括:
[0021] 根據(jù)任務(wù)編號確定樣本任務(wù),利用臨時值計算公式,計算所述樣本任務(wù)相對應(yīng)的 樣本的臨時值;
[0022] 根據(jù)所述樣本的權(quán)重系數(shù)值所對應(yīng)的范圍,利用參照值計算公式計算該樣本的參 照值;
[0023] 判斷所述參照值的絕對值是否等于預(yù)定極小值,當(dāng)?shù)扔陬A(yù)定極小值時,該樣本任 務(wù)計算完成,增加任務(wù)編號,進(jìn)行下一個樣本任務(wù);
[0024] 當(dāng)不等于預(yù)定極小值時,根據(jù)樣本權(quán)重更新公式更新該樣本的權(quán)重系數(shù)值,根據(jù) 任務(wù)編號進(jìn)行樣本任務(wù)的計算。
[0025] 其中,所述利用所述支持向量以及各支持向量的權(quán)重系數(shù)之前還包括:
[0026] 對所述支持向量根據(jù)過濾條件進(jìn)行過濾,其中,過濾條件包括:
[0027] 濾除所述支持向量中權(quán)重系數(shù)大于第一預(yù)定值和小于第二預(yù)定值的支持向量;
[0028] 對過濾后的支持向量的權(quán)重系數(shù)進(jìn)行規(guī)范化操作。
[0029] 其中,所述標(biāo)定非支持向量的簇標(biāo)號包括:
[0030] 將非支持向量樣本的各個樣本標(biāo)定為距離各樣本距離數(shù)值最小的支持向量對應(yīng) 的簇標(biāo)號。
[0031] 本發(fā)明提供一種支持向量聚類的系統(tǒng)包括:
[0032] 準(zhǔn)備模塊,用于對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理,并對全局參數(shù)及任 務(wù)進(jìn)行初始化;
[0033] 分配模塊,用于向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果;
[0034] 計算模塊,用于當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集,則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向 量,并按照預(yù)定公式進(jìn)行迭代運(yùn)算,計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值; [0035] 查找模塊,用于找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量,并將 所述支持向量進(jìn)行編號;
[0036] 確定模塊,用于利用所述支持向量以及各支持向量的權(quán)重系數(shù),構(gòu)建支持函數(shù),進(jìn) 行簇劃分,得到所述支持向量的簇標(biāo)號,并標(biāo)定非支持向量的簇標(biāo)號,作為整個數(shù)據(jù)集的聚 類分析的結(jié)果。
[0037] 其中,所述計算模塊包括:
[0038] 設(shè)置單元,用于當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集,則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向 量;
[0039] 第一計算單元,用于根據(jù)特定值序列計算公式計算每個樣本相對應(yīng)的特定值;
[0040] 第二計算單元,用于利用臨時值計算公式,計算所述樣本任務(wù)相對應(yīng)的樣本的臨 時值;
[0041] 第三計算單元,用于根據(jù)所述樣本的權(quán)重系數(shù)值所對應(yīng)的范圍,利用參照值計算 公式計算該樣本的參照值;
[0042] 判斷單元,用于判斷所述參照值的絕對值是否等于預(yù)定極小值;
[0043] 處理單元,用于當(dāng)?shù)扔陬A(yù)定極小值時,該樣本任務(wù)計算完成,增加任務(wù)編號,進(jìn)行 下一個樣本任務(wù);當(dāng)不等于預(yù)定極小值時,根據(jù)樣本權(quán)重更新公式更新該樣本的權(quán)重系數(shù) 值,根據(jù)任務(wù)編號進(jìn)行樣本任務(wù)的計算。
[0044] 其中,所述的支持向量聚類的系統(tǒng)還包括:
[0045] 過濾模塊,用于對所述支持向量根據(jù)過濾條件進(jìn)行過濾。
[0046] 其中,所述確定模塊包括:
[0047] 第一確定單元,用于利用所述支持向量以及各支持向量的權(quán)重系數(shù),構(gòu)建支持函 數(shù),進(jìn)行簇劃分,得到所述支持向量的簇標(biāo)號;
[0048] 第二確定單元,用于將非支持向量樣本的各個樣本標(biāo)定為距離各樣本距離數(shù)值最 小的支持向量對應(yīng)的簇標(biāo)號,作為整個數(shù)據(jù)集的支持向量聚類的結(jié)果。
[0049] 基于上述技術(shù)方案,本發(fā)明所提供的支持向量聚類的方法,對輸入的數(shù)據(jù)集按照 預(yù)定處理規(guī)則進(jìn)行處理,并對全局參數(shù)及任務(wù)進(jìn)行初始化;向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù) 集或特定計算結(jié)果;當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集,則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量,并 按照預(yù)定公式進(jìn)行迭代運(yùn)算,計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值;找到所述 權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量,并將所述支持向量進(jìn)行編號;利用所述 支持向量以及各支持向量的權(quán)重系數(shù),構(gòu)建支持函數(shù),進(jìn)行簇劃分,并標(biāo)定所述支持向量對 應(yīng)的簇標(biāo)號,作為支持向量聚類的結(jié)果;通過構(gòu)建支持函數(shù)而求解的對偶問題分解,避開一 次性核函數(shù)矩陣的構(gòu)建對存儲空間的消耗,以提升算法的存儲效率,并將數(shù)據(jù)集樣本在支 持函數(shù)中的權(quán)重系數(shù)的評估過程并行化處理,以達(dá)到時間效率的顯著提升;并提升支持向 量聚類的方法在大規(guī)模、高維度數(shù)據(jù)分析方面的性能。該方法能夠有效提高支持向量聚類 的效率。
【專利附圖】
【附圖說明】
[0050] 為了更清楚的說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有 技術(shù)描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā) 明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根 據(jù)這些附圖獲得其他的附圖。
[0051] 圖1為本發(fā)明實(shí)施例提供的分布式支持向量聚類方法的流程圖;
[0052] 圖2為本發(fā)明實(shí)施例提供的計算樣本權(quán)重系數(shù)的方法的流程圖;
[0053] 圖3為本發(fā)明實(shí)施例提供的支持向量聚類的系統(tǒng)的結(jié)構(gòu)框圖;
[0054] 圖4為本發(fā)明實(shí)施例提供的計算模塊的結(jié)構(gòu)框圖;
[0055] 圖5為本發(fā)明實(shí)施例提供的另一支持向量聚類的系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0056] 本發(fā)明的目的是提供一種分布式支持向量聚類的方法,該方法能夠有效的提高支 持向量聚類方法的存儲效率以及時間效率,本發(fā)明的另一目的是提供一種支持向量聚類的 系統(tǒng)。
[0057] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0058] 本發(fā)明將支持向量聚類中存儲空間消耗巨大、計算復(fù)雜度較高且耗時的對偶問題 模型,從經(jīng)典的非線性問題模型轉(zhuǎn)換為線性的支持向量機(jī)模型,結(jié)合最新的對偶坐標(biāo)下降 法原理,將原本需要一次性構(gòu)造完整的核函數(shù)矩陣或分塊順序處理的對偶問題求解過程做 并行化處理,形成可直接完成超大規(guī)模、高維數(shù)據(jù)分析以提取支持函數(shù)的、簡潔的、快速的 分布式處理形式。具體過程可參見圖1。
[0059] 請參考圖1,圖1為本發(fā)明實(shí)施例提供的支持向量聚類的方法的流程圖;該方法可 以包括:
[0060] 步驟SlOO、對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理,并對全局參數(shù)及任務(wù)進(jìn) 行初始化;
[0061] 其中,該過程可以包括:預(yù)處理階段,通過對噪聲或非重要數(shù)據(jù)過濾、規(guī)范化處理 等;來達(dá)到提商處理效率。
[0062] 全局參數(shù)及任務(wù)初始化階段,通過對支持向量聚類過程中所需的樣本數(shù)、計算節(jié) 點(diǎn)數(shù)、分配數(shù)量向量、核函數(shù)及懲罰因子等進(jìn)行全局初始化設(shè)置;方便后續(xù)計算過程的使 用。將可能會消耗時間的過程都盡可能的進(jìn)行處理。
[0063] 其中,對輸入的數(shù)據(jù)集中每個樣本視為行、每個屬性視為列,進(jìn)行基本的規(guī)范化處 理,以使數(shù)據(jù)取值范圍位于任務(wù)期望范圍內(nèi)。
[0064] 其中,在進(jìn)行規(guī)范化處理時,通常將數(shù)據(jù)集中每個樣本視為行、每個屬性視為列, 然后按照橫向(行)或縱向(列)進(jìn)行規(guī)范化處理。處理后的數(shù)據(jù)取值范圍應(yīng)視具體任務(wù) 而定,通常建議為[-1,1]或[0, 1]之間;如果原值域范圍較大,且取值分布較為均勻,則應(yīng) 考慮聚類算法對精度的要求,適當(dāng)擴(kuò)大規(guī)范后的值域范圍。
[0065] 其中,全局參數(shù)可以包括:預(yù)定數(shù)據(jù)集樣本數(shù)L ;分布式計算框架下的計算節(jié)點(diǎn)數(shù) N,其中N彡1 ;分配數(shù)量向量\ = [L1,...,Ln],其中LiQ e [1,N])為需要第i個計算節(jié) 點(diǎn)完成的計算任務(wù)數(shù),即需要計算的權(quán)重系數(shù)個數(shù);核函數(shù)寬度q和懲罰因子C ;其中,對于 核函數(shù)寬度q和懲罰因子C。該兩個參數(shù)為經(jīng)典支持向量聚類模型中所需的參數(shù),在用支持 向量樣本來描述簇輪廓時,前者將決定輪廓的平滑程度,后者將決定輪廓的收縮與擴(kuò)張。 [0066] 其中,濾除數(shù)據(jù)中存在噪聲或非重要的數(shù)據(jù),以便保留下來的數(shù)據(jù)具有相對清晰 的簇輪廓,并使參數(shù)初始化工作變得更加容易。但是,如果待分析的數(shù)據(jù)維度較高,則通常 存在濾除效果不明顯,此時建議調(diào)整懲罰因子C來解決或者為預(yù)處理增加必要的降維映射 操作,如主成分提取等。此外,本發(fā)明并不對噪聲數(shù)據(jù)或非重要數(shù)據(jù)進(jìn)行明確界定,它們與 具體的應(yīng)用和數(shù)據(jù)的分布有關(guān),通常是那些位于清晰簇輪廓之外的部分稀疏且與多個簇沒 有明確隸屬關(guān)系的數(shù)據(jù)樣本。
[0067] 步驟SllO、向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果;
[0068] 其中,分發(fā)數(shù)據(jù)或特定計算結(jié)果階段,通過向計算節(jié)點(diǎn)分發(fā)數(shù)據(jù)集或特定中間結(jié) 果,并按照數(shù)據(jù)配比通知每個計算節(jié)點(diǎn)待分析的預(yù)定數(shù)據(jù)集中樣本數(shù)量;即使得每個計算 節(jié)點(diǎn)有預(yù)定個數(shù)個樣本需要進(jìn)行處理。
[0069] 其中,這些計算節(jié)點(diǎn)可以位于一個處理器內(nèi),也可以位于多個處理器中。例如處理 器可以為計算機(jī)中。
[0070] 其中,如果計算節(jié)點(diǎn)收到的是預(yù)定數(shù)據(jù)集,則根據(jù)任務(wù)指示自行計算所需中間結(jié) 果并存儲為本地常量,收到的是特定計算結(jié)果只需存儲該中間結(jié)果以后續(xù)計算之用。
[0071] 步驟S120、當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集,則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量,并 按照預(yù)定公式進(jìn)行迭代運(yùn)算,計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值;
[0072] 其中,當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集,則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量可以有 兩種形式,當(dāng)所述預(yù)定數(shù)據(jù)集為整個數(shù)據(jù)集時,將上述設(shè)置的全局參數(shù)、任務(wù)等分發(fā)給所 有的計算節(jié)點(diǎn),在要求計算節(jié)點(diǎn)根據(jù)所接收到的數(shù)據(jù)、參數(shù)及任務(wù)分配信息,并結(jié)合自身 的節(jié)點(diǎn)編號在本地完成初始化L個樣本的權(quán)重系數(shù)a :,...,,然后計算特定值序列 ...,di,并按照分配數(shù)量向量'的要求將特定值序列分組分發(fā)給每個計算節(jié)點(diǎn),即第 i個節(jié)點(diǎn)將得到腳標(biāo)范圍從E= L + 1.到IX11L + U的子序列值。這里,特定值序列 (?,…s 的計算公式為 G,廠二 2 "r/((>cr, x"),其中 K (xv,xu) = exp (_q I I Xv-Xu I 12)。 得到并存儲么.....G/.,;然后將計算節(jié)點(diǎn)為待分析樣本子集初始化權(quán)重系數(shù),且復(fù)制一份 作為本地常量存儲,然后設(shè)置當(dāng)前任務(wù)編號。
[0073] 當(dāng)所述預(yù)定數(shù)據(jù)集不為整個數(shù)據(jù)集時,初始化L個樣本的權(quán)重系數(shù)Ci1, ...,c^, 然后計算特定值序列,并按照分配數(shù)量向量 '的要求將特定值序列分組分發(fā)給 每個計算節(jié)點(diǎn),即第i個節(jié)點(diǎn)將得到腳標(biāo)范圍從CI11 " T I到" +心的子序列值。 這里,特定值序列(J1,..., ^的計算公式為氣=2[^*=1 CitlIf (XwsXlj),其中K(XV, Xu)= exp (_q I I Xv-Xu I 12),第i個計算節(jié)點(diǎn)根據(jù)自身任務(wù)數(shù)的要求為待分析的L個樣本的權(quán)重系 數(shù)a i,...,且可以復(fù)制一份作為本地常量存儲,最后可以設(shè)置當(dāng)前任務(wù)編號。
[0074] 其中,按照預(yù)定公式進(jìn)行迭代運(yùn)算這里可能會進(jìn)行多輪迭代,計算出所述預(yù)定數(shù) 據(jù)集中每個樣本的權(quán)重系數(shù)值。
[0075] 步驟S130、找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量,并將所述 支持向量進(jìn)行編號;
[0076] 其中,所述預(yù)定極小值應(yīng)根據(jù)計算機(jī)的精度或具體應(yīng)用需要合理選擇一個大于0 的極小值作為替代。例如可以根據(jù)實(shí)際情況將數(shù)值〇替換為一個大于〇的極小值G,也可 使用與整個數(shù)據(jù)規(guī)模L成反比關(guān)系的一個較小值I來替換,例如取C =MTfc1I
[0077] 步驟S140、利用所述支持向量以及各支持向量的權(quán)重系數(shù),構(gòu)建支持函數(shù),進(jìn)行簇 劃分,得到所述支持向量的簇標(biāo)號,并標(biāo)定非支持向量的簇標(biāo)號,作為整個數(shù)據(jù)集的聚類分 析的結(jié)果。
[0078] 其中,1)支持函數(shù)的構(gòu)造可以利用Ns個支持向量樣本和對應(yīng)的權(quán)重系數(shù),構(gòu)造支 持函數(shù)并計算得到最小包含球的半徑,公式如下:
【權(quán)利要求】
1. 一種分布式支持向量聚類的方法,其特征在于,包括: 對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理,并對全局參數(shù)及任務(wù)進(jìn)行初始化; 向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果; 當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集,則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量,并按照預(yù)定公式 進(jìn)行迭代運(yùn)算,計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值; 找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量,并將所述支持向量進(jìn)行編 號; 利用所述支持向量以及各支持向量的權(quán)重系數(shù),構(gòu)建支持函數(shù),進(jìn)行簇劃分,得到所述 支持向量的簇標(biāo)號,并標(biāo)定非支持向量的簇標(biāo)號,作為整個數(shù)據(jù)集的聚類分析的結(jié)果。
2. 如權(quán)利要求1所述的分布式支持向量聚類的方法,其特征在于,所述對輸入的數(shù)據(jù) 集按照預(yù)定處理規(guī)則進(jìn)行處理,并對全局參數(shù)及任務(wù)進(jìn)行初始化包括: 對輸入的數(shù)據(jù)集進(jìn)行噪聲和/或非重要數(shù)據(jù)過濾; 對處理后的所述數(shù)據(jù)集中每個樣本進(jìn)行規(guī)范化處理,形成預(yù)定數(shù)據(jù)集; 規(guī)定計算節(jié)點(diǎn)個數(shù),并對全局參數(shù)及任務(wù)進(jìn)行初始化。
3. 如權(quán)利要求1所述的分布式支持向量聚類的方法,其特征在于,所述初始化所述預(yù) 定數(shù)據(jù)集的權(quán)重向量包括: 設(shè)置當(dāng)前任務(wù)編號,并初始化預(yù)定數(shù)據(jù)中每個樣本的權(quán)重系數(shù),根據(jù)特定值序列計算 公式計算每個樣本相對應(yīng)的特定值。
4. 如權(quán)利要求1所述的分布式支持向量聚類的方法,其特征在于,所述按照預(yù)定公式 進(jìn)行迭代運(yùn)算,計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值包括: 根據(jù)任務(wù)編號確定樣本任務(wù),利用臨時值計算公式,計算所述樣本任務(wù)相對應(yīng)的樣本 的臨時值; 根據(jù)所述樣本的權(quán)重系數(shù)值所對應(yīng)的范圍,利用參照值計算公式計算該樣本的參照 值; 判斷所述參照值的絕對值是否等于預(yù)定極小值,當(dāng)?shù)扔陬A(yù)定極小值時,該樣本任務(wù)計 算完成,增加任務(wù)編號,進(jìn)行下一個樣本任務(wù); 當(dāng)不等于預(yù)定極小值時,根據(jù)樣本權(quán)重更新公式更新該樣本的權(quán)重系數(shù)值,根據(jù)任務(wù) 編號進(jìn)行樣本任務(wù)的計算。
5. 如權(quán)利要求1所述的分布式支持向量聚類的方法,其特征在于,所述利用所述支持 向量以及各支持向量的權(quán)重系數(shù)之前還包括: 對所述支持向量根據(jù)過濾條件進(jìn)行過濾,其中,過濾條件包括: 濾除所述支持向量中權(quán)重系數(shù)大于第一預(yù)定值和小于第二預(yù)定值的支持向量; 對過濾后的支持向量的權(quán)重系數(shù)進(jìn)行規(guī)范化操作。
6. 如權(quán)利要求1所述的分布式支持向量聚類的方法,其特征在于,所述標(biāo)定非支持向 量的簇標(biāo)號包括: 將非支持向量樣本的各個樣本標(biāo)定為距離各樣本距離數(shù)值最小的支持向量對應(yīng)的簇 標(biāo)號。
7. -種分布式支持向量聚類的系統(tǒng),其特征在于,包括: 準(zhǔn)備模塊,用于對輸入的數(shù)據(jù)集按照預(yù)定處理規(guī)則進(jìn)行處理,并對全局參數(shù)及任務(wù)進(jìn) 行初始化; 分配模塊,用于向各個計算節(jié)點(diǎn)分發(fā)預(yù)定數(shù)據(jù)集或特定計算結(jié)果; 計算模塊,用于當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集,則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量,并 按照預(yù)定公式進(jìn)行迭代運(yùn)算,計算出所述預(yù)定數(shù)據(jù)集中每個樣本的權(quán)重系數(shù)值; 查找模塊,用于找到所述權(quán)重系數(shù)值大于預(yù)定極小值的樣本作為支持向量,并將所述 支持向量進(jìn)行編號; 確定模塊,用于利用所述支持向量以及各支持向量的權(quán)重系數(shù),構(gòu)建支持函數(shù),進(jìn)行簇 劃分,得到所述支持向量的簇標(biāo)號,并標(biāo)定非支持向量的簇標(biāo)號,作為整個數(shù)據(jù)集的聚類分 析的結(jié)果。
8. 如權(quán)利要求7所述的分布式支持向量聚類的系統(tǒng),其特征在于,所述計算模塊包括: 設(shè)置單元,用于當(dāng)計算節(jié)點(diǎn)分到預(yù)定數(shù)據(jù)集,則初始化所述預(yù)定數(shù)據(jù)集的權(quán)重向量; 第一計算單元,用于根據(jù)特定值序列計算公式計算每個樣本相對應(yīng)的特定值; 第二計算單元,用于利用臨時值計算公式,計算所述樣本任務(wù)相對應(yīng)的樣本的臨時 值; 第三計算單元,用于根據(jù)所述樣本的權(quán)重系數(shù)值所對應(yīng)的范圍,利用參照值計算公式 計算該樣本的參照值; 判斷單元,用于判斷所述參照值的絕對值是否等于預(yù)定極小值; 處理單元,用于當(dāng)?shù)扔陬A(yù)定極小值時,該樣本任務(wù)計算完成,增加任務(wù)編號,進(jìn)行下一 個樣本任務(wù);當(dāng)不等于預(yù)定極小值時,根據(jù)樣本權(quán)重更新公式更新該樣本的權(quán)重系數(shù)值,根 據(jù)任務(wù)編號進(jìn)行樣本任務(wù)的計算。
9. 如權(quán)利要求7所述的分布式支持向量聚類的系統(tǒng),其特征在于,還包括: 過濾模塊,用于對所述支持向量根據(jù)過濾條件進(jìn)行過濾。
10. 如權(quán)利要求7所述的分布式支持向量聚類的系統(tǒng),其特征在于,所述確定模塊包 括: 第一確定單元,用于利用所述支持向量以及各支持向量的權(quán)重系數(shù),構(gòu)建支持函數(shù),進(jìn) 行簇劃分,得到所述支持向量的簇標(biāo)號; 第二確定單元,用于將非支持向量樣本的各個樣本標(biāo)定為距離各樣本距離數(shù)值最小的 支持向量對應(yīng)的簇標(biāo)號,作為整個數(shù)據(jù)集的支持向量聚類的結(jié)果。
【文檔編號】G06F17/30GK104408206SQ201410815788
【公開日】2015年3月11日 申請日期:2014年12月23日 優(yōu)先權(quán)日:2014年12月23日
【發(fā)明者】平源, 李慧娜, 張志立, 張永, 楊月華, 馬慧 申請人:許昌學(xué)院