業(yè)的輸出經(jīng)由Map作業(yè)生成鍵值對(duì),其中,鍵包 括標(biāo)識(shí)節(jié)點(diǎn)的字段,值包括標(biāo)識(shí)鄰居節(jié)點(diǎn)的字段,標(biāo)識(shí)該節(jié)點(diǎn)和鄰居節(jié)點(diǎn)之間鄰邊的邊長(zhǎng) 的字段,標(biāo)識(shí)該鄰居節(jié)點(diǎn)化0的字段,標(biāo)識(shí)該節(jié)點(diǎn)化〇的字段。
[0070] 對(duì)于步驟20中Re化ce作業(yè)的輸出經(jīng)由Map作業(yè)輸出當(dāng)前節(jié)點(diǎn)和經(jīng)連接得到的鄰 居節(jié)點(diǎn)的信息。一種優(yōu)化的示例輸出格式為:
[0071] 怔=<a,化0化)〉,V= <化〇 化),化0(a),b,len(a,b)〉]。
[0072] 步驟31中,作為選擇,鍵還可W包括標(biāo)識(shí)該鄰居節(jié)點(diǎn)化0的字段,優(yōu)化處在于將 化0(b)的信息也并入到Key部分,便于后續(xù)步驟34的排序。
[0073] 步驟32、對(duì)鍵值對(duì)按照鍵所包括的節(jié)點(diǎn)進(jìn)行分區(qū),鍵包括相同節(jié)點(diǎn)的鍵值對(duì)分配 至同一分區(qū)。具體方式可參見步驟22。
[0074] 步驟33、對(duì)于同一分區(qū)內(nèi)的鍵值對(duì)按照鍵所包括的節(jié)點(diǎn)進(jìn)行分組,鍵包括相同節(jié) 點(diǎn)的鍵值對(duì)分配至同一組。具體方式可參見步驟23。
[0075] 步驟34、對(duì)于屬于同一組的鍵值對(duì)按照鍵所包括的鄰居節(jié)點(diǎn)化0進(jìn)行排序。作為 可選的優(yōu)化措施,首先根據(jù)Key值的第一個(gè)字段區(qū)別出是否為同一個(gè)節(jié)點(diǎn)的Key值,若相同 貝1似第二個(gè)字段降序排序。該樣排序保證了在同一個(gè)Re化ce過程中,高化0值的鄰居節(jié)點(diǎn) 會(huì)被首先迭代訪問到。
[0076] 步驟35、經(jīng)由Re化ce作業(yè),對(duì)每個(gè)節(jié)點(diǎn),通過對(duì)屬于同一組的鍵值對(duì)的值的迭代 來遍歷節(jié)點(diǎn)化0、所有鄰居節(jié)點(diǎn)化0W及所有鄰邊信息,得出每個(gè)節(jié)點(diǎn)的離散度Delta,再結(jié) 合預(yù)定規(guī)則來進(jìn)行類標(biāo)識(shí)。
[0077] 經(jīng)過上述步驟,在每一次Re化ce過程中,都可W通過對(duì)Value值的迭代來遍歷某 個(gè)節(jié)點(diǎn)的自身及其所有鄰邊的信息。該時(shí)可W再選擇結(jié)合作為輸入?yún)?shù)的闊值R_T和闊值 D_T值,便生成進(jìn)行類標(biāo)識(shí)所需的信息。
[007引在此較佳實(shí)施例中,步驟30的Map過程是在原生的MapRe化ce方案上實(shí)現(xiàn),但實(shí) 際中可通過常見的數(shù)據(jù)庫(kù)技術(shù)而加速處理過程。例如,在步驟20中Re化ce作業(yè)輸出時(shí),將 各節(jié)點(diǎn)的化0值存在關(guān)系型數(shù)據(jù)庫(kù)或K-V數(shù)據(jù)庫(kù)中。從而在步驟30的Map時(shí),只需對(duì)鄰居 點(diǎn)的化0值進(jìn)行查詢即可,而不需要通過自定義InputFormat來處理;也就是說,不再需要 進(jìn)行笛卡爾操作,可在Map階段直接訪問數(shù)據(jù)來獲取鄰居節(jié)點(diǎn)的化o值便可。
[0079] 綜上所述,本發(fā)明借助流行的MapRe化ce分布式計(jì)算思想在集群上實(shí)現(xiàn)了基于本 地密度的聚類,弱化了處理時(shí)單機(jī)本身資源有限等所帶來的限制,能實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處 理,更快的完成聚類操作。
[0080] W上所述,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,可W根據(jù)本發(fā)明的技術(shù)方案和技術(shù) 構(gòu)思作出其他各種相應(yīng)的改變和變形,而所有該些改變和變形都應(yīng)屬于本發(fā)明后附的權(quán)利 要求的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種MapReduce平臺(tái)上基于本地密度的聚類方法,其特征在于,包括: 步驟10、對(duì)待聚類的數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)造以節(jié)點(diǎn)表征數(shù)據(jù)的連通圖,并以節(jié)點(diǎn)之間 的邊的長(zhǎng)度表征數(shù)據(jù)之間的相似度,節(jié)點(diǎn)之間的邊越短,節(jié)點(diǎn)所表征的數(shù)據(jù)之間相似度越 尚; 步驟20、以連通圖中的節(jié)點(diǎn)和邊的信息作為輸入數(shù)據(jù),通過Map作業(yè)生成包括節(jié)點(diǎn)以 及鄰邊信息的鍵值對(duì),通過Reduce作業(yè)生成包括節(jié)點(diǎn)、節(jié)點(diǎn)的本地密度Rho以及節(jié)點(diǎn)所有 鄰邊信息的輸出,Rho定義為連接本節(jié)點(diǎn)的長(zhǎng)度低于預(yù)定義值Dc的鄰邊的數(shù)目; 步驟30、對(duì)于步驟20中Reduce作業(yè)的輸出,通過Map作業(yè)生成包括節(jié)點(diǎn)、節(jié)點(diǎn)Rho、鄰 居節(jié)點(diǎn)Rho以及鄰邊信息的鍵值對(duì),對(duì)每個(gè)節(jié)點(diǎn),通過Reduce作業(yè)遍歷節(jié)點(diǎn)Rho、所有鄰居 節(jié)點(diǎn)Rho以及所有鄰邊信息,得出每個(gè)節(jié)點(diǎn)的離散度Delta,Delta定義為本節(jié)點(diǎn)所有連接 更高Rho值鄰居節(jié)點(diǎn)的鄰邊中最短邊的邊長(zhǎng),若不存在這樣的鄰居節(jié)點(diǎn),則取本節(jié)點(diǎn)最長(zhǎng) 鄰邊的邊長(zhǎng);再結(jié)合預(yù)定規(guī)則來進(jìn)行類標(biāo)識(shí)。2. 如權(quán)利要求1所述的MapReduce平臺(tái)上基于本地密度的聚類方法,其特征在于,所述 預(yù)定規(guī)則包括: 節(jié)點(diǎn)的Rho和DeIta分別高于作為輸入?yún)?shù)的閾值R_T和閾值D_T,則該節(jié)點(diǎn)為一個(gè)類 的中心,該節(jié)點(diǎn)的類標(biāo)識(shí)取其自身類標(biāo)識(shí);否則,節(jié)點(diǎn)的類標(biāo)識(shí)取距離其最近且Rho更高的 鄰居節(jié)點(diǎn)的類標(biāo)識(shí); 孤立節(jié)點(diǎn)的類標(biāo)識(shí)為自身類標(biāo)識(shí)。3. 如權(quán)利要求1所述的MapReduce平臺(tái)上基于本地密度的聚類方法,其特征在于,所述 預(yù)定規(guī)則包括: 預(yù)先劃分Rho值可能取值區(qū)間以及對(duì)應(yīng)的Delta值可能取值區(qū)間,如果節(jié)點(diǎn)的Rho值 屬于Rho值可能取值區(qū)間且節(jié)點(diǎn)的Delta值屬于對(duì)應(yīng)的Delta值可能取值區(qū)間,則該節(jié)點(diǎn) 為一個(gè)類的中心,該節(jié)點(diǎn)的類標(biāo)識(shí)取其自身類標(biāo)識(shí);否則,節(jié)點(diǎn)的類標(biāo)識(shí)取距離其最近且 Rho更高的鄰居節(jié)點(diǎn)的類標(biāo)識(shí); 孤立節(jié)點(diǎn)的類標(biāo)識(shí)為自身類標(biāo)識(shí)。4. 如權(quán)利要求1所述的MapReduce平臺(tái)上基于本地密度的聚類方法,其特征在于,步驟 20中Reduce作業(yè)的輸出存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)或鍵值數(shù)據(jù)庫(kù)中。5. 如權(quán)利要求1所述的MapReduce平臺(tái)上基于本地密度的聚類方法,其特征在于,步 驟30中的Map作業(yè)中,通過對(duì)步驟20中Reduce作業(yè)的輸出進(jìn)行笛卡爾積,實(shí)現(xiàn)對(duì)鄰居節(jié) 點(diǎn)Rho的遍歷。6. 如權(quán)利要求1所述的MapReduce平臺(tái)上基于本地密度的聚類方法,其特征在于,步驟 20包括: 步驟21、連通圖中的節(jié)點(diǎn)和邊的信息作為輸入數(shù)據(jù)經(jīng)由Map作業(yè)生成鍵值對(duì),其中,鍵 包括標(biāo)識(shí)節(jié)點(diǎn)的字段,值包括標(biāo)識(shí)鄰居節(jié)點(diǎn)的字段和標(biāo)識(shí)該節(jié)點(diǎn)和鄰居節(jié)點(diǎn)之間鄰邊的邊 長(zhǎng)的字段; 步驟22、對(duì)鍵值對(duì)按照鍵所包括的節(jié)點(diǎn)進(jìn)行分區(qū),鍵包括相同節(jié)點(diǎn)的鍵值對(duì)分配至同 一分區(qū); 步驟23、對(duì)于同一分區(qū)內(nèi)的鍵值對(duì)按照鍵所包括的節(jié)點(diǎn)進(jìn)行分組,鍵包括相同節(jié)點(diǎn)的 鍵值對(duì)分配至同一組; 步驟25、經(jīng)由Reduce作業(yè),通過對(duì)屬于同一組的鍵值對(duì)的值的迭代來遍歷同一節(jié)點(diǎn)的 所有的鄰邊,生成包括節(jié)點(diǎn)、節(jié)點(diǎn)的本地密度Rho以及節(jié)點(diǎn)所有鄰邊信息的輸出。7. 如權(quán)利要求6所述的MapReduce平臺(tái)上基于本地密度的聚類方法,其特征在于,步驟 20還包括: 步驟21中,鍵還包括標(biāo)識(shí)該節(jié)點(diǎn)和鄰居節(jié)點(diǎn)之間鄰邊的邊長(zhǎng)的字段; 步驟24、對(duì)于屬于同一組的鍵值對(duì)按照鍵所包括的鄰邊的邊長(zhǎng)進(jìn)行排序。8. 如權(quán)利要求6所述的MapReduce平臺(tái)上基于本地密度的聚類方法,其特征在于,步驟 25中Reduce作業(yè)的輸出為鍵值對(duì),其中,鍵包括標(biāo)識(shí)節(jié)點(diǎn)的字段,值包括標(biāo)識(shí)節(jié)點(diǎn)的字段、 標(biāo)識(shí)節(jié)點(diǎn)Rho的字段以及標(biāo)識(shí)節(jié)點(diǎn)所有鄰邊信息的字段。9. 如權(quán)利要求1所述的MapReduce平臺(tái)上基于本地密度的聚類方法,其特征在于,步驟 30包括: 步驟31、對(duì)于步驟20中Reduce作業(yè)的輸出經(jīng)由Map作業(yè)生成鍵值對(duì),其中,鍵包括標(biāo) 識(shí)節(jié)點(diǎn)的字段,值包括標(biāo)識(shí)鄰居節(jié)點(diǎn)的字段、標(biāo)識(shí)該節(jié)點(diǎn)和鄰居節(jié)點(diǎn)之間鄰邊的邊長(zhǎng)的字 段、標(biāo)識(shí)該鄰居節(jié)點(diǎn)Rho的字段和標(biāo)識(shí)該節(jié)點(diǎn)Rho的字段; 步驟32、對(duì)鍵值對(duì)按照鍵所包括的節(jié)點(diǎn)進(jìn)行分區(qū),鍵包括相同節(jié)點(diǎn)的鍵值對(duì)分配至同 一分區(qū); 步驟33、對(duì)于同一分區(qū)內(nèi)的鍵值對(duì)按照鍵所包括的節(jié)點(diǎn)進(jìn)行分組,鍵包括相同節(jié)點(diǎn)的 鍵值對(duì)分配至同一組; 步驟35、經(jīng)由Reduce作業(yè),對(duì)每個(gè)節(jié)點(diǎn),通過對(duì)屬于同一組的鍵值對(duì)的值的迭代來遍 歷節(jié)點(diǎn)Rho、所有鄰居節(jié)點(diǎn)Rho以及所有鄰邊信息,得出每個(gè)節(jié)點(diǎn)的離散度Delta,再結(jié)合預(yù) 定規(guī)則來進(jìn)行類標(biāo)識(shí)。10. 如權(quán)利要求9所述的MapReduce平臺(tái)上基于本地密度的聚類方法,其特征在于,步 驟30還包括: 步驟31中,鍵還包括標(biāo)識(shí)該鄰居節(jié)點(diǎn)Rho的字段; 步驟34、對(duì)于屬于同一組的鍵值對(duì)按照鍵所包括的鄰居節(jié)點(diǎn)Rho進(jìn)行排序。
【專利摘要】本發(fā)明涉及一種MapReduce平臺(tái)上基于本地密度的聚類方法。該方法包括:步驟10、對(duì)待聚類的數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)造以節(jié)點(diǎn)表征數(shù)據(jù)的連通圖;步驟20、以連通圖中的節(jié)點(diǎn)和邊的信息作為輸入數(shù)據(jù),通過MapReduce作業(yè)得出節(jié)點(diǎn)的本地密度Rho;步驟30、通過MapReduce作業(yè)得出每個(gè)節(jié)點(diǎn)的離散度Delta,再結(jié)合預(yù)定規(guī)則來進(jìn)行類標(biāo)識(shí)。本發(fā)明借助流行的MapReduce分布式計(jì)算思想在集群上實(shí)現(xiàn)了基于本地密度的聚類,弱化了處理時(shí)單機(jī)本身資源有限等所帶來的限制,能實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理,更快的完成聚類操作。
【IPC分類】G06F17/30
【公開號(hào)】CN104978382
【申請(qǐng)?zhí)枴緾N201410855502
【發(fā)明人】蔡立宇, 賈西貝
【申請(qǐng)人】深圳市華傲數(shù)據(jù)技術(shù)有限公司
【公開日】2015年10月14日
【申請(qǐng)日】2014年12月31日