国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)方法及裝置的制造方法_5

      文檔序號:9452923閱讀:來源:國知局
      射聚合的分布式計(jì)算的實(shí)現(xiàn)方法,所述實(shí)現(xiàn)方法至少包括兩個映射計(jì)算 任務(wù);其特征在于,還包括至少一個連接計(jì)算任務(wù);所述連接計(jì)算任務(wù)包括如下步驟: 接收來自分布式計(jì)算作業(yè)的至少兩個映射計(jì)算任務(wù)的輸出數(shù)據(jù),作為連接計(jì)算任務(wù)的 輸入; 對所述接收的輸入數(shù)據(jù)執(zhí)行連接運(yùn)算; 將所述連接運(yùn)算的結(jié)果格式化為輸出文件格式輸出或存儲至分布式文件系統(tǒng)中。2. 根據(jù)權(quán)利要求1所述的基于映射聚合的分布式計(jì)算的實(shí)現(xiàn)方法,其特征在于,接收 來自分布式計(jì)算作業(yè)的至少兩個映射計(jì)算任務(wù)的輸出數(shù)據(jù)作為輸入具體包括: 接收來自不同分布式計(jì)算作業(yè)的至少兩個初始映射計(jì)算任務(wù)的輸出作為輸入。3.根據(jù)權(quán)利要求2所述的基于映射聚合的分布式計(jì)算的實(shí)現(xiàn)方法,其特征在于,所述 接收至少來自不同分布式計(jì)算作業(yè)的兩個初始映射計(jì)算任務(wù)的輸出數(shù)據(jù)作為輸入的步驟 中,每一映射計(jì)算任務(wù)包括如下步驟: 獲取根據(jù)分布式計(jì)算作業(yè)數(shù)據(jù)大小對該分布式計(jì)算作業(yè)進(jìn)行切分而形成的塊數(shù)據(jù),作 為映射計(jì)算任務(wù)的輸入; 按照配置的格式讀取并解析所述作為映射計(jì)算任務(wù)的輸入的塊數(shù)據(jù); 對所述塊數(shù)據(jù)執(zhí)行映射操作,形成相應(yīng)的中間鍵值對集合; 將生成的所述中間鍵值對集合按照設(shè)定的格式輸出,并將該輸出作為所述連接計(jì)算任 務(wù)的輸入。4.根據(jù)權(quán)利要求3所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)方法,其特征在于, 所述將生成的所述中間鍵值對集合按照設(shè)定的格式輸出包括: 將生成的所述中間鍵值對集合中的數(shù)據(jù)按照設(shè)定的計(jì)算規(guī)則均勻分配內(nèi)存不同區(qū)域 中暫存,每一區(qū)域成為一個桶; 對每一桶中的數(shù)據(jù)記錄按照選定的字段元素進(jìn)行排序; 其中,桶的數(shù)目與該分布式式計(jì)算的映射任務(wù)相應(yīng)的規(guī)約任務(wù)數(shù)目相一致。5.根據(jù)權(quán)利要求4所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)方法,其特征在于, 將生成的所述中間鍵值對集合中的數(shù)據(jù)按照設(shè)定的計(jì)算規(guī)則均勻分配到不同的桶中具體 包括: 將生成的所述中間鍵值對集合中的數(shù)據(jù)按照設(shè)定的hash計(jì)算規(guī)則均勻分配到不同區(qū) 域中暫存。6. 根據(jù)權(quán)利要求3所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)方法,其特征在于, 所述將生成的所述中間鍵值對集合按照設(shè)定的格式輸出包括: 將所述將生成的所述中間鍵值對集合中的數(shù)據(jù)按照設(shè)定的規(guī)則進(jìn)行分組; 將每一組數(shù)據(jù)分配到內(nèi)存中的不同區(qū)域中暫存,每一區(qū)域稱為一個桶; 對每一桶中的數(shù)據(jù)記錄按照選定的字段元素進(jìn)行排序; 其中,分組的數(shù)目和桶的數(shù)目均與該分布式式計(jì)算的映射任務(wù)相應(yīng)的規(guī)約任務(wù)數(shù)目相 一致。7.根據(jù)權(quán)利要求1所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)方法,其特征在于, 所述對所述接收的輸入數(shù)據(jù)執(zhí)行連接運(yùn)算包括: 對于接收的來自每一映射計(jì)算任務(wù)的輸出數(shù)據(jù),依據(jù)連接操作主鍵值并按照相同的規(guī) 則進(jìn)行排序; 對接收到的排序后的數(shù)據(jù)分別進(jìn)行分組; 選取來自于任一映射計(jì)算任務(wù)的任一分組數(shù)據(jù),該分組數(shù)據(jù)稱為第一分組數(shù)據(jù); 將所述第一分組數(shù)據(jù)分別與所述其它映射計(jì)算任務(wù)的分組數(shù)據(jù)按照所述的排序逐一 進(jìn)行如下判斷:判斷所述第一分組數(shù)據(jù)是否與該其它映射計(jì)算任務(wù)的分組數(shù)據(jù)滿足連接條 件; 若滿足,則對所述兩組數(shù)據(jù)執(zhí)行連接操作,并不再對該其它映射計(jì)算任務(wù)的剩余分組 進(jìn)行判斷; 將所述第一分組數(shù)據(jù)的所有分組分別與其它所有映射計(jì)算任務(wù)的分組數(shù)據(jù)進(jìn)行上述 判斷和連接操作,直至所有映射計(jì)算任務(wù)的所有分組數(shù)據(jù)均與相應(yīng)的分組數(shù)據(jù)執(zhí)行了所述 判斷及連接操作。8. 根據(jù)權(quán)利要求7所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)方法,其特征在于, 所述連接操作包括內(nèi)連接和外連接。9. 根據(jù)權(quán)利要求7所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)方法,其特征在于, 所述連接操作為內(nèi)連接, 所述對所述兩組數(shù)據(jù)執(zhí)行連接操作具體包括對所述兩組數(shù)據(jù)做笛卡爾積; 相應(yīng)的,在第一分組數(shù)據(jù)與該其它映射計(jì)算任務(wù)的分組數(shù)據(jù)滿足不滿足連接條件時, 舍棄該其它映射計(jì)算任務(wù)的該分組數(shù)據(jù)。10. 根據(jù)權(quán)利要求7所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)方法,其特征在于, 所述依據(jù)連接操作主鍵值并按照相同的規(guī)則進(jìn)行排序具體包括: 依據(jù)連接操作的主鍵值按照主鍵值由小到大或由大到小或主鍵值按照其他特定的順 序進(jìn)彳T排序。11. 根據(jù)權(quán)利要求1所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)方法,其特征在于, 還包括聚合計(jì)算任務(wù); 相應(yīng)的,所述將所述連接運(yùn)算的結(jié)果格式化為輸出文件格式輸出或存儲至分布式文件 系統(tǒng)中具體為將所述連接運(yùn)算的結(jié)果格式化為輸出文件格式輸出;且,將所述連接運(yùn)算的 結(jié)果格式化為輸出文件格式后的輸出結(jié)果作為所述聚合計(jì)算任務(wù)的輸入數(shù)據(jù)。12. -種基于映射聚合的分布式計(jì)算的實(shí)現(xiàn)裝置,所述實(shí)現(xiàn)裝置至少包括兩個用于實(shí) 現(xiàn)映射計(jì)算任務(wù)的映射計(jì)算單元;其特征在于,還包括至少一個用于實(shí)現(xiàn)連接計(jì)算任務(wù)的 連接運(yùn)算單元;所述連接運(yùn)算單元包括如下步驟: 輸入單元,用于接收來自分布式計(jì)算作業(yè)的至少兩個映射計(jì)算任務(wù)的輸出數(shù)據(jù),作為 連接計(jì)算任務(wù)的輸入; 連接運(yùn)算執(zhí)行單元,用于對所述接收的輸入數(shù)據(jù)執(zhí)行連接運(yùn)算; 輸出單元,用于將所述連接運(yùn)算的結(jié)果格式化為輸出文件格式輸出或存儲至分布式文 件系統(tǒng)中。13. 根據(jù)權(quán)利要求12所述的基于映射聚合的分布式計(jì)算的實(shí)現(xiàn)裝置,其特征在于,所 述輸入單元具體用于接收來不同自分布式計(jì)算作業(yè)的至少兩個初始映射計(jì)算任務(wù)的輸出 作為輸入。14. 根據(jù)權(quán)利要求13所述的基于映射聚合的分布式計(jì)算的實(shí)現(xiàn)裝置,其特征在于,所 述映射計(jì)算任務(wù)包括: 獲取單元,用于獲取根據(jù)分布式計(jì)算作業(yè)數(shù)據(jù)大小對該分布式計(jì)算作業(yè)進(jìn)行切分而形 成的塊數(shù)據(jù),作為映射計(jì)算任務(wù)的輸入; 映射計(jì)算輸入單元,按照配置的格式讀取并解析所述作為映射計(jì)算任務(wù)的輸入的塊數(shù) 據(jù); 映射計(jì)算執(zhí)行單元,用于對所述塊數(shù)據(jù)執(zhí)行映射操作,形成相應(yīng)的中間鍵值對集合; 映射計(jì)算輸出單元,用于將生成的所述中間鍵值對集合按照設(shè)定的格式輸出,并將該 輸出作為所述連接計(jì)算任務(wù)的輸入。15. 根據(jù)權(quán)利要求14所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)裝置,其特征在 于,所述映射計(jì)算輸出單元,包括: 混洗單元,用于將生成的所述中間鍵值對集合中的數(shù)據(jù)按照設(shè)定的計(jì)算規(guī)則均勻分配 內(nèi)存不同區(qū)域中暫存,每一區(qū)域成為一個桶; 桶內(nèi)排序單元,用于對每一桶中的數(shù)據(jù)記錄按照選定的字段元素進(jìn)行排序; 其中,桶的數(shù)目與該分布式式計(jì)算的映射任務(wù)相應(yīng)的規(guī)約任務(wù)數(shù)目相一致。16. 根據(jù)權(quán)利要求15所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)裝置,其特征在 于,所述混洗單元具體用于:將生成的所述中間鍵值對集合中的數(shù)據(jù)按照設(shè)定的hash計(jì)算 規(guī)則均勻分配到不同區(qū)域中暫存。17. 根據(jù)權(quán)利要求12所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)裝置,其特征在 于,所述連接運(yùn)算執(zhí)行單元包括: 排序單元,用于對于接收的來自每一映射計(jì)算任務(wù)的輸出數(shù)據(jù),依據(jù)連接操作主鍵值 并按照相同的規(guī)則進(jìn)行排序; 分組單元,用于對接收到的排序后的數(shù)據(jù)分別進(jìn)行分組; 連接判斷單元,用于選取來自于任一映射計(jì)算任務(wù)的任一分組數(shù)據(jù),該分組數(shù)據(jù)稱為 第一分組數(shù)據(jù);將所述第一分組數(shù)據(jù)分別與所述其它映射計(jì)算任務(wù)的分組數(shù)據(jù)按照所述的 排序逐一進(jìn)行如下判斷:判斷所述第一分組數(shù)據(jù)是否與該其它映射計(jì)算任務(wù)的分組數(shù)據(jù)滿 足連接條件;將所述第一分組數(shù)據(jù)的所有分組分別與其它所有映射計(jì)算任務(wù)的分組數(shù)據(jù)進(jìn) 行上述判斷; 執(zhí)行單元,用于在若滿足時對所述兩組數(shù)據(jù)執(zhí)行連接操作,并不再對該其它映射計(jì)算 任務(wù)的剩余分組進(jìn)行判斷。18. 根據(jù)權(quán)利要求17所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)裝置,其特征在 于,所述執(zhí)行單元具體用于在若滿足時對所述兩組數(shù)據(jù)做笛卡爾積。19. 根據(jù)權(quán)利要求17所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)裝置,其特征在 于,所述排序單元具體用于依據(jù)連接操作的主鍵值按照主鍵值由小到大或由大到小或主鍵 值按照其他特定的順序進(jìn)行排序。20. 根據(jù)權(quán)利要求12所述的基于映射聚合的分布式計(jì)算作業(yè)的實(shí)現(xiàn)裝置,其特征在 于,還包括用于實(shí)現(xiàn)聚合計(jì)算任務(wù)的聚合計(jì)算單元; 相應(yīng)的,所述輸出單元具體用于將所述連接運(yùn)算的結(jié)果格式化為輸出文件格式輸出; 且,將所述連接運(yùn)算的結(jié)果格式化為輸出文件格式后的輸出結(jié)果作為所述聚合計(jì)算單元的 輸入數(shù)據(jù)。
      【專利摘要】一種基于映射聚合的分布式計(jì)算的實(shí)現(xiàn)方法和裝置;所述實(shí)現(xiàn)方法至少包括兩個映射計(jì)算任務(wù);其中,還包括至少一個連接計(jì)算任務(wù);所述連接計(jì)算任務(wù)包括如下步驟:接收來自分布式計(jì)算作業(yè)的至少兩個映射計(jì)算任務(wù)的輸出數(shù)據(jù),作為連接計(jì)算任務(wù)的輸入;對所述接收的輸入數(shù)據(jù)執(zhí)行連接運(yùn)算;將所述連接運(yùn)算的結(jié)果格式化為輸出文件格式輸出或存儲至分布式文件系統(tǒng)中。本申請的方法使得在分布式計(jì)算平臺的關(guān)系運(yùn)算具有簡單、靈活的特點(diǎn)。
      【IPC分類】G06F9/46
      【公開號】CN105204920
      【申請?zhí)枴緾N201410272772
      【發(fā)明人】路璐, 梁迎輝, 徐常亮
      【申請人】阿里巴巴集團(tuán)控股有限公司
      【公開日】2015年12月30日
      【申請日】2014年6月18日
      當(dāng)前第5頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1