国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      分布式計(jì)算系統(tǒng)的中間文件處理裝置及方法

      文檔序號:6600719閱讀:172來源:國知局
      專利名稱:分布式計(jì)算系統(tǒng)的中間文件處理裝置及方法
      分布式計(jì)算系統(tǒng)的中間文件處理裝置及方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及分布式計(jì)算技術(shù)領(lǐng)域,尤其涉及一種分布式計(jì)算系統(tǒng)的中間文件處理裝置及方法。
      背景技術(shù)
      分布式計(jì)算系統(tǒng)(Map-Reduce)處理大數(shù)據(jù)量的時(shí)候,將龐大的數(shù)據(jù)切片分而治之,并行計(jì)算每片數(shù)據(jù)后進(jìn)行結(jié)果匯總。傳統(tǒng)的分布式計(jì)算系統(tǒng)包括Master單元、若干Map 單元和若干Reduce單元。其中,Master單元是分布式計(jì)算系統(tǒng)的主要控制程序,負(fù)責(zé)Map 單元和Reduce單元的任務(wù)調(diào)度,控制它們的運(yùn)行以及監(jiān)控它們的運(yùn)行狀態(tài);Map單元是處理一部分?jǐn)?shù)據(jù)的單元,全部的數(shù)據(jù)由多個(gè)Map來處理,每個(gè)Map都會產(chǎn)生臨時(shí)的中間結(jié)果 (即中間文件);Reduce單元負(fù)責(zé)將所有Map單元處理后的中間結(jié)果進(jìn)行合并,得到最終結(jié)^ ο通常,將Map-Reduce系統(tǒng)中的各計(jì)算單元(若干Map單元以及若干Reduce單元) 部署到某些計(jì)算機(jī)器中,由于計(jì)算機(jī)器自身本地磁盤存儲空間有限,且中間計(jì)算文件很大, 超過計(jì)算機(jī)器本地磁盤空間大小,如本地磁盤只有500M剩余空間,而計(jì)算得到的中間數(shù)據(jù)文件卻有100G甚至更大,因此需要將這海量的中間數(shù)據(jù)文件正確保存并傳輸?shù)絉educe單元進(jìn)行進(jìn)一步的計(jì)算。傳統(tǒng)的方式是將運(yùn)行Map單元的計(jì)算機(jī)器要處理的大文件切分,切分成多個(gè)小文件,使產(chǎn)生的中間文件本地磁盤能放的下,這樣需要的Map單元個(gè)數(shù)就多了。然而由于服務(wù)器成本很高,通常我們的硬件資源都是有限的,當(dāng)機(jī)器數(shù)量固定的時(shí)候,由于大文件已被分成多個(gè)小文件,每個(gè)Map處理需要運(yùn)行的文件個(gè)數(shù)會增多。且對于每個(gè)Map單元來說,其處理過程是串行的,即必須完成當(dāng)前文件的處理后才能啟動下一個(gè)文件的處理,而由于受本地磁盤空間的限制,整個(gè)Map-Reduce任務(wù)則需要很長一段時(shí)間的處理過程才能得到最終的結(jié)果,因此,傳統(tǒng)的這種處理方式運(yùn)行效率不高。并且,這種方式開發(fā)人員需要考慮文件的切分等,而在不知道磁盤的空間使用情況下很難實(shí)現(xiàn)對文件按照合適大小進(jìn)行切分,因此不夠靈活;而要處理大文件時(shí),需要大量的Map單元,需要的硬件資源比較多,成本高,實(shí)現(xiàn)的復(fù)雜度和難度都較高。

      發(fā)明內(nèi)容基于此,有必要提供一種能提高運(yùn)行效率的分布式計(jì)算系統(tǒng)的中間文件處理裝置。一種分布式計(jì)算系統(tǒng)的中間文件處理裝置,所述裝置基于Map-Reduce框架,包括 Map單元和Reduce單元,所述Map單元包括中間文件生成模塊,用于在處理Map任務(wù)后按照預(yù)設(shè)文件大小生成多個(gè)中間文件;傳輸模塊,按照多個(gè)中間文件的生成順序依次將所述中間文件傳輸至Reduce單元;所述Reduce單元包括接收所述中間文件的通信模塊,以及對所述中間文件進(jìn)行計(jì)算、輸出最終結(jié)果的計(jì)算模塊。
      4
      所述Map單元還可包括描述文件生成模塊,生成記錄所述中間文件的信息的Map 描述文件,所述中間文件的信息包括文件長度、文件名稱和文件哈希值;所述Reduce單元讀取所述中間文件后,獲取所述中間文件的信息,將所述中間文件的信息存入Reduce描述文件中。該Map單元還可包括:Map檢測模塊,根據(jù)所述Map描述文件檢測生成的中間文件個(gè)數(shù)是否超過第一閾值;Map控制模塊,當(dāng)所述Map檢測模塊檢測到生成的中間文件個(gè)數(shù)超過第一閾值時(shí),控制暫停中間文件的生成。而Map控制模塊還可用于當(dāng)Map單元傳輸完一個(gè)中間文件后,則刪除該傳輸完的中間文件。其中,所述Reduce單元還可包括=Reduce檢測模塊,用于根據(jù)所述Reduce描述文件判斷Reduce單元臨時(shí)保存的中間文件個(gè)數(shù)是否超過第二閾值;Reduce控制模塊,當(dāng)所述 Reduce檢測模塊檢測到臨時(shí)保存的中間文件個(gè)數(shù)超過第二閾值時(shí),通知所述Map單元暫停中間文件的傳輸,當(dāng)檢測到臨時(shí)保存的中間文件個(gè)數(shù)未超過第二閾值時(shí),通知所述Map單元繼續(xù)傳輸中間文件。其中,所述Reduce控制模塊還可用于當(dāng)所述計(jì)算模塊計(jì)算完畢后刪除Reduce單元臨時(shí)保存的中間文件。此外,還有必要提供一種能提高運(yùn)行效率的分布式計(jì)算系統(tǒng)的中間文件處理方法。一種分布式計(jì)算系統(tǒng)的中間文件處理方法,所述方法基于Map-Reduce框架,包括以下步驟處理Map任務(wù),按照預(yù)設(shè)文件大小生成多個(gè)中間文件;按照多個(gè)中間文件的生成順序依次將中間文件傳輸至Reduce單元;所述Reduce單元接收中間文件,對中間文件進(jìn)行計(jì)算,輸出最終結(jié)果。所述生成多個(gè)中間文件的步驟還可包括通過Map描述文件記錄所述中間文件的信息,包括文件長度、文件名稱和文件哈希值;所述Reduce單元接收中間文件的步驟還包括獲取中間文件的信息并存入Reduce描述文件中。該方法還可包括根據(jù)Map描述文件檢測生成的中間文件個(gè)數(shù)是否超過第一閾值,若是,則控制暫停中間文件的生成。其中,按照多個(gè)中間文件的生成順序?qū)⒅虚g文件傳輸至Reduce單元的步驟還可包括當(dāng)向Reduce單元傳輸完一個(gè)中間文件時(shí),則刪除所述傳輸完的中間文件。該方法還可包括根據(jù)所述Reduce描述文件判斷Reduce單元臨時(shí)保存的中間文件個(gè)數(shù)是否超過第二閾值,若是,則暫停中間文件的傳輸,否則,繼續(xù)傳輸中間文件。而對中間文件進(jìn)行計(jì)算的步驟還可包括當(dāng)中間文件的計(jì)算完畢后刪除Reduce 單元臨時(shí)保存的所述中間文件。上述分布式計(jì)算系統(tǒng)的中間文件處理裝置和方法,通過在處理Map任務(wù)后按照預(yù)設(shè)文件大小生成多個(gè)中間文件,并按照這些中間文件的生成順序依次將其傳輸?shù)絉educe 單元,即Map單元有中間文件生成則傳輸給Reduce單元,這樣能夠提高分布式計(jì)算系統(tǒng)的運(yùn)行效率。另外,通過設(shè)置中間文件的大小和傳輸?shù)闹虚g文件的個(gè)數(shù)閾值,能夠控制傳輸?shù)闹虚g文件的數(shù)量,當(dāng)這些中間文件數(shù)目達(dá)到一定上限時(shí),可控制暫停數(shù)據(jù)傳輸,避免了過多的數(shù)據(jù)傳輸導(dǎo)致?lián)砣?。對于分布式?jì)算系統(tǒng)中解決中間超大數(shù)據(jù)文件時(shí),不需要增加過多的Map單元,從而節(jié)省了硬件資源,且實(shí)現(xiàn)的復(fù)雜度和難度都有所降低。

      圖1是一個(gè)實(shí)施例中分布式計(jì)算系統(tǒng)的中間文件處理裝置的結(jié)構(gòu)示意圖;圖2是一個(gè)實(shí)施例中Map單元的結(jié)構(gòu)示意圖;圖3是另一個(gè)實(shí)施例中Map單元的結(jié)構(gòu)示意圖;圖4是一個(gè)實(shí)施例中Reduce單元的結(jié)構(gòu)示意圖;圖5是另一個(gè)實(shí)施例中Reduce單元的結(jié)構(gòu)示意圖;圖6是一個(gè)實(shí)施例中分布式計(jì)算系統(tǒng)的中間文件處理方法的流程圖。
      具體實(shí)施方式如圖1所示,一種分布式計(jì)算系統(tǒng)的中間文件處理裝置,包括多個(gè)Map單元10和多個(gè)Reduce單元20,其中各Map單元10處理Map任務(wù),通過Map函數(shù)接收輸入對(鍵/ 值),產(chǎn)生中間文件并傳遞給Reduce單元20,Reduce單元20通過Reduce函數(shù)接收一個(gè)中間鍵和相關(guān)的值,并合并這些值,得到最終計(jì)算結(jié)果。如圖2所示,在一個(gè)實(shí)施例中,Map單元10包括中間文件生成模塊101和傳輸模塊 102,其中中間文件生成模塊101用于在處理Map任務(wù)后按照預(yù)設(shè)文件大小生成多個(gè)中間文件。該預(yù)設(shè)文件大小可以根據(jù)本地磁盤的大小進(jìn)行設(shè)置,例如設(shè)置一個(gè)中間文件為100M。 傳輸模塊102用于按照多個(gè)中間文件的生成順序依次將其傳輸至Reduce單元20。在另一個(gè)實(shí)施例中,如圖3所示,Map單元10除了包括上述中間文件生成模塊101 和傳輸模塊102外,還包括描述文件生成模塊103、Map檢測模塊104和Map控制模塊105, 其中描述文件生成模塊103用于生成記錄中間文件的信息的Map描述文件。Map輸出中間文件時(shí),可檢測本地磁盤中是否有Map描述文件,若沒有,則生成該描述文件。該描述文件記錄了中間文件的信息,該中間文件的信息包括所生成的中間文件的文件長度、文件名稱和文件哈希值等信息。該實(shí)施例中,Map描述文件為intermediatejiead. dat,當(dāng)中間文件生成模塊101按照預(yù)設(shè)文件大小生成第一個(gè)中間文件(如intermediat^data-l. data)時(shí),則Map描述文件記錄該文件的長度、名稱以及文件數(shù)據(jù)的哈希值等信息。當(dāng)輸出的中間文件大于預(yù)設(shè)文件大小(如100M)時(shí),則后續(xù)數(shù)據(jù)繼續(xù)保存為新的中間文件,如 intermediate_data-2. data,并更新Map描述文件,后續(xù)輸出的中間文件按照該原理依此類推。生成一個(gè)中間文件,傳輸模塊102即刻將生成的該中間文件傳輸給Reduce單元20, 即先生成的中間文件先傳輸。Map檢測模塊104用于根據(jù)Map描述文件檢測生成的中間文件個(gè)數(shù)是否超過第一閾值(如2個(gè)),若超過,則表明Map單元10的運(yùn)行速度過快。Map控制模塊105在當(dāng)Map 檢測模塊104檢測到生成的中間文件個(gè)數(shù)超過第一閾值時(shí),則控制暫停Map單元10的計(jì)算,即控制暫停生成中間文件。在一個(gè)實(shí)施例中,Map控制模塊105還用于當(dāng)Map單元10傳輸完一個(gè)中間文件后,刪除該傳輸完的中間文件。在一個(gè)實(shí)施例中,如圖4所示,Reduce單元20包括通信模塊201和計(jì)算模塊202,
      6其中通信模塊201接收Map單元10傳遞來的中間文件;計(jì)算模塊202對中間文件進(jìn)行計(jì)算、輸出最終結(jié)果。該實(shí)施例中,Reduce單元20接收到中間文件,則讀取中間文件,獲取中間文件的信息,所獲取的中間文件的信息可以是中間文件的哈希值等,將獲取的中間文件信息(包括文件長度、文件名稱和文件哈希值等信息)存儲在Reduce描述文件中,同時(shí),Reduce單元20會臨時(shí)存儲進(jìn)行計(jì)算的中間文件,然后進(jìn)行Reduce單元20中的計(jì)算過程,計(jì)算完畢后,刪除臨時(shí)保存的中間文件以及在計(jì)算過程中產(chǎn)生的中間計(jì)算文件等,在 Reduce單元20等待下一個(gè)中間文件的時(shí)候讓Reduce單元20處于等待或暫停狀態(tài)。在另一個(gè)實(shí)施例中,如圖5所示,Reduce單元20除了包括上述通信模塊201、計(jì)算模塊202外,還包括Reduce檢測模塊203和Reduce控制模塊204。其中=Reduce檢測模塊 203根據(jù)Reduce描述文件判斷Reduce單元20臨時(shí)保存的中間文件個(gè)數(shù)是否超過第二閾值 (如2個(gè)),若超過,則表明Map單元10傳輸過多。Reduce控制模塊204用于當(dāng)檢測到保存的中間文件個(gè)數(shù)超過第二閾值時(shí),則通知Map單元10暫停中間文件的傳輸,直到Reduce單元20臨時(shí)存儲的中間文件小于第二閾值時(shí),才通知Map單元10繼續(xù)傳輸。Reduce控制模塊204還用于當(dāng)計(jì)算完畢后,刪除Reduce單元20臨時(shí)保存的中間文件。當(dāng)Map單元10生成的所有中間文件傳輸完畢后,可通知Reduce單元20數(shù)據(jù)傳輸完畢,并在Map描述文件中標(biāo)明中間文件傳輸完畢。如圖6所示,一種分布式計(jì)算系統(tǒng)的中間文件處理方法,包括以下步驟步驟S10,處理Map任務(wù),按照預(yù)設(shè)文件大小生成多個(gè)中間文件。在一個(gè)實(shí)施例中, 可根據(jù)本地磁盤大小設(shè)置中間文件的大小,例如設(shè)置每個(gè)中間文件的大小都為100M,所生成的中間文件通過Map描述文件記錄其信息,包括文件長度、文件名稱和哈希值等。該實(shí)施例中,可先檢測本地磁盤中是否有Map描述文件,若沒有,則生成用于記錄中間文件信息 (包括文件長度、文件名稱和文件哈希值等)的Map描述文件。當(dāng)輸出的中間文件大于預(yù)設(shè)文件大小(如100M)時(shí),生成第一個(gè)100M的中間文件后,后續(xù)數(shù)據(jù)保存為新的中間文件,依此類推。步驟S20,按照多個(gè)中間文件的生成順序依次將中間文件傳輸至Reduce單元。在一個(gè)實(shí)施例中,Map單元10生成一個(gè)中間文件,則即刻將生成的中間文件傳遞給Reduce單元20,即先生成的中間文件先傳輸。當(dāng)向Reduce單元20傳輸完一個(gè)中間文件時(shí),則刪除該傳輸完的中間文件,為本地磁盤節(jié)省空間。步驟S30,所述Reduce單元接收中間文件,對中間文件進(jìn)行計(jì)算,輸出最終結(jié)果。 在一個(gè)實(shí)施例中,Reduce單元20接收中間文件后,讀取中間文件,并計(jì)算中間文件的哈希值,將中間文件的哈希值等信息存儲在Reduce描述文件中,且中間文件會臨時(shí)存儲在 Reduce單元20中,在中間文件的計(jì)算過程完畢后,則刪除臨時(shí)保存的中間文件以及在計(jì)算過程中產(chǎn)生的中間計(jì)算文件等,在等待下一個(gè)中間文件的時(shí)候讓Reduce單元20處于等待或暫停狀態(tài)。在一個(gè)實(shí)施例中,該方法還包括根據(jù)Map描述文件檢測Map單元10生成的中間文件個(gè)數(shù)是否超過第一閾值的步驟。該實(shí)施例中,可事先設(shè)定第一閾值(如2個(gè)),當(dāng)中間文件個(gè)數(shù)超過該第一閾值時(shí),則表明Map單元10的運(yùn)行速度過快,此時(shí)需控制暫停中間文件的生成,待中間文件的個(gè)數(shù)不超過該第一閾值時(shí),繼續(xù)計(jì)算以生成中間文件。在另一個(gè)實(shí)施例中,該方法還包括根據(jù)Reduce描述文件判斷Reduce單元保存的中間文件個(gè)數(shù)是否超過第二閾值的步驟。該實(shí)施例中,可事先設(shè)定第二閾值(如2個(gè)),當(dāng) Reduce單元20臨時(shí)保存的中間文件超過該第二閾值時(shí),說表明Map單元10傳輸過多,此時(shí),需暫停中間文件的傳輸,直到Reduce單元20臨時(shí)保存的中間文件不超過該第二閾值時(shí),才繼續(xù)傳輸中間文件,為Reduce單元20的本地磁盤節(jié)省空間。應(yīng)當(dāng)說明的是,上述方法和系統(tǒng)還可與分布式存儲系統(tǒng)相結(jié)合,當(dāng)分布式計(jì)算系統(tǒng)中的Map單元10中間文件生成后,先上傳到分布式存儲系統(tǒng)中進(jìn)行存儲,Reduce單元20 再從分布式存儲系統(tǒng)中進(jìn)行下載。上述分布式計(jì)算系統(tǒng)的中間文件處理裝置和方法,通過在處理Map任務(wù)后按照預(yù)設(shè)文件大小生成多個(gè)中間文件,并按照這些中間文件的生成順序依次將其傳輸?shù)絉educe 單元20,即Map單元10有中間文件生成則傳輸給Reduce單元,這樣能夠提高分布式計(jì)算系統(tǒng)的運(yùn)行效率。另外,通過設(shè)置中間文件的大小和傳輸?shù)闹虚g文件的個(gè)數(shù)閾值,能夠控制傳輸?shù)闹虚g文件的數(shù)量,當(dāng)這些中間文件數(shù)目達(dá)到一定上限時(shí),可控制暫停數(shù)據(jù)傳輸,避免了過多的數(shù)據(jù)傳輸導(dǎo)致?lián)砣τ诜植际接?jì)算系統(tǒng)中解決中間超大數(shù)據(jù)文件時(shí),不需要增加過多的Map單元10,從而節(jié)省了硬件資源,且實(shí)現(xiàn)的復(fù)雜度和難度都有所降低。以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
      權(quán)利要求
      1.一種分布式計(jì)算系統(tǒng)的中間文件處理裝置,所述裝置基于Map-Reduce框架,包括 Map單元和Reduce單元,其特征在于,所述Map單元包括中間文件生成模塊,用于在處理 Map任務(wù)后按照預(yù)設(shè)文件大小生成多個(gè)中間文件;傳輸模塊,按照多個(gè)中間文件的生成順序依次將所述中間文件傳輸至Reduce單元;所述Reduce單元包括接收所述中間文件的通信模塊,以及對所述中間文件進(jìn)行計(jì)算、輸出最終結(jié)果的計(jì)算模塊。
      2.根據(jù)權(quán)利要求1所述的分布式計(jì)算系統(tǒng)的中間文件處理裝置,其特征在于,所述Map 單元還包括描述文件生成模塊,生成記錄所述中間文件的信息的Map描述文件,所述中間文件的信息包括文件長度、文件名稱和文件哈希值;所述Reduce單元讀取所述中間文件后,獲取所述中間文件的信息,將所述中間文件的信息存入Reduce描述文件中。
      3.根據(jù)權(quán)利要求2所述的分布式計(jì)算系統(tǒng)的中間文件處理裝置,其特征在于,所述Map 單元還包括Map檢測模塊,根據(jù)所述Map描述文件檢測生成的中間文件個(gè)數(shù)是否超過第一閾值;Map控制模塊,當(dāng)所述Map檢測模塊檢測到生成的中間文件個(gè)數(shù)超過第一閾值時(shí),控制暫停中間文件的生成。
      4.根據(jù)權(quán)利要求3所述的分布式計(jì)算系統(tǒng)的中間文件處理裝置,其特征在于,所述Map 控制模塊還用于當(dāng)Map單元傳輸完一個(gè)中間文件后,則刪除該傳輸完的中間文件。
      5.根據(jù)權(quán)利要求2所述的分布式計(jì)算系統(tǒng)的中間文件處理裝置,其特征在于,所述 Reduce單元還包括Reduce檢測模塊,用于根據(jù)所述Reduce描述文件判斷Reduce單元臨時(shí)保存的中間文件個(gè)數(shù)是否超過第二閾值;Reduce控制模塊,當(dāng)所述Reduce檢測模塊檢測到臨時(shí)保存的中間文件個(gè)數(shù)超過第二閾值時(shí),通知所述Map單元暫停中間文件的傳輸,當(dāng)檢測到臨時(shí)保存的中間文件個(gè)數(shù)未超過第二閾值時(shí),通知所述Map單元繼續(xù)傳輸中間文件。
      6.根據(jù)權(quán)利要求5所述的分布式計(jì)算系統(tǒng)的中間文件處理裝置,其特征在于,所述 Reduce控制模塊還用于當(dāng)所述計(jì)算模塊計(jì)算完畢后刪除Reduce單元臨時(shí)保存的中間文件。
      7.一種分布式計(jì)算系統(tǒng)的中間文件處理方法,所述方法基于Map-Reduce框架,包括以下步驟處理Map任務(wù),按照預(yù)設(shè)文件大小生成多個(gè)中間文件;按照多個(gè)中間文件的生成順序依次將中間文件傳輸至Reduce單元;所述Reduce單元接收中間文件,對中間文件進(jìn)行計(jì)算,輸出最終結(jié)果。
      8.根據(jù)權(quán)利要求7所述的分布式計(jì)算系統(tǒng)的中間文件處理方法,其特征在于,所述生成多個(gè)中間文件的步驟還包括通過Map描述文件記錄所述中間文件的信息,包括文件長度、文件名稱和文件哈希值;所述Reduce單元接收中間文件的步驟還包括獲取中間文件的信息并存入Reduce描述文件中。
      9.根據(jù)權(quán)利要求8所述的分布式計(jì)算系統(tǒng)的中間文件處理方法,其特征在于,所述方法還包括根據(jù)Map描述文件檢測生成的中間文件個(gè)數(shù)是否超過第一閾值,若是,則控制暫停中間文件的生成。
      10.根據(jù)權(quán)利要求7所述的分布式計(jì)算系統(tǒng)的中間文件處理方法,其特征在于,所述按照多個(gè)中間文件的生成順序?qū)⒅虚g文件傳輸至Reduce單元的步驟還包括當(dāng)向Reduce單元傳輸完一個(gè)中間文件時(shí),則刪除所述傳輸完的中間文件。
      11.根據(jù)權(quán)利要求8所述的分布式計(jì)算系統(tǒng)的中間文件處理方法,其特征在于,所述方法還包括根據(jù)所述Reduce描述文件判斷Reduce單元臨時(shí)保存的中間文件個(gè)數(shù)是否超過第二閾值,若是,則暫停中間文件的傳輸,否則,繼續(xù)傳輸中間文件。
      12.根據(jù)權(quán)利要求8所述的分布式計(jì)算系統(tǒng)的中間文件處理方法,其特征在于,所述對中間文件進(jìn)行計(jì)算的步驟還包括當(dāng)中間文件的計(jì)算完畢后刪除Reduce單元臨時(shí)保存的所述中間文件。
      全文摘要
      本發(fā)明提供了一種分布式計(jì)算系統(tǒng)的中間文件處理裝置及方法,所述裝置基于Map-Reduce框架,包括Map單元和Reduce單元,所述Map單元包括中間文件生成模塊,用于在處理Map任務(wù)后按照預(yù)設(shè)文件大小生成多個(gè)中間文件;傳輸模塊,按照多個(gè)中間文件的生成順序依次將所述中間文件傳輸至Reduce單元;所述Reduce單元包括接收所述中間文件的通信模塊,以及對所述中間文件進(jìn)行計(jì)算、輸出最終結(jié)果的計(jì)算模塊。采用本發(fā)明提供的裝置及方法,能提高分布式計(jì)算系統(tǒng)的運(yùn)行效率。
      文檔編號G06F17/30GK102214184SQ20101014604
      公開日2011年10月12日 申請日期2010年4月7日 優(yōu)先權(quán)日2010年4月7日
      發(fā)明者伍海君, 楊紹鵬, 歐貽葆, 王宇, 趙大勇, 闕太富 申請人:騰訊科技(深圳)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1