国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法與流程

      文檔序號(hào):11830406閱讀:350來源:國知局
      本發(fā)明涉及存儲(chǔ)方法
      技術(shù)領(lǐng)域
      ,特別涉及一種基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法。
      背景技術(shù)
      :Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡(jiǎn)稱HDFS。HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上。在Hadoop2.6.0版本中,Apache提出了將計(jì)算能力與不斷增長的存儲(chǔ)能力分離:擁有高密度低成本的存儲(chǔ)但是計(jì)算能力較低的節(jié)點(diǎn)將變得可用,可以在集群中做冷存儲(chǔ)。增加更多的節(jié)點(diǎn)作為冷存儲(chǔ)可以提高集群的存儲(chǔ)能力,這些節(jié)點(diǎn)跟集群的計(jì)算能力無關(guān)。HDFS對(duì)異構(gòu)存儲(chǔ)的支持主要有兩個(gè)關(guān)鍵因素:存儲(chǔ)類型和存儲(chǔ)策略。其將存儲(chǔ)器類型分為檔案存儲(chǔ)器(ARCHIEVE),磁盤(DISK),固態(tài)硬盤(SolidStateDrives,SSDs)以及虛擬內(nèi)存盤(RAM_DISK)四種。在HDFS的異構(gòu)存儲(chǔ)方案中,用戶可以通過調(diào)用存儲(chǔ)策略應(yīng)用程序接口(APIs)在文件生命期的任意時(shí)候制定數(shù)據(jù)所要駐留的存儲(chǔ)器類型。存儲(chǔ)策略的一個(gè)典型應(yīng)用是將經(jīng)常訪問的數(shù)據(jù)存放在固態(tài)硬盤存儲(chǔ)器(SolidStateDrives,SSDs)中,而將那些不常訪問的數(shù)據(jù)放在檔案存儲(chǔ)器(ARCHIEVE)中,這將通過縮小應(yīng)用延遲來優(yōu)化整體的磁盤訪問時(shí)間。HDFS針對(duì)異構(gòu)集群的存儲(chǔ)方案在對(duì)于將來要新部署的Hadoop集群是可行且有效的,但是現(xiàn)存的許多Hadoop集群中只存在磁盤和固態(tài)硬盤兩種存儲(chǔ)器,甚至有的集群只有磁盤一種存儲(chǔ)器,同時(shí)集群中各節(jié)點(diǎn)之間性能相差較大。所以HDFS的異構(gòu)存儲(chǔ)方案對(duì)此類集群的性能改善有限。如中國專利CN105138476A的發(fā)明專利,該發(fā)明提供一種基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)方法及系統(tǒng),然而,該發(fā)明只存在磁盤和固態(tài)硬盤兩種存儲(chǔ)器,甚至有的集群只有磁盤一種存儲(chǔ)器,同時(shí)集群中各節(jié)點(diǎn)之間性能相差較大的問題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的旨在至少解決所述技術(shù)缺陷之一。為此,本發(fā)明的目的在于提出一種具有同類存儲(chǔ)介質(zhì)節(jié)點(diǎn)間的性能差異的基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法。為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法,包括如下步驟:步驟S1,根據(jù)文件被訪問頻度、文件年齡、時(shí)間度,設(shè)定文件溫度等級(jí);步驟S2,根據(jù)文件被訪問次數(shù)和文件溫度等級(jí),制定存儲(chǔ)策略,建立文件溫度和存儲(chǔ)策略之間的直接映射;步驟S3,根據(jù)節(jié)點(diǎn)存儲(chǔ)器的類型和節(jié)點(diǎn)性能值,確定各種塊存儲(chǔ)策略;步驟S4,根據(jù)文件溫度等級(jí)和各種塊存儲(chǔ)策略之間的映射關(guān)系,將文件放置相應(yīng)的存儲(chǔ)器中。進(jìn)一步的,在步驟S1中,所述文件溫度等級(jí)包括:熱、溫、冷、冰凍。進(jìn)一步的,在步驟S1中,當(dāng)文件年齡為小于一周,最近一天訪問頻度大于30時(shí),則文件溫度等級(jí)為熱;當(dāng)文件年齡為大于一周且小于一月,最近一天訪問頻度大于15,最近一周訪問頻度大于30時(shí),則文件溫度等級(jí)為溫;當(dāng)文件年齡為大于一月且小于三月,最近一周訪問頻度等于0,最近一月訪問頻度大于0時(shí),則文件溫度等級(jí)為冷;當(dāng)文件年齡為大于三月且小于一年,最近一月訪問頻度等于0時(shí),則文件溫度等級(jí)為冰凍。進(jìn)一步的,在步驟S2中,文件溫度和存儲(chǔ)策略之間的直接映射為:當(dāng)文件溫度等級(jí)為熱時(shí),則塊存儲(chǔ)策略記為固態(tài)硬盤;當(dāng)文件溫度等級(jí)為溫時(shí),則塊存儲(chǔ)策略記為準(zhǔn)固態(tài)硬盤;當(dāng)文件溫度等級(jí)為冷時(shí),則塊存儲(chǔ)策略記為低性能磁盤;當(dāng)文件溫度等級(jí)為冰凍時(shí),則塊存儲(chǔ)策略記為準(zhǔn)檔案存儲(chǔ)器;當(dāng)文件溫度等級(jí)不在范圍內(nèi)時(shí),則塊存儲(chǔ)策略記為磁盤。進(jìn)一步的,在步驟S3中,節(jié)點(diǎn)性能值的計(jì)算步驟如下:首先,根據(jù)節(jié)點(diǎn)性能值、磁盤性能值、內(nèi)存性能值、CPU性能值的特點(diǎn),建立節(jié)點(diǎn)性能和磁盤的I/O性能、內(nèi)存性能和節(jié)點(diǎn)的CPU處理能力之間的線性回歸模型和線性回歸模型矩陣;其次,根據(jù)多個(gè)節(jié)點(diǎn)執(zhí)行基準(zhǔn)測(cè)試工具以及分析節(jié)點(diǎn)日志信息,獲得多組節(jié)點(diǎn)性能值、磁盤性能值、內(nèi)存性能值、CPU性能值,將上述獲得的性能值作為多元回歸模型的樣本數(shù)據(jù),使用最小二乘法計(jì)算線性回歸模型中的偏回歸系數(shù),獲得偏回歸系數(shù)估計(jì)量矩陣;最后,將偏回歸系數(shù)估計(jì)量矩陣中的偏回歸系數(shù)估計(jì)量代入線性回歸模型中,計(jì)算節(jié)點(diǎn)的性能值。進(jìn)一步的,所述線性回歸模型為:Fi=β1+β2Di+β3Mi+β4Ci+e其中,用Fi表示節(jié)點(diǎn)i的性能值,Di表示磁盤性能值,Mi表示內(nèi)存性能值,Ci表示CPU性能值,e表示機(jī)器的運(yùn)行時(shí)間、老化程度以及機(jī)器所處機(jī)房的室溫灰塵等不可控因素,β1、β2、β3和β4為偏回歸系數(shù),β2為當(dāng)計(jì)算機(jī)的內(nèi)存和CPU不變時(shí),其磁盤I/O能力每增加一個(gè)單位對(duì)節(jié)點(diǎn)性能值Fi的效應(yīng),β3和β4同理;將Di、Mi和Ci視為自變量,將e視為方差;所述線性回歸模型矩陣為:F1F2...Fn=1D1M1C11D2M2C2............1DnMnCn×β1β2β3β4+e1e2...en]]>上述矩陣可以用來求β1、β2、β3和β4的值,Di、Mi和Ci可以用計(jì)算機(jī)基準(zhǔn)測(cè)量工具獲得,F(xiàn)i可以根據(jù)Hadoop作業(yè)日志中對(duì)任務(wù)的記錄信息得到;進(jìn)一步的,計(jì)算偏回歸系數(shù)值包括以下步驟:首先,使用下面的公式進(jìn)行計(jì)算節(jié)點(diǎn)i的性能值:公式為:Fi=Ej=1mtjm*S]]>其中,i表示要計(jì)算的節(jié)點(diǎn),m表示節(jié)點(diǎn)i在時(shí)間tj內(nèi)完成的任務(wù)數(shù),tj表示任務(wù)j執(zhí)行的時(shí)間,S是一個(gè)常量,代表輸入數(shù)據(jù)塊的大??;其次,用多個(gè)節(jié)點(diǎn)執(zhí)行基準(zhǔn)測(cè)試工具以及分析節(jié)點(diǎn)日志信息,獲得多組Fi、Di、Mi和Ci的值,這些值即為多元回歸模型的樣本數(shù)據(jù);接著,根據(jù)樣本數(shù)據(jù),用最小二乘法對(duì)線性回歸模型矩陣的多元回歸模型進(jìn)行參數(shù)估計(jì),所謂最小二乘法,就是根據(jù)樣本數(shù)據(jù)構(gòu)造合適的估計(jì)量和使得方差ei的平方和最??;最后,獲得偏回歸系數(shù)估計(jì)量的矩陣為:β^=(X′X)-1X′Y]]>其中X為:Y為:且X'X滿秩,當(dāng)n≥4,樣本容量不少于待估計(jì)參數(shù)個(gè)數(shù)。進(jìn)一步的,在步驟S3中,各種塊存儲(chǔ)策略如下:固態(tài)硬盤:對(duì)于溫度等級(jí)為熱的文件,先按照HDFS設(shè)置的副本放置策略,若存儲(chǔ)空間允許,3個(gè)副本均首選存放在固態(tài)硬盤上;若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤節(jié)點(diǎn),則將該副本放置在準(zhǔn)固態(tài)硬盤層上;準(zhǔn)固態(tài)硬盤:對(duì)于溫度等級(jí)為溫的文件,先按照HDFS設(shè)置的副本放置策略,若存儲(chǔ)空間允許,將1個(gè)副本存放在固態(tài)硬盤上,另外2個(gè)副本存放在節(jié)點(diǎn)性能值Fi占比前30%的磁盤上;若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前30%的磁盤節(jié)點(diǎn),則將該副本放置在磁盤層上;磁盤:對(duì)于溫度沒有落在任何一個(gè)文件溫度等級(jí)上的文件,先按照HDFS設(shè)置的副本放置策略,若存儲(chǔ)空間允許,3個(gè)副本均首選存放在節(jié)點(diǎn)性能值Fi占比30%-40%的磁盤上;若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前40%的磁盤節(jié)點(diǎn),則將該副本放置在低性能磁盤層上;低性能磁盤:對(duì)于溫度等級(jí)為冷的文件,先按照HDFS設(shè)置的副本放置策略,若存儲(chǔ)空間允許,3個(gè)副本均首選存放在節(jié)點(diǎn)性能值Fi占比40%-70%的磁盤上;若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前70%的磁盤節(jié)點(diǎn),則將該副本放置在準(zhǔn)檔案存儲(chǔ)器上;準(zhǔn)檔案存儲(chǔ)器:對(duì)于溫度等級(jí)為冰凍的文件,該文件基本無訪問或者很少有訪問,按照HDFS設(shè)置的副本放置策略,將3個(gè)副本存放在節(jié)點(diǎn)性能值Fi占比后30%的磁盤和檔案存儲(chǔ)器上。進(jìn)一步的,各種塊存儲(chǔ)策略中,對(duì)于固態(tài)硬盤和檔案存儲(chǔ)器占比差值較大的集群,由集群管理員考慮當(dāng)前所運(yùn)營Hadoop集群的具體情況,適當(dāng)調(diào)整不同溫度等級(jí)文件的首選存儲(chǔ)層。本發(fā)明提出一種基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法,在根據(jù)存儲(chǔ)介質(zhì)類型將存儲(chǔ)分層的基礎(chǔ)上,根據(jù)訪問頻度、文件年齡、時(shí)間度將文件分為不同的文件溫度等級(jí),再由文件溫度和存儲(chǔ)策略之間的直接映射關(guān)系,將不同文件溫度的文件存儲(chǔ)在相應(yīng)的存儲(chǔ)器中。本發(fā)明所提出的異構(gòu)Hadoop集群的存儲(chǔ)方案,考慮了具有同類存儲(chǔ)介質(zhì)節(jié)點(diǎn)間的性能差異,這對(duì)于存儲(chǔ)介質(zhì)類型差別較小的集群是有效。本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。附圖說明本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:圖1為本發(fā)明的整體流程圖。具體實(shí)施方式下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。本發(fā)明提供一種基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法,參考附圖1,包括如下步驟:步驟S1,根據(jù)文件被訪問頻度、文件年齡、時(shí)間度,設(shè)定文件溫度等級(jí)。本發(fā)明根據(jù)一個(gè)文件的訪問頻度和時(shí)間度定義了一個(gè)新的衡量單位:溫度。文件的訪問頻度是決定數(shù)據(jù)溫度的一個(gè)很重要的因素,另外兩個(gè)需要考量的因素是文件最后被訪問的時(shí)間和文件的年齡,考慮文件的年齡是因?yàn)閿?shù)據(jù)集的一個(gè)共同特征是如果他們的使用頻度降低其將會(huì)被重初始化。如果只考慮其中的一個(gè)因素將不適合Hadoop的工作負(fù)載?;谖募脑L問時(shí)間可以計(jì)算特定時(shí)間內(nèi)文件的訪問次數(shù):(1)Count_d:最近一天的訪問次數(shù)。(2)Count_w:最近一個(gè)周的訪問次數(shù)。(3)Count_m:最近一個(gè)月的訪問次數(shù)。根據(jù)以上這些度量的值,本發(fā)明將文件溫度等級(jí)分類為以下四種:熱(HOT),溫(WARM),冷(COLD),冰凍(FROZEN)。當(dāng)文件年齡為小于一周,最近一天訪問頻度大于30時(shí),則文件溫度等級(jí)為熱;當(dāng)文件年齡為大于一周且小于一月,最近一天訪問頻度大于15,最近一周訪問頻度大于30時(shí),則文件溫度等級(jí)為溫;當(dāng)文件年齡為大于一月且小于三月,最近一周訪問頻度等于0,最近一月訪問頻度大于0時(shí),則文件溫度等級(jí)為冷;當(dāng)文件年齡為大于三月且小于一年,最近一月訪問頻度等于0時(shí),則文件溫度等級(jí)為冰凍。每個(gè)文件都可以在表1中找到一個(gè)特定的溫度映射,其中的訪問模式綜合了文件的最后訪問時(shí)間和文件訪問頻度。表1基于訪問模式的溫度等級(jí)文件年齡訪問模式溫度等級(jí)小于一周Count_d>30熱大于一周,小于一月Count_d>15&&Count_w>30溫大于一月,小于三月Coutn_w=0&&Count_m>0冷大于三月,小于一年Count_m=0冰凍文件的溫度是不斷變化的,譬如說一個(gè)新的文件在最近可能會(huì)被頻繁訪問,因此其溫度是熱的,但是隨著時(shí)間流逝,文件的年齡在增長,它會(huì)越來越少被使用,則其溫度也會(huì)下降,變?yōu)闇鼗蛘呃渖踔潦潜鶅鰻顟B(tài)。步驟S2,根據(jù)文件被訪問次數(shù)和文件溫度等級(jí),制定存儲(chǔ)策略,建立文件溫度和存儲(chǔ)策略之間的直接映射。根據(jù)文件的訪問次數(shù)以及表1可以確定文件的溫度等級(jí),一旦文件的溫度等級(jí)被確定,就可以根據(jù)其溫度等級(jí)來確定關(guān)于文件溫度等級(jí)的存儲(chǔ)策略。參考表二,文件溫度和存儲(chǔ)策略之間的直接映射為:當(dāng)文件溫度等級(jí)為熱時(shí),則塊存儲(chǔ)策略記為固態(tài)硬盤;當(dāng)文件溫度等級(jí)為溫時(shí),則塊存儲(chǔ)策略記為準(zhǔn)固態(tài)硬盤;當(dāng)文件溫度等級(jí)為冷時(shí),則塊存儲(chǔ)策略記為低性能磁盤;當(dāng)文件溫度等級(jí)為冰凍時(shí),則塊存儲(chǔ)策略記為準(zhǔn)檔案存儲(chǔ)器;當(dāng)文件溫度等級(jí)不在范圍內(nèi)時(shí),則塊存儲(chǔ)策略記為磁盤。表2文件溫度等級(jí)和HDFS數(shù)據(jù)塊存儲(chǔ)策略的映射文件溫度等級(jí)塊存儲(chǔ)策略熱(HOT)固態(tài)硬盤溫(WARM)準(zhǔn)固態(tài)硬盤不在文件溫度等級(jí)范圍內(nèi)(N/A)磁盤(缺省)冷(COLD)低性能磁盤冰凍(FROZEN)準(zhǔn)檔案存儲(chǔ)器其中各種塊存儲(chǔ)策略是由節(jié)點(diǎn)存儲(chǔ)器的類型和節(jié)點(diǎn)性能Fi共同決定的。需要指出的是,鑒于目前大多數(shù)Hadoop集群中節(jié)點(diǎn)類別的情況,塊存儲(chǔ)策略記為固態(tài)硬盤、準(zhǔn)固態(tài)硬盤、磁盤、低性能磁盤和準(zhǔn)檔案存儲(chǔ)器,然而這并不代表集群里一定要有固態(tài)硬盤或者檔案存儲(chǔ)器等存儲(chǔ)器類型。對(duì)于有不同存儲(chǔ)器類型的集群來說,固態(tài)硬盤這個(gè)塊存儲(chǔ)策略可能代表全固態(tài)硬盤,也可能代表固態(tài)硬盤和磁盤的混合,也有可能代表全磁盤。以一個(gè)存儲(chǔ)器的主要類型為磁盤,同時(shí)包含固態(tài)硬盤和檔案存儲(chǔ)器但占比較小(10%-20%),且其塊副本數(shù)為3的Hadoop集群為例。步驟S3,根據(jù)節(jié)點(diǎn)存儲(chǔ)器的類型和節(jié)點(diǎn)性能值,確定各種塊存儲(chǔ)策略;節(jié)點(diǎn)性能值的計(jì)算步驟如下:首先,根據(jù)節(jié)點(diǎn)性能值、磁盤性能值、內(nèi)存性能值、CPU性能值的特點(diǎn),建立節(jié)點(diǎn)性能和磁盤的I/O性能、內(nèi)存性能和節(jié)點(diǎn)的CPU處理能力之間的線性回歸模型和線性回歸模型矩陣。;線性回歸模型為:Fi=β1+β2Di+β3Mi+β4Ci+e,(1)其中,用Fi表示節(jié)點(diǎn)i的性能值,Di表示磁盤性能值,Mi表示內(nèi)存性能值,Ci表示CPU性能值,e表示機(jī)器的運(yùn)行時(shí)間、老化程度以及機(jī)器所處機(jī)房的室溫灰塵等不可控因素,β1、β2、β3和β4為偏回歸系數(shù),β2為當(dāng)計(jì)算機(jī)的內(nèi)存和CPU不變時(shí),其磁盤I/O能力每增加一個(gè)單位對(duì)節(jié)點(diǎn)性能值Fi的效應(yīng),β3和β4同理;將Di、Mi和Ci視為自變量,將e視為方差。線性回歸模型矩陣為:F1F2...Fn=1D1M1C11D2M2C2............1DnMnCn×β1β2β3β4+e1e2...en,---(2)]]>上述矩陣可以用來求β1、β2、β3和β4的值,Di、Mi和Ci可以用計(jì)算機(jī)基準(zhǔn)測(cè)量工具獲得,F(xiàn)i可以根據(jù)Hadoop作業(yè)日志中對(duì)任務(wù)的記錄信息得到;其次,根據(jù)多個(gè)節(jié)點(diǎn)執(zhí)行基準(zhǔn)測(cè)試工具以及分析節(jié)點(diǎn)日志信息,獲得多組節(jié)點(diǎn)性能值、磁盤性能值、內(nèi)存性能值、CPU性能值,將上述獲得的性能值作為多元回歸模型的樣本數(shù)據(jù),使用最小二乘法計(jì)算線性回歸模型中的偏回歸系數(shù),獲得偏回歸系數(shù)估計(jì)量矩陣。計(jì)算偏回歸系數(shù)值包括以下步驟:首先,使用下面的公式進(jìn)行計(jì)算節(jié)點(diǎn)i的性能值:公式為:Fi=Ej=1mtjm*S,---(3)]]>其中,i表示要計(jì)算的節(jié)點(diǎn),m表示節(jié)點(diǎn)i在時(shí)間tj內(nèi)完成的任務(wù)數(shù),tj表示任務(wù)j執(zhí)行的時(shí)間,S是一個(gè)常量,代表輸入數(shù)據(jù)塊的大??;其次,用多個(gè)節(jié)點(diǎn)執(zhí)行基準(zhǔn)測(cè)試工具以及分析節(jié)點(diǎn)日志信息,獲得多組Fi、Di、Mi和Ci的值,這些值即為多元回歸模型的樣本數(shù)據(jù);接著,根據(jù)樣本數(shù)據(jù),用最小二乘法對(duì)線性回歸模型矩陣的多元回歸模型進(jìn)行參數(shù)估計(jì),所謂最小二乘法,就是根據(jù)樣本數(shù)據(jù)構(gòu)造合適的估計(jì)量和使得方差ei的平方和最??;最后,獲得偏回歸系數(shù)估計(jì)量的矩陣為:β^=(X′X)-1X′Y]]>其中X為:Y為:且X'X滿秩,當(dāng)n≥4,樣本容量不少于待估計(jì)參數(shù)個(gè)數(shù)。最后,將偏回歸系數(shù)估計(jì)量矩陣中的偏回歸系數(shù)估計(jì)量代入線性回歸模型中,計(jì)算節(jié)點(diǎn)的性能值。此外,各種塊存儲(chǔ)策略如下:固態(tài)硬盤:對(duì)于溫度等級(jí)為熱的文件,先按照HDFS設(shè)置的副本放置策略,若存儲(chǔ)空間允許,3個(gè)副本均首選存放在固態(tài)硬盤上;若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤節(jié)點(diǎn),則將該副本放置在準(zhǔn)固態(tài)硬盤層上;準(zhǔn)固態(tài)硬盤:對(duì)于溫度等級(jí)為溫的文件,先按照HDFS設(shè)置的副本放置策略,若存儲(chǔ)空間允許,將1個(gè)副本存放在固態(tài)硬盤上,另外2個(gè)副本存放在節(jié)點(diǎn)性能值Fi占比前30%的磁盤上;若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前30%的磁盤節(jié)點(diǎn),則將該副本放置在磁盤層上;磁盤:對(duì)于溫度沒有落在任何一個(gè)文件溫度等級(jí)上的文件,先按照HDFS設(shè)置的副本放置策略,若存儲(chǔ)空間允許,3個(gè)副本均首選存放在節(jié)點(diǎn)性能值Fi占比30%-40%的磁盤上;若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前40%的磁盤節(jié)點(diǎn),則將該副本放置在低性能磁盤層上;低性能磁盤:對(duì)于溫度等級(jí)為冷的文件,先按照HDFS設(shè)置的副本放置策略,若存儲(chǔ)空間允許,3個(gè)副本均首選存放在節(jié)點(diǎn)性能值Fi占比40%-70%的磁盤上;若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前70%的磁盤節(jié)點(diǎn),則將該副本放置在準(zhǔn)檔案存儲(chǔ)器上;準(zhǔn)檔案存儲(chǔ)器:對(duì)于溫度等級(jí)為冰凍的文件,該文件基本無訪問或者很少有訪問,按照HDFS設(shè)置的副本放置策略,將3個(gè)副本存放在節(jié)點(diǎn)性能值Fi占比后30%的磁盤和檔案存儲(chǔ)器上。以上分配方案是針對(duì)于特定存儲(chǔ)器類型占比的集群,對(duì)于固態(tài)硬盤和檔案存儲(chǔ)器占比差值較大的集群,可以適當(dāng)調(diào)整不同溫度文件的首選存儲(chǔ)層,這需要集群管理員綜合考慮當(dāng)前所運(yùn)營Hadoop集群的具體情況。當(dāng)創(chuàng)建一個(gè)文件或目錄后,其存儲(chǔ)策略是未定義的,可以用“dfsadmin–setStoragePolicy”命令來設(shè)定存儲(chǔ)策略。同樣的,若想得到一個(gè)文件或者目錄當(dāng)前的有效存儲(chǔ)策略,可以執(zhí)行命令“dfsadmin–getStoragePolicy”。計(jì)算好文件的溫度并按其溫度選擇合適的存儲(chǔ)層之后,如果隨著時(shí)間的變化文件的溫度上升或者下降,則需要相應(yīng)地將文件遷移到性能更佳或稍差的存儲(chǔ)層上,這可以通過對(duì)文件動(dòng)態(tài)地設(shè)置存儲(chǔ)策略來實(shí)現(xiàn)。步驟S4,根據(jù)文件溫度等級(jí)和各種塊存儲(chǔ)策略之間的映射關(guān)系,將文件放置相應(yīng)的存儲(chǔ)器中。本發(fā)明提出一種基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法,在根據(jù)存儲(chǔ)介質(zhì)類型將存儲(chǔ)分層的基礎(chǔ)上,根據(jù)訪問頻度、文件年齡、時(shí)間度將文件分為不同的文件溫度等級(jí),再由文件溫度和存儲(chǔ)策略之間的直接映射關(guān)系,將不同文件溫度的文件存儲(chǔ)在相應(yīng)的存儲(chǔ)器中。本發(fā)明所提出的異構(gòu)Hadoop集群的存儲(chǔ)方案,考慮了具有同類存儲(chǔ)介質(zhì)節(jié)點(diǎn)間的性能差異,這對(duì)于存儲(chǔ)介質(zhì)類型差別較小的集群是有效。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求極其等同限定。當(dāng)前第1頁1 2 3 
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1