基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法與流程

文檔序號(hào)：11830406閱讀：350來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及存儲(chǔ)方法
技術(shù)領(lǐng)域：
，特別涉及一種基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法。
背景技術(shù)：
：Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(HadoopDistributedFileSystem)，簡(jiǎn)稱HDFS。HDFS有高容錯(cuò)性的特點(diǎn)，并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上。在Hadoop2.6.0版本中，Apache提出了將計(jì)算能力與不斷增長的存儲(chǔ)能力分離：擁有高密度低成本的存儲(chǔ)但是計(jì)算能力較低的節(jié)點(diǎn)將變得可用，可以在集群中做冷存儲(chǔ)。增加更多的節(jié)點(diǎn)作為冷存儲(chǔ)可以提高集群的存儲(chǔ)能力，這些節(jié)點(diǎn)跟集群的計(jì)算能力無關(guān)。HDFS對(duì)異構(gòu)存儲(chǔ)的支持主要有兩個(gè)關(guān)鍵因素：存儲(chǔ)類型和存儲(chǔ)策略。其將存儲(chǔ)器類型分為檔案存儲(chǔ)器(ARCHIEVE)，磁盤(DISK)，固態(tài)硬盤(SolidStateDrives,SSDs)以及虛擬內(nèi)存盤(RAM_DISK)四種。在HDFS的異構(gòu)存儲(chǔ)方案中，用戶可以通過調(diào)用存儲(chǔ)策略應(yīng)用程序接口(APIs)在文件生命期的任意時(shí)候制定數(shù)據(jù)所要駐留的存儲(chǔ)器類型。存儲(chǔ)策略的一個(gè)典型應(yīng)用是將經(jīng)常訪問的數(shù)據(jù)存放在固態(tài)硬盤存儲(chǔ)器(SolidStateDrives,SSDs)中，而將那些不常訪問的數(shù)據(jù)放在檔案存儲(chǔ)器(ARCHIEVE)中，這將通過縮小應(yīng)用延遲來優(yōu)化整體的磁盤訪問時(shí)間。HDFS針對(duì)異構(gòu)集群的存儲(chǔ)方案在對(duì)于將來要新部署的Hadoop集群是可行且有效的，但是現(xiàn)存的許多Hadoop集群中只存在磁盤和固態(tài)硬盤兩種存儲(chǔ)器，甚至有的集群只有磁盤一種存儲(chǔ)器，同時(shí)集群中各節(jié)點(diǎn)之間性能相差較大。所以HDFS的異構(gòu)存儲(chǔ)方案對(duì)此類集群的性能改善有限。如中國專利CN105138476A的發(fā)明專利，該發(fā)明提供一種基于hadoop異構(gòu)存儲(chǔ)的數(shù)據(jù)存儲(chǔ)方法及系統(tǒng)，然而，該發(fā)明只存在磁盤和固態(tài)硬盤兩種存儲(chǔ)器，甚至有的集群只有磁盤一種存儲(chǔ)器，同時(shí)集群中各節(jié)點(diǎn)之間性能相差較大的問題。技術(shù)實(shí)現(xiàn)要素：本發(fā)明的目的旨在至少解決所述技術(shù)缺陷之一。為此，本發(fā)明的目的在于提出一種具有同類存儲(chǔ)介質(zhì)節(jié)點(diǎn)間的性能差異的基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法。為了實(shí)現(xiàn)上述目的，本發(fā)明提供一種基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法，包括如下步驟：步驟S1，根據(jù)文件被訪問頻度、文件年齡、時(shí)間度，設(shè)定文件溫度等級(jí)；步驟S2，根據(jù)文件被訪問次數(shù)和文件溫度等級(jí)，制定存儲(chǔ)策略，建立文件溫度和存儲(chǔ)策略之間的直接映射；步驟S3，根據(jù)節(jié)點(diǎn)存儲(chǔ)器的類型和節(jié)點(diǎn)性能值，確定各種塊存儲(chǔ)策略；步驟S4，根據(jù)文件溫度等級(jí)和各種塊存儲(chǔ)策略之間的映射關(guān)系，將文件放置相應(yīng)的存儲(chǔ)器中。進(jìn)一步的，在步驟S1中，所述文件溫度等級(jí)包括：熱、溫、冷、冰凍。進(jìn)一步的，在步驟S1中，當(dāng)文件年齡為小于一周，最近一天訪問頻度大于30時(shí)，則文件溫度等級(jí)為熱；當(dāng)文件年齡為大于一周且小于一月，最近一天訪問頻度大于15，最近一周訪問頻度大于30時(shí)，則文件溫度等級(jí)為溫；當(dāng)文件年齡為大于一月且小于三月，最近一周訪問頻度等于0，最近一月訪問頻度大于0時(shí)，則文件溫度等級(jí)為冷；當(dāng)文件年齡為大于三月且小于一年，最近一月訪問頻度等于0時(shí)，則文件溫度等級(jí)為冰凍。進(jìn)一步的，在步驟S2中，文件溫度和存儲(chǔ)策略之間的直接映射為：當(dāng)文件溫度等級(jí)為熱時(shí)，則塊存儲(chǔ)策略記為固態(tài)硬盤；當(dāng)文件溫度等級(jí)為溫時(shí)，則塊存儲(chǔ)策略記為準(zhǔn)固態(tài)硬盤；當(dāng)文件溫度等級(jí)為冷時(shí)，則塊存儲(chǔ)策略記為低性能磁盤；當(dāng)文件溫度等級(jí)為冰凍時(shí)，則塊存儲(chǔ)策略記為準(zhǔn)檔案存儲(chǔ)器；當(dāng)文件溫度等級(jí)不在范圍內(nèi)時(shí)，則塊存儲(chǔ)策略記為磁盤。進(jìn)一步的，在步驟S3中，節(jié)點(diǎn)性能值的計(jì)算步驟如下：首先，根據(jù)節(jié)點(diǎn)性能值、磁盤性能值、內(nèi)存性能值、CPU性能值的特點(diǎn)，建立節(jié)點(diǎn)性能和磁盤的I/O性能、內(nèi)存性能和節(jié)點(diǎn)的CPU處理能力之間的線性回歸模型和線性回歸模型矩陣；其次，根據(jù)多個(gè)節(jié)點(diǎn)執(zhí)行基準(zhǔn)測(cè)試工具以及分析節(jié)點(diǎn)日志信息，獲得多組節(jié)點(diǎn)性能值、磁盤性能值、內(nèi)存性能值、CPU性能值，將上述獲得的性能值作為多元回歸模型的樣本數(shù)據(jù)，使用最小二乘法計(jì)算線性回歸模型中的偏回歸系數(shù)，獲得偏回歸系數(shù)估計(jì)量矩陣；最后，將偏回歸系數(shù)估計(jì)量矩陣中的偏回歸系數(shù)估計(jì)量代入線性回歸模型中，計(jì)算節(jié)點(diǎn)的性能值。進(jìn)一步的，所述線性回歸模型為：Fi＝β1+β2Di+β3Mi+β4Ci+e其中，用Fi表示節(jié)點(diǎn)i的性能值，Di表示磁盤性能值，Mi表示內(nèi)存性能值，Ci表示CPU性能值，e表示機(jī)器的運(yùn)行時(shí)間、老化程度以及機(jī)器所處機(jī)房的室溫灰塵等不可控因素，β1、β2、β3和β4為偏回歸系數(shù)，β2為當(dāng)計(jì)算機(jī)的內(nèi)存和CPU不變時(shí)，其磁盤I/O能力每增加一個(gè)單位對(duì)節(jié)點(diǎn)性能值Fi的效應(yīng)，β3和β4同理；將Di、Mi和Ci視為自變量，將e視為方差；所述線性回歸模型矩陣為：F1F2...Fn=1D1M1C11D2M2C2............1DnMnCn×β1β2β3β4+e1e2...en]]>上述矩陣可以用來求β1、β2、β3和β4的值，Di、Mi和Ci可以用計(jì)算機(jī)基準(zhǔn)測(cè)量工具獲得，F(xiàn)i可以根據(jù)Hadoop作業(yè)日志中對(duì)任務(wù)的記錄信息得到；進(jìn)一步的，計(jì)算偏回歸系數(shù)值包括以下步驟：首先，使用下面的公式進(jìn)行計(jì)算節(jié)點(diǎn)i的性能值：公式為：Fi=Ej=1mtjm*S]]>其中，i表示要計(jì)算的節(jié)點(diǎn)，m表示節(jié)點(diǎn)i在時(shí)間tj內(nèi)完成的任務(wù)數(shù)，tj表示任務(wù)j執(zhí)行的時(shí)間，S是一個(gè)常量，代表輸入數(shù)據(jù)塊的大??；其次，用多個(gè)節(jié)點(diǎn)執(zhí)行基準(zhǔn)測(cè)試工具以及分析節(jié)點(diǎn)日志信息，獲得多組Fi、Di、Mi和Ci的值，這些值即為多元回歸模型的樣本數(shù)據(jù)；接著，根據(jù)樣本數(shù)據(jù)，用最小二乘法對(duì)線性回歸模型矩陣的多元回歸模型進(jìn)行參數(shù)估計(jì)，所謂最小二乘法，就是根據(jù)樣本數(shù)據(jù)構(gòu)造合適的估計(jì)量和使得方差ei的平方和最??；最后，獲得偏回歸系數(shù)估計(jì)量的矩陣為：β^=(X′X)-1X′Y]]>其中X為：Y為：且X'X滿秩，當(dāng)n≥4，樣本容量不少于待估計(jì)參數(shù)個(gè)數(shù)。進(jìn)一步的，在步驟S3中，各種塊存儲(chǔ)策略如下：固態(tài)硬盤：對(duì)于溫度等級(jí)為熱的文件，先按照HDFS設(shè)置的副本放置策略，若存儲(chǔ)空間允許，3個(gè)副本均首選存放在固態(tài)硬盤上；若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤節(jié)點(diǎn)，則將該副本放置在準(zhǔn)固態(tài)硬盤層上；準(zhǔn)固態(tài)硬盤：對(duì)于溫度等級(jí)為溫的文件，先按照HDFS設(shè)置的副本放置策略，若存儲(chǔ)空間允許，將1個(gè)副本存放在固態(tài)硬盤上，另外2個(gè)副本存放在節(jié)點(diǎn)性能值Fi占比前30％的磁盤上；若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前30％的磁盤節(jié)點(diǎn)，則將該副本放置在磁盤層上；磁盤：對(duì)于溫度沒有落在任何一個(gè)文件溫度等級(jí)上的文件，先按照HDFS設(shè)置的副本放置策略，若存儲(chǔ)空間允許，3個(gè)副本均首選存放在節(jié)點(diǎn)性能值Fi占比30％-40％的磁盤上；若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前40％的磁盤節(jié)點(diǎn)，則將該副本放置在低性能磁盤層上；低性能磁盤：對(duì)于溫度等級(jí)為冷的文件，先按照HDFS設(shè)置的副本放置策略，若存儲(chǔ)空間允許，3個(gè)副本均首選存放在節(jié)點(diǎn)性能值Fi占比40％-70％的磁盤上；若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前70％的磁盤節(jié)點(diǎn)，則將該副本放置在準(zhǔn)檔案存儲(chǔ)器上；準(zhǔn)檔案存儲(chǔ)器：對(duì)于溫度等級(jí)為冰凍的文件，該文件基本無訪問或者很少有訪問，按照HDFS設(shè)置的副本放置策略，將3個(gè)副本存放在節(jié)點(diǎn)性能值Fi占比后30％的磁盤和檔案存儲(chǔ)器上。進(jìn)一步的，各種塊存儲(chǔ)策略中，對(duì)于固態(tài)硬盤和檔案存儲(chǔ)器占比差值較大的集群，由集群管理員考慮當(dāng)前所運(yùn)營Hadoop集群的具體情況，適當(dāng)調(diào)整不同溫度等級(jí)文件的首選存儲(chǔ)層。本發(fā)明提出一種基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法，在根據(jù)存儲(chǔ)介質(zhì)類型將存儲(chǔ)分層的基礎(chǔ)上，根據(jù)訪問頻度、文件年齡、時(shí)間度將文件分為不同的文件溫度等級(jí)，再由文件溫度和存儲(chǔ)策略之間的直接映射關(guān)系，將不同文件溫度的文件存儲(chǔ)在相應(yīng)的存儲(chǔ)器中。本發(fā)明所提出的異構(gòu)Hadoop集群的存儲(chǔ)方案，考慮了具有同類存儲(chǔ)介質(zhì)節(jié)點(diǎn)間的性能差異，這對(duì)于存儲(chǔ)介質(zhì)類型差別較小的集群是有效。本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。附圖說明本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中：圖1為本發(fā)明的整體流程圖。具體實(shí)施方式下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，旨在用于解釋本發(fā)明，而不能理解為對(duì)本發(fā)明的限制。本發(fā)明提供一種基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法，參考附圖1，包括如下步驟：步驟S1，根據(jù)文件被訪問頻度、文件年齡、時(shí)間度，設(shè)定文件溫度等級(jí)。本發(fā)明根據(jù)一個(gè)文件的訪問頻度和時(shí)間度定義了一個(gè)新的衡量單位：溫度。文件的訪問頻度是決定數(shù)據(jù)溫度的一個(gè)很重要的因素，另外兩個(gè)需要考量的因素是文件最后被訪問的時(shí)間和文件的年齡，考慮文件的年齡是因?yàn)閿?shù)據(jù)集的一個(gè)共同特征是如果他們的使用頻度降低其將會(huì)被重初始化。如果只考慮其中的一個(gè)因素將不適合Hadoop的工作負(fù)載?；谖募脑L問時(shí)間可以計(jì)算特定時(shí)間內(nèi)文件的訪問次數(shù)：(1)Count_d：最近一天的訪問次數(shù)。(2)Count_w：最近一個(gè)周的訪問次數(shù)。(3)Count_m：最近一個(gè)月的訪問次數(shù)。根據(jù)以上這些度量的值，本發(fā)明將文件溫度等級(jí)分類為以下四種：熱(HOT)，溫(WARM)，冷(COLD)，冰凍(FROZEN)。當(dāng)文件年齡為小于一周，最近一天訪問頻度大于30時(shí)，則文件溫度等級(jí)為熱；當(dāng)文件年齡為大于一周且小于一月，最近一天訪問頻度大于15，最近一周訪問頻度大于30時(shí)，則文件溫度等級(jí)為溫；當(dāng)文件年齡為大于一月且小于三月，最近一周訪問頻度等于0，最近一月訪問頻度大于0時(shí)，則文件溫度等級(jí)為冷；當(dāng)文件年齡為大于三月且小于一年，最近一月訪問頻度等于0時(shí)，則文件溫度等級(jí)為冰凍。每個(gè)文件都可以在表1中找到一個(gè)特定的溫度映射，其中的訪問模式綜合了文件的最后訪問時(shí)間和文件訪問頻度。表1基于訪問模式的溫度等級(jí)文件年齡訪問模式溫度等級(jí)小于一周Count_d>30熱大于一周，小于一月Count_d>15&&Count_w>30溫大于一月，小于三月Coutn_w＝0&&Count_m>0冷大于三月，小于一年Count_m＝0冰凍文件的溫度是不斷變化的，譬如說一個(gè)新的文件在最近可能會(huì)被頻繁訪問，因此其溫度是熱的，但是隨著時(shí)間流逝，文件的年齡在增長，它會(huì)越來越少被使用，則其溫度也會(huì)下降，變?yōu)闇鼗蛘呃渖踔潦潜鶅鰻顟B(tài)。步驟S2，根據(jù)文件被訪問次數(shù)和文件溫度等級(jí)，制定存儲(chǔ)策略，建立文件溫度和存儲(chǔ)策略之間的直接映射。根據(jù)文件的訪問次數(shù)以及表1可以確定文件的溫度等級(jí)，一旦文件的溫度等級(jí)被確定，就可以根據(jù)其溫度等級(jí)來確定關(guān)于文件溫度等級(jí)的存儲(chǔ)策略。參考表二，文件溫度和存儲(chǔ)策略之間的直接映射為：當(dāng)文件溫度等級(jí)為熱時(shí)，則塊存儲(chǔ)策略記為固態(tài)硬盤；當(dāng)文件溫度等級(jí)為溫時(shí)，則塊存儲(chǔ)策略記為準(zhǔn)固態(tài)硬盤；當(dāng)文件溫度等級(jí)為冷時(shí)，則塊存儲(chǔ)策略記為低性能磁盤；當(dāng)文件溫度等級(jí)為冰凍時(shí)，則塊存儲(chǔ)策略記為準(zhǔn)檔案存儲(chǔ)器；當(dāng)文件溫度等級(jí)不在范圍內(nèi)時(shí)，則塊存儲(chǔ)策略記為磁盤。表2文件溫度等級(jí)和HDFS數(shù)據(jù)塊存儲(chǔ)策略的映射文件溫度等級(jí)塊存儲(chǔ)策略熱(HOT)固態(tài)硬盤溫(WARM)準(zhǔn)固態(tài)硬盤不在文件溫度等級(jí)范圍內(nèi)(N/A)磁盤(缺省)冷(COLD)低性能磁盤冰凍(FROZEN)準(zhǔn)檔案存儲(chǔ)器其中各種塊存儲(chǔ)策略是由節(jié)點(diǎn)存儲(chǔ)器的類型和節(jié)點(diǎn)性能Fi共同決定的。需要指出的是，鑒于目前大多數(shù)Hadoop集群中節(jié)點(diǎn)類別的情況，塊存儲(chǔ)策略記為固態(tài)硬盤、準(zhǔn)固態(tài)硬盤、磁盤、低性能磁盤和準(zhǔn)檔案存儲(chǔ)器，然而這并不代表集群里一定要有固態(tài)硬盤或者檔案存儲(chǔ)器等存儲(chǔ)器類型。對(duì)于有不同存儲(chǔ)器類型的集群來說，固態(tài)硬盤這個(gè)塊存儲(chǔ)策略可能代表全固態(tài)硬盤，也可能代表固態(tài)硬盤和磁盤的混合，也有可能代表全磁盤。以一個(gè)存儲(chǔ)器的主要類型為磁盤，同時(shí)包含固態(tài)硬盤和檔案存儲(chǔ)器但占比較小(10％-20％)，且其塊副本數(shù)為3的Hadoop集群為例。步驟S3，根據(jù)節(jié)點(diǎn)存儲(chǔ)器的類型和節(jié)點(diǎn)性能值，確定各種塊存儲(chǔ)策略；節(jié)點(diǎn)性能值的計(jì)算步驟如下：首先，根據(jù)節(jié)點(diǎn)性能值、磁盤性能值、內(nèi)存性能值、CPU性能值的特點(diǎn)，建立節(jié)點(diǎn)性能和磁盤的I/O性能、內(nèi)存性能和節(jié)點(diǎn)的CPU處理能力之間的線性回歸模型和線性回歸模型矩陣。；線性回歸模型為：Fi＝β1+β2Di+β3Mi+β4Ci+e，(1)其中，用Fi表示節(jié)點(diǎn)i的性能值，Di表示磁盤性能值，Mi表示內(nèi)存性能值，Ci表示CPU性能值，e表示機(jī)器的運(yùn)行時(shí)間、老化程度以及機(jī)器所處機(jī)房的室溫灰塵等不可控因素，β1、β2、β3和β4為偏回歸系數(shù)，β2為當(dāng)計(jì)算機(jī)的內(nèi)存和CPU不變時(shí)，其磁盤I/O能力每增加一個(gè)單位對(duì)節(jié)點(diǎn)性能值Fi的效應(yīng)，β3和β4同理；將Di、Mi和Ci視為自變量，將e視為方差。線性回歸模型矩陣為：F1F2...Fn=1D1M1C11D2M2C2............1DnMnCn×β1β2β3β4+e1e2...en,---(2)]]>上述矩陣可以用來求β1、β2、β3和β4的值，Di、Mi和Ci可以用計(jì)算機(jī)基準(zhǔn)測(cè)量工具獲得，F(xiàn)i可以根據(jù)Hadoop作業(yè)日志中對(duì)任務(wù)的記錄信息得到；其次，根據(jù)多個(gè)節(jié)點(diǎn)執(zhí)行基準(zhǔn)測(cè)試工具以及分析節(jié)點(diǎn)日志信息，獲得多組節(jié)點(diǎn)性能值、磁盤性能值、內(nèi)存性能值、CPU性能值，將上述獲得的性能值作為多元回歸模型的樣本數(shù)據(jù)，使用最小二乘法計(jì)算線性回歸模型中的偏回歸系數(shù)，獲得偏回歸系數(shù)估計(jì)量矩陣。計(jì)算偏回歸系數(shù)值包括以下步驟：首先，使用下面的公式進(jìn)行計(jì)算節(jié)點(diǎn)i的性能值：公式為：Fi=Ej=1mtjm*S,---(3)]]>其中，i表示要計(jì)算的節(jié)點(diǎn)，m表示節(jié)點(diǎn)i在時(shí)間tj內(nèi)完成的任務(wù)數(shù)，tj表示任務(wù)j執(zhí)行的時(shí)間，S是一個(gè)常量，代表輸入數(shù)據(jù)塊的大??；其次，用多個(gè)節(jié)點(diǎn)執(zhí)行基準(zhǔn)測(cè)試工具以及分析節(jié)點(diǎn)日志信息，獲得多組Fi、Di、Mi和Ci的值，這些值即為多元回歸模型的樣本數(shù)據(jù)；接著，根據(jù)樣本數(shù)據(jù)，用最小二乘法對(duì)線性回歸模型矩陣的多元回歸模型進(jìn)行參數(shù)估計(jì)，所謂最小二乘法，就是根據(jù)樣本數(shù)據(jù)構(gòu)造合適的估計(jì)量和使得方差ei的平方和最??；最后，獲得偏回歸系數(shù)估計(jì)量的矩陣為：β^=(X′X)-1X′Y]]>其中X為：Y為：且X'X滿秩，當(dāng)n≥4，樣本容量不少于待估計(jì)參數(shù)個(gè)數(shù)。最后，將偏回歸系數(shù)估計(jì)量矩陣中的偏回歸系數(shù)估計(jì)量代入線性回歸模型中，計(jì)算節(jié)點(diǎn)的性能值。此外，各種塊存儲(chǔ)策略如下：固態(tài)硬盤：對(duì)于溫度等級(jí)為熱的文件，先按照HDFS設(shè)置的副本放置策略，若存儲(chǔ)空間允許，3個(gè)副本均首選存放在固態(tài)硬盤上；若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤節(jié)點(diǎn)，則將該副本放置在準(zhǔn)固態(tài)硬盤層上；準(zhǔn)固態(tài)硬盤：對(duì)于溫度等級(jí)為溫的文件，先按照HDFS設(shè)置的副本放置策略，若存儲(chǔ)空間允許，將1個(gè)副本存放在固態(tài)硬盤上，另外2個(gè)副本存放在節(jié)點(diǎn)性能值Fi占比前30％的磁盤上；若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前30％的磁盤節(jié)點(diǎn)，則將該副本放置在磁盤層上；磁盤：對(duì)于溫度沒有落在任何一個(gè)文件溫度等級(jí)上的文件，先按照HDFS設(shè)置的副本放置策略，若存儲(chǔ)空間允許，3個(gè)副本均首選存放在節(jié)點(diǎn)性能值Fi占比30％-40％的磁盤上；若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前40％的磁盤節(jié)點(diǎn)，則將該副本放置在低性能磁盤層上；低性能磁盤：對(duì)于溫度等級(jí)為冷的文件，先按照HDFS設(shè)置的副本放置策略，若存儲(chǔ)空間允許，3個(gè)副本均首選存放在節(jié)點(diǎn)性能值Fi占比40％-70％的磁盤上；若本地機(jī)架和遠(yuǎn)程機(jī)架不存在空閑的固態(tài)硬盤和節(jié)點(diǎn)性能值Fi占比前70％的磁盤節(jié)點(diǎn)，則將該副本放置在準(zhǔn)檔案存儲(chǔ)器上；準(zhǔn)檔案存儲(chǔ)器：對(duì)于溫度等級(jí)為冰凍的文件，該文件基本無訪問或者很少有訪問，按照HDFS設(shè)置的副本放置策略，將3個(gè)副本存放在節(jié)點(diǎn)性能值Fi占比后30％的磁盤和檔案存儲(chǔ)器上。以上分配方案是針對(duì)于特定存儲(chǔ)器類型占比的集群，對(duì)于固態(tài)硬盤和檔案存儲(chǔ)器占比差值較大的集群，可以適當(dāng)調(diào)整不同溫度文件的首選存儲(chǔ)層，這需要集群管理員綜合考慮當(dāng)前所運(yùn)營Hadoop集群的具體情況。當(dāng)創(chuàng)建一個(gè)文件或目錄后，其存儲(chǔ)策略是未定義的，可以用“dfsadmin–setStoragePolicy”命令來設(shè)定存儲(chǔ)策略。同樣的，若想得到一個(gè)文件或者目錄當(dāng)前的有效存儲(chǔ)策略，可以執(zhí)行命令“dfsadmin–getStoragePolicy”。計(jì)算好文件的溫度并按其溫度選擇合適的存儲(chǔ)層之后，如果隨著時(shí)間的變化文件的溫度上升或者下降，則需要相應(yīng)地將文件遷移到性能更佳或稍差的存儲(chǔ)層上，這可以通過對(duì)文件動(dòng)態(tài)地設(shè)置存儲(chǔ)策略來實(shí)現(xiàn)。步驟S4，根據(jù)文件溫度等級(jí)和各種塊存儲(chǔ)策略之間的映射關(guān)系，將文件放置相應(yīng)的存儲(chǔ)器中。本發(fā)明提出一種基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法，在根據(jù)存儲(chǔ)介質(zhì)類型將存儲(chǔ)分層的基礎(chǔ)上，根據(jù)訪問頻度、文件年齡、時(shí)間度將文件分為不同的文件溫度等級(jí)，再由文件溫度和存儲(chǔ)策略之間的直接映射關(guān)系，將不同文件溫度的文件存儲(chǔ)在相應(yīng)的存儲(chǔ)器中。本發(fā)明所提出的異構(gòu)Hadoop集群的存儲(chǔ)方案，考慮了具有同類存儲(chǔ)介質(zhì)節(jié)點(diǎn)間的性能差異，這對(duì)于存儲(chǔ)介質(zhì)類型差別較小的集群是有效。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例，可以理解的是，上述實(shí)施例是示例性的，不能理解為對(duì)本發(fā)明的限制，本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求極其等同限定。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：司寬社;王坤鵬;曾慶云;
技術(shù)所有人：江蘇迪納數(shù)字科技股份有限公司;
我是此專利的發(fā)明人

上一篇：一種內(nèi)襯袋的制作方法與工藝
上一篇：一種涂料包裝用簡(jiǎn)易裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

異構(gòu)存儲(chǔ)相關(guān)技術(shù)

異構(gòu)存儲(chǔ)虛擬化相關(guān)技術(shù)

異構(gòu)存儲(chǔ)數(shù)據(jù)遷移相關(guān)技術(shù)

hdfs異構(gòu)存儲(chǔ)相關(guān)技術(shù)

tco異構(gòu)存儲(chǔ)管理相關(guān)技術(shù)

異構(gòu)存儲(chǔ)管理相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于數(shù)據(jù)溫度和節(jié)點(diǎn)性能的異構(gòu)Hadoop存儲(chǔ)方法與流程