国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種利用失效日志計算存儲集群可用性的方法

      文檔序號:7771027閱讀:221來源:國知局
      一種利用失效日志計算存儲集群可用性的方法
      【專利摘要】本發(fā)明提出了一個實用的分布式存儲系統(tǒng)可用性評估方法,流程如圖。該方法能夠利用系統(tǒng)運維產(chǎn)生的失效日志記錄和必要的系統(tǒng)信息評估該存儲系統(tǒng)的可用性。由于短時間內(nèi)連續(xù)發(fā)生的失效往往對可用性造成很大的影響,本發(fā)明提出的模型考慮到了這種影響,使得模型更加準(zhǔn)確。
      【專利說明】—種利用失效日志計算存儲集群可用性的方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及分布式存儲和存儲系統(tǒng)可用性領(lǐng)域,具體涉及一種利用失效日志計算存儲集群可用性的方法。
      【背景技術(shù)】
      [0002]近年來,云計算領(lǐng)域相關(guān)技術(shù)得到了廣泛的關(guān)注。分布式存儲技術(shù)作為云計算的支撐技術(shù)之一,得到了進一步的發(fā)展并被廣泛應(yīng)用到商業(yè)信息系統(tǒng)中。Google開發(fā)了一個可擴展的分布式文件系統(tǒng)GFS,用于大規(guī)模分布式訪問數(shù)據(jù)的應(yīng)用。GFS能夠搭建于廉價的普通硬件上,通過冗余等方式提供容錯能力。Apache根據(jù)GFS的設(shè)計原理開發(fā)了 HDFS系統(tǒng),HDFS通過數(shù)據(jù)副本和元數(shù)據(jù)服務(wù)器冗余提高可用性,目前在國內(nèi)許多大型商業(yè)公司中都有應(yīng)用。作為云計算領(lǐng)域的先行者,Amazon開發(fā)了商業(yè)存儲系統(tǒng)Amazon S3 (Simple StorageSystem),其可用性達到了 0.9999。
      [0003]可用性嚴(yán)格定義:指當(dāng)需要時,系統(tǒng)或元部件在該時刻處于正常工作狀態(tài)(正??捎脿顟B(tài))的能力。分布式存儲系統(tǒng)的可用性在商業(yè)存儲系統(tǒng)應(yīng)用中是一個重要的指標(biāo)。合理評價一個存儲系統(tǒng)的可用性,對于了解存儲系統(tǒng)服務(wù)質(zhì)量和設(shè)計高可用的存儲系統(tǒng)具有重要的指導(dǎo)意義。
      [0004]Ranj i ta Bhagwan等研究了 P2P系統(tǒng)中主機的可用性,通過響應(yīng)次數(shù)/總探測次數(shù)來衡量可用性,并發(fā)現(xiàn)跨度時間長短影響P2P系統(tǒng)中主機可用性的分布,且可用性與time-of-day有關(guān)。Daniel Nurmi等對通過探測心跳方法來衡量主機可用性,并對采集到的主機可用性數(shù)據(jù)進行統(tǒng)計分析、分布擬合,發(fā)現(xiàn)Weibull分布擬合較好。
      [0005]Dawei Sun等依據(jù)概率理論`的方法,在已知各個節(jié)點的失效概率的情況下,計算出在若干備份的策略下一個塊的可用概率,進而計算出一個文件的可用性。
      [0006]Daniel Ford和Francois Labelle等研究了 Google的集群中數(shù)據(jù)塊的可用性。該研究發(fā)現(xiàn),有些失效事件在短時間內(nèi)接連發(fā)生,可以被視為一個失效組,稱之為burst。論文對數(shù)據(jù)塊的可用性建立了一個連續(xù)時間參數(shù)的Markov模型,并利用該模型求解數(shù)據(jù)塊的平均失效時間(mean time to failure MTTF)?
      [0007]Ranjita Bhagwan和Daniel Nurmi的研究均著眼于單個主機的可用性,沒有對整個分布式存儲系統(tǒng)中數(shù)據(jù)塊的可用性進行研究。
      [0008]Dawei Sun的研究從概率角度評估分布式存儲系統(tǒng)中數(shù)據(jù)塊的可用性,得到的結(jié)果是某時刻的可用概率。該研究并沒有考慮失效事件發(fā)生的統(tǒng)計特征,對于系統(tǒng)中發(fā)生burst的情況未予考慮。同時,該研究假設(shè)已知每個塊的可用概率,在實際的分布式存儲系統(tǒng)的運行維護期間這個數(shù)據(jù)并不容易獲得。
      [0009]Daniel Ford和Francois Labelle等的研究分別針對有考慮burst和不考慮burst的情況進行了分析,利用Markov模型對數(shù)據(jù)塊的平均失效時間(MTTF)建模。該模型綜合考慮和失效速率和恢復(fù)速率,借助隨機過程相關(guān)計算方法,利用Google的數(shù)據(jù)得到的MTTF分別約為在10e7天和10e9天。該數(shù)據(jù)與通常的評估可用性的形式不同,并沒有計算出明確的可用性值。另外,該模型在使用恢復(fù)速率時,只計算出單位時間內(nèi)平均能恢復(fù)多少 個塊,但在實際運維過程中,一個數(shù)據(jù)塊失效過程通常會分為兩個部分,前一段時間用于檢 測到數(shù)據(jù)塊失效,后一段才真正開始恢復(fù)失效的數(shù)據(jù)塊。從數(shù)據(jù)塊開始不可用到系統(tǒng)檢測 到這一數(shù)據(jù)塊不可用期間,系統(tǒng)對該數(shù)據(jù)塊的請求都無法完成。
      【發(fā)明內(nèi)容】
      [0010]本發(fā)明提出了一個實用的分布式存儲系統(tǒng)可用性評估方法。該方法能夠利用系統(tǒng) 運維產(chǎn)生的失效日志記錄和必要的系統(tǒng)信息評估該存儲系統(tǒng)的可用性。[0011]目前分布式存儲系統(tǒng)提高可用性的主流方法為多副本冗余方式。分布式存儲系統(tǒng) 中數(shù)據(jù)塊可用性計算需要計算在給定的時間段內(nèi),該數(shù)據(jù)塊處于不可用狀態(tài)和可用狀態(tài)的 平均時間。[0012]研究發(fā)現(xiàn)很多失效事件的發(fā)生時間十分接近。造成這種失效事件的聚集性的原因 可能為鏈接同一臺交換機或者路由器的主機可能會因為這臺交換機或路由器的崩潰而造 成該主機上服務(wù)的不可用;或者位于不同主機上相互協(xié)作的幾個服務(wù)會因某一臺主機的崩 潰造成若干臺相關(guān)主機的服務(wù)也不可用。在對百度公司某分布式存儲系統(tǒng)的失效日志統(tǒng)計 表明,所有2644個失效事件中,有2534分別可以聚集到不同規(guī)模的同時失效事件組中,只 有110個失效事件單獨發(fā)生,單獨發(fā)生的失效僅占所有失效的4.2%。同時失效事件的規(guī)模 從2到61不等。如圖1,在觀測時間內(nèi),同時有2?10臺主機發(fā)生失效的事件共有37次。 圖中數(shù)據(jù)顯示,發(fā)生同時失效的事件主要在2?10和10?20,更大規(guī)模的失效事件所占比 例不足一半。超過60臺主機的同時失效事件只有兩次。最大規(guī)模的失效事件為同一時間 內(nèi)有61臺主機失效。[0013]模型假設(shè)[0014]假設(shè)該分布式存儲系統(tǒng)中共有主機M臺。每個數(shù)據(jù)塊有N個副本冗余(含原始數(shù)據(jù) 塊副本),不同的副本分布在不同的主機上。其中N遠小于M。當(dāng)N個副本全部壞掉時,該數(shù)據(jù) 則處于不可用狀態(tài),需花費tuN時間從系統(tǒng)外恢復(fù)。當(dāng)N個副本中有i個副本(i=l,2...N-1) 壞掉時,因系統(tǒng)的讀寫策略和恢復(fù)副本策略,該數(shù)據(jù)有tui時間不可用。為方便,記tu(l=0。[0015]如果連續(xù)兩個失效的發(fā)生時間間隔小于tbst,則認為這兩個失效位于同一個burst 中。burst中失效事件的個數(shù)稱為該burst的大小。將單個失效視為大小為I的burst事 件。假設(shè)burst中的每個失效事件出現(xiàn)在M臺主機中的任何一臺主機的概率相同。[0016]在以上配置信息基礎(chǔ)上,考察在時間O?T內(nèi)系統(tǒng)運維產(chǎn)生的失效數(shù)據(jù),可以計算 該分布式存儲系統(tǒng)的可用性。[0017]模型求解[0018]首先,將失效事件分為兩類,一類為burst大小小于N的中的burst事件,另一類 為burst大小大于或等于N的中的burst事件。分別考慮這兩類burst事件對數(shù)據(jù)塊不可 用時間的影響。[0019]I) burst大小小于N的burst事件[0020]對于特定的一個數(shù)據(jù)塊,當(dāng)一個burst大小為η的burst事件發(fā)生時,該數(shù)據(jù)塊可 能損壞的副本數(shù)目可能為0,1,2...η。該數(shù)據(jù)塊因此次burst事件損壞了 i個副本導(dǎo)致的 平均不可用時間記為A[0021]記P =吾,q=l-p[0022]則Ir1 i = Cj1Piqn-1Hui[0023]因此當(dāng)一個burst大小為η (η<Ν)的burst事件發(fā)生時,該數(shù)據(jù)塊平均不可用時間為
      [0024]
      【權(quán)利要求】
      1.本發(fā)明提出了根據(jù)分布式存儲集群的日常運維產(chǎn)生的失效日志計算集群可用性的方法,其特征在于:提出了一種用于計算可用性的模型,能夠在已知集群配置信息的情況下,根據(jù)失效日志計算可用性,該方法方便簡單,效果良好。
      2.注意到集群失效可能會有burst現(xiàn)象,即若干節(jié)點相繼失效,由于burst現(xiàn)象對可用性影響很大,因此本發(fā)明在建立模型時將將burst考慮在內(nèi)。其特征在于:集群發(fā)生burst失效時,副本備份提高可用性的方案的效果會大受影響,通過建模時考慮burst,使模型更為準(zhǔn)確。
      【文檔編號】H04L29/08GK103501320SQ201310430391
      【公開日】2014年1月8日 申請日期:2013年9月18日 優(yōu)先權(quán)日:2013年9月18日
      【發(fā)明者】王雷, 王魯俊, 龍翔 申請人:北京航空航天大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1