本發(fā)明涉及磁盤故障檢測(cè)技術(shù)領(lǐng)域,具體涉及一種磁盤故障定位方法及裝置。
背景技術(shù):
絕大部分IT企業(yè)對(duì)于服務(wù)器設(shè)備的磁盤故障獲取方法是通過廠商提供的工具,以及簡(jiǎn)單的syslog日志分析獲取。大部分廠商工具通過自有協(xié)議實(shí)現(xiàn),為了產(chǎn)品的通用性隱藏或者屏蔽了部分磁盤故障檢測(cè)功能,導(dǎo)致只能采集到部分故障類型,而用戶無(wú)法對(duì)這些故障類型進(jìn)行分析,只能通過廠商的原廠分析才能從故障中找到自身使用的問題,對(duì)于改善IT系統(tǒng)的穩(wěn)定性存在嚴(yán)重的滯后性。而且,基于廠商工具需要適配不同類型的raid,不同型號(hào)磁盤以及不同品牌的機(jī)型,對(duì)于磁盤故障通常需要大量工具集成,不但適配性差,而且獲取的故障信息格式不統(tǒng)一,還需要第二次的事后分析才能產(chǎn)生價(jià)值。而基于簡(jiǎn)單的syslog日志分析只能判斷磁盤暫時(shí)不可讀寫,不能確定是否真正故障,即使故障也不能分析出原因,導(dǎo)致不能通過故障信息分析來(lái)完善現(xiàn)有IT系統(tǒng)。
另外,通過廠商工具或者syslog工具監(jiān)控磁盤故障,由于環(huán)境或者使用上的差異會(huì)存在一定程度的誤報(bào),通過和國(guó)際磁盤廠商聯(lián)合分析,有接近20%的磁盤會(huì)假故障,因此準(zhǔn)確率只有80%。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供一種磁盤故障定位方法及裝置,能夠適配所有x86機(jī)型和主流磁盤,以及所有l(wèi)inux操作系統(tǒng)版本,提升磁盤故障識(shí)別的準(zhǔn)確度,并能夠?qū)收显蜻M(jìn)行分析。
一方面,本發(fā)明實(shí)施例提出一種磁盤故障定位方法,包括:
S1、收集系統(tǒng)日志中關(guān)于磁盤報(bào)錯(cuò)的信息和磁盤的smart信息;
S2、根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息判斷磁盤是否存在故障,并利用廠商工具判斷磁盤是否存在故障;
S3、若根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息確定磁盤不存在故障,或者利用廠商工具確定磁盤不存在故障,則根據(jù)所述磁盤的smart信息判斷磁盤是否存在故障,若存在故障,則確定出磁盤故障類型和故障原因。
另一方面,本發(fā)明實(shí)施例提出一種磁盤故障定位裝置,包括:
收集單元,用于收集系統(tǒng)日志中關(guān)于磁盤報(bào)錯(cuò)的信息和磁盤的smart信息;
判斷單元,用于根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息判斷磁盤是否存在故障,并利用廠商工具判斷磁盤是否存在故障;
確定單元,用于若根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息確定磁盤不存在故障,或者利用廠商工具確定磁盤不存在故障,則根據(jù)所述磁盤的smart信息判斷磁盤是否存在故障,若存在故障,則確定出磁盤故障類型和故障原因。
本發(fā)明實(shí)施例所述的磁盤故障定位方法及裝置,將syslog日志分析以及廠商工具分析結(jié)合起來(lái),在syslog日志分析以及廠商工具分析的基礎(chǔ)上借助于磁盤的smart信息來(lái)分析磁盤是否存在故障,并在存在故障時(shí),確定出磁盤故障類型和故障原因,相較于僅利用系統(tǒng)日志中關(guān)于磁盤報(bào)錯(cuò)的信息分析磁盤是否存在故障的syslog日志分析,以及廠商工具分析,本發(fā)明能夠提升磁盤故障識(shí)別的準(zhǔn)確度,將故障監(jiān)控準(zhǔn)確率從80%提升到100%,而且本發(fā)明只需選擇通用的廠商工具,不需要單獨(dú)適配不同品牌機(jī)型和磁盤,適配度高,兼容性強(qiáng),方便使用,能夠適配所有x86機(jī)型和主流磁盤,以及所有l(wèi)inux操作系統(tǒng)版本,另外,本發(fā)明還能夠?qū)收显蜻M(jìn)行分析,便于對(duì)磁盤故障采取安全措施。
附圖說明
圖1為本發(fā)明磁盤故障定位方法一實(shí)施例的流程示意圖;
圖2為本發(fā)明磁盤故障定位裝置一實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
參看圖1,本實(shí)施例公開一種磁盤故障定位方法,包括:
S1、收集系統(tǒng)日志中關(guān)于磁盤報(bào)錯(cuò)的信息和磁盤的smart信息;
S2、根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息判斷磁盤是否存在故障,并利用廠商工具判斷磁盤是否存在故障;
S3、若根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息確定磁盤不存在故障,或者利用廠商工具確定磁盤不存在故障,則根據(jù)所述磁盤的smart信息判斷磁盤是否存在故障,若存在故障,則確定出磁盤故障類型和故障原因。
本發(fā)明實(shí)施例所述的磁盤故障定位方法,將syslog日志分析以及廠商工具分析結(jié)合起來(lái),在syslog日志分析以及廠商工具分析的基礎(chǔ)上借助于磁盤的smart信息來(lái)分析磁盤是否存在故障,并在存在故障時(shí),確定出磁盤故障類型和故障原因,相較于僅利用系統(tǒng)日志中關(guān)于磁盤報(bào)錯(cuò)的信息分析磁盤是否存在故障的syslog日志分析,以及廠商工具分析,本發(fā)明能夠提升磁盤故障識(shí)別的準(zhǔn)確度,將故障監(jiān)控準(zhǔn)確率從80%提升到100%,而且本發(fā)明只需選擇通用的廠商工具,不需要單獨(dú)適配不同品牌機(jī)型和磁盤,適配度高,兼容性強(qiáng),方便使用,能夠適配所有x86機(jī)型和主流磁盤,以及所有l(wèi)inux操作系統(tǒng)版本,另外,本發(fā)明還能夠?qū)收显蜻M(jìn)行分析,便于對(duì)磁盤故障采取安全措施。
可選地,在本發(fā)明磁盤故障定位方法的另一實(shí)施例中,所述根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息判斷磁盤是否存在故障,包括:
從所述關(guān)于磁盤報(bào)錯(cuò)的信息中提取關(guān)鍵字,判斷提取到的關(guān)鍵字是否在預(yù)設(shè)的關(guān)鍵字列表中存在;
若提取到的關(guān)鍵字在所述關(guān)鍵字列表中存在,則確定磁盤存在故障,否則,則確定磁盤不存在故障。
本發(fā)明實(shí)施例中,預(yù)設(shè)的關(guān)鍵字列表中包括如下關(guān)鍵字:I/O error,dev、I/O error on device、Test Unit Ready、Unhandled sense code、Unhandled error code、Write error、Unrecovered read error、Medium.*Error、Hardware.*Error、EXT.-fs error,其中“*”為通配符。
可選地,在本發(fā)明磁盤故障定位方法的另一實(shí)施例中,所述根據(jù)所述磁盤的smart信息判斷磁盤是否存在故障,包括:
從所述磁盤的smart信息中獲取Current_Pending_Sector屬性,判斷所述Current_Pending_Sector屬性的值是否大于4096,若大于4096,則確定磁盤存在故障,否則,則確定磁盤不存在故障。
可選地,在本發(fā)明磁盤故障定位方法的另一實(shí)施例中,還包括:
若根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息確定磁盤存在故障,且利用廠商工具確定磁盤存在故障,則確定出磁盤故障類型和故障原因。
本發(fā)明實(shí)施例中,若根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息確定磁盤存在故障,且利用廠商工具確定磁盤存在故障,則說明磁盤存在故障的概率較高,認(rèn)為磁盤存在故障,此時(shí)不需要再根據(jù)磁盤的smart信息進(jìn)一步進(jìn)行判斷,以提升故障分析效率。
可選地,在本發(fā)明磁盤故障定位方法的另一實(shí)施例中,所述確定出磁盤故障類型和故障原因,包括:
從所述磁盤的smart信息中提取報(bào)錯(cuò)信息,查找預(yù)設(shè)的故障映射表,得到該報(bào)錯(cuò)信息對(duì)應(yīng)的故障類型和故障原因,并將所述故障類型作為磁盤故障類型,將所述故障原因作為磁盤故障原因。
如下表所示為故障映射表。在確定磁盤故障類型和故障原因時(shí),可以根據(jù)從所述磁盤的smart信息中提取的報(bào)錯(cuò)信息,查找該表確定出故障類型和故障原因。比如,若報(bào)錯(cuò)信息(即下表中的英文名稱列)為RaidVdNoBBUCacheErr,則確定出磁盤故障位置為RAID控制器,故障類型為無(wú)電池,寫緩存異常,故障原因(即下表中的故障說明列)為電池異常情況下導(dǎo)致緩存設(shè)置異常,會(huì)導(dǎo)致性能異常。根據(jù)該表可知,本發(fā)明可以識(shí)別出25種磁盤故障類型,從而相較于只能識(shí)別出5種磁盤故障類型的現(xiàn)有技術(shù),本發(fā)明實(shí)施例能夠增加磁盤故障類型識(shí)別種類。
可選地,在本發(fā)明磁盤故障定位方法的另一實(shí)施例中,還包括:
若根據(jù)所述磁盤的smart信息判斷磁盤不存在故障,則確定磁盤為假故障。
參看圖2,本實(shí)施例公開一種磁盤故障定位裝置,包括:
收集單元1,用于收集系統(tǒng)日志中關(guān)于磁盤報(bào)錯(cuò)的信息和磁盤的smart信息;
判斷單元2,用于根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息判斷磁盤是否存在故障,并利用廠商工具判斷磁盤是否存在故障;
確定單元3,用于若根據(jù)所述關(guān)于磁盤報(bào)錯(cuò)的信息確定磁盤不存在故障,或者利用廠商工具確定磁盤不存在故障,則根據(jù)所述磁盤的smart信息判斷磁盤是否存在故障,若存在故障,則確定出磁盤故障類型和故障原因。
本發(fā)明實(shí)施例所述的磁盤故障定位裝置,將syslog日志分析以及廠商工具分析結(jié)合起來(lái),在syslog日志分析以及廠商工具分析的基礎(chǔ)上借助于磁盤的smart信息來(lái)分析磁盤是否存在故障,并在存在故障時(shí),確定出磁盤故障類型和故障原因,相較于僅利用系統(tǒng)日志中關(guān)于磁盤報(bào)錯(cuò)的信息分析磁盤是否存在故障的syslog日志分析,以及廠商工具分析,本發(fā)明能夠提升磁盤故障識(shí)別的準(zhǔn)確度,將故障監(jiān)控準(zhǔn)確率從80%提升到100%,而且本發(fā)明只需選擇通用的廠商工具,不需要單獨(dú)適配不同品牌機(jī)型和磁盤,適配度高,兼容性強(qiáng),方便使用,能夠適配所有x86機(jī)型和主流磁盤,以及所有l(wèi)inux操作系統(tǒng)版本,另外,本發(fā)明還能夠?qū)收显蜻M(jìn)行分析,便于對(duì)磁盤故障采取安全措施。
雖然結(jié)合附圖描述了本發(fā)明的實(shí)施方式,但是本領(lǐng)域技術(shù)人員可以在不脫離本發(fā)明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權(quán)利要求所限定的范圍之內(nèi)。