一種定位故障的方法和系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明提供了一種定位故障的系統(tǒng)和方法。該系統(tǒng)包括:硬盤(pán)擴(kuò)展卡,通過(guò)至少一個(gè)上行物理信道連接所述HBA,以及通過(guò)至少兩個(gè)下行物理信道連接所述至少兩個(gè)硬盤(pán);并且,所述硬盤(pán)擴(kuò)展卡還通過(guò)配置的串口連接到所述故障信息提供設(shè)備;所述硬盤(pán)擴(kuò)展卡,用于監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道,當(dāng)監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),將所述第一物理信道的故障信息寫(xiě)入所述硬盤(pán)擴(kuò)展卡中的寄存器;還用于通過(guò)自身配置的所述串口將所述寄存器中所述第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備;所述故障信息提供設(shè)備,用于提供所述第一物理信道的故障信息。本方案能夠?qū)崟r(shí)地定位故障。
【專(zhuān)利說(shuō)明】
一種定位故障的方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及服務(wù)器技術(shù)領(lǐng)域,特別涉及一種定位故障的方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)產(chǎn)業(yè)快速發(fā)展,大容量、高可靠性、高節(jié)點(diǎn)密度、支持普遍熱插拔的存儲(chǔ)服務(wù)器成為一種必然趨勢(shì)。然而,不可避免的,服務(wù)器在工作過(guò)程中,會(huì)發(fā)生意外情況,影響整機(jī)柜的正常使用,甚至造成系統(tǒng)宕機(jī)。
[0003]在存儲(chǔ)服務(wù)器中,比如Rack機(jī)柜存儲(chǔ)服務(wù)器,一個(gè)重要的故障來(lái)源為存儲(chǔ)子系統(tǒng)。即:從主機(jī)總線(xiàn)適配器(Host Bus Adapter,HBA)經(jīng)硬盤(pán)擴(kuò)展(Expander)卡至硬盤(pán)端的存儲(chǔ)信號(hào)鏈路部分。其中,HBA是一個(gè)在服務(wù)器和存儲(chǔ)裝置間提供輸入/輸出(I/O)處理和物理連接的電路板和/或集成電路適配器。因?yàn)镠BA減輕了主處理器在數(shù)據(jù)存儲(chǔ)和檢索任務(wù)的負(fù)擔(dān),它能夠提高服務(wù)器的性能。一個(gè)HBA和與之相連的磁盤(pán)子系統(tǒng)有時(shí)一起被稱(chēng)作一個(gè)磁盤(pán)通道。
[0004]在目前,對(duì)存儲(chǔ)子系統(tǒng)的鏈路故障檢測(cè)往往采用模塊細(xì)分方式,即對(duì)存儲(chǔ)鏈路的各個(gè)部分按模塊劃分,待服務(wù)器節(jié)點(diǎn)停止工作后再針對(duì)模塊分別分析,無(wú)法實(shí)現(xiàn)實(shí)時(shí)的故障定位。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例提供了一種定位故障的方法和系統(tǒng),能夠?qū)崿F(xiàn)實(shí)時(shí)的故障定位。
[0006]—種定位故障的系統(tǒng),包括:
[0007]HBA、硬盤(pán)擴(kuò)展卡、至少兩個(gè)硬盤(pán)以及故障信息提供設(shè)備,其中,
[0008]所述硬盤(pán)擴(kuò)展卡通過(guò)至少一個(gè)上行物理信道連接所述HBA,以及通過(guò)至少兩個(gè)下行物理信道連接所述至少兩個(gè)硬盤(pán);并且,所述硬盤(pán)擴(kuò)展卡還通過(guò)配置的串口連接到所述故障信息提供設(shè)備;
[0009]所述硬盤(pán)擴(kuò)展卡,用于監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道,當(dāng)監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),將所述第一物理信道的故障信息寫(xiě)入所述硬盤(pán)擴(kuò)展卡中的寄存器;還用于通過(guò)自身配置的所述串口將所述寄存器中所述第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備;
[0010]所述故障信息提供設(shè)備,用于提供所述第一物理信道的故障信息。
[0011]所述硬盤(pán)擴(kuò)展卡包括:至少一個(gè)上行SAS接口、至少一個(gè)下行SAS接口、所述串口、所述寄存器以及處理模塊;其中,
[0012]每一個(gè)所述上行SAS接口,用于連接所述HBA,接收所述HBA發(fā)送的業(yè)務(wù)信號(hào);
[0013]每一個(gè)所述下行SAS接口,用于連接至少一個(gè)硬盤(pán);
[0014]所述處理模塊,用于監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道,當(dāng)監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),將所述第一物理信道的故障信息寫(xiě)入所述寄存器;還通過(guò)所述串口將所述寄存器中所述第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備。
[0015]所述處理模塊,進(jìn)一步用于將從每一個(gè)所述上行SAS接口接收到的業(yè)務(wù)信號(hào)進(jìn)行擴(kuò)展,將擴(kuò)展出的業(yè)務(wù)信號(hào)發(fā)送給對(duì)應(yīng)的下行SAS接口。
[0016]包括兩個(gè)所述上行SAS接口、三個(gè)下行SAS接口、十二個(gè)下行物理信道。
[0017]進(jìn)一步包括硬盤(pán)背板和連接器,其中,
[0018]所述至少兩個(gè)硬盤(pán)通過(guò)所述連接器設(shè)置在所述硬盤(pán)背板上,
[0019]所述硬盤(pán)擴(kuò)展卡連接到所述硬盤(pán)背板,通過(guò)所述硬盤(pán)背板連接所述至少兩個(gè)硬盤(pán)。
[0020]所述HBA 卡包括:SAS/RAID 卡。
[0021]所述HBA用于在進(jìn)入操作系統(tǒng)后,對(duì)硬盤(pán)進(jìn)行讀寫(xiě)操作,該讀寫(xiě)操作的業(yè)務(wù)指令通過(guò)所述上行物理信道傳輸?shù)剿鲇脖P(pán)擴(kuò)展卡,所述硬盤(pán)擴(kuò)展卡將所述讀寫(xiě)操作的業(yè)務(wù)指令通過(guò)所述下行物理信道傳輸?shù)接脖P(pán)。
[0022]所述故障信息提供設(shè)備為個(gè)人電腦PC機(jī);
[0023]所述PC機(jī),用于在DOS命令行下,接收輸入的指令將所述硬盤(pán)擴(kuò)展卡的所述串口打開(kāi),并設(shè)置波特率,以及選擇相應(yīng)的串口號(hào),設(shè)置所述波特率與所述硬盤(pán)擴(kuò)展卡端的波特率相同,建立與所述硬盤(pán)擴(kuò)展卡的串口連接;
[0024]所述輸入的指令為:xutil_scomlset smartcli ;
[0025]和/或,
[0026]所述波特率為38400。
[0027]—種定位故障的方法,
[0028]通過(guò)至少一個(gè)上行物理信道連接HBA和硬盤(pán)擴(kuò)展卡;
[0029]通過(guò)至少兩個(gè)下行物理信道連接所述硬盤(pán)擴(kuò)展卡和至少兩個(gè)硬盤(pán);
[0030]通過(guò)在所述硬盤(pán)擴(kuò)展卡上配置的串口連接所述硬盤(pán)擴(kuò)展卡和故障信息提供設(shè)備;
[0031]還包括:
[0032]所述硬盤(pán)擴(kuò)展卡監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道;
[0033]當(dāng)監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),所述硬盤(pán)擴(kuò)展卡將所述第一物理信道的故障信息寫(xiě)入所述硬盤(pán)擴(kuò)展卡中的寄存器;
[0034]所述硬盤(pán)擴(kuò)展卡通過(guò)自身配置的所述串口將所述寄存器中所述第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備。
[0035]本發(fā)明實(shí)施例提供了定位故障的方法和系統(tǒng),由于通過(guò)硬盤(pán)擴(kuò)展卡將HBA與擴(kuò)展的多個(gè)硬盤(pán)相連,并且在硬盤(pán)擴(kuò)展卡上配置串口,通過(guò)串口將硬盤(pán)擴(kuò)展卡連接到能夠提供故障信息的故障信息提供設(shè)備,這樣,硬盤(pán)擴(kuò)展卡在HBA與硬盤(pán)之間傳輸業(yè)務(wù)信號(hào)時(shí),不僅可以監(jiān)控并在寄存器中記錄上下行物理信道的故障,并且還可以通過(guò)串口將在寄存器中記錄的故障信息實(shí)時(shí)傳輸?shù)酵獠康墓收闲畔⑻峁┰O(shè)備,從而實(shí)現(xiàn)了故障的實(shí)時(shí)定位。
【附圖說(shuō)明】
[0036]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0037]圖1是本發(fā)明一個(gè)實(shí)施例中定位故障的系統(tǒng)的結(jié)構(gòu)示意圖。
[0038]圖2是本發(fā)明另一個(gè)實(shí)施例中定位故障的系統(tǒng)的結(jié)構(gòu)示意圖。
[0039]圖3是本發(fā)明又一個(gè)實(shí)施例中定位故障的系統(tǒng)的結(jié)構(gòu)示意圖。
[0040]圖4是本發(fā)明一個(gè)實(shí)施例中定位故障的方法的流程圖。
[0041]圖5是本發(fā)明另一個(gè)實(shí)施例中定位故障的方法的流程圖。
[0042]圖6是本發(fā)明一個(gè)實(shí)施例中定位故障的測(cè)試結(jié)果的示意圖。
【具體實(shí)施方式】
[0043]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0044]本發(fā)明一個(gè)實(shí)施例提出了一種定位故障的系統(tǒng),參見(jiàn)圖1,包括:
[0045]HBAlOl、硬盤(pán)擴(kuò)展卡102、至少兩個(gè)硬盤(pán)103以及故障信息提供設(shè)備104,其中,
[0046]所述硬盤(pán)擴(kuò)展卡102通過(guò)至少一個(gè)上行物理信道連接所述HBAlOl,以及通過(guò)至少兩個(gè)下行物理信道連接所述至少兩個(gè)硬盤(pán)103;并且,所述硬盤(pán)擴(kuò)展卡102還通過(guò)配置的串口連接到所述故障信息提供設(shè)備104;
[0047]所述硬盤(pán)擴(kuò)展卡102,用于監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道,當(dāng)監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),將所述第一物理信道的故障信息寫(xiě)入所述硬盤(pán)擴(kuò)展卡102中的寄存器;還用于通過(guò)自身配置的所述串口將所述寄存器中所述第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備104;
[0048]所述故障信息提供設(shè)備104,用于提供所述第一物理信道的故障信息。
[0049]可見(jiàn),在圖1所示的本發(fā)明實(shí)施例中,由于通過(guò)硬盤(pán)擴(kuò)展卡將HBA與擴(kuò)展的多個(gè)硬盤(pán)相連,并且在硬盤(pán)擴(kuò)展卡上配置串口,通過(guò)串口將硬盤(pán)擴(kuò)展卡連接到能夠提供故障信息的故障信息提供設(shè)備,這樣,硬盤(pán)擴(kuò)展卡在HBA與硬盤(pán)之間傳輸業(yè)務(wù)信號(hào)時(shí),不僅可以監(jiān)控并在寄存器中記錄上下行物理信道的故障,并且還可以通過(guò)串口將在寄存器中記錄的故障信息實(shí)時(shí)傳輸?shù)酵獠康墓收闲畔⑻峁┰O(shè)備,從而實(shí)現(xiàn)了故障的實(shí)時(shí)定位。
[0050]在本發(fā)明一個(gè)實(shí)施例中,參見(jiàn)圖2所示,硬盤(pán)擴(kuò)展卡102可以包括:至少一個(gè)上行SAS接口 201、至少一個(gè)下行SAS接口 202、串口 203、寄存器204以及處理模塊205;其中,
[0051 ] 每一個(gè)所述上行SAS接口201,用于連接所述HBAlOl,接收所述HBAlOl發(fā)送的業(yè)務(wù)信號(hào);
[0052]每一個(gè)所述下行SAS接口 202,用于連接至少一個(gè)硬盤(pán)103;
[0053]所述處理模塊205,用于監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道,當(dāng)監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),將所述第一物理信道的故障信息寫(xiě)入所述寄存器204;還通過(guò)所述串口 203將所述寄存器204中所述第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備104。
[0054]所述處理模塊,進(jìn)一步用于將從每一個(gè)所述上行SAS接口接收到的業(yè)務(wù)信號(hào)進(jìn)行擴(kuò)展,將擴(kuò)展出的業(yè)務(wù)信號(hào)發(fā)送給對(duì)應(yīng)的下行SAS接口。
[0055]可見(jiàn),通過(guò)上述圖2所示的結(jié)構(gòu),硬盤(pán)擴(kuò)展卡能夠具體利用SAS接口來(lái)實(shí)現(xiàn)上下行物理信道。
[0056]在本發(fā)明的一個(gè)實(shí)施例中,參見(jiàn)圖2,對(duì)于硬盤(pán)擴(kuò)展卡102,可以包括2個(gè)所述上行SAS接口 201、3個(gè)下行SAS接口 202,每一個(gè)SAS接口對(duì)應(yīng)4個(gè)物理信道,因此,總共有8個(gè)上行物理信道,12個(gè)下行物理信道。對(duì)應(yīng)于此種結(jié)構(gòu),每一個(gè)下行物理信道可以對(duì)應(yīng)于一個(gè)硬盤(pán)103,因此,可以連接12個(gè)硬盤(pán)103。
[0057]在本發(fā)明的一個(gè)實(shí)施例中,參見(jiàn)圖3,定位故障的系統(tǒng)可以進(jìn)一步包括硬盤(pán)背板301和連接器302,其中,
[0058]所述至少兩個(gè)硬盤(pán)103通過(guò)所述連接器302設(shè)置在所述硬盤(pán)背板301上,
[0059]所述硬盤(pán)擴(kuò)展卡102連接到所述硬盤(pán)背板301,通過(guò)所述硬盤(pán)背板301連接所述至少兩個(gè)硬盤(pán)103。
[0060]可見(jiàn),上述圖3所示結(jié)構(gòu)提供了一種定位故障的系統(tǒng)的具體實(shí)現(xiàn),即通過(guò)硬盤(pán)背板301和連接器302來(lái)實(shí)現(xiàn)硬盤(pán)擴(kuò)展卡102與每一個(gè)硬盤(pán)103的連接。
[0061 ] 在本發(fā)明一個(gè)實(shí)施例中,所述HBA卡可以包括:SAS/RAID卡。
[0062]參見(jiàn)圖3,在本發(fā)明一個(gè)實(shí)施例中,定位故障的系統(tǒng)實(shí)現(xiàn)了整個(gè)存儲(chǔ)信號(hào)鏈路的連接:HBA可以在服務(wù)器節(jié)點(diǎn)和存儲(chǔ)裝置間提供I/O接口和物理連接。目前常見(jiàn)的HBA卡多指SAS/RAID卡,發(fā)出SAS協(xié)議信號(hào)及對(duì)應(yīng)控制信息。硬盤(pán)擴(kuò)展卡用于SAS信號(hào)信道擴(kuò)展,增加HBA接入的硬盤(pán)數(shù)量,硬盤(pán)擴(kuò)展卡在上行物理信道接收待擴(kuò)展的HBA鏈路信號(hào),下行為擴(kuò)展后的信道輸出。硬盤(pán)通過(guò)硬盤(pán)背板與硬盤(pán)擴(kuò)展卡相連接,從而實(shí)現(xiàn)整個(gè)存儲(chǔ)信號(hào)鏈路的連接。
[0063]在本發(fā)明一個(gè)實(shí)施例中,存儲(chǔ)信號(hào)鏈路的連接允許從HBA至硬盤(pán)的信號(hào)傳輸,具體的一種工作過(guò)程參見(jiàn)圖1至圖3中的任意一個(gè),可以是:HBAlOl用于在進(jìn)入操作系統(tǒng)后,對(duì)硬盤(pán)103進(jìn)行讀寫(xiě)操作,該讀寫(xiě)操作的業(yè)務(wù)指令通過(guò)所述上行物理信道傳輸?shù)剿鲇脖P(pán)擴(kuò)展卡102,所述硬盤(pán)擴(kuò)展卡102將所述讀寫(xiě)操作的業(yè)務(wù)指令通過(guò)所述下行物理信道傳輸?shù)接脖P(pán)
103。
[0064]在本發(fā)明一個(gè)實(shí)施例中,基于上述存儲(chǔ)信號(hào)鏈路的連接,一種將故障實(shí)時(shí)定位出來(lái)的實(shí)現(xiàn)方式可以包括:
[0065]故障信息提供設(shè)備104為個(gè)人電腦PC機(jī);
[0066]所述PC機(jī),用于在DOS命令行下,接收輸入的指令將所述硬盤(pán)擴(kuò)展卡102的所述串口打開(kāi),并設(shè)置波特率,以及選擇相應(yīng)的串口號(hào),設(shè)置所述波特率與所述硬盤(pán)擴(kuò)展卡102端的波特率相同,建立與所述硬盤(pán)擴(kuò)展卡102的串口連接。此后,硬盤(pán)擴(kuò)展卡102則可以通過(guò)建立的串口連接將寄存器中記錄的第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備
104。
[0067]其中,輸入的指令為:xutil_scomlset smartcli ;
[0068]波特率可以為38400。
[0069]本發(fā)明一個(gè)實(shí)施例還提出了一種定位故障的方法。參見(jiàn)圖4,包括:
[0070]401:通過(guò)至少一個(gè)上行物理信道連接HBA和硬盤(pán)擴(kuò)展卡。
[0071 ] 402:通過(guò)至少兩個(gè)下行物理信道連接所述硬盤(pán)擴(kuò)展卡和至少兩個(gè)硬盤(pán)。
[0072]403:通過(guò)在所述硬盤(pán)擴(kuò)展卡上配置的串口連接所述硬盤(pán)擴(kuò)展卡和故障信息提供設(shè)備。
[0073]上述過(guò)程是預(yù)處理的系統(tǒng)構(gòu)建過(guò)程。在系統(tǒng)構(gòu)建完成后,各個(gè)設(shè)備則可以配合完成實(shí)時(shí)的定位故障的處理。
[0074]404:硬盤(pán)擴(kuò)展卡監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道。
[0075]405:當(dāng)監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),所述硬盤(pán)擴(kuò)展卡將所述第一物理信道的故障信息寫(xiě)入所述硬盤(pán)擴(kuò)展卡中的寄存器。
[0076]406:所述硬盤(pán)擴(kuò)展卡通過(guò)自身配置的所述串口將所述寄存器中所述第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備。
[0077]可見(jiàn),在搭建完系統(tǒng)架構(gòu)后,硬盤(pán)擴(kuò)展卡通過(guò)監(jiān)控在存儲(chǔ)信號(hào)鏈路,即上行物理信道和下行物理信道,則可以實(shí)時(shí)將故障的信息記錄到存儲(chǔ)器中,并通過(guò)串口實(shí)時(shí)地將故障報(bào)告出來(lái),由外部的故障信息提供設(shè)備來(lái)向用戶(hù)提供。
[0078]下面以20路的硬盤(pán)擴(kuò)展(Expander)卡為例,且以該Expander卡的接口為SAS卡,故障信息提供設(shè)備為PC機(jī)為例,來(lái)詳細(xì)說(shuō)明在本發(fā)明一個(gè)實(shí)施例中定位故障的方法的過(guò)程。參見(jiàn)圖5,并可以進(jìn)一步參見(jiàn)圖3,該過(guò)程包括:
[0079]501:將HBA卡、Expander卡、硬盤(pán)依次連接。
[0080]502:將Expander卡的兩個(gè)上行MINISAS接口接HBA卡,用于接收HBA發(fā)出的SAS信號(hào);下行三個(gè)MINISAS接口輸出12路SAS信號(hào)至硬盤(pán)背板,硬盤(pán)背板通過(guò)專(zhuān)用的連接器與硬盤(pán)相連接。
[0081 ] 這里,每一個(gè)MINISAS接口對(duì)應(yīng)4路SAS信號(hào)。所以,三個(gè)下行MINISAS接口輸出12路SAS信號(hào),因此,可以連接硬盤(pán)背板上的12個(gè)硬盤(pán)。兩個(gè)上行MINISAS接口接收8路SAS信號(hào)。因此,總共是20路SAS彳目號(hào)。
[0082]每一路SAS信號(hào)對(duì)應(yīng)一個(gè)物理信道。
[0083]503:將通用串口線(xiàn)纜一端連接至Expander卡上的串口,一端連接至PC機(jī)。
[0084]504:上電開(kāi)啟要測(cè)試的Rack機(jī)柜服務(wù)器節(jié)點(diǎn),進(jìn)入操作系統(tǒng)后,對(duì)硬盤(pán)進(jìn)行讀寫(xiě)操作,使存儲(chǔ)子系統(tǒng)鏈路中有信息傳輸。
[0085]505:在PC機(jī)端DOS命令行下,輸入指令將Expander卡端串口打開(kāi)。
[0086]這里,Expander對(duì)應(yīng)命令為:xutil_scomlset smartcli0
[0087]506:設(shè)置波特率(默認(rèn)38400)。
[0088]507:在PC機(jī)端開(kāi)啟串口調(diào)試軟件,選擇相應(yīng)的串口號(hào),設(shè)置波特率與Expander卡端相同,建立串口連接。
[0089]508:串口連接建立后,輸入bug檢測(cè)命令用于bug定位。
[°09°]如在本步驟中,輸入counters即可顯示對(duì)應(yīng)信道產(chǎn)生的bug。若反饋信息中無(wú)異常報(bào)錯(cuò),則該鏈路中無(wú)bug發(fā)生。
[0091 ] 509 = Expander卡監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道。
[0092]510:當(dāng)Expander卡監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),將所述第一物理信道的故障信息寫(xiě)入Expander卡的寄存器。
[0093]511 =Expander卡通過(guò)自身配置的所述串口將所述寄存器中所述第一物理信道的故障信息發(fā)送給PC機(jī)。
[0094]512:PC機(jī)實(shí)時(shí)處理接收到的第一物理信道的故障信息。
[0095]比如,本步驟中,將故障信息結(jié)果顯示給用戶(hù)。
[0096]圖6為一次實(shí)施中的測(cè)試結(jié)果,可見(jiàn)物理信道14、15有bug信息產(chǎn)生,對(duì)應(yīng)Expander卡下游硬盤(pán)中第7、8順位。更具體的,可以判斷是Expander卡至第7、8順位硬盤(pán)的連接線(xiàn)路發(fā)生了故障。
[0097]上述裝置內(nèi)的各單元之間的信息交互、執(zhí)行過(guò)程等內(nèi)容,由于與本發(fā)明方法實(shí)施例基于同一構(gòu)思,具體內(nèi)容可參見(jiàn)本發(fā)明方法實(shí)施例中的敘述,此處不再贅述。
[0098]本發(fā)明的各個(gè)實(shí)施例至少具有如下的有益效果:
[0099]1、由于通過(guò)硬盤(pán)擴(kuò)展卡將HBA與擴(kuò)展的多個(gè)硬盤(pán)相連,并且在硬盤(pán)擴(kuò)展卡上配置串口,通過(guò)串口將硬盤(pán)擴(kuò)展卡連接到能夠提供故障信息的故障信息提供設(shè)備,這樣,硬盤(pán)擴(kuò)展卡在HBA與硬盤(pán)之間傳輸業(yè)務(wù)信號(hào)時(shí),不僅可以監(jiān)控并在寄存器中記錄上下行物理信道的故障,并且還可以通過(guò)串口將在寄存器中記錄的故障信息實(shí)時(shí)傳輸?shù)酵獠康墓收闲畔⑻峁┰O(shè)備,從而實(shí)現(xiàn)了故障的實(shí)時(shí)定位。
[0100]2、本發(fā)明實(shí)施例中,可以通過(guò)硬盤(pán)擴(kuò)展卡內(nèi)部寄存器與串口的配置,通過(guò)寄存器記錄物理信道的故障信息,通過(guò)串口將故障信息實(shí)時(shí)在線(xiàn)引出到外部設(shè)備,因此能夠?qū)崿F(xiàn)故障的實(shí)時(shí)準(zhǔn)確定位,極大節(jié)約時(shí)間成本。
[0101]3、通過(guò)在線(xiàn)檢測(cè)的方式,可以最大限度減少因存儲(chǔ)子系統(tǒng)信息bug而必須關(guān)機(jī)檢測(cè)的次數(shù),提高了服務(wù)器產(chǎn)品性能穩(wěn)定性和工作可持續(xù)性。
[0102]4、該方法可適用于多個(gè)Expander卡,同時(shí)兼容SAS/SATA硬盤(pán),具有方案普遍性,有效節(jié)約經(jīng)濟(jì)成本。
[0103]需要說(shuō)明的是,在本文中,諸如第一和第二之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)......”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同因素。
[0104]本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過(guò)程序指令相關(guān)的硬件來(lái)完成,前述的程序可以存儲(chǔ)在計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:ROM、RAM、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)中。
[0105]最后需要說(shuō)明的是:以上所述僅為本發(fā)明的較佳實(shí)施例,僅用于說(shuō)明本發(fā)明的技術(shù)方案,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種定位故障的系統(tǒng),其特征在于,包括: HBA、硬盤(pán)擴(kuò)展卡、至少兩個(gè)硬盤(pán)以及故障信息提供設(shè)備,其中, 所述硬盤(pán)擴(kuò)展卡通過(guò)至少一個(gè)上行物理信道連接所述HBA,以及通過(guò)至少兩個(gè)下行物理信道連接所述至少兩個(gè)硬盤(pán);并且,所述硬盤(pán)擴(kuò)展卡還通過(guò)配置的串口連接到所述故障信息提供設(shè)備; 所述硬盤(pán)擴(kuò)展卡,用于監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道,當(dāng)監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),將所述第一物理信道的故障信息寫(xiě)入所述硬盤(pán)擴(kuò)展卡中的寄存器;還用于通過(guò)自身配置的所述串口將所述寄存器中所述第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備; 所述故障信息提供設(shè)備,用于提供所述第一物理信道的故障信息。2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述硬盤(pán)擴(kuò)展卡包括:至少一個(gè)上行SAS接口、至少一個(gè)下行SAS接口、所述串口、所述寄存器以及處理模塊;其中, 每一個(gè)所述上行SAS接口,用于連接所述HBA,接收所述HBA發(fā)送的業(yè)務(wù)信號(hào); 每一個(gè)所述下行SAS接口,用于連接至少一個(gè)硬盤(pán); 所述處理模塊,用于監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道,當(dāng)監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),將所述第一物理信道的故障信息寫(xiě)入所述寄存器;還通過(guò)所述串口將所述寄存器中所述第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備。3.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述處理模塊,進(jìn)一步用于將從每一個(gè)所述上行SAS接口接收到的業(yè)務(wù)信號(hào)進(jìn)行擴(kuò)展,將擴(kuò)展出的業(yè)務(wù)信號(hào)發(fā)送給對(duì)應(yīng)的下行SAS接□ O4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,包括兩個(gè)所述上行SAS接口、三個(gè)下行SAS接口、十二個(gè)下行物理信道。5.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,進(jìn)一步包括硬盤(pán)背板和連接器,其中, 所述至少兩個(gè)硬盤(pán)通過(guò)所述連接器設(shè)置在所述硬盤(pán)背板上, 所述硬盤(pán)擴(kuò)展卡連接到所述硬盤(pán)背板,通過(guò)所述硬盤(pán)背板連接所述至少兩個(gè)硬盤(pán)。6.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于, 所述HBA卡包括:SAS/RAID卡。7.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于, 所述HBA用于在進(jìn)入操作系統(tǒng)后,對(duì)硬盤(pán)進(jìn)行讀寫(xiě)操作,該讀寫(xiě)操作的業(yè)務(wù)指令通過(guò)所述上行物理信道傳輸?shù)剿鲇脖P(pán)擴(kuò)展卡,所述硬盤(pán)擴(kuò)展卡將所述讀寫(xiě)操作的業(yè)務(wù)指令通過(guò)所述下行物理信道傳輸?shù)接脖P(pán)。8.根據(jù)權(quán)利要求1至7中任一所述的系統(tǒng),其特征在于, 所述故障信息提供設(shè)備為個(gè)人電腦PC機(jī); 所述PC機(jī),用于在DOS命令行下,接收輸入的指令將所述硬盤(pán)擴(kuò)展卡的所述串口打開(kāi),并設(shè)置波特率,以及選擇相應(yīng)的串口號(hào),設(shè)置所述波特率與所述硬盤(pán)擴(kuò)展卡端的波特率相同,建立與所述硬盤(pán)擴(kuò)展卡的串口連接;9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于, 所述輸入的指令為:xutil_s coml set smartcli ; 和/或, 所述波特率為38400。10.一種定位故障的方法,其特征在于, 通過(guò)至少一個(gè)上行物理信道連接HBA和硬盤(pán)擴(kuò)展卡; 通過(guò)至少兩個(gè)下行物理信道連接所述硬盤(pán)擴(kuò)展卡和至少兩個(gè)硬盤(pán); 通過(guò)在所述硬盤(pán)擴(kuò)展卡上配置的串口連接所述硬盤(pán)擴(kuò)展卡和故障信息提供設(shè)備; 還包括: 所述硬盤(pán)擴(kuò)展卡監(jiān)控每一個(gè)所述上行物理信道和每一個(gè)下行物理信道; 當(dāng)監(jiān)控到其中任意一個(gè)第一物理信道發(fā)生故障時(shí),所述硬盤(pán)擴(kuò)展卡將所述第一物理信道的故障信息寫(xiě)入所述硬盤(pán)擴(kuò)展卡中的寄存器; 所述硬盤(pán)擴(kuò)展卡通過(guò)自身配置的所述串口將所述寄存器中所述第一物理信道的故障信息發(fā)送給所述故障信息提供設(shè)備。
【文檔編號(hào)】G06F11/07GK105975357SQ201610280318
【公開(kāi)日】2016年9月28日
【申請(qǐng)日】2016年4月29日
【發(fā)明人】張國(guó)強(qiáng), 岳遠(yuǎn)斌
【申請(qǐng)人】浪潮電子信息產(chǎn)業(yè)股份有限公司