一種基于冗余心跳鏈路和對(duì)端重啟鏈路的雙控制器存儲(chǔ)系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于冗余心跳鏈路和對(duì)端重啟鏈路的雙控制器存儲(chǔ)系統(tǒng),屬于計(jì)算機(jī)存儲(chǔ)【技術(shù)領(lǐng)域】,本發(fā)明將處理器與處理器通過NTB和串口鏈路連接可以實(shí)現(xiàn)數(shù)據(jù)鏡像和緩存鏡像,并且實(shí)時(shí)監(jiān)控彼此間的工作狀態(tài)。當(dāng)其中一塊主板出現(xiàn)故障時(shí),另一塊也可以通過重啟鏈路重啟對(duì)端主板,實(shí)現(xiàn)自我修復(fù)功能,即使一塊主板出現(xiàn)無法修復(fù)故障時(shí),另一塊主板也可以全面接管故障主板的所有工作,保證了存儲(chǔ)產(chǎn)品的高可靠性和高穩(wěn)定性。
【專利說明】-種基于冗余心跳鏈路和對(duì)端重啟鏈路的雙控制器存儲(chǔ)系 統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)存儲(chǔ)【技術(shù)領(lǐng)域】,尤其涉及一種基于冗余心跳鏈路和對(duì)端重啟鏈 路的雙控制器存儲(chǔ)系統(tǒng)。
【背景技術(shù)】
[0002] 計(jì)算機(jī)存儲(chǔ)的信息越來越多,而且越來越重要,為防止計(jì)算機(jī)中的數(shù)據(jù)意外丟失, 一般都采用許多重要的安全防護(hù)技術(shù)來確保數(shù)據(jù)的安全,設(shè)備的運(yùn)行損耗、存儲(chǔ)介質(zhì)失效、 運(yùn)行環(huán)境以及人為的破壞等,都能對(duì)設(shè)備造成影響,由此引發(fā)設(shè)備損壞、數(shù)據(jù)丟失的現(xiàn)象, 從而使得產(chǎn)品的可靠性和穩(wěn)定性得不到有效保障。
[0003] 隨著互聯(lián)網(wǎng),電子金融等行業(yè)的快速發(fā)展,人們對(duì)網(wǎng)絡(luò)數(shù)據(jù)的安全性,穩(wěn)定性要求 越來越高,而任何產(chǎn)品都有其壽命問題,故障問題等不穩(wěn)定因素,如何將這種不穩(wěn)定因素降 低成為當(dāng)前單控制器和初期雙控制器重點(diǎn)考慮的難題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種基于冗余心跳鏈路和對(duì)端重啟鏈路的雙控制器存儲(chǔ)系統(tǒng),保證了 存儲(chǔ)廣品的商可罪性和商穩(wěn)定性。
[0005] 所謂雙控制器,就是由兩塊完全相同的主板搭配同一個(gè)背板,控制此背板上所有 的硬盤。
[0006] 冗余心跳鏈路包括NTB (非透明橋)鏈路和串口心跳鏈路,雙控制主板間的CPU通 過NTB互聯(lián)通信,進(jìn)行數(shù)據(jù)鏡像,緩存鏡像,并且實(shí)時(shí)作為心跳鏈路,彼此間監(jiān)控對(duì)方的工 作狀態(tài);同時(shí)通過串口鏈路互聯(lián),作為系統(tǒng)層面的冗余心跳鏈路,當(dāng)NTB出現(xiàn)故障時(shí),心跳 鏈路會(huì)切換到串口鏈路,由串口鏈路偵測(cè)對(duì)方主板工作狀態(tài); 對(duì)端重啟鏈路,就是當(dāng)一個(gè)控制主板發(fā)現(xiàn)另一個(gè)控制主板長(zhǎng)期沒有響應(yīng)時(shí),視為對(duì)方 主板發(fā)生故障,然后向故障主板發(fā)出Reset信號(hào)來重啟對(duì)方,實(shí)現(xiàn)系統(tǒng)的自我修復(fù);如果一 塊主板出現(xiàn)了無法修復(fù)的故障,另一塊主板會(huì)全面接管故障主板的所有工作,預(yù)防數(shù)據(jù)丟 失,系統(tǒng)損壞,保證了存儲(chǔ)廣品的商可罪性和商穩(wěn)定性。
[0007] 本發(fā)明主要涉及到硬件線路和軟件層面的設(shè)計(jì)。具體分為如下幾個(gè)方面: 1、兩個(gè)控制主板使用NTB通過背板相連,通過NTB進(jìn)行數(shù)據(jù)鏡像,緩存鏡像,并且作為 系統(tǒng)層面的心跳鏈路,監(jiān)控兩個(gè)主板彼此間的工作狀態(tài);兩個(gè)主板同時(shí)與背板間通過高速 連接器連接來訪問管理所有的硬盤。
[0008] 2、兩個(gè)控制主板通過串口相連,作為系統(tǒng)層面的冗余心跳鏈路,當(dāng)NTB出現(xiàn)故障 時(shí),心跳鏈路會(huì)切換到串口鏈路,由串口鏈路偵測(cè)對(duì)端主板工作狀態(tài)。
[0009] 3、對(duì)端重啟鏈路,當(dāng)主板偵測(cè)到對(duì)端主板長(zhǎng)期沒有響應(yīng)時(shí),視為對(duì)方出現(xiàn)故障,通 過此鏈路重啟對(duì)方,實(shí)現(xiàn)自我修復(fù)。
[0010] 以上三點(diǎn)在硬件線路實(shí)現(xiàn)的同時(shí)需要軟件層面的設(shè)計(jì)。
[0011] 本發(fā)明提出的基于冗余心跳鏈路和對(duì)端重啟鏈路的雙控制器存儲(chǔ)系統(tǒng)可以大大 提高產(chǎn)品的穩(wěn)定性和自我修復(fù)能力。將處理器與處理器通過NTB和串口鏈路連接可以實(shí)現(xiàn) 數(shù)據(jù)鏡像和緩存鏡像,并且實(shí)時(shí)監(jiān)控彼此間的工作狀態(tài)。當(dāng)其中一塊主板出現(xiàn)故障時(shí),另一 塊也可以通過重啟鏈路重啟對(duì)端主板,實(shí)現(xiàn)自我修復(fù)功能,即使一塊主板出現(xiàn)無法修復(fù)故 障時(shí),另一塊主板也可以全面接管故障主板的所有工作,保證了存儲(chǔ)產(chǎn)品的高可靠性和高 穩(wěn)定性。
【專利附圖】
【附圖說明】
[0012] 下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說明; 附圖1是冗余心跳鏈路和對(duì)端重啟鏈路的整個(gè)拓?fù)浣Y(jié)構(gòu)圖。
【具體實(shí)施方式】
[0013] 根據(jù)本發(fā)明涉及到的幾個(gè)方面的硬件線路和軟件層面的設(shè)計(jì),分為如下三個(gè)方 面: 1.兩個(gè)控制主板使用NTB通過背板相連,通過NTB進(jìn)行數(shù)據(jù)鏡像,緩存鏡像,并且作為 系統(tǒng)層面的心跳鏈路,監(jiān)控兩個(gè)主板彼此間的工作狀態(tài);兩個(gè)主板同時(shí)與背板間通過高速 連接器連接來訪問管理所有的硬盤。
[0014] 2.兩個(gè)控制主板通過串口相連,作為系統(tǒng)層面的冗余心跳鏈路,當(dāng)NTB出現(xiàn)故障 時(shí),心跳鏈路會(huì)切換到串口鏈路,由串口鏈路偵測(cè)對(duì)端主板工作狀態(tài)。
[0015] 3.對(duì)端重啟鏈路,當(dāng)主板偵測(cè)到對(duì)端主板長(zhǎng)期沒有響應(yīng)時(shí),視為對(duì)方出現(xiàn)故障,通 過此鏈路重啟對(duì)方,實(shí)現(xiàn)自我修復(fù)。
[0016] 圖1是冗余心跳鏈路和對(duì)端重啟鏈路的整個(gè)拓?fù)浣Y(jié)構(gòu)圖,根據(jù)圖1作進(jìn)一步詳細(xì) 說明, 首先是雙控制器間的冗余結(jié)構(gòu),兩個(gè)控制器分別通過高速連接器與背板相連。每個(gè)控 制主板上搭有板載的SAS控制器和SAS Expander。SAS Expander通過背板的SAS總線連 接背板上所有的SAS硬盤,兩個(gè)控制主板通過冗余的方式管理讀取硬盤信息。
[0017] 其次,兩個(gè)主板上的CPU通過NTB (非透明橋)總線連接,此NTB采用PCIEx8的總 線模式,不同的協(xié)議規(guī)范相連,起到數(shù)據(jù)鏡像,緩存鏡像的作用,并且作為心跳鏈路實(shí)時(shí)偵 測(cè)對(duì)端主板狀況。為防止走線過長(zhǎng),在每個(gè)NTB的輸出端采用redriver將信號(hào)加強(qiáng),并且 可通過BIOS軟件來調(diào)整redriver的驅(qū)動(dòng)能力。
[0018] 再次,兩塊主板間通過串口鏈路相連。作為系統(tǒng)層面的冗余心跳鏈路,當(dāng)NTB出現(xiàn) 故障無法工作時(shí),串口鏈路會(huì)代替NTB的心跳鏈路功能。
[0019] 最后,每塊主板的CPU通過GPIO Pin與另一塊主板的CPLD相連,此CPLD模塊在 主板上起到的作用是控制整塊主板的上電時(shí)序和重啟方式。當(dāng)某塊主板偵測(cè)到另一塊主板 出現(xiàn)故障時(shí),正常主板通過本地CPU上的GPIO Pin腳向故障主板上的CPLD發(fā)出Reset信 號(hào),CPLD接收到命令后就會(huì)重啟自己所在的主板。工程師可以根據(jù)自己的需要搭配CPLD中 的代碼定義此Reset為Warm Reset或者是Cold Reset。
[0020] 通過以上幾點(diǎn)實(shí)現(xiàn)了雙控制器相互冗余的功能,實(shí)現(xiàn)了系統(tǒng)故障率的降低,保證 了存儲(chǔ)廣品的商可罪性和商穩(wěn)定性。
【權(quán)利要求】
1. 基于冗余心跳鏈路和對(duì)端重啟鏈路的雙控制器存儲(chǔ)系統(tǒng),其特征在于由兩塊完全相 同的主板搭配同一個(gè)背板,控制此背板上所有的硬盤;兩個(gè)控制主板通過冗余心跳鏈路和 對(duì)端重啟鏈路的冗余方式管理讀取硬盤信息。
2. 根據(jù)權(quán)利要求1所述的雙控制器存儲(chǔ)系統(tǒng),其特征在于冗余心跳鏈路包括NTB鏈路 和串口心跳鏈路,雙控制主板間的CPU通過NTB互聯(lián)通信,進(jìn)行數(shù)據(jù)鏡像,緩存鏡像,并且實(shí) 時(shí)作為心跳鏈路,彼此間監(jiān)控對(duì)方的工作狀態(tài); 同時(shí)通過串口鏈路互聯(lián),作為系統(tǒng)層面的冗余心跳鏈路,當(dāng)NTB出現(xiàn)故障時(shí),心跳鏈路 會(huì)切換到串口鏈路,由串口鏈路偵測(cè)對(duì)方主板工作狀態(tài)。
3. 根據(jù)權(quán)利要求2所述的雙控制器存儲(chǔ)系統(tǒng),其特征在于對(duì)端重啟鏈路,就是當(dāng)一個(gè) 控制主板發(fā)現(xiàn)另一個(gè)控制主板長(zhǎng)期沒有響應(yīng)時(shí),視為對(duì)方主板發(fā)生故障,然后向故障主板 發(fā)出Reset信號(hào)來重啟對(duì)方,實(shí)現(xiàn)系統(tǒng)的自我修復(fù);如果一塊主板出現(xiàn)了無法修復(fù)的故障, 另一塊主板會(huì)全面接管故障主板的所有工作。
4. 根據(jù)權(quán)利要求1所述的雙控制器存儲(chǔ)系統(tǒng),其特征在于兩個(gè)主板同時(shí)與背板間通過 高速連接器連接來訪問管理所有的硬盤。
5. 根據(jù)權(quán)利要求2所述的雙控制器存儲(chǔ)系統(tǒng),其特征在于為防止走線過長(zhǎng),在每個(gè)NTB 的輸出端采用redriver將信號(hào)加強(qiáng),并且可通過BIOS軟件來調(diào)整redriver的驅(qū)動(dòng)能力。
【文檔編號(hào)】G06F12/16GK104102559SQ201410337977
【公開日】2014年10月15日 申請(qǐng)日期:2014年7月16日 優(yōu)先權(quán)日:2014年7月16日
【發(fā)明者】唐傳貞 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司