對(duì)應(yīng)的自定義閾值進(jìn)行比較,若主控節(jié)點(diǎn)的運(yùn)行參數(shù)或計(jì)算節(jié)點(diǎn)的運(yùn)行參數(shù)或主控節(jié)點(diǎn)的網(wǎng)絡(luò)連接狀態(tài)達(dá)到各自對(duì)應(yīng)的自定義閾值時(shí),則繼續(xù)到下一步;若未達(dá)到,則重復(fù)本比較步驟;
[0044]S120、向客戶(hù)端發(fā)送報(bào)警信息和/或指示客戶(hù)端執(zhí)行云服務(wù)器自動(dòng)迀移指令,將云服務(wù)器從宕機(jī)的物理機(jī)迀移至目標(biāo)物理機(jī)。
[0045]如圖3所示的實(shí)施例,本發(fā)明的云服務(wù)器宕機(jī)監(jiān)控及迀移方法,包括如下步驟:
[0046]S200、監(jiān)控主控節(jié)點(diǎn)的CPU使用率;
[0047]S210、若主控節(jié)點(diǎn)的CPU使用率達(dá)到60%,則繼續(xù)到下一步;若未達(dá)到,則重復(fù)本步驟;
[0048]S220、若主控節(jié)點(diǎn)的CPU使用率達(dá)到60%的維持時(shí)間達(dá)到15分鐘,則繼續(xù)到下一步;若未達(dá)到,則重復(fù)本步驟;
[0049]S230、以RabbitMQ形式向客戶(hù)端發(fā)送手機(jī)短信和/或電子郵件報(bào)警信息;
[0050]S240、若宕機(jī)的物理機(jī)與目標(biāo)物理機(jī)之間共享存儲(chǔ)器且存在千兆以太網(wǎng),則繼續(xù)到下一步;否則,轉(zhuǎn)到步驟S246 ;
[0051]S245、將虛擬云服務(wù)器從宕機(jī)的物理機(jī)熱迀移到目標(biāo)物理機(jī);
[0052]S246、將虛擬云服務(wù)器從宕機(jī)的物理機(jī)冷迀移到目標(biāo)物理機(jī)。
[0053]如圖4所示的實(shí)施例,本發(fā)明的云服務(wù)器宕機(jī)監(jiān)控及迀移方法,包括如下步驟:
[0054]S300、監(jiān)控計(jì)算節(jié)點(diǎn)的內(nèi)存使用率;
[0055]S310、若計(jì)算節(jié)點(diǎn)的內(nèi)存使用率達(dá)到80%,則繼續(xù)到下一步;若未達(dá)到,則重復(fù)本步驟;
[0056]S320、若計(jì)算節(jié)點(diǎn)的內(nèi)存使用率達(dá)到80%的維持時(shí)間達(dá)到5分鐘,則繼續(xù)到下一步;若未達(dá)到,則重復(fù)本步驟;
[0057]S330、以RabbitMQ形式向客戶(hù)端發(fā)送手機(jī)短信和/或電子郵件報(bào)警信息;
[0058]S340、若宕機(jī)的物理機(jī)與目標(biāo)物理機(jī)之間共享存儲(chǔ)器且存在千兆以太網(wǎng),則繼續(xù)到下一步;否則,轉(zhuǎn)到步驟S346 ;
[0059]S345、將虛擬云服務(wù)器從宕機(jī)的物理機(jī)熱迀移到目標(biāo)物理機(jī);
[0060]S346、將虛擬云服務(wù)器從宕機(jī)的物理機(jī)冷迀移到目標(biāo)物理機(jī)。
[0061]如圖5所示的實(shí)施例,本發(fā)明的云服務(wù)器宕機(jī)監(jiān)控及迀移方法,包括如下步驟:
[0062]S400、監(jiān)控主控節(jié)點(diǎn)的外網(wǎng)或內(nèi)網(wǎng)或存儲(chǔ)網(wǎng)的網(wǎng)絡(luò)狀態(tài);
[0063]S410、若主控節(jié)點(diǎn)的外網(wǎng)或內(nèi)網(wǎng)或存儲(chǔ)網(wǎng)的網(wǎng)絡(luò)超時(shí)達(dá)到3分鐘,則繼續(xù)到下一步;若未達(dá)到,則重復(fù)本步驟;
[0064]S430、以RabbitMQ形式向客戶(hù)端發(fā)送手機(jī)短信和/或電子郵件報(bào)警信息;
[0065]S440、若宕機(jī)的物理機(jī)與目標(biāo)物理機(jī)之間共享存儲(chǔ)器且存在千兆以太網(wǎng),則繼續(xù)到下一步;否則,轉(zhuǎn)到步驟S446 ;
[0066]S445、將虛擬云服務(wù)器從宕機(jī)的物理機(jī)熱迀移到目標(biāo)物理機(jī);
[0067]S446、將虛擬云服務(wù)器從宕機(jī)的物理機(jī)冷迀移到目標(biāo)物理機(jī)。
[0068]如圖6a所示,假設(shè)某用戶(hù)的虛擬云服務(wù)器為P,云平臺(tái)采用的是Gph存儲(chǔ),產(chǎn)生出Pl、P2和P3三份備份數(shù)據(jù),該用戶(hù)的虛擬云服務(wù)器P正常運(yùn)行在物理機(jī)A中,物理機(jī)A、B、C……Z之間通過(guò)網(wǎng)絡(luò)連接,且具有共享存儲(chǔ)資源池。如圖6b所示,當(dāng)物理機(jī)A存在故障或異常時(shí)(圖6b中物理機(jī)A上的標(biāo)記“ X ”表示存在故障或異常),宕機(jī)監(jiān)控單元Monitor會(huì)將物理機(jī)A的故障或異常消息立刻以RabbitMQ形式發(fā)送到報(bào)警信息接收單元Consumer中,該消息可為手機(jī)短信或電子郵件,并在瞬間將客戶(hù)的虛擬云服務(wù)器為P從故障或異常的物理機(jī)A迀移到目標(biāo)物理機(jī)B中繼續(xù)運(yùn)行,如圖6b中所示的網(wǎng)絡(luò)為千兆以太網(wǎng),則該迀移為熱迀移,將整個(gè)虛擬云服務(wù)器為P的運(yùn)行狀態(tài)完整保存下來(lái),虛擬云服務(wù)器為P仍舊平滑運(yùn)行,用戶(hù)不會(huì)察覺(jué)到任何差異。
[0069]此迀移的過(guò)程非常迅速并且由系統(tǒng)自動(dòng)完成,用戶(hù)在使用過(guò)程中不會(huì)感受到服務(wù)器迀移所帶來(lái)的變化。當(dāng)物理機(jī)出現(xiàn)故障時(shí),宕機(jī)監(jiān)控單元Monitor還會(huì)將故障信息發(fā)送給公司運(yùn)維人員,運(yùn)維人員可根據(jù)該信息對(duì)故障物理機(jī)進(jìn)行快速排查,盡快解決物理機(jī)故障問(wèn)題。待物理機(jī)A修復(fù)完畢后重新上架繼續(xù)工作。當(dāng)物理機(jī)A重新上架完畢恢復(fù)正常工作后,服務(wù)器會(huì)自行啟動(dòng)負(fù)載均衡,通過(guò)多種均衡算法和豐富的負(fù)載均衡策略使服務(wù)器資源進(jìn)行合理分配,讓用戶(hù)更高效合理地使用服務(wù)器和網(wǎng)絡(luò)資源,極大提升鏈路利用效率,保障業(yè)務(wù)高效運(yùn)行。
[0070]以上述依據(jù)本發(fā)明的理想實(shí)施例為啟示,通過(guò)上述的說(shuō)明內(nèi)容,相關(guān)工作人員完全可以在不偏離本項(xiàng)發(fā)明技術(shù)思想的范圍內(nèi),進(jìn)行多樣的變更以及修改。本項(xiàng)發(fā)明的技術(shù)性范圍并不局限于說(shuō)明書(shū)上的內(nèi)容,必須要根據(jù)權(quán)利要求范圍來(lái)確定其技術(shù)性范圍。
【主權(quán)項(xiàng)】
1.云服務(wù)器宕機(jī)監(jiān)控迀移系統(tǒng),其特征在于,所述系統(tǒng)包括宕機(jī)監(jiān)控單元、消息傳輸單元、報(bào)警信息接收單元和迀移執(zhí)行單元,其中, 所述宕機(jī)監(jiān)控單元包括相互獨(dú)立的主控節(jié)點(diǎn)監(jiān)控模塊和計(jì)算節(jié)點(diǎn)監(jiān)控模塊,所述主控節(jié)點(diǎn)監(jiān)控模塊和所述計(jì)算節(jié)點(diǎn)監(jiān)控模塊的輸出端分別連接到所述消息傳輸單元的輸入端,所述消息傳輸單元的輸出端分別連接到所述報(bào)警信息接收單元和所述迀移執(zhí)行單元的輸入端; 所述主控節(jié)點(diǎn)監(jiān)控模塊適于實(shí)時(shí)監(jiān)控主控節(jié)點(diǎn)及計(jì)算節(jié)點(diǎn)的運(yùn)行參數(shù)和網(wǎng)絡(luò)的連接狀態(tài),當(dāng)所述運(yùn)行參數(shù)或所述網(wǎng)絡(luò)連接狀態(tài)達(dá)到各自對(duì)應(yīng)的自定義閾值時(shí),所述主控節(jié)點(diǎn)監(jiān)控模塊通過(guò)所述消息傳輸單元向所述報(bào)警信息接收單元發(fā)送報(bào)警信息和/或向所述迀移執(zhí)行單元發(fā)送云服務(wù)器迀移指令; 所述計(jì)算節(jié)點(diǎn)監(jiān)控模塊適于實(shí)時(shí)監(jiān)控計(jì)算節(jié)點(diǎn)的運(yùn)行參數(shù),當(dāng)所述運(yùn)行參數(shù)達(dá)到各自對(duì)應(yīng)的自定義閾值時(shí),所述計(jì)算節(jié)點(diǎn)監(jiān)控模塊通過(guò)所述消息傳輸單元向所述報(bào)警信息接收單元發(fā)送報(bào)警信息和/或向所述迀移執(zhí)行單元發(fā)送云服務(wù)器迀移指令。2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述消息傳輸單元基于Rabbit消息隊(duì)列進(jìn)行消息傳輸。3.根據(jù)權(quán)利要求1或2所述的系統(tǒng),其特征在于,所述運(yùn)行參數(shù)達(dá)到各自對(duì)應(yīng)的所述自定義閾值后,還需維持一定時(shí)間T,所述主控節(jié)點(diǎn)監(jiān)控模塊或計(jì)算節(jié)點(diǎn)監(jiān)控模塊才通過(guò)所述消息傳輸單元向所述報(bào)警信息接收單元發(fā)送報(bào)警信息和/或向所述迀移執(zhí)行單元發(fā)送云服務(wù)器迀移指令。4.根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于,所述運(yùn)行參數(shù)包括CPU使用率、CPU負(fù)載、內(nèi)存使用率、內(nèi)存負(fù)載、磁盤(pán)空間、磁盤(pán)I/O數(shù)量和系統(tǒng)進(jìn)程數(shù)中的一種或多種。5.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于,所述CPU使用率對(duì)應(yīng)的自定義閾值為60% -80%,所述維持時(shí)間T為5-15分鐘。6.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于,所述內(nèi)存使用率的自定義閾值為60% -80%,所述維持時(shí)間T為5-15分鐘。7.根據(jù)權(quán)利要求1或2所述的系統(tǒng),其特征在于,所述網(wǎng)絡(luò)連接狀態(tài)包括網(wǎng)絡(luò)流量和/或網(wǎng)絡(luò)超時(shí)時(shí)間。8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述網(wǎng)絡(luò)超時(shí)時(shí)間為1-3分鐘。9.云服務(wù)器宕機(jī)監(jiān)控迀移方法,其特征在于,包括如下步驟: (1)監(jiān)控主控節(jié)點(diǎn)的運(yùn)行參數(shù)及網(wǎng)絡(luò)連接狀態(tài)和/或監(jiān)控計(jì)算節(jié)點(diǎn)的運(yùn)行參數(shù); (2)將所述運(yùn)行參數(shù)或網(wǎng)絡(luò)連接狀態(tài)與各自對(duì)應(yīng)的自定義閾值進(jìn)行比較,若所述運(yùn)行參數(shù)或網(wǎng)絡(luò)連接狀態(tài)達(dá)到各自對(duì)應(yīng)的所述自定義閾值時(shí),則繼續(xù)到下一步;若未達(dá)到,則重復(fù)本比較步驟; (3)向客戶(hù)端發(fā)送報(bào)警信息和/或指示客戶(hù)端執(zhí)行云服務(wù)器自動(dòng)迀移指令,將所述云服務(wù)器從宕機(jī)的物理機(jī)迀移至目標(biāo)物理機(jī)。10.根據(jù)權(quán)利要求9所述的方法,其特征在于,步驟(2)中所述運(yùn)行參數(shù)達(dá)到各自對(duì)應(yīng)的所述自定義閾值后,還需維持一定時(shí)間T,才繼續(xù)到所述步驟(3)。11.根據(jù)權(quán)利要求10所述的方法,其特征在于,步驟(2)中所述運(yùn)行參數(shù)包括CPU使用率、CPU負(fù)載、內(nèi)存使用率、內(nèi)存負(fù)載、磁盤(pán)空間、磁盤(pán)I/O數(shù)量和系統(tǒng)進(jìn)程數(shù)中的一種或多 種。12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述CPU使用率對(duì)應(yīng)的自定義閾值為60% -80%,所述維持時(shí)間T為5-15分鐘。13.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述內(nèi)存使用率的自定義閾值為60% -80%,所述維持時(shí)間T為5-15分鐘。14.根據(jù)權(quán)利要求9所述的方法,其特征在于,步驟(2)中所述網(wǎng)絡(luò)連接狀態(tài)包括網(wǎng)絡(luò)流量和/或網(wǎng)絡(luò)超時(shí)時(shí)間。15.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述網(wǎng)絡(luò)超時(shí)時(shí)間為1-3分鐘。16.根據(jù)權(quán)利要求9所述的方法,其特征在于,步驟(3)所述執(zhí)行云服務(wù)器自動(dòng)迀移指令,當(dāng)在所述宕機(jī)的物理機(jī)與所述目標(biāo)物理機(jī)之間共享存儲(chǔ)器且存在千兆以太網(wǎng)時(shí),進(jìn)行熱迀移;否則,進(jìn)行冷迀移。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種云服務(wù)器宕機(jī)監(jiān)控遷移系統(tǒng)和方法,包括:宕機(jī)監(jiān)控單元包括相互獨(dú)立的主控節(jié)點(diǎn)監(jiān)控模塊和計(jì)算節(jié)點(diǎn)監(jiān)控模塊,主控節(jié)點(diǎn)監(jiān)控模塊實(shí)時(shí)監(jiān)控主控節(jié)點(diǎn)及計(jì)算節(jié)點(diǎn)的運(yùn)行參數(shù)和網(wǎng)絡(luò)的連接狀態(tài),當(dāng)運(yùn)行參數(shù)或網(wǎng)絡(luò)連接狀態(tài)達(dá)到各自對(duì)應(yīng)的自定義閾值時(shí),主控或計(jì)算節(jié)點(diǎn)監(jiān)控模塊通過(guò)消息傳輸單元向報(bào)警信息接收單元發(fā)送報(bào)警信息和/或向遷移執(zhí)行單元發(fā)送云服務(wù)器遷移指令。本發(fā)明通過(guò)可調(diào)控的自定義預(yù)警閥值,對(duì)虛擬云服務(wù)器所在的物理機(jī)進(jìn)行全局監(jiān)控,并且對(duì)故障物理機(jī)中部署的客戶(hù)的虛擬云服務(wù)器進(jìn)行自動(dòng)化遷移,為客戶(hù)帶來(lái)高效率、高可用、高保障的服務(wù)。
【IPC分類(lèi)】H04L12/24
【公開(kāi)號(hào)】CN105245381
【申請(qǐng)?zhí)枴緾N201510690056
【發(fā)明人】侯亞輝
【申請(qǐng)人】上海斐訊數(shù)據(jù)通信技術(shù)有限公司
【公開(kāi)日】2016年1月13日
【申請(qǐng)日】2015年10月22日