集群節(jié)點失效檢測方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種集群節(jié)點失效檢測方法和系統(tǒng),控制集群中的節(jié)點之間相互發(fā)送檢測數(shù)據(jù)包;依次將集群中任一節(jié)點作為第二節(jié)點,其它節(jié)點作為第一節(jié)點以確定第二節(jié)點的有效性;確定在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量;在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。在大于預(yù)設(shè)閥值數(shù)量的第一節(jié)點未接收到第二節(jié)點反饋的響應(yīng)信息時,才認定第二節(jié)點為失效節(jié)點,保證失效節(jié)點定位的準(zhǔn)確性。
【專利說明】集群節(jié)點失效檢測方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信【技術(shù)領(lǐng)域】,尤其涉及一種集群節(jié)點失效檢測方法和系統(tǒng)。
【背景技術(shù)】
[0002]近些年來,由于計算機技術(shù)的日新月異,集群技術(shù)也得到了迅猛發(fā)展。集群技術(shù)的一個顯著特征便為其高可用性。即它可以讓用戶通過互聯(lián)網(wǎng)絡(luò),連接到一個由多個節(jié)點組成的后端服務(wù)器系統(tǒng)上,使系統(tǒng)的可靠性得到保證。通過采用冗余的部件,高可用多節(jié)點集群系統(tǒng)可以有效地防止因單點故障而造成的系統(tǒng)停機,保證服務(wù)器對外持續(xù)的提供服務(wù),極大地提高了系統(tǒng)的可用性,但現(xiàn)有技術(shù)中往往無法對集群中的失效節(jié)點進行定位,導(dǎo)致數(shù)據(jù)傳輸出現(xiàn)故障。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的主要目的是提供一種集群節(jié)點失效檢測方法和系統(tǒng),旨在提高集群中失效節(jié)點檢測的準(zhǔn)確性。
[0004]本發(fā)明提出一種集群節(jié)點失效檢測方法,包括:
[0005]控制集群中的節(jié)點之間相互發(fā)送檢測數(shù)據(jù)包;
[0006]依次將集群中任一節(jié)點作為第二節(jié)點,其它節(jié)點作為第一節(jié)點以確定第二節(jié)點的有效性;
[0007]確定在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量;
[0008]在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。
[0009]優(yōu)選地,確定在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量的步驟之后,該方法包括:
[0010]在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量等于預(yù)設(shè)的第一閥值時,確定在預(yù)設(shè)的第二時間間隔內(nèi)未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量;
[0011]在預(yù)設(shè)的第二時間間隔內(nèi),未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第二閥值時,記錄所述第二節(jié)點為失效節(jié)點。
[0012]優(yōu)選地,所述在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點的步驟之后,該方法包括:
[0013]獲取集群節(jié)點中所述失效節(jié)點的數(shù)量;
[0014]在集群中所述失效節(jié)點的數(shù)量大于預(yù)設(shè)的第三閥值時,記錄所述集群為失效集群。
[0015]優(yōu)選地,所述確定在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量的步驟之后,該方法包括:
[0016]在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為有效節(jié)點。
[0017]優(yōu)選地,所述在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點的步驟之后,該方法包括:
[0018]確定所述失效節(jié)點上的傳輸資源的類型;
[0019]在所述失效節(jié)點上的傳輸資源為系統(tǒng)資源時,獲取其它有效節(jié)點的負載狀況,并確定負載最低的有效節(jié)點;
[0020]控制所述負載最低的有效節(jié)點進行所述系統(tǒng)資源的傳輸。
[0021]本發(fā)明還提出一種集群節(jié)點失效檢測系統(tǒng),包括:
[0022]控制模塊,用于控制集群中的節(jié)點之間相互發(fā)送檢測數(shù)據(jù)包;
[0023]節(jié)點有效性檢測模塊,用于依次將集群中任一節(jié)點作為第二節(jié)點,其它節(jié)點作為第一節(jié)點以確定第二節(jié)點的有效性;
[0024]確定模塊,用于確定在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量;
[0025]記錄模塊,用于在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。
[0026]優(yōu)選地,所述確定模塊還用于在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量等于預(yù)設(shè)的第一閥值時,確定在預(yù)設(shè)的第二時間間隔內(nèi)未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量;所述記錄模塊還用于在預(yù)設(shè)的第二時間間隔內(nèi),未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第二閥值時,記錄所述第二節(jié)點為失效節(jié)點。
[0027]優(yōu)選地,,所述獲取模塊還用于獲取集群節(jié)點中所述失效節(jié)點的數(shù)量;所述記錄模塊還用于在集群中所述失效節(jié)點的數(shù)量大于預(yù)設(shè)的第三閥值時,記錄所述集群為失效集群
[0028]優(yōu)選地,所述記錄模塊還用于在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為有效節(jié)點。
[0029]優(yōu)選地,所述確定模塊還用于確定所述失效節(jié)點上的傳輸資源的類型;該系統(tǒng)還包括獲取模塊,用于在所述失效節(jié)點上的傳輸資源為系統(tǒng)資源時,獲取其它有效節(jié)點的負載狀況,并確定負載最低的有效節(jié)點;所述控制模塊還用于控制所述負載最低的有效節(jié)點進行所述系統(tǒng)資源的傳輸。
[0030]本發(fā)明提出的集群節(jié)點失效檢測方法和系統(tǒng),控制集群中的節(jié)點之間相互發(fā)送檢測數(shù)據(jù)包;依次將集群中任一節(jié)點作為第二節(jié)點,其它節(jié)點作為第一節(jié)點以確定第二節(jié)點的有效性;確定在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量;在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。在大于預(yù)設(shè)閥值數(shù)量的第一節(jié)點未接收到第二節(jié)點反饋的響應(yīng)信息時,才認定第二節(jié)點為失效節(jié)點,保證失效節(jié)點定位的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0031]圖1為本發(fā)明集群節(jié)點失效檢測方法第一實施例的流程示意圖;
[0032]圖2為本發(fā)明集群節(jié)點失效檢測方法第二實施例的流程示意圖;
[0033]圖3為本發(fā)明集群節(jié)點失效檢測方法第三實施例的流程示意圖;[0034]圖4為本發(fā)明集群節(jié)點失效檢測方法第四實施例的流程示意圖;
[0035]圖5為本發(fā)明集群節(jié)點失效檢測方法第五實施例的流程示意圖;
[0036]圖6為本發(fā)明集群節(jié)點失效檢測系統(tǒng)較佳實施例的功能模塊示意圖。
[0037]本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。
【具體實施方式】
[0038]下面結(jié)合附圖及具體實施例就本發(fā)明的技術(shù)方案做進一步的說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0039]參照圖1,圖1為本發(fā)明集群節(jié)點失效檢測方法第一實施例的流程示意圖。
[0040]本實施例提出一種集群節(jié)點失效檢測方法,包括:
[0041]步驟S10,控制集群中的節(jié)點之間相互發(fā)送檢測數(shù)據(jù)包;
[0042]在本實施例中,可控制各個節(jié)點之間互相發(fā)送檢測數(shù)據(jù)包,以保證集群中各個節(jié)點之間運行狀態(tài)的相互檢測。
[0043]步驟S20,依次將集群中任一節(jié)點作為第二節(jié)點,其它節(jié)點作為第一節(jié)點以確定第二節(jié)點的有效性;
[0044]例如,在集群中有A、B、C、D四個節(jié)點,將B節(jié)點作為第二節(jié)點,則A、C、D三個節(jié)點
均為第一節(jié)點,判斷B節(jié)點是否有效,在判斷B節(jié)點是否有效后,可按照預(yù)設(shè)的順序繼續(xù)判斷C節(jié)點是否有效,依次類推直至檢測完所有的節(jié)點。
[0045]步驟S30,獲取在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量;
[0046]在本實施例中,第二節(jié)點在接收到數(shù)據(jù)包時,對接收到的數(shù)據(jù)包進行解析以確定接收到的數(shù)據(jù)包的類型,在接收到的數(shù)據(jù)包為檢測數(shù)據(jù)包時,向所述第一節(jié)點反饋響應(yīng)數(shù)據(jù)包。由于存在通信鏈路故障的情況,則第一節(jié)點未接收到第二節(jié)點發(fā)送的反饋數(shù)據(jù)包括多種情況:a、通信鏈路出現(xiàn)故障;b、第一節(jié)點出現(xiàn)故障并未發(fā)送檢測數(shù)據(jù)包;c、第二節(jié)點出現(xiàn)故障并未發(fā)送反饋數(shù)據(jù)包。
[0047]在本實施例中,獲取未接收到第二節(jié)點反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量的步驟可通過以下方案實現(xiàn):a、第一節(jié)點在預(yù)設(shè)的第一時間間隔內(nèi)未接收到響應(yīng)數(shù)據(jù)包時,記錄第二節(jié)點相對于第一節(jié)點為不可信節(jié)點,并記錄第一節(jié)點的標(biāo)識(如名稱以及代碼等),則該記錄的第一節(jié)點的標(biāo)識的數(shù)量即為未接收到第二節(jié)點反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量山、第一節(jié)點在預(yù)設(shè)的第一時間間隔內(nèi)未接收到響應(yīng)數(shù)據(jù)包時,記錄所述第二節(jié)點為不可信節(jié)點。該記錄不可信節(jié)點的步驟可通過多種方式實現(xiàn),例如,建立可信節(jié)點數(shù)據(jù)庫以及不可信節(jié)點數(shù)據(jù)庫,在將第二節(jié)點記錄為不可信節(jié)點時,將其標(biāo)識(如名稱以及代碼等)添加至不可信節(jié)點數(shù)據(jù)庫中;或者,在將第二節(jié)點記錄為不可信節(jié)點時,給所述第二節(jié)點添加不可信標(biāo)識,并獲取記錄第二節(jié)點為不可信節(jié)點的次數(shù),該記錄第二節(jié)點為不可信節(jié)點的次數(shù)即為未接收到第二節(jié)點反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量。
[0048]步驟S40,在獲取的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。
[0049]在本實施例中,第一閥值可由用戶進行設(shè)定,優(yōu)選方案為第一節(jié)點的數(shù)量的一半,以保證在大部分第一節(jié)點未接收到第二節(jié)點反饋的響應(yīng)數(shù)據(jù)包時,記錄第二節(jié)點為失效節(jié)點。
[0050]本實施例提出的集群節(jié)點失效檢測方法,控制集群中的節(jié)點之間相互發(fā)送檢測數(shù)據(jù)包;依次將集群中任一節(jié)點作為第二節(jié)點,其它節(jié)點作為第一節(jié)點以確定第二節(jié)點的有效性;確定在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量;在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。在大于預(yù)設(shè)閥值數(shù)量的第一節(jié)點未接收到第二節(jié)點反饋的響應(yīng)信息時,才認定第二節(jié)點為失效節(jié)點,保證失效節(jié)點定位的準(zhǔn)確性。
[0051]進一步地,為提高集群節(jié)點失效檢測的準(zhǔn)確定,參照圖2,提出本發(fā)明集群節(jié)點失效檢測方法第二實施例,在本實施例中,步驟S30之后,該方法包括:
[0052]步驟S50,在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量等于預(yù)設(shè)的第一閥值時,確定在預(yù)設(shè)的第二時間間隔內(nèi)未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量;
[0053]步驟S60,在預(yù)設(shè)的第二時間間隔內(nèi),未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第二閥值時,記錄所述第二節(jié)點為失效節(jié)點。
[0054]在本實施例中,可能出現(xiàn)未接受到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量等于預(yù)設(shè)的第一閥值的情況,此時,無法確定第二節(jié)點是否失效,需要通過第一節(jié)點是否接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包,來確定第二節(jié)點是否失效,即:確定預(yù)設(shè)的第二時間間隔內(nèi)接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量,在預(yù)設(shè)的第二時間間隔內(nèi)接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第二閥值時,記錄該第二節(jié)點為有效節(jié)點,在預(yù)設(shè)的第二時間間隔內(nèi)接受到未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第二閥值時,記錄該第二節(jié)點為失效節(jié)點。
[0055]本領(lǐng)域技術(shù)人員可以理解的是,為提高失效節(jié)點有效性檢測的效率,步驟S30可替換為:獲取在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包第一節(jié)點的數(shù)量;在獲取的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄第二節(jié)點為失效節(jié)點。
[0056]進一步地,為提高通信的準(zhǔn)確性,參照圖3,提出本發(fā)明集群節(jié)點失效檢測方法第三實施例,在本實施例中,步驟S30之后該方法還包括:
[0057]步驟S70,獲取集群節(jié)點中所述失效節(jié)點的數(shù)量;
[0058]步驟S80,在集群中所述失效節(jié)點的數(shù)量大于預(yù)設(shè)的第三閥值時,記錄所述集群為失效集群。
[0059]在本實施例中,預(yù)設(shè)的第三閥值優(yōu)選為集群中節(jié)點數(shù)量的一半,在集群中大部分節(jié)點不可用時,則認為該集群系統(tǒng)已不可進行數(shù)據(jù)傳輸,記錄該集群為失效集群。在記錄失效節(jié)點以及記錄該集群為失效集群之后,可向維護終端(如服務(wù)器以及維修人員攜帶的終端等)發(fā)送維護請求,要保證失效節(jié)點和失效集群及時回復(fù)正常。
[0060]本領(lǐng)域技術(shù)人員可以理解的是,在第三閥值優(yōu)選為集群中節(jié)點數(shù)量的一半時,若集群中有一個節(jié)點為失效節(jié)點,且集群中節(jié)點總數(shù)為二時,則認為節(jié)點之間無法進行通信,此時記錄所述集群為失效集群。
[0061]進一步地,為提高通信的準(zhǔn)確性,參照圖4,提出本發(fā)明集群節(jié)點失效檢測方法第四實施例,在本實施例中,步驟S30之后該方法還包括:
[0062]步驟S90,判斷獲取的第一節(jié)點的數(shù)量大于或小于預(yù)設(shè)的第一閥值;[0063]步驟S100,在獲取的第一節(jié)點的數(shù)量小于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為有效節(jié)點;
[0064]步驟S40,在獲取到的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。
[0065]在本實施例中,在獲取的第一節(jié)點的數(shù)量小于預(yù)設(shè)的第一閥值時,由于大部分的第一節(jié)點均接收到第二節(jié)點發(fā)送的響應(yīng)數(shù)據(jù)包,則記錄該第二節(jié)點為有效節(jié)點。
[0066]進一步地,為提高通信的準(zhǔn)確性,參照圖5,提出本發(fā)明集群節(jié)點失效檢測方法第五實施例,在本實施例中,步驟S40之后該方法還包括:
[0067]步驟S110,確定所述失效節(jié)點上的傳輸資源的類型;
[0068]步驟S120,在所述失效節(jié)點上的傳輸資源為預(yù)設(shè)的資源類型時,獲取其它有效節(jié)點的負載狀況,并確定負載最低的有效節(jié)點;
[0069]步驟S130,控制所述負載最低的有效節(jié)點進行所述傳輸資源的傳輸。
[0070]在本實施例中,預(yù)設(shè)的資源類型其系統(tǒng)資源,為避免系統(tǒng)資源在傳輸過程中丟失,導(dǎo)致集群系統(tǒng)出現(xiàn)故障,則采用其它失效節(jié)點進行該系統(tǒng)資源的傳輸,以保證系統(tǒng)運行正常;為減小其它有效節(jié)點的傳輸壓力,采用傳輸負載最小的節(jié)點進行數(shù)據(jù)傳輸。
[0071]本領(lǐng)域技術(shù)人員可以理解的是,為提高數(shù)據(jù)傳輸效率,減小各個節(jié)點的傳輸壓力,可將失效節(jié)點上的傳輸資源分為多個子資源,然后由多個有效節(jié)點分別傳輸該多個子資源。
[0072]參照圖6,圖6為本發(fā)明集群節(jié)點失效檢測系統(tǒng)較佳實施例的功能模塊示意圖。
[0073]需要強調(diào)的是,對本領(lǐng)域的技術(shù)人員來說,圖6所示功能模塊圖僅僅是一個較佳實施例的示例圖,本領(lǐng)域的技術(shù)人員圍繞圖6所示的集群節(jié)點失效檢測系統(tǒng)的功能模塊,可輕易進行新的功能模塊的補充;各功能模塊的名稱是自定義名稱,僅用于輔助理解該集群節(jié)點失效檢測系統(tǒng)的各個程序功能塊,不用于限定本發(fā)明的技術(shù)方案,本發(fā)明技術(shù)方案的核心是,各自定義名稱的功能模塊所要達成的功能。
[0074]本實施例提出一種集群節(jié)點失效檢測系統(tǒng),包括:
[0075]控制模塊10,用于控制集群中的節(jié)點之間相互發(fā)送檢測數(shù)據(jù)包;
[0076]在本實施例中,可控制各個節(jié)點之間互相發(fā)送檢測數(shù)據(jù)包,以保證集群中各個節(jié)點之間運行狀態(tài)的相互檢測。
[0077]節(jié)點有效性檢測模塊20,用于依次將集群中任一節(jié)點作為第二節(jié)點,其它節(jié)點作為第一節(jié)點以確定第二節(jié)點的有效性;
[0078]例如,在集群中有A、B、C、D四個節(jié)點,將B節(jié)點作為第二節(jié)點,則A、C、D三個節(jié)點均為第一節(jié)點,判斷B節(jié)點是否有效,在判斷B節(jié)點是否有效后,可按照預(yù)設(shè)的順序繼續(xù)判斷C節(jié)點是否有效,依次類推直至檢測完所有的節(jié)點。
[0079]獲取模塊30,用于獲取在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量;
[0080]在本實施例中,第二節(jié)點在接收到數(shù)據(jù)包時,對接收到的數(shù)據(jù)包進行解析以確定接收到的數(shù)據(jù)包的類型,在接收到的數(shù)據(jù)包為檢測數(shù)據(jù)包時,向所述第一節(jié)點反饋響應(yīng)數(shù)據(jù)包。由于存在通信鏈路故障的情況,則第一節(jié)點未接收到第二節(jié)點發(fā)送的反饋數(shù)據(jù)包括多種情況:a、通信鏈路出現(xiàn)故障;b、第一節(jié)點出現(xiàn)故障并未發(fā)送檢測數(shù)據(jù)包;c、第二節(jié)點出現(xiàn)故障并未發(fā)送反饋數(shù)據(jù)包。
[0081]在本實施例中,獲取未接收到第二節(jié)點反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量的步驟可通過以下方案實現(xiàn):a、第一節(jié)點在預(yù)設(shè)的第一時間間隔內(nèi)未接收到響應(yīng)數(shù)據(jù)包時,記錄第二節(jié)點相對于第一節(jié)點為不可信節(jié)點,并記錄第一節(jié)點的標(biāo)識(如名稱以及代碼等),則該記錄的第一節(jié)點的標(biāo)識的數(shù)量即為未接收到第二節(jié)點反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量山、第一節(jié)點在預(yù)設(shè)的第一時間間隔內(nèi)未接收到響應(yīng)數(shù)據(jù)包時,記錄所述第二節(jié)點為不可信節(jié)點。該記錄不可信節(jié)點的步驟可通過多種方式實現(xiàn),例如,建立可信節(jié)點數(shù)據(jù)庫以及不可信節(jié)點數(shù)據(jù)庫,在將第二節(jié)點記錄為不可信節(jié)點時,將其標(biāo)識(如名稱以及代碼等)添加至不可信節(jié)點數(shù)據(jù)庫中;或者,在將第二節(jié)點記錄為不可信節(jié)點時,給所述第二節(jié)點添加不可信標(biāo)識,并獲取記錄第二節(jié)點為不可信節(jié)點的次數(shù),該記錄第二節(jié)點為不可信節(jié)點的次數(shù)即為未接收到第二節(jié)點反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量。
[0082]記錄模塊40,用于在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。
[0083]在本實施例中,第一閥值可由用戶進行設(shè)定,優(yōu)選方案為第一節(jié)點的數(shù)量的一半,以保證在大部分第一節(jié)點未接收到第二節(jié)點反饋的響應(yīng)數(shù)據(jù)包時,記錄第二節(jié)點為失效節(jié)點。
[0084]本實施例提出的集群節(jié)點失效檢測系統(tǒng),控制集群中的節(jié)點之間相互發(fā)送檢測數(shù)據(jù)包;依次將集群中任一節(jié)點作為第二節(jié)點,其它節(jié)點作為第一節(jié)點以確定第二節(jié)點的有效性;確定在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量;在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。在大于預(yù)設(shè)閥值數(shù)量的第一節(jié)點未接收到第二節(jié)點反饋的響應(yīng)信息時,才認定第二節(jié)點為失效節(jié)點,保證失效節(jié)點定位的準(zhǔn)確性。
[0085]進一步地,為提高集群節(jié)點失效檢測的準(zhǔn)確定,所述獲取模塊30還用于在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量等于預(yù)設(shè)的第一閥值時,確定在預(yù)設(shè)的第二時間間隔內(nèi)未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量;所述記錄模塊40還用于在預(yù)設(shè)的第二時間間隔內(nèi),未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第二閥值時,記錄所述第二節(jié)點為失效節(jié)點。
[0086]在本實施例中,可能出現(xiàn)未接受到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量等于預(yù)設(shè)的第一閥值的情況,此時,無法確定第二節(jié)點是否失效,需要通過第一節(jié)點是否接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包,來確定第二節(jié)點是否失效,即:確定預(yù)設(shè)的第二時間間隔內(nèi)接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量,在預(yù)設(shè)的第二時間間隔內(nèi)接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第二閥值時,記錄該第二節(jié)點為有效節(jié)點,在預(yù)設(shè)的第二時間間隔內(nèi)接受到未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第二閥值時,記錄該第二節(jié)點為失效節(jié)點。
[0087]本領(lǐng)域技術(shù)人員可以理解的是,為提高失效節(jié)點有效性檢測的效率,獲取模塊30還用于獲取在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包第一節(jié)點的數(shù)量;記錄模塊40還用于在獲取的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄第二節(jié)點為失效節(jié)點。[0088]進一步地,為提高通信的準(zhǔn)確性,所述獲取模塊30還用于獲取集群節(jié)點中所述失效節(jié)點的數(shù)量;所述記錄模塊40還用于在集群中所述失效節(jié)點的數(shù)量大于預(yù)設(shè)的第三閥值時,記錄所述集群為失效集群。
[0089]在本實施例中,預(yù)設(shè)的第三閥值優(yōu)選為集群中節(jié)點數(shù)量的一半,在集群中大部分節(jié)點不可用時,則認為該集群系統(tǒng)已不可進行數(shù)據(jù)傳輸,記錄該集群為失效集群。在記錄失效節(jié)點以及記錄該集群為失效集群之后,可向維護終端(如服務(wù)器以及維修人員攜帶的終端等)發(fā)送維護請求,要保證失效節(jié)點和失效集群及時回復(fù)正常。
[0090]本領(lǐng)域技術(shù)人員可以理解的是,在第三閥值優(yōu)選為集群中節(jié)點數(shù)量的一半時,若集群中有一個節(jié)點為失效節(jié)點,且集群中節(jié)點總數(shù)為二時,則認為節(jié)點之間無法進行通信,此時記錄所述集群為失效集群。
[0091]進一步地,為提高通信的準(zhǔn)確性,所述記錄模塊40還用于在獲取的第一節(jié)點的數(shù)量小于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為有效節(jié)點。
[0092]在本實施例中,在獲取的第一節(jié)點的數(shù)量小于預(yù)設(shè)的第一閥值時,由于大部分的第一節(jié)點均接收到第二節(jié)點發(fā)送的響應(yīng)數(shù)據(jù)包,則記錄該第二節(jié)點為有效節(jié)點。
[0093]進一步地,為提高通信的準(zhǔn)確性,該系統(tǒng)還包括確定模塊用于確定所述失效節(jié)點上的傳輸資源的類型;所述獲取模塊30還用于在所述失效節(jié)點上的傳輸資源為預(yù)設(shè)的資源類型時,獲取其它有效節(jié)點的負載狀況,并確定負載最低的有效節(jié)點;所述控制模塊10還用于控制所述負載最低的有效節(jié)點進行所述傳輸資源的傳輸。
[0094]在本實施例中,預(yù)設(shè)的資源類型其系統(tǒng)資源,為避免系統(tǒng)資源在傳輸過程中丟失,導(dǎo)致集群系統(tǒng)出現(xiàn)故障,則采用其它失效節(jié)點進行該系統(tǒng)資源的傳輸,以保證系統(tǒng)運行正常;為減小其它有效節(jié)點的傳輸壓力,采用傳輸負載最小的節(jié)點進行數(shù)據(jù)傳輸。
[0095]本領(lǐng)域技術(shù)人員可以理解的是,為提高數(shù)據(jù)傳輸效率,減小各個節(jié)點的傳輸壓力,可將失效節(jié)點上的傳輸資源分為多個子資源,然后由多個有效節(jié)點分別傳輸該多個子資源。
[0096]上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)(如R0M/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機,計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
[0097]以上所述僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)變換,或直接或間接運用在其他相關(guān)的【技術(shù)領(lǐng)域】,均同理包括在本發(fā)明的專利保護范圍內(nèi)。
【權(quán)利要求】
1.一種集群節(jié)點失效檢測方法,其特征在于,包括: 控制集群中的節(jié)點之間相互發(fā)送檢測數(shù)據(jù)包; 依次將集群中任一節(jié)點作為第二節(jié)點,其它節(jié)點作為第一節(jié)點以確定第二節(jié)點的有效性; 獲取在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量; 在獲取的所述第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量的步驟之后,該方法包括: 在獲取的所述第一節(jié)點的數(shù)量等于預(yù)設(shè)的第一閥值時,獲取在預(yù)設(shè)的第二時間間隔內(nèi)未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量; 在預(yù)設(shè)的第二時間間隔內(nèi),未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第二閥值時,記錄所述第二節(jié)點為失效節(jié)點。
3.根據(jù)權(quán)利要求1 或2所述的方法,其特征在于,所述在獲取的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點的步驟之后,該方法包括: 獲取集群節(jié)點中所述失效節(jié)點的數(shù)量; 在集群中所述失效節(jié)點的數(shù)量大于預(yù)設(shè)的第三閥值時,記錄所述集群為失效集群。
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述獲取在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量的步驟之后,該方法包括: 在獲取的所述第一節(jié)點的數(shù)量小于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為有效節(jié)點。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點的步驟之后,該方法包括: 確定所述失效節(jié)點上的傳輸資源的類型; 在所述失效節(jié)點上的傳輸資源為預(yù)設(shè)的資源類型時,獲取其它有效節(jié)點的負載狀況,并確定負載最低的有效節(jié)點; 控制所述負載最低的有效節(jié)點進行所述傳輸資源的傳輸。
6.一種集群節(jié)點失效檢測系統(tǒng),其特征在于,包括: 控制模塊,用于控制集群中的節(jié)點之間相互發(fā)送檢測數(shù)據(jù)包; 節(jié)點有效性檢測模塊,用于依次將集群中任一節(jié)點作為第二節(jié)點,其它節(jié)點作為第一節(jié)點以確定第二節(jié)點的有效性; 獲取模塊,用于獲取在預(yù)設(shè)的第一時間間隔之內(nèi),未接收到第二節(jié)點基于所述第一節(jié)點發(fā)送的檢測數(shù)據(jù)包反饋的響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量; 記錄模塊,用于在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為失效節(jié)點。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述獲取模塊還用于在未接收到響應(yīng)數(shù)據(jù)包的第一節(jié)點的數(shù)量等于預(yù)設(shè)的第一閥值時,確定在預(yù)設(shè)的第二時間間隔內(nèi)未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量;所述記錄模塊還用于在預(yù)設(shè)的第二時間間隔內(nèi),未接收到第二節(jié)點發(fā)送的檢測數(shù)據(jù)包的第一節(jié)點的數(shù)量大于預(yù)設(shè)的第二閥值時,記錄所述第二節(jié)點為失效節(jié)點。
8.根據(jù)權(quán)利要求6或7所述的系統(tǒng),其特征在于,所述獲取模塊還用于獲取集群節(jié)點中所述失效節(jié)點的數(shù)量;所述記錄模塊還用于在集群中所述失效節(jié)點的數(shù)量大于預(yù)設(shè)的第三閥值時,記錄所述集群為失效集群。
9.根據(jù)權(quán)利要求6或7所述的系統(tǒng),其特征在于,所述記錄模塊還用于在獲取的第一節(jié)點的數(shù)量小于預(yù)設(shè)的第一閥值時,記錄所述第二節(jié)點為有效節(jié)點。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,該系統(tǒng)還包括確定模塊用于確定所述失效節(jié)點上的傳輸資源的類型;所述獲取模塊還用于在所述失效節(jié)點上的傳輸資源為預(yù)設(shè)的資源類型時,獲取其它有效節(jié)點的負載狀況,并確定負載最低的有效節(jié)點;所述控制模塊還用于控制所述負載 最低的有效節(jié)點進行所述傳輸資源的傳輸。
【文檔編號】H04L12/24GK104038366SQ201410187243
【公開日】2014年9月10日 申請日期:2014年5月5日 優(yōu)先權(quán)日:2014年5月5日
【發(fā)明者】劉毅, 李璐 申請人:深圳市中博科創(chuàng)信息技術(shù)有限公司