專利名稱:基于多生成樹(shù)的體系結(jié)構(gòu)中的故障定位的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于網(wǎng)絡(luò)中的故障定位的方法。具體來(lái)說(shuō),本發(fā)明涉 及用于在基于多生成樹(shù)的體系結(jié)構(gòu)中定位故障的方法。
背景技術(shù):
為了使以太網(wǎng)接入網(wǎng)能夠交付運(yùn)營(yíng)商級(jí)服務(wù),快速故障檢測(cè)和恢
復(fù)時(shí)間(failover time)正變得越來(lái)越重要。在檢測(cè)到故障并將數(shù)據(jù)切換 到備選路徑之后,需要有用于定位網(wǎng)絡(luò)中的故障然后修正故障的機(jī)制。
筒單網(wǎng)絡(luò)管理協(xié)議(SNMP)、 RFC 1157提供用于被管理網(wǎng)絡(luò)元件 在發(fā)生故障時(shí)向管理系統(tǒng)產(chǎn)生告警的誘捕(trap)機(jī)制。SNMP誘捕是預(yù) 定義事件,其中例如,"鏈路阻斷(linkdown)"是RFC1157定義的且 被所有供應(yīng)商支持的最常見(jiàn)事件之一。當(dāng)發(fā)生鏈路故障時(shí),與此鏈路 關(guān)聯(lián)的被管理的網(wǎng)絡(luò)裝置將向管理系統(tǒng)發(fā)布通知事件。在接收到事件 時(shí),管理系統(tǒng)可以選擇基于該事件來(lái)采取一些措施,例如修正鏈路故 障等。
IEEE802.1ag規(guī)定的較新的方法("局域網(wǎng)和城域網(wǎng)的草案標(biāo)準(zhǔn)-虛擬橋接的局域網(wǎng)-修改草案5:連接性故障管理,,,正EE 802.1ag, 2005)嘗試從第2層解決故障管理,包括故障定位。它提供體系結(jié)構(gòu)和 在第2層對(duì)應(yīng)于IP Ping和TraceRoute的工作消息。802.1ag體系結(jié)構(gòu)
的實(shí)質(zhì)是在嵌套的管理域以及維護(hù)端點(diǎn)和維護(hù)中間點(diǎn)的指定中。嵌套 的體系結(jié)構(gòu)提供沿著服務(wù)提供路徑的整個(gè)網(wǎng)絡(luò)的端到端視圖和該網(wǎng) 絡(luò)的每個(gè)跳的詳細(xì)負(fù)責(zé)角色。因此,當(dāng)發(fā)生鏈路故障時(shí),易于基于逐 個(gè)層來(lái)解決故障,并到達(dá)責(zé)任所在以及需要采取措施的級(jí)別。除了體系結(jié)構(gòu)本身外,802.1ag還定義用于信息交換和故障定位的四個(gè)消息。 連接性檢查消息
這些是由維護(hù)端點(diǎn)周期性發(fā)布的"心跳"消息。它們?cè)试S維護(hù)端 點(diǎn)檢測(cè)這些維護(hù)端點(diǎn)之間服務(wù)連接性的丟失。它們還允許維護(hù)端點(diǎn)發(fā) 現(xiàn)域內(nèi)的其他維護(hù)端點(diǎn),并允許維護(hù)中間點(diǎn)發(fā)現(xiàn)維護(hù)端點(diǎn)。
鏈路跟蹤消息
由維護(hù)端點(diǎn)在管理員請(qǐng)求跟蹤至目的地維護(hù)端點(diǎn)的路徑(逐個(gè)跳) 時(shí)傳送這些消息。它們?cè)试S傳送節(jié)點(diǎn)發(fā)現(xiàn)有關(guān)該路徑的關(guān)鍵連接性數(shù) 據(jù)。它在概念上與IPTraceroute相似。
Loopback消息由維護(hù)端點(diǎn)在管理員請(qǐng)求驗(yàn)證至特定維護(hù)中間點(diǎn)或維護(hù)端點(diǎn)的 連接性時(shí)傳送這些消息。Loopback指示目標(biāo)維護(hù)點(diǎn)是否可到達(dá);它不 允許路徑的逐個(gè)跳的發(fā)現(xiàn)。它在概念上與ICMP回應(yīng)(Ping)相似。
AIS消息
這些消息向網(wǎng)絡(luò)中的其他元件提供大型以太網(wǎng)(metro Ethernet network)中存在故障的異步通知。AIS通常用于抑制除直接纟企測(cè)到故 障的那些網(wǎng)絡(luò)元件之外的網(wǎng)絡(luò)元件處的告警。
在節(jié)點(diǎn)經(jīng)由多個(gè)路徑互連的網(wǎng)絡(luò)中,生成樹(shù)協(xié)議(STP)可防止形 成回路。這確保了任何兩個(gè)網(wǎng)絡(luò)裝置之間僅有一個(gè)活動(dòng)的路徑?;顒?dòng) 路徑的全體構(gòu)成所說(shuō)的生成樹(shù)。多生成樹(shù)協(xié)議(MSTP)允許將若干 VLAN映射到精簡(jiǎn)數(shù)量的生成樹(shù)。因?yàn)榇蠖鄶?shù)網(wǎng)絡(luò)不需要許多邏輯拓 樸,所以這是可能的。每個(gè)樹(shù)能處理具有相同拓樸的多個(gè)VLAN?;?于此,提出了多個(gè)基于多生成樹(shù)的容錯(cuò)體系結(jié)構(gòu)。
如S. Sharama, K. Gopalan, S. Nanda和T. Chiueh在"維金城域 網(wǎng)和集群網(wǎng)絡(luò)的多生成樹(shù)以太網(wǎng)體系結(jié)構(gòu)"("Viking: A multi國(guó)spanning誦tree Ethernet architecture for metropolitan area and cluster networks",正EE INFOCOM 2004)中所述,維金體系結(jié)構(gòu)使用故障事件 之后重新配置的多個(gè)生成樹(shù)。如果發(fā)生故障,則經(jīng)由SNMP誘捕(tmp),
5通知維金管理器(VM)。 VM然后通知網(wǎng)絡(luò)的邊緣節(jié)點(diǎn)它們必須將業(yè) 務(wù)重定向到未受損的樹(shù),并啟動(dòng)樹(shù)的重新計(jì)算和重新配置。
相比之下,低成本彈性以太網(wǎng)概念基于靜態(tài)生成樹(shù),這種靜態(tài)生 成樹(shù)是在網(wǎng)絡(luò)運(yùn)行之前配置的并且盡管發(fā)生故障,也不會(huì)改變(J. Farkas、 C. Antal、 G. Toth和L. Westberg,"以太網(wǎng)的分布式彈性體 系結(jié)構(gòu),,("Distributed Resilient Architecture for Ethernet Networks", Proceedings of Design of Reliable Communication Networks, 16-19 October 2005, pp. 512-522); J. Farkas、C. Antal、L. Westberg、A. Paradisi、 T.R. Tronco和V.G. Oliveira,"以太網(wǎng)中的快速故障處理"("Fast Failure Handling in Ethernet Networks", Proceedings of IEEE International Conference on Communications, 11-15 June 2006); J. Farkas、 A. Paradisi和C. Antal "基于光纖的低成本可生存以太網(wǎng)體系 結(jié)構(gòu)"("Low-cost survivable Ethernet architecture over fiber", J. Opt. Netw. 5, pp. 398-409, 2006))。在此體系結(jié)構(gòu)中,以分布式方式在邊緣 節(jié)點(diǎn)中實(shí)現(xiàn)故障檢測(cè)和故障處理。此體系結(jié)構(gòu)由市場(chǎng)上可購(gòu)買的低成 本現(xiàn)成的標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)組成;排除了依賴于以太網(wǎng)交換機(jī)中的新 功能的任何解決方案,以便保持當(dāng)前以太網(wǎng)產(chǎn)品的價(jià)格優(yōu)勢(shì)。提供彈 性所需的額外功能在以太網(wǎng)的邊緣節(jié)點(diǎn)處作為軟件協(xié)議來(lái)實(shí)現(xiàn)。
圖2示出此類體系結(jié)構(gòu)的示例。靜態(tài)地在網(wǎng)絡(luò)上建立預(yù)定義的多 生成樹(shù),以充當(dāng)可用于在網(wǎng)絡(luò)中路由業(yè)務(wù)的主路徑或備選路徑,從而 能夠處理可能的故障。為了實(shí)現(xiàn)保護(hù)免于發(fā)生任何單個(gè)鏈路或節(jié)點(diǎn)故 障,生成樹(shù)的拓樸必須使得如果發(fā)生任何單個(gè)網(wǎng)絡(luò)元件的故障,則保 持有至少一個(gè)完整的功能樹(shù)。因此,生成樹(shù)必須是局部分離的(partially disjoint),即它們必須包括不同的網(wǎng)絡(luò)元件,它們不能是完全相同的。 例如,可以計(jì)算生成樹(shù)??梢岳酶嗟臉?shù)來(lái)處理多個(gè)故障;這是樹(shù) 設(shè)計(jì)的問(wèn)題。這些生成樹(shù)是在網(wǎng)絡(luò)啟動(dòng)之前建立的,在運(yùn)行期間保持 不變,甚至在存在故障時(shí)也是如此。
如果發(fā)生故障,每個(gè)邊緣節(jié)點(diǎn)必須停止將幀轉(zhuǎn)發(fā)到受影響的樹(shù)并將業(yè)務(wù)重定向到未受損的樹(shù)。因此,需要一種協(xié)議來(lái)用于故障檢測(cè)和
就斷開(kāi)(broken)的樹(shù)通知所有邊緣節(jié)點(diǎn)。恢復(fù)時(shí)間主要取決于故障事件 與其被邊緣節(jié)點(diǎn)檢測(cè)到之間所經(jīng)過(guò)的時(shí)間,因?yàn)閳?zhí)行從一個(gè)樹(shù)到另一 個(gè)樹(shù)的保護(hù)切換無(wú)需對(duì)以太網(wǎng)交換機(jī)進(jìn)行任何重新配置。
故障處理協(xié)議(FHP)是在邊緣節(jié)點(diǎn)中實(shí)現(xiàn)的簡(jiǎn)單且輕量級(jí)分布式 協(xié)議,它依賴于很少幾個(gè)廣播消息來(lái)提供快速保護(hù)免于在網(wǎng)絡(luò)中發(fā)生 單個(gè)鏈路或節(jié)點(diǎn)故障。
該協(xié)議基本定義了三種類型的廣播消息
Alive:該消息由稱為發(fā)射器(emitter)的一個(gè)或多個(gè)邊緣節(jié)點(diǎn)根椐 預(yù)定義的時(shí)間間隔TAllve周期性地在每個(gè)VLAN上發(fā)出;
Failure:當(dāng)在VLAN上Alive消息未在預(yù)定義的4全測(cè)間隔TDI內(nèi) 到達(dá)時(shí),由稱為通知器(notifier)的邊緣節(jié)點(diǎn)發(fā)布該消息,以向所有其 他邊緣節(jié)點(diǎn)通知該VLAN中的故障;
Repaired:由檢測(cè)到故障的相同的通知器在Alive消息到達(dá)時(shí)在 先前發(fā)生故障的VLAN上發(fā)布該消息,以向所有其他邊緣節(jié)點(diǎn)通知發(fā) 生故障的VLAN的修復(fù)。
兩種類型的通知器是基于它們的定時(shí)器設(shè)置來(lái)區(qū)分的主通知器 (primary)和次通知器(secondary)。少數(shù)通知器#皮配置為主通知器;既 不是發(fā)射器也不是主通知器的所有其他通知器稱為次通知器。區(qū)別主 通知器和次通知器的原因是要減少故障事件期間的并發(fā)通知消息的 數(shù)量,下文將對(duì)此進(jìn)行詳細(xì)描述。
如圖3所示,在每個(gè)VLAN上Alive消息由發(fā)射器邊緣節(jié)點(diǎn)在 TMve時(shí)間間隔之初周期性地廣播。要求是在所有的VLAN上Alive消 息在預(yù)定義的Tm時(shí)間間隔內(nèi)在每個(gè)其他邊緣節(jié)點(diǎn)(通知器)處接收。因 為傳輸延遲一般對(duì)于每個(gè)通知器是不同的且協(xié)議時(shí)間間隔短,所以通 知器相對(duì)于發(fā)射器的同步具有關(guān)鍵的重要性。因此,每個(gè)通知器在第 一個(gè)Alive消息已到達(dá)時(shí)啟動(dòng)定時(shí)器,以便測(cè)量TM何時(shí)屆滿,即笫一 個(gè)接收的Alive消息將通知器與發(fā)射器同步。因此,不同通知器之間的傳輸延遲之差的影響被消除。后續(xù)Alive消息遭受某種程度的不同 延遲的影響,因?yàn)樗鼈兺ㄟ^(guò)不同路徑傳播,這在Tm的配置期間必須 被納入考慮。在每個(gè)通知器邊緣節(jié)點(diǎn)中登記所有Alive消息的到達(dá)。 如果存在TDI內(nèi)尚未到達(dá)的Alive消息,則將對(duì)應(yīng)的VLAN視為阻斷。 即,單個(gè)Alive消息的丟失^皮解釋為VLAN的故障(breakdown)。但是, 為了避免由于Alive丟幀所導(dǎo)致的誤報(bào),通知器可以配置成等待兩個(gè) 或三個(gè)后續(xù)Alive周期,并僅在Alive消息在每個(gè)周期中連續(xù)丟失時(shí)才 將VLAN標(biāo)記為斷開(kāi)。
除了發(fā)射器外的所有邊緣節(jié)點(diǎn)監(jiān)視Alive消息的接收。但是,為 了避免故障之后過(guò)量的協(xié)議負(fù)載,只有一些主通知器邊緣節(jié)點(diǎn),它們 的任務(wù)是向其他邊緣節(jié)點(diǎn)通知故障。主通知器的檢測(cè)間隔比次通知器 的檢測(cè)間隔短,并且可以根據(jù)網(wǎng)絡(luò)大小和其他參數(shù)來(lái)調(diào)整該4企測(cè)間 隔。當(dāng)通知器邊緣節(jié)點(diǎn)檢測(cè)到故障時(shí),它在^皮視為未受損的每個(gè)運(yùn)行 的VLAN上廣播Failure消息,該消息包含斷開(kāi)的VLAN的ID。因?yàn)?每個(gè)邊緣節(jié)點(diǎn)接收到Failure消息,所以它們?nèi)慷贾腊l(fā)生故障的 VL服
因?yàn)橛幸獾叵拗浦魍ㄖ鞯臄?shù)量,所以一些故障可能未被檢測(cè) 到,視網(wǎng)絡(luò)拓樸而定。因此,如果次通知器基于Alive消息未到達(dá)而 檢測(cè)到故障,則此節(jié)點(diǎn)以與上述相同的方式廣播Failure消息來(lái)向所有 其他邊緣節(jié)點(diǎn)告知該故障。
基于SNMP和CFM的方法有它們的局限性。例如,SNMP依賴 于IP的正確功能實(shí)現(xiàn),這在第2層以太網(wǎng)訪問(wèn)環(huán)境中不總是有效的。 可以將SNMP誘捕用于故障定位,正如上文論述的(例如)維金體系結(jié) 構(gòu)中提出的。但是,可能存在不能發(fā)送SNMP誘捕的網(wǎng)絡(luò)節(jié)點(diǎn),例如 不可管理的節(jié)點(diǎn)、未配置或誤配置的節(jié)點(diǎn)。在此情況中,故障定位無(wú) 法通過(guò)SNMP誘捕來(lái)解決。802.1ag是相對(duì)新的標(biāo)準(zhǔn),且規(guī)定的機(jī)制復(fù) 雜,且其有效性尚未得到驗(yàn)證。但是,基于SNMP和CFM的方法具 有一個(gè)共有的問(wèn)題它們均缺乏正確的恢復(fù)機(jī)制。這兩種解決方案能夠識(shí)別何時(shí)以及何處發(fā)生鏈路故障,但是它們對(duì)于如何引導(dǎo)網(wǎng)絡(luò)繞開(kāi)
(walk around)故障均無(wú)完整的解決方案。
發(fā)明內(nèi)容
本發(fā)明的目的在于消除至少 一 些上面的缺點(diǎn)并提供定位網(wǎng)絡(luò)中 的故障的改進(jìn)方法。
根據(jù)本發(fā)明的第一方面,提供有定位網(wǎng)絡(luò)中的故障的方法。該網(wǎng) 絡(luò)包括配置為多個(gè)生成樹(shù)的節(jié)點(diǎn)、鏈路和邊緣節(jié)點(diǎn)。生成樹(shù)是局部分 離的。該方法包括接收有關(guān)網(wǎng)絡(luò)中的多個(gè)樹(shù)拓樸的配置的信息,并監(jiān) 視網(wǎng)絡(luò)中的連接性。當(dāng)檢測(cè)到網(wǎng)絡(luò)中連接性的丟失時(shí),識(shí)別發(fā)生故障 的樹(shù),并確定發(fā)生故障的樹(shù)所共有的網(wǎng)絡(luò)元件。
在上述方面的第一配置中,可以確定并排除作為未發(fā)生故障的樹(shù) 的部分的網(wǎng)絡(luò)元件。
在上述方面的另一個(gè)配置中,可以4企查其余網(wǎng)絡(luò)元件以查找故障。
在上述方面的又一個(gè)配置中,監(jiān)視網(wǎng)絡(luò)中的連接性的步驟還可以 包括監(jiān)視一個(gè)或多個(gè)樹(shù)中連接性丟失的通知。
在上述方面的又一個(gè)配置中,所述通知可以包括發(fā)生故障的樹(shù)的 標(biāo)識(shí)。
在上述方面的又一個(gè)配置中,所述通知還可以包括/人廣播邊緣節(jié) 點(diǎn)到故障l良告邊緣節(jié)點(diǎn)的路徑信息。
在上述方面的另一個(gè)配置中,可以應(yīng)用點(diǎn)到點(diǎn)連接性監(jiān)視,并且 所述通知還可以包括有關(guān)哪些點(diǎn)到點(diǎn)連接發(fā)生了故障的信息。
在上述方面的又一個(gè)配置中,通過(guò)鏈路跟蹤消息來(lái);f全索路徑信
自
根據(jù)本發(fā)明的第二方面,提供有通知網(wǎng)絡(luò)中的連接性丟失的方 法。該網(wǎng)絡(luò)包括配置為多個(gè)生成樹(shù)的節(jié)點(diǎn)、鏈路和邊緣節(jié)點(diǎn),這些生 成樹(shù)是局部分離的,該網(wǎng)絡(luò)還包括用于網(wǎng)絡(luò)管理的部件。該方法包括監(jiān)視另一個(gè)邊緣節(jié)點(diǎn)廣播的Alive消息。當(dāng)檢測(cè)到丟失的Alive消息時(shí), 向網(wǎng)絡(luò)管理通知連接性的丟失。
在上述方面的第 一配置中,通知網(wǎng)絡(luò)管理的步驟可以包括發(fā)送發(fā) 生故障的樹(shù)的標(biāo)識(shí)。
在上述方面的另 一個(gè)配置中,所述通知還可以包括從廣播邊緣節(jié) 點(diǎn)到故障凈艮告邊緣節(jié)點(diǎn)的路徑信息。
在上述方面的又一個(gè)配置中,當(dāng)檢測(cè)到樹(shù)中連接性的丟失時(shí),邊 緣節(jié)點(diǎn)可將業(yè)務(wù)重定向到未受該連接性丟失影響的樹(shù)。
根據(jù)本發(fā)明的第三方面,提供有調(diào)適成根據(jù)第一方面或其任何配 置工作的網(wǎng)絡(luò)管理。
在第三方面的配置中,網(wǎng)絡(luò)管理包括服務(wù)器。
根據(jù)本發(fā)明的第四方面,提供有調(diào)適成根據(jù)第二方面或其任何配 置工作的邊緣節(jié)點(diǎn)。
本發(fā)明可以提供其中使用多個(gè)邏輯樹(shù)拓樸的有效故障定位。而 且,它沒(méi)有對(duì)邊緣節(jié)點(diǎn)的故障處理作用引入額外的開(kāi)銷。
圖1圖示物理拓樸的示例。 圖2圖示邏輯拓樸的示例。
圖3示出協(xié)議消息和節(jié)點(diǎn)作用的示意性時(shí)間序列圖。 圖4示出根據(jù)本發(fā)明通知網(wǎng)絡(luò)中的故障的流程圖。 圖5示出根據(jù)本發(fā)明定位網(wǎng)絡(luò)中的故障的流程圖。
具體實(shí)施例方式
基于多生成樹(shù)的網(wǎng)絡(luò)體系結(jié)構(gòu)在上文J. Farkas、C. Antal、G. Toth、 L. Westberg;上文J. Farkas、 C. Antal、 L. Westberg、 A. Paradisi、 T.R. Tronco、 V.G. Oliveira;以及上文J. Farkas、 A. Paradisi和C. Antal中
進(jìn)行詳細(xì)描述。相應(yīng)地,在網(wǎng)絡(luò)中實(shí)現(xiàn)邏輯樹(shù)拓樸以便提供彈性。這些樹(shù)不是完整的,而是局部分離的,以避免這些樹(shù)所導(dǎo)致的顯著的管 理復(fù)雜性。根據(jù)本發(fā)明的方法獨(dú)立于樹(shù)拓樸的設(shè)計(jì)而工作。
基礎(chǔ)體系結(jié)構(gòu)由內(nèi)部節(jié)點(diǎn)和邊緣節(jié)點(diǎn)(EN)以及互連鏈路組成。內(nèi)
部節(jié)點(diǎn)可以是沒(méi)有與該體系結(jié)構(gòu)相關(guān)的任何特殊功能的現(xiàn)有設(shè)備。相
比之下,邊緣節(jié)點(diǎn)實(shí)現(xiàn)上述的故障處理方法(FHM)。根據(jù)此方法,在 每個(gè)樹(shù)上廣播所說(shuō)的Alive消息,并在邊緣節(jié)點(diǎn)中監(jiān)視這些消息的到 達(dá)?;趤G失的Alive消息,能檢測(cè)到樹(shù)的故障(或連接性的丟失),而 邊緣節(jié)點(diǎn)可以將業(yè)務(wù)重定向到未受損的樹(shù)。還可以基于先前斷開(kāi)的樹(shù) 上新近出現(xiàn)的Alive消息來(lái)解釋(solve)修復(fù)(restoration)。
還可以應(yīng)用其他連接性監(jiān)視方法,例如CFM或BFD,它們是點(diǎn) 到點(diǎn)監(jiān)視方法。其要求必須監(jiān)視在每個(gè)邊緣節(jié)點(diǎn)對(duì)之間的所有樹(shù),并 必須將故障報(bào)告給管理系統(tǒng)。然后,能應(yīng)用本發(fā)明中描述的故障定位 方法。
假定上述故障處理方法應(yīng)用于可確定故障位置的網(wǎng)絡(luò)中。因?yàn)樵?故障之后廣播含有斷開(kāi)的邏輯拓樸(樹(shù))的ID的Failure消息,所以每 個(gè)邊緣節(jié)點(diǎn)知道斷開(kāi)的樹(shù),這可以纟皮傳播到計(jì)算和配置這些樹(shù)的管理 系統(tǒng)。每個(gè)樹(shù)是節(jié)點(diǎn)和鏈路的集合。斷開(kāi)的元件是斷開(kāi)的樹(shù)的交集, 它可能是單個(gè)節(jié)點(diǎn)或鏈路或很少的幾個(gè)節(jié)點(diǎn)或鏈路。相應(yīng)地,故障的 位置是斷開(kāi)的樹(shù)的交集中的網(wǎng)絡(luò)元件之一。
甚至可以進(jìn)一步限定斷開(kāi)的元件的集合,因?yàn)楣芾硐到y(tǒng)還知道幸 免于故障的有效樹(shù)的每個(gè)節(jié)點(diǎn)和鏈路也是正在工作中的。因此,如果 從斷開(kāi)的樹(shù)的交集中減去作為任何工作中的樹(shù)的部分的所有那些鏈 路和節(jié)點(diǎn),可以獲得較小集合的可能斷開(kāi)的元件。
一種進(jìn)一步細(xì)化可以是在多個(gè)樹(shù)生成期間,在每個(gè)邊緣節(jié)點(diǎn)中, 除了樹(shù)ID外,還存儲(chǔ)從發(fā)射器到邊緣節(jié)點(diǎn)的路徑信息。當(dāng)發(fā)生鏈路 或節(jié)點(diǎn)故障時(shí),邊緣節(jié)點(diǎn)發(fā)出帶有樹(shù)ID和路徑信息的故障消息。因 此,能進(jìn)一步將可能的故障縮減到樹(shù)的一個(gè)路徑或多個(gè)樹(shù)的若干路 徑。容錯(cuò)生成樹(shù)是離線計(jì)算且在網(wǎng)絡(luò)啟動(dòng)之前配置的,并在網(wǎng)絡(luò)運(yùn)行期間保持靜態(tài)??梢栽诖伺渲秒A段期間將至發(fā)射器的路徑信息存儲(chǔ)在 每個(gè)邊緣節(jié)點(diǎn)中。檢索路徑信息的另一個(gè)可能性可以是,在網(wǎng)絡(luò)中應(yīng)
用正EE 802.1ag時(shí),借助鏈路跟蹤消息。
如圖4所示,由邊緣節(jié)點(diǎn)來(lái)處理故障,正如前一部分中概述的。 在步驟410中,邊緣節(jié)點(diǎn)一直監(jiān)視丟失的Alive消息。邊緣節(jié)點(diǎn)知道 斷開(kāi)的和未受損的樹(shù)拓樸,并且可以將業(yè)務(wù)定向到在網(wǎng)絡(luò)中提供連接 性的可用樹(shù)。如果存儲(chǔ)了路徑信息,邊緣節(jié)點(diǎn)還將知道它到發(fā)射器的 路徑。
因?yàn)檫吘壒?jié)點(diǎn)知道哪些邏輯拓樸斷開(kāi),所以在步驟420中,它們 能夠向網(wǎng)絡(luò)管理(NM)通知斷開(kāi)的拓樸。如果還存儲(chǔ)路徑信息,則邊緣 節(jié)點(diǎn)還向NM告知樹(shù)的斷開(kāi)的路徑。網(wǎng)絡(luò)管理知道網(wǎng)絡(luò)中的所有邏輯 拓樸,因?yàn)橹霸摼W(wǎng)絡(luò)已由網(wǎng)絡(luò)管理配置。因此,可以基于此信息按 如下確定可能斷開(kāi)的網(wǎng)絡(luò)元件
僅包含在所有斷開(kāi)的邏輯拓樸中的那些鏈路或節(jié)點(diǎn)可能斷開(kāi)。 參考圖5,根據(jù)本發(fā)明的故障定位方法按如下方式工作 .在步驟510中,網(wǎng)絡(luò)管理接收有關(guān)網(wǎng)絡(luò)中配置的樹(shù)拓樸的配置 的信息。
.在步驟520,監(jiān)視網(wǎng)絡(luò)中的連接性。
.在步驟530中,在發(fā)生故障事件的情況下,則向網(wǎng)絡(luò)管理告知 被斷開(kāi)的樹(shù)。可以從邊緣節(jié)點(diǎn)接收此信息。如果路徑信息也是可用的, 則還將有關(guān)發(fā)生故障或斷開(kāi)的路徑的信息發(fā)送到網(wǎng)絡(luò)管理。
.在步驟540中,確定所有受損樹(shù)的共有網(wǎng)絡(luò)元件。 此外,可從可能故障的元件集合中排除作為未受影響的樹(shù)的部分 的那些元件。
而且,還可以將有關(guān)哪個(gè)邊緣節(jié)點(diǎn)報(bào)告故障以及哪個(gè)邊緣節(jié)點(diǎn)是 廣播Alive消息的節(jié)點(diǎn)的信息納入考慮廣播者與故障l艮告者節(jié)點(diǎn)之 間的路徑中受損樹(shù)上的共有網(wǎng)絡(luò)元件。如果應(yīng)用點(diǎn)到點(diǎn)連接性監(jiān)視, 例如CFM,則邊緣節(jié)點(diǎn)報(bào)告哪些邊緣節(jié)點(diǎn)對(duì)之間的路徑斷開(kāi)對(duì)于故障定位也是有用的信息。如果有關(guān)斷開(kāi)的路徑的路徑信息也是可用的, 則還將其用于確定斷開(kāi)的元件。
由此,可以4企查識(shí)別為可能故障的網(wǎng)絡(luò)元件。 下文示范網(wǎng)絡(luò)中圖示根據(jù)本發(fā)明的故障定位,圖1中示出了該示
例網(wǎng)絡(luò)的物理拓樸。該示范網(wǎng)絡(luò)由四個(gè)內(nèi)部節(jié)點(diǎn)SW1、 SW2、 SW3 和SW4、四個(gè)邊緣節(jié)點(diǎn)EN1、 EN2、 EN3和EN4以及將這些節(jié)點(diǎn)互 連的九條鏈路組成。
參考圖2,假定了基于多生成樹(shù)的網(wǎng)絡(luò)體系結(jié)構(gòu),如上文J. Farkas、 C. Antal、 G. Toth、 L. Westberg;上文J. Farkas、 C. Antal、 L. Westberg、 A. Paradisi、 T.R, Tronco、 V.G. Oliveira;以及上文J. Farkas、 A. Paradisi 和C. Antal中詳細(xì)描述的。相應(yīng)地確定樹(shù)拓樸,以便處理單一故障, 如圖2所示,圖2圖示基于本發(fā)明的邏輯拓樸的示例。在此示范網(wǎng)絡(luò) 中,需要三個(gè)樹(shù)(T1、 T2和T3)來(lái)處理所有可能的單一故障。該網(wǎng)絡(luò) 及其元件與圖1中的表示完全相同。
如果發(fā)生故障,則這些樹(shù)的至少其中之一將阻斷。
例如,如果邊緣節(jié)點(diǎn)之一向網(wǎng)絡(luò)管理告知,樹(shù)T2阻斷(以及4叚定 僅此樹(shù)斷開(kāi),即未接收到有關(guān)其它樹(shù)的任何故障報(bào)告),則網(wǎng)絡(luò)管理判 斷僅樹(shù)T2的元件可能處于故障狀態(tài)EN1、 SW1、 EN2、 SW4、 EN4、 EN3以及其之間的相應(yīng)鏈if各。
進(jìn)一步消除樹(shù)T2中也作為未受影響的樹(shù)T1和T3的部分的那些 元件,可以將可能故障的元件的集合進(jìn)一步限定于節(jié)點(diǎn)SW1與節(jié)點(diǎn) SW4之間的鏈路和/或邊緣節(jié)點(diǎn)EN2與節(jié)點(diǎn)SW1之間的鏈路。
應(yīng)用邊緣節(jié)點(diǎn)的故障處理方法(FHM)作用,可以甚至更精確地確 定故障的位置。如果邊緣節(jié)點(diǎn)EN1廣播Alive消息,而邊緣節(jié)點(diǎn)EN2 報(bào)告故障,則結(jié)果是邊緣節(jié)點(diǎn)EN2與節(jié)點(diǎn)SW1之間的鏈路阻斷。
如果在網(wǎng)絡(luò)中還實(shí)現(xiàn)路徑信息并將其包含在故障消息中,則還可 以基于此信息來(lái)定位此故障。那么連同如下路徑信息一起向管理系統(tǒng) 通知故障消息EN2-SW1-EN1。節(jié)點(diǎn)SW1、邊緣節(jié)點(diǎn)EN1和這兩個(gè)節(jié)點(diǎn)之間的鏈路也是樹(shù)T1的部分,并且已知的是樹(shù)T1是活(alive)的。 因此,結(jié)果是EN2或EN2與節(jié)點(diǎn)SW1之間的鏈路被斷開(kāi)。
使用相同的方法,結(jié)果是如果邊緣節(jié)點(diǎn)EN3或邊緣節(jié)點(diǎn)EN4報(bào) 告故障,則節(jié)點(diǎn)SW1與節(jié)點(diǎn)SW4之間的鏈路是斷開(kāi)的鏈路。
如果僅樹(shù)T2幸免于故障,即棘T1和樹(shù)T3都被斷開(kāi),則產(chǎn)生較 為復(fù)雜的情況。在此情況中,節(jié)點(diǎn)SW2或節(jié)點(diǎn)SW3或邊緣節(jié)點(diǎn)EN2 與節(jié)點(diǎn)SW3之間的鏈路可能被斷開(kāi),但是識(shí)別造成該故障的具體網(wǎng) 絡(luò)元件是不可能的。
最困難的場(chǎng)合可能在邊緣節(jié)點(diǎn)EN2廣播Alive消息時(shí)產(chǎn)生。如果 任何其他邊緣節(jié)點(diǎn)廣播Alive消息,則可以基于哪個(gè)(些)邊緣節(jié)點(diǎn)報(bào)告 故障來(lái)定位故障的位置。盡管如此,如果邊緣節(jié)點(diǎn)EN2廣播Alive消 息,則易于找出何時(shí)節(jié)點(diǎn)SW2斷開(kāi),因?yàn)樵谠撉闆r中,邊緣節(jié)點(diǎn)EN1 報(bào)告樹(shù)T3的故障,而邊緣節(jié)點(diǎn)EN3報(bào)告樹(shù)Tl的故障。另一方面, 確定是節(jié)點(diǎn)SW3還是僅SW3與EN2之間的鏈路一皮斷開(kāi)是不可能的, 因?yàn)樵诖饲闆r中,所有其他邊緣節(jié)點(diǎn)報(bào)告樹(shù)Tl和T3都發(fā)生故障,但 是網(wǎng)絡(luò)管理可能檢查節(jié)點(diǎn)SW3是否可用。即,在此情況中可能未發(fā) 現(xiàn)確切的網(wǎng)絡(luò)元件,但是確定了故障的位置。
在此示例中,可以基于斷開(kāi)的樹(shù)和故障的報(bào)告者(reporter)以及廣 播邊緣節(jié)點(diǎn)的信息來(lái)確定所有其他斷開(kāi)的網(wǎng)絡(luò)元件。在更大網(wǎng)絡(luò)中, 可以使用此方法將可能斷開(kāi)的網(wǎng)絡(luò)元件的集合限定于幾個(gè)。
所提出的方法基于邊緣節(jié)點(diǎn)的故障處理方法(FHM)作用采取后 續(xù)步驟,并且結(jié)合它能提供快速恢復(fù)和故障檢測(cè)的完整解決方案。它 不會(huì)對(duì)邊緣節(jié)點(diǎn)的FHM作用引入額外開(kāi)銷,因此繼承了諸如輕量級(jí)、 速度和效率等的全部?jī)?yōu)點(diǎn)。
所提出的方法簡(jiǎn)單,并且能夠有效地應(yīng)用于故障定位,其中使用 多個(gè)邏輯樹(shù)拓樸來(lái)進(jìn)行業(yè)務(wù)轉(zhuǎn)發(fā)并且監(jiān)視這些拓樸的可用性。因此, 所提出的方法可以容易地應(yīng)用于僅提供基本特征的低成本體系結(jié)構(gòu) 中。而且,所提出的方法還可以應(yīng)用于由提供例如IEEE 802.1ag的增強(qiáng)特征的節(jié)點(diǎn)組成的網(wǎng)絡(luò)中。
提案可帶來(lái)的另一個(gè)可能的好處是由管理系統(tǒng)出于故障定位目 的而執(zhí)行的計(jì)算能給出有關(guān)網(wǎng)絡(luò)的鏈路使用和可能瓶頸的統(tǒng)計(jì)提示, 這對(duì)于網(wǎng)絡(luò)資源分配和優(yōu)化可能是非常有用的。
權(quán)利要求
1.一種定位網(wǎng)絡(luò)中的故障的方法,所述網(wǎng)絡(luò)包括配置為多個(gè)生成樹(shù)的節(jié)點(diǎn)、鏈路和邊緣節(jié)點(diǎn),所述生成樹(shù)是局部分離的;所述方法包括如下步驟-接收有關(guān)所述網(wǎng)絡(luò)中的多個(gè)樹(shù)拓?fù)涞呐渲玫男畔ⅲ?監(jiān)視所述網(wǎng)絡(luò)中的連接性;-在檢測(cè)到所述網(wǎng)絡(luò)中連接性的丟失時(shí),識(shí)別發(fā)生故障的樹(shù);以及-確定所述發(fā)生故障的樹(shù)所共有的網(wǎng)絡(luò)元件。
2. 根據(jù)權(quán)利要求1所述的方法,還包括確定和排除作為未發(fā)生故 障的樹(shù)的部分的網(wǎng)絡(luò)元件。
3. 根據(jù)前面權(quán)利要求中任一項(xiàng)所述的方法,還包括檢查其余的網(wǎng) 絡(luò)元件以查找^:障的步驟。
4. 根據(jù)前面權(quán)利要求中任一項(xiàng)所述的方法,其中監(jiān)視所述網(wǎng)絡(luò)中 的連接性的步驟還包括監(jiān)視一個(gè)或多個(gè)樹(shù)中連接性丟失的通知。
5. 根據(jù)權(quán)利要求4所述的方法,其中所述通知包括所述發(fā)生故障 的樹(shù)的標(biāo)識(shí)。
6. 根據(jù)權(quán)利要求5所述的方法,其中所述通知還包括從廣播邊緣 節(jié)點(diǎn)到故障l艮告邊緣節(jié)點(diǎn)的路徑信息。
7. 根據(jù)權(quán)利要求5所述的方法,其中應(yīng)用點(diǎn)到點(diǎn)連接性監(jiān)視,并 且所述通知還包括有關(guān)哪些點(diǎn)到點(diǎn)連接已發(fā)生故障的信息。
8. 根據(jù)權(quán)利要求5所述的方法,其中通過(guò)鏈路跟蹤消息來(lái)檢索路 徑信息。
9. 一種通知網(wǎng)絡(luò)中連^t妄性丟失的方法,所述網(wǎng)絡(luò)包括設(shè)置為多個(gè)生成樹(shù)的節(jié)點(diǎn)、鏈路和邊緣節(jié)點(diǎn),所述 生成樹(shù)是局部分離的,所述網(wǎng)絡(luò)還包括用于網(wǎng)絡(luò)管理的部件,所述方法包括如下步驟-監(jiān)視邊緣節(jié)點(diǎn)廣播的Alive消息;-在;f全測(cè)到丟失的Alive消息時(shí),向網(wǎng)絡(luò)管理通知連^^性的丟失。
10. 根據(jù)權(quán)利要求9所述的方法,其中通知網(wǎng)絡(luò)管理的步驟包括 發(fā)送所述發(fā)生故障的樹(shù)的標(biāo)識(shí)。
11. 根據(jù)權(quán)利要求9所述的方法,其中所述通知還包括有關(guān)從廣 播邊緣節(jié)點(diǎn)到故障報(bào)告邊緣節(jié)點(diǎn)的路徑的信息。
12. 根據(jù)權(quán)利要求9至11中任一項(xiàng)所述的方法,其中在檢測(cè)到樹(shù) 中連接性的丟失時(shí),邊緣節(jié)點(diǎn)將業(yè)務(wù)重定向到未受連接性丟失影響的 樹(shù)。
13. 調(diào)適成根據(jù)權(quán)利要求1至8中任一項(xiàng)工作的網(wǎng)絡(luò)管理。
14. 根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)管理,其中所述網(wǎng)絡(luò)管理包括服 務(wù)器。
15. 調(diào)適成根據(jù)權(quán)利要求9至12中任一項(xiàng)工作的邊緣節(jié)點(diǎn)。
全文摘要
公開(kāi)了一種定位網(wǎng)絡(luò)中的故障的方法。該網(wǎng)絡(luò)包括設(shè)置為多個(gè)生成樹(shù)(T1、T2、T3)的節(jié)點(diǎn)(SW1、…、SW4)、鏈路和邊緣節(jié)點(diǎn)(EN1、…、EN4),這些生成樹(shù)是局部分離的。該網(wǎng)絡(luò)還包括用于網(wǎng)絡(luò)管理的部件。該方法包括接收有關(guān)網(wǎng)絡(luò)中的多個(gè)樹(shù)拓?fù)涞呐渲玫男畔ⅲ槐O(jiān)視網(wǎng)絡(luò)中的連接性;當(dāng)檢測(cè)到網(wǎng)絡(luò)中連接性的丟失時(shí),識(shí)別發(fā)生故障的樹(shù),并確定發(fā)生故障的樹(shù)所共有的網(wǎng)絡(luò)元件的步驟。
文檔編號(hào)H04L12/24GK101601228SQ200780050891
公開(kāi)日2009年12月9日 申請(qǐng)日期2007年2月8日 優(yōu)先權(quán)日2007年2月8日
發(fā)明者J·法卡斯, 煒 趙 申請(qǐng)人:艾利森電話股份有限公司