專利名稱:預(yù)防軟件由于長時(shí)間運(yùn)行而發(fā)生錯(cuò)誤的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種預(yù)防軟件由于長時(shí)間運(yùn)行而發(fā)生錯(cuò)誤的方法。
背景技術(shù):
目前常見的故障診斷與恢復(fù)方法是在軟件系統(tǒng)內(nèi)放置監(jiān)控器,實(shí)時(shí)查看系統(tǒng)狀態(tài),當(dāng)發(fā)現(xiàn)故障癥狀,就采取一定措施使軟件狀態(tài)回復(fù)正常。這種方式是一種主動(dòng)查詢的方法。它可以實(shí)時(shí)監(jiān)控軟件運(yùn)行狀態(tài),隨時(shí)發(fā)現(xiàn)問題,但實(shí)質(zhì)上是一種補(bǔ)救措施,不能預(yù)防故障的發(fā)生。當(dāng)軟件出現(xiàn)發(fā)生故障的先兆時(shí),軟件對(duì)用戶的服務(wù)質(zhì)量已經(jīng)受到了損害。
多數(shù)軟件的故障不是立即發(fā)生的,在發(fā)生故障之前軟件本身或者與其相關(guān)的部件都有一定的反常的癥狀,例如處理速度變慢,用戶響應(yīng)時(shí)間時(shí)大時(shí)小,網(wǎng)絡(luò)阻塞等等。有些癥狀是由故障引起的早期表現(xiàn)形式,有些癥狀則是引起故障的原因。當(dāng)發(fā)現(xiàn)這些癥狀的時(shí)候,故障已經(jīng)形成或者處于正在形成的階段,軟件的性能已經(jīng)受到損害,對(duì)用戶的服務(wù)質(zhì)量已經(jīng)有所下降。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種預(yù)防軟件由于長時(shí)間運(yùn)行而發(fā)生錯(cuò)誤的方法,能夠主動(dòng)采取措施預(yù)防在特定情況下出現(xiàn)概率很大的故障。
一種預(yù)防軟件由于長時(shí)間運(yùn)行而發(fā)生錯(cuò)誤的方法,所述方法包括步驟記錄軟件運(yùn)行時(shí)間;設(shè)置閾值;在軟件運(yùn)行時(shí)間超過設(shè)置的閾值時(shí)通知軟件系統(tǒng);用戶對(duì)軟件發(fā)出請(qǐng)求數(shù)量較少的時(shí)刻使軟件狀態(tài)重置;
軟件在重新啟動(dòng)之前將數(shù)據(jù)保存,重新啟動(dòng)后恢復(fù)。
使用本發(fā)明的方法,在軟件發(fā)生故障之前就對(duì)軟件進(jìn)行狀態(tài)重置,能夠有效地預(yù)防軟件由于長時(shí)間運(yùn)行而產(chǎn)生的錯(cuò)誤,適用范圍廣,具有很高的現(xiàn)實(shí)意義。本方法避免實(shí)現(xiàn)復(fù)雜的故障模式診斷,解決了軟件在運(yùn)行足夠長時(shí)間后發(fā)生故障的普遍問題,實(shí)現(xiàn)簡(jiǎn)單,也比較通用。
附圖所明
圖1是預(yù)防軟件由于長時(shí)間運(yùn)行而產(chǎn)生故障的方法的結(jié)構(gòu)圖;圖2是軟件數(shù)據(jù)保存與恢復(fù)過程示意圖。
具體實(shí)施例方式
軟件運(yùn)行時(shí)間越長,發(fā)生故障的概率越大。軟件發(fā)生故障的很大原因是由于軟件設(shè)計(jì)的不完備,當(dāng)外部環(huán)境發(fā)生變化,軟件內(nèi)部處理機(jī)制不能適應(yīng),就引起軟件狀態(tài)發(fā)生紊亂。另外,由于軟件大多在內(nèi)存中開辟空間存放數(shù)據(jù),這樣的空間有大小限制,當(dāng)軟件服務(wù)時(shí)間逐漸增長,內(nèi)存空間的使用接近初始限制,在邊界條件的處理上容易出錯(cuò)。
軟件運(yùn)行的環(huán)境也是軟件發(fā)生錯(cuò)誤的原因之一。有的計(jì)算機(jī)操作系統(tǒng)對(duì)內(nèi)存的分配和回收存在漏洞,以Linux操作系統(tǒng)為例,程序中使用的內(nèi)存在釋放后應(yīng)該由操作系統(tǒng)自動(dòng)回收,并分配給其它程序使用。但是我們經(jīng)常遇到的情況是程序運(yùn)行時(shí)釋放的內(nèi)存卻沒有被放到空閑內(nèi)存隊(duì)列中,因此其它程序也不能使用,造成內(nèi)存分配錯(cuò)誤,也引起軟件出錯(cuò)。
因此本發(fā)明提出一種方法,可以預(yù)防在長時(shí)間運(yùn)行后發(fā)生的錯(cuò)誤。該方法記錄軟件運(yùn)行時(shí)間的長度,在沒有用戶請(qǐng)求或者請(qǐng)求較少的時(shí)候,重置軟件狀態(tài),減少由于長時(shí)間運(yùn)行而產(chǎn)生錯(cuò)誤的概率。本方法的總體結(jié)構(gòu)示意圖如附圖1所示。
a.一個(gè)記錄軟件運(yùn)行時(shí)間的計(jì)時(shí)器計(jì)時(shí)器記錄軟件啟動(dòng)時(shí)間,當(dāng)前時(shí)間距離啟動(dòng)時(shí)間超過一定閾值時(shí)向軟件系統(tǒng)發(fā)出通知。閾值由使用者通過配置模塊設(shè)定。閾值的大小決定軟件狀態(tài)重置的時(shí)間間隔,其本身則取決于軟件的結(jié)構(gòu)設(shè)計(jì)和穩(wěn)定性能,以及運(yùn)行環(huán)境的變動(dòng)。
b.用戶請(qǐng)求監(jiān)測(cè)模塊本發(fā)明在軟件運(yùn)行足夠長的時(shí)間后,同時(shí)又沒有用戶請(qǐng)求或者用戶請(qǐng)求數(shù)量較少的時(shí)刻進(jìn)行軟件狀態(tài)重置。用戶請(qǐng)求監(jiān)測(cè)模塊記錄軟件用戶請(qǐng)求的情況,當(dāng)一段時(shí)間內(nèi)平均用戶請(qǐng)求數(shù)低于系統(tǒng)管理員設(shè)定的閾值時(shí),即滿足軟件狀態(tài)重置的充分條件之一。
c.一個(gè)閾值配置模塊軟件使用者通過閾值配置模塊設(shè)定計(jì)時(shí)器發(fā)出通知的時(shí)間長度,以及允許軟件重啟的平均用戶請(qǐng)求數(shù)。
d.數(shù)據(jù)保存和恢復(fù)模塊軟件應(yīng)該在不影響正在處理的用戶請(qǐng)求的情況下,進(jìn)行狀態(tài)重置。數(shù)據(jù)保存模塊記錄軟件內(nèi)部狀態(tài)以及各種服務(wù)信息,并且應(yīng)該在軟件被關(guān)閉時(shí)也繼續(xù)保留,這樣在軟件重新啟動(dòng)之后,仍然可以通過數(shù)據(jù)恢復(fù)模塊從中讀出以往信息,使用戶請(qǐng)求不被中斷。
e.數(shù)據(jù)保存和恢復(fù)的方法數(shù)據(jù)保存和恢復(fù)就是在軟件和被重新啟動(dòng)的軟件之間共享數(shù)據(jù),本方法利用操作系統(tǒng)中的進(jìn)程間共享內(nèi)存機(jī)制實(shí)現(xiàn)數(shù)據(jù)的保存和恢復(fù)。軟件在第一次啟動(dòng)時(shí)開辟一塊共享內(nèi)存,將與軟件狀態(tài)相關(guān)和與用戶請(qǐng)求相關(guān)的數(shù)據(jù)保存在共享內(nèi)存中。在軟件被重新啟動(dòng)后,軟件找到第一次啟動(dòng)時(shí)開辟的共享內(nèi)存,將有關(guān)數(shù)據(jù)從共享內(nèi)存中讀出,恢復(fù)重新啟動(dòng)之前的軟件狀態(tài)。數(shù)據(jù)的保存和修復(fù)方法如附圖2所示。
現(xiàn)有的常見軟件維護(hù)方法多是事后修復(fù)的方法,偵測(cè)模塊每隔一定時(shí)間間隔探測(cè)軟件狀態(tài),當(dāng)發(fā)現(xiàn)軟件狀態(tài)異常時(shí),采取修復(fù)手段。這種方法在探測(cè)到軟件發(fā)生故障或者出現(xiàn)發(fā)生故障的先兆時(shí),軟件服務(wù)質(zhì)量已經(jīng)受到損害。由于各種軟件發(fā)生故障時(shí)表現(xiàn)出來的現(xiàn)象各不相同,因此構(gòu)造通用的軟件故障診斷模塊非常困難。但是軟件運(yùn)行時(shí)間越長,發(fā)生故障的概率越大,這個(gè)規(guī)律卻是比較普遍的。本發(fā)明使用的方法在軟件發(fā)生故障之前就對(duì)軟件進(jìn)行狀態(tài)重置,能夠有效地預(yù)防軟件由于長時(shí)間運(yùn)行而產(chǎn)生的錯(cuò)誤,適用范圍廣,具有很高的現(xiàn)實(shí)意義。這種預(yù)防軟件由于長時(shí)間運(yùn)行而發(fā)生故障的方法,回避了復(fù)雜的故障模式識(shí)別,解決了軟件在運(yùn)行足夠長時(shí)間后發(fā)生故障的普遍問題,實(shí)現(xiàn)簡(jiǎn)單,也比較通用。本方法在用戶請(qǐng)求數(shù)量非常少,或者根本沒有用戶請(qǐng)求的時(shí)候?qū)浖顟B(tài)進(jìn)行重置,因此不會(huì)影響服務(wù)質(zhì)量。在進(jìn)行軟件狀態(tài)重置之前,軟件內(nèi)部數(shù)據(jù)均被記錄并保存,在軟件重新啟動(dòng)的過程中也不會(huì)受到破壞,因此重新啟動(dòng)后的軟件會(huì)從被中斷的地方繼續(xù)執(zhí)行,不影響已經(jīng)處理的用戶請(qǐng)求,也不影響正在處理的用戶請(qǐng)求。本方法中軟件運(yùn)行時(shí)間長度和允許軟件重啟的平均用戶請(qǐng)求數(shù)都可以在軟件運(yùn)行過程中動(dòng)態(tài)配置,即時(shí)生效。因此本方法具有良好的可配置性,可以根據(jù)軟件所在環(huán)境調(diào)節(jié)軟件運(yùn)行時(shí)間和允許重啟的工作負(fù)載范圍,使用靈活。
權(quán)利要求
1.一種預(yù)防軟件由于長時(shí)間運(yùn)行而發(fā)生錯(cuò)誤的方法,所述方法包括步驟記錄軟件運(yùn)行時(shí)間;設(shè)置閾值;在軟件運(yùn)行時(shí)間超過設(shè)置的閾值時(shí)通知軟件系統(tǒng);用戶對(duì)軟件發(fā)出請(qǐng)求數(shù)量較少的時(shí)刻使軟件狀態(tài)重置;軟件在重新啟動(dòng)之前將數(shù)據(jù)保存,重新啟動(dòng)后恢復(fù)。
2.如權(quán)利要求1所述的方法,其特征在于所述軟件狀態(tài)重置包括當(dāng)一段時(shí)間內(nèi)平均用戶請(qǐng)求數(shù)低于系統(tǒng)管理員設(shè)置的閾值時(shí),軟件狀態(tài)重置。
3.如權(quán)利要求1所述的方法,其特征在于所述軟件狀態(tài)重置包括軟件重新啟動(dòng)。
4.如權(quán)利要求1所述的方法,其特征在于所述保存的軟件內(nèi)部狀態(tài)及各種服務(wù)信息在軟件被關(guān)閉時(shí)繼續(xù)保留。
5.如權(quán)利要求1所述的方法,其特征在于所述恢復(fù)數(shù)據(jù)包括軟件和被重新啟動(dòng)的軟件之間共享數(shù)據(jù)。
全文摘要
一種預(yù)防軟件由于長時(shí)間運(yùn)行而發(fā)生錯(cuò)誤的方法,所述方法包括步驟記錄軟件運(yùn)行時(shí)間;設(shè)置閾值;在軟件運(yùn)行時(shí)間超過設(shè)置的閾值時(shí)通知軟件系統(tǒng);用戶對(duì)軟件發(fā)出請(qǐng)求數(shù)量較少的時(shí)刻使軟件狀態(tài)重置;軟件在重新啟動(dòng)之前將數(shù)據(jù)保存,重新啟動(dòng)后恢復(fù)。使用本發(fā)明的方法,在軟件發(fā)生故障之前就對(duì)軟件進(jìn)行狀態(tài)重置,能夠有效地預(yù)防軟件由于長時(shí)間運(yùn)行而產(chǎn)生的錯(cuò)誤,適用范圍廣,具有很高的現(xiàn)實(shí)意義。本方法避免實(shí)現(xiàn)復(fù)雜的故障模式診斷,解決了軟件在運(yùn)行足夠長時(shí)間后發(fā)生故障的普遍問題,實(shí)現(xiàn)簡(jiǎn)單,也比較通用。
文檔編號(hào)G06F11/36GK1506829SQ0215451
公開日2004年6月23日 申請(qǐng)日期2002年12月6日 優(yōu)先權(quán)日2002年12月6日
發(fā)明者徐志偉, 劉淘英 申請(qǐng)人:中國科學(xué)院計(jì)算技術(shù)研究所