的增長比例就高于指令mfhi程序模塊的比率,因?yàn)楹笳邇H包含3條這種指令。在圖9中,單純循環(huán)展開TFl的測(cè)試時(shí)間線最低的。這是因?yàn)檠h(huán)展開移除循環(huán)中的檢測(cè)器,而且讓流水線更加緊湊,因此它可以顯著地減少測(cè)試時(shí)間。更進(jìn)一步,由于TFl減少測(cè)試時(shí)間非常顯著,因此即使兩種程序變形疊加(TF3),它們的測(cè)試時(shí)間依然低于原始程序模塊的測(cè)試時(shí)間??偠灾诤侠淼拈_銷下,指令級(jí)自測(cè)試程序可以被變形成為功耗密集型程序。
[0124]本發(fā)明中的調(diào)度算法能夠迅速搜索到可行的程序模塊序列,保證測(cè)試溫度保持在給定的高溫范圍內(nèi),成功實(shí)施定溫的指令級(jí)自測(cè)試方法。圖10給出了本算法的溫度曲線,同時(shí)在室溫條件下直接執(zhí)行原始測(cè)試程序,在105.02度的初始溫度下執(zhí)行TF3中功耗密集程序,以及將本算法獲得可行調(diào)度的功耗曲線直接載入溫度模擬工具Hotspot,這三種情況下的溫度曲線被作為參考。第一,本算法的溫度曲線完全在給定的范圍內(nèi)[105,110],而且大多數(shù)程序模塊的溫度只是輕微地高于105度。本算法僅僅保證了溫度下界,避免了采用高代價(jià)的程序變形,這意味著它找到一種優(yōu)化后的程序調(diào)度。第二,參考I的溫度曲線也出現(xiàn)了上升,但是它遠(yuǎn)小于給定的高溫范圍。這意味著原始程序無法檢測(cè)最糟糕條件下的時(shí)延故障。第三,參考2的溫度曲線常常超過了給定的溫度范圍。采用功耗密集的測(cè)試程序直接測(cè)試處理器非常危險(xiǎn),它們的測(cè)試溫度有待控制。這是因?yàn)闇y(cè)試溫度太高,可能在測(cè)試階段燒毀處理器。第四,參考3的溫度曲線幾乎與本算法的溫度曲線重合,這說明本算法計(jì)算溫度非常準(zhǔn)確,幾乎等于hotspot的結(jié)果了。
[0125]最后,本算法也非常適合求解這類問題。一方面,即便RK4函數(shù)非常費(fèi)時(shí)(平均0.01秒/次),本算法也僅花費(fèi)8.484秒,就為ALU單元搜索到了定溫測(cè)試的可行調(diào)度。這是因?yàn)楸舅惴▋H采用了兩種非常簡(jiǎn)單的規(guī)則用于獲取調(diào)度。更進(jìn)一步,“高溫程序模塊優(yōu)先”為下一次調(diào)度選擇預(yù)留大量的空間,簡(jiǎn)化了下一次調(diào)度,進(jìn)而加速了獲取可行調(diào)度的計(jì)算過程。另一方面,根據(jù)“低開銷變形優(yōu)先”,算法通常在TH)和TF2中選擇程序模塊,如圖7所示,這樣避免了引入大量的存儲(chǔ)開銷??偠灾?,本算法總計(jì)需要原始程序60.6%的額外存儲(chǔ)空間,而功耗密集程序模塊需要118 %的額外存儲(chǔ)空間。
[0126]由于計(jì)算機(jī)系統(tǒng)通常在高溫條件下工作不穩(wěn)定,主要原因是現(xiàn)代制造測(cè)試無法有效地測(cè)試高溫條件下最糟糕的時(shí)延故障。而在高可靠性要求的計(jì)算機(jī)系統(tǒng),這種不穩(wěn)定常常導(dǎo)致災(zāi)難性的后果,造成難以彌補(bǔ)的損失。在高溫條件下,惡化的時(shí)延缺陷是一項(xiàng)導(dǎo)致計(jì)算機(jī)系統(tǒng)高溫不穩(wěn)定的關(guān)鍵因素,然而現(xiàn)有的測(cè)試方法都無法有效地解決這種問題,本發(fā)明能夠有效地高溫條件下的時(shí)延故障,在高可靠性要求的計(jì)算機(jī)系統(tǒng)中有廣泛的應(yīng)用前景。
【主權(quán)項(xiàng)】
1.一種以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,對(duì)處理器進(jìn)行高溫時(shí)延測(cè)試,其特征在于,包括以下步驟: 1)獲取原始指令級(jí)自測(cè)試程序模塊,形成未變形原始程序模塊集合TH); 2)對(duì)原始指令級(jí)自測(cè)試程序模塊進(jìn)行循環(huán)展開的變形; 3)對(duì)原始指令級(jí)自測(cè)試程序模塊進(jìn)行基于觸發(fā)cachemiss的變形; 4)根據(jù)步驟2)和3),形成基于循環(huán)展開變形的程序模塊集合TF1、基于觸發(fā)cachemiss變形的程序模塊集合TF2和同時(shí)采用循環(huán)展開和觸發(fā)cache miss變形的程序模塊集合 TF3 ; 5)在設(shè)定的測(cè)試溫度區(qū)間內(nèi),采用定溫測(cè)試程序調(diào)度算法,從所述TFO、TFUTF2、TF3中獲取可行調(diào)度; 6)將處理器加熱到測(cè)試溫度區(qū)間的下界,根據(jù)可行調(diào)度,執(zhí)行相應(yīng)程序,針對(duì)時(shí)延故障實(shí)施內(nèi)升溫的定溫測(cè)試。
2.根據(jù)權(quán)利要求1所述的以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,其特征在于,所述步驟2)中,循環(huán)展開的變形具體為: 2.1)刪除程序模塊中循環(huán)語句的檢測(cè)器; 2.2)提取循環(huán)次數(shù),并將其作為變量N的值; 2.3)檢查變量N是否大于O,若是,則進(jìn)入步驟2.4),若否,則進(jìn)入步驟2.6); 2.4)根據(jù)N的值,設(shè)置程序模塊中l(wèi)oad指令和store指令的偏移地址,并輸出本次循環(huán)對(duì)應(yīng)的指令序列; 2.5)變量N自減I,返回步驟2.3); 2.6)結(jié)束。
3.根據(jù)權(quán)利要求1所述的以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,其特征在于,所述步驟3)中,進(jìn)行基于觸發(fā)cache miss的變形時(shí),判斷處理器的cache結(jié)構(gòu),根據(jù)所述cache結(jié)構(gòu)觸發(fā)原始指令級(jí)自測(cè)試程序模塊中的cache miss。
4.根據(jù)權(quán)利要求3所述的以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,其特征在于,所述cache結(jié)構(gòu)包括直接映射cache、全相聯(lián)cache或組相聯(lián)cache。
5.根據(jù)權(quán)利要求1所述的以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,其特征在于,所述步驟5)中,定溫測(cè)試程序調(diào)度算法是基于貪心策略,從TFO、TFU TF2、TF3中搜索滿足設(shè)定的測(cè)試溫度區(qū)間的測(cè)試程序調(diào)度方案。
6.根據(jù)權(quán)利要求5所述的以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,其特征在于,所述貪心策略包括低開銷程序變形優(yōu)先策略和高溫度模塊優(yōu)先策略。
7.根據(jù)權(quán)利要求6所述的以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,其特征在于,所述定溫測(cè)試程序調(diào)度算法具體為: 5.1)以測(cè)試溫度區(qū)間的下界為初始溫度; 5.2)根據(jù)低開銷程序變形優(yōu)先策略,從TH)開始搜索,根據(jù)初始溫度計(jì)算TH)中未執(zhí)行程序模塊的終態(tài)溫度; 5.3)根據(jù)所述終態(tài)溫度判斷TH)是否存在滿足設(shè)定的測(cè)試溫度區(qū)間的程序模塊,若是,則將滿足設(shè)定的測(cè)試溫度區(qū)間的程序模塊作為可行模塊,并根據(jù)高溫度模塊優(yōu)先策略,從所述可行模塊中選取終態(tài)溫度最高的一個(gè)加入可行調(diào)度中,并以該終態(tài)溫度作為初始溫度,返回步驟5.2),若否,則執(zhí)行步驟5.4); 5.4)根據(jù)低開銷程序變形優(yōu)先策略,從TF2開始搜索,根據(jù)初始溫度計(jì)算TF2中未執(zhí)行程序模塊的終態(tài)溫度; 5.5)根據(jù)所述終態(tài)溫度判斷TF2是否存在滿足設(shè)定的測(cè)試溫度區(qū)間的程序模塊,若是,則將滿足設(shè)定的測(cè)試溫度區(qū)間的程序模塊作為可行模塊,并根據(jù)高溫度模塊優(yōu)先策略,從所述可行模塊中選取終態(tài)溫度最高的一個(gè)加入可行調(diào)度中,并以該終態(tài)溫度作為初始溫度,返回步驟5.2),若否,則執(zhí)行步驟5.6); 5.6)根據(jù)低開銷程序變形優(yōu)先策略,從TFl開始搜索,根據(jù)初始溫度計(jì)算TFl中未執(zhí)行程序模塊的終態(tài)溫度; 5.7)根據(jù)所述終態(tài)溫度判斷TFl是否存在滿足設(shè)定的測(cè)試溫度區(qū)間的程序模塊,若是,則將滿足設(shè)定的測(cè)試溫度區(qū)間的程序模塊作為可行模塊,并根據(jù)高溫度模塊優(yōu)先策略,從所述可行模塊中選取終態(tài)溫度最高的一個(gè)加入可行調(diào)度中,并以該終態(tài)溫度作為初始溫度,返回步驟5.2),若否,則執(zhí)行步驟5.8); 5.8)根據(jù)低開銷程序變形優(yōu)先策略,從TF3開始搜索,根據(jù)初始溫度計(jì)算TF3中未執(zhí)行程序模塊的終態(tài)溫度; 5.9)根據(jù)所述終態(tài)溫度判斷TF3是否存在滿足設(shè)定的測(cè)試溫度區(qū)間的程序模塊,若是,則將滿足設(shè)定的測(cè)試溫度區(qū)間的程序模塊作為可行模塊,并根據(jù)高溫度模塊優(yōu)先策略,從所述可行模塊中選取終態(tài)溫度最高的一個(gè)加入可行調(diào)度中,并以該終態(tài)溫度作為初始溫度,返回步驟5.2),若否,則終止。
8.根據(jù)權(quán)利要求7所述的以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,其特征在于,所述未執(zhí)行程序模塊的終態(tài)溫度采用四階runge-kutta算法計(jì)算獲得。
9.根據(jù)權(quán)利要求8所述的以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,其特征在于,所述未執(zhí)行程序模塊的終態(tài)溫度的具體計(jì)算過程為: al)獲得未執(zhí)行程序模塊i的測(cè)試時(shí)間time和功耗power ; a2)根據(jù)初始溫度計(jì)算未執(zhí)行程序模塊i在一個(gè)采樣間隔interval后的終態(tài)溫度Te ; a3)將終態(tài)溫度Te設(shè)置成下一個(gè)采樣周期的初始溫度Ts ; a4)重復(fù)步驟al)?a3)M次,得到最終的終態(tài)溫度Te ; 其中,M為循環(huán)變量,M = time/interval。
10.根據(jù)權(quán)利要求7所述的以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,其特征在于,所述根據(jù)高溫度模塊優(yōu)先策略,從所述可行模塊中選取終態(tài)溫度最高的一個(gè)加入可行調(diào)度中具體為: bl)初始化最高溫度Temax等于首個(gè)可行模塊的終態(tài)溫度,最高溫模塊序號(hào)max等于該程序模塊的序號(hào)i ; b2)判斷是否存在其它可行模塊,若是,則選擇另一可行模塊j,執(zhí)行步驟b3),若否,則執(zhí)行步驟b4); b3)判斷可行模塊j的終態(tài)溫度是否大于最高溫度Temax,若是,則將可行模塊j的終態(tài)溫度作為最高溫度Temax,同時(shí)將序號(hào)max更新為j,返回步驟b2),若否,則直接返回步驟b2); b4)將最高溫度Temax對(duì)應(yīng)的可行模塊加入到可行調(diào)度中,并將該可行模塊標(biāo)記為已執(zhí)行程序模塊。
【專利摘要】本發(fā)明涉及一種以內(nèi)升溫方式檢測(cè)時(shí)延故障的定溫指令級(jí)自測(cè)試方法,對(duì)處理器進(jìn)行高溫時(shí)延測(cè)試,包括以下步驟:獲取原始指令級(jí)自測(cè)試程序模塊;對(duì)原始指令級(jí)自測(cè)試程序模塊進(jìn)行循環(huán)展開的變形;對(duì)原始指令級(jí)自測(cè)試程序模塊進(jìn)行基于觸發(fā)cache miss的變形;在設(shè)定的測(cè)試溫度區(qū)間內(nèi),采用定溫測(cè)試程序調(diào)度算法,獲取可行調(diào)度;將處理器加熱到測(cè)試溫度區(qū)間的下界,根據(jù)可行調(diào)度,執(zhí)行相應(yīng)程序,針對(duì)時(shí)延故障實(shí)施內(nèi)升溫的定溫測(cè)試。與現(xiàn)有技術(shù)相比,本發(fā)明具有能有效地測(cè)試高溫條件下的時(shí)延故障、保證高的故障覆蓋率、減小處理器損失等優(yōu)點(diǎn)。
【IPC分類】G06F11-36, G06F11-22
【公開號(hào)】CN104699578
【申請(qǐng)?zhí)枴緾N201510012121
【發(fā)明人】張穎, 江建慧
【申請(qǐng)人】同濟(jì)大學(xué)
【公開日】2015年6月10日
【申請(qǐng)日】2015年1月9日