国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種GPU命令異?;謴头椒ㄅc流程

      文檔序號:39105566發(fā)布日期:2024-08-21 11:30閱讀:86來源:國知局
      一種GPU命令異?;謴头椒ㄅc流程

      本發(fā)明屬于gpu設計,尤其涉及一種gpu命令異?;謴头椒?。


      背景技術:

      1、在圖形系統(tǒng)中,cpu(central?processing?unit,中央處理器)通過向gpu(graphicprocessing?units,圖形處理器)下發(fā)命令來控制、協(xié)調圖形渲染和計算任務的執(zhí)行。通過下發(fā)命令,cpu可以向gpu發(fā)送指令,告訴gpu如何處理數(shù)據(jù)和執(zhí)行特定的計算任務。這些指令包括繪制圖形、計算著色、執(zhí)行計算任務等,通過這些指令,gpu可以按照cpu的要求進行相應的操作和處理。下發(fā)命令的過程實質上是cpu與gpu之間的通信和協(xié)作,使得gpu能夠高效地執(zhí)行各種圖形和計算任務,從而實現(xiàn)復雜的圖形渲染和計算需求。

      2、gpu的命令處理流程涉及多個關鍵組件和步驟,包括內存子系統(tǒng)、pcie(peripheral?component?interface?express,外設組件互連快速總線)主機接口、命令緩沖區(qū)、指令調度器等。在長時間的系統(tǒng)運行過程中,電壓波動、溫度漂移等環(huán)境因素加上下發(fā)命令流程涉及各個繁雜系統(tǒng),可能會出現(xiàn)命令出錯的情況。而在命令出錯后,如果不能及時進行恢復,將導致渲染結果異常,顯示出來一些預期之外的畫面。為了解決此問題,目前有一些公開的專利技術方案:

      3、如專利公開號cn117707848a公開了一種gpu設備維護系統(tǒng),采用的方案是針對異常的gpu設備進行重啟。由gpu設備將異常信息發(fā)送給驅動,驅動對異常信息解析后,將解析結果以同步或者異步的方式發(fā)送給監(jiān)控程序,再由監(jiān)控程序通知業(yè)務端,也即由監(jiān)控程序向業(yè)務端發(fā)送暫停業(yè)務通知信息。業(yè)務端在接受到暫停業(yè)務通知信息時,暫停gpu設備對應的業(yè)務,向監(jiān)控程序發(fā)送復位通知信息,并收集gpu設備中所有寄存器的值作為運行狀態(tài)信息,此時,運行狀態(tài)信息保存于業(yè)務端的內存中,以起到斷點保護的作用,使得后續(xù)gpu設備在維護結束后,能夠繼續(xù)執(zhí)行所暫停的業(yè)務。監(jiān)控程序在接受到復位通知信息后,再將復位通知信息發(fā)送給驅動,驅動側生成復位命令,將復位命令發(fā)送給gpu設備。gpu設備在接收到復位命令之后,執(zhí)行復位操作,在復位操作執(zhí)行完畢后,形成復位完成信息。業(yè)務端在檢測到復位完成信息后,將運行狀態(tài)信息發(fā)送給gpu設備進行寄存器配置,gpu設備再繼續(xù)執(zhí)行所暫停的業(yè)務。

      4、該方案中,gpu設備主動將異常信息發(fā)送到驅動,從而使得維護系統(tǒng)能夠快速響應對gpu設備進行維護,并且由驅動將復位命令發(fā)送給異常的gpu設備,在gpu設備端執(zhí)行復位操作,無需復位整個操作系統(tǒng)層,從而能夠針對異常的gpu設備進行重啟,而且由業(yè)務端收集gpu設備的運行狀態(tài)信息,在gpu設備復位之后重新配置,從而能夠保證在gpu設備維護后能夠繼續(xù)執(zhí)行業(yè)務。該方案只是避免了重啟操作系統(tǒng),并沒有避免重啟gpu設備,更沒有對需要重新下發(fā)給gpu的命令進行精細化控制。

      5、又如專利公開號cn114564327a公開了一種基于smbus總線的服務器多卡控制系統(tǒng),采用的方案是內置看門狗監(jiān)測協(xié)處理器是否發(fā)生異常,在發(fā)生異常時通過拉低告警信號線電位來通知服務器主板。gpu板卡的協(xié)處理器出現(xiàn)異常時,gpu板卡中的看門狗由于不能得到刷新而拉低告警信號線的電位;服務器主板偵測到告警信號線處于低電位后,向各gpu板卡發(fā)出符合smbus協(xié)議的響應地址命令,各gpu板卡收到該命令后返回自身的設備地址,同時將告警信號線恢復為高電位;服務器主板根據(jù)得到的設備地址讀取各gpu板卡的狀態(tài),若某gpu板卡的協(xié)處理器處于異常狀態(tài),則向該gpu板卡發(fā)送復位信號,該gpu板卡在接到復位信號后進行協(xié)處理器的復位,并在復位完成后產生相應的中斷信號;協(xié)處理器經(jīng)過復位重新運行后,根據(jù)中斷信號得知本身發(fā)生異常,將告警信號線重新拉低為低電位;服務器主板偵測到告警信號線處于低電位后,向各gpu板卡重新發(fā)出符合smbus協(xié)議的響應地址命令,各gpu板卡收到該命令后返回自身的設備地址,同時將告警信號線恢復為高電位;服務器主板根據(jù)得到的設備地址再次讀取各gpu板卡的狀態(tài),若無異常則gpu板卡復位完成。

      6、該方案中,通過gpu板卡內置的看門狗監(jiān)測板卡中的協(xié)處理器是否發(fā)生異常,在發(fā)生異常時通過拉低告警信號線電位來通知服務器主板,這樣將不再需要服務器發(fā)送輪詢命令查詢gpu板卡是否發(fā)生異常,從而減輕服務器主板的工作量。該方案也是簡單的通過重啟gpu設備來恢復gpu正常工作,并沒有避免重啟gpu設備,更沒有對需要重新下發(fā)給gpu的命令進行精細化控制。

      7、總體可知,cpu給gpu的fep(front?end?processor,前端處理器)下發(fā)命令出現(xiàn)異常是系統(tǒng)問題,現(xiàn)有技術方案往往只是粗粒度的重置整個系統(tǒng),并沒有針對具體出錯的位置進行精細化管理。


      技術實現(xiàn)思路

      1、鑒于上述問題,本發(fā)明的目的在于提供一種gpu命令異常恢復方法,旨在解決現(xiàn)有技術方案中,針對gpu下發(fā)命令時出現(xiàn)異常錯誤導致gpu無法正常工作的問題,并沒有對命令異常進行精細管理,只是粗略的重置系統(tǒng)的技術問題。

      2、本發(fā)明采用如下技術方案:

      3、所述gpu命令異?;謴头椒ǎㄏ率霾襟E:

      4、步驟s1、對于cpu接收到來自于應用程序的命令包,緩存命令包至內存空間,將命令包逐個發(fā)送至gpu的fep單元,并同時將執(zhí)行命令包所需要的數(shù)據(jù)發(fā)送至gpu顯存,其中命令包中包含有多條命令;

      5、步驟s2、gpu接收命令包和數(shù)據(jù)并執(zhí)行命令包,在執(zhí)行過程中gpu實時監(jiān)測命令包中的命令執(zhí)行情況,判斷是否出現(xiàn)異常;

      6、步驟s3、如命令執(zhí)行未出現(xiàn)異常,則對于成功執(zhí)行命令包中的命令,gpu隨即向cpu發(fā)送當前命令執(zhí)行成功的反饋通知,cpu接收到命令包的所有命令執(zhí)行成功的反饋通知后,從內存空間中刪除當前命令包以釋放內存空間;

      7、步驟s4、如命令執(zhí)行出現(xiàn)異常,gpu隨即保存當前工作狀態(tài),并向cpu發(fā)送當前命令執(zhí)行異常的反饋通知,cpu從內存空間中尋找異常命令對應的命令包,從異常命令開始將其以及其后所有已發(fā)送和未發(fā)送命令重新發(fā)送至gpu再次執(zhí)行。

      8、進一步的,所述命令包的格式從前之后依次為:命令包頭、命令包編號、命令包中各條命令信息、命令包尾,其中每條命令信息均包括命令編號、命令指令和校驗位。

      9、進一步的,判斷命令執(zhí)行是否異常有如下情況:

      10、命令合法性和數(shù)據(jù)完整性是否異常:對輸入的命令進行合法性校驗,首先解析來自于cpu的命令包,至少獲取其中的命令包編號、命令指令,gpu在執(zhí)行命令時,實時記錄當前正在執(zhí)行的命令包編號和命令指令,如果命令合法性或數(shù)據(jù)完整性出現(xiàn)問題,gpu將異常的命令包編號和異常命令的具體位置發(fā)送給cpu,cpu查找到命令包再重新發(fā)送;

      11、執(zhí)行時間是否異常:如果cpu一定時間內未接收到gpu的反饋通知,則認定命令執(zhí)行時間異常,將未接收到反饋通知的命令記為異常命令,cpu從內存空間中尋找異常命令對應的命令包,從異常命令開始將其以及其后所有已發(fā)送和未發(fā)送命令重新發(fā)送至gpu再次執(zhí)行;如果仍存在命令執(zhí)行時間異常的問題,cpu發(fā)出指令重置gpu。

      12、進一步的,執(zhí)行命令還會監(jiān)測如下情況:

      13、訪問權限是否異常:在執(zhí)行命令前,檢測當前命令所來自的應用程序是否具有訪問權限,如果權限不足,則不會執(zhí)行該命令;

      14、設備連接是否異常:檢查gpu的連接狀態(tài),確保gpu正??捎茫绻鹓pu連接丟失,gpu會將硬件連接信息通知到cpu,用戶獲取到此種異常信息進行檢查連接線路情況;

      15、驅動程序是否異常:驗證gpu驅動程序是否正確安裝和配置,以確保cpu可以正常與gpu通信,如果驅動程序沒有正確配置gpu,gpu會將硬件連接信息通知到cpu,用戶獲取到此種異常信息后需要檢查gpu驅動程序;

      16、gpu狀態(tài)是否異常:cpu實時監(jiān)測gpu的工作狀態(tài),如果gpu出現(xiàn)崩潰,則不響應cpu任何命令,gpu崩潰后不會響應cpu的常規(guī)指令,cpu發(fā)出指令重置gpu。

      17、進一步的,所述異常反饋通知包括異常命令的命令包編號、異常命令在命令包中的具體位置,即命令編號,以及命令執(zhí)行狀態(tài),cpu獲取到gpu執(zhí)行命令出現(xiàn)執(zhí)行異常的反饋通知后,從內存空間中尋找異常命令所在命令包以及在命令包中的具體位置,找到命令包后從異常命令所在位置再重新發(fā)送異常命令及其異常命令位置之后的所有已發(fā)送和未發(fā)送命令。

      18、本發(fā)明的有益效果是:本發(fā)明由gpu對命令進行實時監(jiān)測,同時cpu保存下發(fā)命令包直到收到gpu處理完成的反饋狀態(tài)后再丟棄命令包,gpu一旦發(fā)現(xiàn)命令異常情況,便將當前工作狀態(tài)保存,然后將命令出錯的具體位置反饋給cpu,cpu獲取到異常命令位置后,從命令緩沖區(qū)中尋找出錯命令所在命令包,找到這個命令包后,從出錯命令所在位置再重新發(fā)送命令。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1