一種GPU命令異?；謴头椒ㄅc流程

文檔序號：39105566發(fā)布日期：2024-08-21 11:30閱讀：86來源：國知局

本發(fā)明屬于gpu設計，尤其涉及一種gpu命令異?；謴头椒?。

背景技術：

1、在圖形系統(tǒng)中，cpu(central?processing?unit，中央處理器)通過向gpu(graphicprocessing?units，圖形處理器)下發(fā)命令來控制、協(xié)調圖形渲染和計算任務的執(zhí)行。通過下發(fā)命令，cpu可以向gpu發(fā)送指令，告訴gpu如何處理數(shù)據(jù)和執(zhí)行特定的計算任務。這些指令包括繪制圖形、計算著色、執(zhí)行計算任務等，通過這些指令，gpu可以按照cpu的要求進行相應的操作和處理。下發(fā)命令的過程實質上是cpu與gpu之間的通信和協(xié)作，使得gpu能夠高效地執(zhí)行各種圖形和計算任務，從而實現(xiàn)復雜的圖形渲染和計算需求。

2、gpu的命令處理流程涉及多個關鍵組件和步驟，包括內存子系統(tǒng)、pcie(peripheral?component?interface?express，外設組件互連快速總線）主機接口、命令緩沖區(qū)、指令調度器等。在長時間的系統(tǒng)運行過程中，電壓波動、溫度漂移等環(huán)境因素加上下發(fā)命令流程涉及各個繁雜系統(tǒng)，可能會出現(xiàn)命令出錯的情況。而在命令出錯后，如果不能及時進行恢復，將導致渲染結果異常，顯示出來一些預期之外的畫面。為了解決此問題，目前有一些公開的專利技術方案：

3、如專利公開號cn117707848a公開了一種gpu設備維護系統(tǒng)，采用的方案是針對異常的gpu設備進行重啟。由gpu設備將異常信息發(fā)送給驅動，驅動對異常信息解析后，將解析結果以同步或者異步的方式發(fā)送給監(jiān)控程序，再由監(jiān)控程序通知業(yè)務端，也即由監(jiān)控程序向業(yè)務端發(fā)送暫停業(yè)務通知信息。業(yè)務端在接受到暫停業(yè)務通知信息時，暫停gpu設備對應的業(yè)務，向監(jiān)控程序發(fā)送復位通知信息，并收集gpu設備中所有寄存器的值作為運行狀態(tài)信息，此時，運行狀態(tài)信息保存于業(yè)務端的內存中，以起到斷點保護的作用，使得后續(xù)gpu設備在維護結束后，能夠繼續(xù)執(zhí)行所暫停的業(yè)務。監(jiān)控程序在接受到復位通知信息后，再將復位通知信息發(fā)送給驅動，驅動側生成復位命令，將復位命令發(fā)送給gpu設備。gpu設備在接收到復位命令之后，執(zhí)行復位操作，在復位操作執(zhí)行完畢后，形成復位完成信息。業(yè)務端在檢測到復位完成信息后，將運行狀態(tài)信息發(fā)送給gpu設備進行寄存器配置，gpu設備再繼續(xù)執(zhí)行所暫停的業(yè)務。

4、該方案中，gpu設備主動將異常信息發(fā)送到驅動，從而使得維護系統(tǒng)能夠快速響應對gpu設備進行維護，并且由驅動將復位命令發(fā)送給異常的gpu設備，在gpu設備端執(zhí)行復位操作，無需復位整個操作系統(tǒng)層，從而能夠針對異常的gpu設備進行重啟，而且由業(yè)務端收集gpu設備的運行狀態(tài)信息，在gpu設備復位之后重新配置，從而能夠保證在gpu設備維護后能夠繼續(xù)執(zhí)行業(yè)務。該方案只是避免了重啟操作系統(tǒng)，并沒有避免重啟gpu設備，更沒有對需要重新下發(fā)給gpu的命令進行精細化控制。

5、又如專利公開號cn114564327a公開了一種基于smbus總線的服務器多卡控制系統(tǒng)，采用的方案是內置看門狗監(jiān)測協(xié)處理器是否發(fā)生異常，在發(fā)生異常時通過拉低告警信號線電位來通知服務器主板。gpu板卡的協(xié)處理器出現(xiàn)異常時，gpu板卡中的看門狗由于不能得到刷新而拉低告警信號線的電位；服務器主板偵測到告警信號線處于低電位后，向各gpu板卡發(fā)出符合smbus協(xié)議的響應地址命令，各gpu板卡收到該命令后返回自身的設備地址，同時將告警信號線恢復為高電位；服務器主板根據(jù)得到的設備地址讀取各gpu板卡的狀態(tài)，若某gpu板卡的協(xié)處理器處于異常狀態(tài)，則向該gpu板卡發(fā)送復位信號，該gpu板卡在接到復位信號后進行協(xié)處理器的復位，并在復位完成后產生相應的中斷信號；協(xié)處理器經(jīng)過復位重新運行后，根據(jù)中斷信號得知本身發(fā)生異常，將告警信號線重新拉低為低電位；服務器主板偵測到告警信號線處于低電位后，向各gpu板卡重新發(fā)出符合smbus協(xié)議的響應地址命令，各gpu板卡收到該命令后返回自身的設備地址，同時將告警信號線恢復為高電位；服務器主板根據(jù)得到的設備地址再次讀取各gpu板卡的狀態(tài)，若無異常則gpu板卡復位完成。

6、該方案中，通過gpu板卡內置的看門狗監(jiān)測板卡中的協(xié)處理器是否發(fā)生異常，在發(fā)生異常時通過拉低告警信號線電位來通知服務器主板，這樣將不再需要服務器發(fā)送輪詢命令查詢gpu板卡是否發(fā)生異常，從而減輕服務器主板的工作量。該方案也是簡單的通過重啟gpu設備來恢復gpu正常工作，并沒有避免重啟gpu設備，更沒有對需要重新下發(fā)給gpu的命令進行精細化控制。

7、總體可知，cpu給gpu的fep(front?end?processor，前端處理器)下發(fā)命令出現(xiàn)異常是系統(tǒng)問題，現(xiàn)有技術方案往往只是粗粒度的重置整個系統(tǒng)，并沒有針對具體出錯的位置進行精細化管理。

技術實現(xiàn)思路

1、鑒于上述問題，本發(fā)明的目的在于提供一種gpu命令異常恢復方法，旨在解決現(xiàn)有技術方案中，針對gpu下發(fā)命令時出現(xiàn)異常錯誤導致gpu無法正常工作的問題，并沒有對命令異常進行精細管理，只是粗略的重置系統(tǒng)的技術問題。

2、本發(fā)明采用如下技術方案：

3、所述gpu命令異?；謴头椒ǎㄏ率霾襟E：

4、步驟s1、對于cpu接收到來自于應用程序的命令包，緩存命令包至內存空間，將命令包逐個發(fā)送至gpu的fep單元，并同時將執(zhí)行命令包所需要的數(shù)據(jù)發(fā)送至gpu顯存，其中命令包中包含有多條命令；

5、步驟s2、gpu接收命令包和數(shù)據(jù)并執(zhí)行命令包，在執(zhí)行過程中gpu實時監(jiān)測命令包中的命令執(zhí)行情況，判斷是否出現(xiàn)異常；

6、步驟s3、如命令執(zhí)行未出現(xiàn)異常，則對于成功執(zhí)行命令包中的命令，gpu隨即向cpu發(fā)送當前命令執(zhí)行成功的反饋通知，cpu接收到命令包的所有命令執(zhí)行成功的反饋通知后，從內存空間中刪除當前命令包以釋放內存空間；

7、步驟s4、如命令執(zhí)行出現(xiàn)異常，gpu隨即保存當前工作狀態(tài)，并向cpu發(fā)送當前命令執(zhí)行異常的反饋通知，cpu從內存空間中尋找異常命令對應的命令包，從異常命令開始將其以及其后所有已發(fā)送和未發(fā)送命令重新發(fā)送至gpu再次執(zhí)行。

8、進一步的，所述命令包的格式從前之后依次為：命令包頭、命令包編號、命令包中各條命令信息、命令包尾，其中每條命令信息均包括命令編號、命令指令和校驗位。

9、進一步的，判斷命令執(zhí)行是否異常有如下情況：

10、命令合法性和數(shù)據(jù)完整性是否異常：對輸入的命令進行合法性校驗，首先解析來自于cpu的命令包，至少獲取其中的命令包編號、命令指令，gpu在執(zhí)行命令時，實時記錄當前正在執(zhí)行的命令包編號和命令指令，如果命令合法性或數(shù)據(jù)完整性出現(xiàn)問題，gpu將異常的命令包編號和異常命令的具體位置發(fā)送給cpu，cpu查找到命令包再重新發(fā)送；

11、執(zhí)行時間是否異常：如果cpu一定時間內未接收到gpu的反饋通知，則認定命令執(zhí)行時間異常，將未接收到反饋通知的命令記為異常命令，cpu從內存空間中尋找異常命令對應的命令包，從異常命令開始將其以及其后所有已發(fā)送和未發(fā)送命令重新發(fā)送至gpu再次執(zhí)行；如果仍存在命令執(zhí)行時間異常的問題，cpu發(fā)出指令重置gpu。

12、進一步的，執(zhí)行命令還會監(jiān)測如下情況：

13、訪問權限是否異常：在執(zhí)行命令前，檢測當前命令所來自的應用程序是否具有訪問權限，如果權限不足，則不會執(zhí)行該命令；

14、設備連接是否異常：檢查gpu的連接狀態(tài)，確保gpu正?？捎茫绻鹓pu連接丟失，gpu會將硬件連接信息通知到cpu，用戶獲取到此種異常信息進行檢查連接線路情況；

15、驅動程序是否異常：驗證gpu驅動程序是否正確安裝和配置，以確保cpu可以正常與gpu通信，如果驅動程序沒有正確配置gpu，gpu會將硬件連接信息通知到cpu，用戶獲取到此種異常信息后需要檢查gpu驅動程序；

16、gpu狀態(tài)是否異常：cpu實時監(jiān)測gpu的工作狀態(tài)，如果gpu出現(xiàn)崩潰，則不響應cpu任何命令，gpu崩潰后不會響應cpu的常規(guī)指令，cpu發(fā)出指令重置gpu。

17、進一步的，所述異常反饋通知包括異常命令的命令包編號、異常命令在命令包中的具體位置，即命令編號，以及命令執(zhí)行狀態(tài)，cpu獲取到gpu執(zhí)行命令出現(xiàn)執(zhí)行異常的反饋通知后，從內存空間中尋找異常命令所在命令包以及在命令包中的具體位置，找到命令包后從異常命令所在位置再重新發(fā)送異常命令及其異常命令位置之后的所有已發(fā)送和未發(fā)送命令。

18、本發(fā)明的有益效果是：本發(fā)明由gpu對命令進行實時監(jiān)測，同時cpu保存下發(fā)命令包直到收到gpu處理完成的反饋狀態(tài)后再丟棄命令包，gpu一旦發(fā)現(xiàn)命令異常情況，便將當前工作狀態(tài)保存，然后將命令出錯的具體位置反饋給cpu，cpu獲取到異常命令位置后，從命令緩沖區(qū)中尋找出錯命令所在命令包，找到這個命令包后，從出錯命令所在位置再重新發(fā)送命令。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：劉平和,張彥芳,秦泰,黃松,李豪
技術所有人：武漢凌久微電子有限公司
我是此專利的發(fā)明人

上一篇：一種脫硫吸收液PH檢測裝置的制作方法
上一篇：一種房建室內地板鋪設搬運設備的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種GPU命令異?；謴头椒ㄅc流程

一種GPU命令異?；謴头椒ㄅc流程