本發(fā)明涉及計算系統(tǒng)資源狀態(tài)監(jiān)控,具體涉及一種異構(gòu)人工智能一體機的資源狀態(tài)監(jiān)控系統(tǒng)及方法。
背景技術(shù):
1、隨著人工智能技術(shù)的飛速發(fā)展,異構(gòu)人工智能一體機在各個領(lǐng)域得到了廣泛應(yīng)用。這些一體機集成了多種關(guān)鍵模塊,如芯片模塊用于進行復(fù)雜的運算處理,通信模塊實現(xiàn)數(shù)據(jù)的快速傳輸,存儲模塊負責(zé)數(shù)據(jù)的存儲,輸入輸出模塊滿足與用戶的交互以及數(shù)據(jù)的展示,供電模塊為整個設(shè)備提供穩(wěn)定的電力支持。
2、然而,在實際應(yīng)用過程中,如何有效地監(jiān)控和管理這些一體機的資源狀態(tài)成為了一個關(guān)鍵問題。目前現(xiàn)有的監(jiān)控技術(shù)存在諸多不足,例如無法全面地對芯片使用率、芯片負載狀態(tài)、運行時間、磁盤讀寫狀態(tài)、磁盤讀寫速度、可用內(nèi)存容量、通信連接數(shù)、通信速度、任務(wù)數(shù)量、設(shè)備計算量和計算速度等多種關(guān)鍵資源狀態(tài)信息進行準確監(jiān)控。
3、傳統(tǒng)的監(jiān)控系統(tǒng)往往只能監(jiān)測單一模塊或者部分關(guān)鍵指標,難以形成一個全面的資源狀態(tài)監(jiān)控體系。這導(dǎo)致無法準確了解一體機的整體運行狀況,難以在資源利用不合理時進行及時有效的調(diào)整和優(yōu)化。例如,當(dāng)芯片負載過高而其他模塊資源閑置時,無法快速有效地進行資源調(diào)配,可能導(dǎo)致一體機性能下降,影響任務(wù)的執(zhí)行效率和質(zhì)量。
4、同時,現(xiàn)有的分析手段也較為有限,無法對監(jiān)控到的數(shù)據(jù)進行深入的元分析和計算,難以將資源狀態(tài)數(shù)據(jù)與硬件和軟件使用參數(shù)進行精準對比,也就無法為一體機的資源狀態(tài)優(yōu)化提供有力的數(shù)據(jù)支持和決策依據(jù)。而且,許多監(jiān)控系統(tǒng)在運行過程中會占用一體機的設(shè)備硬件資源,影響一體機本身的性能和算力,進一步降低了一體機的工作效率。
5、因此,迫切需要一種能夠全面、高效且不影響一體機自身性能的資源狀態(tài)監(jiān)控系統(tǒng)及方法,以實現(xiàn)對異構(gòu)人工智能一體機的精細化管理和優(yōu)化。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種異構(gòu)人工智能一體機的資源狀態(tài)監(jiān)控系統(tǒng)及方法,對一體機的資源狀態(tài)進行監(jiān)控和分析,提升異構(gòu)人工智能一體機的計算性能和運行穩(wěn)定性。
2、技術(shù)方案:第一方面,提供一種異構(gòu)人工智能一體機的資源狀態(tài)監(jiān)控系統(tǒng),所述人工智能一體機包括芯片模塊、通信模塊、存儲模塊、輸入輸出模塊和供電模塊,所述監(jiān)控系統(tǒng)包括資源監(jiān)控模塊、數(shù)據(jù)分析模塊和調(diào)用模塊,所述資源監(jiān)控模塊用于對所述人工智能一體機的芯片模塊、通信模塊和存儲模塊進行資源狀態(tài)數(shù)據(jù)狀態(tài)監(jiān)控,同時用于根據(jù)資源狀態(tài)數(shù)據(jù)生成數(shù)據(jù)大模型,并提供數(shù)據(jù)直觀化展示通道;所述數(shù)據(jù)分析模塊用于對所述數(shù)據(jù)監(jiān)控模塊監(jiān)控的資源狀態(tài)數(shù)據(jù)進行整合分析,同時用于后續(xù)人工智能一體化機的資源狀態(tài)優(yōu)化;所述調(diào)用模塊用于根據(jù)數(shù)據(jù)分析模塊的分析結(jié)果對人工智能一體機的芯片模塊、通信模塊和存儲模塊資源狀態(tài)進行實時的調(diào)節(jié)調(diào)用。
3、進一步的,所述資源監(jiān)控模塊包括數(shù)據(jù)采集端口、數(shù)據(jù)收集模塊、數(shù)據(jù)調(diào)用模塊、數(shù)據(jù)模型生成模塊和數(shù)據(jù)模型處理模塊;所述數(shù)據(jù)采集端口用于對所述人工智能一體機物理狀態(tài)和運行資源狀態(tài)數(shù)據(jù)進行采集傳輸;所述數(shù)據(jù)收集模塊用于將所述數(shù)據(jù)采集端口傳輸?shù)臄?shù)據(jù)進行數(shù)據(jù)收集,并且進行短暫的存儲;所述數(shù)據(jù)調(diào)用模塊用于將所述數(shù)據(jù)收集模塊收集存儲的數(shù)據(jù)進行調(diào)用,調(diào)用數(shù)據(jù)中監(jiān)控的關(guān)鍵數(shù)據(jù);所述數(shù)據(jù)模型生成模塊用于將所述數(shù)據(jù)調(diào)用模塊輸入的關(guān)鍵資源狀態(tài)數(shù)據(jù),建立資源狀態(tài)的數(shù)據(jù)大模型;所述數(shù)據(jù)模型處理模塊用于將建立的數(shù)據(jù)大模型進行直觀數(shù)據(jù)化處理,方便用戶資源狀態(tài)更直觀地查看。
4、進一步的,所述人工智能一體機物理狀態(tài)包括:設(shè)備溫度、環(huán)境濕度、供電電壓中的一項或多項;所述人工智能一體機運行資源狀態(tài)數(shù)據(jù)包括;芯片使用率、芯片負載狀態(tài)、運行時間、磁盤讀寫狀態(tài)、磁盤讀寫速度、可用內(nèi)存容量、通信連接數(shù)、通信速度、任務(wù)數(shù)量、設(shè)備計算量和計算速度中的一項或多項。
5、進一步的,所述數(shù)據(jù)采集端口對人工智能一體機物理狀態(tài)的監(jiān)測是通過讀取設(shè)置在人工智能一體機關(guān)鍵位置處的溫度傳感器、濕度傳感器或電壓傳感器上送的信號來完成的。
6、進一步的,所述數(shù)據(jù)采集端口對人工智能一體機運行資源狀態(tài)數(shù)據(jù)的監(jiān)測包括:
7、對于芯片使用率的采集,數(shù)據(jù)采集端口通過與芯片內(nèi)置的性能監(jiān)測寄存器或相關(guān)的系統(tǒng)管理接口進行連接通信,定期讀取這些寄存器中的數(shù)據(jù),并根據(jù)預(yù)設(shè)的算法計算出芯片在一定時間內(nèi)的實際工作時間與總時間的比值,從而得出芯片使用率;
8、對于芯片負載狀態(tài)的監(jiān)測,利用芯片提供的負載監(jiān)測接口或者通過監(jiān)測芯片的電源電流和電壓變化來間接判斷負載狀態(tài),數(shù)據(jù)采集端口連接到芯片的電源管理電路部分,通過電流和電壓傳感器實時監(jiān)測芯片工作時的電流和電壓波動情況,根據(jù)預(yù)設(shè)的電流和電壓閾值范圍來判斷芯片的負載狀態(tài);
9、對于運行時間的采集,數(shù)據(jù)采集端口與芯片的系統(tǒng)時鐘模塊進行連接,讀取芯片的系統(tǒng)時間信息,在人工智能一體機啟動時,數(shù)據(jù)采集端口記錄下啟動時間,并在后續(xù)的每個采集周期中,通過與當(dāng)前時間的差值計算出芯片的運行時間;
10、對于磁盤讀寫狀態(tài)的監(jiān)測,數(shù)據(jù)采集端口與磁盤控制器進行通信,通過讀取磁盤控制器的狀態(tài)寄存器,了解磁盤的讀寫狀態(tài);
11、對于磁盤讀寫速度的測量,數(shù)據(jù)采集端口通過記錄一段時間內(nèi)磁盤讀寫的數(shù)據(jù)量,并除以時間間隔來計算磁盤讀寫速度;
12、對于可用內(nèi)存容量的監(jiān)測,數(shù)據(jù)采集端口與內(nèi)存管理單元進行連接,通過讀取內(nèi)存管理單元的相關(guān)寄存器,獲取內(nèi)存使用情況的數(shù)據(jù),并計算出可用內(nèi)存容量;
13、對于通信連接數(shù)的統(tǒng)計,數(shù)據(jù)采集端口與通信模塊進行交互,通過讀取通信模塊的連接狀態(tài)寄存器或者相關(guān)的統(tǒng)計數(shù)據(jù)接口,獲取通信連接數(shù)的數(shù)據(jù);
14、對于通信速度的監(jiān)測,數(shù)據(jù)采集端口通過分析一段時間內(nèi)通信模塊傳輸?shù)臄?shù)據(jù)量來計算通信速度;
15、對于任務(wù)數(shù)量的統(tǒng)計,數(shù)據(jù)采集端口通過與操作系統(tǒng)的任務(wù)管理模塊進行通信,定期查詢?nèi)蝿?wù)管理模塊,獲取任務(wù)數(shù)量的數(shù)據(jù);
16、對于設(shè)備計算量的監(jiān)測,數(shù)據(jù)采集端口通過分析芯片在一段時間內(nèi)處理的數(shù)據(jù)量和執(zhí)行的計算指令數(shù)量來估算設(shè)備計算量;
17、對于計算速度的測量,數(shù)據(jù)采集端口通過記錄完成一定計算任務(wù)所需的時間來計算計算速度。
18、進一步的,所述數(shù)據(jù)模型模塊建立大數(shù)據(jù)模型的過程如下:
19、將數(shù)據(jù)進行匯總,獲取通過數(shù)據(jù)采集端口采集的狀態(tài)數(shù)據(jù),并根據(jù)不同的計算任務(wù)類型分類收集計算數(shù)據(jù);
20、按照數(shù)據(jù)的類型進行分類,將狀態(tài)數(shù)據(jù)和計算數(shù)據(jù)分別歸類整理;
21、運用數(shù)據(jù)建模技術(shù),根據(jù)分類后的數(shù)據(jù)特點和相互之間的關(guān)聯(lián)關(guān)系,構(gòu)建數(shù)據(jù)模型的基本框架,將不同類型的數(shù)據(jù)用不用的數(shù)據(jù)結(jié)構(gòu)進行存儲;
22、通過屬性分析,為數(shù)據(jù)模型添加屬性標簽和索引,以便能夠快速查看在不同屬性上的同類型數(shù)據(jù)分布情況,便于統(tǒng)計不同特征的數(shù)據(jù)總量。
23、進一步的,所述數(shù)據(jù)分析模塊包括元分析模塊、數(shù)據(jù)對比模塊和數(shù)據(jù)存儲模塊;所述元分析模塊用于對所述人工智能一體機資源狀態(tài)數(shù)據(jù)進行深度的元分析和計算;所述數(shù)據(jù)對比模塊用于將深度分析計算的資源狀態(tài)數(shù)據(jù)對現(xiàn)有執(zhí)行的硬件和軟件使用參數(shù)進行對比;所述數(shù)據(jù)存儲模塊用于將深度分析和計算的結(jié)果進行存儲,方便后續(xù)所述人工智能一體機在相同計算時,快速地調(diào)用資源狀態(tài)的分配數(shù)據(jù)。
24、進一步的,所述元分析模塊對所述人工智能一體機資源狀態(tài)數(shù)據(jù)進行深度的元分析和計算包括:
25、輸入元分析模塊的數(shù)據(jù)主要包括人工智能一體機在運行過程中的各項關(guān)鍵數(shù)據(jù),包括運行計算量、計算進度、計算量內(nèi)容、計算速度和計算種類;
26、元分析模塊以人工智能一體機的運行計算量為基礎(chǔ),統(tǒng)計計算內(nèi)容利用人工智能一體機芯片的實際利用率,根據(jù)多組的計算進度、計算量內(nèi)容、計算速度和計算種類進行分配計算內(nèi)容所需的核心利用率的評估;根據(jù)不同的任務(wù)特征和當(dāng)前的計算狀態(tài),綜合分析并計算出在保證各個計算任務(wù)順利進行的前提下,芯片應(yīng)該分配給每個任務(wù)的最佳資源比例,即核心利用率;最終輸出人工智能一體機計算過程中當(dāng)前計算量所需的硬件和軟件更優(yōu)調(diào)用參數(shù)。
27、進一步的,所述資源監(jiān)控模塊和數(shù)據(jù)分析模塊均采用硬件混合納管技術(shù),利用分布式計算實現(xiàn)資源監(jiān)控和數(shù)據(jù)分析。
28、第二方面,提供一種異構(gòu)人工智能一體機的資源狀態(tài)監(jiān)控方法,所述人工智能一體機包括芯片模塊、通信模塊、存儲模塊、輸入輸出模塊和供電模塊,所述人工智能一體機連接有資源監(jiān)控模塊、數(shù)據(jù)分析模塊、調(diào)用模塊,人工智能一體機對輸入的數(shù)據(jù)進行任務(wù)計算;所述資源監(jiān)控模塊包括數(shù)據(jù)采集端口、數(shù)據(jù)收集模塊、數(shù)據(jù)調(diào)用模塊、數(shù)據(jù)模型生成模塊和數(shù)據(jù)模型處理模塊;所述數(shù)據(jù)分析模塊包括元分析模塊、數(shù)據(jù)對比模塊和數(shù)據(jù)存儲模塊;所述方法包括:
29、人工智能一體機通過輸入輸出模塊的輸入端口,將所需計算運行的軟件和數(shù)據(jù)輸入到人工智能一體機內(nèi);人工智能一體機的芯片模塊、通信模塊和存儲模塊對數(shù)據(jù)進行計算或軟件進行運行,運行過程中產(chǎn)生不同的硬件資源利用,資源監(jiān)控模塊對人工智能一體機的資源狀態(tài)信息包括芯片使用率、芯片負載狀態(tài)、運行時間、磁盤讀寫狀態(tài)、磁盤讀寫速度、可用內(nèi)存容量、通信連接數(shù)、通信速度、任務(wù)數(shù)量、設(shè)備計算量和計算速度進行資源狀態(tài)的監(jiān)控,監(jiān)控數(shù)據(jù)通過數(shù)據(jù)采集端口被采集到資源監(jiān)控模塊中,然后資源狀態(tài)數(shù)據(jù)輸送到數(shù)據(jù)收集模塊,數(shù)據(jù)收集模塊將所采集的資源狀態(tài)數(shù)據(jù)進行短暫的存儲,此時通過數(shù)據(jù)調(diào)用模塊,將采集的資源狀態(tài)數(shù)據(jù)中關(guān)鍵數(shù)據(jù)進行調(diào)用傳輸?shù)綌?shù)據(jù)模型生成模塊內(nèi),數(shù)據(jù)模型生成模塊將資源狀態(tài)數(shù)據(jù)生成數(shù)據(jù)大模型,并生成直觀的圖像數(shù)據(jù),方便用戶的查看,隨后生成的數(shù)據(jù)傳輸?shù)綌?shù)據(jù)模型處理模塊,然后數(shù)據(jù)模型處理模塊將模型數(shù)據(jù)生成處理數(shù)據(jù),之后傳輸?shù)綌?shù)據(jù)分析模塊中;數(shù)據(jù)分析模塊中的元分析模塊,通過對數(shù)據(jù)進行分析計算,得到異常值,之后利用數(shù)據(jù)比對模塊對此次計算運行的資源狀態(tài)異常值進行比對,比對后生成更適合本次人工智能一體機運行所需的資源分配狀態(tài),隨后將此數(shù)據(jù)反饋到人工智能一體機內(nèi),人工智能一體機調(diào)用不同的芯片,用于更適配此次計算或是軟件運行的芯片。
30、有益效果:和現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
31、1、監(jiān)控全面性
32、多模塊詳細監(jiān)控:
33、本發(fā)明能夠?qū)θ斯ぶ悄芤惑w機的芯片模塊、通信模塊和存儲模塊進行全方位的資源狀態(tài)數(shù)據(jù)狀態(tài)監(jiān)控。例如,在芯片模塊方面,不僅可以監(jiān)測芯片使用率和芯片負載狀態(tài),還能關(guān)注到運行時間等細微但關(guān)鍵的指標,這有助于精確掌握芯片的工作情況,及時發(fā)現(xiàn)潛在的性能瓶頸。
34、對于通信模塊,能夠詳細監(jiān)控通信連接數(shù)和通信速度,確保數(shù)據(jù)傳輸?shù)姆€(wěn)定性和高效性。例如在大規(guī)模數(shù)據(jù)傳輸?shù)膱鼍跋?,如高清視頻流的實時傳輸或大規(guī)模數(shù)據(jù)文件的下載,能夠準確評估通信模塊的負載情況,以便及時調(diào)整數(shù)據(jù)傳輸策略,避免因通信擁堵導(dǎo)致的數(shù)據(jù)傳輸延遲或丟失。
35、在存儲模塊方面,不僅關(guān)注磁盤讀寫狀態(tài),還能精確監(jiān)測磁盤讀寫速度和可用內(nèi)存容量,這對于需要頻繁讀寫數(shù)據(jù)的應(yīng)用程序(如數(shù)據(jù)庫管理系統(tǒng)或視頻編輯軟件)至關(guān)重要,可以根據(jù)這些詳細的監(jiān)控數(shù)據(jù)優(yōu)化數(shù)據(jù)存儲和讀取策略,提高整體系統(tǒng)性能。
36、輸入輸出模塊監(jiān)控納入:
37、本發(fā)明還將輸入輸出模塊納入監(jiān)控范圍,包括數(shù)據(jù)輸入模塊、圖像輸出模塊、文字輸出模塊和音頻輸出模塊。這使得在監(jiān)控過程中能夠全面了解一體機與用戶交互的情況,例如在一些需要實時響應(yīng)的應(yīng)用場景中,如虛擬現(xiàn)實交互系統(tǒng)或在線語音識別系統(tǒng),可以根據(jù)輸入輸出模塊的資源狀態(tài)數(shù)據(jù),調(diào)整系統(tǒng)資源分配,確保用戶體驗的流暢性。
38、例如,當(dāng)檢測到大量數(shù)據(jù)輸入或高分辨率圖像輸出需求時,可以動態(tài)調(diào)整資源分配,優(yōu)先保障輸入輸出模塊的性能,避免因資源不足導(dǎo)致的卡頓或延遲。
39、2、數(shù)據(jù)處理與分析能力
40、先進的數(shù)據(jù)模型生成與處理:
41、本發(fā)明的資源監(jiān)控模塊具有獨特的數(shù)據(jù)模型生成和處理能力。通過數(shù)據(jù)模型生成模塊,能夠?qū)㈥P(guān)鍵資源狀態(tài)數(shù)據(jù)建立為資源狀態(tài)的數(shù)據(jù)大模型。這個大模型能夠整合多個模塊的復(fù)雜數(shù)據(jù)關(guān)系,例如將芯片使用率、通信速度和磁盤讀寫速度等數(shù)據(jù)進行關(guān)聯(lián)分析,以便更全面地了解一體機的整體運行狀態(tài)。
42、數(shù)據(jù)模型處理模塊能夠?qū)⒔⒌臄?shù)據(jù)大模型進行直觀數(shù)據(jù)化處理,方便用戶更直觀地查看資源狀態(tài)。例如,以圖表的形式展示資源使用趨勢、模塊之間的資源分配比例等,使管理員能夠快速準確地理解和評估一體機的資源狀況,從而做出更科學(xué)的決策。
43、深度元分析與對比:
44、數(shù)據(jù)分析模塊中的元分析模塊能夠?qū)Y源狀態(tài)數(shù)據(jù)進行深度的元分析和計算。這種深度分析可以挖掘數(shù)據(jù)背后的隱藏模式和潛在問題,例如通過對一段時間內(nèi)的資源狀態(tài)數(shù)據(jù)進行時間序列分析,發(fā)現(xiàn)某些周期性的資源使用高峰或低谷,以便提前做好資源調(diào)配準備。
45、數(shù)據(jù)對比模塊能夠?qū)⑸疃确治鲇嬎愕馁Y源狀態(tài)數(shù)據(jù)與現(xiàn)有執(zhí)行的硬件和軟件使用參數(shù)進行對比,這為資源優(yōu)化提供了精準的依據(jù)。例如,當(dāng)發(fā)現(xiàn)實際資源使用情況與軟件設(shè)計的最佳資源配置存在差異時,可以針對性地調(diào)整軟件參數(shù)或硬件資源分配,以實現(xiàn)最佳的性能表現(xiàn)。
46、3、資源優(yōu)化能力
47、實時資源調(diào)用與優(yōu)化:
48、本發(fā)明的人工智能一體機配備了調(diào)用模塊,能夠?qū)⑿酒K、通信模塊和存儲模塊資源狀態(tài)進行實時的調(diào)節(jié)調(diào)用。例如,當(dāng)檢測到某個任務(wù)需要大量計算資源時,可以動態(tài)地將更多的芯片資源分配給該任務(wù);當(dāng)網(wǎng)絡(luò)通信負載較高時,可以調(diào)整通信模塊的參數(shù)以提高通信效率。
49、通過數(shù)據(jù)分析模塊提供的優(yōu)化建議,能夠?qū)崿F(xiàn)人工智能一體機的使用資源狀態(tài)優(yōu)化。例如,根據(jù)數(shù)據(jù)分析結(jié)果,自動調(diào)整任務(wù)調(diào)度策略,將資源優(yōu)先分配給關(guān)鍵任務(wù)或用戶優(yōu)先級較高的任務(wù),從而提高整體系統(tǒng)的運行效率和響應(yīng)速度。
50、不占用一體機設(shè)備硬件資源:
51、本發(fā)明的資源監(jiān)控模塊和數(shù)據(jù)分析模塊均采用硬件混合納管技術(shù),利用分布式計算實現(xiàn)資源監(jiān)控和數(shù)據(jù)分析,完全不占用人工智能一體機的設(shè)備硬件。這與傳統(tǒng)監(jiān)控系統(tǒng)相比,極大地減少了對一體機本身性能的影響。
52、例如,在一些資源有限的應(yīng)用場景中,如嵌入式人工智能設(shè)備或小型邊緣計算一體機,傳統(tǒng)監(jiān)控系統(tǒng)可能會因為占用設(shè)備硬件資源而導(dǎo)致一體機性能下降,影響其正常運行。而本發(fā)明的這種設(shè)計可以確保一體機在進行資源監(jiān)控和分析的同時,仍然能夠保持高效的運算能力和響應(yīng)速度。
53、4、云計算支持下的高效算力保障
54、算力獨立的數(shù)據(jù)分析:
55、元分析模塊采用云計算方式,使數(shù)據(jù)分析模塊在對人工智能一體機資源狀態(tài)的監(jiān)控分析時,不會占用人工智能一體機本身的算力。這意味著一體機可以將全部算力集中用于執(zhí)行用戶任務(wù),保證了一體機在進行復(fù)雜計算任務(wù)時的性能穩(wěn)定性。
56、例如,在進行大規(guī)模數(shù)據(jù)訓(xùn)練或?qū)崟r智能推理等需要大量算力的應(yīng)用場景中,傳統(tǒng)監(jiān)控系統(tǒng)可能會因為與一體機共享算力而導(dǎo)致計算任務(wù)延遲或性能下降。而本發(fā)明的云計算支持的數(shù)據(jù)分析模塊可以在不影響一體機算力的情況下,快速完成資源狀態(tài)數(shù)據(jù)的分析和處理,為一體機的資源優(yōu)化提供及時的支持。
57、快速資源調(diào)用響應(yīng):
58、云計算的支持還使得數(shù)據(jù)分析模塊能夠快速處理大量的資源狀態(tài)數(shù)據(jù),并根據(jù)分析結(jié)果及時提供資源優(yōu)化建議。例如,在應(yīng)對突發(fā)的高負載任務(wù)時,云計算可以迅速分析一體機的資源狀況,并指導(dǎo)調(diào)用模塊進行快速的資源調(diào)配,確保一體機能夠在最短的時間內(nèi)適應(yīng)任務(wù)需求的變化,提高系統(tǒng)的可靠性和靈活性。