本技術(shù)涉及算力調(diào)度,特別是涉及一種算力調(diào)度系統(tǒng)、方法、計算機設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。
背景技術(shù):
1、隨著大數(shù)據(jù)和云計算等新一代信息技術(shù)的發(fā)展,出現(xiàn)了針對多領(lǐng)域、多平臺、多維度的算力調(diào)度技術(shù)。其中,ai(artificial?intelligence,人工智能)算力是指通過ai處理某一任務或者是實現(xiàn)某一功能所需要花費的計算量,同時也是一些硬件設(shè)施所具有的計算能力大小的體現(xiàn)。
2、傳統(tǒng)技術(shù)中,在實現(xiàn)ai算力調(diào)度時,由于資源分散,難以統(tǒng)一管理,因此需要部署額外的運維和調(diào)優(yōu)工作。但是,這種依靠額外運維和調(diào)優(yōu)的方式,其資源配置一般是固定的,需要耗費大量人工調(diào)優(yōu)工作,并且存在資源分配不夠靈活,無法實現(xiàn)資源的動態(tài),快速分配的問題。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠靈活、迅速地分配資源,且有效提升算力利用率的算力調(diào)度系統(tǒng)、方法、計算機設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。
2、第一方面,本技術(shù)提供了一種算力調(diào)度系統(tǒng),包括:
3、資源池模塊、算力控制模塊、功能組件模塊、組件通信模塊,以及部署形態(tài)模塊,其中:
4、所述資源池模塊,用于構(gòu)建算力資源池,并在算力資源池中引入算力資源,以及對引入的算力資源進行分類和集中管理;
5、所述算力控制模塊,用于對所述算力資源池的算力資源進行碎片化分配;
6、所述功能組件模塊建立在所述資源池模塊構(gòu)建的算力資源池架構(gòu)中,用于完成不同功能組件之間的算力共享;
7、所述組件通信模塊,用于完成不同功能組件之間的通信;
8、所述部署形態(tài)模塊,用于集成多個容器云平臺,完成跨平臺的算力調(diào)度。
9、在其中一個實施例中,所述資源池模塊中設(shè)置有多個資源節(jié)點,通過所述資源節(jié)點將算力資源引入算力資源池;其中,所述算力資源包括:物理gpu(graphics?processingunit,圖形處理單元),vgpu(virtual?graphics?processing?unit,虛擬圖形處理單元);
10、所述資源池模塊,具體用于:
11、解耦合人工智能ai應用和物理圖形處理單元gpu,并為所述ai應用提供虛擬圖形處理單元vgpu;
12、將所述算力資源進行動態(tài)調(diào)度,并實時監(jiān)控所述算力資源的狀態(tài)。
13、在其中一個實施例中,所述資源池模塊中設(shè)置有多個資源節(jié)點,通過所述資源節(jié)點將算力資源引入算力資源池;其中,所述算力資源包括:物理圖形處理單元gpu,虛擬圖形處理單元vgpu;
14、所述資源池模塊,具體用于:
15、解耦合人工智能ai應用和物理圖形處理單元gpu,并為所述ai應用提供虛擬圖形處理單元vgpu;
16、將所述算力資源進行動態(tài)調(diào)度,并實時監(jiān)控所述算力資源的狀態(tài)。
17、在其中一個實施例中,所述算力控制模塊,具體用于:
18、對所述資源池模塊引入的算力資源進行優(yōu)化,并將物理gpu切片為任意大小的vgpu。
19、在其中一個實施例中,所述功能組件模塊包括至少一個集中化的組件控制核心,所述功能組件模塊,具體用于:
20、將各個功能組件通過網(wǎng)絡(luò)與所述組件控制核心連接,并保持各個功能組件之間的信息同步;
21、將資源節(jié)點的各種信息匯總至所述組件控制核心,其中,所述信息包括:互聯(lián)網(wǎng)協(xié)議ip地址、物理gpu信息、虛擬gpu信息、應用任務信息中的任一種或者任多種;
22、其中,所述組件控制核心用于提供如下任一種或者任多種功能:
23、各個分布式功能組件的服務注冊、服務發(fā)現(xiàn)功能;
24、彈性vgpu的調(diào)度分配功能;
25、多副本的元數(shù)據(jù)存儲和管理;
26、許可license管理;
27、提供運維所需要的各種表現(xiàn)層狀態(tài)轉(zhuǎn)移應用程序接口(restapi)。
28、在其中一個實施例中,所述組件通信模塊,具體用于:
29、通過管理平面網(wǎng)絡(luò)和數(shù)據(jù)平面網(wǎng)絡(luò)建立各個功能組件之間的通信,并配合所述資源池模塊完成對算力資源池的管理,以及算力資源的調(diào)度。
30、在其中一個實施例中,所述部署形態(tài)模塊,具體用于:將算力資源分別部署在多個容器云平臺上,其中,部署方式包括以下任一種:
31、在安裝操作系統(tǒng)后,將算力資源池的各個功能組件直接以二進制binary形式部署;
32、將算力資源池的各個功能組件按照容器化方式部署。
33、在其中一個實施例中,還包括:管理平面建立模塊,
34、所述管理平面建立模塊,用于在部署算力資源池時,通過傳輸控制協(xié)議/網(wǎng)絡(luò)協(xié)議tcp/ip建立管理平面,完成對算力的可視化管理。
35、第二方面,本技術(shù)還提供了一種算力調(diào)度方法,應用于第一方面中的所述的算力調(diào)度系統(tǒng)中,所述方法包括:
36、將來源不同的算力資源集中至算力資源池,其中,所述算力資源包括:物理gpu;
37、將物理gpu切片為任意大小的vgpu,并對各個vgpu的狀態(tài)進行實時動態(tài)監(jiān)測;
38、當需要調(diào)用部分算力資源執(zhí)行目標任務時,對所述目標任務進行系統(tǒng)化分接,預估出完成所述目標任務所需的算力值,并根據(jù)適配運行的載體進行范圍擴大化計算,以為所述目標任務分配足夠的算力;
39、在完成算力值預估后,通過算力資源池直接調(diào)用相應數(shù)量的算力資源分配給所述目標任務。
40、在其中一個實施例中,所述方法還包括:
41、當存在多個目標任務同步進行時,執(zhí)行交叉式資源配置,以算力資源的運行起止時間作為配置劃分規(guī)則,執(zhí)行同等區(qū)域的適應性配置;
42、在算力資源分配使用的過程中,實時動態(tài)監(jiān)測算力資源的狀態(tài);
43、在所述目標任務完成后,將相應的算力資源自動返回算力資源池,用于等待二次配置。
44、第三方面,本技術(shù)還提供了一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:
45、將來源不同的算力資源集中至算力資源池,其中,所述算力資源包括:物理gpu;
46、將物理gpu切片為任意大小的vgpu,并對各個vgpu的狀態(tài)進行實時動態(tài)監(jiān)測;
47、當需要調(diào)用部分算力資源執(zhí)行目標任務時,對所述目標任務進行系統(tǒng)化分接,預估出完成所述目標任務所需的算力值,并根據(jù)適配運行的載體進行范圍擴大化計算,以為所述目標任務分配足夠的算力;
48、在完成算力值預估后,通過算力資源池直接調(diào)用相應數(shù)量的算力資源分配給所述目標任務。
49、第四方面,本技術(shù)還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:
50、將來源不同的算力資源集中至算力資源池,其中,所述算力資源包括:物理gpu;
51、將物理gpu切片為任意大小的vgpu,并對各個vgpu的狀態(tài)進行實時動態(tài)監(jiān)測;
52、當需要調(diào)用部分算力資源執(zhí)行目標任務時,對所述目標任務進行系統(tǒng)化分接,預估出完成所述目標任務所需的算力值,并根據(jù)適配運行的載體進行范圍擴大化計算,以為所述目標任務分配足夠的算力;
53、在完成算力值預估后,通過算力資源池直接調(diào)用相應數(shù)量的算力資源分配給所述目標任務。
54、第五方面,本技術(shù)還提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:
55、將來源不同的算力資源集中至算力資源池,其中,所述算力資源包括:物理gpu;
56、將物理gpu切片為任意大小的vgpu,并對各個vgpu的狀態(tài)進行實時動態(tài)監(jiān)測;
57、當需要調(diào)用部分算力資源執(zhí)行目標任務時,對所述目標任務進行系統(tǒng)化分接,預估出完成所述目標任務所需的算力值,并根據(jù)適配運行的載體進行范圍擴大化計算,以為所述目標任務分配足夠的算力;
58、在完成算力值預估后,通過算力資源池直接調(diào)用相應數(shù)量的算力資源分配給所述目標任務。
59、上述算力調(diào)度系統(tǒng)、方法、計算機設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品,在該系統(tǒng)包括:資源池模塊、算力控制模塊、功能組件模塊、組件通信模塊,以及部署形態(tài)模塊,通過資源池模塊構(gòu)建算力資源池,并在算力資源池中引入算力資源,以及對引入的算力資源進行分類和集中管理;從而實現(xiàn)統(tǒng)一的資源管理、監(jiān)控、調(diào)度和回收等功能。通過算力控制模塊對所述算力資源池的算力資源進行碎片化分配,從而能夠?qū)λ懔Y源池的各個算力資源的狀態(tài)進行監(jiān)控,提高算力資源的利用率。通過在所述資源池模塊構(gòu)建的算力資源池架構(gòu)中建立功能組件模塊,用于完成不同功能組件之間的算力共享,從而可以對各種功能的實現(xiàn)進行算力的平衡。通過組件通信模塊完成不同功能組件之間的通信,以實現(xiàn)不同功能組件之間的信息同步。通過部署形態(tài)模塊集成多個容器云平臺,完成跨平臺的算力調(diào)度,從而能夠在系統(tǒng)表層建立相應的管理平面,實現(xiàn)對算力的可視化管理,并且通過部署形態(tài),與多個容器云平臺進行集成,從而達到跨平臺,跨領(lǐng)域,多維度的算力綜合管理。上述系統(tǒng)可以在算力調(diào)度時,通過對算力進行靈活地監(jiān)管,從而使得算力資源能夠合理化應用,實現(xiàn)算力資源的共享,顯著提高算力的利用率,達到算力調(diào)度的目的。