專利名稱:用于大規(guī)模并行處理系統(tǒng)的資源保留的制作方法
技術領域:
本發(fā)明 一般涉及在計算環(huán)境中調度作業(yè)的領域,并且特別涉及在大規(guī) 模并行處理系統(tǒng)中調度作業(yè)。
背景技術:
在分布式計算機集群中,作業(yè)調度器通常用于管理作業(yè)何時和何處運 行以更高效地利用該集群中的資源。作業(yè)調度器接收來自終端用戶的作業(yè) 請求,然后將所述作業(yè)分派到各個計算機。作業(yè)調度需要以這樣的方式實 施,使得關鍵工作負載可以在需要時和在所要求的機器資源上運行。另夕卜, 作業(yè)調度方案應當能夠出于維護目的在一組才幾器上高效地留出時間。
一種作業(yè)調度功能是提前保留,該作業(yè)調度功能可以使計算資源能夠 提前被預留從而其可以專用于運行特定工作負載或者用于維護目的。然而,
支持提前保留的當前作業(yè)調度器與例如美國紐約White Plains的國際商業(yè) 機器公司("IBM")的BlueGene/L系統(tǒng)的大規(guī)模并行處理系統(tǒng)不兼容。 關聯(lián)于Blue Gene/L系統(tǒng)的作業(yè)被運行在Blue Gene/L硬件部件的子集上。 所述部件被專門分配給該作業(yè)。引入了提前保留的當前作業(yè)調度器不能考 慮大規(guī)模并行處理系統(tǒng)的特定資源,以及不能實施對于所述系統(tǒng)的提前保 留。
因此存在對克服如上面所討論的當前技術所具有的問題的需求。
發(fā)明內容
簡而言之,根據(jù)本發(fā)明,公開的是一種用于在大規(guī)模并行處理系統(tǒng)中 預留資源的系統(tǒng)、方法和計算機可讀媒體。所述方法包括接收用于預留大
規(guī)模并行處理系統(tǒng)中的至少 一個資源的保留請求。所述大規(guī)模并行處理系 統(tǒng)包括計算節(jié)點、基本分區(qū)、交換機、線纜和節(jié)點卡。關聯(lián)于所述保留的 保留類型被確定。所述保留類型是計算節(jié)點數(shù)量、基本分區(qū)列表、特定形 狀配置、特定作業(yè)和特定分區(qū)中的至少一個?;谒霰A纛愋蜕梢唤M 需求。識別用于滿足所述一組需求的一組資源,以及預留所述一組資源。 在另 一實施例中, 一種用于在大規(guī)模并行處理系統(tǒng)中預留資源的信息
處理系統(tǒng)被公開。所述信息處理系統(tǒng)包括存儲器和通信地耦合到該存儲 器的處理器。提前保留模塊被通信地耦合到所述存儲器和處理器。所述提 前保留^^莫塊用于接收用來預留大規(guī)模并行處理系統(tǒng)中的至少 一個資源的保 留請求。所述大規(guī)模并行處理系統(tǒng)包括計算節(jié)點、基本分區(qū)、交換機、線 纜和節(jié)點卡。關聯(lián)于所述保留的保留類型被確定。所述保留類型是計算節(jié) 點數(shù)量、基本分區(qū)列表、特定形狀配置、特定作業(yè)和特定分區(qū)中的至少一 個?;谒霰A纛愋蜕梢唤M需求。識別用于滿足所述一組需求的一組 資源,以及預留所述一組資源。
在另一實施例中, 一種用于在大規(guī)模并行處理系統(tǒng)中預留資源的計算 機可讀媒體被公開。所述計算機可讀媒體包括用于接收用來預留大規(guī)模并 行處理系統(tǒng)中的至少一個資源的保留請求的指令。所述大規(guī)模并行處理系 統(tǒng)包括計算節(jié)點、基本分區(qū)、交換機、線纜和節(jié)點卡。關聯(lián)于所述保留的 保留類型,皮確定。所述保留類型是計算節(jié)點數(shù)量、基本分區(qū)列表、特定形 狀配置、特定作業(yè)和特定分區(qū)中的至少一個?;谒霰A纛愋蜕梢唤M 需求。識別用于滿足所述一組需求的一組資源,以及預留所述一組資源。
本發(fā)明的 一個優(yōu)點在于,提供了 一種用于大規(guī)模并行處理系統(tǒng)的提前 保留系統(tǒng)("ARS")。所述提前保留系統(tǒng)出于例如運行高優(yōu)先級工作負 載或在指定時間段期間實施維護的特別目的而預留資源,以及優(yōu)化與保留 有關的對所述大關見模并行處理系統(tǒng)的均衡。所述ARS能夠處理對所述大規(guī) 模并行處理系統(tǒng)的提前資源保留。
附圖用于進一步說明各個實施例和解釋全都根據(jù)本發(fā)明的各種原理和 優(yōu)點,在所述附圖中,在所有獨立視圖中相同標號是指相同或功能上類似 的單元,以及所述附圖與下面的詳細說明 一起被并入本說明書中并構成其
一部分,在附圖中
圖1是示出了根據(jù)本發(fā)明的實施例的示例性大規(guī)模并行處理系統(tǒng)的框
圖2示出了才艮據(jù)本發(fā)明的實施例的三維環(huán)形幾何結構的一小部分; 圖3是示出了根據(jù)本發(fā)明的實施例的信息處理系統(tǒng)的詳細視圖的框
圖4是示出了根據(jù)本發(fā)明的實施例為大規(guī)模并行處理系統(tǒng)預留資源的
示例性過程的運轉流程圖5是示出了根據(jù)本發(fā)明的實施例定位用于保留請求的資源的示例性 過程的運轉流程圖6是示出了根據(jù)本發(fā)明的實施例在大規(guī)模并行處理系統(tǒng)中調度資源 的示例性過程的運轉流程圖;以及
圖7是示出了根據(jù)本發(fā)明的實施例將作業(yè)綁定到保留的示例性過程的 運轉流程圖。
具體實施例方式
如所要求的,本發(fā)明的詳細實施例在此處被公開;然而,應當理解, 所述公開的實施例僅是本發(fā)明的示例,其可以以各種形式被實現(xiàn)。因此, 此處公開的特定結構和功能細節(jié)將不被解釋為限制性的,而僅作為權利要 求的J^出,以及作為教授本領域的技術人員以幾乎任意適當?shù)脑敿毥Y構不 同地利用本發(fā)明的代表性基礎。另外,此處使用的術語和短語并非旨在是 限制性的;而旨在提供對本發(fā)明的可理解的描述。
術語"一個(a),,或"一個(an)"當用在這里時被定義為一個或 多于一個。術語多個當用在這里時#_定義為兩個或多于兩個。術語另一個 當用在這里時被定義為至少第二個或更多。術語包括(including)和/或具
有當用在這里時被定義為包括(comprising)(即開放語言)。術語耦合 的當用在這里時凈皮定義為連接的,但不必非要是直接連接,以及不必非要 是機械地連接。術語程序、軟件應用等當用在這里時被定義為設計用于在 計算機系統(tǒng)上執(zhí)行的指令序列。程序、計算機程序或軟件應用可以包括子 例程、函數(shù)、過程、對象方法、對象實現(xiàn)、可執(zhí)行應用、小應用程序、小 服務程序、源代碼、目標代碼、共享庫/動態(tài)加載庫、和/或設計用于在計 算機系統(tǒng)上執(zhí)行的其它指令序列。 示例性大規(guī)才莫并行處理系統(tǒng)
根據(jù)本發(fā)明的實施例,如圖1中所示,示例性大規(guī)模并行處理系統(tǒng)100 被示出。圖1的示例指向Blue Gene/L系統(tǒng)。然而,本發(fā)明適用于包括計 算節(jié)點、基本分區(qū)、交換機、線纜和節(jié)點卡的任意大規(guī)模并行處理系統(tǒng)。 在該實施例中,大規(guī)模并行處理系統(tǒng)100包括多個計算節(jié)點102、 104、 106、 108。每個計算節(jié)點102、 104、 106、 108包括處理器。計算節(jié)點內核("CNK") 110駐留在每個計算節(jié)點102、 104、 106、 108中。該CNK是將系統(tǒng)調用 轉發(fā)出所述計算節(jié)點進行服務的輕量級內核。
計算節(jié)點102、 104、 106、 108是大規(guī)模并行處理系統(tǒng)100的計算引擎。 大規(guī)j莫并行處理系統(tǒng)100還包括類似于計算節(jié)點102、 104、 106、 108的 I/O節(jié)點112、 114。例如,I/O節(jié)點112、 114也包括處理器。然而,I/O 節(jié)點112 、 114可以包括附加存儲器,以及包括例如以太網(wǎng)端口的網(wǎng)絡硬件。 計算節(jié)點102、 104、 106、 108與I/O節(jié)點112、 114通信以接收將處理的 數(shù)據(jù)。I/O節(jié)點112、 114包括控制和I/0端口監(jiān)控("CIOD" )136、 138。 所述CIOD是接收來自CNK 110的I/O請求的過程。
所述以太網(wǎng)端口允許I/0節(jié)點112、 114連接到例如吉比特(功能性) 網(wǎng)絡116的網(wǎng)絡用于實施文件I/O操作。吉比特網(wǎng)絡116為大規(guī)模并行處 理系統(tǒng)100提供用于交換數(shù)據(jù)和加載程序的裝置。例如,通信地耦合到吉 比特網(wǎng)絡116的文件服務器118提供可由1/0節(jié)點112、114訪問的文件系 統(tǒng)。將被大^M莫并行處理系統(tǒng)100處理的程序和數(shù)據(jù)在系統(tǒng)100之外準備。 換句話說,大規(guī)才莫并行處理系統(tǒng)100不包括該系統(tǒng)100中的本地磁盤。因 此,文件服務器118包括被大規(guī)模并行處理系統(tǒng)100經(jīng)由I/O節(jié)點112、 114與服務節(jié)點120和前端節(jié)點122共享的全局文件系統(tǒng)。
大規(guī)模并行處理系統(tǒng)100中的節(jié)點卡可以容納32個計算節(jié)點和可選 1/0節(jié)點。中平面或基本分區(qū)("BP")可以包括16個計算卡或512個計 算節(jié)點加許多1/0節(jié)點。機架可以容納兩個中平面,以及在一個實施例中, 大規(guī)模并行處理系統(tǒng)100可以連接到多達64個機架。
服務節(jié)點120通信地耦合到大規(guī)模并行處理系統(tǒng)100。服務節(jié)點120 控制和管理系統(tǒng)100。在一個實施例中,服務節(jié)點120監(jiān)視系統(tǒng)100的配 置,并且向用戶/管理員提供在系統(tǒng)100上發(fā)起任何動作的能力。例如,通 過服務節(jié)點120,系統(tǒng)100可以被管理和分區(qū)。另外,所述分區(qū)的任一個 中的計算節(jié)點和I/O節(jié)點可以被引導,并具有通過服務節(jié)點120被提交到 其的作業(yè)。
圖1將服務節(jié)點120示為包括數(shù)據(jù)庫124、系統(tǒng)控制臺126、中平面管 理控制系統(tǒng)("MMCS,, ) 128和調度器130。數(shù)據(jù)庫124包括用于大規(guī) 模并行處理系統(tǒng)100中的所有部件的盤存和狀態(tài)信息。數(shù)據(jù)庫124還包括 關聯(lián)于運行在大規(guī)模并行處理系統(tǒng)100上的所有作業(yè)的信息。數(shù)據(jù)庫124 可選地可以駐留在服務節(jié)點120之外。例如,數(shù)據(jù)庫124可以駐留在通信 地耦合到服務節(jié)點120的遠程信息處理系統(tǒng)上。系統(tǒng)控制臺126允許管理 員與服務節(jié)點120和大規(guī)模并行處理系統(tǒng)100交互。MMCS 128允許服務 節(jié)點120管理大規(guī)模并行處理系統(tǒng)100。調度器130為大M^莫并行處理系 統(tǒng)100提供作業(yè)調度和提前保留系統(tǒng)。所述提前保留調度過程在下面更詳 細討論。
大規(guī)模并行處理系統(tǒng)100還通信地耦合到前端節(jié)點122,其中,該前 端節(jié)點122是信息處理系統(tǒng)。前端節(jié)點122允許用戶與大規(guī)^莫并行處理系 統(tǒng)100交互。例如,用戶可以登錄前端節(jié)點122,并且向大少見模并行處理 系統(tǒng)100提交作業(yè)。服務節(jié)點120分配系統(tǒng)100上的必要資源使已提交作 業(yè)運行。在該實施例中,服務節(jié)點120和前端節(jié)點122不是系統(tǒng)100的一 部分。它們與系統(tǒng)100形成集群,稱為大規(guī);漠并行計算集群。大目并行
計算集群可以包括不是大規(guī)模并行處理系統(tǒng)100的服務節(jié)點或前端節(jié)點的
其它信息處理系統(tǒng)。
為在系統(tǒng)100上運行應用或作業(yè),在一個實施例中,發(fā)起程序在前端 節(jié)點122上被開啟,可執(zhí)行應用在稱為分區(qū)的一組大規(guī)模并行計算資源上 被開啟。分區(qū)可以由系統(tǒng)100的管理員或大規(guī)模并行計算集群的作業(yè)調度 器130定義。在一個實施例中, 一個分區(qū)完全專用于用戶作業(yè)。在當前作 業(yè)運行時,其它作業(yè)無法訪問該分區(qū)。 一旦當前作業(yè)被完成,則該分區(qū)可 以被釋放給另一用戶。
分區(qū)中的通信網(wǎng)絡與大規(guī)模并行處理系統(tǒng)100的剩余部分隔離。分區(qū) 通常包含經(jīng)由交換機和線纜連接以形成環(huán)形或網(wǎng)狀網(wǎng)絡和3D形狀的多個 BP。每個分區(qū)還包括至少一個系統(tǒng)I/0節(jié)點112、 114。在一個實施例中, 所述i/o節(jié)點是必需的,因為在沒有其的情況下,計算節(jié)點與外部文件系 統(tǒng)118之間的通信是不可能的。32或128個計算節(jié)點的小型分區(qū)也是可能 的。由于作業(yè)必須在分區(qū)中運行,以及分區(qū)僅可能是特定規(guī)模的,所以分 區(qū)可以包括比作業(yè)實際所需的更多的資源。大規(guī)模并行處理系統(tǒng)100及其 部寸牛在題為"Novel Massively Parallel Supercomputer"的已發(fā)布申請 2004/0103218中更詳細討論,其中,該申請由美國紐約White Plains的國 際商業(yè)機器公司("IBM")共同擁有,并且在此作為參考被完整引入。
大規(guī)模并行處理系統(tǒng)的示例性網(wǎng)絡
在一個實施例中,相比于實現(xiàn)能夠傳送大規(guī)模并行處理系統(tǒng)環(huán)境中所 需的所有協(xié)議的單一類型網(wǎng)絡,大身見模并行處理系統(tǒng)100利用分離的網(wǎng)絡 進行不同類型的通信。第一種網(wǎng)絡是允許計算節(jié)點之間的點到點消息傳送 的三維環(huán)形網(wǎng)絡。例如,圖2示出了來自512個計算節(jié)點的典型基本環(huán)形 配置的互連了八個計算節(jié)點的三維環(huán)形幾何結構的一小部分。圖2示出了 經(jīng)由雙向環(huán)形鏈路204連接到其六個鄰居的計算節(jié)點202。然而應當理解, 包括不同環(huán)形配置(例如4維或更多維的環(huán)形)中的更多處理節(jié)點的其它 體系結構,皮i殳想,其包括題為"Novel Massively Parallel Supercomputer" 的共同擁有、未決的美國專利申請序列號10/468,993 (出版號US
2004/0103218)中描述的那些體系結構。
如從圖2中可見,所述環(huán)形體系結構沿邏輯x、 y和z軸連接節(jié)點。環(huán) 形可以經(jīng)由連接閉合環(huán)路中的對面立方體而從網(wǎng)狀被創(chuàng)建。至于所述環(huán)形 網(wǎng)絡,其優(yōu)選是支持立方形或矩形通信和分區(qū)的三維設計。三維設計允許 許多物理現(xiàn)象的計算仿真到所述環(huán)形網(wǎng)絡的直接映射。然而,更高維度(即 4、 5或6維)的超環(huán)面以更多芯片到芯片連接和顯著更高的電纜連接成本 的代價允許更短和更低等待時間的通路。較低維度給出較長等待時間和較 少芯片到芯片通信。所述環(huán)形網(wǎng)絡提供自適應和確定性的最小通路選路, 以及是無死鎖的。
下一種網(wǎng)絡稱為集合網(wǎng)絡。所述三維環(huán)形是用于與鄰居通信的高效網(wǎng) 絡。然而,在程序運行期間, 一些調用比其它的更全局化,例如多對一、 一對多和多對多。對于這些調用,大規(guī)模并行處理系統(tǒng)100提供所述集合 網(wǎng)絡。所述集合網(wǎng)絡以樹形連接所有計算節(jié)點。在集合網(wǎng)絡中,任意節(jié)點 可以是樹根(起源點)。
包括在大規(guī)才莫并行處理系統(tǒng)100中的另 一種網(wǎng)絡是障礙(全局中斷) 網(wǎng)絡。所述障礙網(wǎng)絡被系統(tǒng)100用于協(xié)調任務。例如,被并行運行的多個 任務實施的工作需要由并行應用來協(xié)調。所述障礙網(wǎng)絡提供用于所述協(xié)調 的網(wǎng)絡。
如上面所討論的,所述計算節(jié)點與外部世界之間的所有交互在服務節(jié) 點120控制下通過I/O節(jié)點來實現(xiàn)。因此,大^L模并行處理系統(tǒng)100提供 將所述服務節(jié)點連接到所述1/0節(jié)點的兩種網(wǎng)絡。所述網(wǎng)絡是吉比特網(wǎng)絡 116和服務網(wǎng)絡132,其中,服務網(wǎng)絡132實質是另一以太網(wǎng)網(wǎng)絡,但經(jīng)由 服務卡被轉換成內部JTAG網(wǎng)絡134。吉比特功能性網(wǎng)絡116用于安裝全 局文件系統(tǒng)118來允許系統(tǒng)100訪問文件I/0。 I/O節(jié)點112、 114進一步 通過所述集合網(wǎng)絡與計算節(jié)點通信。所述服務網(wǎng)絡(JTAG網(wǎng)絡)授權服 務節(jié)點120對所述大規(guī)^^并行處理系統(tǒng)節(jié)點的直接訪問。所述服務網(wǎng)絡用 于引導所述節(jié)點(初始化硬件、加載內核等)。每個節(jié)點卡具有芯片,其 將來自計算和I/O節(jié)點二者的JTAG連接轉換成100Mbps的以太網(wǎng)網(wǎng)絡,
其中,該網(wǎng)絡進一步連接到服務節(jié)點120。 提前保留
當耦合到大M^莫并行處理系統(tǒng)100的信息處理系統(tǒng)的用戶想要運行作 業(yè)時,為工作負載均衡和資源使用優(yōu)化,作業(yè)必須由作業(yè)調度器130調度。 本發(fā)明的調度器130為大規(guī)模并行處理系統(tǒng)100提供提前保留系統(tǒng) ("ARS" ) 320 (圖3)。在一個實施例中,例如調度器130的服務節(jié)點 120的部件包括ARS320。應當指出,ARS320可以是駐留在服務節(jié)點130 中的單獨才莫塊。所述提前保留系統(tǒng)為系統(tǒng)100管理資源保留。ARS320通 過在可能時授權資源保留請求來提前提供資源管理。僅被指定為合格的作 業(yè)被允許運行在已預留資源上,或者在特定情況下,當資源可用性不是問 題或當特殊或占先條件允許時,其它作業(yè)也可以運行。
ARS 320能夠為大規(guī)模并行處理系統(tǒng)100處理提前資源保留。大規(guī)模 并行處理系統(tǒng)的作業(yè)在分區(qū)上執(zhí)行,所述分區(qū)是c節(jié)點(計算節(jié)點)、BP (基本分區(qū))、交換機、線纜和節(jié)點卡的集合。此外,稱為mpirun的相 應的發(fā)起和監(jiān)視作業(yè)在稱為FEN (前端節(jié)點)的機器上執(zhí)行。Blue Gene 上的提前保留允許用戶指定以下中的一個
-將被預留的c節(jié)點的數(shù)目,以及所述c節(jié)點將被連接的方式(環(huán)形、 網(wǎng)狀或優(yōu)選環(huán)形);
-指定c節(jié)點將被預留成的形狀的數(shù)字三元組,以及所述c節(jié)點將在 所指定的形狀中4皮連接的方式(環(huán)形、網(wǎng)狀或優(yōu)選環(huán)形);
-將凈皮預留的BP的列表,以及所述BP將,皮連接的方式(環(huán)形、網(wǎng) 狀、優(yōu)選環(huán)形);
-其部件將^皮預留的預定義分區(qū)的名字。
如上面所討論的,大規(guī)模并行計算集群是分布式信息處理系統(tǒng)集群, 其包括大規(guī)模并行處理系統(tǒng)和許多其它信息處理系統(tǒng)(自此被稱為常規(guī)系 統(tǒng))。所述常規(guī)系統(tǒng)可以充當大規(guī)模并行處理系統(tǒng)100的服務節(jié)點120或 前端節(jié)點122。將被運行在系統(tǒng)100上的作業(yè)稱為大規(guī)模并行計算作業(yè)。 運行在所述常規(guī)系統(tǒng)上的作業(yè)稱為常規(guī)作業(yè)。用于僅運行常規(guī)作業(yè)的保留
稱為常規(guī)保留。用于運行大規(guī)模并行計算作業(yè)的保留稱為大規(guī)^t并行計算 保留。可以用于運行常規(guī)作業(yè)和大規(guī)模并行計算作業(yè)的保留稱為通用保留。
保留的最通常的用途是運行作業(yè),因此,由ARS320預留的大規(guī)模并 行計算資源必須能夠運行至少一個作業(yè)。換句話說,必須存在足夠資源來 形成至少一個大規(guī)模并行計算分區(qū)。分區(qū)包括計算節(jié)點、I/O節(jié)點、交換 機和線纜。ARS320預留所有所述部件用于大規(guī)模并行計算保留。在一個 實施例中,指定預留什么用于大頰4莫并行計算保留的最直接方法是指定對 于每個類型的系統(tǒng)100部件的列表。然而,這僅對于像節(jié)點卡或幾個BP 的小型保留看似真實。對于大型大規(guī)模并行計算保留,這非常難以完成, 因為存在太多要指定的大規(guī)模并行計算部件。另外,所述直接方法需要專 家知識來做出對所述大規(guī)模并行計算部件的明智選擇,從而避免浪費資源 (資源必須以特定方式相關,以便能夠形成用于運行作業(yè)的分區(qū))。
因此,本發(fā)明的ARS 320提供用于指定預留哪些資源的更實際的方式。 例如,ARS320允許用戶或信息處理系統(tǒng)通過指定預定義分區(qū)、指定作業(yè)、 指定計算節(jié)點的數(shù)量、指定將預留的BP的形狀、和指定BP的列表來預 留資源。如果對于資源保留請求作業(yè)被指定,則ARS320預留足夠資源來 形成可以滿足該作業(yè)中所指定的需求的分區(qū)。調度器130調度該作業(yè)使得 該作業(yè)所需的資源可以輛J改置在所述保留中。指定計算節(jié)點的數(shù)量可以認 為是指定作業(yè)的特殊情況。ARS320可以創(chuàng)建偽作業(yè),并讓其通過作業(yè)調 度找到所述保留所需的資源。網(wǎng)絡連接可以被默認為是環(huán)形或網(wǎng)狀,或被 認為是額外輸入。
指定將預留的BP的形狀類似于指定計算節(jié)點的數(shù)量。當所述形狀被 指定,則所述指定包括將預留的BP的數(shù)量和所需分區(qū)形狀是哪種3D形狀。 當BP的列表被指定,則ARS 320預留被指定的整個組的BP。額外的交 換機和線纜也可以被添加到保留中。然而,僅當所述交換機和線纜被保留 中的BP使用并且不被保留外的任何BP使用時,這才被允許??梢允贡?留運行多個作業(yè),以及所述額外線纜允許更多作業(yè)同時在保留中運行。同 樣,環(huán)形網(wǎng)絡連接需要比網(wǎng)狀網(wǎng)絡連接更多的線纜。
在一個實施例中,需要前端節(jié)點122來運行大規(guī)模并行計算作業(yè)。因 此,大規(guī)模并行計算保留可以包括前端節(jié)點122。在多數(shù)情況下,大規(guī)模 并行計算作業(yè)僅使用所述前端節(jié)點上的非常少量的資源。在一些安裝中,
僅一個或兩個前端節(jié)點122可用于處理所有的大規(guī)^莫并行計算作業(yè)。在所 述情況下,不在所述大規(guī)模并行計算保留中包括前端節(jié)點122是更有利的。 相反, 一個或更多前端節(jié)點122被標記為"不允許保留,,,以及允許所有 大規(guī)模并行計算作業(yè)(不論是否運行在保留內)共享所述前端節(jié)點122。
在大規(guī)^^莫并行計算集群中,仍然可以為運行的作業(yè)或為維護目的而產(chǎn) 生保留。 一般地,前端節(jié)點122和服務節(jié)點120不用于常規(guī)保留。這防止 大規(guī)模并行處理系統(tǒng)100被不充分使用。通用保留可以被認為是兩種保留 (大規(guī)模并行計算保留和常規(guī)保留)的組合。通用保留不總是必要的,并 且可以在存在對所述類型保留的需求時被產(chǎn)生。
作業(yè)必須被綁定到保留,以便其將在該保留中被運行。在一個實施例 中,常規(guī)作業(yè)可以被綁定到常規(guī)保留或通用保留。大規(guī)模并行計算作業(yè)可 以被綁定到大規(guī)模并行計算或通用保留。如果大規(guī)模并行計算保留包括前 端節(jié)點122,則4皮綁定到該保留的作業(yè)僅使用由該保留所預留的資源。如 果大規(guī)模并行計算保留不包括前端節(jié)點122,則該保留之外的前端節(jié)點122 被共享,以便運行所綁定的大規(guī)模并行計算作業(yè)。
保留不能重疊,即,資源不能同時被兩個保留所預留。策略可以被設 置,用于不允許作業(yè)和保留重疊。在產(chǎn)生保留的過程中,進行檢查用于確 保將被預留的資源在所請求的保留時間段期間還未被另 一保留或作業(yè)使 用。列表或散列表可以用于搜集空閑資源或已^f吏用資源,以幫助資源可用 性檢查。大規(guī)模并行處理系統(tǒng)包括大量線纜、交換機和其它部件。因此, 用于管理所述可用性檢查的更有利方式是在檢查每個保留請求之前將部件 標記為空閑或已使用。資源部件如果在所請求的保留時間段期間為空閑(未 被預留)則被認為是空閑的。
可用于常規(guī)保留的所有特征和策略也可以被大規(guī)模并行計算保留共 享。大規(guī)模并行計算保留可以具有下述選項,即,如果其空閑則被作業(yè)調
度器自動移除。所述大規(guī)才莫并行計算保留如果其所有的已綁定作業(yè)已找到 將運行的資源則可以使其資源被與外部作業(yè)共享。已綁定作業(yè)可以被允許 運行超過保留的結束時間,或者僅可以在保留結束之前完成的作業(yè)將被允 許運行。
示例性信息處理系統(tǒng)
圖3是例如服務節(jié)點120的信息處理系統(tǒng)的詳細視圖。圖3是示出了 根據(jù)本發(fā)明的實施例的服務節(jié)點120的詳細視圖的框圖。在一個實施例中, 服務節(jié)點120是基于適于實現(xiàn)本發(fā)明的示例性實施例的適當配置的處理系 統(tǒng)。任意適當配置的處理系統(tǒng)類似地能夠被本發(fā)明的實施例用作服務節(jié)點 120,例如個人計算機、工作站等。
服務節(jié)點120包括計算機302。計算機302具有通信地連接到主存儲 器306 (例如易失性存儲器)的處理器304、非易失性存儲接口 308、終端 接口 310和網(wǎng)絡適配器硬件312。系統(tǒng)總線316互連所述系統(tǒng)部件。非易 失性存儲接口 308用于將例如數(shù)據(jù)存儲設備318的海量存儲設備連接到服 務節(jié)點120。 一種特定類型的數(shù)據(jù)存儲設備是計算機可讀媒體,例如可以 用于將數(shù)據(jù)存儲到CD或從其讀數(shù)據(jù)的CD驅動器或DVD 320或軟盤(未 示出)。另一種類型的數(shù)據(jù)存儲設備是配置為支持例如NTFS型文件系統(tǒng) 操作的數(shù)據(jù)存儲設備。
所述主存儲器包括調度器130、數(shù)據(jù)庫124和MMCS 128。在一個實 施例中,調度器130包括ARS模塊320。所述部件已在上面更詳細討論。 盡管被示作并行駐留在主存儲器306中,但應當清楚,主存儲器306的各 個部件不需要始終或甚至同時完全駐留在主存儲器306中。在一個實施例 中,服務節(jié)點120利用傳統(tǒng)的虛擬尋址機制來允許程序的運轉就好像其訪 問大型、單一存儲實體(在此稱為計算機系統(tǒng)存儲器)、而不是訪問多個 較小型存儲實體(例如主存儲器306和數(shù)據(jù)存儲設備316)那樣。應當指 出,術語"計算機系統(tǒng)存儲器,,這里用于一般地指代服務節(jié)點120的整個 虛擬存儲器。
盡管對于計算機302僅一個CPU 304被示出,但具有多個CPU的計 算機系統(tǒng)可以被同樣有效使用。本發(fā)明的實施例進一步引入了這樣的接口,
每個所述接口包括用于從CPU 304進行卸載處理的單獨的、完全被編程的 微處理器。終端接口 310用于將一個或更多終端340直接連接到計算機 302,以便為計算機302提供用戶接口。能夠是非智能或完全可編程工作站 的終端340用于允許系統(tǒng)管理員和用戶與瘦客戶機通信。終端340還能夠 包括連接到計算機302并且由包括在終端接口 310中的終端接口硬件控制 的用戶接口和外圍設備,其包括視頻適配器和用于鍵盤、點擊設備等的接 口 。
根據(jù)實施例,操作系統(tǒng)(未示出)可以被包括在所述主存儲器中,并 且是合適的多任務操作系統(tǒng),例如Linux 、 UNIX、 Windows XP和Windows Server操作系統(tǒng)。本發(fā)明的實施例能夠使用任意其它合適的操作系統(tǒng)或內 核,或其它合適的控制軟件。本發(fā)明的一些實施例利用例如面向對象框架 機制的、允許操作系統(tǒng)(未示出)的部件的指令在位于客戶機中的任意處 理器上被執(zhí)行的體系結構。網(wǎng)絡適配器硬件312用于為各種網(wǎng)絡116、 132 提供接口 。本發(fā)明的實施例能夠適于與包括目前的模擬和/或數(shù)字技術的任 意數(shù)據(jù)通信連接或經(jīng)由將來的聯(lián)網(wǎng)機制一起工作。
盡管在完全功能性計算機系統(tǒng)的上下文中描述了本發(fā)明的示例性實施 例,但本領域的技術人員將理解,實施例可以經(jīng)由CDROM320或其它形 式的可記錄媒體、或經(jīng)由任意類型的電子傳送機制作為程序產(chǎn)品被分發(fā)。
為大規(guī)模并行系統(tǒng)預留資源的示例性過程
圖4示出了使用ARS 420為大^M莫并行處理系統(tǒng)100預留資源的示例 性過程。圖4的操作流程圖在步驟402開始。調度器130在步驟402接收
保留請求。該請求可以以許多格式被接收。例如,該請求可以由終端用戶 從命令行或經(jīng)由使用圖形用戶界面或應用編程接口輸入。然而,該請求不
必非要由終端用戶提交,以及可以由另 一計算機或甚至另 一環(huán)境提供。ARS 420在步驟404確定所述請求是否指定c節(jié)點的數(shù)量。如果該確定的結果 是肯定的,則ARS 420在步驟406基于所請求的c節(jié)點數(shù)量創(chuàng)建一組需求。 應當指出,為所述請求預留的c節(jié)點的實際數(shù)量可以大于或小于所請求的
數(shù)量。
ARS 420在步驟408確定所迷保留是否要求前端節(jié)點122被預留。如 果該確定的結果是肯定的,則ARS 420在步驟410將前端節(jié)點請求添加到 需求中??刂迫缓罅鬓D到步驟412。如果上述確定的結果是否定的,則ARS 420在步驟412嘗試定位在保留開始時刻和在該保留的整個持續(xù)期間滿足 需求的資源。ARS420在步驟414確定資源是否已被定位。如果該確定的 結果是否定的,則ARS420在步驟416確定所述保留不能被授權。如果所 述情形發(fā)生,則用戶或系統(tǒng)被通知??刂屏魅缓笤诓襟E418退出。
如果在步驟414的確定的結果是肯定的,則已定位的資源被預留用于 保留??刂屏魅缓笤诓襟E422退出。返回步驟404,如果該確定的結果是 否定的,則ARS420在步驟424確定所述保留請求是否指定了 BP列表。 如果該確定的結果是肯定的,則ARS 420在步驟426基于所請求的BP列 表創(chuàng)建一組需求。ARS420然后實施上面關于步驟408、 410、 412、 414、 416、 418、 420和422討論的過程。如果在步驟424的確定的結果是否定 的,則ARS420在步驟428確定所述保留是否指定了特定形狀。如果該確 定的結果是肯定的,則ARS420在步驟430基于所指定的形狀創(chuàng)建一組需 求。
ARS420然后實施上面關于步驟408、 410、 412、 414、 416、 418、 420
和422討論的過程。如果在步驟428的確定的結果是否定的,則ARS 420 在步驟432確定所述請求是否指定了特定作業(yè)。如果該確定的結果是肯定 的,則ARS 420在步驟434基于所指定的作業(yè)創(chuàng)建一組需求。ARS 420然 后實施上面關于步驟408、 410、 412、 414、 416、 418、 420和422討論的 過程。如果在步驟432的確定的結果是否定的,則ARS420在步驟436確 定所述請求是否指定了特定分區(qū)。如果該確定的結果是肯定的,則ARS 420 在步驟438基于所指定的分區(qū)創(chuàng)建一組需求。ARS420然后實施上面關于 步驟408、 410、 412、 414、 416、 418、 420和422討論的過程。如果在步 驟436的確定的結果是否定的,則ARS420在步驟416確定所述保留請求 不能被授權,以及控制流在步驟418退出。
為大規(guī)模并行系統(tǒng)預留資源的示例性過程
圖5示出了定位用于保留請求的資源的示例性過程。圖5是圖4中的 步驟412的更詳細流程。圖5的操作流程圖在步驟520開始并且直接流轉 到步驟504。 ARS 320在步驟504定位用于保留的資源。所述資源在步驟 506被標記為空閑。ARS 320在步驟508確定任意保留是否與當前保留所 請求的時間段重疊。換句話說,ARS320確定任意資源是否同時屬于兩個 或更多保留。如果該確定的結果是肯定的,則ARS 320在步驟510定位與 當前保留所請求的時間段重疊的下一保留R。分配給保留R的資源在步驟 512被標記為M吏用中"??刂屏骰氐讲襟E508,這里,ARS320對于每個 剩下的重疊保留實施步驟510和512。如果不再存在重疊保留,則控制流 在步驟514繼續(xù)。
如果在步驟508的確定的結果是否定的,則ARS320在步驟514確定 是否存在不能與所述請求保留重疊的作業(yè)。 一般地,保留不被允許預留預 期將被當前運行的作業(yè)使用的資源。在特殊情況下,允許管理員創(chuàng)建與正 在運行的作業(yè)重疊的保留。如果該確定的結果是肯定的,則ARS320在步 驟516識別在所請求的保留時間段中的某一點將正在運行并且不能與所述 請求保留重疊的下一作業(yè)J。分配給作業(yè)J的資源在步驟518被標記為"使 用中"??刂屏骰氐讲襟E514,這里,ARS 320對于每個剩下的不能被保 留切斷的作業(yè)實施步驟516和518。如果不再存在所述作業(yè),則控制流在 步驟520繼續(xù)。
如果在步驟514的確定的結果是否定的,則ARS 320在步驟520識別 滿足當前保留請求中的一組需求的資源。在一個實施例中,ARS320僅選 擇標記為空閑的資源,并且標記為"使用中"的資源朝L認為不可用。ARS 320 在步驟522確定是否已識別滿足所述保留請求的足夠資源。如果該確定的 結果是否定的,則ARS320在步驟524確定足夠資源尚未被識別??刂屏?然后在步驟530退出。如果在步驟522的確定的結果是肯定的,則ARS 320 在步驟526確定所述過程成功,以及控制流在步驟528退出。
為保留綁定作業(yè)調度資源的示例性過程
圖6示出了在大規(guī)模并行處理系統(tǒng)100中為保留綁定作業(yè)調度資源的 示例性過程。換句話說,圖6示出了調度保留綁定作業(yè)的示例。圖6在步 驟602開始并且直接流轉到步驟606。圖6的過程可以由服務節(jié)點120實 施,但不限于服務節(jié)點120。例如,圖6的過程還可以由包括作業(yè)調度器 130并且通信地耦合到大規(guī)模并行計算數(shù)據(jù)庫124的信息處理節(jié)點實施。
ARS 320在步驟606從大規(guī)模并行計算資源中清除包括和排除標記。 作為所述作業(yè)的保留的一部分的資源在步驟608被標明。ARS 320在步驟 610檢索與排除所述作業(yè)的保留的作業(yè)重疊的下一保留R(來自保留列表)。 ARS 320在步驟612標明作為重疊保留R的一部分的資源的排除標記。 ARS 320在步驟614確定是否還存在更多重疊保留。如果該確定的結果是 肯定的,則控制流回到步驟610,這里,ARS320實施步驟610、 612和614 直到不再存在重疊保留。
如果在步驟614的確定是否定的,則ARS 320在步驟616在具有已標 明的"包括"標記的資源中調度所述作業(yè)。具有已標明的"排除"標記的 資源被忽略。ARS 320在步驟618確定所述作業(yè)的解決方案是否已找到。 如果該確定的結果是否定的,則ARS320在步驟620確定所迷作業(yè)不能被 調度??刂屏魅缓笤诓襟E626退出。如果在步驟618的確定的結果是肯定 的,則ARS320在步驟622在所選擇的資源上開始所述作業(yè)??刂屏魅缓?在步驟624退出。
將作業(yè)綁定到保留的示例性過程
圖7示出了將作業(yè)綁定到保留的示例性過程。圖7在步驟704開始并 且直接流轉到步驟706。圖7的過程可以由服務節(jié)點120實施,但不限于 服務節(jié)點120。例如圖7的過程還可以由包括作業(yè)調度器130并且通信地 耦合到大規(guī)模并行計算數(shù)據(jù)庫124的信息處理節(jié)點實施。ARS 320在步驟 706確定所述作業(yè)是否是大規(guī)模并行計算作業(yè)。如果該確定的結果是否定 的,則ARS 320在步驟708確定所述保留是否包括大規(guī)模并行計算資源。 如果該確定的結果是否定的,則ARS320在步驟712將所述作業(yè)綁定到所 述保留??刂屏魅缓笤诓襟E714退出。
如果在步驟708的確定的結果是肯定的,則所述請求在步驟710被拒 絕,以及所述作業(yè)不被綁定到所述保留??刂屏魅缓笤诓襟E716退出。返 回步驟706,如果該確定的結果是肯定的,則ARS320在步驟718確定所 述保留是否包括大規(guī)模并行計算資源。如果該確定的結果是肯定的,則 ARS 320在步驟712將所述作業(yè)綁定到所述保留。控制流然后在步驟714 退出。如果在步驟718的確定的結果是否定的,則所述請求在步驟710被 拒絕,以及所述作業(yè)不被綁定到所述保留??刂屏魅缓笤诓襟E716退出。
非限制性示例
如本領域的普通技術人員將知道的,本發(fā)明可以用硬件或軟件或硬件 與軟件的組合所產(chǎn)生。然而在一個實施例中,本發(fā)明被實現(xiàn)為軟件。根據(jù) 結合優(yōu)選實施例公開的發(fā)明性原理所述的系統(tǒng)或方法可以在單一計算機系 統(tǒng)中產(chǎn)生,該單一計算機系統(tǒng)具有用于實施所描述或要求保護的各個功能 或步驟的獨立單元或裝置,或具有合并了所公開或要求保護的功能或步驟 的任一個的性能的一個或更多單元或裝置;或者所述系統(tǒng)或方法可以被安 排在分布式計算機系統(tǒng)中,該分布式計算機系統(tǒng)由本領域的普通技術人員 已知的任意合適的裝置互連。
根據(jù)結合優(yōu)選實施例公開的發(fā)明性原理,本發(fā)明和本發(fā)明性原理不限 于任何特定類型的計算機系統(tǒng),而是如本領域的普通技術人員將知道的, 可以與任意通用計算機一起使用,被安排為實施所描述的功能和所描述的 方法步驟。如本領域的普通技術人員將知道的,所述計算機的操作如上面 所描述的那樣可以根據(jù)包含在媒體上的、用于該計算機的操作或控制的計 算機程序。如本領域的普通技術人員將知道的,可以用于容納或包含所述 計算機程序產(chǎn)品的計算機媒體可以是例如嵌入式存儲器的計算機的固定設 備,或者可以在例如磁盤的便攜式媒體上。
本發(fā)明不限于任何特定的計算機程序或邏輯或語言、或指令,而可以 用本領域的技術人員已知的任何合適的程序、邏輯或語言、或指令來實現(xiàn)。 在不限制所公開的發(fā)明的原理的情況下,任意計算系統(tǒng)可以至少包括計算 機可讀媒體,其允許計算機從該計算機可讀媒體讀取數(shù)據(jù)、指令、消息或
消息分組、或其它計算機可讀信息的。所述計算機可讀媒體可以包括例如
ROM、閃存、軟盤、磁盤驅動存儲器、CD-ROM和其它永久存儲裝置的 非易失性存儲器。另外,計算機可讀媒體例如可以包括例如RAM、緩沖 器、高速緩沖存儲器和網(wǎng)絡電路的易失性存儲裝置。
此外,所述計算機可讀媒體可以包括例如網(wǎng)絡鏈路和/或網(wǎng)絡接口的暫 時狀態(tài)媒體中的計算機可讀信息,其中,所述暫時狀態(tài)媒體包括允許計算 機讀取所述計算機可讀信息的有線網(wǎng)絡或無線網(wǎng)絡。
盡管已公開了本發(fā)明的特定實施例,但本領域的普通技術人員應當理 解,在不脫離本發(fā)明的精神和范圍的情況下,可以對所述特定實施例做出 改變。因此,本發(fā)明的范圍將不限于所述特定實施例,以及可以預期,權 利要求覆蓋了本發(fā)明的范圍內的任意和所有所述應用、修改和實施例。
權利要求
1.一種在大規(guī)模并行處理系統(tǒng)中預留資源的方法,所述方法在包括調度器的信息處理節(jié)點上,所述信息處理節(jié)點通信地耦合到數(shù)據(jù)庫和所述大規(guī)模并行處理系統(tǒng),所述方法包括接收用于預留大規(guī)模并行處理系統(tǒng)中的至少一個資源的保留請求,其中,所述大規(guī)模并行處理系統(tǒng)包括計算節(jié)點、基本分區(qū)、交換機、線纜和節(jié)點卡;確定關聯(lián)于所述保留的保留類型,其中,所述保留類型是以下中的至少一個計算節(jié)點數(shù)量;基本分區(qū)列表;特定形狀配置;特定作業(yè);以及特定分區(qū);基于所述保留類型生成一組需求;識別用于滿足所述一組需求的一組資源;以及預留所述一組資源。
2. 根據(jù)權利要求l所述的方法,進一步包括確定所述保留是否包括對要被預留的前端節(jié)點的請求;以及 響應于所述^f呆留包括所述請求,更新所述一組需求為包括所述前端節(jié)點。
3. 根據(jù)權利要求l所述的方法,其中,所述一組資源在保留開始時刻 和所述保留的整個持續(xù)期間滿足所述一組需求。
4. 根據(jù)權利要求1所述的方法,其中,所述識別一組資源進一步包括: 將所述一組資源中的每個資源標明為可用;確定所述資源中的任一個是否在關聯(lián)于所接收的保留請求的所請求時 間段期間被分配給了至少 一個其它保留;響應于至少一個資源在所述請求時間段期間被分配給了至少一個其它保留,將所述至少一個資源標明為不可用;以及 將被標明為可用的所有資源分配給所述保留請求。
5. 根據(jù)權利要求l所述的方法,進一步包括 在所述大規(guī)模并行處理系統(tǒng)中調度關聯(lián)于所述保留的作業(yè)。
6. 根據(jù)權利要求5所述的方法,其中,所述調度進一步包括 從多個資源中識別出所述一組資源,所述一組資源關聯(lián)于所述作業(yè); 標明關聯(lián)于所述一組資源中的每個資源的包括標記; 確定重疊保留是否存在,其中,所述重疊保留與關聯(lián)于所述作業(yè)的時間段重疊;響應于所述重疊保留存在,識別作為所述重疊保留的一部分的、關聯(lián) 于所述作業(yè)的每個資源;標明關聯(lián)于每個所識別的資源的排除標記;以及 通過具有已標明的所述包括標記的資源調度所述作業(yè)。
7. 根據(jù)權利要求l所述的方法,進一步包括 確定關聯(lián)于所述保留的作業(yè)是否是大規(guī)模并行計算作業(yè); 響應于所述作業(yè)是大規(guī)模并行計算作業(yè),確定關聯(lián)于所述作業(yè)的保留是否包括大身見模并行計算資源;響應于所述保留具有大規(guī)模并行計算資源,允許所述作業(yè)被綁定到所 述保留;響應于所述作業(yè)不是大^!^莫并行計算作業(yè),確定關聯(lián)于所述作業(yè)的保 留是否包括大規(guī)模并行計算資源;以及響應于所述保留具有大規(guī)模并行計算資源,允許所述作業(yè)被綁定到所 述保留。
8. —種用于在大規(guī)模并行處理系統(tǒng)中預留資源的信息處理系統(tǒng),所述 信息處理系統(tǒng)包括存儲器;通信地耦合到所述存儲器的處理器;以及 通信地耦合到所述存儲器和所述處理器的提前保留模塊,其中,所述提前保留模塊用于接收用于預留大規(guī)模并行處理系統(tǒng)中的至少一個資源的保留請 求,所述大身見模并行處理系統(tǒng)包括計算節(jié)點、基本分區(qū)、交換機、線纜和節(jié)點卡;確定關聯(lián)于所述保留的保留類型,其中,所述保留類型是以下中的至少一個計算節(jié)點數(shù)量;基本分區(qū)列表;特定形狀配置;特定作業(yè);以及特定分區(qū); 基于所述保留類型生成一組需求; 識別用于滿足所述一組需求的一組資源;以及 預留所述一組資源。
9. 根據(jù)權利要求8所述的信息處理系統(tǒng),其中,所述提前保留模塊進 一步用于確定所述保留是否包括對要被預留的前端節(jié)點的請求;以及 響應于所述保留包括所述請求,更新所述一組需求為包括所述前端節(jié)點。
10. 根據(jù)權利要求8所述的信息處理系統(tǒng),其中,所述一組資源在保 留開始時刻和所述保留的整個持續(xù)時間期間滿足所述一組需求。
11. 根據(jù)權利要求8所述的信息處理系統(tǒng),其中,所述識別一組資源 進一步包括將所述一組資源中的每個資源標明為可用;確定所述資源中的任一個是否在關聯(lián)于所接收的保留請求的所請求時 間段期間被分配給了至少 一個其它保留;響應于至少一個資源在所述請求時間段期間被分配給了至少一個其它 保留,將所述至少一個資源標明為不可用;以及 將4皮標明為可用的所有資源分配給所述保留請求。
12. 根據(jù)權利要求8所述的信息處理系統(tǒng),其中,所述提前保留模塊 進一步用于在所述大規(guī)模并行處理系統(tǒng)中調度關聯(lián)于所述保留的作業(yè)。
13. 根據(jù)權利要求12所述的信息處理系統(tǒng),其中,所述調度進一步包括從多個資源中識別出所述一組資源,所迷一組資源關聯(lián)于所述作業(yè); 標明關聯(lián)于所述一組資源中的每個資源的包括標記; 確定重疊保留是否存在,其中,所述重疊保留與關聯(lián)于所述作業(yè)的時 間段重疊;響應于所述重疊保留存在,識別作為所述重疊保留的一部分的、關聯(lián) 于所述作業(yè)的每個資源;標明關聯(lián)于每個所識別的資源的排除標記;以及 通過具有已標明的所述包括標記的資源調度所述作業(yè)。
14. 根據(jù)權利要求8所述的信息處理系統(tǒng),其中,所述提前保留模塊 進一步用于確定關聯(lián)于所述保留的作業(yè)是否是大規(guī)模并行計算作業(yè);響應于所述作業(yè)是大規(guī)模并行計算作業(yè),確定關聯(lián)于所述作業(yè)的保留是否包括大規(guī)模并行計算資源;響應于所述^(呆留具有大目并行計算資源,允許所述作業(yè)被綁定到所述保留;響應于所述作業(yè)不是大規(guī)模并行計算作業(yè),確定關聯(lián)于所述作業(yè)的保 留是否包括大規(guī)才莫并行計算資源;以及響應于所述^f呆留具有大規(guī)模并行計算資源,允許所述作業(yè)被綁定到所 述保留。
15. —種用于在大規(guī)模并行處理系統(tǒng)中預留資源的計算機可讀媒體, 所述計算機可讀媒體包括用于實現(xiàn)根據(jù)權利要求1到7的任一方法的指令。
全文摘要
所公開的是一種用于在大規(guī)模并行處理系統(tǒng)中預留資源的方法、信息處理系統(tǒng)和計算機可讀媒體。所述方法包括接收用于預留大規(guī)模并行處理系統(tǒng)中的至少一個資源的保留請求。所述大規(guī)模并行處理系統(tǒng)包括計算節(jié)點、基本分區(qū)、交換機、線纜和節(jié)點卡。關聯(lián)于所述保留的保留類型被確定。所述保留類型是計算節(jié)點數(shù)量、基本分區(qū)列表、特定形狀配置、特定作業(yè)和特定分區(qū)中的至少一個?;谒霰A纛愋蜕梢唤M需求。識別用于滿足所述一組需求的一組資源,以及預留所述一組資源。
文檔編號G06F9/46GK101169742SQ20071016757
公開日2008年4月30日 申請日期2007年10月26日 優(yōu)先權日2006年10月27日
發(fā)明者A·德魯彥, R·J·科平杰, 鐘恩慈 申請人:國際商業(yè)機器公司