專利名稱:一種雙翼可擴(kuò)展多處理器緊耦合共享存儲器體系結(jié)構(gòu)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)領(lǐng)域,是一種共享存儲器體系結(jié)構(gòu),具體地說是指一種雙翼可擴(kuò)展多處 理器緊耦合共享存儲器體系結(jié)構(gòu)。2、 技術(shù)背景緊耦合共享存儲器體系結(jié)構(gòu)有多種實現(xiàn)方法。常見的有對稱多處理機(jī)(SMP)結(jié)構(gòu)和非一致 性存儲器訪問(NUMA )結(jié)構(gòu)。如果存儲器在物理上集中放置,任意處理器訪問集中存儲器的延 遲都相等,則稱為對稱多處理機(jī)。目前大多數(shù)2 4路Intel Xeon和Itanium系統(tǒng)都是通過共 享系統(tǒng)總線方式實現(xiàn)的SMP。但是由于總線驅(qū)動能力和存儲器帶寬的限制,SMP系統(tǒng)規(guī)模難以做 大, 一般只限于2 8路。采用NUMA結(jié)構(gòu)的計算機(jī)系統(tǒng),其存儲器在物理上分布,處理器訪問 本地存儲器延遲小,而訪問遠(yuǎn)地存儲器延遲大。其互連方式通常采用兩級互連,第一級通過共 享總線或點(diǎn)到點(diǎn)直連方式連接2 4個CPU,連同結(jié)點(diǎn)控制器構(gòu)成一個處理器子系統(tǒng),而處理器 子系統(tǒng)間則使用定制或通用互連網(wǎng)絡(luò),構(gòu)成更大的系統(tǒng)。對于構(gòu)建構(gòu)建大規(guī)模多處理器系統(tǒng),通常需要采用非一致性存儲器訪問(NUMA )結(jié)構(gòu)。在 這一體系結(jié)構(gòu)的設(shè)計中,作為互連網(wǎng)絡(luò)的核心交叉開關(guān)路由芯片NR,由于技術(shù)和工藝等問題, 端口數(shù)目的增加具有一定的限制(目前最大可做到16端口)。另一方面,由于結(jié)點(diǎn)控制器NC 在物理空間上距離處理器較近,而距離互連網(wǎng)絡(luò)(路由芯片NR)較遠(yuǎn),因而對于單個鏈路,兩 側(cè)實際帶寬會出現(xiàn)不匹配的問題,即單鏈路處理器端實際帶寬要髙于互連網(wǎng)絡(luò)端實際帶寬。在這種前提下,如果系統(tǒng)內(nèi)處理器規(guī)模增加一倍,可以采用如下兩種方法。 一種方法是 每個結(jié)點(diǎn)控制器NC通過n條鏈路連接處理器,通過另n條鏈路與交叉開關(guān)路由芯片相連接,由 此為基礎(chǔ)構(gòu)建兩倍處理器規(guī)模的緊耦合共享存儲器體系結(jié)構(gòu)。由于單鏈路處理器端實際帶寬要 高于互連網(wǎng)絡(luò)端實際帶寬,因而結(jié)點(diǎn)控制器NC兩側(cè)的處理器帶寬與網(wǎng)絡(luò)帶寬會出現(xiàn)不匹配的情 況,即這種方法是以犧牲處理器帶寬與網(wǎng)絡(luò)帶寬不匹配為代價,來獲取較低的網(wǎng)絡(luò)通信延遲。另一種方法是每個結(jié)點(diǎn)控制器NC通過m條鏈路連接處理器,通過另n條鏈路與交叉開關(guān) 路由芯片相連接,為保持處理器帶寬與網(wǎng)絡(luò)帶寬基本匹配,需要m〈n;但由此會明顯增加結(jié)點(diǎn)控 制器NC的數(shù)量,由于交叉開關(guān)路由芯片NR最大端口數(shù)有限(目前為16個),因而需要通過級 聯(lián)交叉開關(guān)路由芯片NR構(gòu)建提供更多端口數(shù)量的互連網(wǎng)絡(luò)才可以,從而會增加網(wǎng)絡(luò)互連跳步, 即這種發(fā)發(fā)是以犧牲網(wǎng)絡(luò)通信延遲為代價,來獲得處理器帶寬與網(wǎng)絡(luò)帶寬的相對平衡。當(dāng)處理器規(guī)模擴(kuò)展時,采用上述方法構(gòu)建多處理器緊耦合共享存儲器結(jié)構(gòu),總會帶來或者 處理器帶寬與網(wǎng)絡(luò)帶寬不匹配,或者增加網(wǎng)絡(luò)平均延遲的問題,似乎帶寬匹配和互連單跳步兩 者不能兼得。那么能否有其他的方法,當(dāng)處理器規(guī)模增加時,即要保持處理器帶寬與網(wǎng)絡(luò)帶寬 相匹配,又能最大限度減少互連網(wǎng)絡(luò)平均延遲呢?這正是業(yè)內(nèi)科技人員要解決的問題。3、 發(fā)明內(nèi)容本發(fā)明的目的是提供一種雙翼可擴(kuò)展多處理器緊耦合共享存儲器體系結(jié)構(gòu)。 本發(fā)明的目的是按以下方式實現(xiàn)的,在一個有P個處理器組成的緊耦合共享存儲器體系結(jié)構(gòu) 內(nèi),設(shè)置j個處理器模塊PM,其中每個處理器模塊PM由i個處理器C耦合交叉連接而成,且每 處理器C只有一條鏈路與結(jié)點(diǎn)控制器NC直接連接;每個處理器模塊PM還包含2個成對結(jié)點(diǎn)控 制器NC,每個結(jié)點(diǎn)控制器NC通過m條鏈路與處理器連接,并通過n條鏈路與互連網(wǎng)絡(luò)連接;互 連網(wǎng)絡(luò)共有兩組,每組互連網(wǎng)絡(luò)連接k個q端口的交叉開關(guān)路由芯片NR,構(gòu)成雙翼可擴(kuò)展多處 理器緊耦合共享存儲器體系結(jié)構(gòu)。體系結(jié)構(gòu)內(nèi)處理器數(shù)量是P=i*j,為實現(xiàn)處理器之間通信的無阻塞性,則需要i=2m,即m=i/2, 同時為實現(xiàn)網(wǎng)絡(luò)傳輸?shù)臒o阻塞性,則需要n勺':q+k。假定處理器單鏈路帶寬為a,網(wǎng)絡(luò)單鏈路帶 寬為b,由于結(jié)點(diǎn)控制器NC距離處理器端較近,通常實際帶寬a〉b,因而為保持處理器帶寬與 網(wǎng)絡(luò)帶寬的相對平衡,即aji^bn,則要求m〈n。在保持系統(tǒng)規(guī)模高可擴(kuò)展的前提下,實現(xiàn)處理器 帶寬與網(wǎng)絡(luò)帶寬相對平衡,并同時保持較低的互連網(wǎng)絡(luò)平均延遲。本發(fā)明的體系結(jié)構(gòu)所具有的有益效果是,通過m條鏈路連接處理器C,通過另n條鏈路與交 叉開關(guān)路由芯片NR相連接,其中m〈n,同時通過兩翼的兩套互連網(wǎng)絡(luò)來構(gòu)建p個處理器緊耦合 共享存儲器體系結(jié)構(gòu),在保持系統(tǒng)規(guī)模高可擴(kuò)展的前提下,實現(xiàn)處理器帶寬與網(wǎng)絡(luò)帶寬相對平 衡,并同時保持較低的互連網(wǎng)絡(luò)平均延遲。在保留現(xiàn)有技術(shù)優(yōu)點(diǎn)的同時,又能有效降低現(xiàn)有技 術(shù)所存在的負(fù)面問題。4
附圖1是雙翼可擴(kuò)展多處理器緊耦合共享存儲器體系結(jié)構(gòu)示意圖;附圖2是雙翼可擴(kuò)展64處理器緊耦合共享存儲器體系結(jié)構(gòu)示意圖;附圖3是傳統(tǒng)技術(shù)的一種構(gòu)建64處理器緊耦合共享存儲器體系結(jié)構(gòu)的拓?fù)浣Y(jié)構(gòu)示意圖;附圖4是傳統(tǒng)技術(shù)的另一種構(gòu)建64處理器緊耦合共享存儲器體系結(jié)構(gòu)的拓?fù)浣Y(jié)構(gòu)示意圖。
具體實施方式
參照說明書附圖對本發(fā)明的方法做以下詳細(xì)的說明-實施例1,如附圖2所示構(gòu)建64路處理器為例,闡述雙翼可擴(kuò)展多處理器緊耦合共享存儲器體系結(jié)構(gòu) 的具體實現(xiàn)方式。在一個64處理器規(guī)模的緊耦合共享存儲器體系結(jié)構(gòu)內(nèi),即p=16,在每個處理器模塊由4 個處理器C耦合交叉連接而成,即i二4,由于p-i"',因而系統(tǒng)內(nèi)處理器模塊(PM)的數(shù)量j p/i-16。每個處理器模塊PM包含2個成對結(jié)點(diǎn)控制器NC,每個結(jié)點(diǎn)控制器NC通過m條鏈路與處理 器C連接,為實現(xiàn)處理器之間通信的無阻塞性,則需要i:2m,即111=1/2=2,即單個結(jié)點(diǎn)控制器 NC通過2條鏈路與處理器連接。假定處理器單鏈路帶寬為a,網(wǎng)絡(luò)單鏈路帶寬為b,由于結(jié)點(diǎn)控制器NC距離處理器端較近, 通常實際帶寬a〉b,因而為保持處理器帶寬與網(wǎng)絡(luò)帶寬的相對平衡,即aJiFbn,則要求m〈n。以目前技術(shù)實現(xiàn)的單鏈路處理器帶寬和單鏈路網(wǎng)絡(luò)通信帶寬分別為25. 6GB/s和15GB/s為例, n=ajn/b=25. 5*2/15=3. 4,滿足條件的最小n整數(shù)值為4,即n=4。每個結(jié)點(diǎn)控制器NC還通過n條鏈路與互連網(wǎng)絡(luò)連接,互連網(wǎng)絡(luò)共有兩組,每組互連網(wǎng)絡(luò)由 k個q端口交叉開關(guān)路由芯片NR組成。為實現(xiàn)網(wǎng)絡(luò)傳輸?shù)臒o阻塞性,則需要n4^qfk,由于技 術(shù)上和工藝上的限制,目前交叉開關(guān)路由芯片NR端口數(shù)最大只能做到16端口,即q46,因而 單翼互連網(wǎng)絡(luò)內(nèi)部交叉開關(guān)路由芯片NR數(shù)量k=n*j/q=4*16/16=4,即單翼互連網(wǎng)絡(luò)包含4個交 叉開關(guān)路由芯片NR。通過上述連接方式,構(gòu)成雙翼可擴(kuò)展64處理器緊耦合共享存儲器體系結(jié)構(gòu)。 下面通過描述方法一與方法二的構(gòu)建方式,通過對比分析,來闡述本發(fā)明體系結(jié)構(gòu)的優(yōu)異 特性。實施例2、當(dāng)由32處理器系統(tǒng)擴(kuò)展到64處理器系統(tǒng)時,在交叉開關(guān)路由芯片NR端口數(shù)為16的前提下, 通常會通過以下兩種方式實現(xiàn)一種方法如圖3所示,釆用單個結(jié)點(diǎn)控制器NC通過4條鏈路連接處理器C,通過另4條鏈 路連接交叉開關(guān)路由芯片NR,即m=n=4,考慮到網(wǎng)絡(luò)傳輸?shù)臒o阻塞性,則需要n*j=q*k, k =n*j/q=4*16/16=4,即互連網(wǎng)絡(luò)內(nèi)部交叉開關(guān)路由芯片NR數(shù)量為4。同時,單個結(jié)點(diǎn)控制器NC 一側(cè)的處理器帶寬am=25. 5GB/s*4=102GB/s,另一側(cè)的網(wǎng)絡(luò)帶寬bn=15GB/s*4=60GB/s,從而帶 來處理器帶寬與網(wǎng)絡(luò)帶寬嚴(yán)重不匹配的問題。因而采用這種方式,是以犧牲處理器帶寬與網(wǎng)絡(luò) 帶寬不匹配為代價,來獲取較低的網(wǎng)絡(luò)通信延遲的。另一種方法是如圖4所示,在每個處理器模塊內(nèi)部,由2個處理器C通過QPI通道耦合交 叉連接而成,即1=2,由于p^L+j,因而系統(tǒng)內(nèi)處理器模塊PM的數(shù)量j=p/i=32。每個處理器模塊PM包含1個結(jié)點(diǎn)控制器NC,單個結(jié)點(diǎn)控制器NC通過m條鏈路與處理器連 接,為實現(xiàn)處理器之間通信的無阻塞性,則需要111=1=2,即單個結(jié)點(diǎn)控制器NC通過2條鏈路與 處理器連接。同時,為保持處理器帶寬與網(wǎng)絡(luò)帶寬的相對平衡,即am=bn,則要求m〈n。這里m-2, a=25.6GB/s, b=15GB/s,從而滿足條件的最小n整數(shù)值為4,即n=4。考慮到網(wǎng)絡(luò)傳輸?shù)臒o阻塞 性,則需要n*j=q*k=4*32=128,即互連網(wǎng)絡(luò)需要提供128個通信鏈路,因而無法通過一級16 端口交叉開關(guān)路由芯片NR實現(xiàn),只能通過二級級聯(lián)方式構(gòu)建128端口數(shù)量的互連網(wǎng)絡(luò),從而提 高了互連網(wǎng)絡(luò)通信平均延遲。綜上,采用這種方式,是以犧牲網(wǎng)絡(luò)通信平均延遲為代價,來獲 得處理器帶寬與網(wǎng)絡(luò)帶寬的相對平衡的。與上述兩種方法相比,本發(fā)明的體系結(jié)構(gòu)的優(yōu)勢在于在保持系統(tǒng)從32處理器規(guī)模到64 處理器規(guī)??蓴U(kuò)展的前提下,實現(xiàn)了處理器帶寬與網(wǎng)絡(luò)帶寬相對平衡,同時保持較低的互連網(wǎng) 絡(luò)平均延遲。即在保持方法一中處理器帶寬與網(wǎng)絡(luò)帶寬相對平衡的特性基礎(chǔ)上,互連網(wǎng)絡(luò)平均 延遲與方法二相比約降低50%左右。本發(fā)明的方法是如附圖1所示,在一個有P個處理器組成的緊耦合共享存儲器體系結(jié)構(gòu)內(nèi),設(shè)置j個處理 器模塊PM,其中每個處理器模塊PM由i個處理器C耦合交叉連接而成,且每處理器C只有一條鏈路與結(jié)點(diǎn)控制器NC直接連接;每個處理器模塊PM還包含2個成對結(jié)點(diǎn)控制器NC,每個結(jié)點(diǎn) 控制器NC通過m條鏈路與處理器連接,并通過n條鏈路與互連網(wǎng)絡(luò)連接;互連網(wǎng)絡(luò)共有兩組, 每組互連網(wǎng)絡(luò)連接k個q端口的交叉開關(guān)路由芯片NR,構(gòu)成雙翼可擴(kuò)展多處理器緊耦合共享存 儲器體系結(jié)構(gòu)。體系結(jié)構(gòu)內(nèi)處理器數(shù)量是P=i*j,為實現(xiàn)處理器之間通信的無阻塞性,則需要i=2m,即m=i/2, 同時為實現(xiàn)網(wǎng)絡(luò)傳輸?shù)臒o阻塞性,則需要n"、q+k。假定處理器單鏈路帶寬為a,網(wǎng)絡(luò)單鏈路帶 寬為b,由于結(jié)點(diǎn)控制器NC距離處理器端較近,通常實際帶寬a〉b,因而為保持處理器帶寬與 網(wǎng)絡(luò)帶寬的相對平衡,即anebn,則要求m〈n。在保持系統(tǒng)規(guī)模高可擴(kuò)展的前提下,實現(xiàn)處理器 帶寬與網(wǎng)絡(luò)帶寬相對平衡,并同時保持較低的互連網(wǎng)絡(luò)平均延遲。處理器帶寬與網(wǎng)絡(luò)帶寬的平衡,具體是指當(dāng)處理器規(guī)模增加一倍時,如果釆用單個結(jié)點(diǎn) 控制器NC通過n條鏈路連接處理器C,通過另n條鏈路連接交叉開關(guān)路由芯片NR的方式構(gòu)建的 緊耦合共享存儲器體系結(jié)構(gòu)的雙翼可擴(kuò)展多處理器P,雖然網(wǎng)絡(luò)通信平均延遲較低,但處理器帶 寬與網(wǎng)絡(luò)帶寬的不匹配會嚴(yán)重影響系統(tǒng)性能。與這種方式相比,本系統(tǒng)結(jié)構(gòu)具有更好的處理器 帶寬與網(wǎng)絡(luò)帶寬相對平衡的特性。較低的互連網(wǎng)絡(luò)平均延遲,具體是指當(dāng)處理器規(guī)模增加一倍時,如果采用單個結(jié)點(diǎn)控制 器NC通過m條鏈路連接處理器C,通過另n條m〈n鏈路連接交叉開關(guān)路由芯片NR構(gòu)建p處理器 緊耦合共享存儲器體系結(jié)構(gòu),雖然處理器帶寬與網(wǎng)絡(luò)帶寬相對平衡,但必須通過級聯(lián)交叉開關(guān)路 由芯片NR構(gòu)建提供更多端口數(shù)量的互連網(wǎng)絡(luò),從而增加互聯(lián)網(wǎng)絡(luò)平均延遲。與這種方式相比, 本發(fā)明的方法和體系結(jié)構(gòu)具有較低的互連網(wǎng)絡(luò)平均延遲。
權(quán)利要求
1、雙翼可擴(kuò)展多處理器緊耦合共享存儲器體系結(jié)構(gòu),其特征在于在一個雙翼可擴(kuò)展的有p個處理器緊耦合共享存儲器體系結(jié)構(gòu)內(nèi),包含j個處理器模塊PM,其中每個處理器模塊PM由i個處理器C耦合交叉連接而成,且每處理器C只有一條鏈路與結(jié)點(diǎn)控制器NC直接連接;每個處理器模塊PM包含2個成對結(jié)點(diǎn)控制器NC,每個結(jié)點(diǎn)控制器NC通過m條鏈路與處理器C連接,并通過n條鏈路與互連網(wǎng)絡(luò)連接;互連網(wǎng)絡(luò)共有兩組,每組互連網(wǎng)絡(luò)連接k個q端口交叉開關(guān)路由芯片NR。
2、 根據(jù)權(quán)利要求1所述的體系結(jié)構(gòu)構(gòu)建方法,其特征在于處理器C的數(shù)量是p-iXj,為 實現(xiàn)處理器之間通信的無阻塞性,則需要i=2m,即m=i/2,同時為實現(xiàn)網(wǎng)絡(luò)傳輸?shù)臒o阻塞性, 則需要nXj:qXk,假定處理器單鏈路帶寬為a,網(wǎng)絡(luò)單鏈路帶寬為b,由于結(jié)點(diǎn)控制器NC距離 處理器C端較近,實際帶寬a〉b,為保持處理器C帶寬與網(wǎng)絡(luò)帶寬的相對平衡,即anHm,則要 求m〈n,通過m條鏈路連接處理器C,通過另n條鏈路與交叉開關(guān)路由芯片NR相連接,同時通 過兩翼的兩套互連網(wǎng)絡(luò)來構(gòu)建p個處理器緊耦合共享存儲器體系結(jié)構(gòu),在保持系統(tǒng)規(guī)模高可擴(kuò) 展的前提下,實現(xiàn)處理器帶寬與網(wǎng)絡(luò)帶寬相對平衡,并同時保持較低的互連網(wǎng)絡(luò)平均延遲。
全文摘要
本發(fā)明提供一種雙翼可擴(kuò)展多處理器緊耦合共享存儲器體系結(jié)構(gòu)是在一個p處理器規(guī)模的緊耦合共享存儲器體系結(jié)構(gòu)內(nèi),包含j個處理器模塊PM,其中每個處理器模塊由i個處理器C耦合交叉連接而成,且每處理器只有一條鏈路與結(jié)點(diǎn)控制器NC直接連接;每個處理器模塊PM包含2個成對結(jié)點(diǎn)控制器NC,每個結(jié)點(diǎn)控制器NC通過m條鏈路與處理器連接,并通過n條鏈路與互連網(wǎng)絡(luò)連接;互連網(wǎng)絡(luò)共有兩組,每組互連網(wǎng)絡(luò)由k個q端口交叉開關(guān)路由芯片NR組成。通過上述連接方式,構(gòu)成雙翼可擴(kuò)展多處理器緊耦合共享存儲器體系結(jié)構(gòu)。本發(fā)明體系結(jié)構(gòu)的優(yōu)點(diǎn)在于在保持處理器規(guī)??蓴U(kuò)展的前提下,實現(xiàn)處理器帶寬與網(wǎng)絡(luò)帶寬的平衡,同時保持較低的互連網(wǎng)絡(luò)平均延遲。
文檔編號G06F15/173GK101216815SQ200810013718
公開日2008年7月9日 申請日期2008年1月7日 優(yōu)先權(quán)日2008年1月7日
發(fā)明者劉光明, 吳慶波, 尹宏偉, 廖湘科, 王守昊, 王恩東, 王永文, 勇 竇, 軍 羅, 胡雷鈞, 趙吉志, 義 鄭, 黃家明 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司