專利名稱:基于多副本的具有質(zhì)量保證的網(wǎng)格數(shù)據(jù)傳輸系統(tǒng)的制作方法
技術領域:
本發(fā)明屬于網(wǎng)絡計算中服務和數(shù)據(jù)網(wǎng)格技術領域,具體涉及一種基于多副本的具有質(zhì)量保證的網(wǎng)格數(shù)據(jù)傳輸系統(tǒng)。
背景技術:
在現(xiàn)代科學研究和應用領域中,大量的數(shù)據(jù)是重要的資源,在全球氣候模擬、高能物理、生物計算、戰(zhàn)場仿真、核模擬、數(shù)字地球、大規(guī)模的信息和決策支持系統(tǒng)等應用領域,其數(shù)據(jù)量將達到幾十TeraByte至PetaByte的級別。地理上廣泛分布的該領域的科研工作者或用戶都希望能夠訪問和分析這些龐大的數(shù)據(jù),但其分析方法往往是計算復雜、計算量大,許多數(shù)據(jù)分析處理要求千億次或萬億次規(guī)模的計算能力?,F(xiàn)有的數(shù)據(jù)管理體系結構、方法和技術已經(jīng)不能滿足人們對高性能、大容量分布存儲和分布處理能力的要求。因此,在計算網(wǎng)格的基礎上人們提出了數(shù)據(jù)網(wǎng)格(Data Grid)的構想,以解決上述應用所面臨的問題。
目前的網(wǎng)格環(huán)境中,對數(shù)據(jù)文件傳輸主要把精力集中于文件的可獲取性及可控制共享性,并沒有提供關于服務質(zhì)量(QoS)控制的內(nèi)容。
網(wǎng)格的數(shù)據(jù)處理是與網(wǎng)格相伴而生的概念,隨著網(wǎng)格的處理數(shù)據(jù)的爆炸性增加,對數(shù)據(jù)的處理要求也就越來越高。作為數(shù)據(jù)處理的一個重要環(huán)節(jié),數(shù)據(jù)傳輸?shù)囊笠簿椭饾u提到了日程上來。其中對數(shù)據(jù)傳輸質(zhì)量的要求則是數(shù)據(jù)傳輸要求的重中之重,目前的網(wǎng)格范圍的數(shù)據(jù)訪問工具和結構都把注意力集中在數(shù)據(jù)的可訪問性和訪問速度的無上限追求上,但事實上很多情況下對數(shù)據(jù)的訪問要求并不需要盡量的快,而是有一個最低可接受的范圍,這也就為提供質(zhì)量保障的數(shù)據(jù)服務提供了舞臺。對數(shù)據(jù)的服務質(zhì)量約束還可以使有限的資源更合理的利用和分配,使得盡可能多的請求在質(zhì)量可以接受的情況下得到滿足。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于多副本的具有質(zhì)量保證的網(wǎng)格數(shù)據(jù)傳輸系統(tǒng),該系統(tǒng)彌補了現(xiàn)有數(shù)據(jù)網(wǎng)格平臺實時服務質(zhì)量保證的不足,對現(xiàn)有數(shù)據(jù)網(wǎng)格組件改造和高層封裝,在廣域網(wǎng)范圍內(nèi)可以跨平臺使用。
本發(fā)明提供的基于多副本的具有質(zhì)量保證的網(wǎng)格數(shù)據(jù)傳輸系統(tǒng),其特征在于該系統(tǒng)包括數(shù)據(jù)傳輸客戶端組、索引服務器組、存儲服務器組和認證服務器組;數(shù)據(jù)傳輸客戶端組在上載數(shù)據(jù)到系統(tǒng)時,申請數(shù)據(jù)發(fā)布部署方案并請求索引服務器組執(zhí)行此方案;在平臺下載數(shù)據(jù)時,實時獲取所需數(shù)據(jù);向索引服務服務組提出實時數(shù)據(jù)請求描述,包括數(shù)據(jù)文件邏輯描述,傳輸服務質(zhì)量要求;接收索引服務服務組提供的數(shù)據(jù)傳輸方案,組織要獲取的數(shù)據(jù)從多點并行獲?。徊?shù)據(jù)傳輸?shù)膶崟r服務質(zhì)量進行監(jiān)控和報告錯誤;進行數(shù)據(jù)傳輸重組;索引服務器組用于對存儲服務器組的系統(tǒng)信息和服務質(zhì)量保證合同進行注冊和監(jiān)控;存儲服務器組根據(jù)數(shù)據(jù)傳輸客戶端組生成的數(shù)據(jù)發(fā)布方案產(chǎn)生發(fā)布表項并控制數(shù)據(jù)傳輸,生成多個物理復本;認證服務器組用于驗證數(shù)據(jù)傳輸客戶端和存儲服務器組的身份,進行證書的簽發(fā)和認證。
本發(fā)明所有的服務均遵循OGSA標準,所有服務均以網(wǎng)格服務(gridservice)的方式對外發(fā)布,因此本平臺獲得了網(wǎng)格服務的特點。所有服務繼承了網(wǎng)格服務的一切優(yōu)良特性,包括高可用性、可伸縮性和高性價比。各個服務松散耦合,提高平臺的總體可靠性。各服務之間遵從OGSA標準便于各個服務獨立升級。多數(shù)據(jù)復本機制保證了多點數(shù)據(jù)并行傳輸,提高帶寬利用率;同時多復本的冗余機制保證了系統(tǒng)容錯特性。本系統(tǒng)采用PKI/CA安全機制,提供了一種廣域范圍內(nèi)可擴展的安全認證機制,將數(shù)據(jù)安全擴展到數(shù)據(jù)傳輸層。具體而言,本發(fā)明具有以下優(yōu)點及效果(1)在廣域范圍內(nèi)共享具有實時服務質(zhì)量保證的數(shù)據(jù)文件資源。
通過一次數(shù)據(jù)發(fā)布將帶有實時容錯服務質(zhì)量的某一數(shù)據(jù),發(fā)布和部署到此平臺上。通過共享此數(shù)據(jù)及其復本,將使得此具有實時容錯特性的數(shù)據(jù)作為服務為其他用戶共享并實時(即并行)獲取。
(2)良好的容錯性。
容錯性關系到平臺的可用性和用戶對平臺的信賴程度。多復本機制使得GridFTP(網(wǎng)格文件傳輸協(xié)議)傳輸服務模塊(3.2)具有良好的容錯性。每一數(shù)據(jù)復本節(jié)點機只負責向用戶傳輸部分文件分片。任一臺服務器(即節(jié)點機)的突然失效不會造整個實時數(shù)據(jù)傳輸失效,根據(jù)文件獲取方案中攜帶的容錯處理信息,數(shù)據(jù)傳輸客戶端(圖4)可以迅速調(diào)整重組文件傳輸任務(1.3、1.7、1.6)(參見圖7)以盡量減低傳輸時間,或者將失效的文件分片從冗余的GridFTP(網(wǎng)格文件傳輸協(xié)議)傳輸服務模塊(3.2)上獲取。
(3)系統(tǒng)服務,客戶端由java實現(xiàn)利于跨平臺使用。
基于Java的系統(tǒng)服務的實現(xiàn)適用于Internet上大部分存儲和計算資源的整合;Java客戶端便于各種操作系統(tǒng)用戶使用本平臺。
(4)數(shù)據(jù)傳輸?shù)淖越M織、自適應,服務質(zhì)量監(jiān)控由系統(tǒng)自動完成,對用戶透明。
用戶只需將數(shù)據(jù)將發(fā)布請求和發(fā)布描述提交給此平臺,此平臺就可以按用戶的要求自動構建實時數(shù)據(jù)服務,而不用專門建立自己的網(wǎng)絡計算平臺和搜集志愿者。這樣可以將應用科學家從網(wǎng)絡計算平臺的實現(xiàn)細節(jié)中解放出來,集中精力進行自己領域的科學研究。
(5)在廣域范圍內(nèi)共享數(shù)據(jù)存儲資源實現(xiàn)多點實時并行傳輸。
大規(guī)模數(shù)據(jù)文件服務的瓶頸主要出現(xiàn)在服務器端的I/O。通過單點服務器是無法完成實時數(shù)據(jù)請求的。實時協(xié)同的網(wǎng)格數(shù)據(jù)平臺通過在多個服務器上數(shù)據(jù)文件復本,進行多文件分片并行傳輸避免了單一I/O瓶頸。實現(xiàn)了廣域網(wǎng)上的實時數(shù)據(jù)傳輸請求。
(6)數(shù)據(jù)傳輸處理平臺所有的服務均遵循OGSA標準。
所有服務繼承了網(wǎng)格服務的一切優(yōu)良特性,包括可伸縮性所有的服務作為網(wǎng)格服務,采用服務工廠的方式可以被動態(tài)的創(chuàng)建和管理。當數(shù)據(jù)發(fā)布和獲取請求數(shù)目越來越多,使某一服務的服務器系統(tǒng)負載過重而不能滿足實時響應時,本平臺可在新的服務器系統(tǒng)上動態(tài)擴展創(chuàng)建各個系統(tǒng)服務以滿足需求,而且不降低服務質(zhì)量。
高可用性各個服務松散耦合,即使服務器系統(tǒng)的部分硬件和軟件發(fā)生故障,整個系統(tǒng)的服務必須是每天24小時每星期7天可用的。
高性價比與超級巨型I/O計算機相比,實時協(xié)同數(shù)據(jù)網(wǎng)格服務平臺具有更高的實時數(shù)據(jù)處理和傳輸能力,而且整個系統(tǒng)基于多個普通服務器構成的實現(xiàn)是經(jīng)濟的、易支付的。
(7)本系統(tǒng)采用GridFTP(網(wǎng)格文件傳輸協(xié)議)和PKI/CA安全認證機制,同普通FTP服務相比不僅僅保證用戶的安全登陸,還保證數(shù)據(jù)傳輸安全。
圖1為本發(fā)明網(wǎng)格數(shù)據(jù)傳輸系統(tǒng)的結構示意圖;圖2為網(wǎng)格數(shù)據(jù)傳輸子系統(tǒng)的結構示意圖;圖3為數(shù)據(jù)傳輸客戶端組的結構示意圖;圖4為索引服務組的結構示意圖;圖5為存儲節(jié)點結構示意圖;圖6為實時數(shù)據(jù)傳輸協(xié)議層次框架圖;圖7為發(fā)布實時數(shù)據(jù)流程圖;圖8為獲取實時數(shù)據(jù)流程圖;圖9為實時數(shù)據(jù)獲取時的容錯和傳輸服務質(zhì)量控制交互圖;圖10為數(shù)據(jù)傳輸容錯處理流程圖;圖11為傳輸出錯處理圖。
具體實施例方式
下面結合附圖和實例對本發(fā)明作進一步詳細的說明。
本發(fā)明遵循世界開放式網(wǎng)格服務體系結構(OGSA)標準,在廣域網(wǎng)范圍內(nèi)本發(fā)明系統(tǒng)在多個網(wǎng)域間進行數(shù)據(jù)傳輸和管理。如圖1所示,本發(fā)明系統(tǒng)由分布在不同網(wǎng)域中的N個相同的網(wǎng)格數(shù)據(jù)傳輸子系統(tǒng)組成,N≥1,各子系統(tǒng)之間可以進行相互的數(shù)據(jù)發(fā)布與獲取,協(xié)同的完成多個網(wǎng)域間的任務。
上述網(wǎng)格數(shù)據(jù)傳輸子系統(tǒng)包括數(shù)據(jù)傳輸客戶端組1、索引服務器組2、存儲服務器組3和認證服務器組4。
數(shù)據(jù)傳輸客戶端組1用于在上載數(shù)據(jù)到系統(tǒng)時,申請數(shù)據(jù)發(fā)布部署方案并請求索引服務器組2執(zhí)行此方案;在平臺下載數(shù)據(jù)時,實時獲取所需數(shù)據(jù)。向索引服務服務組2提出實時數(shù)據(jù)請求描述,包括數(shù)據(jù)文件邏輯描述,傳輸服務質(zhì)量要求;接收索引服務服務組2提供的數(shù)據(jù)傳輸方案,組織要獲取的數(shù)據(jù)從多點并行獲取;并對數(shù)據(jù)傳輸?shù)膶崟r服務質(zhì)量進行監(jiān)控和報告錯誤;進行數(shù)據(jù)傳輸重組。
索引服務器組2用于對存儲服務器組3的系統(tǒng)信息和服務等級協(xié)議(Service Level Agreement,SLA)進行注冊和監(jiān)控的功能。
存儲服務器組3根據(jù)數(shù)據(jù)傳輸客戶端組1生成的數(shù)據(jù)發(fā)布方案產(chǎn)生發(fā)布表項并控制數(shù)據(jù)傳輸,最終生成多個物理復本。
認證服務器組4用于驗證數(shù)據(jù)傳輸客戶端1和存儲服務器組3的身份,進行證書的簽發(fā)和認證,以確保安全的傳輸數(shù)據(jù)。證書用來驗證客戶端和GridFTP(網(wǎng)格文件傳輸協(xié)議)服務器的身份以確保安全的傳輸數(shù)據(jù)。
如圖2所示,數(shù)據(jù)傳輸客戶端組1由i個相同的客戶端組成,索引服務器組2由k個相同的索引服務器組成,存儲服務器組3由m個存儲服務器組成,認證服務器組4由w個認證服務器組成,它們均可以并行處理多個用戶請求,其中,i,k,m和w均大于等于1。
如圖3所示,客戶端A包括用戶傳輸接口模塊1.1、傳輸項目組織模塊1.2、反饋匯報和控制模塊1.3、GridFTP(網(wǎng)格文件傳輸協(xié)議)資源池模塊1.4、GridFTP(網(wǎng)格文件傳輸協(xié)議)客戶端實例工廠模塊1.5、傳輸檢測控制模塊1.6、重傳支持模塊1.7、客戶端傳輸代理模塊1.8其中,用戶傳輸接口模塊1.1接收到外界數(shù)據(jù),并傳數(shù)據(jù)到傳輸項目組織模塊1.2,傳輸項目組織模塊1.2組織傳輸項目來處理數(shù)據(jù)傳輸和進行數(shù)據(jù)傳輸任務分塊。傳輸項目組織模塊1.2將已分好的數(shù)據(jù)傳輸任務塊傳到GridFTP資源池模塊1.4,GridFTP資源池模塊1.4為數(shù)據(jù)傳輸提供物理文件服務資源池,在服務資源池上通過GridFTP客戶端實例工廠模塊1.5產(chǎn)生的客戶端實例,這個過程由GSI(網(wǎng)格安全)認證客戶端模塊3.3進行認證,最后由客戶端傳輸代理模塊1.8調(diào)用其內(nèi)的索引服務并獲取傳輸任務需要的各種SLA信息和可用資源信息,執(zhí)行傳輸任務。傳輸項目組織模塊1.2同時調(diào)用實時服務質(zhì)量SLA反饋匯報和控制模塊1.3接收與分析傳輸?shù)姆答佇畔⑾蛩饕掌鹘M2中的物理節(jié)點信息管理服務模塊2.5匯報對SLA的執(zhí)行情況,當有傳輸錯誤發(fā)生時,將錯誤類別傳給重傳支持模塊1.7,其通過錯誤類別組織數(shù)據(jù)重傳,在重傳過程中傳輸檢測控制模塊1.6對重傳支持模塊1.7進行檢測與控制。
如圖4所示,索引服務器B包括數(shù)據(jù)文件獲取服務模塊(QoSDGather)2.1、數(shù)據(jù)文件發(fā)布注冊服務模塊(QoSDispatcher)2.2、數(shù)據(jù)文件描述服務和發(fā)布服務模塊(QLrci)2.3、物理文件映射服務模塊(Qrli)2.4、物理節(jié)點信息管理服務模塊(Msla)2.5在發(fā)布數(shù)據(jù)文件時,用來發(fā)布數(shù)據(jù)的數(shù)據(jù)傳輸客戶端1向數(shù)據(jù)文件發(fā)布服務模塊2.2提出數(shù)據(jù)發(fā)布和部署請求。數(shù)據(jù)文件發(fā)布服務模塊2.2向邏輯文件描述和發(fā)布服務模塊2.3查詢注冊信息,邏輯文件描述和發(fā)布服務模塊2.3完成數(shù)據(jù)文件描述的注冊和數(shù)據(jù)發(fā)布的申請。同時數(shù)據(jù)文件發(fā)布服務模塊2.2通過調(diào)用物理節(jié)點信息管理服務模塊2.5,為請求分配副本存儲資源形成發(fā)布方案,物理文件映射服務模塊2.4完成物理文件同邏輯發(fā)布(部署)映射綁定,最后執(zhí)行發(fā)布方案。注冊信息、發(fā)布信息以及副本部署信息均注冊到數(shù)據(jù)庫中。
在獲取數(shù)據(jù)文件時,用來獲取數(shù)據(jù)的數(shù)據(jù)傳輸客戶端1通過代理向數(shù)據(jù)文件獲取服務模塊2.1提出數(shù)據(jù)獲取請求,請求包括數(shù)據(jù)文件的邏輯描述、實時服務質(zhì)量要求、安全性等級。文件獲取服務模塊2.1調(diào)用數(shù)據(jù)文件描述服務模塊2.3查找描述信息并獲取描述返回給文件獲取服務模塊2.1,文件獲取服務模塊2.1將文件的描述信息傳給物理文件映射服務模塊2.4,它通過文件描述信息查找文件發(fā)布信息返回文件獲取服務模塊2.1。
數(shù)據(jù)文件獲取服務模塊2.1搜索到所有存有此數(shù)據(jù)文件(或數(shù)據(jù)文件的復本)的物理服務器(即結點機)和其服務質(zhì)量描述后,調(diào)用物理結點信息管理服務模塊2.5。物理結點信息管理服務模塊2.5根據(jù)各個物理帶寬性能SLA將數(shù)據(jù)傳輸任務按照實時要求(如文件發(fā)布,網(wǎng)絡帶寬等信息)創(chuàng)建多個傳輸工人(多個子任務每個傳輸工人負責一個子任務),并將其組織為數(shù)據(jù)獲取方案后返回給用來獲取數(shù)據(jù)的數(shù)據(jù)傳輸客戶端1。用來獲取數(shù)據(jù)的數(shù)據(jù)傳輸客戶端1根據(jù)獲取方案,執(zhí)行多源數(shù)據(jù)并行下載數(shù)據(jù)。實時服務質(zhì)量SLA反饋匯報和控制模塊1.3向物理節(jié)點信息管理服務模塊(2.5)報告服務執(zhí)行情況和SLA服務質(zhì)量執(zhí)行情況,記入數(shù)據(jù)庫。
如圖5所示,存儲服務器C采用GridFTP(網(wǎng)格文件傳輸協(xié)議)服務,包括節(jié)點代理服務模塊(NodeAgent)3.1、GridFTP(網(wǎng)格文件傳輸協(xié)議)傳輸服務模塊3.2、GSI(網(wǎng)格安全服務接口)認證客戶端模塊3.3其中,節(jié)點代理服務模塊(NodeAgent)3.1代理在數(shù)據(jù)發(fā)布時使用的用來獲取數(shù)據(jù)的數(shù)據(jù)傳輸客戶端、本地網(wǎng)絡和存儲資源的獲取接口,包括系統(tǒng)狀態(tài)注冊,數(shù)據(jù)文件注冊;GSI(網(wǎng)格安全服務接口)認證客戶端模塊3.3完成同外部訪問點的安全交互認證和加密傳輸數(shù)據(jù)將加密的數(shù)據(jù)傳給GridFTP(網(wǎng)格文件傳輸協(xié)議)傳輸服務模塊3.2;GridFTP(網(wǎng)格文件傳輸協(xié)議)傳輸服務模塊3.2將接收的數(shù)據(jù)進行傳輸服務。
認證服務器D包括GSI(網(wǎng)格安全服務接口)客戶端安全組件。
圖6為實時數(shù)據(jù)傳輸協(xié)議層次框架圖。圖中,索引服務器1.2負責總的管理和調(diào)度。用戶身份GSI認證和主機身份GSI認證即GSI(網(wǎng)格安全)認證客戶端模塊3.4,此為身份確認層。數(shù)據(jù)傳輸客戶端(1.2-1.8)和GridFTP(網(wǎng)格文件傳輸協(xié)議)服務器1.3是GridFTP(網(wǎng)格文件傳輸協(xié)議)層,負責總的傳輸任務。其內(nèi)分別部署的傳輸項目組織模塊1.2和數(shù)據(jù)文件存儲I/O執(zhí)行傳輸任務。
圖7為通常一次數(shù)據(jù)發(fā)布的步驟,具體地一次數(shù)據(jù)發(fā)布過程如下1)、發(fā)布發(fā)起方向索引服務提交發(fā)布請求;2)、索引服務通過對物理節(jié)點信息管理服務2.5(Msla)信息進行查詢和整合,獲得可以接收該文件的服器及其性能列表;3)、索引服務根據(jù)發(fā)布質(zhì)量要求,產(chǎn)生相應的發(fā)布方案;4)、索引服務將發(fā)布方案依次通知被選擇載有副本的服務器主機,通過對節(jié)點代理服務的調(diào)用實現(xiàn)對物理文件的發(fā)放命令;5)、被選中的服務器主動向發(fā)布發(fā)起方請求傳輸文件,傳輸結束后,則索引服務更新發(fā)布狀態(tài)數(shù)據(jù),發(fā)布完成。
圖8為一次數(shù)據(jù)獲取的步驟,具體地一次數(shù)據(jù)獲取過程如下1)、客戶向索引服務提交獲取請求,并附帶有質(zhì)量控制參數(shù);2)、索引服務通過對物理節(jié)點信息管理服務2.5(Msla)信息進行查詢和整合,獲得該文件所在的宿主服器及其性能列表;3)、索引服務根據(jù)獲取的服務質(zhì)量要求,產(chǎn)生相應的獲取方案;4)、客戶端通過方案ID獲取該獲取方案;5)、客戶根據(jù)相應的獲取方案,根據(jù)相應的QoS信息連接對應的服務器,取得文件的一部分,在本地重組完畢后,獲取完成。
圖9為實時數(shù)據(jù)獲取時的容錯和傳輸服務質(zhì)量控制交互圖。數(shù)據(jù)獲取時,在GridFTP(網(wǎng)格文件傳輸協(xié)議)用戶傳輸接口的數(shù)據(jù)獲取客戶端1.1內(nèi)部有個實時傳輸服務質(zhì)量監(jiān)控(1.3、1.7、1.6),它可以在數(shù)據(jù)傳輸?shù)臅r候?qū)崿F(xiàn)圖10所示的容錯機制,而其內(nèi)部的客戶端傳輸代理實現(xiàn)文件的傳輸。
圖10數(shù)據(jù)傳輸中的容錯處理由所示。當傳輸文件出錯會進行相應的錯誤事件匯報,錯誤被匯報到傳輸任任務管理層。任務管理層則根據(jù)當時記錄的出錯現(xiàn)場記錄對錯誤進行處理,一般而言,錯誤有物理文件錯、傳輸過程錯、傳輸延時等三種,其處理流程(圖11)是有相似之處的。
實施例本發(fā)明的一個實施例系統(tǒng)使用4個服務器節(jié)點和一個客戶端節(jié)點共4個物理節(jié)點,其物理部署見圖3,系統(tǒng)軟硬件配置見表1。其中,一臺linux節(jié)點部署索引服務和GirdFTP服務,配置IP=192.168.1.210;其他linux節(jié)點均部署GirdFTP服務,配置IP=192.168.1.205和192.168.1.204;剩下一個windows節(jié)點部署數(shù)據(jù)發(fā)布部署和獲取客戶端,配置IP=192.168.1.166。
對整個系統(tǒng)的實現(xiàn)說明如下(1)索引服務通過數(shù)據(jù)庫管理所有的物理資源,維護SLA服務質(zhì)量保障機制,管理數(shù)據(jù)邏輯名稱到物理復本的映射,管理所有數(shù)據(jù)文件的復本部署。所有對Mysql數(shù)據(jù)庫操作,均對外發(fā)布為網(wǎng)格服務。各個數(shù)據(jù)表的描述和解釋如表2-4。在系統(tǒng)中,稱一次文件的Dispatch為一次發(fā)布,它須要一個已經(jīng)成功申請的邏輯描述ID(descriptionID)和一個已經(jīng)成功創(chuàng)建的復本ID。前者表示該發(fā)布的實際意義,后者表示該發(fā)布的信息源,一般而言它也應該是最可靠的數(shù)據(jù)源。
本系統(tǒng)設計一個邏輯描述,如果要能正常工作,必須為之創(chuàng)建一個唯一的文件發(fā)布注冊服務2.3。一個沒有文件發(fā)布注冊服務2.3的邏輯描述2.3既不能提供有用的文件服務,也不能提供任何獲得該文件的信息,只有在發(fā)布中才有該文件的更近一步描述信息。文件發(fā)布和邏輯描述之間的綁定可以靈活指定,但通常不建議隨意進行綁定。
考慮到在實際應用過程中,可能對文件進行更新發(fā)布以及不同發(fā)布索引服務器組的同名發(fā)布,本系統(tǒng)引入了名域控制發(fā)布和版本控制發(fā)布。不同名域之間可以有重名的邏輯描述,對于同名的邏輯描述在選取的時候選擇最新的版本作為其傳輸。
一次文件發(fā)布,通常要創(chuàng)建與其發(fā)布重要程度相對應的多個物理拷貝,該映射完成從發(fā)布到物理復本定位的過程。
(2)數(shù)據(jù)文件GridFTP(網(wǎng)格文件傳輸協(xié)議)服務器提供數(shù)據(jù)的安全存儲服務,在部署數(shù)據(jù)時提供數(shù)據(jù)下載客戶端服務,管理本地物理節(jié)點信息管理服務。其資源管理表見表5。
節(jié)點代理服務(Node Agent Service)一般部署在GridFTP(網(wǎng)格文件傳輸協(xié)議)服務器里,主要由文件管理代理、磁盤空間管理、帶寬統(tǒng)計、帶寬管理及合理帶寬預測幾個組成。(也就是說,數(shù)據(jù)文件獲取服務模塊2.1中的計算帶寬的方案實際是由節(jié)點機上的節(jié)點代理服務完成的)文件管理代理實現(xiàn)對文件的查詢、創(chuàng)建、QoS傳輸和刪除。帶寬統(tǒng)計主要完成對目前使用帶寬的統(tǒng)計。帶寬管理完成對帶寬申請的處理、帶寬的分配和回收。合理帶寬預測根據(jù)系統(tǒng)目前的狀況,動態(tài)對節(jié)點機所能提供帶寬閾值進行評估,以更接近真實的帶寬評估答復下一次帶寬申請。一般而言,節(jié)點代理服務器與GridFTP(網(wǎng)格文件傳輸協(xié)議)傳輸服務模塊3.2應當同處一臺節(jié)點機上,但對此本系統(tǒng)不做強行的限制。目前對該服務的實現(xiàn)主要集中于文件查詢代理、文件傳輸執(zhí)行代理、帶寬管理、磁盤空間管理幾個組成,對應NodeAgent服務的節(jié)點資源部分。
存儲服務器組有兩種工作模式數(shù)據(jù)發(fā)布模式和數(shù)據(jù)獲取模式。數(shù)據(jù)發(fā)布模式是用于用戶將具有實時服務質(zhì)量(這個“實時”是指支持多復本并行獲取的意思)的數(shù)據(jù)文件存儲于數(shù)據(jù)平臺上的過程,以便于實時獲取(即多復本并行獲取)。數(shù)據(jù)獲取是用戶向存儲服務器組提出實時獲取數(shù)據(jù)文件的要求并獲得以軟實時要求數(shù)據(jù)傳輸(基于多復本的并行傳輸)的過程。
所有加入存儲服務器組的數(shù)據(jù)存儲服務器(即節(jié)點機)通過系統(tǒng)狀態(tài)注冊向存儲服務器組的信息和服務質(zhì)量保證合同(Service Level Agreement)進行注冊(即寫機器貢獻表);注冊內(nèi)容包括節(jié)點機的存儲空間、網(wǎng)絡帶寬以及對文件傳輸服務的質(zhì)量描述信息(靜態(tài)SLA)。
本發(fā)明的高層服務封裝設計符合網(wǎng)格服務(grid service)和web服務(webservice)規(guī)范,保證了平臺的實現(xiàn)細節(jié)對應用的透明性和易用性;廣域網(wǎng)范圍內(nèi)的多數(shù)據(jù)復本并行傳輸機制實現(xiàn)了軟實時的服務質(zhì)量的保障;客戶端智能代理透明的完成數(shù)據(jù)傳輸時間服務質(zhì)量監(jiān)控,進行并行調(diào)度;靈活的數(shù)據(jù)管理策略將數(shù)據(jù)文件描述、物理數(shù)據(jù)復本和物理機器獨立管理。
GridFTP(網(wǎng)格文件傳輸協(xié)議)傳輸服務模塊3.2(GridFTP(網(wǎng)格文件傳輸協(xié)議)Server)是整個系統(tǒng)的信息宿主,它由標準GridFTP(網(wǎng)格文件傳輸協(xié)議)服務器、數(shù)據(jù)文件、共享用戶和共享目錄組成。其中GridFTP(網(wǎng)格文件傳輸協(xié)議)負責提供文件傳輸服務以及客戶的身份認證信息。數(shù)據(jù)文件是傳輸過程的操作源數(shù)據(jù)。共享用戶是指開放GridFTP(網(wǎng)格文件傳輸協(xié)議)的主機宿主用戶,它把文件請求映射成自身的用戶文件請求。共享目錄是指共享用戶為該平臺開放的用于存放數(shù)據(jù)文件的目錄。在目前的結構中,它是由標準的GridFTP(網(wǎng)格文件傳輸協(xié)議)服務器組成,雖然可以適應沒有GridFTP(網(wǎng)格文件傳輸協(xié)議)擴展的普通FTP服務器,這樣應該而且肯定適應面更廣,但由于其認證過程則不受Globus CA系統(tǒng)的約束且不能遵照GridFTP(網(wǎng)格文件傳輸協(xié)議)的認證授權體系進行文件訪問授權,故此沒有采用。一般而言,為一個GridFTP(網(wǎng)格文件傳輸協(xié)議)傳輸服務模塊(3.2)列出一個用戶以提供GridFTP(網(wǎng)格文件傳輸協(xié)議)服務,并把其$HOME目錄或是“/tmp/username”目錄做為其共享文件的根目錄,以后來的敘述中稱這個目錄為共享目錄“$FtpRoot”。具體的配置可以參照wu-ftpd的相關配置,這里不多贅述數(shù)據(jù)文件存放到“$FtpRoot/$NameSpaceIP/$VersionNo/$LogicalName”,這樣比較有利于文件的組織。
通過對本發(fā)明進行了性能評測,可以得出,其數(shù)據(jù)傳輸質(zhì)量控制模塊可以正確、有效地控制文件傳輸帶寬以及整個傳輸過程。在分片傳輸過程中,多個服務器相以相互協(xié)作,共同實現(xiàn)文件傳輸。隨著被傳輸文件的增大,文件的實際傳輸時間與理論傳輸時間也越來越接近,可以認為并行分片傳輸達到了良好的傳輸效果。
同時本發(fā)明也具有良好的容錯性能,本系統(tǒng)可以在傳輸過程多次出錯的情況下仍可以將傳輸正常執(zhí)行結束,且其負載是一個可以預料的值,因而本系統(tǒng)實現(xiàn)的文件可容錯輸可以正常工作,達到了預期的性能。
表1 各節(jié)點的硬件及網(wǎng)絡配置
表2 節(jié)點機系統(tǒng)資源(機器貢獻表)
表3 數(shù)據(jù)文件描述表
表4 數(shù)據(jù)文件發(fā)布部署管理表
表5 本地資源管理表
表6 物理文件副本管理表
權利要求
1.一種基于多副本的具有質(zhì)量保證的網(wǎng)格數(shù)據(jù)傳輸系統(tǒng),其特征在于該系統(tǒng)包括數(shù)據(jù)傳輸客戶端組(1)、索引服務器組(2)、存儲服務器組(3)和認證服務器組(4);數(shù)據(jù)傳輸客戶端組(1)在上載數(shù)據(jù)到系統(tǒng)時,申請數(shù)據(jù)發(fā)布部署方案并請求索引服務器組(2)執(zhí)行此方案;在平臺下載數(shù)據(jù)時,實時獲取所需數(shù)據(jù);向索引服務服務組(2)提出實時數(shù)據(jù)請求描述,包括數(shù)據(jù)文件邏輯描述,傳輸服務質(zhì)量要求;接收索引服務服務組(2)提供的數(shù)據(jù)傳輸方案,組織要獲取的數(shù)據(jù)從多點并行獲?。徊?shù)據(jù)傳輸?shù)膶崟r服務質(zhì)量進行監(jiān)控和報告錯誤;進行數(shù)據(jù)傳輸重組;索引服務器組(2)用于對存儲服務器組的系統(tǒng)信息和服務質(zhì)量保證合同進行注冊和監(jiān)控;存儲服務器組(3)根據(jù)數(shù)據(jù)傳輸客戶端組(1)生成的數(shù)據(jù)發(fā)布方案產(chǎn)生發(fā)布表項并控制數(shù)據(jù)傳輸,生成多個物理復本;認證服務器組(4)用于驗證數(shù)據(jù)傳輸客戶端(1)和存儲服務器組(3)的身份,進行證書的簽發(fā)和認證。
2.根據(jù)權利要求1所述的網(wǎng)格數(shù)據(jù)傳輸系統(tǒng),其特征在于數(shù)據(jù)傳輸客戶端組(1)由i個用于并行處理多個用戶請求的客戶端(A)組成,i≥1;客戶端(A)包括用戶傳輸接口模塊(1.1)、傳輸項目組織模塊(1.2)、反饋匯報和控制模塊(1.3)、網(wǎng)格文件傳輸協(xié)議資源池模塊(1.4)、網(wǎng)格文件傳輸協(xié)議客戶端實例工廠模塊(1.5)、傳輸檢測控制模塊(1.6)、重傳支持模塊(1.7)和客戶端傳輸代理模塊(1.8);其中,其中,用戶傳輸接口模塊(1.1)用于接收到外界數(shù)據(jù),并傳數(shù)據(jù)到傳輸項目組織模塊(1.2),傳輸項目組織模塊(1.2)組織傳輸項目處理數(shù)據(jù)傳輸和進行數(shù)據(jù)傳輸任務分塊,將已分好的數(shù)據(jù)傳輸任務塊傳到GridFTP資源池模塊(1.4);GridFTP資源池模塊(1.4)為數(shù)據(jù)傳輸提供物理文件服務資源池,在服務資源池上通過GridFTP客戶端實例工廠模塊(1.5)產(chǎn)生的客戶端實例,這個過程由GSI認證客戶端模塊3.3進行認證,由客戶端傳輸代理模塊(1.8)調(diào)用其內(nèi)的索引服務并獲取傳輸任務需要的各種服務等級協(xié)議信息和可用資源信息,執(zhí)行傳輸任務;傳輸項目組織模塊(1.2)調(diào)用實時服務等級協(xié)議反饋匯報和控制模塊(1.3)接收與分析傳輸?shù)姆答佇畔?,向索引服務器組(2)中的物理節(jié)點信息管理服務模塊(2.5)匯報對服務等級協(xié)議的執(zhí)行情況,當有傳輸錯誤發(fā)生時,將錯誤類別傳給重傳支持模塊(1.7),其通過錯誤類別組織數(shù)據(jù)重傳,在重傳過程中傳輸檢測控制模塊(1.6)對重傳支持模塊(1.7)進行檢測與控制。
3.根據(jù)權利要求1或2所述的網(wǎng)格數(shù)據(jù)傳輸系統(tǒng),其特征在于索引服務器組(2)由k個用于并行處理多個用戶請求的索引服務器(B)組成,其中,k≥1;索引服務器(B)包括數(shù)據(jù)文件獲取服務模塊(2.1)、數(shù)據(jù)文件發(fā)布注冊服務模塊(2.2)、數(shù)據(jù)文件描述服務和發(fā)布服務模塊(2.3)、物理文件映射服務模塊(2.4)和物理節(jié)點信息管理服務模塊(2.5);其中,文件獲取服務模塊(2.1)用于接收數(shù)據(jù)獲取請求,并調(diào)用數(shù)據(jù)文件描述服務模塊(2.3)查找描述信息,并獲取描述返回給文件獲取服務模塊(2.1),文件獲取服務模塊(2.1)將文件的描述信息傳給物理文件映射服務模塊(2.4),通過文件描述信息查找文件發(fā)布信息返回文件獲取服務模塊(2.1);數(shù)據(jù)文件發(fā)布服務模塊(2.2)用于接收數(shù)據(jù)發(fā)布和部署請求,并向邏輯文件描述和發(fā)布服務模塊(2.3)查詢注冊信息,邏輯文件描述和發(fā)布服務模塊(2.3)完成數(shù)據(jù)文件描述的注冊和數(shù)據(jù)發(fā)布的申請;同時數(shù)據(jù)文件發(fā)布服務模塊(2.2)通過調(diào)用物理節(jié)點信息管理服務模塊(2.5),為請求分配副本存儲資源形成發(fā)布方案,物理文件映射服務模塊(2.4)完成物理文件同邏輯發(fā)布映射綁定,執(zhí)行發(fā)布方案。
4.根據(jù)權利要求3所述的網(wǎng)格數(shù)據(jù)傳輸系統(tǒng),其特征在于存儲服務器組(3)由m個用于并行處理多個用戶請求的存儲服務器(C)組成,其中,m≥1;存儲服務器(C)采用網(wǎng)格文件傳輸協(xié)議服務,包括節(jié)點代理服務模塊(3.1)、網(wǎng)格文件傳輸協(xié)議傳輸服務模塊(3.2)、網(wǎng)格安全服務接口認證客戶端模塊(3.3),節(jié)點代理服務模塊(3.1)代理在數(shù)據(jù)發(fā)布時使用的用來獲取數(shù)據(jù)的數(shù)據(jù)傳輸客戶端、本地網(wǎng)絡和存儲資源的獲取接口,網(wǎng)格安全服務接口認證客戶端模塊(3.3)完成同外部訪問點的安全交互認證和加密傳輸數(shù)據(jù),將加密的數(shù)據(jù)傳給網(wǎng)格文件傳輸協(xié)議傳輸服務模塊(3.2);網(wǎng)格文件傳輸協(xié)議傳輸服務模塊(3.2)用于接收的數(shù)據(jù)進行傳輸服務。
5.根據(jù)權利要求4所述的網(wǎng)格數(shù)據(jù)傳輸系統(tǒng),其特征在于認證服務器組(4)由w個用于并行處理多個用戶請求的認證服務器(D)組成,其中,w≥1;認證服務器D包括網(wǎng)格安全服務接口客戶端安全組件。
全文摘要
本發(fā)明公開了一種基于多副本的具有質(zhì)量保證的網(wǎng)格數(shù)據(jù)傳輸系統(tǒng),該系統(tǒng)包括數(shù)據(jù)傳輸客戶端組、索引服務器組、存儲服務器組和認證服務器組。索引服務器組對存儲服務器組的系統(tǒng)信息和服務質(zhì)量保證合同進行注冊和監(jiān)控;存儲服務器組根據(jù)客戶端組生成的數(shù)據(jù)發(fā)布方案產(chǎn)生發(fā)布表項并控制數(shù)據(jù)傳輸,生成物理復本;認證服務器組驗證客戶端和存儲服務器組的身份,進行證書簽發(fā)認證。本發(fā)明均遵循OGSA標準,以網(wǎng)格服務的方式對外發(fā)布,獲得網(wǎng)格服務的特點,具有高可用性、可伸縮性和高性價比。各個服務松散耦合,提高平臺的總體可靠性。本系統(tǒng)采用PKI/CA安全機制,提供了一種廣域范圍內(nèi)可擴展的安全認證機制,將數(shù)據(jù)安全擴展到數(shù)據(jù)傳輸層。
文檔編號H04L9/00GK1997013SQ200610125570
公開日2007年7月11日 申請日期2006年12月22日 優(yōu)先權日2006年12月22日
發(fā)明者金海 , 袁平鵬, 黃莉, 毛峰, 狄盛, 孫盛, 袁世倫, 李昌清, 李艷霞, 史欽 申請人:華中科技大學