一種基于云計算的大規(guī)模圖數(shù)據(jù)處理及分析技術(shù)的制作方法
【專利摘要】本發(fā)明屬于計算機應(yīng)用【技術(shù)領(lǐng)域】,是一種基于云計算的大規(guī)模圖數(shù)據(jù)處理及分析技術(shù)。包括:服務(wù)申請系統(tǒng)、數(shù)據(jù)提交系統(tǒng)、圖數(shù)據(jù)庫管理系統(tǒng)、圖數(shù)據(jù)離線計算平臺、圖數(shù)據(jù)可視化系統(tǒng)以及圖數(shù)據(jù)計算結(jié)果展示系統(tǒng)。本發(fā)明適用于通過云計算服務(wù)平臺向互聯(lián)網(wǎng)用戶提供大規(guī)模圖數(shù)據(jù)計算服務(wù)的應(yīng)用場景。
【專利說明】一種基于云計算的大規(guī)模圖數(shù)據(jù)處理及分析技術(shù)
[0001]一、【技術(shù)領(lǐng)域】
本發(fā)明屬于計算機應(yīng)用【技術(shù)領(lǐng)域】,是一種基于云計算的大規(guī)模圖數(shù)據(jù)處理及分析技術(shù)。主要包括:服務(wù)申請系統(tǒng)、數(shù)據(jù)提交系統(tǒng)、圖數(shù)據(jù)庫管理系統(tǒng)、圖數(shù)據(jù)離線計算平臺、圖數(shù)據(jù)可視化系統(tǒng)以及圖數(shù)據(jù)計算結(jié)果展示系統(tǒng)。本發(fā)明適用于通過云計算服務(wù)平臺向互聯(lián)網(wǎng)用戶提供大規(guī)模圖數(shù)據(jù)計算服務(wù)的應(yīng)用場景。
[0002]二、【背景技術(shù)】
隨著信息技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及,數(shù)據(jù)呈爆炸式增長,尤其是近年來社交網(wǎng)絡(luò)的快速發(fā)展使得圖數(shù)據(jù)急劇增長。云計算技術(shù)的提出與發(fā)展為大規(guī)模數(shù)據(jù)的處理開辟了新的路徑。云計算平臺能夠向用戶提供強大的計算服務(wù),用戶僅通過Web瀏覽器便可進行計算服務(wù)申請,然后上傳數(shù)據(jù),最終由平臺反饋數(shù)據(jù)處理結(jié)果。目前尚未有專門為大規(guī)模圖數(shù)據(jù)提供計算服務(wù)的云平臺,無法滿足一些某些大規(guī)模圖數(shù)據(jù)擁有者對圖計算能力的需求。
[0003]三、
【發(fā)明內(nèi)容】
(一)本申請?zhí)岚敢鉀Q的技術(shù)問題
一種基于云計算的大規(guī)模圖數(shù)據(jù)處理及分析技術(shù),主要特征包括:服務(wù)申請系統(tǒng)、數(shù)據(jù)提交系統(tǒng)、圖數(shù)據(jù)庫管理系統(tǒng)、圖數(shù)據(jù)離線計算平臺、圖數(shù)據(jù)可視化系統(tǒng)以及圖數(shù)據(jù)計算結(jié)果展示系統(tǒng)。通過該技術(shù),用戶可以輕松獲得強大的圖數(shù)據(jù)計算服務(wù),并根據(jù)服務(wù)申請類型獲得相應(yīng)的結(jié)果展示。
[0004](二)簡要說明欲保護的關(guān)鍵點及對應(yīng)的技術(shù)效果
關(guān)鍵點1,數(shù)據(jù)傳輸協(xié)議。用戶提交數(shù)據(jù)后,系統(tǒng)自動對數(shù)據(jù)進行加密傳輸。由于圖數(shù)據(jù)一般較大,因此會對數(shù)據(jù)進行分割,分別提交。每部分傳輸結(jié)束后都會在服務(wù)器端進行校驗,以保證傳輸?shù)目煽啃浴1景l(fā)明提供兩種傳輸方式:一是通過Web瀏覽器進行提交,該方式無需下載客戶端,方便簡單,但傳輸速度較慢,適用于數(shù)據(jù)量小的圖數(shù)據(jù);二是通過數(shù)據(jù)傳輸客戶端提交數(shù)據(jù),該方式需要安裝專門的數(shù)據(jù)傳輸客戶端,數(shù)據(jù)傳輸較為快捷,適用于大圖數(shù)據(jù)的傳輸。當數(shù)據(jù)處理完畢時,用戶可以通過下載或者在線瀏覽的方式查看結(jié)果,數(shù)據(jù)傳輸過程同樣經(jīng)過加密傳輸。
[0005]技術(shù)效果:數(shù)據(jù)傳輸協(xié)議能夠保證大規(guī)模圖數(shù)據(jù)處理結(jié)果在服務(wù)器和客戶端之間高速、安全的傳輸。
[0006]關(guān)鍵點2,圖數(shù)據(jù)格式化方法。由于圖數(shù)據(jù)一般以某些結(jié)構(gòu)化方式或是文本方式存儲在用戶本地文件系統(tǒng)中,在圖數(shù)據(jù)上傳之前,系統(tǒng)提供數(shù)據(jù)格式化方法,具體有兩種方式:一是用戶指定XML格式的元數(shù)據(jù)文件,該文件以結(jié)構(gòu)化方式規(guī)定圖的頂點和邊的值及其它屬性值等;二是向用戶開放MapReduce計算服務(wù)接口,用戶通過上傳自定義MapReduce方法在服務(wù)器端將圖數(shù)據(jù)進行格式化。
[0007]技術(shù)效果:圖數(shù)據(jù)格式化方法能夠保證用戶提交的圖數(shù)據(jù)能夠在離線計算系統(tǒng)、圖數(shù)據(jù)管理系統(tǒng)、圖數(shù)據(jù)可視化系統(tǒng)中正確地計算、存儲和展現(xiàn)。
[0008]關(guān)鍵點3,圖數(shù)據(jù)可視化服務(wù)。本發(fā)明提供圖數(shù)據(jù)可視化服務(wù),用戶可通過服務(wù)申請系統(tǒng)指定可視化服務(wù)。具體實現(xiàn)方法是利用圖數(shù)據(jù)管理系統(tǒng)的在線查詢支持,得到用戶查詢的頂點、邊以及它們的屬性值,通過可視化插件在web瀏覽器向用戶展示查詢結(jié)果。用戶通過查詢語言可以獲取任意部分的圖數(shù)據(jù)信息,并通過可視化功能對數(shù)據(jù)執(zhí)行簡單的在線分析等功能。
[0009]技術(shù)效果:圖數(shù)據(jù)可視化服務(wù)能夠向用戶提供更為豐富的計算結(jié)果展現(xiàn)方式,并提供簡單的在線計算,以進行二次分析。
[0010]關(guān)鍵點4,圖數(shù)據(jù)庫與計算平臺的交互方法。圖數(shù)據(jù)庫主要負責支撐圖數(shù)據(jù)可視化服務(wù),而圖數(shù)據(jù)計算平臺則負責數(shù)據(jù)的高效、準確的離線計算。兩者既可以向用戶提供不同的服務(wù),又可以進行交互:計算平臺可以利用圖數(shù)據(jù)庫存儲緩存中間計算結(jié)果;圖數(shù)據(jù)庫可以存儲部分計算平臺的計算結(jié)果,向用戶提供更加強大的可視化服務(wù)。
[0011]技術(shù)效果:圖數(shù)據(jù)庫與計算平臺的交互方法能夠保證大規(guī)模圖數(shù)據(jù)的高效處理以及圖數(shù)據(jù)可視化服務(wù)的豐富展現(xiàn)。
[0012](三)總的技術(shù)效果
本發(fā)明具有以下的優(yōu)點和特點:
I)本發(fā)明提出了一種基于云計算的大規(guī)模圖數(shù)據(jù)處理及分析技術(shù),主要包括:服務(wù)申請系統(tǒng)、數(shù)據(jù)提交系統(tǒng)、圖數(shù)據(jù)庫管理系統(tǒng)、圖數(shù)據(jù)離線計算平臺、圖數(shù)據(jù)可視化系統(tǒng)以及圖數(shù)據(jù)計算結(jié)果展示系統(tǒng)。通過該平臺,用戶可以輕松獲得強大的圖數(shù)據(jù)計算服務(wù),并根據(jù)服務(wù)申請類型獲得相應(yīng)的結(jié)果展示。
[0013]2)本發(fā)明提供的云計算服務(wù)的多樣性能夠讓用戶選擇更加適合自己的圖數(shù)據(jù)計算服務(wù)。
[0014]四、【專利附圖】
【附圖說明】
附圖1是“基于云計算的大規(guī)模圖數(shù)據(jù)處理及分析技術(shù)”架構(gòu)示意圖。
[0015]附圖2是圖數(shù)據(jù)處理流程圖。
[0016]附圖3是圖數(shù)據(jù)離線計算方法示意圖。
[0017]五、【具體實施方式】
下面結(jié)合附圖與【具體實施方式】對本發(fā)明作進一步詳細描述。
[0018]本發(fā)明提供的一種基于云計算的大規(guī)模圖數(shù)據(jù)處理及分析技術(shù),包括六個組成部分:服務(wù)申請系統(tǒng)、數(shù)據(jù)提交系統(tǒng)、圖數(shù)據(jù)庫管理系統(tǒng)、圖數(shù)據(jù)離線計算平臺、圖數(shù)據(jù)可視化系統(tǒng)以及圖數(shù)據(jù)計算結(jié)果展示系統(tǒng)。如圖1所示。
[0019]服務(wù)申請系統(tǒng)負責向用戶提供個性化和多樣化的計算服務(wù)選擇,包括選擇進行哪種圖數(shù)據(jù)處理算法、數(shù)據(jù)處理結(jié)果的展現(xiàn)方式以及所需的計算能力等;當用戶提交服務(wù)申請后,服務(wù)申請系統(tǒng)向后臺發(fā)送命令配置計算環(huán)境并開啟數(shù)據(jù)傳輸服務(wù)。
[0020]圖數(shù)據(jù)庫管理系統(tǒng)將圖數(shù)據(jù)以NoSql的方式存儲,目的是支持高效的圖數(shù)據(jù)在線查詢,解決傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在圖數(shù)據(jù)查詢方面的不足。
[0021]圖數(shù)據(jù)離線計算平臺則負責對大規(guī)模圖數(shù)據(jù)進行離線計算,采用BSP (BulkSynchronous Parallel Model)計算模型對圖數(shù)據(jù)進行高效的迭代計算,依托云計算平臺的高可用性和可擴展性,發(fā)揮強大的圖數(shù)據(jù)計算能力。
[0022]圖數(shù)據(jù)可視化系統(tǒng)則向用戶進行可視化展現(xiàn):用戶使用圖數(shù)據(jù)查詢語言按照頂點和邊的屬性查詢目的頂點和邊,使圖數(shù)據(jù)有更加直觀的展現(xiàn)。
[0023]圖數(shù)據(jù)計算結(jié)果展示系統(tǒng)向用戶數(shù)據(jù)處理結(jié)果的原始展現(xiàn),用戶可通過下載或者在線瀏覽的方式查看。
[0024]圖數(shù)據(jù)提交系統(tǒng)、圖數(shù)據(jù)可視化以及圖數(shù)據(jù)計算結(jié)果展現(xiàn)均通過客戶端與用戶進行交互,圖數(shù)據(jù)庫管理系統(tǒng)和圖數(shù)據(jù)離線計算平臺則負責數(shù)據(jù)的存儲和計算。
[0025]客戶端則支持B/S和C/S兩種方式,B/S方式下為Web瀏覽器,如IE、Firefox、Opera等,C/S方式則為應(yīng)用程序。
[0026]本發(fā)明中,大規(guī)模圖數(shù)據(jù)處理及分析包括以下幾個步驟。如圖2所示。
[0027]步驟S2.1:用戶通過客戶端向圖數(shù)據(jù)處理平臺申請相應(yīng)計算服務(wù)。
[0028]步驟S2.2:用戶通過客戶端向圖數(shù)據(jù)處理平臺傳送圖數(shù)據(jù)和元數(shù)據(jù)文件。
[0029]步驟S2.3:系統(tǒng)根據(jù)元數(shù)據(jù)文件將圖數(shù)據(jù)進行格式化處理,并根據(jù)用戶申請的服務(wù)類型和元數(shù)據(jù)文件判斷將數(shù)據(jù)存儲在云平臺文件系統(tǒng)或圖數(shù)據(jù)管理系統(tǒng)中。
[0030]步驟S2.4:圖數(shù)據(jù)離線計算平臺根據(jù)配置文件選擇平臺機器啟動離線計算。
[0031]步驟S2.5:離線計算過程中與圖數(shù)據(jù)管理系統(tǒng)發(fā)生數(shù)據(jù)交互。
[0032]步驟S2.6:離線計算完畢,向圖數(shù)據(jù)管理系統(tǒng)以及圖數(shù)據(jù)計算結(jié)果展示系統(tǒng)傳送計算結(jié)果。
[0033]步驟S2.7:用戶通過客戶端獲得離線計算結(jié)果,也可通過可視化方式獲得個性化的結(jié)果展示。
[0034]本發(fā)明中,離線計算平臺計算方法如圖3所示
圖數(shù)據(jù)離線計算方法采用面向節(jié)點(Vertex-Oriented)的思想,即將圖數(shù)據(jù)中每一個節(jié)點作為計算中心,例如當前的活躍節(jié)點Vl和V2 ;
在每一輪迭代過程中,活躍的計算節(jié)點都會經(jīng)歷信息收集、信息計算、信息更新三個階
段;
位于不同機器上的兩節(jié)點的交互采用①建立副本或者②消息傳遞機制來保證,具體的使用方式將依據(jù)圖數(shù)據(jù)特點以及相應(yīng)算法的特性來選擇。
[0035]如上所述,利用基于云計算的大規(guī)模圖數(shù)據(jù)處理及分析技術(shù),可以實現(xiàn)向用戶提供強大的大規(guī)模圖數(shù)據(jù)計算服務(wù)。
[0036]以上所述,僅為本發(fā)明的實施步驟描述,并非用于限定本發(fā)明的保護范圍。
【權(quán)利要求】
1.一種基于云計算的大規(guī)模圖數(shù)據(jù)處理及分析技術(shù),主要特征包括:服務(wù)申請系統(tǒng)、數(shù)據(jù)提交系統(tǒng)、圖數(shù)據(jù)庫管理系統(tǒng)、圖數(shù)據(jù)離線計算平臺、圖數(shù)據(jù)可視化系統(tǒng)以及圖數(shù)據(jù)計算結(jié)果展示系統(tǒng),通過本發(fā)明,用戶可以輕松獲得強大的圖數(shù)據(jù)計算服務(wù),并根據(jù)服務(wù)申請類型獲得相應(yīng)的結(jié)果展示。
2.如上述權(quán)利要求1所述的方案,它包含了數(shù)據(jù)傳輸協(xié)議,基于該協(xié)議,能夠保證大規(guī)模圖數(shù)據(jù)處理結(jié)果在服務(wù)器和客戶端之間高速、安全的傳輸。
3.如上述權(quán)利要求1所述的方案,它包含了圖數(shù)據(jù)格式化方法,該方法能夠保證用戶提交的圖數(shù)據(jù)能夠在離線計算系統(tǒng)、圖數(shù)據(jù)管理系統(tǒng)、圖數(shù)據(jù)可視化系統(tǒng)中正確地計算、存儲和展現(xiàn)。
4.如上述權(quán)利要求1所述的方案,它包含了圖數(shù)據(jù)可視化服務(wù),能夠向用戶提供更為豐富的計算結(jié)果展現(xiàn)方式,并提供簡單的在線計算,以進行二次分析。
5.如上述權(quán)利要求1所述的方案,它包含了圖數(shù)據(jù)庫與計算平臺的交互方法,該方法能夠保證大規(guī)模圖數(shù)據(jù)的高效處理以及圖數(shù)據(jù)可視化服務(wù)的豐富展現(xiàn)。
6.如上述權(quán)利要求1所述的方案,它包含了圖數(shù)據(jù)離線計算方法,該方法能夠保證根據(jù)圖數(shù)據(jù)的特點以及算法特性選取最佳的計算模式。
【文檔編號】H04L29/08GK103780704SQ201410057204
【公開日】2014年5月7日 申請日期:2014年2月20日 優(yōu)先權(quán)日:2014年2月20日
【發(fā)明者】馬永征, 李偉, 謝瑋, 南凱 申請人:中國科學院計算機網(wǎng)絡(luò)信息中心