多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng),包括:多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)、多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)、多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)。多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)包括數(shù)據(jù)管理模塊、資源監(jiān)控與管理模塊、檢索索引模塊,用于控制、協(xié)調(diào)整個(gè)存取架構(gòu)系統(tǒng)。多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)包括非結(jié)構(gòu)化文件緩存模塊、內(nèi)存數(shù)據(jù)庫(kù)模塊、延遲寫入模塊,用于提供異構(gòu)數(shù)據(jù)的高效快速讀取。多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)包括非結(jié)構(gòu)化數(shù)據(jù)處理模塊、結(jié)構(gòu)化數(shù)據(jù)處理模塊、分布式文件系統(tǒng),用于實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的高效匯聚存儲(chǔ)。本發(fā)明可有效解決物聯(lián)網(wǎng)海量數(shù)據(jù)環(huán)境下存儲(chǔ)效率低,數(shù)據(jù)缺乏匯聚管理的問題。
【專利說明】多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種系統(tǒng)架構(gòu),具體涉及一種物聯(lián)網(wǎng)的多源異構(gòu)數(shù)據(jù)高效匯聚存取的基本架構(gòu)。屬于物聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)的【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]目前隨著物聯(lián)網(wǎng)技術(shù)的高速發(fā)展,各種終端、基礎(chǔ)采集設(shè)備的數(shù)量和種類不斷增力口,每時(shí)每刻都會(huì)產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)種類繁多,分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的分布式文件存儲(chǔ)系統(tǒng),在物聯(lián)網(wǎng)海量數(shù)據(jù)環(huán)境下存儲(chǔ)效率低,數(shù)據(jù)缺乏匯聚管理。迫切需要一種新的物聯(lián)網(wǎng)多源異構(gòu)數(shù)據(jù)存儲(chǔ)的基本架構(gòu),實(shí)現(xiàn)海量異構(gòu)數(shù)據(jù)的高效快速的匯聚與存取。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在于針對(duì)當(dāng)前多源異構(gòu)數(shù)據(jù)存儲(chǔ)的高效快速存儲(chǔ)需求,提供一種多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng)。本發(fā)明采用的技術(shù)方案是:
一種多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng),包括:
多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)、多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)、多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng);
多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)包括三個(gè)模塊:數(shù)據(jù)管理模塊、資源監(jiān)控與管理模塊、檢索索引模塊;
多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)包括三個(gè)模塊:非結(jié)構(gòu)化文件緩存模塊、內(nèi)存數(shù)據(jù)庫(kù)模塊、延遲與入|旲塊;
多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)包括非結(jié)構(gòu)化數(shù)據(jù)處理模塊、結(jié)構(gòu)化數(shù)據(jù)處理模塊、分布式文件系統(tǒng);其中非結(jié)構(gòu)化數(shù)據(jù)處理模塊包括文件拆分子模塊、文件組合子模塊、文件驗(yàn)證子模塊;結(jié)構(gòu)化數(shù)據(jù)處理模塊包括:文件生成子模塊、文件管理子模塊;
多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)用于控制、協(xié)調(diào)整個(gè)存取架構(gòu)系統(tǒng);其中的數(shù)據(jù)管理模塊負(fù)責(zé)多源異構(gòu)數(shù)據(jù)上傳、數(shù)據(jù)下載、數(shù)據(jù)修改以及對(duì)應(yīng)用層的API支持;資源監(jiān)控與管理模塊負(fù)責(zé)監(jiān)控多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)和多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)的資源使用情況,當(dāng)這兩個(gè)子系統(tǒng)中的物理緩存資源或物理存儲(chǔ)資源出現(xiàn)異?;蛘呔o缺時(shí)進(jìn)行預(yù)警;檢索索引模塊用于提供多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)與多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)內(nèi)的數(shù)據(jù)存取索引;
多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)用于提供異構(gòu)數(shù)據(jù)的高效快速讀??;其中的非結(jié)構(gòu)化文件緩存模塊利用高速緩存及最近最不常用算法來加速應(yīng)用層對(duì)非結(jié)構(gòu)化數(shù)據(jù)的讀取過程;內(nèi)存數(shù)據(jù)庫(kù)模塊利用高速緩存來使得結(jié)構(gòu)化數(shù)據(jù)在內(nèi)存中進(jìn)行操作;延遲寫入模塊將高速緩存中已經(jīng)修改的文件按照設(shè)定的規(guī)則延遲后寫入分布式文件系統(tǒng)中;
多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)用于實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的高效匯聚存儲(chǔ);其中的非結(jié)構(gòu)化數(shù)據(jù)處理模塊通過文件拆分子模塊來對(duì)大容量的單個(gè)非結(jié)構(gòu)化文件進(jìn)行拆分,并存入分布式文件系統(tǒng)中;通過文件組合子模塊與文件驗(yàn)證子模塊來對(duì)分布式文件系統(tǒng)中拆分后的數(shù)據(jù)塊進(jìn)行組合;結(jié)構(gòu)化數(shù)據(jù)處理模塊通過文件生成子模塊與文件管理子模塊,來對(duì)結(jié)構(gòu)化的數(shù)據(jù)表按照設(shè)定的規(guī)則進(jìn)行XML文件轉(zhuǎn)換,并將轉(zhuǎn)換后的XML文件存入分布式文件系統(tǒng)中。
[0004]進(jìn)一步地,所述存取架構(gòu)系統(tǒng)進(jìn)行多源異構(gòu)數(shù)據(jù)高效匯聚存取時(shí):
多源異構(gòu)數(shù)據(jù)從應(yīng)用層通過多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)的數(shù)據(jù)管理模塊進(jìn)入系統(tǒng)后,根據(jù)不同的數(shù)據(jù)結(jié)構(gòu)特征,即按照非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)分別被多源異構(gòu)數(shù)據(jù)匯聚子系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù)處理模塊和結(jié)構(gòu)化數(shù)據(jù)處理模塊讀取,并進(jìn)行相應(yīng)的數(shù)據(jù)處理后,送入分布式文件系統(tǒng)中;
當(dāng)應(yīng)用層需要數(shù)據(jù)時(shí),發(fā)送指令給數(shù)據(jù)管理模塊,該模塊調(diào)用檢索索引模塊來根據(jù)文件標(biāo)識(shí)號(hào)或關(guān)鍵字遍歷多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)中的非結(jié)構(gòu)化文件緩存模塊和內(nèi)存數(shù)據(jù)庫(kù)模塊,當(dāng)發(fā)現(xiàn)沒有找到所需數(shù)據(jù)后,數(shù)據(jù)管理模塊發(fā)送指令給分布式文件系統(tǒng),從中尋找到所需的源數(shù)據(jù),在經(jīng)過數(shù)據(jù)組合或XML文件轉(zhuǎn)換后,分別傳輸至多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)中的非結(jié)構(gòu)化文件緩存模塊或內(nèi)存數(shù)據(jù)庫(kù)模塊中,之后通過數(shù)據(jù)管理模塊傳輸至應(yīng)用層;
當(dāng)應(yīng)用層再次需要該數(shù)據(jù)時(shí),數(shù)據(jù)管理模塊從非結(jié)構(gòu)化文件緩存模塊和內(nèi)存數(shù)據(jù)庫(kù)模塊中直接調(diào)取至應(yīng)用層;
應(yīng)用層需要對(duì)所取數(shù)據(jù)進(jìn)行改寫時(shí),通過數(shù)據(jù)管理模塊對(duì)非結(jié)構(gòu)化文件緩存模塊或內(nèi)存數(shù)據(jù)庫(kù)中的相應(yīng)數(shù)據(jù)進(jìn)行更改;如果是結(jié)構(gòu)化數(shù)據(jù)的改寫,將數(shù)據(jù)改寫過程通過日志方式存放在延遲寫入模塊中;如果是非結(jié)構(gòu)化數(shù)據(jù)的改寫,將數(shù)據(jù)改寫過程通過臨時(shí)文件的方式存放在延遲寫入模塊中;應(yīng)用層能夠通過延遲寫入模塊對(duì)所需數(shù)據(jù)進(jìn)行多次寫入更新,通過非結(jié)構(gòu)化文件緩存模塊或內(nèi)存數(shù)據(jù)庫(kù),能夠?qū)⒃摂?shù)據(jù)的寫入和讀取速度加速;經(jīng)過一個(gè)時(shí)間周期后,延遲寫入模塊將修改后的數(shù)據(jù)送入分布式文件系統(tǒng)中,進(jìn)行最終的數(shù)據(jù)更新。
[0005]本發(fā)明的優(yōu)點(diǎn):本發(fā)明提供了一種科學(xué)合理的存取架構(gòu),實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)的高效匯聚存儲(chǔ)。有效解決了物聯(lián)網(wǎng)海量數(shù)據(jù)環(huán)境下存儲(chǔ)效率低,數(shù)據(jù)缺乏匯聚管理的問題。
【專利附圖】
【附圖說明】
[0006]圖1為本發(fā)明的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0007]下面結(jié)合具體附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。
[0008]如圖1所示,多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng)框架圖包括三個(gè)子系統(tǒng):多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)、多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)、多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)。多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)包括三個(gè)模塊:數(shù)據(jù)管理模塊、資源監(jiān)控與管理模塊、檢索索引模塊。多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)包括三個(gè)模塊:非結(jié)構(gòu)化文件緩存模塊、內(nèi)存數(shù)據(jù)庫(kù)模塊、延遲寫入模塊。多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)包括非結(jié)構(gòu)化數(shù)據(jù)處理模塊、結(jié)構(gòu)化數(shù)據(jù)處理模塊、分布式文件系統(tǒng),其中非結(jié)構(gòu)化數(shù)據(jù)處理模塊包括文件拆分子模塊、文件組合子模塊、文件驗(yàn)證子模塊;結(jié)構(gòu)化數(shù)據(jù)處理模塊包括:文件生成子模塊、文件管理子模塊。
[0009]多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)的功能為控制、協(xié)調(diào)整個(gè)存取架構(gòu)系統(tǒng)。其中的數(shù)據(jù)管理模塊的主要功能是負(fù)責(zé)多源異構(gòu)數(shù)據(jù)上傳、數(shù)據(jù)下載、數(shù)據(jù)修改以及對(duì)應(yīng)用層的API(Application Programming Interface,應(yīng)用程序編程接口)支持,是一個(gè)總控模塊。數(shù)據(jù)上傳功能將應(yīng)用層提交的數(shù)據(jù)上傳到多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)內(nèi),并根據(jù)數(shù)據(jù)特結(jié)構(gòu)征進(jìn)行拆分或轉(zhuǎn)換后,進(jìn)入分布式文件系統(tǒng)中。數(shù)據(jù)下載功能將應(yīng)用層請(qǐng)求下載的數(shù)據(jù)返回應(yīng)用層。資源監(jiān)控與管理模塊的主要功能是負(fù)責(zé)監(jiān)控多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)和多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)的資源使用情況,當(dāng)這兩個(gè)子系統(tǒng)中的物理緩存資源或物理存儲(chǔ)資源(如硬盤容量)出現(xiàn)異?;蛘呔o缺時(shí)進(jìn)行預(yù)警。檢索索引模塊主要功能是提供多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)與多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)內(nèi)的數(shù)據(jù)存取索引,以方便應(yīng)用層進(jìn)行數(shù)據(jù)操作。
[0010]多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)的主要功能是提供異構(gòu)數(shù)據(jù)的高效快速讀取。其中非結(jié)構(gòu)化文件緩存模塊主要利用高速緩存(物理內(nèi)存)及最近最不常用算法(LFU)來加速應(yīng)用層對(duì)非結(jié)構(gòu)化數(shù)據(jù)的讀取過程;內(nèi)存數(shù)據(jù)庫(kù)模塊主要利用高速緩存(物理內(nèi)存)來使得結(jié)構(gòu)化數(shù)據(jù)在內(nèi)存中進(jìn)行操作。延遲寫入模塊主要是為了解決數(shù)據(jù)多租戶寫入后的數(shù)據(jù)與多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)的同步問題,將高速緩存中已經(jīng)修改的文件按照設(shè)定的規(guī)則延遲后寫入分布式文件系統(tǒng)中。
[0011]多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)的主要功能是實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的高效匯聚存儲(chǔ)。其中非結(jié)構(gòu)化數(shù)據(jù)處理模塊通過文件拆分子模塊來對(duì)大容量的單個(gè)非結(jié)構(gòu)化文件進(jìn)行拆分,并存入分布式文件系統(tǒng)中;通過文件組合子模塊與文件驗(yàn)證子模塊來對(duì)分布式文件系統(tǒng)中拆分后的數(shù)據(jù)塊進(jìn)行組合;由于大多數(shù)非結(jié)構(gòu)化文件的數(shù)據(jù)量很大,不利于高效存儲(chǔ)訪問,通過拆分與組合的操作,來實(shí)現(xiàn)對(duì)任意大小的非結(jié)構(gòu)化數(shù)據(jù)的高效存取。另外結(jié)構(gòu)化數(shù)據(jù)處理模塊通過文件生成子模塊與文件管理子模塊,來對(duì)結(jié)構(gòu)化的數(shù)據(jù)表按照設(shè)定的規(guī)則(t匕如時(shí)間段)進(jìn)行XML文件轉(zhuǎn)換,并將轉(zhuǎn)換后的XML文件存入分布式文件系統(tǒng)中,最終實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的高效匯聚存儲(chǔ)。
[0012]本系統(tǒng)的多源異構(gòu)數(shù)據(jù)高效匯聚存取過程如下:多源異構(gòu)數(shù)據(jù)從應(yīng)用層通過多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)的數(shù)據(jù)管理模塊第一次進(jìn)入系統(tǒng)后,根據(jù)不同的數(shù)據(jù)結(jié)構(gòu)特征,即按照非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)分別被多源異構(gòu)數(shù)據(jù)匯聚子系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù)處理模塊和結(jié)構(gòu)化數(shù)據(jù)處理模塊讀取,并進(jìn)行相應(yīng)的數(shù)據(jù)處理后,送入分布式文件系統(tǒng)中。分布式文件系統(tǒng)可以選用目前比較流行成熟的Swift來部署。
[0013]當(dāng)應(yīng)用層需要數(shù)據(jù)時(shí),發(fā)送指令給數(shù)據(jù)管理模塊,該模塊調(diào)用檢索索引模塊來根據(jù)文件標(biāo)識(shí)號(hào)或關(guān)鍵字遍歷多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)中的非結(jié)構(gòu)化文件緩存模塊和內(nèi)存數(shù)據(jù)庫(kù)模塊,當(dāng)發(fā)現(xiàn)沒有找到所需數(shù)據(jù)后,數(shù)據(jù)管理模塊發(fā)送指令給分布式文件系統(tǒng),從中尋找到所需的源數(shù)據(jù),在經(jīng)過數(shù)據(jù)組合或XML文件轉(zhuǎn)換后,分別傳輸至多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)中的非結(jié)構(gòu)化文件緩存模塊或內(nèi)存數(shù)據(jù)庫(kù)模塊中,之后通過數(shù)據(jù)管理模塊傳輸至應(yīng)用層。
[0014]當(dāng)應(yīng)用層再次需要該數(shù)據(jù)時(shí),數(shù)據(jù)管理模塊將從高速的非結(jié)構(gòu)化文件緩存模塊和內(nèi)存數(shù)據(jù)庫(kù)模塊中直接調(diào)取至應(yīng)用層。
[0015]應(yīng)用層需要對(duì)所取數(shù)據(jù)進(jìn)行改寫時(shí),通過數(shù)據(jù)管理模塊對(duì)非結(jié)構(gòu)化文件緩存模塊或內(nèi)存數(shù)據(jù)庫(kù)中的相應(yīng)數(shù)據(jù)進(jìn)行更改;如果是結(jié)構(gòu)化數(shù)據(jù)的改寫,將數(shù)據(jù)改寫過程通過日志方式存放在延遲寫入模塊中;如果是非結(jié)構(gòu)化數(shù)據(jù)的改寫,將數(shù)據(jù)改寫過程通過臨時(shí)文件的方式存放在延遲寫入模塊中;應(yīng)用層能夠通過延遲寫入模塊對(duì)所需數(shù)據(jù)進(jìn)行多次寫入更新,通過非結(jié)構(gòu)化文件緩存模塊或內(nèi)存數(shù)據(jù)庫(kù),能夠?qū)⒃摂?shù)據(jù)的寫入和讀取速度加速;經(jīng)過一個(gè)時(shí)間周期后,延遲寫入模塊將修改后的數(shù)據(jù)送入分布式文件系統(tǒng)中,進(jìn)行最終的數(shù)據(jù)更新。
【權(quán)利要求】
1.一種多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng),其特征在于,包括: 多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)、多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)、多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng); 多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)包括三個(gè)模塊:數(shù)據(jù)管理模塊、資源監(jiān)控與管理模塊、檢索索引模塊; 多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)包括三個(gè)模塊:非結(jié)構(gòu)化文件緩存模塊、內(nèi)存數(shù)據(jù)庫(kù)模塊、延遲與入|旲塊; 多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)包括非結(jié)構(gòu)化數(shù)據(jù)處理模塊、結(jié)構(gòu)化數(shù)據(jù)處理模塊、分布式文件系統(tǒng);其中非結(jié)構(gòu)化數(shù)據(jù)處理模塊包括文件拆分子模塊、文件組合子模塊、文件驗(yàn)證子模塊;結(jié)構(gòu)化數(shù)據(jù)處理模塊包括:文件生成子模塊、文件管理子模塊; 多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)用于控制、協(xié)調(diào)整個(gè)存取架構(gòu)系統(tǒng);其中的數(shù)據(jù)管理模塊負(fù)責(zé)多源異構(gòu)數(shù)據(jù)上傳、數(shù)據(jù)下載、數(shù)據(jù)修改以及對(duì)應(yīng)用層的API支持;資源監(jiān)控與管理模塊負(fù)責(zé)監(jiān)控多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)和多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)的資源使用情況,當(dāng)這兩個(gè)子系統(tǒng)中的物理緩存資源或物理存儲(chǔ)資源出現(xiàn)異?;蛘呔o缺時(shí)進(jìn)行預(yù)警;檢索索引模塊用于提供多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)與多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)內(nèi)的數(shù)據(jù)存取索引; 多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)用于提供異構(gòu)數(shù)據(jù)的高效快速讀??;其中的非結(jié)構(gòu)化文件緩存模塊利用高速緩存及最近最不常用算法來加速應(yīng)用層對(duì)非結(jié)構(gòu)化數(shù)據(jù)的讀取過程;內(nèi)存數(shù)據(jù)庫(kù)模塊利用高速緩存來使得結(jié)構(gòu)化數(shù)據(jù)在內(nèi)存中進(jìn)行操作;延遲寫入模塊將高速緩存中已經(jīng)修改的文件按照設(shè)定的規(guī)則延遲后寫入分布式文件系統(tǒng)中; 多源異構(gòu)數(shù)據(jù)匯聚存儲(chǔ)子系統(tǒng)用于實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的高效匯聚存儲(chǔ);其中的非結(jié)構(gòu)化數(shù)據(jù)處理模塊通過文件拆分子模塊`來對(duì)大容量的單個(gè)非結(jié)構(gòu)化文件進(jìn)行拆分,并存入分布式文件系統(tǒng)中;通過文件組合子模塊與文件驗(yàn)證子模塊來對(duì)分布式文件系統(tǒng)中拆分后的數(shù)據(jù)塊進(jìn)行組合;結(jié)構(gòu)化數(shù)據(jù)處理模塊通過文件生成子模塊與文件管理子模塊,來對(duì)結(jié)構(gòu)化的數(shù)據(jù)表按照設(shè)定的規(guī)則進(jìn)行XML文件轉(zhuǎn)換,并將轉(zhuǎn)換后的XML文件存入分布式文件系統(tǒng)中。
2.如權(quán)利要求1所述的多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng),其特征在于:所述存取架構(gòu)系統(tǒng)進(jìn)行多源異構(gòu)數(shù)據(jù)高效匯聚存取時(shí): 多源異構(gòu)數(shù)據(jù)從應(yīng)用層通過多源異構(gòu)數(shù)據(jù)協(xié)同管理子系統(tǒng)的數(shù)據(jù)管理模塊進(jìn)入系統(tǒng)后,根據(jù)不同的數(shù)據(jù)結(jié)構(gòu)特征,即按照非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)分別被多源異構(gòu)數(shù)據(jù)匯聚子系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù)處理模塊和結(jié)構(gòu)化數(shù)據(jù)處理模塊讀取,并進(jìn)行相應(yīng)的數(shù)據(jù)處理后,送入分布式文件系統(tǒng)中; 當(dāng)應(yīng)用層需要數(shù)據(jù)時(shí),發(fā)送指令給數(shù)據(jù)管理模塊,該模塊調(diào)用檢索索引模塊來根據(jù)文件標(biāo)識(shí)號(hào)或關(guān)鍵字遍歷多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)中的非結(jié)構(gòu)化文件緩存模塊和內(nèi)存數(shù)據(jù)庫(kù)模塊,當(dāng)發(fā)現(xiàn)沒有找到所需數(shù)據(jù)后,數(shù)據(jù)管理模塊發(fā)送指令給分布式文件系統(tǒng),從中尋找到所需的源數(shù)據(jù),在經(jīng)過數(shù)據(jù)組合或XML文件轉(zhuǎn)換后,分別傳輸至多源異構(gòu)數(shù)據(jù)高速緩存子系統(tǒng)中的非結(jié)構(gòu)化文件緩存模塊或內(nèi)存數(shù)據(jù)庫(kù)模塊中,之后通過數(shù)據(jù)管理模塊傳輸至應(yīng)用層; 當(dāng)應(yīng)用層再次需要該數(shù)據(jù)時(shí),數(shù)據(jù)管理模塊從非結(jié)構(gòu)化文件緩存模塊和內(nèi)存數(shù)據(jù)庫(kù)模塊中直接調(diào)取至應(yīng)用層;應(yīng)用層需要對(duì)所取數(shù)據(jù)進(jìn)行改寫時(shí),通過數(shù)據(jù)管理模塊對(duì)非結(jié)構(gòu)化文件緩存模塊或內(nèi)存數(shù)據(jù)庫(kù)中的相應(yīng)數(shù)據(jù)進(jìn)行更改;如果是結(jié)構(gòu)化數(shù)據(jù)的改寫,將數(shù)據(jù)改寫過程通過日志方式存放在延遲寫入模塊中;如果是非結(jié)構(gòu)化數(shù)據(jù)的改寫,將數(shù)據(jù)改寫過程通過臨時(shí)文件的方式存放在延遲寫入模塊中;應(yīng)用層能夠通過延遲寫入模塊對(duì)所需數(shù)據(jù)進(jìn)行多次寫入更新,通過非結(jié)構(gòu)化文件緩存模塊或內(nèi)存數(shù)據(jù)庫(kù),能夠?qū)⒃摂?shù)據(jù)的寫入和讀取速度加速;經(jīng)過一個(gè)時(shí) 間周期后,延遲寫入模塊將修改后的數(shù)據(jù)送入分布式文件系統(tǒng)中,進(jìn)行最終的數(shù)據(jù)更新。
【文檔編號(hào)】G06F17/30GK103678603SQ201310687009
【公開日】2014年3月26日 申請(qǐng)日期:2013年12月13日 優(yōu)先權(quán)日:2013年12月13日
【發(fā)明者】葛浩棟, 陳曙東, 劉文娣 申請(qǐng)人:江蘇物聯(lián)網(wǎng)研究發(fā)展中心