一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法
【專利摘要】本發(fā)明公開了一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法,其具體實現(xiàn)過程為:搭建行業(yè)搜索采集云平臺;客戶上傳需要的網(wǎng)站數(shù)據(jù)給上述云平臺的采集系統(tǒng);云平臺的采集系統(tǒng)通過對網(wǎng)站規(guī)則分析,找出以前一樣的或類似的網(wǎng)站配置模板,并模擬出符合要求的模板;如果沒有,通過人工配置出相應的采集模板;采集下來的數(shù)據(jù)通過文件訪問協(xié)議和遠程過程調(diào)用,轉(zhuǎn)發(fā)到服務器端進行處理;采用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop集群管理;客戶端給Hadoop集群發(fā)送請求,得到系統(tǒng)內(nèi)存儲的相關(guān)數(shù)據(jù)。該一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法與現(xiàn)有技術(shù)相比,解決了現(xiàn)有技術(shù)中提高服務質(zhì)量、提升問題達成率等問題,實用性強。
【專利說明】一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息【技術(shù)領(lǐng)域】,具體地說是針對稅務行業(yè)領(lǐng)域、基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法。
【背景技術(shù)】
[0002]當今已經(jīng)是數(shù)據(jù)大爆炸的時代,各個行業(yè)面臨著大部分的問題:比如集中管理行業(yè)數(shù)據(jù),需要解決從無規(guī)則、無行業(yè)分類的互聯(lián)網(wǎng)爬取針對性的行業(yè)信息的問題;同時海量數(shù)據(jù)的存儲也是一大難題;采集的數(shù)據(jù)如何與內(nèi)部數(shù)據(jù)做共享與整合,迄今為止也未很好的解決;歷史記錄查詢問題、實時并發(fā)入庫問題、搜索效率低的問題、數(shù)據(jù)分布式存儲及交互式查詢問題都是當今數(shù)據(jù)存儲的難題。有時工作人員采用集群來解決上述問題,但集群管理維護難,現(xiàn)有集群系統(tǒng)沒有一個從硬件到軟件到服務狀態(tài)的整體監(jiān)控和管理系統(tǒng),基于此,現(xiàn)提供一種可解決上述問題、基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的技術(shù)任務是針對以上不足之處,提供一種實用性強、基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法。
一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法,其具體實現(xiàn)過程為:
一、搭建行業(yè)搜索采集云平臺;
二、客戶上傳需要的網(wǎng)站數(shù)據(jù)給上述云平臺的采集系統(tǒng);
三、云平臺的采集系統(tǒng)通過對網(wǎng)站規(guī)則分析,找出以前一樣的或類似的網(wǎng)站配置模板,并模擬出符合要求的模板;如果沒有,通過人工配置出相應的采集模板;
四、采集下來的數(shù)據(jù)通過文件訪問協(xié)議和遠程過程調(diào)用,轉(zhuǎn)發(fā)到服務器端進行處理;
五、采用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop集群管理,該集群內(nèi)有若干機器節(jié)點,每個機器節(jié)點有一個DataNode, Hadoop集群管理這些節(jié)點上的存儲,該集群內(nèi)的NameNode負責管理文件系統(tǒng)命名空間和client對文件的訪問;
所述集群把每個DataNode都分為兩個區(qū)域,一個是從網(wǎng)站直接爬取下來的數(shù)據(jù)分布;另一個是內(nèi)部數(shù)據(jù)存儲,即通過sqoop命令將關(guān)系型數(shù)據(jù)庫導入到HDFS上;兩個區(qū)域內(nèi)的數(shù)據(jù)互相備份共享,并通過Object Data File歸檔,將數(shù)據(jù)整合;
六、客戶端給NameNode發(fā)送請求,得到系統(tǒng)內(nèi)存儲的相關(guān)數(shù)據(jù)。
[0004]所述步驟一的詳細過程為:
搭建行業(yè)搜索系統(tǒng),給用戶提供采集模板的接口,采集系統(tǒng)搭建在云服務器上,并做分布式采集的部署;
搭建分布式存儲系統(tǒng),調(diào)節(jié)并接通采集系統(tǒng)與存儲系統(tǒng)之間的接口,將采集后的數(shù)據(jù)直接存儲到該系統(tǒng)里;
將用戶提供的行業(yè)數(shù)據(jù)做接口,使采集后的數(shù)據(jù)與行業(yè)數(shù)據(jù)互相共享,這里的行業(yè)數(shù)據(jù)即為步驟五中DataNode第二個分區(qū)中存儲的內(nèi)部數(shù)據(jù)。
[0005]所述步驟四中服務器端進行數(shù)據(jù)處理采用對象存儲技術(shù),該處理的數(shù)據(jù)包含文件數(shù)據(jù)以及該文件數(shù)據(jù)的屬性信息。
[0006]本發(fā)明的一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法,具有以下優(yōu)點:
該發(fā)明的一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法行業(yè)搜索采集系統(tǒng)比普通的網(wǎng)絡爬蟲更有針對性,采集周期變短、數(shù)據(jù)準確性大大提高。用戶無需復雜的配置,可以通過行業(yè)配置模板進行修改或直接采集,采集內(nèi)容通過規(guī)范的文件訪問協(xié)議和遠程過程調(diào)用,轉(zhuǎn)發(fā)到服務器端進行處理,同時行業(yè)內(nèi)部數(shù)據(jù)通過sqoop技術(shù)轉(zhuǎn)化為文件存儲形式,放入另一個存儲區(qū)域。兩個區(qū)域的數(shù)據(jù)達到共享,用戶發(fā)送給namenode的請求后,從而進行“移動式計算”分析出用戶所要的結(jié)果。解決了現(xiàn)在許多行業(yè)的企業(yè)無法及時了解市場的動態(tài)變化、提高服務質(zhì)量、提升問題達成率等問題,而在互聯(lián)網(wǎng)上采集自己行業(yè)的相關(guān)信息,并與自己行業(yè)內(nèi)部組織數(shù)據(jù)相結(jié)合的大數(shù)據(jù)采集及存儲的難題,實用性強,易于推廣。
【專利附圖】
【附圖說明】
[0007]附圖1為本發(fā)明的實現(xiàn)流程圖。
[0008]附圖2為本發(fā)明的采集數(shù)據(jù)與內(nèi)部數(shù)據(jù)歸檔圖。
【具體實施方式】
[0009]下面結(jié)合附圖和具體實施例對本發(fā)明作進一步說明。
[0010]本發(fā)明的提供一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法通過“行業(yè)搜索采集系統(tǒng)”將互聯(lián)網(wǎng)上的行業(yè)數(shù)據(jù)抓取下來,并能與行業(yè)內(nèi)部組織數(shù)據(jù)進行整合分析的技術(shù)實現(xiàn),如附圖1、圖2所示,該方法的具體實現(xiàn)過程為:
一、搭建行業(yè)搜索采集云平臺;
二、客戶上傳需要的網(wǎng)站數(shù)據(jù)給上述云平臺的采集系統(tǒng);
三、云平臺的采集系統(tǒng)通過對網(wǎng)站規(guī)則分析,找出以前一樣的或類似的網(wǎng)站配置模板,并模擬出符合要求的模板;如果沒有,通過人工配置出相應的采集模板;
四、采集下來的數(shù)據(jù)通過文件訪問協(xié)議和遠程過程調(diào)用,轉(zhuǎn)發(fā)到服務器端進行處理;
五、采用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop集群管理,該集群內(nèi)有若干機器節(jié)點,每個機器節(jié)點有一個DataNode, Hadoop集群管理這些節(jié)點上的存儲,該集群內(nèi)的NameNode負責管理文件系統(tǒng)命名空間和client對文件的訪問;
所述集群把每個DataNode都分為兩個區(qū)域,一個是從網(wǎng)站直接爬取下來的數(shù)據(jù)分布;另一個是內(nèi)部數(shù)據(jù)存儲,即通過sqoop命令將關(guān)系型數(shù)據(jù)庫導入到HDFS上;兩個區(qū)域內(nèi)的數(shù)據(jù)互相備份共享,并通過Object Data File歸檔,將數(shù)據(jù)整合;
六、客戶端給NameNode發(fā)送請求,得到系統(tǒng)內(nèi)存儲的相關(guān)數(shù)據(jù)。
[0011]由于各個行業(yè)的網(wǎng)站規(guī)則不一,用戶采集的數(shù)據(jù)需求不統(tǒng)一等難點,對采集造成了一些困難。因此我們給客戶端提供了各個行業(yè)的采集模板口徑,采集端和存儲是部署在云服務器上。基于該思路,上述步驟一的詳細過程為:
搭建行業(yè)搜索系統(tǒng),給用戶提供采集模板的接口,采集系統(tǒng)搭建在云服務器上,并做分布式采集的部署;
搭建分布式存儲系統(tǒng),調(diào)節(jié)并接通采集系統(tǒng)與存儲系統(tǒng)之間的接口,將采集后的數(shù)據(jù)直接存儲到該系統(tǒng)里;
將用戶提供的行業(yè)數(shù)據(jù)做接口,使采集后的數(shù)據(jù)與行業(yè)數(shù)據(jù)互相共享,這里的行業(yè)數(shù)據(jù)即為步驟五中DataNode第二個分區(qū)中存儲的內(nèi)部數(shù)據(jù)。
[0012]所述步驟四中服務器端進行數(shù)據(jù)處理采用對象存儲技術(shù),該處理的數(shù)據(jù)包含文件數(shù)據(jù)以及該文件數(shù)據(jù)的屬性信息。
[0013]上述【具體實施方式】僅是本發(fā)明的具體個案,本發(fā)明的專利保護范圍包括但不限于上述【具體實施方式】,任何符合本發(fā)明的一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法的權(quán)利要求書的且任何所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員對其所做的適當變化或替換,皆應落入本發(fā)明的專利保護范圍。
【權(quán)利要求】
1.一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法,其特征在于其具體實現(xiàn)過程為: 一、搭建行業(yè)搜索采集云平臺; 二、客戶上傳需要的網(wǎng)站數(shù)據(jù)給上述云平臺的采集系統(tǒng); 三、云平臺的采集系統(tǒng)通過對網(wǎng)站規(guī)則分析,找出以前一樣的或類似的網(wǎng)站配置模板,并模擬出符合要求的模板;如果沒有,通過人工配置出相應的采集模板; 四、采集下來的數(shù)據(jù)通過文件訪問協(xié)議和遠程過程調(diào)用,轉(zhuǎn)發(fā)到服務器端進行處理; 五、采用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop集群管理,該集群內(nèi)有若干機器節(jié)點,每個機器節(jié)點有一個DataNode, Hadoop集群管理這些節(jié)點上的存儲,該集群內(nèi)的NameNode負責管理文件系統(tǒng)命名空間和client對文件的訪問; 所述集群把每個DataNode都分為兩個區(qū)域,一個是從網(wǎng)站直接爬取下來的數(shù)據(jù)分布;另一個是內(nèi)部數(shù)據(jù)存儲,即通過sqoop命令將關(guān)系型數(shù)據(jù)庫導入到HDFS上;兩個區(qū)域內(nèi)的數(shù)據(jù)互相備份共享,并通過Object Data File歸檔,將數(shù)據(jù)整合; 六、客戶端給NameNode發(fā)送請求,得到系統(tǒng)內(nèi)存儲的相關(guān)數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法,其特征在于:所述步驟一的詳細過程為: 搭建行業(yè)搜索系統(tǒng),給用戶提供采集模板的接口,采集系統(tǒng)搭建在云服務器上,并做分布式采集的部署; 搭建分布式存儲系統(tǒng),調(diào)節(jié)并接通采集系統(tǒng)與存儲系統(tǒng)之間的接口,將采集后的數(shù)據(jù)直接存儲到該系統(tǒng)里; 將用戶提供的行業(yè)數(shù)據(jù)做接口,使采集后的數(shù)據(jù)與行業(yè)數(shù)據(jù)互相共享,這里的行業(yè)數(shù)據(jù)即為步驟五中DataNode第二個分區(qū)中存儲的內(nèi)部數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法,其特征在于:所述步驟四中服務器端進行數(shù)據(jù)處理采用對象存儲技術(shù),該處理的數(shù)據(jù)包含文件數(shù)據(jù)以及該文件數(shù)據(jù)的屬性信息。
【文檔編號】H04L29/08GK104135516SQ201410365012
【公開日】2014年11月5日 申請日期:2014年7月29日 優(yōu)先權(quán)日:2014年7月29日
【發(fā)明者】徐宏偉, 王傳超, 孫海峰 申請人:浪潮軟件集團有限公司