一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法

文檔序號：7810094閱讀：576來源：國知局

一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法
【專利摘要】本發(fā)明公開了一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法，其具體實現(xiàn)過程為：搭建行業(yè)搜索采集云平臺；客戶上傳需要的網(wǎng)站數(shù)據(jù)給上述云平臺的采集系統(tǒng)；云平臺的采集系統(tǒng)通過對網(wǎng)站規(guī)則分析，找出以前一樣的或類似的網(wǎng)站配置模板，并模擬出符合要求的模板；如果沒有，通過人工配置出相應的采集模板；采集下來的數(shù)據(jù)通過文件訪問協(xié)議和遠程過程調(diào)用，轉(zhuǎn)發(fā)到服務器端進行處理；采用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop集群管理；客戶端給Hadoop集群發(fā)送請求，得到系統(tǒng)內(nèi)存儲的相關(guān)數(shù)據(jù)。該一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法與現(xiàn)有技術(shù)相比，解決了現(xiàn)有技術(shù)中提高服務質(zhì)量、提升問題達成率等問題，實用性強。
【專利說明】一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息【技術(shù)領(lǐng)域】，具體地說是針對稅務行業(yè)領(lǐng)域、基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法。

【背景技術(shù)】
[0002]當今已經(jīng)是數(shù)據(jù)大爆炸的時代，各個行業(yè)面臨著大部分的問題:比如集中管理行業(yè)數(shù)據(jù)，需要解決從無規(guī)則、無行業(yè)分類的互聯(lián)網(wǎng)爬取針對性的行業(yè)信息的問題；同時海量數(shù)據(jù)的存儲也是一大難題；采集的數(shù)據(jù)如何與內(nèi)部數(shù)據(jù)做共享與整合，迄今為止也未很好的解決；歷史記錄查詢問題、實時并發(fā)入庫問題、搜索效率低的問題、數(shù)據(jù)分布式存儲及交互式查詢問題都是當今數(shù)據(jù)存儲的難題。有時工作人員采用集群來解決上述問題，但集群管理維護難，現(xiàn)有集群系統(tǒng)沒有一個從硬件到軟件到服務狀態(tài)的整體監(jiān)控和管理系統(tǒng)，基于此，現(xiàn)提供一種可解決上述問題、基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的技術(shù)任務是針對以上不足之處，提供一種實用性強、基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法。
一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法，其具體實現(xiàn)過程為:
一、搭建行業(yè)搜索采集云平臺；
二、客戶上傳需要的網(wǎng)站數(shù)據(jù)給上述云平臺的采集系統(tǒng)；
三、云平臺的采集系統(tǒng)通過對網(wǎng)站規(guī)則分析，找出以前一樣的或類似的網(wǎng)站配置模板，并模擬出符合要求的模板；如果沒有，通過人工配置出相應的采集模板；
四、采集下來的數(shù)據(jù)通過文件訪問協(xié)議和遠程過程調(diào)用，轉(zhuǎn)發(fā)到服務器端進行處理；
五、采用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop集群管理，該集群內(nèi)有若干機器節(jié)點，每個機器節(jié)點有一個DataNode, Hadoop集群管理這些節(jié)點上的存儲,該集群內(nèi)的NameNode負責管理文件系統(tǒng)命名空間和client對文件的訪問；
所述集群把每個DataNode都分為兩個區(qū)域，一個是從網(wǎng)站直接爬取下來的數(shù)據(jù)分布；另一個是內(nèi)部數(shù)據(jù)存儲，即通過sqoop命令將關(guān)系型數(shù)據(jù)庫導入到HDFS上；兩個區(qū)域內(nèi)的數(shù)據(jù)互相備份共享,并通過Object Data File歸檔，將數(shù)據(jù)整合；
六、客戶端給NameNode發(fā)送請求,得到系統(tǒng)內(nèi)存儲的相關(guān)數(shù)據(jù)。
[0004]所述步驟一的詳細過程為:
搭建行業(yè)搜索系統(tǒng)，給用戶提供采集模板的接口，采集系統(tǒng)搭建在云服務器上，并做分布式采集的部署；
搭建分布式存儲系統(tǒng)，調(diào)節(jié)并接通采集系統(tǒng)與存儲系統(tǒng)之間的接口，將采集后的數(shù)據(jù)直接存儲到該系統(tǒng)里；
將用戶提供的行業(yè)數(shù)據(jù)做接口，使采集后的數(shù)據(jù)與行業(yè)數(shù)據(jù)互相共享，這里的行業(yè)數(shù)據(jù)即為步驟五中DataNode第二個分區(qū)中存儲的內(nèi)部數(shù)據(jù)。
[0005]所述步驟四中服務器端進行數(shù)據(jù)處理采用對象存儲技術(shù)，該處理的數(shù)據(jù)包含文件數(shù)據(jù)以及該文件數(shù)據(jù)的屬性信息。
[0006]本發(fā)明的一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法，具有以下優(yōu)點:
該發(fā)明的一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法行業(yè)搜索采集系統(tǒng)比普通的網(wǎng)絡爬蟲更有針對性，采集周期變短、數(shù)據(jù)準確性大大提高。用戶無需復雜的配置，可以通過行業(yè)配置模板進行修改或直接采集，采集內(nèi)容通過規(guī)范的文件訪問協(xié)議和遠程過程調(diào)用，轉(zhuǎn)發(fā)到服務器端進行處理，同時行業(yè)內(nèi)部數(shù)據(jù)通過sqoop技術(shù)轉(zhuǎn)化為文件存儲形式，放入另一個存儲區(qū)域。兩個區(qū)域的數(shù)據(jù)達到共享，用戶發(fā)送給namenode的請求后，從而進行“移動式計算”分析出用戶所要的結(jié)果。解決了現(xiàn)在許多行業(yè)的企業(yè)無法及時了解市場的動態(tài)變化、提高服務質(zhì)量、提升問題達成率等問題，而在互聯(lián)網(wǎng)上采集自己行業(yè)的相關(guān)信息，并與自己行業(yè)內(nèi)部組織數(shù)據(jù)相結(jié)合的大數(shù)據(jù)采集及存儲的難題，實用性強，易于推廣。

【專利附圖】

【附圖說明】
[0007]附圖1為本發(fā)明的實現(xiàn)流程圖。
[0008]附圖2為本發(fā)明的采集數(shù)據(jù)與內(nèi)部數(shù)據(jù)歸檔圖。

【具體實施方式】
[0009]下面結(jié)合附圖和具體實施例對本發(fā)明作進一步說明。
[0010]本發(fā)明的提供一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法通過“行業(yè)搜索采集系統(tǒng)”將互聯(lián)網(wǎng)上的行業(yè)數(shù)據(jù)抓取下來，并能與行業(yè)內(nèi)部組織數(shù)據(jù)進行整合分析的技術(shù)實現(xiàn)，如附圖1、圖2所示，該方法的具體實現(xiàn)過程為:
一、搭建行業(yè)搜索采集云平臺；
二、客戶上傳需要的網(wǎng)站數(shù)據(jù)給上述云平臺的采集系統(tǒng)；
三、云平臺的采集系統(tǒng)通過對網(wǎng)站規(guī)則分析，找出以前一樣的或類似的網(wǎng)站配置模板，并模擬出符合要求的模板；如果沒有，通過人工配置出相應的采集模板；
四、采集下來的數(shù)據(jù)通過文件訪問協(xié)議和遠程過程調(diào)用，轉(zhuǎn)發(fā)到服務器端進行處理；
五、采用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop集群管理，該集群內(nèi)有若干機器節(jié)點，每個機器節(jié)點有一個DataNode, Hadoop集群管理這些節(jié)點上的存儲,該集群內(nèi)的NameNode負責管理文件系統(tǒng)命名空間和client對文件的訪問；
所述集群把每個DataNode都分為兩個區(qū)域，一個是從網(wǎng)站直接爬取下來的數(shù)據(jù)分布；另一個是內(nèi)部數(shù)據(jù)存儲，即通過sqoop命令將關(guān)系型數(shù)據(jù)庫導入到HDFS上；兩個區(qū)域內(nèi)的數(shù)據(jù)互相備份共享,并通過Object Data File歸檔，將數(shù)據(jù)整合；
六、客戶端給NameNode發(fā)送請求,得到系統(tǒng)內(nèi)存儲的相關(guān)數(shù)據(jù)。
[0011]由于各個行業(yè)的網(wǎng)站規(guī)則不一，用戶采集的數(shù)據(jù)需求不統(tǒng)一等難點，對采集造成了一些困難。因此我們給客戶端提供了各個行業(yè)的采集模板口徑，采集端和存儲是部署在云服務器上。基于該思路，上述步驟一的詳細過程為:
搭建行業(yè)搜索系統(tǒng)，給用戶提供采集模板的接口，采集系統(tǒng)搭建在云服務器上，并做分布式采集的部署；
搭建分布式存儲系統(tǒng)，調(diào)節(jié)并接通采集系統(tǒng)與存儲系統(tǒng)之間的接口，將采集后的數(shù)據(jù)直接存儲到該系統(tǒng)里；
將用戶提供的行業(yè)數(shù)據(jù)做接口，使采集后的數(shù)據(jù)與行業(yè)數(shù)據(jù)互相共享，這里的行業(yè)數(shù)據(jù)即為步驟五中DataNode第二個分區(qū)中存儲的內(nèi)部數(shù)據(jù)。
[0012]所述步驟四中服務器端進行數(shù)據(jù)處理采用對象存儲技術(shù)，該處理的數(shù)據(jù)包含文件數(shù)據(jù)以及該文件數(shù)據(jù)的屬性信息。
[0013]上述【具體實施方式】僅是本發(fā)明的具體個案，本發(fā)明的專利保護范圍包括但不限于上述【具體實施方式】，任何符合本發(fā)明的一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法的權(quán)利要求書的且任何所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員對其所做的適當變化或替換，皆應落入本發(fā)明的專利保護范圍。
【權(quán)利要求】
1.一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法，其特征在于其具體實現(xiàn)過程為: 一、搭建行業(yè)搜索采集云平臺；二、客戶上傳需要的網(wǎng)站數(shù)據(jù)給上述云平臺的采集系統(tǒng)；三、云平臺的采集系統(tǒng)通過對網(wǎng)站規(guī)則分析，找出以前一樣的或類似的網(wǎng)站配置模板，并模擬出符合要求的模板；如果沒有，通過人工配置出相應的采集模板；四、采集下來的數(shù)據(jù)通過文件訪問協(xié)議和遠程過程調(diào)用，轉(zhuǎn)發(fā)到服務器端進行處理；五、采用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop集群管理，該集群內(nèi)有若干機器節(jié)點，每個機器節(jié)點有一個DataNode, Hadoop集群管理這些節(jié)點上的存儲,該集群內(nèi)的NameNode負責管理文件系統(tǒng)命名空間和client對文件的訪問；所述集群把每個DataNode都分為兩個區(qū)域，一個是從網(wǎng)站直接爬取下來的數(shù)據(jù)分布；另一個是內(nèi)部數(shù)據(jù)存儲，即通過sqoop命令將關(guān)系型數(shù)據(jù)庫導入到HDFS上；兩個區(qū)域內(nèi)的數(shù)據(jù)互相備份共享,并通過Object Data File歸檔，將數(shù)據(jù)整合；六、客戶端給NameNode發(fā)送請求,得到系統(tǒng)內(nèi)存儲的相關(guān)數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法，其特征在于:所述步驟一的詳細過程為: 搭建行業(yè)搜索系統(tǒng)，給用戶提供采集模板的接口，采集系統(tǒng)搭建在云服務器上，并做分布式采集的部署；搭建分布式存儲系統(tǒng)，調(diào)節(jié)并接通采集系統(tǒng)與存儲系統(tǒng)之間的接口，將采集后的數(shù)據(jù)直接存儲到該系統(tǒng)里；將用戶提供的行業(yè)數(shù)據(jù)做接口，使采集后的數(shù)據(jù)與行業(yè)數(shù)據(jù)互相共享，這里的行業(yè)數(shù)據(jù)即為步驟五中DataNode第二個分區(qū)中存儲的內(nèi)部數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法，其特征在于:所述步驟四中服務器端進行數(shù)據(jù)處理采用對象存儲技術(shù)，該處理的數(shù)據(jù)包含文件數(shù)據(jù)以及該文件數(shù)據(jù)的屬性信息。
【文檔編號】H04L29/08GK104135516SQ201410365012
【公開日】2014年11月5日申請日期:2014年7月29日優(yōu)先權(quán)日:2014年7月29日
【發(fā)明者】徐宏偉, 王傳超, 孫海峰申請人:浪潮軟件集團有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐宏偉;王傳超;孫海峰
技術(shù)所有人：浪潮軟件集團有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

分布式數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

點云數(shù)據(jù)采集方法相關(guān)技術(shù)

分布式數(shù)據(jù)采集相關(guān)技術(shù)

實時數(shù)據(jù)采集存儲相關(guān)技術(shù)

分布式云數(shù)據(jù)中心相關(guān)技術(shù)

大數(shù)據(jù)采集與存儲平臺相關(guān)技術(shù)

分布式存儲架構(gòu)相關(guān)技術(shù)

高速數(shù)據(jù)采集存儲相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于行業(yè)數(shù)據(jù)采集的分布式云存儲方法