基于Hadoop大數(shù)據(jù)處理技術(shù)的日志分析系統(tǒng)的制作方法_2

文檔序號：9911208閱讀：來源：國知局

文件。
[0056]數(shù)據(jù)清洗模塊，用于對HDFS中的日志文件數(shù)據(jù)進行清洗轉(zhuǎn)換，清洗轉(zhuǎn)換后的數(shù)據(jù)放在HDFS中。數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性，處理無效值和缺失值等。過濾不符合要求的數(shù)據(jù)，不符合要求的數(shù)據(jù)主要是不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類。
[0057]數(shù)據(jù)統(tǒng)計分析模塊:用于對HDFS中的日志文件數(shù)據(jù)進行統(tǒng)計分析，得到需要的統(tǒng)計數(shù)據(jù)，如PV(頁面瀏覽量)、注冊用戶數(shù)、獨立ip數(shù)、跳出率等，將統(tǒng)計數(shù)據(jù)存放在HDFS中。
[0058]數(shù)據(jù)導出模塊:用于把HDFS中存儲的得到的數(shù)據(jù)導出到外部的MySql數(shù)據(jù)庫中。
[0059]數(shù)據(jù)展現(xiàn)功能模塊:用于對Mysql數(shù)據(jù)庫中存儲的海量數(shù)據(jù)進行毫秒級查詢，并顯示查詢結(jié)果。
[0060]如圖2，本發(fā)明日志分析方法包括:文件上傳、數(shù)據(jù)清洗、數(shù)據(jù)統(tǒng)計分析、數(shù)據(jù)導出和數(shù)據(jù)展示。[0061 ]步驟1.文件上傳，用于上傳日志文件。首先采集日志文件，之后將日志文件上傳到分布式文件系統(tǒng)，如HDFS文件系統(tǒng)。所述日志文件為應用集群的日志文件。
[0062]步驟2.數(shù)據(jù)清洗，對HDFS中的日志文件數(shù)據(jù)進行清洗轉(zhuǎn)換，清洗轉(zhuǎn)換后的數(shù)據(jù)放在HDFS中。數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性，處理無效值和缺失值等。過濾不符合要求的數(shù)據(jù)，不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類。
[0063]步驟3.數(shù)據(jù)統(tǒng)計分析，對HDFS中的日志文件數(shù)據(jù)進行統(tǒng)計分析，得到需要的統(tǒng)計數(shù)據(jù)，如PV(頁面瀏覽量)、注冊用戶數(shù)、獨立ip數(shù)、跳出率等，將統(tǒng)計數(shù)據(jù)存放在HDFS中。
[0064]步驟4.數(shù)據(jù)導出，把HDFS中存儲的得到的數(shù)據(jù)結(jié)果導出到外部的MySql數(shù)據(jù)庫中。
[0065]步驟5.數(shù)據(jù)展現(xiàn)，對Mysql數(shù)據(jù)庫中存儲的海量數(shù)據(jù)進行的毫秒級查詢，并顯示查詢結(jié)果。
[0066]本發(fā)明一種日志分析系統(tǒng)(特別是一種基于Hadoop大數(shù)據(jù)處理技術(shù)的日志分析系統(tǒng))的建設方法包括以下步驟:
[0067]第一步:搭建分布式集群平臺(如Hadoop集群)?？砂ㄒ韵滤姆N節(jié)點:
[0068]Serverl (Master)NameNode、JobTracker:元數(shù)據(jù)節(jié)點
[0069]Server2( secondnamenode) SecondaryNameNode:從元數(shù)據(jù)節(jié)點
[0070]Server3( s IaveO I) DataNode、TaskTracker:數(shù)據(jù)節(jié)點[0071 ] Server4( s lave02) DataNode、TaskTracker:數(shù)據(jù)節(jié)點
10072] 第二步:在集群上搭建所需的數(shù)據(jù)框架，如HBase、Zookeeper等。首先啟動Hadoop分布式集群，然后啟動ZooKeeper集群，最后在Master (元數(shù)據(jù)節(jié)點)上啟動HBase集群。
[0073]第三步:在以上四種節(jié)點的Iinux系統(tǒng)的根目錄下創(chuàng)建日志文件夾(如apache_logs)，用于存放日志文件執(zhí)行命令，啟動集群。
[0074]第四步:在HDFS文件系統(tǒng)中的HDFS根目錄下創(chuàng)建web_logs(網(wǎng)頁日志)文件夾，通過日志收集模塊(如Flume)與集群通過RPC(遠程過程調(diào)用協(xié)議)通信交互，讓日志收集任務以后臺進程運行，監(jiān)控apache_logs文件夾，一旦文件夾收集到日志文件，就同步到HDFS中web_logs文件夾下。
[0075]第五步:數(shù)據(jù)上傳成功后，就可以通過啟動清洗模塊進行數(shù)據(jù)清洗。數(shù)據(jù)清洗完畢后，可以通過網(wǎng)頁的形式在瀏覽器端訪問查看文件系統(tǒng)，查看到所需數(shù)據(jù)。
[0076]第六步:清洗完后使用數(shù)據(jù)統(tǒng)計分析模塊(如Hive)對數(shù)據(jù)進行統(tǒng)計分析，創(chuàng)建外部表引用web_logs下的數(shù)據(jù)，包括:
[0077]計算瀏覽量PV，統(tǒng)計量PV;
[0078]計算注冊用戶數(shù)；
[0079]計算獨立ip數(shù)，；
[0080]計算跳出數(shù)，；
[0081 ]第七步:將得到的各個統(tǒng)計量分別存放到對應的表中。然后把各個表中的數(shù)據(jù)匯總到一張表中。
[0082]第八步:使用數(shù)據(jù)導出模塊(如sqoop)把匯總的數(shù)據(jù)導出到外面的關(guān)系型數(shù)據(jù)庫MySql中，使用HBase實現(xiàn)數(shù)據(jù)的快速查詢。
[0083]本發(fā)明突破了傳統(tǒng)數(shù)據(jù)處理方式的瓶頸，使得海量數(shù)據(jù)的收集、存儲、計算變得更加容易、更加高效。本發(fā)明利用了 Hadoop技術(shù)的開源性和并行處理的高效性，集群無需價格昂貴的小型機，只需普通的計算機就能搭建出性能優(yōu)越的集群，充分利用各個計算機節(jié)點的資源，成本低廉，技術(shù)成熟穩(wěn)定，所以建設基于Hadoop集群的日志分析系統(tǒng)是極具意義的，不僅大大減少各種費用，而且對開發(fā)人員的要求也很低，一個集群甚至只需一個開發(fā)人員負責開發(fā)跟維護集群的運作，并且大量的數(shù)據(jù)能得到及時的處理，使得海量數(shù)據(jù)的收集、存儲、計算變得更加容易、更加高效，提高了工作效率。
【主權(quán)項】
1.一種日志分析系統(tǒng)，其特征在于包括文件上傳模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)統(tǒng)計分析模塊、數(shù)據(jù)導出模塊和數(shù)據(jù)展示模塊；其中: 文件上傳模塊，用于上傳日志文件，首先文件上傳模塊采集日志文件，之后將日志文件上傳到分布式文件系統(tǒng)；數(shù)據(jù)清洗模塊，用于對分布式文件系統(tǒng)中的日志文件數(shù)據(jù)進行清洗轉(zhuǎn)換，清洗轉(zhuǎn)換后的數(shù)據(jù)存放在分布式文件系統(tǒng)中；數(shù)據(jù)統(tǒng)計分析模塊，用于對分布式文件系統(tǒng)中的日志文件進行統(tǒng)計分析，得到需要的統(tǒng)計數(shù)據(jù)，將統(tǒng)計數(shù)據(jù)存放在分布式文件系統(tǒng)中；數(shù)據(jù)導出模塊，用于把分布式文件系統(tǒng)中存儲的得到的數(shù)據(jù)導出到外部的數(shù)據(jù)庫中；數(shù)據(jù)展現(xiàn)模塊，用于對外部的數(shù)據(jù)庫中存儲的數(shù)據(jù)進行查詢，并顯示查詢結(jié)果。2.根據(jù)權(quán)利要求1所述的日志分析系統(tǒng)，其特征在于: 所述分布式文件系統(tǒng)是HDFS; 所述日志文件為應用集群的日志文件。3.根據(jù)權(quán)利要求1所述的日志分析系統(tǒng)，其特征在于: 數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性，處理無效值和缺失值。4.根據(jù)權(quán)利要求1所述的日志分析系統(tǒng)，其特征在于: 所述統(tǒng)計數(shù)據(jù)包括PV、注冊用戶數(shù)、獨立ip數(shù)、跳出率。5.根據(jù)權(quán)利要求1所述的日志分析系統(tǒng)，其特征在于: 所述外部的數(shù)據(jù)庫是Mysql數(shù)據(jù)庫。6.—種日志分析方法，其特征在于包括以下步驟: 步驟1.文件上傳:首先采集日志文件，之后將日志文件上傳到分布式文件系統(tǒng)；步驟2.數(shù)據(jù)清洗:對分布式文件系統(tǒng)中的日志文件數(shù)據(jù)進行清洗轉(zhuǎn)換，清洗轉(zhuǎn)換后的數(shù)據(jù)存放在分布式文件系統(tǒng)中；步驟3.數(shù)據(jù)統(tǒng)計分析，對分布式文件系統(tǒng)中的日志文件數(shù)據(jù)進行統(tǒng)計分析，得到需要的統(tǒng)計數(shù)據(jù)，將統(tǒng)計數(shù)據(jù)存放在分布式文件系統(tǒng)中；步驟4.數(shù)據(jù)導出:把分布式文件系統(tǒng)中存儲的得到的數(shù)據(jù)導出到外部的數(shù)據(jù)庫中；步驟5.數(shù)據(jù)展現(xiàn):對外部的數(shù)據(jù)庫中存儲的數(shù)據(jù)進行查詢，并顯示查詢結(jié)果。7.根據(jù)權(quán)利要求6所述的日志分析方法，其特征在于: 所述分布式文件系統(tǒng)是HDFS; 所述日志文件為應用集群的日志文件。8.根據(jù)權(quán)利要求6所述的日志分析方法，其特征在于: 數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性，處理無效值和缺失值。9.根據(jù)權(quán)利要求6所述的日志分析方法，其特征在于: 所述統(tǒng)計數(shù)據(jù)包括PV、注冊用戶數(shù)、獨立ip數(shù)、跳出率。10.根據(jù)權(quán)利要求6所述的日志分析方法，其特征在于: 所述外部的數(shù)據(jù)庫是Mysql數(shù)據(jù)庫。
【專利摘要】本發(fā)明公開了一種基于Hadoop平臺開發(fā)的企業(yè)網(wǎng)站日志分析系統(tǒng)，主要分為五個模塊，分別是文件上傳模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)統(tǒng)計分析模塊、數(shù)據(jù)導出模塊、數(shù)據(jù)展現(xiàn)模塊?？梢杂嬎愕玫骄W(wǎng)站各大關(guān)鍵指標，包括瀏覽量PV、注冊用戶數(shù)、ip數(shù)、跳出率，數(shù)據(jù)的展現(xiàn)可以實現(xiàn)海量數(shù)據(jù)的毫秒級查詢。
【IPC分類】G06F17/30
【公開號】CN105677842
【申請?zhí)枴緾N201610006805
【發(fā)明人】許丹霞, 劉寅, 汪偉, 鄭宇
【申請人】北京匯商融通信息技術(shù)有限公司
【公開日】2016年6月15日
【申請日】2016年1月5日

完整全部詳細技術(shù)資料下載

當前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于Hadoop大數(shù)據(jù)處理技術(shù)的日志分析系統(tǒng)的制作方法_2