国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于Hadoop大數(shù)據(jù)處理技術(shù)的日志分析系統(tǒng)的制作方法_2

      文檔序號:9911208閱讀:來源:國知局
      文件。
      [0056]數(shù)據(jù)清洗模塊,用于對HDFS中的日志文件數(shù)據(jù)進行清洗轉(zhuǎn)換,清洗轉(zhuǎn)換后的數(shù)據(jù)放在HDFS中。數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。過濾不符合要求的數(shù)據(jù),不符合要求的數(shù)據(jù)主要是不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類。
      [0057]數(shù)據(jù)統(tǒng)計分析模塊:用于對HDFS中的日志文件數(shù)據(jù)進行統(tǒng)計分析,得到需要的統(tǒng)計數(shù)據(jù),如PV(頁面瀏覽量)、注冊用戶數(shù)、獨立ip數(shù)、跳出率等,將統(tǒng)計數(shù)據(jù)存放在HDFS中。
      [0058]數(shù)據(jù)導出模塊:用于把HDFS中存儲的得到的數(shù)據(jù)導出到外部的MySql數(shù)據(jù)庫中。
      [0059]數(shù)據(jù)展現(xiàn)功能模塊:用于對Mysql數(shù)據(jù)庫中存儲的海量數(shù)據(jù)進行毫秒級查詢,并顯示查詢結(jié)果。
      [0060]如圖2,本發(fā)明日志分析方法包括:文件上傳、數(shù)據(jù)清洗、數(shù)據(jù)統(tǒng)計分析、數(shù)據(jù)導出和數(shù)據(jù)展示。[0061 ]步驟1.文件上傳,用于上傳日志文件。首先采集日志文件,之后將日志文件上傳到分布式文件系統(tǒng),如HDFS文件系統(tǒng)。所述日志文件為應用集群的日志文件。
      [0062]步驟2.數(shù)據(jù)清洗,對HDFS中的日志文件數(shù)據(jù)進行清洗轉(zhuǎn)換,清洗轉(zhuǎn)換后的數(shù)據(jù)放在HDFS中。數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。過濾不符合要求的數(shù)據(jù),不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類。
      [0063]步驟3.數(shù)據(jù)統(tǒng)計分析,對HDFS中的日志文件數(shù)據(jù)進行統(tǒng)計分析,得到需要的統(tǒng)計數(shù)據(jù),如PV(頁面瀏覽量)、注冊用戶數(shù)、獨立ip數(shù)、跳出率等,將統(tǒng)計數(shù)據(jù)存放在HDFS中。
      [0064]步驟4.數(shù)據(jù)導出,把HDFS中存儲的得到的數(shù)據(jù)結(jié)果導出到外部的MySql數(shù)據(jù)庫中。
      [0065]步驟5.數(shù)據(jù)展現(xiàn),對Mysql數(shù)據(jù)庫中存儲的海量數(shù)據(jù)進行的毫秒級查詢,并顯示查詢結(jié)果。
      [0066]本發(fā)明一種日志分析系統(tǒng)(特別是一種基于Hadoop大數(shù)據(jù)處理技術(shù)的日志分析系統(tǒng))的建設方法包括以下步驟:
      [0067]第一步:搭建分布式集群平臺(如Hadoop集群)??砂ㄒ韵滤姆N節(jié)點:
      [0068]Serverl (Master)NameNode、JobTracker:元數(shù)據(jù)節(jié)點
      [0069]Server2( secondnamenode) SecondaryNameNode:從元數(shù)據(jù)節(jié)點
      [0070]Server3( s IaveO I) DataNode、TaskTracker:數(shù)據(jù)節(jié)點[0071 ] Server4( s lave02) DataNode、TaskTracker:數(shù)據(jù)節(jié)點
      10072] 第二步:在集群上搭建所需的數(shù)據(jù)框架,如HBase、Zookeeper等。首先啟動Hadoop分布式集群,然后啟動ZooKeeper集群,最后在Master (元數(shù)據(jù)節(jié)點)上啟動HBase集群。
      [0073]第三步:在以上四種節(jié)點的Iinux系統(tǒng)的根目錄下創(chuàng)建日志文件夾(如apache_logs),用于存放日志文件執(zhí)行命令,啟動集群。
      [0074]第四步:在HDFS文件系統(tǒng)中的HDFS根目錄下創(chuàng)建web_logs(網(wǎng)頁日志)文件夾,通過日志收集模塊(如Flume)與集群通過RPC(遠程過程調(diào)用協(xié)議)通信交互,讓日志收集任務以后臺進程運行,監(jiān)控apache_logs文件夾,一旦文件夾收集到日志文件,就同步到HDFS中web_logs文件夾下。
      [0075]第五步:數(shù)據(jù)上傳成功后,就可以通過啟動清洗模塊進行數(shù)據(jù)清洗。數(shù)據(jù)清洗完畢后,可以通過網(wǎng)頁的形式在瀏覽器端訪問查看文件系統(tǒng),查看到所需數(shù)據(jù)。
      [0076]第六步:清洗完后使用數(shù)據(jù)統(tǒng)計分析模塊(如Hive)對數(shù)據(jù)進行統(tǒng)計分析,創(chuàng)建外部表引用web_logs下的數(shù)據(jù),包括:
      [0077]計算瀏覽量PV,統(tǒng)計量PV;
      [0078]計算注冊用戶數(shù);
      [0079]計算獨立ip數(shù),;
      [0080]計算跳出數(shù),;
      [0081 ]第七步:將得到的各個統(tǒng)計量分別存放到對應的表中。然后把各個表中的數(shù)據(jù)匯總到一張表中。
      [0082]第八步:使用數(shù)據(jù)導出模塊(如sqoop)把匯總的數(shù)據(jù)導出到外面的關(guān)系型數(shù)據(jù)庫MySql中,使用HBase實現(xiàn)數(shù)據(jù)的快速查詢。
      [0083]本發(fā)明突破了傳統(tǒng)數(shù)據(jù)處理方式的瓶頸,使得海量數(shù)據(jù)的收集、存儲、計算變得更加容易、更加高效。本發(fā)明利用了 Hadoop技術(shù)的開源性和并行處理的高效性,集群無需價格昂貴的小型機,只需普通的計算機就能搭建出性能優(yōu)越的集群,充分利用各個計算機節(jié)點的資源,成本低廉,技術(shù)成熟穩(wěn)定,所以建設基于Hadoop集群的日志分析系統(tǒng)是極具意義的,不僅大大減少各種費用,而且對開發(fā)人員的要求也很低,一個集群甚至只需一個開發(fā)人員負責開發(fā)跟維護集群的運作,并且大量的數(shù)據(jù)能得到及時的處理,使得海量數(shù)據(jù)的收集、存儲、計算變得更加容易、更加高效,提高了工作效率。
      【主權(quán)項】
      1.一種日志分析系統(tǒng),其特征在于包括文件上傳模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)統(tǒng)計分析模塊、數(shù)據(jù)導出模塊和數(shù)據(jù)展示模塊; 其中: 文件上傳模塊,用于上傳日志文件,首先文件上傳模塊采集日志文件,之后將日志文件上傳到分布式文件系統(tǒng); 數(shù)據(jù)清洗模塊,用于對分布式文件系統(tǒng)中的日志文件數(shù)據(jù)進行清洗轉(zhuǎn)換,清洗轉(zhuǎn)換后的數(shù)據(jù)存放在分布式文件系統(tǒng)中; 數(shù)據(jù)統(tǒng)計分析模塊,用于對分布式文件系統(tǒng)中的日志文件進行統(tǒng)計分析,得到需要的統(tǒng)計數(shù)據(jù),將統(tǒng)計數(shù)據(jù)存放在分布式文件系統(tǒng)中; 數(shù)據(jù)導出模塊,用于把分布式文件系統(tǒng)中存儲的得到的數(shù)據(jù)導出到外部的數(shù)據(jù)庫中; 數(shù)據(jù)展現(xiàn)模塊,用于對外部的數(shù)據(jù)庫中存儲的數(shù)據(jù)進行查詢,并顯示查詢結(jié)果。2.根據(jù)權(quán)利要求1所述的日志分析系統(tǒng),其特征在于: 所述分布式文件系統(tǒng)是HDFS; 所述日志文件為應用集群的日志文件。3.根據(jù)權(quán)利要求1所述的日志分析系統(tǒng),其特征在于: 數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性,處理無效值和缺失值。4.根據(jù)權(quán)利要求1所述的日志分析系統(tǒng),其特征在于: 所述統(tǒng)計數(shù)據(jù)包括PV、注冊用戶數(shù)、獨立ip數(shù)、跳出率。5.根據(jù)權(quán)利要求1所述的日志分析系統(tǒng),其特征在于: 所述外部的數(shù)據(jù)庫是Mysql數(shù)據(jù)庫。6.—種日志分析方法,其特征在于包括以下步驟: 步驟1.文件上傳:首先采集日志文件,之后將日志文件上傳到分布式文件系統(tǒng); 步驟2.數(shù)據(jù)清洗:對分布式文件系統(tǒng)中的日志文件數(shù)據(jù)進行清洗轉(zhuǎn)換,清洗轉(zhuǎn)換后的數(shù)據(jù)存放在分布式文件系統(tǒng)中; 步驟3.數(shù)據(jù)統(tǒng)計分析,對分布式文件系統(tǒng)中的日志文件數(shù)據(jù)進行統(tǒng)計分析,得到需要的統(tǒng)計數(shù)據(jù),將統(tǒng)計數(shù)據(jù)存放在分布式文件系統(tǒng)中; 步驟4.數(shù)據(jù)導出:把分布式文件系統(tǒng)中存儲的得到的數(shù)據(jù)導出到外部的數(shù)據(jù)庫中; 步驟5.數(shù)據(jù)展現(xiàn):對外部的數(shù)據(jù)庫中存儲的數(shù)據(jù)進行查詢,并顯示查詢結(jié)果。7.根據(jù)權(quán)利要求6所述的日志分析方法,其特征在于: 所述分布式文件系統(tǒng)是HDFS; 所述日志文件為應用集群的日志文件。8.根據(jù)權(quán)利要求6所述的日志分析方法,其特征在于: 數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性,處理無效值和缺失值。9.根據(jù)權(quán)利要求6所述的日志分析方法,其特征在于: 所述統(tǒng)計數(shù)據(jù)包括PV、注冊用戶數(shù)、獨立ip數(shù)、跳出率。10.根據(jù)權(quán)利要求6所述的日志分析方法,其特征在于: 所述外部的數(shù)據(jù)庫是Mysql數(shù)據(jù)庫。
      【專利摘要】本發(fā)明公開了一種基于Hadoop平臺開發(fā)的企業(yè)網(wǎng)站日志分析系統(tǒng),主要分為五個模塊,分別是文件上傳模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)統(tǒng)計分析模塊、數(shù)據(jù)導出模塊、數(shù)據(jù)展現(xiàn)模塊??梢杂嬎愕玫骄W(wǎng)站各大關(guān)鍵指標,包括瀏覽量PV、注冊用戶數(shù)、ip數(shù)、跳出率,數(shù)據(jù)的展現(xiàn)可以實現(xiàn)海量數(shù)據(jù)的毫秒級查詢。
      【IPC分類】G06F17/30
      【公開號】CN105677842
      【申請?zhí)枴緾N201610006805
      【發(fā)明人】許丹霞, 劉寅, 汪偉, 鄭宇
      【申請人】北京匯商融通信息技術(shù)有限公司
      【公開日】2016年6月15日
      【申請日】2016年1月5日
      當前第2頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1