所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0026]圖1為本發(fā)明的一種基于HADOOP的LTE MRO數(shù)據(jù)統(tǒng)計(jì)方法及系統(tǒng)的系統(tǒng)架構(gòu)圖。
[0027]圖2為本發(fā)明的一種基于HADOOP的LTE MRO數(shù)據(jù)統(tǒng)計(jì)方法及系統(tǒng)的方法流程圖。
【具體實(shí)施方式】
[0028]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0029]實(shí)施例一
本實(shí)施例的基于Hadoop的LTE MRO數(shù)據(jù)統(tǒng)計(jì)方法及系統(tǒng)采用以下步驟:
1、集群所有節(jié)點(diǎn)部署并開啟自開發(fā)的多線程ftp下載工具,此工具實(shí)時(shí)掃描基站文件服務(wù)器,若存在LTE MRO新文件,則啟動(dòng)線程,采用ftp服務(wù)實(shí)時(shí)下載文件,單文件下載完成后,對(duì)本地遠(yuǎn)程的此文件進(jìn)行md5校驗(yàn),若不成功重新下載,從而保證了數(shù)據(jù)的準(zhǔn)確性。此工具保證了,將遠(yuǎn)程原始文件下載到本地服務(wù)器。
[0030]2、集群所有節(jié)點(diǎn)部署并開發(fā)自研發(fā)多線程LTE MRO文件解析程序,此程序?qū)⑽募M(jìn)行了格式化,將格式化文件寫入本地磁盤。
[0031]3、hdfs掛載通過(guò)使用Hadoop的Fuse-DFS模塊,將Hadoop文件系統(tǒng)作為一個(gè)標(biāo)準(zhǔn)文件系統(tǒng)進(jìn)行掛載在Iinux系統(tǒng)上,可以使用Lnix的工具與這個(gè)文件系統(tǒng)交互,也可以通過(guò)任意一種編程語(yǔ)言使用POSIX庫(kù)來(lái)訪問此文件系統(tǒng)。
[0032]任何一個(gè)文件,目錄和block,在HDFS中都會(huì)被表示為一個(gè)object存儲(chǔ)在namenode的內(nèi)存中,每一個(gè)object占用150 bytes的內(nèi)存空間,同時(shí)也為訪問帶來(lái)效率問題。大量的小文件會(huì)超出計(jì)算機(jī)硬件所能滿足的極限。HAR files方式和Sequence Files方式也不能全部解決內(nèi)存和效率問題。LTE MRO數(shù)據(jù)為大小為幾百k到幾M的小文件,所以對(duì)解析后數(shù)據(jù),采用匯聚方式,按指定數(shù)量進(jìn)行合并,并將合并后文件寫入Hdfs。Hdfs外匯聚方式則大大減少了 namenode的內(nèi)存壓力和訪問壓力,提高了文件訪問效率。
[0033]4、根據(jù)業(yè)務(wù)需求,在Hive數(shù)據(jù)倉(cāng)庫(kù)中建源數(shù)據(jù)層,中間層和應(yīng)用層,并在不同的層中建響應(yīng)分區(qū)表,這些表根據(jù)日期和廠商進(jìn)行分區(qū),便于數(shù)據(jù)導(dǎo)出和修復(fù)。源數(shù)據(jù)層即臨時(shí)數(shù)據(jù)層,數(shù)據(jù)由庫(kù)外文件加載,此層數(shù)據(jù)不需要長(zhǎng)期保存;中間層由源數(shù)據(jù)層根據(jù)各過(guò)濾規(guī)則統(tǒng)計(jì)得到;應(yīng)用層由中間層數(shù)據(jù)統(tǒng)計(jì)得到。
[0034]同時(shí)根據(jù)業(yè)務(wù)需求,開發(fā)Hql語(yǔ)句并寫入文本文件,由調(diào)度程序統(tǒng)一調(diào)度。如有新業(yè)務(wù)需求,業(yè)務(wù)人員開發(fā)新Hql語(yǔ)句,寫入文本文件放入指定位置即可。
[0035]5、調(diào)度程序統(tǒng)一調(diào)度執(zhí)行Hql,從Hive源數(shù)據(jù)層表中抽取數(shù)據(jù),依次生成中間層表和應(yīng)用表數(shù)據(jù)。Hive通過(guò)入口函數(shù)收到Hql,首先根據(jù)關(guān)鍵字用語(yǔ)法解析器和詞法解析器將Hql轉(zhuǎn)換成抽象語(yǔ)法樹,然后對(duì)此語(yǔ)法樹進(jìn)行優(yōu)化生成新的語(yǔ)法樹,最后生成執(zhí)行計(jì)劃plan, xml,根據(jù)plan, xml啟動(dòng)Hadoop的Map/Reduce程序得到hql的執(zhí)行結(jié)果。
[0036]Hive不僅可以編寫Hql語(yǔ)句統(tǒng)計(jì)數(shù)據(jù),而且可以編寫函數(shù)等調(diào)用Map/Reduce進(jìn)行更復(fù)雜的挖掘,所以此系統(tǒng)具有良好的擴(kuò)展性。
[0037]6、應(yīng)用層數(shù)據(jù)生成后,調(diào)度程序會(huì)調(diào)用Sqoop,將Hive新生成數(shù)據(jù)導(dǎo)入Oracle。由于Hive中表按天和廠商分區(qū),將日期分期中數(shù)據(jù)導(dǎo)出即可。
[0038]7、監(jiān)控程序后臺(tái)運(yùn)行,實(shí)時(shí)接收實(shí)時(shí)調(diào)度程序和定時(shí)調(diào)度程序的執(zhí)行結(jié)果,并實(shí)時(shí)掃描Hadoop和Hive日志,如有失敗任務(wù),則重新執(zhí)行。
[0039]以本系統(tǒng)在某省移動(dòng)實(shí)施為例,LTE MRO源數(shù)據(jù)產(chǎn)生于基站服務(wù)器,全省有21176個(gè)基站服務(wù)器,每個(gè)基站服務(wù)器每15分鐘產(chǎn)生一個(gè)壓縮文件(大小幾百K到幾M),壓縮文件總數(shù)據(jù)量大約86G (壓縮比例大約1:26)。采用的hadoop集群包括6臺(tái)服務(wù)器,I臺(tái) namenode,5 臺(tái) datanode。服務(wù)器操作系統(tǒng)版本,Red Hat Enterprise Linux Serverrelease 6.5, Hadoop片反本為2.4,Hive版本為0.13.1,sqoop版本為1.4.5。服務(wù)器的硬件配置為:Cpu:1ntel (R) Xeon(R) CPU E5-2430 O i 2.20GHz (6 core) *4 ;Disk: 8* 900GBSATA ;128G內(nèi)存;萬(wàn)兆網(wǎng)卡。
[0040]全省MRO —天的數(shù)據(jù)加載入hdfs大約需32分鐘,Hive統(tǒng)計(jì)大約需55分鐘。而如此大量的數(shù)據(jù)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)是無(wú)法處理的。由此可見基于hadoop平臺(tái)的此發(fā)明大大縮短了處理時(shí)間,從而及時(shí)向用戶及時(shí)提供統(tǒng)計(jì)報(bào)告。
[0041]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于HADOOP的LTE MRO數(shù)據(jù)統(tǒng)計(jì)方法,包括以下步驟: A、集群所有節(jié)點(diǎn)部署并開啟自開發(fā)的多線程ftp下載工具,此工具實(shí)時(shí)掃描基站文件服務(wù)器; B、集群所有節(jié)點(diǎn)部署并開發(fā)自研發(fā)多線程LTEMRO文件解析程序,此程序?qū)⑽募M(jìn)行了格式化,將格式化文件寫入本地磁盤; C、Hadoop分布式文件系統(tǒng)掛載通過(guò)使用Hadoop的Fuse-DFS模塊,將Hadoop文件系統(tǒng)作為一個(gè)標(biāo)準(zhǔn)文件系統(tǒng)進(jìn)行掛載在Iinux系統(tǒng)上; D、根據(jù)業(yè)務(wù)需求,在Hive數(shù)據(jù)倉(cāng)庫(kù)中建源數(shù)據(jù)層,中間層和應(yīng)用層,并在不同的層中建響應(yīng)分區(qū)表,這些表根據(jù)日期和廠商進(jìn)行分區(qū),便于數(shù)據(jù)導(dǎo)出和修復(fù); E、同時(shí)根據(jù)業(yè)務(wù)需求,開發(fā)Hql語(yǔ)句并寫入文本文件,由調(diào)度程序統(tǒng)一調(diào)度; F、調(diào)度程序統(tǒng)一調(diào)度執(zhí)行Hql,從Hive源數(shù)據(jù)層表中抽取數(shù)據(jù),依次生成中間層表和應(yīng)用表數(shù)據(jù); G、應(yīng)用層數(shù)據(jù)生成后,調(diào)度程序會(huì)調(diào)用Sqoop,將Hive新生成數(shù)據(jù)導(dǎo)入Oracle; H、監(jiān)控程序后臺(tái)運(yùn)行,實(shí)時(shí)接收實(shí)時(shí)調(diào)度程序和定時(shí)調(diào)度程序的執(zhí)行結(jié)果,并實(shí)時(shí)掃描Hadoop和Hive日志,如有失敗任務(wù),則重新執(zhí)行。
2.根據(jù)權(quán)利要求1所述的一種基于HADOOP的LTEMRO數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于,所述的步驟A中,若存在LTE MRO新文件,則啟動(dòng)線程,采用ftp服務(wù)實(shí)時(shí)下載文件,單文件下載完成后,對(duì)本地遠(yuǎn)程的此文件進(jìn)行md5校驗(yàn),若不成功重新下載。
3.根據(jù)權(quán)利要求1所述的一種基于HADOOP的LTEMRO數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于,所述的步驟F中,Hive通過(guò)入口函數(shù)收到Hql,首先根據(jù)關(guān)鍵字用語(yǔ)法解析器和詞法解析器將Hql轉(zhuǎn)換成抽象語(yǔ)法樹,然后對(duì)此語(yǔ)法樹進(jìn)行優(yōu)化生成新的語(yǔ)法樹,最后生成執(zhí)行計(jì)劃plan, xml,根據(jù)plan, xml啟動(dòng)Hadoop的Map/Reduce程序得到hql的執(zhí)行結(jié)果。
4.一種基于HADOOP的LTE MRO數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),包括Hadoop集群,在集群各datanode節(jié)點(diǎn)部署實(shí)時(shí)調(diào)度模塊和定時(shí)調(diào)度模塊,所述的實(shí)時(shí)調(diào)度模塊會(huì)實(shí)時(shí)掃描基站服務(wù)器上的LTE MRO文件,并多線程ftp下載,解析,在集群各datanode節(jié)點(diǎn),通過(guò)Fuse-DFS模塊將Hdfs掛在到系統(tǒng),定時(shí)調(diào)度模塊會(huì)定時(shí)按照指定數(shù)量合并解析后文件,并寫入Hdfs,合并后文件采用廠商+時(shí)間+線程號(hào)命名,便于任務(wù)失敗時(shí),產(chǎn)出重做。
5.根據(jù)權(quán)利要求4所述的一種基于HADOOP的LTEMRO數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),其特征在于,在所述集群namenode節(jié)點(diǎn)部署Hadoop Sqoop模塊,統(tǒng)計(jì)完成后,調(diào)用shell命令通過(guò)Sqoop將應(yīng)用層新生成數(shù)據(jù)寫入Oracle數(shù)據(jù)庫(kù)供展現(xiàn)給用戶。
6.根據(jù)權(quán)利要求4所述的一種基于HADOOP的LTEMRO數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),其特征在于,在所述集群namenode服務(wù)器部署監(jiān)控模塊,監(jiān)控模塊后臺(tái)執(zhí)行,實(shí)時(shí)接收各模塊執(zhí)行結(jié)果,并且實(shí)時(shí)掃描Hadoop,Hive日志,若有錯(cuò)誤產(chǎn)生,報(bào)警并重新執(zhí)行任務(wù)。
【專利摘要】本發(fā)明涉及一種LTE網(wǎng)絡(luò)數(shù)據(jù)統(tǒng)計(jì)方法技術(shù)領(lǐng)域,特別涉及一種基于HADOOP的LTE MRO數(shù)據(jù)統(tǒng)計(jì)方法及系統(tǒng)。本發(fā)明一種基于HADOOP的LTE MRO數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),包括Hadoop集群,在集群各datanode節(jié)點(diǎn)部署實(shí)時(shí)調(diào)度模塊和定時(shí)調(diào)度模塊,所述的實(shí)時(shí)調(diào)度模塊會(huì)實(shí)時(shí)掃描基站服務(wù)器上的LTE MRO文件,并多線程ftp下載,解析,在集群各datanode節(jié)點(diǎn),通過(guò)Fuse-DFS模塊將Hdfs掛在到系統(tǒng),定時(shí)調(diào)度模塊會(huì)定時(shí)按照指定數(shù)量合并解析后文件,并寫入Hdfs,合并后文件采用廠商+時(shí)間+線程號(hào)命名,便于任務(wù)失敗時(shí),產(chǎn)出重做。本發(fā)明實(shí)現(xiàn)了類似LTE MRO文件的海量小文件,解決了海量數(shù)據(jù)給電信運(yùn)營(yíng)商帶來(lái)的處理壓力,提供了高效智能統(tǒng)計(jì)和數(shù)據(jù)挖掘的途徑。
【IPC分類】H04L29-08, G06F17-30
【公開號(hào)】CN104767795
【申請(qǐng)?zhí)枴緾N201510113891
【發(fā)明人】逄立業(yè)
【申請(qǐng)人】浪潮通信信息系統(tǒng)有限公司
【公開日】2015年7月8日
【申請(qǐng)日】2015年3月17日