国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于大數(shù)據(jù)的服務(wù)平臺整合方法

      文檔序號:10594116閱讀:363來源:國知局
      一種基于大數(shù)據(jù)的服務(wù)平臺整合方法
      【專利摘要】本發(fā)明公開了一種基于大數(shù)據(jù)的服務(wù)平臺整合方法,包括以下步驟:(1)采集多源異構(gòu)數(shù)據(jù);(2)對所采集的多源異構(gòu)數(shù)據(jù)進(jìn)行整合,并將整合后的數(shù)據(jù)存入Hbase數(shù)據(jù)庫;(3)利用Hive對整合后存入Hbase數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行ETL處理,并存入Hbase數(shù)據(jù)庫,對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行清洗得到干凈的數(shù)據(jù),并將干凈數(shù)據(jù)存儲在Hbase數(shù)據(jù)庫中;(4)基于Hadoop技術(shù)對得到的干凈數(shù)據(jù)進(jìn)行建模分析,并將分析結(jié)果存儲在Hive數(shù)據(jù)庫中;(5)采用基于SOA的服務(wù)架構(gòu)建立數(shù)據(jù)交換與共享服務(wù)總線,然后基于服務(wù)總線建立數(shù)據(jù)交換架構(gòu),通過數(shù)據(jù)交換架構(gòu)將存儲在Hive數(shù)據(jù)庫中的分析結(jié)果推送至業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù)庫中。本方法有效地減少了溝通成本和時間成本,提高了數(shù)據(jù)的有效利用率。
      【專利說明】
      一種基于大數(shù)據(jù)的服務(wù)平臺整合方法
      技術(shù)領(lǐng)域
      [0001]本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,特別涉及一種基于大數(shù)據(jù)的服務(wù)平臺整合方法?!颈尘凹夹g(shù)】
      [0002]大數(shù)據(jù)是信息化產(chǎn)業(yè)下一代信息技術(shù)制高點,智慧城市建設(shè)已經(jīng)在國內(nèi)提上議事日程,智慧城市蘊含大量的數(shù)據(jù),是服務(wù)于政務(wù)、企業(yè)和市民的新一代應(yīng)用技術(shù),但現(xiàn)有的智慧城市大數(shù)據(jù)整合技術(shù)尚不能在城市各個方面服務(wù)于政務(wù)和廣大公眾,這主要是由于以下幾個方面的局限造成的:(1)大數(shù)據(jù)的復(fù)雜性的計算模型,目前只是對多源數(shù)據(jù)進(jìn)行性質(zhì)分析和規(guī)律探索,尚沒有完整的應(yīng)用方法體系;(2)結(jié)構(gòu)化數(shù)據(jù)少,非結(jié)構(gòu)化數(shù)據(jù)多,尚不具有較先進(jìn)的技術(shù)或手段處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù);(3)探索大數(shù)據(jù)復(fù)雜性、不確定性特征描述的刻畫方法及大數(shù)據(jù)的系統(tǒng)建模尚不完善;(4)目前的大數(shù)據(jù)挖掘基本處于一次挖掘粗糙知識的狀態(tài),未探尋出較完善的二次挖掘方法為決策層提供智慧知識引導(dǎo)決策。
      【發(fā)明內(nèi)容】

      [0003]為了克服以上缺陷,本發(fā)明的目的是提供一種基于大數(shù)據(jù)的服務(wù)平臺整合方法, 該發(fā)明是對城市多源異構(gòu)數(shù)據(jù)的采集、整合、存儲、清洗、建模分析及應(yīng)用的一種方法,通過這一方法將形成數(shù)據(jù)的由下而上的處理過程;和常規(guī)數(shù)據(jù)處理方式比較,整合的多數(shù)據(jù)源增加了數(shù)據(jù)的有效利用率,有效地減少了溝通成本和時間成本。
      [0004]為了達(dá)到以上目的,本發(fā)明提供了一種基于大數(shù)據(jù)的服務(wù)平臺整合方法,包括以下步驟:步驟1:采集多源異構(gòu)數(shù)據(jù);步驟2:對所采集到的多源異構(gòu)數(shù)據(jù)進(jìn)行整合,并將整合后的數(shù)據(jù)存入Hbase數(shù)據(jù)庫; 步驟3:利用Hi ve對整合后存入Hbase數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行ETL處理,并存入Hbase數(shù)據(jù)庫, 對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行清洗得到干凈的數(shù)據(jù),并將干凈數(shù)據(jù)存儲在Hbase數(shù)據(jù)庫中;步驟4:基于Hadoop技術(shù)對存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行建模分析,并將分析結(jié)果存儲在Hive數(shù)據(jù)庫中;步驟5:采用基于S0A的服務(wù)架構(gòu)建立數(shù)據(jù)交換與共享服務(wù)總線,然后基于服務(wù)總線建立數(shù)據(jù)交換架構(gòu),通過數(shù)據(jù)交換架構(gòu)將存儲在Hive數(shù)據(jù)庫中的分析結(jié)果推送至業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù)庫中,以便將分析結(jié)果數(shù)據(jù)在相應(yīng)業(yè)務(wù)系統(tǒng)中進(jìn)行應(yīng)用。
      [0005]優(yōu)選地,所述步驟1中采集多源異構(gòu)數(shù)據(jù),其步驟具體如下:步驟1.1:配置多源異構(gòu)數(shù)據(jù)源;步驟1.2:將多源異構(gòu)數(shù)據(jù)源封裝成數(shù)據(jù)構(gòu)件;步驟1.3:將封裝成的數(shù)據(jù)構(gòu)件讀取出來并將其轉(zhuǎn)換成全局對象;步驟1.4:將轉(zhuǎn)換成全局對象的數(shù)據(jù)構(gòu)件組合,實現(xiàn)多源異構(gòu)數(shù)據(jù)的統(tǒng)一訪問構(gòu)件平臺;步驟1.5:通過構(gòu)件平臺采集多源異構(gòu)數(shù)據(jù)并傳輸至數(shù)據(jù)中心,完成多源異構(gòu)數(shù)據(jù)的采集;優(yōu)選地,所述步驟3中對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行清洗得到干凈的數(shù)據(jù),其步驟具體如下:步驟3.1:對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)的進(jìn)行查重處理;步驟3.2:對查重后的缺失數(shù)據(jù)進(jìn)行插補數(shù)據(jù)處理;步驟3.3:對補缺后的數(shù)據(jù)進(jìn)行聚類分析,分析出游離在聚類邊緣的數(shù)據(jù);依據(jù)不同數(shù)據(jù)類型設(shè)定有效范圍,去除掉范圍外的值,得到干凈的數(shù)據(jù),并存儲在Hbase數(shù)據(jù)庫中。 [00〇6]優(yōu)選地,所述步驟4中基于Hadoop技術(shù)對存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行建模分析,包括:基于hadoop技術(shù)對存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行聚類分析,聚類分析后的數(shù)據(jù)分別存儲在Hive數(shù)據(jù)庫中,以備后用,其具體過程如下:(1)創(chuàng)建一個初始化分,隨機地從存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)選擇k個對象,將這些對象作為簇中心;(2)判斷Hbase數(shù)據(jù)庫中余下的干凈數(shù)據(jù)與各個簇中心的距離;(3)將余下的干凈數(shù)據(jù)依次賦給簇中心;(4)當(dāng)有數(shù)據(jù)對象加入和離開簇的時候自動計算該簇的平均值,若不滿足最小距離則對該數(shù)據(jù)進(jìn)行重新分配簇;(5)循環(huán)重復(fù)上述步驟,直到簇中心數(shù)據(jù)不再變化,此時記錄結(jié)果;(6)將結(jié)果存入Hive數(shù)據(jù)庫。
      [0007]基于hadoop技術(shù)將存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行協(xié)同推薦分析,協(xié)同推薦分析后的數(shù)據(jù)存儲在Hive數(shù)據(jù)庫中,以備后用,其具體過程如下:(1)獲取存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù),并將其轉(zhuǎn)換為分析所需格式的數(shù)據(jù)集;(2)將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集;(3)用訓(xùn)練數(shù)據(jù)集來訓(xùn)練出推薦模型;(4)用測試集數(shù)據(jù)來評估推薦模型的精度;(5)當(dāng)推薦模型的精度滿足需求時,進(jìn)行推薦,輸出結(jié)果,否則重新進(jìn)行訓(xùn)練得到模型, 再評估一直到得到滿足需求的數(shù)據(jù)為止;(6)將輸出的結(jié)果存入Hive數(shù)據(jù)庫;基于hadoop技術(shù)將存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行分類分析,將分類分析后的數(shù)據(jù)存儲在Hive數(shù)據(jù)庫中,并為不同數(shù)據(jù)打上不同標(biāo)簽,以備后用,其具體過程如下:(1)獲取存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù),并將其轉(zhuǎn)換為分析所需格式的數(shù)據(jù)集;(2)為數(shù)據(jù)集賦予特征屬性,依據(jù)特征屬性將數(shù)據(jù)集進(jìn)行適當(dāng)劃分成多個待分類項,對一部分分類項進(jìn)行分類,形成訓(xùn)練樣本集合;(3)根據(jù)我們最終要得到的數(shù)據(jù)分類計算訓(xùn)練樣本集合中每個類別出現(xiàn)的頻率及每個特征屬性對每個類別的概率估計,得到分類器;(4)使用分類器對需要分類的數(shù)據(jù)進(jìn)行分類,輸出結(jié)果;(5)將結(jié)果保存在Hive數(shù)據(jù)庫中。
      [0008]優(yōu)選地,所述步驟3.1中對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)的進(jìn)行查重處理,其具體步驟如下:步驟3.1.1:對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行重復(fù)查詢,篩選出所有字段完全重復(fù)的數(shù)據(jù);保留一筆數(shù)據(jù),去掉完全重復(fù)的其他數(shù)據(jù);步驟3.1.2:以關(guān)鍵字段進(jìn)行數(shù)據(jù)重復(fù)查詢;篩選出關(guān)鍵字段重復(fù)的數(shù)據(jù);比較重復(fù)數(shù)據(jù)的完整性,保留字段數(shù)據(jù)較完整的一筆,去掉其余重復(fù)數(shù)據(jù)。
      [0009]優(yōu)選地,所述步驟3.2中對查重后的缺失數(shù)據(jù)進(jìn)行插補數(shù)據(jù)處理,其具體步驟如下:步驟3.2.1:對于有規(guī)律缺失數(shù)據(jù)且不重要數(shù)據(jù),則刪除缺失;對于有規(guī)律缺失數(shù)據(jù)且較重要數(shù)據(jù),利用完整數(shù)據(jù)計算數(shù)據(jù)權(quán)重來進(jìn)行增補;對于無規(guī)律缺失數(shù)據(jù)依據(jù)缺失數(shù)據(jù)類型進(jìn)行分別處理;步驟3.2.2:對于同屬性數(shù)據(jù)采用已存在數(shù)據(jù)均值和該屬性值出現(xiàn)概率最高的值進(jìn)行填補;對于不同屬性隨機缺失數(shù)據(jù)利用數(shù)據(jù)首先為每個缺失值產(chǎn)生可能的插補值,根據(jù)可能的插補值形成的完整數(shù)據(jù)進(jìn)行統(tǒng)計分析,對分析結(jié)果進(jìn)行評定,形成最終的插補值對缺失值進(jìn)行插補。
      [0010]優(yōu)選地,所述步驟1.2中將多源異構(gòu)數(shù)據(jù)源封裝成數(shù)據(jù)構(gòu)件,其具體步驟為:步驟1.2.1:利用數(shù)據(jù)庫表結(jié)構(gòu)準(zhǔn)備構(gòu)件對象;步驟1.2.2:通過數(shù)據(jù)庫查詢出數(shù)據(jù)庫中的表列表;步驟1.2.3:以表列表中的數(shù)據(jù)表為對象查詢出每個表的數(shù)據(jù)庫字段及字段數(shù)據(jù)結(jié)構(gòu); 步驟1.2.4:以數(shù)據(jù)表為對象將表結(jié)構(gòu)讀取出來,將數(shù)據(jù)字段屬性設(shè)置為表對象的基本屬性信息;步驟1.2.5:將對象表封裝成一個可通過屬性字段查詢的構(gòu)件;與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明是對城市多源異構(gòu)數(shù)據(jù)的采集、整合、存儲、清洗、建模分析及應(yīng)用的一種方法,通過這一方法將形成數(shù)據(jù)的由下而上的處理過程; 并且對形成數(shù)據(jù)的來源和處理過程做到有跡可查,有章可尊;和常規(guī)數(shù)據(jù)處理方式比較,整合的多數(shù)據(jù)源增加了數(shù)據(jù)的有效利用率,有效地減少了溝通成本和時間成本?!靖綀D說明】
      [0011]圖1為本發(fā)明流程圖;圖2為基于Sqoop的ETL模塊。【具體實施方式】
      [0012]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述。
      [0013]如圖1和圖2所示,本發(fā)明提供了一種基于大數(shù)據(jù)的服務(wù)平臺整合方法,包括以下步驟:步驟1:采集多源異構(gòu)數(shù)據(jù),其具體采集過程包括以下步驟:步驟1.1:配置多源異構(gòu)數(shù)據(jù)源,在采集數(shù)據(jù)的部門(包括:國土、環(huán)保、水利、氣象、林業(yè)、安監(jiān)、質(zhì)監(jiān)等)配置前置機和人工輸入的終端設(shè)備,在數(shù)據(jù)中心配置前置機、應(yīng)用服務(wù)器、數(shù)據(jù)庫服務(wù)器、WEB服務(wù)器、系統(tǒng)監(jiān)控終端和工作終端等設(shè)備進(jìn)行采集數(shù)據(jù)的業(yè)務(wù)處理;步驟1.2:將多源異構(gòu)數(shù)據(jù)源封裝成數(shù)據(jù)構(gòu)件,其具體步驟為:步驟1.2.1:利用數(shù)據(jù)庫表結(jié)構(gòu)準(zhǔn)備構(gòu)件對象;步驟1.2.2:通過數(shù)據(jù)庫查詢出數(shù)據(jù)庫中的表列表;步驟1.2.3:以表列表中的數(shù)據(jù)表為對象查詢出每個表的數(shù)據(jù)庫字段及字段數(shù)據(jù)結(jié)構(gòu); 步驟1.2.4:以數(shù)據(jù)表為對象將表結(jié)構(gòu)讀取出來,將數(shù)據(jù)字段屬性設(shè)置為表對象的基本屬性信息;步驟1.2.5:將對象表封裝成一個可通過屬性字段查詢的構(gòu)件;步驟1.3:將封裝成的數(shù)據(jù)構(gòu)件讀取出來并將其轉(zhuǎn)換成全局對象;步驟1.4:將轉(zhuǎn)換成全局對象的數(shù)據(jù)構(gòu)件組合,實現(xiàn)多源異構(gòu)數(shù)據(jù)的統(tǒng)一訪問構(gòu)件平臺;步驟1.5:通過構(gòu)件平臺采集多源異構(gòu)數(shù)據(jù)并傳輸至數(shù)據(jù)中心,完成多源異構(gòu)數(shù)據(jù)的采集,其具體步驟為:步驟1.5.1設(shè)置數(shù)據(jù)采集方式,包括采集頻率,采集節(jié)點,采集范圍;步驟1.5.2.通過構(gòu)件平臺將欲采集數(shù)據(jù)讀取出來;步驟1.5.3.將讀取出來的數(shù)據(jù)通過網(wǎng)絡(luò)傳輸至數(shù)據(jù)中心。[〇〇14]步驟2:對所采集到的多源異構(gòu)數(shù)據(jù)進(jìn)行整合,并將整合后的數(shù)據(jù)存入Hbase數(shù)據(jù)庫。[〇〇15] 步驟3:利用Hive對整合后存入Hbase數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行ETL處理,并存入Hbase數(shù)據(jù)庫,對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行清洗得到干凈的數(shù)據(jù),并將干凈數(shù)據(jù)存儲在 Hbase數(shù)據(jù)庫中,其具體過程為:如圖2所示,利用Hive對整合后存入Hbase數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行ETL處理,基于Sqoop的ETL 模塊首先通過Java數(shù)據(jù)庫連接JDBC與數(shù)據(jù)源建立連接并查看數(shù)據(jù)源的元數(shù)據(jù)信息,然后將 JDBC端獲取的SQL類型數(shù)據(jù)轉(zhuǎn)換為Java類格式的Sqoop記錄,并作為格式化輸入提交給 MapReduce任務(wù),最終,通過發(fā)起相應(yīng)數(shù)量的Map任務(wù)和Reduce任務(wù),進(jìn)而將數(shù)據(jù)寫入HDFS 中,客戶端節(jié)點調(diào)用HDFS API,整個文件被分為一個個數(shù)據(jù)包(packet),同時按數(shù)據(jù)隊列 (Data queue)的方式來管理數(shù)據(jù)包,并等待處理,然后,向NameNode申請新的數(shù)據(jù)塊,并獲取一組〇3七3如(16來實際存儲數(shù)據(jù)塊副本(代。1;^38),〇3七31^〇(16構(gòu)成一個管線(pipeline), 將數(shù)據(jù)包依次寫入相應(yīng)的DataNode中,當(dāng)最后一個DataNode數(shù)據(jù)寫入完成,反方向?qū)⒋_認(rèn) f目息依次返回,最后提交NameNode表不與入完成;對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行清洗得到干凈數(shù)據(jù),其具體步驟為:步驟3.1:對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)的進(jìn)行查重處理,其具體步驟為:步驟3.1.1:對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行重復(fù)查詢,篩選出所有字段完全重復(fù)的數(shù)據(jù);保留一筆數(shù)據(jù),去掉完全重復(fù)的其他數(shù)據(jù);步驟3.1.2:以關(guān)鍵字段進(jìn)行數(shù)據(jù)重復(fù)查詢;篩選出關(guān)鍵字段重復(fù)的數(shù)據(jù);比較重復(fù)數(shù)據(jù)的完整性,保留字段數(shù)據(jù)較完整的一筆,去掉其余重復(fù)數(shù)據(jù)。[〇〇16]步驟3.2:對查重后的缺失數(shù)據(jù)進(jìn)行插補數(shù)據(jù)處理,其具體步驟為:步驟3.2.1:對于有規(guī)律缺失數(shù)據(jù)且不重要數(shù)據(jù),則刪除缺失;對于有規(guī)律缺失數(shù)據(jù)且較重要數(shù)據(jù),利用完整數(shù)據(jù)計算數(shù)據(jù)權(quán)重來進(jìn)行增補;對于無規(guī)律缺失數(shù)據(jù)依據(jù)缺失數(shù)據(jù)類型進(jìn)行分別處理;步驟3.2.2:對于同屬性數(shù)據(jù)采用已存在數(shù)據(jù)均值和該屬性值出現(xiàn)概率最高的值進(jìn)行填補;對于不同屬性隨機缺失數(shù)據(jù)利用數(shù)據(jù)首先為每個缺失值產(chǎn)生可能的插補值,根據(jù)可能的插補值形成的完整數(shù)據(jù)進(jìn)行統(tǒng)計分析,對分析結(jié)果進(jìn)行評定,形成最終的插補值對缺失值進(jìn)行插補。
      [0017]步驟3.3:對補缺后的數(shù)據(jù)進(jìn)行聚類分析,分析出游離在聚類邊緣的數(shù)據(jù);依據(jù)不同數(shù)據(jù)類型設(shè)定有效范圍,去除掉范圍外的值,得到干凈的數(shù)據(jù),并存儲在Hbase數(shù)據(jù)庫中。 [〇〇18]步驟4:基于Hadoop技術(shù)對存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行建模分析,并將分析結(jié)果存儲在Hive數(shù)據(jù)庫中,其包括:基于hadoop技術(shù)進(jìn)行聚類分析,將存儲在Hbase數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行聚類,Hbase數(shù)據(jù)庫中數(shù)據(jù)對象為多個類,在同一類中的對象之間具有較高的相似度,而不同類中的對象差別較大,聚類后的數(shù)據(jù)存儲在Hive數(shù)據(jù)庫中,以備后用;k-means聚類是一種廣泛使用的基于劃分的聚類分析算法,具體實現(xiàn)過程為:(1)創(chuàng)建一個初始化分,隨機地從存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)選擇k個對象,將這些對象作為簇中心;(2)判斷Hbase數(shù)據(jù)庫中余下的干凈數(shù)據(jù)與各個簇中心的距離;(3)將余下的干凈數(shù)據(jù)依次賦給簇中心;(4)當(dāng)有數(shù)據(jù)對象加入和離開簇的時候自動計算該簇的平均值,若不滿足最小距離則對該數(shù)據(jù)進(jìn)行重新分配簇;(5)循環(huán)重復(fù)上述步驟,直到簇中心數(shù)據(jù)不再變化,此時記錄結(jié)果;(6)將結(jié)果存入Hive數(shù)據(jù)庫。[〇〇19]基于hadoop技術(shù)進(jìn)行協(xié)同推薦分析,根據(jù)用戶的使用習(xí)慣和數(shù)據(jù)定制標(biāo)簽向不同用戶類型或?qū)ο笸扑]相應(yīng)的數(shù)據(jù),通過訓(xùn)練后存儲在Hive數(shù)據(jù)庫中;協(xié)同過濾是推薦系統(tǒng)廣泛使用的一種技術(shù),它主要通過考慮用戶與用戶之間、物品與物品之間的相似度,來向用戶進(jìn)行推薦,Collaborative Filtering with ALS-WR是一個常用的推薦算法,該算法核心的思想就是把所有的用戶以及項目想象成一個二維表格,該表格中有數(shù)據(jù)的單元格(i,j), 便是第i個用戶對第j個項目的評分,然后利用該算法使用表格中有數(shù)據(jù)的單元格來預(yù)測為空的單元格。預(yù)測得到的數(shù)據(jù)即為用戶對項目的評分,然后按照預(yù)測的項目評分從高到低排序,便可以進(jìn)行推薦,具體實現(xiàn)過程為:(1)獲取存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù),并將其轉(zhuǎn)換為分析所需格式的數(shù)據(jù)集;(2)將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集;(3)用訓(xùn)練數(shù)據(jù)集來訓(xùn)練出推薦模型;(4)用測試集數(shù)據(jù)來評估推薦模型的精度;(5)當(dāng)推薦模型的精度滿足需求時,進(jìn)行推薦,輸出結(jié)果,否則重新進(jìn)行訓(xùn)練得到模型, 再評估一直到得到滿足需求的數(shù)據(jù)為止;(6)將輸出的結(jié)果存入Hive數(shù)據(jù)庫。
      [0020]基于hadoop技術(shù)進(jìn)行分類,將采集訓(xùn)練后的數(shù)據(jù)進(jìn)行分門別類存儲在Hive數(shù)據(jù)庫中,并為不同數(shù)據(jù)打上不同標(biāo)簽,以便后續(xù)使用,樸素貝葉斯分類是一種常用的分類算法, 其核心思想是對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率哪個最大,就認(rèn)為此待分類項屬于哪個類別,具體實現(xiàn)過程為:(1)獲取存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù),并將其轉(zhuǎn)換為分析所需格式的數(shù)據(jù)集;(2)為數(shù)據(jù)集賦予特征屬性,依據(jù)特征屬性將數(shù)據(jù)集進(jìn)行適當(dāng)劃分成多個待分類項,對一部分分類項進(jìn)行分類,形成訓(xùn)練樣本集合;(3)根據(jù)我們最終要得到的數(shù)據(jù)分類計算訓(xùn)練樣本集合中每個類別出現(xiàn)的頻率及每個特征屬性對每個類別的概率估計,得到分類器;(4)使用分類器對需要分類的數(shù)據(jù)進(jìn)行分類,輸出結(jié)果;(5)將結(jié)果保存在Hive數(shù)據(jù)庫中。
      [0021]步驟5:采用基于S0A的服務(wù)架構(gòu)建立數(shù)據(jù)交換與共享服務(wù)總線,然后基于服務(wù)總線建立數(shù)據(jù)交換架構(gòu),通過數(shù)據(jù)交換架構(gòu)將存儲在Hi ve數(shù)據(jù)庫中的分析結(jié)果推送至業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù)庫中,以便將分析結(jié)果數(shù)據(jù)在相應(yīng)業(yè)務(wù)系統(tǒng)中進(jìn)行應(yīng)用。
      【主權(quán)項】
      1.一種基于大數(shù)據(jù)的服務(wù)平臺整合方法,其特征在于,包括以下步驟:步驟1:采集多源異構(gòu)數(shù)據(jù);步驟2:對所采集到的多源異構(gòu)數(shù)據(jù)進(jìn)行整合,并將整合后的數(shù)據(jù)存入Hbase數(shù)據(jù)庫; 步驟3:利用Hive對整合后存入Hbase數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行ETL處理,并存入Hbase數(shù)據(jù)庫, 對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行清洗得到干凈數(shù)據(jù),并將干凈數(shù)據(jù)存儲在Hbase數(shù)據(jù)庫 中;步驟4:基于Hadoop技術(shù)對存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行建模分析,并將分析 結(jié)果存儲在Hive數(shù)據(jù)庫中;步驟5:采用基于S0A的服務(wù)架構(gòu)建立數(shù)據(jù)交換與共享服務(wù)總線,然后基于服務(wù)總線建 立數(shù)據(jù)交換架構(gòu),通過數(shù)據(jù)交換架構(gòu)將存儲在Hive數(shù)據(jù)庫中的分析結(jié)果推送至業(yè)務(wù)應(yīng)用系 統(tǒng)數(shù)據(jù)庫中,以便在相應(yīng)業(yè)務(wù)系統(tǒng)中進(jìn)行應(yīng)用。2.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的服務(wù)平臺整合方法,其特征在于,所述步驟 1中采集多源異構(gòu)數(shù)據(jù),其步驟具體如下:步驟1.1:配置多源異構(gòu)數(shù)據(jù)源;步驟1.2:將多源異構(gòu)數(shù)據(jù)源封裝成數(shù)據(jù)構(gòu)件;步驟1.3:將封裝成的數(shù)據(jù)構(gòu)件讀取出來并將其轉(zhuǎn)換成全局對象;步驟1.4:將轉(zhuǎn)換成全局對象的數(shù)據(jù)構(gòu)件組合,實現(xiàn)多源異構(gòu)數(shù)據(jù)的統(tǒng)一訪問構(gòu)件平 臺;步驟1.5:通過構(gòu)件平臺采集多源異構(gòu)數(shù)據(jù)并傳輸至數(shù)據(jù)中心,完成多源異構(gòu)數(shù)據(jù)的采集。3.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的服務(wù)平臺整合方法,其特征在于,所述步驟 3中對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行清洗得到干凈數(shù)據(jù),其步驟具體如下:步驟3.1:對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)的進(jìn)行查重處理;步驟3.2:對查重后的缺失數(shù)據(jù)進(jìn)行插補數(shù)據(jù)處理;步驟3.3:對補缺后的數(shù)據(jù)進(jìn)行聚類分析,分析出游離在聚類邊緣的數(shù)據(jù);依據(jù)不同數(shù) 據(jù)類型設(shè)定有效范圍,去除掉范圍外的值,得到干凈數(shù)據(jù),并存儲在Hbase數(shù)據(jù)庫中。4.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的服務(wù)平臺整合方法,其特征在于,所述步驟 4中基于Hadoop技術(shù)對存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行建模分析,包括:基于hadoop技術(shù)對存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行聚類分析,聚類分析后的數(shù) 據(jù)分別存儲在Hive數(shù)據(jù)庫中,以備后用,其具體過程如下:(1)創(chuàng)建一個初始化分,隨機地從存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)選擇k個對象,將這 些對象作為簇中心;(2)判斷Hbase數(shù)據(jù)庫中余下的干凈數(shù)據(jù)與各個簇中心的距離;(3)將余 下的干凈數(shù)據(jù)依次賦給簇中心;(4)當(dāng)有數(shù)據(jù)對象加入和離開簇的時候自動計算該簇的平 均值,若不滿足最小距離則對該數(shù)據(jù)進(jìn)行重新分配簇;(5)循環(huán)重復(fù)上述步驟,直到簇中心 數(shù)據(jù)不再變化,此時記錄結(jié)果;(6)將結(jié)果存入Hive數(shù)據(jù)庫;基于hadoop技術(shù)將存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行協(xié)同推薦分析,協(xié)同推薦分 析后的數(shù)據(jù)存儲在Hive數(shù)據(jù)庫中,以備后用,其具體過程如下:(1)獲取存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù),并將其轉(zhuǎn)換為分析所需格式的數(shù)據(jù)集;(2)將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集;(3)用訓(xùn)練數(shù)據(jù)集來訓(xùn)練出推薦模型;(4)用測試集數(shù)據(jù)來評估推薦模型的精度;(5)當(dāng)推薦模型的精度滿足需求時,進(jìn)行推薦,輸出結(jié)果,否則重新進(jìn)行訓(xùn)練得到模型, 再評估一直到得到滿足需求的數(shù)據(jù)為止;(6)將輸出的結(jié)果存入Hive數(shù)據(jù)庫;基于hadoop技術(shù)將存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù)進(jìn)行分類分析,將分類分析后的 數(shù)據(jù)存儲在Hive數(shù)據(jù)庫中,并為不同數(shù)據(jù)打上不同標(biāo)簽,以備后用,其具體過程如下:(1)獲取存儲在Hbase數(shù)據(jù)庫中的干凈數(shù)據(jù),并將其轉(zhuǎn)換為分析所需格式的數(shù)據(jù)集;(2)為數(shù)據(jù)集賦予特征屬性,依據(jù)特征屬性將數(shù)據(jù)集進(jìn)行適當(dāng)劃分成多個待分類項,對 一部分分類項進(jìn)行分類,形成訓(xùn)練樣本集合;(3)根據(jù)我們最終要得到的數(shù)據(jù)分類計算訓(xùn)練樣本集合中每個類別出現(xiàn)的頻率及每個 特征屬性對每個類別的概率估計,得到分類器;(4)使用分類器對需要分類的數(shù)據(jù)進(jìn)行分類,輸出結(jié)果;(5)將結(jié)果保存在Hive數(shù)據(jù)庫中。5.根據(jù)權(quán)利要求3所述的一種基于大數(shù)據(jù)的服務(wù)平臺整合方法,其特征在于,步驟3.1 中對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)的進(jìn)行查重處理,其具體步驟如下:步驟3.1.1:對存儲在Hbase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行重復(fù)查詢,篩選出所有字段完全重復(fù) 的數(shù)據(jù);保留一筆數(shù)據(jù),去掉完全重復(fù)的其他數(shù)據(jù);步驟3.1.2:以關(guān)鍵字段進(jìn)行數(shù)據(jù)重復(fù)查詢;篩選出關(guān)鍵字段重復(fù)的數(shù)據(jù);比較重復(fù)數(shù) 據(jù)的完整性,保留字段數(shù)據(jù)較完整的一筆,去掉其余重復(fù)數(shù)據(jù)。6.根據(jù)權(quán)利要求3所述的一種基于大數(shù)據(jù)的服務(wù)平臺整合方法,其特征在于,步驟3.2 中對查重后的缺失數(shù)據(jù)進(jìn)行插補數(shù)據(jù)處理,其具體步驟如下:步驟3.2.1:對于有規(guī)律缺失數(shù)據(jù)且不重要數(shù)據(jù),則刪除缺失;對于有規(guī)律缺失數(shù)據(jù)且 較重要數(shù)據(jù),利用完整數(shù)據(jù)計算數(shù)據(jù)權(quán)重來進(jìn)行增補;對于無規(guī)律缺失數(shù)據(jù)依據(jù)缺失數(shù)據(jù) 類型進(jìn)行分別處理;步驟3.2.2:對于同屬性數(shù)據(jù)采用已存在數(shù)據(jù)均值和該屬性值出現(xiàn)概率最高的值進(jìn)行 填補;對于不同屬性隨機缺失數(shù)據(jù)利用數(shù)據(jù)首先為每個缺失值產(chǎn)生可能的插補值,根據(jù)可 能的插補值形成的完整數(shù)據(jù)進(jìn)行統(tǒng)計分析,對分析結(jié)果進(jìn)行評定,形成最終的插補值對缺 失值進(jìn)行插補。7.根據(jù)權(quán)利要求2所述的一種基于大數(shù)據(jù)的服務(wù)平臺整合方法,其特征在于,步驟1.2 中將多源異構(gòu)數(shù)據(jù)源封裝成數(shù)據(jù)構(gòu)件,其具體步驟為:步驟1.2.1:利用數(shù)據(jù)庫表結(jié)構(gòu)準(zhǔn)備構(gòu)件對象;步驟1.2.2:通過數(shù)據(jù)庫查詢出數(shù)據(jù)庫中的表列表;步驟1.2.3:以表列表中的數(shù)據(jù)表為對象查詢出每個表的數(shù)據(jù)庫字段及字段數(shù)據(jù)結(jié)構(gòu);步驟1.2.4:以數(shù)據(jù)表為對象將表結(jié)構(gòu)讀取出來,將數(shù)據(jù)字段屬性設(shè)置為表對象的基本 屬性信息;步驟1.2.5:將對象表封裝成一個可通過屬性字段查詢的構(gòu)件。
      【文檔編號】G06F17/30GK105956015SQ201610254729
      【公開日】2016年9月21日
      【申請日】2016年4月22日
      【發(fā)明人】向富強, 曾逸, 楊雪琴
      【申請人】四川中軟科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1