国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于孤立點(diǎn)挖掘的Hadoop數(shù)據(jù)清洗方法及系統(tǒng)的制作方法

      文檔序號(hào):9417482閱讀:611來(lái)源:國(guó)知局
      一種基于孤立點(diǎn)挖掘的Hadoop數(shù)據(jù)清洗方法及系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于計(jì)算機(jī)信息分析與數(shù)據(jù)處理領(lǐng)域,具體涉及一種基于孤立點(diǎn)挖掘的Hadoop數(shù)據(jù)清洗方法及系統(tǒng)。
      【背景技術(shù)】
      [0002]隨著數(shù)據(jù)庫(kù)技術(shù)的廣泛應(yīng)用和發(fā)展,在數(shù)據(jù)庫(kù)的基礎(chǔ)上產(chǎn)生了能夠滿足決策分析所需要的數(shù)據(jù)環(huán)境一一數(shù)據(jù)倉(cāng)庫(kù),以滿足組織的管理人員對(duì)決策分析的需要。我們需要將大量的數(shù)據(jù)從各種異構(gòu)的數(shù)據(jù)源導(dǎo)入,以用于構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中。這些數(shù)據(jù)存在遺漏、錄入錯(cuò)誤和不完整等數(shù)據(jù)質(zhì)量問(wèn)題。錯(cuò)誤的數(shù)據(jù)會(huì)使得操作費(fèi)用更加昂貴,操作相應(yīng)時(shí)間更加費(fèi)時(shí),從數(shù)據(jù)集中抽取的模式的正確性和導(dǎo)出規(guī)則的準(zhǔn)確性也會(huì)受到大大的影響這將會(huì)誤導(dǎo)影響信息服務(wù)的質(zhì)量及企業(yè)決策。因此通過(guò)數(shù)據(jù)清洗,消除數(shù)據(jù)中的不一致和錯(cuò)誤,保證數(shù)據(jù)的正確性,以提高決策的質(zhì)量,這已經(jīng)成為數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造過(guò)程中的一個(gè)重要任務(wù)。
      [0003]數(shù)據(jù)清洗原理即通過(guò)分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式,利用現(xiàn)有的技術(shù)手段和方法去清洗“臟數(shù)據(jù)”,將原有的不符合要求的數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量或應(yīng)用要求的數(shù)據(jù),從而提高數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。
      [0004]數(shù)據(jù)清洗的主要任務(wù)包括三個(gè):不完整數(shù)據(jù)的清洗、錯(cuò)誤數(shù)據(jù)的清洗和重復(fù)數(shù)據(jù)的清洗。對(duì)于不完整數(shù)據(jù)及重復(fù)數(shù)據(jù)的清洗,現(xiàn)已經(jīng)有很多成熟的方案達(dá)到預(yù)期的目標(biāo)。而錯(cuò)誤數(shù)據(jù)的清洗,由于其錯(cuò)誤數(shù)據(jù)的定義不同,會(huì)出現(xiàn)不同的錯(cuò)誤數(shù)據(jù)清洗方案,在通用性方面存在較大的劣勢(shì),特別是對(duì)海量數(shù)據(jù)的處理上,現(xiàn)在對(duì)應(yīng)的解決方案也相對(duì)少。孤立點(diǎn)數(shù)據(jù)是指數(shù)據(jù)集中明顯不同于其他數(shù)據(jù)的對(duì)象,它通常是記錄或測(cè)量的錯(cuò)誤數(shù)據(jù),其對(duì)數(shù)據(jù)分析的結(jié)果有很大的影響。
      [0005]Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,由Apache基金會(huì)開發(fā),可以在大量廉價(jià)的硬件設(shè)備組成的集群上運(yùn)行應(yīng)用程序,為應(yīng)用程序提供一組穩(wěn)定可靠的接口,同時(shí)用戶在充分利用集群的威力高速運(yùn)算和存儲(chǔ)來(lái)開發(fā)分布式程序的同時(shí),而不了解分布式底層細(xì)節(jié)。Hadoop的核心是HDFS分布式文件系統(tǒng)、Map/Reduce分布式并行計(jì)算框架。通過(guò)HDFS提供數(shù)據(jù)存儲(chǔ),使用Map/Reduce實(shí)現(xiàn)并行數(shù)據(jù)處理。利用Hadoop分布式系統(tǒng)及相應(yīng)的并行處理機(jī)制,提出了 Hadoop分布式數(shù)據(jù)清洗方案,使用Hadoop分布式技術(shù)對(duì)孤立點(diǎn)數(shù)據(jù)進(jìn)行挖掘清洗,從而保證海量數(shù)據(jù)清洗的目標(biāo)。

      【發(fā)明內(nèi)容】

      [0006]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種通過(guò)孤立點(diǎn)挖掘找出具有不合理的屬性值的孤立點(diǎn),并執(zhí)行相應(yīng)的數(shù)據(jù)清洗動(dòng)作,能夠?qū)铝Ⅻc(diǎn)數(shù)據(jù)進(jìn)行準(zhǔn)確數(shù)據(jù)清洗,減少重復(fù)清洗,提高數(shù)據(jù)清洗效率的基于孤立點(diǎn)挖掘的Hadoop數(shù)據(jù)清洗方法及系統(tǒng)。
      [0007]本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:一種基于孤立點(diǎn)挖掘的Hadoop數(shù)據(jù)清洗方法,包括以下步驟:
      [0008]S1、將各種異構(gòu)數(shù)據(jù)源的數(shù)據(jù)加載到Hadoop分布式文件系統(tǒng)中;
      [0009]S2 JtHadoop分布式文件系統(tǒng)的數(shù)據(jù)進(jìn)行預(yù)處理:拉取Hadoop分布式文件系統(tǒng)的待清洗數(shù)據(jù),并挖掘出待清洗數(shù)據(jù)中屬性異常的孤立點(diǎn),記孤立點(diǎn)個(gè)數(shù)為N;
      [0010]S3、判斷S2得到的孤立點(diǎn)是否滿足清洗規(guī)則,并對(duì)滿足清洗規(guī)則的孤立點(diǎn)進(jìn)行清洗,具體包括以下三種情況:
      [0011]S31、若N個(gè)孤立點(diǎn)都滿足清洗規(guī)則,則根據(jù)清洗規(guī)則對(duì)N個(gè)孤立點(diǎn)全部進(jìn)行數(shù)據(jù)清洗,并將數(shù)據(jù)清洗后的數(shù)據(jù)寫回Hadoop分布式文件系統(tǒng)中,并返回步驟S2 ;
      [0012]S32、若N個(gè)孤立點(diǎn)中只有R個(gè)孤立點(diǎn)滿足清洗規(guī)則,則根據(jù)清洗規(guī)則對(duì)R個(gè)孤立點(diǎn)進(jìn)行數(shù)據(jù)清洗,并將數(shù)據(jù)清洗后的數(shù)據(jù)寫回Hadoop分布式文件系統(tǒng)中,結(jié)束清洗過(guò)程,其中,1〈R〈N;
      [0013]S33、若N個(gè)孤立點(diǎn)均不滿足清洗規(guī)則,則無(wú)需進(jìn)行數(shù)據(jù)清洗操作,直接結(jié)束本次數(shù)據(jù)清洗過(guò)程;
      [0014]S4、輸出S3數(shù)據(jù)清洗之后的數(shù)據(jù)。
      [0015]進(jìn)一步地,所述的步驟S2中,挖掘待清洗數(shù)據(jù)中屬性異常的孤立點(diǎn)的方法為:采用K近鄰算法計(jì)算Hadoop分布式文件系統(tǒng)中每個(gè)點(diǎn)的第K近鄰的距離Dk(p),并按照從大到小的順序?qū)λ械腄k(p)進(jìn)行排列,選取前N個(gè)點(diǎn)作為孤立點(diǎn);所述的N的值為:歷史清除的孤立點(diǎn)的個(gè)數(shù)的平均值。因此,所述的步驟S2中,N個(gè)屬性異常的孤立點(diǎn)的輸出是根據(jù)距離優(yōu)先原則,孤立性越明顯,該孤立點(diǎn)就排在越前面。在步驟S32中,若只有R個(gè)孤立點(diǎn)滿足清洗規(guī)則,則表示N個(gè)孤立點(diǎn)中有排在前面的R個(gè)點(diǎn)滿足清洗規(guī)則,后面的N-R個(gè)點(diǎn)則已經(jīng)不滿足清洗規(guī)則,表明已經(jīng)不需要進(jìn)行下一輪新的數(shù)據(jù)清洗了,因?yàn)橄乱惠喗Y(jié)果出來(lái)后,排在前面的孤立點(diǎn)即為剩余的這N-R個(gè)點(diǎn),而這N-R已經(jīng)無(wú)需進(jìn)行數(shù)據(jù)清洗了。因此只需要簡(jiǎn)單的清洗R個(gè)孤立點(diǎn),然后將數(shù)據(jù)清洗后的數(shù)據(jù)寫回Hadoop分布式文件系統(tǒng)中,便可以結(jié)束本次數(shù)據(jù)清洗方案的過(guò)程。
      [0016]進(jìn)一步地,所述的步驟S3中的清洗規(guī)則為:設(shè)定一個(gè)初始值MaxDistance,判斷該孤立點(diǎn)的Dk(p)是否大于初始值MaxDistance,若大于,則刪除該點(diǎn),完成清洗。
      [0017]本發(fā)明的一種基于孤立點(diǎn)挖掘的Hadoop數(shù)據(jù)清洗系統(tǒng),包括以下模塊:
      [0018]數(shù)據(jù)加載模塊:用于將各種異構(gòu)數(shù)據(jù)源的數(shù)據(jù)加載到Hadoop分布式文件系統(tǒng);
      [0019]分布式孤立點(diǎn)挖掘算法模塊:包括數(shù)據(jù)清洗引擎模塊,用于根據(jù)輸入?yún)?shù)挖掘出屬性異常的孤立點(diǎn);
      [0020]數(shù)據(jù)清洗模塊:對(duì)屬性異常的孤立點(diǎn)進(jìn)行數(shù)據(jù)清洗;
      [0021]結(jié)果存儲(chǔ)模塊:存儲(chǔ)數(shù)據(jù)清洗結(jié)果。
      [0022]本發(fā)明的有益效果是:通過(guò)基于Hadoop的分布式孤立點(diǎn)挖掘算法找出具有不合理的屬性值的孤立點(diǎn),并執(zhí)行相應(yīng)的數(shù)據(jù)清洗動(dòng)作,最終將清洗后的數(shù)據(jù)通過(guò)接口或其他方式輸出,能夠?qū)铝Ⅻc(diǎn)數(shù)據(jù)進(jìn)行準(zhǔn)確數(shù)據(jù)清洗,減少重復(fù)清洗,提高數(shù)據(jù)清洗效率,從而保證海量數(shù)據(jù)清洗的目標(biāo)。
      【附圖說(shuō)明】
      [0023]圖1為本發(fā)明的數(shù)據(jù)清洗流程圖。
      【具體實(shí)施方式】
      [0024]下面結(jié)合附圖進(jìn)一步說(shuō)明本發(fā)明的技術(shù)方案。
      [0025]如圖1所示,一種基于孤立點(diǎn)挖掘的Hadoop數(shù)據(jù)清洗方法,包括以下步驟:
      [0026]S1、將各種異構(gòu)數(shù)據(jù)源的數(shù)據(jù)加載到Hadoop分布式文件系統(tǒng)中;
      [0027]S2 JtHadoop分布式文件系統(tǒng)的數(shù)據(jù)進(jìn)行預(yù)處理:拉取Hadoop分布式文件系統(tǒng)的待清洗數(shù)據(jù),并挖掘出待清洗數(shù)據(jù)中屬性異常的孤立點(diǎn),記孤立點(diǎn)個(gè)數(shù)為N;
      [0028]S3、判斷S2得到的
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1