国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種數(shù)據(jù)去重的方法及裝置制造方法

      文檔序號:6639826閱讀:240來源:國知局
      一種數(shù)據(jù)去重的方法及裝置制造方法
      【專利摘要】本發(fā)明公開了一種數(shù)據(jù)去重的方法及裝置,該方法包括:獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。在對多行或者多列且數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行處理時,該去重方法配置簡單、使用方便、可操作性強,并且能夠?qū)崿F(xiàn)多行或多列的同時去重處理,節(jié)省了大量的處理時間,提高了去重處理的效率。
      【專利說明】一種數(shù)據(jù)去重的方法及裝置

      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,特別是涉及一種數(shù)據(jù)去重的方法及裝置。

      【背景技術(shù)】
      [0002]目前基于數(shù)據(jù)融合系統(tǒng)的數(shù)據(jù)去重方法是將待去重的一列或是一行數(shù)據(jù)進行排序,并對重復(fù)的數(shù)據(jù)用區(qū)分碼(1,2)進行標(biāo)識,刪除標(biāo)識為“2”的數(shù)據(jù)?,F(xiàn)有的數(shù)據(jù)去重方法在對多行或多列數(shù)據(jù)進行去重時效率較低。


      【發(fā)明內(nèi)容】

      [0003]本發(fā)明的目的是提供一種數(shù)據(jù)去重的方法及裝置,其目的在于解決現(xiàn)有技術(shù)中對多行或多列數(shù)據(jù)進行去重時效率低的問題。
      [0004]為解決上述技術(shù)問題,本發(fā)明提供一種數(shù)據(jù)去重的方法,包括:
      [0005]獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;
      [0006]將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;
      [0007]按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;
      [0008]查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
      [0009]刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
      [0010]可選地,所述將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括:
      [0011]將所述業(yè)務(wù)主鍵用信息-摘要算法5的算法函數(shù)進行轉(zhuǎn)碼,生成標(biāo)準(zhǔn)統(tǒng)一的匹配碼。
      [0012]可選地,所述將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括:
      [0013]采用分布式模式并行計算,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成所述匹配碼。
      [0014]可選地,所述按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼包括:
      [0015]將所述生成的匹配碼按照由小到大的順序進行排序,生成所述驗證碼。
      [0016]可選地,在生成所述驗證碼之后,還包括:
      [0017]將所述生成的驗證碼存儲在特定的臨時表中。
      [0018]可選地,所述查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼包括:
      [0019]按照預(yù)定的分區(qū),采用分布式模式查找所述臨時表中經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼。
      [0020]可選地,所述刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)之后,還包括:
      [0021]統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
      [0022]本發(fā)明還提供了一種數(shù)據(jù)去重的裝置,包括:
      [0023]獲取模塊,用于獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;
      [0024]轉(zhuǎn)換模塊,用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;
      [0025]排序模塊,用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;
      [0026]查找模塊,用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
      [0027]去重模塊,用于刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
      [0028]可選地,所述轉(zhuǎn)換模塊用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括:
      [0029]所述轉(zhuǎn)換模塊具體用于,將所述業(yè)務(wù)主鍵用信息-摘要算法5的算法函數(shù)進行轉(zhuǎn)碼,生成標(biāo)準(zhǔn)統(tǒng)一的匹配碼。
      [0030]可選地,所述轉(zhuǎn)換模塊用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括:
      [0031]所述轉(zhuǎn)換模塊具體用于,采用分布式模式并行計算,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成所述匹配碼。
      [0032]可選地,所述排序模塊用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼包括:
      [0033]所述排序模塊具體用于,將所述生成的匹配碼按照由小到大的順序進行排序,生成所述驗證碼。
      [0034]可選地,在生成所述驗證碼之后,還包括:
      [0035]存儲模塊,用于將所述生成的驗證碼存儲在特定的臨時表中。
      [0036]可選地,所述查找模塊用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼包括:
      [0037]所述查找模塊具體用于,按照預(yù)定的分區(qū),采用分布式模式查找所述臨時表中經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼。
      [0038]可選地,所述刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)之后,還包括:
      [0039]統(tǒng)計模塊,用于統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
      [0040]本發(fā)明所提供的數(shù)據(jù)去重的方法及裝置,通過獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一預(yù)設(shè)格式的匹配碼;并按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;然后查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;最后刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。在對多行或者多列且數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行處理時,該去重方法只需對待去重的數(shù)據(jù)進行預(yù)處理,將不同列不同行的數(shù)據(jù)生成統(tǒng)一預(yù)設(shè)格式的匹配碼,對該統(tǒng)一格式的匹配碼進行比對,刪除其中重復(fù)的數(shù)據(jù)即可,整個過程配置簡單、使用方便、可操作性強,并且能夠?qū)崿F(xiàn)多行或多列的同時去重處理,節(jié)省了大量的處理時間,提高了去重處理的效率。

      【專利附圖】

      【附圖說明】
      [0041]圖1為本發(fā)明所提供的數(shù)據(jù)去重的方法的一種【具體實施方式】的流程圖;
      [0042]圖2為本發(fā)明所提供的數(shù)據(jù)去重的方法的另一種【具體實施方式】的流程圖;
      [0043]圖3為本發(fā)明所提供的數(shù)據(jù)去重的裝置的一種【具體實施方式】的結(jié)構(gòu)框圖;
      [0044]圖4為本發(fā)明所提供的數(shù)據(jù)去重的裝置的另一種【具體實施方式】的結(jié)構(gòu)框圖。

      【具體實施方式】
      [0045]本發(fā)明的核心是提供一種數(shù)據(jù)去重的方法及裝置,可以用于在數(shù)據(jù)融合系統(tǒng)中,能夠?qū)?shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行去重。
      [0046]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步的詳細(xì)說明。顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
      [0047]本發(fā)明所提供的數(shù)據(jù)去重的方法的一種【具體實施方式】如圖1所示,該方法包括:
      [0048]步驟101:獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;
      [0049]步驟102:將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;
      [0050]步驟103:按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;
      [0051]步驟104:查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
      [0052]步驟105:刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
      [0053]本發(fā)明所提供的數(shù)據(jù)去重的方法,通過獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一預(yù)設(shè)格式的匹配碼;并按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;然后查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼?’最后刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。在對多行或者多列且數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行處理時,該去重方法只需對待去重的數(shù)據(jù)進行預(yù)處理,將不同列不同行的數(shù)據(jù)生成統(tǒng)一預(yù)設(shè)格式的匹配碼,對該統(tǒng)一格式的匹配碼進行比對,刪除其中重復(fù)的數(shù)據(jù)即可,整個過程配置簡單、使用方便、可操作性強,并且能夠?qū)崿F(xiàn)多行或多列的同時去重處理,節(jié)省了大量的處理時間,提高了去重處理的效率。
      [0054]本發(fā)明所提供的數(shù)據(jù)去重的方法的另一種【具體實施方式】可具體用于,數(shù)據(jù)融合系統(tǒng)中對于數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行去重的處理,如圖2所示,該方法包括:
      [0055]步驟201:根據(jù)業(yè)務(wù)需求所需要進行去重處理的數(shù)據(jù),獲取所需要處理的數(shù)據(jù)的業(yè)務(wù)主鍵;
      [0056]所述業(yè)務(wù)主鍵為代表數(shù)據(jù)唯一性的字段,可以為單個字段或者為多個字段的聯(lián)人口 O
      [0057]步驟202:采用分布式模式并行計算,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成所述匹配碼。
      [0058]在本【具體實施方式】中,根據(jù)業(yè)務(wù)的規(guī)則要求,可具體采用信息-摘要算法5(MD5)的算法函數(shù)對所述業(yè)務(wù)主鍵進行轉(zhuǎn)碼,生成標(biāo)準(zhǔn)統(tǒng)一的匹配碼。
      [0059]步驟203:將所述生成的匹配碼按照由小到大的順序進行排序,排序后生成驗證碼;
      [0060]步驟204:將所述生成的驗證碼存儲在特定的臨時表中;
      [0061]步驟205:按照預(yù)定的分區(qū),采用分布式模式查找所述臨時表中經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
      [0062]在本【具體實施方式】中,對臨時表中的驗證碼進行重復(fù)數(shù)據(jù)查找,對于其中重復(fù)的數(shù)據(jù)用區(qū)分碼(1,2)進行標(biāo)識。例如將未重復(fù)出現(xiàn)過的數(shù)據(jù)的區(qū)分碼標(biāo)識記為“1”,將重復(fù)出現(xiàn)的數(shù)據(jù)的區(qū)分碼標(biāo)識記為“2”。
      [0063]步驟206:刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù);
      [0064]如刪除上述步驟205中區(qū)分碼標(biāo)識為“2”的數(shù)據(jù)。
      [0065]步驟207:統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
      [0066]本發(fā)明所提供的數(shù)據(jù)去重的方法,通過獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一預(yù)設(shè)格式的匹配碼;并按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;然后查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼?’最后刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。由于本發(fā)明提供的數(shù)據(jù)去重的方法首先對所述待處理的數(shù)據(jù)進行了預(yù)處理,使得不同列不同行的數(shù)據(jù)生成統(tǒng)一預(yù)設(shè)格式的匹配碼,只需要對該統(tǒng)一格式的匹配碼進行比對,刪除其中重復(fù)的數(shù)據(jù)即可,因此在數(shù)據(jù)融合系統(tǒng)中,能夠?qū)崿F(xiàn)對于數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)中的多行或者多列同時進行去重處理,去重效率高。并且配置簡單,使用方便,可操作性高。另外,在生成匹配碼以及查找重復(fù)數(shù)據(jù)的過程中均可以使用分布式模式進行并行處理,也能夠節(jié)省大量的處理時間,提高去重的效率。
      [0067]本發(fā)明還提供了一種數(shù)據(jù)去重的裝置,圖3為本發(fā)明所提供的數(shù)據(jù)去重的裝置的一種【具體實施方式】的結(jié)構(gòu)框圖,如圖3所示,該裝置包括:
      [0068]獲取模塊100,用于獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;
      [0069]轉(zhuǎn)換模塊200,用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;
      [0070]排序模塊300,用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;
      [0071]查找模塊400,用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
      [0072]去重模塊500,用于刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
      [0073]本發(fā)明所提供的數(shù)據(jù)去重的裝置,通過獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一預(yù)設(shè)格式的匹配碼;并按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;然后查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼?’最后刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。在對多行或者多列且數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行處理時,該去重方法只需對待去重的數(shù)據(jù)進行預(yù)處理,將不同列不同行的數(shù)據(jù)生成統(tǒng)一預(yù)設(shè)格式的匹配碼,對該統(tǒng)一格式的匹配碼進行比對,刪除其中重復(fù)的數(shù)據(jù)即可,整個過程配置簡單、使用方便、可操作性強,并且能夠?qū)崿F(xiàn)多行或多列的同時去重處理,節(jié)省了大量的處理時間,提高了去重處理的效率。
      [0074]本發(fā)明所提供的數(shù)據(jù)去重的裝置的另一種【具體實施方式】的結(jié)構(gòu)框圖如圖4所示,與上一種【具體實施方式】相比,該【具體實施方式】中增加了存儲模塊600以及統(tǒng)計模塊700的部分,該裝置包括:
      [0075]獲取模塊100,用于獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;
      [0076]轉(zhuǎn)換模塊200,用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;
      [0077]排序模塊300,用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;
      [0078]存儲模塊600,用于將所述生成的驗證碼存儲在特定的臨時表中;
      [0079]查找模塊400,用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
      [0080]去重模塊500,用于刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù);
      [0081]統(tǒng)計模塊700,用于統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
      [0082]本發(fā)明所提供的數(shù)據(jù)去重的裝置,通過獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一預(yù)設(shè)格式的匹配碼;并按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;然后查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼?’最后刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。由于本發(fā)明提供的數(shù)據(jù)去重的裝置首先對所述待處理的數(shù)據(jù)進行了預(yù)處理,使得不同列不同行的數(shù)據(jù)生成統(tǒng)一預(yù)設(shè)格式的匹配碼,只需要對該統(tǒng)一格式的匹配碼進行比對,刪除其中重復(fù)的數(shù)據(jù)即可,因此能夠?qū)崿F(xiàn)對于多行或者多列數(shù)據(jù)同時進行去重的操作處理,去重效率高。此外,統(tǒng)計模塊還能夠?qū)ζ鋭h除數(shù)據(jù)的數(shù)量進行統(tǒng)計,并且生成數(shù)據(jù)去重統(tǒng)計報告,可以簡單清楚地說明數(shù)據(jù)處理后的結(jié)果,方便用戶的使用。
      [0083]本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其它實施例的不同之處,各個實施例之間相同或相似部分互相參見即可。
      [0084]對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。
      【權(quán)利要求】
      1.一種數(shù)據(jù)去重的方法,其特征在于,包括: 獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段; 將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼; 按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼; 查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼; 刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
      2.如權(quán)利要求1所述的數(shù)據(jù)去重的方法,其特征在于,所述將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括: 將所述業(yè)務(wù)主鍵用信息-摘要算法5的算法函數(shù)進行轉(zhuǎn)碼,生成標(biāo)準(zhǔn)統(tǒng)一的匹配碼。
      3.如權(quán)利要求2所述的數(shù)據(jù)去重的方法,其特征在于,所述將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括: 采用分布式模式并行計算,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成所述匹配碼。
      4.如權(quán)利要求1所述的數(shù)據(jù)去重的方法,其特征在于,所述按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼包括: 將所述生成的匹配碼按照由小到大的順序進行排序,生成所述驗證碼。
      5.如權(quán)利要求4所述的數(shù)據(jù)去重的方法,其特征在于,在生成所述驗證碼之后,還包括: 將所述生成的驗證碼存儲在特定的臨時表中。
      6.如權(quán)利要求5所述的數(shù)據(jù)去重的方法,其特征在于,所述查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼包括: 按照預(yù)定的分區(qū),采用分布式模式查找所述臨時表中經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼。
      7.如權(quán)利要求6所述的數(shù)據(jù)去重的方法,其特征在于,所述刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)之后,還包括: 統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
      8.一種數(shù)據(jù)去重的裝置,其特征在于,包括: 獲取模塊,用于獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段; 轉(zhuǎn)換模塊,用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼; 排序模塊,用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼; 查找模塊,用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼; 去重模塊,用于刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
      9.如權(quán)利要求8所述的數(shù)據(jù)去重的裝置,其特征在于,所述轉(zhuǎn)換模塊用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括: 所述轉(zhuǎn)換模塊具體用于,將所述業(yè)務(wù)主鍵用信息-摘要算法5的算法函數(shù)進行轉(zhuǎn)碼,生成標(biāo)準(zhǔn)統(tǒng)一的匹配碼。
      10.如權(quán)利要求9所述的數(shù)據(jù)去重的裝置,其特征在于,所述轉(zhuǎn)換模塊用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括: 所述轉(zhuǎn)換模塊具體用于,采用分布式模式并行計算,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成所述匹配碼。
      11.如權(quán)利要求8所述的數(shù)據(jù)去重的裝置,其特征在于,所述排序模塊用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼包括: 所述排序模塊具體用于,將所述生成的匹配碼按照由小到大的順序進行排序,生成所述驗證碼。
      12.如權(quán)利要求11所述的數(shù)據(jù)去重的裝置,其特征在于,在生成所述驗證碼之后,還包括: 存儲模塊,用于將所述生成的驗證碼存儲在特定的臨時表中。
      13.如權(quán)利要求12所述的數(shù)據(jù)去重的裝置,其特征在于,所述查找模塊用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼包括: 所述查找模塊具體用于,按照預(yù)定的分區(qū),采用分布式模式查找所述臨時表中經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼。
      14.如權(quán)利要求13所述的數(shù)據(jù)去重的裝置,其特征在于,所述刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)之后,還包括: 統(tǒng)計模塊,用于統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
      【文檔編號】G06F17/30GK104462527SQ201410811756
      【公開日】2015年3月25日 申請日期:2014年12月22日 優(yōu)先權(quán)日:2014年12月22日
      【發(fā)明者】馬欣, 顧喜德 申請人:龍信數(shù)據(jù)(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1