一種數(shù)據(jù)去重的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)去重的方法及裝置,該方法包括:獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。在對多行或者多列且數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行處理時,該去重方法配置簡單、使用方便、可操作性強,并且能夠?qū)崿F(xiàn)多行或多列的同時去重處理,節(jié)省了大量的處理時間,提高了去重處理的效率。
【專利說明】一種數(shù)據(jù)去重的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,特別是涉及一種數(shù)據(jù)去重的方法及裝置。
【背景技術(shù)】
[0002]目前基于數(shù)據(jù)融合系統(tǒng)的數(shù)據(jù)去重方法是將待去重的一列或是一行數(shù)據(jù)進行排序,并對重復(fù)的數(shù)據(jù)用區(qū)分碼(1,2)進行標(biāo)識,刪除標(biāo)識為“2”的數(shù)據(jù)?,F(xiàn)有的數(shù)據(jù)去重方法在對多行或多列數(shù)據(jù)進行去重時效率較低。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是提供一種數(shù)據(jù)去重的方法及裝置,其目的在于解決現(xiàn)有技術(shù)中對多行或多列數(shù)據(jù)進行去重時效率低的問題。
[0004]為解決上述技術(shù)問題,本發(fā)明提供一種數(shù)據(jù)去重的方法,包括:
[0005]獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;
[0006]將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;
[0007]按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;
[0008]查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
[0009]刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
[0010]可選地,所述將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括:
[0011]將所述業(yè)務(wù)主鍵用信息-摘要算法5的算法函數(shù)進行轉(zhuǎn)碼,生成標(biāo)準(zhǔn)統(tǒng)一的匹配碼。
[0012]可選地,所述將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括:
[0013]采用分布式模式并行計算,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成所述匹配碼。
[0014]可選地,所述按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼包括:
[0015]將所述生成的匹配碼按照由小到大的順序進行排序,生成所述驗證碼。
[0016]可選地,在生成所述驗證碼之后,還包括:
[0017]將所述生成的驗證碼存儲在特定的臨時表中。
[0018]可選地,所述查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼包括:
[0019]按照預(yù)定的分區(qū),采用分布式模式查找所述臨時表中經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼。
[0020]可選地,所述刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)之后,還包括:
[0021]統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
[0022]本發(fā)明還提供了一種數(shù)據(jù)去重的裝置,包括:
[0023]獲取模塊,用于獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;
[0024]轉(zhuǎn)換模塊,用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;
[0025]排序模塊,用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;
[0026]查找模塊,用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
[0027]去重模塊,用于刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
[0028]可選地,所述轉(zhuǎn)換模塊用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括:
[0029]所述轉(zhuǎn)換模塊具體用于,將所述業(yè)務(wù)主鍵用信息-摘要算法5的算法函數(shù)進行轉(zhuǎn)碼,生成標(biāo)準(zhǔn)統(tǒng)一的匹配碼。
[0030]可選地,所述轉(zhuǎn)換模塊用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括:
[0031]所述轉(zhuǎn)換模塊具體用于,采用分布式模式并行計算,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成所述匹配碼。
[0032]可選地,所述排序模塊用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼包括:
[0033]所述排序模塊具體用于,將所述生成的匹配碼按照由小到大的順序進行排序,生成所述驗證碼。
[0034]可選地,在生成所述驗證碼之后,還包括:
[0035]存儲模塊,用于將所述生成的驗證碼存儲在特定的臨時表中。
[0036]可選地,所述查找模塊用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼包括:
[0037]所述查找模塊具體用于,按照預(yù)定的分區(qū),采用分布式模式查找所述臨時表中經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼。
[0038]可選地,所述刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)之后,還包括:
[0039]統(tǒng)計模塊,用于統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
[0040]本發(fā)明所提供的數(shù)據(jù)去重的方法及裝置,通過獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一預(yù)設(shè)格式的匹配碼;并按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;然后查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;最后刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。在對多行或者多列且數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行處理時,該去重方法只需對待去重的數(shù)據(jù)進行預(yù)處理,將不同列不同行的數(shù)據(jù)生成統(tǒng)一預(yù)設(shè)格式的匹配碼,對該統(tǒng)一格式的匹配碼進行比對,刪除其中重復(fù)的數(shù)據(jù)即可,整個過程配置簡單、使用方便、可操作性強,并且能夠?qū)崿F(xiàn)多行或多列的同時去重處理,節(jié)省了大量的處理時間,提高了去重處理的效率。
【專利附圖】
【附圖說明】
[0041]圖1為本發(fā)明所提供的數(shù)據(jù)去重的方法的一種【具體實施方式】的流程圖;
[0042]圖2為本發(fā)明所提供的數(shù)據(jù)去重的方法的另一種【具體實施方式】的流程圖;
[0043]圖3為本發(fā)明所提供的數(shù)據(jù)去重的裝置的一種【具體實施方式】的結(jié)構(gòu)框圖;
[0044]圖4為本發(fā)明所提供的數(shù)據(jù)去重的裝置的另一種【具體實施方式】的結(jié)構(gòu)框圖。
【具體實施方式】
[0045]本發(fā)明的核心是提供一種數(shù)據(jù)去重的方法及裝置,可以用于在數(shù)據(jù)融合系統(tǒng)中,能夠?qū)?shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行去重。
[0046]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步的詳細(xì)說明。顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0047]本發(fā)明所提供的數(shù)據(jù)去重的方法的一種【具體實施方式】如圖1所示,該方法包括:
[0048]步驟101:獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;
[0049]步驟102:將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;
[0050]步驟103:按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;
[0051]步驟104:查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
[0052]步驟105:刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
[0053]本發(fā)明所提供的數(shù)據(jù)去重的方法,通過獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一預(yù)設(shè)格式的匹配碼;并按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;然后查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼?’最后刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。在對多行或者多列且數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行處理時,該去重方法只需對待去重的數(shù)據(jù)進行預(yù)處理,將不同列不同行的數(shù)據(jù)生成統(tǒng)一預(yù)設(shè)格式的匹配碼,對該統(tǒng)一格式的匹配碼進行比對,刪除其中重復(fù)的數(shù)據(jù)即可,整個過程配置簡單、使用方便、可操作性強,并且能夠?qū)崿F(xiàn)多行或多列的同時去重處理,節(jié)省了大量的處理時間,提高了去重處理的效率。
[0054]本發(fā)明所提供的數(shù)據(jù)去重的方法的另一種【具體實施方式】可具體用于,數(shù)據(jù)融合系統(tǒng)中對于數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行去重的處理,如圖2所示,該方法包括:
[0055]步驟201:根據(jù)業(yè)務(wù)需求所需要進行去重處理的數(shù)據(jù),獲取所需要處理的數(shù)據(jù)的業(yè)務(wù)主鍵;
[0056]所述業(yè)務(wù)主鍵為代表數(shù)據(jù)唯一性的字段,可以為單個字段或者為多個字段的聯(lián)人口 O
[0057]步驟202:采用分布式模式并行計算,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成所述匹配碼。
[0058]在本【具體實施方式】中,根據(jù)業(yè)務(wù)的規(guī)則要求,可具體采用信息-摘要算法5(MD5)的算法函數(shù)對所述業(yè)務(wù)主鍵進行轉(zhuǎn)碼,生成標(biāo)準(zhǔn)統(tǒng)一的匹配碼。
[0059]步驟203:將所述生成的匹配碼按照由小到大的順序進行排序,排序后生成驗證碼;
[0060]步驟204:將所述生成的驗證碼存儲在特定的臨時表中;
[0061]步驟205:按照預(yù)定的分區(qū),采用分布式模式查找所述臨時表中經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
[0062]在本【具體實施方式】中,對臨時表中的驗證碼進行重復(fù)數(shù)據(jù)查找,對于其中重復(fù)的數(shù)據(jù)用區(qū)分碼(1,2)進行標(biāo)識。例如將未重復(fù)出現(xiàn)過的數(shù)據(jù)的區(qū)分碼標(biāo)識記為“1”,將重復(fù)出現(xiàn)的數(shù)據(jù)的區(qū)分碼標(biāo)識記為“2”。
[0063]步驟206:刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù);
[0064]如刪除上述步驟205中區(qū)分碼標(biāo)識為“2”的數(shù)據(jù)。
[0065]步驟207:統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
[0066]本發(fā)明所提供的數(shù)據(jù)去重的方法,通過獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一預(yù)設(shè)格式的匹配碼;并按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;然后查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼?’最后刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。由于本發(fā)明提供的數(shù)據(jù)去重的方法首先對所述待處理的數(shù)據(jù)進行了預(yù)處理,使得不同列不同行的數(shù)據(jù)生成統(tǒng)一預(yù)設(shè)格式的匹配碼,只需要對該統(tǒng)一格式的匹配碼進行比對,刪除其中重復(fù)的數(shù)據(jù)即可,因此在數(shù)據(jù)融合系統(tǒng)中,能夠?qū)崿F(xiàn)對于數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)中的多行或者多列同時進行去重處理,去重效率高。并且配置簡單,使用方便,可操作性高。另外,在生成匹配碼以及查找重復(fù)數(shù)據(jù)的過程中均可以使用分布式模式進行并行處理,也能夠節(jié)省大量的處理時間,提高去重的效率。
[0067]本發(fā)明還提供了一種數(shù)據(jù)去重的裝置,圖3為本發(fā)明所提供的數(shù)據(jù)去重的裝置的一種【具體實施方式】的結(jié)構(gòu)框圖,如圖3所示,該裝置包括:
[0068]獲取模塊100,用于獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;
[0069]轉(zhuǎn)換模塊200,用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;
[0070]排序模塊300,用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;
[0071]查找模塊400,用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
[0072]去重模塊500,用于刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
[0073]本發(fā)明所提供的數(shù)據(jù)去重的裝置,通過獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一預(yù)設(shè)格式的匹配碼;并按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;然后查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼?’最后刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。在對多行或者多列且數(shù)據(jù)規(guī)模在千萬級以上的數(shù)據(jù)進行處理時,該去重方法只需對待去重的數(shù)據(jù)進行預(yù)處理,將不同列不同行的數(shù)據(jù)生成統(tǒng)一預(yù)設(shè)格式的匹配碼,對該統(tǒng)一格式的匹配碼進行比對,刪除其中重復(fù)的數(shù)據(jù)即可,整個過程配置簡單、使用方便、可操作性強,并且能夠?qū)崿F(xiàn)多行或多列的同時去重處理,節(jié)省了大量的處理時間,提高了去重處理的效率。
[0074]本發(fā)明所提供的數(shù)據(jù)去重的裝置的另一種【具體實施方式】的結(jié)構(gòu)框圖如圖4所示,與上一種【具體實施方式】相比,該【具體實施方式】中增加了存儲模塊600以及統(tǒng)計模塊700的部分,該裝置包括:
[0075]獲取模塊100,用于獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段;
[0076]轉(zhuǎn)換模塊200,用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼;
[0077]排序模塊300,用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;
[0078]存儲模塊600,用于將所述生成的驗證碼存儲在特定的臨時表中;
[0079]查找模塊400,用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼;
[0080]去重模塊500,用于刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù);
[0081]統(tǒng)計模塊700,用于統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
[0082]本發(fā)明所提供的數(shù)據(jù)去重的裝置,通過獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一預(yù)設(shè)格式的匹配碼;并按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼;然后查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼?’最后刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。由于本發(fā)明提供的數(shù)據(jù)去重的裝置首先對所述待處理的數(shù)據(jù)進行了預(yù)處理,使得不同列不同行的數(shù)據(jù)生成統(tǒng)一預(yù)設(shè)格式的匹配碼,只需要對該統(tǒng)一格式的匹配碼進行比對,刪除其中重復(fù)的數(shù)據(jù)即可,因此能夠?qū)崿F(xiàn)對于多行或者多列數(shù)據(jù)同時進行去重的操作處理,去重效率高。此外,統(tǒng)計模塊還能夠?qū)ζ鋭h除數(shù)據(jù)的數(shù)量進行統(tǒng)計,并且生成數(shù)據(jù)去重統(tǒng)計報告,可以簡單清楚地說明數(shù)據(jù)處理后的結(jié)果,方便用戶的使用。
[0083]本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其它實施例的不同之處,各個實施例之間相同或相似部分互相參見即可。
[0084]對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。
【權(quán)利要求】
1.一種數(shù)據(jù)去重的方法,其特征在于,包括: 獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段; 將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼; 按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼; 查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼; 刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
2.如權(quán)利要求1所述的數(shù)據(jù)去重的方法,其特征在于,所述將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括: 將所述業(yè)務(wù)主鍵用信息-摘要算法5的算法函數(shù)進行轉(zhuǎn)碼,生成標(biāo)準(zhǔn)統(tǒng)一的匹配碼。
3.如權(quán)利要求2所述的數(shù)據(jù)去重的方法,其特征在于,所述將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括: 采用分布式模式并行計算,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成所述匹配碼。
4.如權(quán)利要求1所述的數(shù)據(jù)去重的方法,其特征在于,所述按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼包括: 將所述生成的匹配碼按照由小到大的順序進行排序,生成所述驗證碼。
5.如權(quán)利要求4所述的數(shù)據(jù)去重的方法,其特征在于,在生成所述驗證碼之后,還包括: 將所述生成的驗證碼存儲在特定的臨時表中。
6.如權(quán)利要求5所述的數(shù)據(jù)去重的方法,其特征在于,所述查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼包括: 按照預(yù)定的分區(qū),采用分布式模式查找所述臨時表中經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼。
7.如權(quán)利要求6所述的數(shù)據(jù)去重的方法,其特征在于,所述刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)之后,還包括: 統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
8.一種數(shù)據(jù)去重的裝置,其特征在于,包括: 獲取模塊,用于獲取待處理的數(shù)據(jù)的業(yè)務(wù)主鍵,所述業(yè)務(wù)主鍵為根據(jù)業(yè)務(wù)需求代表數(shù)據(jù)唯一性的字段; 轉(zhuǎn)換模塊,用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼; 排序模塊,用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼; 查找模塊,用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼; 去重模塊,用于刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)。
9.如權(quán)利要求8所述的數(shù)據(jù)去重的裝置,其特征在于,所述轉(zhuǎn)換模塊用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括: 所述轉(zhuǎn)換模塊具體用于,將所述業(yè)務(wù)主鍵用信息-摘要算法5的算法函數(shù)進行轉(zhuǎn)碼,生成標(biāo)準(zhǔn)統(tǒng)一的匹配碼。
10.如權(quán)利要求9所述的數(shù)據(jù)去重的裝置,其特征在于,所述轉(zhuǎn)換模塊用于將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成匹配碼包括: 所述轉(zhuǎn)換模塊具體用于,采用分布式模式并行計算,將所述業(yè)務(wù)主鍵轉(zhuǎn)換為統(tǒng)一的預(yù)設(shè)格式,生成所述匹配碼。
11.如權(quán)利要求8所述的數(shù)據(jù)去重的裝置,其特征在于,所述排序模塊用于按預(yù)設(shè)的順序?qū)λ錾傻钠ヅ浯a進行排序,生成驗證碼包括: 所述排序模塊具體用于,將所述生成的匹配碼按照由小到大的順序進行排序,生成所述驗證碼。
12.如權(quán)利要求11所述的數(shù)據(jù)去重的裝置,其特征在于,在生成所述驗證碼之后,還包括: 存儲模塊,用于將所述生成的驗證碼存儲在特定的臨時表中。
13.如權(quán)利要求12所述的數(shù)據(jù)去重的裝置,其特征在于,所述查找模塊用于查找所述經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼包括: 所述查找模塊具體用于,按照預(yù)定的分區(qū),采用分布式模式查找所述臨時表中經(jīng)排序后的驗證碼,將所述驗證碼與排列在前的第一驗證碼進行比對,當(dāng)所述驗證碼與所述第一驗證碼相同時,將所述驗證碼的區(qū)分碼記為第二區(qū)分碼。
14.如權(quán)利要求13所述的數(shù)據(jù)去重的裝置,其特征在于,所述刪除所述驗證碼中標(biāo)記為第二區(qū)分碼的數(shù)據(jù)之后,還包括: 統(tǒng)計模塊,用于統(tǒng)計所述刪除數(shù)據(jù)的數(shù)量,生成數(shù)據(jù)去重統(tǒng)計報告。
【文檔編號】G06F17/30GK104462527SQ201410811756
【公開日】2015年3月25日 申請日期:2014年12月22日 優(yōu)先權(quán)日:2014年12月22日
【發(fā)明者】馬欣, 顧喜德 申請人:龍信數(shù)據(jù)(北京)有限公司