本申請(qǐng)涉及大數(shù)據(jù),具體涉及針對(duì)大數(shù)據(jù)的數(shù)據(jù)處理,尤其涉及一種數(shù)據(jù)校驗(yàn)方法、裝置、分布式系統(tǒng)及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、為了滿足用戶對(duì)數(shù)據(jù)搜索及分析的需求,在諸如電商等業(yè)務(wù)場(chǎng)景中,通常會(huì)將一數(shù)據(jù)庫(kù)中的數(shù)據(jù)存儲(chǔ)至另一數(shù)據(jù)庫(kù)以便于數(shù)據(jù)搜索及分析。然而由于數(shù)據(jù)庫(kù)之間的鏈接關(guān)系復(fù)雜、存儲(chǔ)鏈路較長(zhǎng)等諸多原因,導(dǎo)致多個(gè)數(shù)據(jù)庫(kù)中出現(xiàn)數(shù)據(jù)不一致的情況。為此,需要采用數(shù)據(jù)校驗(yàn)方案對(duì)多個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行校驗(yàn)。然而,在相關(guān)的數(shù)據(jù)校驗(yàn)方案中,為了確保數(shù)據(jù)校驗(yàn)的準(zhǔn)確性,通常直接對(duì)數(shù)據(jù)進(jìn)行全量對(duì)比,然而,這種校驗(yàn)方式的校驗(yàn)效率低下,從而造成系統(tǒng)的過(guò)高負(fù)載。此外,如若隨機(jī)抽取數(shù)據(jù)進(jìn)行對(duì)比,當(dāng)數(shù)據(jù)出現(xiàn)抽樣不均時(shí),將導(dǎo)致校驗(yàn)準(zhǔn)確性低下。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┮环N數(shù)據(jù)校驗(yàn)方法、裝置、分布式系統(tǒng)及存儲(chǔ)介質(zhì),以解決在確保校驗(yàn)準(zhǔn)確性的同時(shí),如何提高校驗(yàn)效率的技術(shù)問(wèn)題。
2、本申請(qǐng)實(shí)施例第一方面提供一種數(shù)據(jù)校驗(yàn)方法,應(yīng)用于分布式系統(tǒng),所述分布式系統(tǒng)包括第一設(shè)備集群及第二設(shè)備集群,所述方法包括:所述第一設(shè)備集群接收所述第二設(shè)備集群的所有工作節(jié)點(diǎn)上報(bào)的節(jié)點(diǎn)指標(biāo)信息;所述第一設(shè)備集群根據(jù)所述節(jié)點(diǎn)指標(biāo)信息,從所述第二設(shè)備集群的所有工作節(jié)點(diǎn)中篩選出目標(biāo)節(jié)點(diǎn);所述第一設(shè)備集群向所述目標(biāo)節(jié)點(diǎn)發(fā)送數(shù)據(jù)校驗(yàn)請(qǐng)求;所述目標(biāo)節(jié)點(diǎn)根據(jù)所述數(shù)據(jù)校驗(yàn)請(qǐng)求生成數(shù)據(jù)獲取策略,所述數(shù)據(jù)校驗(yàn)請(qǐng)求包括源數(shù)據(jù)庫(kù)及目標(biāo)數(shù)據(jù)庫(kù)的庫(kù)標(biāo)識(shí);所述目標(biāo)節(jié)點(diǎn)基于所述數(shù)據(jù)獲取策略,從所述源數(shù)據(jù)庫(kù)中獲取源表數(shù)據(jù),并基于所述源表數(shù)據(jù)從所述目標(biāo)數(shù)據(jù)庫(kù)中獲取目標(biāo)表數(shù)據(jù);所述目標(biāo)節(jié)點(diǎn)基于所述源表數(shù)據(jù)與所述目標(biāo)表數(shù)據(jù)的比較,生成校驗(yàn)結(jié)果。
3、本申請(qǐng)實(shí)施例第二方面提供一種數(shù)據(jù)校驗(yàn)方法,應(yīng)用于分布式系統(tǒng)中第二設(shè)備集群的工作節(jié)點(diǎn),所述分布式系統(tǒng)還包括第一設(shè)備集群,所述方法包括:響應(yīng)于從所述第一設(shè)備集群接收到的數(shù)據(jù)校驗(yàn)請(qǐng)求,生成數(shù)據(jù)獲取策略,所述數(shù)據(jù)校驗(yàn)請(qǐng)求包括源數(shù)據(jù)庫(kù)及目標(biāo)數(shù)據(jù)庫(kù)的庫(kù)標(biāo)識(shí);基于所述數(shù)據(jù)獲取策略,從所述源數(shù)據(jù)庫(kù)中獲取源表數(shù)據(jù),并基于所述源表數(shù)據(jù)從所述目標(biāo)數(shù)據(jù)庫(kù)中獲取目標(biāo)表數(shù)據(jù);基于所述源表數(shù)據(jù)與所述目標(biāo)表數(shù)據(jù)的比較,生成校驗(yàn)結(jié)果。
4、根據(jù)本申請(qǐng)實(shí)施例,所述基于所述源表數(shù)據(jù)與所述目標(biāo)表數(shù)據(jù)的比較,生成校驗(yàn)結(jié)果包括:若所述源表數(shù)據(jù)的數(shù)據(jù)格式與所述目標(biāo)表數(shù)據(jù)的數(shù)據(jù)格式相同,則將所述源表數(shù)據(jù)與所述目標(biāo)表數(shù)據(jù)進(jìn)行對(duì)比;若所述目標(biāo)表數(shù)據(jù)中存在與所述源表數(shù)據(jù)不同的差異數(shù)據(jù),確定當(dāng)前比較輪次確定所述源表數(shù)據(jù)與所述目標(biāo)表數(shù)據(jù)的當(dāng)前比較輪次;根據(jù)所述當(dāng)前比較輪次及所述差異數(shù)據(jù)確定所述校驗(yàn)結(jié)果。
5、根據(jù)本申請(qǐng)實(shí)施例,所述根據(jù)所述當(dāng)前比較輪次及所述差異數(shù)據(jù)確定所述校驗(yàn)結(jié)果包括:若所述當(dāng)前比較輪次小于預(yù)設(shè)次數(shù)閾值,根據(jù)所述差異數(shù)據(jù)的數(shù)據(jù)主鍵,從所述目標(biāo)數(shù)據(jù)庫(kù)中獲取第一對(duì)比數(shù)據(jù),并根據(jù)所述第一對(duì)比數(shù)據(jù)的數(shù)據(jù)外鍵,從所述源數(shù)據(jù)庫(kù)中獲取第二對(duì)比數(shù)據(jù);若所述第一對(duì)比數(shù)據(jù)與所述第二對(duì)比數(shù)據(jù)相同,將所述校驗(yàn)結(jié)果確定為第一預(yù)設(shè)結(jié)果,所述第一預(yù)設(shè)結(jié)果指示所述源表數(shù)據(jù)與所述目標(biāo)表數(shù)據(jù)一致。
6、根據(jù)本申請(qǐng)實(shí)施例,所述根據(jù)所述當(dāng)前比較輪次及所述差異數(shù)據(jù)確定所述校驗(yàn)結(jié)果還包括:若所述當(dāng)前比較輪次大于或者等于所述預(yù)設(shè)次數(shù)閾值,則將所述校驗(yàn)結(jié)果確定為第二預(yù)設(shè)結(jié)果,所述第二預(yù)設(shè)結(jié)果指示所述目標(biāo)表數(shù)據(jù)與所述源表數(shù)據(jù)存在不一致的數(shù)據(jù)。
7、根據(jù)本申請(qǐng)實(shí)施例,所述方法還包括:若所述校驗(yàn)結(jié)果為所述第二預(yù)設(shè)結(jié)果,則根據(jù)所述差異數(shù)據(jù)生成所述校驗(yàn)結(jié)果的預(yù)警信息;發(fā)送所述預(yù)警信息至指定用戶。
8、根據(jù)本申請(qǐng)實(shí)施例,所述響應(yīng)于從所述第一設(shè)備集群接收到的數(shù)據(jù)校驗(yàn)請(qǐng)求,生成數(shù)據(jù)獲取策略包括:根據(jù)所述數(shù)據(jù)校驗(yàn)請(qǐng)求的請(qǐng)求類(lèi)型,從所述源數(shù)據(jù)庫(kù)中讀取數(shù)據(jù),并確定讀取到的數(shù)據(jù)的數(shù)據(jù)量;根據(jù)所述數(shù)據(jù)量及預(yù)設(shè)數(shù)量閾值確定校驗(yàn)方式;若所述校驗(yàn)方式為預(yù)設(shè)方式,則根據(jù)所述源數(shù)據(jù)庫(kù)中的配置表信息及所述配置表信息的抽樣條件,生成所述數(shù)據(jù)獲取策略。
9、本申請(qǐng)實(shí)施例第三方面提供一種數(shù)據(jù)校驗(yàn)裝置,運(yùn)行于分布式系統(tǒng)中第二設(shè)備集群的工作節(jié)點(diǎn),所述分布式系統(tǒng)還包括第一設(shè)備集群,所述裝置包括:生成單元,用于響應(yīng)于從所述第一設(shè)備集群接收到的數(shù)據(jù)校驗(yàn)請(qǐng)求,生成數(shù)據(jù)獲取策略,所述數(shù)據(jù)校驗(yàn)請(qǐng)求包括源數(shù)據(jù)庫(kù)及目標(biāo)數(shù)據(jù)庫(kù)的庫(kù)標(biāo)識(shí);獲取單元,用于基于所述數(shù)據(jù)獲取策略,從所述源數(shù)據(jù)庫(kù)中獲取源表數(shù)據(jù),并基于所述源表數(shù)據(jù)從所述目標(biāo)數(shù)據(jù)庫(kù)中獲取目標(biāo)表數(shù)據(jù);所述生成單元,還用于基于所述源表數(shù)據(jù)與所述目標(biāo)表數(shù)據(jù)的比較,生成校驗(yàn)結(jié)果。
10、本申請(qǐng)實(shí)施例第四方面提供一種分布式系統(tǒng),所述分布式系統(tǒng)包括:第一設(shè)備集群及第二設(shè)備集群,所述第二設(shè)備集群包括工作節(jié)點(diǎn);所述工作節(jié)點(diǎn)包括:存儲(chǔ)器,存儲(chǔ)計(jì)算機(jī)可讀指令;及處理器,執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)可讀指令以實(shí)現(xiàn)所述數(shù)據(jù)校驗(yàn)方法。
11、本申請(qǐng)實(shí)施例第五方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被工作節(jié)點(diǎn)中的處理器執(zhí)行以實(shí)現(xiàn)所述數(shù)據(jù)校驗(yàn)方法。
12、本申請(qǐng)實(shí)施例中第一設(shè)備集群根據(jù)第二設(shè)備集群的所有工作節(jié)點(diǎn)上報(bào)的節(jié)點(diǎn)指標(biāo)信息,篩選出目標(biāo)節(jié)點(diǎn),由于目標(biāo)節(jié)點(diǎn)為第二設(shè)備集群中負(fù)載最低的節(jié)點(diǎn),因此,通過(guò)第一設(shè)備集群向目標(biāo)節(jié)點(diǎn)發(fā)送數(shù)據(jù)校驗(yàn)請(qǐng)求,進(jìn)而通過(guò)目標(biāo)節(jié)點(diǎn)對(duì)數(shù)據(jù)校驗(yàn)請(qǐng)求的處理,能夠節(jié)省數(shù)據(jù)校驗(yàn)請(qǐng)求的等待時(shí)間,從而提高校驗(yàn)結(jié)果的生成效率。另外,本申請(qǐng)實(shí)施例通過(guò)生成的數(shù)據(jù)獲取策略,能夠獲取到合理的源表數(shù)據(jù)進(jìn)行數(shù)據(jù)對(duì)比,由于無(wú)需對(duì)源數(shù)據(jù)庫(kù)中的全量數(shù)據(jù)進(jìn)行對(duì)比,因此能夠確保校驗(yàn)結(jié)果的生成效率,從而能夠避免過(guò)高負(fù)載對(duì)系統(tǒng)的影響,同時(shí),通過(guò)數(shù)據(jù)獲取策略對(duì)源表數(shù)據(jù)的獲取,能夠避免出現(xiàn)數(shù)據(jù)抽樣不均的問(wèn)題,從而能夠提高校驗(yàn)準(zhǔn)確性。此外,通過(guò)源表數(shù)據(jù),能夠準(zhǔn)確的獲取到目標(biāo)表數(shù)據(jù)進(jìn)行數(shù)據(jù)對(duì)比,從而能夠確保數(shù)據(jù)校驗(yàn)的準(zhǔn)確性。
1.一種數(shù)據(jù)校驗(yàn)方法,應(yīng)用于分布式系統(tǒng),其特征在于,所述分布式系統(tǒng)包括第一設(shè)備集群及第二設(shè)備集群,所述方法包括:
2.一種數(shù)據(jù)校驗(yàn)方法,其特征在于,應(yīng)用于分布式系統(tǒng)中第二設(shè)備集群的工作節(jié)點(diǎn),所述分布式系統(tǒng)還包括第一設(shè)備集群,所述方法包括:
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)校驗(yàn)方法,其特征在于,所述基于所述源表數(shù)據(jù)與所述目標(biāo)表數(shù)據(jù)的比較,生成校驗(yàn)結(jié)果包括:
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)校驗(yàn)方法,其特征在于,所述根據(jù)所述當(dāng)前比較輪次及所述差異數(shù)據(jù)確定所述校驗(yàn)結(jié)果包括:
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)校驗(yàn)方法,其特征在于,所述根據(jù)所述當(dāng)前比較輪次及所述差異數(shù)據(jù)確定所述校驗(yàn)結(jié)果還包括:
6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)校驗(yàn)方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求2所述的數(shù)據(jù)校驗(yàn)方法,其特征在于,所述響應(yīng)于從所述第一設(shè)備集群接收到的數(shù)據(jù)校驗(yàn)請(qǐng)求,生成數(shù)據(jù)獲取策略包括:
8.一種數(shù)據(jù)校驗(yàn)裝置,其特征在于,運(yùn)行于分布式系統(tǒng)中第二設(shè)備集群的工作節(jié)點(diǎn),所述分布式系統(tǒng)還包括第一設(shè)備集群,所述裝置包括:
9.一種分布式系統(tǒng),其特征在于,包括:第一設(shè)備集群及第二設(shè)備集群,所述第二設(shè)備集群包括工作節(jié)點(diǎn);
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被工作節(jié)點(diǎn)中的處理器執(zhí)行以實(shí)現(xiàn)如權(quán)利要求2至7中任一項(xiàng)所述的數(shù)據(jù)校驗(yàn)方法。