本公開(kāi)涉及數(shù)據(jù)分類,尤其涉及一種敏感數(shù)據(jù)分類方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及產(chǎn)品。
背景技術(shù):
1、相關(guān)敏感數(shù)據(jù)分類方案中,通常使用id3算法對(duì)敏感數(shù)據(jù)進(jìn)行分類,但id3算法是一種基于信息增益的決策樹(shù)算法,在每次迭代時(shí)都需要計(jì)算信息增益以決定決策樹(shù)中的最佳分裂節(jié)點(diǎn),當(dāng)面對(duì)敏感數(shù)據(jù)的規(guī)模較大時(shí),使用id3算法訓(xùn)練的過(guò)程可能會(huì)變得非常緩慢,進(jìn)而導(dǎo)致獲取敏感數(shù)據(jù)分類結(jié)果的速度變慢。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)提供一種敏感數(shù)據(jù)分類方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及產(chǎn)品,以解決相關(guān)技術(shù)中的問(wèn)題。
2、本公開(kāi)的第一方面實(shí)施例提出了一種敏感數(shù)據(jù)分類方法,該方法包括:
3、獲取第一數(shù)據(jù)集,所述第一數(shù)據(jù)集中包括至少一條敏感數(shù)據(jù);
4、將第一分類模型中的每個(gè)任務(wù)都拆分為第一預(yù)設(shè)數(shù)目個(gè)子任務(wù),所述第一分類模型為多粒度掃描的級(jí)聯(lián)森林分類模型,所述任務(wù)用于指示每個(gè)級(jí)聯(lián)層中的森林;
5、為每個(gè)子任務(wù)分配對(duì)應(yīng)的計(jì)算節(jié)點(diǎn),構(gòu)建多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型,其中,多個(gè)子任務(wù)可以對(duì)應(yīng)同一個(gè)計(jì)算節(jié)點(diǎn),不同計(jì)算節(jié)點(diǎn)上的子任務(wù)可以并行計(jì)算;
6、利用所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型對(duì)所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)進(jìn)行分類,得到所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)的分類結(jié)果。
7、在一實(shí)施例中,獲取第一數(shù)據(jù)集,包括:
8、獲取第二數(shù)據(jù)集和第一隨機(jī)向量,所述第二數(shù)據(jù)集中包括至少一條敏感數(shù)據(jù);
9、利用第一數(shù)據(jù)生成模型對(duì)所述第二數(shù)據(jù)集中的敏感數(shù)據(jù)和所述第一隨機(jī)向量進(jìn)行生成與鑒別處理,得到生成損失值處于第一預(yù)設(shè)區(qū)間、鑒別損失值處于第二預(yù)設(shè)區(qū)間的第一敏感數(shù)據(jù);
10、合并所述第二數(shù)據(jù)集中的敏感數(shù)據(jù)和所述第一敏感數(shù)據(jù),得到第一數(shù)據(jù)集。
11、在一實(shí)施例中,利用第一數(shù)據(jù)生成模型對(duì)所述第二數(shù)據(jù)集中的敏感數(shù)據(jù)和所述第一隨機(jī)向量進(jìn)行生成與鑒別處理,得到生成損失值處于第一預(yù)設(shè)區(qū)間、鑒別損失值處于第二預(yù)設(shè)區(qū)間的第一敏感數(shù)據(jù),包括:
12、對(duì)所述第二數(shù)據(jù)集中的敏感數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的第二數(shù)據(jù)集;
13、利用第一數(shù)據(jù)生成模型對(duì)所述預(yù)處理后的第二數(shù)據(jù)集中的敏感數(shù)據(jù)和所述第一隨機(jī)向量進(jìn)行生成與鑒別處理,得到生成損失值處于第一預(yù)設(shè)區(qū)間、鑒別損失值處于第二預(yù)設(shè)區(qū)間的第一敏感數(shù)據(jù)。
14、在一實(shí)施例中,利用所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型對(duì)所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)進(jìn)行分類,得到所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)的分類結(jié)果,包括:
15、利用第一預(yù)設(shè)寬度的窗口掃描所述第一數(shù)據(jù)集中的敏感數(shù)據(jù),得到與所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)對(duì)應(yīng)的第一類向量;
16、拼接與所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)對(duì)應(yīng)的第一類向量,得到與所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)對(duì)應(yīng)的第二類向量;
17、利用所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型對(duì)所述與第一數(shù)據(jù)集中的敏感數(shù)據(jù)對(duì)應(yīng)的第二類向量進(jìn)行分類,得到所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)的分類結(jié)果。
18、在一實(shí)施例中,利用所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型對(duì)所述與第一數(shù)據(jù)集中的敏感數(shù)據(jù)對(duì)應(yīng)的第二類向量進(jìn)行分類,得到所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)的分類結(jié)果,包括:
19、獲取不同分割粒度下所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型的第一開(kāi)銷與所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型的第二開(kāi)銷,所述分割粒度用于指示如何將子任務(wù)分配到計(jì)算節(jié)點(diǎn)的;
20、基于所述不同分割粒度下所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型的第一開(kāi)銷和所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型的第二開(kāi)銷,確定所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型的最佳分割粒度;
21、基于所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型的最佳分割粒度,確定所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型;
22、利用所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型對(duì)所述與第一數(shù)據(jù)集中的敏感數(shù)據(jù)對(duì)應(yīng)的第二類向量進(jìn)行分類,得到所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)的分類結(jié)果。
23、在一實(shí)施例中,利用所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型對(duì)所述與第一數(shù)據(jù)集中的敏感數(shù)據(jù)對(duì)應(yīng)的第二類向量進(jìn)行分類,得到所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)的分類結(jié)果之后本公開(kāi)提供的方法包括:
24、若所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)的分類結(jié)果誤差不小于第一預(yù)設(shè)值,則獲取第二敏感數(shù)據(jù)和第一數(shù)目個(gè)計(jì)算節(jié)點(diǎn);
25、將所述第二敏感數(shù)據(jù)作為所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型的輸入,第一數(shù)目個(gè)計(jì)算節(jié)點(diǎn)作為所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型的計(jì)算節(jié)點(diǎn),得到更新后的所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型;
26、利用更新后的所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型對(duì)所述與第一數(shù)據(jù)集中的敏感數(shù)據(jù)對(duì)應(yīng)的第二類向量進(jìn)行分類,得到所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)的分類結(jié)果。
27、本公開(kāi)的第二方面實(shí)施例提出了一種敏感數(shù)據(jù)分類裝置,該裝置包括:
28、獲取單元,用于獲取第一數(shù)據(jù)集,所述第一數(shù)據(jù)集中包括至少一條敏感數(shù)據(jù);
29、拆分單元,用于將第一分類模型中的每個(gè)任務(wù)都拆分為第一預(yù)設(shè)數(shù)目個(gè)子任務(wù),所述第一分類模型為多粒度掃描的級(jí)聯(lián)森林分類模型,所述任務(wù)用于指示每個(gè)級(jí)聯(lián)層中的森林;
30、分配單元,用于為每個(gè)子任務(wù)分配對(duì)應(yīng)的計(jì)算節(jié)點(diǎn),構(gòu)建多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型,其中,多個(gè)子任務(wù)可以對(duì)應(yīng)同一個(gè)計(jì)算節(jié)點(diǎn),不同計(jì)算節(jié)點(diǎn)上的子任務(wù)可以并行計(jì)算;
31、分類單元,用于利用所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型對(duì)所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)進(jìn)行分類,得到所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)的分類結(jié)果。
32、本公開(kāi)的第三方面實(shí)施例提出了一種電子設(shè)備,包括:
33、至少一個(gè)處理器;以及與至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令,指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠執(zhí)行本公開(kāi)第一方面實(shí)施例中描述的方法。
34、本公開(kāi)的第四方面實(shí)施例提出了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行本公開(kāi)第一方面實(shí)施例中描述的方法。
35、本公開(kāi)的第五方面實(shí)施例提出了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開(kāi)第一方面實(shí)施例中描述的方法。
36、綜上,本公開(kāi)提出了一種敏感數(shù)據(jù)分類方法,該方法包括:獲取第一數(shù)據(jù)集,所述第一數(shù)據(jù)集中包括至少一條敏感數(shù)據(jù);將第一分類模型中的每個(gè)任務(wù)都拆分為第一預(yù)設(shè)數(shù)目個(gè)子任務(wù),所述第一分類模型為多粒度掃描的級(jí)聯(lián)森林分類模型,所述任務(wù)用于指示每個(gè)級(jí)聯(lián)層中的森林;為每個(gè)子任務(wù)分配對(duì)應(yīng)的計(jì)算節(jié)點(diǎn),構(gòu)建多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型,其中,多個(gè)子任務(wù)可以對(duì)應(yīng)同一個(gè)計(jì)算節(jié)點(diǎn),不同計(jì)算節(jié)點(diǎn)上的子任務(wù)可以并行計(jì)算;利用所述多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型對(duì)所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)進(jìn)行分類,得到所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)的分類結(jié)果。
37、根據(jù)本公開(kāi)提供的方案,通過(guò)獲取第一數(shù)據(jù)集,所述第一數(shù)據(jù)集中包括至少一條敏感數(shù)據(jù);通過(guò)將第一分類模型中的每個(gè)任務(wù)都拆分為第一預(yù)設(shè)數(shù)目個(gè)子任務(wù),并為每個(gè)子任務(wù)分配對(duì)應(yīng)的計(jì)算節(jié)點(diǎn),構(gòu)建多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型,多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型中的不同計(jì)算節(jié)點(diǎn)上的子任務(wù)可以并行計(jì)算。通過(guò)利用多個(gè)計(jì)算節(jié)點(diǎn)并行的第一分類模型對(duì)所述第一數(shù)據(jù)集中的敏感數(shù)據(jù)進(jìn)行分類,可以通過(guò)加快計(jì)算每個(gè)子任務(wù)結(jié)果的速度,提升獲取第一數(shù)據(jù)集中的敏感數(shù)據(jù)分類結(jié)果的速度。
38、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。