本發(fā)明屬于信息安全,具體涉及一種基于圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分級方法、裝置及計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,數(shù)據(jù)安全和隱私保護(hù)變得越來越重要,在數(shù)據(jù)共享和數(shù)據(jù)挖掘過程中,敏感信息的泄露可能會導(dǎo)致嚴(yán)重的隱私問題和安全風(fēng)險;因此,對數(shù)據(jù)的隱私保護(hù)越來越受到人們的關(guān)注;目前,多采用數(shù)據(jù)脫敏的方式,來實(shí)現(xiàn)數(shù)據(jù)的隱私保護(hù),其中,進(jìn)行數(shù)據(jù)敏感的分類分級,是數(shù)據(jù)脫敏前的重要步驟,特別是在現(xiàn)有的數(shù)據(jù)審計(jì)、數(shù)據(jù)安全性合規(guī)檢查已成為各行業(yè)的標(biāo)配的情形下,數(shù)據(jù)分類分級往往會帶來巨大的人工審核工作量。
2、在實(shí)際應(yīng)用過程中,雖然也存在一些模式識別,文本相似度、基于ner算法(namedentity?recognition,命名實(shí)體識別)、卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)的數(shù)據(jù)分類分級方案;但是,前述現(xiàn)有技術(shù)大多裂開了數(shù)據(jù)間的關(guān)系,計(jì)算過程相對獨(dú)立,丟棄了數(shù)據(jù)間的關(guān)聯(lián)性;如此,則會降低數(shù)據(jù)分類分級的準(zhǔn)確率,從而影響脫敏的可靠性;由此,基于前述不足,如何提供一種準(zhǔn)確率高的數(shù)據(jù)分級方法,已成為了一個亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種基于圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分級方法、裝置及計(jì)算機(jī)程序產(chǎn)品,用以解決現(xiàn)有技術(shù)在進(jìn)行數(shù)據(jù)分級時,丟棄了數(shù)據(jù)間的關(guān)聯(lián)性而導(dǎo)致的數(shù)據(jù)分級準(zhǔn)確率低,進(jìn)而影響脫敏可靠性的問題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、第一方面,提供了一種基于圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分級方法,包括:
4、獲取目標(biāo)數(shù)據(jù)表,其中,所述目標(biāo)數(shù)據(jù)表中包含有多個數(shù)據(jù)項(xiàng),每個數(shù)據(jù)項(xiàng)分別用于表征所述目標(biāo)數(shù)據(jù)表中的一個表頭,且多個數(shù)據(jù)項(xiàng)用于表征人員信息數(shù)據(jù);
5、獲取數(shù)據(jù)關(guān)聯(lián)圖,其中,所述數(shù)據(jù)關(guān)聯(lián)圖的數(shù)據(jù)結(jié)構(gòu)為圖結(jié)構(gòu),所述數(shù)據(jù)關(guān)聯(lián)圖中包含有多個節(jié)點(diǎn),每個節(jié)點(diǎn)分別對應(yīng)一個歷史數(shù)據(jù)項(xiàng),且各個節(jié)點(diǎn)之間采用邊建立關(guān)聯(lián)關(guān)系;
6、利用所述目標(biāo)數(shù)據(jù)表中的各個數(shù)據(jù)項(xiàng),更新所述數(shù)據(jù)關(guān)聯(lián)圖,得到更新后的數(shù)據(jù)關(guān)聯(lián)圖,其中,所述更新后的數(shù)據(jù)關(guān)聯(lián)圖中包含有所述目標(biāo)數(shù)據(jù)表中的所有數(shù)據(jù)項(xiàng);
7、基于所述更新后的數(shù)據(jù)關(guān)聯(lián)圖,確定出所述目標(biāo)數(shù)據(jù)表的表頭特征向量;
8、獲取基于圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分級模型,其中,所述數(shù)據(jù)分級模型是以各個樣本數(shù)據(jù)表的表頭特征向量為輸入,各個樣本數(shù)據(jù)表中的各個表頭的分級概率為輸出而訓(xùn)練得到的;
9、將所述目標(biāo)數(shù)據(jù)表的表頭特征向量輸入至所述數(shù)據(jù)分級模型,以得到所述目標(biāo)數(shù)據(jù)表中的各個表頭的分級概率;
10、根據(jù)所述目標(biāo)數(shù)據(jù)表中的各個表頭的分級概率,得出目標(biāo)數(shù)據(jù)表中的各個表頭的分級結(jié)果,以便基于所述目標(biāo)數(shù)據(jù)表中的各個表頭的分級結(jié)果,對目標(biāo)數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行脫敏處理。
11、基于上述公開的內(nèi)容,本發(fā)明預(yù)先構(gòu)建了基于圖結(jié)構(gòu)的數(shù)據(jù)關(guān)聯(lián)圖,其中,該數(shù)據(jù)關(guān)聯(lián)圖中的各個節(jié)點(diǎn)分別對應(yīng)一個歷史數(shù)據(jù)項(xiàng)(即歷史數(shù)據(jù)表中的各個表頭),且各個節(jié)點(diǎn)之間采用邊建立關(guān)聯(lián)關(guān)系;如此,相當(dāng)于是利用圖結(jié)構(gòu),來表示各個表頭之間的數(shù)據(jù)關(guān)聯(lián);基于此,在實(shí)際使用時,本發(fā)明在獲取了目標(biāo)數(shù)據(jù)表后,則可根據(jù)目標(biāo)數(shù)據(jù)表中的各個數(shù)據(jù)項(xiàng),來更新前述數(shù)據(jù)關(guān)聯(lián)圖,以將目標(biāo)數(shù)據(jù)表中的各個數(shù)據(jù)項(xiàng)插入至數(shù)據(jù)關(guān)聯(lián)圖中,從而建立各個數(shù)據(jù)項(xiàng)對應(yīng)表頭之間的數(shù)據(jù)關(guān)聯(lián);而后,則可基于更新后的數(shù)據(jù)關(guān)聯(lián)圖,來確定出目標(biāo)數(shù)據(jù)表的表頭特征向量;由此,基于更新后的數(shù)據(jù)關(guān)聯(lián)圖所確定出的特征向量,則包含有目標(biāo)數(shù)據(jù)表中各個表頭之間,以及與歷史表頭之間的關(guān)聯(lián)關(guān)系;最后,將該表頭特征向量輸入至數(shù)據(jù)分級模型,即可得出目標(biāo)數(shù)據(jù)表中各個表頭的分級概率,從而確定出目標(biāo)數(shù)據(jù)表中各個表頭的分級結(jié)果。
12、通過上述設(shè)計(jì),本發(fā)明通過引入基于圖結(jié)構(gòu)的數(shù)據(jù)關(guān)聯(lián)圖,來表征數(shù)據(jù)表中各個表頭之間的關(guān)聯(lián)關(guān)系,并在每次分級前,利用本次分級的數(shù)據(jù)表中的各個表頭,來更新數(shù)據(jù)關(guān)聯(lián)圖,從而建立本次分級的數(shù)據(jù)表中各個表頭之間的數(shù)據(jù)關(guān)聯(lián);而后,則可基于該更新后的數(shù)據(jù)關(guān)聯(lián)圖,來提取出表頭特征向量;如此,基于更新后的數(shù)據(jù)關(guān)聯(lián)圖所確定出的特征向量,則包含有本次數(shù)據(jù)表中各個表頭之間,以及與歷史分級的各個表頭之間的關(guān)聯(lián)關(guān)系;最后,將該表頭特征向量輸入至數(shù)據(jù)分級模型,則可得出本次數(shù)據(jù)表中各個表頭的分級結(jié)果;由此,本發(fā)明在數(shù)據(jù)分級時,不僅僅依賴于數(shù)據(jù)本身的特征,還同時結(jié)合了數(shù)據(jù)關(guān)聯(lián)圖,來保留了數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,基于此,可提高數(shù)據(jù)分類分級的準(zhǔn)確性,進(jìn)而保證了數(shù)據(jù)脫敏的可靠性,因此,非常適用于大規(guī)模應(yīng)用與推廣。
13、在一個可能的設(shè)計(jì)中,利用所述目標(biāo)數(shù)據(jù)表中的各個數(shù)據(jù)項(xiàng),更新所述數(shù)據(jù)關(guān)聯(lián)圖,得到更新后的數(shù)據(jù)關(guān)聯(lián)圖,包括:
14、獲取所述目標(biāo)數(shù)據(jù)表中各個數(shù)據(jù)項(xiàng)的語義信息,其中,任一數(shù)據(jù)項(xiàng)的語義信息為向量形式;
15、根據(jù)各個數(shù)據(jù)項(xiàng)的語義信息,并將各個數(shù)據(jù)項(xiàng)作為新插入節(jié)點(diǎn),插入至所述數(shù)據(jù)關(guān)聯(lián)圖中,以在插入完畢后,得到所述更新后的數(shù)據(jù)關(guān)聯(lián)圖。
16、在一個可能的設(shè)計(jì)中,所述數(shù)據(jù)關(guān)聯(lián)圖中的任一節(jié)點(diǎn)具有頂點(diǎn)標(biāo)識符,其中,所述任一節(jié)點(diǎn)的頂點(diǎn)標(biāo)識符用于唯一表示該任一節(jié)點(diǎn)對應(yīng)的歷史數(shù)據(jù)項(xiàng),且各節(jié)點(diǎn)之間采用頂點(diǎn)標(biāo)識符和邊建立關(guān)聯(lián)關(guān)系;
17、其中,根據(jù)各個數(shù)據(jù)項(xiàng)的語義信息,并將各個數(shù)據(jù)項(xiàng)作為新插入節(jié)點(diǎn),插入至所述數(shù)據(jù)關(guān)聯(lián)圖中,以在插入完畢后,得到所述更新后的數(shù)據(jù)關(guān)聯(lián)圖,包括:
18、對于所述目標(biāo)數(shù)據(jù)表中的第i個數(shù)據(jù)項(xiàng),獲取所述第i個數(shù)據(jù)項(xiàng)的元數(shù)據(jù),并根據(jù)所述元數(shù)據(jù),構(gòu)建出所述第i個數(shù)據(jù)項(xiàng)的頂點(diǎn)標(biāo)識符;
19、計(jì)算出所述第i個數(shù)據(jù)項(xiàng)的語義信息,與所述數(shù)據(jù)關(guān)聯(lián)圖中各個節(jié)點(diǎn)對應(yīng)歷史數(shù)據(jù)項(xiàng)的語義信息之間的相似度,以在計(jì)算完畢后,得到多個相似度;
20、判斷多個相似度中是否存在有大于等于第一閾值的相似度;
21、若是,則使用第一目標(biāo)節(jié)點(diǎn),代替所述第i個數(shù)據(jù)項(xiàng)的新插入節(jié)點(diǎn),并建立所述第一目標(biāo)節(jié)點(diǎn)的頂點(diǎn)標(biāo)識符,與所述第i個數(shù)據(jù)項(xiàng)對應(yīng)頂點(diǎn)標(biāo)識符之間的關(guān)聯(lián)關(guān)系,以在建立關(guān)聯(lián)關(guān)系后,完成所述第i個數(shù)據(jù)項(xiàng)的插入,其中,所述第一目標(biāo)節(jié)點(diǎn)為多個相似度中大于等于所述第一閾值的相似度所對應(yīng)的節(jié)點(diǎn);
22、將i自加1,并重新獲取所述第i個數(shù)據(jù)項(xiàng)的元數(shù)據(jù),直至i等于n時,完成所述目標(biāo)數(shù)據(jù)表中所有數(shù)據(jù)項(xiàng)的插入,得到所述更新后的數(shù)據(jù)關(guān)聯(lián)圖,其中,i的初始值為1,且n為所述目標(biāo)數(shù)據(jù)表中數(shù)據(jù)項(xiàng)的總數(shù)。
23、在一個可能的設(shè)計(jì)中,若多個相似度中不存在有大于等于第一閾值的相似度,則所述方法還包括:
24、判斷多個相似度中是否存在有大于等于第二閾值,且小于所述第一閾值的相似度;
25、若是,則將所述第i個數(shù)據(jù)項(xiàng)作為一個新插入節(jié)點(diǎn),插入至所述數(shù)據(jù)關(guān)聯(lián)圖中,并將所述第i個數(shù)據(jù)項(xiàng)對應(yīng)的新插入節(jié)點(diǎn)與第二目標(biāo)節(jié)點(diǎn)采用邊進(jìn)行連接,其中,所述第二目標(biāo)節(jié)點(diǎn)為多個相似度中大于等于所述第二閾值,且小于所述第一閾值的相似度所對應(yīng)的節(jié)點(diǎn);
26、將所述第二目標(biāo)節(jié)點(diǎn)的頂點(diǎn)標(biāo)識符,與所述第i個數(shù)據(jù)項(xiàng)的頂點(diǎn)標(biāo)識符建立關(guān)聯(lián)關(guān)系,以在建立關(guān)聯(lián)關(guān)系后,完成所述第i個數(shù)據(jù)項(xiàng)的插入。
27、在一個可能的設(shè)計(jì)中,若多個相似度中不存在有大于等于第二閾值,且小于第一閾值的相似度,則所述方法還包括:
28、將所述第i個數(shù)據(jù)項(xiàng)作為一個新插入節(jié)點(diǎn),插入至所述數(shù)據(jù)關(guān)聯(lián)圖中,以完成所述第i個數(shù)據(jù)項(xiàng)的插入。
29、在一個可能的設(shè)計(jì)中,基于所述更新后的數(shù)據(jù)關(guān)聯(lián)圖,確定出所述目標(biāo)數(shù)據(jù)表的表頭特征向量,包括:
30、對所述更新后的數(shù)據(jù)關(guān)聯(lián)圖進(jìn)行采樣處理,得到多個采樣節(jié)點(diǎn);
31、獲取各個采樣節(jié)點(diǎn)的相鄰節(jié)點(diǎn),其中,任一采樣節(jié)點(diǎn)的相鄰節(jié)點(diǎn)為所述更新后的數(shù)據(jù)關(guān)聯(lián)圖中,與所述任一采樣節(jié)點(diǎn)具邊連接關(guān)系的節(jié)點(diǎn);
32、對各個采樣節(jié)點(diǎn)的相鄰節(jié)點(diǎn)的特征向量進(jìn)行特征聚合處理,以在特征聚合處理后,得到各個采樣節(jié)點(diǎn)的特征向量;
33、將各個采樣節(jié)點(diǎn)的特征向量,作為所述目標(biāo)數(shù)據(jù)表的表頭特征向量。
34、在一個可能的設(shè)計(jì)中,所述更新后的數(shù)據(jù)關(guān)聯(lián)圖中包含有多個節(jié)點(diǎn),每個節(jié)點(diǎn)分別對應(yīng)一個數(shù)據(jù)項(xiàng),任一節(jié)點(diǎn)具有頂點(diǎn)標(biāo)識符,所述頂點(diǎn)標(biāo)識符用于唯一表示所述任一節(jié)點(diǎn)對應(yīng)的數(shù)據(jù)項(xiàng),且各節(jié)點(diǎn)之間采用頂點(diǎn)標(biāo)識符和邊建立關(guān)聯(lián)關(guān)系;
35、其中,將所述目標(biāo)數(shù)據(jù)表的表頭特征向量輸入至所述數(shù)據(jù)分級模型,以得到所述目標(biāo)數(shù)據(jù)表中的各個表頭的分級概率,包括:
36、將各個采樣節(jié)點(diǎn)的特征向量,輸入至所述數(shù)據(jù)分級模型,以得到各個采樣節(jié)點(diǎn)的分級概率;
37、根據(jù)各個采樣節(jié)點(diǎn)的頂點(diǎn)標(biāo)識符以及分級概率,確定出所述目標(biāo)數(shù)據(jù)表中各個數(shù)據(jù)項(xiàng)對應(yīng)表頭的分級概率,以便根據(jù)所述目標(biāo)數(shù)據(jù)表中各個數(shù)據(jù)項(xiàng)對應(yīng)表頭的分級概率,得出所述目標(biāo)數(shù)據(jù)表中各個數(shù)據(jù)項(xiàng)對應(yīng)表頭的分級結(jié)果,并基于所述目標(biāo)數(shù)據(jù)表中各個數(shù)據(jù)項(xiàng)對應(yīng)表頭的分級結(jié)果,對所述目標(biāo)數(shù)據(jù)表中各個表頭對應(yīng)的數(shù)據(jù)進(jìn)行脫敏處理。
38、在一個可能的設(shè)計(jì)中,根據(jù)各個采樣節(jié)點(diǎn)的頂點(diǎn)標(biāo)識符以及分級概率,確定出所述目標(biāo)數(shù)據(jù)表中各個數(shù)據(jù)項(xiàng)對應(yīng)表頭的分級結(jié)果,包括:
39、對于任一采樣節(jié)點(diǎn),根據(jù)所述任一采樣節(jié)點(diǎn)的頂點(diǎn)標(biāo)識符,從所述更新后的數(shù)據(jù)關(guān)聯(lián)圖中,確定出與所述任一采樣節(jié)點(diǎn)的頂點(diǎn)標(biāo)識符具有關(guān)聯(lián)關(guān)系的頂點(diǎn)標(biāo)識符,以作為目標(biāo)標(biāo)識符;
40、判斷所述目標(biāo)數(shù)據(jù)表中的各個數(shù)據(jù)項(xiàng)對應(yīng)的頂點(diǎn)標(biāo)識符中,是否存在有與所述目標(biāo)標(biāo)識符相同的頂點(diǎn)標(biāo)識符;
41、若是,則將所述任一采樣節(jié)點(diǎn)對應(yīng)的分級概率,作為指定數(shù)據(jù)項(xiàng)對應(yīng)表頭的分級概率,以便基于所述指定數(shù)據(jù)項(xiàng)對應(yīng)表頭的分級概率,得出所述指定數(shù)據(jù)項(xiàng)對應(yīng)表頭的分級結(jié)果,其中,所述指定數(shù)據(jù)項(xiàng)為所述目標(biāo)數(shù)據(jù)表中,與所述目標(biāo)標(biāo)識符相同的頂點(diǎn)標(biāo)識符所對應(yīng)的數(shù)據(jù)項(xiàng)。
42、第二方面,提供了一種基于圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分級裝置,包括:
43、獲取單元,用于獲取目標(biāo)數(shù)據(jù)表,其中,所述目標(biāo)數(shù)據(jù)表中包含有多個數(shù)據(jù)項(xiàng),每個數(shù)據(jù)項(xiàng)分別用于表征所述目標(biāo)數(shù)據(jù)表中的一個表頭,且多個數(shù)據(jù)項(xiàng)用于表征人員信息數(shù)據(jù);
44、構(gòu)圖單元,用于獲取數(shù)據(jù)關(guān)聯(lián)圖,其中,數(shù)據(jù)關(guān)聯(lián)圖的數(shù)據(jù)結(jié)構(gòu)為圖結(jié)構(gòu),數(shù)據(jù)關(guān)聯(lián)圖中包含有多個節(jié)點(diǎn),每個節(jié)點(diǎn)分別對應(yīng)一個歷史數(shù)據(jù)項(xiàng),且各個節(jié)點(diǎn)之間采用邊建立關(guān)聯(lián)關(guān)系;
45、構(gòu)圖單元,還用于利用所述目標(biāo)數(shù)據(jù)表中的各個數(shù)據(jù)項(xiàng),更新所述數(shù)據(jù)關(guān)聯(lián)圖,得到更新后的數(shù)據(jù)關(guān)聯(lián)圖,其中,所述更新后的數(shù)據(jù)關(guān)聯(lián)圖中包含有所述目標(biāo)數(shù)據(jù)表中的所有數(shù)據(jù)項(xiàng);
46、特征提取單元,用于基于更新后的數(shù)據(jù)關(guān)聯(lián)圖,確定出所述目標(biāo)數(shù)據(jù)表的表頭特征向量;
47、數(shù)據(jù)分級單元,用于獲取基于圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分級模型,其中,所述數(shù)據(jù)分級模型是以各個樣本數(shù)據(jù)表的表頭特征向量為輸入,各個樣本數(shù)據(jù)表中的各個表頭的分級概率為輸出而訓(xùn)練得到的;
48、數(shù)據(jù)分級單元,用于將所述目標(biāo)數(shù)據(jù)表的表頭特征向量輸入至所述數(shù)據(jù)分級模型,以得到所述目標(biāo)數(shù)據(jù)表中的各個表頭的分級概率;
49、數(shù)據(jù)分級單元,還用于根據(jù)所述目標(biāo)數(shù)據(jù)表中的各個表頭的分級概率,得出目標(biāo)數(shù)據(jù)表中的各個表頭的分級結(jié)果,以便基于所述目標(biāo)數(shù)據(jù)表中的各個表頭的分級結(jié)果,對目標(biāo)數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行脫敏處理。
50、第三方面,提供了另一種基于圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分級裝置,以裝置為電子設(shè)備為例,包括依次通信相連的存儲器、處理器和收發(fā)器,其中,所述存儲器用于存儲計(jì)算機(jī)程序,所述收發(fā)器用于收發(fā)消息,所述處理器用于讀取所述計(jì)算機(jī)程序,執(zhí)行如第一方面或第一方面中任意一種可能設(shè)計(jì)的所述基于圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分級方法。
51、第四方面,提供了一種存儲介質(zhì),存儲介質(zhì)上存儲有指令,當(dāng)所述指令在計(jì)算機(jī)上運(yùn)行時,執(zhí)行如第一方面或第一方面中任意一種可能設(shè)計(jì)的所述基于圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分級方法。
52、第五方面,提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,當(dāng)指令在計(jì)算機(jī)上運(yùn)行時,使計(jì)算機(jī)執(zhí)行如第一方面或第一方面中任意一種可能設(shè)計(jì)的所述基于圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分級方法。
53、有益效果:
54、(1)本發(fā)明通過引入基于圖結(jié)構(gòu)的數(shù)據(jù)關(guān)聯(lián)圖,來表征數(shù)據(jù)表中各個表頭之間的關(guān)聯(lián)關(guān)系,并在每次分級前,利用本次分級的數(shù)據(jù)表中的各個表頭,來更新數(shù)據(jù)關(guān)聯(lián)圖,從而建立本次分級的數(shù)據(jù)表中各個表頭之間的數(shù)據(jù)關(guān)聯(lián);而后,則可基于該更新后的數(shù)據(jù)關(guān)聯(lián)圖,來提取出表頭特征向量;如此,基于更新后的數(shù)據(jù)關(guān)聯(lián)圖所確定出的特征向量,則包含有本次數(shù)據(jù)表中各個表頭之間,以及與歷史分級的各個表頭之間的關(guān)聯(lián)關(guān)系;最后,將該表頭特征向量輸入至數(shù)據(jù)分級模型,則可得出本次數(shù)據(jù)表中各個表頭的分級結(jié)果;由此,本發(fā)明在數(shù)據(jù)分級時,不僅僅依賴于數(shù)據(jù)本身的特征,還同時結(jié)合了數(shù)據(jù)關(guān)聯(lián)圖,來保留了數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,基于此,不僅可提高數(shù)據(jù)分類分級的準(zhǔn)確性,進(jìn)而保證了數(shù)據(jù)脫敏的可靠性,且相比于人工審核,還降低了審核工作量,從而非常適用于大規(guī)模應(yīng)用與推廣。