本發(fā)明涉及聊天信息脫敏,具體為基于群組聊天的信息脫敏處理方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、聊天信息脫敏技術(shù),是指一種用于保護個人隱私的技術(shù),通過對聊天數(shù)據(jù)進行處理,使得敏感信息無法被直接識別或關(guān)聯(lián)到具體個人,其目的是在保留數(shù)據(jù)可用性的同時,最大限度地減少潛在的隱私泄露風(fēng)險。
2、現(xiàn)有的聊天信息脫敏技術(shù)通常都是對單條聊天信息進行敏感信息識別,且很難對敏感信息中穿插了符號或其余不相關(guān)的字符的敏感信息進行識別,同時,現(xiàn)有的聊天信息脫敏技術(shù)難以對多條聊天信息進行敏感信息識別,若群組成員通過將敏感信息分為多條聊天信息的方式向群組中發(fā)送敏感信息,現(xiàn)有的聊天信息脫敏技術(shù)無法對其進行識別并脫敏,比如在申請公開號為cn116662510a的中國專利中,公開了采用人工智能算法的在線人機會話脫敏方法及軟件產(chǎn)品,該方案在識別敏感信息時僅能夠?qū)螚l的會話文本進行識別,無法將用戶連續(xù)發(fā)送的多條文本進行識別,導(dǎo)致敏感信息可以通過分條發(fā)送的形式進行發(fā)送,現(xiàn)有的聊天信息脫敏技術(shù)還存在僅能對單條聊天信息進行敏感信息識別,導(dǎo)致無法有效保護用戶的敏感信息的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明旨在至少在一定程度上解決現(xiàn)有技術(shù)中的技術(shù)問題之一,通過對敏感信息進行定義,定義完成后獲取群組聊天信息,對群組聊天信息進行信息預(yù)處理,提取出多條群組聊天信息中的字符信息以及文字信息,再對字符信息以及文字信息進行敏感信息識別,得到敏感聊天信息,再定義脫敏規(guī)則,基于脫敏規(guī)則對敏感聊天信息進行脫敏處理,以解決現(xiàn)有的聊天信息脫敏技術(shù)還存在僅能對單條聊天信息進行敏感信息識別,導(dǎo)致無法有效保護用戶的敏感信息的問題。
2、為實現(xiàn)上述目的,第一方面,本技術(shù)提供基于群組聊天的信息脫敏處理方法,包括如下步驟:
3、對敏感信息進行定義;
4、獲取群組聊天信息,對群組聊天信息進行信息預(yù)處理,提取出群組聊天信息中的字符信息以及文字信息;
5、對字符信息以及文字信息進行敏感信息識別,得到敏感聊天信息;
6、定義脫敏規(guī)則,基于脫敏規(guī)則對敏感聊天信息進行脫敏處理。
7、進一步地,對敏感信息進行定義包括將姓名、地址、電話號碼、電子郵箱以及身份證號定義為敏感信息。
8、進一步地,獲取群組聊天信息,對群組聊天信息進行信息預(yù)處理,提取出群組聊天信息中的字符信息以及文字信息包括如下子步驟:
9、基于用戶名獲取群組聊天信息,標記為用戶發(fā)言信息;
10、對用戶發(fā)言信息進行編號,通過符號umn表示,其中,n為正整數(shù)且n為um的序號;
11、從n=1開始,依次獲取第一數(shù)量的umn,即um1至umn,n為第一數(shù)量,將um1至umn對應(yīng)的用戶發(fā)言信息按照n從小到大的順序進行組合,得到初組合信息;將n+1,再次獲取um2至umn+1并組合得到新的初組合信息;依次類推,得到用戶的若干條初組合信息;
12、對初組合信息中的字符進行編號,通過符號icim表示,其中,m為正整數(shù)且m為ici的序號;
13、以m=1為起始,查找icim是否為漢字、逗號或句號,若是,則輸出文字信息信號;若否,則輸出字符信息信號;
14、若輸出文字信息信號,則將icim納入文字信息;若輸出字符信息信號,則將icim納入字符信息;所述文字信息以及字符信息中的icim均按照m從小到大的順序進行排列。
15、進一步地,對字符信息以及文字信息進行敏感信息識別,得到敏感聊天信息包括如下子步驟:
16、通過命名實體識別模型對文字信息進行識別,查找其中的姓名以及地址,若查找出文字信息內(nèi)存在姓名,則將對應(yīng)的姓名標記為待處理姓名信息;若查找出文字信息內(nèi)存在地址,則將對應(yīng)的地址標記為待處理地址信息;
17、查找字符信息中是否存在符號“@”,若存在,則輸出郵箱查找信號;若不存在,則輸出無郵箱信號;
18、若輸出郵箱查找信號,則以符號“@”為起始,向前查找第二數(shù)量的字母、數(shù)字以及下劃線,將符號“@”之前的第二數(shù)量的字母、數(shù)字以及下劃線合并標記為郵箱名信息;向后查找符號“.”,將“@”與“.”之間的字母以及數(shù)字合并標記為域名信息;將符號“.”之后第三數(shù)量的字母以及數(shù)字合并標記為后綴信息;
19、將郵箱名信息、域名信息以及后綴信息按照“郵箱名信息@域名信息.后綴信息”的格式組合,得到待驗證郵箱信息;
20、通過郵箱正則表達式“^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*”對待驗證郵箱信息進行驗證,若待驗證郵箱信息是電子郵箱,則輸出郵箱確認信號;若待驗證郵箱信息不是電子郵箱,則輸出無郵箱信息信號;
21、若輸出郵箱確認信號,則將待驗證郵箱信息標記為待處理郵箱信息,將待處理郵箱信息從字符信息中剔除;
22、若輸出無郵箱信號,則將字符信息中的數(shù)字按照m從小到大的順序提取出來,組合得到數(shù)字信息;
23、對數(shù)字信息進行敏感信息識別。
24、進一步地,對數(shù)字信息進行敏感信息識別包括如下子步驟:
25、對數(shù)字信息中的數(shù)字進行編號,通過符號numi表示,其中,i為正整數(shù)且i為num的序號;
26、查找數(shù)字信息中的數(shù)字“1”的numi,將對應(yīng)的i標記為j;
27、設(shè)置第四數(shù)量,通過符號t表示,將numj至numj+t-1對應(yīng)的數(shù)字合并標記為待驗證號碼;
28、通過號碼正則表達式“^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$”對待驗證號碼進行驗證,若待驗證號碼是電話號碼,則輸出號碼確認信號;若待驗證號碼不是電話號碼,則輸出無號碼信息信號;
29、若輸出號碼確認信號,則將待驗證號碼標記為待處理號碼信息;
30、驗證數(shù)字信息中是否存在身份證號。
31、進一步地,驗證數(shù)字信息中是否存在身份證號包括如下子步驟:
32、設(shè)置第五數(shù)字,通過符號g表示,將numi至numi+g-1的數(shù)字合并標記為待驗證身份證,1≤i≤max(i)-g,max(i)為i的最大值;
33、通過身份證正則表達式“/^([1-6][1-9]|50)\d{4}(18|19|20)\d{2}((0[1-9])|10|11|12)(([0-2][1-9])|10|20|30|31)\d{3}[0-9xx]$/”對待驗證身份證進行驗證,若待驗證身份證是身份證號,則輸出身份證確認信號;若待驗證身份證不是身份證號,則輸出非身份信息信號;
34、若輸出身份證確認信號,則將待驗證身份證標記為待處理身份信息。
35、進一步地,定義脫敏規(guī)則,基于脫敏規(guī)則對敏感聊天信息進行脫敏處理包括如下子步驟:
36、所述敏感聊天信息包括待處理姓名信息、待處理地址信息、待處理郵箱信息、待處理號碼信息以及待處理身份信息;
37、將待處理姓名信息對應(yīng)的文字替換為[姓名a],若不處于同一條群組聊天信息內(nèi),則對后發(fā)出的群組聊天信息中對應(yīng)的文字替換,已經(jīng)發(fā)出的群組聊天信息中對應(yīng)的文字直接刪除;
38、將待處理地址信息對應(yīng)的文字替換為[地址a],若文字不處于同一條群組聊天信息內(nèi),則對后發(fā)出的群組聊天信息中對應(yīng)的文字替換,已經(jīng)發(fā)出的群組聊天信息中對應(yīng)的文字直接刪除;
39、將待處理郵箱信息對應(yīng)的字符替換為[郵箱a],若字符不處于同一條群組聊天信息內(nèi),則對后發(fā)出的群組聊天信息中對應(yīng)的字符替換,已經(jīng)發(fā)出的群組聊天信息中對應(yīng)的字符直接刪除;
40、將待處理號碼信息對應(yīng)的數(shù)字替換為[號碼a],若數(shù)字不處于同一條群組聊天信息內(nèi),則對后發(fā)出的群組聊天信息中對應(yīng)的數(shù)字替換,已經(jīng)發(fā)出的群組聊天信息中對應(yīng)的數(shù)字直接刪除;
41、將待處理身份信息對應(yīng)的數(shù)字替換為[身份a],若數(shù)字不處于同一條群組聊天信息內(nèi),則對后發(fā)出的群組聊天信息中對應(yīng)的數(shù)字替換,已經(jīng)發(fā)出的群組聊天信息中對應(yīng)的數(shù)字直接刪除;
42、替換完成后,將原有的敏感聊天信息刪除。
43、第二方面,本技術(shù)提供基于群組聊天的信息脫敏處理系統(tǒng),包括敏感信息定義模塊、聊天信息提取模塊、敏感信息識別模塊以及信息脫敏處理模塊;所述敏感信息定義模塊、聊天信息提取模塊以及信息脫敏處理模塊分別與敏感信息識別模塊數(shù)據(jù)連接;
44、所述敏感信息定義模塊用于對敏感信息進行定義;
45、所述聊天信息提取模塊用于獲取群組聊天信息,對群組聊天信息進行信息預(yù)處理,提取出群組聊天信息中的字符信息以及文字信息;
46、所述敏感信息識別模塊用于對字符信息以及文字信息進行敏感信息識別,得到敏感聊天信息;
47、所述信息脫敏處理模塊用于定義脫敏規(guī)則,基于脫敏規(guī)則對敏感聊天信息進行脫敏處理。
48、第三方面,本技術(shù)提供一種電子設(shè)備,包括處理器以及存儲器,所述存儲器存儲有計算機可讀取指令,當(dāng)所述計算機可讀取指令由所述處理器執(zhí)行時,運行如上任意一項所述方法中的步驟。
49、第四方面,本技術(shù)提供一種存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,運行如上任意一項所述方法中的步驟。
50、本發(fā)明的有益效果:本發(fā)明通過對敏感信息進行定義,定義完成后獲取群組聊天信息,對群組聊天信息進行信息預(yù)處理,提取出多條群組聊天信息中的字符信息以及文字信息,優(yōu)勢在于,對多條群組聊天信息進行提取能夠?qū)⒂脩舭l(fā)送的聊天信息進行前后結(jié)合,能夠識別的范圍更廣,而非僅能對單條聊天信息進行敏感信息識別,提高了聊天信息脫敏的全面性以及有效性;
51、本發(fā)明通過對字符信息以及文字信息進行敏感信息識別,得到敏感聊天信息,再定義脫敏規(guī)則,基于脫敏規(guī)則對敏感聊天信息進行脫敏處理,優(yōu)勢在于,對字符信息以及文字信息分別進行敏感信息識別,能夠有效防止在敏感信息內(nèi)穿插其他不相關(guān)的文字或字符導(dǎo)致識別失敗的問題,提高了聊天信息脫敏的準確性以及有效性;
52、本發(fā)明通過在對敏感聊天信息進行脫敏后,將原有的敏感聊天信息刪除,優(yōu)勢在于,若是對敏感聊天信息進行加密,則依舊伴有被破解的風(fēng)險,而直接刪除即可避免此風(fēng)險,提高了聊天信息脫敏的安全性。