一種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法
【專利摘要】本發(fā)明提出了一種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏的新方法。一般的數(shù)據(jù)庫處理漢語姓名的方法是直接去除姓名項或者亂碼代替,這樣帶來數(shù)據(jù)庫的嚴(yán)重信息損失。本方法的特點有效保障了數(shù)據(jù)唯一性和可標(biāo)識別性,使得數(shù)據(jù)庫在處理過程中無信息損失。首先通過對數(shù)據(jù)庫中的漢語姓名分解成單個漢字,然后將漢字編碼得到編碼數(shù)據(jù),之后采用兩步初等變換方法將編碼次序置亂,最后使用互補(bǔ)映射得到脫敏碼,組合得到漢語姓名的全部脫敏結(jié)果。大量的數(shù)據(jù)庫實驗證明,這種方法十分有效,并且能夠達(dá)到數(shù)據(jù)庫無損脫敏的技術(shù)要求。
【專利說明】
-種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明主要用于數(shù)據(jù)庫隱私保護(hù),具體表現(xiàn)為一種設(shè)及漢字編碼、數(shù)據(jù)置亂和互 補(bǔ)映射等概念的數(shù)據(jù)庫漢語姓名轉(zhuǎn)換方法。
【背景技術(shù)】
[0002] 姓名脫敏方法是隱私保護(hù)方法研究的重要問題。在運個信息爆炸的時代,隱私保 護(hù)成了大數(shù)據(jù)應(yīng)用的技術(shù)壁壘,如何保護(hù)數(shù)據(jù)庫中的隱私信息是亟待攻克的技術(shù)難題。隱 私是指不愿為他人所知悉的個人信息。包括個人的內(nèi)在思想、外在生活方式、身體狀況、家 庭關(guān)系和背景、生活環(huán)境與空間等與公共利益無關(guān)的個人事務(wù)和情況。2013年4月1日,國家 工業(yè)和信息化部編制的《信息安全技術(shù)、公共及商用服務(wù)信息系統(tǒng)個人信息保護(hù)指南》正式 實施。指南明確將個人信息分為個人一般信息和個人敏感信息;同時要求,處理個人信息應(yīng) 當(dāng)具有特定的、明確的和合理的目的,應(yīng)當(dāng)在個人信息主體知情的情況下獲得個人信息主 體的同意。對于個人一般信息的處理可W建立在默許同意的基礎(chǔ)上,只要個人信息主體沒 有明確表示反對,便可收集和利用;但對于個人敏感信息,則需要建立在明示同意的基礎(chǔ) 上,在收集和利用之前,必須首先獲得個人信息主體明確的授權(quán)。在運些個人敏感信息中, 姓名是一個重要且備受用戶或者公眾關(guān)注的信息。從中華上下五千年歷史的角度來看,姓 名是文化脈承的重要方式之一,是W血脈傳承為根基的社會人文標(biāo)識,是人們在社會關(guān)系 中必不可少的符號,是個人在社會人文交流中必須的用于信息表達(dá)、交流及傳播的工具。在 大數(shù)據(jù)領(lǐng)域,設(shè)及的個人敏感信息常在百萬條W上,多則數(shù)千萬甚至幾億條,要征得運些個 體的同意,然后再進(jìn)行統(tǒng)計和使用,是不能的事情。因此姓名脫敏成了數(shù)據(jù)庫隱私保護(hù)的重 要的技術(shù)問題。
[0003] 姓名漢字編碼是姓名脫敏的重要技術(shù)。當(dāng)前漢字編碼方法非常多,比如區(qū)位碼、內(nèi) 碼、外碼W及ASCII碼等等。本專利選擇1981年國家標(biāo)準(zhǔn)局公布的《信息交換用漢字編碼字 符集基本集》(簡稱漢字標(biāo)準(zhǔn)交換碼)。該套漢字標(biāo)準(zhǔn)交換碼共分兩級,一級3755個字,二級 3008個字,共6763個漢字。運種漢字標(biāo)準(zhǔn)交換碼是計算機(jī)的內(nèi)部碼,可W為各種輸入輸出設(shè) 備的設(shè)計提供統(tǒng)一的標(biāo)準(zhǔn),使各種系統(tǒng)之間的信息交換有共同一致性,從而使信息資源的 共享得W保證。就大數(shù)據(jù)中的姓名信息脫敏而言,脫敏的效率是必須考慮的重要因素,因此 不宜采用過于復(fù)雜的編碼技術(shù)。與那些復(fù)雜的編碼技術(shù)不同,漢字標(biāo)準(zhǔn)交換碼的主要優(yōu)點 就在于使用起來簡單高效。
[0004] 數(shù)據(jù)置亂是姓名信息脫敏的必不可少的步驟。數(shù)據(jù)置亂是信息脫敏的一項常用技 術(shù),其目的是將數(shù)據(jù)置換成閱讀者難W識別其原有分布規(guī)律的數(shù)據(jù),同時保持?jǐn)?shù)據(jù)的大小、 規(guī)模不發(fā)生改變。
[0005] 補(bǔ)碼映射是姓名信息脫敏的保障技術(shù)。補(bǔ)碼思想基于互補(bǔ)守恒原理,兩個量互補(bǔ) 是指它們之和總是一個常數(shù)。本專利中每個漢字對應(yīng)四位區(qū)位碼,因此我們指定原碼和補(bǔ) 碼之和為定常數(shù)9999。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提出一種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法,W減少數(shù) 據(jù)庫中漢語姓名的信息存在為目的,W保障數(shù)據(jù)真實性為原則。同時,本發(fā)明要求脫敏方法 是可逆的,即要能從脫敏庫還原原始數(shù)據(jù)庫。本專利發(fā)明的方法,整個脫敏過程完全由計算 機(jī)自動完成的,用戶只需要輸入原始數(shù)據(jù)庫,就可讓計算機(jī)自動對數(shù)據(jù)庫漢語姓名進(jìn)行脫 敏,最終得到脫敏后的數(shù)據(jù)庫。
[0007] 本發(fā)明的技術(shù)方案如下:
[000引步驟1,對漢語姓名的漢字分解,根據(jù)字節(jié)分割姓名,N= {XI,X2,X3,…,Xk};
[0009] 步驟2,對漢字進(jìn)行編碼,本專利采用國家標(biāo)準(zhǔn)漢字碼,Ul = c(Xl),i = l,2,…,k.
[0010] 步驟3,對每個漢字對應(yīng)碼采用初等變換矩陣分兩步置亂VI = 1 (m),i = 1,2,…,k;
[0011] 步驟4,將置亂后的漢字編碼用互補(bǔ)映射得到補(bǔ)碼,互補(bǔ)映射為: Ei = F(vi) = 9999-vi,i = l,2,...,k,例如:F(8021) =9999-8021 = 1978;
[001^ 步驟5,將補(bǔ)碼組合生成脫敏姓名數(shù)據(jù)E =趾2...Ek。
【附圖說明】
[0013] 讀者在參照附圖閱讀了本發(fā)明的【具體實施方式】W后,將會更清楚地了解本發(fā)明的 各個方面。說明書附圖為1000條數(shù)據(jù)的脫敏結(jié)果,前面Ξ列為原始數(shù)據(jù),后面Ξ列為脫敏后 的數(shù)據(jù)。 圖1至圖19均是方法發(fā)明的應(yīng)用實例圖,我們從數(shù)據(jù)庫中選擇了 1000條數(shù)據(jù)作為隱私 保護(hù)的對象,第一列為數(shù)據(jù)庫中的漢語姓名,是敏感信息屬性,為了保護(hù)隱私,用"某"或者 "某某'隱去名字,僅留下姓,后面2至4列依次分別是"性那年齡""出生日撕',第五列對應(yīng) 脫敏后的姓名代碼,后面6至8列依次分別是"性別""年齡""出生日期",從圖1至圖19可W看 出,脫敏后已經(jīng)很難識別出個人信息了,達(dá)到了數(shù)據(jù)脫敏的目的。
【具體實施方式】
[0014] 步驟1,首先從輸入的數(shù)據(jù)庫記錄中提取姓名字段,將對應(yīng)字段的姓名進(jìn)行漢字分 解,得到單個漢字,如"公孫聚云"=Γ公","抓V'聚V'云"}。
[001引步驟2,給出每個漢字的唯一標(biāo)識碼,實例如2511 = CΓ公"),4379 = CΓ抓'),3059 = c("聚"),5238 = c("云"),在具體實施的過程中,如果碰到目前碼表庫里沒有的生僻漢 字,自動加碼,即在現(xiàn)有碼庫中最大碼加上1為該生僻漢字的對應(yīng)碼。
[0016]步驟3,將已經(jīng)編碼好的漢字對應(yīng)碼置亂,實施時,置亂方式如下:例如漢字"孫"對 應(yīng)編碼為4379,現(xiàn)將4379置亂,將4379看成4維向量,用四階初等矩陣來完成置亂,本專利采 用:1)對分交換:
結(jié)果是:9743 = 1 (4379)即為置亂碼。
[0017] 步驟4,在應(yīng)用時僅需要直接用9999減去置亂碼即可生成單個漢字的補(bǔ)碼。 例如:0256 = F(9743) =9999-9743。
[0018] 步驟5,具體實施時,組碼不改變次序,采用直接組合而成。 例如:通過實施前面的步驟:"公"-->8874,"孫"-->0256,"聚"-->0469,"云"-->1647, 那么"公孫聚云"對應(yīng)脫敏數(shù)據(jù)為:8874025604691647。
【主權(quán)項】
1. 一種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法,其特征在于: 對數(shù)據(jù)庫漢語姓名脫敏時,要求保護(hù)如下方法步驟,其步驟具體如下: 步驟1,對漢語姓名的漢字分解,根據(jù)字節(jié)分割姓名,N={xi,X2,X3, . . .,Xk); 步驟2,對漢字進(jìn)行編碼,本專利采用國家標(biāo)準(zhǔn)漢字碼,Ui = c(xi),i = l,2,. . .,k.實例 如: 膽:2108;彈:2115;蛋:2116; 步驟3,對每個漢字對應(yīng)碼采用初等變換矩陣分兩步置亂Vi = 1 (m),i = 1,2,. . .,k; 步驟4,將置亂后的漢字編碼用互補(bǔ)映射得到補(bǔ)碼,互補(bǔ)映射為: Ei = F(vi) = 9999-vi,i = l,2, · · ·,k,例如:F(8021)=9999-8021 = 1978; 步驟5,將補(bǔ)碼組合生成脫敏姓名數(shù)據(jù)EiEiEs. . .Ek。2. 根據(jù)基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法,專利權(quán)利要求保護(hù)置亂碼的變換方 法,具體如下: 要求保護(hù)對步驟3中置亂碼的方法為: vi = m*P*Q,i = l,2,…,k 第一次采用初等矩陣pS:第二次采用初等矩陣Q為: 實例如:2108置亂為8021 ;2115置亂為5121 ;2116置亂為6121。3. 根據(jù)基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法,專利權(quán)利要求保護(hù)互補(bǔ)碼的生成方 法,具體如下: Ei = F(vi) = 9999_vi,i = 1,2,· · ·,k; 即要求Ei和vi互補(bǔ),Ei+vi = 9999。
【文檔編號】G06F21/62GK105825141SQ201610072405
【公開日】2016年8月3日
【申請日】2016年2月2日
【發(fā)明人】羅建峰, 袁玉波
【申請人】上海健晴信息技術(shù)有限公司