一種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法

文檔序號：10471428閱讀：429來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法
【專利摘要】本發(fā)明提出了一種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏的新方法。一般的數(shù)據(jù)庫處理漢語姓名的方法是直接去除姓名項或者亂碼代替，這樣帶來數(shù)據(jù)庫的嚴(yán)重信息損失。本方法的特點有效保障了數(shù)據(jù)唯一性和可標(biāo)識別性，使得數(shù)據(jù)庫在處理過程中無信息損失。首先通過對數(shù)據(jù)庫中的漢語姓名分解成單個漢字，然后將漢字編碼得到編碼數(shù)據(jù)，之后采用兩步初等變換方法將編碼次序置亂，最后使用互補(bǔ)映射得到脫敏碼，組合得到漢語姓名的全部脫敏結(jié)果。大量的數(shù)據(jù)庫實驗證明，這種方法十分有效，并且能夠達(dá)到數(shù)據(jù)庫無損脫敏的技術(shù)要求。
【專利說明】
-種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明主要用于數(shù)據(jù)庫隱私保護(hù)，具體表現(xiàn)為一種設(shè)及漢字編碼、數(shù)據(jù)置亂和互補(bǔ)映射等概念的數(shù)據(jù)庫漢語姓名轉(zhuǎn)換方法。
【背景技術(shù)】
[0002] 姓名脫敏方法是隱私保護(hù)方法研究的重要問題。在運個信息爆炸的時代，隱私保護(hù)成了大數(shù)據(jù)應(yīng)用的技術(shù)壁壘，如何保護(hù)數(shù)據(jù)庫中的隱私信息是亟待攻克的技術(shù)難題。隱私是指不愿為他人所知悉的個人信息。包括個人的內(nèi)在思想、外在生活方式、身體狀況、家庭關(guān)系和背景、生活環(huán)境與空間等與公共利益無關(guān)的個人事務(wù)和情況。2013年4月1日，國家工業(yè)和信息化部編制的《信息安全技術(shù)、公共及商用服務(wù)信息系統(tǒng)個人信息保護(hù)指南》正式實施。指南明確將個人信息分為個人一般信息和個人敏感信息；同時要求，處理個人信息應(yīng) 當(dāng)具有特定的、明確的和合理的目的，應(yīng)當(dāng)在個人信息主體知情的情況下獲得個人信息主體的同意。對于個人一般信息的處理可W建立在默許同意的基礎(chǔ)上，只要個人信息主體沒有明確表示反對，便可收集和利用；但對于個人敏感信息，則需要建立在明示同意的基礎(chǔ) 上，在收集和利用之前，必須首先獲得個人信息主體明確的授權(quán)。在運些個人敏感信息中，姓名是一個重要且備受用戶或者公眾關(guān)注的信息。從中華上下五千年歷史的角度來看，姓名是文化脈承的重要方式之一，是W血脈傳承為根基的社會人文標(biāo)識，是人們在社會關(guān)系中必不可少的符號，是個人在社會人文交流中必須的用于信息表達(dá)、交流及傳播的工具。在大數(shù)據(jù)領(lǐng)域，設(shè)及的個人敏感信息常在百萬條W上，多則數(shù)千萬甚至幾億條，要征得運些個體的同意，然后再進(jìn)行統(tǒng)計和使用，是不能的事情。因此姓名脫敏成了數(shù)據(jù)庫隱私保護(hù)的重要的技術(shù)問題。
[0003] 姓名漢字編碼是姓名脫敏的重要技術(shù)。當(dāng)前漢字編碼方法非常多，比如區(qū)位碼、內(nèi) 碼、外碼W及ASCII碼等等。本專利選擇1981年國家標(biāo)準(zhǔn)局公布的《信息交換用漢字編碼字符集基本集》(簡稱漢字標(biāo)準(zhǔn)交換碼）。該套漢字標(biāo)準(zhǔn)交換碼共分兩級，一級3755個字，二級 3008個字，共6763個漢字。運種漢字標(biāo)準(zhǔn)交換碼是計算機(jī)的內(nèi)部碼，可W為各種輸入輸出設(shè) 備的設(shè)計提供統(tǒng)一的標(biāo)準(zhǔn)，使各種系統(tǒng)之間的信息交換有共同一致性，從而使信息資源的共享得W保證。就大數(shù)據(jù)中的姓名信息脫敏而言，脫敏的效率是必須考慮的重要因素，因此不宜采用過于復(fù)雜的編碼技術(shù)。與那些復(fù)雜的編碼技術(shù)不同，漢字標(biāo)準(zhǔn)交換碼的主要優(yōu)點就在于使用起來簡單高效。
[0004] 數(shù)據(jù)置亂是姓名信息脫敏的必不可少的步驟。數(shù)據(jù)置亂是信息脫敏的一項常用技術(shù)，其目的是將數(shù)據(jù)置換成閱讀者難W識別其原有分布規(guī)律的數(shù)據(jù)，同時保持?jǐn)?shù)據(jù)的大小、規(guī)模不發(fā)生改變。
[0005] 補(bǔ)碼映射是姓名信息脫敏的保障技術(shù)。補(bǔ)碼思想基于互補(bǔ)守恒原理，兩個量互補(bǔ) 是指它們之和總是一個常數(shù)。本專利中每個漢字對應(yīng)四位區(qū)位碼，因此我們指定原碼和補(bǔ) 碼之和為定常數(shù)9999。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的在于提出一種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法，W減少數(shù) 據(jù)庫中漢語姓名的信息存在為目的，W保障數(shù)據(jù)真實性為原則。同時，本發(fā)明要求脫敏方法是可逆的，即要能從脫敏庫還原原始數(shù)據(jù)庫。本專利發(fā)明的方法，整個脫敏過程完全由計算機(jī)自動完成的，用戶只需要輸入原始數(shù)據(jù)庫，就可讓計算機(jī)自動對數(shù)據(jù)庫漢語姓名進(jìn)行脫敏，最終得到脫敏后的數(shù)據(jù)庫。
[0007] 本發(fā)明的技術(shù)方案如下：
[000引步驟1，對漢語姓名的漢字分解，根據(jù)字節(jié)分割姓名，N= {XI，X2，X3，…，Xk};
[0009] 步驟2,對漢字進(jìn)行編碼，本專利采用國家標(biāo)準(zhǔn)漢字碼，Ul = c(Xl)，i = l，2，…，k.
[0010] 步驟3，對每個漢字對應(yīng)碼采用初等變換矩陣分兩步置亂VI = 1 (m)，i = 1，2，…，k;
[0011] 步驟4,將置亂后的漢字編碼用互補(bǔ)映射得到補(bǔ)碼，互補(bǔ)映射為： Ei = F(vi) = 9999-vi，i = l，2，...，k，例如:F(8021) =9999-8021 = 1978;
[001^ 步驟5,將補(bǔ)碼組合生成脫敏姓名數(shù)據(jù)E =趾2...Ek。
【附圖說明】
[0013] 讀者在參照附圖閱讀了本發(fā)明的【具體實施方式】W后，將會更清楚地了解本發(fā)明的各個方面。說明書附圖為1000條數(shù)據(jù)的脫敏結(jié)果，前面Ξ列為原始數(shù)據(jù)，后面Ξ列為脫敏后的數(shù)據(jù)。圖1至圖19均是方法發(fā)明的應(yīng)用實例圖，我們從數(shù)據(jù)庫中選擇了 1000條數(shù)據(jù)作為隱私保護(hù)的對象，第一列為數(shù)據(jù)庫中的漢語姓名，是敏感信息屬性，為了保護(hù)隱私，用"某"或者 "某某'隱去名字，僅留下姓，后面2至4列依次分別是"性那年齡""出生日撕'，第五列對應(yīng) 脫敏后的姓名代碼，后面6至8列依次分別是"性別""年齡""出生日期"，從圖1至圖19可W看出，脫敏后已經(jīng)很難識別出個人信息了，達(dá)到了數(shù)據(jù)脫敏的目的。
【具體實施方式】
[0014] 步驟1，首先從輸入的數(shù)據(jù)庫記錄中提取姓名字段，將對應(yīng)字段的姓名進(jìn)行漢字分解，得到單個漢字，如"公孫聚云"=Γ公"，"抓V'聚V'云"}。
[001引步驟2，給出每個漢字的唯一標(biāo)識碼，實例如2511 = CΓ公"），4379 = CΓ抓'），3059 = c("聚"），5238 = c("云"），在具體實施的過程中，如果碰到目前碼表庫里沒有的生僻漢字，自動加碼，即在現(xiàn)有碼庫中最大碼加上1為該生僻漢字的對應(yīng)碼。
[0016]步驟3,將已經(jīng)編碼好的漢字對應(yīng)碼置亂，實施時，置亂方式如下:例如漢字"孫"對應(yīng)編碼為4379，現(xiàn)將4379置亂，將4379看成4維向量，用四階初等矩陣來完成置亂，本專利采用：1)對分交換：

結(jié)果是:9743 = 1 (4379)即為置亂碼。
[0017] 步驟4,在應(yīng)用時僅需要直接用9999減去置亂碼即可生成單個漢字的補(bǔ)碼。例如：0256 = F(9743) =9999-9743。
[0018] 步驟5，具體實施時，組碼不改變次序，采用直接組合而成。例如:通過實施前面的步驟："公"-->8874,"孫"-->0256,"聚"-->0469,"云"-->1647，那么"公孫聚云"對應(yīng)脫敏數(shù)據(jù)為:8874025604691647。
【主權(quán)項】
1. 一種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法，其特征在于：對數(shù)據(jù)庫漢語姓名脫敏時，要求保護(hù)如下方法步驟，其步驟具體如下：步驟1，對漢語姓名的漢字分解，根據(jù)字節(jié)分割姓名，N={xi，X2，X3, . . .，Xk); 步驟2,對漢字進(jìn)行編碼，本專利采用國家標(biāo)準(zhǔn)漢字碼，Ui = c(xi)，i = l，2,. . .，k.實例如：膽:2108;彈:2115;蛋:2116; 步驟3，對每個漢字對應(yīng)碼采用初等變換矩陣分兩步置亂Vi = 1 (m)，i = 1，2，. . .，k; 步驟4，將置亂后的漢字編碼用互補(bǔ)映射得到補(bǔ)碼，互補(bǔ)映射為： Ei = F(vi) = 9999-vi，i = l，2, · · ·，k，例如：F(8021)=9999-8021 = 1978; 步驟5,將補(bǔ)碼組合生成脫敏姓名數(shù)據(jù)EiEiEs. . .Ek。2. 根據(jù)基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法，專利權(quán)利要求保護(hù)置亂碼的變換方法，具體如下：要求保護(hù)對步驟3中置亂碼的方法為： vi = m*P*Q，i = l，2,…，k 第一次采用初等矩陣pS:第二次采用初等矩陣Q為：實例如：2108置亂為8021 ;2115置亂為5121 ;2116置亂為6121。3. 根據(jù)基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法，專利權(quán)利要求保護(hù)互補(bǔ)碼的生成方法，具體如下： Ei = F(vi) = 9999_vi，i = 1，2，· · ·，k; 即要求Ei和vi互補(bǔ)，Ei+vi = 9999。
【文檔編號】G06F21/62GK105825141SQ201610072405
【公開日】2016年8月3日
【申請日】2016年2月2日
【發(fā)明人】羅建峰, 袁玉波
【申請人】上海健晴信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅建峰;袁玉波;
技術(shù)所有人：上海健晴信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)庫脫敏相關(guān)技術(shù)

數(shù)據(jù)庫映射相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于互補(bǔ)映射的數(shù)據(jù)庫漢語姓名脫敏方法