專利名稱:個(gè)人信息匿名化裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及個(gè)人信息的匿名化。
背景技術(shù):
近年來,有關(guān)個(gè)人的龐大的數(shù)據(jù)的集成化日益發(fā)展,對于處理個(gè)人信息的企業(yè)而言對隱私的顧慮是必不可少的。個(gè)人信息處理從業(yè)人員至少必須遵守與個(gè)人信息的保護(hù)有關(guān)的法律(以下稱為保護(hù)法)及相關(guān)法令。保護(hù)法對個(gè)人信息的收集及利用等賦予管理對應(yīng)的義務(wù),進(jìn)而由各部門的指導(dǎo)方針規(guī)定其具體的措施。這些指導(dǎo)方針?biāo)?guī)定的管理措施之一是個(gè)人信息的匿名化。例如,厚生勞動(dòng)省要 求在有關(guān)醫(yī)療的個(gè)人信息的第三方提供、學(xué)會(huì)發(fā)表、醫(yī)療事故報(bào)告等中,只要沒有特別的需 要?jiǎng)t對其進(jìn)行匿名化。此外,經(jīng)濟(jì)產(chǎn)業(yè)省也將個(gè)人信息的匿名化列舉為第三方提供時(shí)的優(yōu)選的措施。最簡單的個(gè)人信息匿名化的處理是將能夠識別個(gè)人的信息從該個(gè)人信息中消除或使其模糊。作為前者的例子,對應(yīng)于消除姓名或住址的處理,作為后者的例子,對應(yīng)于將住址變換為都道府縣單位、將年齡變換為10歲區(qū)間等的處理。以下,將模糊化對象按照其程度以樹結(jié)構(gòu)表現(xiàn)的結(jié)構(gòu)稱為廣義層次樹。但是,即使進(jìn)行上述的匿名化處理,有時(shí)通過組合有關(guān)個(gè)人的多個(gè)屬性能夠識別出個(gè)人。例如,雖然是都道府縣單位的住址和10歲區(qū)間的年齡,但若為極罕見的組合,則能夠確定個(gè)人。像這樣,匿名化中希望更可靠地消除識別可能性。作為用于除去識別可能性的技術(shù),有如下匿名化技術(shù)設(shè)定閾值,生成保證了個(gè)人信息數(shù)據(jù)中包含的任意的屬性值的組合在數(shù)據(jù)中存在閾值以上的匿名數(shù)據(jù)。本發(fā)明也屬于這種匿名化技術(shù)。這種匿名化技術(shù)記載于非專利文獻(xiàn)I中。在非專利文獻(xiàn)I中,記載了使用廣義層次樹將個(gè)人信息數(shù)據(jù)中的屬性值模糊化,從而保證在公開的數(shù)據(jù)中出現(xiàn)的任意的屬性值的組合至少出現(xiàn)閾值件數(shù)?,F(xiàn)有技術(shù)文獻(xiàn)非專利文獻(xiàn)非專利文獻(xiàn)1:K. LeFevre, D. J. Deffitt, and R. Ramakrishnan, “Incognito :Efficient Full — Domain K — Anonymity,,,2005 ACM SIGMODInternational Conf.Management of Data,pp. 49 - 60,2005發(fā)明概要發(fā)明要解決的問題非專利文獻(xiàn)I的技術(shù)需要按每個(gè)屬性分別定義對模糊化的程度進(jìn)行定義的廣義層次樹。此外,由于將達(dá)到閾值以上的候選全部輸出,因此需要選擇要使用的匿名數(shù)據(jù),不能使決定匿名數(shù)據(jù)間的有用性優(yōu)劣的手段自動(dòng)化
發(fā)明內(nèi)容
用于解決問題的手段本發(fā)明是考慮這樣的情況而作出的,提供降低個(gè)人信息匿名化的運(yùn)用成本、并且適當(dāng)保護(hù)個(gè)人信息的技術(shù)。作為一例公開的是一種個(gè)人信息匿名化裝置,具有個(gè)人信息輸入單元,輸入一個(gè)以上的由各屬性的屬性值構(gòu)成的個(gè)人信息;廣義層次樹自動(dòng)生成單元,選擇一個(gè)屬性,并使用按該選擇的屬性中出現(xiàn)的每個(gè)屬性值對具有該屬性值的該輸入個(gè)人信息的件數(shù)進(jìn)行計(jì)數(shù)的頻度取得單元,自動(dòng)構(gòu)成廣義層次樹,該廣義層次樹針對該各個(gè)屬性將該輸入個(gè)人信息中出現(xiàn)的各屬性值的上位概念根據(jù)其模糊度以樹結(jié)構(gòu)表現(xiàn);以及再編碼單元,使用由該廣義層次樹自動(dòng)生成單元針對該各個(gè)屬性生成的廣義層次樹,對該輸入個(gè)人信息進(jìn)行再編碼。由此,能夠解決上述問題。發(fā)明效果能夠同時(shí)實(shí)現(xiàn)基于自動(dòng)化的運(yùn)用成本的降低和適當(dāng)?shù)膫€(gè)人信息的保護(hù)。
圖I是在實(shí)施例I中表示計(jì)算機(jī)的結(jié)構(gòu)例的圖。圖2是在實(shí)施例I中表示個(gè)人信息表的一例的圖。圖3是在實(shí)施例I中表不最小同值件數(shù)信息的一例的圖。圖4是在實(shí)施例I中表示屬性種類信息的一例的圖。圖5 Ca)是在實(shí)施例I中表不廣義層次樹表的一例的圖。圖5 (b)是在實(shí)施例I中表不廣義層次樹表的一例的圖。圖5 (C)是在實(shí)施例I中表不廣義層次樹表的一例的圖。圖6是在實(shí)施例I中表不廣義層次樹表的一例的圖。圖7是在實(shí)施例I中表不匿名信息表的一例的圖。圖8是在實(shí)施例I中表示動(dòng)作例的圖。圖9是在實(shí)施例I中表示動(dòng)作例的圖。圖10是在實(shí)施例I中表示動(dòng)作例的圖。圖11是在實(shí)施例I中表示動(dòng)作例的圖。圖12是在實(shí)施例I中表示動(dòng)作例的圖。圖13是在實(shí)施例2中表示計(jì)算機(jī)的結(jié)構(gòu)例的圖。圖14是在實(shí)施例2中表不產(chǎn)生信息表的一例的圖。圖15是在實(shí)施例2中表示動(dòng)作例的圖。圖16是在實(shí)施例2中表示動(dòng)作例的圖。圖17是在實(shí)施例3中表示計(jì)算機(jī)的結(jié)構(gòu)例的圖。圖18是在實(shí)施例3中表示用戶定義層次樹表的一例的圖。圖19 Ca)是在實(shí)施例3中表示用戶定義層次樹和基于用戶定義層次樹的廣義層次樹的一例的圖。圖19 (b)是在實(shí)施例3中表示用戶定義層次樹和基于用戶定義層次樹的廣義層次樹的一例的圖。圖19 (c)是在實(shí)施例3中表示用戶定義層次樹和基于用戶定義層次樹的廣義層次樹的一例的圖。圖20是在實(shí)施例3中表示動(dòng)作例的圖。圖21是在實(shí)施例3中表示動(dòng)作例的圖。圖22是在實(shí)施例3中表示動(dòng)作例的圖。圖23是在實(shí)施例3中表示動(dòng)作例的圖。圖24 Ca)是在實(shí)施例3中表示動(dòng)作例的圖。圖24 (b)是在實(shí)施例3中表示動(dòng)作例的圖。圖24 (C)是在實(shí)施例3中表示動(dòng)作例的圖。
圖25是在實(shí)施例3中表示動(dòng)作例的圖。
具體實(shí)施例方式以下,參照附圖詳細(xì)說明用于實(shí)施本發(fā)明的方式。另外,以下說明的三個(gè)實(shí)施例是主要保護(hù)電子形態(tài)的個(gè)人信息的技術(shù)。本實(shí)施方式中的個(gè)人信息是指有關(guān)個(gè)人的信息,表示通過姓名、出生年月日、其他信息等能夠識別特定的個(gè)人的信息。此外,容易與其他信息對照、由此能夠識別特定的個(gè)人的信息也包含于個(gè)人信息。在本實(shí)施方式中,個(gè)人信息的匿名化是指對該個(gè)人信息進(jìn)行變換以使得不能識別信息主體的處理。此外,再編碼是指將說明個(gè)人的某屬性的屬性值置換為較模糊的概念。〈實(shí)施例I>參照圖1,說明實(shí)現(xiàn)實(shí)施例I的技術(shù)的裝置的結(jié)構(gòu)例。圖I是在計(jì)算機(jī)上構(gòu)成裝置的例子。在圖I中,計(jì)算機(jī)100例如是PC (PersonalComputer)、服務(wù)器、工作站等任意的信息處理裝置。計(jì)算機(jī)100具有CPU (CentralProcessing Unit)101、存儲(chǔ)器102、儲(chǔ)存器103、輸入裝置104、輸出裝置105、通信裝置106等。這些全部經(jīng)由總線等內(nèi)部通信線107相互連接。儲(chǔ)存器103 例如是 CD — R (Compact Disc Recordable)> DVD — RAM (DigitalVersatile Disk Random Access Memory)、娃盤等存儲(chǔ)介質(zhì)以及該存儲(chǔ)介質(zhì)的驅(qū)動(dòng)裝置HDD(Hard Disk Drive)等。儲(chǔ)存器103存儲(chǔ)個(gè)人信息表131、匿名信息表132、最小同值件數(shù)信息133、屬性種類信息134、程序151等。個(gè)人信息表131保存多個(gè)有關(guān)個(gè)人的個(gè)人信息。在本實(shí)施方式中,各個(gè)人信息由多個(gè)項(xiàng)目各自的項(xiàng)目值構(gòu)成。匿名信息表132保存將個(gè)人信息表131通過本發(fā)明匿名化后的結(jié)果。最小同值件數(shù)信息133保存閾值。屬性種類信息134保存?zhèn)€人信息表131所具有的各屬性的信息種類。程序151用于實(shí)現(xiàn)后述的功能。輸入裝置104例如是鍵盤、鼠標(biāo)、掃描器,麥克風(fēng)等。輸出裝置105是顯示器、打印機(jī)、揚(yáng)聲器等。通信裝置106例如是LAN (Local AreaNetwork)板等,與通信網(wǎng)絡(luò)(圖示略)連接。CPU101向存儲(chǔ)器102上裝載程序151并執(zhí)行,由此實(shí)現(xiàn)廣義層次樹自動(dòng)生成部121和再編碼部122。另外,再編碼部122根據(jù)需要作為內(nèi)部處理而實(shí)現(xiàn)損失信息量計(jì)量部123。廣義層次樹自動(dòng)生成部121將個(gè)人信息表131以及屬性值種類信息134作為輸入,從個(gè)人信息表131的各屬性取得全部的屬性值的頻度,根據(jù)所取得的頻度信息和從屬性值種類信息134取得的該屬性的種類信息,構(gòu)成Huffman編碼樹或Shannon — Fano編碼樹或Hu - Tucker編碼樹,將制作的樹作為廣義層次樹保存在廣義層次樹表135中。再編碼部122將個(gè)人信息表131、最小同值件數(shù)信息133以及廣義層次樹表135作為輸入,按照與從廣義層次樹表135得到的各屬性對應(yīng)的廣義層次樹,將其屬性值再編碼,由此使全部的記錄在表上存在的件數(shù)大于保存在最小同值件數(shù)信息133中的值,將其結(jié)果向匿名信息表132輸出。另外,進(jìn)而也可以向輸出裝置105輸出結(jié)果。損失信息量計(jì)量部123是定量地評價(jià)因?qū)傩灾档脑倬幋a而數(shù)據(jù)所丟失的信息量的部分,根據(jù)需要由再編碼部122調(diào)用。以下說明上述表等的詳細(xì)的例子。首先,參照圖2,說明個(gè)人信息表131的一例。 圖2中,個(gè)人信息表131具有多個(gè)記錄。一個(gè)記錄表示有關(guān)I名個(gè)人的信息。各記錄表示為屬性201、屬性202、屬性203的屬性值的元組(topple)。圖2所示的表的第一行指屬性的名稱。屬性201、屬性202、屬性203分別表示個(gè)人的住址、年齡、出生國家或出生地區(qū)中的任意一個(gè)以上。此外,假設(shè)上述的個(gè)人信息表131內(nèi)的信息預(yù)先被保存。另外,個(gè)人信息的項(xiàng)目不限于圖2所示的項(xiàng)目,可以是任意項(xiàng)目。此外,個(gè)人的總數(shù)(記錄總數(shù))和屬性數(shù)都可以是任意的。實(shí)施例I的計(jì)算機(jī)100對能夠確定個(gè)人的信息進(jìn)行匿名化。能夠確定個(gè)人的信息不一定限于姓名等直接確定個(gè)人的信息。例如,有時(shí)能夠根據(jù)性別、年齡、住址的組合來確定個(gè)人。本實(shí)施方式中預(yù)先決定由系統(tǒng)的運(yùn)用者進(jìn)行匿名化的屬性。圖2的例子是系統(tǒng)的運(yùn)用者判斷為住址、年齡、出生國家或出生地區(qū)的組合關(guān)聯(lián)于個(gè)人的確定,對該3個(gè)屬性進(jìn)行匿名化的例子。即,不需要個(gè)人信息的屬性全體限定于住址、年齡、出生國家或出生地區(qū)。接著,參照圖3說明最小同值件數(shù)信息133的一例。圖3的例子表示最小同值件數(shù)301為5件。該最小同值件數(shù)301是若具有相同的屬性值元組的記錄的數(shù)量為最小同值件數(shù)301以上則看作即使將將數(shù)據(jù)公開也難以確定個(gè)人的值。圖3的例子表示若在數(shù)據(jù)中出現(xiàn)的任意的屬性值元組為5件以上則看作即使公開也是安全的。另外,最小同值件數(shù)301的值不限于5件,也可以是任意的。參照圖4說明屬性種類信息134的一例。屬性種類信息134是在構(gòu)成進(jìn)行匿名化的各屬性的廣義層次樹的方面為了指定構(gòu)成方法而規(guī)定該屬性所具有的信息種類的信息。在圖4的例子的表134 - a中,表示將屬性“住址”401的廣義層次樹以字符串處理型生成,將屬性“年齡”402的廣義層次樹以順序保存型生成,將屬性“出生國家或出生地區(qū)”403的廣義層次樹以其他型生成。如表134 -b,關(guān)于字符串處理型的屬性,指定其字符串處理的類型。在表134 - b中,意味著將屬性“住址”404按前方一致型處理。另外,順序保存型是指預(yù)先決定好所構(gòu)成的廣義層次樹的葉節(jié)點(diǎn)的順序的情況,其他是指既不是字符串處理型也不是順序保存型。接著參照圖5a、圖5b、圖5c,表示廣義層次樹表135的一例。這里,如上所述,廣義層次樹表135是廣義層次樹自動(dòng)生成部121參照個(gè)人信息表131和屬性種類信息134而生成的表。首先,參照圖5 (a — I)表不針對屬性“住址” 201制作的廣義層次樹135 - al的概念圖,參照圖5 (a — 2)表示將廣義層次樹135 — al保存在儲(chǔ)存器上的方法,參照圖5 (a - 3)表示將廣義層次樹135 — al在存儲(chǔ)器上管理的方法。在圖5 (a — I)中,針對屬性“住址”201的廣義層次樹135 — al表現(xiàn)為由多個(gè)節(jié)點(diǎn)和分支構(gòu)成的樹構(gòu)造。分支意味著節(jié)點(diǎn)間的母子關(guān)系。用箭頭表示分支,箭頭的根側(cè)的節(jié)點(diǎn)為母節(jié)點(diǎn),尖端側(cè)的節(jié)點(diǎn)為子節(jié)點(diǎn)。例如在節(jié)點(diǎn)501和節(jié)點(diǎn)502的關(guān)系中,節(jié)點(diǎn)501是母節(jié)點(diǎn),節(jié)點(diǎn)502是子節(jié)點(diǎn)。將不具有母節(jié)點(diǎn)的節(jié)點(diǎn)稱為根節(jié)點(diǎn),將不具有子節(jié)點(diǎn)的節(jié)點(diǎn)稱為葉節(jié)點(diǎn)。例如,節(jié)點(diǎn)501是根節(jié)點(diǎn),節(jié)點(diǎn)503、節(jié)點(diǎn)504等是葉節(jié)點(diǎn)。將沿著母節(jié)點(diǎn)而能夠到達(dá)的節(jié)點(diǎn)稱為祖先節(jié)點(diǎn),將沿著子節(jié)點(diǎn)而 能夠到達(dá)的節(jié)點(diǎn)稱為子孫節(jié)點(diǎn)。不是葉節(jié)點(diǎn)的節(jié)點(diǎn)被稱為內(nèi)部節(jié)點(diǎn)。例如,節(jié)點(diǎn)501、節(jié)點(diǎn)502等是內(nèi)部節(jié)點(diǎn)。各節(jié)點(diǎn)與標(biāo)簽5031及頻度5032建立關(guān)聯(lián)。葉節(jié)點(diǎn)上,作為標(biāo)簽而與原屬性值建立關(guān)聯(lián),作為頻度而與在個(gè)人信息表中出現(xiàn)該屬性值的件數(shù)建立關(guān)聯(lián)。例如,葉節(jié)點(diǎn)503被附加了 “東京都文京區(qū)”的標(biāo)簽,作為頻度而與其出現(xiàn)件數(shù)35建立了關(guān)聯(lián)。對內(nèi)部節(jié)點(diǎn)的標(biāo)簽分配能夠表示其全部子節(jié)點(diǎn)的抽象的概念,此外作為其頻度分配全部子節(jié)點(diǎn)的頻度的總和。例如,參照屬性種類信息134,屬性“住址”201是前方一致型的字符串處理型,因此節(jié)點(diǎn)503 “東京都文京區(qū)”和節(jié)點(diǎn)504 “東京都豐島區(qū)”被作為相同的父母節(jié)點(diǎn)502的較抽象的概念而廣義化,作為節(jié)點(diǎn)502的標(biāo)簽而被分配了“東京都”。此外,作為節(jié)點(diǎn)502的頻度,與其全部的子節(jié)點(diǎn)的頻度的總和建立了關(guān)聯(lián)。同樣,對全部的屬性值的廣義層次構(gòu)造進(jìn)行前方一致型的字符串處理并作為樹構(gòu)造輸出的結(jié)果為廣義層次樹135 - al。圖5 (a - 2)中示出將廣義層次樹135 — al保存在儲(chǔ)存器上的方法的一例。在儲(chǔ)存器上利用關(guān)系數(shù)據(jù)庫等來保存。作為關(guān)系數(shù)據(jù)庫上的表,保存廣義層次樹135 - al的一例是表135 — a2。表135 - a2的第一行511表示各列的標(biāo)簽,第2行以后的各記錄與I個(gè)節(jié)點(diǎn)對應(yīng)。即,左列意味著該節(jié)點(diǎn)的標(biāo)簽,中央列意味著該節(jié)點(diǎn)的母節(jié)點(diǎn)的標(biāo)簽,右列意味著該節(jié)點(diǎn)的頻度。例如,記錄512是與節(jié)點(diǎn)501對應(yīng)的記錄。節(jié)點(diǎn)501是根節(jié)點(diǎn),因此不具有母節(jié)點(diǎn)。在該情況下,在中央列中保管NULL (空)的值,將節(jié)點(diǎn)501的頻度205保管在右列。同樣,與節(jié)點(diǎn)502對應(yīng)的記錄是記錄513。另外,不限于前方一致型的字符串處理型的屬性的情況,針對任意的屬性種類的廣義層次樹可以通過該方法保存在儲(chǔ)存器上。在圖5 (a — 3)中表示在存儲(chǔ)器上管理廣義層次樹135 — al的方法。數(shù)據(jù)構(gòu)造521是管理節(jié)點(diǎn)501的數(shù)據(jù)構(gòu)造的一例。數(shù)據(jù)構(gòu)造由指針5211、指示母節(jié)點(diǎn)的指針5212、子節(jié)點(diǎn)的指針列表5213、該節(jié)點(diǎn)的標(biāo)簽5214以及該節(jié)點(diǎn)的頻度5215構(gòu)成。表示節(jié)點(diǎn)501的數(shù)據(jù)構(gòu)造521對應(yīng)于根節(jié)點(diǎn),因此母節(jié)點(diǎn)的指針是NULL。同樣,例如,節(jié)點(diǎn)503是葉節(jié)點(diǎn),因此表示節(jié)點(diǎn)503的數(shù)據(jù)構(gòu)造的子節(jié)點(diǎn)的指針列表為空。另外,不限于前方一致型的字符串處理型的屬性的情況,能夠通過該方法在存儲(chǔ)器上管理針對任意的屬性種類的廣義層次樹。接著,使用圖5 (b - I)在樹135 — bl中表示構(gòu)成屬性“年齡”202的廣義層次樹的一例。參照屬性種類信息134,屬性“年齡”202是順序保存型。順序保存型是指保存葉節(jié)點(diǎn)的順序的信息種類,實(shí)際上,在廣義層次樹135 — bl中,全部的葉節(jié)點(diǎn)從左到右保存其大小順序。另外,作為順序,不限于大小順序,也可以采用詞典式順序、手動(dòng)賦予的順序等任意的順序。作為順序保存型的廣義層次樹的構(gòu)筑,使用其屬性的屬性值的頻度信息。表135 - b2是將屬性“年齡”202的屬性值的頻度做成表的表,指取屬性值“20”的記錄為50件,取屬性值“25”的記錄為35件,取屬性值“27”的記錄為25件,取屬性值“33”的記錄為40件,取屬性值“38”的記錄為55件,取其他屬性值的記錄不存在。在該例中將屬性值限定為了 5種類,但不需要限定于此。若利用頻度表135 - b2以順序保存型構(gòu)筑廣義層次樹,則生成廣義層次樹135 - bl。另外,在廣義層次樹135 - bl中通過以保存大小順序的形式構(gòu)成廣義層次樹,能夠以范圍的形式指定內(nèi)部節(jié)點(diǎn)的標(biāo)簽。例如,在節(jié)點(diǎn)531中,能夠指定“20 - 27”的標(biāo)簽。換言之,沒有祖先與子孫的關(guān)系的2個(gè)節(jié)點(diǎn)的標(biāo)簽所示的范圍不重疊。參照圖6,表示屬性“年齡”的屬性種類假設(shè)為后述的“其他”的情況下自動(dòng)生成了廣義層次樹的結(jié)果。在該例中,人為地以范圍的形式對內(nèi)部節(jié)點(diǎn)分配標(biāo)簽。在圖6的例子中,節(jié)點(diǎn)601和節(jié)點(diǎn)602的標(biāo)簽分別為“25 - 38”和“33”,這些節(jié)點(diǎn)雖然不是祖先與子孫的 關(guān)系,但是“33”包含在“25 - 38”的范圍。接著,使用圖5 (c - I)表示構(gòu)成屬性“出生國家或出生地區(qū)”203的廣義層次樹的一例。參照屬性種類信息134,屬性“出生國家或出生地區(qū)”203的屬性種類是其他。SP,既不是字符串處理型也不是順序保存型。在該情況下,僅使用屬性的全部屬性值的頻度信息來構(gòu)成廣義層次樹。使用頻度信息135 - c2構(gòu)成廣義層次樹的一例為樹135 — Cl。分配給內(nèi)部節(jié)點(diǎn)的標(biāo)簽是列舉了位于該內(nèi)部節(jié)點(diǎn)的下位的葉節(jié)點(diǎn)的標(biāo)簽的標(biāo)簽。例如,在節(jié)點(diǎn)541中被分配了忡國,法國,德國,美國,英國}的標(biāo)簽,這解釋為“中國或法國或德國或美國或英國”。參照圖7,說明匿名信息表132的一例。各屬性值再編碼為與該屬性對應(yīng)的廣義層次樹的節(jié)點(diǎn)的標(biāo)簽。此時(shí),再編碼目標(biāo)的節(jié)點(diǎn)限于與原屬性值對應(yīng)的葉節(jié)點(diǎn)的祖先節(jié)點(diǎn)。此夕卜,針對在匿名信息表132中出現(xiàn)的全部的屬性的屬性值元組(tuple)需要在匿名信息表全體之中至少存在最小同值件數(shù)信息133的件數(shù)。例如,具有數(shù)據(jù)元組701 (神奈川縣橫浜市,33 - 38,日本)這樣的元組的記錄必須要存在最小同值件數(shù)信息133所示的5件以上。另外,在圖7的例子中構(gòu)成為處于子孫、祖先的關(guān)系的節(jié)點(diǎn)的標(biāo)簽在匿名信息表132中不共存的形式,但不限于此。即,例如再編碼為“20 - 27”的年齡段和再編碼為“25 —27”的年齡段也可以共存。接著,參照圖8說明計(jì)算機(jī)100的動(dòng)作例。首先,廣義層次樹自動(dòng)生成部121參照個(gè)人信息表131以及屬性種類信息134,進(jìn)行廣義層次樹的自動(dòng)生成,將其結(jié)果保存在廣義層次樹表135中(S801)。接著,再編碼部122參照個(gè)人信息表131、最小同值件數(shù)134以及廣義層次樹表135,以任意的記錄存在最小同值件數(shù)301所示的5件以上的方式對數(shù)據(jù)進(jìn)行再編碼,將其結(jié)果保存在匿名信息表132中(S802)。另外,在圖8中將S801和S802連續(xù)執(zhí)行,但從上述的說明可知這些步驟能夠分離。即,能夠使由廣義樹自動(dòng)生成部121進(jìn)行S801的定時(shí)和由再編碼部122進(jìn)行S802的定時(shí)不同。但是,S801需要在S802之前執(zhí)行。通過使執(zhí)行S801和S802的定時(shí)錯(cuò)開,能夠享受如下優(yōu)點(diǎn)。計(jì)算機(jī)100的利用者能夠閱覽由S801自動(dòng)生成的廣義層次樹,并對其加以修正。例如,在不需要將由S801自動(dòng)生成的廣義層次樹的全部內(nèi)部節(jié)點(diǎn)作為再編碼目標(biāo)的候選的情況下,將僅留下作為再編碼目標(biāo)的候選的內(nèi)部節(jié)點(diǎn)的樹重新設(shè)為廣義層次樹,從而能夠?qū)崿F(xiàn)S802的高速化。此外,也可以對上述以外的廣義層次樹進(jìn)行修正。進(jìn)而利用者能夠替換為具有與自動(dòng)生成的樹完全沒有關(guān)系的構(gòu)造的廣義層次樹。接著,參照圖9說明廣義層次樹自動(dòng)生成部121在上述S801中自動(dòng)構(gòu)成廣義層次樹的詳細(xì)的動(dòng)作例。即,進(jìn)行圖9的各處理的是廣義層次樹自動(dòng)生成部121。首先,定義幾個(gè)表示法。M是個(gè)人信息表131的屬性的總數(shù)(列數(shù))。將個(gè)人信息表131的各列從左起按順序稱為第O列、第I列、…、第m — I列。在圖9中,首先將個(gè)人信息表131讀入到存儲(chǔ)器102上(S901),將參數(shù)j初始化為O (S902)。接著,確認(rèn)j是否比m小(S903),若j為m以上,則結(jié)束處理?!?br>
在S903的判斷中j比m小的情況下,從屬性種類信息134取得第j個(gè)屬性的屬性種類(S904),按照其結(jié)果進(jìn)行條件分支(S905 )。在S905中該屬性的屬性種類為“字符串處理型”的情況下,首先,將第j個(gè)屬性的個(gè)人信息表131中出現(xiàn)的全部屬性值無遺漏地列舉(S911)。具體而言,一邊掃描全部記錄,一邊判別是否已列舉了與第j個(gè)屬性對應(yīng)的屬性值,在沒有列舉的情況下進(jìn)行列舉。在是否已列舉的判別中例如使用由作為編程語言的C+ +的標(biāo)準(zhǔn)庫提供的set等的數(shù)據(jù)構(gòu)造即可。接著,從列舉的屬性值進(jìn)行指定的字符串處理,提取包含關(guān)系,基于該包含關(guān)系構(gòu)成樹(S912)。包含關(guān)系的提取方法依賴于已知的各種字符串處理方法,例如圖5 (a - I)的例子那樣前方一致型的字符串處理的情況下,將一致部分全部切出,構(gòu)成為一致長度較長的一方接近葉節(jié)點(diǎn),一致長度較短的一方接近根節(jié)點(diǎn)。字符串中有一致部分的兩個(gè)屬性值成為以該一致部分為根節(jié)點(diǎn)的部分樹的葉節(jié)點(diǎn),對作為該部分樹的根節(jié)點(diǎn)的節(jié)點(diǎn)的標(biāo)簽?zāi)軌蚍峙湟恢碌淖址η胺揭恢滦鸵酝獾淖址幚硇鸵怖眠m當(dāng)?shù)姆椒▽θ康墓?jié)點(diǎn)分配標(biāo)簽。另外,在不特別關(guān)心標(biāo)簽的內(nèi)容的情況下,也可以是列舉了成為該節(jié)點(diǎn)的子孫節(jié)點(diǎn)的全部葉節(jié)點(diǎn)的結(jié)構(gòu)。例如是{東京都文京區(qū),東京都豐島區(qū),東京都板橋區(qū)}等。若結(jié)束S912的處理,則轉(zhuǎn)移到后述的S941的處理。在S905中該屬性的屬性種類為“順序保存型”的情況下,首先,取得第j個(gè)屬性的全部的屬性值的頻度信息(S921)。具體而言,一邊掃描全部記錄,一邊判別是否已列舉了與當(dāng)前掃描中的記錄的第j個(gè)屬性對應(yīng)的屬性值,在已列舉的情況下使對該屬性值的頻度進(jìn)行計(jì)數(shù)的計(jì)數(shù)器增加1,在沒有列舉的情況下,將該屬性值的頻度的計(jì)數(shù)器設(shè)定為I。作為數(shù)據(jù)構(gòu)造,使用由C++標(biāo)準(zhǔn)庫提供的map等。map是將上述的set的集合內(nèi)的要素與值建立關(guān)聯(lián)而成的,將集合的要素稱為鍵(key),將建立關(guān)聯(lián)的值稱為值(value)。在全部記錄的掃描結(jié)束時(shí),map中存儲(chǔ)有各屬性值的頻度。接著,使用上述中取得的第j個(gè)屬性的頻度信息構(gòu)成Hu - Tucker編碼樹,將其設(shè)為該屬性的廣義層次樹(S922)。該編碼樹的構(gòu)成方法使用文獻(xiàn)“D. E. Knuth, "The Artof Computer Programming :VoIume 3 Sorting andSearching,,,Addison — Wesley, pp.439 - 444,1973”中記載的方法等。在該情況下,與S912同樣,利用適當(dāng)?shù)姆椒▽?jié)點(diǎn)分配標(biāo)簽。另外,在“順序保存型”的情況下,能夠如上述那樣作為屬性值的本來的范圍來分配內(nèi)部節(jié)點(diǎn)的標(biāo)簽。在結(jié)束S922的處理之后轉(zhuǎn)移到后述的S941的處理。在S905中該屬性的屬性種類為“其他”的情況下,首先取得第j個(gè)屬性的全部頻度信息(S931)。這是與處理S921完全等效的處理。接著,使用上述中取得的第j個(gè)屬性的頻度信息構(gòu)成Huffman編碼樹或Shannon 一 Fano編碼樹,將其設(shè)為該屬性的廣義層次樹(S932)。使用哪個(gè)編碼樹,由計(jì)算機(jī)100的設(shè)計(jì)者預(yù)先決定。另外,作為Huffman編碼樹的構(gòu)成方法使用文獻(xiàn)“T. S. Hanand K. Kobayashi,“Mathematics of Informationand Coding,,,American MathematicalSociety, pp. 99 - 105, 2002”等中記載的方法,作為Shannon — Fano編碼樹的構(gòu)成方法使用文獻(xiàn) “T. S. Han andK. Kobayashi, “Mathematics of Information andCoding, ^AmericanMathematical Society, pp. 95 -96, 2002” 中記載的方法等。結(jié)束 S932的處理之后,轉(zhuǎn)移到后述的S941的處理。在結(jié)束S912或S922或S932的處理之后,更新在各個(gè)步驟中構(gòu)成的廣義層次樹的 各節(jié)點(diǎn)的頻度信息(S941)。另外,在后面使用圖10說明更詳細(xì)的更新方法。接著,將構(gòu)成的廣義層次樹保存在廣義層次樹表135中(S942),對j代入j + I(S943),回到上述的S903的評價(jià)。j單調(diào)增加,必然會(huì)變得大于m,因此由此能夠構(gòu)成針對全部的屬性的廣義層次樹。使用圖10說明廣義層次樹自動(dòng)生成部121在S941的步驟中進(jìn)行的廣義層次樹的節(jié)點(diǎn)頻度信息的更新方法的一例。即,進(jìn)行圖10的各處理的是廣義層次樹自動(dòng)生成部121。圖10 (a)是廣義層次樹的節(jié)點(diǎn)頻度更新的大體流程,在內(nèi)部回歸性地使用圖10(b)的過程。首先,取得第j個(gè)屬性的全部屬性值的頻度信息(S1001)。步驟SlOOl是與S921完全等同的處理。接著將取得的頻度信息分配給第j個(gè)屬性的廣義層次樹的對應(yīng)的葉節(jié)點(diǎn)(S1002)。具體而言,向?qū)?yīng)的葉節(jié)點(diǎn)的數(shù)據(jù)構(gòu)造的頻度5215代入S1001中取得的頻度。將該處理對全部葉節(jié)點(diǎn)進(jìn)行。將第j個(gè)廣義層次樹的根節(jié)點(diǎn)作為自變量執(zhí)行圖10 (b)的過程(S1003)。說明圖10 (b)的過程。圖10 (b)的過程中將節(jié)點(diǎn)取為自變量。首先,取得自變量節(jié)點(diǎn)的全部子節(jié)點(diǎn),將該總數(shù)設(shè)為P (S1004)。為了方便,將P個(gè)子節(jié)點(diǎn)稱為第0、1、…、P — I個(gè)子節(jié)點(diǎn)。具體而言,取得節(jié)點(diǎn)的數(shù)據(jù)構(gòu)造的子節(jié)點(diǎn)的指針列表5213。該列表中保存的要素的總數(shù)為P。接著,對i 代入 O (S1005)。接著判斷i是否比P小(S1006),若為P以上則將處理轉(zhuǎn)移到在后面說明的S1010。在S1006的判斷中,若i比P小,則判斷第i個(gè)子節(jié)點(diǎn)是否尚未被分配頻度(S1007)。若已被分配了頻度,則對i代入i + I (S1009),回到S1006。在S1007的判斷中若第i個(gè)子節(jié)點(diǎn)尚未被分配頻度,則將第i個(gè)子節(jié)點(diǎn)作為自變量執(zhí)行圖10 (b)的過程(S1008),該過程結(jié)束之后對i代入i + I (S1009),回到S1006。在S1006的判斷中若i為P以上,則將第O、I、…、P — I個(gè)子節(jié)點(diǎn)的頻度的總和設(shè)定為該節(jié)點(diǎn)的頻度(S1010)。
由此,能夠?qū)θ康墓?jié)點(diǎn)設(shè)定頻度。接著,參照圖11說明再編碼部122在再編碼處理S802中執(zhí)行的處理的細(xì)節(jié)。即,執(zhí)行圖11的各處理的是再編碼部122。以下,用k表示由最小同值件數(shù)信息133定義的最小同值件數(shù)301。首先,將個(gè)人信息表131以及廣義層次樹表135裝載到存儲(chǔ)器上(S1101)。具體而言使用上述的數(shù)據(jù)構(gòu)造521在存儲(chǔ)器上管理廣義層次樹表135。另外,在如上所述將廣義層次樹的自動(dòng)生成S801和再編碼S802在不同的定時(shí)進(jìn)行而有時(shí)對廣義層次樹加以修正等的情況下,需要在該步驟中由廣義層次樹自動(dòng)生成部121使用圖10的方法更新廣義層次樹的頻度 目息。接著,準(zhǔn)備保存節(jié)點(diǎn)的空的列表V (S1102),對j代入O (S1103)。在S1102中準(zhǔn)備的列表V中保存節(jié)點(diǎn),被保存的各要素e是指將e的子節(jié)點(diǎn)的標(biāo)簽再編碼為e的標(biāo)簽的候選,在S802的處理內(nèi)動(dòng)態(tài)地變化。
·
接著,判斷j是否比m小(S1104)。在判斷為j比m小的情況下,在第j個(gè)廣義層次樹中,將全部的子節(jié)點(diǎn)為葉節(jié)點(diǎn)的節(jié)點(diǎn)全部追加到v(S1105)。對j代入j + KS1106),回到S1104。在S1104的判斷中判斷為j為m以上的情況下,判斷在存儲(chǔ)器上的個(gè)人信息表中出現(xiàn)的全部的全屬性數(shù)據(jù)元組是否存在k件以上(S1107)。具體而言,準(zhǔn)備map等的數(shù)據(jù)構(gòu)造,在map的鍵集合中存在記錄所示的全屬性數(shù)據(jù)元組的情況下,將其value中保存的計(jì)數(shù)加I。在鍵集合中不存在全部屬性數(shù)據(jù)元組的情況下,對該鍵代入I作為值(value)。將以上處理對全部的記錄進(jìn)行,只要判斷在map中保存的全部的值(value)是否為k以上即可。在S1107的判斷中判斷為存在小于k件的數(shù)據(jù)元組的情況下,處理S1108的循環(huán)。將循環(huán)對V內(nèi)的全部要素w進(jìn)行。在循環(huán)SI 108內(nèi),使損失信息量計(jì)量部123計(jì)算將具有w的子節(jié)點(diǎn)的標(biāo)簽作為數(shù)據(jù)的全部記錄的該屬性值再編碼為w的標(biāo)簽的情況下的損失信息量(S1109)。關(guān)于該損失信息量的計(jì)算方法,在后面進(jìn)行說明。若結(jié)束S1108,則將具有在V之中損失信息量最小的節(jié)點(diǎn)u的子節(jié)點(diǎn)的標(biāo)簽作為數(shù)據(jù)的全部記錄的該標(biāo)簽再編碼為u的標(biāo)簽(S1110)。接著,將u的子節(jié)點(diǎn)全部刪除,將u設(shè)為葉節(jié)點(diǎn),從而更新包含u的廣義層次樹(S1111)。接著,將u的母節(jié)點(diǎn)設(shè)為t,若t的全部子節(jié)點(diǎn)為葉節(jié)點(diǎn),則將t追加到v(S1112),回到S1107的判斷。在S1107的判斷中判斷為在存儲(chǔ)器上的個(gè)人信息表中全部的全屬性數(shù)據(jù)元組存在k件以上的情況下,將存儲(chǔ)器上的再編碼結(jié)果寫出到匿名信息表132(S1113),結(jié)束處理。接著,參照圖12 (a)說明使用了下述損失信息量計(jì)量部123的處理S1109的詳細(xì)情況,該損失信息量計(jì)量部123計(jì)算將具有w的子節(jié)點(diǎn)的標(biāo)簽作為數(shù)據(jù)的個(gè)人信息表中的全部記錄再編碼為w的標(biāo)簽的情況下?lián)p失的信息量。S卩,進(jìn)行圖12 (a)的各處理的是損失信息量計(jì)量部123。首先,將保存最后求出的損失信息量的變量I初始化為0(S1201)。循環(huán)S1202是對節(jié)點(diǎn)w的全部子節(jié)點(diǎn)c的循環(huán)。
在循環(huán)S1202中,在內(nèi)部計(jì)算將具有c的標(biāo)簽作為數(shù)據(jù)的I個(gè)記錄再編碼為w的標(biāo)簽的情況下的損失信息量i (S1203)。關(guān)于損失信息量的計(jì)算方法,在后面說明。接著,對I加上count (c) *i (S1204)。另外,count (c)意味著在存儲(chǔ)器上的個(gè)人信息表中具有c的標(biāo)簽作為數(shù)據(jù)的記錄的總數(shù),運(yùn)算意味著實(shí)數(shù)上的相乘。具體而言,count (c)能夠通過參照節(jié)點(diǎn)的頻度5215來得到。結(jié)束循環(huán)S1202之后,對I結(jié)束重復(fù)處理。接著,參照圖12(b),說明將具有c的標(biāo)簽作為數(shù)據(jù)的I個(gè)記錄再編碼為w的標(biāo)簽的情況下的損失信息量的計(jì)算方法S1203的詳細(xì)情況的一例。進(jìn)行圖12 (b)的各處理的是損失信息量計(jì)量部123。并不一定需要使用這里說明的方法。通過一 log {count (c)/count (w)}計(jì)算將具有c的標(biāo)簽作為數(shù)據(jù)的I個(gè)記錄再編碼為w的標(biāo)簽時(shí)丟失數(shù)據(jù)的信息量(S1205)。另外,log的底數(shù)通常使用2,但由于僅變化常數(shù)倍,因此使用任何數(shù)都可以。但是,在系統(tǒng)中需要統(tǒng)一。此外count (c)與上述的同 樣,意味著在存儲(chǔ)器上的個(gè)人信息表中具有c的標(biāo)簽作為數(shù)據(jù)的記錄的總數(shù)。另外,在圖12(b)所示的再編碼時(shí)的損失信息量的計(jì)算方法中,c和w并不一定需要處于母子關(guān)系。若W為C的祖先節(jié)點(diǎn),則能夠?qū)θ我獾墓?jié)點(diǎn)間進(jìn)行定義。實(shí)際上,在C的祖先節(jié)點(diǎn)中有節(jié)點(diǎn)d、在d的祖先節(jié)點(diǎn)中有節(jié)點(diǎn)W的情況下,滿足一 log {count (c)/count(w)} = [― log {count (c)/count (d)}] + [— log {count (d) /count (w)}]。這意味著在將C再編碼而成為d之后將d再編碼而成為W時(shí)的損失信息量、與將C直接再編碼為W時(shí)的損失信息量相等。如上所述,計(jì)算機(jī)100的特點(diǎn)是具備自動(dòng)構(gòu)成廣義層次樹的方法和損失信息量的計(jì)量方法。Hu — Tucker編碼樹、Huffman編碼樹以及Shannon — Fano編碼樹是將如上述那樣頻度小的屬性值配置在深處、將頻度大的屬性值配置在淺處的樹。因此,提高在再編碼時(shí)頻度小的屬性值彼此再編碼為相同的標(biāo)簽的可能性,因此能夠生成避免了過度的再編碼的有用性高的匿名數(shù)據(jù)。此外,若將上述的編碼樹作為廣義層次樹來使用,則能夠減少再編碼時(shí)的損失信息量。<實(shí)施例2>接著對實(shí)施例2進(jìn)行說明。實(shí)施例2提高數(shù)據(jù)的有用性。以下,在說明實(shí)施例2時(shí),對于與上述的實(shí)施例I重復(fù)的結(jié)構(gòu)賦予相同的標(biāo)記并省略說明。此外,實(shí)施例2的動(dòng)作的大部分與實(shí)施例I相同。對于該部分的動(dòng)作,賦予相同的標(biāo)記并省略說明。首先,參照圖13對實(shí)施例2的計(jì)算機(jī)100的結(jié)構(gòu)例進(jìn)行說明。在圖13中,計(jì)算機(jī)100的儲(chǔ)存器103代替程序151而具有程序1331。程序1331被裝載到存儲(chǔ)器上,CPU101除了實(shí)施例I的各部121、122、123以外實(shí)現(xiàn)虛擬個(gè)人信息產(chǎn)生部1321。此外,作為程序1331的處理結(jié)果的保存目的地,在儲(chǔ)存器上具有產(chǎn)生信息表1332。接著參照圖14說明產(chǎn)生信息表1332的詳細(xì)內(nèi)容。產(chǎn)生信息表1332是如圖14所不基本上與匿名信息表132相同的表。其不同點(diǎn)是在產(chǎn)生信息表1332中,各屬性信息取與其屬性的廣義層次樹的葉節(jié)點(diǎn)對應(yīng)的值。更具體而言,重新編碼為與保存在匿名信息表132中的標(biāo)簽對應(yīng)的廣義層次樹的節(jié)點(diǎn)的、與子孫節(jié)點(diǎn)對應(yīng)的葉節(jié)點(diǎn)的屬性值。
接著參照圖15說明實(shí)施例2的計(jì)算機(jī)100的處理的流程。在圖15中,廣義層次樹自動(dòng)生成部121自動(dòng)生成廣義層次樹的步驟S801以及再編碼部122進(jìn)行再編碼的步驟S802與實(shí)施例I的步驟完全等效。結(jié)束這些處理之后,虛擬個(gè)人信息產(chǎn)生部1321執(zhí)行虛擬個(gè)人信息產(chǎn)生步驟S1501。另外,與實(shí)施例I中示出的S801和S802的關(guān)系同樣,S1501也不需要連續(xù)執(zhí)行,進(jìn)行處理的定時(shí)可以不同。參照圖16,說明虛擬個(gè)人信息產(chǎn)生部1321使用頻度信息執(zhí)行虛擬個(gè)人信息產(chǎn)生處理的S1501的詳細(xì)情況的一例。即進(jìn)行圖16的各處理的是虛擬個(gè)人信息產(chǎn)生部1321。首先,在存儲(chǔ)器上取得匿名信息表132和廣義層次樹表135 (S1601)。取得之后,對針對全部記錄r的循環(huán)(S1602)、進(jìn)而對作為內(nèi)部循環(huán)的針對記錄r的全部屬性的循環(huán)(S1603)進(jìn)行以下處理。其中,將當(dāng)前處理中的屬性設(shè)為第j個(gè)屬性。首先,確定記錄r的第j個(gè)屬性的屬性值對應(yīng)于廣義層次樹的哪個(gè)節(jié)點(diǎn),將該節(jié)點(diǎn) 設(shè)為w (S1604)。接著,列舉作為相當(dāng)于w的子孫節(jié)點(diǎn)的節(jié)點(diǎn)且為葉節(jié)點(diǎn)的全部節(jié)點(diǎn),將其設(shè)為cl、c2、…、cn (S1605)。具體而言,既可以從w起使用寬度優(yōu)先搜索等的搜索方法,也可以搜索一次之后將其搜索結(jié)果與節(jié)點(diǎn)建立關(guān)聯(lián)來存儲(chǔ)并再利用。接著,記錄r的第j個(gè)屬性為w的標(biāo)簽,但通過以下所示的方法將該標(biāo)簽替換為廣義層次樹的I個(gè)葉節(jié)點(diǎn)的標(biāo)簽(S1606)。使用在廣義層次樹中保管的節(jié)點(diǎn)的頻度信息以count (cl) /count (w)的概率選擇cl的標(biāo)簽,以count (c2) /count (w)的概率選擇c2,以相同的概率隨機(jī)地產(chǎn)生Cl、c2、c3、…、cn,替換為發(fā)生結(jié)果的節(jié)點(diǎn)的標(biāo)簽。最后將全部的記錄保存在產(chǎn)生信息表1332中(S1607)。在實(shí)施例2中構(gòu)成的計(jì)算機(jī)100的特點(diǎn)為為了取產(chǎn)生信息表1332的屬性值與原來的個(gè)人信息表131的屬性值相同的集合的值,不選擇利用數(shù)據(jù)的應(yīng)用。例如,在有表示年齡為10歲的記錄時(shí),多數(shù)情況下在存儲(chǔ)器上保持為整數(shù)型。若該數(shù)據(jù)被再編碼為“10 - 19歲”,則不能表現(xiàn)為整數(shù)型,因此不能在任意的應(yīng)用中利用。但是,在實(shí)施例2中使用頻度信息替換為“10 — 19歲”之間的年齡。例如,替換為“14歲”等。因此,能夠表現(xiàn)為整數(shù)型,能夠利用于可在原來的個(gè)人信息中利用的任意的應(yīng)用。此外,能夠期待產(chǎn)生信息表1332的各屬性的分布接近原來的個(gè)人信息表131的分布。另外,在實(shí)施例2中以包含構(gòu)成匿名信息表132的步驟的形式進(jìn)行了說明,但還有如上所述地事先構(gòu)成匿名信息表132,僅將虛擬個(gè)人信息產(chǎn)生部1331在之后進(jìn)行的方法。根據(jù)該方法,不需要個(gè)人信息表131,因此能夠僅由匿名信息表132、廣義層次樹表135以及虛擬個(gè)人信息產(chǎn)生部1331構(gòu)成系統(tǒng)。由此,能夠構(gòu)筑僅通過向公司外僅委托匿名信息和廣義層次樹就能夠利用的系統(tǒng),在不需要委托保管個(gè)人信息的意義上是匿名性高的系統(tǒng)。<實(shí)施例3>接著對實(shí)施例3進(jìn)行說明。實(shí)施例3中,通過使用用戶所希望的屬性值的分類,提高數(shù)據(jù)的有用性。在國際疾病分類、圖書分類、專利分類等各種領(lǐng)域中,存在規(guī)定的分類。此外,若為年齡,則存在1(Γ19歲、2(Γ29歲這樣的常用的分類。實(shí)施例3中,通過僅預(yù)先定義用戶對廣義層次樹期望的層次構(gòu)造,自動(dòng)生成考慮了用戶所期望的分類的廣義層次樹。例如,通過將年齡的分類預(yù)先定義為“20歲至24歲”、“25歲至29歲”,防止如“24歲至27歲”那樣數(shù)據(jù)以脫離用戶所希望的分類的形式被再編碼。
另外,實(shí)施例3中,在構(gòu)成廣義層次樹時(shí),認(rèn)可不脫離用戶定義層次樹的形式的節(jié)點(diǎn)的追加。例如,在用戶定義“20歲至24歲”的分類時(shí),認(rèn)可作為“20歲至24歲”的節(jié)點(diǎn)的子節(jié)點(diǎn)而構(gòu)成“20歲至22歲”這樣的節(jié)點(diǎn)。此外,在用戶定義了包含全部屬性值的作為“20歲至24歲”的母節(jié)點(diǎn)的情況下,認(rèn)可作為“20歲至24歲”的母節(jié)點(diǎn)而新追加“20歲至29歲”這樣的節(jié)點(diǎn)。通過認(rèn)可不脫離用戶定義層次樹的形式的層次的追加,能夠有效利用用戶所期望的分類,并且能夠輸出更詳細(xì)的匿名化數(shù)據(jù)。以下,在說明實(shí)施例3時(shí),對于與上述的實(shí)施例I重復(fù)的結(jié)構(gòu)賦予相同的標(biāo)記并省略說明。此外,實(shí)施例3的動(dòng)作的一部分與實(shí)施例I相同。對于該部分的動(dòng)作,賦予相同的標(biāo)記并省略說明。首先,參照圖17說明實(shí)施例3的計(jì)算機(jī)100的結(jié)構(gòu)例。在圖17中,計(jì)算機(jī)100的儲(chǔ)存器103存儲(chǔ)個(gè)人信息表131、匿名信息表132、最小同值件數(shù)信息133、屬性種類信息134、廣義層次樹表135、程序1731、用戶定義層次樹表1732。 CPUlOl將程序1731裝載到存儲(chǔ)器102上,實(shí)現(xiàn)基于用戶定義層次樹的廣義層次樹自動(dòng)生成部1721和再編碼部122。另外,再編碼部122根據(jù)需要作為內(nèi)部處理而實(shí)現(xiàn)損失信息量計(jì)量部123。用戶定義層次樹表1732保存定義了用戶對任意的屬性所期望的分類的層次樹。用戶不需要對進(jìn)行匿名化的全部屬性定義用戶定義層次樹,僅對想要定義分類的屬性進(jìn)行定義即可。此外,如上所述,用戶在各屬性中僅定義所期望的分類即可,不需要定義全部的層次。另外,在“字符串處理型”、“順序保存型”、“其他”的任何屬性種類中,都需要定義成不成為如下分類,該分類使得在不構(gòu)成祖先與子孫的關(guān)系的多個(gè)節(jié)點(diǎn)中成為各節(jié)點(diǎn)的子孫節(jié)點(diǎn)的屬性值重復(fù)。例如,不能定義“25歲至38歲”和“20歲至33歲”這樣的分類、或“ {神奈川縣橫浜市,神奈川縣川崎市}”和“{神奈川縣橫浜市,神奈川縣藤?zèng)g市}”這樣的分類。參照圖18表不用戶定義層次樹表1732的一例。首先,參照圖18 (a)表示對屬性“年齡”的用戶定義層次樹的概念圖,參照圖18(b)表示將用戶定義層次樹保存在儲(chǔ)存器上的方法,參照圖18 (c)表示在存儲(chǔ)器上管理廣義層次樹的方法。在圖18 Ca)中表示對屬性“年齡”的用戶定義層次樹的一例。用戶定義層次樹表示為由多個(gè)節(jié)點(diǎn)和分支構(gòu)成的樹構(gòu)造。各節(jié)點(diǎn)與表示用戶要求的分類的標(biāo)簽建立了關(guān)聯(lián)。在圖18 (b)中表示將用戶定義層次樹保存在儲(chǔ)存器上的方法的一例。在儲(chǔ)存器上利用關(guān)系數(shù)據(jù)庫等來保存。作為關(guān)系數(shù)據(jù)庫上的表而保存用戶定義層次樹的一例為表1732 - b。表的第一行1811表示各列的標(biāo)簽,第2行以后的各記錄對應(yīng)于I個(gè)節(jié)點(diǎn)。在圖18 (C)中表示在存儲(chǔ)器上管理用戶定義層次樹1732 — a的方法。數(shù)據(jù)構(gòu)造1821是對節(jié)點(diǎn)1801進(jìn)行管理的數(shù)據(jù)構(gòu)造的一例。數(shù)據(jù)構(gòu)造由指針18211、指示母節(jié)點(diǎn)的指針18212、子節(jié)點(diǎn)的指針列表18213、該節(jié)點(diǎn)的標(biāo)簽18214、以及頻度信息18215構(gòu)成。接著,參照圖19,示出各屬性種類的用戶定義層次樹的一例、和基于用戶定義層次樹的廣義層次樹的例子。圖19 (a — I)是字符串處理型的屬性“住址”的用戶定義層次樹的一例,圖19(a - 2)是利用在圖5 (a — 2)中例示的數(shù)據(jù)構(gòu)成了基于用戶定義層次樹的廣義層次樹的例子。作為字符串處理型的屬性的用戶定義層次樹,用戶能夠定義從字符串提取的分類以外的分類。例如,能夠?qū)ⅰ吧衲未h”細(xì)分類為“{神奈川縣橫浜市,神奈川縣川崎市}”和“神奈川縣其他”等。這里,“{神奈川縣橫浜市,神奈川縣川崎市}”的節(jié)點(diǎn)是列舉了作為子節(jié)點(diǎn)的節(jié)點(diǎn)的標(biāo)簽的節(jié)點(diǎn),明顯具有子節(jié)點(diǎn)“神奈川縣橫浜市”和“神奈川縣川崎市”,因此也可以不將“神奈川縣橫浜市”和“神奈川縣川崎市”定義為子節(jié)點(diǎn),但“神奈川縣其他”具有怎樣的節(jié)點(diǎn)作為子節(jié)點(diǎn)是不清楚的,因此用戶需要定義“神奈川縣其他”的子節(jié)點(diǎn)。圖19 (b — I)是順序保存型的屬性“年齡”的用戶定義層次樹的一例,圖19 (b —2)表示利用在圖5 (b — 2)中例示的數(shù)據(jù)構(gòu)成了基于用戶定義層次樹的廣義層次樹的例子。在順序保存型的屬性的情況下,節(jié)點(diǎn)的標(biāo)簽表示值的范圍,因此對該節(jié)點(diǎn)也可以不定義子節(jié)點(diǎn)。圖19 (c 一 I)是其他的屬性“國籍”的用戶定義層次樹的一例,圖19 (c 一 2)表示利用在圖5 (c — 2)中例示的數(shù)據(jù)構(gòu)成了基于用戶定義層次樹的廣義層次樹的例子。屬性種類為“其他”的屬性與“字符串處理型”的屬性同樣,在各節(jié)點(diǎn)的標(biāo)簽為列舉了子節(jié)點(diǎn)的形式的標(biāo)簽的情況下,不需要定義子節(jié)點(diǎn),在設(shè)為“歐州”這樣的抽象的名稱的情況下,必須定義作為子節(jié)點(diǎn)具有怎樣的節(jié)點(diǎn)。 在圖19 Ca 一 2) (b — 2) (c 一 2)中用虛線圍住的部分表不在再編碼時(shí)沒有也可以的節(jié)點(diǎn)。例如,在頻度為O的節(jié)點(diǎn)、即在用戶定義層次樹中指定了分類區(qū)分但被區(qū)分為節(jié)點(diǎn)的屬性值不存在于個(gè)人信息數(shù)據(jù)中的情況下,該節(jié)點(diǎn)對于再編碼處理而言是不需要的。因此,頻度為O的節(jié)點(diǎn)可以從廣義層次樹刪除。此外,關(guān)于節(jié)點(diǎn)的頻度與該節(jié)點(diǎn)的子節(jié)點(diǎn)的頻度相同的節(jié)點(diǎn)、即僅具有一個(gè)頻度為O以外的子節(jié)點(diǎn)的節(jié)點(diǎn),對再編碼處理而言也是不需要的。因此,在僅具有一個(gè)頻度為O以外的子節(jié)點(diǎn)的節(jié)點(diǎn)可以從廣義層次樹刪除,并將該節(jié)點(diǎn)的子節(jié)點(diǎn)和該節(jié)點(diǎn)的母節(jié)點(diǎn)設(shè)為母子關(guān)系。接著,參照圖20說明實(shí)施例3的計(jì)算機(jī)100的處理的流程。首先,基于用戶定義層次樹的廣義層次樹自動(dòng)生成部1721參照個(gè)人信息表131、屬性種類信息134以及用戶定義層次樹表1732,進(jìn)行廣義層次樹的自動(dòng)生成,將其結(jié)果保存在廣義層次樹表135中(S2001 )。接著,再編碼部122進(jìn)行數(shù)據(jù)的再編碼,將其結(jié)果保存在匿名信息表132中(S802)。步驟S802與實(shí)施例I的步驟等價(jià)。與實(shí)施例I中示出的S801與S802的關(guān)系同樣,S2001和S802也不需要連續(xù)執(zhí)行,進(jìn)行處理的定時(shí)可以不同。接著,參照圖21說明基于用戶定義層次樹的廣義層次樹自動(dòng)生成部1721在上述S2001中自動(dòng)構(gòu)成廣義層次樹的詳細(xì)的動(dòng)作例。即,進(jìn)行圖21的各處理的是基于用戶定義層次樹的廣義層次樹自動(dòng)生成部1721。首先,將個(gè)人信息表131以及用戶定義層次樹表1732讀入到存儲(chǔ)器102上(S2101)。此時(shí),確認(rèn)由用戶定義層次樹定義的分類中是否有重復(fù)。具體而言,在構(gòu)成用戶定義層次樹的節(jié)點(diǎn)中的不構(gòu)成祖先與子孫的關(guān)系的多個(gè)節(jié)點(diǎn)中,檢查各節(jié)點(diǎn)的子孫不重復(fù)。在存在重復(fù)的情況下,結(jié)束處理。S902以及S903與實(shí)施例I的處理等價(jià)。在S2102中判斷是否存在第j個(gè)屬性的用戶定義層次樹。在用戶定義層次樹不存在的情況下,前進(jìn)到S2103,在用戶定義層次樹存在的情況下,前進(jìn)到S2104。關(guān)于S2103以及S2104的詳細(xì)情況,在后面進(jìn)行敘述。結(jié)束S2103或S2104的處理之后,轉(zhuǎn)移到S943的處理。
S943的處理與實(shí)施例I的處理等價(jià)。參照圖22說明S2103的處理。S2103是不使用用戶定義層次樹,僅使用個(gè)人信息表的信息來構(gòu)成廣義層次樹的情況的處理。即,S2103的處理全部為與實(shí)施例I中敘述的處理等價(jià)的處理。接著,參照圖23說明S2104的處理。S904以及S905的處理如上所述。在S905中,該屬性的屬性種類為“字符串處理型”的情況下前進(jìn)到S2311,在“順序保存型”的情況下前進(jìn)到S2321,在“其他”的情況下前進(jìn)到S2331。S2311、S2321、S2331的詳細(xì)情況后述。若結(jié)束S2311或S2321或2331的處理,則前進(jìn)到S942。S942的處理如上所述。 參照圖24 Ca)說明S2311的處理。首先,定義幾個(gè)表示法。y是用戶定義層次樹1732的最深層次的層次數(shù)。將包含全部的屬性值的設(shè)為層次0,每當(dāng)?shù)较乱粚哟螘r(shí)稱為層次I、層次2、…層次y。S911與實(shí)施例I的處理等價(jià)。在S2401中,將參數(shù)X初始化為y。接著,確認(rèn)X是否比O小(S2402),在X比O小的情況下結(jié)束處理,在X為O以上的情況下前進(jìn)到S2403。在S2403中,使用第j個(gè)屬性的用戶定義層次樹,準(zhǔn)備將層次X的節(jié)點(diǎn)全部列舉的列表z。在S2404中,判斷列表z是否為空。在列表z為空的情況下前進(jìn)到S2407,在不為空的情況下前進(jìn)到S2405。在S2405中,從列表z中選擇一個(gè)節(jié)點(diǎn),將所選擇的節(jié)點(diǎn)從列表z中刪除。在S2411中,列舉作為在S2405中選擇的節(jié)點(diǎn)的子孫節(jié)點(diǎn)的節(jié)點(diǎn)。具體而言,在S2405中在用戶定義層次樹1732中選擇了不具有子節(jié)點(diǎn)的節(jié)點(diǎn)的情況下,使用在S911中取得的屬性值信息列舉作為該節(jié)點(diǎn)的子孫節(jié)點(diǎn)的屬性值。例如,在選擇了 “神奈川縣川崎市”的節(jié)點(diǎn)的情況下,列舉包含“神奈川縣川崎市”的字符串的屬性值。此外,在S2405中在用戶定義層次樹1732中選擇了具有子節(jié)點(diǎn)的節(jié)點(diǎn)的情況下,列舉在用戶定義層次1732中定義為該節(jié)點(diǎn)的子節(jié)點(diǎn)的節(jié)點(diǎn)。例如,在選擇了節(jié)點(diǎn)“{神奈川縣橫浜市,神奈川縣川崎市}”的情況下,列舉在用戶定義層次樹1732中定義為“ {神奈川縣橫浜市,神奈川縣川崎市}”的子節(jié)點(diǎn)的“神奈川縣橫浜市”和“神奈川縣川崎市”。在S2412中,從在S2411中列舉的節(jié)點(diǎn)進(jìn)彳丁指定的字符串處理,提取包含關(guān)系,基于該包含關(guān)系,構(gòu)成以在S2405中選擇的節(jié)點(diǎn)為根節(jié)點(diǎn)的樹。樹的構(gòu)成方法與實(shí)施例I同樣依賴于已知的各種字符串處理方法。所構(gòu)成的樹成為基于用戶定義層次樹的廣義層次樹的一部分。使用所構(gòu)成的樹對用戶定義層次樹進(jìn)行更新。在S2406中,更新在S2412中構(gòu)成的樹的頻度信息。S2406的處理后述。若結(jié)束S2406的處理,則回到上述的S2404的評價(jià)。在S2407中,對x代入x — 1,回到上述的S2402的評價(jià)。由此,對于屬性種類為“字符串處理型”的屬性,構(gòu)成基于用戶定義層次的廣義層次樹。
參照圖25說明S2406的處理。S2406的處理的一部分與圖10中說明的S941的處理等價(jià)。對于該部分的動(dòng)作,賦予相同的標(biāo)記并省略說明。首先,在S2501中取得作為頻度信息更新對象的部分樹的葉節(jié)點(diǎn)的節(jié)點(diǎn)的頻度信息。這里,頻度信息更新對象的部分樹是指在S2412中構(gòu)成的樹,作為部分樹的葉節(jié)點(diǎn)的節(jié)點(diǎn)是指在S2411中列舉的全部節(jié)點(diǎn)。在S2502中,將在S2501中取得的頻度信息分配給對應(yīng)的葉節(jié)點(diǎn)。在S2503中,以頻度信息更新對象的部分樹的根節(jié)點(diǎn)、即在S2414中選擇的節(jié)點(diǎn)為自變量,執(zhí)行圖25 (b)的過程。
圖25 (b)的過程與圖10 (b)的過程完全等價(jià)。接著,參照圖24 (b)說明S2321的處理。S2321的處理的一部分與S2311的處理等價(jià)。對于該部分的動(dòng)作,賦予相同的標(biāo)記并省略說明。S921、S2401、S2402、S2403、S2404、S2405 的處理如上所述。在S2421中,取得作為在S2405中選擇的節(jié)點(diǎn)的子孫節(jié)點(diǎn)的節(jié)點(diǎn)的頻度信息。具體而言,在S2405中在用戶定義層次樹1732中選擇了不具有子節(jié)點(diǎn)的節(jié)點(diǎn)的情況下,使用在S921中取得的屬性值信息取得作為該節(jié)點(diǎn)的子孫節(jié)點(diǎn)的屬性值的頻度信息。此外,在S2405中在用戶定義層次樹1732中選擇了具有子節(jié)點(diǎn)的節(jié)點(diǎn)的情況下,取得在用戶定義層次1732中定義為該節(jié)點(diǎn)的子節(jié)點(diǎn)的節(jié)點(diǎn)的頻度信息。例如,在用戶定義層次樹1732中選擇了節(jié)點(diǎn)“20歲至24歲”的情況下,取得屬性值為“20歲'“21歲'“22歲'“23歲'“24歲”的頻度息。在S2422中,使用在S2421中取得的頻度信息構(gòu)成以在S2405中選擇的節(jié)點(diǎn)為根節(jié)點(diǎn)的Hu - Tucker編碼樹。使用所構(gòu)成的樹對用戶定義層次樹進(jìn)行更新。S2406, S2407的處理如上所述。如上所述,對于屬性種類為“順序保存型”的屬性,構(gòu)成基于用戶定義層次的廣義層次樹。接著,參照圖24 (C)說明S2331的處理。S2331的處理的一部分與S2311的處理等價(jià)。對于該部分的動(dòng)作,賦予相同的標(biāo)記并省略說明。S931、S2401、S2402、S2403、S2404、S2405 的處理如上所述。在S2431中,取得作為在S2405中選擇的節(jié)點(diǎn)的子孫節(jié)點(diǎn)的節(jié)點(diǎn)屬性值的頻度信息。具體而言,在S2405中從用戶定義層次樹1732選擇了不具有子節(jié)點(diǎn)的節(jié)點(diǎn)的情況下,使用在S931中取得的屬性值信息取得成為該節(jié)點(diǎn)的子孫節(jié)點(diǎn)的屬性值的頻度信息。此外,在S2405中從用戶定義層次樹1732選擇了具有子節(jié)點(diǎn)的節(jié)點(diǎn)的情況下,取得在用戶定義層次1732中定義為該節(jié)點(diǎn)的子節(jié)點(diǎn)的節(jié)點(diǎn)的頻度信息。例如,在用戶定義層次樹1732中選擇了 “歐州”的情況下,取得“英國”、“法國”、“德國”的頻度信息。在S2432中,使用在S2431中取得的頻度信息構(gòu)成Huffman編碼樹或Shannon —Fano編碼樹。與實(shí)施例I同樣,由計(jì)算機(jī)100的設(shè)計(jì)者預(yù)先決定使用哪個(gè)編碼樹。使用構(gòu)成的樹對用戶定義層次樹進(jìn)行更新。S2406、S2417的處理如上所述。由此,對于屬性種類為“其他”的屬性,構(gòu)成基于用戶定義層次的廣義層次樹。實(shí)施例3中構(gòu)成的計(jì)算機(jī)100的特點(diǎn)為通過將具有用戶所希望的分類的一部分屬性、一部分層次定義為用戶定義層次樹,自動(dòng)生成考慮了用戶所希望的分類的廣義層次樹。此外,通過使用頻度信息自動(dòng)構(gòu)成廣義層次樹,從而以損失信息量少的形式對數(shù)據(jù)進(jìn)行匿名化。標(biāo)記說明100 :計(jì)算機(jī),101 CPU, 102 :存儲(chǔ)器,121 :廣義層次樹自動(dòng)生成部,122 :再編碼部,123 :損失信息量計(jì)量部,103 :儲(chǔ)存器,131 :個(gè)人信息表,132 :匿名信息表,133 :最小同值件數(shù)信息,134 :屬性種類信息,135 :廣義層次樹表,151 :程序,104 :輸入裝置,105 :輸出裝置,106 :通信裝置,107 :內(nèi)部通信線,1321 :虛擬個(gè)人信息產(chǎn)生部,1331 :程序,1332 :產(chǎn)生信息表,1721 :基于用戶定義層次樹的廣義層次樹生成部,1731 :程序,1732 :用戶定義層次樹表?!?br>
權(quán)利要求
1.一種個(gè)人信息匿名化裝置,其特征在于,具備 個(gè)人信息保存單元,保存一件以上的個(gè)人信息,上述個(gè)人信息由各屬性的屬性值構(gòu)成; 廣義層次樹自動(dòng)生成單元,選擇一個(gè)屬性,使用按該選擇的屬性中出現(xiàn)的每個(gè)屬性值對具有該屬性值的該輸入個(gè)人信息的件數(shù)進(jìn)行計(jì)數(shù)的頻度取得單元,自動(dòng)構(gòu)成廣義層次樹,上述廣義層次樹針對各個(gè)該屬性將該輸入個(gè)人信息中出現(xiàn)的各屬性值的上位概念根據(jù)其模糊度以樹結(jié)構(gòu)表現(xiàn);以及 再編碼單元,使用利用該廣義層次樹自動(dòng)生成單元針對各個(gè)該屬性生成的廣義層次樹,對該輸入個(gè)人信息進(jìn)行再編碼。
2.如權(quán)利要求I記載的個(gè)人信息匿名化裝置,其特征在于,具備 損失信息量計(jì)量單元,計(jì)量該再編碼單元使用該自動(dòng)生成的廣義層次樹對I件個(gè)人信息的I個(gè)屬性值進(jìn)行模糊化時(shí)損失的信息量。
3.如權(quán)利要求2記載的個(gè)人信息匿名化裝置,其特征在于, 該損失信息量計(jì)量單元具備節(jié)點(diǎn)頻度取得單元,上述節(jié)點(diǎn)頻度取得單元對該自動(dòng)生成的廣義層次樹的各節(jié)點(diǎn)的出現(xiàn)頻度進(jìn)行計(jì)數(shù),其中,若為葉節(jié)點(diǎn)則作為該葉節(jié)點(diǎn)所示的屬性值所出現(xiàn)的個(gè)人信息的件數(shù)來計(jì)數(shù),若為內(nèi)部節(jié)點(diǎn)則作為下述節(jié)點(diǎn)的頻度的總和來計(jì)數(shù),上述節(jié)點(diǎn)是外節(jié)點(diǎn)的子孫節(jié)點(diǎn)而且是葉節(jié)點(diǎn), 該損失信息量計(jì)量單元針對I件該輸入個(gè)人信息的各屬性值,通過一 log (a的頻度/b的頻度)來計(jì)量將與該屬性值對應(yīng)的節(jié)點(diǎn)a模糊化為作為其祖先節(jié)點(diǎn)的節(jié)點(diǎn)b時(shí)的損失信息量。
4.如權(quán)利要求3記載的個(gè)人信息匿名化裝置,其特征在于, 具備輸出通過下述處理而得到的結(jié)果的單元,上述處理為針對使用該再編碼單元生成的各匿名信息的各個(gè)屬性值,利用由該節(jié)點(diǎn)頻度取得單元取得的節(jié)點(diǎn)頻度,在該屬性值為該廣義層次樹的節(jié)點(diǎn)a時(shí)針對作為該屬性值的子孫節(jié)點(diǎn)的I個(gè)以上的葉節(jié)點(diǎn),以c的頻度/ a的頻度的概率將該屬性值置換為該葉節(jié)點(diǎn)c的屬性值。
5.如權(quán)利要求I或2記載的個(gè)人信息匿名化裝置,其特征在于, 具備輸出通過下述處理而得到的結(jié)果的單元,上述處理為使用節(jié)點(diǎn)頻度取得單元,針對利用該再編碼單元生成的各匿名信息的各個(gè)屬性值,在該屬性值為該廣義層次樹的節(jié)點(diǎn)a時(shí)針對作為該屬性值的子孫節(jié)點(diǎn)的I個(gè)以上的葉節(jié)點(diǎn),以c的頻度/ a的頻度的概率將該屬性值置換為該葉節(jié)點(diǎn)c的屬性值,上述節(jié)點(diǎn)頻度取得單元對該廣義層次樹的各節(jié)點(diǎn)的出現(xiàn)頻度進(jìn)行計(jì)數(shù),其中,若為葉節(jié)點(diǎn)則作為該葉節(jié)點(diǎn)所示的屬性值所出現(xiàn)的該輸入個(gè)人信息的件數(shù)來計(jì)數(shù),若為內(nèi)部節(jié)點(diǎn)則作為下述節(jié)點(diǎn)的頻度的總和來計(jì)數(shù),上述節(jié)點(diǎn)是外節(jié)點(diǎn)的子孫節(jié)點(diǎn)而且是葉節(jié)點(diǎn)。
6.如權(quán)利要求I至5中任一項(xiàng)記載的個(gè)人信息匿名化裝置,其特征在于, 該廣義層次樹自動(dòng)生成單元通過使用由該頻度取得單元取得的頻度生成霍夫曼編碼樹來實(shí)現(xiàn)。
7.如權(quán)利要求I至5中任一項(xiàng)記載的個(gè)人信息匿名化裝置,其特征在于, 該廣義層次樹自動(dòng)生成單元通過使用由該頻度取得單元取得的頻度生成香農(nóng)一范諾編碼樹來實(shí)現(xiàn)。
8.如權(quán)利要求I至5中任一項(xiàng)記載的個(gè)人信息匿名化裝置,其特征在于, 該廣義層次樹自動(dòng)生成單元通過使用由該頻度取得單元取得的頻度以及對該屬性的屬性值預(yù)先定義的順序信息生成胡一塔克編碼樹來實(shí)現(xiàn)。
9.如權(quán)利要求I至5中任一項(xiàng)記載的個(gè)人信息匿名化裝置,其特征在于, 具有存儲(chǔ)該自動(dòng)構(gòu)成的廣義層次樹的單元。
10.一種個(gè)人信息匿名化裝置,其特征在于, 以I件以上的個(gè)人信息以及廣義層次樹作為輸入,上述個(gè)人信息由各屬性的屬性值構(gòu)成,上述廣義層次樹針對各個(gè)該屬性將該I件以上的個(gè)人信息中出現(xiàn)的各屬性值的上位概念根據(jù)其模糊度以樹結(jié)構(gòu)表現(xiàn), 該個(gè)人信息匿名化裝置具備 損失信息量計(jì)量單元,計(jì)量使用該自動(dòng)生成的廣義層次樹對I件個(gè)人信息的I個(gè)屬性值進(jìn)行模糊化時(shí)損失的信息量;以及 再編碼單元,使用該損失信息量計(jì)量單元和該廣義層次樹,將該輸入個(gè)人信息的各屬性值模糊化為作為該屬性值所示的節(jié)點(diǎn)的祖先節(jié)點(diǎn)的節(jié)點(diǎn),從而對該輸入個(gè)人信息進(jìn)行再編碼。
11.一種個(gè)人信息匿名化裝置,其特征在于, 以廣義層次樹、使用該廣義層次樹對一件以上的個(gè)人信息進(jìn)行匿名化而得到的匿名信息、以及各屬性的每個(gè)屬性值所出現(xiàn)的該個(gè)人信息的件數(shù)作為輸入,上述廣義層次樹存儲(chǔ)針對各個(gè)屬性將屬性值的上位概念根據(jù)其模糊度以樹結(jié)構(gòu)表現(xiàn)的廣義層次樹; 該個(gè)人信息匿名化裝置輸出通過下述處理而得到的結(jié)果,上述處理為 使用節(jié)點(diǎn)頻度取得單元,針對該輸入的各匿名信息的該各屬性的各個(gè)屬性值,在該屬性值為該廣義層次樹的節(jié)點(diǎn)a時(shí)針對作為該屬性值的子孫節(jié)點(diǎn)的I個(gè)以上的葉節(jié)點(diǎn),以C的頻度/ a的頻度的概率將該屬性值置換為該葉節(jié)點(diǎn)c的屬性值,上述節(jié)點(diǎn)頻度取得單元對該廣義層次樹的各節(jié)點(diǎn)的出現(xiàn)頻度進(jìn)行計(jì)數(shù),其中,若為葉節(jié)點(diǎn)則作為該葉節(jié)點(diǎn)所示的屬性值所出現(xiàn)的該原來的個(gè)人信息的件數(shù)來計(jì)數(shù),若為內(nèi)部節(jié)點(diǎn)則作為下述節(jié)點(diǎn)的頻度的總和來計(jì)數(shù),上述節(jié)點(diǎn)是外節(jié)點(diǎn)的子孫節(jié)點(diǎn)而且是葉節(jié)點(diǎn)。
12.如權(quán)利要求廣5、9中任一項(xiàng)記載的個(gè)人信息匿名化裝置,其特征在于,具備 用戶定義層次樹保存單元,保存對屬性的廣義層次樹的節(jié)點(diǎn)的一部分進(jìn)行定義的用戶定義層次樹;以及 基于用戶定義層次樹的廣義層次樹自動(dòng)生成單元,使用該用戶定義層次樹和由該頻度取得單元取得的頻度,自動(dòng)生成廣義層次樹。
13.如權(quán)利要求12記載的個(gè)人信息匿名化裝置,其特征在于, 該基于用戶定義層次樹的廣義層次樹自動(dòng)生成單元通過使用該用戶定義層次樹和由該頻度取得單元取得的頻度生成霍夫曼編碼樹來實(shí)現(xiàn)。
14.如權(quán)利要求12記載的個(gè)人信息匿名化裝置,其特征在于, 該基于用戶定義層次樹的廣義層次樹自動(dòng)生成單元通過使用該用戶定義層次樹和由該頻度取得單元取得的頻度生成香農(nóng)-范諾編碼樹來實(shí)現(xiàn)。
15.如權(quán)利要求12記載的個(gè)人信息匿名化裝置,其特征在于, 該基于用戶定義層次樹的廣義層次樹自動(dòng)生成單元通過使用該用戶定義層次樹、由該頻度取得單元取得的頻度以及對該屬性的屬性值預(yù)先定義的順序信息生成胡一塔克編碼樹來實(shí)現(xiàn)。
16.如權(quán)利要求12記載的個(gè)人信息匿名化裝置,其特征在于, 該基于用戶定義層次樹的廣義層次樹生成單元在構(gòu)成該用戶定義層次樹的節(jié)點(diǎn)之中的、不構(gòu)成祖先節(jié)點(diǎn)與子孫節(jié)點(diǎn)的關(guān)系的兩個(gè)以上的節(jié)點(diǎn)中,檢驗(yàn)各節(jié)點(diǎn)的子孫節(jié)點(diǎn)不重復(fù)。
17.如權(quán)利要求12記載的個(gè)人信息匿名化裝置,其特征在于, 該用戶定義層次樹的節(jié)點(diǎn)具有下述標(biāo)簽,上述標(biāo)簽列舉了該節(jié)點(diǎn)的全部子節(jié)點(diǎn)的標(biāo)簽。
18.如權(quán)利要求12記載的個(gè)人信息匿名化裝置,其特征在于, 該用戶定義層次樹由下述節(jié)點(diǎn)構(gòu)成 具有抽象名稱的標(biāo)簽的節(jié)點(diǎn),根據(jù)該抽象名稱無法自明可能成為子節(jié)點(diǎn)的節(jié)點(diǎn);以及 以具有該抽象名稱的標(biāo)簽的節(jié)點(diǎn)為母節(jié)點(diǎn)的節(jié)點(diǎn)。
19.如權(quán)利要求12記載的個(gè)人信息匿名化裝置,其特征在于, 該用戶定義層次樹的節(jié)點(diǎn)具有表示成為該節(jié)點(diǎn)的子孫節(jié)點(diǎn)的屬性值的范圍的標(biāo)簽,該范圍不重復(fù)于與該節(jié)點(diǎn)不構(gòu)成祖先節(jié)點(diǎn)或子孫節(jié)點(diǎn)的關(guān)系的節(jié)點(diǎn)的范圍。
全文摘要
本發(fā)明提供一種在個(gè)人信息的保護(hù)技術(shù)中自動(dòng)構(gòu)成屬性值的廣義層次樹的匿名化裝置。此外,提供一種定量地評價(jià)在屬性值的廣義化時(shí)損失的信息量從而能夠自動(dòng)判定匿名數(shù)據(jù)間以及匿名化過程中的數(shù)據(jù)間的優(yōu)劣的匿名化裝置。各個(gè)人的信息包含針對多個(gè)屬性的該個(gè)人的屬性值。通過將該屬性值模糊化來實(shí)現(xiàn)匿名化,將根據(jù)其模糊度的程度將屬性值的模糊化對象以樹結(jié)構(gòu)表現(xiàn)的結(jié)構(gòu)稱作廣義層次樹。本個(gè)人信息匿名化裝置使用屬性值的頻度信息構(gòu)成樹,由此實(shí)現(xiàn)自動(dòng)的構(gòu)成。此外,通過定義損失信息量計(jì)量單元,使用廣義層次樹定量地判定兩個(gè)匿名數(shù)據(jù)間或匿名化過程中的數(shù)據(jù)間的信息量損失。
文檔編號H04L9/32GK102893553SQ20118002451
公開日2013年1月23日 申請日期2011年4月5日 優(yōu)先權(quán)日2010年5月19日
發(fā)明者原田邦彥, 富樫由美子, 佐藤嘉則 申請人:株式會(huì)社日立制作所