国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于數(shù)據(jù)的關(guān)系型上下文敏感匿名化的方法和系統(tǒng)的制作方法

      文檔序號:6540433閱讀:236來源:國知局
      用于數(shù)據(jù)的關(guān)系型上下文敏感匿名化的方法和系統(tǒng)的制作方法
      【專利摘要】描述了用于數(shù)據(jù)的關(guān)系型上下文敏感匿名化的方法和系統(tǒng)。更具體而言,提供了用于數(shù)據(jù)的關(guān)系型上下文敏感匿名化的機制。接收對數(shù)據(jù)的請求,該請求指定與所選人的所選群組相對應(yīng)的關(guān)系型上下文,所選人的所選群組是基于關(guān)系型上下文從人的全局群組中選擇的。關(guān)系型上下文指定所選群組中的所選人的一個或多個屬性,這一個或多個屬性確立所選人之間的關(guān)系并且將所選人與全局群組中的不在所選群組中的非所選人相區(qū)分。對于關(guān)系型上下文,基于與所選人相對應(yīng)的個人信息數(shù)據(jù)的語料庫,確定個人信息數(shù)據(jù)中的關(guān)鍵屬性,并且確定每個關(guān)鍵屬性的罕見性值。然后基于所確定的每個關(guān)鍵屬性在所選群組的關(guān)系型上下文內(nèi)的罕見性值來匿名化所選關(guān)鍵屬性。
      【專利說明】用于數(shù)據(jù)的關(guān)系型上下文敏感匿名化的方法和系統(tǒng)

      【技術(shù)領(lǐng)域】
      [0001] 本申請概括而言涉及改進的數(shù)據(jù)處理裝置和方法,更具體而言涉及用于基于個體 群組上的關(guān)系型上下文(relational context)識別并匿名化敏感識別信息的機制。

      【背景技術(shù)】
      [0002] 數(shù)據(jù)的匿名化(anonymi z at i on )是當(dāng)今的利用計算機化機制可相對容易的規(guī)避個 體隱私的面向計算機的社會中的一個重要考慮因素。也就是說,通過網(wǎng)站、數(shù)據(jù)庫、目錄等 等,個體的個人信息被收集并供合法使用,但也可被利用于非法用途。隨著身份盜竊和對個 人信息的其他非法訪問變得更猖獗,個體隱私正變成更重要的問題。另外,政府規(guī)章要求保 持諸如醫(yī)療歷史信息之類的某些類型的關(guān)于個體的數(shù)據(jù)的安全。
      [0003] 已知的匿名化系統(tǒng)和技術(shù)本質(zhì)上利用模式匹配或關(guān)鍵字搜索來識別標(biāo)準化信息 來加以模糊或消除以使其不能夠作為查詢的結(jié)果返回。在更結(jié)構(gòu)化的系統(tǒng)中,一類字段基 礎(chǔ)可用于識別包含個人可識別信息的字段。一般地,這些系統(tǒng)識別數(shù)據(jù)中的字段,例如姓 名、地址、郵編等等一這些字段被確定為可用于個體地識別特定的人的字段,并且程序化 地模糊或消除這些字段以使其不能作為查詢的結(jié)果返回。
      [0004] 匿名化系統(tǒng)和技術(shù)的示例可在屬于本申請的 申請人:的以下美國專利申請公布中 找到:2009/0303237 ;2011/0113049 ;2011/0277037 ;和 2012/0303616。


      【發(fā)明內(nèi)容】

      [0005] 在一個示意性實施例中,提供了一種包括處理器和存儲器的數(shù)據(jù)處理系統(tǒng)中的用 于數(shù)據(jù)的關(guān)系型上下文敏感匿名化的方法。該方法包括由數(shù)據(jù)處理系統(tǒng)接收對數(shù)據(jù)的請 求。該請求指定與所選人的所選群組相對應(yīng)的關(guān)系型上下文,所選人的所選群組是基于關(guān) 系型上下文從人的全局群組中選擇的。關(guān)系型上下文指定所選群組中的所選人的一個或多 個屬性,這一個或多個屬性確立所選人之間的關(guān)系并且將所選人與全局群組中的不在所選 群組中的非所選人相區(qū)分。該方法還包括由數(shù)據(jù)處理系統(tǒng)對于與所選群組相對應(yīng)的關(guān)系型 上下文,基于與所選群組中的所選人相對應(yīng)的個人信息數(shù)據(jù)的語料庫(corpus),確定個人 信息數(shù)據(jù)中的一個或多個關(guān)鍵屬性。另外,該方法包括由數(shù)據(jù)處理系統(tǒng)確定一個或多個關(guān) 鍵屬性中的每個關(guān)鍵屬性在所選群組的關(guān)系型上下文內(nèi)的罕見性值(rarity value)。此 夕卜,該方法包括由數(shù)據(jù)處理系統(tǒng)基于所確定的每個關(guān)鍵屬性在所選群組的關(guān)系型上下文內(nèi) 的罕見性值來匿名化一個或多個關(guān)鍵屬性中的所選關(guān)鍵屬性。
      [0006] 在其他示意性實施例中,提供了 一種計算機程序產(chǎn)品,其包括具有計算機可讀程 序的計算機可使用或可讀介質(zhì)。計算機可讀程序當(dāng)在計算設(shè)備上被執(zhí)行時使得計算設(shè)備執(zhí) 行以上關(guān)于方法示意性實施例概述的操作中的各種操作及其組合。
      [0007] 在另一示意性實施例中,提供了一種系統(tǒng)/裝置。該系統(tǒng)/裝置可包括一個或多 個處理器和與這一個或多個處理器相耦合的存儲器。該存儲器可包括指令,這些指令當(dāng)被 該一個或多個處理器執(zhí)行時使得該一個或多個處理器執(zhí)行以上關(guān)于方法示意性實施例概 述的操作中的各種操作及其組合。
      [0008] 在以下對本發(fā)明的示例實施例的詳細描述中將描述本發(fā)明的這些和其他特征和 優(yōu)點,或者本領(lǐng)域普通技術(shù)人員可基于這些詳細描述而清楚本發(fā)明的這些和其他特征和優(yōu) 點。

      【專利附圖】

      【附圖說明】
      [0009] 通過結(jié)合附圖參考以下對示意性實施例的詳細描述,將最好地理解本發(fā)明及其優(yōu) 選使用模式和更多的目的和優(yōu)點,附圖中:
      [0010] 圖1是可實現(xiàn)示意性實施例的各方面的分布式數(shù)據(jù)處理系統(tǒng)的示例圖;
      [0011] 圖2是可實現(xiàn)示意性實施例的各方面的計算設(shè)備的示例框圖;
      [0012] 圖3是根據(jù)一個示意性實施例的關(guān)系型上下文匿名化系統(tǒng)的主要操作元素的示 例框圖;
      [0013] 圖4A-4C是示出根據(jù)一個示意性實施例的上下文內(nèi)的詞語的罕見性權(quán)重和出現(xiàn) 次數(shù)的圖線的示例圖。
      [0014] 圖5是概述根據(jù)一個示意性實施例的用于對要返回給請求方計算設(shè)備的數(shù)據(jù)進 行匿名化的操作的流程圖;
      [0015] 圖6是概述根據(jù)一個示意性實施例的用于生成組合罕見性矩陣和罕見性函數(shù)的 操作的流程圖;并且
      [0016] 圖7是概述根據(jù)一個示意性實施例的用于基于組合罕見性矩陣對信息的語料庫 進行匿名化的操作的流程圖。

      【具體實施方式】
      [0017] 如上所述,已開發(fā)了匿名化系統(tǒng)來基于預(yù)定的字段、關(guān)鍵字和模式匹配來去除或 模糊個人可識別信息(personally identifiable informat ion, PII )。雖然這種匿名化技術(shù) 在對大型未定義一般個體集合應(yīng)用匿名化時可良好地工作,但這些匿名化系統(tǒng)在數(shù)據(jù)與良 好定義的群組相關(guān)聯(lián)時可能不會完全匿名化數(shù)據(jù)。也就是說,被去除或模糊的典型信息可 能仍會留下其他信息,這些其他信息在一般的未定義個體集合中可能不是個人可識別的, 但在良好定義的群組的上下文內(nèi)卻可能是個人可識別的。換言之,存在如下問題,即,在相 關(guān)數(shù)據(jù)的上下文內(nèi),個體的信息可能從該群組中突出出來,這實際上在該群組內(nèi)識別了該 個體。從而,已知的匿名化機制不能夠?qū)@相關(guān)上下文定義的個體的群組的數(shù)據(jù)進行匿 名化。
      [0018] 作為進一步說明已知的匿名化機制中的這個缺陷的一個示例,考慮參與一癌癥治 療項目的20個人的群組。一計算系統(tǒng),例如數(shù)據(jù)庫查詢系統(tǒng)、問答系統(tǒng),例如可從紐約州阿 蒙克市的國際商用機器公司獲得的Watson?問答系統(tǒng)等等,可接收這20個人的關(guān)于個人信 息、人口統(tǒng)計資料的數(shù)據(jù),以及關(guān)于醫(yī)療狀況的信息,包括這些個體的癌癥的某個階段和類 型。在這20個人內(nèi),其中的少數(shù)幾個可由其醫(yī)療歷史中的映射到某一癌癥類型和治療選項 的罕見類型的效果來標(biāo)記。
      [0019] 已知的匿名化系統(tǒng)和技術(shù)可從計算系統(tǒng)取回并呈現(xiàn)的數(shù)據(jù)中匿名化姓名、地址、 社會安全號和其他一般非上下文敏感個人可識別信息。然而,這些個體中的某些個體的 醫(yī)療歷史中的罕見類型的效果可能不被匿名化,因為此信息一般不被認為是個人可識別 信息。但是,在這個癌癥治療項目參與者的良好定義的群組的上下文內(nèi),該罕見類型的效 果一可能與其他未被匿名化的信息相結(jié)合一可在該良好定義的群組的上下文內(nèi)唯一 地識別個體。
      [0020] 這里的示意性實施例提供了機制,用于基于個體的良好定義群組上的關(guān)系型上下 文,即,該良好定義群組內(nèi)的個體的確立該良好定義群組內(nèi)的個體之間的關(guān)系并將這些個 體與不在該良好定義群組內(nèi)的其他個體相區(qū)分的一個或多個共同屬性的集合,來識別并匿 名化敏感的個人可識別信息。利用示意性實施例的機制,給定與指定的關(guān)系型上下文相關(guān) 聯(lián)的數(shù)據(jù)的集合,識別數(shù)據(jù)內(nèi)的關(guān)鍵屬性并且將罕見性值與這些關(guān)鍵屬性相關(guān)聯(lián)。對于這 些關(guān)鍵屬性生成組合罕見性矩陣,并且基于組合罕見性矩陣來確定匹配關(guān)鍵屬性的特定組 合的概率。應(yīng)當(dāng)注意,組合矩陣理論專注于分析矩陣中的條目的模式,而不是條目本身的 值,從而,這個理論被用于識別組合罕見性矩陣中的模式及其出現(xiàn)的概率?;诮M合罕見性 矩陣,識別在指定的關(guān)系型上下文內(nèi)最有可能罕見并從而個人地指示良好定義群組內(nèi)的個 體的詞語、相關(guān)詞語的集合等等,并且執(zhí)行適當(dāng)?shù)哪涿僮鱽韺λR別的罕見詞語、相關(guān) 詞語的集合等等進行匿名化。
      [0021] 在構(gòu)建組合罕見性矩陣時,相對罕見性矩陣引擎可利用數(shù)據(jù)的深層語義關(guān)系。"深 層語義關(guān)系" 一詞被定義為給定的關(guān)系型上下文內(nèi)的實體之間的關(guān)系以及它們?nèi)绾闻c彼此 相關(guān)。在一個示意性實施例中,可以按照單詞/詞語/實體的元組或者帶有這些實體的關(guān) 系的出現(xiàn)一例如單詞/詞語/實體的三元組一來定義這些深層語義關(guān)系。例如,(突變, 癌癥,器官)可以是識別突變、癌癥和特定器官本體具有深層關(guān)系的深層語義關(guān)系。另外,在 一個示意性實施例中,可提供特定的關(guān)系,例如(質(zhì)量,?指示,轉(zhuǎn)移),其中"指示"的組合和 同義詞將意味著某個癌癥已轉(zhuǎn)移。
      [0022] 另外,術(shù)語"深層語義關(guān)系"在一些示意性實施例指的是,當(dāng)在文檔或其他文本集 合中表達時,基于其通常利用用于文本分析的序列匹配算法是如何來表達的,特定本體中 的詞語的關(guān)系及其相似性。例如,Smith-Waterman序列匹配算法測量兩個文本之間的最長 相似子序列的長度。從而,在一些示意性實施例中,利用文本分析技術(shù)來識別深層語義關(guān)系 以定義實體之間的關(guān)系、詞語以及這些詞語如何相關(guān);將它們存儲在元組--例如三元組 (A,B,C)--或者松散映射中以便以后使用,其中A可以是實體,B是陳述的關(guān)系,并且C是 另一實體。此外,在一些示意性實施例中,A、B和C都是本體或上下文中具有隱含關(guān)系的實 體。關(guān)于深層語義關(guān)系分析和這種關(guān)系的生成的更多信息可在IBM Journal of Research and Development, 2012, Volume56, Issue3. 4中找到,在此通過引用將該文檔全部并入。
      [0023] 在數(shù)據(jù)的訓(xùn)練集合中識別數(shù)據(jù)的關(guān)系型上下文--例如腫瘤學(xué)--上非常見的 深層語義關(guān)系,以便為給定的關(guān)系型上下文構(gòu)建最罕見數(shù)據(jù)集合的機器學(xué)習(xí)模型。最罕見 數(shù)據(jù)集合是用于識別與數(shù)據(jù)的關(guān)系型上下文相關(guān)聯(lián)的如下屬性的(一個或多個)集合的組 合罕見性矩陣種子:這些屬性最有可能能夠個人識別該關(guān)系型上下文內(nèi)的個體。
      [0024] 在生成了組合罕見性矩陣,并且定義了上下文周圍的屬性集合后,定義可接受概 率水平,在該概率水平下,將需要對相應(yīng)的屬性集合進行匿名化以便該數(shù)據(jù)不可個人識別 出某個個人或者被未授權(quán)的個體訪問/讀取。從而,識別如下屬性的組合:這些屬性具有等 于或小于所確立的可接受概率水平的出現(xiàn)概率,并因此可能指示出良好定義群組的關(guān)系型 上下文內(nèi)的個人。除了對姓名、地址、社會安全號、人口統(tǒng)計信息等等執(zhí)行的一般匿名化以 夕卜,隨后還可對屬性的這些組合進行匿名化。
      [0025] 示意性實施例的機制執(zhí)行的數(shù)據(jù)的匿名化維持了非匿名化數(shù)據(jù)中的原始數(shù)據(jù)元 素的上下文,但消除了數(shù)據(jù)元素的個人可識別性。也就是說,數(shù)據(jù)元素可被替代數(shù)據(jù)元素所 替換,這些替代數(shù)據(jù)元素是等同的,但在良好定義群組的關(guān)系型上下文內(nèi)不是個人可識別 的。作為示例,如果個人可識別詞語是患者群組內(nèi)的某個患者目前正在服用的特定藥品名 稱,則該藥品名稱可被替換為更一般化并且不那么可能個人識別患者的不同藥品名稱。作 為另一示例,患者的姓名可被替換為維持患者的性別的上下文的等同姓名,即,女性名被替 換為相似的女性名,而男性名被替換為相似的男性名。如下文更詳細描述的,可利用上下文 分析和所確立的一般化表格來執(zhí)行匿名化,該一般化表格指定數(shù)據(jù)兀素的特定類別的一般 化。
      [0026] 所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明的各個方面可以實現(xiàn)為系統(tǒng)、方法或計算 機程序產(chǎn)品。因此,本發(fā)明的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、 完全的軟件實施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結(jié)合的實施方 式,這里可以統(tǒng)稱為"電路"、"模塊"或"系統(tǒng)"。此外,在一些實施例中,本發(fā)明的各個方面 還可以實現(xiàn)為在一個或多個計算機可讀介質(zhì)中的計算機程序產(chǎn)品的形式,該計算機可讀介 質(zhì)中包含計算機可用的程序代碼。
      [0027] 可以采用一個或多個計算機可讀介質(zhì)的任意組合。計算機可讀介質(zhì)可以是計算 機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是--但不限 于--電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算 機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便 攜式計算機盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器 (EPROM或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者 上述的任意合適的組合。在本文件中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的 有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
      [0028] 計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號, 其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括--但 不限于--電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是 計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者 傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
      [0029] 計算機可讀介質(zhì)上包含的計算機代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括--但不 限于--無線、有線、光纜、RF等等,或者上述的任意合適的組合。
      [0030] 可以以一種或多種程序設(shè)計語言的任意組合來編寫用于執(zhí)行本發(fā)明操作的計算 機程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言一諸如Java、Smalltalk、C++ 等,還包括常規(guī)的過程式程序設(shè)計語言一諸如"C"語言或類似的程序設(shè)計語言。程序代碼可 以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、 部分在用戶計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務(wù)器上執(zhí)行。 在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網(wǎng)絡(luò)--包括局域網(wǎng)(LAN) 或廣域網(wǎng)(WAN)-連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網(wǎng)服務(wù) 提供商來通過因特網(wǎng)連接)。
      [0031] 下面將參照根據(jù)本發(fā)明示意性的實施例的方法、裝置(系統(tǒng))和計算機程序產(chǎn)品的 流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/ 或框圖中各方框的組合,都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給 通用計算機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機器,使得 這些計算機程序指令在通過計算機或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時,產(chǎn)生了實 現(xiàn)流程圖和/或框圖中的一個或多個方框中規(guī)定的功能/動作的裝置。
      [0032] 也可以把這些計算機程序指令存儲在計算機可讀介質(zhì)中,這些指令使得計算機、 其它可編程數(shù)據(jù)處理裝置、或其他設(shè)備以特定方式工作,從而,存儲在計算機可讀介質(zhì)中的 指令就產(chǎn)生出包括實現(xiàn)流程圖和/或框圖中的一個或多個方框中規(guī)定的功能/動作的指令 的制造品(article of manufacture)〇
      [0033] 也可以把計算機程序指令加載到計算機、其他可編程數(shù)據(jù)處理裝置或其他設(shè)備 上,以使得在該計算機、其他可編程裝置或其他設(shè)備上執(zhí)行一系列操作步驟來產(chǎn)生由計算 機實現(xiàn)的過程,從而在該計算機或其他可編程裝置上執(zhí)行的指令提供用于實現(xiàn)流程圖和/ 或框圖的一個或多個方框中指定的功能/動作的過程。
      [0034] 附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的系統(tǒng)、方法和計算機程 序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以 代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個 用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所 標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以 基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的 是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行 規(guī)定的功能或動作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的 組合來實現(xiàn)。
      [0035] 從而,在許多不同類型的數(shù)據(jù)處理環(huán)境中可利用示意性實施例。為了提供描述示 意性實施例的具體元素和功能的上下文,以下提供圖1和圖2作為可實現(xiàn)示意性實施例的 各方面的示例環(huán)境。應(yīng)當(dāng)領(lǐng)會,圖1和圖2只是示例,而并不打算對于可實現(xiàn)本發(fā)明的各方 面或?qū)嵤├沫h(huán)境斷言或暗示任何限制。在不脫離本發(fā)明的精神和范圍的情況下,可對所 描繪的環(huán)境進行許多修改。
      [0036] 圖1描繪了可實現(xiàn)示意性實施例的各方面的示例分布式數(shù)據(jù)處理系統(tǒng)的圖示。分 布式數(shù)據(jù)處理系統(tǒng)100可包括計算機的網(wǎng)絡(luò),其中可實現(xiàn)示意性實施例的各方面。分布式 數(shù)據(jù)處理系統(tǒng)100包含至少一個網(wǎng)絡(luò)102,其是用于在分布式數(shù)據(jù)處理系統(tǒng)100內(nèi)連接在一 起的各種設(shè)備和計算機之間提供通信鏈路的媒介。網(wǎng)絡(luò)102可包括連接,例如有線、無線通 信鏈路或光纜。
      [0037] 在描繪的示例中,服務(wù)器104和服務(wù)器106與存儲單元108 -起連接到網(wǎng)絡(luò)102。 此外,客戶端110、112和114也連接到網(wǎng)絡(luò)102。這些客戶端110、112和114例如可以是個 人計算機、網(wǎng)絡(luò)計算機,等等。在描繪的示例中,服務(wù)器104向客戶端110U12和114提供 數(shù)據(jù),例如引導(dǎo)文件、操作系統(tǒng)鏡像和應(yīng)用??蛻舳?1〇、112和114在描繪的示例中是服務(wù) 器104的客戶端。分布式數(shù)據(jù)處理系統(tǒng)100可包括沒有示出的額外的服務(wù)器、客戶端和其 他設(shè)備。
      [0038] 在描繪的示例中,分布式數(shù)據(jù)處理系統(tǒng)100是因特網(wǎng),其中網(wǎng)絡(luò)102代表使用傳輸 控制協(xié)議/因特網(wǎng)協(xié)議(TCP/IP)協(xié)議組來與彼此通信的網(wǎng)絡(luò)和網(wǎng)關(guān)的世界范圍集合。在 因特網(wǎng)的中心處是由路由數(shù)據(jù)和消息的成千上萬的商業(yè)、政府、教育和其他計算機系統(tǒng)構(gòu) 成的主要節(jié)點或主機計算機之間的高速數(shù)據(jù)通信線路的骨干網(wǎng)。當(dāng)然,分布式數(shù)據(jù)處理系 統(tǒng)100也可實現(xiàn)為包括數(shù)個不同類型的網(wǎng)絡(luò),例如內(nèi)聯(lián)網(wǎng)、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)等 等。如上所述,圖1打算作為示例,而不是作為對于本發(fā)明的不同實施例的體系結(jié)構(gòu)限制, 因此,圖1中所示的特定元素不應(yīng)當(dāng)被認為是對于本發(fā)明的示意性實施例可在其中實現(xiàn)的 環(huán)境的限制。
      [0039] 圖2是示例數(shù)據(jù)處理系統(tǒng)的框圖,示意性實施例的各方面可在其中實現(xiàn)。數(shù)據(jù)處 理系統(tǒng)200是計算機的示例,例如圖1中的客戶端110,實現(xiàn)本發(fā)明的示意性實施例的過程 的計算機可使用代碼或指令可位于該計算機上。
      [0040] 在描繪的示例中,數(shù)據(jù)處理系統(tǒng)200采用中心體系結(jié)構(gòu),其包括北橋和存儲器控 制器中心(NB/MCH) 202以及南橋和輸入/輸出(I/O)控制器心(SB/ICH) 204。處理單元 206、主存儲器208和圖形處理器210連接到NB/MCH202。圖形處理器210可通過加速圖形 端口(AGP)連接到 NB/MCH202。
      [0041] 在描繪的示例中,局域網(wǎng)(LAN)適配器212連接到SB/ICH204。音頻適配器216、鍵 盤和鼠標(biāo)適配器220、調(diào)制解調(diào)器222、只讀存儲器(R0M)224、硬盤驅(qū)動器(HDD)226、⑶-ROM 驅(qū)動器230、通用串行總線(USB)端口和其他通信端口 232以及PCI/PCIe設(shè)備234通過總 線238和總線240連接到SB/ICH204。PCI/PCIe設(shè)備可包括例如以太網(wǎng)適配器、插入卡和 用于筆記本計算機的PC卡。PCI使用卡總線控制器,而PCIe則不使用。R0M224例如可以 是閃速基本輸入/輸出系統(tǒng)(BIOS)。
      [0042] HDD226 和 CD-ROM 驅(qū)動器 230 通過總線 240 連接到 SB/ICH204。HDD226 和 CD-ROM 驅(qū)動器230可使用例如集成驅(qū)動電子設(shè)備(IDE)或串行高級技術(shù)附件(SATA)接口。超級 I/O (SIO)設(shè)備 236 可連接到 SB/ICH204。
      [0043] 操作系統(tǒng)在處理單元206上運行。操作系統(tǒng)協(xié)調(diào)并提供對圖2中的數(shù)據(jù)處理 系統(tǒng)200內(nèi)的各種組件的控制。作為客戶端,操作系統(tǒng)可以是可購得的操作系統(tǒng),例如 Microsoft^ Windows 7%。面向?qū)ο虻木幊滔到y(tǒng)-例如Java?編程系統(tǒng)-可與 操作系統(tǒng)聯(lián)合運行,并且提供從在數(shù)據(jù)處理系統(tǒng)200上執(zhí)行的Java?程序或應(yīng)用對操作系 統(tǒng)的調(diào)用。
      [0044] 作為服務(wù)器,數(shù)據(jù)處理系統(tǒng)200例如可以是IBM? eServer? System p?_ 計算機系統(tǒng),其運行高級交互執(zhí)行(Advanced Interactive Executive, AIX?)操作系統(tǒng) 或LINUX?操作系統(tǒng)。數(shù)據(jù)處理系統(tǒng)200可以是在處理單元206中包括多個處理器的對 稱多處理器(SMP)系統(tǒng)。或者,可以采用單處理器系統(tǒng)。
      [0045] 用于操作系統(tǒng)、面向?qū)ο蟮木幊滔到y(tǒng)和應(yīng)用或程序的指令可被加載在存儲設(shè) 備--例如HDD226--上,并且可被加載到主存儲器208中供處理單元206執(zhí)行。本發(fā)明 的示意性實施例的處理可由處理單元206利用計算機可使用程序代碼來執(zhí)行,這些程序代 碼可位于存儲器中,例如主存儲器208、R0M224中,或者例如位于一個或多個外圍設(shè)備226 和230中。
      [0046] 總線系統(tǒng)--例如圖2中所示的總線238或總線240--可包括一個或多個總線。 當(dāng)然,總線系統(tǒng)可利用任何類型的通信架構(gòu)或體系結(jié)構(gòu)來實現(xiàn),該通信架構(gòu)或體系結(jié)構(gòu)提 供附接到該架構(gòu)或體系結(jié)構(gòu)的不同組件或設(shè)備之間的數(shù)據(jù)傳送。通信單元--例如圖2的 調(diào)制解調(diào)器222或網(wǎng)絡(luò)適配器212--可包括用于發(fā)送和接收數(shù)據(jù)的一個或多個設(shè)備。存 儲器可以例如是主存儲器208、R0M224或者在圖2中的NB/MCH202中找到的緩存。
      [0047] 本領(lǐng)域普通技術(shù)人員將領(lǐng)會到,圖1和圖2中的硬件可依據(jù)實現(xiàn)方式而有所不同。 除了圖1和圖2中所示的硬件以外或者取代這些硬件,可以使用其他內(nèi)部硬件或外圍設(shè)備, 例如閃存、等效非易失性存儲器、或光盤驅(qū)動器等等。另外,在不脫離本發(fā)明的精神和范圍 的情況下,除了以上提及的SMP系統(tǒng)以外,示意性實施例的過程還可應(yīng)用到多處理器數(shù)據(jù) 處理系統(tǒng)。
      [0048] 另外,數(shù)據(jù)處理系統(tǒng)200可采取多種不同的數(shù)據(jù)處理系統(tǒng)中的任何一種的形式, 包括客戶端計算設(shè)備、服務(wù)器計算設(shè)備、平板計算機、膝上型計算機、電話或其他通信設(shè)備、 個人數(shù)字助理(PDA),等等。在一些示意性示例中,數(shù)據(jù)處理系統(tǒng)200可以是便攜式計算設(shè) 備,其例如配置有閃存來提供非易失性存儲器用于存儲操作系統(tǒng)文件和/或用戶生成的數(shù) 據(jù)。實際上,數(shù)據(jù)處理系統(tǒng)200可以是任何已知的或以后開發(fā)的數(shù)據(jù)處理系統(tǒng),沒有體系結(jié) 構(gòu)限制。
      [0049] 再次轉(zhuǎn)到圖1,服務(wù)器計算設(shè)備104、106中的一個或多個可執(zhí)行代碼和/或包含 硬件邏輯,以實現(xiàn)根據(jù)示意性實施例的數(shù)據(jù)匿名化機制。數(shù)據(jù)匿名化機制可與服務(wù)器104、 106或其他計算設(shè)備的其他代碼和/或硬件邏輯聯(lián)合工作,以將數(shù)據(jù)提供給這個其他代碼 和/或硬件邏輯來供處理、呈現(xiàn),等等。這樣,示意性實施例的機制在將數(shù)據(jù)提供給代碼和 /或硬件邏輯的這些其他部分之前對數(shù)據(jù)進行匿名化以便數(shù)據(jù)不能用于在個體的良好定義 群組的給定上下文內(nèi)對個體進行個人識別??衫檬疽庑詫嵤├哪涿瘷C制的代碼和/ 或硬件邏輯的類型是廣泛的并且可包括例如醫(yī)療系統(tǒng)、政府系統(tǒng)、各種組織的人力資源系 統(tǒng)、法律系統(tǒng)或任何其他如下系統(tǒng):在這種系統(tǒng)中,個體的個人信息被收集并且可被取回以 供處理和/或呈現(xiàn),并且在這種系統(tǒng)中,由個人信息表示的個體的隱私是重要的,從而要被 保護,或者甚至是法律強制保護的。
      [0050] 示意性實施例的機制可與現(xiàn)有的匿名化系統(tǒng)、工具等結(jié)合利用或者集成在現(xiàn)有的 匿名化系統(tǒng)、工具等中,以增強這些現(xiàn)有的匿名化系統(tǒng)、工具等等的能力,以便能夠在考慮 到其數(shù)據(jù)被匿名化的個體的良好定義群組的上下文的情況下對數(shù)據(jù)進行匿名化。從而,示 意性實施例的機制可獨自實現(xiàn)為單獨的系統(tǒng),或者可與現(xiàn)有系統(tǒng)集成并用于改進這些現(xiàn)有 系統(tǒng)。
      [0051] "良好定義"群組一詞指的是作為個體(人)的更大的一般群組的子集的如下個體 (人)的群組:這些個體(人)具有至少一個共同屬性,這至少一個共同屬性定義關(guān)系型上下 文,即該"良好定義"群組內(nèi)的個體之間的關(guān)系,并且將該"良好定義"群組中的個體與該更 大的一般群組中的不是該"良好定義"群組的一部分的個體相區(qū)分。在一些示意性實施例 中,"良好定義"群組共同屬性把作為群組的成員的個體從一般群組的個體中作為唯一子集 唯一地識別出來。例如,可提供"患者"的一般群組,其中可唯一地識別"淋巴癌"患者的良 好定義群組。當(dāng)然,也可以使用"良好定義"群組的更細粒度的定義,使得存在各種級別的 群組,其中每個群組具有其自己的關(guān)聯(lián)"上下文",例如"患者"的一般群組可被細分為"癌癥 患者"和"腦損傷"患者,其中"癌癥患者"群組進一步被定義成與"淋巴癌"、"基細胞"、"肺 癌"等等相對應(yīng)的更小群組。
      [0052] 假定例如服務(wù)器104實現(xiàn)采用示意性實施例的機制的匿名化系統(tǒng),客戶端設(shè)備 110-114可向服務(wù)器104提交從服務(wù)器訪問數(shù)據(jù)的請求,該數(shù)據(jù)可包括個體的個人可識別 信息。這種請求可由客戶端設(shè)備110-114上運行的分析軟件或工具自動生成、可響應(yīng)于經(jīng) 由客戶端設(shè)備110-114對來自服務(wù)器104的特定信息的用戶請求而半自動生成,等等???生成對可包含個人可識別信息的數(shù)據(jù)的請求的任何過程、設(shè)備、軟件或工具都打算在示意 性實施例的精神和范圍內(nèi)。在一個示意性實施例中,假定服務(wù)器104實現(xiàn)醫(yī)療信息處理系 統(tǒng),可從客戶端設(shè)備110-114對該系統(tǒng)提交對患者數(shù)據(jù)的查詢,結(jié)果,服務(wù)器104可返回的 數(shù)據(jù)的一些部分按照法律的強制規(guī)定可能需要被匿名化。
      [0053] 從而,示意性實施例的匿名化系統(tǒng)在將所請求的數(shù)據(jù)提供給客戶端設(shè)備110-114 之前,可對要返回給客戶端設(shè)備110-114的數(shù)據(jù)內(nèi)的個人可識別信息進行匿名化。這可涉 及對返回給客戶端設(shè)備110-114的數(shù)據(jù)中的個人可識別信息進行消除或模糊。這個匿名化 被示意性實施例的機制所增強,以提供上下文敏感匿名化,而不只是從已知系統(tǒng)可得的一 般匿名化,這些已知系統(tǒng)使用基本的基于預(yù)定模式匹配、關(guān)鍵字和字段類型的匿名化,而完 全沒有考慮個體(人)之間的任何特定關(guān)系型上下文。
      [0054] 圖3是根據(jù)一個示意性實施例的關(guān)系型上下文匿名化系統(tǒng)的主要操作元素的示 例框圖。圖3中記載的匿名化系統(tǒng)可以是單獨的系統(tǒng)或者與用于提供返回給請求方客戶 端設(shè)備的數(shù)據(jù)的匿名化的其他分析和信息處理系統(tǒng)相集合。從而,圖3的匿名化系統(tǒng)的輸 入是一組文檔、數(shù)據(jù)結(jié)構(gòu)等等,稱為語料庫310,包括非匿名化數(shù)據(jù),這些非匿名化數(shù)據(jù)包括 個人可識別信息,例如醫(yī)療記錄、雇傭記錄、電子金融文檔、個體的政府收集數(shù)據(jù)記錄、或者 任何其他非匿名化數(shù)據(jù)。通過示意性實施例的操作,生成基于上下文匿名化的語料庫380 作為輸出,該語料庫380中識別并匿名化了從語料庫的上下文內(nèi)確定的在語料庫的上下文 內(nèi)個人可識別的詞語的罕見組合,同時維持了罕見術(shù)語的上下文,而消除了原始語料庫310 的個人可識別性。
      [0055] 圖3中所示的元素可以用硬件、在硬件上執(zhí)行的軟件或者硬件和軟件的任何組合 實現(xiàn)。在一個示意性實施例中,圖3中的某些元素實現(xiàn)為被加載到一個或多個存儲器中并 被一個或多個數(shù)據(jù)處理系統(tǒng)的一個或多個處理器執(zhí)行的軟件指令。類似地,圖3中所示的 數(shù)據(jù)結(jié)構(gòu)等等可存儲在一個或多個存儲器、長期存儲設(shè)備或系統(tǒng)等等中,其中長期存儲設(shè) 備或系統(tǒng)例如是硬盤驅(qū)動器存儲設(shè)備/系統(tǒng)、磁帶存儲設(shè)備/系統(tǒng)、固態(tài)存儲設(shè)備/系統(tǒng)等 等。在其他示意性實施例中,圖3中所示的元素中的一個或多個可實現(xiàn)為硬件電路,例如專 用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或者其他硬連線的或可配置的電路。軟件和 硬件的任何組合打算在示意性實施例的精神和范圍內(nèi)。
      [0056] 如圖3中所示,關(guān)系型上下文匿名化系統(tǒng)300接收供匿名化的電子數(shù)據(jù)或信息的 一個或多個語料庫310作為輸入。特定的一個或多個語料庫310可從更大的數(shù)據(jù)集合(未 示出)(例如可從因特網(wǎng)獲得)、一個或多個數(shù)據(jù)庫或者任何其他適當(dāng)?shù)目蓮闹羞x擇一個或多 個語料庫310的數(shù)據(jù)集合中選擇。或者,一個或多個語料庫310可包括更大數(shù)據(jù)集合的全 部。
      [0057] 在一個示意性實施例中,可響應(yīng)于來自另一計算設(shè)備/系統(tǒng)的對信息的請求從更 大數(shù)據(jù)集合中選擇一個或多個語料庫310。作為一個示意性示例,假定數(shù)據(jù)集合包括與醫(yī) 療組織相關(guān)聯(lián)的大量患者的所有醫(yī)療記錄,例如醫(yī)院記錄、健康保險公司記錄、政府組織記 錄,例如疾病控制中心(⑶C)等等??蛻舳擞嬎阍O(shè)備的用戶可請求關(guān)于這些患者中的一個 或多個的信息,導(dǎo)致該客戶端計算設(shè)備向?qū)崿F(xiàn)關(guān)系型上下文匿名化系統(tǒng)300或與關(guān)系型上 下文匿名化系統(tǒng)300相關(guān)聯(lián)的系統(tǒng)提交請求,并且示意性實施例的機制可進行操作以對響 應(yīng)于來自客戶端計算設(shè)備的請求而返回的結(jié)果數(shù)據(jù)進行匿名化。例如,一個或多個語料庫 310可對應(yīng)于醫(yī)療記錄的子集,例如癌癥患者的醫(yī)療記錄、肺癌患者的醫(yī)療記錄,等等。隨后 可根據(jù)示意性實施例的操作來分析一個或多個語料庫310以確定一個或多個語料庫310的 要被匿名化的部分,然后執(zhí)行匿名化。從而,不是向客戶端計算設(shè)備的用戶返回敏感的個人 可識別信息,而是可基于一個基于上下文匿名化的語料庫380來返回經(jīng)匿名化的數(shù)據(jù)。
      [0058] 語料庫分析引擎320分析一個或多個語料庫310,以識別一個或多個語料庫310內(nèi) 的關(guān)鍵詞語、短語、相關(guān)詞語等等并且維護關(guān)于這些關(guān)鍵詞語、短語等等在一個或多個語料 庫310內(nèi)的出現(xiàn)次數(shù)的信息。從而,語料庫分析引擎320攝取可基于例如可在請求等中指 定的一個或多個標(biāo)準(例如"腫瘤學(xué)"領(lǐng)域/上下文中的所有醫(yī)療記錄)從更大數(shù)據(jù)集合選 擇的一個或多個語料庫310,并且執(zhí)行分析,例如自然語言處理(NLP),來識別一個或多個 語料庫310中的關(guān)鍵詞語、短語、相關(guān)詞語等等。在一個示意性實施例中,指定已知的重要 詞語、相關(guān)詞語等等的字典或詞語列表數(shù)據(jù)結(jié)構(gòu)324可用作分析一個或多個語料庫310的 基礎(chǔ)并且識別這些已知的重要詞語和相關(guān)詞語在一個或多個語料庫310內(nèi)的出現(xiàn)。關(guān)鍵詞 語/短語字典或數(shù)據(jù)結(jié)構(gòu)324可至少部分由來自一個或多個語料庫310的特定領(lǐng)域中的人 類專家322 (例如特定醫(yī)療領(lǐng)域(例如腫瘤學(xué))中的醫(yī)療專家)的輸入來生成。也就是說,字 典或詞語列表數(shù)據(jù)結(jié)構(gòu)324可依特定的關(guān)系型上下文而定,從而對于不同的關(guān)系型上下文 可以有多個字典/詞語列表數(shù)據(jù)結(jié)構(gòu)324。在替換方案中,可以利用覆蓋多個關(guān)系型上下文 的單個大字典/詞語列表數(shù)據(jù)結(jié)構(gòu)324。
      [0059] 從而,例如,字典或列表數(shù)據(jù)結(jié)構(gòu)324可列出關(guān)鍵詞語,比如某些類型的突變,例 如EGFR突變、Her2等等,組織學(xué)類型,例如鱗狀細胞、腺癌等等。字典或列表數(shù)據(jù)結(jié)構(gòu)324 可包括用于各種類別的信息類型的多個字典或列表數(shù)據(jù)結(jié)構(gòu)。例如,字典或列表數(shù)據(jù)結(jié)構(gòu) 可包括醫(yī)師的案頭參考、醫(yī)療程序的列表、藥品名稱、藥品類型、疾病類型的列表,等等。
      [0060] 由語料庫分析引擎320在這種分析期間提取的信息可存儲在提取信息數(shù)據(jù)存儲 系統(tǒng)325中。存儲在提取信息數(shù)據(jù)存儲系統(tǒng)325中的信息可包括例如關(guān)于重要詞語的條目 和這些重要詞語中的每一個在一個或多個語料庫310內(nèi)的出現(xiàn)次數(shù)。從而,例如,提取信息 數(shù)據(jù)存儲系統(tǒng)325可具有關(guān)于諸如"癌癥"之類的重要詞語的第一條目,其中該詞語的相應(yīng) 出現(xiàn)次數(shù)是1000,以及關(guān)于另一詞語"EGFR突變"的第二條目,相應(yīng)的出現(xiàn)次數(shù)為6。從而, 第一條目的出現(xiàn)次數(shù)相對較大,而第二條目的出現(xiàn)次數(shù)相對較小。
      [0061] 相對罕見性矩陣生成器330可分析提取信息數(shù)據(jù)存儲系統(tǒng)325中的所提取信息 以生成相對罕見性矩陣,該矩陣具有指定重要詞語/短語及其相應(yīng)的相對罕見性度量的條 目。在一個示意性實施例中,相對罕見性矩陣的生成可利用學(xué)習(xí)模型,該學(xué)習(xí)模型實現(xiàn)一 種統(tǒng)計線性回歸算法,該算法構(gòu)建于一組相關(guān)詞語及其在一個或多個語料庫310中的出現(xiàn) 上。
      [0062] 相對罕見性度量可采取許多不同形式。在一個示意性實施例中,相對罕見性度量 可以是基于提取信息數(shù)據(jù)存儲系統(tǒng)325中的詞語的出現(xiàn)次數(shù)生成的比率。例如,可利用一 詞語的出現(xiàn)次數(shù)與提取信息數(shù)據(jù)存儲系統(tǒng)325中的所有詞語的總出現(xiàn)次數(shù)的比率。這給出 了在提取信息數(shù)據(jù)存儲系統(tǒng)325中的詞語/短語內(nèi)哪個詞語比其他的更罕見的度量。相對 罕見性度量可與關(guān)于其每個相應(yīng)詞語的條目相關(guān)聯(lián),從而生成相對罕見性矩陣340。
      [0063] 在生成相對罕見性矩陣時,相對罕見性矩陣生成器330可基于各種詞語的出現(xiàn)次 數(shù)來識別一個或多個語料庫310內(nèi)的最罕見出現(xiàn)的詞語和最經(jīng)常出現(xiàn)的詞語。"最罕見"和 "最經(jīng)常出現(xiàn)"的度量是基于一個或多個預(yù)定的閾值的。例如,出現(xiàn)次數(shù)的相對罕見性度量 可以是語料庫內(nèi)的詞語的出現(xiàn)次數(shù)相對于該語料庫內(nèi)的重要詞語的總出現(xiàn)次數(shù)的比率。最 經(jīng)常出現(xiàn)的詞語可以是具有高于預(yù)定閾值的相對罕見性比率的詞語。最罕見的詞語可以通 過識別具有低于另一預(yù)定閾值的相對罕見性比率的詞語來類似地識別。識別最罕見和最經(jīng) 常出現(xiàn)的詞語的其他方式可以更簡單或更復(fù)雜,例如選擇具有最高出現(xiàn)次數(shù)的最前5個詞 語或者選擇具有最低出現(xiàn)次數(shù)的最后5個詞語。在另一示意性實施例中,計算最經(jīng)常出現(xiàn) 的詞語的平均出現(xiàn)次數(shù),并且如果另一詞語具有小于該平均值的閾值量--例如10%-- 的出現(xiàn)次數(shù),則確定該詞語為罕見的。在不脫離示意性實施例的精神和范圍的情況下,可以 使用用于確定"最罕見"和"最經(jīng)常出現(xiàn)"的詞語的任何機制或邏輯。
      [0064] 相對罕見性矩陣340和相對罕見性矩陣340中的最罕見詞語的識別被輸入到組合 罕見性矩陣引擎350,組合罕見性矩陣引擎350基于相對罕見性矩陣340生成組合罕見性矩 陣355。組合罕見性矩陣引擎350識別一個或多個語料庫310中的包括罕見詞語或與罕見 詞語具有緊密關(guān)聯(lián)的相關(guān)詞語(即,詞語及其關(guān)系的組合)。例如,如果罕見詞語是"外顯子 20插入",則通過對一個或多個語料庫310的分析,可確定當(dāng)在一個或多個語料庫310中找 至IJ "外顯子20插入"時,也經(jīng)常找到以下詞語:組織學(xué)=鱗狀細胞,轉(zhuǎn)移范圍=擴散,"EGFR 突變外顯子20插入",等等。對于這些罕見詞語和相關(guān)罕見詞語中的每一個,驗證該罕見詞 語/相關(guān)罕見詞語符合最小出現(xiàn)次數(shù)。也就是說,可以確立一閾值,以指示出一詞語被考慮 加以匿名化所需的最小出現(xiàn)次數(shù)。如果存在小于此最小出現(xiàn)次數(shù)的詞語,則其對于識別如 下所述的罕見性函數(shù)而言可能是異常或離群值,從而不被考慮。在另一示意性實施例中,對 于組合罕見性矩陣中的罕見詞語群組,可以使用概率模型來確定該詞語群組可個人識別一 個體的概率有多大。在這種實施例中,可以分析詞語的出現(xiàn)與被分析的語料庫的其他詞語 的出現(xiàn)的比率。該比率可被映射到用戶定義的映射表中。例如,5%的詞語比率的存在可映 射到罕見性詞語群組可能個人可識別的概率為90%。
      [0065] 此外,對于罕見詞語/相關(guān)罕見詞語中的每一個,可以執(zhí)行關(guān)于該罕見詞語/相關(guān) 罕見詞語在該領(lǐng)域/上下文的關(guān)鍵群組之中的驗證。關(guān)鍵群組是由領(lǐng)域?qū)<?-即人類專 家--為該關(guān)系型上下文或領(lǐng)域預(yù)先指定的詞語或語義關(guān)系的群組。關(guān)鍵群組在腫瘤學(xué)的 上下文中可包括諸如癌癥階段、詞語的肌酐值或者像[質(zhì)量,指示,轉(zhuǎn)移]這樣的語義關(guān)系 之類的詞語。語義關(guān)系是具有明確指示的關(guān)系或者隱含的關(guān)系的詞語的群組。
      [0066] 對于罕見詞語/相關(guān)罕見詞語的組合(以下統(tǒng)稱為"罕見詞語")中的每一個,向該 罕見詞語指派罕見性權(quán)重??梢允謩踊蜃詣拥刂概珊币娦詸?quán)重,或者采用自動和手動罕見 性權(quán)重指派的組合。例如,可以自動指派罕見性權(quán)重,而如果一人類專家相信應(yīng)當(dāng)指派不同 的罕見性權(quán)重,則可手動推翻該自動指派的罕見性權(quán)重。在一個示意性實施例中,可基于罕 見詞語的出現(xiàn)次數(shù)與該罕見詞語及其相關(guān)罕見詞語的總出現(xiàn)次數(shù)的比率來指派罕見性權(quán) 重。這給出了罕見詞語在由罕見詞語及其相關(guān)罕見詞語構(gòu)成的群組內(nèi)的相對罕見性。關(guān)于 每個罕見詞語/相關(guān)罕見詞語的信息可存儲在組合罕見性矩陣355中,其中包括指派給這 些罕見詞語/相關(guān)罕見詞語的罕見性權(quán)重。
      [0067] 組合罕見性矩陣引擎350將關(guān)于組合罕見性矩陣355的信息--包括罕見詞語 (和相關(guān)罕見詞語)的罕見性權(quán)重--與出現(xiàn)次數(shù)相關(guān)聯(lián)地繪出在線性回歸圖線上,并且確 定將映射該圖線下方的常見詞語和該圖線上方的較罕見詞語(或者反之,這取決于在圖線 的特定軸上繪出了哪些值)的罕見性函數(shù)。罕見性權(quán)重越高,詞語/語義關(guān)系越有可能被放 在組合罕見性矩陣的部分中。這與詞語或關(guān)聯(lián)的詞語的出現(xiàn)次數(shù)直接相關(guān)。從而,圖線中 的線條是該數(shù)據(jù)的線性回歸圖線中的最佳擬合函數(shù)(預(yù)測函數(shù)),即,最佳擬合函數(shù)是最佳 擬合該數(shù)據(jù)的線性回歸函數(shù)。
      [0068] 圖4A-4C示出了根據(jù)本發(fā)明的示意性實施例的組合罕見性矩陣引擎350可生成的 線性回歸圖線的示例。圖4A示出了一線性回歸圖線,其中罕見性權(quán)重沿著X軸繪出,并且 群組中的出現(xiàn)次數(shù)沿著y軸繪出。圖4B示出了一線性回歸圖線,其中群組中的出現(xiàn)次數(shù)沿 著X軸繪出,并且罕見性權(quán)重沿著y軸繪出。圖4C示出了圖4A所示的圖線的進一步細節(jié)。 在圖4A中,罕見項在最佳擬合函數(shù)線條(罕見性函數(shù))上方,如果該線條與 y軸或X軸相交 的話。在圖4B中,最罕見項在最佳擬合函數(shù)線條(罕見性函數(shù))下方,即朝著更高罕見性值。 [0069] 為了確定罕見性函數(shù),在指定的最大成本函數(shù)被設(shè)定得合理小的情況下生成對于 "罕見詞語"內(nèi)的最常出現(xiàn)的詞語最佳擬合線性回歸圖線上的數(shù)據(jù)的線性函數(shù),該線性函數(shù) 被稱為預(yù)測函數(shù)。也就是說,組合罕見性矩陣引擎350利用已知的線性回歸算法對與相對 罕見性矩陣340相對應(yīng)的數(shù)據(jù)集合應(yīng)用線性回歸機器學(xué)習(xí)過程。這生成了一線性回歸圖 線,組合罕見性矩陣引擎350對該線性回歸圖線執(zhí)行線性預(yù)測函數(shù)生成操作以生成最佳擬 合數(shù)據(jù)的線性預(yù)測函數(shù),即一組系數(shù)和示意性變量(獨立變量)的線性函數(shù)(線性組合),其 值用于預(yù)測依從變量的結(jié)果。這些已知的技術(shù)例如在Wikipedia網(wǎng)站的"線性回歸"和"線 性預(yù)測函數(shù)"主題標(biāo)題下描述。
      [0070] 這個線性回歸和預(yù)測函數(shù)生成產(chǎn)生線性預(yù)測函數(shù)401,其線條最佳擬合最常見數(shù) 據(jù)集合?;诰€性預(yù)測函數(shù)401,對于沿著線性預(yù)測函數(shù)401線條的數(shù)據(jù)點評估成本函數(shù), 以確定與線性預(yù)測函數(shù)401相關(guān)聯(lián)的成本。成本函數(shù)基本上是線性預(yù)測函數(shù)401對真實 數(shù)據(jù)集合的擬合有多好的度量。所使用的特定成本函數(shù)可由人類手動確定,或者由自動化 機制自動確定,例如由在組合罕見性矩陣引擎350的機器學(xué)習(xí)算法中提供的邏輯來自動確 定。成本函數(shù)結(jié)合機器學(xué)習(xí)的使用是本領(lǐng)域中一般已知的,但是關(guān)于成本函數(shù)及其使用的 更多信息可在可從網(wǎng)站"fnenu,s Notes on Online Courses"獲得的于2011年10月11 發(fā)表的文章 "Machine Learning:Working out the Cost Function"中找到,在此通過引用 并入該文章。
      [0071] 一旦確定了成本函數(shù),目標(biāo)就是對于線性預(yù)測函數(shù)401最小化成本函數(shù)值。也就 是說,成本函數(shù)值越高,線性預(yù)測函數(shù)401對真實數(shù)據(jù)集合的擬合就越差,而成本函數(shù)值越 低,線性預(yù)測函數(shù)401對真實數(shù)據(jù)集合的擬合就越好??梢云凭€性預(yù)測函數(shù)401來最小 化此成本函數(shù)值。從而,可以操縱線性預(yù)測函數(shù)401以最小化線性預(yù)測函數(shù)401的成本函 數(shù)值。利用示意性實施例的機制,組合罕見性矩陣引擎350基于成本函數(shù)和真實數(shù)據(jù)集合 來調(diào)整線性預(yù)測函數(shù)401,以使得真實數(shù)據(jù)集合中的更罕見詞語更靠近線性預(yù)測函數(shù)401 并在線性預(yù)測函數(shù)401外部,例如在線性預(yù)測函數(shù)401下方。這導(dǎo)致了罕見性函數(shù)402的 生成,其中罕見性函數(shù)402是線性預(yù)測函數(shù)401的偏移版本,其更靠近罕見詞語并且其成本 值在最大成本值內(nèi)(針對偏移進行補償)。組合罕見性矩陣引擎350隨后可確定落在線性預(yù) 測函數(shù)401外部的數(shù)據(jù)點并且將它們識別為可用于識別個人可識別詞語的罕見數(shù)據(jù)點(或 詞語)。
      [0072] 作為示例,如圖4C中所示,假定最大成本函數(shù)值被設(shè)定為最佳擬合函數(shù)的0. 5 (0. 5在這里只是用作最大閾值成本函數(shù)值的示例,其可依據(jù)特定實現(xiàn)方式而變化)。在描繪 的示例中,通過對線性回歸圖線400和其中的數(shù)據(jù)點的分析,生成線性預(yù)測函數(shù)401并基于 給定的成本函數(shù)來計算其相應(yīng)的成本值。在此情況下,與線性預(yù)測函數(shù)401相關(guān)聯(lián)的成本 值是〇. 3,表明線性預(yù)測函數(shù)401對數(shù)據(jù)集合的擬合良好,因為其是相對較低的成本值。
      [0073] 根據(jù)示意性實施例,為了讓線性預(yù)測函數(shù)401更緊密地擬合罕見數(shù)據(jù)點,偏移線 性預(yù)測函數(shù)401以使其更靠近具有更高罕見性權(quán)重的數(shù)據(jù)點。從而,在這個描繪的示例中, 使線性預(yù)測函數(shù)401向右并向下偏移以生成罕見性函數(shù)402。為了進行此偏移,落在線性預(yù) 測函數(shù)401下方的數(shù)據(jù)點可用作如下數(shù)據(jù)子集:對于該數(shù)據(jù)子集,可再次執(zhí)行線性預(yù)測函 數(shù)生成操作以生成新的線性函數(shù),該新的線性函數(shù)被稱為罕見性函數(shù)402,其具有與線性預(yù) 測函數(shù)401相同的斜率,但被偏移得更靠近罕見數(shù)據(jù)點(同樣地,每個數(shù)據(jù)點可表示詞語、 相關(guān)詞語的元組等等,如前所述)?;蛘?,可以進行線性預(yù)測函數(shù)401的各種任意偏移,并且 可評估相對于罕見數(shù)據(jù)點的相應(yīng)成本函數(shù)以確定哪個偏移的線性預(yù)測函數(shù)401最佳擬合 罕見數(shù)據(jù)點,即具有這些偏移選項的最小成本值。
      [0074] 為了識別對于罕見詞語的最佳擬合線性預(yù)測函數(shù)401,可以計算額外的度量。例 如,可將線性預(yù)測函數(shù)401生成為如下線條:該線條的值具有不大于0. 5的成本函數(shù)值(在 此情況中對于線性預(yù)測函數(shù)401是0. 3)??蓪⒕€性預(yù)測函數(shù)401偏移任意確定的量,例如 在描繪的示例中在成本函數(shù)值中偏移1. 5,以給出成本函數(shù)值1. 8,然后,確定罕見數(shù)據(jù)點 (詞語)的數(shù)目、其罕見性權(quán)重以及落在線性預(yù)測函數(shù)401下方的出現(xiàn)次數(shù),S卩,在小范圍403 中確定。確定偏移的線性預(yù)測函數(shù)401 (描繪為罕見性函數(shù)402)上方或者此小范圍403外 部的數(shù)據(jù)點(詞語)的數(shù)目,并且計算小范圍內(nèi)的詞語與此小范圍403外部的詞語的比率, 并將該比率與閾值相比較以驗證小范圍403中的詞語足以確定罕見性。這個閾值可任意選 擇,例如10%以下的比率。如果評估為肯定,表明比率小于或等于閾值,則線性預(yù)測函數(shù)401 的偏移完成。否則執(zhí)行線性預(yù)測函數(shù)401的額外偏移以及對其擬合罕見數(shù)據(jù)點(詞語)的 評估,直到生成如下的偏移的線性預(yù)測函數(shù)401為止:其更靠近線性回歸圖線中的罕見數(shù) 據(jù)點(詞語),具有小于或等于(為了偏移而調(diào)整的)最大成本函數(shù)值的成本函數(shù)值,并且其 在偏移的線性預(yù)測函數(shù)401下方的小范圍內(nèi)的數(shù)據(jù)點(詞語)與偏移的線性預(yù)測函數(shù)401上 方的數(shù)據(jù)點(詞語)的比率小于或等于預(yù)定的閾值。罕見性函數(shù)402定義了用作一邊界的函 數(shù),其中落在指定罕見性區(qū)域403內(nèi)的詞語是在一個或多個語料庫310的領(lǐng)域/上下文內(nèi) 可個人識別的罕見詞語。指定罕見性區(qū)域403在描繪的示例中可定義為具有等于罕見性函 數(shù)402的上界和與X軸相對應(yīng)的下界。當(dāng)然,如果在不同的軸上繪出不同的值,例如像圖4B 中所示那樣,則這可以是不同的(例如,罕見性函數(shù)402可充當(dāng)下界,并且y軸可充當(dāng)上界)。 落在指定罕見性區(qū)域403外部的詞語不是罕見詞語,從而不要求匿名化。
      [0075] 從而,在通過如上所述的線性回歸/線性預(yù)測函數(shù)/成本函數(shù)分析過程定義了此 罕見性函數(shù)402之后,可將罕見性函數(shù)應(yīng)用從一個或多個語料庫310提取的信息,以確定所 提取信息中的詞語是否是個人可識別的并從而可要求匿名化,即,可以識別落在指定罕見 性區(qū)域403內(nèi)的那些詞語、相關(guān)詞語的元組,等等。應(yīng)當(dāng)領(lǐng)會,可以通過隨后對上述方法的 執(zhí)行--例如當(dāng)額外地信息被添加到一個或多個語料庫310時等等--來完善此罕見性函 數(shù)402。從而,隨后對上述方法的重復(fù)或執(zhí)行可用于更新先前生成的罕見性函數(shù)定義。
      [0076] 在示意性實施例中,上下文敏感匿名化引擎360可將此罕見性函數(shù)402應(yīng)用到一 個或多個語料庫310、提取信息數(shù)據(jù)存儲系統(tǒng)325等等中的詞語,以確定這些詞語是否足夠 罕見到有理由加以匿名化,因為它們可能在一個或多個語料庫310的上下文內(nèi)可個人識別 個體。上下文敏感匿名化引擎360可利用在該上下文內(nèi)常見并傳達了該詞語的含義的一般 詞語或者常見并且與當(dāng)前詞語具有相同類別或本體的替換詞語來執(zhí)行詞語的上下文接近 替換。
      [0077] 領(lǐng)域?qū)<一诤币娫~語的定義為罕見詞語構(gòu)建一般化表格數(shù)據(jù)結(jié)構(gòu)370。這些定 義可從基于上下文的語料庫、電子領(lǐng)域特定字典(例如醫(yī)療字典、行業(yè)或主題特定字典或其 他領(lǐng)域特定字典)、電子辭典、電子期刊、本體定義數(shù)據(jù)結(jié)構(gòu)以及在特定領(lǐng)域內(nèi)并適用于特 定領(lǐng)域的其他信息源提供。這個一般化表格數(shù)據(jù)結(jié)構(gòu)370將詞語與這些詞語的一般化形式 等同起來。例如,詞語"外顯子20刪除"可與"突變"相等同,并且詞語"聽覺損失"可類似 地與"聲音方向(orientation)"相等同。從而,可通過用與詞語具有相似上下文或傳達相 同含義的一般化詞語替換詞語來匿名化詞語。
      [0078] 另外,可基于適用于該領(lǐng)域/上下文的類別來一般化詞語。類別的示例可以使用 詞語或語義關(guān)系的本體中的一般化節(jié)點,其可通過遍歷由領(lǐng)域?qū)<覙?gòu)建的詞語的概念地圖 直到該詞語或語義關(guān)系的一般化類別為止來找到,例如,由樹或圖定義的本體,其中"一般 化類別"是上方節(jié)點,而葉子是與上方節(jié)點相對應(yīng)的特定詞語。例如,在患者記錄中找到的 詞語齒齦炎可以是與被定義為"牙科疾病"的一般化類別或上方節(jié)點相對應(yīng)的葉子節(jié)點, 因為該葉子節(jié)點落在此一般化類別節(jié)點之下。此外,可基于詞語的共性來一般化詞語。例 如,可將具體的姓名一般化為更常見的姓名(例如,可將Stephen Walder匿名化為Stephen Smith)。類似地,可將藥品名稱匿名化為更常見的藥品名稱或通用的藥品名稱,例如可將氫 可酮一般化為"鎮(zhèn)痛麻醉藥"之類的。
      [0079] 利用所確立的一般化表格數(shù)據(jù)結(jié)構(gòu)370,以及通過上下文敏感匿名化引擎360向 一個或多個語料庫310中的詞語應(yīng)用罕見性函數(shù)來對一個或多個語料庫310中的罕見詞語 的識別,可利用一般化表格數(shù)據(jù)結(jié)構(gòu)370中指定的接近上下文知曉詞語來替換一個或多個 語料庫310中的罕見詞語。結(jié)果,生成了基于上下文匿名化的語料庫380,并且其可用于響 應(yīng)來自客戶端計算設(shè)備的請求。
      [0080] 注意以下這點是重要的:匿名化的語料庫380為匿名化的詞語維持了上下文和 底層含義,以供以后分析中使用。也就是說,當(dāng)著眼于深層分析,即針對深層語義關(guān)系的識 別或處理的分析時,數(shù)據(jù)的上下文在聚集并關(guān)聯(lián)松散關(guān)聯(lián)的內(nèi)容以推斷結(jié)果時是至關(guān)重要 的。例如,可以考慮女性名,例如Mary。姓名Mary本身是不重要的姓名,然而在更大的數(shù)據(jù) 上下文中,Mary不僅是姓名,而且是常見的女性名。這種深層分析可在周圍上下文的分析中 利用Mary是常見女性名這一事實。從而,如果沒有上下文接近,則會導(dǎo)致數(shù)據(jù)劣化。然而, 利用示意性實施例的機制,匿名化提供了維持緊密上下文接近的替代,例如將Mary改變成 Cindy,使得深層分析可評估數(shù)據(jù)并應(yīng)用適當(dāng)?shù)奶幚?,而不會不利地影響結(jié)果。
      [0081] 從而,利用示意性實施例,可基于數(shù)據(jù)中的詞語的上下文敏感罕見性以及這些詞 語在該上下文內(nèi)可對個體進行個人識別的可能性來匿名化數(shù)據(jù)。結(jié)果,通過不僅應(yīng)用一般 匿名化技術(shù),而且還在維持被匿名化的詞語的上下文和匿名化的詞語的含義的同時應(yīng)用上 下文敏感匿名化,來減小了將數(shù)據(jù)釋放給可用于對個體進行個人識別的個體或自動化工具 的可能性。
      [0082] 圖4A和4B是示出根據(jù)一個示意性實施例的上下文內(nèi)的詞語的罕見性權(quán)重和出現(xiàn) 次數(shù)的圖線的示例圖。圖4A和4B中所示的圖線可由上下文敏感匿名化引擎360生成,例 如在確定要用于一個或多個語料庫310的基于上下文的匿名化的罕見性函數(shù)時生成。如圖 4A和4B中所示,相對于詞語的出現(xiàn)次數(shù)繪出該詞語的罕見性權(quán)重,其中這些值在X軸或y 軸上,并且定義擬合繪出的數(shù)據(jù)的線性函數(shù)410、420。這個線性函數(shù)是以上所稱的常見詞語 函數(shù),其是罕見性函數(shù)的定義的基礎(chǔ)。
      [0083] 圖5是概述根據(jù)一個示意性實施例的用于對要返回給請求方計算設(shè)備的數(shù)據(jù)進 行匿名化的操作的流程圖。圖5中概述的操作例如可由圖3的關(guān)系型上下文匿名化系統(tǒng) 300實現(xiàn)。
      [0084] 如圖5中所示,操作開始于接收對信息的請求(步驟510)。該請求優(yōu)選地定義了 該請求所作用于的語料庫的上下文/領(lǐng)域,以便可從更大的數(shù)據(jù)集合生成該語料庫(步驟 520)。分析該請求的語料庫以識別重要詞語、重要詞語在語料庫內(nèi)的出現(xiàn)次數(shù)以及關(guān)于語 料庫內(nèi)的詞語的使用或存在的其他度量(步驟530)。如上所述,此操作可利用已知關(guān)鍵詞語 的列表,并且可包括執(zhí)行對語料庫中的數(shù)據(jù)的搜索以識別這些關(guān)鍵詞語。此操作的結(jié)果是 存儲從語料庫中提取的關(guān)于在語料庫內(nèi)找到的關(guān)鍵詞語的信息的數(shù)據(jù)結(jié)構(gòu)。
      [0085] 對語料庫的分析的結(jié)果用于識別語料庫內(nèi)的罕見詞語(步驟540)。例如先前在上 文參考圖3描述的過程可用于在所提取的信息中區(qū)分罕見詞語和非罕見詞語。所識別的罕 見詞語隨后用于搜索語料庫以尋找相關(guān)詞語,即,涵蓋罕見詞語的詞語、經(jīng)常在罕見詞語的 近鄰出現(xiàn)或者與罕見詞語關(guān)聯(lián)出現(xiàn)的詞語,等等(步驟550)?;诤币娫~語和相關(guān)詞語,生 成組合罕見性矩陣和罕見性函數(shù)(步驟560)。組合罕見性矩陣存儲關(guān)于每個罕見詞語及其 相關(guān)詞語的條目,以及指派給這些詞語/相關(guān)詞語的罕見性權(quán)重。利用此信息通過例如以 下方式來生成罕見性函數(shù):將罕見性權(quán)重與罕見詞語/相關(guān)詞語的出現(xiàn)次數(shù)進行相關(guān),并 且確定表示這些相關(guān)性的線性函數(shù)。
      [0086] 基于所識別的罕見性函數(shù),可再次分析語料庫以識別落在罕見性函數(shù)的界限內(nèi)的 詞語,然后匿名化這些詞語(步驟570)。此匿名化可利用基于對語料庫內(nèi)的罕見詞語的識 別的一般化表格,如前所述。匿名化的結(jié)果是基于上下文匿名化的語料庫(步驟580),其可 用于響應(yīng)所接收的原始請求(步驟590)。這種響應(yīng)可要求對匿名化的語料庫執(zhí)行額外的分 析,但由于所執(zhí)行的特定上下文敏感匿名化,這種分析仍保持了匿名化詞語的上下文和含 義。操作隨后終止。
      [0087] 應(yīng)當(dāng)領(lǐng)會,由示意性實施例的操作生成的基于上下文匿名化的語料庫實際上可被 存儲以供以后用于響應(yīng)針對類似語料庫的類似請求。上述操作實際上可在已經(jīng)一般化的語 料庫上運行,以在以后對操作的執(zhí)行期間識別要匿名化的額外區(qū)域。在這種情況下,在每次 操作期間可基于所攝取的語料庫當(dāng)時的狀態(tài)來調(diào)整罕見性權(quán)重。在一些示意性實施例中, 周期性地執(zhí)行用于生成基于上下文匿名化的語料庫的操作,并且可利用當(dāng)前匿名化的語料 庫而不是存在個人可識別信息的原始語料庫來服務(wù)在這些周期性操作之間針對該語料庫 的請求。
      [0088] 圖6是概述根據(jù)一個示意性實施例的用于生成組合罕見性矩陣和罕見性函數(shù)的 操作的流程圖。如圖6中所示,操作開始于接收例如由相對罕見性矩陣生成器330識別的 罕見詞語和罕見詞語的相關(guān)詞語,以及這些詞語/相關(guān)詞語的相關(guān)出現(xiàn)次數(shù)(步驟610)。對 每個罕見詞語及其相關(guān)詞語指派罕見性權(quán)重(步驟620)。各種詞語/相關(guān)詞語的罕見性權(quán) 重聯(lián)系其在語料庫內(nèi)的相應(yīng)出現(xiàn)次數(shù)來繪出(步驟630)。然后識別將圖線上方的罕見詞語 /相關(guān)詞語中的更常見詞語與圖線下方的更罕見詞語/相關(guān)詞語相映射的罕見性函數(shù)(步 驟640)。操作隨后終止。
      [0089] 圖7是概述根據(jù)一個示意性實施例的用于基于組合罕見性矩陣對信息的語料庫 進行匿名化的操作的流程圖。如圖7中所示,操作開始于接收例如由圖3中的組合罕見性 矩陣引擎350生成的罕見性函數(shù)(步驟710)。向語料庫中的詞語應(yīng)用罕見性函數(shù)以識別被 認為足夠罕見到有理由加以匿名化的詞語(步驟720)。在一般化表格數(shù)據(jù)結(jié)構(gòu)中查找所識 別的罕見詞語,以識別所識別的罕見詞語一般化等同物(步驟730)。如上所述,對于所識別 的罕見詞語,可基于在一個或多個來源--例如醫(yī)療字典、行業(yè)字典、映射等同詞語的數(shù)據(jù) 結(jié)構(gòu)等等--中指定的這些詞語的定義來構(gòu)建此一般化表格數(shù)據(jù)結(jié)構(gòu)。利用一般化等同物 來替換罕見詞語,以生成上下文敏感匿名化語料庫(步驟740)。如前所述,這個替換可在各 種級別完成,包括基于上下文和含義的替換、基于類別的替換、基于共性的替換,等等。操作 隨后終止。
      [0090] 如上所述,應(yīng)當(dāng)領(lǐng)會,示意性實施例可采取完全硬件的實施例、完全軟件的實施例 或者包含硬件和軟件元素兩者的實施例的形式。在一個示例實施例中,示意性實施例的機 制是用軟件或程序代碼實現(xiàn)的,軟件或程序代碼包括但不限于固件、駐留軟件、微代碼,等 等。
      [0091] 適用于存儲和/或執(zhí)行程序代碼的數(shù)據(jù)處理系統(tǒng)將包括通過系統(tǒng)總線直接或間 接耦合到存儲器元件的至少一個處理器。存儲器元件可包括在程序代碼的實際執(zhí)行期間采 用的本地存儲器、大容量存儲裝置以及提供至少一些程序代碼的臨時存儲以減少在執(zhí)行期 間必須從大容量存儲裝置取回代碼的次數(shù)的緩存存儲器。
      [0092] 輸入/輸出或I/O設(shè)備(包括但不限于鍵盤、顯示器、指點設(shè)備等等)可直接地或通 過居間的I/O控制器耦合到系統(tǒng)。網(wǎng)絡(luò)適配器也可耦合到系統(tǒng)以使得數(shù)據(jù)處理系統(tǒng)能夠通 過居間的私有或公共網(wǎng)絡(luò)變得耦合到其他數(shù)據(jù)處理系統(tǒng)或遠程打印機或存儲設(shè)備。調(diào)制解 調(diào)器、線纜調(diào)制解調(diào)器和以太網(wǎng)卡只是幾種當(dāng)前可得類型的網(wǎng)絡(luò)適配器。
      [0093] 對本發(fā)明的描述是為了說明和描述而給出的,而并不打算是窮盡的或者將本發(fā)明 限制到所公開的形式。本領(lǐng)域普通技術(shù)人員將清楚許多修改和變化。選擇和描述實施例是 為了最好地說明本發(fā)明的原理、實際應(yīng)用并且使得本領(lǐng)域普通技術(shù)人員能夠針對具有適合 于所設(shè)想的特定用途的各種修改的各種實施例來理解本發(fā)明。
      【權(quán)利要求】
      1. 一種包括處理器和存儲器的數(shù)據(jù)處理系統(tǒng)中的用于數(shù)據(jù)的關(guān)系型上下文敏感匿名 化的方法,包括: 由所述數(shù)據(jù)處理系統(tǒng)接收對數(shù)據(jù)的請求,其中所述請求指定與所選人的所選群組相對 應(yīng)的關(guān)系型上下文,所述所選人的所選群組是基于所述關(guān)系型上下文從人的全局群組中選 擇的,并且其中所述關(guān)系型上下文指定所述所選群組中的所選人的一個或多個屬性,該一 個或多個屬性確立所述所選人之間的關(guān)系并且將所述所選人與所述全局群組中的不在所 述所選群組中的非所選人相區(qū)分; 由所述數(shù)據(jù)處理系統(tǒng),對于與所述所選群組相對應(yīng)的關(guān)系型上下文,基于與所述所選 群組中的所選人相對應(yīng)的個人信息數(shù)據(jù)的語料庫,確定所述個人信息數(shù)據(jù)中的一個或多個 關(guān)鍵屬性; 由所述數(shù)據(jù)處理系統(tǒng)確定所述一個或多個關(guān)鍵屬性中的每個關(guān)鍵屬性在所述所選群 組的關(guān)系型上下文內(nèi)的罕見性值;W及 由所述數(shù)據(jù)處理系統(tǒng)基于所確定的每個關(guān)鍵屬性在所述所選群組的關(guān)系型上下文內(nèi) 的罕見性值來匿名化所述一個或多個關(guān)鍵屬性中的所選關(guān)鍵屬性。
      2. 如權(quán)利要求1所述的方法,其中,確定所述一個或多個關(guān)鍵屬性中的每個關(guān)鍵屬性 的罕見性包括利用組合矩陣理論操作來生成組合罕見性矩陣。
      3. 如權(quán)利要求1所述的方法,其中,所述一個或多個關(guān)鍵屬性是文本詞語。
      4. 如權(quán)利要求3所述的方法,其中,確定所述個人信息數(shù)據(jù)中的一個或多個關(guān)鍵屬性 包括確定所述個人信息數(shù)據(jù)中的文本詞語之間的深層語義關(guān)系并且識別所述個人信息數(shù) 據(jù)中的文本詞語之間的非常見深層語義關(guān)系。
      5. 如權(quán)利要求3所述的方法,其中,對于與所述所選群組相對應(yīng)的關(guān)系型上下文,基于 與所述所選群組中的所選人相對應(yīng)的個人信息數(shù)據(jù),確定所述個人信息數(shù)據(jù)中的一個或多 個關(guān)鍵屬性,包括: 基于依所述關(guān)系型上下文而定的詞語列表數(shù)據(jù)結(jié)構(gòu)來識別一個或多個關(guān)鍵詞語; 對于所述一個或多個關(guān)鍵詞語中的每個關(guān)鍵詞語,基于該關(guān)鍵詞語在所述個人信息數(shù) 據(jù)的語料庫內(nèi)的相對出現(xiàn)次數(shù),來確定相對罕見性度量;W及 基于所述一個或多個關(guān)鍵詞語的相對罕見性度量來生成相對罕見性矩陣數(shù)據(jù)結(jié)構(gòu),其 中所述相對罕見性矩陣識別詞語及其相應(yīng)的相關(guān)相對罕見性度量。
      6. 如權(quán)利要求5所述的方法,還包括: 基于所述相對罕見性矩陣生成組合罕見性矩陣,其中所述組合罕見性矩陣識別所述一 個或多個關(guān)鍵詞語中的罕見關(guān)鍵詞語的組合W及罕見關(guān)鍵詞語的每個組合出現(xiàn)的概率度 量。
      7. 如權(quán)利要求6所述的方法,還包括: 基于所述組合罕見性矩陣確定罕見性函數(shù),其中所述罕見性函數(shù)定義在所述關(guān)系型上 下文內(nèi)詞語的罕見組合和詞語的常見組合之間的邊界;W及 基于所述罕見性函數(shù)選擇所選關(guān)鍵屬性來進行匿名化。
      8. 如權(quán)利要求7所述的方法,其中,確定罕見性函數(shù)包括: 對所述組合罕見性矩陣執(zhí)行線性回歸操作W生成線性回歸圖線,在該線性回歸圖線中 數(shù)據(jù)點對應(yīng)于所述組合罕見性矩陣中的詞語或詞語的組合; 基于所述線性回歸圖線和成本函數(shù)生成線性預(yù)測函數(shù);w及 偏移所述線性預(yù)測函數(shù)W更好地擬合所述線性回歸圖線中具有更高罕見性權(quán)重的數(shù) 據(jù)點,同時維持所述成本函數(shù)的成本值等于或低于最大成本值,從而生成所述罕見性函數(shù)。
      9. 如權(quán)利要求1所述的方法,其中,基于所確定的每個關(guān)鍵屬性在所述所選群組的關(guān) 系型上下文內(nèi)的罕見性值來匿名化所述一個或多個關(guān)鍵屬性中的所選關(guān)鍵屬性包括:利用 在一般化表格數(shù)據(jù)結(jié)構(gòu)中指定的一般化屬性來替換所選關(guān)鍵屬性。
      10. 如權(quán)利要求1所述的方法,其中,所述數(shù)據(jù)處理系統(tǒng)是醫(yī)療信息處理系統(tǒng)。
      11. 一種裝置,包括: 處理器;W及 與所述處理器相禪合的存儲器,其中,所述存儲器包括指令,所述指令當(dāng)被所述處理器 執(zhí)行時,使得所述處理器: 接收對數(shù)據(jù)的請求,其中所述請求指定與所選人的所選群組相對應(yīng)的關(guān)系型上下文, 所述所選人的所選群組是基于所述關(guān)系型上下文從人的全局群組中選擇的,并且其中所述 關(guān)系型上下文指定所述所選群組中的所選人的一個或多個屬性,該一個或多個屬性確立所 述所選人之間的關(guān)系并且將所述所選人與所述全局群組中的不在所述所選群組中的非所 選人相區(qū)分; 對于與所述所選群組相對應(yīng)的關(guān)系型上下文,基于與所述所選群組中的所選人相對應(yīng) 的個人信息數(shù)據(jù)的語料庫,確定所述個人信息數(shù)據(jù)中的一個或多個關(guān)鍵屬性; 確定所述一個或多個關(guān)鍵屬性中的每個關(guān)鍵屬性在所述所選群組的關(guān)系型上下文內(nèi) 的罕見性值;W及 基于所確定的每個關(guān)鍵屬性在所述所選群組的關(guān)系型上下文內(nèi)的罕見性值來匿名化 所述一個或多個關(guān)鍵屬性中的所選關(guān)鍵屬性。
      12. 如權(quán)利要求11所述的裝置,其中,所述指令使得所述處理器至少通過利用組合矩 陣理論操作生成組合罕見性矩陣來確定所述一個或多個關(guān)鍵屬性中的每個關(guān)鍵屬性的罕 見性。
      13. 如權(quán)利要求11所述的裝置,其中,所述一個或多個關(guān)鍵屬性是文本詞語,并且其 中,確定所述個人信息數(shù)據(jù)中的一個或多個關(guān)鍵屬性包括確定所述個人信息數(shù)據(jù)中的文本 詞語之間的深層語義關(guān)系并且識別所述個人信息數(shù)據(jù)中的文本詞語之間的非常見深層語 義關(guān)系。
      14. 如權(quán)利要求13所述的裝置,其中,所述一個或多個關(guān)鍵屬性是文本詞語,并且其 中,對于與所述所選群組相對應(yīng)的關(guān)系型上下文,基于與所述所選群組中的所選人相對應(yīng) 的個人信息數(shù)據(jù),確定所述個人信息數(shù)據(jù)中的一個或多個關(guān)鍵屬性,包括: 基于依所述關(guān)系型上下文而定的詞語列表數(shù)據(jù)結(jié)構(gòu)來識別一個或多個關(guān)鍵詞語; 對于所述一個或多個關(guān)鍵詞語中的每個關(guān)鍵詞語,基于該關(guān)鍵詞語在所述個人信息數(shù) 據(jù)的語料庫內(nèi)的相對出現(xiàn)次數(shù),來確定相對罕見性度量; 基于所述一個或多個關(guān)鍵詞語的相對罕見性度量來生成相對罕見性矩陣數(shù)據(jù)結(jié)構(gòu),其 中所述相對罕見性矩陣識別詞語及其相應(yīng)的相關(guān)相對罕見性度量; 基于所述相對罕見性矩陣生成組合罕見性矩陣,其中所述組合罕見性矩陣識別所述一 個或多個關(guān)鍵詞語中的罕見關(guān)鍵詞語的組合W及罕見關(guān)鍵詞語的每個組合出現(xiàn)的概率度 量; 基于所述組合罕見性矩陣確定罕見性函數(shù),其中所述罕見性函數(shù)定義在所述關(guān)系型上 下文內(nèi)詞語的罕見組合和詞語的常見組合之間的邊界;W及 基于所述罕見性函數(shù)選擇所選關(guān)鍵屬性來進行匿名化。
      15.如權(quán)利要求14所述的裝置,其中,所述指令使得所述處理器至少通過W下操作來 確定罕見性函數(shù): 對所述組合罕見性矩陣執(zhí)行線性回歸操作W生成線性回歸圖線,在該線性回歸圖線中 數(shù)據(jù)點對應(yīng)于所述組合罕見性矩陣中的詞語或詞語的組合; 基于所述線性回歸圖線和成本函數(shù)生成線性預(yù)測函數(shù);W及 偏移所述線性預(yù)測函數(shù)W更好地擬合所述線性回歸圖線中具有更高罕見性權(quán)重的數(shù) 據(jù)點,同時維持所述成本函數(shù)的成本值等于或低于最大成本值,從而生成所述罕見性函數(shù)。
      【文檔編號】G06F17/30GK104346418SQ201410093918
      【公開日】2015年2月11日 申請日期:2014年3月14日 優(yōu)先權(quán)日:2013年3月15日
      【發(fā)明者】C·O·艾侖, S·R·凱瑞爾, H·墨斯三世, E·伍茲 申請人:國際商業(yè)機器公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1