專利名稱:雙盲隱私安全分布式數(shù)據(jù)挖掘協(xié)議的制作方法
技術(shù)領(lǐng)域:
一般地,本發(fā)明涉及在分布式數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)隱私和數(shù)據(jù)使用一其通常屬于不同的所有者。特別地,本發(fā)明涉及在協(xié)調(diào)數(shù)據(jù)權(quán)限的同時(shí)保護(hù)了數(shù)據(jù)的隱私并實(shí)現(xiàn)了對隱私敏感數(shù)據(jù)特征的有用簡化。
背景技術(shù):
數(shù)據(jù)庫協(xié)作、數(shù)據(jù)權(quán)限和數(shù)據(jù)使用的領(lǐng)域本身就是矛盾的,鑒于隱私保護(hù)的法定權(quán)利在某些情形下限制了技術(shù)功能的使用同時(shí)卻在另一些情形下許可了這些相同的技術(shù)功能。簡單地說,例如分類、檢索、合并和布爾邏輯運(yùn)算等函數(shù)的使用是數(shù)據(jù)庫操作的精華一除非其中某個(gè)數(shù)據(jù)庫字段或幾個(gè)字段的組合可能導(dǎo)致個(gè)人身份識別。可識別的數(shù)據(jù)可能并不來自一個(gè)字段、也可能并不是那么明確。例如,一份已完成的關(guān)于美國人口調(diào)查數(shù)據(jù)的研究表明美國全體居民中的87%可僅基于出生日期、性別和郵政編碼被唯一識別。同時(shí)也存在能夠基于對外公共數(shù)據(jù)庫(例如包括出生日期、性別和郵政編碼的選民登記)再識別某些人的問題。總而言之,真正的問題在于記錄標(biāo)準(zhǔn)的唯一性而并不必定是特定字段。需要關(guān)注的是,數(shù)據(jù)提供者將他們的信息產(chǎn)品綁定至偽裝的身份信息采集中,或相反地集合記錄或“裁剪”這些數(shù)據(jù)以創(chuàng)造更多“相同”記錄(例如,僅報(bào)告郵政編碼的前三位或僅報(bào)告出生年份)——因此,在一定概率上,人們不可能知道某人是否存在于最終統(tǒng)計(jì)報(bào)告的某一類別中或任何關(guān)于他的具體細(xì)節(jié),即使這份報(bào)告中某人的信息被明確標(biāo)記、定量表述并被直截了當(dāng)?shù)孛枥L。許多領(lǐng)域中的努力關(guān)注到這種數(shù)據(jù)的隱私矛盾性阻止了人們充分利用這些信息一一特別是用于那些并不關(guān)注任何特定的個(gè)人的應(yīng)用。例如,例如醫(yī)師診所、實(shí)驗(yàn)室、醫(yī)院和建康維護(hù)組織(HMOs)的醫(yī)療保健機(jī)構(gòu)保存了包括針對每一特定病人和每一特定醫(yī)生的大量醫(yī)療記錄。美國1996年的健康保險(xiǎn)流通與責(zé)任法案(HIPAA)和其它類似的法律阻止了 HMOs和醫(yī)療保健提供者完全透明地分享數(shù)據(jù)——鑒于個(gè)人隱私必須被保護(hù)。(可參考附圖1和2以獲得進(jìn)一步的細(xì)節(jié))然而,在不關(guān)注具體個(gè)人的情況下,制藥公司能在許多技術(shù)和商業(yè)方面改善它們的運(yùn)作——如果他們被給予無限制的訪問HMO源數(shù)據(jù)的權(quán)利。類似的數(shù)據(jù)不透明性存在于銀行和保險(xiǎn)公司之間、銷售商和信用卡公司之間、人口統(tǒng)計(jì)局和其它的政府機(jī)構(gòu)之間(例如稅務(wù)機(jī)構(gòu)、公共健康系統(tǒng),等)。
僅作為示例,HIPAA關(guān)于去識別化的相關(guān)條款聲明164. 514條款其它有關(guān)保護(hù)的健康信息的使用和披露的要求。(a)標(biāo)準(zhǔn)受保護(hù)的健康信息的去識別化。無法識別個(gè)人身份的健康信息、和沒有合理根據(jù)相信其中的信息可以被用于識別個(gè)人身份的健康信息不屬于個(gè)人可識別的健康
信息。(b)履行說明對保護(hù)的健康信息去識別化的要求。在下述情況下而且只在下述情況下,一個(gè)適用的實(shí)體可確定健康信息不屬于個(gè)人身份可識別的健康信息
(1)借助通用的統(tǒng)計(jì)和科學(xué)原則和方法以提出信息非個(gè)人可識別的具有適當(dāng)知識和經(jīng)驗(yàn)的人(i)應(yīng)用這種原則和方法,確定該信息可單獨(dú)、或與其它合法獲取的信息聯(lián)合使用的風(fēng)險(xiǎn)非常小,由預(yù)期參與者識別出為該信息主題的個(gè)人;以及(ii)引證證明這種確定的方法和分析的結(jié)果;或
(2)( i )以下個(gè)人身份,或親屬、雇主或個(gè)人家庭成員的身份,被移除(A)姓名;(B)小于洲的所有地理分區(qū),包括街道地址、城市、郡、選區(qū)、郵政編碼、和它們的全球編碼,除可能根據(jù)來自人口統(tǒng)計(jì)局的目前公開的合法數(shù)據(jù)的郵政編碼的初始三位數(shù)(1)該初始三位數(shù)組合出的所有郵政編碼形成的地理單元包含超過兩萬人;以及(2)將包含兩萬及以下人的所有地理單元的郵政編碼的初始三位數(shù)變?yōu)?00。(C)直接涉及個(gè)人日期的所有日期要素 (除年份外),包括出生日期、入學(xué)日期、解除義務(wù)日期、死亡日期;以及超過89的所有年齡和表明這種年齡的所有日期要素(包括年份),除這種年齡和要素可被集合至年齡90或更老的單個(gè)類別;(D)電話號碼;(E)傳真號碼;(F)電子郵件地址;(G)社保號碼;(H)病歷檔案號;(I)健康計(jì)劃受益人號碼;(J)賬號;(K)證書/許可號;(L)車輛識別和序列號,包括車牌號;(M)裝置識別和序列號;(N)環(huán)球資源定位器網(wǎng)絡(luò)(URLs); (0)互聯(lián)網(wǎng)協(xié)議(IP)地址號;(P)生物特征識別,包括指紋和聲紋;(Q)全臉攝影圖像和任何類似的圖像;以及(R) 其它任何唯一識別號碼、特征、或編碼;以及(ii)該隱蔽的實(shí)體不需具有該信息可單獨(dú)、或與其它合法獲取的信息聯(lián)合使用以確定該信息主題的個(gè)人的實(shí)際知識。此外,特別地關(guān)于醫(yī)療保健相關(guān)信息系統(tǒng)的非限制性示例一值得注意一些額外的背景因素
(A)醫(yī)療健康上漲的成本——醫(yī)療保健費(fèi)用與利用正以令人擔(dān)憂的、空前的速度增長。 2000年,美國人在醫(yī)療保健上花費(fèi)了 1.3萬億美元。超過了在食物、住房、汽車或國防上的花費(fèi)。根據(jù)保險(xiǎn)服務(wù)中心,截至到2010年,醫(yī)療保健支出將翻番至2. 6萬億美元——國民生產(chǎn)總值的15.9%。由許多造成成本顯著增長的原因。對付這種挑戰(zhàn)是一個(gè)熱點(diǎn)政治、社會(huì)和道德問題,獲得贊同的是,醫(yī)療保健信息可被用來引導(dǎo)至醫(yī)療保健資源更加有效力和有效率的使用。(B)醫(yī)療保健中數(shù)據(jù)的角色——適當(dāng)?shù)尼t(yī)療保健數(shù)據(jù)的分析可用于廣泛范圍的應(yīng)用,包括改進(jìn)醫(yī)療保健提供的效力、安全性和效率的方式的辨別;以理解風(fēng)險(xiǎn)因素和醫(yī)療選擇的回顧性群體研究;公共健康和流行病研究;對醫(yī)療保健過失和公司問題的理解,以及對醫(yī)療保健專業(yè)人員和用戶(醫(yī)療保健市場)之間醫(yī)療保健創(chuàng)新交流方式效力的理解;許多這種應(yīng)用有助于更好更多的有效的醫(yī)療保健系統(tǒng)。(C)健康事務(wù)數(shù)據(jù)源——醫(yī)療保健就醫(yī)資料、事務(wù)數(shù)據(jù)和醫(yī)學(xué)數(shù)據(jù)被多個(gè)醫(yī)療保健機(jī)構(gòu)創(chuàng)建、儲存和傳達(dá)。醫(yī)療保健提供者頻繁地初始化大量數(shù)據(jù),例如他們的診斷、執(zhí)行臨床試驗(yàn)、執(zhí)行醫(yī)療流程、以及開藥治療。臨床信息要素也存在于實(shí)驗(yàn)室、藥房、HMO和其它醫(yī)療保健支付者,以及例如交流中心和PBM的一些其它服務(wù)機(jī)構(gòu)。健康事務(wù)數(shù)據(jù)在美國被例如HIPAA的隱私標(biāo)準(zhǔn)保護(hù)。通過對病人身份適當(dāng)?shù)厝プR別化,在醫(yī)療保健系統(tǒng)的許多領(lǐng)域中。數(shù)據(jù)用于生成這些數(shù)據(jù)的機(jī)構(gòu)內(nèi)的內(nèi)部應(yīng)用或外部引用。(D)集合的去識別化數(shù)據(jù),醫(yī)師級別——在制藥行業(yè),數(shù)據(jù)通常直接用于制藥公司的促銷。典型地,藥房數(shù)據(jù)集被集合至醫(yī)師(或開方者)級別并包括共享和卷數(shù)據(jù)(Total Rx 和New Rx或TRx和NRx)。在生成所述資料組時(shí),原始可識別的和完整的數(shù)據(jù)被去識別化、 并被集合,因此,“較低分辨率”的數(shù)據(jù)可用作輸出,換句話說,原始資料組的一部分被遺棄并不再用于分析。(E)縱向病人級別數(shù)據(jù)——第二級別的數(shù)據(jù)現(xiàn)也可用于醫(yī)藥領(lǐng)域。其被頻繁地稱為匿名(或去識別化)病人級別數(shù)據(jù),這些數(shù)據(jù)集隨著時(shí)間鏈接同一人的一些記錄,因此提供了對用戶和醫(yī)師更好的理解。這些資料組從不包括可識別的病人信息,一些時(shí)候也缺乏醫(yī)師身份。在生成這些數(shù)據(jù)集時(shí),原始可識別的和完整的數(shù)據(jù)被去識別化、并被集合,因此, “較低分辨率”的數(shù)據(jù)可用作輸出,換句話說,原始資料組的一部分被遺棄并不再用于分析。 另外,有時(shí)某些方法,例如單向散列加密,可用于隨時(shí)間和跨數(shù)據(jù)集識別相同的實(shí)體。鏈接或匹配同一人或?qū)嶓w的記錄的恒定單向散列的使用可能具有在以下方面的許多缺陷下游再識別的風(fēng)險(xiǎn)(例如,通往單向散列和一組個(gè)人信息的入口可能允許個(gè)人加密身份的生成, 因而允許再識別),以及顯著地降低了匹配和/或鏈接容量。(F)直接面向用戶,作為趨勢的DTC (Direct-to-Customer,直接面向用戶)—— 特別地,制藥行業(yè)(某些時(shí)候或是醫(yī)療裝置制造商),直接與用戶交流以驅(qū)動(dòng)其對多種醫(yī)療條件和具體產(chǎn)品的認(rèn)識。直接面向用戶市場自1997年FDA釋放其在這種行為上的限制后得到顯著的發(fā)展。DTC主動(dòng)行為通過一對一的對話從廣告延伸至更加具有目的性的主動(dòng)行為。一些主動(dòng)行為特別地針對某特定藥物的使用者以鼓勵(lì)他們正確地、或按照處方地、和用于長期條件地使用產(chǎn)品,鼓勵(lì)使用者長時(shí)間的(持續(xù)性)使用該藥物。DTC促銷行為是本文定義的健康計(jì)劃的示例。(G)作為主要健康問題的服從治療(服從性)——許多醫(yī)療保健的利益相關(guān)者理解到加強(qiáng)對醫(yī)生開方的藥物治療的服從性的需求。世界衛(wèi)生組織公布了名為“服從長期的治療行為的證據(jù)”(“Adherence to Long-Term Therapies: Evidence for Action,,)的石if 究。作為該研究報(bào)告的引言中的一部分,WHO (世界衛(wèi)生組織)指出——服從治療是治療成功的主要決定因素。貧乏的服從性削弱了最佳的臨床效果,并因此減少了健康系統(tǒng)的整體效力?!八幬锊粫?huì)有用如果你不使用它們”——藥物不會(huì)有效如果病人并不遵從指示的療法,在發(fā)達(dá)國家的患有慢性病的病人中只有50%服從治療建議。提高服從性是對所有醫(yī)療保健的利益相關(guān)者有益地、需要更多改進(jìn)的改進(jìn)之一。多個(gè)精細(xì)的健康計(jì)劃,如本文中定義的,由多位贊助者以提高服從性為目的而發(fā)起。(H)健康計(jì)劃和采集數(shù)據(jù)的本質(zhì);介入和可能合并的類型——存在著許多不同類型的健康計(jì)劃,同樣的,存在著許多對贊助和給出這些計(jì)劃感興趣的不同實(shí)體?;谫澲?(政府、ΗΜ0、雇主、制藥公司等等)目的可不同。健康計(jì)劃可具有以下目的提高產(chǎn)品認(rèn)知、 獲取新的用戶、鼓勵(lì)病人服從藥物治療規(guī)則、擴(kuò)展全面的診斷市場、提高醫(yī)療保健結(jié)果,提高生活質(zhì)量、減少醫(yī)療保健系統(tǒng)的全面成本等等。其它非醫(yī)藥制造商贊助的健康計(jì)劃可包括公共健康努力或疾病/護(hù)理管理,以及其它由醫(yī)療保健協(xié)會(huì)、付款人和其它人發(fā)起的健康促進(jìn)計(jì)劃。(I)當(dāng)數(shù)據(jù)存在隱私問題時(shí),目標(biāo)用戶計(jì)劃測量的不充足性——測量用戶健康計(jì)劃的效果的挑戰(zhàn)愈發(fā)顯著,尤其是當(dāng)健康計(jì)劃贊助者沒有他們管理下的目標(biāo)群體的全部醫(yī)療保健信息。通往數(shù)據(jù)和隱私的入口被限制,贊助組織不得不用非常有限的方法評價(jià)他們努力的結(jié)果。如在本部分之前所描述的,HIPAA設(shè)置了對個(gè)人健康信息和現(xiàn)有的去識別化方法的大量限制,可能致使用于測量健康計(jì)劃效果的信息無用。自然地,由于受限制的測量能力,極少的資源被贊助者用于實(shí)施有價(jià)值的健康計(jì)劃,例如服從性計(jì)劃。(J)健康計(jì)劃的“軟”測量,行為或自我報(bào)告測量——作為以上提及的限制的結(jié)果, 用于評價(jià)健康計(jì)劃和市場計(jì)劃、影響用戶/病人群體的子集的現(xiàn)有方法包括例如病人調(diào)查問卷的自我報(bào)告數(shù)據(jù),或例如發(fā)送至用戶的信息的數(shù)量的行為測量等等。其它途徑包括 (i )消費(fèi)者被定期調(diào)查的消費(fèi)者樣本( )區(qū)域的或相反專注的主動(dòng)行為可以被區(qū)域性分析測量(iii)其它的用以推斷病人行為的相當(dāng)復(fù)雜和受到限制的方法?,F(xiàn)在,在這些和無數(shù)其它(關(guān)于非健康系統(tǒng))例子中,如果數(shù)據(jù)隱私限制被移除,這可以被理解將發(fā)生許多有用的改進(jìn)——鑒于記錄可以根據(jù)姓名和/或ID被對準(zhǔn)——因此向研究者以充分地更高分辨率呈現(xiàn)真實(shí)的描寫。然而,如果這種合并被允許,將有無數(shù)的機(jī)會(huì)違背法律和法規(guī)侵害個(gè)人隱私——導(dǎo)致許多個(gè)人停止向他們的HMO和醫(yī)療保健提供者、 人口統(tǒng)計(jì)局提供精確信息,和/或停止使用他們的信用卡等等。因此,此領(lǐng)域長久以來就需要一種協(xié)議,該協(xié)議允許更高分辨率的查詢和隱私敏感數(shù)據(jù)的操作,同時(shí)保護(hù)個(gè)人隱私。此外,朝著在維護(hù)隱私的同時(shí)更好的使用數(shù)據(jù)的方向前進(jìn)是合理的。關(guān)鍵定義
數(shù)據(jù)源實(shí)體——生成、獲取或儲存(例如在醫(yī)療保健行業(yè))包括可識別的個(gè)人健康信息的醫(yī)療和就醫(yī)數(shù)據(jù)的機(jī)構(gòu)。包括醫(yī)師辦公室、醫(yī)院、實(shí)驗(yàn)室和其它醫(yī)療保健提供者;藥房; 和HM0s、MC0s、自我保險(xiǎn)雇主、保險(xiǎn)公司、PBMs和其它類似實(shí)體。還包括就醫(yī)交流中心和任何其它HIPAA定義的“適用實(shí)體”。在概念上,該源實(shí)體包括在隱私協(xié)議(例如HIPAA商業(yè)伙伴協(xié)議)下為源實(shí)體以賣主運(yùn)作的其它實(shí)體。此外,還有非醫(yī)療保健數(shù)據(jù)源實(shí)體——例如信用卡公司、征信所、保險(xiǎn)公司、銀行、人口調(diào)查局、社會(huì)服務(wù)機(jī)構(gòu)、執(zhí)法機(jī)構(gòu)、或類似的,所有這些實(shí)體分享作為其中包括個(gè)人可識別數(shù)據(jù)的無數(shù)數(shù)據(jù)的采集者和維護(hù)者的普通功能。數(shù)據(jù)用戶實(shí)體——愿意獲取分析性服務(wù)的機(jī)構(gòu),該服務(wù)用于答復(fù)市場化、可操作性、質(zhì)量,(例如)健康結(jié)果或關(guān)于特定(例如)健康計(jì)劃、主動(dòng)行為、子集或全部市場等的其它商業(yè)相關(guān)問題。數(shù)據(jù)用戶實(shí)體對戰(zhàn)略和戰(zhàn)術(shù)上的分析感興趣以幫助他們優(yōu)化他們的資源投入以實(shí)現(xiàn)他們的目的。其例子可以為政府、研究者、產(chǎn)品和服務(wù)(例如)醫(yī)療保健公司等。 特別地在醫(yī)療保健領(lǐng)域,詳細(xì)的群體信息在公共健康趨勢的鑒別、回顧性健康結(jié)果、臨床研究和發(fā)展、醫(yī)療過失和其它有價(jià)值的醫(yī)療保健應(yīng)用上扮演著卓越的角色。數(shù)據(jù)始發(fā)實(shí)體——生成、獲取或儲存?zhèn)€人可識別的信息(“始發(fā)信息”)的機(jī)構(gòu),從其中可生成滿足查詢單個(gè)或多個(gè)條件的實(shí)例的列表。當(dāng)然,查詢涉及數(shù)據(jù)用戶實(shí)體愿意答復(fù)的問題。數(shù)據(jù)始發(fā)實(shí)體可包括醫(yī)療保健機(jī)構(gòu),比如醫(yī)師辦公室、醫(yī)院、實(shí)驗(yàn)室和其它醫(yī)療保健提供者、藥房、HMOs、MCOs,自我保險(xiǎn)雇主、保險(xiǎn)公司、PBMs、就醫(yī)交流中心和其它這種實(shí)體。數(shù)據(jù)始發(fā)實(shí)體也可包括在隱私協(xié)議下為數(shù)據(jù)源實(shí)體以賣主運(yùn)作的其它實(shí)體。還包括非醫(yī)療保健數(shù)據(jù)始發(fā)實(shí)體,例如信用卡公司、征信所、MSOs、有線電視公司、保險(xiǎn)公司、銀行、 人口調(diào)查局、社會(huì)服務(wù)機(jī)構(gòu)、執(zhí)法機(jī)構(gòu)、或類似的,所有這些實(shí)體分擔(dān)作為其中包括個(gè)人可識別數(shù)據(jù)的無數(shù)數(shù)據(jù)的采集者和維護(hù)者的普通功能。數(shù)據(jù)始發(fā)實(shí)體可以與數(shù)據(jù)源實(shí)體相同 (例如,數(shù)據(jù)用戶實(shí)體可訪問適當(dāng)始發(fā)信息的時(shí)候),或這兩個(gè)實(shí)體不同(例如,數(shù)據(jù)用戶實(shí)體不能訪問適當(dāng)始發(fā)信息的時(shí)候)。非醫(yī)療保健數(shù)據(jù)始發(fā)實(shí)體的一個(gè)例子是有限電視公司具有家庭有線盒頻道設(shè)定、 日常帳單信息和廣告清單的詳細(xì)記錄。該有線公司信息揭露了在特定時(shí)間特定家庭觀看了什么電視節(jié)目或其它娛樂內(nèi)容,并通過這種信息推斷出該特定家庭可能被什么廣告影響。 這種始發(fā)信息可用于處理例如但不限于的以下查詢,“在數(shù)據(jù)A和數(shù)據(jù)B之間有機(jī)會(huì)觀看商業(yè)廣告X的所有家庭”。這種查詢的目的在于將廣告曝光量和交易購買信息聯(lián)系到一起,從而答復(fù)數(shù)據(jù)用戶實(shí)體(可能是醫(yī)療保健公司、消費(fèi)品公司等)的關(guān)于多少觀看了特定廣告的家庭最終購買了廣告的產(chǎn)品或服務(wù)的問題。交叉(Crossix)——包括根據(jù)其任何實(shí)施例的即時(shí)協(xié)議一及其衍生用途的表達(dá) (參考附圖4和5的優(yōu)選實(shí)施例細(xì)節(jié))
健康計(jì)劃——一個(gè)計(jì)劃(用作本發(fā)明優(yōu)選實(shí)施例的具體示例),其影響全部潛在群體的子集。一般說來病人、用戶、或醫(yī)療保健專業(yè)人員愿意選擇參與這種計(jì)劃,如果發(fā)起機(jī)構(gòu)不被HIPAA覆蓋,發(fā)起機(jī)構(gòu)會(huì)遵守其已公布的隱私政策。一般說來健康計(jì)劃獲取個(gè)人識別信息。健康計(jì)劃可包括用于示例的服從性計(jì)劃或可包括鼓勵(lì)用戶撥打免費(fèi)號碼或登陸網(wǎng)站以獲得進(jìn)一步信息的廣播廣告元素(例如電視商業(yè)廣告)。在電話中心或網(wǎng)站,一些用戶信息被頻繁地獲取。在健康計(jì)劃中被獲取的典型的可識別數(shù)據(jù)一包括以下字段的一些組合或類似于此的字段名;姓;出生日期或出生年份;郵政編碼;詳細(xì)地址;電話號碼;傳真號碼;電子郵件;處方醫(yī)生姓名、地址或其它標(biāo)識符;醫(yī)療條件或處方藥;性別;社會(huì)保險(xiǎn)。注意數(shù)據(jù)可變性的討論——個(gè)人數(shù)據(jù)頻繁的改變。(參考關(guān)于此的討論,美國專利號6,397,224和 SearchSoftware- -America ^"Math, Myth & Magic of Name Search & Matching”)i^@· 據(jù)的子集共同地作為具有高可能性的的唯一標(biāo)識符服務(wù)。例如,出生日期和電話號碼可共同作為唯一標(biāo)識符服務(wù)。數(shù)據(jù)源實(shí)體信息結(jié)構(gòu)(典型的醫(yī)療保健相關(guān)標(biāo)識符)可包括上述全部或部分字段外加唯一成員ID。(注意,參考美國專利號5,544, 044 ;美國專利號5,835,897 和美國專利號6,370,511以獲得醫(yī)療保健數(shù)據(jù)結(jié)構(gòu)的詳細(xì)描述)。本發(fā)明的優(yōu)點(diǎn)、目的和益處
人類工程學(xué)方面本發(fā)明的優(yōu)選實(shí)施例允許對“源實(shí)體”的原始數(shù)據(jù)的分析在其原始的和最細(xì)節(jié)的形式(高分辨率數(shù)據(jù))下進(jìn)行,包括對當(dāng)前處理的所有隱私敏感數(shù)據(jù)的完全訪問,同時(shí)維護(hù)現(xiàn)有隱私限制至集合處理器。此外,高分辨率分析可在多個(gè)不同“源實(shí)體”上執(zhí)行,每個(gè)實(shí)體都可維持其隱私限制,但在一定條件下該數(shù)據(jù)可被集合處理器集合到一起以提供更加全面的分析。多個(gè)不同實(shí)施例將在下文中描述,其中大部分涉及具有通往單個(gè)或多個(gè)數(shù)據(jù)實(shí)體的信息的路徑的集合處理器。然而,在下文描述的另一實(shí)施例中,其集合處理器并不具有通往單個(gè)/多個(gè)數(shù)據(jù)用戶實(shí)體或單個(gè)/多個(gè)數(shù)據(jù)源實(shí)體的完全路徑——由于單個(gè)/多個(gè)數(shù)據(jù)用戶實(shí)體和單個(gè)/多個(gè)數(shù)據(jù)源實(shí)體的信息都是隱私敏感的且不能與集合處理器共享。但在后一實(shí)施例中,集合處理器具有通往查詢的匹配和去識別化的結(jié)果的路徑,因此集合處理器可分析那些結(jié)果并將最終分析結(jié)果發(fā)送至單個(gè)/多個(gè)數(shù)據(jù)用戶實(shí)體。該后一實(shí)施例,可被認(rèn)為是“雙盲”實(shí)施例,由于單個(gè)/多個(gè)實(shí)數(shù)據(jù)用戶體(和/或單個(gè)/多個(gè)數(shù)據(jù)始發(fā)實(shí)體) 的隱私敏感信息和單個(gè)/多個(gè)數(shù)據(jù)源實(shí)體的隱私敏感信息對集合處理器都是不可見的,其在單個(gè)/多個(gè)數(shù)據(jù)用戶實(shí)體(和/或單個(gè)/多個(gè)數(shù)據(jù)始發(fā)實(shí)體)的信息是敏感的,甚至不能暴露給集合器的情況下具有優(yōu)勢。經(jīng)濟(jì)方面本發(fā)明的優(yōu)選實(shí)施例允許對當(dāng)前存在于“源實(shí)體”處理器中數(shù)據(jù)的潛在價(jià)值的增加一個(gè)數(shù)量級上的利用,其間僅增加了“集合”處理器名義上的花費(fèi)。此外,“集合” 處理器上的花費(fèi)對于為位于“源實(shí)體”處理器的隱私敏感數(shù)據(jù)定義和提供訪問路徑是非常重要的。技術(shù)方面本發(fā)明的優(yōu)選實(shí)施例主要地由軟件包組成,每一軟件包參予不同的數(shù)據(jù)處理機(jī)器,軟件包與其各自機(jī)器或通過網(wǎng)絡(luò)連接至該機(jī)器的機(jī)器上的數(shù)據(jù)庫包交互。軟件包采用標(biāo)準(zhǔn)數(shù)據(jù)通信設(shè)施(例如,互聯(lián)網(wǎng),VPN等)彼此互相連接。因此,從技術(shù)的角度來講,本發(fā)明的實(shí)施例是準(zhǔn)常見軟件模型的卷積——可在當(dāng)今數(shù)據(jù)復(fù)雜環(huán)境下直接執(zhí)行。
發(fā)明內(nèi)容
本發(fā)明涉及隱私安全數(shù)據(jù)挖掘協(xié)議,其實(shí)施例明顯地滿足了前述的長期需求。這種協(xié)議在社會(huì)電腦的交互中特別有用,其允許具有實(shí)際存在的需求和經(jīng)濟(jì)效益的更高分辨率的查詢和隱私敏感數(shù)據(jù)的處理,但其同時(shí)不允許個(gè)人隱私被侵害。涉及隱私保護(hù)數(shù)據(jù)挖掘協(xié)議的本發(fā)明的實(shí)施例,(參考圖3)在一個(gè)安全的“集合” 數(shù)據(jù)處理器300和至少一個(gè)安全的“源實(shí)體”數(shù)據(jù)處理器350之間運(yùn)行,其中所述“集合” 器和“源實(shí)體”處理器通過電子數(shù)據(jù)通信拓?fù)浣Y(jié)構(gòu)399交互,該協(xié)議包括以下步驟
(A)“集合”處理器一側(cè)
(i )從一個(gè)用戶界面——接受315 —個(gè)對照多個(gè)預(yù)定屬性的查詢并隨后形成參數(shù)列
表,
(ii )通過拓?fù)洹獋鬏?20參數(shù)列表至每一“源實(shí)體”處理器,
(iii)通過拓?fù)洹獜拿恳弧霸磳?shí)體”處理器接收325各自的文件;
(iv)集合330多個(gè)文件至數(shù)據(jù)倉庫,
(ν )采用參數(shù)列表,從數(shù)據(jù)倉庫中提取335查詢的有關(guān)數(shù)據(jù),
(vi)聚集340所提取的數(shù)據(jù),以及
(vii)至用戶界面——報(bào)告345所聚集的提取數(shù)據(jù),以及
(B)每一個(gè)至少一個(gè)的“源實(shí)體”處理器中的一側(cè)
(i )累積355數(shù)據(jù)項(xiàng),其中一些數(shù)據(jù)項(xiàng)具有隱私敏感微數(shù)據(jù), (ii )采用多個(gè)預(yù)定屬性組織360數(shù)據(jù)項(xiàng),
(iii)通過拓?fù)洹浴凹稀碧幚砥鹘邮?65參數(shù)列表,
(iv)根據(jù)參數(shù)列表通過“嚼碎”所述數(shù)據(jù)項(xiàng)以形成370文件,
(ν )過濾375文件中其具體項(xiàng)目少于隱私敏感事務(wù)數(shù)據(jù)中預(yù)訂項(xiàng)目數(shù)的部分, (vii)通過拓?fù)洹獋鬏?80文件至“集合”處理器。
參考附圖4,4A (附圖4的概念上更加詳細(xì)的視圖),以及附圖5,讓我們來檢查每一子步驟并解釋其完成了什么,及其它們是如何共同地根據(jù)前述的長期需求實(shí)現(xiàn)了改進(jìn)。隱私保護(hù)數(shù)據(jù)挖掘協(xié)議的實(shí)施例在,一個(gè)安全的“集合”處理器——其是中心數(shù)據(jù)處理機(jī)器——和至少一個(gè)安全的“源實(shí)體”數(shù)據(jù)處理器——其是各自包括具有例如姓名、身份證號碼、或其它類似的隱私識別數(shù)據(jù)的記錄的其它的數(shù)據(jù)處理器,之間運(yùn)行。在本發(fā)明之前,僅存在“源實(shí)體”機(jī)器采用隱私識別字段為內(nèi)部用途查詢這些記錄的實(shí)踐,例如將個(gè)人的多條記錄看作一個(gè)單獨(dú)的單元等。然而,這通常在法律上是被禁止的,因?yàn)椤霸磳?shí)體”共享和/或出售包括隱私敏感字段,或那些關(guān)聯(lián)至其它數(shù)據(jù)的致使隱私敏感標(biāo)識符被“猜出” 的其它字段。因此,“源實(shí)體”數(shù)據(jù)采集者環(huán)繞更大的族變量來壓縮他們的數(shù)據(jù)成為慣例,例如通過年齡組或州籍或性別。但這種實(shí)踐通過將他們的身份融入至其它人所構(gòu)成的全體中從而保留了個(gè)體隱私,也同時(shí)阻止了外部研究者從“源實(shí)體”的數(shù)據(jù)中獲利?,F(xiàn)在,“集合”和“源實(shí)體”處理器通過電子數(shù)據(jù)-通信拓?fù)洹缁ヂ?lián)網(wǎng),或虛擬回路等類似的交互;這些都消除了集中處理器的需求。相反,處理器可保持為分布式地布置,就像當(dāng)今世界中的情況??偨Y(jié)至此,這種協(xié)議采用數(shù)據(jù)通信設(shè)備以使一個(gè)中心集合處理器與至少一個(gè)源實(shí)體處理器進(jìn)行交互。每一源實(shí)體處理器具有各自的隱私敏感數(shù)據(jù)內(nèi)容以及其它方面的數(shù)據(jù)內(nèi)容?,F(xiàn)在,根據(jù)這種協(xié)議,在“集合”處理器(A)—側(cè),存在七個(gè)子步驟。首先,“(A- i) 自用戶界面——接收對照多個(gè)預(yù)定屬性的查詢和用其形成參數(shù)列表”的子步驟建立集合器作為查詢的焦點(diǎn),其中查詢可包括源實(shí)體不能透露至“外人”的有問題的隱私-敏感信息。 本質(zhì)上,在本發(fā)明的內(nèi)容中,列表的參數(shù)可包括披露身份的細(xì)節(jié)一一其可能甚至無法通過具有名義上的隱私閾值的普通標(biāo)準(zhǔn),和/或更廣的變量——其可能通過正常,嚴(yán)格,或具有絕對隱私閾值的普通標(biāo)準(zhǔn)。這些披露身份的詳情可以是類似姓名、個(gè)人身份號碼或如果用于披露用戶身份將違背隱私保護(hù)的簡單數(shù)據(jù)的組合。本發(fā)明的方法的進(jìn)一步應(yīng)用的重要之處在于,這些披露身份的細(xì)節(jié)是查詢處理中的足夠大的列表的一部分,從而查詢結(jié)果將呈現(xiàn)充分的統(tǒng)計(jì)分布以保護(hù)該結(jié)果的“逆向工程”返回至最初查詢列表中的任何個(gè)體。例如,本發(fā)明的方法能詢問Tom、DiCk、Harry的狀態(tài),和個(gè)體的進(jìn)一步聚集——以及從查詢中獲得結(jié)果——只要這些結(jié)果的統(tǒng)計(jì)特性并不允許結(jié)果細(xì)節(jié)具有返回至個(gè)體的關(guān)聯(lián)。因此,可能存在的是,查詢包括 10,000個(gè)人ID的列表,結(jié)果顯示出這些個(gè)體屬于具有60%可能性的群體A、具有25%可能性的群體B、以及具有剩下的15%可能性的群體C-E中的一組。相應(yīng)地,傳輸參數(shù)列表可包括傳輸足夠大的含有身份披露細(xì)節(jié)的列表。簡單地說,集合器可接收包括許多身份詳情(例如,姓名的列表、或一起能允許身份辨識的幾個(gè)字段的組合的列表)的查詢——人們并不期望在任何隱私保護(hù)方式中這種類型的查詢得到應(yīng)答。該子步驟必需將假設(shè)關(guān)于數(shù)據(jù)(用戶想知道的關(guān)系)的模型庫轉(zhuǎn)換至根據(jù)被集合器和源實(shí)體共同接受的共享的可變定義的形式語言查詢短語。參數(shù)列表可包括將被分析的總體的定義,例如通過地域、年齡或其它屬性。本發(fā)明的協(xié)議最新穎的特征之一在于參數(shù)列表甚至可通過姓名或ID或類似的項(xiàng)目將特定的個(gè)體包括在內(nèi)。在群體定義中個(gè)體的數(shù)量大到足夠?qū)㈥P(guān)于個(gè)體的個(gè)人信息的最終結(jié)論稀釋至群體(姓名的)數(shù)據(jù)的“大海”中是必要的。根據(jù)某些特定實(shí)施例,全部或部分參數(shù)列表被加密。接下來,“(A- ii)通過拓?fù)?,傳輸參?shù)列表至每一“源實(shí)體”處理器”的子步驟發(fā)送制定的查詢——以任何被集合器和每個(gè)各自的源實(shí)體共同接受的格式??赡馨l(fā)生的是,集合器用短語描述制定的查詢至一些源實(shí)體比至其它源實(shí)體困難——這可能就是最實(shí)際的實(shí)施例。其后是“(A-iii)通過拓?fù)?,從每一“源?shí)體”處理器接收各自文件”的子步驟,據(jù)此集合器從每一源實(shí)體接收一些答復(fù)(或空值答復(fù));然而,(如我們將從本發(fā)明的協(xié)議的源實(shí)體一側(cè)理解到的)當(dāng)問題包括要求根據(jù)隱私敏感數(shù)據(jù)方面的源實(shí)體關(guān)聯(lián)數(shù)據(jù)的參數(shù),答復(fù)被壓縮至一種無身份識別的表現(xiàn)形式。例如,在一個(gè)不尋常的假設(shè)的測試中,查詢要求將具有特定建康問題和接受特定治療的病人按照他們的高級主治醫(yī)師分類。為了答復(fù)該查詢,源實(shí)體必須比較具有相同病人姓名和IDs的記錄和姓名和ID專業(yè)醫(yī)師記錄。然而,答復(fù)是比較于多個(gè)病人數(shù)據(jù)的數(shù)據(jù)族將高級醫(yī)師歸為一類的表格。根據(jù)該例的這個(gè)表格,一個(gè)藥物公司用戶可以自多個(gè)HMO 源實(shí)體記錄中找出該公司的療法的主要市場對象一高級醫(yī)師或初級醫(yī)師,或兩者。簡單地說,查詢測試了關(guān)于病人屬性的可能的假設(shè)——這種查詢對制藥公司具有有趣的經(jīng)濟(jì)暗示。接下來,“(A-iv)集合多個(gè)文件至數(shù)據(jù)倉庫”進(jìn)一步保護(hù)了隱私,通過將單個(gè)源實(shí)體的響應(yīng)捆綁至一個(gè)大的源實(shí)體的去識別化的數(shù)據(jù)收集,并同時(shí)將來自多個(gè)分散和不同的數(shù)據(jù)源的結(jié)果傳送出去。因此,“(Α- ν )采用參數(shù)列表,從數(shù)據(jù)倉庫中提取查詢的有關(guān)數(shù)據(jù)”的子步驟允許用于獲取數(shù)據(jù)倉庫的所有相關(guān)數(shù)據(jù)至單一的臨時(shí)集合,所述單一的臨時(shí)集合包括來自一個(gè)或多個(gè)源實(shí)體查詢-回答循環(huán)的回答和可能來自源實(shí)體或其它實(shí)體的普通報(bào)告中的其它數(shù)據(jù)。現(xiàn)在,在“ (A-vi)聚集所提取的數(shù)據(jù)”的子步驟中,支持或拒絕查詢條件的所有數(shù)據(jù)的濃縮圖片被總結(jié)到一起,最后進(jìn)入“ (A-vii)至用戶界面——報(bào)告所聚集的提取”的子步驟。此外,(B)在至少一個(gè)“源實(shí)體”處理器的每一個(gè)處理器一側(cè),最先的兩個(gè)子步驟要求普通的操作——例如“(B- i )累積數(shù)據(jù)項(xiàng),其中一些數(shù)據(jù)項(xiàng)具有隱私敏感微數(shù)據(jù), (B- ii )采用多個(gè)預(yù)定屬性組織數(shù)據(jù)項(xiàng)”。其后,子步驟(B-iii)通過拓?fù)洹浴凹稀碧幚砥鹘邮諈?shù)列表使得源實(shí)體開始參與入由用戶發(fā)起的、正在被集合器管理的“工程”中。由此處,接下來的“(B- iv)子步驟根據(jù)參數(shù)列表的數(shù)據(jù)項(xiàng)通過“嚼碎合并”形成文件,引起每個(gè)各自的源實(shí)體執(zhí)行必要的內(nèi)在數(shù)據(jù)庫查詢、以及執(zhí)行必要的臨時(shí)數(shù)據(jù)-內(nèi)在關(guān)系的關(guān)聯(lián)和構(gòu)造,以獲知對通過集合器發(fā)送出的起始用戶查詢的本地答復(fù)。如果參數(shù)列表包括姓名或ID或其它類似的特定個(gè)體,“嚼碎合并”可包含通過“模糊邏輯”的姓名匹配算法或者其它帶有源實(shí)體數(shù)據(jù)庫姓名的參數(shù)列表所定義的群體姓名匹配算法,除前述定義的其它步驟之外。完成之后,“(B- ν)過濾文件中其具體項(xiàng)目少于隱私敏感事務(wù)數(shù)據(jù)中預(yù)訂項(xiàng)目數(shù)的部分”消除了答復(fù)中的可能允許用戶通過某些數(shù)據(jù)屬性猜出個(gè)人身份的部分——這是因?yàn)閿?shù)據(jù)屬性屬于個(gè)體或?qū)儆诜浅P〉某蓡T群體。這個(gè)步驟是必要的——因?yàn)槠湎嗽磳?shí)體和集合器之間關(guān)系的信任程度。憑著良心,源實(shí)體具有保護(hù)其數(shù)據(jù)集合中個(gè)體身份的職責(zé)。簡單地說,本發(fā)明的內(nèi)容中,過濾是實(shí)施“源實(shí)體”級別上的隱私閾值的同義詞。在HIPAA例子中,統(tǒng)計(jì)學(xué)家制定的標(biāo)準(zhǔn)設(shè)定允許的字段和需要的數(shù)值級別以界定 “去識別化”的結(jié)果。最后,為完成協(xié)議,還剩下根據(jù)本領(lǐng)域已知的方法實(shí)現(xiàn)(B- vi)通過拓?fù)洹獋鬏斘募痢凹稀碧幚砥鞯淖硬襟E?;仡櫽脩?、集合器、和源實(shí)體之間的關(guān)系,可注意到,用戶被允許使用短語查詢,其可能導(dǎo)致源實(shí)體執(zhí)行要求個(gè)人身份的具體數(shù)據(jù)的數(shù)據(jù)庫功能——但其并不導(dǎo)致身份信息本身在超出源實(shí)體權(quán)限外被揭露。第二,集合器可收集并匯編來自多個(gè)數(shù)據(jù)集合(源實(shí)體) 的身份保護(hù)報(bào)告,并將它們匯編入一份單獨(dú)的報(bào)告,因此潛在地大大增加了從集合器報(bào)告提取至用戶的結(jié)論的統(tǒng)計(jì)意義。此外,可能來自單個(gè)源實(shí)體的全部或者大部分結(jié)果的每一揭露的方面都被保護(hù)。舉例,了解到一個(gè)HMO的醫(yī)師完全不同于其它HMO的醫(yī)師的看法可能在政治上是非常敏感的——通過采用集合器可將這種特性向用戶方隱藏。根據(jù)本發(fā)明的第一優(yōu)選實(shí)施例,聚集所提取的信息包括過濾出所提取的信息中其具體項(xiàng)目少于隱私敏感事務(wù)數(shù)據(jù)中預(yù)訂項(xiàng)目數(shù)的部分。根據(jù)此實(shí)施例的一個(gè)首選的變種, 所述過濾出來的提取信息的具體項(xiàng)目少于預(yù)定數(shù)量數(shù)據(jù)項(xiàng)的部分包括從所述列表、序列號、數(shù)據(jù)倉庫中實(shí)例的百分比、平均值外數(shù)據(jù)實(shí)例和標(biāo)準(zhǔn)偏差單元的預(yù)定數(shù)目的和中挑選出來的特定數(shù)目。根據(jù)本發(fā)明的第二優(yōu)選實(shí)施例,集合所提取的信息包括過濾出的所提取信息的一部分,從而僅保留了無身份信息的微數(shù)據(jù)或無身份信息的集合數(shù)據(jù)。根據(jù)本發(fā)明的第三優(yōu)選實(shí)施例,接收查詢包括執(zhí)行對照預(yù)定源實(shí)體數(shù)據(jù)總體模型的隱私核查的預(yù)處理。根據(jù)本發(fā)明的第四優(yōu)選實(shí)施例,“合并”數(shù)據(jù)項(xiàng)包括加入具有共同或相似微數(shù)據(jù)細(xì)節(jié)(舉例,具有例如別名、前綴、后綴等的變型的相似的姓名)的數(shù)據(jù)項(xiàng)。根據(jù)本發(fā)明的第五優(yōu)選實(shí)施例,從集合、提取、聚集、累計(jì)、組織和合并的子步驟的列表中選出至少一個(gè)子步驟包括模糊匹配。根據(jù)本發(fā)明的第六優(yōu)選實(shí)施例,(在源實(shí)體處理器一側(cè))過濾出的其具體細(xì)節(jié)少于微數(shù)據(jù)特定的數(shù)據(jù)項(xiàng)的預(yù)定數(shù)量的部分包括從列表、普通數(shù)目、數(shù)據(jù)倉庫中實(shí)例的百分比、 在加上和/或減去標(biāo)準(zhǔn)偏差單元的預(yù)定數(shù)目后的平均值或中位數(shù)外的數(shù)據(jù)實(shí)例量中選擇所述預(yù)定的數(shù)量。根據(jù)本發(fā)明的第七優(yōu)選實(shí)施例,接收查詢包括將查詢轉(zhuǎn)換至標(biāo)準(zhǔn)查詢——其能夠產(chǎn)生所聚集的提取信息的聯(lián)合報(bào)告。本文中,優(yōu)選的是,使用直接將查詢的各方面鏈接到報(bào)告的各方面的標(biāo)示語言——鑒于各個(gè)公司將采納該協(xié)議以生成大體上實(shí)時(shí)的“證明”是可預(yù)期的。本發(fā)明的附屬實(shí)施例涉及(參考圖6)可被機(jī)器讀取的程序存儲器裝置600,其實(shí)質(zhì)地體現(xiàn)可被機(jī)器執(zhí)行以完成用于隱私保護(hù)數(shù)據(jù)挖掘協(xié)議中“集合器”數(shù)據(jù)處理器功能的方法步驟的程序,這種方法步驟包括從一個(gè)用戶界面——接受610對照多個(gè)預(yù)定屬性的查詢和使用其構(gòu)成620參數(shù)列表,通過電子數(shù)據(jù)通信拓?fù)洹獋鬏?30參數(shù)列表至至少一個(gè)“源實(shí)體”處理器,通過所述通信拓?fù)洌瑥拿恳?“源實(shí)體”處理器接收640各自的文件,集合650多個(gè)文件至數(shù)據(jù)倉庫,采用參數(shù)列表,從數(shù)據(jù)倉庫中提取660查詢的有關(guān)數(shù)據(jù),聚集 670所提取的數(shù)據(jù),以及至用戶界面——報(bào)告680所聚集的提取的數(shù)據(jù)。本發(fā)明的其它附屬實(shí)施例涉及(參考圖7)可被機(jī)器讀取的程序存儲器裝置700, 其實(shí)質(zhì)地體現(xiàn)可被機(jī)器執(zhí)行以完成用于隱私保護(hù)數(shù)據(jù)挖掘協(xié)議中安全“源實(shí)體”數(shù)據(jù)處理器功能的方法步驟的程序,這種方法步驟包括累積710數(shù)據(jù)項(xiàng),其中一些數(shù)據(jù)項(xiàng)具有隱私敏感微數(shù)據(jù),采用多個(gè)預(yù)定屬性組織720數(shù)據(jù)項(xiàng),通過電子數(shù)據(jù)通信拓?fù)洹浴凹稀碧幚砥鹘邮?30參數(shù)列表,根據(jù)參數(shù)列表的數(shù)據(jù)項(xiàng)通過“嚼碎合并”形成740文件,過濾出 750文件的一部分,該部分具有具有細(xì)節(jié)少于微數(shù)據(jù)特有數(shù)據(jù)項(xiàng)的預(yù)定數(shù)量的特征,以及通過拓?fù)洹獋鬏?60文件至“集合”處理器。盡管有上述實(shí)施例,本發(fā)明的通用實(shí)施例(參考圖8)涉及隱私保護(hù)的數(shù)據(jù)挖掘協(xié)議800,大體上如本文之前描述和解釋的,其特征在于其首先具有至少一個(gè)相互獨(dú)立的安全的“源實(shí)體”數(shù)據(jù)處理器810并各自根據(jù)參數(shù)列表通過“嚼碎合并”數(shù)據(jù)項(xiàng)形成820文件, 然后分別過濾出830文件的一部分,該部分具有具體細(xì)節(jié)少于微數(shù)據(jù)特有數(shù)據(jù)項(xiàng)的預(yù)定數(shù)量的特征;第二,其具有安全的“集合”數(shù)據(jù)處理器850集合860多個(gè)文件至數(shù)據(jù)倉庫。此外,本協(xié)議的其它變型實(shí)施例是雙向的——意味著“源實(shí)體”和“集合”處理器之間的基礎(chǔ)關(guān)系是反轉(zhuǎn)的和/或可逆的!
因此,本發(fā)明的隱私保護(hù)的數(shù)據(jù)挖掘協(xié)議的基礎(chǔ)實(shí)施例在安全的“集合”數(shù)據(jù)處理器和至少一個(gè)安全的“源實(shí)體”數(shù)據(jù)處理器之間運(yùn)行的總結(jié)是正確的?!凹稀逼骱汀霸磳?shí)體”處理器通過電子數(shù)據(jù)通訊拓?fù)浣换ァT搮f(xié)議包括數(shù)據(jù)通信協(xié)調(diào)步驟至少一個(gè)相互獨(dú)立的安全“源實(shí)體”數(shù)據(jù)處理器分別根據(jù)所述參數(shù)列表通過“嚼碎合并”數(shù)據(jù)項(xiàng)形成文件,隨后各自過濾文件中具體細(xì)節(jié)少于微數(shù)據(jù)特有數(shù)據(jù)項(xiàng)的預(yù)定數(shù)量的部分;以及安全的“集合”數(shù)據(jù)處理器集合多個(gè)文件至數(shù)據(jù)倉庫。本發(fā)明協(xié)議的實(shí)施例可適用于許多具有保持距離型數(shù)據(jù)權(quán)利關(guān)系的領(lǐng)域,包括 (舉例)存在于醫(yī)療保健提供商、藥房、PBM或建康維護(hù)組織(HMO)和制藥公司之間的關(guān)系; 電子貿(mào)易和市場調(diào)研之間的關(guān)系;人口統(tǒng)計(jì)局和其它政府機(jī)構(gòu)之間的關(guān)系;審計(jì)員和獨(dú)立采購/服務(wù)組織之間的關(guān)系;以及其它類似的關(guān)系。本發(fā)明隱私保護(hù)數(shù)據(jù)挖掘協(xié)議的進(jìn)一步的實(shí)施是值得注意的,這些實(shí)施例是能夠?qū)崿F(xiàn)臨時(shí)數(shù)據(jù)合并的實(shí)施例。簡單地說,這些實(shí)施例允許數(shù)據(jù)項(xiàng)與普通實(shí)體有關(guān)的鏈接。舉例,一個(gè)個(gè)體曾是第一醫(yī)療保健費(fèi)用保證計(jì)劃中的正式成員、隨后成為第二醫(yī)療保健費(fèi)用保證計(jì)劃中的成員。如果數(shù)據(jù)源小心地采用普通加密的“密鑰”加密每條記錄的身份識別部分,并進(jìn)一步延伸所述數(shù)據(jù)處理路徑時(shí),將相關(guān)記錄鏈接到與普通個(gè)體而不會(huì)危及該個(gè)體的身份識別記錄成為可能。當(dāng)然,應(yīng)當(dāng)特別注意實(shí)體執(zhí)行鏈接時(shí)不能獲得密鑰和解密功能;獲知這些方面可能導(dǎo)致違反個(gè)人隱私保護(hù)。(注意美國專利號63972M考慮到采用持有第三方密鑰以尊重個(gè)人隱私的某些方面——雖然這并不利于在多個(gè)數(shù)據(jù)記錄之間實(shí)現(xiàn)匿名鏈接)?,F(xiàn)在重新參考附圖3和8 (以及對它們各自程序存儲器裝置細(xì)節(jié)上必要的修改), 我們可以理解到其存在著能促進(jìn)個(gè)人識別的加密合/或個(gè)人數(shù)據(jù)的合并的多個(gè)地方。通過非限制性地舉例,在“集合”處理器一側(cè),在這些子步驟中可實(shí)現(xiàn)加密和/或合并接收各自的文件,或集合多個(gè)文件;或在“源實(shí)體”處理器一側(cè),在這些子步驟中可實(shí)現(xiàn)加密和/或合并組織數(shù)據(jù)項(xiàng),形成文件,或?yàn)V出文件的一部分。因此,存在著至少兩種不同的情況,自數(shù)據(jù)源的數(shù)據(jù)在分析后已集合后返回,以及第二選擇數(shù)據(jù)在微級別(每一個(gè)人的數(shù)據(jù))上透露,但用于匹配群體的個(gè)人識別信息被一個(gè)唯一的加密密鑰替代,例如單向散列或高級加密標(biāo)準(zhǔn)(AES)或類似的。這種兼容的對識別微級別數(shù)據(jù)的加密保留了獲知兩條記錄屬于同一身份的能力,但也保留了該個(gè)人身份識別的隱私。每一種情況都有可行的選項(xiàng),各自具有不同的優(yōu)點(diǎn)或缺點(diǎn)。根據(jù)這種能夠?qū)崿F(xiàn)臨時(shí)數(shù)據(jù)合并的實(shí)施例的優(yōu)選變型例,在數(shù)據(jù)集合器級別上將相關(guān)的微觀數(shù)據(jù)鏈接到同一身份上能力被保留——盡管這些記錄來自兩個(gè)不同的數(shù)據(jù)源。大體上,在每一數(shù)據(jù)源上執(zhí)行姓名匹配以識別某一身份的所有記錄(例如Jane Doe)。在這種識別匹配中,結(jié)果可能是同一人的個(gè)人身份標(biāo)識符的幾個(gè)組合——例如(Jane Doe,(波士頓),建康計(jì)劃ID 1234)和(Jane Doe,(紐約,N. Y.),建康計(jì)劃ID 5678)可能會(huì)都出現(xiàn)在一個(gè)單一的數(shù)據(jù)源內(nèi)。由于姓名匹配優(yōu)選包括“模糊邏輯”,數(shù)據(jù)源中的軟件將找出兩者。當(dāng)數(shù)據(jù)源透露數(shù)據(jù)至數(shù)據(jù)集合器,個(gè)人ID將被加密——但采用與所有數(shù)據(jù)源中相同的密鑰——該密鑰優(yōu)選為不被交叉協(xié)議操作者獲知,而僅被一個(gè)例如托管代理人的可信第三方獲知?,F(xiàn)在假定第二數(shù)據(jù)源也具有針對(Jane Doe,(紐約,N. Y.),建康計(jì)劃ID 5678) 的數(shù)據(jù)。在數(shù)據(jù)集合器上,從每一數(shù)據(jù)源上接收數(shù)據(jù),并且需要知道具有Jane Doe的變化的實(shí)例與第二數(shù)據(jù)源的另一個(gè)實(shí)例是相同。解決這一問題的方法是不僅加密多個(gè)單一的 ID——因而在由第一數(shù)據(jù)源所透露的數(shù)據(jù)中——我們能獲得所有兩個(gè)密鑰和醫(yī)療保健數(shù)據(jù)(WXYZ (密鑰1),AB⑶(密鑰2),其它去識別化的醫(yī)療保健數(shù)據(jù)),并從第二數(shù)據(jù)源獲得 (WXYZ,其它去識別化的醫(yī)療保健數(shù)據(jù))。由于我們加密了能夠唯一識別個(gè)人的幾個(gè)密鑰,我們可將他們的醫(yī)療保健記錄鏈接用于更完備的分析。例如,如果某個(gè)人在某藥房履行了處方,被另一雇主雇用(因此接收了一個(gè)新的建康計(jì)劃ID),但仍使用相同的藥房,最終搬遷至另一城市;然后,采用該合并實(shí)施例,能夠分析出該個(gè)人在他的藥物治療履行處方上的服從和堅(jiān)持(該個(gè)人的重要的醫(yī)療保健論據(jù))——但該個(gè)人的身份不被分析者獲知。因此,對本領(lǐng)域普通人員來說,前述提及的能夠?qū)崿F(xiàn)臨時(shí)數(shù)據(jù)合并的實(shí)施例及類似的本質(zhì)上是對微觀數(shù)據(jù)的各種嵌入加密策略和其各自的潛在優(yōu)勢的闡述是顯而易見的——全部在本發(fā)明隱私保護(hù)的數(shù)據(jù)挖掘協(xié)議的內(nèi)容中。注意事項(xiàng)
本文在一定程度上詳細(xì)描述了本發(fā)明,但對于通曉本領(lǐng)域的技術(shù)人員來說,在不背離本發(fā)明精神和范圍下可以實(shí)施各種修正和改變是很顯而易見的,如下文中所要求的。舉例,優(yōu)選地,要求數(shù)據(jù)傳輸(或至少一個(gè)文件的傳輸)的步驟和每個(gè)各自相關(guān)的要求數(shù)據(jù)接收(或該至少一個(gè)文件的接收)的步驟可包括各自的加密和解密進(jìn)程——不論如何,在他的具體監(jiān)管環(huán)境中這種安全方面的本性和質(zhì)量都可以被系統(tǒng)管理者很好地理解。然而,通常優(yōu)選地是,包括一定程度的數(shù)據(jù)傳輸安全措施。(服從于該原則,發(fā)生在運(yùn)行本協(xié)議的處理器中的程序應(yīng)當(dāng)是安全的——或者是被證明是安全的等等。)
在有關(guān)本協(xié)議應(yīng)用的另一實(shí)施例中,可以預(yù)期到可在迄今為止嚴(yán)格區(qū)分的實(shí)體之間實(shí)現(xiàn)隱私保護(hù)的無數(shù)的例子,這些實(shí)體(“查詢關(guān)系”)——例如設(shè)法理解一個(gè)社會(huì)問題的通用特性(如記錄在無數(shù)的私人數(shù)據(jù)銀行中)而不需要個(gè)體或群體授權(quán)搜索的制藥公司和HMO (建康維護(hù)組織),市場調(diào)研和信用卡公司,政府機(jī)構(gòu)和人口統(tǒng)計(jì)局,執(zhí)法機(jī)構(gòu)。因此,可預(yù)期的是,至少兩個(gè)電子數(shù)據(jù)提供者中的至少一個(gè)從下述列表中選擇數(shù)據(jù)源實(shí)體,數(shù)據(jù)用戶實(shí)體,建康計(jì)劃,藥物制造商/經(jīng)銷商,公共建康校準(zhǔn)者/監(jiān)視者;信用卡局,市場調(diào)研組織,銀行財(cái)團(tuán),人口統(tǒng)計(jì)局,政府機(jī)構(gòu),或類似的機(jī)構(gòu)。進(jìn)一步地,涉及“參數(shù)列表”(在本協(xié)議中形成并傳輸?shù)?中至少一個(gè)預(yù)定的最低數(shù)量的群體(被姓名或ID,地址,電話號碼,生日,電子郵箱或類似的或上述的組合識別的)的內(nèi)含物——這些個(gè)體可能是人或合法的實(shí)體或機(jī)動(dòng)車或電腦或具有序列號的工業(yè)產(chǎn)品或法律注冊號碼或許可號碼或類似的實(shí)體。重新考慮前述的優(yōu)選加密的各個(gè)方面,無疑地需要強(qiáng)烈建議不管選擇的加密的常規(guī)級別,包括有“多個(gè)個(gè)人”的參數(shù)列表應(yīng)當(dāng)機(jī)油更高級別的加密。然而,在每一“查詢關(guān)系”中,存在著可應(yīng)用的不同的法律標(biāo)準(zhǔn)——例如,在美國的醫(yī)療保健中,臨時(shí)的雙方之間的結(jié)果應(yīng)當(dāng)是根據(jù)HIPAA (1996年的健康保險(xiǎn)流通與責(zé)任法案)去識別化的沒有微觀數(shù)據(jù)特有的內(nèi)容的數(shù)據(jù),或大體上等同于可證明在統(tǒng)計(jì)學(xué)上難以處理的數(shù)據(jù)。因此,在描述本發(fā)明時(shí),根據(jù)當(dāng)前被接受的數(shù)據(jù)處理原理和法律隱私模型來呈現(xiàn)本發(fā)明的具體實(shí)施例。這些原理和模型服從于量化(可計(jì)算的)和質(zhì)化(人文的)變化。通常,由于基本成分組件的表現(xiàn)的革新,或者由于這些組件之間新的轉(zhuǎn)化的構(gòu)思,或者由于對這些組件或它們的轉(zhuǎn)換的新的解釋,這些變化得以發(fā)生。因此,注意到本發(fā)明在其實(shí)施例中涉及到具體技術(shù)的現(xiàn)實(shí)化是重要的。相應(yīng)地,涉及到這些實(shí)施例的基于原理或模型的解釋, 以向本領(lǐng)域的技術(shù)人員或技術(shù)團(tuán)隊(duì)教導(dǎo)這些實(shí)施例如何可大體地在實(shí)際中實(shí)現(xiàn)為目的來呈現(xiàn)。對于這些實(shí)施例的改變或等同實(shí)施例不會(huì)被拒絕,也不會(huì)影響它們的實(shí)現(xiàn)。本發(fā)明的進(jìn)一步的實(shí)施例參照附圖9和10。在該實(shí)施例中,集合處理器不具有訪問數(shù)據(jù)用戶實(shí)體(和/或數(shù)據(jù)始發(fā)實(shí)體)或數(shù)據(jù)源實(shí)體的權(quán)限。該實(shí)施例可被認(rèn)為是“雙盲” 的,因?yàn)閿?shù)據(jù)用戶實(shí)體上的隱私敏感信息以及數(shù)據(jù)源實(shí)體上的隱私敏感信息對于集合處理器來說都是不可見的。但是,集合處理器具有通往被匹配的和去識別化的查詢結(jié)果的路徑, 因此,集合處理器可以分析這些結(jié)果并將最終分析結(jié)果發(fā)送至單個(gè)或多個(gè)數(shù)據(jù)用戶實(shí)體。 與此相反,其它實(shí)施例可被認(rèn)為是“單盲”的,因?yàn)閿?shù)據(jù)源實(shí)體上的隱私敏感信息對于集合處理器來說是不可見的,但集合處理器具有訪問數(shù)據(jù)用戶實(shí)體(和/或數(shù)據(jù)始發(fā)實(shí)體)上的信息的權(quán)限,即使這些信息具有隱私敏感性。該雙盲實(shí)施例用于數(shù)據(jù)用戶實(shí)體(和/或數(shù)據(jù)始發(fā)實(shí)體)上的信息是敏感的,以至于集合器不應(yīng)當(dāng)接觸這些信息的情形。這種情形的一個(gè)典型的示例是數(shù)據(jù)用戶實(shí)體是具有家庭有線盒頻道設(shè)定、日常帳單信息和廣告清單(例如,在哪個(gè)時(shí)間、那個(gè)頻道上播出的哪些廣告)的詳細(xì)記錄(可能是瞬間的)的有線電視公司。換句話說,有線電視公司的信息揭露了一個(gè)特定的家庭在一個(gè)特定的時(shí)間觀看了什么電視節(jié)目或其它娛樂內(nèi)容,通過這些信息可以推斷出該特定的家庭被哪些廣告影響。有線電視公司的信息是隱私敏感、并不能透露至集合器的,這是因?yàn)槠浒诵帐?、用戶住址、或其它識別標(biāo)記以及有關(guān)該家庭可能并不希望被其它人得知的節(jié)目觀看習(xí)慣的信息。確實(shí),有線電視公司可能也希望將具體家庭的觀看習(xí)慣保留為隱私,以避免該有線電視公司未能保護(hù)其客戶隱私的負(fù)面名聲。潛在地具有不能被透露至集合器的隱私敏感信息的數(shù)據(jù)用戶實(shí)體的其它示例包括信用卡公司、航空公司、汽車出租公司、出版商和在線媒體公司,以及例如藥房、醫(yī)院和管理醫(yī)療組織等醫(yī)療保健公司。當(dāng)醫(yī)療保健公司作為數(shù)據(jù)用戶實(shí)體,對保護(hù)其隱私信息甚至不能對集合器公開的需求特別嚴(yán)格,這是因?yàn)榘℉IPAA在內(nèi)的各種法律法規(guī)要求完全的隱私。數(shù)據(jù)用戶實(shí)體上的信息可能是隱私敏感的其它原因是其可能甚至不是數(shù)據(jù)用戶實(shí)體自身的信息。相反,該信息可以是該數(shù)據(jù)用戶實(shí)體從第三方處獲得,而該第三方要求該信息被保留為隱私?;蛘?,這種“源信息”可以對該數(shù)據(jù)用戶實(shí)體完全不可用,相反,其可以由與該數(shù)據(jù)用戶實(shí)體并不連接的第三方的數(shù)據(jù)始發(fā)實(shí)體提供。后一種情形將在附圖 11和12中示出,由以下情形為例說明數(shù)據(jù)用戶實(shí)體是希望特定商業(yè)問題被答復(fù)的制藥公司。制藥公司沒有通往源信息的途徑,源信息替代地由第三方提供——例如一個(gè)有線電視公司——具有可以產(chǎn)生滿足查詢條件的具體實(shí)例的列表的適當(dāng)?shù)男畔?。在這種情形下,數(shù)據(jù)用戶實(shí)體未參與程序前端的列表產(chǎn)生過程。然而,數(shù)據(jù)用戶實(shí)體當(dāng)然仍從程序后端的集合器接收分析結(jié)果,因而數(shù)據(jù)用戶實(shí)體的商業(yè)問題得以答復(fù)。同樣可以理解的是,上述討論的情形,其中數(shù)據(jù)用戶實(shí)體不具有通往任一或全部源信息的途徑,至少一些源信息替代地由第三方提供——“數(shù)據(jù)始發(fā)實(shí)體”——具有可以產(chǎn)生滿足查詢條件的具體實(shí)例的列表的適當(dāng)?shù)男畔?,也可存在于本文描述的單盲?shí)施例中。 也可以這么說,其中獨(dú)立的數(shù)據(jù)始發(fā)實(shí)體(非數(shù)據(jù)用戶實(shí)體)供應(yīng)源信息的情形可存在于源信息可與集合器共享的情況下,也可存在于源信息不可與集合器共享的情況下。
為了更好地理解本發(fā)明以及了解其如何在實(shí)踐中被實(shí)現(xiàn),本說明書接合附圖通過以非限制性示例的方式描述了包括優(yōu)選實(shí)施例在內(nèi)的本發(fā)明的具體實(shí)施例。此外,參閱附圖以及接下來的描述,可以更加全面地理解本發(fā)明及本發(fā)明的優(yōu)點(diǎn),其中相同的附圖標(biāo)記識別相同的特征,其中
附圖1和2示出本領(lǐng)域先前方法的流程示意圖; 附圖3和8示出本協(xié)議各個(gè)實(shí)施例的示意圖; 附圖4、4A和5示出本協(xié)議優(yōu)選實(shí)施例的細(xì)節(jié);
附圖6和7示出其中分別儲存有本協(xié)議的部分的程序存儲器裝置的示意圖; 附圖9和10是示出了本發(fā)明的雙盲實(shí)施例的流程示意圖,其中集合處理器不具有訪問數(shù)據(jù)用戶實(shí)體或數(shù)據(jù)源實(shí)體的信息的權(quán)限——但,集合處理器具有訪問被匹配的和去識別化的查詢結(jié)果的權(quán)限;
圖11和12是示出了本發(fā)明附加的雙盲實(shí)施例的流程示意圖,其中源信息由替代數(shù)據(jù)用戶實(shí)體的數(shù)據(jù)始發(fā)實(shí)體提供。
具體實(shí)施例方式應(yīng)當(dāng)注意僅為了簡單起見——以本領(lǐng)域普通技術(shù)人員能夠領(lǐng)會(huì)本協(xié)議的特性為目的,詳細(xì)的范例(非限制性)來自醫(yī)療保健工業(yè)。做出這個(gè)選擇的另一個(gè)原因是服從HIPAA (1996年的健康保險(xiǎn)流通與責(zé)任法案)的規(guī)定是個(gè)難以解決的問題,此問題已被充分記錄以供作為衡量本發(fā)明的效果的客觀的度量標(biāo)準(zhǔn)使用。因此,本示例涉及采用本發(fā)明所提出的協(xié)議的實(shí)施例作為保護(hù)參與者隱私的同時(shí)分析健康計(jì)劃的計(jì)算機(jī)執(zhí)行方法。(涉及醫(yī)療保健信息系統(tǒng)的具體背景信息在背景技術(shù)章節(jié)的后部分中得以介紹。)
簡單地說,此實(shí)施例是計(jì)算機(jī)執(zhí)行的用于分析健康計(jì)劃——以輔助計(jì)劃規(guī)劃師,例如來自醫(yī)藥制造商或其它建康促進(jìn)管理者的市場管理者,通過與實(shí)驗(yàn)對照組進(jìn)行比較,來評價(jià)一大組被特定建康計(jì)劃所影響的參與者的集合行為。對特定計(jì)劃的影響的評價(jià)可通過描繪出參與者集合的客觀建康事務(wù)數(shù)據(jù)(藥物、治療、診斷、實(shí)驗(yàn)等)的資料來完成,并通過與一個(gè)合理定義的對照組比較來對該建康計(jì)劃的各種效果做出結(jié)論,其間遵從現(xiàn)有的并處于發(fā)展階段的隱私標(biāo)準(zhǔn)或法律,例如HIPAA??陀^建康事務(wù)數(shù)據(jù)歸屬于例如醫(yī)療服務(wù)提供者(醫(yī)生、醫(yī)院、實(shí)驗(yàn)室等)的醫(yī)療保健機(jī)構(gòu)和建康計(jì)劃(管理醫(yī)療計(jì)劃、ΗΜΟ,ΡΡ0,保險(xiǎn)公司、醫(yī)藥福利管理者、自助雇主、州和聯(lián)邦政府醫(yī)療福利計(jì)劃等)范圍內(nèi)。這些結(jié)構(gòu)被一套隱私標(biāo)準(zhǔn)、規(guī)則和例如HIPAA的法規(guī)所指導(dǎo),因此在其包括可識別的個(gè)人建康信息的醫(yī)療保健信息的使用上存在一些限制。在使用本協(xié)議的一個(gè)實(shí)施例中(背景)制造治療多發(fā)性硬化癥的醫(yī)藥產(chǎn)品的制藥公司建立了幾個(gè)建康計(jì)劃以鼓勵(lì)該藥品的用戶持續(xù)并正確地服用藥品。這種建康計(jì)劃包括配備了護(hù)士的電話中心計(jì)劃,這些護(hù)士能夠回答進(jìn)行中的問題并在如何正確使用藥品上培訓(xùn)用戶,還包括建康管理工具和可訪問最新疾病信息的網(wǎng)站計(jì)劃。這些醫(yī)藥建康計(jì)劃被推銷至藥品的用戶,這些用戶隨后選擇加入了該計(jì)劃成為參與者。每個(gè)計(jì)劃的參與者在其它事物中允許醫(yī)藥制造商在總體上分析他們的數(shù)據(jù)。該制造商建康計(jì)劃的一些參與者屬于集合建康事務(wù)的各種醫(yī)療保健機(jī)構(gòu),建康事務(wù)由用戶在他們的進(jìn)行中的醫(yī)療保健服務(wù)和產(chǎn)品消費(fèi)中產(chǎn)生。該建康事務(wù)數(shù)據(jù)包括診斷數(shù)據(jù)、治療數(shù)據(jù)、藥物數(shù)據(jù)以及有時(shí)是例如是實(shí)驗(yàn)數(shù)據(jù)的臨床數(shù)據(jù)以及其它建康數(shù)據(jù)。本協(xié)議方法的應(yīng)用包括必要的、充足的和可選擇的操作——根據(jù)當(dāng)前非限制性示例的“現(xiàn)實(shí)”;這些操作包括在電話中心計(jì)劃和網(wǎng)站計(jì)劃中提取參與者的列表(姓名、地址和其它適用的可識別信息);提供對照組的定義。例如,消費(fèi)了制造商產(chǎn)品、但沒有參與電話中心計(jì)劃或網(wǎng)站計(jì)劃的所有用戶;然后提供需要的分析定義。例如,對該醫(yī)藥產(chǎn)品的持續(xù)使用的數(shù)學(xué)定義,或消費(fèi)的醫(yī)療保健的全部費(fèi)用,或住院治療的費(fèi)用,等。一些分析可能會(huì)相當(dāng)?shù)貜?fù)雜,采用其它程序和專利方法,例如ETG (e. g.美國專利號5835897和6370511B1); (可選的)采用任何工業(yè)級別加密方法加密該列表;將參與者的列表一起發(fā)送至在處理的時(shí)候能夠解密該列表的查詢機(jī)器(可選的)以將數(shù)據(jù)解密至存儲建康事務(wù)的一個(gè)或多個(gè)醫(yī)療保健機(jī)構(gòu)。醫(yī)療保健計(jì)劃傾向于相互排斥,這意味著如果一個(gè)成員屬于任一計(jì)劃,該成員典型地僅屬于該計(jì)劃或在同一相似時(shí)間有可能僅從一個(gè)建康計(jì)劃消費(fèi)相似服務(wù)。因此,可以使用這種算法——通過與多個(gè)建康計(jì)劃重復(fù)同一程序;然后簡單地對所有建康計(jì)劃的結(jié)果進(jìn)行求和。對每一建康計(jì)劃查詢機(jī)器允許“模糊匹配”算法以將醫(yī)藥建康計(jì)劃中的參與者和醫(yī)療保健機(jī)構(gòu)的建康事務(wù)進(jìn)行匹配;對所有匹配的用戶,查詢機(jī)器運(yùn)行分析他們的建康事務(wù)數(shù)據(jù)以確定所要求分析的結(jié)論(例如使用醫(yī)藥產(chǎn)品的持續(xù)性)。查詢機(jī)器運(yùn)行對未匹配但滿足對照組定義的所有用戶的對照組分析(例如,醫(yī)藥產(chǎn)品的用戶);將結(jié)果集合至以下組 僅參與電話中心計(jì)劃的參與者,僅參與網(wǎng)站計(jì)劃的參與者,既參與了電話中心計(jì)劃、又參與了網(wǎng)站計(jì)劃的參與者,對照組(例如,沒有參與電話中心計(jì)劃或網(wǎng)站計(jì)劃的醫(yī)藥產(chǎn)品的所有用戶)。對每一組提供以下結(jié)果組的姓名,與醫(yī)療保健機(jī)構(gòu)建康事務(wù)數(shù)據(jù)匹配的參與者的百分比,以及所有匹配成員的統(tǒng)計(jì)結(jié)果(例如平均持續(xù)率);查詢機(jī)器在保證了用戶個(gè)人隱私的情況下確定出每一計(jì)劃中參與者的數(shù)量和匹配的參與者的百分比是否超過一個(gè)級別(基于統(tǒng)計(jì)學(xué)的定義)。如果沒有,查詢機(jī)器回應(yīng)以下組名“由于隱私保護(hù)而未被分析。 請嘗試定義更大的用戶組”;查詢機(jī)器的每一建康計(jì)劃的輸出被集合起來以提供一份可與醫(yī)藥制造商共享的總輸出。
在不揭露可識別身份的個(gè)人建康信息的情況下,基于客觀建康事務(wù)數(shù)據(jù),本協(xié)議方法提供有價(jià)值的建康計(jì)劃的總體評價(jià)。當(dāng)下使用的大多數(shù)方法都是基于價(jià)值的“軟測量”,例如行為測量(登記的人、互動(dòng)的數(shù)目,等)和/或自我報(bào)告數(shù)據(jù)(參與者填寫調(diào)查獲其它關(guān)于他們行為的問卷)?;诮凳聞?wù)的客觀測量可以成為用于測量這種行為的黃金標(biāo)準(zhǔn)。大多數(shù)現(xiàn)行的醫(yī)療保健的分析服務(wù)都是基于其中病人級別建康事務(wù)被去識別化、 隨后被集合并處理的模型。無疑地通過這個(gè)過程,包含有最大量信息的高分辨率的原始數(shù)據(jù)被減少至更低分辨率的數(shù)據(jù)以保護(hù)隱私和其它可能存在利益關(guān)系的內(nèi)容。許多公司,包括 IMS Health、SDI (之前是 Verispan,Quintiles 和 McKesson 的合資企業(yè))、Pharmetrics、 Dendrite、Wolters Kluwer Health和其它公司都采用這種模型。這種現(xiàn)行的建康分析模型可提供醫(yī)師級別行為和去識別化的病人級別行為以及兩者合適的組合。然而,在這種模型在分析縱向的病人行為和在一些情況下將其匹配至已知的開藥者(例如醫(yī)師)上非常有效時(shí),其無法與僅影響市場的一個(gè)子集的用戶建康計(jì)劃建立鏈接(除非該計(jì)劃與一個(gè)限制的區(qū)域有著很好的關(guān)聯(lián)或覆蓋了一個(gè)已知的醫(yī)師群)。人們無法查詢或分析不再處于較低分辨率數(shù)據(jù)組中的參量。因此,現(xiàn)行的醫(yī)療保健模型不能提供通過參與建康計(jì)劃的用戶的預(yù)定義列表來集合一組病人行為的能力。這僅僅是被本協(xié)議所解決的現(xiàn)行醫(yī)療保健分析模型的諸多限制中的一個(gè)示例。為了本協(xié)議的上述應(yīng)用正確有效,需要訪問合并的建康事務(wù)數(shù)據(jù),該數(shù)據(jù)(A)足夠大以提供滿足地址隱私考慮的足夠級別和能夠?qū)崿F(xiàn)統(tǒng)計(jì)學(xué)分析;和(B)代表盡可能多的共同市場(區(qū)域、人口統(tǒng)計(jì)資料、人口類型和保險(xiǎn)類型)分布的近似值或允許基于先前獲知的參數(shù)的統(tǒng)計(jì)關(guān)聯(lián)。例如,如果數(shù)據(jù)源,在此為特定的建康計(jì)劃,包括適當(dāng)?shù)胤植加趪业?15M人口,而且除了該特定的建康計(jì)劃具有喜歡某一特定的醫(yī)藥產(chǎn)品的處方集,在其它每方面都具有代表性,可以基于處方集的國家范圍的分析的使用統(tǒng)計(jì)分析來“修正”這種偏愛?;仡櫫吮尘罢鹿?jié)中的醫(yī)療保健相關(guān)信息系統(tǒng)的背景因素后,大體上,本協(xié)議實(shí)施例(Crossix方法)是一種能夠基于建康事務(wù)數(shù)據(jù)分析實(shí)現(xiàn)一個(gè)或多個(gè)建康計(jì)劃的統(tǒng)計(jì)測量和多個(gè)建康計(jì)劃合并后的混合效果的方法,同時(shí)遵守了數(shù)據(jù)源實(shí)體隱私法規(guī)和數(shù)據(jù)用戶實(shí)體隱私權(quán)。相比之下,建康分析的“傳統(tǒng)”模型的一個(gè)示例需要去識別化的病人級別或醫(yī)師級別數(shù)據(jù)的集合,而此集合僅實(shí)現(xiàn)了中心分析模型(參考附圖1和2)。這種被現(xiàn)行醫(yī)療保健分析公司(例如IMS Health,Wolters Kluwer Health (之前是NDC建康)以及SDI (之前是 Verispan)使用的通常方法基于以下步驟(A)去識別化和集合——病人數(shù)據(jù)是去識別化的 (一些數(shù)據(jù)被移除或集合到一起),以及在醫(yī)師級別上代表性地報(bào)告數(shù)據(jù)。一些情況下,數(shù)據(jù)組包括縱向去識別化病人級別數(shù)據(jù)(例如Verispan和Dendrite) (B)從不同的源采集—— 從多個(gè)醫(yī)療保健機(jī)構(gòu)采集數(shù)據(jù)至數(shù)據(jù)倉庫(C)分析——制作出聯(lián)合數(shù)據(jù)報(bào)告和定制研究論文。本Crossix “方法”基于一個(gè)逆順序(A)分析——醫(yī)療保健機(jī)構(gòu)(例如建康計(jì)劃) 運(yùn)行一接收需要的分析、和集合級別以及分析需要的可識別的病人或醫(yī)師的適當(dāng)?shù)牧斜頌檩斎氲姆治鲕浖T摲治鲈谠嫉?、幾乎完整的?shù)據(jù)組上執(zhí)行;(B)去識別化和集合——一旦姓名匹配、分析完成,數(shù)據(jù)被集合,且如果需要?jiǎng)t執(zhí)行去識別化;(C)從各種源中采集——組合來自多個(gè)機(jī)構(gòu)的分析回應(yīng)以發(fā)送所要求的分析?,F(xiàn)在參見附圖9,雙盲實(shí)施例在圖中得以標(biāo)示,在不具有訪問一個(gè)或多個(gè)數(shù)據(jù)用戶實(shí)體910上的任何隱私敏感數(shù)據(jù)的權(quán)限的情況下,集合器900,對于該創(chuàng)新的系統(tǒng)通過用戶界面,制定了一個(gè)查詢。(為了清晰地圖解此過程,數(shù)據(jù)用戶實(shí)體910顯示為一個(gè)盒子,而不是將每一數(shù)據(jù)用戶實(shí)體顯示為獨(dú)立的盒子——但應(yīng)當(dāng)理解可存在一個(gè)或多個(gè)數(shù)據(jù)用戶實(shí)體。)在數(shù)據(jù)用戶實(shí)體910是有線電視公司的情況下,一個(gè)示例性的查詢可以是“在數(shù)據(jù)A 和數(shù)據(jù)B之間有可能觀看商業(yè)廣告X的家庭”。這種查詢的目的是將電視廣告收視人數(shù)和事務(wù)購買信息鏈接到一起——以了解,例如,多少觀看了特定廣告的家庭后來購買了該廣告的產(chǎn)品或服務(wù)。集合器900發(fā)送查詢至一個(gè)或多個(gè)數(shù)據(jù)用戶實(shí)體910,數(shù)據(jù)用戶實(shí)體910通過使用它們的數(shù)據(jù)產(chǎn)生滿足查詢條件的具體實(shí)例的列表處理該查詢。在示例的情況下,該列表可包含在數(shù)據(jù)A和數(shù)據(jù)B之間觀看了廣告X的具體家庭信息。多個(gè)數(shù)據(jù)用戶實(shí)體910可加密該列表,并可采用任何合適的加密方法,加密方法包括但不限于適于源實(shí)體的對稱密鑰, 公開-隱私加密密鑰,應(yīng)用于支持基于多值匹配的多個(gè)識別域的組合和其它類似組合的單向散列密鑰,或可選地選擇不加密列表。數(shù)據(jù)用戶實(shí)體910隨后發(fā)送它們加密的或未加密的列表直接至一個(gè)或多個(gè)數(shù)據(jù)源實(shí)體920,用于匹配事務(wù)數(shù)據(jù),例如購買數(shù)據(jù)。(為了清晰地圖解此過程,數(shù)據(jù)源實(shí)體910顯示為一個(gè)盒子,而不是將每一數(shù)據(jù)源實(shí)體顯示為獨(dú)立的盒子——但應(yīng)當(dāng)理解可存在一個(gè)或多個(gè)數(shù)據(jù)源實(shí)體。)可選的,數(shù)據(jù)用戶實(shí)體910可以通過集合器900發(fā)送它們加密的列表,這種情況下集合器900轉(zhuǎn)送該列表至數(shù)據(jù)源實(shí)體920。在該后一種情況中,由于集合器900不具有能解密信息的解密密鑰,列表上的信息被保護(hù)為機(jī)密。
采用類似于在單盲實(shí)施例中描述的匹配邏輯完成匹配,而不需要數(shù)據(jù)源實(shí)體920 提供通往特定數(shù)據(jù)用戶實(shí)體的隱私敏感信息的路徑。換句話說,數(shù)據(jù)源實(shí)體可在從多個(gè)數(shù)據(jù)用戶實(shí)體910接收的加密數(shù)據(jù)上執(zhí)行匹配(在附圖5示例的數(shù)據(jù)合并模塊使用解密密鑰的情況下),或在從數(shù)據(jù)用戶實(shí)體910接收的未加密數(shù)據(jù)上執(zhí)行匹配(在附圖5示例的數(shù)據(jù)合并模塊不需使用解密密鑰的情況下)。匹配后,采用類似于早先在單盲實(shí)施例中描述的方法和系統(tǒng)將匹配的個(gè)人數(shù)據(jù) (結(jié)果)去識別化,并回送至集合器900。集合器900合并來自數(shù)據(jù)源實(shí)體920的結(jié)果至一份合并的最終分析結(jié)果,采用類似于早先在單盲實(shí)施例中描述的方法和系統(tǒng),并將該最終分析結(jié)果發(fā)送至一個(gè)或多個(gè)數(shù)據(jù)用戶實(shí)體910。附圖10示出了另一雙盲實(shí)施例,其中代替產(chǎn)生查詢的集合器900,由數(shù)據(jù)用戶實(shí)體910產(chǎn)生查詢,并采用其隱私敏感信息制定出滿足查詢條件的具體實(shí)例(例如家庭)的列表。如在附圖9實(shí)施例中所描述的,數(shù)據(jù)用戶實(shí)體910在將其直接送至數(shù)據(jù)源實(shí)體920之前可以多種方式加密列表,或者可不加密地將列表送至多個(gè)數(shù)據(jù)源實(shí)體920??蛇x地,數(shù)據(jù)用戶實(shí)體910可通過集合器900發(fā)送其加密的列表,這種情況下集合器900將列表轉(zhuǎn)發(fā)至數(shù)據(jù)源實(shí)體920。因此,在該實(shí)施例中,集合器900并不參與在過程的前端產(chǎn)生列表,但仍能將來自數(shù)據(jù)源實(shí)體920的結(jié)果結(jié)合至一個(gè)合并的最終分析結(jié)果并將該結(jié)果提供至數(shù)據(jù)用戶實(shí)體910。附圖11示出類似于附圖9的另一雙盲實(shí)施例,不同的是一個(gè)獨(dú)立的數(shù)據(jù)始發(fā)實(shí)體930提供源信息,因而集合器900將查詢發(fā)送至數(shù)據(jù)始發(fā)實(shí)體930而不是發(fā)送至數(shù)據(jù)用戶實(shí)體910。數(shù)據(jù)始發(fā)實(shí)體930采用其信息生成滿足查詢條件的具體實(shí)例的列表,可選地使用包括本文先前描述的任何合適的加密方法加密列表,并將列表發(fā)送至數(shù)據(jù)源實(shí)體920,或者直接或者通過集合器900。(如附圖9所示,全部數(shù)據(jù)始發(fā)實(shí)體930顯示為一個(gè)盒子,而不是將每一數(shù)據(jù)始發(fā)實(shí)體顯示為獨(dú)立的盒子。)和附圖9實(shí)施例相一致的本實(shí)施例的其它方面包括——例如,在過程的末端,數(shù)據(jù)用戶實(shí)體910仍從集合器900接收最終分析結(jié)果。附圖12示出類似于附圖10的另一雙盲實(shí)施例,不同的是代替數(shù)據(jù)用戶實(shí)體910 由一個(gè)獨(dú)立的數(shù)據(jù)始發(fā)實(shí)體930提供源信息。數(shù)據(jù)始發(fā)實(shí)體930也制定查詢,使用其信息以生成滿足查詢條件的具體實(shí)例的列表,可選地加密列表,并將列表發(fā)送至數(shù)據(jù)源實(shí)體920, 或者直接或者通過集合器900。(如附圖10所示,數(shù)據(jù)始發(fā)實(shí)體930顯示為一個(gè)盒子,而不是將每一數(shù)據(jù)始發(fā)實(shí)體顯示為獨(dú)立的盒子。)和附圖10實(shí)施例相一致的本實(shí)施例的其它方面包括——例如,在過程的末端,數(shù)據(jù)用戶實(shí)體910仍從集合器900接收最終分析結(jié)果。最后的注意事項(xiàng)首先,應(yīng)當(dāng)領(lǐng)會(huì)到本發(fā)明的實(shí)施例作為一個(gè)整體涉及所述協(xié)議, 并單獨(dú)涉及在“集合”處理器和“源實(shí)體”處理器上運(yùn)行的各自方面;本發(fā)明還涉及允許在兩方處理器上執(zhí)行協(xié)議描述的步驟的電腦可讀軟件的具體配置,以及涉及其中具有任何編碼的所述軟件的存儲媒介;其中該存儲媒介包括物理媒介——例如磁或光盤,只讀內(nèi)存或類似的,和虛擬媒介——例如可下載執(zhí)行代碼數(shù)據(jù)傳導(dǎo)或類似的。最后,雖然通過包括有實(shí)施本發(fā)明的優(yōu)選模型的具體實(shí)施例描述了本發(fā)明,但本領(lǐng)域技術(shù)人員可以領(lǐng)會(huì)在落入權(quán)利要求書陳述的本發(fā)明的精神和范圍內(nèi)可對上述所描述的系統(tǒng)和技術(shù)實(shí)施多種變形和置換。
權(quán)利要求
1.一種挖掘隱私敏感數(shù)據(jù)的方法,其特征在于包括以下步驟a)用至少一個(gè)條件制定一項(xiàng)查詢,b)對照所述查詢中的至少一個(gè)條件比較隱私敏感數(shù)據(jù)始集,并在所述隱私敏感數(shù)據(jù)始集中生成滿足所述至少一個(gè)條件的的具體實(shí)例的列表,c)通過一個(gè)電子數(shù)據(jù)通信拓?fù)?,將所述列表傳輸至具有隱私敏感事務(wù)數(shù)據(jù)的至少一個(gè)數(shù)據(jù)源實(shí)體,d)由所述至少一個(gè)數(shù)據(jù)源實(shí)體,用所述隱私敏感事務(wù)數(shù)據(jù)中相應(yīng)的項(xiàng)目匹配所述列表上的具體實(shí)例,e)由上述至少一個(gè)數(shù)據(jù)源實(shí)體,對匹配的具體實(shí)例和所述隱私敏感事務(wù)數(shù)據(jù)中的相應(yīng)項(xiàng)目去除身份識別,f)由所述至少一個(gè)數(shù)據(jù)源實(shí)體,將包含上述去除身份識別的、匹配的具體實(shí)例和所述隱私敏感事務(wù)數(shù)據(jù)中相應(yīng)的項(xiàng)目的至少一份文件電子地傳輸至集合器,g)由所述集合器,將至少一份文件合并至一份響應(yīng)上述查詢的綜合結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于該方法還包括由所述集合器將所述綜合結(jié)果電子傳輸至具有所述隱私敏感數(shù)據(jù)始集的至少一個(gè)數(shù)據(jù)用戶實(shí)體的步驟。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于由所述集合器執(zhí)行制定所述查詢的步驟, 以及由具有所述隱私敏感數(shù)據(jù)始集的至少一個(gè)數(shù)據(jù)用戶實(shí)體執(zhí)行生成所述列表的步驟,所述數(shù)據(jù)用戶實(shí)體從所述集合器接收所述查詢。
4.根據(jù)權(quán)利要求3的方法,其特征在于其中由所述至少一個(gè)數(shù)據(jù)用戶實(shí)體將所述列表直接地傳輸至所述至少一個(gè)數(shù)據(jù)源實(shí)體。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于由所述至少一個(gè)數(shù)據(jù)用戶實(shí)體將所述列表傳輸至所述集合器,所述集合器將所述列表轉(zhuǎn)送至所述至少一個(gè)數(shù)據(jù)源實(shí)體。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于由具有所述隱私敏感數(shù)據(jù)始集的至少一個(gè)數(shù)據(jù)用戶實(shí)體執(zhí)行制定所述查詢和生成所述列表的步驟。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于由所述至少一個(gè)數(shù)據(jù)用戶實(shí)體將所述列表直接地傳輸至所述至少一個(gè)數(shù)據(jù)源實(shí)體。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于由所述至少一個(gè)數(shù)據(jù)用戶實(shí)體將所述列表傳輸至所述集合器,所述集合器將所述列表轉(zhuǎn)送至所述至少一個(gè)數(shù)據(jù)源實(shí)體。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于由所述集合器執(zhí)行制定所述查詢的步驟, 由具有所述隱私敏感數(shù)據(jù)始集的至少一個(gè)數(shù)據(jù)始發(fā)實(shí)體執(zhí)行生成上述列表的步驟,所述數(shù)據(jù)始發(fā)實(shí)體從所述集合器接收所述查詢。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于由所述至少一個(gè)數(shù)據(jù)始發(fā)實(shí)體將所述列表直接地傳輸至所述至少一個(gè)數(shù)據(jù)源實(shí)體。
11.根據(jù)權(quán)利要求9所述的方法,其特征在于由所述至少一個(gè)數(shù)據(jù)始發(fā)實(shí)體將所述列表傳輸至所述集合器,以及所述集合器將所述列表轉(zhuǎn)送至所述至少一個(gè)數(shù)據(jù)源實(shí)體。
12.根據(jù)權(quán)利要求1所述的方法,其特征在于由具有所述隱私敏感數(shù)據(jù)始集的至少一個(gè)數(shù)據(jù)始發(fā)實(shí)體執(zhí)行制定所述查詢和生成所述列表的步驟。
13.根據(jù)權(quán)利要求12所述的方法,其特征在于由所述至少一個(gè)數(shù)據(jù)始發(fā)實(shí)體將所述列表直接地傳輸至所述至少一個(gè)數(shù)據(jù)源實(shí)體。
14.根據(jù)權(quán)利要求12所述的方法,其特征在于由所述至少一個(gè)數(shù)據(jù)始發(fā)實(shí)體將所述列表傳輸至所述集合器,所述集合器將所述列表轉(zhuǎn)送至所述至少一個(gè)數(shù)據(jù)源實(shí)體。
15.根據(jù)權(quán)利要求1所述的方法,其特征在于所述列表在被發(fā)送至所述至少一個(gè)數(shù)據(jù)源實(shí)體之前被加密。
16.根據(jù)權(quán)利要求1所述的方法,其特征在于所述列表包括足夠大數(shù)量的披露身份的細(xì)節(jié)。
17.根據(jù)權(quán)利要求1所述的方法,其特征在于其中合并至少一份文件的步驟包括過濾至少一份其具體項(xiàng)目少于隱私敏感事務(wù)數(shù)據(jù)中預(yù)訂項(xiàng)目數(shù)的文件部分。
18.根據(jù)權(quán)利要求1所述的方法,其特征在于其中制定一項(xiàng)查詢的步驟a包括執(zhí)行對照預(yù)定的源實(shí)體數(shù)據(jù)全體模型的隱私核查預(yù)處理。
19.根據(jù)權(quán)利要求1所述的方法,其特征在于其中所述比較、生成、匹配、去除識別和合并的步驟b、d、e和g中的至少一個(gè)步驟包含模糊匹配。
20.根據(jù)權(quán)利要求1所述的方法,其特征在于其中制定一項(xiàng)查詢的步驟a包括將該查詢轉(zhuǎn)換至一項(xiàng)標(biāo)準(zhǔn)化查詢,以能產(chǎn)生響應(yīng)該查詢的綜合結(jié)果的一份聯(lián)合報(bào)告。
全文摘要
本發(fā)明公開了一種雙盲隱私安全的分布式數(shù)據(jù)挖掘協(xié)議,介于集合器、具有隱私敏感信息的數(shù)據(jù)用戶實(shí)體、和具有隱私敏感信息的數(shù)據(jù)源實(shí)體之間。其中所述集合器不具有訪問數(shù)據(jù)用戶實(shí)體或數(shù)據(jù)源多個(gè)實(shí)體的隱私敏感信息的權(quán)限。所述集合器制定一項(xiàng)查詢后將查詢發(fā)送至數(shù)據(jù)用戶實(shí)體,其中不涉及隱私敏感信息。所述數(shù)據(jù)用戶實(shí)體生成滿足查詢條件的具體實(shí)例的列表,并直接地或通過集合器加密并發(fā)送列表至多個(gè)數(shù)據(jù)源實(shí)體。所述多個(gè)數(shù)據(jù)源實(shí)體對照事務(wù)數(shù)據(jù)匹配列表,去識別化匹配的結(jié)果,并將它們發(fā)送至集合器。所述集合器合并來自多個(gè)數(shù)據(jù)源實(shí)體的結(jié)果并將合并的結(jié)果發(fā)送至數(shù)據(jù)用戶實(shí)體。在數(shù)據(jù)用戶實(shí)體和多個(gè)數(shù)據(jù)源實(shí)體具有對集合器不可見和不可使用的隱私敏感信息的情況下,實(shí)現(xiàn)了隱私安全的數(shù)據(jù)挖掘。
文檔編號G06F17/00GK102301376SQ200980155226
公開日2011年12月28日 申請日期2009年12月21日 優(yōu)先權(quán)日2008年12月23日
發(fā)明者阿薩夫·埃文海姆 申請人:克洛西克斯解決方案公司