專利名稱:用于塊密鑰選擇的系統(tǒng)及方法
技術領域:
本發(fā)明涉及記錄鏈接,并且更具體地涉及一種用于找到用于記錄,連接問題 的塊密鑰的系統(tǒng)及方法。
技術背景記錄鏈接是識別表示相同實體的數(shù)據(jù)庫中的多個錄入項的處理。^3131比 較記錄對并判定每一對是否對應于相同實體來實現(xiàn)。在真實世界的數(shù)據(jù)庫中, 比輸界有可能的記錄對是過于昂貴的,例如針對有2百萬個記錄的M庫的2 萬億次比較。為了使該問題在計算上更易處理,數(shù)據(jù)庫被分為稱為f吏用"塊密 鑰"的"塊"的更小的M庫,使得可能表示相同實體的大多數(shù)記錄對將在相 同塊中。塊密鑰被選擇作為記錄中的字符位置集。M導致檢測副本的比較的次數(shù) 和不導致檢測副本的比較的次數(shù)來測定i央密鑰的質(zhì)量。通常,由領域?qū)<医柚?于累積的領域知識M擇塊密鑰。分塊是在記錄鏈接中用于減少對比較的次數(shù)的機制。數(shù)據(jù)庫(記錄集)按 照塊密鑰值被分成更小的塊。代替可以由數(shù)據(jù)庫中的記錄形成的^可能對的 比較,將需要比較記錄屬于相同塊的那些對。i央密鑰是 頁先定義的位置集。好的i央密鑰增加重復記錄位于相同塊中的可 能性。用于選擇±央密鑰的現(xiàn)有的方法包括基于直覺和統(tǒng)計分析的手動選擇。由 于可能的i央密鑰集比較大,所以這些方法比較漫、復雜并且昂貴。這些方法不 保證找到好的塊密鑰。因此,存iW用于自動選擇塊密鑰的系統(tǒng)和方法的需要。發(fā)明內(nèi)容根據(jù)本公開內(nèi)容的實施例,用于確定塊密鑰的方法包括從可由數(shù)據(jù)庫的
多個記錄形成的對空間中隨機;bte擇多個記錄對,給該多個記錄對評分,以及 將該多個記錄對中的每個記錄對的分數(shù)與闞值相比較以確定每個記錄對的標 記。該方法進一步包括逐個字符比較該多個記錄對中的每個記錄對的每個字 段,其中該比較的結(jié)果是輸入二進制向量矩陣中的二進制向量,以及基于該二 進制向量矩陣確定塊密鑰。所選擇的記錄對構成該 庫的多個記錄的大約1/1000。具有皿閾值的分數(shù)的記錄對被給予第一標記并且具剤氐于閾值的分數(shù)的 記錄對被纟^第二標記,其中該閾值是該數(shù)據(jù)庫的字段子集的組合的數(shù)值表達式。該分數(shù)是實況(groundtruth)的代替。對齡字段進行逐個字符比較并且該二進制向量具有長度,其中該長度是 字段長度的總和。二進制向量矩陣包括對應于每個字段之內(nèi)的位置的行,并且 每一行對應于記錄對的比較。根據(jù)本公開內(nèi)容的實施例,提供一種機器可讀的程序存儲裝置,該程序存 儲裝置確實地包含可由該機器執(zhí)行的指令程序,該指令程序用于執(zhí)行用于確定 塊密鑰的方法步驟。該方法包括從可由數(shù)據(jù)庫的多個記錄形成的對空間中隨 IHite擇多個記錄對,給該多個記錄對評分,以及將該多個記錄對中的每個記 錄對的分數(shù)與閾值相比較以確定每個記錄對的標記,還包括逐個字符比較該多 個記錄對中的每個記錄對的每個字段,其中該比較的結(jié)果是輸入二進制向量矩 陣中的二進制向量,以及基于該二進制向慰巨陣確定i央密鑰。根據(jù)本公開內(nèi)容的實施例,記錄,連接方法包括從數(shù)據(jù)庫的記錄對組合的子 集中自動地確定至少一個i央密鑰,禾,自動地確定的塊密鑰對記錄對組合進行 過濾,給利用塊密鑰所過濾出的多個記錄對評分,以及報告所過濾出的具有所 希望的分數(shù)的記錄對。
下面將參考附圖更詳細i也描述本發(fā)明的,實施例圖1是根據(jù)本公開內(nèi)容的實施例的記錄鏈接方法的流程圖;圖2是根據(jù)本公開內(nèi)容的實施例的自動±央密鑰選擇方法的流程圖; 圖3是根據(jù)本公開內(nèi)容的實施例的機器學習方法的流程圖; 圖4是根據(jù)本公開內(nèi)容的實施例的邏輯電路設計方法的流程圖; 圖5是根據(jù)本公開內(nèi)容的實施例的最優(yōu)化方法的流程圖6是根據(jù)本公開內(nèi)容的實施例的系統(tǒng)的圖示。
具體實施方式
根據(jù)本公開內(nèi)容的實施例,記錄鏈接方^^括提供記錄對(例如,2xl012對)組合IOI。自動確定的至少一個i央密鑰將記錄對組合過濾102為記錄對(例 如,109個記錄對)子集103。給該記就子集評分104。報告評分高于閾值的 記錄對105。在記錄鏈接之前確定i央密鑰106。雖然該例子建議從2xl(P個記;^t減少到109個記錄對,但可以設置不同 的初始組合大小。減少率(例如大約1/1000)是所期待的。假設的初始2xl012 個記錄對相應于有大約2百萬個記錄的繊庫。記錄對子集的大小取決于鵬 速度(例如,計^m性能)和被允許用于記錄鏈^ft務的時限(例如8小時、 l天、3天)。根據(jù)本公開內(nèi)容的實施例,塊密鑰選擇(參見圖2)可以根據(jù)給定的評分 方法被自動tt/最優(yōu)化。因此,評分方法和i央密鑰選擇是相關的。根據(jù)本公開內(nèi)容的實施例,參考圖2,用于選擇i央密鑰的方法包括從對空 間(例如,所提供的對空間;圖1, 101)中隨t/Utki^擇多個(n個)沐其中 該對空間可以由數(shù)據(jù)庫201的多個記錄(N)形成。數(shù)量n是通過確保估計是 可靠的公式來確定的,例如初始組合的5%。利用評分方法給n個對評分并且 根據(jù)閾值來標記(例如,匹ffi/不匹配)202。評分方法給多個(例如,"n"個)從初始組合中隨mii擇的記,評分。評分方法產(chǎn)生數(shù)據(jù)組合。被評分的每對記錄產(chǎn)生表示相應位置上的匹配狀態(tài)(例 如匹配或不匹配)的布爾向量、和分數(shù)或標記?;谠揗組合,各種最優(yōu)化 技術(例如機器學習、布爾最優(yōu)化、線掛整數(shù)規(guī)劃)可以被用來導出i央密鑰。具有) 1閾值的分數(shù)的那些對被標記為1。具剤氐于閾值的分數(shù)的那些對 被標記為0。該閾值可以例如是字段子集的組合,該字段被確定為匹配。例如, 在多個字段上比較兩個記錄,并且兩個記錄的相似性被評估為一組規(guī)則的應用 和與針字段相關的相應權重的函數(shù),從而導致例如在0和100之間的相似性 分數(shù)的分配。如果該分數(shù)大于閾值,例如65,那么i亥對被認為是匹配的,例如, 被標記為l。由評分方法給出的分數(shù)被理解為實況(重,不重復)的代替。針對樣本 中的每一對記錄(Rl、 R2),對每一個字段進行逐個字符比較203,例如比較 名稱字段對中的每一個字符。結(jié)果是長度為m的二進制向量V,其中m為字 段長度的總和。如果記錄Rl的第k個字符不同于記錄R2的第k個字符,則 值V[khO。如果記錄Rl的第k個字符與記錄R2的第k個字符相同,則V[k;H。 可以從左側(cè)^/人右側(cè)指定位置。對于標記204來說,結(jié)果是大小為nx (m+l) 的0/1矩陣M,其中行的數(shù)量是樣本大小n,而列的M是標準化記錄的長度 加一。給定矩陣M,塊密鑰育,被確定205。矩陣M的行對應于字段位置; 每一fiM過以逐個字符為基礎比較相應字段位置從對中獲得。所確定的塊密鑰在記錄鏈接方法中被實現(xiàn)(例如參見圖1)??梢酝ㄟ^例 如機器學習方法、邏輯電路設計方法、或最優(yōu)化方法來確定i央密鑰。所確定的 塊密鑰可以被手動地修改。參考圖3,機器學習方法可以包摘每數(shù)據(jù)點的數(shù)量確定為樣本的大小(n) 301。 ^數(shù)據(jù)點具有m個,制特征,其中m是標準化向量的長度,302。 旨數(shù)據(jù)點的標記被確定為由評分方法給出的分類(例如0/1) 303。假陰性的 值與假陽性的值的比率是大的304。確定分類的顯形式,其中分類的自變量是 塊密鑰305。應當注意,其他機器學習方法可以被執(zhí)fiS例如最大似然方法。機器學習是最優(yōu)化的特殊情況。例如,根據(jù)最優(yōu)化觀點,確定長度為"k" 的理想的塊密鑰。"理想的"可被定義為通過密鑰被正確分塊的對的最大數(shù)量。 對于具有標記1的對來說,該密鑰為真,或者對于具有標記0的對來說,該密 鑰為假。參考圖4,邏輯電路設計包括確定指定邏輯(布爾)函數(shù)的矩陣M,該邏 輯函數(shù)采用對應于矩陣的最先的m列的m個自M, 401。在矩陣M的最后 的列中給出函數(shù)值,402。簡化布爾函數(shù)403,所得到的函數(shù)是析取范式(DNF) 形式的邏輯表達式E, 404。 ^hi央密鑰對應于E的項,405。對于邏輯電路設計來說,布爾矩陣M可以被看作為布爾函數(shù)。尋找DNF 形式的最簡單的等價布爾函數(shù)。該函數(shù)給出塊密鑰集。參考圖5,最優(yōu)化方法包括確定先前所確定的分^器的精度量度501。精 度量頗應于i央密鑰的質(zhì)量。禾擁統(tǒng)^/混合M規(guī)劃在可能的選擇的空間上明 確地使i央密鑰的質(zhì)量最4尤化502。應理解的是,根據(jù)本公開內(nèi)容的實施例的i央密鑰選擇方法可以以各種形式 的硬件、軟件、固件、專用處理機、或其組合來實現(xiàn)。在一個實施例中,塊密 頁鑰選擇方法可以以作為程序存^^置上確實包含的應用禾M^的軟件來實現(xiàn)。該應用程序可以被上載到包括任何適當結(jié)構的機器上并且由該包括任何適當結(jié)構 的機器來執(zhí)行。參考圖6,根據(jù)本公開內(nèi)容的實施例,用于執(zhí)行i央密鑰選擇方法的計算機 系統(tǒng)601可以尤其包括中央處理單元(CPU) 602、存儲器603和輸A/輸出(I/O) 接口 604。計算機系統(tǒng)601通常Mil I/O接口 604耦合到顯示器605和例如鼠 標和鍵盤的各種輸A^g 606。配套電路可以包括例如高速緩沖存儲器、電源、 時鐘電路、和通信總線的電路。存儲器603可以包括隨機存取存儲器(RAM)、 只讀存儲器(ROM)、磁盤驅(qū)動器、磁帶驅(qū)動器等等或其組合。塊密鑰選擇方 法可以被實現(xiàn)為存儲在存儲器603中并且由CPU602執(zhí)行以處理來自信號源608 的信號的程序607。同樣地,計算機系統(tǒng)601是通用計算機系統(tǒng),當執(zhí)行本公 開內(nèi)容的禾將607時,該通用計^m系統(tǒng)^i專用計^m系統(tǒng)。計算機平臺601還包括操作系統(tǒng)和微指令代碼。這里所描述的各種處理和 函數(shù)可以為通過操作系統(tǒng)所執(zhí)行的微指令代碼的一部分或應用程序的一部分 (或其組合)。另外,各種其他外圍設備可以被連接到諸如附加數(shù)據(jù)存儲裝置 和打印裝置的計算》幾平臺上。應進一步理解的是,由于附圖中所描繪的構成系統(tǒng)元件和方法步驟中的一 些可以以軟件來實現(xiàn),所以系統(tǒng)元件(或處理步驟)之間的實際連接可以根據(jù) 對本發(fā)明進行編程的方式而不同。給定這里所提供的本公開內(nèi)容的教導,相關 領域的普通技術人員將育,設想本發(fā)明的這些和相似的實施方案或配置。雖然已經(jīng)描述了用于確定用于記錄鏈接問題的i央密鑰的系統(tǒng)和方法的實施 例,但應當注意,本領域的技術人員可以根據(jù)上述教導進行修改和改變。因此 應理解的是,在所公開的本發(fā)明具體實施例中可以進行在如由所附權利要求所 定義的范圍和精神內(nèi)的改變。因此已經(jīng)描述了具有專利法所要求的細節(jié)和特征 的本發(fā)明,在所附的權利要求中闡述了所要求的和希望得到專利特許證保護的 內(nèi)容。
權利要求
1. 一種用于確定塊密鑰的方法,包括從可由數(shù)據(jù)庫的多個記錄形成的對空間中隨機地選擇多個記錄對;給該多個記錄對評分;將該多個記錄對中的每個記錄對的分數(shù)與閾值相比較,以確定每個記錄對的標記;逐個字符比較該多個記錄對中的每個記錄對的每個字段,其中該比較的結(jié)果是輸入二進制向量矩陣中的二進制向量;以及基于該二進制向量矩陣確定塊密鑰。
2. 根據(jù)權利要求1的方法,其中所選擇的記錄對構j^; 述數(shù)據(jù)庫的多個記錄的大約1/1000。
3. 根據(jù)權利要求1的方法,其中具有超過閾值的分數(shù)的記錄對被給予第 一標記并且具剤氐于閾值的分數(shù)的記錄對被給予第二標記,其中該閾值是所述數(shù)據(jù)庫的字段子集的組合的數(shù)值表達式。
4. 根據(jù)權利要求3的方法,其中所述分數(shù)是實況的代替。
5. 根據(jù)權利要求1的方法,其中對每個字段進行逐個字符比較并且所述 二進制向量具有長度,其中該長度是字段長度的總和。
6. 根據(jù)權禾腰求1的方法,其中所述二進制向量矩陣包括對應于齡字 段之內(nèi)的位置的行,并且每一行對應于記錄對的比較。
7. —種機器可讀的程序存儲裝置,該程序存儲裝置確實地包含可由機器 執(zhí)行的指令程序,該指令程序用于執(zhí)行用于確定塊密鑰的方法步驟,該方法步 驟包括從可由數(shù)據(jù)庫的多個記錄形成的對空間中隨機it^擇多個記錄沐 給該多個記錄對評分;將該多個記就中的每個記錄對的分數(shù)與閾值相比較,以確定WS己錄對 的標記;逐個字符比較該多個記錄對中的針記錄對的針字段,其中該比較的結(jié) 果是輸入二進制向慰巨陣中的制向量;以及 基于該二進制向慰巨陣確定塊密鑰。
8. 根據(jù)權利要求7的方法,其中所選擇的記錄對構成述數(shù)據(jù)庫的多個 記錄的大約1/1000。
9. 根據(jù)權利要求7的方法,其中具有超過閾值的分數(shù)的記錄對被給予第 一標記并且具有低于閾值的分數(shù)的記錄對被給予第二標記,其中該閾值是所述 數(shù)據(jù)庫的字段子集的組合的數(shù)值表達式。
10. 根據(jù)權利要求9的方法,其中所述分數(shù)是實況的代替。
11. 根據(jù)權利要求7的方法,其中對每個字段進行逐個字符比較并_并且所述述 二進制向量具有長度,其中該長度是字段長度的總和。
12. 根據(jù)權利要求7的方法,其中所述二進律晌魏陣包括對應于針字 段之內(nèi)的位置的行,并且每一行對應于記就的比較。
13. —種記錄鏈接方法,包括從數(shù)據(jù)庫的記錄對組合的子集中自動地確定至少一個i央密鑰; 禾,自動地確定的士央密鑰對記錄對組合進行過濾; 給利用塊密鑰所過濾出的多個記錄對評分;以及 報告具有所希望的分數(shù)的所過濾出的記錄對。
14. 根據(jù)權利要求13的方法,其中自動地確定至少一個i央密鑰包括從數(shù) 據(jù)庫的記錄對組合中隨機地選擇多個記錄對。
15. 根據(jù)權利要求14的方法,進一步包括給隨機選擇的多個記錄對評分。
16. 根據(jù)禾又利要求15的方法,進一步包括將隨豐m擇的多個記,中的 每個記錄對的分數(shù)與閾值相比較以確定*記錄對的標記。
17. 根據(jù)權利要求16的方法,進一步包括逐個字符比較隨豐腿擇的多個 記錄對中的每個記錄對的每個字段,其中該比較的結(jié)果是輸入二進制向量矩陣 中的二進制向量。
18. 根據(jù)權利要求17的方法,進一步包括基于該二進制向量矩陣確定塊密鑰。
19. 根據(jù)權禾腰求18的方法,其中根據(jù)機器學習方法、邏輯電路方法和 現(xiàn)有塊密鑰的最優(yōu)化中的一個來進行確定。
全文摘要
用于確定塊密鑰的方法包括從可由數(shù)據(jù)庫的多個記錄形成的對空間中隨機地選擇多個記錄對,給該多個記錄對評分,以及將該多個記錄對中的每個記錄對的分數(shù)與閾值相比較以確定每個記錄對的標記。該方法進一步包括逐個字符比較該多個記錄對中的每個記錄對的每個字段,其中該比較的結(jié)果是輸入二進制向量矩陣中的二進制向量,以及基于該二進制向量矩陣確定塊密鑰。
文檔編號G06F17/30GK101401095SQ200580006828
公開日2009年4月1日 申請日期2005年3月3日 優(yōu)先權日2004年3月5日
發(fā)明者P·H·蔣, R·B·勞, S·桑迪爾亞, W·A·蘭迪 申請人:美國西門子醫(yī)療解決公司