專利名稱:用于組織數(shù)據(jù)的系統(tǒng)與方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)庫(kù)系統(tǒng),并且,更具體地,涉及一種用于在數(shù)據(jù)庫(kù)系統(tǒng)中組織和/或查找數(shù)據(jù)的系統(tǒng)與方法。
計(jì)算機(jī)化數(shù)據(jù)庫(kù)系統(tǒng)已經(jīng)被使用了很長(zhǎng)時(shí)間,并且其基本概念已經(jīng)廣為人知。在C.J.DATE,INTRODUCTION TO DATABASESYSTEMS(Addison Wesley,第6版,1994)中可以找到對(duì)數(shù)據(jù)庫(kù)系統(tǒng)很好的介紹。
通常,數(shù)據(jù)庫(kù)系統(tǒng)被設(shè)計(jì)為以數(shù)據(jù)庫(kù)中的數(shù)據(jù)有用的方式組織、儲(chǔ)存并檢索數(shù)據(jù)。例如,數(shù)據(jù)或數(shù)據(jù)的分區(qū)集合可以被搜索、排序、組織和/或與其他數(shù)據(jù)組合。在很大程度上,一個(gè)特定數(shù)據(jù)庫(kù)系統(tǒng)的有用性取決于在該數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)的完整性(即準(zhǔn)確性和/或正確性)。數(shù)據(jù)完整性受到所儲(chǔ)存數(shù)據(jù)的“混亂”程度的影響。混亂可能會(huì)以錯(cuò)誤或不完全的數(shù)據(jù)的形式出現(xiàn),如重復(fù)的數(shù)據(jù)、破碎的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)等。在許多數(shù)據(jù)庫(kù)系統(tǒng)中,有時(shí)現(xiàn)有的數(shù)據(jù)可能會(huì)被編輯并處理,結(jié)果就可能會(huì)引發(fā)額外的錯(cuò)誤。在某些數(shù)據(jù)庫(kù)系統(tǒng)中,新數(shù)據(jù)可能被引入。此外,由于數(shù)據(jù)庫(kù)系統(tǒng)被升級(jí)到新的硬件和/或軟件,可能需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換,或者必不可少的附加字段。而在某些應(yīng)用中,數(shù)據(jù)庫(kù)中的數(shù)據(jù)可能只是過時(shí)了。
不管采用什么樣的預(yù)防步驟,某種程度的混亂最終還是被引入了傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)中。這種混亂程度隨著時(shí)間以指數(shù)增長(zhǎng),直到最后在一個(gè)傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)變得完全無(wú)用了。作為結(jié)果,即使一個(gè)很小程度的混亂最終也會(huì)影響數(shù)據(jù)庫(kù)系統(tǒng)的完整性。
不幸的是,在大型數(shù)據(jù)庫(kù)系統(tǒng)中,在數(shù)據(jù)中識(shí)別并糾正混亂經(jīng)常是困難的任務(wù),即便不是不可能的任務(wù)。傳統(tǒng)上,這樣的任務(wù)是人工完成的,從而使得這些任務(wù)變得消耗時(shí)間、昂貴并且受到人為錯(cuò)誤的影響。進(jìn)而,由于該任務(wù)的這種性質(zhì),大量的混亂可能未被檢測(cè)出來(lái)。所需要的是一種用于在一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中組織數(shù)據(jù)系統(tǒng)和方法,來(lái)克服這些及其他關(guān)聯(lián)的問題。
本發(fā)明提供了一種用于在一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中組織數(shù)據(jù)的系統(tǒng)與方法。本發(fā)明從由一個(gè)或多個(gè)原始數(shù)據(jù)源提取出的原始數(shù)據(jù)中導(dǎo)出一個(gè)準(zhǔn)確數(shù)據(jù)的提取(distilled)數(shù)據(jù)庫(kù)。原始數(shù)據(jù)被從其原始格式轉(zhuǎn)換為數(shù)據(jù)格式。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,原始數(shù)據(jù)表現(xiàn)為一個(gè)具有數(shù)字元素的向量。一旦原始數(shù)據(jù)被數(shù)字化地表現(xiàn)出來(lái),就可以在這些向量上實(shí)施各種數(shù)學(xué)運(yùn)算,如關(guān)聯(lián)函數(shù)、模式識(shí)別方法或者其他類似的數(shù)字方法,以確定在一個(gè)特定向量中的內(nèi)容如何與一個(gè)“提取”的或者參考數(shù)據(jù)庫(kù)中的其他向量相對(duì)應(yīng)。該提取數(shù)據(jù)庫(kù)由一個(gè)或多個(gè)相關(guān)向量的集合構(gòu)成,他們被認(rèn)為針對(duì)其他集合是唯一的(如垂直的)。這些集合代表來(lái)自原始數(shù)據(jù)的最佳可用信息。在所有原始數(shù)據(jù)都被合并到提取數(shù)據(jù)庫(kù)中去之后,新數(shù)據(jù)可以被屏蔽,以確保新的錯(cuò)誤不被引入到提取數(shù)據(jù)庫(kù)中去。新數(shù)據(jù)也可以被評(píng)估,以確定它是否是唯一的或者它是否包括比已經(jīng)出現(xiàn)在提取數(shù)據(jù)庫(kù)中的信息更好的信息。新數(shù)據(jù)從而被加入到提取數(shù)據(jù)庫(kù)中。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,根據(jù)一個(gè)帶有適當(dāng)基數(shù)的數(shù)碼系統(tǒng)將原始數(shù)據(jù)轉(zhuǎn)換為數(shù)字格式。一個(gè)適當(dāng)?shù)幕鶖?shù)是根據(jù)在原始數(shù)據(jù)中所包含的信息類型來(lái)確定的。例如,對(duì)于通常由字母-數(shù)字字符組成的原始數(shù)據(jù),一個(gè)適當(dāng)?shù)幕鶖?shù)可以是大于或等于原始數(shù)據(jù)中出現(xiàn)的不同字母-數(shù)字字符的數(shù)目。使用這樣一個(gè)數(shù)碼系統(tǒng)可以使原始數(shù)據(jù)被以數(shù)字形式表現(xiàn),允許通過各種廣為人知的數(shù)學(xué)運(yùn)算來(lái)進(jìn)行操作。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,該數(shù)碼系統(tǒng)可以被選擇,以便數(shù)字本身對(duì)于其所代表的原始數(shù)據(jù)保持語(yǔ)義上的意義。換句話說(shuō),在數(shù)碼系統(tǒng)中的數(shù)字被選擇,以使它們與原始數(shù)據(jù)相對(duì)應(yīng)。例如,當(dāng)原始數(shù)據(jù)由字母數(shù)字字符組成時(shí),數(shù)字被選擇,以與其所代表的字母數(shù)字字符相對(duì)應(yīng)。當(dāng)數(shù)碼系統(tǒng)中的數(shù)字被隨后顯示時(shí),它們表現(xiàn)為所代表的字母數(shù)字字符。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,一旦原始數(shù)據(jù)在一個(gè)適當(dāng)?shù)臄?shù)碼系統(tǒng)中被以向量表示,則被表示的數(shù)據(jù)可以被有效地在數(shù)據(jù)庫(kù)中使用各種已知的技術(shù)進(jìn)行操作(如排序等)。進(jìn)而,可以對(duì)向量進(jìn)行各種已知的數(shù)學(xué)運(yùn)算來(lái)分析數(shù)據(jù)內(nèi)容。這些數(shù)學(xué)運(yùn)算可以包括關(guān)聯(lián)函數(shù)、特征向量分析、模式識(shí)別方法以及其他顯而易見的方法。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,原始數(shù)據(jù)被合并到一個(gè)提取數(shù)據(jù)庫(kù)中。該提取數(shù)據(jù)庫(kù)代表從原始數(shù)據(jù)中提取的最佳數(shù)據(jù),沒有任何數(shù)據(jù)混亂。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,新數(shù)據(jù)可以與該提取數(shù)據(jù)庫(kù)進(jìn)行比較,以確定該新數(shù)據(jù)是否實(shí)際上包括任何尚未出現(xiàn)在提取數(shù)據(jù)庫(kù)中的新信息或內(nèi)容。任何尚未出現(xiàn)在提取數(shù)據(jù)庫(kù)中的新信息被加入提取數(shù)據(jù)庫(kù)中而不會(huì)增加任何混亂。以這種方式,提取數(shù)據(jù)庫(kù)的完整性可以得到保持。
依據(jù)本發(fā)明,一種用于處理信息的方法包括以下步驟根據(jù)包含在信息中的一個(gè)數(shù)據(jù)元素的可能值的一個(gè)范圍來(lái)選擇一個(gè)適當(dāng)?shù)臄?shù)碼系統(tǒng),用在一個(gè)數(shù)碼系統(tǒng)中的一個(gè)數(shù)字來(lái)表示所述數(shù)據(jù)元素;以及對(duì)該數(shù)碼系統(tǒng)所代表的所述數(shù)據(jù)元素進(jìn)行運(yùn)算,以處理該信息。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,選擇一個(gè)適當(dāng)數(shù)碼系統(tǒng)的步驟包括選擇一個(gè)數(shù)碼系統(tǒng)的步驟,該數(shù)碼系統(tǒng)帶有一個(gè)基數(shù),該基數(shù)至少等于并且近似相同于字母數(shù)字字符“0”-“9”和“A”-“Z”的序列。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,選擇一個(gè)適當(dāng)?shù)臄?shù)碼系統(tǒng)的步驟包括選擇一個(gè)帶有一個(gè)基數(shù)的數(shù)碼系統(tǒng)的步驟,該基數(shù)大于一個(gè)字母數(shù)字字符“0”-“9”和“ A”-“Z”的序列。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,選擇一個(gè)適當(dāng)?shù)臄?shù)碼系統(tǒng)的步驟包括選擇一個(gè)帶有一個(gè)基數(shù)的數(shù)碼系統(tǒng)的步驟,該基數(shù)至少等于一個(gè)字母數(shù)字字符“0”-“9”、“A”-“Z”和“a”-“z”的序列。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,選擇一個(gè)適當(dāng)?shù)臄?shù)碼系統(tǒng)的步驟包括選擇一個(gè)基數(shù)40數(shù)碼系統(tǒng)的步驟。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,該信息包括財(cái)務(wù)信息、科學(xué)信息、工業(yè)信息或者化學(xué)信息。
權(quán)利要求16的方法,其中分配數(shù)字的步驟還包括將數(shù)碼系統(tǒng)中的數(shù)位A-Z分別分配給字母數(shù)字字符“a”-“z”。
依據(jù)本發(fā)明的一個(gè)實(shí)施例,所述比較所述向量與一個(gè)提取矩陣的步驟包括進(jìn)行一個(gè)特征向量分析,或者進(jìn)行一個(gè)模式識(shí)別分析,或者確定在所述向量與所述提取矩陣中的一個(gè)向量之間的點(diǎn)積,或者確定在所述向量與所述提取矩陣中的一個(gè)向量之間的叉積,或者確定所述向量與所述提取矩陣中的一個(gè)向量之間的差,或者確定所述向量與所述提取矩陣中的一個(gè)向量的和, 或者確定所述提取矩陣的一個(gè)決定因子(determinant),或者確定所述向量的一個(gè)量值(數(shù)值),或者確定所述向量的一個(gè)方向。
總的來(lái)說(shuō),本發(fā)明的特征就如在獨(dú)立權(quán)利要求中所陳述的那樣,而附屬權(quán)利要求則包括了本發(fā)明的優(yōu)選實(shí)施例。
參考下面的附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行了描述。在圖中,相同的參考號(hào)碼表示同樣的或者功能上相同的元素。另外,一個(gè)參考號(hào)碼最左邊的數(shù)位標(biāo)志著第一次出現(xiàn)該參考號(hào)碼的圖號(hào)。
圖1描繪了一個(gè)處理系統(tǒng),在其中可以實(shí)施本發(fā)明。
圖2描繪了由本發(fā)明的一個(gè)實(shí)施例處理數(shù)據(jù)的階段。
圖3是一個(gè)流程圖,用于依據(jù)本發(fā)明的一個(gè)實(shí)施例將原始數(shù)據(jù)從其原始格式轉(zhuǎn)換為一個(gè)數(shù)字格式。
圖4描繪了一個(gè)適于與本發(fā)明一起使用的數(shù)據(jù)記錄。
圖5描繪了適于與本發(fā)明一起使用的原始數(shù)據(jù)表。
圖6描繪了參考數(shù)據(jù)表,它表示依據(jù)本發(fā)明的一個(gè)實(shí)施例格式化的數(shù)據(jù)。
圖7是一個(gè)流程圖,用于依據(jù)本發(fā)明的一個(gè)實(shí)施例來(lái)分析參考數(shù)據(jù)。
圖8描繪了提取數(shù)據(jù)表,它表示依據(jù)本發(fā)明的一個(gè)實(shí)施例被關(guān)聯(lián)的相關(guān)數(shù)據(jù)。
圖9描繪了一個(gè)集群在一個(gè)二維空間中的數(shù)據(jù)示例。
圖10是一個(gè)流程圖,用于在一對(duì)字段向量中標(biāo)識(shí)重復(fù)數(shù)據(jù)。
圖11是一個(gè)流程圖,用于更詳細(xì)地在一對(duì)字段向量中標(biāo)識(shí)重復(fù)數(shù)據(jù)。
圖12描繪了在一對(duì)字段向量中標(biāo)識(shí)重復(fù)數(shù)據(jù)的一個(gè)示例。
本發(fā)明針對(duì)一種用于在一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中組織數(shù)據(jù)的系統(tǒng)與方法。下面將針對(duì)不同的示例性實(shí)施例來(lái)對(duì)本發(fā)明進(jìn)行描述,特別是針對(duì)不同的數(shù)據(jù)庫(kù)應(yīng)用。然而,顯而易見地,本發(fā)明的不同特性可以被擴(kuò)展到其他領(lǐng)域。通常,本發(fā)明可以被應(yīng)用于許多數(shù)據(jù)庫(kù)應(yīng)用中,其中有大量可能不相關(guān)的數(shù)據(jù)必須被編譯、儲(chǔ)存、操作、和/或分析,以便確定存在于該數(shù)據(jù)所代表的內(nèi)容中的不同關(guān)系。更具體地,本發(fā)明提供了一種方法,用于實(shí)現(xiàn)并維護(hù)一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)完整性,即使在該數(shù)據(jù)開始就具有一種較高的混亂程度的情況下。正如這里所使用的,混亂是指重復(fù)的、錯(cuò)誤的、不完全的、不正確的、虛假的或者非正確的或多余的數(shù)據(jù)。混亂可以以許多顯而易見的方式出現(xiàn)在數(shù)據(jù)庫(kù)系統(tǒng)中。
本發(fā)明的一個(gè)實(shí)施例被用于維護(hù)一個(gè)與應(yīng)收賬款相聯(lián)系的數(shù)據(jù)庫(kù)。在這個(gè)實(shí)施例中,一個(gè)公司可以從一個(gè)或多個(gè)來(lái)源收集關(guān)于不同個(gè)人、企業(yè)和/或賬戶的數(shù)據(jù)。這些來(lái)源可以包括,例如,信用卡公司、金融機(jī)構(gòu)、銀行、零售商和批發(fā)公司以及此類來(lái)源。當(dāng)這些來(lái)源中的每一個(gè)都可以提供多種賬戶的數(shù)據(jù)時(shí),每個(gè)來(lái)源可以根據(jù)其自身需要提供代表不同信息的數(shù)據(jù)。進(jìn)而,可以以完全不同的方式來(lái)組織這種數(shù)據(jù)。例如,一個(gè)批發(fā)分銷商可能具有對(duì)應(yīng)于與公司賬戶相應(yīng)的應(yīng)收款的數(shù)據(jù)。這種數(shù)據(jù)可以按賬號(hào)來(lái)組織,每個(gè)數(shù)據(jù)記錄具有標(biāo)識(shí)一個(gè)賬號(hào)、一個(gè)與該賬號(hào)關(guān)聯(lián)的公司、一個(gè)該公司的地址和該賬戶所欠數(shù)額的數(shù)據(jù)字段。一個(gè)零售公司可以具有代表類似信息的數(shù)據(jù)記錄,但它是基于與個(gè)人以及公司相應(yīng)的賬戶的。
在本發(fā)明的其他實(shí)施例中,其他類型的來(lái)源可以提供不同的數(shù)據(jù)類型。例如,科研機(jī)構(gòu)可以提供針對(duì)不同研究領(lǐng)域的科學(xué)數(shù)據(jù)。工業(yè)公司可以提供針對(duì)原始材料、制造、生產(chǎn)和/或供應(yīng)的工業(yè)數(shù)據(jù)。法院或其他類型的法律機(jī)構(gòu)可以提供針對(duì)法律狀態(tài)、判決、破產(chǎn)和/或扣押物的法律數(shù)據(jù)。顯而易見地,本發(fā)明可以使用來(lái)自多種來(lái)自的數(shù)據(jù)。
在本發(fā)明的另一個(gè)實(shí)施例中,一個(gè)數(shù)據(jù)庫(kù)可以被維護(hù),以實(shí)現(xiàn)一個(gè)綜合計(jì)賬與訂單控制系統(tǒng)。除了來(lái)自與上述來(lái)源相似的來(lái)源的信息之外,本實(shí)施例可以包括與庫(kù)存相應(yīng)的數(shù)據(jù)記錄、與庫(kù)存供應(yīng)商相應(yīng)的數(shù)據(jù)記錄、以及與庫(kù)存采購(gòu)者相應(yīng)的數(shù)據(jù)記錄。庫(kù)存數(shù)據(jù)可以按部件號(hào)碼來(lái)組織,每個(gè)數(shù)據(jù)記錄具有標(biāo)識(shí)內(nèi)部部件號(hào)碼、外部部件號(hào)碼(即供應(yīng)商部件號(hào)碼)、手頭的數(shù)量、期望發(fā)出的數(shù)量、期望接收的數(shù)量、批發(fā)價(jià)及零售價(jià)的多個(gè)數(shù)據(jù)字段。供應(yīng)商數(shù)據(jù)可以按一個(gè)供應(yīng)商號(hào)碼來(lái)組織;而客戶數(shù)據(jù)可以按一個(gè)客戶號(hào)碼來(lái)組織。與這些記錄中的每一個(gè)相應(yīng)的數(shù)據(jù)記錄可以包括標(biāo)識(shí)部件號(hào)碼、部件價(jià)格、訂購(gòu)數(shù)量、發(fā)貨數(shù)據(jù)及其他此類信息的多個(gè)數(shù)據(jù)字段。
本發(fā)明的另一個(gè)實(shí)施例可以包括一個(gè)企業(yè)存儲(chǔ)系統(tǒng),該系統(tǒng)將公司信息從多個(gè)不同的來(lái)源統(tǒng)一在一起,并且使該信息在公司網(wǎng)絡(luò)上對(duì)用戶可用,不論數(shù)據(jù)類型、生成數(shù)據(jù)的計(jì)算機(jī)類型、或者請(qǐng)求數(shù)據(jù)的計(jì)算機(jī)類型。本發(fā)明的又一個(gè)實(shí)施例包括一個(gè)商業(yè)情報(bào)系統(tǒng),它儲(chǔ)存及推銷信息,并且允許該信息被在線處理及分析。
本發(fā)明使從不同來(lái)源收集的原始數(shù)據(jù)可以被分析并提取為一個(gè)準(zhǔn)確數(shù)據(jù)集合、以對(duì)一個(gè)特定應(yīng)用有用的方式對(duì)其進(jìn)行組織。使用上例的一個(gè)綜合計(jì)賬與訂單控制系統(tǒng),下面會(huì)對(duì)其進(jìn)行更全面的解釋,本發(fā)明可以產(chǎn)生一個(gè)提取數(shù)據(jù)庫(kù),其中相關(guān)數(shù)據(jù)如與一個(gè)特定供應(yīng)商或者客戶相關(guān)的數(shù)據(jù)可以被如此標(biāo)識(shí)。在這個(gè)例子中,與相同供應(yīng)商或客戶相應(yīng)的重復(fù)數(shù)據(jù)可以被識(shí)別出來(lái)和/或丟棄,而與供應(yīng)商或者客戶相關(guān)聯(lián)的錯(cuò)誤數(shù)據(jù)可以被識(shí)別、分析并可能被糾正。
總的來(lái)說(shuō),本發(fā)明可以實(shí)施在硬件或軟件中,或者兩者的組合中。理想地,本發(fā)明被實(shí)施為一種軟件程序,它在一個(gè)可編程處理系統(tǒng)中執(zhí)行,該處理系統(tǒng)包括一個(gè)處理器、一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)以及輸入輸出設(shè)備。在圖1中描繪了這樣一個(gè)系統(tǒng)100的示例。系統(tǒng)100可以包括一個(gè)處理器110、一個(gè)存儲(chǔ)器120、一個(gè)存儲(chǔ)設(shè)備130、以及一個(gè)I/O控制器140,它們通過一個(gè)處理器總線150彼此相連。I/O控制器140還通過一個(gè)I/O總線160與不同的輸入與輸出設(shè)備相連,例如鍵盤170、鼠標(biāo)180和顯示器190。顯然,其他組件可以包括在系統(tǒng)100中。
圖2描繪了本發(fā)明處理數(shù)據(jù)的不同形式。原始數(shù)據(jù)210可以從一個(gè)或多個(gè)來(lái)源收集,如原始數(shù)據(jù)210A與原始數(shù)據(jù)210B。如這里所使用的,“原始數(shù)據(jù)”只是代表實(shí)際上從一個(gè)特定來(lái)源接收的數(shù)據(jù)。顯然,原始數(shù)據(jù)210的附加來(lái)源可以被包括在其中。如下面解釋的那樣,來(lái)自不同來(lái)源的原始數(shù)據(jù)210最好被轉(zhuǎn)換為一種數(shù)字格式并儲(chǔ)存在一個(gè)參考數(shù)據(jù)庫(kù)220中。使用這里稱為“數(shù)據(jù)透析”的一種處理,本發(fā)明“凈化”原始數(shù)據(jù)210來(lái)形成參考數(shù)據(jù)庫(kù)220中的參考數(shù)據(jù)。參考數(shù)據(jù)庫(kù)220包括在原始數(shù)據(jù)210中存在的所有信息,包括重復(fù)的、不完全的、不一致的及錯(cuò)誤的數(shù)據(jù)。
儲(chǔ)存在一個(gè)提取數(shù)據(jù)庫(kù)230中的提取數(shù)據(jù)是從參考數(shù)據(jù)庫(kù)220的參考數(shù)據(jù)導(dǎo)出的。提取數(shù)據(jù)代表原始數(shù)據(jù)210可用的“準(zhǔn)確”數(shù)據(jù)。提取數(shù)據(jù)庫(kù)230包括在原始數(shù)據(jù)210中存在的唯一信息。提取數(shù)據(jù)因而代表了原始數(shù)據(jù)210可用的最佳信息。
仍然如下面所解釋的那樣,本發(fā)明還為使用提取數(shù)據(jù)庫(kù)230來(lái)分析并驗(yàn)證新數(shù)據(jù)240作了準(zhǔn)備,這也可以被用于在適當(dāng)?shù)臅r(shí)候更新參考數(shù)據(jù)庫(kù)220和提取數(shù)據(jù)庫(kù)230。
雖然本發(fā)明有大量的實(shí)施例,為了闡明其描述,在一個(gè)綜合計(jì)賬與訂單控制系統(tǒng)的環(huán)境中,參考圖3-8解釋一個(gè)優(yōu)選實(shí)施例。在該實(shí)施例中,原始數(shù)據(jù)210是收集自不同來(lái)源的一個(gè)數(shù)據(jù)集合,如訂單處理、發(fā)貨、接收、應(yīng)付款與應(yīng)收款等。這種原始數(shù)據(jù)210可以包括相關(guān)但具有不同數(shù)據(jù)字段的數(shù)據(jù)記錄、重復(fù)數(shù)據(jù)記錄、具有一個(gè)或多個(gè)錯(cuò)誤數(shù)據(jù)字段的數(shù)據(jù)記錄等。為了找出這種錯(cuò)誤,本發(fā)明將原始數(shù)據(jù)210從其初始格式與數(shù)據(jù)結(jié)構(gòu)(這可能根據(jù)來(lái)源而有所不同)轉(zhuǎn)換為一個(gè)數(shù)字格式并將這個(gè)參考數(shù)據(jù)儲(chǔ)存在參考數(shù)據(jù)庫(kù)220中。
依據(jù)本發(fā)明,參考數(shù)據(jù)隨后被比較并分析,以提取出可用的最佳信息。在本發(fā)明的一個(gè)實(shí)施例中,該最佳信息可以被儲(chǔ)存為在提取數(shù)據(jù)庫(kù)230中的提取數(shù)據(jù)?,F(xiàn)在開始描述該過程。
收集原始數(shù)據(jù)圖3描繪了依據(jù)本發(fā)明的一個(gè)實(shí)施例,原始數(shù)據(jù)210被轉(zhuǎn)換為參考數(shù)據(jù)庫(kù)220中的參考數(shù)據(jù)的過程。在步驟310,原始數(shù)據(jù)210是從一個(gè)原始數(shù)據(jù)源收集的。如圖2中所繪,原始數(shù)據(jù)210可以包括來(lái)自一個(gè)或多個(gè)來(lái)源的數(shù)據(jù),如原始數(shù)據(jù)210A與原始210B。如這里所使用的那樣,“數(shù)據(jù)”是指信息物理上的數(shù)字表現(xiàn),而數(shù)據(jù)“內(nèi)容”是指其意義,其中所包含或者由該數(shù)據(jù)所代表的信息。在原始數(shù)據(jù)210中的不同記錄可以包括相似類型的數(shù)據(jù)內(nèi)容。例如,在計(jì)賬環(huán)境中,原始數(shù)據(jù)210中的不同記錄可以全都包括與一個(gè)特定賬戶相關(guān)的數(shù)據(jù)內(nèi)容。
原始數(shù)據(jù)210將典型地被以數(shù)據(jù)記錄400的形式接收,如圖4所繪。每個(gè)數(shù)據(jù)記錄400一般包括相關(guān)信息,如對(duì)于一個(gè)特定個(gè)人、公司或者賬戶的信息。每個(gè)數(shù)據(jù)記錄400在一個(gè)或多個(gè)數(shù)據(jù)字段410中儲(chǔ)存這種信息??赡艿臄?shù)據(jù)字段410的示例包括,例如,一個(gè)賬號(hào)、姓、名、公司名稱、賬戶余額等。然后每個(gè)數(shù)據(jù)字段410可以包括一個(gè)或多個(gè)數(shù)據(jù)元素420,它們用于代表關(guān)于該特定記錄與特定字段的信息。數(shù)據(jù)元素420可以以不同格式存在,例如字母數(shù)字、數(shù)字、ASCII(美國(guó)信息交換標(biāo)準(zhǔn)碼)以及EBCDIC(擴(kuò)充二-十進(jìn)制交換碼),或者其他表現(xiàn)形式也是顯而易見的。從不同來(lái)源收集的原始數(shù)據(jù)210可以被有差別地格式化。數(shù)據(jù)記錄400可以包括不同數(shù)據(jù)字段410,而包含在數(shù)據(jù)字段410中的信息可以使用數(shù)據(jù)元素420以不同格式來(lái)表示,這也是顯而易見的。
在圖5的原始數(shù)據(jù)表510、520和530中對(duì)原始數(shù)據(jù)210的示例進(jìn)行的說(shuō)明。數(shù)據(jù)記錄,如數(shù)據(jù)記錄510-1與數(shù)據(jù)記錄510-2被描繪為原始數(shù)據(jù)表510、520和530的行,而數(shù)據(jù)字段510-A、與數(shù)據(jù)字段510-B被描繪為原始數(shù)據(jù)表510、520和530的列。數(shù)據(jù)字段或者數(shù)據(jù)記錄都能夠被認(rèn)為是普通數(shù)學(xué)向量或者張量,并因面可以被操作。圖5中所描繪的表是可能存在于本發(fā)明不同實(shí)施例中的數(shù)據(jù)的示例。在另一個(gè)實(shí)施例中,數(shù)據(jù)可以來(lái)自許多來(lái)源并且可以被格式化為具有更大數(shù)目的數(shù)據(jù)記錄和/或數(shù)據(jù)字段的數(shù)據(jù)庫(kù),這是顯而易見的。
轉(zhuǎn)換為數(shù)字格式參考圖3,在步驟320中,本發(fā)明將原始數(shù)據(jù)210從其初始表現(xiàn)形式(可能是數(shù)字字母、數(shù)字、ASCII、EBCDIC或者其他類似格式)轉(zhuǎn)換為一種數(shù)字表現(xiàn)形式。這保證了參考數(shù)據(jù)是以相同的方式被表現(xiàn)的。于是,參考數(shù)據(jù),包括不同來(lái)源的數(shù)據(jù)在內(nèi),可以被同樣地進(jìn)行處理。
依據(jù)本發(fā)明,原始數(shù)據(jù)210被從其初始表現(xiàn)形式轉(zhuǎn)換為一種適當(dāng)?shù)臄?shù)字表現(xiàn)形式。一種適當(dāng)?shù)臄?shù)字表現(xiàn)形式使用一個(gè)數(shù)碼系統(tǒng),其中數(shù)據(jù)元素420的每個(gè)可能值可以用該數(shù)碼系統(tǒng)中的一個(gè)唯一數(shù)字或值來(lái)表示。換句話說(shuō),選擇一個(gè)用于該數(shù)碼系統(tǒng)的基數(shù),以使該基數(shù)至少與對(duì)于一個(gè)特定數(shù)據(jù)元素的可能值的數(shù)目一樣大。例如,在一個(gè)用于檢測(cè)核酸中的腺嘌呤(A)、鳥嘌呤(G)、胞核嘧啶(C)與胸腺嘧啶(T)的核苷酸序列的生物技術(shù)應(yīng)用中,每個(gè)數(shù)據(jù)元素可以是僅有的四種值中的一種A、G、C與T。在這樣一種應(yīng)用中,關(guān)于該數(shù)碼系統(tǒng)的基數(shù)為4,就足以用一個(gè)唯一數(shù)字來(lái)代表每個(gè)數(shù)據(jù)元素。一個(gè)這樣的數(shù)碼系統(tǒng)可以包括數(shù)碼A、G、C與T。在本發(fā)明的某些實(shí)施例中,可以期望使用一個(gè)基數(shù),它至少比數(shù)據(jù)元素420的不同可能值數(shù)目大1,以便提供一個(gè)空字段的數(shù)碼。在這種情況下,例如數(shù)碼系統(tǒng)可以包括數(shù)碼A、G、C、T與^,其中^是空字段值。
依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,原始數(shù)據(jù)210中的數(shù)據(jù)元素420由字符組成,例如字母數(shù)字字符。在該優(yōu)選實(shí)施例中,選擇基數(shù)40來(lái)代表字母數(shù)字字符,如下表所示。
(注意需要一個(gè)最小為36的基數(shù)。)這個(gè)基數(shù)被選定來(lái)容納10個(gè)數(shù)字字符“0”-“9”和26個(gè)字母字符“A”-“Z”,以及允許若干附加字符。在本實(shí)施例中,不區(qū)分大小寫字母。
如表1所示,基數(shù)40數(shù)碼系統(tǒng)包括數(shù)碼0-9,接著是A-Z,再接著是4個(gè)附加數(shù)碼。這些數(shù)碼中的一個(gè)被用于表示一個(gè)空字段。這個(gè)數(shù)碼被用于表示為空或者沒有值(與0值不同)的數(shù)據(jù)字段410。其他數(shù)碼可以被使用,例如,用來(lái)表示其他信息類型,如空格;或者被用作控制信息。
表1基數(shù)40格式中原始數(shù)據(jù)210的表現(xiàn)形式具有許多好處。一個(gè)好處是原始數(shù)據(jù)210可以用一種數(shù)字方式來(lái)表示,有助于直接進(jìn)行數(shù)學(xué)操作。另一個(gè)好處是正確地選擇基數(shù)與數(shù)碼系統(tǒng)中的數(shù)字可以使所代表的內(nèi)容保持語(yǔ)義意義,有助于以其數(shù)字格式的表現(xiàn)形式來(lái)識(shí)別原始數(shù)據(jù)210的內(nèi)容。例如,4個(gè)字母字符“J”“O”“H”“N”來(lái)表示的單詞“JOHN”可以在不同數(shù)碼系統(tǒng)中被表示。一個(gè)這樣的數(shù)碼系統(tǒng)是一個(gè)基數(shù)40數(shù)碼系統(tǒng)。使用表1,以一個(gè)基數(shù)40數(shù)碼系統(tǒng)來(lái)表示字母數(shù)字字符“JOHN”可以得到“四十進(jìn)制”值’JOHN’, 它等同于十進(jìn)制值1,255,103(19*403+24*402+17*401+23*400,其中基數(shù)40的’J’等于十進(jìn)制的19等)。注意,基數(shù)10數(shù)碼丟失了來(lái)自原始數(shù)據(jù)210的語(yǔ)義意義,而基數(shù)40數(shù)碼保留了語(yǔ)義意義,如數(shù)碼’JOHN’可被識(shí)別為內(nèi)容“JOHN”。語(yǔ)義意義提供了一種數(shù)字表現(xiàn)形式的好處,而同時(shí)保持了傳達(dá)語(yǔ)義內(nèi)容的能力。
在本發(fā)明的某些實(shí)施例中,一個(gè)基數(shù)及其相應(yīng)數(shù)碼系統(tǒng)的選擇可以取決于處理器110所使用的位數(shù)。處理器110使用的位數(shù)以及為數(shù)碼系統(tǒng)選定的基數(shù)規(guī)定了能夠被處理器110中的一個(gè)數(shù)據(jù)字所表示的數(shù)碼字符。這種關(guān)系由下列等式?jīng)Q定N=B*ln(2)/ln(R)其中N是處理器110的一個(gè)數(shù)據(jù)字所表示的全部字符的數(shù)目,B是每個(gè)數(shù)據(jù)字的位數(shù),而R是所選的基數(shù)。這種關(guān)系限制了可以裝入一個(gè)數(shù)據(jù)字中的原始數(shù)據(jù)210的數(shù)據(jù)元素420的數(shù)目。例如,在一臺(tái)32位機(jī)器中,可以裝入一個(gè)使用基數(shù)40數(shù)碼系統(tǒng)的數(shù)據(jù)字中的最大字符數(shù)目為6(32*ln(2)/ln(40)=6.013)。可以裝入一個(gè)使用基數(shù)41數(shù)碼系統(tǒng)的數(shù)據(jù)字中的最大字符數(shù)目只有5(32*ln(2)/ln(41)=5.973)。于是,在本發(fā)明的某些實(shí)施例中,除了具有一個(gè)大到足夠保持語(yǔ)義的基數(shù)之外,該基數(shù)還可以被選擇,以使單個(gè)數(shù)據(jù)字所表示的字符數(shù)目最大化,和/或有助于根據(jù)各種不同的處理器的優(yōu)點(diǎn)或特別設(shè)計(jì)進(jìn)行快速數(shù)學(xué)運(yùn)算。在原始數(shù)據(jù)由字母數(shù)字字符組成的實(shí)施例中,一個(gè)適當(dāng)?shù)幕鶖?shù)可以從36到40。這個(gè)范圍保持了語(yǔ)義意義并使32位數(shù)據(jù)字所表示的字符數(shù)目最大化。在本發(fā)明的其他實(shí)施例中,其他類型的原始數(shù)據(jù)和其他大小的數(shù)據(jù)字可以規(guī)定其他適當(dāng)?shù)幕鶖?shù)范圍。
本發(fā)明上述的實(shí)施例并不區(qū)分大小寫字符。然而,本發(fā)明的其他實(shí)施例可以區(qū)分這些類型的字符。因此,為了區(qū)分這些字符,顯然一種基數(shù)64的表示法(“0”-“9”,“A”-“Z”,“a”-“z”,以及兩個(gè)其他值)是合適的。
在每個(gè)數(shù)據(jù)字段410中的數(shù)據(jù)元素420還規(guī)定在處理器110中表示的數(shù)碼所需的精度。如上所述,對(duì)于在一個(gè)32位機(jī)器中的單精度運(yùn)算來(lái)說(shuō),每個(gè)數(shù)據(jù)字段410寬度可以只有6個(gè)字符或者數(shù)據(jù)元素420。在本發(fā)明的某些實(shí)施例中,這可能是不夠的。在這些實(shí)施例中,可能需要兩倍、三倍或者甚至是四倍精度來(lái)將整個(gè)數(shù)據(jù)字段410表示為一個(gè)單一值。雙倍精度數(shù)碼對(duì)于最高12個(gè)字符的數(shù)據(jù)字段410是足夠的;三倍精度數(shù)碼對(duì)于最高18個(gè)字符是足夠的;而四倍精度數(shù)碼對(duì)于最高24個(gè)字符是足夠的。
本發(fā)明的替換實(shí)施例可以通過將一個(gè)大型數(shù)據(jù)字段斷開為一個(gè)或多個(gè)更小的數(shù)據(jù)字段來(lái)容納大型數(shù)據(jù)字段。大型數(shù)據(jù)字段可以在自然邊界被切斷,如由空格定義的邊界。例如,一個(gè)表示“ 123 West Main Street”這樣一個(gè)地址的數(shù)據(jù)字段可以被斷開為4個(gè)更小的數(shù)據(jù)字段’123’,‘West’,‘Main’,和’Street’。大型數(shù)據(jù)字段也可以在數(shù)據(jù)字邊界被切斷。在上面的地址示例中,更小的數(shù)據(jù)字段可以是’123We’,’st\Mai’,‘n\Stre’,和’et’,其中數(shù)碼’\’被用于表示一個(gè)空格。顯然,本發(fā)明的其他實(shí)施例可以以其他方式來(lái)容納大型數(shù)據(jù)字段。
數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換如圖3中所示,在步驟330,被表示為一個(gè)數(shù)碼的原始數(shù)據(jù)210被儲(chǔ)存在一個(gè)預(yù)定的數(shù)據(jù)結(jié)構(gòu)中。在本發(fā)明的一個(gè)實(shí)施例中,這個(gè)數(shù)據(jù)結(jié)構(gòu)是一個(gè)單字段表,如圖6的表610-670所示。這種數(shù)據(jù)結(jié)構(gòu)可以是多樣的。例如,在本發(fā)明的其他實(shí)施例中,取代單字段表,該數(shù)據(jù)結(jié)構(gòu)可以是一個(gè)多字段表。在這些實(shí)施例中,數(shù)據(jù)結(jié)構(gòu)可以實(shí)施為一些標(biāo)準(zhǔn)特性,例如表頭和索引,如下面要詳細(xì)解釋的那樣,還可以包括對(duì)每個(gè)記錄的概率值。這些概率值代表該記錄中的數(shù)據(jù)是完全的可能性。更高的概率值可以表示完全性概率,而更低的概率值同樣地可以表示更低的完全性概率。這會(huì)在下面進(jìn)一步詳細(xì)描述。一開始,概率值被設(shè)為0。其他實(shí)施例也可以包括鍵數(shù)碼或者標(biāo)識(shí)數(shù)碼來(lái)幫助進(jìn)行排序并維護(hù)數(shù)據(jù)記錄之間的關(guān)系。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,圖5中描繪的原始數(shù)據(jù)210包括三個(gè)表510、520和530。表510可以代表來(lái)自例如一個(gè)公司的應(yīng)收款系統(tǒng)的原始數(shù)據(jù)210。表510的各列代表對(duì)于賬號(hào)、姓、名字的開頭字母的數(shù)據(jù)字段和用于列出為一個(gè)特定個(gè)人處理的不同訂單的附加字段。表510的各行(如510-1和510-2)代表對(duì)于不同個(gè)人的數(shù)據(jù)記錄。表520和530可以代表由信用卡公司維護(hù)的原始數(shù)據(jù)210。表520和530的各列代表對(duì)于賬號(hào)、姓、名和地址的數(shù)據(jù)字段。表520和530的各行代表對(duì)于特定賬戶的數(shù)據(jù)記錄。
在優(yōu)選實(shí)施例中,步驟330將原始數(shù)據(jù)210從圖5中所示的格式轉(zhuǎn)換為圖6中所示的格式。圖6描繪了從圖5的不同原始數(shù)據(jù)表510、520、530組合出的原始數(shù)據(jù)210,它被表示為一個(gè)基數(shù)40數(shù)碼系統(tǒng)中的數(shù)碼,并且被格式化為新表(表610-670),這些共同組成參考數(shù)據(jù)庫(kù)220。
每個(gè)參考數(shù)據(jù)庫(kù)表610-670與一個(gè)來(lái)自圖5的原始數(shù)據(jù)表510、520和530的單獨(dú)的字段相對(duì)應(yīng)。更明確地,參考數(shù)據(jù)表610-670的數(shù)據(jù)記錄對(duì)應(yīng)于原始數(shù)據(jù)表510的數(shù)據(jù)記錄,跟著是原始數(shù)據(jù)表520的數(shù)據(jù)記錄,跟著是原始數(shù)據(jù)表530的數(shù)據(jù)記錄。在本發(fā)明的一個(gè)實(shí)施例中,其中一個(gè)原始數(shù)據(jù)表記錄沒有關(guān)于在一個(gè)參考表610-670中表示的一個(gè)特定數(shù)據(jù)字段410的信息,則一個(gè)空字段值被輸入到參考表中的該字段中。例如,表510的第一數(shù)據(jù)記錄510-1沒有關(guān)于地址的信息,于是一個(gè)空字段值被置入表670的第一位置。
數(shù)據(jù)最好是以這樣的方式儲(chǔ)存在參考數(shù)據(jù)庫(kù)220中,即使所有對(duì)應(yīng)于原始數(shù)據(jù)表中的一個(gè)單一數(shù)據(jù)記錄的數(shù)據(jù)很容易被識(shí)別出來(lái)。在圖5和6中表示的實(shí)施例中,例如,對(duì)應(yīng)于原始數(shù)據(jù)表(表510、520、530)的任何特定數(shù)據(jù)記錄最好在參考表610-670中被表示為儲(chǔ)存在跨參考表610-670的索引i中的數(shù)字?jǐn)?shù)據(jù)的一個(gè)“向量”。例如,對(duì)應(yīng)于原始數(shù)據(jù)表520的第六條記錄520-6(描繪為屬于“Jennifer Brown”的賬號(hào)“A60”,住在“51 Fourth Street”)在參考數(shù)據(jù)庫(kù)表610-670中被表示為一個(gè)向量,它具有由表610-670的第十條記錄610-10、620-10、630-10、640-10、650-10、660-10和670-10構(gòu)成的系數(shù)。
如圖6中所示,參考數(shù)據(jù)庫(kù)220包括一個(gè)新表610,它并不與圖5中所示的原始數(shù)據(jù)210中的任何數(shù)據(jù)字段410相對(duì)應(yīng)。這個(gè)表是一個(gè)“鍵表”,它標(biāo)識(shí)在這些數(shù)據(jù)向量中的相關(guān)數(shù)據(jù)。如下面所述,由圖6中所示的表組成的參考數(shù)據(jù)庫(kù)220可以包括對(duì)于數(shù)據(jù)字段的附加鍵表。這些可以包括個(gè)人識(shí)別號(hào)碼(“PIDN”)、賬戶識(shí)別號(hào)碼(“AIDN”)、或者其他類型的識(shí)別號(hào)碼。這些鍵表或者識(shí)別號(hào)碼可以被用于識(shí)別在參考數(shù)據(jù)庫(kù)220中相關(guān)數(shù)據(jù)向量的集合。
在本例中,鍵表610具有一個(gè)單一字段“PIDN”,其代表個(gè)人識(shí)別號(hào)碼。鍵表610提供一個(gè)唯一標(biāo)識(shí)符,這樣一個(gè)特定的PIDN號(hào)碼永遠(yuǎn)不會(huì)指向原始數(shù)據(jù)210中表示的一個(gè)以上的個(gè)人。換句話說(shuō),PIDN號(hào)碼反映了這樣的事實(shí),即原始數(shù)據(jù)210中的多條記錄可以指向相同的個(gè)人。
理想地,鍵表610中的每條數(shù)據(jù)記錄一開始就對(duì)應(yīng)于原始數(shù)據(jù)表510、520和530表示的一條不同的數(shù)據(jù)記錄。例如,在圖6中,鍵表610中的數(shù)據(jù)記錄610-10被這樣實(shí)施,使它包括對(duì)于參考表620-670中相應(yīng)數(shù)據(jù)的標(biāo)識(shí)符(如指針或索引),這些共同對(duì)應(yīng)于原始數(shù)據(jù)表520中的一條單一記錄520-6。
一開始,雖然一個(gè)單一的PIDN并未指向多個(gè)個(gè)人,而一個(gè)單一個(gè)人可以對(duì)應(yīng)于多個(gè)PIDN。例如,在圖6中,向量4(由PIDN4定義)與向量9(由PIDN9定義)看來(lái)指向相同的個(gè)人,而如所描繪的那樣,這個(gè)個(gè)人一開始就被分配給兩個(gè)PIDN號(hào)碼一PIDN4和PIDN9。如下所述,本發(fā)明支持對(duì)PIDN4和PIDN9是否事實(shí)上指向相同個(gè)人進(jìn)行一個(gè)判斷,并且,如果是的話,就向該個(gè)人分配一個(gè)單一PIDN。替換地,某些實(shí)施例可以分配一個(gè)新PIDN號(hào)碼給被如此判斷的個(gè)人,并且可以保留對(duì)舊PIDN號(hào)碼的一個(gè)參照。
如上所述,在本實(shí)施例中,記錄在參考數(shù)據(jù)庫(kù)表610-670中被表現(xiàn)為向量,它們具有跨8個(gè)單字段表的基數(shù)40數(shù)碼系數(shù)。該數(shù)字表示法允許使用直接數(shù)學(xué)運(yùn)算對(duì)數(shù)據(jù)進(jìn)行分析,該數(shù)學(xué)運(yùn)算被用于,例如,產(chǎn)生關(guān)聯(lián)、計(jì)算特征向量、執(zhí)行不同的坐標(biāo)變換、并應(yīng)用不同的模式識(shí)別分析。然后,這些運(yùn)算可以被用于提供或者導(dǎo)出關(guān)于記錄及其相互關(guān)系的信息。通過使用小型的單字段表,這些運(yùn)算可以被快速執(zhí)行。另外,如將要描繪的那樣,對(duì)包括字母數(shù)字字符的原始數(shù)據(jù)210的基數(shù)40數(shù)碼表示法使得原始數(shù)據(jù)210的內(nèi)容保留了其語(yǔ)義意義。
數(shù)據(jù)透析回過來(lái)參考圖2,一旦參考數(shù)據(jù)庫(kù)220如圖6中所示被生成,一個(gè)數(shù)據(jù)透析處理700被應(yīng)用,以提取出最準(zhǔn)確的數(shù)據(jù),從而將其包括在提取數(shù)據(jù)庫(kù)230中?,F(xiàn)在參考圖7來(lái)描述數(shù)據(jù)透析700。
參考數(shù)據(jù)分區(qū)在步驟710中,最好根據(jù)某些準(zhǔn)則將參考數(shù)據(jù)庫(kù)220分區(qū)或排序?yàn)槎鄠€(gè)集合。這些排序準(zhǔn)則可以是多樣的。例如,如圖8的表810中所示,在本實(shí)施例中,可以根據(jù)姓將數(shù)據(jù)記錄排序?yàn)槎鄠€(gè)集合,其值按數(shù)碼升序排列(記起原始數(shù)據(jù)的內(nèi)容現(xiàn)在在參考數(shù)據(jù)庫(kù)220中被表現(xiàn)為基數(shù)40數(shù)碼)。表810是從圖6中所繪的參考數(shù)據(jù)庫(kù)表620導(dǎo)出的,表810的每個(gè)條目是由一個(gè)唯一的姓氏來(lái)定義的并且具有與該姓氏相匹配的表620記錄的相應(yīng)集合。在所述的表示法中,表810包括一個(gè)字段,用于定義該集合(在這種情況下是一個(gè)姓氏),以及該集合成員的標(biāo)識(shí)符(如索引、指針或者其他適當(dāng)?shù)膮⒖肌@里是PIDN)。
在本發(fā)明的某些實(shí)施例中,不是參考數(shù)據(jù)庫(kù)220中所有的向量都將具有該字段的數(shù)據(jù),其中集合是基于該字段的。這種向量可以以各種方式進(jìn)行處理。例如,在參考數(shù)據(jù)庫(kù)220中,所有沒有該數(shù)據(jù)字段數(shù)據(jù)的向量可以被看作一個(gè)單一的附加集合的成員。替換地,參考數(shù)據(jù)庫(kù)220中,每個(gè)沒有該數(shù)據(jù)字段數(shù)據(jù)的向量可以被看作其自身集合的單一成員。
識(shí)別重復(fù)數(shù)據(jù)回到圖7,在步驟720中,在被識(shí)別為重復(fù)的分區(qū)集合之內(nèi)的數(shù)據(jù)記錄被標(biāo)記出來(lái)。在本發(fā)明的某些實(shí)施例中,重復(fù)數(shù)據(jù)可能是不必要的并且可以被丟棄。在其他實(shí)施例中,所有信息保留中參考數(shù)據(jù)庫(kù)220中,因?yàn)樗行畔?,即使是錯(cuò)誤的、不完全的或者重復(fù)的信息也可能要好于沒有信息,并且可能對(duì)于某些目的來(lái)說(shuō)是有用的,如識(shí)別欺詐或偷竊。
在本發(fā)明的某些實(shí)施例中,比較一對(duì)向量可以識(shí)別出重復(fù)現(xiàn)象。顯然,可以使用各種不同的運(yùn)算。在一個(gè)簡(jiǎn)單的示例中,可以執(zhí)行一個(gè)直接向量減法來(lái)測(cè)量?jī)蓷l記錄之間的相似程度。其他技術(shù)也可以使用,以識(shí)別重復(fù)向量,例如使用“查找”表來(lái)識(shí)別普通名稱、昵稱、縮寫等。
圖8的表810描繪的是,姓氏“Smith”對(duì)應(yīng)于PIDN2、4、8、9和11,表示由圖6中所繪的參考數(shù)據(jù)庫(kù)表610-670的條目2、4、8、9和11構(gòu)成的向量對(duì)于PIDN2[SMITH,J,98-002,A40,A60,^]對(duì)于PIDN4[SMITH,J,98-004,A50,B10,^]對(duì)于PIDN8[SMITH,Jennifer,^,A40,^,300 Pine St.]對(duì)于PIDN9[SMITH,John,^,A50,^,37 Hunt Dr.]對(duì)于PIDN11[SMITH,Jhon,^,B10,^,85 Belmont Ave.]比較向量的向量(或矩陣)運(yùn)算以及用于確定何時(shí)兩個(gè)條目足夠相似以至可以被認(rèn)定為重復(fù)的閾值可以針對(duì)不同實(shí)施例進(jìn)行適當(dāng)?shù)亩x。在一個(gè)簡(jiǎn)單的示例中,一對(duì)向量的相應(yīng)系數(shù)之間的絕對(duì)差可以顯示相應(yīng)的記錄對(duì)之間的相似性。如果一個(gè)第一向量與一個(gè)第二向量任意字段不是不一致的,則這對(duì)向量可以被認(rèn)為是重復(fù)的,并且不提供任何附加數(shù)據(jù)。在本實(shí)施例中,附加規(guī)則也會(huì)被定義,例如,為比較不同長(zhǎng)度的條目(如對(duì)應(yīng)于數(shù)字的右對(duì)齊字符串、以及對(duì)應(yīng)字母的左對(duì)齊字符串),為了一般地識(shí)別單詞的拼寫錯(cuò)誤或者拼寫變體,以及為了識(shí)別單詞中順序顛倒的字母。顯然,這種處理可以通過各種機(jī)制來(lái)進(jìn)行。在圖8的表810的示例中,沒有數(shù)據(jù)記錄是嚴(yán)格的重復(fù)的,所以在步驟720中沒有進(jìn)行標(biāo)記。
數(shù)據(jù)相關(guān)(Correlating)回到圖7,在步驟730中,本發(fā)明的優(yōu)選實(shí)施例對(duì)保留在每個(gè)集合內(nèi)的數(shù)據(jù)記錄進(jìn)行相關(guān),并且在步驟740中,進(jìn)一步將數(shù)據(jù)記錄分區(qū)為獨(dú)立的數(shù)據(jù)記錄子集。一般來(lái)說(shuō),兩個(gè)向量之間的相關(guān)是對(duì)一個(gè)與另一個(gè)的關(guān)聯(lián)有多么緊密的一種度量,具體的相關(guān)方法根據(jù)預(yù)期的應(yīng)用會(huì)有所不同。對(duì)于相關(guān)函數(shù)的一般描述與示例可以在參考材料中找到,如NUMERICAL RECIPES IN C;THE ART OF SCIENTIFICCOMPUTING(劍橋大學(xué)出版社,第二版,1992),William H.Press等著。其他技術(shù)與示例可以在Donald E.Knuth所著的THE ART OFCOMPUTER PROGRAMMING(Addison-Wesley Pub.,1998)中找到。
作為一個(gè)示例,向量之間相關(guān)的一種簡(jiǎn)單度量是其點(diǎn)積,它可以被賦與適當(dāng)?shù)臋?quán)值。根據(jù)該應(yīng)用,可以只對(duì)向量系數(shù)的一個(gè)子集計(jì)算點(diǎn)積,或者可以定義點(diǎn)積以便不僅比較相應(yīng)系統(tǒng),而且比較其他被確定為在相關(guān)字段中的系數(shù)對(duì)(即比較一個(gè)第一向量的“名”系數(shù)與一個(gè)第二向量的“中間名”系數(shù))。對(duì)于識(shí)別重復(fù)數(shù)據(jù)的運(yùn)算,相關(guān)函數(shù)可以根據(jù)其預(yù)期應(yīng)用而進(jìn)行適當(dāng)?shù)恼{(diào)整。例如,一個(gè)相關(guān)函數(shù)可以被定義為適當(dāng)比較不同長(zhǎng)度的條目并適當(dāng)區(qū)分顯著的與不顯著的差別,這是顯而易見的。
參考圖5、6和8的表所解釋的實(shí)施例中,一個(gè)相關(guān)函數(shù)的示例比較對(duì)應(yīng)于共享相同姓氏的一個(gè)集合的成員的向量,以標(biāo)識(shí)出獨(dú)立的向量子集。再一次地,這種判斷可以根據(jù)因應(yīng)用而異的準(zhǔn)則來(lái)進(jìn)行。在本例中,獨(dú)立子集可以被定義為那些代表不同個(gè)人的向量。
作為應(yīng)用相關(guān)函數(shù)的結(jié)果,一個(gè)反映一對(duì)向量獨(dú)立程度的相關(guān)參數(shù)被賦值。例如,可以賦以高值來(lái)表示高度的相似程度,而賦以低值來(lái)表示有限的相似程度。相關(guān)值隨后被與一個(gè)預(yù)定的閾值進(jìn)行比較以判斷對(duì)應(yīng)于那些向量的兩條記錄是否被認(rèn)為是獨(dú)立的一再次注意,該閾值在不同的應(yīng)用中可以變化。
根據(jù)相關(guān)值,在步驟740中,優(yōu)選實(shí)施例在每個(gè)集合之內(nèi)將數(shù)據(jù)記錄分區(qū)為獨(dú)立的數(shù)據(jù)記錄子集。在圖5、6和圖8的表810的示例中,一個(gè)獨(dú)立子集的成員可以被標(biāo)識(shí)為那些成員,它們具有相同的姓氏(考慮到拼寫錯(cuò)誤和拼寫變體);相對(duì)近似的名(考慮到拼寫錯(cuò)誤、拼寫變體、昵稱和名、中間名與首字母的組合);一個(gè)或多個(gè)匹配的賬號(hào);以及不超過3個(gè)地址(允許工作與家庭地址,以及一個(gè)地址變化)。
應(yīng)用這樣一種函數(shù)的結(jié)果被描繪在圖8的表820中。識(shí)別出來(lái)的個(gè)人是Jennifer Brown,PIDN 10;Howard Lee,PIDN 3和6;Carole Lee,PIDN 7;Jennifer Smith,PIDN 2和8;John Smith,PIDN 4和11;John Smith,PIDN 9;Ann Zane,PIDN 1、5和12;以及Molly Zane,PIDN 12。
其他用于對(duì)向量進(jìn)行相關(guān)的運(yùn)算也是可用的。這些可以包括計(jì)算點(diǎn)積、叉積、長(zhǎng)度、方向向量以及很多依據(jù)已知技術(shù)用于評(píng)估的其他函數(shù)與算法。
圖9描繪了一個(gè)稱為集群的概念的二維示例,它被用于在概念上描述本發(fā)明的某些一般方面。在圖9中,四個(gè)集群作為一個(gè)二維點(diǎn)的集合而存在。這些集群被標(biāo)識(shí)為(a,b),(c,d),(e,f),及(g,h)。如所示的那樣,每個(gè)集群由一個(gè)或多個(gè)二維空間中的點(diǎn)構(gòu)成。每個(gè)點(diǎn)對(duì)應(yīng)于一條代表(具有或多或少的準(zhǔn)確性)在該空間中集群的“真”值的數(shù)據(jù)記錄。如所示的那樣,集群(a,b)和(c,d)相當(dāng)容易相互區(qū)分,并與集群(e,f)和(g,h)相區(qū)分。然而,在本簡(jiǎn)例中,集群(e,f)和(g,h)并不容易相互區(qū)分。擴(kuò)展空間(即對(duì)向量增加附加數(shù)據(jù)字段)可以增大集群如(e,f)與(g,h)之間的區(qū)別,以使它們相互之間變得更容易區(qū)分。替換地,擴(kuò)展該空間可以表明(g,h)是一個(gè)屬于集群(e,f)或者甚至是集群(c,d)的點(diǎn)。在理論上,在一個(gè)具有各種已知特征的希爾伯特空間中,空間可以無(wú)限擴(kuò)展。顯然,對(duì)于大量的,即使不是無(wú)限的向量,這些特征可以為本發(fā)明所利用。
進(jìn)而,對(duì)向量增加附加數(shù)據(jù)字段(即擴(kuò)展空間)可以將集群相互分離,從而有助于其相關(guān),而從向量中刪除數(shù)據(jù)字段(即縮減空間)也可以識(shí)別某些相關(guān)。在本發(fā)明的某些實(shí)施例中,縮減空間可以識(shí)別某些實(shí)際上代表相同人個(gè)或其他唯一實(shí)體的集群。例如,在一個(gè)數(shù)據(jù)庫(kù)中的一條記錄可以具有10個(gè)數(shù)據(jù)字段,它們與該數(shù)據(jù)庫(kù)中的一個(gè)第二記錄中同樣的10個(gè)數(shù)據(jù)字段完全一致。這些數(shù)據(jù)字段可以對(duì)應(yīng)于名、出生日期、地址、母親未婚時(shí)的姓氏等。但是,這兩條記錄可以有兩個(gè)字段不同。這兩個(gè)字段可以對(duì)應(yīng)于姓氏和社會(huì)保險(xiǎn)號(hào)碼。在某些情況下,這些記錄可以對(duì)應(yīng)于相同的個(gè)人。本發(fā)明簡(jiǎn)化了識(shí)別這些類型的記錄的處理,使用傳統(tǒng)方法來(lái)檢測(cè)即使不是不可能的也會(huì)是困難的。
于是,從一個(gè)向量中移除一個(gè)或多個(gè)特定數(shù)據(jù)字段并縮減相應(yīng)空間可以展現(xiàn)那些不這樣做就不是很明顯的集群。對(duì)傳統(tǒng)上被用于識(shí)別目的的數(shù)據(jù)字段(如姓氏、社會(huì)保險(xiǎn)號(hào)碼等)進(jìn)行這種處理可以展現(xiàn)數(shù)據(jù)庫(kù)中的重復(fù)記錄。這對(duì)于識(shí)別欺詐是尤其有用的。移去其中包括一個(gè)值為空的數(shù)據(jù)字段的向量的數(shù)據(jù)字段也可以展現(xiàn)那些不這樣做就不是很明顯的集群。
進(jìn)而,一旦集群被識(shí)別為代表相同個(gè)人或者實(shí)體,對(duì)于該個(gè)人或?qū)嶓w的最佳信息可以被從每條記錄或“黑點(diǎn)”所提供的信息中提取出來(lái)。
本發(fā)明的原理可以被擴(kuò)展超出簡(jiǎn)單向量與數(shù)據(jù)字段。例如,可以通過使用代表一個(gè)多維空間中的對(duì)象的張量來(lái)擴(kuò)展本發(fā)明。在這種方式中,本發(fā)明可以被用于表示不同物理現(xiàn)象的參數(shù),以深入洞察其操作與效果。這種應(yīng)用對(duì)于解釋人類基因并支援如人類基因組項(xiàng)目這樣的計(jì)劃是尤其有用的。
處理孤立(stranded)數(shù)據(jù)再參考圖7,在步驟750,本發(fā)明的優(yōu)選實(shí)施例評(píng)估“孤立”數(shù)據(jù)。孤立數(shù)據(jù)是指那些來(lái)自參考數(shù)據(jù)庫(kù)220的沒有在步驟710中被分區(qū)到任何集合中去的記錄。在某些實(shí)施例中,參考數(shù)據(jù)庫(kù)220可以包括大量與數(shù)據(jù)字段相應(yīng)的表和大量具有不同字段組合的數(shù)據(jù)的向量。例如,在一個(gè)參考數(shù)據(jù)庫(kù)220包括對(duì)于不同數(shù)據(jù)字段的20個(gè)表及由每個(gè)表的相關(guān)數(shù)據(jù)記錄定義的1000個(gè)向量的實(shí)施例中,假設(shè)在1000個(gè)向量中只有800個(gè)具有對(duì)于字段“姓氏”的數(shù)據(jù),在步驟710中通過該字段生成集合。步驟710可能沒有將沒有“姓氏”數(shù)據(jù)的200個(gè)向量分區(qū)到任何集合,或者將這200個(gè)向量的每一個(gè)分入其自身的集合。在任何一種情況下,結(jié)果都是,這200個(gè)向量并未在步驟720、730和740中被與其他向量相關(guān)。步驟750可以評(píng)估這些向量。
評(píng)估的方法可以是多樣的。例如,一個(gè)實(shí)施例可以將每個(gè)孤立條目與步驟740中識(shí)別出的每個(gè)子集的一個(gè)成員相關(guān)。根據(jù)得出的相關(guān)值,該向量可以被加入相關(guān)度高的那個(gè)子集,或者可以定義一個(gè)新子集。替換地,在某些實(shí)施例中,可以判斷這樣的評(píng)估是否太耗費(fèi)時(shí)間和/或太昂貴,而步驟750可以被完全跳過。
重復(fù)相關(guān)處理對(duì)于特定的實(shí)施例,步驟710-750可以根據(jù)需要被重復(fù)進(jìn)行。如上面注意到的,某些實(shí)施例將具有包含大量字段和大量條目的參考數(shù)據(jù)220,其中有許多條目的數(shù)據(jù)只有一個(gè)字段子集。在這樣一種情況下,在一個(gè)單一字段上執(zhí)行步驟710-750未必能夠?qū)С鏊邢嚓P(guān)信息。即使在參考圖5、6和8解釋的簡(jiǎn)單示例中,在單一字段“姓氏”上進(jìn)行的相關(guān)只可以提供關(guān)于那些條目之間相互關(guān)系的部分信息。例如,對(duì)應(yīng)于圖6中PIDN2和8的Jennifer Smith可能與對(duì)應(yīng)于PIDN10的JenniferBrown是同一個(gè)人,因?yàn)镻IDN2和10共用一個(gè)通用賬號(hào)。在姓氏字段上執(zhí)行相關(guān)可能不能將這些PIDN標(biāo)識(shí)為與相同的個(gè)人相對(duì)應(yīng),因?yàn)樗鼈冎皇轻槍?duì)共享相同姓氏的其他PIDN來(lái)評(píng)估的。在賬號(hào)字段上執(zhí)行相關(guān)可以提供關(guān)于這些PIDN是否相關(guān)的附加信息。
于是,跨不同字段的相關(guān)對(duì)于完全評(píng)估參考數(shù)據(jù)庫(kù)220中數(shù)據(jù)的相關(guān)性程度是必不可少的。
使用相關(guān)結(jié)果來(lái)更新參考數(shù)據(jù)一旦完成了步驟710-760,參考數(shù)據(jù)庫(kù)220就已經(jīng)被提取為一個(gè)提取數(shù)據(jù)庫(kù)230,如圖2所示。在本發(fā)明的某些實(shí)施例中,這兩個(gè)數(shù)據(jù)庫(kù)被分別處理并相互共存。在本發(fā)明的其他實(shí)施例中,一個(gè)單一數(shù)據(jù)庫(kù)存在被標(biāo)記為或者被標(biāo)識(shí)為屬于參考數(shù)據(jù)庫(kù)220或提取數(shù)據(jù)庫(kù)230的記錄。這可以通過使用記錄不同的PIDN范圍來(lái)在兩個(gè)數(shù)據(jù)庫(kù)中進(jìn)行分配而實(shí)現(xiàn)。進(jìn)而,在兩個(gè)數(shù)據(jù)庫(kù)中記錄之間的關(guān)系可以通過對(duì)參考數(shù)據(jù)庫(kù)220中記錄的PIDN增加一個(gè)常量以生成在提取數(shù)據(jù)庫(kù)230中記錄的PIDN而維護(hù)。例如,參考數(shù)據(jù)庫(kù)220中一條PIDN為12345的記錄可以在提取數(shù)據(jù)庫(kù)230中具有一個(gè)PIDN9012345。以這種方式,兩個(gè)數(shù)據(jù)庫(kù)可以被看作一個(gè)單一數(shù)據(jù)庫(kù)的不同部分。
使用提取數(shù)據(jù)庫(kù)一旦完成了數(shù)據(jù)透析過程700,提取數(shù)據(jù)庫(kù)230將來(lái)自參考數(shù)據(jù)庫(kù)220的數(shù)據(jù)記錄子集標(biāo)識(shí)為相關(guān)記錄,如上所述,可以確定參考數(shù)據(jù)庫(kù)220中字段的概率來(lái)提供一個(gè)對(duì)其完整性的定性度量。這可以通過為各個(gè)數(shù)據(jù)字段的每一個(gè)賦與一個(gè)完整性概率然后使用它們來(lái)計(jì)算該數(shù)據(jù)記錄的整體完整性概率來(lái)完成。例如,對(duì)于代表名的數(shù)據(jù)字段,值’J’可以被賦與低概率(如0或0.1),值’JOHN’可以被賦與更高的概率(如0.7或0.8),而值’JONATHAN’可以被賦與最高概率(如0.9或1.0)。這些值可以被略為隨意地賦值,或者依據(jù)某種結(jié)構(gòu)前提來(lái)賦值。然而,這些值有助于識(shí)別集合中的哪些數(shù)據(jù)字段最可能包括最完全的信息或者換句話說(shuō),最可能的數(shù)據(jù)。
使用本發(fā)明可以確定大量關(guān)于記錄及其相互關(guān)系的信息,并且可以專門為特定的應(yīng)用進(jìn)行定制。進(jìn)而,使用標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)操作,提取數(shù)據(jù)庫(kù)230(參考參考數(shù)據(jù)庫(kù)220的數(shù)據(jù))可以被操作,以根據(jù)需要提供格式化的報(bào)告。例如,一個(gè)實(shí)施例可以被定制為生成一個(gè)列出相關(guān)記錄子集的報(bào)告,一個(gè)子集的記錄提供關(guān)于一個(gè)特定個(gè)人或?qū)嶓w的信息。在這樣一個(gè)子集中的記錄可以提供例如關(guān)于信息的不同字段的信息;名字的別名和/或變體、地址、社會(huì)保險(xiǎn)號(hào)碼等;以及字段-如職業(yè)、地址和賬號(hào),對(duì)于它們,該個(gè)人可能具有不止一個(gè)條目。
由于所有數(shù)據(jù)是以數(shù)字基數(shù)40格式來(lái)表示的,子集在報(bào)告中可以按數(shù)字來(lái)排序。基數(shù)40格式提供額外的好處,即將字母字符表示為其各自的字母(如上面的轉(zhuǎn)換表所示)。這樣,報(bào)告將會(huì)以數(shù)字表示法來(lái)顯示,該表示法保持了其所代表的數(shù)據(jù)的語(yǔ)義意義,允許數(shù)據(jù)被人工地讀取和分析。例如,如果該報(bào)告顯示了一個(gè)具有包括J SMITH,JOHNSMITH,JOHN G SMITH,G SMITHT和GERALD SMITH條目的個(gè)人的記錄,閱讀該報(bào)告的一個(gè)人會(huì)理解到,這個(gè)人使用了不同的名,包括他的名或首字母、中間名或首字母、或它們的某種組合。
增加新數(shù)據(jù)對(duì)于傳統(tǒng)的數(shù)據(jù)庫(kù)應(yīng)用,新數(shù)據(jù)可以時(shí)常被加入。如圖2所示,本發(fā)明解決了增加新數(shù)據(jù)240,這將影響參考數(shù)據(jù)庫(kù)220和提取數(shù)據(jù)庫(kù)230。
通常,新數(shù)據(jù)記錄240可以參照?qǐng)D3所述來(lái)格式化,并被輸入到現(xiàn)有的參考數(shù)據(jù)庫(kù)220中。另外,新數(shù)據(jù)記錄240可以針對(duì)提取數(shù)據(jù)庫(kù)230被度量,以判斷新信息或內(nèi)容在新數(shù)據(jù)記錄240中是否可用。例如,一條新數(shù)據(jù)記錄240可以與來(lái)自提取數(shù)據(jù)庫(kù)230的數(shù)據(jù)記錄進(jìn)行相關(guān),以判斷該新數(shù)據(jù)記錄240是否與任何已經(jīng)存在于提取數(shù)據(jù)庫(kù)230中的數(shù)據(jù)記錄相關(guān)。如果是,并且新數(shù)據(jù)記錄240包含沒有出現(xiàn)在提取數(shù)據(jù)庫(kù)230中的信息或內(nèi)容,則新數(shù)據(jù)記錄240可以被用于更新提取數(shù)據(jù)庫(kù)230。例如,如果新數(shù)據(jù)記錄240包括一個(gè)名叫John Smith的個(gè)人信息,他對(duì)應(yīng)于已經(jīng)出現(xiàn)在提取數(shù)據(jù)庫(kù)230中的數(shù)據(jù)記錄,但提供了附加信息,即Smith先生的中間名是Greg,則該附加信息可以被適當(dāng)?shù)丶尤胩崛?shù)據(jù)庫(kù)230。
對(duì)參考數(shù)據(jù)庫(kù)220與提取數(shù)據(jù)庫(kù)230中數(shù)據(jù)記錄的改變可以使用標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)保護(hù)操作來(lái)處理,在參考資料如C.J.DATE,INTRODUCTIONTO DATABASE SYSTEMS(Addison Wesley,第6版,1994)(特別參見Part IV)中所述,參照上述內(nèi)容。例如,在由一個(gè)授權(quán)數(shù)據(jù)庫(kù)管理員對(duì)參考數(shù)據(jù)庫(kù)220進(jìn)行改變時(shí),參考數(shù)據(jù)庫(kù)220中的相關(guān)數(shù)據(jù)記錄被根據(jù)標(biāo)準(zhǔn)關(guān)系定義所做的判斷來(lái)更新,并且其中適當(dāng)?shù)馗鶕?jù)提取數(shù)據(jù)庫(kù)230中定義的關(guān)系。
在字段向量之間識(shí)別重復(fù)數(shù)據(jù)傳統(tǒng)數(shù)據(jù)庫(kù)的一個(gè)問題是在合并來(lái)自一個(gè)第一數(shù)據(jù)庫(kù),如原始數(shù)據(jù)210A的數(shù)據(jù)記錄與來(lái)自一個(gè)第二數(shù)據(jù)庫(kù),如原始數(shù)據(jù)210B的數(shù)據(jù)記錄時(shí)的困難。在具有共享或重復(fù)數(shù)據(jù)的這些數(shù)據(jù)庫(kù)中的記錄需要被識(shí)別,以使其中包含的內(nèi)容可以被合并為在一個(gè)數(shù)據(jù)庫(kù)中的一個(gè)單一記錄,如參考數(shù)據(jù)庫(kù)220或提取數(shù)據(jù)庫(kù)230。例如,兩個(gè)數(shù)據(jù)庫(kù)210可以包括對(duì)于JOHN SMITH的一個(gè)或多個(gè)條目。如果數(shù)據(jù)庫(kù)210中的相應(yīng)記錄代表相同的個(gè)人John Smith,則每條記錄的內(nèi)容應(yīng)當(dāng)被合并為一條單一記錄,例如在提取數(shù)據(jù)庫(kù)230中。
用于在這些數(shù)據(jù)庫(kù)中識(shí)別這種重復(fù)數(shù)據(jù)的傳統(tǒng)窮舉方法包括比較一個(gè)來(lái)自第一數(shù)據(jù)庫(kù)的數(shù)據(jù)記錄與第二數(shù)據(jù)庫(kù)中的每條數(shù)據(jù)記錄,并對(duì)第一數(shù)據(jù)庫(kù)中的每條記錄重復(fù)這個(gè)過程。這個(gè)過程耗費(fèi)時(shí)間、計(jì)算密集,并且因而是昂貴的。事實(shí)上,計(jì)算量與兩個(gè)數(shù)據(jù)庫(kù)中每一個(gè)中的記錄數(shù)量是幾何相關(guān)的。
用于減少在數(shù)據(jù)庫(kù)210中識(shí)別重復(fù)數(shù)據(jù)所需的計(jì)算量與時(shí)間的一種處理在下面參照?qǐng)D10-12來(lái)描述。在下面所述的過程中,選擇一個(gè)在數(shù)據(jù)庫(kù)中普通或類似的特定字段,例如姓名字段或地址字段。這個(gè)字段被對(duì)于每個(gè)數(shù)據(jù)庫(kù)排列為一個(gè)表或者一個(gè)數(shù)組,它包括每條記錄所選字段的值。例如,如上所述,610-670的每個(gè)表代表一個(gè)數(shù)據(jù)庫(kù)中每條數(shù)據(jù)記錄的一個(gè)特定字段。出于討論的目的,這些表被稱為字段向量。
依據(jù)本發(fā)明,每個(gè)字段向量被以數(shù)字順序排序,并且如果必要的話,將其分區(qū)為相同數(shù)據(jù)的集合,如前面針對(duì)圖7和8所作的敘述。例如,多條與JOHN SMITH相關(guān)的記錄在字段向量之內(nèi)會(huì)被分區(qū)到一起。最好能夠儲(chǔ)存關(guān)于集合之間分區(qū)位置的信息。
一旦字段向量被排序并分區(qū),一個(gè)第一字段向量的第一元素的值被與一個(gè)第二字段向量的第一元素值進(jìn)行比較。本質(zhì)上,如果第一字段向量中的值大于第二字段向量中的值,則向第二字段向量中增加一個(gè)索引或者將索引調(diào)整到下一個(gè)分區(qū)集合內(nèi)的一個(gè)位置,以獲得在第二字段向量中的下一個(gè)值。第二字段向量中的這下一個(gè)值隨后被與第一字段向量中的值進(jìn)行比較。只要第一字段向量中的值大于第二字段向量中的值,這個(gè)處理就繼續(xù)下去。
另一方面,如果第一字段向量的值小于第二字段向量的值,則第一字段向量中索引被增加或者將索引調(diào)整到下一個(gè)分區(qū)集合的一個(gè)位置,以獲得第一字段向量的下一個(gè)值。第一字段向量的這下一個(gè)值隨后被與第二字段向量中的值進(jìn)行比較。只要第一字段向量中的值小于第二字段向量中的值,這個(gè)處理就繼續(xù)進(jìn)行下去。
當(dāng)?shù)谝蛔侄蜗蛄康闹档扔诘诙侄蜗蛄恐械闹禃r(shí),過程就識(shí)別出了重復(fù)數(shù)據(jù),隨后最好將其儲(chǔ)存在一個(gè)通用字段向量中。儲(chǔ)存了識(shí)別出的重復(fù)數(shù)據(jù)之后,對(duì)第一字段向量和第二字段向量的索引都被增加或者調(diào)整到其各自字段向量的下一個(gè)分區(qū)集合之內(nèi)的一個(gè)位置。
如此描述的處理過程可以被看作反饋控制機(jī)制,它根據(jù)字段向量中值之間的差來(lái)調(diào)整對(duì)數(shù)組之中的索引。在上述實(shí)施例中,一個(gè)正差產(chǎn)生了一個(gè)對(duì)第二字段向量索引的調(diào)整,而一個(gè)負(fù)差則產(chǎn)生一個(gè)對(duì)第一字段向量索引的調(diào)整。這個(gè)過程導(dǎo)致了一個(gè)在字段向量中值的數(shù)量與所需的計(jì)算量(即比較)之間的線性關(guān)系,這與傳統(tǒng)方法的幾何關(guān)系相反。
本發(fā)明也可以被擴(kuò)展為排序機(jī)制。在一個(gè)特定值必須根據(jù)向量中的值的順序(如字母、數(shù)字順序等)被插入到一個(gè)字段向量中去時(shí)(即一條記錄必須被插入到一個(gè)數(shù)據(jù)庫(kù)中去),計(jì)算該特定值與向量中的元素之一的值之間的差。這個(gè)差值被“反饋”,以調(diào)整向量之中的索引來(lái)生成來(lái)自該向量的下一個(gè)值。使用精心建立的控制理論方法,索引調(diào)整可以被積分,以判斷要被插入的值的正確位置。除了積分器之外,顯然可以對(duì)差值加上一個(gè)比例增益,以建立一個(gè)期望系統(tǒng)性能。
現(xiàn)在參照?qǐng)D10-12對(duì)本發(fā)明進(jìn)行描述。圖10是一個(gè)識(shí)別一對(duì)字段向量?jī)?nèi)重復(fù)數(shù)據(jù)的流程圖。字段向量可以來(lái)自一個(gè)單一來(lái)源,如原始數(shù)據(jù)210A(如當(dāng)在一個(gè)單一數(shù)據(jù)庫(kù)中比較一個(gè)居住地址與一個(gè)郵件地址時(shí)),或者來(lái)自多個(gè)來(lái)源,如原始數(shù)據(jù)210A和原始數(shù)據(jù)210B(如當(dāng)比較兩個(gè)數(shù)據(jù)庫(kù)之間的一個(gè)姓名字段時(shí))。
為了描述的目的,字段向量對(duì)分別被稱為第一字段向量(“FV1”)和第二字段向量(“FV2”)。這些字段向量中的數(shù)據(jù)最好是上述表示字母數(shù)字?jǐn)?shù)據(jù)的基數(shù)40數(shù)碼。然而,在本發(fā)明的某些實(shí)施例中,該數(shù)據(jù)也可以存在于其他形式之中。
在步驟1010,第一字段向量被按照數(shù)字順序進(jìn)行排序。在步驟1020中,第二字段向量也被按照數(shù)字順序進(jìn)行排序。在本發(fā)明的一個(gè)實(shí)施例中,向量是按照數(shù)字升序排序的,雖然本發(fā)明的其他實(shí)施例顯然可以按降序?qū)ο蛄窟M(jìn)行排序。
在步驟1030中,識(shí)別出在第一字段向量之內(nèi)具有通用值的分區(qū)集合。同樣地,在步驟1040,也識(shí)別出在第二字段向量之內(nèi)具有通用值的分區(qū)集合。步驟1010-1040前面參考圖7和8描述的參考數(shù)據(jù)庫(kù)220分區(qū)步驟執(zhí)行了一個(gè)相似的功能。在本發(fā)明的某些實(shí)施例中,字段向量可以不包括任何分區(qū)集合,因?yàn)槊總€(gè)字段向量之內(nèi)的通用值可能已經(jīng)被去除了。但是,在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,一個(gè)特定字段向量之內(nèi)的通用值被保留下來(lái)。
在步驟1050,一個(gè)標(biāo)識(shí)第一與第二字段向量之間的通用值的通用值向量被確定,最好使用分區(qū)集合。參照?qǐng)D11對(duì)步驟1050進(jìn)行了更詳細(xì)的描述。
圖11是識(shí)別一對(duì)字段向量之間通用值的一個(gè)流程圖。在一個(gè)步驟1110中,三個(gè)向量索引被初始化。一個(gè)第一向量索引I是對(duì)于第一字段向量FV1的索引;一個(gè)第二向量索引J是對(duì)第二字段向量FV2的索引;第三向量索引K是對(duì)通用值向量(“CV”)的索引。如前面所提到的,通用值向量包括第一與第二字段向量共享的值。索引I和J被初始化,以在第一與第二字段向量的每一個(gè)中分別定位一個(gè)第一位置。索引K被初始化,為下一個(gè)會(huì)被包括在通用值向量中的通用值定位一個(gè)位置。
在判定步驟1120,本發(fā)明判斷在第一字段向量的第I個(gè)位置中的值是否大于或等于第二字段向量的第J個(gè)位置的值。如果是,則過程繼續(xù)進(jìn)行到判定步驟1130;否則,過程繼續(xù)進(jìn)行到步驟1170。當(dāng)?shù)谝蛔侄蜗蛄康牡?個(gè)位置中的值小于第二字段向量的第J個(gè)位置的值時(shí),步驟1170被有效地執(zhí)行。在步驟1170中,第一索引I被調(diào)整,以定位第一字段向量中下一個(gè)分區(qū)集合的開始位置。步驟1170之后,過程繼續(xù)進(jìn)行到判定步驟1160。
在判定步驟1130中,本發(fā)明判斷第一字段向量的第I個(gè)位置中的值是否與第二字段向量的第J個(gè)位置的值相等。如果是,過程繼續(xù)進(jìn)行到判定步驟1140;否則過程繼續(xù)進(jìn)行到步驟1180。當(dāng)?shù)谝蛔侄蜗蛄康牡贗個(gè)位置中的值大于第二字段向量的第J個(gè)位置的值時(shí),步驟1180被有效地執(zhí)行。在步驟1180,第二索引J被調(diào)整,以定位第二字段向量中下一個(gè)分區(qū)集合的開始位置。步驟1180之后,過程繼續(xù)進(jìn)行到判定步驟1160。
當(dāng)?shù)谝蛔侄蜗蛄康牡贗個(gè)位置中的值與第二字段向量的第J個(gè)位置的值相等時(shí),步驟1140被有效地執(zhí)行。在步驟1140中,包括在第一與第二字段向量中的值被置入通用值向量中。
在步驟1150中,第三索引K被增量,以定位下一個(gè)要被識(shí)別的通用值的通用值向量中的位置。第一索引I被調(diào)整,以定位第一字段向量中下一個(gè)分區(qū)集合的開始位置。第二索引J被調(diào)整,以定位第二字段向量中下一個(gè)分區(qū)集合的開始位置。
在判定步驟1160中,本發(fā)明判斷是否有附加分區(qū)集合存在于第一字段向量和第二字段向量之中。如果是,過程繼續(xù)進(jìn)行到步驟1120。如果沒有分區(qū)集合保留在第一字段向量或者第二字段向量中,過程結(jié)束。當(dāng)過程結(jié)束時(shí),通用值向量包括所有在第一與第二字段向量之間識(shí)別出來(lái)的重復(fù)數(shù)據(jù)。
圖12描繪了依據(jù)本發(fā)明在字段向量之間識(shí)別重復(fù)數(shù)據(jù)的一個(gè)示例。步驟1010與1030排序并分區(qū)字段向量1(“FV1”),而步驟1020和1040排序并分區(qū)字段向量2(“FV2”)?,F(xiàn)在參考步驟1110-1180來(lái)描述步驟1050的操作,其中穿過步驟1120到1160并返回到步驟1120被稱為一個(gè)“循環(huán)”。
在一個(gè)第一循環(huán)中,F(xiàn)V1的第一元素(即第0個(gè)位置)與FV2的第一元素進(jìn)行比較。(這在圖12中被描繪為FV1與FV2之間的一條兩端帶有箭頭的線,并被標(biāo)注為1)。在本例中,F(xiàn)V1的值’8’與FV2的值’8’相比較。判定步驟1120與1130判斷這些值相等,并且在步驟1140中,值’8’被置入通用值向量。(這在圖12中被描繪為FV2與通用值向量之間的一條兩端帶有箭頭的線,并被標(biāo)注為1’)步驟1150調(diào)整兩個(gè)字段向量的索引,以指向下一個(gè)分區(qū)集合。判定步驟1160判斷更多的分區(qū)集合存在于字段向量中,并且一個(gè)第二循環(huán)被啟動(dòng)。
在第二循環(huán)中,F(xiàn)V1的下一元素被與FV2的下一個(gè)元素進(jìn)行比較。在本例中,F(xiàn)VI的一個(gè)值’9’被與FV2的一個(gè)值’9’進(jìn)行比較。這些值再次被判斷為相等,并且值’9’被置入通用值向量。象前面一樣,步驟1150調(diào)整兩個(gè)索引,以指向其各自字段向量中的下一個(gè)分區(qū)集合。判定步驟1160判斷更多的分區(qū)集合存在于兩個(gè)字段向量之中,并且一個(gè)第三循環(huán)被啟動(dòng)。
在第三循環(huán)中,F(xiàn)V1的下一個(gè)元素被與FV2的下一個(gè)元素進(jìn)行比較。在本例中,F(xiàn)V1的一個(gè)值’10’與FV2的一個(gè)值’12’進(jìn)行比較。判定步驟1120判斷FV1中的值不大于或等于FV2中的值,并且在步驟1170中,F(xiàn)V1的索引被調(diào)整,以指向其中的下一個(gè)分區(qū)集合。判定步驟1160判斷有更多的分區(qū)集合存在于兩個(gè)字段向量中,并且一個(gè)第四循環(huán)被啟動(dòng)。
在第四循環(huán)中,F(xiàn)V1的下一個(gè)元素與FV2的前一個(gè)元素進(jìn)行比較。在本例中,F(xiàn)V1的一個(gè)值’12’與FV2前一個(gè)比較過的值’12’進(jìn)行比較。判定步驟1120與1130判斷該值相等,并且在步驟1140中,值’12’被置入通用值向量中。步驟1150調(diào)整兩個(gè)索引來(lái)指向其各自字段向量中的下一個(gè)分區(qū)集合。判定步驟1160判斷有更多的分區(qū)集合存在于兩個(gè)字段向量之中,并且一個(gè)第五循環(huán)被啟動(dòng)。
在第五循環(huán)中,F(xiàn)V1的下一個(gè)元素與FV2的下一個(gè)值進(jìn)行比較。在本例中,F(xiàn)V1的一個(gè)值’15’與FV2的一個(gè)值’18’比較。判定步驟1120判斷FV1中的值不大于或等于FV2中的值,并且在步驟1170中,對(duì)FV1的索引被調(diào)整,以指向其中的下一個(gè)分區(qū)集合。因?yàn)闆]有更多的分區(qū)集合存在于FV1中,過程結(jié)束。
在本例中,需要每個(gè)循環(huán)最多進(jìn)行兩次比較的5個(gè)循環(huán)來(lái)識(shí)別兩個(gè)字段向量之間的三個(gè)通用值。在窮舉方法中,需要132次比較(12*11)。
預(yù)編碼信息在本發(fā)明的不同實(shí)施例中,在將數(shù)據(jù)從其初始格式轉(zhuǎn)換為數(shù)字格式之前,或者在某些實(shí)施例中與其同時(shí),將數(shù)據(jù)預(yù)編碼為一種中間編碼格式。這種預(yù)編碼還減少或壓縮了初始格式到編碼格式的信息。一旦進(jìn)入編碼格式,數(shù)據(jù)能夠隨之被以一種適當(dāng)?shù)臄?shù)字格式來(lái)表示,如上所述。本發(fā)明的這些實(shí)施例用示例的方式很好地進(jìn)行了描述。
在本發(fā)明的一個(gè)實(shí)施例中,音素被用于將初始格式的數(shù)據(jù)表示為編碼格式。在本實(shí)施例中,音素可以被用于對(duì)單詞、單詞的某些部分(如音節(jié))或者單詞的詞組進(jìn)行編碼。于是,發(fā)音一致或類似的單詞或者音節(jié)被使用相同的音素來(lái)表示。例如名字“John”或者“Jon”會(huì)被使用相同的音素來(lái)表示。在某些實(shí)施例中,名字“Joan”也可以使用與名字“John”和“Jon”相同的音素來(lái)表示。依據(jù)本發(fā)明每個(gè)音素隨后被部分地根據(jù)所用音素,以一種適當(dāng)?shù)臄?shù)碼系統(tǒng)表示為一個(gè)數(shù)字。
例如,一種特定語(yǔ)言可以被分割為其有限數(shù)目的“發(fā)音”或者音素,并表示為一個(gè)適當(dāng)數(shù)碼系統(tǒng)之內(nèi)的數(shù)字。以這種方式,文本可以根據(jù)語(yǔ)音而不是特定拼寫進(jìn)行編碼,從而使拼寫錯(cuò)誤的影響最小化,例如使用搜索引擎時(shí)的拼寫錯(cuò)誤。
本發(fā)明的這些實(shí)施例可以擴(kuò)展到語(yǔ)音、語(yǔ)音識(shí)別和人工語(yǔ)音表現(xiàn)機(jī)制。尤其是,聽覺語(yǔ)音音素(與相應(yīng)的文本音素相對(duì))也可以在一個(gè)適當(dāng)?shù)臄?shù)碼系統(tǒng)中如上述所表示,并被用于簡(jiǎn)化上述的語(yǔ)音識(shí)別與語(yǔ)音表現(xiàn)。
在本發(fā)明的其他實(shí)施例中,單詞、詞組、習(xí)慣用語(yǔ)、句子、和/或想法可以被預(yù)編碼,然后被表示了一個(gè)適當(dāng)數(shù)碼系統(tǒng)中的數(shù)碼,如上所述。這樣的實(shí)施例可以被用于,例如,改進(jìn)自動(dòng)語(yǔ)言翻譯系統(tǒng)。這些實(shí)施例還可以被用于改進(jìn)搜索引擎。被稱為一個(gè)或多個(gè)想法或概念的大型文本可以根據(jù)所傳達(dá)的想法或概念的每一條來(lái)進(jìn)行預(yù)編碼。這些實(shí)施例提供概念性搜索,相對(duì)于識(shí)別和/或定位可能不出現(xiàn)在段落中的特定單詞或詞組。
在本發(fā)明的另一個(gè)實(shí)施例中,原始地址信息被預(yù)編碼為坐標(biāo)表示,例如,根據(jù)經(jīng)度和緯度,并隨后在一個(gè)適當(dāng)?shù)臄?shù)碼系統(tǒng)中被表示出來(lái),例如,在一個(gè)基數(shù)60的數(shù)碼系統(tǒng)中。這樣一個(gè)系統(tǒng)可能對(duì)繪圖操作、導(dǎo)航系統(tǒng)或者跟蹤系統(tǒng)特別有用。
在本發(fā)明的另一個(gè)實(shí)施例中,原始指紋數(shù)據(jù)被預(yù)編碼為不同參數(shù)、記錄點(diǎn)(registration points)或者其他適于分類指紋的識(shí)別標(biāo)記,它們每一個(gè)隨后被表示為一個(gè)適當(dāng)數(shù)碼系統(tǒng)中相應(yīng)的數(shù)字。于是,每個(gè)指紋可以以一個(gè)字段中的值來(lái)表示,或者替換地,每個(gè)指紋可以被表示為一個(gè)字段向量??梢猿鲇诙喾N目的(即犯罪的和非犯罪的目的)在一個(gè)這種信息的數(shù)據(jù)庫(kù)中根據(jù)從個(gè)人收集的指紋對(duì)結(jié)果數(shù)據(jù)進(jìn)行組織和維護(hù),這些可以包括由法庭專家、保安人員、背景調(diào)查員等收集的指紋。本發(fā)明理想地適用于凈化現(xiàn)有指紋數(shù)據(jù)庫(kù)、將那些數(shù)據(jù)庫(kù)合并到一個(gè)參考數(shù)據(jù)庫(kù)中、當(dāng)變得可用時(shí),增加新指紋信息、并將指紋信息與參考數(shù)據(jù)庫(kù)中的信息進(jìn)行匹配。
可以理解,在使用預(yù)編碼的實(shí)施例中,在許多情況下,基本的初始數(shù)據(jù)必須被預(yù)處理為中間格式。這樣,為了本發(fā)明可以被使用在一個(gè)搜索環(huán)境中,被搜索的信息必須被預(yù)編碼或者“預(yù)處理”。在某些情況下,這種處理可能會(huì)導(dǎo)致語(yǔ)義意義的損失,如上面針對(duì)本發(fā)明的其他實(shí)施例所作的敘述那樣。
示例性實(shí)施例本發(fā)明不同實(shí)施例可以被用于許多不同應(yīng)用,它們中的一些已經(jīng)在上面描述和/或側(cè)面提到了。例如,在上述應(yīng)用中,本發(fā)明可以被用于組合從多個(gè)來(lái)源收集的計(jì)賬信息來(lái)導(dǎo)出一個(gè)提取數(shù)據(jù)庫(kù),在該提取數(shù)據(jù)庫(kù)中有關(guān)數(shù)據(jù)記錄被識(shí)別而且重復(fù)與錯(cuò)誤數(shù)據(jù)記錄被去除。如所建議的那樣,這可能會(huì)在例如涉及欺詐的情況下特別有用。典型地,使用信用卡或者其他形式的零售欺詐的人對(duì)其某些個(gè)人信息進(jìn)行微小的改變,而讓大多數(shù)信息保持相同。例如,一個(gè)社會(huì)保險(xiǎn)號(hào)碼中的數(shù)字時(shí)常可能被顛倒或者使用一個(gè)別名。然而,其他信息如個(gè)人地址、出生日期、母親未婚時(shí)的姓氏等也經(jīng)常被相同地使用。這些類型的欺詐很容易為本發(fā)明所識(shí)別,雖然它們難以為人類分析所識(shí)別。
其他可能的應(yīng)用包括在電話推銷中,來(lái)編輯一個(gè)目標(biāo)個(gè)人或地址的列表;在郵購(gòu)目錄中,來(lái)減少大量發(fā)送給相同個(gè)人或家庭的目錄;或者合并來(lái)自銷售類似數(shù)據(jù)庫(kù)的不同銷售商的記錄。還有另一個(gè)潛在的應(yīng)用是在醫(yī)學(xué)研究或者診斷領(lǐng)域中,其中核酸中的腺嘌呤(A)、鳥嘌呤(G)、胞核嘧啶(C)與胸腺嘧啶(T)的核苷酸序列可以被識(shí)別。另一個(gè)由稅務(wù)組織如國(guó)家稅務(wù)局、州與地方政府等使用的應(yīng)用組織并維護(hù)準(zhǔn)確的名單與稅務(wù)基本信息。
在其他實(shí)施例中,本發(fā)明可以在開始被用作一個(gè)特定數(shù)據(jù)庫(kù)的門衛(wèi),以便從一開始就維護(hù)數(shù)據(jù)庫(kù)的完整性,而不是在晚些時(shí)候才在數(shù)據(jù)庫(kù)中實(shí)現(xiàn)完整性。在這些實(shí)施例中,沒有原始數(shù)據(jù)210出現(xiàn),并且只有新數(shù)據(jù)240存在。在新數(shù)據(jù)240被增加到數(shù)據(jù)庫(kù)之前,針對(duì)提取數(shù)據(jù)庫(kù)230進(jìn)行度量,以判斷新數(shù)據(jù)240是否包括附加信息或者內(nèi)容。如果是,則只有新信息或內(nèi)容通過更新提取數(shù)據(jù)庫(kù)230中的一條現(xiàn)有記錄被加入提取數(shù)據(jù)庫(kù)230,以反映新信息或數(shù)據(jù),這是顯而易見的。
在本發(fā)明的另一個(gè)實(shí)施例中,一個(gè)郵件服務(wù),如美國(guó)郵政局,或者一個(gè)快件遞送服務(wù),如Airborne Express,F(xiàn)ederal Express,United ParcelService等,它們使用本發(fā)明來(lái)維護(hù)一個(gè)有效遞送地址列表。一個(gè)與一件要被遞送的物品相關(guān)聯(lián)的地址針對(duì)一個(gè)地址參考數(shù)據(jù)庫(kù)進(jìn)行檢查,以識(shí)別在該地址中的任何不準(zhǔn)確性。不準(zhǔn)確的地址可以或者被糾正(如對(duì)顛倒的號(hào)碼等),或者對(duì)其進(jìn)行聯(lián)系以驗(yàn)證該地址。新地址可以在變得可用時(shí)被加入到參考數(shù)據(jù)庫(kù),例如,在物品被成功遞送時(shí)。另外,某些發(fā)件人可以被識(shí)別為傾向于寄錯(cuò)物品或者提供了不正確的地址。如果合適的話,這些發(fā)件人可以被通知。
除了使用本發(fā)明來(lái)匹配如上所述的DNA序列片斷之外,遺傳學(xué)研究者(如藥品公司、種子公司、動(dòng)物飼養(yǎng)員等)還可以使用本發(fā)明來(lái)表示在一個(gè)集合中個(gè)人明顯的、切實(shí)的和/或客觀的特征,并使用這種信息來(lái)識(shí)別造成這些特征的個(gè)人基因或基因序列。
在另一個(gè)實(shí)施例中,本發(fā)明被用于在一個(gè)網(wǎng)絡(luò)如因特網(wǎng)上的信號(hào)(數(shù)據(jù)包)交換與路由數(shù)據(jù)。為一個(gè)目的地址和序列信息檢查一個(gè)進(jìn)入包并將數(shù)據(jù)包以適當(dāng)?shù)捻樞蚺判驗(yàn)橐粋€(gè)適當(dāng)?shù)妮敵鲫?duì)列。在本實(shí)施例中,本發(fā)明對(duì)數(shù)碼排序的能力提供了對(duì)傳統(tǒng)系統(tǒng)獨(dú)特的優(yōu)點(diǎn)。使用一個(gè)替換數(shù)碼系統(tǒng)(與現(xiàn)在所使用的一個(gè)傳統(tǒng)數(shù)碼系統(tǒng)相對(duì))會(huì)產(chǎn)生一個(gè)擴(kuò)充的地址空間,這提供了對(duì)網(wǎng)絡(luò)尋址與通信協(xié)議方法的改進(jìn)。
在另一個(gè)實(shí)施例中,本發(fā)明被用于在一個(gè)三維環(huán)境中表現(xiàn)并顯示一個(gè)對(duì)象。這些行為需要龐大數(shù)量的排序來(lái)判斷哪些對(duì)象在前景顯示而哪些對(duì)象相應(yīng)淡化地背景上,以及判斷每個(gè)對(duì)象的亮度特性(即陰影等)。
雖然在一個(gè)優(yōu)選實(shí)施例中描述了本發(fā)明,其他實(shí)施例與變化都在后面的權(quán)利要求范圍之內(nèi)。例如,格式化過程300可以使用不同的基數(shù)或者其他字符集來(lái)格式化數(shù)據(jù),并且可以使用不同的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)結(jié)構(gòu)可以表示多字段;根據(jù)應(yīng)用,數(shù)據(jù)結(jié)構(gòu)將表示多種字段。例如,在一個(gè)信用應(yīng)用中,除了關(guān)于賬戶持有人的個(gè)人信息之外,字段還可以包括賬戶狀態(tài)、賬號(hào)和法律狀態(tài)。在一個(gè)醫(yī)療診斷應(yīng)用中,字段可以包括等位基因或者其他在組織樣本中檢測(cè)出的基因特征。
權(quán)利要求
1.一種用于處理信息的方法,包括以下步驟根據(jù)在該信息中所包括的數(shù)據(jù)元素的可能值的一個(gè)范圍來(lái)選擇一種適當(dāng)?shù)臄?shù)碼系統(tǒng);將所述數(shù)據(jù)元素表示為在該數(shù)碼系統(tǒng)中的一個(gè)數(shù)字;以及對(duì)在該數(shù)碼系統(tǒng)中所表示的所述數(shù)據(jù)元素進(jìn)行運(yùn)算,以處理該信息。
2.權(quán)利要求1的方法,其中所述選擇一種適當(dāng)數(shù)碼系統(tǒng)的步驟包括選擇一個(gè)數(shù)碼系統(tǒng)的步驟,該系統(tǒng)具有一個(gè)至少等于包括在該信息中的數(shù)據(jù)元素可能值數(shù)目的基數(shù)。
3.權(quán)利要求1的方法,其中信息中的所述數(shù)據(jù)元素包括一個(gè)字母數(shù)字字符,并且,其中選擇一個(gè)適當(dāng)數(shù)碼系統(tǒng)的步驟包括選擇一個(gè)數(shù)碼系統(tǒng)的步驟,該系統(tǒng)具有一個(gè)至少等于所述數(shù)據(jù)元素的可能字母數(shù)字字符數(shù)目的基數(shù)。
4.權(quán)利要求1的方法,其中信息包括化學(xué)信息、并且其中所述選擇一個(gè)適當(dāng)數(shù)碼系統(tǒng)的步驟包括選擇一個(gè)數(shù)碼系統(tǒng)的步驟,該系統(tǒng)具有一個(gè)至少等于信息中的可能化學(xué)結(jié)構(gòu)數(shù)目的基數(shù)。
5.權(quán)利要求2的方法,其中將信息中的所述數(shù)據(jù)元素表示為數(shù)碼系統(tǒng)中的一個(gè)數(shù)字的步驟包括為數(shù)碼系統(tǒng)中的每個(gè)數(shù)位賦與一個(gè)可以被識(shí)別為所述數(shù)據(jù)元素的值的步驟。
6.權(quán)利要求1的方法,其中將信息中的所述數(shù)據(jù)元素表示為數(shù)碼系統(tǒng)中的一個(gè)數(shù)字的步驟包括為數(shù)碼系統(tǒng)中的每個(gè)數(shù)字賦與一個(gè)可以被識(shí)別為所述數(shù)據(jù)元素的值的步驟。
7.權(quán)利要求2的方法,其中所述選擇一個(gè)適當(dāng)數(shù)碼系統(tǒng)的步驟還包括選擇具有所述基數(shù)的所述數(shù)碼系統(tǒng)的步驟,該基數(shù)也使在一個(gè)相關(guān)處理系統(tǒng)的一個(gè)數(shù)據(jù)字中所容納的數(shù)據(jù)元素?cái)?shù)目最大化。
8.權(quán)利要求4的方法,其中所述選擇一個(gè)適當(dāng)數(shù)碼系統(tǒng)的步驟還包括選擇具有所述基數(shù)的所述數(shù)碼系統(tǒng)的步驟,該基數(shù)也使在一個(gè)相關(guān)處理系統(tǒng)的一個(gè)數(shù)據(jù)字中所容納的數(shù)據(jù)元素?cái)?shù)目最大化。
9.一種用于將信息從至少一個(gè)原始數(shù)據(jù)庫(kù)轉(zhuǎn)換為一個(gè)提取數(shù)據(jù)庫(kù)的方法,該原始數(shù)據(jù)庫(kù)包括多個(gè)記錄,該多個(gè)記錄中的每一個(gè)都包括一個(gè)數(shù)據(jù)字段,每個(gè)數(shù)據(jù)字段包括一個(gè)數(shù)據(jù)元素,該方法包括以下步驟將原始數(shù)據(jù)庫(kù)中的一個(gè)非數(shù)字?jǐn)?shù)據(jù)字段轉(zhuǎn)換為一個(gè)數(shù)字向量;把所述向量與一個(gè)提取矩陣相比較以判斷所述向量是否被包括在所述提取矩陣中;如果所述向量沒有包括在所述提取矩陣中,則將所述向量包括到所述提取矩陣中;以及用所述提取矩陣構(gòu)成該提取數(shù)據(jù)庫(kù)。
10.權(quán)利要求9的方法,還包括以下步驟使帶有所述向量的信息可以表示其在原始數(shù)據(jù)庫(kù)中的起源。
11.權(quán)利要求9的方法,還包括以下步驟在一個(gè)參考數(shù)據(jù)庫(kù)中包括所述向量;以及在所述參考數(shù)據(jù)庫(kù)中為所述向量標(biāo)識(shí)出一個(gè)適當(dāng)位置。
12.權(quán)利要求11的方法,其中所述為所述向量標(biāo)識(shí)出一個(gè)適當(dāng)位置的步驟包括定位類似于所述向量的另一個(gè)向量的步驟。
13.權(quán)利要求12的方法,其中所述定位類似于所述向量的另一個(gè)向量的步驟包括數(shù)字化地比較所述向量與所述另一個(gè)向量的步驟。
14.權(quán)利要求11的步驟,還包括定位在所述參考數(shù)據(jù)庫(kù)中的一個(gè)第一向量的步驟,該第一向量與所述參考數(shù)據(jù)庫(kù)中的一個(gè)第二向量相類似。
15.權(quán)利要求14的步驟,其中所述定位一個(gè)第一向量的步驟包括在所述參考數(shù)據(jù)庫(kù)中定位所述第一向量的步驟,它可被看作與所述參考數(shù)據(jù)庫(kù)中的一個(gè)第二向量相同。
16.權(quán)利要求15的方法,其中所述定位所述第一向量的步驟包括在所述參考數(shù)據(jù)庫(kù)中定位所述第一向量的步驟,它與所述參考數(shù)據(jù)庫(kù)中的一個(gè)第二向量是重復(fù)的。
17.權(quán)利要求14的方法,還包括從所述第一向量和所述第二向量構(gòu)成一個(gè)提取向量的步驟,它包括來(lái)自所述第一向量和所述第二向量的最佳信息。
18.權(quán)利要求17的方法,其中所述比較所述向量與一個(gè)提取矩陣的步驟包括比較所述提取向量與所述提取矩陣以判斷所述提取向量是否被包括在所述提取矩陣中的步驟。
19.權(quán)利要求11的方法,還包括定位所述參考數(shù)據(jù)庫(kù)中的一個(gè)第一向量的步驟,它與所述參考數(shù)據(jù)庫(kù)中的每個(gè)其他向量都不相同。
20.權(quán)利要求11的方法,還包括從所述第一向量構(gòu)成一個(gè)提取向量的步驟。
21.權(quán)利要求20的方法,其中所述比較所述向量與一個(gè)提取矩陣的步驟包括比較所述提取向量與所述提取矩陣以判斷所述提取向量是否被包括在所述提取矩陣中的步驟。
22.權(quán)利要求9的方法,其中所述轉(zhuǎn)換數(shù)據(jù)字段的步驟包括以下步驟選擇一個(gè)具有一個(gè)基數(shù)的適當(dāng)?shù)臄?shù)碼系統(tǒng),該基數(shù)至少等于所述數(shù)據(jù)字段中一個(gè)數(shù)據(jù)元素的可能值數(shù)目;將所述數(shù)據(jù)元素表示為該數(shù)碼系統(tǒng)中的一個(gè)數(shù)字;以及在所述向量中儲(chǔ)存所述數(shù)據(jù)元素。
23.一種用于組織一個(gè)第一字段向量和一個(gè)第二字段向量的數(shù)據(jù)的方法包括以下步驟以一個(gè)特定順序?qū)Φ谝蛔侄蜗蛄窟M(jìn)行排序;以所述特定順序?qū)Φ诙侄蜗蛄窟M(jìn)行排序;將第一字段向量中的一個(gè)第一索引上的一個(gè)第一值與第二字段向量中的一個(gè)第二索引上的一個(gè)第二值進(jìn)行比較;如果所述第一值不等于所述第二值,則根據(jù)所述第一值與所述第二值之間的差調(diào)整所述第一索引與所述第二索引中的一個(gè)。
24.權(quán)利要求23的方法,其中如果所述第一值與所述第二值相等,則所述第一值與第二值被判斷為重復(fù)數(shù)據(jù)。
25.權(quán)利要求23的方法,其中所述以一個(gè)特定順序?qū)Φ谝蛔侄蜗蛄窟M(jìn)行排序的步驟包括以升序排序第一字段向量的步驟,并且其中所述以一個(gè)特定順序?qū)Φ诙侄蜗蛄窟M(jìn)行排序的步驟包括以升序排序第二字段向量的步驟。
26.權(quán)利要求23的方法,其中所述以一個(gè)特定順序?qū)Φ谝蛔侄蜗蛄窟M(jìn)行排序的步驟包括以降序排序第一字段向量的步驟,并且其中所述以一個(gè)特定順序?qū)Φ诙侄蜗蛄窟M(jìn)行排序的步驟包括以降序排序第二字段向量的步驟。
27.權(quán)利要求23的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括在所述第一值小于所述第二值時(shí)調(diào)整所述第一索引的步驟。
28.權(quán)利要求23的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括在所述第二值小于所述第一值時(shí)調(diào)整所述第二索引的步驟。
29.權(quán)利要求23的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括以下步驟如果所述第一值小于所述第二值,調(diào)整所述第一索引;如果所述第二值小于所述第一值,調(diào)整所述第二索引;
30.權(quán)利要求23的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括根據(jù)所述第一值是否大于所述第二值將所述第一索引與所述第二索引之一遞增的步驟。
31.權(quán)利要求23的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括根據(jù)所述第一值是否大于所述第二值將所述第一索引與所述第二索引之一遞減的步驟。
32.權(quán)利要求23的方法,其中所述第一值是一個(gè)數(shù)字值,并且其中所述第二值是一個(gè)數(shù)字值。
33.權(quán)利要求32的方法,其中所述第一值是一個(gè)代表字母數(shù)字值的數(shù)字值,并且,其中所述第二值是一個(gè)代表字母數(shù)字值的數(shù)字值。
34.權(quán)利要求23的方法,還包括以下步驟將所述第一字段向量分區(qū)為至少一個(gè)通用值的集合;以及將所述第二字段向量分區(qū)為至少一個(gè)通用值的集合。
35.權(quán)利要求34的方法,其中所述調(diào)整所述第一索引與所述第二索引之一的步驟包括將所述第一索引與所述第二索引之一調(diào)整到所述第一字段與所述第二字段向量中相應(yīng)的一個(gè)向量中的下一個(gè)分區(qū)集合的步驟。
36.一種用于組織一個(gè)第一字段向量與一個(gè)第二字段向量的數(shù)據(jù)的方法,第一字段向量與第二字段向量以一個(gè)特定的順序被排序,該方法包括以下步驟將所述第一字段向量分區(qū)為通用值的集合;將所述第二字段向量分區(qū)為通用值的集合;將第一字段向量中一個(gè)第一位置中的一個(gè)第一值與第二字段向量中一個(gè)第二位置上的一個(gè)第二值進(jìn)行比較;如果所述第一值不等于所述第二值,則根據(jù)所述第一值與所述第二值之間的差對(duì)所述第一位置與所述第二位置之一進(jìn)行調(diào)整。
37.權(quán)利要求36的方法,其中如果所述第一值與所述第二值相等,則所述第一與第二值被判斷為重復(fù)數(shù)據(jù)。
38.權(quán)利要求36的方法,其中所述調(diào)整所述第一位置與所述第二位置之一的步驟包括將所述第一位置與所述第二位置之一調(diào)整到所述第一字段向量與所述第二字段向量中相應(yīng)的一個(gè)向量的下一個(gè)分區(qū)集合中。
39.權(quán)利要求38的方法,其中第一與第二字段向量是以遞增數(shù)字順序進(jìn)行排序的,并且其中所述調(diào)整所述第一位置與所述第二位置之一的步驟包括以下步驟如果所述第一值小于所述第二值,則將所述第一位置調(diào)整到所述第一字段向量中的下一個(gè)分區(qū)集合;以及如果所述第二值小于所述第一值,則將所述第二位置調(diào)整到所述第二字段向量中的下一個(gè)分區(qū)集合。
40.權(quán)利要求38的方法,其中第一與第二字段向量是以遞減數(shù)字順序進(jìn)行排序的,并且其中所述調(diào)整所述第一位置與所述第二位置之一的步驟包括以下步驟如果所述第一值大于所述第二值,則將所述第一位置調(diào)整到所述第一字段向量中的下一個(gè)分區(qū)集合;以及如果所述第二值大于所述第一值,則將所述第二位置調(diào)整到所述第二字段向量中的下一個(gè)分區(qū)集合。
41.一種用于排序數(shù)據(jù)的方法,包括以下步驟接收一個(gè)要被排序的值;確定要包括所述值的一個(gè)向量中的一個(gè)第一位置;從所述位置上的所述向量檢索一個(gè)向量值;反饋所述向量值以確定所述值與所述向量值之間的一個(gè)差值;以及至少部分地根據(jù)所述差值來(lái)確定所述向量中的一個(gè)新位置。
42.權(quán)利要求41的方法,其中所述確定一個(gè)新位置的步驟包括至少部分地根據(jù)所述第一位置確定所述向量中的一個(gè)新位置的步驟。
43.一個(gè)用于組織數(shù)據(jù)的計(jì)算機(jī)系統(tǒng)包括一個(gè)儲(chǔ)存在其中的程序,用于執(zhí)行權(quán)利要求1到42的任何方法。
44.一種帶有附于其中的一個(gè)計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),該程序用于組織數(shù)據(jù)以執(zhí)行權(quán)利要求1到42的任何方法。
全文摘要
一種系統(tǒng)與方法,用于使用一種改進(jìn)的機(jī)制來(lái)識(shí)別數(shù)據(jù)庫(kù)中字段(如列)之間的重復(fù)數(shù)據(jù),以組織來(lái)自一個(gè)或多個(gè)來(lái)源的原始數(shù)據(jù)。字段可以是在一個(gè)單一數(shù)據(jù)庫(kù)之內(nèi)的類似字段,或者一對(duì)數(shù)據(jù)庫(kù)之內(nèi)相似或相同的字段,并且可以被組織為數(shù)組或字段向量。本發(fā)明將每個(gè)字段向量排序,并且,如果需要的話,用通用值對(duì)其分區(qū)。識(shí)別字段向量之間的重復(fù)數(shù)據(jù)所需要進(jìn)行的比較的數(shù)目由于反饋所比較的值之間的差而得到減少。這個(gè)差值被用于將索引調(diào)整到用于后續(xù)比較的字段向量。
文檔編號(hào)G06F12/00GK1461444SQ00812084
公開日2003年12月10日 申請(qǐng)日期2000年7月14日 優(yōu)先權(quán)日1999年7月20日
發(fā)明者布約恩·J·格魯恩沃爾德 申請(qǐng)人:英門迪亞公司