專利名稱:用于數(shù)據(jù)聚類和同義詞的發(fā)現(xiàn)和修改的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)系統(tǒng)中的數(shù)據(jù)聚類(clustering),更具體而言,涉及諸如同義 詞之類的數(shù)據(jù)聚類的發(fā)現(xiàn)和修改。
背景技術(shù):
數(shù)據(jù)挖掘包括從數(shù)據(jù)(諸如數(shù)據(jù)庫中的數(shù)據(jù))中提取潛在有用的信息。數(shù)據(jù)的聚 類在數(shù)據(jù)挖掘中經(jīng)常用到,它是將數(shù)據(jù)或?qū)傩苑诸惖讲煌娜航M,也就是,將數(shù)據(jù)分組到聚 類,使得每個(gè)聚類中的數(shù)據(jù)共享共同的特性。例如,數(shù)據(jù)聚類允許更有效地執(zhí)行搜索,這是 因?yàn)榭梢詫垲愡M(jìn)行搜索,而不是對每個(gè)個(gè)體屬性,從而減少搜索操作的數(shù)目。在一些計(jì)算系統(tǒng)中,特定的數(shù)據(jù)聚類可被稱為“同義詞”,其中同義詞包括多個(gè)不 同的數(shù)據(jù)項(xiàng),這些數(shù)據(jù)項(xiàng)對于搜索目的或類似功能而言被認(rèn)為是相同的。同義詞可具有“根 形式”,這是當(dāng)找到任何相關(guān)聯(lián)的數(shù)據(jù)項(xiàng)時(shí)假定的同義詞的缺省值。同義詞在搜索和尋找與 輸入詞并非精確匹配的數(shù)據(jù)時(shí)非常有用。例如,搜索人的特定名字將會(huì)找到與該名字精確 的匹配,該名字的同義詞可包括名字的變體,這些變體也可以被檢索以找到與同一人相關(guān) 的數(shù)據(jù)。在計(jì)算系統(tǒng)中利用同義詞的一個(gè)標(biāo)準(zhǔn)方式是提供作為查找表的同義詞表,該查找 表列出每個(gè)根形式詞語,上述每個(gè)根形式詞語被映射到與根相關(guān)聯(lián)的詞語或數(shù)據(jù)屬性的聚 類(同義詞詞語),并被認(rèn)為都具有相同的意思。典型地,已知的具有相同意思的同義詞詞 語是預(yù)定的或預(yù)先計(jì)算的,并存儲(chǔ)在同義詞表中供以后使用。當(dāng)接收到輸入詞語時(shí),通過在 同義詞表中(其提供了根形式詞語或同義詞標(biāo)識符)查找輸入詞語而尋找匹配的同義詞詞 語或?qū)傩?。使用現(xiàn)有同義詞的一個(gè)缺點(diǎn)是,對于非顯然的和/或難以預(yù)先計(jì)算的數(shù)據(jù)存在同 義詞詞語。例如,第一名字Robert (根詞語)的同義詞詞語可以是Bob,Bobbie,Dobb,Rab, Rabbie, Robbie, Robby, Rob, Robard, Raibeart, Lopaka 和 Lopeti,并非所有這些變體者β可 以事先找到或確定。進(jìn)一步地,同義詞或其他類型的數(shù)據(jù)聚類的形成和更新通常在輸入了 所有需要數(shù)據(jù)之后以離散的時(shí)間執(zhí)行,或在查詢時(shí)執(zhí)行,這會(huì)在極大減慢在該處理期間做 出的查詢,并潛在地使得在進(jìn)行更新之前同義詞數(shù)據(jù)不正確或不完善(有漂移)。此外,將根映射到同義詞詞語的查找表需要同義詞類型的領(lǐng)域知識,從而可以針 對該類型找到精確且完全的同義詞詞語列表。例如,必須使用語言學(xué)領(lǐng)域知識和技術(shù)來 準(zhǔn)確地找到名字或詞語的同義詞詞語,同時(shí)必須使用其他領(lǐng)域知識來確定其他類型的同義 詞,例如數(shù)字值。此外,存儲(chǔ)根的所有同義詞詞語可能占據(jù)巨大的存儲(chǔ)量,因?yàn)橐鎯?chǔ)每個(gè) 根的所有已知的同義詞詞語,而不管那些同義詞詞語是否曾經(jīng)被系統(tǒng)使用、存儲(chǔ)或搜索。相應(yīng)地,需要一種用于形成和修改數(shù)據(jù)聚類(例如同義詞)的改進(jìn)的方法和裝置, 其可以例如快速更新同義詞,并防止數(shù)據(jù)準(zhǔn)確性的漂移,而僅需要存儲(chǔ)系統(tǒng)使用中的同義 詞和屬性,和/或不需要數(shù)據(jù)的特定領(lǐng)域知識。本發(fā)明可以解決這樣的需求。
發(fā)明內(nèi)容
本發(fā)明涉及發(fā)現(xiàn)并修改諸如同義詞之類的數(shù)據(jù)聚類。在本發(fā)明一個(gè)方面,一種對 數(shù)據(jù)進(jìn)行聚類的方法包括接收關(guān)于系統(tǒng)的信息,該信息操縱系統(tǒng)可存取的數(shù)據(jù)庫中存儲(chǔ) 的或?qū)⒁鎯?chǔ)的一個(gè)或多個(gè)數(shù)據(jù)屬性,其中所述信息和操縱并不明確地與數(shù)據(jù)聚類相關(guān)。 基于所接收的信息自動(dòng)調(diào)整數(shù)據(jù)聚類,所述數(shù)據(jù)聚類包括多個(gè)數(shù)據(jù)屬性并包括通過所接收 的信息操縱的數(shù)據(jù)屬性中的至少一個(gè)。所述數(shù)據(jù)聚類響應(yīng)于正接收的信息而動(dòng)態(tài)調(diào)整。計(jì) 算機(jī)可讀介質(zhì)和系統(tǒng)包括類似的特征。在本發(fā)明的另一方面,一種對數(shù)據(jù)進(jìn)行聚類的方法包括接收關(guān)于系統(tǒng)的信息,該 信息包括在系統(tǒng)可存取的數(shù)據(jù)庫中的至少一個(gè)數(shù)據(jù)實(shí)體中有待存儲(chǔ)的多個(gè)所接收的數(shù)據(jù) 屬性?;谒邮盏男畔⑿薷囊粋€(gè)或多個(gè)數(shù)據(jù)聚類,所述一個(gè)或多個(gè)數(shù)據(jù)聚類中的每一個(gè) 包括多個(gè)數(shù)據(jù)屬性并包括所接收的數(shù)據(jù)屬性中的至少一個(gè),其中所述修改包括將特定數(shù)據(jù) 屬性從一個(gè)或多個(gè)數(shù)據(jù)聚類中移除。在本發(fā)明另一方面,用于發(fā)現(xiàn)同義詞的方法包括接收關(guān)于系統(tǒng)的信息,該信息包 括與特定數(shù)據(jù)實(shí)體相關(guān)聯(lián)的多個(gè)所接收的數(shù)據(jù)屬性,所述特定數(shù)據(jù)實(shí)體具有存儲(chǔ)在數(shù)據(jù)庫 中的數(shù)據(jù)屬性。所接收的數(shù)據(jù)屬性有待存儲(chǔ)在數(shù)據(jù)庫中存儲(chǔ)的一個(gè)或多個(gè)數(shù)據(jù)實(shí)體中,其 中所述信息和數(shù)據(jù)屬性并不明確地與同義詞相關(guān)。基于所接收的數(shù)據(jù)屬性并基于當(dāng)前存儲(chǔ) 的數(shù)據(jù),自動(dòng)形成同義詞,所述同義詞包括與數(shù)據(jù)實(shí)體相關(guān)聯(lián)的多個(gè)所接收的數(shù)據(jù)屬性。所 述形成包括,檢查包括所接 收的屬性中的至少一個(gè)的數(shù)據(jù)庫中的多個(gè)候選數(shù)據(jù)實(shí)體,并且 其中所述同義詞響應(yīng)于正接收的信息而動(dòng)態(tài)形成。根據(jù)本發(fā)明的實(shí)施例可提供動(dòng)態(tài)數(shù)據(jù)聚類和同義詞的發(fā)現(xiàn)和修改,其允許在接收 非同義詞相關(guān)輸入數(shù)據(jù)時(shí)調(diào)整同義詞。這允許實(shí)時(shí)執(zhí)行快速聚類和更新,而不會(huì)在數(shù)據(jù)中 引入漂移。此外,可以發(fā)現(xiàn)同義詞而不要求具體的領(lǐng)域知識,并可包括不同種類的數(shù)據(jù)屬 性,由于僅需要將系統(tǒng)輸入和使用的那些屬性包括在同義詞中,因此可減少存儲(chǔ)成本。
如以下附圖所示,現(xiàn)在將參照本發(fā)明的優(yōu)選實(shí)施例僅通過示例的方式描述本發(fā)明。圖1是適合用于本發(fā)明的示例系統(tǒng)的框圖;圖2A-2D是可以用于本發(fā)明的同義詞處理中的表的示例的示意性說明;圖3是說明本發(fā)明的同義詞處理方法的實(shí)施例的流程圖;圖4的流程圖說明用于執(zhí)行圖3的步驟的方法的實(shí)施例,在其中基于入站信息執(zhí) 行屬性的移除;以及圖5的流程圖說明圖3的步驟的實(shí)施例,其中發(fā)現(xiàn)同義詞并將其添加到同義詞表 和候選中。
具體實(shí)施例方式本發(fā)明涉及計(jì)算機(jī)系統(tǒng)中的數(shù)據(jù)聚類,更具體而言,涉及發(fā)現(xiàn)和修改諸如同義詞 之類的數(shù)據(jù)聚類。以下說明得到闡述以使得本領(lǐng)域技術(shù)人員能夠進(jìn)行并使用本發(fā)明,并被 提供在專利申請及其要求的背景中。本領(lǐng)域技術(shù)人員可以容易地想到對這里描述的優(yōu)選實(shí)施例和上位原則和特征做出各種修改。因此,本發(fā)明并不意圖局限于示出的實(shí)施例,而是對 應(yīng)于與這里描述的原則和特征相一致的最寬泛的范圍。主要依照特定執(zhí)行方式中提供的特定系統(tǒng)描述本發(fā)明。然而,本領(lǐng)域技術(shù)人員可 容易地認(rèn)識到,本方法和系統(tǒng)將有效地操作于其他執(zhí)行方式。例如,可用于本發(fā)明的系統(tǒng)執(zhí) 行方式可采取多個(gè)不同形式。本發(fā)明還在具有特定步驟的特定方法的背景下進(jìn)行描述。然 而,對于具有與本發(fā)明不矛盾的不同和/或附加步驟的其他方法,本方法和系統(tǒng)也可有效 操作。本發(fā)明的實(shí)施例可采取完全硬件實(shí)施例,完全軟件實(shí)施例或包含硬件和軟件元素 兩者的實(shí)施例的形式。軟件實(shí)施例可包括但不限于,固件、常駐軟件、微碼等等。此外,本發(fā) 明的實(shí)施例可采取程序指令或代碼的形式,其通過計(jì)算機(jī)可讀介質(zhì)存儲(chǔ),以供計(jì)算機(jī)或任 何指令執(zhí)行系統(tǒng)使用或與其結(jié)合使用。上述介質(zhì)可以是電子的、磁的、光學(xué)的、電磁的、紅外 的或半導(dǎo)體系統(tǒng)(或裝置或設(shè)備)或傳播介質(zhì)。計(jì)算機(jī)可讀介質(zhì)的例子包括,半導(dǎo)體或固 態(tài)存儲(chǔ)器,磁帶,可移除計(jì)算機(jī)盤,隨機(jī)存取存儲(chǔ)器(RAM),只讀存儲(chǔ)器(ROM),硬磁盤和光 盤(例如,CD-ROM,DVD等等)。為了更具體地描述本發(fā)明的特征,請參照圖1-5并結(jié)合以下的討論。根據(jù)本發(fā)明的方法和系統(tǒng)著重于調(diào)整數(shù)據(jù)集的數(shù)據(jù)聚類,包括形成新的數(shù)據(jù)聚類 和修改已有的數(shù)據(jù)聚類。數(shù)據(jù)聚類在這里被稱為“同義詞”。術(shù)語“同義詞”在這里是指兩 個(gè)或更多屬性的聚類、群組或聯(lián)合,其中這些屬性基于在系統(tǒng)10所存儲(chǔ)的數(shù)據(jù)記錄、集合 或“實(shí)體”中的足夠的共同發(fā)生或一起出現(xiàn)而被一起分組到同義詞中。例如,可以有利地使 用同義詞取代個(gè)體屬性來搜索數(shù)據(jù)候選,從而減少搜索操作的數(shù)目。根據(jù)本發(fā)明的方法和系統(tǒng)在數(shù)據(jù)攝取時(shí)提供一般性的實(shí)時(shí)數(shù)據(jù)聚類。根據(jù)本發(fā)明 的實(shí)施例可以以若干方式提供。例如,可以使用提供一般性的實(shí)時(shí)數(shù)據(jù)聚類的系統(tǒng)。具有 兩階段搜索的系統(tǒng)也可以符合本發(fā)明,其中搜索的一個(gè)階段獲得包括假陽性的候選匹配, 搜索的第二階段對候選進(jìn)行評分或以其他方式進(jìn)行分析,以進(jìn)一步將其縮窄和/或確認(rèn)想 要的候選。此外,在更具體的應(yīng)用中,實(shí)體識別和分辨系統(tǒng)可以符合本發(fā)明,其中尋找多個(gè) 實(shí)體,并比較不同的實(shí)體,以確定哪個(gè)實(shí)體與輸入屬性相關(guān)聯(lián)??梢允褂煤蜻x列表比較候選 實(shí)體,并對候選進(jìn)行評分以確認(rèn)想要的匹配。以下的實(shí)施例結(jié)合實(shí)體分辨系統(tǒng)進(jìn)行描述,但 是也可以應(yīng)用到其他實(shí)施例中其他類型的應(yīng)用。適合用于這樣的實(shí)體解析系統(tǒng)的系統(tǒng)的一個(gè)示例是來自IBM公司的Entity Analytic Solutions (EAS),包括關(guān)系分辨(Relationship Resolution)和匿名分辨 (Anonymous Resolution),其識別人或其他實(shí)體的身份標(biāo)識。該系統(tǒng)將不一致的、含糊的身 份標(biāo)識和屬性信息分辨為單個(gè)分辨的實(shí)體,例如用戶或組織;檢測個(gè)體和/或?qū)嶓w之間的 不明顯的關(guān)系;并分辨類似模糊的匹配性質(zhì),包括識別數(shù)據(jù)集中的歧義、拼寫錯(cuò)誤或部分記 錄的能力。圖1是適合用于本發(fā)明的示例系統(tǒng)10的框圖。系統(tǒng)10使用一個(gè)或多個(gè)計(jì)算機(jī)系 統(tǒng)、電子系統(tǒng)或設(shè)備來執(zhí)行。系統(tǒng)10的示例可以執(zhí)行在公知的系統(tǒng)硬件上,包括一個(gè)或多 個(gè)微處理器、存儲(chǔ)器(RAM,ROM,閃速存儲(chǔ)器等等),以及各種外圍設(shè)備,包括存儲(chǔ)設(shè)備(硬 盤、諸如DVD-ROM和CD-ROM的光學(xué)存儲(chǔ)),輸入設(shè)備(鍵盤、指點(diǎn)設(shè)備),輸出設(shè)備(顯示器, 打印機(jī))通信設(shè)備和網(wǎng)絡(luò)設(shè)備等等。在圖1的示例中,數(shù)據(jù)源系統(tǒng)11可以向應(yīng)用服務(wù)器12提供數(shù)據(jù),應(yīng)用服務(wù)器12可與數(shù)據(jù)庫服務(wù)器14通信。系統(tǒng)10也可以在其他實(shí)施例中使用 其他類型的系統(tǒng)來執(zhí)行。數(shù)據(jù)源系統(tǒng)11通過通信鏈路16向應(yīng)用服務(wù)器提供信息。數(shù)據(jù)源系統(tǒng)11可以自己 從不同源接收信息,諸如從輸入數(shù)據(jù)的用戶,通過網(wǎng)絡(luò)提供數(shù)據(jù)的不同系統(tǒng)等等接收信息。 在這里所指的示例中,信息包括與一個(gè)或多個(gè)“實(shí)體”或“數(shù)據(jù)實(shí)體”相關(guān)聯(lián)的數(shù)據(jù)屬性,其 中這樣的實(shí)體是數(shù)據(jù)在其中被分組的群組、集合或記錄。實(shí)體可以表示人、組織、物體、主 題、標(biāo)題等等。實(shí)體具有與其相關(guān)聯(lián)的一個(gè)或多個(gè)數(shù)據(jù)屬性,其中在一些實(shí)施例中,屬性可 描述或涉及實(shí)體。實(shí)體及其屬性存儲(chǔ)在系統(tǒng)10中并由其處理。實(shí)體還可具有一個(gè)或多個(gè) 不同的“帳戶”,這些帳戶是與實(shí)體相關(guān)聯(lián)的數(shù)據(jù)的不同集合。例如,諸如銀行之類的組織可以將一些種類的實(shí)體指定為不同人或顧客,其中每 個(gè)顧客可擁有不同的帳戶,諸如儲(chǔ)蓄的帳戶,或指定貨幣狀態(tài)的帳戶(支票帳戶、貸款帳 戶,等等)。與顧客實(shí)體相關(guān)聯(lián)的屬性可以是實(shí)體的描述信息,例如名字、地址、雇主、電話號 碼等等。應(yīng)用服務(wù)器12從數(shù)據(jù)源系統(tǒng)11接收入站(inbound)信息,并可以向請求客戶或 其他請求者提供應(yīng)用程序服務(wù)和用于信息的接口。應(yīng)用服務(wù)器可以允許服務(wù)器上的應(yīng)用與 其他從屬應(yīng)用(諸如其他服務(wù)器,數(shù)據(jù)庫管理系統(tǒng)等等)通信。對于本發(fā)明的描述的實(shí)施 例,應(yīng)用服務(wù)器12提供根據(jù)本發(fā)明的一個(gè)或多個(gè)同義詞處理應(yīng)用20。例如,同義詞應(yīng)用20 可以運(yùn)行用于連接到該應(yīng)用服務(wù)器的請求客戶。多個(gè)同義詞應(yīng)用20可以并行運(yùn)行,以提供 更有效的數(shù)據(jù)處理。在其他實(shí)施例中,同義詞應(yīng)用20可以運(yùn)行在客戶或數(shù)據(jù)庫服務(wù)器上。同義詞應(yīng)用20可以執(zhí)行本發(fā)明的同義詞發(fā)現(xiàn)和其他處理。該處理可包括,確定新 的同義詞是否包含在接收到的入站信息中,向已有同義詞添加屬性并從其中刪除屬性,以 及刪除同義詞。處理還可以包括候選處理,用于尋找和處理具有同義詞和/或類似屬性的 其他候選實(shí)體。下面參照圖3更詳細(xì)地描述這些功能。在其他實(shí)施例中,同義詞應(yīng)用的功 能可以并入到系統(tǒng)上的一個(gè)或多個(gè)不同應(yīng)用。數(shù)據(jù)庫服務(wù)器14可以提供對本發(fā)明中使用的信息的存儲(chǔ),并可以使用任何各種 可用的不同存儲(chǔ)設(shè)備來執(zhí)行,例如硬盤、磁帶或其他磁性存儲(chǔ),CD, DVD,或光學(xué)存儲(chǔ),等等。 對于描述的圖1的實(shí)施例,數(shù)據(jù)庫服務(wù)器14提供對數(shù)據(jù)庫24的存取,數(shù)據(jù)庫24存儲(chǔ)同義 詞表30,一個(gè)或多個(gè)屬性表32,實(shí)體同義詞表34,以及實(shí)體帳戶表36。同義詞表30存儲(chǔ)多 個(gè)同義詞,其中每個(gè)同義詞用同義詞標(biāo)識符標(biāo)注。同義詞表30存儲(chǔ)同義詞標(biāo)識符到與該同 義詞相關(guān)聯(lián)的屬性的映射。屬性表(多個(gè))32存儲(chǔ)系統(tǒng)10中實(shí)體的所有數(shù)據(jù)屬性,還可以 包括屬性種類和相關(guān)聯(lián)的帳戶的信息。實(shí)體同義詞表34存儲(chǔ)同義詞與該同義詞所關(guān)聯(lián)到 的實(shí)體之間的映射。在使用帳戶的實(shí)施例中,實(shí)體帳戶表36存儲(chǔ)帳戶與其關(guān)聯(lián)到的實(shí)體之 間的映射。參照圖2A到2D更詳細(xì)地描述這些表的示例。在本發(fā)明的替代實(shí)施例中,存儲(chǔ)在數(shù)據(jù)庫24中的一些或全部表可以在其他存儲(chǔ) 位置存儲(chǔ)并接受存取,例如在同義詞處理應(yīng)用20本地存儲(chǔ)。在一些替代實(shí)施例中,同義詞 應(yīng)用20可以運(yùn)行在數(shù)據(jù)庫服務(wù)器上,或者同義詞所應(yīng)用到的數(shù)據(jù)組可以存儲(chǔ)在同義詞應(yīng) 用本地的存儲(chǔ)中。圖2A到2D是可以存儲(chǔ)在數(shù)據(jù)庫服務(wù)器中(或其他系統(tǒng)存儲(chǔ)或存儲(chǔ)器中)并可用 在本發(fā)明的同義詞處理中的表的示例的示意性視圖。圖2A示出實(shí)體同義詞表34的示例。在一個(gè)列中,存儲(chǔ)同義詞標(biāo)識符以標(biāo)識不同的同義詞。在其他列中,存儲(chǔ)實(shí)體標(biāo)識符,其標(biāo) 識不同的實(shí)體,其中標(biāo)識的實(shí)體包括在表的同一行中列出的同義詞。該表允許追蹤同義詞 和實(shí)體,并允許在更新各種同義詞時(shí)更新實(shí)體。圖2B示出帳戶同義詞表36的示例。在一個(gè)列中,存儲(chǔ)帳戶標(biāo)識符以標(biāo)識系統(tǒng)上 提供的不同帳戶。在另一列中,存儲(chǔ)實(shí)體標(biāo)識符以標(biāo)識與表的同一列中的帳戶相關(guān)聯(lián)的特 定實(shí)體。在每個(gè)實(shí)體允許多個(gè)帳戶的實(shí)施例中,可使用表36來將帳戶與適當(dāng)實(shí)體相關(guān)聯(lián)。圖2C示出用于存儲(chǔ)本發(fā)明發(fā)現(xiàn)的同義詞的同義詞表30的示例。在表30中,表的 每個(gè)數(shù)據(jù)屬性與特定同義詞相關(guān)聯(lián)。表30包括用于標(biāo)識特定同義詞的同義詞標(biāo)識符列40。 屬性值列42存儲(chǔ)屬性的屬性值,所述屬性與表的同一行中列出的同義詞相關(guān)聯(lián)。在一些實(shí) 施例中可以包含屬性類型列44,其允許為分類屬性分配屬性種類。屬性種類可以是對系統(tǒng) 有用的任何指定種類,并在屬性表32 (以下描述)中指明。在一些情況下,屬性種類在搜索 候選時(shí)所進(jìn)行的同義詞處理中有用,如參照圖3更詳細(xì)的描述。表30中提供的每個(gè)同義詞 (通過同義詞ID標(biāo)識)具有與其相關(guān)聯(lián)的兩個(gè)或更多個(gè)屬性(屬性值),并因此在示例表 30中需要至少兩行的存儲(chǔ)。在其他實(shí)施例中可以提供其他表組織。圖2D示出用于存儲(chǔ)與系統(tǒng)30中的實(shí)體相關(guān)聯(lián)的數(shù)據(jù)屬性的屬性表32的示例。在 一個(gè)列46中,屬性標(biāo)識符標(biāo)識出每個(gè)個(gè)體屬性。種類列48指示出屬性的種類,如果在特定 實(shí)施例中提供了屬性種類的話。例如,表32示出四種不同的屬性種類名字,地址,電話號 碼和雇主??梢灾付ㄈ魏螌傩苑N類,其可以有助于對不同屬性進(jìn)行分類或限制搜索參數(shù)用 于附加的效率。在一些實(shí)施例中,一個(gè)屬性也可以是截然不同的屬性的子部分。例如,郵政 區(qū)號可以是其自身的屬性,也可以是獨(dú)立的地址屬性的一部分。值列50指示出屬性的值。術(shù)語“值”或“屬性”這里用于指代各種不同類型的數(shù) 據(jù)。例如,值可以是數(shù)字值(整數(shù),實(shí)數(shù),等等)或者包含一個(gè)或多個(gè)字母數(shù)字或特殊字符 的文本串。帳戶列52指示出針對存儲(chǔ)屬性的帳戶的相關(guān)聯(lián)帳戶標(biāo)識符,如果在使用的特定 實(shí)施例中使用帳戶的話。在不使用帳戶的其他實(shí)施例中,帳戶表32可在列52中包含實(shí)體 標(biāo)識符取代帳戶標(biāo)識符,實(shí)體標(biāo)識符可用于直接找到具有特定屬性的實(shí)體。在其他實(shí)施例中,屬性表32可以執(zhí)行為兩個(gè)或更多個(gè)獨(dú)立的表。例如,每個(gè)表可 以包含僅一個(gè)種類的屬性,使得存在用于名字屬性的表,用于街道地址屬性的不同的表,用 于電子郵件地址屬性的不同的表,等等。圖3的流程圖說明了用于本發(fā)明的同義詞處理的方法100的實(shí)施例。這里描述的 方法可以在硬件、軟件或硬件與軟件兩者的組合中執(zhí)行。方法100可以使用在計(jì)算機(jī)可讀 介質(zhì)上提供的程序指令來執(zhí)行,這樣的介質(zhì)例如是存儲(chǔ)器,磁帶,磁盤,光盤等等。應(yīng)該注 意,這里描述的方法的過程步驟僅僅是一個(gè)實(shí)施例,在其他實(shí)施例中,這些步驟可以以不同 次序或并行(在適當(dāng)?shù)臅r(shí)候)或以其他方式組合地執(zhí)行。方法開始于102,在步驟104中,接收入站信息(這里稱為“入站”)。入站信息操 縱系統(tǒng)的一個(gè)或更多數(shù)據(jù)屬性。該操縱可采取任何各種不同形式。例如,入站可以將數(shù)據(jù)插 入到數(shù)據(jù)庫服務(wù)器14所連接的數(shù)據(jù)庫中,或插入到不同數(shù)據(jù)集或其他存儲(chǔ)設(shè)備中(這里, 所有這些都稱為“數(shù)據(jù)庫”)。這樣的插入的數(shù)據(jù)可以是數(shù)據(jù)屬性,如這里所述,其包含在入 站中。在執(zhí)行實(shí)體分辨或識別的一些實(shí)施例中,入站信息可以是記錄,該記錄是輸入到系統(tǒng) 中并與系統(tǒng)10所識別的一個(gè)或多個(gè)數(shù)據(jù)實(shí)體相關(guān)聯(lián)的數(shù)據(jù)屬性的集合。在一個(gè)具體示例應(yīng)用中,入站可以是這樣的記錄,該記錄包括在銀行的信貸部門有待輸入到顧客(實(shí)體)的 新帳戶中的數(shù)據(jù)屬性,其中該記錄與顧客在銀行提交的信貸申請相關(guān)聯(lián),并且其中,數(shù)據(jù)屬 性包括名字、地址、雇主電話號碼、顧客的雇主。該入站還可以操縱系統(tǒng)的已有數(shù)據(jù)屬性。例如,一些實(shí)施例可以允許入站附加或 替代地(通過入站信息中的命令或指令)指示刪除數(shù)據(jù)庫或系統(tǒng)中存儲(chǔ)的特定數(shù)據(jù)屬性。 在一些實(shí)施例中,入站可以用于使用查詢尋找已有的數(shù)據(jù)屬性或?qū)嶓w。入站可以是任何適 當(dāng)?shù)母袷?,例如,在一種執(zhí)行方式中,入站是XML格式。在任何情況下,入站通常是有意的,并且明確地用于操縱數(shù)據(jù)庫中的數(shù)據(jù)(數(shù)據(jù) 插入,刪除,比較等等),例如用于數(shù)據(jù)實(shí)體或記錄,并且操縱和數(shù)據(jù)不需要具體地或明確地 涉及同義詞或數(shù)據(jù)聚類。例如,入站信息甚至不需要知道系統(tǒng)上同義詞或數(shù)據(jù)聚類的存在。 因此,根據(jù)本發(fā)明的實(shí)施例可以自動(dòng)地且動(dòng)態(tài)地執(zhí)行同義詞/數(shù)據(jù)聚類處理和調(diào)整,而不 需要有意用于或明確用于這樣的同義詞調(diào)整的具體輸入。在步驟106,從入站中提取數(shù)據(jù)屬性。在一些實(shí)施例中,這些屬性描述或涉及與關(guān) 聯(lián)的入站相關(guān)聯(lián)的一個(gè)實(shí)體(或者在替代實(shí)施例中,為一個(gè)或多個(gè)這樣的實(shí)體)。例如,插 入與上述信貸顧客相關(guān)的數(shù)據(jù)的入站記錄可以具有獨(dú)立的屬性,用于名字、完整地址、電話 號碼和顧客的雇主。完整地址可以作為屬性,以及/或者在一些實(shí)施例中,屬性也可以從工 作地址的一部分中提供,例如地址的州和郵政編碼。一旦提取出來,可以將屬性加載到系統(tǒng) 10的存儲(chǔ)器中。在步驟108,對于提取的屬性尋找同義詞,其中從同義詞表30選擇同義詞。查詢同 義詞表,以確定任何提取的屬性是否與表中的任何屬性值相匹配,如果找到匹配,選擇包括 那些屬性的對應(yīng)同義詞。表30中的每個(gè)同義詞具有至少兩個(gè)屬性。在將屬性劃分為種類的 實(shí)施例中,入站可包含與每個(gè)提取的屬性相關(guān)聯(lián)的種類,并且可以將該種類與同義詞表30 中的屬性種類進(jìn)行比較,以減小搜索的量。同義詞表30中的每個(gè)同義詞可以包含任何數(shù)目 不同種類的屬性。例如,可以將提取屬性的種類與圖2C的同義詞表的列44中列出的屬性 種類相比較,從而僅僅將與提取屬性具有相同種類的列42中的對應(yīng)屬性值和提取屬性進(jìn) 行比較。對于入站的每個(gè)提取屬性重復(fù)同義詞的選擇。在不具有種類的不同實(shí)施例中,可 以將提取屬性與同義詞表30中的每個(gè)屬性進(jìn)行比較。其他實(shí)施例可以使用其他方法來選 擇與提取屬性的一個(gè)或多個(gè)相匹配的同義詞。在步驟110,使用從同義詞表30中選擇的同義詞和提取的屬性的組來尋找和選擇 候選群組或?qū)嶓w。這些候選實(shí)體在這里被稱為“候選”,它們潛在地與“入站實(shí)體”,也就是, 與入站相關(guān)聯(lián)的實(shí)體匹配(最初可能并不知道是要將入站的信息添加到已有實(shí)體,還是添 加到由入站創(chuàng)建的新創(chuàng)建實(shí)體;在每種情況下,這都稱為入站實(shí)體)。使用選擇的同義詞如 下地尋找候選。對于步驟110中選擇的每個(gè)同義詞,選擇共享該所選同義詞的所有候選。在 描述的實(shí)施例中,這可以通過如下操作來執(zhí)行核查實(shí)體同義詞表34來尋找與所選同義詞 的標(biāo)識符相匹配的同義詞標(biāo)識符,并選擇具有匹配的同義詞的相關(guān)聯(lián)的一個(gè)或多個(gè)實(shí)體。 這對于每個(gè)所選同義詞進(jìn)行重復(fù)。這種種類的搜索例如允許使用每個(gè)同義詞使得查詢能夠 找到候選匹配,而不必使用每個(gè)同義詞或入站之中的每個(gè)屬性執(zhí)行查詢。在步驟110中還使用提取的屬性的集來尋找候選。可能從不是同義詞表30中任 何同義詞的一部分的入站中提取出屬性,并且使用這些非同義詞屬性來尋找和選擇附加的候選。例如,在描述的實(shí)施例中,將每個(gè)非同義詞屬性值與表32中的屬性值進(jìn)行比較,利用 圖2B的帳戶實(shí)體表36 (或其他合適的表),使用列52中用來匹配屬性值的帳戶標(biāo)識符來尋 找具有那些匹配屬性的候選。在不使用帳戶的其他實(shí)施例中,可以使用列52中的實(shí)體標(biāo)識 符來直接尋找具有匹配屬性的候選實(shí)體。在一些實(shí)施例中,可以將一些預(yù)定種類的屬性從 搜索候選中排除?!?shí)施例可執(zhí)行步驟112,在其中,使用所有提取的屬性(包括同義詞中的屬 性)將入站相對于步驟110中找到的所有候選進(jìn)行評分。屬性評分的方法可根據(jù)需要隨屬 性種類而改變??梢允褂萌魏喂脑u分方法來基于候選中的屬性和同義詞對候選進(jìn)行評 分。例如,公知的相似性評分技術(shù)可以適合地用于不同值種類(例如名字,地址,電話號碼 等等),例如,數(shù)字相似性可以考慮到數(shù)字移位或其他常見的用戶輸入錯(cuò)誤。一些實(shí)施例可 以對不共享同義詞的候選的分?jǐn)?shù)給出懲罰。在完成評分之后,就可以知道已評分的屬性與 入站的屬性的匹配接近程度,并可以使用評分分?jǐn)?shù)來提供更精確的候選,例如,可以將候選 列表縮窄到想要的更小的列表或?qū)⑵浯_認(rèn)為匹配。分?jǐn)?shù)可以用于系統(tǒng)10的其他功能,例如 提供想要的閾值匹配或候選,合并候選(例如,分?jǐn)?shù)決定了一個(gè)入站實(shí)體是否應(yīng)該與候選 合并),拆分實(shí)體(例如,入站揭示出入站實(shí)體應(yīng)該拆分為一個(gè)或多個(gè)實(shí)體,因?yàn)闃?gòu)成實(shí)體 的帳戶不再被認(rèn)為是可合并的匹配),為候選創(chuàng)建關(guān)系,等等。在一些實(shí)施例中,實(shí)體的真實(shí) 合并和拆分可即刻發(fā)生,因?yàn)樗梢杂绊懲x詞的添加和移除,如下所述。在步驟114,該過程基于入站信息和候選信息確定并執(zhí)行從同義詞中移除屬性。在 描述的實(shí)施例中,移除包括基于變得通用的屬性進(jìn)行移除,從數(shù)據(jù)中刪除,和/或基于落入 同義詞形成閾值之下的候選/屬性。通用屬性檢測包括,確定從入站中提取的任何屬性現(xiàn) 在是否出現(xiàn)在如此多的不同候選中,使得屬性已變得通用,因此不應(yīng)被用來尋找候選,不應(yīng) 作為同義詞的一部分。將屬性從一個(gè)或多個(gè)候選或?qū)嶓w中刪除可以例如基于來自入站或其 他源的直接指令而發(fā)生,該指令用以將一個(gè)或多個(gè)屬性從系統(tǒng)10中的一個(gè)或多個(gè)特定候 選或?qū)嶓w中刪除。當(dāng)入站的屬性減小具有同義詞屬性的候選的百分?jǐn)?shù)時(shí),可能出現(xiàn)落入同 義詞形成閾值之下的屬性,使得必須從已有同義詞中移除一個(gè)或多個(gè)屬性。下面參照圖4 更詳細(xì)地描述從同義詞移除屬性。在步驟116中,發(fā)現(xiàn)新的同義詞(如果有的話),并將其添加到系統(tǒng)10。這包括, 核查屬性是否合格來形成同義詞,將新的同義詞添加到候選,和/或?qū)傩蕴砑拥揭延型?義詞,這在以下參照圖5更詳細(xì)進(jìn)行描述。在步驟118,過程對之前的步驟114和/或116中添加和/或移除了至少一個(gè)同義 詞的候選進(jìn)行重新評價(jià)和調(diào)整。包含有添加的或移除的同義詞的所有候選都應(yīng)該進(jìn)行重新 評價(jià),以保持序列中性,也就是,這些候選可以盡可能快地得到更新,以適合于涉及這些候 選的下一操作。在描述的實(shí)施例中,重新評價(jià)涉及將候選運(yùn)行通過分辨循環(huán),在該循環(huán)中針 對每個(gè)這樣的候選執(zhí)行步驟106到步驟116。這允許每個(gè)候選包含最近更新的同義詞和與 該同義詞相關(guān)聯(lián)的屬性。然后,該過程在120完成。在描述的實(shí)施例中,如上所述,響應(yīng)于同義詞處理應(yīng)用正接收的入站信息,實(shí)時(shí)動(dòng) 態(tài)地處理同義詞。這允許同義詞和候選在數(shù)據(jù)攝取或接收時(shí)就得到更新,這可以極大地加 速基于同義詞和候選的后續(xù)查詢,因?yàn)椴恍枰獔?zhí)行后續(xù)的數(shù)據(jù)聚類。圖4是說明了執(zhí)行圖3的步驟114的方法的實(shí)施例的流程圖,其中基于入站信息執(zhí)行將屬性從同義詞的移除。將屬性從同義詞移除可以基于如上所述由入站引起的任何多 個(gè)不同結(jié)果,包括屬性變得通用,屬性從候選或?qū)嶓w刪除,以及屬性在一個(gè)或多個(gè)同義詞中 的頻率降低。在屬性從候選或?qū)嶓w刪除的情況下,可以在針對本發(fā)明描述的過程之前、期間 或之后執(zhí)行屬性從數(shù)據(jù)組的實(shí)際刪除,這里不對其進(jìn)行描述。過程開始于152,在步驟154中,選擇入站中的一個(gè)屬性,或者已經(jīng)被刪除或?qū)⒈?刪除(如果適用)的一個(gè)屬性。所選屬性包含在至少一個(gè)已有同義詞中。包含該所選屬性 的所有同義詞和包含該所選屬性的所有候選可從之前的步驟獲知。在步驟158,該過程核查屬性是否已變得通用。通用屬性檢測包括,確定所選屬性 現(xiàn)在是否出現(xiàn)在如此多的不同候選中,使得它已變得通用,因此不應(yīng)被用來尋找候選,不應(yīng) 作為同義詞的一部分。在描述的實(shí)施例中,通用處理可包括,核查包含屬性的候選(在圖3 的步驟110中找到的候選的集)的數(shù)目是否超過預(yù)定的通用閾值。如果候選的該數(shù)目超過 通用閾值,那么所選屬性被認(rèn)為是通用的。還可附加地或替代地執(zhí)行其他處理,以確定通用 屬性。如果發(fā)現(xiàn)屬性是通用的,那么該過程繼續(xù)進(jìn)行到步驟162,以將屬性從同義詞中移除, 如下所述。如果屬性被確定為不是通用的,那么該過程進(jìn)行到步驟160。在步驟160,對于包 含所選屬性的每個(gè)同義詞,該過程核查具有該同義詞的候選的數(shù)目現(xiàn)在是否小于具有所選 屬性的所有候選(其中入站實(shí)體作為候選被包含在內(nèi))的同義詞形成閾值百分比。閾值百 分比在之前的一些點(diǎn)使用,以形成同義詞,例如,在圖5的步驟204或208,如以下更詳細(xì)的 描述。在一個(gè)例子中,如果入站中所選屬性是已有同義詞的一部分,但在入站并沒有附有 同義詞的所有屬性,那么候選中具有同義詞的全屬性集的百分比已經(jīng)減小,使得全屬性集 不再合格作為同義詞。例如,如果入站僅包含同義詞中包含的三個(gè)屬性中的前兩個(gè),那么現(xiàn) 在包含具有所有三個(gè)屬性的同義詞的候選的百分比更小了。在另一例子中,如果所選屬性 選自候選之一(或更多),這可能減小了構(gòu)成同義詞的屬性集的候選數(shù)目(進(jìn)而,出現(xiàn)的數(shù) 目),使得閾值不再得到滿足。(在由入站中的指令引起的這種屬性刪除的情況下,從中刪 除屬性的實(shí)體可被認(rèn)為是入站實(shí)體)。如果仍然超過了同義詞閾值,那么該過程進(jìn)行到步驟168,如下所述。如果沒有超 過發(fā)現(xiàn)閾值,或者如果在步驟158中發(fā)現(xiàn)屬性已變得通用,那么該過程進(jìn)行到步驟162。在 步驟162,將所選屬性從相關(guān)聯(lián)的同義詞中移除。這例如通過將所選屬性的條目和種類從同 義詞表30中的相關(guān)聯(lián)同義詞標(biāo)識符中移除而執(zhí)行。替代地,在不同時(shí)間從同義詞中將屬性 標(biāo)記/指定為移除。在接下來的步驟164中,該過程核查在步驟162中移除任何屬性的每個(gè)同義詞在 移除之后是否僅包含一個(gè)屬性。如果不是,該過程進(jìn)行到步驟168,在以下進(jìn)行描述。如果 在同義詞中僅留下一個(gè)屬性,那么在步驟166中,將該同義詞整個(gè)移除,例如,這是通過從 同義詞表30中移除同義詞條目及其屬性。由于僅具有單個(gè)屬性的同義詞相比于使用屬性 進(jìn)行搜索并不能減少搜索量,因此并不需要這樣的同義詞而將其移除。在步驟168,該過程核查在上述步驟中是否還有沒檢查的附加的合格屬性。如果是 這樣,過程返回到步驟154,以選擇另一屬性。如果所有這樣的屬性已得到處理,那么過程在 170完成。圖5是說明了圖3的執(zhí)行步驟116的實(shí)施例方法的流程圖,其中發(fā)現(xiàn)同義詞并被添加到同義詞表和候選中。該過程開始于200,在步驟202中,該過程核查入站是否已經(jīng)包 含圖3的步驟108中確定的一個(gè)或多個(gè)同義詞。如果數(shù)據(jù)中不包含同義詞,那么該過程進(jìn) 行到步驟204,其中,該過程確定是否在超出包含被考慮的兩個(gè)或更多個(gè)屬性中任何屬性的 所有候選的預(yù)定同義詞形成閾值百分比的一些候選中,入站有那兩個(gè)或更多屬性與那些相 同屬性相匹配。比較中所使用的候選包括入站實(shí)體作為候選。在描述的實(shí)施例中,該過程 尋找屬性之間的精確匹配。這個(gè)步驟因而核查相同屬性的群組或集在有待考慮作為同義詞 的不同實(shí)體中是否足夠經(jīng)常地一起出現(xiàn),也就是,這些屬性具有共享的關(guān)聯(lián),因?yàn)樗鼈冊诙?個(gè)實(shí)體中一起出現(xiàn)??梢杂捎脩艋蛳到y(tǒng)管理員將同義詞閾值百分比設(shè)定到優(yōu)選的等級,其 允許根據(jù)需要發(fā)現(xiàn)更少或更多的同義詞。例如,同義詞閾值是70%,在圖3的步驟110中找到多于15個(gè)候選,10個(gè)候選具 有被考慮的兩個(gè)特定屬性中的一個(gè)或多個(gè)。如果發(fā)現(xiàn)兩個(gè)屬性出現(xiàn)在這10個(gè)候選中的至 少8個(gè)(這些候選包括入站),那么已經(jīng)超出了同義詞閾值,并且當(dāng)兩個(gè)屬性表現(xiàn)為合格作 為新的同義詞時(shí),將這兩個(gè)屬性考慮為足夠共同地分組在一起。在一些實(shí)施例中,可以針對新同義詞測試屬性的不同組合的每一個(gè)。例如,如果入 站具有三個(gè)屬性,可以確定所有三個(gè)屬性是否出現(xiàn)在超過閾值百分比的一些候選中,還可 以確定三個(gè)屬性中兩個(gè)的每種組合是否出現(xiàn)在超過閾值百分比的一些候選中。因此可以從 入站中的屬性組中發(fā)現(xiàn)多個(gè)同義詞,這些同義詞可以在其一些屬性上重疊。如果在步驟204中沒有超過同義詞閾值,那么過程在216完成。如果入站沒有兩 個(gè)或更多屬性出現(xiàn)在超過同義詞閾值的一些候選中,那么在步驟206,創(chuàng)建由這些屬性群組 構(gòu)成的一個(gè)或多個(gè)新的同義詞。在描述的實(shí)施例中,添加新的同義詞包括,針對新同義詞中 的每個(gè)屬性,向同義詞表30中的條目添加新的、未使用的同義詞標(biāo)識符,并將相關(guān)聯(lián)的屬 性分配給條目。如果屬性種類正被使用,那么還將同義詞中每個(gè)屬性的種類添加到同義詞 表30。此外,在步驟206,新的同義詞被添加到所有適當(dāng)?shù)暮蜻x,適當(dāng)?shù)暮蜻x是具有的屬 性集已經(jīng)被創(chuàng)建作為新的同義詞的候選。這可以包括,將同義詞添加到通過入站創(chuàng)建或添 加的入站實(shí)體。在描述的實(shí)施例中,通過將同義詞標(biāo)識符和相關(guān)聯(lián)的候選實(shí)體標(biāo)識符添加 到實(shí)體同義詞表34中,而將同義詞添加到候選。如果不同的屬性群組滿足閾值條件,則可 以添加多個(gè)新的同義詞。過程于是在216完成。在一些情況下,來自一個(gè)同義詞的屬性的子集可以形成一個(gè)或多個(gè)附加同義詞。 例如,如果入站中的四個(gè)屬性導(dǎo)致超過了同義詞閾值,那么,那四個(gè)屬性被包含在第一同義 詞中,第一同義詞被添加到適當(dāng)候選。還可能的是,不同候選僅具有那四個(gè)屬性中的兩個(gè)屬 性,其中那些不同候選的數(shù)目足夠大,以允許從那僅兩個(gè)屬性中形成第二同義詞,并且其中 第二同義詞被添加到那些不同候選以及添加到包括第一同義詞的候選。在一個(gè)實(shí)例中,四個(gè)候選具有特定的名字或地址屬性中的一個(gè)或兩者,候選1-3 都具有這些名字和地址屬性兩者,并且創(chuàng)建同義詞的閾值百分比是76%。因此,這些屬性沒 有被形成為同義詞,因?yàn)樗鼈兇嬖诘娜航M占所有候選的75%,沒有超過閾值。然后,接收到 入站信息,該信息將這些相同屬性插入到新的實(shí)體。這使得具有這些匹配屬性的候選的數(shù) 目變?yōu)?個(gè)總候選(其中包括入站實(shí)體)中有4個(gè),這就是80%,超過了閾值,因此發(fā)現(xiàn)具 有兩個(gè)屬性的新同義詞,并將其添加到表30。此外,候選1-3的每一個(gè)和通過入站創(chuàng)建的入站實(shí)體通過將其實(shí)體標(biāo)識符和同義詞標(biāo)識符添加到實(shí)體同義詞表34而添加新的同義詞?;氐讲襟E202,如果入站已經(jīng)包括一個(gè)或多個(gè)已有同義詞,過程進(jìn)行到步驟208, 其中確定是否可將非同義詞屬性添加到已有同義詞以創(chuàng)建擴(kuò)展的同義詞。確定入站中是否 有不是已有同義詞的一部分的任何屬性,并確定這些非同義詞屬性是否與在超出候選(具 有被考慮為擴(kuò)展的同義詞的一個(gè)或多個(gè)屬性,也就是,具有在已有同義詞中的任何屬性或 具有非同義詞屬性)的預(yù)定同義詞閾值百分比的一些同義詞候選中出現(xiàn)的非同義詞屬性 相匹配。這里,“同義詞候選”是這樣的候選,其已經(jīng)具有在入站中存在的相同的同義詞,因 此,該方法將具有原始同義詞加上非同義詞屬性的候選數(shù)目與閾值百分比進(jìn)行比較。如上 所述,候選的數(shù)目包括作為候選的入站實(shí)體。發(fā)現(xiàn)閾值百分比可以與步驟204中所使用的 相同。在描述的實(shí)施例中,過程尋找屬性之間的精確匹配。因此,該過程核查入站對一個(gè)或多個(gè)新的非同義詞屬性的插入是否導(dǎo)致針對非同 義詞屬性的匹配候選的數(shù)目超過閾值。與步驟204類似,在一些實(shí)施例中,可以對非同義詞 屬性與已有同義詞的不同組合就是否超過閾值就行測試,多個(gè)組合可能滿足閾值條件。如果閾值沒有得到滿足,那么該過程進(jìn)行到步驟204,如下所述。如果入站中有兩 個(gè)或更多個(gè)非同義詞屬性出現(xiàn)在超過發(fā)現(xiàn)閾值的一些同義詞候選中,那么在步驟210,將 非同義詞屬性添加到適當(dāng)?shù)囊延型x詞(也就是,入站中也存在于匹配候選中的特定同義 詞),以創(chuàng)建新的擴(kuò)展的同義詞,其包括已有同義詞加上添加的屬性。在描述的實(shí)施例中,這 通過將新的屬性添加到同義詞表30中的已有同義詞標(biāo)識符而執(zhí)行。如果屬性種類正被使 用,那么還可以將同義詞中每個(gè)屬性的種類添加到同義詞表。在步驟212,將新的同義詞添加到具有添加的屬性(以及已有同義詞)的任何候 選。在描述的實(shí)施例中,通過將同義詞標(biāo)識符和入站候選實(shí)體標(biāo)識符添加到實(shí)體同義詞表 34而將新的同義詞添加到入站實(shí)體(入站候選)(在適當(dāng)?shù)那闆r下)。在描述的使用類似于 圖2A-2D所示的表的實(shí)施例中,系統(tǒng)中已經(jīng)存儲(chǔ)的其他匹配候選通常已經(jīng)與表34中的(現(xiàn) 在擴(kuò)展的)同義詞相關(guān)聯(lián)。對于屬性可添加到的入站中的每個(gè)已有同義詞,重復(fù)上述步驟。在步驟214,該過程核查在入站中是否存在任何附加的非同義詞屬性,例如,其不 滿足步驟208的條件或沒有在步驟210中被添加到已有同義詞。這樣的非同義詞屬性可能 不滿足要被添加到已有同義詞的閾值條件,但是可能它們自身滿足形成新的同義詞的閾值 條件。因此,如果存在這樣的附加的非同義詞屬性,該過程進(jìn)行到步驟204,其中測試這些非 同義詞屬性是否可以形成任何新的同義詞,如以上針對該步驟所述。過程然后在216完成。應(yīng)該注意,在其他實(shí)施例中,如上所述的方法的步驟可以以不同順序執(zhí)行,可以在 適當(dāng)情況下同時(shí)執(zhí)行,和/或可以以不同方式進(jìn)行組合。例如,在圖3中,步驟114中將屬 性從同義詞移除可以與用以發(fā)現(xiàn)和添加新的同義詞的步驟116或者該過程的一部分同時(shí) 執(zhí)行。在圖4中,步驟164中核查同義詞是否僅包括一個(gè)屬性可以與步驟162中移除屬性 同時(shí)執(zhí)行。此外,在其他實(shí)施例中可以使用各種變體,例如不同種類的同義詞形成閾值。本發(fā)明的實(shí)施例可以有利地使用同義詞在數(shù)據(jù)庫中搜索匹配或候選數(shù)據(jù),而不是 通過用輸入數(shù)據(jù)的每個(gè)個(gè)體屬性進(jìn)行搜索來執(zhí)行更大數(shù)目的個(gè)體搜索,也就是,當(dāng)搜索任 何屬性時(shí),可以取代整個(gè)同義詞。這里描述的同義詞可以用在寬泛的各種應(yīng)用中,包括解 析、搜索引擎、拼寫檢查器等等。此外,本發(fā)明的實(shí)施例可以在數(shù)據(jù)正被攝取或正被插入到數(shù)據(jù)庫中時(shí)并基于正被插入的數(shù)據(jù)和系統(tǒng)中已經(jīng)存儲(chǔ)的數(shù)據(jù),提供實(shí)時(shí)且在飛速寫入中動(dòng)態(tài)調(diào)整(包括發(fā)現(xiàn)和/ 或修改)的同義詞或數(shù)據(jù)聚類。這允許針對與系統(tǒng)當(dāng)前數(shù)據(jù)的相關(guān)性對同義詞進(jìn)行經(jīng)常更 新和重新評價(jià)。此外,可以在攝取輸入數(shù)據(jù)時(shí),實(shí)時(shí)地更新與同義詞有關(guān)的所有條目,以保 持條目的數(shù)據(jù)最新,并防止條目漂移。這樣的特征維持一個(gè)動(dòng)態(tài)的同義詞表或字典,并相對 于現(xiàn)有方法節(jié)省時(shí)間,其中在現(xiàn)有方法中,基于靜態(tài)的、存儲(chǔ)的數(shù)據(jù)執(zhí)行數(shù)據(jù)聚類或同義詞 形成。例如,數(shù)據(jù)挖掘中的數(shù)據(jù)聚類通常非常緩慢。然而,如果如本發(fā)明實(shí)施例中可能實(shí)現(xiàn) 的,在攝取過程中實(shí)時(shí)確定聚類,那么隨后可以以極大加快的速度執(zhí)行查詢。此外,本發(fā)明的實(shí)施例可以提供同義詞發(fā)現(xiàn),而不需要具體的領(lǐng)域知識。因此,可 以在單個(gè)同義詞中收集多個(gè)種類的屬性(任何種類),并確定同義詞,而不需要知道特定種 類數(shù)據(jù)的相似性技術(shù)。這里描述的自動(dòng)同義詞發(fā)現(xiàn)不僅可用于名字要素,還可用于任何種 類的屬性,例如數(shù)字、地址要素、顏色、誤拼等等。此外,當(dāng)執(zhí)行實(shí)體分辨時(shí),在使用這里描述 的同義詞時(shí)可提供給特定數(shù)據(jù)分析器的得到增加的信息量和信息種類可能非常有用。例 如,系統(tǒng)可以通知用戶,已經(jīng)輸入地址的人中有90%還共享特定的電話號碼。此外,本發(fā)明的實(shí)施例可極大地縮減同義詞表或字典的存儲(chǔ)成本,因?yàn)樵谕x詞 中僅僅使用(非同義詞相關(guān)處理)特定點(diǎn)處系統(tǒng)所使用的數(shù)據(jù)屬性和系統(tǒng)存儲(chǔ)的數(shù)據(jù)屬 性。因此,僅需要存儲(chǔ)與系統(tǒng)使用和處理的實(shí)體和數(shù)據(jù)相關(guān)的同義詞,而不是使用過多存儲(chǔ) 空間來預(yù)先存儲(chǔ)大量的同義詞屬性,而這些大量的同義詞屬性卻從來不需要,因?yàn)檫@樣的 屬性既沒有在入站中找到,又沒有通過數(shù)據(jù)庫存儲(chǔ)。盡管根據(jù)示出的實(shí)施例描述了本發(fā)明,但是本領(lǐng)域技術(shù)人員將容易地認(rèn)識到,將 存在實(shí)施例的變體,并且這些變體會(huì)落在本發(fā)明的精神和范圍之內(nèi)。因此,本領(lǐng)域技術(shù)人員 可以做出許多修改,而不偏離所附權(quán)利要求的精神和范圍。
權(quán)利要求
一種對數(shù)據(jù)進(jìn)行聚類的方法,該方法包括接收關(guān)于系統(tǒng)的信息,該信息操縱系統(tǒng)可存取的數(shù)據(jù)庫中存儲(chǔ)的或?qū)⒁鎯?chǔ)的一個(gè)或多個(gè)數(shù)據(jù)屬性,其中所述信息和操縱并不明確地與數(shù)據(jù)聚類相關(guān);以及基于所接收的信息調(diào)整數(shù)據(jù)聚類,所述數(shù)據(jù)聚類包括多個(gè)數(shù)據(jù)屬性并包括通過所接收的信息操縱的數(shù)據(jù)屬性中的至少一個(gè),其中所述數(shù)據(jù)聚類響應(yīng)于正接收的信息而調(diào)整。
2.根據(jù)權(quán)利要求1的方法,其中所接收的信息包括有待存儲(chǔ)在數(shù)據(jù)庫中的一個(gè)或多個(gè) 接收的數(shù)據(jù)屬性,存儲(chǔ)的數(shù)據(jù)可由系統(tǒng)存取,其中調(diào)整的數(shù)據(jù)聚類是新的數(shù)據(jù)聚類,并且所 述調(diào)整包括,發(fā)現(xiàn)和形成新的數(shù)據(jù)聚類以包括所接收的數(shù)據(jù)屬性中的至少一個(gè)。
3.根據(jù)權(quán)利要求1的方法,其中所調(diào)整的數(shù)據(jù)聚類是系統(tǒng)可存取的已有存儲(chǔ)數(shù)據(jù)聚 類,所述調(diào)整包括,修改已有的數(shù)據(jù)聚類。
4.根據(jù)權(quán)利要求3的方法,其中所述修改包括,基于所接收的信息并基于數(shù)據(jù)庫中的 當(dāng)前數(shù)據(jù)將至少一個(gè)數(shù)據(jù)屬性從已有數(shù)據(jù)聚類中移除。
5.根據(jù)權(quán)利要求4的方法,其中所接收的信息包括有待存儲(chǔ)在數(shù)據(jù)庫中的一個(gè)或多個(gè) 接收的數(shù)據(jù)屬性,存儲(chǔ)的數(shù)據(jù)可由系統(tǒng)存取,其中將至少一個(gè)數(shù)據(jù)屬性從已有數(shù)據(jù)聚類中 移除包括,確定所移除的至少一個(gè)數(shù)據(jù)屬性已變得通用。
6.根據(jù)權(quán)利要求1的方法,其中數(shù)據(jù)聚類基于數(shù)據(jù)庫中被操縱的數(shù)據(jù)屬性中的至少一 個(gè)的當(dāng)前出現(xiàn)數(shù)目而調(diào)整。
7.根據(jù)權(quán)利要求1的方法,其中多個(gè)存儲(chǔ)的已有數(shù)據(jù)聚類可由系統(tǒng)存取,其中已有數(shù) 據(jù)聚類僅包括通過系統(tǒng)所接收的過去信息操縱的數(shù)據(jù)屬性,該過去信息并不具體與數(shù)據(jù)聚 類相關(guān)。
8.根據(jù)權(quán)利要求7的方法,其中所述多個(gè)已有數(shù)據(jù)聚類被存儲(chǔ)在表中,并響應(yīng)于正接 收的信息而被修改。
9.根據(jù)權(quán)利要求1的方法,其中數(shù)據(jù)聚類是用于從數(shù)據(jù)庫存儲(chǔ)的多個(gè)實(shí)體中尋找至少 一個(gè)候選實(shí)體的同義詞,每個(gè)候選實(shí)體具有多個(gè)相關(guān)聯(lián)的數(shù)據(jù)屬性。
10.根據(jù)權(quán)利要求1的方法,其中數(shù)據(jù)聚類中的多個(gè)數(shù)據(jù)屬性是多個(gè)不同種類。
11.根據(jù)權(quán)利要求1的方法,其中所接收的信息包括有待存儲(chǔ)在數(shù)據(jù)庫中的一個(gè)或多 個(gè)接收的數(shù)據(jù)屬性,存儲(chǔ)的數(shù)據(jù)可由系統(tǒng)存取,其中調(diào)整數(shù)據(jù)聚類包括尋找包含所接收的數(shù)據(jù)屬性中的至少一個(gè)的多個(gè)存儲(chǔ)的已有數(shù)據(jù)聚類;尋找其每一個(gè)包括已有數(shù)據(jù)聚類中的一個(gè)或多個(gè)的多個(gè)候選數(shù)據(jù)實(shí)體,以及其每一個(gè) 包括沒有包含在已有數(shù)據(jù)聚類中的多個(gè)所接收數(shù)據(jù)屬性中任一個(gè)的多個(gè)候選數(shù)據(jù)實(shí)體;以 及基于候選數(shù)據(jù)實(shí)體和所接收的信息,確定是否應(yīng)該從已有數(shù)據(jù)聚類中移除任一個(gè)數(shù)據(jù) 屬性。
12.根據(jù)權(quán)利要求11的方法,其中調(diào)整數(shù)據(jù)聚類還包括,確定多個(gè)所接收的數(shù)據(jù)屬性 形成新的數(shù)據(jù)聚類,其中新的數(shù)據(jù)聚類中的所接收的數(shù)據(jù)屬性出現(xiàn)在候選的閾值百分?jǐn)?shù) 中,所述候選包括新的數(shù)據(jù)聚類中的所接收屬性中的至少一個(gè),調(diào)整數(shù)據(jù)聚類還包括,將新 的數(shù)據(jù)聚類添加到包含新的數(shù)據(jù)聚類中的數(shù)據(jù)屬性的每個(gè)候選數(shù)據(jù)實(shí)體。
13.根據(jù)權(quán)利要求1的方法,其中調(diào)整數(shù)據(jù)聚類還包括,確定所接收的數(shù)據(jù)屬性中的至 少一個(gè)有待被添加到所接收信息中的已有數(shù)據(jù)聚類中,其中至少一個(gè)被添加的數(shù)據(jù)屬性和已有同義詞出現(xiàn)在候選數(shù)據(jù)實(shí)體的閾值百分?jǐn)?shù)中,所述候選數(shù)據(jù)實(shí)體包括已有數(shù)據(jù)聚類中 的所接收數(shù)據(jù)屬性中的至少一個(gè),或包括有待添加的至少一個(gè)所接收的數(shù)據(jù)屬性。
14.根據(jù)權(quán)利要求11的方法,其中確定是否應(yīng)該從已有數(shù)據(jù)聚類中移除任一個(gè)屬性包 括,基于接收的數(shù)據(jù)屬性確定候選數(shù)據(jù)實(shí)體的數(shù)目是否落在候選數(shù)據(jù)實(shí)體的閾值百分?jǐn)?shù)之 下。
15.根據(jù)權(quán)利要求11的方法,還包括,添加新的數(shù)據(jù)聚類,或從至少一個(gè)調(diào)整的候選數(shù) 據(jù)實(shí)體中移除已有數(shù)據(jù)聚類,以及評價(jià)至少一個(gè)調(diào)整的候選數(shù)據(jù)實(shí)體的數(shù)據(jù)屬性,以核查 至少一個(gè)調(diào)整的數(shù)據(jù)聚類是否已經(jīng)更新數(shù)據(jù)聚類。
16.根據(jù)權(quán)利要求1的方法,還包括接收關(guān)于系統(tǒng)的信息,該信息包括與特定數(shù)據(jù)實(shí)體相關(guān)聯(lián)的多個(gè)所接收的數(shù)據(jù)屬性, 所述特定數(shù)據(jù)實(shí)體具有存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù)屬性,所接收的數(shù)據(jù)屬性有待存儲(chǔ)在數(shù)據(jù)庫 中存儲(chǔ)的一個(gè)或多個(gè)數(shù)據(jù)實(shí)體中,其中所述信息和數(shù)據(jù)屬性并不明確地與同義詞相關(guān);以 及基于所接收的數(shù)據(jù)屬性并基于當(dāng)前存儲(chǔ)的數(shù)據(jù),形成同義詞,所述同義詞包括與數(shù)據(jù) 實(shí)體相關(guān)聯(lián)的多個(gè)所接收的數(shù)據(jù)屬性,其中所述形成包括,檢查包括所接收的屬性中的至 少一個(gè)的數(shù)據(jù)庫中的多個(gè)候選數(shù)據(jù)實(shí)體,并且其中所述同義詞響應(yīng)于正接收的信息而形 成。
17.根據(jù)權(quán)利要求16的方法,其中所述形成同義詞包括確定所接收的數(shù)據(jù)屬性中的一個(gè)或多個(gè)是否與其他所接收的數(shù)據(jù)屬性足夠頻繁地出 現(xiàn)在不同的數(shù)據(jù)實(shí)體中,以從出現(xiàn)的數(shù)據(jù)屬性形成同義詞。
18.一種計(jì)算機(jī)程序,包括適于執(zhí)行權(quán)利要求1-17中任一項(xiàng)的所有步驟的程序代碼裝 置,其中所述程序運(yùn)行在計(jì)算機(jī)上。
19.一種用于對數(shù)據(jù)進(jìn)行聚類的系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)庫,用于存儲(chǔ)多個(gè)數(shù)據(jù)實(shí)體,每個(gè)數(shù)據(jù)實(shí)體包括多個(gè)存儲(chǔ)的數(shù)據(jù)屬性;用于接收關(guān)于系統(tǒng)的信息的裝置,該信息操縱存儲(chǔ)的數(shù)據(jù)屬性中的一個(gè)或多個(gè),或所 接收的信息中存儲(chǔ)的一個(gè)或多個(gè)數(shù)據(jù)屬性,其中所述信息和操縱并不明確地與數(shù)據(jù)聚類相 關(guān);以及用于基于所接收的信息調(diào)整數(shù)據(jù)聚類的裝置,所述數(shù)據(jù)聚類包括多個(gè)數(shù)據(jù)屬性并包括 通過所接收的信息操縱的數(shù)據(jù)屬性中的至少一個(gè),其中所述數(shù)據(jù)聚類響應(yīng)于正接收的信息 而調(diào)整。
20.一種用于對數(shù)據(jù)進(jìn)行聚類的裝備,所述裝備包括用于接收關(guān)于系統(tǒng)的信息的裝置,該信息操縱系統(tǒng)可存取的數(shù)據(jù)庫中存儲(chǔ)的或?qū)⒁?儲(chǔ)的一個(gè)或多個(gè)數(shù)據(jù)屬性,其中所述信息和操縱并不明確地與數(shù)據(jù)聚類相關(guān);以及用于基于所接收的信息調(diào)整數(shù)據(jù)聚類的裝置,所述數(shù)據(jù)聚類包括多個(gè)數(shù)據(jù)屬性并包括 通過所接收的信息操縱的數(shù)據(jù)屬性中的至少一個(gè),其中所述數(shù)據(jù)聚類響應(yīng)于正接收的信息 而可操作地被調(diào)整。全文摘要
發(fā)現(xiàn)和修改諸如同義詞的數(shù)據(jù)聚類。在一個(gè)方面,用于對數(shù)據(jù)進(jìn)行聚類的方法包括接收關(guān)于系統(tǒng)的信息,該信息操縱系統(tǒng)可存取的數(shù)據(jù)庫中存儲(chǔ)的或?qū)⒁鎯?chǔ)的一個(gè)或多個(gè)數(shù)據(jù)屬性,其中所述信息和操縱并不明確地與數(shù)據(jù)聚類相關(guān)?;谒邮盏男畔⒆詣?dòng)調(diào)整數(shù)據(jù)聚類,所述數(shù)據(jù)聚類包括多個(gè)數(shù)據(jù)屬性并包括通過所接收的信息操縱的數(shù)據(jù)屬性中的至少一個(gè)。所述數(shù)據(jù)聚類響應(yīng)于正接收的信息而自動(dòng)調(diào)整。
文檔編號G06F17/30GK101911069SQ200980101769
公開日2010年12月8日 申請日期2009年1月5日 優(yōu)先權(quán)日2008年1月10日
發(fā)明者B·L·亨特, G·G·阿代爾 申請人:國際商業(yè)機(jī)器公司