本發(fā)明屬于數(shù)據(jù)集成與管理
技術(shù)領(lǐng)域:
,尤其涉及一種基于隨機(jī)算法的分布式實(shí)體匹配方法。
背景技術(shù):
:實(shí)體匹配技術(shù)(也稱實(shí)體解析、數(shù)據(jù)關(guān)聯(lián)與重復(fù)檢測等)旨在從目標(biāo)數(shù)據(jù)集中識別出描述相同實(shí)體或?qū)ο蟮挠涗?,并通過對描述相同實(shí)體的多條記錄進(jìn)行篩選融合,實(shí)現(xiàn)對數(shù)據(jù)的集成與清洗。例如,在一個顧客對顧客(C2C)的在線市場中,人們可以輕松地開辦在線商店并且列出任何他們想賣的東西,所以同一件商品很可能被多個賣家以不同價格、品質(zhì)以及不同的商品描述來進(jìn)行販賣,這導(dǎo)致買家在選擇時感到困惑。實(shí)體匹配的目的是通過評估各個商品記錄的相似度,找出哪些實(shí)體信息對應(yīng)同種商品。經(jīng)過對這些實(shí)體信息中的臟數(shù)據(jù)進(jìn)行清洗,構(gòu)成一個相似商品信息的集合,供顧客挑選。在當(dāng)前的互聯(lián)網(wǎng)環(huán)境中,網(wǎng)絡(luò)數(shù)據(jù)和用戶生成內(nèi)容(UserGeneratedContent)的飛速增長改變了我們過去收集和管理信息的方式。數(shù)量龐大的網(wǎng)絡(luò)用戶群體作為數(shù)據(jù)的主要生產(chǎn)者,其極高的參與度使得數(shù)據(jù)生成過程變得更為簡單,但松散的管理模式卻導(dǎo)致數(shù)據(jù)變得更難管理。網(wǎng)絡(luò)數(shù)據(jù)與用戶生成內(nèi)容(UGC)具有數(shù)據(jù)總量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)質(zhì)量差等多個特點(diǎn)。很多研究工作嘗試過分別解決上述的問題:1)采用文本相似度來衡量非結(jié)構(gòu)化數(shù)據(jù)(如在線文檔)的相似性。它為半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提供了一種標(biāo)準(zhǔn)的度量方法;2)分詞技術(shù)被用來減少拼寫錯誤和人為錯誤對于數(shù)據(jù)質(zhì)量的負(fù)面影響。這已經(jīng)成為數(shù)據(jù)清理中一項(xiàng)重要的步驟,而且提高了實(shí)體匹配的精確度;3)數(shù)據(jù)分塊策略根據(jù)相似度將數(shù)據(jù)劃分成多個部分。因?yàn)橹恍枰容^相同分塊中的數(shù)據(jù),所以這些分塊策略能有效地減少比較代價。分布式環(huán)境相比于集中式環(huán)境,大幅度增加了運(yùn)算的并行度與系統(tǒng)的可拓展性,為大數(shù)據(jù)量的實(shí)體匹配提供了可能。借助如MapReduce的分布式運(yùn)算模型,可以將傳統(tǒng)方法運(yùn)用到分布式環(huán)境下,因此那些集中環(huán)境下的研究成果可以為分布式環(huán)境下的實(shí)體匹配提供解決思路。另一方面,一些傳統(tǒng)實(shí)體匹配方法移植到分布式環(huán)境時,通常無法充分利用分布式的并發(fā)優(yōu)勢,出現(xiàn)了負(fù)載均衡和網(wǎng)絡(luò)傳輸開銷等問題,性能較差。為了克服上述現(xiàn)有技術(shù)的缺陷,本發(fā)明在分布式系統(tǒng)環(huán)境下,為半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù) 據(jù)提出一種隨機(jī)匹配方法,并希望繼承一些先前的研究成果,減少計(jì)算開銷和網(wǎng)絡(luò)傳輸開銷。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提出了一種基于隨機(jī)算法的分布式實(shí)體匹配方法,包括如下步驟:數(shù)據(jù)預(yù)處理步驟:對原始數(shù)據(jù)進(jìn)行特征抽取,生成實(shí)體及其向量;簽名生成步驟:根據(jù)所述實(shí)體及其向量生成多個隨機(jī)向量,生成每一個隨機(jī)向量相應(yīng)的簽名,對所述簽名進(jìn)行多次隨機(jī)變換,再將實(shí)體編號、變換后簽名和變換序號傳輸?shù)椒植际焦?jié)點(diǎn)內(nèi);匹配對生成步驟:在分布式節(jié)點(diǎn)內(nèi)對所述簽名重排并分組,從組中提取匹配對;相似度計(jì)算步驟:通過計(jì)算海明距離得到所述匹配對的相似度。本發(fā)明的基于隨機(jī)算法的分布式實(shí)體匹配方法中,在所述數(shù)據(jù)預(yù)處理步驟包括:對于所述原始數(shù)據(jù)中進(jìn)行實(shí)體分詞,構(gòu)造出包含所有記錄中所出現(xiàn)的詞的詞典,最后根據(jù)每條所述記錄中各個詞的出現(xiàn)頻率將所述記錄轉(zhuǎn)化為統(tǒng)一的向量。本發(fā)明的基于隨機(jī)算法的分布式實(shí)體匹配方法中,使用Part-Of-SpeechTagger對所述原始數(shù)據(jù)進(jìn)行實(shí)體分詞。本發(fā)明的基于隨機(jī)算法的分布式實(shí)體匹配方法中,在所述生成簽名步驟中,使用位置敏感哈希函數(shù)生成數(shù)量小于所述向量維度的隨機(jī)向量。本發(fā)明的基于隨機(jī)算法的分布式實(shí)體匹配方法中,在所述生成簽名步驟中,利用可保留向量特征的位置敏感哈希函數(shù)計(jì)算所述隨機(jī)向量的簽名,在保留空間向量特征的同時減少網(wǎng)絡(luò)傳輸開銷;所述位置敏感哈希函數(shù)以如下公式表示:hr(u)=1r.u≥00r.u<0hr(u)=1r.u≥00r.u<0.]]>本發(fā)明的基于隨機(jī)算法的分布式實(shí)體匹配方法中,在所述匹配對生成步驟中,在所述分布式節(jié)點(diǎn)內(nèi)按隨機(jī)變換序號對所述簽名分組,并在組內(nèi)進(jìn)行排序,選擇每個簽名和同組中與其相鄰的多個簽名生成匹配對。本發(fā)明的基于隨機(jī)算法的分布式實(shí)體匹配方法中,在所述相似度計(jì)算步驟中,設(shè)定閾值并計(jì)算海明距離衡量匹配對的相似度,若相似度低于閾值,則認(rèn)定所述匹配對相似并輸出對應(yīng)的實(shí)體編號及相似度。本發(fā)明的基于隨機(jī)算法的分布式實(shí)體匹配方法中,在所述相似度計(jì)算步驟之后進(jìn)一步包括所述近實(shí)時查詢步驟:以用戶為單位,對文件路徑列表進(jìn)行分組與去重處理,得到關(guān)于源數(shù)據(jù)的文件路徑集合,根據(jù)所述集合中的文件路徑得到所述外存空間中的源數(shù)據(jù)文件。本發(fā)明的基于隨機(jī)算法的分布式實(shí)體匹配方法中,所述分布式實(shí)體匹配方法是基于分布式環(huán)境,所述分布式環(huán)境包括MapReduce計(jì)算框架、Hadoop分布式系統(tǒng)以及Hadoop分布式文件系統(tǒng)。本發(fā)明基于MapReduce框架在Hadoop上完成了算法實(shí)現(xiàn),使用Hadoop的分布式文件系統(tǒng)(HDFS)實(shí)現(xiàn)數(shù)據(jù)的存儲和讀寫。Hadoop具有良好的橫向擴(kuò)展能力,通過并行調(diào)度實(shí)現(xiàn)任務(wù)對大數(shù)據(jù)的高效處理能力。本發(fā)明的有益效果在于:本發(fā)明在所述生成簽名步驟中將高維向量轉(zhuǎn)換成了多個低維簽名,有效地減少了網(wǎng)絡(luò)傳輸開銷。本發(fā)明在所述匹配對生成步驟中,在shuffle階段對所有簽名進(jìn)行分組重排,各組包含所有實(shí)體同一次變換后的簽名,再將所有組均勻傳輸給各reduce節(jié)點(diǎn)進(jìn)行相似度計(jì)算,各節(jié)點(diǎn)接收到的簽名數(shù)量相近,解決了分布式系統(tǒng)中的負(fù)載均衡問題。本發(fā)明中只需要執(zhí)行一個MapReduce任務(wù),相比其他采用多MapReduce任務(wù)的實(shí)體匹配方法,減輕了因額外任務(wù)調(diào)度產(chǎn)生的計(jì)算代價,帶來性能提升。通過實(shí)驗(yàn),本發(fā)明與其他分布式實(shí)體匹配方法相比,在保證了匹配準(zhǔn)確率的同時,性能上有很大的優(yōu)勢,在不同大小的數(shù)據(jù)集上都展現(xiàn)出了較好的兼容性。附圖說明圖1是本發(fā)明基于隨機(jī)算法的分布式實(shí)體匹配方法的流程圖。圖2是具體實(shí)施中的MapReduce示例圖。具體實(shí)施方式結(jié)合以下具體實(shí)施例和附圖,對本發(fā)明作進(jìn)一步的詳細(xì)說明。實(shí)施本發(fā)明的過程、條件、實(shí)驗(yàn)方法等,除以下專門提及的內(nèi)容之外,均為本領(lǐng)域的普遍知識和公知常識,本發(fā)明沒有特別限制內(nèi)容。本發(fā)明基于隨機(jī)算法的分布式實(shí)體匹配方法支持對對海量實(shí)體的匹配處理。本發(fā)明在開源分布式平臺上制定有效的數(shù)據(jù)存儲策略、利用高效的數(shù)據(jù)索引技術(shù)支持時間敏感的查詢處理,并設(shè)計(jì)了基于時間敏感的數(shù)據(jù)存儲策略,為查詢的快速文件定位提供保障,實(shí)現(xiàn)了基于倒排技術(shù)的索引,為查詢提供高效的文件過濾。如圖1所示,本發(fā)明基于隨機(jī)算法的分布式實(shí)體匹配方法,其特征在于,包括如下步驟:S1數(shù)據(jù)預(yù)處理步驟:對原始數(shù)據(jù)進(jìn)行特征抽取,生成實(shí)體及其向量;S2簽名生成步驟:根據(jù)實(shí)體及其向量生成多個隨機(jī)向量,生成每一個隨機(jī)向量相應(yīng)的簽名,對簽名進(jìn)行多次隨機(jī)變換,再將實(shí)體編號、變換后簽名和變換序號傳輸?shù)椒植际焦?jié)點(diǎn)內(nèi);S3匹配對生成步驟:在分布式節(jié)點(diǎn)內(nèi)對簽名重排并分組,從組中提取匹配對;S4相似度計(jì)算步驟:通過計(jì)算海明距離得到匹配對的相似度。之后進(jìn)一步包括近實(shí)時查詢步驟:以用戶為單位,對文件路徑列表進(jìn)行分組與去重處理,得到關(guān)于源數(shù)據(jù)的文件路徑集合,根據(jù)集合中的文件路徑得到外存空間中的源數(shù)據(jù)文件。本發(fā)明的基于隨機(jī)算法的分布式實(shí)體匹配方法中,實(shí)體表示數(shù)據(jù)集中描述客觀物體的記錄,實(shí)體對表示一對物體記錄;鍵值對為MapReduce計(jì)算框架中Map和Reduce作業(yè)的輸入輸出結(jié)構(gòu),形如(key,value),其中鍵(key)可作為區(qū)分記錄的標(biāo)識,也可作為記錄分組的主鍵,值(value)為記錄所包含的具體信息;匹配對表示通過計(jì)算相似度得到的相似實(shí)體記錄對。本發(fā)明較小犧牲匹配準(zhǔn)確率而顯著提升了匹配速度,相較于其他分布式匹配方法,負(fù)載均衡、網(wǎng)絡(luò)傳輸花銷問題都得到了解決,性能上有很大的優(yōu)勢,能夠快速匹配處理不同大小的數(shù)據(jù)集。以下對本發(fā)明技術(shù)內(nèi)容做進(jìn)一步闡述:對于處理半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),余弦相似度是一個合適的方法。但是高維度的實(shí)體特征會使其降低匹配正確率。Charikar提出了用于余弦相似度的位置敏感哈希(LSH)函數(shù),為本發(fā)明提供了一個選擇。定理:假設(shè)有一個在k維向量空間中的向量集(記作Nk),然后從這個k維空間中生成一個隨機(jī)單位向量r,以如下式(1)定義一個哈希函數(shù)hr:hr(u)=1r.u≥00r.u<0(1)hr(u)=1r.u≥00r.u<0(1)hr(u)=1r.u≥00r.u<0---(1);]]>Geomans和Williams證明,對于向量u和v利用式(2)計(jì)算出對應(yīng)的關(guān)系。從式(2)中得到了式(3)中表述的余弦關(guān)系:Pr[hr(u)=hr(v)]=1-θ(u,v)π---(2)]]>cos(θ(u,v))=cos(1-Pr[hr(u)=hr(v)])π(3)另一種計(jì)算余弦相似度的方法是基于前面的定理發(fā)現(xiàn)的,能夠避免高維度問題。生成大量(d個)隨機(jī)向量,計(jì)算出每個向量u的hr(u),得到一個向量u的d位二進(jìn)制串{h1(u),2(u),…,d(u)},稱之為向量u的d位簽名Sd(u)。因?yàn)檫@個簽名包含了向量的特征,兩個簽名之間大的偏差意味著兩個向量很不同,所以任意兩個簽名的余弦相似度可以通過式(3)算得。此外,生成的隨機(jī)向量越多,得到的向量間的相似度越準(zhǔn)確。另一方面,如果用簽名之間的相似度來表示式(3)中的概率,可以發(fā)現(xiàn)pr[hr(u)=hr(v)]=1-(hammingdistance)/d。這樣一來,計(jì)算向量之間余弦相似度的問題被轉(zhuǎn)化成了計(jì)算簽名之間的海明距離。這樣更快而且內(nèi)存效率更高。在這種方式下,將一個k維的向量精簡成了d位,并且保留了余弦相似度,這里的d<<k。所以在本發(fā)明描述中,海明距離與余弦相似度的意思相同。(1)對原始數(shù)據(jù)進(jìn)行特征抽取生成向量在匹配過程之前,對原始數(shù)據(jù)進(jìn)行了三步預(yù)處理來得到我們想要的輸入。首先,本發(fā)明用Part-Of-SpeechTagger對實(shí)體分詞,然后找出數(shù)據(jù)集中出現(xiàn)的所有不同的詞(假設(shè)有k個),并構(gòu)造出包含所有記錄中詞的詞典,最后對每一條實(shí)體記錄u生成一個k維的向量Vu作為輸入,Vu中的第i維是詞典中的第i個詞在實(shí)體u中出現(xiàn)的頻率。預(yù)處理后得到以實(shí)體編號Eu為鍵、以Vu為值的鍵值對集合,作為實(shí)體匹配的輸入。(2)生成數(shù)據(jù)簽名本發(fā)明生成數(shù)據(jù)簽名步驟的目的是在盡可能保留實(shí)體特征的同時降低特征維度。輸入數(shù)據(jù)是形如(Eu,Vu)的實(shí)體對,先隨機(jī)生成d個k維向量{r1,r2,…,rd},d小于向量維度k,對于每個向量Vu,根據(jù)公式(1)所示的哈希函數(shù)hr(u)計(jì)算它的簽名,所以可以將向量Vu的簽名表示為:Vu={h1(u),hx(u),…,hd(u)]。每個向量u被表示成一個長度為d的二進(jìn)制串Su,并且鍵值對變成(Su,Eu)。如果直接對一組簽名排序,那些高相似度的簽名對可能不會靠得比較近。例如,不論兩個簽名有多相似,如果它們的第一位不同,那么字典序的結(jié)果會差很多。PLEB算法引入了簽名的隨機(jī)變換來解決這個問題。在生成隨機(jī)變換以后,海明距離小(即相似)的簽名有更高的可能在排序結(jié)果中靠得比較近。因此可以找出每個簽名的m個相鄰簽名然后生成實(shí)體對。一次隨機(jī)變換是根據(jù)隨機(jī)函數(shù),將原簽名的每一位映射到一個新的位置,可以看作是簽名打亂重排,從而使所有簽名盡可能有用均等的機(jī)會與相似的簽名排到一起。一個隨機(jī)變換函數(shù)類似于π(x)=(ax+b)modp,這里p是素?cái)?shù)且0<a<p,0≤b<p,a和b都是隨機(jī)取的。對每個簽名做t次隨機(jī)變換(隨機(jī)選擇t次a與b的值),這樣得到了每個簽名原始二進(jìn)制串的t個不同變換{Pu1,Pu2,…,Put}。在本步驟中將其作為map的輸出。因此對每一個實(shí)體,在本步驟執(zhí)行后有t個形如(i,Pui,Eu)的不同輸出,這里i表示變換的序號,Pui表示簽名Su第i次交換的結(jié)果,Eu是實(shí)體編號。本發(fā)明簽名生成步驟結(jié)束后,每個k維向量被轉(zhuǎn)化成了t個d位的簽名。由于d和t總是遠(yuǎn)小于k(為了更好的性能,d和t總是幾十或幾百,而k通常有幾十萬,這取決于輸入數(shù)據(jù)的大小),對了數(shù)據(jù)量進(jìn)行了一次很大的削減,同時也大大減少了分布式節(jié)點(diǎn)之間的網(wǎng)絡(luò)傳輸代價。(3)分組排列簽名并生成匹配對在簽名生成步驟后,在分布式節(jié)點(diǎn)內(nèi)引入一個分組排序過程,先根據(jù)變換序號對上一步的(i,Pui,Eu)分組,然后在每個分組中按字典序重排,得到t個形如(i,Li)的組,Li是一個有序 的簽名列表,例如{(P5i,E5),(P2i,E2),(Pni,En)…,(P3i,E3)},是所有由第i次變換生成的簽名安字典序排列的結(jié)果。然后在每個有序列表Li中,將每個簽名與其相鄰的m個簽名生成匹配對(在有序列表中相鄰簽名的相似度較高)。如圖2,Map階段的輸入實(shí)體包含(E0,V0)和(E4,V4),對應(yīng)生成的簽名為S0和S4;經(jīng)過t次隨機(jī)變換,得到其變換后簽名{P01,P02,…,P0t},{P41,P42,…,P4t},在Map階段的輸出包含了對應(yīng)每次變換的(i,P0i,E0)和(i,P4i,E4);在分組重排階段,按key即變換序號對(i,Pui,Eu)進(jìn)行分組,在每個分組中按變換后簽名Pui的字典序重排得到(i,Li);對于實(shí)體對E0,E4,在有序列表L0中其簽名相鄰,于是生成匹配對E0E4。(4)計(jì)算匹配對相似度本發(fā)明在計(jì)算匹配對的海明距離之前,預(yù)先設(shè)定一個閾值,因?yàn)楹C骶嚯x越近表示兩個實(shí)體越相似,故在計(jì)算過程中,如果兩個實(shí)體海明距離的計(jì)算結(jié)果低于設(shè)定的閾值,即實(shí)體的特征差異較小,則認(rèn)為它們相似,以(Eu1Eu2,similarity)的形式輸出這對實(shí)體及其相似度。如閾值為0.3,簽名長度20,若P0i為01101010010110100011,P4i為01101001010011101011,其海明距離為即0.2,小于閾值,認(rèn)為其相似,若P4i為01100001010011101001,海明距離為即0.35,大于閾值,認(rèn)為不相似。(5)近實(shí)時查詢以用戶為單位,對文件路徑列表進(jìn)行分組與去重處理,得到關(guān)于源數(shù)據(jù)的文件路徑集合,根據(jù)集合中的文件路徑得到外存空間中的源數(shù)據(jù)文件。本發(fā)明的保護(hù)內(nèi)容不局限于以上實(shí)施例。在不背離發(fā)明構(gòu)思的精神和范圍下,本領(lǐng)域技術(shù)人員能夠想到的變化和優(yōu)點(diǎn)都被包括在本發(fā)明中,并且以所附的權(quán)利要求書為保護(hù)范圍。當(dāng)前第1頁1 2 3