国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于Map-Reduce框架的實(shí)體識(shí)別方法

      文檔序號(hào):6628139閱讀:236來源:國知局
      一種基于Map-Reduce框架的實(shí)體識(shí)別方法
      【專利摘要】本發(fā)明公開了一種基于Map-Reduce框架的實(shí)體識(shí)別方法,具體包括以下幾個(gè)步驟:從用戶數(shù)據(jù)庫中導(dǎo)出海量數(shù)據(jù),判斷數(shù)據(jù)是否規(guī)范;基于相同屬性值對(duì)實(shí)體進(jìn)行初步聚類,建立屬性索引表;對(duì)同一屬性索引表中的實(shí)體進(jìn)行實(shí)體識(shí)別,獲取相似實(shí)體對(duì),生成相似實(shí)體對(duì)集合文件,并計(jì)算實(shí)體對(duì)之間相似度;通過機(jī)器學(xué)習(xí)求得閾值;將相似實(shí)體對(duì)之間的相似度大小與閾值進(jìn)行比較,大于閾值的相似實(shí)體對(duì)符合輸出條件;通過實(shí)體劃分建立實(shí)體對(duì)關(guān)系圖,基于橋進(jìn)行初步圖劃分,基于節(jié)點(diǎn)間公共鄰居進(jìn)行實(shí)體劃分,生成實(shí)體分類文件;計(jì)算劃分中的實(shí)體屬于其所在實(shí)體分類的概率。本發(fā)明識(shí)別方法效率高,處理速度快,內(nèi)存占用小,適用于大規(guī)模數(shù)據(jù)上的實(shí)體識(shí)別。
      【專利說明】-種基于Map-Reduce框架的實(shí)體識(shí)別方法

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及一種實(shí)體識(shí)別方法,具體涉及一種基于Map-Reduce框架的實(shí)體識(shí)別 方法,能夠在大規(guī)模數(shù)據(jù)集合上運(yùn)行。

      【背景技術(shù)】
      [0002] 信息數(shù)據(jù)中對(duì)現(xiàn)實(shí)世界中同一事物的不同表示是導(dǎo)致數(shù)據(jù)質(zhì)量低下的一個(gè)重要 原因。在日常生活中,人們每天都要從網(wǎng)絡(luò)上的海量數(shù)據(jù)中檢索所需要的信息,如通過 DBLP,Yahoo shopping,AllMusic等網(wǎng)站。在檢索過程中人們常遇到的一個(gè)主要問題就是不 同對(duì)象的相同表示或者相同對(duì)象的不同表示。例如,在DBLP中檢索"Zhang Ping"的文章, 會(huì)檢索到由18個(gè)"Zhang Ping"發(fā)表的197篇文章。在AllMusic中存在以"Forgotten" 為名字的8207首歌曲以及616張專輯。相同的實(shí)體可能出現(xiàn)截然不同的表述形式,而出現(xiàn) 時(shí)往往會(huì)伴有大量的干擾信息,因此在上述情況下,人們往往不能快速地獲取他們想要的 答案。
      [0003] 同一對(duì)象的不同表示通常是由于不同的數(shù)據(jù)來源。不同的數(shù)據(jù)來源對(duì)同一對(duì)象有 著不同的表示要求和不同的表示形式,當(dāng)人們從不同的數(shù)據(jù)來源集成信息時(shí),在數(shù)據(jù)的存 儲(chǔ)過程以及傳遞過程中均會(huì)產(chǎn)生無法避免的錯(cuò)誤。因此,為了有效的管理數(shù)據(jù),提高數(shù)據(jù)質(zhì) 量,需要在數(shù)據(jù)中準(zhǔn)確識(shí)別出同一對(duì)象的不同表示,即實(shí)體識(shí)別。實(shí)體識(shí)別是數(shù)據(jù)質(zhì)量管理 中的一項(xiàng)重要技術(shù),對(duì)能否提高數(shù)據(jù)質(zhì)量中起著決定性作用。實(shí)體識(shí)別是對(duì)數(shù)據(jù)進(jìn)行質(zhì)量 管理的重要步驟,目的是在數(shù)據(jù)庫中識(shí)別描述同一個(gè)對(duì)象的不同表示方法,或者不同對(duì)象 的相同表示方法,從而正確地識(shí)別出數(shù)據(jù)庫中集成自不同數(shù)據(jù)源的的相同實(shí)體,其結(jié)果是 數(shù)據(jù)庫中所有實(shí)體的集合以及每個(gè)實(shí)體的不同表示形式。實(shí)體識(shí)別的結(jié)果可以在數(shù)據(jù)質(zhì)量 管理的各個(gè)階段得到廣泛的應(yīng)用,如真值發(fā)現(xiàn)、不一致數(shù)據(jù)發(fā)現(xiàn),去除冗余數(shù)據(jù)等。
      [0004] 文獻(xiàn) Z. Chen, D. V. Kalashnikov, S. Mehrotra,Exploiting context analysis for combining multiple entity resolution systems, in:Proceedings of the 2009ACM SIGM0D International Conference on Management of Data (SIGM0D' 09),2009, pp. 207 - 218提出一種基于實(shí)體出現(xiàn)的上下文環(huán)境來考慮實(shí)體是 否是相似的分類器。如:實(shí)體1出現(xiàn)的上下文環(huán)境是"實(shí)體1在研究所工作",而實(shí)體2出現(xiàn) 的上下文環(huán)境是"實(shí)體2在商場工作",則可判定實(shí)體1與實(shí)體2表示的不是同一對(duì)象,然而 該分類器在識(shí)別實(shí)體時(shí)往往需要考察大量文本資料,這些資料將占用大量的計(jì)算空間且在 其中找到相關(guān)實(shí)體也將消耗大量的時(shí)間。文獻(xiàn)Venkatesh Ganti,Arnd Christian K6nig, Rares Vernica, Entity Categorization Over Large Document Collections, SIGKDD2008 提出利用語義學(xué)知識(shí)和統(tǒng)計(jì)特征值的方法優(yōu)化基于上下文分類器的實(shí)體識(shí)別技術(shù),從而有 效降低計(jì)算空間,但是這種分類器并不適用于大規(guī)模數(shù)據(jù)上的實(shí)體識(shí)別。


      【發(fā)明內(nèi)容】

      [0005] 針對(duì)現(xiàn)有技術(shù)存在的不足,本發(fā)明目的是提供一種基于Map-Reduce框架的實(shí)體 識(shí)別方法,識(shí)別方法效率高,處理速度快,內(nèi)存占用小,且適用于大規(guī)模數(shù)據(jù)上的實(shí)體識(shí)別。
      [0006] 為了實(shí)現(xiàn)上述目的,本發(fā)明是通過如下的技術(shù)方案來實(shí)現(xiàn):
      [0007] 本發(fā)明的一種基于Map-Reduce框架的實(shí)體識(shí)別方法,具體包括以下幾個(gè)步驟:
      [0008] (1)從用戶數(shù)據(jù)庫中導(dǎo)出海量數(shù)據(jù),判斷數(shù)據(jù)是否規(guī)范,如果規(guī)范轉(zhuǎn)向步驟(2), 如果不規(guī)范則進(jìn)行數(shù)據(jù)預(yù)處理,生成可進(jìn)行識(shí)別的規(guī)范數(shù)據(jù),然后轉(zhuǎn)向步驟(2);
      [0009] (2)通過初步聚類模塊讀取所述規(guī)范數(shù)據(jù),基于相同屬性值對(duì)實(shí)體進(jìn)行初步聚類, 生成屬性索引表文件;
      [0010] (3)通過實(shí)體識(shí)別模塊讀取所述屬性索引表文件,對(duì)同一屬性索引表中的實(shí)體進(jìn) 行實(shí)體識(shí)別,獲取相似實(shí)體對(duì),生成相似實(shí)體對(duì)集合文件,然后計(jì)算相似實(shí)體對(duì)之間的相似 度,并轉(zhuǎn)向步驟(5);
      [0011] (4)對(duì)步驟(1)中導(dǎo)出的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)抽樣得到樣本數(shù)據(jù),通過機(jī)器學(xué)習(xí)求 得閾值,并轉(zhuǎn)向步驟(5);
      [0012] (5)將相似實(shí)體對(duì)之間的相似度大小與閾值進(jìn)行比較,大于閾值的相似實(shí)體對(duì)符 合輸出條件,轉(zhuǎn)向步驟(6),小于閾值的相似實(shí)體對(duì)則結(jié)束實(shí)體識(shí)別;
      [0013] (6)通過實(shí)體劃分模塊讀取相似實(shí)體對(duì)集合文件,建立實(shí)體對(duì)關(guān)系圖,其中圖的頂 點(diǎn)表示不同的實(shí)體,邊代表實(shí)體間的相似關(guān)系,若實(shí)體對(duì)關(guān)系圖較大,則尋找實(shí)體對(duì)關(guān)系圖 中的橋,通過橋?qū)⒋蟮膶?shí)體對(duì)關(guān)系圖分割為小的實(shí)體對(duì)關(guān)系圖;
      [0014] (7)基于實(shí)體對(duì)關(guān)系圖上相鄰接實(shí)體之間的鄰居信息及公共鄰居信息(就是鄰居 的id),對(duì)步驟(6)得到的實(shí)體對(duì)關(guān)系圖進(jìn)行劃分,生成實(shí)體分類文件;
      [0015] (8)判斷相似實(shí)體對(duì)集合文件中實(shí)體個(gè)數(shù)是否大于1,如果大于1,則通過概率計(jì) 算模塊讀取實(shí)體分類文件、相似實(shí)體對(duì)集合文件,計(jì)算劃分中的實(shí)體屬于其所在實(shí)體分類 的概率,生成最終帶有概率的實(shí)體分類結(jié)果文件;如果小于1則設(shè)置該實(shí)體概率為1。
      [0016] 步驟⑷中,通過機(jī)器學(xué)習(xí)求得閾值即針對(duì)已知的正例和反例建立感知器計(jì)算閾 值。
      [0017] 步驟(7)中,對(duì)步驟(6)得到的實(shí)體對(duì)關(guān)系圖進(jìn)行劃分的方法如下:
      [0018] 首先建立圖GR = (V,E),其中V代表所有實(shí)體,對(duì)V(EPEj)eN,將Ei,Ej所對(duì) 應(yīng)的節(jié)點(diǎn)u, v之間加邊構(gòu)成邊集E;深度優(yōu)先遍歷GR,基于橋進(jìn)行初步劃分,劃分成獨(dú)立 子圖GR[Ri],任意兩個(gè)獨(dú)立子圖互不連通,但其自身均是連通圖;依次求解每個(gè)獨(dú)立子圖 GR[Ri]的局部實(shí)體劃分Di,具體方法如下 :
      [0019] 對(duì)獨(dú)立子圖GR[Ri]中任意一條邊e = (u,v)所連接的兩個(gè)節(jié)點(diǎn)u,v :若滿足條件 N(u) n N(v) |彡人X |N(u) U N(v) |,參數(shù)人由人工設(shè)定,則u和v代表同一實(shí)體,此時(shí) 將結(jié)點(diǎn)u,v收縮為一個(gè)結(jié)點(diǎn)u,令N(u,)= N(u) U N(v),其他節(jié)點(diǎn)的鄰居保持原始節(jié)點(diǎn)不 變,不斷迭代,直到?jīng)]有可收縮節(jié)點(diǎn)為止,最終劃分結(jié)果即為Ri的劃分;
      [0020] 合并所有獨(dú)立子圖的實(shí)體劃分0:,D2,…,Dk得到全局實(shí)體劃分D =叫,G2,…,GJ。
      [0021] 步驟(8)中,計(jì)算劃分中的實(shí)體屬于其所在實(shí)體分類的概率的方法如下:
      [0022] 數(shù)據(jù)A屬于其所在實(shí)體的概率是
      [0023] pA =EdA_x/Edj
      [0024] 其中,E dA_x是實(shí)體內(nèi)與A相鄰接的所有邊的度數(shù)之和,E屯是實(shí)體內(nèi)部所有邊的 度數(shù)之和。
      [0025] 本發(fā)明通過使用Map-Reduce框架技術(shù),可以使得實(shí)體識(shí)別的過程可以在成百上 千的大規(guī)模機(jī)群上運(yùn)行,這意味著針對(duì)大規(guī)模數(shù)據(jù)僅需要擴(kuò)充機(jī)群的規(guī)模就可以實(shí)現(xiàn)有效 的實(shí)體識(shí)別;而且識(shí)別方法效率高,處理速度快,內(nèi)存占用小。

      【專利附圖】

      【附圖說明】
      [0026] 圖1為本發(fā)明的實(shí)體識(shí)別方法工作流程圖;
      [0027] 圖2為本發(fā)明的實(shí)體識(shí)別系統(tǒng)數(shù)據(jù)流圖;
      [0028] 圖3為本發(fā)明的初步聚類模塊數(shù)據(jù)流圖;
      [0029] 圖4為本發(fā)明的實(shí)體識(shí)別模塊數(shù)據(jù)流圖;
      [0030] 圖5為本發(fā)明的實(shí)體劃分模塊數(shù)據(jù)流圖;
      [0031] 圖6為本發(fā)明的概率計(jì)算模塊數(shù)據(jù)流圖。

      【具體實(shí)施方式】
      [0032] 為使本發(fā)明實(shí)現(xiàn)的技術(shù)手段、創(chuàng)作特征、達(dá)成目的與功效易于明白了解,下面結(jié)合

      【具體實(shí)施方式】,進(jìn)一步闡述本發(fā)明。
      [0033] 實(shí)體識(shí)別:對(duì)給定數(shù)據(jù)集合進(jìn)行分類,使得每一類中的數(shù)據(jù)對(duì)象描述顯示世界中 的同一實(shí)體。
      [0034] Map-Reduce:Map_Reduce是一個(gè)軟件架構(gòu),主要用于大規(guī)模數(shù)據(jù)集的分布式計(jì)算 及任務(wù)處理。一個(gè)Map-Reduce任務(wù)過程主要包括兩個(gè)階段:map (映射)階段和reduce (化 簡)階段。每個(gè)階段都以鍵值對(duì)〈key,value〉作為輸入和輸出。map函數(shù)接受一組數(shù)據(jù)并 將其轉(zhuǎn)換為〈key,value〉列表,傳遞給reduce函數(shù),reduce函數(shù)接受列表后根據(jù)它們的 key值縮小〈key,value〉列表。
      [0035] 本方法的輸入是數(shù)據(jù)庫,輸出是數(shù)據(jù)庫的一個(gè)分類,其中每一類中的元組描述的 是同一顯示世界中的實(shí)體。
      [0036] 參見圖1,本發(fā)明的實(shí)體識(shí)別方法工作流程簡介如下:
      [0037] (1)系統(tǒng)從數(shù)據(jù)庫中導(dǎo)出海量數(shù)據(jù)并進(jìn)行預(yù)處理,使數(shù)據(jù)格式滿足系統(tǒng)可進(jìn)行識(shí) 別的要求;
      [0038](2)先基于相同屬性值將可能相似的實(shí)體聚類,以減少實(shí)體對(duì)之間相似度的計(jì)算 量,對(duì)海量數(shù)據(jù)的處理過程中涉及基于Hadoop的Map-Reduce框架;
      [0039] (3)通過對(duì)提取的樣本數(shù)據(jù)進(jìn)行分析學(xué)習(xí)得出識(shí)別過程中能夠準(zhǔn)確判定相似對(duì)所 需的閾值;
      [0040] (4)對(duì)實(shí)體進(jìn)行識(shí)別,主要通過將實(shí)體對(duì)之間的相似度大小與閾值進(jìn)行比較,大 于閾值的相似對(duì)符合條件輸出,由于是在海量數(shù)據(jù)上進(jìn)行計(jì)算識(shí)別,因此會(huì)多次涉及基于 Hadoop 的 Map-Reduce 框架;
      [0041] (5)將相似實(shí)體對(duì)構(gòu)建成圖,若圖較大,則尋找圖中的橋,通過橋?qū)⒋髨D分割為小 圖,以便后續(xù)處理;
      [0042] (6)基于圖上相鄰接實(shí)體之間的鄰居信息及公共鄰居信息對(duì)圖進(jìn)行有效劃分;
      [0043] (7)計(jì)算識(shí)別結(jié)果中,每條記錄屬于其所在分類的概率,以描述其屬于該分類的可 能性,為后續(xù)數(shù)據(jù)清洗過程做準(zhǔn)備;
      [0044] (8)對(duì)系統(tǒng)所采用算法的各項(xiàng)指標(biāo)(包括:時(shí)間效率、準(zhǔn)確率、召回率、Flscore 等)進(jìn)行有效評(píng)估。
      [0045] 下面對(duì)上述步驟的數(shù)據(jù)流程進(jìn)行介紹:
      [0046] 系統(tǒng)的目的是通過對(duì)數(shù)據(jù)庫中的海量記錄進(jìn)行識(shí)別,獲取最終的相似實(shí)體集合。
      [0047] 參見圖2,本發(fā)明的實(shí)體識(shí)別系統(tǒng)具體數(shù)據(jù)流程如下:
      [0048] (1)實(shí)體識(shí)別子系統(tǒng)從用戶數(shù)據(jù)庫讀入海量數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,生成可進(jìn) 行識(shí)別的規(guī)范數(shù)據(jù);
      [0049] (2)初步聚類模塊讀取規(guī)范數(shù)據(jù),依據(jù)相同屬性值對(duì)實(shí)體進(jìn)行初步的聚類,生成屬 性索引表文件;
      [0050] (3)實(shí)體識(shí)別模塊讀取屬性索引表文件,對(duì)同一屬性索引表中的實(shí)體進(jìn)行實(shí)體識(shí) 另IJ,獲取相似實(shí)體對(duì),生成相似實(shí)體對(duì)集合文件;
      [0051] (4)實(shí)體劃分模塊讀取相似實(shí)體對(duì)集合文件,建立圖,對(duì)圖進(jìn)行劃分后得到最終結(jié) 果,生成實(shí)體分類文件;
      [0052] (5)概率計(jì)算模塊讀取實(shí)體分類文件及實(shí)體識(shí)別模塊中生成的相似實(shí)體對(duì)集合文 件,計(jì)算每條記錄屬于其所在實(shí)體的概率,生成最終帶有概率的實(shí)體分類結(jié)果文件;
      [0053] (6)算法評(píng)估模塊根據(jù)所得結(jié)果進(jìn)行評(píng)估,求得系統(tǒng)的準(zhǔn)確率及召回率。
      [0054] 下面依次對(duì)各個(gè)模塊的原理和功能加以介紹
      [0055] 初步聚類模塊的主要功能是對(duì)海量實(shí)體進(jìn)行初步的聚類,以有效提高實(shí)體識(shí)別的 效率。
      [0056] 參見圖3,本步驟重點(diǎn)考慮在所有不同屬性中存在若干屬性值相同的實(shí)體,提出了 基于屬性索引的檢測模型。通過對(duì)屬性值進(jìn)行改造,插入屬性索引表,使得具有同一屬性值 的實(shí)體共享同一個(gè)索引,從而構(gòu)造屬性索引表,形成一個(gè)初步的聚類,使用這種方法檢測實(shí) 體對(duì)刪除冗余來說是有效且實(shí)際的。在后續(xù)的識(shí)別過程中,只需要對(duì)同一個(gè)屬性索引表中 的實(shí)體分別進(jìn)行識(shí)別即可,而不同于傳統(tǒng)的實(shí)體識(shí)別方法那樣需要一一比較所有實(shí)體,從 而有效地減少了計(jì)算量,達(dá)到了快速識(shí)別的目的。
      [0057] 參見圖4,實(shí)體識(shí)別模塊的主要功能是在海量數(shù)據(jù)中進(jìn)行實(shí)體識(shí)別,以得到相似實(shí) 體對(duì)集合。
      [0058] 在識(shí)別過程中,首先,依次掃描每個(gè)屬性索引表,如果某屬性索引表中某個(gè)屬性值 下實(shí)體的個(gè)數(shù)少于2個(gè),則說明在此屬性值下并沒有相似的實(shí)體,跳過該位置繼續(xù)向后掃 描;如果實(shí)體個(gè)數(shù)不少于2個(gè),則說明在此屬性值下可能存在相似的實(shí)體對(duì),對(duì)該位置下的 任意兩個(gè)實(shí)體均進(jìn)行一次實(shí)體識(shí)別過程,求出兩個(gè)實(shí)體的相似度大小作為衡量標(biāo)準(zhǔn)。將每 對(duì)實(shí)體匹配得到的相似度與閾值進(jìn)行大小比較。小于閾值則認(rèn)為該對(duì)實(shí)體不相似,否則認(rèn) 為兩個(gè)實(shí)體相似。依次將此匹配工作進(jìn)行下去,從而得到最終的相似實(shí)體對(duì)集合。閾值的 獲取我們采用機(jī)器自動(dòng)學(xué)習(xí)得出。
      [0059] 參見圖5,實(shí)體劃分模塊的主要功能是基于圖對(duì)相似實(shí)體對(duì)集合進(jìn)行準(zhǔn)確有效地 劃分,以得到最終的實(shí)體分類集合。
      [0060] 在實(shí)體劃分階段,由于實(shí)體劃分結(jié)果具備以下特點(diǎn):很多小型聚類且聚類個(gè)數(shù)事 先并不知曉。因此我們提出了基于圖模型的實(shí)體劃分框架。首先,將實(shí)體識(shí)別得到的實(shí)體 相似對(duì)集合轉(zhuǎn)化為圖,將所有數(shù)據(jù)源的實(shí)體作為圖的結(jié)點(diǎn),在實(shí)體相似對(duì)中的每一對(duì)實(shí)體 之間作邊。然后將待檢測實(shí)體名字的相似性將對(duì)象結(jié)合歸類,劃分到同一分類中的實(shí)體相 似,劃分到不同分類中的實(shí)體不相似。最后根據(jù)不同背景下的領(lǐng)域知識(shí)構(gòu)造不同的圖劃分 方法,獲取每個(gè)局部實(shí)體劃分,求解每個(gè)劃分對(duì)應(yīng)的子圖,從而得到最終的全局實(shí)體劃分。 在實(shí)體劃分前期,為了適應(yīng)系統(tǒng)并行化快速處理海量數(shù)據(jù),我們將圖進(jìn)行分割,分割主要基 于無向圖的橋。
      [0061] 參見圖6,概率計(jì)算模塊的主要功能是明確標(biāo)注每條記錄屬于其所在實(shí)體分類的 概率。
      [0062] 以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù) 人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說明書中描述的只是說明本 發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會(huì)有各種變化和改進(jìn),這些變 化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其 等效物界定。
      【權(quán)利要求】
      1. 一種基于Map-Reduce框架的實(shí)體識(shí)別方法,其特征在于,具體包括以下幾個(gè)步驟: (1) 從用戶數(shù)據(jù)庫中導(dǎo)出海量數(shù)據(jù),判斷數(shù)據(jù)是否規(guī)范,如果規(guī)范轉(zhuǎn)向步驟(2),如果 不規(guī)范則進(jìn)行數(shù)據(jù)預(yù)處理,生成可進(jìn)行識(shí)別的規(guī)范數(shù)據(jù),然后轉(zhuǎn)向步驟(2); (2) 通過初步聚類模塊讀取所述規(guī)范數(shù)據(jù),基于相同屬性值對(duì)實(shí)體進(jìn)行初步聚類,生成 屬性索引表文件; (3) 通過實(shí)體識(shí)別模塊讀取所述屬性索引表文件,對(duì)同一屬性索引表中的實(shí)體進(jìn)行實(shí) 體識(shí)別,獲取相似實(shí)體對(duì),生成相似實(shí)體對(duì)集合文件,然后計(jì)算相似實(shí)體對(duì)之間的相似度, 并轉(zhuǎn)向步驟(5); (4) 對(duì)步驟(1)中導(dǎo)出的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)抽樣得到樣本數(shù)據(jù),通過機(jī)器學(xué)習(xí)求得閾 值,并轉(zhuǎn)向步驟(5); (5) 將相似實(shí)體對(duì)之間的相似度大小與閾值進(jìn)行比較,大于閾值的相似實(shí)體對(duì)符合輸 出條件,轉(zhuǎn)向步驟(6),小于閾值的相似實(shí)體對(duì)則結(jié)束實(shí)體識(shí)別; (6) 通過實(shí)體劃分模塊讀取相似實(shí)體對(duì)集合文件,建立實(shí)體對(duì)關(guān)系圖,其中圖的頂點(diǎn)表 示不同的實(shí)體,邊代表實(shí)體間的相似關(guān)系,若實(shí)體對(duì)關(guān)系圖較大,則尋找實(shí)體對(duì)關(guān)系圖中的 橋,通過橋?qū)⒋蟮膶?shí)體對(duì)關(guān)系圖分割為小的實(shí)體對(duì)關(guān)系圖; (7) 基于實(shí)體對(duì)關(guān)系圖上相鄰接實(shí)體之間的鄰居信息及公共鄰居信息,對(duì)步驟(6)得 到的實(shí)體對(duì)關(guān)系圖進(jìn)行劃分,生成實(shí)體分類文件; (8) 判斷相似實(shí)體對(duì)集合文件中實(shí)體個(gè)數(shù)是否大于1,如果大于1,則通過概率計(jì)算模 塊讀取實(shí)體分類文件、相似實(shí)體對(duì)集合文件,計(jì)算劃分中的實(shí)體屬于其所在實(shí)體分類的概 率,生成最終帶有概率的實(shí)體分類結(jié)果文件;如果小于1則設(shè)置該實(shí)體概率為1。
      2. 根據(jù)權(quán)利要求1所述的基于Map-Reduce框架的實(shí)體識(shí)別方法,其特征在于, 步驟(4)中,通過機(jī)器學(xué)習(xí)求得閾值即針對(duì)已知的正例和反例建立感知器計(jì)算閾值。
      3. 根據(jù)權(quán)利要求1所述的基于Map-Reduce框架的實(shí)體識(shí)別方法,其特征在于, 步驟(7)中,對(duì)步驟(6)得到的實(shí)體對(duì)關(guān)系圖進(jìn)行劃分的方法如下: 首先建立圖GR= (V,E),其中V代表所有實(shí)體,對(duì)V(EPEj)eN,將Ei,Ej所對(duì)應(yīng)的節(jié)點(diǎn)u,v之間加邊構(gòu)成邊集E,其中Ei和Ej代表兩個(gè)實(shí)體,N代表已經(jīng)識(shí)別出的實(shí)體對(duì)的集合; 深度優(yōu)先遍歷GR,基于橋進(jìn)行初步劃分,劃分成獨(dú)立子圖GR[Ri],任意兩個(gè)獨(dú)立子圖互不 連通,但其自身均是連通圖;依次求解每個(gè)獨(dú)立子圖GR[Ri]的局部實(shí)體劃分Di,具體方法 如下: 對(duì)獨(dú)立子圖GR[Ri]中任意一條邊e= (u,V)所連接的兩個(gè)節(jié)點(diǎn)u,V:若滿足條件N(U)ΠN(V)I彡λX|N(u)UN(V)I,參數(shù)λ由人工設(shè)定,則u和V代表同一實(shí)體,N(U) 和Ν(ν)分別代表u和V在圖中的鄰居集合,此時(shí)將結(jié)點(diǎn)u,V收縮為一個(gè)結(jié)點(diǎn)u,令N(u,) =N(u)UN(v),其他節(jié)點(diǎn)的鄰居保持原始節(jié)點(diǎn)不變,不斷迭代,直到?jīng)]有可收縮節(jié)點(diǎn)為止, 最終劃分結(jié)果即為Ri的劃分; 合并所有獨(dú)立子圖的實(shí)體劃分D1,D2,…,Dk得到全局實(shí)體劃分D= (G1,G2,…,GJ。
      4. 根據(jù)權(quán)利要求1所述的基于Map-Reduce框架的實(shí)體識(shí)別方法,其特征在于, 步驟(8)中,計(jì)算劃分中的實(shí)體屬于其所在實(shí)體分類的概率的方法如下: 數(shù)據(jù)A屬于其所在實(shí)體的概率是 Pa - Σ dA_x/ Σ (Ii 其中,ΣdA_x是實(shí)體內(nèi)與A相鄰接的所有邊的度數(shù)之和,ΣCli是實(shí)體內(nèi)部所有邊的度數(shù) 之和。
      【文檔編號(hào)】G06F9/44GK104239553SQ201410494470
      【公開日】2014年12月24日 申請(qǐng)日期:2014年9月24日 優(yōu)先權(quán)日:2014年9月24日
      【發(fā)明者】王宏志, 王飛, 秦謙, 宋陽秋 申請(qǐng)人:江蘇名通信息科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1