国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于元數(shù)據(jù)去除重復(fù)對象的方法

      文檔序號:6609269閱讀:270來源:國知局
      專利名稱:基于元數(shù)據(jù)去除重復(fù)對象的方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種數(shù)據(jù)清理的方法,尤其涉及一種在數(shù)據(jù)集合中去除重復(fù)對 象的方法。
      背景技術(shù)
      在信息社會,信息可以劃分為兩大類。 一類信息能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)
      加以表示,我們稱之為結(jié)構(gòu)化數(shù)據(jù),如數(shù)字、符號;而另一類信息無法用數(shù)字 或統(tǒng)一的結(jié)構(gòu)表示,如文本、圖像、聲音、網(wǎng)頁等,我們稱之為非結(jié)構(gòu)化數(shù)據(jù)。 結(jié)構(gòu)化數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),是非結(jié)構(gòu)化數(shù)據(jù)的特例。
      結(jié)構(gòu)化數(shù)據(jù)類型是一種用戶定義的數(shù)據(jù)類型,它包含一些非原子的元素, 更確切地說,這些數(shù)據(jù)類型是可以分割的,它們既可以單獨使用,又可以在適 當(dāng)情況下作為一個獨立的單元使用。
      在圖書館與信息界,元數(shù)據(jù)被定義為提供關(guān)于信息資源或數(shù)據(jù)的一種結(jié) 構(gòu)化的數(shù)據(jù),是對信息資源的結(jié)構(gòu)化的描述。其作用為描述信息資源或數(shù)據(jù)本 身的特征和屬性,規(guī)定數(shù)字化信息的組織,具有定位、發(fā)現(xiàn)、證明、評估,選擇 等功能。
      沒有好的數(shù)據(jù)環(huán)境,就不會有理想的挖掘結(jié)果.但現(xiàn)實世界的數(shù)據(jù)一般都是 臟的、不完整的和不一致的。使用數(shù)據(jù)預(yù)處理將可能創(chuàng)造這個環(huán)境。
      目前,隨著網(wǎng)絡(luò)的發(fā)展,各種各樣的元數(shù)據(jù)數(shù)量急劇增長。由于增長的元 數(shù)據(jù)質(zhì)量參差不齊,各種來源存在大量重復(fù)數(shù)據(jù),給后續(xù)的基于其上的業(yè)務(wù)帶 來了不小的麻煩。因為一旦元數(shù)據(jù)重復(fù)處理不好,基于其上的業(yè)務(wù)邏輯便會產(chǎn)生問題,以致帶來損失。比如在圖書銷售網(wǎng)站,圖書書目的重復(fù)數(shù)據(jù)較多,就
      可能導(dǎo)致用戶不知如何下訂單。在過去,這類問題通常是由人工判斷,但隨著
      數(shù)據(jù)量的不斷增長和積累,由此帶來的人力消耗也急劇增加。故如何對大量的
      元數(shù)據(jù)進行判重處理成了 一個首要的問題。
      一直以來,業(yè)內(nèi)對于網(wǎng)絡(luò)非結(jié)構(gòu)數(shù)據(jù)判重問題研究較多,各種算法成果也 層出不窮,且目前的各類搜索引擎中均有運用。但元數(shù)據(jù)作為帶語義的結(jié)構(gòu)化 數(shù)據(jù),其判重標(biāo)準(zhǔn)和準(zhǔn)確度的要求都更為精確。故現(xiàn)有的對于非結(jié)構(gòu)化數(shù)據(jù)的 判重方案,并不能完全滿足元數(shù)據(jù)判重的要求。另外,通常應(yīng)用于數(shù)據(jù)庫的精 確判重方案更不能適合在元數(shù)據(jù)這種本身可能存在部分?jǐn)?shù)據(jù)錯誤的環(huán)境中。

      發(fā)明內(nèi)容
      本發(fā)明提供一種能夠精確判別重復(fù)數(shù)據(jù),并將重復(fù)數(shù)據(jù)清除的基于元數(shù)據(jù) 去除重復(fù)對象的方法。
      本發(fā)明采用以下技術(shù)方案本發(fā)明基于元數(shù)據(jù)去除重復(fù)對象的方法,包括 如下步驟
      1) 對當(dāng)前待錄入的元數(shù)據(jù)進行規(guī)范化處理,判斷其是否為質(zhì)量較好的待錄 入元數(shù)據(jù);
      2) 將質(zhì)量較好的待錄入元數(shù)據(jù)與數(shù)據(jù)集合中每一條記錄進行比較,判斷數(shù) 據(jù)集合中是否有與待錄入元數(shù)據(jù)重復(fù)的記錄;
      3) 如果有重復(fù)記錄,在二者之中選取質(zhì)量好的作為數(shù)據(jù)集合的記錄。
      所述當(dāng)前待錄入的元數(shù)據(jù)至少包括如下字段國際標(biāo)準(zhǔn)書號、書名、作者、 出版社、出版時間、價格字段。
      所述國際標(biāo)準(zhǔn)書號由10位數(shù)字組成,這10位數(shù)字由組號、出版者號、書名號、校驗號這四部分組成,其間用"一,'相連,出版者號是出版社的代號。
      所述"對當(dāng)前待錄入的元數(shù)據(jù)進行規(guī)范化處理"包括如下步驟
      1) 判斷當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否含有非數(shù)字字符;如果有 非數(shù)字字符,將該非數(shù)字字符刪除后,保留該當(dāng)前待錄入的元數(shù)據(jù);
      2) 判斷當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否由10位數(shù)字組成?如果 國際標(biāo)準(zhǔn)書號不是10位數(shù)字,則分為兩種情況處理國際標(biāo)準(zhǔn)書號少于8位, 則丟棄該當(dāng)前待錄入的元數(shù)據(jù);國際標(biāo)準(zhǔn)書號超過10位,則將10位以后的數(shù) 字刪除后,保留該當(dāng)前待錄入的元數(shù)據(jù);
      3) 驗證當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否正確;
      4) 如果當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號正確,再驗證當(dāng)前待錄入的元 數(shù)據(jù)的出版社是否正確;
      如果當(dāng)前待錄入的元數(shù)據(jù)的出版社正確,則當(dāng)前待錄入的元數(shù)據(jù)即為所述 "質(zhì)量較好的待錄入元數(shù)據(jù)"。
      所述"驗證當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否正確,,的方法為國 際標(biāo)準(zhǔn)書號的第1到第9位數(shù)字順序乘以10至2這9個數(shù)字,將這些乘積之和 再加上校驗號,假如能被ll整除,則這個國際標(biāo)準(zhǔn)書號是正確的;
      所述"驗證當(dāng)前待錄入的元數(shù)據(jù)的出版社是否正確"的方法為
      從已規(guī)范化的國際標(biāo)準(zhǔn)書號中選取出出版者號驗證當(dāng)前待錄入的元數(shù)據(jù)的 出版社是否正確;
      如果出版者號與當(dāng)前待錄入的元數(shù)據(jù)的出版社存在對應(yīng)關(guān)系,則當(dāng)前待錄 入的元數(shù)據(jù)的出版社是正確的;如果出版者號與當(dāng)前待錄入的元數(shù)據(jù)的出版社不存在對應(yīng)關(guān)系,則當(dāng)前待 錄入的元數(shù)據(jù)的出版社是不正確的。
      所述"對當(dāng)前待錄入的元數(shù)據(jù)進行規(guī)范化處理"包括將出版時間、價格 規(guī)范化為實數(shù)。
      當(dāng)數(shù)據(jù)集合為空時,所述步驟2)、 3)具體為
      2) 數(shù)據(jù)集合中沒有與待錄入元數(shù)據(jù)重復(fù)的記錄;
      3) 將質(zhì)量較好的待錄入元數(shù)據(jù)存儲倒數(shù)據(jù)集合中。 當(dāng)數(shù)據(jù)集合不為空時,所述步驟2)包括
      21) 縮小數(shù)據(jù)集合中,與待錄入元數(shù)據(jù)進行比較的記錄的范圍;
      22) 在步驟21)限定的范圍內(nèi),利用帶權(quán)重值的相似度比較函數(shù),計算待 錄入元數(shù)據(jù)與數(shù)據(jù)集合中對應(yīng)字段的屬性值之間的相似度值;
      23) 將各個字段相似度值乘以權(quán)重值,相加得到復(fù)合相似度值;
      24) 將復(fù)合相似度值與一預(yù)設(shè)閾值進行比較;如果復(fù)合相似度值不小于闊 值,則數(shù)據(jù)集合中的當(dāng)前記錄與待錄入元數(shù)據(jù)為重復(fù)數(shù)據(jù);如果復(fù)合相似度值 小于閾值,則數(shù)據(jù)集合中的當(dāng)前記錄與待錄入元邀:據(jù)不是重復(fù)數(shù)據(jù)。
      所述步驟21)具體為
      211 )在數(shù)據(jù)集合的記錄中,選取與待錄入元數(shù)據(jù)的出版社字段相同的記錄, 作為比較范圍;
      212)在選定的記錄中,選取國際標(biāo)準(zhǔn)書號、書名、作者、出版社、出版時 間、價格字段,作為比較范圍。在步驟22)中所述帶權(quán)重值的相似度比較函數(shù)包括整數(shù)相似度比較函數(shù)、 字符串相似度比較函數(shù)、實數(shù)相似度比較函數(shù)。
      本發(fā)明對待錄入的元數(shù)據(jù)(臟數(shù)據(jù))進行規(guī)范化處理,使其沒有形式上的 明顯錯誤,此時的元數(shù)據(jù)質(zhì)量是比較好的。將質(zhì)量較好的待錄入元數(shù)據(jù)與數(shù)據(jù) 集合中每一條記錄進行比較,判斷凄t據(jù)集合中是否有與待錄入元數(shù)據(jù)重復(fù)的記 錄;在比較時通過縮小比較范圍,減少工作量,提高工作效率。在數(shù)據(jù)集合的 成千上萬條記錄中,選取與待錄入元數(shù)據(jù)的出版社字段相同的記錄,作為比較 范圍;在選定的記錄中,選取國際標(biāo)準(zhǔn)書號、書名、作者、出版社、出版時間、 價格字段,作為比較范圍。利用相似度比較函數(shù)計算數(shù)據(jù)集合中的記錄與待錄 入元數(shù)據(jù)的相似度值,利用權(quán)重值訓(xùn)練函數(shù)計算字段權(quán)重值;將各個字段相似 度值乘以權(quán)重值,相加得到復(fù)合相似度值;將復(fù)合相似度值與一預(yù)設(shè)閾值進行 比較;如果復(fù)合相似度值不小于閾值,則數(shù)據(jù)集合中的當(dāng)前記錄與待錄入元數(shù) 據(jù)為重復(fù)數(shù)據(jù);如果復(fù)合相似度值小于閾值,則數(shù)據(jù)集合中的當(dāng)前記錄與待錄 入元數(shù)據(jù)不是重復(fù)數(shù)據(jù)。


      圖1為本發(fā)明基于元數(shù)據(jù)去除重復(fù)對象的方法的流程圖2為本發(fā)明中將質(zhì)量較好的待錄入元數(shù)據(jù)與數(shù)據(jù)集合中每一條記錄進行 比較判斷的流程圖。
      具體實施例方式
      針對現(xiàn)有元數(shù)據(jù)清理領(lǐng)域,去除臟數(shù)據(jù)工作量大的問題,本發(fā)明提供了基 于元數(shù)據(jù)去除重復(fù)對象的方法,參照附圖1,其包括如下步驟1) 對當(dāng)前待錄入的元數(shù)據(jù)進行規(guī)范化處理,判斷其是否為質(zhì)量較好的待錄
      入元數(shù)據(jù);
      2) 將質(zhì)量較好的待錄入元數(shù)據(jù)與數(shù)據(jù)集合中每一條記錄進行比較,判斷數(shù) 據(jù)集合中是否有與待錄入元數(shù)據(jù)重復(fù)的記錄;
      3) 如果有重復(fù)記錄,在二者之中選取質(zhì)量好的作為數(shù)據(jù)集合的記錄。
      網(wǎng)上一本書的信息包括了大量的元數(shù)據(jù),這些元數(shù)據(jù)大都是一些臟數(shù)據(jù), 即質(zhì)量不好的數(shù)據(jù)。舉例來說書名三國演義;國際標(biāo)準(zhǔn)書號為 ISBN7-305-01568-7;出版者號305;出版社百花出版社;出版時間1988 年6月9日;語種,中文;出版地南京;作者羅貫中;責(zé)任編輯曹雪齊; 當(dāng)前售價109、 90元;版次1996年9月第1版,1988年5月第三次印刷…… 等。以上元數(shù)據(jù)中,冒號前的部分為字段,冒號后的部分為屬性值。以上信息 在數(shù)據(jù)集合中組成了一條記錄。在該記錄中,屬性值都是正確的,稱為質(zhì)量好 的數(shù)據(jù)?,F(xiàn)實中元數(shù)據(jù)記錄中的屬性值經(jīng)常是錯誤的,還以所述三國演義的記 錄為例書名三國演義;國際標(biāo)準(zhǔn)書號為ISBN8-305-01548-7;出版者號 306;出版社花百出版社;出版時間1988年2月30日;語種,中文;出版 地南京;作者羅貫中;責(zé)任編輯曹雪琴;當(dāng)前售價109、 908元;版次: 1996年9月第1版,1988年5月第三次印刷……等。在該記錄中,字段國際標(biāo) 準(zhǔn)書號、出版者號、出版社、出版時間、責(zé)任編輯、當(dāng)前售價等的屬性值均出 現(xiàn)了錯誤。稱為臟數(shù)據(jù)或質(zhì)量不好的數(shù)據(jù)。
      數(shù)據(jù)集合中應(yīng)該錄入質(zhì)量好的元數(shù)據(jù),清除質(zhì)量不好的元數(shù)據(jù)。目前在錄 入元數(shù)據(jù)時,總是通過人工,來判斷待錄入元數(shù)據(jù)的質(zhì)量好壞。這樣工作效率 低、而且標(biāo)準(zhǔn)不統(tǒng)一。一、對于質(zhì)量不好的元數(shù)據(jù),在錄入前首先要進行規(guī)范化處理
      1)對國際標(biāo)準(zhǔn)書號進行規(guī)范化處理
      所有正規(guī)出版的普通圖書版權(quán)頁都有ISBN號,ISBN是international sta ndard of book number幾個英文字母的縮寫,即國際標(biāo)準(zhǔn)書號。它由10 ^f立凄t 字組成,這10位數(shù)字由組號、出版者號、書名號、校驗號這四部分組成,其間 用"--',相連,如ISBN7-305-01568-7,組號是代表一個國家或地區(qū)語種的編 號,中國的編號為7。出版者號是出版社的代號,由國家或地區(qū)的ISBN中心設(shè) 置和分配,可取1-7位數(shù)字。書名號是由出版者給予每種出版物的編號。校驗 號是ISBN號的最后一位數(shù)值,它能夠校驗出ISBN號是否正確。將ISBN1-9位 數(shù)字順序乘以10-2這9個數(shù)字,將這些乘積之和再加上校驗號,假如能被11 整除,則這個ISBN號是正確的。
      下面兩個步驟l、 2—瞼i正了國際標(biāo)準(zhǔn)書號形式上的正確性。每個國際標(biāo)準(zhǔn)書 號都必須符合這些形式上的要求,才能再驗證國際標(biāo)準(zhǔn)書號的本身的正確性
      1、 判斷當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否含有非數(shù)字字符;如果有 非數(shù)字字符,將該非數(shù)字字符刪除后,保留該當(dāng)前待錄入的元數(shù)據(jù);
      2、 判斷當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否10位數(shù)字組成?如果國 際標(biāo)準(zhǔn)書號不是10位數(shù)字,則分為兩種情況處理國際標(biāo)準(zhǔn)書號少于8位,則 丟棄該當(dāng)前待錄入的元數(shù)據(jù);國際標(biāo)準(zhǔn)書號超過10位,則將10位以后的數(shù)字 刪除后,保留該當(dāng)前待錄入的元數(shù)據(jù);
      3、 國際標(biāo)準(zhǔn)書號的第1到第9位數(shù)字順序乘以10至2這9個數(shù)字,將這 些乘積之和再加上校驗號,假如能被ll整除,則這個國際標(biāo)準(zhǔn)書號是正確的。 還以所述三國演義的記錄為例。國際標(biāo)準(zhǔn)書號為ISBN7-305-01568-7,算式為7*10+3*9+0*8 +5*7+0*6+1*5+5*4+6*3+8*2+7=198, 198/11=18,能凈皮ll整除。 則該國際標(biāo)準(zhǔn)書號是正確的。國際標(biāo)準(zhǔn)書號為ISBN8-305-01548-7;算式為8 *10+3*9+0*8 +5*7+0*6+1*5+5*4+4*3+8*2+7=204 204/11=18余6,不能被11 整除。則該國際標(biāo)準(zhǔn)書號是不正確的。
      2) 對出版社進行規(guī)范化處理
      1、判斷當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否是字符串型式;如果有其 他型式字符,將其刪除后,保留該當(dāng)前待錄入的元數(shù)據(jù);
      2、從已規(guī)范化的國際標(biāo)準(zhǔn)書號中選取出出版者號驗證當(dāng)前待錄入的元數(shù)據(jù) 的出版社是否正確;
      如果出版者號與當(dāng)前待錄入的元數(shù)據(jù)的出版社存在對應(yīng)關(guān)系,則當(dāng)前待錄 入的元數(shù)據(jù)的出版社是正確的;
      如果出版者號與當(dāng)前待錄入的元數(shù)據(jù)的出版社不存在對應(yīng)關(guān)系,則當(dāng)前待 錄入的元數(shù)據(jù)的出版社是不正確的。
      出版者號是出版社的代號,由國家或地區(qū)的ISBN中心設(shè)置和分配,可取1-7 位數(shù)字。例如國際標(biāo)準(zhǔn)書號為ISBN7-305-01568-7從中提取出出版者號305; 然后查出對應(yīng)的出版社是百花出版社。如果待錄入元數(shù)據(jù)是百花出版社;則當(dāng) 前待錄入的元數(shù)據(jù)的出版社是正確的。
      3) 對書名、作者規(guī)范化為字符串,如果他們中間出現(xiàn)數(shù)字或其他型式的字 符。應(yīng)將其去掉后,保留該元數(shù)據(jù)。例如,待錄入元數(shù)據(jù)作者羅9貫中或作 者羅佐、中,規(guī)范化時將9和、刪除,保留作者羅貫中或作者羅佐中進 行以后的處理。4 )將出版時間、價才各M^范化為實數(shù)。如果他們中間出現(xiàn)漢字或其他型式的
      字符。應(yīng)將其去掉后,保留該元數(shù)據(jù)。例如,待錄入元數(shù)據(jù)出版時間1988-6f-9 或198水8-6-9, ^見范化時將f和水去掉后,保留出版時間1988-6-9進行以 后的處理。
      5)將責(zé)任編輯、當(dāng)前售價、版次、簡介、分類、主題詞……等進行規(guī)范化 處理。
      經(jīng)過規(guī)范化后的臟數(shù)據(jù),已經(jīng)沒有形式上的明顯錯誤,此時的元數(shù)據(jù)質(zhì)量 是比較好的。
      二、將質(zhì)量較好的待錄入元數(shù)據(jù)與數(shù)據(jù)集合中每一條記錄進行比較,判斷 數(shù)據(jù)集合中是否有與待錄入元數(shù)據(jù)重復(fù)的記錄。
      根據(jù)數(shù)據(jù)集合中記錄的多少分為兩種情況進行討論1)數(shù)據(jù)集合為空時; 和2)當(dāng)數(shù)據(jù)集合不為空時;
      1) 數(shù)據(jù)集合為空時,將待錄入的元數(shù)據(jù)直接錄入到數(shù)據(jù)集合中;
      2) 當(dāng)數(shù)據(jù)集合不為空,說明數(shù)據(jù)集合中有若干記錄;參照附圖2,分為如 下步驟進行錄入
      a)縮小數(shù)據(jù)集合中,與待錄入元數(shù)據(jù)進行比較的記錄的范圍;
      數(shù)據(jù)集合中古往今來的各種書的信息的記錄有成千上萬條,當(dāng)有一條待錄 入元數(shù)據(jù)要錄入到數(shù)據(jù)集合中,需要在數(shù)據(jù)集合成千上萬條記錄中查找是否有 與其重復(fù)的記錄;為了減少工作量,提高工作效率。需要縮小數(shù)據(jù)集合中,與 待錄入元數(shù)據(jù)進行比較的記錄的范圍;具體措施
      al、在數(shù)據(jù)集合的記錄中,選取與待錄入元數(shù)據(jù)的出版社字段相同的記錄,作為比較范圍;
      數(shù)據(jù)集合成千上萬條記錄中有很多都是同 一出版社出版的。在比較時將與 待錄入元數(shù)據(jù)的出版社字段相同的記錄提取出來,作為比較的范圍。
      例如將三國演義的元數(shù)據(jù)入錄到數(shù)據(jù)集合中,其出版社是百花出版社。在 數(shù)據(jù)集合中提取出字段的屬性值為百花出版社的記錄,作為比較的范圍。
      a2、在選定的記錄中,選取國際標(biāo)準(zhǔn)書號、書名、作者、出版社、出版時 間、價格字段,作為比較范圍。
      為了減少工作量,提高工作效率。在已選定的具有相同出版社的范圍內(nèi)進 一步縮小比較的范圍。選取國際標(biāo)準(zhǔn)書號、書名、作者、出版社、出版時間、 價格字段,作為比較范圍。
      b)在步驟a)限定的范圍內(nèi),利用帶權(quán)重值的相似度比較函數(shù) <formula>formula see original document page 14</formula>計算待錄入元數(shù)據(jù)與數(shù)據(jù)集合中對應(yīng)字段 的屬性值之間的相似度值,其中/為現(xiàn)有技術(shù)中的相似度比較函數(shù),r^為待錄 入元數(shù)據(jù)與數(shù)據(jù)集合中對應(yīng)字段(國際標(biāo)準(zhǔn)書號、書名、作者、出版社、出版 時間、價格字段)的屬性值,/",^為屬性值去除忽略詞后的部分, 為屬性值 中僅保留權(quán)重詞部分,"為權(quán)重值,為通過訓(xùn)練算法訓(xùn)練所得,在不存在權(quán)重詞 的情況下,/",W = 舉例來說對于出版社字段在屬性值清華大學(xué)出
      版社與北京大學(xué)出版社中,大學(xué)出版社這些詞對出版社這個字段的比較沒有太 大意義,可以看作忽略詞。比較時,只比較清華與北京,即為n);i。對于書名字 段中屬性值三國演義(上下),上下就是權(quán)重詞,即為/i"。
      所述相似度比較函數(shù)包括整數(shù)相似度比較函數(shù)、字符串相似度比較函數(shù)、 實數(shù)相似度比較函數(shù)。isbn字,殳的比較函數(shù),若isbn相等則為l,否則為0; 書名字段比較函數(shù),為切分所得詞的字符串相似度值 作者字段比較函數(shù),為切分所得詞的字符串相似度值; 出版時間比較函數(shù),采用相對差函數(shù)得到相似度值; 價格比較函數(shù),采用相對差函數(shù)得到相似度值;
      c)利用復(fù)合相似度函數(shù)尸(《,/ 2)="。+1:;11",7;(及1,及2),其中"。為閾值,^為權(quán)
      重,《,i 2為元數(shù)據(jù),/(及,,及2)為i ,和i 2字段i的帶權(quán)重值的相似度比較函數(shù),計 算得到待錄入元數(shù)據(jù)的復(fù)合相似度值;
      d )將復(fù)合相似度值與一預(yù)設(shè)閾值進行比較;如果復(fù)合相似度值不小于閾值,
      則數(shù)據(jù)集合中的當(dāng)前記錄與待錄入元數(shù)據(jù)為重復(fù)數(shù)據(jù);如果復(fù)合相似度值小于
      閾值,則數(shù)據(jù)集合中的當(dāng)前記錄與待錄入元數(shù)據(jù)不是重復(fù)數(shù)據(jù)。
      本發(fā)明對待錄入的元數(shù)據(jù)(臟數(shù)據(jù))進行規(guī)范化處理,使其沒有形式上的 明顯錯誤,此時的元數(shù)據(jù)質(zhì)量是比較好的。將質(zhì)量較好的待錄入元數(shù)據(jù)與數(shù)據(jù) 集合中每一條記錄進行比較,判斷數(shù)據(jù)集合中是否有與待錄入元數(shù)據(jù)重復(fù)的記 錄;在比較時通過縮小比較范圍,減少工作量,提高工作效率。在數(shù)據(jù)集合的 成千上萬條記錄中,選取與待錄入元數(shù)據(jù)的出版社字段相同的記錄,作為比較 范圍;在選定的記錄中,選取國際標(biāo)準(zhǔn)書號、書名、作者、出版社、出版時間、 價格字段,作為比較范圍。利用相似度比較函數(shù)計算數(shù)據(jù)集合中的記錄與待錄 入元數(shù)據(jù)的相似度值,利用權(quán)重值訓(xùn)練函數(shù)計算字段權(quán)重值;將各個字段相似 度值乘以權(quán)重值,相加得到復(fù)合相似度值;將復(fù)合相似度值與一預(yù)設(shè)閾值進行 比較;如果復(fù)合相似度值不小于閾值,則數(shù)據(jù)集合中的當(dāng)前記錄與待錄入元數(shù) 據(jù)為重復(fù)數(shù)據(jù);如果復(fù)合相似度值小于閾值,則數(shù)據(jù)集合中的當(dāng)前記錄與待錄入元數(shù)據(jù)不是重復(fù)數(shù)據(jù)。
      權(quán)利要求
      1、一種基于元數(shù)據(jù)去除重復(fù)對象的方法,其特征在于包括如下步驟1)對當(dāng)前待錄入的元數(shù)據(jù)進行規(guī)范化處理,判斷其是否為質(zhì)量較好的待錄入元數(shù)據(jù);2)將質(zhì)量較好的待錄入元數(shù)據(jù)與數(shù)據(jù)集合中每一條記錄進行比較,判斷數(shù)據(jù)集合中是否有與待錄入元數(shù)據(jù)重復(fù)的記錄;3)如果有重復(fù)記錄,在二者之中選取質(zhì)量好的作為數(shù)據(jù)集合的記錄。
      2、 根據(jù)權(quán)利要求1所述的基于元數(shù)據(jù)去除重復(fù)對象的方法,其特征在于, 所述當(dāng)前待錄入的元數(shù)據(jù)至少包括如下字段國際標(biāo)準(zhǔn)書號、書名、作者、出 版社、出版時間、價格字段。
      3、 根據(jù)權(quán)利要求2所述的基于元數(shù)據(jù)去除重復(fù)對象的方法,其特征在于, 所述國際標(biāo)準(zhǔn)書號由IO位數(shù)字組成,這10位數(shù)字由組號、出版者號、書名號、 校驗號這四部分組成,其間用"--"相連,出版者號是出版社的代號。
      4、 根據(jù)權(quán)利要求1所述的基于元數(shù)據(jù)去除重復(fù)對象的方法,其特征在于, 所述"對當(dāng)前待錄入的元數(shù)據(jù)進行M^范化處理"包括如下步驟1) 判斷當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否含有非數(shù)字字符;如果有 非數(shù)字字符,將該非數(shù)字字符刪除后,保留該當(dāng)前待錄入的元數(shù)據(jù);2) 判斷當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否由10位數(shù)字組成?如果 國際標(biāo)準(zhǔn)書號不是10位數(shù)字,則分為兩種情況處理國際標(biāo)準(zhǔn)書號少于8位, 則丟棄該當(dāng)前待錄入的元數(shù)據(jù);國際標(biāo)準(zhǔn)書號超過10位,則將10位以后的數(shù) 字刪除后,保留該當(dāng)前待錄入的元數(shù)據(jù);3) 驗證當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否正確;4)如果當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號正確,再-險證當(dāng)前待錄入的元數(shù)據(jù)的出版社是否正確;如果當(dāng)前待錄入的元數(shù)據(jù)的出版社正確,則當(dāng)前待錄入的元數(shù)據(jù)即為所述 "質(zhì)量較好的待錄入元數(shù)據(jù)"。
      5、 根據(jù)權(quán)利要求3或4所述的基于元數(shù)據(jù)去除重復(fù)對象的方法,其特征在 于,所述"驗證當(dāng)前待錄入的元數(shù)據(jù)的國際標(biāo)準(zhǔn)書號是否正確,,的方法為國 際標(biāo)準(zhǔn)書號的第1到第9位數(shù)字順序乘以10至2這9個數(shù)字,將這些乘積之和 再加上校驗號,假如能被ll整除,則這個國際標(biāo)準(zhǔn)書號是正確的;所述"驗證當(dāng)前待錄入的元數(shù)據(jù)的出版社是否正確"的方法為從已規(guī)范化的國際標(biāo)準(zhǔn)書號中選取出出版者號驗證當(dāng)前待錄入的元數(shù)據(jù)的 出版社是否正確;如果出版者號與當(dāng)前待錄入的元數(shù)據(jù)的出版社存在對應(yīng)關(guān)系,則當(dāng)前待錄 入的元數(shù)據(jù)的出版社是正確的;如果出版者號與當(dāng)前待錄入的元數(shù)據(jù)的出版社不存在對應(yīng)關(guān)系,則當(dāng)前待 錄入的元數(shù)據(jù)的出版社是不正確的。
      6、 根據(jù)權(quán)利要求4所述的基于元數(shù)據(jù)去除重復(fù)對象的方法,其特征在于, 所述"對當(dāng)前待錄入的元數(shù)據(jù)進行規(guī)范化處理"包括將出版時間、價格規(guī)范 化為實數(shù)。
      7、 根據(jù)權(quán)利要求l所述的基于元數(shù)據(jù)去除重復(fù)對象的方法,其特征在于, 當(dāng)數(shù)據(jù)集合為空時,所述步驟2)、 3)具體為2)數(shù)據(jù)集合中沒有與待錄入元數(shù)據(jù)重復(fù)的記錄;3)將質(zhì)量較好的待錄入元數(shù)據(jù)存儲倒數(shù)據(jù)集合中。
      8、 根據(jù)權(quán)利要求1所述的基于元數(shù)據(jù)去除重復(fù)對象的方法,其特征在于, 當(dāng)數(shù)據(jù)集合不為空時,所述步驟2)包括21) 縮小數(shù)據(jù)集合中,與待錄入元數(shù)據(jù)進行比較的記錄的范圍;22) 在步驟21)限定的范圍內(nèi),利用帶權(quán)重值的相似度比較函數(shù),計算待 錄入元數(shù)據(jù)與數(shù)據(jù)集合中對應(yīng)字段的屬性值之間的相似度值;23) 將各個字段相似度值乘以權(quán)重值,相加得到復(fù)合相似度值;24) 將復(fù)合相似度值與一預(yù)設(shè)閾值進行比較;如果復(fù)合相似度值不小于閾 值,則數(shù)據(jù)集合中的當(dāng)前記錄與待錄入元數(shù)據(jù)為重復(fù)數(shù)據(jù);如果復(fù)合相似度值 小于閾值,則數(shù)據(jù)集合中的當(dāng)前記錄與待錄入元數(shù)據(jù)不是重復(fù)數(shù)據(jù)。
      9、 根據(jù)權(quán)利要求8所述的基于元數(shù)據(jù)去除重復(fù)對象的方法,其特征在于, 所述步驟21)具體為211 )在數(shù)據(jù)集合的記錄中,選取與待錄入元數(shù)據(jù)的出版社字段相同的記錄, 作為比較范圍;212)在選定的記錄中,選取國際標(biāo)準(zhǔn)書號、書名、作者、出版社、出版時 間、價格字段,作為比較范圍。
      10、 根據(jù)權(quán)利要求8所述的基于元數(shù)據(jù)去除重復(fù)對象的方法,其特征在于, 在步驟22)中所述帶權(quán)重值的相似度比較函數(shù)包括整數(shù)相似度比較函數(shù)、字 符串相似度比較函數(shù)、實數(shù)相似度比較函數(shù)。
      全文摘要
      本發(fā)明公開了一種基于元數(shù)據(jù)去除重復(fù)對象的方法,涉及元數(shù)據(jù)清理領(lǐng)域,解決了現(xiàn)有去除重復(fù)數(shù)據(jù)工作量大的問題,本發(fā)明先對待錄入的元數(shù)據(jù)進行規(guī)范化處理。在比較時通過縮小比較范圍,減少工作量,提高工作效率。在數(shù)據(jù)集合記錄中,選取與待錄入元數(shù)據(jù)的出版社字段相同的記錄;在選定的記錄中,選取isbn、書名、作者、出版社、出版時間、價格字段,作為比較范圍。利用帶權(quán)重值的相似度比較函數(shù),計算待錄入元數(shù)據(jù)與數(shù)據(jù)集合中對應(yīng)字段的屬性值之間的相似度值;將各個字段相似度值乘以權(quán)重值,相加得到復(fù)合相似度值;將復(fù)合相似度值與預(yù)設(shè)閾值進行比較;如果復(fù)合相似度值不小于閾值,則數(shù)據(jù)集合中的當(dāng)前記錄與待錄入元數(shù)據(jù)為重復(fù)數(shù)據(jù)。
      文檔編號G06F17/30GK101286156SQ20071010602
      公開日2008年10月15日 申請日期2007年5月29日 優(yōu)先權(quán)日2007年5月29日
      發(fā)明者飛 高 申請人:北大方正集團有限公司;北京方正阿帕比技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1