国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      異源異構(gòu)數(shù)據(jù)清洗方法及其系統(tǒng)的制作方法

      文檔序號:9887688閱讀:1516來源:國知局
      異源異構(gòu)數(shù)據(jù)清洗方法及其系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及數(shù)據(jù)清洗領(lǐng)域,尤其涉及一種異源異構(gòu)數(shù)據(jù)清洗方法及其系統(tǒng)。
      【背景技術(shù)】
      [0002]異源異構(gòu)數(shù)據(jù)是指數(shù)據(jù)內(nèi)容中標(biāo)題位置不確定、內(nèi)容項(xiàng)目位置不確定的文件數(shù)據(jù)。目前市場上的產(chǎn)品對異源異構(gòu)數(shù)據(jù)的清洗,都是需要手動建立模板,指定標(biāo)題位置,這樣的操作非常不便;一旦文件標(biāo)題內(nèi)容及項(xiàng)目順序有任何變動,又得重新指定標(biāo)題位置,建立新模板。
      [0003]在申請?zhí)枮?01310388420.7的專利公開文件中,提出一種異構(gòu)數(shù)據(jù)源的數(shù)據(jù)加工處理方法,包括以下步驟:從異構(gòu)數(shù)據(jù)源中獲取數(shù)據(jù);根據(jù)預(yù)設(shè)數(shù)據(jù)模板對數(shù)據(jù)進(jìn)行加載和分類,并根據(jù)分類結(jié)果將每一類的數(shù)據(jù)分別存入臨時存儲單元中;對臨時存儲單元中存儲的數(shù)據(jù)進(jìn)行一致化轉(zhuǎn)換以得到滿足預(yù)設(shè)數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù),并根據(jù)預(yù)定需求對轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行合并和匯總以使處理后的數(shù)據(jù)滿足數(shù)據(jù)分析需求。該公開文件將來自不同的異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一加工處理為滿足數(shù)據(jù)分析需要的數(shù)據(jù),但該方法需要預(yù)設(shè)數(shù)據(jù)模板和數(shù)據(jù)結(jié)構(gòu),若數(shù)據(jù)模板改變則數(shù)據(jù)結(jié)構(gòu)也要相應(yīng)改變,且還要占用臨時儲存單元的內(nèi)存。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明所要解決的技術(shù)問題是:提供一種異源異構(gòu)數(shù)據(jù)清洗方法及其系統(tǒng),可以提高異源異構(gòu)數(shù)據(jù)清洗的準(zhǔn)確性和便捷性。
      [0005]為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:一種異源異構(gòu)數(shù)據(jù)清洗方法,包括
      [0006]預(yù)設(shè)標(biāo)題行;
      [0007]載入標(biāo)題特征庫和文件數(shù)據(jù),所述標(biāo)題特征庫存儲包括所述預(yù)設(shè)標(biāo)題行中的標(biāo)題與所述文件數(shù)據(jù)中標(biāo)題的映射關(guān)系;
      [0008]遍歷所述文件數(shù)據(jù)的每一行數(shù)據(jù),確定標(biāo)題行;
      [0009]遍歷所述標(biāo)題行的每一列數(shù)據(jù),確定所述每一列數(shù)據(jù)的標(biāo)題;
      [0010]依據(jù)所述標(biāo)題特征庫,確定所述每一列數(shù)據(jù)的標(biāo)題在所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題;
      [0011]將所述每一列數(shù)據(jù)添加至所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題下。
      [0012]本發(fā)明還涉及一種異源異構(gòu)數(shù)據(jù)清洗系統(tǒng),包括
      [0013]預(yù)設(shè)模塊,用于預(yù)設(shè)標(biāo)題行;
      [0014]載入模塊,用于載入標(biāo)題特征庫和文件數(shù)據(jù),所述標(biāo)題特征庫存儲包括所述預(yù)設(shè)標(biāo)題行中的標(biāo)題與所述文件數(shù)據(jù)中標(biāo)題的映射關(guān)系;
      [0015]第一遍歷模塊,用于遍歷所述文件數(shù)據(jù)的每一行數(shù)據(jù),確定標(biāo)題行;
      [0016]第二遍歷模塊,用于遍歷所述標(biāo)題行的每一列數(shù)據(jù),確定所述每一列數(shù)據(jù)的標(biāo)題;
      [0017]第一確定模塊,用于依據(jù)所述標(biāo)題特征庫,確定所述每一列數(shù)據(jù)的標(biāo)題在所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題;
      [0018]組織模塊,用于將所述每一列數(shù)據(jù)添加至所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題下。
      [0019]本發(fā)明的有益效果在于:通過采用標(biāo)題特征庫,自動識別標(biāo)題,解析文件數(shù)據(jù),自動匹配標(biāo)題列,無需人工介入,節(jié)約了成本,提高了數(shù)據(jù)清洗的準(zhǔn)確性和便捷性,并且可適用于多種格式的文件和數(shù)據(jù),適應(yīng)性強(qiáng),可以通用、全面地解決異源異構(gòu)數(shù)據(jù)的清洗問題。
      【附圖說明】
      [0020]圖1為本發(fā)明一種異源異構(gòu)數(shù)據(jù)清洗方法的流程圖;
      [0021 ]圖2為本發(fā)明實(shí)施例一的方法流程圖;
      [0022]圖3為本發(fā)明實(shí)施例一的原始文件數(shù)據(jù);
      [0023]圖4為本發(fā)明實(shí)施例一的清洗后的文件數(shù)據(jù);
      [0024]圖5為本發(fā)明一種異源異構(gòu)數(shù)據(jù)清洗系統(tǒng)的結(jié)構(gòu)示意圖;
      [0025]圖6為本發(fā)明實(shí)施例三的系統(tǒng)結(jié)構(gòu)示意圖;
      [0026]圖7為本發(fā)明實(shí)施例四的預(yù)處理模塊的結(jié)構(gòu)示意圖。
      [0027]標(biāo)號說明:
      [0028]1、預(yù)設(shè)模塊;2、載入模塊;3、第一遍歷模塊;4、第二遍歷模塊;5、第一確定模塊;6、組織模塊;7、第一判斷模塊;8、預(yù)處理模塊;9、第二判斷模塊;1、第二確定模塊;11、第三判斷模塊;12、第三確定模塊;13、更新模塊;
      [0029]801、第一遍歷單元;802、第一判斷單元;803、第一保存單元;804、第二保存單元;[°03°] 1001、第一統(tǒng)計(jì)單元;1002、第一獲取單元;1003、第一確定單元;
      [0031 ] 1201、第二統(tǒng)計(jì)單元;1202、第二獲取單元;1203、第二確定單元;
      [0032]1301、接收單元;1302、修改單元。
      【具體實(shí)施方式】
      [0033]為詳細(xì)說明本發(fā)明的技術(shù)內(nèi)容、所實(shí)現(xiàn)目的及效果,以下結(jié)合實(shí)施方式并配合附圖詳予說明。
      [0034]本發(fā)明最關(guān)鍵的構(gòu)思在于:引入標(biāo)題特征庫,通過標(biāo)題特征庫智能匹配標(biāo)題。
      [0035]請參閱圖1,一種異源異構(gòu)數(shù)據(jù)清洗方法,包括
      [0036]預(yù)設(shè)標(biāo)題行;
      [0037]載入標(biāo)題特征庫和文件數(shù)據(jù),所述標(biāo)題特征庫存儲包括所述預(yù)設(shè)標(biāo)題行中的標(biāo)題與所述文件數(shù)據(jù)中標(biāo)題的映射關(guān)系;
      [0038]遍歷所述文件數(shù)據(jù)的每一行數(shù)據(jù),確定標(biāo)題行;
      [0039]遍歷所述標(biāo)題行的每一列數(shù)據(jù),確定所述每一列數(shù)據(jù)的標(biāo)題;
      [0040]依據(jù)所述標(biāo)題特征庫,確定所述每一列數(shù)據(jù)的標(biāo)題在所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題;
      [0041 ]將所述每一列數(shù)據(jù)添加至所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題下。
      [0042]從上述描述可知,本發(fā)明的有益效果在于:預(yù)設(shè)標(biāo)題行,并通過標(biāo)題特征庫存儲預(yù)設(shè)標(biāo)題行中的標(biāo)題列與標(biāo)題的映射關(guān)系,可自動匹配異源異構(gòu)文件數(shù)據(jù)中標(biāo)題及其在預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題,有效地保證了數(shù)據(jù)清洗的準(zhǔn)確性和便捷性。
      [0043]進(jìn)一步地,所述“遍歷所述標(biāo)題行的每一列數(shù)據(jù)”之后,進(jìn)一步包括:
      [0044]若列數(shù)據(jù)無標(biāo)題,則統(tǒng)計(jì)所述列數(shù)據(jù),依據(jù)特征概率,獲取所述列數(shù)據(jù)的標(biāo)題,確定所述列數(shù)據(jù)的標(biāo)題在所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題。
      [0045]進(jìn)一步地,所述“遍歷所述文件數(shù)據(jù)的每一行數(shù)據(jù)”之后,進(jìn)一步包括:
      [0046]若無標(biāo)題行,則統(tǒng)計(jì)每一列的數(shù)據(jù),依據(jù)特征概率,獲取列數(shù)據(jù)的標(biāo)題,確定所述列數(shù)據(jù)的標(biāo)題在所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題。
      [0047]由上述描述可知,通過特征概率統(tǒng)計(jì),可對無標(biāo)題的列數(shù)據(jù)實(shí)現(xiàn)標(biāo)題匹配,進(jìn)一步提高了數(shù)據(jù)清洗的便捷性。
      [0048]進(jìn)一步地,所述“依據(jù)所述標(biāo)題特征庫,確定所述每一列數(shù)據(jù)的標(biāo)題在所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題”之后,進(jìn)一步包括:
      [0049]接收對所述映射關(guān)系的修改信息;
      [0050]根據(jù)所述修改信息,對應(yīng)修改所述映射關(guān)系。
      [0051]由上述描述可知,通過人為的反饋修改標(biāo)題特征庫的映射關(guān)系,進(jìn)一步提高了數(shù)據(jù)清洗的準(zhǔn)確性。
      [0052]進(jìn)一步地,所述“載入標(biāo)題特征庫和文件數(shù)據(jù)”之后還包括:
      [0053]若文件數(shù)據(jù)為多標(biāo)題文件數(shù)據(jù),則對多標(biāo)題文件數(shù)據(jù)進(jìn)行預(yù)處理,拆分所述多標(biāo)題文件數(shù)據(jù)為多個的單標(biāo)題文件數(shù)據(jù)。
      [0054]進(jìn)一步地,所述預(yù)處理過程具體為:遍歷所述多標(biāo)題文件數(shù)據(jù)的每一行數(shù)據(jù),若為標(biāo)題行,則保存所述標(biāo)題行之前的數(shù)據(jù)至一個文件中,并保存所述標(biāo)題行至另一個文件中;若不為標(biāo)題行,則保存所述行數(shù)據(jù)至前一標(biāo)題行所在的文件中。
      [0055]由上述描述可知,本發(fā)明可適用于多種文件數(shù)據(jù),具有很強(qiáng)的通用性,可通用、全面地解決異源異構(gòu)數(shù)據(jù)的清洗問題。
      [0056]本發(fā)明還提出一種異源異構(gòu)數(shù)據(jù)清洗系統(tǒng),包括
      [0057]預(yù)設(shè)模塊,用于預(yù)設(shè)標(biāo)題行;
      [0058]載入模塊,用于載入標(biāo)題特征庫和文件數(shù)據(jù),所述標(biāo)題特征庫存儲包括所述預(yù)設(shè)標(biāo)題行中的標(biāo)題與所述文件數(shù)據(jù)中標(biāo)題的映射關(guān)系;
      [0059]第一遍歷模塊,用于遍歷所述文件數(shù)據(jù)的每一行數(shù)據(jù),確定標(biāo)題行;
      [0060]第二遍歷模塊,用于遍歷所述標(biāo)題行的每一列數(shù)據(jù),確定所述每一列數(shù)據(jù)的標(biāo)題;[0061 ]第一確定模塊,用于依據(jù)所述標(biāo)題特征庫,確定所述每一列數(shù)據(jù)的標(biāo)題在所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題;
      [0062]組織模塊,用于將所述每一列數(shù)據(jù)添加至所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題下。
      [0063]進(jìn)一步地,還包括第二確定模塊和第三確定模塊;
      [0064]所述第二確定模塊包括
      [0065]第一統(tǒng)計(jì)單元,用于若所述列數(shù)據(jù)無標(biāo)題,則統(tǒng)計(jì)所述列數(shù)據(jù);
      [0066]第一獲取單元,用于依據(jù)特征概率,獲取所述列數(shù)據(jù)的標(biāo)題;
      [0067]第一確定單元,用于確定所述列數(shù)據(jù)的標(biāo)題在所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題;
      [0068]所述第三確定模塊包括
      [0069]第二統(tǒng)計(jì)單元,用于若無標(biāo)題行,則統(tǒng)計(jì)每一列的數(shù)據(jù);
      [0070]第二獲取單元,用于依據(jù)特征概率,獲取列數(shù)據(jù)的標(biāo)題;
      [0071]第二確定單元,用于確定所述列數(shù)據(jù)的標(biāo)題在所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題。
      [0072]進(jìn)一步地,還包括更新模塊,所述更新模塊包括
      [0073]接收單元,用于接收對映射關(guān)系的修改信息;
      [0074]修改單元,用于根據(jù)所述修改信息,對應(yīng)修改所述映射關(guān)系。
      [0075]進(jìn)一步地,還包括
      [0076]預(yù)處理模塊,用于若文件數(shù)據(jù)為多標(biāo)題文件數(shù)據(jù),則對多標(biāo)題文件數(shù)據(jù)進(jìn)行預(yù)處理,拆分所述多標(biāo)題文件數(shù)據(jù)為多個的單標(biāo)題文件數(shù)據(jù)。
      [0077]所述預(yù)處理模塊包括
      [0078]第一遍歷單元,用于遍歷所述多標(biāo)題文件數(shù)據(jù)的每一行數(shù)據(jù);
      [0079]第一保存單元,用于若為標(biāo)題行,則保存所述標(biāo)題行之前的數(shù)據(jù)至一個文件中,并保存所述標(biāo)題行至另一個文件中;
      [0080]第二保存單元,用于若不為標(biāo)題行,則保存所述行數(shù)據(jù)至前一標(biāo)題行所在的文件中。
      [0081 ] 實(shí)施例一
      [0082]請參照圖1-2,本發(fā)明的實(shí)施例一為:一種異源異構(gòu)數(shù)據(jù)清洗方法,包括如下步驟:
      [0083]S1:預(yù)設(shè)標(biāo)題行,所述預(yù)設(shè)標(biāo)題行為預(yù)先設(shè)定的標(biāo)題字段。
      [0084]S2:載入標(biāo)題特征庫和文件數(shù)據(jù),所述標(biāo)題特征庫存儲包括預(yù)設(shè)標(biāo)題行中的標(biāo)題與文件數(shù)據(jù)中的標(biāo)題的映射關(guān)系,所述文件數(shù)據(jù)可以為〖11:、08¥、118、11814(^或111:1111等格式。
      [0085]S3:判斷所載入的文件數(shù)據(jù)是否為多標(biāo)題文件數(shù)據(jù),若是則先執(zhí)行S4再執(zhí)行S5,若否則直接執(zhí)行S5。
      [0086]S4:對多標(biāo)題文件數(shù)據(jù)進(jìn)行預(yù)處理,將所述多標(biāo)題文件數(shù)據(jù)拆分為多個的單標(biāo)題文件數(shù)據(jù)。
      [0087]S5:遍歷所述文件數(shù)據(jù)的每一行數(shù)據(jù)。
      [0088]S6:判斷所述文件數(shù)據(jù)是否有標(biāo)題行,若無,則執(zhí)行S7,若有則執(zhí)行S8。
      [0089]S7:統(tǒng)計(jì)每一列的數(shù)據(jù),依據(jù)特征概率,獲取列數(shù)據(jù)的標(biāo)題,確定所述列數(shù)據(jù)的標(biāo)題在所述預(yù)設(shè)標(biāo)題行中對應(yīng)的標(biāo)題;例如,對于通訊數(shù)據(jù),若一列無標(biāo)題的數(shù)據(jù)中,有80%的數(shù)據(jù)為時間格式,則認(rèn)為該列數(shù)據(jù)可能為通話時間,若預(yù)設(shè)標(biāo)題行中存在“通話時間”這一標(biāo)題且尚未被匹配,則將該列數(shù)據(jù)與預(yù)設(shè)標(biāo)題行中的“通話時間”匹配;若一列數(shù)據(jù)中的超過80%的數(shù)據(jù)為“主叫”、“被叫”、“
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1