国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      建設(shè)行業(yè)工程項目Excel文件數(shù)據(jù)格式化存儲方法及系統(tǒng)與流程

      文檔序號:11286244閱讀:636來源:國知局
      建設(shè)行業(yè)工程項目Excel文件數(shù)據(jù)格式化存儲方法及系統(tǒng)與流程

      本發(fā)明屬于建設(shè)行業(yè)工程項目文件處理領(lǐng)域,具體涉及一種建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲方法及系統(tǒng)



      背景技術(shù):

      excel文件作為數(shù)據(jù)格式化存儲已經(jīng)在許多行業(yè)得到使用,但是建設(shè)行業(yè)還沒有一個通用、標準的數(shù)據(jù)格式化存儲方案,因此建設(shè)行業(yè)的各企業(yè)主要按照各自的意愿設(shè)置存儲格式進行存儲。這些存儲格式不統(tǒng)一的excel文件數(shù)據(jù)上傳到大數(shù)據(jù)分析平臺后,系統(tǒng)難以自動進行識別及分析,因此對分析工作帶來了很大困難?,F(xiàn)有的解決方案主要仍是通過人工進行識別及分析,效率很低且成本過高。

      故而,現(xiàn)有技術(shù)需要進一步發(fā)展及改進。



      技術(shù)實現(xiàn)要素:

      本發(fā)明的目的在于解決建設(shè)行業(yè)中缺少excel文件數(shù)據(jù)的通用格式化存儲方案的問題,由此公開一種建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲方法。同時,本發(fā)明還相應公開一種建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲系統(tǒng)。

      為了實現(xiàn)以上目的,本發(fā)明公開的一種建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲方法,包括以下步驟:

      a、基于分布式和高并發(fā)的計算機技術(shù),在各客戶端上采集建設(shè)行業(yè)工程項目excel文件,并提取excel文件中的字段屬性信息;

      b、根據(jù)提取的字段屬性信息進行坐標定位并提取有效的關(guān)鍵特征字段;

      c、將有效的關(guān)鍵特征字段加入kafka消息隊列,并利用反垃圾大數(shù)據(jù)算法對導入的excel文件進行自動識別,識別出垃圾文件數(shù)據(jù)和標準格式數(shù)據(jù);

      d、將標準格式數(shù)據(jù)進行規(guī)約,并按照工程項目標準結(jié)構(gòu)自動統(tǒng)計、匯總及存儲。

      本發(fā)明的進一步方案中,步驟a中字段屬性信息包括行名稱和列名稱。

      本發(fā)明的進一步方案中,步驟b中具體包括:將包含有關(guān)鍵特征字段的文本信息進行分詞處理,并與關(guān)鍵詞庫進行匹配,得到有效的關(guān)鍵特征字段。

      本發(fā)明的進一步方案中,步驟c中的反垃圾大數(shù)據(jù)算法具體為simhash算法,通過simhash算法對關(guān)鍵特征字段相似對度進行計算及統(tǒng)計,識別出垃圾文件數(shù)據(jù)和標準格式數(shù)據(jù)。

      本發(fā)明的進一步方案中,步驟d包括對標準格式數(shù)據(jù)按照工程項目數(shù)據(jù)層級進行統(tǒng)一編碼,以便于數(shù)據(jù)橫向及縱向?qū)Ρ确治觥?/p>

      本發(fā)明的進一步方案中,工程項目數(shù)據(jù)層級包括:建設(shè)項目、單項工程、單位工程、分部分項、清單、定額、消耗量、工料機數(shù)據(jù)。

      本發(fā)明相應公開的一種建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲系統(tǒng),包括字段屬性信息提取模塊、關(guān)鍵特征字段提取模塊、標準格式數(shù)據(jù)識別模塊、數(shù)據(jù)規(guī)約存儲模塊;其中,

      字段屬性信息提取模塊用于在各客戶端上采集建設(shè)行業(yè)工程項目excel文件,并提取excel文件中的字段屬性信息;關(guān)鍵特征字段提取模塊用于根據(jù)提取的字段屬性信息進行坐標定位并提取有效的關(guān)鍵特征字段;標準格式數(shù)據(jù)識別模塊用于將有效的關(guān)鍵特征字段加入kafka消息隊列,并利用反垃圾大數(shù)據(jù)算法對導入的excel文件進行自動識別,識別出垃圾文件數(shù)據(jù)和標準格式數(shù)據(jù);數(shù)據(jù)規(guī)約存儲模塊用于將標準格式數(shù)據(jù)進行規(guī)約,并按照工程項目標準結(jié)構(gòu)自動統(tǒng)計、匯總及存儲。

      有益效果:本發(fā)明通過提取excel文件數(shù)據(jù)的字段屬性信息以及關(guān)鍵特征字段,結(jié)合kafka消息隊列及反垃圾大數(shù)據(jù)算法識別出標準格式數(shù)據(jù),以及對標準格式數(shù)據(jù)進行規(guī)約,并按照工程項目標準結(jié)構(gòu)自動統(tǒng)計、匯總及存儲,從而實現(xiàn)了一種高效的建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲方案,為建設(shè)行業(yè)excel文件數(shù)據(jù)的通用格式化存儲提供了參考案例。此外,本發(fā)明還具有識別效率更高、更準確等有益效果。

      附圖說明

      圖1是實施例一公開的建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲方法整體流程示意圖。

      圖2是實施例二公開的建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲系統(tǒng)結(jié)構(gòu)框圖。

      具體實施方式

      為了便于本領(lǐng)域技術(shù)人員理解,下面將結(jié)合附圖以及實施例對本發(fā)明進行進一步描述。

      實施例一

      請參閱圖1,實施例一公開的一種建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲方法,主要包括以下步驟s100至s400:

      s100、基于分布式和高并發(fā)的計算機技術(shù),在各客戶端上采集建設(shè)行業(yè)工程項目excel文件,并提取excel文件中的字段屬性信息。

      步驟s100中的字段屬性信息包括行名稱和列名稱。譬如某工程項目excel文件中的字段屬性信息有以下行名稱或列名稱:序號、定額編號、項目名稱、單位、數(shù)量、儀表名稱、單位定額值、合計值等。

      s200、根據(jù)提取的字段屬性信息進行坐標定位并提取有效的關(guān)鍵特征字段。

      譬如在以上工程項目excel文件中字段屬性信息的行名稱“項目名稱”進行坐標定位并提取到以下關(guān)鍵特征字段:保護倒換測試、敷設(shè)管道光纜、光纜割接、光纖連接、光纜中繼段雙窗口測試等。

      步驟s200中具體包括:將包含有關(guān)鍵特征字段的文本信息進行分詞處理,并與關(guān)鍵詞庫進行匹配,得到有效的關(guān)鍵特征字段。

      s300、將有效的關(guān)鍵特征字段加入kafka消息隊列,并利用反垃圾大數(shù)據(jù)算法對導入的excel文件進行自動識別,識別出垃圾文件數(shù)據(jù)和標準格式數(shù)據(jù)。

      步驟s300中的反垃圾大數(shù)據(jù)算法具體為simhash算法,通過simhash算法對關(guān)鍵特征字段相似對度進行計算及統(tǒng)計,識別出垃圾文件數(shù)據(jù)和標準格式數(shù)據(jù)。

      s400、將標準格式數(shù)據(jù)進行規(guī)約,并按照工程項目標準結(jié)構(gòu)自動統(tǒng)計、匯總及存儲。

      步驟s400包括對標準格式數(shù)據(jù)按照工程項目數(shù)據(jù)層級進行統(tǒng)一編碼,以便于數(shù)據(jù)橫向及縱向?qū)Ρ确治觥?/p>

      本實施例的工程項目數(shù)據(jù)層級包括:建設(shè)項目、單項工程、單位工程、分部分項、清單、定額、消耗量、工料機數(shù)據(jù)。

      本實施例通過提取excel文件數(shù)據(jù)的字段屬性信息以及關(guān)鍵特征字段,結(jié)合kafka消息隊列及反垃圾大數(shù)據(jù)算法識別出標準格式數(shù)據(jù),以及對標準格式數(shù)據(jù)進行規(guī)約,并按照工程項目標準結(jié)構(gòu)自動統(tǒng)計、匯總及存儲,從而實現(xiàn)了一種高效的建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲方案,為建設(shè)行業(yè)excel文件數(shù)據(jù)的通用格式化存儲提供了參考案例。

      實施例二

      請參閱圖2,實施例二相應公開的一種建設(shè)行業(yè)工程項目excel文件數(shù)據(jù)格式化存儲系統(tǒng),包括字段屬性信息提取模塊10、關(guān)鍵特征字段提取模塊20、標準格式數(shù)據(jù)識別模塊30、數(shù)據(jù)規(guī)約存儲模塊40。

      其中,字段屬性信息提取模塊10用于在各客戶端上采集建設(shè)行業(yè)工程項目excel文件,并提取excel文件中的字段屬性信息;關(guān)鍵特征字段提取模塊20用于根據(jù)提取的字段屬性信息進行坐標定位并提取有效的關(guān)鍵特征字段;標準格式數(shù)據(jù)識別模塊30用于將有效的關(guān)鍵特征字段加入kafka消息隊列,并利用反垃圾大數(shù)據(jù)算法對導入的excel文件進行自動識別,識別出垃圾文件數(shù)據(jù)和標準格式數(shù)據(jù);數(shù)據(jù)規(guī)約存儲模塊40用于將標準格式數(shù)據(jù)進行規(guī)約,并按照工程項目標準結(jié)構(gòu)自動統(tǒng)計、匯總及存儲。

      實施例二與實施例一相對,其工作原理及有益效果與實施例一相同,這里不再贅述。

      以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權(quán)利要求為準。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1