一種文本文件的并行解析過濾方法

文檔序號：10553084閱讀：269來源：國知局

一種文本文件的并行解析過濾方法【專利摘要】本發(fā)明公開一種文本文件的并行解析過濾方法,涉及數(shù)據(jù)抽取轉換技術，用于文本文件與hbase數(shù)據(jù)庫的轉換，通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項，在解析出不同的文本文件類型后進行匹配解析，使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配；最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫，進行文本文件的分類解析過濾。本發(fā)明通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項實現(xiàn)文本文件的分類解析過濾，通過多線程入庫hbase實現(xiàn)文本文件的分布式存儲管理；增加了系統(tǒng)的可擴展性，同時使用了分類解析、存儲、管理的方式，增強了文本數(shù)據(jù)解析過濾后的可用性。【專利說明】一種文本文件的并行解析過濾方法[0001]
技術領域：
[0002]本發(fā)明涉及數(shù)據(jù)抽取轉換技術，具體的說是一種文本文件的并行解析過濾方法。【
背景技術：
】[0003]隨著數(shù)據(jù)信息系統(tǒng)應用的不斷發(fā)展，系統(tǒng)對應不同種類數(shù)據(jù)的解析、分類和管理能力的要求越來越高，由于很大一部分社會化數(shù)據(jù)信息以文本文件的方式存放，系統(tǒng)需要將此部分信息錄入管理，比如:高校信息、生活信息(煤氣/水電)、交通出行信息、求職就業(yè)信息等等。如何實現(xiàn)數(shù)據(jù)的高效提取、分類、管理，顯得尤為重要。[0004]為了更好的實現(xiàn)數(shù)據(jù)的高效提取管理，本發(fā)明提出了一種文本文件的并行解析過濾方法，實現(xiàn)文本文件與hbase數(shù)據(jù)庫的轉換，保證了文本數(shù)據(jù)的高效解析、分類、管理。[0005]文本文件是一種計算機文件，存在于計算機文件系統(tǒng)中，是一種包含純文本的容器。文本文件中文件的邏輯結構屬于流式文件，是以ASCII碼方式(也稱文本方式)存儲的文件。文本文件中除了存儲文件有效字符信息外，不能存儲其他任何信息。[000?]HBase是一個分布式的、面向列的開源數(shù)據(jù)庫，HBase在Hadoop之上提供了類似于Bigtable的能力;不同于一般的關系數(shù)據(jù)庫，它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫。HBase-HadoopDatabase，是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)，利用HBase技術可在廉價PCServer上搭建起大規(guī)模結構化存儲集群。【
發(fā)明內(nèi)容】[0007]本發(fā)明針對目前技術發(fā)展的需求和不足之處，提供一種文本文件的并行解析過濾方法。[0008]本發(fā)明所述一種文本文件的并行解析過濾方法，解決上述技術問題采用的技術方案如下:所述一種文本文件的并行解析過濾方法，用于文本文件與hbase數(shù)據(jù)庫的轉換，通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項，在解析出不同的文本文件類型后進行匹配解析，使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫，實現(xiàn)文本文件的分類解析過濾，進而實現(xiàn)了文本數(shù)據(jù)的更高效的解析、存儲和管理。[0009]優(yōu)選的，所述文本文件的并行解析過濾方法，其主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板，過濾文本文件類型，解析匹配數(shù)據(jù)，以及多線程入庫hbase。[0010]優(yōu)選的，所述創(chuàng)建數(shù)據(jù)模板這一步驟，其主要內(nèi)容包括，不同的用戶能夠自定義不同的數(shù)據(jù)模板，數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊。[0011]優(yōu)選的，所述過濾文本文件類型這一步驟，其主要內(nèi)容包括，解析出不同的文本文件類型，然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配。[0012]優(yōu)選的，若文本文件類型不匹配，則結束;若文本文件類型匹配，則上傳文本文件。[0013]優(yōu)選的，所述解析匹配數(shù)據(jù)這一步驟，其主要內(nèi)容包括，根據(jù)不同的文本文件類型解析過濾;首先匹配內(nèi)置的常用數(shù)據(jù)類型，再匹配選定的數(shù)據(jù)模板，并作相應標記。[0014]優(yōu)選的，所述多線程入庫hbase這一步驟，其主要內(nèi)容包括，根據(jù)匹配的不同的數(shù)據(jù)類型，分多線程批量存儲到hbase數(shù)據(jù)庫。[0015]本發(fā)明所述一種文本文件的并行解析過濾方法與現(xiàn)有技術相比具有的有益效果是:本發(fā)明通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項實現(xiàn)文本文件的分類解析過濾，通過多線程入庫hbase實現(xiàn)文本文件的分布式存儲管理；由于使用了數(shù)據(jù)模板增加了系統(tǒng)的可擴展性，同時使用了分類解析、存儲、管理的方式，增強了文本數(shù)據(jù)解析過濾后的可用性。[0016]說明書附圖附圖1為所述文本文件的并行解析過濾方法的流程圖?！揪唧w實施方式】[0017]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白，以下結合具體實施例，對本發(fā)明所述一種文本文件的并行解析過濾方法進一步詳細說明。[0018]本發(fā)明公開了一種文本文件的并行解析過濾方法，用于文本文件與hbase數(shù)據(jù)庫的轉換，通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項，在解析出不同的文本文件類型后進行匹配解析，使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲至IJhbase數(shù)據(jù)庫，實現(xiàn)文本文件的分類解析過濾，進而實現(xiàn)了文本數(shù)據(jù)的更高效的解析、存儲和管理。[0019]實施例:本實施例所述一種文本文件的并行解析過濾方法，主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板，過濾文本文件類型，解析匹配數(shù)據(jù)，以及多線程入庫hbase。如附圖1所示，該并行解析過濾方法的具體實施流程包括:所述創(chuàng)建數(shù)據(jù)模板這一步驟，其主要內(nèi)容是指，不同的用戶能夠自定義不同的數(shù)據(jù)模板，數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊，保證了可擴展性。[0020]所述過濾文本文件類型這一步驟，其主要內(nèi)容包括，解析出不同的文本文件類型，查看文本數(shù)據(jù)是否為csv、txt、excel2003、excel2007等等;然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;若文本文件類型不匹配，則結束;若文本文件類型匹配，則上傳文本文件。[0021]所述解析匹配數(shù)據(jù)這一步驟，其主要內(nèi)容包括，根據(jù)不同的文本文件類型解析過濾，首先匹配內(nèi)置的常用數(shù)據(jù)類型，再匹配選定的數(shù)據(jù)模板，并作相應標記。[0022]所述多線程入庫hbase這一步驟，其主要內(nèi)容包括，根據(jù)匹配的不同的數(shù)據(jù)類型，分多線程批量存儲到hbase數(shù)據(jù)庫。[0023]上述【具體實施方式】僅是本發(fā)明的具體個案，本發(fā)明的專利保護范圍包括但不限于上述【具體實施方式】，任何符合本發(fā)明的權利要求書的且任何所屬
技術領域：
的普通技術人員對其所做的適當變化或替換，皆應落入本發(fā)明的專利保護范圍?！局鳈囗棥?.一種文本文件的并行解析過濾方法，其特征在于，用于文本文件與hbase數(shù)據(jù)庫的轉換，通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項，在解析出不同的文本文件類型后進行匹配解析，使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫，進行文本文件的分類解析過濾。2.根據(jù)權利要求1所述一種文本文件的并行解析過濾方法，其特征在于，所述文本文件的并行解析過濾方法，其主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板，過濾文本文件類型，解析匹配數(shù)據(jù)，以及多線程入庫hbase。3.根據(jù)權利要求2所述一種文本文件的并行解析過濾方法，其特征在于，所述創(chuàng)建數(shù)據(jù)模板這一步驟，其主要內(nèi)容包括，不同的用戶能夠自定義不同的數(shù)據(jù)模板，數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊。4.根據(jù)權利要求3所述一種文本文件的并行解析過濾方法，其特征在于，所述過濾文本文件類型這一步驟，其主要內(nèi)容包括，解析出不同的文本文件類型，然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配。5.根據(jù)權利要求4所述一種文本文件的并行解析過濾方法，其特征在于，若文本文件類型不匹配，則結束;若文本文件類型匹配，則上傳文本文件。6.根據(jù)權利要求5所述一種文本文件的并行解析過濾方法，其特征在于，所述解析匹配數(shù)據(jù)這一步驟，其主要內(nèi)容包括，根據(jù)不同的文本文件類型解析過濾;首先匹配內(nèi)置的常用數(shù)據(jù)類型，再匹配選定的數(shù)據(jù)模板，并作相應標記。7.根據(jù)權利要求6所述一種文本文件的并行解析過濾方法，其特征在于，所述多線程入庫hbase這一步驟，其主要內(nèi)容包括，根據(jù)匹配的不同的數(shù)據(jù)類型，分多線程批量存儲到hbase數(shù)據(jù)庫?！疚臋n編號】G06F17/30GK105912735SQ201610483787【公開日】2016年8月31日【申請日】2016年6月28日【發(fā)明人】孫凱【申請人】浪潮軟件股份有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：孫凱;
技術所有人：浪潮軟件股份有限公司;
我是此專利的發(fā)明人

上一篇：一種統(tǒng)一資源定位符url分類方法及裝置的制造方法
上一篇：一種用戶反饋自動回復方法及裝置的制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

并行工程的理論與方法相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文本文件的并行解析過濾方法