一種文本文件的并行解析過濾方法【專利摘要】本發(fā)明公開一種文本文件的并行解析過濾方法,涉及數(shù)據(jù)抽取轉換技術,用于文本文件與hbase數(shù)據(jù)庫的轉換,通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項,在解析出不同的文本文件類型后進行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫,進行文本文件的分類解析過濾。本發(fā)明通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項實現(xiàn)文本文件的分類解析過濾,通過多線程入庫hbase實現(xiàn)文本文件的分布式存儲管理;增加了系統(tǒng)的可擴展性,同時使用了分類解析、存儲、管理的方式,增強了文本數(shù)據(jù)解析過濾后的可用性。【專利說明】一種文本文件的并行解析過濾方法[0001]
技術領域:
[0002]本發(fā)明涉及數(shù)據(jù)抽取轉換技術,具體的說是一種文本文件的并行解析過濾方法。【
背景技術:
】[0003]隨著數(shù)據(jù)信息系統(tǒng)應用的不斷發(fā)展,系統(tǒng)對應不同種類數(shù)據(jù)的解析、分類和管理能力的要求越來越高,由于很大一部分社會化數(shù)據(jù)信息以文本文件的方式存放,系統(tǒng)需要將此部分信息錄入管理,比如:高校信息、生活信息(煤氣/水電)、交通出行信息、求職就業(yè)信息等等。如何實現(xiàn)數(shù)據(jù)的高效提取、分類、管理,顯得尤為重要。[0004]為了更好的實現(xiàn)數(shù)據(jù)的高效提取管理,本發(fā)明提出了一種文本文件的并行解析過濾方法,實現(xiàn)文本文件與hbase數(shù)據(jù)庫的轉換,保證了文本數(shù)據(jù)的高效解析、分類、管理。[0005]文本文件是一種計算機文件,存在于計算機文件系統(tǒng)中,是一種包含純文本的容器。文本文件中文件的邏輯結構屬于流式文件,是以ASCII碼方式(也稱文本方式)存儲的文件。文本文件中除了存儲文件有效字符信息外,不能存儲其他任何信息。[000?]HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,HBase在Hadoop之上提供了類似于Bigtable的能力;不同于一般的關系數(shù)據(jù)庫,它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫。HBase-HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術可在廉價PCServer上搭建起大規(guī)模結構化存儲集群。【
發(fā)明內(nèi)容】[0007]本發(fā)明針對目前技術發(fā)展的需求和不足之處,提供一種文本文件的并行解析過濾方法。[0008]本發(fā)明所述一種文本文件的并行解析過濾方法,解決上述技術問題采用的技術方案如下:所述一種文本文件的并行解析過濾方法,用于文本文件與hbase數(shù)據(jù)庫的轉換,通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項,在解析出不同的文本文件類型后進行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫,實現(xiàn)文本文件的分類解析過濾,進而實現(xiàn)了文本數(shù)據(jù)的更高效的解析、存儲和管理。[0009]優(yōu)選的,所述文本文件的并行解析過濾方法,其主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板,過濾文本文件類型,解析匹配數(shù)據(jù),以及多線程入庫hbase。[0010]優(yōu)選的,所述創(chuàng)建數(shù)據(jù)模板這一步驟,其主要內(nèi)容包括,不同的用戶能夠自定義不同的數(shù)據(jù)模板,數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊。[0011]優(yōu)選的,所述過濾文本文件類型這一步驟,其主要內(nèi)容包括,解析出不同的文本文件類型,然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配。[0012]優(yōu)選的,若文本文件類型不匹配,則結束;若文本文件類型匹配,則上傳文本文件。[0013]優(yōu)選的,所述解析匹配數(shù)據(jù)這一步驟,其主要內(nèi)容包括,根據(jù)不同的文本文件類型解析過濾;首先匹配內(nèi)置的常用數(shù)據(jù)類型,再匹配選定的數(shù)據(jù)模板,并作相應標記。[0014]優(yōu)選的,所述多線程入庫hbase這一步驟,其主要內(nèi)容包括,根據(jù)匹配的不同的數(shù)據(jù)類型,分多線程批量存儲到hbase數(shù)據(jù)庫。[0015]本發(fā)明所述一種文本文件的并行解析過濾方法與現(xiàn)有技術相比具有的有益效果是:本發(fā)明通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項實現(xiàn)文本文件的分類解析過濾,通過多線程入庫hbase實現(xiàn)文本文件的分布式存儲管理;由于使用了數(shù)據(jù)模板增加了系統(tǒng)的可擴展性,同時使用了分類解析、存儲、管理的方式,增強了文本數(shù)據(jù)解析過濾后的可用性。[0016]說明書附圖附圖1為所述文本文件的并行解析過濾方法的流程圖?!揪唧w實施方式】[0017]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,對本發(fā)明所述一種文本文件的并行解析過濾方法進一步詳細說明。[0018]本發(fā)明公開了一種文本文件的并行解析過濾方法,用于文本文件與hbase數(shù)據(jù)庫的轉換,通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項,在解析出不同的文本文件類型后進行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲至IJhbase數(shù)據(jù)庫,實現(xiàn)文本文件的分類解析過濾,進而實現(xiàn)了文本數(shù)據(jù)的更高效的解析、存儲和管理。[0019]實施例:本實施例所述一種文本文件的并行解析過濾方法,主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板,過濾文本文件類型,解析匹配數(shù)據(jù),以及多線程入庫hbase。如附圖1所示,該并行解析過濾方法的具體實施流程包括:所述創(chuàng)建數(shù)據(jù)模板這一步驟,其主要內(nèi)容是指,不同的用戶能夠自定義不同的數(shù)據(jù)模板,數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊,保證了可擴展性。[0020]所述過濾文本文件類型這一步驟,其主要內(nèi)容包括,解析出不同的文本文件類型,查看文本數(shù)據(jù)是否為csv、txt、excel2003、excel2007等等;然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;若文本文件類型不匹配,則結束;若文本文件類型匹配,則上傳文本文件。[0021]所述解析匹配數(shù)據(jù)這一步驟,其主要內(nèi)容包括,根據(jù)不同的文本文件類型解析過濾,首先匹配內(nèi)置的常用數(shù)據(jù)類型,再匹配選定的數(shù)據(jù)模板,并作相應標記。[0022]所述多線程入庫hbase這一步驟,其主要內(nèi)容包括,根據(jù)匹配的不同的數(shù)據(jù)類型,分多線程批量存儲到hbase數(shù)據(jù)庫。[0023]上述【具體實施方式】僅是本發(fā)明的具體個案,本發(fā)明的專利保護范圍包括但不限于上述【具體實施方式】,任何符合本發(fā)明的權利要求書的且任何所屬
技術領域:
的普通技術人員對其所做的適當變化或替換,皆應落入本發(fā)明的專利保護范圍?!局鳈囗棥?.一種文本文件的并行解析過濾方法,其特征在于,用于文本文件與hbase數(shù)據(jù)庫的轉換,通過配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項,在解析出不同的文本文件類型后進行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配;最后按照不同的數(shù)據(jù)分類存儲到hbase數(shù)據(jù)庫,進行文本文件的分類解析過濾。2.根據(jù)權利要求1所述一種文本文件的并行解析過濾方法,其特征在于,所述文本文件的并行解析過濾方法,其主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板,過濾文本文件類型,解析匹配數(shù)據(jù),以及多線程入庫hbase。3.根據(jù)權利要求2所述一種文本文件的并行解析過濾方法,其特征在于,所述創(chuàng)建數(shù)據(jù)模板這一步驟,其主要內(nèi)容包括,不同的用戶能夠自定義不同的數(shù)據(jù)模板,數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項;解析文本文件時選擇指定的數(shù)據(jù)模塊。4.根據(jù)權利要求3所述一種文本文件的并行解析過濾方法,其特征在于,所述過濾文本文件類型這一步驟,其主要內(nèi)容包括,解析出不同的文本文件類型,然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項自動匹配。5.根據(jù)權利要求4所述一種文本文件的并行解析過濾方法,其特征在于,若文本文件類型不匹配,則結束;若文本文件類型匹配,則上傳文本文件。6.根據(jù)權利要求5所述一種文本文件的并行解析過濾方法,其特征在于,所述解析匹配數(shù)據(jù)這一步驟,其主要內(nèi)容包括,根據(jù)不同的文本文件類型解析過濾;首先匹配內(nèi)置的常用數(shù)據(jù)類型,再匹配選定的數(shù)據(jù)模板,并作相應標記。7.根據(jù)權利要求6所述一種文本文件的并行解析過濾方法,其特征在于,所述多線程入庫hbase這一步驟,其主要內(nèi)容包括,根據(jù)匹配的不同的數(shù)據(jù)類型,分多線程批量存儲到hbase數(shù)據(jù)庫?!疚臋n編號】G06F17/30GK105912735SQ201610483787【公開日】2016年8月31日【申請日】2016年6月28日【發(fā)明人】孫凱【申請人】浪潮軟件股份有限公司