信息提取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種信息提取方法及裝置。
【背景技術(shù)】
[0002]目前,一些政府部門、教育機構(gòu)或者其他機構(gòu)在統(tǒng)計人員資料、客戶資料時,一般都只是收集統(tǒng)計的大量非結(jié)構(gòu)化文本數(shù)據(jù)。當(dāng)后續(xù)工作人員需要根據(jù)收集的數(shù)據(jù)提取出不同類別的數(shù)據(jù)進(jìn)行綜合性統(tǒng)計時,需要手動把這些非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù)再進(jìn)行統(tǒng)計。如果需要統(tǒng)計的數(shù)據(jù)量較大,甚至需要工作人員根據(jù)收集的非結(jié)構(gòu)化文本數(shù)據(jù)通過電腦手動輸入各項數(shù)據(jù)以完成數(shù)據(jù)的統(tǒng)計,導(dǎo)致工作人員的工作量非常大,工作效率低,且容易出錯。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的主要目的在于提供一種信息提取方法及裝置,旨在提高統(tǒng)計信息的提取效率及準(zhǔn)確性。
[0004]為實現(xiàn)上述目的,本發(fā)明提供的一種信息提取方法,所述方法包括以下步驟:
[0005]通過預(yù)設(shè)的文檔模板采集統(tǒng)計信息,其中,所述文檔模板中預(yù)設(shè)有相應(yīng)的標(biāo)識符;
[0006]基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取。
[0007]優(yōu)選地,所述文檔模板為xml格式的word文檔模板或excel文檔模板。
[0008]優(yōu)選地,所述通過預(yù)設(shè)的文檔模板采集統(tǒng)計信息的步驟之前還包括:
[0009]根據(jù)統(tǒng)計信息的文本類型預(yù)設(shè)文檔模板,所述文檔模板中針對所述統(tǒng)計信息中的不同文本區(qū)域設(shè)置對應(yīng)的標(biāo)識符。
[0010]優(yōu)選地,所述基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取的步驟包括:
[0011 ] 識別所述文檔模板中的各個標(biāo)識符,獲取所述統(tǒng)計信息中需提取信息的目標(biāo)文本區(qū)域?qū)?yīng)的目標(biāo)標(biāo)識符;
[0012]根據(jù)所述目標(biāo)標(biāo)識符提取出所述文檔模板中的所述目標(biāo)文本區(qū)域?qū)?yīng)的統(tǒng)計信息。
[0013]此外,為實現(xiàn)上述目的,本發(fā)明還提供一種信息提取裝置,所述信息提取裝置包括:
[0014]采集模塊,用于通過預(yù)設(shè)的文檔模板采集統(tǒng)計信息,其中,所述文檔模板中預(yù)設(shè)有相應(yīng)的標(biāo)識符;
[0015]提取模塊,用于基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取。
[0016]優(yōu)選地,所述文檔模板為xml格式的word文檔模板或excel文檔模板。
[0017]優(yōu)選地,所述信息提取裝置還包括:
[0018]設(shè)定模塊,用于根據(jù)統(tǒng)計信息的文本類型預(yù)設(shè)文檔模板,所述文檔模板中針對所述統(tǒng)計信息中的不同文本區(qū)域設(shè)置對應(yīng)的標(biāo)識符。
[0019]優(yōu)選地,所述提取模塊還用于:
[0020]識別所述文檔模板中的各個標(biāo)識符,獲取所述統(tǒng)計信息中需提取信息的目標(biāo)文本區(qū)域?qū)?yīng)的目標(biāo)標(biāo)識符;根據(jù)所述目標(biāo)標(biāo)識符提取出所述文檔模板中的所述目標(biāo)文本區(qū)域?qū)?yīng)的統(tǒng)計信息。
[0021]本發(fā)明提出的一種信息提取方法及裝置,利用預(yù)設(shè)有相應(yīng)標(biāo)識符的文檔模板來采集統(tǒng)計信息,并在提取信息時基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取。由于在采集信息時利用帶有標(biāo)識符的文檔模板來進(jìn)行數(shù)據(jù)收集,可根據(jù)所述標(biāo)識符完成批量數(shù)據(jù)的提取處理,而無需人工輸入來整理出各項數(shù)據(jù),極大地提高了統(tǒng)計信息的提取效率,且準(zhǔn)確性更高。
【附圖說明】
[0022]圖1為本發(fā)明信息提取方法第一實施例的流程示意圖;
[0023]圖2為本發(fā)明信息提取方法第二實施例的流程示意圖;
[0024]圖3為本發(fā)明信息提取裝置第一實施例的功能模塊示意圖;
[0025]圖4為本發(fā)明信息提取裝置第二實施例的功能模塊示意圖。
[0026]本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進(jìn)一步說明。
【具體實施方式】
[0027]應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0028]本發(fā)明提供一種信息提取方法。
[0029]參照圖1,圖1為本發(fā)明信息提取方法第一實施例的流程示意圖。
[0030]在第一實施例中,該信息提取方法包括:
[0031]步驟S10,通過預(yù)設(shè)的文檔模板采集統(tǒng)計信息,其中,所述文檔模板中預(yù)設(shè)有相應(yīng)的標(biāo)識符;
[0032]本實施例中,在需要采集信息如統(tǒng)計各種客戶資料等時,可提供預(yù)設(shè)的文檔模板供待統(tǒng)計人員填寫、錄入信息,并通過該預(yù)設(shè)的文檔模板采集統(tǒng)計信息。其中,所述文檔模板中預(yù)設(shè)有相應(yīng)的標(biāo)識符,所述文檔模板可以為可擴展標(biāo)記語言(extensible MarkupLanguage,簡稱xml)格式的word文檔模板或excel文檔模板,在此不作限定。
[0033]可擴展標(biāo)記語言(xml)是一種簡單的數(shù)據(jù)存儲語言,使用一系列簡單的標(biāo)記描述數(shù)據(jù),而這些標(biāo)記可以用方便的方式建立??蓴U展標(biāo)記語言(xml)與Access,Oracle和SQLServer等數(shù)據(jù)庫不同,數(shù)據(jù)庫提供了更強有力的數(shù)據(jù)存儲和分析能力,例如:數(shù)據(jù)索引、排序、查找、相關(guān)一致性等。本實施例中針對可擴展標(biāo)記語言(xml)可以很方便的建立標(biāo)記來描述數(shù)據(jù)的特點,在采集信息時利用帶有標(biāo)識符的xml格式word文檔模板或excel文檔模板來進(jìn)行數(shù)據(jù)收集,通過xml格式word文檔模板或excel文檔模板采集的待統(tǒng)計人員錄入的統(tǒng)計信息不僅包括統(tǒng)計數(shù)據(jù)本身,還包括對應(yīng)的標(biāo)識符,以形成結(jié)構(gòu)化的統(tǒng)計數(shù)據(jù)。
[0034]需要說明的是,本實施例中,所述文檔模板可根據(jù)實際應(yīng)用中不同類型信息的采集需要設(shè)定對應(yīng)的xml格式word文檔模板或excel文檔模板,也可以直接從云端服務(wù)器獲取預(yù)先制作好的xml格式word文檔模板或excel文檔模板,在此不作限定。
[0035]步驟S20,基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取。
[0036]在利用帶有標(biāo)識符的xml格式word文檔模板或excel文檔模板完成統(tǒng)計信息的采集后,后續(xù)若需要提取不同的統(tǒng)計信息,即可利用xml格式word文檔模板或excel文檔模板中的不同標(biāo)識符提取出對應(yīng)的統(tǒng)計信息,而無需人工手動輸入,十分方便。且能根據(jù)不同的標(biāo)識符對多個xml格式word文檔模板或excel文檔模板中的統(tǒng)計信息進(jìn)行批量提取處理,效率更高,還能避免因人工手動輸入造成的統(tǒng)計錯誤。
[0037]本實施例利用預(yù)設(shè)有相應(yīng)標(biāo)識符的文檔模板來采集統(tǒng)計信息,并在提取信息時基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取。由于在采集信息時利用帶有標(biāo)識符的文檔模板來進(jìn)行數(shù)據(jù)收集,可根據(jù)所述標(biāo)識符完成批量數(shù)據(jù)的提取處理,而無需人工輸入來整理出各項數(shù)據(jù),極大地提高了統(tǒng)計信息的提取效率,且準(zhǔn)確性更高。
[0038]如圖2所示,本發(fā)明第二實施例提出一種信息提取方法,在上述實施例的基礎(chǔ)上,在上述步驟S10之前還包括:
[0039]步驟S30,根據(jù)統(tǒng)計信息的文本類型預(yù)設(shè)文檔模板,所述文檔模板中針對所述統(tǒng)計信息中的不同文本區(qū)域設(shè)置對應(yīng)的標(biāo)識符。
[0040]本實施例中在采集統(tǒng)計信息之前,首先根據(jù)需要統(tǒng)計信息的文本類型預(yù)設(shè)文檔模板,如當(dāng)需要統(tǒng)計信息的文本類型主要為文字類信息時,可預(yù)設(shè)xm 1格式的word文檔模板來采集統(tǒng)計信息;當(dāng)需要統(tǒng)計信息的文本類型主要為表格類信息時,可預(yù)設(shè)xml格式的excel文檔模板來采集統(tǒng)計信息。
[0041]進(jìn)一步地,所述文檔模板中針對所述統(tǒng)計信息中的不同文本區(qū)域設(shè)置對應(yīng)的標(biāo)識符。如在所述統(tǒng)計信息中的不同文本區(qū)域待采集的分別是客戶姓名、年齡、電話等信息時,可針對待采集的客戶姓名、年齡、電話等信息在所述文檔模板中所處的不同文本區(qū)域設(shè)置對應(yīng)的標(biāo)識符a、b、c。這樣,在利用所述文檔模板完成統(tǒng)計信息的采集后,即可利用所述文檔模板中不同的標(biāo)識符提取出所述文檔模板中不同文本區(qū)域采集的信息。
[0042]在一種實施方式中,上述步驟S20可以包括:
[0043]識別所述文檔模板中的各個標(biāo)識符,獲取所述統(tǒng)計信息中需提取信息的目標(biāo)文本區(qū)域?qū)?yīng)的目標(biāo)標(biāo)識符;
[0044]根據(jù)所述目標(biāo)標(biāo)識符提取出所述文檔模板中的所述目標(biāo)文本區(qū)域?qū)?yīng)的統(tǒng)計信息。
[0045]本實施例中,在對所述文檔模板中米集的統(tǒng)計?目息進(jìn)行提取時,可先識別所述文檔模板中的各個標(biāo)識符,獲取所述統(tǒng)計信息中需提取信息的目標(biāo)文本區(qū)域?qū)?yīng)的目標(biāo)標(biāo)識符。如可識別所述文檔模板中不同文本區(qū)域?qū)?yīng)設(shè)置的標(biāo)識符a、b、c,當(dāng)待提取的目標(biāo)信息為客戶姓名信息時,獲取利用所述文檔模板提取的統(tǒng)計信息中客戶姓名信息所處的文本區(qū)域?qū)?yīng)的標(biāo)識符a。再根據(jù)所述目標(biāo)標(biāo)識符提取出所述文檔模板中的所述目標(biāo)文本區(qū)域?qū)?yīng)的統(tǒng)計信息。如獲取到所述目標(biāo)標(biāo)識符為標(biāo)識符a時,即可根據(jù)標(biāo)識符a提取出所述文檔模板中標(biāo)識符a