国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      信息提取方法及裝置的制造方法

      文檔序號:9564663閱讀:258來源:國知局
      信息提取方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種信息提取方法及裝置。
      【背景技術(shù)】
      [0002]目前,一些政府部門、教育機構(gòu)或者其他機構(gòu)在統(tǒng)計人員資料、客戶資料時,一般都只是收集統(tǒng)計的大量非結(jié)構(gòu)化文本數(shù)據(jù)。當(dāng)后續(xù)工作人員需要根據(jù)收集的數(shù)據(jù)提取出不同類別的數(shù)據(jù)進(jìn)行綜合性統(tǒng)計時,需要手動把這些非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù)再進(jìn)行統(tǒng)計。如果需要統(tǒng)計的數(shù)據(jù)量較大,甚至需要工作人員根據(jù)收集的非結(jié)構(gòu)化文本數(shù)據(jù)通過電腦手動輸入各項數(shù)據(jù)以完成數(shù)據(jù)的統(tǒng)計,導(dǎo)致工作人員的工作量非常大,工作效率低,且容易出錯。

      【發(fā)明內(nèi)容】

      [0003]本發(fā)明的主要目的在于提供一種信息提取方法及裝置,旨在提高統(tǒng)計信息的提取效率及準(zhǔn)確性。
      [0004]為實現(xiàn)上述目的,本發(fā)明提供的一種信息提取方法,所述方法包括以下步驟:
      [0005]通過預(yù)設(shè)的文檔模板采集統(tǒng)計信息,其中,所述文檔模板中預(yù)設(shè)有相應(yīng)的標(biāo)識符;
      [0006]基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取。
      [0007]優(yōu)選地,所述文檔模板為xml格式的word文檔模板或excel文檔模板。
      [0008]優(yōu)選地,所述通過預(yù)設(shè)的文檔模板采集統(tǒng)計信息的步驟之前還包括:
      [0009]根據(jù)統(tǒng)計信息的文本類型預(yù)設(shè)文檔模板,所述文檔模板中針對所述統(tǒng)計信息中的不同文本區(qū)域設(shè)置對應(yīng)的標(biāo)識符。
      [0010]優(yōu)選地,所述基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取的步驟包括:
      [0011 ] 識別所述文檔模板中的各個標(biāo)識符,獲取所述統(tǒng)計信息中需提取信息的目標(biāo)文本區(qū)域?qū)?yīng)的目標(biāo)標(biāo)識符;
      [0012]根據(jù)所述目標(biāo)標(biāo)識符提取出所述文檔模板中的所述目標(biāo)文本區(qū)域?qū)?yīng)的統(tǒng)計信息。
      [0013]此外,為實現(xiàn)上述目的,本發(fā)明還提供一種信息提取裝置,所述信息提取裝置包括:
      [0014]采集模塊,用于通過預(yù)設(shè)的文檔模板采集統(tǒng)計信息,其中,所述文檔模板中預(yù)設(shè)有相應(yīng)的標(biāo)識符;
      [0015]提取模塊,用于基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取。
      [0016]優(yōu)選地,所述文檔模板為xml格式的word文檔模板或excel文檔模板。
      [0017]優(yōu)選地,所述信息提取裝置還包括:
      [0018]設(shè)定模塊,用于根據(jù)統(tǒng)計信息的文本類型預(yù)設(shè)文檔模板,所述文檔模板中針對所述統(tǒng)計信息中的不同文本區(qū)域設(shè)置對應(yīng)的標(biāo)識符。
      [0019]優(yōu)選地,所述提取模塊還用于:
      [0020]識別所述文檔模板中的各個標(biāo)識符,獲取所述統(tǒng)計信息中需提取信息的目標(biāo)文本區(qū)域?qū)?yīng)的目標(biāo)標(biāo)識符;根據(jù)所述目標(biāo)標(biāo)識符提取出所述文檔模板中的所述目標(biāo)文本區(qū)域?qū)?yīng)的統(tǒng)計信息。
      [0021]本發(fā)明提出的一種信息提取方法及裝置,利用預(yù)設(shè)有相應(yīng)標(biāo)識符的文檔模板來采集統(tǒng)計信息,并在提取信息時基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取。由于在采集信息時利用帶有標(biāo)識符的文檔模板來進(jìn)行數(shù)據(jù)收集,可根據(jù)所述標(biāo)識符完成批量數(shù)據(jù)的提取處理,而無需人工輸入來整理出各項數(shù)據(jù),極大地提高了統(tǒng)計信息的提取效率,且準(zhǔn)確性更高。
      【附圖說明】
      [0022]圖1為本發(fā)明信息提取方法第一實施例的流程示意圖;
      [0023]圖2為本發(fā)明信息提取方法第二實施例的流程示意圖;
      [0024]圖3為本發(fā)明信息提取裝置第一實施例的功能模塊示意圖;
      [0025]圖4為本發(fā)明信息提取裝置第二實施例的功能模塊示意圖。
      [0026]本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進(jìn)一步說明。
      【具體實施方式】
      [0027]應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
      [0028]本發(fā)明提供一種信息提取方法。
      [0029]參照圖1,圖1為本發(fā)明信息提取方法第一實施例的流程示意圖。
      [0030]在第一實施例中,該信息提取方法包括:
      [0031]步驟S10,通過預(yù)設(shè)的文檔模板采集統(tǒng)計信息,其中,所述文檔模板中預(yù)設(shè)有相應(yīng)的標(biāo)識符;
      [0032]本實施例中,在需要采集信息如統(tǒng)計各種客戶資料等時,可提供預(yù)設(shè)的文檔模板供待統(tǒng)計人員填寫、錄入信息,并通過該預(yù)設(shè)的文檔模板采集統(tǒng)計信息。其中,所述文檔模板中預(yù)設(shè)有相應(yīng)的標(biāo)識符,所述文檔模板可以為可擴展標(biāo)記語言(extensible MarkupLanguage,簡稱xml)格式的word文檔模板或excel文檔模板,在此不作限定。
      [0033]可擴展標(biāo)記語言(xml)是一種簡單的數(shù)據(jù)存儲語言,使用一系列簡單的標(biāo)記描述數(shù)據(jù),而這些標(biāo)記可以用方便的方式建立??蓴U展標(biāo)記語言(xml)與Access,Oracle和SQLServer等數(shù)據(jù)庫不同,數(shù)據(jù)庫提供了更強有力的數(shù)據(jù)存儲和分析能力,例如:數(shù)據(jù)索引、排序、查找、相關(guān)一致性等。本實施例中針對可擴展標(biāo)記語言(xml)可以很方便的建立標(biāo)記來描述數(shù)據(jù)的特點,在采集信息時利用帶有標(biāo)識符的xml格式word文檔模板或excel文檔模板來進(jìn)行數(shù)據(jù)收集,通過xml格式word文檔模板或excel文檔模板采集的待統(tǒng)計人員錄入的統(tǒng)計信息不僅包括統(tǒng)計數(shù)據(jù)本身,還包括對應(yīng)的標(biāo)識符,以形成結(jié)構(gòu)化的統(tǒng)計數(shù)據(jù)。
      [0034]需要說明的是,本實施例中,所述文檔模板可根據(jù)實際應(yīng)用中不同類型信息的采集需要設(shè)定對應(yīng)的xml格式word文檔模板或excel文檔模板,也可以直接從云端服務(wù)器獲取預(yù)先制作好的xml格式word文檔模板或excel文檔模板,在此不作限定。
      [0035]步驟S20,基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取。
      [0036]在利用帶有標(biāo)識符的xml格式word文檔模板或excel文檔模板完成統(tǒng)計信息的采集后,后續(xù)若需要提取不同的統(tǒng)計信息,即可利用xml格式word文檔模板或excel文檔模板中的不同標(biāo)識符提取出對應(yīng)的統(tǒng)計信息,而無需人工手動輸入,十分方便。且能根據(jù)不同的標(biāo)識符對多個xml格式word文檔模板或excel文檔模板中的統(tǒng)計信息進(jìn)行批量提取處理,效率更高,還能避免因人工手動輸入造成的統(tǒng)計錯誤。
      [0037]本實施例利用預(yù)設(shè)有相應(yīng)標(biāo)識符的文檔模板來采集統(tǒng)計信息,并在提取信息時基于所述標(biāo)識符對所述文檔模板中采集的統(tǒng)計信息進(jìn)行提取。由于在采集信息時利用帶有標(biāo)識符的文檔模板來進(jìn)行數(shù)據(jù)收集,可根據(jù)所述標(biāo)識符完成批量數(shù)據(jù)的提取處理,而無需人工輸入來整理出各項數(shù)據(jù),極大地提高了統(tǒng)計信息的提取效率,且準(zhǔn)確性更高。
      [0038]如圖2所示,本發(fā)明第二實施例提出一種信息提取方法,在上述實施例的基礎(chǔ)上,在上述步驟S10之前還包括:
      [0039]步驟S30,根據(jù)統(tǒng)計信息的文本類型預(yù)設(shè)文檔模板,所述文檔模板中針對所述統(tǒng)計信息中的不同文本區(qū)域設(shè)置對應(yīng)的標(biāo)識符。
      [0040]本實施例中在采集統(tǒng)計信息之前,首先根據(jù)需要統(tǒng)計信息的文本類型預(yù)設(shè)文檔模板,如當(dāng)需要統(tǒng)計信息的文本類型主要為文字類信息時,可預(yù)設(shè)xm 1格式的word文檔模板來采集統(tǒng)計信息;當(dāng)需要統(tǒng)計信息的文本類型主要為表格類信息時,可預(yù)設(shè)xml格式的excel文檔模板來采集統(tǒng)計信息。
      [0041]進(jìn)一步地,所述文檔模板中針對所述統(tǒng)計信息中的不同文本區(qū)域設(shè)置對應(yīng)的標(biāo)識符。如在所述統(tǒng)計信息中的不同文本區(qū)域待采集的分別是客戶姓名、年齡、電話等信息時,可針對待采集的客戶姓名、年齡、電話等信息在所述文檔模板中所處的不同文本區(qū)域設(shè)置對應(yīng)的標(biāo)識符a、b、c。這樣,在利用所述文檔模板完成統(tǒng)計信息的采集后,即可利用所述文檔模板中不同的標(biāo)識符提取出所述文檔模板中不同文本區(qū)域采集的信息。
      [0042]在一種實施方式中,上述步驟S20可以包括:
      [0043]識別所述文檔模板中的各個標(biāo)識符,獲取所述統(tǒng)計信息中需提取信息的目標(biāo)文本區(qū)域?qū)?yīng)的目標(biāo)標(biāo)識符;
      [0044]根據(jù)所述目標(biāo)標(biāo)識符提取出所述文檔模板中的所述目標(biāo)文本區(qū)域?qū)?yīng)的統(tǒng)計信息。
      [0045]本實施例中,在對所述文檔模板中米集的統(tǒng)計?目息進(jìn)行提取時,可先識別所述文檔模板中的各個標(biāo)識符,獲取所述統(tǒng)計信息中需提取信息的目標(biāo)文本區(qū)域?qū)?yīng)的目標(biāo)標(biāo)識符。如可識別所述文檔模板中不同文本區(qū)域?qū)?yīng)設(shè)置的標(biāo)識符a、b、c,當(dāng)待提取的目標(biāo)信息為客戶姓名信息時,獲取利用所述文檔模板提取的統(tǒng)計信息中客戶姓名信息所處的文本區(qū)域?qū)?yīng)的標(biāo)識符a。再根據(jù)所述目標(biāo)標(biāo)識符提取出所述文檔模板中的所述目標(biāo)文本區(qū)域?qū)?yīng)的統(tǒng)計信息。如獲取到所述目標(biāo)標(biāo)識符為標(biāo)識符a時,即可根據(jù)標(biāo)識符a提取出所述文檔模板中標(biāo)識符a
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1