輸變電工程word文檔段落內(nèi)容中工程特性指標(biāo)的智能提取方法
【專利摘要】本發(fā)明公開了輸變電工程word文檔段落內(nèi)容中工程特性指標(biāo)的智能提取方法,該方法依次包括創(chuàng)建工程特性指標(biāo)的指標(biāo)庫、工程特性指標(biāo)的大綱級別提取和工程特性指標(biāo)的段落內(nèi)容提取,其中,創(chuàng)建的指標(biāo)庫作為工程特性指標(biāo)提取的基礎(chǔ)數(shù)據(jù)庫,在對輸變電工程特性指標(biāo)進(jìn)行提取時,首先進(jìn)行大綱級別提取,然后進(jìn)行段落內(nèi)容提取,提取后得到所需的輸變電工程特性指標(biāo)。該提取方法能夠從設(shè)計(jì)文件中,自動提取所需的輸變電工程特性指標(biāo)信息,提高專家在設(shè)計(jì)評審中的工作效率。
【專利說明】輸變電工程word文檔段落內(nèi)容中工程特性指標(biāo)的智能提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及輸變電工程word文檔中工程特性指標(biāo)的提取方法,具體是指輸變電工程word文檔段落內(nèi)容中工程特性指標(biāo)的智能提取方法。
【背景技術(shù)】
[0002]在輸變電工程評審工作中,評審專家需要反復(fù)的閱讀評審報(bào)告才能從大量的文字和表格中提煉出評審指標(biāo)內(nèi)容,然后再綜合給出評審意見。該過程中專家需要對文檔內(nèi)容進(jìn)行反復(fù)的搜索,并記錄相關(guān)指標(biāo)內(nèi)容,這些都需要專家手動完成,大大影響專家的工作效率和準(zhǔn)確性。
[0003]工程特性指標(biāo)信息主要存在工程設(shè)計(jì)報(bào)告中,不同的特性指標(biāo)分布在不同的章節(jié)用正段文字描述說明或者采用表格方式說明。查看工程報(bào)告、模糊查找工程特性指標(biāo)信息,效率低下。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供輸變電工程word文檔段落內(nèi)容中工程特性指標(biāo)的智能提取方法,該提取方法能夠從設(shè)計(jì)文件中,自動提取所需的輸變電工程特性指標(biāo)信息,提高專家在設(shè)計(jì)評審中的工作效率。
[0005]本發(fā)明的上述目的通過如下技術(shù)方案來實(shí)現(xiàn)的:
[0006]輸變電工程word文檔段落內(nèi)容中工程特性指標(biāo)的智能提取方法,其特征在于:該方法依次包括創(chuàng)建工程特性指標(biāo)的指標(biāo)庫、工程特性指標(biāo)的大綱級別提取和工程特性指標(biāo)的段落內(nèi)容提取,其中,創(chuàng)建的指標(biāo)庫作為工程特性指標(biāo)提取的基礎(chǔ)數(shù)據(jù)庫,在對輸變電工程特性指標(biāo)進(jìn)行提取時,首先進(jìn)行大綱級別提取,然后進(jìn)行段落內(nèi)容提?。?br>
[0007]所述的大綱級別提取依次包括如下步驟:
[0008]( I)初始化word文檔,記錄每一個表格所占用的段落數(shù)量;
[0009](2)遍歷word文檔中的每一個段落,解析段落屬性信息,記錄每一個段落數(shù);
[0010](3)判斷段落屬性是否在表格中,若段落在表格中,則跳過該表格所占的段落數(shù)量,同時記錄該表格在文檔中出現(xiàn)的順序號和所在的大綱標(biāo)題,返回上述步驟(2);若段落不在表格中,則繼續(xù)下述步驟(4);
[0011](4)判斷段落屬性,如果段落屬性值不是正文文本,直接取出段落大綱級別值并記錄所在的級別;如果段落屬性值是正文文本,則把大綱級別設(shè)置為正文文本,返回上述步驟
(2);
[0012](5)判斷大綱級別為正文文本,使用正則表達(dá)式對段落內(nèi)容進(jìn)行解析,解析規(guī)則如下:
[0013]a.自定義大綱段落的特征是以數(shù)字和字母開頭,大綱編號之間用”進(jìn)行分割,并且若大綱后為數(shù)字開始內(nèi)容則他們之間必定有空格進(jìn)行區(qū)分;[0014]b.過濾掉以數(shù)字開頭,并非大綱的段落;
[0015]c.根據(jù)數(shù)字、字母使用正則表達(dá)式解析段落的大綱級別;
[0016]所述的段落內(nèi)容提取依次包括如下步驟:
[0017](I)通過創(chuàng)建的指標(biāo)庫獲取工程特性指標(biāo)所在章節(jié)標(biāo)題、內(nèi)容提取的關(guān)鍵字以及近義詞、內(nèi)容提取方式;
[0018](2)匹配大綱級別提取的結(jié)果,獲取對應(yīng)大綱標(biāo)題以及下面子節(jié)點(diǎn)大綱的段落內(nèi)容;
[0019](3)利用關(guān)鍵字以及近義詞、內(nèi)容提取方式,對段落內(nèi)容進(jìn)行提取,提取后得到所需的輸變電工程特性指標(biāo)。
[0020]與現(xiàn)有技術(shù)相比,本發(fā)明能夠?qū)斪冸姽こ蘷ord文檔段落內(nèi)容中工程特性指標(biāo)進(jìn)行提取,提高專家在設(shè)計(jì)評審中的工作效率。
【專利附圖】
【附圖說明】
[0021]下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明作進(jìn)一步詳細(xì)說明。
[0022]圖1為本發(fā)明智能提取方法的整體流程框圖;
[0023]圖2為本發(fā)明智能提取方法中大綱級別提取的流程框圖;
[0024]圖3為本發(fā)明智能提取方法中段落內(nèi)容提取的流程框圖;
[0025]圖4為本發(fā)明智能提取方法中創(chuàng)建的指標(biāo)庫的示意圖;
[0026]圖5為本發(fā)明智能提取方法的提取結(jié)果示意圖。
【具體實(shí)施方式】
[0027]如圖1至圖5所示,本發(fā)明輸變電工程word文檔段落內(nèi)容中工程特性指標(biāo)的智能提取方法,該方法依次包括創(chuàng)建工程特性指標(biāo)的指標(biāo)庫、工程特性指標(biāo)的大綱級別提取和工程特性指標(biāo)的段落內(nèi)容提取,其中,創(chuàng)建的指標(biāo)庫作為工程特性指標(biāo)提取的基礎(chǔ)數(shù)據(jù)庫,在對輸變電工程特性指標(biāo)進(jìn)行提取時,首先進(jìn)行大綱級別提取,然后進(jìn)行段落內(nèi)容提取。
[0028]首先對工程特性指標(biāo)信息進(jìn)行定義,然后把工程設(shè)計(jì)報(bào)告進(jìn)行矢量化,提取報(bào)告中大綱標(biāo)題,劃分報(bào)告中文字描述和表格描述,采用多種方式對工程特性信息進(jìn)行提取并綜合展示,方便評審專家查看工程特性指標(biāo)信息,提高評審專家的評審效率。智能提取的操作流程圖如圖1所不:
[0029]指標(biāo)庫的創(chuàng)建
[0030]指標(biāo)庫是組織和存儲工程特性指標(biāo)單元,工程特性指標(biāo)采用樹形結(jié)構(gòu)方式組織和存儲,每個工程指標(biāo)包含基礎(chǔ)信息和提取方法信息,一個指標(biāo)可以多種提取方法。指標(biāo)基礎(chǔ)特性信息主要有:指標(biāo)名稱、所屬專業(yè)、所屬工程類型、電壓等級、指標(biāo)單位等信息,提取方法信息:評審階段、章節(jié)標(biāo)題、是否表格提取、行標(biāo)題、列標(biāo)題、表達(dá)式、關(guān)鍵字、提取方法等。指標(biāo)庫是智能提取的基礎(chǔ)數(shù)據(jù),評審專家可以自定義工程特性指標(biāo)數(shù)據(jù)。創(chuàng)建的指標(biāo)庫如圖4所示。
[0031]文檔預(yù)處理提取大綱級別
[0032]在word中,每一個段落都有大綱級別屬性:正文文本或者是具體級別,如I級、2級、3級......,在編輯一篇word文檔時,人們可以使用word自帶的段落標(biāo)題、項(xiàng)目符號等統(tǒng)稱“大綱級別”,word中自帶的大綱級別時一個種樹形結(jié)構(gòu)的數(shù)據(jù);同時,也可以直接編寫段落編號,通過設(shè)置一些常用的數(shù)字和字母標(biāo)識來區(qū)分不同的段落標(biāo)題,這些標(biāo)題稱為“自定義大綱級別”,如“I標(biāo)題I”或“a標(biāo)題a”,自定義大綱級別是word文檔本身不能識別的。因此,在對word文檔的大綱級別進(jìn)行提取時需要考慮word自身大綱級別和自定義大綱級別進(jìn)行提取。
[0033]在提取文檔大綱級別時,需要同時記錄大綱級別的再文檔中段落號、大綱所在級別以及表格所在大綱級別。大綱級別提取流程圖如圖2所示:
[0034]對word文檔中大綱級別提取依次包括如下步驟:
[0035]1.初始化word文檔,記錄每一個表格所占用的段落數(shù)量;
[0036]2.遍歷word文檔中的每一個段落,解析段落屬性信息,記錄每一個段落數(shù);
[0037]3.判斷段落屬性是否在表格中,若段落在表格中,則跳過該表格所占的段落數(shù)量,同時記錄該表格在文檔中出現(xiàn)的順序號和所在的大綱標(biāo)題,返回上述步驟2若段落不在表格中,則繼續(xù)下述步驟4;
[0038]4.判斷段落屬性,如果段落屬性值不是正文文本,直接取出段落大綱級別值并記錄所在的級別;如果段落屬性值是正文文本,則把大綱級別設(shè)置為正文文本,返回上述步驟2 ;
[0039]5.判斷大綱級別為正文文本,使用正則表達(dá)式對段落內(nèi)容進(jìn)行解析,解析規(guī)則如下:
[0040]a.自定義大綱段落的特征是以數(shù)字和字母開頭,大綱編號之間用”進(jìn)行分割,并且若大綱后為數(shù)字開始內(nèi)容則他們之間必定有空格進(jìn)行區(qū)分,如“l(fā)llOkV配電裝置”;
[0041]b.過濾掉以數(shù)字開頭,并非大綱的段落,如“220千伏尾塘變電站主要供電范圍為惠城區(qū)西南部地區(qū)”開始的段落,這種方式通過正則表達(dá)式過濾數(shù)字后面是“kV、mA、千伏、回”等特定字符;
[0042]c.根據(jù)數(shù)字、字母使用正則表達(dá)式解析段落的大綱級別。
[0043]段落內(nèi)容提取
[0044]段落內(nèi)容提取流程圖如圖3所示,段落內(nèi)容提取依次包括如下步驟:
[0045]1.通過創(chuàng)建的指標(biāo)庫獲取工程特性指標(biāo)所在章節(jié)標(biāo)題、內(nèi)容提取的關(guān)鍵字以及近義詞、內(nèi)容提取方式;
[0046]2.匹配大綱級別提取的結(jié)果,獲取對應(yīng)大綱標(biāo)題以及下面子節(jié)點(diǎn)大綱的段落內(nèi)容;
[0047]3.利用關(guān)鍵字以及近義詞、內(nèi)容提取方式,對段落內(nèi)容進(jìn)行提取,提取后得到所需的輸變電工程特性指標(biāo),如圖5所示。
[0048]上述步驟3中,對段落內(nèi)容進(jìn)行提取,可以采用如下的提取方式:
[0049]表達(dá)式:在相關(guān)標(biāo)題中提取內(nèi)容,按照配置正則表達(dá)式提取指標(biāo)信息;
[0050]斷句法:在相關(guān)標(biāo)題中提取內(nèi)容,按照配置關(guān)鍵字信息及其近義詞,提取指標(biāo)所在的語句;
[0051]完全匹配法:在相關(guān)標(biāo)題中提取內(nèi)容,按照配置關(guān)鍵字及其近義詞,利用柔性匹配算法中的BH)算法進(jìn)行快速提??;
[0052]提取章節(jié)內(nèi)容:提取出大綱標(biāo)題所在章節(jié)下的段落內(nèi)容。[0053]工程特性信息展示
[0054]將提取出的工程對應(yīng)的技術(shù)指標(biāo)進(jìn)行按照工程數(shù)和表格的方式展示,供專家評審查閱,同時專家可以直接對所提取的指標(biāo)值進(jìn)行修改、文檔定位高亮顯示。
[0055]本發(fā)明的上述實(shí)施例并不是對本發(fā)明保護(hù)范圍的限定,本發(fā)明的實(shí)施方式不限于此,凡此種種根據(jù)本發(fā)明的上述內(nèi)容,按照本領(lǐng)域的普通技術(shù)知識和慣用手段,在不脫離本發(fā)明上述基本技術(shù)思想前提下,對本發(fā)明上述結(jié)構(gòu)做出的其它多種形式的修改、替換或變更,均應(yīng)落在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.輸變電工程word文檔段落內(nèi)容中工程特性指標(biāo)的智能提取方法,其特征在于:該方法依次包括創(chuàng)建工程特性指標(biāo)的指標(biāo)庫、工程特性指標(biāo)的大綱級別提取和工程特性指標(biāo)的段落內(nèi)容提取,其中,創(chuàng)建的指標(biāo)庫作為工程特性指標(biāo)提取的基礎(chǔ)數(shù)據(jù)庫,在對輸變電工程特性指標(biāo)進(jìn)行提取時,首先進(jìn)行大綱級別提取,然后進(jìn)行段落內(nèi)容提??; 所述的大綱級別提取依次包括如下步驟: (1)初始化word文檔,記錄每一個表格所占用的段落數(shù)量; (2)遍歷word文檔中的每一個段落,解析段落屬性信息,記錄每一個段落數(shù); (3)判斷段落屬性是否在表格中,若段落在表格中,則跳過該表格所占的段落數(shù)量,同時記錄該表格在文檔中出現(xiàn)的順序號和所在的大綱標(biāo)題,返回上述步驟(2);若段落不在表格中,則繼續(xù)下述步驟(4); (4)判斷段落屬性,如果段落屬性值不是正文文本,直接取出段落大綱級別值并記錄所在的級別;如果段落屬性值是正文文本,則把大綱級別設(shè)置為正文文本,返回上述步驟(2); (5)判斷大綱級別為正文文本,使用正則表達(dá)式對段落內(nèi)容進(jìn)行解析,解析規(guī)則如下: a.自定義大綱段落的特征是以數(shù)字和字母開頭,大綱編號之間用”進(jìn)行分割,并且若大綱后為數(shù)字開始內(nèi)容則他們之間必定有空格進(jìn)行區(qū)分; b.過濾掉以數(shù)字開頭,并非大綱的段落; c.根據(jù)數(shù)字、字母使用正則表達(dá)式解析段落的大綱級別; 所述的段落內(nèi)容提取依次包括如下步驟: (1)通過創(chuàng)建的指標(biāo)庫獲取工程特性指標(biāo)所在章節(jié)標(biāo)題、內(nèi)容提取的關(guān)鍵字以及近義詞、內(nèi)容提取方式; (2)匹配大綱級別提取的結(jié)果,獲取對應(yīng)大綱標(biāo)題以及下面子節(jié)點(diǎn)大綱的段落內(nèi)容; (3)利用關(guān)鍵字以及近義詞、內(nèi)容提取方式,對段落內(nèi)容進(jìn)行提取,提取后得到所需的輸變電工程特性指標(biāo)。
【文檔編號】G06F17/27GK103927296SQ201410081102
【公開日】2014年7月16日 申請日期:2014年3月6日 優(yōu)先權(quán)日:2014年3月6日
【發(fā)明者】吳烈鑫, 劉志明, 陳錕, 張章亮, 李國勇, 陳銘, 王彥峰, 侯凱, 陳寶珍 申請人:廣東電網(wǎng)公司電網(wǎng)規(guī)劃研究中心