專利名稱::一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于信息內(nèi)容加工
技術(shù)領(lǐng)域:
,具體涉及一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法及系統(tǒng)。
背景技術(shù):
:隨著IT應(yīng)用的深入普及,各行各業(yè)都積累了大量的信息資源??茖W(xué)管理和合理開發(fā)這些內(nèi)部和外部信息資源已經(jīng)成為企業(yè)正確決策、增強(qiáng)竟?fàn)幜Φ年P(guān)鍵,在對(duì)這些重要信息利用之前,通常需要對(duì)這些信息的數(shù)據(jù)內(nèi)容進(jìn)行結(jié)構(gòu)化的加工,以適應(yīng)不同用戶的不同需要。當(dāng)前內(nèi)容結(jié)構(gòu)化的方法主要以儲(chǔ)存、流程、元數(shù)據(jù)(Metadata)為要件來(lái)制作系統(tǒng),其中,儲(chǔ)存多以關(guān)聯(lián)式數(shù)據(jù)庫(kù)的方式,也有的以一般數(shù)據(jù)文件方式儲(chǔ)存,或者是根據(jù)需要兩種并存。目前,內(nèi)容結(jié)構(gòu)化的方法主要有兩種一種是使用專門軟件對(duì)特定數(shù)據(jù)字段進(jìn)行錄入的方式,這種方式的缺點(diǎn)是進(jìn)行錄入的數(shù)據(jù)字段受軟件限制,而且需要手工錄入,不容易實(shí)現(xiàn)自動(dòng)化加工;另一種是使用類似XML編輯器的軟件的方式,這種方式缺點(diǎn)是只能對(duì)純內(nèi)容的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,無(wú)法帶入原文檔內(nèi)容的版式和樣式等信息,而在印前排版領(lǐng)域或者希望帶有內(nèi)容樣式的用戶來(lái)說(shuō),現(xiàn)有的內(nèi)容結(jié)構(gòu)化方法因不能使結(jié)構(gòu)化的內(nèi)容同時(shí)帶有內(nèi)容的樣式信息或版式信息而不能滿足需要,因此,如何使結(jié)構(gòu)化的內(nèi)容既保留原內(nèi)容又帶有原內(nèi)容的樣式或版式信息,成為越來(lái)越多的用戶所關(guān)注的問題。
發(fā)明內(nèi)容針對(duì)現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是提供一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法及系統(tǒng),通過該方法及系統(tǒng)不僅能夠完成內(nèi)容結(jié)構(gòu)化的自動(dòng)化加工,并且使加工后的結(jié)構(gòu)化內(nèi)容保留原有的樣式、版式等信息。為達(dá)到以上目的,本發(fā)明釆用的技術(shù)方案是一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,包括以下步驟(1)建立內(nèi)容結(jié)構(gòu)化體系,根據(jù)需要設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;(2)建立樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系;(3)解析需要結(jié)構(gòu)化的文檔,提取內(nèi)容形成結(jié)構(gòu)化內(nèi)容;進(jìn)一步,步驟(l)中,設(shè)置結(jié)構(gòu)化關(guān)鍵字時(shí),根據(jù)需要結(jié)構(gòu)化的文檔內(nèi)容結(jié)構(gòu)來(lái)設(shè)置;進(jìn)一步,步驟(l)中,設(shè)置結(jié)構(gòu)化關(guān)鍵字時(shí),根據(jù)文檔內(nèi)容的樣式來(lái)設(shè)置。進(jìn)一步,步驟(l)中,確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系時(shí),根據(jù)文檔內(nèi)容的樣式來(lái)確定;所述的結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系是指關(guān)鍵字之間的位置、排列、層次、結(jié)構(gòu)、包含等關(guān)系,實(shí)際也就是結(jié)構(gòu)化關(guān)鍵字所代表的內(nèi)容在文檔中的相應(yīng)關(guān)系。進(jìn)一步,步驟(2)中,建立樣式與結(jié)構(gòu)化關(guān)鍵字的對(duì)應(yīng)關(guān)系時(shí),一個(gè)結(jié)構(gòu)化關(guān)鍵字對(duì)應(yīng)一種或者多種樣式,但是一種樣式只能對(duì)應(yīng)一個(gè)結(jié)構(gòu)化關(guān)鍵字。進(jìn)一步,步驟(3)中,文檔完成結(jié)構(gòu)化后,形成了兩個(gè)文件樣式映射文件和結(jié)構(gòu)內(nèi)容文件,所述樣式映射文件記錄了樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系;所述結(jié)構(gòu)內(nèi)容文件記錄了結(jié)構(gòu)化關(guān)鍵字與文檔內(nèi)容的對(duì)應(yīng)關(guān)系。一種基于樣式的內(nèi)容結(jié)構(gòu)化加工系統(tǒng),該系統(tǒng)包括結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊、樣式與關(guān)鍵字對(duì)應(yīng)模塊、解析提取模塊;所述的結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊用于設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;所述的樣式與關(guān)鍵字對(duì)應(yīng)模塊用于建立樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系;所述的解析提取模塊用于解析需要結(jié)構(gòu)化的文檔,并提取文檔內(nèi)容形成結(jié)構(gòu)化內(nèi)容;當(dāng)上述系統(tǒng)工作時(shí),首先由結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;然后由樣式與關(guān)鍵字對(duì)應(yīng)模塊建立起樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系,然后解析提取模塊讀取并解析需要結(jié)構(gòu)化的文檔,根據(jù)樣式與關(guān)鍵字對(duì)應(yīng)模塊建立的樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系,提取相應(yīng)的文檔內(nèi)容到結(jié)構(gòu)化關(guān)鍵字中,從而形成結(jié)構(gòu)化內(nèi)容,處理結(jié)束。本發(fā)明的效果在于采用本發(fā)明所述的方法和系統(tǒng),對(duì)于帶于樣式、版式等信息的內(nèi)容,在進(jìn)行內(nèi)容結(jié)構(gòu)化加工時(shí),不僅能夠完成內(nèi)容結(jié)構(gòu)化的自動(dòng)加工,同時(shí)使加工后的結(jié)構(gòu)化內(nèi)容能夠保留原有的樣式、版式等信息,大大方便了不同用戶的需要。圖l是本發(fā)明所述方法的流程圖;圖2是本發(fā)明所述系統(tǒng)的結(jié)構(gòu)圖。具體實(shí)施例方式下面結(jié)合實(shí)施例和附圖,對(duì)本發(fā)明作進(jìn)一步的闡述如圖2所示,一種基于樣式的內(nèi)容結(jié)構(gòu)化加工系統(tǒng),該系統(tǒng)包括結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊、樣式與關(guān)鍵字對(duì)應(yīng)模塊、解析提^^莫塊;所述的結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊用于設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)4走字之間的關(guān)系;所述的樣式與關(guān)鍵字對(duì)應(yīng)模塊用于建立樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系;所述的解析提取模塊用于解析需要結(jié)構(gòu)化的文檔,并提取文檔內(nèi)容形成結(jié)構(gòu)化內(nèi)容;當(dāng)上述系統(tǒng)工作時(shí),首先由結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;然后由樣式與關(guān)鍵字對(duì)應(yīng)模塊建立起樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系,然后解析提取模塊讀取并解析需要結(jié)構(gòu)化的文檔,根據(jù)樣式與關(guān)鍵字對(duì)應(yīng)模塊建立的樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系,提取相應(yīng)的文檔內(nèi)容到結(jié)構(gòu)化關(guān)鍵字中,從而形成結(jié)構(gòu)化內(nèi)容,處理結(jié)束。為適應(yīng)上述系統(tǒng),本發(fā)明采用了一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,如圖1所示,具體包括以下步驟(1)建立內(nèi)容結(jié)構(gòu)化體系,根據(jù)需要設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;結(jié)構(gòu)化關(guān)鍵字的設(shè)置比較靈活,可以根據(jù)需要或用戶的習(xí)慣按照文檔的內(nèi)容結(jié)構(gòu)來(lái)設(shè)置,也可以按照文檔內(nèi)容的樣式名稱來(lái)設(shè)置;同時(shí)根據(jù)文檔內(nèi)容的樣式來(lái)確定結(jié)構(gòu)化關(guān)^:字之間的關(guān)系;所述的結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系是指結(jié)構(gòu)化關(guān)鍵字之間的位置、排列、層次、結(jié)構(gòu)、包含等關(guān)系,實(shí)際也就是結(jié)構(gòu)化關(guān)4定字所代表的內(nèi)容在文檔中的相應(yīng)關(guān)系;本實(shí)施例中,以需要對(duì)下述的印前排版文件進(jìn)行內(nèi)容結(jié)構(gòu)化加工為例具體說(shuō)明本步驟的實(shí)施過程兼容性1、支持WORD、EXCEL、TIF和PDF等常用格式。飛騰創(chuàng)藝5.0支持排入多種格式的文件,包括*乂'辟7xr、朋、,A"浙議c仏激像jf/f^E7V、P57X77K石緣、yPG浙G7F。2、支持輸出為PDF和PS等格式的文件飛騰創(chuàng)藝5.0可將版面輸出為多種格式的文件,包括PS、PDF、JPG、EPS、TXT和CSV的文件。輸出的PDF文件可以用于各種途徑,包括屏幕閱讀、印刷和電子書等。圖表13、兼容飛騰文件飛騰創(chuàng)藝5.0兼容飛騰3.X和飛騰4.X系列的文件,支持打開和編輯飛騰文件,準(zhǔn)確率達(dá)95%以上,并且為未來(lái)飛騰創(chuàng)藝升級(jí)版本的高低相互兼容做了處理。1月2月3月203040152025根據(jù)上述文檔內(nèi)容中的樣式,標(biāo)注其具體樣式及其屬性如下所示:<image>imageseeoriginaldocumentpage9</image>表格fontsize-"3.70"italic=',false"bold="false"fontname="宋體"margin="0.2"在對(duì)上述帶有樣式的文件內(nèi)容進(jìn)行結(jié)構(gòu)化加工之前,先構(gòu)建內(nèi)容結(jié)構(gòu)化體系,設(shè)置結(jié)構(gòu)化關(guān)鍵字,由于本文檔的內(nèi)容帶有比較多的樣式,因此本實(shí)施例中設(shè)置結(jié)構(gòu)化關(guān)鍵字時(shí)根據(jù)文檔內(nèi)容中的各個(gè)樣式來(lái)設(shè)置,具體分析如下上述文件中包含一個(gè)大標(biāo)題、3個(gè)小標(biāo)題一個(gè)項(xiàng)目編號(hào)、一個(gè)圖說(shuō)、一個(gè)表格以及一些正文,各種內(nèi)容都使用了不同的樣式,可以分為兩類一類是文字才羊式如標(biāo)題對(duì)應(yīng)的才羊式、小標(biāo)題對(duì)應(yīng)的才羊式、項(xiàng)目編號(hào)對(duì)應(yīng)的才羊式、正文對(duì)應(yīng)的樣式;另一類是對(duì)象樣式如圖說(shuō)對(duì)應(yīng)的樣式,表格對(duì)應(yīng)的樣式。根據(jù)樣式設(shè)置好了結(jié)構(gòu)化關(guān)鍵字,結(jié)果如下表所示:大標(biāo)題小標(biāo)題正文列表項(xiàng)圖說(shuō)表格設(shè)置結(jié)構(gòu)化關(guān)鍵字時(shí),同時(shí)需要根據(jù)文檔內(nèi)容的樣式來(lái)確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;所述的結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系是指結(jié)構(gòu)化關(guān)鍵字之間的位置、排列、層次、結(jié)構(gòu)、包含等關(guān)系,實(shí)際也就是結(jié)構(gòu)化關(guān)鍵字所代表的內(nèi)容在文檔中的相應(yīng)關(guān)系;本實(shí)施例中,經(jīng)分析可知,l)整個(gè)文檔是根元素;2)大標(biāo)題、小標(biāo)題是根元素的子元素;3)正文是根元素的子元素;4)項(xiàng)目編號(hào)、圖片、表格是和正文同一級(jí)別的元素;5)列表項(xiàng)是項(xiàng)目編號(hào)的子元素,基本該分析,依據(jù)該文檔內(nèi)容的樣式確定好了結(jié)構(gòu)化關(guān)4建字之間的關(guān)系。(2)建立樣式與結(jié)構(gòu)化關(guān)鍵字的對(duì)應(yīng)關(guān)系;建立樣式與結(jié)構(gòu)化關(guān)鍵字的對(duì)應(yīng)關(guān)系時(shí),一個(gè)結(jié)構(gòu)化關(guān)鍵字對(duì)應(yīng)一種或者多種(兩種或兩種以上)樣式,但是一種樣式只能對(duì)應(yīng)一個(gè)結(jié)構(gòu)化關(guān)鍵字,具體在本實(shí)施例中,每一種樣式都有唯一的結(jié)構(gòu)化關(guān)鍵字與之對(duì)應(yīng),并記錄所對(duì)應(yīng)樣式的屬性,具體對(duì)應(yīng)關(guān)系如下表所示<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table>結(jié)構(gòu)內(nèi)容文件如下所示:<文檔><大標(biāo)題>兼容性</大標(biāo)題><小標(biāo)題>1、支持WORD、EXCEL、TIF和PDF等常用格式々小標(biāo)題〉<正文>飛騰創(chuàng)藝5.0支持排入多種格式的文件,包括</正文><列表>〈列表項(xiàng)〉文檔TXT、BD、WORD和EXCEL。</列表項(xiàng)>〈列表項(xiàng)〉圖像文件EPS、PSD、TIF、BMP、JPG和GIF。</列表項(xiàng)></列表><小標(biāo)題>2、支持輸出為PDF和PS等格式的文件々小標(biāo)題〉<圖說(shuō)><圖片〉http::〃www.sample.website.com.cn/picture/winter.jpg〈/圖片><圖片說(shuō)明>圖表1</圖片說(shuō)明></圖說(shuō)><正文>飛騰創(chuàng)藝5.0可將版面輸出為多種格式的文件,包括PS、PDF、JPG、EPS、TXT和CSV的文件。輸出的PDF文件可以用于各種途徑,包括屏幕閱讀、印刷和電子書等。</正文><小標(biāo)題>3、兼容飛騰文件</小標(biāo)題><正文>飛騰創(chuàng)藝5.0兼容飛騰3〗和飛騰4〗系列的文件,支持打開和編輯飛騰文件,準(zhǔn)確率達(dá)95%以上,并且為未來(lái)飛騰創(chuàng)藝升級(jí)版本的高低相互兼容做了處理。</正文><表格><table><trheight="0.9cm">〈td〉l月〈/td〉〈td〉2月</td>〈td〉3月〈脅</tr><trheight="0.9cm"><td>20</td><td>30</td><td>40</td></tr><trheight="0.9cm"><td>15</td><td>20</td><td>25</td></tr><colwidth="2.5cm"/><colwidth="2.75cm"/><colwidth="2.25cm'V></column></row><table></表格></文檔>經(jīng)過上述處理,對(duì)本實(shí)施例中的文檔內(nèi)容進(jìn)行了結(jié)構(gòu)化加工,內(nèi)容結(jié)構(gòu)化的結(jié)果完全符合步驟(1)中確定的結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系,并且該結(jié)構(gòu)化的內(nèi)容可以帶有原有的樣式信息,具體應(yīng)用時(shí),如果客戶不需帶有樣式的結(jié)構(gòu)化內(nèi)容,此時(shí)可以只選擇結(jié)構(gòu)內(nèi)容文件;如果客戶需要帶有樣式的結(jié)構(gòu)化內(nèi)容,則同時(shí)選擇樣式映射文件和結(jié)構(gòu)內(nèi)容文件即可。上述內(nèi)容結(jié)構(gòu)化加工的結(jié)果,其表現(xiàn)形式可以根據(jù)用戶的需要自由表達(dá),可以是符合XML標(biāo)準(zhǔn)規(guī)范的文件,也可以是自己定義的文件。本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實(shí)施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。權(quán)利要求1、一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,包括以下步驟(1)建立內(nèi)容結(jié)構(gòu)化體系,根據(jù)需要設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;(2)建立樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系;(3)解析需要結(jié)構(gòu)化的文檔,提取內(nèi)容形成結(jié)構(gòu)化內(nèi)容。2、如權(quán)利要求1所述的一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,其特征在于步驟(l)中,設(shè)置結(jié)構(gòu)化關(guān)鍵字時(shí),根據(jù)需要結(jié)構(gòu)化的文檔內(nèi)容結(jié)構(gòu)來(lái)設(shè)置。3、如權(quán)利要求1所述的一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,其特征在于步驟(1)中,設(shè)置結(jié)構(gòu)化關(guān)鍵字時(shí),根據(jù)文檔內(nèi)容的樣式來(lái)設(shè)置。4、如權(quán)利要求1至3之一所述的一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,其特征在于步驟(l)中,確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系時(shí),根據(jù)文檔內(nèi)容的樣式來(lái)確定。5、如權(quán)利要求4所述的一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,其特征在于步驟(2)中,建立樣式與結(jié)構(gòu)化關(guān)鍵字的對(duì)應(yīng)關(guān)系時(shí),一個(gè)結(jié)構(gòu)化關(guān)鍵字對(duì)應(yīng)一種或者多種樣式,但是一種樣式只能對(duì)應(yīng)一個(gè)結(jié)構(gòu)化關(guān)^t字。6、如權(quán)利要求5所述的一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,其特征在于步驟(3)中,文檔完成結(jié)構(gòu)化后,形成了兩個(gè)文件樣式映射文件和結(jié)構(gòu)內(nèi)容文件,所述樣式映射文件記錄了樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系,所述結(jié)構(gòu)內(nèi)容文件記錄了結(jié)構(gòu)化關(guān)鍵字與文檔內(nèi)容的對(duì)應(yīng)關(guān)系。7、一種基于樣式的內(nèi)容結(jié)構(gòu)化加工系統(tǒng),該系統(tǒng)包括結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊、樣式與關(guān)鍵字對(duì)應(yīng)模塊、解析提取模塊;所述的結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊用于設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;所述的樣式與關(guān)鍵字對(duì)應(yīng)模塊用于建立樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系;所述的解析提取模塊用于解析需要結(jié)構(gòu)化的文檔,并提取文檔內(nèi)容形成結(jié)構(gòu)化內(nèi)容;當(dāng)上述系統(tǒng)工作時(shí),首先由結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;然后由樣式與關(guān)^T建字對(duì)應(yīng);^莫塊建立起樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系,然后解析提取模塊讀取并解析需要結(jié)構(gòu)化的文檔,根據(jù)樣式與關(guān)鍵字對(duì)應(yīng)模塊建立的樣式與結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系,提取相應(yīng)的文檔內(nèi)容到結(jié)構(gòu)化關(guān)鍵字中,從而形成結(jié)構(gòu)化內(nèi)容,處理結(jié)束。全文摘要本發(fā)明涉及一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法和系統(tǒng),屬于信息內(nèi)容加工
技術(shù)領(lǐng)域:
?,F(xiàn)有技術(shù)中,內(nèi)容結(jié)構(gòu)化的方法要么需要手工錄入,要么只能對(duì)純內(nèi)容的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,無(wú)法帶入內(nèi)容的版式信息和樣式信息。本發(fā)明所述的方法和系統(tǒng),根據(jù)需要結(jié)構(gòu)化的文件建立內(nèi)容結(jié)構(gòu)化體系,然后建立樣式與結(jié)構(gòu)化關(guān)鍵字的對(duì)應(yīng)關(guān)系,最后解析文檔提取內(nèi)容形成結(jié)構(gòu)化內(nèi)容,從而完成內(nèi)容結(jié)構(gòu)化的加工。采用本發(fā)明所述的方法和系統(tǒng),內(nèi)容結(jié)構(gòu)化的加工過程中既不會(huì)受數(shù)據(jù)字段的約束,還可以同時(shí)保留原文檔內(nèi)容的樣式屬性,一方面利用了已有的文檔信息,版式特征,另一方面是實(shí)現(xiàn)了內(nèi)容結(jié)構(gòu)化的自動(dòng)加工。文檔編號(hào)G06F17/30GK101430714SQ20081023899公開日2009年5月13日申請(qǐng)日期2008年12月8日優(yōu)先權(quán)日2008年12月8日發(fā)明者余忠華,勇蘇,趙朝陽(yáng),閆國(guó)龍,魏超鵬申請(qǐng)人:北大方正集團(tuán)有限公司;北京北大方正電子有限公司