一種自定義提取目錄內(nèi)容的方法和裝置制造方法
【專利摘要】本發(fā)明涉及自定義提取目錄內(nèi)容的方法和裝置,其中的方法包括:按照特定的結構化規(guī)則,形成符合規(guī)范的設置有多個標簽的結構化數(shù)據(jù)文檔,提取結構化數(shù)據(jù)文檔中的與目錄級別相對應的標簽,將目錄級別與提取的標簽相對應;針對目錄級別對應的標簽的附加內(nèi)容,從結構化數(shù)據(jù)文檔中提取相應的標簽作為附加內(nèi)容;從結構化數(shù)據(jù)文檔中提取各目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,并按照目錄的設置信息將數(shù)據(jù)內(nèi)容組織成為目錄數(shù)據(jù);在提取的標簽的數(shù)據(jù)內(nèi)容發(fā)生變化時,根據(jù)各目錄級別與標簽的對應關系自動更新所述目錄數(shù)據(jù)。采用本發(fā)明所述的方法和裝置可以將多種內(nèi)容同時添加到目錄中,還可以支持目錄全部內(nèi)容的自動更新,特別適用于科技期刊等出版物的排版過程。
【專利說明】一種自定義提取目錄內(nèi)容的方法和裝置
【技術領域】
[0001]本發(fā)明屬于數(shù)據(jù)處理【技術領域】,具體涉及一種自定義提取目錄內(nèi)容的方法和裝置。
【背景技術】
[0002]目前的排版系統(tǒng)或辦公軟件,在提取目錄內(nèi)容時,只能根據(jù)單一的目錄項域、大綱級別或者樣式級別提取內(nèi)容,再將這些內(nèi)容與頁碼相對應做成目錄。
[0003]然而在期刊中,除了稿件標題以及章節(jié)級別之外,可能還會需要將稿件作者等其他元素也提取到目錄中去。目前在制作包含稿件作者這樣類型的目錄時,只能先單獨地根據(jù)稿件標題以及章節(jié)級別進行提取,之后再手工地將稿件作者等內(nèi)容填寫到目錄中去。一旦稿件標題或者頁碼發(fā)生了變化需要更新目錄時,前次手工添加的稿件作者等內(nèi)容就會被清除掉,從而需要再次將稿件作者等內(nèi)容手工添加進去。由此可知,目前的這種目錄制作方式費時費力,目錄中的內(nèi)容不能全部自動更新,容易產(chǎn)生錯誤。
【發(fā)明內(nèi)容】
[0004]針對現(xiàn)有技術中存在的缺陷,本發(fā)明的目的是提供自定義提取目錄內(nèi)容的方法和裝置。采用本發(fā)明所述的方法和裝置,克服了需要手工添加稿件作者等內(nèi)容的局限,可以將多種內(nèi)容同時添加到目錄中,還可以支持目錄全部內(nèi)容的自動更新。特別適用于科技期刊等出版物的排版過程。
[0005]為了實現(xiàn)以上目的,本發(fā)明提供的自定義提取目錄內(nèi)容的方法包括以下步驟:按照特定的結構化規(guī)則,形成符合規(guī)范的結構化數(shù)據(jù)文檔,所述結構化數(shù)據(jù)文檔中設置有多個標簽;提取結構化數(shù)據(jù)文檔中的與目錄級別相對應的標簽內(nèi)容,并將所述目錄級別與所述提取的標簽相對應;從結構化數(shù)據(jù)文檔中提取相應的標簽,以作為所述目錄級別對應的附加內(nèi)容;從結構化數(shù)據(jù)文檔中提取各目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,并按照目錄的設置信息將所述數(shù)據(jù)內(nèi)容組織成為目錄數(shù)據(jù);在所述提取的標簽的數(shù)據(jù)內(nèi)容發(fā)生變化時,根據(jù)各目錄級別與標簽的對應關系自動更新所述目錄數(shù)據(jù)。
[0006]本發(fā)明提供的自定義提取目錄內(nèi)容的裝置包括:形成模塊,用于按照特定的結構化規(guī)則,形成符合規(guī)范的結構化數(shù)據(jù)文檔,所述結構化數(shù)據(jù)文檔中設置有多個標簽;提取模塊,用于提取結構化數(shù)據(jù)文檔中的與目錄級別相對應的標簽,并將所述目錄級別與所述提取的標簽相對應;附加模塊,用于針對所述目錄級別對應的標簽的附加內(nèi)容,從結構化數(shù)據(jù)文檔中提取相應的標簽,以作為所述附加內(nèi)容;目錄模塊,用于從結構化數(shù)據(jù)文檔中提取各目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,并按照目錄的設置信息將所述數(shù)據(jù)內(nèi)容組織成為目錄數(shù)據(jù);更新模塊,用于在所述提取的標簽的數(shù)據(jù)內(nèi)容發(fā)生變化時,根據(jù)各目錄級別與標簽的對應關系自動更新所述目錄數(shù)據(jù)。
[0007]本發(fā)明的效果在于:基于結構化的標簽數(shù)據(jù),從標簽數(shù)據(jù)中選擇需要陳列在目錄上的內(nèi)容,有效地解決了稿件作者等信息需要手工添加、不能自動更新目錄的問題。本發(fā)明可以廣泛適用于目錄編排的要求,特別適用于科技期刊等出版物的排版過程。
【專利附圖】
【附圖說明】
[0008]圖1是本發(fā)明方法實施例的流程圖;
[0009]圖2是本發(fā)明實施例的結構化文檔所含標簽的示意圖;
[0010]圖3是本發(fā)明實施例的設置與目錄級別相對應的標簽的示意圖;
[0011]圖4是本發(fā)明實施例的生成的目錄數(shù)據(jù)的示意圖;
[0012]圖5是本發(fā)明實施例的目錄數(shù)據(jù)自動更新后的示意圖;
[0013]圖6是本發(fā)明實施例的裝置的結構示意圖。
【具體實施方式】
[0014]本發(fā)明實施例提供了一種自定義提取目錄內(nèi)容的方法和裝置,通過該方法和裝置可自定義提取到目錄中的內(nèi)容,并可將多種內(nèi)容同時添加到目錄中,而且還可以支持目錄中全部內(nèi)容的同時自動更新。
[0015]下面結合附圖及具體實施例對本發(fā)明的方法和裝置作進一步的描述:
[0016]如圖1所示流程圖,一種自定義提取目錄內(nèi)容的方法,包括以下步驟:
[0017]( I)按照特定的結構化規(guī)則,形成符合規(guī)范的結構化數(shù)據(jù)文檔。該特定的結構化規(guī)則可以是用戶根據(jù)實際需求預先設定的。該結構化數(shù)據(jù)文檔中包含有多個標簽,圖2是結構化數(shù)據(jù)文檔中包含的標簽的一個示意圖。
[0018]在形成結構化數(shù)據(jù)文檔之后,可以根據(jù)對結構化數(shù)據(jù)文檔進行規(guī)范性驗證,以確保結構化數(shù)據(jù)文檔具有嚴格的規(guī)范性;在實際應用中,可以利用Schema或者DTD對上述形成的結構化數(shù)據(jù)進行規(guī)范性驗證。
[0019](2)提取結構化數(shù)據(jù)文檔中的與目錄級別相對應的標簽,將目錄級別與從結構化數(shù)據(jù)文檔中的標簽相對應,從而形成目錄級別與標簽的對應關系信息。提取結構化數(shù)據(jù)文檔中的與目標級別的級別I相對應的標簽的一個具體例子如圖3所示。
[0020]上述對應關系信息可以以表或者數(shù)據(jù)庫或者文檔等形式存儲,如將目錄級別與提取的標簽形成數(shù)據(jù)表,且數(shù)據(jù)表中的目錄級別與提取的標簽具有相互關聯(lián)的關系。
[0021]為了便于用戶的操作,也可以將上述提取的標簽以段落樣式的形式表示,如將提取的標簽與段落樣式相對應,從而可以使用段落樣式的方式來體現(xiàn)標簽,這樣,本步驟可以描述為設置段落樣式與目錄級別的對應關系。
[0022](3)針對目錄級別對應的標簽的附加內(nèi)容,從結構化數(shù)據(jù)文檔中提取相應的標簽,以作為目錄級別對應的標簽的附加內(nèi)容,本步驟中提取的標簽可以稱為附加標簽;如圖3中的“中文作者”這一標簽是“中文標題”這一標簽的附加內(nèi)容。另外,本步驟提取的附加標簽可以添加到相應的目錄級別對應的標簽的后面。
[0023]需要說明的是,作為附加內(nèi)容的標簽(即附加標簽)通常是結構化數(shù)據(jù)文件中不具有目錄級別特征的標簽。
[0024](4)從結構化數(shù)據(jù)文檔中提取各目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,并按照目錄的設置信息將上述數(shù)據(jù)內(nèi)容組織成為目錄數(shù)據(jù)。也就是說,從各個目錄級別對應的標簽中提取出標簽的數(shù)據(jù)內(nèi)容,然后按照目錄的設置信息將數(shù)據(jù)內(nèi)容組織成為目錄數(shù)據(jù)。上述目錄的設置信息可以包括:標簽、附加標簽(可以有多個)、目錄級別及其各自的設置位置等。通過本步驟形成的目錄數(shù)據(jù)的一個具體例子如圖4所示。
[0025]需要說明的是,在提取數(shù)據(jù)內(nèi)容的過程中,可以按照目錄級別的順序(如級別1、級別2......,級別N)依次從結構化數(shù)據(jù)文檔中提取目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,之后,
可以按照目錄的設置信息對提取的數(shù)據(jù)內(nèi)容進行層次上的組織,以最終形成目錄數(shù)據(jù)。上述層次可以包括目錄數(shù)據(jù)的布局格式等。
[0026](5)判斷目錄數(shù)據(jù)中的內(nèi)容是否有變化,如果沒有變化,則不進行目錄數(shù)據(jù)更新操作;如果有變化,則返回到步驟(4),根據(jù)上述成功建立的目錄級別與標簽的對應關系,從結構化數(shù)據(jù)文檔中再次提取各目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,并按照目錄的設置信息將再次提起的數(shù)據(jù)內(nèi)容組織成為目錄數(shù)據(jù),從而實現(xiàn)了對目錄數(shù)據(jù)的自動同步更新。通過本步驟更新后的目錄數(shù)據(jù)的一個具體例子如圖5所示。
[0027]本發(fā)明實施例提供的自定義提取目錄內(nèi)容的裝置如圖6所示。
[0028]圖6中,該裝置主要包括:形成模塊、提取模塊、附加模塊、目錄模塊以及更新模塊,且該裝置還可以包括驗證模塊。
[0029]形成模塊主要用于形成符合某種規(guī)范的結構化數(shù)據(jù)文檔;即形成模塊可以將文檔按照特定的結構化規(guī)則,形成符合規(guī)范的結構化數(shù)據(jù)文檔,且該結構化數(shù)據(jù)文檔中設置有多個標簽。該特定的結構化規(guī)則可以是用戶根據(jù)實際需求預先設定的。該結構化數(shù)據(jù)文檔可以存儲于形成模塊中,也可以存儲于其他存儲單元中。
[0030]提取模塊主要用于提取上述結構化數(shù)據(jù)文檔中的與目錄級別相對應的標簽,并將目錄級別與提取的標簽相對應。
[0031]提取模塊所形成的對應關系信息可以以表或者數(shù)據(jù)庫或者文檔等形式存儲,如提取模塊將目錄級別與提取的標簽形成數(shù)據(jù)表,且數(shù)據(jù)表中的目錄級別與提取的標簽具有相互關聯(lián)的關系。為了便于用戶的操作,提取模塊也可以將上述提取的標簽以段落樣式的形式表示,如提取模塊將提取的標簽與段落樣式相對應,從而可以使用段落樣式的方式來體現(xiàn)標簽,這樣,提取模塊其實是設置了段落樣式與目錄級別的對應關系。
[0032]附加模塊主要用于從結構化數(shù)據(jù)文檔中提取相應的標簽,該提取出的附加標簽可以作為目錄級別對應的標簽的附加內(nèi)容。附加模塊提取的標簽可以稱為附加標簽;且附加模塊提取的附加標簽可以添加到相應的目錄級別對應的標簽的后面。
[0033]目錄模塊主要用于從結構化數(shù)據(jù)文檔中提取各目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,并按照預先設定的目錄的設置信息將上述數(shù)據(jù)內(nèi)容組織成為目錄數(shù)據(jù)。具體的,目錄模塊可以按照目錄級別的順序(如級別1、級別2......,級別N)依次從結構化數(shù)據(jù)文檔中提取目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,之后,目錄模塊可以按照目錄的設置信息對提取的數(shù)據(jù)內(nèi)容進行層次上的組織,以最終形成目錄數(shù)據(jù)。上述層次可以包括目錄數(shù)據(jù)的布局格式等。
[0034]更新模塊主要用于在前述提取的標簽的數(shù)據(jù)內(nèi)容發(fā)生變化時,根據(jù)各目錄級別與標簽的對應關系自動更新上述已形成的目錄數(shù)據(jù)。
[0035]具體的,更新模塊可以在提取的標簽的數(shù)據(jù)內(nèi)容發(fā)生變化時,調(diào)用目錄模塊,使目錄模塊根據(jù)其成功建立的目錄級別與標簽的對應關系,從結構化數(shù)據(jù)文檔中再次提取各目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,并按照目錄的設置信息將再次提起的數(shù)據(jù)內(nèi)容組織成為目錄數(shù)據(jù),從而實現(xiàn)了對目錄數(shù)據(jù)的自動同步更新。
[0036]驗證模塊主要用于對形成模塊所形成的結構化數(shù)據(jù)文檔進行規(guī)范性驗證,且規(guī)范性驗證后的結構化數(shù)據(jù)文檔可以替換形成模塊所形成的結構化數(shù)據(jù)文檔,以供其他模塊對結構化數(shù)據(jù)文檔的使用。
[0037]具體的,驗證模塊可以利用Schema或者DTD對形成模塊所形成的結構化數(shù)據(jù)進行規(guī)范性驗證。
[0038]本發(fā)明所述的方法并不限于【具體實施方式】中所述的實施例,本領域技術人員根據(jù)本發(fā)明的技術方案得出其他的實施方式,同樣屬于本發(fā)明的技術創(chuàng)新范圍。
【權利要求】
1.一種自定義提取目錄內(nèi)容的方法,其特征在于,包括: A、按照特定的結構化規(guī)則,形成符合規(guī)范的結構化數(shù)據(jù)文檔,所述結構化數(shù)據(jù)文檔中設置有多個標簽; B、提取結構化數(shù)據(jù)文檔中的與目錄級別相對應的標簽,并將所述目錄級別與所述提取的標簽相對應; C、針對所述目錄級別對應的標簽的附加內(nèi)容,從結構化數(shù)據(jù)文檔中提取相應的標簽,以作為所述附加內(nèi)容; D、從結構化數(shù)據(jù)文檔中提取各目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,并按照目錄的設置信息將所述數(shù)據(jù)內(nèi)容組織成為目錄數(shù)據(jù); E、在所述提取的標簽的數(shù)據(jù)內(nèi)容發(fā)生變化時,根據(jù)各目錄級別與標簽的對應關系自動更新所述目錄數(shù)據(jù)。
2.如權利要求1所述的一種自定義提取目錄內(nèi)容的方法,其特征在于,所述方法還包括: 對所述步驟A形成的結構化數(shù)據(jù)文檔進行規(guī)范性驗證。
3.如權利要求2所述的一種自定義提取目錄內(nèi)容的方法,其特征在于,所述對所述結構化數(shù)據(jù)文檔進行規(guī)范性驗證包括: 利用Schema或者DTD對所述結構化數(shù)據(jù)文檔進行規(guī)范性驗證。
4.如權利要求1所述的一種自定義提取目錄內(nèi)容的方法,其特征在于,所述步驟B包括: 將所述目錄級別與所述提取的標簽形成數(shù)據(jù)表,且所述目錄級別與所述提取的標簽具有關聯(lián)關系。
5.如權利要求1或2或3或4所述的一種自定義提取目錄內(nèi)容的方法,其特征在于,所述提取的標簽采用段落樣式的方式表示。
6.如權利要求1或2或3或4所述的一種自定義提取目錄內(nèi)容的方法,其特征在于,作為所述附加內(nèi)容的標簽包括:結構化數(shù)據(jù)文件中不具有目錄級別特征的標簽。
7.如權利要求1或2或3或4所述的一種自定義提取目錄內(nèi)容的方法,其特征在于,所述步驟D包括: 按照目錄級別的順序依次從結構化數(shù)據(jù)文檔中提取目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,并按照目錄的設置信息對所述數(shù)據(jù)內(nèi)容進行層次上的組織,最終形成目錄數(shù)據(jù)。
8.一種自定義提取目錄內(nèi)容的裝置,其特征在于,包括: 形成模塊,用于按照特定的結構化規(guī)則,形成符合規(guī)范的結構化數(shù)據(jù)文檔,所述結構化數(shù)據(jù)文檔中設置有多個標簽; 提取模塊,用于提取結構化數(shù)據(jù)文檔中的與目錄級別相對應的標簽,并將所述目錄級別與所述提取的標簽相對應; 附加模塊,用于針對所述目錄級別對應的標簽的附加內(nèi)容,從結構化數(shù)據(jù)文檔中提取相應的標簽,以作為所述附加內(nèi)容; 目錄模塊,用于從結構化數(shù)據(jù)文檔中提取各目錄級別對應的標簽的數(shù)據(jù)內(nèi)容,并按照目錄的設置信息將所述數(shù)據(jù)內(nèi)容組織成為目錄數(shù)據(jù); 更新模塊,用于在所述提取的標簽的數(shù)據(jù)內(nèi)容發(fā)生變化時,根據(jù)各目錄級別與標簽的對應關系自動更新所述目錄數(shù)據(jù)。
9.如權利要求8所述的一種自定義提取目錄內(nèi)容的裝置,其特征在于,所述裝置還包括: 驗證模塊,用于對所述結構化數(shù)據(jù)文檔進行規(guī)范性驗證。
【文檔編號】G06F17/25GK104424214SQ201310370392
【公開日】2015年3月18日 申請日期:2013年8月22日 優(yōu)先權日:2013年8月22日
【發(fā)明者】周煒 申請人:北大方正集團有限公司, 方正信息產(chǎn)業(yè)控股有限公司, 北京北大方正電子有限公司