国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文檔目錄處理方法和裝置的制作方法

      文檔序號:6427509閱讀:156來源:國知局

      專利名稱::文檔目錄處理方法和裝置的制作方法
      技術(shù)領(lǐng)域
      :本發(fā)明涉及數(shù)字排版領(lǐng)域,具體而言,涉及文檔目錄處理方法和裝置。
      背景技術(shù)
      :常用的書版排版軟件例如方正書版排版軟件是ー個(gè)流式處理排版軟件,目前最新的版本為書版2008版,它采用BD注解描述排版內(nèi)容的格式和樣式,通過ニ掃解析、排版內(nèi)容,形成頁面描述文件展現(xiàn)排版結(jié)果,具有排版速度快、效率高、排版標(biāo)準(zhǔn)等特點(diǎn),適合各類教材、教輔、辭書、公文排版,在各個(gè)出版社、排版中心和數(shù)字加工中心得到了廣泛的使用,其排版結(jié)果已經(jīng)成為出版行業(yè)的排版標(biāo)準(zhǔn)。隨著信息化建設(shè)的加速,越來越多的出版社開始重視原始資源的多介質(zhì)形式發(fā)布。目前國內(nèi)出版社多數(shù)是以書版軟件作為主要排版軟件,因此都保留著大量的書版文件,出版社除了傳統(tǒng)的紙質(zhì)印刷之外,還輸出成F1DF(PortableDocumentFormat,便攜文檔格式)文件,以實(shí)現(xiàn)網(wǎng)絡(luò)營銷。書版文件可以以書版小樣文件的形式存在,書版小樣文件是指包含書版軟件規(guī)定的BD語言注解信息的文本文件,這些BD注解描述了后續(xù)小樣內(nèi)容的排版屬性和排版格式,暗藏著小樣的章節(jié)目錄。目前書版小樣文件輸出的PDF文件是沒有章節(jié)目錄書簽的,用戶在瀏覽這些TOF文件時(shí)需要手動(dòng)翻轉(zhuǎn)到指定的頁進(jìn)行閱讀,當(dāng)PDF文件比較大時(shí),翻轉(zhuǎn)很不方便。為了解決這個(gè)問題,目前采用的方法是在書版小樣文件輸出成PDF文件后,在PDF文件中手動(dòng)添加章節(jié)目錄書簽首先通過人工查看PDF文件,找出所有的章節(jié)目錄內(nèi)容和所有的頁號;其次再把這些章節(jié)目錄內(nèi)容及頁號信息作為書簽嵌入到PDF文件中。這種操作效率較低,工作量較大,而且較易出錯(cuò)。
      發(fā)明內(nèi)容本發(fā)明g在提供一種文檔目錄處理方法和裝置,以解決現(xiàn)有技木目錄處理效率較低的問題。在本發(fā)明的實(shí)施例中,提供了一種文檔目錄處理方法,包括將書版小樣文件轉(zhuǎn)換成XML文件JAXML文件中獲取文檔目錄;將文檔目錄嵌入到由書版小樣文件生成的PDF文件中。在本發(fā)明的實(shí)施例中,提供了一種文檔目錄處理裝置,包括轉(zhuǎn)換模塊,用于將書版小樣文件轉(zhuǎn)換成XML文件;獲取模塊,用于從XML文件中獲取文檔目錄;嵌入模塊,用于將文檔目錄嵌入到由書版小樣文件生成的PDF文件中。本發(fā)明實(shí)施例的文檔目錄處理方法和裝置,因?yàn)椴捎肵ML文件來獲取文檔目錄,所以克服了現(xiàn)有技木目錄處理效率較低的問題,達(dá)到了提高目錄處理效率的效果。此處所說明的附圖用來提供對本發(fā)明的進(jìn)ー步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖I示出了根據(jù)本發(fā)明實(shí)施例的文檔目錄處理方法的流程圖;圖2示出了根據(jù)本發(fā)明實(shí)施例的文檔目錄處理裝置的示意圖。具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。圖I示出了根據(jù)本發(fā)明實(shí)施例的文檔目錄處理方法的流程圖,包括步驟S10,將書版小樣文件轉(zhuǎn)換成XML文件;步驟S20,從XML文件中獲取文檔目錄;步驟S30,將文檔目錄嵌入到由書版小樣文件生成的PDF文件中?,F(xiàn)有技術(shù)因?yàn)闊o法從書版小樣文件中直接確定文檔目錄,所以只能通過人工方式向PDF文件中添加文檔目錄。而本實(shí)施例利用XML文件可以記錄書版小樣文件的結(jié)構(gòu)化信息的特點(diǎn),從XML文件中獲取目錄信息,從而自動(dòng)向PDF文件添加文檔目錄,這提高了生成文檔目錄的效率,而且能減少差錯(cuò)。優(yōu)選地,步驟SlO包括在由書版小樣文件進(jìn)行ニ掃排版生成書版大樣文件的過程中,每生成一頁大樣內(nèi)容,將其頁號及其內(nèi)容對應(yīng)于書版小樣文件中的起始、終止位置記錄到臨時(shí)文件中;根據(jù)書版小樣文件的注解,將書版小樣文件的內(nèi)容分成多個(gè)段;確定每段內(nèi)容在書版小樣文件中的先后順序;確定每段內(nèi)容中所用到的字體、字號及其作用范圍;根據(jù)臨時(shí)文件,確定每段內(nèi)容所在的頁號;將以上確定內(nèi)容寫入XML文件。書版軟件采用BD語言編寫的書版小樣文件不是純文本文件,其中除了文本內(nèi)容,還包含各種注解。本優(yōu)選實(shí)施例利用這些注解分析排版信息,從而可以記錄到XML文件中。具體來說,步驟SlO包括對小樣進(jìn)行排版處理,依次輸出書版大樣文件和PDF文件,并且在生成書版大樣文件過程(例如進(jìn)行ニ掃排版)中,每生成一頁大樣內(nèi)容,記錄該大樣頁內(nèi)容對應(yīng)于書版小樣文件中起始、終止位置及頁號信息,當(dāng)輸出完所有小樣內(nèi)容后,把這些信息記錄到一個(gè)臨時(shí)文件中。首先對書版小樣文件注解進(jìn)行分析,根據(jù)各個(gè)注解排版屬性、注解最終排版效果是否獨(dú)立成段、注解作用范圍及它在書版小樣文件中的位置,對小樣內(nèi)容進(jìn)行切分,形成一段段內(nèi)容;其次完成對整個(gè)小樣的分析后,依據(jù)每段內(nèi)容在書版小樣文件中的先后順序,把所有切分出來的段按順序組織起來;再次對每段內(nèi)容中所用到的字體、字號注解進(jìn)行解析處理,提取出本段內(nèi)容所用到的所有字體和字號屬性及它的作用范圍;再次根據(jù)生成的內(nèi)容與頁號關(guān)系臨時(shí)文件,按順序與切分出來的每段內(nèi)容進(jìn)行比較,確定每段內(nèi)容排版所在的頁;最后把經(jīng)過上述加工操作后的內(nèi)容輸出出來,形成小樣結(jié)構(gòu)化的邏輯XML文件。優(yōu)選地,步驟S20包括預(yù)先創(chuàng)建匹配規(guī)則;對XML文件運(yùn)行匹配規(guī)則,以獲取文檔目錄。該匹配規(guī)則可以是正則表達(dá)式。本優(yōu)選實(shí)施例很容易通過計(jì)算機(jī)編程來實(shí)現(xiàn)。優(yōu)選地,預(yù)先創(chuàng)建匹配規(guī)則包括以下至少之ー將書版小樣文件中的標(biāo)題注解加入到匹配規(guī)則中;規(guī)定字體和字號組合表示章節(jié)標(biāo)題;規(guī)定序號表示章節(jié)標(biāo)題;接受用戶自定義。章節(jié)標(biāo)題通常具有與其他段落內(nèi)容不同的排版格式或者特定的內(nèi)容,具體來說,可以包括以下幾步I、提供一個(gè)匹配規(guī)則設(shè)置工具,在通過此工具進(jìn)行規(guī)則設(shè)置時(shí),如果書版小樣文件中包含了標(biāo)題注解,即書版小樣文件中已經(jīng)指明了哪些內(nèi)容排版成章節(jié)內(nèi)容,則在該匹配規(guī)則設(shè)置界面中默認(rèn)增加“大綱提取”規(guī)則,它表示把書版小樣文件中標(biāo)題注解內(nèi)容提取成章節(jié)內(nèi)容。2、在匹配規(guī)則設(shè)置工具中還提供其它三種章節(jié)提取規(guī)則供用戶選擇,分別是ー字體、字號提取規(guī)則;ニ序號提取規(guī)則;三自定義提取規(guī)則;這三種規(guī)則概括了目前書籍出版物所有通用的章節(jié)目錄排版方式。I)字體、字號提取規(guī)則指出什么樣的字體和字號組合表示第幾級章節(jié)標(biāo)題,比如用戶小樣常采用一號黑體表示ー級章節(jié),即篇;二號黑體表示ニ級章節(jié),即章;三號宋體表示三級章節(jié),即節(jié)等等。2)序號提取規(guī)則有些小樣采用諸如“一”、“ニ”、“三”或“一、”、“ニ、”、“三、”或“(一)”、“(ニ)”、“(三)”等等序號方式表示章節(jié),通過設(shè)置各種序號方式對應(yīng)的章節(jié)級別對小樣進(jìn)行章節(jié)目錄進(jìn)行提取。3)自定義提取規(guī)則有些小樣采用諸如“第一章XXX”、“第二章XXX”或“第一節(jié)XXX”、“第二節(jié)XXX”或“章一xxx”、“章ニxxx”等等方式表示章節(jié),通過用戶自定義規(guī)則,描述出各種類型章節(jié)組合提取規(guī)則對小樣章節(jié)目錄進(jìn)行提取。在設(shè)置好匹配規(guī)則后,設(shè)置工具會(huì)輸出形成匹配規(guī)則文件,用戶還可以利用設(shè)置工具再打開該匹配規(guī)則文件,對上次設(shè)置的規(guī)則進(jìn)行修改、完善。接下來,從邏輯XML文件中按順序一段段讀取出每段內(nèi)容及其屬性。取一段內(nèi)容,利用匹配規(guī)則文件中每條章節(jié)目錄提取規(guī)則按順序一條條進(jìn)行匹配,如果滿足其中一條章節(jié)提取規(guī)則,則把該段內(nèi)容作為章節(jié)目錄內(nèi)容提取出來,并記錄下該段內(nèi)容在PDF文件中的頁號,同時(shí)終止該段的章節(jié)目錄提取過程。循環(huán)讀取下一段內(nèi)容,重復(fù)執(zhí)行上述匹配步驟,對每段內(nèi)容進(jìn)行章節(jié)目錄匹配、提取,直到讀取完所有段內(nèi)容。把所有提取出來的章節(jié)目錄內(nèi)容及其頁號信息按目錄層次結(jié)構(gòu)輸出成小樣章節(jié)目錄XML文件,完成小樣章節(jié)目錄提取過程。優(yōu)選地,步驟S30包括將提取的文檔目錄的章節(jié)目錄內(nèi)容、層次結(jié)構(gòu)和頁號按照書簽格式嵌入到PDF文件中。PDF文件提供了書簽格式用于插入文檔目錄,本優(yōu)選實(shí)施例與現(xiàn)有的PDF軟件保持一致。具體來說,在本步驟中,可以利用生成的小樣章節(jié)目錄XML文件和由書版小樣文件生成的PDF文件進(jìn)行合并,把小樣章節(jié)目錄XML文件中章節(jié)目錄內(nèi)容、層次結(jié)構(gòu)和頁號信息按照PDF文件書簽格式嵌入到PDF文件中,完成PDF文件書簽添加過程。用戶通過點(diǎn)擊書簽,可以自動(dòng)跳轉(zhuǎn)到該章節(jié)所在的頁上進(jìn)行瀏覽。同時(shí),通過不同的、詳細(xì)的匹配規(guī)則設(shè)置,提取出不同層次級別或詳細(xì)級別的章節(jié)目錄信息,并嵌入到小樣生成的PDF文件中形成不同要求或形式的書簽,從而實(shí)現(xiàn)在書版小樣文件輸出PDF時(shí)動(dòng)態(tài)添加章節(jié)目錄。本發(fā)明的優(yōu)選實(shí)施例通過PDF文件輸出、小樣結(jié)構(gòu)化加工、章節(jié)目錄匹配規(guī)則設(shè)置、提取加工過程,可以提取出書版小樣文件中完整的章節(jié)目錄內(nèi)容及其層次結(jié)構(gòu)、頁號,并通過自動(dòng)嵌入到小樣輸出的PDF文件中實(shí)現(xiàn)動(dòng)態(tài)生成PDF章節(jié)目錄書簽過程。同時(shí),本發(fā)明優(yōu)選實(shí)施例中,用戶可設(shè)置章節(jié)目錄內(nèi)容提取規(guī)則,可以實(shí)現(xiàn)不同級別、層次結(jié)構(gòu)的章節(jié)目錄提取,實(shí)現(xiàn)根據(jù)不同需要?jiǎng)討B(tài)生成不同要求的PDF文件章節(jié)目錄書簽。圖2示出了根據(jù)本發(fā)明實(shí)施例的文檔目錄處理裝置的示意圖,包括轉(zhuǎn)換模塊10,用于將書版小樣文件轉(zhuǎn)換成XML文件;獲取模塊20,用于從XML文件中獲取文檔目錄;嵌入模塊30,用于將文檔目錄嵌入到由書版小樣文件生成的PDF文件中。本裝置提高了生成文檔目錄的效率,而且能減少差錯(cuò)。優(yōu)選地,轉(zhuǎn)換模塊10包括臨時(shí)記錄模塊,用于在由書版小樣文件進(jìn)行ニ掃排版生成書版大樣文件的過程中,每生成一頁大樣內(nèi)容,將其頁號及其內(nèi)容對應(yīng)于書版小樣文件中的起始、終止位置記錄到臨時(shí)文件中;分段模塊,用于根據(jù)書版小樣文件的注解,將書版小樣文件的內(nèi)容分成多個(gè)段;順序模塊,用于確定每段內(nèi)容在書版小樣文件中的先后順序;字體字號模塊,用于確定每段內(nèi)容中所用到的字體、字號及其作用范圍;頁號模塊,用于根據(jù)臨時(shí)文件,確定每段內(nèi)容所在的頁號;與入ネ旲塊,用于將以上確定內(nèi)容與入XML文件。本優(yōu)選實(shí)施例通過分析書版小樣文件的注解得到書版小樣文件的結(jié)構(gòu)化信息。優(yōu)選地,獲取模塊20用于對XML文件運(yùn)行預(yù)先創(chuàng)建的匹配規(guī)則,以獲取文檔目錄。本優(yōu)選實(shí)施例很容易通過計(jì)算機(jī)編程來實(shí)現(xiàn)。優(yōu)選地,預(yù)先創(chuàng)建匹配規(guī)則包括以下至少之ー將書版小樣文件中的標(biāo)題注解加入到匹配規(guī)則中;規(guī)定字體和字號組合表示章節(jié)標(biāo)題;規(guī)定序號表示章節(jié)標(biāo)題;接受用戶自定義。利用這些豐富的規(guī)則,可以很靈活地從XML文件中獲取文檔目錄。優(yōu)選地,嵌入模塊30將提取的文檔目錄的章節(jié)目錄內(nèi)容、層次結(jié)構(gòu)和頁號按照書簽格式嵌入到PDF文件中。本優(yōu)選實(shí)施例實(shí)現(xiàn)了對PDF文件加入文檔目錄。從以上的描述中可以看出,通過本發(fā)明實(shí)施例提供的方案,快速、高效、準(zhǔn)確、自動(dòng)地實(shí)現(xiàn)了輸出PDF時(shí)動(dòng)態(tài)添加章節(jié)目錄書簽,特別是當(dāng)書版小樣文件中已經(jīng)明確使用了標(biāo)題注解指明了哪些內(nèi)容為章節(jié)目錄內(nèi)容時(shí),整個(gè)處理過程不需要人工干預(yù)。同時(shí)由于章節(jié)目錄內(nèi)容的提取自動(dòng)完成,而且能自動(dòng)定位到該章節(jié)目錄在PDF文件中的頁號,可以保證章節(jié)目錄內(nèi)容的正確性,減少了人工手動(dòng)添加時(shí)的錯(cuò)誤。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。權(quán)利要求1.一種文檔目錄處理方法,其特征在于,包括將書版小樣文件轉(zhuǎn)換成XML文件;從所述XML文件中獲取文檔目錄;將所述文檔目錄嵌入到由所述書版小樣文件生成的PDF文件中。2.根據(jù)權(quán)利要求I所述的方法,其特征在于,將書版小樣文件轉(zhuǎn)換成XML文件包括在由所述書版小樣文件進(jìn)行二掃排版生成書版大樣文件的過程中,每生成一頁大樣內(nèi)容,將其頁號及其內(nèi)容對應(yīng)于所述書版小樣文件中的起始、終止位置記錄到臨時(shí)文件中;根據(jù)所述書版小樣文件的注解,將所述書版小樣文件的內(nèi)容分成多個(gè)段;確定每段內(nèi)容在所述書版小樣文件中的先后順序;確定每段內(nèi)容中所用到的字體、字號及其作用范圍;根據(jù)所述臨時(shí)文件,確定每段內(nèi)容所在的頁號;將以上確定內(nèi)容寫入所述XML文件。3.根據(jù)權(quán)利要求I所述的方法,其特征在于,從所述XML文件中獲取文檔目錄包括預(yù)先創(chuàng)建匹配規(guī)則;對所述XML文件運(yùn)行所述匹配規(guī)則,以獲取所述文檔目錄。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,預(yù)先創(chuàng)建匹配規(guī)則包括以下至少之一將所述書版小樣文件中的標(biāo)題注解加入到所述匹配規(guī)則中;規(guī)定字體和字號組合表示章節(jié)標(biāo)題;規(guī)定序號表示章節(jié)標(biāo)題;接受用戶自定義。5.根據(jù)權(quán)利要求I所述的方法,其特征在于,將所述文檔目錄嵌入到由所述書版小樣文件生成的PDF文件中包括將提取的所述文檔目錄的章節(jié)目錄內(nèi)容、層次結(jié)構(gòu)和頁號按照書簽格式嵌入到所述PDF文件中。6.一種文檔目錄處理裝置,其特征在于,包括轉(zhuǎn)換模塊,用于將書版小樣文件轉(zhuǎn)換成XML文件;獲取模塊,用于從所述XML文件中獲取文檔目錄;嵌入模塊,用于將所述文檔目錄嵌入到由所述書版小樣文件生成的PDF文件中。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述轉(zhuǎn)換模塊包括臨時(shí)記錄模塊,用于在由所述書版小樣文件進(jìn)行二掃排版生成書版大樣文件的過程中,每生成一頁大樣內(nèi)容,將其頁號及其內(nèi)容對應(yīng)于所述書版小樣文件中的起始、終止位置記錄到臨時(shí)文件中;分段模塊,用于根據(jù)所述書版小樣文件的注解,將所述書版小樣文件的內(nèi)容分成多個(gè)段;順序模塊,用于確定每段內(nèi)容在所述書版小樣文件中的先后順序;字體字號模塊,用于確定每段內(nèi)容中所用到的字體、字號及其作用范圍;頁號模塊,用于根據(jù)所述臨時(shí)文件,確定每段內(nèi)容所在的頁號;寫入模塊,用于將以上確定內(nèi)容寫入所述XML文件。8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲取模塊用于對所述XML文件運(yùn)行預(yù)先創(chuàng)建的匹配規(guī)則,以獲取所述文檔目錄。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,預(yù)先創(chuàng)建匹配規(guī)則包括以下至少之一將所述書版小樣文件中的標(biāo)題注解加入到所述匹配規(guī)則中;規(guī)定字體和字號組合表示章節(jié)標(biāo)題;規(guī)定序號表示章節(jié)標(biāo)題;接受用戶自定義。10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述嵌入模塊將提取的所述文檔目錄的章節(jié)目錄內(nèi)容、層次結(jié)構(gòu)和頁號按照書簽格式嵌入到所述PDF文件中。全文摘要本發(fā)明提供了一種文檔目錄處理方法,包括將書版小樣文件轉(zhuǎn)換成XML文件;從XML文件中獲取文檔目錄;將文檔目錄嵌入到由書版小樣文件生成的PDF文件中。本發(fā)明提供了一種文檔目錄處理裝置,包括轉(zhuǎn)換模塊,用于將書版小樣文件轉(zhuǎn)換成XML文件;獲取模塊,用于從XML文件中獲取文檔目錄;嵌入模塊,用于將文檔目錄嵌入到由書版小樣文件生成的PDF文件中。本發(fā)明達(dá)到了提高目錄處理效率的效果。文檔編號G06F17/30GK102855244SQ20111017998公開日2013年1月2日申請日期2011年6月28日優(yōu)先權(quán)日2011年6月28日發(fā)明者繆萍申請人:北大方正集團(tuán)有限公司,北京北大方正電子有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1