專利名稱:基于xml的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,尤其是一種數(shù)字化出版領(lǐng)域中有關(guān)圖書內(nèi)容結(jié)構(gòu)的數(shù)據(jù)組織方法。
背景技術(shù):
目前國(guó)內(nèi)的圖書出版大都采用方正集團(tuán)的方正書版9.0來錄入和存儲(chǔ)圖書內(nèi)容。使用方正書版9.0錄入圖書內(nèi)容時(shí),內(nèi)容和表現(xiàn)形式混合在一起,并且只能出版紙質(zhì)印刷圖書,一次加工一次使用。顯然,方正書版已經(jīng)不能滿足目前數(shù)字化出版的多樣化需求,出版社不僅要出版紙質(zhì)印刷的圖書,還要出版電子圖書、網(wǎng)絡(luò)課程等。
為了能夠滿足數(shù)字化出版時(shí)代出版多種表現(xiàn)形式的出版物的需求,以及降低出版成本、提高效益的需求,新形式的出版模式就應(yīng)該能夠?qū)崿F(xiàn)一次加工能靈活自如地發(fā)布多種產(chǎn)品(紙質(zhì)印刷圖書、網(wǎng)絡(luò)課程、電子圖書等)。為此,一種基于XML的圖書內(nèi)容結(jié)構(gòu)形式化表示方法的需求應(yīng)運(yùn)而生,該方法可以通過文檔類型定義將圖書內(nèi)容和結(jié)構(gòu)進(jìn)行詳細(xì)定義,使圖書的內(nèi)容結(jié)構(gòu)與其表現(xiàn)形式無關(guān),從而實(shí)現(xiàn)一次加工可以產(chǎn)生多種形式的產(chǎn)品。
選擇XML來實(shí)現(xiàn)本發(fā)明的方法的原因在于XML是一種能夠讓用戶自己創(chuàng)造標(biāo)識(shí)的語言,它可以將數(shù)據(jù)與格式從網(wǎng)頁(yè)中分開,它可以儲(chǔ)存數(shù)據(jù)和共享數(shù)據(jù)的特性使得XML無所不能。我們先回到XML的定義上,XML(ExtensibleMarkup Language),擴(kuò)展性標(biāo)識(shí)語言?!皵U(kuò)展性”、“標(biāo)識(shí)”、“語言”,每一個(gè)詞都明確的點(diǎn)明了XML的重要特點(diǎn)和功能。
XML的第一個(gè)詞是“擴(kuò)展性”,這正是XML強(qiáng)大的功能和彈性的原因。在HTML里,有許多固定的標(biāo)記,用戶必須記住然后使用它們,并且不能使用HTML規(guī)范里沒有的標(biāo)記。而在XML中,用戶能建立任何需要的標(biāo)記。可以充分發(fā)揮想象力,只要清晰、易于理解用戶就可以建立任何數(shù)量的標(biāo)記。
XML的第二個(gè)詞是“標(biāo)識(shí)”,這表明了XML的目的是標(biāo)識(shí)文檔中的元素。不論是HTML,還是XML,標(biāo)識(shí)的本質(zhì)在于便于理解,如果沒有標(biāo)識(shí),文檔在計(jì)算機(jī)看來只是一個(gè)很長(zhǎng)的字符串,每個(gè)字看起來都一樣,沒有重點(diǎn)之分。通過標(biāo)識(shí),文檔才便于閱讀和理解,使用戶可以劃分段落,列明標(biāo)題。在XML中,用戶更可以利用其擴(kuò)展性來為文檔建立更合適的標(biāo)識(shí)。不過,需要注意的是標(biāo)識(shí)僅僅是用來識(shí)別信息,它本身并不傳達(dá)信息。
XML的第三個(gè)詞是“語言”。這表明了作為一種語言XML必須遵循一定的規(guī)則。雖然XML的擴(kuò)展性允許用戶創(chuàng)建新標(biāo)識(shí),但它仍然必須遵循特定的結(jié)構(gòu)、語法和明確的定義。在計(jì)算機(jī)領(lǐng)域,語言常常表示“程序語言”,用來編程實(shí)現(xiàn)一些功能和應(yīng)用,但不是所有的“語言”都是用來編程的,XML就只是一種用來定義標(biāo)識(shí)和描述信息的語言。
由于XML設(shè)計(jì)的目的就是用來方便的共享和交互數(shù)據(jù)的,所以在此本發(fā)明將其應(yīng)用在數(shù)字化出版領(lǐng)域中進(jìn)行圖書內(nèi)容結(jié)構(gòu)的數(shù)據(jù)組織就再恰當(dāng)不過了。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種結(jié)合數(shù)字化出版的需求,采用XML來制定圖書內(nèi)容結(jié)構(gòu)的文檔類型定義(Document Type Definition,DTD)的方法,以解決目前數(shù)字化出版中需求多樣化的問題。
本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的將文檔類型定義詞匯,即DTD詞匯分為結(jié)構(gòu)類、內(nèi)容類、版式類和重用類四個(gè)大類。
(1)結(jié)構(gòu)類 圖書(Book)一般由封面、前輔文、正文、后輔文和附件組成。附件是指圖書附帶的圖袋、光盤、音像制品等,在DTD中暫不考慮。正文結(jié)構(gòu)一般分為緒論(或概述)和主題內(nèi)容兩部分。主題內(nèi)容的結(jié)構(gòu)一般采取篇章節(jié)目式。
與圖書結(jié)構(gòu)相關(guān)的DTD詞匯主要有 (2)內(nèi)容類 圖書的內(nèi)容,無論是正文前輔文中的十幾個(gè)部分,緒論、篇、章、節(jié)、習(xí)題還是正文后輔文,其基本內(nèi)容大都是由標(biāo)題(Title)、副標(biāo)題(SubTitle)、正文段落(Para)、預(yù)排版文本(LiteralLayout)、插圖(Figure)、多媒體對(duì)象(MediaObject)、表格(Table)、公式(Equation)、行內(nèi)公式(InlineEquation)、腳注(FootNote)、邊文(SideBar)、列表(List)、可重用單元(Segment)、內(nèi)部引用(InternalRef)、外部鏈接(URL)、行間定義(InParaDefinition)、人物(Person)、參考引用(CitationRef)、行內(nèi)多媒體對(duì)象(InlineMediaObject)、標(biāo)簽(Label)、時(shí)間(Date)等構(gòu)成的。
(3)版式類 對(duì)出版規(guī)范中要求的版式規(guī)則,也定義相關(guān)的DTD詞匯。例如,規(guī)則對(duì)于計(jì)量和計(jì)數(shù)的數(shù)字,書寫4位和4位以上的數(shù)字,要采用三位分節(jié)法。如26690 787 737。對(duì)這樣的數(shù)字,用“Number”標(biāo)簽標(biāo)記出來。
版式類的DTD詞匯主要有 (4)重用類 內(nèi)容重用類DTD詞匯主要用于圖書的再版、同一內(nèi)容在不同載體上不同形式的發(fā)布、內(nèi)容的查找及個(gè)性化定制等。為了達(dá)到以上重用要求,定義的DTD詞匯主要包括 對(duì)可重用單元(從一本書、某一篇、某一章到某一小節(jié)、一個(gè)段落或者一張圖片,都可以是一個(gè)可重用單元),有一些DTD詞匯的屬性描述對(duì)內(nèi)容重用很重要,如 OutputMedium發(fā)布的媒體形式(paper online all) Selected選學(xué)層次 Required教學(xué)要求 Type應(yīng)用類型, 以下是根據(jù)應(yīng)用需求來定義的Type的取值 最重要的重用類的DTD詞匯就是hepmd-BookMetadata和hepmd-UnitMetadata,即圖書的元數(shù)據(jù)和重用單元的元數(shù)據(jù)。元數(shù)據(jù)是關(guān)于圖書內(nèi)容的描述性數(shù)據(jù),定義元數(shù)據(jù)的目的是為了增強(qiáng)圖書內(nèi)容的可獲取性,方便內(nèi)容查找、內(nèi)容聚類、建立內(nèi)容之間的關(guān)聯(lián)關(guān)系,有助于對(duì)圖書內(nèi)容進(jìn)行有效管理和應(yīng)用。
圖書的元數(shù)據(jù)(hepmd-BookMetadata)的DTD詞匯主要有 重用單元的元數(shù)據(jù)(hepmd-UnitMetadata)的DTD詞匯主要有 本發(fā)明的有益效果是 (1)基于XML的圖書內(nèi)容結(jié)構(gòu)形式化表示方法,將圖書的加工分為結(jié)構(gòu)、內(nèi)容本身和版式三個(gè)部分。各個(gè)環(huán)節(jié)各有側(cè)重,有助于提高圖書加工的質(zhì)量和效率。
(2)基于XML的圖書內(nèi)容結(jié)構(gòu)形式化表示方法,能夠?qū)D書的內(nèi)容結(jié)構(gòu)與其表現(xiàn)形式分離開,內(nèi)容結(jié)構(gòu)與載體無關(guān),內(nèi)容結(jié)構(gòu)與版式分離,從而實(shí)現(xiàn)一次內(nèi)容加工為多種內(nèi)容表現(xiàn)形式(紙質(zhì)印刷圖書、電子圖書、網(wǎng)絡(luò)課程等)和多種應(yīng)用服務(wù)。
(3)基于XML的圖書內(nèi)容結(jié)構(gòu)形式化表示方法,不同的內(nèi)容用不同的標(biāo)簽標(biāo)注,能夠結(jié)合標(biāo)簽和內(nèi)容本身實(shí)現(xiàn)基于語義的快速精確查詢。
(4)基于XML的圖書內(nèi)容結(jié)構(gòu)形式化表示方法,能夠?qū)崿F(xiàn)交叉引用,為學(xué)習(xí)社區(qū)提供更加豐富的學(xué)習(xí)資源。
(5)基于XML的圖書內(nèi)容結(jié)構(gòu)形式化表示方法,元數(shù)據(jù)標(biāo)注信息能夠方便內(nèi)容查找、內(nèi)容聚類、建立內(nèi)容之間的關(guān)聯(lián),有助于對(duì)歷史圖書內(nèi)容進(jìn)行有效管理和應(yīng)用。
此外,結(jié)合XML自身的優(yōu)點(diǎn),可以看到它的自我描述性質(zhì)能夠很好地表現(xiàn)許多復(fù)雜的數(shù)據(jù)關(guān)系,使得基于XML的應(yīng)用程序可以在XML文件中準(zhǔn)確高效地搜索相關(guān)數(shù)據(jù)內(nèi)容,忽略其他不相關(guān)部分。XML還有其他許多優(yōu)點(diǎn),如有利于不同系統(tǒng)之間的信息交流,完全可以充當(dāng)網(wǎng)際語言,并有希望成為數(shù)據(jù)和文檔交換的標(biāo)準(zhǔn)機(jī)制等。
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)一步說明。
附圖1是本發(fā)明的圖書內(nèi)容模型圖 附圖2是本發(fā)明的封面內(nèi)容模型圖 附圖3是本發(fā)明的正文前輔文內(nèi)容模型圖 附圖4是本發(fā)明的正文后輔文內(nèi)容結(jié)構(gòu)圖 附圖5是本發(fā)明的緒論內(nèi)容模型圖 附圖6是本發(fā)明的篇內(nèi)容模型圖 附圖7是本發(fā)明的章內(nèi)容模型圖 附圖8是本發(fā)明的第一節(jié)內(nèi)容模型圖 附圖9是本發(fā)明的段落群內(nèi)容模型圖 附圖10是本發(fā)明的片斷內(nèi)容模型圖 附圖11是本發(fā)明的段落內(nèi)容模型圖
具體實(shí)施例方式 結(jié)合附圖,本發(fā)明的具體實(shí)施方式
可以是這樣的,如圖1中的圖書內(nèi)容模型圖,圖書一般由封面、正文前輔文、正文、正文后輔文和附件組成。正文結(jié)構(gòu)一般分為緒論(或概述)和主題內(nèi)容兩部分。主題內(nèi)容的結(jié)構(gòu)一般采取篇章節(jié)目式。
在圖2的封面內(nèi)容模型圖中封面一般由封面頁(yè)和封面插圖組成。圖1和圖2中的模型使用的都是結(jié)構(gòu)類DTD。
圖書的內(nèi)容,無論是正文前輔文中的十幾個(gè)部分,緒論、篇、章、節(jié)、習(xí)題還是正文后輔文,其基本內(nèi)容大都是由標(biāo)題(Title)、副標(biāo)題(SubTitle)、正文段落(Para)、預(yù)排版文本(LiteralLayout)、插圖(Figure)、多媒體對(duì)象(MediaObject)、表格(Table)、公式(Equation)、行內(nèi)公式(InlineEquation)、腳注(FootNote)、邊文(SideBar)、列表(List)、可重用單元(Segment)等構(gòu)成的。它們使用的是內(nèi)容類、版式類以及重用DTD詞匯,如圖3至11。
在圖3和圖4的正文前、后輔文的內(nèi)容模型圖中,各結(jié)構(gòu)均又多個(gè)標(biāo)識(shí)字段組成,如正文前輔文的內(nèi)容模型圖中包括口號(hào)頁(yè)、致謝、題詞頁(yè)、副書名頁(yè)、內(nèi)封、內(nèi)容摘要、CIP(圖書在版編目數(shù)據(jù))、編輯群、版本歷史、作者簡(jiǎn)介、出版說明、編者說明、序言(包括自序、他序、譯序、代序、初版序、再版序、多卷書的總序和分序等)、前言、凡例、目錄、其他說明、符號(hào)表等;正文后輔文內(nèi)容模型圖中包括出版后記、跋、附錄集、索引、參考文獻(xiàn)、術(shù)語表、其他說明、廣告、勘誤表、目錄、CIP(圖書在版編目數(shù)據(jù))、作者簡(jiǎn)介、編者說明、編輯群、內(nèi)容摘要、致謝、題詞頁(yè)、版本歷史等。
在圖5至圖10的緒論內(nèi)容模型圖、篇內(nèi)容模型圖、章內(nèi)容模型圖、第一節(jié)內(nèi)容模型圖、段落群內(nèi)容模型圖、片斷內(nèi)容模型圖中,各模型均由屬性、元數(shù)據(jù)和子元素三部分組成,屬性中差不多都包括ID、發(fā)布媒體形式、語言、應(yīng)用類型、選學(xué)層次、說明等標(biāo)識(shí)的共有部分;子元素是各模型的特有部分,各不相同,但也大都包括標(biāo)題、正文等標(biāo)識(shí),此處不再贅述。
圖11的段落內(nèi)容模型圖,由屬性和子元素兩部分組成。屬性中包括說明、發(fā)布媒體形式、選學(xué)層次、應(yīng)用類型、對(duì)齊方式、縮進(jìn)、重用性等,子元素主要由各種內(nèi)容元素和版式元素組成。
下面給出一個(gè)具體的用XML方法表示的圖書DTD 上述XML表示方法中的元數(shù)據(jù)的DTD如下 需要注意的是,盡管本發(fā)明已參照具體實(shí)施方式
進(jìn)行描述和舉例說明,并且給出了用XML的形式化表示方法具體表示的圖書內(nèi)容結(jié)構(gòu)DTD。但是并不意味著本發(fā)明限于這些描述的實(shí)施方式,本領(lǐng)域技術(shù)人員可以從中衍生出許多不同的變體,它們都將覆蓋于本發(fā)明權(quán)利要求的真實(shí)精神和范圍中。
權(quán)利要求
1.一種基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,是基于可擴(kuò)展標(biāo)記語言XML來對(duì)圖書內(nèi)容結(jié)構(gòu)進(jìn)行形式化表示的方法,其特征在于本方法使用可擴(kuò)展標(biāo)記語言XML來表示圖書內(nèi)容結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,其特征在于將普通圖書內(nèi)容按照以下規(guī)則表示成XML數(shù)據(jù),即參考《科技圖書編輯教程》中對(duì)圖書的內(nèi)容結(jié)構(gòu)分析,將圖書看作是由封面、正文前輔文、正文和正文后輔文四個(gè)部分組成的。
3.根據(jù)權(quán)利要求2所述的基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,其特征在于封面可能由前封面、書脊、后封面及勒口四個(gè)部分組成。
4.根據(jù)權(quán)利要求2所述的基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,其特征在于圖書的正文前輔文放在封面之后、正文之前,包括口號(hào)頁(yè)、致謝、題詞頁(yè)、副書名頁(yè)、內(nèi)封、內(nèi)容摘要、CIP數(shù)據(jù)、版本記錄、作者簡(jiǎn)介、出版說明、編者說明、序言、前言、凡例、目錄、其他說明、符號(hào)表等內(nèi)容。
5.根據(jù)權(quán)利要求4所述的基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,其特征在于序言包括自序、他序、譯序、代序、初版序、再版序、多卷書的總序和分序等。
6.根據(jù)權(quán)利要求2所述的基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,其特征在于圖書的正文一般由緒論和多個(gè)章組成,或者由緒論和多個(gè)篇組成。
7.根據(jù)權(quán)利要求2所述的基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,其特征在于圖書的正文后輔文放在正文之后,包括出版后記、跋、附錄集、索引、參考文獻(xiàn)、詞匯表、廣告、勘誤表、目錄、CIP、作者介紹、編者說明、編輯群、內(nèi)容摘要、呈獻(xiàn)頁(yè)、題詞頁(yè)、版本歷史及其他說明等。
8.根據(jù)權(quán)利要求1至7中任一權(quán)利要求所述的基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,其特征在于為了便于圖書內(nèi)容的檢索和重用,對(duì)圖書以及圖書的某些內(nèi)容標(biāo)注元數(shù)據(jù),不同類型的內(nèi)容用特定的DTD元素來標(biāo)注,不同的內(nèi)容直接作為不同文檔DTD元素的內(nèi)容。
9.根據(jù)權(quán)利要求8所述的基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,其特征在于使用以下規(guī)則對(duì)圖書內(nèi)容結(jié)構(gòu)進(jìn)行形式化表示
(1)對(duì)于圖書的組成結(jié)構(gòu),如封面、正文前輔文、緒論、篇、章、節(jié)、正文后輔文等,用結(jié)構(gòu)類DTD詞匯來標(biāo)注;
(2)對(duì)于圖書的基本內(nèi)容,如正文段落、表格、公式、插圖、腳注、邊文等,用內(nèi)容類DTD詞匯來標(biāo)注;
(3)對(duì)于圖書的重用單元,如段落群、內(nèi)容片斷等,用重用類DTD詞匯來標(biāo)注;對(duì)于可重用的圖書、緒論、篇、章、節(jié)、正文段落、習(xí)題、公式等,可以添加元數(shù)據(jù)子元素來標(biāo)注;
(4)對(duì)于需要特殊版式要求的內(nèi)容,如數(shù)字、空格、強(qiáng)調(diào)等,用版式類DTD詞匯來標(biāo)注。
10.根據(jù)權(quán)利要求9所述的基于XML的圖書內(nèi)容結(jié)構(gòu)的形式化表示方法,其特征在于
(1)使用XML方法表示的圖書DTD如下
(2)(1)所描述的XML表示方法中的元數(shù)據(jù)的DTD如下
全文摘要
本發(fā)明涉及一種數(shù)字化出版領(lǐng)域中基于XML(可擴(kuò)展標(biāo)記語言)的圖書內(nèi)容結(jié)構(gòu)形式化表示方法,將圖書看作由封面、正文前輔文、正文和正文后輔文四個(gè)部分組成的,并將其表示成XML數(shù)據(jù)。為便于圖書內(nèi)容的檢索和重用,對(duì)圖書及圖書的某些內(nèi)容標(biāo)注元數(shù)據(jù),不同的內(nèi)容用特定的DTD(文檔類型定義)元素來標(biāo)注,主要包括結(jié)構(gòu)、內(nèi)容、版式及重用四類DTD元素。本方法將圖書加工分為結(jié)構(gòu)、內(nèi)容本身和版式三個(gè)部分,各環(huán)節(jié)各有側(cè)重,有助于提高圖書加工的質(zhì)量和效率,同時(shí)將圖書的內(nèi)容結(jié)構(gòu)與表現(xiàn)形式分離開,實(shí)現(xiàn)一次內(nèi)容加工為多種內(nèi)容表現(xiàn)形式(紙質(zhì)印刷圖書、電子圖書、網(wǎng)絡(luò)課程等)和多種應(yīng)用服務(wù),并且能夠?qū)崿F(xiàn)交叉引用,方便了信息的交流。
文檔編號(hào)G06F17/30GK101334775SQ20071012316
公開日2008年12月31日 申請(qǐng)日期2007年6月29日 優(yōu)先權(quán)日2007年6月29日
發(fā)明者向 吳, 澤 張, 玲 彭, 濤 林, 楊京峰, 路秋麗 申請(qǐng)人:高等教育出版社