一種基于xml的數(shù)字資源標(biāo)識(shí)方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)字出版和文獻(xiàn)檢索信息服務(wù)領(lǐng)域。
【背景技術(shù)】
[0002]目前,互聯(lián)網(wǎng)上的資源數(shù)量越來(lái)越多,為了方便用戶能發(fā)現(xiàn)并訪問(wèn)資源,需要對(duì)網(wǎng)上的數(shù)字資源進(jìn)行唯一性標(biāo)識(shí),并提供統(tǒng)一有效的標(biāo)識(shí)解析服務(wù)系統(tǒng)。信息服務(wù)和信息安全已經(jīng)成為國(guó)家戰(zhàn)略,特別是數(shù)字出版資源的需求更為迫切?,F(xiàn)在,數(shù)字出版在向碎片化知識(shí)出版和按需出版轉(zhuǎn)型,需要對(duì)不同粒度的知識(shí)碎片進(jìn)行標(biāo)識(shí),需要支持對(duì)不同來(lái)源、粒度、載體的知識(shí)按內(nèi)容體系實(shí)現(xiàn)動(dòng)態(tài)聚合,這些都需要基于對(duì)出版的不同知識(shí)單元進(jìn)行唯一性標(biāo)識(shí),并且能夠基于標(biāo)識(shí)實(shí)現(xiàn)一定程度的內(nèi)容解析,才能使得數(shù)字資源標(biāo)識(shí)在資源發(fā)現(xiàn)、傳播和使用中價(jià)值最大化。
[0003]數(shù)字對(duì)象標(biāo)識(shí)(DOI)是目前國(guó)際上最常用的出版資源數(shù)字對(duì)象唯一標(biāo)識(shí)體系,由國(guó)際數(shù)字對(duì)象標(biāo)識(shí)符基金會(huì)(IDF)以加盟方式進(jìn)行統(tǒng)一管理和服務(wù)。DOI編碼由前綴和后綴組成,前綴是機(jī)構(gòu)代碼由IDF分配,后綴由出版機(jī)構(gòu)自己設(shè)計(jì)、編碼,但需確保在出版機(jī)構(gòu)內(nèi)該編碼唯一,例如,DOI 碼:10.13862/j.cnk1.cn43-1446.r.2015.03.021,表示由出版機(jī)構(gòu)CNKI (前綴碼10.13862)注冊(cè)的一篇期刊文獻(xiàn)的DOI碼。通過(guò)編碼解析,DOI碼只能夠準(zhǔn)確定位到這個(gè)出版物,但是解析時(shí)除了出版機(jī)構(gòu)自己外,解析系統(tǒng)不知道該數(shù)字資源是什么或者有什么內(nèi)容,主要原因是后綴編碼完全由出版機(jī)構(gòu)設(shè)計(jì),沒(méi)有相互之間能夠理解的通用結(jié)構(gòu)。隨著數(shù)字出版和網(wǎng)絡(luò)應(yīng)用的發(fā)展,這種只能定位,不同提供更多結(jié)構(gòu)信息的編碼模式已經(jīng)不能滿足要求了。
【發(fā)明內(nèi)容】
[0004]針對(duì)上述問(wèn)題,本發(fā)明提出一種基于XML的數(shù)字資源標(biāo)識(shí)方法和裝置。
[0005]本發(fā)明的第一個(gè)目的是提出一種基于XML的數(shù)字資源標(biāo)識(shí)方法,簡(jiǎn)稱XMLD0I,包括:通過(guò)XML描述將數(shù)字資源編碼結(jié)構(gòu)化,每部分編碼對(duì)應(yīng)一個(gè)XML描述項(xiàng),能夠被計(jì)算機(jī)理解,知道這段編碼代表什么含義。這樣出版機(jī)構(gòu)先要提交符合統(tǒng)一標(biāo)準(zhǔn)的XML編碼定義文件,再按定義格式注冊(cè)數(shù)字資源編碼,使用時(shí),系統(tǒng)先讀取XML編碼定義文件,再解析數(shù)字資源標(biāo)識(shí)編碼。
[0006]本方法中數(shù)字資源標(biāo)識(shí)編碼采用分層結(jié)構(gòu)化設(shè)計(jì),為滿足當(dāng)前大規(guī)模數(shù)據(jù)技術(shù)對(duì)知識(shí)挖掘的需求,將編碼通過(guò)分層結(jié)構(gòu)化賦予更多含義,以利于后續(xù)資源定位和應(yīng)用。XMLDOI編碼分為三部分:唯一標(biāo)識(shí)部分IDSegment,外部特征標(biāo)識(shí)部分ExtSegment,內(nèi)容特征標(biāo)識(shí)部分IntSegment,在每一部分中通過(guò)多個(gè)編碼項(xiàng)描述相應(yīng)的編碼內(nèi)容,編碼項(xiàng)有保留編碼項(xiàng)和出版機(jī)構(gòu)自定義編碼項(xiàng)。唯一標(biāo)識(shí)部分標(biāo)識(shí)該數(shù)字資源在全球的唯一性,由機(jī)構(gòu)編碼和機(jī)構(gòu)內(nèi)唯一代碼兩個(gè)保留編碼項(xiàng)組成,外部特征標(biāo)識(shí)部分通過(guò)多個(gè)編碼項(xiàng),描述該資源的各種外部特征,內(nèi)容特征標(biāo)識(shí)部分通過(guò)多個(gè)編碼項(xiàng),描述該資源的主要內(nèi)容,除唯一性標(biāo)識(shí)部分必須存在以外,外部特征和內(nèi)容特征只需要保證一項(xiàng)以上存在。
[0007]本方法保持與DOI或其他常用編碼模式兼容,通過(guò)在數(shù)字資源外部特征部分增加保留編碼項(xiàng)IDFDOI實(shí)現(xiàn),出版機(jī)構(gòu)還可以自定義其他編碼數(shù)據(jù)項(xiàng)。
[0008]本發(fā)明的第二個(gè)目的是提出一種基于XML的數(shù)字資源標(biāo)識(shí)裝置,包括兩部分:數(shù)字資源標(biāo)識(shí)注冊(cè)管理子系統(tǒng)和數(shù)字資源標(biāo)識(shí)解析服務(wù)子系統(tǒng)。標(biāo)識(shí)注冊(cè)管理子系實(shí)現(xiàn)對(duì)出版機(jī)構(gòu)注冊(cè)管理和數(shù)字資源標(biāo)識(shí)注冊(cè)管理,包括出版機(jī)構(gòu)管理模塊、標(biāo)識(shí)分配管理模塊、數(shù)字資源注冊(cè)模塊、數(shù)字資源檢索模塊、數(shù)字資源挖掘模塊、第三方注冊(cè)管理模塊。
[0009]標(biāo)識(shí)解析服務(wù)子系統(tǒng)實(shí)現(xiàn)對(duì)數(shù)字資源標(biāo)識(shí)的不同粒度解析和服務(wù),包括標(biāo)識(shí)多重解析模塊、解析策略管理模塊、第三方編碼解析模塊、系統(tǒng)管理模塊。
【附圖說(shuō)明】
[0010]圖1是數(shù)字資源標(biāo)識(shí)XML定義文件結(jié)構(gòu)示意圖
[0011]圖2是數(shù)字資源標(biāo)識(shí)裝置功能模塊圖
[0012]圖3是數(shù)字資源標(biāo)識(shí)裝置訪問(wèn)接口圖
【具體實(shí)施方式】
[0013]下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)描述。
[0014]本發(fā)明的第一個(gè)目的是提出一種基于XML的數(shù)字資源標(biāo)識(shí)方法,XMLD0I。本方法通過(guò)采用XML語(yǔ)言描述將數(shù)字資源編碼結(jié)構(gòu)化,每部分編碼對(duì)應(yīng)一個(gè)XML描述項(xiàng),能夠被計(jì)算機(jī)理解,知道這段編碼代表什么含義。這樣出版機(jī)構(gòu)先要提交符合統(tǒng)一標(biāo)準(zhǔn)的XML編碼定義文件,再按定義格式注冊(cè)數(shù)字資源編碼,使用時(shí),系統(tǒng)先讀取XML編碼定義文件,再解析數(shù)字資源標(biāo)識(shí)編碼。
[0015]圖1是本方法中數(shù)字資源標(biāo)識(shí)XML定義文件結(jié)構(gòu)示意圖,如圖1所示,本方法對(duì)數(shù)字資源編碼采用分層結(jié)構(gòu)化設(shè)計(jì),將編碼通過(guò)分層結(jié)構(gòu)化在多個(gè)編碼項(xiàng)上賦予語(yǔ)義,以利于后續(xù)資源定位和應(yīng)用。XMLDOI編碼采用標(biāo)準(zhǔn)的XML定義文件模式,將編碼分為三部分:唯一標(biāo)識(shí)部分IDSegment,外部特征標(biāo)識(shí)部分ExtSegment,內(nèi)容特征標(biāo)識(shí)部分IntSegment,在每一部分中通過(guò)多個(gè)編碼項(xiàng)描述相應(yīng)的編碼內(nèi)容,編碼項(xiàng)有保留編碼項(xiàng)和出版機(jī)構(gòu)自定義編碼項(xiàng)。
[0016]唯一標(biāo)識(shí)部分IDSegment的編碼項(xiàng)共同描述了該數(shù)字資源在全球的唯一性,由機(jī)構(gòu)編碼和機(jī)構(gòu)內(nèi)唯一代碼兩個(gè)保留編碼項(xiàng)組成。機(jī)構(gòu)編碼在出版機(jī)構(gòu)通過(guò)本裝置注冊(cè)時(shí)統(tǒng)一分配,保證機(jī)構(gòu)編碼的唯一性,機(jī)構(gòu)內(nèi)唯一代碼是指出版機(jī)構(gòu)注冊(cè)出版內(nèi)容時(shí),在本機(jī)構(gòu)內(nèi)按自定義規(guī)則分配的唯一代碼,這兩部分編碼組合在一起,實(shí)現(xiàn)對(duì)出版內(nèi)容的準(zhǔn)確定位。
[0017]外部特征標(biāo)識(shí)部分通過(guò)多個(gè)保留編碼項(xiàng),定義該資源的各種外部特征,包括:編碼項(xiàng)Language定義該資源使用的語(yǔ)言;編碼項(xiàng)Type定義該資源的出版載體類型;編碼項(xiàng)KScale定義資源的知識(shí)粒度,例如刊、文、章、節(jié)、段、定義、圖片;編碼項(xiàng)Author定義資源的作者;編碼項(xiàng)Date定義資源的出版時(shí)間;編碼項(xiàng)CopyrightPub定義資源版權(quán)當(dāng)前的所屬機(jī)構(gòu);編碼項(xiàng)IDFDOI定義資源的DOI編碼,保持與DOI編碼的兼容。除這些保留編碼項(xiàng)以夕卜,出版機(jī)構(gòu)可以根據(jù)需要,設(shè)計(jì)一些自定義編碼項(xiàng)和下級(jí)編碼項(xiàng)。
[0018]內(nèi)容特征標(biāo)識(shí)部分通過(guò)多個(gè)保留編碼項(xiàng),描述該資源的主要內(nèi)容,包括:編碼項(xiàng)Title定義資源的標(biāo)題;編碼項(xiàng)Keywords定義資源的關(guān)鍵詞序列;編碼項(xiàng)Domain定義資源所屬的研究領(lǐng)域。除這些保留編碼項(xiàng)以外,出版機(jī)構(gòu)可以根據(jù)需要,設(shè)計(jì)一些自定義編碼項(xiàng)和下級(jí)編碼項(xiàng)。
[0019]本發(fā)明的第二個(gè)目的是提出一種基于XML的數(shù)字資源標(biāo)識(shí)裝置20,本裝置功能模塊如圖2所示,包括兩部分:數(shù)字資源標(biāo)識(shí)注冊(cè)管理子系統(tǒng)21和數(shù)字資源標(biāo)識(shí)解析服務(wù)子系統(tǒng)22。標(biāo)識(shí)注冊(cè)管理子系實(shí)現(xiàn)對(duì)出版機(jī)構(gòu)注冊(cè)管理和數(shù)字資源標(biāo)識(shí)注冊(cè)管理,包括出版機(jī)構(gòu)管理模塊216、標(biāo)識(shí)分配管理模塊211、數(shù)字資源注冊(cè)模塊212、數(shù)字資源檢索模塊213、數(shù)字資源挖掘模塊214、第三方注冊(cè)管理模塊215。
[0020]出版機(jī)構(gòu)管理模塊216實(shí)現(xiàn)對(duì)出版機(jī)構(gòu)注冊(cè),分配唯一的機(jī)構(gòu)編碼,對(duì)出版機(jī)構(gòu)信息進(jìn)行編輯和管理。
[0021]標(biāo)識(shí)分配管理模塊211按數(shù)字資源標(biāo)識(shí)方法,為成功注冊(cè)的出版機(jī)構(gòu)分配資源標(biāo)識(shí)碼段,并對(duì)分配機(jī)制和分配結(jié)果進(jìn)行合法性檢測(cè)和管理。
[0022]數(shù)字資源注冊(cè)模塊212接收出版機(jī)構(gòu)對(duì)數(shù)字資源的標(biāo)識(shí)注冊(cè)請(qǐng)求,對(duì)資源進(jìn)行重復(fù)性檢測(cè),合格后注冊(cè)標(biāo)識(shí)碼,返回注冊(cè)成功信息。
[0023]數(shù)字資源檢索模塊213為出版機(jī)構(gòu)和作者、讀者提供對(duì)已注冊(cè)數(shù)字資源的查詢,促進(jìn)數(shù)字資源的直接使用、傳播