一種基于元數據的跨機構云端數字內容集成系統(tǒng)和方法
【專利摘要】本發(fā)明公開了一種基于元數據的跨機構云端數字內容集成系統(tǒng)和方法,系統(tǒng)包括元數據提取模塊、元數據公有云存儲模塊、檢索排序模塊、數字內容訪問模塊和質量評估模塊;元數據提取模塊掃描原始數字內容生成元數據;元數據公有云存儲模塊接收并存儲非重復元數據;檢索排序模塊根據關鍵字和/或查詢字段進行元數據查詢,依據相關性程度和質量評估結果將元數據排序;數字內容訪問模塊對元數據進行地址解析生成數字內容地址,具有訪問權限的用戶根據地址查看或下載原始數字內容;質量評估模塊對質量評估結果進行更新。實施本發(fā)明可將各機構的數字內容以元數據作為紐帶有效整合到一起集中管理,并提供基于元數據的跨機構檢索服務,安全性好,可擴展性強。
【專利說明】一種基于元數據的跨機構云端數字內容集成系統(tǒng)和方法
【技術領域】
[0001]本發(fā)明屬于云存儲和信息檢索交叉【技術領域】,具體涉及一種基于元數據的跨機構云端數字內容集成系統(tǒng)和方法。
【背景技術】
[0002]隨著數字信息化革命的不斷深入,數字內容也呈現指數級的增長趨勢,對全球的政治、經濟、文化和科技等各方面都產生了革命性影響。目前,很多機構都擁有海量的數字內容,但考慮到數據的安全性和隱私保護等問題,采取封閉方式管理各自的數據資源,從而無法從全局層面有效整合數據資源,最終導致“信息”孤島的出現。數字內容的整合是信息產業(yè)發(fā)展的必然趨勢,如何實現跨機構的數字內容云整合,將各個機構的數字內容以一個統(tǒng)一整體向用戶展示,從而擴大數字內容的共享范圍,已成為重要的研究課題。
[0003]云存儲通過集群應用、網格技術或分布式文件系統(tǒng)等功能,將網絡中大量異構存儲設備通過應用軟件集合起來協(xié)同工作,共同提供數據存儲和業(yè)務訪問功能。云存儲具有諸多獨特優(yōu)勢,例如支持海量存儲及動態(tài)擴展、數據備份高效、性價比高等。目前,數字內容往往孤立地保存在機構內部。目前許多機構尚不愿意把數字內容完全轉移到公有的云存儲平臺上,將數字內容全部保存到云存儲平臺上,盡管可以大家?guī)肀憷c此同時也意味著數字內容控制權的轉移,數據的訪問和控制權完全由公有云存儲服務商掌握,這是很多企業(yè)難以接受的方案。因而很難推動用公有云存儲將各個機構的數據集中存儲,導致跨機構間數字內容無法共享。最終,各機構擁有的數字內容平均利用率極低,無法最大限度地發(fā)揮數字內容的潛在價值。
【發(fā)明內容】
[0004]針對現有技術的以上缺陷或改進需求,本發(fā)明提供了一種基于元數據的跨機構云端數字內容集成系統(tǒng)和方法,該系統(tǒng)和方法可將各機構的數字內容以元數據作為紐帶有效地整合到一起集中管理,并提供基于元數據的跨機構的檢索服務,安全性好,可擴展性強。
[0005]本發(fā)明解決其技術問題所采用的技術方案是,提供一種基于元數據的跨機構云端數字內容集成系統(tǒng),包括元數據提取模塊、元數據公有云存儲模塊、檢索排序模塊、數字內容訪問模塊和質量評估模塊,
[0006]所述元數據提取模塊用于掃描各機構原始數字內容以生成元數據,并將元數據傳輸到兀數據公有云存儲模塊;
[0007]所述元數據公有云存儲模塊用于接收元數據提取模塊發(fā)送的元數據,并以輪詢的方式將非重復元數據存儲到指定的M個存儲節(jié)點;
[0008]所述檢索排序模塊用于根據用戶輸入的查詢關鍵字和/或元數據的查詢字段在元數據公有云存儲模塊中進行元數據查詢,并依據相關性程度和質量評估結果將所述元數據排序后返回給用戶;
[0009]所述數字內容訪問模塊用于對用戶查詢到的欲訪問的元數據進行地址解析生成數字內容的在線訪問地址,具有訪問權限的用戶根據所述數字內容的在線訪問地址查看或下載對應的原始數字內容;
[0010]所述質量評估模塊用于根據用戶在線瀏覽時長和是否下載對訪問過的原始數字內容的元數據進行質量評估,用戶訪問結束后在元數據公有云存儲模塊中更新該元數據的質量評估結果。
[0011]在本發(fā)明所述的基于元數據的跨機構云端數字內容集成系統(tǒng)中,所述元數據公有云存儲模塊包括初始化模塊、存儲記錄文件生成模塊、緩存模塊和哈希函數值比對模塊,
[0012]所述初始化模塊用于初始化存儲節(jié)點ID為任意存儲節(jié)點的唯一標示符;
[0013]所述存儲記錄文件生成模塊用于導入元數據存儲記錄文件,若該文件不存在則新建空的元數據存儲記錄文件;
[0014]所述緩存模塊用于收集元數據提取模塊傳送的元數據并暫存于緩沖池中;
[0015]所述哈希函數值比對模塊用于從緩沖池中任取t條元數據并生成對應的哈希函數值;將所述t條元數據的哈希函數值依次與存儲記錄文件中每條記錄中的哈希函數值進行比對,如果存儲記錄文件中不存在與之相同的哈希函數值,則向存儲記錄文件末尾添加新記錄并將元數據存儲至存儲節(jié)點ID指定的存儲節(jié)點,更新存儲節(jié)點ID為下一個存儲節(jié)點的唯一標示符;如果存儲記錄文件中存在與之相同的哈希函數值,則忽略當前元數據并進行下一條元數據的哈希函數值比對,直至存儲完所有非重復元數據。
[0016]在本發(fā)明所述的基于元數據的跨機構云端數字內容集成系統(tǒng)中,所述檢索排序模塊包括檢索請求模塊、分布式元數據檢索模塊和元數據綜合排序模塊,
[0017]所述檢索請求模塊用于接收用戶輸入的查詢關鍵字和/或元數據的查詢字段,并傳送給分布式元數據檢索模塊;接收元數據綜合排序模塊生成的相關元數據列表,將相關元數據列表中的元數據呈現給用戶,以供用戶選擇感興趣的元數據并請求訪問對應的數字內容;
[0018]所述分布式元數據檢索模塊用于根據用戶輸入的查詢關鍵字和/或元數據的查詢字段并行地在M個存儲節(jié)點上存儲的元數據集合中搜索相關的元數據,并按照相關度進行排序后分別為M個存儲節(jié)點生成元數據列表;
[0019]所述元數據綜合排序模塊用于結合各元數據的質量評估結果對M個元數據列表中相關度較大的元數據進行整體排序后生成相關元數據列表。
[0020]在本發(fā)明所述的基于元數據的跨機構云端數字內容集成系統(tǒng)中,所述數字內容訪問模塊包括元數據地址解析模塊、權限管理模塊、在線瀏覽和下載模塊,
[0021]所述元數據地址解析模塊用于對用戶查詢到的欲訪問的元數據進行地址解析生成數字內容的在線訪問地址;
[0022]所述權限管理模塊用于確認和保存用戶對非免費的數字內容的訪問權限;
[0023]所述在線瀏覽和下載模塊,用于在用戶被確定具有訪問權限后,依據所述數字內容的在線訪問地址在線瀏覽和下載對應的原始數字內容。
[0024]在本發(fā)明所述的基于元數據的跨機構云端數字內容集成系統(tǒng)中,所述原始數字內容的元數據為XML格式文件,所述元數據的字段為數字內容文件名、創(chuàng)建者、創(chuàng)建時間、文件主題、文件格式信息、文件描述、文件的URL、機構名稱、機構業(yè)務范圍、數字內容的訪問價格、訪問計數、質量評估結果和備用字段中的一種或多種。[0025]相應地,本發(fā)明還提供了一種基于元數據的跨機構云端數字內容集成方法,所述方法包括以下步驟:
[0026]S1、掃描各機構原始數字內容并生成元數據;
[0027]S2、以輪詢的方式將非重復元數據存儲到指定的M個存儲節(jié)點;
[0028]S3、根據用戶輸入的查詢關鍵字和/或元數據的查詢字段進行元數據查詢,并依據相關性程度和質量評估結果將所述元數據排序后返回給用戶;
[0029]S4、對用戶查詢到的欲訪問的元數據進行地址解析生成數字內容的在線訪問地址,具有訪問權限的用戶根據所述數字內容的在線訪問地址查看或下載對應的原始數字內容;
[0030]S5、根據用戶在線瀏覽時長和是否下載對訪問過的原始數字內容的元數據的質量評估結果進行更新。
[0031]在本發(fā)明所述的基于元數據的跨機構云端數字內容集成方法中,所述步驟S2包括以下子步驟:
[0032]S21、初始化存儲節(jié)點ID為任意存儲節(jié)點的唯一標示符;
[0033]S22、導入元數據存儲記錄文件,若該文件不存在則新建空記錄文件并存儲;
[0034]S23、收集元數據提取模塊傳送過來的所有元數據并暫存于緩沖池中;
[0035]S24、從緩沖池中任取t條元數據并生成對應的哈希函數值;
[0036]S25、將所述t條元數據的哈希函數值依次與存儲記錄文件中每條記錄中的哈希函數值進行比對,如果存儲記錄文件中不存在與之相同的哈希函數值,則向存儲記錄文件末尾添加新記錄并將元數據存儲至存儲節(jié)點ID指定的存儲節(jié)點,更新存儲節(jié)點ID為下一個存儲節(jié)點的唯一標示符;如果存儲記錄文件中存在與之相同的哈希函數值,則忽略當前元數據并進行下一條元數據的哈希函數值比對,直至存儲完所有非重復元數據。
[0037]在本發(fā)明所述的基于元數據的跨機構云端數字內容集成方法中,所述步驟S3包括以下子步驟:
[0038]S31、根據用戶輸入的查詢關鍵字和/或元數據的查詢字段并行地在M個存儲節(jié)點上存儲的元數據集合中搜索相關的元數據,并按照相關度進行排序后分別為M存儲節(jié)點生成元數據列表;
[0039]S32、結合各元數據的質量評估結果對M個元數據列表中相關度較大的元數據進行整體排序后生成相關元數據列表;
[0040]S33、將相關元數據列表中的元數據呈現給用戶,以供用戶選擇感興趣的元數據并請求訪問對應的數字內容。
[0041]在本發(fā)明所述的基于元數據的跨機構云端數字內容集成方法中,所述步驟S4包括以下子步驟:
[0042]S41、對用戶查詢到的欲訪問的元數據進行地址解析,生成對應的數字內容的在線訪問地址;
[0043]S42、判斷用戶是否具有訪問權限,若用戶具有訪問權限,則依據所述數字內容的在線訪問地址在線瀏覽和下載對應的原始數字內容。
[0044]在本發(fā)明所述的基于元數據的跨機構云端數字內容集成方法中,所述原始數字內容的元數據為XML格式文件,所述元數據的字段為數字內容文件名、創(chuàng)建者、創(chuàng)建時間、文件主題、文件格式信息、文件描述、文件的URL、機構名稱、機構業(yè)務范圍、數字內容的訪問價格、訪問計數、質量評估結果和備用字段中的一種或多種。
[0045]因此,本發(fā)明可以獲得以下的有益效果:
[0046]1、通過本發(fā)明系統(tǒng)中的元數據提取模塊和元數據公有云存儲模塊,可將各機構中的數字內容以元數據作為紐帶有效地整合到一起進行集中管理,且各機構的數字內容以云存儲形式存放在企業(yè)內部,數字內容的安全策略完全由企業(yè)自己掌控,消除企業(yè)機構對其數字內容的云存儲安全顧慮,有助于跨機構數字內容集成的推廣;
[0047]2、公有云的元數據涵蓋所有集成進來企業(yè)的數字內容元數據描述,檢索排序模塊為用戶提供基于元數據的檢索服務,并用統(tǒng)一查詢界面向用戶呈現,使得用戶搜索感興趣內容更為便捷;各機構仍對各自的原始數據內容有絕對的控制權,無須擔憂數據安全和隱私保護問題,還可享受因提供數字內容共享服務帶來盈利;
[0048]3、各企業(yè)機構的數字內容集成,不僅可以解決企業(yè)私有內容的“信息孤島”問題,同時可以增加內容的規(guī)模和多樣性,進而提升了數字內容的價值,促進數字內容的有效共享,本發(fā)明系統(tǒng)可擴展性強,新數字內容的加入只需要提供元數據,元數據的公有云存儲模塊可隨時擴容;同時因考慮了用戶在訪問時產生的行為數據,基于元數據的檢索服務也更準確。
【專利附圖】
【附圖說明】
[0049]下面將結合附圖及實施例對本發(fā)明作進一步說明,附圖中:
[0050]圖1是本發(fā)明基于元數據的跨機構云端數字內容集成系統(tǒng)結構示意圖;
[0051]圖2是本發(fā)明基于元數據的跨機構云端數字內容集成系統(tǒng)各模塊信息交互圖;
[0052]圖3是本發(fā)明系統(tǒng)中元數據公有云存儲模塊工作流程圖;
[0053]圖4是本發(fā)明基于元數據檢索的實現框圖。
【具體實施方式】
[0054]為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術特征只要彼此之間未構成沖突就可以相互組合。
[0055]圖1是本發(fā)明基于元數據的跨機構云端數字內容集成系統(tǒng)結構示意圖,圖2是本發(fā)明基于元數據的跨機構云端數字內容集成系統(tǒng)各模塊信息交互圖。如圖1和圖2所示,本發(fā)明所述系統(tǒng)包括元數據提取模塊、元數據公有云存儲模塊、檢索排序模塊、數字內容訪問模塊和質量評估模塊。
[0056]其中,元數據提取模塊從各機構的私有云中提取原始數字內容的相關屬性作為元數據,然后將元數據上傳至所有機構共享的元數據公有云存儲模塊。元數據應符合XML文件的格式,元數據的字段包括〈數字內容文件名I創(chuàng)建者I創(chuàng)建時間I文件主題I文件格式信息I文件描述I文件的URLl機構名稱I機構業(yè)務范圍I數字內容的訪問價格I訪問計數I質量評估結果I備用字段〉,數字內容的訪問價格可人工設定,訪問統(tǒng)計和質量評估結果字段在這里初始化為0,其他缺失的字段可空白處理。[0057]元數據公有云存儲模塊通過計算元數據的哈希函數值來判斷是否為重復的元數據,且僅存儲非重復的元數據到指定的M個存儲節(jié)點。元數據公有云存儲模塊把元數據以輪詢的方式分配到各個存儲節(jié)點上,為元數據計算哈希函數值,并將元數據的哈希函數值作為唯一性標示符,用來判斷元數據是否重復,忽略重復的元數據,僅存儲非重復的元數據。元數據公有云存儲模塊包括初始化模塊、存儲記錄文件生成模塊、緩存模塊和哈希函數值比對模塊。如圖3所示,本發(fā)明一個優(yōu)選實施例中,元數據公有云存儲模塊工作流程為:
[0058]S1、初始化模塊初始化存儲節(jié)點ID為I號存儲節(jié)點的唯一標示符,獲取元數據公有云存儲節(jié)點總數目M ;
[0059]S2、判斷系統(tǒng)是否有存儲記錄文件,若無存儲記錄文件,存儲記錄文件生成模塊新建空記錄文件;若有存儲記錄文件,則向存儲記錄文件生成模塊中導入元數據存儲記錄文件;
[0060]S3、緩存模塊收集元數據提取模塊發(fā)送的所有元數據并暫存于緩沖池中;
[0061]S4、判斷公有云存儲模塊是否需要存儲元數據,如無需繼續(xù)存儲元數據,結束本工作流程;如果需要繼續(xù)存儲元數據,則判斷緩沖池中是否有效存儲了元數據提取模塊發(fā)送的元數據,如緩沖池中無元數據,則返回步驟S3;如緩沖池成功存儲了元數據提取模塊發(fā)送的所有元數據,則執(zhí)行步驟S5 ;
[0062]S5、哈希函數值比對模塊從緩沖池中任取t(t〈=Q)條元數據并生成對應的哈希函數值(Q為每次批處理元數據數目的上限),若緩存沖池中元數據數目不少于Q,則取出Q條,否則取出緩沖池中所剩的t條元數據);,如果緩沖池中已無數據,則執(zhí)行步驟S4 ;
[0063]S6、哈希函數值比對模塊串行式處理得到的t條元數據的哈希函數值:依次與已存元數據的存儲記錄文件中的每條記錄中的哈希函數值進行比對,如果存儲記錄文件中不存在與之相同的哈希函數值,則將新紀錄〈當前元數據哈希函數值,存儲節(jié)點ID>追加到存儲記錄文件末尾,將元數據的文件名修改為“哈希函數值_存儲節(jié)點ID.xml”,將元數據存儲至存儲節(jié)點ID指定的存儲節(jié)點,更新存儲節(jié)點ID為下一個存儲節(jié)點的唯一標示符;如果存儲記錄文件中存在與之相同的哈希函數值,則忽略當前元數據并進行下一條元數據的哈希函數值比對;當處理完t條元數據后,返回步驟S5。
[0064]上述哈希函數算法可采用MD5、SHA-256等算法,由于這類哈希函數算法出現碰撞(即不同的數據有相同的哈希函數值)的概率微乎其微,可以忽略不計,因此用于檢測元數據的重復性是可以接受的。在用哈希函數值判斷元數據是否重復時,可利用存儲記錄上的哈希函數值構建二次排序等樹形結構以加快判定速度。
[0065]檢索排序模塊用于根據用戶輸入的查詢關鍵字和/或元數據的查詢字段進行元數據查詢,并依據相關性程度和質量評估結果將所述元數據排序后返回給用戶。檢索排序模塊包括檢索請求模塊、分布式元數據檢索模塊和元數據綜合排序模塊,用戶在檢索請求模塊輸入查詢關鍵字和指定的元數據字段,分布式元數據檢索模塊根據用戶輸入的查詢關鍵字和/或元數據的查詢字段并行地在M個存儲節(jié)點上存儲的元數據集合中搜索相關的元數據,并按照相關度進行排序后分別為M個存儲節(jié)點生成元數據列表;元數據綜合排序模塊結合各元數據的質量評估結果對M個元數據列表中相關度較大的元數據進行整體排序后生成相關元數據列表,相關元數據列表中的元數據按序從上到下展現給用戶,使得用戶可以在包含多個機構的元數據的公有云上檢索到相關的元數據并請求訪問對應的數字內容。
[0066]檢索請求模塊、分布式檢索模塊和元數據綜合排序模塊相互協(xié)作,用于滿足用戶快速檢索相關元數據的需求,其交互示意圖如圖4所示。
[0067]用戶在檢索請求模塊輸入關鍵詞、元數據的查詢字段后,分布式元數據檢索模塊中的每個檢索部件并行地在各個存儲節(jié)點上存儲的元數據集合中搜索出相關的元數據,并按照相關度進行排序后為每個存儲節(jié)點生成M個元數據列表;如果用戶指定了元數據的查詢字段,則只會在元數據的特定字段上與關鍵詞匹配,若果用戶未指定元數據的查詢字段否則會在元數據的所有字段上進行匹配,發(fā)現相關的任何字段便作為相關數據返回。其中,相似度的計算方式如下:按最長匹配模式將元數據的每個字段與每個關鍵詞進行匹配,對長度為L的關鍵詞而言,每次匹配上關鍵詞的長度為η (O < n≤ L)的字串就為該元數據的相關度加上ηΧ α (O < α < I),直到搜尋完元數據的所有字段為止。
[0068]元數據綜合排序模塊比較M個元數據列表中的最前面和最末尾的元數據相關度,即可得到此次檢索結果的相關度的最大值Smax和最小值Smin,再將區(qū)間[Smin,SfflaJ等分為R個區(qū)間并將區(qū)間邊存儲到長度為R+1的數組[%,B1,, aE]。此時,清空排序緩沖區(qū),將每個元數據列表中相關度介于Lai+ a,]之間的元數據(選取相關度較大的元數據)加入排序緩沖區(qū),將排序緩沖區(qū)的元數據按照元數據公有存儲模塊中的質量評估結果從高到底地進行排序。
[0069]檢索請求模塊接收相關元數據的排序列表后展現給用戶,用戶可自行選擇最感興趣的元數據并請求訪問對應的數字內容。
[0070]所述數字內容訪問模塊對用戶查詢到的元數據進行地址解析生成數字內容的在線訪問地址,具有訪問權限的用戶根據所述數字內容的在線訪問地址查看或下載對應的原始數字內容。數字內容訪問模塊包括權限管理模塊、在線瀏覽和下載模塊和元數據地址解析模塊。元數據地址解析模塊、權限管理模塊、在線瀏覽和下載模塊協(xié)同工作,使得具有訪問權限的用戶可以通過元數據訪問到各機構私有云中的數字內容。
[0071]元數據地址解析模塊從用戶感興趣的元數據中提取出“文件的URL”字段,即數字內容的在線訪問地址;用戶在在線瀏覽和下載模塊通過該數字內容的在線訪問地址發(fā)送數字內容訪問請求;
[0072]權限管理模塊對用戶的認證信息和權限信息進行確認,以確保只有訪問權限的用戶才能獲取元數據地址解析模塊給出的數字內容線訪問地址,并通過在線瀏覽和下載模塊下載對應的原始數字內容。權限管理模塊內部長期維護一個訪問權限表(表中記錄對與元數據對應的非免費數字內容具有訪問權的用戶),用戶在訪問任何數字內容前必須向該模塊輸入認證信息以登錄系統(tǒng),權限管理模塊在接收到用戶的訪問請求后根據元數據的“數字內容的訪問價格”字段決定用戶是否可免費訪問,如果可以免費訪問則直接獲得訪問權限;否則查詢訪問權限表判斷該用戶是否在以前已經具有了訪問權限,如果沒查詢到用戶對該數字內容的訪問權限,則用戶必須在付出相應的代價后(付費后)才能獲取對應的訪問權限,且訪問權限表會增添該用戶相關的訪問權限記錄。其中,訪問權限表中的每條記錄的形式為〈元數據哈希函數值,用戶名,數字內容的訪問價格,獲得訪問權限的時間>。
[0073]如果用戶獲得訪問權限,則數字內容所在的機構就會把用戶請求訪問的數字內容發(fā)送到在線瀏覽和下載模塊供用戶瀏覽或下載;如果用戶未獲得訪問權限,則拒絕訪問;訪問結束后將用戶在在線瀏覽和下載模塊上產生的用戶行為數據(在線瀏覽時間和是否下載)傳遞給質量評估模塊。
[0074]質量評估模塊接收用戶在在線瀏覽和下載模塊上產生的用戶行為數據,根據在線瀏覽時間越長、下載次數越多則質量越高的原則對元數據進行質量評估,據此更新元數據公有存儲模塊中對應元數據的質量評估結果;本發(fā)明一個優(yōu)選的計算策略如下:①讀取元數據的“訪問計數”字段的數值8,令Sl=S+l ;②讀取元數據的“質量評估結果”字段的數字r,令T1=S X r ;③如果用戶在線瀏覽數字內容的時間t超過閾值T,則認為該數字內容質量還不錯,并更新^汴^ (O < β < I) 如果用戶下載了該數字內容,則認為該數字內容質量較高,并更新m+Y (β < Y ^ D ;(D更新m/sD則η為該數字內容的質量評估結果。根據元數據的文件名,可以順利從元數據公有云存儲模塊中找到該元數據,然后用S1更新“訪問計數”字段,用^更新對應的元數據的“質量評估結果”字段。
[0075]通過本發(fā)明基于元數據的跨機構云端數字內容集成系統(tǒng)和方法,可以將各機構的數字內容以元數據作為紐帶有效地整合到一起集中管理,并提供基于元數據的跨機構的檢索服務,各機構仍對各自的原始數據內容有絕對的控制權,無須擔憂數據安全和隱私保護問題,還可享受因提供數字內容共享服務帶來盈利;本系統(tǒng)可擴展性強,新數字內容的加入只需要提供元數據,元數據的公有云存儲模塊可隨時擴容;同時因考慮了用戶的行為數據,基于元數據的檢索服務也更準確。
[0076]本領域的技術人員容易理解,以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范 圍之內。
【權利要求】
1.一種基于元數據的跨機構云端數字內容集成系統(tǒng),包括元數據提取模塊、元數據公有云存儲模塊、檢索排序模塊、數字內容訪問模塊和質量評估模塊,其特征在于, 所述元數據提取模塊用于掃描各機構原始數字內容以生成元數據,并將元數據傳輸到元數據公有云存儲模塊; 所述元數據公有云存儲模塊用于接收元數據提取模塊發(fā)送的元數據,并以輪詢的方式將非重復元數據存儲到指定的M個存儲節(jié)點; 所述檢索排序模塊用于根據用戶輸入的查詢關鍵字和/或元數據的查詢字段在元數據公有云存儲模塊中進行元數據查詢,并依據相關性程度和質量評估結果將所述元數據排序后返回給用戶; 所述數字內容訪問模塊用于對用戶查詢到的欲訪問的元數據進行地址解析生成數字內容的在線訪問地址,具有訪問權限的用戶根據所述數字內容的在線訪問地址查看或下載對應的原始數字內容; 所述質量評估模塊用于根據用戶在線瀏覽時長和是否下載對訪問過的原始數字內容的元數據進行質量評估,用戶訪問結束后在元數據公有云存儲模塊中更新該元數據的質量評估結果。
2.如權利要求1所述的基于元數據的跨機構云端數字內容集成系統(tǒng),其特征在于,所述元數據公有云存儲模塊包括初始化模塊、存儲記錄文件生成模塊、緩存模塊和哈希函數值比對模塊, 所述初始化模塊用于初始化存儲節(jié)點ID為任意存儲節(jié)點的唯一標示符; 所述存儲記錄文件生成模塊用于導入元數據存儲記錄文件,若該文件不存在則新建空的元數據存儲記錄文件; 所述緩存模塊用于收集元數據提取模塊傳送的元數據并暫存于緩沖池中; 所述哈希函數值比對模塊用于從緩沖池中任取t條元數據并生成對應的哈希函數值;將所述t條元數據的哈希函數值依次與存儲記錄文件中每條記錄中的哈希函數值進行比對,如果存儲記錄文件中不存在與之相同的哈希函數值,則向存儲記錄文件末尾添加新記錄并將元數據存儲至存儲節(jié)點ID指定的存儲節(jié)點,更新存儲節(jié)點ID為下一個存儲節(jié)點的唯一標示符;如果存儲記錄文件中存在與之相同的哈希函數值,則忽略當前元數據并進行下一條元數據的哈希函數值比對,直至存儲完所有非重復元數據。
3.如權利要求2所述的基于元數據的跨機構云端數字內容集成系統(tǒng),其特征在于,所述檢索排序模塊包括檢索請求模塊、分布式元數據檢索模塊和元數據綜合排序模塊, 所述檢索請求模塊用于接收用戶輸入的查詢關鍵字和/或元數據的查詢字段,并傳送給分布式元數據檢索模塊;接收元數據綜合排序模塊生成的相關元數據列表,將相關元數據列表中的元數據呈現給用戶,以供用戶選擇感興趣的元數據并請求訪問對應的數字內容; 所述分布式元數據檢索模塊用于根據用戶輸入的查詢關鍵字和/或元數據的查詢字段并行地在M個存儲節(jié)點上存儲的元數據集合中搜索相關的元數據,并按照相關度進行排序后分別為M個存儲節(jié)點生成元數據列表; 所述元數據綜合排序模塊用于結合各元數據的質量評估結果對M個元數據列表中相關度較大的元數據進行整體排序后生成相關元數據列表。
4.如權利要求3所述的基于元數據的跨機構云端數字內容集成系統(tǒng),其特征在于,所述數字內容訪問模塊包括元數據地址解析模塊、權限管理模塊、在線瀏覽和下載模塊, 所述元數據地址解析模塊用于對用戶查詢到的欲訪問的元數據進行地址解析生成數字內容的在線訪問地址; 所述權限管理模塊用于確認和保存用戶對非免費的數字內容的訪問權限; 所述在線瀏覽和下載模塊,用于在用戶被確定具有訪問權限后,依據所述數字內容的在線訪問地址在線瀏覽和下載對應的原始數字內容。
5.如權利要求1或2或3或4所述的基于元數據的跨機構云端數字內容集成系統(tǒng),其特征在于,所述原始數字內容的元數據為XML格式文件,所述元數據的字段為數字內容文件名、創(chuàng)建者、創(chuàng)建時間、文件主題、文件格式信息、文件描述、文件的URL、機構名稱、機構業(yè)務范圍、數字內容的訪問價格、訪問計數、質量評估結果和備用字段中的一種或多種。
6.一種基于元數據的跨機構云端數字內容集成方法,其特征在于,所述方法包括以下步驟: . 51、掃描各機構原始數字內容并生成元數據; . 52、以輪詢的方式將非重復元數據存儲到指定的M個存儲節(jié)點; . 53、根據用戶輸入的查詢關鍵字和/或元數據的查詢字段進行元數據查詢,并依據相關性程度和質量評估結果將所述元數據排序后返回給用戶; . 54、對用戶查詢到的欲訪問的元數據進行地址解析生成數字內容的在線訪問地址,具有訪問權限的用戶根據所述數字內容的在線訪問地址查看或下載對應的原始數字內容; . 55、根據用戶在線瀏覽時長和是否下載對訪問過的原始數字內容的元數據的質量評估結果進行更新。
7.如權利要求6所述的基于元數據的跨機構云端數字內容集成方法,其特征在于,所述步驟S2包括以下子步驟:. 521、初始化存儲節(jié)點ID為任意存儲節(jié)點的唯一標示符; . 522、導入元數據存儲記錄文件,若該文件不存在則新建空記錄文件并存儲; . 523、收集元數據提取模塊傳送過來的所有元數據并暫存于緩沖池中;. 524、從緩沖池中任取t條元數據并生成對應的哈希函數值; . 525、將所述t條元數據的哈希函數值依次與存儲記錄文件中每條記錄中的哈希函數值進行比對,如果存儲記錄文件中不存在與之相同的哈希函數值,則向存儲記錄文件末尾添加新記錄并將元數據存儲至存儲節(jié)點ID指定的存儲節(jié)點,更新存儲節(jié)點ID為下一個存儲節(jié)點的唯一標示符;如果存儲記錄文件中存在與之相同的哈希函數值,則忽略當前元數據并進行下一條元數據的哈希函數值比對,直至存儲完所有非重復元數據。
8.如權利要求7所述的基于元數據的跨機構云端數字內容集成方法,其特征在于,所述步驟S3包括以下子步驟: . 531、根據用戶輸入的查詢關鍵字和/或元數據的查詢字段并行地在M個存儲節(jié)點上存儲的元數據集合中搜索相關的元數據,并按照相關度進行排序后分別為M存儲節(jié)點生成元數據列表;. 532、結合各元數據的質量評估結果對M個元數據列表中相關度較大的元數據進行整體排序后生成相關元數據列表;S33、將相關元數據列表中的元數據呈現給用戶,以供用戶選擇感興趣的元數據并請求訪問對應的數字內容。
9.如權利要求8所述的基于元數據的跨機構云端數字內容集成方法,其特征在于,所述步驟S4包括以下子步驟: 541、對用戶查詢到的欲訪問的元數據進行地址解析,生成對應的數字內容的在線訪問地址; 542、判斷用戶是否具有訪問權限,若用戶具有訪問權限,則依據所述數字內容的在線訪問地址在線瀏覽和下載對應的原始數字內容。
10.如權利要求6或7或8或9所述的基于元數據的跨機構云端數字內容集成方法,其特征在于,所述原始數字內容的元數據為XML格式文件,所述元數據的字段為數字內容文件名、創(chuàng)建者、創(chuàng)建 時間、文件主題、文件格式信息、文件描述、文件的URL、機構名稱、機構業(yè)務范圍、數字內容的訪問價格、訪問計數、質量評估結果和備用字段中的一種或多種。
【文檔編號】H04L29/08GK103902705SQ201410127016
【公開日】2014年7月2日 申請日期:2014年3月31日 優(yōu)先權日:2014年3月31日
【發(fā)明者】鄒復好, 王云飛, 周可, 鄭勝, 李春花, 王樺, 張勝 申請人:華中科技大學