本發(fā)明涉及信息管理領(lǐng)域,特別是涉及一種基于大數(shù)據(jù)的高校圖書館數(shù)字資源共享方法。
背景技術(shù):
大數(shù)據(jù)的概念是隨著信息技術(shù)的不斷改進(jìn)被提出的,是由于利用傳統(tǒng)數(shù)據(jù)技術(shù)無(wú)法有效解決海量數(shù)據(jù)問(wèn)題,而出現(xiàn)的一種解決問(wèn)題的技術(shù)。美國(guó)自然雜志(Nature)早在2008年就推出了BigData?????茖W(xué)雜志(Science)在2011年2月推出??禗ealingwithData》,主要圍繞著科學(xué)研究中大數(shù)據(jù)問(wèn)題展開討論,說(shuō)明大數(shù)據(jù)對(duì)于科學(xué)研究的重要性。2011年5月,麥肯錫公司(MckinseyandCompany)發(fā)布了一份關(guān)于大數(shù)據(jù)的詳盡報(bào)告,報(bào)告中指出:數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素。2012年3月份美國(guó)奧巴馬政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》(BigDataResearchandDevelopmentInitiative),投資2億以上美元,正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”。計(jì)劃在科學(xué)研究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破。大數(shù)據(jù)目前尚沒(méi)有統(tǒng)一的定義,維基百科對(duì)大數(shù)據(jù)的定義為:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)了可容忍時(shí)間的數(shù)據(jù)集。百度百科上給出的大數(shù)據(jù)(bigdata)定義是:或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。
大數(shù)據(jù)是互聯(lián)網(wǎng)發(fā)展到一定階段的必然產(chǎn)物。隨著博客、微博、社交網(wǎng)絡(luò)的發(fā)展,以及云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起,互聯(lián)網(wǎng)上的數(shù)據(jù)正以前所未有的速度在不斷的增加和累積。當(dāng)前,一些高校圖書館的數(shù)據(jù)量已達(dá)到PB(1PB=1024TB)量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB(1EB=1024PB)量級(jí)。
數(shù)據(jù)的類型一般分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。隨著互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)類型早已不是單一的結(jié)構(gòu)化數(shù)據(jù)?;ヂ?lián)網(wǎng)用戶的互動(dòng),各種機(jī)構(gòu)的信息發(fā)布,物聯(lián)網(wǎng)傳感器感應(yīng)的實(shí)時(shí)信息每時(shí)每刻都在產(chǎn)生大量的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),這其中包括了大量的網(wǎng)絡(luò)日志、微博、音頻、視頻、圖片、郵件、地理位置信息等大量的半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。
涉及到交流、感應(yīng)、傳輸、決策等的大數(shù)據(jù),對(duì)數(shù)據(jù)快速處理有著極高的要求。大數(shù)據(jù)里面很多是實(shí)時(shí)數(shù)據(jù),像微博、社會(huì)網(wǎng)絡(luò)、SNS這些,需要對(duì)它們進(jìn)行即時(shí)的分析和處理。
數(shù)據(jù)的價(jià)值大小與數(shù)據(jù)總量的大小成反比。當(dāng)然,大數(shù)據(jù)中有很多垃圾數(shù)據(jù),只有一些有用的數(shù)據(jù)隱藏在大數(shù)據(jù)里面。這些有用的大數(shù)據(jù)中蘊(yùn)含了對(duì)經(jīng)濟(jì)、科技、教育等領(lǐng)域非常寶貴的信息,大數(shù)據(jù)的研究就是通過(guò)數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等方式將這些數(shù)據(jù)進(jìn)行整理、分析,形成有價(jià)值的數(shù)據(jù)產(chǎn)品。
高校圖書館聯(lián)盟的數(shù)字資源具有不同域互聯(lián)網(wǎng)大數(shù)據(jù)的獨(dú)特特征:
一是隨著高校圖書館數(shù)字化建設(shè)的深入以及在Web2.0時(shí)代用戶對(duì)高校圖書館的文獻(xiàn)資源數(shù)字化需求的提高,單個(gè)高校圖書館的數(shù)字資源雖然不具備具有了“大數(shù)據(jù)”的特征,但高校圖書館聯(lián)盟的數(shù)字資源在已經(jīng)具有了“大數(shù)據(jù)”的特征。二是高校圖書館的數(shù)字資源總量在不斷的增長(zhǎng)之中,伴隨著高校圖書館的數(shù)字資源用戶的增加,用戶信息以及訪問(wèn)信息,高校圖書館對(duì)用戶進(jìn)行服務(wù)的信息也是在不斷產(chǎn)生非結(jié)化數(shù)據(jù),高校圖書館聯(lián)盟的數(shù)字資源和服務(wù)信息產(chǎn)生的非結(jié)化數(shù)據(jù)是個(gè)海量的數(shù)據(jù)集。三是隨著信息技術(shù)的發(fā)展,用戶對(duì)高校圖書館的數(shù)字資源的信息服務(wù)的要求也在不斷的提高,不再僅僅局限于對(duì)數(shù)字資源的的查詢、查找等一些常規(guī)的信息服務(wù),轉(zhuǎn)向更深層次的對(duì)數(shù)字資源的數(shù)據(jù)挖掘與數(shù)據(jù)分析。高校圖書館聯(lián)盟必須根據(jù)用戶的需求做出數(shù)字資源的信息服務(wù)策略的改變,以迎合用用戶對(duì)數(shù)字資源的信息服務(wù)要求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于大數(shù)據(jù)的高校圖書館數(shù)字資源共享方法。
本發(fā)明的目的可以通過(guò)以下技術(shù)方案實(shí)現(xiàn):
一種基于大數(shù)據(jù)的高校圖書館數(shù)字資源共享方法,包括:
步驟S1,采用基于Flume的分布式大數(shù)據(jù)采集,使用大數(shù)據(jù)軟件flume,負(fù)責(zé)從各節(jié)點(diǎn)上實(shí)時(shí)采集數(shù)據(jù),實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的采集;
步驟S2,采用基于kafka的數(shù)據(jù)接入,使用消息中間件kafka來(lái)作為采集數(shù)據(jù)的緩沖,處理采集數(shù)據(jù)的速度和數(shù)據(jù)處理的速度不同步問(wèn)題;
步驟S3,采用基于storm的實(shí)時(shí)數(shù)據(jù)流分析計(jì)算,采用大數(shù)據(jù)實(shí)時(shí)處理工具storm,完成大數(shù)據(jù)的集成、數(shù)據(jù)建模、重復(fù)數(shù)據(jù)刪除、數(shù)據(jù)加密、數(shù)據(jù)備份等工作;
步驟S4,采用基于HBase的大數(shù)據(jù)存儲(chǔ),將步驟S3處理好的數(shù)據(jù)存入大數(shù)據(jù)平臺(tái);
步驟S5,采用基于Pentaho的數(shù)據(jù)挖掘,提供只能化的數(shù)據(jù)挖掘與共享,包括信息檢索、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、學(xué)科化服務(wù)、知識(shí)服務(wù)。
本發(fā)明的有益效果:
本發(fā)明所提供的一種基于大數(shù)據(jù)的高校圖書館數(shù)字資源共享方法,將分散的數(shù)字資源集中起來(lái),從中進(jìn)行數(shù)據(jù)挖掘和分析,發(fā)揮其數(shù)據(jù)量大的作用,可以完成對(duì)高校圖書館聯(lián)盟的全部數(shù)據(jù)進(jìn)行分析和利用,利用云計(jì)算和可視化技術(shù)得出精確的結(jié)果,并預(yù)測(cè)未來(lái)趨勢(shì),可解決物理設(shè)備之間無(wú)法共享的問(wèn)題。將高校圖書館聯(lián)盟現(xiàn)有的硬件設(shè)備整合在一起,對(duì)硬件設(shè)備進(jìn)行統(tǒng)一調(diào)配。利用云計(jì)算技術(shù)中的虛擬化技術(shù)將各高校圖書館的硬件設(shè)施都利用起來(lái),降低了高校圖書館聯(lián)盟的硬件建設(shè)成本,為實(shí)現(xiàn)數(shù)字資源共享提供硬件保障。借助云存儲(chǔ)技術(shù),將分散存儲(chǔ)在不同高校圖書館的數(shù)字資源進(jìn)行整合與存儲(chǔ),數(shù)字資源由云端統(tǒng)一存儲(chǔ)和管理,同時(shí),將用戶需要的數(shù)據(jù)進(jìn)行動(dòng)態(tài)部署,加快了信息服務(wù)的進(jìn)程。采用合理的網(wǎng)絡(luò)協(xié)議,對(duì)云計(jì)算網(wǎng)絡(luò)進(jìn)行嚴(yán)格監(jiān)控,并由高校圖書館聯(lián)盟的技術(shù)管理人員進(jìn)行統(tǒng)一管理、維護(hù)和監(jiān)管,提升高校圖書館的數(shù)字資源的安全程度。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1是本發(fā)明的方法示意圖。
具體實(shí)施方式
本發(fā)明的核心是提供一種基于大數(shù)據(jù)的高校圖書館數(shù)字資源共享方法。
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明提供了一種基于大數(shù)據(jù)的高校圖書館數(shù)字資源共享方法,該方法包括:
一種基于大數(shù)據(jù)的高校圖書館數(shù)字資源共享方法,包括:
步驟S1,采用基于Flume的分布式大數(shù)據(jù)采集,使用大數(shù)據(jù)軟件flume,負(fù)責(zé)從各節(jié)點(diǎn)上實(shí)時(shí)采集數(shù)據(jù),實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的采集。
Flume是Cloudera提供的一個(gè)分布式、可靠、和高可用的海量日志采集、聚合和傳輸?shù)娜罩臼占到y(tǒng),支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。
Flume提供了從console(控制臺(tái))、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系統(tǒng),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等數(shù)據(jù)源上收集數(shù)據(jù)的能力,在我們的系統(tǒng)中目前使用exec方式進(jìn)行日志采集。
Flume的數(shù)據(jù)接受方,可以是console(控制臺(tái))、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCPsyslog日志系統(tǒng))等,本發(fā)明中采用kafka來(lái)接收。
步驟S2,采用基于kafka的數(shù)據(jù)接入,使用消息中間件kafka來(lái)作為采集數(shù)據(jù)的緩沖,處理采集數(shù)據(jù)的速度和數(shù)據(jù)處理的速度不同步問(wèn)題。
kafka的目的是提供一個(gè)發(fā)布訂閱解決方案,它可以處理大規(guī)格的數(shù)字資源網(wǎng)站中的所有動(dòng)作流數(shù)據(jù),這種動(dòng)作(網(wǎng)頁(yè)瀏覽,搜索和其他用戶的行動(dòng))是在現(xiàn)代網(wǎng)絡(luò)上的許多社會(huì)功能的一個(gè)關(guān)鍵因素。這些數(shù)據(jù)通常是由于吞吐量的要求而通過(guò)處理日志和日志聚合來(lái)解決,對(duì)于像Hadoop的一樣的日志數(shù)據(jù)和離線分析系統(tǒng),但又要求實(shí)時(shí)處理的限制,這是一個(gè)可行的解決方案,kafka的目的是通過(guò)Hadoop的并行加載機(jī)制來(lái)統(tǒng)一線上和離線的消息處理,也是為了通過(guò)集群機(jī)來(lái)提供實(shí)時(shí)的消費(fèi)。
步驟S3,采用基于storm的實(shí)時(shí)數(shù)據(jù)流分析計(jì)算,采用大數(shù)據(jù)實(shí)時(shí)處理工具storm,完成大數(shù)據(jù)的集成、數(shù)據(jù)建模、重復(fù)數(shù)據(jù)刪除、數(shù)據(jù)加密、數(shù)據(jù)備份等工作。
Storm是一種分布式實(shí)時(shí)計(jì)算系統(tǒng),可以用來(lái)處理源源不斷流進(jìn)來(lái)的消息,處理之后將結(jié)果寫入到某個(gè)存儲(chǔ)中去,由于storm的處理組件是分布式的,而且處理延遲極低,所以可以作為一個(gè)通用的分布式rpc框架來(lái)使用。
步驟S4,采用基于HBase的大數(shù)據(jù)存儲(chǔ),將步驟S3處理好的數(shù)據(jù)存入大數(shù)據(jù)平臺(tái)。
HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù),HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù),基于這個(gè)特性,HBase非常適合存儲(chǔ)圖書館數(shù)字資源,并且,HBase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群;
步驟S5,采用基于Pentaho的數(shù)據(jù)挖掘,提供只能化的數(shù)據(jù)挖掘與共享,包括信息檢索、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、學(xué)科化服務(wù)、知識(shí)服務(wù)等。
pentaho是頂尖的開源的BI系統(tǒng),提供如下的核心功能:
報(bào)表功能:可視化(client,web)的報(bào)表設(shè)計(jì);
分析功能:可以生成分析視圖,作數(shù)據(jù)作動(dòng)態(tài)分析;
Dashboard功能:可以定制動(dòng)態(tài)圖表(image/flash)頁(yè)面;
調(diào)度功能:可對(duì)指定的任務(wù)進(jìn)行crontab式調(diào)度,定期發(fā)送日/周/月報(bào);
工作流:任意組合復(fù)雜的任務(wù)流程;
ETL:原生提供在各種數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)提取/轉(zhuǎn)換/導(dǎo)入,可以自行擴(kuò)展數(shù)據(jù)源;
webservice接口:可由任意外部程序進(jìn)行調(diào)用,可以很好的結(jié)合進(jìn)SOA架構(gòu),提供資源共享。
本發(fā)明所提供的一種基于大數(shù)據(jù)的高校圖書館數(shù)字資源共享方法,將分散的數(shù)字資源集中起來(lái),從中進(jìn)行數(shù)據(jù)挖掘和分析,發(fā)揮其數(shù)據(jù)量大的作用,可以完成對(duì)高校圖書館聯(lián)盟的全部數(shù)據(jù)進(jìn)行分析和利用,利用云計(jì)算和可視化技術(shù)得出精確的結(jié)果,并預(yù)測(cè)未來(lái)趨勢(shì),可解決物理設(shè)備之間無(wú)法共享的問(wèn)題。將高校圖書館聯(lián)盟現(xiàn)有的硬件設(shè)備整合在一起,對(duì)硬件設(shè)備進(jìn)行統(tǒng)一調(diào)配。利用云計(jì)算技術(shù)中的虛擬化技術(shù)將各高校圖書館的硬件設(shè)施都利用起來(lái),降低了高校圖書館聯(lián)盟的硬件建設(shè)成本,為實(shí)現(xiàn)數(shù)字資源共享提供硬件保障。借助云存儲(chǔ)技術(shù),將分散存儲(chǔ)在不同高校圖書館的數(shù)字資源進(jìn)行整合與存儲(chǔ),數(shù)字資源由云端統(tǒng)一存儲(chǔ)和管理,同時(shí),將用戶需要的數(shù)據(jù)進(jìn)行動(dòng)態(tài)部署,加快了信息服務(wù)的進(jìn)程。采用合理的網(wǎng)絡(luò)協(xié)議,對(duì)云計(jì)算網(wǎng)絡(luò)進(jìn)行嚴(yán)格監(jiān)控,并由高校圖書館聯(lián)盟的技術(shù)管理人員進(jìn)行統(tǒng)一管理、維護(hù)和監(jiān)管,提升高校圖書館的數(shù)字資源的安全程度。
以上內(nèi)容僅僅是對(duì)本發(fā)明結(jié)構(gòu)所作的舉例和說(shuō)明,所屬本技術(shù)領(lǐng)域的技術(shù)人員對(duì)所描述的具體實(shí)施例做各種各樣的修改或補(bǔ)充或采用類似的方式替代,只要不偏離發(fā)明的結(jié)構(gòu)或者超越本權(quán)利要求書所定義的范圍,均應(yīng)屬于本發(fā)明的保護(hù)范圍。