一種采用分布式lsm樹的rfid系統(tǒng)設(shè)計方法
【專利摘要】本發(fā)明提供一種采用分布式LSM樹的RFID系統(tǒng)設(shè)計方法,RFID(RadioFrequencyIdentification)射頻識別技術(shù)在近期呈現(xiàn)數(shù)據(jù)量明顯增高的趨勢,逐漸形成海量數(shù)據(jù),具備大數(shù)據(jù)的特征。針對基于分布式LSM樹的RFID系統(tǒng)實現(xiàn),本發(fā)明的基本思想是:在分布式數(shù)據(jù)平臺Hadoop上進(jìn)行海量RFID數(shù)據(jù)冗余存儲,并代替?zhèn)鹘y(tǒng)常用的B+樹索引結(jié)構(gòu),使用一種新型的數(shù)據(jù)索引結(jié)構(gòu)-LSM樹,充分利用其基于內(nèi)存的處理數(shù)據(jù)優(yōu)勢,進(jìn)行海量RFID數(shù)據(jù)的實時校驗存儲。
【專利說明】一種采用分布式LSM樹的RFID系統(tǒng)設(shè)計方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機大數(shù)據(jù)【技術(shù)領(lǐng)域】,具體地說是一種采用分布式LSM樹的RFID系統(tǒng)設(shè)計方法。
【背景技術(shù)】
[0002]RFID (Rad1 Frequency Identificat1n)射頻識別技術(shù),是一種快速的、非接觸式的識別技術(shù),基于低成本,易使用,技術(shù)成熟等特點,RFID技術(shù)已經(jīng)被廣泛應(yīng)用到各個領(lǐng)域中。基于RFID技術(shù)的應(yīng)用系統(tǒng)會實時產(chǎn)生大量數(shù)據(jù),這些原始數(shù)據(jù)經(jīng)由RFID閱讀器交給數(shù)據(jù)處理系統(tǒng),一方面此系統(tǒng)要對大量數(shù)據(jù)進(jìn)行存儲;另一方面還要對錯誤信息進(jìn)行實時校驗。這兩方面都是目前亟待解決的問題。
[0003]現(xiàn)有的海量數(shù)據(jù)管理技術(shù)部分是基于B+樹的磁盤索引技術(shù),B+樹是一種高效的基于磁盤保存的數(shù)據(jù)結(jié)構(gòu),B+樹雖然提供了快速的數(shù)據(jù)查找、快速的數(shù)據(jù)遍歷,但B+樹在讀取期間會造成大量的磁盤隨機1/0,在存取海量數(shù)據(jù)時,不能發(fā)揮其優(yōu)勢。所以,磁盤索引對于高實時性大吞吐量的RFID數(shù)據(jù)處理系統(tǒng)來說不能滿足其高速存取要求。而在讀取有復(fù)雜結(jié)構(gòu)的RFID標(biāo)簽時,數(shù)據(jù)處理系統(tǒng)將面臨很大的負(fù)載,往往不能達(dá)到實時性的要求。
[0004]LSM樹就是將對數(shù)據(jù)的修改增量保持在內(nèi)存中,達(dá)到指定的大小限制后將這些修改操作批量寫入磁盤,讀取時需要合并磁盤中的歷史數(shù)據(jù)和內(nèi)存中最近的修改操作。LSM樹的優(yōu)勢在于有效地規(guī)避了磁盤隨機寫入問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是提供一種采用分布式LSM樹的RFID系統(tǒng)設(shè)計方法。
[0006]本發(fā)明的目的是按以下方式實現(xiàn)的,在分布式數(shù)據(jù)平臺Hadoop上進(jìn)行海量RFID數(shù)據(jù)冗余存儲,并代替?zhèn)鹘y(tǒng)常用的B+樹索引結(jié)構(gòu),使用LSM樹數(shù)據(jù)索引結(jié)構(gòu),充分利用其基于內(nèi)存的處理數(shù)據(jù)優(yōu)勢,進(jìn)行海量RFID數(shù)據(jù)的實時校驗存儲,具體步驟如下:
(1)搭建集群
需要搭建集群,包括分布式數(shù)據(jù)平臺和分布式數(shù)據(jù)庫集群,首先根據(jù)集群機器的負(fù)載能力設(shè)置好數(shù)據(jù)塊大小,配置好分布式數(shù)據(jù)平臺主節(jié)點和從節(jié)點,當(dāng)產(chǎn)生文件讀寫操作時,讀寫操作發(fā)起者Client和主節(jié)點、從節(jié)點進(jìn)行RPC通信,三者共同使讀寫過程維持一致性,通過心跳機制檢測著集群的運行狀態(tài),然后,將分布式數(shù)據(jù)庫同樣配置為主從結(jié)構(gòu),配置好Reg1n大小,Hmaster和Reg1nserver相互通信,維持著分布式數(shù)據(jù)庫系統(tǒng)的健壯性;
(2)設(shè)計分布式存儲表結(jié)構(gòu)
由于存儲的是海量RFID數(shù)據(jù),在數(shù)據(jù)庫設(shè)計上首先考慮擴展性原則和實時存取原貝U,Hbase表結(jié)構(gòu)是以按照列族為存儲單位的,構(gòu)建好集群后,首先簡歷表,再分別建立client, funct1n, time, other四個列族,client列族對應(yīng)著發(fā)起RFID操作的用戶,funct1n代表著RFID這一操作要完成的具體事件,time表示發(fā)起RFID這一操作的時間,other表示其他,將原始的數(shù)據(jù)加入到表中,對應(yīng)可在相應(yīng)列族下擴展列,client要增加一個age選項,可直接在相應(yīng)列族下添加列age ;
當(dāng)需要檢驗海量RFID數(shù)據(jù)時,將LSM樹直接讀入內(nèi)存,這樣避免了 B+樹中大量的磁盤讀取,以提高讀取速度,當(dāng)需要添加其他信息時,在other列族中進(jìn)行添加擴展即可。
[0007]本發(fā)明的目的有益效果是=Hadoop分布式平臺的冗余備份機制可以解決大量RFID數(shù)據(jù)存儲的問題,默認(rèn)為3份備份。并為數(shù)據(jù)塊提供冗余校驗機制,當(dāng)數(shù)據(jù)塊產(chǎn)生損壞時,可及時回復(fù)正確數(shù)據(jù)。利用自身的Namenode和Datanode主從結(jié)構(gòu)進(jìn)行數(shù)據(jù)的管理?;贖base的分布式數(shù)據(jù)庫特點,利用LSM樹的優(yōu)勢,將需要讀寫的RFID數(shù)據(jù)逐步加入到Hbase表中,這樣大部分的讀寫操作將會在內(nèi)存中進(jìn)行,實時性和性能上將會滿足要求。
【專利附圖】
【附圖說明】
[0008]圖1是Hbase表結(jié)構(gòu)圖;
圖2是系統(tǒng)結(jié)構(gòu)不意圖。
【具體實施方式】
[0009]參照說明書附圖對本發(fā)明的采用分布式LSM樹的RFID系統(tǒng)設(shè)計方法作以下詳細(xì)地說明。
[0010]在分布式數(shù)據(jù)平臺Hadoop上進(jìn)行海量RFID數(shù)據(jù)冗余存儲,并代替?zhèn)鹘y(tǒng)常用的B+樹索引結(jié)構(gòu),使用LSM樹數(shù)據(jù)索引結(jié)構(gòu),充分利用其基于內(nèi)存的處理數(shù)據(jù)優(yōu)勢,進(jìn)行海量RFID數(shù)據(jù)的實時校驗存儲,具體步驟如下:
(1)搭建集群
需要搭建集群,常用的是分布式數(shù)據(jù)平臺和分布式數(shù)據(jù)庫集群。首先根據(jù)集群機器的負(fù)載能力設(shè)置好數(shù)據(jù)塊大小,配置好分布式數(shù)據(jù)平臺主節(jié)點和從節(jié)點。以Hadoop為例,當(dāng)產(chǎn)生文件讀寫操作時,讀寫操作發(fā)起者Cl ient和主節(jié)點、從節(jié)點進(jìn)行RPC通信,三者共同使讀寫過程維持一致性,通過心跳機制檢測著集群的運行狀態(tài)。然后,將分布式數(shù)據(jù)庫同樣配置為主從結(jié)構(gòu),以Hbase為例,配置好Reg1n大小,Hmaster和Reg1nserver相互通信,維持著分布式數(shù)據(jù)庫系統(tǒng)的健壯性;
(2)設(shè)計分布式存儲表結(jié)構(gòu)
由于存儲的是海量RFID數(shù)據(jù),在數(shù)據(jù)庫設(shè)計上首先考慮擴展性原則和實時存取原貝U。Hbase表結(jié)構(gòu)是以按照列族為存儲單位的,構(gòu)建好集群后,首先簡歷表,再分別建立client, funct1n, time, other四個列族,client列族對應(yīng)著發(fā)起RFID操作的用戶(可以是貼有RFID標(biāo)簽的指定設(shè)備,物體等),funct1n代表著RFID這一操作要完成的具體事件(如進(jìn)門,發(fā)送信號等),time表示發(fā)起RFID這一操作的時間,other表示其他。將原始的數(shù)據(jù)加入到表中。對應(yīng)可在相應(yīng)列族下擴展列,比如client要增加一個age選項,可直接在相應(yīng)列族下添加列age,而此操作對于傳統(tǒng)的基于B+樹的關(guān)系型數(shù)據(jù)庫是很難進(jìn)行擴展的,并且列中值為NULL的數(shù)據(jù)不在磁盤中存儲,所以,該分布式數(shù)據(jù)庫在擴展性上是能滿足要求的。
[0011]當(dāng)需要檢驗海量RFID數(shù)據(jù)時,將LSM樹直接讀入內(nèi)存,這樣避免了 B+樹中大量的磁盤讀取,可以提高讀取速度。當(dāng)需要添加其他信息時,可以在other列族中進(jìn)行添加擴展。
[0012]除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種采用分布式LSM樹的RFID系統(tǒng)設(shè)計方法,其特征在于,在分布式數(shù)據(jù)平臺Hadoop上進(jìn)行海量RFID數(shù)據(jù)冗余存儲,并代替?zhèn)鹘y(tǒng)常用的B+樹索引結(jié)構(gòu),使用LSM樹數(shù)據(jù)索引結(jié)構(gòu),充分利用其基于內(nèi)存的處理數(shù)據(jù)優(yōu)勢,進(jìn)行海量RFID數(shù)據(jù)的實時校驗存儲,具體步驟如下: (1)搭建集群 需要搭建集群,包括分布式數(shù)據(jù)平臺和分布式數(shù)據(jù)庫集群,首先根據(jù)集群機器的負(fù)載能力設(shè)置好數(shù)據(jù)塊大小,配置好分布式數(shù)據(jù)平臺主節(jié)點和從節(jié)點,當(dāng)產(chǎn)生文件讀寫操作時,讀寫操作發(fā)起者Client和主節(jié)點、從節(jié)點進(jìn)行RPC通信,三者共同使讀寫過程維持一致性,通過心跳機制檢測著集群的運行狀態(tài),然后,將分布式數(shù)據(jù)庫同樣配置為主從結(jié)構(gòu),配置好Reg1n大小,Hmaster和Reg1nserver相互通信,維持著分布式數(shù)據(jù)庫系統(tǒng)的健壯性; (2)設(shè)計分布式存儲表結(jié)構(gòu) 由于存儲的是海量RFID數(shù)據(jù),在數(shù)據(jù)庫設(shè)計上首先考慮擴展性原則和實時存取原貝U,Hbase表結(jié)構(gòu)是以按照列族為存儲單位的,構(gòu)建好集群后,首先簡歷表,再分別建立client, funct1n, time, other四個列族,client列族對應(yīng)著發(fā)起RFID操作的用戶,funct1n代表著RFID這一操作要完成的具體事件,time表示發(fā)起RFID這一操作的時間,other表示其他,將原始的數(shù)據(jù)加入到表中,對應(yīng)可在相應(yīng)列族下擴展列,client要增加一個age選項,可直接在相應(yīng)列族下添加列age ; 當(dāng)需要檢驗海量RFID數(shù)據(jù)時,將LSM樹直接讀入內(nèi)存,這樣避免了 B+樹中大量的磁盤讀取,以提高讀取速度,當(dāng)需要添加其他信息時,在other列族中進(jìn)行添加擴展即可。
【文檔編號】G06Q10/06GK104268709SQ201410529970
【公開日】2015年1月7日 申請日期:2014年10月10日 優(yōu)先權(quán)日:2014年10月10日
【發(fā)明者】王闖, 李克學(xué), 戴鴻君, 于治樓 申請人:浪潮集團(tuán)有限公司