一種基于b2b平臺的實時日志采集分析方法
【專利摘要】本發(fā)明公開一種基于B2B平臺的實時日志采集分析方法,1)將B2B平臺中的訪問日志、系統(tǒng)日志作為數(shù)據(jù)源,對數(shù)據(jù)源的數(shù)據(jù)進(jìn)行實時采集,保存在寄存器中;2)通過日志解析器進(jìn)行處理,按不同的格式進(jìn)行解析;3)通過日志收集器進(jìn)行收集日志數(shù)據(jù);4)定義一個類型的多個子類型,被分布在集群中的多個服務(wù)器的節(jié)點上;5)通過分布式存儲器緩存收集器的數(shù)據(jù);6)通過分布式計算器處理數(shù)據(jù);7)由分布式計算器處理結(jié)果輸出至數(shù)據(jù)庫,本發(fā)明提供的基于B2B平臺的實時日志采集分析方法,在大數(shù)據(jù)并發(fā)實時采集、并行計算,實時分析具有顯著的效果,并且在實時計算中具有明顯優(yōu)勢。
【專利說明】
一種基于B2B平臺的實時日志采集分析方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及一種基于B2B平臺的實時日志采集分析方法。
【背景技術(shù)】
[0002]電子商務(wù)發(fā)展至今,已經(jīng)積累了大量的用戶訪問,以及大量的系統(tǒng)日志信息,包括訪問者、信息提供者等;而這類訪客瀏覽的動作都記錄在日志中,并且系統(tǒng)的異常與監(jiān)控日志都記錄在日志文件中,這一類日志往往是海量數(shù)據(jù)。
[0003]當(dāng)用戶使用搜索引擎訪問到我們網(wǎng)站中時或者通過瀏覽器直接輸入網(wǎng)址訪問到我們網(wǎng)站中,用戶在網(wǎng)站訪問的所有動作,都將記錄在服務(wù)器日志文件中,并且記錄了用戶從哪一個頁面進(jìn)來,并且下一個頁面的路徑,都將記錄在服務(wù)器的日志文件中,以及用戶在網(wǎng)站進(jìn)行搜索的日志,都將記錄在日志文件中。當(dāng)用戶在訪問頁面時,此時服務(wù)器如果產(chǎn)生異常信息,包括頁面無響應(yīng),反饋信息錯誤等,都將記錄在日志文件中;所以在這些海量的日志信息,我們需要從這些信息中提取出重要的信息記錄,因此需要建立一個實時日志采集分析的方法,將這些日志信息進(jìn)行切分,并發(fā)處理,并行計算,以及存儲等,讓這些日志信息最終可以高效的獲取有價值的信息內(nèi)容。
[0004]國內(nèi)現(xiàn)有的分布式日志采集分析方法,特別是針對具備實時性的采集,以及在大數(shù)據(jù)并發(fā)計算中,再實時性以及大數(shù)據(jù)量的情況下,容易出現(xiàn)很多問題或者無法保證實時性,比如:
[0005]中國專利CN201310317960.6,給出了一種分布式日志采集服務(wù)器的實現(xiàn)方案,其利用分布式的方式完成海量曰志的采集,通過多臺采集服務(wù)器進(jìn)行采集,沒有定義主從先后關(guān)系,并發(fā)采集會導(dǎo)致一份日志文件給多個采集器同時采集,可能導(dǎo)致一份數(shù)據(jù)產(chǎn)生多個拷貝,并且也沒有任何關(guān)于實時性采集的特性。
[0006]中國專利CN201410061318.0,給出了一種分布式設(shè)備日志采集方法,其通過分布式日志處理框架采用中介者模式構(gòu)建集成化數(shù)據(jù)中間層,形成集成數(shù)據(jù)中介管理服務(wù),該數(shù)據(jù)中介服務(wù)采集設(shè)備日志進(jìn)行分布式存儲在各分布式存儲點上并進(jìn)行數(shù)據(jù)連接,若需增加分布式存儲點時,采用分布式存儲點動態(tài)擴(kuò)展機(jī)制實現(xiàn);構(gòu)建集成化數(shù)據(jù)中間層,統(tǒng)一采集、格式化處理日志,集中對分布式數(shù)據(jù)存儲點進(jìn)行統(tǒng)一管理和調(diào)度等內(nèi)容,在分布式存儲方面提出與分布式數(shù)據(jù)進(jìn)行連接,在分布式采集,以及實時性等效率是非常的低下,該方法是在存儲中進(jìn)行改善,并沒有涉及到分布式采集以及計算的內(nèi)容。
[0007]海量數(shù)據(jù)的分布式采集、海量數(shù)據(jù)的實時計算及存儲,通過各節(jié)點的性能進(jìn)行分發(fā)不同的任務(wù)與調(diào)度,也是B2B平臺的實時日志采集分析的重要內(nèi)容。
【發(fā)明內(nèi)容】
[0008]發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于B2B平臺的實時日志采集分析方法,針對訪問日志、系統(tǒng)日志進(jìn)行實時采集,并進(jìn)行計算,計算出有目的性的數(shù)據(jù),并保存在數(shù)據(jù)庫中。
[0009]本發(fā)明的技術(shù)方案:一種基于B2B平臺的實時日志采集分析方法,包括如下步驟:
[0010](I)將B2B平臺中的訪問日志、系統(tǒng)日志作為數(shù)據(jù)源,對數(shù)據(jù)源的數(shù)據(jù)進(jìn)行實時采集,保存在寄存器中,對數(shù)據(jù)源的數(shù)據(jù)進(jìn)行實時采集的方法為:
[0011 ]對訪問日志,首先進(jìn)行切割,將大將大于512M文件自動切割成小文件即低于512M的小文件;再對日志進(jìn)行預(yù)處理;
[0012]在預(yù)處理中對日志進(jìn)行分類,按網(wǎng)站的站點類型進(jìn)行分類,再進(jìn)行各站點數(shù)據(jù)實時增量采集,采集之后保存在寄存器中,供下一個處理器進(jìn)行處理;
[0013]在預(yù)處理中需要對日志進(jìn)行分類,首先監(jiān)控日志文件夾下的所有文件,每一個節(jié)點只監(jiān)聽1024個以內(nèi)文件,每一個文件在節(jié)點的都會有相應(yīng)的標(biāo)示,記錄監(jiān)聽文件需要讀取數(shù)據(jù)的位置,當(dāng)每次文件有新的記錄產(chǎn)生時,標(biāo)示就會記錄當(dāng)前數(shù)據(jù)的所屬位置,根據(jù)節(jié)點配置發(fā)送到不同的存儲區(qū)域;
[0014](2)通過日志解析器進(jìn)行處理,按不同的格式進(jìn)行解析;
[0015]具體解析規(guī)則為:根據(jù)時間段、日志類型、異常編碼三個類型進(jìn)行對日志的解析,對于日志異常信息的分析,將實際的處理方法和結(jié)果信息直接存放至寄存器中,同時將異常信息和處理方法建立對應(yīng)的集合關(guān)系;
[0016](3)通過日志收集器進(jìn)行收集日志數(shù)據(jù),具體收集規(guī)則為:
[0017]在集群中獲取配置數(shù)據(jù),集群機(jī)器由主機(jī)和各節(jié)點組成,按照一定的大小將文件存放于內(nèi)存中,滿足一定的條件之后再寫入分布式存儲器中或者輸出至其他分析器中;
[0018](5)通過分布式存儲器緩存收集器的數(shù)據(jù),具體緩存規(guī)則為:分布式存儲器集群包含一個或多個服務(wù)器,每條緩存到分布式存儲器集群的數(shù)據(jù)根據(jù)類別不同,分布存儲在各個服務(wù)器中,將這些節(jié)點服務(wù)器進(jìn)行分區(qū);同一個分區(qū)中的數(shù)據(jù)都設(shè)置一個唯一的ID號;每條數(shù)據(jù)都存在一個狀態(tài),當(dāng)該數(shù)據(jù)被往下成功分發(fā)后,這條數(shù)據(jù)將不會再次處理,避免了數(shù)據(jù)被多次重復(fù)處理的現(xiàn)象;
[0019](6)通過分布式計算器處理數(shù)據(jù),具體計算規(guī)則為:分布式計算器集群中有一個主控制器和多個運算節(jié)點;所有的處理任務(wù)首先提交到主控制器,由主控制器根據(jù)節(jié)點的性能進(jìn)行分發(fā)任務(wù);主控制器首先將任務(wù)提交的節(jié)點,將一個任務(wù)拆分成多個子任務(wù),多個子任務(wù)在多個節(jié)點中進(jìn)行計算,最后再進(jìn)行整合;
[0020](7)由分布式計算器處理結(jié)果輸出至數(shù)據(jù)庫,或其他應(yīng)用服務(wù)器中。
[0021]步驟(5)中數(shù)據(jù)緩存通過若干臺集群機(jī)器中的內(nèi)存進(jìn)行緩存數(shù)據(jù),從而提高效率,當(dāng)擁有多個數(shù)據(jù)來源和多個數(shù)據(jù)目的地時,為每一個來源和目的地配對地會自動創(chuàng)建一系列數(shù)據(jù)通過,保證數(shù)據(jù)的一致性;并且每一個系統(tǒng)獲取數(shù)據(jù)和寫入內(nèi)存數(shù)據(jù)各一次;
[0022]步驟(3)中日志文件將會根據(jù)配置要求,保留一定的時間之后刪除,通過這種方法,來釋放磁盤空間,以及減少讀取操作之后對文件內(nèi)容改動的磁盤1開支;
[0023]步驟(I)中將需要保留和需要刪除的數(shù)據(jù)文件分別保存在不同的路徑下,如果當(dāng)前數(shù)據(jù)需要刪除,會將他放入到存儲層面,判斷放入刪除層和存儲層是通過當(dāng)前返回的表示,如果返回狀態(tài)不為成功,那么將繼續(xù)保留;
[0024]如果節(jié)點出現(xiàn)問題,會將節(jié)點上監(jiān)聽的日志文件夾下已經(jīng)成功的日志文件自動移出,根據(jù)當(dāng)前調(diào)度規(guī)則,進(jìn)行重新啟動;
[0025]日志將大于512M文件,進(jìn)行自動分割文件,把符合條件的文件或文件夾壓縮歸檔到指定目錄,歸檔文件格式,按系統(tǒng)時間已經(jīng)文件類型進(jìn)行歸檔,在判斷是否歸檔文件夾時,檢測的是文件夾的最后修改時間;
[0026]所有的臨時數(shù)據(jù),被保存在內(nèi)存中;在吞吐量方面提高性能,在通過一定大小之后刷入到磁盤進(jìn)行臨時存儲,從而保證災(zāi)難性時數(shù)據(jù)不會丟失;
[0027]當(dāng)臨時被保存在磁盤文件時,能保存容量較大的文件并且發(fā)生宕機(jī)時,數(shù)據(jù)可恢復(fù)。
[0028](I)中日志文件定義一個類型的多個子類型,被分布在集群中的多個服務(wù)器的節(jié)點上;每個節(jié)點都負(fù)責(zé)子類型日志中數(shù)據(jù)的讀寫操作,還可以配置動態(tài)配置需要備份的個數(shù),每個子類型數(shù)據(jù)將會被備份到多臺機(jī)器上,以提高可用性;
[0029]有益效果:克服現(xiàn)有方案實時性等效率不高,本發(fā)明通過各節(jié)點的性能進(jìn)行分發(fā)不同的任務(wù)與調(diào)度,實現(xiàn)B2B平臺的實時日志采集分析,針對訪問日志、系統(tǒng)日志進(jìn)行實時采集,并進(jìn)行計算,計算出有目的性的數(shù)據(jù),并保存在數(shù)據(jù)庫中。本發(fā)明提供的基于B2B平臺的實時日志采集分析方法,在大數(shù)據(jù)并發(fā)實時采集、并行計算,實時分析具有顯著的效果,并且在實時計算中具有明顯優(yōu)勢。
【附圖說明】
[0030]圖1為本發(fā)明方法的實施流程圖。
【具體實施方式】
[0031]一種基于B2B平臺的實時日志采集分析方法,包括如下步驟:
[0032](I)將B2B平臺中的訪問日志、系統(tǒng)日志作為數(shù)據(jù)源,對數(shù)據(jù)源的數(shù)據(jù)進(jìn)行實時采集,保存在寄存器中,對數(shù)據(jù)源的數(shù)據(jù)進(jìn)行實時采集的方法為:
[0033]對訪問日志,首先進(jìn)行切割,將大文件自動切割成小文件;再對日志進(jìn)行預(yù)處理;
[0034]在預(yù)處理中對日志進(jìn)行分類,按網(wǎng)站的站點類型進(jìn)行分類,再進(jìn)行各站點數(shù)據(jù)實時增量采集,采集之后保存在寄存器中,供下一個處理器進(jìn)行處理;
[0035]在預(yù)處理中需要對日志進(jìn)行分類,首先監(jiān)控日志文件夾下的所有文件,每一個節(jié)點只監(jiān)聽1024個文件,每一個文件在節(jié)點的都會有相應(yīng)的標(biāo)示,記錄監(jiān)聽文件需要讀取數(shù)據(jù)的位置,當(dāng)每次文件有新的記錄產(chǎn)生時,標(biāo)示就會記錄當(dāng)前數(shù)據(jù)的所屬位置,根據(jù)節(jié)點配置發(fā)送到不同的存儲區(qū)域。
[0036]我們會將需要保留和需要刪除的數(shù)據(jù)文件分別保存在不同的路徑下,如果當(dāng)前數(shù)據(jù)需要刪除,我們會放他放入到存儲層面,判斷放入刪除層和存儲層是通過當(dāng)前返回的表示,如果返回狀態(tài)不為成功,那么將繼續(xù)保留。
[0037]如果節(jié)點出現(xiàn)問題,我們會將節(jié)點上監(jiān)聽的日志文件夾下已經(jīng)成功的日志文件自動移出,根據(jù)當(dāng)前調(diào)度規(guī)則,進(jìn)行重新啟動;
[0038]日志文件較大的數(shù)據(jù),進(jìn)行自動分割文件,把符合條件的文件或文件夾壓縮歸檔到指定目錄,歸檔文件格式,按系統(tǒng)時間已經(jīng)文件類型進(jìn)行歸檔,在判斷是否歸檔文件夾時,檢測的是文件夾的最后修改時間。
[0039]所有的臨時數(shù)據(jù),被保存在內(nèi)存中。在吞吐量方面可以提高很大性能,在通過一定大小之后刷入到磁盤進(jìn)行臨時存儲,從而保證災(zāi)難性時數(shù)據(jù)不會丟失。
[0040]當(dāng)臨時被保存在磁盤文件時,可以保存容量較大的文件并且發(fā)生宕機(jī)時,數(shù)據(jù)可恢復(fù)。
[0041](2)數(shù)據(jù)緩存通過若干臺集群機(jī)器中的內(nèi)存進(jìn)行緩存數(shù)據(jù),從而提高效率,當(dāng)擁有多個數(shù)據(jù)來源和多個數(shù)據(jù)目的地時,為每一個來源和目的地配對地會自動創(chuàng)建一系列數(shù)據(jù)通過,保證數(shù)據(jù)的一致性。并且每一個系統(tǒng)獲取數(shù)據(jù)和寫入內(nèi)存數(shù)據(jù)各一次。
[0042](3)日志文件將會根據(jù)配置要求,保留一定的時間之后刪除,通過這種方法,來釋放磁盤空間,以及減少讀取操作之后對文件內(nèi)容改動的磁盤1開支。
[0043](4)定義一個類型的多個子類型,被分布在集群中的多個服務(wù)器的節(jié)點上。每個節(jié)點都負(fù)責(zé)子類型日志中數(shù)據(jù)的讀寫操作,還可以配置動態(tài)配置需要備份的個數(shù),每個子類型數(shù)據(jù)將會被備份到多臺機(jī)器上,以提高可用性。
[0044]使用負(fù)載均衡來保持緩存與各節(jié)點數(shù)據(jù)的通訊,數(shù)據(jù)通過由類型定義的數(shù)據(jù)組直接通過網(wǎng)絡(luò)發(fā)送到客戶端,中間不經(jīng)過任何路由節(jié)點,
[0045]使用點對點的方式進(jìn)行通訊。
[0046]通過三種方式進(jìn)行消息傳輸,
[0047]1、數(shù)據(jù)一次操作,只發(fā)送一次,無論是否發(fā)送成功,將不會重發(fā)數(shù)據(jù)。此時數(shù)據(jù)游標(biāo)指向下一條數(shù)據(jù),如果在消息處理過程中出現(xiàn)了異常,導(dǎo)致部分?jǐn)?shù)據(jù)未能繼續(xù)往下處理,當(dāng)前立即停止所有數(shù)據(jù)的發(fā)送。
[0048]2、數(shù)據(jù)至少發(fā)送一次,當(dāng)數(shù)據(jù)在發(fā)送時,將獲取返回值再判斷是否發(fā)送下一條數(shù)據(jù)。接收方接受數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行處理,發(fā)送返回狀態(tài),游標(biāo)進(jìn)行增長。如果數(shù)據(jù)處理成功之后,在返回狀態(tài)值的出現(xiàn)異常,那么當(dāng)前游標(biāo)不會指向下一條,此時將重新發(fā)送這條數(shù)據(jù)。
[0049]3、數(shù)據(jù)至發(fā)送一次,如果發(fā)生異常也不會停止,將繼續(xù)發(fā)送下一條數(shù)據(jù)。
[0050]寫入日志集群文件操作為兩種:
[0051]a、當(dāng)數(shù)據(jù)文件尺寸達(dá)到一定閥值時,目前我們配置中設(shè)置該閥值為500M,將會創(chuàng)建一個新的文件,當(dāng)數(shù)據(jù)的條數(shù)達(dá)到閥值時將會觸發(fā)數(shù)據(jù)自動寫入集群操作。
[0052]b、通過上一次寫入文件和當(dāng)前時間差值進(jìn)行寫入日志集群操作。
[0053](5)、通過分布式存儲器緩存收集器的數(shù)據(jù),定義源數(shù)據(jù)信息存儲,根據(jù)元數(shù)據(jù)的變化,集群產(chǎn)生對應(yīng)不同的動作。
[0054]當(dāng)數(shù)據(jù)緩存集群服務(wù)器啟動后,首先會向主機(jī)寫入各節(jié)點服務(wù)器信息,同時當(dāng)節(jié)點和主機(jī)斷開連接時,此節(jié)點信息也會被刪除。
[0055]數(shù)據(jù)存儲格式:/ID/[0...N],每個配置文件中都需要指定一個數(shù)字類型的id號,節(jié)點服務(wù)器存儲信息為ip:port。定義類型為一個字符型編號,將該字符型編號數(shù)據(jù)存儲格式:/Type/name/[0...N]。
[0056](6)、通過分布式計算器處理數(shù)據(jù),由服務(wù)器主機(jī)來協(xié)調(diào)整個集群,每臺服務(wù)器運行多個線程,但根據(jù)執(zhí)行數(shù)據(jù)來進(jìn)行并發(fā)計算,計算結(jié)果由其它分布式集群機(jī)器中的子線程進(jìn)行匯總,每個線程提供一個消息單元,指定是否在一個特定的時間內(nèi)被完全處理。包括當(dāng)期線程和子線程全部被執(zhí)行完畢,保證每個線程會被完整的執(zhí)行。并且追蹤由每個線程所產(chǎn)生的節(jié)點,監(jiān)控該節(jié)點的結(jié)束時間。
[0057]通過對該線程超時的設(shè)置,當(dāng)該超時區(qū)間時間內(nèi)檢測不到該線程是否執(zhí)行成功,那么對該線程處理標(biāo)記進(jìn)行設(shè)置為失敗,當(dāng)在系統(tǒng)空閑狀態(tài)時自動觸發(fā)該線程重新啟動。
[0058](7)、由分布式計算器處理數(shù)據(jù)之后,將計算結(jié)果輸出至數(shù)據(jù)庫中存儲,或進(jìn)行其他分發(fā)至應(yīng)用服務(wù)器中。
【主權(quán)項】
1.一種基于B2B平臺的實時日志采集分析方法,其特征是包括如下步驟: (1)將B2B平臺中的訪問日志、系統(tǒng)日志作為數(shù)據(jù)源,對數(shù)據(jù)源的數(shù)據(jù)進(jìn)行實時采集,保存在寄存器中,對數(shù)據(jù)源的數(shù)據(jù)進(jìn)行實時采集的方法為: 對訪問日志,首先進(jìn)行切割,將大于512M文件自動切割成小文件、即低于512M的小文件;再對日志進(jìn)行預(yù)處理; 在預(yù)處理中對日志進(jìn)行分類,按網(wǎng)站的站點類型進(jìn)行分類,再進(jìn)行各站點數(shù)據(jù)實時增量采集,采集之后保存在寄存器中,供下一個處理器進(jìn)行處理; 在預(yù)處理中需要對日志進(jìn)行分類,首先監(jiān)控日志文件夾下的所有文件,每一個節(jié)點只監(jiān)聽1024個以內(nèi)文件,每一個文件在節(jié)點的都會有相應(yīng)的標(biāo)示,記錄監(jiān)聽文件需要讀取數(shù)據(jù)的位置,當(dāng)每次文件有新的記錄產(chǎn)生時,標(biāo)示就會記錄當(dāng)前數(shù)據(jù)的所屬位置,根據(jù)節(jié)點配置發(fā)送到不同的存儲區(qū)域; (2)通過日志解析器進(jìn)行處理,按不同的格式進(jìn)行解析; 具體解析規(guī)則為:根據(jù)時間段、日志類型、異常編碼三個類型進(jìn)行對日志的解析,對于日志異常信息的分析,將實際的處理方法和結(jié)果信息直接存放至寄存器中,同時將異常信息和處理方法建立對應(yīng)的集合關(guān)系; (3)通過日志收集器進(jìn)行收集日志數(shù)據(jù),具體收集規(guī)則為: 在集群中獲取配置數(shù)據(jù),集群機(jī)器由主機(jī)和各節(jié)點組成,按照一定的大小將文件存放于內(nèi)存中,滿足一定的條件之后再寫入分布式存儲器中或者輸出至其他分析器中; (4)定義一個類型的多個子類型,被分布在集群中的多個服務(wù)器的節(jié)點上; (5)通過分布式存儲器緩存收集器的數(shù)據(jù),具體緩存規(guī)則為:分布式存儲器集群包含一個或多個服務(wù)器,每條緩存到分布式存儲器集群的數(shù)據(jù)根據(jù)類別不同,分布存儲在各個服務(wù)器中,將這些節(jié)點服務(wù)器進(jìn)行分區(qū);同一個分區(qū)中的數(shù)據(jù)都設(shè)置一個唯一的ID號;每條數(shù)據(jù)都存在一個狀態(tài),當(dāng)該數(shù)據(jù)被往下成功分發(fā)后,這條數(shù)據(jù)將不會再次處理,避免了數(shù)據(jù)被多次重復(fù)處理的現(xiàn)象; (6)通過分布式計算器處理數(shù)據(jù),具體計算規(guī)則為:分布式計算器集群中有一個主控制器和多個運算節(jié)點;所有的處理任務(wù)首先提交到主控制器,由主控制器根據(jù)節(jié)點的性能進(jìn)行分發(fā)任務(wù);主控制器首先將任務(wù)提交的節(jié)點,將一個任務(wù)拆分成多個子任務(wù),多個子任務(wù)在多個節(jié)點中進(jìn)行計算,最后再進(jìn)行整合; (7)由分布式計算器處理結(jié)果輸出至數(shù)據(jù)庫,或其他應(yīng)用服務(wù)器中。2.根據(jù)權(quán)利要求要求I所述的基于B2B平臺的實時日志采集分析方法,其特征是(5)中數(shù)據(jù)緩存通過若干臺集群機(jī)器中的內(nèi)存進(jìn)行緩存數(shù)據(jù),從而提高效率,當(dāng)擁有多個數(shù)據(jù)來源和多個數(shù)據(jù)目的地時,為每一個來源和目的地配對地會自動創(chuàng)建一系列數(shù)據(jù)通過,保證數(shù)據(jù)的一致性;并且每一個系統(tǒng)獲取數(shù)據(jù)和寫入內(nèi)存數(shù)據(jù)各一次; (3)中日志文件將會根據(jù)配置要求,保留一定的時間之后刪除,通過這種方法,來釋放磁盤空間,以及減少讀取操作之后對文件內(nèi)容改動的磁盤1開支。3.根據(jù)權(quán)利要求要求I所述的基于B2B平臺的實時日志采集分析方法,其特征是(I)中將需要保留和需要刪除的數(shù)據(jù)文件分別保存在不同的路徑下,如果當(dāng)前數(shù)據(jù)需要刪除,會將他放入到存儲層面,判斷放入刪除層和存儲層是通過當(dāng)前返回的表示,如果返回狀態(tài)不為成功,那么將繼續(xù)保留; 如果節(jié)點出現(xiàn)問題,會將節(jié)點上監(jiān)聽的日志文件夾下已經(jīng)成功的日志文件自動移出,根據(jù)當(dāng)前調(diào)度規(guī)則,進(jìn)行重新啟動; 日志文件將大于512M文件數(shù)據(jù),進(jìn)行自動分割文件,把符合條件的文件或文件夾壓縮歸檔到指定目錄,歸檔文件格式,按系統(tǒng)時間已經(jīng)文件類型進(jìn)行歸檔,在判斷是否歸檔文件夾時,檢測的是文件夾的最后修改時間; 所有的臨時數(shù)據(jù),被保存在內(nèi)存中;在吞吐量方面提高性能,在通過一定大小之后刷入到磁盤進(jìn)行臨時存儲,從而保證災(zāi)難性時數(shù)據(jù)不會丟失; 當(dāng)臨時被保存在磁盤文件時,能保存容量較大的文件并且發(fā)生宕機(jī)時,數(shù)據(jù)能恢復(fù)。4.根據(jù)權(quán)利要求要求I所述的基于B2B平臺的實時日志采集分析方法,其特征是(I)中日志文件定義一個類型的多個子類型,被分布在集群中的多個服務(wù)器的節(jié)點上;每個節(jié)點都負(fù)責(zé)子類型日志中數(shù)據(jù)的讀寫操作,還可以動態(tài)配置需要備份的個數(shù),每個子類型數(shù)據(jù)將會被備份到多臺機(jī)器上。5.根據(jù)權(quán)利要求要求I所述的基于B2B平臺的實時日志采集分析方法,其特征是使用負(fù)載均衡來保持緩存與各節(jié)點數(shù)據(jù)的通訊,數(shù)據(jù)通過由類型定義的數(shù)據(jù)組直接通過網(wǎng)絡(luò)發(fā)送到客戶端,中間不經(jīng)過任何路由節(jié)點,使用點對點的方式進(jìn)行通訊;通過三種方式進(jìn)行消息傳輸, 1)數(shù)據(jù)一次操作,只發(fā)送一次,無論是否發(fā)送成功,將不會重發(fā)數(shù)據(jù);此時數(shù)據(jù)游標(biāo)指向下一條數(shù)據(jù),如果在消息處理過程中出現(xiàn)了異常,導(dǎo)致部分?jǐn)?shù)據(jù)未能繼續(xù)往下處理,當(dāng)前立即停止所有數(shù)據(jù)的發(fā)送; 2)數(shù)據(jù)至少發(fā)送一次,當(dāng)數(shù)據(jù)在發(fā)送時,將獲取返回值再判斷是否發(fā)送下一條數(shù)據(jù);接收方接受數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行處理,發(fā)送返回狀態(tài),游標(biāo)進(jìn)行增長;如果數(shù)據(jù)處理成功之后,在返回狀態(tài)值的出現(xiàn)異常,那么當(dāng)前游標(biāo)不會指向下一條,此時將重新發(fā)送這條數(shù)據(jù); 3)數(shù)據(jù)至發(fā)送一次,如果發(fā)生異常也不會停止,將繼續(xù)發(fā)送下一條數(shù)據(jù)。6.根據(jù)權(quán)利要求要求I所述的基于B2B平臺的實時日志采集分析方法,其特征是寫入日志集群文件操作為兩種: a、當(dāng)數(shù)據(jù)文件尺寸達(dá)到一定閥值時,目前配置中設(shè)置該閥值為500M,將會創(chuàng)建一個新的文件,當(dāng)數(shù)據(jù)的條數(shù)達(dá)到閥值時將會觸發(fā)數(shù)據(jù)自動寫入集群操作; b、通過上一次寫入文件和當(dāng)前時間差值進(jìn)行寫入日志集群操作; 定義源數(shù)據(jù)信息存儲,根據(jù)元數(shù)據(jù)的變化,集群產(chǎn)生對應(yīng)不同的動作; 當(dāng)數(shù)據(jù)緩存集群服務(wù)器啟動后,首先會向主機(jī)寫入各節(jié)點服務(wù)器信息,同時當(dāng)節(jié)點和主機(jī)斷開連接時,此節(jié)點信息也會被刪除。
【文檔編號】G06F11/34GK105824744SQ201610158859
【公開日】2016年8月3日
【申請日】2016年3月21日
【發(fā)明人】徐飛
【申請人】焦點科技股份有限公司