本實(shí)用新型涉及大數(shù)據(jù)處理領(lǐng)域,尤其涉及一種日志處理系統(tǒng)。
背景技術(shù):
作為云計(jì)算領(lǐng)域的重要延伸,大數(shù)據(jù)在行業(yè)內(nèi)的熱度逐漸增加。大數(shù)據(jù)是指難以用常用的軟件工具在可容忍時間內(nèi)抓取、管理以及處理的數(shù)據(jù)集合,涵蓋了從數(shù)據(jù)的海量存儲、處理到應(yīng)用多方面的技術(shù)。大數(shù)據(jù)是云計(jì)算服務(wù)的基礎(chǔ),是構(gòu)建云平臺最基本的要素,沒有對海量信息的分析的大數(shù)據(jù),就沒有獲取有價值的信息的可能性。隨著大數(shù)據(jù)時代的到來,由此產(chǎn)生的日志文件也迅速增長。
現(xiàn)有技術(shù)中,采用單機(jī)處理技術(shù)對日志數(shù)據(jù)進(jìn)行處理,處理時間長。不能通過對日志數(shù)據(jù)的處理,實(shí)時的反映網(wǎng)絡(luò)訪問狀況。
技術(shù)實(shí)現(xiàn)要素:
本實(shí)用新型提供了日志處理系統(tǒng),為解決處理日志數(shù)據(jù)時間長的問題。
為了解決上述技術(shù)問題,本實(shí)用新型提供了日志處理系統(tǒng),該系統(tǒng)包括:
客戶端服務(wù)器,用于存儲客戶端的日志數(shù)據(jù);
分布式子系統(tǒng),與所述客戶端服務(wù)器連接,用于獲取所述客戶端服務(wù)器存儲的日志數(shù)據(jù),并對所述日志數(shù)據(jù)進(jìn)行分布式處理,獲得數(shù)據(jù)結(jié)果;
控制臺終端,與所述分布式子系統(tǒng)連接,用于輸出所述數(shù)據(jù)結(jié)果;
所述分布式子系統(tǒng)包括:
管理服務(wù)器,與所述客戶端服務(wù)器連接,用于獲取所述客戶端服務(wù)器存儲的日志數(shù)據(jù);
至少兩臺計(jì)算服務(wù)器,分別與所述管理服務(wù)器連接,用于接收所述管理服務(wù)器發(fā)送的日志數(shù)據(jù)包,對所述日志數(shù)據(jù)包進(jìn)行計(jì)算,并將計(jì)算結(jié)果反饋給所述管理服務(wù)器;
所述管理服務(wù)器與所述控制臺終端連接,用于整合所述計(jì)算服務(wù)器反饋的計(jì)算結(jié)果,獲得所述數(shù)據(jù)結(jié)果,并將所述數(shù)據(jù)結(jié)果發(fā)送給所述控制臺終端。
本實(shí)用新型的目的及解決其技術(shù)問題還可采用以下技術(shù)措施進(jìn)一步實(shí)現(xiàn)。
優(yōu)選的,所述分布式子系統(tǒng)包括:
至少兩臺管理服務(wù)器,每個管理服務(wù)器連接至少一個計(jì)算服務(wù)器。
優(yōu)選的,所述系統(tǒng)還包括:
轉(zhuǎn)存服務(wù)器,分別與所述客戶端服務(wù)器及所述管理服務(wù)器連接,用于導(dǎo)出并存儲所述客戶端服務(wù)器中的日志數(shù)據(jù),并將存儲的日志數(shù)據(jù)發(fā)送給所述管理服務(wù)器。
優(yōu)選的,所述分布式子系統(tǒng)為由三臺管理服務(wù)器和四臺計(jì)算服務(wù)器組成的最低配置的高可用系統(tǒng)。
優(yōu)選的,所述管理服務(wù)器,用于轉(zhuǎn)存與分發(fā)所述日志數(shù)據(jù)。
優(yōu)選的,所述計(jì)算服務(wù)器,用于對所述日志數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和自然語言處理。
優(yōu)選的,所述計(jì)算服務(wù)器,還用于根據(jù)所述日志數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。
優(yōu)選的,所述控制臺終端,用于實(shí)時地展示所述數(shù)據(jù)結(jié)果,匯總所述數(shù)據(jù)結(jié)果。
優(yōu)選的,所述控制臺終端,還用于將所述數(shù)據(jù)結(jié)果匯總成分析數(shù)據(jù)和圖表。
優(yōu)選的,所述控制臺終端,還用于實(shí)時掃描日志,提供報(bào)警信息。
借由上述技術(shù)方案,本實(shí)用新型日志處理系統(tǒng)至少具有下列優(yōu)點(diǎn):
通過客戶端服務(wù)器、分布式子系統(tǒng)、以及控制臺終端,共同完成日志處理??蛻舳朔?wù)器存儲客戶端的日志數(shù)據(jù);管理服務(wù)器獲取日志數(shù)據(jù),將日志數(shù)據(jù)包發(fā)送給計(jì)算服務(wù)器;計(jì)算服務(wù)器對日志數(shù)據(jù)包進(jìn)行計(jì)算,并將計(jì)算結(jié)果反饋給管理服務(wù)器;管理服務(wù)器整合計(jì)算結(jié)果,獲得數(shù)據(jù)結(jié)果,并將數(shù)據(jù)結(jié)果發(fā)送給控制臺終端。分布式子系統(tǒng)采用分布式數(shù)據(jù)處理技術(shù),數(shù)據(jù)處理速度快。用分布式數(shù)據(jù)存儲技術(shù),海量數(shù)據(jù)保存時間長。采用大數(shù)據(jù)處理技術(shù)與搜索技術(shù)相結(jié)合的方案,數(shù)據(jù)處理一次,可重復(fù)多次展現(xiàn)??墒褂媒y(tǒng)計(jì)、機(jī)器學(xué)習(xí)和圖計(jì)算等復(fù)雜計(jì)算處理數(shù)據(jù)。通過復(fù)雜數(shù)據(jù)計(jì)算處理問題。在控制臺終端展示數(shù)據(jù)結(jié)果。
上述說明僅是本實(shí)用新型技術(shù)方案的概述,為了能夠更清楚了解本實(shí)用新型的技術(shù)手段,并可依照說明書的內(nèi)容予以實(shí)施,以下以本實(shí)用新型的較佳實(shí)施例并配合附圖詳細(xì)說明如后。
附圖說明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本實(shí)用新型的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了本實(shí)用新型實(shí)施例提供的一種日志處理系統(tǒng)的結(jié)構(gòu)示意圖;
圖2示出了本實(shí)用新型實(shí)施例提供的另一種日志處理系統(tǒng)的結(jié)構(gòu)示意圖;
具體實(shí)施方式
為更進(jìn)一步闡述本實(shí)用新型為達(dá)成預(yù)定實(shí)用新型目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實(shí)施例,對依據(jù)本實(shí)用新型提出的(名稱)其具體實(shí)施方式、結(jié)構(gòu)、特征及其功效,詳細(xì)說明如后。在下述說明中,不同的“一實(shí)施例”或“實(shí)施例”指的不一定是同一實(shí)施例。此外,一或多個實(shí)施例中的特定特征、結(jié)構(gòu)、或特點(diǎn)可由任何合適形式組合。
本實(shí)用新型實(shí)施例提供的一種日志處理系統(tǒng),如圖1所示,包括:客戶端服務(wù)器11、分布式子系統(tǒng)12以及控制臺終端13。其中,
客戶端服務(wù)器11,用于存儲客戶端的日志數(shù)據(jù)。
在客戶端用戶的操作,以日志的形式記錄??蛻舳朔?wù)器11從客戶端獲取客戶端的日志數(shù)據(jù)??蛻舳朔?wù)器11,可以定時地向客戶端發(fā)送請求信息,請求獲取客戶端的日志數(shù)據(jù),或者可以客戶端產(chǎn)生一條日志數(shù)據(jù)向客戶端服務(wù)器11發(fā)送一條日志數(shù)據(jù)。在本實(shí)施例中,對客戶端服務(wù)器11獲取客戶端的日志數(shù)據(jù)不做限定??蛻舳朔?wù)器11存儲獲取的日志數(shù)據(jù)。
分布式子系統(tǒng)12,與客戶端服務(wù)器11連接,用于獲取客戶端服務(wù)器11存儲的日志數(shù)據(jù),并對日志數(shù)據(jù)進(jìn)行分布式處理,獲得數(shù)據(jù)結(jié)果。
對日志數(shù)據(jù)進(jìn)行分布式處理,對數(shù)據(jù)的處理包括,統(tǒng)計(jì)日志的數(shù)量、負(fù)載流量、頁面瀏覽量、訪問IP數(shù)量等數(shù)據(jù)信息,獲得數(shù)據(jù)結(jié)果。
控制臺終端13,與分布式子系統(tǒng)12連接,用于輸出數(shù)據(jù)結(jié)果。
輸出數(shù)據(jù)結(jié)果,輸出的方式,可以是動態(tài)的圖像數(shù)據(jù),可以是表格數(shù)據(jù)、也定時輸出的圖片數(shù)據(jù)。在本實(shí)施例中,對數(shù)據(jù)結(jié)果的輸出方式不做限定。
分布式子系統(tǒng)12包括:
管理服務(wù)器121,與客戶端服務(wù)器11連接,用于獲取客戶端服務(wù)器11存儲的日志數(shù)據(jù);
至少兩臺計(jì)算服務(wù)器122,分別與管理服務(wù)器121連接,用于接收管理服務(wù)器121發(fā)送的日志數(shù)據(jù)包,對日志數(shù)據(jù)包進(jìn)行計(jì)算,并將計(jì)算結(jié)果反饋給管理服務(wù)器121;
管理服務(wù)器121與控制臺終端13連接,用于整合計(jì)算服務(wù)器122反饋的計(jì)算結(jié)果,獲得數(shù)據(jù)結(jié)果,并將數(shù)據(jù)結(jié)果發(fā)送給控制臺終端13。
對于本實(shí)用新型實(shí)施例,具體的應(yīng)用場景可以如下所示,但不限于此,包括:對于某服務(wù)器的訪問日志,時間范圍是2015年10月28日-2015年12月11日,日志數(shù)量為420多萬條,共19M的壓縮包文件。本次處理要定位并分析服務(wù)器出現(xiàn)的情況。
統(tǒng)計(jì)負(fù)載流量、頁面瀏覽量、日志行數(shù)、以及訪問IP數(shù)量,四個指標(biāo)的趨勢圖。查看四個指標(biāo)的趨勢圖,發(fā)現(xiàn)在12月4日訪問IP數(shù)量的數(shù)據(jù)異常。將12月4日的訪問IP數(shù)量的數(shù)據(jù)進(jìn)行逐小時數(shù)據(jù)展開查看,并發(fā)現(xiàn)16點(diǎn)-17點(diǎn)的數(shù)據(jù)突增。將16-17點(diǎn)進(jìn)行詳細(xì)查看,查看系統(tǒng)頁面中的日志摘要文件。并進(jìn)一步搜索,得知該集中訪問疑似機(jī)器自動掃描程序偽造人為訪問。
通過與用戶的溝通,發(fā)現(xiàn)是用戶方面的服務(wù)器在進(jìn)行全網(wǎng)站內(nèi)容的掃描工作,通過網(wǎng)站訪問日志即可快速的發(fā)現(xiàn)網(wǎng)站的異常訪問,為網(wǎng)站的維護(hù)與安全提供保證。
通過客戶端服務(wù)器11、分布式子系統(tǒng)12、以及控制臺終端13,共同完成日志處理??蛻舳朔?wù)器11存儲客戶端的日志數(shù)據(jù);管理服務(wù)器121獲取日志數(shù)據(jù),將日志數(shù)據(jù)包發(fā)送給計(jì)算服務(wù)器122;計(jì)算服務(wù)器122對日志數(shù)據(jù)包進(jìn)行計(jì)算,并將計(jì)算結(jié)果反饋給管理服務(wù)器121;管理服務(wù)器121整合計(jì)算結(jié)果,獲得數(shù)據(jù)結(jié)果,并將數(shù)據(jù)結(jié)果發(fā)送給控制臺終端13。分布式子系統(tǒng)12采用分布式數(shù)據(jù)處理技術(shù),數(shù)據(jù)處理速度快。用分布式數(shù)據(jù)存儲技術(shù),海量數(shù)據(jù)保存時間長。采用大數(shù)據(jù)處理技術(shù)與搜索技術(shù)相結(jié)合的方案,數(shù)據(jù)處理一次,可重復(fù)多次展現(xiàn)??墒褂媒y(tǒng)計(jì)、機(jī)器學(xué)習(xí)和圖計(jì)算等復(fù)雜計(jì)算處理數(shù)據(jù)。通過復(fù)雜數(shù)據(jù)計(jì)算處理問題。在控制臺終端13展示數(shù)據(jù)結(jié)果。
進(jìn)一步地,作為圖1所示方法的細(xì)化和擴(kuò)展,本實(shí)用新型實(shí)施例還提供了另一種日志處理系統(tǒng),如圖2所示,包括:客戶端服務(wù)器21、分布式子系統(tǒng)22以及控制臺終端23。其中,
客戶端服務(wù)器21,用于存儲客戶端的日志數(shù)據(jù)。
存儲的日志數(shù)據(jù),包括各種數(shù)據(jù)源、內(nèi)部或外部的、結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)的結(jié)構(gòu)都不清晰,充滿了噪音。這些日志數(shù)據(jù)會在不同的系統(tǒng)間傳遞,數(shù)據(jù)的不同處理階段可能需要不同的語言和應(yīng)用程序編程接口。所以在存儲日志數(shù)據(jù)時,需要將存儲數(shù)據(jù)序列化。當(dāng)處理大量日志數(shù)據(jù)時,存儲數(shù)據(jù)的方式,對存儲要求和性能產(chǎn)生巨大影響。
存儲的日志數(shù)據(jù),可以是實(shí)時采集的,也可以通過網(wǎng)絡(luò)文件傳輸或線下文件拷貝獲得。
檢測日志數(shù)據(jù),以保證客戶端服務(wù)器21重啟后,未轉(zhuǎn)存的數(shù)據(jù)不會丟失。
分布式子系統(tǒng)22,與客戶端服務(wù)器21連接,用于獲取客戶端服務(wù)器21存儲的日志數(shù)據(jù),并對日志數(shù)據(jù)進(jìn)行分布式處理,獲得數(shù)據(jù)結(jié)果。
對日志數(shù)據(jù)進(jìn)行處理時,主要采用流式計(jì)算和大規(guī)模批處理計(jì)算。流式計(jì)算,是把實(shí)時日志數(shù)據(jù)的各個計(jì)算結(jié)果累計(jì)在時間序列上。大規(guī)模批處理方式計(jì)算,是把計(jì)算結(jié)果分布在時間序列上。計(jì)算時,使用了數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和智能計(jì)算,為系統(tǒng)管理和數(shù)據(jù)分析人員提供歷史統(tǒng)計(jì)、趨勢分析和決策支持?jǐn)?shù)據(jù)。將數(shù)據(jù)結(jié)果存入關(guān)系型數(shù)據(jù)庫,分布式存儲。
控制臺終端23,與分布式子系統(tǒng)22連接,用于輸出數(shù)據(jù)結(jié)果。
分布式子系統(tǒng)22包括:
管理服務(wù)器221,與客戶端服務(wù)器21連接,用于獲取客戶端服務(wù)器21存儲的日志數(shù)據(jù);
至少兩臺計(jì)算服務(wù)器222,分別與管理服務(wù)器221連接,用于接收管理服務(wù)器發(fā)送的日志數(shù)據(jù)包,對日志數(shù)據(jù)包進(jìn)行計(jì)算,并將計(jì)算結(jié)果反饋給管理服務(wù)器;
管理服務(wù)器221與控制臺終端23連接,用于整合計(jì)算服務(wù)器反饋的計(jì)算結(jié)果,獲得數(shù)據(jù)結(jié)果,并將數(shù)據(jù)結(jié)果發(fā)送給控制臺終端23。
優(yōu)選的,分布式子系統(tǒng)22包括:
至少兩臺管理服務(wù)器221,每個管理服務(wù)器221連接至少一個計(jì)算服務(wù)器。
優(yōu)選的,系統(tǒng)還包括:
轉(zhuǎn)存服務(wù)器24,分別與客戶端服務(wù)器21及管理服務(wù)器221連接,用于導(dǎo)出并存儲客戶端服務(wù)器21中的日志數(shù)據(jù),并將存儲的日志數(shù)據(jù)發(fā)送給管理服務(wù)器221。
積累一定數(shù)量的日志數(shù)據(jù)后,再將日志數(shù)據(jù)轉(zhuǎn)存至分布式存儲上,這樣可以保證日志數(shù)據(jù)在轉(zhuǎn)出過程中的安全性與完整性。
優(yōu)選的,分布式子系統(tǒng)22為由三臺管理服務(wù)器221和四臺計(jì)算服務(wù)器222組成的最低配置的高可用系統(tǒng)。
從理論上說,管理服務(wù)器221與計(jì)算服務(wù)器222,可以由服務(wù)器虛擬多個虛擬節(jié)點(diǎn)運(yùn)行,但是要保證為每個虛擬節(jié)點(diǎn)分配足夠的內(nèi)存,以確保計(jì)算效率。
優(yōu)選的,管理服務(wù)器221,用于轉(zhuǎn)存與分發(fā)日志數(shù)據(jù)。
優(yōu)選的,計(jì)算服務(wù)器222,用于對日志數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和自然語言處理。
在日志信息加載到存儲器后,所有的數(shù)據(jù)處理工作才能開始,使用一專用的基于高度結(jié)構(gòu)化和優(yōu)化過的數(shù)據(jù)結(jié)構(gòu)的查詢語言。在日志數(shù)據(jù)中,包括數(shù)據(jù)和自然語言。在對日志數(shù)據(jù)進(jìn)行處理時,由于處理方式不同,要分別進(jìn)行處理。自然語言處理的重點(diǎn)是利用凌亂的、有人類創(chuàng)造的文本并提取有意義的信息。數(shù)據(jù)處理包括數(shù)據(jù)的提取、分類、計(jì)算等過程。
優(yōu)選的,計(jì)算服務(wù)器222,還用于根據(jù)日志數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)系統(tǒng)根據(jù)數(shù)據(jù)做出自動化決策,系統(tǒng)利用訓(xùn)練的信息來處理后續(xù)的數(shù)據(jù)點(diǎn),自生成類似于推薦或分組的輸出結(jié)果。把一次性的數(shù)據(jù)分析轉(zhuǎn)化成的生成服務(wù)的行為,而且這些行為在沒有監(jiān)督的情況下也能根據(jù)新的數(shù)據(jù)執(zhí)行類似的動作。
優(yōu)選的,控制臺終端23,用于實(shí)時地展示數(shù)據(jù)結(jié)果,匯總數(shù)據(jù)結(jié)果。
提取日志數(shù)據(jù)中的重要部分,表達(dá)日志數(shù)據(jù)的含義,然后呈現(xiàn)出匯總數(shù)據(jù)結(jié)果??焖偬剿魅罩緮?shù)據(jù)的規(guī)律,并展示易于理解的數(shù)據(jù)結(jié)果。
優(yōu)選的,控制臺終端23,還用于將數(shù)據(jù)結(jié)果匯總成分析數(shù)據(jù)和圖表。
匯總的分析數(shù)據(jù)和圖表,可以以郵件或文檔的形式保存或顯示。
優(yōu)選的,控制臺終端23,還用于實(shí)時掃描日志,提供報(bào)警信息。
報(bào)警信息是為監(jiān)控人員提供的,報(bào)警信息可以通過聲音,界面顏色的變化,或界面只能優(yōu)先處理報(bào)警信息等方式,達(dá)到提醒監(jiān)控人員的目的。
通過控制臺終端展示數(shù)據(jù)結(jié)果,僅通過鼠標(biāo)操作即可定位日志異常的時間區(qū)。通過圖形化的日志摘要,進(jìn)一步找到數(shù)據(jù)項(xiàng)的具體值。而且通過搜索關(guān)鍵詞,詳細(xì)排查具體問題。通過同步查看日志明細(xì),了解初始日志數(shù)據(jù),綜合判斷問題所在。
對于本實(shí)用新型實(shí)施例,具體的應(yīng)用場景可以如下所示,但不限于此,包括:系統(tǒng)對實(shí)時的日志數(shù)據(jù)每隔10分鐘進(jìn)行一個數(shù)據(jù)圖形化呈現(xiàn),如果在頁面中發(fā)現(xiàn)異常,或者需要詳細(xì)查看的位置,可以快速進(jìn)入相關(guān)時間段的日志明細(xì)頁面,同時可以進(jìn)行關(guān)鍵字的搜索處理。
假設(shè)發(fā)現(xiàn)某日的流量突降,快速找到異常的時間,并且打開相關(guān)時間段的日志明細(xì)進(jìn)行查看,也可以進(jìn)行關(guān)鍵字的搜索處理。查看事件報(bào)警的情況,可以進(jìn)行詳細(xì)查看,也可以鏈接到該事件發(fā)生時間的搜索頁面進(jìn)行定位查看。對于事件報(bào)警的情況,可以對事件進(jìn)行備注處理。
通過客戶端服務(wù)器21、分布式子系統(tǒng)22、以及控制臺終端23,共同完成日志處理??蛻舳朔?wù)器21存儲客戶端的日志數(shù)據(jù);管理服務(wù)器221獲取日志數(shù)據(jù),將日志數(shù)據(jù)包發(fā)送給計(jì)算服務(wù)器222;計(jì)算服務(wù)器222對日志數(shù)據(jù)包進(jìn)行計(jì)算,并將計(jì)算結(jié)果反饋給管理服務(wù)器221;管理服務(wù)器221整合計(jì)算結(jié)果,獲得數(shù)據(jù)結(jié)果,并將數(shù)據(jù)結(jié)果發(fā)送給控制臺終端23。分布式子系統(tǒng)22采用分布式數(shù)據(jù)處理技術(shù),數(shù)據(jù)處理速度快。用分布式數(shù)據(jù)存儲技術(shù),海量數(shù)據(jù)保存時間長。采用大數(shù)據(jù)處理技術(shù)與搜索技術(shù)相結(jié)合的方案,數(shù)據(jù)處理一次,可重復(fù)多次展現(xiàn)。可使用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和圖計(jì)算等復(fù)雜計(jì)算處理數(shù)據(jù)。通過復(fù)雜數(shù)據(jù)計(jì)算處理問題。在控制臺終端23展示數(shù)據(jù)結(jié)果,將數(shù)據(jù)結(jié)果匯總成分析數(shù)據(jù)和圖表的形式,并實(shí)施掃描日志,若出現(xiàn)異常日志則提供報(bào)警信息。
以上所述,僅是本實(shí)用新型的較佳實(shí)施例而已,并非對本實(shí)用新型作任何形式上的限制,依據(jù)本實(shí)用新型的技術(shù)實(shí)質(zhì)對以上實(shí)施例所作的任何簡單修改、等同變化與修飾,均仍屬于本實(shí)用新型技術(shù)方案的范圍內(nèi)。