一種數(shù)據(jù)采集方法和系統(tǒng)的制作方法
【專(zhuān)利摘要】本公開(kāi)實(shí)施例提供一種數(shù)據(jù)采集方法及裝置,其中的方法具體包括:采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的日志信息;根據(jù)相應(yīng)業(yè)務(wù)需求配置數(shù)據(jù)采集任務(wù)規(guī)則;其中,所述數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)至少一個(gè)特征信息;根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù);存儲(chǔ)所述目標(biāo)數(shù)據(jù)采集結(jié)果。本公開(kāi)實(shí)施例能夠豐富數(shù)據(jù)中心平臺(tái),同時(shí)可以根據(jù)數(shù)據(jù)采集結(jié)果為用戶提供更人性化的服務(wù),并更加的完善業(yè)務(wù)平臺(tái)。
【專(zhuān)利說(shuō)明】
一種數(shù)據(jù)采集方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001]本公開(kāi)涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種數(shù)據(jù)采集方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)采集技術(shù)已滲透到各行各業(yè)以及各種技術(shù)領(lǐng)域中。
[0003]日志是網(wǎng)絡(luò)設(shè)備、系統(tǒng)及服務(wù)程序等在運(yùn)行時(shí)產(chǎn)生的一個(gè)叫l(wèi)og的事件記錄;每一行日志都記載著日期、時(shí)間、使用者及動(dòng)作等相關(guān)操作的描述信息。日志記錄了系統(tǒng)的生命周期,通過(guò)查閱日志,可以了解到系統(tǒng)在某個(gè)時(shí)刻所處的狀態(tài);通過(guò)對(duì)日志的分析,收集有用的數(shù)據(jù),可以得到用戶的使用信息和訪問(wèn)統(tǒng)計(jì),為服務(wù)系統(tǒng)的優(yōu)化和網(wǎng)絡(luò)安全問(wèn)題預(yù)防等提供依據(jù)。
[0004]但是現(xiàn)有的數(shù)據(jù)采集方法僅可以從數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)文件中進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的采集,卻忽略了對(duì)于涵蓋大量用戶行為數(shù)據(jù)的日志信息中非結(jié)構(gòu)化數(shù)據(jù)的采集,因此采集的關(guān)于用戶行為的數(shù)據(jù)不夠豐富。
【發(fā)明內(nèi)容】
[0005]本公開(kāi)實(shí)施例提供一種數(shù)據(jù)采集方法和系統(tǒng),用以解決現(xiàn)有數(shù)據(jù)采集方法采集的關(guān)于用戶行為的數(shù)據(jù)不夠豐富的問(wèn)題,能夠豐富數(shù)據(jù)中心平臺(tái),同時(shí)可以根據(jù)數(shù)據(jù)采集結(jié)果為用戶提供更人性化的服務(wù),并更加的完善業(yè)務(wù)平臺(tái)。
[0006]本公開(kāi)實(shí)施例提供一種數(shù)據(jù)采集方法,包括:
[0007]采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的日志信息;
[0008]根據(jù)相應(yīng)業(yè)務(wù)需求配置數(shù)據(jù)采集任務(wù)規(guī)則;其中,所述數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)至少一個(gè)特征信息;
[0009]根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù);
[0010]存儲(chǔ)所述目標(biāo)數(shù)據(jù)采集結(jié)果。
[0011 ]本公開(kāi)實(shí)施例提供一種數(shù)據(jù)采集系統(tǒng),包括:日志信息存儲(chǔ)模塊,數(shù)據(jù)采集任務(wù)配置模塊,日志數(shù)據(jù)采集模塊,及目標(biāo)數(shù)據(jù)存儲(chǔ)模塊;
[0012]其中,所述日志信息存儲(chǔ)模塊,用于采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的日志信息;
[0013]所述數(shù)據(jù)采集任務(wù)配置模塊,用于根據(jù)相應(yīng)業(yè)務(wù)需求配置數(shù)據(jù)采集任務(wù)規(guī)則;其中,所述數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)至少一個(gè)特征信息;
[0014]所述日志數(shù)據(jù)采集模塊,用于根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述日志信息存儲(chǔ)模塊中存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù);及
[0015]所述目標(biāo)數(shù)據(jù)存儲(chǔ)模塊,用于存儲(chǔ)所述日志數(shù)據(jù)采集模塊輸出的所述目標(biāo)數(shù)據(jù)。
[0016]本公開(kāi)實(shí)施例提供一種數(shù)據(jù)采集方法和系統(tǒng),一方面,采用分布式存儲(chǔ)方式存儲(chǔ)日志信息,可以有效的降低對(duì)單機(jī)CPU及資源的性能要求,降低了數(shù)據(jù)采集的成本;另一方面,本公開(kāi)實(shí)施例可以通過(guò)解析日志信息,從而根據(jù)配置的數(shù)據(jù)采集任務(wù)規(guī)則從解析結(jié)果中進(jìn)行目標(biāo)數(shù)據(jù)的采集,由于大量的日志信息中包含了大量的用戶數(shù)據(jù)、用戶操作行為數(shù)據(jù)及業(yè)務(wù)數(shù)據(jù),因此采集結(jié)果不但豐富了數(shù)據(jù)中心平臺(tái),同時(shí)可以使得根據(jù)數(shù)據(jù)采集結(jié)果對(duì)用戶行為習(xí)慣及業(yè)務(wù)操作進(jìn)行有效的分析,以更了解用戶的需求,從而能夠?yàn)橛脩籼峁└诵曰姆?wù),并更加的完善業(yè)務(wù)平臺(tái)。
【附圖說(shuō)明】
[0017]為了更清楚地說(shuō)明本公開(kāi)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本公開(kāi)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018]圖1為本公開(kāi)的一種數(shù)據(jù)采集方法實(shí)施例一的步驟流程圖;
[0019]圖2為本公開(kāi)的一種用戶活動(dòng)圖譜示意圖;
[0020]圖3為本公開(kāi)的一種數(shù)據(jù)采集方法實(shí)施例二的步驟流程圖;
[0021 ]圖4為本公開(kāi)的一種數(shù)據(jù)采集系統(tǒng)實(shí)施例一的結(jié)構(gòu)示意圖;
[0022]圖5為本公開(kāi)的一種數(shù)據(jù)采集系統(tǒng)實(shí)施例二的結(jié)構(gòu)示意圖;及
[0023]圖6為本公開(kāi)的一種數(shù)據(jù)采集系統(tǒng)實(shí)施例三的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0024]為使本公開(kāi)實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本公開(kāi)實(shí)施例中的附圖,對(duì)本公開(kāi)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本公開(kāi)一部分實(shí)施例,而不是全部的實(shí)施例?;诒竟_(kāi)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本公開(kāi)保護(hù)的范圍。
[0025]方法實(shí)施例一
[0026]參照?qǐng)D1,示出了本公開(kāi)的一種數(shù)據(jù)采集方法實(shí)施例一的步驟流程圖,具體可以包括:
[0027]步驟101、采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的日志信息;
[0028]本公開(kāi)實(shí)施例中業(yè)務(wù)的日志信息可以采用分布式的存儲(chǔ)方式進(jìn)行存儲(chǔ),也即將日志文件均勻分布到多個(gè)數(shù)據(jù)服務(wù)器上進(jìn)行存儲(chǔ),對(duì)這些數(shù)據(jù)服務(wù)器的資源進(jìn)行統(tǒng)一的管理與分配,并向用戶提供文件系統(tǒng)訪問(wèn)接口,采用分布式存儲(chǔ)的方式可以有效解決的大量的日志信息文件占用的資源過(guò)多,導(dǎo)致對(duì)單機(jī)存儲(chǔ)資源及CPU性能等多方面的要求較高的問(wèn)題,可以有效解決日志信息文件大小、日志信息文件數(shù)量、打開(kāi)日志信息文件數(shù)等的限制問(wèn)題。
[0029]本公開(kāi)實(shí)施例中,日志信息具體可以包括本公開(kāi)實(shí)施例中,日志信息具體可以包括用戶行為習(xí)慣以及業(yè)務(wù)信息數(shù)據(jù),例如,從轉(zhuǎn)碼日志信息中包括開(kāi)始下載時(shí)間、環(huán)境初始化時(shí)間、片源檢測(cè)時(shí)間、關(guān)鍵幀掃描時(shí)間、切片時(shí)間、文件轉(zhuǎn)碼時(shí)間、音頻處理、字幕處理時(shí)間、成品檢測(cè)時(shí)間等數(shù)據(jù);再如:存儲(chǔ)在分布式文件系統(tǒng)中的媒體文件日志信息(MediaInfo文件)中,具體可以包括:碼率、幀率、大小、視頻時(shí)長(zhǎng)、音頻時(shí)長(zhǎng)、視頻格式、音頻格式、聲道數(shù)、視頻碼率、音頻碼率等數(shù)據(jù)信息。
[0030]可以理解,上述轉(zhuǎn)碼日志信息以及媒體文件日志信息僅作為本公開(kāi)實(shí)施例的日志信息的一種示例,而不理解為本公開(kāi)實(shí)施例中日志信息的限定,實(shí)際上,日志信息具體可以包括由用戶操作產(chǎn)生的用戶相關(guān)日志信息,以及業(yè)務(wù)處理過(guò)程中產(chǎn)生的業(yè)務(wù)相關(guān)的日志信息,本公開(kāi)實(shí)施例對(duì)日志信息不做具體限定。
[0031]本公開(kāi)實(shí)施例中,對(duì)日志信息進(jìn)行分布式存儲(chǔ)的過(guò)程參照現(xiàn)有分布式存儲(chǔ)文件信息的過(guò)程即可,本公開(kāi)實(shí)施例對(duì)此不作具體限制。
[0032]步驟102、根據(jù)相應(yīng)業(yè)務(wù)需求配置數(shù)據(jù)采集任務(wù)規(guī)則;其中,所述數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)至少一個(gè)特征信息;
[0033]本公開(kāi)實(shí)施例中,上述數(shù)據(jù)采集任務(wù)規(guī)則可以根據(jù)需求預(yù)先制定,可以根據(jù)預(yù)采集的目標(biāo)數(shù)據(jù)及目標(biāo)數(shù)據(jù)對(duì)應(yīng)的特征信息制定相應(yīng)的數(shù)據(jù)采集任務(wù)規(guī)則,由于預(yù)采集的目標(biāo)數(shù)據(jù)可能涉及一個(gè)或者多個(gè)特征信息,因此相應(yīng)的數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)一個(gè)或者多個(gè)特征信息,例如:目標(biāo)數(shù)據(jù)為最近一個(gè)月之內(nèi),上海結(jié)點(diǎn)視頻上傳成功的視頻總量,其中涉及的特征信息具體包括:地域特征信息為:上海,時(shí)間范圍特征信息為:最近一個(gè)月(例如:2015/10/01至2015/11/01),視頻上傳狀態(tài)特征信息為:成功共三個(gè)特征信息,則數(shù)據(jù)采集任務(wù)規(guī)則相應(yīng)的對(duì)應(yīng)該三個(gè)特征信息,對(duì)應(yīng)的數(shù)據(jù)采集任務(wù)規(guī)則即可以為:統(tǒng)計(jì)地域特征信息為上海、且視頻上傳時(shí)間在2015/10/01至2015/11/01間、且視頻上傳狀態(tài)為成功的視頻的數(shù)量;
[0034]本公開(kāi)實(shí)施例中,用戶可以在用戶交互界面上進(jìn)行數(shù)據(jù)采集任務(wù)規(guī)則的配置,例如:業(yè)務(wù)需要統(tǒng)計(jì)最近一個(gè)月之內(nèi),上海結(jié)點(diǎn)視頻上傳成功的視頻總量,也即目標(biāo)數(shù)據(jù)為最近一個(gè)月之內(nèi),上海結(jié)點(diǎn)視頻上傳成功的視頻總量,則在用戶交互界面上配置上述數(shù)據(jù)采集任務(wù)規(guī)則為統(tǒng)計(jì)地域特征信息為上海、且視頻上傳時(shí)間在2015/10/01至2015/11/01間、且視頻上傳狀態(tài)為成功的視頻的數(shù)量,相應(yīng)的,可以配置特征信息:地域特征信息為:上海,時(shí)間范圍特征信息為:最近一個(gè)月(例如:2015/10/01至2015/11/01),視頻上傳狀態(tài)特征信息為:成功。
[0035]可以理解,上述通過(guò)用戶交互界面進(jìn)行數(shù)據(jù)采集任務(wù)規(guī)則的配置僅作為本公開(kāi)實(shí)施例中配置數(shù)據(jù)采集任務(wù)規(guī)則的一種方式,而不理解為是對(duì)本公開(kāi)實(shí)施例中配置數(shù)據(jù)采集任務(wù)規(guī)則的一種限定,實(shí)際上也可以由本領(lǐng)域技術(shù)人員直接根據(jù)業(yè)務(wù)需求編寫(xiě)配置文件,從而實(shí)現(xiàn)數(shù)據(jù)采集任務(wù)規(guī)則的配置;本公開(kāi)實(shí)施例在此對(duì)上述數(shù)據(jù)采集任務(wù)規(guī)則的配置方式不做具體限定。
[0036]步驟103、根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù);
[0037]在本公開(kāi)的一種可選實(shí)施例中,所述根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù)的步驟103,具體可以包括:
[0038]步驟Al、從所述存儲(chǔ)的日志信息中獲取對(duì)應(yīng)業(yè)務(wù)的目標(biāo)日志信息;
[0039]步驟A2、對(duì)所述目標(biāo)日志信息進(jìn)行解析,以根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從解析結(jié)果中采集所述目標(biāo)數(shù)據(jù)。
[0040]由于本公開(kāi)實(shí)施例中,日志信息存儲(chǔ)服務(wù)器中可以存儲(chǔ)多個(gè)業(yè)務(wù)的日志信息,例如:上傳任務(wù)、下載任務(wù)、存儲(chǔ)任務(wù)及轉(zhuǎn)碼任務(wù)等等,因此,需要根據(jù)業(yè)務(wù)種類(lèi)來(lái)提取對(duì)應(yīng)業(yè)務(wù)的目標(biāo)日志信息,例如:業(yè)務(wù)類(lèi)型為上傳,則日志信息存儲(chǔ)服務(wù)器中上傳任務(wù)對(duì)應(yīng)的日志信息即為目標(biāo)日志信息。
[0041 ]本公開(kāi)實(shí)施例中,可以通過(guò)對(duì)日志信息進(jìn)行解析獲得日志信息中攜帶的數(shù)據(jù),例如:獲取的一條對(duì)應(yīng)于上傳業(yè)務(wù)的日志信息為:2015-10-2010:00: 30user = lOOlupload afile IP= 10.80.25.32success,則解析該H志信息得到的解析結(jié)果為:上傳日期:2015-10-20 ;上傳時(shí)間:10:00:30;用戶:1001; IP: 10.80.25.32;上傳狀態(tài):success ;并根據(jù)數(shù)據(jù)采集任務(wù)規(guī)則從解析結(jié)果中采集所述目標(biāo)數(shù)據(jù),也即根據(jù)數(shù)據(jù)任務(wù)采集規(guī)則對(duì)解析結(jié)果進(jìn)行分析,以采集目標(biāo)數(shù)據(jù),例如:數(shù)據(jù)采集任務(wù)規(guī)則為統(tǒng)計(jì)地域特征信息為上海、且視頻上傳日期在2015/10/01至2015/11/01間、且視頻上傳狀態(tài)為成功的視頻的數(shù)量,則可以對(duì)獲取的日志信息的解析結(jié)果進(jìn)行遍歷分析,統(tǒng)計(jì)滿足IP地址對(duì)應(yīng)上海,且上傳日期在2015/10/01至2015/11/01間,且上傳狀態(tài)為success的日志信息的數(shù)量,即為最終目標(biāo)數(shù)據(jù)的采集結(jié)果。
[0042]可以理解,上述數(shù)據(jù)采集任務(wù)規(guī)則為統(tǒng)計(jì)地域特征信息為上海、且視頻上傳日期在2015/10/01至2015/11/01間、且視頻上傳狀態(tài)為成功的視頻的數(shù)量?jī)H作為本公開(kāi)實(shí)施例中數(shù)據(jù)采集任務(wù)規(guī)則的一種實(shí)例,而不理解為是對(duì)本公開(kāi)實(shí)施例中數(shù)據(jù)采集任務(wù)規(guī)則的一種限定,實(shí)際上,數(shù)據(jù)采集任務(wù)規(guī)則可以由本領(lǐng)域人員根據(jù)業(yè)務(wù)需求進(jìn)行設(shè)定,例如:業(yè)務(wù)需要統(tǒng)計(jì)用戶A在時(shí)間段B內(nèi)上傳失敗的視頻數(shù)量,則對(duì)應(yīng)的數(shù)據(jù)采集任務(wù)規(guī)則為:統(tǒng)計(jì)用戶特征信息為用戶A,且時(shí)間范圍特征信息為時(shí)間段B,且上傳狀態(tài)為失敗的日志信息總數(shù);本公開(kāi)實(shí)施例在此不對(duì)數(shù)據(jù)采集任務(wù)規(guī)則進(jìn)行限定。
[0043]步驟104、存儲(chǔ)所述目標(biāo)數(shù)據(jù)采集結(jié)果。
[0044]在本公開(kāi)的一種可選實(shí)施例中,本公開(kāi)實(shí)施例具體還可以包括:
[0045]接收至少一個(gè)業(yè)務(wù)上傳的日志信息;和/或,
[0046]從所述至少一個(gè)業(yè)務(wù)中讀取日志信息。
[0047]也即,本公開(kāi)實(shí)施例可以通過(guò)訪問(wèn)業(yè)務(wù)的業(yè)務(wù)日志信息存儲(chǔ)介質(zhì),并從業(yè)務(wù)日志信息存儲(chǔ)介質(zhì)中讀取所述日志信息;也可以接收所述業(yè)務(wù)通過(guò)API接口上傳的所述日志信息,本公開(kāi)實(shí)施例在此對(duì)于日志信息的獲取方式不做具體限定。
[0048]本公開(kāi)實(shí)施例中可以從日志信息中進(jìn)行數(shù)據(jù)的采集,其采集結(jié)果中具體可以涵蓋用戶、內(nèi)容、生產(chǎn)過(guò)程以及研發(fā)指標(biāo)的數(shù)據(jù),進(jìn)而對(duì)上述數(shù)據(jù)進(jìn)行分析,可以得到更為精細(xì)的數(shù)據(jù)分析,如得到用戶活動(dòng)圖譜分析,用戶精細(xì)化運(yùn)營(yíng)等等,例如:參照?qǐng)D2,示出了本公開(kāi)實(shí)施例中一種用戶活動(dòng)圖譜示意圖,其尅根據(jù)對(duì)采集的數(shù)據(jù)為某一用戶使用某一應(yīng)用程序所產(chǎn)生的所有日志信息進(jìn)行數(shù)據(jù)采集及分析得到。
[0049]綜上,本公開(kāi)實(shí)施例中提供的一種數(shù)據(jù)采集方法,一方面,采用分布式存儲(chǔ)方式存儲(chǔ)日志信息,可以有效的降低對(duì)單機(jī)CPU及資源的性能要求,降低了數(shù)據(jù)采集的成本;另一方面,本公開(kāi)實(shí)施例可以通過(guò)解析日志信息,從而根據(jù)配置的數(shù)據(jù)采集任務(wù)規(guī)則進(jìn)行目標(biāo)數(shù)據(jù)的采集,由于大量的日志信息中包含了大量的用戶數(shù)據(jù)、用戶操作行為數(shù)據(jù)及業(yè)務(wù)數(shù)據(jù),因此采集結(jié)果不但豐富了數(shù)據(jù)中心平臺(tái),同時(shí)可以使得根據(jù)數(shù)據(jù)采集結(jié)果對(duì)用戶行為習(xí)慣及業(yè)務(wù)操作進(jìn)行有效的分析,以更了解用戶的需求,從而能夠?yàn)橛脩籼峁└诵曰姆?wù),并更加的完善業(yè)務(wù)平臺(tái)。
[0050]方法實(shí)施例二
[0051]參照?qǐng)D3,示出了本公開(kāi)一種數(shù)據(jù)采集方法實(shí)施例二的步驟流程圖,具體可以包括:
[0052]步驟301、采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的日志信息;
[0053]步驟302、根據(jù)相應(yīng)業(yè)務(wù)需求配置數(shù)據(jù)采集任務(wù)規(guī)則;所述數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)至少一個(gè)特征信息;其中,所述數(shù)據(jù)采集任務(wù)中還包括:數(shù)據(jù)采集接口信息;
[0054]步驟303、根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù);
[0055]步驟304、根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述數(shù)據(jù)庫(kù)中采集目標(biāo)數(shù)據(jù);和/或
[0056]根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述文本文件中采集目標(biāo)數(shù)據(jù);
[0057]步驟305、存儲(chǔ)所述目標(biāo)數(shù)據(jù)采集結(jié)果。
[0058]相對(duì)于方法實(shí)施例一,本公開(kāi)實(shí)施例中增加了步驟304,該步驟304中可以從數(shù)據(jù)庫(kù),和/或文本文件中進(jìn)行目標(biāo)數(shù)據(jù)的采集,也即本公開(kāi)實(shí)施例中可以基于多個(gè)數(shù)據(jù)源進(jìn)行數(shù)據(jù)的采集,數(shù)據(jù)采集結(jié)果更為豐富。
[0059]本公開(kāi)實(shí)施例中,上述數(shù)據(jù)采集接口信息具體可以包括:數(shù)據(jù)源的名稱(chēng)、數(shù)據(jù)存儲(chǔ)方式和數(shù)據(jù)存儲(chǔ)格式,其中,上述數(shù)據(jù)存儲(chǔ)方式具體可以包括:數(shù)據(jù)的存儲(chǔ)類(lèi)型及存儲(chǔ)位置,存儲(chǔ)類(lèi)型具體可以包括:數(shù)據(jù)庫(kù)類(lèi)型,例如:My 8卩1、0^(:16等,文本類(lèi)型,如:丨1七、syslog等,日志信息,如:web日志,操作系統(tǒng)日志等;對(duì)于數(shù)據(jù)庫(kù)類(lèi)型的數(shù)據(jù),數(shù)據(jù)采集接口信息中具體還需要指明數(shù)據(jù)庫(kù)所在的主機(jī)IP地址、數(shù)據(jù)庫(kù)名稱(chēng)、用戶名、密碼;對(duì)于文本類(lèi)型的數(shù)據(jù),數(shù)據(jù)采集接口信息中具體還需要指明文件的存儲(chǔ)路徑;數(shù)據(jù)存儲(chǔ)格式是指數(shù)據(jù)本身的格式,對(duì)于數(shù)據(jù)庫(kù)數(shù)據(jù),上述數(shù)據(jù)庫(kù)存儲(chǔ)格式包括要讀取的數(shù)據(jù)表名,字段名,主鍵信息;對(duì)于文本類(lèi)型,上述數(shù)據(jù)庫(kù)存儲(chǔ)格式則主要包括文件的名稱(chēng),以及關(guān)鍵字信息。
[0060]以下通過(guò)具體示例對(duì)本公開(kāi)實(shí)施例中,從數(shù)據(jù)庫(kù)中采集數(shù)據(jù)加以說(shuō)明:
[0061]例如,業(yè)務(wù)需要從生產(chǎn)數(shù)據(jù)庫(kù)中采集片源上傳數(shù)據(jù),即數(shù)據(jù)采集接口信息中具體可以包括:數(shù)據(jù)源:生產(chǎn)數(shù)據(jù)庫(kù),數(shù)據(jù)存儲(chǔ)類(lèi)型:My sql,數(shù)據(jù)存儲(chǔ)位置:上傳任務(wù)表等信息,以從上述生產(chǎn)數(shù)據(jù)庫(kù)的上傳任務(wù)表中采集片源上傳數(shù)據(jù),所述數(shù)據(jù)具體可以包括:文件大小、文件名稱(chēng)、上傳用戶、上傳客戶端IP、開(kāi)始上傳時(shí)間、上傳完成時(shí)間、存儲(chǔ)節(jié)點(diǎn)等。
[0062]本公開(kāi)實(shí)施例中可以根據(jù)數(shù)據(jù)采集接口信息確定當(dāng)前數(shù)據(jù)采集任務(wù)的數(shù)據(jù)源是數(shù)據(jù)庫(kù),或者文本文件,或者日志信息。
[0063]在本公開(kāi)的一種可選實(shí)施例中,上述方法具體還可以包括:
[0064]采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的數(shù)據(jù)庫(kù)數(shù)據(jù)信息;和/或
[0065]采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的文本文件信息。
[0066]也即,本公開(kāi)實(shí)施例中,數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)信息以及文本文件也可以采用分布式存儲(chǔ)方式進(jìn)行存儲(chǔ),以使得能夠降低對(duì)單機(jī)的cpu及資源的性能的要求,進(jìn)而節(jié)約數(shù)據(jù)采集的成本。
[0067]需要說(shuō)明的是,對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請(qǐng)實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本申請(qǐng)實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本申請(qǐng)實(shí)施例所必須的。
[0068]裝置實(shí)施例一
[0069]參照?qǐng)D4,示出了本公開(kāi)的一種數(shù)據(jù)采集系統(tǒng)實(shí)施例一的結(jié)構(gòu)示意圖,具體可以包括:日志信息存儲(chǔ)模塊401,數(shù)據(jù)采集任務(wù)配置模塊402,日志數(shù)據(jù)采集模塊403,及目標(biāo)數(shù)據(jù)存儲(chǔ)模塊404;
[0070]其中,所述日志信息存儲(chǔ)模塊401,可以用于采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的日志信息;
[0071]所述數(shù)據(jù)采集任務(wù)配置模塊402,可以用于根據(jù)相應(yīng)業(yè)務(wù)需求配置數(shù)據(jù)采集任務(wù)規(guī)則;其中,所述數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)至少一個(gè)特征信息;
[0072]所述日志數(shù)據(jù)采集模塊403,可以用于根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述日志信息存儲(chǔ)模塊401中存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù);及
[0073]所述目標(biāo)數(shù)據(jù)存儲(chǔ)模塊304,可以用于存儲(chǔ)所述日志數(shù)據(jù)采集模塊輸出的所述目標(biāo)數(shù)據(jù)。
[0074]裝置實(shí)施例二
[0075]參照?qǐng)D5,示出了本公開(kāi)的一種數(shù)據(jù)采集系統(tǒng)實(shí)施例一的結(jié)構(gòu)示意圖,具體可以包括:日志信息存儲(chǔ)模塊501,數(shù)據(jù)采集任務(wù)配置模塊502,日志數(shù)據(jù)采集模塊503,及目標(biāo)數(shù)據(jù)存儲(chǔ)模塊504;
[0076]其中,所述日志信息存儲(chǔ)模塊501,可以用于采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的日志信息;
[0077]所述數(shù)據(jù)采集任務(wù)配置模塊502,可以用于根據(jù)相應(yīng)業(yè)務(wù)需求配置數(shù)據(jù)采集任務(wù)規(guī)則;其中,所述數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)至少一個(gè)特征信息;
[0078]所述日志數(shù)據(jù)采集模塊503,可以用于根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述日志信息存儲(chǔ)模塊501中存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù);及
[0079]所述目標(biāo)數(shù)據(jù)存儲(chǔ)模塊504,可以用于存儲(chǔ)所述日志數(shù)據(jù)采集模塊輸出的所述目標(biāo)數(shù)據(jù)。
[0080]其中,上述日志數(shù)據(jù)采集模塊503,具體可以包括:日志信息獲取子模塊4031和日志信息解析子模塊5032;其中,
[0081]所述日志信息獲取子模塊5031,可以用于從所述日志信息存儲(chǔ)模塊中獲取對(duì)應(yīng)業(yè)務(wù)的目標(biāo)日志信息;
[0082]所述日志信息解析子模塊5032,可以用于對(duì)所述日志信息獲取子模塊獲取的所述目標(biāo)日志信息進(jìn)行解析,以根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從解析結(jié)果中采集所述目標(biāo)數(shù)據(jù)。
[0083]裝置實(shí)施例三
[0084]參照?qǐng)D6,示出了本公開(kāi)的一種數(shù)據(jù)采集系統(tǒng)實(shí)施例三的結(jié)構(gòu)示意圖,具體可以包括:日志信息存儲(chǔ)模塊601、數(shù)據(jù)采集任務(wù)配置模塊602,日志數(shù)據(jù)采集模塊603,數(shù)據(jù)庫(kù)數(shù)據(jù)采集模塊604、文本文件數(shù)據(jù)采集模塊605及目標(biāo)數(shù)據(jù)存儲(chǔ)模塊606、
[0085]其中,所述日志信息存儲(chǔ)模塊601,可以用于采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的日志信息;
[0086]所述數(shù)據(jù)采集任務(wù)配置模塊602,可以用于根據(jù)相應(yīng)業(yè)務(wù)需求配置數(shù)據(jù)采集任務(wù)規(guī)則;其中,所述數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)至少一個(gè)特征信息;
[0087]所述日志數(shù)據(jù)采集模塊603,可以用于根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述日志信息存儲(chǔ)模塊601中存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù);
[0088]所述目標(biāo)數(shù)據(jù)存儲(chǔ)模塊606,可以用于存儲(chǔ)所述日志數(shù)據(jù)采集模塊輸出的所述目標(biāo)數(shù)據(jù);
[0089]所述數(shù)據(jù)庫(kù)數(shù)據(jù)采集模塊604,可以用于根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述數(shù)據(jù)庫(kù)中采集目標(biāo)數(shù)據(jù);及
[0090]所述文本文件數(shù)據(jù)采集模塊605,可以用于根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述文本文件中采集目標(biāo)數(shù)據(jù);
[0091 ]則所述數(shù)據(jù)存儲(chǔ)模塊606,還可以用于存儲(chǔ)所述數(shù)據(jù)庫(kù)數(shù)據(jù)采集模塊604,及所述文本文件數(shù)據(jù)采集模塊605輸出的所述目標(biāo)數(shù)據(jù)。
[0092]在本公開(kāi)的一種可選實(shí)施例中,本公開(kāi)實(shí)施例中具體還可以包括:
[0093]數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)模塊,可以用于采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的數(shù)據(jù)庫(kù)數(shù)據(jù)信息;和/或
[0094]文本文件數(shù)據(jù)存儲(chǔ)模塊,可以用于采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的文本文件信息。
[0095]對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
[0096]以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動(dòng)的情況下,即可以理解并實(shí)施。
[0097]通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件?;谶@樣的理解,上述技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤(pán)等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0098]最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本公開(kāi)的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本公開(kāi)進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本公開(kāi)各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1.一種數(shù)據(jù)采集方法,所述方法包括: 采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的日志信息; 根據(jù)相應(yīng)業(yè)務(wù)需求配置數(shù)據(jù)采集任務(wù)規(guī)則;其中,所述數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)至少一個(gè)特征信息; 根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù); 存儲(chǔ)所述目標(biāo)數(shù)據(jù)采集結(jié)果。2.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù)包括: 從所述存儲(chǔ)的日志信息里獲取對(duì)應(yīng)業(yè)務(wù)的目標(biāo)日志信息; 對(duì)所述目標(biāo)日志信息進(jìn)行解析,以根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從解析結(jié)果中采集所述目標(biāo)數(shù)據(jù)。3.根據(jù)權(quán)利要求1所述的方法,其中,所述數(shù)據(jù)采集任務(wù)中還包括:數(shù)據(jù)采集接口信息;則所述方法還包括: 根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述數(shù)據(jù)庫(kù)中采集目標(biāo)數(shù)據(jù);和/或 根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述文本文件中采集目標(biāo)數(shù)據(jù)。4.根據(jù)權(quán)利要求3所述的方法,其中,所述方法還包括: 采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的數(shù)據(jù)庫(kù)數(shù)據(jù)信息;和/或 采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的文本文件信息。5.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括: 接收至少一個(gè)業(yè)務(wù)上傳的日志信息;和/或, 從所述至少一個(gè)業(yè)務(wù)中讀取日志信息。6.—種數(shù)據(jù)采集系統(tǒng),其中,包括:日志信息存儲(chǔ)模塊,數(shù)據(jù)采集任務(wù)配置模塊,日志數(shù)據(jù)采集模塊,及目標(biāo)數(shù)據(jù)存儲(chǔ)模塊; 其中,所述日志信息存儲(chǔ)模塊,用于采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的日志信息; 所述數(shù)據(jù)采集任務(wù)配置模塊,用于根據(jù)相應(yīng)業(yè)務(wù)需求配置數(shù)據(jù)采集任務(wù)規(guī)則;其中,所述數(shù)據(jù)采集任務(wù)規(guī)則對(duì)應(yīng)至少一個(gè)特征信息; 所述日志數(shù)據(jù)采集模塊,用于根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述日志信息存儲(chǔ)模塊中存儲(chǔ)的所述日志信息中采集目標(biāo)數(shù)據(jù);及 所述目標(biāo)數(shù)據(jù)存儲(chǔ)模塊,用于存儲(chǔ)所述日志數(shù)據(jù)采集模塊輸出的所述目標(biāo)數(shù)據(jù)。7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述日志數(shù)據(jù)采集模塊,包括:日志信息獲取子模塊和日志信息解析子模塊;其中, 所述日志信息獲取子模塊,用于從所述日志信息存儲(chǔ)模塊中獲取對(duì)應(yīng)業(yè)務(wù)的目標(biāo)日志信息; 所述日志信息解析子模塊,用于對(duì)所述日志信息獲取子模塊獲取的所述目標(biāo)日志信息進(jìn)行解析,以根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從解析結(jié)果中采集所述目標(biāo)數(shù)據(jù)。8.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述數(shù)據(jù)采集任務(wù)中還包括:數(shù)據(jù)采集接口信息;則所述系統(tǒng)還包括:數(shù)據(jù)庫(kù)數(shù)據(jù)采集模塊,和/或文本文件數(shù)據(jù)采集模塊;其中, 所述數(shù)據(jù)庫(kù)數(shù)據(jù)采集模塊,用于根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述數(shù)據(jù)庫(kù)中采集目標(biāo)數(shù)據(jù);和/或 所述文本文件數(shù)據(jù)采集模塊,用于根據(jù)所述數(shù)據(jù)采集任務(wù)規(guī)則從所述文本文件中采集目標(biāo)數(shù)據(jù); 則所述數(shù)據(jù)存儲(chǔ)模塊,還用于存儲(chǔ)所述數(shù)據(jù)庫(kù)數(shù)據(jù)采集模塊,和/或所述文本文件數(shù)據(jù)采集模塊輸出的所述目標(biāo)數(shù)據(jù)。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中,所述系統(tǒng)還包括: 數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)模塊,用于采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的數(shù)據(jù)庫(kù)數(shù)據(jù)信息;和/或 文本文件數(shù)據(jù)存儲(chǔ)模塊,用于采用分布式存儲(chǔ)方式存儲(chǔ)至少一個(gè)業(yè)務(wù)的文本文件信息。10.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述裝置還包括: 接收日志信息模塊,用于接收至少一個(gè)業(yè)務(wù)上傳的日志信息;和/或, 讀取日志信息模塊,用于從所述至少一個(gè)業(yè)務(wù)中讀取日志信息。
【文檔編號(hào)】G06F17/30GK105912587SQ201610202878
【公開(kāi)日】2016年8月31日
【申請(qǐng)日】2016年3月31日
【發(fā)明人】王孝慶, 劉永華
【申請(qǐng)人】樂(lè)視控股(北京)有限公司, 樂(lè)視云計(jì)算有限公司