數(shù)據(jù)分析的方法、裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)分析的方法、裝置及系統(tǒng),涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,能夠解決數(shù)據(jù)分析效率過低的問題。本發(fā)明的方法包括:從流水?dāng)?shù)據(jù)集合中逐條讀取流水?dāng)?shù)據(jù),所述流水?dāng)?shù)據(jù)包括多個維度的屬性值;根據(jù)預(yù)設(shè)維度(View)中的屬性值對讀取的流水?dāng)?shù)據(jù)進(jìn)行歸一化排序;對歸一化排序后的流水?dāng)?shù)據(jù)逐條提取屬性值條目,獲得屬性值條目列表;通過映射(Mapper)運(yùn)算對所述屬性值條目列表進(jìn)行去重計算,得到第一特征值列表;通過歸納(Reducer)運(yùn)算對所述第一特征值列表進(jìn)行累加計算,得到第二特征值列表;根據(jù)所述第二特征值列表分析得出指標(biāo)量結(jié)果。本發(fā)明主要應(yīng)用于聯(lián)機(jī)分析處理OLAP系統(tǒng)的數(shù)據(jù)分析過程中。
【專利說明】數(shù)據(jù)分析的方法、裝置及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種數(shù)據(jù)分析的方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著社交網(wǎng)絡(luò)(Social Networking Services,簡稱SNS)的飛速發(fā)展以及互聯(lián)網(wǎng) 用戶的不斷增多,網(wǎng)絡(luò)側(cè)產(chǎn)生的用戶數(shù)據(jù)呈幾何形態(tài)增長?;谟脩魯?shù)據(jù)的處理、分析過程 對于網(wǎng)絡(luò)運(yùn)營商進(jìn)行商業(yè)決策而言顯得愈發(fā)重要。網(wǎng)絡(luò)側(cè)數(shù)據(jù)庫對T數(shù)量級的用戶數(shù)據(jù)進(jìn) 行分析,得出用戶行為習(xí)慣、應(yīng)用熱度等有價值的參數(shù)。
[0003] 在進(jìn)行數(shù)據(jù)分析時,數(shù)據(jù)庫根據(jù)運(yùn)營商期望從用戶數(shù)據(jù)的分析過程中得到的不同 指標(biāo)量,對成千上萬條用戶數(shù)據(jù)進(jìn)行去重和累加計算。舉例說明,圖1中包含5條用戶數(shù)據(jù) (或者稱為5條流水?dāng)?shù)據(jù)),每一條流水?dāng)?shù)據(jù)用于記錄用戶(可以是同一用戶,也可以是不同 用戶)的行為數(shù)據(jù)。所謂去重計算是指刪除對應(yīng)特定指標(biāo)量的重復(fù)用戶數(shù)據(jù),例如在計算指 標(biāo)量"應(yīng)用在線活躍人數(shù)"時,用戶身份標(biāo)識碼(User Identity,簡稱用戶ID)為1001的用 戶先后兩次訪問了應(yīng)用ID為1的應(yīng)用,那么在計算應(yīng)用1的在線活躍人數(shù)時,需要將用戶 1001兩次訪問應(yīng)用1所產(chǎn)生的2條用戶數(shù)據(jù)進(jìn)行去重,僅保留1條用戶1001產(chǎn)生的用戶數(shù) 據(jù),即將應(yīng)用1的訪問"人次"量調(diào)整為訪問"人數(shù)"量,以避免同一用戶ID產(chǎn)生的多條用 戶數(shù)據(jù)對指標(biāo)量結(jié)果的誤差影響。所謂累加計算是指將多條同類用戶數(shù)據(jù)進(jìn)行加和,得到 對應(yīng)的指標(biāo)量結(jié)果,例如在計算指標(biāo)量"應(yīng)用在線活躍人數(shù)"時,用戶1002和用戶1003分 別訪問了應(yīng)用2,則在計算應(yīng)用2的在線活躍人數(shù)時,將兩個不同用戶ID產(chǎn)生的2條用戶數(shù) 據(jù)進(jìn)行累加,得到應(yīng)用2的在線活躍人數(shù)為2人。由此可以看出,累加計算用于得到指標(biāo)量 結(jié)果,而去重計算則用于對累加計算所基于的用戶數(shù)據(jù)進(jìn)行誤差剔除。在進(jìn)行用戶數(shù)據(jù)分 析時,目前業(yè)界普遍的實(shí)現(xiàn)方式為,通過一次mapper&reducer過程對原始用戶數(shù)據(jù)進(jìn)行去 重計算,然后通過二次mapperfceducer過程對去重后的用戶數(shù)據(jù)進(jìn)行累加計算,從而得到 相應(yīng)的指標(biāo)量結(jié)果。
[0004] 現(xiàn)有的數(shù)據(jù)分析過程需要進(jìn)行兩次mapper&reducer計算,過多的 mapper&reducer級聯(lián)會耗費(fèi)大量的數(shù)據(jù)庫計算資源,特別是當(dāng)需要計算的指標(biāo)量很多時, 數(shù)據(jù)庫的計算量將會無限增大,導(dǎo)致數(shù)據(jù)庫系統(tǒng)出現(xiàn)計算瓶頸。
[0005] 隨著大數(shù)據(jù)時代的來臨,目前還出現(xiàn)了一種立方體數(shù)據(jù)結(jié)構(gòu),例如聯(lián)機(jī)分析處理 (On-Line Analytical Processing,簡稱0LAP)系統(tǒng)。該數(shù)據(jù)結(jié)構(gòu)可以保存多維數(shù)據(jù),每一 條數(shù)據(jù)都可以通過不同的維度進(jìn)行描述,在進(jìn)行數(shù)據(jù)分析時從不同的維度(View)或維度組 合對用戶數(shù)據(jù)進(jìn)行分析、查詢。一種典型的立方體數(shù)據(jù)結(jié)構(gòu)如圖2所示,保存的數(shù)據(jù)具有 "商品類別"、"地域"和"時間"三個維度的屬性,該數(shù)據(jù)結(jié)構(gòu)中的每一條數(shù)據(jù)都可以通過不 同的維度分別進(jìn)行描述。由于該種數(shù)據(jù)結(jié)構(gòu)形似立方體,因此得名立方體數(shù)據(jù)結(jié)構(gòu)。
[0006] 基于立方體數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)分析具有一個顯著的特點(diǎn),即可以從多個維度或維度 組合對一個指標(biāo)量進(jìn)行分析。例如在圖2中,可以從"商品類別"和"地域"兩個分別維度 篩選符合指標(biāo)量條件的數(shù)據(jù),也可以從"商品類別"+ "地域"以及"商品類別"+ "時間"兩 個維度組合分別維度篩選符合指標(biāo)量條件的數(shù)據(jù)。該數(shù)據(jù)結(jié)構(gòu)中的每一條數(shù)據(jù)都可以通過 不同的維度進(jìn)行描述。
[0007] 在現(xiàn)有的數(shù)據(jù)分析過程中發(fā)明人發(fā)現(xiàn):對于立方體數(shù)據(jù)結(jié)構(gòu)而言,實(shí)際應(yīng)用中涉 及數(shù)據(jù)分析的維度數(shù)量從幾十個到幾百上千個不等,據(jù)此進(jìn)行排列組合得到的維度組合數(shù) 量更加龐大。在根據(jù)數(shù)量如此眾多的維度或維度組合對指標(biāo)量進(jìn)行計算時,需要基于每個 維度或維度組合獨(dú)立進(jìn)行數(shù)據(jù)分析,分別進(jìn)行數(shù)據(jù)加載、去重計算、累加計算等運(yùn)算過程, 由此產(chǎn)生了不可估量的數(shù)據(jù)庫運(yùn)算量。這些獨(dú)立的運(yùn)算過程如果串行執(zhí)行,則所耗費(fèi)的時 間遠(yuǎn)遠(yuǎn)超出運(yùn)營商能夠接受的范圍;如果并行執(zhí)行,則數(shù)據(jù)庫負(fù)擔(dān)過重,容易出現(xiàn)計算瓶 頸。
[0008] 綜上所述,現(xiàn)有的數(shù)據(jù)分析方式計算量過大,會耗費(fèi)較多的時間和計算資源,數(shù)據(jù) 處理效率過低。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明實(shí)施例提供一種數(shù)據(jù)分析的方法、裝置及系統(tǒng),能夠解決數(shù)據(jù)分析效率過 低的問題。
[0010] 一方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)分析的方法,包括:
[0011] 從流水?dāng)?shù)據(jù)集合中逐條讀取流水?dāng)?shù)據(jù),所述流水?dāng)?shù)據(jù)包括多個維度的屬性值;
[0012] 根據(jù)預(yù)設(shè)維度(View)中的屬性值對讀取的流水?dāng)?shù)據(jù)進(jìn)行歸一化排序;
[0013] 對歸一化排序后的流水?dāng)?shù)據(jù)逐條提取屬性值條目,獲得屬性值條目列表;
[0014] 通過映射(Mapper)運(yùn)算對所述屬性值條目列表進(jìn)行去重計算,得到第一特征值列 表;
[0015] 通過歸納(Reducer)運(yùn)算對所述第一特征值列表進(jìn)行累加計算,得到第二特征值 列表;
[0016] 根據(jù)所述第二特征值列表分析得出指標(biāo)量結(jié)果。
[0017] 另一方面,本發(fā)明實(shí)施例還提供了一種數(shù)據(jù)分析的裝置,包括:
[0018] 數(shù)據(jù)讀取單元,用于從流水?dāng)?shù)據(jù)集合中逐條讀取流水?dāng)?shù)據(jù),所述流水?dāng)?shù)據(jù)包括多 個維度的屬性值;
[0019] 數(shù)據(jù)排序單元,用于根據(jù)預(yù)設(shè)維度(View)中的屬性值對所述數(shù)據(jù)讀取單元讀取的 流水?dāng)?shù)據(jù)進(jìn)行歸一化排序;
[0020] 屬性提取單元,用于對所述數(shù)據(jù)排序單元?dú)w一化排序后的流水?dāng)?shù)據(jù)逐條提取屬性 值條目,獲得屬性值條目列表;
[0021] 屬性去重單元,用于通過映射(Mapper)運(yùn)算對所述屬性提取單元提取的所述屬性 值條目列表進(jìn)行去重計算,得到第一特征值列表;
[0022] 屬性累加單元,用于通過歸納(Reducer)運(yùn)算對所述屬性去重單元計算的所述第 一特征值列表進(jìn)行累加計算,得到第二特征值列表;
[0023] 結(jié)果分析單元,用于根據(jù)所述屬性累加單元計算的所述第二特征值列表分析得出 指標(biāo)量結(jié)果。
[0024] 再一方面,本發(fā)明實(shí)施例還提供了一種數(shù)據(jù)分析的系統(tǒng),所述系統(tǒng)包括控制服務(wù) 器和計算服務(wù)器,其中,
[0025] 所述控制服務(wù)器,用于對多項數(shù)據(jù)分析任務(wù)進(jìn)行優(yōu)先級排序,向所述計算服務(wù)器 提交數(shù)據(jù)分析任務(wù),接收并記錄所述計算服務(wù)器的數(shù)據(jù)分析狀態(tài);
[0026] 所述計算服務(wù)器,用于根據(jù)所述控制服務(wù)器提交的數(shù)據(jù)分析任務(wù)從流水?dāng)?shù)據(jù)集合 中逐條讀取流水?dāng)?shù)據(jù),所述流水?dāng)?shù)據(jù)包括多個維度的屬性值,根據(jù)預(yù)設(shè)維度(View)中的屬 性值對讀取的流水?dāng)?shù)據(jù)進(jìn)行歸一化排序,對歸一化排序后的流水?dāng)?shù)據(jù)逐條提取屬性值條 目,獲得屬性值條目列表,通過映射(Mapper )運(yùn)算對所述屬性值條目列表進(jìn)行去重計算,得 到第一特征值列表,通過歸納(Reducer)運(yùn)算對所述第一特征值列表進(jìn)行累加計算,得到第 二特征值列表,根據(jù)所述第二特征值列表分析得出指標(biāo)量結(jié)果。
[0027] 本發(fā)明實(shí)施例提供一種數(shù)據(jù)分析的方法、裝置及系統(tǒng),能夠在進(jìn)行數(shù)據(jù)分析之前 對原始流水?dāng)?shù)據(jù)進(jìn)行預(yù)處理操作,以減少后續(xù)分析過程中涉及的數(shù)據(jù)量和計算量。具體的, 根據(jù)預(yù)設(shè)維度(View)中的屬性值對讀取的流水?dāng)?shù)據(jù)進(jìn)行歸一化排序,對歸一化排序后的流 水?dāng)?shù)據(jù)逐條提取屬性值條目,獲得屬性值條目列表。然后基于預(yù)處理后的屬性值條目列表, 通過一次mapper&reducer計算進(jìn)行去重和累加運(yùn)算,并分析得出指標(biāo)量結(jié)果。與現(xiàn)有技術(shù) 中需要通過兩次mapper&reducer計算得到指標(biāo)量結(jié)果相比,可以節(jié)省數(shù)據(jù)分析的計算量, 對于大數(shù)據(jù)場景而言,能夠避免數(shù)據(jù)庫系統(tǒng)出現(xiàn)計算瓶頸同時提高系統(tǒng)的數(shù)據(jù)分析效率。
[0028] 此外,本發(fā)明實(shí)施例提供的數(shù)據(jù)分析的方法、裝置及系統(tǒng),由于在數(shù)據(jù)分析前對流 水?dāng)?shù)據(jù)進(jìn)行了預(yù)處理操作,按照預(yù)設(shè)維度中的屬性值對讀取的流水?dāng)?shù)據(jù)進(jìn)行歸一化排序, 因此可以使相同預(yù)設(shè)維度屬性值的多條流水?dāng)?shù)據(jù)集中排序,對于立方體數(shù)據(jù)結(jié)構(gòu)而言,在 進(jìn)行去重累加計算時,可以同時從多個維度或維度組合上對數(shù)據(jù)進(jìn)行分析。與現(xiàn)有技術(shù)相 t匕,當(dāng)運(yùn)營商需要從幾十甚至幾百個維度或維度組合上計算一個指標(biāo)量結(jié)果時,能夠一次 性完成多個維度或維度組合上的數(shù)據(jù)分析,避免多次讀取流水?dāng)?shù)據(jù)對時間和系統(tǒng)計算資源 的占用,應(yīng)用到立方體數(shù)據(jù)結(jié)構(gòu)中時能夠極大提高系統(tǒng)的數(shù)據(jù)分析效率。
【專利附圖】
【附圖說明】
[0029] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0030] 圖1為現(xiàn)有技術(shù)中包含用戶數(shù)據(jù)的存儲表;
[0031] 圖2為現(xiàn)有技術(shù)中立方體數(shù)據(jù)存儲結(jié)構(gòu)的示意圖;
[0032] 圖3為本發(fā)明實(shí)施例中數(shù)據(jù)分析的系統(tǒng)的架構(gòu)示意圖;
[0033] 圖4為本發(fā)明實(shí)施例中數(shù)據(jù)分析的方法的流程圖;
[0034] 圖5為本發(fā)明實(shí)施例中另一個數(shù)據(jù)分析的方法的流程圖;
[0035] 圖6為本實(shí)施例中第一個數(shù)據(jù)分析的裝置的結(jié)構(gòu)示意圖;
[0036] 圖7為本實(shí)施例中第二個數(shù)據(jù)分析的裝置的結(jié)構(gòu)示意圖;
[0037] 圖8為本實(shí)施例中第三個數(shù)據(jù)分析的裝置的結(jié)構(gòu)示意圖;
[0038] 圖9為本發(fā)明實(shí)施例中另一個數(shù)據(jù)分析的系統(tǒng)的架構(gòu)示意圖。
【具體實(shí)施方式】
[0039] 下面將結(jié)合本實(shí)施例中的附圖,對本實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述, 顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的 實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都 屬于本發(fā)明保護(hù)的范圍。
[0040] 為了便于對下述各實(shí)施例進(jìn)行介紹,首先對本發(fā)明實(shí)施例所涉及的網(wǎng)絡(luò)架構(gòu)進(jìn)行 簡要介紹。
[0041] 如圖3所示,數(shù)據(jù)庫的網(wǎng)絡(luò)架構(gòu)包括控制服務(wù)器31和計算服務(wù)器32。其中,對于 分布式數(shù)據(jù)系統(tǒng)而言,所述計算服務(wù)器32還可以是由多個子服務(wù)器組成的計算服務(wù)器集 群。在圖3中,控制服務(wù)器31用于對流水隊列進(jìn)行掃描,從隊首依次讀取數(shù)據(jù)分析任務(wù),然 后將獲取的數(shù)據(jù)分析任務(wù)提交給計算服務(wù)器32。計算服務(wù)器32接收到數(shù)據(jù)分析任務(wù)后,獲 取對應(yīng)該數(shù)據(jù)分析任務(wù)的流水文件,所述流水文件中包含多條用戶上網(wǎng)行為產(chǎn)生的流水?dāng)?shù) 據(jù)。計算服務(wù)器32根據(jù)這些流水?dāng)?shù)據(jù)進(jìn)行預(yù)處理操作、去重計算以及累加計算,得到相應(yīng) 的指標(biāo)量結(jié)果,然后向控制服務(wù)器31返回用于標(biāo)識處理成功的數(shù)據(jù)分析狀態(tài)標(biāo)識;如果計 算失敗,未得到相應(yīng)的指標(biāo)量結(jié)果。則計算服務(wù)器32向控制服務(wù)器31返回用于標(biāo)識處理 失敗的數(shù)據(jù)分析狀態(tài)標(biāo)識。控制服務(wù)器31接收到計算服務(wù)器32發(fā)送的數(shù)據(jù)分析狀態(tài)標(biāo)識 后,從流水隊列中讀取下一個數(shù)據(jù)分析任務(wù)提交給計算服務(wù)器32。
[0042] 下面,基于圖3所示的系統(tǒng),對本實(shí)施例中數(shù)據(jù)分析的方法進(jìn)行說明,所述方法應(yīng) 用于計算服務(wù)器32側(cè),如圖4所示,所述方法包括:
[0043] 401、從流水?dāng)?shù)據(jù)集合中逐條讀取流水?dāng)?shù)據(jù)。
[0044] 本實(shí)施例中,所述流水?dāng)?shù)據(jù)集合即為前述流水文件。通常,對應(yīng)不同的預(yù)設(shè)指標(biāo)量 計算服務(wù)器會基于不同的流水文件進(jìn)行計算。所述預(yù)設(shè)指標(biāo)量是由運(yùn)營商提供給數(shù)據(jù)分析 系統(tǒng)的、用于表達(dá)運(yùn)營商數(shù)據(jù)分析訴求的變量,例如可以是"當(dāng)前在線活躍人數(shù)"、"平均用 戶在線時長"等變量。計算服務(wù)器按照運(yùn)營商的需求,根據(jù)不同的流水文件計算不同的指標(biāo) 量,得到相應(yīng)的指標(biāo)量結(jié)果,例如"當(dāng)前在線活躍人數(shù)"為120000人,"平均用戶在線時長" 為2小時等。在實(shí)際應(yīng)用中,計算服務(wù)器可以根據(jù)一個流水文件計算一個指標(biāo)量,也可以根 據(jù)一個流水文件計算多個指標(biāo)量,當(dāng)計算完一個指標(biāo)量后,計算服務(wù)器接收控制服務(wù)器提 交的下一個數(shù)據(jù)分析任務(wù),基于相同或不同的流水文件對下一個指標(biāo)量進(jìn)行計算。
[0045] 一條流水?dāng)?shù)據(jù)用于描述一個特定用戶的一次上網(wǎng)操作行為,用戶的操作行為通常 包含多個不同角度上的描述信息(后續(xù)稱為屬性值),因此一條流水?dāng)?shù)據(jù)通常包含多個維度 的屬性值。事例性的,如表1所示:
【權(quán)利要求】
1. 一種數(shù)據(jù)分析的方法,其特征在于,包括: 從流水?dāng)?shù)據(jù)集合中逐條讀取流水?dāng)?shù)據(jù),所述流水?dāng)?shù)據(jù)包括多個維度的屬性值; 根據(jù)預(yù)設(shè)維度(View)中的屬性值對讀取的流水?dāng)?shù)據(jù)進(jìn)行歸一化排序; 對歸一化排序后的流水?dāng)?shù)據(jù)逐條提取屬性值條目,獲得屬性值條目列表; 通過映射(Mapper )運(yùn)算對所述屬性值條目列表進(jìn)行去重計算,得到第一特征值列表; 通過歸納(Reducer)運(yùn)算對所述第一特征值列表進(jìn)行累加計算,得到第二特征值列 表; 根據(jù)所述第二特征值列表分析得出指標(biāo)量結(jié)果。
2. 根據(jù)權(quán)利要求1所述數(shù)據(jù)分析的方法,其特征在于,在所述根據(jù)預(yù)設(shè)維度中的屬性 值對讀取的流水?dāng)?shù)據(jù)進(jìn)行歸一化排序的步驟之前,所述方法進(jìn)一步包括: 對讀取的流水?dāng)?shù)據(jù)進(jìn)行合法性驗(yàn)證。
3. 根據(jù)權(quán)利要求1所述數(shù)據(jù)分析的方法,其特征在于,所述根據(jù)預(yù)設(shè)維度中的屬性值 對讀取的流水?dāng)?shù)據(jù)進(jìn)行歸一化排序的步驟,包括: 將所述預(yù)設(shè)維度中屬性值相同的多條流水?dāng)?shù)據(jù)進(jìn)行相鄰排序。
4. 根據(jù)權(quán)利要求3所述數(shù)據(jù)分析的方法,其特征在于,所述對歸一化排序后的流水?dāng)?shù) 據(jù)逐條提取屬性值條目,獲得屬性值條目列表的步驟,包括: 針對每一條流水?dāng)?shù)據(jù),根據(jù)至少一個維度組合分別提取至少一條屬性值條目,其中所 述維度組合由至少一個非預(yù)設(shè)維度組成; 將對應(yīng)一條流水?dāng)?shù)據(jù)的至少一條屬性值條目進(jìn)行相鄰排序; 所述根據(jù)至少一個維度組合分別提取至少一條屬性值條目的步驟,包括: 針對每一個維度組合,從所述流水?dāng)?shù)據(jù)中分別提取對應(yīng)該維度組合中每個非預(yù)設(shè)維度 的屬性值,獲得至少一個屬性值; 將所述流水?dāng)?shù)據(jù)的預(yù)設(shè)維度屬性值、所述維度組合的序號以及所述至少一個屬性值組 合,獲得一條屬性值條目。
5. 根據(jù)權(quán)利要求4所述數(shù)據(jù)分析的方法,其特征在于,所述通過映射運(yùn)算對所述屬性 值條目列表進(jìn)行去重計算,得到第一特征值列表的步驟,包括: 在所述屬性值條目列表中,順序讀取每一條屬性值條目的預(yù)設(shè)維度屬性值; 將讀取的預(yù)設(shè)維度屬性值與預(yù)設(shè)的第一屬性值變量進(jìn)行比對; 若所述比對結(jié)果為相同,則將對應(yīng)所述預(yù)設(shè)維度屬性值的屬性值條目寫入到當(dāng)前的第 一特征值子列表中; 若所述比對結(jié)果為不同,則將對應(yīng)所述預(yù)設(shè)維度屬性值的屬性值條目寫入到新的第一 特征值子列表中,并將所述預(yù)設(shè)維度屬性值寫入到第一屬性值變量中; 針對每個第一特征值子列表,對其中的屬性值條目順序進(jìn)行遍歷,刪除重復(fù)的屬性值 條目; 將刪除重復(fù)屬性值條目后的多個第一特征值子列表進(jìn)行整合,獲得所述第一特征值列 表。
6. 根據(jù)權(quán)利要求5所述數(shù)據(jù)分析的方法,其特征在于,所述通過歸納運(yùn)算對所述第一 特征值列表進(jìn)行累加計算,得到第二特征值列表的步驟,包括: 對所述屬性值條目列表中的屬性值條目進(jìn)行遍歷,刪除重復(fù)的屬性值條目; 在每刪除一條重復(fù)的屬性值條目后,將對應(yīng)該屬性值條目的計數(shù)值加1,獲得包含計數(shù) 值且無重復(fù)屬性值條目的第二特征值列表。
7. 根據(jù)權(quán)利要求6所述數(shù)據(jù)分析的方法,其特征在于,所述根據(jù)所述第二特征值列表 分析得出指標(biāo)量結(jié)果的步驟,包括: 根據(jù)所述維度組合的序號和/或至少一個維度組合中每個維度的屬性值,從所述第二 特征值列表中分析得出所述指標(biāo)量結(jié)果。
8. 根據(jù)權(quán)利要求1所述數(shù)據(jù)分析的方法,其特征在于,當(dāng)計算多個預(yù)設(shè)指標(biāo)量時,所述 方法還包括: 根據(jù)下述至少一種指標(biāo)量參數(shù)對所述多個預(yù)設(shè)指標(biāo)量進(jìn)行優(yōu)先級排序:計算量、重要 程度或緊急程度; 根據(jù)優(yōu)先級從高到低的順序依次計算多個預(yù)設(shè)指標(biāo)量。
9. 根據(jù)權(quán)利要求1所述數(shù)據(jù)分析的方法,其特征在于,當(dāng)計算出現(xiàn)故障時,所述方法還 包括: 對當(dāng)前指標(biāo)量的計算資源進(jìn)行釋放。
10. -種數(shù)據(jù)分析的裝置,其特征在于,包括: 數(shù)據(jù)讀取單元,用于從流水?dāng)?shù)據(jù)集合中逐條讀取流水?dāng)?shù)據(jù),所述流水?dāng)?shù)據(jù)包括多個維 度的屬性值; 數(shù)據(jù)排序單元,用于根據(jù)預(yù)設(shè)維度(View)中的屬性值對所述數(shù)據(jù)讀取單元讀取的流水 數(shù)據(jù)進(jìn)行歸一化排序; 屬性提取單元,用于對所述數(shù)據(jù)排序單元?dú)w一化排序后的流水?dāng)?shù)據(jù)逐條提取屬性值條 目,獲得屬性值條目列表; 屬性去重單元,用于通過映射(Mapper)運(yùn)算對所述屬性提取單元提取的所述屬性值條 目列表進(jìn)行去重計算,得到第一特征值列表; 屬性累加單元,用于通過歸納(Reducer)運(yùn)算對所述屬性去重單元計算的所述第一特 征值列表進(jìn)行累加計算,得到第二特征值列表; 結(jié)果分析單元,用于根據(jù)所述屬性累加單元計算的所述第二特征值列表分析得出指標(biāo) 量結(jié)果。
11. 根據(jù)權(quán)利要求10所述數(shù)據(jù)分析的裝置,其特征在于,所述裝置還包括: 數(shù)據(jù)驗(yàn)證單元,用于在所述數(shù)據(jù)排序單元進(jìn)行歸一化排序前,對所述數(shù)據(jù)讀取單元讀 取的流水?dāng)?shù)據(jù)進(jìn)行合法性驗(yàn)證。
12. 根據(jù)權(quán)利要求10所述數(shù)據(jù)分析的裝置,其特征在于,所述數(shù)據(jù)排序單元用于將所 述預(yù)設(shè)維度中屬性值相同的多條流水?dāng)?shù)據(jù)進(jìn)行相鄰排序。
13. 根據(jù)權(quán)利要求12所述數(shù)據(jù)分析的裝置,其特征在于,所述屬性提取單元,包括: 提取子單元,用于針對每一條流水?dāng)?shù)據(jù),根據(jù)至少一個維度組合分別提取至少一條屬 性值條目,其中所述維度組合由至少一個非預(yù)設(shè)維度組成; 排序子單元,用于將所述提取子單元提取的、對應(yīng)一條流水?dāng)?shù)據(jù)的至少一條屬性值條 目進(jìn)行相鄰排序; 所述提取子單元用于針對每一個維度組合,從所述流水?dāng)?shù)據(jù)中分別提取對應(yīng)該維度組 合中每個非預(yù)設(shè)維度的屬性值,獲得至少一個屬性值,將所述流水?dāng)?shù)據(jù)的預(yù)設(shè)維度屬性值、 所述維度組合的序號以及所述至少一個屬性值組合,獲得一條屬性值條目。
14. 根據(jù)權(quán)利要求13所述數(shù)據(jù)分析的裝置,其特征在于,所述屬性去重單元,包括: 讀取子單元,用于在所述屬性值條目列表中,順序讀取每一條屬性值條目的預(yù)設(shè)維度 屬性值; 比對子單元,用于將所述讀取子單元讀取的預(yù)設(shè)維度屬性值與預(yù)設(shè)的第一屬性值變量 進(jìn)行比對; 寫入子單元,用于當(dāng)所述比對子單元的比對結(jié)果為相同時,將對應(yīng)所述預(yù)設(shè)維度屬性 值的屬性值條目寫入到當(dāng)前的第一特征值子列表中; 所述寫入子單元還用于當(dāng)所述比對子單元的比對結(jié)果為不同時,將對應(yīng)所述預(yù)設(shè)維度 屬性值的屬性值條目寫入到新的第一特征值子列表中,并將所述預(yù)設(shè)維度屬性值寫入到第 一屬性值變量中; 第一刪除子單元,用于針對每個第一特征值子列表,對所述讀取子單元讀取的屬性值 條目順序進(jìn)行遍歷,刪除重復(fù)的屬性值條目; 整合子單元,用于將所述第一刪除子單元刪除重復(fù)屬性值條目后的多個第一特征值子 列表進(jìn)行整合,獲得所述第一特征值列表。
15. 根據(jù)權(quán)利要求14所述數(shù)據(jù)分析的裝置,其特征在于,所述屬性累加單元,包括: 第二刪除子單元,用于對所述屬性值條目列表中的屬性值條目進(jìn)行遍歷,刪除重復(fù)的 屬性值條目; 計數(shù)子單元,用于在所述第二刪除子單元每刪除一條重復(fù)的屬性值條目后,將對應(yīng)該 屬性值條目的計數(shù)值加1,獲得包含計數(shù)值且無重復(fù)屬性值條目的第二特征值列表。
16. 根據(jù)權(quán)利要求15所述數(shù)據(jù)分析的裝置,其特征在于,所述結(jié)果分析單元用于根據(jù) 所述維度組合的序號和/或至少一個維度組合中每個維度的屬性值,從所述第二特征值列 表中分析得出所述指標(biāo)量結(jié)果。
17. -種數(shù)據(jù)分析的系統(tǒng),其特征在于,所述系統(tǒng)包括控制服務(wù)器和計算服務(wù)器,其中, 所述控制服務(wù)器,用于對多項數(shù)據(jù)分析任務(wù)進(jìn)行優(yōu)先級排序,向所述計算服務(wù)器提交 數(shù)據(jù)分析任務(wù),接收并記錄所述計算服務(wù)器的數(shù)據(jù)分析狀態(tài); 所述計算服務(wù)器,用于根據(jù)所述控制服務(wù)器提交的數(shù)據(jù)分析任務(wù)從流水?dāng)?shù)據(jù)集合中逐 條讀取流水?dāng)?shù)據(jù),所述流水?dāng)?shù)據(jù)包括多個維度的屬性值,根據(jù)預(yù)設(shè)維度(View)中的屬性值 對讀取的流水?dāng)?shù)據(jù)進(jìn)行歸一化排序,對歸一化排序后的流水?dāng)?shù)據(jù)逐條提取屬性值條目,獲 得屬性值條目列表,通過映射(Mapper )運(yùn)算對所述屬性值條目列表進(jìn)行去重計算,得到第 一特征值列表,通過歸納(Reducer)運(yùn)算對所述第一特征值列表進(jìn)行累加計算,得到第二特 征值列表,根據(jù)所述第二特征值列表分析得出指標(biāo)量結(jié)果。
18. 根據(jù)權(quán)利要求17所述數(shù)據(jù)分析的系統(tǒng),其特征在于,所述計算服務(wù)器為分布式計 算服務(wù)器集群,所述分布式計算服務(wù)器集群包含至少兩個子計算服務(wù)器; 所述控制服務(wù)器還用于將數(shù)據(jù)分析任務(wù)拆分為至少兩個子任務(wù),將所述至少兩個子任 務(wù)分別分配給所述至少兩個子計算服務(wù)器。
【文檔編號】G06F17/30GK104424339SQ201310413001
【公開日】2015年3月18日 申請日期:2013年9月11日 優(yōu)先權(quán)日:2013年9月11日
【發(fā)明者】武磊, 李 浩, 曾偉紀(jì), 蔡馥晗 申請人:騰訊科技(深圳)有限公司