專利名稱:應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子商務(wù)技術(shù)領(lǐng)域,尤其涉及一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法及 系統(tǒng)。
背景技術(shù):
目前,在互聯(lián)網(wǎng)產(chǎn)業(yè)高速發(fā)展的大環(huán)境下,行業(yè)間以及行業(yè)內(nèi)的競爭日益激烈,互 聯(lián)網(wǎng)企業(yè)運營中的數(shù)據(jù)以爆炸的速度產(chǎn)生,其中信息的含金量越來越影響到企業(yè)的生存, 而依靠傳統(tǒng)數(shù)據(jù)庫或者數(shù)據(jù)倉庫軟件來對數(shù)據(jù)進行常規(guī)分析的成本越來越昂貴,同時其實 時性也無法得到保障,在現(xiàn)代社會,過時的信息不但不能給企業(yè)帶來利益,反而可能會誤導(dǎo) 決策給企業(yè)造成危害?,F(xiàn)有技術(shù)中,基于Web的數(shù)據(jù)挖掘是指使用數(shù)據(jù)挖掘技術(shù)在Web數(shù)據(jù)中發(fā)現(xiàn)潛在 的、有用的模式或信息。關(guān)于Web數(shù)據(jù)挖掘的應(yīng)用包括三個主要方向一、面向商業(yè)智能的網(wǎng)站日志挖掘隨著Internet的迅速發(fā)展,越來越多的企業(yè) 和個人在Internet上建立了網(wǎng)站,通過其網(wǎng)站實現(xiàn)關(guān)鍵任務(wù)的Internet應(yīng)用來獲得戰(zhàn)略 性優(yōu)勢。Web站點服務(wù)器每天產(chǎn)生大量的日志,其中蘊涵了用戶在網(wǎng)站上的行為,分析這些 數(shù)據(jù)可以找出用戶的訪問模式,確定產(chǎn)品的市場戰(zhàn)略,提高商業(yè)活動的效率。二、面向復(fù)雜系統(tǒng)研究的Web結(jié)構(gòu)挖掘基于Web結(jié)構(gòu)的數(shù)據(jù)挖掘是對Web頁面超 鏈關(guān)系、文檔內(nèi)部結(jié)構(gòu)、文檔URL中的目錄路徑結(jié)構(gòu)等的挖掘。對于基于Web結(jié)構(gòu)的數(shù)據(jù)挖 掘而言,一個重要的問題是獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息有助于用戶找到相 關(guān)主題的權(quán)威站點。三、面向社會信息分析的網(wǎng)頁內(nèi)容挖掘Web內(nèi)容挖掘的對象包括文本、圖象、音 頻、視頻、多媒體和其他各種類型的數(shù)據(jù)?,F(xiàn)有技術(shù)中常見的數(shù)據(jù)挖掘方案包括使用已有的大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫管理 軟件(如0racle/DB2)充當(dāng)存儲管理資源,采用通用的PC SERVER或者小型機充當(dāng)計算資 源,通過已有的數(shù)據(jù)ETL(數(shù)據(jù)提取清洗加載)工具進行流程控制,最終得到分析結(jié)果。然而,現(xiàn)有技術(shù)存在以下缺點對于互聯(lián)網(wǎng)而言,數(shù)據(jù)的非結(jié)構(gòu)化和無序性非常嚴(yán) 重,在海量數(shù)據(jù)的情況下,分析得到有用信息的成本過于昂貴,且實時性無法得到保障。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法及系統(tǒng),旨在降 低數(shù)據(jù)計算資源成本并縮短數(shù)據(jù)從分析到應(yīng)用的周期。本發(fā)明提出一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法,包括獲取待分析處理數(shù)據(jù),對所述待分析處理數(shù)據(jù)進行抽樣處理;將抽樣處理后的所述待分析處理數(shù)據(jù)存儲于數(shù)據(jù)庫中;根據(jù)用戶策略為所述待分析處理數(shù)據(jù)選擇對應(yīng)的預(yù)置數(shù)學(xué)模型;根據(jù)所述對應(yīng)的預(yù)置數(shù)學(xué)模型對所述待分析處理數(shù)據(jù)進行計算分析處理,得到計算分析處理結(jié)果;將所述計算分析處理結(jié)果進行商務(wù)智能展示。優(yōu)選地,所述待分析處理數(shù)據(jù)包括站點訪問數(shù)據(jù)、站內(nèi)營銷行為數(shù)據(jù)、站外市場 分析數(shù)據(jù)、Web頁面超級鏈接關(guān)系數(shù)據(jù)和/或SNS數(shù)據(jù)。優(yōu)選地,所述對待分析處理數(shù)據(jù)進行抽樣處理具體包括將分布的、異構(gòu)數(shù)據(jù)源中 的待分析處理數(shù)據(jù)抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成和加載。優(yōu)選地,所述計算分析處理具體為嵌入式計算分析處理。優(yōu)選地,所述將抽樣處理后的所述待分析處理數(shù)據(jù)存儲于數(shù)據(jù)庫中的步驟之前還 包括對抽樣處理后的待分析處理數(shù)據(jù)進行緩存。優(yōu)選地,所述獲取待分析處理數(shù)據(jù)的步驟之前還包括根據(jù)業(yè)務(wù)規(guī)則和數(shù)據(jù)結(jié)構(gòu)建立相應(yīng)的預(yù)置數(shù)學(xué)模型。本發(fā)明還提出一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析系統(tǒng),包括ETL控制器,用于獲取待分析處理數(shù)據(jù),對所述待分析處理數(shù)據(jù)進行抽樣處理;數(shù)據(jù)庫服務(wù)器,用于將抽樣處理后的所述待分析處理數(shù)據(jù)存儲于數(shù)據(jù)庫中;數(shù)學(xué)模型控制中心,用于根據(jù)用戶策略為所述待分析處理數(shù)據(jù)選擇對應(yīng)的預(yù)置數(shù) 學(xué)模型;計算中心,用于根據(jù)所述對應(yīng)的預(yù)置數(shù)學(xué)模型對所述待分析處理數(shù)據(jù)進行計算分 析處理,得到計算分析處理結(jié)果;商務(wù)智能展示中心,用于將所述計算分析處理結(jié)果進行商務(wù)智能展示;作業(yè)控制器,用于控制上述各功能服務(wù)器或中心工作以完成相應(yīng)的數(shù)據(jù)流向與作 業(yè)流程。優(yōu)選地,所述ETL控制器,還用于將分布的、異構(gòu)數(shù)據(jù)源中的待分析處理數(shù)據(jù)抽取 到臨時中間層后進行清洗、轉(zhuǎn)換、集成和加載。優(yōu)選地,所述系統(tǒng)還包括分布式緩存服務(wù)器,連接在所述ETL控制器與數(shù)據(jù)庫服 務(wù)器之間,用于對抽樣處理后的待分析處理數(shù)據(jù)進行緩存。優(yōu)選地,所述系統(tǒng)還包括創(chuàng)建模塊,與所述ETL控制器連接,用于根據(jù)業(yè)務(wù)規(guī)則和 數(shù)據(jù)結(jié)構(gòu)建立相應(yīng)的預(yù)置數(shù)學(xué)模型。本發(fā)明提出一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法及系統(tǒng),針對電子商務(wù)的 CRM (Customer Relationship Management,客戶關(guān)系管理)領(lǐng)域,分析出通用的客戶行為模 型,具體通過提取站點訪問數(shù)據(jù)、站內(nèi)營銷行為數(shù)據(jù)、站外市場分析數(shù)據(jù)、Web頁面超級鏈接 關(guān)系數(shù)據(jù)和/或SNS數(shù)據(jù)等待分析處理數(shù)據(jù),應(yīng)用現(xiàn)代數(shù)據(jù)挖掘的成熟算法,對待分析處 理數(shù)據(jù)進行嵌入式計算分析處理,并采用嵌入式技術(shù)將計算中心固化成高速計算的專用芯 片,不需進行數(shù)據(jù)庫的全庫統(tǒng)計,降低計算資源成本,同時大大縮短數(shù)據(jù)從分析到應(yīng)用的周 期。
圖1是本發(fā)明應(yīng)用于電子商務(wù)的數(shù)據(jù)分析系統(tǒng)一實施例結(jié)構(gòu)示意圖;圖2是本發(fā)明應(yīng)用于電子商務(wù)的數(shù)據(jù)分析系統(tǒng)另一實施例結(jié)構(gòu)示意圖;圖3是本發(fā)明應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法一實施例流程示意圖4是本發(fā)明應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法另一實施例流程示意圖。為了使本發(fā)明的技術(shù)方案更加清楚、明了,下面將結(jié)合附圖作進一步詳述。
具體實施例方式本發(fā)明實施例解決方案主要是對獲取的站點訪問數(shù)據(jù)、站內(nèi)營銷行為數(shù)據(jù)、站外 市場分析數(shù)據(jù)、Web頁面超級鏈接關(guān)系數(shù)據(jù)和/或SNS(SocialNetworking Services,社交 網(wǎng)絡(luò)服務(wù))等待分析處理數(shù)據(jù),應(yīng)用現(xiàn)代數(shù)據(jù)挖掘的成熟算法,對待分析處理數(shù)據(jù)進行嵌 入式計算分析處理,并根據(jù)嵌入式分析處理結(jié)果進行商務(wù)智能展示。如圖1所示,本發(fā)明一實施例提出一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析系統(tǒng),包括ET L(Extraction-Transformation-Loading,數(shù)據(jù)提取、轉(zhuǎn)換和加載)控制器101、數(shù)據(jù)庫服務(wù) 器102、數(shù)學(xué)模型控制中心103、計算中心104、商務(wù)智能展示中心105以及作業(yè)控制器106, 其中ETL控制器101,用于獲取待分析處理數(shù)據(jù),對待分析處理數(shù)據(jù)進行抽樣處理;在本實施例中,ETL控制器101對待分析處理數(shù)據(jù)進行抽樣處理可以具體為將分 布的、異構(gòu)數(shù)據(jù)源中的待分析處理數(shù)據(jù)抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加 載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。本實施例待分析處理數(shù)據(jù)包括站點訪問數(shù)據(jù)、站內(nèi)營銷行為數(shù)據(jù)、站外市場分析 數(shù)據(jù)、Web頁面超級鏈接關(guān)系數(shù)據(jù)和/或SNS數(shù)據(jù)等。其中站點訪問數(shù)據(jù),是指當(dāng)客戶訪問站點時會在Web服務(wù)器上留下相應(yīng)的日志數(shù)據(jù), 這些日志數(shù)據(jù)通常以文本文件的形式存儲在服務(wù)器上。一般包括SeVerl0gS、err0r logs、 cookie logs等。*. log文件是日志文件,里面主要記錄了系統(tǒng)、硬件、軟件等的使用記錄。 日志數(shù)據(jù)是電子商務(wù)站點在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。例如,對于在線客戶也許會搜 索一些產(chǎn)品或某些廣告信息,這些搜索查詢信息就通過cookie或是登記信息連接到服務(wù) 器的訪問日志上。站內(nèi)營銷行為數(shù)據(jù),主要是傳統(tǒng)關(guān)系數(shù)據(jù)庫里存儲的本站站點客戶資料、客戶消 費情況、商品信息等數(shù)據(jù)。站外市場分析數(shù)據(jù),主要是指關(guān)聯(lián)企業(yè)的公開信息管理,例如可能的供應(yīng)商信息 以及可能的競爭對手情報分析,這些數(shù)據(jù)往往是分散的、異介質(zhì)的的非結(jié)構(gòu)化數(shù)據(jù)。Web頁面超級鏈接關(guān)系數(shù)據(jù),主要是指頁面之間存在的超級鏈接關(guān)系,這是一種重 要的資源,通過各大網(wǎng)站有效的互利合作,能最大限度的實現(xiàn)有效推送,將最合適的信息送 達最多的可能客戶。對于SNS數(shù)據(jù),SNS全稱即社交網(wǎng)絡(luò)服務(wù),專指旨在幫助人們建立社會性網(wǎng)絡(luò)的互 聯(lián)網(wǎng)應(yīng)用服務(wù),也指社會現(xiàn)有已成熟普及的信息載體,如短信SMS服務(wù)。SNS的另一種常用 解釋全稱Social Network Site,S卩“社交網(wǎng)站”或“社交網(wǎng)”。在SNS中,在朋友圈內(nèi)關(guān)系 往往較真實,粘著度很高,互相之間不存在所謂網(wǎng)絡(luò)的“假面具”,因此,比較容易實現(xiàn)實名 制;SNS基于人傳人聯(lián)系網(wǎng)絡(luò),一傳多,多傳多,利用網(wǎng)絡(luò)這一低廉而快速的平臺,網(wǎng)絡(luò)建立 的速度非常快,由此使得建立人脈網(wǎng)絡(luò)的成本進一步降低。數(shù)據(jù)庫服務(wù)器102,用于將抽樣處理后的待分析處理數(shù)據(jù)存儲于數(shù)據(jù)庫中;本實施例中,數(shù)據(jù)庫服務(wù)器102具體采用Berkeley DB(伯克利數(shù)據(jù)庫服務(wù)器),
5Berkeley DB是一個高性能的嵌入數(shù)據(jù)庫編程庫,和C語言、C++、Java,Perl、Python、PHP、 Tcl以及其他很多語言都有綁定。Berkeley DB可以保存任意類型的鍵/值對,而且可以為 一個鍵保存多個數(shù)據(jù)。Berkeley DB可以支持?jǐn)?shù)千的并發(fā)線程同時操作數(shù)據(jù)庫,支持最大 256TB的數(shù)據(jù),廣泛用于各種操作系統(tǒng)包括大多數(shù)Unix類操作系統(tǒng)和Windows操作系統(tǒng)以 及實時操作系統(tǒng)。本實施例將其應(yīng)用于存儲所有已經(jīng)被轉(zhuǎn)換過的待處理數(shù)據(jù)。數(shù)學(xué)模型控制中心103,用于根據(jù)用戶策略為待分析處理數(shù)據(jù)選擇對應(yīng)的預(yù)置數(shù) 學(xué)模型;本實施例中,用戶策略是指用戶根據(jù)業(yè)務(wù)模型和數(shù)據(jù)結(jié)構(gòu)對待分析處理數(shù)據(jù)的預(yù) 期處理方式,比如用戶預(yù)期想通過某個網(wǎng)站的瀏覽次數(shù)對該網(wǎng)站的瀏覽者的購買行為進行 關(guān)聯(lián)分析等的策略。數(shù)學(xué)模型控制中心103根據(jù)用戶策略為待分析處理數(shù)據(jù)選擇對應(yīng)的預(yù)置數(shù)學(xué)模 型,不同的用戶策略對應(yīng)不同的數(shù)學(xué)模型,數(shù)學(xué)模型可以預(yù)先設(shè)置或創(chuàng)建但必須是由計算 中心104支持的預(yù)置數(shù)學(xué)模型。根據(jù)業(yè)務(wù)模型和數(shù)據(jù)結(jié)構(gòu)選擇不同的數(shù)學(xué)模型,從原有的 數(shù)據(jù)庫全庫統(tǒng)計模式調(diào)整為抽樣數(shù)理統(tǒng)計分析模式,在保證數(shù)據(jù)統(tǒng)計有效性的情況下科學(xué) 的降低了數(shù)據(jù)的計算量,并實現(xiàn)了數(shù)據(jù)從輸入到輸出的匹配。計算中心104,用于根據(jù)對應(yīng)的預(yù)置數(shù)學(xué)模型對待分析處理數(shù)據(jù)進行計算分析處 理,得到計算分析處理結(jié)果;本實施例中,具體通過嵌入式計算處理中心104來進行嵌入式計算分析處理。該 嵌入式計算處理中心104為DSP (digital signal processor,數(shù)字信號處理器),DSP是一 種獨特的微處理器,是以數(shù)字信號來處理大量信息的器件。它不僅具有可編程性,而且其實 時運行速度可達每秒數(shù)以千萬條復(fù)雜指令程序,遠遠超過通用微處理器。本實施例將其應(yīng) 用于專業(yè)的數(shù)學(xué)函數(shù)計算,以解決對數(shù)據(jù)進行快速計算的問題。商務(wù)智能展示中心105,用于將計算分析處理結(jié)果進行商務(wù)智能展示;在本實施例中,通過商務(wù)智能展示中心105將嵌入式計算處理中心104計算分析 處理的結(jié)果嵌入Business Objects專業(yè)商務(wù)智能(Bi)軟件,其形式多樣且數(shù)據(jù)透視效果 明顯,可以幫助企業(yè)更加深入的跟蹤和了解該企業(yè)業(yè)務(wù)狀況,改善企業(yè)決策水平,優(yōu)化企業(yè) 績效。作業(yè)控制器106,用于控制各功能服務(wù)器或中心協(xié)調(diào)工作以完成數(shù)據(jù)流向與作業(yè)流程。本實施例中,作業(yè)控制器106采用TCLSH可以實現(xiàn)多服務(wù)器的遠程控制,協(xié)調(diào)若干 機器的數(shù)據(jù)流向和作業(yè)流程。TCLSH是一種通用的腳本語言,其功能強大,幾乎可以在所有 的平臺上解釋運行。如圖2所示,本發(fā)明另一實施例提出一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析系統(tǒng),在上 述實施例的基礎(chǔ)上,其中,該系統(tǒng)還包括分布式緩存服務(wù)器1012,連接在ETL控制器101與 數(shù)據(jù)庫服務(wù)器102之間,用于對抽樣處理后的待分析處理數(shù)據(jù)進行緩存。在本實施例中,該系統(tǒng)還包括創(chuàng)建模塊100,與ETL控制器101連接,用于根據(jù)業(yè)務(wù) 規(guī)則和數(shù)據(jù)結(jié)構(gòu)建立相應(yīng)的預(yù)置數(shù)學(xué)模型。本實施例通過建立符合一般電子商務(wù)企業(yè)業(yè)務(wù)標(biāo)準(zhǔn)的工作模型,對異構(gòu)數(shù)據(jù)的采 集、結(jié)構(gòu)化與重新加載,并根據(jù)業(yè)務(wù)規(guī)則和數(shù)據(jù)挖掘原理建立可運算的數(shù)學(xué)模型以及對邊緣計算技術(shù)進行融合,包括對數(shù)據(jù)挖掘技術(shù)、嵌入式開發(fā)技術(shù)、ETL數(shù)據(jù)流控制以及嵌入式 數(shù)據(jù)庫的使用,實現(xiàn)了對海量Web數(shù)據(jù)的采集、抽樣、嵌入式計算與統(tǒng)計分析,降低了計算 資源成本,同時大大縮短數(shù)據(jù)從分析到應(yīng)用的周期。如圖3所示,本發(fā)明一實施例提出一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法,包括步驟S101,獲取待分析處理數(shù)據(jù),對待分析處理數(shù)據(jù)進行抽樣處理;本實施例方法運行環(huán)境基于電子商務(wù)的CRM領(lǐng)域,包括作業(yè)控制器(WorkFlow controller)、ETL 控制器(ETL controller)、分布式緩存服務(wù)器(Memcached Server) M 據(jù)庫服務(wù)器(Database Server)、數(shù)學(xué)模型控制中心(Math model selecter)、嵌入式計算 中心(Embedded Computing)以及商務(wù)智能展示中心(BusinessObjects Gallery)等,由作 業(yè)控制器控制其他功能服務(wù)器或控制中心完成相應(yīng)的數(shù)據(jù)流向與作業(yè)流程。作業(yè)控制器采 用TCLSH可以實現(xiàn)多服務(wù)器的遠程控制,協(xié)調(diào)若干機器的數(shù)據(jù)流向和作業(yè)流程。TCLSH是一 種通用的腳本語言,其功能強大,幾乎可以在所有的平臺上解釋運行。在本實施例中,由ETL控制器從數(shù)據(jù)源獲取待分析處理數(shù)據(jù),并對待分析處理數(shù) 據(jù)進行抽樣處理。ETL控制器將分布的、異構(gòu)數(shù)據(jù)源中的待分析處理數(shù)據(jù)如關(guān)系數(shù)據(jù)、平 面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市 中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。本實施例待分析處理數(shù)據(jù)具體包括站點訪問數(shù)據(jù)、站內(nèi)營銷行為數(shù)據(jù)、站外市場 分析數(shù)據(jù)、Web頁面超級鏈接關(guān)系數(shù)據(jù)和/或SNS數(shù)據(jù)等。其中站點訪問數(shù)據(jù),是指當(dāng)客戶訪問站點時會在Web服務(wù)器上留下相應(yīng)的日志數(shù)據(jù), 這些日志數(shù)據(jù)通常以文本文件的形式存儲在服務(wù)器上。一般包括SeVerl0gS、err0r logs、 cookie logs等。*. log文件是日志文件,里面主要記錄了系統(tǒng)、硬件、軟件等的使用記錄。 日志數(shù)據(jù)是電子商務(wù)站點在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。例如,對于在線客戶也許會搜 索一些產(chǎn)品或某些廣告信息,這些搜索查詢信息就通過cookie或是登記信息連接到服務(wù) 器的訪問日志上。站內(nèi)營銷行為數(shù)據(jù),主要是傳統(tǒng)關(guān)系數(shù)據(jù)庫里存儲的本站站點客戶資料、客戶消 費情況、商品信息等數(shù)據(jù)。站外市場分析數(shù)據(jù),主要是指關(guān)聯(lián)企業(yè)的公開信息管理,例如可能的供應(yīng)商信息 以及可能的競爭對手情報分析,這些數(shù)據(jù)往往是分散的、異介質(zhì)的的非結(jié)構(gòu)化數(shù)據(jù)。Web頁面超級鏈接關(guān)系數(shù)據(jù),主要是指頁面之間存在的超級鏈接關(guān)系,這是一種重 要的資源,通過各大網(wǎng)站有效的互利合作,能最大限度的實現(xiàn)有效推送,將最合適的信息送 達最多的可能客戶。對于SNS數(shù)據(jù),SNS全稱即社交網(wǎng)絡(luò)服務(wù),專指旨在幫助人們建立社會性網(wǎng)絡(luò)的互 聯(lián)網(wǎng)應(yīng)用服務(wù),也指社會現(xiàn)有已成熟普及的信息載體,如短信SMS服務(wù)。SNS的另一種常用 解釋全稱Social Network Site,S卩“社交網(wǎng)站”或“社交網(wǎng)”。在SNS中,在朋友圈內(nèi)關(guān)系 往往較真實,粘著度很高,互相之間不存在所謂網(wǎng)絡(luò)的“假面具”,因此,比較容易實現(xiàn)實名 制;SNS基于人傳人聯(lián)系網(wǎng)絡(luò),一傳多,多傳多,利用網(wǎng)絡(luò)這一低廉而快速的平臺,網(wǎng)絡(luò)建立 的速度非??欤@使得建立人脈網(wǎng)絡(luò)的成本進一步降低。步驟S102,將抽樣處理后的待分析處理數(shù)據(jù)存儲于數(shù)據(jù)庫中;本實施例中,可以由數(shù)據(jù)庫服務(wù)器存儲上述抽樣處理后的待分析處理數(shù)據(jù)。數(shù)據(jù)庫服務(wù)器具體采用Berkeley DB (伯克利數(shù)據(jù)庫服務(wù)器),Berkeley DB是一個高性能的嵌 入數(shù)據(jù)庫編程庫,和C語言、C++、Java、Perl、Python、PHP、TCl以及其他很多語言都有綁定。 Berkeley DB可以保存任意類型的鍵/值對,而且可以為一個鍵保存多個數(shù)據(jù)。Berkeley DB可以支持?jǐn)?shù)千的并發(fā)線程同時操作數(shù)據(jù)庫,支持最大256TB的數(shù)據(jù),廣泛用于各種操作 系統(tǒng)包括大多數(shù)Unix類操作系統(tǒng)和Windows操作系統(tǒng)以及實時操作系統(tǒng)。本實施例將其 應(yīng)用于存儲所有已經(jīng)被轉(zhuǎn)換過的待處理數(shù)據(jù)。步驟S103,根據(jù)用戶策略為待分析處理數(shù)據(jù)選擇對應(yīng)的預(yù)置數(shù)學(xué)模型;本實施例中,用戶策略是指用戶根據(jù)業(yè)務(wù)模型和數(shù)據(jù)結(jié)構(gòu)對待分析處理數(shù)據(jù)的預(yù) 期處理方式,比如用戶預(yù)期想通過某個網(wǎng)站的瀏覽次數(shù)對該網(wǎng)站的瀏覽者的購買行為進行 關(guān)聯(lián)分析等的策略。當(dāng)獲取到待分析處理數(shù)據(jù)并將待分析處理數(shù)據(jù)進行清洗、轉(zhuǎn)換、集成等抽樣處理 之后,根據(jù)用戶策略為待分析處理數(shù)據(jù)選擇對應(yīng)的預(yù)置數(shù)學(xué)模型,不同的用戶策略對應(yīng)不 同的數(shù)學(xué)模型,數(shù)學(xué)模型可以預(yù)先設(shè)置或創(chuàng)建但必須是由以下所述的嵌入式計算處理中心 支持的預(yù)置數(shù)學(xué)模型。根據(jù)業(yè)務(wù)模型和數(shù)據(jù)結(jié)構(gòu)選擇不同的數(shù)學(xué)模型,從原有的數(shù)據(jù)庫全 庫統(tǒng)計模式調(diào)整為抽樣數(shù)理統(tǒng)計分析模式,在保證數(shù)據(jù)統(tǒng)計有效性的情況下科學(xué)的降低了 數(shù)據(jù)的計算量,并實現(xiàn)了數(shù)據(jù)從輸入到輸出的匹配。步驟S104,根據(jù)對應(yīng)的預(yù)置數(shù)學(xué)模型對待分析處理數(shù)據(jù)進行計算分析處理,得到 計算分析處理結(jié)果;本實施例中,計算分析處理具體為嵌入式計算分析處理,通過嵌入式計算處理中 心來實現(xiàn)。該嵌入式計算處理中心為DSP,DSP是一種獨特的微處理器,是以數(shù)字信號來處 理大量信息的器件。它不僅具有可編程性,而且其實時運行速度可達每秒數(shù)以千萬條復(fù)雜 指令程序,遠遠超過通用微處理器。本實施例將其應(yīng)用于專業(yè)的數(shù)學(xué)函數(shù)計算,以解決對數(shù) 據(jù)進行快速計算的問題。步驟S105,將計算分析處理結(jié)果進行商務(wù)智能展示。在本實施例中,通過商務(wù)智能展示中心將嵌入式計算處理中心計算分析處理的結(jié) 果嵌入Business Ob jects專業(yè)商務(wù)智能(Bi)軟件表現(xiàn),其形式多樣且數(shù)據(jù)透視效果明顯。 Business Objects是全球領(lǐng)先的商務(wù)智能軟件公司,其可以幫助企業(yè)更加深入的跟蹤和了 解該企業(yè)業(yè)務(wù)狀況,改善企業(yè)決策水平,優(yōu)化企業(yè)績效。下面以某種商品的網(wǎng)絡(luò)瀏覽量與成交情況的關(guān)聯(lián)分析為例,對本發(fā)明技術(shù)方案進 行說明該例數(shù)據(jù)計算環(huán)境為0S= WinXP SP2 ;RAM = IG ;CPU = AMD Athlon 64X2Dual 5000+ ;Disk = 160G ;默認(rèn)簇大小為 4K。以瀏覽次數(shù)600萬計算,需要插入的實際數(shù)據(jù)量為600*10000*2*sizeof(int)/1024/1024 ^ 45. 78MByte ;實際測試結(jié)果為記錄數(shù)量=600萬;頁尺寸=4K ;真實數(shù)據(jù)量=45. 78MByte ;數(shù)據(jù)庫文件大小= 160M ;時間消耗為34. 13秒,即代表給定配置情況下,系統(tǒng)可以在40秒內(nèi)記錄600萬點擊的 請求。對插入的數(shù)據(jù)進行全部統(tǒng)計分析,實際測試結(jié)果為時間消耗為8. 03秒,即代表現(xiàn)有配置情況下系統(tǒng)可以在9秒內(nèi)分析出600萬瀏覽者的購買行為。由此可知,在短短的時間內(nèi)即可對海量數(shù)據(jù)進行統(tǒng)計分析,并得到統(tǒng)計分析結(jié)果, 極大降低了數(shù)據(jù)計算資源成本,同時大大縮短數(shù)據(jù)從分析到應(yīng)用的周期,由此,可以幫助企 業(yè)更加深入的跟蹤和了解企業(yè)業(yè)務(wù),改善企業(yè)決策水平,優(yōu)化企業(yè)績效?,F(xiàn)有網(wǎng)絡(luò)業(yè)務(wù)模式因采用傳統(tǒng)電子商務(wù)領(lǐng)域/SNS/網(wǎng)絡(luò)游戲等多個互聯(lián)網(wǎng)領(lǐng)域 相結(jié)合的模式,業(yè)務(wù)發(fā)展迅速,數(shù)據(jù)異常龐大,若通過常規(guī)辦法(如數(shù)據(jù)倉庫及通用計算技 術(shù))則很難實現(xiàn)低廉高速的信息加工。本實施例針對電子商務(wù)的CRM領(lǐng)域,分析出通用的客戶行為模型,對獲取的站點 訪問數(shù)據(jù)、站內(nèi)營銷行為數(shù)據(jù)、站外市場分析數(shù)據(jù)、Web頁面超級鏈接關(guān)系數(shù)據(jù)和/或SNS數(shù) 據(jù)等待分析處理數(shù)據(jù),應(yīng)用現(xiàn)代數(shù)據(jù)挖掘的成熟算法,對待分析處理數(shù)據(jù)進行嵌入式計算 分析處理,并采用嵌入式技術(shù)將計算中心固化成高速計算的專用芯片,不需進行數(shù)據(jù)庫的 全庫統(tǒng)計,降低計算資源成本,同時大大縮短數(shù)據(jù)從分析到應(yīng)用的周期。如圖4所示,本發(fā)明另一實施例提出一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法,在上 述實施例的基礎(chǔ)上,其中,在步驟SlOl之前還包括步驟S100,根據(jù)業(yè)務(wù)規(guī)則和數(shù)據(jù)結(jié)構(gòu)建立相應(yīng)的預(yù)置數(shù)學(xué)模型;如上所述,不同的用戶策略對應(yīng)不同的數(shù)學(xué)模型,在本實施例中,可以根據(jù)業(yè)務(wù)規(guī) 則或模型以及數(shù)據(jù)結(jié)構(gòu)或數(shù)據(jù)挖掘原理建立相應(yīng)的預(yù)置數(shù)學(xué)模型。在步驟S102之前還包括步驟S1023,對抽樣處理后的待分析處理數(shù)據(jù)進行緩存。在本實施例中,可以采用分布式緩存服務(wù)器(Memcached Server)對抽樣處理后的 待分析處理數(shù)據(jù)進行緩存,Memcached是一個高性能的分布式內(nèi)存對象緩存系統(tǒng),用于動態(tài) Web應(yīng)用以減輕數(shù)據(jù)庫負(fù)載。本實施例采用Memcached進行數(shù)據(jù)緩存以加快數(shù)據(jù)運算速度。綜上所述,本發(fā)明實施例通過建立符合一般電子商務(wù)企業(yè)業(yè)務(wù)標(biāo)準(zhǔn)的工作模型、 對異構(gòu)數(shù)據(jù)的采集、結(jié)構(gòu)化與重新加載,并根據(jù)業(yè)務(wù)規(guī)則和數(shù)據(jù)挖掘原理建立可運算的數(shù) 學(xué)模型以及對邊緣計算技術(shù)進行融合,包括對數(shù)據(jù)挖掘技術(shù)、嵌入式開發(fā)技術(shù)、ETL數(shù)據(jù)流 控制以及嵌入式數(shù)據(jù)庫的使用,實現(xiàn)了對海量Web數(shù)據(jù)的采集、抽樣、嵌入式計算與統(tǒng)計分 析,降低了計算資源成本,同時大大縮短數(shù)據(jù)從分析到應(yīng)用的周期。也就是說,本發(fā)明實施 例在業(yè)務(wù)模式相對固定的前提下,用一個統(tǒng)一的框架整合了嵌入式計算(硬件)和數(shù)據(jù)挖 掘(軟件)兩個領(lǐng)域的基礎(chǔ)設(shè)施,對電子商務(wù)行業(yè)的WEB海量數(shù)據(jù)從商務(wù)智能的角度進行 了數(shù)學(xué)加工,以獲取其背后隱藏的商業(yè)含義和銷售商機。以上所述僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用 本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或流程變換,或直接或間接運用在其他相關(guān)的技 術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。
權(quán)利要求
一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法,其特征在于,包括獲取待分析處理數(shù)據(jù),對所述待分析處理數(shù)據(jù)進行抽樣處理;將抽樣處理后的所述待分析處理數(shù)據(jù)存儲于數(shù)據(jù)庫中;根據(jù)用戶策略為所述待分析處理數(shù)據(jù)選擇對應(yīng)的預(yù)置數(shù)學(xué)模型;根據(jù)所述對應(yīng)的預(yù)置數(shù)學(xué)模型對所述待分析處理數(shù)據(jù)進行計算分析處理,得到計算分析處理結(jié)果;將所述計算分析處理結(jié)果進行商務(wù)智能展示。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待分析處理數(shù)據(jù)包括站點訪問數(shù) 據(jù)、站內(nèi)營銷行為數(shù)據(jù)、站外市場分析數(shù)據(jù)、Web頁面超級鏈接關(guān)系數(shù)據(jù)和/或社交網(wǎng)絡(luò)服 務(wù)SNS數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對待分析處理數(shù)據(jù)進行抽樣處理具 體包括將分布的、異構(gòu)數(shù)據(jù)源中的待分析處理數(shù)據(jù)抽取到臨時中間層后進行清洗、轉(zhuǎn)換、 集成和加載。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算分析處理具體為嵌入式計算分 析處理。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將抽樣處理后的所述待分析處理數(shù) 據(jù)存儲于數(shù)據(jù)庫中的步驟之前還包括對抽樣處理后的待分析處理數(shù)據(jù)進行緩存。
6.根據(jù)權(quán)利要求1、2、3、4或5所述的方法,其特征在于,所述獲取待分析處理數(shù)據(jù)的步 驟之前還包括根據(jù)業(yè)務(wù)規(guī)則和數(shù)據(jù)結(jié)構(gòu)建立相應(yīng)的預(yù)置數(shù)學(xué)模型。
7.一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析系統(tǒng),其特征在于,包括ETL控制器,用于獲取待分析處理數(shù)據(jù),對所述待分析處理數(shù)據(jù)進行抽樣處理; 數(shù)據(jù)庫服務(wù)器,用于將抽樣處理后的所述待分析處理數(shù)據(jù)存儲于數(shù)據(jù)庫中; 數(shù)學(xué)模型控制中心,用于根據(jù)用戶策略為所述待分析處理數(shù)據(jù)選擇對應(yīng)的預(yù)置數(shù)學(xué)模型;計算中心,用于根據(jù)所述對應(yīng)的預(yù)置數(shù)學(xué)模型對所述待分析處理數(shù)據(jù)進行計算分析處 理,得到計算分析處理結(jié)果;商務(wù)智能展示中心,用于將所述計算分析處理結(jié)果進行商務(wù)智能展示; 作業(yè)控制器,用于控制上述各功能服務(wù)器或中心工作以完成相應(yīng)的數(shù)據(jù)流向與作業(yè)流程。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述ETL控制器,還用于將分布的、異構(gòu)數(shù) 據(jù)源中的待分析處理數(shù)據(jù)抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成和加載。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括分布式緩存服務(wù)器,連接 在所述ETL控制器與數(shù)據(jù)庫服務(wù)器之間,用于對抽樣處理后的待分析處理數(shù)據(jù)進行緩存。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括創(chuàng)建模塊,與所述ETL控 制器連接,用于根據(jù)業(yè)務(wù)規(guī)則和數(shù)據(jù)結(jié)構(gòu)建立相應(yīng)的預(yù)置數(shù)學(xué)模型。
全文摘要
本發(fā)明涉及一種應(yīng)用于電子商務(wù)的數(shù)據(jù)分析方法及系統(tǒng),其方法包括獲取待分析處理數(shù)據(jù),對待分析處理數(shù)據(jù)進行抽樣處理;將抽樣處理后的待分析處理數(shù)據(jù)存儲于數(shù)據(jù)庫中;根據(jù)用戶策略為待分析處理數(shù)據(jù)選擇對應(yīng)的預(yù)置數(shù)學(xué)模型;根據(jù)對應(yīng)的預(yù)置數(shù)學(xué)模型對所述待分析處理數(shù)據(jù)進行計算分析處理,得到計算分析處理結(jié)果;將計算分析處理結(jié)果進行商務(wù)智能展示。本發(fā)明應(yīng)用現(xiàn)代數(shù)據(jù)挖掘的成熟算法,對待分析處理數(shù)據(jù)進行嵌入式計算分析處理,并采用嵌入式技術(shù)將計算中心固化成高速計算的專用芯片,不需進行數(shù)據(jù)庫的全庫統(tǒng)計,降低計算資源成本,同時大大縮短數(shù)據(jù)從分析到應(yīng)用的周期。
文檔編號G06Q30/00GK101908191SQ20101024369
公開日2010年12月8日 申請日期2010年8月3日 優(yōu)先權(quán)日2010年8月3日
發(fā)明者張津銘 申請人:深圳市她秀時尚電子商務(wù)有限公司