国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法

      文檔序號(hào):6371813閱讀:274來源:國(guó)知局
      專利名稱:一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法
      技術(shù)領(lǐng)域
      本專利涉及數(shù)據(jù)分析方法,尤其是計(jì)算機(jī)實(shí)現(xiàn)的流數(shù)據(jù)分析和關(guān)聯(lián)方法以及數(shù)據(jù)關(guān)聯(lián)分析系統(tǒng)。
      背景技術(shù)
      現(xiàn)在很多系統(tǒng)都可以生成流數(shù)據(jù),典型的比如計(jì)算機(jī)系統(tǒng)的性能監(jiān)測(cè)數(shù)據(jù),不同地區(qū)的天氣數(shù)據(jù),金融數(shù)據(jù)(包括股票、債券、石油價(jià)格)等等。這些數(shù)據(jù)的共同特點(diǎn)是每個(gè)時(shí)間點(diǎn)都會(huì)生成一個(gè)新的數(shù)據(jù),生成頻率非常高,從而導(dǎo)致無法長(zhǎng)時(shí)間的存儲(chǔ)數(shù)據(jù)并分析。在每個(gè)時(shí)間點(diǎn)上的數(shù)據(jù)我們稱之為一個(gè)數(shù)據(jù)點(diǎn)。如何能快速的發(fā)現(xiàn)這些數(shù)據(jù)之間關(guān)聯(lián)性是一個(gè)值得研究的問題。比如,在金融數(shù) 據(jù)中,如果存在幾個(gè)金融數(shù)據(jù),比如石油價(jià)格為A,匯率價(jià)格為B,當(dāng)我們觀察股票C的漲跌情況的時(shí)候,我們希望能知道股票A的漲跌與石油價(jià)格A和匯率價(jià)格B之間是否存在關(guān)聯(lián)?;蛘哒f,當(dāng)前股票C的價(jià)格變動(dòng),是不是由于A或者B的價(jià)格變動(dòng)引起的,或者是別的因素。這個(gè)方法也同樣適用于多個(gè)股票之間的關(guān)系的分析。復(fù)雜的系統(tǒng),比如衛(wèi)星系統(tǒng)、計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)或者一個(gè)數(shù)據(jù)庫系統(tǒng),一般都是由很多的部件構(gòu)成的。比如數(shù)據(jù)庫系統(tǒng)中存在內(nèi)存緩存,硬盤(或者外部存儲(chǔ)),CPU等的部件。針對(duì)每個(gè)部件,監(jiān)控裝置可以監(jiān)控他們的運(yùn)行狀態(tài),并記錄下來。每個(gè)部件記錄下來的數(shù)據(jù)就成為一個(gè)流數(shù)據(jù)。同時(shí),我們針對(duì)整個(gè)的系統(tǒng)可能有其他的監(jiān)控指標(biāo),比如系統(tǒng)的吞吐量,響應(yīng)時(shí)間等。當(dāng)我們?cè)谙到y(tǒng)的響應(yīng)時(shí)間上發(fā)現(xiàn)異常(比如特別慢)的時(shí)候,我們希望能自動(dòng)分析內(nèi)部每個(gè)部件的監(jiān)測(cè)數(shù)據(jù),并能夠定位到哪個(gè)部件的狀態(tài)數(shù)據(jù)與這個(gè)狀態(tài)特別相關(guān)。這樣,我們就可以很容易的發(fā)現(xiàn)系統(tǒng)問題出在什么地方。目前已經(jīng)有一些方法通過計(jì)算流數(shù)據(jù)之間的相關(guān)系數(shù)來實(shí)現(xiàn)。典型的有Pearson相關(guān)系數(shù),余弦(Cosine)相關(guān)性等。另外,還可以在計(jì)算相關(guān)性之前進(jìn)行多種變換,比如傅里葉(Fourier)變換,小波(Haar Wavelet)變換等。這些方法的共同點(diǎn)是他們計(jì)算的都是全局的相關(guān)性,比如可以計(jì)算兩個(gè)股票之間在全局的相關(guān)性,或者兩個(gè)部件的監(jiān)測(cè)數(shù)據(jù)的全局相關(guān)性。另外,有些方法也可以在局部區(qū)域計(jì)算相關(guān)性。比如可以把一段時(shí)間(或稱之為滑動(dòng)窗口)的數(shù)據(jù)內(nèi)部計(jì)算相關(guān)性。另外,還可以做特征值分解(SVD)變換后計(jì)算滑動(dòng)窗口內(nèi)的相關(guān)性。這種方法的問題是只能考慮當(dāng)前窗口的變換,而不能利用歷史的信息。高斯混合模型(Gaussian Mixture Model,記為GMM)是利用多個(gè)高斯分布(Gaussian DistributionddSG)來擬合現(xiàn)實(shí)數(shù)據(jù)的一個(gè)模型。每個(gè)高斯分布按照附圖I的公式定義。
      多個(gè)高斯分布線性可以按照附圖2的公式組合就構(gòu)成了一個(gè)高斯混合模型GMM(X)。得到一個(gè)分布模型后(比如GMM(X)),如果有一個(gè)新的數(shù)據(jù)點(diǎn)X,可以輸入到函數(shù)中,得到這個(gè)數(shù)據(jù)點(diǎn)的分布概率PU)。最大似然方法(Expectation Maximization,簡(jiǎn)稱EM)方法是根據(jù)數(shù)據(jù)通過不斷的迭代擬合一個(gè)分布模型的方法。這個(gè)方法里面的每個(gè)迭代包括計(jì)算似然(E)和最大化似然(M)兩個(gè)步驟。在E步驟里面,根據(jù)固定的分布參數(shù)來調(diào)整每個(gè)數(shù)據(jù)點(diǎn)屬于不同的分布模型的概率,在M步驟里面,把每個(gè)數(shù)據(jù)點(diǎn)屬于不同的分布固定,然后最大化每個(gè)分布模型的參數(shù)。最大似然方法可以用來擬合各種分布模型,其中包括高斯混合模型。在前面提到的技術(shù)的基礎(chǔ)上,本專利中提出了一種分析框架,這個(gè)分析框架根據(jù)歷史的流數(shù)據(jù)訓(xùn)練一個(gè)分布模型,然后利用分布模型針對(duì)當(dāng)前的流數(shù)據(jù)計(jì)算不同流數(shù)據(jù)直接相關(guān)性的方法。同時(shí),本專利提出了利用高斯混合模型實(shí)現(xiàn)這種框架的方法和系統(tǒng)。

      發(fā)明內(nèi)容
      本專利是一個(gè)可以根據(jù)歷史的流數(shù)據(jù)訓(xùn)練一個(gè)分布模型,然后利用分布模型針對(duì)當(dāng)前的流數(shù)據(jù)計(jì)算不同流數(shù)據(jù)之間相關(guān)度的方法。如何訓(xùn)練分布模型 本方法的模型訓(xùn)練的輸入是多個(gè)數(shù)據(jù)流的歷史數(shù)據(jù),假定有N個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)上每個(gè)數(shù)據(jù)流有一個(gè)數(shù)據(jù)。根據(jù)用戶對(duì)于這些數(shù)據(jù)流的業(yè)務(wù)理解,這些數(shù)據(jù)流可以分成兩類源數(shù)據(jù)流X和目標(biāo)數(shù)據(jù)流Y。其中目標(biāo)數(shù)據(jù)流Y—般是能夠描述整個(gè)系統(tǒng)的指標(biāo),而源數(shù)據(jù)流則一般可以描述系統(tǒng)中的子系統(tǒng)的狀態(tài)。我們希望能夠針對(duì)子系統(tǒng)的狀態(tài)和整個(gè)系統(tǒng)的狀態(tài)之間的復(fù)雜關(guān)系建立一個(gè)模型。在特殊的情況下,如果需要,用戶可以把所有的數(shù)據(jù)流都作為目標(biāo)數(shù)據(jù)流,同時(shí)把所有的數(shù)據(jù)流都作為源數(shù)據(jù)流。首先聲明本專利中用到的一些符號(hào)
      GMM(Xi, Y)代表Xi和Y的聯(lián)合高斯混合分布模型,Xi和Y的順序可以改變,不影響模型,也就是GMM (Y,Xi) =GMM (Xi, Y)。GMM(Xi)代表Xi的條件高斯混合分布模型。GMM (YXi)代表Y相對(duì)于Xi的條件高斯混合分布模型;
      同樣的用麗(Xi)代表任意的一個(gè)分布模型,MM(Xi, Y)代表任意的一個(gè)Xi和Y的聯(lián)合分布模型;
      P(Xi)代表Xi的分布概率,對(duì)于任意一個(gè)數(shù)據(jù)點(diǎn),可以根據(jù)麗(Xi)或者GMM(Xi)計(jì)算 P (Xi)。P (Xi, Y)代表Xi和Y的聯(lián)合分布概率。P (Y I Xi)代表Y相對(duì)于Xi的條件分布概率。假定存在M個(gè)源數(shù)據(jù)流,每個(gè)源數(shù)據(jù)流記做Xi,其中下標(biāo)i為從I到M的整數(shù)值,代表第i個(gè)源數(shù)據(jù)流。Xi中的每個(gè)數(shù)據(jù)記做Xit,其中t代表第t個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。在每次的訓(xùn)練處理中,為簡(jiǎn)單起見,我們假定只存在一個(gè)目標(biāo)數(shù)據(jù)流。如果需要有多個(gè)數(shù)據(jù)流作為目標(biāo)數(shù)據(jù)流分析,我們可以每次取一個(gè)目標(biāo)數(shù)據(jù)流作為Y,然后依次循環(huán)處理。我們同時(shí)假定所有的數(shù)據(jù)流的長(zhǎng)度相等(假定為N),如果長(zhǎng)度不相等,則在對(duì)應(yīng)的數(shù)據(jù)流空位上填一個(gè)缺省值(比如0)使其相等。確定M個(gè)Xi和一個(gè)Y之后,把每個(gè)Xi和Y兩兩組合,得到M個(gè)2個(gè)數(shù)據(jù)流構(gòu)成的數(shù)據(jù)流對(duì)〈Xi, Y〉。如果其中Xi和Y是同一個(gè),則掠過這個(gè)組合,繼續(xù)處理下一個(gè)。比如我們有2個(gè)源數(shù)據(jù)流X1, X2和一個(gè)目標(biāo)數(shù)據(jù)流Y,其中
      Xf2,3,I, 5,3,4,2,6,9,I, 2,3X2=8, 4,2,2,I, 2,2,3,2,4,I, 5Y = 8,4,2,5,3,4,2,6,9,4,2,5上面的例子里面三個(gè)數(shù)據(jù)流的長(zhǎng)度都是N=12。那么,我們可以組合出兩個(gè)數(shù)據(jù)流對(duì)〈^>和〈X2, Y〉。下面我們說明這兩個(gè)數(shù)據(jù)流對(duì)每個(gè)是如何拼接出來的。首先,我們說明如何在一維上拼接每個(gè)源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流,用來尋找直接的一維上的關(guān)聯(lián)關(guān)系,也就是每個(gè)點(diǎn)上Xi和Y之間的關(guān)聯(lián)度。這種情況等同于滑動(dòng)窗口的維度L=I。在處理一維數(shù)據(jù)關(guān)聯(lián)的時(shí)候,把每個(gè)數(shù)據(jù)流對(duì)的對(duì)應(yīng)的數(shù)據(jù)點(diǎn)上的數(shù)據(jù)重新組合成兩維數(shù)據(jù)對(duì),也就是〈X” Y〉= (<Xn,Y1^OCi2, Y2>,…,<X1N,YN>)。比如在上面的例子里面,我們最后可以得到
      <X1,Y> = 2, 8>,〈3,4>,〈1,2>,〈5,5>,〈3,3>,〈4,4>,〈2,2>,〈6,6>,〈9,9>,〈1,4>,〈2,2>,〈3,5 。其次,如果要針對(duì)每個(gè)數(shù)據(jù)流選擇多維(假設(shè)是L維)數(shù)據(jù)來識(shí)別連續(xù)多值的事件,首先定義一個(gè)滑動(dòng)窗口,假定其長(zhǎng)度為L(zhǎng)。每個(gè)數(shù)據(jù)流中每個(gè)數(shù)據(jù)點(diǎn)開始的L個(gè)數(shù)據(jù)成為一個(gè)滑動(dòng)窗口中的數(shù)據(jù)點(diǎn)。如果一個(gè)滑動(dòng)窗口從Xit開始,那么它所包含的數(shù)據(jù)就是
      〈Xit,Xi(t+1), , Xia+L—o〉。同樣的,從Yt開始的目標(biāo)數(shù)據(jù)流的滑動(dòng)窗口所包含的數(shù)據(jù)就是
      <Yt,Y(t+1),…,Y(t+H)>。把源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流的同一個(gè)位置的滑動(dòng)窗口中的所有2L個(gè)數(shù)據(jù)點(diǎn)拼接成一個(gè)新的數(shù)據(jù)點(diǎn)的數(shù)據(jù)。最終得到M個(gè)2L維的數(shù)據(jù)流對(duì)。我們有
      (Xi, Y〉— (〈Xn, Xi2, ,Xi (1+L), Y1, Xi2, ,Xi (1+L)〉,
      〈Xn,Xi2, ,Xj(1+L), Y1, Xi2, ,Xj(1+L)〉,
      〈Xi(N-L+l),(N-L+2)) , XiN, Y(n_l+1), Xi (N_L+2), , XiN〉)
      這些數(shù)據(jù)流對(duì)的長(zhǎng)度為N-L+1,每個(gè)數(shù)據(jù)點(diǎn)的維度為2L。比如按照上面的數(shù)據(jù),如果我們選擇窗口長(zhǎng)度L=3,那么拼接后得到的數(shù)據(jù)流對(duì)為
      <X1,Y> = (〈2,3,1,8,4,2>,〈3,1,5,4,2,5>,-<1,2, 3,4, 2, 5
      其中,第一個(gè)數(shù)據(jù)點(diǎn)中〈2,3,1,8,4, 2>的前三個(gè)數(shù)據(jù)值〈2,3,1>是來自X1的,〈8,4,2>是來自Y的。上面的這個(gè)過程,我們稱之為數(shù)據(jù)轉(zhuǎn)換的過程。然后,我們進(jìn)行模型的訓(xùn)練。如果我們分布模型選擇使用高斯混合模型,在訓(xùn)練的開始,需要給定一個(gè)參數(shù)K。K代表針對(duì)轉(zhuǎn)換后的數(shù)據(jù)流對(duì)訓(xùn)練多少個(gè)狀態(tài),也就是附圖2中高斯混合模型公式中的K。這個(gè)K的值我們?nèi)笔≡O(shè)置比較大,這個(gè)值一般根據(jù)實(shí)際系統(tǒng)的經(jīng)驗(yàn)初審給定。比如K=20個(gè)。這個(gè)參數(shù)可以根據(jù)用戶的業(yè)務(wù)經(jīng)驗(yàn)和對(duì)于數(shù)據(jù)的理解設(shè)定。利用最大似然(EM)算法,針對(duì)每個(gè)數(shù)據(jù)流對(duì)〈X” Y〉我們可以訓(xùn)練得到一個(gè)高斯混合模型GMM (Xi, Y)。這個(gè)GMM (Xi, Y)的維度是與前面轉(zhuǎn)換后的數(shù)據(jù)流對(duì)〈X” Y〉的維度一致的。如果〈Xi, Y >是21維的,那么GMM(XiJ)的每個(gè)高斯函數(shù)也是2L維的。在訓(xùn)練的過程中,如果出現(xiàn)最大似然算法不能收斂的情況,我們?cè)O(shè)定一個(gè)閥值(t匕如1000次迭代),達(dá)到這個(gè)迭代次數(shù)后,就停止算法,然后把狀態(tài)數(shù)K減一,重新開始訓(xùn)練。這個(gè)閥值是訓(xùn)練算法的一個(gè)參數(shù),一開始的時(shí)候確定。最大似然算法完成后,我們得到M個(gè)高斯混合模型,其中每個(gè)高斯混合模型GMM(Xi, Y)代表Xi和Y的聯(lián)合高斯混合分布概率。針對(duì)每個(gè)數(shù)據(jù)流對(duì)訓(xùn)練完成后,我們同時(shí)要訓(xùn)練每個(gè)源數(shù)據(jù)流Xi的分布模型GMM(Xi)。這個(gè)訓(xùn)練過程中,模型輸入的數(shù)據(jù)維度與前面聯(lián)合分布概率的L一致。比如如果前面訓(xùn)練用的L=3,那么同樣的把Xi變換成為3維的(N-3+1)個(gè)數(shù)據(jù)點(diǎn)。然后用最大似然算法擬合一個(gè)3維的高斯混合模型。最后得到M個(gè)源數(shù)據(jù)流對(duì)應(yīng)的M個(gè)高斯混合模型GMM(Xi)。在分布模型為高斯模型的情況下,我們可以利用高斯模型的特殊性質(zhì),根據(jù)GMM(Xi, Y)計(jì)算偏概率分布(partial Distribution)得到GMM(Xi),計(jì)算的方法是把高斯混合模型中的中心點(diǎn)u和方差s中的Xi部分取出,構(gòu)成一個(gè)新的模型就可以。同樣類似的方法,也可以計(jì)算條件概率(Conditional Distribution)得到GMM(Y | Xi)。這兩個(gè)計(jì)算相關(guān)概率的方法是已有方法,不是本專利內(nèi)容。為了簡(jiǎn)化本法的描述,我們用高斯混合模型作為分布模型來描述我們的數(shù)據(jù)關(guān)聯(lián)分析方法,但是本方法可以使用其他分布模型來替代高斯混合模型,所以分布模型使用高斯混合模型不應(yīng)成為本專利的限制。如何計(jì)算相關(guān)性
      在一個(gè)新的時(shí)間點(diǎn),我們會(huì)觀測(cè)到一批新的數(shù)據(jù)。這些數(shù)據(jù)跟原來用于訓(xùn)練高斯混合模型的歷史的格式是相同的。這里我們同樣假定輸入為M個(gè)源數(shù)據(jù)流Xi和I個(gè)目標(biāo)數(shù)據(jù) 流Y。但是每次處理的數(shù)據(jù)流長(zhǎng)度不是N,而是前面訓(xùn)練的時(shí)候設(shè)定的數(shù)據(jù)流匹配的維度L。然后,按照訓(xùn)練的時(shí)候同樣的組合方式,把每個(gè)源數(shù)據(jù)流Xi與目標(biāo)數(shù)據(jù)流Y組合,得到M個(gè)數(shù)據(jù)流對(duì)〈Xi, Y〉的一個(gè)或者多個(gè)數(shù)據(jù)點(diǎn)。在計(jì)算相關(guān)度的時(shí)候,我們每次針對(duì)一個(gè)數(shù)據(jù)點(diǎn)(時(shí)間點(diǎn))進(jìn)行,如果有多個(gè)數(shù)據(jù)點(diǎn),則依次處理。比如在前面的例子里面,假定我們用L=I來訓(xùn)練的高斯混合模型。在一個(gè)新的數(shù)據(jù)點(diǎn)上,我們收集到這樣的數(shù)據(jù)
      Xi=6X2=I
      Y= 6
      我們按照訓(xùn)練模型是對(duì)于數(shù)據(jù)整理的同樣的方式,得到兩個(gè)2維的數(shù)據(jù)流對(duì) <X1,Y>=<6, 6>, <X2,Y>=〈1,6>。然后,我們可以使用兩種方法來計(jì)算相關(guān)性。第一種方法是把〈Xi, Y〉輸入到分布模型麗(YI Xi)可以直接求得M個(gè)Xi與Y的相關(guān)性P (Y I Xi)。這種情況適用于條件分布模型可以直接算出的情況,比如分布模型用高斯混合模型的情況下可以用GMM(Y| Xi)直接計(jì)算P (Y I Xi)。第二種方法是把〈Xi, Y〉輸入到分布模型MM (Xi, Y)得到聯(lián)合概率P (Xi, Y),然后把
      <Xi >輸入到源數(shù)據(jù)流的分布模型MM(Xi)中求得源數(shù)據(jù)流的分布概率P(Xi)。然后,根據(jù)公式
      P(Y I Xi)= P(XilY)/ P(Xi)
      就可以求得M個(gè)Xi與Y的相關(guān)性P (Y I Xi)。在這M個(gè)相關(guān)性P (Y I Xi)中,找最大的值,就可以找出哪個(gè)源數(shù)據(jù)流對(duì)應(yīng)的系統(tǒng)部件跟現(xiàn)在的系統(tǒng)狀態(tài)最相關(guān)。前面的兩個(gè)方法中,麗(Xi)代表Xi的分布模型,如果使用GMM,則成為GMM(Xi)。如何嵌入其他變換
      在前面數(shù)據(jù)轉(zhuǎn)換的過程中,除了簡(jiǎn)單的按照滑動(dòng)窗口展開的方式,我們還可以嵌入其他的轉(zhuǎn)換函數(shù)。這里按照小波變換(Haar Wavelet)來作為例子講解怎么把變換后的結(jié)果嵌入到數(shù)據(jù)轉(zhuǎn)換的過程。其他的變換如傅里葉,余弦變換等的嵌入方式是相同的。數(shù)據(jù)變換過程需要定義一個(gè)參數(shù),那就是變換后保留的數(shù)據(jù)的維度,我們記做L’。嵌入其他變換的方法一般適用在滑動(dòng)窗口中,并且L>1。不同的變換函數(shù)對(duì)參數(shù)有不同的要求,一般L’遠(yuǎn)小于L。L’也可以選擇比L大,則稱之為升維變換。一般為達(dá)到最好性能,小波變換要求L是2的乘方數(shù),比如2,4,8等。按照“如何訓(xùn)練分布模型” 一章所述,在數(shù)據(jù)變換的過程中,針對(duì)每個(gè)數(shù)據(jù)流,比如Xi,在每一個(gè)Xit開始的滑動(dòng)窗口中,在轉(zhuǎn)換的過程中,我們有L個(gè)數(shù)據(jù)<Xit,Xi(t+1),…,Xi(t+L—I)〉° 針對(duì)這些數(shù)據(jù),我們可以做小波變換,然后只保留前面少部分的L’個(gè)變換后的系數(shù)。比如L=S的時(shí)候,我們可以保留前面L’=2個(gè)或者L’=4個(gè)變換后的系數(shù)。仍然按照前面的例子,我們有數(shù)據(jù)
      Xf2,3,I, 5,3,4,2,6,9,I, 2,3 X2=8, 4,2,2,I, 2,2,3,2,4,I, 5
      Y= 8,4,2,5,3,4,2,6,9,4,2,5 進(jìn)行小波變換的時(shí)候,需要先先構(gòu)造每個(gè)滑動(dòng)窗口的數(shù)據(jù)。我們以計(jì)算〈X” Y〉的變換為例。首先得到Xl和Y的第一個(gè)滑動(dòng)窗口的數(shù)據(jù)
      <Xn>=<2, 3,I, 5,3,4,2,6>
      <¥^=<8, 4,2,5,3,4,2,6>
      經(jīng)過小波變換后的,滑動(dòng)窗口內(nèi)的數(shù)據(jù)變成為
      <Xn,>=〈26,2,0.5,0.5,0.5,2,0.5,2>
      〈Y/ >=〈34,-2,-2. 5 -0.5,-2,I. 5, 0.5,2>
      我們從小波變換后的數(shù)據(jù)中取前面的兩個(gè)L’ =2,我們得到
      <Xn,>=〈26,2>
      〈Y/ >=〈34, -2〉
      然后我們把兩個(gè)變換后的結(jié)果拼接在一起,得到
      〈X/ ,Y,>=〈26,2,34,-2〉,
      然后把這些轉(zhuǎn)換后的數(shù)據(jù)點(diǎn)送入最大似然算法進(jìn)行訓(xùn)練,跟“如何訓(xùn)練分布模型”后面的訓(xùn)練方法一樣,得到一個(gè)高斯混合模型GMM(XI,Y)。同樣的方法,可以對(duì)每個(gè)源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流組合訓(xùn)練轉(zhuǎn)換后的GMM(Xi, Y)。拿到新的數(shù)據(jù)點(diǎn)后,首先按照同樣的轉(zhuǎn)換方法得到新的數(shù)據(jù)對(duì)〈Xi, Y〉。這個(gè)數(shù)據(jù)對(duì)是同樣L個(gè)數(shù)據(jù)轉(zhuǎn)換到L’個(gè)數(shù)據(jù)的。然后通過訓(xùn)練好的模型,用相同的方法計(jì)算P(Y|Xi),得到每個(gè)源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流的關(guān)聯(lián)度。子系統(tǒng)實(shí)現(xiàn)
      本專利同時(shí)提供一個(gè)實(shí)現(xiàn)該分析方法的分析系統(tǒng)。在這個(gè)分析系統(tǒng)中,我們有一個(gè)數(shù)據(jù)收集裝置,針對(duì)每個(gè)系統(tǒng)部件收集他們的狀態(tài)數(shù)據(jù),形成M個(gè)源數(shù)據(jù)流\,和多個(gè)目標(biāo)數(shù)據(jù)流Y。每個(gè)源數(shù)據(jù)流Xi和目標(biāo)數(shù)據(jù)流Y對(duì)應(yīng)了需要監(jiān)測(cè)和關(guān)聯(lián)的一個(gè)系統(tǒng)部件。收集到的數(shù)據(jù)Xi和Y傳送給分析計(jì)算機(jī)系統(tǒng)。分析計(jì)算機(jī)系統(tǒng)使用前面三節(jié)“如何訓(xùn)練分布模型”,“如何計(jì)算相關(guān)性”,和“如何嵌入其他變換”的方法對(duì)數(shù)據(jù)進(jìn)行處理,最后得到每個(gè)源數(shù)據(jù)流和每個(gè)目標(biāo)數(shù)據(jù)流的相關(guān)度P (YI Xi)。該系統(tǒng)可以針對(duì)每個(gè)目標(biāo)數(shù)據(jù)流顯示那些最相關(guān)的源數(shù)據(jù)流供系統(tǒng)分析人員對(duì)比分析。


      附圖I展示了高斯分布的公式。附圖2展示了高斯混合模型的公式。附圖3展示了訓(xùn)練分布模型和計(jì)算相關(guān)性的流程。附圖4展示了在數(shù)據(jù)轉(zhuǎn)換過程中嵌入小波變換的過程。附圖5展示了一個(gè)實(shí)現(xiàn)本專利方法的分析系統(tǒng)。附圖I展示了高斯分布公式,該公式不是本專利要求的權(quán)利,僅用于說明本專利的實(shí)施方式。公式中,u為模型的中點(diǎn)(平均值),S為方差,P為圓周率常數(shù)3. 14,exp(x)代表取自然對(duì)數(shù)的X次方,上標(biāo)T代表取矩陣的轉(zhuǎn)置。
      附圖2展示了高斯混合分布模型公式。公式中,qk為第k個(gè)高斯函數(shù)的權(quán)重,所有qk相加為I。G(x uk, Sk)為第k個(gè)按照附圖I公式定義的關(guān)于X的高斯分布函數(shù)。在“如何訓(xùn)練分布模型”一節(jié)中,我們使用高斯混合分布模型來擬合源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的關(guān)系。附圖3展示了訓(xùn)練分布模型和計(jì)算相關(guān)性的流程。在圖中,橢圓形框?yàn)檩斎胼敵?,矩形框?yàn)橄到y(tǒng)中間的處理步驟。在附圖3中,輸入訓(xùn)練數(shù)據(jù)XJPY 101輸入用來訓(xùn)練模型的數(shù)據(jù),這些數(shù)據(jù)是中所有的Xi和Y是等長(zhǎng)的,都有N個(gè)數(shù)據(jù)點(diǎn)。然后這些數(shù)據(jù)Xi和Y都輸入到數(shù)據(jù)轉(zhuǎn)換102中,數(shù)據(jù)轉(zhuǎn)換102負(fù)責(zé)把Xi和Y轉(zhuǎn)換成為兩兩配對(duì)的數(shù)據(jù)流〈Xi, Y〉。數(shù)據(jù)轉(zhuǎn)換102可以處理一維上或者多維上的轉(zhuǎn)換,假定滑動(dòng)窗口的長(zhǎng)度為L(zhǎng),那么轉(zhuǎn)換后的訓(xùn)練數(shù)據(jù)成為N個(gè)2L維的數(shù)據(jù)點(diǎn)。轉(zhuǎn)換后的數(shù)據(jù)流對(duì)〈X” Y〉送入到訓(xùn)練分布模型103步驟中,該步驟訓(xùn)練分布模型103使用最大似然算法(EM)根據(jù)輸入數(shù)據(jù)訓(xùn)練分布模型。訓(xùn)練分布模型103步驟中訓(xùn)練好的模型會(huì)送入步驟使用分布模型計(jì)算關(guān)聯(lián)概率104中。當(dāng)我們?cè)诓襟E輸入待關(guān)聯(lián)數(shù)據(jù)Xi和Y 121收到新的數(shù)據(jù)后,把新收到的數(shù)據(jù)同樣輸入到數(shù)據(jù)轉(zhuǎn)換102中,進(jìn)行與訓(xùn)練過程相同的轉(zhuǎn)換過程。轉(zhuǎn)換后的數(shù)據(jù)成為1*2L維的數(shù)據(jù)。然后把這個(gè)1*2L維的數(shù)據(jù)送入到步驟使用分布模型計(jì)算關(guān)聯(lián)概率104中。該步驟負(fù)責(zé)把數(shù)據(jù)輸入到前面訓(xùn)練好的模型,按照“如何計(jì)算相關(guān)性” 一章中的方法,可以計(jì)算并輸出相關(guān)概率。最后輸出關(guān)聯(lián)概率P(Y| Xi) 105的步驟輸出最終的相關(guān)度P(YI XD。附圖4是附圖3中的數(shù)據(jù)轉(zhuǎn)換102步驟的內(nèi)部設(shè)計(jì)。附圖4中,輸入為附圖3的步驟輸入訓(xùn)練數(shù)據(jù)<Xi>和〈Y〉101中的訓(xùn)練數(shù)據(jù)〈Xi)和〈Y〉。針對(duì)每個(gè)數(shù)據(jù)流對(duì)〈Xi, Y〉,按照“如何訓(xùn)練分布模型” 一章中的方法把每個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)之間轉(zhuǎn)換成為2*L維的一個(gè)數(shù)據(jù)點(diǎn)。這一步在數(shù)據(jù)流拼接133中完成。數(shù)據(jù)流拼接133輸出〈X” Y〉的拼接后2*L維的數(shù)據(jù)。得到這個(gè)數(shù)據(jù)后,進(jìn)入是否變換131部分進(jìn)行判斷。如果我們要做一維或者多維的原始數(shù)據(jù)的關(guān)聯(lián),也就是是否變換131的結(jié)論是“是“,那么就可以直接輸出拼接后的2*L維的數(shù)據(jù)到步驟輸出轉(zhuǎn)換后的數(shù)據(jù)
      <Xi,Y>134。如果用戶選擇在數(shù)據(jù)轉(zhuǎn)換的過程中使用其他的變換函數(shù),也就是是否變換131的結(jié)論是“否”,那么進(jìn)入步驟嵌入變換132。嵌入變換132步驟利用“如何嵌入其他變換”一章中描述的方法,把2*L的數(shù)據(jù),轉(zhuǎn)換成為2*L’的數(shù)據(jù)。嵌入變換132可以利用小波變換或者傅里葉變換等實(shí)現(xiàn)。嵌入變換132針對(duì)每個(gè)數(shù)據(jù)流(Xi或者Y)輸出變換后的2*L’維的數(shù)據(jù)輸出到步驟輸出轉(zhuǎn)換后的數(shù)據(jù)〈Xi,Y>134。最后輸出轉(zhuǎn)換后的數(shù)據(jù)〈Xi,Y>134負(fù)責(zé)輸出到下一步。附圖5描述了一個(gè)實(shí)現(xiàn)本專利方法的數(shù)據(jù)分析系統(tǒng)的內(nèi)部結(jié)構(gòu)圖。附圖5中,被監(jiān)測(cè)系統(tǒng)201為被監(jiān)測(cè)的系統(tǒng),它可以一個(gè)系統(tǒng),或者是多個(gè)系統(tǒng)的綜合。比如一個(gè)數(shù)據(jù)庫系統(tǒng),多個(gè)計(jì)算機(jī)構(gòu)成的計(jì)算機(jī)集群系統(tǒng),或者一個(gè)全球的金融系統(tǒng)(包括股票,債券等)。被監(jiān)測(cè)系統(tǒng)201由多個(gè)被監(jiān)測(cè)子系統(tǒng)系統(tǒng)202構(gòu)成。比如一個(gè)數(shù)據(jù)庫系統(tǒng)是由外存(磁盤),內(nèi)存緩存,CPU等構(gòu)成的。其中CPU可以是一個(gè)被監(jiān)測(cè)子系統(tǒng)系統(tǒng)202,內(nèi)存緩存也是一個(gè)被監(jiān)測(cè)子系統(tǒng)系統(tǒng)202。數(shù)據(jù)收集裝置203安裝在被監(jiān)測(cè)系統(tǒng)201一端,可以是外置的或者內(nèi)置的監(jiān)測(cè)器。如果是內(nèi)置的,那么一般是被監(jiān)測(cè)子系統(tǒng)系統(tǒng)202本身提供監(jiān)測(cè)數(shù)據(jù)。最終,針對(duì)每個(gè)被監(jiān)測(cè)子系統(tǒng)系統(tǒng)202,我們得到一個(gè)或者多個(gè)監(jiān)測(cè)數(shù)據(jù)流。
      所有的監(jiān)測(cè)數(shù)據(jù)流被送往數(shù)據(jù)匯集裝置305。分析系統(tǒng)主機(jī)301利用數(shù)據(jù)匯集裝置305收到數(shù)據(jù)流后,根據(jù)用戶的分析需要,部分的數(shù)據(jù)流被分作為源數(shù)據(jù)流Xi,部分的數(shù)據(jù)流被分作為目標(biāo)數(shù)據(jù)流Y。分析系統(tǒng)主機(jī)301把過去一段時(shí)間的數(shù)據(jù)作為歷史數(shù)據(jù),利用“如何訓(xùn)練分布模型” 一章中的方法訓(xùn)練多個(gè)分布模型。過去一段時(shí)間的長(zhǎng)短作為一個(gè)系統(tǒng)參數(shù),可以選擇一天的,或者一個(gè)月的。分析系統(tǒng)主機(jī)301不間斷的通過數(shù)據(jù)匯集裝置305獲取新的數(shù)據(jù)。針對(duì)這些新的數(shù)據(jù),利用“如何計(jì)算相關(guān)性” 一章中的方法,計(jì)算源數(shù)據(jù)流Xi和目標(biāo)數(shù)據(jù)流Y之間的關(guān)聯(lián)度。得到數(shù)據(jù)流之間的關(guān)聯(lián)度后,用戶可以在顯示模塊302中顯示那些與選定目標(biāo)數(shù)據(jù)流關(guān)聯(lián)度最高的數(shù)據(jù)流。顯示模塊302把選定的數(shù)據(jù)流顯示在一起,用戶可以很容易的檢視數(shù)據(jù),驗(yàn)證關(guān)聯(lián)度是否真正的合理。分析系統(tǒng)主機(jī)301中內(nèi)存304,外存303,中央處理器303和顯示模塊302直接的關(guān)系是通用的計(jì)算機(jī)處理結(jié)構(gòu),他們之間的組合關(guān)系不是本專利要求的權(quán)利。
      權(quán)利要求
      1.一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)分析方法,該方法的特征是根據(jù)輸入的多個(gè)數(shù)據(jù)流的歷史數(shù)據(jù),選定其中某些作為目標(biāo)數(shù)據(jù)流,某些是源數(shù)據(jù)流,然后訓(xùn)練一組分布模型;在得到一批新的數(shù)據(jù)后,根據(jù)訓(xùn)練得到的分布模型和新數(shù)據(jù)計(jì)算源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的條件概率作為相關(guān)度,從而發(fā)現(xiàn)哪一個(gè)源數(shù)據(jù)流跟目標(biāo)數(shù)據(jù)流相關(guān)性最大。
      2.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法,其特征是用條件概率P(YlXi)來定義兩個(gè)數(shù)據(jù)流之間的數(shù)據(jù)相關(guān)性,其中Xi代表第i個(gè)源數(shù)據(jù)流,并且條件概率有兩種計(jì)算方法,一種是P (Y,Xi) /P (Xi),另外一種是直接按照條件概率的表達(dá)式P (YI Xi)計(jì)算。
      3.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法,其特征是輸入到分布模型的訓(xùn)練數(shù)據(jù)和計(jì)算數(shù)據(jù)可以是I維的,也可以在時(shí)間窗口上的多維數(shù)據(jù);并且,時(shí)間窗口內(nèi)的多維數(shù)據(jù)可以經(jīng)過函數(shù)變換后輸入。
      4.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)方法,其特征是每個(gè)目標(biāo)數(shù)據(jù)流和需要關(guān)聯(lián)分析的所有源數(shù)據(jù)流兩兩形成高斯混合模型,并處理關(guān)于源數(shù)據(jù)流與每個(gè)目標(biāo)數(shù)據(jù)流的關(guān)聯(lián)關(guān)系。
      5.一種使用根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法實(shí)現(xiàn)的數(shù)據(jù)關(guān)聯(lián)分析方法,其特征是實(shí)現(xiàn)的方法中分布模型使用高斯混合模型。
      6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)關(guān)聯(lián)分析方法,其特征是在選定的目標(biāo)數(shù)據(jù)流的過程中,同一個(gè)數(shù)據(jù)流可以根據(jù)業(yè)務(wù)需要作為源數(shù)據(jù)流或者目標(biāo)數(shù)據(jù)流,之后,把每個(gè)不同的源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流結(jié)對(duì)組合訓(xùn)練成為一個(gè)高斯混合模型,最后根據(jù)這些目標(biāo)數(shù)據(jù)流對(duì)的高斯混合模型,計(jì)算每個(gè)源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流的相關(guān)度。
      7.一種使用根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)方法實(shí)現(xiàn)的數(shù)據(jù)分析系統(tǒng),其特征是從被監(jiān)測(cè)的系統(tǒng)中獲取每個(gè)子系統(tǒng)的監(jiān)測(cè)數(shù)據(jù),其中一部做為源數(shù)據(jù)流,另一部做為目標(biāo)數(shù)據(jù)流; 然后根據(jù)權(quán)利要求I描述的數(shù)據(jù)關(guān)聯(lián)分析方法,計(jì)算哪一個(gè)子系統(tǒng)對(duì)應(yīng)的源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流的相關(guān)性最大,從而判定當(dāng)前系統(tǒng)的觀測(cè)現(xiàn)象最有可能是哪個(gè)被監(jiān)測(cè)的子系統(tǒng)造成的。
      全文摘要
      一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法。使用這種數(shù)據(jù)關(guān)聯(lián)方法,計(jì)算機(jī)分析系統(tǒng)可以自動(dòng)的快速為用戶自動(dòng)選定與某些監(jiān)測(cè)數(shù)據(jù)最相關(guān)的其他監(jiān)測(cè)數(shù)據(jù),從而幫助用戶快速定位系統(tǒng)問題。比如當(dāng)用戶發(fā)現(xiàn)一個(gè)數(shù)據(jù)庫系統(tǒng)的響應(yīng)時(shí)間變慢后,使用本方法的分析系統(tǒng)可以自動(dòng)分析內(nèi)存,磁盤,CPU等子系統(tǒng)的使用情況,發(fā)現(xiàn)那個(gè)子系統(tǒng)導(dǎo)致了這個(gè)問題。這種數(shù)據(jù)關(guān)聯(lián)方法根據(jù)輸入的多個(gè)數(shù)據(jù)流的歷史數(shù)據(jù),選定其中某些作為目標(biāo)數(shù)據(jù)流,某些是源數(shù)據(jù)流,然后訓(xùn)練一組分布模型;在得到一批新的數(shù)據(jù)后,根據(jù)訓(xùn)練得到的分布模型和新數(shù)據(jù)計(jì)算源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的條件概率作為相關(guān)度,從而發(fā)現(xiàn)哪一個(gè)源數(shù)據(jù)流跟目標(biāo)數(shù)據(jù)流相關(guān)性最大。實(shí)現(xiàn)本方法時(shí)分布模型可以使用高斯混合模型。
      文檔編號(hào)G06F17/30GK102750373SQ201210205098
      公開日2012年10月24日 申請(qǐng)日期2012年6月20日 優(yōu)先權(quán)日2012年6月20日
      發(fā)明者段起陽 申請(qǐng)人:段起陽
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1