一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法

文檔序號(hào)：6371813閱讀：274來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法
技術(shù)領(lǐng)域：
本專利涉及數(shù)據(jù)分析方法，尤其是計(jì)算機(jī)實(shí)現(xiàn)的流數(shù)據(jù)分析和關(guān)聯(lián)方法以及數(shù)據(jù)關(guān)聯(lián)分析系統(tǒng)。
背景技術(shù)：
現(xiàn)在很多系統(tǒng)都可以生成流數(shù)據(jù)，典型的比如計(jì)算機(jī)系統(tǒng)的性能監(jiān)測(cè)數(shù)據(jù)，不同地區(qū)的天氣數(shù)據(jù)，金融數(shù)據(jù)(包括股票、債券、石油價(jià)格)等等。這些數(shù)據(jù)的共同特點(diǎn)是每個(gè)時(shí)間點(diǎn)都會(huì)生成一個(gè)新的數(shù)據(jù)，生成頻率非常高，從而導(dǎo)致無法長(zhǎng)時(shí)間的存儲(chǔ)數(shù)據(jù)并分析。在每個(gè)時(shí)間點(diǎn)上的數(shù)據(jù)我們稱之為一個(gè)數(shù)據(jù)點(diǎn)。如何能快速的發(fā)現(xiàn)這些數(shù)據(jù)之間關(guān)聯(lián)性是一個(gè)值得研究的問題。比如，在金融數(shù) 據(jù)中，如果存在幾個(gè)金融數(shù)據(jù)，比如石油價(jià)格為A，匯率價(jià)格為B，當(dāng)我們觀察股票C的漲跌情況的時(shí)候，我們希望能知道股票A的漲跌與石油價(jià)格A和匯率價(jià)格B之間是否存在關(guān)聯(lián)?；蛘哒f，當(dāng)前股票C的價(jià)格變動(dòng)，是不是由于A或者B的價(jià)格變動(dòng)引起的，或者是別的因素。這個(gè)方法也同樣適用于多個(gè)股票之間的關(guān)系的分析。復(fù)雜的系統(tǒng)，比如衛(wèi)星系統(tǒng)、計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)或者一個(gè)數(shù)據(jù)庫系統(tǒng)，一般都是由很多的部件構(gòu)成的。比如數(shù)據(jù)庫系統(tǒng)中存在內(nèi)存緩存，硬盤(或者外部存儲(chǔ))，CPU等的部件。針對(duì)每個(gè)部件，監(jiān)控裝置可以監(jiān)控他們的運(yùn)行狀態(tài)，并記錄下來。每個(gè)部件記錄下來的數(shù)據(jù)就成為一個(gè)流數(shù)據(jù)。同時(shí)，我們針對(duì)整個(gè)的系統(tǒng)可能有其他的監(jiān)控指標(biāo)，比如系統(tǒng)的吞吐量，響應(yīng)時(shí)間等。當(dāng)我們?cè)谙到y(tǒng)的響應(yīng)時(shí)間上發(fā)現(xiàn)異常(比如特別慢)的時(shí)候，我們希望能自動(dòng)分析內(nèi)部每個(gè)部件的監(jiān)測(cè)數(shù)據(jù)，并能夠定位到哪個(gè)部件的狀態(tài)數(shù)據(jù)與這個(gè)狀態(tài)特別相關(guān)。這樣，我們就可以很容易的發(fā)現(xiàn)系統(tǒng)問題出在什么地方。目前已經(jīng)有一些方法通過計(jì)算流數(shù)據(jù)之間的相關(guān)系數(shù)來實(shí)現(xiàn)。典型的有Pearson相關(guān)系數(shù)，余弦(Cosine)相關(guān)性等。另外，還可以在計(jì)算相關(guān)性之前進(jìn)行多種變換，比如傅里葉(Fourier)變換,小波(Haar Wavelet)變換等。這些方法的共同點(diǎn)是他們計(jì)算的都是全局的相關(guān)性，比如可以計(jì)算兩個(gè)股票之間在全局的相關(guān)性，或者兩個(gè)部件的監(jiān)測(cè)數(shù)據(jù)的全局相關(guān)性。另外，有些方法也可以在局部區(qū)域計(jì)算相關(guān)性。比如可以把一段時(shí)間(或稱之為滑動(dòng)窗口)的數(shù)據(jù)內(nèi)部計(jì)算相關(guān)性。另外，還可以做特征值分解(SVD)變換后計(jì)算滑動(dòng)窗口內(nèi)的相關(guān)性。這種方法的問題是只能考慮當(dāng)前窗口的變換，而不能利用歷史的信息。高斯混合模型(Gaussian Mixture Model,記為GMM)是利用多個(gè)高斯分布(Gaussian DistributionddSG)來擬合現(xiàn)實(shí)數(shù)據(jù)的一個(gè)模型。每個(gè)高斯分布按照附圖I的公式定義。
多個(gè)高斯分布線性可以按照附圖2的公式組合就構(gòu)成了一個(gè)高斯混合模型GMM(X)。得到一個(gè)分布模型后(比如GMM(X))，如果有一個(gè)新的數(shù)據(jù)點(diǎn)X，可以輸入到函數(shù)中，得到這個(gè)數(shù)據(jù)點(diǎn)的分布概率PU)。最大似然方法(Expectation Maximization,簡(jiǎn)稱EM)方法是根據(jù)數(shù)據(jù)通過不斷的迭代擬合一個(gè)分布模型的方法。這個(gè)方法里面的每個(gè)迭代包括計(jì)算似然(E)和最大化似然(M)兩個(gè)步驟。在E步驟里面，根據(jù)固定的分布參數(shù)來調(diào)整每個(gè)數(shù)據(jù)點(diǎn)屬于不同的分布模型的概率，在M步驟里面，把每個(gè)數(shù)據(jù)點(diǎn)屬于不同的分布固定，然后最大化每個(gè)分布模型的參數(shù)。最大似然方法可以用來擬合各種分布模型，其中包括高斯混合模型。在前面提到的技術(shù)的基礎(chǔ)上，本專利中提出了一種分析框架，這個(gè)分析框架根據(jù)歷史的流數(shù)據(jù)訓(xùn)練一個(gè)分布模型，然后利用分布模型針對(duì)當(dāng)前的流數(shù)據(jù)計(jì)算不同流數(shù)據(jù)直接相關(guān)性的方法。同時(shí)，本專利提出了利用高斯混合模型實(shí)現(xiàn)這種框架的方法和系統(tǒng)。

發(fā)明內(nèi)容
本專利是一個(gè)可以根據(jù)歷史的流數(shù)據(jù)訓(xùn)練一個(gè)分布模型，然后利用分布模型針對(duì)當(dāng)前的流數(shù)據(jù)計(jì)算不同流數(shù)據(jù)之間相關(guān)度的方法。如何訓(xùn)練分布模型本方法的模型訓(xùn)練的輸入是多個(gè)數(shù)據(jù)流的歷史數(shù)據(jù)，假定有N個(gè)數(shù)據(jù)點(diǎn)，每個(gè)數(shù)據(jù)點(diǎn)上每個(gè)數(shù)據(jù)流有一個(gè)數(shù)據(jù)。根據(jù)用戶對(duì)于這些數(shù)據(jù)流的業(yè)務(wù)理解，這些數(shù)據(jù)流可以分成兩類源數(shù)據(jù)流X和目標(biāo)數(shù)據(jù)流Y。其中目標(biāo)數(shù)據(jù)流Y—般是能夠描述整個(gè)系統(tǒng)的指標(biāo)，而源數(shù)據(jù)流則一般可以描述系統(tǒng)中的子系統(tǒng)的狀態(tài)。我們希望能夠針對(duì)子系統(tǒng)的狀態(tài)和整個(gè)系統(tǒng)的狀態(tài)之間的復(fù)雜關(guān)系建立一個(gè)模型。在特殊的情況下，如果需要，用戶可以把所有的數(shù)據(jù)流都作為目標(biāo)數(shù)據(jù)流，同時(shí)把所有的數(shù)據(jù)流都作為源數(shù)據(jù)流。首先聲明本專利中用到的一些符號(hào)
GMM(Xi, Y)代表Xi和Y的聯(lián)合高斯混合分布模型，Xi和Y的順序可以改變，不影響模型，也就是GMM (Y，Xi) =GMM (Xi, Y)。GMM(Xi)代表Xi的條件高斯混合分布模型。GMM (YXi)代表Y相對(duì)于Xi的條件高斯混合分布模型；
同樣的用麗(Xi)代表任意的一個(gè)分布模型，MM(Xi, Y)代表任意的一個(gè)Xi和Y的聯(lián)合分布模型；
P(Xi)代表Xi的分布概率，對(duì)于任意一個(gè)數(shù)據(jù)點(diǎn)，可以根據(jù)麗(Xi)或者GMM(Xi)計(jì)算 P (Xi)。P (Xi, Y)代表Xi和Y的聯(lián)合分布概率。P (Y I Xi)代表Y相對(duì)于Xi的條件分布概率。假定存在M個(gè)源數(shù)據(jù)流，每個(gè)源數(shù)據(jù)流記做Xi，其中下標(biāo)i為從I到M的整數(shù)值，代表第i個(gè)源數(shù)據(jù)流。Xi中的每個(gè)數(shù)據(jù)記做Xit，其中t代表第t個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。在每次的訓(xùn)練處理中，為簡(jiǎn)單起見，我們假定只存在一個(gè)目標(biāo)數(shù)據(jù)流。如果需要有多個(gè)數(shù)據(jù)流作為目標(biāo)數(shù)據(jù)流分析，我們可以每次取一個(gè)目標(biāo)數(shù)據(jù)流作為Y，然后依次循環(huán)處理。我們同時(shí)假定所有的數(shù)據(jù)流的長(zhǎng)度相等(假定為N)，如果長(zhǎng)度不相等，則在對(duì)應(yīng)的數(shù)據(jù)流空位上填一個(gè)缺省值(比如0)使其相等。確定M個(gè)Xi和一個(gè)Y之后，把每個(gè)Xi和Y兩兩組合，得到M個(gè)2個(gè)數(shù)據(jù)流構(gòu)成的數(shù)據(jù)流對(duì)〈Xi, Y〉。如果其中Xi和Y是同一個(gè)，則掠過這個(gè)組合，繼續(xù)處理下一個(gè)。比如我們有2個(gè)源數(shù)據(jù)流X1, X2和一個(gè)目標(biāo)數(shù)據(jù)流Y，其中
Xf2，3，I, 5，3，4，2，6，9，I, 2，3X2=8, 4，2，2，I, 2，2，3，2，4，I, 5Y = 8，4，2，5，3，4，2，6，9，4，2，5上面的例子里面三個(gè)數(shù)據(jù)流的長(zhǎng)度都是N=12。那么，我們可以組合出兩個(gè)數(shù)據(jù)流對(duì)〈^>和〈X2, Y〉。下面我們說明這兩個(gè)數(shù)據(jù)流對(duì)每個(gè)是如何拼接出來的。首先，我們說明如何在一維上拼接每個(gè)源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流，用來尋找直接的一維上的關(guān)聯(lián)關(guān)系，也就是每個(gè)點(diǎn)上Xi和Y之間的關(guān)聯(lián)度。這種情況等同于滑動(dòng)窗口的維度L=I。在處理一維數(shù)據(jù)關(guān)聯(lián)的時(shí)候，把每個(gè)數(shù)據(jù)流對(duì)的對(duì)應(yīng)的數(shù)據(jù)點(diǎn)上的數(shù)據(jù)重新組合成兩維數(shù)據(jù)對(duì)，也就是〈X” Y〉= (<Xn，Y1^OCi2, Y2>，…，<X1N，YN>)。比如在上面的例子里面，我們最后可以得到
<X1,Y> = 2, 8>，〈3，4>，〈1，2>，〈5，5>，〈3，3>，〈4，4>，〈2，2>，〈6，6>，〈9，9>，〈1，4>，〈2，2>，〈3，5 。其次，如果要針對(duì)每個(gè)數(shù)據(jù)流選擇多維(假設(shè)是L維)數(shù)據(jù)來識(shí)別連續(xù)多值的事件，首先定義一個(gè)滑動(dòng)窗口，假定其長(zhǎng)度為L(zhǎng)。每個(gè)數(shù)據(jù)流中每個(gè)數(shù)據(jù)點(diǎn)開始的L個(gè)數(shù)據(jù)成為一個(gè)滑動(dòng)窗口中的數(shù)據(jù)點(diǎn)。如果一個(gè)滑動(dòng)窗口從Xit開始，那么它所包含的數(shù)據(jù)就是
〈Xit，Xi(t+1)，， Xia+L—o〉。同樣的，從Yt開始的目標(biāo)數(shù)據(jù)流的滑動(dòng)窗口所包含的數(shù)據(jù)就是
<Yt,Y(t+1),…，Y(t+H)>。把源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流的同一個(gè)位置的滑動(dòng)窗口中的所有2L個(gè)數(shù)據(jù)點(diǎn)拼接成一個(gè)新的數(shù)據(jù)點(diǎn)的數(shù)據(jù)。最終得到M個(gè)2L維的數(shù)據(jù)流對(duì)。我們有
(Xi, Y〉— (〈Xn, Xi2, ，Xi (1+L), Y1, Xi2, ，Xi (1+L)〉，
〈Xn，Xi2, ，Xj(1+L), Y1, Xi2, ，Xj(1+L)〉，
〈Xi(N-L+l)，(N-L+2)) ， XiN， Y(n_l+1), Xi (N_L+2), ， XiN〉)
這些數(shù)據(jù)流對(duì)的長(zhǎng)度為N-L+1，每個(gè)數(shù)據(jù)點(diǎn)的維度為2L。比如按照上面的數(shù)據(jù)，如果我們選擇窗口長(zhǎng)度L=3，那么拼接后得到的數(shù)據(jù)流對(duì)為
<X1,Y> = (〈2,3，1，8，4，2>，〈3，1,5，4,2，5>，-<1,2, 3,4, 2, 5
其中，第一個(gè)數(shù)據(jù)點(diǎn)中〈2，3，1,8,4, 2>的前三個(gè)數(shù)據(jù)值〈2，3，1>是來自X1的，〈8，4，2>是來自Y的。上面的這個(gè)過程，我們稱之為數(shù)據(jù)轉(zhuǎn)換的過程。然后，我們進(jìn)行模型的訓(xùn)練。如果我們分布模型選擇使用高斯混合模型，在訓(xùn)練的開始，需要給定一個(gè)參數(shù)K。K代表針對(duì)轉(zhuǎn)換后的數(shù)據(jù)流對(duì)訓(xùn)練多少個(gè)狀態(tài)，也就是附圖2中高斯混合模型公式中的K。這個(gè)K的值我們?nèi)笔≡O(shè)置比較大，這個(gè)值一般根據(jù)實(shí)際系統(tǒng)的經(jīng)驗(yàn)初審給定。比如K=20個(gè)。這個(gè)參數(shù)可以根據(jù)用戶的業(yè)務(wù)經(jīng)驗(yàn)和對(duì)于數(shù)據(jù)的理解設(shè)定。利用最大似然(EM)算法，針對(duì)每個(gè)數(shù)據(jù)流對(duì)〈X” Y〉我們可以訓(xùn)練得到一個(gè)高斯混合模型GMM (Xi, Y)。這個(gè)GMM (Xi, Y)的維度是與前面轉(zhuǎn)換后的數(shù)據(jù)流對(duì)〈X” Y〉的維度一致的。如果〈Xi, Y >是21維的，那么GMM(XiJ)的每個(gè)高斯函數(shù)也是2L維的。在訓(xùn)練的過程中，如果出現(xiàn)最大似然算法不能收斂的情況，我們?cè)O(shè)定一個(gè)閥值(t匕如1000次迭代),達(dá)到這個(gè)迭代次數(shù)后,就停止算法,然后把狀態(tài)數(shù)K減一,重新開始訓(xùn)練。這個(gè)閥值是訓(xùn)練算法的一個(gè)參數(shù)，一開始的時(shí)候確定。最大似然算法完成后，我們得到M個(gè)高斯混合模型，其中每個(gè)高斯混合模型GMM(Xi, Y)代表Xi和Y的聯(lián)合高斯混合分布概率。針對(duì)每個(gè)數(shù)據(jù)流對(duì)訓(xùn)練完成后，我們同時(shí)要訓(xùn)練每個(gè)源數(shù)據(jù)流Xi的分布模型GMM(Xi)。這個(gè)訓(xùn)練過程中，模型輸入的數(shù)據(jù)維度與前面聯(lián)合分布概率的L一致。比如如果前面訓(xùn)練用的L=3，那么同樣的把Xi變換成為3維的(N-3+1)個(gè)數(shù)據(jù)點(diǎn)。然后用最大似然算法擬合一個(gè)3維的高斯混合模型。最后得到M個(gè)源數(shù)據(jù)流對(duì)應(yīng)的M個(gè)高斯混合模型GMM(Xi)。在分布模型為高斯模型的情況下，我們可以利用高斯模型的特殊性質(zhì)，根據(jù)GMM(Xi, Y)計(jì)算偏概率分布(partial Distribution)得到GMM(Xi),計(jì)算的方法是把高斯混合模型中的中心點(diǎn)u和方差s中的Xi部分取出，構(gòu)成一個(gè)新的模型就可以。同樣類似的方法，也可以計(jì)算條件概率(Conditional Distribution)得到GMM(Y | Xi)。這兩個(gè)計(jì)算相關(guān)概率的方法是已有方法，不是本專利內(nèi)容。為了簡(jiǎn)化本法的描述，我們用高斯混合模型作為分布模型來描述我們的數(shù)據(jù)關(guān)聯(lián)分析方法，但是本方法可以使用其他分布模型來替代高斯混合模型，所以分布模型使用高斯混合模型不應(yīng)成為本專利的限制。如何計(jì)算相關(guān)性
在一個(gè)新的時(shí)間點(diǎn)，我們會(huì)觀測(cè)到一批新的數(shù)據(jù)。這些數(shù)據(jù)跟原來用于訓(xùn)練高斯混合模型的歷史的格式是相同的。這里我們同樣假定輸入為M個(gè)源數(shù)據(jù)流Xi和I個(gè)目標(biāo)數(shù)據(jù) 流Y。但是每次處理的數(shù)據(jù)流長(zhǎng)度不是N，而是前面訓(xùn)練的時(shí)候設(shè)定的數(shù)據(jù)流匹配的維度L。然后，按照訓(xùn)練的時(shí)候同樣的組合方式，把每個(gè)源數(shù)據(jù)流Xi與目標(biāo)數(shù)據(jù)流Y組合，得到M個(gè)數(shù)據(jù)流對(duì)〈Xi, Y〉的一個(gè)或者多個(gè)數(shù)據(jù)點(diǎn)。在計(jì)算相關(guān)度的時(shí)候，我們每次針對(duì)一個(gè)數(shù)據(jù)點(diǎn)(時(shí)間點(diǎn))進(jìn)行，如果有多個(gè)數(shù)據(jù)點(diǎn)，則依次處理。比如在前面的例子里面，假定我們用L=I來訓(xùn)練的高斯混合模型。在一個(gè)新的數(shù)據(jù)點(diǎn)上，我們收集到這樣的數(shù)據(jù)
Xi=6X2=I
Y= 6
我們按照訓(xùn)練模型是對(duì)于數(shù)據(jù)整理的同樣的方式，得到兩個(gè)2維的數(shù)據(jù)流對(duì) <X1,Y>=<6, 6>, <X2，Y>=〈1，6>。然后，我們可以使用兩種方法來計(jì)算相關(guān)性。第一種方法是把〈Xi, Y〉輸入到分布模型麗(YI Xi)可以直接求得M個(gè)Xi與Y的相關(guān)性P (Y I Xi)。這種情況適用于條件分布模型可以直接算出的情況，比如分布模型用高斯混合模型的情況下可以用GMM(Y| Xi)直接計(jì)算P (Y I Xi)。第二種方法是把〈Xi, Y〉輸入到分布模型MM (Xi, Y)得到聯(lián)合概率P (Xi, Y)，然后把
<Xi >輸入到源數(shù)據(jù)流的分布模型MM(Xi)中求得源數(shù)據(jù)流的分布概率P(Xi)。然后，根據(jù)公式
P(Y I Xi)= P(XilY)/ P(Xi)
就可以求得M個(gè)Xi與Y的相關(guān)性P (Y I Xi)。在這M個(gè)相關(guān)性P (Y I Xi)中，找最大的值，就可以找出哪個(gè)源數(shù)據(jù)流對(duì)應(yīng)的系統(tǒng)部件跟現(xiàn)在的系統(tǒng)狀態(tài)最相關(guān)。前面的兩個(gè)方法中，麗(Xi)代表Xi的分布模型，如果使用GMM，則成為GMM(Xi)。如何嵌入其他變換
在前面數(shù)據(jù)轉(zhuǎn)換的過程中，除了簡(jiǎn)單的按照滑動(dòng)窗口展開的方式，我們還可以嵌入其他的轉(zhuǎn)換函數(shù)。這里按照小波變換(Haar Wavelet)來作為例子講解怎么把變換后的結(jié)果嵌入到數(shù)據(jù)轉(zhuǎn)換的過程。其他的變換如傅里葉，余弦變換等的嵌入方式是相同的。數(shù)據(jù)變換過程需要定義一個(gè)參數(shù)，那就是變換后保留的數(shù)據(jù)的維度，我們記做L’。嵌入其他變換的方法一般適用在滑動(dòng)窗口中，并且L>1。不同的變換函數(shù)對(duì)參數(shù)有不同的要求，一般L’遠(yuǎn)小于L。L’也可以選擇比L大，則稱之為升維變換。一般為達(dá)到最好性能，小波變換要求L是2的乘方數(shù)，比如2，4，8等。按照“如何訓(xùn)練分布模型” 一章所述，在數(shù)據(jù)變換的過程中，針對(duì)每個(gè)數(shù)據(jù)流，比如Xi,在每一個(gè)Xit開始的滑動(dòng)窗口中，在轉(zhuǎn)換的過程中，我們有L個(gè)數(shù)據(jù)<Xit，Xi(t+1),…，Xi(t+L—I)〉° 針對(duì)這些數(shù)據(jù)，我們可以做小波變換，然后只保留前面少部分的L’個(gè)變換后的系數(shù)。比如L=S的時(shí)候，我們可以保留前面L’=2個(gè)或者L’=4個(gè)變換后的系數(shù)。仍然按照前面的例子，我們有數(shù)據(jù)
Xf2，3，I, 5，3，4，2，6，9，I, 2，3 X2=8, 4，2，2，I, 2，2，3，2，4，I, 5
Y= 8，4，2，5，3，4，2，6，9，4，2，5 進(jìn)行小波變換的時(shí)候，需要先先構(gòu)造每個(gè)滑動(dòng)窗口的數(shù)據(jù)。我們以計(jì)算〈X” Y〉的變換為例。首先得到Xl和Y的第一個(gè)滑動(dòng)窗口的數(shù)據(jù)
<Xn>=<2, 3，I, 5，3，4，2，6>
<￥^=<8, 4，2，5，3，4，2，6>
經(jīng)過小波變換后的，滑動(dòng)窗口內(nèi)的數(shù)據(jù)變成為
<Xn，>=〈26，2，0.5，0.5，0.5，2，0.5，2>
〈Y/ >=〈34，-2，-2. 5 -0.5，-2，I. 5, 0.5，2>
我們從小波變換后的數(shù)據(jù)中取前面的兩個(gè)L’ =2，我們得到
<Xn，>=〈26，2>
〈Y/ >=〈34， -2〉
然后我們把兩個(gè)變換后的結(jié)果拼接在一起，得到
〈X/ ,Y，>=〈26，2，34，-2〉，
然后把這些轉(zhuǎn)換后的數(shù)據(jù)點(diǎn)送入最大似然算法進(jìn)行訓(xùn)練，跟“如何訓(xùn)練分布模型”后面的訓(xùn)練方法一樣，得到一個(gè)高斯混合模型GMM(XI，Y)。同樣的方法，可以對(duì)每個(gè)源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流組合訓(xùn)練轉(zhuǎn)換后的GMM(Xi, Y)。拿到新的數(shù)據(jù)點(diǎn)后，首先按照同樣的轉(zhuǎn)換方法得到新的數(shù)據(jù)對(duì)〈Xi, Y〉。這個(gè)數(shù)據(jù)對(duì)是同樣L個(gè)數(shù)據(jù)轉(zhuǎn)換到L’個(gè)數(shù)據(jù)的。然后通過訓(xùn)練好的模型，用相同的方法計(jì)算P(Y|Xi)，得到每個(gè)源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流的關(guān)聯(lián)度。子系統(tǒng)實(shí)現(xiàn)
本專利同時(shí)提供一個(gè)實(shí)現(xiàn)該分析方法的分析系統(tǒng)。在這個(gè)分析系統(tǒng)中，我們有一個(gè)數(shù)據(jù)收集裝置，針對(duì)每個(gè)系統(tǒng)部件收集他們的狀態(tài)數(shù)據(jù)，形成M個(gè)源數(shù)據(jù)流\，和多個(gè)目標(biāo)數(shù)據(jù)流Y。每個(gè)源數(shù)據(jù)流Xi和目標(biāo)數(shù)據(jù)流Y對(duì)應(yīng)了需要監(jiān)測(cè)和關(guān)聯(lián)的一個(gè)系統(tǒng)部件。收集到的數(shù)據(jù)Xi和Y傳送給分析計(jì)算機(jī)系統(tǒng)。分析計(jì)算機(jī)系統(tǒng)使用前面三節(jié)“如何訓(xùn)練分布模型”，“如何計(jì)算相關(guān)性”，和“如何嵌入其他變換”的方法對(duì)數(shù)據(jù)進(jìn)行處理，最后得到每個(gè)源數(shù)據(jù)流和每個(gè)目標(biāo)數(shù)據(jù)流的相關(guān)度P (YI Xi)。該系統(tǒng)可以針對(duì)每個(gè)目標(biāo)數(shù)據(jù)流顯示那些最相關(guān)的源數(shù)據(jù)流供系統(tǒng)分析人員對(duì)比分析。

附圖I展示了高斯分布的公式。附圖2展示了高斯混合模型的公式。附圖3展示了訓(xùn)練分布模型和計(jì)算相關(guān)性的流程。附圖4展示了在數(shù)據(jù)轉(zhuǎn)換過程中嵌入小波變換的過程。附圖5展示了一個(gè)實(shí)現(xiàn)本專利方法的分析系統(tǒng)。附圖I展示了高斯分布公式，該公式不是本專利要求的權(quán)利，僅用于說明本專利的實(shí)施方式。公式中，u為模型的中點(diǎn)(平均值)，S為方差，P為圓周率常數(shù)3. 14，exp(x)代表取自然對(duì)數(shù)的X次方，上標(biāo)T代表取矩陣的轉(zhuǎn)置。
附圖2展示了高斯混合分布模型公式。公式中，qk為第k個(gè)高斯函數(shù)的權(quán)重，所有qk相加為I。G(x uk, Sk)為第k個(gè)按照附圖I公式定義的關(guān)于X的高斯分布函數(shù)。在“如何訓(xùn)練分布模型”一節(jié)中，我們使用高斯混合分布模型來擬合源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的關(guān)系。附圖3展示了訓(xùn)練分布模型和計(jì)算相關(guān)性的流程。在圖中，橢圓形框?yàn)檩斎胼敵?，矩形框?yàn)橄到y(tǒng)中間的處理步驟。在附圖3中，輸入訓(xùn)練數(shù)據(jù)XJPY 101輸入用來訓(xùn)練模型的數(shù)據(jù)，這些數(shù)據(jù)是中所有的Xi和Y是等長(zhǎng)的，都有N個(gè)數(shù)據(jù)點(diǎn)。然后這些數(shù)據(jù)Xi和Y都輸入到數(shù)據(jù)轉(zhuǎn)換102中，數(shù)據(jù)轉(zhuǎn)換102負(fù)責(zé)把Xi和Y轉(zhuǎn)換成為兩兩配對(duì)的數(shù)據(jù)流〈Xi, Y〉。數(shù)據(jù)轉(zhuǎn)換102可以處理一維上或者多維上的轉(zhuǎn)換，假定滑動(dòng)窗口的長(zhǎng)度為L(zhǎng)，那么轉(zhuǎn)換后的訓(xùn)練數(shù)據(jù)成為N個(gè)2L維的數(shù)據(jù)點(diǎn)。轉(zhuǎn)換后的數(shù)據(jù)流對(duì)〈X” Y〉送入到訓(xùn)練分布模型103步驟中，該步驟訓(xùn)練分布模型103使用最大似然算法(EM)根據(jù)輸入數(shù)據(jù)訓(xùn)練分布模型。訓(xùn)練分布模型103步驟中訓(xùn)練好的模型會(huì)送入步驟使用分布模型計(jì)算關(guān)聯(lián)概率104中。當(dāng)我們?cè)诓襟E輸入待關(guān)聯(lián)數(shù)據(jù)Xi和Y 121收到新的數(shù)據(jù)后，把新收到的數(shù)據(jù)同樣輸入到數(shù)據(jù)轉(zhuǎn)換102中，進(jìn)行與訓(xùn)練過程相同的轉(zhuǎn)換過程。轉(zhuǎn)換后的數(shù)據(jù)成為1*2L維的數(shù)據(jù)。然后把這個(gè)1*2L維的數(shù)據(jù)送入到步驟使用分布模型計(jì)算關(guān)聯(lián)概率104中。該步驟負(fù)責(zé)把數(shù)據(jù)輸入到前面訓(xùn)練好的模型，按照“如何計(jì)算相關(guān)性” 一章中的方法，可以計(jì)算并輸出相關(guān)概率。最后輸出關(guān)聯(lián)概率P(Y| Xi) 105的步驟輸出最終的相關(guān)度P(YI XD。附圖4是附圖3中的數(shù)據(jù)轉(zhuǎn)換102步驟的內(nèi)部設(shè)計(jì)。附圖4中，輸入為附圖3的步驟輸入訓(xùn)練數(shù)據(jù)<Xi>和〈Y〉101中的訓(xùn)練數(shù)據(jù)〈Xi)和〈Y〉。針對(duì)每個(gè)數(shù)據(jù)流對(duì)〈Xi, Y〉，按照“如何訓(xùn)練分布模型” 一章中的方法把每個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)之間轉(zhuǎn)換成為2*L維的一個(gè)數(shù)據(jù)點(diǎn)。這一步在數(shù)據(jù)流拼接133中完成。數(shù)據(jù)流拼接133輸出〈X” Y〉的拼接后2*L維的數(shù)據(jù)。得到這個(gè)數(shù)據(jù)后，進(jìn)入是否變換131部分進(jìn)行判斷。如果我們要做一維或者多維的原始數(shù)據(jù)的關(guān)聯(lián)，也就是是否變換131的結(jié)論是“是“，那么就可以直接輸出拼接后的2*L維的數(shù)據(jù)到步驟輸出轉(zhuǎn)換后的數(shù)據(jù)
<Xi，Y>134。如果用戶選擇在數(shù)據(jù)轉(zhuǎn)換的過程中使用其他的變換函數(shù)，也就是是否變換131的結(jié)論是“否”，那么進(jìn)入步驟嵌入變換132。嵌入變換132步驟利用“如何嵌入其他變換”一章中描述的方法，把2*L的數(shù)據(jù)，轉(zhuǎn)換成為2*L’的數(shù)據(jù)。嵌入變換132可以利用小波變換或者傅里葉變換等實(shí)現(xiàn)。嵌入變換132針對(duì)每個(gè)數(shù)據(jù)流(Xi或者Y)輸出變換后的2*L’維的數(shù)據(jù)輸出到步驟輸出轉(zhuǎn)換后的數(shù)據(jù)〈Xi，Y>134。最后輸出轉(zhuǎn)換后的數(shù)據(jù)〈Xi，Y>134負(fù)責(zé)輸出到下一步。附圖5描述了一個(gè)實(shí)現(xiàn)本專利方法的數(shù)據(jù)分析系統(tǒng)的內(nèi)部結(jié)構(gòu)圖。附圖5中，被監(jiān)測(cè)系統(tǒng)201為被監(jiān)測(cè)的系統(tǒng)，它可以一個(gè)系統(tǒng)，或者是多個(gè)系統(tǒng)的綜合。比如一個(gè)數(shù)據(jù)庫系統(tǒng)，多個(gè)計(jì)算機(jī)構(gòu)成的計(jì)算機(jī)集群系統(tǒng)，或者一個(gè)全球的金融系統(tǒng)(包括股票，債券等)。被監(jiān)測(cè)系統(tǒng)201由多個(gè)被監(jiān)測(cè)子系統(tǒng)系統(tǒng)202構(gòu)成。比如一個(gè)數(shù)據(jù)庫系統(tǒng)是由外存(磁盤)，內(nèi)存緩存，CPU等構(gòu)成的。其中CPU可以是一個(gè)被監(jiān)測(cè)子系統(tǒng)系統(tǒng)202，內(nèi)存緩存也是一個(gè)被監(jiān)測(cè)子系統(tǒng)系統(tǒng)202。數(shù)據(jù)收集裝置203安裝在被監(jiān)測(cè)系統(tǒng)201一端，可以是外置的或者內(nèi)置的監(jiān)測(cè)器。如果是內(nèi)置的，那么一般是被監(jiān)測(cè)子系統(tǒng)系統(tǒng)202本身提供監(jiān)測(cè)數(shù)據(jù)。最終，針對(duì)每個(gè)被監(jiān)測(cè)子系統(tǒng)系統(tǒng)202，我們得到一個(gè)或者多個(gè)監(jiān)測(cè)數(shù)據(jù)流。
所有的監(jiān)測(cè)數(shù)據(jù)流被送往數(shù)據(jù)匯集裝置305。分析系統(tǒng)主機(jī)301利用數(shù)據(jù)匯集裝置305收到數(shù)據(jù)流后，根據(jù)用戶的分析需要，部分的數(shù)據(jù)流被分作為源數(shù)據(jù)流Xi，部分的數(shù)據(jù)流被分作為目標(biāo)數(shù)據(jù)流Y。分析系統(tǒng)主機(jī)301把過去一段時(shí)間的數(shù)據(jù)作為歷史數(shù)據(jù)，利用“如何訓(xùn)練分布模型” 一章中的方法訓(xùn)練多個(gè)分布模型。過去一段時(shí)間的長(zhǎng)短作為一個(gè)系統(tǒng)參數(shù)，可以選擇一天的，或者一個(gè)月的。分析系統(tǒng)主機(jī)301不間斷的通過數(shù)據(jù)匯集裝置305獲取新的數(shù)據(jù)。針對(duì)這些新的數(shù)據(jù)，利用“如何計(jì)算相關(guān)性” 一章中的方法，計(jì)算源數(shù)據(jù)流Xi和目標(biāo)數(shù)據(jù)流Y之間的關(guān)聯(lián)度。得到數(shù)據(jù)流之間的關(guān)聯(lián)度后，用戶可以在顯示模塊302中顯示那些與選定目標(biāo)數(shù)據(jù)流關(guān)聯(lián)度最高的數(shù)據(jù)流。顯示模塊302把選定的數(shù)據(jù)流顯示在一起，用戶可以很容易的檢視數(shù)據(jù)，驗(yàn)證關(guān)聯(lián)度是否真正的合理。分析系統(tǒng)主機(jī)301中內(nèi)存304，外存303，中央處理器303和顯示模塊302直接的關(guān)系是通用的計(jì)算機(jī)處理結(jié)構(gòu)，他們之間的組合關(guān)系不是本專利要求的權(quán)利。
權(quán)利要求
1.一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)分析方法，該方法的特征是根據(jù)輸入的多個(gè)數(shù)據(jù)流的歷史數(shù)據(jù)，選定其中某些作為目標(biāo)數(shù)據(jù)流，某些是源數(shù)據(jù)流，然后訓(xùn)練一組分布模型；在得到一批新的數(shù)據(jù)后，根據(jù)訓(xùn)練得到的分布模型和新數(shù)據(jù)計(jì)算源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的條件概率作為相關(guān)度，從而發(fā)現(xiàn)哪一個(gè)源數(shù)據(jù)流跟目標(biāo)數(shù)據(jù)流相關(guān)性最大。
2.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法，其特征是用條件概率P(YlXi)來定義兩個(gè)數(shù)據(jù)流之間的數(shù)據(jù)相關(guān)性，其中Xi代表第i個(gè)源數(shù)據(jù)流，并且條件概率有兩種計(jì)算方法，一種是P (Y，Xi) /P (Xi)，另外一種是直接按照條件概率的表達(dá)式P (YI Xi)計(jì)算。
3.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法，其特征是輸入到分布模型的訓(xùn)練數(shù)據(jù)和計(jì)算數(shù)據(jù)可以是I維的，也可以在時(shí)間窗口上的多維數(shù)據(jù)；并且，時(shí)間窗口內(nèi)的多維數(shù)據(jù)可以經(jīng)過函數(shù)變換后輸入。
4.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)方法，其特征是每個(gè)目標(biāo)數(shù)據(jù)流和需要關(guān)聯(lián)分析的所有源數(shù)據(jù)流兩兩形成高斯混合模型，并處理關(guān)于源數(shù)據(jù)流與每個(gè)目標(biāo)數(shù)據(jù)流的關(guān)聯(lián)關(guān)系。
5.一種使用根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法實(shí)現(xiàn)的數(shù)據(jù)關(guān)聯(lián)分析方法，其特征是實(shí)現(xiàn)的方法中分布模型使用高斯混合模型。
6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)關(guān)聯(lián)分析方法，其特征是在選定的目標(biāo)數(shù)據(jù)流的過程中，同一個(gè)數(shù)據(jù)流可以根據(jù)業(yè)務(wù)需要作為源數(shù)據(jù)流或者目標(biāo)數(shù)據(jù)流，之后，把每個(gè)不同的源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流結(jié)對(duì)組合訓(xùn)練成為一個(gè)高斯混合模型，最后根據(jù)這些目標(biāo)數(shù)據(jù)流對(duì)的高斯混合模型，計(jì)算每個(gè)源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流的相關(guān)度。
7.一種使用根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)方法實(shí)現(xiàn)的數(shù)據(jù)分析系統(tǒng)，其特征是從被監(jiān)測(cè)的系統(tǒng)中獲取每個(gè)子系統(tǒng)的監(jiān)測(cè)數(shù)據(jù)，其中一部做為源數(shù)據(jù)流，另一部做為目標(biāo)數(shù)據(jù)流；然后根據(jù)權(quán)利要求I描述的數(shù)據(jù)關(guān)聯(lián)分析方法，計(jì)算哪一個(gè)子系統(tǒng)對(duì)應(yīng)的源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流的相關(guān)性最大，從而判定當(dāng)前系統(tǒng)的觀測(cè)現(xiàn)象最有可能是哪個(gè)被監(jiān)測(cè)的子系統(tǒng)造成的。
全文摘要
一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法。使用這種數(shù)據(jù)關(guān)聯(lián)方法，計(jì)算機(jī)分析系統(tǒng)可以自動(dòng)的快速為用戶自動(dòng)選定與某些監(jiān)測(cè)數(shù)據(jù)最相關(guān)的其他監(jiān)測(cè)數(shù)據(jù)，從而幫助用戶快速定位系統(tǒng)問題。比如當(dāng)用戶發(fā)現(xiàn)一個(gè)數(shù)據(jù)庫系統(tǒng)的響應(yīng)時(shí)間變慢后，使用本方法的分析系統(tǒng)可以自動(dòng)分析內(nèi)存，磁盤，CPU等子系統(tǒng)的使用情況，發(fā)現(xiàn)那個(gè)子系統(tǒng)導(dǎo)致了這個(gè)問題。這種數(shù)據(jù)關(guān)聯(lián)方法根據(jù)輸入的多個(gè)數(shù)據(jù)流的歷史數(shù)據(jù)，選定其中某些作為目標(biāo)數(shù)據(jù)流，某些是源數(shù)據(jù)流，然后訓(xùn)練一組分布模型；在得到一批新的數(shù)據(jù)后，根據(jù)訓(xùn)練得到的分布模型和新數(shù)據(jù)計(jì)算源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的條件概率作為相關(guān)度，從而發(fā)現(xiàn)哪一個(gè)源數(shù)據(jù)流跟目標(biāo)數(shù)據(jù)流相關(guān)性最大。實(shí)現(xiàn)本方法時(shí)分布模型可以使用高斯混合模型。
文檔編號(hào)G06F17/30GK102750373SQ201210205098
公開日2012年10月24日申請(qǐng)日期2012年6月20日優(yōu)先權(quán)日2012年6月20日
發(fā)明者段起陽申請(qǐng)人:段起陽

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：段起陽
技術(shù)所有人：段起陽
我是此專利的發(fā)明人

上一篇：學(xué)習(xí)支持系統(tǒng)以及學(xué)習(xí)支持方法
上一篇：用手機(jī)短信多重碼查詢商品真?zhèn)蔚姆纻畏椒?/a>

該領(lǐng)域下的技術(shù)專家

如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)相關(guān)技術(shù)

概率數(shù)據(jù)關(guān)聯(lián)相關(guān)技術(shù)

聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法相關(guān)技術(shù)

大數(shù)據(jù)關(guān)聯(lián)分析方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法