一種基于常態(tài)模式的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警方法及系統(tǒng)的制作方法

文檔序號(hào)：6621243閱讀：181來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于常態(tài)模式的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)了一種基于常態(tài)模式的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警方法及系統(tǒng)。本方法為：服務(wù)器從各終端采集樣本，并按照時(shí)間段對(duì)樣本劃分；對(duì)于每一時(shí)間段的樣本數(shù)據(jù)集聚類，得到的簇作為樣本的標(biāo)簽進(jìn)行標(biāo)注，計(jì)算降維指標(biāo)進(jìn)行大數(shù)據(jù)降維，再次針對(duì)降維后的數(shù)據(jù)進(jìn)行聚類，獲得數(shù)據(jù)客觀蘊(yùn)含的相似性，繼而將所得簇作為已知的分類標(biāo)準(zhǔn)，提取屬性值辨識(shí)度、屬性辨識(shí)度、屬性值重要性、屬性重要性，使用全新的常態(tài)模式提取方法獲取常態(tài)模式，然后將常態(tài)模式的個(gè)數(shù)定義為態(tài)勢(shì)指數(shù)；最后將各個(gè)時(shí)間段的態(tài)勢(shì)指數(shù)形成時(shí)間序列，使用拐點(diǎn)分析方法進(jìn)行異常值預(yù)警，預(yù)警方法簡(jiǎn)便、效果較好。
【專利說(shuō)明】一種基于常態(tài)模式的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種預(yù)警方法，尤其涉及一種基于常態(tài)模式的態(tài)勢(shì)分析預(yù)警方法及系統(tǒng)。

【背景技術(shù)】
[0002] 在現(xiàn)實(shí)生活中，我們經(jīng)常會(huì)面對(duì)具有一定周期性的復(fù)雜時(shí)間序列數(shù)據(jù)，在每個(gè)時(shí) 間點(diǎn)對(duì)應(yīng)的截面上，都對(duì)應(yīng)一組樣本數(shù)據(jù)，各個(gè)時(shí)間點(diǎn)之間的樣本數(shù)據(jù)沒(méi)有必然的聯(lián)系，從而不是公知的面板數(shù)據(jù)，甚至各時(shí)間點(diǎn)的樣本數(shù)量都不具有相等關(guān)系。我們希望在對(duì)這些數(shù)據(jù)缺乏足夠了解的情況下，確定每個(gè)截面上數(shù)據(jù)之間的相似性，判斷不同屬性對(duì)這種相似性的影響程度，以及這些蘊(yùn)含在數(shù)據(jù)中的關(guān)系在時(shí)間序列上如何傳遞和變化，并由此作出異常情況的預(yù)警。
[0003] 由于我們對(duì)數(shù)據(jù)的了解非常缺乏，我們常常需要依據(jù)經(jīng)驗(yàn)、主觀地將屬性進(jìn)行分類，一般進(jìn)行后續(xù)的研究。例如，對(duì)于消費(fèi)者的購(gòu)物籃數(shù)據(jù)，我們將消費(fèi)者按照消費(fèi)金額分為高、中、低三類，或者按照消費(fèi)者年齡分為老、中、青三類，再比較各個(gè)分類的眾多數(shù)據(jù)的均值、方差等指標(biāo)隨時(shí)間序列的變化，由此作出預(yù)警。這種分類方法存在兩大缺陷：其一，嚴(yán) 重依賴于主觀的分類，使分析結(jié)果喪失客觀性；其二，將眾多數(shù)據(jù)壓縮成均值、方差等指標(biāo)，喪失了大量的信息，使分析結(jié)果不能充分反映情況，預(yù)警效果差強(qiáng)人意。
[0004] 對(duì)具有一定周期性的復(fù)雜時(shí)間序列數(shù)據(jù)做出預(yù)警時(shí)，還會(huì)遇到"大數(shù)據(jù)"的問(wèn)題。隨著信息技術(shù)的高速發(fā)展，人們積累的數(shù)據(jù)量急劇增長(zhǎng)，如何從海量的數(shù)據(jù)中提取有用的知識(shí)成為當(dāng)務(wù)之急。經(jīng)過(guò)清洗的已知標(biāo)簽樣本數(shù)據(jù)匯總到中央數(shù)據(jù)庫(kù)。由于樣本量巨大，形成了維數(shù)大、規(guī)模大、復(fù)雜性大的大數(shù)據(jù)形態(tài)，要挖掘其中有意義的知識(shí)和內(nèi)容以指導(dǎo)實(shí) 際生產(chǎn)和具體應(yīng)用，需要首先進(jìn)行降維處理，即維數(shù)約簡(jiǎn)，它一方面可以解決"維數(shù)災(zāi)難"，緩解大數(shù)據(jù)中"信息豐富但知識(shí)貧乏"的問(wèn)題，降低計(jì)算的復(fù)雜度；另一方面可以引導(dǎo)人們更好地認(rèn)識(shí)和理解數(shù)據(jù)。數(shù)據(jù)降維的方法很多，例如：根據(jù)數(shù)據(jù)本身的特性，可以分為線性降維和非線性降維兩種；根據(jù)是否考慮和利用數(shù)據(jù)的監(jiān)督信息，可以分為無(wú)監(jiān)督降維、有監(jiān) 督降維和半監(jiān)督降維三種；根據(jù)是否需要保持?jǐn)?shù)據(jù)的結(jié)構(gòu)，可以分為全局保持降維、局部保持降維和全局與局部保持一致降維等。

【發(fā)明內(nèi)容】

[0005] 針對(duì)現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題，本發(fā)明的目的在于提供一種基于態(tài)勢(shì)分析的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警方法和系統(tǒng)。
[0006] 我們首先根據(jù)實(shí)際需要選擇時(shí)間段，根據(jù)時(shí)間段劃分樣本，以便進(jìn)行比較。其次使用"抽樣-> 聚類-> 計(jì)算降維指標(biāo)"的流程進(jìn)行大數(shù)據(jù)降維，將聚類獲得的簇作為已知的標(biāo) 簽，采用完全客觀的算法來(lái)選擇對(duì)樣本的已知標(biāo)簽具有較大影響力的維度。也就是說(shuō)，這些在降維中被保留下來(lái)的維度不是主觀確定的，不依賴于經(jīng)驗(yàn)?zāi)Ｐ汀Ｔ俅吾槍?duì)降維后的數(shù)據(jù)，使用聚類分析（clustering)算法將樣本進(jìn)行聚類，獲得數(shù)據(jù)客觀蘊(yùn)含的相似性，繼而將所得"簇"作為已知的分類標(biāo)準(zhǔn)（標(biāo)簽），提取屬性值辨識(shí)度、屬性辨識(shí)度、屬性值重要性、屬性重要性等"屬性對(duì)相似性的影響力"的四項(xiàng)指標(biāo)，進(jìn)一步，使用全新的常態(tài)模式提取方法獲取"常態(tài)模式"，并給出常態(tài)模式的命名方法。接下來(lái)，將常態(tài)模式的個(gè)數(shù)定義為態(tài)勢(shì)指數(shù)。最后，將各個(gè)時(shí)間段的態(tài)勢(shì)指數(shù)形成時(shí)間序列，使用拐點(diǎn)分析方法進(jìn)行異常值預(yù)警，預(yù)警方法簡(jiǎn)便、效果較好。
[0007] 本發(fā)明公開(kāi)的基于聚類的態(tài)勢(shì)分析預(yù)警方法，其創(chuàng)新點(diǎn)在于定義了一種全新的宏觀指標(biāo)"態(tài)勢(shì)指數(shù)"，即截面數(shù)據(jù)中常態(tài)模式的數(shù)量，它反映了數(shù)據(jù)內(nèi)部蘊(yùn)含的子結(jié)構(gòu)的數(shù) 量，由此可以對(duì)每個(gè)時(shí)間點(diǎn)的截面數(shù)據(jù)中蘊(yùn)含的子結(jié)構(gòu)的數(shù)量變化進(jìn)行預(yù)警，是常用的截面數(shù)據(jù)樣本量指標(biāo)的有力補(bǔ)充。
[0008] 本發(fā)明的技術(shù)方案為：
[0009] -種基于常態(tài)模式的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警方法，其步驟為：
[0010] 1)中央服務(wù)器從各終端服務(wù)器采集樣本數(shù)據(jù)，并按照時(shí)間段對(duì)樣本數(shù)據(jù)進(jìn)行劃分，每個(gè)時(shí)間段對(duì)應(yīng)一樣本數(shù)據(jù)集；
[0011] 2)對(duì)于每一時(shí)間段的樣本數(shù)據(jù)集，從中抽取若干樣本構(gòu)建一抽樣樣本集合，并對(duì) 其進(jìn)行聚類分析，得到若干簇；將聚類得到的簇作為樣本的標(biāo)簽，對(duì)樣本進(jìn)行標(biāo)注，然后根據(jù)選取的屬性降維指標(biāo)計(jì)算所述抽樣樣本集合中已標(biāo)注樣本每一屬性的屬性值辨識(shí)度、屬性辨識(shí)度和或?qū)傩灾抵匾?、屬性重要性?br> [0012] 3)分別根據(jù)屬性值辨識(shí)度、屬性辨識(shí)度和或?qū)傩灾抵匾?、屬性重要性?duì)屬性進(jìn) 行排序，選取若干屬性作為大數(shù)據(jù)降維后保留的屬性；
[0013] 4)對(duì)屬性降維后的全體樣本數(shù)據(jù)進(jìn)行聚類，將聚類得到的簇作為樣本的標(biāo)簽，對(duì) 樣本進(jìn)行標(biāo)注；
[0014] 5)根據(jù)選取的屬性劃分指標(biāo)計(jì)算步驟4)中已標(biāo)注樣本每一屬性的屬性值辨識(shí) 度、屬性辨識(shí)度和或?qū)傩灾抵匾浴傩灾匾?，然后?duì)計(jì)算結(jié)果進(jìn)行排序選取若干屬性特征對(duì)所述樣本數(shù)據(jù)集進(jìn)行劃分，將劃分結(jié)果作為常態(tài)模式；
[0015] 6)將各個(gè)時(shí)間段的常態(tài)模式個(gè)數(shù)作為態(tài)勢(shì)指數(shù)，得到一態(tài)勢(shì)指數(shù)時(shí)間序列；然后根據(jù)該態(tài)勢(shì)指數(shù)時(shí)間序列確定一常態(tài)區(qū)域；
[0016] 7)計(jì)算當(dāng)前時(shí)刻所采集樣本數(shù)據(jù)的態(tài)勢(shì)指數(shù)，如果超出所述常態(tài)區(qū)域，則對(duì)其進(jìn) 行監(jiān)控，并計(jì)算下一時(shí)刻所采集樣本數(shù)據(jù)的態(tài)勢(shì)指數(shù)，如果仍超出所述常態(tài)區(qū)域，則進(jìn)行預(yù) 警；
[0017] 其中，屬性值辨識(shí)度的計(jì)算方法為：選取樣本一屬性i的一屬性值a，計(jì)算具有該屬性值a的樣本屬于標(biāo)簽j的條件概率值，以及未增加該屬性值條件時(shí)樣本屬于該標(biāo)簽j 的概率值；將所述條件概率值與所述概率值的差值作為該屬性值a對(duì)于該標(biāo)簽j的屬性值辨識(shí)度；將該屬性值a對(duì)于所有標(biāo)簽的屬性值辨識(shí)度的平方平均數(shù)作為該屬性值a的屬性值辨識(shí)度；
[0018] 屬性辨識(shí)度的計(jì)算方法為：根據(jù)屬性i所有屬性值辨識(shí)度計(jì)算該屬性i的屬性辨識(shí)度；
[0019] 屬性值重要性的計(jì)算方法為：將樣本屬性i取屬性值a時(shí)屬于標(biāo)簽j的樣本量乘以該屬性值a對(duì)于該標(biāo)簽j的屬性辨識(shí)度，得到該屬性值a對(duì)于該標(biāo)簽j的屬性值重要性；將該屬性值a對(duì)于所有標(biāo)簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要性；
[0020] 屬性重要性的計(jì)算方法為：根據(jù)屬性i所有屬性值重要性計(jì)算該屬性i的屬性重要性。
[0021] 進(jìn)一步的，確定所述常態(tài)區(qū)域的方法為：首先根據(jù)所述樣本數(shù)據(jù)的采樣周期確定態(tài)勢(shì)指數(shù)的變化周期；根據(jù)多個(gè)變化周期的態(tài)勢(shì)指數(shù)繪制一常態(tài)區(qū)域圖，然后根據(jù)該常態(tài) 區(qū)域圖的最大值和最小值確定出所述常態(tài)區(qū)域。
[0022] 進(jìn)一步的，對(duì)該屬性i所有屬性值的屬性值辨識(shí)度的平方平均數(shù)作為該屬性i的屬性辨識(shí)度；對(duì)該屬性i所有屬性值的屬性值重要性的平方平均數(shù)作為該屬性i的屬性重要性。
[0023] 進(jìn)一步的，分別選用屬性重要性最高的屬性、屬性辨識(shí)度最高的屬性對(duì)樣本進(jìn)行劃分，得到所述常態(tài)模式；或者選取劃分結(jié)果與聚類結(jié)果的差異量小的原則選擇屬性重要性最高的屬性或?qū)傩员孀R(shí)度最高的屬性對(duì)樣本進(jìn)行劃分，得到所述常態(tài)模式。
[0024] 進(jìn)一步的，根據(jù)所述常態(tài)模式劃分所依據(jù)的屬性和屬性值，命名所述常態(tài)模式的名稱。
[0025] 進(jìn)一步的，命名所述常態(tài)模式的名稱的方法為：在得到所述常態(tài)模式的過(guò)程中，記錄每一所述常態(tài)模式所用到的屬性和屬性值；將第一所用的屬性和或?qū)傩灾涤涗洖楦?jié) 點(diǎn)，最后一次所用的屬性和或?qū)傩灾涤涗洖槿~節(jié)點(diǎn)；然后沿著根節(jié)點(diǎn)向該葉節(jié)點(diǎn)發(fā)展，將涉及的全部屬性值的集合作為該常態(tài)模式的名稱。
[0026] 本發(fā)明的系統(tǒng)如圖6所示，其包括：
[0027] 1.數(shù)據(jù)降維模塊
[0028] 對(duì)采集的樣本進(jìn)行抽樣和聚類分析，得到若干簇，將聚類得到的簇作為樣本的標(biāo) 簽，對(duì)樣本進(jìn)行標(biāo)注。計(jì)算標(biāo)注樣本每一屬性的屬性值辨識(shí)度、屬性辨識(shí)度以及屬性值重要性、屬性重要性，提取由數(shù)據(jù)本身決定的"屬性對(duì)相似性的影響力"指標(biāo)；然后根據(jù)指標(biāo)計(jì)算結(jié)果對(duì)屬性排序；選取排序靠前的屬性對(duì)樣本數(shù)據(jù)進(jìn)行降維。本發(fā)明可以建立在任何一種公知的聚類分析算法結(jié)果之上，提取由數(shù)據(jù)本身決定的"屬性對(duì)相似性的影響力"指標(biāo)，這些指標(biāo)包括：屬性值辨識(shí)度、屬性辨識(shí)度、屬性值重要性、屬性重要性。本發(fā)明將聚類分析獲得的簇作為已知的分類標(biāo)簽，由此，"屬性對(duì)相似性的影響力"指標(biāo)等價(jià)于"屬性對(duì)已知標(biāo)簽的影響力"指標(biāo)。
[0029] 這是因?yàn)?，使用聚類分析方法讓?shù)據(jù)通過(guò)無(wú)監(jiān)督學(xué)習(xí)生成若干"簇"，這些簇是基于距離或相似度來(lái)確定的，滿足簇中的對(duì)象彼此相似，而與其他簇中的對(duì)象相異。粗略的看，聚類的結(jié)果與屬性和屬性值沒(méi)有直接關(guān)聯(lián)，即不是由某些屬性來(lái)劃分的。但是，考慮到距離或相似度的定義基于屬性和屬性值，因此屬性和屬性值對(duì)簇的形成具有實(shí)際的影響，而且不同的屬性和屬性值的影響力并不相同。因此，將聚類分析獲得的簇作為已知的分類標(biāo)簽，進(jìn)而提取屬性對(duì)分類的影響力的四項(xiàng)指標(biāo)具有實(shí)際意義。
[0030] 2.常態(tài)模式劃分模塊。
[0031] 常態(tài)模式，可以理解為樣本數(shù)據(jù)中的常見(jiàn)類型，每個(gè)常態(tài)模式都是一組屬性值的集合，常態(tài)模式集合是對(duì)全體樣本的一種劃分。
[0032] 例如，圖1中的一個(gè)常態(tài)模式可能是{顏色=黑，形狀=方，尺寸=小}，該類型包括了所有小的黑方塊，它對(duì)應(yīng)屬性值{顏色=黑}、{形狀=方}和{尺寸=小}，是這三個(gè)屬性值的集合。當(dāng)然，某一個(gè)確實(shí)的常態(tài)模式中的屬性值不一定是唯一的，因此，{:顏色= 黑或灰，形狀=方，尺寸=小}也可能是一個(gè)常態(tài)模式。另一方面，由于{顏色=黑，形狀=方或圓，尺寸=小}可以化簡(jiǎn)為{顏色=黑，尺寸=小}，因此，常態(tài)模式對(duì)應(yīng)的屬性值不一定包含所有的屬性，也就是說(shuō)，有的屬性在常態(tài)模式的劃分中并不重要。
[0033] 常態(tài)模式的另一個(gè)重要特點(diǎn)是"劃分"性，也就是"不重不漏"。兩個(gè)常態(tài)模式不能擁有共同的樣本，即不相交；同時(shí)，絕大部分樣本都屬于某一個(gè)常態(tài)模式，只有少部分"異常值"、"離群值"。
[0034] 直觀的講，一個(gè)樣本總體全體常態(tài)模式的集合對(duì)應(yīng)一個(gè)分類樹(shù)，如圖2所示，就是一個(gè)可能的常態(tài)模式集合。
[0035] 這些圖型具體應(yīng)該分成哪些常態(tài)模式難以劃分。本發(fā)明使用"先聚類再分類"的技術(shù)，提取數(shù)據(jù)客觀蘊(yùn)含的屬性重要程度，給出客觀的分類標(biāo)準(zhǔn)，即常態(tài)模式。
[0036] 常態(tài)模式覆蓋了絕大部分樣本，除了左下角灰底白點(diǎn)的大圓，這是異常值。
[0037] -個(gè)需要區(qū)別的概念是正常類型。事實(shí)上，常態(tài)模式并不等價(jià)于正常類型，常態(tài)模式只是從出現(xiàn)的頻率上給出了出現(xiàn)頻率高的劃分方法，并不意味著它一定是正常的、正確的。例如，在道路上暫時(shí)沒(méi)有機(jī)動(dòng)車通過(guò)時(shí)行人闖紅燈過(guò)馬路，這是一種常見(jiàn)的行為，但卻不是正確、合法的行為。當(dāng)然，一般來(lái)說(shuō)，常態(tài)模式是正常類型，不屬于常態(tài)模式的異常值是不正常的樣本。
[0038] 本發(fā)明通過(guò)提取屬性重要性和辨識(shí)度，獲取屬性值辨識(shí)度、屬性辨識(shí)度、屬性值重要性、屬性重要性等四項(xiàng)指標(biāo)，也就是"屬性對(duì)相似性的影響力"。再使用全新的常態(tài)模式提取方法獲取分類結(jié)果，即"常態(tài)模式"。
[0039] 3.拐點(diǎn)分析模塊
[0040] 本發(fā)明中使用的全新的拐點(diǎn)分析技術(shù)，通過(guò)歷史數(shù)據(jù)定義常態(tài)區(qū)域，并通過(guò)數(shù)據(jù) 點(diǎn)及其發(fā)展趨勢(shì)與常態(tài)區(qū)域的關(guān)系，將數(shù)據(jù)分為三種狀態(tài)：可控狀態(tài)、監(jiān)控狀態(tài)、預(yù)警狀態(tài)。將拐點(diǎn)分析技術(shù)分別應(yīng)用于屬性值辨識(shí)度、屬性辨識(shí)度、屬性值重要性、屬性重要性等四項(xiàng) 指標(biāo)，得出層次豐富的預(yù)警結(jié)論。
[0041] 如圖1所示，以周期為18的時(shí)間序列數(shù)據(jù)為例。我們首先使用三個(gè)周期的數(shù)據(jù)圍成常態(tài)區(qū)域，即圖中的灰色區(qū)域，接下來(lái)根據(jù)常態(tài)區(qū)域?qū)?duì)新的一個(gè)周期的數(shù)據(jù)（黑色實(shí) 線）進(jìn)行拐點(diǎn)分析和預(yù)警。
[0042] 可以發(fā)現(xiàn)，黑線上的大多數(shù)數(shù)據(jù)點(diǎn)落在常態(tài)區(qū)域中，屬于可控狀態(tài)。圖中A點(diǎn)和B 點(diǎn)落在常態(tài)區(qū)域之外，且都是曲線從常態(tài)區(qū)域中突破出來(lái)的第一個(gè)點(diǎn)，進(jìn)入監(jiān)控狀態(tài)。如果數(shù)據(jù)點(diǎn)進(jìn)入監(jiān)控狀態(tài)，相關(guān)人員應(yīng)該保持密切監(jiān)控，并對(duì)接下來(lái)的數(shù)據(jù)點(diǎn)進(jìn)行拐點(diǎn)分析，也就是用拐點(diǎn)分析技術(shù)判斷數(shù)據(jù)的發(fā)展趨勢(shì)是"進(jìn)一步突破"還是"反轉(zhuǎn)回歸"。具體而言：
[0043] ①案例中，A點(diǎn)的下一時(shí)刻，曲線斜率符號(hào)轉(zhuǎn)變（由正變成零或負(fù)），即向正常狀態(tài) 回歸，因此該數(shù)據(jù)值仍然屬于監(jiān)控狀態(tài)，直到數(shù)據(jù)點(diǎn)回歸到常態(tài)區(qū)域內(nèi)，監(jiān)控解除，或者曲線斜率符號(hào)再度轉(zhuǎn)變，遠(yuǎn)離常態(tài)區(qū)域，變成預(yù)警狀態(tài)。
[0044] ②案例中，B點(diǎn)的下一時(shí)刻，曲線斜率并未發(fā)生符號(hào)轉(zhuǎn)變，認(rèn)為進(jìn)一步偏離常態(tài)區(qū) 域，因此該數(shù)據(jù)值變成預(yù)警狀態(tài)，做出預(yù)警。相關(guān)人員應(yīng)該集中精力分析這些預(yù)警的"異常" 數(shù)據(jù)點(diǎn)。
[0045] 與現(xiàn)有技術(shù)相比，積極效果為：
[0046] (1)常態(tài)模式獲得的"類"比聚類分析獲得的"簇"，具有更加確切的分類標(biāo)準(zhǔn)，排除了由于其他屬性的干擾，使得個(gè)別樣本點(diǎn)分類不準(zhǔn)確的現(xiàn)象，如圖3。
[0047] 例如，可能某個(gè)簇的100個(gè)樣本中99個(gè)都是"性別=男性"，僅有1個(gè)是"性別= 女性"，使得分類結(jié)果的實(shí)踐指導(dǎo)意義較差。而本專利將選擇"性別"屬性作為分類標(biāo)準(zhǔn)，獲得"性別=男性"和"性別=女性"兩個(gè)類，分類結(jié)果的實(shí)踐指導(dǎo)意義更好。進(jìn)一步，這個(gè)特殊的、錯(cuò)誤分類的個(gè)體，可以作為異常值研究對(duì)象。
[0048] (2)對(duì)于一類復(fù)雜的趨勢(shì)數(shù)據(jù)樣本，例如某超市每天的顧客購(gòu)物情況，使用聚類分析得到的簇，不能確定相鄰兩天得到的簇之間的關(guān)系，從而難以研究相關(guān)簇之間的時(shí)間序列關(guān)系。而使用本專利方法可以獲得常態(tài)模式并給出了常態(tài)模式的命名方法，則在不同時(shí) 間點(diǎn)的各個(gè)簇之間建立了明確的時(shí)間序列關(guān)系，即可以研究相同名稱的簇的變化情況，以及不同時(shí)間點(diǎn)簇的增加或減少情況。
[0049] (3)主流的聚類算法屬于隨機(jī)算法，基于隨機(jī)的初值，聚類結(jié)果也隨著初值變化，聚類結(jié)果的不確定性在一定程度上影響了聚類結(jié)果在實(shí)際應(yīng)用中的可信度。而本發(fā)明由于使用了"先聚類再分類"的方法確定常態(tài)模式，降低了初值對(duì)計(jì)算結(jié)果的影響，使分析結(jié)果更加穩(wěn)定可信。
[0050] 如前所述，本發(fā)明公開(kāi)的態(tài)勢(shì)分析預(yù)警方法，可應(yīng)用于公安情報(bào)數(shù)據(jù)分析、反腐敗數(shù)據(jù)分析、居民家庭用電情況分析、交通出行模式分析、疾病特征數(shù)據(jù)分析、醫(yī)療數(shù)據(jù)分析、客戶市場(chǎng)細(xì)分等多種領(lǐng)域，提取"屬性對(duì)相似性的影響力"指標(biāo)，具有較強(qiáng)的普適性。

【專利附圖】

【附圖說(shuō)明】
[0051] 圖1為常態(tài)模式示意圖；
[0052] 圖2為常態(tài)模式實(shí)例圖；
[0053] 圖3為拐點(diǎn)分析和預(yù)警的簡(jiǎn)單實(shí)例；
[0054] 圖4為常態(tài)模式劃分方法結(jié)果對(duì)比圖；
[0055] (a)聚類得到的簇，（b)先聚類再分類獲得的類
[0056] 圖5為基于常態(tài)模式的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警系統(tǒng)流程圖；
[0057] 圖6為基于常態(tài)模式的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警系統(tǒng)結(jié)構(gòu)圖；
[0058] 圖7為劃分屬性的選擇圖；
[0059] (a)根據(jù)重要性最高的屬性（屬性A)劃分常態(tài)模式，
[0060] (b)根據(jù)辨識(shí)度最高的屬性（屬性B)劃分常態(tài)模式，
[0061] 圖8為類與簇之間的差異圖；
[0062] (a)由聚類分析獲得的五個(gè)簇，
[0063] (b)根據(jù)屬性的辨識(shí)度和重要性劃分?jǐn)?shù)據(jù)得到的四個(gè)類；
[0064] 圖9為根據(jù)態(tài)勢(shì)指數(shù)歷史數(shù)據(jù)繪制的常態(tài)區(qū)域；
[0065] 圖10為根據(jù)新周期中態(tài)勢(shì)指數(shù)的狀態(tài)圖；
[0066] 圖11為應(yīng)用實(shí)例的模型形態(tài)圖；
[0067] 圖12為應(yīng)用實(shí)例分析計(jì)算結(jié)果圖。

【具體實(shí)施方式】
[0068] 本發(fā)明公開(kāi)了一種基于聚類的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警方法和系統(tǒng)，可以得到多層次的預(yù)警結(jié)果，具體操作步驟如下。
[0069] 步驟1 :數(shù)據(jù)采集。
[0070] 數(shù)據(jù)采集模塊是本系統(tǒng)的硬件基礎(chǔ)。該模塊將待分析的無(wú)標(biāo)簽樣本數(shù)據(jù)從分布在各地的終端數(shù)據(jù)庫(kù)中傳輸匯總到中央數(shù)據(jù)庫(kù)。
[0071] 步驟2:數(shù)據(jù)清洗。
[0072] 通過(guò)數(shù)據(jù)采集終端匯總得到的數(shù)據(jù)，難免存在不完整、錯(cuò)誤、重復(fù)等現(xiàn)象。數(shù)據(jù)清洗步驟用于過(guò)濾這些不符合要求的數(shù)據(jù)，過(guò)濾的結(jié)果將提交給相關(guān)主管部門(mén)，確認(rèn)是直接過(guò)濾掉還是作為異常值提取出來(lái)做進(jìn)一步分析。
[0073] 步驟3 :時(shí)間段選擇及劃分。
[0074] 根據(jù)客戶實(shí)際需求，將樣本數(shù)據(jù)劃分為若干時(shí)間段，針對(duì)每個(gè)時(shí)間段重復(fù)步驟4 和步驟5。本系統(tǒng)提供客戶時(shí)間段劃分的選擇功能。
[0075] 步驟4:數(shù)據(jù)降維。
[0076] 經(jīng)過(guò)清洗和時(shí)間段劃分的的樣本數(shù)據(jù)匯總到中央數(shù)據(jù)庫(kù)。由于樣本量（N1)巨大，形成了維數(shù)大、規(guī)模大、復(fù)雜性大的大數(shù)據(jù)形態(tài)，要挖掘其中有意義的知識(shí)和內(nèi)容以指導(dǎo)實(shí) 際生產(chǎn)和具體應(yīng)用，需要首先進(jìn)行降維處理，即維數(shù)約簡(jiǎn)，它一方面可以解決"維數(shù)災(zāi)難"，緩解大數(shù)據(jù)中"信息豐富但知識(shí)貧乏"的問(wèn)題，降低計(jì)算的復(fù)雜度；另一方面可以引導(dǎo)人們更好地認(rèn)識(shí)和理解數(shù)據(jù)。
[0077] 數(shù)據(jù)降維步驟包括以下子步驟：
[0078] 步驟4· 1 :數(shù)據(jù)抽樣。
[0079] 對(duì)全體樣本進(jìn)行系統(tǒng)抽樣（systematic sampling)。系統(tǒng)抽樣，又稱機(jī)械抽樣、等距抽樣。具體而言：
[0080] (1)由系統(tǒng)硬件運(yùn)轉(zhuǎn)能力確定適合的抽樣樣本量（N2)，定義壓縮比（M)為：
[0081] M = N1+N2;
[0082] (2)將全體樣本數(shù)據(jù)按某一順序排列起來(lái)，標(biāo)注唯一的序號(hào)；
[0083] (3)從前Μ個(gè)樣本中隨機(jī)的選出一個(gè)樣本作為抽樣樣本，記其序號(hào)為k ;
[0084] (4)將序號(hào)為k、k+M、k+2*M、...、k+(N2-l)*M的N2個(gè)樣本作為抽樣結(jié)果。
[0085] 步驟4. 2:數(shù)據(jù)聚類。
[0086] 本步驟可以建立在任何一種公知的聚類分析算法結(jié)果之上，通過(guò)對(duì)抽樣后的樣本數(shù)據(jù)進(jìn)行聚類分析，得到若干簇。
[0087] 步驟4. 3 :降維指標(biāo)選擇。
[0088] 針對(duì)抽樣得到的N2個(gè)樣本以及聚類獲得的若干簇，可以通過(guò)后續(xù)的步驟計(jì)算降維指標(biāo)（即"屬性對(duì)相似性的影響力"），并根據(jù)"影響力"的排序來(lái)確定降維后保留的屬性。本系統(tǒng)提供降維指標(biāo)的選擇，可選擇的降維指標(biāo)有：
[0089] 降維指標(biāo)1 :屬性辨識(shí)度指標(biāo)；
[0090] 降維指標(biāo)2 :屬性重要性指標(biāo)。
[0091] 降維指標(biāo)選擇主要看待分析的問(wèn)題中"樣本量"因素是否重要，建議如下：
[0092] (1)如果"樣本量"因素不重要，應(yīng)選擇屬性辨識(shí)度指標(biāo)給出影響力排序；
[0093] (2)如果"樣本量"因素重要，應(yīng)選擇屬性重要性指標(biāo)給出影響力排序；
[0094] (3)如果想綜合考慮上述兩種情況，應(yīng)結(jié)合這兩個(gè)指標(biāo)給出綜合性的排序。
[0095] 步驟4. 4 :降維指標(biāo)計(jì)算。
[0096] 計(jì)算降維指標(biāo)，也就是計(jì)算每個(gè)屬性"對(duì)相似性的影響力"，具體包括：屬性辨識(shí)度和屬性重要性，同時(shí)還需要計(jì)算兩個(gè)過(guò)渡性的指標(biāo)：屬性值辨識(shí)度和屬性值重要性。我們以案例為基礎(chǔ)，說(shuō)明這四項(xiàng)指標(biāo)的主要計(jì)算步驟。系統(tǒng)將根據(jù)用戶在步驟3. 2中的選擇情況計(jì)算相應(yīng)的指標(biāo)。
[0097] 四項(xiàng)指標(biāo)計(jì)算案例：
[0098] 一個(gè)包含100人的研究樣本，其中包含50名女性和50名男性，其中20人有前科。通過(guò)聚類分析獲得了兩個(gè)"簇"，其中"簇1"包含10個(gè)樣本，絕大部分是犯有盜竊罪的人，而"簇2"包含90個(gè)樣本，絕大部分是未犯有盜竊罪的人。其他數(shù)據(jù)如表1。
[0099] 表1 :四項(xiàng)指標(biāo)計(jì)算案例
[0100]

【權(quán)利要求】
1. 一種基于常態(tài)模式的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警方法，其步驟為： 1) 中央服務(wù)器從各終端服務(wù)器采集樣本數(shù)據(jù)，并按照時(shí)間段對(duì)樣本數(shù)據(jù)進(jìn)行劃分，每個(gè)時(shí)間段對(duì)應(yīng)一樣本數(shù)據(jù)集； 2) 對(duì)于每一時(shí)間段的樣本數(shù)據(jù)集，從中抽取若干樣本構(gòu)建一抽樣樣本集合，并對(duì)其進(jìn) 行聚類分析，得到若干簇；將聚類得到的簇作為樣本的標(biāo)簽，對(duì)樣本進(jìn)行標(biāo)注，然后根據(jù)選取的屬性降維指標(biāo)計(jì)算所述抽樣樣本集合中已標(biāo)注樣本每一屬性的屬性值辨識(shí)度、屬性辨識(shí)度和或?qū)傩灾抵匾?、屬性重要性? 3) 分別根據(jù)屬性值辨識(shí)度、屬性辨識(shí)度和或?qū)傩灾抵匾?、屬性重要性?duì)屬性進(jìn)行排序，選取若干屬性作為大數(shù)據(jù)降維后保留的屬性； 4) 對(duì)屬性降維后的全體樣本數(shù)據(jù)進(jìn)行聚類，將聚類得到的簇作為樣本的標(biāo)簽，對(duì)樣本進(jìn)行標(biāo)注； 5) 根據(jù)選取的屬性劃分指標(biāo)計(jì)算步驟4)中已標(biāo)注樣本每一屬性的屬性值辨識(shí)度、屬性辨識(shí)度和或?qū)傩灾抵匾?、屬性重要性，然后?duì)計(jì)算結(jié)果進(jìn)行排序選取若干屬性特征對(duì) 所述樣本數(shù)據(jù)集進(jìn)行劃分，將劃分結(jié)果作為常態(tài)模式； 6) 將各個(gè)時(shí)間段的常態(tài)模式個(gè)數(shù)作為態(tài)勢(shì)指數(shù)，得到一態(tài)勢(shì)指數(shù)時(shí)間序列；然后根據(jù) 該態(tài)勢(shì)指數(shù)時(shí)間序列確定一常態(tài)區(qū)域； 7) 計(jì)算當(dāng)前時(shí)刻所采集樣本數(shù)據(jù)的態(tài)勢(shì)指數(shù)，如果超出所述常態(tài)區(qū)域，則對(duì)其進(jìn)行監(jiān) 控，并計(jì)算下一時(shí)刻所采集樣本數(shù)據(jù)的態(tài)勢(shì)指數(shù)，如果仍超出所述常態(tài)區(qū)域，則進(jìn)行預(yù)警；其中，屬性值辨識(shí)度的計(jì)算方法為：選取樣本一屬性i的一屬性值a，計(jì)算具有該屬性值a的樣本屬于標(biāo)簽j的條件概率值，以及未增加該屬性值條件時(shí)樣本屬于該標(biāo)簽j的概率值；將所述條件概率值與所述概率值的差值作為該屬性值a對(duì)于該標(biāo)簽j的屬性值辨識(shí) 度；將該屬性值a對(duì)于所有標(biāo)簽的屬性值辨識(shí)度的平方平均數(shù)作為該屬性值a的屬性值辨識(shí)度；屬性辨識(shí)度的計(jì)算方法為：根據(jù)屬性i所有屬性值辨識(shí)度計(jì)算該屬性i的屬性辨識(shí) 度；屬性值重要性的計(jì)算方法為：將樣本屬性i取屬性值a時(shí)屬于標(biāo)簽j的樣本量乘以該屬性值a對(duì)于該標(biāo)簽j的屬性辨識(shí)度，得到該屬性值a對(duì)于該標(biāo)簽j的屬性值重要性；將該屬性值a對(duì)于所有標(biāo)簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要性；屬性重要性的計(jì)算方法為：根據(jù)屬性i所有屬性值重要性計(jì)算該屬性i的屬性重要性。
2. 如權(quán)利要求1所述的方法，其特征在于確定所述常態(tài)區(qū)域的方法為：首先根據(jù)所述樣本數(shù)據(jù)的采樣周期確定態(tài)勢(shì)指數(shù)的變化周期；根據(jù)多個(gè)變化周期的態(tài)勢(shì)指數(shù)繪制一常態(tài) 區(qū)域圖，然后根據(jù)該常態(tài)區(qū)域圖的最大值和最小值確定出所述常態(tài)區(qū)域。
3. 如權(quán)利要求1所述的方法，其特征在于對(duì)該屬性i所有屬性值的屬性值辨識(shí)度的平方平均數(shù)作為該屬性i的屬性辨識(shí)度；對(duì)該屬性i所有屬性值的屬性值重要性的平方平均數(shù)作為該屬性i的屬性重要性。
4. 如權(quán)利要求1或2或3所述的方法，其特征在于分別選用屬性重要性最高的屬性、屬性辨識(shí)度最高的屬性對(duì)樣本進(jìn)行劃分，得到所述常態(tài)模式；或者選取劃分結(jié)果與聚類結(jié)果的差異量小的原則選擇屬性重要性最高的屬性或?qū)傩员孀R(shí)度最高的屬性對(duì)樣本進(jìn)行劃分，得到所述常態(tài)模式。
5. 如權(quán)利要求1或2或3所述的方法，其特征在于根據(jù)所述常態(tài)模式劃分所依據(jù)的屬性和屬性值，命名所述常態(tài)模式的名稱。
6. 如權(quán)利要求5所述的方法，其特征在于命名所述常態(tài)模式的名稱的方法為：在得到所述常態(tài)模式的過(guò)程中，記錄每一所述常態(tài)模式所用到的屬性和屬性值；將第一所用的屬性和或?qū)傩灾涤涗洖楦?jié)點(diǎn)，最后一次所用的屬性和或?qū)傩灾涤涗洖槿~節(jié)點(diǎn)；然后沿著根節(jié)點(diǎn)向該葉節(jié)點(diǎn)發(fā)展，將涉及的全部屬性值的集合作為該常態(tài)模式的名稱。
7. -種基于常態(tài)模式的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警系統(tǒng)，其特征在于包括多個(gè)終端服務(wù)器和一中央服務(wù)器，所述終端服務(wù)器通過(guò)網(wǎng)絡(luò)與所述中央服務(wù)器連接；其中，所述中央服務(wù)器包括數(shù)據(jù)采集模塊、數(shù)據(jù)降維模塊、常態(tài)模式劃分模塊和拐點(diǎn)分析模塊；所述數(shù)據(jù)采集模塊，用于從各終端服務(wù)器采集樣本數(shù)據(jù)，并按照時(shí)間段對(duì)樣本數(shù)據(jù)進(jìn) 行劃分，每個(gè)時(shí)間段對(duì)應(yīng)一樣本數(shù)據(jù)集；所述數(shù)據(jù)降維模塊，用于從每一時(shí)間段的樣本數(shù)據(jù)集中抽取若干樣本構(gòu)建一抽樣樣本集合，并對(duì)其進(jìn)行聚類分析，得到若干簇；將聚類得到的簇作為樣本的標(biāo)簽，對(duì)樣本進(jìn)行標(biāo) 注，然后根據(jù)選取的屬性降維指標(biāo)計(jì)算所述抽樣樣本集合中已標(biāo)注樣本每一屬性的屬性值辨識(shí)度、屬性辨識(shí)度和或?qū)傩灾抵匾?、屬性重要性，并根?jù)計(jì)算結(jié)果對(duì)屬性進(jìn)行排序，選取若干屬性作為大數(shù)據(jù)降維后保留的屬性；所述常態(tài)模式劃分模塊，用于對(duì)屬性降維后的全體樣本數(shù)據(jù)進(jìn)行聚類，將聚類得到的簇作為樣本的標(biāo)簽，對(duì)樣本進(jìn)行標(biāo)注；然后根據(jù)選取的屬性劃分指標(biāo)對(duì)標(biāo)注樣本每一屬性的屬性值辨識(shí)度、屬性辨識(shí)度和或?qū)傩灾抵匾?、屬性重要性，并?duì)計(jì)算結(jié)果進(jìn)行排序選取若干屬性特征對(duì)所述樣本數(shù)據(jù)集進(jìn)行劃分，將劃分結(jié)果作為常態(tài)模式；所述拐點(diǎn)分析模塊，用于將各個(gè)時(shí)間段的常態(tài)模式個(gè)數(shù)作為態(tài)勢(shì)指數(shù)，得到一態(tài)勢(shì)指數(shù)時(shí)間序列，然后根據(jù)該態(tài)勢(shì)指數(shù)時(shí)間序列確定一常態(tài)區(qū)域；以及計(jì)算當(dāng)前時(shí)刻所采集樣本數(shù)據(jù)的態(tài)勢(shì)指數(shù)，如果超出所述常態(tài)區(qū)域，則對(duì)其進(jìn)行監(jiān)控，并計(jì)算下一時(shí)刻所采集樣本數(shù)據(jù)的態(tài)勢(shì)指數(shù)，如果仍超出所述常態(tài)區(qū)域，則進(jìn)行預(yù)警；其中，屬性值辨識(shí)度的計(jì)算方法為：選取樣本一屬性i的一屬性值a，計(jì)算具有該屬性值a的樣本屬于標(biāo)簽j的條件概率值，以及未增加該屬性值條件時(shí)樣本屬于該標(biāo)簽j的概率值；將所述條件概率值與所述概率值的差值作為該屬性值a對(duì)于該標(biāo)簽j的屬性值辨識(shí) 度；將該屬性值a對(duì)于所有標(biāo)簽的屬性值辨識(shí)度的平方平均數(shù)作為該屬性值a的屬性值辨識(shí)度；屬性辨識(shí)度的計(jì)算方法為：根據(jù)屬性i所有屬性值辨識(shí)度計(jì)算該屬性i的屬性辨識(shí) 度；屬性值重要性的計(jì)算方法為：將樣本屬性i取屬性值a時(shí)屬于標(biāo)簽j的樣本量乘以該屬性值a對(duì)于該標(biāo)簽j的屬性辨識(shí)度，得到該屬性值a對(duì)于該標(biāo)簽j的屬性值重要性；將該屬性值a對(duì)于所有標(biāo)簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要性；屬性重要性的計(jì)算方法為：根據(jù)屬性i所有屬性值重要性計(jì)算該屬性i的屬性重要性。
8. 如權(quán)利要求7所述的系統(tǒng)，其特征在于對(duì)該屬性i所有屬性值的屬性值辨識(shí)度的平方平均數(shù)作為該屬性i的屬性辨識(shí)度；對(duì)該屬性i所有屬性值的屬性值重要性的平方平均數(shù)作為該屬性i的屬性重要性。
9. 如權(quán)利要求7所述的系統(tǒng)，其特征在于根據(jù)所述常態(tài)模式劃分所依據(jù)的屬性和屬性值，命名所述常態(tài)模式的名稱；所述中央服務(wù)器通過(guò)一預(yù)警信息發(fā)布器發(fā)布預(yù)警信息。
10.如權(quán)利要求7或8或9所述的系統(tǒng)，其特征在于所述常態(tài)模式劃分模塊在得到所述常態(tài)模式的過(guò)程中，記錄每一所述常態(tài)模式所用到的屬性和屬性值；將第一所用的屬性和或?qū)傩灾涤涗洖楦?jié)點(diǎn)，最后一次所用的屬性和或?qū)傩灾涤涗洖槿~節(jié)點(diǎn)；然后沿著根節(jié)點(diǎn) 向該葉節(jié)點(diǎn)發(fā)展，將涉及的全部屬性值的集合作為該常態(tài)模式的名稱。
【文檔編號(hào)】G06F19/00GK104123466SQ201410356588
【公開(kāi)日】2014年10月29日申請(qǐng)日期:2014年7月24日優(yōu)先權(quán)日:2014年7月24日
【發(fā)明者】王電, 黃煜可, 陳慶彬申請(qǐng)人:中國(guó)軟件與技術(shù)服務(wù)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王電;黃煜可;陳慶彬
技術(shù)所有人：中國(guó)軟件與技術(shù)服務(wù)股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于常態(tài)模式的大數(shù)據(jù)態(tài)勢(shì)分析預(yù)警方法及系統(tǒng)的制作方法