一種基于大數(shù)據(jù)的主機性能容量預(yù)估方法
【專利摘要】本申請公開了一種基于大數(shù)據(jù)的主機性能容量預(yù)估方法,所述方法包括:首先獲取主機各樣本性能數(shù)據(jù),其中,所述各樣本性能數(shù)據(jù)為影響主機容量預(yù)估的數(shù)據(jù);然后通過周期性7階差置信區(qū)間的方法對主機各性能數(shù)據(jù)即影響因子的異常數(shù)據(jù)進行刪除,所述刪除異常數(shù)據(jù)的方法能夠結(jié)合實際交易行為,避免容量預(yù)估受到異常數(shù)據(jù)的影響;再對刪除異常數(shù)據(jù)的各性能數(shù)據(jù)與目標變量進行相關(guān)性分析,根據(jù)分析結(jié)果,結(jié)合時間序列建立所述目標變量的預(yù)估模型。本發(fā)明的技術(shù)方案充分考慮到各影響因素的影響,充分結(jié)合實際業(yè)務(wù)情況,使得主機容量預(yù)估的準確性得到提高。
【專利說明】
-種基于大數(shù)據(jù)的主機性能容量預(yù)估方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及IBM大型主機領(lǐng)域,尤其設(shè)及一種基于大數(shù)據(jù)的主機性能容量預(yù)估方 法。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,無論是新興的互聯(lián)網(wǎng)行業(yè),還是傳統(tǒng)的制造行業(yè)都 離不開大數(shù)據(jù)。而大數(shù)據(jù)最大的技術(shù)問題就是海量數(shù)據(jù)的存儲,尤其是各大銀行進行海量 交易數(shù)據(jù)集中及數(shù)據(jù)中屯、建設(shè)的過程中,基本上都采用IBM大型主機W及其并行禪合體作 為基礎(chǔ)架構(gòu)來實現(xiàn)海量數(shù)據(jù)的處理。而利用大型主機對銀行海量交易數(shù)據(jù)進行存儲需要花 費高額的存儲費用。因此需要針對歷史數(shù)據(jù)對主機容量進行預(yù)估,減少不必要的主機資源 的浪費。
[0003] 目前,針對銀行的日常交易業(yè)務(wù)數(shù)據(jù),由于節(jié)假日、政策等因素影響,實際交易數(shù) 據(jù)中存在很多異常增長點,只考慮異常增長點簡單的線性性能容量預(yù)估方法,很難與實際 情況相吻合,并且缺少多種影響因子與待預(yù)測性能指標的相關(guān)性分析的綜合考慮,大大降 低了性能預(yù)估的準確性。
[0004] 因此如何結(jié)合實際情況和多種影響因素,提高主機容量預(yù)估的準確性是目前需要 解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明提供了一種基于大數(shù)據(jù)的主機性能容量預(yù)估方法,能夠與實際 業(yè)務(wù)情況相結(jié)合,并且進行多種影響因素的相關(guān)性分析,從而達到提高主機容量預(yù)估的準 確性的目的。
[0006] 本發(fā)明公開了一種基于大數(shù)據(jù)的主機性能容量預(yù)估方法,包括:
[0007] 獲取主機各樣本性能數(shù)據(jù),其中,所述各樣本性能數(shù)據(jù)為影響主機容量預(yù)估的樣 本數(shù)據(jù);
[000引利用周期性7階差置信區(qū)間的方法刪除所述各樣本性能數(shù)據(jù)的異常數(shù)據(jù),W獲得 刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù);
[0009] 計算所述刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù)與目標變量的相關(guān)性系數(shù);
[0010] 根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù);
[0011] 根據(jù)所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù),結(jié)合時間序列建立所述目標變量 的預(yù)估模型。
[0012] 優(yōu)選的,所述利用周期性7階差置信區(qū)間的方法刪除所述各樣本性能數(shù)據(jù)的異常 數(shù)據(jù),W獲得刪除異常數(shù)據(jù)的各性能樣本數(shù)據(jù),包括:
[0013] 計算所述各樣本性能數(shù)據(jù)中每一天的性能數(shù)據(jù)對比7天前后的變化差值;
[0014] 利用頻率直方圖論證所述變化差值的是否符合正太分布;
[0015] 若各樣本性能數(shù)據(jù)中存在對應(yīng)的變化差值符合正太分布的樣本性能數(shù)據(jù),根據(jù)符 合正太分布的變化差值的樣本均值和標準差計算所述符合正太分布的變化差值的置信區(qū) 間;
[0016] 根據(jù)所述置信區(qū)間定位所述符合正太分布的異常的變化差值所對應(yīng)的時間點;
[0017] 刪除所述符合正太分布異常的變化差值所對應(yīng)的時間點的各性能數(shù)據(jù)。
[0018] 優(yōu)選的,所述根據(jù)所述置信區(qū)間定位所述符合正太分布的異常的變化差值所對應(yīng) 的時間點之后,還包括:
[0019] 利用百分法驗證所述各性能數(shù)據(jù)對應(yīng)的變化差值的置信區(qū)間;
[0020] 其中,若驗證成功,執(zhí)行刪除所述符合正太分布異常的變化差值所對應(yīng)的時間點 的各性能數(shù)據(jù)。
[0021] 優(yōu)選的,所述計算所述刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù)與目標變量的相關(guān)性系 數(shù),包括:
[0022] 計算所述目標變量與所述刪除異常數(shù)據(jù)的各性能數(shù)據(jù)的線性相關(guān)性系數(shù);
[0023] 判斷所述線性相關(guān)性系數(shù)中最大線性相關(guān)性系數(shù)的值是否大于等于預(yù)設(shè)闊值;
[0024] 若所述最大線性相關(guān)性系數(shù)的值大于等于預(yù)設(shè)闊值,獲取所述最大線性相關(guān)性系 數(shù)對應(yīng)的樣本性能數(shù)據(jù);其中,所述根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性系數(shù)對應(yīng)的樣本 性能數(shù)據(jù)為根據(jù)所述線性相關(guān)性系數(shù)獲取最大線性相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù);
[0025] 若所述最大線性相關(guān)性系數(shù)的值小于預(yù)設(shè)闊值,計算所述刪除異常數(shù)據(jù)的各樣本 性能數(shù)據(jù)與給定各曲線方程進行擬合的確定系數(shù);
[0026] 判斷所述確定系數(shù)中最大確定系數(shù)的值是否大于等于預(yù)設(shè)闊值;
[0027] 若所述最大確定系數(shù)大于等于預(yù)設(shè)闊值,獲取所述最大確定系數(shù)對應(yīng)的樣本性能 數(shù)據(jù);其中,所述根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù)為根據(jù)所 述確定系數(shù)獲得最大確定系數(shù)對應(yīng)的樣本性能數(shù)據(jù)。
[0028] 優(yōu)選的,所述根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù),包 括:
[0029] 若所述最大確定系數(shù)小于預(yù)設(shè)闊值,根據(jù)所述線性相關(guān)性系數(shù)和確定系數(shù)中最大 系數(shù)獲得所述最大系數(shù)對應(yīng)的樣本性能數(shù)據(jù)。
[0030] 優(yōu)選的,所述根據(jù)所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù),結(jié)合時間序列建立 所述目標變量的預(yù)估模型,包括:
[0031] 根據(jù)所述性能數(shù)據(jù)中最大相關(guān)性系數(shù)對應(yīng)的性能數(shù)據(jù),結(jié)合時間序列建立所述目 標變量的初始化模型;
[0032] 對所述初始化模型模型參數(shù)進行調(diào)整,得到新的預(yù)估模型;
[0033] 計算所述新的預(yù)估模型的相關(guān)性系數(shù);
[0034] 若所述相關(guān)性系數(shù)大于等于所述預(yù)設(shè)值,則所述新的預(yù)估模型為所述目標變量的 預(yù)估模型;
[0035] 否則,對所述新的預(yù)估模型的參數(shù)重新進行調(diào)整,直到所述相關(guān)性系數(shù)大于等于 預(yù)設(shè)值,確定所述目標變量的預(yù)估模型。
[0036] 優(yōu)選的,所述根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù)之 后,還包括:
[0037] 對所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù)與目標變量的相關(guān)性關(guān)系進行假設(shè) 性驗證;
[0038] 其中,若驗證成功,執(zhí)行根據(jù)所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù),結(jié)合時間 序列建立所述目標變量的預(yù)估模型。
[0039] 優(yōu)選的,所述對所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù)與目標變量的相關(guān)性關(guān) 系進行假設(shè)性驗證,包括:
[0040] 假設(shè)所述最大相關(guān)性系數(shù)對應(yīng)的性能數(shù)據(jù)與目標變量的兩總體無顯著的相關(guān)性 關(guān)系;
[0041 ]計算所述最大相關(guān)性系數(shù)對應(yīng)的性能數(shù)據(jù)與所述目標變量統(tǒng)計量的對應(yīng)的相伴 概率值;
[0042] 若所述相伴概率值小于或等于設(shè)定的顯著性水平,則拒絕所述假設(shè),驗證成功;
[0043] 否則,接受所述假設(shè),驗證失敗。
[0044] 相對于現(xiàn)有技術(shù),本發(fā)明的有益效果是:本發(fā)明首先獲取主機各樣本性能數(shù)據(jù),其 中,所述各樣本性能數(shù)據(jù)包括:不同渠道交易速率和主機實存和虛存的使用情況等多種影 響主機容量預(yù)估的性能數(shù)據(jù);然后通過周期性7階差置信區(qū)間的方法對主機各性能數(shù)據(jù)即 影響因子的異常數(shù)據(jù)進行刪除,所述刪除異常數(shù)據(jù)的方法能夠結(jié)合實際交易行為,避免容 量預(yù)估受到異常數(shù)據(jù)的影響;再對各影響因子與目標變量進行相關(guān)性分析,根據(jù)與目標變 量具有最大相關(guān)性的性能數(shù)據(jù),結(jié)合時間序列建立所述目標變量的預(yù)估模型。本發(fā)明的技 術(shù)方案充分考慮到各影響因子的影響,充分結(jié)合實際業(yè)務(wù)情況,使得主機容量預(yù)估的準確 性得到提高。
【附圖說明】
[0045] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根據(jù) 提供的附圖獲得其他的附圖。
[0046] 圖1是本發(fā)明實施例公開的一種基于大數(shù)據(jù)的主機性能容量預(yù)估方法的流程圖;
[0047] 圖2是本發(fā)明另一種實施例公開的一種周期性7階差置信區(qū)間的方法流程圖;
[0048] 圖3是本發(fā)明另一種實施例公開的一種基于大數(shù)據(jù)的主機性能容量預(yù)估方法的流 程圖。
【具體實施方式】
[0049] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0050] 本發(fā)明公開了一種基于大數(shù)據(jù)的主機性能容量預(yù)估方法,所述方法,包括:
[0051] 步驟S101、獲取主機各樣本性能數(shù)據(jù),其中,所述各樣本性能數(shù)據(jù)為影響主機容量 預(yù)估的樣本數(shù)據(jù);
[0052] 其中,所述各樣本性能數(shù)據(jù),包括每日聯(lián)機時段交易速率(TPS)、每日聯(lián)機總交易 量、每日聯(lián)機時段虛存平均使用率、每日聯(lián)機時段實存平均使用率、每日聯(lián)機時段磁盤響應(yīng) 時間、每日聯(lián)機時段數(shù)據(jù)庫緩沖池命中平均率、每日聯(lián)機時段數(shù)據(jù)庫中SQL平均執(zhí)行效率 等,其中所述各性能數(shù)據(jù)不僅包括不同渠道交易率性能數(shù)據(jù),還包括主機每日聯(lián)機實存、虛 存、數(shù)據(jù)庫緩沖池等使用率的性能數(shù)據(jù),充分考慮到影響主機容量預(yù)估的各種影響因素,從 而使得主機容量的預(yù)估準確性更高;本實施例中W每日聯(lián)機時段MIPS使用率作為目標變 量,所述各種影響性能數(shù)據(jù)作為影響因子;
[0053] 本實施例中是從建立的大數(shù)據(jù)平臺中獲取主機各樣本性能數(shù)據(jù),首先需要將主機 存儲的各性能數(shù)據(jù)下移到所述大數(shù)據(jù)平臺,運樣避免消耗主機資源來進行數(shù)據(jù)分析;
[0054] 步驟S102、利用周期性7階差置信區(qū)間的方法刪除所述各樣本性能數(shù)據(jù)的異常數(shù) 據(jù),W獲得刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù);
[0055] 其中,由于節(jié)假日、政策因素等社會因素影響(例如雙十一、春節(jié)),所述各樣本性 能數(shù)據(jù)存在很多異常數(shù)據(jù);針對銀行日常的交易行為,其變化趨勢存在周期性規(guī)律,即變化 周期為7天,所述周期性7階差置信區(qū)間的方法就是通過計算所述各樣本性能數(shù)據(jù)中每一天 的性能數(shù)據(jù)對比7天前后的變化差值,得到每一天的性能數(shù)據(jù)對比7天前的變化差值和對比 7天后的變化差值,然后計算所述兩種變化差值的置信區(qū)間,通過置信區(qū)間定位異常變化差 值,再比較同一時間點對應(yīng)的前后7天的異常變化差值,來判斷所述時間點對應(yīng)的性能數(shù)據(jù) 是否為異常數(shù)據(jù),從而達到準確刪除異常性能數(shù)據(jù)的目的。
[0056] 步驟S103、計算所述刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù)與目標變量的相關(guān)性系數(shù);
[0057] 其中,所述計算所述刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù)與目標變量的相關(guān)性系數(shù)是 對所述刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù)與目標變量進行相關(guān)性分析,從而找到對所述目標 變量相關(guān)性最高的性能數(shù)據(jù);
[0058] 所述相關(guān)性分析包括線性相關(guān)性分析和非線性相關(guān)分析,其中,線性相關(guān)性分析 是通過計算所述刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù)與目標變量的線性相關(guān)性系數(shù)r,線性相 關(guān)性系數(shù)較好地度量了性能數(shù)據(jù)與目標變量間的線性相關(guān)程度,相關(guān)系數(shù)r屬于[-l,+ l],r =1完全正相關(guān);r=-l:完全負相關(guān);運兩種情況說明性能數(shù)據(jù)與目標變量間之間存在函 數(shù)關(guān)系;r = 0:無線性關(guān)系;I r I〉0.8:強相關(guān);若不強線性相關(guān),則需要對所述性能數(shù)據(jù)與目 標變量進行非線性相關(guān)分析;
[0059] 所述非線性相關(guān)分析是計算所述刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù)與給定各曲線 方程進行擬合的確定系數(shù)R2,所述R2稱為方程的確定系數(shù),取值范圍在0~1之間,越接近1, 表明方程的變量對y的解釋能力越強。若所述RM、于0.8,認為其不符合最優(yōu)擬合結(jié)果,因此 認為所述目標變量不僅受影響因子的影響且受時間序列影響,故需將時間序列加入影響因 子建立預(yù)估模型。
[0060] 步驟S104、根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù);
[0061 ]其中,所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù)為主機容量預(yù)估相關(guān)性最高的影 響因子;
[0062] 步驟S105、根據(jù)所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù),結(jié)合時間序列建立所 述目標變量的預(yù)估模型。
[0063] 本實施例中,首先從建立的大數(shù)據(jù)平臺中獲取影響主機容量預(yù)估的各樣本性能數(shù) 據(jù),通過周期性7階差置信區(qū)間的方法刪除所述各樣本性能數(shù)據(jù)的異常數(shù)據(jù),達到結(jié)合實際 交易情況,按照日常模式進行預(yù)估主機容量;刪除異常增長點,避免了容量預(yù)估受異常增長 點的影響,從而大大提高預(yù)估的準確性;然后對影響主機容量預(yù)估的各種性能數(shù)據(jù)與所述 目標變量進行相關(guān)性分析,從而找到相關(guān)性最高的性能數(shù)據(jù),最后結(jié)合相關(guān)性最高的性能 數(shù)據(jù)和時間序列建立所述目標變量的預(yù)估模型,相比基于異常增長點簡單的線性性能容量 預(yù)估方法,本發(fā)明結(jié)合實際交易情況和全面的影響因素,通過數(shù)學(xué)模型建立預(yù)估模型的方 案更科學(xué),更準確。
[0064] 優(yōu)選的,另一實施例中,考慮到場景實施例中,由于節(jié)日、政策等社會因素影響,獲 取到的性能數(shù)據(jù)中存在異常點,所述異常點能夠影響主機性能預(yù)測模型構(gòu)建的準確性。因 此,本發(fā)明提出了一種周期性7階差置信區(qū)間的方法刪除所述各樣本性能數(shù)據(jù)的異常數(shù)據(jù), 如圖2所示,所述方法包括:
[0065] 步驟S201、計算所述各樣本性能數(shù)據(jù)中每一天的性能數(shù)據(jù)對比7天前后的變化差 值;
[0066] 其中,通過觀察銀行業(yè)務(wù)交易行為發(fā)現(xiàn),其交易數(shù)據(jù)變化趨勢呈現(xiàn)7天周期性規(guī) 律,比較每一周的同一天的數(shù)據(jù)能夠提高異常點刪除的準確性,因此計算各性能數(shù)據(jù)的對 比7天前的7階差值和對比7天后的7階差值;
[0067] 步驟S202、利用頻率直方圖論證所述變化差值的是否符合正太分布;若符合正太 分布,執(zhí)行步驟S203;
[0068] 其中,所述頻率直方圖的橫坐標為變化差值A(chǔ)的連續(xù)可取數(shù)值,縱坐標為某一變 化差值A(chǔ)的出現(xiàn)頻率;如果所述7階差值A(chǔ)構(gòu)成的頻率直方圖對應(yīng)的期望值為0,標準差為 1,則所述變化差值的符合正太分布;
[0069] 步驟S203、根據(jù)符合正太分布的變化差值的樣本均值和標準差計算所述符合正太 分布的變化差值的置信區(qū)間;
[0070] 其中,設(shè)定置信水平為80%,計算樣本統(tǒng)計量的均值為M和標準差為ST;通過所述 均值和標準差計算所述符合正太分布的變化差值的置信上限和置信下限;
[0071] 步驟S204、根據(jù)所述置信區(qū)間定位所述符合正太分布的異常的變化差值所對應(yīng)的 時間點;
[0072] 其中,所述置信區(qū)間包括對比7天前后兩種變化差值的置信區(qū)間,通過置信區(qū)間分 別定位異常變化差值,再比較同一時間點對應(yīng)的前后7天的異常變化差值,來判斷所述時間 點對應(yīng)的性能數(shù)據(jù)是否為異常數(shù)據(jù);
[0073] 步驟S205、利用百分法驗證所述各樣本性能數(shù)據(jù)對應(yīng)的變化差值的置信區(qū)間;若 驗證成功,執(zhí)行步驟S206;
[0074] 其中,所述百分法包括:
[0075] 對所述符合正太分布的變化差值統(tǒng)計量進行排序;
[0076] 設(shè)定置信水平為80 %,上限值為90,若置信上限為排序后的90 %百分位處,下限值 為10,置信下限為排序后的10%百分位處,則證明利用正太分布規(guī)律計算的置信區(qū)間準確;
[0077] 步驟S206、刪除所述符合正太分布異常的變化差值所對應(yīng)的時間點的各性能數(shù) 據(jù)。
[0078] 通過場景實施例進行說明,W2013年4月13日聯(lián)機時段交易速率(TPS)指標為例, 設(shè)定其對比7天前即2013年4月6日的7階差設(shè)為A 1,其對比7天后即2013年4月20日的7階差 設(shè)為A 2,通過置信區(qū)間定位A I為異常7階差值,則證明2013年4月13日交易速率為異常增 長的毛刺點或2013年4月6日交易速率為異常減少的下降點,進一步觀察2013年4月20日的7 階差值A(chǔ) 2,若其同樣為異常7階差值,則證明2013年4月13日交易速率為異常值,應(yīng)將其篩 除。
[0079] 另一實施例中,公開了一種基于大數(shù)據(jù)的主機性能容量預(yù)估方法,參見圖3,所述 方法,包括:
[0080] 步驟S301、獲取主機各樣本性能數(shù)據(jù);
[0081] 步驟S302、利用周期性7階差置信區(qū)間的方法刪除所述各樣本性能數(shù)據(jù)的異常數(shù) 據(jù),W獲得刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù);
[0082] 步驟S303、計算所述目標變量與所述刪除異常數(shù)據(jù)的各性能數(shù)據(jù)的線性相關(guān)性系 數(shù)。
[0083] 其中,所述線性相關(guān)性系數(shù)r的計算過程是通過SPSS工具自動化完成;
[0084] 步驟S304、判斷所述線性相關(guān)性系數(shù)r中最大線性相關(guān)性系數(shù)rmax的值是否大于等 于預(yù)設(shè)闊值;若所述最大線性相關(guān)性系數(shù)rmax大于等于預(yù)設(shè)闊值,執(zhí)行步驟S305,否則,執(zhí)行 步驟S306;
[0085] 其中,所述預(yù)設(shè)闊值為0.8,若線性相關(guān)性系數(shù)r含0.8,則證明所述rmax對應(yīng)的樣本 性能數(shù)據(jù)與所述目標變量成強線性相關(guān);
[0086] 步驟S305、根據(jù)所述線性相關(guān)性系數(shù)獲取最大線性相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù) 據(jù);
[0087] 步驟S306、計算所述刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù)與給定各曲線方程進行擬合 的確定系數(shù);
[0088] 所述給定曲線方程如下表:
[0089]
[0090] 計算所述刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù)與給定各曲線方程進行擬合時分別計 算其對應(yīng)的確定系數(shù),其中,所述確定系數(shù)R2的計算過程是通過SPSS工具自動化完成;
[0091] 步驟S307、判斷所述確定系數(shù)中最大確定系數(shù)的值是否大于等于預(yù)設(shè)闊值;若所 述最大確定系數(shù)大于等于預(yù)設(shè)闊值,執(zhí)行步驟S308,否則執(zhí)行步驟S309;
[0092] 其中,所述預(yù)設(shè)闊值為0.8,若確定系數(shù)R2^O.8,則證明所述避"對應(yīng)的樣本性能 數(shù)據(jù)與所述目標變量成強非線性相關(guān);
[0093] 步驟S308、根據(jù)所述確定系數(shù)獲得最大確定系數(shù)對應(yīng)的樣本性能數(shù)據(jù);
[0094] 步驟S309、根據(jù)所述線性相關(guān)性系數(shù)和確定系數(shù)中最大系數(shù)獲得所述最大系數(shù)對 應(yīng)的樣本性能數(shù)據(jù);
[00%]步驟S310、對所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù)與目標變量的相關(guān)性關(guān)系 進行假設(shè)性驗證;若驗證成功,執(zhí)行步驟S311;
[0096] 其中,利用小概率反證法思想,驗證所述樣本性能數(shù)據(jù)對于總體性能數(shù)據(jù)是否具 有代表性;若驗證不成功,則重新對所述各樣本性能數(shù)據(jù)與所述目標變量的相關(guān)性進行分 析;
[0097] 步驟S311、根據(jù)所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù),結(jié)合時間序列建立所 述目標變量的預(yù)估模型。
[0098] 本實施例中,首先結(jié)合實際交易行為,刪除各樣本性能數(shù)據(jù)中的異常數(shù)據(jù),從而提 高主機容量預(yù)估的準確性;然后對刪除異常數(shù)據(jù)后的各樣本性能數(shù)據(jù)與所述目標變量進行 相關(guān)性分析,相關(guān)性分析包括線性相關(guān)性分析和非相關(guān)性分析,分析過程從簡單到復(fù)雜,刪 除異常數(shù)據(jù)后的各樣本性能數(shù)據(jù)與所述目標變量存在強線性相關(guān)時,不再對刪除異常數(shù)據(jù) 后的各樣本性能數(shù)據(jù)與所述目標變量的非線性相關(guān)性進行分析,從而降低相關(guān)性分析的復(fù) 雜度;并且在確定所述刪除異常數(shù)據(jù)后的各樣本性能數(shù)據(jù)與所述目標變量的相關(guān)性關(guān)系之 后對所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù)與目標變量的相關(guān)性關(guān)系進行假設(shè)性驗證, 進一步提高相關(guān)性分析的準確性,從而提高主機容量預(yù)估的準確性。
[0099] 優(yōu)選的,在另一實施例中,所述根據(jù)所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù),結(jié) 合時間序列建立所述目標變量的預(yù)估模型,包括:
[0100] 根據(jù)所述性能數(shù)據(jù)中最大相關(guān)性系數(shù)對應(yīng)的性能數(shù)據(jù),結(jié)合時間序列建立所述目 標變量的初始化模型;
[0101] 對所述初始化模型參數(shù)進行調(diào)整,得到新的預(yù)估模型;
[0102] 其中,所述參數(shù)包括模型自回歸項、時間序列平穩(wěn)差分次數(shù)等;
[0103] 計算所述新的預(yù)估模型與目標變量的相關(guān)性系數(shù);
[0104] 若所述相關(guān)性系數(shù)大于等于所述預(yù)設(shè)值,則所述新的預(yù)估模型為所述目標變量的 預(yù)估模型;
[0105] 否則,對所述新的預(yù)估模型的參數(shù)重新進行調(diào)整,直到所述相關(guān)性系數(shù)大于等于 預(yù)設(shè)值,確定所述目標變量的預(yù)估模型。
[0106] 其中,所述目標變量的預(yù)估模型方程如下:W每日聯(lián)機時段交易速率(TPS)作為相 關(guān)性最高的性能數(shù)據(jù),
[0107] 放/掛t =界W'S、,+ /W,I…,,W尸'S、i_- + 十心,II 十…+ :A ^
[0108] 其中,MIPSt為目標變量,表示第t天MIPS使用情況,TPSt為輸入變量,表示第t天TPS 使用情況,MIPSt-功自回歸項即t-n天的MIPS使用情況,AR(i-7)為自回歸項系數(shù),MA(i-7)為移 動平均參數(shù),et-et-7為白噪聲;
[0109] 本實施例中,根據(jù)獲得的最大相關(guān)性系數(shù)對應(yīng)樣本性能數(shù)據(jù)結(jié)合時間序列建立所 述目標變量的預(yù)估模型,并對所述目標變量的預(yù)估模型的預(yù)測結(jié)果進行判斷,即計算所述 新的預(yù)估模型與目標變量的相關(guān)性系數(shù),讓所述相關(guān)性系數(shù)大于等于所述預(yù)設(shè)值0.8,從而 保證最后確定所述目標變量的預(yù)估模型的準確性。
[0110] 優(yōu)選的,在另一實施例中,對所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù)與目標變 量的相關(guān)性關(guān)系進行假設(shè)性驗證,包括:
[0111] 假設(shè)所述最大相關(guān)性系數(shù)對應(yīng)的性能數(shù)據(jù)與目標變量的兩總體無顯著的相關(guān)性 關(guān)系;
[0112] 計算所述最大相關(guān)性系數(shù)對應(yīng)的性能數(shù)據(jù)與所述目標變量的統(tǒng)計量對應(yīng)的相伴 概率值;
[0113] 其中,所述相伴概率值表示樣本數(shù)據(jù)與總體數(shù)據(jù)無線性相關(guān)的概率,為小概率事 件;
[0114] 若所述相伴概率值小于或等于設(shè)定的顯著性水平,則拒絕所述假設(shè),驗證成功;
[0115] 其中,所述顯著性水平是在進行假設(shè)檢驗時實現(xiàn)確定一個可允許的作為判斷界限 的小概率標準,一般認為等于或小于0.05的概率為小概率,在本實施例中中設(shè)定1 %為小概 率柄準;
[0116] 否則,接受所述假設(shè),驗證失敗。
[0117] 本實施例中,利用小概率反證法思想,通過對相伴概率值與顯著性水平的比較,驗 證樣本對于總體是否具有代表性,從而提高相關(guān)性分析的準確性。
[0118] 對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。 對運些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的 一般原理可W在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明 將不會被限制于本文所示的運些實施例,而是要符合與本文所公開的原理和新穎特點相一 致的最寬的范圍。
【主權(quán)項】
1. 一種基于大數(shù)據(jù)的主機性能容量預(yù)估方法,其特征在于,該方法包括: 獲取主機各樣本性能數(shù)據(jù),其中,所述各樣本性能數(shù)據(jù)為影響主機容量預(yù)估的樣本數(shù) 據(jù); 利用周期性7階差置信區(qū)間的方法刪除所述各樣本性能數(shù)據(jù)的異常數(shù)據(jù),以獲得刪除 異常數(shù)據(jù)的各樣本性能數(shù)據(jù); 計算所述刪除異常數(shù)據(jù)的各樣本性能數(shù)據(jù)與目標變量的相關(guān)性系數(shù); 根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù); 根據(jù)所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù),結(jié)合時間序列建立所述目標變量的預(yù) 估模型。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,利用周期性7階差置信區(qū)間的方法刪除所 述各樣本性能數(shù)據(jù)的異常數(shù)據(jù),以獲得刪除異常數(shù)據(jù)的各性能樣本數(shù)據(jù),包括: 計算所述各樣本性能數(shù)據(jù)中每一天的性能數(shù)據(jù)對比7天前后的變化差值; 利用頻率直方圖論證所述變化差值是否符合正太分布; 若各樣本性能數(shù)據(jù)中存在對應(yīng)的變化差值符合正太分布的樣本性能數(shù)據(jù),根據(jù)符合正 太分布的變化差值的樣本均值和標準差計算所述符合正太分布的變化差值的置信區(qū)間; 根據(jù)所述置信區(qū)間定位所述符合正太分布的異常的變化差值所對應(yīng)的時間點; 刪除所述符合正太分布異常的變化差值所對應(yīng)的時間點的各性能數(shù)據(jù)。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述置信區(qū)間定位所述符合正太 分布的異常的變化差值所對應(yīng)的時間點之后,還包括: 利用百分法驗證所述各性能數(shù)據(jù)對應(yīng)的變化差值的置信區(qū)間; 其中,若驗證成功,執(zhí)行刪除所述符合正太分布異常的變化差值所對應(yīng)的時間點的各 性能數(shù)據(jù)。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算所述刪除異常數(shù)據(jù)的各樣本性能 數(shù)據(jù)與目標變量的相關(guān)性系數(shù),包括: 計算所述目標變量與所述刪除異常數(shù)據(jù)的各性能數(shù)據(jù)的線性相關(guān)性系數(shù); 判斷所述線性相關(guān)性系數(shù)中最大線性相關(guān)性系數(shù)的值是否大于等于預(yù)設(shè)閾值; 若所述最大線性相關(guān)性系數(shù)的值大于等于預(yù)設(shè)閾值,獲取所述最大線性相關(guān)性系數(shù)對 應(yīng)的樣本性能數(shù)據(jù);其中,所述根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性系數(shù)對應(yīng)的樣本性能 數(shù)據(jù)為根據(jù)所述線性相關(guān)性系數(shù)獲取最大線性相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù); 若所述最大線性相關(guān)性系數(shù)的值小于預(yù)設(shè)閾值,計算所述刪除異常數(shù)據(jù)的各樣本性能 數(shù)據(jù)與給定各曲線方程進行擬合的確定系數(shù); 判斷所述確定系數(shù)中最大確定系數(shù)的值是否大于等于預(yù)設(shè)閾值; 若所述最大確定系數(shù)大于等于預(yù)設(shè)閾值,獲取所述最大確定系數(shù)對應(yīng)的樣本性能數(shù) 據(jù);其中,所述根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù)為根據(jù)所述 確定系數(shù)獲得最大確定系數(shù)對應(yīng)的樣本性能數(shù)據(jù)。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性 系數(shù)對應(yīng)的樣本性能數(shù)據(jù),包括: 若所述最大確定系數(shù)小于預(yù)設(shè)閾值,根據(jù)所述線性相關(guān)性系數(shù)和確定系數(shù)中最大系數(shù) 獲得所述最大系數(shù)對應(yīng)的樣本性能數(shù)據(jù)。6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述最大相關(guān)性系數(shù)對應(yīng)的樣本 性能數(shù)據(jù),結(jié)合時間序列建立所述目標變量的預(yù)估模型,包括: 根據(jù)所述性能數(shù)據(jù)中最大相關(guān)性系數(shù)對應(yīng)的性能數(shù)據(jù),結(jié)合時間序列建立所述目標變 量的初始化模型; 對所述初始化模型模型參數(shù)進行調(diào)整,得到新的預(yù)估模型; 計算所述新的預(yù)估模型的相關(guān)性系數(shù); 若所述相關(guān)性系數(shù)大于等于所述預(yù)設(shè)值,則所述新的預(yù)估模型為所述目標變量的預(yù)估 豐旲型; 否則,對所述新的預(yù)估模型的參數(shù)重新進行調(diào)整,直到所述相關(guān)性系數(shù)大于等于預(yù)設(shè) 值,確定所述目標變量的預(yù)估模型。7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述相關(guān)性系數(shù)獲取最大相關(guān)性 系數(shù)對應(yīng)的樣本性能數(shù)據(jù)之后,還包括: 對所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能數(shù)據(jù)與目標變量的相關(guān)性關(guān)系進行假設(shè)性驗 證; 其中,若驗證成功,則證明根據(jù)樣本計算得出的所述最大相關(guān)性系數(shù)對應(yīng)的樣本性能 數(shù)據(jù)與目標變量的相關(guān)性關(guān)系符合總體變化規(guī)律,執(zhí)行根據(jù)所述最大相關(guān)性系數(shù)對應(yīng)的樣 本性能數(shù)據(jù),結(jié)合時間序列建立所述目標變量的預(yù)估模型。8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述對所述最大相關(guān)性系數(shù)對應(yīng)的樣本性 能數(shù)據(jù)與目標變量的相關(guān)性關(guān)系進行假設(shè)性驗證,包括: 假設(shè)所述最大相關(guān)性系數(shù)對應(yīng)的性能數(shù)據(jù)與目標變量的兩總體無顯著的相關(guān)性關(guān)系; 計算所述最大相關(guān)性系數(shù)對應(yīng)的性能數(shù)據(jù)與所述目標變量統(tǒng)計量的對應(yīng)的相伴概率 值; 若所述相伴概率值小于或等于設(shè)定的顯著性水平,則拒絕所述假設(shè),驗證成功; 否則,接受所述假設(shè),驗證失敗。
【文檔編號】G06F11/34GK106021082SQ201610318916
【公開日】2016年10月12日
【申請日】2016年5月13日
【發(fā)明人】莊磊, 騰騰, 張宏亮, 于鵬, 孫哲
【申請人】中國建設(shè)銀行股份有限公司