本發(fā)明涉及大數(shù)據(jù)處理,更具體地說,本發(fā)明涉及一種云端ai驅動的大數(shù)據(jù)處理系統(tǒng)。
背景技術:
1、云端ai驅動的大數(shù)據(jù)處理系統(tǒng)是一個集成了人工智能技術和云計算能力的數(shù)據(jù)處理架構,旨在高效地處理、分析和挖掘海量數(shù)據(jù)。這種系統(tǒng)通過利用云端強大的計算資源、存儲能力以及ai算法的智能性,實現(xiàn)了對數(shù)據(jù)的高效管理?,F(xiàn)有的大數(shù)據(jù)處理系統(tǒng)通常集成了多種技術,包括分布式存儲、并行計算框架、數(shù)據(jù)處理與分析工具等,以支持對海量數(shù)據(jù)的處理。
2、現(xiàn)有的大數(shù)據(jù)處理系統(tǒng),存在的問題有,不能夠及時發(fā)現(xiàn)云服務中的性能瓶頸,導致服務的穩(wěn)定性和響應速度低于預期,從而影響用戶體驗;現(xiàn)有技術中無法準確預測存儲消耗時長,無法有效監(jiān)管云存儲服務過程,導致云存儲服務可靠性異常。
技術實現(xiàn)思路
1、為了克服現(xiàn)有技術的上述缺陷,本發(fā)明提供一種云端ai驅動的大數(shù)據(jù)處理系統(tǒng),以解決上述背景技術中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:一種云端ai驅動的大數(shù)據(jù)處理系統(tǒng),包括:
3、場景劃分模塊,用于將云端任務按照使用場景劃分為云端數(shù)據(jù)存儲任務、云端數(shù)據(jù)訪問任務和云端算力服務任務;
4、數(shù)據(jù)采集模塊,用于采集得到云端服務器的任務完成相關數(shù)據(jù),所述任務完成相關數(shù)據(jù)至少包括:實際存儲消耗時長、實際訪問消耗時長和實際算力服務完成時間;
5、數(shù)據(jù)存儲服務分析模塊,分析待存儲數(shù)據(jù)存儲在云端數(shù)據(jù)庫節(jié)點的過程數(shù)據(jù),得到預測存儲消耗時長;分析實際存儲消耗時長和預測存儲消耗時長,輸出存儲時間偏離度pyc,將獲取的存儲時間偏離度傳輸至判斷預警模塊;
6、訪問服務數(shù)據(jù)分析模塊,分析用戶訪問云端數(shù)據(jù)庫的過程數(shù)據(jù),得到預測訪問消耗時長;分析實際訪問消耗時長和預測訪問消耗時長,輸出訪問時間偏離度pyf,將獲取的訪問時間偏離度傳輸至判斷預警模塊;
7、算力服務分析模塊,將算力服務的過程數(shù)據(jù)輸入算力任務預測模型,輸出預測算力服務完成時間;分析預測算力服務完成時間和實際算力服務完成時間,輸出算力時間偏離度pys;將獲取的算力時間偏離度傳輸至判斷預警模塊;
8、判斷預警模塊,分別判斷存儲時間偏離度、訪問時間偏離度和算力時間偏離度和對應閾值的關系,基于判斷結果采取措施。
9、優(yōu)選的,所述預測存儲消耗時長的獲取方式為:生成待存儲數(shù)據(jù)的若干副本數(shù)據(jù)塊,以數(shù)據(jù)丟失概率pds,訪問速度fv和存儲成本fc為約束,求解得到待存儲數(shù)據(jù)對應的存儲分布位置矩陣,從存儲分布位置矩陣中找到每個副本數(shù)據(jù)塊的目標存儲位置;基于每個副本數(shù)據(jù)塊與對應目標存儲位置的距離和網(wǎng)絡傳輸速度,計算每個副本數(shù)據(jù)塊抵達存儲分布位置矩陣的預測存儲消耗時長。
10、優(yōu)選的,所述預測存儲消耗時長的獲取過程包括下列內(nèi)容:
11、設每個待存儲數(shù)據(jù)庫有p個副本數(shù)據(jù)塊,用q表示副本數(shù)據(jù)塊的編號;
12、將第q個副本數(shù)據(jù)塊的大小記為sq;
13、從存儲分布位置矩陣中找到第q個副本數(shù)據(jù)塊的目標存儲位置為lq,第q個副本數(shù)據(jù)塊抵達對應目標存儲位置的網(wǎng)絡傳輸速度為vq;
14、通過公式計算得到預測存儲消耗時長yct_q;其中,jf表示存儲節(jié)點負載影響系數(shù):存儲節(jié)點的實時負載會影響實際存儲時間,因為高負載可能導致處理速度下降;δtq表示傳輸距離影響常數(shù)。
15、優(yōu)選的,所述存儲分布位置矩陣的獲取過程包括下列步驟:
16、步驟s11、確定約束條件為:數(shù)據(jù)丟失概率pds,訪問速度fv和存儲成本fc;
17、步驟s12、預處理:對訪問速度進行歸一化,記為訪問速度度量參數(shù)nor_fv;獲取存儲成本的最大值和最小值,經(jīng)過線性歸一化處理后得到存儲成本度量參數(shù)nor_fc;
18、步驟s13、綜合考慮數(shù)據(jù)丟失概率、訪問速度度量參數(shù)和存儲成本度量參數(shù),構建云存儲目標函數(shù)qi;
19、步驟s14、隨機生成存儲分布位置矩陣的候選解;通過整數(shù)編碼來表示數(shù)據(jù)副本存儲的位置;
20、步驟s15、將云存儲目標函數(shù)的值作為適應度值,計算每個候選解的適應度值;
21、步驟s16、遺傳操作:基于候選解作出遺傳操作,輸出新一代候選解;遺傳操作包括:選擇、交叉和變異操作;
22、步驟s17、重復步驟s15和步驟s16,直到達到預設的迭代次數(shù)或適應度值收斂;終止后,選擇適應度最高的候選解作為最優(yōu)解,即存儲分布位置矩陣,將存儲分布位置矩陣存儲在數(shù)據(jù)庫中。
23、優(yōu)選的,所述訪問時間偏離度的獲取方式為:基于訪問請求從數(shù)據(jù)庫中選擇距離最小的副本數(shù)據(jù)塊作為最近副本,定位距離最近的副本數(shù)據(jù)塊;獲取最近副本和數(shù)據(jù)請求位置的傳輸距離;基于實時網(wǎng)絡速度和副本數(shù)據(jù)塊大小,以及傳輸距離,計算得到預測訪問消耗時長;通過監(jiān)控實時測量,得到實際訪問消耗時長;基于實際訪問消耗時長和預測訪問消耗時長的差值,構建得到訪問時間偏離度。
24、優(yōu)選的,基于機器學習算法搭建算力服務完成時間的算力任務預測模型,將算力服務的請求數(shù)據(jù)輸入算力任務預測模型,輸出預測算力服務完成時間,所述算力任務預測模型的搭建過程包括下列步驟:
25、步驟s21、收集算力服務的請求數(shù)據(jù),包括但不限于請求的類型、大小、復雜度、優(yōu)先級;基于歷史數(shù)據(jù)預測執(zhí)行算力服務請求所需的算力資源;
26、步驟s22、從算力服務的請求數(shù)據(jù)和所需算力資源中選取對預測完成時間有顯著影響的特征;
27、步驟s23、初始化神經(jīng)網(wǎng)絡模型參數(shù)作為算力任務預測模型的初始模型,將算力服務的請求數(shù)據(jù)輸入算力任務預測模型,輸出預測算力服務完成時間,使用歷史數(shù)據(jù)對選定的機器學習算法進行訓練,通過調(diào)整參數(shù)來優(yōu)化神經(jīng)網(wǎng)絡模型在訓練集上的表現(xiàn);使用測試集來評估神經(jīng)網(wǎng)絡模型性能;
28、步驟s24、模型優(yōu)化與部署:根據(jù)評估結果對算力任務預測模型進行優(yōu)化,包括調(diào)整神經(jīng)網(wǎng)絡參數(shù)、調(diào)整特征權重;輸出訓練好的算力任務預測模型;將訓練好的算力任務預測模型部署到環(huán)境中,以便對新的算力服務請求進行實時預測。
29、優(yōu)選的,所述大數(shù)據(jù)處理系統(tǒng)還包括:
30、大數(shù)據(jù)云服務綜合管理模塊,接收得到存儲時間偏離度、訪問時間偏離度和算力偏離度;聯(lián)合分析得到云端服務價值系數(shù),基于云端服務價值系數(shù)采取措施;為存儲時間偏離度、訪問時間偏離度和算力偏離度匹配權重系數(shù),分別記為wqa,wqb,wqc;通過公式計算得到云端服務價值系數(shù)yf,其中form(·)表示線性歸一化函數(shù),用于將括號中數(shù)值的取值范圍限定在0至1的范圍內(nèi)。
31、優(yōu)選的,用數(shù)據(jù)存儲質量評估指數(shù)ya表示存儲時間偏離度;用數(shù)據(jù)存儲質量評估指數(shù)ya表示存儲時間偏離度;所述數(shù)據(jù)存儲質量評估指數(shù)ya的獲取方式為:
32、設將s組待存儲數(shù)據(jù)庫存儲在云端數(shù)據(jù)庫中,用k表示待存儲數(shù)據(jù)庫的順序編號;
33、設每個待存儲數(shù)據(jù)庫有p個副本數(shù)據(jù)塊,用q表示副本數(shù)據(jù)塊的編號;
34、將第q個副本數(shù)據(jù)塊的預測存儲消耗時長記為yct_q,將第q個副本數(shù)據(jù)塊的實際存儲消耗時長記為sct_q,通過公式計算得到數(shù)據(jù)存儲質量評估指數(shù)。
35、優(yōu)選的,用數(shù)據(jù)訪問質量評估指數(shù)yb表示訪問時間偏離度,獲取訪問的響應時間閾值記為tth;
36、設進行了r次數(shù)據(jù)訪問,用t表示數(shù)據(jù)訪問的順序編號;
37、將第t次數(shù)據(jù)訪問的預測訪問時長記為y_t,將第t次數(shù)據(jù)訪問的實際訪問時長記為y"_t;
38、通過如下公式計算得到數(shù)據(jù)訪問質量評估指數(shù)yb
39、,其中,α、β表示權重因子,用于調(diào)整時間差異和異常訪問的權重;1[tq′>tth]表示指示函數(shù),當y_t>tth時為1,否則為0;nod_t是第t次數(shù)據(jù)訪問對應節(jié)點的負載,是一個介于0和1之間的值,用于表示節(jié)點的繁忙程度。
40、本發(fā)明的技術效果和優(yōu)點:
41、1、本發(fā)明提供的云端ai驅動的大數(shù)據(jù)處理系統(tǒng),通過將云端任務劃分為數(shù)據(jù)存儲、數(shù)據(jù)訪問和算力服務三種使用場景,能夠更準確地識別和處理不同類型的任務,從而優(yōu)化資源配置和性能管理;數(shù)據(jù)存儲服務分析模塊、訪問服務數(shù)據(jù)分析模塊和算力服務分析模塊分別針對不同類型的任務進行性能分析,預測任務完成時間,并計算實際與預測之間的偏離度,這種智能分析有助于及時發(fā)現(xiàn)性能瓶頸和異常;判斷預警模塊根據(jù)偏離度與閾值的關系,及時觸發(fā)預警并采取相應的措施,這有助于快速響應性能問題,減少服務中斷時間,提高用戶體驗。
42、2、本發(fā)明提供的云端ai驅動的大數(shù)據(jù)處理系統(tǒng),通過生成多個副本數(shù)據(jù)塊并優(yōu)化它們的存儲位置,降低數(shù)據(jù)丟失的風險,通過優(yōu)化存儲分布位置矩陣,使得用戶能夠更快地訪問到所需數(shù)據(jù),提高了整體系統(tǒng)的訪問性能;通過智能的存儲布局,避免了不必要的資源浪費,實現(xiàn)了成本效益的最大化;基于每個副本數(shù)據(jù)塊與對應目標存儲位置的距離和網(wǎng)絡傳輸速度,計算預測存儲消耗時長,為系統(tǒng)提供了智能的預測能力,這種預測能力有助于系統(tǒng)做出更合理的決策,解決了現(xiàn)有技術中無法準確預測存儲消耗時長,導致監(jiān)管不夠智能的問題。