国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種針對結(jié)構(gòu)化數(shù)據(jù)的智能化特征探索系統(tǒng)及方法與流程

      文檔序號:40336475發(fā)布日期:2024-12-18 13:13閱讀:5來源:國知局
      一種針對結(jié)構(gòu)化數(shù)據(jù)的智能化特征探索系統(tǒng)及方法與流程

      本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種針對結(jié)構(gòu)化數(shù)據(jù)的智能化特征探索系統(tǒng)及方法。


      背景技術(shù):

      1、在機器學(xué)習(xí)領(lǐng)域,特別是在處理結(jié)構(gòu)化數(shù)據(jù)時,數(shù)據(jù)預(yù)處理和特征工程至關(guān)重要。然而,這個過程通常面臨著諸多挑戰(zhàn)。首先,用戶上傳的原始數(shù)據(jù)集往往無法直接滿足特定的分析需求,需要經(jīng)過一系列復(fù)雜的處理步驟,包括數(shù)據(jù)清洗、轉(zhuǎn)換、特征工程以及合成數(shù)據(jù)生成等。其次,面對復(fù)雜的結(jié)構(gòu)化數(shù)據(jù),ai數(shù)據(jù)工程師通常難以直觀地判斷哪些是有效特征,需要嘗試大量不同類型的數(shù)據(jù)特征處理算法,并評估每種方法的有效性,以確定最終用于深度學(xué)習(xí)的特征集。

      2、中國專利申請?zhí)枮閏n112579582a的專利文獻公開了一種數(shù)據(jù)分析引擎的數(shù)據(jù)探索方法及系統(tǒng),其方法包括,采集外部大數(shù)據(jù)并對外部大數(shù)據(jù)進行清理和結(jié)構(gòu)化處理,得到結(jié)構(gòu)化數(shù)據(jù)集;對結(jié)構(gòu)化數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)進行特征化,得到每個結(jié)構(gòu)化數(shù)據(jù)的特征值,并形成特征值集合;基于深度學(xué)習(xí)數(shù)據(jù)模型對特征值集合進行數(shù)據(jù)探索,得到數(shù)據(jù)探索結(jié)果。

      3、現(xiàn)有技術(shù)中需要編寫和管理大量基于特征算法的處理程序,針對不同數(shù)據(jù)集或同一數(shù)據(jù)集中的不同特征,頻繁調(diào)整程序參數(shù),花費大量時間修改已有算法的輸入?yún)?shù),使得數(shù)據(jù)特征探索過程的效率降低。


      技術(shù)實現(xiàn)思路

      1、為此,本發(fā)明提供一種針對結(jié)構(gòu)化數(shù)據(jù)的智能化特征探索系統(tǒng)及方法,可以解決特征探索效率低的問題。

      2、為實現(xiàn)上述目的,本發(fā)明提供一種針對結(jié)構(gòu)化數(shù)據(jù)的智能化特征探索系統(tǒng),該系統(tǒng)包括:

      3、預(yù)處理模塊,用以獲取用戶上傳的初始數(shù)據(jù)集,對初始數(shù)據(jù)集進行預(yù)處理,得到結(jié)構(gòu)化數(shù)據(jù)集;

      4、特征獲取模塊,與所述預(yù)處理模塊連接,用以分析所述結(jié)構(gòu)化數(shù)據(jù)集,以根據(jù)分析結(jié)果獲取結(jié)構(gòu)化數(shù)據(jù)集的結(jié)構(gòu)特征和類型特征;

      5、算法確定模塊,與所述特征獲取模塊連接,用以基于所述數(shù)據(jù)結(jié)構(gòu)特征與所述數(shù)據(jù)類型特征計算實際評價值,基于實際評價值與預(yù)設(shè)的若干算法單元中預(yù)設(shè)評價值進行比較,根據(jù)比較結(jié)果確定執(zhí)行算法單元;

      6、生成模塊,與所述算法確定模塊連接,用以根據(jù)所述執(zhí)行算法單元的預(yù)設(shè)運行規(guī)則生成初始執(zhí)行工作流;

      7、分配模塊,與所述生成模塊連接,用以將所述初始執(zhí)行工作流劃分為若干子任務(wù),計算若干子任務(wù)對應(yīng)的任務(wù)復(fù)雜度,基于任務(wù)復(fù)雜度分配若干處理節(jié)點,實時監(jiān)測處理節(jié)點對應(yīng)的實時負載情況,基于實時負載情況對各個處理節(jié)點進行算力分配,得到算力分配結(jié)果;

      8、監(jiān)測模塊,與所述分配模塊連接,用以通過各個處理節(jié)點執(zhí)行所述算力分配結(jié)果,實時監(jiān)控各個處理節(jié)點的運行狀態(tài),收集運行數(shù)據(jù),基于運行數(shù)據(jù)計算所述初始執(zhí)行工作流的實際健康評分;

      9、調(diào)整模塊,與所述監(jiān)測模塊連接,用以將所述實際健康評分與預(yù)設(shè)健康評分進行比較,獲取比較結(jié)果,基于比較結(jié)果對所述初始執(zhí)行工作流進行調(diào)整,得到目標執(zhí)行工作流。

      10、進一步地,所述預(yù)處理模塊包括:

      11、完整性檢測單元,用以檢測所述初始數(shù)據(jù)集的完整性,得到完整性檢測結(jié)果;

      12、正確性檢測單元,用以檢測所述初始數(shù)據(jù)集的正確性,得到正確性檢測結(jié)果;

      13、校準單元,用以根據(jù)所述完整性檢測結(jié)果和所述正確性檢測結(jié)果對所述初始數(shù)據(jù)集進行校準,得到校準數(shù)據(jù)集;

      14、處理單元,與所述校準單元連接,用以對所述校準數(shù)據(jù)集進行結(jié)構(gòu)化處理,獲取所述結(jié)構(gòu)化數(shù)據(jù)集。

      15、進一步地,所述特征獲取模塊包括:

      16、類型確定單元,用以識別所述結(jié)構(gòu)化數(shù)據(jù)集中若干字段的字段類型,基于若干字段類型確定所述類型特征;

      17、識別單元,用以識別所述結(jié)構(gòu)化數(shù)據(jù)集的數(shù)據(jù)分布特征和數(shù)據(jù)關(guān)系特征;

      18、結(jié)構(gòu)確定單元,與所述識別單元連接,用以基于所述數(shù)據(jù)分布特征和所述數(shù)據(jù)關(guān)系特征確定所述結(jié)構(gòu)特征。

      19、進一步地,所述識別單元包括:

      20、計算子單元,用以計算所述結(jié)構(gòu)化數(shù)據(jù)集中各個字段對應(yīng)的均值、中位數(shù)、標準差、偏度和峰度;

      21、分布確定子單元,與所述計算子單元連接,用以基于所述均值、所述中位數(shù)、所述標準差、所述偏度和所述峰度確定所述數(shù)據(jù)分布特征;

      22、相關(guān)確定子單元,用以基于相關(guān)性分析算法計算所述結(jié)構(gòu)化數(shù)據(jù)集中各個字段對應(yīng)的實際相關(guān)系數(shù),基于若干實際相關(guān)系數(shù)確定所述數(shù)據(jù)關(guān)系特征。

      23、進一步地,所述算法確定模塊包括:

      24、第一計算單元,用以根據(jù)所述均值、所述中位數(shù)、所述標準差、所述偏度和所述峰度計算實際結(jié)構(gòu)評價值;

      25、第二計算單元,用以根據(jù)若干所述實際相關(guān)系數(shù)確定實際相關(guān)系數(shù)評價值;

      26、第三計算單元,與所述第一計算單元和所述第二計算單元連接,用以計算所述實際結(jié)構(gòu)評價值與預(yù)設(shè)結(jié)構(gòu)評價值的第一差值,計算所述實際相關(guān)系數(shù)評價值與預(yù)設(shè)相關(guān)系數(shù)評價值的第二差值,基于第一差值和第二差值的計算結(jié)果確定對應(yīng)的執(zhí)行算法單元。

      27、進一步地,所述生成模塊包括:

      28、第一確定單元,用以確定所述執(zhí)行算法單元中各個執(zhí)行單元的預(yù)設(shè)執(zhí)行順序和預(yù)設(shè)依賴關(guān)系;

      29、生成單元,與所述第一確定單元連接,用以根據(jù)所述預(yù)設(shè)執(zhí)行順序和所述預(yù)設(shè)依賴關(guān)系生成初始執(zhí)行工作流。

      30、進一步地,所述分配模塊包括:

      31、劃分單元,用以根據(jù)所述初始執(zhí)行工作流的若干工作節(jié)點進行劃分,獲取若干子任務(wù);

      32、復(fù)雜度計算單元,用以確定所述子任務(wù)的實際數(shù)據(jù)量和實際數(shù)據(jù)類型,基于實際數(shù)據(jù)量和實際數(shù)據(jù)類型與歷史執(zhí)行數(shù)據(jù)庫進行比對,獲取歷史平均處理時間和歷史資源消耗量,基于歷史平均處理時間和歷史資源消耗量確定所述任務(wù)復(fù)雜度;

      33、節(jié)點分配單元,與所述復(fù)雜度計算單元連接,用以根據(jù)所述任務(wù)復(fù)雜度將所述子任務(wù)分配給相應(yīng)的處理節(jié)點;

      34、算力分配單元,與所述節(jié)點分配單元連接,用以實時檢測所述處理節(jié)點的實時負載情況,基于實時負載情況對各個處理節(jié)點進行算力分配,得到算力分配結(jié)果。

      35、進一步地,所述監(jiān)測模塊包括:

      36、任務(wù)狀態(tài)監(jiān)測單元,用以基于狀態(tài)監(jiān)控器對各個處理節(jié)點上任務(wù)的運行狀態(tài);

      37、運行監(jiān)測單元,用以實時監(jiān)測任務(wù)運行過程中性能參數(shù),其中,所述性能參數(shù)包括平均響應(yīng)時間和資源利用率;

      38、評分計算單元,用以基于所述運行狀態(tài)確定任務(wù)完成率,基于任務(wù)完成率、平均響應(yīng)時間和資源利用率計算實際健康評分。

      39、進一步地,所述調(diào)整模塊包括:

      40、比較單元,用以將所述實際健康評分與所述預(yù)設(shè)健康評分進行比較,獲取比較結(jié)果;

      41、分類單元,用以當所述實際健康評分小于所述預(yù)設(shè)健康評分時,確定所述初始執(zhí)行工作流失敗,分析若干處理節(jié)點對應(yīng)的錯誤日志和資源使用情況,根據(jù)分析結(jié)果將初始執(zhí)行工作流失敗劃分為臨時性失敗和永久性失?。?/p>

      42、調(diào)整單元,與所述分類單元連接,用以根據(jù)所述初始執(zhí)行工作流的失敗類別制定處理策略,基于處理策略對初始執(zhí)行工作流進行調(diào)整,獲取目標工作流。

      43、另一方面,本發(fā)明還提供一種基于針對結(jié)構(gòu)化數(shù)據(jù)的智能化特征探索系統(tǒng)的方法,該方法包括:

      44、獲取用戶上傳的初始數(shù)據(jù)集,對初始數(shù)據(jù)集進行預(yù)處理,得到結(jié)構(gòu)化數(shù)據(jù)集;

      45、分析所述結(jié)構(gòu)化數(shù)據(jù)集,以根據(jù)分析結(jié)果獲取結(jié)構(gòu)化數(shù)據(jù)集的結(jié)構(gòu)特征和類型特征;

      46、基于所述數(shù)據(jù)結(jié)構(gòu)特征與所述數(shù)據(jù)類型特征計算實際評價值,基于實際評價值與預(yù)設(shè)的若干算法單元中預(yù)設(shè)評價值進行比較,根據(jù)比較結(jié)果確定執(zhí)行算法單元;

      47、根據(jù)所述執(zhí)行算法單元的預(yù)設(shè)運行規(guī)則生成初始執(zhí)行工作流;

      48、將所述初始執(zhí)行工作流劃分為若干子任務(wù),計算若干子任務(wù)對應(yīng)的任務(wù)復(fù)雜度,基于任務(wù)復(fù)雜度分配若干處理節(jié)點,實時監(jiān)測處理節(jié)點對應(yīng)的實時負載情況,基于實時負載情況對各個處理節(jié)點進行算力分配,得到算力分配結(jié)果;

      49、通過各個處理節(jié)點執(zhí)行所述算力分配結(jié)果,實時監(jiān)控各個處理節(jié)點的運行狀態(tài),收集運行數(shù)據(jù),基于運行數(shù)據(jù)計算所述初始執(zhí)行工作流的實際健康評分;

      50、將所述實際健康評分與預(yù)設(shè)健康評分進行比較,獲取比較結(jié)果,基于比較結(jié)果對所述初始執(zhí)行工作流進行調(diào)整,得到目標執(zhí)行工作流。

      51、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于,通過設(shè)置所述預(yù)處理模塊通過對用戶上傳的初始數(shù)據(jù)集進行預(yù)處理,確保數(shù)據(jù)的格式統(tǒng)一、完整性和清潔性,為后續(xù)的數(shù)據(jù)分析奠定堅實基礎(chǔ),有助于提高后續(xù)處理步驟的效率和準確性,通過設(shè)置所述特征獲取模塊分析預(yù)處理后的結(jié)構(gòu)化數(shù)據(jù)集,提取出關(guān)鍵的結(jié)構(gòu)特征和類型特征,為后續(xù)算法的選擇和定制提供了重要依據(jù),有助于更精準地識別數(shù)據(jù)中的模式和信息,從而增強數(shù)據(jù)探索的針對性和有效性,通過設(shè)置所述算法確定模塊計算實際評價值與預(yù)設(shè)算法單元中的預(yù)設(shè)評價值進行比較,智能選擇最適合當前數(shù)據(jù)特征和需求的算法單元,提高了數(shù)據(jù)處理的靈活性和效率,確保了算法應(yīng)用的準確性和高效性,通過設(shè)置所述生成模塊根據(jù)選定的算法單元預(yù)設(shè)運行規(guī)則,自動生成初始執(zhí)行工作流,簡化了操作流程,還確保了工作流的一致性和可重復(fù)性,為后續(xù)的任務(wù)分配和執(zhí)行提供了清晰的指導(dǎo),通過設(shè)置所述分配模塊劃分子任務(wù)、計算任務(wù)復(fù)雜度并基于實時負載情況進行算力分配,實現(xiàn)了計算資源的動態(tài)優(yōu)化,確保各處理節(jié)點在高負載時仍能保持高效運行,避免了資源的浪費和瓶頸的出現(xiàn),顯著提高了系統(tǒng)的整體性能和穩(wěn)定性,通過設(shè)置所述監(jiān)測模塊實時監(jiān)控各處理節(jié)點的運行狀態(tài)和收集運行數(shù)據(jù),能夠及時發(fā)現(xiàn)并處理潛在的問題,基于運行數(shù)據(jù)計算的實際健康評分,為系統(tǒng)健康狀態(tài)的評估和調(diào)整提供了科學(xué)依據(jù),確保了系統(tǒng)的高效、穩(wěn)定運行,通過設(shè)置所述調(diào)整模塊將實際健康評分與預(yù)設(shè)健康評分進行比較,并根據(jù)比較結(jié)果對初始執(zhí)行工作流進行調(diào)整,得到更優(yōu)化的目標執(zhí)行工作流,能夠不斷優(yōu)化工作流的設(shè)計和執(zhí)行,提升數(shù)據(jù)處理的質(zhì)量和效率。

      52、尤其,通過設(shè)置所述完整性檢測單元檢測初始數(shù)據(jù)集的完整性,確保數(shù)據(jù)沒有缺失或遺漏,為后續(xù)的數(shù)據(jù)處理提供必要的準備,避免在后續(xù)步驟中因數(shù)據(jù)不完整而導(dǎo)致的錯誤或偏差,通過設(shè)置所述正確性檢測單元驗證初始數(shù)據(jù)集中的數(shù)據(jù)是否符合預(yù)期的格式、范圍和邏輯規(guī)則,有助于識別數(shù)據(jù)中的異常值、錯誤格式或不符合業(yè)務(wù)邏輯的數(shù)據(jù)項,確保數(shù)據(jù)的準確性和可靠性,為后續(xù)的數(shù)據(jù)分析和特征提取提供準確的數(shù)據(jù)基礎(chǔ),通過設(shè)置所述校準單元根據(jù)完整性檢測結(jié)果和正確性檢測結(jié)果對初始數(shù)據(jù)集進行校準,包括填補缺失值、糾正錯誤數(shù)據(jù)、調(diào)整異常值等措施,以確保數(shù)據(jù)集的一致性和準確性,為后續(xù)的數(shù)據(jù)分析和模型訓(xùn)練提供了準確的數(shù)據(jù)源,通過設(shè)置所述處理單元對校準后的數(shù)據(jù)集進行結(jié)構(gòu)化處理,將其轉(zhuǎn)換為適合后續(xù)分析的結(jié)構(gòu)化數(shù)據(jù)集,將數(shù)據(jù)整理成統(tǒng)一的格式和結(jié)構(gòu),便于后續(xù)的特征提取和算法應(yīng)用,提高了數(shù)據(jù)的可用性和可訪問性,提高了后續(xù)的數(shù)據(jù)探索和分析的效率。

      53、尤其,通過設(shè)置所述類型確定單元識別結(jié)構(gòu)化數(shù)據(jù)集中各個字段的字段類型,并基于這些字段類型確定類型特征,為后續(xù)數(shù)據(jù)處理和分析時選取算法提供基礎(chǔ),有助于提高數(shù)據(jù)處理的效率和準確性,通過設(shè)置所述識別單元通過識別數(shù)據(jù)分布特征和數(shù)據(jù)關(guān)系特征,為后續(xù)的數(shù)據(jù)分析和模型建立提供了重要的依據(jù),通過設(shè)置所述結(jié)構(gòu)確定單元基于數(shù)據(jù)分布特征和數(shù)據(jù)關(guān)系特征,進一步確定結(jié)構(gòu)化數(shù)據(jù)集的結(jié)構(gòu)特征為后續(xù)的數(shù)據(jù)處理和特征工程提供了基礎(chǔ),有助于設(shè)計出更加高效和準確的算法模型。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1