本發(fā)明涉及數(shù)據(jù)交互處理,尤其涉及一種基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法。
背景技術(shù):
1、多源數(shù)據(jù)處理方法主要涉及到將來自不同來源、格式和結(jié)構(gòu)的數(shù)據(jù)進(jìn)行集成、清洗、轉(zhuǎn)換和分析,以提供一致、準(zhǔn)確和有用的信息。這些數(shù)據(jù)源可能包括數(shù)據(jù)庫、api、文件、社交媒體、物聯(lián)網(wǎng)設(shè)備等。
2、低代碼平臺(tái)通常提供多種預(yù)構(gòu)建的數(shù)據(jù)連接器或適配器,能夠輕松地與各種數(shù)據(jù)源(如數(shù)據(jù)庫、api、云存儲(chǔ)服務(wù)、第三方應(yīng)用等)進(jìn)行連接。用戶只需通過簡(jiǎn)單的配置或拖放操作,就可以定義數(shù)據(jù)源連接、數(shù)據(jù)同步頻率以及數(shù)據(jù)格式。這使得即使對(duì)于非技術(shù)背景的用戶,也能夠快速、有效地從各種來源獲取數(shù)據(jù)。
3、由于不同數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)和格式可能存在很大差異,因此數(shù)據(jù)映射和轉(zhuǎn)換是處理多源數(shù)據(jù)時(shí)的重要步驟。低代碼平臺(tái)通過提供直觀的數(shù)據(jù)映射工具,使用戶能夠輕松地將不同來源的數(shù)據(jù)字段映射到統(tǒng)一的數(shù)據(jù)模型中。此外,轉(zhuǎn)換工具則能夠幫助用戶處理數(shù)據(jù)清洗、聚合、格式化等轉(zhuǎn)換操作,確保數(shù)據(jù)的一致性和準(zhǔn)確性。
4、低代碼平臺(tái)集成了各種強(qiáng)大的數(shù)據(jù)分析工具,這些工具可以幫助用戶進(jìn)行數(shù)據(jù)的探索性分析、生成報(bào)表、創(chuàng)建可視化圖表和儀表板。用戶無需編寫復(fù)雜的查詢或腳本,只需通過拖放、配置等方式,就可以創(chuàng)建出各種定制化的數(shù)據(jù)視圖和報(bào)表。這些工具不僅提高了數(shù)據(jù)處理的效率,而且使數(shù)據(jù)分析變得更加直觀和易于理解,有助于用戶更好地洞察數(shù)據(jù),做出更明智的決策。
5、但是現(xiàn)有技術(shù)中,基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法仍需解決根據(jù)具體的業(yè)務(wù)需求和數(shù)據(jù)特點(diǎn)進(jìn)行定制和優(yōu)化,并進(jìn)一步實(shí)現(xiàn)簡(jiǎn)化數(shù)據(jù)的處理過程,提高解析效率,增強(qiáng)數(shù)據(jù)解析的準(zhǔn)確性和靈活性。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,本發(fā)明提出了一種基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法,包括如下步驟:
2、s1、獲取多個(gè)數(shù)據(jù)源數(shù)據(jù),利用低代碼數(shù)據(jù)管理平臺(tái),將目標(biāo)數(shù)據(jù)庫中的所有數(shù)據(jù)轉(zhuǎn)換成目標(biāo)格式的待解析數(shù)據(jù);
3、s2、對(duì)目標(biāo)格式的待解析數(shù)據(jù)進(jìn)行片段數(shù)據(jù)序列劃分,對(duì)每個(gè)片段數(shù)據(jù)序列進(jìn)行閉環(huán)解析,得到多個(gè)解析數(shù)據(jù)集,對(duì)多個(gè)解析數(shù)據(jù)集進(jìn)行聚類分析,形成多個(gè)數(shù)據(jù)子集;
4、s3、對(duì)所述多個(gè)數(shù)據(jù)子集取交集,得到多個(gè)交集數(shù)據(jù)序列,對(duì)所述多個(gè)數(shù)據(jù)子集取并集,得到一個(gè)并集數(shù)據(jù)序列,將在所述并集數(shù)據(jù)序列中出現(xiàn)頻率最高的交集數(shù)據(jù)序列導(dǎo)出,統(tǒng)計(jì)在所述出現(xiàn)頻率最高的交集數(shù)據(jù)序列中重復(fù)出現(xiàn)次數(shù)最大的數(shù)據(jù)項(xiàng),作為重點(diǎn)關(guān)注數(shù)據(jù)項(xiàng)。
5、進(jìn)一步地,所述步驟s2中,對(duì)片段數(shù)據(jù)序列閉環(huán)解析包括:
6、計(jì)算片段數(shù)據(jù)序列中數(shù)據(jù)之間的關(guān)系,從片段數(shù)據(jù)序列中提取代表數(shù)據(jù)之間關(guān)系的數(shù)據(jù)特征;
7、設(shè)定片段限值yth,當(dāng)所述數(shù)據(jù)特征超過片段限值yth時(shí),將片段數(shù)據(jù)序列作為一個(gè)解析數(shù)據(jù)集。
8、進(jìn)一步地,計(jì)算兩個(gè)解析數(shù)據(jù)集之間的聚類值s:
9、;
10、式中,xi表示解析數(shù)據(jù)集x中的第i個(gè)數(shù)據(jù),yj表示解析數(shù)據(jù)集y中的第j個(gè)數(shù)據(jù),和分別表示解析數(shù)據(jù)集x和y中數(shù)據(jù)的平均值,a和b分別表示解析數(shù)據(jù)集x和y的數(shù)據(jù)總數(shù);
11、將聚類值大于閾值的多個(gè)解析數(shù)據(jù)集歸為一類,最終形成多個(gè)數(shù)據(jù)子集。
12、進(jìn)一步地,片段限值yth為:
13、;
14、其中,y為片段數(shù)據(jù)序列的數(shù)據(jù)特征,m為片段數(shù)據(jù)序列中的數(shù)據(jù)數(shù)量。
15、進(jìn)一步地,所述步驟s3包括:
16、s31:將所述多個(gè)數(shù)據(jù)子集進(jìn)行交集操作,得到交集數(shù)據(jù)序列;
17、s32:在得到交集數(shù)據(jù)序列后,計(jì)算交集數(shù)據(jù)序列在多個(gè)數(shù)據(jù)子集的并集中的出現(xiàn)頻率;
18、s33:根據(jù)所述出現(xiàn)頻率對(duì)交集數(shù)據(jù)序列進(jìn)行排序,選擇出現(xiàn)頻率最高的交集數(shù)據(jù)序列;
19、s34:統(tǒng)計(jì)在所述出現(xiàn)頻率最高的交集數(shù)據(jù)序列中出現(xiàn)次數(shù)高于預(yù)設(shè)目標(biāo)次數(shù)的多個(gè)數(shù)據(jù)項(xiàng),將所述多個(gè)數(shù)據(jù)項(xiàng)作為重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)。
20、進(jìn)一步地,計(jì)算每個(gè)重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)的效能值xn(t):
21、xn(t)=(1-b)kd*q*c;
22、其中,d表示重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)集,c為重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)在出現(xiàn)頻率最高的交集數(shù)據(jù)序列中重復(fù)次數(shù),kd表示重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)集的數(shù)據(jù)項(xiàng)數(shù)目,q表示重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)t所在的交集數(shù)據(jù)序列的出現(xiàn)頻率,b表示效能系數(shù),0≤b<1;
23、計(jì)算所有重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)的效能值之和,作為重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)集的累積效能值,判斷所述重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)集的累積效能值是否大于效能閾值,當(dāng)所述累積效能值大于效能閾值時(shí),則將所述重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)集確定為目標(biāo)關(guān)注數(shù)據(jù)項(xiàng)集。
24、進(jìn)一步地,所述步驟s1中,將多個(gè)數(shù)據(jù)源的數(shù)據(jù)發(fā)送至低代碼數(shù)據(jù)管理平臺(tái)上的對(duì)應(yīng)數(shù)據(jù)格式的目標(biāo)數(shù)據(jù)庫中存儲(chǔ),通過預(yù)設(shè)的轉(zhuǎn)換格式代碼將目標(biāo)數(shù)據(jù)庫中的所有數(shù)據(jù)轉(zhuǎn)換成目標(biāo)格式的待解析數(shù)據(jù)。
25、進(jìn)一步地,所述數(shù)據(jù)特征為片段數(shù)據(jù)序列數(shù)據(jù)的均值、中位數(shù)、眾數(shù)、方差、標(biāo)準(zhǔn)差中的一個(gè)。
26、相比于現(xiàn)有技術(shù),本發(fā)明具有如下有益技術(shù)效果:
27、獲取多個(gè)數(shù)據(jù)源數(shù)據(jù),利用低代碼數(shù)據(jù)管理平臺(tái),將目標(biāo)數(shù)據(jù)庫中的所有數(shù)據(jù)轉(zhuǎn)換成目標(biāo)格式的待解析數(shù)據(jù);對(duì)目標(biāo)數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行解析得到所需存儲(chǔ)格式的數(shù)據(jù),減少學(xué)習(xí)成本,縮短開發(fā)周期。
28、對(duì)目標(biāo)格式的待解析數(shù)據(jù)進(jìn)行片段數(shù)據(jù)序列劃分,對(duì)每個(gè)片段數(shù)據(jù)序列進(jìn)行閉環(huán)解析,得到多個(gè)解析數(shù)據(jù)集,對(duì)多個(gè)解析數(shù)據(jù)集進(jìn)行聚類分析,形成多個(gè)數(shù)據(jù)子集;對(duì)多個(gè)數(shù)據(jù)子集取交集,得到頻率最高的交集數(shù)據(jù)序列,從而得到出現(xiàn)頻率高的交集數(shù)據(jù)序列,將在頻率最高的交集數(shù)據(jù)序列中重復(fù)次數(shù)最大的數(shù)據(jù)項(xiàng)輸出為重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)。有助于簡(jiǎn)化數(shù)據(jù)的處理過程,提高解析效率,同時(shí)也能夠增強(qiáng)數(shù)據(jù)解析的準(zhǔn)確性和靈活性。
1.一種基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法,其特征在于,所述步驟s2中,對(duì)片段數(shù)據(jù)序列閉環(huán)解析包括:
3.根據(jù)權(quán)利要求2所述的基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法,其特征在于,計(jì)算兩個(gè)解析數(shù)據(jù)集之間的聚類值s:
4.根據(jù)權(quán)利要求2所述的基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法,其特征在于,片段限值yth為:
5.根據(jù)權(quán)利要求3所述的基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法,其特征在于,所述步驟s3包括:
6.根據(jù)權(quán)利要求5所述的基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法,其特征在于,計(jì)算每個(gè)重點(diǎn)關(guān)注的數(shù)據(jù)項(xiàng)的效能值xn(t):
7.根據(jù)權(quán)利要求1所述的基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法,其特征在于,所述步驟s1中,將多個(gè)數(shù)據(jù)源的數(shù)據(jù)發(fā)送至低代碼數(shù)據(jù)管理平臺(tái)上的對(duì)應(yīng)數(shù)據(jù)格式的目標(biāo)數(shù)據(jù)庫中存儲(chǔ),通過預(yù)設(shè)的轉(zhuǎn)換格式代碼將目標(biāo)數(shù)據(jù)庫中的所有數(shù)據(jù)轉(zhuǎn)換成目標(biāo)格式的待解析數(shù)據(jù)。
8.根據(jù)權(quán)利要求4所述的基于低代碼平臺(tái)的多源數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)特征為片段數(shù)據(jù)序列中數(shù)據(jù)的均值、中位數(shù)、眾數(shù)、方差、標(biāo)準(zhǔn)差中的一個(gè)。