本發(fā)明提出了一種基于大數(shù)據(jù)的電子文件數(shù)據(jù)處理方法及系統(tǒng),涉及數(shù)據(jù)處理,具體涉及基于大數(shù)據(jù)的電子文件數(shù)據(jù)處理。
背景技術(shù):
1、電子文件的處理涉及數(shù)據(jù)的收集、存儲、管理、分析和利用等多個環(huán)節(jié),對于海量電子文件數(shù)據(jù)的處理需求日益增加。然而,傳統(tǒng)的電子文件處理方法在處理效率、資源利用率和可擴展性等方面存在諸多挑戰(zhàn)。傳統(tǒng)的電子文件處理方法通常采用集中式存儲和處理模式,即將電子文件數(shù)據(jù)集中存儲在單一服務(wù)器或數(shù)據(jù)中心,并通過該服務(wù)器或數(shù)據(jù)中心進行處理。然而,隨著電子文件數(shù)據(jù)的爆炸式增長,集中式存儲和處理模式逐漸暴露出存儲容量受限、處理速度緩慢、資源利用率低、可擴展性差等問題,現(xiàn)有技術(shù)技術(shù)難以對服務(wù)集群和數(shù)據(jù)包進行單獨處理能力分析和結(jié)合分析,使得電子文件處理效率低,浪費處理資源。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種基于大數(shù)據(jù)的電子文件數(shù)據(jù)處理方法及系統(tǒng),用以解決上述問題:
2、本發(fā)明提出的一種基于大數(shù)據(jù)的電子文件數(shù)據(jù)處理方法及系統(tǒng),所述處理方法包括:
3、s1、獲取電子文件數(shù)據(jù),對所述電子文件數(shù)據(jù)進行預(yù)處理和類別拆分,獲得文件拆分數(shù)據(jù)包,進而獲取分布式存儲數(shù)據(jù)包;
4、s2、對獲取的預(yù)設(shè)服務(wù)集群進行數(shù)據(jù)處理能力分析,根據(jù)評估結(jié)果分配分布式存儲數(shù)據(jù)包,對預(yù)設(shè)分配數(shù)據(jù)包進行模擬處理服務(wù)分析,進而對預(yù)設(shè)服務(wù)集群進行模擬處理判定;
5、s3、對分布式存儲數(shù)據(jù)包進行被處理能力分析,對分布式存儲數(shù)據(jù)包分配預(yù)設(shè)服務(wù)集群,進行模擬處理服務(wù)分析,進而對分布式存儲數(shù)據(jù)包進行模擬處理判定;
6、s4、獲取集群處理排序和數(shù)據(jù)包排序,通過同等排名的預(yù)設(shè)服務(wù)集群對分布式存儲數(shù)據(jù)包進行實際處理和更新處理,獲得處理結(jié)果。
7、進一步地,所述s1包括:
8、獲取電子文件處理請求信息,根據(jù)所述電子文件處理請求信息獲取需要進行數(shù)據(jù)處理的電子文件數(shù)據(jù);
9、對所述電子文件數(shù)據(jù)進行預(yù)處理,獲得預(yù)處理后的電子文件數(shù)據(jù);
10、獲取預(yù)設(shè)電子文件拆分類別信息,根據(jù)所述預(yù)設(shè)電子文件拆分類別信息對所述預(yù)處理后的電子文件數(shù)據(jù)進行文件數(shù)據(jù)拆分,獲得文件拆分數(shù)據(jù)包;
11、對每個文件拆分數(shù)據(jù)包進行分布式存儲,獲得多個分布式存儲數(shù)據(jù)包。
12、進一步地,所述s2包括:
13、獲取多個預(yù)設(shè)服務(wù)集群信息,根據(jù)所述預(yù)設(shè)服務(wù)集群信息計算每個預(yù)設(shè)服務(wù)集群的數(shù)據(jù)處理能力系數(shù);
14、根據(jù)所述數(shù)據(jù)處理能力系數(shù)對所述預(yù)設(shè)服務(wù)集群分配分布式存儲數(shù)據(jù)包;
15、獲得預(yù)設(shè)服務(wù)集群的預(yù)設(shè)分配數(shù)據(jù)包;
16、通過預(yù)設(shè)服務(wù)集群對所述預(yù)設(shè)分配數(shù)據(jù)包進行模擬處理服務(wù),獲得集群模擬處理數(shù)據(jù);
17、根據(jù)所述集群模擬處理數(shù)據(jù)計算集群模擬處理系數(shù);
18、根據(jù)所述集群模擬處理系數(shù)對所述預(yù)設(shè)服務(wù)集群進行模擬處理判定,獲得預(yù)設(shè)服務(wù)集群的模擬處理判定信息。
19、進一步地,所述s3包括:
20、分布式存儲數(shù)據(jù)包信息,根據(jù)所述分布式存儲數(shù)據(jù)包信息計算每個分布式存儲數(shù)據(jù)包的數(shù)據(jù)包被處理能力系數(shù);
21、根據(jù)所述數(shù)據(jù)包被處理能力系數(shù)對所述分布式存儲數(shù)據(jù)包分配預(yù)設(shè)服務(wù)集群;
22、獲取分布式存儲數(shù)據(jù)包的數(shù)據(jù)包集群;
23、通過所述數(shù)據(jù)包集群對所述分布式存儲數(shù)據(jù)包進行模擬處理服務(wù),獲得數(shù)據(jù)包模擬處理數(shù)據(jù);
24、根據(jù)所述數(shù)據(jù)包模擬處理數(shù)據(jù)計算數(shù)據(jù)包模擬處理系數(shù);
25、根據(jù)所述數(shù)據(jù)包模擬處理系數(shù)對所述分布式存儲數(shù)據(jù)包進行模擬處理判定,獲得分布式存儲數(shù)據(jù)包的模擬處理判定信息。
26、進一步地,所述s4包括:
27、通過集群模擬處理系數(shù)對預(yù)設(shè)服務(wù)集群進行從大到小的排序,獲得集群處理排序;
28、通過數(shù)據(jù)包模擬處理系數(shù)對分布式存儲數(shù)據(jù)包進行從大到小的排序,獲得數(shù)據(jù)包排序;
29、通過同等排名的預(yù)設(shè)服務(wù)集群對分布式存儲數(shù)據(jù)包進行實際處理,獲得實際處理數(shù)據(jù);
30、將實際處理數(shù)據(jù)與預(yù)設(shè)處理閾值進行比較,獲得處理比較結(jié)果;
31、根據(jù)所述處理比較結(jié)果對集群處理排序和數(shù)據(jù)包排序進行更新,進而進行實際重新處理,獲得重新處理結(jié)果。
32、進一步地,所述處理系統(tǒng)包括:
33、文件數(shù)據(jù)拆分模塊,用于獲取電子文件數(shù)據(jù),對所述電子文件數(shù)據(jù)進行預(yù)處理和類別拆分,獲得文件拆分數(shù)據(jù)包,進而獲取分布式存儲數(shù)據(jù)包;
34、集群能力分析模塊,用于對獲取的預(yù)設(shè)服務(wù)集群進行數(shù)據(jù)處理能力分析,根據(jù)評估結(jié)果分配分布式存儲數(shù)據(jù)包,對預(yù)設(shè)分配數(shù)據(jù)包進行模擬處理服務(wù)分析,進而對預(yù)設(shè)服務(wù)集群進行模擬處理判定;
35、數(shù)據(jù)包能力分析模塊,用于對分布式存儲數(shù)據(jù)包進行被處理能力分析,對分布式存儲數(shù)據(jù)包分配預(yù)設(shè)服務(wù)集群,進行模擬處理服務(wù)分析,進而對分布式存儲數(shù)據(jù)包進行模擬處理判定;
36、實際處理模塊,用于獲取集群處理排序和數(shù)據(jù)包排序,通過同等排名的預(yù)設(shè)服務(wù)集群對分布式存儲數(shù)據(jù)包進行實際處理和更新處理,獲得處理結(jié)果。
37、進一步地,所述文件數(shù)據(jù)拆分模塊包括:
38、獲取電子文件處理請求信息,根據(jù)所述電子文件處理請求信息獲取需要進行數(shù)據(jù)處理的電子文件數(shù)據(jù);
39、對所述電子文件數(shù)據(jù)進行預(yù)處理,獲得預(yù)處理后的電子文件數(shù)據(jù);
40、獲取預(yù)設(shè)電子文件拆分類別信息,根據(jù)所述預(yù)設(shè)電子文件拆分類別信息對所述預(yù)處理后的電子文件數(shù)據(jù)進行文件數(shù)據(jù)拆分,獲得文件拆分數(shù)據(jù)包;
41、對每個文件拆分數(shù)據(jù)包進行分布式存儲,獲得多個分布式存儲數(shù)據(jù)包。
42、進一步地,所述集群能力分析模塊包括:
43、獲取多個預(yù)設(shè)服務(wù)集群信息,根據(jù)所述預(yù)設(shè)服務(wù)集群信息計算每個預(yù)設(shè)服務(wù)集群的數(shù)據(jù)處理能力系數(shù);
44、根據(jù)所述數(shù)據(jù)處理能力系數(shù)對所述預(yù)設(shè)服務(wù)集群分配分布式存儲數(shù)據(jù)包;
45、獲得預(yù)設(shè)服務(wù)集群的預(yù)設(shè)分配數(shù)據(jù)包;
46、通過預(yù)設(shè)服務(wù)集群對所述預(yù)設(shè)分配數(shù)據(jù)包進行模擬處理服務(wù),獲得集群模擬處理數(shù)據(jù);
47、根據(jù)所述集群模擬處理數(shù)據(jù)計算集群模擬處理系數(shù);
48、根據(jù)所述集群模擬處理系數(shù)對所述預(yù)設(shè)服務(wù)集群進行模擬處理判定,獲得預(yù)設(shè)服務(wù)集群的模擬處理判定信息。
49、進一步地,所述數(shù)據(jù)包能力分析模塊包括:
50、分布式存儲數(shù)據(jù)包信息,根據(jù)所述分布式存儲數(shù)據(jù)包信息計算每個分布式存儲數(shù)據(jù)包的數(shù)據(jù)包被處理能力系數(shù);
51、根據(jù)所述數(shù)據(jù)包被處理能力系數(shù)對所述分布式存儲數(shù)據(jù)包分配預(yù)設(shè)服務(wù)集群;
52、獲取分布式存儲數(shù)據(jù)包的數(shù)據(jù)包集群;
53、通過所述數(shù)據(jù)包集群對所述分布式存儲數(shù)據(jù)包進行模擬處理服務(wù),獲得數(shù)據(jù)包模擬處理數(shù)據(jù);
54、根據(jù)所述數(shù)據(jù)包模擬處理數(shù)據(jù)計算數(shù)據(jù)包模擬處理系數(shù);
55、根據(jù)所述數(shù)據(jù)包模擬處理系數(shù)對所述分布式存儲數(shù)據(jù)包進行模擬處理判定,獲得分布式存儲數(shù)據(jù)包的模擬處理判定信息。
56、進一步地,所述實際處理模塊包括:
57、通過集群模擬處理系數(shù)對預(yù)設(shè)服務(wù)集群進行從大到小的排序,獲得集群處理排序;
58、通過數(shù)據(jù)包模擬處理系數(shù)對分布式存儲數(shù)據(jù)包進行從大到小的排序,獲得數(shù)據(jù)包排序;
59、通過同等排名的預(yù)設(shè)服務(wù)集群對分布式存儲數(shù)據(jù)包進行實際處理,獲得實際處理數(shù)據(jù);
60、將實際處理數(shù)據(jù)與預(yù)設(shè)處理閾值進行比較,獲得處理比較結(jié)果;
61、根據(jù)所述處理比較結(jié)果對集群處理排序和數(shù)據(jù)包排序進行更新,進而進行實際重新處理,獲得重新處理結(jié)果。
62、本發(fā)明有益效果:通過預(yù)處理和類別拆分,減少了處理過程中的冗余數(shù)據(jù),提高了處理效率。分布式存儲和并行處理使得多個服務(wù)集群節(jié)點可以同時處理不同的數(shù)據(jù)包,進一步提高了處理速度。根據(jù)服務(wù)集群和數(shù)據(jù)包的性能評估結(jié)果,合理分配資源,避免了資源浪費和瓶頸問題。模擬處理服務(wù)分析有助于在實際處理前發(fā)現(xiàn)潛在的問題,從而提前進行優(yōu)化和調(diào)整。預(yù)處理步驟中的數(shù)據(jù)清洗和格式轉(zhuǎn)換確保了輸入數(shù)據(jù)的準(zhǔn)確性和一致性,可以提高處理結(jié)果的準(zhǔn)確性。多次迭代處理和更新處理可以不斷修正和完善處理結(jié)果,使其更加符合實際需求。分布式存儲和并行處理架構(gòu)使得系統(tǒng)可以方便地擴展新的服務(wù)集群節(jié)點和數(shù)據(jù)存儲節(jié)點,以滿足不斷增長的處理需求。系統(tǒng)可以靈活地適應(yīng)不同的處理任務(wù)和數(shù)據(jù)類型,提高了系統(tǒng)的通用性和適應(yīng)性。