一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法

文檔序號：40393909發(fā)布日期：2024-12-20 12:17閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于數(shù)據(jù)聚合，具體涉及一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法。

背景技術(shù)：

1、隨著信息技術(shù)的迅猛發(fā)展和高校管理模式的不斷創(chuàng)新，高校財務(wù)數(shù)據(jù)的來源日益多元化，包括財務(wù)報表、審計報告、在線支付記錄、科研經(jīng)費管理系統(tǒng)等多個方面。這些多來源的財務(wù)數(shù)據(jù)對聚合方法提出了更高的要求。

2、多來源高校財務(wù)數(shù)據(jù)的智能聚合旨在通過自動化、智能化的技術(shù)手段，將來自不同系統(tǒng)、不同格式、不同來源的財務(wù)數(shù)據(jù)進行整合，形成一個統(tǒng)一、規(guī)范、易于分析的數(shù)據(jù)集。這樣不僅可以提高數(shù)據(jù)整合的效率和準確性，降低人工處理的成本，還可以為高校管理層提供更加全面、深入的財務(wù)數(shù)據(jù)分析報告，幫助高校做出更加科學(xué)、合理的決策。因此，研究多來源高校財務(wù)數(shù)據(jù)的智能聚合方法，對于提高高校財務(wù)管理效率、優(yōu)化資源配置、促進高?？沙掷m(xù)發(fā)展具有重要意義。

3、目前，越來越多的學(xué)者針對數(shù)據(jù)聚合方法展開相關(guān)研究，并取得一系列成果。文獻1：基于語義的制造企業(yè)多價值鏈協(xié)同數(shù)據(jù)空間數(shù)字資源聚合識別方法研究，根據(jù)多源數(shù)據(jù)的空間語義網(wǎng)絡(luò)節(jié)點發(fā)現(xiàn)方法，實現(xiàn)了數(shù)據(jù)聚合識別，具有良好的聚合效果，但是數(shù)據(jù)語義標注復(fù)雜性較高，導(dǎo)致該方法的聚合效率在實際應(yīng)用中受到一定限制；文獻2：基于車聯(lián)網(wǎng)的隱私保護數(shù)據(jù)聚合研究綜述，針對車聯(lián)網(wǎng)中隱私數(shù)據(jù)聚合問題，設(shè)計一種基于加密算法的數(shù)據(jù)聚合方案，但是車聯(lián)網(wǎng)中數(shù)據(jù)進行密鑰交換時往往需要額外的通信，導(dǎo)致該聚合方法的實際通信開銷較大；文獻3：跨組織醫(yī)療健康大數(shù)據(jù)聚合與案例知識推理方法研究，面對大規(guī)模多源異構(gòu)醫(yī)療健康數(shù)據(jù)的安全共享，設(shè)計一種基于聯(lián)邦學(xué)習機制的深度聚合方法，但是該方法存在一定隱私泄露風險，實際應(yīng)用效果不佳。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法，旨在解決高校財務(wù)數(shù)據(jù)來源廣泛且數(shù)量龐大，影響了財務(wù)數(shù)據(jù)的利用效率的技術(shù)問題。

2、本發(fā)明為實現(xiàn)上述發(fā)明目的，采取的技術(shù)方案如下：

3、一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法，包括以下步驟：

4、s1、爬取并預(yù)處理多來源高校財務(wù)文本數(shù)據(jù)：以高校財務(wù)文本數(shù)據(jù)為對象，深入研究多來源數(shù)據(jù)的智能聚合；首先，引入基于哈希表的去重算法，也就是在爬取到新的文本數(shù)據(jù)后，先通過哈希函數(shù)將數(shù)據(jù)轉(zhuǎn)換為哈希值，表達式如下式所示：

5、z(x)＝fmd5(x)(1)

6、式中，z(x)為高校財務(wù)數(shù)據(jù)x的哈希值；fmd5為md5哈希函數(shù)；通過上述爬取與預(yù)處理，本發(fā)明得到了高質(zhì)量的多來源高校財務(wù)文本數(shù)據(jù)，為后續(xù)智能聚合提供數(shù)據(jù)基礎(chǔ)；

7、s2、過濾多來源高校財務(wù)數(shù)據(jù)的不良文本：首先，構(gòu)建一個樸素貝葉斯分類器進行多來源高校財務(wù)數(shù)據(jù)分類，這是一種基于貝葉斯定理與特征條件獨立假設(shè)的文本分類方法，其關(guān)鍵在于計算待分類文本數(shù)據(jù)歸類到各類別的概率，計算公式如下式所示：

8、

9、式中，g(bn|x)為給定高校財務(wù)文本數(shù)據(jù)x屬于類別bn的概率，其值越大表明數(shù)據(jù)x屬于類別bn的可能性越大；g(x|bn)為在類別bn下，高校財務(wù)文本數(shù)據(jù)x出現(xiàn)的概率；g(bn)為類別bn出現(xiàn)的概率；g(x)為高校財務(wù)文本數(shù)據(jù)x出現(xiàn)的概率。假設(shè)不良文本類別閾值為γ，如果式(3)所求高校財務(wù)文本數(shù)據(jù)x的所屬概率g(bn|x)≥γ，那么該類別屬于正例類別，予以保留；如果g(bn|x)＜γ，那么該類別屬于反例類別，也就是不良文本，則進行剔除；

10、s3、多來源高校財務(wù)文本數(shù)據(jù)聚合：在根據(jù)上述內(nèi)容完成多來源高校財務(wù)數(shù)據(jù)不良文本的過濾后，即可對剩余正常文本進行聚合；基于多來源高校財務(wù)文本數(shù)據(jù)的特殊性，本發(fā)明采用jaro-winkler相似度算法進行不同來源高校財務(wù)文本數(shù)據(jù)的匹配，其是一種基于字符串比較的相似度度量方法，結(jié)合了jaro算法和winkler算法的優(yōu)點，從而提高了相似度計算的準確性。首先，需要利用jaro算法計算每對文本之間的jarodistance相似度，表達式如下式：

11、

12、式中，d1為兩個不同來源的高校財務(wù)文本數(shù)據(jù)之間的jaro?distance相似度；m為高校財務(wù)文本數(shù)據(jù)中待匹配字符的個數(shù)；|l1|、|l2|分別為兩個不同來源的高校財務(wù)文本數(shù)據(jù)中待匹配的字符串的長度；為待匹配的字符串中發(fā)生換位操作的字符數(shù)目；f0為兩個待匹配的字符串在相同位置上進行換位操作的次數(shù)。在jaro?distance的基礎(chǔ)上，本文采用winkler算法進行修正，得到j(luò)aro-winkler相似度值，表達式如下所示：

13、d2＝d1+(ak(1-d1))(4)

14、式中，d2為兩個不同來源的高校財務(wù)文本數(shù)據(jù)之間的jaro-winkler相似度；a為兩個待匹配字符串的前綴長度；k為常量，一般設(shè)置為0.1。

15、本發(fā)明所述的一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法，采用以上技術(shù)方案與現(xiàn)有技術(shù)相比，具有以下技術(shù)效果：

16、本發(fā)明提出了一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法，通過對多來源財務(wù)文本數(shù)據(jù)的爬取、預(yù)處理、不良文本過濾以及相似度匹配聚合，有效提高了高校財務(wù)數(shù)據(jù)整合的效率和準確性。

技術(shù)特征：

1.一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法，其特征在于，包括以下步驟：

技術(shù)總結(jié)
本發(fā)明屬于數(shù)據(jù)聚合技術(shù)領(lǐng)域，具體涉及一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法。本發(fā)明方法，首先爬取并預(yù)處理多來源高校財務(wù)文本數(shù)據(jù)，利用樸素貝葉斯分類器，結(jié)合類別閾值設(shè)計文本過濾技術(shù)，過濾多來源高校財務(wù)數(shù)據(jù)中的不良文本。然后，通過Jaro?Winkler相似度匹配算法將過濾后文本聚合在一起，實現(xiàn)多來源高校財務(wù)數(shù)據(jù)智能聚合。本發(fā)明提出了一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法，通過對多來源財務(wù)文本數(shù)據(jù)的爬取、預(yù)處理、不良文本過濾以及相似度匹配聚合，有效提高了高校財務(wù)數(shù)據(jù)整合的效率和準確性。

技術(shù)研發(fā)人員：宗烜逸,周宇,程實,陳曉紅
受保護的技術(shù)使用者：南通大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宗烜逸,周宇,程實,陳曉紅
技術(shù)所有人：南通大學(xué)
我是此專利的發(fā)明人

上一篇：一種丙烯酸重組分分解釜的制作方法
上一篇：一種用于隧道式液氮速凍機的除霜密封裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法