本發(fā)明屬于數(shù)據(jù)聚合,具體涉及一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法。
背景技術(shù):
1、隨著信息技術(shù)的迅猛發(fā)展和高校管理模式的不斷創(chuàng)新,高校財務(wù)數(shù)據(jù)的來源日益多元化,包括財務(wù)報表、審計報告、在線支付記錄、科研經(jīng)費管理系統(tǒng)等多個方面。這些多來源的財務(wù)數(shù)據(jù)對聚合方法提出了更高的要求。
2、多來源高校財務(wù)數(shù)據(jù)的智能聚合旨在通過自動化、智能化的技術(shù)手段,將來自不同系統(tǒng)、不同格式、不同來源的財務(wù)數(shù)據(jù)進行整合,形成一個統(tǒng)一、規(guī)范、易于分析的數(shù)據(jù)集。這樣不僅可以提高數(shù)據(jù)整合的效率和準確性,降低人工處理的成本,還可以為高校管理層提供更加全面、深入的財務(wù)數(shù)據(jù)分析報告,幫助高校做出更加科學(xué)、合理的決策。因此,研究多來源高校財務(wù)數(shù)據(jù)的智能聚合方法,對于提高高校財務(wù)管理效率、優(yōu)化資源配置、促進高??沙掷m(xù)發(fā)展具有重要意義。
3、目前,越來越多的學(xué)者針對數(shù)據(jù)聚合方法展開相關(guān)研究,并取得一系列成果。文獻1:基于語義的制造企業(yè)多價值鏈協(xié)同數(shù)據(jù)空間數(shù)字資源聚合識別方法研究,根據(jù)多源數(shù)據(jù)的空間語義網(wǎng)絡(luò)節(jié)點發(fā)現(xiàn)方法,實現(xiàn)了數(shù)據(jù)聚合識別,具有良好的聚合效果,但是數(shù)據(jù)語義標注復(fù)雜性較高,導(dǎo)致該方法的聚合效率在實際應(yīng)用中受到一定限制;文獻2:基于車聯(lián)網(wǎng)的隱私保護數(shù)據(jù)聚合研究綜述,針對車聯(lián)網(wǎng)中隱私數(shù)據(jù)聚合問題,設(shè)計一種基于加密算法的數(shù)據(jù)聚合方案,但是車聯(lián)網(wǎng)中數(shù)據(jù)進行密鑰交換時往往需要額外的通信,導(dǎo)致該聚合方法的實際通信開銷較大;文獻3:跨組織醫(yī)療健康大數(shù)據(jù)聚合與案例知識推理方法研究,面對大規(guī)模多源異構(gòu)醫(yī)療健康數(shù)據(jù)的安全共享,設(shè)計一種基于聯(lián)邦學(xué)習機制的深度聚合方法,但是該方法存在一定隱私泄露風險,實際應(yīng)用效果不佳。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法,旨在解決高校財務(wù)數(shù)據(jù)來源廣泛且數(shù)量龐大,影響了財務(wù)數(shù)據(jù)的利用效率的技術(shù)問題。
2、本發(fā)明為實現(xiàn)上述發(fā)明目的,采取的技術(shù)方案如下:
3、一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法,包括以下步驟:
4、s1、爬取并預(yù)處理多來源高校財務(wù)文本數(shù)據(jù):以高校財務(wù)文本數(shù)據(jù)為對象,深入研究多來源數(shù)據(jù)的智能聚合;首先,引入基于哈希表的去重算法,也就是在爬取到新的文本數(shù)據(jù)后,先通過哈希函數(shù)將數(shù)據(jù)轉(zhuǎn)換為哈希值,表達式如下式所示:
5、z(x)=fmd5(x)(1)
6、式中,z(x)為高校財務(wù)數(shù)據(jù)x的哈希值;fmd5為md5哈希函數(shù);通過上述爬取與預(yù)處理,本發(fā)明得到了高質(zhì)量的多來源高校財務(wù)文本數(shù)據(jù),為后續(xù)智能聚合提供數(shù)據(jù)基礎(chǔ);
7、s2、過濾多來源高校財務(wù)數(shù)據(jù)的不良文本:首先,構(gòu)建一個樸素貝葉斯分類器進行多來源高校財務(wù)數(shù)據(jù)分類,這是一種基于貝葉斯定理與特征條件獨立假設(shè)的文本分類方法,其關(guān)鍵在于計算待分類文本數(shù)據(jù)歸類到各類別的概率,計算公式如下式所示:
8、
9、式中,g(bn|x)為給定高校財務(wù)文本數(shù)據(jù)x屬于類別bn的概率,其值越大表明數(shù)據(jù)x屬于類別bn的可能性越大;g(x|bn)為在類別bn下,高校財務(wù)文本數(shù)據(jù)x出現(xiàn)的概率;g(bn)為類別bn出現(xiàn)的概率;g(x)為高校財務(wù)文本數(shù)據(jù)x出現(xiàn)的概率。假設(shè)不良文本類別閾值為γ,如果式(3)所求高校財務(wù)文本數(shù)據(jù)x的所屬概率g(bn|x)≥γ,那么該類別屬于正例類別,予以保留;如果g(bn|x)<γ,那么該類別屬于反例類別,也就是不良文本,則進行剔除;
10、s3、多來源高校財務(wù)文本數(shù)據(jù)聚合:在根據(jù)上述內(nèi)容完成多來源高校財務(wù)數(shù)據(jù)不良文本的過濾后,即可對剩余正常文本進行聚合;基于多來源高校財務(wù)文本數(shù)據(jù)的特殊性,本發(fā)明采用jaro-winkler相似度算法進行不同來源高校財務(wù)文本數(shù)據(jù)的匹配,其是一種基于字符串比較的相似度度量方法,結(jié)合了jaro算法和winkler算法的優(yōu)點,從而提高了相似度計算的準確性。首先,需要利用jaro算法計算每對文本之間的jarodistance相似度,表達式如下式:
11、
12、式中,d1為兩個不同來源的高校財務(wù)文本數(shù)據(jù)之間的jaro?distance相似度;m為高校財務(wù)文本數(shù)據(jù)中待匹配字符的個數(shù);|l1|、|l2|分別為兩個不同來源的高校財務(wù)文本數(shù)據(jù)中待匹配的字符串的長度;為待匹配的字符串中發(fā)生換位操作的字符數(shù)目;f0為兩個待匹配的字符串在相同位置上進行換位操作的次數(shù)。在jaro?distance的基礎(chǔ)上,本文采用winkler算法進行修正,得到j(luò)aro-winkler相似度值,表達式如下所示:
13、d2=d1+(ak(1-d1))(4)
14、式中,d2為兩個不同來源的高校財務(wù)文本數(shù)據(jù)之間的jaro-winkler相似度;a為兩個待匹配字符串的前綴長度;k為常量,一般設(shè)置為0.1。
15、本發(fā)明所述的一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法,采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
16、本發(fā)明提出了一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法,通過對多來源財務(wù)文本數(shù)據(jù)的爬取、預(yù)處理、不良文本過濾以及相似度匹配聚合,有效提高了高校財務(wù)數(shù)據(jù)整合的效率和準確性。
1.一種基于文本過濾的多來源高校財務(wù)數(shù)據(jù)聚合方法,其特征在于,包括以下步驟: