本申請涉及計算機,尤其涉及一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練方法、設(shè)備及介質(zhì)。
背景技術(shù):
1、稅務(wù)風(fēng)險是企業(yè)風(fēng)險管控中的重要一環(huán),是企業(yè)健康穩(wěn)定發(fā)展過程中時刻提防的風(fēng)險問題。隨著人工智能技術(shù)的發(fā)展,特別是以transformer為架構(gòu)的大模型的發(fā)展,進一步促進了稅務(wù)風(fēng)險檢測技術(shù)的發(fā)展,利用大模型的理解、生成、推理等優(yōu)異能力,促進稅務(wù)風(fēng)險檢測的智能化發(fā)展。
2、但是,通過構(gòu)建企業(yè)稅務(wù)風(fēng)險數(shù)據(jù),訓(xùn)練稅務(wù)風(fēng)險模型的過程中,數(shù)據(jù)集比較復(fù)雜,并且稅務(wù)風(fēng)險模型訓(xùn)練過程不可控、更多依賴經(jīng)驗準則,從而模型性能測試欠佳時,需要調(diào)整數(shù)據(jù)多次訓(xùn)練,才能達到滿足準確性要求的稅務(wù)風(fēng)險模型,造成時間資源浪費,從而導(dǎo)致企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練效率低下。
技術(shù)實現(xiàn)思路
1、本申請實施例提供一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練方法、設(shè)備及介質(zhì),用于解決企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練效率低下的問題。
2、本申請實施例采用下述技術(shù)方案:
3、一方面,本申請實施例提供了一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練方法,該方法包括:根據(jù)預(yù)先構(gòu)建的數(shù)據(jù)質(zhì)量指標,提取第一稅務(wù)風(fēng)險數(shù)據(jù)集的第一質(zhì)量指標數(shù)據(jù);根據(jù)所述第一質(zhì)量指標數(shù)據(jù)與所述稅務(wù)風(fēng)險數(shù)據(jù)集,對稅務(wù)風(fēng)險模型架構(gòu)進行訓(xùn)練,得到符合模型性能指標的稅務(wù)風(fēng)險模型,以及所述稅務(wù)風(fēng)險模型的第一性能指標數(shù)據(jù);構(gòu)建所述第一質(zhì)量指標數(shù)據(jù)與所述第一性能指標數(shù)據(jù)之間的正交實驗表;對所述正交實驗表進行分析,得到數(shù)據(jù)質(zhì)量指標與模型性能指標之間的映射關(guān)系;在對所述稅務(wù)風(fēng)險模型進行非首次訓(xùn)練時,接收第二稅務(wù)風(fēng)險數(shù)據(jù)集的第二質(zhì)量指標數(shù)據(jù);根據(jù)所述映射關(guān)系,對所述第二質(zhì)量指標數(shù)據(jù)進行映射,得到第二性能指標數(shù)據(jù);在所述第二性能指標數(shù)據(jù)滿足要求時,根據(jù)所述第二質(zhì)量指標數(shù)據(jù)對所述稅務(wù)風(fēng)險模型進行非首次訓(xùn)練。
4、一個示例中,所述根據(jù)預(yù)先構(gòu)建的數(shù)據(jù)質(zhì)量指標,提取第一稅務(wù)風(fēng)險數(shù)據(jù)集的第一質(zhì)量指標數(shù)據(jù),具體包括:確定數(shù)據(jù)質(zhì)量指標包括數(shù)據(jù)總數(shù)量、單個數(shù)據(jù)的平均長度、單個數(shù)據(jù)的平均長度標準差、數(shù)據(jù)種類數(shù)量、單個種類的數(shù)據(jù)平均數(shù)量、單個種類的數(shù)據(jù)平均數(shù)量標準差、稅務(wù)風(fēng)險種類數(shù)量、單個稅務(wù)風(fēng)險種類的平均數(shù)量、單個稅務(wù)風(fēng)險種類的平均數(shù)量標準差、噪聲數(shù)量;在第一稅務(wù)風(fēng)險數(shù)據(jù)集中,根據(jù)每種數(shù)據(jù)質(zhì)量指標的量化方式,提取每種數(shù)據(jù)質(zhì)量指標的第一質(zhì)量指標數(shù)據(jù)。
5、一個示例中,所述方法還包括:在所述第一稅務(wù)風(fēng)險數(shù)據(jù)集中,通過對數(shù)據(jù)總數(shù)量進行統(tǒng)計,得到數(shù)據(jù)總數(shù)量;在第一稅務(wù)風(fēng)險數(shù)據(jù)集中,通過計算所有數(shù)據(jù)的數(shù)據(jù)長度所對應(yīng)的平均值,得到單個數(shù)據(jù)的平均長度;通過計算每條數(shù)據(jù)的數(shù)據(jù)長度與單個數(shù)據(jù)的平均長度之間的標準差,得到單個數(shù)據(jù)的平均長度標準差。
6、一個示例中,所述方法還包括:對所述第一稅務(wù)風(fēng)險數(shù)據(jù)集進行聚類,得到聚類中心的數(shù)量,將所述聚類中心的數(shù)量確定為數(shù)據(jù)種類數(shù)量;通過計算每個聚類中心的數(shù)據(jù)數(shù)量的平均值,得到單個種類的數(shù)據(jù)平均數(shù)量;通過計算每個聚類中心的數(shù)據(jù)數(shù)量與單個種類的數(shù)據(jù)平均數(shù)量之間的標準差,得到單個種類的數(shù)據(jù)平均數(shù)量標準差。
7、一個示例中,所述方法還包括:在所述第一稅務(wù)風(fēng)險數(shù)據(jù)集中,通過對稅務(wù)風(fēng)險種類進行統(tǒng)計,得到稅務(wù)風(fēng)險種類數(shù)量;在第一稅務(wù)風(fēng)險數(shù)據(jù)集中,通過計算稅務(wù)風(fēng)險種類的數(shù)據(jù)數(shù)量所對應(yīng)的平均值,得到單個稅務(wù)風(fēng)險種類的平均數(shù)量;通過計算每個稅務(wù)風(fēng)險種類的數(shù)據(jù)數(shù)量與單個稅務(wù)風(fēng)險種類的平均數(shù)量之間的標準差,得到單個稅務(wù)風(fēng)險種類的平均數(shù)量標準差。
8、一個示例中,所述根據(jù)所述第一質(zhì)量指標數(shù)據(jù)與所述稅務(wù)風(fēng)險數(shù)據(jù)集,對稅務(wù)風(fēng)險模型架構(gòu)進行訓(xùn)練,得到符合模型性能指標的稅務(wù)風(fēng)險模型,以及所述稅務(wù)風(fēng)險模型的第一性能指標數(shù)據(jù),具體包括:將所述稅務(wù)風(fēng)險數(shù)據(jù)集劃分為訓(xùn)練風(fēng)險數(shù)據(jù)集和測試風(fēng)險數(shù)據(jù)集;根據(jù)所述訓(xùn)練風(fēng)險數(shù)據(jù)集的第一數(shù)據(jù)質(zhì)量指標數(shù)據(jù)與所述稅務(wù)風(fēng)險數(shù)據(jù)集,對稅務(wù)風(fēng)險模型架構(gòu)進行訓(xùn)練,得到訓(xùn)練得分;在所述訓(xùn)練得分高于預(yù)設(shè)訓(xùn)練閾值時,根據(jù)所述測試風(fēng)險數(shù)據(jù)集的第一數(shù)據(jù)質(zhì)量指標數(shù)據(jù)與所述測試風(fēng)險數(shù)據(jù)集,對稅務(wù)風(fēng)險模型架構(gòu)進行測試,得到測試得分;在所述測試得分高于預(yù)設(shè)測試閾值時,得到稅務(wù)風(fēng)險模型;根據(jù)各自的權(quán)重,對所述訓(xùn)練得分與所述測試得分進行加權(quán)求和,得到所述稅務(wù)風(fēng)險模型的第一性能指標數(shù)據(jù)。
9、一個示例中,所述對所述正交實驗表進行分析,得到數(shù)據(jù)質(zhì)量指標與模型性能指標之間的映射關(guān)系,具體包括:將數(shù)據(jù)質(zhì)量指標作為自變量,將模型性能指標作為因變量,通過線性回歸算法對正交實驗表中的第一質(zhì)量指標數(shù)據(jù)與第一性能指標數(shù)據(jù)進行擬合,得到線性方程;根據(jù)所述線性方程,得到數(shù)據(jù)質(zhì)量指標與模型性能指標之間的映射關(guān)系。
10、一個示例中,所述根據(jù)預(yù)先構(gòu)建的數(shù)據(jù)質(zhì)量指標,提取第一稅務(wù)風(fēng)險數(shù)據(jù)集的第一質(zhì)量指標數(shù)據(jù)之前,所述方法還包括:獲取稅務(wù)原始數(shù)據(jù);對所述稅務(wù)原始數(shù)據(jù)進行預(yù)處理,得到預(yù)處理的稅務(wù)數(shù)據(jù);在所述預(yù)處理的稅務(wù)數(shù)據(jù)滿足要求時,對所述預(yù)處理的稅務(wù)數(shù)據(jù)進行標注。
11、另一方面,本申請實施例提供了一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練設(shè)備,包括:至少一個處理器;以及,與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述任一項所述的一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練方法。
12、另一方面,本申請實施例提供了一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練非易失性計算機存儲介質(zhì),存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令能夠執(zhí)行上述任一項所述的一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練方法。
13、本申請實施例采用的上述至少一個技術(shù)方案能夠達到以下有益效果:
14、通過預(yù)先構(gòu)建多維度的數(shù)據(jù)質(zhì)量指標,從而可以直觀地衡量稅務(wù)風(fēng)險數(shù)據(jù)的質(zhì)量,進而在首次訓(xùn)練稅務(wù)風(fēng)險模型時,能夠提高首次訓(xùn)練的效率,進一步地,構(gòu)建數(shù)據(jù)質(zhì)量指標與模型性能指標之間的正交關(guān)系,進而基于正交關(guān)系,得到兩者之間的映射關(guān)系,從而在稅務(wù)風(fēng)險模型進行再次訓(xùn)練時,可以基于映射關(guān)系,提前預(yù)測使用再次訓(xùn)練的風(fēng)險數(shù)據(jù)集的數(shù)據(jù)質(zhì)量對稅務(wù)風(fēng)險模型進行訓(xùn)練時,是否可以訓(xùn)練出符合準確性要求的模型,即,提前預(yù)測稅務(wù)風(fēng)險模型的性能,從而實現(xiàn)了能夠確保采用的再次訓(xùn)練風(fēng)險數(shù)據(jù)集,能夠訓(xùn)練出準確性更高的稅務(wù)風(fēng)險模型,提高稅務(wù)風(fēng)險模型非首次訓(xùn)練的效率。
1.一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)先構(gòu)建的數(shù)據(jù)質(zhì)量指標,提取第一稅務(wù)風(fēng)險數(shù)據(jù)集的第一質(zhì)量指標數(shù)據(jù),具體包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一質(zhì)量指標數(shù)據(jù)與所述稅務(wù)風(fēng)險數(shù)據(jù)集,對稅務(wù)風(fēng)險模型架構(gòu)進行訓(xùn)練,得到符合模型性能指標的稅務(wù)風(fēng)險模型,以及所述稅務(wù)風(fēng)險模型的第一性能指標數(shù)據(jù),具體包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述正交實驗表進行分析,得到數(shù)據(jù)質(zhì)量指標與模型性能指標之間的映射關(guān)系,具體包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)先構(gòu)建的數(shù)據(jù)質(zhì)量指標,提取第一稅務(wù)風(fēng)險數(shù)據(jù)集的第一質(zhì)量指標數(shù)據(jù)之前,所述方法還包括:
9.一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練設(shè)備,其特征在于,包括:
10.一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練非易失性計算機存儲介質(zhì),存儲有計算機可執(zhí)行指令,其特征在于,所述計算機可執(zhí)行指令能夠執(zhí)行上述權(quán)利要求1-8任一項所述的一種企業(yè)稅務(wù)風(fēng)險模型訓(xùn)練方法。