本發(fā)明涉及單據(jù)數(shù)據(jù)處理,尤其涉及一種基于自編碼器的單據(jù)智能評價(jià)方法及系統(tǒng)。
背景技術(shù):
1、在經(jīng)濟(jì)全球化和數(shù)字化轉(zhuǎn)型的風(fēng)潮中,眾多企業(yè)紛紛建立了自身的財(cái)務(wù)共享中心,即專門用于處理和分享財(cái)務(wù)信息的平臺。財(cái)務(wù)共享中心每天都會(huì)收到海量并且種類繁多的單據(jù),如何高效、精準(zhǔn)、迅速地處理它們,對于資金配置、庫存管理及供應(yīng)鏈優(yōu)化至關(guān)重要。然而,傳統(tǒng)的手工處理方法既耗時(shí)又易錯(cuò),已無法滿足企業(yè)快速發(fā)展的要求。因此,很多企業(yè)開始尋求使用計(jì)算機(jī)代替人力進(jìn)行單據(jù)處理的解決方案,而通過提取處理單據(jù)的評價(jià)向量信息進(jìn)行單據(jù)處理過程優(yōu)化就是該解決方案中至關(guān)重要的一步。
2、當(dāng)前對提取處理單據(jù)的評價(jià)向量信息技術(shù)中,大多依賴人力編碼或基于統(tǒng)計(jì)的特征提取技術(shù)。其中廣泛應(yīng)用的有主成分分析(principal?component?analysis,pca)和特征選擇等方法,這些技術(shù)可以簡單地處理樣本數(shù)據(jù),并且技術(shù)難度低,可以快速提取評價(jià)信息向量并且進(jìn)行分析。盡管簡單且易于上手,但面對數(shù)據(jù)量的爆炸式增長,上述方法已經(jīng)無法應(yīng)對海量的單據(jù)數(shù)據(jù),且特征提取精度有限。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供了一種基于自編碼器的單據(jù)智能評價(jià)方法及系統(tǒng),用于解決如下技術(shù)問題:現(xiàn)有的單據(jù)智能評價(jià)方法中,單據(jù)評價(jià)向量信息的提取技術(shù)無法應(yīng)對爆炸式增長的單據(jù)數(shù)據(jù),且特征提取精度有限,不利于單據(jù)的智能評價(jià)。
2、本發(fā)明實(shí)施例采用下述技術(shù)方案:
3、一方面,本發(fā)明實(shí)施例提供了一種基于自編碼器的單據(jù)智能評價(jià)方法,方法包括:在財(cái)務(wù)共享中心系統(tǒng)中收集單據(jù)評價(jià)數(shù)據(jù),并進(jìn)行預(yù)處理,得到單據(jù)評價(jià)數(shù)據(jù)集;
4、對自編碼器進(jìn)行結(jié)構(gòu)優(yōu)化,得到新型自編碼器;
5、通過所述新型自編碼器,對所述單據(jù)評價(jià)數(shù)據(jù)集進(jìn)行特征提取,得到評價(jià)數(shù)據(jù)特征信息;
6、通過所述評價(jià)數(shù)據(jù)特征信息,訓(xùn)練分類模型;
7、通過所述新型自編碼器以及訓(xùn)練好的分類模型,對目標(biāo)單據(jù)評價(jià)數(shù)據(jù)進(jìn)行分類識別,生成單據(jù)評價(jià)報(bào)告。
8、在一種可行的實(shí)施方式中,在財(cái)務(wù)共享中心系統(tǒng)中收集單據(jù)評價(jià)數(shù)據(jù),并進(jìn)行預(yù)處理,得到單據(jù)評價(jià)數(shù)據(jù)集,具體包括:
9、在財(cái)務(wù)共享中心系統(tǒng)中大規(guī)模提取各類單據(jù)的單據(jù)評價(jià)數(shù)據(jù);其中,所述各類單據(jù)至少包括報(bào)銷單據(jù)、銷售訂單以及采購訂單;
10、通過one-hot編碼方式,將提取出的單據(jù)評價(jià)數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù);
11、通過z-score標(biāo)準(zhǔn)化方法,對所述數(shù)值型數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理;
12、采用離差標(biāo)準(zhǔn)化方法,對經(jīng)過標(biāo)準(zhǔn)化處理后的數(shù)值型數(shù)據(jù)進(jìn)行歸一化處理;
13、對歸一化處理后的數(shù)據(jù)進(jìn)行擴(kuò)充,并轉(zhuǎn)換為二維數(shù)據(jù),得到所述單據(jù)評價(jià)數(shù)據(jù)集。
14、在一種可行的實(shí)施方式中,對自編碼器進(jìn)行結(jié)構(gòu)優(yōu)化,得到新型自編碼器,具體包括:
15、設(shè)置自編碼器的輸入向量為x∈rl;
16、在所述自編碼器的每一個(gè)隱藏層中添加預(yù)設(shè)編碼函數(shù)hi=σ(ωihi-1+bi),進(jìn)行結(jié)構(gòu)優(yōu)化,以將自編碼器每一個(gè)隱藏層學(xué)習(xí)到的輸入向量進(jìn)行編碼并映射為xi∈rl;其中,i=(1,2,……,n),n為隱藏層的個(gè)數(shù),σ為激活函數(shù),ω為隱藏層卷積核的參數(shù),b為卷積核的偏置,hi則為經(jīng)過第i個(gè)隱藏層后輸入向量的編碼表示,l為輸入向量的維度,rl為原始數(shù)據(jù)樣本集;
17、通過結(jié)構(gòu)優(yōu)化后的所述自編碼器輸出所述原始數(shù)據(jù)樣本集的特征重構(gòu)誤差;
18、基于所述特征重構(gòu)誤差,對所述自編碼器進(jìn)行誤差調(diào)整,得到所述新型自編碼器。
19、在一種可行的實(shí)施方式中,通過結(jié)構(gòu)優(yōu)化后的所述自編碼器輸出所述原始數(shù)據(jù)樣本集的特征重構(gòu)誤差,具體包括:
20、將所述原始數(shù)據(jù)樣本集輸入結(jié)構(gòu)優(yōu)化后的所述自編碼器中,輸出對應(yīng)的特征重構(gòu)結(jié)果集;
21、根據(jù)獲取結(jié)構(gòu)優(yōu)化后的自編碼器的特征重構(gòu)誤差其中,m為訓(xùn)練樣本的個(gè)數(shù),xi為第i個(gè)原始數(shù)據(jù)樣本,yi為第i個(gè)原始數(shù)據(jù)樣本xi的特征重構(gòu)結(jié)果。
22、在一種可行的實(shí)施方式中,基于所述特征重構(gòu)誤差,對所述自編碼器進(jìn)行誤差調(diào)整,得到所述新型自編碼器,具體包括:
23、將所述特征重構(gòu)誤差反向傳播到所述自編碼器的輸入層,同時(shí)更新每一個(gè)隱藏層的權(quán)重和偏置;
24、誤差調(diào)整之后,重新計(jì)算自編碼器的特征重構(gòu)誤差,直至所述特征重構(gòu)誤差小于預(yù)設(shè)閾值,保存此時(shí)的自編碼器,得到所述新型自編碼器。
25、在一種可行的實(shí)施方式中,通過所述評價(jià)數(shù)據(jù)特征信息,訓(xùn)練分類模型,具體包括:
26、通過支持向量機(jī)svm算法,構(gòu)建分類模型;所述分類模型中包含多個(gè)分類器,用于分別識別不同種類的單據(jù)評價(jià)數(shù)據(jù);
27、將所述評價(jià)數(shù)據(jù)特征信息作為所述分類模型的輸入,并選擇徑向基函數(shù)作為svm算法的核函數(shù),訓(xùn)練所述分類模型;
28、在所述新型自編碼器的輸出層之后連接所述分類模型。
29、在一種可行的實(shí)施方式中,在通過所述評價(jià)數(shù)據(jù)特征信息,訓(xùn)練分類模型之后,所述方法還包括:
30、通過t-sne降維技術(shù)將測試集中的評價(jià)數(shù)據(jù)向量進(jìn)行降維,并進(jìn)行可視化處理;
31、將處理后的所述測試集應(yīng)用于訓(xùn)練后的分類模型上,并計(jì)算輸出值與實(shí)際值之間的余弦距離,以評估分類模型的分類性能;
32、若所述分類性能未達(dá)到預(yù)設(shè)要求,則對所述分類模型進(jìn)行進(jìn)一步調(diào)優(yōu)。
33、在一種可行的實(shí)施方式中,通過所述新型自編碼器以及訓(xùn)練好的分類模型,對目標(biāo)單據(jù)評價(jià)數(shù)據(jù)進(jìn)行分類識別,生成單據(jù)評價(jià)報(bào)告,具體包括:
34、將所述目標(biāo)單據(jù)評價(jià)數(shù)據(jù)輸入所述新型自編碼器中進(jìn)行特征提取,得到對應(yīng)的目標(biāo)特征重構(gòu)結(jié)果;
35、將所述新型自編碼器的輸出層輸出的所述目標(biāo)特征重構(gòu)結(jié)果,直接輸入所述分類模型中,進(jìn)行分類識別,得到分類結(jié)果;
36、根據(jù)所述分類結(jié)果,生成所述單據(jù)評價(jià)報(bào)告。
37、在一種可行的實(shí)施方式中,根據(jù)所述分類結(jié)果,生成所述單據(jù)評價(jià)報(bào)告,具體包括:
38、在所述分類結(jié)果中提取所述目標(biāo)單據(jù)評價(jià)數(shù)據(jù)的單據(jù)類型、評價(jià)類型以及問題類型,并填入預(yù)設(shè)評價(jià)報(bào)告模板中,生成所述單據(jù)評價(jià)報(bào)告。
39、另一方面,本發(fā)明實(shí)施例還提供了一種基于自編碼器的單據(jù)智能評價(jià)系統(tǒng),所述系統(tǒng)包括:
40、數(shù)據(jù)準(zhǔn)備模塊,用于在財(cái)務(wù)共享中心系統(tǒng)中收集單據(jù)評價(jià)數(shù)據(jù),并進(jìn)行預(yù)處理,得到單據(jù)評價(jià)數(shù)據(jù)集;
41、特征提取模塊,用于對自編碼器進(jìn)行結(jié)構(gòu)優(yōu)化,得到新型自編碼器;通過所述新型自編碼器,對所述單據(jù)評價(jià)數(shù)據(jù)集進(jìn)行特征提取,得到評價(jià)數(shù)據(jù)特征信息;
42、單據(jù)智能評價(jià)模塊,用于通過所述評價(jià)數(shù)據(jù)特征信息,訓(xùn)練分類模型;通過所述新型自編碼器以及訓(xùn)練好的分類模型,對目標(biāo)單據(jù)評價(jià)數(shù)據(jù)進(jìn)行分類識別,生成單據(jù)評價(jià)報(bào)告。
43、與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例提供的一種基于自編碼器的單據(jù)智能評價(jià)方法及系統(tǒng),具有如下有益效果:
44、本發(fā)明首先提出了一種只保留編碼器部分的非對稱的深度卷積自編碼器方法,通過保留編碼器部分并結(jié)合svm分類器,能夠有效地提取和利用中間隱藏層的編碼表示來識別評價(jià)信息,這有望提高特征提取的效率和準(zhǔn)確性。這種方法的非對稱堆疊多層編碼模型也為處理評價(jià)數(shù)據(jù)提供了一種新穎而有效的途徑。
45、與現(xiàn)有技術(shù)相比,本發(fā)明不關(guān)注自編碼器的輸出是什么,而是關(guān)注中間隱藏層的編碼表示,換言之則是關(guān)注從輸入層到隱藏層的映射過程。因此本發(fā)明更適合處理基于單據(jù)的智能評價(jià)信息,能夠完成更加精細(xì)的向量化處理,保留評價(jià)信息所特有的特征特性,為后續(xù)單據(jù)處理流程提供高質(zhì)量的評價(jià)向量參考,提升智能模型的訓(xùn)練速度和降低模型的計(jì)算成本,克服了傳統(tǒng)特征提取技術(shù)在維度災(zāi)難、數(shù)據(jù)識別規(guī)模準(zhǔn)確性等方面存在的缺點(diǎn)。