本發(fā)明涉及文本處理,具體涉及一種基于大數(shù)據(jù)分析的數(shù)字化管理方法及系統(tǒng)。
背景技術(shù):
1、在數(shù)字化時(shí)代,企業(yè)和組織面臨著海量信息管理的挑戰(zhàn),尤其是文檔數(shù)據(jù)的快速增長使得傳統(tǒng)管理方法難以應(yīng)對(duì)。隨著大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)分析能力得到了顯著提升,企業(yè)亟需有效利用這些技術(shù)以實(shí)現(xiàn)信息的高效處理和管理。然而,現(xiàn)有的文檔管理系統(tǒng)多依賴于靜態(tài)和主觀的篩選標(biāo)準(zhǔn),導(dǎo)致重要信息易被忽視或錯(cuò)誤評(píng)估。此外,缺乏對(duì)文本內(nèi)容深入分析的能力,導(dǎo)致文檔管理混亂,存在分類存儲(chǔ)精度低的問題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的一種基于大數(shù)據(jù)分析的數(shù)字化管理方法及系統(tǒng)解決了現(xiàn)有技術(shù)存在分類存儲(chǔ)精度低的問題。
2、為了達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:一種基于大數(shù)據(jù)分析的數(shù)字化管理方法,包括以下步驟:
3、s1、對(duì)文檔中文本內(nèi)容進(jìn)行分句,得到多句文本;
4、s2、將每句文本中的字進(jìn)行組合,得到第一類詞組集合、第二類詞組集合和第三類詞組集合;
5、s3、計(jì)算每類詞組集合中每個(gè)詞組的顯著度,構(gòu)建第一類顯著度序列、第二類顯著度序列和第三類顯著度序列;
6、s4、采用多層語義分類模型處理第一類詞組集合、第二類詞組集合和第三類詞組集合,基于第一類顯著度序列、第二類顯著度序列和第三類顯著度序列施加的顯著度,得到每句文本的重要度;
7、s5、對(duì)文檔中各句文本的重要度進(jìn)行加權(quán),得到文檔的重要度,基于文檔的重要度,對(duì)文檔分配存儲(chǔ)空間。
8、進(jìn)一步地,所述s2包括以下分步驟:
9、s21、采用長度為2的滑動(dòng)隊(duì)列在每句文本上滑動(dòng),得到每句文本對(duì)應(yīng)的第一類詞組集合,其中,第一類詞組集合包含多個(gè)詞組,一個(gè)詞組長度為2;
10、s22、采用長度為3的滑動(dòng)隊(duì)列在每句文本上滑動(dòng),得到每句文本對(duì)應(yīng)的第二類詞組子集,其中,第二類詞組子集中包含多個(gè)詞組,一個(gè)詞組長度為3;
11、s23、采用長度為4的滑動(dòng)隊(duì)列在每句文本上滑動(dòng),得到每句文本對(duì)應(yīng)的第三類詞組子集,其中,第三類詞組子集中包含多個(gè)詞組,一個(gè)詞組長度為4,其中,滑動(dòng)窗口每次前進(jìn)1個(gè)字的長度,每滑動(dòng)一次,得到一個(gè)詞組。
12、進(jìn)一步地,所述s3包括以下分步驟:
13、s31、提取每類詞組集合中每個(gè)詞組,計(jì)算每個(gè)詞組與關(guān)鍵詞集合中各關(guān)鍵詞的相似度;
14、s32、根據(jù)最大相似度對(duì)應(yīng)的關(guān)鍵詞標(biāo)注的重要度和最大相似度,計(jì)算每個(gè)詞組的關(guān)鍵系數(shù);
15、s33、標(biāo)記包含該詞組的已分配存儲(chǔ)空間的文檔為參考文檔;
16、s34、統(tǒng)計(jì)詞組在參考文檔中出現(xiàn)的頻次;
17、s35、根據(jù)該詞組在參考文檔中出現(xiàn)的頻次、參考文檔的重要度和關(guān)鍵系數(shù),計(jì)算詞組的顯著度;
18、s36、將各個(gè)詞組的顯著度作為元素構(gòu)建顯著度序列,其中,s31中詞組集合為第一類詞組集合時(shí),s35中顯著度序列為第一類顯著度序列;s31中詞組集合為第二類詞組集合時(shí),s35中顯著度序列為第二類顯著度序列;s31中詞組集合為第三類詞組集合時(shí),s35中顯著度序列為第三類顯著度序列。
19、進(jìn)一步地,所述s32中計(jì)算每個(gè)詞組的關(guān)鍵系數(shù)的公式為:,其中,γ為詞組的關(guān)鍵系數(shù),θkey為最大相似度對(duì)應(yīng)的關(guān)鍵詞標(biāo)注的重要度,s為最大相似度。
20、進(jìn)一步地,所述s35中計(jì)算詞組的顯著度的公式為:,其中,μ為詞組的顯著度,ni為該詞組在第i個(gè)參考文檔中出現(xiàn)的頻次,θfile,i為第i個(gè)參考文檔的重要度,i為參考文檔的數(shù)量,γ為詞組的關(guān)鍵系數(shù),i為正整數(shù)。
21、進(jìn)一步地,所述s4中多層語義分類模型包括:第一類語義提取單元、第二類語義提取單元、第三類語義提取單元、第一乘法器m1、第二乘法器m2、第三乘法器m3和分類器;
22、所述第一類語義提取單元的輸入端用于輸入第一類詞組集合;所述第二類語義提取單元的輸入端用于輸入第二類詞組集合;所述第三類語義提取單元的輸入端用于輸入第三類詞組集合;所述第一乘法器m1的第一輸入端與第一類語義提取單元的輸出端連接,其第二輸入端用于輸入第一類顯著度序列;所述第二乘法器m2的第一輸入端與第二類語義提取單元的輸出端連接,其第二輸入端用于輸入第二類顯著度序列;所述第三乘法器m3的第一輸入端與第三類語義提取單元的輸出端連接,其第二輸入端用于輸入第三類顯著度序列;所述分類器的輸入端分別與第一乘法器m1的輸出端、第二乘法器m2的輸出端和第三乘法器m3的輸出端連接,其輸出端作為多層語義分類模型的輸出端。
23、進(jìn)一步地,所述第一類語義提取單元、第二類語義提取單元和第三類語義提取單元均包括:多個(gè)lilstm層、多個(gè)詞組語義提取層和concat層,每個(gè)lilstm層用于處理一個(gè)詞組,一個(gè)詞組語義提取層用于處理一個(gè)lilstm層輸出的特征,所述concat層用于將多個(gè)詞組語義提取層輸出的語義特征值拼接成語義特征向量。
24、進(jìn)一步地,所述詞組語義提取層的表達(dá)式為:,其中,x為詞組語義提取層輸出的語義特征值,tanh為雙曲正切激活函數(shù),hm為lilstm層輸出的第m個(gè)特征,ωm為hm的權(quán)重,bm為hm的偏置,m為lilstm層輸出的特征的數(shù)量,m為正整數(shù)。
25、進(jìn)一步地,所述第一乘法器m1、第二乘法器m2和第三乘法器m3用于對(duì)兩個(gè)輸入進(jìn)行按元素相乘。
26、一種基于大數(shù)據(jù)分析的數(shù)字化管理系統(tǒng),包括:分句子系統(tǒng)、組合子系統(tǒng)、序列構(gòu)建子系統(tǒng)、分類子系統(tǒng)和空間分配子系統(tǒng);
27、所述分句子系統(tǒng)用于對(duì)文檔中文本內(nèi)容進(jìn)行分句,得到多句文本;
28、所述組合子系統(tǒng)用于將每句文本中的字進(jìn)行組合,得到第一類詞組集合、第二類詞組集合和第三類詞組集合;
29、所述序列構(gòu)建子系統(tǒng)用于計(jì)算每類詞組集合中每個(gè)詞組的顯著度,構(gòu)建第一類顯著度序列、第二類顯著度序列和第三類顯著度序列;
30、所述分類子系統(tǒng)用于采用多層語義分類模型處理第一類詞組集合、第二類詞組集合和第三類詞組集合,基于第一類顯著度序列、第二類顯著度序列和第三類顯著度序列施加的顯著度,得到每句文本的重要度;
31、所述空間分配子系統(tǒng)用于對(duì)文檔中各句文本的重要度進(jìn)行加權(quán),得到文檔的重要度,基于文檔的重要度,對(duì)文檔分配存儲(chǔ)空間。
32、本發(fā)明的有益效果為:本發(fā)明將文檔中文本內(nèi)容進(jìn)行分句,實(shí)現(xiàn)按句分析,將每句文本中的字進(jìn)行組合得到三種字組合,分別構(gòu)成三類詞組集合,每類詞組集合體現(xiàn)不同的字組合,不同字組合具備不同層次的含義,計(jì)算出每個(gè)詞組的顯著度,構(gòu)建三類顯著度序列,采用多層語義分類模型提取不同層次的含義,并結(jié)合詞組的顯著度,預(yù)測出每句文本的重要度,結(jié)合文檔中每句文本的重要度,得到文檔的重要度,按文檔的重要度對(duì)文檔進(jìn)行存儲(chǔ),實(shí)現(xiàn)對(duì)不同重要性的文檔分類存儲(chǔ),便于文檔管理,極大地提升了文檔管理的效率與準(zhǔn)確性,且本發(fā)明結(jié)合多層次詞組的語義提高了每句文本分析的精度,具備深入分析文本的能力,本發(fā)明結(jié)合詞組的顯著度防止重要信息丟失,提高了分類存儲(chǔ)精度。