一種基于大數(shù)據(jù)分析的數(shù)字化管理方法及系統(tǒng)與流程

文檔序號(hào)：40405076發(fā)布日期：2024-12-20 12:28閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于大數(shù)據(jù)分析的數(shù)字化管理方法及系統(tǒng)與流程

本發(fā)明涉及文本處理，具體涉及一種基于大數(shù)據(jù)分析的數(shù)字化管理方法及系統(tǒng)。

背景技術(shù)：

1、在數(shù)字化時(shí)代，企業(yè)和組織面臨著海量信息管理的挑戰(zhàn)，尤其是文檔數(shù)據(jù)的快速增長使得傳統(tǒng)管理方法難以應(yīng)對(duì)。隨著大數(shù)據(jù)技術(shù)的發(fā)展，數(shù)據(jù)分析能力得到了顯著提升，企業(yè)亟需有效利用這些技術(shù)以實(shí)現(xiàn)信息的高效處理和管理。然而，現(xiàn)有的文檔管理系統(tǒng)多依賴于靜態(tài)和主觀的篩選標(biāo)準(zhǔn)，導(dǎo)致重要信息易被忽視或錯(cuò)誤評(píng)估。此外，缺乏對(duì)文本內(nèi)容深入分析的能力，導(dǎo)致文檔管理混亂，存在分類存儲(chǔ)精度低的問題。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)中的上述不足，本發(fā)明提供的一種基于大數(shù)據(jù)分析的數(shù)字化管理方法及系統(tǒng)解決了現(xiàn)有技術(shù)存在分類存儲(chǔ)精度低的問題。

2、為了達(dá)到上述發(fā)明目的，本發(fā)明采用的技術(shù)方案為：一種基于大數(shù)據(jù)分析的數(shù)字化管理方法，包括以下步驟：

3、s1、對(duì)文檔中文本內(nèi)容進(jìn)行分句，得到多句文本；

4、s2、將每句文本中的字進(jìn)行組合，得到第一類詞組集合、第二類詞組集合和第三類詞組集合；

5、s3、計(jì)算每類詞組集合中每個(gè)詞組的顯著度，構(gòu)建第一類顯著度序列、第二類顯著度序列和第三類顯著度序列；

6、s4、采用多層語義分類模型處理第一類詞組集合、第二類詞組集合和第三類詞組集合，基于第一類顯著度序列、第二類顯著度序列和第三類顯著度序列施加的顯著度，得到每句文本的重要度；

7、s5、對(duì)文檔中各句文本的重要度進(jìn)行加權(quán)，得到文檔的重要度，基于文檔的重要度，對(duì)文檔分配存儲(chǔ)空間。

8、進(jìn)一步地，所述s2包括以下分步驟：

9、s21、采用長度為2的滑動(dòng)隊(duì)列在每句文本上滑動(dòng)，得到每句文本對(duì)應(yīng)的第一類詞組集合，其中，第一類詞組集合包含多個(gè)詞組，一個(gè)詞組長度為2；

10、s22、采用長度為3的滑動(dòng)隊(duì)列在每句文本上滑動(dòng)，得到每句文本對(duì)應(yīng)的第二類詞組子集，其中，第二類詞組子集中包含多個(gè)詞組，一個(gè)詞組長度為3；

11、s23、采用長度為4的滑動(dòng)隊(duì)列在每句文本上滑動(dòng)，得到每句文本對(duì)應(yīng)的第三類詞組子集，其中，第三類詞組子集中包含多個(gè)詞組，一個(gè)詞組長度為4，其中，滑動(dòng)窗口每次前進(jìn)1個(gè)字的長度，每滑動(dòng)一次，得到一個(gè)詞組。

12、進(jìn)一步地，所述s3包括以下分步驟：

13、s31、提取每類詞組集合中每個(gè)詞組，計(jì)算每個(gè)詞組與關(guān)鍵詞集合中各關(guān)鍵詞的相似度；

14、s32、根據(jù)最大相似度對(duì)應(yīng)的關(guān)鍵詞標(biāo)注的重要度和最大相似度，計(jì)算每個(gè)詞組的關(guān)鍵系數(shù)；

15、s33、標(biāo)記包含該詞組的已分配存儲(chǔ)空間的文檔為參考文檔；

16、s34、統(tǒng)計(jì)詞組在參考文檔中出現(xiàn)的頻次；

17、s35、根據(jù)該詞組在參考文檔中出現(xiàn)的頻次、參考文檔的重要度和關(guān)鍵系數(shù)，計(jì)算詞組的顯著度；

18、s36、將各個(gè)詞組的顯著度作為元素構(gòu)建顯著度序列，其中，s31中詞組集合為第一類詞組集合時(shí)，s35中顯著度序列為第一類顯著度序列；s31中詞組集合為第二類詞組集合時(shí)，s35中顯著度序列為第二類顯著度序列；s31中詞組集合為第三類詞組集合時(shí)，s35中顯著度序列為第三類顯著度序列。

19、進(jìn)一步地，所述s32中計(jì)算每個(gè)詞組的關(guān)鍵系數(shù)的公式為：，其中，γ為詞組的關(guān)鍵系數(shù)，θkey為最大相似度對(duì)應(yīng)的關(guān)鍵詞標(biāo)注的重要度，s為最大相似度。

20、進(jìn)一步地，所述s35中計(jì)算詞組的顯著度的公式為：，其中，μ為詞組的顯著度，ni為該詞組在第i個(gè)參考文檔中出現(xiàn)的頻次，θfile,i為第i個(gè)參考文檔的重要度，i為參考文檔的數(shù)量，γ為詞組的關(guān)鍵系數(shù)，i為正整數(shù)。

21、進(jìn)一步地，所述s4中多層語義分類模型包括：第一類語義提取單元、第二類語義提取單元、第三類語義提取單元、第一乘法器m1、第二乘法器m2、第三乘法器m3和分類器；

22、所述第一類語義提取單元的輸入端用于輸入第一類詞組集合；所述第二類語義提取單元的輸入端用于輸入第二類詞組集合；所述第三類語義提取單元的輸入端用于輸入第三類詞組集合；所述第一乘法器m1的第一輸入端與第一類語義提取單元的輸出端連接，其第二輸入端用于輸入第一類顯著度序列；所述第二乘法器m2的第一輸入端與第二類語義提取單元的輸出端連接，其第二輸入端用于輸入第二類顯著度序列；所述第三乘法器m3的第一輸入端與第三類語義提取單元的輸出端連接，其第二輸入端用于輸入第三類顯著度序列；所述分類器的輸入端分別與第一乘法器m1的輸出端、第二乘法器m2的輸出端和第三乘法器m3的輸出端連接，其輸出端作為多層語義分類模型的輸出端。

23、進(jìn)一步地，所述第一類語義提取單元、第二類語義提取單元和第三類語義提取單元均包括：多個(gè)lilstm層、多個(gè)詞組語義提取層和concat層，每個(gè)lilstm層用于處理一個(gè)詞組，一個(gè)詞組語義提取層用于處理一個(gè)lilstm層輸出的特征，所述concat層用于將多個(gè)詞組語義提取層輸出的語義特征值拼接成語義特征向量。

24、進(jìn)一步地，所述詞組語義提取層的表達(dá)式為：，其中，x為詞組語義提取層輸出的語義特征值，tanh為雙曲正切激活函數(shù)，hm為lilstm層輸出的第m個(gè)特征，ωm為hm的權(quán)重，bm為hm的偏置，m為lilstm層輸出的特征的數(shù)量，m為正整數(shù)。

25、進(jìn)一步地，所述第一乘法器m1、第二乘法器m2和第三乘法器m3用于對(duì)兩個(gè)輸入進(jìn)行按元素相乘。

26、一種基于大數(shù)據(jù)分析的數(shù)字化管理系統(tǒng)，包括：分句子系統(tǒng)、組合子系統(tǒng)、序列構(gòu)建子系統(tǒng)、分類子系統(tǒng)和空間分配子系統(tǒng)；

27、所述分句子系統(tǒng)用于對(duì)文檔中文本內(nèi)容進(jìn)行分句，得到多句文本；

28、所述組合子系統(tǒng)用于將每句文本中的字進(jìn)行組合，得到第一類詞組集合、第二類詞組集合和第三類詞組集合；

29、所述序列構(gòu)建子系統(tǒng)用于計(jì)算每類詞組集合中每個(gè)詞組的顯著度，構(gòu)建第一類顯著度序列、第二類顯著度序列和第三類顯著度序列；

30、所述分類子系統(tǒng)用于采用多層語義分類模型處理第一類詞組集合、第二類詞組集合和第三類詞組集合，基于第一類顯著度序列、第二類顯著度序列和第三類顯著度序列施加的顯著度，得到每句文本的重要度；

31、所述空間分配子系統(tǒng)用于對(duì)文檔中各句文本的重要度進(jìn)行加權(quán)，得到文檔的重要度，基于文檔的重要度，對(duì)文檔分配存儲(chǔ)空間。

32、本發(fā)明的有益效果為：本發(fā)明將文檔中文本內(nèi)容進(jìn)行分句，實(shí)現(xiàn)按句分析，將每句文本中的字進(jìn)行組合得到三種字組合，分別構(gòu)成三類詞組集合，每類詞組集合體現(xiàn)不同的字組合，不同字組合具備不同層次的含義，計(jì)算出每個(gè)詞組的顯著度，構(gòu)建三類顯著度序列，采用多層語義分類模型提取不同層次的含義，并結(jié)合詞組的顯著度，預(yù)測出每句文本的重要度，結(jié)合文檔中每句文本的重要度，得到文檔的重要度，按文檔的重要度對(duì)文檔進(jìn)行存儲(chǔ)，實(shí)現(xiàn)對(duì)不同重要性的文檔分類存儲(chǔ)，便于文檔管理，極大地提升了文檔管理的效率與準(zhǔn)確性，且本發(fā)明結(jié)合多層次詞組的語義提高了每句文本分析的精度，具備深入分析文本的能力，本發(fā)明結(jié)合詞組的顯著度防止重要信息丟失，提高了分類存儲(chǔ)精度。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：薛連珠,劉建成,虞磊,王琳,劉淑霞,張?jiān)讫?/span>
技術(shù)所有人：山東聯(lián)信數(shù)字科技有限公司
我是此專利的發(fā)明人

上一篇：一種大容量存儲(chǔ)系統(tǒng)硬毀鑰電路的制作方法
上一篇：過濾裝置和凈水設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于大數(shù)據(jù)分析的數(shù)字化管理方法及系統(tǒng)與流程