本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估方法及系統(tǒng)。
背景技術(shù):
1、在現(xiàn)代信息技術(shù)迅猛發(fā)展的背景下,大數(shù)據(jù)已成為支撐企業(yè)戰(zhàn)略決策和運(yùn)營(yíng)優(yōu)化的核心資產(chǎn),數(shù)據(jù)資產(chǎn)評(píng)估方法是信息科學(xué)和數(shù)據(jù)管理領(lǐng)域中的一個(gè)重要研究方向,關(guān)鍵在于如何準(zhǔn)確、高效地評(píng)估和利用這些數(shù)據(jù)資產(chǎn)的價(jià)值。隨著計(jì)算能力的提升和數(shù)據(jù)采集技術(shù)的進(jìn)步,多源數(shù)據(jù)的整合與分析成為可能,但同時(shí)也帶來(lái)了新的挑戰(zhàn)?,F(xiàn)有方法往往缺乏對(duì)數(shù)據(jù)資產(chǎn)之間關(guān)系動(dòng)態(tài)變化的有效捕捉,在識(shí)別數(shù)據(jù)資產(chǎn)的關(guān)鍵節(jié)點(diǎn)和重要關(guān)系方面存在不足,在數(shù)據(jù)資產(chǎn)的價(jià)值評(píng)估的全面性和準(zhǔn)確性上還有待進(jìn)一步提高,因此,需要一種更動(dòng)態(tài)以及深入的數(shù)據(jù)資產(chǎn)評(píng)估方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的在于提供一種基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估方法及系統(tǒng),以解決上述問(wèn)題。
2、本發(fā)明通過(guò)下述技術(shù)方案實(shí)現(xiàn):
3、一種基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估方法及系統(tǒng),其包括,
4、收集多源數(shù)據(jù)存儲(chǔ)至中央數(shù)據(jù)庫(kù)并上傳到區(qū)塊鏈中進(jìn)行數(shù)據(jù)確權(quán)與記錄;
5、基于中央數(shù)據(jù)庫(kù)構(gòu)建數(shù)據(jù)資產(chǎn)的圖網(wǎng)絡(luò),捕捉圖網(wǎng)絡(luò)中數(shù)據(jù)關(guān)系的時(shí)間變化并從圖網(wǎng)絡(luò)中提取節(jié)點(diǎn)特征;
6、基于提取的節(jié)點(diǎn)特征識(shí)別影響數(shù)據(jù)資產(chǎn)價(jià)值的因素,構(gòu)建資產(chǎn)評(píng)估模型評(píng)估數(shù)據(jù)資產(chǎn)價(jià)值;
7、存儲(chǔ)數(shù)據(jù)資產(chǎn)評(píng)估過(guò)程中產(chǎn)生的數(shù)據(jù)并實(shí)施訪問(wèn)控制。
8、作為本發(fā)明所述基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估方法的一種優(yōu)選方案,其中:所述收集多源數(shù)據(jù)存儲(chǔ)至中央數(shù)據(jù)庫(kù)并上傳到區(qū)塊鏈中進(jìn)行數(shù)據(jù)確權(quán)與記錄指從各數(shù)據(jù)源收集數(shù)據(jù)并進(jìn)行預(yù)處理后存儲(chǔ)進(jìn)中央數(shù)據(jù)庫(kù)中,使用solidity語(yǔ)言編寫(xiě)智能合約,在以太坊平臺(tái)上部署智能合約,將數(shù)據(jù)存儲(chǔ)在區(qū)塊鏈上。
9、作為本發(fā)明所述基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估方法的一種優(yōu)選方案,其中:所述基于中央數(shù)據(jù)庫(kù)構(gòu)建數(shù)據(jù)資產(chǎn)的圖網(wǎng)絡(luò)指安裝neo4j圖數(shù)據(jù)庫(kù)和elasticsearch,構(gòu)建圖數(shù)據(jù)模型,將兩個(gè)節(jié)點(diǎn)之間的交易關(guān)系作為邊連接相關(guān)的數(shù)據(jù)資產(chǎn)節(jié)點(diǎn)和用戶節(jié)點(diǎn);
10、在基礎(chǔ)模型上增加數(shù)據(jù)資產(chǎn)的多維屬性并根據(jù)數(shù)據(jù)資產(chǎn)的交易頻率和金額設(shè)置邊的權(quán)重;
11、基于數(shù)據(jù)資產(chǎn)間的交互強(qiáng)度和頻率使用數(shù)據(jù)資產(chǎn)影響力評(píng)分公式定義數(shù)據(jù)資產(chǎn)的中心性:
12、
13、式中,s(v)表示資產(chǎn)節(jié)點(diǎn)的影響力評(píng)分,wuv是節(jié)點(diǎn)u和v之間的關(guān)系權(quán)重,tuv是最近的交互時(shí)間,f是時(shí)間衰減函數(shù);
14、計(jì)算每個(gè)數(shù)據(jù)資產(chǎn)節(jié)點(diǎn)的影響力評(píng)分并將影響力評(píng)分作為節(jié)點(diǎn)的屬性;
15、建立實(shí)時(shí)數(shù)據(jù)監(jiān)控系統(tǒng)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)資產(chǎn)的動(dòng)態(tài)變化并將更新推送至neo4j,使用指數(shù)衰減函數(shù)實(shí)時(shí)調(diào)整數(shù)據(jù)資產(chǎn)節(jié)點(diǎn)的初始價(jià)值屬性;
16、使用批量導(dǎo)入工具將數(shù)據(jù)資產(chǎn)和交易記錄導(dǎo)入neo4j,基于市場(chǎng)波動(dòng)和歷史數(shù)據(jù)資產(chǎn)使用風(fēng)險(xiǎn)評(píng)估公式更新數(shù)據(jù)資產(chǎn)節(jié)點(diǎn)的風(fēng)險(xiǎn)屬性;
17、當(dāng)監(jiān)測(cè)到數(shù)據(jù)資產(chǎn)的初始價(jià)值和風(fēng)險(xiǎn)發(fā)生變化時(shí),自動(dòng)更新圖網(wǎng)絡(luò)中數(shù)據(jù)資產(chǎn)節(jié)點(diǎn)的價(jià)值屬性和風(fēng)險(xiǎn)屬性。
18、作為本發(fā)明所述基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估方法的一種優(yōu)選方案,其中:所述捕捉數(shù)據(jù)關(guān)系的時(shí)間變化并從圖網(wǎng)絡(luò)中提取節(jié)點(diǎn)特征指為每個(gè)邊添加時(shí)間屬性并定義時(shí)間窗口,對(duì)數(shù)據(jù)資產(chǎn)關(guān)系進(jìn)行時(shí)間序列分析,計(jì)算每個(gè)數(shù)據(jù)資產(chǎn)節(jié)點(diǎn)在不同時(shí)間窗口的統(tǒng)計(jì)指標(biāo),在neo4j中使用cypher查詢來(lái)生成統(tǒng)計(jì)指標(biāo),并將統(tǒng)計(jì)指標(biāo)作為屬性添加到相應(yīng)的數(shù)據(jù)資產(chǎn)節(jié)點(diǎn)上;
19、獲取圖網(wǎng)絡(luò)中所有節(jié)點(diǎn)和對(duì)應(yīng)的邊,配置graphsage模型參數(shù),通過(guò)聚合每個(gè)數(shù)據(jù)資產(chǎn)節(jié)點(diǎn)的鄰居信息學(xué)習(xí)節(jié)點(diǎn)嵌入并進(jìn)行迭代更新;
20、通過(guò)反向傳播更新模型權(quán)重并定義損失函數(shù),當(dāng)在連續(xù)迭代過(guò)程中g(shù)raphsage模型的損失不再明顯下降則停止迭代輸出模型參數(shù)更新graphsage模型;
21、訓(xùn)練完成后,從graphsage模型中提取節(jié)點(diǎn)與邊的特征。
22、作為本發(fā)明所述基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估方法的一種優(yōu)選方案,其中:所述基于提取的節(jié)點(diǎn)特征識(shí)別影響數(shù)據(jù)資產(chǎn)價(jià)值的因素指基于業(yè)務(wù)知識(shí)和從圖網(wǎng)絡(luò)中提取的節(jié)點(diǎn)特征,定義影響數(shù)據(jù)資產(chǎn)初始價(jià)值的假設(shè)因素列表,使用dowhy庫(kù)繪制因果圖,確定數(shù)據(jù)資產(chǎn)的交易頻率為原因變量,數(shù)據(jù)資產(chǎn)的初始價(jià)值為結(jié)果變量;
23、使用回歸分析方法估計(jì)因素對(duì)數(shù)據(jù)資產(chǎn)初始價(jià)值的影響進(jìn)行因果推斷,因果推斷的結(jié)果包括每個(gè)因素的系數(shù),檢查每個(gè)因素的p值并設(shè)定判斷閾值q,將每個(gè)因素的p值與判斷閾值q進(jìn)行對(duì)比判斷因素對(duì)結(jié)果變量的影響,若因素的p值小于q,則該因素在統(tǒng)計(jì)上顯著,說(shuō)明該因素影響結(jié)果變量,否則不影響;
24、構(gòu)建xgboost模型量化每個(gè)因素對(duì)數(shù)據(jù)資產(chǎn)初始價(jià)值的貢獻(xiàn),使用從圖網(wǎng)絡(luò)中提取的特征訓(xùn)練xgboost模型,使用交叉驗(yàn)證方法驗(yàn)證xgboost模型性能,若模型性能沒(méi)有改善則停止訓(xùn)練,獲取訓(xùn)練好的xgboost模型;
25、基于因果推斷結(jié)果調(diào)整xgboost模型的參數(shù),使用從因果推斷中篩選出的因素作為輸入變量識(shí)別對(duì)數(shù)據(jù)資產(chǎn)初始價(jià)值影響最大的因素。
26、作為本發(fā)明所述基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估方法的一種優(yōu)選方案,其中:所述構(gòu)建資產(chǎn)評(píng)估模型評(píng)估數(shù)據(jù)資產(chǎn)價(jià)值指構(gòu)建線性回歸模型作為資產(chǎn)評(píng)估模型,將數(shù)據(jù)資產(chǎn)的初始價(jià)值作為因變量,最大影響因素作為自變量,使用最小二乘法估計(jì)模型參數(shù),使用歷史影響因素和歷史數(shù)據(jù)資產(chǎn)價(jià)值數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)輸入進(jìn)資產(chǎn)評(píng)估模型進(jìn)行迭代訓(xùn)練;
27、定義損失函數(shù)和adam優(yōu)化器進(jìn)行模型參數(shù)迭代優(yōu)化,當(dāng)在連續(xù)迭代過(guò)程中資產(chǎn)評(píng)估模型的損失不再明顯下降則停止迭代輸出模型參數(shù)更新資產(chǎn)評(píng)估模型;
28、將需要評(píng)估的數(shù)據(jù)輸入資產(chǎn)評(píng)估模型中得到數(shù)據(jù)資產(chǎn)的價(jià)值評(píng)估結(jié)果。
29、作為本發(fā)明所述基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估方法的一種優(yōu)選方案,其中:所述存儲(chǔ)數(shù)據(jù)資產(chǎn)評(píng)估過(guò)程中產(chǎn)生的數(shù)據(jù)并實(shí)施訪問(wèn)控制指在通過(guò)智能合約驗(yàn)證數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估結(jié)果并記錄在區(qū)塊鏈后,將結(jié)果同步存儲(chǔ)進(jìn)中央數(shù)據(jù)庫(kù)中,收集數(shù)據(jù)資產(chǎn)評(píng)估過(guò)程中產(chǎn)生的數(shù)據(jù)存儲(chǔ)進(jìn)中央數(shù)據(jù)庫(kù)中并實(shí)施訪問(wèn)控制,允許授權(quán)用戶查詢和訪問(wèn)數(shù)據(jù)。
30、本發(fā)明的另外一個(gè)目的是提供一種基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估系統(tǒng),其包括,
31、數(shù)據(jù)采集模塊,用于確定并配置需要集成的數(shù)據(jù)源類型,收集數(shù)據(jù)進(jìn)行預(yù)處理并進(jìn)行區(qū)塊鏈確權(quán)和記錄,將數(shù)據(jù)存儲(chǔ)進(jìn)中央數(shù)據(jù)庫(kù)中;
32、圖網(wǎng)絡(luò)構(gòu)建模塊,用于基于中央數(shù)據(jù)庫(kù)構(gòu)建圖數(shù)據(jù)庫(kù)并根據(jù)節(jié)點(diǎn)數(shù)據(jù)的變化實(shí)時(shí)更新節(jié)點(diǎn)屬性并提取圖網(wǎng)絡(luò)中的節(jié)點(diǎn)特征;
33、因果推斷模塊,用于使用dowhy庫(kù)繪制因果圖并使用回歸分析方法進(jìn)行因果推斷,使用xgboost模型量化各因素的貢獻(xiàn)度;
34、資產(chǎn)評(píng)估模塊,用于基于最大影響因素構(gòu)建資產(chǎn)評(píng)估模型進(jìn)行數(shù)據(jù)資產(chǎn)的價(jià)值評(píng)估并將評(píng)估結(jié)果通過(guò)智能合約驗(yàn)證數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估結(jié)果,將評(píng)估過(guò)程中產(chǎn)生的數(shù)據(jù)存儲(chǔ)在中央數(shù)據(jù)庫(kù)中。
35、一種計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器和處理器;所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估的步驟。
36、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)基于大數(shù)據(jù)的數(shù)據(jù)資產(chǎn)評(píng)估的步驟。
37、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點(diǎn)和有益效果:
38、本發(fā)明通過(guò)收集多源數(shù)據(jù)構(gòu)建數(shù)據(jù)資產(chǎn)的圖網(wǎng)絡(luò)并提取圖網(wǎng)絡(luò)的節(jié)點(diǎn)特征識(shí)別影響數(shù)據(jù)資產(chǎn)價(jià)值的因素,構(gòu)建資產(chǎn)評(píng)估模型進(jìn)行資產(chǎn)評(píng)估,可以準(zhǔn)確地分析數(shù)據(jù)資產(chǎn)之間的動(dòng)態(tài)關(guān)系,識(shí)別關(guān)鍵節(jié)點(diǎn)和重要關(guān)系,提升數(shù)據(jù)分析的深度和廣度,提供了更動(dòng)態(tài)和全面的評(píng)估視角,顯著提升了評(píng)估結(jié)果的可信度和實(shí)用性。