本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種數(shù)據(jù)質(zhì)量評(píng)估方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、隨著計(jì)算機(jī)軟硬件技術(shù)的快速發(fā)展,人工智能(artificial?intelligence,ai)已經(jīng)取得了重大突破,在人類(lèi)生產(chǎn)生活的多個(gè)領(lǐng)域得到了越來(lái)越多的應(yīng)用,比如金融領(lǐng)域、醫(yī)療領(lǐng)域、自動(dòng)駕駛領(lǐng)域等。然而,隨著人工智能的廣泛應(yīng)用,數(shù)據(jù)量不足、代表性欠缺等持續(xù)不斷出現(xiàn)的數(shù)據(jù)質(zhì)量問(wèn)題已成為人工智能滲透到實(shí)際應(yīng)用場(chǎng)景中的障礙。為了解決這一問(wèn)題,過(guò)去主要是在優(yōu)化模型結(jié)構(gòu)或增強(qiáng)學(xué)習(xí)算法上進(jìn)行重點(diǎn)研究,以提高人工智能的可信度,但是,由于在研究過(guò)程中遇到了與數(shù)據(jù)質(zhì)量或標(biāo)注相關(guān)的問(wèn)題、對(duì)數(shù)據(jù)質(zhì)量缺乏信心等問(wèn)題,后來(lái)研究重點(diǎn)從模型優(yōu)化轉(zhuǎn)向數(shù)據(jù)改進(jìn),以提高數(shù)據(jù)質(zhì)量,與模型訓(xùn)練、選擇和部署相比,在數(shù)據(jù)加載、清洗和可視化上花費(fèi)的時(shí)間幾乎是前者的兩倍,但得益于高質(zhì)量數(shù)據(jù)的發(fā)展,也實(shí)現(xiàn)人工智能的突破。
2、目前,現(xiàn)有的數(shù)據(jù)質(zhì)量的評(píng)估往往只關(guān)注單一的評(píng)估指標(biāo),如樣本數(shù)量、樣本完整性或一致性,然后通過(guò)閾值比較的方式確定數(shù)據(jù)質(zhì)量是否合格。但是數(shù)據(jù)質(zhì)量的各個(gè)指標(biāo)之間是相互關(guān)聯(lián)的,一個(gè)指標(biāo)的變化可能會(huì)對(duì)其他指標(biāo)產(chǎn)生影響,例如,過(guò)分追求數(shù)據(jù)的完整性可能會(huì)犧牲數(shù)據(jù)的準(zhǔn)確性,從而影響數(shù)據(jù)評(píng)估的可信度。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明實(shí)施例提供一種數(shù)據(jù)質(zhì)量評(píng)估方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,其能綜合考慮并平衡各個(gè)指標(biāo),實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的全面評(píng)估,提高數(shù)據(jù)質(zhì)量評(píng)估的可信度。
2、第一方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)質(zhì)量評(píng)估方法,包括:
3、對(duì)待評(píng)估的目標(biāo)數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,得到與數(shù)據(jù)質(zhì)量評(píng)估相關(guān)的多個(gè)關(guān)鍵指標(biāo)的數(shù)據(jù)參數(shù);
4、根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分;
5、對(duì)多個(gè)所述關(guān)鍵指標(biāo)進(jìn)行模糊層次分析,得到各個(gè)所述關(guān)鍵指標(biāo)的權(quán)重;
6、根據(jù)各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分和權(quán)重,確定所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)質(zhì)量評(píng)估結(jié)果。
7、作為上述方案的改進(jìn),所述方法還包括:
8、根據(jù)預(yù)先定義的指標(biāo)建立規(guī)則,對(duì)所述目標(biāo)數(shù)據(jù)進(jìn)行全生命周期分析,確定所述目標(biāo)數(shù)據(jù)的多個(gè)所述關(guān)鍵指標(biāo)。
9、作為上述方案的改進(jìn),所述關(guān)鍵指標(biāo)包括完整性指標(biāo)、準(zhǔn)確性指標(biāo)、一致性指標(biāo)、多樣性指標(biāo)、均衡性指標(biāo)、邏輯性指標(biāo)、波動(dòng)性指標(biāo)、唯一性指標(biāo)和時(shí)效性指標(biāo)中的至少兩個(gè)指標(biāo)。
10、作為上述方案的改進(jìn),所述數(shù)據(jù)參數(shù)包括:所述目標(biāo)數(shù)據(jù)中樣本的實(shí)際樣本數(shù)量、具有空值的第一樣本數(shù)量和基準(zhǔn)樣本數(shù)量、所述目標(biāo)樣本中各個(gè)樣本的實(shí)際特征個(gè)數(shù)和基準(zhǔn)特征個(gè)數(shù);
11、所述根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分,包括:
12、根據(jù)所述實(shí)際樣本數(shù)量、所述第一樣本數(shù)量、所述基準(zhǔn)樣本數(shù)量、所述實(shí)際特征個(gè)數(shù)和所述基準(zhǔn)特征個(gè)數(shù),計(jì)算所述完整性指標(biāo)的評(píng)分。
13、作為上述方案的改進(jìn),所述根據(jù)所述實(shí)際樣本數(shù)量、所述第一樣本數(shù)量、所述基準(zhǔn)樣本數(shù)量、所述實(shí)際特征個(gè)數(shù)和所述基準(zhǔn)特征個(gè)數(shù),計(jì)算所述完整性指標(biāo)的評(píng)分,包括:
14、根據(jù)所述實(shí)際特征個(gè)數(shù)和所述基準(zhǔn)特征個(gè)數(shù),計(jì)算特征完整性評(píng)分;
15、根據(jù)所述實(shí)際樣本數(shù)量、所述第一樣本數(shù)量和所述基準(zhǔn)樣本數(shù)量,計(jì)算樣本完整性評(píng)分;
16、根據(jù)所述實(shí)際樣本數(shù)量和所述基準(zhǔn)樣本數(shù)量,計(jì)算數(shù)據(jù)規(guī)模充足性評(píng)分;
17、根據(jù)所述特征完整性評(píng)分、所述樣本完整性評(píng)分和所述數(shù)據(jù)規(guī)模充足性評(píng)分,計(jì)算所述完整性指標(biāo)的評(píng)分。
18、作為上述方案的改進(jìn),所述數(shù)據(jù)參數(shù)包括:所述目標(biāo)樣本中各個(gè)樣本的實(shí)際特征個(gè)數(shù)和基準(zhǔn)特征個(gè)數(shù);
19、所述根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分,包括:
20、根據(jù)所述實(shí)際特征個(gè)數(shù)和所述基準(zhǔn)特征個(gè)數(shù),計(jì)算所述準(zhǔn)確性指標(biāo)的評(píng)分。
21、作為上述方案的改進(jìn),所述數(shù)據(jù)參數(shù)包括:所述目標(biāo)數(shù)據(jù)中樣本的實(shí)際樣本數(shù)量、格式?jīng)_突的第二樣本數(shù)量、內(nèi)容沖突的第三樣本數(shù)量;
22、所述根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分,包括:
23、根據(jù)所述實(shí)際樣本數(shù)量、所述第二樣本數(shù)量、所述第三樣本數(shù)量,計(jì)算所述一致性指標(biāo)的評(píng)分。
24、作為上述方案的改進(jìn),所述根據(jù)所述實(shí)際樣本數(shù)量、所述第二樣本數(shù)量、所述第三樣本數(shù)量,計(jì)算所述一致性指標(biāo)的評(píng)分,包括:
25、根據(jù)所述實(shí)際樣本數(shù)量和所述第二樣本數(shù)量,計(jì)算第一樣本評(píng)分;
26、根據(jù)所述實(shí)際樣本數(shù)量和所述第三樣本數(shù)量,計(jì)算第二樣本評(píng)分;
27、根據(jù)所述第一樣本評(píng)分和所述第二樣本評(píng)分,計(jì)算所述一致性指標(biāo)的評(píng)分。
28、作為上述方案的改進(jìn),所述數(shù)據(jù)參數(shù)包括:所述目標(biāo)數(shù)據(jù)中樣本的實(shí)際數(shù)據(jù)渠道個(gè)數(shù)和基準(zhǔn)數(shù)據(jù)渠道個(gè)數(shù)、所述目標(biāo)數(shù)據(jù)中屬于不同類(lèi)別的第四樣本數(shù)量和基準(zhǔn)樣本數(shù)量;
29、所述根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分,包括:
30、根據(jù)所述實(shí)際數(shù)據(jù)渠道個(gè)數(shù)、所述基準(zhǔn)數(shù)據(jù)渠道個(gè)數(shù)、所述第四樣本數(shù)量和所述基準(zhǔn)樣本數(shù)量,計(jì)算所述多樣性指標(biāo)的評(píng)分。
31、作為上述方案的改進(jìn),所述根據(jù)所述實(shí)際數(shù)據(jù)渠道個(gè)數(shù)、所述基準(zhǔn)數(shù)據(jù)渠道個(gè)數(shù)、所述第四樣本數(shù)量和所述基準(zhǔn)樣本數(shù)量,計(jì)算所述多樣性指標(biāo)的評(píng)分,包括:
32、根據(jù)所述實(shí)際數(shù)據(jù)渠道個(gè)數(shù)、所述基準(zhǔn)數(shù)據(jù)渠道個(gè)數(shù),計(jì)算數(shù)據(jù)源廣度評(píng)分;
33、根據(jù)所述第四樣本數(shù)量和所述基準(zhǔn)樣本數(shù)量,計(jì)算數(shù)據(jù)類(lèi)別豐富度評(píng)分;
34、根據(jù)所述數(shù)據(jù)源廣度評(píng)分和所述數(shù)據(jù)類(lèi)別豐富度評(píng)分,計(jì)算所述多樣性指標(biāo)的評(píng)分。
35、作為上述方案的改進(jìn),所述數(shù)據(jù)參數(shù)包括:所述目標(biāo)數(shù)據(jù)中屬于不同類(lèi)別的第四樣本數(shù)量;
36、所述根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分,包括:
37、根據(jù)所述目標(biāo)數(shù)據(jù)中屬于不同類(lèi)別的第四樣本數(shù)量,計(jì)算所述均衡性指標(biāo)的評(píng)分。
38、作為上述方案的改進(jìn),所述根據(jù)所述目標(biāo)數(shù)據(jù)中屬于不同類(lèi)別的第四樣本數(shù)量,計(jì)算所述均衡性指標(biāo)的評(píng)分,包括:
39、獲取所述目標(biāo)數(shù)據(jù)中屬于不同類(lèi)別的第四樣本數(shù)量中的樣本數(shù)量最大值和樣本數(shù)量最小值;
40、計(jì)算所述目標(biāo)數(shù)據(jù)中屬于不同類(lèi)別的第四樣本數(shù)量的樣本數(shù)量均值;
41、根據(jù)所述樣本數(shù)量最大值、所述樣本數(shù)量最小值和所述樣本數(shù)量均值,計(jì)算所述均衡性指標(biāo)的評(píng)分。
42、作為上述方案的改進(jìn),所述數(shù)據(jù)參數(shù)包括:所述目標(biāo)數(shù)據(jù)中樣本的實(shí)際樣本數(shù)量、邏輯錯(cuò)誤的第五樣本數(shù)量;
43、所述根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分,包括:
44、根據(jù)所述實(shí)際樣本數(shù)量和所述第五樣本數(shù)量,計(jì)算所述邏輯性指標(biāo)的評(píng)分。
45、作為上述方案的改進(jìn),所述數(shù)據(jù)參數(shù)包括:所述目標(biāo)數(shù)據(jù)在不同生命周期內(nèi)的第六樣本數(shù)量;
46、所述根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分,包括:
47、根據(jù)所述目標(biāo)數(shù)據(jù)在不同生命周期內(nèi)的第六樣本數(shù)量,計(jì)算所述波動(dòng)性指標(biāo)的評(píng)分。
48、作為上述方案的改進(jìn),所述根據(jù)所述目標(biāo)數(shù)據(jù)在不同生命周期內(nèi)的第六樣本數(shù)量,計(jì)算所述波動(dòng)性指標(biāo)的評(píng)分,包括:
49、獲取所述目標(biāo)數(shù)據(jù)中最新生命周期對(duì)應(yīng)的第六樣本數(shù)量和目標(biāo)生命周期對(duì)應(yīng)的第六樣本數(shù)量;其中,所述目標(biāo)生命周期為所述目標(biāo)數(shù)據(jù)中除所述最新生命周期之前的任意一個(gè)其他生命周期;
50、根據(jù)所述最新生命周期對(duì)應(yīng)的第六樣本數(shù)量和所述目標(biāo)生命周期對(duì)應(yīng)的第六樣本數(shù)量,計(jì)算所述波動(dòng)性指標(biāo)的評(píng)分。
51、作為上述方案的改進(jìn),所述數(shù)據(jù)參數(shù)包括:所述目標(biāo)數(shù)據(jù)中樣本的實(shí)際樣本數(shù)量、重復(fù)樣本的第七樣本數(shù)量;
52、所述根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分,包括:
53、根據(jù)所述實(shí)際樣本數(shù)量和所述第七樣本數(shù)量,計(jì)算所述唯一性指標(biāo)的評(píng)分。
54、作為上述方案的改進(jìn),所述數(shù)據(jù)參數(shù)包括:所述目標(biāo)數(shù)據(jù)的未更新時(shí)長(zhǎng)和基準(zhǔn)更新時(shí)長(zhǎng);
55、所述根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分,包括:
56、根據(jù)所述目標(biāo)數(shù)據(jù)的未更新時(shí)長(zhǎng)和基準(zhǔn)更新時(shí)長(zhǎng),計(jì)算所述時(shí)效性指標(biāo)的評(píng)分。
57、作為上述方案的改進(jìn),所述對(duì)多個(gè)所述關(guān)鍵指標(biāo)進(jìn)行模糊層次分析,得到各個(gè)所述關(guān)鍵指標(biāo)的權(quán)重,包括:
58、根據(jù)各個(gè)所述關(guān)鍵指標(biāo)的重要程度,建立比例標(biāo)度表;其中,所述比例標(biāo)度表包括兩個(gè)所述關(guān)鍵指標(biāo)比較的量化值;
59、根據(jù)所述比例標(biāo)度表中兩個(gè)所述關(guān)鍵指標(biāo)比較的量化值,通過(guò)模糊隸屬函數(shù)計(jì)算相應(yīng)兩個(gè)所述關(guān)鍵指標(biāo)比較的模糊因子;
60、根據(jù)所述模糊因子,確定各個(gè)所述關(guān)鍵指標(biāo)的權(quán)重。
61、作為上述方案的改進(jìn),所述根據(jù)所述模糊因子,確定各個(gè)所述關(guān)鍵指標(biāo)的權(quán)重,包括:
62、根據(jù)所述模糊因子,建立判斷矩陣;
63、根據(jù)所述判斷矩陣,確定各個(gè)所述關(guān)鍵指標(biāo)的權(quán)重。
64、作為上述方案的改進(jìn),所述根據(jù)所述判斷矩陣,確定各個(gè)所述關(guān)鍵指標(biāo)的權(quán)重,包括:
65、對(duì)所述判斷矩陣進(jìn)行一致性校驗(yàn);
66、在通過(guò)一致性校驗(yàn)的情況下,從所述判斷矩陣中提取最大特征值所在的特征向量;其中,所述特征向量中每個(gè)特征值對(duì)應(yīng)一個(gè)所述關(guān)鍵指標(biāo);
67、對(duì)所述特征向量進(jìn)行歸一化處理,得到權(quán)重向量;其中,所述權(quán)重向量中每個(gè)權(quán)重值對(duì)應(yīng)一個(gè)所述關(guān)鍵指標(biāo);
68、將所述權(quán)重向量中每個(gè)權(quán)重值作為其對(duì)應(yīng)的關(guān)鍵指標(biāo)的權(quán)重。
69、第二方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)質(zhì)量評(píng)估裝置,包括:
70、數(shù)據(jù)提取模塊,用于對(duì)待評(píng)估的目標(biāo)數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,得到與數(shù)據(jù)質(zhì)量評(píng)估相關(guān)的多個(gè)關(guān)鍵指標(biāo)的數(shù)據(jù)參數(shù);
71、評(píng)分計(jì)算模塊,用于根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分;
72、模糊層次分析模塊,用于對(duì)多個(gè)所述關(guān)鍵指標(biāo)進(jìn)行模糊層次分析,得到各個(gè)所述關(guān)鍵指標(biāo)的權(quán)重;
73、數(shù)據(jù)質(zhì)量評(píng)估模塊,用于根據(jù)各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分和權(quán)重,確定所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)質(zhì)量評(píng)估結(jié)果。
74、第三方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)質(zhì)量評(píng)估設(shè)備,包括:處理器、存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器中且被配置為由所述處理器執(zhí)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如第一方面中任意一項(xiàng)所述的數(shù)據(jù)質(zhì)量評(píng)估方法。
75、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如第一方面中任意一項(xiàng)所述的數(shù)據(jù)質(zhì)量評(píng)估方法。
76、第五方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任意一項(xiàng)所述的數(shù)據(jù)質(zhì)量評(píng)估方法。
77、相對(duì)于現(xiàn)有技術(shù),本發(fā)明實(shí)施例的一種數(shù)據(jù)質(zhì)量評(píng)估方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,通過(guò)對(duì)待評(píng)估的目標(biāo)數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,得到與數(shù)據(jù)質(zhì)量評(píng)估相關(guān)的多個(gè)關(guān)鍵指標(biāo)的數(shù)據(jù)參數(shù);然后根據(jù)所述數(shù)據(jù)參數(shù),計(jì)算各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分,從不同的維度衡量數(shù)據(jù)情況,可以更清楚地了解這些維度的優(yōu)缺點(diǎn);之后對(duì)多個(gè)所述關(guān)鍵指標(biāo)進(jìn)行模糊層次分析,得到各個(gè)所述關(guān)鍵指標(biāo)的權(quán)重;根據(jù)各個(gè)所述關(guān)鍵指標(biāo)的評(píng)分和權(quán)重,確定所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)質(zhì)量評(píng)估結(jié)果,通過(guò)對(duì)關(guān)鍵指標(biāo)進(jìn)行模糊層次分析,能聚焦于各個(gè)關(guān)鍵指標(biāo)之間的相互作用,綜合考慮并平衡各個(gè)指標(biāo),實(shí)現(xiàn)數(shù)據(jù)整體質(zhì)量的全面動(dòng)態(tài)評(píng)估,提高數(shù)據(jù)質(zhì)量評(píng)估的可信度,為發(fā)展可信賴的人工智能提供強(qiáng)大的數(shù)據(jù)支持。