本發(fā)明涉及數(shù)據(jù)質(zhì)量評(píng)估的,尤其涉及一種大模型生成數(shù)據(jù)質(zhì)量確定方法及系統(tǒng)。
背景技術(shù):
1、近年來,隨著互聯(lián)網(wǎng)行業(yè)的發(fā)展,所產(chǎn)生的數(shù)據(jù)規(guī)模逐漸擴(kuò)大,如何保障這些數(shù)據(jù)的質(zhì)量也成為計(jì)算機(jī)領(lǐng)域的重要課題;同時(shí),隨著機(jī)器學(xué)習(xí)技術(shù)的逐漸完善,越來越多的模型被用于解決各種問題,伴隨著模型運(yùn)用所產(chǎn)生的大量生成數(shù)據(jù)的質(zhì)量也成為人們要考慮的重要問題。
2、目前,申請(qǐng)?zhí)枮?01811525693.0的中國(guó)發(fā)明專利,公開了一種數(shù)據(jù)質(zhì)量確定方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),雖然通過與待評(píng)價(jià)數(shù)據(jù)相關(guān)的各種數(shù)據(jù)在前一時(shí)間周期、并在同樣的應(yīng)用場(chǎng)景下的質(zhì)量以及待評(píng)價(jià)數(shù)據(jù)在當(dāng)前時(shí)間周期、同樣的應(yīng)用場(chǎng)景下的有效性反饋確定待評(píng)價(jià)數(shù)據(jù)的質(zhì)量,但是沒有在數(shù)據(jù)投入使用前對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,也沒有對(duì)不合格的數(shù)據(jù)進(jìn)行處理,獲取數(shù)據(jù)缺陷,并根據(jù)數(shù)據(jù)缺陷調(diào)整生成數(shù)據(jù)的過程。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明解決的技術(shù)問題是:現(xiàn)有技術(shù)沒有在數(shù)據(jù)投入使用前對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,也沒有對(duì)不合格的數(shù)據(jù)進(jìn)行處理,獲取數(shù)據(jù)缺陷,并根據(jù)數(shù)據(jù)缺陷調(diào)整生成數(shù)據(jù)的過程。
2、為解決上述技術(shù)問題,第一方面,本發(fā)明提供了一種大模型生成數(shù)據(jù)質(zhì)量確定方法,包括以下步驟:
3、步驟s1,獲取大模型的生成數(shù)據(jù)和源數(shù)據(jù);
4、步驟s2,將所述生成數(shù)據(jù)輸入標(biāo)準(zhǔn)數(shù)據(jù)模型,獲取第一質(zhì)量評(píng)估等級(jí);
5、步驟s3,將所述源數(shù)據(jù)與構(gòu)建大模型的訓(xùn)練數(shù)據(jù)進(jìn)行對(duì)比,獲取其中的相似訓(xùn)練數(shù)據(jù)和對(duì)應(yīng)的相似生成數(shù)據(jù),并根據(jù)所述相似生成數(shù)據(jù)與所述生成數(shù)據(jù)的相似度獲取第二質(zhì)量評(píng)估等級(jí);
6、步驟s4,獲取大模型的歷史生成數(shù)據(jù),將所述生成數(shù)據(jù)與所述歷史生成數(shù)據(jù)進(jìn)行對(duì)比,獲取其中的相似歷史生成數(shù)據(jù)和相似歷史生成數(shù)據(jù)的數(shù)據(jù)效用,根據(jù)數(shù)據(jù)效用獲取第三質(zhì)量評(píng)估等級(jí);
7、步驟s5,根據(jù)所述第一質(zhì)量評(píng)估等級(jí)、所述第二質(zhì)量評(píng)估等級(jí)和所述第三質(zhì)量評(píng)估等級(jí)按照不同權(quán)重確定所述生成數(shù)據(jù)的初級(jí)數(shù)據(jù)質(zhì)量等級(jí),并根據(jù)所述初級(jí)數(shù)據(jù)質(zhì)量等級(jí)獲取所述生成數(shù)據(jù)中的風(fēng)險(xiǎn)數(shù)據(jù);
8、步驟s6,所述生成數(shù)據(jù)投入應(yīng)用場(chǎng)景后,獲取生成數(shù)據(jù)效用,并根據(jù)所述生成數(shù)據(jù)效用和所述初級(jí)數(shù)據(jù)質(zhì)量等級(jí)獲取生成數(shù)據(jù)質(zhì)量等級(jí);
9、步驟s7,根據(jù)所述生成數(shù)據(jù)質(zhì)量等級(jí)確定低質(zhì)生成數(shù)據(jù),并根據(jù)所述低質(zhì)生成數(shù)據(jù)的數(shù)據(jù)缺陷調(diào)整大模型的模型參數(shù);
10、作為本發(fā)明所述的一種大模型生成數(shù)據(jù)質(zhì)量確定方法的一種優(yōu)選方案,其中:
11、所述步驟s2具體包括以下步驟:
12、步驟s201,將所述生成數(shù)據(jù)輸入標(biāo)準(zhǔn)數(shù)據(jù)模型;
13、步驟s202,利用標(biāo)準(zhǔn)數(shù)據(jù)模型獲取所述生成數(shù)據(jù)的完整性評(píng)估值、一致性評(píng)估值和及時(shí)性評(píng)估值;
14、步驟s203,根據(jù)所述生成數(shù)據(jù)的所述完整性評(píng)估值、所述一致性評(píng)估值和所述及時(shí)性評(píng)估值按照一定權(quán)重確定所述生成數(shù)據(jù)的所述第一質(zhì)量評(píng)估等級(jí),不同的生成數(shù)據(jù)根據(jù)完整性、一致性和及時(shí)性對(duì)生成數(shù)據(jù)的重要性的不同程度對(duì)應(yīng)不同的權(quán)重比值;
15、所述標(biāo)準(zhǔn)數(shù)據(jù)模型的建立過程包括:
16、獲取生成數(shù)據(jù)集,對(duì)所述生成數(shù)據(jù)集進(jìn)行完整性評(píng)估值標(biāo)注、一致性評(píng)估值標(biāo)注和及時(shí)性評(píng)估值標(biāo)注,將標(biāo)注后的所述生成數(shù)據(jù)集輸入機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,生成數(shù)據(jù)作為輸入,完整性評(píng)估值、一致性評(píng)估值和及時(shí)性評(píng)估值作為輸出進(jìn)行模型訓(xùn)練;
17、作為本發(fā)明所述的一種大模型生成數(shù)據(jù)質(zhì)量確定系統(tǒng)的一種優(yōu)選方案,其中:
18、所述步驟s3具體包括以下步驟:
19、步驟s301,將所述源數(shù)據(jù)與構(gòu)建大模型的訓(xùn)練數(shù)據(jù)進(jìn)行對(duì)比,獲取其中和所述源數(shù)據(jù)相似度最高的訓(xùn)練數(shù)據(jù),將其定義為相似訓(xùn)練數(shù)據(jù);
20、步驟s302,獲取所述源數(shù)據(jù)和所述相似訓(xùn)練數(shù)據(jù)的相似度,定義為第一相似度,并獲取相似訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的相似生成數(shù)據(jù);
21、步驟s303,將所述相似生成數(shù)據(jù)和所述生成數(shù)據(jù)進(jìn)行對(duì)比,獲取所述相似生成數(shù)據(jù)和所述生成數(shù)據(jù)的差異值,定義為第一差異值;
22、步驟s304,根據(jù)所述第一差異值和所述第一相似度獲取生成數(shù)據(jù)的生成準(zhǔn)率,并根據(jù)生成準(zhǔn)率獲取相應(yīng)的第二質(zhì)量評(píng)估等級(jí),所述生成準(zhǔn)率和所述第二質(zhì)量評(píng)估等級(jí)是一一對(duì)應(yīng)的關(guān)系;
23、作為本發(fā)明所述的一種大模型生成數(shù)據(jù)質(zhì)量確定方法的一種優(yōu)選方案,其中:
24、所述步驟s4具體包括以下步驟:
25、步驟s401,將所述生成數(shù)據(jù)和所述歷史生成數(shù)據(jù)進(jìn)行對(duì)比,獲取其中相似度最高的歷史生成數(shù)據(jù),將其定義為相似歷史生成數(shù)據(jù);
26、步驟s401,將所述相似歷史生成數(shù)據(jù)和所述生成數(shù)據(jù)的相似度定義為第二相似度;
27、步驟s403,調(diào)取所述相似歷史生成數(shù)據(jù)的數(shù)據(jù)反饋信息,根據(jù)所述數(shù)據(jù)反饋信息獲取所述相似歷史生成數(shù)據(jù)的數(shù)據(jù)效用,所述數(shù)據(jù)反饋信息包括用戶滿意度和數(shù)據(jù)調(diào)用次數(shù);
28、步驟s404,根據(jù)所述第二相似度和所述相似歷史生成數(shù)據(jù)的數(shù)據(jù)效用獲取生成數(shù)據(jù)的數(shù)據(jù)效用,并根據(jù)生成數(shù)據(jù)的數(shù)據(jù)效用確定生成數(shù)據(jù)的第二質(zhì)量評(píng)估等級(jí);
29、將生成數(shù)據(jù)和歷史生成數(shù)據(jù)進(jìn)行對(duì)比,獲取其中相似度最高的歷史生成數(shù)據(jù)包括:
30、將所述生成數(shù)據(jù)的各個(gè)數(shù)據(jù)項(xiàng)和各個(gè)歷史生成數(shù)據(jù)的各個(gè)數(shù)據(jù)項(xiàng)分別進(jìn)行對(duì)比,根據(jù)各個(gè)數(shù)據(jù)項(xiàng)的差值分別獲取各個(gè)數(shù)據(jù)項(xiàng)的相似度,將各個(gè)歷史生成數(shù)據(jù)對(duì)應(yīng)的各個(gè)數(shù)據(jù)項(xiàng)的相似度按照一定權(quán)重進(jìn)行計(jì)算,獲取所述生成數(shù)據(jù)和各個(gè)歷史生成數(shù)據(jù)的相似度,并將相似度按照從小到大的順序進(jìn)行排列,獲取相似度最高的歷史生成數(shù)據(jù),將其定義為相似歷史生成數(shù)據(jù);
31、所述根據(jù)所述第二相似度和所述相似歷史生成數(shù)據(jù)的數(shù)據(jù)效用獲取生成數(shù)據(jù)的數(shù)據(jù)效用包括:
32、獲取生成數(shù)據(jù)的數(shù)據(jù)效用的計(jì)算表達(dá)式為:
33、,
34、其中,p為生成數(shù)據(jù)的數(shù)據(jù)效用,h為第二相似度,為相似歷史生成數(shù)據(jù)的數(shù)據(jù)效用,為模型誤差率,為應(yīng)用場(chǎng)景的變化差值;
35、作為本發(fā)明所述的一種大模型生成數(shù)據(jù)質(zhì)量確定方法及系統(tǒng)的一種優(yōu)選方案,其中:
36、所述步驟s5具體包括以下步驟:
37、步驟s501,將第一質(zhì)量評(píng)估等級(jí)、第二質(zhì)量評(píng)估等級(jí)和第三質(zhì)量評(píng)估等級(jí)按照一定權(quán)重計(jì)算獲取初級(jí)數(shù)據(jù)質(zhì)量等級(jí);
38、步驟s502,若生成數(shù)據(jù)的初級(jí)數(shù)據(jù)質(zhì)量等級(jí)小于等于0.5,則將所述生成數(shù)據(jù)定義為風(fēng)險(xiǎn)數(shù)據(jù),對(duì)該風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)行標(biāo)記并暫停風(fēng)險(xiǎn)數(shù)據(jù)投入應(yīng)用場(chǎng)景的活動(dòng);
39、若生成數(shù)據(jù)的初級(jí)數(shù)據(jù)質(zhì)量等級(jí)大于0.5,則定義所述生成數(shù)據(jù)合格;
40、作為本發(fā)明所述的一種大模型生成數(shù)據(jù)質(zhì)量確定方法及系統(tǒng)的一種優(yōu)選方案,其中:
41、所述步驟s6具體包括以下步驟:
42、步驟s601,生成數(shù)據(jù)投入應(yīng)用場(chǎng)景后,一個(gè)應(yīng)用周期后調(diào)取生成數(shù)據(jù)的數(shù)據(jù)反饋信息,根據(jù)用戶滿意度和數(shù)據(jù)調(diào)用次數(shù)獲取的乘積獲取生成數(shù)據(jù)效用;
43、步驟s602,根據(jù)生成數(shù)據(jù)效用確定生成數(shù)據(jù)的第四質(zhì)量評(píng)估等級(jí);
44、步驟s603,將第四質(zhì)量評(píng)估等級(jí)與初級(jí)數(shù)據(jù)質(zhì)量等級(jí)進(jìn)行疊加計(jì)算,獲取生成數(shù)據(jù)質(zhì)量等級(jí);
45、作為本發(fā)明所述的一種大模型生成數(shù)據(jù)質(zhì)量確定方法的一種優(yōu)選方案,其中:
46、所述步驟s7具體包括以下步驟:
47、步驟s701,若所述生成數(shù)據(jù)質(zhì)量等級(jí)小于等于2,則將此生成數(shù)據(jù)定義為低質(zhì)生成數(shù)據(jù),并分別獲取所述低質(zhì)生成數(shù)據(jù)的第一質(zhì)量評(píng)估等級(jí)、第二質(zhì)量評(píng)估等級(jí)、第三質(zhì)量評(píng)估等級(jí)和第四質(zhì)量評(píng)估等級(jí);
48、步驟s702,根據(jù)第一質(zhì)量評(píng)估等級(jí)、第二質(zhì)量評(píng)估等級(jí)、第三質(zhì)量評(píng)估等級(jí)和第四質(zhì)量評(píng)估等級(jí)獲取所述低質(zhì)生成數(shù)據(jù)的數(shù)據(jù)缺陷,所述數(shù)據(jù)缺陷包括標(biāo)準(zhǔn)缺陷、訓(xùn)練缺陷和效用缺陷,所述標(biāo)準(zhǔn)缺陷包括完整性缺陷、一致性缺陷和及時(shí)性缺陷;
49、步驟s703,根據(jù)所述低質(zhì)生成數(shù)據(jù)的數(shù)據(jù)缺陷調(diào)整大模型的模型參數(shù);
50、作為本發(fā)明所述的一種大模型生成數(shù)據(jù)質(zhì)量確定方法的一種優(yōu)選方案,其中:
51、所述步驟s702具體包括以下步驟:
52、步驟s7021,若所述第一質(zhì)量評(píng)估等級(jí)小于等于1,則獲取生成數(shù)據(jù)的完整性值、一致性值和及時(shí)性值,根據(jù)完整性值、一致性值和及時(shí)性值獲取生成數(shù)據(jù)的標(biāo)準(zhǔn)缺陷;
53、步驟s7022,若所述第二質(zhì)量評(píng)估等級(jí)小于等于1,則利用freaai方法篩選出生成數(shù)據(jù)中生成精度不足的數(shù)據(jù)切片,將此數(shù)據(jù)切片定義為低精度數(shù)據(jù)區(qū)域,并通過將低精度數(shù)據(jù)區(qū)域與標(biāo)準(zhǔn)數(shù)據(jù)區(qū)域的對(duì)比,獲取生成數(shù)據(jù)的訓(xùn)練缺陷;
54、步驟s7023,將所述第三質(zhì)量評(píng)估等級(jí)與所述第四質(zhì)量評(píng)估等級(jí)按照一定權(quán)重進(jìn)行疊加計(jì)算,獲取數(shù)據(jù)效用等級(jí),若數(shù)據(jù)效用等級(jí)小于等于1,則根據(jù)相似歷史生成數(shù)據(jù)的數(shù)據(jù)反饋信息和生成數(shù)據(jù)的數(shù)據(jù)反饋信息獲取效用缺陷;
55、第二方面,一種大模型生成數(shù)據(jù)質(zhì)量確定系統(tǒng)包括數(shù)據(jù)獲取模塊、質(zhì)量評(píng)估模塊和模型調(diào)整模塊;
56、所述數(shù)據(jù)獲取模塊用于及時(shí)獲取大模型的生成數(shù)據(jù);
57、所述質(zhì)量評(píng)估模塊用于根據(jù)生成數(shù)據(jù)獲取對(duì)應(yīng)的第一質(zhì)量評(píng)估等級(jí)、第二質(zhì)量評(píng)估等級(jí)、第三質(zhì)量評(píng)估等級(jí)和第四質(zhì)量評(píng)估等級(jí),并根據(jù)第一質(zhì)量評(píng)估等級(jí)、第二質(zhì)量評(píng)估等級(jí)和第三質(zhì)量評(píng)估等級(jí)獲取初級(jí)數(shù)據(jù)質(zhì)量等級(jí),并根據(jù)初級(jí)數(shù)據(jù)質(zhì)量等級(jí)和第四質(zhì)量評(píng)估等級(jí)獲取生成數(shù)據(jù)質(zhì)量等級(jí);
58、所述模型調(diào)整模塊用于根據(jù)第一質(zhì)量評(píng)估等級(jí)、第二質(zhì)量評(píng)估等級(jí)、第三質(zhì)量評(píng)估等級(jí)和第四質(zhì)量評(píng)估等級(jí)獲取數(shù)據(jù)缺陷,并根據(jù)數(shù)據(jù)缺陷調(diào)整大模型的模型參數(shù);
59、作為本發(fā)明所述的一種大模型生成數(shù)據(jù)質(zhì)量確定系統(tǒng)的一種優(yōu)選方案,其中:
60、所述質(zhì)量評(píng)估模塊包括初級(jí)質(zhì)量評(píng)估單元和生成質(zhì)量評(píng)估單元;
61、所述初級(jí)質(zhì)量評(píng)估單元用于根據(jù)大模型的生成數(shù)據(jù)獲取第一質(zhì)量評(píng)估等級(jí)、第二質(zhì)量評(píng)估等級(jí)和第三質(zhì)量評(píng)估等級(jí),并按照一定權(quán)重根據(jù)第一質(zhì)量評(píng)估等級(jí)、第二質(zhì)量評(píng)估等級(jí)和第三質(zhì)量評(píng)估等級(jí)獲取初級(jí)數(shù)據(jù)質(zhì)量等級(jí);
62、所述生成質(zhì)量評(píng)估單元用于根據(jù)生成數(shù)據(jù)的數(shù)據(jù)反饋信息獲取生成數(shù)據(jù)效用,并根據(jù)生成數(shù)據(jù)效用確定第四質(zhì)量評(píng)估等級(jí),將第四質(zhì)量評(píng)估等級(jí)和初級(jí)數(shù)據(jù)質(zhì)量等級(jí)按照一定權(quán)重疊加,獲取生成數(shù)據(jù)質(zhì)量等級(jí);
63、所述模型調(diào)整模塊包括缺陷獲取單元和模型調(diào)整單元;
64、所述缺陷獲取單元用于根據(jù)第一質(zhì)量評(píng)估等級(jí)獲取標(biāo)準(zhǔn)缺陷,根據(jù)第二質(zhì)量評(píng)估等級(jí)獲取訓(xùn)練缺陷,根據(jù)第三質(zhì)量評(píng)估等級(jí)和第四質(zhì)量評(píng)估等級(jí)獲取效用缺陷;
65、所述模型調(diào)整單元用于根據(jù)標(biāo)準(zhǔn)缺陷、訓(xùn)練缺陷和效用缺陷調(diào)整大模型的模型參數(shù)。
66、本發(fā)明的有益效果:本發(fā)明獲取大模型生成數(shù)據(jù)的相似訓(xùn)練數(shù)據(jù)和相似歷史生成數(shù)據(jù)獲取生成數(shù)據(jù)的初級(jí)數(shù)據(jù)質(zhì)量等級(jí),并根據(jù)初級(jí)數(shù)據(jù)質(zhì)量等級(jí)獲取生成數(shù)據(jù)中的缺陷數(shù)據(jù),將其標(biāo)記為風(fēng)險(xiǎn)數(shù)據(jù),在低質(zhì)量的生成數(shù)據(jù)投入應(yīng)用場(chǎng)景之前將低質(zhì)量的生成數(shù)據(jù)攔截,提高了生成數(shù)據(jù)的整體數(shù)據(jù)效用,保障了投入應(yīng)用場(chǎng)景的生成數(shù)據(jù)的數(shù)據(jù)質(zhì)量;
67、根據(jù)生成數(shù)據(jù)投入應(yīng)用場(chǎng)景后的數(shù)據(jù)效用獲取第四質(zhì)量評(píng)估等級(jí),并根據(jù)第四質(zhì)量評(píng)估和初級(jí)數(shù)據(jù)質(zhì)量等級(jí)獲取生成數(shù)據(jù)質(zhì)量等級(jí),獲取低質(zhì)生成數(shù)據(jù),通過對(duì)低質(zhì)生成數(shù)據(jù)進(jìn)行缺陷分析,獲取低質(zhì)生成數(shù)據(jù)的標(biāo)準(zhǔn)缺陷、訓(xùn)練缺陷和效用缺陷,有利于改善生成數(shù)據(jù)的生成過程,提高生成數(shù)據(jù)的精度的數(shù)據(jù)效用;
68、根據(jù)標(biāo)準(zhǔn)缺陷、訓(xùn)練缺陷和效用缺陷調(diào)整大模型的模型參數(shù),提高了模型精度,保障了生成數(shù)據(jù)的數(shù)據(jù)質(zhì)量。