本技術(shù)涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種數(shù)據(jù)標(biāo)準(zhǔn)輸出模型構(gòu)建方法、數(shù)據(jù)標(biāo)準(zhǔn)的獲取方法及相關(guān)裝置。
背景技術(shù):
1、數(shù)據(jù)標(biāo)準(zhǔn)是保障數(shù)據(jù)的內(nèi)外部使用和交換的一致性和準(zhǔn)確定的規(guī)范性約束。隨著國家提出數(shù)據(jù)要素市場(chǎng)建設(shè)的號(hào)召,數(shù)據(jù)流通在企業(yè)數(shù)據(jù)價(jià)值挖掘中發(fā)揮了越來越大的作用,也對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的建設(shè)提出了更高的要求。數(shù)據(jù)標(biāo)準(zhǔn)必須能覆蓋企業(yè)內(nèi)外部數(shù)據(jù)流通的關(guān)鍵數(shù)據(jù)項(xiàng),才能保障數(shù)據(jù)流通過程中的規(guī)范性與一致性。數(shù)據(jù)標(biāo)準(zhǔn)的制定依據(jù)包括外部法律法規(guī)、監(jiān)管要求、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)及內(nèi)部的管理制度和管理實(shí)踐等幾類。
2、當(dāng)前,數(shù)據(jù)標(biāo)準(zhǔn)的制定依賴于數(shù)據(jù)管理人員的知識(shí)和經(jīng)驗(yàn),需要花費(fèi)大量時(shí)間來查閱和分析內(nèi)部和外部的依據(jù)。制定初稿后,還需進(jìn)行系統(tǒng)現(xiàn)狀的差異分析,整個(gè)過程可能耗費(fèi)數(shù)周時(shí)間。人為對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注不光效率低,同時(shí)在準(zhǔn)確度方面也存在一定風(fēng)險(xiǎn)。
3、因此,如何提高標(biāo)注數(shù)據(jù)標(biāo)準(zhǔn)的標(biāo)注效率和準(zhǔn)確率,是本領(lǐng)域技術(shù)人員急需解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、基于上述問題,本技術(shù)提供了數(shù)據(jù)標(biāo)準(zhǔn)輸出模型構(gòu)建方法、數(shù)據(jù)標(biāo)準(zhǔn)的獲取方法及相關(guān)裝置,可以提高標(biāo)注數(shù)據(jù)標(biāo)準(zhǔn)的標(biāo)注效率和準(zhǔn)確率。
2、本技術(shù)實(shí)施例公開了如下技術(shù)方案:
3、一種數(shù)據(jù)標(biāo)準(zhǔn)獲取模型的構(gòu)建方法,所述方法包括:
4、獲取多個(gè)具有數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽的元數(shù)據(jù)項(xiàng);
5、其中,一個(gè)元數(shù)據(jù)項(xiàng)具有多個(gè)數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽用于定義所述元數(shù)據(jù)項(xiàng)的數(shù)據(jù)要求;所述數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽包括固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽和非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;所述固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽為預(yù)定義的可選數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;所述非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽為自定義的可定義數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;
6、基于所述元數(shù)據(jù)項(xiàng)、所述元數(shù)據(jù)的所述固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽以及所述元數(shù)據(jù)的所述非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽,對(duì)預(yù)先定義的有監(jiān)督深度學(xué)習(xí)模型進(jìn)行模型訓(xùn)練得到數(shù)據(jù)標(biāo)準(zhǔn)獲取模型。
7、在一種可能的實(shí)現(xiàn)方式中,所述預(yù)先定義的有監(jiān)督深度學(xué)習(xí)模型包括文本分類神經(jīng)網(wǎng)絡(luò)和雙向門控循環(huán)單元gru神經(jīng)網(wǎng)絡(luò);
8、其中,所述文本分類神經(jīng)網(wǎng)絡(luò)由依次連接的第一輸入層、嵌入層、一維卷積神經(jīng)網(wǎng)絡(luò)1dcnn層、池化層、軟最大化函數(shù)層以及第一輸出層組成;
9、所述雙向gru神經(jīng)網(wǎng)絡(luò)由第二輸入層、分別與所述第二輸入層連接的正向gru層和反向gru層、分別與所述正向gru層和所述反向gru層連接的拼接層以及第二輸出層組成。
10、在一種可能的實(shí)現(xiàn)方式中,所述基于所述元數(shù)據(jù)項(xiàng)、所述元數(shù)據(jù)的所述固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽以及所述元數(shù)據(jù)的所述非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽,對(duì)預(yù)先定義的有監(jiān)督深度學(xué)習(xí)模型進(jìn)行模型訓(xùn)練得到數(shù)據(jù)標(biāo)準(zhǔn)獲取模型,包括:
11、構(gòu)建所述元數(shù)據(jù)項(xiàng)與所述元數(shù)據(jù)的各個(gè)所述固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽之間的對(duì)應(yīng)關(guān)系得到多個(gè)數(shù)據(jù)-標(biāo)簽對(duì)應(yīng)關(guān)系,將所述數(shù)據(jù)-標(biāo)簽對(duì)應(yīng)關(guān)系輸入到所述文本分類神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型訓(xùn)練得到第一訓(xùn)練模型;
12、基于所述元數(shù)據(jù)項(xiàng)與所述元數(shù)據(jù)的所述非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽組構(gòu)建多個(gè)訓(xùn)練語句,將所述多個(gè)訓(xùn)練語句輸入到所述雙向gru神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型訓(xùn)練得到第二訓(xùn)練模型;
13、其中,所述數(shù)據(jù)標(biāo)準(zhǔn)獲取模型由所述第一訓(xùn)練模型和所述第二訓(xùn)練模型組成。
14、在一種可能的實(shí)現(xiàn)方式中,所述基于所述元數(shù)據(jù)項(xiàng)與所述元數(shù)據(jù)的所述非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽組構(gòu)建多個(gè)訓(xùn)練語句,包括:
15、對(duì)所述非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽對(duì)應(yīng)的文本內(nèi)容進(jìn)行分層分類,得到多個(gè)分層文本;
16、將各個(gè)分層文本分別與所述元數(shù)據(jù)項(xiàng)的文本內(nèi)容組合成所述多個(gè)訓(xùn)練語句。
17、一種數(shù)據(jù)標(biāo)準(zhǔn)的獲取方法,所述方法包括:
18、識(shí)別目標(biāo)數(shù)據(jù)項(xiàng);所述目標(biāo)數(shù)據(jù)項(xiàng)為待標(biāo)注數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)項(xiàng);
19、將所述目標(biāo)數(shù)據(jù)項(xiàng)作為數(shù)據(jù)標(biāo)準(zhǔn)獲取模型的輸入,利用所述數(shù)據(jù)標(biāo)準(zhǔn)獲取模型標(biāo)注所述目標(biāo)數(shù)據(jù)項(xiàng)的數(shù)據(jù)標(biāo)準(zhǔn),獲得所述目標(biāo)數(shù)據(jù)項(xiàng)的目標(biāo)數(shù)據(jù)標(biāo)準(zhǔn);
20、其中,所述數(shù)據(jù)標(biāo)準(zhǔn)獲取模型由第一訓(xùn)練模型和第二訓(xùn)練模型組成;所述第一訓(xùn)練模型為利用元數(shù)據(jù)項(xiàng)和所述元數(shù)據(jù)項(xiàng)的固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽訓(xùn)練獲得的模型;所述第二訓(xùn)練模型為利用所述元數(shù)據(jù)項(xiàng)和所述元數(shù)據(jù)項(xiàng)的非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽訓(xùn)練獲得的模型。
21、在一種可能的實(shí)現(xiàn)方式中,所述將所述目標(biāo)數(shù)據(jù)項(xiàng)作為數(shù)據(jù)標(biāo)準(zhǔn)獲取模型的輸入,利用所述數(shù)據(jù)標(biāo)準(zhǔn)獲取模型標(biāo)注所述目標(biāo)數(shù)據(jù)項(xiàng)的數(shù)據(jù)標(biāo)準(zhǔn),獲得所述目標(biāo)數(shù)據(jù)項(xiàng)的目標(biāo)數(shù)據(jù)標(biāo)準(zhǔn),包括:
22、將所述目標(biāo)數(shù)據(jù)項(xiàng)分別輸入到所述第一訓(xùn)練模型和所述第二訓(xùn)練模型中進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)注,分別得到一個(gè)或多個(gè)第一數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽和一個(gè)或多個(gè)第二數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;
23、將所述一個(gè)或多個(gè)第一數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽和所述一個(gè)或多個(gè)第二數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽進(jìn)行拼接,得到所述目標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)。
24、一種數(shù)據(jù)標(biāo)準(zhǔn)獲取模型的訓(xùn)練裝置,所述裝置包括:
25、獲取單元,用于獲取多個(gè)具有數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽的元數(shù)據(jù)項(xiàng);
26、其中,一個(gè)元數(shù)據(jù)項(xiàng)具有多個(gè)數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽用于定義所述元數(shù)據(jù)項(xiàng)的數(shù)據(jù)要求;所述數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽包括固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽和非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;所述固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽為預(yù)定義的可選數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;所述非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽為自定義的可定義數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;
27、模型訓(xùn)練單元,用于基于所述元數(shù)據(jù)項(xiàng)、所述元數(shù)據(jù)的所述固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽以及所述元數(shù)據(jù)的所述非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽,對(duì)預(yù)先定義的有監(jiān)督深度學(xué)習(xí)模型進(jìn)行模型訓(xùn)練得到數(shù)據(jù)標(biāo)準(zhǔn)獲取模型。
28、一種數(shù)據(jù)標(biāo)準(zhǔn)輸出的裝置,所述裝置包括:
29、識(shí)別單元,用于識(shí)別目標(biāo)數(shù)據(jù)項(xiàng);所述目標(biāo)數(shù)據(jù)項(xiàng)為待標(biāo)注數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)項(xiàng);
30、數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)注單元,用于將所述目標(biāo)數(shù)據(jù)項(xiàng)作為數(shù)據(jù)標(biāo)準(zhǔn)獲取模型的輸入,利用所述數(shù)據(jù)標(biāo)準(zhǔn)獲取模型標(biāo)注所述目標(biāo)數(shù)據(jù)項(xiàng)的數(shù)據(jù)標(biāo)準(zhǔn),獲得所述目標(biāo)數(shù)據(jù)項(xiàng)的目標(biāo)數(shù)據(jù)標(biāo)準(zhǔn);
31、其中,所述數(shù)據(jù)標(biāo)準(zhǔn)獲取模型由第一訓(xùn)練模型和第二訓(xùn)練模型組成;所述第一訓(xùn)練模型為利用元數(shù)據(jù)項(xiàng)和所述元數(shù)據(jù)項(xiàng)的固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽訓(xùn)練獲得的模型;所述第二訓(xùn)練模型為利用所述元數(shù)據(jù)項(xiàng)和所述元數(shù)據(jù)項(xiàng)的非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽訓(xùn)練獲得的模型。
32、一種數(shù)據(jù)標(biāo)準(zhǔn)獲取模型的構(gòu)建設(shè)備,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如上所述的數(shù)據(jù)標(biāo)準(zhǔn)獲取模型的構(gòu)建方法。
33、一種數(shù)據(jù)標(biāo)準(zhǔn)的獲取設(shè)備,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如上所述的數(shù)據(jù)標(biāo)準(zhǔn)的獲取方法。
34、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行如上所述的數(shù)據(jù)標(biāo)準(zhǔn)獲取模型的構(gòu)建方法,或者執(zhí)行如上所述的數(shù)據(jù)標(biāo)準(zhǔn)的獲取方法。
35、相較于現(xiàn)有技術(shù),本技術(shù)具有以下有益效果:
36、本技術(shù)提供了一種數(shù)據(jù)標(biāo)準(zhǔn)輸出模型構(gòu)建方法、數(shù)據(jù)標(biāo)準(zhǔn)的獲取方法及相關(guān)裝置。具體地,在執(zhí)行本技術(shù)實(shí)施例提供的數(shù)據(jù)標(biāo)準(zhǔn)輸出模型構(gòu)建方法時(shí),首先獲取多個(gè)具有數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽的元數(shù)據(jù)項(xiàng),其中,一個(gè)元數(shù)據(jù)項(xiàng)具有多個(gè)數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽用于定義元數(shù)據(jù)項(xiàng)的數(shù)據(jù)要求;數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽包括固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽和非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽為預(yù)定義的可選數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽;非固定數(shù)據(jù)標(biāo)準(zhǔn)為自定義的可定義數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽。然后基于元數(shù)據(jù)項(xiàng)、元數(shù)據(jù)的固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽以及元數(shù)據(jù)的非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽,對(duì)預(yù)先定義的有監(jiān)督深度學(xué)習(xí)模型進(jìn)行模型訓(xùn)練得到數(shù)據(jù)標(biāo)準(zhǔn)獲取模型。由于本技術(shù)的模型是基于有監(jiān)督深度學(xué)習(xí)進(jìn)行訓(xùn)練的,它能夠從大量的已標(biāo)注數(shù)據(jù)中學(xué)習(xí)復(fù)雜的模式和關(guān)系,從而提高數(shù)據(jù)標(biāo)準(zhǔn)獲取的準(zhǔn)確性。同時(shí)可以減少對(duì)人工制定數(shù)據(jù)標(biāo)準(zhǔn)的依賴,通過模型自動(dòng)生成數(shù)據(jù)標(biāo)準(zhǔn),大幅提升了效率,降低了人工干預(yù)的時(shí)間成本和錯(cuò)誤率。此外,通過使用固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽和非固定數(shù)據(jù)標(biāo)準(zhǔn)標(biāo)簽,模型能夠平衡不同來源的信息,從而形成更全面和均衡的特征表示。固定標(biāo)簽確保模型對(duì)基本要求有強(qiáng)烈的識(shí)別能力,非固定標(biāo)簽則幫助模型捕捉細(xì)微差異和特殊情況。