国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注方法及系統(tǒng)與流程

      文檔序號(hào):40374719發(fā)布日期:2024-12-20 11:57閱讀:6來(lái)源:國(guó)知局
      一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注方法及系統(tǒng)與流程

      本發(fā)明涉及數(shù)據(jù)標(biāo)注,特別指一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注方法及系統(tǒng)。


      背景技術(shù):

      1、隨著人工智能技術(shù)的廣泛應(yīng)用,對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的需求急劇增加,數(shù)據(jù)標(biāo)注作為將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器可識(shí)別信息的關(guān)鍵環(huán)節(jié),其重要性日益凸顯。針對(duì)數(shù)據(jù)的標(biāo)注,傳統(tǒng)上采取人工一一標(biāo)注的方法,存在如下缺點(diǎn):

      2、1、容易受到標(biāo)注人員主觀判斷的影響,導(dǎo)致不同人的標(biāo)注結(jié)果不一致的情況,難以保證標(biāo)注質(zhì)量;2、耗時(shí)費(fèi)力,標(biāo)注的效率低下;3、不同行業(yè)具有獨(dú)特的特征和專業(yè)術(shù)語(yǔ),傳統(tǒng)方法往往難以精準(zhǔn)捕捉這些特性,限制了數(shù)據(jù)標(biāo)注的深度和廣度,尤其在較為專業(yè)知識(shí)的領(lǐng)域,如醫(yī)療、法律等;4、人工標(biāo)注的標(biāo)注成本居高不下。

      3、因此,如何提供一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注方法及系統(tǒng),實(shí)現(xiàn)提升數(shù)據(jù)標(biāo)注的質(zhì)量以及效率,降低標(biāo)注成本,成為一個(gè)亟待解決的技術(shù)問(wèn)題。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明要解決的技術(shù)問(wèn)題,在于提供一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注方法及系統(tǒng),實(shí)現(xiàn)提升數(shù)據(jù)標(biāo)注的質(zhì)量以及效率,降低標(biāo)注成本。

      2、第一方面,本發(fā)明提供了一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注方法,包括如下步驟:

      3、步驟s1、獲取大量的包含不同行業(yè)的歷史標(biāo)注數(shù)據(jù),基于行業(yè)對(duì)各所述歷史標(biāo)注數(shù)據(jù)進(jìn)行分組;

      4、步驟s2、從各分組的所述歷史標(biāo)注數(shù)據(jù)中分別提取對(duì)應(yīng)的行業(yè)分詞,將各分組的所述行業(yè)分詞分別存儲(chǔ)至預(yù)先創(chuàng)建的行業(yè)詞庫(kù);從各所述歷史標(biāo)注數(shù)據(jù)中提取項(xiàng)目標(biāo)簽,將各所述項(xiàng)目標(biāo)簽、項(xiàng)目標(biāo)簽對(duì)應(yīng)的項(xiàng)目編號(hào)以及與行業(yè)分詞的關(guān)聯(lián)關(guān)系分別存儲(chǔ)至預(yù)先創(chuàng)建的標(biāo)簽庫(kù);

      5、步驟s3、通過(guò)工作流引擎獲取待標(biāo)注文件,識(shí)別所述待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),識(shí)別所述待標(biāo)注數(shù)據(jù)的行業(yè)以及項(xiàng)目編號(hào);

      6、步驟s4、通過(guò)所述行業(yè)匹配對(duì)應(yīng)的行業(yè)詞庫(kù),自然語(yǔ)言分詞工具基于所述行業(yè)詞庫(kù)的行業(yè)分詞對(duì)文本數(shù)據(jù)執(zhí)行分詞操作,得到分詞結(jié)果;通過(guò)所述項(xiàng)目編號(hào)匹配對(duì)應(yīng)的標(biāo)簽庫(kù),基于所述標(biāo)簽庫(kù)的項(xiàng)目標(biāo)簽對(duì)分詞結(jié)果進(jìn)行預(yù)標(biāo)注,得到預(yù)標(biāo)注結(jié)果;

      7、步驟s5、對(duì)所述預(yù)標(biāo)注結(jié)果進(jìn)行審核和修正后,生成標(biāo)注結(jié)果,展示并導(dǎo)出所述標(biāo)注結(jié)果。

      8、進(jìn)一步的,所述步驟s2還包括:

      9、基于最新標(biāo)注數(shù)據(jù)或者標(biāo)注需求對(duì)各所述行業(yè)詞庫(kù)以及標(biāo)簽庫(kù)進(jìn)行實(shí)時(shí)的更新和維護(hù)。

      10、進(jìn)一步的,所述步驟s3具體為:

      11、通過(guò)工作流引擎獲取待標(biāo)注文件,為各所述待標(biāo)注文件分別分配對(duì)應(yīng)的存儲(chǔ)空間以及計(jì)算資源,將各所述待標(biāo)注文件分別存儲(chǔ)至對(duì)應(yīng)的存儲(chǔ)空間,對(duì)各所述待標(biāo)注文件進(jìn)行圖像增強(qiáng)的預(yù)處理后,通過(guò)ocr技術(shù)識(shí)別各所述待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),通過(guò)預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)識(shí)別所述待標(biāo)注數(shù)據(jù)的行業(yè),通過(guò)編號(hào)規(guī)則從所述待標(biāo)注數(shù)據(jù)中自動(dòng)識(shí)別項(xiàng)目編號(hào)。

      12、進(jìn)一步的,所述步驟s4具體為:

      13、通過(guò)所述行業(yè)自動(dòng)匹配對(duì)應(yīng)的行業(yè)詞庫(kù),自然語(yǔ)言分詞工具h(yuǎn)anlp基于所述行業(yè)詞庫(kù)的行業(yè)分詞對(duì)文本數(shù)據(jù)自動(dòng)執(zhí)行分詞操作,得到分詞結(jié)果;通過(guò)所述項(xiàng)目編號(hào)匹配對(duì)應(yīng)的標(biāo)簽庫(kù),基于所述標(biāo)簽庫(kù)的項(xiàng)目標(biāo)簽的關(guān)聯(lián)關(guān)系以及標(biāo)注次數(shù)自動(dòng)對(duì)分詞結(jié)果進(jìn)行預(yù)標(biāo)注,得到預(yù)標(biāo)注結(jié)果。

      14、進(jìn)一步的,所述步驟s5具體為:

      15、基于預(yù)設(shè)的標(biāo)注規(guī)則自動(dòng)對(duì)所述預(yù)標(biāo)注結(jié)果進(jìn)行審核和修正后,生成標(biāo)注結(jié)果,展示并導(dǎo)出所述標(biāo)注結(jié)果,對(duì)所述標(biāo)注結(jié)果進(jìn)行存儲(chǔ)和備份,且標(biāo)注過(guò)程中通過(guò)工作流引擎對(duì)標(biāo)注進(jìn)度進(jìn)行跟蹤。

      16、第二方面,本發(fā)明提供了一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注系統(tǒng),包括如下模塊:

      17、歷史標(biāo)注數(shù)據(jù)獲取模塊,用于獲取大量的包含不同行業(yè)的歷史標(biāo)注數(shù)據(jù),基于行業(yè)對(duì)各所述歷史標(biāo)注數(shù)據(jù)進(jìn)行分組;

      18、行業(yè)詞庫(kù)和標(biāo)簽庫(kù)創(chuàng)建模塊,用于從各分組的所述歷史標(biāo)注數(shù)據(jù)中分別提取對(duì)應(yīng)的行業(yè)分詞,將各分組的所述行業(yè)分詞分別存儲(chǔ)至預(yù)先創(chuàng)建的行業(yè)詞庫(kù);從各所述歷史標(biāo)注數(shù)據(jù)中提取項(xiàng)目標(biāo)簽,將各所述項(xiàng)目標(biāo)簽、項(xiàng)目標(biāo)簽對(duì)應(yīng)的項(xiàng)目編號(hào)以及與行業(yè)分詞的關(guān)聯(lián)關(guān)系分別存儲(chǔ)至預(yù)先創(chuàng)建的標(biāo)簽庫(kù);

      19、待標(biāo)注文件識(shí)別模塊,用于通過(guò)工作流引擎獲取待標(biāo)注文件,識(shí)別所述待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),識(shí)別所述待標(biāo)注數(shù)據(jù)的行業(yè)以及項(xiàng)目編號(hào);

      20、預(yù)標(biāo)注模塊,用于通過(guò)所述行業(yè)匹配對(duì)應(yīng)的行業(yè)詞庫(kù),自然語(yǔ)言分詞工具基于所述行業(yè)詞庫(kù)的行業(yè)分詞對(duì)文本數(shù)據(jù)執(zhí)行分詞操作,得到分詞結(jié)果;通過(guò)所述項(xiàng)目編號(hào)匹配對(duì)應(yīng)的標(biāo)簽庫(kù),基于所述標(biāo)簽庫(kù)的項(xiàng)目標(biāo)簽對(duì)分詞結(jié)果進(jìn)行預(yù)標(biāo)注,得到預(yù)標(biāo)注結(jié)果;

      21、標(biāo)注審核模塊,用于對(duì)所述預(yù)標(biāo)注結(jié)果進(jìn)行審核和修正后,生成標(biāo)注結(jié)果,展示并導(dǎo)出所述標(biāo)注結(jié)果。

      22、進(jìn)一步的,所述行業(yè)詞庫(kù)和標(biāo)簽庫(kù)創(chuàng)建模塊還用于:

      23、基于最新標(biāo)注數(shù)據(jù)或者標(biāo)注需求對(duì)各所述行業(yè)詞庫(kù)以及標(biāo)簽庫(kù)進(jìn)行實(shí)時(shí)的更新和維護(hù)。

      24、進(jìn)一步的,所述待標(biāo)注文件識(shí)別模塊具體用于:

      25、通過(guò)工作流引擎獲取待標(biāo)注文件,為各所述待標(biāo)注文件分別分配對(duì)應(yīng)的存儲(chǔ)空間以及計(jì)算資源,將各所述待標(biāo)注文件分別存儲(chǔ)至對(duì)應(yīng)的存儲(chǔ)空間,對(duì)各所述待標(biāo)注文件進(jìn)行圖像增強(qiáng)的預(yù)處理后,通過(guò)ocr技術(shù)識(shí)別各所述待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),通過(guò)預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)識(shí)別所述待標(biāo)注數(shù)據(jù)的行業(yè),通過(guò)編號(hào)規(guī)則從所述待標(biāo)注數(shù)據(jù)中自動(dòng)識(shí)別項(xiàng)目編號(hào)。

      26、進(jìn)一步的,所述預(yù)標(biāo)注模塊具體用于:

      27、通過(guò)所述行業(yè)自動(dòng)匹配對(duì)應(yīng)的行業(yè)詞庫(kù),自然語(yǔ)言分詞工具h(yuǎn)anlp基于所述行業(yè)詞庫(kù)的行業(yè)分詞對(duì)文本數(shù)據(jù)自動(dòng)執(zhí)行分詞操作,得到分詞結(jié)果;通過(guò)所述項(xiàng)目編號(hào)匹配對(duì)應(yīng)的標(biāo)簽庫(kù),基于所述標(biāo)簽庫(kù)的項(xiàng)目標(biāo)簽的關(guān)聯(lián)關(guān)系以及標(biāo)注次數(shù)自動(dòng)對(duì)分詞結(jié)果進(jìn)行預(yù)標(biāo)注,得到預(yù)標(biāo)注結(jié)果。

      28、進(jìn)一步的,所述標(biāo)注審核模塊具體用于:

      29、基于預(yù)設(shè)的標(biāo)注規(guī)則自動(dòng)對(duì)所述預(yù)標(biāo)注結(jié)果進(jìn)行審核和修正后,生成標(biāo)注結(jié)果,展示并導(dǎo)出所述標(biāo)注結(jié)果,對(duì)所述標(biāo)注結(jié)果進(jìn)行存儲(chǔ)和備份,且標(biāo)注過(guò)程中通過(guò)工作流引擎對(duì)標(biāo)注進(jìn)度進(jìn)行跟蹤。

      30、本發(fā)明的優(yōu)點(diǎn)在于:

      31、1、通過(guò)獲取大量的包含不同行業(yè)的歷史標(biāo)注數(shù)據(jù),基于行業(yè)對(duì)各歷史標(biāo)注數(shù)據(jù)進(jìn)行分組,從各分組的歷史標(biāo)注數(shù)據(jù)中分別提取對(duì)應(yīng)的行業(yè)分詞,將各分組的行業(yè)分詞分別存儲(chǔ)至預(yù)先創(chuàng)建的行業(yè)詞庫(kù),從各歷史標(biāo)注數(shù)據(jù)中提取項(xiàng)目標(biāo)簽,將各項(xiàng)目標(biāo)簽、項(xiàng)目標(biāo)簽對(duì)應(yīng)的項(xiàng)目編號(hào)以及與行業(yè)分詞的關(guān)聯(lián)關(guān)系分別存儲(chǔ)至預(yù)先創(chuàng)建的標(biāo)簽庫(kù);接著通過(guò)工作流引擎獲取待標(biāo)注文件,識(shí)別待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),識(shí)別待標(biāo)注數(shù)據(jù)的行業(yè)以及項(xiàng)目編號(hào);接著通過(guò)行業(yè)匹配對(duì)應(yīng)的行業(yè)詞庫(kù),自然語(yǔ)言分詞工具基于行業(yè)詞庫(kù)的行業(yè)分詞對(duì)文本數(shù)據(jù)執(zhí)行分詞操作,得到分詞結(jié)果;通過(guò)項(xiàng)目編號(hào)匹配對(duì)應(yīng)的標(biāo)簽庫(kù),基于標(biāo)簽庫(kù)的項(xiàng)目標(biāo)簽對(duì)分詞結(jié)果進(jìn)行預(yù)標(biāo)注,得到預(yù)標(biāo)注結(jié)果;最后對(duì)預(yù)標(biāo)注結(jié)果進(jìn)行審核和修正后生成標(biāo)注結(jié)果,展示并導(dǎo)出標(biāo)注結(jié)果;即通過(guò)創(chuàng)建的行業(yè)詞庫(kù)與標(biāo)簽庫(kù)自動(dòng)對(duì)待標(biāo)注文件識(shí)別得到的待標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注,克服人為標(biāo)注的主觀判斷影響、效率低下、標(biāo)注成本居高不下的問(wèn)題,且基于行業(yè)詞庫(kù)的行業(yè)分詞執(zhí)行分詞操作,即基于各行業(yè)進(jìn)行針對(duì)性的分詞,使得分詞更加專業(yè)和準(zhǔn)確,最終極大的提升了數(shù)據(jù)標(biāo)注的質(zhì)量以及效率,極大的降低了標(biāo)注成本。

      32、2、通過(guò)最新標(biāo)注數(shù)據(jù)或者標(biāo)注需求對(duì)各行業(yè)詞庫(kù)以及標(biāo)簽庫(kù)進(jìn)行實(shí)時(shí)的更新和維護(hù),使得行業(yè)詞庫(kù)和標(biāo)簽庫(kù)能與時(shí)俱進(jìn),且可根據(jù)用戶的標(biāo)注需求自定義標(biāo)簽庫(kù)中的項(xiàng)目標(biāo)簽,進(jìn)而極大的提升了數(shù)據(jù)標(biāo)注的質(zhì)量以及靈活性。

      33、3、通過(guò)為各待標(biāo)注文件分別分配對(duì)應(yīng)的存儲(chǔ)空間以及計(jì)算資源,使得各待標(biāo)注文件可同步進(jìn)行標(biāo)注,極大的提升了數(shù)據(jù)標(biāo)注的效率。

      34、4、通過(guò)對(duì)各待標(biāo)注文件進(jìn)行圖像增強(qiáng)的預(yù)處理后,通過(guò)ocr技術(shù)識(shí)別各待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),即基于高質(zhì)量的待標(biāo)注文件進(jìn)行ocr識(shí)別,有效提升待標(biāo)注數(shù)據(jù)識(shí)別的準(zhǔn)確性,進(jìn)而極大的提升了數(shù)據(jù)標(biāo)注的質(zhì)量。

      35、5、通過(guò)預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)識(shí)別待標(biāo)注數(shù)據(jù)的行業(yè),通過(guò)編號(hào)規(guī)則從待標(biāo)注數(shù)據(jù)中自動(dòng)識(shí)別項(xiàng)目編號(hào),極大的提升了行業(yè)和項(xiàng)目編號(hào)的識(shí)別速度,進(jìn)而極大的提升了數(shù)據(jù)標(biāo)注的效率。

      36、6、通過(guò)自然語(yǔ)言分詞工具h(yuǎn)anlp執(zhí)行分詞操作,能準(zhǔn)確識(shí)別待標(biāo)注數(shù)據(jù)中的詞匯邊界,即使在面對(duì)復(fù)雜句子結(jié)構(gòu)和多義詞時(shí)也能做出合理的分詞決策,確保分詞結(jié)果的準(zhǔn)確性,進(jìn)而極大的提升了數(shù)據(jù)標(biāo)注的質(zhì)量。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1