国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于大模型的自動化數(shù)據(jù)標注方法及裝置與流程

      文檔序號:40398781發(fā)布日期:2024-12-20 12:22閱讀:6來源:國知局
      一種基于大模型的自動化數(shù)據(jù)標注方法及裝置與流程

      本申請屬于數(shù)據(jù)處理領(lǐng)域,特別涉及一種基于大模型的自動化數(shù)據(jù)標注方法及裝置。


      背景技術(shù):

      1、隨著人工智能和機器學習技術(shù)的迅猛發(fā)展,數(shù)據(jù)標注作為模型訓練的關(guān)鍵環(huán)節(jié),顯得尤為重要。高質(zhì)量的數(shù)據(jù)標注是訓練出高性能模型的基礎(chǔ)。然而,當前的數(shù)據(jù)標注主要依賴人工,存在著成本高、效率低、質(zhì)量參差不齊等諸多問題。特別是在面對大規(guī)模數(shù)據(jù)集時,人工標注顯得尤為吃力,難以滿足快速迭代和高效訓練的需求。為了提升數(shù)據(jù)標注的效率和質(zhì)量,自動化數(shù)據(jù)標注技術(shù)逐漸受到關(guān)注。

      2、現(xiàn)有的自動化數(shù)據(jù)標注方法主要包括人工標注、半自動化標注、基于規(guī)則的自動標注及基于機器學習的自動標注。

      3、目前市場上存在多種人工標注平臺,如amazon?mechanical?turk、figure?eight(原crowdflower)等。這些平臺主要依賴眾包方式,通過大量人工標注者完成數(shù)據(jù)標注任務。人工標注效率低、成本高,標注質(zhì)量依賴于標注者的經(jīng)驗和能力,容易出現(xiàn)不一致性和主觀偏差。半自動化標注工具如labelbox、superannotate等,通過結(jié)合人工與自動化方法,提高標注效率,系統(tǒng)先進行初步標注,再由人工進行校正和完善。該方式盡管提高了效率,但依然需要大量人工參與,且在面對復雜任務時,自動標注的準確性有限?;谝?guī)則的自動標注,例如ner(命名實體識別)工具常使用預定義詞典和規(guī)則。其缺點是規(guī)則和模板的靈活性有限,難以處理復雜和多變的標注任務,標注效果依賴于規(guī)則的完備性和準確性。一些系統(tǒng)開始采用傳統(tǒng)機器學習算法(如svm、隨機森林)進行自動標注,通過訓練分類器來識別和標注數(shù)據(jù)。傳統(tǒng)機器學習算法在處理大規(guī)模和復雜數(shù)據(jù)時,性能有限,且需要大量特征工程,效果不如深度學習模型。


      技術(shù)實現(xiàn)思路

      1、為了解決上述問題,本申請?zhí)峁┝艘环N基于大模型的自動化數(shù)據(jù)標注方法及裝置,旨在解決現(xiàn)有技術(shù)中的高成本、低效率、標注質(zhì)量不一致、適應性差等問題。通過進一步優(yōu)化和微調(diào)預訓練模型,系統(tǒng)能夠高效、準確地處理大規(guī)模和復雜數(shù)據(jù)標注任務,提升數(shù)據(jù)標注的整體效果。

      2、本申請第一方面提供了一種基于大模型的自動化數(shù)據(jù)標注方法,主要包括:

      3、步驟s1、獲取原始數(shù)據(jù),所述原始數(shù)據(jù)為圖像數(shù)據(jù);

      4、步驟s2、通過預訓練的深度學習模型識別圖像數(shù)據(jù)中的特征,并進行第一次標注,形成按標準格式輸出的目標標注結(jié)果;

      5、步驟s3、將所述標注結(jié)果輸入到大規(guī)模深度學習模型中,由大規(guī)模深度學習模型進行第二次標準,輸出對圖像數(shù)據(jù)的圖像標注結(jié)果。

      6、優(yōu)選的是。步驟s1進一步包括:

      7、步驟s11、對所述原始數(shù)據(jù)進行格式及內(nèi)容的正確性檢查;

      8、步驟s12、將所述原始數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式;

      9、步驟s13、刪除重復數(shù)據(jù),并對原始數(shù)據(jù)的缺失值進行填補;

      10、步驟s14、對所述原始數(shù)據(jù)進行噪聲過濾。

      11、優(yōu)選的是。步驟s13中,通過插值、填補默認值的方式對原始數(shù)據(jù)的缺失值進行填補。

      12、優(yōu)選的是。步驟s2中,所述標準格式包括一條或多條標注內(nèi)容,每條標注內(nèi)容包括圖形中的目標類別、位置及置信度。

      13、優(yōu)選的是。步驟s3進一步包括:

      14、步驟s31、對圖像標注結(jié)果進行加密。

      15、本申請第二方面提供了一種基于大模型的自動化數(shù)據(jù)標注裝置,主要包括:

      16、數(shù)據(jù)獲取模塊,用于獲取原始數(shù)據(jù),所述原始數(shù)據(jù)為圖像數(shù)據(jù);

      17、圖像特征識別模塊,用于通過預訓練的深度學習模型識別圖像數(shù)據(jù)中的特征,并進行第一次標注,形成按標準格式輸出的目標標注結(jié)果;

      18、大模型標注模塊,用于將所述標注結(jié)果輸入到大規(guī)模深度學習模型中,由大規(guī)模深度學習模型進行第二次標準,輸出對圖像數(shù)據(jù)的圖像標注結(jié)果。

      19、優(yōu)選的是,所述數(shù)據(jù)獲取模塊包括:

      20、內(nèi)容檢查單元,用于對所述原始數(shù)據(jù)進行格式及內(nèi)容的正確性檢查;

      21、格式轉(zhuǎn)換單元,用于將所述原始數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式;

      22、數(shù)據(jù)填補單元,用于刪除重復數(shù)據(jù),并對原始數(shù)據(jù)的缺失值進行填補;

      23、噪聲過濾單元,用于對所述原始數(shù)據(jù)進行噪聲過濾。

      24、優(yōu)選的是,在所述數(shù)據(jù)填補單元中,通過插值、填補默認值的方式對原始數(shù)據(jù)的缺失值進行填補。

      25、優(yōu)選的是,在所述圖像特征識別模塊中,所述標準格式包括一條或多條標注內(nèi)容,每條標注內(nèi)容包括圖形中的目標類別、位置及置信度。

      26、優(yōu)選的是,所述大模型標注模塊包括:

      27、數(shù)據(jù)加密單元,用于對圖像標注結(jié)果進行加密。

      28、本申請實現(xiàn)了高效、低成本、高質(zhì)量、安全的自動化數(shù)據(jù)標注。



      技術(shù)特征:

      1.一種基于大模型的自動化數(shù)據(jù)標注方法,其特征在于,包括:

      2.如權(quán)利要求1所述的基于大模型的自動化數(shù)據(jù)標注方法,其特征在于,步驟s1進一步包括:

      3.如權(quán)利要求2所述的基于大模型的自動化數(shù)據(jù)標注方法,其特征在于,步驟s13中,通過插值、填補默認值的方式對原始數(shù)據(jù)的缺失值進行填補。

      4.如權(quán)利要求1所述的基于大模型的自動化數(shù)據(jù)標注方法,其特征在于,步驟s2中,所述標準格式包括一條或多條標注內(nèi)容,每條標注內(nèi)容包括圖形中的目標類別、位置及置信度。

      5.如權(quán)利要求1所述的基于大模型的自動化數(shù)據(jù)標注方法,其特征在于,步驟s3進一步包括:

      6.一種基于大模型的自動化數(shù)據(jù)標注裝置,其特征在于,包括:

      7.如權(quán)利要求6所述的基于大模型的自動化數(shù)據(jù)標注裝置,其特征在于,所述數(shù)據(jù)獲取模塊包括:

      8.如權(quán)利要求7所述的基于大模型的自動化數(shù)據(jù)標注裝置,其特征在于,在所述數(shù)據(jù)填補單元中,通過插值、填補默認值的方式對原始數(shù)據(jù)的缺失值進行填補。

      9.如權(quán)利要求6所述的基于大模型的自動化數(shù)據(jù)標注裝置,其特征在于,在所述圖像特征識別模塊中,所述標準格式包括一條或多條標注內(nèi)容,每條標注內(nèi)容包括圖形中的目標類別、位置及置信度。

      10.如權(quán)利要求6所述的基于大模型的自動化數(shù)據(jù)標注裝置,其特征在于,所述大模型標注模塊包括:


      技術(shù)總結(jié)
      本申請屬于數(shù)據(jù)處理領(lǐng)域,特別涉及一種基于大模型的自動化數(shù)據(jù)標注方法及裝置,該方法包括步驟S1、獲取原始數(shù)據(jù),所述原始數(shù)據(jù)為圖像數(shù)據(jù);步驟S2、通過預訓練的深度學習模型識別圖像數(shù)據(jù)中的特征,并進行第一次標注,形成按標準格式輸出的目標標注結(jié)果;步驟S3、將所述標注結(jié)果輸入到大規(guī)模深度學習模型中,由大規(guī)模深度學習模型進行第二次標準,輸出對圖像數(shù)據(jù)的圖像標注結(jié)果。本申請實現(xiàn)了高效、低成本、高質(zhì)量、安全的自動化數(shù)據(jù)標注。

      技術(shù)研發(fā)人員:楊士博,唐矗,蒲立
      受保護的技術(shù)使用者:北京積加科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1