国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種文字識(shí)別與自動(dòng)化審核方法和系統(tǒng)與流程

      文檔序號(hào):40280488發(fā)布日期:2024-12-11 13:19閱讀:26來(lái)源:國(guó)知局
      一種文字識(shí)別與自動(dòng)化審核方法和系統(tǒng)與流程

      本技術(shù)涉及文字識(shí)別與自動(dòng)化審核,特別是涉及一種文字識(shí)別與自動(dòng)化審核方法和系統(tǒng)。


      背景技術(shù):

      1、隨著數(shù)字化進(jìn)程的推進(jìn),企業(yè)和機(jī)構(gòu)越來(lái)越依賴(lài)于自動(dòng)化技術(shù)來(lái)處理和審核大量非結(jié)構(gòu)化文檔數(shù)據(jù)(如圖片、表格、文本文檔)。傳統(tǒng)的技術(shù)方案主要依賴(lài)于手工審核,人工對(duì)紙質(zhì)文檔進(jìn)行逐一審查,包括檢查發(fā)票、合同、審計(jì)報(bào)告等,效率低下、耗時(shí)耗力、容易出錯(cuò)。手工審核方法需要大量人力,耗時(shí)耗力,難以應(yīng)對(duì)大規(guī)模文檔數(shù)據(jù)的處理需求,手工審核方法容易出現(xiàn)人為錯(cuò)誤,尤其在面對(duì)大量重復(fù)性任務(wù)時(shí),錯(cuò)誤率較高。因此,現(xiàn)有技術(shù)方案難以滿(mǎn)足現(xiàn)代企業(yè)對(duì)高效、準(zhǔn)確、靈活和綜合性的數(shù)據(jù)處理需求。


      技術(shù)實(shí)現(xiàn)思路

      1、本技術(shù)提供一種文字識(shí)別與自動(dòng)化審核方法和系統(tǒng),旨在解決現(xiàn)有技術(shù)難以滿(mǎn)足現(xiàn)代企業(yè)對(duì)高效、準(zhǔn)確、靈活和綜合性的數(shù)據(jù)處理需求的問(wèn)題。

      2、第一方面,一種文字識(shí)別與自動(dòng)化審核方法,所述方法包括:

      3、獲取待審核文檔數(shù)據(jù),其中,所述待審核文檔數(shù)據(jù)包括半結(jié)構(gòu)化文檔數(shù)據(jù)和非結(jié)構(gòu)化文本數(shù)據(jù);

      4、根據(jù)所述待審核文檔數(shù)據(jù)內(nèi)容獲取對(duì)應(yīng)ocr引擎,并采用所述對(duì)應(yīng)ocr引擎識(shí)別待審核文檔數(shù)據(jù),得到文檔數(shù)據(jù);

      5、根據(jù)所述文檔數(shù)據(jù),選取文檔抽取類(lèi)型抽取目標(biāo)文檔數(shù)據(jù),所述目標(biāo)文檔數(shù)據(jù)格式為結(jié)構(gòu)化文本數(shù)據(jù),其中,所述文檔抽取類(lèi)型包括規(guī)則抽取和模型抽??;

      6、通過(guò)對(duì)比所述目標(biāo)文檔數(shù)據(jù)與預(yù)先搭建的目標(biāo)結(jié)構(gòu)化文本數(shù)據(jù),確定所述目標(biāo)文檔數(shù)據(jù)是否合規(guī);

      7、根據(jù)所述待審核文檔數(shù)據(jù)的復(fù)雜度,實(shí)時(shí)更新所述目標(biāo)文檔數(shù)據(jù)的置信度閾值;

      8、根據(jù)所述所述目標(biāo)文檔數(shù)據(jù)是否合規(guī)以及所述目標(biāo)文檔數(shù)據(jù)的置信度閾值,輸出所述目標(biāo)文檔數(shù)據(jù)的合規(guī)率。

      9、上述方案中,可選的,所述半結(jié)構(gòu)化文本數(shù)據(jù)包括表格文檔數(shù)據(jù),所述非結(jié)構(gòu)化文本數(shù)據(jù)包括圖片文檔數(shù)據(jù)和文本文檔數(shù)據(jù)。

      10、上述方案中,可選的,根據(jù)所述待審核文檔數(shù)據(jù)內(nèi)容獲取對(duì)應(yīng)ocr引擎,包括:

      11、所述待審核文檔數(shù)據(jù)為表格文檔數(shù)據(jù)對(duì)應(yīng)ocr引擎為abbyy?finereader;

      12、所述待審核文檔數(shù)據(jù)為圖片文檔數(shù)據(jù)對(duì)應(yīng)ocr引擎為google?visionapi或microsoftazure?computervision;

      13、所述待審核文檔數(shù)據(jù)為文本文檔數(shù)據(jù)對(duì)應(yīng)ocr引擎為tesseract或abbyyfinereader。

      14、上述方案中,可選的,所述規(guī)則抽取包括以下步驟:

      15、構(gòu)造字符模式,使用基于字符的模式抽取,將輸入的半結(jié)構(gòu)化文本數(shù)據(jù)作為字符序列,構(gòu)造字符模式;

      16、使用構(gòu)建的字符模式對(duì)輸入文件進(jìn)行匹配,若匹配,則存儲(chǔ)抽取出的目標(biāo)文檔數(shù)據(jù)。

      17、上述方案中,可選的,所述模型抽取包括以下步驟:

      18、基于bert預(yù)訓(xùn)練模型計(jì)算輸入語(yǔ)料的特征,使用bert內(nèi)置的分詞器對(duì)輸入的非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行分詞;

      19、將bert預(yù)訓(xùn)練模型產(chǎn)出的三個(gè)維度特征匯總后,送入crf層進(jìn)行最優(yōu)解碼,選擇最大得分序列;

      20、使用選擇好的模型進(jìn)行計(jì)算,抽取目標(biāo)結(jié)構(gòu)字段信息,生成目標(biāo)文檔數(shù)據(jù)。

      21、上述方案中,可選的,所述通過(guò)對(duì)比所述目標(biāo)文檔數(shù)據(jù)與預(yù)先搭建的目標(biāo)結(jié)構(gòu)化文本數(shù)據(jù),確定所述目標(biāo)文檔數(shù)據(jù)是否合規(guī),包括以下步驟:

      22、驗(yàn)證提取出的待審核文檔數(shù)據(jù)與系統(tǒng)中已有數(shù)據(jù)的一致性,檢查提取出的目標(biāo)文檔數(shù)據(jù)是否符合預(yù)設(shè)的業(yè)務(wù)規(guī)則和邏輯,若均符合,則判定合規(guī)。

      23、上述方案中,可選的,所述根據(jù)所述待審核文檔數(shù)據(jù)的復(fù)雜度,實(shí)時(shí)更新所述目標(biāo)文檔數(shù)據(jù)的置信度閾值,包括:

      24、所述置信度閾值根據(jù)所述待審核文檔數(shù)據(jù)對(duì)應(yīng)輸入圖像的質(zhì)量、文本的復(fù)雜程度、語(yǔ)言類(lèi)型因素進(jìn)行實(shí)時(shí)調(diào)整。

      25、上述方案中,可選的,所述置信度閾值調(diào)整方法包括以下步驟:

      26、收集具有不同特征的ocr樣本數(shù)據(jù),包括不同質(zhì)量的圖像、不同復(fù)雜度的文本以及不同語(yǔ)言類(lèi)型的樣本;

      27、對(duì)收集到的樣本數(shù)據(jù)進(jìn)行人工標(biāo)注,確保標(biāo)注的準(zhǔn)確性,為模型訓(xùn)練和閾值設(shè)定提供可靠的基準(zhǔn);

      28、開(kāi)發(fā)算法識(shí)別輸入圖像的關(guān)鍵特征,所述關(guān)鍵特征包括圖像質(zhì)量、文本復(fù)雜程度和語(yǔ)言類(lèi)型;

      29、對(duì)標(biāo)注后的樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,確定不同特征組合下的識(shí)別準(zhǔn)確率和錯(cuò)誤率;

      30、根據(jù)統(tǒng)計(jì)分析的結(jié)果,為不同的特征組合設(shè)定初始的置信度閾值范圍;

      31、使用標(biāo)注和分析后的數(shù)據(jù)訓(xùn)練ocr模型,包括置信度閾值的動(dòng)態(tài)調(diào)整機(jī)制;

      32、在實(shí)際ocr識(shí)別過(guò)程中,根據(jù)輸入圖像的特征動(dòng)態(tài)調(diào)整置信度閾值;

      33、對(duì)ocr模型的識(shí)別結(jié)果進(jìn)行評(píng)估,確定是否滿(mǎn)足設(shè)定的置信度閾值;

      34、收集用戶(hù)反饋或自動(dòng)識(shí)別錯(cuò)誤,分析錯(cuò)誤發(fā)生的特征條件;

      35、根據(jù)錯(cuò)誤反饋和識(shí)別結(jié)果,調(diào)整閾值設(shè)定。

      36、上述方案中,可選的,所述方法還包括:將ocr識(shí)別的結(jié)果與知識(shí)圖譜中的實(shí)體、關(guān)系和屬性進(jìn)行匹配和驗(yàn)證,基于上下文語(yǔ)義理解進(jìn)行驗(yàn)證;

      37、其中,所述知識(shí)圖譜匹配和驗(yàn)證包括以下步驟:

      38、將ocr識(shí)別的結(jié)果與知識(shí)圖譜中的實(shí)體、關(guān)系和屬性進(jìn)行匹配和驗(yàn)證;

      39、利用自然語(yǔ)言處理技術(shù)分析識(shí)別文本的上下文語(yǔ)義,通過(guò)構(gòu)建語(yǔ)言模型,預(yù)測(cè)在特定上下文中更可能出現(xiàn)的正確詞匯和句子結(jié)構(gòu),從而提高驗(yàn)證的準(zhǔn)確性。

      40、第二方面,一種文字識(shí)別與自動(dòng)化審核系統(tǒng),所述系統(tǒng)包括:

      41、獲取模塊:用于獲取待審核文檔數(shù)據(jù),其中,所述待審核文檔數(shù)據(jù)包括半結(jié)構(gòu)化文檔數(shù)據(jù)和非結(jié)構(gòu)化文本數(shù)據(jù);

      42、識(shí)別模塊:用于根據(jù)所述待審核文檔數(shù)據(jù)內(nèi)容獲取對(duì)應(yīng)ocr引擎,并采用所述對(duì)應(yīng)ocr引擎識(shí)別待審核文檔數(shù)據(jù),得到文檔數(shù)據(jù);

      43、抽取模塊:用于根據(jù)所述文檔數(shù)據(jù),選取文檔抽取類(lèi)型抽取目標(biāo)文檔數(shù)據(jù),所述目標(biāo)文檔數(shù)據(jù)格式為結(jié)構(gòu)化文本數(shù)據(jù),其中,所述文檔抽取類(lèi)型包括規(guī)則抽取和模型抽?。?/p>

      44、對(duì)比模塊:用于通過(guò)對(duì)比所述目標(biāo)文檔數(shù)據(jù)與預(yù)先搭建的目標(biāo)結(jié)構(gòu)化文本數(shù)據(jù),確定所述目標(biāo)文檔數(shù)據(jù)是否合規(guī);

      45、動(dòng)態(tài)置信度閾值調(diào)整模塊:用于根據(jù)所述待審核文檔數(shù)據(jù)的復(fù)雜度,實(shí)時(shí)更新所述目標(biāo)文檔數(shù)據(jù)的置信度閾值;

      46、輸出模塊:用于根據(jù)所述所述目標(biāo)文檔數(shù)據(jù)是否合規(guī)以及所述目標(biāo)文檔數(shù)據(jù)的置信度閾值,輸出所述目標(biāo)文檔數(shù)據(jù)的合規(guī)率。

      47、相比現(xiàn)有技術(shù),本技術(shù)至少具有以下有益效果:

      48、本技術(shù)基于對(duì)現(xiàn)有技術(shù)問(wèn)題的進(jìn)一步分析和研究,認(rèn)識(shí)到現(xiàn)有方案難以滿(mǎn)足現(xiàn)代企業(yè)對(duì)高效、準(zhǔn)確、靈活和綜合性的數(shù)據(jù)處理需求的問(wèn)題,通過(guò)獲取包括半結(jié)構(gòu)化和非結(jié)構(gòu)化在內(nèi)的所有待審核文檔數(shù)據(jù),確保審核過(guò)程的全面性,避免了手工審核中可能出現(xiàn)的遺漏問(wèn)題,利用ocr技術(shù)準(zhǔn)確識(shí)別文檔內(nèi)容,將其轉(zhuǎn)化為可操作的結(jié)構(gòu)化數(shù)據(jù),提高了審核的準(zhǔn)確性,減少了人為錯(cuò)誤,通過(guò)規(guī)則抽取和模型抽取兩種方式,選取文檔中的關(guān)鍵信息,提升了信息處理的效率和準(zhǔn)確性,與預(yù)先搭建的目標(biāo)結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行對(duì)比,自動(dòng)化地完成合規(guī)性檢查,確保審核結(jié)果的合規(guī)性,根據(jù)文檔的復(fù)雜度實(shí)時(shí)更新置信度閾值,使審核過(guò)程更加靈活,適應(yīng)不同復(fù)雜度的文檔數(shù)據(jù),自動(dòng)化的審核流程顯著提高了審核效率,尤其是在處理大量文檔數(shù)據(jù)時(shí),相比手工審核,能夠節(jié)省大量時(shí)間和人力資源,輸出審核結(jié)果以及對(duì)應(yīng)置信率,使用戶(hù)能夠看到文檔解析的具體結(jié)果,并在必要時(shí)進(jìn)行人工干預(yù),提高了審核的可靠性和用戶(hù)的信任度。

      49、本技術(shù)文字識(shí)別與自動(dòng)化審核方法通過(guò)結(jié)合先進(jìn)的ocr技術(shù)、智能抽取、合規(guī)性檢查和動(dòng)態(tài)閾值更新等技術(shù),大大提高了審核的效率、準(zhǔn)確性和靈活性,滿(mǎn)足了現(xiàn)代企業(yè)對(duì)高效、準(zhǔn)確、靈活和綜合性的數(shù)據(jù)處理需求。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1