本發(fā)明屬于光學(xué)字符識(shí)別,具體的說(shuō)是一種基于融合檢測(cè)的底稿圖像識(shí)別系統(tǒng)及方法。
背景技術(shù):
1、光學(xué)字符識(shí)別一般包括圖像預(yù)處理、文本檢測(cè)和文本識(shí)別過(guò)程,其中文本檢測(cè)方法中比較流行的是基于像素分割的方法和基于回歸的方法。底稿圖像包含金融場(chǎng)景下的各類文本圖像,如銀行流水、發(fā)票、憑證和各類證件照等,打印質(zhì)量也各不相同,存在拍照、掃描和pdf打印等。因此,底稿圖像中的文本行尺寸、形狀和頁(yè)面排版多變,字體也各不相同,存在小字、透字、文本粘連等問(wèn)題,由于其場(chǎng)景的復(fù)雜性,使用現(xiàn)有的單一文本檢測(cè)模型很難達(dá)到較好的文本檢測(cè)效果,從而導(dǎo)致整體識(shí)別質(zhì)量差。
2、基于像素分割的文本檢測(cè)方法通常借鑒物體語(yǔ)義分割和實(shí)例分割的思想,利用全卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像中的每個(gè)像素點(diǎn)進(jìn)行文本和非文本分類,從而得到文本區(qū)域掩碼圖,然后通過(guò)一些像素聚合的后處理方式將屬于同一文本的文本像素點(diǎn)聚合在一起得到最后的文本實(shí)例邊界框,這類方法中比較典型的算法有psenet、pan、msr和dbnet等?;诨貧w的文本檢測(cè)方法主要是基于以深度學(xué)習(xí)為基礎(chǔ)的目標(biāo)檢測(cè)技術(shù)或者實(shí)例分割技術(shù),它將文本視為一種通用目標(biāo)然后直接檢測(cè)出整個(gè)文本實(shí)例,此類方法通常是直接回歸出水平矩形或者多方向的任意形狀多邊形以解決文本檢測(cè)的問(wèn)題,這類方法中比較典型的算法有text-boxes、east和yolo等?;谙袼胤指畹姆椒ǖ闹饕獌?yōu)勢(shì)在于對(duì)文本邊界的預(yù)測(cè)比較精準(zhǔn),能夠適應(yīng)于各種形狀的文本,同時(shí)有較強(qiáng)的抗噪聲干擾能力;同時(shí)它也存在一些缺陷,如無(wú)法檢測(cè)重疊文本和對(duì)小目標(biāo)不敏感等?;诨貧w的方法的主要優(yōu)勢(shì)在于能夠準(zhǔn)確檢測(cè)重疊文本、對(duì)小目標(biāo)的檢測(cè)效果較好;同時(shí)它的缺陷在于不適用于文本行角度、形狀存在多樣性的場(chǎng)景。
3、如公開號(hào)為cn116935405a的中國(guó)專利公開了一種基于ocr和nlp提取客戶文檔掃描件內(nèi)服務(wù)條款方法,步驟如下:1)、服務(wù)器獲取用戶上傳的掃描件;2)、將掃描件轉(zhuǎn)換為jpg格式的圖片;3)、使用dbnet網(wǎng)絡(luò)識(shí)別圖片中包含文字的行;4)、將識(shí)別出包含文字的行轉(zhuǎn)換為獨(dú)立的圖片;5)、將包含文字的獨(dú)立的圖片轉(zhuǎn)換為標(biāo)準(zhǔn)化圖片;6)、將標(biāo)準(zhǔn)化圖片交給文字識(shí)別網(wǎng)絡(luò),識(shí)別出文字;7)、識(shí)別出的文字中的標(biāo)題、段落,切換為正文;8)、識(shí)別文檔中的表格,切換為正文;9)、提取出文檔中的服務(wù)內(nèi)容和對(duì)工程師要求,切換為正文;10)、進(jìn)行關(guān)鍵詞搜索,并規(guī)范化提取內(nèi)容。該發(fā)明通過(guò)系統(tǒng)自動(dòng)化減少技術(shù)人員和業(yè)務(wù)人員的溝通成本和時(shí)間成本,快速定位客戶所要的服務(wù)內(nèi)容。
4、如公開號(hào)為cn118314563a的中國(guó)專利公開了一種基于旋轉(zhuǎn)框體的文本檢測(cè)方法,屬于文本檢測(cè)領(lǐng)域。所述方法包括:s1、獲取圖片數(shù)據(jù)集,并對(duì)其進(jìn)行預(yù)處理;s2、構(gòu)造基于改進(jìn)yolov8s-obb算法得到的文本檢測(cè)模型;s3、將所述步驟s1預(yù)處理后的圖片數(shù)據(jù)集輸入所述步驟s2的文本檢測(cè)模型中進(jìn)行迭代,得到最優(yōu)的文本檢測(cè)模型;s4、使用所述最優(yōu)的文本檢測(cè)模型對(duì)所述步驟s1預(yù)處理后的圖片數(shù)據(jù)集進(jìn)行文本檢測(cè)。該發(fā)明通過(guò)改進(jìn)的yolov8s-obb算法生成可旋轉(zhuǎn)的文字檢測(cè)框體,解決了交通標(biāo)志牌等目標(biāo)因圖像角度問(wèn)題所導(dǎo)致的檢測(cè)框無(wú)法全覆蓋的問(wèn)題,同時(shí)有效提高檢測(cè)準(zhǔn)確度。
5、上述專利的缺陷:1)無(wú)法處理重疊文本,會(huì)導(dǎo)致后續(xù)識(shí)別結(jié)果錯(cuò)誤;2)對(duì)于長(zhǎng)文本檢測(cè)效果不夠好,不能適用于底稿文本識(shí)別場(chǎng)景。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種基于融合檢測(cè)的底稿圖像識(shí)別系統(tǒng)及方法,主要包括旋轉(zhuǎn)校正、檢測(cè)模塊和圖像文字識(shí)別,其中檢測(cè)模塊使用了基于分割的文本檢測(cè)方法和基于回歸的文本檢測(cè)方法,并將二者的檢測(cè)結(jié)果融合,最后輸出底稿圖像中的所有文本行的位置。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于融合檢測(cè)的底稿圖像識(shí)別方法,包括以下具體步驟:
4、獲取底稿圖像,并對(duì)獲取的底稿圖像進(jìn)行預(yù)處理;
5、對(duì)預(yù)處理后的底稿圖像進(jìn)行角度識(shí)別,并進(jìn)行旋轉(zhuǎn)校正處理;
6、對(duì)旋轉(zhuǎn)校正后的底稿圖像中的文本位置進(jìn)行識(shí)別;
7、根本識(shí)別出的底稿圖像中的文本位置,對(duì)底稿圖像中文本內(nèi)容進(jìn)行識(shí)別。
8、具體的,所述對(duì)預(yù)處理后的底稿圖像進(jìn)行角度識(shí)別,包括:
9、使用預(yù)先標(biāo)注角度值的底稿圖像數(shù)據(jù)集來(lái)訓(xùn)練mobilenet-v3模型,在模型訓(xùn)練完成后,得到底稿朝向識(shí)別模型;
10、設(shè)定獲取的底稿圖像為i(x,y),將底稿圖像i(x,y)輸入至底稿朝向識(shí)別模型中,得到底稿圖像i(x,y)的朝向角度;
11、將底稿圖像i(x,y)從空間域轉(zhuǎn)換到頻率域,生成頻譜,生成頻譜的具體公式為:
12、,
13、其中,f(u,v)表示頻率域中頻率為(u,v)的頻譜值,u表示頻率域中的水平頻率分量,v表示頻率域中的垂直頻率分量,i(i,j)表示底稿圖像中坐標(biāo)位置為(i,j)的灰度值,m表示底稿圖像i(x,y)的寬度,n表示底稿圖像i(x,y)的高度,表示虛數(shù)單位,且滿足=-1,e表示指數(shù)函數(shù);
14、在底稿圖像i(x,y)的頻率域中進(jìn)行自適應(yīng)徑向投影,提取底稿圖像i(x,y)的傾斜角度。
15、具體的,所述提取底稿圖像i(x,y)的傾斜角度,包括:
16、計(jì)算頻率域中頻率為(u,v)的幅度值,計(jì)算公式為:
17、,
18、其中,a(u,v)表示頻率域中頻率為(u,v)的幅度值,re(f(u,v))表示頻率域中頻率為(u,v)的實(shí)部,im(f(u,v))表示頻率域中頻率為(u,v)的虛部;
19、對(duì)頻率域中頻譜的幅度進(jìn)行徑向投影,轉(zhuǎn)化為極坐標(biāo)表示,并在不同角度進(jìn)行投影求和,得到投影值,投影求和的具體公式為:
20、,
21、其中,表示頻率域中頻譜的幅度在角度上的投影值,表示投影角度,r表示徑向距離,r表示頻率域中頻譜的最大半徑;
22、對(duì)底稿圖像i(x,y)的傾斜角度進(jìn)行檢測(cè),具體公式為:,其中,argmax表示使投影值達(dá)到最大值的角度,表示底稿圖像i(x,y)的傾斜角度。
23、具體的,所述旋轉(zhuǎn)校正處理,包括:
24、根據(jù)提取的底稿圖像i(x,y)的傾斜角度,對(duì)底稿圖像i(x,y)進(jìn)行旋轉(zhuǎn)校正,具體公式為:
25、,
26、其中,表示旋轉(zhuǎn)校正后的底稿圖像。
27、具體的,所述對(duì)旋轉(zhuǎn)校正后的金融領(lǐng)域的底稿圖像中的文本位置進(jìn)行識(shí)別,包括:
28、獲取底稿圖像公共數(shù)據(jù)集,人工標(biāo)注底稿圖像公共數(shù)據(jù)集中的文本行位置信息;
29、使用含有文本行位置標(biāo)注信息的底稿圖像公共數(shù)據(jù)集訓(xùn)練第一文本檢測(cè)模型和第二文本檢測(cè)模型,得到訓(xùn)練好的第一文本檢測(cè)模型和第二文本檢測(cè)模型;
30、將旋轉(zhuǎn)校正后的金融領(lǐng)域的底稿圖像分別輸入至第一文本檢測(cè)模型和第二文本檢測(cè)模型,得到第一文本行位置的預(yù)測(cè)結(jié)果和第二文本行位置的預(yù)測(cè)結(jié)果;
31、設(shè)定第一文本行位置的預(yù)測(cè)結(jié)果中的一個(gè)檢測(cè)框?yàn)閍,第二文本行位置的預(yù)測(cè)結(jié)果中的一個(gè)檢測(cè)框?yàn)閎,計(jì)算檢測(cè)框a和b之間的ious值,計(jì)算公式為:
32、,
33、其中,ious表示檢測(cè)框a和b之間的ious值,areaa表示檢測(cè)框a的面積,areab表示檢測(cè)框b的面積,areac表示檢測(cè)框c的面積;
34、計(jì)算出第一文本行位置的預(yù)測(cè)結(jié)果中的檢測(cè)框和第二文本行位置的預(yù)測(cè)結(jié)果中的檢測(cè)框之間的ious,得到ious集合ious_map,ious_map[p,q]表示第一文本行位置的預(yù)測(cè)結(jié)果中的第p個(gè)檢測(cè)框和第二文本行位置的預(yù)測(cè)結(jié)果中的第q個(gè)檢測(cè)框之間的ious;
35、利用融合策略,對(duì)ious_map中的檢測(cè)框進(jìn)行篩選判斷。
36、具體的,所述融合策略,包括:
37、第二文本行位置的預(yù)測(cè)結(jié)果中的檢測(cè)框檢測(cè)到單字符文本,若第一文本行位置的預(yù)測(cè)結(jié)果中的檢測(cè)框都不與單字符文本檢測(cè)框相交,且單字符文本檢測(cè)框的寬高比小于1.5,第一文本行位置的預(yù)測(cè)結(jié)果不包含單字符文本檢測(cè)框,則將單字符文本檢測(cè)框加入至第一文本行位置的預(yù)測(cè)結(jié)果中;
38、若第一文本行位置的預(yù)測(cè)結(jié)果中的檢測(cè)框?qū)?yīng)第二文本行位置的預(yù)測(cè)結(jié)果中若干個(gè)檢測(cè)框,則刪除第一文本行位置的預(yù)測(cè)結(jié)果中的檢測(cè)框,并將第二文本行位置的預(yù)測(cè)結(jié)果中若干個(gè)檢測(cè)框加入至第一文本行位置的預(yù)測(cè)結(jié)果中。
39、一種基于融合檢測(cè)的底稿圖像識(shí)別系統(tǒng),其用于實(shí)現(xiàn)所述的一種基于融合檢測(cè)的底稿圖像識(shí)別方法,包括:圖像獲取模塊,旋轉(zhuǎn)校正模塊,位置識(shí)別模塊和文本識(shí)別模塊;
40、所述圖像獲取模塊,用于獲取底稿圖像,并對(duì)獲取的底稿圖像進(jìn)行預(yù)處理;
41、所述旋轉(zhuǎn)校正模塊,用于對(duì)預(yù)處理后的底稿圖像進(jìn)行角度識(shí)別,并進(jìn)行旋轉(zhuǎn)校正處理;
42、所述位置識(shí)別模塊,用于對(duì)旋轉(zhuǎn)校正后的底稿圖像中的文本位置進(jìn)行識(shí)別;
43、所述文本識(shí)別模塊,用于根本識(shí)別出的底稿圖像中的文本位置,對(duì)底稿圖像中文本內(nèi)容進(jìn)行識(shí)別。
44、具體的,所述旋轉(zhuǎn)校正模塊包括角度識(shí)別單元和旋轉(zhuǎn)校正單元,
45、所述角度識(shí)別單元,用于對(duì)預(yù)處理后的底稿圖像進(jìn)行角度識(shí)別;
46、所述旋轉(zhuǎn)校正單元,用于根據(jù)識(shí)別出的底稿圖像朝向角度,對(duì)底稿圖像進(jìn)行旋轉(zhuǎn)校正。
47、一種電子設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)一種基于融合檢測(cè)的底稿圖像識(shí)別方法的步驟。
48、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,當(dāng)計(jì)算機(jī)指令運(yùn)行時(shí)執(zhí)行一種基于融合檢測(cè)的底稿圖像識(shí)別方法的步驟。
49、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
50、1.本發(fā)明提出一種基于融合檢測(cè)的底稿圖像識(shí)別方法,通過(guò)融合多種檢測(cè)方法,可以綜合各自的優(yōu)點(diǎn),減少單一方法的缺陷,提高底稿圖像的識(shí)別精度。
51、2.本發(fā)明提出一種基于融合檢測(cè)的底稿圖像識(shí)別方法,該方法適用于各種復(fù)雜的底稿圖像識(shí)別場(chǎng)景,包括但不限于金融領(lǐng)域的底稿圖像等。
52、3.本發(fā)明提出一種基于融合檢測(cè)的底稿圖像識(shí)別方法,通過(guò)綜合分析多種檢測(cè)結(jié)果,可以有效減少誤識(shí)別的概率,提高整體系統(tǒng)的準(zhǔn)確性。