專利名稱:自動(dòng)識別表格類型的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及表格識別技術(shù)領(lǐng)域,尤其涉及一種自動(dòng)識別表格類型的方法及裝置。
背景技術(shù):
表格文檔是指以文字和表格為主要內(nèi)容的一類圖像,主要是通過掃描儀等設(shè)備將紙質(zhì)表格檔案轉(zhuǎn)化而來的文檔圖像。當(dāng)通過掃描儀等設(shè)備將紙質(zhì)表格掃描到系統(tǒng)中后,通常是按照表格的類型對表格文檔進(jìn)行分類存儲的,目前對表格類型的識別主要是由工作人員進(jìn)行,因此主要存在工作效率低的問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種自動(dòng)識別表格類型的方法及裝置。可以解決現(xiàn)有表格類型識別中的識別效率低的問題。本發(fā)明提供了一種自動(dòng)識別表格類型的方法,包括:步驟a、提取待識別表格的圖像特征;步驟b、將所述待識別表格的圖像特征與表格特征庫中表格的圖像特征分別匹配,將從所述表格特征庫中匹配到的表格的類型作為所述待識別表格的類型。進(jìn)一步,所述圖像特征包括:SUMX、SUMA、SUMB, SUMC, SUMD和SUME,SUMX表示表格中中軸線條數(shù),SUMA, SUMB, SUMC和SUMD分別表示A、B、C和D四個(gè)區(qū)域內(nèi)的中軸線條數(shù),SUME表示矩形區(qū)域E內(nèi)的中軸線條數(shù),其中A、B、C和D四個(gè)區(qū)域?yàn)樵诒砀竦膶捄透叩闹悬c(diǎn)處,將表格分為的2行2列的四個(gè)面積相等的區(qū)域,矩形區(qū)域E與表格有相同的中心,且寬和高均為表格的寬和高的三分之一。進(jìn)一步,所述步驟b包括:步驟bl、判斷所述待識別表格的SUMX與所述表格特征庫中表格的SUMX的差的絕對值是否小于第一閾值,若所述表格特征庫中多個(gè)表格的SUMX與所述待識別表格的SUMX的差的絕對值均小于第一閾值,則執(zhí)行步驟b2,若所述表格特征庫中僅有一個(gè)表格的SUMX與所述待識別表格的SUMX的差的絕對值小于第一閾值,則將所述表格特征庫中該僅有的一個(gè)表格的類型作為所述待識別表格的類型;步驟b2、判斷所述待識別表格的SUMA、SUMB、SUMC和SUMD與所述表格特征庫中表格的SUMA、SUMB, SUMC和SUMD的差的絕對值是否分別小于第二閾值、第三閾值、第四閾值和第五閾值,若所述表格特征庫多個(gè)表格的SUMA、SUMB, SUMC和SUMD與所述待識別表格的SUMA, SUMB, SUMC和SUMD的差的絕對值均小于對應(yīng)的閾值,則執(zhí)行步驟b3,若所述表格特征庫中僅有一個(gè)表格的SUMA、SUMB, SUMC和SUMD與所述待識別表格的SUMA、SUMB, SUMC和SUMD的差的絕對值均小于對應(yīng)的閾值,則將所述表格特征庫中該僅有的一個(gè)表格的類型作為所述待識別表格的類型;步驟b3、判斷所述待識別表格的SUME與所述表格特征庫中表格的SUME的差的絕對值是否小于第六閾值,若所述表格特征庫中多個(gè)表格的SUME與所述待識別表格的SUME的差的絕對值均小于第六閾值,則將該多個(gè)表格中與所述待識別表格的SUME的差的絕對值最小的表格的類型作為所述待識別表格的類型,若所述表格特征庫中僅有一個(gè)表格的SUME與所述待識別表格的SUME的差的絕對值小于第六閾值,則將該僅有的一個(gè)表格的類型作為所述待識別表格的類型。進(jìn)一步,第一閾值為所述待識別表格的SUMX的^ 分之一,第二閾值為所述待識別表格的SUMA的七分之一,第三閾值為所述待識別表格的SUMB的七分之一,第四閾值為所述待識別表格的SUMC的七分之一,第五閾值為所述待識別表格的SUMD的七分之一,第六閾值為所述待識別表格的SUME的五分之一。進(jìn)一步,所述步驟a包括:步驟al、對待識別表格依次進(jìn)行分割、二值化和濾波處理;步驟a2、提取經(jīng)步驟al處理后的待識別表格中的水平線段和垂直線段;步驟a3、合并步驟a2中提取的水平線段和垂直線段得到表格框架;步驟a4、對步驟a3得到的表格框架依次進(jìn)行取反和細(xì)化處理;步驟a5、提取經(jīng)步驟a5處理后的表格框架中的圖像特征。進(jìn)一步,所述步驟a2包括:對經(jīng)步驟al處理后的待識別表格,先以水平方向直線線段結(jié)構(gòu)元素在水平方向上腐蝕,然后以膨脹結(jié)構(gòu)元素為模板在垂直方向上進(jìn)行一次膨脹,所述水平方向直線線段
結(jié)構(gòu)元素的長度值為所述待識別表格的寬度的五分之三,所述膨脹結(jié)構(gòu)元素為:
權(quán)利要求
1.種自動(dòng)識別表格類型的方法,其特征在于:包括: 步驟a、提取待識別表格的圖像特征; 步驟b、將所述待識別表格的圖像特征與表格特征庫中表格的圖像特征分別匹配,將從所述表格特征庫中匹配到的表格的類型作為所述待識別表格的類型。
2.權(quán)利要求1所述的自動(dòng)識別表格類型的方法,其特征在于:所述圖像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD 和 SUME,SUMX 表示表格中中軸線條數(shù),SUMA、SUMB、SUMC 和SUMD分別表示A、B、C和D四個(gè)區(qū)域內(nèi)的中軸線條數(shù),SUME表示矩形區(qū)域E內(nèi)的中軸線條數(shù),其中A、B、C和D四個(gè)區(qū)域?yàn)樵诒砀竦膶捄透叩闹悬c(diǎn)處,將表格分為的2行2列的四個(gè)面積相等的區(qū)域,矩形區(qū)域E與表格有相同的中心,且寬和高均為表格的寬和高的三分之一。
3.權(quán)利要求2所述的自動(dòng)識別表格類型的方法,其特征在于:所述步驟b包括: 步驟bl、判斷所述待識別表格的SUMX與所述表格特征庫中表格的SUMX的差的絕對值是否小于第一閾值,若所述表格特征庫中多個(gè)表格的SUMX與所述待識別表格的SUMX的差的絕對值均小于第一閾值,則執(zhí)行步驟b2,若所述表格特征庫中僅有一個(gè)表格的SUMX與所述待識別表格的SUMX的差的絕對值小于第一閾值,則將所述表格特征庫中該僅有的一個(gè)表格的類型作為所述待識別表格的類型; 步驟b2、判斷所述待識別表格的SUMA、SUMB、SUMC和SUMD與所述表格特征庫中表格的SUMA、SUMB、SUMC和SUMD的差的絕對值是否分別小于第二閾值、第三閾值、第四閾值和第五閾值,若所述表格特征庫多個(gè)表格的SUMA、SUMB, SUMC和SUMD與所述待識別表格的SUMA、SUMB, SUMC和SUMD的差的絕對值均小于對應(yīng)的閾值,則執(zhí)行步驟b3,若所述表格特征庫中僅有一個(gè)表格的SUMA、SUMB, SUMC和SUMD與所述待識別表格的SUMA、SUMB, SUMC和SUMD的差的絕對值均小于對 應(yīng)的閾值,則將所述表格特征庫中該僅有的一個(gè)表格的類型作為所述待識別表格的類型; 步驟b3、判斷所述待識別表格的SUME與所述表格特征庫中表格的SUME的差的絕對值是否小于第六閾值,若所述表格特征庫中多個(gè)表格的SUME與所述待識別表格的SUME的差的絕對值均小于第六閾值,則將該多個(gè)表格中與所述待識別表格的SUME的差的絕對值最小的表格的類型作為所述待識別表格的類型,若所述表格特征庫中僅有一個(gè)表格的SUME與所述待識別表格的SUME的差的絕對值小于第六閾值,則將該僅有的一個(gè)表格的類型作為所述待識別表格的類型。
4.權(quán)利要求3所述的自動(dòng)識別表格類型的方法,其特征在于:第一閾值為所述待識別表格的SUMX的^ 分之一,第二閾值為所述待識別表格的SUMA的七分之一,第三閾值為所述待識別表格的SUMB的七分之一,第四閾值為所述待識別表格的SUMC的七分之一,第五閾值為所述待識別表格的SUMD的七分之一,第六閾值為所述待識別表格的SUME的五分之o
5.權(quán)利要求1-4中任一項(xiàng)所述的自動(dòng)識別表格類型的方法,其特征在于:所述步驟a包括: 步驟al、對待識別表格依次進(jìn)行分割、二值化和濾波處理; 步驟a2、提取經(jīng)步驟al處理后的待識別表格中的水平線段和垂直線段; 步驟a3、合并步驟a2中提取的水平線段和垂直線段得到表格框架; 步驟a4、對步驟a3得到的表格框架依次進(jìn)行取反和細(xì)化處理;步驟a5、提取經(jīng)步驟a5處理后的表格框架中的圖像特征。
6.權(quán)利要求5所述的自動(dòng)識別表格類型的方法,其特征在于:所述步驟a2包括: 對經(jīng)步驟al處理后的待識別表格,先以水平方向直線線段結(jié)構(gòu)元素在水平方向上腐蝕,然后以膨脹結(jié)構(gòu)元素為模板在垂直方向上進(jìn)行一次膨脹,所述水平方向直線線段結(jié)構(gòu) Fi I r元素的長度值為所述待識別表格的寬度的五分之三,所述膨脹結(jié)構(gòu)元素為:I丨I ; Li I I 對經(jīng)步驟al處理后的待識別表格,先以垂直方向直線線段結(jié)構(gòu)元素在垂直方向上腐蝕,然后以所述膨脹結(jié)構(gòu)元素為模板在水平方向上進(jìn)行一次膨脹,其中所述垂直方向直線線段結(jié)構(gòu)元素的長度值為所述待識別表格的單元格高度的七分之五。
7.種識別裝置,用于自動(dòng)識別表格的類型,其特征在于:包括: 提取模塊,用于提取待識別表格的圖像特征; 識別模塊,用于將所述待識別表格的圖像特征與表格特征庫中表格的圖像特征分別匹配,將從所述表格特征庫中匹配到的表格的類型作為所述待識別表格的類型。
8.權(quán)利要求7所述的自動(dòng)識別表格類型的裝置,其特征在于:所述圖像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME,所述SUMX表示表格中中軸線條數(shù),所述SUMA、SUMB、SUMC和SUMD分別表示A、B、C和D四個(gè)區(qū)域內(nèi)的中軸線條數(shù),所述SUME表示矩形區(qū)域E內(nèi)的中軸線條數(shù),其中A、B、 C和D四個(gè)區(qū)域?yàn)樵诒砀竦膶捄透叩闹悬c(diǎn)處,將表格分為的2行2列的四個(gè)面積相等的區(qū)域,矩形區(qū)域E與表格有相同的中心,且寬和高均為表格的寬和高的三分之一。
9.權(quán)利要求8所述的自動(dòng)識別表格類型的裝置,其特征在于:所述識別模塊包括: 第一判斷單元,用于判斷所述待識別表格的SUMX與所述表格特征庫中表格的SUMX的差的絕對值是否小于第一閾值; 第一識別單元,用于當(dāng)?shù)谝慌袛鄦卧袛嗟剿霰砀裉卣鲙熘袃H有一個(gè)表格的SUMX與所述待識別表格的SUMX的差的絕對值小于第一閾值,則將所述表格特征庫中該僅有的一個(gè)表格的類型作為所述待識別表格的類型; 第二判斷單元,用于當(dāng)?shù)谝慌袛鄦卧呐袛嗟剿霰砀裉卣鲙熘卸鄠€(gè)表格的SUMX與所述待識別表格的SUMX的差的絕對值均小于第一閾值時(shí),判斷所述待識別表格的SUMA、SUMB, SUMC和SUMD與所述表格特征庫中表格的SUMA、SUMB, SUMC和SUMD的差的絕對值是否分別小于第二閾值、第三閾值、第四閾值和第五閾值; 第二識別單元,用于當(dāng)?shù)诙袛鄦卧袛嗟剿霰砀裉卣鲙熘袃H有一個(gè)表格的SUMA、SUMB, SUMC和SUMD與待識別表格的SUMA、SUMB, SUMC和SUMD的差的絕對值均小于對應(yīng)的閾值,將所述表格特征庫中該僅有的一個(gè)表格的類型作為所述待識別表格的類型; 第三判斷單元,用于當(dāng)?shù)诙袛鄦卧袛嗟剿霰砀裉卣鲙熘卸鄠€(gè)表格的SUMA、SUMB、SUMC和SUMD與所述待識別表格的SUMA、SUMB、SUMC和SUMD的差的絕對值均小于對應(yīng)的閾值時(shí),判斷所述待識別表格的SUME與所述表格特征庫中表格的SUME的差的絕對值是否小于第六閾值;第三識別單元,用于當(dāng)?shù)谌袛鄦卧袛嗟剿霰砀裉卣鲙熘卸鄠€(gè)表格的SUME與所述待識別表格的SUME的差的絕對值均小于第六閾值,則將該多個(gè)表格中與所述待識別表格的SUME的差的絕對值最小的表格的類型作為所述待識別表格的類型,以及用于當(dāng)所述表格特征庫中僅有一個(gè)表格的SUME與待識別表格的SUME的差的絕對值小于第六閾值,貝Ij將該僅有的一個(gè)表格的類型作為所述待識別表格的類型。
10.權(quán)利要求9所述的自動(dòng)識別表格類型的裝置,其特征在于:第一閾值為所述待識別表格的SUMX的十一 分之一,第二閾值為所述待識別表格的SUMA的七分之一,第三閾值為所述待識別表格的SUMB的七分之一,第四閾值為所述待識別表格的SUMC的七分之一,第五閾值為所述待 識別表格的SUMD的七分之一,第六閾值為所述待識別表格的SUME的五分之 一 o
全文摘要
本發(fā)明提供了一種自動(dòng)識別表格類型的方法及裝置。其中方法包括提取待識別表格的圖像特征;將所述待識別表格的圖像特征與表格特征庫中表格的圖像特征分別匹配,將從所述表格特征庫中匹配到的表格的類型作為所述待識別表格的類型。其中裝置包括執(zhí)行上述步驟的提取模塊和識別模塊。采用本發(fā)明的方法及裝置,具有識別效率高、識別準(zhǔn)確性高等優(yōu)點(diǎn)。
文檔編號G06K9/20GK103093218SQ20131001302
公開日2013年5月8日 申請日期2013年1月14日 優(yōu)先權(quán)日2013年1月14日
發(fā)明者余建橋, 郭加旋, 況遠(yuǎn)春, 王迎 申請人:西南大學(xué)