一種基于多特征的文本圖像一致性比較方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像處理領(lǐng)域,更為具體地講,涉及一種基于多特征的文本圖像一致 性比較方法。
【背景技術(shù)】
[0002] Pdf、Word、圖像等格式的原始電子文檔經(jīng)常需要被打印,打印出來(lái)的紙質(zhì)文檔常 常需要確認(rèn)是否為原始電子文檔的真實(shí)副本,因?yàn)榇蛴〕鰜?lái)的紙質(zhì)文檔可能由于人為修改 或意外情況而發(fā)生改變,與原始電子文檔并不完全一致。例如,商業(yè)合同一般先采用電子文 檔進(jìn)行協(xié)商,最終打印為紙質(zhì)文檔,此時(shí)就需要確保打印的紙質(zhì)文檔是最終電子文檔的真 實(shí)副本,二者的文本內(nèi)容完全一致。完全通過(guò)人工對(duì)比來(lái)檢測(cè)這些可能存在的不一致是極 其耗時(shí)而低效的,而通過(guò)圖像處理領(lǐng)域的技術(shù)來(lái)檢測(cè),可以大量減少人工檢測(cè)的工作量,極 大地提高檢測(cè)效率?;舅悸肥菍⒋蛴〕鰜?lái)后的紙質(zhì)文檔掃描回Pdf或圖像格式的掃描電 子文檔,然后將原始電子文檔和掃描電子文檔轉(zhuǎn)換為圖像,通過(guò)計(jì)算機(jī)圖像處理技術(shù)檢測(cè) 掃描電子文檔圖像與原始電子文檔圖像中文本內(nèi)容不一致的地方,并予以標(biāo)記,然后再人 工確認(rèn)這些標(biāo)記,從而最終確認(rèn)打印出來(lái)的紙質(zhì)文檔是否為原始電子文檔的真實(shí)副本。
[0003] 針對(duì)文本圖像比較的相關(guān)技術(shù),主要有以下幾方面:
[0004] 1)俞頌陽(yáng),明偉.通過(guò)用字符的形狀特征來(lái)比較字符而檢測(cè)文檔變化的方法 [P]·美國(guó):CN102722729A, 2012-10-10.
[0005] 該方法根據(jù)字符的歐拉數(shù)、邊框的高寬比、邊框的像素密度以及兩個(gè)字符之間的 豪斯多夫距離等形狀特征來(lái)確定兩個(gè)字符是相同的或不同的。但該方法高度依賴(lài)于如何提 取匹配字符的骨架的算法,且對(duì)圖像質(zhì)量有較高要求,尤其不適用于掃描版中文文檔的比 較。
[0006] 2)宋永紅,張?jiān)?,雍旭東,孟泉,劉躍虎,陳曉.一種文字圖像特征差異的快 速計(jì)算方法[P].陜西:CN103440472A, 2013-12-11.
[0007] 該方法首先基于幾何形狀特征的多樣性,采用前景像素個(gè)數(shù)、文字大小、長(zhǎng)寬比和 占空比四個(gè)特征對(duì)差異較大的文字對(duì)進(jìn)行初步篩選,在初步篩選之后,對(duì)剩下的配對(duì)進(jìn)行 精細(xì)特征描述,并采用修正的模板匹配方法。但是模板匹配方法中用到的高度、寬度、前景 像素總數(shù)、長(zhǎng)寬比、及占空比特征均不足以精確刻畫(huà)一個(gè)中文文字的結(jié)構(gòu),也就限制了該方 法對(duì)于中文文本圖像的比較精度。
[0008] 3) Baudrier E,. Nicolier F, Millon G, et al. Binary-image comparison with local-dissimilarity quantification[J]. Pattern Recogniti on, 2008,41(5) :1461-1478.
[0009] 該方法通過(guò)改進(jìn)的豪斯多夫距離來(lái)度量?jī)筛倍祱D像的相似度,但這種單一的特 征不足以刻畫(huà)中文文本的特征,容易產(chǎn)生錯(cuò)誤的肯定檢測(cè)。
[0010] 本發(fā)明通過(guò)采用多特征融和技術(shù),提供一種有效的中文文本圖像的一致性檢測(cè)方 法。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明的目的是在不真正地識(shí)別文字的情況下,根據(jù)文本圖像結(jié)構(gòu)特征,比較打 印文檔圖像與原電子文檔圖像的文本內(nèi)容是否一致。
[0012] 為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供一種基于多特征的文本圖像一致性比較方法, 所述方法包括以下步驟:
[0013] (1)、先將原電子文檔打印,再用打印后的文檔掃描生成電子文檔,并標(biāo)記為掃描 版電子文檔;
[0014] (2)、將原電子文檔轉(zhuǎn)換生成圖像,記為源圖像,將掃描版電子文檔生成的圖像,記 為目標(biāo)圖像;
[0015] (3)、對(duì)源圖像與目標(biāo)圖像進(jìn)行預(yù)處理;
[0016] (4)、根據(jù)文本圖像的水平、垂直投影特征,分別提取預(yù)處理后的源圖像與目標(biāo)圖 像的文本區(qū)域;
[0017] (5)、調(diào)整目標(biāo)圖像的文本區(qū)域大小,使得其高度與寬度等于源圖像文本區(qū)域的高 度與寬度;
[0018] (6)、根據(jù)行間距提取源圖像與目標(biāo)圖像文本區(qū)域中的文本行,以源圖像中的文本 行為參考,比較目標(biāo)圖像中的文本行與源圖像中的文本行的行數(shù)是否相等,如果行數(shù)相等, 則直接進(jìn)入步驟(7);如果行數(shù)不相等,則標(biāo)出目標(biāo)圖像中添加或缺少的行,再進(jìn)入步驟 (7) ;
[0019] (7)、利用數(shù)字分別對(duì)源圖像與目標(biāo)圖像中的文本行逐行進(jìn)行編號(hào),再根據(jù)文字間 距提取對(duì)應(yīng)行編號(hào)中所有文字,每一個(gè)文字均生成一幅文字圖像,其中,源圖像中的文字提 取生成為源文字圖像,目標(biāo)圖像中的文字提取生成為目標(biāo)文字圖像;
[0020] 以源圖像中該文本行的源文字圖像數(shù)目為參考,比較該行編號(hào)下的目標(biāo)圖像文 本行與源圖像文本行的文字圖像數(shù)目是否相等,如果文字圖像數(shù)目相等,則直接進(jìn)入步驟 (8) ;如果文字圖像數(shù)目不相等,則標(biāo)出目標(biāo)圖像中該行添加或缺少的文字圖像,再進(jìn)入步 驟⑶;
[0021] (8)、根據(jù)文字圖像結(jié)構(gòu)特征,結(jié)合步驟(7)比較該行編號(hào)下的目標(biāo)圖像文本行與 源圖像文本行中位置相對(duì)應(yīng)的文字圖像,以源圖像中該文本行的文字圖像為參考,標(biāo)出目 標(biāo)圖像中該文本行對(duì)應(yīng)位置出現(xiàn)的不同文字圖像;
[0022] 同理,結(jié)合步驟(7)和步驟(8)繼續(xù)比較剩余的文本行,直到比較完所有的文本行 為止;
[0023] (9)、輸出上述所有的比較結(jié)果。
[0024] 其中,所述的步驟(8)中,根據(jù)文字圖像結(jié)構(gòu)特征,比較源圖像和目標(biāo)圖像中對(duì)應(yīng) 行對(duì)應(yīng)位置的文字的方法為:
[0025] (8. 1)、設(shè)閾值threshold_scale,對(duì)源文字圖像與目標(biāo)文字圖像分別提 取高寬比特征,分別記為Sl、S2,然后用高寬比特征進(jìn)行初步比較,如果|S1-S2|/ min (SI, S2) >threshold_scale,則認(rèn)為本對(duì)文字圖像不同,且本對(duì)文字圖像比較結(jié)束,進(jìn)行 下一對(duì)文字圖像的比較;如果|Sl-S2|/min(Sl,S2)彡threshold_scale,則初步認(rèn)為本對(duì) 文字圖像相同,再進(jìn)入步驟(8.2);
[0026] (8. 2)、歸一化文字圖像大小,使目標(biāo)文字圖像大小等于源文字圖像大??;
[0027] (8. 3)、基于像素差異的文字圖像比較
[0028] a)、計(jì)算兩文字圖像的像素值矩陣的絕對(duì)值圖像AbsDiff = |Dst-Src|,其中,Dst 表示目標(biāo)文字圖像的像素值矩陣,Src表示源文字圖像的像素值矩陣;
[0029] b)、統(tǒng)計(jì)絕對(duì)值圖像AbsDiff中白色像素點(diǎn)個(gè)數(shù),記為AbsDiffWhite ;
[0030] c)、計(jì)算兩文字圖像的像素相對(duì)差異RelaDiff = AbsDiffWhite/ min(DstBlack, SrcBlack),其中DstBlack是源文字圖像中的黑色像素點(diǎn)的個(gè)數(shù),SrcBlack 是目標(biāo)文字圖像中的黑色像素點(diǎn)的個(gè)數(shù);
[0031] d)、設(shè)閾值 threshold_pixdiff,當(dāng) RelaDiff > threshold_pixdiff 時(shí),則 認(rèn)為本對(duì)文字圖像不同,且本對(duì)文字圖像比較結(jié)束,進(jìn)行下一對(duì)文字圖像的比較;當(dāng) RelaDiff < threshold_pixdiff時(shí),則進(jìn)一步認(rèn)為本對(duì)文字圖像相同,再進(jìn)行步驟(8. 4); [0032] (8. 4)、基于投影特征的文字圖像比較
[0033] 首先,對(duì)兩個(gè)文字圖像進(jìn)行細(xì)化處理,然后,計(jì)算它們的水平投影與垂直投影,剔 除小于文字圖像高度1/X的水平投影值,剔除小于文字圖像寬度Vk1的垂直投影值,再 將剩下的投影值構(gòu)成文字的投影特征,并比較投影值的大小,如果水平投影值的絕對(duì)差值 大于文字圖像高度的l/k2