文字圖像中行提取的方法和裝置的制作方法

文檔序號：6605675閱讀：163來源：國知局

專利名稱：文字圖像中行提取的方法和裝置的制作方法
技術領域：
本發(fā)明屬于文字處理領域，涉及一種行提取的方法和裝置，具體涉及一種文字圖像中行提取的方法和裝置。
背景技術：
文字圖像的行提取是光學字符識別(OCR，Optical Character Recognition)領域中的關鍵環(huán)節(jié)之一，其目的在于將多行文字正確劃分成若干行，使得每一行正確完整地包含單行文字，以便進一步進行字符切分和識別，行提取的正確與否將直接影響到字符的識別率。在現(xiàn)有技術中，通常文字圖象進行行提取時采用文字圖像自頂向下的像素直方圖進行投影，但若文字行間存在較嚴重的噪聲，閾值過小則無法正確將行切分開；對于距離較近的甚至有交疊的行，無法正常切分開。如果將文字圖像自底向上的連通域進行分析，則算法比較復雜，對文字的書寫規(guī)范與質(zhì)量具有較強的依賴性，通用性不強，且速度慢。因此，需要提供一種通用的文字圖像行的提取方法，快速高效，且能有效避免行間噪聲的影響，解決距離較近和交疊行的切分問題，為進一步的字符識別提供準確的圖像。

發(fā)明內(nèi)容
本發(fā)明目的在于提供一種文字圖像中行提取的方法和裝置，通過對投影后得到的行區(qū)域進行連通域分析，進而提取對應的文字行圖像，本方法避免了行間噪聲的影響，解決距離較近和交疊行的切分問題，具有很強的通用性。本發(fā)明公開了一種文字圖像中行提取的方法，包括如下步驟步驟1 對文字圖像進行像素分布統(tǒng)計，得到對應的水平投影直方圖；步驟2 根據(jù)水平投影直方圖進行粗切分，得到對應數(shù)量的行區(qū)域；步驟3 剔除行區(qū)域中的無效文字行；步驟4:對行區(qū)域中其余文字行的主體區(qū)域進行定位后，在主體區(qū)域外進行連通域分析，提取對應的文字行圖像。所述步驟1中像素分布統(tǒng)計包括逐行計算圖像的各行像素中前景像素的個數(shù)，得到圖像前景像素對應的水平投影直方圖。所述圖像前景像素為圖像中的文字區(qū)域。所述步驟2對水平投影直方圖進行粗切分時，根據(jù)既定閾值對圖像水平投影直方圖進行濾波，濾除投影值小于既定閾值的像素行。所述步驟3中的無效文字行為平均行高小于既定閾值的文字行。所述步驟4中提取對應的文字行圖像時，在距主體區(qū)域上下邊界小于既定距離范圍內(nèi)進行連通域提取，拼接到主體區(qū)域?qū)膱D像中形成文字行圖像。所述對行區(qū)域中其余文字行的主體區(qū)域進行定位時，將行區(qū)域內(nèi)像素行的水平投影值分別與既定閾值比較，分別至上而下逐像素掃描各行區(qū)域，水平投影值大于既定閾值的像素行為該行區(qū)域的主體區(qū)域的上邊界；分別至下而上逐像素掃描各行區(qū)域，水平投影值大于既定閾值的像素行為該行區(qū)域的主體區(qū)域的下邊界。所述既定閾值為不大于水平投影均值的1/5。所述水平投影均值為行區(qū)域中像素行對應的水平投影值分別按照從小到大的順序進行排序，投影值集合中間區(qū)域的投影值的均值。所述中間區(qū)域為行區(qū)域中像素行對應的水平投影值分別按照從小到大的順序進行排序，投影值集合的前1/3 2/3的范圍。所述連通域包括粘連的連通域和孤立連通域，粘連連通域與主體區(qū)域的上下邊界粘連；孤立連通域在主體區(qū)域外，與主體區(qū)域的上下邊界不粘連，且上邊界距主體區(qū)域上邊界小于既定距離、或者下邊界距主體區(qū)域下邊界小于既定距離。所述既定距離不大于對應行區(qū)域的主體區(qū)域高度的1/3。本發(fā)明還公開了一種文字圖像中行提取的裝置，包括如下模塊統(tǒng)計模塊對文字圖像進行像素分布統(tǒng)計，得到對應的水平投影直方圖；切分模塊根據(jù)水平投影直方圖進行粗切分，得到對應數(shù)量的行區(qū)域；剔除模塊剔除行區(qū)域中的無效文字行；連通域模塊對行區(qū)域中其余文字行的主體區(qū)域進行定位后，在主體區(qū)域外進行連通域分析，提取對應的文字行圖像。本發(fā)明一種文字圖像行提取的方法和裝置，將自上而下的直方圖投影方法與自下而上的連通域分析方法相結合，進行粗切分、精定位。有效避免行間噪聲的影響，解決距離較近和交疊行的切分問題；通用性強，不依賴于語言文字的種類，適用于各種東西方語言文字的行提取。

圖1為本發(fā)明文字圖像中行提取的方法的流程圖；圖2為本發(fā)明文字圖像中行提取的方法實施例中待處理的二值圖；圖3為本發(fā)明文字圖像中行提取的方法圖2所對應的水平投影直方圖；圖4為本發(fā)明文字圖像中行提取的方法中得到的有序的投影直方圖；圖5為本發(fā)明文字圖像中行提取的方法對圖4進行濾波得到的投影直方圖；圖6為本發(fā)明文字圖像中行提取的方法進行粗切分得到的結果圖；圖7為本發(fā)明文字圖像中行提取的方法在粗切分后行高統(tǒng)計示意圖；圖8為本發(fā)明文字圖像中行提取的方法對有效文字行區(qū)域進行定位得到的結果圖；圖9為本發(fā)明文字圖像中行提取的方法中對圖8的部分圖像進行放大的示意圖；圖10為本發(fā)明文字圖像中行提取的方法中行區(qū)域?qū)乃酵队爸狈綀D；圖11為本發(fā)明文字圖像中行提取的方法的水平投影均值進行統(tǒng)計示意圖；圖12為本發(fā)明文字圖像中行提取的方法中對各文字行的主體區(qū)域進行定位的示意圖；圖13、14為采用本發(fā)明文字圖像中行提取的方法提取文字圖像中的一行文字行的處理中間過程示意圖15為采用水平切分方式得到的一行文字行結果圖；圖16為采用本發(fā)明文字圖像中行提取的方法得到的文字行結果圖。
具體實施例方式下面通過附圖和實施例，對本發(fā)明的技術方案做進一步的詳細描述。以下結合附圖并以英文單詞為例，對本發(fā)明進行詳細說明。如圖1所示，本發(fā)明公開的文字圖像中行提取的方法，包括以下步驟步驟一對文字圖像進行像素分布統(tǒng)計，得到對應的水平投影直方圖；輸入待識別的文字圖像，對文字圖像進行像素分布統(tǒng)計，逐行計算圖像的各行像素中前景像素的個數(shù)，得到圖像前景像素對應的水平投影直方圖；如圖2所示，圖像中前景像素(文字區(qū)域)和背景像素(空白區(qū)域)采用不同的顏色進行區(qū)分區(qū)。本實施例的二值圖中。黑色像素表示前景像素，白色像素表示背景像素。在其他實施例中，也可以白色像素表示前景像素、黑色像素表示背景像素；前景像素表示了圖像中的文字區(qū)域，記錄了圖像的文本信息。將該圖像在水平方向上進行投影，逐行計算圖像的各行像素中前景像素的個數(shù)，得到如圖3所示的圖像水平投影直方圖。步驟二根據(jù)水平投影直方圖進行粗切分，得到對應數(shù)量的行區(qū)域；通過對步驟一得到的水平投影直方圖進行濾波，并根據(jù)濾波結果將文字圖像切分為對應數(shù)量的行區(qū)域。在理想情況下，圖像中文本行之間的空隙較大或圖像沒有噪聲干擾，則文本行之間的空隙處的水平投影值為0，則可在該水平位置將圖像進行切分，切分為對應行區(qū)域。但大多數(shù)圖像存在文字行交疊的情況，造成圖像中像素行的水平投影值均大于0，則根據(jù)既定閾值對圖像水平投影直方圖進行濾波，濾除噪聲或是包含了其他文本行內(nèi)容的像素。既定閾值TO不大于水平投影均值的1/5。水平投影均值為將水平投影直方圖中投影值按從小到大的進行排序，取投影值集合中間區(qū)域投影值的均值。根據(jù)統(tǒng)計學理論，中間區(qū)域的數(shù)據(jù)能夠客觀地數(shù)據(jù)的平均水平，因此將水平投影直方圖中投影值按從小到大的順序后，取得到的投影值集合的中間區(qū)域投影值的均值為水平投影均值。本實施例中，投影值集合中間區(qū)域為水平投影直方圖中投影值從小到大的進行排序后，投影值集合的前1/3 2/3的范圍，將其作為中間區(qū)域，并將水平投影均值的1/5作為既定閾值。包括以下步驟步驟21 圖像水平直方圖排序?qū)⑺街狈綀D按照從小到大的順序進行排序，得到有序的直方圖，見圖4所示；步驟22 計算排序后的有序的直方圖1/3-2/3區(qū)域內(nèi)的均值；在本實施例中，水平投影均值為229，如圖4所示。計算得到既定閾值TO = 229/5 = 45. 8 ；步驟23 水平投影圖濾波將圖像中的各行像素的投影值與TO逐行進行比較，濾除各行像素的投影值小于TO的像素行，濾波后的直方圖見圖5 ；根據(jù)濾波后的水平投影直方圖對文字行進行粗切分至上而下按橫坐標表示的圖像高度逐像素對水平投影直方圖進行掃描，若橫坐標為i的圖像高度對應投影值為0，橫坐標為(i+ι)的圖像高度對應投影值大于0，則第(i+Ι)行為粗切分得到的行區(qū)域的起始行；若橫坐標為i的圖像高度對應投影值為0，橫坐標為(i-Ι)的圖像高度對應投影值大于0，則第(i-Ι)行為行區(qū)域的結束行。經(jīng)過粗切分，得到13塊的行區(qū)域，相應行區(qū)域水平投影直方圖如圖5所示。圖6中顯示的是文字圖像的粗切分結果，其中以灰色區(qū)域表示文字圖像的粗切分行區(qū)域。步驟三剔除行區(qū)域中的無效文字行；無效文字行剔除剔除行高小于預設值的初始行區(qū)域；經(jīng)過步驟二處理后，可能切分出一些無效文字行，這類文字行由于行間噪聲等因素的影響，行高遠小于正常的行高，本步驟中剔除此類無效文字行，包括如下步驟步驟31 統(tǒng)計文字行平均行高。在其他實施例中，文字行的平均行高可為步驟二切分得到的行區(qū)域高的均值，但為了消除行區(qū)域中高度過大或過小的行區(qū)域的影響，本實施例中采用如下步驟計算平均行高將步驟二得到行區(qū)域的行高求和再進行平均值求取，得到參考行高HO ；對行高在0. 5H0 1. 5H0的行區(qū)域求取平均值Hl作為文字行平均行高。步驟32 以文字行平均行高Hl為參考值，剔除行區(qū)域中高度小于行閾值的文字行。本實施例中，行閾值為行區(qū)域中文字行平均行高的1/5 ；如圖7所示，文字區(qū)域在粗切分后的所得的各行區(qū)域的行高值、以及計算得到的參考行高HO與HI。經(jīng)過本步驟處理，第 2,4,13條文字行的高度小于H1/5，則此三條無效文字行為無效文字行，行區(qū)域中剩余的文字行減少為13行。圖8中顯示的是文字圖像的有效文字行區(qū)域，其中灰色區(qū)域表示剔除無效文字行后剩余的行區(qū)域，對應的水平投影直方圖見圖7所示。步驟四對行區(qū)域中其余文字行的主體區(qū)域進行定位后，在主體區(qū)域外進行連通域分析，提取對應的文字行圖像。由于步驟三所得的文字行區(qū)域內(nèi)仍然可能包含有其他行區(qū)域的部分字符。如圖9、 10所示，圖9為圖8虛線框內(nèi)區(qū)域的放大圖像。其中，字符‘P’的最下部分的像素落入了下一塊行區(qū)域。為避免誤提取其他行區(qū)域的文字圖像，在本步驟中首先定位各行區(qū)域的主體區(qū)域，文字行的主體區(qū)域為行區(qū)域中上下邊界緊縮若干像素行后得到的區(qū)域，目的在于，完全濾除不屬于該行區(qū)域的部分，然后提取各行區(qū)域?qū)闹黧w區(qū)域外的像素點組成的連通域，并將連通域拼接到主體區(qū)域?qū)膱D像中，作為文字行的提取結果。對行區(qū)域的主體定位時分別對上邊界和下邊界進行定位對行區(qū)域的上邊界定位時，分別至上而下逐像素掃描各行區(qū)域，若像素行的水平投影值大于既定閾值Ti，則該像素行為該行區(qū)域的主體的上邊界；否則繼續(xù)比較下一像素行的水平投影值與既定閾值Ti。對行區(qū)域的下邊界定位時，分別至下而上逐像素掃描各行區(qū)域，若像素行的水平投影值大于既定閾值Ti，則該像素行為該行區(qū)域的主體的下邊界，否則繼續(xù)比較上一像素行水平投影值與Ti。既定閾值Ti與對應第i個行區(qū)域內(nèi)的水平投影均值成比例，與步驟二的計算方法相同，對各行區(qū)域中像素行對應的水平投影值分別按照從小到大的順序進行排序，取投影值集合中間區(qū)域的投影值的均值得到。本實施例中，中間區(qū)域為投影值集合的前1/3 2/3
7的范圍，并將水平投影均值的1/5作為既定閾值。各行區(qū)域?qū)募榷ㄩ撝礣i統(tǒng)計結果如表1所示。表1各行區(qū)域?qū)募榷ㄩ撝?br> 權利要求
1.一種文字圖像中行提取的方法，其特征在于，包括如下步驟步驟1 對文字圖像進行像素分布統(tǒng)計，得到對應的水平投影直方圖；步驟2 根據(jù)水平投影直方圖進行粗切分，得到對應數(shù)量的行區(qū)域；步驟3 剔除行區(qū)域中的無效文字行；步驟4:對行區(qū)域中其余文字行的主體區(qū)域進行定位后，在主體區(qū)域外進行連通域分析，提取對應的文字行圖像。
2.根據(jù)權利要求1所述的方法，其特征在于所述步驟1中像素分布統(tǒng)計包括逐行計算圖像的各行像素中前景像素的個數(shù)，得到圖像前景像素對應的水平投影直方圖。
3.根據(jù)權利要求2所述的方法，其特征在于所述圖像前景像素為圖像中的文字區(qū)域。
4.根據(jù)權利要求1所述的方法，其特征在于所述步驟2對水平投影直方圖進行粗切分時，根據(jù)既定閾值對圖像水平投影直方圖進行濾波，濾除投影值小于既定閾值的像素行。
5.根據(jù)權利要求4所述的方法，其特征在于所述步驟3中的無效文字行為平均行高小于既定閾值的文字行。
6.根據(jù)權利要求1所述的方法，其特征在于所述步驟4中提取對應的文字行圖像時，在距主體區(qū)域上下邊界小于既定距離范圍內(nèi)進行連通域提取，拼接到主體區(qū)域?qū)膱D像中形成文字行圖像。
7.根據(jù)權利要求1所述的方法，其特征在于所述步驟4中對行區(qū)域中其余文字行的主體區(qū)域進行定位時，將行區(qū)域內(nèi)像素行的水平投影值分別與既定閾值比較，分別至上而下逐像素掃描各行區(qū)域，水平投影值大于既定閾值的像素行為該行區(qū)域的主體區(qū)域的上邊界；分別至下而上逐像素掃描各行區(qū)域，水平投影值大于既定閾值的像素行為該行區(qū)域的主體區(qū)域的下邊界。
8.根據(jù)權利要求5或7所述的方法，其特征在于所述既定閾值不大于水平投影均值的 1/5。
9.根據(jù)權利要求8所述的方法，其特征在于所述水平投影均值為行區(qū)域中像素行對應的水平投影值分別按照從小到大的順序進行排序，投影值集合中間區(qū)域的投影值的均值。
10.根據(jù)權利要求9所述的方法，其特征在于所述中間區(qū)域為行區(qū)域中像素行對應的水平投影值分別按照從小到大的順序進行排序，投影值集合的前1/3 2/3的范圍。
11.根據(jù)權利要求6所述的方法，其特征在于所述連通域包括粘連的連通域和孤立連通域，粘連連通域與主體區(qū)域的上下邊界粘連；孤立連通域在主體區(qū)域外，與主體區(qū)域的上下邊界不粘連，且上邊界距主體區(qū)域上邊界小于既定距離、或者下邊界距主體區(qū)域下邊界小于既定距離。
12.根據(jù)權利要求11所述的方法，其特征在于所述既定距離不大于對應行區(qū)域的主體區(qū)域高度的1/3。
13.一種文字圖像中行提取的裝置，其特征在于，包括如下模塊統(tǒng)計模塊對文字圖像進行像素分布統(tǒng)計，得到對應的水平投影直方圖；切分模塊根據(jù)水平投影直方圖進行粗切分，得到對應數(shù)量的行區(qū)域；剔除模塊剔除行區(qū)域中的無效文字行；連通域模塊對行區(qū)域中其余文字行的主體區(qū)域進行定位后，在主體區(qū)域外進行連通域分析，提取對應的文字行圖像。
全文摘要
本發(fā)明公開了一種文字圖像中行提取的方法和裝置，屬于文字處理領域。本發(fā)明的方法包括對文字圖像進行像素分布統(tǒng)計，得到對應的水平投影直方圖；根據(jù)水平投影直方圖進行粗切分，得到對應數(shù)量的行區(qū)域；剔除行區(qū)域中的無效文字行；對行區(qū)域中其余文字行的主體區(qū)域進行定位后，在主體區(qū)域外進行連通域分析，提取對應的文字行圖像。本發(fā)明有效避免行間噪聲的影響，解決距離較近和交疊行的切分問題；通用性強，不依賴于語言文字的種類，適用于各種東西方語言文字的行提取。
文檔編號G06T7/00GK102314608SQ201010223258
公開日2012年1月11日申請日期2010年6月30日優(yōu)先權日2010年6月30日
發(fā)明者萬鑫, 劉正珍申請人:漢王科技股份有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：萬鑫;劉正珍
技術所有人：漢王科技股份有限公司
我是此專利的發(fā)明人

上一篇：自適應脫機手寫識別方法和裝置的制作方法
上一篇：Sas接口測試治具的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

文字圖像中行提取的方法和裝置的制作方法