国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種復雜結構文檔圖像傾斜快速檢測方法

      文檔序號:6613639閱讀:239來源:國知局
      專利名稱:一種復雜結構文檔圖像傾斜快速檢測方法
      技術領域
      本發(fā)明涉及一種復雜結構文檔圖像傾斜快速檢測方法,屬于文檔圖像處理范疇。

      背景技術
      文檔圖像處理一般包括圖像獲取,圖像增強,噪聲減除,傾斜檢測和校正,頁面分析,圖像檢索或者光學字符識別(OCR)等內容。其中,文檔圖像的獲取過程是通過掃描儀或者數(shù)碼相機等數(shù)字化設備將紙張文檔轉化成數(shù)字圖像,在這個過程中,由于紙張擺放等原因,難以避免地會造成生成圖像存在一定程度上的傾斜。
      以OCR或者圖像檢索為目的的文檔處理系統(tǒng),傾斜檢測通常在系統(tǒng)中屬于預處理部分。由于文檔圖像后續(xù)處理通常對圖像的傾斜非常敏感,因而傾斜檢測是這些系統(tǒng)的重要組成部分,對系統(tǒng)的性能有很大的影響,因而對傾斜檢測問題的研究就逐漸成為文檔圖像處理的一個重要的獨立分支。
      隨著時代的發(fā)展,科技的進步,國際化交流的日益頻繁,現(xiàn)在的文檔已經(jīng)不再是傳統(tǒng)意義上單種語言文字的純文本了,取而代之的是包含大量圖表,混合多種語言文字和版式的復雜結構文檔。在這種背景下,為適應現(xiàn)代化文檔圖像處理系統(tǒng)的需要,研究和開發(fā)適合復雜結構文檔圖像特點的傾斜檢測算法就成了一項意義重大并富有挑戰(zhàn)性的工作。本文的研究目的就是針對復雜結構文檔圖像的傾斜檢測問題展開研究,在兼容普通文檔圖像的基礎上,設計并實現(xiàn)可以適用于復雜結構文檔圖像的傾斜檢測算法。
      由于傾斜檢測在文檔圖像處理中的重要性和必要性,因而近些年來吸引了國內外大量科研人員和機構致力于文檔圖像傾斜檢測問題的研究,取得了許多成果?,F(xiàn)有的文檔圖像傾斜檢測方法可分為如下幾類(1)截面投影法(Project Profile);(2)交叉相關法(CrossCorrelation);(3)Hough變換法(Hough Transform);(4)近鄰聚類法(Nearest Neighbor); 但是,對于復雜結構的文檔圖像(這類圖像在現(xiàn)實生活中十分常見),以上所列的一些方法都存在缺陷,而本發(fā)明也正是在針對處理復雜結構文檔圖像上,比之前的方法效果上有明顯改進。
      圖像結構的復雜性主要體現(xiàn)在以下幾點 (1)文檔中不僅有純文本,還包括圖表等各種非文本區(qū)域,甚至非文本區(qū)域占明顯優(yōu)勢。
      (2)文檔的版式結構復雜,包括橫版(文字主方向為橫向)/縱版(文字主方向為縱向);單欄/多欄等。
      (3)文檔中包含多種語言文字,包括中文、英文、日文。
      (4)文檔中文字的字體和字號多種多樣。
      (5)文檔中文字部分可能分布零散或稀少。
      本文算法的輸入是傾斜的二值文檔圖像,經(jīng)過傾斜檢測計算圖像的傾斜角度,按照傾斜角度進行旋轉校正后,輸出為校正后的二值文檔圖像,

      發(fā)明內容
      本文設計一個基于魯棒邊界段的文檔圖像傾斜檢測方法(以下簡稱RBL算法),其流程如圖1所示,主要包括如下幾個步驟 預處理這部分的目的是為后續(xù)處理做準備,主要包括噪聲減除,圖像增強等。
      第一次提取邊界段經(jīng)過預處理后,文檔圖像中可能存在一些大連通區(qū)域。這些大連通區(qū)域絕大多數(shù)由非文字區(qū)域的對象構成,它們的存在會影響到后面的處理;另一方面,這些非文字區(qū)域的大連通區(qū)域可能存在可靠的傾斜特征。因此,在預處理后,提取大連通區(qū)域的邊界段,之后將這些區(qū)域從圖像中移除。
      Run-Length算法連接文字行經(jīng)過上一步,圖像中剩下的基本上是文字區(qū)域了。此時的文字區(qū)域中,文字大多是單獨的連通區(qū)域,文字行之間并不連通。為了便于文字行區(qū)域的傾斜特征提取,需要使處于同一行的文字相連通,并盡量避免不同行的文字相連通。在這里,先判斷圖像的主方向,即是橫向還是縱向。之后沿圖像的主方向,采用Run-Length算法對文字行進行連接。
      第二次提取邊界段通過上一步,文字行得以連通,形成大的連通區(qū)域。從這些大的文字行連通區(qū)域中提取邊界段,作為候選的傾斜特征。
      邊界段過濾通過一個基于PCA(Principle Component Analysis,又稱主成分分析)分析的過濾算法,判斷邊界段的線性程度,從中選取線性程度足夠好的邊界段,作為可靠的傾斜特征,用來進行傾斜角度計算。
      邊界段優(yōu)化通過一個基于加權PCA分析的迭代優(yōu)化方法,減弱線性邊界段中少量噪聲點的影響,使邊界段成為魯棒邊界段,并計算得到每個魯棒邊界段的傾斜角度。
      計算傾斜角度選取所有魯棒邊界段傾斜角度的加權中值作為整幅文檔圖像的傾斜角度。
      旋轉校正圖像按照得到的傾斜角度,對圖像進行旋轉校正,得到校正后的文檔圖像。
      本發(fā)明為一種復雜結構文檔圖像傾斜快速檢測方法,其步驟為 1)預處理文檔圖像,對原始圖像進行噪聲減除,標定連通區(qū)域; 2)提取大連通區(qū)域邊界段,同時移除大連通區(qū)域,若不存在大連通區(qū)域則跳到下一步; 3)連接文字行和相鄰區(qū)域,提取邊界段; 4)對提取的邊界段進行過濾,得到可靠的傾斜特征; 5)根據(jù)傾斜特征計算整幅文檔圖像的傾斜角度。
      進一步,所述預處理文檔圖像還包括對噪聲減除后的圖像進行歸一化處理,圖像增強,填補小背景區(qū)域。
      進一步,所述填補小背景區(qū)域的方法為首先反著用LC算法標定連通背景區(qū)域;對于該區(qū)域所包含的前景像素的個數(shù)sum值小于一定閾值的連通背景區(qū)域,將屬于該區(qū)域的所有背景像素設為前景像素。
      進一步,連接文字行和相鄰區(qū)域的方法為 1)計算橫向和縱向平均距離,其方法如下 ①定義兩個參數(shù)橫向有效距離個數(shù)h_sum和總距離dist,并將二者初始化為0; ②對圖像進行逐行遍歷對于同一行的兩個相鄰的前景像素,計算相鄰兩個像素之間背景像素的個數(shù)n,如果滿足0<n<n_max,則有h_sum=h_sum+1,dist=dist+n,其中n_max為最大間隔閾值; ③通過h_dist=dist/h_sum得到橫向平均距離h_dist; 同理,定義并求出縱向有效距離個數(shù)v_sum,縱向平均距離v_dist; 2)判斷文檔圖像的主方向,其規(guī)則如下 ①若h_sum>3×v_sum,則主方向為橫向; ②若v_sum>3×h_sum,則主方向為縱向; ③若①,②均不滿足,則比較h_dist,v_dist,如果h_dist<v_dist,則主方向為橫向,反之,主方向為縱向; 3)采用Run-Length算法沿主方向進行相鄰區(qū)域連接。
      進一步,上述提取邊界段的方法為 (1)對每個連通區(qū)域,判斷其寬度大小,如果其寬度大于某一閾值min_size,則轉到(2),否則,轉到(7); (2)從上到下提取該區(qū)域的上邊界從左到右,對該區(qū)域的每一列進行遍歷,記錄遇到的第一個前景像素的位置(x,y),然后退出對這一列的遍歷,開始對下一列進行遍歷; (3)對(2)已經(jīng)提取的邊界點序列,按從左到右的順序,每10個點一組,選取最靠上的一個點,如果有若干個點y值相同,選x最小的一點;將選出的點組成抽樣邊界序列; (4)抽樣邊界點序列可記做pi(xi,yi),i=1,2,…,n,其中,pi-1是pi左鄰的抽樣點,初始化兩個變量start和end,令它們的值為1; (5)遍歷抽樣點,對每個i,如果(i=n)或者(dv=|yi-yi+1|>max_fall),則令end=i;其中,max_fall為落差閾值; (6)如果(end-start)>min_length則記錄i值從start到end的抽樣點,作為候選邊界段,令start=end+1;其中,min_length為邊界段長度閾值; (7)結束;同理可以實現(xiàn)其他邊界的提取。
      進一步,所述邊界段包括文字區(qū)域邊界段和圖表區(qū)域邊界段。
      進一步,上述邊界段過濾的方法為 1)采用主成分分析方法計算邊界段的兩個特征值λbig和λsmall,其對應的特征向量表示該邊界段的主方向和垂直主方向的方向; 2)定義參數(shù)δ,δ=λsmall/λbig,用于度量邊界段的線性程度; 3)判斷每個邊界段的δ值,如果δ大于設定的閾值,則將該邊界段視為不可靠邊界段,予以舍棄;反之,則視該邊界段為可靠的傾斜特征。
      進一步,采用迭代算法進行邊界段優(yōu)化得到魯棒邊界段。
      進一步,所述迭代算法中采用指數(shù)形式的權重函數(shù)w(p)=exp(-dis)計算邊界段的權重值,其中dis為點p到擬合直線的距離。
      進一步,采用加權中值的方法計算整幅圖像的傾斜角度,其步驟為假設圖像中N條魯棒邊界段,每個邊界段對應的含有其傾斜角度s_ai和采樣點數(shù)量mi,i=1,2,...,N (1)通過計算傾斜角度的數(shù)目,記做Angle_Sum; (2)建立長度為Angle_Sum的數(shù)組Weight_Angle,用來儲存所有的傾斜角度,從i=1到i=n,在數(shù)組中存儲mi個s_ai,然后對該數(shù)組進行排序; (3)如果Angle_Sum是奇數(shù),則加權中值為數(shù)組中第K1大的值;如果Angle_Sum是偶數(shù),則加權中值為數(shù)組中第K2大的和第K3大的值的平均值,其中K1=(Angle_Sum+1)/2,K2=Angle_Sum/2,K3=(Angle_Sum+2)/2,計算出的加權中值,為整幅圖像的傾斜角度。
      本發(fā)明的積極效果如下 一、實驗環(huán)境和數(shù)據(jù)庫 為了檢驗RBL算法,本發(fā)明從CJDIR系統(tǒng)(馮所前,“大規(guī)模復雜文檔圖像檢索系統(tǒng)的研究與實現(xiàn)”,2005,北京大學碩士畢業(yè)論文)的轉換數(shù)據(jù)庫中(包含10385幅無傾斜的文檔圖像)隨機選取了2000幅文檔圖像作為測試數(shù)據(jù)庫的數(shù)據(jù)來源。CJDIR系統(tǒng)轉換數(shù)據(jù)庫的特點是混合了多種語言文字(Chinese,Japanese,English),頁面結構復雜(包括單欄,多欄,橫排,縱排,混合字符圖像表格),其中大約30%為中文文檔,20%為英文文檔,15%為日文文檔,其余的為混合文檔或者非文字區(qū)域占明顯優(yōu)勢的文檔圖像;超過60%的圖像都含有非文字區(qū)域。
      本發(fā)明將隨機選取的文檔圖像通過PhotoShop進行二值化和旋轉處理,最終形成本發(fā)明的測試數(shù)據(jù)庫。由于原始數(shù)據(jù)沒有傾斜,因此用PhotoShop進行旋轉時的旋轉角度即為測試圖像的傾斜真值,傾斜角度的范圍為[-10°,10°]。根據(jù)圖像中文字區(qū)域占的比例,本發(fā)明將2000幅測試圖像分為(A),(B),(C)三組。其中(A)為文字區(qū)域占有明顯優(yōu)勢的文檔圖像,共有1079幅;(B)為文字區(qū)域和非文字區(qū)域大致相當?shù)奈臋n圖像,共有700幅;(C)為非文字區(qū)域占明顯優(yōu)勢的文檔圖像,共有221幅。
      實驗在一臺CPU主頻2.8GHz,內存512MB的臺式電腦上進行,算法用C++編寫。
      為了檢驗算法的相對性能,本發(fā)明還實現(xiàn)了3種現(xiàn)有的有代表性的傾斜檢測算法用作對比實驗,包括Lu(Y.Lu,C.L.Tan,“A Nearest-Neighbor Chain based Approach to SkewEstimation in Document Images”,Pattern Recognition Letters,2003,Vol.24,Page(s)2315-2323),Das的算法(A.K.Das,B.Chanda,“A Fast Algorithm for SkewDetection of Document Images using Morphology”,International Journal on DocumentAnalysis and Recognition,2001,Page(s)109-114),以及基于Hough變換的傾斜檢測算法(D.S.Le,G.R.Thoma,H.Wechsler,“Automatic Page Orientation and Skew AngleDetection for Binary Document Images”,Pattern Recognition,1994,Vol.27,Page(s)1325-1344)。
      二、RBL算法的檢測結果 表1-1各種算法的檢測正確率 A,B,C圖像分組(A),(B),(C) 表1-2各種算法的檢測精度 表1-1和1-2給出了RBL算法和對比算法對2000幅測試圖像進行檢測的結果。其中,表1-1為檢測結果的正確率,即檢測結果中誤差小于0.1°的結果所占的比例,A,B,C對應的表示上述測試圖像所分的三個組(A),(B),(C);表1-2則顯示了結果的精度,包括平均誤差和誤差的標準偏差兩項。從表1-2中可以看到,另三種算法在正確率和精度上表現(xiàn)不相上下,而RBL算法則具有明顯的優(yōu)勢。具體到每個組的結果,由于Hough變換方法采用全局特征,因而對于組(A)的結果相對其他兩個算法較好;對應的,Lu的方法采用局部特征,因而在非文字區(qū)域占優(yōu)的組(C)中結果相對較好。同時,由于這些算法沒有從非文字區(qū)域提取傾斜特征,因而對于非文字區(qū)域占優(yōu)的(C)組圖像,檢測的正確率均有較為明顯的下降,這表明非文字區(qū)域對于傾斜檢測的影響是客觀存在的;而RBL算法由于同時利用文字區(qū)域和非文字區(qū)域的傾斜特征,并通過PCA分析過濾非線性邊界段,最大限度的利用了文檔圖像中存在的魯棒傾斜特征,因而在三組中表現(xiàn)比較一致,且明顯好于其它三個算法。而表1-2從統(tǒng)計的角度顯示了各個算法的精度期望和穩(wěn)定性。從中可以看出,RBL相對于其他三個算法,不僅檢測精度高(平均誤差小),而且穩(wěn)定性好(誤差的標準偏差小)。
      本實施例詳細地介紹了為檢驗RBL算法各項性能所設計的實驗及實驗結果,并對實驗結果進行了深入的分析。通過對比實驗結果及實驗分析,可以發(fā)現(xiàn)本發(fā)明的RBL算法確實具備精度和準確率高,算法速度快、魯棒性強的特點。



      圖1本發(fā)明實現(xiàn)流程圖 圖2Run-Length算法進行鄰近區(qū)域連接示意圖 圖3邊界段提取過程示意圖 其中(a)連通區(qū)域 (b)頂部邊界 (c)抽樣的頂部邊界 (d)提取的邊界段 圖4邊界段的過濾圖 其中(a)一幅傾斜的原始圖像 (b)提取的邊界段 (c)經(jīng)過PCA過濾后的邊界段結果圖
      具體實施例方式 一、預處理 預處理部分的目的是對輸入的二值圖像作一些必要的處理,使之適合RBL算法后續(xù)部分的需要。預處理部分主要由以下幾個步驟組成 噪聲減除通過掃描等方式得到的文檔圖像,或多或少都會存在噪聲。由于二值圖像的噪聲一般從概率的角度認為是均勻分布的,因而噪聲大多是以孤立點的形式存在?;诖耍琑BL算法通過移除小連通區(qū)域的方法進行噪聲減除。首先通過LC算法(L.Di Stefano,A.Bulgarelli,“A simple and efficient connected components labeling algorithm”.International Conference on Image Analysis and Processing,1999,Page(s)322-327)對圖像進行連通區(qū)域標定,定義sum為該區(qū)域所包含的前景像素的個數(shù),然后將sum值小于一定閾值的連通區(qū)域移除。
      歸一化對于RBL算法,不需要輸入圖像具有很高的分辨率,一般100dpi足夠。而高分辨率的文檔圖像數(shù)據(jù)量大,會影響算法的運行速度。因此,預處理部分首先根據(jù)圖像的分辨率,采用等距采樣的方法,將圖像歸一化到100dpi。
      圖像增強歸一化的缺點是會造成原圖像連通區(qū)域的連通性的改變,這種改變會給后續(xù)處理帶來麻煩。為保持原有的連通性,RBL算法對歸一化后的圖像作如下增強處理將每個前景像素的上、下、左、右四個位置設為前景像素。
      填補小背景區(qū)域常見的語言文字,都會有一些字/字母是由閉合曲線組成的。如“O”,“日”。這樣就會有一些小的連通背景區(qū)域存在,這些小的連通區(qū)域的存在會影響對圖像主方向的判斷,因此需要填涂這些小的背景區(qū)域,使其變成前景像素。具體做法如下 (1)首先反著用LC算法,即標定連通背景區(qū)域。
      (2)對于sum值小于一定閾值的連通背景區(qū)域,將屬于該區(qū)域的所有背景像素設為前景像素。
      二、Run-Length算法連接文字行 2.1、Run-Length算法的基本原理 Run-Length意即行程長,是指從圖像中某點開始沿某個方向連續(xù)具有相同特征的像素個數(shù)。Run-Length在圖像處理中有廣泛的應用,如圖像的邊緣噪聲去除(K.Fan,Y.Wang,T.Lay,“Marginal noise removal of document images”,International Conference on DocumentAnalysis and Recognition,2001,Page(s)317-321),壓縮編碼(Y.Wang,J.M.Wu,“VectorRun-Length coding of Bi-level images”,Data Compression Conference,1992,Page(s)279-288)等。具體到文檔圖像處理,通常利用Run-Length算法連接相鄰的前景區(qū)域(B.Gatos,N.Papamarkos,“Applying fast segmentation techniques at a binary imagerepresented by a set of non-ovcrlapping blocks”,IEEE International Conference onDocument Analysis and Recognition,2001,Pagc(s)1147-1151),使之形成以行或段落為單位的大連通區(qū)域。
      Run-Length算法對相鄰區(qū)域進行連接的方法如下 對于一幅二值圖像,逐行(或逐列)地掃描圖像。對于處于同一行(或列)的兩個相鄰的前景像素,如果兩像素間的背景像素個數(shù)小于某一閾值r,則將這兩個像素之間的背景像素全部變?yōu)榍熬跋袼亍D2為用Run-Length算法進行鄰近區(qū)域連接的示意圖,這里r=3。
      2.2、圖像主方向判斷 采用Run-Length算法進行相鄰區(qū)域連接,最主要的是要判斷圖像的主方向--即實施Run-Length算法的方向。RBL算法通過兩個直觀的原理對圖像的主方向進行判斷(1)文字區(qū)域的行間距大于字間距。(2)如果一個方向上有效的距離(run length)數(shù)目遠大于另一方向,則圖像的主方向為這個方向。為了有效的利用這兩個原理對圖像的主方向進行判斷,RBL算法的具體做法如下 (1)去除非文字區(qū)域。由于主方向判斷的原理是基于文字區(qū)域的特點的,因而為了能夠準確的判斷圖像的主方向,應當盡可能的將非文字區(qū)域去除。經(jīng)過預處理部分后,圖像中的非文字區(qū)域大多以大連通區(qū)域的形式存在,因而在預處理之后,先對圖像中具有一定長度或寬度的大連通區(qū)域進行邊界段提取,之后將這些連通區(qū)域從圖像中移除,為主方向判斷做好準備。
      (2)計算橫向和縱向平均距離以計算橫向平均距離為例,平均距離的計算方法如下 ①定義兩個參數(shù)橫向有效距離個數(shù)h_sum和總距離dist,并將他們初始化為0。
      ②對圖像進行逐行遍歷。對于同一行的兩個相鄰的前景像素,計算相鄰兩個像素之間背景像素的個數(shù)n,如果滿足0<n<n_max,其中,n_max為最大間隔閾值,則有h_sum=h_sum+1,dist=dist+n。
      之所以要設定最大間隔閾值n_max,是因為即使文檔的主方向為橫向,也會有屬于同一行的兩個相鄰前景像素的距離較大的情況。比如處于同一文字行但相隔較遠的i,j或p,y;按分欄進行排版的文檔等等。而對于傾斜的文檔圖像,由于傾斜造成的遮擋,使這種情況更為普遍。這樣,如果沒有設定n_max,則會使平均距離大大增加,從而造成主方向判斷的錯誤。
      ③橫向平均距離h_dist可通過下式得到 h_dist=dist/h_sum (1.1) 同理,還可以求出縱向有效距離個數(shù)v_sum,縱向平均距離v_dist。
      (3)判斷主方向主方向判斷的規(guī)則如下 ①若h_sum>3×v_sum,則主方向為橫向。
      ②若v_sum>3×h_sum,則主方向為縱向。
      ③若①,②均不滿足,則比較h_dist,v_dist。如果h_dist<v_dist,則主方向為橫向,反之,主方向為縱向。
      2.3、Run-Length算法連接相鄰區(qū)域 判斷出主方向后,就可以對整幅圖像用Run-Length算法沿主方向進行相鄰區(qū)域連接了。用Run-Length算法進行相鄰區(qū)域連接的算法在已經(jīng)在2.1節(jié)中說明了,這里主要討論一下Run-Length算法中閾值r如何設定。
      閾值的設定一般有兩種方式——固定閾值和可變閾值,其中,可變閾值又可細分為分段閾值,分段函數(shù)閾值和函數(shù)閾值。固定閾值是指對所有的情況都采用同一個閾值,而可變閾值是指通過和該閾值相關的一些特征進行閾值設定。通常,固定閾值根據(jù)經(jīng)驗進行設定,具有簡單,開銷小的特點,但對于一些極端的情況,其適應性往往較差,與之相對應的可變閾值,由于需要對相關特征進行提取和計算,往往需要一定的開銷,但其適應性也相對較強。
      具體到RBL算法的鄰近區(qū)域連接問題,可行的閾值定義方向有如下兩種 (1)固定閾值固定閾值是最直觀簡單的閾值定義方式。如果能夠找到一個固定閾值,對于絕大多數(shù)情況都能較好的適應,那么就可以節(jié)省下為計算閾值而進行的特征提取和閾值計算的開銷。權衡極少數(shù)情況的不適應,這些開銷的節(jié)省在一些場合是值得的。
      (2)函數(shù)閾值一般的,可以把主方向上前景像素的行程距離分布看作正態(tài)的,因此主方向上前景像素的平均行程距離mean和標準差s var是與Run-Length閾值相關的主要特征,采用mean+λ×svar計算閾值具有統(tǒng)計上的意義,并且可以通過λ的值來估計主方向前景像素的連接程度。一般說來,λ的值不能太小,因為需要主方向上的前景像素進行較為充分的連接才能得到較為完整的邊界段;λ的值也不能太大,因為這樣會造成誤連接,從而影響結果的精度。
      由于RBL算法自身的適應性較強,因而采用兩種方式都能找到較好的閾值,可以根據(jù)具體系統(tǒng)對于時間開銷的要求而選擇閾值的定義方式。
      三、邊界段提取 邊界段提取的目的是從連通區(qū)域的上,下,左,右四個方向提取邊界段,作為候選的傾斜特征。之所以提取的是邊界段,而不是整條邊界,是因為有些情況下,區(qū)域邊界的某一部分可能準確反映傾斜方向,而整條邊界不能。為了適應這些情況,盡可能多地提取有效特征,因而本發(fā)明首先提取整條邊界,然后對邊界進行裁減,將邊界中不符合條件要求的部分去掉,保留符合要求的邊界段作為選取魯棒邊界段的候選者。具體的操作步驟如下(以提取上部邊界段為例) (1)對每個連通區(qū)域,判斷其寬度大小。如果其寬度大于某一閾值min_size,則轉到(2),否則,轉到(7)。
      (2)從上到下提取該區(qū)域的上邊界從左到右,對該區(qū)域的每一列進行遍歷,記錄遇到的第一個前景像素的位置(x,y),然后退出對這一列的遍歷,開始對下一列進行遍歷。
      (3)對(2)已經(jīng)提取的邊界點序列,按從左到右(x從小到大)的順序,每10個點一組,選取最靠上的一個點(即y最小的一個點)。如果有若干個點y值相同,選x最小的一點;將選出的點組成抽樣邊界序列。
      (4)抽樣邊界點序列可記做pi(xi,yi),i=1,2,…,n,其中,pi-1是pi左鄰的抽樣點。初始化兩個變量start和end,令它們的值為1。
      (5)遍歷抽樣點。對每個i,如果(i=n)或者(dv=|yi-yi+1|>max_fall),則令end=i。
      (6)如果(end-start)>min_length則記錄i值從start到end的抽樣點,作為候選邊界段。令start=end+1。
      (7)結束。
      其中,max_fall為落差閾值,min_length為邊界段長度閾值。如圖3所示,為邊界段提取過程的示意圖。
      四、邊界段分析 4.1、基于PCA的邊界段分析方法 PCA分析簡介PCA分析(Principle Component Analysis,又稱主成分分析)是一種常用的數(shù)據(jù)分析方法,在模式識別(邊肇祺,張學工等,《模式識別》第二版,2000,清華大學出版社),三維視覺計算,醫(yī)學分析等領域有著廣泛的應用。
      PCA算法的基本原理對于一個n維的樣本空間X,對其協(xié)方差矩陣A(A=(Xi-EX)T(Xi-EX),其中,Xi表示樣本空間的一個向量,EX為樣本空間的期望)進行最優(yōu)的正交線性變換(K-L變換),得到矩陣A的一組正交基(η1,η2,……,ηn),使得其中,λ1≥λ2≥……≥λn。經(jīng)過上述變換得到的λ1為A的特征值,對應的ηi為A的特征向量。每個特征向量對應n維空間的一個方向,且這些方向在n維空間中是彼此垂直(正交)的。而與其相對應的特征值的大小則表明樣本空間在該特征向量方向上的分量大小。
      PCA算法的主要應用在模式識別領域,經(jīng)常用PCA的方法進行特征提取。在進行PCA變換后,樣本空間的特征集中分布在若干個特征值較大的方向上,選取樣本在這些方向上的投影作為新的特征向量,可以在盡量保持樣本特征的情況下達到降維的目的。而在三維視覺計算領域,則通常用PCA方法計算若十的空間點主方向(即最大的特征值對應的方向)。
      基于PCA的邊界段分析如果不考慮權值因素,文檔圖像中任意一個像素可由有序對(x,y)確定。而考慮到邊界段不同點對于計算該邊界段傾斜方向的貢獻可能不同,因而在實際的邊界段分析中,本發(fā)明加入權重因素。考慮空間一組點pi(xi,yi),其對應的含有權重wi,權重的含義為該點的“質量”(mass)。協(xié)方差矩陣為可通過下式得到 其中,這些點的質心(x,y)為 由于矩陣A為2*2的實對稱矩陣,因而有兩個非負特征根。該特征根可通過下式求得 其中,Δ=(a11+a12)2-4(a11a22-a12a21)。
      通過大特征根λbig可求出對應的特征向量該特征向量對應這些點的主方向;而與小特征值λsmall相對應的特征向量則表示與主方向垂直的方向。通過表示主方向的特征向量

      可得到這些點的擬合直線方程 yb(x-x)-xb(y-y)=0 (1.4) 4.2、基于PCA的邊界段過濾 在RBL算法中,為了最大限度地利用文檔圖像中的有用信息,不但要從文字區(qū)域提取邊界段,而且需要從圖表區(qū)域提取邊界段。從圖表區(qū)域提取的邊界段當中,不僅有向頁眉、頁腳、表格邊界等與文檔圖像傾斜角度一致的邊界段,也有很多涉及圖表內容的,與文檔圖像傾斜角度偏差較大的邊界段。圖4為邊界段的過濾圖,其中(a)為一幅傾斜的文檔圖像,(b)為從該圖像中提取的邊界段。從圖中可以看出,由于原始圖像中間區(qū)域為圖像區(qū)域,且該區(qū)域得圖形很不規(guī)則,因此從這部分區(qū)域提取的邊界段大多與文檔圖像的傾斜角度偏差較大。
      除了圖表區(qū)域可能提取出與文檔圖像的傾斜角度無關的邊界段外,掃描過程中的噪聲污染,不佳的二值化效果,不同文字行之間的誤連接都可能會使提取的邊界段與文檔圖像的傾斜角度有較大偏差。這些偏差較大的邊界段如果存在過多,就會在很大程度上影響檢測結果的精度。
      通過大量的觀察和分析,發(fā)現(xiàn)絕大部分在上述因素影響下提取的邊界段具有一個共同的特點邊界段具有較強的非線性。因此,如果能夠有很好的方法度量一個邊界段的線性程度,就可以將線性程度不好的邊界段過濾掉,從而最大限度的消除上述因素對結果精度的影響。
      在4.1節(jié)中,通過邊界段的協(xié)方差矩陣可求得兩個特征值λbig和λsmall,其對應的特征向量表示該邊界段的主方向和垂直主方向的方向,而其值的大小表示這些點在對應方向上的貢獻。因此,若λsmall相對于λbig較大,則說明這些點在垂直主方向的方向上有較大的能量或聚集程度,偏離擬合直線的成分較多,也就說明這些點的線性程度不夠好?;谏鲜龇治?,本發(fā)明定義參數(shù)δ來度量邊界段的線性程度 δ=λsmall/λbig(1.5) 在RBL算法實際應用中,對每個邊界段,初始化每個點的權重為1,通過公式(1.2)、(1.3)和(1.5)計算δ。如果δ大于某一給定的閾值,則將該邊界視為不可靠邊界段,予以舍棄。反之,則視該邊界段為可靠的傾斜特征,應用于RBL算法的后續(xù)環(huán)節(jié)。圖4(c)即為圖4(b)的)的邊界段經(jīng)過上述方法過濾所剩下的線性邊界段結果圖。
      4.3、邊界段的迭代優(yōu)化 對于線性邊界段,其線性程度雖然較好,但仍不排除有少量的諸如噪聲或文字的上(下)凸點這樣的“干擾點”存在。由于4.2節(jié)中PCA分析所采用的點的權值相等,因而這些點的存在會對擬合的結果產生一定的影響,影響最終結果的精度。如果能夠找到一種方法去除掉干擾點或盡量減低干擾點的作用,則可使結果更加精確。另一方面,由于邊界段通過了PCA線性過濾器,因而其中的大部分點是正常點(與前面的干擾點相對)。由于擬合直線是所有點共同作用的結果,因此對于按(1.4)求出的擬合直線而言,占絕大多數(shù)的正常點到擬合直線的距離相對于干擾點到擬合直線的距離必然較小。因而,到擬合直線的距離就成為度量邊界段中的點是否為正常點,或者度量其正常程度的一個標準。因此,如果根據(jù)到擬合直線的距離遠近來改變點的權重(即點對擬合直線的貢獻),則可以使擬合結果得到優(yōu)化。進一步地,如果不斷地通過擬合結果調整權重,則可以不斷地優(yōu)化結果,直到達到滿意的效果為止。實際上,本發(fā)明采用的以距離為參量的權重函數(shù)為 w(p)=exp(-dis) (1.6) 其中,dis為點p到擬合直線的距離。而整個迭代優(yōu)化的具體做法如下 (1)通過公式(1.7)計算邊界段的傾斜角度skew_angle1 其中k=y(tǒng)b/xb為邊界段擬合直線的斜率。如果xb=0,則Skew_Anglei為0。
      (2)按照(1.6)更新邊界段的權重。
      (3)通過(1.2)、(1.3)、(1.4)和(1.7)重新擬合直線并計算傾斜角度skew_angle2。
      (4)如果|skew_angle1-skew_angle2|足夠小,則轉到(5),否則將skew_angle2的值賦給skew_angle1,然后轉到(2)-(4)直到迭代收斂。
      (5)邊界段的傾斜角度是skew_angle1和skew_angle2的中值。
      由于該迭代算法采用的指數(shù)形式的權重函數(shù),因而可以迅速降低干擾點權重的相對大小,使迭代快速收斂。經(jīng)過迭代優(yōu)化的邊界段,在RBL算法中被認為是魯棒邊界段,可以作為檢測整幅圖像傾斜角度的傾斜特征。
      五、整幅圖像的傾斜角度計算 通過大量的觀察分析,發(fā)現(xiàn)對于RBL算法中的邊界段,邊界段的長度和結果的精度是正相關的,即邊界段越長,其結果在統(tǒng)計上就越精確。這是由于邊界段越長,就越有可能是從頁眉、頁腳、圖片邊框或完整的文字行中提取出來的。因此,為了結合中值和加權的優(yōu)點,在RBL算法中,本發(fā)明嘗試采用加權中值的方式來計算整幅圖像的傾斜角度。權值即為邊界段包含的采樣點的數(shù)目。
      假設圖像中N條魯棒邊界段,每個邊界段對應的含有其傾斜角度s_ai和采樣點數(shù)量mi,i=1,2,...,N。則所有魯棒邊界段傾斜角度的加權中值可通過如下方法進行計算 (1)通過下式計算傾斜角度的數(shù)目,記做Angle_Sum。
      (2)建立長度為Angle_Sum的數(shù)組Weight_Angle,用來儲存所有的傾斜角度。從i=1到i=n,在數(shù)組中存儲mi個s_ai,然后對該數(shù)組進行排序。
      (3)如果Angle_Sum是奇數(shù),則加權中值為數(shù)組中第K1大的值;如果Angle_Sum是偶數(shù),則e加權中值為數(shù)組中第K2大的和第K3大的值的平均值。這里K1=(Angle_Sum+1)/2,K2=Angle_Sum/2,K3=(Angle_Sum+2)/2。
      經(jīng)過上述步驟計算出的加權中值,就被認為整幅圖像的傾斜角度。
      六、旋轉校正圖像 求得文檔圖像的傾斜角度后,就可以根據(jù)傾斜角度對文檔圖像進行旋轉校正了。下面就來介紹一下圖像旋轉的方法。
      圖像的旋轉是一種比較耗時的結構變換。一般以圖像的中心為原點,旋轉一定角度。旋轉后,圖像的大小一般會改變??梢园艳D出顯示區(qū)域的圖像截去,也可擴大圖像范圍顯示所有圖像。在本發(fā)明的算法里,采用的是后一種顯示方式。
      設點(x0,y0)經(jīng)過旋轉θ后坐標變成(x1,y1)。
      旋轉前 其中, 旋轉后 寫成矩陣表達 其逆運算如下 上面的旋轉繞坐標軸原點(0,0)的,如果是繞一個指定點(a,b)旋轉,則先要將坐標系平移到該點,再進行旋轉,然后平移回新的坐標原點。假設圖像旋轉前中心坐標為(a,b),旋轉后中心坐標為(c,d),則旋轉變換的矩陣表達式為 其逆變換矩陣表達式為 即 由上面的轉換公式,可以非常容易的編寫實現(xiàn)圖像旋轉的函數(shù)。在實現(xiàn)過程中,首先應計算幾個參數(shù),即,原圖像的原點坐標(a,b),旋轉后圖像的原點坐標(c,d)以及旋轉后圖像的寬度NewWidth和高度NewHeight。其中,圖像的原點為圖像的中心。設原圖像的寬度和高度分別為Width和Height,則原始圖像的四個角的坐標分別為旋轉后的新圖中,這四個點的坐標分別為 則NewWidth=max(|fDstX4-fDstX1|,fDstX3-fDstX2|)(1.21) NewHeight=max(|fDstY4-fDstY1|,|fDstY3-fDstY2|)(1.22) 此外, 令 則 由(1.24),對新圖像中的每個(x1,y1)進行遍歷,找到對應的原圖中的(x0,y0),并將(x0,y0)的值賦給(x1,y1),若(x1,y1)對應的(x0,y0)不在原圖的顯示范圍內,則(x1,y1)點為背景像素。
      經(jīng)過旋轉校正之后,就可以得到一幅基本無傾斜的文檔圖像了。
      權利要求
      1.一種復雜結構文檔圖像傾斜快速檢測方法,其步驟為
      1)預處理文檔圖像,對原始圖像進行噪聲減除,標定連通區(qū)域;
      2)提取大連通區(qū)域邊界段,同時移除大連通區(qū)域,若不存在大連通區(qū)域則跳到下一步;
      3)連接文字行和相鄰區(qū)域,提取邊界段;
      4)對提取的邊界段進行過濾,得到可靠的傾斜特征;
      5)根據(jù)傾斜特征計算整幅文檔圖像的傾斜角度。
      2.如權利要求1所述的方法,其特征在于所述預處理文檔圖像還包括對噪聲減除后的圖像進行歸一化處理,圖像增強,填補小背景區(qū)域。
      3.如權利要求2所述的方法,其特征在于所述填補小背景區(qū)域的方法為首先反著用LC算法標定連通背景區(qū)域;對于該區(qū)域所包含的前景像素的個數(shù)sum值小于一定閾值的連通背景區(qū)域,將屬于該區(qū)域的所有背景像素設為前景像素。
      4.如權利要求1所述的方法,其特征在于所述步驟2)中連接文字行和相鄰區(qū)域的方法為
      1)計算橫向和縱向平均距離,其方法如下
      ①定義兩個參數(shù)橫向有效距離個數(shù)h_sum和總距離dist,并將二者初始化為0;
      ②對圖像進行逐行遍歷對于同一行的兩個相鄰的前景像素,計算相鄰兩個像素之間背景像素的個數(shù)n,如果滿足0<n<n_max,則有h_sum=h_sum+1,dist=dist+n,其中n_max為最大間隔閾值;
      ③通過h_dist=dist/h_sum得到橫向平均距離h_dist;
      同理,定義并求出縱向有效距離個數(shù)v_sum,縱向平均距離v_dist;
      2)判斷文檔圖像的主方向,其規(guī)則如下
      ①若h_sum>3×v_sum,則主方向為橫向;
      ②若v_sum>3×h_sum,則主方向為縱向;
      ③若①,②均不滿足,則比較h_dist,v_dist,如果h_dist<v_dist,則主方向為橫向,反之,主方向為縱向;
      3)采用Run-Length算法沿主方向進行相鄰區(qū)域連接。
      5.如權利要求1所述的方法,其特征在于所述提取邊界段的方法為
      1)對每個連通區(qū)域,判斷其寬度大小,如果其寬度大于某一閾值min_size,則轉到2),否則,轉到7);
      2)從上到下提取該區(qū)域的上邊界從左到右,對該區(qū)域的每一列進行遍歷,記錄遇到的第一個前景像素的位置(x,y),然后退出對這一列的遍歷,開始對下一列進行遍歷;
      3)對2)已經(jīng)提取的邊界點序列,按從左到右的順序,每10個點一組,選取最靠上的一個點,如果有若干個點y值相同,選x最小的一點;將選出的點組成抽樣邊界序列;
      4)抽樣邊界點序列可記做pi(xi,yi),i=1,2,…,n,其中,pi-1是pi左鄰的抽樣點,初始化兩個變量start和end,令它們的值為1;
      5)遍歷抽樣點,對每個i,如果(i=n)或者(dv=|yi-yi+1|>max_fall),則令end=i;其中,max_fall為落差閾值;
      6)如果(end-start)>min_length則記錄i值從start到end的抽樣點,作為候選邊界段,令start=end+1;其中,min_length為邊界段長度閾值;
      7)結束;
      同理可以實現(xiàn)其他邊界的提取。
      5.如權利要求1所述的方法,其特征在于所述邊界段過濾的方法為
      1)采用主成分分析方法計算邊界段的兩個特征值λbig和λsmall,其對應的特征向量表示該邊界段的主方向和垂直主方向的方向;
      2)定義參數(shù)δ,δ=λsmall/λbig,用于度量邊界段的線性程度;
      3)判斷每個邊界段的δ值,如果δ大于設定的閾值,則將該邊界段視為不可靠邊界段,予以舍棄;反之,則視該邊界段為可靠的傾斜特征。
      6.如權利要求6所述的方法,其特征在于采用迭代算法進行邊界段優(yōu)化得到魯棒邊界段。
      7.如權利要求7所述的方法,其特征在于所述迭代算法中采用指數(shù)形式的權重函數(shù)w(p)=exp(-dis)計算邊界段的權重值,其中dis為點p到擬合直線的距離。
      8.如權利要求1所述的方法,其特征在于采用加權中值的方法計算整幅圖像的傾斜角度,其步驟為假設圖像中N條魯棒邊界段,每個邊界段對應的含有其傾斜角度s_ai和采樣點數(shù)量mi,i=1,2,...,N
      1)通過計算傾斜角度的數(shù)目,記做Angle_Sum;
      2)建立長度為Angle_Sum的數(shù)組Weight_Angle,用來儲存所有的傾斜角度,從i=1到i=n,在數(shù)組中存儲mi個s_ai,然后對該數(shù)組進行排序;
      3)如果Angle_Sum是奇數(shù),則加權中值為數(shù)組中第K1大的值;如果Angle_Sum是偶數(shù),則加權中值為數(shù)組中第K2大的和第K3大的值的平均值,其中K1=(Angle_Sum+1)/2,K2=Angle_Sum/2,K3=(Angle_Sum+2)/2,計算出的加權中值,為整幅圖像的傾斜角度。
      9.如權利要求5所述的方法,其特征在于所述邊界段包括文字區(qū)域邊界段和圖表區(qū)域邊界段。
      全文摘要
      本發(fā)明涉及一種復雜結構文檔圖像傾斜快速檢測方法,屬于文檔圖像處理范疇。本發(fā)明首先從圖像中的文本區(qū)域及非文本區(qū)域提取連通區(qū)域的邊界段作為傾斜特征,然后通過對提取的邊界段進行過濾,得到魯棒邊界段及其對應的傾斜角度,最后通過傾斜角度的加權中值得到整幅圖像的傾斜角度。通過大量對比實驗表明,該算法具有速度快,精度高,適用范圍廣的特點。
      文檔編號G06K9/32GK101149801SQ200710176208
      公開日2008年3月26日 申請日期2007年10月23日 優(yōu)先權日2007年10月23日
      發(fā)明者宏 劉, 奇 吳, 查紅彬, 葉 陸 申請人:北京大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1