国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于化學公式特征進行圖像中化學公式檢測的方法

      文檔序號:10512699閱讀:615來源:國知局
      一種基于化學公式特征進行圖像中化學公式檢測的方法
      【專利摘要】本發(fā)明是一種基于化學公式特征進行圖像中化學公式檢測的方法。本方法是對任意文本圖像進行灰度變換、二值化、分割,通過分割出的字符與整幅圖像兩方面進行化學公式檢測?;瘜W公式圖像檢測方法由單/雙鍵判斷、模板匹配、圖像像素點密度判斷、苯環(huán)判斷組成,其中,單/雙鍵判斷、模板匹配是針對分割出的字符進行檢測,圖像像素點密度判斷、苯環(huán)判斷是對整幅圖像進行檢測。依次對圖像進行四個模塊的檢測,若符合某一模塊的檢測,則判定為化學公式圖像。本發(fā)明主要依據(jù)化學公式常見字符特征與書寫的結構特征進行檢測,通過字符的投影特征、圖像密度與字符的結構特征進行檢測,檢測方法簡單易實現(xiàn),且對圖像的清晰度、矯正度等要求不嚴格,識別率高。
      【專利說明】
      一種基于化學公式特征進行圖像中化學公式檢測的方法
      技術領域
      [0001] 本發(fā)明是一種基于化學公式特征進行圖像中化學公式檢測的方法,屬于圖像處理 和圖像識別領域。
      【背景技術】
      [0002] 基于化學公式特征進行化學公式圖像檢測并不是化學公式圖像檢測方法中常見 的方法。在基于化學公式特征進行圖像檢測時,首先要對圖像進行預處理,預處理一般包括 灰度變換、二值化、校正傾斜、圖像細化等等。然后對圖像進行字符分割,通過檢測分割出的 字符進行判斷是否為化學公式圖像。
      [0003] 在計算機中存儲的各種數(shù)字圖像,由于在掃描或傳輸過程引入噪聲(例如掃描得 到的電子圖書)會造成圖像傾斜、圖像模糊、圖像出現(xiàn)斷點等問題。此外,化學公式圖像的排 版結構多種多樣,因此,在檢測的過程中,用戶希望系統(tǒng)能具有很好的魯棒性,能夠解決這 些問題而將化學公式圖像快速檢測出來?,F(xiàn)有的化學公式檢測方法主要是模式識別等技 術,此類技術雖然能夠檢測出化學公式圖像,但是方法較復雜,實現(xiàn)起來較困難,且對圖像 要求比較高。

      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明提出了基于化學公式特征進行圖像中化學公式檢測的方法,主要基于化學 公式常見字符特征與化學公式書寫的結構特征,該方法與模式識別等方法相比,方法復雜 度低,實現(xiàn)起來簡單且對圖像的要求低。通過檢測分割出的字符以及整幅圖像來進行判斷 是否為化學公式圖像,方法實現(xiàn)簡單,執(zhí)行速度快。
      [0005] 本發(fā)明的總體思想如下:本發(fā)明是對任意文本圖像進行灰度變換、二值化、字符投 影分割,對分割出的字符進行投影,通過分割出的字符與整幅圖像兩方面進行化學公式檢 測。將檢測的文本圖像進行灰度變換,全局二值化處理,對圖像進行分割,對分割出的字符 進行檢測判斷,同時通過化學公式整體特點采用對整幅圖像進行檢測判斷的方法進行檢測 圖像中的化學公式?;瘜W公式圖像檢測方法由單/雙鍵判斷、模板匹配、圖像像素點密度判 斷、苯環(huán)判斷組成。將待檢測的圖像依次進行單/雙鍵判斷、模板匹配、圖像像素點密度判 斷、苯環(huán)判斷四個模塊的檢測,若符合某一模塊的檢測,則判定為化學公式圖像。否則進行 下一步檢測。單/雙鍵判斷、模板匹配是針對分割出的字符進行檢測,圖像像素點密度判斷、 苯環(huán)判斷是對整幅圖像進行檢測。單鍵/雙鍵判斷主要是通過字符的水平與垂直投影特征 來檢測圖像中有無化學公式中的單鍵或雙鍵;模板匹配主要是匹配化學公式中的碳(C)、R 基,并通過兩字符的空間位置進行檢測判斷;圖像密度判斷是通過化學公式一般字符分布 比較稀疏,圖像單位面積內(nèi)的像素密度小的特點進行檢測判斷圖像是否為化學公式圖像; 苯環(huán)判斷主要是通過苯環(huán)特有的結構一一密閉的環(huán)形進行檢測判斷。
      [0006] 具體創(chuàng)新點:本發(fā)明提出了基于化學公式特征進行化學公式圖像檢測的方法。主 要基于化學公式常見字符特征與化學公式書寫的結構特征,通過字符的投影特征、模板匹 配、密度檢測與字符的結構特征進行化學公式的檢測判斷。該化學公式檢測方法預處理方 法簡單,僅進行灰度變換、圖像二值化處理即可,方法簡單易實現(xiàn),對圖像質(zhì)量要求不嚴格。
      [0007]本發(fā)明的技術方案如圖1所示。用于該化學公式檢測系統(tǒng)的檢測圖像可以是bmp格 式(或其他格式)的圖像,首先由用戶輸入檢測的文本圖像,經(jīng)過圖像預處理,再對圖像進行 分割,通過分割得到的字符與整幅圖像兩方面進行檢測判斷。其主要過程為:待檢測的文本 圖像先進行灰度變換、全局二值化,然后對圖像進行投影分割,對分割出的字符依次進行 單/雙鍵判斷、模板匹配,然后對整幅圖像進行圖像像素點密度判斷、苯環(huán)判斷。若符合某一 檢測模塊則判定為化學公式圖像,否則進行下一模塊的檢測。
      [0008]具體方法步驟為: 待檢測的文本圖像先進行灰度變換、全局二值化,然后對圖像進行投影分割,直到圖像 無法進行分割為止。對分割出的字符依次進行單/雙鍵判斷、模板匹配,然后對整幅圖像進 行圖像像素點密度判斷、苯環(huán)判斷。若符合某一檢測模塊則判定為化學公式圖像,否則進行 下一模塊的檢測。
      [0009] 所述的單/雙鍵判斷、模板匹配、圖像像素點密度判斷、苯環(huán)判斷的具體方法如下: 現(xiàn)有待檢測文本圖像分割所得的分割字符的位置鏈表S1。
      [0010] 1、采用本發(fā)明提出的單/雙鍵判斷方法,針對圖像中是否含有單鍵或者雙鍵來進 行判定是否為化學公式圖像。根據(jù)單鍵的投影特點:對于豎直方向上的單鍵,字符的垂直投 影為一個點,水平投影為一條直線,單鍵兩端含有字符;對于水平方向上的單鍵,字符的水 平投影為一個點,垂直投影為一條直線,寬度比圖像中其他單個字符寬度寬。兩個相鄰的同 方向且邊界相同的單鍵組合形成雙鍵。該方法檢測的步驟如下: 步驟1,對S1中的字符進行水平直線或垂直直線的檢測,若檢測的字符為水平直線或垂 直直線,進行步驟2檢測,若未檢測到水平直線或垂直直線,對S1中的字符進行下一模塊檢 測一一模板匹配。
      [0011] 步驟2,如果檢測到字符a為水平直線,則檢測字符a水平直線上下兩側(cè)距離字符a 上下邊界設定的閾值(KQ的取值范圍為18到25之間)范圍內(nèi)是否含有其他字符存在;若檢 測到字符a為垂直直線,則檢測字符a垂直直線的左右兩側(cè)在距離垂直直線左右邊界&范圍 內(nèi)是否含有其他字符存在。若字符a兩側(cè)均沒有字符存在則進行步驟3水平單鍵或者垂直單 鍵判斷,若字符a兩側(cè)至少有一側(cè)含有與字符a為同方向的直線,則進行步驟4水平雙鍵或者 垂直雙鍵判斷;否則接著對S1中的字符進行步驟1的檢測。
      [0012] 步驟3,對字符進行化學公式中水平單鍵或者垂直單鍵的判斷: 若字符a為水平直線,判斷字符a寬度是否大于圖像中一個字符的寬度,如果大于圖像 中一個字符的寬度,則判定為化學公式中的水平單鍵,停止對圖像的檢測,判定圖像為化學 公式圖像,否則停止對字符a進行水平單鍵檢測,接著對S1中的字符進行步驟1檢測; 若字符a為垂直直線,檢測距離垂直直線上側(cè)邊界與下側(cè)邊界Q的范圍內(nèi)是否含有字 符存在,若兩側(cè)均含有字符,則判定為化學公式中的垂直單鍵,停止對圖像的檢測,判定圖 像為化學公式圖像,否則停止對字符a進行垂直單鍵檢測,接著對S1中的字符進行步驟1的 檢測。
      [0013] 步驟4,若含有字符b與字符a為同方向的直線,對字符a與字符b進行水平雙鍵或者 垂直雙鍵判斷: 若字符a為水平直線,則進行步驟4.1水平雙鍵檢測;若字符a為垂直直線,則進行步驟 4.2垂直雙鍵檢測; 步驟4.1,判斷字符a的寬度是否大于圖像中一個字符的寬度,若小于圖像中一個字符 的寬度,則停止對字符a進行雙鍵檢測,接著對S1中的字符進行步驟1的檢測;若大于圖像中 一個字符的寬度,判斷字符b的左右邊界值與字符a的左右邊界值是否近似相等(本發(fā)明中 兩數(shù)值相差m(4〈m〈8)以內(nèi)則判定兩數(shù)值近似相等),若滿足條件,則判定為化學公式中的水 平雙鍵,停止對圖像的檢測,判定圖像為化學公式圖像,否則停止對字符a進行雙鍵檢測,接 著對S1中的字符進行步驟1的檢測; 步驟4.2,判斷字符b的上下邊界值與字符a的上下邊界值是否近似相等(本發(fā)明中兩數(shù) 值相差m(4〈m〈8)以內(nèi)則判定兩數(shù)值近似相等),若字符a與字符b的上下邊界值不近似相等, 則停止對字符a進行雙鍵檢測,接著對S1中的字符進行步驟1的檢測;若兩字符的上下邊界 值近似相等,則檢測距離字符a上側(cè)與下側(cè)Q的范圍內(nèi)是否含有字符存在,若兩側(cè)均含有字 符,則判定為化學公式中的垂直雙鍵,停止對圖像的檢測,判定圖像為化學公式圖像,否則 停止對字符a進行雙鍵檢測,接著對S1中的字符進行步驟1的檢測。
      [0014] 2、采用本發(fā)明提出的字符模板匹配方法,模板匹配主要是檢測化學式中的碳(C)、 R基兩個字符。C、R在其他公式中也是經(jīng)常出現(xiàn)的字符,所以在判斷是否為化學公式時,不能 簡單的判斷有無 C、R,還要對C、R的空間位置進行判斷。其方法檢測步驟如下: 步驟1,對S1中的字符選取數(shù)量為Nc (Nc的取值范圍為35到55之間)寬度高度均小于!^ (h的取值范圍為90到115之間)的字符進行歸一化處理。
      [0015] 步驟2,通過歐式距離計算待檢測字符與二值化的模板的相似距離cU、二值化的模 板與待檢測字符的相似距離d2。
      [0016] 步驟3,對d^cb中的最大值與設定的Thr (Thr的取值范圍為90到160之間)進行對 比,若小于Thr,則判定該字符與模板字符匹配,否則判定該字符與模板字符不匹配;重復步 驟2直到選取的字符全部檢測完為止,分別統(tǒng)計與各個模板相匹配的字符個數(shù);若沒有與模 板相匹配的字符,則對S1中的字符進行下一模塊檢測一一圖像像素點密度的檢測判斷;否 則進行步驟4判斷。
      [0017] 步驟4,分別對與各個模板相匹配的字符進行空間位置判斷,化學公式中字符的空 間位置滿足: (1) 字符不為上標或者下標; (2) 相同字符之間以單鍵進行連接,無單鍵相連接的左右相鄰的相同字符將進行合并 為同一個字符,通過右側(cè)下標數(shù)來展示相鄰相同字符數(shù); 若滿足化學公式圖像中的空間位置條件,則判定圖像為化學公式圖像,停止對圖像進 行檢測,若不滿足字符的空間位置條件,則對S1中的字符進行下一模塊檢測一一圖像像素 點密度的檢測判斷。
      [0018] 步驟4.1,判斷匹配字符c是否為圖像中其他字符的上標識或者下標識: 步驟4.1.1,通過S1中分割出的字符的位置判斷字符間的位置關系,選取S1中字符高度 和寬度均大于T2(T2的取值范圍為17到23之間)且字符高度大于匹配字符c高度的字符f,字 符c的左邊界與字符f的右邊界之間的距離小于T 3(T3的取值范圍為90到115之間); 步驟4.1.2,判斷字符c的上邊界值、下邊界值,若字符c的上邊界值小于So (So的取值 位于字符f的上邊界值加上字符f高度的0.2倍與0.35倍之間),且字符C的下邊界位于SdPSi 之間取值位于字符f的下邊界值加上字符f高度的0.55倍與0.65倍之間),則判定字符 c為其他字符的上標識或者下標識,字符c設為無效匹配字符,否則重復步驟4.1.1、步驟 4.1.2,直到S1中無符合條件的字符存在,若字符c不為其他字符的上標識或者下標識,則設 為有效匹配字符。
      [0019] 對所有的匹配字符進行步驟4.1判斷,統(tǒng)計與各個模板字符相匹配的有效匹配字 符的個數(shù),若有效匹配字符的個數(shù)小于P(P的取值一般為2-4之間),則進行步驟4檢測,否則 進行步驟4.2檢測。
      [0020] 步驟4.2,對相同的有效匹配字符進行左右相鄰位置判斷: 步驟4.2.1,對相同的字符進行任意兩個字符對比,若兩字符上邊界近似相等,下邊界 近似相等(本發(fā)明中兩數(shù)值相差m(4〈m〈8)以內(nèi)則判定兩數(shù)值近似相等),且兩字符之間的距 離小于T4(T 4的取值范圍為8到15之間),則進行步驟4.2.2檢測,否則重復步驟4.2.1,直到將 全部任意組合進行對比; 步驟4.2.2,判斷兩字符的上下兩側(cè)是否有其他字符存在。若兩字符上下兩側(cè)均無字符 存在,則兩字符位置處于左右相鄰的位置,字符位置不符合化學公式中的字符空間位置,停 止該部分的檢測,對S1中的字符進行下一模塊檢測一一圖像像素點密度的檢測判斷,否則 重復步驟4.2.1、步驟4.2.2,直到將全部任意組合進行對比。
      [0021] 依次對與相同模板字符相匹配的有效匹配字符進行步驟4.2檢測,若與相同模板 字符相匹配的有效匹配字符之間的位置均不處于左右相鄰的位置,則判定圖像為化學公式 圖像,停止對圖像的檢測;否則進行下一模塊檢測一一圖像像素點密度的檢測判斷。
      [0022] 3、采用本發(fā)明提出的圖像像素點密度判斷方法,對于化學公式圖像,圖像一般字 符排列稀疏,圖像像素分布無規(guī)律、不集中,圖像單位面積內(nèi)像素密度小。其方法檢測步驟 如下: 步驟1,選取圖像寬度高度均大于TR3 (TR3的取值范圍為140到180之間)的圖像。
      [0023] 步驟2,去除圖像中S1內(nèi)字符以外的雜點,對圖像進行水平投影,獲取水平投影直 方圖,統(tǒng)計圖像的總的像素點數(shù)。
      [0024] 步驟3,對水平投影直方圖進行整體像素密度分布檢測。尋找水平投影直方圖中像 素的中值mid,忽略水平投影直方圖中像素數(shù)小于mid的像素,對大于mid的像素進行檢測。 若檢測的像素點分布有規(guī)律或者像素點集中在一個區(qū)域內(nèi),則判定圖像為非化學公式圖 像,若檢測的像素點分布沒有規(guī)律且分布較為分散,則進行步驟4判斷。
      [0025] 步驟4,計算圖像單位面積的像素點密度,如果像素點密度小于Trd(Trd的取值范圍 為0.90到0.93之間),則判定該圖像為化學公式圖像,若大于則進行下一模塊檢測一一苯環(huán) 字符檢測。
      [0026] 4、采用本發(fā)明提出的苯環(huán)判斷方法,苯環(huán)是化學公式中所特有的符號,化學公式 中的苯環(huán)具有難分割、形式多樣、四周封閉的特點。難分割決定了化學式中的苯環(huán)是不可能 分割成獨立的字符進行識別;形式多樣決定了苯環(huán)不能像C、R字符一樣通過模板匹配進行 識別。所以在進行苯環(huán)識別時利用了苯環(huán)是四周封閉的特點。
      [0027] 通過苯環(huán)為四周封閉的環(huán)狀,對整個圖像選取一定量的點,判斷每個點的上下左 右四個方向是否存在像素點,判斷選取一點范圍內(nèi)的點數(shù)來判斷是否為苯環(huán)。其方法檢測 步驟如下: 步驟1,在整幅圖像上選取N*N(N的取值范圍為18到25之間)的點數(shù),且相鄰兩點間的水 平間距或者垂直間距均大于Tc(Tc的取值范圍為3到5之間),若水平間距或者垂直間距小于 T。,則將間距設為KTca的取值范圍為9到12之間),重新計算選取的點數(shù)。
      [0028] 步驟2,以選取的點為中心向上下左右四個方向進行檢測,判斷是否能檢測到苯環(huán) 的邊界。若四個方向均能檢測到苯環(huán)的邊界則判定該點為有效點,否則判為無效點。
      [0029] 步驟3,在圖像中依次選取TZ*TZ (Tz的取值范圍為3到5之間)的范圍,統(tǒng)計該范圍內(nèi) 有效點的個數(shù),通過有效點的個數(shù)來判斷是否含有苯環(huán),若有效點數(shù)大于T pt(Tpt的取值范 圍為14到17之間)則判為化學公式,圖像判定為化學公式圖像,否則將圖像判定為非化學公 式圖像。
      [0030] 本發(fā)明提出了基于化學公式特征進行圖像中化學公式檢測的方法,主要基于化學 公式常見字符特征與化學公式書寫的結構特征,通過字符的投影特征、模板匹配、密度檢測 與字符的結構特征進行化學公式的檢測判斷。該化學公式檢測方法預處理方法簡單,僅進 行灰度變換、圖像二值化處理即可,算法簡單,便于實現(xiàn),識別率高。
      【附圖說明】
      [0031] 圖1化學公式檢測系統(tǒng)整體流程框圖。
      [0032] 圖2單/雙鍵判斷模塊檢測方法流程框圖。
      [0033] 圖3字符模板匹配模塊檢測方法流程框圖。
      【具體實施方式】
      [0034] 下面結合附圖對本發(fā)明作進一步說明: 本實施例的技術方案如圖1所示: 本實施實例中采用的圖像數(shù)據(jù)庫是由掃描儀掃描得到的文檔圖像數(shù)據(jù)庫,待檢測的文 本圖像可以是bmp格式(或其他格式)的圖像,保存于本地磁盤上。本實施實例中的表格圖像 檢測方法采用VS2012編程實現(xiàn)。
      [0035] 1、首先,用戶輸入檢測的文本圖像,對輸入的檢測文本圖像先進行灰度變換和全 局二值化,全局二值化的閾值設定為220,然后對圖像進行垂直投影分割與水平投影分割, 直到圖像在垂直方向與水平方向無法再進行分割為止。對分割出的字符進行單/雙鍵判斷。 若該模塊檢測圖像判定為化學公式圖像,則停止對圖像進行檢測,否則進行下一模塊檢 測一一模板匹配。單/雙鍵判斷模塊檢測方法流程圖如圖2所示,該檢測方法的步驟如下: 步驟1,對S1中的字符進行水平直線或垂直直線的檢測,若檢測的字符為水平直線或垂 直直線,進行步驟2檢測,若未檢測到水平直線或垂直直線,對S1中的字符進行下一模塊檢 測一一模板匹配。
      [0036]步驟2,如果檢測到字符a為水平直線,則檢測字符a水平直線上下兩側(cè)距離水平直 線上下邊界20個像素點的范圍內(nèi)是否含有其他字符存在;若檢測到字符a為垂直直線,則檢 測字符a垂直直線的左右兩側(cè)在距離垂直直線左右邊界20個像素點的范圍內(nèi)是否含有其他 字符存在。若字符a兩側(cè)均沒有字符存在則進行步驟3水平單鍵或者垂直單鍵判斷,若字符a 兩側(cè)至少有一側(cè)含有與字符a為同方向的直線,則進行步驟4水平雙鍵或者垂直雙鍵判斷; 否則接著對S1中的字符進行步驟1的檢測。
      [0037] 步驟3,對字符進行化學公式中水平單鍵或者垂直單鍵的判斷: 若字符a為水平直線,判斷字符a寬度是否大于圖像中一個字符的寬度,如果大于圖像 中一個字符的寬度,則判定為化學公式中的水平單鍵,停止對圖像的檢測,判定圖像為化學 公式圖像,否則停止對字符a進行水平單鍵檢測,接著對S1中的字符進行步驟1檢測; 若字符a為垂直直線,檢測距離垂直直線上側(cè)邊界與下側(cè)邊界各為字符高度的0.3倍的 范圍內(nèi)是否含有字符存在,若兩側(cè)均含有字符,則判定為化學公式中的垂直單鍵,停止對圖 像的檢測,判定圖像為化學公式圖像,否則停止對字符a進行垂直單鍵檢測,接著對S1中的 字符進行步驟1的檢測。
      [0038] 步驟4,若含有字符b與字符a為同方向的直線,對字符a與字符b進行水平雙鍵或者 垂直雙鍵判斷: 若字符a為水平直線,則進行步驟4.1水平雙鍵檢測;若字符a為垂直直線,則進行步驟 4.2垂直雙鍵檢測; 步驟4.1,判斷字符a的寬度是否大于圖像中一個字符的寬度,若小于圖像中一個字符 的寬度,則停止對字符a進行雙鍵檢測,接著對S1中的字符進行步驟1的檢測;若大于圖像中 一個字符的寬度,判斷字符b的左右邊界值與字符a的左右邊界值是否近似相等,若滿足條 件,則判定為化學公式中的水平雙鍵,停止對圖像的檢測,判定圖像為化學公式圖像,否則 停止對字符a進行雙鍵檢測,接著對S1中的字符進行步驟1的檢測。
      [0039] 步驟4.2,判斷字符b的上下邊界值與字符a的上下邊界值是否近似相等,若字符a 與字符b的上下邊界值不近似相等,則停止對字符a進行雙鍵檢測,接著對S1中的字符進行 步驟1的檢測;若兩字符的上下邊界值近似相等,則檢測距離字符a上側(cè)邊界與下側(cè)邊界各 為字符a高度的0.3倍的范圍內(nèi)是否含有字符存在,若兩側(cè)均含有字符,則判定為化學公式 中的垂直雙鍵,停止對圖像的檢測,判定圖像為化學公式圖像,否則停止對字符a進行雙鍵 檢測,接著對S1中的字符進行步驟1的檢測; 2、采用本發(fā)明提出的字符模板匹配方法,模板匹配主要是檢測化學式中的碳(C)、R基 兩個字符。字符模板匹配模塊檢測方法流程圖如圖3所示,該檢測方法的步驟如下: 步驟1,對S1中的字符選取40個寬度高度均小于100的字符進行歸一化處理。
      [0040] 步驟2,通過歐式距離計算待檢測字符與二值化的模板的相似距離cU、二值化的模 板與待檢測字符的相似距離d2。
      [0041] 步驟3,對d^cb中的最大值與設定的匹配值150進行對比,若小于150則判定該字符 與模板字符匹配,否則判定該字符與模板字符不匹配;重復步驟2直到選取的字符全部檢測 完為止,分別統(tǒng)計與各個模板相匹配的字符個數(shù);若沒有與模板相匹配的字符,則對S1中的 字符進行下一模塊檢測一一圖像像素點密度的檢測判斷;否則進行步驟4判斷。
      [0042] 步驟4,分別對與各個模板相匹配的字符進行空間位置判斷,若滿足化學公式圖像 中的空間位置條件,則判定圖像為化學公式圖像,停止對圖像進行檢測,若不滿足條件,則 對S1中的字符進行下一模塊檢測一一圖像像素點密度的檢測判斷。
      [0043] 步驟4.1,判斷匹配字符c是否為圖像中其他字符的上標識或者下標識: 步驟4.1.1,通過S1中分割出的字符的位置判斷字符間的位置關系,選取S1中字符高度 和寬度均大于20且字符高度大于匹配字符c高度的字符f,字符c的左邊界與字符f的右邊界 之間的距離小于100; 步驟4.1.2,判斷字符C的上邊界值、下邊界值,若字符C的上邊界值小于字符f的上邊界 值加上字符f高度的〇. 3倍,且字符c的下邊界位于字符f的上邊界值加上字符f高度的0.3倍 和字符f的下邊界值加上字符f高度的〇. 6倍之間,則判定字符c為其他字符的上標識或者下 標識,字符c設為無效匹配字符,否則重復步驟4.1.1、步驟4.1.2,直到S1中無符合條件的字 符存在,若字符c不為其他字符的上標識或者下標識,則設為有效匹配字符; 對所有的匹配字符進行步驟4.1判斷,統(tǒng)計與各個模板字符相匹配的有效匹配字符的 個數(shù),若有效匹配字符的個數(shù)小于2,則進行步驟4檢測,否則進行步驟4.2檢測。
      [0044] 步驟4.2,對相同的有效匹配字符進行左右相鄰位置判斷: 步驟4.2.1,對相同的字符進行任意兩個字符對比,若兩字符上邊界近似相等,下邊界 近似相等,且兩字符之間的距離小于10,則進行步驟4.2.2檢測,否則重復步驟4.2.1,直到 將全部任意組合進行對比; 步驟4.2.2,判斷兩字符的上下兩側(cè)是否有其他字符存在。若兩字符上下兩側(cè)均無字符 存在,則兩字符位置處于左右相鄰的位置,字符位置不符合化學公式中的字符空間位置,停 止該部分的檢測,對S1中的字符進行下一模塊檢測一一圖像像素點密度的檢測判斷,否則 重復步驟4.2.1、步驟4.2.2,直到將全部任意組合進行對比; 依次對與相同模板字符相匹配的有效匹配字符進行步驟4.2檢測,若與相同模板字符 相匹配的有效匹配字符之間的位置均不處于左右相鄰的位置,則判定圖像為化學公式圖 像,停止對圖像的檢測;否則,對S1中的字符進行下一模塊檢測一一圖像像素點密度的檢測 判斷。
      [0045] 3、采用本發(fā)明提出的圖像像素點密度判斷方法,對于化學公式圖像,圖像一般字 符排列稀疏,圖像單位面積內(nèi)像素密度小。其方法檢測步驟如下: 步驟1,選取圖像寬度高度均大于150的圖像; 步驟2,去除圖像中S1內(nèi)字符以外的雜點,統(tǒng)計圖像的總的像素點數(shù); 步驟4,對水平投影直方圖進行整體像素密度分布檢測。尋找水平投影直方圖中像素的 中值mid,忽略水平投影直方圖中像素數(shù)小于mid的像素,對大于mid的像素進行檢測。若檢 測的像素點分布有規(guī)律或者像素點集中在一個區(qū)域內(nèi),則判定圖像為非化學公式圖像,若 檢測的像素點分布沒有規(guī)律且分布較為分散,則進行步驟4檢測; 步驟3,計算圖像單位面積的像素點密度,如果像素點密度小于0.93,則判定該圖像為 化學公式圖像,若大于則進行下一模塊檢測一一苯環(huán)字符檢測。
      [0046] 4、采用本發(fā)明提出的苯環(huán)判斷方法,苯環(huán)是化學公式中所特有的符號,化學公式 中的苯環(huán)具有難分割、形式多樣、四周封閉的特點。
      [0047] 通過苯環(huán)為四周封閉的環(huán)狀,對整個圖像選取一定量的點,判斷每個點的上下左 右四個方向是否存在像素點,判斷選取一點范圍內(nèi)的點數(shù)來判斷是否為苯環(huán)。其方法檢測 步驟如下: 步驟1,在整幅圖像上選取20*20的點數(shù),且相鄰兩點間的水平間距或者垂直間距均大 于5,若水平間距或者垂直間距小于5,則將間距設為10,重新計算選取的點數(shù); 步驟2,以選取的點為中心向上下左右四個方向進行檢測,判斷是否能檢測到苯環(huán)的邊 界。若四個方向均能檢測到苯環(huán)的邊界則判定該點為有效點,否則判為無效點; 步驟3,在圖像中依次選取5*5的范圍,統(tǒng)計該范圍內(nèi)有效點的個數(shù),通過有效點的個數(shù) 來判斷是否含有苯環(huán),若有效點數(shù)大于15則判為化學公式,圖像判定為化學公式圖像,否則 將圖像判定為非化學公式圖像。
      [0048] 具體創(chuàng)新點:本發(fā)明提出了基于化學公式特征進行化學公式圖像檢測的方法。主 要基于化學公式常見字符特征與化學公式書寫的結構特征,通過字符的投影特征、模板匹 配、密度檢測與字符的結構特征進行化學公式的檢測判斷。該化學公式檢測方法預處理方 法簡單,僅進行灰度變換、圖像二值化處理即可,該化學公式檢測方法簡單,便于實現(xiàn),對檢 測的圖像質(zhì)量要求低,無需大量的訓練樣本,識別率高。
      [0049] 表1給出了化學公式圖像檢測方法的檢測結果
      表1 本發(fā)明中的分類檢測庫來自于專利申請材料中的數(shù)學、化學、表格、純文本四類文本圖 像。在驗證方法的有效性時,選擇的內(nèi)容主要為傳真和文件掃描所獲得的圖像。測試的圖像 庫中共有文本圖像2640張,其中含有化學公式圖像1274張,非化學公式圖像1366張,檢測結 果如表1所示。
      [0050] 實驗結果表明,本發(fā)明所提出的方法,可以很好的實現(xiàn)化學公式圖像與非化學公 式圖像的分類。
      [0051] 下面對本發(fā)明作進一步說明: 1)本發(fā)明方法的簡化:方法的核心方法基于化學公式常見字符特征與化學公式書寫 的結構特征,方法簡單便于實現(xiàn),運行速度快。不需要進行復雜繁瑣的方法演算過程,只進 行簡單的圖像二值化過程,之后方法主要變成0-1之間的判斷。
      [0052] 2)本發(fā)明方法與經(jīng)常使用的模式識別檢測等方法相比方法對圖像的要求低,且不 需要大量的訓練圖像樣本。
      【主權項】
      1. 一種基于化學公式特征進行圖像中化學公式檢測的方法,具體步驟為:本發(fā)明是對 任意文本圖像進行灰度變換、二值化、投影分割,對分割出的字符通過模板檢測以及對分割 出的字符進行水平投影和垂直投影,獲取分割字符在水平和垂直方向上的投影特征,并與 給定字符的水平與垂直投影特征進行對比檢測的方法對圖像中的化學公式進行檢測,同時 還通過對整幅圖像進行檢測判斷圖像是否為化學公式圖像,其特征在于:所述的對分割出 的字符通過模板檢測以及對分割出的字符進行水平投影和垂直投影,獲取分割字符在水平 和垂直方向上的投影特征,并與給定字符的水平與垂直投影特征進行對比檢測的方法對圖 像中的化學公式進行檢測,同時還通過對整幅圖像進行檢測判斷圖像是否為化學公式圖像 的具體方法如下: 步驟1,對圖像進行灰度變換、二值化,對二值化的圖像進行垂直投影分割與水平投影 分割,直到圖像不能再分割為止,獲得分割字符的位置鏈表S1; 步驟2,對S1中的字符進行化學公式中單/雙鍵的檢測: 步驟2.1,對S1中的字符進行水平直線或垂直直線的檢測,若檢測的字符為水平直線或 垂直直線,進行步驟2.2檢測,若未檢測到水平直線或垂直直線,則進行步驟3的檢測; 步驟2.2,若檢測到字符a為水平直線,進行步驟2.2.1檢測;若檢測到字符a為垂直直 線,進行步驟2.2.2檢測; 步驟2.2.1,檢測字符a水平直線上下兩側(cè)距離水平直線上下邊界第一閾值的范圍內(nèi)是 否含有其他字符存在; 步驟2.2.2,檢測字符a垂直直線的左右兩側(cè)在距離垂直直線左右邊界第一閾值的范圍 內(nèi)是否含有其他字符存在; 若步驟2.2.1或者步驟2.2.2中字符a兩側(cè)均沒有字符存在則進行步驟2.3水平單鍵或 者垂直單鍵判斷,若字符a兩側(cè)至少有一側(cè)含有與字符a為同方向的直線,則進行步驟2.4水 平雙鍵或者垂直雙鍵判斷;否則接著對S1中的字符進行步驟2.1的檢測; 步驟2.3,對字符進行化學公式中水平單鍵或者垂直單鍵的判斷: 若字符a為水平直線,判斷字符a寬度是否大于圖像中一個字符的寬度,如果大于圖像 中一個字符的寬度,則判定為化學公式中的水平單鍵,停止對圖像的檢測,判定圖像為化學 公式圖像,否則停止對字符a進行水平單鍵檢測,接著對S1中的字符進行步驟2.1的檢測; 若字符a為垂直直線,檢測距離垂直直線上側(cè)邊界與下側(cè)邊界第二閾值的范圍內(nèi)是否 含有字符存在,若兩側(cè)均含有字符,則判定為化學公式中的垂直單鍵,停止對圖像的檢測, 判定圖像為化學公式圖像,否則停止對字符a進行垂直單鍵檢測,接著對S1中的字符進行步 驟2.1的檢測; 步驟2.4,若含有字符b與字符a為同方向的直線,對字符a與字符b進行水平雙鍵或者垂 直雙鍵判斷: 若字符a為水平直線,則進行步驟2.4.1水平雙鍵檢測;若字符a為垂直直線,則進行步 驟2.2.2垂直雙鍵檢測; 步驟2.4.1,判斷字符a的寬度是否大于圖像中一個字符的寬度,若小于圖像中一個字 符的寬度,則停止對字符a進行雙鍵檢測,接著對S1中的字符進行步驟2.1的檢測;若大于圖 像中一個字符的寬度,判斷字符b的左右邊界值與字符a的左右邊界值是否近似相等,若滿 足條件,則判定為化學公式中的水平雙鍵,停止對圖像的檢測,判定圖像為化學公式圖像, 否則停止對字符a進行雙鍵檢測,接著對S1中的字符進行步驟2.1的檢測; 步驟2.4.2,判斷字符b的上下邊界值與字符a的上下邊界值是否近似相等,若字符a與 字符b的上下邊界值不近似相等,則停止對字符a進行雙鍵檢測,接著對S1中的字符進行步 驟2.1的檢測;若兩字符的上下邊界值近似相等,則檢測距離字符a上側(cè)與下側(cè)第二閾值的 范圍內(nèi)是否含有字符存在,若兩側(cè)均含有字符,則判定為化學公式中的垂直雙鍵,停止對圖 像的檢測,判定圖像為化學公式圖像,否則停止對字符a進行雙鍵檢測,接著對S1中的字符 進行步驟2.1的檢測; 步驟3,對S1中的字符進行模板匹配檢測: 步驟3.1,對S1中的字符選取一定數(shù)量寬度高度均小于第三閾值的字符進行歸一化處 理; 步驟3.2,通過歐式距離計算待檢測字符與二值化的模板的相似距離cU、二值化的模板 與待檢測字符的相似距離d2; 步驟3.3,對d^cb中的最大值與設定的第四閾值進行對比,若小于設定的第四閾值,則 判定該字符與模板字符匹配,否則判定該字符與模板字符不匹配;重復步驟3.2直到選取的 字符全部檢測完為止,分別統(tǒng)計與各個模板相匹配的字符個數(shù);若沒有與模板相匹配的字 符,則進行步驟4的檢測,否則進行步驟3.4檢測; 步驟3.4,分別對與各個模板相匹配的字符進行空間位置判斷,化學公式中字符的空間 位置滿足: (1) 字符不為上標或者下標; (2) 相同字符之間以單鍵進行連接,無單鍵相連接的左右相鄰的相同字符將進行合并 為同一個字符,通過右側(cè)下標數(shù)來展示相鄰相同字符數(shù); 若滿足化學公式圖像中的空間位置條件,則判定圖像為化學公式圖像,停止對圖像進 行檢測,若不滿足條件,則繼續(xù)進行步驟4檢測; 步驟3.4.1,判斷匹配字符c是否為圖像中其他字符的上標識或者下標識: 步驟3.4.1.1,通過S1中分割出的字符的位置判斷字符間的位置關系,選取S1中字符高 度和寬度均大于第五閾值且字符高度大于匹配字符c高度的字符f,字符c的左邊界與字符f 的右邊界之間的距離小于第六閾值; 步驟3.4.1.2,判斷字符c的上邊界值、下邊界值,若字符c的上邊界值小于第七閾值,且 字符c的下邊界位于第七閾值和第八閾值之間,則判定字符c為其他字符的上標識或者下標 識,字符c設為無效匹配字符,否則重復步驟3.4.1.1、步驟3.4.1.2,直到S1中無符合條件的 字符存在,若字符c不為其他字符的上標識或者下標識,則設為有效匹配字符; 對所有的匹配字符進行步驟3.4.1判斷,統(tǒng)計與各個模板字符相匹配的有效匹配字符 的個數(shù),若有效匹配字符的個數(shù)小于第九閾值,則進行步驟4檢測,否則進行步驟3.4.2檢 測; 步驟3.4.2,對相同的有效匹配字符進行左右相鄰位置判斷: 步驟3.4.2.1,對相同的字符進行任意兩個字符對比,若兩字符上邊界近似相等,下邊 界近似相等,且兩字符之間的距離小于第十閾值,則進行步驟3.4.2.2檢測,否則重復步驟 3.4.2.1,直到將全部任意組合進行對比; 步驟3.4.2.2,判斷兩字符的上下兩側(cè)是否有其他字符存在; 若兩字符上下兩側(cè)均無字符存在,則兩字符位置處于左右相鄰的位置,字符位置不符 合化學公式中的字符空間位置,停止該部分的檢測,進行步驟4檢測,否則重復步驟 3.4.2.1、步驟3.4.2.2,直到將全部任意組合進行對比; 依次對與相同模板字符相匹配的有效匹配字符進行步驟3.4.2檢測,若與相同模板字 符相匹配的有效匹配字符之間的位置均不處于左右相鄰的位置,則判定圖像為化學公式圖 像,停止對圖像的檢測;否則,進行步驟4檢測; 步驟4,進行整幅圖像像素點密度的檢測判斷: 步驟4.1,選取圖像寬度高度均大于第十一閾值的圖像; 步驟4.2,去除圖像中S1內(nèi)字符以外的雜點,統(tǒng)計圖像的總的像素點數(shù); 步驟4.3,對水平投影直方圖進行整體像素密度分布檢測: 去掉水平投影直方圖中像素的最大值與最小值,求剩余像素的中值mid,忽略水平投影 直方圖中像素數(shù)小于mid的像素,對大于mid的像素進行檢測;若檢測的像素點分布有規(guī)律 或者像素點集中在一個區(qū)域內(nèi),則將圖像判定為非化學公式圖像,若檢測的像素點分布沒 有規(guī)律且分布較為分散,則進行步驟4.4檢測; 步驟4.4,計算圖像單位面積的像素點密度,如果像素點密度小于第十二閾值,則判定 該圖像為化學公式圖像,若大于則進行步驟5的檢測; 步驟5,對S1中的字符進行苯環(huán)字符檢測: 步驟5.1,在整幅圖像上選取N*N的點數(shù),且相鄰兩點間的水平間距或者垂直間距均大 于第十三閾值,若水平間距或者垂直間距小于第十三閾值,則將間距設為第十四閾值,重新 計算選取的點數(shù); 步驟5.2,以選取的點為中心向上下左右四個方向進行檢測,判斷是否能檢測到苯環(huán)的 邊界; 若四個方向均能檢測到苯環(huán)的邊界則判定該點為有效點,否則判為無效點; 步驟5.3,在圖像中依次選取TZ*TZ的范圍,統(tǒng)計該范圍內(nèi)有效點的個數(shù),通過有效點的 個數(shù)來判斷是否含有苯環(huán),若有效點數(shù)大于第十五閾值則判為化學公式,圖像判定為化學 公式圖像,否則將圖像判定為非化學公式圖像。2.如權利要求1所述的方法,其特征在于,所述水平直線的檢測方法如下: 步驟1,選取高度小于第十六閾值的字符,對字符進行垂直投影,計算垂直投影直方圖 相鄰位置的像素點數(shù)的差值大于第十七閾值的次數(shù),若該次數(shù)大于第十八閾值,則停止水 平直線檢測,若小于第十八閾值,進行步驟2檢測; 步驟2,計算垂直投影直方圖中各位置的像素點數(shù)大于第十九閾值的長度與字符寬度 的差值是否大于第二十閾值,若大于第二十閾值,則停止直線檢測,若小于第二十閾值,進 行步驟3檢測; 步驟3,對字符進行水平投影,獲取水平投影直方圖中的最大像素點數(shù)BX_max,判斷最 大像素點數(shù)Bx_maX與字符的寬度的差值是否小于第二十一閾值,若大于第二十一閾值,則 停止水平直線檢測,若小于第二十一閾值,進行步驟4檢測; 步驟4,將該字符從中心位置分為兩部分,對兩部分重新進行水平方向上的投影分割, 對比重新分割后兩部分的高度變化,若兩部分的高度差小于第二十二閾值,則判定該字符 為一條水平直線。3. 如權利要求1所述的方法,其特征在于,所述垂直直線的檢測方法如下: 步驟1,選取高度大于第二十三閾值,寬度小于第二十四閾值的字符,對字符進行水平 投影,計算水平投影直方圖相鄰位置的像素點數(shù)的差值大于第二十五閾值的次數(shù),若該次 數(shù)大于第二十六閾值,則停止水平直線檢測,若小于第二十六閾值,進行步驟2檢測; 步驟2,對字符進行垂直投影,獲取垂直投影直方圖中的最大像素點數(shù)By_max,判斷最 大像素點數(shù)By_maX與字符的高度的差值是否小于第二十七閾值,若大于第二十七閾值,則 停止水平直線檢測,若小于第二十七閾值,進行步驟3檢測; 步驟3,計算垂直投影直方圖中各位置的像素點數(shù)與最大像素點數(shù)By_max的差值大于 第二十八閾值的次數(shù)numl以及相鄰位置的像素點數(shù)的差值大于第二十九閾值的次數(shù)num2, 若numl小于第三十閾值且num2小于第三十一閾值,則進行步驟4檢測,否則停止檢測; 步驟4,將該字符從中心位置分為兩部分,對兩部分重新進行垂直方向上的投影分割, 對比重新分割后的兩部分的寬度變化,若兩部分的寬度差小于第三十二閾值,則判定該字 符為一條豎直直線。4. 如權利要求1所述的方法,其特征在于,所述步驟3,對S1中的字符進行模板匹配檢測 的字符為:R,C。5. 如權利要求1所述的方法,其特征在于,所述第一閾值的范圍為18到25之間,第二閾 值的范圍為字符高度的0.2倍到字符高度的0.4倍之間,第三閾值的范圍為90到115之間,第 四閾值的范圍為90到160之間,第五閾值的范圍為17到23之間,第六閾值的范圍為90到115 之間,第七閾值的范圍為字符f的上邊界值加上字符f高度的0.2倍與0.35倍之間,第八閾值 的范圍為字符f的下邊界值加上字符f高度的0.55倍與0.65倍之間,第九閾值的范圍為2到4 之間,第十閾值的范圍為8到15之間,第十一閾值的范圍為140到180之間,第十二閾值的范 圍為0.90到0.93之間,第十三閾值的范圍為4到7之間,第十四閾值的范圍為9到12之間,第 十五閾值的范圍為14到17之間,N的取值范圍為18到25之間,T z的取值范圍為3到5之間。6. 如權利要求2所述的方法,其特征在于,所述第十六閾值的范圍為18到24之間,第十 七閾值的范圍為3到6之間,第十八閾值的范圍為2到5之間,第十九閾值的范圍為0到5之間, 第二十閾值的范圍為5到10之間,第二十一閾值的范圍為9到12之間,第二十二閾值的范圍 為5到8之間。7. 如權利要求3所述的方法,其特征在于,所述第二十三閾值的范圍為18到25之間,第 二十四閾值的范圍為10到17之間,第二十五閾值的范圍為2到5之間,第二十六閾值的范圍 為3到5之間,第二十七閾值的范圍為4到8之間,第二十八閾值的范圍為8到12之間,第二十 九閾值的范圍為2到8之間,第三十閾值的范圍為1到3之間,第三十一閾值的范圍為2到6之 間,第三十二閾值的范圍為4到8之間。8. 如權利要求1-4任一項所述的方法,其特征在于:所述近似相等是指兩數(shù)值相差7以 內(nèi)。9. 如權利要求1所述的方法,其特征在于,所述的一個字符的寬度chw,chw的具體計算 方法如下:通過垂直分割,獲得字符的左右邊界值,得到分割出的字符的寬度,計算所有字 符的寬度的總和,求得字符寬度的平均值chw_a,計算字符寬度小于字符的寬度的 總和,求得該范圍內(nèi)字符寬度的平均值即得到寬度chw。
      【文檔編號】G06K9/00GK105868728SQ201610223574
      【公開日】2016年8月17日
      【申請日】2016年4月12日
      【發(fā)明人】楊麗芳, 宋格格, 黃祥林, 陶竹林, 劉守訓
      【申請人】中國傳媒大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1