国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      檢測文本行圖像中的斷字位置的制作方法

      文檔序號:6360136閱讀:234來源:國知局
      專利名稱:檢測文本行圖像中的斷字位置的制作方法
      檢測文本行圖像中的斷字位置
      背景技術(shù)
      光學(xué)字符識別(OCR)是一種基于計算機(jī)來將文本圖像轉(zhuǎn)換成數(shù)字形式的處理,該數(shù)字形式是通常采用標(biāo)準(zhǔn)編碼方案的機(jī)器可編輯文本。這種處理消除了將文檔手動鍵入計算機(jī)系統(tǒng)的需要。由于圖像質(zhì)量低劣以及掃描處理引入的瑕疵等等,有可能出現(xiàn)很多不同的問題。例如,常規(guī)的OCR引擎可以與掃描文本頁面的平面掃描儀耦合。由于該頁面是對著掃描儀的掃描表面齊平放置的,因此,掃描儀產(chǎn)生的圖像通常會呈現(xiàn)均勻的對比度和光照度、減小的傾斜和失真以及很高的分辨率。由此,OCR引擎能夠很容易將圖像中的文本轉(zhuǎn)換成機(jī)器可編輯文本。然而,當(dāng)圖像在對比度、光照度、傾斜等方面的質(zhì)量低劣時,OCR引擎的性能有可能降低,并且,由于要對圖像中的所有像素進(jìn)行處理,因此,處理時間有可能增力口。舉例來說,此類情形有可能在從書籍中獲取圖像或者用基于圖像的掃描儀產(chǎn)生圖像的 時候出現(xiàn),其中的原因在于在這些情況下,文本/圖片是在光照度改變的情況下從某個距離以及變化的方位掃描的。在掃描質(zhì)量相對較差的文本頁面的時候,即便掃描處理性能良好,OCR引擎性能也有可能降低。本背景技術(shù)部分是為了介紹關(guān)于后續(xù)發(fā)明內(nèi)容和具體實施方式
      部分的簡要背景而被提供的。本背景技術(shù)部分既不打算用于幫助確定所要求保護(hù)的主題的范圍,也不應(yīng)被視為是將所要求保護(hù)的主題局限于解決上文所給的任一或所有缺陷或問題的實施方式。

      發(fā)明內(nèi)容
      通過從輸入中提取特征以便定位中斷(break),以及隨后將這些中斷歸類到包括單詞間中斷和字符間中斷在內(nèi)的兩種中斷分類之一,來執(zhí)行OCR處理中的行分割,從而檢測出單詞在輸入文本行圖像中的位置。然后,包含了檢測到的單詞邊界框的輸出以及給定中斷屬于所識別分類的概率可被提供給下游的OCR或其他組件,以便進(jìn)行后期處理。非常有利的是,通過將行分割處理縮減成特征提取,可以在不喪失一般性的情況下降低行分割任務(wù)的復(fù)雜度,其中所述特征包括每個中斷的位置,中斷特征數(shù)量以及中斷分類。在說明性示例中,實現(xiàn)特征化(f eaturi zat ion )組件和中斷分類器的行分割引擎是被配置在一種無單詞識別能力的架構(gòu)中的。在該架構(gòu)中,行分割引擎被置于預(yù)處理級(例如,所述預(yù)處理級從掃描文檔中產(chǎn)生輸入的灰度級文本行圖像)與獨立的單詞識別器之間,其中單詞識別器通常不考慮校正分類器產(chǎn)生的任何單詞間中斷差錯。在一個替換架構(gòu)中,行分割引擎和單詞識別器是整合部署的。在后一個架構(gòu)中會從對于給定文本行檢測到的中斷中產(chǎn)生一個斷字(word break)網(wǎng)格(lattice)。該網(wǎng)格中的每個單詞都被單詞識別器檢測,并且可以提取出單詞識別特征,例如單詞置信度、字符置信度、單詞頻率、語法及單詞長度。然后,斷字定向搜索(beam search)引擎使用所提取的單詞和中斷特征,以便通過在決策過程中使用比獨立架構(gòu)更多的信息來選擇更優(yōu)的行分割。從文本行圖像中可以提取不同的特征組合,以便用于特征化處理,這其中包括絕對特征,相對行特征,相對中斷特征,相對筆墨特征,相對筆墨-筆墨特征,相對中斷鄰近度特征,以及單詞識別特征。多種中斷分類器都是可以使用的,這其中包括判定樹分類器,AdaBoost分類器,群集分離器,神經(jīng)網(wǎng)絡(luò)分類器,以及迭代梯度下降分類器。本發(fā)明內(nèi)容是為了以簡化形式介紹精選概念而被提供的,在以下的具體實施方式
      部分中將會進(jìn)一步描述這些概念。本發(fā)明內(nèi)容的目的既不是確定所要求保護(hù)主題的關(guān)鍵特征或基本特征,也不是用來幫助確定所要求保護(hù)的主題的范圍。


      圖I顯示了說明性的行分割引擎的簡化功能框圖;
      圖2顯示了具有“筆墨”投影的說明性中斷分類示例;
      圖3顯示了可以在當(dāng)前的行分割處理的特征化階段中使用的特征的說明性分類;
      圖4顯示了說明性的絕對特征集合;
      圖5顯示了所有中斷寬度的說明性分布;
      圖6顯示了基線、平均線以及用于例示單詞的X高度的圖形表示;
      圖7顯示了筆墨-筆墨特征集合的說明性示例;
      圖8顯示了說明性的筆墨-筆墨寬度分布;
      圖9顯示了說明性的相對行特征集合;
      圖10顯示了說明性的相對中斷特征集合;
      圖11顯示了說明性的相對筆墨特征集合;
      圖12顯示了說明性的相對筆墨-筆墨特征集合;
      圖13顯示了說明性的相對中斷鄰近度特征集合;
      圖14顯示了說明性的單詞識別特征集合;
      圖15顯示了說明性的分類器集合,其中一個或多個分類器可以與圖3所示特征的一個或多個子集一起使用;
      圖16顯示了例如如OCR系統(tǒng)中那樣由行分割引擎向外部的單詞識別器提供輸出的第一說明性架構(gòu);
      圖17顯示了整合部署了行分割引擎和單詞識別器的第二說明性架構(gòu);以及圖18是個人計算機(jī)(PC)或服務(wù)器之類的可以實現(xiàn)當(dāng)前的行分割處理的說明性計算機(jī)系統(tǒng)的簡化框圖。在附圖中,相同的參考數(shù)字指示相同的元件。
      具體實施例方式圖I顯示了一個說明性的高級行分割架構(gòu)100,其中該圖高亮顯示了這里的行分割技術(shù)的特征。在說明性示例中,行分割技術(shù)可以用架構(gòu)100中的方框110所代表的引擎來實現(xiàn),其中所述架構(gòu)包括特征化組件120以及分類器130,并且通常來說,這些組件分別實現(xiàn)了特征化和分類算法。如所示,文檔行分割引擎110的輸入是經(jīng)過預(yù)處理的單個文本行的灰度級圖像140。所述輸入圖像經(jīng)過了必要程度的預(yù)處理,以便消除或移除背景顏色變化并用白色將其替換。前景色也被稱為“筆墨”,它會被轉(zhuǎn)換成灰度級。行分割引擎的輸出是檢測到的一個或多個單詞150的集合,這其中包含了通常用邊界框160表示的單詞位置(也就是說,每個個別的單詞都具有一個邊界框)以及用于每一個輸出邊界框的相關(guān)聯(lián)的置信度因子170。
      與必須為給定文本行圖像中的每個單詞直接檢測單詞邊界框的坐標(biāo)不同,這里的行分割技術(shù)的功能是將每個中斷歸入兩個中斷分類之一。在文本行圖像中的某個位置,如果在該位置可以在沒有遇到(即“接觸筆墨”的情況下繪制一條從該行的頂?shù)降椎闹本€,則表明在該位置存在一個中斷。一種用于說明中斷含義的替換方式是垂直投影所述筆墨。在這種情況下,筆墨投影為空(也就是沒有投影筆墨)的位置將會存在中斷。在圖2中圖示了這種替換說明。頂部的行包括例示的文本行圖像210。中間的行顯示了筆墨投影220,底部的行則顯示了筆墨投影為空的中斷230。正如在圖2中能觀察到的,只有兩個中斷分類,即單詞間中斷(用參考數(shù)字240來代表)和字符間中斷(用參考數(shù)字250來代表)。非常有利的是,通過提取包括每個中斷的位置和中斷特征數(shù)量在內(nèi)的文本行圖像特征,可以降低行分割問題的復(fù)雜度。此外,經(jīng)驗顯示,使用這里的行分割處理不會導(dǎo)致喪志一般性。相應(yīng)地,圖I的行分割引擎110是在特征化和分類這兩個階段中實現(xiàn)中斷分類 的,并且將會返回每個中斷的目標(biāo)分類以及給定中斷屬于該目標(biāo)分類的概率。舉例來說,該技術(shù)可以應(yīng)用于拉丁語、西里爾字母、希臘語以及東亞手寫體。應(yīng)該指出的是,并不是所有字符間中斷250都必須存在,以便使用這里的技術(shù)來實現(xiàn)令人滿意的行分割,而是只有相對較高的百分比(例如試驗確定的99. 5%)的單詞間中斷240。在被稱為“軟斷字”的后期處理步驟中可以解決這種行分割處理產(chǎn)生的不精確度,例如假陽性單詞間誤分類,其中所述步驟是作為單詞識別器組件的一部分實現(xiàn)的。以下將轉(zhuǎn)而討論本技術(shù)的特征化和分類階段。特征化——特征化可被定義成是從輸入的文本行圖像中提取數(shù)值特征的處理。在使用該定義的情況下,特征化處理是公知并且是可以直接考慮的。然而,正如在圖3-5以及8-14中列舉的,有可以很有利地與這里的行分割處理一起使用的特定特征。更具體地說,圖3顯示了可以在特征化階段使用的特征分類300。需要強(qiáng)調(diào)的是,在任何給定使用情景中使用的特定特征都是可以改變的。此外,并不是所顯示和描述的所有特征都必須在每種情形中被使用。取而代之的是,使用這些特征的子集可以更優(yōu)地適應(yīng)于這里的行分割處理的特定實施方式的需要。如圖3所示,特征化組件120可以使用落入不同特征類別的多種特征。這些特征 包括絕對特征(用參考數(shù)字SOO1表示)、相對行特征3002、相對中斷特征3003、相對筆墨特征3004、相對筆墨-筆墨特征3005、相對中斷鄰近度特征3006以及單詞識別特征300n。在圖4中顯示了一個說明性的絕對特征集合400。該集合400包括用像素量度的給定文本行圖像中的每個中斷的中斷寬度(如參考數(shù)字400:所示)。此外,以像素為單位的所有中斷寬度的分布3002也是可以使用的。如圖5所示,所有中斷寬度的給定分布4002可以包括該分布的第90百分位(the 90th percentile) SOO1、該分布的第50百分位5002、該分布的第10百分位5003以及文本行圖像中的中斷數(shù)量500n?;氐綀D4,絕對特征集合400還包括被定義成是基線與平均線之間差值的X高度4003,其中基線是文本行圖像中的大部分字符“坐落”于其上的線,平均線則“懸掛了 ”大多數(shù)字符的線。在圖6中使用了分別由參考數(shù)字610、620和630指示的藍(lán)線、綠線和紅線來示出以上定義的平均線、X高度及基線。絕對特征集合400還包括用像素量度的筆劃寬度4004,以像素為單位的文本行圖像高度4005、以像素為單位的文本行圖像寬度4006、總的中斷寬度4007 (它是以像素為單位的所有中斷的總和)、以像素為單位的筆墨寬度4008、以像素為單位的筆墨高度4009、以像素為單位的筆墨-筆墨寬度的分布4001(|以及筆墨-筆墨面積400n。對于筆墨-筆墨特征(4001(|和400N)來說,在這里將對圖7加以關(guān)注,在該圖中用放大視圖呈現(xiàn)了來自圖2的文本行圖像的第一個單詞(用參考數(shù)字700指示)。該示例考慮了第一和第三個中斷(這兩者都是字符間中斷,但是同樣的說明適用于任何單詞間中斷)。第一和第三個中斷是用紅色顯示的(為了獲得更好的可見性,其被顯示成兩個紅色陰影并且分別用參考數(shù)字710和720指示),作為跨越任何給定中斷而將兩個筆墨相連的水平線,所述中斷是有效的筆墨-筆墨線,但僅僅對于所論述的兩個筆墨的共有水平像素而言。由此,舉例來說,由于右上角的墨水像素沒有左側(cè)對應(yīng)部分,因此,第三個中斷中的紫線730是無效的筆墨-筆墨線,這樣一來,紫線730將會跨越綠線740 (中斷邊界)。此外,為了保持有效,筆墨-筆墨線不能跨越其他中斷。由此,舉例來說,第三個中斷中的藍(lán)線750將會跨越綠色中斷邊界線。所以,雖然同時存在左側(cè)和右側(cè)的像素對應(yīng)部分,但是藍(lán)線750不是有效的筆墨-筆墨線。 一旦定義了筆墨-筆墨線,則可以為每個中斷建立一個筆墨-筆墨線寬度的分布??梢杂^察到的是,筆墨-筆墨線寬度的第0百分位(最小值)通常大于或等于實際中斷。在圖7中用第一個中斷710對此進(jìn)行了展示。相應(yīng)地,如圖8所示,在絕對特征SOO1中,筆墨-筆墨寬度分布4001(|可以包括作為最大值的分布的第100百分位(用參考數(shù)字SOO1指示),分布的第90百分位8002,作為中間值的分布的第50百分位8003,分布的第10百分位8004,以及作為最小值的分布的第0百分位800n。如圖9所示,舉例來說,相對行特征3002可以包括處于輸入的文本行圖像中的估計字符數(shù)量900115該數(shù)量是文本行圖像中的字符數(shù)量的近似值,其中所述數(shù)量是作為(文本行圖像寬度-總的中斷寬度)/x高度來計算的。相對行特征3002還可以包括依據(jù)估計數(shù)量的字符的中斷數(shù)量9002。它是作為給定文本行圖像中的中斷數(shù)量/估計字符數(shù)量來計算的。相對行特征3002還可以包括依據(jù)行寬度的所有中斷寬度9003。它是作為總的中斷寬度/文本行圖像寬度來計算的。依據(jù)X高度的中值中斷寬度900n同樣可以包含在相對行特征3002中。它是作為中斷分布的第50百分位/x高度來計算的。如圖10所示,舉例來說,相對中斷特征3003可以包括依據(jù)X高度的中斷寬度IOOO10它是作為中斷寬度/x高度來計算的。相對中斷特征3003還可以包括依據(jù)中斷分布的第90百分位的中斷寬度10002。它是作為中斷寬度/中斷分布的第90百分位來計算的。相對中斷特征3003還可以包括依據(jù)中斷分布的第50百分位的中斷寬度10003。它是作為中斷寬度/中斷分布的第50百分位來計算的。更進(jìn)一步,相對中斷特征3003還可以包括依據(jù)中斷分布的第10百分位的中斷寬度10004。它是作為中斷寬度/中斷分布的第10百分位來計算的。相對中斷特征3003還可以包括依據(jù)在先中斷寬度的中斷寬度IOOO5,其中-I用于給定文本行圖像中的第一個中斷。此外,相對中斷特征3003還可以包括依據(jù)下一個中斷寬度的中斷寬度IOOOn,其中-I用于給定文本行圖像中的最后一個中斷。如圖11所示,舉例來說,相對筆墨特征3004可以包括依據(jù)X高度的筆墨底部到基線的距離IlOOltj它是作為從筆墨底部到基線的距離/x高度來計算的。相對筆墨特征3004還可以包括依據(jù)X高度的筆墨頂部到X高度的距離1100N。它是作為從筆墨頂部到X高度的距離/x高度來計算的。如圖12所示,舉例來說,相對筆墨-筆墨特征3005可以包括依據(jù)X高度的筆墨-筆墨寬度分布的第100百分位1200:,依據(jù)X高度的筆墨-筆墨寬度分布的第90百分位12002,依據(jù)X高度的筆墨-筆墨寬度分布的第60百分位12003,依據(jù)X高度的筆墨-筆墨寬度分布的第10百分位12004,依據(jù)X高度的筆墨-筆墨寬度分布的第0百分位12005,依據(jù)中值中斷寬度的筆墨-筆墨寬度分布的第100百分位12006,依據(jù)中值中斷寬度的筆墨-筆墨寬度分布的第90百分位12007,依據(jù)中值中斷寬度的筆墨-筆墨寬度分布的第60百分位12008,依據(jù)中值中斷寬度的筆墨-筆墨寬度分布的第10百分位12009,依據(jù)中值中斷寬度的筆墨-筆墨寬度分布的第0百分位12001(|,以及依據(jù)有效的筆墨-筆墨高度的筆墨-筆墨面積1200n。 如圖13所示,舉例來說,相對中斷鄰近度特征3006可以包括依據(jù)X高度的周圍(前一個和后一個)中斷寬度ISOO1,以及依據(jù)中值中斷寬度的周圍(前一個和后一個)中斷寬度1300n。如圖14所示,舉例來說,單詞識別特征300N可以包括單詞置信度MOO1,單詞中的每個字符的字符置信度14002,所使用的特定語言模型報告的單詞頻率14003,先進(jìn)語言模型特征14004 (例如語法,其指示給定單詞集合是否依照某些語法規(guī)則,如果在不是很準(zhǔn)確的情況下的概率)以及以字符為單位的單詞長度1400n。分類——在分類階段,圖15所示的一個或多個分類器可以與以上描述的一個或多個特征結(jié)合使用。舉例來說,這些分類器包括判定樹分類器Isoo1,通常在判定樹分類器的頂部實現(xiàn)的AdaBoost分類器15002,諸如FCM (模糊C均值)或K均值之類的群集分類器15003,神經(jīng)網(wǎng)絡(luò)分類器15004,以及迭代梯度下降分類器1500n。在一些使用情景中,可以對分類器進(jìn)行訓(xùn)練,以便對假陽性設(shè)置障礙,由此有利于假陰性的單詞間中斷分類。此外還應(yīng)該指出的是,所列舉的所有分類器都具有用于提供與屬于兩個中斷分類之一的中斷標(biāo)識相關(guān)聯(lián)的置信度的能力。分類器1500還可以使用來自處于OCR系統(tǒng)管道中的上游和下游的引擎的結(jié)果來訓(xùn)練,以便改善端到端的精確度。可替換地,分類器1500可以用獨立的范圍實施方式來訓(xùn)練。在這種情況下,OCR系統(tǒng)中的引擎是用相同的標(biāo)記數(shù)據(jù)訓(xùn)練的。這種技術(shù)通常預(yù)計為處于OCR系統(tǒng)之外的應(yīng)用提供最優(yōu)的通用精度,例如手跡(handwriting)的行分割處理。前四個分類器150(V4可以采用常規(guī)方式來實現(xiàn),并且在這里不需要對其進(jìn)行進(jìn)一步論述。然而,在下文中將會證明和呈現(xiàn)迭代梯度下降分類器1500n的更進(jìn)一步的描述。假設(shè)是要分
      類成單詞間中斷(BW)或字符間中斷(BC)的中斷集合。該集合是有序的,這意味著具有較高索引的中斷將會出現(xiàn)在索引較低的中斷之后。這個觀察允許將中斷集合看作是一個序列。現(xiàn)在,獨立分類每一個中斷的問題變換成了找出最有可能的中斷序列的問題。這種處理可以使用眾所周知的隱式馬爾科夫模型(HMM)技術(shù)來完成。為了使用HMM技術(shù),在這里定義了狀態(tài)和轉(zhuǎn)移概率。如果是中斷特征集合,那么這些概率可被定義成
      權(quán)利要求
      1.一種用于對來自文本行圖像的單詞進(jìn)行分割的方法,所述方法包括以下步驟 使用特征化組件來從文本行圖像中提取特征; 使用所提取的特征來計算中斷; 使用中斷分類器來將每一個中斷歸入分類,所述分類包括單詞間中斷分類以及字符間中斷分類,以及確定被分類的中斷是所述分類的成員的概率;以及 使用所述中斷和概率來分割來自文本行圖像的單詞。
      2.權(quán)利要求I的方法,其中所提取的特征是從絕對特征,相對行特征,相對中斷特征,相對筆墨特征,相對筆墨-筆墨特征,相對中斷鄰近度特征或單詞識別特征中選擇的。
      3.權(quán)利要求2的方法,其中絕對特征是從以下的一項或多項中選擇的以像素為單位的中斷寬度,以像素為單位的所有中斷寬度的分布,以像素為單位的X高度,以像素為單位的筆劃寬度,以像素為單位的文本行圖像高度,以像素為單位的為本行圖像寬度,以像素為單位的總的中斷寬度,以像素為單位的筆墨寬度,以像素為單位的筆墨高度,以像素為單位的筆墨-筆墨寬度的分布,或筆墨-筆墨面積。
      4.權(quán)利要求3的方法,其中所有中斷寬度的分布包括下列各項中的至少一項該分布的第90百分位,該分布的第50百分位,該分布的第10百分位,或者文本行圖像中的中斷數(shù)量。
      5.權(quán)利要求3的方法,其中筆墨-筆墨寬度分布包括下列各項中的至少一項該分布的第100百分位,該分布的第90百分位,該分布的第50百分位,該分布的第10百分位,或者該分布的第O百分位。
      6.權(quán)利要求2的方法,其中相對行特征是從以下的一項或多項中選擇的估計字符數(shù)量,依據(jù)估計字符數(shù)量的中斷數(shù)量,依據(jù)行寬度的所有中斷寬度,或者依據(jù)X高度的中值中斷寬度。
      7.權(quán)利要求2的方法,其中相對中斷特征是從以下的一項或多項中選擇的依據(jù)X高度的中斷寬度,依據(jù)中斷分布的第90百分位的中斷寬度,依據(jù)中斷分布的第50百分位的中斷寬度,依據(jù)中斷分布的第10百分位的中斷寬度,依據(jù)前一個中斷寬度的中斷寬度,或者依據(jù)下一個中斷寬度的中斷寬度。
      8.權(quán)利要求2的方法,其中相對筆墨特征是從以下的一項或多項中選擇的依據(jù)X高度的從筆墨底部到基線的距離,以及依據(jù)X高度的從筆墨頂部到X高度的距離。
      9.權(quán)利要求2的方法,其中相對筆墨-筆墨特征是從以下的一項或多項中選擇的依據(jù)X高度的筆墨-筆墨寬度分布的第100百分位,依據(jù)X高度的筆墨-筆墨寬度分布的第90百分位,依據(jù)X高度的筆墨-筆墨寬度分布的第60百分位,依據(jù)X高度的筆墨-筆墨寬度分布的第10百分位,依據(jù)X高度的筆墨-筆墨寬度分布的第O百分位,依據(jù)中值中斷寬度的筆墨-筆墨寬度分布的第100百分位,依據(jù)中值中斷寬度的筆墨-筆墨寬度分布的第90百分位,依據(jù)中值中斷寬度的筆墨-筆墨寬度分布的第60百分位,依據(jù)中值中斷寬度的筆墨-筆墨寬度分布的第10百分位,依據(jù)中值中斷寬度的筆墨-筆墨寬度分布的第O百分位或者依據(jù)有效筆墨-筆墨高度的筆墨-筆墨面積。
      10.權(quán)利要求2的方法,其中相對中斷鄰近度特征是從以下的一項或多項中選擇的依據(jù)X高度的周圍中斷寬度或依據(jù)中值中斷寬度的周圍中斷寬度。
      11.權(quán)利要求2的方法,其中單詞識別特征是從以下的一項或多項中選擇的單詞置信度,單詞中的每個字符的字符置信度,語言模型報告的單詞頻率,先進(jìn)語言模型特征,或者以字符為單位的單詞長度。
      12.權(quán)利要求I的方法,其中中斷分類器是從以下各項之一選擇的判定樹分類器,被配置成處于判定樹分類器頂部的AdaBoost分類器,群集分類器,神經(jīng)網(wǎng)絡(luò)分類器,或者迭代梯度下降分類器。
      13.權(quán)利要求I的方法,其中中斷分類器是用引擎提供的結(jié)果訓(xùn)練的,所述引擎位于特征化組件和中斷分類器的上游或下游。
      14.權(quán)利要求I的方法,其中中斷分類器是用獨立范圍實施方式訓(xùn)練的。
      15.權(quán)利要求I的方法,還包括以下步驟從文本行圖像的單詞中提取單詞特征,所述單詞特征包括下列各項中的至少一項單詞置信度,字符置信度,單詞頻率,語法或單詞長度,以及使用所提取的數(shù)值特征和所提取的單詞特征來選擇行分割處理。
      全文摘要
      通過從輸入中提取特征以便定位中斷,以及隨后將這些中斷歸類到包括單詞間中斷和字符間中斷的兩種中斷分類之一,執(zhí)行OCR處理中的行分割,從而檢測出單詞在輸入文本行圖像中的位置。然后,包含檢測到的單詞邊界框的以及給定中斷屬于所識別分類的概率的輸出可被提供給下游的OCR或其他組件,以便進(jìn)行后期處理。非常有利的是,通過將行分割處理縮減成特征提取處理,可以在不喪失一般性的情況下降低行分割任務(wù)的復(fù)雜度,其中所述特征包括每個中斷的位置,中斷特征數(shù)量以及中斷分類。
      文檔編號G06K9/18GK102822846SQ201180017926
      公開日2012年12月12日 申請日期2011年3月24日 優(yōu)先權(quán)日2010年3月30日
      發(fā)明者A.烏澤拉奇, B.德雷塞維奇, S.加利奇, B.拉達(dá)科維奇 申請人:微軟公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1