專利名稱:一種文字輸入方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于電數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種文字輸入方法。
背景技術(shù):
當(dāng)前,計(jì)算機(jī)輸入法主要有五筆輸入法、拼音輸入法、手寫輸入法等類型。當(dāng)我 們進(jìn)行資料收集的時(shí)候,經(jīng)常需要將大量紙質(zhì)文檔中的文字錄入到計(jì)算機(jī)中,如果通過 上述的幾種輸入法進(jìn)行錄入,費(fèi)時(shí)又費(fèi)力。借助光學(xué)字符識(shí)別(OCR,Optical Character Recognition)技術(shù),將需要的文字拍攝為圖像,然后對(duì)圖像進(jìn)行識(shí)別,即可實(shí)現(xiàn)快速錄入。但是,現(xiàn)有技術(shù)存在圖像處理速度、掃描筆的掃描速度、錄入速度較慢的缺陷。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于針對(duì)現(xiàn)有技術(shù)存在的缺陷,提供一種改進(jìn)的計(jì)算 機(jī)掃描輸入方法,實(shí)現(xiàn)文檔資料的快速錄入。為解決上述技術(shù)問題,本發(fā)明提供一種文字輸入方法,該文字輸入方法包括以下 步驟SlOl 通過圖像采集器獲取被掃描介質(zhì)上文字的二維圖像;S102:將獲取的所述二維圖像通過USB接口實(shí)時(shí)傳輸給數(shù)據(jù)處理單元進(jìn)行后續(xù)處 理;S103 對(duì)所述二維圖像進(jìn)行二值化處理,獲得二值圖像;S104:基于圖像配準(zhǔn)對(duì)所述二值圖像進(jìn)行實(shí)時(shí)拼接,獲得被掃描介質(zhì)上文字的全
景二值圖像;S105 對(duì)全景二值圖像進(jìn)行校正;S106 由所述校正后的全景二值圖像中提取待識(shí)別文字行;S107 對(duì)所述待識(shí)別文字行進(jìn)行OCR識(shí)別并顯示。優(yōu)選地,所述步驟S103中,通過自適應(yīng)閾值二值化處理方法對(duì)所述二維圖像進(jìn)行
二值化處理。優(yōu)選地,所述步驟S104中的圖像配準(zhǔn)是通過匹配所述二值圖像中相鄰圖像幀間 的重疊區(qū)域計(jì)算前后相鄰兩幀圖像之間的位移關(guān)系實(shí)現(xiàn)。優(yōu)選地,所述步驟S105之前還包括判斷全景二值圖像是否存在黑底白字圖像, 如果是,則識(shí)別所述黑底白字圖像并進(jìn)行反色;否則,直接執(zhí)行步驟S105。優(yōu)選地,所述步驟S105中,通過分段游程抹黑處理方法將所述全景二值圖像中的 文字行校正為水平狀態(tài)。所述通過分段游程抹黑處理方法將所述全景二值圖像中的文字行校正為水平狀 態(tài)包括通過連通域標(biāo)記合并獲取所述全景二值圖像中的文字行;從所述文字行中選出一行作為校正基準(zhǔn)文字行;
通過分段游程抹黑方法得到抹黑基準(zhǔn)文字行;通過對(duì)所述抹黑基準(zhǔn)文字行進(jìn)行采樣計(jì)算出文字行的彎曲曲線;根據(jù)所述彎曲曲線將所述全景二值圖像校正為水平狀態(tài)。優(yōu)選地,所述步驟S106中,通過水平投影獲取所述校正后的全景二值圖像中的多 個(gè)完整文字行,并根據(jù)所述多個(gè)完整文字行各自的位置信息識(shí)別并提取出待識(shí)別文字行。優(yōu)選地,所述步驟SlOl具體為通過掃描筆獲取被掃描介質(zhì)上文字的二維圖像。本發(fā)明還提供一種文字輸入系統(tǒng),該文字輸入系統(tǒng)包括圖像采集器,采集待輸入文字的二維圖像;USB傳輸器,將所述二維圖像傳送給圖像處理器;圖像處理器,對(duì)來自所述USB傳輸器的二維圖像先后進(jìn)行二值化處理、實(shí)時(shí)拼接、 校正以及提取待識(shí)別文字行;OCR識(shí)別器,對(duì)所述待識(shí)別文字行進(jìn)行OCR識(shí)別并顯示;控制器,控制所述圖像采集器、USB傳輸器、圖像處理器及OCR識(shí)別器執(zhí)行各自的 操作。優(yōu)選地,所述圖像采集器為掃描筆。與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的優(yōu)勢(shì)在于通過將圖像采集器獲取的文字的 二維圖像實(shí)時(shí)傳輸?shù)綀D像處理單元中,由圖像處理單元進(jìn)行二值化、配準(zhǔn)、拼接、校正和識(shí) 別等處理,而且其中的圖像配準(zhǔn)是基于二值圖像進(jìn)行的,這樣,提高了圖像處理速度、掃描 筆的掃描速度、錄入速度。
圖1是根據(jù)本發(fā)明的文字輸入方法的流程圖;圖2是根據(jù)本發(fā)明的文字輸入方法的實(shí)施例中通過掃描筆獲得的二維圖像;圖3是對(duì)圖2中二維圖像進(jìn)行二值化處理后獲得的二值圖像;圖4是對(duì)圖3中的二值圖像進(jìn)行實(shí)時(shí)拼接后獲得的全景二值圖像;圖5是由圖4中全景二值圖像進(jìn)行校正后的結(jié)果;圖6是由圖5中校正后的全景二值圖像中提取的待識(shí)別文字行;圖7是根據(jù)本發(fā)明的文字輸入系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式本發(fā)明提出的文字輸入方法,結(jié)合附圖和實(shí)施例說明如下。本發(fā)明提供的文字輸入方法包含以下步驟圖像采集利用圖像采集器采集圖像;具體地,所述圖像采集器可以為掃描筆,即 利用掃描筆的光感應(yīng)傳感器獲取被掃描文字的二維圖像。掃描筆具有一個(gè)帶有光學(xué)鏡頭的 光感應(yīng)傳感器,比如CCD傳感器,它能記錄灰度或彩色二維圖像。通過掃描筆,可以獲取被 掃描介質(zhì)上文字的連續(xù)圖像序列,而且相鄰圖像幀間具有一定的重疊。圖像傳輸將圖像采集步驟獲取的二維圖像通過USB接口實(shí)時(shí)傳輸?shù)綌?shù)據(jù)處理單 元中。本實(shí)施例的數(shù)據(jù)處理單元為計(jì)算機(jī)。具體地,圖像采集器和計(jì)算機(jī)之間通過USB接 口連接,使得獲取的二維圖像通過USB接口實(shí)時(shí)傳輸?shù)接?jì)算機(jī)內(nèi)。
圖像處理在計(jì)算機(jī)內(nèi),先進(jìn)行圖像二值化,然后利用相鄰圖像幀間的重疊區(qū)域進(jìn) 行圖像拼接,拼接完成后得到被掃描文字的全景二值圖像,對(duì)全景二值圖像進(jìn)行校正,從校 正后的全景二值圖像中提取待識(shí)別的文字行。具體地,在計(jì)算機(jī)內(nèi)對(duì)接收到的掃描圖像進(jìn)行實(shí)時(shí)處理首先,對(duì)圖像進(jìn)行自適應(yīng) 閾值二值化處理,得到二維圖像的二值圖像;然后對(duì)二值圖像進(jìn)行拼接,二值圖像拼接的核 心是進(jìn)行圖像配準(zhǔn),即通過匹配重疊區(qū)域計(jì)算后一幀圖像相對(duì)于前一幀圖像的位移,針對(duì) 二值圖像,可用0表示背景像素值,用1表示前景像素值,本發(fā)明提出了一個(gè)度量二值圖像 相似性的指標(biāo)一配準(zhǔn)系數(shù),即重疊區(qū)域中所有像素求“與”運(yùn)算后的加和值與重疊區(qū)域中 所有像素求“或”運(yùn)算后的加和值的比值。配準(zhǔn)系數(shù)的分子部分,是圖像相關(guān)函數(shù)的形式,可 以采用FFT進(jìn)行加速計(jì)算,配準(zhǔn)系數(shù)的分母部分,可以采用積分圖進(jìn)行加速計(jì)算,以此指標(biāo) 為基礎(chǔ)進(jìn)行圖像配準(zhǔn),得到配準(zhǔn)位置后,就可以實(shí)現(xiàn)圖像拼接。當(dāng)一次掃描結(jié)束后,圖像拼 接也結(jié)束,得到掃描文字的全景二值圖像。全景二值圖像可能是白底黑字,也可能是黑底白 字,對(duì)于黑底白字的情況,需要進(jìn)行反色處理;全景二值圖像中的文字行一般不是水平的, 存在彎曲變形,需要將其校正成水平狀態(tài);校正后的全景二值圖像中除待識(shí)別文字行外,可 能還包含一些無效文字行,因此需要將待識(shí)別文字行提取出來,待識(shí)別文字行一般位于多 行文字的靠近中間的位置,可以據(jù)此進(jìn)行提取。文字識(shí)別將待識(shí)別文字行送入OCR模塊進(jìn)行識(shí)別。具體地,在計(jì)算機(jī)內(nèi),對(duì)待識(shí)別文字行進(jìn)行OCR識(shí)別。下面將列舉一個(gè)具體實(shí)施例對(duì)本發(fā)明的文字輸入方法進(jìn)行進(jìn)一步詳細(xì)說明,如圖 1所示。首先將掃描筆通過USB接口與計(jì)算機(jī)相連,并啟動(dòng)計(jì)算中的掃描處理軟件,然后 執(zhí)行以下步驟SlOl 通過掃描筆獲取被掃描介質(zhì)上文字的二維圖像。具體地,使掃描筆貼在被掃描介質(zhì)上,盡量讓待識(shí)別文字行位于掃描筆采集窗口 的中央,然后按照一定方向拖動(dòng)掃描筆進(jìn)行圖像采集,掃描筆按照一定的頻率獲取圖像。在 本實(shí)施例中,頻率為120幀/秒,即每秒內(nèi)獲取120幀圖像;如圖2所示為本實(shí)施例通過掃 描筆獲得的二維圖像。S102 將獲取的所述二維圖像通過USB接口實(shí)時(shí)傳輸?shù)接?jì)算機(jī)中;掃描筆獲取的 二維圖像經(jīng)由USB接口實(shí)時(shí)傳輸?shù)接?jì)算機(jī)中;計(jì)算機(jī)可以為筆記本、個(gè)人臺(tái)式機(jī),也可以為 服務(wù)器。S103 對(duì)所述二維圖像進(jìn)行二值化處理,獲得二值圖像;在本實(shí)施例中,采用OTSU 自適應(yīng)閾值二值化算法對(duì)圖像進(jìn)行二值化。如圖3所示為對(duì)圖2中二維圖像進(jìn)行二值化處 理后獲得的二值圖像。S104:基于圖像配準(zhǔn)對(duì)所述二值圖像進(jìn)行實(shí)時(shí)拼接,獲得被掃描介質(zhì)上文字的全 景二值圖像;所述圖像配準(zhǔn)是通過匹配重疊區(qū)域計(jì)算前后相鄰兩幀圖像的相對(duì)位移關(guān)系實(shí) 現(xiàn)。具體地,由于二值圖像可用0表示背景像素值,用1表示前景像素值,將重疊區(qū)域 中所有像素求“與”運(yùn)算后的加和值與重疊區(qū)域中所有像素求“或”運(yùn)算后的加和值的比值 作為重疊區(qū)域相似性的度量指標(biāo),并根據(jù)此度量逐像素搜索以得到最佳配準(zhǔn)位置;獲得最佳配準(zhǔn)位置后,只需將相鄰圖像幀中的前一幀圖像中的非重疊區(qū)域記錄下來;從第一幀圖 像開始,將相鄰兩幀圖像中的前一幀圖像中的非重疊部分拼接到全景二值圖像中去,這樣 依次進(jìn)行,直到最后一幀圖像;在最后一幀圖像處,由于其后已經(jīng)沒有后續(xù)圖像,故將其全 部拼接到全景二值圖像中去。拼接完成后,得到被掃描文字的全景二值圖像;如圖4所示為 對(duì)圖3中的二值圖像進(jìn)行實(shí)時(shí)拼接后獲得的全景二值圖像。S105 對(duì)全景二值圖像進(jìn)行校正。由于全景二值圖像可能是白底黑字,也可能是黑底白字,在進(jìn)行全景二值圖像校 正之前,要將黑底白字圖像進(jìn)行反色處理,為此,需要判斷全景二值圖像是否需要進(jìn)行反 色,全景二值圖像通常為矩形圖像,而被掃描文字區(qū)域一般不是嚴(yán)格的矩形,因此全景二值 圖像一般比被掃描文字區(qū)域大,大出的部分一般填充為白色,僅需要利用被掃描文字區(qū)域 對(duì)圖像進(jìn)行判斷;判斷方法包括在被掃描文字區(qū)域中的每一行圖像像素中,以每N個(gè)連續(xù) 像素點(diǎn)為一組進(jìn)行連續(xù)分組,然后計(jì)算所有分組內(nèi)像素點(diǎn)全部為黑像素的組數(shù)B及像素點(diǎn) 全部為白像素的組數(shù)W,如果W > B,則判斷圖像為白底黑字,否則判斷圖像為黑底白字;對(duì) 于已被識(shí)別為黑底白字的全景二值圖像,將其中的被掃描文字區(qū)域進(jìn)行反色處理;經(jīng)判斷, 圖4中所示全景圖像為白底黑字,不需要進(jìn)行反色處理。全景二值圖像中的文字行一般不是水平的,存在彎曲變形,需要將其校正成水平 狀態(tài)。具體方法包括(1)通過連通域標(biāo)記合并獲取全景二值圖像中的文字行;(2)從上述文字行中選出一行作為校正基準(zhǔn)文字行;(3)利用分段游程抹黑技術(shù)(segmented run-length smearing)得到抹黑基準(zhǔn)文 字行;(4)通過對(duì)抹黑基準(zhǔn)文字行進(jìn)行采樣計(jì)算出文字行的彎曲曲線;(5)根據(jù)彎曲曲線對(duì)全景二值圖像進(jìn)行校正。如圖5所示即為對(duì)圖4中全景二值圖像進(jìn)行校正后的結(jié)果。S106 由所述校正后的全景二值圖像中提取待識(shí)別文字行;由圖5中可以看出,全景二值圖像中除含有待識(shí)別文字行外,可能還含有其他文 字行,因此,需要將待識(shí)別文字行提取出來。校正后的全景二值圖像中的文字行基本處于水 平狀態(tài),沿水平方向進(jìn)行投影,得到黑像素點(diǎn)的投影直方圖,利用投影直方圖的極小值位置 可以將全景二值圖像中的文字行分隔開來,即可得到全景二值圖像中的各個(gè)完整文字行。 在得到所有完整文字行后,根據(jù)這些完整文字行的分別的位置信息識(shí)別并提取出待識(shí)別文 字行,具體地,取這些文字行中靠近中間位置的文字行作為待識(shí)別文字行。圖5中含有兩行 文字,其中靠近圖像中間位置的那一行為待識(shí)別文字行,通過行提取,最終得到圖6中所示 的待識(shí)別文字行。S107 對(duì)所述待識(shí)別文字行進(jìn)行OCR識(shí)別并顯示;將待識(shí)別文字行送入OCR模 塊進(jìn)行識(shí)別并顯示識(shí)別出的文字,具體地,可以采用現(xiàn)有的OCR識(shí)別程序SDK (Software Development Kit)。如圖7所示,本發(fā)明的實(shí)施例還提供了一種用于實(shí)現(xiàn)上述文字輸入方法的文字輸 入系統(tǒng),該系統(tǒng)包括圖像采集器,采集待輸入文字的二維圖像;
USB傳輸器,將所述二維圖像傳送給圖像處理器;圖像處理器,對(duì)來自所述USB傳輸器的二維圖像先后進(jìn)行二值化處理、實(shí)時(shí)拼接、 校正以及提取待識(shí)別文字行;OCR識(shí)別器,對(duì)所述待識(shí)別文字行進(jìn)行OCR識(shí)別并顯示;控制器,控制所述圖像采集器、USB傳輸器、圖像處理器及OCR識(shí)別器執(zhí)行各自的 操作。具體地,所述圖像采集器可以為掃描筆,所述USB傳輸器為USB接口及傳輸線,所 述圖像處理器、OCR識(shí)別器以及控制器為設(shè)置于計(jì)算機(jī)內(nèi)的執(zhí)行與上述圖像處理、OCR識(shí)別 步驟相對(duì)應(yīng)操作的軟件。
權(quán)利要求
1.一種文字輸入方法,其特征在于,包括以下步驟5101通過圖像采集器獲取被掃描介質(zhì)上文字的二維圖像;5102將獲取的所述二維圖像通過USB接口實(shí)時(shí)傳輸?shù)綌?shù)據(jù)處理單元進(jìn)行后續(xù)處理;5103對(duì)所述二維圖像進(jìn)行二值化處理,獲得二值圖像;5104基于圖像配準(zhǔn)對(duì)所述二值圖像進(jìn)行實(shí)時(shí)拼接,獲得被掃描介質(zhì)上文字的全景二 值圖像;5105對(duì)全景二值圖像進(jìn)行校正;5106由所述校正后的全景二值圖像中提取待識(shí)別文字行;5107對(duì)所述待識(shí)別文字行進(jìn)行OCR識(shí)別并顯示。
2.如權(quán)利要求1所述的文字輸入方法,其特征在于,所述步驟S103中,通過自適應(yīng)閾值 二值化處理方法對(duì)所述二維圖像進(jìn)行二值化處理。
3.如權(quán)利要求1所述的文字輸入方法,其特征在于,所述步驟S104中的圖像配準(zhǔn)是通 過匹配所述二值圖像中相鄰圖像幀間的重疊區(qū)域計(jì)算前后相鄰兩幀圖像之間的位移關(guān)系 實(shí)現(xiàn)。
4.如權(quán)利要求1所述的文字輸入方法,其特征在于,所述步驟S105之前還包括判斷全景二值圖像是否存在黑底白字圖像,如果是,則識(shí)別所述黑底白字圖像并進(jìn)行 反色;否則,直接執(zhí)行步驟S105。
5.如權(quán)利要求1所述的文字輸入方法,其特征在于,所述步驟S105中,通過分段游程抹 黑處理方法將所述全景二值圖像中的文字行校正為水平狀態(tài)。
6.如權(quán)利要求5所述的文字輸入方法,其特征在于,所述通過分段游程抹黑處理方法 將所述全景二值圖像中的文字行校正為水平狀態(tài)包括通過連通域標(biāo)記合并獲取所述全景二值圖像中的文字行;從所述文字行中選出一行作為校正基準(zhǔn)文字行;通過分段游程抹黑方法得到抹黑基準(zhǔn)文字行;通過對(duì)所述抹黑基準(zhǔn)文字行進(jìn)行采樣計(jì)算出文字行的彎曲曲線;根據(jù)所述彎曲曲線將所述全景二值圖像校正為水平狀態(tài)。
7.如權(quán)利要求1所述的文字輸入方法,其特征在于,所述步驟S106中,通過水平投影獲 取所述校正后的全景二值圖像中的多個(gè)完整文字行,并根據(jù)所述多個(gè)完整文字行各自的位 置信息識(shí)別并提取出待識(shí)別文字行。
8.如權(quán)利要求1-7中任一項(xiàng)權(quán)利要求所述的文字輸入方法,其特征在于,所述步驟 SlOl具體為通過掃描筆獲取被掃描介質(zhì)上文字的二維圖像。
9.一種文字輸入系統(tǒng),其特征在于,包括圖像采集器,采集待輸入文字的二維圖像;USB傳輸器,將所述二維圖像傳送給圖像處理器;圖像處理器,對(duì)來自所述USB傳輸器的二維圖像先后進(jìn)行二值化處理、實(shí)時(shí)拼接、校正 以及提取待識(shí)別文字行;OCR識(shí)別器,對(duì)所述待識(shí)別文字行進(jìn)行OCR識(shí)別并顯示;控制器,控制所述圖像采集器、USB傳輸器、圖像處理器及OCR識(shí)別器執(zhí)行各自的操作。
10.如權(quán)利要求9所述的文字輸入系統(tǒng),其特征在于,所述圖像采集器為掃描筆。
全文摘要
本發(fā)明提供了一種文字輸入方法和系統(tǒng),屬于電數(shù)據(jù)處理技術(shù)領(lǐng)域。該方法包括以下步驟通過圖像采集器獲取被掃描介質(zhì)上文字的二維圖像;將獲取的所述二維圖像通過USB接口實(shí)時(shí)傳輸?shù)綌?shù)據(jù)處理單元中;數(shù)據(jù)處理單元對(duì)所述二維圖像進(jìn)行二值化處理,獲得二值圖像;數(shù)據(jù)處理單元基于圖像配準(zhǔn)對(duì)所述二值圖像進(jìn)行實(shí)時(shí)拼接,獲得被掃描介質(zhì)上文字的全景二值圖像;數(shù)據(jù)處理單元對(duì)全景二值圖像進(jìn)行校正;數(shù)據(jù)處理單元由所述全景二值圖像中提取待識(shí)別文字行;數(shù)據(jù)處理單元對(duì)所述待識(shí)別文字行進(jìn)行OCR識(shí)別并顯示。本發(fā)明提高了圖像處理速度、掃描筆的掃描速度、錄入速度。
文檔編號(hào)G06K9/00GK102063611SQ201010034478
公開日2011年5月18日 申請(qǐng)日期2010年1月21日 優(yōu)先權(quán)日2010年1月21日
發(fā)明者劉正珍, 劉迎建, 宋柏君, 李永彬, 梁義海 申請(qǐng)人:漢王科技股份有限公司