本發(fā)明涉及光學字符識別領(lǐng)域,具體而言,涉及一種圖像維吾爾文單詞識別方法及裝置。
背景技術(shù):
印刷體維吾爾文識別的研究對維吾爾文化的研究及維吾爾文紙質(zhì)材料的保存和數(shù)字化有著重要意義。現(xiàn)有的印刷體維吾爾文識別方法都是基于“先切分、再識別”的思路。將掃描圖像中的維吾爾文單詞分割成字母,再提取字母的特征信息作為待識別特征向量,將待識別特征向量與先前樣本訓練得到字母特征向量庫中的特征向量進行對比,從而對所切分出的字母進行識別。其中,字母特征向量庫中包括維吾爾32個字母的各種字形的特征向量。然而,無論是印刷體還是手寫體維吾爾文都有連寫和不等寬的特點,使得字母的邊界難以確定,導致字母切分不準確,為字母識別帶來困難。此外,維吾爾文的連體段之間空隙和單詞間的空格不易分辨,使識別率受到限制并影響到后處理效果。
技術(shù)實現(xiàn)要素:
鑒于此,本發(fā)明的目的在于提供一種圖像維吾爾文單詞識別方法及裝置,將維吾爾文單詞圖像分割為多個部件,通過獲取每一個部件的特征信息構(gòu)建所述維吾爾文單詞圖像的特征向量,通過識別所述特征向量獲得維吾爾文單詞圖像對應(yīng)的文本單詞。
為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
第一方面,本發(fā)明實施例提供了一種圖像維吾爾文單詞識別方法,所述方法包括:獲取維吾爾文單詞圖像,所述維吾爾文單詞圖像包括一個或多個連體段;根據(jù)所述維吾爾文單詞圖像對應(yīng)的基線域?qū)⑺鼍S吾爾文單詞圖像的每一個連體段分割為一個或多個部件;獲取所述維吾爾文單詞圖像的每個所述部件的特征信息得到所述維吾爾文單詞圖像的特征向量;將所述維吾爾文單詞圖像的特征向量與預(yù)設(shè)的特征詞典進行對比,以獲得所獲取的所述維吾爾文單詞圖像的特征向量對應(yīng)的文本單詞,其中,所述特征詞典包括根據(jù)文本單詞獲得的所述特征向量與所述文本單詞的對應(yīng)關(guān)系。
第二方面,本發(fā)明實施例還提供了一種圖像維吾爾文單詞識別裝置,包括:單詞圖像獲取模塊、部件分割模塊、特征向量獲取模塊及識別模塊。單詞圖像獲取模塊用于獲取維吾爾文單詞圖像,所述維吾爾文單詞圖像包括一個或多個連體段。部件分割模塊用于根據(jù)所述維吾爾文單詞圖像對應(yīng)的基線域?qū)⑺鼍S吾爾文單詞圖像的每一個連體段分割為一個或多個部件。特征向量獲取模塊用于獲取所述維吾爾文單詞圖像的每個所述部件的特征信息得到所述維吾爾文單詞圖像的特征向量。識別模塊用于將所述維吾爾文單詞圖像的特征向量與預(yù)設(shè)的特征詞典進行對比,以獲得所獲取的所述維吾爾文單詞圖像的特征向量對應(yīng)的文本單詞,其中,所述特征詞典包括根據(jù)文本單詞獲得的所述特征向量與所述文本單詞的對應(yīng)關(guān)系。
相比于現(xiàn)有的識別方法,本發(fā)明實施例提供的圖像維吾爾文單詞識別方法及裝置是將維吾爾文單詞圖像切分為一個或多個部件,無需準確地切分出維吾爾文單詞圖像中的每個字母,降低了維吾爾文單詞圖像的切分難度。進一步,利用所獲取到的維吾爾文單詞圖像中的部件的特征信息構(gòu)建該維吾爾文單詞圖像的特征向量作為待識別對象,有效地提高了維吾爾文單詞圖像的可識別率。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應(yīng)當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1示出了本發(fā)明實施例提供的計算機的方框示意圖;
圖2示出了本發(fā)明實施例提供的一種圖像維吾爾文單詞識別方法的流程圖;
圖3示出了本發(fā)明實施例提供的另一種圖像維吾爾文單詞識別方法的流程圖;
圖4示出了本發(fā)明實施例提供的一個示例性文本圖像;
圖5示出了本發(fā)明實施例提供的對圖4所示的文本圖像進行分割得到的一個維吾爾文單詞圖像;
圖6示出了圖5所示的維吾爾文單詞圖像的連體段和基線域的示意圖;
圖7示出了步驟S204中獲取每一個文本行圖像的基線域的方法流程圖;
圖8示出了本發(fā)明實施例提供的一種圖像維吾爾文單詞識別方法的一種具體實施方式的流程圖;
圖9示出了圖5所示的維吾爾文單詞圖像的部件分割示意圖;
圖10示出了沿縱向方向?qū)D5所示的維吾爾文單詞圖像劃分為三個區(qū)域的示意圖;
圖11示出了本發(fā)明實施例提供的一種圖像維吾爾文單詞識別裝置的結(jié)構(gòu)框圖;
圖12示出了本發(fā)明實施例提供的另一種圖像維吾爾文單詞識別裝置的結(jié)構(gòu)框圖;
圖13示出了本發(fā)明實施例提供的一種圖像維吾爾文單詞識別裝置一種具體實施方式的結(jié)構(gòu)框圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設(shè)計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例。基于本發(fā)明的實施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
應(yīng)注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋。
如圖1所示,是本發(fā)明較佳的實施例提供的計算機100的方框示意圖。所述計算機100包括圖像維吾爾文單詞識別裝置200、存儲器101、存儲控制器102、處理器103、外設(shè)接口104、輸入輸出單元105。
所述存儲器101、存儲控制器102、處理器103、外設(shè)接口104、輸入輸出單元105各元件相互之間直接或間接地電性連接,以實現(xiàn)數(shù)據(jù)的傳輸或交互。例如,這些元件相互之間可通過一條或多條通訊總線或信號線實現(xiàn)電性連接。所述圖像維吾爾文單詞識別裝置200包括至少一個可以軟件或固件(firmware)的形式存儲于所述存儲器101中的軟件功能模塊。所述處理器103用于執(zhí)行存儲器101中存儲的可執(zhí)行模塊,例如,所述圖像維吾爾文單詞識別裝置200包括的軟件功能模塊或計算機100程序。
其中,存儲器101可以是,但不限于,隨機存取存儲器(Random Access Memory,RAM),只讀存儲器(Read Only Memory,ROM),可編程只讀存儲器(Programmable Read-Only Memory,PROM),可擦除只讀存儲器(Erasable Programmable Read-Only Memory,EPROM),電可擦除只讀存儲器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存儲器101用于存儲程序,所述處理器103在接收到執(zhí)行指令后,執(zhí)行所述程序,前述本發(fā)明實施例任一實施例揭示的流過程定義的服務(wù)器所執(zhí)行的方法可以應(yīng)用于處理器103中,或者由處理器103實現(xiàn)。
處理器103可能是一種集成電路芯片,具有信號的處理能力。上述的處理器103可以是通用處理器,包括中央處理器(Central Processing Unit,簡稱CPU)、網(wǎng)絡(luò)處理器(Network Processor,簡稱NP)等;還可以是數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)成可編程門陣列(FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本發(fā)明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器103也可以是任何常規(guī)的處理器等。
所述外設(shè)接口104將各種輸入/輸出裝置耦合至處理器103以及存儲器101。在一些實施例中,外設(shè)接口104,處理器103以及存儲控制器102可以在單個芯片中實現(xiàn)。在其他一些實例中,他們可以分別由獨立的芯片實現(xiàn)。
輸入輸出單元105用于提供給用戶輸入數(shù)據(jù)實現(xiàn)用戶與所述計算機的交互。所述輸入輸出單元105可以是,但不限于,鼠標和鍵盤等。
圖2示出了本發(fā)明實施例提供的圖像維吾爾文單詞識別方法的流程圖。請參照圖2,該方法至少包括步驟S210至步驟S240。
步驟S210:獲取維吾爾文單詞圖像。
本實施例中,獲取維吾爾文單詞圖像的具體方式可以為:將獲取到的文本圖像分割為多個文本行圖像,將每一個文本行圖像分割為多個維吾爾文單詞圖像,從而獲取到維吾爾文單詞圖像。其中,文本圖像中有多個文本行,每一個文本行包括多個維吾爾文單詞。所述文本圖像為印刷體維吾爾文文本資料的圖像。例如,可以利用光學電子儀器,如掃描儀、相機等,將印刷體維吾爾文文本資料轉(zhuǎn)換成對應(yīng)的圖像后導入計算機100中進行處理。
因此,如圖3所示,獲取維吾爾文單詞圖像之前,本發(fā)明實施例提供的圖像維吾爾文單詞識別方法還包括步驟S201、步驟S202、步驟S203及步驟S204。
步驟S201:獲取文本圖像。
其中,所獲取的文本圖像可以是預(yù)先存儲在計算機中的印刷體維吾爾文文本資料的圖像,也可以是通過輸入輸出單元105實時輸入。例如,輸入輸出單元105可以為掃描儀。文本圖像包括多個文本行圖像,每一個文本行圖像包括多個維吾爾文單詞圖像。
需要說明的是,獲取到的文本圖像后,還需要先對獲取到的文本圖像進行預(yù)處理。預(yù)處理過程可以包括文本圖像的二值化處理、去噪處理、圖像的傾斜矯正等。
具體的,文本圖像的二值化處理過程為:通過預(yù)先設(shè)定的灰度閾值將文本圖像的灰度圖像轉(zhuǎn)化為灰度值為0或255的二值圖像。其中,灰度閾值可以是一個固定值,所述固定值可以根據(jù)多次試驗的經(jīng)驗值設(shè)置。當然,也可以根據(jù)二值化算法自適應(yīng)地獲取圖像的灰度閾值。例如,所述二值化算法可以為大律法、雙峰法、迭代法等。
對文本圖像進行二值化處理后,可以進一步對文本圖像進行去噪處理,以剔除圖像的獲取或傳輸過程中產(chǎn)生的噪點,有利于后續(xù)對文本圖像的處理。通常采用的去噪方法,即濾波方法有中值濾波、均值濾波、數(shù)學形態(tài)學濾波等。
另外,獲取文本圖像的過程中,可能由于文本資料的放置原因或掃描儀等輸入設(shè)備的原因?qū)е芦@取到的文本圖像存在一定的傾斜,進而影響后續(xù)的圖像分割。因此,還可以對二值化、去噪處理后的文本圖像進行傾斜矯正。本實施例中,可以利用常用的傾斜矯正算法獲取文本圖像的傾斜方向及傾斜角度,從而進一步對文本圖像進行傾斜矯正。目前,常用的文本傾斜矯正算法包括:投影特征法、霍夫變換法、交叉相關(guān)法、傅里葉變換法、近鄰法等。
步驟S202:將文本圖像分割為多個文本行圖像。
維吾爾文是從右向左按行書寫。本實施例中,文本圖像中相鄰文本行之間有較明顯的空白。因此,可以通過二維圖像的水平投影直方圖實現(xiàn)文本圖像的行切分。
具體的,可以對完成預(yù)處理后的文本圖像進行水平投影,根據(jù)相鄰文本行之間的空白及所有文本行的水平投影值獲取文本圖像中每一個文本行的上、下邊界,根據(jù)所獲取到的每一個文本行的上、下邊界即可以將文本圖像分割為多個文本行圖像。其中,水平投影是根據(jù)圖像的像素點分布分別對每一行像素值求和形成水平投影直方圖。
步驟S203:將每一個文本行圖像分割為多個維吾爾文單詞圖像。
每一個文本行圖像中的相鄰維吾爾文單詞之間也具有較明顯的空白。因此,可以通過二維圖像的垂直投影直方圖實現(xiàn)文本行圖像中維吾爾文單詞圖像的切分。
具體的,在實現(xiàn)文本圖像中的文本行切分的基礎(chǔ)上,可以進一步對每一個文本行圖像進行單詞切分。例如,可以分別對每個文本行圖像進行垂直投影。根據(jù)當前文本行圖像中相鄰維吾爾文單詞之間的空白及當前文本行的垂直投影值可以獲取當前文本行圖像中的每一個維吾爾文單詞的左、右邊界。根據(jù)所獲取到的每一個文本行圖像中每一個維吾爾文單詞的左、右邊界即可以將每一個文本行圖像分割為多個維吾爾文單詞圖像。其中,垂直投影是根據(jù)圖像的像素點分布分別對每一列像素值求和形成垂直投影直方圖。
例如,根據(jù)上述方法對圖4所示的文本圖像進行分割可以得到如圖5所示的維吾爾文單詞圖像。
步驟S204:獲取每一個文本行圖像的基線域,將當前文本行圖像的基線域作為當前文本行圖像所包括的多個維吾爾文單詞圖像的基線域。
無論是印刷體維吾爾文還是手寫體維吾爾文中,字母是沿著某一軸線相連的,該軸線被稱為基線。通常情況下,受圖像分辨率的影響,維吾爾文單詞圖像中連體段的基線的寬度大于一個像素,此時,基線也稱為基線域。例如,如圖6所示,圖中的直線a表示該維吾爾文單詞圖像中的維吾爾文單詞的基線域的上邊界,直線b表示該維吾爾文單詞的基線域的下邊界,直線a與直線b之間的區(qū)域即為基線域。
由于維吾爾文單詞圖像是由對應(yīng)的文本行圖像分割形成,可以理解的是,每一個維吾爾文單詞圖像對應(yīng)的基線域即為該維吾爾文單詞圖像所屬的文本行圖像的基線域。
本實施例中,如圖7所示,步驟S204中,獲取每一個文本行圖像的基線域的方法可以包括步驟S301、步驟S302、步驟S303及S304。
步驟S301:獲取當前文本行圖像的輪廓。
具體的,可以利用邊緣檢測算法對當前文本行圖像進行邊緣檢測提取當前文本行圖像的輪廓。例如,常用的邊緣檢測算子有Sobel算子、Canny算子、Roberts算子、Prewitt算子等。
步驟S302:按照第一預(yù)設(shè)規(guī)則對當前文本行圖像的輪廓進行直線檢測獲得多條直線。
本實施例中,第一預(yù)設(shè)規(guī)則可以為霍夫直線檢測算法,當然,也可以采用其他可以用于檢測圖像輪廓中直線的算法。
步驟S303:查找所述多條直線中長度大于或等于預(yù)設(shè)長度閾值的直線,根據(jù)所查找到的所有直線的坐標位置獲得基準線。
其中,預(yù)設(shè)長度閾值可以根據(jù)多次試驗確定,可以預(yù)先存儲在計算機中,也可以實時通過輸入輸出單元,例如鍵盤輸入。具體的,可以將步驟S302所獲得的每一條直線的長度與預(yù)設(shè)長度閾值比較,得到長度大于或等于預(yù)設(shè)長度閾值的直線,構(gòu)建第一直線集。根據(jù)第一直線集中每一條直線所包括的像素坐標可以得到位于縱向方向上最上方的第一直線和最下方的第二直線。根據(jù)第一直線所包括的像素坐標和第二直線所包括的像素坐標可以獲得第一直線和第二直線的中心線,即基準線。
步驟S304:按照第二預(yù)設(shè)規(guī)則獲取所查找到的直線中位于基準線上方的最長的一條直線作為基線域的上邊界,獲取所查找到的直線中位于基準線下方的最長的一條直線作為基線域的下邊界。
查找第一直線集中位于基準線上方的所有直線構(gòu)建第二直線集,比較第二直線集中所有直線的長度獲得長度最長的直線作為基線域的上邊界。查找第二直線集中位于基準線下方的所有直線構(gòu)建第三直線集,比較第三直線集中所有直線的長度獲得長度最長的直線作為基線域的下邊界。所得到的上邊界與下邊界直接的區(qū)域即為基線域。當然,除了上述方式外,也可以采用其他方式得到基線域的上邊界和下邊界。
另外,根據(jù)維吾爾文的書寫特點可知,文本行圖像中字符區(qū)域的像素大部分集中分布于基線域中。因此,獲取每一個文本行圖像的基線域的方法還可以為:先獲取文本行圖像的輪廓;然后再對文本行圖像的輪廓進行水平投影以獲得第一像素行和第二像素行。其中,第一像素行和第二像素行之間的區(qū)域即為基線域。
具體的,獲取第一像素行和第二像素行的具體方式可以為:
對文本行圖像的輪廓進行水平投影,得到圖像中每一行像素對應(yīng)的投影值。根據(jù)所有像素行的投影值設(shè)置一個第二預(yù)設(shè)值,使得僅第i行像素至第i+m行像素以及第i+n行像素至第i+p行像素的投影值大于等于該第二預(yù)設(shè)值。其中,i,m,n,p均為正整數(shù),且m<n<p。此后,查找第i行至第i+m行中投影值最大的像素行,作為第一像素行,查找第i+n行至第i+p行中投影值最大的像素行作為第二像素行。第一像素行與第二像素行之間的區(qū)域即為該文本行圖像的基線域。其中,第一像素行為基線域的上邊界,第二像素行為基線域的下邊界。
分別將步驟S202所得到的每一個文本行圖像最為當前文本行圖像,執(zhí)行步驟S301至步驟S304即可以得到每一個文本行圖像的基線域。
步驟S220:根據(jù)維吾爾文單詞圖像對應(yīng)的基線域?qū)⑺鼍S吾爾文單詞圖像的每一個連體段分割為一個或多個部件。
維吾爾文的單詞是由一個或多個字母組成,且維吾爾文具有連寫的特點,這些字母可能前后相連形成一個或多個連體字母段,即連體段。每一個維吾爾文單詞均由一個或多個連體段構(gòu)成,相鄰連體段之間具有間隙。例如,如圖6所示,圖6中的維吾爾文單詞有三個連體段,每一個虛線矩形框中的字符為一個連體段,由圖中可以看出,兩個連體段之間具有間隙。具體的,獲取維吾爾文單詞圖像的連體段的方法可以為:
維吾爾單詞圖像為二值化圖像,包括字符區(qū)域和背景區(qū)域。假設(shè)字符區(qū)域的像素點為黑色,背景區(qū)域像素點為白色,此時,維吾爾文單詞圖像表現(xiàn)為白底黑字。將字符區(qū)域的像素點表示為1,將背景區(qū)域的像素點表示為0。對所述維吾爾文單詞圖像進行垂直投影,根據(jù)垂直投影對所述維吾爾文單詞圖像進行分割獲得維吾爾文單詞圖像中的連體段。
具體的,維吾爾文單詞圖像中相鄰連體段之間的間隙處像素點的垂直投影值小于第一預(yù)設(shè)值。其中,所述第一預(yù)設(shè)值的理論值為0,由于維吾爾單詞圖像中可能存在的噪點,具體的第一預(yù)設(shè)值可以為多次試驗所獲得的經(jīng)驗值。將維吾爾文單詞圖像的垂直投影結(jié)果與第一預(yù)設(shè)值比較,可以獲得該維吾爾文單詞圖像中每一個連體段的左、右邊界,根據(jù)所獲得的左、右邊界即可以將該維吾爾文單詞圖像切分為一個或多個連體段。
具體的,如圖8所示,根據(jù)維吾爾文單詞圖像對應(yīng)的基線域?qū)⒕S吾爾文單詞圖像的每一個連體段分割為一個或多個部件的方法可以包括步驟S221和步驟S222。
步驟S221:對維吾爾文單詞圖像的當前連體段中位于基線域以外的像素做垂直投影得到一個或多個分離的投影峰值。
根據(jù)維吾爾文單詞圖像對應(yīng)的基線域的上邊界和下邊界,剔除當前連體段中位于基線域中的像素點,即將位于基線域中的像素點的值置0。此后,再對剔除位于基線域的像素點后的當前連體段進行垂直投影,得到一個或多個分離的投影峰值。
步驟S222:根據(jù)所述投影峰值對當前連體段進行分割得到一個或多個部件。
當對當前連體段中位于所述基線域以外的像素做垂直投影得到多個分離的投影峰值時,獲取相鄰兩個分離的投影峰值之間的中點作為當前連體段的切點。進一步,根據(jù)所獲取到的切點將所述當前連體段分割為多個部件。例如,可以將切點所在的像素列作為切分像素列,當?shù)玫絻蓚€分離的投影峰值時,可以獲得一個切分像素列,根據(jù)該切分像素列可以將當前連體段分割為兩個部件,即當前連體段的右邊界至所述切分像素列之間的部分為一個部件,所述切分像素列至當前連體段的左邊界之間的部分為另一個部件。同理,當?shù)玫饺齻€分離的投影峰值時,可以獲得兩個切分像素列,此時,可以將當前連體段分割為三個部件。
當對當前連體段中位于所述基線域以外的像素做垂直投影后僅得到一個投影峰值時,表示當前連體段無需切分,即該連體段無切點存在。此時,當前連體段為字母的獨立形式。也就是說,當前連體段即為一個部件,且該部件的形式為獨立形式。
分別對當前維吾爾文單詞圖像中的每一個連體段執(zhí)行步驟S221至步驟S222,將維吾爾文單詞圖像中的每一個連體段切分為一個或多個部件,也就是將維吾爾文單詞圖像分割為一個或多個部件。例如,如圖9所示,對圖6所示的維吾爾文單詞圖像中的每一個連體段執(zhí)行步驟S221至步驟S222,可以得到部件v1、部件v2、部件v3、部件v4、部件v5和部件v6,圖7中的每一個實線矩形框表示一個部件。
步驟S230:獲取維吾爾文單詞圖像的每個部件的特征信息以得到維吾爾文單詞圖像的特征向量。
其中,所述特征信息包括全局特征信息和局部特征信息。全局特征信息包括橫向位置特征信息和縱向位置特征信息,局部特征信息包括每個部件的輪廓數(shù)和孔洞數(shù)以及每個部件所包括的附加部件與基線域的縱向位置關(guān)系,即附加部件位于基線域的上方還是下方。其中,附加部件為維吾爾文字母中的附屬筆畫。
具體的,如圖8所示,步驟S230包括步驟S231、步驟S232和步驟S233。
步驟S231:按照預(yù)設(shè)順序依次獲取維吾爾文單詞圖像所包括的部件。
考慮到維吾爾文具有從右向左按行書寫的特點,因此,所述預(yù)設(shè)順序優(yōu)選為從右到左。
步驟S232:獲取每個部件的特征信息。
具體的,獲取部件的橫向位置特征信息的方式為:判斷當前部件所屬的連體段是否存在切點,當當前部件所屬的連體段沒有切點存在時,判定當前部件為獨立部件。當當前部件所屬的連體段存在切點時,根據(jù)切點的數(shù)量以及當前部件在所述連體段中的橫向位置判定當前部件的形式。當當前部件所屬的連體段的切點數(shù)量1個時,表示當前部件所屬的連體段包括兩個部件。此時,若當前部件為兩個部件中按書寫規(guī)則相對靠右的部件,則判定當前部件為起始部件,若當前部件為兩個部件中按書寫規(guī)則相對靠左的部件時,則判定當前部件為結(jié)尾部件。當當前部件所屬的連體段的切點數(shù)量大于1時,表示當前部件所屬的連體段包括三個或三個以上的部件。此時,若當前部件為三個或三個以上的部件中按書寫規(guī)則最靠右的部件,則判定當前部件為起始部件,若當前部件為三個或三個以上的部件中按書寫規(guī)則最靠左的部件,則判定當前部件為結(jié)尾部件,當上述兩個條件均不滿足時,則判定當前部件為中間部件。
例如,如圖9所示,圖5所示的維吾爾文單詞圖像中,部件v1和部件v3為起始部件,部件v2和部件v5為結(jié)尾部件,部件v4為中間部件,部件v6為獨立部件。
部件的橫向位置特征信息用于反映部件的形式。例如,可以將獨立部件的橫向位置特征信息設(shè)置為0,將起始部件的橫向位置特征信息設(shè)置為1,將中間部件的橫向位置特征信息設(shè)置為2,將結(jié)尾部件的橫向位置特征信息設(shè)置為3。
獲取部件的縱向位置特征信息的方式為:
獲取當前部件的外接矩形,根據(jù)當前部件的外接矩形在維吾爾文單詞圖像縱向方向上的位置獲取當前部件的縱向位置特征信息。
具體的,可以將維吾爾文單詞圖像沿縱向方向劃分為三個區(qū)域,從上到下依次為上層區(qū)域、中間區(qū)域和下層區(qū)域。例如,上層區(qū)域、中間區(qū)域和下層區(qū)域的具體劃分方法可以為:將維吾爾文單詞圖像的上邊界和下邊界之間的區(qū)域平均分割為三等分,其中,維吾爾文單詞圖像的上邊界即為該維吾爾文單詞圖像的第一行像素,維吾爾文單詞圖像的下邊界即為該維吾爾文單詞圖像的最后一行像素。
此時,當當前部件的外接矩形僅位于中間區(qū)域時,可以將當前部件的縱向位置特征信息設(shè)置為0;當當前部件的外接矩形僅位于上層區(qū)域和中間區(qū)域時,可以將當前部件的縱向位置特征信息設(shè)置為1;當當前部件的外接矩形僅位于中間區(qū)域和下層區(qū)域時,可以將當前部件的縱向位置特征信息設(shè)置為2;當當前部件的外接矩形位于上層區(qū)域、中間區(qū)域和下層區(qū)域時,可以將當前部件的縱向位置特征信息設(shè)置為3。
例如,如圖10所示,將圖5所示的維吾爾文單詞圖像的上邊界和下邊界之間的區(qū)域平均分割為三等分,其中虛線c表示該維吾爾文單詞圖像的上邊界,虛線f表示該維吾爾文單詞圖像的下邊界,虛線d和虛線d表示分割線。因此,部件v1的縱向位置特征信息為2;部件v2的縱向位置特征信息為3;部件v3的縱向位置特征信息為1;部件v4的縱向位置特征信息為1;部件v5的縱向位置特征信息為3;部件v6的縱向位置特征信息為2。
進一步的,獲取部件的局部特征信息的方式為:獲取當前部件的輪廓數(shù)量;獲取當前部件的孔洞數(shù)量;查找當前部件所包括的附加部件,并判定所查找到的附加部件與基線域的縱向位置關(guān)系;根據(jù)所獲取到的當前部件的輪廓數(shù)、孔洞數(shù)及當前部件所包括的附加部件與基線域的縱向位置關(guān)系確定當前部件的局部特征信息。
具體的,獲取當前部件的輪廓數(shù)量的具體方式可以為:對當前部件所包括的連通區(qū)域進行標記,獲取當前部件所包括的連通區(qū)域的數(shù)量。當前部件所包括的連通區(qū)域的數(shù)量即為當前部件的輪廓數(shù)量。而當前部件的孔洞數(shù)量的具體可以采用穿透次數(shù)方法獲取,也可以通過獲取當前部件的連通區(qū)域個數(shù)來獲取。由于通常附加部件包括的像素點數(shù)量較少,因此,本實施例中查找當前部件所包括的附加部件的實施方式可以為:對當前部件所包括的連通區(qū)域進行標記后,將每一個連通區(qū)域的像素點個數(shù)與第三預(yù)設(shè)值比較,當存在連通區(qū)域的像素點個數(shù)小于或等于第三預(yù)設(shè)值時,則判定該連通區(qū)域為附加部件,當所有連通區(qū)域的像素點個數(shù)均大于第三預(yù)設(shè)值時,則判定當前部件沒有附加部件。例如,如圖10所示,部件v2包括一個附件部件,且該附加部件在基線域的上方。
步驟S233:根據(jù)所獲取的每個部件的特征信息構(gòu)建維吾爾文單詞圖像的特征向量。
基于上述方法,獲取到維吾爾文單詞圖像中的每一個部件的特征信息后,可以根據(jù)該維吾爾文單詞圖像所包括的所有部件的特征信息構(gòu)建該維吾爾文單詞圖像的特征向量。
例如,T表示部件的橫向位置特征信息,P表示部件的縱向位置特征信息,C表示部件的輪廓數(shù),H表示部件的孔洞數(shù),A表示部件所包括的附加部件在基線域的上方,B表示部件所包括的附加部件在基線域的下方。其中,C、H、A及B共同表現(xiàn)部件的局部特征信息。T的取值可以為0、1、2或3,當部件為獨立部件時T=0,當部件為起始部件時,T=1,當部件為中間部件時,T=2,當部件為結(jié)尾部件時,T=3。P的取值可以為0、1、2或3,當部件的外接矩形僅位于中間區(qū)域時,P=0;當部件的外接矩形僅位于上層區(qū)域和中間區(qū)域時,P=1;當部件的外接矩形僅位于中間區(qū)域和下層區(qū)域時,P=2;當部件的外接矩形位于上層區(qū)域、中間區(qū)域和下層區(qū)域時,P=3。當部件所包括的附加部件在基線域的上方時,A=1,B=0;當部件所包括的附加部件在基線域的下方時,A=0,B=1,當部件沒有附加部件時,A=0,B=0。
因此,當步驟S231中獲取到的維吾爾文單詞圖像V={vk|1≤k≤M,k為正整數(shù)},其中,vk表示該維吾爾文單詞圖像中的第k個部件,M為維吾爾文單詞圖像中所包括的部件數(shù)量。任意一個部件vk的特征信息表示為(TPCHAB)k,則可以得到該維吾爾文單詞圖像的特征向量S=((TPCHAB)1,(TPCHAB)2,…,(TPCHAB)M)。
步驟S240:將維吾爾文單詞圖像的特征向量與預(yù)設(shè)的特征詞典進行對比,以獲得所獲取的維吾爾文單詞圖像的特征向量對應(yīng)的文本單詞。
其中,預(yù)設(shè)的特征詞典的構(gòu)建方式為:獲取文本單詞,用文本單詞替代維吾爾文單詞圖像,按照本實施例中步驟S220至步驟S230獲取文本單詞的特征向量。其中,文本單詞為計算機100可直接識別字符信息的維吾爾文單詞。可以是通過計算機100的輸入輸出單元105例如鍵盤輸入的文本單詞,也可以是計算機100中預(yù)先存儲的文本單詞。因此,可以根據(jù)大量不同的文本單詞的特征向量構(gòu)建特征詞典。其中,所述特征詞典包括所述特征向量與所述文本單詞的對應(yīng)關(guān)系。例如,可以將已整理的2.8萬多個不同的維吾爾文單詞輸入或是通過其他手段存儲在計算機中形成文本單詞庫,根據(jù)上述方法獲取文本單詞庫中每一個文本單詞的特征向量,進一步根據(jù)所得到的文本單詞的特征向量構(gòu)建特征詞典,且特征詞典中每一個特征向量對應(yīng)一個文本單詞。
本發(fā)明實施例直接根據(jù)文本單詞的特征向量構(gòu)建特征詞典,相比于現(xiàn)有的通過掃描圖像樣本進行樣本訓練以獲得特征向量與文本單詞的對應(yīng)關(guān)系的方法,省去了花費大量人力和物力進行掃描圖像樣本的采集過程,有效地簡化了特征詞典的構(gòu)建過程。
進一步,將步驟S230中所得到的維吾爾文單詞圖像的特征向量作為待識別對象。將待識別對象與特征詞典中的特征向量進行對比,當待識別對象與特征詞典中的某一特征向量的對比結(jié)果滿足預(yù)設(shè)條件時,維吾爾文單詞圖像所對應(yīng)的文本單詞即為該特征向量對應(yīng)的文本單詞,即實現(xiàn)了上述維吾爾文單詞圖像中的維吾爾文單詞的識別。
需要說明的是,待識別對象與特征詞典中特征向量的對比過程中,將特征向量中所包括的全局特征信息作為穩(wěn)定特征信息,將特征向量中所包括的局部特征信息作為非穩(wěn)定特征信息。上述預(yù)設(shè)條件包括穩(wěn)定特征信息的匹配程度和非穩(wěn)定特征信息的匹配程度。例如,上述預(yù)設(shè)條件可以為:特征向量中每一個部件的全局特征信息的匹配程度為100%,局部特征信息中,輪廓數(shù)量的差值小于等于1,孔洞數(shù)量的差值小于等于1,附加部件的縱向位置的匹配程度為100%。
優(yōu)選的,為了簡化對比過程的計算量,本實施例中,可以預(yù)先根據(jù)特征詞典中每一個特征向量對應(yīng)的文本單詞所包括的連體段數(shù)量將特征詞典分為多個子類,并建立對應(yīng)索引表。對維吾爾文單詞圖像進行識別時,根據(jù)維吾爾文單詞圖像所包括的連體段數(shù)量,通過索引找到相應(yīng)的子類,將待識別對象與相應(yīng)子類中的特征向量進行對比。
另外,本發(fā)明實施例還提供了一種圖像維吾爾文單詞識別裝置,如圖11所示,所述圖像維吾爾文單詞識別裝置200包括單詞圖像獲取模塊210、部件分割模塊220、特征向量獲取模塊230及識別模塊240。
其中,單詞圖像獲取模塊210用于獲取維吾爾文單詞圖像,所述維吾爾文單詞圖像包括一個或多個連體段。部件分割模塊220用于根據(jù)所述維吾爾文單詞圖像對應(yīng)的基線域?qū)⑺鼍S吾爾文單詞圖像的每一個連體段分割為一個或多個部件。特征向量獲取模塊230用于獲取所述維吾爾文單詞圖像的每個所述部件的特征信息得到所述維吾爾文單詞圖像的特征向量。識別模塊240用于將所述維吾爾文單詞圖像的特征向量與預(yù)設(shè)的特征詞典進行對比,以獲得所獲取的所述維吾爾文單詞圖像的特征向量對應(yīng)的文本單詞,其中,所述特征詞典包括根據(jù)文本單詞獲得的所述特征向量與所述文本單詞的對應(yīng)關(guān)系。
具體的,如圖12所示,本發(fā)明實施例還提供了一種圖像維吾爾文單詞識別裝置還包括:文本圖像獲取模塊201、文本圖像分割模塊202、文本行圖像分割模塊203及基線域獲取模塊204。
文本圖像獲取模塊201用于獲取文本圖像,所述文本圖像包括多個文本行圖像,每一個文本行圖像包括多個維吾爾文單詞圖像。文本圖像分割模塊202用于將所述文本圖像分割為多個文本行圖像。文本行圖像分割模塊203用于將每一個文本行圖像分割為多個維吾爾文單詞圖像。基線域獲取模塊204用于獲取每一個文本行圖像的基線域,將當前文本行圖像的基線域作為所述當前文本行圖像所對應(yīng)的多個維吾爾文單詞圖像的基線域。
具體的,如圖13所示,部件分割模塊220包括:投影峰值獲取單元221及分割單元222。其中,投影峰值獲取單元221用于對所述維吾爾文單詞圖像的當前連體段中位于所述基線域以外的像素做垂直投影得到一個或多個分離的投影峰值。分割單元222用于根據(jù)所述投影峰值對所述當前連體段進行分割得到一個或多個部件。
具體的,如圖13示,所述特征向量獲取模塊230包括部件獲取單元231、特征信息獲取單元232及特征向量構(gòu)建單元233。其中,部件獲取單元231用于按照預(yù)設(shè)順序依次獲取所述維吾爾文單詞圖像所包括的部件。特征信息獲取單元232用于獲取每個所述部件的特征信息。特征向量構(gòu)建單元233用于根據(jù)所獲取的每個所述部件的特征信息構(gòu)建所述維吾爾文單詞圖像的特征向量。
綜上所述,本發(fā)明實施例提供的圖像維吾爾文單詞識別方法及裝置,通過將維吾爾文單詞圖像中的每個連體段分割為一個或多個部件,并獲取每個部件的特征信息,從而根據(jù)維吾爾文單詞圖像中每個部件的特征信息構(gòu)建上述維吾爾文單詞圖像的特征向量,進一步將維吾爾文單詞圖像的特征向量作為待識別對象與預(yù)設(shè)的特征詞典對比,得到上述維吾爾文單詞圖像對應(yīng)的文本單詞。于現(xiàn)有的識別方法,本發(fā)明實施例提供的圖像維吾爾文單詞識別方法及裝置是將維吾爾文單詞圖像切分為一個或多個部件,無需準確地切分出維吾爾文單詞圖像中的每個字母,降低了維吾爾文單詞圖像的切分難度。進一步,利用所獲取到的維吾爾文單詞圖像中的部件的特征信息構(gòu)建該維吾爾文單詞圖像的特征向量作為待識別對象,有效地提高了維吾爾文單詞圖像的可識別率。
另外,本發(fā)明實施例提供的圖像維吾爾文單詞識別方法及裝置直接根據(jù)單詞的特征向量構(gòu)建特征詞典,相比于現(xiàn)有的通過掃描圖像樣本進行樣本訓練以獲得特征向量與文本單詞的對應(yīng)關(guān)系的方法,省去了花費大量人力和物力進行掃描圖像樣本的采集過程,有效地簡化了特征詞典的構(gòu)建過程。
在本申請所提供的實施例中,應(yīng)該理解到,所揭露的裝置和方法,也可以通過其它的方式實現(xiàn)。以上所描述的裝置實施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的裝置、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當注意,在有些作為替換的實現(xiàn)方式中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
另外,在本發(fā)明各個實施例中的各功能模塊可以集成在一起形成一個獨立的部分,也可以是各個模塊單獨存在,也可以兩個或兩個以上模塊集成形成一個獨立的部分。
所述功能如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。