專利名稱::一種pdf文件的光學字符識別方法及裝置的制作方法
技術(shù)領域:
:本發(fā)明涉及光學字符識別領域,特別涉及一種PDF文件的光學字符識別方法及一種PDF文件的光學字符識別裝置。
背景技術(shù):
:光學字符識別技術(shù),簡稱OCR(OpticalCharacterRecognition)技術(shù),是一種利用字符識別技術(shù)將字符的圖像轉(zhuǎn)換為字符計算機內(nèi)碼的技術(shù)。目前,OCR技術(shù)所能識別的文件格式僅限于圖像文件格式,即tif、bmp或jpg等格式的文件。PDF(PortableDocumentFromat,可移才直文件格式)文件,是一種用來描述頁面內(nèi)容的電子文檔格式,PDF文件具有與操作系統(tǒng)平臺無關(guān)性(即不管是在Windows,Unix還是在MacOS操作系統(tǒng)中都是通用的)的特點,目前已成為在Internet上進行電子文檔發(fā)行和數(shù)字化信息傳播的理想文檔格式。然而,由于PDF文件并不是一種圖像格式文件,所以現(xiàn)有的OCR系統(tǒng)并不能直接識別PDF文件,而必須通過第三方軟件將PDF文件預先轉(zhuǎn)換為OCR系統(tǒng)可識別的圖像文件格式后,再采用OCR系統(tǒng)進行OCR識別,例如用PDF文件處理軟件(如Acrobat)中的快照工具,選中需要識別的區(qū)域,通過復制粘貼操作,將其保存為圖像格式文件。顯然,采用上述方法對PDF文件進行OCR識別,都需要在不同軟件中來回切換,操作復雜,占用時間長,用戶體驗較差。因而,本領域技術(shù)人員迫切需要發(fā)展出一種不需要在多個軟件之間重復切換,可以直接對PDF文件進行識別的OCR處理方法和裝置。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種可以直接識別PDF文件的光學字符識別方法,使用該方法能對PDF文件進行簡單、快捷的OCR識別5操作,使用戶獲得較好的使用體驗。本發(fā)明還提供了一種可以識別PDF文件的光學字符識別裝置,用以保證上述方法在實際中的實現(xiàn)及應用。為解決上述4支術(shù)問題,本發(fā)明實施例/>開了一種PDF文件的光學字符識別方法,包括在PDF文件中確定目標頁面,并獲取所述目標頁面的頁面大小信息;根據(jù)所述頁面大小信息和預置分辨率信息,在內(nèi)存中生成相應大小的圖像區(qū)域;獲取所述目標頁面的頁面描述指令,提取所述頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息;根據(jù)所述位置信息在所述圖像區(qū)域的相應位置繪制所述頁面內(nèi)容數(shù)據(jù);對所述頁面內(nèi)容數(shù)據(jù)進行光學字符識別,獲得識別結(jié)果。優(yōu)選的是,所述頁面內(nèi)容數(shù)據(jù)包括圖像數(shù)據(jù)、圖形數(shù)據(jù)和/或字符數(shù)據(jù),所述繪制步驟進一步包括將所述圖像數(shù)據(jù)解碼轉(zhuǎn)換成位圖,在所述圖像區(qū)域的相應位置繪制所述位和/或,直接在所述圖像區(qū)域的相應位置繪制所述圖形數(shù)據(jù);和/或,根據(jù)所述字符數(shù)據(jù)的屬性信息生成字符圖像,在所述圖像區(qū)域的相應位置繪制所述字符圖像。優(yōu)選的是,所述頁面描述指令具有多條,所述繪制步驟進一步包括如果所述目標頁面還有下一條頁面描述指令,則繼續(xù)提取下一條頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息。優(yōu)選的是,在提取頁面內(nèi)容數(shù)據(jù)及位置信息的步驟前,還包括如果所述頁面描述指令經(jīng)過壓縮編碼,則對所述頁面描述指令進行數(shù)據(jù)解碼處理。優(yōu)選的是,在確定目標頁面以前,還包^r:確定目標PDF文件。優(yōu)選的是,通過以下步驟確定目標頁面獲取所述PDF文件的頁碼信息;如果當前指定的頁碼在所述頁碼信息的范圍內(nèi),則確定所述頁碼對應的頁面為目一示頁面。優(yōu)選的是,所述的方法,還包括'將所述圖像區(qū)域內(nèi)的頁面內(nèi)容數(shù)據(jù)保存為圖像文件。優(yōu)選的是,所述的方法,還包括;將所述識別結(jié)果輸出為指定文件格式。本發(fā)明實施例還公開了一種PDF文件的光學字符識別裝置,包括目標頁面確定單元,用于在PDF文Y牛中確定目標頁面;第一獲取單元,用于獲取所述目標頁面的頁面大小信息;內(nèi)存分配單元,用于根據(jù)所述頁面大小信息和預置分辨率信息,在內(nèi)存中生成相應大小的圖像區(qū)域;第二獲取單元,用于獲取所述目標頁面的頁面描述指令;提取單元,用于提取所述頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信自繪制執(zhí)行單元,用于根據(jù)所述位置信息在所述圖像區(qū)域的相應位置繪制所述頁面內(nèi)容數(shù)據(jù);識別單元,用于對所述頁面內(nèi)容數(shù)據(jù)進行光學字符識別,獲得識別結(jié)果。優(yōu)選的是,所述頁面內(nèi)容數(shù)據(jù)包括圖像數(shù)據(jù)、圖形數(shù)據(jù)和/或字符數(shù)據(jù),所述繪制執(zhí)行單元進一步包括圖像繪制子單元,用于將所述圖像數(shù)據(jù)解碼轉(zhuǎn)換成位圖,在所述圖像區(qū)域的相應位置繪制所述位和/或,圖形繪制子單元,用于直接在所述圖像區(qū)域的相應位置繪制所述圖形數(shù)據(jù);和/或,字符繪制子單元,用于根據(jù)所述字符數(shù)據(jù)的屬性信息生成字符圖像,在所述圖像區(qū)域的相應位置繪制所述字符圖像。優(yōu)選的是,所述頁面描述指令具有多條,所述繪制執(zhí)行單元進一步包括循環(huán)子單元,用于在所述目標頁面還有下一條頁面描述指令時,繼續(xù)提取下一條頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息。優(yōu)選的是,所述的裝置,還包括數(shù)據(jù)解碼單元,用于在所述頁面描述指令經(jīng)過壓縮編碼時,對所述頁面描述指-令進行數(shù)據(jù)解碼處理。優(yōu)選的是,所述的裝置,還包括目標文件確定單元,用于確定目標PDF文件。優(yōu)選的是,所述目標文件確定單元進一步包括頁碼獲取子單元,用于獲取所述PDF文件的頁碼信息;定位子單元,用于在當前指定的頁碼在所述頁碼信息的范圍內(nèi)時,確定所述頁碼對應的頁面為目標頁面。優(yōu)選的是,所述的裝置,還包括保存單元,用于將所述圖像區(qū)域內(nèi)的頁面內(nèi)容數(shù)據(jù)保存為圖像文件。優(yōu)選的是,所述的裝置,還包括;指定輸出單元,用于將所述識別結(jié)果輸出為指定文件格式。與現(xiàn)有技術(shù)相比,本發(fā)明實施例具有以下優(yōu)點首先,本發(fā)明通過解析獲得的PDF文件頁面的頁面大小信息,根據(jù)該頁面大小信息和預置分辨率信息計算輸出圖像的像素高度和寬度,然后在內(nèi)存中為該輸出圖像分配相應大小的圖像存儲空間,再通過解析獲得目標頁面的頁面描述指令,將頁面內(nèi)容數(shù)據(jù)描繪在該分配的圖像存儲空間中,從而實現(xiàn)對PDF文件的直接OCR識別操作,無需在多種軟件之間重復切換,簡化了用戶操作,減少了操作時間,并使用戶獲得較好的使用體驗;再者,本發(fā)明可以將處理后的識別結(jié)果輸出為指定文件格式,從而在相應的文件格式中可以對PDF文件的內(nèi)容進行編輯處理,有效提高了PDF文件內(nèi)容編輯的靈活度,進一步使用戶獲得較好的使用體驗。圖1是一個PDF文件的層次結(jié)構(gòu)圖2是本發(fā)明的一種PDF文件的光學字符識別方法實施例1的流程圖3是本發(fā)明的一種PDF文件的圖像轉(zhuǎn)換繪制過程的流程8圖4是一種PDF文件的光學字符識別方法實施例2的流程圖;圖5是本發(fā)明的一種PDF文件的光學字符識別裝置實施例1的結(jié)構(gòu)框圖6是本發(fā)明的一種PDF文件的光學字符識別裝置實施例2的結(jié)構(gòu)框圖7是應用圖6所示的優(yōu)選實施例進行PDF文件的OCR識別過程的流程圖。具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。從PDF文件生成的角度來看,有兩種生成PDF文件的方法第一種是利用光學掃描技術(shù)將已有的紙質(zhì)文獻、書籍等預先轉(zhuǎn)換為圖像,再由圖像生成PDF文件,其中的字符、圖形等數(shù)據(jù)以圖像形式存在;第二種是利用應用程序以及PDF打印機(一種虛擬打印軟件),將計算機中字符和圖形數(shù)據(jù)的計算機內(nèi)碼轉(zhuǎn)換為PDF的內(nèi)部表示形式。其中的字符、圖形等數(shù)據(jù)以PDF編碼的形式存在。從PDF文件的數(shù)據(jù)結(jié)構(gòu)來看,PDF文件中的數(shù)據(jù)是以PDF對象的形式進行組織的。具體而言,PDF對象可分為直接對象(directobject)和間接對象(indirectobject)兩類,其中,直接對象包含布爾類型(Boolean)、數(shù)字類型(Number)、字符串類型(String)、名稱類型(Name)、數(shù)組類型(Array)、字典類型(Dictionary)、數(shù)據(jù)流類型(Stream)以及空值類型(Null);間接對象是在直接對象的基礎上加以標識,提供其他對象引用。從PDF文件的邏輯結(jié)構(gòu)來看,PDF文件可以描述為一個由PDF對象組成的層次結(jié)構(gòu),這個結(jié)構(gòu)中包含唯一的根對象(Catalog),參考圖1,示出了一個PDF文件的層次結(jié)構(gòu)圖。其中,根對象包含PDF文檔的書簽樹和頁面樹,其中,書簽樹包含多個書簽項,頁面項是PDF中最重要的對象,包含頁面描述指令,即如何顯示該頁面的信息,例如使用的字體,包含的內(nèi)容(文字,圖片等),頁面的大小信息等。當然其中的子項也可以是其他對象的引用。從PDF文件的存儲結(jié)構(gòu)來看,規(guī)范的PDF文件由四部分構(gòu)成文件頭(Header)、文件體(Body)、交叉引用表(Cross-referenceTable)和文件尾(Trailer)組成。其中,文件頭(Header)指明文件遵從的PDF規(guī)范的版本號,如"。/。PDF-1.3"表示當前版本號為1.3;文件體(Body)包含一系列描述文件頁面的間接對象;交叉引用表(Cross-referenceTable)記錄了各間接對象在文件中的位置;文件尾(Trailer)記錄交叉引用表在文件中的開始位置、根對象(Catalog)的間接對象序號以及文件結(jié)束標志。例如,一個PDF文件的示意表為<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table><table>tableseeoriginaldocumentpage12</column></row><table><table>tableseeoriginaldocumentpage13</column></row><table>\基于上述PDF文件的結(jié)構(gòu)分析,可以獲得本發(fā)明實施例的核心構(gòu)思之一在于,根據(jù)解析獲得的PDF文件目標頁面的頁面大小信息,和預置分辨率信息(通常表示為一英寸中包含的像素數(shù)),計算輸出圖像的像素高度和寬度,然后在計算機內(nèi)存中為該輸出圖像分配相應大小的圖像存儲空間,再按照解析獲得的目標頁面的頁面描述指令,將字符、圖形及圖像數(shù)據(jù)描繪在該分配的圖像存儲空間中。以使對PDF文件的OCR識別操作可以簡單、快捷實現(xiàn),使用戶獲得較好的使用體驗。參考圖2,示出了本發(fā)明的一種PDF文件的光學字符識別方法實施例l的流程圖,具體可以包括以下步驟步驟201、在PDF文件中確定目標頁面,并獲取所述目標頁面的頁面大小4言息;步驟202、根據(jù)所述頁面大小信息和預置分辨率信息,在內(nèi)存中生成相應大小的圖像區(qū)域;步驟203、獲取所述目標頁面的頁面描述指令,提取所述頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息;步驟204、根據(jù)所述位置信息在所述圖像區(qū)域的相應位置繪制所述頁面內(nèi)容數(shù)據(jù);步驟205、對所述頁面內(nèi)容數(shù)據(jù)進行光學字符識別,獲得識別結(jié)果。可以理解的是,在本實施例中,對于PDF文件相關(guān)頁面的頁面大小信息及頁面描述指令的獲取,可以通過解析PDF文件的邏輯結(jié)構(gòu)和存儲結(jié)構(gòu)獲得。具體而言,PDF文件的解析原理為,由文件尾開始,通過提取根對象的間接對象序號,以及交叉引用表的位置(即交叉引用表開頭在文件中的字節(jié)位置),利用交叉引用表的對象索引功能,由根對象開始逐層解析。在實際中,所述預置分辨率信息可以由用戶設置,也可以是系統(tǒng)默認設置,還可以采用其它方法獲得,本發(fā)明對此不作限制。目前的PDF格式規(guī)范中包含七十多個頁面描述指令,包含了對字符、圖形、圖像等數(shù)據(jù)對象有關(guān)內(nèi)容、樣式、位置、大小信息的描述,因而,在本實施例中,所述頁面內(nèi)容數(shù)據(jù)可以包括圖像數(shù)據(jù)、圖形數(shù)據(jù)和/或字符數(shù)據(jù),在這種情況下,所述繪制頁面內(nèi)容數(shù)據(jù)的步驟204進一步可以包括以下子步驟子步驟S41、將所述圖像數(shù)據(jù)解碼轉(zhuǎn)換成位圖,在所述圖像區(qū)域的相應位置繪制所述位和/或,子步驟S42、直接在所述圖像區(qū)域的相應位置繪制所述圖形數(shù)據(jù);和/或,子步驟S43、根據(jù)所述字符數(shù)據(jù)的屬性信息生成字符圖像,在所述圖像區(qū)域的相應位置繪制所述字符圖像。為寸吏本領域4支術(shù)人員更好地理解本實施例,以下通過對上述PDF文件的示意表中的具體頁面描述指令解析過程為例進行說明。假設獲得所述示意表中60obj的PDF頁面描述指令如下'BT/F048.000Tf72細576.000Td(HelloWorld)TjET解析上述頁面描述指令為(一)"BT"表示開始字符對象操作,處理中需要完成回復初始坐標變換參數(shù)等初始化操作;(二)"/F048.000Tf,表示選用在本文件中標識名稱為F0的字體,字體縮放系數(shù)為48.0。文件中標識名稱F0的字體名稱為"Times-Roman",字符編碼名稱為"WinAns正ncoding",處理中將才艮據(jù)字體名稱加載對應的字體文件;(三)"72.000576.000Td,,表示以PDF頁面左下角作為坐標原點,將當前坐標移動到橫向距離72.0磅,縱向距離576.0磅的位置;(四)"(HelloWorld)Tj,,表示輸出字符序列"HelloWorld"。針對不同的字符,在加載的字體文件中找到對應的字符表示項,生成字符圖像并將其存儲到內(nèi)存中的頁面圖像區(qū)域中;(五)"ET"表示字符對象操作結(jié)束。如上例所示,一個頁面中所包含的頁面描述指令可能具有多條,在這種情況下,所述繪制頁面內(nèi)容數(shù)據(jù)的步驟204還可以包括以下子步驟子步驟S44、如果所述目標頁面還有下一條頁面描述指令,則繼續(xù)提取下一條頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息。此外,PDF格式規(guī)范指明,可以采用多種數(shù)據(jù)編碼壓縮方式對PDF對象進行壓縮,目前,PDF支持的編碼壓縮方式包括ASCIIHex、ASCI185、LZW、RunLength、CCITTGroup3,CCITTGroup4、JPEG、JPEG2000、Flate等,因此,在解析PDF頁面描述指令之前,如果所述頁面描述指令是經(jīng)過壓縮編碼的,那么本發(fā)明還可包括對所述頁面描述指令進行數(shù)據(jù)解碼處理的步驟。相應地,可以參考圖3,示出了本發(fā)明的一種PDF文件的圖像轉(zhuǎn)換繪制過程的流程圖,具體可以包括以下步驟步驟301、在PDF文件中確定目標頁面,并獲取所述目標頁面的頁面大小信息;步驟302、根據(jù)所述頁面大小信息和預置分辨率信息,在內(nèi)存中生成相應大小的圖像區(qū)域;步驟303、獲取所述目標頁面的頁面描述指令,判斷所述頁面描述指令是否經(jīng)過壓縮編碼,如果是,則執(zhí)行步驟304;如果否,則執(zhí)行步驟305;步驟304、對所述頁面描述指令進行數(shù)據(jù)解碼處理后,執(zhí)行步驟305;步驟305、提取第一條頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息;步驟306、判斷所述頁面內(nèi)容數(shù)據(jù)是否為圖像數(shù)據(jù),如果是,則執(zhí)行步驟307;如果否,則執(zhí)行步驟308;步驟307、將所述圖像數(shù)據(jù)解碼轉(zhuǎn)換成位圖,在所述圖像區(qū)域的相應位置繪制所述位圖后,執(zhí)行步驟308;步驟308、判斷所述頁面內(nèi)容數(shù)據(jù)是否為圖形數(shù)據(jù),如果是,則執(zhí)行步驟309;如果否,則執(zhí)行步驟310;步驟309、直接在所述圖像區(qū)域的相應位置繪制所述圖形數(shù)據(jù)后,執(zhí)行步驟310;步驟310、判斷所述頁面內(nèi)容數(shù)據(jù)是否為字符數(shù)據(jù),如果是,則執(zhí)行步驟311;如果否,則執(zhí)行步驟312;步驟311、根據(jù)所述字符數(shù)據(jù)的屬性信息生成字符圖像,在所述圖像區(qū)域的相應位置繪制所述字符圖像后,執(zhí)行步驟312;步驟312、判斷是否還有下一條頁面描述指令,如果是,則執(zhí)行步驟313;如果否,則結(jié)束當前頁面的圖像繪制;步驟313、繼續(xù)提取下一條頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息,并重新進入步驟306。參考圖4,示出了一種PDF文件的光學字符識別方法實施例2的流程圖,具體可以包括以下步驟步驟401、確定目標PDF文件;在實際中,通過獲得用戶請求識別的文件名,即可定位到相應的PDF文件。步驟402、在所述PDF文件中確定目標頁面,并獲耳又所述目標頁面的頁面大小信息;PDF作為一種結(jié)構(gòu)化的文件格式,其頁面與頁面之間具有不相關(guān)性,通過PDF文件的頁碼,即可以對PDF文件中的頁面進行隨才幾的訪問。因此,可以根據(jù)用戶指定的頁碼即可確定PDF文件中的相應頁面,在這種情況下,所述步驟402還可以包括以下子步驟子步驟4021、獲取所述PDF文件的頁碼信息;子步驟4022、判斷當前指定的頁碼在所述頁碼信息的范圍內(nèi),如果是,則執(zhí)行子步驟4023;如果否,則執(zhí)行步驟4024;子步驟4023、確定所述頁碼對應的頁面為目標頁面。子步驟4024、提示用戶出錯。步驟403、根據(jù)所述頁面大小信息和預置分辨率信息,在內(nèi)存中生成相應大小的圖像區(qū)域;步驟404、獲取所述目標頁面的頁面描述指令,提取所述頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息;步驟405、根據(jù)所述位置信息在所述圖像區(qū)域的相應位置繪制所述頁面內(nèi)容數(shù)據(jù);至此,所述內(nèi)存中的PDF頁面內(nèi)容數(shù)據(jù)已轉(zhuǎn)化為相應的圖像數(shù)據(jù)。步驟406、對所述頁面內(nèi)容數(shù)據(jù)進行光學字符識別,獲得識別結(jié)果;由于通過上述步驟已將所述頁面內(nèi)容數(shù)據(jù)處理為圖像數(shù)據(jù),因而,在本實施例中,采用現(xiàn)有技術(shù)中的任一種光學字符識別方法都是可行的,例如,一種光學字符識別的方法為(1)圖像數(shù)據(jù)預處理過程通過對PDF頁面轉(zhuǎn)換得到的圖像數(shù)據(jù)進行傾斜校正、形變校正、二值化等處理,以保證后期識別操作的有效性;(2)版面分析17主要進行文本圖像區(qū)域定位、表格識別、頁面信息理解等操作;(3)字符識別將圖像中的字符圖像轉(zhuǎn)換為字符的計算機內(nèi)部編碼表示形式,除中英文字符識別外,還可根據(jù)需要加入繁體、日文、韓文的支持;(4)用戶校對用戶可以對識別過程中出現(xiàn)的錯識進行糾正。當然,上述處理方法僅僅限于舉例,本領域技術(shù)人員采用其它光學字符識別方法也是可行的,本發(fā)明對此不需要進行限定。公知的是,PDF文件具有只讀性,然而,在某些情況下,是需要對PDF文件中的內(nèi)容進行編輯的,因而,本實施例還可以包括步驟407、將所述識別結(jié)果輸出為指定文件格式。根據(jù)OCR形成的識別結(jié)果,首先進行版面復原處理,即將識別數(shù)據(jù)重新組織為文本段落、表格等結(jié)構(gòu),然后導出為指定格式的文件,如RTF、DOC、TXT、EXCEL、WPS、UOML等可編輯的文件格式。在這種情況下,無論對于掃描圖像生成的PDF文件,還是使用應用軟件由計算機內(nèi)碼轉(zhuǎn)換生成的PDF文件,都可以按照字符、圖形、圖像等數(shù)據(jù)在原有頁面中的尺寸、位置、樣式,轉(zhuǎn)換為各種便于編輯的文件格式,從而有效解決了PDF文件內(nèi)容難以獲取和復用的難題,極大地減少了人工文件錄入、頁面排版以及文件校對的工作量。當然,上述輸出指定文件格式的方法可以采用現(xiàn)有技術(shù)中的任一種方法實現(xiàn),本發(fā)明對此不作限制。優(yōu)選的是,在本實施例中,還可以包括以下步驟將所述圖像區(qū)域內(nèi)的頁面內(nèi)容數(shù)據(jù)保存為圖像文件。所述保存的方法可以采用內(nèi)存數(shù)據(jù)的形式,也可以采用任意一種圖像格式保存在硬盤或其它存儲設備上,以提供給其它程序使用,本發(fā)明對此不作限制。對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術(shù)人員應該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術(shù)人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。參考圖5,示出了本發(fā)明的一種PDF文件的光學字符識'別裝置實施例1的結(jié)構(gòu)框圖,具體可以包括以下單元目標頁面確定單元501,用于在PDF文件中確定目標頁面;第一獲取單元502,用于獲取所述目標頁面的頁面大小信息;內(nèi)存分配單元503,用于根據(jù)所述頁面大小信息和預置分辨率信息,在內(nèi)存中生成相應大小的圖像區(qū)域;第二獲取單元504,用于獲取所述目標頁面的頁面描述指令;提取單元505,用于提取所述頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置化息5繪制執(zhí)行單元506,用于根據(jù)所述位置信息在所述圖像區(qū)域的相應位置繪制所述頁面內(nèi)容數(shù)據(jù);識別單元507,用于對所述頁面內(nèi)容數(shù)據(jù)進行光學字符識別,獲得識別結(jié)果。優(yōu)選的是,所述頁面內(nèi)容數(shù)據(jù)可以包括圖像數(shù)據(jù)、圖形數(shù)據(jù)和/或字符數(shù)據(jù),在這種情況下所述繪制執(zhí)行單元506可以包括以下子單元(附圖中無S561-S564,是否要增加有關(guān)S561-S564的圖示)圖像繪制子單元S561,用于將所述圖像數(shù)據(jù)解碼轉(zhuǎn)換成位圖,在所述圖像區(qū)域的相應位置繪制所述位和/或,圖形繪制子單元S562,用于直接在所述圖像區(qū)域的相應位置繪制所述圖形數(shù)據(jù);和/或,字符繪制子單元S563,用于根據(jù)所述字符數(shù)據(jù)的屬性信息生成字符圖像,在所述圖像區(qū)域的相應位置繪制所述字符圖像。在實際中,所述目標頁面中的頁面描述指令可能具有多條,在這種情況下所述繪制執(zhí)行單元506還可以包括循環(huán)子單元S564,用于在所述目標頁面還有下一條頁面描述指令時,繼續(xù)提取下一條頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息。此外,如果所述頁面描述指令是經(jīng)過壓縮編碼的,那么本實施例還可以包括數(shù)據(jù)解碼單元,用于在所述頁面描述指令經(jīng)過壓縮編碼時,對所述頁面描述指令進行數(shù)據(jù)解碼處理。參考圖6,示出了本發(fā)—明的一種PDF文件的光學字符識別裝置實施例2的結(jié)構(gòu)框圖,具體可以包括以下單元目標文件確定單元601,用于確定目標PDF文件;目標頁面確定單元602,用于在所述PDF文件中確定目標頁面;無S621-S622)頁碼獲取子單元6021,用于獲取所述PDF文件的頁碼信息;定位子單元6022,用于在當前指定的頁碼在所述頁碼信息的范圍內(nèi)時,確定所述頁碼對應的頁面為目標頁面。第一獲取單元603,用于獲取所述目標頁面的頁面大小信息;內(nèi)存分配單元604,用于根據(jù)所述頁面大小信息和預置分辨率信息,在內(nèi)存中生成相應大小的圖像區(qū)域;第二獲取單元605,用于獲取所述目標頁面的頁面描述指令;提取單元606,用于提取所述頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置"息5繪制執(zhí)行單元607,用于根據(jù)所述位置信息在所述圖像區(qū)域的相應位置繪制所述頁面內(nèi)容數(shù)據(jù);識別單元608,用于對所述頁面內(nèi)容數(shù)據(jù)進行光學字符識別,獲得識別結(jié)果;指定輸出單元609,用于將所述識別結(jié)果輸出為指定文件格式。優(yōu)選的是,在本實施例中,還可以包括保存單元,用于將所述圖像區(qū)域內(nèi)的頁面內(nèi)容數(shù)據(jù)保存為圖像文件。參考圖7,示出了應用圖6所示的優(yōu)選實施例進行PDF文件的OCR識別過程的流程圖,具體可以包括以下步驟步驟701、目標文件確定單元確定目標PDF文件;步驟702、目標頁面確定單元在所述PDF文件中確定目標頁面,第一獲取單元獲取所述目標頁面的頁面大小信息;步驟703、內(nèi)存分配單元根據(jù)所述頁面大小信息和預置分辨率信息,20在內(nèi)存中生成相應大小的圖像區(qū)域;步驟704、第二獲取單元獲取所述目標頁面的頁面描述指令,提取單元提取第一條頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息;步驟705、繪制執(zhí)行單元根據(jù)所述位置信息在所述圖像區(qū)域的相應位置繪制所述頁面內(nèi)容數(shù)據(jù);步驟706、識別單元對所述頁面內(nèi)容數(shù)據(jù)進行光學字符識別,獲得識別結(jié)果;步驟707、指定輸出單元將所述識別結(jié)果輸出為指定文件格式。對于裝置實施例而言,由于其基本相應于方法實施例,相關(guān)之處可以參見方法實施例的部分說明,在此不贅述。此外,在本發(fā)明的實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。本發(fā)明可以用于眾多通用或?qū)S玫挠嬎阆到y(tǒng)環(huán)境或配置中。例如個人計算機、服務器計算機、手持設備或便攜式設備、平板型設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程的消費電子設備、網(wǎng)絡PC、小型計算機、大型計算機、包括以上任何系統(tǒng)或設備的分布式計算環(huán)境等等。本發(fā)明還可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由通過通訊網(wǎng)絡而被連接的遠程處理設備來執(zhí)行任務。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設備在內(nèi)的本地和遠程計算機存儲介質(zhì)中。以上對本發(fā)明所提供的一種PDF文件的光學字符識別方法及一種PDF文件的光學字符識別裝置進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。權(quán)利要求1、一種PDF文件的光學字符識別方法,其特征在于,包括在PDF文件中確定目標頁面,并獲取所述目標頁面的頁面大小信息;根據(jù)所述頁面大小信息和預置分辨率信息,在內(nèi)存中生成相應大小的圖像區(qū)域;獲取所述目標頁面的頁面描述指令,提取所述頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息;根據(jù)所述位置信息在所述圖像區(qū)域的相應位置繪制所述頁面內(nèi)容數(shù)據(jù);對所述頁面內(nèi)容數(shù)據(jù)進行光學字符識別,獲得識別結(jié)果。2、如權(quán)利要求l所述的方法,其特征在于,所述頁面內(nèi)容數(shù)據(jù)包括圖像數(shù)據(jù)、圖形數(shù)據(jù)和/或字符數(shù)據(jù),所述繪制步驟進一步包括將所述圖像數(shù)據(jù)解碼轉(zhuǎn)換成位圖,在所述圖像區(qū)域的相應位置繪制所述位圖;和/或,直接在所述圖像區(qū)域的相應位置繪制所述圖形數(shù)據(jù);和/或,根據(jù)所述字符數(shù)據(jù)的屬性信息生成字符圖像,在所述圖像區(qū)域的相應位置繪制所述字符圖像。3、如權(quán)利要求2所述的方法,其特征在于,所述頁面描述指令具有多條,所述繪制步驟進一步包括如果所述目標頁面還有下一條頁面描述指令,則繼續(xù)提取下一條頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息。4、如權(quán)利要求1、2或3所述的方法,其特征在于,在提取頁面內(nèi)容數(shù)據(jù)及位置信息的步驟前,還包括如果所述頁面描述指令經(jīng)過壓縮編碼,則對所述頁面描述指令進行數(shù)據(jù)解碼處理。5、如權(quán)利要求1、2或3所述的方法,其特征在于,在確定目標頁面以前,還包4舌確定目標PDF文件。6、如權(quán)利要求5所述的方法,其特征在于,通過以下步驟確定目標頁面獲取所述PDF文件的頁碼信息;如果當前指定的頁碼在所述頁碼信息的范圍內(nèi),則確定所述頁碼對應的頁面為目標頁面。7、如權(quán)利要求2所述的方法,其特征在于,還包括將所述圖像區(qū)域內(nèi)的頁面內(nèi)容數(shù)據(jù)保存為圖像文件。8、如權(quán)利要求1或7所述的方法,其特征在于,還包括;將所述識別結(jié)果輸出為指定文件格式。9、一種PDF文件的光學字符識別裝置,其特征在于,包括目標頁面確定單元,用于在PDF文件中確定目標頁面;第一獲取單元,用于獲取所述目標頁面的頁面大小信息;內(nèi)存分配單元,用于根據(jù)所述頁面大小信息和預置分辨率信息,在內(nèi)存中生成相應大小的圖像區(qū)域;第二獲取單元,用于獲取所述目標頁面的頁面描述指令;提取單元,用于提取所述頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信自.繪制執(zhí)行單元,用于根據(jù)所述位置信息在所述圖像區(qū)域的相應位置繪制所述頁面內(nèi)容數(shù)據(jù);識別單元,用于對所述頁面內(nèi)容數(shù)據(jù)進行光學字符識別,獲得識別結(jié)果。10、如權(quán)利要求9所述的裝置,其特征在于,所述頁面內(nèi)容數(shù)據(jù)包括圖像數(shù)據(jù)、圖形數(shù)據(jù)和/或字符數(shù)據(jù),所述繪制執(zhí)行單元進一步包括圖像繪制子單元,用于將所述圖像數(shù)據(jù)解碼轉(zhuǎn)換成位圖,在所述圖像區(qū)域的相應位置繪制所述位圖;和/或,圖形繪制子單元,用于直接在所述圖像區(qū)域的相應位置繪制所述圖形數(shù)據(jù);和/或,字符繪制子單元,用于根據(jù)所述字符數(shù)據(jù)的屬性信息生成字符圖像,在所述圖像區(qū)域的相應位置繪制所述字符圖像。11、如權(quán)利要求IO所述的裝置,其特征在于,所述頁面描述指令具有多條,所述繪制執(zhí)行單元進一步包括循環(huán)子單元,用于在所述目標頁面還有下一條頁面描述指令時,繼續(xù)提取下一條頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息。12、如權(quán)利要求9、10或11所述的裝置,其特征在于,還包括數(shù)據(jù)解碼單元,用于在所述頁面描述指令經(jīng)過壓縮編碼時,對所述頁面描述指令進行數(shù)據(jù)解碼處理。13、如權(quán)利要求9、10或11所述的裝置,其特征在于,還包括目標文件確定單元,用于確定目標PDF文件。14、如權(quán)利要求13所述的裝置,其特征在于,所述目標文件確定單元進一步包括頁碼獲取子單元,用于獲取所述PDF文件的頁碼信息;定位子單元,用于在當前指定的頁碼在所述頁碼信息的范圍內(nèi)時,確定所述頁碼對應的頁面為目標頁面。15、如權(quán)利要求IO所述的裝置,其特征在于,還包括保存單元,用于將所述圖像區(qū)域內(nèi)的頁面內(nèi)容數(shù)據(jù)保存為圖像文件。16、如權(quán)利要求9或15所述的裝置,其特征在于,還包括;指定輸出單元,用于將所述識別結(jié)果輸出為指定文件格式。全文摘要本發(fā)明公開了一種PDF文件的光學字符識別方法,包括在PDF文件中確定目標頁面,并獲取所述目標頁面的頁面大小信息;根據(jù)所述頁面大小信息和預置分辨率信息,在內(nèi)存中生成相應大小的圖像區(qū)域;獲取所述目標頁面的頁面描述指令,提取所述頁面描述指令中的頁面內(nèi)容數(shù)據(jù)及位置信息;根據(jù)所述位置信息在所述圖像區(qū)域的相應位置繪制所述頁面內(nèi)容數(shù)據(jù);對所述頁面內(nèi)容數(shù)據(jù)進行光學字符識別,獲得識別結(jié)果。應用本發(fā)明可以實現(xiàn)對PDF文件的直接OCR識別操作,無需在多種軟件之間重復切換,簡化了用戶操作,減少了操作時間,并使用戶獲得較好的使用體驗。文檔編號G06K9/34GK101441713SQ20071017767公開日2009年5月27日申請日期2007年11月19日優(yōu)先權(quán)日2007年11月19日發(fā)明者迎丁,強劉,劉昌平,劉迎建,江世盛申請人:漢王科技股份有限公司