專利名稱:圖像處理裝置及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種圖像處理裝置及其方法,尤其涉及一種用于從文檔圖像生成可再使用的數(shù)據(jù)的圖像處理。
背景技術(shù):
隨著信息的數(shù)字化,更容易大范圍地共享和使用信息。尤其是,對將基于紙的文檔作為數(shù)字數(shù)據(jù)(數(shù)字文檔)再使用的需求日益增加。作為從基于紙的文檔(原稿)生成數(shù)字文檔的方法,已經(jīng)提出了一種讀取文檔圖像以搜索原始數(shù)字文檔的方法(日本專利3017851號)。
作為在上面的提案中提高搜索效率的例子,已經(jīng)提出了這樣一個系統(tǒng)讀取文檔圖像,然后對各塊圖像的對象進行矢量轉(zhuǎn)換,并基于文檔圖像的布局信息和各塊的矢量信息來搜索數(shù)字文檔。
而且,當(dāng)對文檔圖像進行矢量轉(zhuǎn)換并作為數(shù)字數(shù)據(jù)再使用時,防止篡改和安全保護的必要性在增加。例如,日本特開2004-164538號公報記載了一種判斷所讀取的圖像文檔是否是保密文檔的方法。即利用該技術(shù),預(yù)先登記保密文檔的復(fù)制偽造禁止圖案,并檢查所讀取的文檔圖像的復(fù)制偽造禁止圖案是否與所登記的復(fù)制偽造禁止圖案相匹配,從而檢查所讀取的圖像是否是保密文檔的圖像。
另外,有對各文檔改變安全等級的提案。然而,在搜索文檔圖像的數(shù)字文檔時,如果在感興趣的文檔中嵌入表示安全等級“不能進行對象的矢量轉(zhuǎn)換”的信息,則在搜索中所使用的對象的信息是不足的,因而影響滿意的搜索處理?;蚪?jīng)常需要非常長的搜索時間。
發(fā)明內(nèi)容
本發(fā)明的第一方面公開了一種圖像處理方法,包括以下步驟讀取步驟,用于讀取文檔圖像;提取步驟,用于提取所讀取的文檔圖像的附加信息;以及控制步驟,用于進行控制,以根據(jù)所提取的附加信息將應(yīng)用于該文檔圖像的矢量轉(zhuǎn)換限制為用于搜索的矢量轉(zhuǎn)換,該搜索用于搜索與該文檔圖像相對應(yīng)的數(shù)據(jù)文件。
一種圖像處理裝置,包括讀取器,用于讀取文檔圖像;提取器,用于提取所讀取的文檔圖像的附加信息;以及控制器,用于進行控制,以根據(jù)所提取的附加信息將應(yīng)用于該文檔圖像的矢量轉(zhuǎn)換限制為用于搜索的矢量轉(zhuǎn)換,該搜索用于搜索與該文檔圖像相對應(yīng)的數(shù)據(jù)文件。
本發(fā)明的第二方面公開了一種圖像處理方法,包括以下步驟讀取步驟,用于讀取文檔圖像;分割步驟,用于根據(jù)圖像區(qū)的屬性來分割所讀取的圖像;輸入步驟,用于輸入對分割后的圖像區(qū)中、被應(yīng)用矢量轉(zhuǎn)換的圖像區(qū)的指定;矢量轉(zhuǎn)換步驟,用于對所指定的圖像區(qū)的圖像進行矢量轉(zhuǎn)換;檢測步驟,用于通過搜索來檢測與所指定的圖像區(qū)的圖像相對應(yīng)的數(shù)據(jù)文件;生成步驟,用于使用分割后的圖像區(qū)的圖像、檢測到的數(shù)據(jù)文件和通過矢量轉(zhuǎn)換所獲得的矢量數(shù)據(jù)中的至少一個,生成可再使用的數(shù)據(jù);提取步驟,用于提取包括在所指定的圖像區(qū)中的附加信息;以及控制步驟,用于根據(jù)所提取的附加信息來控制該矢量轉(zhuǎn)換步驟、以及該檢測步驟和該生成步驟的操作。
一種圖像處理方法,包括讀取器,用于讀取文檔圖像;分割器,用于根據(jù)圖像區(qū)的屬性來分割所讀取的圖像;輸入部分,用于輸入對分割后的圖像區(qū)中、被應(yīng)用矢量轉(zhuǎn)換的圖像區(qū)的指定;轉(zhuǎn)換器,用于對所指定的圖像區(qū)的圖像進行矢量轉(zhuǎn)換;檢測器,用于通過搜索來檢測與所指定的圖像區(qū)的圖像相對應(yīng)的數(shù)據(jù)文件;生成器,用于使用分割后的圖像區(qū)的圖像、檢測到的數(shù)據(jù)文件和通過矢量轉(zhuǎn)換獲得的矢量數(shù)據(jù)中的至少一個,生成可再使用的數(shù)據(jù);提取器,用于提取包括在所指定的圖像區(qū)中的附加信息;以及控制器,用于根據(jù)所提取的附加信息來控制該轉(zhuǎn)換器、以及該檢測器和該生成器的操作。
根據(jù)本發(fā)明,在基于從文檔讀取的圖像搜索數(shù)據(jù)文件時,可提高搜索效率和搜索精度,同時保持高的安全性。
通過下面結(jié)合附圖的說明,本發(fā)明的其它特征和優(yōu)點將會顯而易見,其中,在整個附圖中相同的附圖標(biāo)記表示相同或相似的部分。
圖1是示出使用多功能外圍設(shè)備(MFP)對信息進行數(shù)字化的圖像處理系統(tǒng)的配置的框圖;圖2是示出MFP的配置的框圖;圖3是用于說明圖1中所示的圖像處理系統(tǒng)的處理概要的流程圖;圖4示出操作窗口的顯示例子;圖5A示出塊選擇結(jié)果的例子;圖5B示出塊選擇結(jié)果的例子;圖6是示出矢量轉(zhuǎn)換處理的細節(jié)的流程圖;圖7是用于說明在矢量轉(zhuǎn)換中的拐角提取處理的視圖;圖8是用于說明在矢量轉(zhuǎn)換中對輪廓線進行分組的處理的視圖;圖9是示出對通過矢量轉(zhuǎn)換生成的矢量數(shù)據(jù)進行分組處理的流程圖;圖10是示出對圖形要素進行檢測處理的流程圖;
圖11是示出對數(shù)據(jù)文件進行搜索處理的流程圖;圖12示出表示矢量轉(zhuǎn)換結(jié)果的中間數(shù)據(jù)的格式;圖13是示出轉(zhuǎn)換成應(yīng)用程序數(shù)據(jù)格式的處理的流程圖;圖14是示出文檔結(jié)構(gòu)樹生成處理(S1703)的細節(jié)的流程圖;圖15示出輸入圖像的例子;圖16示出從圖15中所示的圖像獲取的文檔結(jié)構(gòu)樹;圖17是用于說明考慮到包括不能進行矢量轉(zhuǎn)換的圖塊(segment)的情況的矢量轉(zhuǎn)換的流程圖;圖18和19是用于說明部分矢量轉(zhuǎn)換圖像數(shù)據(jù)的方法的視圖;以及圖20是用于說明根據(jù)本發(fā)明的第二實施例考慮到包括不能進行矢量轉(zhuǎn)換的圖塊的情況的矢量轉(zhuǎn)換的流程圖。
具體實施例方式
下面將參考附圖來詳細說明根據(jù)本發(fā)明優(yōu)選實施例的圖像處理。
第一實施例圖像處理系統(tǒng)圖1是示出圖像處理系統(tǒng)的配置的框圖,其中該圖像處理系統(tǒng)使用多功能外圍設(shè)備(MFP)作為功能被擴展了的記錄裝置對信息進行數(shù)字化。
在通過廣域網(wǎng)(WAN)104例如因特網(wǎng)等連接辦公室(或多個辦公室那樣的區(qū)域)10和20的環(huán)境下,來實現(xiàn)該圖像處理系統(tǒng)。
MFP 100、控制該MFP 100的管理PC 101、客戶端PC 102、文檔管理服務(wù)器106、以及由該文檔管理服務(wù)器106管理的數(shù)據(jù)庫服務(wù)器105等被連接到在辦公室10中構(gòu)建的局域網(wǎng)(LAN)107。辦公室10和20具有基本相同的配置。至少文檔管理服務(wù)器106、以及由該文檔管理服務(wù)器106管理的數(shù)據(jù)庫服務(wù)器105等被連接到在辦公室20中構(gòu)建的LAN 108。通過連接到LAN 107的代理服務(wù)器103、WAN 104、以及連接到LAN 108的另一代理服務(wù)器103,將辦公室10和20中的LAN 107和LAN 108相互連接。
MFP 100執(zhí)行用于讀取文檔圖像及處理所讀取的圖像的一些圖像處理。從MFP 100輸出的圖像信號通過通信線109輸入到管理PC 101。管理PC 101包括普通個人計算機(PC)。管理PC 101具有用于存儲圖像的存儲器,例如,硬盤等;由硬件或軟件實現(xiàn)的圖像處理器;監(jiān)視器,例如,CRT、LCD等;以及輸入單元,包括鼠標(biāo)、鍵盤等。管理PC 101的某些組件被集成與MFP 100構(gòu)成一體。注意,以下說明管理PC 101執(zhí)行后面將說明的搜索處理等的情況,但MFP 100可以執(zhí)行由管理PC 101執(zhí)行的處理。
MFP圖2是示出MFP 100的配置的框圖。
包括自動進稿器(auto document feeder,ADF)的圖像讀取器110用來自光源的光照射一個或多個堆疊的文檔中的每個上的圖像,并通過鏡頭在固態(tài)圖像傳感元件上形成由該文檔反射的光的圖像。然后,圖像讀取器110按光柵順序從該固態(tài)圖像傳感元件獲取所讀取的圖像信號(例如,600dpi,8位)。當(dāng)復(fù)制文檔時,數(shù)據(jù)處理器115將該讀取的圖像信號轉(zhuǎn)換為打印信號。當(dāng)在多個打印薄片上復(fù)制圖像時,數(shù)據(jù)處理器115將一頁的打印信號臨時存儲在存儲器單元111中,并將該打印信號重復(fù)輸出到打印機單元112,從而在多個打印薄片上形成圖像。
另一方面,從客戶端PC 102輸出的打印數(shù)據(jù)通過LAN 107輸入到網(wǎng)絡(luò)接口(I/F)114。由數(shù)據(jù)處理器115將該打印數(shù)據(jù)轉(zhuǎn)換為可打印的光柵數(shù)據(jù),并由打印機單元112將其在打印薄片上形成為圖像。
包括MFP 100上裝配的按鍵操作單元和管理PC 101的鍵盤及鼠標(biāo)的輸入單元113用于將操作者的指令輸入到MFP 100。顯示單元116顯示操作輸入及圖像處理狀態(tài)等。
由包括在數(shù)據(jù)處理器115中并包括例如單片微控制器的控制器115a來控制MFP 100的操作。
注意,存儲器單元111也可以由管理PC 101來控制。MFP 100和管理PC 101之間的數(shù)據(jù)交換和控制通過網(wǎng)絡(luò)I/F 117及直接連接它們的信號線109來進行。
注意,該MFP 100可包括作為輸入單元113的一部分的接口,該接口用于從圖像傳感裝置例如數(shù)字照相機或數(shù)字攝像機等、以及便攜式終端例如便攜式數(shù)字助理(PDA)、傳真機等獲取圖像數(shù)據(jù)。
用于識別用戶的用戶識別單元118被連接到輸入單元113。用戶識別單元118是例如IC卡讀取器、用于輸入ID或密碼的按鍵、或用于識別生物特征信息例如指紋、手印、毛細血管圖案以及虹膜等的生物特征辨識設(shè)備。用戶識別單元118輸入用于指定使用該MFP 100的用戶的信息(以下稱之為“用戶指定信息”),并通過輸入單元113將該用戶指定信息輸出到數(shù)據(jù)處理器115。
另外,設(shè)置表示MFP 100的每一用戶的安全等級的信息,并將其存儲在數(shù)據(jù)處理器115或管理PC 101的非易失性存儲器(例如,硬盤)中。因此,數(shù)據(jù)處理器115可以從任何一個非易失性存儲器中獲取與從用戶識別單元118輸入的用戶指定信息相對應(yīng)的安全等級。當(dāng)使用IC卡讀取器作為用戶識別單元118時,用戶識別單元118可以通知數(shù)據(jù)處理器115存儲在IC卡的存儲器中的安全等級。
在以下說明中,將數(shù)據(jù)處理器115獲取與由用戶識別單元118獲取的用戶指定信息相對應(yīng)的安全等級(或直接從用戶識別單元118獲取安全等級)的事件稱為“用戶認證”。
從輸入單元113或客戶端PC 102指示MFP 100將數(shù)據(jù)發(fā)送并存儲到管理PC 101。在這種情況下,通過數(shù)據(jù)處理器115將圖像讀取器110所讀取的或從客戶端PC 102接收的圖像信號轉(zhuǎn)換為打印信號,然后經(jīng)由網(wǎng)絡(luò)I/F 114(或117)將其發(fā)送或存儲在存儲器單元111。
而且,從輸入單元113將用于將文檔圖像轉(zhuǎn)換為可再使用的數(shù)字數(shù)據(jù)的指令發(fā)送到管理PC 101。在這種情況下,由圖像讀取器110讀取的圖像信號被管理PC 101進行矢量轉(zhuǎn)換(后面將對其進行說明),然后經(jīng)由網(wǎng)絡(luò)I/F 114(或117)將其發(fā)送或存儲在存儲器單元111中。
處理流程圖3是用于說明由上述圖像處理系統(tǒng)執(zhí)行的處理流程的流程圖。通過管理PC 101或數(shù)據(jù)處理器115或它們的組合來執(zhí)行該處理。
MFP 100執(zhí)行用戶認證(S300)。如果用戶認證失敗,則MFP100將相應(yīng)的消息顯示在顯示單元116上,并且不接受任何操作。如果用戶認證成功,則MFP 100使圖像讀取器110能夠按照光柵順序掃描一頁文檔圖像,從而獲取讀取的圖像信號。由數(shù)據(jù)處理器115預(yù)處理該讀取的圖像信號,并將其作為一頁輸入圖像的圖像數(shù)據(jù)保存在存儲器單元111中(S301)。
接著,管理PC 101對存儲在存儲器單元111中的圖像數(shù)據(jù)執(zhí)行塊選擇(block selection,BS)處理,以將該圖像數(shù)據(jù)分割為包括字符或線條圖像的文本和線條區(qū)、半色調(diào)照片區(qū)、具有中間形式的圖像區(qū)以及其它區(qū)。而且,將文本和線條區(qū)分割為主要包括字符的文本區(qū)和主要包括表格、圖形等的線條區(qū),并且將該線條區(qū)分割為表格區(qū)和圖區(qū)(S302)。注意,第一實施例檢測連接像素,并使用該連接像素的外接矩形區(qū)的形狀、大小、及像素密度等將圖像數(shù)據(jù)分割為各屬性的區(qū)。然而,還可以使用其它區(qū)域分割方法。
文本區(qū)被分割為矩形塊(文本區(qū)矩形塊),以將段落等的群(cluster)作為塊,例如。線條區(qū)被分割為各對象例如表格和圖形等的矩形塊(表格區(qū)矩形塊,線條區(qū)矩形塊)。由半色調(diào)表現(xiàn)的照片區(qū)被分割為矩形塊,例如圖像區(qū)矩形塊、背景區(qū)矩形塊等。注意,以下將這些矩形塊的信息稱作“塊分割信息”。
如圖4中所示,數(shù)據(jù)處理器115對通過BS處理所獲得的塊分割信息和輸入圖像進行合成,并將它們顯示在顯示單元116的操作窗口上(S303)。輸入圖像本身被顯示在操作窗口的左側(cè),而塊分割信息被作為矩形塊顯示在右側(cè)。注意,圖4示出表示與各塊相對應(yīng)的屬性的字符串TEXT(文本)、PICTURE(圖形)、LINE(線)和TABLE(表格)等,以便易于理解矩形塊。然而,在實際的操作窗口上不顯示這樣的屬性信息,并且矩形塊被顯示為框邊。屬性信息TEXT表示文本屬性;PICTURE表示圖形屬性;PHOTO表示照片屬性;LINE表示線條屬性;TABLE表示表格屬性。當(dāng)然,除了圖4中所示的輸入圖像和塊分割信息的并列顯示外,它們還可以相互重疊,以便將矩形塊顯示在輸入圖像上。因此,可以利用各種其它的顯示模式。
接著,用戶從操作窗口上所顯示的矩形塊(圖塊)中指定將被矢量轉(zhuǎn)換的矩形塊(S304)??梢圆捎酶鞣N方法作為指定塊的方法。例如,用戶可以使用指示設(shè)備指定一個或多個圖塊??蛇x地,操作窗口可以包括觸摸式面板,用戶可以利用手指通過觸摸它來指定所期望的圖塊。
管理PC 101提取所指定的塊的圖像數(shù)據(jù),以將下列處理應(yīng)用于由數(shù)據(jù)處理器115通知的該所指定的塊(S305)。管理PC 101執(zhí)行矢量轉(zhuǎn)換,以將所指定的塊的所提取的圖像數(shù)據(jù)轉(zhuǎn)換為矢量數(shù)據(jù)(S306)。如果所指定的塊具有照片屬性,則不對該圖像數(shù)據(jù)進行矢量轉(zhuǎn)換。
接著,管理PC 101搜索包括所指定的塊的圖像的數(shù)據(jù)文件(或其原始數(shù)據(jù)文件)(S307)。如果原稿中有折疊,或當(dāng)光柵掃描原稿時讀取圖像的精度低,則獲得有噪聲的讀取信號,因而原稿的讀取的質(zhì)量低。另一方面,該被搜索的數(shù)據(jù)文件對應(yīng)于在形成原稿圖像時使用的原始數(shù)據(jù)的可能性高,并且該被搜索的數(shù)據(jù)文件的數(shù)據(jù)的質(zhì)量高。搜索位置包括存儲器單元111、文檔管理服務(wù)器106(數(shù)據(jù)庫服務(wù)器105)以及客戶端PC 102的本地硬盤等。在這種情況下,從所指定的塊的光學(xué)字符識別(OCR)結(jié)果中提取關(guān)鍵詞,并進行包括該關(guān)鍵詞的文檔的全文搜索。可選地,可以參考所指定的塊的矢量數(shù)據(jù),進行搜索,該搜索基于以下信息,例如矩形或特定圖形的有/無、表格格式的數(shù)據(jù)的有/無等。另外,可以進行使用從位置關(guān)系或布局等獲得的布局信息的所謂的布局搜索。
如果作為搜索結(jié)果檢測到具有較高相似性的數(shù)據(jù)文件,則管理PC 101將候選的數(shù)據(jù)文件作為搜索結(jié)果顯示在顯示單元116上(S308)。在這種情況下,最好是按照相似性的遞減順序列出數(shù)據(jù)文件,并一起顯示這些候選數(shù)據(jù)文件的縮略圖。如果存在多個候選數(shù)據(jù)文件,即如果操作者必須選擇數(shù)據(jù)文件,則從多個候選項中進行選擇的消息被顯示在顯示單元116上,以提示操作者選擇數(shù)據(jù)文件。作為對該提示的響應(yīng),用戶指定數(shù)據(jù)文件。當(dāng)用戶判斷出難以確定原始數(shù)據(jù)文件時,他或她可以省略該處理。如果僅發(fā)現(xiàn)了一個候選數(shù)據(jù)文件,并具有較高的相似性,則可以跳過步驟S308,流程進入步驟S310。
管理PC 101檢查是否指定了數(shù)據(jù)文件(S309)。如果沒有數(shù)據(jù)文件被指定,則流程跳到步驟S312。如果指定了數(shù)據(jù)文件,則管理PC 101檢查所指定的數(shù)據(jù)文件是否具有光柵格式或是否是通過編碼由BMP、TIFF等表示的光柵數(shù)據(jù)而獲得的圖像數(shù)據(jù)文件(S310)。如果所指定的數(shù)據(jù)文件具有光柵格式或者是BMP或TIFF的圖像數(shù)據(jù)文件,則流程跳到步驟S312。另一方面,如果所指定的數(shù)據(jù)文件具有例如易于再使用的字符代碼或矢量數(shù)據(jù)等的數(shù)據(jù)格式,則獲取該數(shù)據(jù)文件(S311),然后流程進入步驟S312。
如果沒有指定數(shù)據(jù)文件或者如果所指定的數(shù)據(jù)文件是與輸入的圖像數(shù)據(jù)相同的光柵數(shù)據(jù)格式的數(shù)據(jù)文件,則將在步驟S306中生成的矢量數(shù)據(jù)轉(zhuǎn)換為應(yīng)用程序數(shù)據(jù)格式。如果獲取了具有易于再使用的數(shù)據(jù)格式的原始數(shù)據(jù),則將所獲取的數(shù)據(jù)轉(zhuǎn)換為應(yīng)用程序數(shù)據(jù)格式(S312)。該處理將所獲取的數(shù)據(jù)轉(zhuǎn)換為用于不同目的的文件格式,因為數(shù)據(jù)格式依賴于所使用的應(yīng)用程序。例如,作為代表性應(yīng)用程序軟件的文字處理器軟件和電子數(shù)據(jù)表軟件等定義用于不同目的的文件格式,必須以這樣的格式生成數(shù)據(jù)文件。
作為通用文件格式,有例如,由Microsoft提出的Rich TextFormat(RTF)格式以及近年來已經(jīng)普及并由萬維網(wǎng)聯(lián)盟(W3C)提出的Scalable Vector Graphics(SVG)格式。另外,可以使用僅簡單處理文本數(shù)據(jù)的純文本格式等。在各種應(yīng)用程序軟件中通常更有可能使用這些數(shù)據(jù)格式。
重復(fù)步驟S305到S312中的處理,直到在步驟S313判定所有所指定的塊被轉(zhuǎn)換為應(yīng)用程序數(shù)據(jù)格式。當(dāng)然,如果指定一個包括所有所指定的塊的數(shù)據(jù)文件作為原始數(shù)據(jù)文件,則僅需要執(zhí)行一次步驟S305到S312中的處理。
在第一實施例中,所指定的塊被轉(zhuǎn)換為矢量數(shù)據(jù),其它塊作為輸入的圖像數(shù)據(jù)保持不變,并將它們合成并轉(zhuǎn)換為上述的應(yīng)用程序數(shù)據(jù)格式。此時,保存所指定的塊在輸入圖像中的位置信息以重建整個輸入圖像。
利用上面的結(jié)構(gòu),僅將用戶選擇的塊(所指定的塊)轉(zhuǎn)換為可以易于再使用(編輯等)的矢量數(shù)據(jù)。另外,可以防止無意地對不能或不應(yīng)該進行矢量轉(zhuǎn)換的塊例如照片屬性的圖塊進行矢量轉(zhuǎn)換。
下面對圖3中所示的主要步驟的處理進行詳細說明。
塊選擇(S302)塊選擇是這樣的處理用于將圖4中所示的一頁的圖像識別為一組對象;判定各個對象的屬性為TEXT、PICTURE、PHOTO、LINE和TABLE;并將它們分割成具有不同屬性的圖塊(塊)。下面將說明塊選擇的實際例子。
待處理的圖像被二進制化為單色圖像,并通過輪廓線跟蹤來提取由黑色像素所包圍的像素群。對于具有預(yù)定面積或更大面積的黑色像素群,還對該群中的白色像素進行輪廓線跟蹤,以提取白色像素群。此外,遞歸重復(fù)黑色和白色像素群的提取,以便從具有預(yù)定面積或更大面積的白色像素群中提取黑色像素群。
生成外接以這種方式所獲得的像素群的矩形塊,并基于該矩形塊的大小和形狀來判定它們的屬性。例如,具有高寬比近似為1及具有落入預(yù)定范圍內(nèi)的大小的像素群被判定為文本屬性的像素群。而且,當(dāng)該文本屬性的相鄰像素群規(guī)則排列并可被分組時,將其判定為文本區(qū)。另外,具有小高寬比的低像素群被歸類為線塊。另外,由具有預(yù)定大小或更大并近似為矩形形狀、包括規(guī)則排列的矩形白色像素群的黑色像素群所占據(jù)的范圍被歸類為表格區(qū)。而且,分布有不確定形式的像素群的區(qū)域被歸類為照片區(qū)。其它具有任意形狀的像素群被歸類為圖區(qū)。
圖5A和5B示出塊選擇結(jié)果的例子。圖5A示出每個所提取的矩形塊的塊信息。該塊信息包括每個塊的屬性、位置坐標(biāo)X和Y、寬度W、高度H、OCR信息等。由數(shù)值1到5給出該屬性“1”表示文本屬性;“2”表示圖形屬性;“3”表示表格屬性;“4”表示線條屬性;“5”表示照片屬性。坐標(biāo)X和Y表示輸入圖像的每個矩形塊的起點的X和Y坐標(biāo)(左上角的坐標(biāo)),寬度W和高度H表示矩形塊在X坐標(biāo)方向的寬度和在Y坐標(biāo)方向的高度,而OCR信息表示有/無OCR信息。
圖5B示出表示由塊選擇所提取的矩形塊的總數(shù)的輸入文件信息。
每個矩形塊的塊信息被用于該所指定的塊的矢量轉(zhuǎn)換?;谠搲K信息,可以指定矢量轉(zhuǎn)換后的所指定的塊和光柵數(shù)據(jù)之間的相對位置關(guān)系,而且可以合成矢量轉(zhuǎn)換后的塊和光柵數(shù)據(jù)塊,而不破壞輸入圖像的布局。
矢量轉(zhuǎn)換(S306)對于矢量轉(zhuǎn)換,可以利用以下方案。
(a)在文本屬性的指定塊的情況下,通過OCR處理將字符圖案轉(zhuǎn)換為字符代碼,或通過識別字符的大小、樣式和外觀將其轉(zhuǎn)換為忠實于視覺的字體數(shù)據(jù)。
(b)在不能通過OCR處理進行字符識別的線或文本屬性的指定塊的情況下,跟蹤線條圖像或字符的輪廓,并將輪廓信息轉(zhuǎn)換為將該線條圖像或字符表示為線段連接的格式。
(c)在圖形屬性的指定塊的情況下,跟蹤圖形對象的輪廓,并將輪廓信息轉(zhuǎn)換為將輪廓信息表示為線段連接的格式。
(d)通過方案(b)或(c)所獲得的線段格式的輪廓信息經(jīng)過Bezier函數(shù)的擬合被轉(zhuǎn)換為函數(shù)信息。
(e)基于由方案(c)所獲得的圖形對象的輪廓信息來識別圖形的形狀,并將其轉(zhuǎn)換為圖定義信息例如圓、矩形、或多邊形等。
(f)在表格屬性的指定塊的情況下,識別格線和框邊,并將其轉(zhuǎn)換為預(yù)定格式的表格信息。
除上述方案之外,還有用例如代碼信息、圖形信息、或函數(shù)信息等命令定義類型信息來代替圖像數(shù)據(jù)的各種矢量轉(zhuǎn)換。
文本區(qū)的矢量轉(zhuǎn)換圖6是示出矢量轉(zhuǎn)換(S306)的細節(jié)的流程圖,該處理是由數(shù)據(jù)處理器115(或管理PC 101)執(zhí)行的處理。
通過參考塊信息來檢查感興趣的圖塊是否是文本屬性的圖塊(S901)。如果該感興趣的圖塊是文本屬性的圖塊,則流程進入步驟S902,以使用任意的模式匹配方案來進行字符識別,從而獲得對應(yīng)的字符代碼。
如果感興趣的圖塊不是文本屬性的圖塊,則執(zhí)行基于圖像輪廓的矢量轉(zhuǎn)換(S912),稍后將對其詳細說明。
在文本屬性的圖塊的情況下,計算像素值的水平和垂直投影以判定是水平書寫還是垂直書寫(以判定排版的方向)(S902)。估計投影的分布(S903)。如果水平投影的分布較大,則判定為水平書寫;如果垂直投影的分布較大,則判定為垂直書寫?;谠撆卸ńY(jié)果來分割行,然后分割字符,從而獲取字符圖像(S904)。
在分解為字符串或字符時,在水平書寫的情況下,使用水平投影來分割行,并基于所分割的行的垂直投影來分割字符。對于垂直書寫文本區(qū),使用垂直投影來分割列,并根據(jù)所分割的列的水平投影來分割字符。注意,在分割行和字符時,還可以檢測每一字符大小。
接著,對于每個所分割的字符,生成通過將從字符圖像獲得的特征轉(zhuǎn)換為幾十維的數(shù)值串而獲得的觀察特征矢量(S905)。特征矢量提取可使用各種已知的方法。例如,可以使用以下方法。即,將字符分割為網(wǎng)格,將形成網(wǎng)格中的字符的線作為依賴于方向的線要素來計數(shù),并將維數(shù)與網(wǎng)格數(shù)相同的矢量定義為特征矢量。
將觀察特征矢量與對各個字符類型計算的并被存儲在特征字典中的特征矢量進行比較,以計算這些矢量之間的距離(S906)。估計所計算的距離,并將具有最短距離的字符類型判定為識別結(jié)果(S907)?;谠摼嚯x的評估結(jié)果,將最短距離和閥值進行比較。如果該最短距離小于該閥值,則判定相似性高;反之,則判定相似性低(S908)。如果該最短距離等于或大于該閥值(如果相似性低),則感興趣的字符圖像很可能被錯誤地識別為具有相似形狀的另一字符。因此,不采用步驟S907中的識別結(jié)果,以與線條圖像一樣的方式來處理該字符圖像,并對該字符圖像的輪廓進行矢量轉(zhuǎn)換(S911)。換句話說,對于有很大可能被錯誤識別的字符圖像,生成忠實于視覺的輪廓矢量數(shù)據(jù)。
另一方面,如果相似性高,則采用步驟S907中的識別結(jié)果,將字體信息和字符代碼一起輸出,從而識別該字符字體(S909)。注意,對應(yīng)于字符形狀類型即字體類型,來編制與在字符識別中使用的字符類型一樣多的多個特征字典,從而實現(xiàn)字體識別。隨后,參考通過字符識別和字體識別獲的的字符代碼和字體信息,使用按照該字符代碼和字體信息預(yù)先編制的輪廓數(shù)據(jù),將每個字符轉(zhuǎn)換為矢量數(shù)據(jù)(S910)。在彩色圖像數(shù)據(jù)的情況下,提取字符的顏色,并將其與矢量數(shù)據(jù)一起進行記錄。
利用上述處理,包括在文本屬性的圖塊中的字符圖像可被轉(zhuǎn)換為具有基本忠實的形狀、大小、及顏色的矢量數(shù)據(jù)。
非文本區(qū)的矢量轉(zhuǎn)換(S912)對于非文本屬性的圖塊,即被判定為圖形、線條、及表格屬性的圖塊,提取黑色像素群,并將其輪廓轉(zhuǎn)換為矢量數(shù)據(jù)。注意,照片屬性的圖塊作為圖像數(shù)據(jù)保持不變,而無需進行矢量轉(zhuǎn)換。
非文本區(qū)的區(qū)域的矢量轉(zhuǎn)換檢測將曲線分割為多個部分(像素陣列)的“拐角”,以便將線條圖像等表示為直線和/或曲線的組合。圖7是用于說明矢量轉(zhuǎn)換中的拐角提取處理的視圖。拐角是對應(yīng)于最大曲率的點,并通過如下方法來判斷圖7所示的曲線上的像素Pi是否為拐角。
像素Pi被定義為起點,從像素Pi通過預(yù)定的像素數(shù)k沿線條圖像曲線的兩個方向分開的像素Pi-k和Pi+k通過線段L連接。假定d1為像素Pi-k和Pi+k之間的距離,d2為從像素Pi畫出與線段L垂直相交的線段的長度(像素Pi和線段L之間的距離)。如果d2最大化或者如果像素Pi-k和Pi+k之間的弧長A與距離d1的比率d1/A等于或小于預(yù)定的閥值時,則像素Pi被判定為拐角。
在檢測到拐角之后,由該拐角分割的線條圖像曲線的像素陣列由直線或曲線來近似。通過最小二乘法等來執(zhí)行近似為直線,而使用三次樣條函數(shù)等來執(zhí)行近似為曲線。分割像素陣列的拐角處的像素成為近似直線或曲線的起點或終點。
而且,檢查在矢量轉(zhuǎn)換后的輪廓中是否存在白色像素群的內(nèi)部輪廓。如果這樣的內(nèi)部輪廓存在,則對該輪廓進行矢量轉(zhuǎn)換,并對黑色和白色像素群的內(nèi)部輪廓進行遞歸矢量轉(zhuǎn)換,獲取每個內(nèi)部輪廓中的內(nèi)部輪廓。
如上所述,使用通過直線或曲線近似輪廓的劃分線(partialline)的方法,可對任意形狀的圖形的輪廓進行矢量轉(zhuǎn)換。當(dāng)輸入圖像為彩色圖像時,從該彩色圖像中提取該圖形的顏色,并將其與矢量數(shù)據(jù)一起進行記錄。
圖8是用于說明矢量轉(zhuǎn)換中對輪廓線進行分組的處理的視圖。
當(dāng)在輪廓的感興趣部分內(nèi)外部輪廓PRj靠近內(nèi)部輪廓PRj+1或者另一外部輪廓時,結(jié)合兩個、三個或多個輪廓以表示具有給定寬度的線。例如,計算輪廓PRj+1上的像素Pi與輪廓PRj上距離像素Pi最近的像素Qi的之間的距離PQi。當(dāng)多個像素之間的距離PQi的變化很小時,通過沿線段PQi的中點Mi的點序列的直線或曲線來近似輪廓PRj和PRj+1的感興趣的部分。可以將沿中點Mi的點序列的近似直線或曲線的寬度設(shè)置為距離PQi的平均值。
通過將作為一組線的線或表格的格線表示為一組具有寬度的線,可以有效地對其進行矢量轉(zhuǎn)換。
圖形的識別在將線圖形等的輪廓進行矢量轉(zhuǎn)換后,對每個圖形對象分組矢量轉(zhuǎn)換后的劃分線。
圖9是示出由矢量轉(zhuǎn)換生成的矢量數(shù)據(jù)的分組處理,即對每一圖形對象分組矢量數(shù)據(jù)的處理的流程圖。
計算每個矢量數(shù)據(jù)的起點和終點(S1401),以使用該起點和終點的信息來檢測圖形要素(S1402)。注意,該圖形要素是由劃分線形成的閉合圖形,在檢測時,在用作起點和終點的共同拐角像素處連接矢量。即應(yīng)用形成閉合形狀的矢量組具有連接到其兩個端點的矢量的原理。
接著,檢查在該圖形要素中是否存在另一圖形要素或劃分線(S1403)。如果存在這樣的圖形要素或劃分線,則遞歸重復(fù)步驟S1401和S1402。然后,將這些要素或線進行分組以形成圖形對象(S1404)。如果在該圖形要素不存在其它圖形要素或者劃分線,則將該圖形要素定義為一個圖形對象(S1405)。
注意,圖9示出僅對一個圖形對象的處理。如果存在另一圖形對象,則照此重復(fù)圖9中的處理。
圖形要素的檢測(S1402)圖10是示出圖形要素的檢測處理的流程圖。
從矢量數(shù)據(jù)中排除兩端沒有被連接到其他矢量的矢量,以提取形成閉合圖形的矢量(S1501)。
對于形成閉合圖形的矢量,將感興趣的矢量的一個端點(起點或終點)設(shè)置為開始點,并沿預(yù)定的方向(例如,順時針)搜索矢量。即,在另一端點處搜索另一矢量的端點,并將預(yù)定距離內(nèi)的最近的端點定義為將要被連接的矢量的端點。當(dāng)形成閉合圖形的全部矢量被跟蹤一次直至到達開始點時,所有經(jīng)過的矢量被分組為形成一個圖形要素的閉合圖形(S1502)。另外,對在該閉合圖形內(nèi)呈現(xiàn)的形成閉合圖形的所有矢量進行遞歸分組。而且,沒有被分組的矢量的起點被設(shè)置為開始點,以重復(fù)相同的處理。
在被排除的矢量中,檢測端點靠近被分組為閉合圖形的矢量的矢量(連接到閉合圖形的矢量),并將檢測到的矢量分入該組(S1503)。
利用上述處理,可以將圖形塊作為獨立再使用的圖形對象進行處理。
一般來說,不需要總是將上述矢量轉(zhuǎn)換應(yīng)用于整個輸入圖像,而通常僅將其應(yīng)用于用戶所指定的塊就足夠了。通過僅對用戶的指定的塊應(yīng)用矢量轉(zhuǎn)換,可以改善處理性能,并僅對用戶所期望的塊有效地進行矢量轉(zhuǎn)換。然后,矢量數(shù)據(jù)可被用在接下來的搜索處理中,或者可以僅對所需要的圖像的塊進行有效地再編輯或再使用。
文件搜索(S307)圖11是示出數(shù)據(jù)文件搜索處理的流程圖。假定作為BS處理結(jié)果,輸入圖像被分割為圖4中所示的矩形塊,以獲取5A和5B中所示的塊信息和輸入文件信息,并保持由用戶所指定的塊的矢量數(shù)據(jù)。
如圖5A和5B所示,對塊1~6的六個圖塊記錄屬性、坐標(biāo)、寬度、高度以及OCR信息的有/無,并將它們的屬性分別歸類為文本、表格、圖形、文本、表格和照片。輸入文件信息的塊的總數(shù)表示輸入圖像中的圖塊的總數(shù)。塊的總數(shù)為N=6。在塊信息中,將圖塊按照坐標(biāo)X的升序進行分類,如果它們具有相同的坐標(biāo)X,則按照坐標(biāo)Y的升序進行分類。使用這些信息,例如,參考登記在數(shù)據(jù)庫服務(wù)器105中的數(shù)據(jù)文件的塊信息(或類似于塊信息的信息),來搜索與所指定的塊的圖像相類似的數(shù)據(jù)文件。
首先執(zhí)行初始化以將相似比(ratio of similarity)(后面對其進行說明)初始化為0(S1101)。檢查是否存在具有與輸入文件信息的塊的總數(shù)N的差落在預(yù)定值范圍(N-ΔN<n≤N+ΔN)內(nèi)的塊的總數(shù)的數(shù)據(jù)文件(S1102)。如果不滿足該條件,則流程跳到步驟S1114。
如果發(fā)現(xiàn)滿足該條件的數(shù)據(jù)文件,則對該數(shù)據(jù)文件的矩形塊信息和輸入圖像的矩形塊信息進行比較,從上面的圖塊開始依次進行屬性的比較(S1103)、大小的比較(S1105)以及OCR信息的有/無的比較(S1107)。如果圖塊的屬性匹配,則更新屬性相似比(S1104)。如果大小匹配,則更新大小相似比(S1106)。如果有OCR信息,則比較兩個OCR信息(S1108),并更新OCR信息的相似比(S1109)。檢查是否完成記錄在輸入圖像的矩形塊信息中的所有圖塊的比較(S1110)。如果還有待比較的圖塊,則流程返回到步驟S1103以對下一圖塊進行比較。
如果屬性不匹配,則不更新任何相似比。如果大小不匹配,則不更新大小相似比和OCR信息相似比。如果無OCR信息,則不更新OCR信息相似比。之后,流程跳到步驟S1110。
一旦完成所有圖塊的比較,則基于屬性相似比、大小相似比以及OCR信息相似比,計算待比較的數(shù)據(jù)文件的總的相似比(S1111),并檢查總的相似比是否超過預(yù)先設(shè)置的閥值Th(S1112)。如果總的相似比超過了該閥值Th,則將該數(shù)據(jù)文件作為候選進行記錄(S1113)。
檢查是否完成與登記在數(shù)據(jù)庫服務(wù)器105中的所有數(shù)據(jù)文件的比較(S1114)。如果還有待比較的數(shù)據(jù)文件,則流程返回到步驟S1101以對下一數(shù)據(jù)文件進行比較。一旦完成數(shù)據(jù)文件的比較,在步驟S308將作為候選被記錄的數(shù)據(jù)文件以列表顯示在操作窗口。
通過計算例如相似性+1/N(N為總的塊數(shù))來更新屬性相似比。當(dāng)大小差落在預(yù)定范圍W-ΔW<w<W+ΔW和H-ΔH<h<H+ΔH內(nèi)時,判定大小匹配。另外,通過將1-(w-W)/W(W為輸入圖像的感興趣的圖塊的大小)定義為每一圖塊的大小相似比并計算所有圖塊的大小相似比的平均值,來更新大小相似比。而且,通過由比較OCR信息的字符串計算匹配的字符比、并計算所有圖塊的OCR相似比的平均值,來更新OCR信息相似比。而且,通過計算相似比的總和,可以計算總的相似比。可選地,可以對各個相似比給出預(yù)定的權(quán)重,并計算它們的總和。
注意,不僅可以添加圖塊的大小比較,而且可以添加位置信息(坐標(biāo)X和Y)的比較。
在上述處理中,可以在文件搜索(S307)中使用如下矢量數(shù)據(jù)在步驟S306對用戶所指定的塊生成的矢量數(shù)據(jù)、由OCR處理獲取的字符代碼信息、表示垂直/水平書寫等的布局信息、圖形識別的圖形的數(shù)量和布局、以及字體識別的文檔中的字體信息等。
通過該方式,除由BS處理獲得的布局信息外,在文件搜索中的相似比計算中,使用用戶感興趣的(用戶所指定的)塊的詳細矢量數(shù)據(jù)。因而,可以縮短文件搜索時間,并可以提高其精度。在文件搜索中,由于可以增加所指定的塊的矢量數(shù)據(jù)的權(quán)重,并可以通過在用戶感興趣的部分附加重要度來計算相似比,因此可以獲得滿足用戶要求的搜索結(jié)果。
轉(zhuǎn)換為應(yīng)用程序數(shù)據(jù)格式(S312)圖12示出表示矢量轉(zhuǎn)換結(jié)果的中間數(shù)據(jù)的格式。以被稱為文檔分析輸出格式(DAOF)的格式來保存中間數(shù)據(jù)。
DAOF包括頭1601、布局描述數(shù)據(jù)字段1602、字符識別描述數(shù)據(jù)字段1603、表格描述數(shù)據(jù)字段1604、及圖像描述數(shù)據(jù)字段1605。該頭1601保持關(guān)于待處理的輸入圖像的信息。
該布局描述數(shù)據(jù)字段1602保持表示輸入圖像中的矩形圖塊的屬性信息,例如,TEXT、TITLE(題目)、CAPTION(標(biāo)題)、LINE、PICTURE、FRAME(框)、TABLE以及PHOTO等,以及這些矩形圖塊的位置信息。
該字符識別描述數(shù)據(jù)字段1603保持字符識別結(jié)果,該字符識別結(jié)果是通過對在文本屬性例如TEXT、TITLE以及CAPTION等的矩形圖塊中由用戶所指定的塊執(zhí)行字符識別而獲得的。
該表格描述數(shù)據(jù)字段1604保持表格屬性的矩形圖塊的表格結(jié)構(gòu)的細節(jié)。該圖像描述數(shù)據(jù)字段1605保持從圖形屬性或線條屬性的矩形圖塊中的輸入圖像數(shù)據(jù)中分割的圖像數(shù)據(jù)。
矢量轉(zhuǎn)換后所指定的塊的圖像描述數(shù)據(jù)字段1605保持表示由矢量轉(zhuǎn)換所獲得的圖塊的內(nèi)部結(jié)構(gòu)、圖像形狀、字符代碼等的一組數(shù)據(jù)。另一方面,圖像描述數(shù)據(jù)字段1605保持除所指定的塊以外的未經(jīng)過矢量轉(zhuǎn)換的圖塊本身的輸入圖像數(shù)據(jù)。
圖13是示出轉(zhuǎn)換為應(yīng)用程序數(shù)據(jù)格式的處理的流程圖。
輸入DAOF格式的數(shù)據(jù)(S1701),并生成作為應(yīng)用程序數(shù)據(jù)的基礎(chǔ)的文檔結(jié)構(gòu)樹(S1702)。基于該文檔結(jié)構(gòu)樹來獲取DAOF中的真實數(shù)據(jù),以生成應(yīng)用程序數(shù)據(jù)(S1703)。
圖14是示出文檔結(jié)構(gòu)樹生成處理的細節(jié)的流程圖(S1703)。作為在該處理中的全面控制的基本規(guī)則,處理的流程從小塊(microblock)(單個矩形塊)轉(zhuǎn)變?yōu)榇髩K(macroblock)(一組矩形塊)。在下面的說明中,“矩形塊”指小塊和大塊二者。
基于垂直方向上的相關(guān)性對各個矩形塊進行矩形塊分組(S1801)。注意,通常反復(fù)執(zhí)行圖14中所示的處理。處理一開始后,就對各個小塊進行判定。注意,可以通過表示相鄰的矩形塊之間的距離是否小、矩形塊是否具有幾乎相同的塊寬度(在水平方向的情況下為高度)等特征,來定義該相關(guān)性??梢詤⒖糄AOF來提取距離、寬度和高度等的信息。
例如,在圖15所示的輸入圖像的情況下,矩形塊T1和T2沿水平方向并排放置在其最上面的部分。水平分離器S1位于矩形塊T1和T2下面,而矩形塊T3、T4、T5、T6和T7位于水平分離器S1下面。矩形塊T3、T4、T5沿垂直方向從上到下布置在水平分離器S1下方區(qū)域的左半部分。矩形塊T6和T7從上到下布置在水平分離器S1下方區(qū)域的右半部分。
如果在步驟S1801執(zhí)行基于垂直方向上的相關(guān)性的分組,則將矩形塊T3、T4和T5組合為一組(矩形塊V1),將矩形塊T6和T7組合為另一組(矩形塊V2)。組V1和V2屬于同一層。
接著,檢查垂直分離器的有/無(S1802)。分離器是DAOF中具有線條屬性的對象,并在應(yīng)用程序軟件中具有明確地分離塊的功能。一旦檢測到分離器,則在待處理層中以該分離器為邊界將輸入圖像的區(qū)域分割為右和左區(qū)域。圖15的例子不包括垂直分離器。
然后檢查垂直方向上組的總高度是否等于輸入圖像的高度(S1803)。即,如果通過沿垂直方向(例如,從上到下)移位待處理的區(qū)域來進行水平方向上的分組,則在完成對整個輸入圖像的處理時,組的總高度等于輸入圖像的高度。利用該事實,判定處理的結(jié)束。
如果還沒有完成分組,則基于水平方向上的相關(guān)性來分組矩形塊(S1804)。這樣,將圖15中所示的矩形塊T1和T2組合為一組(矩形塊H1),并將矩形塊V1和V2組合為一組(矩形塊H2)。組H1和H2屬于同一層。即使在該情況下,處理一開始后,也對各個小塊進行判定。
接著,檢查水平分離器的有/無(S1805)。一旦檢測到分離器,就在待處理層中以該分離器為邊界將輸入圖像的區(qū)域分割為上和下區(qū)域。注意,圖15包括水平分離器S1。
檢查在水平方向上組的總寬度是否等于輸入圖像的寬度(S1806)。利用該處理,檢查是否完成在水平方向上的分組。如果在水平方向上組的總寬度的等于輸入圖像的寬度(頁寬),則文檔結(jié)構(gòu)樹生成處理結(jié)束。如果水平方向上組的總寬度小于頁寬,則流程返回到步驟所1801以重復(fù)從檢查垂直方向上的相關(guān)性的步驟開始的處理。
圖16示出從圖15中所示的圖像V0獲得的文檔結(jié)構(gòu)樹。
圖像V0包括組H1和H2,以及最上層中的分離器S1,并且第二層中的矩形塊T1和T2屬于組H1。第二層中的組V1和V2屬于組H2。第三層中的矩形塊T3、T4和T5屬于組V1。第三層中的矩形塊T6和T7屬于組V2。
當(dāng)獲得圖16所示的樹時,由于水平方向上組的總寬度等于頁寬,因此處理結(jié)束,并最后將表示整個頁的最上層的V0附加到文檔樹結(jié)構(gòu)。在完成文檔樹結(jié)構(gòu)后,基于該信息生成應(yīng)用程序數(shù)據(jù)。
由于組H1在水平方向上具有兩個矩形塊T1和T2,因此設(shè)置兩列,并參考T1的DAOF,將矩形塊T1的內(nèi)部信息(作為字符識別結(jié)果的文本、圖像等)輸出到第一列(左列)。之后,選擇第二列(右列),并輸出T2的內(nèi)部信息。然后,輸出分離器S1。
接著,選擇組H2。由于組H2在水平方向上具有兩個矩形塊V1和V2,因此設(shè)置兩列,并按照組V1的矩形塊T3、T4和T5的順序?qū)?nèi)部信息輸出到第一列(左列)。之后,選擇第二列(右列),并按照V2的矩形塊T6和T7的順序?qū)?nèi)部信息輸出到所選擇的列。
利用上述處理,執(zhí)行轉(zhuǎn)換到應(yīng)用程序數(shù)據(jù)格式的處理。
在上面的例子的說明中,用戶使用輸入單元113等指定一個或多個通過BS處理自動生成的矩形塊作為將被矢量轉(zhuǎn)換的塊。然而,本發(fā)明不局限于此。例如,用戶可以使用畫線器等包圍文檔上所期望的塊來指定塊。
安全性如上所述,為了滿足防止篡改和安全保護的需要,通常將表示安全等級的“不能進行塊圖或該文檔的矢量轉(zhuǎn)換”的信息(以下稱之為“附加信息”)嵌入在整個文檔或圖塊(對象)中。使用條形碼、二維碼、數(shù)字水印或背景圖案等嵌入該附加信息。當(dāng)將添加有這樣的附加信息的文檔圖像矢量轉(zhuǎn)換為可再使用的應(yīng)用程序數(shù)據(jù)時,對禁止矢量轉(zhuǎn)換的塊不執(zhí)行矢量轉(zhuǎn)換。結(jié)果,能夠在搜索中使用的圖塊的圖塊信息變得不足,從而不能執(zhí)行精確搜索?;蛘咄ǔP枰浅iL的搜索時間。
當(dāng)然,可以進行僅對搜索允許矢量轉(zhuǎn)換的設(shè)置。然而,這就意味著在搜索時矢量數(shù)據(jù)存在于網(wǎng)絡(luò)上,而在這種狀態(tài)中不能確保高的安全性,因為矢量數(shù)據(jù)有可能在網(wǎng)絡(luò)上被竊取。
作為附加附加信息的方法,可以利用的方法有使用在生成數(shù)字文件時附加附加信息的應(yīng)用程序的方法;以及在打印薄片上打印文檔時通過設(shè)備驅(qū)動器附加附加信息的方法等。該附加信息指定對矢量轉(zhuǎn)換的限制,即能否進行矢量轉(zhuǎn)換、以及被允許執(zhí)行矢量轉(zhuǎn)換的用戶的用戶指定信息或安全等級等。
因此,當(dāng)有矢量轉(zhuǎn)換受限的圖塊時,允許部分圖塊的矢量轉(zhuǎn)換以在搜索中使用該轉(zhuǎn)換結(jié)果。即,提供被限制在搜索中的矢量轉(zhuǎn)換,因而彌補了圖塊信息的不足。下面將對該方法進行說明。
圖17是用于說明考慮在包括不能進行矢量轉(zhuǎn)換的圖塊的情況下的矢量轉(zhuǎn)換的流程圖。在圖3所示的步驟S306中通過管理PC101執(zhí)行該處理。
檢查在步驟S305中分割的所指定的塊的圖像數(shù)據(jù)是否包括附加信息(S3601),如果包括附加信息,則提取并解釋該附加信息(S3602)?;谠摳郊有畔⒌慕忉尳Y(jié)果和在步驟S300獲取的用戶指定信息或安全等級,檢查是能還是不能進行由用戶指定的塊的圖像數(shù)據(jù)的矢量轉(zhuǎn)換(S3603)。當(dāng)然,不能進行一些圖塊的矢量轉(zhuǎn)換而不依賴于操作者是誰。
如果不包括附加信息或者如果判定雖然包括附加信息但是可以進行矢量轉(zhuǎn)換,則對所指定的塊的數(shù)據(jù)進行矢量轉(zhuǎn)換(S3604)。另一方面,如果判定包括附加信息且不能進行矢量轉(zhuǎn)換,則對所指定的塊的圖像數(shù)據(jù)進行部分矢量轉(zhuǎn)換(S3605)。下面將說明該轉(zhuǎn)換。
注意,對各個所指定的塊執(zhí)行圖17所示的處理。
圖18和19是用來說明部分矢量轉(zhuǎn)換圖像數(shù)據(jù)的方法的視圖。
如圖4所示,通過塊選擇(BS)處理判定各個矩形塊的屬性。例如,如圖18所示,當(dāng)不能進行矢量轉(zhuǎn)換的表格屬性的圖塊1801存在時,生成通過僅矢量轉(zhuǎn)換表格的框和第一行而獲得的矢量數(shù)據(jù)1802。另一方面,如圖19所示,當(dāng)不能進行矢量轉(zhuǎn)換的文本屬性的圖塊1901存在時,生成通過僅矢量轉(zhuǎn)換一行的字符串而獲得的矢量數(shù)據(jù)1902。另外,當(dāng)不能進行矢量轉(zhuǎn)換的圖形或線條屬性的圖塊存在時,對該圖塊的相對面積或絕對面積的一部分(1/10左上面積、100×100右上點等)進行矢量轉(zhuǎn)換。此外,如果需要,還可以對1/10左下面積、1/10右上面積以及1/10右下面積進行矢量轉(zhuǎn)換,并在搜索中使用矢量轉(zhuǎn)換后的面積以提高搜索的精確性。
如上所述,不對照片屬性的圖塊進行矢量轉(zhuǎn)換。然而,當(dāng)將限制矢量轉(zhuǎn)換的附加信息附加到照片屬性的圖塊,并且是所指定的塊時,可以在搜索中使用該圖塊的部分圖像(1/9中央面積)。
在步驟S310判定指定了數(shù)據(jù)文件之后,當(dāng)在步驟S311獲取該數(shù)據(jù)文件時,禁止使用附加有附加信息的圖塊的矢量數(shù)據(jù)。因此,獲取該圖塊作為位圖格式的圖像數(shù)據(jù)或空數(shù)據(jù)。當(dāng)然,如果在步驟S3603判定可以進行該圖塊的矢量轉(zhuǎn)換,則可以在步驟S312使用在步驟S3604中被矢量轉(zhuǎn)換的數(shù)據(jù)來生成應(yīng)用程序數(shù)據(jù)。
這樣,用戶想要通過矢量轉(zhuǎn)換文檔圖像生成可再使用的應(yīng)用程序數(shù)據(jù)。在這種情況下,如果有矢量轉(zhuǎn)換受限制的圖塊(對象),則根據(jù)該限制完全或部分地矢量轉(zhuǎn)換該圖塊(對象),并可以將其應(yīng)用在數(shù)據(jù)文件搜索中。因此,在維持高的安全性的同時,可以消除在搜索中可以使用的圖塊的信息不足、影響搜索、以及需要非常長的搜索時間等問題,以及搜索精度的下降。
第二實施例下面將對根據(jù)本發(fā)明的第二實施例的圖像處理進行說明。注意,在第二實施例中相同的附圖標(biāo)記表示與在第一實施例中的相同的部分,并且省略了對其的詳細說明。
圖20是用于說明根據(jù)本發(fā)明的第二實施例考慮在包括不能進行矢量轉(zhuǎn)換的圖塊的情況下的矢量轉(zhuǎn)換的流程圖。在圖3所示的步驟S306中通過管理PC 101執(zhí)行該處理。
在步驟S3601到S3605中的處理與在圖17中所示的第一實施例中的處理相同。在第二實施例的情況下,如果在步驟S3603判定發(fā)現(xiàn)了附加信息且不能進行所指定的塊的圖像數(shù)據(jù)的矢量轉(zhuǎn)換,則基于附加信息的解釋結(jié)果和操作者的用戶指定信息或安全等級,檢查搜索時是否可以進行矢量轉(zhuǎn)換(S3606)。如果判定搜索時不能進行矢量轉(zhuǎn)換,則跳過矢量轉(zhuǎn)換;如果判定可以進行部分矢量轉(zhuǎn)換,則對所指定的塊的圖像數(shù)據(jù)進行部分矢量轉(zhuǎn)換以獲取在搜索中使用的數(shù)據(jù)(S3605);如果判定可以進行矢量轉(zhuǎn)換,則為搜索目的對所指定的塊的整個圖像數(shù)據(jù)進行矢量轉(zhuǎn)換(S3607)。在這種情況下,矢量轉(zhuǎn)換僅被允許用于搜索目的,而禁止將矢量轉(zhuǎn)換后的矢量數(shù)據(jù)存儲在用于再使用的數(shù)據(jù)文件中。即,將矢量轉(zhuǎn)換限制為僅用于搜索目的,并禁止用于生成數(shù)據(jù)文件和在數(shù)據(jù)庫中登記的目的的矢量轉(zhuǎn)換。
總之,假定用戶想要通過矢量轉(zhuǎn)換文檔圖像生成可再使用的應(yīng)用程序數(shù)據(jù)。在這種情況下,如果有矢量轉(zhuǎn)換是受限的圖塊(對象),則根據(jù)該限制完全地矢量轉(zhuǎn)換該圖塊(對象),或者為了搜索目的對其進行部分或完全地矢量轉(zhuǎn)換,并可用于數(shù)據(jù)文件搜索。因此,在維持高的安全性的同時,與第一實施例相比,可以更加靈活地消除在搜索中可以使用的圖塊的信息不足、影響搜索、以及需要非常長的搜索時間等問題,以及搜索精度的下降。
其它實施例本發(fā)明可應(yīng)用于由多個設(shè)備(例如,主機、接口、讀取器、打印機)構(gòu)成的系統(tǒng)或者由單個設(shè)備(例如,復(fù)印設(shè)備、傳真機)組成的裝置。
此外,可以通過將存儲有用于執(zhí)行前述處理的程序代碼的存儲介質(zhì)提供給計算機系統(tǒng)或裝置(例如,個人計算機),由該計算機系統(tǒng)或裝置的CPU或MPU從該存儲介質(zhì)讀取程序代碼,然后執(zhí)行該程序,也可以實現(xiàn)本發(fā)明的目的。
在這種情況下,從存儲介質(zhì)讀取的程序代碼實現(xiàn)根據(jù)所述實施例的功能,并且存儲該程序代碼的存儲介質(zhì)構(gòu)成本發(fā)明。
此外,可以用于提供該程序代碼的存儲介質(zhì)有例如,軟盤、硬盤、光盤、磁光盤、CD-ROM、CD-R、磁帶、非易失性存儲卡、以及ROM。
而且,除了通過執(zhí)行由計算機讀取的程序代碼實現(xiàn)根據(jù)上述實施例的上述功能外,本發(fā)明包括這樣一種情況運行在計算機上的OS(操作系統(tǒng))等根據(jù)程序代碼的指令執(zhí)行部分或全部處理,并實現(xiàn)根據(jù)上述實施例的功能。
而且,本發(fā)明還包括這樣一種情況在從存儲介質(zhì)讀取的程序被寫入插在計算機中的功能擴展卡或連接在計算機上的功能擴展單元提供的存儲器中之后,包含于功能擴展卡或功能擴展單元中的CPU等根據(jù)程序代碼的指令執(zhí)行全部或部分處理,并實現(xiàn)上述實施例的功能。
在本發(fā)明應(yīng)用于上述存儲介質(zhì)的情況下,存儲介質(zhì)存儲與實施例中所述的流程相對應(yīng)的程序代碼。
由于在不脫離本發(fā)明的精神和范圍的情況下,可以做出本發(fā)明的許多明顯不同的實施例,因此應(yīng)該理解,除了在所附權(quán)利要求中定義的以外,本發(fā)明不局限于其特定的實施例。
權(quán)利要求
1.一種圖像處理方法,包括以下步驟讀取步驟,用于讀取文檔圖像;提取步驟,用于提取所讀取的文檔圖像的附加信息;以及控制步驟,用于進行控制,以根據(jù)所提取的附加信息將應(yīng)用于該文檔圖像的矢量轉(zhuǎn)換限制為用于搜索的矢量轉(zhuǎn)換,該搜索用于搜索與該文檔圖像相對應(yīng)的數(shù)據(jù)文件。
2.根據(jù)權(quán)利要求1所述的圖像處理方法,其特征在于,還包括分割步驟,該分割步驟用于根據(jù)圖像區(qū)的屬性來分割所讀取的文檔圖像,其中,將用于搜索的矢量轉(zhuǎn)換應(yīng)用于分割后的圖像區(qū)。
3.一種圖像處理裝置,包括讀取器,用于讀取文檔圖像;提取器,用于提取所讀取的文檔圖像的附加信息;以及控制器,用于進行控制,以根據(jù)所提取的附加信息將應(yīng)用于該文檔圖像的矢量轉(zhuǎn)換限制為用于搜索的矢量轉(zhuǎn)換,該搜索用于搜索與該文檔圖像相對應(yīng)的數(shù)據(jù)文件。
4.根據(jù)權(quán)利要求3所述的圖像處理裝置,其特征在于,還包括分割器,該分割器用于根據(jù)圖像區(qū)的屬性來分割所讀取的文檔圖像,其中,將用于搜索的矢量轉(zhuǎn)換應(yīng)用于分割后的圖像區(qū)。
5.一種圖像處理方法,包括以下步驟讀取步驟,用于讀取文檔圖像;分割步驟,用于根據(jù)圖像區(qū)的屬性來分割所讀取的圖像;輸入步驟,用于輸入對分割后的圖像區(qū)中、被應(yīng)用矢量轉(zhuǎn)換的圖像區(qū)的指定;矢量轉(zhuǎn)換步驟,用于對所指定的圖像區(qū)的圖像進行矢量轉(zhuǎn)換;檢測步驟,用于通過搜索來檢測與所指定的圖像區(qū)的圖像相對應(yīng)的數(shù)據(jù)文件;生成步驟,用于使用分割后的圖像區(qū)的圖像、檢測到的數(shù)據(jù)文件和通過矢量轉(zhuǎn)換所獲得的矢量數(shù)據(jù)中的至少一個,生成可再使用的數(shù)據(jù);提取步驟,用于提取包括在所指定的圖像區(qū)中的附加信息;以及控制步驟,用于根據(jù)所提取的附加信息來控制該矢量轉(zhuǎn)換步驟、以及該檢測步驟和該生成步驟的操作。
6.一種圖像處理裝置,包括讀取器,用于讀取文檔圖像;分割器,用于根據(jù)圖像區(qū)的屬性來分割所讀取的圖像;輸入部分,用于輸入對分割后的圖像區(qū)中、被應(yīng)用矢量轉(zhuǎn)換的圖像區(qū)的指定;轉(zhuǎn)換器,用于對所指定的圖像區(qū)的圖像進行矢量轉(zhuǎn)換;檢測器,用于通過搜索來檢測與所指定的圖像區(qū)的圖像相對應(yīng)的數(shù)據(jù)文件;生成器,用于使用分割后的圖像區(qū)的圖像、檢測到的數(shù)據(jù)文件和通過矢量轉(zhuǎn)換獲得的矢量數(shù)據(jù)中的至少一個,生成可再使用的數(shù)據(jù);提取器,用于提取包括在所指定的圖像區(qū)中的附加信息;以及控制器,用于根據(jù)所提取的附加信息來控制該轉(zhuǎn)換器、以及該檢測器和該生成器的操作。
7.根據(jù)權(quán)利要求6所述的圖像處理裝置,其特征在于,所述控制器根據(jù)該附加信息的有/無和由該附加信息所表示的限制中的一個,來控制應(yīng)用于所指定的圖像區(qū)的矢量轉(zhuǎn)換。
8.根據(jù)權(quán)利要求6所述的圖像處理裝置,其特征在于,還包括認證部分,該認證部分用于認證用戶,其中所述控制器根據(jù)該附加信息的有/無、由該附加信息所表示的限制中的一個,以及根據(jù)該用戶認證的結(jié)果,來控制應(yīng)用于所指定的圖像區(qū)的矢量轉(zhuǎn)換。
9.根據(jù)權(quán)利要求6所述的圖像處理裝置,其特征在于,所述控制器根據(jù)該附加信息的有/無和由該附加信息所表示的限制中的一個,來控制與所指定的圖像區(qū)的圖像相對應(yīng)的數(shù)據(jù)文件的檢測處理和應(yīng)用于所指定的圖像區(qū)的矢量轉(zhuǎn)換。
10.根據(jù)權(quán)利要求6所述的圖像處理裝置,其特征在于,還包括認證部分,該認證部分用于認證用戶,其中所述控制器根據(jù)該附加信息的有/無、由該附加信息所表示的限制中的一個,以及根據(jù)該用戶認證的結(jié)果,來控制與所指定的圖像區(qū)的圖像相對應(yīng)的數(shù)據(jù)文件的檢測處理和應(yīng)用于所指定的圖像區(qū)的矢量轉(zhuǎn)換。
11.根據(jù)權(quán)利要求6所述的圖像處理裝置,其特征在于,通過控制所述轉(zhuǎn)換器,所述控制器將用于搜索目的的矢量轉(zhuǎn)換應(yīng)用于所指定的圖像區(qū)。
12.根據(jù)權(quán)利要求6所述的圖像處理裝置,其特征在于,所述檢測器基于分割后的圖像區(qū)的信息和矢量數(shù)據(jù),通過搜索從存儲器設(shè)備中檢測數(shù)據(jù)文件。
13.根據(jù)權(quán)利要求12所述的圖像處理裝置,其特征在于,所述生成器將可再使用的數(shù)據(jù)存儲在存儲器設(shè)備中。
14.根據(jù)權(quán)利要求12所述的圖像處理裝置,其特征在于,該存儲器設(shè)備位于網(wǎng)絡(luò)上。
15.根據(jù)權(quán)利要求6所述的圖像處理裝置,其特征在于,禁止為生成數(shù)據(jù)庫的目的而應(yīng)用矢量轉(zhuǎn)換。
全文摘要
一種圖像處理裝置及其方法。在搜索文檔圖像的數(shù)字文檔時,如果在感興趣的文檔中嵌入表示安全等級“不能進行對象的矢量轉(zhuǎn)換”的信息,則在搜索中所使用的對象的信息是不足的,從而影響了滿意的搜索處理。為了解決該問題,讀取文檔圖像,并根據(jù)圖像區(qū)的屬性分割所讀取的圖像。接受對分割后的圖像區(qū)中圖像被矢量轉(zhuǎn)換的圖像區(qū)的指定,并提取包括在所指定的圖像區(qū)中的附加信息。根據(jù)該附加信息的有/無或該附加信息的解釋結(jié)果,來控制與該文檔圖像相對應(yīng)的數(shù)據(jù)文件的搜索處理。
文檔編號H04N1/00GK1829273SQ200610058328
公開日2006年9月6日 申請日期2006年3月1日 優(yōu)先權(quán)日2005年3月1日
發(fā)明者佐藤峰子 申請人:佳能株式會社