專(zhuān)利名稱::一種從pdf格式文件頁(yè)面中提取圖像的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及文檔處理領(lǐng)域,特別是涉及一種從PDF格式文件頁(yè)面中提取圖像的方法及系統(tǒng)。
背景技術(shù):
:PDF是PortableDocumentformat(便攜文件格式)的縮寫(xiě),是一種電子文件格式。PDF文件格式以其卓越的特性成為在互聯(lián)網(wǎng)上進(jìn)行電子文檔發(fā)行和格式化信息傳播的理想文件格式。當(dāng)前,在互聯(lián)網(wǎng)上發(fā)布的科技論文大部分以PDF格式提交。但是,PDF格式文件的著重點(diǎn)在于描述文檔的打印格式,而沒(méi)有描述原始文檔內(nèi)的數(shù)據(jù)結(jié)構(gòu),并且不易編輯。因此,如果需要將PDF格式文件轉(zhuǎn)換為其它格式的文件,是比較困難的。尤其是PDF格式文件中的圖像,是PDF格式文件轉(zhuǎn)換中最難解決的問(wèn)題?,F(xiàn)有技術(shù)中,在將PDF格式文件轉(zhuǎn)換為其它格式的文件時(shí),對(duì)于圖像的提取主要有兩種方式一種是將PDF格式文件中的所有圖像元素(一幅圖片可能由大量的圖像元素構(gòu)成)原封不動(dòng)的提取出來(lái)。該方式提取出的圖像元素,往往有成千上萬(wàn)個(gè)。由于該方式提取出的是大量的圖像元素,同時(shí)并沒(méi)有明確哪些圖像元素構(gòu)成一幅圖像。因此,該方式提取出的圖像,只能對(duì)圖像元素進(jìn)行編輯而無(wú)法對(duì)圖像整體進(jìn)行編輯。還有一種是直接將PDF格式文件中的整個(gè)頁(yè)面作為一個(gè)圖片提取出來(lái)。該方式提取出的圖像,同樣存在不易編輯的問(wèn)題。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種從PDF格式文件頁(yè)面中提取圖像的方法及系統(tǒng),能夠使得提取出的圖像易于編輯,同時(shí)具有較高的提取效率。為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案一種從PDF格式文件頁(yè)面中提取圖像的方法,包括獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的位置信息;根據(jù)所述位置信息,將頁(yè)面中的全部圖像元素劃分為不同的集合;將每個(gè)集合中的全部圖像元素作為整體進(jìn)行圖像提取。優(yōu)選的,所述獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的位置信息包括獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的左上角頂點(diǎn)位置坐標(biāo)信息,并記錄所述坐標(biāo)信息作為該圖像元素的基準(zhǔn)點(diǎn)。優(yōu)選的,所述根據(jù)所述位置信息,將頁(yè)面中的全部圖像元素劃分為不同的集合,包括對(duì)所述圖像元素進(jìn)行水平方向的劃分,得到一個(gè)或多個(gè)行集合;對(duì)所述行集合中的圖像元素進(jìn)行垂直方向的劃分,得到行列集合。優(yōu)選的,所述對(duì)所述圖像元素進(jìn)行水平方向的劃分,得到一個(gè)或多個(gè)行集合,包4括A、按照?qǐng)D像元素的基準(zhǔn)點(diǎn)的縱坐標(biāo),對(duì)全部圖像元素進(jìn)行排序;B、按照縱坐標(biāo)的排序結(jié)果,將第一個(gè)圖像元素劃分至第一個(gè)行集合;C、判斷下一個(gè)圖像元素與剛劃分的圖像元素的縱坐標(biāo)范圍是否相交;D、如果是,則將所述下一個(gè)圖像元素劃分至所述剛劃分的圖像元素所在的行集合;否則,將所述下一個(gè)圖像元素劃分至新的行集合,返回步驟C。優(yōu)選的,所述對(duì)所述行集合中的圖像元素進(jìn)行垂直方向的劃分,得到行列集合,包括E、對(duì)于每個(gè)行集合,按照所述圖像元素的基準(zhǔn)點(diǎn)的橫坐標(biāo),對(duì)行集合中的圖像元素進(jìn)行排序;F、按照橫坐標(biāo)的排序結(jié)果,將行集合中的第一個(gè)圖像元素劃分至第一個(gè)列集合;所述列集合為對(duì)應(yīng)于整個(gè)頁(yè)面的行列集合;G、判斷下一個(gè)圖像元素與剛劃分的圖像元素在橫坐標(biāo)方向是否相交;H、如果是,則將所述下一個(gè)圖像元素劃分至所述剛劃分的圖像元素所在的列集合;否則,將所述下一個(gè)圖像元素劃分至新的列集合,返回步驟G。優(yōu)選的,所述將每個(gè)行列集合中的全部圖像元素作為整體進(jìn)行圖像提取,包括獲取每個(gè)行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進(jìn)行提取。優(yōu)選的,所述獲取每個(gè)行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進(jìn)行提取,包括獲取每個(gè)行列集合的外圍矩形;根據(jù)該外圍矩形對(duì)該行列集合中的全部圖像元素作為整體進(jìn)行截圖提取。一種從PDF格式文件頁(yè)面中提取圖像的系統(tǒng),包括位置信息獲取模塊,用于獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的位置信息;集合劃分模塊,用于根據(jù)所述位置信息,將頁(yè)面中的全部圖像元素劃分為不同的集合;提取模塊,用于將每個(gè)集合中的全部圖像元素作為整體進(jìn)行圖像提取。優(yōu)選的,所述位置信息獲取模塊包括坐標(biāo)信息獲取單元,用于獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的左上角頂點(diǎn)位置坐標(biāo)信息,并記錄所述坐標(biāo)信息作為該圖像元素的基準(zhǔn)點(diǎn)。優(yōu)選的,所述集合劃分模塊包括行集合劃分單元,用于對(duì)所述圖像元素進(jìn)行水平方向的劃分,得到一個(gè)或多個(gè)行集合;行列集合劃分單元,用于對(duì)所述行集合中的圖像元素進(jìn)行垂直方向的劃分,得到行列集合。根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開(kāi)了以下技術(shù)效果本發(fā)明所公開(kāi)的從PDF格式文件頁(yè)面中提取圖像的方法,通過(guò)根據(jù)圖像元素在文件頁(yè)面中的位置信息,對(duì)其進(jìn)行行列劃分,對(duì)劃分后的行列集合進(jìn)行整體提取,使得提取出的圖像易于編輯,同時(shí)具有較高的提取效率。為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例所述從PDF格式文件頁(yè)面中提取圖像的方法流程圖;圖2為本發(fā)明實(shí)施例所述從PDF格式文件頁(yè)面中提取圖像的系統(tǒng)結(jié)構(gòu)圖。具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明的目的是提供一種從PDF格式文件頁(yè)面中提取圖像的方法及系統(tǒng),能夠根據(jù)PDF格式文件中的原始圖像信息,將圖像元素劃分為少量有意義的集合,并提取出來(lái)。為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。參見(jiàn)圖1,為本發(fā)明實(shí)施例所述從PDF格式文件頁(yè)面中提取圖像的方法流程圖。如圖1所示,該方法包括步驟SlOl獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的位置信息;圖像元素可以是各種不同的類(lèi)型。具體的,可以用坐標(biāo)的方式記錄每個(gè)圖像元素的位置信息。對(duì)于不同的圖像元素來(lái)說(shuō),該元素所占的區(qū)域面積大小也不盡相同。本發(fā)明中可以采用該元素平面坐標(biāo)(x,y)來(lái)記錄該元素的位置信息。其中,χ表示橫坐標(biāo),y表示縱坐標(biāo)。區(qū)域面積越大的元素,其覆蓋的坐標(biāo)區(qū)域也越大。因此步驟SlOl可以包括獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的坐標(biāo)信息。具體的,可以獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的左上角頂點(diǎn)位置坐標(biāo)信息,并記錄所述坐標(biāo)信息作為該圖像元素的基準(zhǔn)點(diǎn)。S102根據(jù)所述位置信息,將頁(yè)面中的全部圖像元素劃分為不同的集合;通常,一幅圖片中可能包含多個(gè)圖像元素(例如像素)。由于這些圖像元素同屬于一幅圖片,因此這些圖像元素的位置是很緊湊的。步驟S102的含義就是按照PDF格式文件頁(yè)面中原本的圖片組成方式,盡可能的將同屬于一個(gè)圖片的圖像元素,劃分到同一個(gè)集合中,以便作為一個(gè)整體進(jìn)行提取。實(shí)際應(yīng)用中,步驟S102可以包括對(duì)所述圖像元素進(jìn)行水平方向的劃分,得到一個(gè)或多個(gè)行集合;對(duì)所述行的集合中的圖像元素進(jìn)行垂直方向的劃分,得到行列集合。具體的,對(duì)于采用坐標(biāo)方式表示每個(gè)圖像元素的位置信息,行的集合的劃分可以包括步驟A、按照所述圖像元素的基準(zhǔn)點(diǎn)的縱坐標(biāo),對(duì)全部圖像元素進(jìn)行排序;對(duì)于每個(gè)圖像元素,需要按照其相同位置處的點(diǎn)的坐標(biāo)進(jìn)行排序。具體的,可以采用每個(gè)圖像元素的左上點(diǎn)的縱坐標(biāo),對(duì)全部圖像元素進(jìn)行排序;也可以采用每個(gè)圖像元素的右上點(diǎn)、左下點(diǎn)或右下點(diǎn)等的縱坐標(biāo)進(jìn)行排序。這些點(diǎn)可以認(rèn)為是圖像元素的基準(zhǔn)點(diǎn)。排序的目的是為了能夠?qū)⑺轿恢孟嘟膱D像元素劃分為同一行集合。因此,如果坐標(biāo)系中,縱坐標(biāo)軸是由上指向下的,那么位于頁(yè)面上方的元素的縱坐標(biāo)將小于位于頁(yè)面下方的元素的縱坐標(biāo),此時(shí)可以按照縱坐標(biāo)由小到大的順序進(jìn)行排序;如果坐標(biāo)系中,縱坐標(biāo)軸是由下指向上的,那么位于頁(yè)面上方的元素的縱坐標(biāo)將大于位于頁(yè)面下方的元素的縱坐標(biāo),此時(shí)可以按照縱坐標(biāo)由大到小的順序進(jìn)行排序。B、按照縱坐標(biāo)的排序結(jié)果,將第一個(gè)圖像元素劃分至第一個(gè)行集合;C、判斷下一個(gè)圖像元素與剛劃分的圖像元素的縱坐標(biāo)范圍是否相交;D、如果是,則將所述下一個(gè)圖像元素劃分至所述剛劃分的圖像元素所在的行集合;否則,將所述下一個(gè)圖像元素劃分至新的行集合,返回步驟C。舉例來(lái)說(shuō),假設(shè)剛劃分的圖像元素的縱坐標(biāo)范圍在10-100,下一個(gè)圖像元素的縱坐標(biāo)范圍在20-50,顯然兩個(gè)范圍存在相交的部分。此時(shí)將下一個(gè)圖像元素劃分至所述剛劃分的圖像元素所在的行集合,即認(rèn)為兩者基本處在同一行的位置上。如果剛劃分的圖像元素的縱坐標(biāo)范圍在10-100,下一個(gè)圖像元素的縱坐標(biāo)范圍在200460,則兩個(gè)范圍不存在相交的部分。此時(shí)將所述下一個(gè)圖像元素劃分至新的行集合,即認(rèn)為兩者不屬于同一行。重復(fù)步驟C和D,直至將全部圖像元素都劃分完。對(duì)所述行的集合中的圖像元素進(jìn)行垂直方向的劃分,得到行列集合,具體可以包括步驟E、對(duì)于每個(gè)行集合,按照所述圖像元素的基準(zhǔn)點(diǎn)的橫坐標(biāo),對(duì)行集合中的圖像元素進(jìn)行排序;排序的目的是為了能夠?qū)⒋怪蔽恢孟嘟膱D像元素劃分為同一列集合。因此,如果坐標(biāo)系中,橫坐標(biāo)軸是由左指向右的,那么位于頁(yè)面左方的元素的橫坐標(biāo)將小于位于頁(yè)面右方的元素的橫坐標(biāo),此時(shí)可以按照橫坐標(biāo)由小到大的順序進(jìn)行排序;如果坐標(biāo)系中,橫坐標(biāo)軸是右下指向左的,那么位于頁(yè)面左方的元素的橫坐標(biāo)將大于位于頁(yè)面右方的元素的橫坐標(biāo),此時(shí)可以按照橫坐標(biāo)由大到小的順序進(jìn)行排序。F、按照橫坐標(biāo)的排序結(jié)果,將行集合中的第一個(gè)圖像元素劃分至第一個(gè)列集合;所述列集合為對(duì)應(yīng)于整個(gè)頁(yè)面的行列集合;G、判斷下一個(gè)圖像元素與剛劃分的圖像元素在橫坐標(biāo)方向是否相交;H、如果是,則將所述下一個(gè)圖像元素劃分至所述剛劃分的圖像元素所在的列集合;否則,將所述下一個(gè)圖像元素劃分至新的列集合,返回步驟G。舉例來(lái)說(shuō),假設(shè)剛劃分的圖像元素的橫坐標(biāo)范圍在10-100,下一個(gè)圖像元素的橫坐標(biāo)范圍在20-150,顯然兩個(gè)范圍存在相交的部分。此時(shí)將下一個(gè)圖像元素劃分至所述剛劃分的圖像元素所在的列集合,即認(rèn)為兩者基本處在同一列的位置上。如果剛劃分的圖像元素的橫坐標(biāo)范圍在10-100,下一個(gè)圖像元素的橫坐標(biāo)范圍在200460,則兩個(gè)范圍不存在相交的部分。此時(shí)將所述下一個(gè)圖像元素劃分至新的列集合,即認(rèn)為兩者不屬于同一列。重復(fù)步驟G和H,直至將某個(gè)行集合中的圖像元素劃分完,然后對(duì)另一個(gè)行集合進(jìn)行劃分,最終完成對(duì)所有行集合的劃分。需要說(shuō)明的是,步驟E-H是針對(duì)每個(gè)行集合來(lái)說(shuō)的。對(duì)于每個(gè)行集合中劃分出的列集合,就可以認(rèn)為是對(duì)于整個(gè)頁(yè)面的行列集合。S103將每個(gè)集合中的全部圖像元素作為整體進(jìn)行圖像提取。因?yàn)檫M(jìn)行行列劃分之后的每個(gè)行列集合,在水平和垂直位置都是十分接近的,這些元素很可能共同構(gòu)成同一幅圖像。因此,可以將每個(gè)行列集合中的全部圖像元素作為整體進(jìn)行提取。具體的,可以采用下述方式進(jìn)行提取獲取每個(gè)行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進(jìn)行提取。更具體的,為便于理解以及操作,獲取每個(gè)行列集合的外圍輪廓,可以是獲取每個(gè)行列集合的外圍矩形;然后根據(jù)該外圍矩形對(duì)該行列集合中的全部圖像元素進(jìn)行截圖提取。綜上所述,本發(fā)明所公開(kāi)的從PDF格式文件頁(yè)面中提取圖像的方法,通過(guò)根據(jù)圖像元素在文件頁(yè)面中的位置信息,對(duì)其進(jìn)行行列劃分,對(duì)劃分后的行列集合進(jìn)行整體提取,使得提取出的圖像易于編輯,同時(shí)具有較高的提取效率。與本發(fā)明所公開(kāi)的從PDF格式文件頁(yè)面中提取圖像的方法相對(duì)應(yīng),本發(fā)明還公開(kāi)了一種從PDF格式文件頁(yè)面中提取圖像的系統(tǒng)。參見(jiàn)圖2,為本發(fā)明實(shí)施例所述從PDF格式文件頁(yè)面中提取圖像的系統(tǒng)結(jié)構(gòu)圖。如圖2所示,該系統(tǒng)包括位置信息獲取模塊201,用于獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的位置信息;集合劃分模塊202,用于根據(jù)所述位置信息,將頁(yè)面中的全部圖像元素劃分為不同的集合;提取模塊203,用于將每個(gè)集合中的全部圖像元素作為整體進(jìn)行圖像提取。實(shí)際應(yīng)用中,所述位置信息獲取模塊201可以包括坐標(biāo)信息獲取單元,用于獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的左上角頂點(diǎn)位置坐標(biāo)信息,并記錄所述坐標(biāo)信息作為該圖像元素的基準(zhǔn)點(diǎn)。所述集合劃分模塊202可以包括行集合劃分單元,用于對(duì)所述圖像元素進(jìn)行水平方向的劃分,得到一個(gè)或多個(gè)行集合;行列集合劃分單元,用于對(duì)所述行集合中的圖像元素進(jìn)行垂直方向的劃分,得到行列集合。本說(shuō)明書(shū)中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見(jiàn)即可。對(duì)于實(shí)施例公開(kāi)的系統(tǒng)而言,由于其與實(shí)施例公開(kāi)的方法相對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法部分說(shuō)明即可。本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。權(quán)利要求1.一種從PDF格式文件頁(yè)面中提取圖像的方法,其特征在于,包括獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的位置信息;根據(jù)所述位置信息,將頁(yè)面中的全部圖像元素劃分為不同的集合;將每個(gè)集合中的全部圖像元素作為整體進(jìn)行圖像提取。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的位置信息,包括獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的左上角頂點(diǎn)位置坐標(biāo)信息,并記錄所述坐標(biāo)信息作為該圖像元素的基準(zhǔn)點(diǎn)。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述位置信息,將頁(yè)面中的全部圖像元素劃分為不同的集合,包括對(duì)所述圖像元素進(jìn)行水平方向的劃分,得到一個(gè)或多個(gè)行集合;對(duì)所述行集合中的圖像元素進(jìn)行垂直方向的劃分,得到行列集合。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對(duì)所述圖像元素進(jìn)行水平方向的劃分,得到一個(gè)或多個(gè)行集合,包括A、按照?qǐng)D像元素的基準(zhǔn)點(diǎn)的縱坐標(biāo),對(duì)全部圖像元素進(jìn)行排序;B、按照縱坐標(biāo)的排序結(jié)果,將第一個(gè)圖像元素劃分至第一個(gè)行集合;C、判斷下一個(gè)圖像元素與剛劃分的圖像元素的縱坐標(biāo)范圍是否相交;D、如果是,則將所述下一個(gè)圖像元素劃分至所述剛劃分的圖像元素所在的行集合;否則,將所述下一個(gè)圖像元素劃分至新的行集合,返回步驟C。5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對(duì)所述行集合中的圖像元素進(jìn)行垂直方向的劃分,得到行列集合,包括E、對(duì)于每個(gè)行集合,按照所述圖像元素的基準(zhǔn)點(diǎn)的橫坐標(biāo),對(duì)行集合中的圖像元素進(jìn)行排序;F、按照橫坐標(biāo)的排序結(jié)果,將行集合中的第一個(gè)圖像元素劃分至第一個(gè)列集合;所述列集合為對(duì)應(yīng)于整個(gè)頁(yè)面的行列集合;G、判斷下一個(gè)圖像元素與剛劃分的圖像元素在橫坐標(biāo)方向是否相交;H、如果是,則將所述下一個(gè)圖像元素劃分至所述剛劃分的圖像元素所在的列集合;否則,將所述下一個(gè)圖像元素劃分至新的列集合,返回步驟G。6.根據(jù)權(quán)利要求3-5任一項(xiàng)所述的方法,其特征在于,所述將每個(gè)行列集合中的全部圖像元素作為整體進(jìn)行圖像提取,包括獲取每個(gè)行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進(jìn)行提取。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述獲取每個(gè)行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進(jìn)行提取,包括獲取每個(gè)行列集合的外圍矩形;根據(jù)該外圍矩形對(duì)該行列集合中的全部圖像元素作為整體進(jìn)行截圖提取。8.—種從PDF格式文件頁(yè)面中提取圖像的系統(tǒng),其特征在于,包括位置信息獲取模塊,用于獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的位置信息;集合劃分模塊,用于根據(jù)所述位置信息,將頁(yè)面中的全部圖像元素劃分為不同的集合;提取模塊,用于將每個(gè)集合中的全部圖像元素作為整體進(jìn)行圖像提取。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述位置信息獲取模塊包括坐標(biāo)信息獲取單元,用于獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的左上角頂點(diǎn)位置坐標(biāo)信息,并記錄所述坐標(biāo)信息作為該圖像元素的基準(zhǔn)點(diǎn)。10.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述集合劃分模塊包括行集合劃分單元,用于對(duì)所述圖像元素進(jìn)行水平方向的劃分,得到一個(gè)或多個(gè)行集合;行列集合劃分單元,用于對(duì)所述行集合中的圖像元素進(jìn)行垂直方向的劃分,得到行列集合。全文摘要本發(fā)明公開(kāi)一種從PDF格式文件頁(yè)面中提取圖像的方法,包括獲取PDF格式文件頁(yè)面中每個(gè)圖像元素的位置信息;根據(jù)所述位置信息,將頁(yè)面中的全部圖像元素劃分為不同的集合;將每個(gè)集合中的全部圖像元素作為整體進(jìn)行圖像提取。本發(fā)明還公開(kāi)了一種從PDF格式文件頁(yè)面中提取圖像的系統(tǒng)。采用本發(fā)明所公開(kāi)的方法或系統(tǒng),能夠使得提取出的圖像易于編輯,同時(shí)具有較高的提取效率。文檔編號(hào)G06K9/46GK102306294SQ201110243119公開(kāi)日2012年1月4日申請(qǐng)日期2011年8月23日優(yōu)先權(quán)日2011年8月23日發(fā)明者晏檢平申請(qǐng)人:深圳市萬(wàn)興軟件有限公司