專利名稱:文檔格式轉換的方法及裝置的制作方法
技術領域:
本發(fā)明涉及電子文檔技術領域,尤其涉及一種文檔格式轉換的方法及裝置。
背景技術:
在文檔格式轉換領域,很多格式的文檔可通過虛擬打印將文檔從ー種格式轉換成另外ー種格式。但在虛擬打印過程中,原文檔的文檔結構信息如段落、標題、分欄、是否跨頁、是否是表格、是否是公式等邏輯結構信息就丟失了,而且虛擬打印驅動程序獲得的圖文順序并不與原文檔的閱讀順序一致。在現有技術條件下,當目標文檔格式是版式文檔格式吋,僅可以保留原文檔在排版軟件中的原版原式,但當該目標文檔想要在手持閱讀設備如手機、電子書閱讀器等設備上閱讀吋,版式文檔就無法做到內容重排,屏幕自適應排版,無法有效地保持與原文檔ー樣的段落閱讀順序,無法很好地區(qū)分一個完整的表格或公式。所以在手持閱讀設備上閱讀時,版式文檔一般都無法滿足重排的需求,無法進行屏幕自適應閱讀,只能對版式文檔重新進行版式分析,但遇到有分欄、公式、表格的情況,效果很差,只能再通過人工標引方式處理,費時費力且正確性不能保證。
發(fā)明內容
本發(fā)明的實施例提供一種文檔格式轉換的方法及裝置,能夠使同一份目標文檔在不同平臺、不同設備上以相同的版式和流式進行閱讀。為達到上述目的,本發(fā)明的實施例采用如下技術方案一種文檔格式轉換的方法,包括將原始文檔進行排版,獲取排版后的所述原始文檔中圖文所在最小外接矩形的邏輯結構位置信息;按照與對所述原始文檔進行排版時使用的相同規(guī)格的紙張,對排版后的所述原始文檔進行虛擬打印,獲取排版后的所述原始文檔中離散圖文的位置信息;根據所述邏輯結構位置信息和所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔。一種文檔格式轉換的裝置,包括排版單元,用于將原始文檔進行排版;第一獲取單元,用于獲取所述排版單元排版后的所述原始文檔中圖文所在最小外接矩形的邏輯結構位置信息;第二獲取單元,用于按照與對所述原始文檔進行排版時使用的相同規(guī)格的紙張, 對排版后的所述原始文檔進行虛擬打印,獲取排版后的所述原始文檔中離散圖文的位置信息;重組單元,用于根據所述第一獲取單元獲取的所述邏輯結構位置信息和所述第二獲取單元獲取的所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔。
5
本發(fā)明實施例提供的技術方案,通過對原始文檔進行排版,獲取原始文檔排版后的所述原始文檔中圖文所在最小外接矩形的邏輯結構位置信息,并通過虛擬打印的形式, 對所述排版后的原始文檔進行虛擬打印,從而獲取排版后的所述原始文檔中離散圖文的位置信息,之后再根據所述邏輯結構位置信息和所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔;從而使目標文檔既含有版式信息,使目標文檔能夠在不同平臺上閱讀和打印保持原版原式的文檔;又能保持原始文檔的流式信息,使目標文檔能夠在手持移動設備上進行重排,屏幕自適應閱讀,并保持各圖元正確的閱讀順序。
為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1為本發(fā)明的一個實施例中的文檔格式轉換的方法流程圖;圖2為本發(fā)明的又一個實施例中的一種文檔格式轉換的裝置組成框圖;圖3為本發(fā)明的又一個實施例中的又一種文檔格式轉換的裝置組成框圖;圖4為本發(fā)明的又一個實施例中的又一種文檔格式轉換的裝置組成框圖;圖5為本發(fā)明的又一個實施例中的又一種文檔格式轉換的裝置組成框圖。
具體實施例方式下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。本發(fā)明的一個實施例提供一種文檔格式轉換的方法,如圖1所示,該方法包括101、將原始文檔進行排版,獲取排版后的所述原始文檔中圖文所在最小外接矩形的邏輯結構位置信息。其中,所述原始文檔可以為但不局限于流式文檔;將原始文檔進行排版時,可以通過固有的排版系統(tǒng)對所述原始文檔進行排版,但本發(fā)明實施例對此不進行限制,現有技術中的任一種排版方法都可以用于本發(fā)明實施例中。其中,對所述原始文檔進行排版后,可以獲取所述原始文檔中圖文的邏輯結構信息,該邏輯結構信息包括標題、段落、公式、表格、分欄等的外接最小矩形位置信息。102、按照與對所述原始文檔進行排版時使用的相同規(guī)格的紙張,對排版后的所述原始文檔進行虛擬打印,獲取排版后的所述原始文檔中離散圖文的位置信息。這里需要特別說明的是,為例保證目標文檔與原始文檔具有相同的流式的邏輯結構信息,在對排版后的所述原始文檔進行虛擬打印吋,虛擬打印使用的紙張的規(guī)格必須與對所述原始文檔進行排版時使用紙張的規(guī)格相同,否則將無法實現目標文檔與原始文檔具有相同流式的邏輯結構信息。
103、根據所述邏輯結構位置信息和所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔。其中,所述根據所述邏輯結構位置信息和所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔,可以采用但不局限于以下方法,該方法包括首先,根據所述邏輯結構位置信息,將排版后的所述原始文檔中的圖文所在最小外接矩形進行排序,得到所述離散圖文在目標文檔中所在最小外接矩形的邏輯結構。其次,根據所述離散圖文的位置信息和所述邏輯結構位置信息,得到所述離散圖文在目標文檔中所對應的最小外接矩形,并將屬于同一個最小外接矩形的所述離散圖文生成一個所述目標文檔格式中預定義的圖元描述。其中,所述離散圖文的位置信息包含所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息;所述邏輯結構信息包括標題、段落、公式、表格、分欄等的外接最小矩形位置信息。其中,所述離散圖文的位置信息包含所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息;所述根據所述離散圖文的位置信息和所述邏輯結構位置信息,得到所述離散圖文在目標文檔中所對應的最小外接矩形,可以采用以下的方法, 包括將所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息,與排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息進行匹配;若所述排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息中,存在與所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息相同的邏輯結構位置信息,則確定對應的所述排版后的所述原始文檔中的圖文所在最小外接矩形,為所述離散圖文在目標文檔中所對應的最小外接矩形;若所述排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息中,不存在與所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息相同的邏輯結構位置信息,則根據所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息,為所述離散圖文目標文檔中新建一個所述離散圖文所在最小外接矩形。再次,根據所述離散圖文的屬性,將生成的每個所述目標文檔格式中預定義的圖元描述對應的離散圖文進行處理,得到與所述原始文檔具有相同版式和流式的目標文檔;其中,所述根據所述離散圖文的屬性,將生成的每個所述目標文檔格式中預定義的圖元描述對應的離散圖文進行處理,得到與所述原始文檔具有相同版式和流式的目標文檔,可以采用以下方法,包括根據離散圖文的圖文屬性判斷每個所述目標文檔格式中預定義的圖元描述對應的離散圖文,是否為具有整體閱讀性特點的邏輯結構的圖文;若所述離散圖文為具有整體閱讀性特點的邏輯結構的圖文,則根據所述離散圖文的位置信息,將所述離散圖文組合成 ー個復合圖文,并將所述復合圖文添加到所述復合圖文在目標文檔中所對應的最小外接矩形中的對應位置;若所述離散圖文的屬性為不具有整體閱讀性特點的邏輯結構的圖文,則根據所述離散圖文的位置信息,將所述離散圖文添加到在目標文檔中所對應的最小外接矩形中的對應位置。其中,具有整體閱讀性特點的邏輯結構的圖文,例如,表格或者公式等,其必須將組成表格或者公式的離散圖文組成具有一定邏輯結構的整體,才能使用戶知道其所要表達的意思。例如,在現實文檔轉換領域,將MS Office文檔向Apabi CEBX(此格式可包含流式信息和版式信息)文檔格式轉換吋,就可以先用Microsoft Word軟件打開D0C/D0CX文檔,對該MS Office文檔進行排版,再利用MS Word提供的二次開發(fā)接ロ獲得該文檔中圖文(標題、段落、公式、表格、分欄等)所在最小外接矩形的邏輯結構位置信息。將排版后的MS Office文檔提交給Rnmder CEBXConverter打印機進行虛擬打印,在使用Founder CEBX Converter虛擬打印機對所述排版后的MS Office文檔進行虛擬打印的過程中,獲取排版后的MS Office文檔中離散圖文的位置信息;根據所述邏輯結構位置信息將排版后的 MS Office文檔中的圖文所在最小外接矩形進行排序,確定所述離散圖文在CEBX文檔中所在最小外接矩形的邏輯結構,并將這些離散的圖文信息重新按排版后的MSOffice文檔中的邏輯結構信息進行組合,使生成的CEBX文檔既有版式信息,又保留了源文檔的邏輯結構信息。這樣,同一份CEBX文件,不僅可以在不同操作系統(tǒng)平臺上保持原版原式進行閱讀或打印,又可以在不同的手持閱讀設備上進行內容重排,做到一文多用。這種轉換方法同樣適用于WPS Office、永中Office或其它文字排版軟件。本發(fā)明實施例中,通過對原始文檔進行排版,獲取原始文檔排版后的所述原始文檔中圖文所在最小外接矩形的邏輯結構位置信息,并通過虛擬打印的形式,對所述排版后的原始文檔進行虛擬打印,從而獲取排版后的所述原始文檔中離散圖文的位置信息,之后再根據所述邏輯結構位置信息和所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔;從而使目標文檔既含有版式信息,使目標文檔能夠在不同平臺上閱讀和打印保持原版原式的文檔;又能保持原始文檔的流式信息,使目標文檔能夠在手持移動設備上進行重排,屏幕自適應閱讀,并保持各圖元正確的閱讀順序。本發(fā)明的又ー個實施例還提供一種文檔格式轉換的裝置,如圖2所示,該裝置包括排版單元21、第一獲取單元22、第二獲取單元23和重組單元對。排版單元21,用于將原始文檔進行排版;其中,所述原始文檔可以為但不局限于流式文檔;所述排版單元21將原始文檔進行排版吋,可以通過固有的排版系統(tǒng)對所述原始文檔進行排版,但本發(fā)明實施例對此不進行限制,現有技術中的任一種排版方法都可以用于本發(fā)明實施例中。第一獲取單元22,用于獲取所述排版単元21排版后的所述原始文檔中圖文所在最小外接矩形的邏輯結構位置信息。其中,所述原始文檔中圖文可以為文字、圖片、公式、表格等。第二獲取單元23,用于按照與對所述原始文檔進行排版時使用的相同規(guī)格的紙張,對所述排版単元21排版后的所述原始文檔進行虛擬打印,獲取排版后的所述原始文檔中離散圖文的位置信息。重組單元對,用于根據所述第一獲取單元22獲取的所述邏輯結構位置信息和所述第二獲取單元23獲取的所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔。進ー步的,如圖3所示,所述重組単元M包括第一確定模塊Ml、第二確定模塊 M2、生成模塊243和處理模塊M4。
第一確定模塊對1,用于根據所述第一獲取單元22獲取的所述邏輯結構位置信息,將排版后的所述原始文檔中的圖文所在最小外接矩形進行排序,得到所述離散圖文在目標文檔中所在最小外接矩形的邏輯結構;第二確定模塊M2,用于根據所述第二獲取單元23獲取的所述離散圖文的位置信息和所述第一獲取單元22獲取的所述邏輯結構位置信息,確定所述離散圖文在目標文檔中所對應的最小外接矩形;生成模塊M3,用于將屬于同一個最小外接矩形的所述離散圖文生成一個所述目標文檔格式中預定義的圖元描述;處理模塊M4,用于根據所述離散圖文的屬性,將所述生成模塊243生成的每個所述目標文檔格式中預定義的圖元描述對應的離散圖文進行處理,得到與所述原始文檔具有相同版式和流式的目標文檔。進ー步的,如圖4所示,所述第二確定模塊242包括匹配子模塊M21、第一確定子模塊M22和創(chuàng)建子模塊M23。匹配子模塊M21,用于將所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息,與排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息進行匹配,其中,所述離散圖文的位置信息包含所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信。第一確定子模塊M22,用當所述匹配子模塊M21確定所述匹配子模塊確定所述排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息中,存在與所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息相同的邏輯結構位置信息吋,確定所述排版后的所述原始文檔中的圖文所在最小外接矩形,為所述離散圖文在目標文檔中所對應的最小外接矩形。創(chuàng)建子模塊M23,用于當所述匹配子模塊M21確定所述排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息中,不存在與所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息相同的邏輯結構位置信息吋,根據所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息,為所述離散圖文在目標文檔中新建一個所述離散圖文所在最小外接矩形。進ー步的,如圖5所示,所述處理模塊244包括判斷子模塊2441、第一處理子模塊M42和第二處理子模塊M43。判斷子模塊M41,用于根據離散圖文的圖文屬性判斷所述每個所述目標文檔格式中預定義的圖元描述對應的離散圖文,是否為具有整體閱讀性特點的邏輯結構的圖文。第一處理子模塊M42,用于在所述判斷子模塊M41判定所述離散圖文為具有整體閱讀性特點的邏輯結構的圖文吋,根據所述離散圖文的位置信息,將所述離散圖文組合成ー個復合圖文,并將所述復合圖文添加到所述復合圖文在目標文檔中所對應的對應位置。第二處理子模塊M43,用于在所述判斷子模塊M41判定所述離散圖文的屬性為不具有整體閱讀性特點的邏輯結構的圖文吋,根據所述離散圖文的位置信息,將所述離散圖文添加到在目標文檔中所對應的最小外接矩形中的對應位置。本發(fā)明實施例中,通過對原始文檔進行排版,獲取原始文檔排版后的所述原始文檔中圖文所在最小外接矩形的邏輯結構位置信息,并通過虛擬打印的形式,對所述排版后的原始文檔進行虛擬打印,從而獲取排版后的所述原始文檔中離散圖文的位置信息,之后再根據所述邏輯結構位置信息和所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔;從而使目標文檔既含有版式信息,使目標文檔能夠在不同平臺上閱讀和打印保持原版原式的文檔;又能保持原始文檔的流式信息,使目標文檔能夠在手持移動設備上進行重排,屏幕自適應閱讀,并保持各圖元正確的閱讀順序。通過以上的實施方式的描述,所屬領域的技術人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件的方式來實現,當然也可以通過硬件,但很多情況下前者是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在可讀取的存儲介質中,如計算機的軟盤,硬盤或光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機, 服務器,或者網絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。以上所述,僅為本發(fā)明的具體實施方式
,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內。因此,本發(fā)明的保護范圍應以所述權利要求的保護范圍為準。
權利要求
1.一種文檔格式轉換的方法,其特征在干,包括將原始文檔進行排版,獲取排版后的所述原始文檔中圖文所在最小外接矩形的邏輯結構位置信息;按照與對所述原始文檔進行排版時使用的相同規(guī)格的紙張,對排版后的所述原始文檔進行虛擬打印,獲取排版后的所述原始文檔中離散圖文的位置信息;根據所述邏輯結構位置信息和所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔。
2.根據權利要求1所述的方法,其特征在干,所述根據所述邏輯結構位置信息和所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔,包括根據所述邏輯結構位置信息,將排版后的所述原始文檔中的圖文所在最小外接矩形進行排序,得到所述離散圖文在目標文檔中所在最小外接矩形的邏輯結構;根據所述離散圖文的位置信息和所述邏輯結構位置信息,確定所述離散圖文在目標文檔中所對應的最小外接矩形,并將屬于同一個最小外接矩形的所述離散圖文生成一個所述目標文檔格式中預定義的圖元描述;根據所述離散圖文的屬性,將生成的每個所述目標文檔格式中預定義的圖元描述對應的離散圖文進行處理,得到與所述原始文檔具有相同版式和流式的目標文檔。
3.根據權利要求2所述的方法,其特征在干,所述根據所述離散圖文的位置信息和所述邏輯結構位置信息,確定所述離散圖文在目標文檔中所對應的最小外接矩形,包括將所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息, 與排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息進行匹配,所述離散圖文的位置信息包含所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息;若所述排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息中,存在與所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息相同的邏輯結構位置信息,則確定對應的所述排版后的所述原始文檔中的圖文所在最小外接矩形,為所述離散圖文在目標文檔中所對應的最小外接矩形;若所述排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息中,不存在與所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息相同的邏輯結構位置信息,則根據所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息,為所述離散圖文在目標文檔中新建一個所述離散圖文所在最小外接矩形。
4.根據權利要求2所述的方法,其特征在干,所述根據所述離散圖文的屬性,將生成的每個所述目標文檔格式中預定義的圖元描述對應的離散圖文進行處理,得到與所述原始文檔具有相同版式和流式的目標文檔,包括根據離散圖文的圖文屬性判斷每個所述目標文檔格式中預定義的圖元描述對應的離散圖文,是否為具有整體閱讀性特點的邏輯結構的圖文;若所述離散圖文為具有整體閱讀性特點的邏輯結構的圖文,則根據所述離散圖文的位置信息,將所述離散圖文組合成ー個復合圖文,并將所述復合圖文添加到所述復合圖文在目標文檔中所對應的最小外接矩形中的對應位置;若所述離散圖文的屬性為不具有整體閱讀性特點的邏輯結構的圖文,則根據所述離散圖文的位置信息,將所述離散圖文添加到所述離散圖文在目標文檔中所對應的最小外接矩形中的對應位置。
5.根據權利要求1至4中任一項所述的方法,其特征在干,所述原始文檔為流式文檔。
6.一種文檔格式轉換的裝置,其特征在干,包括 排版單元,用于將原始文檔進行排版;第一獲取單元,用于獲取所述排版單元排版后的所述原始文檔中圖文所在最小外接矩形的邏輯結構位置信息;第二獲取單元,用于按照與對所述原始文檔進行排版時使用的相同規(guī)格的紙張,對所述排版單元排版后的所述原始文檔進行虛擬打印,獲取排版后的所述原始文檔中離散圖文的位置信息;重組單元,用于根據所述第一獲取單元獲取的所述邏輯結構位置信息和所述第二獲取單元獲取的所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔。
7.根據權利要求6所述的裝置,其特征在干,所述重組単元包括第一確定模塊,用于根據所述第一獲取單元獲取的所述邏輯結構位置信息,將排版后的所述原始文檔中的圖文所在最小外接矩形進行排序,得到所述離散圖文在目標文檔中所在最小外接矩形的邏輯結構;第二確定模塊,用于根據所述第二獲取單元獲取的所述離散圖文的位置信息和所述第一獲取單元獲取的所述邏輯結構位置信息,確定所述離散圖文在目標文檔中所對應的最小外接矩形;生成模塊,用于將屬于同一個最小外接矩形的所述離散圖文生成一個所述目標文檔格式中預定義的圖元描述;處理模塊,用于根據所述離散圖文的屬性,將所述生成模塊生成的每個所述目標文檔格式中預定義的圖元描述對應的離散圖文進行處理,得到與所述原始文檔具有相同版式和流式的目標文檔。
8.根據權利要求7所述的裝置,其特征在干,所述第二確定模塊包括匹配子模塊,用于將所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息,與排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息進行匹配,所述離散圖文的位置信息包含所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信;第一確定子模塊,用于當所述匹配子模塊確定所述匹配子模塊確定所述排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息中,存在與所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息相同的邏輯結構位置信息吋, 確定對應的所述排版后的所述原始文檔中的圖文所在最小外接矩形,為所述離散圖文在目標文檔中所對應的最小外接矩形;創(chuàng)建子模塊,用于當所述匹配子模塊確定所述排版后的所述原始文檔中的圖文所在最小外接矩形的邏輯結構位置信息中,不存在與所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息相同的邏輯結構位置信息吋,根據所述離散圖文在排版后的所述原始文檔中所在最小外接矩形的邏輯結構位置信息,為所述離散圖文在目標文檔中新建一個所述離散圖文所在最小外接矩形。
9.根據權利要求7所述的裝置,其特征在干,所述處理模塊包括判斷子模塊,用于根據離散圖文的圖文屬性判斷所述每個所述目標文檔格式中預定義的圖元描述對應的離散圖文,是否為具有整體閱讀性特點的邏輯結構的圖文;第一處理子模塊,用于在所述判斷子模塊判定所述離散圖文為具有整體閱讀性特點的邏輯結構的圖文吋,根據所述離散圖文的位置信息,將所述離散圖文組合成ー個復合圖文, 并將所述復合圖文添加到所述復合圖文在目標文檔中所對應的最小外接矩形中的對應位置;第二處理子模塊,用于在所述判斷子模塊判定所述離散圖文的屬性為不具有整體閱讀性特點的邏輯結構的圖文吋,根據所述離散圖文的位置信息,將所述離散圖文添加到所述離散圖文在目標文檔中所對應的最小外接矩形中的對應位置。
10.根據權利要求6至9中任一項所述的裝置,其特征在干,所述原始文檔為流式文檔。
全文摘要
本發(fā)明實施例公開了一種文檔格式轉換的方法及裝置,涉及電子文檔技術領域,能夠使同一份目標文檔在不同平臺、不同設備上以相同的版式和流式進行閱讀。本發(fā)明的方法包括將原始文檔進行排版,獲取排版后的所述原始文檔中圖文所在最小外接矩形的邏輯結構位置信息;按照與對所述原始文檔進行排版時使用的相同規(guī)格的紙張,對排版后的所述原始文檔進行虛擬打印,獲取排版后的所述原始文檔中離散圖文的位置信息;根據所述邏輯結構位置信息和所述離散圖文的位置信息,重組所述離散圖文,得到與所述原始文檔具有相同版式和相同流式的目標文檔。本發(fā)明實施例主要用戶文檔格式的轉換過程中。
文檔編號G06F17/22GK102591849SQ20111000279
公開日2012年7月18日 申請日期2011年1月7日 優(yōu)先權日2011年1月7日
發(fā)明者何震生, 曹佳胤, 王毅 申請人:北京北大方正技術研究院有限公司, 北大方正集團有限公司