本發(fā)明涉及計算機,具體涉及pdf文檔的轉換方法、裝置、設備、存儲介質及產品。
背景技術:
1、針對文件而言,一般通過pdf文檔來描述以避免修改或格式顯示問題。對于pdf文檔的顯示,在一些場景下需要對pdf文檔進行檢索以及對比顯示。因此,就需要提供一種pdf文檔的轉換方法,便于利用轉換后的內容進行顯示。
技術實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種pdf文檔的轉換方法、裝置、設備、存儲介質及產品,以解決pdf文檔的轉換問題。
2、第一方面,本發(fā)明提供了一種pdf文檔的轉換方法,所述方法包括:
3、獲取待轉換的pdf文檔以及所述pdf文檔的頁面信息;
4、基于所述頁面信息對所述pdf文檔進行逐頁解析,得到所述pdf文檔中各個頁面的內容類型對應的網頁元素,所述內容類型包括文本、矢量圖形、圖像以及表格中的至少之一,所述網頁元素用于形成網頁頁面;
5、基于所述網頁元素進行渲染,生成所述pdf文檔對應的網頁頁面。
6、本發(fā)明實施例提供的pdf文檔的轉換方法,對于pdf文檔而言,對其進行逐頁解析,得到pdf文檔中各個頁面的內容類型對應的網頁元素,也就是說,對于不同的內容類型得到相應的網頁元素,對解析后得到的網頁元素進行渲染,從而生成該pdf文檔對應的網頁頁面。通過對pdf文檔進行逐頁解析,能夠避免全文解析帶來的處理并發(fā)量,同時,逐頁解析還可以保證解析結果的準確性以及后續(xù)渲染結果的準確性,在此基礎上,保證了網頁頁面能夠真實表征pdf文檔。通過網頁頁面來表征pdf文檔,能夠便于后續(xù)在此基礎上進行相似內容的檢索與對比顯示。
7、在一種可選的實施方式中,若所述內容類型包括文本,則對應的所述網頁元素包括文本元素,所述基于所述頁面信息對所述pdf文檔進行逐頁解析,得到各個頁面的內容類型對應的網頁元素,包括:
8、基于所述頁面信息確定當前待解析頁面;
9、對所述當前待解析頁面中的文本進行解析,確定所述文本的連字信息和斷句信息,得到所述文本元素。
10、本發(fā)明實施例提供的pdf文檔的轉換方法,通過頁面信息確定當前待解析頁面,能夠準確得到當前需要處理的pdf頁面。同時,在解析時通過確定文本的量子信息和斷句信息,進一步保證了文本元素與pdf中文本的顯示一致性。
11、在一種可選的實施方式中,所述對所述當前待解析頁面中的文本進行解析,確定所述文本的連字信息和斷句信息,得到所述文本元素,包括:
12、確定所述文本中每行文字的各個字符的特征信息;
13、基于所述特征信息對相同行和相鄰行的字符進行連字或斷句,確定所述連字信息和斷句信息,得到所述文本元素。
14、本發(fā)明實施例提供的pdf文檔的轉換方法,利用字符的特征信息分別針對相同行和相鄰行進行連字或斷句的處理,通過連字或斷句來保證字符的準確顯示。
15、在一種可選的實施方式中,所述基于所述特征信息對相同行和相鄰行的文本進行連字或斷句,確定所述連字信息和斷句信息,得到所述文本元素,包括:
16、針對相同行的字符,基于所述特征信息計算相鄰兩個字符之間的關聯(lián)度;
17、若所述關聯(lián)度大于預設關聯(lián)值,則將相鄰兩個字符構成連字信息,否則在相鄰兩個字符之間進行斷句,構成斷句信息;
18、針對相鄰行的字符,基于所述特征信息計算所述相鄰行中第一行的第一個字符的第一頁邊距以及所述相鄰行中第二行的最后一個字符的第二頁邊距,所述第二行位于所述第一行之上;
19、若所述第一頁邊距與所述第二頁邊距的差小于預設邊距值,則將所述第一行的第一個字符與所述第二行的最后一個字符構成連字信息,否則在所述第一行的第一個字符與所述第二行的最后一個字符之間進行斷句,構成斷句信息。
20、本發(fā)明實施例提供的pdf文檔的轉換方法,針對相同行和相鄰行分別采用不同的方式進行連字或斷句的處理,能夠進一步保證所得到的連字信息和斷句信息的準確性。
21、在一種可選的實施方式中,若所述內容類型包括矢量圖形,則所述網頁元素包括矢量圖形元素,所述基于所述頁面信息對所述pdf文檔進行逐頁解析,得到所述pdf文檔中各個頁面的內容類型對應的網頁元素,包括:
22、提取當前待解析頁面中所述矢量圖形的線條信息,所述當前待解析頁面是基于所述頁面信息確定的;
23、基于所述線條信息,確定所述矢量圖形的填充區(qū)域;
24、在所述填充區(qū)域進行顏色填充,得到所述矢量圖形元素。
25、本發(fā)明實施例提供的pdf文檔的轉換方法,針對矢量圖形而言,通過提取矢量圖形的線條信息,得到對應的填充區(qū)域,在此基礎上進行顏色填充,能夠得到與pdf中矢量圖形一致的矢量圖形元素。
26、在一種可選的實施方式中,若所述內容類型包括圖像,則所述網頁元素包括圖像元素;所述基于所述頁面信息對所述pdf文檔進行逐頁解析,得到所述pdf文檔中各個頁面的內容類型對應的網頁元素,包括:
27、提取當前待解析頁面中的圖像,確定所述圖像的圖像格式,所述當前待解析頁面是基于所述頁面信息確定的;
28、按照所述圖像格式對所述圖像進行解析,得到圖像元素。
29、本發(fā)明實施例提供的pdf文檔的轉換方法,針對pdf中的圖像,通過確定圖像格式再基于圖像格式對圖像進行解析得到圖像元素,保證了圖像元素與pdf文檔的一致性。
30、在一種可選的實施方式中,若所述內容類型包括表格,則所述網頁元素包括表格元素,所述基于所述頁面信息對所述pdf文檔進行逐頁解析,得到各個頁面的網頁元素,包括:
31、提取當前待解析頁面中所述表格的線段,確定各個線段在所述當前待解析頁面的位置信息,所述當前待解析頁面是基于所述頁面信息確定的;
32、基于各個線段的所述位置信息,生成所述當前待解析頁面的表格元素。
33、本發(fā)明實施例提供的pdf文檔的轉換方法,對于表格而言,由于表格中文本是利用文本的處理方式進行解析的,且表格中的線段是無需進行相似度比對的,因此,對于表格的線段而言,需要準確確定其位置信息,從而即可保證表格元素與pdf文檔中表格的一致性。
34、在一種可選的實施方式中,所述基于所述網頁元素進行渲染,生成所述pdf文檔對應的網頁頁面,包括:
35、基于所述網頁元素的特征信息,確定所述網頁元素的渲染標簽,所述網頁元素的特征信息包括字符樣式以及句子特征,所述句子特征是基于所述文本的連字信息和斷句信息確定的;
36、基于所述渲染標簽對所述網頁元素進行結構化,得到結構化信息;
37、按照所述結構化信息進行渲染,生成所述網頁頁面。
38、本發(fā)明實施例提供的pdf文檔的轉換方法,基于網頁元素的特征信息確定渲染標簽,保證了所確定的渲染標簽能夠表征網頁元素的特征,使得結構化后的處理結果能夠保證與pdf文檔的一致性。
39、在一種可選的實施方式中,所述基于所述渲染標簽對所述網頁元素進行結構化,得到結構化信息,包括:
40、檢測所述網頁元素是否存在相似元素;
41、當所述網頁元素存在相似元素時,生成所述網頁元素的標記信息;
42、基于所述標記信息以及所述渲染標簽,對所述網頁元素進行結構化,得到結構化信息。
43、本發(fā)明實施例提供的pdf文檔的轉換方法,對于網頁元素生成網頁頁面的過程中,還進行相似度比對,若存在相似元素,則生成該網頁元素的標記信息,并結合渲染標簽對網頁元素進行結構化,從而能夠保證在網頁頁面中能夠顯示出相似比對的標識。
44、在一種可選的實施方式中,所述標記信息包括標記位置和標記內容;當所述網頁元素存在相似元素時,生成所述網頁元素的標記信息,包括:
45、當所述網頁元素存在相似元素時,將所述網頁元素對應的第一標識信息與所述相似元素對應的第二標識信息進行關聯(lián);
46、基于所述第一標識信息和所述第二標識信息,確定所述網頁元素在網頁頁面中的標記位置和標記內容;
47、其中,所述第一標識信息用于表征網頁元素唯一性,所述第二標識信息用于表征相似對比元素的唯一性。
48、本發(fā)明實施例提供的pdf文檔的轉換方法,通過在網頁頁面中將網頁元素與相似元素采用第一標識信息與第二標識信息進行對比顯示,能夠便于用戶快速定位到文檔中的相似內容。
49、第二方面,本發(fā)明提供了一種pdf文檔的轉換裝置,所述裝置包括:
50、獲取模塊,用于獲取待轉換的pdf文檔以及所述pdf文檔的頁面信息;
51、解析模塊,用于基于所述頁面信息對所述pdf文檔進行逐頁解析,得到所述pdf文檔中各個頁面的內容類型對應的網頁元素,所述內容類型包括文本、矢量圖形、圖像以及表格中的至少之一,所述網頁元素用于形成網頁頁面;
52、渲染模塊,用于基于所述網頁元素進行渲染,生成所述pdf文檔對應的網頁頁面。
53、第三方面,本發(fā)明提供了一種計算機設備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執(zhí)行計算機指令,從而執(zhí)行上述第一方面或其對應的任一實施方式的pdf文檔的轉換方法。
54、第四方面,本發(fā)明提供了一種計算機可讀存儲介質,該計算機可讀存儲介質上存儲有計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的pdf文檔的轉換方法。
55、第五方面,本公開提供了一種計算機程序產品,包括計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的pdf文檔的轉換方法。