一種版式文件中結(jié)構(gòu)化信息獲取的方法及裝置的制作方法

文檔序號：6440734閱讀：223來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種版式文件中結(jié)構(gòu)化信息獲取的方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息處理技術(shù)領(lǐng)域，特別涉及一種版式文件中結(jié)構(gòu)化信息獲取的方法及裝置。
背景技術(shù)：
在對圖書版式文件的信息化管理中，需對每個圖書版式文件進(jìn)行結(jié)構(gòu)化，獲取每個版式文件的結(jié)構(gòu)化信息以形成對應(yīng)的目錄數(shù)據(jù)。而現(xiàn)有的已形成的圖書版式文件的目錄數(shù)據(jù)中，一般只包括每個目錄項的名稱字符以及每個目錄項的起始位置，而并不包括每個目錄項的結(jié)束位置，以及每個目錄項的名稱在文章中的具體區(qū)域?？梢姡F(xiàn)有的圖書版式文件的結(jié)構(gòu)化信息并不完整，不能根據(jù)現(xiàn)有的目錄數(shù)據(jù)確定每個目錄項對應(yīng)的具體起始及結(jié)束位置，從而，不能單獨提供圖書版式文件的具體目錄項的版式和流式閱讀，即不能滿足多樣化閱讀的需求。因此，在對每個圖書版式文件進(jìn)行結(jié)構(gòu)化的過程中，需獲取每個版式文件比較完整的結(jié)構(gòu)化信息。一般通過人工對圖書版式文件進(jìn)行結(jié)構(gòu)化，即人工對圖書版式文件中每個目錄項的文章內(nèi)容進(jìn)行閱讀分析查看，然后根據(jù)查看的文章內(nèi)容，從中獲取所需的結(jié)構(gòu)化數(shù)據(jù)。在對大量的圖書版式文件的信息化管理時，由于人工原因的限制，例如:理解能力或體力，勢必會出現(xiàn)一些錯誤，并且，人工的速度也比較慢。從而，影響了結(jié)構(gòu)化信息獲取的正確率以及速度。

發(fā)明內(nèi)容
本發(fā)明實施例提供一種版式文件中結(jié)構(gòu)化信息獲取的方法及裝置，用以提高版式文件的信息化管理中對版式文件的結(jié)構(gòu)化速度。本發(fā)明實施例提供一種版式文件中結(jié)構(gòu)化信息獲取的方法，包括:確定當(dāng)前目錄項對應(yīng)的起始頁碼信息；將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容，按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符；在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符，并獲取所述第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息；根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息，以及上一目錄項的結(jié)束位置信息。本發(fā)明實施例提供版式文件中結(jié)構(gòu)化信息獲取的裝置，包括:確定單元,用于確定當(dāng)前目錄項對應(yīng)的起始頁碼信息；分割單元，用于將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容，按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符；匹配單元，用于在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符，并獲取所述第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息；
獲取單元，用于根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息，以及上一目錄項的結(jié)束位置信息。本發(fā)明實施例中，將起始頁碼信息對應(yīng)頁的第一文章內(nèi)容分割成至少一個塊結(jié)構(gòu)字符，并從中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符，并獲取第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息，然后，根據(jù)第一位置信息確定當(dāng)前目錄項的起始位置信息，以及上一目錄項的結(jié)束位置信息，這樣，只需對特定頁的文章內(nèi)容進(jìn)行分析和匹配，就可獲取到版式文件的結(jié)構(gòu)化信息，從而，加快了對版式文件的結(jié)構(gòu)化速度。

圖1為本發(fā)明實施例中版式文件中結(jié)構(gòu)化信息獲取的流程圖；圖2為本發(fā)明實施例中匹配查找的流程圖；圖3為本發(fā)明實施例中版式文件的目錄數(shù)據(jù)信息的示意圖；圖4為本發(fā)明實施例中版式文件的目錄數(shù)據(jù)信息更新后的示意圖；圖5為本發(fā)明實施例中結(jié)構(gòu)化的版式文件數(shù)據(jù)信息的示意圖；圖6為本發(fā)明實施例中版式文件中結(jié)構(gòu)化信息獲取的裝置的結(jié)構(gòu)圖。
具體實施例方式本發(fā)明實施例中，對特定頁的文章內(nèi)容進(jìn)行分析和匹配，就可獲取到版式文件的結(jié)構(gòu)化信息，從而，加快了對版式文件的結(jié)構(gòu)化速度。參見圖1，本發(fā)明實施例中版式文件中結(jié)構(gòu)化信息獲取的過程包括:步驟101:確定當(dāng)前目錄項對應(yīng)的起始頁碼信息。在對版式文件的信息化管理中，已經(jīng)加載了版式文件的目錄數(shù)據(jù)信息。其中，目錄數(shù)據(jù)信息包括:目錄項的層次關(guān)系，目錄項的名稱字符，目錄項對應(yīng)起始頁碼。該目錄數(shù)據(jù)信息可已XML文件格式進(jìn)行描述，或者其他的自定義的TXT文件格式，或EXCEL文件格式進(jìn)行描述。這樣，將需單獨提供版式和流式閱讀的具體目錄項確定為當(dāng)前目錄項，或者，將目錄數(shù)據(jù)信息中任意一個目錄項確定為當(dāng)前目錄項，并從中查找到該當(dāng)前目錄項對應(yīng)的起始頁碼。本發(fā)明實施例中，為提高結(jié)構(gòu)化信息獲取的正確率，可在確定當(dāng)前目錄項對應(yīng)的起始頁碼之前，分析加載的版式文件的目錄數(shù)據(jù)信息的有效性，如:目錄的層次關(guān)系，以及個目錄項的起始頁碼的有效性等等。步驟102:將起始頁碼信息對應(yīng)頁的第一文章內(nèi)容，按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符。版式文件一般有共同特征，例如文章中的目錄文字和文章中的正文文字的字體大小、字體格式差別都比較大，以及目錄和正文的第一行距和正文間的第二行距差距也都比較大，因此，本發(fā)明實施了中，可根據(jù)目錄文字和正文文字的字體大小及格式的不同，以及目錄和正文間的第一行距與正文間的第二行距的不同，將第一文章內(nèi)容分割成一個、兩個，或多個塊結(jié)構(gòu)字符。因此，內(nèi)容屬性信息包括字符信息以及行距信息。并且，本發(fā)明實施例中，塊結(jié)構(gòu)字符包括:段結(jié)構(gòu)字符或行結(jié)構(gòu)字符。則可依據(jù)目錄文字和正文文字的字體大小及格式的不同，以及目錄和正文間的第一行距與正文間的第二行距的不同，采用自動成段或自動成行的方式將第一文章內(nèi)容分割成對應(yīng)的段結(jié)構(gòu)字符或行結(jié)構(gòu)字符。步驟103:在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符。本發(fā)明實施例中，可采用設(shè)定的匹配模塊，在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字。匹配模塊可以多種多樣，從而匹配查找的過程也可以多種多樣。步驟104:獲取第一塊結(jié)構(gòu)字符在第一文章內(nèi)容中第一位置信息。已查找到與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符，從而可獲取第一塊結(jié)構(gòu)字符在第一文章內(nèi)容中第一位置信息。第一位置信息包括:所在頁的頁碼信息，坐標(biāo)信息，橫向的起始線坐標(biāo)信息，和橫向的終止線坐標(biāo)信息中的一種或多種。步驟105:根據(jù)第一位置信息獲取當(dāng)前目錄項的起始位置信息，以及上一目錄項的結(jié)束位置信息?！憧蓪⒌谝晃恢眯畔⒋_定當(dāng)前目錄項的起始位置信息，將第一塊結(jié)構(gòu)字符的上一個塊結(jié)構(gòu)字符的位置信息確定上一目錄項的結(jié)束位置信息。但是，當(dāng)?shù)谝晃恢眯畔⑹堑谝晃恼聝?nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息時，將起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符，并根據(jù)第一位置信息，以及第二文章內(nèi)容中起始塊結(jié)構(gòu)字符的位置信息，確定當(dāng)前目錄項的起始位置信息，即結(jié)合兩者的位置信息，確定當(dāng)前目錄項的起始位置信息。當(dāng)?shù)谝晃恢眯畔⑹堑谝晃恼聝?nèi)容的起始塊結(jié)構(gòu)字符的位置信息時，將起始頁碼信息對應(yīng)的前一頁的第三文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符，并根據(jù)第一位置信息，以及第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息，確定上一目錄項的結(jié)束位置信息。同樣，結(jié)合兩者的置信息，確定當(dāng)前目錄項的起始位置信息。至此，當(dāng)前目錄項對應(yīng)的結(jié)構(gòu)化信息已獲取了。此時可更新版式文件的目錄數(shù)據(jù)信息，即本發(fā)明實施例還包括:步驟106:根據(jù)當(dāng)前目錄項的起始位置信息，以及上一目錄項的結(jié)束位置信息更新版式文件的目錄數(shù)據(jù)信息。這里，可將確定的當(dāng)前目錄項的起始位置信息，以及上一目錄項的結(jié)束位置信息加入到目錄數(shù)據(jù)信息對應(yīng)的XML文件中。本發(fā)明實施例中還可待所有目錄項對應(yīng)的結(jié)構(gòu)化信息都獲取后，再一次更新版式文件的目錄數(shù)據(jù)信息。由此可見，只需對以起始頁碼信息對應(yīng)頁的第一文章內(nèi)容，或者對起始頁碼信息對應(yīng)頁的第一文章內(nèi)容以及起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容，或者，對起始頁碼信息對應(yīng)頁的第一文章內(nèi)容以及起始頁碼信息對應(yīng)的前一頁的第三文章內(nèi)容進(jìn)行分析和匹配，就能獲取到目錄項對應(yīng)的結(jié)構(gòu)化信息，即對特定頁的文章內(nèi)容進(jìn)行分析和匹配，就可獲取到版式文件的結(jié)構(gòu)化信息，從而，加快了對版式文件的結(jié)構(gòu)化速度。上述實施例步驟103中，由于匹配模塊可以多種多樣，從而在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字的匹配查找的過程也可以多種多樣。例如:直接在每個塊結(jié)構(gòu)字符中查找是否有與當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符，如果版式文件的質(zhì)量比較高，依靠此方法即可完成匹配查找的過程。本發(fā)明實施例為增加匹配的成功率，還可增加別的匹配模板，具體查找過程參見圖2，包括:步驟201:在每個塊結(jié)構(gòu)字符中查找是否有與當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符，如有，執(zhí)行步驟204。否則，執(zhí)行步驟202。步驟202:利用正則表達(dá)式，在每個塊結(jié)構(gòu)字符中查找是否有與當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符，如有，執(zhí)行步驟204。否則，執(zhí)行步驟203。這里，由于步驟201未能滿足匹配的要求，可將每個塊結(jié)構(gòu)字符以及當(dāng)前目錄項的名稱字符中一些影響匹配的字符剔除，例如:空格，修飾符號以及其他可能影響匹配的字符。然后，將處理后的字符按照設(shè)定的正則表達(dá)式的方式去匹配，正則表達(dá)式是用某種模式去匹配一類字符串的一個公式。利用該公式進(jìn)行匹配，獲得與當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符。步驟203:根據(jù)逐字符匹配計算每個塊結(jié)構(gòu)字符與當(dāng)前目錄項的名稱字符之間的匹配度。例如:一個塊結(jié)構(gòu)字符與前目錄項的名稱字符之中有一半的字符相同，則匹配度為50%。或者，采用其他的比例。步驟204:匹配度是否大于或等于閾值，若是，執(zhí)行步驟205，否則，匹配流程失敗。其中，可根據(jù)各種批次版式文件的排版的實際情況來調(diào)整閾值來實現(xiàn)比較高的匹配度。步驟205:將匹配度對應(yīng)的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符。步驟206:將查找到塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符。通過以上步驟基本上都能查找到與當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符。本發(fā)明實施例中，在步驟201之前，還需將每個塊結(jié)構(gòu)字符以及當(dāng)前目錄項的名稱字符統(tǒng)一為全角字符或半角字符，這樣，便于后續(xù)的匹配查找。下面結(jié)合說明書附圖對本發(fā)明實施例作進(jìn)一步詳細(xì)描述。本實施例中，版式文件的目錄數(shù)據(jù)信息如圖3所示，以當(dāng)前目錄項的名稱字符為“第二章無套利原理“為了進(jìn)行描述，該版式文件的結(jié)構(gòu)化信息獲取過程包括:確定當(dāng)前目錄項對應(yīng)的起始頁碼信息為“16 “。然后，將第16頁中的第一文章內(nèi)容，按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符，并在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符，獲取第一塊結(jié)構(gòu)字符在第一文章內(nèi)容中第一位置信息。這里，第一位置信息包括:"ebookPageNum = " 16" left="1740 " top = " 396 " right = " 3016 " buttom = " 587 " startVerticalPos="396" endVerticalPos = " 4082"。由于第一位置信息是第一文章內(nèi)容的起始塊結(jié)構(gòu)字符的位置信息，因此，還需將第15頁中的第三文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符，并獲取第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息，由于結(jié)束塊結(jié)構(gòu)字符與當(dāng)前目錄項的名稱字符不匹配，因此，該第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息即為上一目錄項的結(jié)束位置信息，例如:該信息中包括:ebookEndLPageNum = 15, endvertiempos = 2341 等；而第一位置信息即為當(dāng)前錄項的起始位置信息，例如該信息中包括:ebookPageNum = " 16" left="1740 " top = " 396 " right = " 3016 " buttom = " 587 " startVerticalPos="396" endVerticalPos = " 4082"。對起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容的分析與匹配過程于此類似，就不再累述了。根據(jù)上述過程，對每個目錄項獲取結(jié)構(gòu)化信息，最后根據(jù)獲取的結(jié)構(gòu)化信息對最初的根據(jù)版式文件的目錄數(shù)據(jù)信息進(jìn)行更新，更新后的結(jié)構(gòu)化的目錄數(shù)據(jù)信息如圖4所
/Jn ο本發(fā)明實施例中還可將目錄項對應(yīng)的文章內(nèi)容信息添加到更新后構(gòu)化的目錄數(shù)據(jù)信息中對應(yīng)的目錄項下，形成結(jié)構(gòu)化的版式文件數(shù)據(jù)信息，如圖5所示。這樣，系統(tǒng)會自動掃描待結(jié)構(gòu)化下的所有版式文件數(shù)據(jù)信息分別進(jìn)行章節(jié)化的處理并輸出，從而可單獨提供圖書版式文件的具體目錄項的版式和流式閱讀。根據(jù)上述版式文件中結(jié)構(gòu)化信息獲取的方法，可構(gòu)建一種版式文件中結(jié)構(gòu)化信息獲取的裝置，參見圖6，包括:確定單元100、分割單元200、匹配單元300以及獲取單元400，其中，確定單元100,用于確定當(dāng)前目錄項對應(yīng)的起始頁碼信息。分割單元200，用于將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容，按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符。匹配單元300，用于在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符，并獲取第一塊結(jié)構(gòu)字符在第一文章內(nèi)容中第一位置信息。獲取單元400，用于根據(jù)第一位置信息獲取當(dāng)前目錄項的起始位置信息，以及上一目錄項的結(jié)束位置信息。其中，分割單元200，具體用于根據(jù)目錄文字和正文文字的字體大小及格式的不同，以及目錄和正文間的第一行距與正文間的第二行距的不同，將第一文章內(nèi)容分割成至少一個塊結(jié)構(gòu)字符，其中，塊結(jié)構(gòu)字符包括:段結(jié)構(gòu)字符或行結(jié)構(gòu)字符。匹配單元300，具體用于在每個塊結(jié)構(gòu)字符中查找是否有與當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符，如有，則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符；否則，利用正則表達(dá)式，在每個塊結(jié)構(gòu)字符中查找是否有與當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符，如有，則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符；否則，根據(jù)逐字符匹配計算每個塊結(jié)構(gòu)字符與當(dāng)前目錄項的名稱字符之間的匹配度，當(dāng)匹配度達(dá)到設(shè)定閾值時，將匹配度對應(yīng)的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符。匹配單元300，還用于將每個塊結(jié)構(gòu)字符以及當(dāng)前目錄項的名稱字符統(tǒng)一為全角字符或半角字符。獲取單元400，一般可將第一位置信息確定當(dāng)前目錄項的起始位置信息，將第一塊結(jié)構(gòu)字符的上一個塊結(jié)構(gòu)字符的位置信息確定上一目錄項的結(jié)束位置信息。該獲取單元400，還具體用于當(dāng)?shù)谝晃恢眯畔⑹堑谝晃恼聝?nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息時，將起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符，并根據(jù)第一位置信息，以及第二文章內(nèi)容中起始塊結(jié)構(gòu)字符的位置信息，確定當(dāng)前目錄項的起始位置信息；當(dāng)?shù)谝晃恢眯畔⑹堑谝晃恼聝?nèi)容的起始塊結(jié)構(gòu)字符的位置信息時，將起始頁碼信息對應(yīng)的前一頁的第三文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符，并根據(jù)第一位置信息，以及第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息，確定上一目錄項的結(jié)束位置信息，本發(fā)明實施例中，只需對特定頁的文章內(nèi)容進(jìn)行分析和匹配，就可獲取到版式文件的結(jié)構(gòu)化信息，從而，加快了對版式文件的結(jié)構(gòu)化速度。并且在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符使，匹配方式多種多樣，一種匹配方式匹配方式未能命中的話還有備選的多種匹配方式，提高匹配查找的成功率。另外，當(dāng)在大批量版式文件數(shù)據(jù)的結(jié)構(gòu)化制作過程中，根據(jù)設(shè)定的匹配模板進(jìn)行分析匹配，從而，批量獲取分析不需要人工干預(yù)，節(jié)省了大量的人力。顯然，本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種版式文件中結(jié)構(gòu)化信息獲取的方法，其特征在于，包括: 確定當(dāng)前目錄項對應(yīng)的起始頁碼信息；將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容，按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符；在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符，并獲取所述第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息；根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息，以及上一目錄項的結(jié)束位置信息。
2.如權(quán)利要求1所述的方法，其特征在于，所述按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符包括: 根據(jù)目錄文字和正文文字的字體大小及格式的不同，以及目錄和正文間的第一行距與正文間的第二行距的不同，將所述第一文章內(nèi)容分割成至少一個塊結(jié)構(gòu)字符，其中，所述塊結(jié)構(gòu)字符包括:段結(jié)構(gòu)字符或行結(jié)構(gòu)字符。
3.如權(quán)利要求1所述的方法，其特征在于，所述在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符包括: 在每個塊結(jié)構(gòu)字符中查找是否有與所述當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符，如有，則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符；否則，利用正則表達(dá)式，在每個塊結(jié)構(gòu)字符中查找是否有與所述當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符，如有，則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符；否則，根據(jù)逐字符匹配計算每個塊結(jié)構(gòu)字符與所述當(dāng)前目錄項的名稱字符之間的匹配度，當(dāng)所述匹配度達(dá)到設(shè)定閾值時，將所述匹配度對應(yīng)的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符。
4.如權(quán)利要求3所述的方法，其特征在于，所述在每個塊結(jié)構(gòu)字符中查找是否有與所述當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符之前還包括: 將每個塊結(jié)構(gòu)字符以及所述當(dāng)前目錄項的名稱字符統(tǒng)一為全角字符或半角字符。
5.如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息，以及上一目錄項的結(jié)束位置信息包括: 當(dāng)所述第一位置信息是所述第一文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息時，將所述起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符，并根據(jù)所述第一位置信息，以及所述第二文章內(nèi)容中起始塊結(jié)構(gòu)字符的位置信息，確定所述當(dāng)前目錄項的起始位置信息；當(dāng)所述第一位置信息是所述第一文章內(nèi)容的起始塊結(jié)構(gòu)字符的位置信息時，將所述起始頁碼信息對應(yīng)的前一頁的第三文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符，并根據(jù)所述第一位置信息，以及所述第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息，確定所述上一目錄項的結(jié)束位置信息。
6.一種版式文件中結(jié)構(gòu)化信息獲取的裝置，其特征在于，包括: 確定單元，確定當(dāng)前目錄項對應(yīng)的起始頁碼信息；分割單元，用于將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容，按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符；匹配單元，用于在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符，并獲取所述第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息；獲取單元，用于根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息。
7.如權(quán)利要求6所述的裝置，其特征在于，所述分割單元，具體用于根據(jù)目錄文字和正文文字的字體大小及格式的不同，以及目錄和正文間的第一行距與正文間的第二行距的不同，將所述第一文章內(nèi)容分割成至少一個塊結(jié)構(gòu)字符，其中，所述塊結(jié)構(gòu)字符包括:段結(jié)構(gòu)字符或行結(jié)構(gòu)字符。
8.如權(quán)利要求6所述的裝置，其特征在于，所述匹配單元，具體用于在每個塊結(jié)構(gòu)字符中查找是否有與所述當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符，如有，則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符；否則，利用正則表達(dá)式，在每個塊結(jié)構(gòu)字符中查找是否有與所述當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符，如有，則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符；否則，根據(jù)逐字符匹配計算每個塊結(jié)構(gòu)字符與所述當(dāng)前目錄項的名稱字符之間的匹配度，當(dāng)所述匹配度達(dá)到設(shè)定閾值時，將所述匹配度對應(yīng)的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符。
9.如權(quán)利要求8所述的裝置，其特征在于，所述匹配單元，還用于將每個塊結(jié)構(gòu)字符以及當(dāng)前目錄項的名稱字符統(tǒng)一為全角字符或半角字符。
10.如權(quán)利要求9所述的裝置，其特征在于，所述獲取單元，具體用于當(dāng)所述第一位置信息是所述第一文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息時，將所述起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符，并根據(jù)所述第一位置信息，以及所述第二文章內(nèi)容中起始塊結(jié)構(gòu)字符的位置信息，確定所述當(dāng)前目錄項的起始位置信息；當(dāng)所述第一位置信息是所述第一文章內(nèi)容的起始塊結(jié)構(gòu)字符的位置信息時，將所述起始頁碼信息對應(yīng)的前一頁的第三文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符，并根據(jù)所述第一位置信息，以及所述第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息，確定所述上一目錄項的結(jié)束位置信息。
全文摘要
本發(fā)明公開了一種版式文件中結(jié)構(gòu)化信息獲取的方法及裝置，用以提高版式文件的信息化管理中對版式文件的結(jié)構(gòu)化速度，該方法包括確定當(dāng)前目錄項對應(yīng)的起始頁碼信息，將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容，按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符，在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符，并獲取所述第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息，根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息，以及上一目錄項的結(jié)束位置信息。
文檔編號G06F17/27GK103164388SQ20111040946
公開日2013年6月19日申請日期2011年12月9日優(yōu)先權(quán)日2011年12月9日
發(fā)明者董寧, 黃文娟, 張保亮申請人:北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董寧;黃文娟;張保亮
技術(shù)所有人：北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

版式文件相關(guān)技術(shù)

版式文件格式相關(guān)技術(shù)

電子發(fā)票版式文件相關(guān)技術(shù)

電子發(fā)票版式文件生成相關(guān)技術(shù)

版式電子文件相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種版式文件中結(jié)構(gòu)化信息獲取的方法及裝置的制作方法