專利名稱:一種版式文件中結(jié)構(gòu)化信息獲取的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別涉及一種版式文件中結(jié)構(gòu)化信息獲取的方法及裝置。
背景技術(shù):
在對圖書版式文件的信息化管理中,需對每個圖書版式文件進(jìn)行結(jié)構(gòu)化,獲取每個版式文件的結(jié)構(gòu)化信息以形成對應(yīng)的目錄數(shù)據(jù)。而現(xiàn)有的已形成的圖書版式文件的目錄數(shù)據(jù)中,一般只包括每個目錄項的名稱字符以及每個目錄項的起始位置,而并不包括每個目錄項的結(jié)束位置,以及每個目錄項的名稱在文章中的具體區(qū)域??梢姡F(xiàn)有的圖書版式文件的結(jié)構(gòu)化信息并不完整,不能根據(jù)現(xiàn)有的目錄數(shù)據(jù)確定每個目錄項對應(yīng)的具體起始及結(jié)束位置,從而,不能單獨提供圖書版式文件的具體目錄項的版式和流式閱讀,即不能滿足多樣化閱讀的需求。因此,在對每個圖書版式文件進(jìn)行結(jié)構(gòu)化的過程中,需獲取每個版式文件比較完整的結(jié)構(gòu)化信息。一般通過人工對圖書版式文件進(jìn)行結(jié)構(gòu)化,即人工對圖書版式文件中每個目錄項的文章內(nèi)容進(jìn)行閱讀分析查看,然后根據(jù)查看的文章內(nèi)容,從中獲取所需的結(jié)構(gòu)化數(shù)據(jù)。在對大量的圖書版式文件的信息化管理時,由于人工原因的限制,例如:理解能力或體力,勢必會出現(xiàn)一些錯誤,并且,人工的速度也比較慢。從而,影響了結(jié)構(gòu)化信息獲取的正確率以及速度。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種版式文件中結(jié)構(gòu)化信息獲取的方法及裝置,用以提高版式文件的信息化管理中對版式文件的結(jié)構(gòu)化速度。本發(fā)明實施例提供一種版式文件中結(jié)構(gòu)化信息獲取的方法,包括:確定當(dāng)前目錄項對應(yīng)的起始頁碼信息;將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容,按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符;在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符,并獲取所述第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息;根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息,以及上一目錄項的結(jié)束位置信息。本發(fā)明實施例提供版式文件中結(jié)構(gòu)化信息獲取的裝置,包括:確定單元,用于確定當(dāng)前目錄項對應(yīng)的起始頁碼信息;分割單元,用于將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容,按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符;匹配單元,用于在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符,并獲取所述第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息;
獲取單元,用于根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息,以及上一目錄項的結(jié)束位置信息。本發(fā)明實施例中,將起始頁碼信息對應(yīng)頁的第一文章內(nèi)容分割成至少一個塊結(jié)構(gòu)字符,并從中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符,并獲取第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息,然后,根據(jù)第一位置信息確定當(dāng)前目錄項的起始位置信息,以及上一目錄項的結(jié)束位置信息,這樣,只需對特定頁的文章內(nèi)容進(jìn)行分析和匹配,就可獲取到版式文件的結(jié)構(gòu)化信息,從而,加快了對版式文件的結(jié)構(gòu)化速度。
圖1為本發(fā)明實施例中版式文件中結(jié)構(gòu)化信息獲取的流程圖;圖2為本發(fā)明實施例中匹配查找的流程圖;圖3為本發(fā)明實施例中版式文件的目錄數(shù)據(jù)信息的示意圖;圖4為本發(fā)明實施例中版式文件的目錄數(shù)據(jù)信息更新后的示意圖;圖5為本發(fā)明實施例中結(jié)構(gòu)化的版式文件數(shù)據(jù)信息的示意圖;圖6為本發(fā)明實施例中版式文件中結(jié)構(gòu)化信息獲取的裝置的結(jié)構(gòu)圖。
具體實施例方式本發(fā)明實施例中,對特定頁的文章內(nèi)容進(jìn)行分析和匹配,就可獲取到版式文件的結(jié)構(gòu)化信息,從而,加快了對版式文件的結(jié)構(gòu)化速度。參見圖1,本發(fā)明實施例中版式文件中結(jié)構(gòu)化信息獲取的過程包括:步驟101:確定當(dāng)前目錄項對應(yīng)的起始頁碼信息。在對版式文件的信息化管理中,已經(jīng)加載了版式文件的目錄數(shù)據(jù)信息。其中,目錄數(shù)據(jù)信息包括:目錄項的層次關(guān)系,目錄項的名稱字符,目錄項對應(yīng)起始頁碼。該目錄數(shù)據(jù)信息可已XML文件格式進(jìn)行描述,或者其他的自定義的TXT文件格式,或EXCEL文件格式進(jìn)行描述。這樣,將需單獨提供版式和流式閱讀的具體目錄項確定為當(dāng)前目錄項,或者,將目錄數(shù)據(jù)信息中任意一個目錄項確定為當(dāng)前目錄項,并從中查找到該當(dāng)前目錄項對應(yīng)的起始頁碼。本發(fā)明實施例中,為提高結(jié)構(gòu)化信息獲取的正確率,可在確定當(dāng)前目錄項對應(yīng)的起始頁碼之前,分析加載的版式文件的目錄數(shù)據(jù)信息的有效性,如:目錄的層次關(guān)系,以及個目錄項的起始頁碼的有效性等等。步驟102:將起始頁碼信息對應(yīng)頁的第一文章內(nèi)容,按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符。版式文件一般有共同特征,例如文章中的目錄文字和文章中的正文文字的字體大小、字體格式差別都比較大,以及目錄和正文的第一行距和正文間的第二行距差距也都比較大,因此,本發(fā)明實施了中,可根據(jù)目錄文字和正文文字的字體大小及格式的不同,以及目錄和正文間的第一行距與正文間的第二行距的不同,將第一文章內(nèi)容分割成一個、兩個,或多個塊結(jié)構(gòu)字符。因此,內(nèi)容屬性信息包括字符信息以及行距信息。并且,本發(fā)明實施例中,塊結(jié)構(gòu)字符包括:段結(jié)構(gòu)字符或行結(jié)構(gòu)字符。則可依據(jù)目錄文字和正文文字的字體大小及格式的不同,以及目錄和正文間的第一行距與正文間的第二行距的不同,采用自動成段或自動成行的方式將第一文章內(nèi)容分割成對應(yīng)的段結(jié)構(gòu)字符或行結(jié)構(gòu)字符。步驟103:在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符。本發(fā)明實施例中,可采用設(shè)定的匹配模塊,在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字。匹配模塊可以多種多樣,從而匹配查找的過程也可以多種多樣。步驟104:獲取第一塊結(jié)構(gòu)字符在第一文章內(nèi)容中第一位置信息。已查找到與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符,從而可獲取第一塊結(jié)構(gòu)字符在第一文章內(nèi)容中第一位置信息。第一位置信息包括:所在頁的頁碼信息,坐標(biāo)信息,橫向的起始線坐標(biāo)信息,和橫向的終止線坐標(biāo)信息中的一種或多種。步驟105:根據(jù)第一位置信息獲取當(dāng)前目錄項的起始位置信息,以及上一目錄項的結(jié)束位置信息?!憧蓪⒌谝晃恢眯畔⒋_定當(dāng)前目錄項的起始位置信息,將第一塊結(jié)構(gòu)字符的上一個塊結(jié)構(gòu)字符的位置信息確定上一目錄項的結(jié)束位置信息。但是,當(dāng)?shù)谝晃恢眯畔⑹堑谝晃恼聝?nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息時,將起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符,并根據(jù)第一位置信息,以及第二文章內(nèi)容中起始塊結(jié)構(gòu)字符的位置信息,確定當(dāng)前目錄項的起始位置信息,即結(jié)合兩者的位置信息,確定當(dāng)前目錄項的起始位置信息。當(dāng)?shù)谝晃恢眯畔⑹堑谝晃恼聝?nèi)容的起始塊結(jié)構(gòu)字符的位置信息時,將起始頁碼信息對應(yīng)的前一頁的第三文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符,并根據(jù)第一位置信息,以及第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息,確定上一目錄項的結(jié)束位置信息。同樣,結(jié)合兩者的置信息,確定當(dāng)前目錄項的起始位置信息。至此,當(dāng)前目錄項對應(yīng)的結(jié)構(gòu)化信息已獲取了。此時可更新版式文件的目錄數(shù)據(jù)信息,即本發(fā)明實施例還包括:步驟106:根據(jù)當(dāng)前目錄項的起始位置信息,以及上一目錄項的結(jié)束位置信息更新版式文件的目錄數(shù)據(jù)信息。這里,可將確定的當(dāng)前目錄項的起始位置信息,以及上一目錄項的結(jié)束位置信息加入到目錄數(shù)據(jù)信息對應(yīng)的XML文件中。本發(fā)明實施例中還可待所有目錄項對應(yīng)的結(jié)構(gòu)化信息都獲取后,再一次更新版式文件的目錄數(shù)據(jù)信息。由此可見,只需對以起始頁碼信息對應(yīng)頁的第一文章內(nèi)容,或者對起始頁碼信息對應(yīng)頁的第一文章內(nèi)容以及起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容,或者,對起始頁碼信息對應(yīng)頁的第一文章內(nèi)容以及起始頁碼信息對應(yīng)的前一頁的第三文章內(nèi)容進(jìn)行分析和匹配,就能獲取到目錄項對應(yīng)的結(jié)構(gòu)化信息,即對特定頁的文章內(nèi)容進(jìn)行分析和匹配,就可獲取到版式文件的結(jié)構(gòu)化信息,從而,加快了對版式文件的結(jié)構(gòu)化速度。上述實施例步驟103中,由于匹配模塊可以多種多樣,從而在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字的匹配查找的過程也可以多種多樣。例如:直接在每個塊結(jié)構(gòu)字符中查找是否有與當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符,如果版式文件的質(zhì)量比較高,依靠此方法即可完成匹配查找的過程。本發(fā)明實施例為增加匹配的成功率,還可增加別的匹配模板,具體查找過程參見圖2,包括:步驟201:在每個塊結(jié)構(gòu)字符中查找是否有與當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符,如有,執(zhí)行步驟204。否則,執(zhí)行步驟202。步驟202:利用正則表達(dá)式,在每個塊結(jié)構(gòu)字符中查找是否有與當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符,如有,執(zhí)行步驟204。否則,執(zhí)行步驟203。這里,由于步驟201未能滿足匹配的要求,可將每個塊結(jié)構(gòu)字符以及當(dāng)前目錄項的名稱字符中一些影響匹配的字符剔除,例如:空格,修飾符號以及其他可能影響匹配的字符。然后,將處理后的字符按照設(shè)定的正則表達(dá)式的方式去匹配,正則表達(dá)式是用某種模式去匹配一類字符串的一個公式。利用該公式進(jìn)行匹配,獲得與當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符。步驟203:根據(jù)逐字符匹配計算每個塊結(jié)構(gòu)字符與當(dāng)前目錄項的名稱字符之間的匹配度。例如:一個塊結(jié)構(gòu)字符與前目錄項的名稱字符之中有一半的字符相同,則匹配度為50%。或者,采用其他的比例。步驟204:匹配度是否大于或等于閾值,若是,執(zhí)行步驟205,否則,匹配流程失敗。其中,可根據(jù)各種批次版式文件的排版的實際情況來調(diào)整閾值來實現(xiàn)比較高的匹配度。步驟205:將匹配度對應(yīng)的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符。步驟206:將查找到塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符。通過以上步驟基本上都能查找到與當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符。本發(fā)明實施例中,在步驟201之前,還需將每個塊結(jié)構(gòu)字符以及當(dāng)前目錄項的名稱字符統(tǒng)一為全角字符或半角字符,這樣,便于后續(xù)的匹配查找。下面結(jié)合說明書附圖對本發(fā)明實施例作進(jìn)一步詳細(xì)描述。本實施例中,版式文件的目錄數(shù)據(jù)信息如圖3所示,以當(dāng)前目錄項的名稱字符為“第二章無套利原理“為了進(jìn)行描述,該版式文件的結(jié)構(gòu)化信息獲取過程包括:確定當(dāng)前目錄項對應(yīng)的起始頁碼信息為“16 “。然后,將第16頁中的第一文章內(nèi)容,按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符,并在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符,獲取第一塊結(jié)構(gòu)字符在第一文章內(nèi)容中第一位置信息。這里,第一位置信息包括:"ebookPageNum = " 16" left="1740 " top = " 396 " right = " 3016 " buttom = " 587 " startVerticalPos="396" endVerticalPos = " 4082"。由于第一位置信息是第一文章內(nèi)容的起始塊結(jié)構(gòu)字符的位置信息,因此,還需將第15頁中的第三文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符,并獲取第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息,由于結(jié)束塊結(jié)構(gòu)字符與當(dāng)前目錄項的名稱字符不匹配,因此,該第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息即為上一目錄項的結(jié)束位置信息,例如:該信息中包括:ebookEndLPageNum = 15, endvertiempos = 2341 等;而第一位置信息即為當(dāng)前錄項的起始位置信息,例如該信息中包括:ebookPageNum = " 16" left="1740 " top = " 396 " right = " 3016 " buttom = " 587 " startVerticalPos="396" endVerticalPos = " 4082"。對起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容的分析與匹配過程于此類似,就不再累述了。根據(jù)上述過程,對每個目錄項獲取結(jié)構(gòu)化信息,最后根據(jù)獲取的結(jié)構(gòu)化信息對最初的根據(jù)版式文件的目錄數(shù)據(jù)信息進(jìn)行更新,更新后的結(jié)構(gòu)化的目錄數(shù)據(jù)信息如圖4所
/Jn ο本發(fā)明實施例中還可將目錄項對應(yīng)的文章內(nèi)容信息添加到更新后構(gòu)化的目錄數(shù)據(jù)信息中對應(yīng)的目錄項下,形成結(jié)構(gòu)化的版式文件數(shù)據(jù)信息,如圖5所示。這樣,系統(tǒng)會自動掃描待結(jié)構(gòu)化下的所有版式文件數(shù)據(jù)信息分別進(jìn)行章節(jié)化的處理并輸出,從而可單獨提供圖書版式文件的具體目錄項的版式和流式閱讀。根據(jù)上述版式文件中結(jié)構(gòu)化信息獲取的方法,可構(gòu)建一種版式文件中結(jié)構(gòu)化信息獲取的裝置,參見圖6,包括:確定單元100、分割單元200、匹配單元300以及獲取單元400,其中,確定單元100,用于確定當(dāng)前目錄項對應(yīng)的起始頁碼信息。分割單元200,用于將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容,按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符。匹配單元300,用于在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符,并獲取第一塊結(jié)構(gòu)字符在第一文章內(nèi)容中第一位置信息。獲取單元400,用于根據(jù)第一位置信息獲取當(dāng)前目錄項的起始位置信息,以及上一目錄項的結(jié)束位置信息。其中,分割單元200,具體用于根據(jù)目錄文字和正文文字的字體大小及格式的不同,以及目錄和正文間的第一行距與正文間的第二行距的不同,將第一文章內(nèi)容分割成至少一個塊結(jié)構(gòu)字符,其中,塊結(jié)構(gòu)字符包括:段結(jié)構(gòu)字符或行結(jié)構(gòu)字符。匹配單元300,具體用于在每個塊結(jié)構(gòu)字符中查找是否有與當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符,如有,則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符;否則,利用正則表達(dá)式,在每個塊結(jié)構(gòu)字符中查找是否有與當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符,如有,則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符;否則,根據(jù)逐字符匹配計算每個塊結(jié)構(gòu)字符與當(dāng)前目錄項的名稱字符之間的匹配度,當(dāng)匹配度達(dá)到設(shè)定閾值時,將匹配度對應(yīng)的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符。匹配單元300,還用于將每個塊結(jié)構(gòu)字符以及當(dāng)前目錄項的名稱字符統(tǒng)一為全角字符或半角字符。獲取單元400,一般可將第一位置信息確定當(dāng)前目錄項的起始位置信息,將第一塊結(jié)構(gòu)字符的上一個塊結(jié)構(gòu)字符的位置信息確定上一目錄項的結(jié)束位置信息。該獲取單元400,還具體用于當(dāng)?shù)谝晃恢眯畔⑹堑谝晃恼聝?nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息時,將起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符,并根據(jù)第一位置信息,以及第二文章內(nèi)容中起始塊結(jié)構(gòu)字符的位置信息,確定當(dāng)前目錄項的起始位置信息;當(dāng)?shù)谝晃恢眯畔⑹堑谝晃恼聝?nèi)容的起始塊結(jié)構(gòu)字符的位置信息時,將起始頁碼信息對應(yīng)的前一頁的第三文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符,并根據(jù)第一位置信息,以及第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息,確定上一目錄項的結(jié)束位置信息,本發(fā)明實施例中,只需對特定頁的文章內(nèi)容進(jìn)行分析和匹配,就可獲取到版式文件的結(jié)構(gòu)化信息,從而,加快了對版式文件的結(jié)構(gòu)化速度。并且在每個塊結(jié)構(gòu)字符中查找與當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符使,匹配方式多種多樣,一種匹配方式匹配方式未能命中的話還有備選的多種匹配方式,提高匹配查找的成功率。另外,當(dāng)在大批量版式文件數(shù)據(jù)的結(jié)構(gòu)化制作過程中,根據(jù)設(shè)定的匹配模板進(jìn)行分析匹配,從而,批量獲取分析不需要人工干預(yù),節(jié)省了大量的人力。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種版式文件中結(jié)構(gòu)化信息獲取的方法,其特征在于,包括: 確定當(dāng)前目錄項對應(yīng)的起始頁碼信息; 將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容,按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符; 在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符,并獲取所述第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息; 根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息,以及上一目錄項的結(jié)束位置信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符包括: 根據(jù)目錄文字和正文文字的字體大小及格式的不同,以及目錄和正文間的第一行距與正文間的第二行距的不同,將所述第一文章內(nèi)容分割成至少一個塊結(jié)構(gòu)字符,其中,所述塊結(jié)構(gòu)字符包括:段結(jié)構(gòu)字符或行結(jié)構(gòu)字符。
3.如權(quán)利要求1所述的方法,其特征在于,所述在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符包括: 在每個塊結(jié)構(gòu)字符中查找是否有與所述當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符,如有,則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符;否則, 利用正則表達(dá)式,在每個塊結(jié)構(gòu)字符中查找是否有與所述當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符,如有,則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符;否則, 根據(jù)逐字符匹配計算每個塊結(jié)構(gòu)字符與所述當(dāng)前目錄項的名稱字符之間的匹配度,當(dāng)所述匹配度達(dá)到設(shè)定閾值時,將所述匹配度對應(yīng)的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符。
4.如權(quán)利要求3所述的方法,其特征在于,所述在每個塊結(jié)構(gòu)字符中查找是否有與所述當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符之前還包括: 將每個塊結(jié)構(gòu)字符以及所述當(dāng)前目錄項的名稱字符統(tǒng)一為全角字符或半角字符。
5.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息,以及上一目錄項的結(jié)束位置信息包括: 當(dāng)所述第一位置信息是所述第一文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息時,將所述起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符,并根據(jù)所述第一位置信息,以及所述第二文章內(nèi)容中起始塊結(jié)構(gòu)字符的位置信息,確定所述當(dāng)前目錄項的起始位置信息; 當(dāng)所述第一位置信息是所述第一文章內(nèi)容的起始塊結(jié)構(gòu)字符的位置信息時,將所述起始頁碼信息對應(yīng)的前一頁的第三文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符,并根據(jù)所述第一位置信息,以及所述第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息,確定所述上一目錄項的結(jié)束位置信息。
6.一種版式文件中結(jié)構(gòu)化信息獲取的裝置,其特征在于,包括: 確定單元,確定當(dāng)前目錄項對應(yīng)的起始頁碼信息; 分割單元,用于將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容,按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符; 匹配單元,用于在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符,并獲取所述第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息; 獲取單元,用于根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息。
7.如權(quán)利要求6所述的裝置,其特征在于, 所述分割單元,具體用于根據(jù)目錄文字和正文文字的字體大小及格式的不同,以及目錄和正文間的第一行距與正文間的第二行距的不同,將所述第一文章內(nèi)容分割成至少一個塊結(jié)構(gòu)字符,其中,所述塊結(jié)構(gòu)字符包括:段結(jié)構(gòu)字符或行結(jié)構(gòu)字符。
8.如權(quán)利要求6所述的裝置,其特征在于, 所述匹配單元,具體用于在每個塊結(jié)構(gòu)字符中查找是否有與所述當(dāng)前目錄項的名稱字符中每個字符都匹配的塊結(jié)構(gòu)字符,如有,則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符;否則,利用正則表達(dá)式,在每個塊結(jié)構(gòu)字符中查找是否有與所述當(dāng)前目錄項的名稱字符匹配的塊結(jié)構(gòu)字符,如有,則將查找到的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符;否則,根據(jù)逐字符匹配計算每個塊結(jié)構(gòu)字符與所述當(dāng)前目錄項的名稱字符之間的匹配度,當(dāng)所述匹配度達(dá)到設(shè)定閾值時,將所述匹配度對應(yīng)的塊結(jié)構(gòu)字符確定為第一塊結(jié)構(gòu)字符。
9.如權(quán)利要求8所述的裝置,其特征在于, 所述匹配單元,還用于將每個塊結(jié)構(gòu)字符以及當(dāng)前目錄項的名稱字符統(tǒng)一為全角字符或半角字符。
10.如權(quán)利要求9所述的裝置,其特征在于, 所述獲取單元,具體用于當(dāng)所述第一位置信息是所述第一文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息時,將所述起始頁碼信息對應(yīng)的后一頁的第二文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符,并根據(jù)所述第一位置信息,以及所述第二文章內(nèi)容中起始塊結(jié)構(gòu)字符的位置信息,確定所述當(dāng)前目錄項的起始位置信息;當(dāng)所述第一位置信息是所述第一文章內(nèi)容的起始塊結(jié)構(gòu)字符的位置信息時,將所述起始頁碼信息對應(yīng)的前一頁的第三文章內(nèi)容按照字符的屬性信息分割成至少一個塊結(jié)構(gòu)字符,并根據(jù)所述第一位置信息,以及所述第三文章內(nèi)容的結(jié)束塊結(jié)構(gòu)字符的位置信息,確定所述上一目錄項的結(jié)束位置信息。
全文摘要
本發(fā)明公開了一種版式文件中結(jié)構(gòu)化信息獲取的方法及裝置,用以提高版式文件的信息化管理中對版式文件的結(jié)構(gòu)化速度,該方法包括確定當(dāng)前目錄項對應(yīng)的起始頁碼信息,將所述起始頁碼信息對應(yīng)頁的第一文章內(nèi)容,按照內(nèi)容屬性信息分割成至少一個塊結(jié)構(gòu)字符,在每個塊結(jié)構(gòu)字符中查找與所述當(dāng)前目錄項的名稱字符匹配的第一塊結(jié)構(gòu)字符,并獲取所述第一塊結(jié)構(gòu)字符在所述第一文章內(nèi)容中第一位置信息,根據(jù)所述第一位置信息獲取所述當(dāng)前目錄項的起始位置信息,以及上一目錄項的結(jié)束位置信息。
文檔編號G06F17/27GK103164388SQ20111040946
公開日2013年6月19日 申請日期2011年12月9日 優(yōu)先權(quán)日2011年12月9日
發(fā)明者董寧, 黃文娟, 張保亮 申請人:北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司