專利名稱:一種智能提取文檔結(jié)構(gòu)的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子文檔數(shù)據(jù)處理領(lǐng)域,尤其涉及一種智能提取文檔結(jié)構(gòu)的方法及系統(tǒng)。
背景技術(shù):
隨著IT應(yīng)用的深入普及,各行各業(yè)都積累了大量的信息資源,這些信息資源都以 電子文檔數(shù)據(jù)的形式保存??茖W(xué)管理和合理開發(fā)這些內(nèi)部和外部信息資源已經(jīng)成為企業(yè)正 確決策、增強(qiáng)競爭力的關(guān)鍵。如何有效地從這些信息資源的電子文檔數(shù)據(jù)內(nèi)容中獲取結(jié)構(gòu) 化的內(nèi)容,也是許多計(jì)算機(jī)應(yīng)用開發(fā)所需要解決的關(guān)鍵問題。比如,現(xiàn)在各個(gè)出版社都有大 量的歷史書籍資源,而且書籍的格式是多種多樣的,出版社需要把歷史資源結(jié)構(gòu)化后入庫, 然后對(duì)這些結(jié)構(gòu)化的資源進(jìn)行再加工和利用,可以發(fā)布到網(wǎng)頁html格式,pdf格式等。目前,對(duì)信息資源的內(nèi)容結(jié)構(gòu)化方法主要是通過人工以儲(chǔ)存、流程、元數(shù)據(jù) (Metadata)為要件來制作系統(tǒng)。儲(chǔ)存多以關(guān)聯(lián)式數(shù)據(jù)庫的方式,也有的以一般數(shù)據(jù)文件方 式儲(chǔ)存,或者是根據(jù)需要兩種方式并存。在儲(chǔ)存方式中,通常使用專門軟件對(duì)特定數(shù)據(jù)字段 進(jìn)行錄入,這種方法的缺點(diǎn)是進(jìn)行錄入的數(shù)據(jù)字段受軟件限制,而且需要手工錄入,不容易 實(shí)現(xiàn)自動(dòng)化加工。另外還有一種使用類似XML編輯器的軟件進(jìn)行內(nèi)容結(jié)構(gòu)化加工的方法, 這種方法的缺點(diǎn)是只能對(duì)純內(nèi)容的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,無法帶入原文檔內(nèi)容的版式信息和樣 式fe息。因此,在申請(qǐng)?zhí)枮?00810238994. 4的中國專利申請(qǐng)“一種基于樣式的內(nèi)容結(jié)構(gòu)化 方法及系統(tǒng)”中提出了一種內(nèi)容結(jié)構(gòu)化的自動(dòng)加工方法。該方法根據(jù)需要結(jié)構(gòu)化的文檔建 立內(nèi)容結(jié)構(gòu)化體系,然后建立樣式與結(jié)構(gòu)化關(guān)鍵字的對(duì)應(yīng)關(guān)系,最后解析該文檔提取內(nèi)容 形成結(jié)構(gòu)化內(nèi)容,從而完成內(nèi)容結(jié)構(gòu)化的加工。但是,由于這種方法完全依據(jù)段落樣式進(jìn)行 結(jié)構(gòu)化,所以僅能針對(duì)設(shè)置了段落樣式的文檔進(jìn)行提取,而對(duì)于非段落樣式的文檔片段無 法正確提取。也就是說,這種方法僅能對(duì)特定格式的文檔進(jìn)行結(jié)構(gòu)化,而不能適用于任意文 檔格式的結(jié)構(gòu)化加工。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的以上問題,本發(fā)明提供一種智能提取文檔結(jié)構(gòu)的方法 及系統(tǒng),以實(shí)現(xiàn)對(duì)任意文檔格式內(nèi)容的結(jié)構(gòu)化自動(dòng)加工方法。為了實(shí)現(xiàn)以上目的,本發(fā)明提供的智能提取文檔結(jié)構(gòu)的方法包括以下步驟小樣 分析步驟,即,依據(jù)待提取結(jié)構(gòu)的文檔的小樣中所包含的各部分內(nèi)容及其關(guān)鍵屬性建立各 部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系;文檔結(jié)構(gòu) 化步驟,即,對(duì)待提取結(jié)構(gòu)的文檔應(yīng)用所建立的提取規(guī)則,提取該文檔的內(nèi)容形成按照結(jié)構(gòu) 化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容。所述關(guān)鍵屬性可包括字體樣式、段落樣式、文字屬性和標(biāo)題級(jí)別。所述結(jié)構(gòu)化關(guān) 鍵字是可以任意指定的,可以是但不限于是表示所述關(guān)鍵屬性和/或特殊文字內(nèi)容的關(guān)鍵 字。提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系也是可以任意指定的。
此外,還可由用戶自行設(shè)置提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字。具體地,向用戶提供小樣中 所包含的各部分內(nèi)容及其關(guān)鍵屬性,然后,用戶根據(jù)所提供的信息建立各部分的提取規(guī)則 及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系。用戶還可根據(jù)不同的需要 對(duì)所建立的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系進(jìn)行 添加、刪除或更新等修改操作。優(yōu)選地,在建立或修改提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字時(shí),可執(zhí)行以下步驟對(duì)小樣應(yīng)用 用戶所設(shè)置的提取規(guī)則,提取該小樣的內(nèi)容形成按照用戶所設(shè)置的結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié) 構(gòu)化內(nèi)容,并將該結(jié)構(gòu)化內(nèi)容顯示給用戶;用戶根據(jù)顯示的結(jié)構(gòu)化內(nèi)容對(duì)所設(shè)置的提取規(guī) 則和結(jié)構(gòu)化關(guān)鍵字進(jìn)行調(diào)整,直到所形成的結(jié)構(gòu)化內(nèi)容滿足用戶要求為止。此外,為了能夠以統(tǒng)一的結(jié)構(gòu)化方法處理任意格式的文檔,將小樣或文檔轉(zhuǎn)化為 作為中間結(jié)果的邏輯樹,然后對(duì)該具有一致規(guī)范的邏輯樹應(yīng)用統(tǒng)一的方法進(jìn)行結(jié)構(gòu)化。在這種情況下,所述小樣分析步驟包括以下步驟根據(jù)待提取結(jié)構(gòu)的文檔的小樣 生成包含該小樣的各部分內(nèi)容及其關(guān)鍵屬性的邏輯樹,并依據(jù)該邏輯樹中所包含的各部分 內(nèi)容及其關(guān)鍵屬性建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字 之間的層次關(guān)系。所述文檔結(jié)構(gòu)化步驟包括以下步驟根據(jù)待提取結(jié)構(gòu)的文檔生成包含該 文檔的各部分內(nèi)容及其關(guān)鍵屬性的邏輯樹,并對(duì)該邏輯樹應(yīng)用所建立的提取規(guī)則,提取該 文檔的內(nèi)容形成按照結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容。在用戶設(shè)置提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字的過程中,向用戶提供根據(jù)小樣生成的邏輯 樹中所包含的各部分內(nèi)容及其關(guān)鍵屬性,然后,用戶根據(jù)所提供的信息建立或修改各部分 的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系。相應(yīng)地,本發(fā)明提供一種智能提取文檔結(jié)構(gòu)的系統(tǒng),該系統(tǒng)包括文檔輸入單元, 輸入文檔小樣和待處理文檔,并將文檔小樣發(fā)送給分析單元,將待處理文檔發(fā)送給結(jié)構(gòu)化 單元;分析單元,依據(jù)從文檔輸入單元接收的文檔小樣中所包含的各部分內(nèi)容及其關(guān)鍵屬 性建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系, 并將建立的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字作為系統(tǒng)默認(rèn)的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字發(fā)送給結(jié) 構(gòu)化單元;結(jié)構(gòu)化單元,對(duì)從文檔輸入單元接收的待處理文檔應(yīng)用從分析單元接收的提取 規(guī)則,提取該文檔的內(nèi)容形成按照從分析單元接收的結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容,并 將所形成的結(jié)構(gòu)化內(nèi)容發(fā)送給文檔輸出單元;文檔輸出單元,輸出從結(jié)構(gòu)化單元接收的結(jié) 構(gòu)化內(nèi)容。。優(yōu)選地,該系統(tǒng)還可包括用戶設(shè)置界面,用戶通過這個(gè)界面設(shè)置或修改提取規(guī)則 及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系,并將用戶設(shè)置的提取規(guī)則 和結(jié)構(gòu)化關(guān)鍵字發(fā)送給結(jié)構(gòu)化單元。本發(fā)明依據(jù)文檔中的樣式(包括文字樣式和段落樣式)、文字屬性、文字內(nèi)容、標(biāo) 題級(jí)別等屬性設(shè)置一些簡單的提取規(guī)則,并根據(jù)這些規(guī)則智能提取文檔中的結(jié)構(gòu)化信息, 從而實(shí)現(xiàn)任意文檔格式的結(jié)構(gòu)化自動(dòng)加工。另一方面,用戶僅通過簡單的操作就可自行設(shè) 置提取規(guī)則,提取豐富的文檔結(jié)構(gòu),靈活性強(qiáng)。
圖1是根據(jù)本發(fā)明的第一實(shí)施例的智能提取文檔結(jié)構(gòu)的方法的流程圖2是一個(gè)文檔小樣的示例;圖3是對(duì)圖2所示的小樣生成的結(jié)構(gòu)化內(nèi)容;圖4是根據(jù)本發(fā)明的第二實(shí)施例的智能提取文檔結(jié)構(gòu)的方法的流程圖;圖5是對(duì)圖2所示的小樣生成的結(jié)構(gòu)化內(nèi)容;圖6是根據(jù)本發(fā)明的智能提取文檔結(jié)構(gòu)的系統(tǒng)的框圖;圖7是根據(jù)本發(fā)明的智能提取文檔結(jié)構(gòu)的另一系統(tǒng)的框圖。
具體實(shí)施例方式下面,將結(jié)合實(shí)施例和附圖對(duì)本發(fā)明進(jìn)行詳細(xì)描述。(第一實(shí)施例)圖1是根據(jù)本發(fā)明的第一實(shí)施例的智能提取文檔結(jié)構(gòu)的方法的流程圖。參照?qǐng)D1, 該方法包括以下步驟步驟Sl、小樣分析步驟在該步驟中,依據(jù)待提取結(jié)構(gòu)的文檔的小樣中所包含的各部分內(nèi)容及其關(guān)鍵屬性 建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系,也 就是說,所建立的各個(gè)部分的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字應(yīng)能體現(xiàn)出該部分的內(nèi)容和/或關(guān) 鍵屬性。其中,關(guān)鍵屬性可以是,但不限于,字體樣式、段落樣式、文字屬性和標(biāo)題級(jí)別。提 取規(guī)則可以依據(jù)小樣中各部分內(nèi)容的文字內(nèi)容設(shè)置,還可以,但不限于,依據(jù)各部分內(nèi)容的 關(guān)鍵屬性設(shè)置。結(jié)構(gòu)化關(guān)鍵字可以是,但不限于是,表示關(guān)鍵屬性和/或特殊文字內(nèi)容的關(guān) 鍵字。并且,提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系也是可以任意指定的。這樣,本發(fā)明能夠 依據(jù)各類文檔的各種屬性形成文檔內(nèi)容的結(jié)構(gòu)化體系,而不僅適用于設(shè)置了段落樣式的文 檔格式。也即是說,本發(fā)明可應(yīng)用于任意文檔格式的結(jié)構(gòu)化加工。步驟S2、文檔結(jié)構(gòu)化步驟在該步驟中,對(duì)待提取結(jié)構(gòu)的文檔應(yīng)用所建立的提取規(guī)則,提取該文檔的內(nèi)容形 成按照結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容。這樣,通過已經(jīng)設(shè)置好的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵 字,就自動(dòng)完成了文檔的結(jié)構(gòu)化加工。這里,需要指出的是,在小樣分析步驟Sl中,對(duì)于不需要提取結(jié)構(gòu)的部分內(nèi)容,可 不建立提取規(guī)則。相應(yīng)地,在文檔結(jié)構(gòu)化步驟S2中,不提取這些部分內(nèi)容形成結(jié)構(gòu)化內(nèi)容。此外,為了實(shí)現(xiàn)文檔結(jié)構(gòu)的個(gè)性化提取,還可由用戶設(shè)置各部分的提取規(guī)則及其 相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系。具體地講,向用戶提供小樣中 所包含的各部分內(nèi)容及其關(guān)鍵屬性,比如,字體、字號(hào)、樣式等,然后,用戶根據(jù)所提供的信 息建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系。 另外,用戶還可根據(jù)不同的需要對(duì)所建立的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu) 化關(guān)鍵字之間的層次關(guān)系進(jìn)行添加、刪除或更新等修改操作,從而實(shí)現(xiàn)該方法對(duì)任意文檔 格式的適用性。也就是說,對(duì)于一些類似的文檔格式,只需修改所建立的少部分提取規(guī)則和 結(jié)構(gòu)化關(guān)鍵字,而不需要全部重新設(shè)置。優(yōu)選地,在用戶建立或修改提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字時(shí),對(duì)小樣應(yīng)用用戶所設(shè)置 的提取規(guī)則,提取該小樣的內(nèi)容形成按照用戶所設(shè)置的結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容,并將該結(jié)構(gòu)化內(nèi)容顯示給用戶。然后,用戶根據(jù)顯示的結(jié)構(gòu)化內(nèi)容對(duì)所設(shè)置的提取規(guī)則和 結(jié)構(gòu)化關(guān)鍵字進(jìn)行調(diào)整,直到所形成的結(jié)構(gòu)化內(nèi)容滿足用戶要求為止。通過上述交互方法,用戶可根據(jù)需要自行設(shè)置提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字,從而實(shí) 現(xiàn)個(gè)性化提取。另外,由于為用戶提供文檔小樣中用到的字體、字號(hào)、樣式等,用戶僅通過簡 單的設(shè)置就可提取合適的規(guī)則和結(jié)構(gòu)化關(guān)鍵字。這里,不限于用戶從所提供的信息中選擇 其中一個(gè),用戶還可根據(jù)所提供的信息自定義一些提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字,提取規(guī)則和 結(jié)構(gòu)化關(guān)鍵字之間的對(duì)應(yīng)關(guān)系,即,映射關(guān)系也可任意指定。但是,優(yōu)選地,一個(gè)結(jié)構(gòu)化關(guān)鍵 字可以與多個(gè)提取規(guī)則映射,而一個(gè)提取規(guī)則只能與與一個(gè)結(jié)構(gòu)化關(guān)鍵字映射。以下將結(jié)合一個(gè)具體的示例對(duì)本實(shí)施例進(jìn)行進(jìn)一步的說明。在該示例中,以圖2 所示的排版文檔作為小樣,形成一個(gè)按照用戶自定義的結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容。首先,依據(jù)圖2所示小樣中所包含的各部分內(nèi)容和關(guān)鍵屬性,建立文檔結(jié)構(gòu)的提 取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字,也就是說,建立文檔結(jié)構(gòu)的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字 之間的映射關(guān)系。如上所述,可根據(jù)標(biāo)題級(jí)別屬性、固定樣式屬性、特殊文字內(nèi)容或不同文 字顏色屬性等各種屬性建立該小樣的各個(gè)部分的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字。在該示例中, 用戶建立如表1所示的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字的映射表。表1提取規(guī)則與結(jié)構(gòu)化關(guān)鍵字的映射表
權(quán)利要求
1.一種智能提取文檔結(jié)構(gòu)的方法,包括以下步驟小樣分析步驟,即,依據(jù)待提取結(jié)構(gòu)的文檔的小樣中所包含的各部分內(nèi)容及其關(guān)鍵 屬性建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān) 系;文檔結(jié)構(gòu)化步驟,即,對(duì)待提取結(jié)構(gòu)的文檔應(yīng)用所建立的提取規(guī)則,提取該文檔的內(nèi)容 形成按照結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述小樣分析步驟包括以下步驟向用戶提供小樣中所包含的各部分內(nèi)容及其關(guān)鍵屬性;用戶根據(jù)所提供的信息建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu) 化關(guān)鍵字之間的層次關(guān)系。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括用戶根據(jù)不同的需要對(duì)所建立的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān) 鍵字之間的層次關(guān)系進(jìn)行添加、刪除或更新等修改操作。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,在用戶建立或修改提取規(guī)則和結(jié)構(gòu)化 關(guān)鍵字時(shí),執(zhí)行以下步驟對(duì)小樣應(yīng)用用戶所設(shè)置的提取規(guī)則,提取該小樣的內(nèi)容形成按照用戶所設(shè)置的結(jié)構(gòu)化 關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容,并將該結(jié)構(gòu)化內(nèi)容顯示給用戶;用戶根據(jù)顯示的結(jié)構(gòu)化內(nèi)容對(duì)所設(shè)置的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字進(jìn)行調(diào)整,直到所形 成的結(jié)構(gòu)化內(nèi)容滿足用戶要求為止。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述文檔結(jié)構(gòu)化步驟包括以下步驟遍歷所述文檔的每個(gè)部分,使用所建立的提取規(guī)則進(jìn)行關(guān)鍵屬性的匹配,如果匹配成 功則提取該部分的內(nèi)容并使用與該提取規(guī)則對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字進(jìn)行結(jié)構(gòu)化,匹配不成功 的就是不需要提取的內(nèi)容。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述關(guān)鍵屬性包括字體樣式、段落樣式、 文字屬性和標(biāo)題級(jí)別
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述結(jié)構(gòu)化關(guān)鍵字包括表示所述關(guān)鍵屬 性和/或特殊文字內(nèi)容的關(guān)鍵字,并且,提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系也是可以任 意指定的。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述小樣分析步驟包括以下步驟根據(jù)待提取結(jié)構(gòu)的文檔的小樣生成包含該小樣的各部分內(nèi)容及其關(guān)鍵屬性的邏輯樹, 并依據(jù)該邏輯樹中所包含的各部分內(nèi)容及其關(guān)鍵屬性建立各部分的提取規(guī)則及其相對(duì)應(yīng) 的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系;在這種情況下,所述文檔結(jié)構(gòu)化步驟包括以下步驟根據(jù)待提取結(jié)構(gòu)的文檔生成包含該文檔的各部分內(nèi)容及其關(guān)鍵屬性的邏輯樹,并對(duì)該 邏輯樹應(yīng)用所建立的提取規(guī)則,提取該文檔的內(nèi)容形成按照結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述小樣分析步驟中建立提取規(guī)則和結(jié) 構(gòu)化關(guān)鍵字的步驟包括以下步驟向用戶提供根據(jù)小樣生成的邏輯樹中所包含的各部分內(nèi)容及其關(guān)鍵屬性;用戶根據(jù)所提供的信息建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu) 化關(guān)鍵字之間的層次關(guān)系。
10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述邏輯樹為XML樹,該XML樹中的每個(gè) 節(jié)點(diǎn)中分別包含文檔的一個(gè)部分的內(nèi)容及其關(guān)鍵屬性。
11.一種智能提取文檔結(jié)構(gòu)的系統(tǒng),包括文檔輸入單元,輸入文檔小樣和待處理文檔,并將文檔小樣發(fā)送給分析單元,將待處理 文檔發(fā)送給結(jié)構(gòu)化單元;分析單元,依據(jù)從文檔輸入單元接收的文檔小樣中所包含的各部分內(nèi)容及其關(guān)鍵屬性 建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系,并 將建立的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字作為系統(tǒng)默認(rèn)的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字發(fā)送給結(jié)構(gòu) 化單元;結(jié)構(gòu)化單元,對(duì)從文檔輸入單元接收的待處理文檔應(yīng)用從分析單元接收的提取規(guī)則, 提取該文檔的內(nèi)容形成按照從分析單元接收的結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容,并將所形 成的結(jié)構(gòu)化內(nèi)容發(fā)送給文檔輸出單元;文檔輸出單元,輸出從結(jié)構(gòu)化單元接收的結(jié)構(gòu)化內(nèi)容。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,還包括用戶設(shè)置界面,分析單元將小樣 中所包含的各部分內(nèi)容及其關(guān)鍵屬性發(fā)送給用戶設(shè)置界面以顯示給用戶;用戶根據(jù)所提供 的信息建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間的層次 關(guān)系,并將建立的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字發(fā)送給結(jié)構(gòu)化單元。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,用戶根據(jù)不同的需要通過用戶設(shè)置界 面對(duì)所設(shè)置的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字進(jìn)行添加、刪除或更新等修改操作,并將修改的提 取規(guī)則和結(jié)構(gòu)化關(guān)鍵字發(fā)送給結(jié)構(gòu)化單元。
14.根據(jù)權(quán)利要求12或13所述的系統(tǒng),其特征在于,在結(jié)構(gòu)化單元從用戶設(shè)置界面 接收到提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字時(shí),結(jié)構(gòu)化單元從文檔輸入單元讀取小樣,并對(duì)該小樣應(yīng) 用用戶所設(shè)置的提取規(guī)則,提取該小樣的內(nèi)容形成按照用戶所設(shè)置的結(jié)構(gòu)化關(guān)鍵字表達(dá)的 結(jié)構(gòu)化內(nèi)容,并將該結(jié)構(gòu)化內(nèi)容作為預(yù)覽內(nèi)容傳送給用戶設(shè)置界面以在用戶設(shè)置界面上顯 示;用戶根據(jù)從結(jié)構(gòu)化單元接收的預(yù)覽內(nèi)容對(duì)所設(shè)置的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字進(jìn)行調(diào) 整,并將調(diào)整后的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字又發(fā)送給結(jié)構(gòu)化單元,結(jié)構(gòu)化單元再次對(duì)小樣 應(yīng)用經(jīng)過用戶調(diào)整的提取規(guī)則,生成結(jié)構(gòu)化內(nèi)容,然后再次作為預(yù)覽內(nèi)容發(fā)送給用戶設(shè)置 界面以顯示給用戶,如此反復(fù)操作,直到所形成的結(jié)構(gòu)化內(nèi)容滿足用戶要求為止。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其特征在于,所述結(jié)構(gòu)化單元執(zhí)行以下操作遍歷文檔小樣或待處理文檔的每個(gè)部分,使用從分析單元接收的系統(tǒng)默認(rèn)提取規(guī)則或 者由用戶通過用戶設(shè)置界面建立的提取規(guī)則進(jìn)行關(guān)鍵屬性的匹配,如果匹配成功則提取該 部分的內(nèi)容并使用與該提取規(guī)則對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字進(jìn)行結(jié)構(gòu)化,匹配不成功的就是不需 要提取的內(nèi)容。
16.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,還包括邏輯樹生成單元,將從文檔輸入單元接收的文檔小樣或待處理文檔生成包含其各部分 內(nèi)容及其關(guān)鍵屬性的邏輯樹,并將生成的邏輯樹發(fā)送給分析單元和結(jié)構(gòu)化單元,在這種情況下,分析單元依據(jù)從邏輯樹生成單元接收的邏輯樹中所包含的各部分內(nèi)容及其關(guān)鍵屬性建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字以及結(jié)構(gòu)化關(guān)鍵字之間 的層次關(guān)系,并將其作為系統(tǒng)默認(rèn)的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字發(fā)送給結(jié)構(gòu)化單元,結(jié)構(gòu)化單元對(duì)從邏輯樹生成單元接收的邏輯樹應(yīng)用從分析單元接收的提取規(guī)則,提取 邏輯樹中所包含的各部分內(nèi)容形成按照從分析單元接收的結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,還包括用戶設(shè)置界面,分析單元將從 邏輯樹生成單元接收的邏輯樹中所包含的各部分內(nèi)容及其關(guān)鍵屬性發(fā)送給用戶設(shè)置界面 以顯示給用戶;用戶根據(jù)所提供的信息建立各部分的提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字 以及結(jié)構(gòu)化關(guān)鍵字之間的層次關(guān)系,并將建立的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字發(fā)送給結(jié)構(gòu)化單兀。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其特征在于,在結(jié)構(gòu)化單元從用戶設(shè)置界面接收到 提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字時(shí),結(jié)構(gòu)化單元從邏輯樹生成單元讀取小樣的邏輯樹,并對(duì)該邏 輯樹應(yīng)用用戶所設(shè)置的提取規(guī)則,提取該邏輯樹中所包含的各部分內(nèi)容形成按照用戶所設(shè) 置的結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容,并將該結(jié)構(gòu)化內(nèi)容作為預(yù)覽內(nèi)容傳送給用戶設(shè)置界 面以在用戶設(shè)置界面上顯示;用戶根據(jù)從結(jié)構(gòu)化單元接收的預(yù)覽內(nèi)容對(duì)所設(shè)置的提取規(guī)則 和結(jié)構(gòu)化關(guān)鍵字進(jìn)行調(diào)整,并將調(diào)整后的提取規(guī)則和結(jié)構(gòu)化關(guān)鍵字又發(fā)送給結(jié)構(gòu)化單元, 結(jié)構(gòu)化單元再次對(duì)小樣的邏輯樹應(yīng)用經(jīng)過用戶調(diào)整的提取規(guī)則,生成結(jié)構(gòu)化內(nèi)容,然后再 次作為預(yù)覽內(nèi)容發(fā)送給用戶設(shè)置界面以顯示給用戶,如此反復(fù)操作,直到所形成的結(jié)構(gòu)化 內(nèi)容滿足用戶要求為止。
全文摘要
本發(fā)明提供一種智能提取文檔結(jié)構(gòu)的方法,該方法包括通過對(duì)文檔小樣進(jìn)行分析,建立提取規(guī)則及其相對(duì)應(yīng)的結(jié)構(gòu)化關(guān)鍵字;對(duì)待提取結(jié)構(gòu)的文檔應(yīng)用所建立的提取規(guī)則,提取文檔內(nèi)容形成按照結(jié)構(gòu)化關(guān)鍵字表達(dá)的結(jié)構(gòu)化內(nèi)容。相應(yīng)地,本發(fā)明提供一種智能提取文檔結(jié)構(gòu)的系統(tǒng),該系統(tǒng)包括文檔輸入單元、分析單元、結(jié)構(gòu)化單元、用戶設(shè)置界面和文檔輸出單元。本發(fā)明依據(jù)文檔中的樣式(包括文字樣式和段落樣式)、文字屬性、文字內(nèi)容、標(biāo)題級(jí)別等屬性設(shè)置一些簡單的提取規(guī)則,并根據(jù)這些規(guī)則智能提取文檔中的結(jié)構(gòu)化信息,從而實(shí)現(xiàn)任意文檔格式的結(jié)構(gòu)化自動(dòng)加工。另一方面,用戶僅通過簡單的操作就可自行設(shè)置提取規(guī)則,靈活性強(qiáng)。
文檔編號(hào)G06F17/27GK102103605SQ20091024289
公開日2011年6月22日 申請(qǐng)日期2009年12月18日 優(yōu)先權(quán)日2009年12月18日
發(fā)明者余忠華, 曹學(xué)軍, 曾建英, 繆萍, 閆國龍 申請(qǐng)人:北京北大方正電子有限公司, 北大方正集團(tuán)有限公司