專利名稱:一種掃描文檔編改的方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種掃描文檔編改的方法與系統(tǒng)。
技術(shù)背景
光學(xué)字符識(shí)別(Optical Character Recognition, OCR)是指對(duì)文本資料進(jìn)行掃 描,然后對(duì)圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。
由于OCR本身算法的局限性以及原始文本資料的質(zhì)量原因,OCR從掃描的文本中 獲取文字信息的過程并不能做到完全正確,因此在掃描文檔編改的工作中,通常先由OCR 進(jìn)行識(shí)別,再由??庇脩暨M(jìn)行人工???,即由人工將OCR處理之后的識(shí)別文檔與被掃描的 文檔進(jìn)行比較,找出識(shí)別文檔中與被掃描文檔不一致的字符然后修改。這種工作方式如圖 1所示,圖1是根據(jù)現(xiàn)有技術(shù)的掃描文檔編改的方法的主要步驟示意圖。
根據(jù)圖1所示的流程,如果??庇脩舻男?闭_率較低,即??卑l(fā)現(xiàn)的OCR錯(cuò)誤識(shí) 別的字符數(shù)與OCR錯(cuò)誤識(shí)別的總字符數(shù)的比值校低,則經(jīng)過該??庇脩籼幚淼男?蔽臋n中 仍有可能存在較多的錯(cuò)誤字符,影響了掃描文檔編改工作的準(zhǔn)確性。
現(xiàn)有的掃描文檔編改的方法準(zhǔn)確性較低,對(duì)于該問題,目前尚未提出有效解決方 案。發(fā)明內(nèi)容
本發(fā)明的主要目的是提供一種掃描文檔編改的方法與系統(tǒng),用以解決現(xiàn)有技術(shù)中 掃描文檔編改的方法準(zhǔn)確性較低的問題。
為解決上述問題,根據(jù)本發(fā)明的一個(gè)方面,提供了一種掃描文檔編改的方法。
本發(fā)明的掃描文檔編改方法包括接收初始文檔在光學(xué)字符識(shí)別(OCR)后的識(shí)別 文檔;對(duì)所述識(shí)別文檔進(jìn)行修改并對(duì)該修改進(jìn)行記錄;接收??庇脩魧?duì)修改后的識(shí)別文檔 進(jìn)行??钡贸龅男?蔽臋n;根據(jù)所述??蔽臋n中對(duì)所述修改的內(nèi)容的校勘結(jié)果,得出所述 校勘用戶的??闭_率;判斷所述??闭_率是否大于預(yù)設(shè)值,若是則輸出所述校勘文檔。
進(jìn)一步地,對(duì)所述識(shí)別文檔進(jìn)行修改包括在所述識(shí)別文檔中的預(yù)設(shè)位置將識(shí)別 正確的字符修改為其他字符。
進(jìn)一步地,對(duì)所述識(shí)別文檔進(jìn)行修改包括在所述識(shí)別文檔中的預(yù)設(shè)位置將識(shí)別 錯(cuò)誤的字符修改為該預(yù)設(shè)位置的正確字符以外的字符。
進(jìn)一步地,對(duì)所述識(shí)別文檔進(jìn)行修改之前還包括按字符統(tǒng)計(jì)所述??庇脩魧?duì)各 字符的校勘正確率;對(duì)所述識(shí)別文檔進(jìn)行修改包括從所述校勘用戶的??闭_率低于預(yù) 設(shè)值的字符中確定出一種或多種字符,將所述識(shí)別文檔中的全部或部分所述一種或多種字 符分別對(duì)應(yīng)修改為各字符被錯(cuò)誤識(shí)別時(shí)得到的字符。
進(jìn)一步地,在所述校勘正確率不大于預(yù)設(shè)值的情況下,輸出提示信息,該提示信息 用于提示所述校勘用戶對(duì)所述??蔽臋n再次進(jìn)行校勘,以及接收對(duì)所述??蔽臋n再次進(jìn)行 ??钡男?蔽臋n。
進(jìn)一步地,輸出所述??蔽臋n之后包括將所述??蔽臋n中經(jīng)過所述修改的內(nèi)容 恢復(fù)為所述修改前的內(nèi)容。
為解決上述問題,根據(jù)本發(fā)明的一個(gè)方面,提供了一種掃描文檔編改的系統(tǒng)。
本發(fā)明的掃描文檔編改的系統(tǒng)包括第一接收模塊,用于接收初始文檔在光學(xué)字 符識(shí)別(OCR)后的識(shí)別文檔;修改記錄模塊,用于對(duì)所述識(shí)別文檔進(jìn)行修改并對(duì)該修改進(jìn) 行記錄;第二接收模塊,用于接收校勘用戶對(duì)修改后的識(shí)別文檔進(jìn)行??钡贸龅男?蔽臋n; 第一統(tǒng)計(jì)模塊,用于根據(jù)所述??蔽臋n中對(duì)所述修改的內(nèi)容的??苯Y(jié)果,得出所述校勘用 戶的??闭_率;分析模塊,用于判斷所述校勘正確率是否大于預(yù)設(shè)值,若是則輸出所述校 勘文檔。
進(jìn)一步地,所述修改記錄模塊還用于在所述識(shí)別文檔中的預(yù)設(shè)位置將識(shí)別正確的 字符修改為其他字符。
進(jìn)一步地,所述修改記錄模塊還用于在所述識(shí)別文檔中的預(yù)設(shè)位置將識(shí)別錯(cuò)誤的 字符修改為該預(yù)設(shè)位置的正確字符以外的字符。
進(jìn)一步地,所述系統(tǒng)還包括第二統(tǒng)計(jì)模塊,用于按字符統(tǒng)計(jì)所述??庇脩魧?duì)各字 符的??闭_率;所述修改記錄模塊還用于從所述??庇脩舻男?闭_率低于預(yù)設(shè)值的字 符中確定出一種或多種字符,將所述識(shí)別文檔中的全部或部分所述一種或多種字符分別對(duì) 應(yīng)修改為各字符被錯(cuò)誤識(shí)別時(shí)得到的字符。
進(jìn)一步地,所述系統(tǒng)還包括輸出模塊,用于輸出提示信息,該提示信息用于提示所 述校勘用戶對(duì)所述??蔽臋n再次進(jìn)行???;所述第二接收模塊還用于接收對(duì)所述??蔽臋n 再次進(jìn)行??钡男?蔽臋n。
進(jìn)一步地,所述系統(tǒng)還包括恢復(fù)模塊,用于將所述??蔽臋n中經(jīng)過所述修改的內(nèi) 容恢復(fù)為所述修改前的內(nèi)容。
根據(jù)本發(fā)明的技術(shù)方案,通過獲取用戶的??闭_率的方式來考察??蔽臋n是否 可以接受,只有用戶的??闭_率大于預(yù)設(shè)值的情況下才認(rèn)可其校勘結(jié)果,從而提高了掃 描文檔編改的準(zhǔn)確性。
此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā) 明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中
圖1是根據(jù)現(xiàn)有技術(shù)的掃描文檔編改的方法的主要步驟示意圖2是根據(jù)本發(fā)明實(shí)施例的掃描文檔編改的方法的主要步驟示意圖;以及
圖3是根據(jù)本發(fā)明實(shí)施例的掃描文檔編改的系統(tǒng)的模塊的示意圖。
具體實(shí)施方式
下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。
圖2是根據(jù)本發(fā)明實(shí)施例的掃描文檔編改的方法的主要步驟示意圖,如圖2所示, 該方法包括如下步驟
步驟S21 接收初始文檔在光學(xué)字符識(shí)別(OCR)后的識(shí)別文檔;
步驟S22 對(duì)識(shí)別文檔進(jìn)行修改并對(duì)該修改進(jìn)行記錄;
步驟S23 接收??庇脩魧?duì)修改后的識(shí)別文檔進(jìn)行校勘得出的??蔽臋n;
步驟S24:根據(jù)??蔽臋n中對(duì)修改的內(nèi)容的??苯Y(jié)果,得出??庇脩舻男?闭_ 率;
步驟S25 判斷??闭_率是否大于預(yù)設(shè)值,若是則進(jìn)入步驟S26,否則進(jìn)入步驟 S27 ;
步驟S26 輸出??蔽臋n;
步驟S27 輸出提示信息,提示校勘用戶對(duì)??蔽臋n再次進(jìn)行校勘。接下來可以轉(zhuǎn) 入步驟SM。
在獲取用戶的??闭_率的時(shí)候,在步驟S22中具體可以采用雙向加擾的方法。
雙向加擾的方法中,一種是在識(shí)別文檔中的預(yù)設(shè)位置將識(shí)別正確的字符修改為其 他字符,這樣在步驟S24中,統(tǒng)計(jì)這些經(jīng)過修改的字符中有多少字被??庇脩魴z查出來,將 檢查出的字?jǐn)?shù)占經(jīng)過修改字符總數(shù)的比例作為該??庇脩舻男?闭_率。
雙向加擾的另一種方法是在識(shí)別文檔中的預(yù)設(shè)位置將識(shí)別錯(cuò)誤的字符修改為該 預(yù)設(shè)位置的正確字符以外的字符。因?yàn)镺CR結(jié)果中有可能存在某一字符常常被錯(cuò)誤識(shí)別為 另一字符,這樣校對(duì)人員可能直接查找該另一字符,從而忽略對(duì)其他字符的校對(duì),所以可將 該另一字符進(jìn)行修改,改為其他字符,該其他字符應(yīng)當(dāng)不是當(dāng)前位置的正確字符,這樣可以 促使校對(duì)人員對(duì)每個(gè)字符進(jìn)行校對(duì),而不是直接查找那些易錯(cuò)的結(jié)果。
在加擾時(shí)可以針對(duì)不同的??庇脩舨扇〔煌募訑_策略。例如校勘用戶對(duì)于某些 OCR結(jié)果中存在的錯(cuò)誤常常不能校勘出來,就可以針對(duì)校勘用戶A的這種特點(diǎn)進(jìn)行加擾。具 體可以是在步驟S22之前,按字符統(tǒng)計(jì)??庇脩魧?duì)各字符的??闭_率,然后從該校勘用 戶的??闭_率低于預(yù)設(shè)值的字符中確定出一種或多種字符,將識(shí)別文檔中的全部或部分 所述一種或多種字符分別對(duì)應(yīng)修改為各字符被錯(cuò)誤識(shí)別時(shí)得到的字符。例如“未”常被識(shí)別 為“末”這樣的錯(cuò)誤,常常被??庇脩鬉忽略,那么就可以將識(shí)別文檔中正確識(shí)別出的“未” 改為“末”,看??庇脩鬉是否檢查得出。
在步驟S25之后,可能還包含未被??庇脩魴z查出的在步驟S22中修改的個(gè)別字 符,因此可以根據(jù)步驟S22中的記錄,將步驟S22中修改的內(nèi)容恢復(fù)為修改前的內(nèi)容。
圖3是根據(jù)本發(fā)明實(shí)施例的掃描文檔編改的系統(tǒng)的模塊的示意圖。如圖3所示, 掃描文檔編改的系統(tǒng)30包括如下模塊
第一接收模塊,用于接收初始文檔在光學(xué)字符識(shí)別(OCR)后的識(shí)別文檔;
修改記錄模塊,用于對(duì)所述識(shí)別文檔進(jìn)行修改并對(duì)該修改進(jìn)行記錄;
第二接收模塊,用于接收??庇脩魧?duì)修改后的識(shí)別文檔進(jìn)行校勘得出的??蔽?檔;
第一統(tǒng)計(jì)模塊,用于根據(jù)所述校勘文檔中對(duì)所述修改的內(nèi)容的??苯Y(jié)果,得出所 述??庇脩舻男?闭_率;
分析模塊,用于判斷所述校勘正確率是否大于預(yù)設(shè)值,若是則輸出所述??蔽臋n。
修改記錄模塊還可用于在識(shí)別文檔中的預(yù)設(shè)位置將識(shí)別正確的字符修改為其他字符。
修改記錄模塊還可用于在所述識(shí)別文檔中的預(yù)設(shè)位置將識(shí)別錯(cuò)誤的字符修改為 該預(yù)設(shè)位置的正確字符以外的字符。
掃描文檔編改的系統(tǒng)30還可包括第二統(tǒng)計(jì)模塊,用于按字符統(tǒng)計(jì)??庇脩魧?duì)各 字符的校勘正確率;這樣修改記錄模塊還可用于從??庇脩舻男?闭_率低于預(yù)設(shè)值的字 符中確定出一種或多種字符,將識(shí)別文檔中的全部或部分所述一種或多種字符分別對(duì)應(yīng)修 改為各字符被錯(cuò)誤識(shí)別時(shí)得到的字符。
掃描文檔編改的系統(tǒng)30還可包括輸出模塊,用于輸出提示信息,該提示信息用于 提示所述??庇脩魧?duì)所述校勘文檔再次進(jìn)行???;這樣第二接收模塊還用于接收對(duì)所述校 勘文檔再次進(jìn)行??钡男?蔽臋n。
掃描文檔編改的系統(tǒng)30還可包括恢復(fù)模塊,用于將??蔽臋n中經(jīng)過修改的內(nèi)容 恢復(fù)為修改前的內(nèi)容。
從以上的說明可以看出,本實(shí)施例中通過獲取用戶的??闭_率的方式來考察校 勘文檔是否可以接受,只有用戶的??闭_率大于預(yù)設(shè)值的情況下才認(rèn)可其??苯Y(jié)果,從 而提高了掃描文檔編改的準(zhǔn)確性。
顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用 的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成 的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ) 在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們 中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的 硬件和軟件結(jié)合。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技 術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。權(quán)利要求
1.7 一種掃描文檔編改的方法,其特征在于,包括 接收初始文檔在光學(xué)字符識(shí)別(OCR)后的識(shí)別文檔; 對(duì)所述識(shí)別文檔進(jìn)行修改并對(duì)該修改進(jìn)行記錄;接收??庇脩魧?duì)修改后的識(shí)別文檔進(jìn)行??钡贸龅男?蔽臋n;根據(jù)所述??蔽臋n中對(duì)所述修改的內(nèi)容的??苯Y(jié)果,得出所述??庇脩舻男?闭_率;判斷所述??闭_率是否大于預(yù)設(shè)值,若是則輸出所述??蔽臋n。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述識(shí)別文檔進(jìn)行修改包括在所述識(shí) 別文檔中的預(yù)設(shè)位置將識(shí)別正確的字符修改為其他字符。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述識(shí)別文檔進(jìn)行修改包括在所述識(shí) 別文檔中的預(yù)設(shè)位置將識(shí)別錯(cuò)誤的字符修改為該預(yù)設(shè)位置的正確字符以外的字符。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述識(shí)別文檔進(jìn)行修改之前還包括按字符統(tǒng)計(jì)所述??庇脩魧?duì)各字符的校勘正確率;對(duì)所述識(shí)別文檔進(jìn)行修改包括從所述??庇脩舻男?闭_率低于預(yù)設(shè)值的字符中確 定出一種或多種字符,將所述識(shí)別文檔中的全部或部分所述一種或多種字符分別對(duì)應(yīng)修改 為各字符被錯(cuò)誤識(shí)別時(shí)得到的字符。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,在所述??闭_率不大于預(yù) 設(shè)值的情況下,輸出提示信息,該提示信息用于提示所述??庇脩魧?duì)所述校勘文檔再次進(jìn) 行???,以及接收對(duì)所述??蔽臋n再次進(jìn)行校勘的??蔽臋n。
6.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,輸出所述??蔽臋n之后包 括將所述??蔽臋n中經(jīng)過所述修改的內(nèi)容恢復(fù)為所述修改前的內(nèi)容。
7.一種掃描文檔編改的系統(tǒng),其特征在于,包括第一接收模塊,用于接收初始文檔在光學(xué)字符識(shí)別(OCR)后的識(shí)別文檔; 修改記錄模塊,用于對(duì)所述識(shí)別文檔進(jìn)行修改并對(duì)該修改進(jìn)行記錄; 第二接收模塊,用于接收??庇脩魧?duì)修改后的識(shí)別文檔進(jìn)行??钡贸龅男?蔽臋n; 第一統(tǒng)計(jì)模塊,用于根據(jù)所述??蔽臋n中對(duì)所述修改的內(nèi)容的校勘結(jié)果,得出所述校 勘用戶的校勘正確率;分析模塊,用于判斷所述??闭_率是否大于預(yù)設(shè)值,若是則輸出所述??蔽臋n。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述修改記錄模塊還用于在所述識(shí)別文 檔中的預(yù)設(shè)位置將識(shí)別正確的字符修改為其他字符。
9.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述修改記錄模塊還用于在所述識(shí)別文 檔中的預(yù)設(shè)位置將識(shí)別錯(cuò)誤的字符修改為該預(yù)設(shè)位置的正確字符以外的字符。
10.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括第二統(tǒng)計(jì)模塊,用于按字符統(tǒng)計(jì)所述??庇脩魧?duì)各字符的??闭_率;所述修改記錄模塊還用于從所述??庇脩舻男?闭_率低于預(yù)設(shè)值的字符中確定出 一種或多種字符,將所述識(shí)別文檔中的全部或部分所述一種或多種字符分別對(duì)應(yīng)修改為各 字符被錯(cuò)誤識(shí)別時(shí)得到的字符。
11.根據(jù)權(quán)利要求7至10中任一項(xiàng)所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括輸出模塊,用于輸出提示信息,該提示信息用于提示所述??庇脩魧?duì) 所述??蔽臋n再次進(jìn)行校勘;所述第二接收模塊還用于接收對(duì)所述校勘文檔再次進(jìn)行??钡男?蔽臋n。
12.根據(jù)權(quán)利要求7至10中任一項(xiàng)所述的系統(tǒng),其特征在于,還包括恢復(fù)模塊,用于將 所述??蔽臋n中經(jīng)過所述修改的內(nèi)容恢復(fù)為所述修改前的內(nèi)容。
全文摘要
本發(fā)明公開了一種掃描文檔編改的方法與系統(tǒng),以解決現(xiàn)有技術(shù)中掃描文檔編改的方法準(zhǔn)確性較低的問題。該方法包括接收初始文檔在光學(xué)字符識(shí)別(OCR)后的識(shí)別文檔;對(duì)所述識(shí)別文檔進(jìn)行修改并對(duì)該修改進(jìn)行記錄;接收校勘用戶對(duì)修改后的識(shí)別文檔進(jìn)行??钡贸龅男?蔽臋n;根據(jù)所述校勘文檔中對(duì)所述修改的內(nèi)容的??苯Y(jié)果,得出所述??庇脩舻男?闭_率;判斷所述??闭_率是否大于預(yù)設(shè)值,若是則輸出所述校勘文檔。采用本發(fā)明的技術(shù)方案,有助于提高掃描文檔編改的準(zhǔn)確性。
文檔編號(hào)G06F17/21GK102043766SQ20101061682
公開日2011年5月4日 申請(qǐng)日期2010年12月30日 優(yōu)先權(quán)日2010年12月30日
發(fā)明者周長嶺, 趙海濤 申請(qǐng)人:方正國際軟件(北京)有限公司, 方正國際軟件有限公司