一種提高版式文檔中字符識(shí)別率的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明是一種提高版式文檔中字符識(shí)別率的方法和系統(tǒng),將所述版式文檔中同一個(gè)預(yù)定字符所對(duì)應(yīng)的字符原始編碼與字符標(biāo)準(zhǔn)編碼進(jìn)行比對(duì)得到編碼比對(duì)結(jié)果,將多個(gè)所述編碼比對(duì)結(jié)果進(jìn)行概率統(tǒng)計(jì)得到概率值,將所述概率值與閾值進(jìn)行比對(duì),若超過(guò)閾值,則所述版式文檔顯示所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到的字符;否則,所述版式文檔顯示OCR識(shí)別后的字符。本發(fā)明通過(guò)概率統(tǒng)計(jì)的方法,來(lái)選擇顯示所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到的字符或者所述版式文檔顯示OCR識(shí)別后的字符,因此有效提高了字符識(shí)別的正確率。
【專利說(shuō)明】一種提高版式文檔中字符識(shí)別率的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種提高文字識(shí)別率的方法,具體地說(shuō)是一種提高版式文檔中字符識(shí)別率的方法和系統(tǒng)。
【背景技術(shù)】
[0002]為了保證讀者的閱讀效果,書(shū)刊的出版方在印刷前所發(fā)布的排版文件一般為版式文檔。所謂的版式文檔就是能夠明確記錄每個(gè)字符的位置、字形位圖、字體、大小、顏色等信息的文件,所述版式文檔還可以記錄每個(gè)字符的編碼。由于版式文檔記載了字形位圖和字符間的相對(duì)位置,因此具有一定的穩(wěn)定性,能夠保證讀者在任何計(jì)算機(jī)環(huán)境下所閱讀的版式文檔與印刷出來(lái)的書(shū)刊都具有一致的視覺(jué)效果,常用的版式文檔主要為PDF等。
[0003]雖然有的版式文檔中記載了字符的編碼,但是在顯示的時(shí)候,一般根據(jù)字形位圖進(jìn)行顯示,不是根據(jù)編碼進(jìn)行顯示。當(dāng)從版式文檔中提取文字的字符的時(shí)候,由于版式文檔中所記錄的字符的編碼一般可能通過(guò)通用標(biāo)準(zhǔn)編碼或者自定義編碼的方式得到,因此具體到一個(gè)版式文檔,不確定其字符的編碼方式,進(jìn)而就不能根據(jù)該編碼得到文字的字符。
[0004]因此現(xiàn)有技術(shù)中,通常采用OCR (Optical Character Recognit1n,光學(xué)字符識(shí)另O)技術(shù)來(lái)提取版式文檔中的字符,但是由于OCR技術(shù)本身存在識(shí)別率的問(wèn)題,因此采用OCR技術(shù)識(shí)別出的文字的字符往往存在錯(cuò)誤率高的問(wèn)題,影響用戶閱讀。
【發(fā)明內(nèi)容】
[0005]為此,本發(fā)明所要解決的技術(shù)問(wèn)題在于克服現(xiàn)有技術(shù)中采用OCR技術(shù)識(shí)別字符時(shí)存在錯(cuò)誤率較高的問(wèn)題,提供一種提高版式文檔中字符識(shí)別率的方法和系統(tǒng)。
[0006]為解決上述技術(shù)問(wèn)題,本發(fā)明是一種提高版式文檔中字符識(shí)別率的方法,
[0007]包括如下步驟:
[0008]將所述版式文檔中同一個(gè)預(yù)定字符所對(duì)應(yīng)的字符原始編碼與字符通用標(biāo)準(zhǔn)編碼進(jìn)行比較得到編碼相同或者編碼不同的編碼比對(duì)結(jié)果;
[0009]將多個(gè)所述預(yù)定字符所對(duì)應(yīng)的所述編碼比對(duì)結(jié)果進(jìn)行概率統(tǒng)計(jì)得到所述預(yù)定字符采用字符通用標(biāo)準(zhǔn)編碼的概率值;
[0010]將所述概率值與閾值進(jìn)行比對(duì),若超過(guò)閾值,則所述預(yù)定字符按照其所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)所得到的字符并顯示;否則,直接顯示該所述預(yù)定字符通過(guò)OCR識(shí)別出的字符。
[0011]一種提高版式文檔中字符識(shí)別率的方法,在得到所述編碼比對(duì)結(jié)果的步驟前,還包括如下步驟:
[0012]提取所述版式文檔中的每個(gè)預(yù)定字符的字形位圖;
[0013]提取所述版式文檔中的每個(gè)所述預(yù)定字符的字符原始編碼;
[0014]對(duì)所述字形位圖進(jìn)行OCR識(shí)別后得到識(shí)別后字符;
[0015]對(duì)所述識(shí)別后字符對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到字符通用標(biāo)準(zhǔn)編碼。
[0016]一種提高版式文檔中字符識(shí)別率的方法,在提取所述字符原始編碼的步驟之前,還包括如下步驟:
[0017]將所述版式文檔中具有字符原始編碼的字符作為預(yù)定字符篩選出來(lái)。
[0018]一種提高版式文檔中字符識(shí)別率的方法,將所述版式文檔中具有字符原始編碼的字符作為預(yù)定字符篩選出來(lái)的步驟之后,還包括如下步驟:
[0019]為每個(gè)所述預(yù)定字符進(jìn)行ID編號(hào)。
[0020]一種提高版式文檔中字符識(shí)別率的方法,在提取所述版式文檔中的每個(gè)所述預(yù)定字符的字符原始編碼的步驟后,還包括如下步驟:
[0021]建立一個(gè)字符原始編碼表,將所述預(yù)定字符的ID與其相對(duì)應(yīng)的所述字符原始編碼存儲(chǔ)到所述字符原始編碼表中。
[0022]一種提高版式文檔中字符識(shí)別率的方法,在得到所述字符通用標(biāo)準(zhǔn)編碼的步驟后,還包括如下步驟:
[0023]建立一個(gè)字符標(biāo)準(zhǔn)編碼表,將所述預(yù)定字符的ID與其相對(duì)應(yīng)的所述字符標(biāo)準(zhǔn)編碼存儲(chǔ)到所述字符標(biāo)準(zhǔn)編碼表中。
[0024]一種提高版式文檔中字符識(shí)別率的方法,將所述概率值與閾值進(jìn)行比對(duì)并進(jìn)行相應(yīng)的操作之前,還包括如下步驟:
[0025]建立一個(gè)用于顯示、修改和確認(rèn)所述字符的可編輯界面。
[0026]一種提高版式文檔中字符識(shí)別率的系統(tǒng),包括編碼比對(duì)裝置、概率統(tǒng)計(jì)裝置和概率值、閾值比對(duì)裝置,其中,
[0027]所述編碼比對(duì)裝置,用于將所述版式文檔中同一個(gè)預(yù)定字符所對(duì)應(yīng)的字符原始編碼與字符通用標(biāo)準(zhǔn)編碼進(jìn)行比較得到編碼相同或者編碼不同的編碼比對(duì)結(jié)果;
[0028]所述概率統(tǒng)計(jì)裝置,用于將多個(gè)所述預(yù)定字符所對(duì)應(yīng)的所述編碼比對(duì)結(jié)果進(jìn)行概率統(tǒng)計(jì)得到所述預(yù)定字符采用字符通用標(biāo)準(zhǔn)編碼的概率值;
[0029]所述概率值、閾值比對(duì)裝置,用于將所述概率值與閾值進(jìn)行比對(duì),若超過(guò)閾值,則所述預(yù)定字符按照其所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)所得到的字符并顯示;否貝U,直接顯示該所述預(yù)定字符通過(guò)OCR識(shí)別出的字符。
[0030]一種提高版式文檔中字符識(shí)別率的系統(tǒng),還包括字形位圖提取裝置、字符原始編碼提取裝置、OCR識(shí)別裝置和字符通用標(biāo)準(zhǔn)編碼對(duì)應(yīng)裝置,其中,
[0031]所述字形位圖提取裝置,用于提取所述版式文檔中的每個(gè)預(yù)定字符的字形位圖;
[0032]所述字符原始編碼提取裝置,用于提取所述版式文檔中的每個(gè)所述預(yù)定字符的字符原始編碼;
[0033]所述OCR識(shí)別裝置,用于對(duì)提取出的所述字形位圖進(jìn)行OCR識(shí)別后得到識(shí)別后字符;
[0034]所述字符通用標(biāo)準(zhǔn)編碼對(duì)應(yīng)裝置,用于對(duì)所述識(shí)別后字符對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到字符通用標(biāo)準(zhǔn)編碼。
[0035]一種提高版式文檔中字符識(shí)別率的系統(tǒng),還包括預(yù)定字符篩選裝置,所述預(yù)定字符篩選裝置用于將所述版式文檔中具有字符原始編碼的字符作為預(yù)定字符篩選出來(lái)。
[0036]一種提高版式文檔中字符識(shí)別率的系統(tǒng),還包括ID編號(hào)裝置,所述ID編號(hào)裝置用于為每個(gè)所述預(yù)定字符進(jìn)行ID編號(hào)。
[0037]—種提高版式文檔中字符識(shí)別率的系統(tǒng),還包括字符標(biāo)準(zhǔn)編碼表建立裝置,所述字符標(biāo)準(zhǔn)編碼表建立裝置,用于建立一個(gè)字符標(biāo)準(zhǔn)編碼表,將所述預(yù)定字符的ID與其相對(duì)應(yīng)的所述字符標(biāo)準(zhǔn)編碼存儲(chǔ)到所述字符標(biāo)準(zhǔn)編碼表中。
[0038]一種提高版式文檔中字符識(shí)別率的系統(tǒng),還包括字符標(biāo)準(zhǔn)編碼表建立裝置,所述字符標(biāo)準(zhǔn)編碼表建立裝置,用于建立一個(gè)字符標(biāo)準(zhǔn)編碼表,將所述預(yù)定字符的ID與其相對(duì)應(yīng)的所述字符標(biāo)準(zhǔn)編碼存儲(chǔ)到所述字符標(biāo)準(zhǔn)編碼表中。
[0039]一種提高版式文檔中字符識(shí)別率的系統(tǒng),還包括可編輯界面建立裝置,所述可編輯界面建立裝置,用于建立一個(gè)用于顯示、修改和確認(rèn)所述字符的可編輯界面。
[0040]本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn):
[0041 ] 1、在本發(fā)明所述的一種提高版式文檔中字符識(shí)別率的方法和系統(tǒng),將所述版式文檔中同一個(gè)預(yù)定字符所對(duì)應(yīng)的字符原始編碼與字符通用標(biāo)準(zhǔn)編碼進(jìn)行比較得到編碼相同或者編碼不同的編碼比對(duì)結(jié)果,將多個(gè)所述編碼比對(duì)結(jié)果進(jìn)行概率統(tǒng)計(jì)得到概率值,將所述概率值與閾值進(jìn)行比對(duì),若超過(guò)閾值,則顯示所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到的字符;否則,顯示OCR識(shí)別后的字符。本發(fā)明通過(guò)概率統(tǒng)計(jì)的方法,來(lái)選擇顯示所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到的字符或者所述版式文檔顯示OCR識(shí)別后的字符,因此有效提高了字符識(shí)別的正確率。
[0042]2、在本發(fā)明所述的一種提高版式文檔中字符識(shí)別率的方法和系統(tǒng),在得到所述編碼比對(duì)結(jié)果的步驟前,還包括如下步驟:提取所述版式文檔中的每個(gè)預(yù)定字符的字形位圖。提取所述版式文檔中的每個(gè)所述預(yù)定字符的字符原始編碼。對(duì)所述字形位圖進(jìn)行OCR識(shí)別后得到識(shí)別后字符;對(duì)所述識(shí)別后字符對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到字符通用標(biāo)準(zhǔn)編碼。本發(fā)明能夠通過(guò)OCR識(shí)別的方法得到識(shí)別后字符,便于進(jìn)一步得到所述字符通用標(biāo)準(zhǔn)編碼。所述OCR識(shí)別裝置為市售的通用模塊,具有價(jià)格低的優(yōu)點(diǎn)。
[0043]3、在本發(fā)明所述的一種提高版式文檔中字符識(shí)別率的方法和系統(tǒng),在提取所述字符原始編碼的步驟之前,還包括將所述版式文檔中具有字符原始編碼的字符作為預(yù)定字符篩選出來(lái)的步驟,篩選預(yù)定字符的操作能夠減少提取需要提取所述字形位圖的字符步驟的次數(shù),有效減少了本發(fā)明的運(yùn)行時(shí)間,提高了運(yùn)行效率。本發(fā)明還包括為每個(gè)所述預(yù)定字符進(jìn)行ID編號(hào)的步驟,采用ID編號(hào)的方式能夠更加方便準(zhǔn)確的使所述預(yù)定字符與所述字符原始編碼或所述識(shí)別后字符一一對(duì)應(yīng)。本發(fā)明還包括建立一個(gè)字符原始編碼表和建立一個(gè)字符標(biāo)準(zhǔn)編碼表的步驟,所述字符原始編碼表能夠有效管理字符原始編碼,所述字符標(biāo)準(zhǔn)編碼表能夠有效管理字符標(biāo)準(zhǔn)編碼,能夠減少本發(fā)明的運(yùn)行的時(shí)間。
[0044]4、在本發(fā)明所述的一種提高版式文檔中字符識(shí)別率的方法和系統(tǒng),還包括建立可編輯界面的步驟,所述可編輯界面能夠顯示、修改和確認(rèn)所顯示的字符,能夠人工干預(yù)所顯示的錯(cuò)誤字符,便于糾正錯(cuò)誤。
【專利附圖】
【附圖說(shuō)明】
[0045]為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實(shí)施例并結(jié)合附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明,其中
[0046]圖1是本發(fā)明一個(gè)實(shí)施例的一種提高版式文檔中字符識(shí)別率的方法的流程圖;
[0047]圖2為本發(fā)明一個(gè)實(shí)施例的一種提高版式文檔中字符識(shí)別率的系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0048]以下結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行詳細(xì)說(shuō)明。應(yīng)當(dāng)理解的是,此處所描述的【具體實(shí)施方式】?jī)H用于說(shuō)明和解釋本發(fā)明,并不用于限制本發(fā)明。
[0049]實(shí)施例1
[0050]作為本發(fā)明的一個(gè)實(shí)施例,如圖1所示,一種提高版式文檔中字符識(shí)別率的方法,包括如下步驟:
[0051]將所述版式文檔中同一個(gè)預(yù)定字符所對(duì)應(yīng)的字符原始編碼與字符通用標(biāo)準(zhǔn)編碼進(jìn)行比較得到編碼相同或者編碼不同的編碼比對(duì)結(jié)果。
[0052]將多個(gè)所述預(yù)定字符所對(duì)應(yīng)的所述編碼比對(duì)結(jié)果進(jìn)行概率統(tǒng)計(jì)得到所述預(yù)定字符采用字符通用標(biāo)準(zhǔn)編碼的概率值。
[0053]將所述概率值與閾值進(jìn)行比對(duì),若超過(guò)閾值,則所述預(yù)定字符按照其所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)所得到的字符并顯示。否則,直接顯示該所述預(yù)定字符通過(guò)OCR識(shí)別出的字符。
[0054]本發(fā)明通過(guò)概率統(tǒng)計(jì)的方法,來(lái)選擇顯示所述字符原始編碼根據(jù)對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)所得到的字符或者顯示OCR識(shí)別后的字符,本發(fā)明在所述預(yù)定字符采用字符通用標(biāo)準(zhǔn)編碼方式時(shí),用所述字符原始編碼根據(jù)對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)所得到的字符來(lái)替代OCR識(shí)別后的字符,所述字符原始編碼根據(jù)對(duì)照字符通用標(biāo)準(zhǔn)字符編碼庫(kù)所得到的字符的正確率比OCR的正確率更高,因此本發(fā)明在整體上能夠提高文字識(shí)別的正確率。
[0055]實(shí)施例2
[0056]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例1的基礎(chǔ)上,在得到所述編碼比對(duì)結(jié)果的步驟前,還包括如下步驟:
[0057]提取所述版式文檔中的每個(gè)預(yù)定字符的字形位圖。
[0058]對(duì)提取出的所述字形位圖進(jìn)行OCR識(shí)別后得到識(shí)別后字符。
[0059]對(duì)所述識(shí)別后字符對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到字符通用標(biāo)準(zhǔn)編碼。其中,所述字符通用標(biāo)準(zhǔn)編碼為國(guó)標(biāo)GB2312。
[0060]提取所述版式文檔中的每個(gè)所述預(yù)定字符的字符原始編碼。
[0061]上述獲取字符通用標(biāo)準(zhǔn)編碼和字符原始編碼步驟,可以分別同時(shí)執(zhí)行,也可以有一定的先后順序,比如先獲取字符通用標(biāo)準(zhǔn)編碼,再獲取字符原始編碼;或者先獲取字符原始編碼,再獲取字符通用標(biāo)準(zhǔn)編碼。只要在比對(duì)前獲取到所述字符通用標(biāo)準(zhǔn)編碼和字符原始編碼即可實(shí)現(xiàn)本發(fā)明的目的。
[0062]本發(fā)明能夠通過(guò)OCR識(shí)別的方法得到識(shí)別后字符,便于進(jìn)一步得到所述字符通用標(biāo)準(zhǔn)編碼。
[0063]實(shí)施例3
[0064]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例2的基礎(chǔ)上,在提取所述字符原始編碼的步驟之前,還包括如下步驟:
[0065]將所述版式文檔中具有字符原始編碼的字符作為預(yù)定字符篩選出來(lái)。篩選預(yù)定字符的操作能夠減少提取需要提取所述字形位圖的字符步驟的次數(shù),有效減少了本發(fā)明的運(yùn)行時(shí)間,提高了運(yùn)行效率。
[0066]實(shí)施例4
[0067]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例3的基礎(chǔ)上,將所述版式文檔中具有字符原始編碼的字符作為預(yù)定字符篩選出來(lái)的步驟之后,還包括如下步驟:
[0068]為每個(gè)所述預(yù)定字符進(jìn)行ID編號(hào)。采用ID編號(hào)的方式能夠更加方便準(zhǔn)確的使所述預(yù)定字符與所述字符原始編碼或所述識(shí)別后字符一一對(duì)應(yīng)。
[0069]實(shí)施例5
[0070]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例4的基礎(chǔ)上,在提取所述版式文檔中的每個(gè)所述預(yù)定字符的字符原始編碼的步驟后,還包括如下步驟:
[0071]建立一個(gè)字符原始編碼表,將所述預(yù)定字符的ID與其相對(duì)應(yīng)的所述字符原始編碼存儲(chǔ)到所述字符原始編碼表中。所述字符原始編碼表能夠有效管理字符原始編碼,能夠減少本發(fā)明的運(yùn)行的時(shí)間。
[0072]實(shí)施例6
[0073]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例4或?qū)嵤├?的基礎(chǔ)上,在得到所述字符通用標(biāo)準(zhǔn)編碼的步驟后,還包括如下步驟:
[0074]建立一個(gè)字符標(biāo)準(zhǔn)編碼表,將所述預(yù)定字符的ID與其相對(duì)應(yīng)的所述字符標(biāo)準(zhǔn)編碼存儲(chǔ)到所述字符標(biāo)準(zhǔn)編碼表中。所述字符標(biāo)準(zhǔn)編碼表能夠有效管理字符標(biāo)準(zhǔn)編碼,能夠減少本發(fā)明的運(yùn)行的時(shí)間。
[0075]實(shí)施例7
[0076]作為本發(fā)明的一個(gè)實(shí)施例,在上述實(shí)施例的基礎(chǔ)上,將所述概率值與閾值進(jìn)行比對(duì)并進(jìn)行相應(yīng)的操作之前,還包括如下步驟:
[0077]建立一個(gè)用于顯示、修改和確認(rèn)所述字符的可編輯界面。
[0078]所述可編輯界面能夠顯示、修改和確認(rèn)所顯示的字符,能夠人工干預(yù)所顯示的錯(cuò)誤字符,方便糾正錯(cuò)誤。
[0079]作為本發(fā)明的一個(gè)實(shí)施例,在上述實(shí)施例的基礎(chǔ)上,所述閾值為90%。
[0080]實(shí)施例8
[0081]作為本發(fā)明的一個(gè)實(shí)施例,參見(jiàn)圖2所示,一種提高版式文檔中字符識(shí)別率的系統(tǒng),包括編碼比對(duì)裝置、概率統(tǒng)計(jì)裝置和概率值、閾值比對(duì)裝置。其中,
[0082]所述編碼比對(duì)裝置,用于將所述版式文檔中同一個(gè)預(yù)定字符所對(duì)應(yīng)的字符原始編碼與字符通用標(biāo)準(zhǔn)編碼進(jìn)行比較得到編碼相同或者編碼不同的編碼比對(duì)結(jié)果。
[0083]所述概率統(tǒng)計(jì)裝置,用于將多個(gè)所述預(yù)定字符所對(duì)應(yīng)的所述編碼比對(duì)結(jié)果進(jìn)行概率統(tǒng)計(jì)得到所述預(yù)定字符采用字符通用標(biāo)準(zhǔn)編碼的概率值。
[0084]所述概率值、閾值比對(duì)裝置,用于將所述概率值與閾值進(jìn)行比對(duì),若超過(guò)閾值,則所述預(yù)定字符按照其所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)所得到的字符并顯示。否貝U,直接顯示該所述預(yù)定字符通過(guò)OCR識(shí)別出的字符。
[0085]本發(fā)明通過(guò)概率統(tǒng)計(jì)的方法,來(lái)選擇顯示所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到的字符或者所述版式文檔顯示OCR識(shí)別后的字符,因此有效提高了文字識(shí)別的正確率。
[0086]實(shí)施例9
[0087]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例8的基礎(chǔ)上,還包括字形位圖提取裝置、字符原始編碼提取裝置、OCR識(shí)別裝置和字符通用標(biāo)準(zhǔn)編碼對(duì)應(yīng)裝置。其中,
[0088]所述字形位圖提取裝置,用于提取所述版式文檔中的每個(gè)預(yù)定字符的字形位圖。
[0089]所述字符原始編碼提取裝置,用于提取所述版式文檔中的每個(gè)所述預(yù)定字符的字符原始編碼。
[0090]所述OCR識(shí)別裝置,用于對(duì)提取出的所述字形位圖進(jìn)行OCR識(shí)別后得到識(shí)別后字符。
[0091]所述字符通用標(biāo)準(zhǔn)編碼對(duì)應(yīng)裝置,用于對(duì)所述識(shí)別后字符對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到字符通用標(biāo)準(zhǔn)編碼。
[0092]本發(fā)明能夠通過(guò)OCR識(shí)別的方法得到識(shí)別后字符,便于進(jìn)一步得到所述字符通用標(biāo)準(zhǔn)編碼。所述OCR識(shí)別裝置為市售的通用模塊,具有價(jià)格低的優(yōu)點(diǎn)。
[0093]實(shí)施例10
[0094]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例9的基礎(chǔ)上,還包括預(yù)定字符篩選裝置,所述預(yù)定字符篩選裝置用于將所述版式文檔中具有字符原始編碼的字符作為預(yù)定字符篩選出來(lái)。所述預(yù)定字符篩選裝置能夠減少提取需要提取所述字形位圖的字符步驟的次數(shù),有效減少了本發(fā)明的運(yùn)行時(shí)間,提高了運(yùn)行效率。
[0095]實(shí)施例11
[0096]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例10的基礎(chǔ)上,還包括ID編號(hào)裝置,所述ID編號(hào)裝置用于為每個(gè)所述預(yù)定字符進(jìn)行ID編號(hào)。所述ID編號(hào)裝置能夠更加方便準(zhǔn)確的使所述預(yù)定字符與所述字符原始編碼或所述識(shí)別后字符一一對(duì)應(yīng)。
[0097]實(shí)施例12
[0098]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例11的基礎(chǔ)上,還包括字符原始編碼表建立裝置,所述字符原始編碼表建立裝置,用于建立一個(gè)字符原始編碼表,將所述預(yù)定字符的ID與其相對(duì)應(yīng)的所述字符原始編碼存儲(chǔ)到所述字符原始編碼表中。所述字符原始編碼表建立裝置能夠有效管理字符原始編碼,能夠減少本發(fā)明的運(yùn)行的時(shí)間。
[0099]實(shí)施例13
[0100]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例11或者實(shí)施例12的基礎(chǔ)上,還包括字符標(biāo)準(zhǔn)編碼表建立裝置,所述字符標(biāo)準(zhǔn)編碼表建立裝置,用于建立一個(gè)字符標(biāo)準(zhǔn)編碼表,將所述預(yù)定字符的ID與其相對(duì)應(yīng)的所述字符標(biāo)準(zhǔn)編碼存儲(chǔ)到所述字符標(biāo)準(zhǔn)編碼表中。所述字符標(biāo)準(zhǔn)編碼表建立裝置,能夠有效管理字符標(biāo)準(zhǔn)編碼,能夠減少本發(fā)明的運(yùn)行的時(shí)間。
[0101]實(shí)施例14
[0102]作為本發(fā)明的一個(gè)實(shí)施例,在實(shí)施例8-13任意一個(gè)實(shí)施例的基礎(chǔ)上,還包括可編輯界面建立裝置,所述可編輯界面建立裝置,用于建立一個(gè)用于顯示、修改和確認(rèn)所述字符的可編輯界面。所述可編輯界面能夠顯示、修改、確認(rèn)所顯示的字符,能夠人工干預(yù)所顯示的錯(cuò)誤字符,具有糾正錯(cuò)誤的功能。
[0103]作為本發(fā)明的一個(gè)實(shí)施例,在上述實(shí)施例的基礎(chǔ)上,所述閾值為90%。
[0104]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0105]本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0106]這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
[0107]這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0108]盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
【權(quán)利要求】
1.一種提高版式文檔中字符識(shí)別率的方法,其特征在于,包括如下步驟: 將所述版式文檔中同一個(gè)預(yù)定字符所對(duì)應(yīng)的字符原始編碼與字符通用標(biāo)準(zhǔn)編碼進(jìn)行比較得到編碼相同或者編碼不同的編碼比對(duì)結(jié)果; 將多個(gè)所述預(yù)定字符所對(duì)應(yīng)的所述編碼比對(duì)結(jié)果進(jìn)行概率統(tǒng)計(jì)得到所述預(yù)定字符采用字符通用標(biāo)準(zhǔn)編碼的概率值; 將所述概率值與閾值進(jìn)行比對(duì),若超過(guò)閾值,則所述預(yù)定字符按照其所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)所得到的字符并顯示;否則,直接顯示該所述預(yù)定字符通過(guò)OCR識(shí)別出的字符。
2.根據(jù)權(quán)利要求1所述的一種提高版式文檔中字符識(shí)別率的方法,其特征在于,在得到所述編碼比對(duì)結(jié)果的步驟前,還包括如下步驟: 提取所述版式文檔中的每個(gè)預(yù)定字符的字形位圖; 提取所述版式文檔中的每個(gè)所述預(yù)定字符的字符原始編碼; 對(duì)所述字形位圖進(jìn)行OCR識(shí)別后得到識(shí)別后字符; 對(duì)所述識(shí)別后字符對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到字符通用標(biāo)準(zhǔn)編碼。
3.根據(jù)權(quán)利要求2所述的一種提高版式文檔中字符識(shí)別率的方法,其特征在于,在提取所述字符原始編碼的步驟之前,還包括如下步驟: 將所述版式文檔中具有字符原始編碼的字符作為預(yù)定字符篩選出來(lái)。
4.根據(jù)權(quán)利要求3所述的一種提高版式文檔中字符識(shí)別率的方法,其特征在于,將所述版式文檔中具有字符原始編碼的字符作為預(yù)定字符篩選出來(lái)的步驟之后,還包括如下步驟: 為每個(gè)所述預(yù)定字符進(jìn)行ID編號(hào)。
5.根據(jù)權(quán)利要求4所述的一種提高版式文檔中字符識(shí)別率的方法,其特征在于,在提取所述版式文檔中的每個(gè)所述預(yù)定字符的字符原始編碼的步驟后,還包括如下步驟: 建立一個(gè)字符原始編碼表,將所述預(yù)定字符的ID與其相對(duì)應(yīng)的所述字符原始編碼存儲(chǔ)到所述字符原始編碼表中。
6.根據(jù)權(quán)利要求4或5所述的一種提高版式文檔中字符識(shí)別率的方法,其特征在于,在得到所述字符通用標(biāo)準(zhǔn)編碼的步驟后,還包括如下步驟: 建立一個(gè)字符標(biāo)準(zhǔn)編碼表,將所述預(yù)定字符的ID與其相對(duì)應(yīng)的所述字符標(biāo)準(zhǔn)編碼存儲(chǔ)到所述字符標(biāo)準(zhǔn)編碼表中。
7.根據(jù)權(quán)利要求1-6任一所述的一種提高版式文檔中字符識(shí)別率的方法,其特征在于,將所述概率值與閾值進(jìn)行比對(duì)并進(jìn)行相應(yīng)的操作之前,還包括如下步驟: 建立一個(gè)用于顯示、修改和確認(rèn)所述字符的可編輯界面。
8.一種提高版式文檔中字符識(shí)別率的系統(tǒng),其特征在于,包括編碼比對(duì)裝置、概率統(tǒng)計(jì)裝置和概率值、閾值比對(duì)裝置,其中, 所述編碼比對(duì)裝置,用于將所述版式文檔中同一個(gè)預(yù)定字符所對(duì)應(yīng)的字符原始編碼與字符通用標(biāo)準(zhǔn)編碼進(jìn)行比較得到編碼相同或者編碼不同的編碼比對(duì)結(jié)果; 所述概率統(tǒng)計(jì)裝置,用于將多個(gè)所述預(yù)定字符所對(duì)應(yīng)的所述編碼比對(duì)結(jié)果進(jìn)行概率統(tǒng)計(jì)得到所述預(yù)定字符采用字符通用標(biāo)準(zhǔn)編碼的概率值; 所述概率值、閾值比對(duì)裝置,用于將所述概率值與閾值進(jìn)行比對(duì),若超過(guò)閾值,則所述預(yù)定字符按照其所述字符原始編碼對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)所得到的字符并顯示;否則,直接顯示該所述預(yù)定字符通過(guò)OCR識(shí)別出的字符。
9.根據(jù)權(quán)利要求8所述的一種提高版式文檔中字符識(shí)別率的系統(tǒng),其特征在于,還包括字形位圖提取裝置、字符原始編碼提取裝置、OCR識(shí)別裝置和字符通用標(biāo)準(zhǔn)編碼對(duì)應(yīng)裝置,其中, 所述字形位圖提取裝置,用于提取所述版式文檔中的每個(gè)預(yù)定字符的字形位圖; 所述字符原始編碼提取裝置,用于提取所述版式文檔中的每個(gè)所述預(yù)定字符的字符原始編碼; 所述OCR識(shí)別裝置,用于對(duì)提取出的所述字形位圖進(jìn)行OCR識(shí)別后得到識(shí)別后字符; 所述字符通用標(biāo)準(zhǔn)編碼對(duì)應(yīng)裝置,用于對(duì)所述識(shí)別后字符對(duì)照通用標(biāo)準(zhǔn)字符編碼庫(kù)得到字符通用標(biāo)準(zhǔn)編碼。
10.根據(jù)權(quán)利要求9所述的一種提高版式文檔中字符識(shí)別率的系統(tǒng),其特征在于,還包括預(yù)定字符篩選裝置,所述預(yù)定字符篩選裝置用于將所述版式文檔中具有字符原始編碼的字符作為預(yù)定字符篩選出來(lái)。
【文檔編號(hào)】G06K9/03GK104463153SQ201310450972
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2013年9月25日 優(yōu)先權(quán)日:2013年9月25日
【發(fā)明者】董寧, 耿蕾蕾 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司