專利名稱:圖案列匹配裝置和圖案列匹配方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于文字識(shí)別裝置等的圖案列匹配裝置和圖案列匹配方法,該裝置和方法,例如,對(duì)由識(shí)別結(jié)果文字構(gòu)成的想要匹配的文字列等的第1文字列和被登錄在數(shù)據(jù)庫(kù)中的文字列等的第2文字列進(jìn)行匹配。
以往,在從圖象數(shù)據(jù)識(shí)別文字的文字識(shí)別裝置中,作為最終要得到文字識(shí)別結(jié)果的重要的處理,有圖案列匹配處理。該圖案列匹配處理,對(duì)作為由在文字識(shí)別中得到的文字候補(bǔ)構(gòu)成的想要匹配的文字列的第1文字列的候補(bǔ)與作為被登錄在數(shù)據(jù)庫(kù)(辭典)中的文字列的第2文字列的候補(bǔ)進(jìn)行匹配。由此,在圖案匹配處理中,確定從文字識(shí)別的結(jié)果得到的文字列是否和被登錄在數(shù)據(jù)庫(kù)中的某文字列最匹配。
當(dāng)進(jìn)行這種圖案列匹配處理的情況下,檢索文字列的候補(bǔ),根據(jù)在文字識(shí)別中得到的文字候補(bǔ),有各種各樣的組合。另外,對(duì)檢索文字列進(jìn)行匹配的辭典文字列也存在很多候補(bǔ)。
在以往的圖案列匹配處理中,有DP匹配法、采用投票法的匹配處理等。
在上述DP匹配法中,對(duì)構(gòu)成檢索文字列的候補(bǔ)的多個(gè)文字候補(bǔ)進(jìn)行一個(gè)循環(huán)檢索。但是,在上述DP匹配法中,如果使檢索文字列的識(shí)別文字的候補(bǔ)增加為1位、2位、3位,則檢索空間急劇增加,處理變得非常緩慢。
另外,采用投票法的匹配方法是,對(duì)于第2文字列的候補(bǔ)的各文字,對(duì)每個(gè)由識(shí)別結(jié)果的文字候補(bǔ)組成的第1文字列的各文字進(jìn)行投票,選擇得票率最高的第2文字列的候補(bǔ)。但是,在該方法中未考慮文字列的文字排列。因此,在構(gòu)成檢索文字列的文字相同,文字排列不同的情況下,看不出區(qū)別。特別是由于在羅馬字文化圈中文字種類少于26種,所以這種問(wèn)題更嚴(yán)重。
因此,如何高效率且正確地進(jìn)行多個(gè)文字列的候補(bǔ)和多個(gè)文字列的候補(bǔ)的匹配處理就是圖案列匹配處理的最大課題。即,期望“高速”并且“考慮文字的排列”的圖案列匹配處理。
另外,在圖案列匹配處理中,干擾是個(gè)問(wèn)題。例如,假設(shè)在構(gòu)成檢測(cè)文字列的文字的識(shí)別處理中,文字分離失敗,在檢索文字列中包含和單詞不同的文字列。這種情況下,盡管在檢索文字列中包含正確的文字列,但在DP匹配法等的以往的方法中不能匹配的現(xiàn)象很多。
另外,即使在投票法中進(jìn)行匹配后,也很難知道哪部分匹配,并且很難去掉干擾。
這樣,在匹配處理中,就期望“抗干擾性”高,“干擾位置的特定”高精度。
如上所述,就是期望高速并且高精度、考慮到文字排列的匹配處理,為此,本發(fā)明以提供可以高速并且高精度、考慮到文字排列的匹配處理的圖案列匹配裝置和圖案列匹配方法為目的。
另外,就是期望抗干擾性高,干擾的位置可以特定的匹配處理,為此,本發(fā)明以提供可以進(jìn)行抗干擾性高,干擾位置可以特定的匹配處理的圖案列匹配裝置和圖案列匹配方法為目的。
本發(fā)明的圖案列匹配裝置,在對(duì)分別由多個(gè)圖案組成的第1圖案列和第2圖案列進(jìn)行匹配處理的裝置中,包括投票單元和判定單元,其中的投票單元,在對(duì)上述第1圖案列的各圖案和上述第2圖案列的各圖案進(jìn)行匹配的情況下,根據(jù)匹配的圖案在上述第1圖案列中的位置,以及在上述第2圖案列中的位置進(jìn)行投票;其中的判定單元,根據(jù)該投票單元的投票結(jié)果,判定匹配結(jié)果。
本發(fā)明的圖案列匹配方法,在對(duì)由多個(gè)圖案組成的第1圖案列和第2圖案列的匹配處理的方法中,在對(duì)上述第1圖案列的各圖案和上述第2圖案列的各圖案進(jìn)行匹配的情況下,根據(jù)匹配的圖案在上述第1圖案列中的位置,以及在上述第2圖案列中的位置進(jìn)行投票,根據(jù)投票結(jié)果,判定匹配結(jié)果。
本發(fā)明的其它目的和優(yōu)點(diǎn)將通過(guò)以下的描述得以說(shuō)明,并且通過(guò)以下的實(shí)施例及其組合得以實(shí)現(xiàn)。
下面將根據(jù)附圖及實(shí)施例對(duì)本發(fā)明的原理進(jìn)行描述。
圖1是本發(fā)明的實(shí)施例的文字識(shí)別裝置的概略構(gòu)成的圖。
圖2是文字列匹配處理部分的概略構(gòu)成的方框圖。
圖3是矩陣的例子。
圖4是對(duì)矩陣投票例子的圖。
圖5是取矩陣的投影情況的例子的圖。
圖6是取矩陣的投影情況的例子的圖。
圖7是用于說(shuō)明不考慮干擾情況下的匹配處理的流程圖。
圖8是在檢索文字列之前帶有干擾的情況的投票例子的圖。
圖9用于說(shuō)明在檢索文字列的前后帶有干擾的情況下的匹配處理的流程圖。
圖10是在檢索文字列之間帶有干擾的情況下的投票例子的圖。
圖11是用于說(shuō)明在檢索文字列之間帶有干擾的情況下的匹配處理的流程圖。
圖12是文字列匹配處理部分的另一構(gòu)成例子的方框圖。
圖13是用于說(shuō)明對(duì)投票用的存儲(chǔ)器投票的圖。
圖14是用于說(shuō)明在對(duì)投票用的存儲(chǔ)器直接投票情況下的匹配處理的流程圖。
圖15是投票用表數(shù)據(jù)庫(kù)的例子的圖。
圖16-19是根據(jù)本發(fā)明進(jìn)行文字識(shí)別的實(shí)施例。
圖1是概略地展示本發(fā)明的實(shí)施例的文字識(shí)別裝置的全體構(gòu)成的圖。文字識(shí)別裝置由圖象輸入部分1、區(qū)域檢測(cè)部分2、行分離部分3、文字分離部分4、文字識(shí)別部分5,以及文字列匹配處理部分(圖案列匹配裝置)6構(gòu)成。
在上述圖象輸入部分1中,輸入圖象。上述區(qū)域檢測(cè)部分2,從由圖象輸入部分1輸入的圖象中檢測(cè)出記載有文字的區(qū)域。上述行分離部分3,從由區(qū)域檢測(cè)部分2檢測(cè)出的區(qū)域中分離出文字行。上述文字分離部分4,從由行分離部分3分離出的文字行中分離出每一文字候補(bǔ)。
上述文字識(shí)別部分5,對(duì)由文字分離部分4分離出的各文字候補(bǔ)進(jìn)行文字識(shí)別處理。在該文字識(shí)別處理中,比較文字(圖案)的圖象和被存儲(chǔ)在文字識(shí)別辭典5a中的文字(圖案),選擇出識(shí)別文字的候補(bǔ)。
上述文字列匹配處理部分6,進(jìn)行第1文字列和第2文字列的匹配處理。上述第1文字列,是根據(jù)由上述文字識(shí)別部分5選擇出的識(shí)別文字的候補(bǔ),選擇出單詞等的每一文字列的識(shí)別結(jié)果的文字列。上述第2文字列,是預(yù)先被登錄在數(shù)據(jù)庫(kù)(后述)中的文字列。但是,上述文字列匹配處理部分6,對(duì)從在文字識(shí)別中得到的文字候補(bǔ)中作為想要匹配的文字列的第1文字列和預(yù)先被登錄在數(shù)據(jù)流中的第2文字列進(jìn)行匹配處理。該文字列的匹配處理的結(jié)果,即第1文字列最匹配的第2文字列被作為識(shí)別結(jié)果輸出。
圖2是文字列匹配處理部分6的構(gòu)成的圖。如圖2所示,文字列匹配處理部分6由以下部分構(gòu)成匹配用文字列數(shù)據(jù)庫(kù)(文字列匹配用辭典)11、第2文字列輸入部分12、第2文字列存儲(chǔ)器13、第1文字列輸入部分14、第1文字列存儲(chǔ)器15、矩陣制成部分16、矩陣用存儲(chǔ)器17、比較投票部分18、投票結(jié)果計(jì)算部分10、計(jì)算值用存儲(chǔ)器20、匹配確定部分21、匹配結(jié)果輸出部分22、干擾消除部分23、鄰接計(jì)算部分24。
在上述匹配用文字列數(shù)據(jù)庫(kù)11中存儲(chǔ)著第2文字列的候補(bǔ)。
從匹配用文字列數(shù)據(jù)庫(kù)11向上述第2文字列輸入部分12輸入第2文字列(第2圖案列)的候補(bǔ)。被輸入的第2文字列,被存儲(chǔ)在上述第2文字列存儲(chǔ)器13中。
從由文字識(shí)別部分5得到的文字候補(bǔ)中向上述第1文字列輸入部分14輸入識(shí)別文字列(第1圖案列)。該被輸入的第1文字列,被存儲(chǔ)在第1文字列存儲(chǔ)器15中。
上述矩陣制成部分16,在矩陣用存儲(chǔ)器17中制成與上述第2文字列和第1文字列對(duì)應(yīng)的矩陣。該矩陣被制成如下形式,即在矩陣用存儲(chǔ)器17上把上述第2文字列的各文字(圖案)排列成1行作為橫軸,把上述第1文字列的各文字(圖案)排列成1列作為縱軸。即,當(dāng)構(gòu)成上述第1文字列的文字?jǐn)?shù)是m個(gè),構(gòu)成上述第2文字列的文字?jǐn)?shù)是n個(gè)的情況下,m行n列的矩陣被制成在矩陣用存儲(chǔ)器17中。
例如,如圖3所示,當(dāng)對(duì)于被稱為“STRING”的第1文字列,匹配處理被稱為“STRING”的第2文字列的情況下,在矩陣用存儲(chǔ)器17中,制成由與作為第1文字列的STRING的各文字對(duì)應(yīng)的行,和與作為第2文字列的STRING的各文字對(duì)應(yīng)的列組成的6行6列的矩陣。
上述比較投票部分18,比較第2文字列的各文字和第1文字列的各文字,判定比較后的文字是否匹配。進(jìn)而,當(dāng)比較后的文字匹配的情況下,比較投票部分18,對(duì)在上述矩陣用存儲(chǔ)器17上的用于矩陣匹配的與第2文字列的文字和第1文字列的文字對(duì)應(yīng)的行和列交叉的位置進(jìn)行投票。另外,在該投票中,也可以用與第1文字列的文字的相似度等對(duì)應(yīng)的值進(jìn)行投票。
例如,如圖4所示,當(dāng)相對(duì)于第2文字列“STRING”來(lái)匹配處理第1文字列“STRING”的情況下,相對(duì)于第2文字列的“S”匹配第1文字列的“S”。因此,比較投票部分18,投票于矩陣的第1行第1列。進(jìn)而,比較投票部分18,對(duì)于第2文字列的“T”、“R”、“I”、“N”、“G”的各文字,也在第1文字列的匹配的文字交叉的位置,即,第2行第2列、第3行第3列、第4行第4列、第5行第5列、第6行第6列處分別進(jìn)行投票。
上述投票結(jié)果計(jì)算部分19,對(duì)由比較投票部分18投票后的矩陣的傾斜方向進(jìn)行計(jì)算。在該投票結(jié)果計(jì)算部分19中,用矩陣的傾斜方向的各要素進(jìn)行規(guī)定的計(jì)算。例如,投票結(jié)果計(jì)算部分19,在由比較投票部分18對(duì)矩陣進(jìn)行投票后,對(duì)于矩陣的行在傾斜45度方向上的每一投影部分進(jìn)行規(guī)定的計(jì)算,把計(jì)算值存儲(chǔ)在計(jì)算值用存儲(chǔ)器20中。
另外,投票結(jié)果計(jì)算部分19,在把計(jì)算值存儲(chǔ)在計(jì)算值用存儲(chǔ)器20中時(shí),制成用于把計(jì)算值存儲(chǔ)在計(jì)算值用存儲(chǔ)器20中的線段。該線段,如果假設(shè)第1文字列的長(zhǎng)度(第1文字列的文字?jǐn)?shù))為SEARCHLEN,第2文字列的長(zhǎng)度(第2文字列的文字?jǐn)?shù))為DICLEN,則其長(zhǎng)度(計(jì)算值的數(shù))為DICLEN+SEARCHLEN-1。該線段,在第1文字列和第2文字列是同一長(zhǎng)度(文字?jǐn)?shù))的情況下,與從矩陣的左下到右上的對(duì)角線方向的線段對(duì)應(yīng)。在該線段上,存儲(chǔ)在矩陣的右傾斜下方的投票結(jié)果的計(jì)算值。
上述匹配確定部分21,根據(jù)被存儲(chǔ)在計(jì)算值用存儲(chǔ)器20中的計(jì)算值判斷表示第2文字列和第1文字列匹配程度的得分。進(jìn)而,匹配確定部分21,根據(jù)判斷的得分確定第2文字列和第1文字列是否匹配,由匹配結(jié)果輸出部分22輸出匹配結(jié)果。
上述干擾消除部分23,如后所述,在判斷為在第1文字列上帶有干擾時(shí),從第1文字列中消除干擾。
上述鄰接計(jì)算部分24,如后所述,當(dāng)在第1文字列之間帶有干擾時(shí),對(duì)于在被存儲(chǔ)在計(jì)算用存儲(chǔ)器20中的計(jì)算值中的峰值位置的值,和與峰值位置相鄰的位置的值進(jìn)行計(jì)算。
以下,說(shuō)明作為對(duì)矩陣的投票結(jié)果的計(jì)算值。
當(dāng)相對(duì)于第2文字列第1文字列的各文字是相同的位置并且完全一致的情況下,在矩陣中,只對(duì)于n行n列的成分投票。因而,如果投票結(jié)果計(jì)算部分19在矩陣的傾斜方向上進(jìn)行計(jì)算,則在計(jì)算值用存儲(chǔ)器20上,存儲(chǔ)只在線段中間位置上大值的計(jì)算值。
例如,如圖5所示,在第2文字列“STRING”和第1文字列“STRING”的情況下,第2文字列的文字和第1文字列的文字位置相同并且完全一致。因而,在矩陣上,只對(duì)1行1列、2行2列、3行3列、4行4列、5行5列、6行6列的成分投票。因此,如果投票結(jié)果計(jì)算部分19對(duì)從矩陣的左上向右下方向(傾斜方向)的成分進(jìn)行計(jì)算,則投票結(jié)果的計(jì)算值,只在線段的中央位置增大。例如,是如圖5所示的第2文字列和第1文字列的情況下,如果把各自的投票數(shù)設(shè)置為1,取矩陣的傾斜方向的投影,則投票結(jié)果的計(jì)算值,在線段的中間位置上為6。該值和第2文字列的長(zhǎng)度相同。
另外,即使第2文字列的各文字和第1文字列的各文字一致,當(dāng)?shù)?文字列的各文字的位置,和第2文字列的各文字的位置不同時(shí),在計(jì)算存儲(chǔ)器20中的線段,并不是只中間位置的計(jì)算值增大。
例如,如圖6所示,當(dāng)在第2文字列“STRING”和第1文字列“GNIRTS”的情況下,雖然第2文字列的各文字和第1文字列的各文字一致,但第1文字列的各文字的位置,和第2文字列的各文字的位置不同。因而,在矩陣中,根據(jù)6行2列、5行2列、4行3列、3行4列、2行5列、1行6列的成分投票。因此,如果投票結(jié)果計(jì)算部分19對(duì)從矩陣的左上到右下方向(傾斜方向)的成分進(jìn)行計(jì)算,則投票結(jié)果的計(jì)算值,分布與線段全體上。
總之,在圖6中,例如,在圖6所示的情況下,如果取矩陣的傾斜方向的投影,則投票結(jié)果的計(jì)算值,并不集中在線段的中間位置,而是在線段的全體上廣泛分布計(jì)算值。
接著,不考慮干擾,說(shuō)明使用矩陣進(jìn)行匹配處理的情況。進(jìn)而,在以下的說(shuō)明中,作為與投票結(jié)果有關(guān)的矩陣的傾斜方向中的計(jì)算例子,說(shuō)明取投票數(shù)的投影的情況。
當(dāng)在第1文字列中不包含干擾的情況下,一致的第1文字列的長(zhǎng)度(文字?jǐn)?shù))SEARCHLEN和第2文字列的長(zhǎng)度(文字?jǐn)?shù))DICLEN是相同的長(zhǎng)度(文字?jǐn)?shù))。這種情況下,該投票結(jié)果計(jì)算部分19,把長(zhǎng)度(數(shù))是DICLEN+SEARCHLEN-1的線段制成在計(jì)算值用存儲(chǔ)器20內(nèi)。
該線段(投影部分),對(duì)應(yīng)于從矩陣的左下向右上的對(duì)角線方向的各成分。投票結(jié)果計(jì)算部分19,在制成在計(jì)算值用存儲(chǔ)器20內(nèi)的線段上,對(duì)每個(gè)右傾斜下方向的各成分進(jìn)行投票結(jié)果的計(jì)算。
另外,當(dāng)?shù)?文字列的前后不帶干擾時(shí),如果把投影線段的長(zhǎng)度設(shè)置成PROJLEN,則是PROJLEN=DICLEN+SEARCHLEN-1。這種情況下,在投影線段的峰值位置的兩側(cè),有DICLEN-1個(gè)塊(存儲(chǔ)計(jì)算值的位置)。
接著,如上所述,不考慮干擾,參照?qǐng)D7所示的流程圖說(shuō)明使用矩陣的匹配處理。
即,第1文字列輸入部分14,輸入第1文字列(步驟1),將其存儲(chǔ)在第1文字列存儲(chǔ)器15中。另一方面,第2文字列輸入部分12,從匹配用文字列數(shù)據(jù)庫(kù)11輸入第2文字列(步驟2),將其存儲(chǔ)在第2文字列存儲(chǔ)器13中。于是,矩陣制成部分16,在矩陣用存儲(chǔ)器17上,以第2文字列為橫軸,以第1文字列為縱軸制成矩陣(步驟3)。這樣制成的矩陣,由與第1文字列的各文字對(duì)應(yīng)的行,和與第2文字列的各文字對(duì)應(yīng)的列構(gòu)成。
如果制成矩陣,則比較投票部分18,判斷相對(duì)于第2文字列的各文字第1文字列的各文字是否匹配。即,如果把第1文字列的文字?jǐn)?shù)設(shè)為m,把第2文字列的文字?jǐn)?shù)設(shè)為n,則比較投票部分18,順序判斷第1文字列的第i(i=1~m)個(gè)文字和第2文字列的第j(j=1~n)個(gè)文字是否匹配(步驟4)。
當(dāng)通過(guò)該判斷判斷為第1文字列的第i個(gè)文字和第2文字列的第j文字匹配時(shí),比較投票部分18,對(duì)矩陣用存儲(chǔ)器17上的矩陣的i行、j列的成分進(jìn)行投票(步驟5)。
該投票,在第1文字列的文字識(shí)別中的識(shí)別文字的候補(bǔ)有多個(gè)的情況下,可以在文字列的候補(bǔ)中某一個(gè)一致的情況下進(jìn)行投票。另外,也可以投票根據(jù)第1文字列的文字識(shí)別中的識(shí)別文字的候補(bǔ)的優(yōu)先順序,或者識(shí)別文字的相似度加權(quán)后的數(shù)值。另外,也可以在第1文字列的文字識(shí)別中的識(shí)別文字的相似度在規(guī)定的基準(zhǔn)值以下的情況下不投票。
在這樣的投票后,或者在上述步驟3中判斷為不匹配的情況下,判斷是否還有未比較的文字的組合(步驟6)。通過(guò)該比較當(dāng)判斷為還有未比較的文字的組合的情況下,返回上述步驟4再次處理。
當(dāng)判斷出全部的文字都已比較完的情況下,投票結(jié)果比較部分19,在作為投票結(jié)果得到的矩陣的傾斜方向上進(jìn)行規(guī)定的計(jì)算(步驟7)。這時(shí),投票結(jié)果計(jì)算部分19,在計(jì)算值用存儲(chǔ)器20中制成與矩陣的傾斜方向的成分對(duì)應(yīng)的長(zhǎng)度(數(shù))的線段。在被制成在該計(jì)算值用存儲(chǔ)器20中的線段上,存儲(chǔ)計(jì)算結(jié)果。
如果投票結(jié)果的計(jì)算值被存儲(chǔ)在計(jì)算值用存儲(chǔ)器20中,則匹配確定部分21,根據(jù)存儲(chǔ)在計(jì)算值用存儲(chǔ)器20中的值算出表示第2文字列和第1文字列匹配的程度的得分。
例如,在匹配確定部分21中得到的得分,被作為相似度算出。這種情況下,用第2文字列的長(zhǎng)度,或者第1文字列的長(zhǎng)度正規(guī)化被存儲(chǔ)在計(jì)算值用存儲(chǔ)器20中的值的峰值,把該正規(guī)化后的峰值值作為文字列的匹配的相似度。該相似度,在第2文字列和第1文字列越接近時(shí)越高。
匹配確定部分21,判斷基于被存儲(chǔ)在計(jì)算用存儲(chǔ)器20中的值的峰值值的得分是否是高得分(步驟8)。是否是高得分的判斷,可以根據(jù)是否在規(guī)定的得分以上判斷,也可以根據(jù)和其它的第2文字列的候補(bǔ)的匹配的得分的比較結(jié)果判斷。
當(dāng)通過(guò)上述判斷判斷為是高得分的情況下,匹配確定部分21,判斷為第1文字列和第2文字列匹配,并輸出匹配結(jié)果(步驟9)。
另外,當(dāng)匹配確定部分21判斷為非高得分的情況下,改變第2文字列返回上述步驟2,再次執(zhí)行處理。
如上所述,對(duì)把第2文字列和第1文字列作為兩條邊的矩陣進(jìn)行投票,進(jìn)行投票后的矩陣傾斜方向的計(jì)算。根據(jù)該計(jì)算結(jié)果的峰值的得分判斷是否匹配。
由此,可以通過(guò)簡(jiǎn)單的投票進(jìn)行考慮了文字列的排列的匹配處理,可以防止在第1文字列的各文字的位置和第2文字列的各文字的位置不同的情況下判定為匹配的現(xiàn)象。
接著,說(shuō)明在第1文字列的前后帶有干擾的情況下使用矩陣的匹配處理。
圖8是用于說(shuō)明對(duì)在文字列“STRING”之前帶有稱為“IT”的2個(gè)文字程度的干擾的第1文字列的匹配處理的圖。即,圖8展示,在第1文字列是“ITSTRING”、第2文字列是“STRING”的情況下,被制成的矩陣、對(duì)矩陣的投票結(jié)果,以及匹配的投影結(jié)果。
這種情況下,因?yàn)榈?文字列和第1文字列的長(zhǎng)度不同,所以矩陣制成部分16,在矩陣用存儲(chǔ)器17上制成與第1文字列對(duì)應(yīng)的縱邊長(zhǎng)(與列數(shù)相比行數(shù)多)的矩陣。
作為這樣的第1文字列“ITSTRING”的干擾的“I”以及“T”,和第2文字列“STRING”的“I”以及“T”匹配。因此,比較投票部分18,在矩陣中,在與作為第1文字列的干擾的“I”以及“T”對(duì)應(yīng)的行,和與第2文字列的“I”以及“T”對(duì)應(yīng)的列交叉的矩陣位置上進(jìn)行投票。
矩陣制成部分16對(duì)應(yīng)第1文字列“ITSTRING”和第2文字列“STRING”制成的矩陣,為8行6列,行數(shù)比列數(shù)多。因此,在計(jì)算用存儲(chǔ)器20上,如圖8所示,制成長(zhǎng)度(數(shù))是DICLEN+SEARCHLEN-1=13的線段。被存儲(chǔ)在該線段上的值,對(duì)應(yīng)相對(duì)于矩陣的行方向45度的線段的投影成分的計(jì)算值。例如,如圖8所示,在取矩陣投影的情況下,投影結(jié)果計(jì)算部分19,對(duì)通過(guò)第8行第1列和第3行第6列的方向的成分計(jì)算線段的投影。
在這樣制成于計(jì)算用存儲(chǔ)器20上的線段上,存儲(chǔ)相對(duì)于矩陣的右傾斜下方向的成分的投票結(jié)果的計(jì)算值。根據(jù)被存儲(chǔ)在該計(jì)算值用存儲(chǔ)器20中的值,可以得到峰值的位置離開(kāi)線段中心的值。這是因?yàn)?,由于稱為干擾的文字的長(zhǎng)度(文字?jǐn)?shù))附在第1文字列上所以第1文字列的長(zhǎng)度比第2文字列的長(zhǎng)度長(zhǎng),相當(dāng)于干擾的部分出現(xiàn)在作為投票結(jié)果的計(jì)算值的線段上的緣故。因而,對(duì)前后有干擾的第1文字列和第2文字列進(jìn)行匹配的情況下,可以根據(jù)投票結(jié)果的計(jì)算值判斷被包含在第1文字列中的干擾。
即,在作為投票結(jié)果的計(jì)算值的線段中根據(jù)從峰值的位置到兩端的長(zhǎng)度,就可以判斷干擾在第1文字列的前后的哪一邊,有幾個(gè)。
當(dāng)在作為投票結(jié)果的計(jì)算值的線段中從峰值位置到左端部分的長(zhǎng)度比(DICLEN-1)長(zhǎng)的情況下,判斷為干擾附在第1文字列的前面。另外,當(dāng)從峰值位置到右端的長(zhǎng)度比(DICLEN-1)長(zhǎng)的情況下,判斷為干擾附在第1文字列的后面。
例如,當(dāng)作為投票結(jié)果的計(jì)算值取矩陣的傾斜方向的投影的情況下,如果假設(shè)投影線段的長(zhǎng)度是PROJLEN、從投影線段的左下到峰值位置的長(zhǎng)度是PEAKLEN、第2文字列的長(zhǎng)度是DICLEN時(shí),附在第1文字列的前面的干擾的數(shù)NHEAD為NHEAD=PROJLEN-PEAKLEN-(DICLEN-1)另外,附在第1文字列后面的干擾的數(shù)NTAIL為NTAIL=(PEAKLEN-1)-(DICLEN-1)如上所述,當(dāng)在第1文字列的前后附有干擾時(shí),根據(jù)作為投票結(jié)果的計(jì)算值的線段的從峰值的位置到端部的長(zhǎng)度就可以判斷干擾的數(shù)。另外,長(zhǎng)度比(DICLEN-1)長(zhǎng)的一方根據(jù)從峰值的位置向右端還是向左端就可以判斷干擾是附在第1文字列的前面還是附在后面。
接著,如上所述,參照?qǐng)D9的流程圖說(shuō)明在第1文字列的前后附有干擾情況下的匹配處理。
即,和上述步驟1~步驟8一樣,第1文字列輸入部分14,以及第2文字列輸入部分12,把第1文字列、第2文字列存儲(chǔ)在第1文字列存儲(chǔ)器15、第2文字列存儲(chǔ)器13中(步驟11、12)。矩陣制成部分16,在矩陣用存儲(chǔ)器17中以第2文字列為橫軸,以第1文字列為縱軸制成矩陣(步驟13)。
而后,比較投票部分18,對(duì)于各文字,判斷第2文字列的文字和第1文字列的文字各文字是否匹配,在匹配的情況下,對(duì)矩陣進(jìn)行投票(步驟14、15、16)。
如果有關(guān)全部的文字的組合的比較結(jié)束,則投票結(jié)果計(jì)算部分19,根據(jù)投票結(jié)果的矩陣進(jìn)行傾斜方向的計(jì)算(步驟17)。該計(jì)算值,被存儲(chǔ)在被制成在計(jì)算用存儲(chǔ)器20中的線段上。根據(jù)被存儲(chǔ)在該計(jì)算值用存儲(chǔ)器20中的計(jì)算值,匹配確定部分21,判斷基于峰值的得分是否是高得分(步驟18)。通過(guò)該判斷當(dāng)判斷為基于峰值的得分不是高得分的情況下,改變第2文字列返回上述步驟12,再次執(zhí)行處理。
另外,當(dāng)判斷為基于峰值的得分是高得分的情況下,干擾消除部分23,分別計(jì)數(shù)從被存儲(chǔ)在計(jì)算值存儲(chǔ)器20中的作為計(jì)算值的線段的峰值位置到右端以及到左端的長(zhǎng)度。干擾消除部分23,根據(jù)是否比這樣計(jì)數(shù)的“長(zhǎng)度是辭典文字列的長(zhǎng)度-1(DICLEN-1)”長(zhǎng),判斷在第1文字列的前后是否有多余的干擾(與干擾對(duì)應(yīng)的線段上的計(jì)算值)(步驟19)??傊?,當(dāng)兩端距峰值位置的長(zhǎng)度都是DICLEN-1的情況下,判斷為沒(méi)有多余的干擾,當(dāng)距峰值位置的長(zhǎng)度比DICLEN-1長(zhǎng)的情況下,判斷為有多余的干擾。
當(dāng)通過(guò)該判斷判斷為沒(méi)有多余的干擾的情況下,干擾消除部分23,輸出由匹配確定部分21確定的匹配結(jié)果(步驟20)。
另外,當(dāng)判斷為有多余的干擾的情況下,干擾消除部分23,只根據(jù)多余干擾的數(shù),從第1文字列的前面或者后面消除多余的干擾文字(步驟21),并作為匹配結(jié)果輸出(步驟22)。這時(shí),干擾消除部分23,從距峰值位置的長(zhǎng)度比DICLEN-1長(zhǎng)的一端,只將比DICLEN-1長(zhǎng)的部分作為干擾消除。由此,就可以消除附在第1文字列的前面或者后面的干擾。
如上所述,在與第1文字列和第2文字列對(duì)應(yīng)矩陣中對(duì)相同文字交叉的位置上進(jìn)行投票,進(jìn)行傾斜方向的計(jì)算。根據(jù)該計(jì)算結(jié)果判斷峰值的位置,根據(jù)峰值判斷匹配的結(jié)果。進(jìn)而,根據(jù)從峰值位置到右端或者左端的長(zhǎng)度是否比“第2文字列的長(zhǎng)度-1”長(zhǎng)判斷干擾的有無(wú)。
由此,即使在第1文字列中包含有干擾,也可以實(shí)現(xiàn)高精度的匹配處理,可以判定第1文字列的干擾的有無(wú)。
另外,在判斷為有干擾時(shí),判定為從投影的峰值位置到投影的2端的長(zhǎng)度(數(shù))中,在比“第2文字列的長(zhǎng)度-1”長(zhǎng)的一方中包含有干擾,從距峰值位置的長(zhǎng)度長(zhǎng)的一端,只將長(zhǎng)度長(zhǎng)的部分判斷為干擾并消除。
由此,作為匹配的結(jié)果可以輸出消除了干擾的文字列,可以提高匹配的精度。
接著,說(shuō)明在第1文字列中包含干擾的情況下的使用矩陣的匹配處理。
圖10是用于說(shuō)明在文字列“STRING”之間帶有叫做“N”的干擾的第1文字列的情況下的匹配處理的圖。即,圖1O,展示在第1文字列是“STNRING”、第2文字列是“STRING”的情況下的矩陣、向矩陣的投票結(jié)果,以及投票結(jié)果的計(jì)算值。
這種情況下,因?yàn)榈?文字列和第1文字列的長(zhǎng)度不同,所以矩陣制成部分16,和在第1文字列的前后附有干擾的情況一樣,在矩陣用存儲(chǔ)器17中制成與第1文字列對(duì)應(yīng)的行比與第2文字列對(duì)應(yīng)的列多的矩陣。
作為這樣的第1文字列“STNRING”的干擾的“N”,在第2文字列“STRING”中和“N”匹配。因此,比較投票部分18,在與第1文字列的“N”對(duì)應(yīng)的行和與第2文字列的“N”對(duì)應(yīng)的列交叉的矩陣的位置上進(jìn)行投票。
這種情況下,矩陣如圖10所示,為7行6列。因此,在計(jì)算用存儲(chǔ)器20中,制成長(zhǎng)度為DICLEN+SEARCHLEN-1=12的線段。被存儲(chǔ)在該線段中的值,對(duì)應(yīng)于相對(duì)矩陣的行方向45度的線段方向的投影成分的計(jì)算值。例如,如圖10所示,當(dāng)取矩陣的投影的情況下,投票結(jié)果計(jì)算部分19,對(duì)通過(guò)第7行第1列和第2行第6列的方向的成分計(jì)算線段的投影。
在這樣制成于計(jì)算值用存儲(chǔ)器20中的線段上,存儲(chǔ)相對(duì)于矩陣的右傾斜下方向的投票結(jié)果的計(jì)算值。例如,在把投票值設(shè)置為1,取矩陣的投影的情況下,如圖10所示,在計(jì)算值用存儲(chǔ)器20中,得到峰值位置的投票數(shù)(峰值)是4的計(jì)算結(jié)果。該峰值,不夠作為辭典文字列的長(zhǎng)度(數(shù))的6。這是因?yàn)樵诟接诘?文字列之間的干擾的前后,投影的線段上的位置移動(dòng)了1個(gè)的緣故。
另外,在圖10所示的例子中,與干擾后的文字列對(duì)應(yīng)的部分的峰值為4,與對(duì)應(yīng)于干擾前面的部分的峰值位置相鄰的右上位置的投票數(shù)表示為2。因此,將峰值位置的投票數(shù)和與峰值位置相鄰的位置投票數(shù)相加的值,與第1文字列和第2文字完全匹配時(shí)的投票數(shù)(辭典文字列的文字列數(shù))一致。
即,當(dāng)只允許包含在第1文字列之間的干擾為1個(gè)的情況下,鄰接計(jì)算部分24,通過(guò)在投票結(jié)果的計(jì)算值的線段中根據(jù)與峰值位置的計(jì)算值和與峰值位置相鄰的位置的計(jì)算值進(jìn)行規(guī)定的計(jì)算(再計(jì)算)。當(dāng)該相鄰位置的計(jì)算值是高得分的情況下,判斷為第1文字列和第2文字列匹配。這時(shí),判斷為在第1文字列之間夾著1個(gè)干擾。
例如,如圖10所示,當(dāng)作為投票結(jié)果的計(jì)算值取矩陣的投影的情況下,如果只允許一個(gè)包含在第1文字列之間的干擾,則加算峰值位置的投票數(shù)4和相鄰的位置的投票數(shù)2。由此,峰值位置和與峰值位置相鄰的位置的投票數(shù)為6與第2文字列的文字?jǐn)?shù)一致。
另外,當(dāng)增加包含在第1文字列之間的干擾數(shù)的允許范圍的情況下,鄰接計(jì)算部分24,根據(jù)峰值位置附近的位置計(jì)算值,只對(duì)允許范圍的干擾部分進(jìn)行規(guī)定的再計(jì)算。由此,可以在考慮文字列的排列的同時(shí),進(jìn)行與允許的干擾數(shù)對(duì)應(yīng)的匹配處理。
如上所述,當(dāng)只允許規(guī)定的數(shù)的干擾包含在第1文字列之間的干擾的情況下,根據(jù)允許的干擾的數(shù),對(duì)作為投票結(jié)果的計(jì)算值的線段的峰值位置和峰值位置附近的位置的值進(jìn)行再計(jì)算,根據(jù)該計(jì)算值判定匹配。
由此,即使在第1文字列之間包含干擾的情況下,也可以實(shí)現(xiàn)考慮了文字列排列的高精度的匹配處理。
接著,如上所述,參照?qǐng)D11的流程圖說(shuō)明在第1文字列之間附有干擾的情況下的匹配處理。
即,和上述步驟1~步驟8一樣,第1文字列輸入部分14,以及第2文字列輸入部分12,把第1文字列、第2文字列存儲(chǔ)在第1文字列存儲(chǔ)器15、第2文字列存儲(chǔ)器13中(步驟31、32)。矩陣制成部分16,在矩陣用存儲(chǔ)器17上以第2文字列作為橫軸,以第1文字列為縱軸制成矩陣(步驟33)。
而后,比較投票部分18,對(duì)各文字,判斷第2文字列的文字和第1文字列的文字和各文字是否匹配,在匹配的情況下,對(duì)矩陣進(jìn)行投票(步驟34、35、36)。
如果有關(guān)全部文字組合的比較結(jié)束,則投票結(jié)果計(jì)算部分19,根據(jù)投票結(jié)果的矩陣進(jìn)行傾斜方向的計(jì)算(步驟37)。該計(jì)算值,被存儲(chǔ)制成于計(jì)算用存儲(chǔ)器20中的線段中。根據(jù)被存儲(chǔ)在該計(jì)算值用存儲(chǔ)器20中的計(jì)算值,匹配確定部分21,判斷基于峰值的得分是否是高得分(步驟38)。
當(dāng)通過(guò)該判斷判斷為是基于峰值的得分是高得分的情況下,匹配確定部分21,輸出匹配結(jié)果(步驟39)。
另外,當(dāng)判斷為基于峰值的得分不是高得分的情況下,鄰接計(jì)算部分24,根據(jù)峰值位置和鄰接的位置的值進(jìn)行規(guī)定的計(jì)算(再計(jì)算)(步驟40)。由此,匹配確定部分21,判斷再次計(jì)算后的計(jì)算值是否是高得分(步驟41)。當(dāng)通過(guò)該判斷判斷為不是高得分的情況下,改變第2文字列返回上述步驟32,再次執(zhí)行處理。
另外,當(dāng)再次計(jì)算峰值位置和相鄰的位置的值的計(jì)算值是高得分的情況下,匹配確定部分21,輸出第1文字列和第2文字列匹配這一匹配結(jié)果。與此同時(shí),匹配確定部分21,輸出在第1文字列中包含干擾的結(jié)果(步驟42)。
進(jìn)而,如上述那樣當(dāng)根據(jù)峰值位置和相鄰的位置的值進(jìn)行的再計(jì)算后判定為匹配的情況下,還可以判斷包含在第1文字列中的干擾的位置。這種情況下,把未在峰值位置或者成為再計(jì)算的對(duì)象的峰值位置和相鄰的位置上投票的文字判定為干擾。
如上所述,在第1文字列和第2文字列對(duì)應(yīng)的矩陣中在相同的文字交叉的位置進(jìn)行投票,計(jì)算在傾斜方向上的投票結(jié)果。根據(jù)作為該計(jì)算結(jié)果的線段判斷峰值位置,根據(jù)峰值位置的值判定匹配的結(jié)果。通過(guò)該判定結(jié)果當(dāng)未顯示峰值位置的值匹配的情況下,根據(jù)峰值位置的值和與峰值位置相鄰的位置的值進(jìn)行再計(jì)算,根據(jù)該再計(jì)算的值判定匹配的結(jié)果。
由此,即使在第1文字列之間包含干擾的情況下,也可以實(shí)現(xiàn)高精度的匹配處理,可以判定第1文字列的干擾的有無(wú)。
接著,說(shuō)明不對(duì)矩陣投票,直接對(duì)存儲(chǔ)投票結(jié)果的計(jì)算值的線段投票的情況。
圖12是概略地展示直接向存儲(chǔ)投票結(jié)果的計(jì)算值的線段投票的情況下的文字列匹配處理部分30的構(gòu)成的圖。
如圖12所示,文字列匹配處理部分30,由第1文字列輸入部分14、第1文字列存儲(chǔ)器15、投票用表數(shù)據(jù)庫(kù)31、投票部分32、投票用存儲(chǔ)器33、匹配確定部分21、匹配結(jié)果輸出部分22、干擾消除部分23、鄰接計(jì)算部分24構(gòu)成。
上述投票用表數(shù)據(jù)庫(kù)31,存儲(chǔ)有辭典文字列。
上述投票部分32,根據(jù)被存儲(chǔ)在上述第1文字列存儲(chǔ)器15中的第1文字列和上述投票用表數(shù)據(jù)庫(kù)31的第2文字列,對(duì)投票用存儲(chǔ)器33投票。
接著,說(shuō)明由上述那樣構(gòu)成的文字列匹配處理部分30進(jìn)行的匹配處理。該文字列匹配處理部分30,不制成矩陣,而根據(jù)第1文字列的各文字和第2文字列的各文字的位置關(guān)系直接對(duì)投票用存儲(chǔ)器33投票,判定匹配結(jié)果。
在上述投票用存儲(chǔ)器33中,制成與第1文字列的長(zhǎng)度(文字?jǐn)?shù))以及第2文字列的長(zhǎng)度(文字?jǐn)?shù))對(duì)應(yīng)的長(zhǎng)度(數(shù))的線段。被制成在該投票用存儲(chǔ)器33中的線段,是與以第1文字列為橫軸、以第2文字列為縱軸的矩陣的向右傾斜下方向的成分對(duì)應(yīng)的長(zhǎng)度。在該投票用存儲(chǔ)器33上的線段,矩陣的傾斜方向的成分分別被投票在對(duì)應(yīng)的位置上。
在矩陣的對(duì)角線方向的位置對(duì)應(yīng)的投票用存儲(chǔ)器33上的線段上,累積投票的值。這時(shí),被累積在線段上的值,在每次投票時(shí)由投票部分32進(jìn)行規(guī)定的計(jì)算后被存儲(chǔ)在投票用存儲(chǔ)器33上。其結(jié)果,在投票結(jié)束時(shí),不通過(guò)向矩陣投票,就可以在投票用存儲(chǔ)器33上,直接得到相當(dāng)于作為對(duì)上述矩陣的投票結(jié)果的在上述計(jì)算值用存儲(chǔ)器22上的投票結(jié)果的計(jì)算值的線段的部分。
在此,當(dāng)設(shè)第1文字列的長(zhǎng)度為SEARCHLEN、第2文字列的長(zhǎng)度為DICLEN的情況下,以第1文字列為橫軸、以第2文字列為縱軸的矩陣的右傾斜向下方向的成分,是SEARCHLEN+DICLEN-1個(gè)。因此,在投票用存儲(chǔ)器33上,準(zhǔn)備SEARCHLEN+DICLEN-1個(gè)長(zhǎng)度的投票位置。
在第1文字列的第SEARCHP的文字和第2文字列的第DICP的文字匹配的情況下,向投票用存儲(chǔ)器33投票的位置POS是POS=(SEARCHP-DICP)+(DICLEN-1)該投票的位置POS,成為以第1文字列為橫軸、以第2文字列為縱軸的矩陣的SEARCHP行DICP列的成分對(duì)應(yīng)的投票用存儲(chǔ)器33上的位置。
例如,當(dāng)匹配處理第1文字列“STRING”和第2文字列“STRING”的情況下,在投票用存儲(chǔ)器33上,準(zhǔn)備作為SEARCHLEN+DICLEN-1=11個(gè)長(zhǎng)度的投票位置的線段。
如果把該投票用存儲(chǔ)器33的投票位置如圖13所示,設(shè)置成從右開(kāi)始0、1、2、……、10,則在第1文字列的第i個(gè)文字和第2文字列的第j個(gè)文字是相同的文字的情況下,對(duì)投票用存儲(chǔ)器33的第(j-i)+(DICLEN-1)的投票位置進(jìn)行投票。
例如,作為第1文字列的第2文字的“T”和作為第2文字列的第2號(hào)的“T”匹配。這種情況下,在投票用存儲(chǔ)器33的第POS=(2-2)+(6-1)=5位置上投票。
圖14是用于說(shuō)明在作為投影線段的投影用存儲(chǔ)器33上直接進(jìn)行投票的情況下的匹配處理的流程圖。
即,第1文字列輸入部分14,輸入第1文字列(步驟51),將其存儲(chǔ)在第1文字列存儲(chǔ)器15中。另一方面,第2文字列輸入部分12,從匹配用文字列數(shù)據(jù)庫(kù)11中輸入第2文字列(步驟52),將其存儲(chǔ)在第2文字列存儲(chǔ)器13中。
而后,如果設(shè)第1文字列的文字?jǐn)?shù)為m,設(shè)第2文字列的文字?jǐn)?shù)為n,則投票部分32,判斷第1文字列的第i(i=1~m)個(gè)的文字和第2文字列的第j(j=1~n)個(gè)文字是否是相同的文字(步驟53)。這時(shí),投票部分32,在投票用存儲(chǔ)器33中設(shè)備m+n-1個(gè)長(zhǎng)度的投票位置。
投票部分32,在判斷為第1文字列的第i個(gè)文字和第2文字列的第j個(gè)文字是相同的文字時(shí),根據(jù)上式,在POS=(i-j)+(n-1)所示的投票用存儲(chǔ)器33的投票位置上直接進(jìn)行投票(步驟54)。這時(shí),向投票用存儲(chǔ)器33的投票,和向上述的矩陣投票的情況一樣,當(dāng)?shù)?文字列是通過(guò)文字識(shí)別的識(shí)別文字的情況下,進(jìn)行基于識(shí)別文字的相似度,或者識(shí)別文字的文字候補(bǔ)的優(yōu)先順序加權(quán)的投票。
另外,在進(jìn)行投票時(shí),投票部分32,用投票的值,和已經(jīng)存儲(chǔ)在投票用存儲(chǔ)器33中的值進(jìn)行規(guī)定的計(jì)算,改寫(xiě)被存儲(chǔ)在投票用存儲(chǔ)器33中的值。
如果對(duì)全部文字的組合的比較結(jié)束(步驟55),則匹配確定部分21,根據(jù)被存儲(chǔ)在該投票用存儲(chǔ)器33中的投票結(jié)果的值判定第2文字列和第1文字列的匹配程度(步驟56、57)。
這種情況下,匹配確定部分21,根據(jù)投票結(jié)果,可以如上述步驟18~22那樣判定第1文字列的前后的干擾,還可以如上述步驟38~步驟42那樣,判定包含在第1文字列之間的干擾。
如上所述,可以在以第1文字列為橫軸、以第2文字列為縱軸的矩陣的傾斜方向的成分對(duì)應(yīng)的線段上直接進(jìn)行投票,判定匹配。
由此,第1文字列和第2文字列的匹配處理的效率高,可以謀求處理的高速化。
接著,說(shuō)明通過(guò)圖15所示的投票用表數(shù)據(jù)庫(kù)31,在使用表查找的投影線段上直接進(jìn)行投票的匹配處理。
這種情況下,如圖15所示,準(zhǔn)備投票用表數(shù)據(jù)庫(kù)31。該投票用表數(shù)據(jù)庫(kù)31,具有2個(gè)表。如圖15所示,左邊的表(第1表)31a與第1文字列對(duì)應(yīng),右邊的表(第2表)31b與第2文字列對(duì)應(yīng)。
左邊的表31a,例如,如26個(gè)字母的情況下的“a”~“z”那樣取與文字種類對(duì)應(yīng)的文字(圖案的種類)為縱軸,取在第1文字列中出現(xiàn)的順序位置(第1文字列的開(kāi)頭的位置)的從第1位置開(kāi)始到可能的位置為橫軸。
右邊的表31b,取各第2文字列為縱軸,與各第2文字列對(duì)應(yīng)的投影線段為橫軸。相對(duì)于該各第2文字列設(shè)置的橫軸與上述計(jì)算值用存儲(chǔ)器20或者上述投票用存儲(chǔ)器33對(duì)應(yīng)。
進(jìn)而,左邊的表31a和右邊的表31b,以接線連接對(duì)應(yīng)的位置。總之,右邊的表31b的各第2文字列的線段的位置與在左邊的表中特定的文字和出現(xiàn)的順序位置對(duì)應(yīng)。例如,在圖15中,左邊的表31a的“a”的第1個(gè),和右邊的表31b的第2文字列“AMERICA”的線段的中央位置以及右端的位置連接。
使用上述那樣的表31,以第1文字列為基準(zhǔn),在左邊的表31a中找到相應(yīng)的位置,對(duì)該位置連接的右邊的表31b進(jìn)行投票。這樣,對(duì)右邊的表31b的各第2文字列進(jìn)行與第1文字列的各文字對(duì)應(yīng)的投票。
由此,在右邊的表31b中,可以得到各第2文字列對(duì)于第1文字列的投票結(jié)果的值。進(jìn)而,如果在該右邊的表31b中得到各第2文字列的投票結(jié)果的值,則對(duì)于右邊的表31b進(jìn)行從上邊開(kāi)始的檢索,用和上述順序同樣的順序進(jìn)行第1文字列和各第2文字列的匹配。
如上所述,預(yù)先使對(duì)應(yīng)第1文字列存儲(chǔ)文字的表,和對(duì)應(yīng)第2文字列成為投影線段的表相關(guān)聯(lián),從第1文字列直接投票到相對(duì)各第2文字列的線段。根據(jù)作為其結(jié)果得到的相對(duì)各第2文字列的投票結(jié)果的值,判定和各第2文字列的匹配結(jié)果。
由此,可以謀求在匹配處理中的處理速度的高速化。
另外,在上述實(shí)施例中,說(shuō)明了第1文字列是1個(gè)的情況,但在文字識(shí)別裝置等中,因?yàn)榈?文字列可以作為識(shí)別文字列的候補(bǔ)得到,所以可以對(duì)于第1文字列的各文字加權(quán)后進(jìn)行投票。
例如,在各文字的識(shí)別結(jié)果是以文字候補(bǔ)的順序得到的情況下,根據(jù)識(shí)別結(jié)果的順序,可以在投票的得分上加權(quán)后投票。另外,當(dāng)各文字的識(shí)別結(jié)果以相似度得到時(shí),可以投票與各文字的相似度對(duì)應(yīng)進(jìn)行加權(quán)的得分。
這樣,在第1文字列可以作為文字識(shí)別的結(jié)果得到的情況下,通過(guò)在第1文字列的各文字上進(jìn)行加權(quán)后的投票,就可以進(jìn)行高精度的匹配處理。
另外,當(dāng)?shù)?文字列是識(shí)別文字,并且該識(shí)別文字的相似度在一定的水平之下的情況下,可以設(shè)置成即使和第2文字列的文字一致也不投票。
由此,在第1文字列由識(shí)別文字構(gòu)成時(shí),除了相似度極低的文字外可以進(jìn)行匹配處理,可以提高和由識(shí)別文字構(gòu)成的第1文字列進(jìn)行匹配處理的精度。
另外,當(dāng)?shù)?文字列的各文字作為文字識(shí)別結(jié)果在每個(gè)優(yōu)先位置上得到多個(gè)候補(bǔ)的情況下,把第1文字列的各文字作為多個(gè)候補(bǔ),通過(guò)判定這些候補(bǔ)和第2文字列的各文字的一致就可以進(jìn)行匹配。這種情況下,例如,即使和第1個(gè)候補(bǔ)不一致,在和第2個(gè)候補(bǔ)一致的情況下投票。
由此,在第1文字列由識(shí)別文字構(gòu)成時(shí),當(dāng)作為識(shí)別文字的各文字的候補(bǔ)有多個(gè)的情況下可以實(shí)現(xiàn)考慮了多個(gè)文字候補(bǔ)的高精度的匹配處理。
如上所述,比較第1文字列的各文字和第2文字列的各文字,對(duì)由與第1文字列的各文字和第2文字列的各文字分別對(duì)應(yīng)的2邊組成的矩陣投票,對(duì)矩陣傾斜方向的每個(gè)成分計(jì)算投票結(jié)果的值。根據(jù)該投票結(jié)果的計(jì)算值,判定匹配結(jié)果。由此,可以進(jìn)行考慮文字排列,高速并且高精度地進(jìn)行抗干擾強(qiáng)的匹配處理。
如上所述,如果采用本發(fā)明,則可以提供可以進(jìn)行高速且高精度,考慮文字排列,進(jìn)而,抗干擾性高,干擾位置可以特定的匹配處理的圖案列匹配裝置和圖案列匹配方法和文字列匹配裝置和文字列匹配方法。
權(quán)利要求
1.一種圖案列匹配裝置,用于對(duì)分別由多個(gè)圖案組成的第1圖案列和第2圖案列進(jìn)行匹配處理,其特征在于包括投票單元,它用于在對(duì)上述第1圖案列的各圖案和上述第2圖案列的各圖案匹配時(shí),對(duì)應(yīng)于匹配的圖案的上述第1圖案列中的位置以及上述第2圖案列的位置進(jìn)行投票;判定單元,它根據(jù)該投票單元的投票結(jié)果,判定匹配結(jié)果。
2.如權(quán)利要求1所述的圖案列匹配裝置,其特征在于進(jìn)一步包括制成單元,它制成由與上述第1圖案列的各圖案對(duì)應(yīng)的行、和與上述第2圖案列的各圖案對(duì)應(yīng)的列組成的矩陣,上述投票單元,對(duì)于由上述制成單元制成的矩陣,在第1圖案列的圖案和第2圖案列的圖案匹配的情況下,在與匹配的圖案對(duì)應(yīng)的行和列的交叉位置上投票,上述判定單元,根據(jù)用上述投票單元在上述矩陣上投票的投票結(jié)果,判定匹配結(jié)果。
3.如權(quán)利要求2所述的圖案列匹配裝置,其特征在于進(jìn)一步包括計(jì)算單元,它對(duì)用上述投票單元投票的矩陣,計(jì)算與在傾斜方向上的投票結(jié)果有關(guān)的計(jì)算值,上述判定單元,根據(jù)用上述計(jì)算單元計(jì)算出的投票結(jié)果的計(jì)算值,判定匹配結(jié)果。
4.如權(quán)利要求1所述的圖案列匹配裝置,其特征在于進(jìn)一步包括存儲(chǔ)器,它用于在和上述第2圖案列的圖案匹配的情況下,存儲(chǔ)由與上述第1圖案列的各圖案對(duì)應(yīng)的行和與上述第2圖案列的各圖案對(duì)應(yīng)的列組成的矩陣在傾斜方向的計(jì)算值,根據(jù)上述投票單元投票的值,進(jìn)行與上述矩陣的傾斜方向有關(guān)的計(jì)算,并將計(jì)算值存儲(chǔ)在上述存儲(chǔ)器中,在上述投票單元的投票結(jié)束時(shí),根據(jù)被存儲(chǔ)在上述存儲(chǔ)器中的計(jì)算值判定匹配結(jié)果。
5.如權(quán)利要求2所述的圖案列匹配裝置,其特征在于上述計(jì)算裝置包括用正規(guī)化與投票結(jié)果有關(guān)的計(jì)算值后的值進(jìn)行計(jì)算的單元,上述判定單元包括根據(jù)與被正規(guī)化的投票結(jié)果有關(guān)的計(jì)算值判定匹配結(jié)果的單元。
6.如權(quán)利要求2所述的圖案列匹配裝置,其特征在于上述判定單元包含,根據(jù)上述計(jì)算單元的計(jì)算值,和上述第1圖案列的長(zhǎng)度,和第2圖案列的長(zhǎng)度,判定上述第2圖案列與上述第1圖案列的哪部分匹配的單元。
7.如權(quán)利要求1所述的圖案列匹配裝置,其特征在于進(jìn)一步包括第1表,它特定出現(xiàn)在上述第1圖案列中的圖案種類,和在上述第1圖案列中出現(xiàn)的圖案的順序;第2表,與用上述第1表特定的圖案的種類和出現(xiàn)的順序?qū)?yīng),對(duì)各種第2圖案列的每一列,存儲(chǔ)與上述矩陣的傾斜方向的投票結(jié)果有關(guān)的計(jì)算值,上述投票單元,對(duì)于上述第1圖案列的各圖案,在與用上述第1表特定的圖案的種類和出現(xiàn)的順序固定對(duì)應(yīng)的上述第2表上進(jìn)行投票,上述判定單元,根據(jù)用上述投票單元投票的上述第2表判定匹配的結(jié)果。
8.如權(quán)利要求2所述的圖案列匹配裝置,其特征在于上述第1圖案是由多個(gè)文字組成的第1文字列,上述第2文字列是由多個(gè)文字列組成的第2文字列。
9.如權(quán)利要求2所述的圖案列匹配裝置,其特征在于上述第1文字列是由有相似度的識(shí)別文字組成的檢索文字列,上述第2文字列是辭典的辭典文字列的文字,上述投票單元根據(jù)上述第1文字列的識(shí)別文字的相似度進(jìn)行投票。
10.如權(quán)利要求2所述的圖案列匹配裝置,其特征在于上述第1圖案列是由具有優(yōu)先順序的文字候補(bǔ)組成的檢索文字列,上述第2文字列是辭典的辭典文字列的文字,上述投票單元進(jìn)行基于上述第1文字列的文字候補(bǔ)的優(yōu)先順序加權(quán)后的投票。
11.一種圖案列匹配方法,用于進(jìn)行由多個(gè)圖案組成的第1圖案列和第2圖案列的匹配處理,其特征在于在上述第1圖案列的各圖案和上述第2圖案列的各圖案進(jìn)行匹配時(shí),對(duì)應(yīng)于匹配的圖案的上述第1圖案列中的位置以及上述第2圖案列中的位置進(jìn)行投票,根據(jù)該投票結(jié)果,判定匹配結(jié)果。
12.如權(quán)利要求11所述的圖案列匹配方法,其特征在于進(jìn)一步制成由與上述第1圖案列的各圖案對(duì)應(yīng)的行、和與上述第2圖案列的各圖案對(duì)應(yīng)的列組成的矩陣,上述投票,對(duì)于被制成的矩陣,在和第2圖案列的圖案匹配的情況下,在與匹配的圖案對(duì)應(yīng)的行和列交叉的位置上進(jìn)行,上述判定,根據(jù)被投票在上述矩陣上的投票結(jié)果,判定匹配結(jié)果。
13.如權(quán)利要求12所述的圖案列匹配方法,其特征在于進(jìn)一步對(duì)上述被投票的矩陣,計(jì)算與傾斜方向中的投票結(jié)果有關(guān)的計(jì)算值,上述判定,根據(jù)上述投票結(jié)果的計(jì)算值,判定匹配結(jié)果。
14.如權(quán)利要求11所述的圖案列匹配方法,其特征在于對(duì)上述投票的值,在進(jìn)行了與上述矩陣的傾斜方向有關(guān)的計(jì)算后,在與上述第2圖案列的圖案匹配時(shí),被存儲(chǔ)在存儲(chǔ)由與上述第1圖案列的各圖案對(duì)應(yīng)的行、和與上述第2圖案列的各圖案對(duì)應(yīng)的列組成的矩陣的在傾斜方向上的計(jì)算值的存儲(chǔ)器中,在上述投票結(jié)束時(shí),根據(jù)被存儲(chǔ)在上述存儲(chǔ)器中的計(jì)算值判定匹配。
15.如權(quán)利要求12所述的圖案列匹配方法,其特征在于上述計(jì)算,用正規(guī)化與投票結(jié)果有關(guān)的計(jì)算值后的值計(jì)算,上述判定,根據(jù)與被正規(guī)化的投票結(jié)果有關(guān)的計(jì)算值判定匹配結(jié)果。
16.如權(quán)利要求12所述的圖案列匹配方法,其特征在于上述判定,根據(jù)上述計(jì)算的計(jì)算值,和上述第1圖案列的長(zhǎng)度,和第2圖案列的長(zhǎng)度,判定在上述第2圖案列中與上述第1圖案列的哪部分匹配。
17.如權(quán)利要求11所述的圖案列匹配方法,其特征在于上述投票,對(duì)上述第1圖案列的各圖案,在與用第1表特定的圖案的種類和出現(xiàn)的順序固定對(duì)應(yīng)的第2表上投票,上述第1表,是特定出現(xiàn)在上述第1圖案列上的圖案的種類、和在上述第1圖案列中出現(xiàn)的圖案的順序的表,上述第2表,是與在上述第1表中特定的圖案的種類和出現(xiàn)的順序固定對(duì)應(yīng)的、對(duì)各個(gè)第2圖案列的每一列存儲(chǔ)與上述矩陣的傾斜方向的投票結(jié)果有關(guān)的計(jì)算值的表,上述判定,根據(jù)上述被投票的上述第2表,判定匹配結(jié)果。
18.如權(quán)利要求12所述的圖案列匹配方法,其特征在于上述第1圖案是由多個(gè)文字組成的第1文字列,上述第2圖案列是由多個(gè)文字組成的第2文字列。
19.如權(quán)利要求12所述的圖案列匹配方法,其特征在于上述第1圖案列是由具有相似度的識(shí)別文字組成的檢索文字列,上述第2圖案列是根據(jù)辭典的辭典文字列的文字,上述投票對(duì)應(yīng)上述第1文字列的識(shí)別文字的相似度進(jìn)行投票。
20.如權(quán)利要求12所述的圖案列匹配方法,其特征在于上述第1圖案列是由具有優(yōu)先順序的文字候補(bǔ)組成的檢索文字列,上述第2圖案列是根據(jù)辭典的辭典文字列的文字,上述投票進(jìn)行基于上述第1文字列的文字候補(bǔ)的優(yōu)先順序加權(quán)后的投票。
全文摘要
本發(fā)明通過(guò)比較檢索文字列的各文字和辭典文字列的各文字,對(duì)由與檢索文字列的各文字和辭典文字列的各文字對(duì)應(yīng)的兩條邊組成的矩陣進(jìn)行投票,對(duì)矩陣傾斜方向的每個(gè)成分計(jì)算投票結(jié)果的值。根據(jù)該投票結(jié)果的計(jì)算值,判定匹配結(jié)果。由此,可以考慮文字排列,高速并且高精度地進(jìn)行抗干擾強(qiáng)的匹配處理。
文檔編號(hào)G06T7/00GK1284686SQ0012253
公開(kāi)日2001年2月21日 申請(qǐng)日期2000年8月4日 優(yōu)先權(quán)日1999年8月6日
發(fā)明者赤木琢磨 申請(qǐng)人:株式會(huì)社東芝