專利名稱:文件檢索裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文件檢索裝置,該裝置把記載于文件等上的信息作為計(jì)算機(jī)的數(shù)據(jù)取入到計(jì)算機(jī)中,并且利用計(jì)算機(jī)的功能,整理及靈活應(yīng)用這些信息。
背景技術(shù):
由于近年來計(jì)算機(jī)技術(shù)的發(fā)展,正在進(jìn)行把記載于文件等上的信息作為計(jì)算機(jī)的數(shù)據(jù)取入到計(jì)算機(jī)中,使文件等的保管場(chǎng)所減少,同時(shí)謀求信息的有效活用這種技術(shù)的開發(fā)。
作為上述技術(shù)開發(fā)的結(jié)果,已經(jīng)提出了內(nèi)部裝有圖象掃描器,把記載于文件等上的信息作為圖象數(shù)據(jù)進(jìn)行輸入并存儲(chǔ)的文件檢索裝置。這種以往的文件檢索裝置用圖象掃描器掃描文件,把由1次掃描得到的圖象數(shù)據(jù)作為1個(gè)圖象數(shù)據(jù),使用者輸入對(duì)于每個(gè)圖象數(shù)據(jù)或每個(gè)預(yù)定數(shù)的圖象數(shù)據(jù)群的檢索用關(guān)鍵詞,把各圖象數(shù)據(jù)和檢索用關(guān)鍵詞一起存儲(chǔ)。
若依據(jù)這種以往的文件檢索裝置,則在檢索預(yù)定文件的圖象數(shù)據(jù)時(shí),使用者輸入想檢索的關(guān)鍵詞,通過用文件檢索裝置中具備的檢索裝置檢索具有與想檢索的關(guān)鍵詞相同或部分相同的檢索用關(guān)鍵詞的圖象數(shù)據(jù),尋找出所希望的圖象數(shù)據(jù)。
所謂檢索部分地相同的檢索用關(guān)鍵詞,指的是例如在圖象數(shù)據(jù)存儲(chǔ)時(shí)輸入的“××公司”檢索用關(guān)鍵詞能夠用部分地相同的“××”的關(guān)鍵詞檢索的情況。
另外,還提出了許多與此關(guān)連的相似的檢索關(guān)鍵詞的技術(shù)方案。例如,提出了這樣的技術(shù)方案,在輸入“ABC公司”的關(guān)鍵詞時(shí),考慮了“AyBeeCee公司”、“公司ABC”、“(株)ABC”等一般的表現(xiàn)方法的相似檢索的用關(guān)鍵詞也可以檢索的技術(shù)方案。
此外,作為上述文件檢索裝置的改良裝置,以壓縮存儲(chǔ)的數(shù)據(jù)量為目的,還提出了內(nèi)部裝有文字識(shí)別裝置的文件檢索裝置。
這種內(nèi)部裝有文字識(shí)別裝置的文件檢索裝置在取入記載于文件等上的信息時(shí),自動(dòng)識(shí)別書面的文章部分和照片、圖面等部分,對(duì)于文章部分用文字識(shí)別裝置變換為文字?jǐn)?shù)據(jù),照片、圖面等部分作為圖象數(shù)據(jù)取入,通過把文章部分變換為文字?jǐn)?shù)據(jù),可用小的存儲(chǔ)容量存放文件等信息。在該文件檢索裝置中,存放圖象數(shù)據(jù)和文字?jǐn)?shù)據(jù)時(shí),也輸入將來對(duì)其進(jìn)行檢索時(shí)的檢索用關(guān)鍵詞。
然而,上述以往的文件檢索裝置在存放圖象數(shù)據(jù)之際,必須輸入檢索用關(guān)鍵詞,而由于該檢索用關(guān)鍵詞的輸入作業(yè)花費(fèi)人力和時(shí)間,故成為快速信息存儲(chǔ)的障礙。
還有,雖然說能夠進(jìn)行部分相同的關(guān)鍵詞和表面上相似的關(guān)鍵詞的檢索,但使用者要考慮將來檢索時(shí)關(guān)鍵詞的可能性,必須輸入最相稱于各圖象數(shù)據(jù)的檢索用關(guān)鍵詞,故存放信息時(shí)使用者的負(fù)擔(dān)很大。還有,依據(jù)關(guān)鍵詞設(shè)定的巧與拙,使得檢索容易或困難。
另外,除去上述關(guān)鍵詞設(shè)定的巧拙問題之外,在以往的文件檢索裝置中,不能夠適應(yīng)想用未設(shè)想過的關(guān)鍵詞進(jìn)行檢索的要求。因而,難于謀求已存放信息的靈活運(yùn)用。
另一方面,變換為上述一部分文字?jǐn)?shù)據(jù)并存放的以往的文件檢索裝置在取入信息時(shí),必須由使用者確認(rèn)或修正由文字識(shí)別裝置進(jìn)行的變換結(jié)果。為了該文字識(shí)別的確認(rèn)及修正,在存放信息時(shí)就花費(fèi)了時(shí)間和勞力。另外,在萬一原樣存放了錯(cuò)誤的文字識(shí)別的信息時(shí),就有失去原信息的危險(xiǎn)性。
從以上種種問題出發(fā),以往的文件檢索裝置中存在著信息的存放不容易以及不能夠可靠而且迅速地找出所希望的信息這樣的課題。
于是,本發(fā)明的目的在于提供容易存放記載于書籍上的信息而且檢索容易、可靠的文件檢索裝置。發(fā)明的公開為了達(dá)到上述目的,本發(fā)明的文件檢索裝置的特征在于具有把文字、符號(hào)及圖形作為圖象數(shù)據(jù)輸入的圖象輸入裝置;把由上述圖象輸入裝置讀入的圖象數(shù)據(jù)按圖象數(shù)據(jù)原樣存儲(chǔ)的存儲(chǔ)裝置;以在1頁(yè)上顯示1個(gè)圖象數(shù)據(jù)的文件形式顯示上述圖象數(shù)據(jù)的顯示裝置;把由上述顯示裝置顯示的圖象數(shù)據(jù)的預(yù)定部分作為范圍指定的范圍指定裝置;把由上述范圍指定裝置指定的范圍內(nèi)的象素的排列變換為文字?jǐn)?shù)據(jù)的文字識(shí)別裝置;把由上述文字識(shí)別裝置變換了的文字?jǐn)?shù)據(jù)作為文字?jǐn)?shù)據(jù)進(jìn)行編輯的編輯裝置。
還有,本發(fā)明的文件檢索裝置的特征還在于具備檢索裝置,該檢索裝置具有生成與所定文字串相似的文字串的相似文字串生成單元,使用者輸入要檢索的文字串,把被輸入的文字串和對(duì)于該被輸入的文字串由上述相似文字串生成單元生成的相似文字串作為檢索對(duì)象,從由上述范圍指定裝置和文字識(shí)別裝置進(jìn)行的范圍指定以及進(jìn)行了文字變換的文字?jǐn)?shù)據(jù),檢索上述檢索對(duì)象的文字串。
還有,本發(fā)明的文件檢索裝置的特征還在于,上述相似文字串生成單元對(duì)與預(yù)定的文字串相似的文字串根據(jù)相似的概率加注次序;上述檢索裝置把上述由使用者輸入的文字串作為第一候選,把由上述相似文字串生成單元生成的相似文字串作為添加了次序的候選,按候選的順序檢索文字串。
還有,本發(fā)明的文件檢索裝置的特征還在于上述相似文字串生成單元參照預(yù)定的文字和與其相似的文字的對(duì)應(yīng)文件生成相似文字串。
還有,本發(fā)明的文件檢索裝置的特征還在于上述相似文字串生成單元依據(jù)形狀相似的規(guī)則,檢索形狀與被輸入的文字相似的文字,生成相似文字串。
還有,本發(fā)明的文件檢索裝置的特征還在于上述相似文字串生成單元依據(jù)基于印刷、讀取的文字變形規(guī)則,檢索與被輸入文字相似的文字,生成相似文字串。
還有,本發(fā)明的文件檢索裝置的特征還在于具備檢索裝置,該檢索裝置用上述文字識(shí)別裝置把由上述范圍指定裝置指定了范圍的圖象變換為文字串,以該變換了的文字串作為檢索對(duì)象,從由上述范圍指定裝置和文字識(shí)別裝置進(jìn)行的范圍指定及進(jìn)行了文字變換的文字?jǐn)?shù)據(jù),檢索上述檢索對(duì)象的文字串。
還有,本發(fā)明的文件檢索裝置的特征還在于
上述范圍指定裝置通過指定一個(gè)圖象數(shù)據(jù)的范圍,指定全部圖象數(shù)據(jù)的同一范圍。
附圖的簡(jiǎn)單說明第1圖是示出本發(fā)明的文件檢索裝置的一結(jié)構(gòu)例和其處理的流程的框圖,第2圖示出由本發(fā)明的文件檢索裝置的顯示裝置顯示的一畫面例,第3圖是示出本發(fā)明的文件檢索裝置的檢索裝置進(jìn)行的檢索處理的說明圖。
用于實(shí)施發(fā)明的最佳形態(tài)下面,用
本發(fā)明的實(shí)施形態(tài)。
第1圖示出本發(fā)明一實(shí)施形態(tài)的文件檢索裝置的結(jié)構(gòu)及其處理的流程。
本實(shí)施形態(tài)的文件檢索裝置具有圖象輸入裝置1、存儲(chǔ)裝置2、顯示裝置3、范圍指定裝置4、文字識(shí)別裝置5、檢索裝置6和編輯裝置7。
圖象輸入裝置1可能有各種結(jié)構(gòu),只要是能夠把記載于文件等上的信息作為圖象數(shù)據(jù)輸入的裝置,則圖象掃描器1a、連接其它計(jì)算機(jī)和網(wǎng)絡(luò)的電纜1b、未圖示的傳真機(jī)和復(fù)印機(jī)的復(fù)合機(jī)等的任一個(gè)都可以。
本實(shí)施形態(tài)的顯示裝置3是和監(jiān)視器等的顯示設(shè)備8相互獨(dú)立的,雖然以下將其作為向顯示設(shè)備8傳送圖象數(shù)據(jù)并進(jìn)行顯示控制的控制裝置進(jìn)行說明,但作為顯示裝置也可以包含顯示設(shè)備。
另外,同樣地,本實(shí)施形態(tài)的范圍指定裝置4和檢索裝置6和編輯裝置7也是和鍵盤及鼠標(biāo)等輸入裝置9獨(dú)立的,以下,分別作為進(jìn)行范圍指定、檢索、編輯的控制裝置進(jìn)行說明,而它們也可以分別包含鍵盤等輸入裝置。
其次,對(duì)于上述結(jié)構(gòu)的文件檢索裝置的處理流程說明如下。
本實(shí)施形態(tài)的文件檢索裝置中,把記載于文件等上的信息全部作為圖象數(shù)據(jù)取入。具體來說,把文件等放到圖象掃描器1a等的掃描面上,通過圖象掃描器1a的光學(xué)讀取,把記載于文件等上的文字、圖形、照片等全部作為圖象數(shù)據(jù)(記錄了象素排列的數(shù)據(jù))存放在存儲(chǔ)裝置2的圖象數(shù)據(jù)文件10中。這時(shí),由圖象掃描器1a的1次掃描得到的圖象數(shù)據(jù)作為1個(gè)圖象數(shù)據(jù)存放。在不依賴于圖象掃描器1a時(shí),也可以經(jīng)由電纜1b把圖象數(shù)據(jù)化了的信息輸入到圖象數(shù)據(jù)文件10中。
在這里,作為應(yīng)該引起注意的方面可以舉出這樣一點(diǎn),即如果依據(jù)本實(shí)施形態(tài)的文件檢索裝置,則在取入信息時(shí),即使不輸入用于將來檢索圖象數(shù)據(jù)的檢索用關(guān)鍵詞也沒有關(guān)系。由此,使用者能夠用機(jī)械方式并且很快地存入大量的文件。另外,對(duì)于這樣存入的信息的檢索后述。
顯示裝置3從圖象數(shù)據(jù)文件10取出圖象數(shù)據(jù),由顯示設(shè)備8進(jìn)行顯示。由該顯示裝置3進(jìn)行的顯示如第2圖例示的那樣,把1個(gè)圖象數(shù)據(jù)顯示為1頁(yè),以遵從預(yù)定的分類加注了標(biāo)題的文件形式進(jìn)行顯示。該文件形式的顯示通過用鼠標(biāo)等擊標(biāo)題,能夠迅速地打開所希望的圖象數(shù)據(jù)的部分。
另外,顯示裝置3最好具備“高速翻頁(yè)”、“放大縮小、旋轉(zhuǎn)、加寬”、“加標(biāo)記”、“注釋”等諸多功能。
其次,對(duì)于檢索預(yù)定信息,即預(yù)定的圖象數(shù)據(jù)的方法說明如下。
本實(shí)施形態(tài)的文件檢索裝置進(jìn)行的檢索中最初由范圍指定裝置4指定圖象數(shù)據(jù)的被檢索部分。實(shí)際上,使用者邊看著顯示設(shè)備8邊用鼠標(biāo)等輸入裝置在圖象數(shù)據(jù)上指定第2圖所示那樣的檢索范圍的框11。在票據(jù)等定型的文件中,例如在預(yù)定的位置記載著標(biāo)題并且標(biāo)題上包含有要檢索的關(guān)鍵詞時(shí),如果用檢索范圍的框11僅包圍該部分,則能夠用較小的檢索量進(jìn)行有效的檢索。
當(dāng)在所決定的部分(位置)上沒有記載所求的關(guān)鍵詞時(shí),如果通過范圍指定裝置4使得用檢索范圍的框11包圍圖象數(shù)據(jù)的全體,則能夠?qū)τ诟鲌D象數(shù)據(jù)的所有部分進(jìn)行檢索。
另外,本實(shí)施形態(tài)的范圍指定范圍4通過指定1個(gè)圖象數(shù)據(jù)的范圍,能夠指定所有圖象數(shù)據(jù)的同一范圍。通過利用該功能,在上述票據(jù)的情況下,用檢索范圍的框11圍住一張票據(jù)的標(biāo)題部分,由此能夠檢索所有票據(jù)的標(biāo)題部分。該功能在檢索僅存放了定型文件的圖象數(shù)據(jù)的圖象數(shù)據(jù)文件10時(shí)特別有效。
這樣,被指定了的檢索范圍存放在存儲(chǔ)裝置2的范圍指定文件12中。
接著,用文字識(shí)別裝置5把用范圍指定裝置4進(jìn)行了范圍指定的部分的象素排列變換為文字?jǐn)?shù)據(jù)。文字識(shí)別裝置5參照范圍指定文件12,從圖象數(shù)據(jù)文件10取出圖象數(shù)據(jù)后,邊參照辭典13邊把被指定的檢索范圍內(nèi)的象素排列變換為文字?jǐn)?shù)據(jù)。
被變換了的文字?jǐn)?shù)據(jù)存入文字?jǐn)?shù)據(jù)文件14中。這些被變換了的文字?jǐn)?shù)據(jù)成為被檢索文字串的集合。
接著,使用者輸入要檢索的文字串,用檢索裝置6從上述文字?jǐn)?shù)據(jù)文件14的文字串的集合檢索被輸入的文字串,以及與被輸入的文字串相似的文字串。
第3圖示出由檢索裝置6進(jìn)行的檢索流程。本實(shí)施形態(tài)的檢索裝置6在不僅檢索被輸入的文字串,還檢索與被輸入的文字串相似的文字串這一點(diǎn)上具有特征。下面,示出具體的例子說明該特征。
例如,要檢索包含漢字“中間決算”這樣的文字串的圖象數(shù)據(jù)時(shí),存在著用上述文字識(shí)別裝置5錯(cuò)誤地識(shí)別組成“中間決算”的文字串并存入文字?jǐn)?shù)據(jù)文件14中的可能性。例如有可能把“中”誤識(shí)別為“?!薄ⅰ拔纭?、“甲”等,把“間”誤識(shí)別為“問”、“関”、“門”等,把“決”誤識(shí)別為“法”、“沫”、“洟”等,把“算”誤識(shí)別為“筧”、“箟”等。
從而,組成“中間決算”的文字串有可能作為上述文字的組合存放在文字?jǐn)?shù)據(jù)文件14中。這些被誤識(shí)別的文字串不能用“中間決算”這樣的文字串進(jìn)行檢索。
與此相反,本裝置的檢索裝置6具有生成與被輸入的文字串相似的文字串的相似文字串生成單元15。例如輸入“中”的文字的話,該相似文字串生成單元15則選擇與其相似的“?!?、“午”、“甲”等,并構(gòu)成文字串的重要因素。
作為選出上述相似文字的方法,在這里有3個(gè)方法。
第1種相似文字選出方法預(yù)先準(zhǔn)備預(yù)定的文字和與其相似的文字的對(duì)應(yīng)文件,參照該對(duì)應(yīng)文件選出相似文字。例如,對(duì)于“中”,把“午”、“?!薄ⅰ凹住钡茸鳛楸徽`識(shí)別的文字預(yù)先存放在對(duì)應(yīng)的文件中,在輸入“中”的文字時(shí),選出“午”、“?!?、“甲”等文字。該對(duì)應(yīng)文件在能夠和文字識(shí)別裝置5共用時(shí)則與之共同使用。
第2種相似文字選出方法使用依據(jù)文字的輪廓、線密度等確定文字的文字形狀的規(guī)則,選出形狀上與被輸入的文字相相似的文字。例如輸入了“中”的文字時(shí),用形狀相似規(guī)則選出形狀與其相相似的“午”、“?!?、“甲”等。在這些猜讀文字的規(guī)則也能和文字識(shí)別裝置5共用時(shí)則與之共同使用。
第3種相似文字選出方法依據(jù)準(zhǔn)備了大量的因印刷、讀取引起的文字變形例的文字變形規(guī)則,選出與被輸入的文字相似的文字。例如,數(shù)字“1”的文字,因印刷、讀取的狀況,有時(shí)被誤識(shí)為英文字母“i”、“l(fā)”,符號(hào)“(”等,因此,輸入了“1”時(shí),把“ i”、“l(fā)”“(”作為相似文字選出。
這樣,例如,漢字“中間決算”的文字串作為檢索對(duì)象的文字串被輸入時(shí),本裝置的檢索裝置6除去“中間決算”外,還把相似的“牛間決算”、“中問決算”、“中間法算”、也作為檢索對(duì)象的文字串。對(duì)于這些檢索對(duì)象的文字串,逐一地與文字?jǐn)?shù)據(jù)文件14的文字串對(duì)照,檢索相同的文字串。
這時(shí),檢索裝置6最好把預(yù)定文字的誤識(shí)可能性作為概率值,預(yù)先在相似文字串上標(biāo)注次序。由此,最先檢索和檢索對(duì)象文字串完全一致的文字串,接著,從誤識(shí)可能性高的相似文字串檢索,在顯示結(jié)果時(shí)對(duì)于誤識(shí)的可能性進(jìn)行某些顯示。
檢索結(jié)果如第3圖所示,顯示包含該文字串的圖象數(shù)據(jù)n1、n2、n3、…,重點(diǎn)顯示該文字串部分。這些被檢索的結(jié)果存放在存儲(chǔ)裝置2的檢索數(shù)據(jù)文件16(參照第1圖)中。
若依據(jù)上述檢索方法,則只識(shí)別包含圖象數(shù)據(jù)的檢索關(guān)鍵詞部分,而且不討論文字識(shí)別結(jié)果的正確與否,以為了檢索而輸入的文字串和與其相似的文字串作為檢索對(duì)象,檢測(cè)出包含該文字串的圖象數(shù)據(jù)。由此,第1,減少了文字識(shí)別量,第2,節(jié)省了討論文字識(shí)別結(jié)果的勞力,第3,能夠無遺漏地檢測(cè)出包括要檢索的文字串的圖象數(shù)據(jù)。
還有,在上述說明中,檢索裝置6檢索與要檢索的文字串整體相似的文字串,而本發(fā)明不限于此,也能夠使檢索裝置6對(duì)于為檢索而輸入的文字串的一部分生成檢索對(duì)象和相似文字串。
即,例如,設(shè)要檢索的關(guān)鍵詞是“ABC公司”,則能夠僅依據(jù)“AB”、“ABC”、“A****公司”和“A”的輸入文字進(jìn)行“ABC公司”的檢索。
還有,對(duì)于相似文字串也一樣,例如設(shè)要檢索的關(guān)鍵詞是“中間決算”,則使得能夠指定“中間決算”的“中”,把包含與“中”相似的“午”、“牛”、“甲”的文字串“午間決算”、“牛間決算”、“甲間決算”算作為相似文字串進(jìn)行檢索。當(dāng)然,也能依據(jù)使用者的指定,上述文字指定把任意的2個(gè)文字或者3個(gè)文字置換為相似文字。
還有,若依據(jù)本文件檢索裝置,也能夠進(jìn)行與上述那樣的使用者輸入檢索對(duì)象的方法不同的方法的檢索。該檢索方法是著眼于預(yù)定的圖象數(shù)據(jù)中預(yù)定的文字串,檢索具有與該文字串相同文字串的圖象數(shù)據(jù)的方法。以下,說明該不同的方法。
在該檢索中,到形成被檢索文字串的集合14為止,與上述輸入文字串的檢索完全相同。接著,用范圍指定裝置4及文字識(shí)別裝置5把要檢索的文字串變換為文字?jǐn)?shù)據(jù)。這時(shí),把由文字識(shí)別裝置5識(shí)別了的文字串按原樣,識(shí)別錯(cuò)誤時(shí)也包括在內(nèi),作為檢索對(duì)象的文字串。
例如,要檢索“中間決算”的文字串時(shí),如果用文字識(shí)別裝置5把“中間決算”識(shí)別為“牛間決算”,則把“牛間決算”原樣不動(dòng)地作為檢索對(duì)象的文字串。這是因?yàn)樵诒粰z索一方的文字串集合14中用文字識(shí)別裝置5把“中間決算”誤識(shí)別為“牛間決算”的概率極高,如果檢索為“牛間決算”則能夠找出所希望的圖象數(shù)據(jù)。檢索結(jié)果的顯示和存儲(chǔ)與上述輸入文字串的檢索完全相同。
以上是本文件檢索裝置進(jìn)行的檢索。而本文件檢索裝置能夠用文字識(shí)別裝置5把圖象數(shù)據(jù)中預(yù)定的象素排列變換為文字?jǐn)?shù)據(jù),并利用這些數(shù)據(jù)在文字處理機(jī)的文章中進(jìn)行復(fù)制等編輯。
如第1圖所示,本裝置的編輯裝置7邊參照用顯示裝置3顯示了的圖象數(shù)據(jù),邊用范圍指定裝置4指定預(yù)定范圍,用文字識(shí)別裝置5將其變換為文字?jǐn)?shù)據(jù)。這些文字?jǐn)?shù)據(jù)存放在編輯數(shù)據(jù)文件17中,能夠在文字處理機(jī)等文章的編輯中使用。另外,也可以用范圍指定裝置4取出圖象數(shù)據(jù)的預(yù)定范圍,按原樣存入編碼數(shù)據(jù)文件17中,供給對(duì)于文字處理機(jī)等的文章的編入。
由此,作為圖象數(shù)據(jù)能夠靈活應(yīng)用被存儲(chǔ)的各類文件上的信息,能夠根據(jù)需要從以往的信息生成新的信息。
如從以上說明所明確的,本發(fā)明的文件檢索裝置能夠以圖象數(shù)據(jù)的形式直接存儲(chǔ)用圖象輸入裝置輸入的各種文件的信息,而不必像以往那樣,在信息存儲(chǔ)時(shí)加入檢索用關(guān)鍵詞或者進(jìn)行文字識(shí)別等。因此,能夠以機(jī)械方式存入文件的信息,能夠極快地存入大量的信息。
還有,本發(fā)明的文件檢索裝置用范圍指定裝置指定被檢索的范圍,對(duì)于其范圍內(nèi)的象素排列用文字識(shí)別裝置進(jìn)行文字識(shí)別。文字識(shí)別的結(jié)果不用檢查和修正而作為被檢索文字串。另一方面,把用于檢索而輸入的文字串和與之相相似的文字串作為檢索對(duì)象的文字串。用檢索裝置把與之相當(dāng)?shù)奈淖执畯纳鲜霰粰z索的文字串中檢出。由此,減少了文字識(shí)別的處理量,而且節(jié)省了檢索文字識(shí)別結(jié)果的勞力,還能夠不遺漏地把包含要檢索的文字串在內(nèi)的圖象數(shù)據(jù)全部檢出。
另外,如果依據(jù)指定圖象數(shù)據(jù)中的文字串,檢索包含與其相同的文字串的圖象數(shù)據(jù)的檢索,則可以按原樣利用因印刷和讀取的狀況產(chǎn)生的文字識(shí)別的錯(cuò)誤,以較少的處理量可靠地找出要求出的圖象數(shù)據(jù)。
進(jìn)而,若依據(jù)本文件檢索裝置,則能夠根據(jù)需要取出圖象數(shù)據(jù)的預(yù)定部分,把該部分不僅作為圖象數(shù)據(jù),還用文字識(shí)別裝置將其變換為文字?jǐn)?shù)據(jù),使得能夠用編輯裝置容易地使用這些數(shù)據(jù)。
產(chǎn)業(yè)上的可利用性本發(fā)明的文件檢索裝置能夠應(yīng)用于圖象數(shù)據(jù)的數(shù)據(jù)庫(kù)裝置。
權(quán)利要求
1.一種文件檢索裝置,其特征在于具有把文字、符號(hào)以及圖形作為圖象數(shù)據(jù)輸入的圖象輸入裝置;把由上述圖象輸入裝置讀入的圖象數(shù)據(jù)按圖象數(shù)據(jù)的原樣存儲(chǔ)的存儲(chǔ)裝置;以在1頁(yè)上顯示1個(gè)圖象數(shù)據(jù)的文件形式顯示上述圖象數(shù)據(jù)的顯示裝置;把由上述顯示裝置顯示的圖象數(shù)據(jù)的預(yù)定部分指定為范圍的范圍指定裝置;把由上述范圍指定裝置指定了范圍內(nèi)的象素的排列變換為文字?jǐn)?shù)據(jù)的文字識(shí)別裝置;把由上述文字識(shí)別裝置變換的文字?jǐn)?shù)據(jù)作為文字?jǐn)?shù)據(jù)進(jìn)行編輯的編輯裝置。
2.權(quán)利要求1所述的文件檢索裝置,其特征在于具備檢索裝置,該檢索裝置有生成與預(yù)定文字串相相似的文字串的相似文字串生成單元,使用者輸入要檢索的文字串,把被輸入的文字串和對(duì)于該被輸入的文字串由上述相似文字串生成單元生成的相似文字串作為檢索對(duì)象,從由上述范圍指定裝置和文字識(shí)別裝置進(jìn)行的范圍指定及進(jìn)行了文字變換的文字?jǐn)?shù)據(jù),檢索上述檢索對(duì)象的文字串。
3.權(quán)利要求2所述的文件檢索裝置,其特征在于上述相似文字串生成單元對(duì)于與預(yù)定的文字串相似的文字串根據(jù)相似的概率加入次序;上述檢索裝置把由上述用戶輸入的文字串作為第1候選,把由上述相似文字生成單元生成的相似文字串作為附有次序的候選,按照候選的順序檢索文字串。
4.權(quán)利要求2所述的文件檢索裝置,特征在于上述相似文字串生成單元參照預(yù)定的文字和與其相似的文字的對(duì)應(yīng)文件生成相似文字串。
5.權(quán)利要求2所述的文件檢索裝置,特征在于上述相似文字串生成單元依據(jù)形狀相似的規(guī)則,檢索形狀與被輸入文字相似的文字生成相似文字串。
6.權(quán)利要求2所述的文件檢索裝置,特征在于上述相似文字串生成單元依據(jù)由印刷、讀取產(chǎn)生的文字變形規(guī)則,檢索和被輸入的文字相似的文字,生成相似文字串。
7.權(quán)利要求1所述的文件檢索裝置,特征在于具備檢索裝置,該檢索裝置以用上述文字識(shí)別裝置把由上述范圍指定裝置指定了范圍的圖象變換成的文字串作為檢索對(duì)象,從由上述范圍指定裝置和上述文字識(shí)別裝置進(jìn)行的范圍指定及被變換了的文字?jǐn)?shù)據(jù),檢索上述檢索對(duì)象的文字串。
8.權(quán)利要求1至7的任一項(xiàng)所述的文字檢索裝置,特征在于上述范圍指定裝置通過指定1個(gè)圖象數(shù)據(jù)的范圍來指定所有圖象數(shù)據(jù)的同一個(gè)范圍。
全文摘要
本發(fā)明的文件檢索裝置具備把文字、符號(hào)及圖形作為圖象數(shù)據(jù)輸入的圖象輸入裝置1;把由圖象輸入裝置1讀入的圖象數(shù)據(jù)按圖象數(shù)據(jù)原樣存儲(chǔ)的存儲(chǔ)裝置2;以在1頁(yè)上顯示1個(gè)圖象數(shù)據(jù)的文件形式顯示上述文件數(shù)據(jù)的顯示裝置3;把由顯示裝置3 顯示的圖象數(shù)據(jù)的預(yù)定部分指定為范圍的范圍指定裝置4;把由范圍指定裝置4指定了范圍內(nèi)的象素排列變換為文字?jǐn)?shù)據(jù)的文字識(shí)別裝置5;把由文字識(shí)別裝置5變換了的文字?jǐn)?shù)據(jù)作為文字?jǐn)?shù)據(jù)進(jìn)行編輯的編輯裝置7。
文檔編號(hào)G06F12/00GK1165571SQ96190752
公開日1997年11月19日 申請(qǐng)日期1996年7月12日 優(yōu)先權(quán)日1995年7月18日
發(fā)明者兒島紀(jì)久, 岡崎誠(chéng), 新谷敏文 申請(qǐng)人:株式會(huì)社野村總合研究所