專利名稱:掃描方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通過包含文本的文檔的光學(xué)掃描所獲得的數(shù)字圖像或錄制品的計算 機執(zhí)行的處理,上述文本例如為,印刷好的報紙頁或其他顯示形式的文本,其中,可以在法 律上防止對該文本進行未授權(quán)的拷貝。
背景技術(shù):
在協(xié)調(diào)歐盟國家的版權(quán)法的基礎(chǔ)上,歐洲議會和歐盟理事會在2001年5月22日 的指令2001/29/EC中確定了針對拷貝和掃描的規(guī)定。等效的美國法規(guī)是數(shù)字千年版權(quán)法 (DMCA)??赏ㄟ^傳統(tǒng)的掃描儀來執(zhí)行掃描和拷貝,但是,由于對受版權(quán)保護的文檔的傳統(tǒng) 掃描違反版權(quán)法,所以需要有解決此問題的解決方案。歐盟版權(quán)指令第2條提供了最基本的“拷貝”權(quán)。其對表演者、錄音片制造商、電 影制片人、廣播組織和作者提供作品的“直接或間接、臨時或永久”拷貝的復(fù)制專有權(quán)。歐盟版權(quán)指令中的第5條確定了可能應(yīng)用于第2條中提供的權(quán)利的限制和例外情 況。第5條第1款中的復(fù)制權(quán)的強制性例外情況提供“暫時的和附帶的”復(fù)制(該復(fù)制是 由媒介進行的網(wǎng)絡(luò)傳輸?shù)摹氨举|(zhì)的和完整的”部分),或允許作品的沒有“獨立經(jīng)濟意義”的 合法使用。其還防止權(quán)利持有者通過數(shù)字技術(shù)控制所有對作品的訪問,該技術(shù)通過其特別的 設(shè)計,當(dāng)將作品從諸如DVD的媒介傳遞到播放器的用于處理的存儲器,然后傳遞到顯示器 或揚聲器時,制作作品的臨時“拷貝”。受版權(quán)保護的公開物(例如,報紙、雜志、行業(yè)雜志、科學(xué)期刊,和其他期刊)的 監(jiān)控,例如由媒體監(jiān)控行業(yè)中的公司來有系統(tǒng)地執(zhí)行,這些公司通過識別有重要性的(of interest)文章或其他文本部分來服務(wù)于他們的客戶。執(zhí)行監(jiān)測,以幫助客戶公司和個人掌 握在新聞媒體中提到他們的頻率和程度。傳統(tǒng)監(jiān)控以人工閱讀例如報紙為基礎(chǔ)。當(dāng)例如在媒體監(jiān)控公司收到報紙時,將報 紙移交至合格的閱讀人,其快速通讀報紙,尋找相關(guān)文章,例如,提到其客戶的文章。閱讀人 尋找類似公司名稱的詞、人名,和/或其他代表某些主題、話題或主旨的關(guān)鍵詞,以確定哪 些文章是相關(guān)文章。當(dāng)在報紙的一頁上發(fā)現(xiàn)關(guān)鍵詞時,閱讀人標(biāo)記這些關(guān)鍵詞。當(dāng)已經(jīng)閱讀整頁并且 已經(jīng)標(biāo)記所有關(guān)鍵詞時,閱讀人一個關(guān)鍵詞一個關(guān)鍵詞地進行評測,以確定該文章對于客 戶來說是不是相關(guān)的。如果發(fā)現(xiàn)該文章是相關(guān)的,那么閱讀人或助手將關(guān)于客戶的文章物 理切割下來,并將其發(fā)送給客戶。該過程的耗時部分是花費在尋找關(guān)鍵詞上的時間。在左上角開始并在右下角結(jié)束 的每頁的閱讀時間相對于一頁上的關(guān)鍵詞的數(shù)量是不變的。這就導(dǎo)致如果一份報紙中只有 幾篇相關(guān)文章,那么每次切割都非常耗時。因此,大部分時間花費在閱讀上是低效率的。通過使用傳統(tǒng)的掃描儀可能在一定程度上進行自動處理,該掃描儀一頁一頁地掃描整份報紙,并且生成報紙頁面的數(shù)字圖像,以儲存電子版本(例如,以JPG、TIFF或PDF 格式),從而儲存在文件系統(tǒng)或數(shù)據(jù)庫中。然后,檢索每個文件,以進行光學(xué)字符識別,以便 生成這樣的文件在這些文件中,根據(jù)一定的編碼方案(例如,ASCII)代表各個所識別的 字符。也將這些文件儲存在文件系統(tǒng)或數(shù)據(jù)庫中。此外,對所謂的搜索引擎裝載一組關(guān)鍵 詞,搜索引擎進而檢索字符和字符順序編碼在其中的這些文件,以提供切割列表的形式的 輸出。切割列表為從報紙切割文章的人提供引導(dǎo)其到物理報紙中的該頁面的信息——其規(guī) 定待切割的文章的名稱和其大致位置。此自動處理使得生產(chǎn)率相對于人工處理大幅增加。然而,由于數(shù)字圖像代表了原始材料的電子拷貝,所以認為此處理在很多法規(guī)下 侵犯了作者的版權(quán)。在某些法規(guī)下,即使在顯示屏上顯示所掃描的圖像,也會被認為是侵犯 作者的版權(quán)的行為。對于文本而言,無法直接搜索數(shù)字圖像,而是需要通過光學(xué)字符識別 (OCR)將數(shù)字圖像轉(zhuǎn)換成編碼數(shù)字形式。然而,從此轉(zhuǎn)換的輸出,即,編碼數(shù)字形式的輸出, 也將被認為是對版權(quán)的侵犯。在一些國家中,如果電子拷貝是搜索過程或概要文字的“暫時的和附帶的”以及 “本質(zhì)的和整體的”部分,那么可能不會將其認為是對作者版權(quán)的侵犯。如果通過人工閱讀文本媒體來進行的傳統(tǒng)媒體監(jiān)控過程是自動的,那么將會制作 文本媒體的拷貝。這些文本媒體的拷貝的產(chǎn)生是一個與版權(quán)法相關(guān)的問題。因此,版權(quán)法 可能是對自動媒體監(jiān)控的障礙。因此,文本媒體的自動監(jiān)控和防止違反版權(quán)法是仍待解決 的問題。因此,需要有一種技術(shù)方案來解決文本媒體(例如,報紙、書)的自動監(jiān)控的問題 和避免違反版權(quán)法的問題。US 6,904,183 B2公開了一種包括電子攝像機的電子圖像捕捉設(shè)備,電子攝像機 具有檢測器和鏡頭,該鏡頭具有適于限制入射在檢測器上的輻射的視場(view of field)。 提供一致動器,以將攝像機及其視場在文檔上移動經(jīng)過,并提供一控制器,以獲得與文檔的 不同區(qū)域相對應(yīng)的一組重疊子圖像。提供處理裝置,以形成被這組子圖像覆蓋的文檔部分 的復(fù)合圖像。產(chǎn)生一組子圖像,子圖像各自包括與出現(xiàn)在相應(yīng)子圖像中的字符相對應(yīng)的字 符數(shù)據(jù)集。將每個子圖像的內(nèi)容拼合(stitch,縫合)在空白文本文檔中,以產(chǎn)生包含了所 掃描的文檔的文本內(nèi)容的完整復(fù)合文本文檔。在拼合之前,子圖像首先經(jīng)過光學(xué)字符識別 (OCR)例程,因此,拼合在字符級別執(zhí)行。這種掃描儀可能具有比所謂的平臺式掃描儀占據(jù) 更少的桌面空間的優(yōu)點。以上應(yīng)用解決了文檔的文本掃描的自動化的問題。但是,關(guān)于版權(quán)法,則是以上應(yīng) 用或其他應(yīng)用沒有提出也沒有解決的問題,因為以上應(yīng)用中的文檔以數(shù)字形式被復(fù)制了。由于拷貝違反版權(quán)法,所以,當(dāng)在印刷的文本媒體(例如,報紙或書)上進行文檔 掃描時,或當(dāng)在電子顯示的文本文檔(例如,電子書)上進行掃描時,需要解決此問題。因此,在現(xiàn)有技術(shù)中沒有解決新聞媒體的自動監(jiān)控和避免違反版權(quán)法的問題。
發(fā)明內(nèi)容
公開了一種掃描文檔的計算機執(zhí)行的方法,包括以下步驟-將限于覆蓋文檔的界定區(qū)域(delimited,分隔區(qū)域)的視域(field,視區(qū))的至 少一個記錄獲取至存儲器;-處理所述至少一個記錄,以執(zhí)行字符識別;
-當(dāng)識別出字符時,將其記錄在存儲器中;并且,在移動的位置進行記錄的同時, 重復(fù)執(zhí)行以上步驟,以逐漸獲得字符串;其特征在于,-對照預(yù)定條件評測字符串;-如果不滿足條件,則確定是否從存儲器中清除至少一個記錄的至少一部分;-如果滿足條件,則提供輸出,并從存儲器中清除字符串的至少一部分和至少一個 記錄的至少一部分。這是一個優(yōu)點當(dāng)滿足條件時,則提供輸出,并清除字符串的至少一部分和至少一 個記錄的一部分(輸出由此產(chǎn)生),以避免制作文檔的拷貝,并避免危及版權(quán)法。如果不滿 足條件,則確定是否清除記錄的至少一部分,以避免超過閾值的溢出??梢员苊獯鎯^多 關(guān)于文檔的信息,并且可以確保會注意到,并確保在達到記錄數(shù)量的上限或閾值之前可以 清除記錄的至少一部分。將關(guān)于字符的信息存儲在存儲器中,并且,當(dāng)掃描進行時,例如,當(dāng) 識別并輸出詞(word)時,可以清除此信息??梢詫⑼ㄟ^此方法的掃描表示為窺視孔掃描 (peephole scanning)0因此,調(diào)節(jié)執(zhí)行文檔掃描的計算機和相關(guān)設(shè)備、器材和/或機器的硬件或軟件,使 得其以相對于版權(quán)法來說在法律上正確的方式起作用。如果沒有從存儲器清除任何表示文 檔內(nèi)容的信息,那么違反版權(quán)法。相反,如果清除所有表示文檔內(nèi)容的信息,則將沒有可用 于文本媒體的監(jiān)控測的信息。本發(fā)明提供的上述方法在不清除任何信息和清除所有信息之 間,因為,在本發(fā)明中,當(dāng)提供輸出時,所選擇的清除動作使得可能執(zhí)行文本媒體的自動監(jiān) 控,同時避免違反版權(quán)法。因此,本發(fā)明通過上述計算機執(zhí)行的掃描方法解決了將監(jiān)控文本媒體的過程自動 化的問題,并且,本發(fā)明通過從存儲器清除表示文檔內(nèi)容的信息的一部分,使得在存儲器中 將不存在文檔的完整拷貝,而解決了避免違反版權(quán)法的問題。窺視孔掃描可通過將像場(image filed,像域)移動至移動位置并用攝像機獲取 記錄來執(zhí)行。然而,窺視孔掃描也可通過在文檔頁上方安裝多個攝像機并依次使用這些攝 像機來獲取記錄。此外,窺視孔掃描也可以通過(例如)顯示文檔的屏幕或其他形式的連 續(xù)文檔表示的視頻記錄來執(zhí)行。當(dāng)評測字符串并進行輸出時,從存儲器清除一部分字符串和一部分記錄,以排除 在掃描過程中生成文檔或部分文檔的拷貝。本實施方式的另一優(yōu)點是,如果在字符串中發(fā)現(xiàn)整個詞或詞的一部分,那么在提 供輸出之前可以不清除此信息。因此,在此情況中,期望的信息可以是整個詞或詞的一部 分。如果在字符串中沒有詞的指示,那么也可以清除記錄的至少一部分,以使得最終將沒有 表示文檔內(nèi)容的內(nèi)容或信息會被存儲。另一優(yōu)點是,從存儲器清除信息的技術(shù)效果是,與如果存儲所有信息相比,減少了 所存儲的信息的量,因此可減小存儲裝置和/或存儲器使用的規(guī)格,和/或占據(jù)更少的空 間。除了上述優(yōu)點以外,本發(fā)明包括已知技術(shù)的自動化效果和優(yōu)點,例如快速且可靠, 降低人工執(zhí)行的人力工作的成本,減少人們可能犯的錯誤和不規(guī)則性等。此外,有利的是,與現(xiàn)有技術(shù)相比,對于數(shù)據(jù)存儲可能需要更小的存儲器或更少的存儲容量,因為在文檔的掃描過程中從存儲器中連續(xù)地且規(guī)則地清除并刪除數(shù)據(jù)。字符可能是文字、符號、標(biāo)記和/或字素(grapheme),例如字母、漢字、數(shù)字、標(biāo)點 符號,以及世界上任何文字系統(tǒng)(writing system)中的所有單獨符號。在一個實施方式中,如果不滿足預(yù)定條件,那么確定是否從存儲器清除至少一個 記錄的至少一部分,包括確定所評測的字符的數(shù)量;以及-如果少于預(yù)定數(shù)量的字符被評測,那么,不清除至少一個記錄的至少一部分;以 及-如果多于或等于預(yù)定數(shù)量的字符被評測,那么,清除至少一個記錄的至少一部 分。本實施方式的一個優(yōu)點是,如果已經(jīng)評測了多于或等于預(yù)定數(shù)量的字符,那么從 存儲器清除至少一個記錄的至少一部分。因此,本實施方式確保不超過表示文檔內(nèi)容的信 息的上限或閾值。然而,如果少于預(yù)定數(shù)量的字符被評測,那么不清除至少一個記錄的至少 一部分,因為在清除之前可以存儲更多表示文檔內(nèi)容的信息。在一個實施方式中,本方法進一步包括,如果不滿足條件,則確定是否從存儲器清 除字符串的至少一部分。有利的是,如果不滿足條件,則從存儲器清除字符串的至少一部分,因為這可以減 少表示文檔內(nèi)容的信息。在一個實施方式中,預(yù)定條件包括,字符串包括或被確認為至少一個詞。本實施方 式的一個優(yōu)點是,當(dāng)字符串包括一個詞時,將記錄該詞,并清除字符串和記錄(該詞來自其 中)的至少一部分,以避免產(chǎn)生文檔的拷貝,從而避免違反版權(quán)法。在一個實施方式中,提供包括至少一個詞的索引列表。本實施方式的一個優(yōu)點是, 將識別的詞記錄在索引列表中,從而,此信息表示文檔內(nèi)容并可被訪問,以便(例如)在之 后與關(guān)鍵詞列表進行匹配。在一個實施方式中,本方法包括,如果至少一個詞與其中一個預(yù)定的中止詞 (stop-word)匹配,那么從索引列表清除、省去或省略此至少一個詞。本實施方式的一個優(yōu)點是,并不是所有詞都在索引列表中提供,因為可能一些詞 或詞組從未定義為關(guān)鍵詞。通過從索引列表省去leaving out這些所謂的中止詞,與如果所 有詞均包括在索引列表中相比,該索引列表可以更短,并且,當(dāng)索引列表不包含不希望的詞 和信息時,可以更易于訪問信息。這些中止詞或中止詞組可以是,例如,諸如“例如”、“和”、 “等等”、“其中”、“或”、“這個”、“一個”、“等”等的詞。中止詞的定義可以是,中止詞或中止詞 組不代表關(guān)于文檔內(nèi)容的有意義的、有價值的或重要的信息??梢詫⑴c中止詞相對的詞定 義為吻合詞(hit-word,命中詞),例如,包含關(guān)于文檔內(nèi)容的信息的詞。因此,可以將索引 列表定義為包含這樣的詞的列表,這些詞包含關(guān)于文檔內(nèi)容的有意義的信息。替代地,甚至可以在將中止詞作為詞輸出之前,就從存儲器清除這些中止詞,即, 本方法包括,如果至少一個詞與其中一個預(yù)定中止詞匹配,那么清除、省去或省略該至少一 個詞。此外,本方法可以包括,提供索引列表,該索引列表包括來自字符串的沒有被清 除、省去或省略的至少一個詞。
在一個實施方式中,在詞之前和之后具有空格(space,間隔)的情況下,識別該 詞。本實施方式的一個優(yōu)點是,可以通過本方法輕松地識別詞??崭窨梢允且粋€句子 中的詞之間的間隔。該間隔可以是空白或間隙,此處沒有字符,因此文檔在這些位置中不包 含信息??梢詫⒋朕o“之前”和“之后”定義為表示緊接地在之前和之后和/或直接在之前 或之后,即,間隔可以是緊跟詞的相鄰的地方、地點、位置或區(qū)域。如果一個詞是文本中的第一個詞,或行間隔或行移動(line shift)之后的第一個 詞,那么在該詞之前可能沒有間隔,而是僅在該詞之后有間隔。在一個實施方式中,在一詞之前有間隔并且在該詞之后有和字母不同的字符的情 況下,識別該詞。本實施方式的一個優(yōu)點是,通過本方法,可以識別一個句子中的最后一個詞。在一 個句子中的最后一個詞之后,可能沒有間隔,但是,可能有句號、逗號、感嘆號、問號等。替代地和/或附加地,詞可以包括上標(biāo)和/或下標(biāo)文本,詞可以用引號框起來,詞 可以存在于圖片中,詞可以通過連字號分成兩行或更多行,詞可以是帶有連字號的等。在一個實施方式中,通過包括一種或多種語言中的每一個詞的數(shù)據(jù)庫來識別詞, 并且,如果在字符串與數(shù)據(jù)庫中的詞之間存在匹配或趨同(convergence),或者如果字符串 被識別為數(shù)據(jù)庫中的其中一個詞,那么將所述字符串定義為詞。本實施方式的一個優(yōu)點是,可以通過在包括書寫文檔的文本所用的語言的詞的數(shù) 據(jù)庫中識別詞,從而來識別這些詞??梢詫⒄Z言定義為書面語和/或口語。在一個實施方式中,輸出是所識別的至少一個詞。本實施方式的一個優(yōu)點是,通過 輸出至少一個詞,有可能檢測表示文檔內(nèi)容的信息。在一個實施方式中,輸出是文檔中的位置的參考,至少一個詞位于該位置處。本實施方式的一個優(yōu)點是,將輸出作為參考文檔中的詞的地點、位置或區(qū)域,因 此,后來會發(fā)現(xiàn),當(dāng)從存儲器清除記錄和詞時,由此給出了對于記錄的位置的參考,上述記 錄包含了關(guān)于詞位置的信息。該位置可以是,例如,記錄的大致位置。利用位置確定來獲取 記錄是有利的,這將使得在后面更易于給出對于文檔中的詞的位置的參考。在一個實施方式中,產(chǎn)生并存儲關(guān)于至少一個詞在文檔中的位置或地點的信息。在一個實施方式中,至少一個詞被代表為一代碼。本實施方式的一個優(yōu)點是,可通 過任何適當(dāng)?shù)拇a(例如,字符、字母、符號、標(biāo)記、參考標(biāo)號、對關(guān)鍵詞列表的索引等)來代 表被識別為詞的字符串的輸出。在一個實施方式中,輸出包括索引列表和對于如下地點的參考,該地點代表受到 掃描的文檔中相應(yīng)詞的位置。本實施方式的一個優(yōu)點是,輸出索引列表和位置參考,因為,由此有可能檢測表示 文檔內(nèi)容的信息和詞在文檔中的位置。在一個實施方式中,生成的關(guān)鍵詞列表包括多個預(yù)定的關(guān)鍵詞。本實施方式的一個優(yōu)點是,通過生成關(guān)鍵詞列表,有可能檢測文檔中的關(guān)鍵詞。這 些關(guān)鍵詞可以是這樣的詞,它們被選擇成是在文檔中進行搜索的詞,因為這些詞對于,例如 希望知道在報紙等中如何提及一名稱、公司等的客戶來說,可能是重要的。關(guān)鍵詞可能是人 名、公司名、產(chǎn)品名等。
9
在一個實施方式中,將關(guān)鍵詞列表與索引列表進行比較,如果關(guān)鍵詞列表中的一 關(guān)鍵詞與索引列表中的一詞匹配,那么提取、記錄或記下此詞。本實施方式的一個優(yōu)點是,當(dāng)將索引列表與預(yù)定的關(guān)鍵詞列表進行比較時,可以 發(fā)現(xiàn)兩個列表之間的匹配,進而提取同時出現(xiàn)在索引列表和關(guān)鍵詞列表中的詞。有利的是,可以執(zhí)行電子輸入的基于內(nèi)容的評測,以發(fā)現(xiàn)相關(guān)的文檔信息片段, 即,關(guān)鍵詞。可以將此定義為過濾,因此可以執(zhí)行內(nèi)容的過濾,或表示內(nèi)容的信息的過濾???以過濾文檔內(nèi)容,以提取某人希望獲得的信息并過濾掉剩下的信息。為了執(zhí)行內(nèi)容的過濾,可能定義過濾器特性??赏ㄟ^預(yù)定條件定義過濾器特性。預(yù) 定條件可以是,例如,詞的識別、關(guān)鍵詞的識別、字符串的最大長度等。如果關(guān)鍵詞的識別是 過濾器特性,那么,根據(jù)這一點,僅有關(guān)鍵詞通過過濾器,而將文檔中剩下的信息留在后面。 通過過濾文檔的內(nèi)容,不會得到文檔的完整拷貝,并且僅從文檔中提取期望的信息。期望的信息可以是比文檔中的所有信息少的信息,從而使得僅提取文檔內(nèi)容的一 部分,因此,文檔的一部分可以不作為輸出而提供。實際上,當(dāng)過濾器識別一詞或關(guān)鍵詞時,可以存儲該詞或關(guān)鍵詞及其在文檔中的 位置。一旦存儲了該詞或關(guān)鍵詞及其位置,便可刪除包含該詞或關(guān)鍵詞的記錄,例如圖像, 因為該詞或關(guān)鍵詞需要的所有信息都被register 了。這樣,不會產(chǎn)生文檔的任何拷貝,因 為掃描涉及過濾處理而不涉及拷貝生成。本實施方式的另一優(yōu)點是,可相繼地布置并連續(xù)地重新發(fā)現(xiàn)詞或關(guān)鍵詞,以在從 文檔中切割文本、列表生成、摘要書寫等中使用??梢蕴峁┦境隽嗽~或關(guān)鍵詞在文檔中的位 置的文檔模板,進而該文檔模板可以用來在不制作文檔拷貝的情況下給出詞或關(guān)鍵詞在原 始文檔中的物理位置的概覽。除了關(guān)鍵詞以外的所有其他詞都可以例如用文檔模板中的灰 色區(qū)域指明。還可以在文檔模板中表示詞或關(guān)鍵詞的字體大小以及例如灰度顏色,使得可能確 定詞或關(guān)鍵詞是否位于標(biāo)題中,是否位于主體文本中等。本實施方式的另一優(yōu)點是,可在掃描之后找出詞或關(guān)鍵詞在文檔中的位置,并且, 可用此信息來比較詞或關(guān)鍵詞相對于彼此的位置,以確定某些詞或關(guān)鍵詞是否位于彼此附 近。當(dāng)與其他詞或關(guān)鍵詞結(jié)合時,詞或關(guān)鍵詞可能具有特殊意義,并且,它們相對于彼此的 位置可能包含對于客戶來說重要的信息??赏ㄟ^不同方式來確認關(guān)于詞或關(guān)鍵詞的位置的信息,例如-通過詞或關(guān)鍵詞的坐標(biāo);-通過詞或關(guān)鍵詞所處的行的位置;-通過詞或關(guān)鍵詞在所處的文檔中是哪一編號的詞;_通過印刷符號,其中,印刷符號包括句號、逗號等;-通過詞或關(guān)鍵詞在所處的文檔的哪一編號的句子中;-通過詞或關(guān)鍵詞在哪一編號的區(qū)段或段落中。在一個實施方式中,本方法包括將所選擇的記錄拼合在一起而成為一復(fù)合記錄。本實施方式的一個優(yōu)點是,有可能將所選擇的記錄拼合在一起而成為更大的記錄 或圖像。這是有利的,因為,如果對包含許多不同字體大小的字符(即,標(biāo)題的大字符字體 大小和主體內(nèi)容、說明文字等的較小的字符字體大小)的報紙進行掃描,視域尺寸有時將比字符(小的記錄或圖像尺寸)的字體大小小很多。并且,由于優(yōu)選地,視域尺寸可以比經(jīng) 受字符識別的最小的字符對象的字體大小的(例如)5倍小,所以較大的字符將通常延伸經(jīng) 過不止一個記錄,因此,需要將所選擇的記錄拼合在一起??梢詫⑽臋n頁上的字符的字體大小作為輸入提供給窺視孔掃描儀,例如,由操作 員等鍵入。在一個實施方式中,處理復(fù)合記錄,以執(zhí)行對延伸經(jīng)過多個所選擇的記錄的字符 的識別。本實施方式的一個優(yōu)點是,在將記錄拼合在一起之后,可執(zhí)行延伸經(jīng)過多個所選 擇的記錄的字符的字符識別,因為復(fù)合記錄將提供完整字符的圖像或記錄。在一個實施方式中,當(dāng)處理至少一個記錄以識別字符未導(dǎo)致字符的識別時,執(zhí)行 將所選擇的記錄結(jié)合在一起而成為復(fù)合記錄的步驟。本實施方式的一個優(yōu)點是,當(dāng)不可以 從至少一個記錄的處理識別字符時,執(zhí)行復(fù)合記錄的拼合和處理。這樣,即使字符延伸經(jīng)過 不止一個記錄,也可確定這些字符。在一個實施方式中,預(yù)定條件包括,當(dāng)已經(jīng)拼合預(yù)定數(shù)量的記錄時,所拼合的復(fù)合 記錄是否導(dǎo)致字符的識別。本實施方式的一個優(yōu)點是,加以注意,并且,如果復(fù)合記錄與字符不相似,那么可 以停止處理。然后,復(fù)合記錄可以是圖片的一部分。預(yù)定數(shù)量的所拼合的復(fù)合記錄可以確 保,不會由于掃描儀處在字符搜索的過程中而無意地處理了完整的圖像。通過本方法,確保 適當(dāng)?shù)念A(yù)定最大數(shù)量的拼合記錄被選擇,從而不會違反版權(quán)法。本實施方式的另一優(yōu)點是,確保將在達到記錄數(shù)量的上限或閾值之前加以注意。 如果在停止之前過多的記錄被評測,那么掃描可能違反版權(quán)法,但是,本實施方式確保這將 不會發(fā)生。在一個實施方式中,預(yù)定條件包括,在相鄰記錄中出現(xiàn)相同的顏色。本實施方式的一個優(yōu)點是,如果相鄰記錄(即,彼此緊鄰的記錄)包含相同的顏 色,那么這些記錄將可能是字符而不是圖片。另一方面,如果相鄰記錄不包含相同的顏色, 那么其可能是圖片、照片、圖畫等的記錄。為了避免掃描圖片,將清除文檔的此部分的掃描。在一個實施方式中,當(dāng)滿足預(yù)定條件時,清除復(fù)合記錄。本實施方式的一個優(yōu)點是,當(dāng)滿足條件時,例如,進行輸出并從文檔獲得所有期望 的信息時,可清除記錄的拼合。這樣,某人將避免制作文檔的拷貝,進而避免違反版權(quán)法。在一個實施方式中,預(yù)定條件包括,評測比預(yù)定數(shù)量少的字符。本實施方式的一個優(yōu)點是,確保如果所評測的字符的數(shù)量超過預(yù)定上限或閾值, 那么將停止字符識別處理。如果評測過多字符,那么可能違反版權(quán)法,但是,本實施方式確 保這將不會發(fā)生。在一個實施方式中,預(yù)定條件包括,字符字體大小小于預(yù)定字體大小。本實施方式的一個優(yōu)點是,如果字符字體大小大于最大的預(yù)定字體大小,那么將 停止字符識別處理,以避免掃描大字符,否則這可能將是非常耗時的過程,而這可能并不是 所希望的。在一個實施方式中,將視域構(gòu)造為具有彼此相鄰地布置在連續(xù)文本(即,完整文 本)中的11個詞的尺寸。替代地,將視域構(gòu)造為具有在連續(xù)文本中彼此相鄰的5個詞的尺寸、在連續(xù)文本中彼此相鄰的15個詞的尺寸、在連續(xù)文本中彼此相鄰的20個詞的尺寸、在 連續(xù)文本中彼此相鄰的25個詞的尺寸等。如果視域包括被彼此相鄰地布置在連續(xù)文本中 的11個詞,那么視域可以覆蓋書的一頁的寬度或A4文檔尺寸的文檔的寬度,同時,視域的 高度可以是字體的尺寸。如果掃描多欄目頁面,例如報紙頁面,那么每個欄目行可以包含比 在連續(xù)文本中彼此相鄰的11個詞少的詞,并且,多欄目頁面的寬度由此也可以包含比在連 續(xù)文本中彼此相鄰的11個詞少的詞。多欄目頁面的寬度可以包含多于11個詞,但是,這11 個詞在連續(xù)文本中可能不是彼此相鄰的。因此,在一個實施方式中,將視域構(gòu)造為具有與文 檔的寬度和字符的字體大小的高度相對應(yīng)的尺寸。在一個實施方式中,將視域構(gòu)造成具有比經(jīng)受字符識別的最小字符的尺寸的5倍 小的尺寸。替代地,將視域構(gòu)造為具有如下定義的尺寸-具有10mm、20mm、30mm 等的尺寸;-每個文檔頁面的視域?qū)?yīng)預(yù)定的數(shù)量,例如,100或200;-與最大的字符字體大小相關(guān);-與最小的字符字體大小相關(guān);-與文檔頁面尺寸相關(guān)。這些實施方式的優(yōu)點是,確保在一個記錄中不掃描過多字符,因為這會導(dǎo)致掃描 過多文本,由此會無意地違反版權(quán)法。通過確保視域具有例如比最小字符的字體大小的5 倍小的尺寸,一次不可能無意地掃描過多字符。視域的尺寸還可能比最小字符的字體大小的4倍小,或比最小字符的字體大小的 6倍小。優(yōu)選地,在清除圖像和字符串之前掃描并識別全部詞。但是,如果掃描了許多字符 而沒有識別出詞,那么可以在沒有識別出詞的情況下清除這些字符串和圖像。這可能是這 樣的情況,如果文本包括字符識別系統(tǒng)/軟件不知道的語言或詞,那么因此可以在制作預(yù) 定數(shù)量的記錄之后清除字符和圖像,以避免存儲文檔的過多內(nèi)容,這可能違反版權(quán)法。在一個實施方式中,同時獲取至少兩個記錄。本實施方式的一個優(yōu)點是,通過例如同時垂直地獲取多個記錄,掃描處理可以變 得明顯更快。同時,記錄過多文本(其可能會違反版權(quán)法)的危險將不存在,因為,通過垂 直地獲得多個記錄,將不同時記錄水平地書寫在文檔頁面上的詞和句子。當(dāng)已經(jīng)處理記錄以執(zhí)行光學(xué)字符識別,并且出現(xiàn)的詞被識別出時,每個記錄最終 都被清除,因此,不會制作出文檔的拷貝。此外,在一些語言中以及在一些國家中,在頁面上可能是從右向左閱讀,而不是從 左向右閱讀,和/或垂直地閱讀而不是水平地閱讀,和/或從頁面底部向頁面頂部閱讀,而 不是從頁面頂部向頁面底部閱讀,等等。因此,也可以在頁面上從右向左而不是從左向右地 執(zhí)行掃描,和/或垂直地而不是水平地執(zhí)行掃描,和/或從頁面底部向頁面頂部而不是從頁 面頂部向頁面底部地執(zhí)行掃描,等等。在一些實施方式中,在所掃描的文檔上的文本的處理可以包括機器翻譯(MT),其 是計算語言學(xué)的領(lǐng)域,其中,用計算機軟件將文本從一種語言翻譯成另一種語言?;旧?, 機器翻譯執(zhí)行一種語言中的詞向另一種語言中的詞的簡單替代。機器翻譯可以是基于規(guī)則的機器翻譯、基于實例的機器翻譯、統(tǒng)計機器翻譯(SMT)等。在一些實施方式中,在所掃描的文檔上的文本的處理可以包括重述或改述,S卩,可 以將文本的詞或句子重述或改述成相同語言的具有與原始詞或句子相同意義的不同詞或 句子。當(dāng)使用根據(jù)本發(fā)明的方法時,例如,掃描三個詞,將其存儲在存儲器中,然后進行處 理。通過軟件程序產(chǎn)生三個詞的意義或意思,并且,針對三個原始詞生成一個或多個同義詞 或同義句。因此,生成了原始詞、句子或文本的等同詞、句子或文本,具有與原始詞、句子或 文本相同的意義或意思,但不違反版權(quán)法。應(yīng)理解,可以處理多于或少于三個詞,以重述或 改述原始文本或部分文本。在窺視孔掃描處理的一些實施方式中,在掃描之前,利用某種覆蓋物在第一區(qū)域 中部分地隱藏或覆蓋待掃描的文檔,并且,當(dāng)已經(jīng)掃描所覆蓋的文檔,且已經(jīng)處理并刪除內(nèi) 容和圖像時,隨之在掃描之前利用某種覆蓋物再次部分地隱藏或覆蓋文檔,但是,現(xiàn)在是在 相對的第二區(qū)域中。有利的是,掃描可這樣執(zhí)行,部分地覆蓋待掃描文檔,然后在相對區(qū)域中部分地覆 蓋該文檔,因為這使得掃描可快速且有效地執(zhí)行。本發(fā)明涉及不同方面,包括上述和下述的方法,以及相應(yīng)的方法、裝置、使用和/ 或產(chǎn)品裝置,每個均產(chǎn)生一個或多個結(jié)合第一所述方面描述的好處和優(yōu)點,并且,每個均具 有與結(jié)合第一所述方面描述的和/或在所附權(quán)利要求中公開的實施方式相應(yīng)的一個或多 個實施方式。特別地,這里公開的是計算機可讀的介質(zhì),其編碼有當(dāng)在計算機上運行時執(zhí)行根 據(jù)以上任一實施方式的方法的程序。另一方面是包括掃描裝置和裝載有程序的計算機的系統(tǒng),當(dāng)上述程序在計算機上 運行時,該程序執(zhí)行根據(jù)以上任一實施方式的方法。又一方面是文檔掃描儀,包括-掃描頭,用于獲取至少一個限于覆蓋文檔的界定區(qū)域的視域的記錄;-處理器,適于識別記錄中的字符;_數(shù)據(jù)存儲器,用于存儲至少一個記錄并用于存儲所識別的字符;-程序存儲器,在處理器上存儲一組可執(zhí)行程序指令,以執(zhí)行根據(jù)任一實施方式的 方法。
下面將參考附圖給出實施方式的詳細描述,附圖中圖1示出了掃描方法的流程圖;圖2示出了窺視孔掃描儀的全部處理過程;圖3示出了窺視孔掃描處理的一個實例;圖4示出了與閱讀頭運動重疊的報紙頁面的區(qū)段;圖5示出了窺視孔掃描處理的一個實例。
具體實施例方式本發(fā)明的數(shù)字掃描儀掃描文檔,而不會生成文檔的數(shù)字拷貝。在掃描操作的任何
13給定時間,所謂的窺視孔掃描儀可以在其存儲器中僅包含幾個詞或部分詞,之后清除或重 寫這些詞或部分詞??赏ㄟ^包含文檔的詞的索引列表來保存文檔中的信息。通過此掃描和 搜索方法,使用者不應(yīng)侵犯相應(yīng)作者的版權(quán)。圖1示出了掃描方法的流程圖??梢酝ㄟ^移動記錄的位置101來執(zhí)行掃描,例如,通過掃描儀在文檔(例如,報紙) 的表面上方以連續(xù)方式移動來進行,并且,對于每個步驟,掃描儀都獲取在文檔的視域中的 記錄(例如,圖像)102。視域優(yōu)選地是小的,并且,可以不同方式定義視域的尺寸-視域可構(gòu)造成具有比經(jīng)受字符識別的最小字符的字體大小的5倍小的尺寸;-視域可構(gòu)造成具有IOmm的尺寸;-視域可構(gòu)造成具有與預(yù)定數(shù)量的記錄或每個文檔頁面的像域相對應(yīng)的尺寸;-視域可構(gòu)造成具有與最大字符字體大小相關(guān)的尺寸;-視域可構(gòu)造成具有與最小字符字體大小相關(guān)的尺寸;
-視域可構(gòu)造成具有與文檔頁面尺寸相關(guān)的尺寸。如上所述,可通過將像域移動至移動位置并用攝像機獲取記錄來執(zhí)行窺視孔掃 描。替代地,也可通過在文檔頁面上方安裝多個攝像機并依次使用這些攝像機獲取記錄來 執(zhí)行窺視孔掃描。例如,可以在文檔上方成正方形地安裝100個攝像機,并且,右上角的第 一攝像機可以獲取第一記錄,與第一攝像機相鄰的第二攝像機可以獲取第二記錄等,直到 已經(jīng)掃描整個文檔。也可通過(例如)顯示電子文檔(例如,電紙書(electronic book)或電子書 (e-book))的顯示屏的視頻記錄來執(zhí)行窺視孔掃描??赏ㄟ^在位于固定窺視孔掃描儀(例 如,視頻攝像機)的前面的顯示屏上向上或向下滾動文檔來記錄顯示屏上的文檔,或者可 通過將窺視孔掃描儀移動經(jīng)過屏幕來記錄顯示屏上的文檔。在所有情況中,例如,可水平地 或垂直地執(zhí)行掃描。此外,可以通過使用來自計算機的監(jiān)視器輸出(例如,視頻圖形陣列 (VGA)監(jiān)視器信號等)來執(zhí)行視頻放映。監(jiān)視器信號攜帶將在監(jiān)視器上顯示的連貫的電子 文檔。窺視孔掃描儀可以從連貫的監(jiān)視器信號提取窺視孔窗口,例如,40個連續(xù)掃描行的每 一行中的40個像素,從而,可以從監(jiān)視器信號中取出與窺視孔窗口對應(yīng)的圖片。然后,可以 向下或向上或向左或向右或?qū)堑氐纫苿痈Q視孔窗口,并且,可以用窺視孔掃描儀掃描新 的窺視孔窗口。在每次掃描時,均獲取與窺視孔窗口對應(yīng)的圖片。然后,所記錄的數(shù)據(jù)可以 通過字符識別在計算機中轉(zhuǎn)化,并進行如上所述的處理。在掃描處理中的每個步驟之后,窺視孔掃描儀都將包含文檔表面的區(qū)段的小的記 錄103,例如,圖像。該記錄可以是灰度的、黑/白的(即二元的),或彩色的。用光學(xué)字符識別(OCR)分析每個記錄或圖像區(qū)段,以確定其是否包含字符、部分 字符、圖片的一部分、空白視域或其組合104。如果記錄區(qū)段包含字符,那么該記錄區(qū)段被登記并被轉(zhuǎn)移至所謂的詞構(gòu)造器105, 見下文。如果記錄區(qū)段包含字符的一部分且字符因此未被識別,那么進行下一次記錄106, 并且,OCR等候確定是否可將這些記錄區(qū)段拼在一起,以形成一字符,該字符可被轉(zhuǎn)移至詞 構(gòu)造器。如果記錄區(qū)段包含圖片或圖片的一部分,那么可以清除該圖片部分,以避免拷貝受版權(quán)保護的圖片、照片等。記錄區(qū)段的剩余部分將用來確定,是否可將其與后續(xù)的記錄區(qū) 段拼在一起以形成字符。在連續(xù)處理中,詞構(gòu)造器將收集所掃描的字符,并形成其詞。當(dāng)形成一詞時,滿足 了預(yù)定條件107,并提供輸出108。然后,這些記錄可以繼續(xù)搜索整個文檔。如果字符串與預(yù)定條件不匹配,那么確定是否應(yīng)從存儲器清除至少一個記錄的至 少一部分109。清除的確定109可以以所評測的字符的數(shù)量為基礎(chǔ)。在一個實施方式中,如 果所評測的字符的數(shù)量小于預(yù)定數(shù)量,那么不清除至少一個記錄的至少一部分,并且,如果 所評測的字符的數(shù)量大于或等于預(yù)定數(shù)量,那么清除至少一個記錄的至少一部分。不管在 步驟110中是否清除至少一個記錄的至少一部分,記錄和掃描都可以繼續(xù)106。當(dāng)從字符串中發(fā)現(xiàn)詞時,檢查整個字符串,而且,當(dāng)字符串形成了在例如兩行上延 展的詞且該詞通過連字號分隔時,也是如此。因此,如果連字號作為當(dāng)前行上的最后一個字 符標(biāo)記出現(xiàn),那么窺視孔掃描儀將繼續(xù)掃描下一行。窺視孔掃描儀可像傳統(tǒng)的掃描儀一樣發(fā)揮作用。傳統(tǒng)的掃描儀通過設(shè)置像域、獲 得圖像,并將圖像存儲在存儲器中來起作用。此外,傳統(tǒng)的掃描儀可執(zhí)行OCR和搜索引擎(SE)處理(例如,尋找關(guān)鍵詞)的任 務(wù)。當(dāng)傳統(tǒng)的掃描儀執(zhí)行這些步驟時,所獲得的信息被存儲,從而制作出所掃描的文檔的拷 貝。掃描儀可以是平臺式掃描儀、滾筒式掃描儀、進給式掃描儀等。窺視孔掃描儀可以執(zhí)行這些相同的三個任務(wù)掃描、字符識別和可能的關(guān)鍵詞匹 配。但是,窺視孔掃描儀在一個連續(xù)操作中執(zhí)行這些任務(wù),且不會生成文檔的任何拷貝。傳 統(tǒng)的掃描儀典型地同時獲取整個文檔的圖像,而窺視孔掃描儀每次僅獲得文檔的界定區(qū)域 的圖像。圖2示出了窺視孔掃描儀的整個處理過程,而圖1示出了其詳細的處理過程。窺 視孔掃描儀“閱讀”文檔301,執(zhí)行光學(xué)字符識別(OCR) 302,并搜索詞303,如圖1中的那樣。 產(chǎn)生的輸出是所掃描的文檔包含的詞的某種表示。此表示可用于不同的目的,例如,用于產(chǎn) 生切割列表,用于產(chǎn)生索引列表,用于制作可能的摘要書面文字等304。窺視孔掃描儀可以結(jié)合硬件、固件和軟件部件。圖3示出了窺視孔掃描處理的一個實例,其整體上與圖1的作用類似。在圖3a) 中,將文檔頁面401放在掃描儀402下方。將掃描儀的閱讀頭403布置在軌道(一個或多 個)405上,上述軌道可在導(dǎo)軌(一個或多個)406上移動,以在文檔的整個表面上方移動。 閱讀頭403通過扁平電纜、USB連接、紅外線通信等與閱讀頭運動控制器408和掃描定序器 (SS)407連接,見圖3b)。在一個實例中,閱讀頭是具有8位灰度分辨率的100X 100像素的CXD陣列。因 此,窺視孔在物理窗口視域中包含10000個像素,相當(dāng)于IcmX Icm,其等于小型頁面尺寸的 千分之一。雖然這里提到閱讀頭的一個實例,但是應(yīng)理解,閱讀頭可具有任何規(guī)格。在圖3b中,掃描定序器(SS) 407控制閱讀頭運動408。通常,閱讀頭的運動是從左向右往復(fù)循環(huán)。如果光學(xué)字符識別(0CR)409和拼合 (jigsaw)OCR 410(見下文)針對以另一方式移動閱讀頭的請求設(shè)置了進程(stage,步驟),例如,水平向左、垂直向下或沿對角線向上,那么會改變此順序。閱讀頭運動408可能由TWAIN接口控制,TWAIN接口是針對圖像獲取裝置的標(biāo)準(zhǔn)。 TWAIN接口可以控制掃描儀閱讀頭的位置(即,閱讀頭的χ、y坐標(biāo)),并控制坐標(biāo)的增加 (即,Δχ、Δγ)等。OCR 409執(zhí)行一系列任務(wù)。它可以搜索窺視孔視域的內(nèi)部區(qū)域,以定位一個或多個 完整字符,然后,它可以搜索邊界,以定位可形成部分字符的形狀。此OCR尋找垂直和水平 邊界線的片段。此OCR可以尋找行空間并評測對準(zhǔn)。此OCR可以尋找連續(xù)的標(biāo)記和欄目分 隔間隔。此OCR可以尋找是較大字符的一部分的單灰色色調(diào)形狀。此OCR可以尋找具有變 化的灰色色調(diào)的區(qū)域,該區(qū)域可以是圖片的一部分。將所識別的字符(例如,帶有其字體大 小和在文檔中的位置)轉(zhuǎn)移至詞構(gòu)造器411。雖然這里提到了 OCR任務(wù)的實例,但是應(yīng)理解,可以任何適當(dāng)?shù)姆绞綀?zhí)行OCR掃描。拼合OCR 410使相鄰的窺視孔圖像或記錄(例如,2、4、9或16個窺視孔圖像)結(jié) 合以形成窗口,然后,這些窗口在重復(fù)處理中經(jīng)受OCR處理。拼合OCR 410與掃描定序器 407相互作用,并請求其需要哪個相鄰窺視孔來制造字符的完整圖像。每個掃描與達到8個 的相鄰掃描相結(jié)合,分析每個掃描以識別字符或部分字符、行和圖片。詞構(gòu)造器411從OCR 409和拼合OCR 410 一個接一個地接收例如包括其字體大小 和位置的字符。這些字符串包括相等的間隔/空白字符和換行。詞構(gòu)造器411將字符組成 詞,并提供包含來自文檔的詞的索引列表。可以將索引列表與關(guān)鍵詞列表進行比較,以發(fā)現(xiàn) 文檔中的任何關(guān)鍵詞??梢郧蹇?清除或用特殊字符代替在文檔中發(fā)現(xiàn)的詞或字符??梢?用預(yù)定的灰色色調(diào)或Pictel代替具有圖片、照片等的區(qū)域。結(jié)合有空格字符和垂直行檢測 的拼合OCR掃描可以評測頁面的給定區(qū)域中欄目分離的似然性,并且,當(dāng)處理文檔內(nèi)容時, 可以考慮此信息。最后,在頁面的末尾掃描之后,HIT收集器412可以具有組合成的詞和例如標(biāo)題行 的列表,并且,產(chǎn)生的輸出可以是詞的索引列表和詞在文檔中的位置,或者,其可以是任何 其他適當(dāng)?shù)妮敵鲂问?。然后,可以將索引列表與關(guān)鍵詞列表進行匹配,以發(fā)現(xiàn)是否文檔中存 在有任何的關(guān)鍵詞。替代地和/或附加地,在一些實施方式中,所掃描的文檔上的文本的處理可以包 括機器翻譯(MT),其是計算語言學(xué)的領(lǐng)域,其中,使用計算機軟件將文本從一種語言翻譯成 另一種語言?;旧?,機器翻譯執(zhí)行一種語言的詞向另一種語言的詞的簡單替換。機器翻 譯可以是基于規(guī)則的機器翻譯、基于實例的機器翻譯、統(tǒng)計機器翻譯(SMT)等。替代地和/或附加地,在一些實施方式中,所掃描的文檔上的文本的處理可以包 括重述或改述,即,可以將文本的詞或句子重述或改述成相同語言的具有與原始詞或句子 相同意義的不同詞或句子。當(dāng)使用根據(jù)本發(fā)明的方法時,例如,掃描三個詞,將其存儲在存 儲器中,然后進行處理。通過軟件程序生成三個詞的意義或意思,并且,生成三個原始詞的 一個或多個同義詞或同義句。因此,生成了原始詞、句子或文本的等價詞、句子或文本,其具 有與原始相同的意義或意思,但不違反版權(quán)法。應(yīng)理解,可以處理多于或少于三個詞,以重 述或改述原始文本或文本的一部分。圖4a示出了與閱讀頭運動重疊的報紙的虛構(gòu)前頁面的區(qū)段,其中,掃描整體上與圖1的作用類似。起始點在文檔頁面的左上角。前三個窺視孔掃描(PH掃描)501、502、 503將被標(biāo)記為沒有內(nèi)容,并被清除或由空白(大約是相同的顏色)重寫。第四PH掃描 (PH4) 504包含信息,但是沒有字符被OCR識別。因此,請求第五垂直PH掃描(PH5)505,并將 其與PH4結(jié)合。OCR查看結(jié)合的掃描PH4+PH5,并檢測字符“Thurs”和其他一些內(nèi)容。掃描 定序器請求第六和第七掃描,PH6506和PH7507。將掃描PH4+PH5+PH6+PH7結(jié)合,并將其提 交給拼合OCR。該OCR返回詞“Thursday”和字符“30t”以及其他一些內(nèi)容。掃描定序器繼 續(xù)請求下一個掃描。可以將詞“Thursday”和例如其字體大小轉(zhuǎn)移至詞識別器。由于字體大 小的原因,可以將詞分類成屬于報頭或標(biāo)題句子。通過下次掃描,將識別出詞“Newspaper”寸。圖4b示出了主體文本的掃描,其遵循類似的搜索策略,如圖1所示,一步接一步地 一個字符一個字符地顯現(xiàn),并一個詞一個詞地組合,其中,在索引列表中保存每個詞。然后, 可以將索引列表與關(guān)鍵詞列表進行比較。如果一個詞未在關(guān)鍵詞列表中被發(fā)現(xiàn),那么可以 用空白重寫該詞所占據(jù)的區(qū)域。圖4b中的實例示出了垂直掃描順序。搜索處理將所示文本片段中以下的詞 “Infopaq”、名字“Jacob” (忽略連續(xù)標(biāo)記)以及最后的姓“Meibom”顯現(xiàn)??梢允刮臋n中的 任何圖片成為空白。圖5示出了窺視孔掃描處理的一個實例,其整體上與圖1的作用類似。在圖5a) 中,在掃描之前,待掃描文檔600已經(jīng)用某種類型的覆蓋物在區(qū)域601中被部分地隱藏或覆 蓋。當(dāng)已經(jīng)掃描圖5a)中所示的被覆蓋的文檔,并已經(jīng)處理和刪除內(nèi)容與圖像時,然后,如 圖5b)中所示的,在掃描之前用某種類型的覆蓋物再次部分地隱藏或覆蓋文檔600,但現(xiàn)在 是在相對的區(qū)域603中進行隱藏或覆蓋。如圖5a)所示,當(dāng)例如以傳統(tǒng)掃描儀掃描被部分覆蓋的文檔時,不產(chǎn)生文檔的拷 貝,因為文檔的整個內(nèi)容由于部分覆蓋而是看不見的或不可理解的。因此,僅文檔的界定區(qū) 域602被掃描,并被存儲在掃描儀的存儲器中。處理被部分覆蓋的文檔的掃描圖像,以執(zhí)行 光學(xué)字符識別(OCR)。將所登記的字符存儲在存儲器中,并且,當(dāng)獲得字符串時,對照預(yù)定條 件評測該字符串。根據(jù)是否滿足預(yù)定條件,可以提供輸出,并且,從存儲器清除字符串的至 少一部分和所掃描的圖像的至少一部分,因此,所掃描的圖像的內(nèi)容(其僅代表文檔600的 一部分602)和所掃描的圖像本身被至少部分地刪除了。因此,最終可以刪除整個所掃描的 圖像(其僅描述文檔600的一部分602),因此,不再將文檔600的部分602的掃描存儲在存 儲器中。現(xiàn)在,如在圖5b)中看到的,與之前的區(qū)域相比,在相對的區(qū)域603上部分地隱藏 或覆蓋相同的文檔600。如上所述,當(dāng)用例如傳統(tǒng)的掃描儀掃描該被部分覆蓋的文檔時,不 產(chǎn)生文檔的拷貝,因為文檔的整個內(nèi)容由于部分覆蓋的原因而無法看見或理解。因此,僅掃 描文檔600的界定區(qū)域604并將其存儲在掃描儀的存儲器中。處理被部分覆蓋的文檔的掃 描圖像,以執(zhí)行光學(xué)字符識別(OCR)。將所登記的字符存儲在存儲器中,并且,當(dāng)獲得字符串 時,對照預(yù)定條件評測該字符串。根據(jù)是否滿足預(yù)定條件,可以提供輸出,并且,從存儲器清 除字符串的至少一部分和所掃描的圖像的至少一部分,因此,所掃描的圖像的內(nèi)容(其僅 代表文檔600的一部分604)和所掃描的圖像本身被至少部分地刪除了。因此,最終可以刪 除整個所掃描的圖像(其僅描述文檔600的一部分604),因此,不再將文檔600的該部分
17604的掃描存儲在存儲器中。因此,當(dāng)啟動在區(qū)域603中被覆蓋的文檔600的掃描時,如圖5b)所示,在區(qū)域601 中被覆蓋的文檔600的掃描圖像已經(jīng)被刪除了,如圖5a)所示,因此,描述整個文檔600的 完整圖像將不會存在。在記錄、處理并刪除文檔600的部分604之前,將記錄、處理并從存 儲器清除文檔600的部分602。區(qū)域602和604可以彼此重疊,例如部分重疊,以確保在例如所覆蓋的區(qū)域601和 603是歪斜的,或記錄在某種程度上是歪斜的的情況下,文檔中沒有部分被遺失??梢酝ㄟ^將不透明材料或?qū)ο笪锢淼胤旁谖臋n600的待覆蓋的部分上,來提供覆 蓋物601、603。替代地和/或附加地,可以通過將不透明材料或?qū)ο笪锢淼胤旁趻呙鑳x的閱 讀頭或玻璃板上,來提供覆蓋物601、602。覆蓋材料可以是,例如,紙、不透明帶、不透明塑 料、金屬和/或類似物。替代地,可以通過閱讀器頭的電子掩蔽或選通來提供覆蓋物601和603。例如,掃 描線可以是高度為1像素,長度為3000像素。然后,閱讀器頭可以掃描文檔的每條掃描線 的一部分,并刪除每條掃描線的另一部分。例如,閱讀器頭可以掃描一掃描線的第一部分, 例如像素數(shù)1-100,刪除該掃描線的第二部分,例如像素數(shù)100-200,掃描該掃描線的第三 部分,例如像素數(shù)200-300,刪除該掃描線的第四部分,例如像素數(shù)300-400等等,直到每條 掃描線的每個部分都被掃描或者刪除為止。然后,在處理掃描線的所有掃描部分之后,將其 從存儲器清除,現(xiàn)在,掃描掃描線的所有在之前未被掃描而是被刪除了的部分,并且,掃描 線的之前被掃描了的部分現(xiàn)在被刪除,例如,刪除掃描線的第一部分,例如像素數(shù)1-100,掃 描掃描線的第二部分,例如像素數(shù)100-200,刪除掃描線的第三部分,例如像素數(shù)200-300, 掃描掃描線的第四部分,例如像素數(shù)300-400等等。刪除掃描線的一部分包括沒有對存儲 器進行輸入,即掃描線的該部分的內(nèi)容被壓制或忽略了。在報紙頁面上,字母或字符可以是高度15至20像素,并且,頁面長度可以是3000 像素,與如上所述的掃描線相對應(yīng)。因此,通過掃描或刪除掃描線的部分,可獲得與圖5所 示的覆蓋物相應(yīng)的電子掩蔽。此外,圖片典型地是灰度或顏色變化的,并且,當(dāng)掃描儀檢測到文檔上的灰度或顏 色變化時(例如由閱讀器頭檢測到),向包含灰度或顏色變化的像素分配一特定值,然后, 清除或覆蓋所有具有此特定值的像素,以隱藏這些像素的內(nèi)容,其可能是圖片。覆蓋物601、603的形式和形狀可以是圖5所示的列。替代地和/或附加地,覆蓋物 601、603的形式和形狀可能是正方形、檢查圖案、格柵、三角形、圓形、線條、具有任何數(shù)量的 邊的多邊形等。
權(quán)利要求
一種掃描文檔的計算機執(zhí)行的方法,包括以下步驟 將限于覆蓋文檔的界定區(qū)域的視域的至少一個記錄獲取至一存儲器; 處理所述至少一個記錄,以執(zhí)行字符識別; 當(dāng)字符被識別時,將該字符記錄在一存儲器中;以及,當(dāng)在移動的位置進行記錄的同時,重復(fù)執(zhí)行以上步驟,以逐漸獲得字符串;其特征在于, 對照預(yù)定條件評測所述字符串; 如果不滿足條件,則確定是否從所述存儲器清除所述至少一個記錄的至少一部分; 如果滿足條件,則提供輸出,并從所述存儲器清除所述字符串的至少一部分和所述至少一個記錄的至少一部分。
2.根據(jù)權(quán)利要求1所述的計算機執(zhí)行的方法,其中,預(yù)定條件包括所述字符串包括至 少一個詞。
3.根據(jù)權(quán)利要求2所述的計算機執(zhí)行的方法,其中,提供包括所述至少一個詞的索引 列表。
4.根據(jù)權(quán)利要求2所述的計算機執(zhí)行的方法,其中,如果所述至少一個詞與預(yù)定中止 詞的其中之一匹配,那么從所述索引列表清除所述至少一個詞。
5.根據(jù)權(quán)利要求2所述的計算機執(zhí)行的方法,其中,在詞之前和之后具有空格的情況 下確認該詞。
6.根據(jù)權(quán)利要求2所述的計算機執(zhí)行的方法,其中,在詞之前具有空格且在該詞之后 具有與字母不同的字符的情況下確認該詞。
7.根據(jù)權(quán)利要求2所述的計算機執(zhí)行的方法,其中,通過包括一種或多種語言中的每 個詞的數(shù)據(jù)庫來確認詞,并且,如果在所述字符串與所述數(shù)據(jù)庫中的一詞之間存在匹配,那 么將所述字符串定義為一詞。
8.根據(jù)權(quán)利要求1所述的計算機執(zhí)行的方法,其中,所述輸出是至少一個詞。
9.根據(jù)權(quán)利要求1所述的計算機執(zhí)行的方法,其中,所述輸出是對于所述至少一個詞 在所述文檔中的位置的參考。
10.根據(jù)權(quán)利要求1或2所述的計算機執(zhí)行的方法,其中,生成并存儲關(guān)于所述至少一 個詞在所述文檔中的位置/地點的信息。
11.根據(jù)權(quán)利要求1或2所述的計算機執(zhí)行的方法,其中,用代碼代表所述至少一個詞。
12.根據(jù)權(quán)利要求3所述的計算機執(zhí)行的方法,其中,所述輸出包括所述索引列表和對 于代表了相應(yīng)詞在受到掃描的所述文檔中的位置的地點的參考。
13.根據(jù)權(quán)利要求1所述的計算機執(zhí)行的方法,其中,生成的關(guān)鍵詞列表包括多個預(yù)定 的關(guān)鍵詞。
14.根據(jù)權(quán)利要求13所述的計算機執(zhí)行的方法,其中,將所述關(guān)鍵詞列表與所述索引 列表進行比較,如果所述關(guān)鍵詞列表中的關(guān)鍵詞與所述索引列表中的一詞匹配,那么提取 此詞。
15.根據(jù)權(quán)利要求1至14中任一項所述的計算機執(zhí)行的方法,其中,如果不滿足條件, 那么確定是否從所述存儲器清除所述至少一個記錄的至少一部分,包括確定所評測的字符的數(shù)量;并且-如果評測到小于預(yù)定數(shù)量的字符,那么所述至少一個記錄的至少一部分不被清除;并且-如果評測到大于等于預(yù)定數(shù)量的字符,那么清除至少一個記錄的至少一部分。
16.根據(jù)權(quán)利要求1至15中任一項利要求所述的計算機執(zhí)行的方法,進一步包括,如果 不滿足條件,那么確定是否從所述存儲器清除所述字符串的至少一部分。
17.根據(jù)權(quán)利要求1至16中任一項所述的計算機執(zhí)行的方法,包括將所選擇的記錄拼 合在一起以成為復(fù)合記錄。
18.根據(jù)權(quán)利要求17所述的計算機執(zhí)行的方法,其中,處理所述復(fù)合記錄,以執(zhí)行對延 伸經(jīng)過多個所選擇的記錄的字符的識別。
19.根據(jù)權(quán)利要求17所述的計算機執(zhí)行的方法,其中,當(dāng)處理所述至少一個記錄以識 別字符的操作沒有導(dǎo)致字符的識別時,執(zhí)行將所選擇的記錄拼合在一起以成為復(fù)合記錄的 步驟。
20.根據(jù)權(quán)利要求1和17所述的計算機執(zhí)行的方法,其中,所述預(yù)定條件包括,當(dāng)已經(jīng) 拼合了預(yù)定數(shù)量的記錄時,所拼合的復(fù)合記錄是否導(dǎo)致字符的識別。
21.根據(jù)權(quán)利要求1和17所述的計算機執(zhí)行的方法,其中,所述預(yù)定條件包括,評測到 少于預(yù)定數(shù)量的字符。
22.根據(jù)權(quán)利要求1和17所述的計算機執(zhí)行的方法,其中,所述預(yù)定條件包括,字符字 體大小小于預(yù)定的字體大小。
23.根據(jù)權(quán)利要求1和17所述的計算機執(zhí)行的方法,其中,所述預(yù)定條件包括,在相鄰 記錄中出現(xiàn)相同的顏色。
24.根據(jù)權(quán)利要求17所述的計算機執(zhí)行的方法,其中,當(dāng)滿足預(yù)定條件時,清除所述復(fù) 合記錄。
25.根據(jù)權(quán)利要求1至24中任一項所述的計算機執(zhí)行的方法,其中,將所述視域構(gòu)造為 具有彼此緊鄰地布置在連續(xù)文本中的11個詞的尺寸。
26.根據(jù)權(quán)利要求1至25中任一項所述的計算機執(zhí)行的方法,其中,將所述視域構(gòu)造為 具有與所述文檔的寬度和所述字符的字體大小的高度相對應(yīng)的尺寸。
27.根據(jù)權(quán)利要求1至24中任一項所述的計算機執(zhí)行的方法,其中,將所述視域構(gòu)造為 具有比受到字符識別的最小字符的尺寸的5倍小的尺寸。
28.根據(jù)權(quán)利要求1至27中任一項所述的計算機執(zhí)行的方法,其中,同時獲取至少兩個 記錄。
29.一種計算機可讀的介質(zhì),編碼有當(dāng)在計算機上運行時執(zhí)行根據(jù)權(quán)利要求1至27中 任一項所述的方法的程序。
30.一種包括掃描裝置和裝載有程序的計算機的系統(tǒng),當(dāng)所述程序在所述計算機上運 行時,所述程序執(zhí)行根據(jù)權(quán)利要求1至27中任一項所述的方法。
31.一種文檔掃描儀,包括_掃描頭,用于獲取限于覆蓋文檔的界定區(qū)域的視域的至少一個記錄;-處理器,適于識別所述記錄中的字符;_數(shù)據(jù)存儲器,用于存儲所述至少一個記錄并用于存儲所識別的字符;-程序存儲器,在所述處理器上存儲一組可執(zhí)行程序指令,以執(zhí)行根據(jù)權(quán)利要求1至28中任一項所述的方法。
全文摘要
一種掃描文檔(例如報紙或書)的計算機執(zhí)行的方法,其中,可以在法律上防止對文本進行未授權(quán)的拷貝,包括以下步驟將限于覆蓋文檔的界定區(qū)域的視域的至少一個記錄獲取至存儲器;處理至少一個記錄,以執(zhí)行字符識別;當(dāng)識別出字符時,將其登記在存儲器中,并且,在移動的位置進行記錄的同時,重復(fù)執(zhí)行以上步驟,以逐漸獲得字符串;并對照預(yù)定條件評測字符串;如果不滿足條件,則確定是否從存儲器清除至少一個記錄的至少一部分;如果滿足條件,則提供輸出,并從存儲器清除字符串的至少一部分和至少一個記錄的至少一部分。
文檔編號G06K9/00GK101981568SQ200980108146
公開日2011年2月23日 申請日期2009年3月5日 優(yōu)先權(quán)日2008年3月7日
發(fā)明者拉爾斯·斯蒂格·尼爾森, 雅各布·梅布姆 申請人:Jl私人控股有限公司