国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      數(shù)字圖像中的非回流內(nèi)容的有效處理的制作方法

      文檔序號(hào):6454807閱讀:248來(lái)源:國(guó)知局
      專利名稱:數(shù)字圖像中的非回流內(nèi)容的有效處理的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及處理內(nèi)容的數(shù)字圖像,更具體來(lái)說(shuō),將數(shù)字圖像處理 為包括非回流和回流內(nèi)容的數(shù)字回流內(nèi)容。
      背景技術(shù)
      隨著越來(lái)越多的用戶求助于諸如因特網(wǎng)之類的計(jì)算機(jī)網(wǎng)絡(luò),具體
      來(lái)說(shuō),萬(wàn)維網(wǎng)(下面簡(jiǎn)稱為"Web")來(lái)獲取信息,內(nèi)容提供商越來(lái)越 多地將傳統(tǒng)的內(nèi)容(例如,印刷材料,如書(shū)、雜志、報(bào)紙、新聞稿、 手冊(cè)、指南、參考文獻(xiàn)、文章、報(bào)告、文檔等等)轉(zhuǎn)換為電子形式。
      對(duì)于某些內(nèi)容提供商,將印刷的內(nèi)容轉(zhuǎn)換為電子形式以便進(jìn)行發(fā) 布的快速而簡(jiǎn)單的方式是創(chuàng)建印刷的內(nèi)容的數(shù)字圖像,即,包含文本 表示的數(shù)字圖像。如本領(lǐng)域技術(shù)人員所理解的,這種轉(zhuǎn)換通常是通過(guò) 使用掃描儀來(lái)執(zhí)行的。然而,盡管簡(jiǎn)單地生成印刷的內(nèi)容的數(shù)字圖像 的過(guò)程可以快速地完成,所產(chǎn)生的數(shù)字圖像可能不特別適用于各種情 況。例如,對(duì)應(yīng)于將書(shū)的頁(yè)面轉(zhuǎn)換為電子形式的數(shù)字圖像在某些查看 情況下可能不特別適合。當(dāng)然,數(shù)字圖像并不總是進(jìn)行內(nèi)容提供的最 佳形式/格式的原因有許多,但是包括有關(guān)數(shù)字圖像的清晰度或分辨 率,數(shù)字圖像文件的較大的大小的問(wèn)題,也許最重要的是,在各種大 小的顯示器再現(xiàn)數(shù)字圖像。例如,傳統(tǒng)的數(shù)字圖像可以是固定大小和 配置,以致于計(jì)算機(jī)用戶必須頻繁地滾動(dòng)他的或她的查看器來(lái)閱讀文 字。換句話說(shuō),數(shù)字圖像中的文字相對(duì)于查看器的邊界,不是可回流 的。
      將印刷的內(nèi)容轉(zhuǎn)換為數(shù)字形式的另一種方法涉及將打印圖像轉(zhuǎn) 換為對(duì)應(yīng)的數(shù)字文字。數(shù)字文字包括對(duì)應(yīng)于可打印字符集的值,包括 字母數(shù)字字符。示范性字符集包括ASCII、 EBCDIC,以及Unicode 字符集。然而,將印刷的內(nèi)容轉(zhuǎn)換為數(shù)字文字的過(guò)程,就內(nèi)容提供商而言,要求比簡(jiǎn)單地生成數(shù)字圖像要花費(fèi)較大的精力。更具體來(lái)說(shuō), 內(nèi)容提供商必須首先生成(至少臨時(shí))內(nèi)容的數(shù)字圖像,然后,使用
      光學(xué)字符識(shí)別(OCR)軟件將數(shù)字圖像中的文字轉(zhuǎn)換為數(shù)字文字。如 本領(lǐng)域技術(shù)人員所理解的,OCR軟件對(duì)數(shù)字圖像進(jìn)行掃描,這樣做 時(shí),從數(shù)字圖像中的像素識(shí)別數(shù)字字符。令人遺憾的是,當(dāng)將像素的 集合匹配到對(duì)應(yīng)的字符時(shí),OCR軟件會(huì)產(chǎn)生錯(cuò)誤,并且也常常出錯(cuò)。 將印刷內(nèi)容轉(zhuǎn)換為回流數(shù)字內(nèi)容的一種方法涉及將數(shù)字圖像中 的內(nèi)容處理為可以識(shí)別的段。在2006年3月28日提出的標(biāo)題為 "Method and System for Converting a Digital Image Containing Text to a Token-Based File for High-Resolution Rendering" 4戈理才幾構(gòu)巻號(hào)
      例,該申請(qǐng)以引用的方式并入本文中。如此文所描述的,數(shù)字圖像中 的內(nèi)容被分解為"符號(hào)",例如,可以識(shí)別的內(nèi)容段。接著,符號(hào)又可 以被縮放和/或回流在查看器的邊界內(nèi)。 一般而言,"回流,,涉及行分段 的調(diào)節(jié)和一組段落的配置??梢愿鶕?jù)特定查看器的限制重新排列而沒(méi) 有縮放的數(shù)字內(nèi)容可以在查看器內(nèi)"回流",是回流內(nèi)容。
      對(duì)于任何自動(dòng)化轉(zhuǎn)換過(guò)程,數(shù)字內(nèi)容的準(zhǔn)確性和呈現(xiàn)是重要的。 這對(duì)打算提供已經(jīng)轉(zhuǎn)換的印刷內(nèi)容來(lái)獲取利潤(rùn)的內(nèi)容提供商來(lái)說(shuō)更 是如此。令人遺憾的是,幾乎所有的印刷內(nèi)容都包括內(nèi)容的區(qū)域或塊, 如果包括在內(nèi)容的回流體中或者從特定空間排列修改,這些內(nèi)容的區(qū) 域或塊可能會(huì)損壞經(jīng)過(guò)轉(zhuǎn)換的回流內(nèi)容,或以別的方式使經(jīng)過(guò)轉(zhuǎn)換的 內(nèi)容的視覺(jué)顯示退化。這些類型的"非回流"區(qū)域/塊的示例包括,但不 僅限于,頁(yè)眉、頁(yè)腳、邊注、圖表、圖形、數(shù)學(xué)等式、表、程序列表、 項(xiàng)目符號(hào)或編號(hào)列表、詩(shī),以及, 一般而言,其中的內(nèi)容的空間排列 (文本或以別的方式)對(duì)該內(nèi)容非常重要的區(qū)域。
      關(guān)于內(nèi)容的"非回流,,塊,應(yīng)該理解,論及那些由于一個(gè)原因或另 一個(gè)原因不應(yīng)該被"回流"的內(nèi)容塊時(shí), 一般使用此術(shù)語(yǔ),而不管不應(yīng) 該回流內(nèi)容的塊的原因。更具體來(lái)說(shuō),術(shù)語(yǔ)"非回流內(nèi)容塊"包括流外 的內(nèi)容塊(其中,內(nèi)容涉及但是超出范圍正常內(nèi)容流之外,包括邊注、頁(yè)眉,以及頁(yè)腳)和空間依賴的非回流內(nèi)容塊(其中,內(nèi)容的空間排 列阻止它被回流)兩者,如科學(xué)公式、列表、表,等等。
      非回流塊經(jīng)??梢园承┪谋緝?nèi)容。在這些情況下,則內(nèi)容的 回流體中包括文本內(nèi)容可能會(huì)損壞內(nèi)容的完整性。為進(jìn)一步顯示此 點(diǎn),圖1是顯示了包括回流和非回流塊內(nèi)容塊的印刷內(nèi)容的數(shù)字圖
      像100的示意圖。更具體來(lái)說(shuō),數(shù)字圖像100包括兩個(gè)文字段落, 段落102和104,它們一般表示數(shù)字圖像100的回流內(nèi)容。另外, 數(shù)字圖像100包括各種非回流區(qū)域/塊,包括頁(yè)眉106、圖片說(shuō)明 108、圖形110、分隔4亍112,以及通過(guò)腳注號(hào)碼從文字引用的腳注 114。
      相對(duì)于來(lái)自損壞回流內(nèi)容的完整性的非回流塊的內(nèi)容,段落102 的第一句,包括來(lái)自內(nèi)容的前一頁(yè)的文字(未顯示),如果被正確地 轉(zhuǎn)換,應(yīng)該如下
      Half the information has been used to pad and rearrange (modulate) the data in sequences and patterns designed to be accurately readable as a string of pulses.
      然而,如果頁(yè)眉106的"文字,,將被錯(cuò)誤地包括到段落202的回 流內(nèi)容中,上面的句子將讀著
      Half the information has been used to pad and rearrange (modulate) the data in 180 Chapter 4 sequences and patterns designed to be accurately readable as a string of pulses.
      顯而易見(jiàn),將"180 Chapter 4"添加到回流內(nèi)容中,會(huì)損壞已經(jīng)轉(zhuǎn) 換的內(nèi)容,并產(chǎn)生將只能使讀者產(chǎn)生混淆的情況。從此簡(jiǎn)單示例可以 看出,防止非回流塊的數(shù)據(jù)(如頁(yè)眉106)損壞回流內(nèi)容對(duì)于已經(jīng)轉(zhuǎn) 換的內(nèi)容的完整性是關(guān)鍵的。 一般而言,在轉(zhuǎn)換數(shù)字圖像100的一 般回流內(nèi)容時(shí)避免處理非回流塊中的內(nèi)容,對(duì)所產(chǎn)生的數(shù)字內(nèi)容的完 整性是必不可少的。
      令人遺憾的是,創(chuàng)建用于檢測(cè)非回流內(nèi)容塊的自動(dòng)化的過(guò)程,特經(jīng)證明是難捉摸的。如此,在將已經(jīng)轉(zhuǎn)換的數(shù)字內(nèi)容提供給"消費(fèi)者,, 使用之前,當(dāng)前需要手動(dòng)編輯來(lái)編輯已經(jīng)轉(zhuǎn)換的數(shù)字內(nèi)容或定稿。
      本發(fā)明的某些方面旨在有效地處理數(shù)字圖像ioo中的非回流內(nèi)
      容塊。本發(fā)明的其他方面進(jìn)一步涉及識(shí)別要求手動(dòng)編輯的經(jīng)過(guò)轉(zhuǎn)換的 內(nèi)容,從而集中精力,并減少了要執(zhí)行的手動(dòng)編輯的量。

      發(fā)明內(nèi)容
      此"發(fā)明內(nèi)容"介紹了簡(jiǎn)化形式的概念選擇,在"具體實(shí)施方式
      " 中將詳細(xì)描述這些概念。此"發(fā)明內(nèi)容"并不用于標(biāo)識(shí)要求保護(hù)的主題 的主要特點(diǎn),也不用于幫助確定要求保護(hù)的主題的范圍。
      根據(jù)本發(fā)明的 一些方面,提供了 一種用于有效地將數(shù)字圖像處理 為回流內(nèi)容的方法。該方法包括在計(jì)算機(jī)上執(zhí)行的下列操作中的每一 個(gè)操作。獲取數(shù)字圖像,以便進(jìn)行處理。數(shù)字圖像至少包括適于轉(zhuǎn)換 為回流內(nèi)容的某些內(nèi)容。數(shù)字圖像被處理為數(shù)字內(nèi)容文件。數(shù)字內(nèi)容 文件包括回流內(nèi)容和非回流內(nèi)容塊兩者。對(duì)于數(shù)字內(nèi)容文件中的每一 個(gè)非回流內(nèi)容塊,執(zhí)行下面的操作。就是否應(yīng)該手動(dòng)評(píng)估所述非回流 內(nèi)容塊以便進(jìn)行編輯作出判斷。如果判斷應(yīng)該對(duì)所述非回流內(nèi)容塊進(jìn) 行關(guān)于編輯的手動(dòng)評(píng)估,則自動(dòng)地觸發(fā)關(guān)于編輯的手動(dòng)評(píng)估。
      根據(jù)本發(fā)明的額外的方面,提供了用于有效地評(píng)估被轉(zhuǎn)換為數(shù)字 內(nèi)容的數(shù)字圖像的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程。該過(guò)程包括下列步驟中的每一 個(gè)步驟。獲取從數(shù)字圖像轉(zhuǎn)換的數(shù)字內(nèi)容文件。數(shù)字內(nèi)容文件包括回 流內(nèi)容和非回流內(nèi)容塊兩者。對(duì)所述數(shù)字內(nèi)容文件進(jìn)行掃描以獲取非 回流內(nèi)容塊。對(duì)于每一個(gè)遇到的非回流內(nèi)容塊,執(zhí)行下面的操作。就 是否應(yīng)該手動(dòng)評(píng)估遇到的非回流內(nèi)容塊以便進(jìn)行編輯作出判斷。如果 判斷應(yīng)該對(duì)遇到非回流內(nèi)容塊進(jìn)行關(guān)于編輯的手動(dòng)評(píng)估,則自動(dòng)地觸 發(fā)手動(dòng)評(píng)估。
      根據(jù)本發(fā)明的更進(jìn)一步方面,提供了適于有效地評(píng)估數(shù)字內(nèi)容以 判斷需要進(jìn)行可能的手動(dòng)編輯的計(jì)算機(jī)系統(tǒng)。該計(jì)算機(jī)系統(tǒng)包括處理 器和存儲(chǔ)器。該存儲(chǔ)器包括一個(gè)或多個(gè)應(yīng)用程序模塊,當(dāng)這些應(yīng)用程 序^^莫塊在計(jì)算機(jī)系統(tǒng)上執(zhí)行時(shí),使計(jì)算機(jī)系統(tǒng)執(zhí)行下列操作。獲取數(shù)字內(nèi)容文件。數(shù)字內(nèi)容文件包括從數(shù)字圖像處理的回流內(nèi)容和非回流 內(nèi)容。對(duì)數(shù)字內(nèi)容文件進(jìn)行掃描以獲取非回流內(nèi)容塊。對(duì)于在數(shù)字圖 像中發(fā)現(xiàn)的每一個(gè)非回流內(nèi)容塊,執(zhí)行下面的操作。就是否應(yīng)該手動(dòng) 編輯非回流內(nèi)容塊作出判斷。如果判斷應(yīng)該手動(dòng)編輯所述非回流塊,
      則調(diào)用一個(gè)或多個(gè)應(yīng)用程序模塊,以啟動(dòng)手動(dòng)編輯會(huì)話。


      通過(guò)參考與附圖一起進(jìn)行的下面的詳細(xì)描述,本發(fā)明的前述的方
      面和許多伴隨的優(yōu)點(diǎn),將變得更加容易被理解,其中
      圖1是顯示了包括回流和非回流塊內(nèi)容塊的內(nèi)容的印刷頁(yè)面的 數(shù)字圖像的示意環(huán)境的示意圖3是顯示了根據(jù)本發(fā)明的一些方面的用于將包括回流和非回 流內(nèi)容塊的數(shù)字圖像處理為回流文檔的圖像處理系統(tǒng)的邏輯組件的 方框圖4是顯示了用于處理具有回流和非回流內(nèi)容塊兩者的數(shù)字圖 像的示范性例程的流程圖;以及
      圖5是顯示了用于識(shí)別數(shù)字圖像中的非回流內(nèi)容塊的示范性例 程的流程圖6是顯示了對(duì)應(yīng)于內(nèi)容的印刷頁(yè)面的示范性頁(yè)面圖案的示意
      圖7A-7C是顯示了包括數(shù)學(xué)公式的數(shù)字圖像的示意圖8是顯示了包括邊注的數(shù)字圖像的示意圖; 圖9是顯示了包括圖表以及圖片說(shuō)明的數(shù)字圖像的示意圖; 圖io是顯示了用于適于確定非回流內(nèi)容塊的范圍的示范性例 程的流程圖;以及
      圖11是顯示了用于使用自動(dòng)化過(guò)程處理數(shù)字圖像并且在自動(dòng) 化轉(zhuǎn)換的置信度低于預(yù)定的閾值時(shí)觸發(fā)手動(dòng)評(píng)估和編輯的示范性例 程的流程圖。
      具體實(shí)施例方式
      下面的詳細(xì)描述提供了本發(fā)明的示范性實(shí)現(xiàn)方式。雖然顯示了特 定系統(tǒng)配置和流程圖,但是,應(yīng)該理解,所提供的示例不是詳盡的, 并且不將本發(fā)明限制到所說(shuō)明的準(zhǔn)確的形式。那些精通計(jì)算機(jī)、數(shù)字 成像,以及內(nèi)容轉(zhuǎn)換領(lǐng)域技術(shù)的普通人員將認(rèn)識(shí)到,這里所描述的組 件和處理步驟可以與其他組件或步驟,或者,組件或步驟的組合互換, 并仍能實(shí)現(xiàn)本發(fā)明的好處和優(yōu)點(diǎn)。此外,在下面的描述中,闡述了很 多具體細(xì)節(jié),以便提供對(duì)本發(fā)明的全面的了解。然而,對(duì)那些精通本 技術(shù)的人顯而易見(jiàn)的是,可以在沒(méi)有某些或全部這些具體細(xì)節(jié)的情況 下實(shí)施本發(fā)明。在其他情況下,沒(méi)有對(duì)已知的處理步驟進(jìn)行詳細(xì)描述, 以便不致不必要地至于使本發(fā)明變得模糊。
      還應(yīng)該理解,下面的描述在很大程度上是通過(guò)可以由常規(guī)計(jì)算機(jī) 組件執(zhí)行的邏輯和操作呈現(xiàn)的??梢苑纸M在同一個(gè)位置或分布在比較 寬的區(qū)域的這些計(jì)算機(jī)組件, 一般包括計(jì)算機(jī)處理器、存儲(chǔ)器設(shè)備、 顯示設(shè)備、輸入設(shè)備等等。在計(jì)算機(jī)組件被分散放置的情況下,通過(guò) 通信鏈路,計(jì)算機(jī)組件能夠被彼此訪問(wèn)。
      關(guān)于數(shù)字圖像,盡管典型的數(shù)字圖像是基于光柵或矢量的文件,
      如JPEG和TIFF文件,但是,本發(fā)明沒(méi)有這樣的限制。更具體來(lái) 說(shuō),除處理基于光柵和/或矢量的圖像之外,本發(fā)明還可以轉(zhuǎn)換其他類 型的數(shù)字圖像,如PDF圖像,這些圖像除基于像素的信息之外,還 可以包括也可以不包括文字和/或文本格式的信息。相應(yīng)地,盡管隨后 的討論一般而言是針對(duì)數(shù)字圖像進(jìn)行的,但是,應(yīng)該理解,它還可以 包括許多種類的數(shù)字圖像內(nèi)容。
      可以在各種計(jì)算設(shè)備和配置中對(duì)包括可回流的("回流塊")和非 可回流的("非回流塊")內(nèi)容塊的數(shù)字圖像進(jìn)行處理。這些計(jì)算設(shè)備 包括,但不僅限于,筆記本電腦或平板計(jì)算機(jī)、個(gè)人計(jì)算機(jī)、工作站、 微型和大型計(jì)算機(jī)等等。這些計(jì)算設(shè)備也可以包括為處理數(shù)字圖像而 專門配置的計(jì)算機(jī)。然而,下面將參考圖2描述合適的計(jì)算設(shè)備的 一般體系結(jié)構(gòu)。更具體來(lái)說(shuō),圖2是顯示了適于處理具有回流和非
      10回流內(nèi)容塊兩者的數(shù)字圖像的計(jì)算設(shè)備200的示范性組件的方框 圖。然而,下面對(duì)計(jì)算設(shè)備200的示范性組件的描述應(yīng)該被視為只 是說(shuō)明性的,而不應(yīng)該理解為以任何方式對(duì)其限制。
      參考圖2,示范性計(jì)算設(shè)備200包括通過(guò)系統(tǒng)總線220與各種 其他組件進(jìn)行通信的處理器202。這些其他組件包括,作為示例,網(wǎng) 絡(luò)接口 204、輸入i殳備接口 206、顯示接口 208,以及存儲(chǔ)器210。 如所屬領(lǐng)域的技術(shù)人員所理解的網(wǎng)絡(luò)接口 204使計(jì)算設(shè)備200能 與諸如因特網(wǎng)(未顯示)之類的計(jì)算機(jī)網(wǎng)絡(luò)上的包括計(jì)算機(jī)、數(shù)據(jù)源、 存儲(chǔ)設(shè)備等等的其他資源交換數(shù)據(jù)、控制信號(hào)、數(shù)據(jù)請(qǐng)求,及其他信 息。網(wǎng)絡(luò)接口 204可以被配置為通過(guò)有線或無(wú)線連接進(jìn)行通信。如 本領(lǐng)域技術(shù)人員所理解的,計(jì)算設(shè)備200可以通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)從另 一臺(tái)計(jì)算機(jī)、存儲(chǔ)設(shè)備,或其他源獲取諸如數(shù)字圖像100之類的數(shù) 字圖像,以及將經(jīng)過(guò)處理的經(jīng)過(guò)轉(zhuǎn)換的內(nèi)容保存在聯(lián)網(wǎng)的位置或?qū)⑺?發(fā)送到網(wǎng)絡(luò)上的另一臺(tái)計(jì)算機(jī)。
      輸入設(shè)備接口 206,有時(shí)也作為輸入/輸出接口來(lái)實(shí)現(xiàn),使計(jì)算 設(shè)備200能從各種設(shè)備,包括,但不僅限于,數(shù)字筆、觸摸屏、鍵 盤、鼠標(biāo)、掃描儀等等,獲取輸入的數(shù)據(jù)。除上文所描述的示范性組 件之外,顯示接口 208用于將顯示信息輸出到計(jì)算機(jī)用戶。通常, 顯示信息是由顯示器接口 208通過(guò)顯示設(shè)備(例如,CRT監(jiān)視器、 LCD屏幕、電視機(jī)、集成屏幕或屏幕組等等)進(jìn)行輸出的。當(dāng)然, 盡管未顯示,本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,顯示設(shè)備可以作為計(jì)算設(shè)備 200內(nèi)的集成元件包括進(jìn)來(lái)。
      處理器202被配置為根據(jù)存儲(chǔ)在存儲(chǔ)器210中的編程指令進(jìn) 行操作。存儲(chǔ)器210 —般包括RAM、 ROM,和/或其他永久性存儲(chǔ) 器。如此,除存儲(chǔ)在讀取/寫(xiě)入存儲(chǔ)器(RAM)之外,編程指令也可以 以只讀格式存在,如在ROM或其他永久性存儲(chǔ)器中的發(fā)現(xiàn)的那些。 存儲(chǔ)器210通常存儲(chǔ)了操作系統(tǒng)212,用于控制計(jì)算設(shè)備200的一 般操作。操作系統(tǒng)可以是諸如Microsoft Windows 操作系統(tǒng)、 UNIX 操作系統(tǒng)、Linux 操作系統(tǒng)之類的通用操作系統(tǒng),也可以是專門為計(jì)算設(shè)備200編寫(xiě)和定制的操作系統(tǒng)。類似地,存儲(chǔ)器210 通常也存儲(chǔ)用戶可執(zhí)行的應(yīng)用程序214,或程序,用于執(zhí)行計(jì)算設(shè)備 200上的各種功能。例如,可以根據(jù)本發(fā)明的一些方面配置存儲(chǔ)器 210中的應(yīng)用程序214,以將包括回流和非回流塊兩者的數(shù)字圖像 100處理為識(shí)別用于再現(xiàn)的非回流內(nèi)容的文檔。
      計(jì)算設(shè)備200可選地包括圖像存儲(chǔ)器216和內(nèi)容存儲(chǔ)器218。 圖像存儲(chǔ)器216存儲(chǔ)了用于處理為回流內(nèi)容的數(shù)字圖像。由于圖像 存儲(chǔ)器216是可選的,數(shù)字圖像100可以從連接到輸入設(shè)備接口 206的掃描儀獲得或通過(guò)網(wǎng)絡(luò)接口 204從外部源獲得。 一旦處理了 數(shù)字圖像,則經(jīng)過(guò)轉(zhuǎn)換的數(shù)字內(nèi)容存儲(chǔ)在內(nèi)容存儲(chǔ)器218中。類似 地,文檔存儲(chǔ)器也可以被視為可選的,因?yàn)樗a(chǎn)生的數(shù)字內(nèi)容可以通 過(guò)顯示器接口 208立即發(fā)送給顯示設(shè)備,流動(dòng)到用戶的計(jì)算機(jī),或 通過(guò)網(wǎng)絡(luò)接口 204流動(dòng)到外部位置或資源,以便進(jìn)行存儲(chǔ)。
      適于將數(shù)字圖像處理為可回流的數(shù)字文檔的數(shù)字圖像處理系統(tǒng) 可以用在計(jì)算設(shè)備200上實(shí)現(xiàn)的單一應(yīng)用程序或模塊來(lái)實(shí)現(xiàn),用單 一計(jì)算設(shè)備上的多個(gè)協(xié)作的應(yīng)用程序/模塊來(lái)實(shí)現(xiàn),或以分布在計(jì)算機(jī) 網(wǎng)絡(luò)中的多個(gè)協(xié)作的應(yīng)用程序和/或模塊來(lái)實(shí)現(xiàn)。然而,不管數(shù)字圖像 處理系統(tǒng)的實(shí)際實(shí)現(xiàn)方式和/或拓樸如何,都可以利用各種邏輯組件來(lái) 標(biāo)識(shí)數(shù)字圖像處理系統(tǒng)。為此,圖3是顯示了用于將包括回流和非 回流內(nèi)容塊的數(shù)字圖像100處理為文檔的數(shù)字圖像處理系統(tǒng)300 的邏輯組件的方框圖。類似地,圖4是顯示了用于使用圖3的邏輯 組件處理具有回流和非回流內(nèi)容塊兩者的數(shù)字圖像100的示范性例 程400的流程圖。
      然而,應(yīng)該指出的是,關(guān)于所顯示的數(shù)字圖像處理系統(tǒng)300 (圖 3),所顯示的系統(tǒng)300包括圖像存儲(chǔ)器216和內(nèi)容存儲(chǔ)器218兩 者。然而,如上文所討論的,包括圖像存儲(chǔ)器216和內(nèi)容存儲(chǔ)器218 是示范性的/可選的,因?yàn)閿?shù)字圖像處理系統(tǒng)300可以從本地存儲(chǔ)器 (例如,圖像存儲(chǔ)器216)、網(wǎng)絡(luò)源、或諸如掃描儀、數(shù)字照相機(jī)等 等之類的數(shù)字圖像生成設(shè)備來(lái)獲取數(shù)字圖像100。類似地,數(shù)字圖像處理系統(tǒng)300可以向本地存儲(chǔ)器(例如,內(nèi)容存儲(chǔ)器218)、網(wǎng)絡(luò) 源輸出所產(chǎn)生的可回流的數(shù)字內(nèi)容,或立即將它流動(dòng)到用戶那里,供 顯示/消耗。如此,盡管隨后的對(duì)數(shù)字圖像處理系統(tǒng)300和例程400 的描述是參考圖像存儲(chǔ)器216和內(nèi)容存儲(chǔ)器218進(jìn)行的,但是,這 只是為了描述時(shí)簡(jiǎn)明和清晰,不應(yīng)該被理解為對(duì)本發(fā)明作出限制。
      參考圖4的示范性例程400,進(jìn)一步參考圖3的數(shù)字圖像處理 系統(tǒng)300,在方框402中,圖像輸入組件302獲取內(nèi)容的數(shù)字圖像 100,包括回流和非回流內(nèi)容塊兩者。如圖3所示,在"i兌明性實(shí)施例 中,圖像輸入組件302從圖像存儲(chǔ)器216中獲取數(shù)字圖像100。
      在方框404中,數(shù)字圖像處理系統(tǒng)300,通過(guò)非回流內(nèi)容識(shí)別 組件304,識(shí)別數(shù)字圖像100中的一個(gè)或多個(gè)非回流內(nèi)容塊。下面 參考圖5比較詳細(xì)地描述了用于識(shí)別非回流內(nèi)容塊的類型的說(shuō)明性 例程。作為識(shí)別非回流內(nèi)容塊的過(guò)程的一部分,或除此之外,可以標(biāo) 記被識(shí)別的非回流內(nèi)容塊,或記錄有關(guān)它們的信息,以便它們(非回 流內(nèi)容塊)不與回流內(nèi)容塊一起處理。而是將非回流塊分開(kāi)處理(根 本不處理。)
      在方框406中,數(shù)字圖像處理系統(tǒng)300,通過(guò)回流內(nèi)容轉(zhuǎn)換組 件306,處理數(shù)字圖^f象中的回流內(nèi)容塊。在上文引用的申請(qǐng)"Method and System for Converting a Digital Image Containing Text to a Token-Based File for High-Resolution Rendering"中描述了處理回流 內(nèi)容塊的過(guò)程,論及將內(nèi)容處理為符號(hào)。
      在方框408中,數(shù)字圖像處理系統(tǒng)300,通過(guò)數(shù)字內(nèi)容輸出組 件308,將經(jīng)過(guò)處理的數(shù)字內(nèi)容(包括經(jīng)過(guò)處理的回流內(nèi)容和已經(jīng)識(shí) 別的非回流內(nèi)容塊)輸出到數(shù)字內(nèi)容文件中,該文件將保存到內(nèi)容存 儲(chǔ)器218中。在說(shuō)明性實(shí)施例中,將非回流內(nèi)容塊復(fù)制到數(shù)字內(nèi)容 文件中,以便根據(jù)用戶自行決定,由用戶顯示它們,戰(zhàn)略上位于文檔 中,以便它們不損壞回流內(nèi)容,或者,在某些情況下,根本不顯示。 頁(yè)眉和頁(yè)腳是可以根本不顯示的非回流內(nèi)容塊的示例。另外,當(dāng)將非 回流塊復(fù)制到數(shù)字內(nèi)容文件中時(shí),通常包括有關(guān)非回流內(nèi)容塊的某些信息。此信息包括,例如,非回流內(nèi)容塊的范圍,其在數(shù)字圖像100
      中的位置,置信度等級(jí)(如下面將討論的),標(biāo)識(shí)非回流內(nèi)容塊的類 型的類型指標(biāo)(例如,頁(yè)眉、頁(yè)腳、圖片說(shuō)明、圖表等等)等等。在
      將所產(chǎn)生的數(shù)字內(nèi)容文件存儲(chǔ)在內(nèi)容存儲(chǔ)器218之后,示范性例程 400結(jié)束。
      關(guān)于將非回流內(nèi)容塊存儲(chǔ)在數(shù)字內(nèi)容文件中的情況,并非所有的 非回流內(nèi)容塊都要復(fù)制到數(shù)字內(nèi)容文件中。具體來(lái)說(shuō),某些非回流內(nèi) 容塊(如頁(yè)眉和/或頁(yè)腳)只是信息性的,并不包括關(guān)于可回流的內(nèi)容 的基本材料。如此,這些,及其他類型的非回流塊,可以,也可以不 復(fù)制到數(shù)字內(nèi)容文件中,并且,如果復(fù)制到數(shù)字內(nèi)容文件,可以抑制 其隨后顯示在查看器中。
      就存儲(chǔ)所產(chǎn)生的數(shù)字內(nèi)容而論,應(yīng)該理解,所產(chǎn)生的內(nèi)容可以放 在易失性或非易失性存儲(chǔ)器,放在本地或遠(yuǎn)程數(shù)據(jù)流中,或者,寫(xiě)入 到文件中。相應(yīng)地,盡管本討論是參考可以存儲(chǔ)在內(nèi)容存儲(chǔ)器21S中 的數(shù)字內(nèi)容文件而進(jìn)行的,但是,這只是為了說(shuō)明,不應(yīng)該理解為本 發(fā)明作出限制。
      關(guān)于非回流內(nèi)容塊,非回流內(nèi)容塊可以包括能轉(zhuǎn)換為回流內(nèi)容的 某些文本內(nèi)容。的確,許多類型的非回流內(nèi)容塊包括可以受益于到回 流內(nèi)容的轉(zhuǎn)換的文本內(nèi)容。例如,關(guān)于圖1,腳注114完全由文本 內(nèi)容構(gòu)成,當(dāng)在計(jì)算機(jī)上顯示給用戶時(shí),可以得益于轉(zhuǎn)換為回流內(nèi)容。 相應(yīng)地,盡管在圖4中未顯示,除將任何識(shí)別的非回流內(nèi)容塊作為 靜態(tài)圖像輸出到回流文檔之外,具有被識(shí)別的非回流內(nèi)容塊的內(nèi)容可 以分別地被處理為回流內(nèi)容,非回流內(nèi)容塊的回流內(nèi)容保存到所產(chǎn)生 的數(shù)字內(nèi)容文件中。
      關(guān)于識(shí)別數(shù)字圖像中的非回流內(nèi)容塊,圖5是顯示了用于識(shí)別 數(shù)字圖像100中的非回流內(nèi)容塊的示范性例程500的流程圖。從方 框502開(kāi)始,示范性例程開(kāi)始掃描數(shù)字圖像100,以獲取非回流內(nèi) 容塊,如下面所描述的。
      在方框504中,非回流內(nèi)容組件304掃描數(shù)字圖像100以獲取頁(yè)眉和/或頁(yè)腳。如本領(lǐng)域技術(shù)人員所容易理解的,印刷內(nèi)容的很大 的部分,特別是書(shū)和雜志,將包含一個(gè)或多個(gè)頁(yè)眉和/或頁(yè)腳。例如,
      至于圖1,數(shù)字圖像100包括頁(yè)眉106。
      在說(shuō)明性實(shí)施例中,識(shí)別數(shù)字圖像100中的頁(yè)眉和/或頁(yè)腳的過(guò) 程可以依賴于定位頁(yè)眉或頁(yè)腳的圖案特征。圖6是顯示了對(duì)應(yīng)于內(nèi) 容的印刷頁(yè)面的示范性頁(yè)面圖案600的示意圖。由于容易被識(shí)別為 "典型的"內(nèi)容頁(yè)面,頁(yè)面圖案600包括頁(yè)眉區(qū)602、兩個(gè)段落文字, 頁(yè)腳608,以及分隔行604和606。至于識(shí)別示范性例程500中的 頁(yè)面圖案中的頁(yè)眉和頁(yè)腳,可以使用各種準(zhǔn)則和/或識(shí)別特征。例如, 盡管頁(yè)眉和頁(yè)腳可以是多行的,但是,頁(yè)眉和頁(yè)腳,根據(jù)它們的特征, 分別位于頁(yè)面的最頂部和最底部,即,打印頁(yè)面上的第一個(gè)和最后一 個(gè)項(xiàng)目。頁(yè)眉和頁(yè)腳經(jīng)常,但不始終,通過(guò)諸如分隔行604或610之 類的分隔行與頁(yè)面內(nèi)容的正文分離。然而,不管是否有分隔行,頁(yè)眉 和頁(yè)腳也通常通過(guò)空白部分與頁(yè)面內(nèi)容的正文分離,如614處所示, 空白處的量大于段落中的行距,如616所示,或段落之間的間距, 如618所示。
      之間包括相同的或類似的內(nèi)容。例如,頁(yè)面編號(hào),盡管經(jīng)常隨著每一 頁(yè)面而增加,將具有在多個(gè)頁(yè)面內(nèi)保持恒定的某些內(nèi)容(如幾十個(gè)或 幾百個(gè)數(shù)值),并出現(xiàn)在頁(yè)面上或交替的頁(yè)面上的相同的位置或交替 的位置。發(fā)現(xiàn)具有數(shù)字、編號(hào)或字母的序列(遞增或遞減)的重復(fù)行 (在多個(gè)頁(yè)面內(nèi)或交替的頁(yè)面內(nèi)),經(jīng)常被視為表示頁(yè)面編號(hào),并可 以用來(lái)識(shí)別頁(yè)眉或者頁(yè)腳中的一行或多行文字。標(biāo)題、章的名稱、節(jié) 名稱等等也是出現(xiàn)在頁(yè)眉和頁(yè)腳中的類似的文字的示例。
      關(guān)于頁(yè)面編號(hào),所屬領(lǐng)域的技術(shù)人員將理解,在某些上下文中, 頁(yè)面編號(hào)實(shí)際是縮小的,而不是增大。例如,在某些書(shū)中,書(shū)的前言 部分是按降序排列的直至?xí)?第一"頁(yè)。另外,增大和縮小的數(shù)值可 以以羅馬數(shù)字、字母數(shù)字或數(shù)值來(lái)顯示。此外,當(dāng)遇到頁(yè)面編號(hào)時(shí), 可以提升/增大特定內(nèi)容塊是頁(yè)眉或頁(yè)腳的置信度等級(jí)。頁(yè)眉和頁(yè)腳也可以包括典型的段落中所沒(méi)有的對(duì)齊功能。例如,
      頁(yè)眉602包括兩個(gè)部分,610和612。部分610與頁(yè)面600的最 左邊距左對(duì)齊,而部分612與頁(yè)面600的最右邊距右對(duì)齊。在圖1 的頁(yè)眉106中也顯示了頁(yè)眉的這種特定對(duì)齊方式。這種對(duì)齊方式, 以及其他對(duì)齊方式(如,標(biāo)題位于中心,頁(yè)邊空白處有編頁(yè)碼),說(shuō)
      量的間隙來(lái)進(jìn)行識(shí)別。在圖1中也顯示了,盡管在圖6中未顯示, 頁(yè)眉和/或頁(yè)腳可以不與內(nèi)容的一般正文的邊距對(duì)齊。更具體來(lái)說(shuō),頁(yè) 眉106比表示此圖像的內(nèi)容的一般正文的段落102和104距離數(shù) 字圖<象100的左邊更遠(yuǎn)。
      在涉及識(shí)別頁(yè)眉和/或頁(yè)腳時(shí)可以使用的別 一個(gè)"模式"是通過(guò)利
      數(shù)量。頁(yè)眉,以及,特別是,頁(yè)腳中的行中的字符數(shù)量經(jīng)常比文字的
      行中的平均字符數(shù)。
      通過(guò)分析上文所描述的準(zhǔn)則的一個(gè)或多個(gè)組合,以及將頁(yè)眉和頁(yè) 腳與頁(yè)面內(nèi)容的其他部分區(qū)別開(kāi)來(lái)的準(zhǔn)則,非回流內(nèi)容組件304識(shí) 別數(shù)字圖像100中的頁(yè)眉和/或頁(yè)腳。此外, 一般而言,可以通過(guò)一 個(gè)或多個(gè)方面識(shí)別每一個(gè)非回流內(nèi)容塊。相應(yīng)地,在識(shí)別每一種類型 的非回流塊時(shí),識(shí)別可以基于多個(gè)識(shí)別特征/方面中的一個(gè)或多個(gè)特征 來(lái)進(jìn)行。
      再次返回到圖5,如果非回流內(nèi)容組件304識(shí)別數(shù)字圖像100 中的頁(yè)眉和/或頁(yè)腳,則例程進(jìn)入方框506。在方框506中,非回流 內(nèi)容組件304將識(shí)別的圖像區(qū)域標(biāo)記為非回流內(nèi)容塊,以便回流內(nèi) 容轉(zhuǎn)換組件306可以在轉(zhuǎn)換回流內(nèi)容過(guò)程中繞過(guò)此非回流塊。
      關(guān)于"標(biāo)記"非回流內(nèi)容塊,它不是必需的,使用術(shù)語(yǔ)"標(biāo)記"不一 定應(yīng)該在字面上理解為利用標(biāo)記信息修改數(shù)字圖像100。相反,"標(biāo) 記,,應(yīng)該被解釋為保存,至少臨時(shí)地,說(shuō)明識(shí)別的非回流塊的邊界的 信息,包括識(shí)別的非回流塊的維度以及其在特定數(shù)字圖像100中的 位置。如此,標(biāo)記信息可以被置于識(shí)別非回流內(nèi)容塊的數(shù)據(jù)結(jié)構(gòu),或
      16數(shù)據(jù)結(jié)構(gòu)系列中??墒勾?標(biāo)記,,信息對(duì)回流內(nèi)容轉(zhuǎn)換組件306可用, 以便可以從對(duì)內(nèi)容的 一般正文進(jìn)行的處理過(guò)程中排除識(shí)別的非回流 內(nèi)容塊。根據(jù)本發(fā)明的實(shí)施例,此標(biāo)記信息以及其他信息,如置信度 信息(下面將討論)和非回流內(nèi)容塊類型,通常也與非回流內(nèi)容塊一 起復(fù)制到可回流的數(shù)字內(nèi)容文件中。
      如果在數(shù)字圖像100中沒(méi)有識(shí)別頁(yè)眉或頁(yè)腳,或在將識(shí)別的頁(yè) 眉和/或頁(yè)腳標(biāo)記為在處理回流內(nèi)容時(shí)加以排除之后,例程500進(jìn)入 方框508。在方框508中,非回流內(nèi)容組件304掃描數(shù)字圖^象,以 獲取圖片和/或關(guān)聯(lián)的圖片說(shuō)明,如圖1中的圖片110和圖片說(shuō)明 108。如上所述,如果識(shí)別了圖片和/或圖片說(shuō)明,則在方框506中, 非回流內(nèi)容組件304將識(shí)別的內(nèi)容塊標(biāo)記為非回流內(nèi)容塊,隨后繼 續(xù)識(shí)別和標(biāo)記額外的非回流內(nèi)容塊。
      關(guān)于識(shí)別數(shù)字圖像中的圖片和關(guān)聯(lián)的圖片說(shuō)明,所屬領(lǐng)域的技術(shù) 人員將理解,有現(xiàn)有的用于識(shí)別數(shù)字圖像100內(nèi)的圖片/圖形的技術(shù), 其中的任何一種技術(shù)都可以用于識(shí)別圖片。盡管所顯示的圖形110 (圖l)沒(méi)有環(huán)繞的邊界,但是,圖形經(jīng)常存在于環(huán)繞的邊界或框內(nèi)。
      諸如圖1的圖片說(shuō)明108之類的圖片說(shuō)明包括描述了圖片并 被置于對(duì)應(yīng)的圖片的鄰近的位置的某些文本內(nèi)容。可以識(shí)別圖片說(shuō) 明,因?yàn)樗鼈兺ǔMㄟ^(guò)空白與回流內(nèi)容的常規(guī)的正文分隔,如圖片說(shuō) 明110不與段落102和104對(duì)齊。此外,圖片^兌明通常位于對(duì)應(yīng) 的圖片的邊界的附近,位于邊界上,或位于邊界內(nèi)。
      關(guān)于圖片說(shuō)明,盡管只就數(shù)字圖像100中的圖片進(jìn)行本討論的, 但是,這只為了說(shuō)明和清楚起見(jiàn)。圖片說(shuō)明經(jīng)常與其他類型的非回流 內(nèi)容關(guān)聯(lián),包括表、圖表、數(shù)學(xué)和/或科學(xué)公式、程序列表,列表等等。 相應(yīng)地,盡管這里只是就圖片對(duì)圖片說(shuō)明進(jìn)行描述的,但是,本發(fā)明 不應(yīng)該被理解為只與對(duì)應(yīng)的圖片 一起識(shí)別圖片說(shuō)明。
      再次返回到圖5,在方框510中,非回流內(nèi)容組件304掃描數(shù) 字圖像100以獲取諸如圖1中的腳注114之類的腳注。如果發(fā)現(xiàn) 了腳注,則在方框506,非回流內(nèi)容組件304將識(shí)別的腳注標(biāo)記為非回流塊,繼續(xù)識(shí)別,并處理額外的非回流內(nèi)容塊。
      有各種特征可以用來(lái)識(shí)別數(shù)字圖像100中的腳注。腳注位于頁(yè) 面的底部或底部的附近;低于也許除了頁(yè)腳之外的其他文字。經(jīng)常, 但不是始終,腳注通過(guò)分隔行與內(nèi)容的正文分離。另外,腳注通常以 腳注號(hào)碼開(kāi)始,此外,腳注號(hào)碼經(jīng)常作為腳注的正文上的上標(biāo)來(lái)顯示。 更進(jìn)一步,腳注,與頁(yè)眉和/或頁(yè)腳相同,也通常通過(guò)比通常在內(nèi)容的 一般正文中發(fā)現(xiàn)的空白更大的空白分隔。關(guān)于腳注114,發(fā)現(xiàn)了這些 標(biāo)志中的許多。例如,數(shù)字圖像100包括在上標(biāo)中以腳注號(hào)碼"4,,開(kāi) 始的腳注114;腳注114通過(guò)分隔行112與圖像中的其他內(nèi)容分 離;腳注114與通過(guò)大量的空白與內(nèi)容的正文分離。
      在方框512中,非回流內(nèi)容組件304掃描數(shù)字圖^象100以獲 取項(xiàng)目符號(hào)和/或編號(hào)列表。如果發(fā)現(xiàn)了項(xiàng)目符號(hào)和/或編號(hào)列表,則 在方框506,非回流內(nèi)容組件304將識(shí)別的列表標(biāo)記為非回流內(nèi)容 塊,返回,以繼續(xù)識(shí)別,并處理其他非回流內(nèi)容塊。
      項(xiàng)目符號(hào)或編號(hào)列表被視為非回流內(nèi)容塊,以便維持列表項(xiàng)之間 的分隔。這當(dāng)然并不意味著,單個(gè)元件中的文本內(nèi)容不能是可回流的 (如上文關(guān)于非回流塊的內(nèi)容處理的描述),而是簡(jiǎn)單地意味著,應(yīng) 該維持列表元素的逐條記栽。項(xiàng)目符號(hào)列表通常從內(nèi)容的正文的左邊 距(而有時(shí)右邊距)縮進(jìn)。在縮進(jìn)之后,項(xiàng)目符號(hào)列表項(xiàng)將包括初始 符號(hào)或諸如" ," "■,"或" "之類的"項(xiàng)目符號(hào)"。在項(xiàng)目符號(hào)之 后,是列表項(xiàng)的文字的更多的縮進(jìn)。下列組成要素說(shuō)明了項(xiàng)目符號(hào)列 表
      此項(xiàng)目符號(hào)列表項(xiàng)從主要內(nèi)容的左邊距縮進(jìn)。
      此項(xiàng)目符號(hào)列表項(xiàng)以表示諸如".,,的項(xiàng)目符號(hào)列表項(xiàng)的常見(jiàn)的 符號(hào)開(kāi)始。
      此項(xiàng)目符號(hào)列表項(xiàng)與其他列表項(xiàng)對(duì)齊。
      編號(hào)列表具有項(xiàng)目符號(hào)列表的許多特征,包括縮進(jìn)和對(duì)齊。然而, 編號(hào)列表不是以初始符號(hào)開(kāi)始,而是以遞增的編號(hào)(或字母)開(kāi)始。 下面說(shuō)明了示范性編號(hào)列表1. 此編號(hào)項(xiàng)目從主要內(nèi)容的左邊距縮進(jìn)。
      2. 此編號(hào)項(xiàng)目與其他編號(hào)項(xiàng)目對(duì)齊。
      3. 此編號(hào)項(xiàng)目及其他編號(hào)項(xiàng)目說(shuō)明了遞增的引導(dǎo)數(shù)字。 在方框514中,非回流內(nèi)容組件304掃描數(shù)字圖像100以獲
      取詩(shī)。如果發(fā)現(xiàn)了詩(shī),則在方框506,非回流內(nèi)容組件304將識(shí)別 的區(qū)域標(biāo)記為非回流內(nèi)容塊,返回,以繼續(xù)識(shí)別,并處理其他非回流 內(nèi)容塊。
      詩(shī),也許比項(xiàng)目符號(hào)或編號(hào)列表更甚,依靠文字的配置來(lái)表達(dá)作 者的意圖。如此,任何回流,特別是涉及內(nèi)容的一般正文,可以潛在 地?fù)p壞散文的含義和/或計(jì)量。詩(shī)的最大的可能的特點(diǎn)是短行的文字被 分組在一起。文字可以類似地縮進(jìn),但是,在某些情況下卻不。
      在方框516中,非回流內(nèi)容組件304掃描數(shù)字圖像100以獲 取程序列表。如果發(fā)現(xiàn)了程序列表,則在方框506,非回流內(nèi)容組件 304將識(shí)別的區(qū)域標(biāo)記為非回流塊,返回,以繼續(xù)識(shí)別,并處理額外 的非回流內(nèi)容塊。
      程序列表通常的特征在于一系列語(yǔ)句(程序或例程的單獨(dú)的邏輯 指令)。經(jīng)常, 一個(gè)語(yǔ)句出現(xiàn)在單獨(dú)的一行中,但是,這不是必需的。 類似地,語(yǔ)句相對(duì)于頁(yè)面的典型寬度可以非常長(zhǎng)。程序列表中的語(yǔ)句 通常包括各種級(jí)別的縮進(jìn),以說(shuō)明進(jìn)程控制、層次結(jié)構(gòu),和/或語(yǔ)句的 嵌套。在打印內(nèi)容中,程序列表通常與內(nèi)容的正文的字體不同。
      程序列表也經(jīng)常包括預(yù)留的關(guān)鍵字和符號(hào),因此,可以通過(guò)這些 預(yù)留的關(guān)鍵字和符號(hào)來(lái)識(shí)別。盡管那些熟悉程序列表的人會(huì)理解,關(guān) 鍵字和符號(hào)在編程語(yǔ)言之間會(huì)有點(diǎn)不同,在程序列表中經(jīng)常出現(xiàn)的示
      范性關(guān)鍵字包括,但不僅限于"for," "if," "then," "while," "goto," "return,"等等。類似地,程序列表的示范性符號(hào)包括,但不僅限于 "{}[()。/。 + -*/<>="。這些符號(hào)中的一些符號(hào),特別是,,{川()",經(jīng) 常出現(xiàn)在對(duì)應(yīng)的對(duì)中,即,"("將與")"配對(duì),等等。
      在方框518中,非回流內(nèi)容組件304掃描數(shù)字圖像100以獲 取數(shù)學(xué)和/或科學(xué)公式。如果發(fā)現(xiàn)了數(shù)學(xué)和/或科學(xué)公式,則在方框506,非回流內(nèi)容組件304將識(shí)別的區(qū)域標(biāo)記為非回流內(nèi)容塊,返回, 以繼續(xù)識(shí)別,并處理額外的非回流內(nèi)容塊。
      數(shù)學(xué)和科學(xué)公式與程序列表的相似之處,可以通過(guò)特殊符號(hào)和/ 或關(guān)鍵字來(lái)識(shí)別它們。更具體來(lái)說(shuō),除語(yǔ)言特定的語(yǔ)法外,程序列表 中的語(yǔ)句可以被視為筒單的數(shù)學(xué)公式。例如,圖7A顯示了包括多個(gè) 數(shù)學(xué)公式的內(nèi)容的數(shù)字圖像700,如在方框602和604中那樣???以看出,方框602中的公式606包括上文論及程序列表時(shí)所提及的 多個(gè)數(shù)學(xué)符號(hào),包括下列幾個(gè)"{}() + *-="。 諸如"7i,,和"e"之類的 希臘字母,常常是識(shí)別數(shù)學(xué)和/或科學(xué)公式的關(guān)鍵。關(guān)鍵字還表示數(shù)學(xué) 和/或科學(xué)公式,如"mod," "cos," "sin," "Iog,"等等。
      關(guān)于識(shí)別數(shù)學(xué)或科學(xué)公式,根據(jù)一個(gè)實(shí)施例, 一旦發(fā)現(xiàn)或識(shí)別了 與數(shù)學(xué)或科學(xué)公式關(guān)聯(lián)的符號(hào)或關(guān)鍵字,可以檢查該符號(hào)/關(guān)鍵字的周 圍區(qū)域,以看看是否有可以被視為數(shù)學(xué)公式的組成部分。例如,圖7B 顯示了公式606的數(shù)學(xué)等式。假設(shè)記號(hào)701 ("=")被認(rèn)為是數(shù)學(xué)公 式的可能的候選,則檢查周圍區(qū)域,以查看是否有潛在地可能是公式 的組成部分的其他符號(hào)。在此,記號(hào)703 ("s"),盡管不一定本身 就是數(shù)學(xué)符號(hào),可能是數(shù)學(xué)公式的組成部分,如在目前的情況下,并 擴(kuò)展定義了數(shù)學(xué)公式606的邊界,以也將它包括進(jìn)來(lái)。類似地,記 號(hào)705 ("{") 可以被識(shí)別為潛在的數(shù)學(xué)符號(hào),并包括在數(shù)學(xué)公式的 邊界中,確切點(diǎn)說(shuō),擴(kuò)展數(shù)學(xué)公式的邊界,以包括記號(hào)705。繼續(xù)掃 描周圍區(qū)域,直到發(fā)現(xiàn)了表示數(shù)學(xué)(或科學(xué))公式的結(jié)束的某個(gè)標(biāo)志。 這些標(biāo)志可以包括,但不僅限于,數(shù)字圖像700的邊緣、以前識(shí)別 的非回流內(nèi)容塊的邊界(如圖片或圖片說(shuō)明),空白的閾值量等等。 此外,除掃描識(shí)別的記號(hào)或關(guān)鍵字的左側(cè)和右側(cè)之外,還應(yīng)該掃描上 方和下方的內(nèi)容,以查找是否可能包括在數(shù)學(xué)公式的邊界中。如此, 方框702中所顯示的兩個(gè)數(shù)學(xué)公式可以分組在單一的非回流內(nèi)容塊 (作為數(shù)學(xué)公式),以便以后復(fù)制到所產(chǎn)生的數(shù)字內(nèi)容文件中。
      根據(jù)本發(fā)明的進(jìn)一步的實(shí)施例,在處理周圍區(qū)域以便包括在識(shí)別 的數(shù)學(xué)公式之后,非回流內(nèi)容組件304研究包括的內(nèi)容,以判斷內(nèi)
      20容是否本不應(yīng)該包括在非回流數(shù)學(xué)公式中。例如,再次參考圖7A, 假設(shè)在嘗試包括時(shí),非回流內(nèi)容組件304最初將行710包括到數(shù)學(xué) 公式中,隨后的評(píng)估進(jìn)程可以判斷,包括行710太過(guò)度了,并從數(shù) 學(xué)公式中去除它,即,更改數(shù)學(xué)公式的邊界,以排除行710。
      除可識(shí)別的數(shù)學(xué)關(guān)鍵字和符號(hào)之外,數(shù)學(xué)公式常常包括使它們遠(yuǎn) 離回流內(nèi)容的一般正文的特定空間排列。更具體來(lái)說(shuō),數(shù)學(xué)公式具有 彼此靠近地放在一起、甚至重疊的"內(nèi)容"的多行,并不遵循內(nèi)容的正 常流動(dòng)和常規(guī)的回流內(nèi)容的間隔。為說(shuō)明,圖7C是顯示了對(duì)說(shuō)明數(shù) 學(xué)公式720的空間排列特征有用的示范性數(shù)學(xué)公式720的示意圖。 如圖7C所示,7>式720包括如方?jīng)_匡722-726所顯示的文本內(nèi)容的 各種"行"??梢钥闯?,方框722和724彼此 f比鄰,而方框726重 疊了方框722和724兩者。顯而易見(jiàn),此數(shù)學(xué)乂>式720中的內(nèi)容 的排列和典型的回流內(nèi)容不一致,并使其與典型的回流內(nèi)容區(qū)別開(kāi) 來(lái),如圖6所示。
      再次參考圖5,在方框520中,非回流內(nèi)容組件304掃描數(shù)字 圖像100以獲取邊注。如果發(fā)現(xiàn)了邊注,則在方框506,非回流內(nèi) 容組件304將識(shí)別的區(qū)域標(biāo)記為非回流塊,返回,以繼續(xù)識(shí)別,并 處理額外的非回流內(nèi)容塊。
      邊注通過(guò)在某種程度上涉及回流內(nèi)容的主題的文本內(nèi)容來(lái)代表, 如常規(guī)內(nèi)容的括號(hào)中的陳述。然而,簡(jiǎn)單地將邊注的內(nèi)容包括在常規(guī) 的回流內(nèi)容正文內(nèi)將會(huì)損壞內(nèi)容。邊注,作為文字,可通過(guò)各種特征 來(lái)與回流內(nèi)容區(qū)別開(kāi)。例如,邊注經(jīng)常被嵌入到邊界框中,或位于正 常的回流內(nèi)容的外面。圖8是顯示了包括邊注802的示范性數(shù)字圖 像800的示意圖。可以看出,邊注802由邊界框進(jìn)行定義。另外, 在常規(guī)的回流內(nèi)容和邊注之間有相當(dāng)大的空白。邊注經(jīng)常包括背景顏 色(未顯示)和/或以不同字體或著重(如粗體)來(lái)呈現(xiàn)。盡管在圖8 中未顯示,但是,邊注,正如圖片、公式等等那樣,可以與圖片說(shuō)明 關(guān)聯(lián)。
      再次參考圖5,在方框522中,非回流內(nèi)容組件304掃描數(shù)字圖像100以獲取圖表。如果發(fā)現(xiàn)了圖表,則在方框506,非回流內(nèi) 容組件304將識(shí)別的區(qū)域標(biāo)記為非回流塊,返回,以繼續(xù)識(shí)別,并 處理額外的非回流內(nèi)容塊。
      圖9是顯示了包括圖表902的示范性數(shù)字圖像900的示意 圖。圖表通常包括圖形和文字的組合,并可被識(shí)別。然而,諸如圖表 902之類的圖表內(nèi)的文字,只就圖表的配置而論才有實(shí)際意義。如此, 應(yīng)該維持空間關(guān)系。
      圖表通常通過(guò)相當(dāng)大的空白與常規(guī)內(nèi)容分離。圖表的位置通常是 這樣的,以便常規(guī)的文字可以圍繞圖表折回。類似于邊注和圖片,圖 表經(jīng)常被邊界框包圍,雖然圖表902沒(méi)有框。圖表也經(jīng)常與諸如圖 片說(shuō)明904之類的圖片說(shuō)明關(guān)聯(lián)。
      在方框524中,非回流內(nèi)容組件304掃描數(shù)字圖像100以獲 取表。如果發(fā)現(xiàn)了一個(gè)表,則在方框506,非回流內(nèi)容組件304將 識(shí)別的區(qū)域標(biāo)記為非回流塊,并返回。
      如本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到的,表通常包括帶有一般而言單元的 均勻的行和列的邊界框或邊界。更具體來(lái)說(shuō),盡管某些單元可以與其 他單元連接在一起,以產(chǎn)生較大的單元,代替一個(gè)或多個(gè)單個(gè)單元, 表中的單元將仍符合表的一般行/列結(jié)構(gòu)。單元經(jīng)常包括文本內(nèi)容。然 而,表的行和列結(jié)構(gòu)提供了表的單元格中的信息的上下文和含義,以 致于自由地回流單元格內(nèi)容將導(dǎo)致它丟失含義。如此,應(yīng)該維持表的 空間排列。
      參考圖5,在處理各種非回流內(nèi)容的數(shù)字圖像100之后,示范 性例程500結(jié)束。然而,值得注意的是,盡管示范性例程500顯示 了處理非回流內(nèi)容塊的特定順序,但是,此順序只是說(shuō)明性的,不應(yīng) 該被理解為對(duì)本發(fā)明作出限制。此外,盡管上文所描述的步驟顯示了 例程500是單獨(dú)的并且是連續(xù)的,但是,這只是為了說(shuō)明。在實(shí)際 實(shí)施例中,可以實(shí)現(xiàn)任意數(shù)量的這些步驟,以便并行地運(yùn)行和/或與其 他步驟相結(jié)合地運(yùn)行。
      關(guān)于如上文所描述的識(shí)別數(shù)學(xué)或科學(xué)公式的范圍的過(guò)程,特別是最初在包括潛在的內(nèi)容時(shí)太過(guò)度了 ,并在隨后評(píng)估內(nèi)容以查看是否存 在過(guò)度包括的情形,應(yīng)該理解,這種做法一般可以應(yīng)用于各種類型的
      非回流內(nèi)容塊。為此,圖10是顯示了用于適于確定非回流內(nèi)容塊的 范圍的示范性例程1000的流程圖。
      例程1000通過(guò)定位被標(biāo)識(shí)為非回流內(nèi)容塊的一部分的某些內(nèi) 容來(lái)啟動(dòng)。如此,在方框1002,研究,皮標(biāo)識(shí)為非回流內(nèi)容塊的一部 分的內(nèi)容周圍的相鄰區(qū)域。在判斷方框1004,就是否有任何額外的 潛在的內(nèi)容(如包括在非回流內(nèi)容塊中的潛在的內(nèi)容)位于相鄰區(qū)域 進(jìn)行判斷。如果發(fā)現(xiàn)額外的潛在的內(nèi)容,則在方框1006中,示范性 例程包括額外的潛在的內(nèi)容,作為非回流內(nèi)容塊的部分。如上文所指 出的,這很可能通過(guò)擴(kuò)張非回流內(nèi)容塊的邊界來(lái)進(jìn)行以包括來(lái)自周圍 區(qū)域的額外的潛在的內(nèi)容。此后(非回流塊的邊界擴(kuò)張之后),例程 1000再次返回到方?jīng)_匡1002。
      一旦沒(méi)有識(shí)別到有額外的潛在的內(nèi)容要包括在非回流內(nèi)容塊中, 例程1000進(jìn)入方框1008中。在方框1008中,評(píng)估非回流內(nèi)容塊, 以查找其作為非回流內(nèi)容包括的似然率低于預(yù)定的閾值的內(nèi)容。似然 率判斷通常是基于根據(jù)非回流內(nèi)容塊的特定類型而改編的啟發(fā)規(guī)則 而進(jìn)行的。在判斷方框1010中,就是否有任何不大可能的內(nèi)容(低 于預(yù)定的閾值)已經(jīng)錯(cuò)誤地包括在非回流內(nèi)容塊中進(jìn)行判斷。倘若如 此,則例程進(jìn)入方框1012,從非回流內(nèi)容塊的范圍內(nèi)去除不大可能 的內(nèi)容。此后,例禾呈1000再次返回到方?jīng)_匡1008,以進(jìn)4亍如上文所 描述的重新評(píng)估。 一旦已經(jīng)全部消除了其包括的似然率低于預(yù)定的閾 值的全部?jī)?nèi)容,則例程1000結(jié)束。
      顯而易見(jiàn),通過(guò)自動(dòng)化過(guò)程判斷某些內(nèi)容是否是非回流內(nèi)容的部 分問(wèn)題是,有時(shí),它只不過(guò)是僥幸的脫險(xiǎn),例如,并不總是可以啟發(fā) 式地以較高置信度判斷某些內(nèi)容是否是非回流內(nèi)容。要援解這種置信 度缺乏的情況,需要將數(shù)字圖像100轉(zhuǎn)換為具有差不多有100%準(zhǔn) 確性的回流內(nèi)容。如此,根據(jù)本發(fā)明的一些方面,因?yàn)椴⒎撬械亩?非回流塊都以較高的置信度或確定性來(lái)進(jìn)行標(biāo)識(shí),非回流內(nèi)容識(shí)別組件304就其識(shí)別非回流內(nèi)容塊的置信度進(jìn)行啟發(fā)式判斷,并將此置 信度等級(jí)與非回流塊一起存儲(chǔ)在數(shù)字內(nèi)容文件中。置信度等級(jí)的啟發(fā) 式判斷可以對(duì)于每一種非回流內(nèi)容塊(例如,頁(yè)眉、頁(yè)腳、邊注、列 表、詩(shī)等等)而不同。通過(guò)存儲(chǔ)與被識(shí)別的非回流塊關(guān)聯(lián)的置信度等 級(jí),能實(shí)現(xiàn)本發(fā)明的進(jìn)一步的方面,即,以自動(dòng)化過(guò)程有效地處理數(shù) 字圖像轉(zhuǎn)換所采用的過(guò)程,當(dāng)置信度等級(jí)低于預(yù)定的閾值時(shí),進(jìn)行手 動(dòng)校正。
      圖11是顯示了用于使用自動(dòng)化過(guò)程處理數(shù)字圖像并且在自動(dòng) 化轉(zhuǎn)換的置信度低于預(yù)定的閾值時(shí)觸發(fā)手動(dòng)評(píng)估和編輯的示范性例 程1100的流程圖。從方框1102開(kāi)始,獲取數(shù)字圖像100,以便自 動(dòng)化處理為回流內(nèi)容。在方框1104,數(shù)字圖像100被處理為包括回 流和非回流內(nèi)容的數(shù)字內(nèi)容。根據(jù)上文所描述的方面,復(fù)制到數(shù)字內(nèi) 容中的非回流內(nèi)容,或識(shí)別的非回流內(nèi)容塊,包括,但不僅限于,有 關(guān)塊的邊界的信息,它所在的數(shù)字圖像中的位置,它將落在回流內(nèi)容 中的什么位置,非回流塊的類型,以及表示非回流內(nèi)容轉(zhuǎn)換組件304 分配給非回流內(nèi)容塊的置信水平的置信度等級(jí)。
      在控制方框1106中,循環(huán)過(guò)程開(kāi)始,迭代在方框1104中荻取 的數(shù)字內(nèi)容中的每一識(shí)別的非回流內(nèi)容塊。更具體來(lái)說(shuō),對(duì)于每一種 識(shí)別的非回流內(nèi)容塊,執(zhí)行下面的步驟。在判斷方框1108中,就分 配給當(dāng)前非回流內(nèi)容塊的置信度等級(jí)是否低于預(yù)定的閾值進(jìn)行判斷。 例如,內(nèi)容提供商可以希望評(píng)估低于75%置信度等級(jí)的全部識(shí)別的 非回流內(nèi)容塊,以確保高準(zhǔn)確性。也可以根據(jù)內(nèi)容提供商的偏好,使 用其他閾值,無(wú)論是較高的,還是較低的。
      根據(jù)本發(fā)明的一個(gè)方面,可以使用多個(gè)預(yù)定的閾值,以便對(duì)于每 一種類型的非回流內(nèi)容塊,有對(duì)應(yīng)的預(yù)定的閾值(可以不同于其他預(yù) 定的閾值)。例如,頁(yè)眉的預(yù)定的閾值可以是"90"(設(shè)置得比較高, 因?yàn)轫?yè)眉不會(huì)在所產(chǎn)生的文檔中顯示),而對(duì)應(yīng)于圖片說(shuō)明的預(yù)定的 閾值可以是"75"。 如此,可以專門針對(duì)內(nèi)容提供商的需求定制總的 轉(zhuǎn)換過(guò)程。如此,在某些實(shí)施例中,判斷分配給當(dāng)前非回流內(nèi)容塊的置信度等級(jí)是否低于適用于所有類型的非回流內(nèi)容塊的默認(rèn)預(yù)定的 閾值,而在其他實(shí)施例中,就非回流類型特定的預(yù)定的閾值作出判斷。 如果分配給當(dāng)前非回流內(nèi)容塊的置信度等級(jí)低于預(yù)定的閾值,則
      例程1100進(jìn)入方框1110。在方框1110中,示范性例程觸發(fā)當(dāng)前
      非回流內(nèi)容塊的手動(dòng)評(píng)估和編輯過(guò)程。評(píng)估和編輯過(guò)程通常將呈現(xiàn)數(shù)
      字圖像100,識(shí)別的非回流內(nèi)容塊以及其類型,也將包括工作人員就
      已經(jīng)評(píng)估的非回流內(nèi)容塊進(jìn)行任何校正所需的工具。當(dāng)然,已經(jīng)觸發(fā) 的評(píng)估和編輯過(guò)程可以在檢測(cè)到低置信度等級(jí)的時(shí)候進(jìn)行,或排隊(duì), 以便以后進(jìn)行異步處理。
      就手動(dòng)評(píng)估和編輯過(guò)程而論,根據(jù)一個(gè)實(shí)施例,也可以將置信度 等級(jí)呈現(xiàn)給執(zhí)行手動(dòng)評(píng)估的工作人員。此置信度等級(jí)可以作為數(shù)值來(lái) 呈現(xiàn),或者,也可以作為顏色和/或顏色的強(qiáng)度來(lái)呈現(xiàn)。 一般而言,置 信度等級(jí)可以通過(guò)特定字體、字體大小、顏色(例如,色調(diào)、飽和度、 強(qiáng)度),亮度、漸進(jìn)或運(yùn)動(dòng),或其他參數(shù)來(lái)表示。也可以顯示符號(hào)或 編號(hào)來(lái)表示置信度等級(jí)。在一個(gè)實(shí)施例中,當(dāng)呈現(xiàn)用于手動(dòng)評(píng)估和編 輯的非回流塊時(shí)顯示給工作人員的顏色的強(qiáng)度直接涉及置信度等級(jí) 和預(yù)定的閾值之間的差值。此外,所使用的顏色可以是非回流類型特 定的,例如,紅色表示頁(yè)眉,或者頁(yè)腳,藍(lán)色表示圖表,品紅表示表 等等?;蛘?,盡管在某些情況下將置信度等級(jí)與非回流內(nèi)容塊一起顯 示是非常有益的,但是,置信度等級(jí)可能會(huì)對(duì)手動(dòng)評(píng)估和編輯過(guò)程產(chǎn) 生偏見(jiàn)的基礎(chǔ),而手動(dòng)評(píng)估和編輯過(guò)程是要求沒(méi)有偏見(jiàn)的意見(jiàn)的。相 應(yīng)地,顯示置信度等級(jí),無(wú)論是什么形式,應(yīng)該被視為可選的,而不 是強(qiáng)制性的。
      在備選實(shí)施例中(未顯示),可以通過(guò)服務(wù)執(zhí)行手動(dòng)評(píng)估和編輯 處理。更具體來(lái)說(shuō),非回流內(nèi)容塊,以及其他相關(guān)的信息,如,但不
      僅限于,其類型、從其中獲取它的數(shù)字圖像100中的上下文,置信
      度等級(jí),以及數(shù)字圖像,以及需要什么的描述,被張貼到服務(wù)提供商 (在能夠執(zhí)行請(qǐng)求的服務(wù)的意義上)投標(biāo)或接受報(bào)價(jià)來(lái)執(zhí)行請(qǐng)求的操 作的位置。在這種情況下,非回流內(nèi)容塊可以張貼到這種服務(wù),以讓服務(wù)提供商手動(dòng)評(píng)估非回流塊的內(nèi)容,以判斷是否錯(cuò)誤地包括了任何 內(nèi)容。然后,來(lái)自手動(dòng)評(píng)估的信息返回到過(guò)程中。
      如果分配給當(dāng)前非回流內(nèi)容塊的置信度等級(jí)滿足或超過(guò)預(yù)定的 閾值,或者,在對(duì)于非回流內(nèi)容塊觸發(fā)手動(dòng)評(píng)估和編輯之后,例程
      1100進(jìn)入結(jié)束控制方塊1112。在結(jié)束控制方框1112時(shí),從控制方 框1106開(kāi)始的循環(huán)處理,就是否有需要評(píng)估的任何額外的識(shí)別的非 回流內(nèi)容塊作出判斷。如果是,那么,例程1100進(jìn)入控制方框1106, 在此,循環(huán)處理迭代到下一個(gè)需要評(píng)估的識(shí)別的非回流內(nèi)容塊,如上 文所描述的。如果否,則示范性例程1100結(jié)束。
      所屬領(lǐng)域的技術(shù)人員將理解,對(duì)非回流塊的手動(dòng)編輯/校正可以 會(huì)對(duì)其他經(jīng)過(guò)處理的內(nèi)容,包括回流和非回流塊,產(chǎn)生顯著的影響, 即,某些回流內(nèi)容可能會(huì)錯(cuò)誤地包括在非回流內(nèi)容塊中。相應(yīng)地,盡 管在圖11中未顯示,但是,在手動(dòng)評(píng)估和編輯步驟完成并對(duì)一個(gè)或 多個(gè)非回流內(nèi)容塊進(jìn)行編輯之后,對(duì)數(shù)字圖像100進(jìn)行重新處理, 或者,換句話說(shuō),將可回流內(nèi)容重新處理為排除了識(shí)別的(和編輯的) 非回流內(nèi)容塊的回流內(nèi)容。
      盡管在圖11中未顯示,但是,在本發(fā)明的至少一個(gè)實(shí)施例中, 在評(píng)估非回流內(nèi)容塊時(shí)可以應(yīng)用特定順序。更具體來(lái)說(shuō),可以按特定
      如,其置信度等級(jí)低于對(duì)應(yīng)的預(yù)定的闊值的特定類型的非回流內(nèi)容 塊,如頁(yè)眉或頁(yè)腳,可以在諸如表或項(xiàng)目符號(hào)列表之類的其他非回流 內(nèi)容塊之前被處理?;蛘撸陀谄鋵?duì)應(yīng)的預(yù)定的閾值的非回流內(nèi)容塊 可以按對(duì)應(yīng)于其置信度等級(jí)的順序進(jìn)行處理。例如,首先處理最高置 信度等級(jí)的非回流塊,接下來(lái)是處理具有較小的置信度等級(jí)的非回流 塊。
      如本領(lǐng)域技術(shù)人員所理解的, 一旦手動(dòng)評(píng)估和編輯了非回流塊, 則當(dāng)檢測(cè)到類似的或基本上類似的情況時(shí),可以在整個(gè)文檔中類似地 應(yīng)用那些編輯結(jié)果。例如,由于頁(yè)眉具有相同的或類似的在很多頁(yè)面 上重復(fù)的類似,假設(shè)手動(dòng)評(píng)估和編輯了頁(yè)眉,那么,對(duì)一個(gè)頁(yè)眉作出的任何更改都可以適用于其他頁(yè)眉非回流塊。當(dāng)然,頁(yè)眉經(jīng)常不完全 類似,如當(dāng)包括了頁(yè)編號(hào)、章編號(hào)等等時(shí)。然而,當(dāng)非回流塊的內(nèi)容 基本上類似時(shí),手動(dòng)編輯結(jié)果相當(dāng)可能適用。當(dāng)出現(xiàn)此相似度或基本 相似度時(shí),根據(jù)一個(gè)實(shí)施例,對(duì)第一非回流內(nèi)容塊的手動(dòng)更改/編輯結(jié) 果自動(dòng)地應(yīng)用于整個(gè)數(shù)字內(nèi)容文件中的其他類似的非回流內(nèi)容塊。
      除如上文所描述的處理數(shù)字圖像100之外, 一旦數(shù)字圖像100
      被處理為數(shù)字內(nèi)容文件,就可以對(duì)數(shù)字內(nèi)容文件進(jìn)行進(jìn)一步的處理, 無(wú)論是內(nèi)容提供商還是另一方進(jìn)行處理。通常,這樣的其他處理可能 是進(jìn)一步針對(duì)數(shù)字內(nèi)容文件的計(jì)劃的用途準(zhǔn)備數(shù)字內(nèi)容文件。例如, 可以使用壓縮技術(shù)對(duì)數(shù)字內(nèi)容文件進(jìn)行進(jìn)一步的處理,以縮小數(shù)字內(nèi) 容文件的存儲(chǔ)占用量,或進(jìn)行格式化,以使數(shù)字內(nèi)容文件具有適于在查 看器中顯示和/或供出售的格式。此外,還可以添加數(shù)字權(quán)限管理信息, 以利用許可證控制經(jīng)過(guò)處理的數(shù)字內(nèi)容的使用。
      盡管顯示并描述了說(shuō)明性實(shí)施例,但是,應(yīng)了解,在不偏離本發(fā) 明的精神和范圍的情況下,可以作出許多更改。
      2權(quán)利要求
      1. 一種適用于有效地評(píng)估數(shù)字內(nèi)容以進(jìn)行可能的手動(dòng)編輯的計(jì)算機(jī)系統(tǒng),所述計(jì)算機(jī)系統(tǒng)包括處理器;以及存儲(chǔ)器,其中,所述存儲(chǔ)器包括一個(gè)或多個(gè)應(yīng)用程序模塊,所述應(yīng)用程序模塊當(dāng)執(zhí)行時(shí),使所述系統(tǒng)執(zhí)行下列操作獲取數(shù)字內(nèi)容文件,所述數(shù)字內(nèi)容文件包括從數(shù)字圖像處理的回流內(nèi)容以及從所述數(shù)字圖像復(fù)制的非回流內(nèi)容;對(duì)所述數(shù)字內(nèi)容文件進(jìn)行掃描以獲取非回流內(nèi)容;以及對(duì)于在所述數(shù)字內(nèi)容文件中發(fā)現(xiàn)的每一個(gè)非回流內(nèi)容塊判斷是否應(yīng)該手動(dòng)編輯所述非回流內(nèi)容塊;以及如果判斷應(yīng)該手動(dòng)編輯所述非回流塊,則調(diào)用一個(gè)或多個(gè)應(yīng)用程序模塊,以啟動(dòng)手動(dòng)編輯會(huì)話。
      2. 根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述計(jì)算機(jī)系 統(tǒng)進(jìn)一步被配置為容塊;以及 容塊。
      3, —種用于有效地將數(shù)字圖像處理為回流內(nèi)容的方法,所述方 法包括由計(jì)算機(jī)執(zhí)行的下列操作中的每一個(gè)操作獲取用于進(jìn)行處理的數(shù)字圖像,所述數(shù)字圖像至少包括適用于處 理為回流內(nèi)容的某些內(nèi)容;將所述數(shù)字圖像處理為數(shù)字內(nèi)容文件,所述數(shù)字內(nèi)容文件包括回 流內(nèi)容和非回流內(nèi)容塊;以及對(duì)于所述數(shù)字內(nèi)容文件中的每一個(gè)非回流內(nèi)容塊判斷是否應(yīng)該手動(dòng)評(píng)估所述非回流內(nèi)容塊以便進(jìn)行編輯;以及如果判斷應(yīng)該手動(dòng)評(píng)估所述非回流內(nèi)容塊以便進(jìn)行編輯, 則自動(dòng)地觸發(fā)關(guān)于編輯的手動(dòng)評(píng)估。
      4. 根據(jù)權(quán)利要求3所述的方法,其中,判斷是否應(yīng)該手動(dòng)評(píng) 估所述非回流內(nèi)容塊以便進(jìn)行編輯的過(guò)程包括評(píng)估所述非回流塊,以 判斷所述非回流內(nèi)容塊是否包括可能已經(jīng)不正確地包括在所述非回 流內(nèi)容塊中的內(nèi)容。
      5. 根據(jù)權(quán)利要求3所述的方法,其中,判斷是否應(yīng)該手動(dòng)評(píng) 估所述非回流內(nèi)容塊以便進(jìn)行編輯的過(guò)程包括,判斷與所述非回流內(nèi) 容塊關(guān)聯(lián)的置信度等級(jí)是否低于預(yù)定的閾值,從而要求進(jìn)行手動(dòng)評(píng) 估。
      6. 根據(jù)權(quán)利要求5所述的方法,其中,所述預(yù)定的閾值是根 據(jù)所述非回流內(nèi)容塊的類型確定的。
      7. 根據(jù)權(quán)利要求6所述的方法,其中,自動(dòng)地觸發(fā)關(guān)于編輯 的手動(dòng)評(píng)估的過(guò)程包括在所述數(shù)字圖像的上下文中將所述非回流內(nèi) 容塊顯示給工作人員,以便進(jìn)行評(píng)估和編輯。
      8. 根據(jù)權(quán)利要求7所述的方法,其中,評(píng)估和編輯過(guò)程包括 對(duì)所述非回流內(nèi)容塊進(jìn)行外觀檢查。
      9. 根據(jù)權(quán)利要求7所述的方法,其中,所述非回流內(nèi)容塊和 關(guān)聯(lián)的置信度等級(jí)顯示給工作人員。
      10. 根據(jù)權(quán)利要求9所述的方法,其中,所述關(guān)聯(lián)的置信度等 級(jí)是作為 一個(gè)數(shù)值來(lái)顯示的。
      11. 根據(jù)權(quán)利要求9所述的方法,其中,所述非回流內(nèi)容塊是 以與所述非回流內(nèi)容塊的類型關(guān)聯(lián)的顏色顯示給工作人員的。
      12. 根據(jù)權(quán)利要求11所述的方法,其中,所述關(guān)聯(lián)的置信度等
      13. 根據(jù)權(quán)利要求5所述的方法,其中,將所述數(shù)字圖像處理 為可回流的文件的過(guò)程包括識(shí)別所述數(shù)字圖像中的非回流內(nèi)容塊;將置信度等級(jí)與每一個(gè)被識(shí)別的非回流內(nèi)容塊關(guān)聯(lián),所迷置信度等級(jí)是所述被識(shí)別的非回流內(nèi)容塊只包括非回流內(nèi)容的置信度的指標(biāo);將所述數(shù)字圖像的內(nèi)容處理為排除了所述被識(shí)別的非回流內(nèi)容 塊中的內(nèi)容的回流內(nèi)容;以及包括所述關(guān)聯(lián)的置信度等級(jí),將所述回流內(nèi)容和所述被識(shí)別的非 回流內(nèi)容塊存儲(chǔ)在所述數(shù)字內(nèi)容文件中。
      14. 根據(jù)權(quán)利要求3所述的方法,進(jìn)一步包括 判斷是否已經(jīng)手動(dòng)編輯了所述數(shù)字內(nèi)容文件中的任何非回流內(nèi)容塊;以及將所述數(shù)字圖像重新處理為所述數(shù)字內(nèi)容文件。
      15. 根據(jù)權(quán)利要求3所述的方法,進(jìn)一步包括 — 一 一 勁^容塊;以及動(dòng)^基本上類似的非回流塊。
      16. 根據(jù)權(quán)利要求3所述的方法,其中,如果判斷應(yīng)該手動(dòng)評(píng) 估所述非回流內(nèi)容塊以便進(jìn)行編輯,則立即觸發(fā)所述關(guān)于編輯的手動(dòng) 評(píng)估。
      17. 根據(jù)權(quán)利要求3所述的方法,其中,如果判斷應(yīng)該手動(dòng)評(píng) 估所述非回流內(nèi)容塊以便進(jìn)行編輯,則使所述關(guān)于編輯的手動(dòng)評(píng)估排 隊(duì)用于后續(xù)處理。
      18. 用于執(zhí)行根據(jù)權(quán)利要求3到17的中的任一權(quán)利要求所述 的方法的計(jì)算機(jī)程序。
      全文摘要
      提供了一種用于有效地將數(shù)字圖像處理為回流內(nèi)容的計(jì)算機(jī)系統(tǒng)和方法。該方法包括在計(jì)算機(jī)上執(zhí)行的下列操作中的每一個(gè)操作。獲取數(shù)字圖像,以便進(jìn)行處理。數(shù)字圖像至少包括適于轉(zhuǎn)換為回流內(nèi)容的某些內(nèi)容。數(shù)字圖像被處理為數(shù)字內(nèi)容文件。數(shù)字內(nèi)容文件包括回流內(nèi)容和非回流內(nèi)容塊兩者。對(duì)于數(shù)字內(nèi)容文件中的每一個(gè)非回流內(nèi)容塊,執(zhí)行下面的操作。就是否應(yīng)該手動(dòng)評(píng)估所述非回流內(nèi)容塊以便進(jìn)行編輯作出判斷。如果判斷應(yīng)該對(duì)所述非回流內(nèi)容塊進(jìn)行關(guān)于編輯的手動(dòng)評(píng)估,則自動(dòng)地觸發(fā)關(guān)于編輯的手動(dòng)評(píng)估。
      文檔編號(hào)G06K9/03GK101443790SQ200780017376
      公開(kāi)日2009年5月27日 申請(qǐng)日期2007年3月22日 優(yōu)先權(quán)日2006年3月28日
      發(fā)明者A·B·考斯, F·Z·R·阿卡林, J·沙干, R·L·古德溫, T·N·特里 申請(qǐng)人:亞馬遜科技公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1