專利名稱:自動提供與捕獲的信息例如實時捕獲的信息關(guān)聯(lián)的內(nèi)容的制作方法
自動提供與捕獲的信息例如實時捕獲的信息關(guān)聯(lián)的內(nèi)容相關(guān)申請的交叉引用
本申請要求 2009 年 3 月 12 日提交的題為 DOCUMENT INTERACTION SYSTEM AND METHOD 的美國臨時專利申請No. 61/159757、2009年6月4日提交的題為DOCUMENT INTERACTION, SUCH AS INTERACTION USING A MOBILE DEVICE 的美國臨時專利申請No. 61/184273,2010 年 2 月 4 日提交的題為 PROVIDING ADDITIONAL INFORMATION BASED ON CONTENT OF AUDIO DATA, SUCH AS RELEVANT INFORMATION REGARDING TOPICS RAISED IN A LIVE AUDIO STREAM的美國臨時專利申請No. 61/301576以及2010年2月4日提交的題為PROVIDING RELEVANT INFORMATION的美國臨時專利申請No. 61/301572的優(yōu)先權(quán),所有這些專利申請通過引用全部合并于此。本申請與2007年9月17 日提交的題為CAPTURE AND DISPLAY OF ANNOTATIONS IN PAPER AND ELECTRONIC DOCUMENTS 的 PCT 申請 No. PCT/EP/2007/008075 ;2010 年 2 月 18 日提交的題為 AUTOMATICALLY CAPTURING INFORMATION, SUCH AS CAPTURING INFORMATION USING A DOCUMENT AWARE DEVICE 的美國專利申請 No. 12/660146 ;2010 年 2 月 18 日提交的題為 INTERACTING WITH RENDERED DOCUMENTS USING A MULT I-FUNCTI ON MOBILE DEVICE, SUCH AS A MOBILE PHONE的美國專利申請No. 12/660151 ;以及2010年2月18日提交的題為 IDENTIFYING DOCUMENTS BY PERFORMING SPECTRAL ANALYSIS ON THE DOCUMENTS 的美國專利申請No. 12/6601 有關(guān),所有這些專利申請通過引用全部合并于此。
背景技術(shù):
人們不斷地接收他們可能感興趣的信息。信息以從紙質(zhì)文檔(報紙、書籍、雜志等等)到他們周圍世界內(nèi)的其他對象(標(biāo)志、告示牌、顯示器等等)的許多形式呈現(xiàn)。通常,信息至少部分地通過文檔上印刷的、通過對象顯示的、通過音頻或視頻流呈現(xiàn)等等的文本而呈現(xiàn)。
圖IA為示出系統(tǒng)的一些實施例中的信息流的數(shù)據(jù)流圖。圖IB為示出系統(tǒng)的一些實施例中的信息流的數(shù)據(jù)流圖。圖2為在典型操作環(huán)境的情況下包含在系統(tǒng)的典型實現(xiàn)方式中的部件的部件圖。圖3為示出與系統(tǒng)一起使用的適當(dāng)捕獲設(shè)備的框圖。圖4為示出由用于提供相關(guān)信息結(jié)合顯示該相關(guān)信息的系統(tǒng)呈現(xiàn)的樣本顯示的顯示圖。圖5為示出用于提供與接收的本文相關(guān)的信息的例程的流程圖。圖6為結(jié)合存儲由系統(tǒng)利用的數(shù)據(jù)而示出系統(tǒng)使用的數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)圖。圖7為示出系統(tǒng)運行于其中的環(huán)境的框圖。圖8為示出用于自動地呈現(xiàn)從再現(xiàn)的文檔捕獲的信息的例程的流程圖。圖9為示出用于確定與標(biāo)識的再現(xiàn)的文檔關(guān)聯(lián)的內(nèi)容源的例程的流程圖。
圖10為用于與基于音頻的信息交互的部件或模塊的框圖。圖11為示出要基于接收的音頻的內(nèi)容而執(zhí)行的動作的實例的流程圖。圖12為示出用于動作、即標(biāo)識接收的音頻中的詞語并且基于那些詞語提供輸出的動作的子例程的實例的例程圖。圖13為示出用于顯示與30分鐘時段期間接收的音頻內(nèi)容關(guān)聯(lián)的視覺內(nèi)容的用戶界面的示意圖。
具體實施例方式綜沭
本發(fā)明人已經(jīng)認(rèn)識到,當(dāng)出于其他目的,例如出于文檔生成或信息呈現(xiàn)的目的而提供、 生成、創(chuàng)建和/或傳輸文本或信息時,搜索、檢索(retrieve)和/或顯示信息、內(nèi)容和/或要執(zhí)行的動作將是有用的。在一些實例中,描述了捕獲信息和呈現(xiàn)與捕獲的信息關(guān)聯(lián)的內(nèi)容。系統(tǒng)響應(yīng)于系統(tǒng)可以觀察到的用戶提供的、例如鍵入文本的用戶提供的文本而自動地提供相關(guān)信息。系統(tǒng)監(jiān)控提供的文本并且自動地選擇文本的一部分,例如主題、對象、句子的動詞、從句或者隨機或收集的一組單詞等等。系統(tǒng)基于文本的選擇的部分形成查詢,使用該查詢選擇要搜索的索引,傳輸對選擇的索引的查詢,并且接收與查詢相關(guān)的搜索結(jié)果。系統(tǒng)顯示這些搜索結(jié)果中的至少一個,使得用戶可以觀看與用戶提供的文本相關(guān)的信息。在一些實例中,描述了捕獲信息和將捕獲的信息與不同內(nèi)容源關(guān)聯(lián)。系統(tǒng)基于從文檔捕獲的信息來標(biāo)識再現(xiàn)的文檔并且利用該文檔作為進入相關(guān)內(nèi)容的一個或多個通道的訪問點。系統(tǒng)標(biāo)識內(nèi)容源并且與捕獲的信息一起提供與內(nèi)容源關(guān)聯(lián)的信息。在一些實例中,系統(tǒng)提供與從接收的音頻信號提取的內(nèi)容相關(guān)的信息。系統(tǒng)接收例如來自收音機的揚聲器或者來自在電話呼叫的情況中發(fā)生的現(xiàn)場談話或者來自共享的物理空間的現(xiàn)場音頻信號,捕獲來自該音頻信號的信息,并且執(zhí)行與捕獲的信息關(guān)聯(lián)的動作。執(zhí)行的動作可以是標(biāo)識搜索詞語并且基于這些詞語進行查詢或搜索。然后,系統(tǒng)接收與音頻內(nèi)容有關(guān)的或關(guān)聯(lián)的信息并且將其輸出給用戶,例如將其輸出給移動設(shè)備或者單獨的顯示設(shè)備以便顯示給用戶。實例情景
下面的情景給出公開的技術(shù)的可能的應(yīng)用。本領(lǐng)域的一位普通技術(shù)人員將理解,這些情景被提供來教導(dǎo)可以如何實現(xiàn)所公開的技術(shù)并且所公開的技術(shù)適用于本文未顯式描述的其他情景。某個人正在寫關(guān)于2010世界杯的文章,并且正完成關(guān)于東道主國家南非的段落。 集成到該撰稿者使用的字處理器中的系統(tǒng)在該撰稿者完成所述段落的同時連續(xù)地更新到處理器的側(cè)面方格中示出的信息的鏈接。當(dāng)這個人開始鍵入句子“作為東道主國家,南非……”時,系統(tǒng)顯示到包含關(guān)于南非的信息的不同站點的鏈接。當(dāng)這個人繼續(xù)句子“.….. 無需具有資格,并且參賽者將渴望……”時,系統(tǒng)顯示到各個參賽者的簡歷和統(tǒng)計資料的鏈接。當(dāng)這個人總結(jié)句子“……開始訓(xùn)練并且建立有凝聚力的單位”時,系統(tǒng)鏈接到討論東道主國家在先前的世界杯中面臨的挑戰(zhàn)的其他文章。某個館長正在閱讀關(guān)于惠特尼雙年展(Whitney Biennial)的雜志文章,并且有興趣了解更多。這個館長使用她的智能電話例如通過拍攝來自該文章的一部分文字的圖像來捕獲該部分文字。響應(yīng)于該捕獲,系統(tǒng)標(biāo)識所述文章,標(biāo)識該文章的“惠特尼雙年展”標(biāo)簽并且確定該文章與來自著名藝術(shù)評論家的具有類似標(biāo)簽的三篇不同的推特文稿(Twitter feed)關(guān)聯(lián)。系統(tǒng)通過智能電話的顯示器呈現(xiàn)這些推特文稿的指示,并且在接收到來自用戶的對這些文稿之一的選擇時呈現(xiàn)該文稿。某個學(xué)生正在聽關(guān)于十八世紀(jì)末期的美國歷史的講座。該學(xué)生使用他的移動電話記錄該講座,并且使得系統(tǒng)能夠標(biāo)識和檢索可能與講座中所講的東西關(guān)聯(lián)的內(nèi)容。當(dāng)該學(xué)生集中于講座時,系統(tǒng)為她做筆記,記錄和檢索講座中引用的章節(jié)、關(guān)于講座中提及的人物的簡歷等等。例如,在講座的描述1789年費城和紐約市的相對大小和人口的部分期間,系統(tǒng)標(biāo)識包含類似信息的圖表以及地圖的電子版本,并且為該學(xué)生獲取(retrieve)它們。該學(xué)生也可以使用自動生成的內(nèi)容作為回放她的講座音頻文件的索引。當(dāng)然,其他的情景(例如與本文描述的方法和技術(shù)有關(guān)的那些情景)是可能的?,F(xiàn)在,將描述系統(tǒng)的各個不同的實施例。下面的描述提供了用于透徹理解并且允許描述這些實施例的特定細節(jié)。然而,本領(lǐng)域技術(shù)人員將理解,可以在沒有這些細節(jié)中的許多細節(jié)的情況下實施所述系統(tǒng)。此外,一些公知的結(jié)構(gòu)或功能可能沒有被詳細地示出或描述,以便避免不必要地使各個不同實施例的相關(guān)描述模糊不清。下文給出的描述中使用的術(shù)語預(yù)期以其最廣泛的合理方式進行解釋,即使它結(jié)合本發(fā)明的一些特定實施例的詳細描述而被使用。特定的術(shù)語甚至可能在下文中加以強調(diào); 然而,任何預(yù)期以任何限制的方式進行解釋的術(shù)語都將明顯且具體地在該具體實施方式
部分中被由此限定。第I部分一引言 1.系統(tǒng)及其用戶
人們在視覺上吸收(consume)來自再現(xiàn)的(印刷的和顯示的)媒體的信息,包括以文本、 圖像、視頻和其他形式呈現(xiàn)的信息。例如,人們閱讀報紙、雜志、圖書、博客、文本消息、告示牌、收據(jù)、便條等等;瀏覽照片、繪畫、對象、廣告等等;以及觀看電影、視頻、表演、其他人等等。人們同樣地在聽覺上吸收來自諸如收音機和電視之類的許多來源的信息。事實上,人們簡單地通過觀察和傾聽他們周圍的世界而一直接收和吸收信息。這樣的信息吸收可以是積極的(用戶感知到并且經(jīng)常參與信息)或者消極的(用戶未感知到,但是仍然接收信息)。個人可以有意地獲得信息,例如人們經(jīng)常“拖曳”信息,或者個人可以在信息被“推壓”向他們時無意地獲得信息(消極吸收)。在某種意義上,人們在其如何與世界交互方面模仿拖曳信息和接收推壓的信息的設(shè)備(計算機、移動電話和其他設(shè)備)。然而,設(shè)備不是人,并且當(dāng)前的設(shè)備經(jīng)常在捕獲周圍環(huán)境中的信息或者接近該設(shè)備的信息方面做得不好。本文公開的技術(shù)描述了啟用和促進設(shè)備的感知的系統(tǒng)和方法。該技術(shù)可以促進對于接近設(shè)備的基于文本的信息的感知、對于接近設(shè)備的基于圖像的信息的感知、對于接近設(shè)備的信息顯示(例如再現(xiàn)的文檔)的感知等等。使用該公開的技術(shù),設(shè)備可以在它們?nèi)绾闻c世界交互方面模仿人。盡管在下文中通常描述為與視覺上可感知的文檔交互,但是系統(tǒng)同樣地可以被配置成收集和處理基于音頻的信息。1. 1物理/數(shù)字交互實際上,每個物理信息顯示與或者可以與附加的數(shù)字信息關(guān)聯(lián)。例如,圖像可以與描述 (例如元數(shù)據(jù))、網(wǎng)頁等等關(guān)聯(lián);單個詞可以與定義、維基條目、廣告等等關(guān)聯(lián);文檔可以與其電子副本、網(wǎng)頁、幻燈片等等關(guān)聯(lián);地理位置(或者位置處的對象)可以與元數(shù)據(jù)、圖像、關(guān)于該位置的信息關(guān)聯(lián);音頻流可以與幻燈片關(guān)聯(lián);等等。在存在物理信息顯示的情況下,系統(tǒng)只需標(biāo)識該信息顯示(或者該信息顯示的部分方面,例如該信息顯示中的文本)以便獲得對于關(guān)聯(lián)信息的訪問。系統(tǒng)使得物理信息顯示能夠充當(dāng)這樣的平臺,由該平臺創(chuàng)建出包括用戶和內(nèi)容的豐富的數(shù)字第三維交互。1.2再現(xiàn)文檔的標(biāo)識
在一些情況下,標(biāo)識再現(xiàn)的文檔可以向讀者提供對于大量附加信息的訪問,這些信息補充文檔本身并且豐富讀者的體驗。對于具有電子副本的每個再現(xiàn)的文檔,再現(xiàn)的文檔中的部分信息可以用來標(biāo)識電子副本。在一些實例中,系統(tǒng)捕獲并且使用來自再現(xiàn)的文檔的文本樣本以便標(biāo)識和定位文檔的電子副本。在一些情況下,系統(tǒng)需要的文本樣本非常小,因為來自文檔的文本的一些詞或部分詞經(jīng)常可以用作再現(xiàn)的文檔的標(biāo)識符并且用作其電子副本的鏈接。此外,系統(tǒng)可以使用這些詞以便不僅標(biāo)識文檔,而且標(biāo)識文檔內(nèi)的位置。因此, 可以使用本文討論的系統(tǒng)以許多有用的方式關(guān)聯(lián)再現(xiàn)的文檔和它們的數(shù)字副本。因此,可以使用本文討論的系統(tǒng)以許多有用的方式關(guān)聯(lián)再現(xiàn)的文檔和它們的電子副本。簡單地說,當(dāng)用戶掃描再現(xiàn)的文檔中的一些詞、字符或區(qū)域時,系統(tǒng)可以獲取電子副本文檔或者其某部分,顯示電子副本或者其某部分,通過電子郵件將它發(fā)送給某個人,購買它,打印它,將它發(fā)布到網(wǎng)頁,或者執(zhí)行使得用戶能夠與文檔或相關(guān)內(nèi)容交互的其他動作。例如,用戶將他/她的移動設(shè)備(及其照相機)懸停在報紙或雜志文章的一部分上方,使得用戶的移動設(shè)備在該移動設(shè)備的觸摸屏上顯示文章的電子版本,以及向用戶提供允許用戶進一步與文章交互的選項。在一些情況下,例如當(dāng)移動設(shè)備檢測到距文章的特定接近度時,懸停在文章上方可以使得移動設(shè)備切換到文檔感知或交互模式。系統(tǒng)實現(xiàn)“紙張/數(shù)字集成”的這些和許多其他實例,而無需改變?yōu)楫?dāng)前的書寫、 印刷和出版文檔和其他信息顯示的過程,從而給予再現(xiàn)的文檔和物理對象全新的數(shù)字功能層?!┫到y(tǒng)將再現(xiàn)的文檔中的一段文字與已經(jīng)建立的特定數(shù)字實體關(guān)聯(lián),系統(tǒng)就能夠在該關(guān)聯(lián)上構(gòu)建巨量的功能。大多數(shù)再現(xiàn)的文檔具有可在萬維網(wǎng)上訪問或者可從其他在線數(shù)據(jù)庫或文檔全集訪問或者可以例如響應(yīng)于費用或訂金的支付而使得可訪問的電子副本。于是,在最簡單的水平下,當(dāng)用戶捕獲再現(xiàn)的文檔中的一些詞時,系統(tǒng)可以獲取電子文檔或者其某個部分,顯示它,通過電子郵件將它發(fā)送給某個人,購買它,打印它,和/或?qū)⑺l(fā)布到網(wǎng)頁。作為附加的實例,捕獲個人在早餐期間閱讀的圖書的一些詞可以使得這個人的汽車中的音頻-圖書版本從他/她開始駕車上班的那一刻起開始朗讀,或者捕獲打印機墨盒上的序列號可以開始訂購更換的過程。系統(tǒng)的典型使用以使用捕獲設(shè)備捕獲來自再現(xiàn)的文檔的文本開始,但是重要的是注意其他類型的對象的其他捕獲方法同樣是適用的。因此,系統(tǒng)有時被描述為捕獲或掃描來自再現(xiàn)的文檔的文本,其中這些術(shù)語定義如下。
再現(xiàn)的文檔是印刷的文檔或者顯示器或監(jiān)視器上顯示的文檔。它是人類可感知的文檔,不管處于永久的形式還是處于短暫的顯示。它是通過表示層提供信息的物理對象。再現(xiàn)的文檔包括紙質(zhì)文檔、告示牌、標(biāo)志、計算設(shè)備的表示層提供的信息、通過波傳播的信息 (例如音頻或視頻信息流)和/或呈現(xiàn)或顯示信息的其他物理對象。捕獲或掃描是從再現(xiàn)的文檔獲得信息的系統(tǒng)檢查的過程。該過程可以涉及使用例如手機或者手持式光學(xué)掃描儀中的照相機的光學(xué)捕獲,或者它可以涉及將文檔大聲地讀入音頻捕獲設(shè)備或者在鍵區(qū)或鍵盤上將它鍵入。對于更多的實例,參見第15節(jié)。除了捕獲來自再現(xiàn)的文檔的文本之外,系統(tǒng)還可以捕獲來自諸如射頻識別(RFID) 標(biāo)簽、QR碼、條形碼、其他物理對象(例如繪畫、雕塑)之類的其他來源的信息,捕獲直接來自計算設(shè)備的表示層的信息,等等。盡管系統(tǒng)在本文中通常描述為與印刷的或顯示的文檔交互并且捕獲來自這些文檔的數(shù)據(jù),但是系統(tǒng)可以容易地被配置成可替換地或者附加地與基于音頻的信息交互并且捕獲基于音頻的信息,該信息例如從收音機或電視廣播接收的信息。因此,其他信息源可以包括基于音頻和/或視頻的數(shù)據(jù),例如無線電頻道上的無線電節(jié)目和其他內(nèi)容;視頻頻道上的視頻和其他內(nèi)容,例如電視節(jié)目、電視廣告等等,不管是從諸如視頻光盤之類的本地介質(zhì)再現(xiàn)的,還是從遠程服務(wù)器流送的,等等。作為一個實例,系統(tǒng)可以捕獲來自音頻源的信息,并且顯示與該音頻源或者該來源產(chǎn)生的音頻流的內(nèi)容關(guān)聯(lián)的信息或補充內(nèi)容。2.系統(tǒng)簡檔
本節(jié)描述構(gòu)成用于紙張/數(shù)字集成的系統(tǒng)的設(shè)備、過程和系統(tǒng)中的一些。在不同的實例中,系統(tǒng)在提供基本功能的該底層核心上構(gòu)建各種各樣的服務(wù)和應(yīng)用。2. 1
圖IA為示出適當(dāng)?shù)南到y(tǒng)的一些實施例中的信息流的數(shù)據(jù)流圖。其他的實例可能未使用這里示出的所有階段或元件,而一些實例則使用多得多的階段或元件。諸如具有照相機和/或話音記錄器的移動設(shè)備之類的捕獲設(shè)備捕獲100來自再現(xiàn)的文檔或者來自接近該設(shè)備顯示的信息的文本和/或其他信息。設(shè)備可以處理102捕獲的數(shù)據(jù),例如以便移除捕獲過程的偽影、提高信噪比、標(biāo)識或定位數(shù)據(jù)內(nèi)的希望的信息等等。 系統(tǒng)然后可選地通過識別部件(例如OCR設(shè)備、語音識別設(shè)備、自相關(guān)設(shè)備或者本文描述的其他技術(shù))將數(shù)據(jù)轉(zhuǎn)換104成一個或多個簽名,例如文本段、文本偏移或者其他符號或字符。 可替換地,系統(tǒng)執(zhí)行從再現(xiàn)的文檔提取一個或多個文檔簽名的替換形式。在一些情況下,簽名代表一組可能的文本轉(zhuǎn)寫。在一些情況下,該過程可能受到來自其他先前或后續(xù)執(zhí)行的步驟的反饋的影響或約束。例如,在系統(tǒng)先前標(biāo)識了捕獲很可能源自的候選文檔的情況下, 它能夠縮小原始捕獲的可能解釋。后處理部件可以接收來自識別過程的數(shù)據(jù)并且根據(jù)需要過濾106該數(shù)據(jù)或者執(zhí)行其他的操作。在一些實例中,例如當(dāng)系統(tǒng)捕獲到包含推斷用戶意圖的足夠信息的詞組或符號時,系統(tǒng)可以立即且在不繼續(xù)到例程中的后續(xù)步驟的情況下推斷、確定、標(biāo)識和/或執(zhí)行直接的動作。在這些情況下,系統(tǒng)可以無需標(biāo)識或引用數(shù)字副本文檔以便實現(xiàn)用戶的愿望。在步驟108中,系統(tǒng)然后可以構(gòu)造一個查詢或一組查詢以用于搜索與捕獲關(guān)聯(lián)的電子副本或其他內(nèi)容。該查詢構(gòu)造的一些方面可能取決于使用的搜索過程,并且系統(tǒng)可以在以后的步驟中(例如在執(zhí)行搜索之后)執(zhí)行它們,但是典型地將存在系統(tǒng)可以事先執(zhí)行的一些操作,例如移除明顯誤識別的或不相關(guān)的字符。系統(tǒng)將所述一個查詢或一組查詢傳遞110給搜索和上下文分析部件。系統(tǒng)可以試圖標(biāo)識原始數(shù)據(jù)從其捕獲的文檔。為此,系統(tǒng)可以使用搜索索引和搜索引擎112、關(guān)于用戶的知識114和/或關(guān)于用戶的上下文或其中發(fā)生捕獲的上下文的知識116。例如,系統(tǒng)可以與搜索引擎112交互,該搜索引擎采用和/或索引特別地關(guān)于再現(xiàn)的文檔、關(guān)于它們的數(shù)字副本文檔和/或關(guān)于具有網(wǎng)絡(luò)(互聯(lián)網(wǎng))存在物的文檔的信息。系統(tǒng)可以利用這些信息源來回傳輸信息,并且可以將標(biāo)識的信息饋入例程的其他不同步驟。例如,系統(tǒng)可以基于步驟 110期間接收候選文檔的知識而接收關(guān)于捕獲的語言、字體、再現(xiàn)以及可能的接下來的詞。在步驟120中,系統(tǒng)可以獲取早先標(biāo)識為再現(xiàn)文檔的電子副本的一個或多個文檔的拷貝。系統(tǒng)可以直接訪問文檔源和倉庫124(例如本地存檔系統(tǒng)或數(shù)據(jù)庫或網(wǎng)絡(luò)服務(wù)器), 或者系統(tǒng)可以聯(lián)系訪問服務(wù)122以便獲取一個或多個文檔。訪問服務(wù)122可以強制執(zhí)行文
檔的認(rèn)證、安全或支付,或者可以提供其他服務(wù),例如尤其是將文檔轉(zhuǎn)換成希望的格式或語 、
曰ο系統(tǒng)的應(yīng)用可以利用額外功能或數(shù)據(jù)與文檔的部分或全部的關(guān)聯(lián)。例如,廣告應(yīng)用可以將特定的廣告消息或主題與文檔的部分(例如關(guān)鍵字、詞組或者距特定內(nèi)容的接近度)關(guān)聯(lián)。規(guī)定其應(yīng)當(dāng)與文檔的特定部分一起可用的該額外關(guān)聯(lián)的功能或數(shù)據(jù)可以被認(rèn)為是文檔上的一個或多個覆蓋并且在這里稱為標(biāo)記。因此,在步驟130中,系統(tǒng)標(biāo)識與捕獲的數(shù)據(jù)和/或標(biāo)識的電子副本有關(guān)的任何標(biāo)記。在一些情況下,標(biāo)記由文檔的用戶、創(chuàng)作者、 出版者、文檔的其他用戶等等提供,并且可以存儲在可直接訪問的來源132處或者由標(biāo)記服務(wù)134動態(tài)地生成。在一些實例中,標(biāo)記可以關(guān)聯(lián)于以及應(yīng)用到再現(xiàn)的文檔和/或再現(xiàn)的文檔的數(shù)字副本或者這些文檔中的任一個或二者的組。作為先前的步驟中的一些或全部的結(jié)果,系統(tǒng)可以采取或執(zhí)行140動作。這些動作可以是系統(tǒng)缺省動作,例如簡單地記錄找到的信息,可以取決于數(shù)據(jù)或文檔,或者可以從標(biāo)記分析中導(dǎo)出。在一些情況下,系統(tǒng)可以簡單地將數(shù)據(jù)傳遞給另一個系統(tǒng)。在一些情況下,適合再現(xiàn)的文檔中的特定點處的捕獲的可能的動作將作為關(guān)聯(lián)的顯示器上的菜單呈現(xiàn)給用戶,所述關(guān)聯(lián)的顯示器例如捕獲設(shè)備的顯示器(移動設(shè)備的觸摸屏)或者關(guān)聯(lián)的顯示器 (用戶的膝上型計算機的屏幕)。系統(tǒng)可以響應(yīng)于所述捕獲、響應(yīng)于執(zhí)行一個或多個動作的用戶請求或者在以后的時間標(biāo)識或執(zhí)行一個或多個動作。作為可以如何使用捕獲設(shè)備的一個實例,讀者可以利用與她的移動設(shè)備關(guān)聯(lián)的照相機捕獲來自報紙文章的文本。該文本通過照相機而捕獲為位像。邏輯將該位像存儲到存儲器中并且將該圖像加蓋時間戳,以及記錄與捕獲關(guān)聯(lián)的其他數(shù)據(jù)(例如設(shè)備的位置、地理位置數(shù)據(jù)等等)。邏輯也執(zhí)行光學(xué)字符識別(OCR)并且將圖像轉(zhuǎn)換成文本。系統(tǒng)將文本上傳到與報紙關(guān)聯(lián)的內(nèi)容索引,并且標(biāo)識和獲取文章的電子副本。捕獲設(shè)備然后與要執(zhí)行的一個或多個動作一起,通過關(guān)聯(lián)的觸摸屏顯示電子副本,所述動作例如下載和查看相關(guān)的文章或者提供附加背景信息的文章,加亮文章內(nèi)的術(shù)語以及提供到這些術(shù)語的定義的鏈接,或者查看文章內(nèi)或周圍討論的項目的廣告或購買信息。關(guān)于系統(tǒng)過程、部件和/或設(shè)備的另外的細節(jié)可以在通過引用合并于本文中的申請中找到。如上面所指出的,盡管系統(tǒng)在本文中通常被描述為與印刷的或顯示的文檔交互并且捕獲來自這些文檔的數(shù)據(jù),但是如相關(guān)領(lǐng)域的技術(shù)人員將理解的,系統(tǒng)可以容易地被配置成可替換地或者附加地與基于音頻的信息交互并且捕獲基于音頻的信息。圖IB為示出適當(dāng)系統(tǒng)的一個實例中的信息流的數(shù)據(jù)流圖。捕獲設(shè)備155捕獲來自信息源150和諸如與設(shè)備無線通信的來源之類的其他來源(未示出)的呈現(xiàn)的信息,例如文本、音頻、視頻、GPS坐標(biāo)、用戶姿態(tài)、條形碼等等。在步驟160處,信息保存器部件收集且存儲由捕獲設(shè)備1 捕獲的信息。在步驟165處,系統(tǒng)將從捕獲設(shè)備收集的信息傳遞給捕獲信息處理部件。捕獲信息處理部件165被配置成檢測再現(xiàn)的文檔的存在性、從文檔中提取文本區(qū)域,并且分析文檔信息以便識別文檔和文本特征,例如絕對和相對布局信息、段落、 行和字陰影或輪廓、字形相關(guān)特征以及字符編碼。在一些實例中,捕獲信息處理部件可以被配置成處理不同于文本的數(shù)據(jù)類型,例如音頻、羅盤數(shù)據(jù)、GPS、加速度、歷史、溫度、濕度、體熱等等。在一些實例中,在捕獲設(shè)備捕獲或發(fā)送更多的信息時,捕獲信息處理單元將隨著時間積累信息并且復(fù)合積累的信息以便例如形成信息源的更大和/或更高分辨率的圖像。在一些實例中,捕獲信息處理部件可以利用上下文(參見第13和14節(jié)),例如用戶捕獲的先前的信息,以便例如通過限制或擴展執(zhí)行的處理量并且指導(dǎo)什么正被處理的假設(shè)而指導(dǎo)捕獲信息處理。例如,如果系統(tǒng)最近標(biāo)識出用戶已經(jīng)捕獲了來自特定來源的信息,那么隨后可能需要較少的處理以便獲得關(guān)于新捕獲的信息的相似的確定性水平,因為有限的可能性空間內(nèi)的搜索可以快速地得到匹配,該匹配然后可以進一步進行確認(rèn)(如果希望的話)。捕獲信息處理部件可以例如通過基于暫定結(jié)論自動地確認(rèn)或拒絕信息的預(yù)測,或者通過利用禮賓服務(wù)(Concierge Service) 170 (參見第19. 8節(jié)),或者通過請求用戶反饋,驗證標(biāo)識的信息。在步驟175中,系統(tǒng)將捕獲且處理的信息作為系統(tǒng)歷史和上下文的一部分而存儲。在步驟180處,系統(tǒng)基于處理的信息和上下文進行搜索(參見第4. 2. 2、13和14 節(jié))。在一些實例中,可以隨著時間積累搜索結(jié)果且使其相關(guān),例如基于隨著時間捕獲的信息的子集使搜索結(jié)果相交以便解決模糊性(例如記錄的音頻的多個部分、來自多個頻帶的音頻、多幅圖像等等)。在一些實例中,可以例如基于圖像處理部件可以對搜索結(jié)果(或者文檔管理器部件185獲取的文檔信息)和捕獲的信息執(zhí)行附加的分析的原理由捕獲信息處理部件進一步驗證搜索結(jié)果。例如,如果搜索部件生成10個可能的結(jié)果,那么捕獲信息處理部件可能確定其中6個不太可能匹配搜索結(jié)果,例如文本中的豎筆的模式。在步驟185處, 如果文檔被標(biāo)識,那么系統(tǒng)的文檔管理器部件可以獲取該文檔的表示。在步驟190處,系統(tǒng)的標(biāo)記部件可以計算和/或獲取與從捕獲信息處理步驟輸出的文本和/或標(biāo)識的文檔或者獲取的文檔的表示相關(guān)的動態(tài)和/或靜態(tài)標(biāo)記。對于靜態(tài)和動態(tài)標(biāo)記的更多信息,參見第 5節(jié)。在一些實例中,文本一被識別,標(biāo)記部件就基于標(biāo)識的文本與文檔標(biāo)識并行地產(chǎn)生標(biāo)記。在步驟195處,,可以將信息呈現(xiàn)給用戶。在一些實例中,該信息可以包括反饋, 例如移動捕獲設(shè)備以便更好地聚焦的建議;覆蓋捕獲的圖像中的加亮區(qū)以便指示可能的感興趣區(qū)域,其可能地包括在用戶將捕獲設(shè)備懸停在相同區(qū)域上方的情況下將隱含地被選擇的感興趣區(qū)域;成像文本的干凈的新再現(xiàn)的版本,其匹配圖像尺度、布局,對捕獲設(shè)備的當(dāng)前視野建模等等;基于當(dāng)前感興趣區(qū)域的可用動作的列表;基于當(dāng)前感興趣區(qū)域采取單一動作的結(jié)果,例如自動地撥打電話號碼;使用適合由用戶指示為其感興趣區(qū)域的一種或多種信息類型的模板呈現(xiàn)的視聽材料;基于感興趣區(qū)域呈現(xiàn)信息顯示和/或音頻。在一些實例中,感興趣區(qū)域可以由用戶隱式或顯式指示的一個區(qū)域和中心感興趣區(qū)域周圍的相繼更大的區(qū)域(例如詞組、從句、行、段落、列、文章、頁、期、刊物等等)構(gòu)成。在一些實例中,系統(tǒng)基于圖像中的位置建議主要感興趣區(qū)域,例如捕獲設(shè)備屏幕的中心,并且該主要感興趣區(qū)域可以通過顯式的用戶交互或者通過短時間段內(nèi)靠近相同區(qū)域懸停,或者通過用戶與屏幕交互,例如通過跨感興趣區(qū)域輕掃手指或者輕拍建議的感興趣區(qū)域內(nèi)的某處而選擇。2. 2 部件
如這里所討論的,適當(dāng)?shù)南到y(tǒng)或操作環(huán)境包括若干不同的部件。例如,系統(tǒng)可以包括一個或多個光學(xué)捕獲設(shè)備或話音捕獲設(shè)備(例如移動電話和其他多功能移動計算設(shè)備、手持式掃描設(shè)備等等)。捕獲設(shè)備使用有線或無線連接或者通過網(wǎng)絡(luò)與系統(tǒng)的諸如計算機或其他移動設(shè)備之類的其他部件通信。網(wǎng)絡(luò)上的捕獲設(shè)備、計算機和其他部件可以包括包含計算機可執(zhí)行指令的存儲器,這些可執(zhí)行指令用于處理接收的從再現(xiàn)的文檔和其他來源捕獲的數(shù)據(jù)或信息(例如屏幕或監(jiān)視器上顯示的信息)。圖2為在典型操作環(huán)境的情況下包含在系統(tǒng)的典型實現(xiàn)方式中的部件的部件圖。 如圖所示,操作環(huán)境包括一個或多個捕獲設(shè)備216。在一些實例中,捕獲設(shè)備支持光學(xué)捕獲或者“音頻”拷貝。每個捕獲設(shè)備能夠使用直接的有線或無線連接或者通過網(wǎng)絡(luò)220與系統(tǒng)的諸如計算機212之類的其他部分通信,該捕獲設(shè)備可以使用有線或無線連接與所述網(wǎng)絡(luò)220通信,后者典型地涉及無線基站214。在一些實例中,捕獲設(shè)備通過蜂窩電信網(wǎng)絡(luò)(例如GSM或CDMA)與系統(tǒng)的其他部件通信。在一些實例中,捕獲設(shè)備集成到移動設(shè)備中,并且可選地共享該設(shè)備中使用的一些音頻和/或光學(xué)部件以便進行話音通信和拍照。計算機212可以包括包含用于處理來自捕獲設(shè)備216的命令的計算機可執(zhí)行指令的存儲器。作為一個實例,命令可以包括標(biāo)識符(例如捕獲設(shè)備216的序列號或者部分地或唯一地標(biāo)識捕獲設(shè)備的用戶的標(biāo)識符)、捕獲文本信息(例如捕獲時間、捕獲位置等等)和/ 或用來唯一地標(biāo)識從其捕獲數(shù)據(jù)的來源的捕獲的信息(例如文本串)。在可替換的實例中, 操作環(huán)境可以包括更多或更少的部件。同樣在網(wǎng)絡(luò)220上可用的是搜索引擎232、文檔源234、用戶帳戶服務(wù)236、標(biāo)記服務(wù)238和其他網(wǎng)絡(luò)服務(wù)239。網(wǎng)絡(luò)220可以是企業(yè)內(nèi)聯(lián)網(wǎng)、公共因特網(wǎng)、移動電話網(wǎng)絡(luò)或某個其他網(wǎng)絡(luò)或者以上的任何互連。不管設(shè)備和部件彼此耦合的方式如何,它們都可以依照公知的商業(yè)交易和通信協(xié)議(例如傳輸控制協(xié)議(TCP)、因特網(wǎng)協(xié)議(IP))操作。在一些實例中,系統(tǒng)的許多功能和能力可以合并或集成到捕獲設(shè)備中。在不同的實例中,捕獲設(shè)備216和計算機212的功能和能力可以全部或部分地集成到一個設(shè)備中。因此,術(shù)語捕獲設(shè)備和計算機可以指的是相同的設(shè)備,這取決于該設(shè)備是否合并了捕獲設(shè)備216和計算機212的功能或能力。此外,搜索引擎232、文檔源234、用戶帳戶服務(wù)236、標(biāo)記服務(wù)238和其他網(wǎng)絡(luò)服務(wù)239的一些或所有功能可以在所述設(shè)備和/或未示出的其他設(shè)備中的任何一個上實現(xiàn)。2. 3捕獲設(shè)備
捕獲設(shè)備可以通過使用捕獲來自對象、信息顯示和/或再現(xiàn)的文檔的圖像數(shù)據(jù)的光學(xué)或成像部件或者使用捕獲用戶對顯示的文本的口頭朗讀的音頻記錄設(shè)備或者其他方法捕獲文本。在一些實例中,捕獲設(shè)備也可以捕獲圖像、電影、圖形符號和圖標(biāo)等等,包括機器可
12讀代碼,例如條形碼、QR碼、RFID標(biāo)簽等等,盡管這些通常不需要用來識別文檔或執(zhí)行與文檔或捕獲的文本關(guān)聯(lián)的動作。在一些情況下,捕獲設(shè)備也可以捕獲設(shè)備的環(huán)境的圖像,包括設(shè)備周圍的對象的圖像。設(shè)備可以極其簡單,并且依賴于駐留在系統(tǒng)中別處的其他功能而僅僅包括轉(zhuǎn)換器、一些存儲裝置和數(shù)據(jù)接口,或者它可以是更全特征的設(shè)備,例如智能手機。在一些情況下,設(shè)備可以是具有圖像和音頻捕獲和回放能力的移動設(shè)備,其在存儲器中存儲以及運行或執(zhí)行實現(xiàn)本文描述的一些或所有功能的一個或多個應(yīng)用程序。捕獲設(shè)備包括捕獲來自再現(xiàn)的文檔和其他信息顯示的文本、符號、圖形等等的捕獲元件。該捕獲元件可以包括成像部件,例如光學(xué)掃描頭、照相機、光學(xué)傳感器等等。在一些實例中,捕獲設(shè)備是用來掃描來自再現(xiàn)的文檔的文本、圖形、或符號的便攜式掃描儀。該便攜式掃描儀包括捕獲來自再現(xiàn)的文檔的文本、符號、圖形等等的掃描元件。 在一些實例中,除了印刷在紙張上的文檔之外,再現(xiàn)的文檔還包括顯示在諸如CRT監(jiān)視器或LCD顯示器之類的屏幕上的文檔。圖3為示出捕獲設(shè)備300的一個實例的框圖??梢允且苿与娫捄?或其他移動或便攜式設(shè)備或一組通信設(shè)備,包括膝上型計算機、書寫板或上網(wǎng)本、人配戴的物品(例如眼鏡、衣服、帽子、飾品等等)的捕獲設(shè)備300可以包括捕獲部件310,例如照相機、成像部件、 掃描頭、麥克風(fēng)或其他音頻記錄器等等。在捕獲設(shè)備300為移動電話時的情況下,捕獲部件 310可以是與電話關(guān)聯(lián)的照相機,例如用在許多商業(yè)上可獲得的電話中的基于CMOS圖像的傳感器。在其中捕獲設(shè)備300為數(shù)碼相機的情況下,捕獲部件310可以包括照相機的反射鏡系統(tǒng)、棱鏡、透鏡和/或取景器。在其他情況下,捕獲部件可以是未與電話的照相機集成的單獨的部件或附加的部件(未示出),在一些情況下包括非光學(xué)部件。捕獲設(shè)備300也可以包括顯示部件320,例如用戶接口、觸摸屏和/或能夠向設(shè)備 300的用戶顯示信息的其他部件。顯示的信息可以包括捕獲部件310捕獲的圖像、捕獲部件 310視野內(nèi)的圖像、與捕獲的信息關(guān)聯(lián)的內(nèi)容(例如捕獲的文檔的電子副本或者補充捕獲的信息的內(nèi)容)、加亮或覆蓋捕獲部件310視野內(nèi)的內(nèi)容的記號和其他信息的內(nèi)容、指示響應(yīng)于從捕獲的信息捕獲而執(zhí)行的動作的選項菜單等等。顯示部件320也可以例如通過顯示器呈現(xiàn)的用戶可選選項接收來自用戶的信息。在系統(tǒng)的一些實例中,捕獲設(shè)備300包括一個或多個能夠變換捕獲設(shè)備300和/ 或其他計算設(shè)備和系統(tǒng)的操作的部件。捕獲設(shè)備300也可以包括檢測部件330,其檢測何時設(shè)備接近可以由設(shè)備300捕獲的信息。檢測部件330可以是捕獲部件310的一部分或者與捕獲部件310集成在一起(例如標(biāo)識成像部件捕獲的圖像內(nèi)的文本),可以是測量捕獲設(shè)備 300與該設(shè)備周圍的對象(文檔、告示牌等等)之間的距離的接近度傳感器,可以是測量捕獲設(shè)備300的取向(相對于x、y或ζ軸的傾斜角等等)的取向傳感器,等等。本文中描述了關(guān)于捕獲部件310、顯示部件和/或檢測部件330之間的交互的另外的細節(jié),包括由這些部件執(zhí)行的例程。檢測部件330也可以包括或接收來自計時部件(未示出)的信息,該計時部件測量捕獲設(shè)備的特定狀態(tài)的持續(xù)時間。例如,可以是檢測部件330的一部分的計時部件可以測量捕獲設(shè)備300保持與置于桌子上的再現(xiàn)的文檔限定的軸平行多長時間,或者可以測量捕獲設(shè)備300處于距街道標(biāo)志一定接近度多長時間,等等。捕獲設(shè)備300也可以包括改變捕獲設(shè)備300的操作或模式的操作調(diào)節(jié)部件340。
13在系統(tǒng)的一些實例中,操作調(diào)節(jié)部件340 (自動地)在接收到捕獲設(shè)備300接近要捕獲的信息的來自檢測部件330的指示或信號時將捕獲設(shè)備300的操作模式從標(biāo)準(zhǔn)模式改變?yōu)樾畔⒉东@模式(例如文本捕獲模式)。此外,操作調(diào)節(jié)部件可以在接收到捕獲設(shè)備300不再接近任何信息的來自檢測部件330的指示或信號時將捕獲設(shè)備300的操作模式改回到標(biāo)準(zhǔn)的或先前的操作模式。在一些情況下,操作調(diào)節(jié)部件340在不改變設(shè)備的操作模式的情況下啟動應(yīng)用,例如被配置成為捕獲設(shè)備300的用戶捕獲信息并且執(zhí)行動作的應(yīng)用。例如,捕獲設(shè)備300在操作于信息捕獲模式下時或者在由操作調(diào)節(jié)部件340啟動的運行應(yīng)用控制時可以本文描述的一些或所有例程和方法,包括標(biāo)識與捕獲的信息關(guān)聯(lián)的文檔和信息、執(zhí)行與捕獲的信息關(guān)聯(lián)的動作(例如購買產(chǎn)品、顯示廣告、呈現(xiàn)補充信息、更新網(wǎng)絡(luò)日志等等)。捕獲設(shè)備300可以通過捕獲設(shè)備300的存儲器內(nèi)存儲的程序執(zhí)行所述例程和方法中的一些或全部,所述程序例如下載到捕獲設(shè)備300的程序、集成到捕獲設(shè)備300 的操作系統(tǒng)中的程序等等。除了本文描述的部件以外,捕獲設(shè)備300也可以包括其他部件,例如與設(shè)備的操作關(guān)聯(lián)的設(shè)備操作部件350 (處理部件、存儲部件、功率部件、SIM和其他安全部件、諸如鍵區(qū)和按鈕之類的輸入部件等等)、用于與外部網(wǎng)絡(luò)和/或其他計算設(shè)備通信的通信部件360 (無線電臺、GSM/小區(qū)部件、SMS/MMS和其他消息發(fā)送部件、Bluetooth (藍牙) 部件、RFID 部件等等)、向設(shè)備提供上下文信息的部件370 (GPS和其他地理位置傳感器、加速度計和其他運動傳感器、取向傳感器、溫度和其他環(huán)境測量部件等等)以及其他部件380,例如向用戶提供反饋的音頻轉(zhuǎn)換器、外部燈或振動部件和/或用于接收來自用戶的輸入的按鈕、滾輪或觸覺傳感器,或者將信息傳送給用戶以及接收來自用戶的輸入的觸摸屏。捕獲設(shè)備300也可以包括與各種不同的其他部件交互的邏輯部件(未示出),其可能地將接收的信號處理成不同的格式和/或解釋。該邏輯部件可以用來讀取和寫入關(guān)聯(lián)的存儲裝置(未示出)中存儲的數(shù)據(jù)和程序指令,所述存儲裝置例如RAM、R0M、閃存或其他適當(dāng)?shù)拇鎯ζ?。捕獲設(shè)備300可以在存儲器或者諸如計算機可讀介質(zhì)之類的其他存儲部件中存儲或包含數(shù)據(jù)格式、例程、算法、腳本等等形式的信息。邏輯部件可以讀取來自時鐘單元(未示出)的時間信號。在一些實例中,捕獲設(shè)備可以具有板上電源(未示出)。在其他實例中,可以從諸如通用串行總線(USB)連接之類的到另一個設(shè)備的帶纜的連接對掃描儀302供電。在一些實例中,捕獲設(shè)備300可以跨越多個單獨的設(shè)備分布。2. 3. 1信息感知捕獲設(shè)備
系統(tǒng)可以包括用于確定捕獲設(shè)備接近諸如再現(xiàn)的文檔之類的信息并且基于該確定改變捕獲設(shè)備的操作的部件。在一些實例中,捕獲設(shè)備包括捕獲再現(xiàn)的文檔或其他信息顯示的圖像的照相機以及檢測距再現(xiàn)的文檔或其他信息顯示的接近度的接近度部件。該接近度部件可以是或者可以利用照相機內(nèi)的光學(xué)部件,或者可以是獨立的部件,例如接近度傳感器。系統(tǒng)在確定捕獲設(shè)備接近信息時可以使得捕獲設(shè)備將模式改變?yōu)楦兄谋尽⑽臋n和/ 或其他信息顯示(例如顯示文本的對象)且與之交互的模式。例如,在文檔捕獲模式下,系統(tǒng)可以通過捕獲設(shè)備發(fā)起捕獲再現(xiàn)的文檔或信息顯示的圖像并且基于這樣的捕獲執(zhí)行動作的一個或多個過程。第II部分一系統(tǒng)領(lǐng)域綜述隨著紙張-數(shù)字集成變得更加普遍,存在可以改變成利用該集成或者使得其能夠更有效地實現(xiàn)的現(xiàn)有技術(shù)的許多方面。本節(jié)突出這些問題中的一些問題。3.捭索
搜索文檔全集,即使是像萬維網(wǎng)這樣大的全集,對于使用鍵盤構(gòu)造發(fā)送到搜索引擎的搜索查詢的普通用戶而言也已經(jīng)變得司空見慣了。本節(jié)以及接下來的部分討論來自再現(xiàn)文檔的捕獲引起的查詢的構(gòu)造以及處理這樣的查詢的搜索引擎二者的方面。3. 1作為捭索杳詢的捕獲/說話/鍵入
所描述的系統(tǒng)的使用典型地以使用包括上面提到的那些方法的若干方法中的任何一種從再現(xiàn)的文檔捕獲的一些詞開始。輸入需要某種解釋以便將其轉(zhuǎn)換成文本的情況下,例如在OCR或語音輸入的情況下,系統(tǒng)中可能存在端到端反饋,使得文檔全集可以用來增強識別過程??梢酝ㄟ^執(zhí)行識別或解釋的近似、標(biāo)識一組一個或多個候選匹配文檔并且然后使用來自候選文檔中的可能匹配的信息進一步改進或限制所述識別或解釋而應(yīng)用端到端反饋。候選文檔可以依照它們的可能的相關(guān)性(例如基于捕獲了來自這些文檔的信息的其他用戶的數(shù)量或者它們在因特網(wǎng)上的流行性)而進行加權(quán),并且這些權(quán)重可以應(yīng)用于該迭代識別過程。3. 2短詞組捭索
由于基于一些詞的搜索查詢的選擇力在這些詞的相對位置已知時大大增強,因而只需捕獲少量的文本以便系統(tǒng)標(biāo)識文本在全集中的位置。最常見的是,輸入文本將是鄰近的詞序列,例如短詞組。3. 2. 1根據(jù)短的捕獲尋找文檔和文檔中的位置
除了定位詞組來源的文檔之外,系統(tǒng)還可以標(biāo)識該文檔中的位置并且可以基于該知識采取動作。3. 2. 2尋找位置的其他方法
系統(tǒng)也可以采用例如通過使用再現(xiàn)的文檔上的水印或其他特殊記號發(fā)現(xiàn)文檔和位置的其他方法。3. 3將其他因素合并到搜索杳詢中
除了捕獲的文本之外,其他因素(即關(guān)于用戶身份、簡檔和上下文的信息)也可以形成搜索查詢的一部分,例如捕獲的時間、用戶的身份和地理位置、用戶習(xí)慣和最近活動的知識寸寸。文檔標(biāo)識和與先前的捕獲有關(guān)的其他信息尤其是在它們相當(dāng)近期出現(xiàn)的情況下可以形成搜索查詢的一部分。用戶的身份可以根據(jù)與捕獲設(shè)備關(guān)聯(lián)的唯一標(biāo)識符和/或生物統(tǒng)計或其他補充信息(語音模式、指紋等等)確定。3. 4搜索杳詢中的不可靠性的知識(OCR錯誤等等)
搜索查詢可以通過考慮使用的特定捕獲方法中很可能出現(xiàn)的錯誤類型而構(gòu)造。它的一個實例是指示特定字符的識別中的可疑錯誤;在該實例中,搜索引擎可以將這些字符看作通配符或者分配它們較低的優(yōu)先級。3. 5用于#1行/離線弓丨的本地JI存
有時,捕獲設(shè)備可能在數(shù)據(jù)捕獲時不與搜索引擎或全集通信。出于這個原因,可以事先將對設(shè)備的離線使用有幫助的信息下載到設(shè)備,或者下載到設(shè)備可以與之通信的某個實體。在一些情況下,可以下載與全集關(guān)聯(lián)的所有或者相當(dāng)部分的索引。該主題將在第15. 3 節(jié)進一步加以討論。3. 6對側(cè)中1劃怖肺施P雕曰獨細乍ffl
如果很可能存在與傳送查詢或接收結(jié)果關(guān)聯(lián)的延遲或成本,那么該預(yù)加載的信息可以提高本地設(shè)備的性能、降低通信成本并且提供有幫助且及時的用戶反饋。在其中沒有通信可用(本地設(shè)備“離線”)的情形中,可以保存查詢并且在諸如通信恢復(fù)之類的時間將其傳輸?shù)较到y(tǒng)的其余部分。在這些情況下,可能重要的是與每個查詢一起傳輸時間戳。捕獲的時間可以是查詢的解釋中的重要因素。例如,第13. 1節(jié)討論了與早期的捕獲有關(guān)的捕獲時間的重要性。 重要的是注意捕獲時間不總是與執(zhí)行查詢的時間相同。3. 7并行捭索
出于性能的原因,可以響應(yīng)于單次捕獲而順次地或者并行地啟動多個查詢。若干查詢可以響應(yīng)于單次捕獲而發(fā)送,例如在將新詞添加到捕獲時,或者以便并行地查詢多個搜索引擎。例如,在一些實例中,系統(tǒng)將對于當(dāng)前文檔的特殊索引的查詢發(fā)送給本地機器上的搜索引擎,發(fā)送給企業(yè)網(wǎng)絡(luò)上的搜索引擎,以及發(fā)送給因特網(wǎng)上的遠程搜索引擎。與來自其他搜索的結(jié)果相比,可以給予特定搜索的結(jié)果更高的優(yōu)先級。對于給定查詢的響應(yīng)可能指示其他待決的查詢是多余的;這些查詢可以在完成之前取消。4.紙張和搜索引擎
通常,希望處理傳統(tǒng)在線查詢的搜索引擎處理來源于再現(xiàn)的文檔的那些查詢。常規(guī)的搜索引擎可以以若干方式增強或修改以便使得它們更適合于與所描述的系統(tǒng)一起使用。系統(tǒng)的搜索引擎和/或其他部件可以和維護具有不同的或額外的特征的索引。系統(tǒng)可以修改到來的來源于紙張的查詢或者改變搜索結(jié)果中處理查詢的方式,從而將這些來源于紙張的查詢與來自鍵入網(wǎng)絡(luò)瀏覽器的查詢和其他來源的那些查詢區(qū)分開來。并且與來自其他來源的查詢相比,系統(tǒng)可以在來源于紙張的搜索返回結(jié)果時采取不同的動作或者提供不同的選項。下文中討論這些方法中的每一種。4. 1 索引
通常,可以使用來源于紙張的或者傳統(tǒng)的查詢搜索相同的索引,但是可以以各種各樣的方式增強索引以用于當(dāng)前系統(tǒng)中。4. 1. 1關(guān)于紙張形式的知識
可以將在基于紙張的搜索的情況下有幫助的額外字段添加到這樣的索引。才旨示紙g長形式可用件的索弓Il目
第一實例是已知文檔以紙質(zhì)形式存在或分布的字段。系統(tǒng)可以在查詢來自紙張的情況下給予這樣的文檔較高的優(yōu)先級。流行紙張形式的知識
在該實例中,涉及紙質(zhì)文檔的流行性(以及可選地涉及這些文檔內(nèi)的子區(qū))的統(tǒng)計數(shù)據(jù),例如捕獲活動的量、出版者或其他來源提供的流通量等等,用來給予這樣的文檔較高的優(yōu)先級,提高數(shù)字副本文檔的優(yōu)先級(例如對于基于瀏覽器的查詢或者網(wǎng)絡(luò)搜索)等等。再現(xiàn)的格式的知識
另一個重要的實例可能是記錄關(guān)于文檔的特定再現(xiàn)的布局的信息。例如,對于特定版本的圖書,索引可以包括關(guān)于何處出現(xiàn)換行和換頁;使用了哪些字體,任何不尋常的大寫的信息。索引也可以包括關(guān)于頁面上諸如圖像、文本框、表格和廣告之類的其他項的接近度的信息。原件中的語義信息的使用
最后,也可以在索引中記錄可以從源標(biāo)記中推斷但是在紙質(zhì)文檔中不明顯的語義信息,例如特定文字段引用待售的項目或者特定的段落包含程序代碼這一事實。4. 1. 2捕獲方法的知識中的索引
可以修改索引的性質(zhì)的第二因素是很可能使用的部或類型的知識。如果索引考慮到 OCR過程中容易混淆的字符,或者包括文檔中使用的字體的一些知識,那么由捕獲的文本圖像發(fā)起的搜索可能受益。例如,在OCR過程中字母“r”之后是字母“η”的序列可能與字母 “m”混淆。因此,串“m”或“rn”在索引中可能與相同的文檔集關(guān)聯(lián)。類似地,如果查詢來自語音識別,那么可以有效得多地搜索基于相似發(fā)聲音素的索引。作為另一個實例,系統(tǒng)可以在索引文檔之前人為地使文檔模糊以便反映用戶通過將捕獲設(shè)備移動到文檔上方而捕獲文檔的圖像時很可能出現(xiàn)的模糊。類似的技術(shù)可以使得系統(tǒng)對于差的光學(xué)器件、噪聲等具有彈性。在所描述的模型中可以影響索引的使用的附加因素是識別過程期間迭代反饋的重要性。如果搜索引擎能夠在文本被捕獲時提供來自文本的反饋,那么它可以大大地增加捕獲的精度。使用偏移的索引
在一些實例中,如果很可能使用第9節(jié)中描述的基于偏移/自相關(guān)OCR方法搜索索引, 那么系統(tǒng)將適當(dāng)?shù)钠苹蚝灻畔⒋鎯Φ剿饕小?. 1. 3 多索引
最后,在所描述的系統(tǒng)中,可能常見的是在許多索引上進行搜索。索引可以在企業(yè)網(wǎng)絡(luò)上的若干機器上維護。部分的索引可以下載到捕獲設(shè)備或者靠近捕獲設(shè)備的機器??梢詾榫哂刑囟ㄅd趣、習(xí)慣或許可的用戶或用戶組創(chuàng)建單獨的索引。對于用戶硬盤上的每個文件系統(tǒng)、每個目錄、甚至每個文件,可以存在索引。索引由用戶以及由系統(tǒng)公布和訂閱。于是, 重要的是構(gòu)造可以有效地分布、更新、合并和分開的索引。4. 2處理杳詢
4. 2. 1知道捕獲來自紙張
搜索引擎在認(rèn)識到搜索查詢來源于紙質(zhì)文檔時可以采取不同的動作。該引擎可以以例如更容忍很可能出現(xiàn)在特定捕獲方法中的錯誤類型的方式處理查詢。它可能能夠從查詢中包含的某個指示符(例如指示捕獲性質(zhì)的標(biāo)志)推斷這點,或者它可以從查詢本身推斷這點(例如,它可以識別OCR過程的典型錯誤或不確定性)??商鎿Q地,來自捕獲設(shè)備的查詢可以通過與來自其他來源的通道或端口或連接類型不同的通道或端口或連接類型到達引擎,并且可以以那種方式區(qū)分。例如,系統(tǒng)的一些實例將通過專用網(wǎng)關(guān)把查詢路由到搜索引擎。因此,搜索引擎知道通過專用網(wǎng)關(guān)的所有查詢來源于紙質(zhì)文檔。4. 2. 2上下文的使用
下面的第13節(jié)描述了各種各樣的不同因素,其在捕獲的文本本身的外部,然而其在標(biāo)識文檔中可能是重要的幫助。這些因素包括諸如最近捕獲歷史、特定用戶的較長期閱讀習(xí)慣、用戶的地理位置以及用戶最近對于特定電子文檔的使用之類的事情。這樣的因素在本文中稱為“上下文”。一些上下文可以由搜索引擎本身處理,并且反映在搜索結(jié)果中。例如,搜索引擎可以跟蹤用戶的捕獲歷史,并且也可以將該捕獲歷史交叉引用到常規(guī)的基于鍵盤的查詢。在這樣的情況下,搜索引擎維護且使用比最常規(guī)的搜索引擎更多的關(guān)于每個個人用戶的狀態(tài)信息,并且與搜索引擎的每個交互可以被認(rèn)為跨越幾次搜索以及比如今典型的情況更長的時間段。一些上下文可以在搜索查詢中傳輸?shù)剿阉饕?第3. 3節(jié)),并且可能地可以存儲在引擎處以便在未來的查詢中起作用。最后,一些上下文最好在別處進行處理,并且因此變成應(yīng)用到來自搜索引擎的結(jié)果的過濾器或二次搜索。輸入到捭索的數(shù)據(jù)流
到搜索過程的一個重要輸入是用戶社區(qū)如何與文檔的再現(xiàn)版本交互——例如哪些文檔被最廣泛地閱讀以及由誰閱讀的更寬廣的上下文。存在與網(wǎng)絡(luò)搜索的相似性,所述網(wǎng)絡(luò)搜索返回最頻繁鏈接的頁面或者從過去的搜索結(jié)果中最頻繁地選擇的那些頁面。對于該主題的進一步的討論,參見第13. 4和14. 2節(jié)。4.2.3文檔子區(qū)
所描述的系統(tǒng)可以不僅發(fā)出和使用關(guān)于文檔整體的信息,而且發(fā)出和使用甚至降至個別詞的文檔子區(qū)。許多現(xiàn)有的搜索引擎簡單地集中于定位與特定查詢相關(guān)的文檔或文件。 可以工作于更精細的粒度上并且標(biāo)識文檔內(nèi)的位置的那些搜索引擎將為所描述的系統(tǒng)提供顯著的益處。4.3返回結(jié)果
搜索引擎可以使用它現(xiàn)在維護的一些未來信息以便影響返回的結(jié)果。系統(tǒng)也可以返回特定的文檔,用戶僅僅作為擁有紙質(zhì)拷貝的結(jié)果而有權(quán)訪問所述特定的文檔(第7.4節(jié))。搜索引擎也可以超越文本的簡單檢索而提供適合于所描述的系統(tǒng)的新動作或選項。5.標(biāo)記、注釋、增強、元數(shù)據(jù)
除了執(zhí)行捕獲-搜索-檢索過程之外,所描述的系統(tǒng)也將額外功能與文檔關(guān)聯(lián),尤其是與文檔內(nèi)的文本位置或文本段關(guān)聯(lián)。該額外功能經(jīng)常(盡管不是排他性地)通過與再現(xiàn)的文檔的電子副本關(guān)聯(lián)而與再現(xiàn)的文檔關(guān)聯(lián)。作為一個實例,網(wǎng)頁中的超級鏈接在該網(wǎng)頁的打印輸出被捕獲時可能具有相同的功能。在一些情況下,所述功能未在電子文檔中限定,而是在別處存儲或生成。該層添加的功能在這里稱為“標(biāo)記”。5. 1靜態(tài)和動態(tài)的覆蓋
一種考慮標(biāo)記的方式是看作文檔上的“覆蓋”,其提供關(guān)于文檔或者其某個部分的另外
18的信息并且可以規(guī)定與文檔或者其某個部分關(guān)聯(lián)的動作。標(biāo)記可以包括人可讀的內(nèi)容,但是經(jīng)常對于用戶不可見和/或預(yù)期用于機器使用。實例包括當(dāng)用戶捕獲來自再現(xiàn)的文檔中的特定區(qū)域的文本時在附近顯示器上的彈出菜單中顯示的選項,或者說明特定詞組的發(fā)音的音頻樣本。作為另一個實例,系統(tǒng)可以在用戶捕獲來自再現(xiàn)的文檔的廣告時發(fā)出叮當(dāng)聲。5. 1. 1可能地來自若干來源的若干層
任何文檔可以同時具有多個覆蓋,并且這些覆蓋可以源自各種位置。標(biāo)記數(shù)據(jù)可以由文檔的作者或者由用戶或者由其他某方創(chuàng)建或提供。標(biāo)記數(shù)據(jù)可以附接到電子文檔或者嵌入其中。它可以在常規(guī)的位置中(例如在與文檔相同的位置中,但是具有不同的文件名后綴)找到。標(biāo)記數(shù)據(jù)可以包含在定位原始文檔的查詢的搜索結(jié)果中,或者可以通過到相同或另一個搜索引擎的單獨的查詢而找到。標(biāo)記數(shù)據(jù)可以通過使用原始的捕獲的文本和其他捕獲信息或者上下文信息找到,或者它可以通過使用關(guān)于捕獲的位置和文檔的已經(jīng)推斷的信息找到。即使標(biāo)記本身不包含于文檔中,標(biāo)記數(shù)據(jù)也可以在文檔中規(guī)定的位置找到。標(biāo)記可以很大程度上是靜態(tài)的且是文檔特有的,類似于傳統(tǒng)html網(wǎng)頁上的鏈接經(jīng)常作為html文檔內(nèi)的靜態(tài)數(shù)據(jù)而嵌入的方式,但是標(biāo)記也可以動態(tài)地生成和/或應(yīng)用到大量的文檔。動態(tài)標(biāo)記的一個實例是附接到文檔的包括該文檔中提到的公司的最新股價的信息。廣泛地應(yīng)用的標(biāo)記的一個實例是在多個文檔或者文檔的章節(jié)上自動地可用的特定語言的翻譯信息。5. 1.2個人“插件”層
用戶也可以安裝或訂閱標(biāo)記數(shù)據(jù)的特定來源,從而個人化對于特定捕獲的系統(tǒng)響應(yīng)。5.2關(guān)鍵字和詞組、商標(biāo)和標(biāo)識
文檔中的一些元素基于其自身的特性而不是其在特定文檔中的位置而可能具有與它們關(guān)聯(lián)的特定“標(biāo)記”或功能。實例包括純粹用于被捕獲的目的而印刷在文檔中的特殊記號以及可以使用戶鏈接到關(guān)于涉及的組織的另外的信息的標(biāo)識和商標(biāo)。這同樣適用于文本中的“關(guān)鍵字”或“關(guān)鍵詞組”。組織可能登記它們所關(guān)聯(lián)的或者它們想要關(guān)聯(lián)的特定詞組, 并且將特定標(biāo)記與其附接,該標(biāo)記將在該詞組被捕獲的任何地方可用。任何詞、詞組等等可以具有關(guān)聯(lián)的標(biāo)記。例如,無論何時用戶捕獲詞語“圖書”或者圖書的標(biāo)題或者與圖書有關(guān)的主題,系統(tǒng)都可以將特定項目添加到彈出菜單(例如到在線書店的鏈接)。在系統(tǒng)的一些實例中,數(shù)字副本文檔或索引被查閱以便確定捕獲是否出現(xiàn)在詞語“圖書”或者圖書的標(biāo)題或者與圖書有關(guān)的主題的附近,并且系統(tǒng)的行為依照距關(guān)鍵字元素的該接近度而被修改。在前面的實例中,注意,標(biāo)記使得從非商業(yè)文本或文檔捕獲的數(shù)據(jù)能夠觸發(fā)商業(yè)交易。5.3用戶提供的內(nèi)容
5. 3. 1用戶評論和灃釋,包括多媒體
注釋是可以與文檔關(guān)聯(lián)的另一種類型的電子信息。例如,用戶可以附接他/她的關(guān)于特定文檔的看法的音頻文件以便以后作為話音注釋進行檢索。作為多媒體注釋的另一個實例,用戶可以附接文檔中引用的地點的照片。用戶通常提供文檔的注釋,但是系統(tǒng)可以關(guān)聯(lián)來自其他來源的注釋(例如,工作組中的其他用戶可以共享注釋)。5. 3. 2來自校對的筆記源自用戶的標(biāo)記的一個重要的實例是作為校對、編輯或?qū)彶檫^程的一部分的紙質(zhì)文檔的注釋。5.4第三方內(nèi)容
如早先提到的,第三方可以經(jīng)常例如通過文檔的其他讀者提供標(biāo)記數(shù)據(jù)。在線討論和審查是良好的實例,正如與特定工作有關(guān)的社區(qū)管理的信息、自愿者貢獻的翻譯和解釋。第三方標(biāo)記的另一個實例是由廣告者提供的標(biāo)記。5. 5基于其他用戶的數(shù)據(jù)流的動杰標(biāo)記
通過分析由系統(tǒng)的幾個或所有用戶從文檔捕獲的數(shù)據(jù),可以基于社區(qū)的活動和興趣生成標(biāo)記。一個實例可能是創(chuàng)建標(biāo)記或注釋的在線書店,該標(biāo)記或注釋告訴用戶,事實上,“欣賞該書的人也欣賞……”。該標(biāo)記較少匿名,并且可以告訴用戶在他/她的聯(lián)系人列表中哪些人最近也閱讀過該文檔。數(shù)據(jù)流分析的其他實例包含于第14節(jié)。5. 6基于外部事件和數(shù)據(jù)源的標(biāo)記
標(biāo)記經(jīng)?;谕獠渴录蛿?shù)據(jù)源,例如來自企業(yè)數(shù)據(jù)庫的輸入、來自公共因特網(wǎng)的信息或者由本地操作系統(tǒng)收集的統(tǒng)計資料。數(shù)據(jù)源也可以更加是本地的,特別是可以提供關(guān)于用戶上下文的信息,他/她的身份、位置和活動。例如,系統(tǒng)可以與用戶的捕獲設(shè)備的移動電話部件通信并且提供標(biāo)記層,該標(biāo)記層給予用戶將文檔發(fā)送給用戶最近在電話上交談的某個人的選項。5.7圖像增強和補償
在一些實例中,系統(tǒng)通過利用不同顯示元件覆蓋顯示文檔的顯示器而提供增強的文檔視圖。該增強的視圖可以利用與文檔關(guān)聯(lián)的不同顯示元件覆蓋捕獲設(shè)備視野內(nèi)的文檔一部分的實時圖像,或者可以利用與文檔關(guān)聯(lián)的不同顯示元件呈現(xiàn)和覆蓋由系統(tǒng)獲取或生成的文檔的圖像或者關(guān)聯(lián)的電子版本。在一些實例中,系統(tǒng)提供文檔交互技術(shù),其補償捕獲設(shè)備的各種不同的硬件配置,例如照相機和其他成像部件相對于顯示器或文檔中心點的位置、 捕獲設(shè)備的尺寸和/或捕獲設(shè)備的顯示。系統(tǒng)可以提供文檔交互技術(shù),其使得用戶能夠?qū)Ш郊堎|(zhì)文檔、標(biāo)識與文檔關(guān)聯(lián)的標(biāo)記、縮放紙質(zhì)文檔等等。例如,系統(tǒng)可以響應(yīng)捕獲設(shè)備的用戶做出的姿態(tài),例如相對于紙質(zhì)文檔在各個不同的方向上移動捕獲設(shè)備的姿態(tài)。因此,系統(tǒng)使得用戶能夠通過使用多功能移動設(shè)備與紙質(zhì)文檔、目標(biāo)對象和其他信息顯示交互,所述多功能移動設(shè)備不一定被制造成除其他益處外僅僅與信息交互或者捕獲來自設(shè)備周圍環(huán)境的信息。6.認(rèn)證、個人化和安全性
在許多情形中,將會知道用戶的身份。有時,這將是“匿名身份”,其中例如僅僅通過捕獲設(shè)備的序列號標(biāo)識用戶。然而,典型地,期望的是系統(tǒng)將具有用戶的詳細得多的知識,其可以用于對系統(tǒng)個人化并且允許以用戶的名義執(zhí)行活動和交易。6. 1用戶歷史和“生活圖書館”
系統(tǒng)可以執(zhí)行的最簡單然而最有用的功能之一是為用戶記錄下他/她捕獲的文本以及與該捕獲有關(guān)的任何進一步的信息,包括找到的任何文檔的細節(jié)、該文檔內(nèi)的位置以及作為結(jié)果而采取的任何動作。在一些實例中,系統(tǒng)可以將捕獲的信息發(fā)送給用戶指定的電子郵件地址,其中用戶可以通過諸如P0P3、IMAP等等之類的電子郵件協(xié)議通過電子郵件客戶端訪問捕獲的信息。此外,存儲為電子郵件的捕獲的信息可以包括到更全面的生活圖書館體驗的鏈接,例如第16. 1節(jié)中所描述的。該存儲的歷史對于用戶和系統(tǒng)二者都是有益的。6. 1. 1對于用戶
可以向用戶提供“生活圖書館”,即他/她已經(jīng)閱讀和捕獲的任何事物的記錄。這可能僅僅出于個人的興趣,但是可能例如在圖書館中由正在收集他的下一篇論文的參考書目材料的學(xué)術(shù)人員使用。在一些情況下,用戶可能希望例如通過以與網(wǎng)絡(luò)日志類似的方式將圖書館公布到網(wǎng)絡(luò)上而使得圖書館是公共的,從而其他人可以看見他/她正在閱讀且發(fā)現(xiàn)有趣的東西。最后,在其中用戶捕獲某個文本且系統(tǒng)不能立即對該捕獲采取動作(例如,因為文檔的電子版本尚未可用)的情形中,該捕獲可以存儲到圖書館中并且可以在以后自動地或者響應(yīng)于用戶請求而加以處理。用戶也可以訂購新的標(biāo)記服務(wù)并且將它們應(yīng)用到先前的捕
-M-犾。6. 1. 2對于系統(tǒng)
用戶過去捕獲的記錄對于系統(tǒng)也是有用的。知道用戶的閱讀習(xí)慣和歷史可以增強系統(tǒng)操作的許多方面。最簡單的實例是,用戶做出的任何捕獲更可能來自用戶在最近的過去從其捕獲信息的文檔,并且特別是如果先前的捕獲在最近的幾分鐘內(nèi),那么它非??赡軄碜韵嗤奈臋n。類似地,更加可能的是,以開始至結(jié)束的順序閱讀文檔。因此,對于英文文檔, 同樣更加可能的是,以后的捕獲將在文檔中往下更遠處發(fā)生。這樣的因素可以幫助系統(tǒng)在出現(xiàn)模糊的情況下確立捕獲的位置,并且也可以減少需要捕獲的文本量。6. 2捕獲設(shè)備作為支付、身份和認(rèn)證設(shè)備
由于捕獲過程通常以某個種類的設(shè)備開始,因而該設(shè)備可以用作標(biāo)識用戶和授權(quán)特定動作的關(guān)鍵。6. 2. 1將捕獲設(shè)備與用戶帳戶關(guān)聯(lián)
可以將捕獲設(shè)備與移動電話帳戶關(guān)聯(lián)。例如,可以通過將與移動電話帳戶關(guān)聯(lián)的SIM 卡插入捕獲設(shè)備中而將捕獲設(shè)備與該帳戶關(guān)聯(lián)。類似地,該設(shè)備可以嵌入信用卡或者其他支付卡中,或者具有將這樣的卡與其連接的系統(tǒng)。因此,所述設(shè)備可以用作支付令牌,并且可以通過來自再現(xiàn)的文檔的捕獲而發(fā)起金融交易。6. 2. 2使用捕獲以進行認(rèn)證
也可以通過捕獲與特定用戶或帳戶關(guān)聯(lián)的令牌、符號或文本而將捕獲設(shè)備與該用戶或帳戶關(guān)聯(lián)。此外,捕獲設(shè)備可以例如通過捕獲用戶的指紋而用于生物統(tǒng)計標(biāo)識。在基于音頻的捕獲設(shè)備的情況下,系統(tǒng)可以通過匹配用戶的話音模式或者通過要求用戶說出特定口令或詞組而標(biāo)識該用戶。例如,在用戶捕獲圖書的報價并且被提供從網(wǎng)上零售商購買圖書的選項的情況下,用戶可以選擇該選項,并且然后被提示捕獲他/她的指紋以確認(rèn)該交易。還請參見第15. 5和15. 6節(jié)。6. 2. 3安全捕獲設(shè)備
當(dāng)捕獲設(shè)備用來標(biāo)識和認(rèn)證用戶并且代表用戶發(fā)起交易時,重要的是設(shè)備與系統(tǒng)的其他部分之間的通信是安全的。同樣重要的是保護諸如另一個設(shè)備模仿捕獲設(shè)備以及其中設(shè)備與其他部件之間的通信被攔截的所謂的“中間人”攻擊之類的情形。
用于提供這樣的安全性的技術(shù)在本領(lǐng)域中被很好地理解;在不同的實例中,設(shè)備中以及系統(tǒng)別處的硬件和軟件被配置成實施這樣的技術(shù)。7.出版樽型和元件
所描述的系統(tǒng)的一個優(yōu)點在于,無需改變創(chuàng)建、印刷和出版文檔的傳統(tǒng)過程以便獲得該系統(tǒng)的許多益處。但是,存在文檔的創(chuàng)建者或出版者——此后簡稱為“出版者”——可能希望創(chuàng)建支持所描述的系統(tǒng)的功能的原因。本節(jié)主要涉及出版的文檔本身。對于關(guān)于其他有關(guān)商業(yè)交易(例如廣告)的信息, 參見題為“P-商業(yè)”的第10節(jié)。7. 1印刷文檔的電子同伴
系統(tǒng)允許印刷文檔具有關(guān)聯(lián)的電子存在物。常規(guī)上,出版者經(jīng)常與圖書一起裝運包含另外的數(shù)字信息、教程電影和其他多媒體數(shù)據(jù)、示例代碼或文檔或者另外的參考材料的 ⑶-ROM。此外,一些出版者維護與特定出版物關(guān)聯(lián)的網(wǎng)站,這些網(wǎng)站提供這樣的材料以及可能在出版時間之后更新的信息,例如勘誤表、進一步的評論、更新的參考材料、參考書目和相關(guān)數(shù)據(jù)的另外的來源以及到其他語言的翻譯。在線論壇允許讀者貢獻他們的關(guān)于該出版物的評論。所描述的系統(tǒng)允許比從前緊密得多地將這樣的材料與再現(xiàn)的文檔聯(lián)系在一起,并且允許用戶容易得多地發(fā)現(xiàn)它們并且與它們交互。通過捕獲來自文檔的一部分文本,系統(tǒng)可以自動地將用戶連接到與文檔關(guān)聯(lián)以及更特別地與文檔的該特定部分關(guān)聯(lián)的數(shù)字材料, 并且在捕獲設(shè)備上顯示這些材料。類似地,用戶可以通過捕獲設(shè)備連接到討論文本的該部分的網(wǎng)上社區(qū),或者其他讀者的注釋和評論。在過去,這樣的信息典型地需要通過搜索特定頁碼或章節(jié)而找到。其一個示例應(yīng)用是在學(xué)術(shù)教科書領(lǐng)域(第17. 5節(jié))。7. 2 “訂閱”印刷文檔
一些出版者可能具有郵件列表,如果讀者希望被通知新的相關(guān)事宜或者何時出版圖書的新版本,那么他們可以訂閱郵件列表。利用所描述的系統(tǒng),用戶可以更容易地登記對于特定文檔或者文檔部分的興趣,在一些情況下甚至在出版者考慮提供任何這樣的功能之前就可以如此。讀者的興趣可以饋送給出版者,可能地影響他們關(guān)于何時以及何地提供更新、進一步的信息、新版本或者甚至有關(guān)已經(jīng)證明在現(xiàn)有的圖書中引起人們興趣的主題的全新出版物的決策。7. 3 H有Φ寺殊含義或者寺殊數(shù)據(jù)的印刷丨記號
系統(tǒng)的許多方面簡單地通過使用已經(jīng)存在于文檔中的文本而啟用。然而,如果在知道可以與系統(tǒng)結(jié)合使用文檔的情況下產(chǎn)生文檔,那么可以通過印刷特殊記號的形式的額外信息而添加額外的功能,所述特殊記號可以用來更密切地標(biāo)識文本或者所需的動作,或者以其他方式增強文檔與系統(tǒng)的交互。最簡單且最重要的實例是向讀者指示肯定可以通過系統(tǒng)訪問文檔??梢岳缡褂锰厥獾膱D標(biāo)以便指示該文檔具有與其關(guān)聯(lián)的在線論壇。這樣的符號可以預(yù)期純粹用于讀者,或者它們可以在被捕獲且用來發(fā)起某個動作時由系統(tǒng)識別??梢栽诜栔芯幋a足夠的數(shù)據(jù)以便不僅僅標(biāo)識該符號它也可以存儲例如關(guān)于文檔、版本以及符號的位置的信息,其可以由系統(tǒng)識別和讀取。7. 4通過擁有紙質(zhì)文檔而授權(quán)
22存在其中擁有印刷文檔或者訪問印刷文檔將給予用戶某些特權(quán),例如訪問文檔的電子拷貝或者附加材料的一些情形。利用所描述的系統(tǒng),可以僅僅作為用戶捕獲來自文檔的部分文本或者捕獲特別印刷的符號的結(jié)果而給予這樣的特權(quán)。在其中系統(tǒng)需要確保用戶擁有整個文檔的情況下,它可能提示用戶從特定頁面(例如“第46頁第二行”)捕獲特定的項目或詞組。7. 5到期的文檔
如果印刷文檔是額外材料和功能的出入口,那么訪問這樣的特征也可能是時間受限的。在到期日之后,用戶可能被要求付費或者獲得文檔的更新版本以便再次訪問所述特征。 當(dāng)然,紙質(zhì)文檔將仍然是可使用的,但是將喪失它的一些增強的電子功能。這可能是所希望的,例如,因為出版者在收取訪問電子材料的費用中或者在不時地要求用戶購買新版本中存在利潤,或者因為存在與保持流通的過時的印刷文檔版本關(guān)聯(lián)的缺點。優(yōu)惠券是可能具有到期日的商業(yè)文檔類型的一個實例。7.6流行件分析和出版決策
第10. 5節(jié)討論了使用系統(tǒng)的統(tǒng)計資料以影響作者的補償和廣告的定價。在一些實例中,系統(tǒng)根據(jù)與出版物關(guān)聯(lián)的電子社區(qū)的活動以及根據(jù)紙質(zhì)文檔的使用推斷出版物的流行性。這些因素可以幫助出版者對于他們將來出版什么做出決策。如果例如現(xiàn)有圖書中的某章被證明極其受歡迎,那么可能值得將其擴展成單獨的出版物。8.文檔訪問服各
所描述的系統(tǒng)的一個重要方面是向有權(quán)訪問文檔的再現(xiàn)拷貝的用戶提供對于該文檔的電子版本的訪問的能力。在一些情況下,文檔可在公共網(wǎng)絡(luò)或者用戶有權(quán)訪問的私人網(wǎng)絡(luò)上免費獲得。系統(tǒng)使用捕獲的文本以便標(biāo)識、定位和獲取該文檔,在一些情況下在捕獲設(shè)備上顯示它或者將它存放在其電子郵件收件箱中。在一些情況下,文檔將以電子形式可用,但是出于各種各樣的原因,可能對于用戶不可訪問。僅僅列出一些可能性來說,可能不存在足夠的連接以獲取該文檔,用戶可能無權(quán)獲取該文檔,可能存在與獲得該文檔關(guān)聯(lián)的成本,或者該文檔可能被撤除以及可能地被新版本代替。系統(tǒng)典型地向用戶提供關(guān)于這些情形的反饋。如第7. 4節(jié)中提到的,如果已知特定用戶已經(jīng)有權(quán)訪問文檔的印刷拷貝,那么給予該用戶的訪問的程度或性質(zhì)可能不同。8. 1認(rèn)證的文檔訪問
對于文檔的訪問可能限于特定的用戶或者滿足特定準(zhǔn)則的那些用戶,或者可能僅在特定的情況下可用,例如在用戶連接到安全網(wǎng)絡(luò)時可用。第6節(jié)描述了其中可以建立用戶和捕獲設(shè)備的憑據(jù)的一些方式。8. 2文檔購買——版權(quán)所有者補償
對于普通公眾不可免費獲得的文檔可能在付費時仍然可訪問,通常作為對于出版者或版權(quán)所有人的補償。系統(tǒng)可以直接地實現(xiàn)支付裝置或者可以利用與用戶關(guān)聯(lián)的其他支付方法,包括第6. 2節(jié)中描述的那些方法。8. 3文檔托管和主動獲取
電子文檔經(jīng)常是短期的;再現(xiàn)的文檔的數(shù)字源版本可能現(xiàn)在可用但是未來不可訪問。 系統(tǒng)可以代表用戶獲取和存儲現(xiàn)有的版本,即使用戶沒有請求它,從而在用戶未來請求它的情況下保證它的可用性。這也使得它對于系統(tǒng)的使用可用,例如用于作為標(biāo)識未來捕獲的過程的一部分的搜索。如果要求支付以訪問文檔,那么受信任“文檔托管”服務(wù)可以例如在支付適度費用時代表用戶獲取文檔,保證未來在用戶曾經(jīng)從該服務(wù)請求文檔的情況下完全補償版權(quán)持有人。如果在捕獲時文檔不以電子形式可用,那么可以實施該方案的變型。用戶可以在電子文檔在以后的日期變得可用的情況下授權(quán)所述服務(wù)代表他/她提交對于文檔的請求或者對于文檔進行支付。8.4與其他訂閱和帳戶關(guān)聯(lián)
有時可以基于用戶與另一個帳戶或訂閱的現(xiàn)有關(guān)聯(lián)而放棄、減少或者犧牲支付。例如, 報紙印刷版本的訂戶可以自動地有權(quán)獲取電子版本。在其他情況下,該關(guān)聯(lián)可能不會這樣直接可以基于其雇主建立的帳戶或者基于其對于作為訂戶的朋友擁有的印刷拷貝的捕獲而授權(quán)用戶訪問。8. 5利用捕獲并打印代替影印
捕獲來自紙質(zhì)文檔的文本、標(biāo)識電子原件以及打印該原件或者與捕獲關(guān)聯(lián)的該原件的某部分的過程形成傳統(tǒng)影印的可替換方案,其具有許多優(yōu)點
紙質(zhì)文檔無需處于與最終打印輸出相同的位置,并且在任何情況下都無需同時在那
里
可以避免影印過程對文檔,尤其是對舊的、易碎的和有價值的文檔造成的磨損和破
壞
拷貝的質(zhì)量典型地高得多
可以保持關(guān)于最??截惸男┪臋n或者文檔的哪些部分的記錄 可以作為該過程的一部分對版權(quán)所有者做出支付 可以禁止未授權(quán)拷貝。8. 6從影印定位有價倌的原件
當(dāng)像在具有歷史或其他特定意義的法律文書或文檔的情況下那樣,文檔特別有價值時,人們典型地可能使用這些文檔的拷貝上,經(jīng)常是使用許多年,而原件保持在安全的位置。所描述的系統(tǒng)可以耦合到記錄原始文檔例如在存檔倉庫中的位置的數(shù)據(jù)庫,從而使得有權(quán)訪問拷貝的某個人容易定位存檔的原始紙質(zhì)文檔。9.信息處理技術(shù)
光學(xué)字符識別(OCR)技術(shù)傳統(tǒng)上著眼于包含例如來自捕獲整個頁面的平板掃描儀的大量文本的圖像。OCR技術(shù)經(jīng)常需要用戶的大量訓(xùn)練和校正以便產(chǎn)生有用的文本。OCR技術(shù)經(jīng)常要求進行OCR的機器具有相當(dāng)?shù)奶幚砟芰Γ⑶译m然許多系統(tǒng)使用字典,通常期望它們工作于實際上無限的詞匯之上。所有上面的傳統(tǒng)特性在所描述的系統(tǒng)中都可以被改進。然而,本文描述的技術(shù),例如文本的識別、文檔的標(biāo)識、信息的檢測以及其他技術(shù),當(dāng)然可以使用典型的OCR技術(shù)來實現(xiàn)。所討論的許多問題直接映射到其他識別技術(shù),尤其是語音識別。如第3. 1節(jié)中提到的,從紙張捕獲的過程可以通過用戶大聲將文本讀入捕獲音頻的設(shè)備中而實現(xiàn)。本領(lǐng)域技術(shù)人員將理解,本文討論的關(guān)于圖像、字體和文本片段的原理經(jīng)常也適用于音頻樣本、用戶語音模型和音素。與所描述的系統(tǒng)一起使用的捕獲設(shè)備經(jīng)常是小的、便攜式的且低功率的,或者不被制造成僅僅捕獲文本。捕獲設(shè)備可能具有并非理想地適合于OCR的光學(xué)元件,或者可能缺少幫助OCR的光學(xué)元件。捕獲設(shè)備可以一次僅僅捕獲一些詞,并且在一些實現(xiàn)方式中甚至不一次捕獲整個字符,而是通過文本的水平切片,許多這樣的切片縫合在一起以形成可以從中推斷文本的可識別信號。捕獲設(shè)備也可以具有非常有限的處理能力或存儲量,因而盡管在一些實例中它可以執(zhí)行所有OCR過程本身,但是許多實例將取決于可能地在以后的時間到更強大的設(shè)備的連接,以便將捕獲的信號轉(zhuǎn)換成文本。最后,它可以具有用于用戶交互的非常有限的裝置,因而可能需要將對于用戶輸入的任何請求推遲到以后,或者在比如今常見的程度更大的程度上工作于“最佳猜測”模式。在一些實例中,系統(tǒng)通過以下方式處理捕獲的信息首先標(biāo)識待識別的感興趣信息(例如文本或語音)的存在性,提取與感興趣信息在捕獲的信息內(nèi)的位置相應(yīng)的特征 (例如詞、行、段落、列等等在頁面內(nèi)的位置、人群中特定說話者的頻率范圍),并且識別感興趣信息的特性,例如再現(xiàn)的文檔內(nèi)的文本布局或者與再現(xiàn)的文檔內(nèi)識別的字母相應(yīng)的 Unicode字符的標(biāo)識,以便例如標(biāo)識捕獲的圖像的來源,或者生成和顯示捕獲的圖像上方的標(biāo)記層。盡管可以對于任何類型的信息執(zhí)行這些過程,但是下面的實例參照基于文本的再現(xiàn)的文檔描述了這些過程。9. 1標(biāo)識和提取
標(biāo)識是確定捕獲的圖像包含文本的可能性的過程。由于捕獲設(shè)備可以不斷地捕獲圖像,因而系統(tǒng)可以在試圖從捕獲的信息中提取文本特征或者識別文本之前首先確定捕獲的圖像是否包含文本。換言之,系統(tǒng)是“文本感知”的,因為在任何時間它可以確定它是否面臨文本。一旦系統(tǒng)確定文本存在,那么系統(tǒng)可以開始提取過程。提取過程標(biāo)識捕獲內(nèi)的文本的位置。例如,提取過程可以生成與捕獲的圖像內(nèi)的詞和段落相應(yīng)的邊界。若干因素可以進入標(biāo)識和提取過程。例如,當(dāng)分析文本時,系統(tǒng)可以標(biāo)識與文本中的筆劃關(guān)聯(lián)的各種不同的特征,例如高對比度邊緣的存在、筆劃內(nèi)顏色變化的缺乏(例如比較筆劃內(nèi)背景與前景顏色的存在)、一致的寬度(水平、豎直或者二者)、筆直邊緣的存在、平滑邊緣曲線的存在,等等。作為另一個實例,系統(tǒng)可以標(biāo)識捕獲的圖像內(nèi)潛在文本的特性 (例如筆劃邊緣)的周期性或重復(fù),水平和/或豎直筆劃、基線、高度線、豎直線與基線之間的角度的存在,字形或字形子成分(例如拐角,曲線,對角線,字形的部分之間的橋接線,例如書法信件中的寬筆劃之間的窄筆劃,襯線,一致的線帽和斜接等等)的存在。系統(tǒng)也可以使用運動模糊以便基于運動方向上亮暗彩色帶(例如極限運動模糊的情況下沿著從左到右的腳本中的水平文本軸的背景和前景條帶)的存在來標(biāo)識文本的存在。文本的標(biāo)識和提取期間可以考慮的附加因素包括 行
。行內(nèi)的字形豎直線。行內(nèi)的字形水平線
?;€
。行內(nèi)字形或符號的高度 。字形、詞和/或筆劃之間的水平空間 。行之間的豎直空間 。邊緣和邊距 密度
。筆劃背景之比 。行內(nèi)和行間的密度 字形序列
。N元文法(N個連續(xù)詞的序列) 詞 大寫 標(biāo)點
句子(大寫、標(biāo)點、周期) 段落 標(biāo)題 字幕
?;诰鄨D像的接近度 圖例
。框、圖標(biāo)等等 圖上文字 。短文本
。比背景圖像更大的對比度、周期等等 標(biāo)志
。公司/產(chǎn)品/服務(wù)名稱 。主要商業(yè)標(biāo)志
。與背景的分界線(例如橢圓形邊界)。本領(lǐng)域技術(shù)人員將理解,系統(tǒng)在執(zhí)行文本標(biāo)識和提取以及處于任何分析水平時可以使用任何或所有上述特征。例如,在標(biāo)識過程期間,系統(tǒng)可以在依賴于水平空間之間的距離的同時僅僅依賴于水平空間的數(shù)量,并且在提取過程期間依賴于捕獲的圖像內(nèi)它們與邊緣的關(guān)系。系統(tǒng)也可以基于例如大區(qū)域的平滑梯度、隨機性(例如高對比度特定區(qū)域的位置、 高對比度邊緣的高度、高對比度邊緣的不勻性)、捕獲的圖像內(nèi)臉、身體或建筑物的存在性、 線或者連通成分的不一致的尺寸等等對非文本信息執(zhí)行標(biāo)識和提取。9.2文本識別
基于提取的位置信息,系統(tǒng)可以試圖識別捕獲的圖像內(nèi)的文本或者文本的特征。例如, 系統(tǒng)可以將文本發(fā)送給OCR部件或者基于文本的標(biāo)識的特征(例如文本內(nèi)上升字母和/或下行字母的模式)而生成簽名。在執(zhí)行文本識別之前,系統(tǒng)可以通過例如將所有斜體或粗體文本轉(zhuǎn)換成標(biāo)準(zhǔn)的格式而對文本標(biāo)準(zhǔn)化或規(guī)格化。文本識別過程可以依賴于若干特征以便識別文本的特性或者生成再現(xiàn)的文檔的簽名,例如字形特征(例如封閉的空間、豎直和水平筆劃等等)、標(biāo)點、大寫、字符空間、行特征、段落特征、列特征、標(biāo)題特征、字幕特征、關(guān)鍵/圖例特征、標(biāo)志特征、圖上文字特征等等。此外,詞特征可以幫助文本識別過程,例如詞間距和密度。例如,系統(tǒng)可以使用與文檔上印刷的詞之間的空間關(guān)聯(lián)的信息,例如空間之間的距離(水平的、豎直的、正交的等等)、 空間之間的寬度等等。系統(tǒng)可以進一步將關(guān)于換行的知識合并到分析中。例如,當(dāng)換行已知時,系統(tǒng)可以依賴于詞位置的豎直對齊,而當(dāng)換行未知時,系統(tǒng)可以依賴于鄰近的相對詞長度序列。作為另一個實例,系統(tǒng)可以使用與字符密度關(guān)聯(lián)的信息,例如字符之間的相對密度(水平的、豎直的、正交的等等)、分組的字符配對之間的相對密度或者絕對密度信息。特定的特征可能對于字體、字體大小等等不變,例如點和線的對稱性(例如字形內(nèi)、點和/或線周圍的自相關(guān))。系統(tǒng)可以在捕獲的圖像內(nèi)動態(tài)地選擇分析哪些特征。例如,在村子光學(xué)模糊和運動模糊的情況下,系統(tǒng)可以使用文本的較少細節(jié)方面,例如相對詞寬度。在一些實例中,系統(tǒng)可以通過基于例如字符偏離公共η元文法的確定度、偏離的長度、匹配的規(guī)則表示(例如對于電子郵件地址和URL)等等確定未知的或罕見的η元文法是否為噪聲或者高信號信息(拼寫錯誤、電子郵件地址、URL等等)而利用唯一的η元文法。系統(tǒng)可以使用再現(xiàn)的文檔外部的資源以識別再現(xiàn)的文檔內(nèi)的文本,例如涉及詞內(nèi)的字形的近似數(shù)量、字典(例如詞頻字典)、語法和標(biāo)點規(guī)則、找到全集內(nèi)的特定詞文法和字符文法的概率、匹配不同字符串的規(guī)則表示(例如電子郵件地址、URL等等)的知識。此外, 系統(tǒng)可以使用諸如DNS服務(wù)器、地址簿和電話簿之類的資源驗證識別的文本,例如URL、電子郵件地址和電話號碼。作為另一個實例,系統(tǒng)可以使用字體矩陣以幫助識別和驗證各種不同的字形??梢曰谧煮w矩陣中反映的未識別的和識別的字符之間的關(guān)系將給定字體的未識別的字符與相同字體的識別的字符進行比較以便幫助它們的識別。舉例而言,如果字體矩陣表明“d”的表示類似于“C”和“1”的組合,那么未識別的“d”可以基于識別的“C” 和“1”而識別為“d”。系統(tǒng)可以使用識別的文本或特征以便在文檔全集的文檔之中標(biāo)識出捕獲的圖像中描繪的文檔。用來標(biāo)識的信息量和信息類型可以基于任何數(shù)量的因素而變化,這些因素例如文檔的類型、全集的大小、文檔內(nèi)容等等。例如,捕獲的圖像內(nèi)5或6個詞的序列或者詞之間的空間的相對位置可以在相對較大的全集內(nèi)唯一地標(biāo)識相應(yīng)的文檔。在一些實例中,系統(tǒng)可以采用轉(zhuǎn)換表以確定關(guān)于特定特征的信息或者屬于特定特征的信息的組合將唯一地標(biāo)識文檔的概率。例如,轉(zhuǎn)換表可以指示5個詞的詞序列與兩個不同的3詞序列、2連續(xù)行的上升字母和/或下行字母模式等等具有相同的唯一地標(biāo)識文檔的概率。在一些實例中,系統(tǒng)可以自動地積累捕獲的圖像或者將其“縫合”在一起以便例如生成再現(xiàn)的文檔的復(fù)合圖像,該復(fù)合圖像比單獨的捕獲的文檔更加可能唯一地標(biāo)識相應(yīng)的文檔。在一些實例中,文本識別過程可以影響信息的捕獲。例如,如果文本被識別為離焦或者不完整,那么系統(tǒng)可以調(diào)節(jié)捕獲設(shè)備的照相機的焦點或者提示用戶重新放置或調(diào)節(jié)捕獲設(shè)備。系統(tǒng)可以用來識別文本的各種不同的技術(shù)在下文中進一步詳細地加以描述。9. 2. 1 “不確定的”O(jiān)CR
所描述的系統(tǒng)內(nèi)OCR的主要的新特性在于以下事實它通常將檢查存在于別處且可能以數(shù)字形式獲取的文本的圖像。因此,不總是需要來自O(shè)CR引擎的確切的文本轉(zhuǎn)寫。OCR系統(tǒng)可以輸出一組可能的匹配或者可能的匹配的矩陣,在一些情況下包括概率權(quán)重,其仍然可以用來搜索數(shù)字原件。9. 2. 2迭代OCR——猜測、消除歧義、猜測……
如果執(zhí)行識別的設(shè)備能夠在處理時聯(lián)系文檔索引,那么隨著OCR過程的繼續(xù),可以通過文檔全集的內(nèi)容告知OCR過程,從而潛在地提供大得多的識別精度。這樣的連接也將允許設(shè)備告知用戶何時已經(jīng)捕獲了足夠的文本以標(biāo)識數(shù)字源。9. 2. 3使用可能的再現(xiàn)的知識
當(dāng)系統(tǒng)知道了文檔的可能的印刷再現(xiàn)的各方面(例如印刷中使用的字體字樣或者頁面的布局或者哪些部分為斜體)時,這也可以幫助識別過程(第4. 1. 1節(jié))。9. 2. 4斜本_——確^Tife賄P··卜.圓本
當(dāng)標(biāo)識了文檔全集中的候選源文本時,可以將字體或者其再現(xiàn)下載到設(shè)備以幫助識別。9. 2. 5自相關(guān)和字符偏移
盡管文本片段的組成字符可能是代表可以用作文檔簽名的文本片段的最認(rèn)可的方式, 但是文本的其他表示可以足夠好地起作用,因而當(dāng)試圖定位數(shù)字文檔和/或數(shù)據(jù)庫內(nèi)的文本片段時或者當(dāng)對文本片段的表示消除歧義成可讀的形式時,無需使用文本片段的實際文本。文本片段的其他表示可以提供實際文本表示所缺乏的益處。例如,與捕獲的文本片段的其他表示不同的是,文本片段的光學(xué)字符識別經(jīng)常容易出錯,所述其他表示可以用來搜索和/或重建文本片段而不訴諸對于整個片段進行光學(xué)字符識別。這樣的方法可能更適合于與當(dāng)前系統(tǒng)一起使用的一些設(shè)備。本領(lǐng)域普通技術(shù)人員以及其他人將理解,存在描述文本片段的外觀的許多方式。 文本片段的這樣的表征可以包括但不限于詞長度、相對詞長度、字符高度、字符寬度、字符形狀、字符頻率、令牌頻率等等。在一些實例中,匹配文本令牌之間的偏移(即居間令牌的數(shù)量加1)用來表征文本片段。常規(guī)的OCR使用關(guān)于字體、字母結(jié)構(gòu)和形狀的知識以便試圖確定掃描的文本中的字符。本發(fā)明的實例是不同的;它們采用各種各樣的方法,這些方法使用再現(xiàn)的文本本身以幫助識別過程。這些方法使用字符(或令牌)“識別彼此”。引用這種自識別的一種方式是 “模板匹配”,并且類似于“卷積”。為了執(zhí)行這種自識別,系統(tǒng)將文本的拷貝在本身上方水平地滑動,并且記下文本圖像的匹配區(qū)域?,F(xiàn)有的模板匹配和卷積技術(shù)包含各種各樣的相關(guān)技術(shù)。令牌化和/或識別字符/令牌的這些技術(shù)將統(tǒng)稱為“自相關(guān)”,因為當(dāng)匹配字符/令牌時,文本用來與其自身的組成部分相關(guān)。當(dāng)自相關(guān)時,匹配的完整的連通區(qū)域是令人感興趣的。這出現(xiàn)在字符(或者字符組)覆蓋相同字符(或組)的其他實例時。匹配的完整的連通區(qū)域自動地提供將文本令牌化為組成令牌。隨著文本的兩個拷貝滑過彼此,其中出現(xiàn)理想匹配(即豎直切片中的所有像素匹配)的區(qū)域被記下。當(dāng)字符/令牌與自身匹配時,該匹配的水平范圍(例如文本的連通匹配部分)也匹配。注意,無需確定每個令牌的實際身份(即與令牌圖像相應(yīng)的特定字母、數(shù)字或符號或者這些的組),僅確定捕獲的文本中到相同的令牌的下一次出現(xiàn)的偏移。偏移數(shù)是到相同令牌的下一次出現(xiàn)的距離(令牌數(shù))。如果令牌在文本串內(nèi)是唯一的,那么偏移為零(0)。這樣生成的令牌偏移序列是可以用來標(biāo)識捕獲的文本的簽名。在一些實例中,將針對捕獲的令牌串確定的令牌偏移與索引電子文檔全集的索引進行比較,這基于它們的內(nèi)容的令牌偏移(第4. 1.2節(jié))。在其他實例中,將針對捕獲的令牌串確定的令牌偏移轉(zhuǎn)換成文本并且基于它們的內(nèi)容將其與索引電子文檔全集的更常規(guī)的索引進行比較。如早先所指出的,當(dāng)捕獲過程包括口頭詞的音頻樣本時,類似的令牌相關(guān)過程可以應(yīng)用于語音片段。9. 2. 6字體/字符“自識別”
常規(guī)的模板匹配OCR將掃描的圖像與字符圖像庫進行比較。實際上,針對每種字體存儲了字母表,并且將新掃描的圖像與存儲的圖像進行比較以便找出匹配字符。該過程通常具有初始的延遲,直到標(biāo)識了正確的字體。之后,OCR過程相對較快,因為大多數(shù)文檔通篇使用相同的字體。后續(xù)的圖像因而可以通過與最近標(biāo)識的字體庫進行比較而轉(zhuǎn)換成文本。最常使用的字體中的字符的形狀是相關(guān)的。例如,在大多數(shù)字體中,字母“C”和字母“e”在視覺上相關(guān),正如“t”和“f”等等。OCR過程通過使用該關(guān)系以構(gòu)造用于尚未掃描的字母的模板而被增強。例如,在讀者從紙質(zhì)文檔捕獲了先前未遇到的字體的短文本串,因而系統(tǒng)沒有將其與捕獲的圖像進行比較的一組圖像模板的情況下,系統(tǒng)可以利用特定字符之間的可能的關(guān)系以構(gòu)造字體模板庫,即使它尚未遇到字母表中的所有字母。系統(tǒng)然后可以使用構(gòu)造的字體模板庫以識別后續(xù)捕獲的文本并且進一步改進構(gòu)造的字體庫。9.2.7 ^^iP^n^m^B(^eaM) tMmmi^
當(dāng)圖像不能機器轉(zhuǎn)寫成適合用于搜索過程的形式時,可以保存圖像本身以便后來由用戶使用、可能的手動轉(zhuǎn)寫或者在不同的資源可能對于系統(tǒng)可用的以后日期進行處理。10. P-商業(yè)
系統(tǒng)使其可能的許多動作導(dǎo)致一些商業(yè)交易發(fā)生。詞語P-商業(yè)在這里用來描述通過系統(tǒng)從紙張發(fā)起的商業(yè)活動。10. 1來自其物理印刷拷貝的文檔銷售
當(dāng)用戶捕獲來自文檔的文本時,用戶可能被提供紙質(zhì)或電子形式的該文檔的購買。用戶也可能被提供相關(guān)的文檔,例如在紙質(zhì)文檔中報價的或者以其他方式引用的那些文檔, 或者關(guān)于相似主題的那些文檔,或者相同作者的那些文檔。10. 2通過紙張發(fā)起或輔助的任何別的東西的銷售
可以以各種各樣的方式將文本的捕獲與其他商業(yè)活動相聯(lián)系。捕獲的文本可能在明確地被設(shè)計成銷售物品的目錄中,在該情況下,文本將相當(dāng)直接地與物品的購買關(guān)聯(lián)(第18. 2 節(jié))。文本也可以是廣告的一部分,在這種情況下,可能因而發(fā)生被廣告的物品的銷售。在其他情況下,用戶捕獲其他文本,從中可以推斷他們對于商業(yè)交易的潛在興趣。 例如,特定國家的小說集的讀者可能對那里的度假感興趣。閱讀新車評論的某人可能正考慮購買該車。用戶可以捕獲特定的文本片段,作為結(jié)果知道某個商業(yè)機會將提供給他們,或者它可以是他們的捕獲活動的意外結(jié)果。10. 3導(dǎo)致1肖售_勿品上_示簽、圖標(biāo)、序歹I罔、條形碼的捕獲
有時,文本或符號實際印刷在物品或其包裝上。一個實例是經(jīng)常在一件電子裝備的背面或底側(cè)的標(biāo)簽上發(fā)現(xiàn)的序列號或產(chǎn)品id。系統(tǒng)可以通過捕獲該文本向用戶提供購買一個或多個相同物品的方便方式。他們也可以被提供手冊、支持或維修服務(wù)。10.4上下文廣告
除了直接捕獲來自廣告的文本之外,系統(tǒng)也允許一種新的廣告,其不一定明確地在再現(xiàn)的文檔中,但是基于人們正在閱讀的東西。10. 4. 1基于捕獲上下文和歷Φ的廣告
在傳統(tǒng)的紙質(zhì)出版物中,廣告通常相對于報紙文章的文字消耗大量的空間,并且有限數(shù)量的廣告可以置于特定文章周圍。在所描述的系統(tǒng)中,可以將廣告與個別的詞或詞組關(guān)聯(lián),并且可以依照用戶通過捕獲該文本而表現(xiàn)出的特定興趣以及可能地考慮其捕獲歷史而選擇廣告。利用所描述的系統(tǒng),有可能將購買與特定的印刷文檔相聯(lián)系并且廣告者得到明顯更多的關(guān)于其在特定印刷出版物中的廣告的效果的反饋。10. 4. 2基于用戶上下文和歷Φ的廣告
系統(tǒng)可以搜集大量的關(guān)于用戶的上下文的其他方面的信息以供自身使用(參見第13 節(jié));估計用戶的地理位置是良好的實例。這樣的數(shù)據(jù)也可以用來定制呈現(xiàn)給系統(tǒng)的用戶的廣告ο10. 5補償樽型
系統(tǒng)允許為廣告者和營銷者實現(xiàn)某些新補償模型。包含廣告的印刷文檔的出版者可以從來源于他們的文檔的購買接收一定收益。這可能是真實的,不管廣告是否以原始的印刷形式存在;它可能由出版者、廣告者或者某個第三方電子地添加,并且這種廣告的來源可能已通過用戶訂閱。10. 5. 1基于流行性的補償
系統(tǒng)生成的統(tǒng)計資料的分析可以揭示出版物的特定部分的流行性(第14. 2節(jié))。例如, 在報紙中,它可以揭示讀者花在瀏覽特定頁面或文章的時間量或者特定專欄作家的受歡迎程度。在一些情況下,對于作者或出版者可能合適的是基于讀者的活動而不是基于諸如寫出的詞或分發(fā)的拷貝數(shù)之類的更傳統(tǒng)的度量接償。其作品變成一定主題的經(jīng)常閱讀的權(quán)威著作的作者應(yīng)當(dāng)在未來的合同中與其圖書銷售了相同的拷貝數(shù)但是很少被打開的作者不同地加以考慮。10. 5. 2基于流行性的廣告
關(guān)于文檔中的廣告的決策也可以基于有關(guān)讀者人數(shù)的統(tǒng)計資料。最受歡迎的專欄作家周圍的廣告空間可以溢價率出售。甚至可以在文檔出版之后一段時間基于關(guān)于它如何被接收的知識向廣告者收費或者對其補償。10.6基于生活圖書館的營銷
第6. 1和16. 1節(jié)中描述的“生活圖書館”或捕獲歷史可以是關(guān)于用戶的興趣和習(xí)慣的極其有價值的信息源。經(jīng)過適當(dāng)?shù)耐夂碗[私問題,這樣的數(shù)據(jù)可以告知用戶商品或服務(wù)的提供。甚至在匿名的形式下,收集的統(tǒng)計資料也可能是極其有用的。10.7以后日期的銷售/信息(當(dāng)可用時)
商業(yè)交易的廣告和其他機會可能不在捕獲時立即呈現(xiàn)給用戶。例如,購買小說結(jié)局的機會可能在用戶閱讀小說的時候不可獲得,但是系統(tǒng)可以在結(jié)局出版時向他們呈現(xiàn)該機
30會用戶可以捕獲與購買或其他商業(yè)交易有關(guān)的數(shù)據(jù),但是可以在做出捕獲的時候選擇不發(fā)起和/或完成該交易。在一些實例中,與捕獲有關(guān)的數(shù)據(jù)存儲在用戶的生活圖書館中,并且這些生活圖書館條目可以保持“激活”(即能夠進行隨后的交互,類似于做出捕獲的時候可用的交互)。因此,用戶可以在某個稍后的時間審查捕獲,并且可選地完成基于該捕獲的交易。由于系統(tǒng)可以跟蹤何時和何處發(fā)生原始的捕獲,因而可以適當(dāng)?shù)匮a償交易中涉及的所有方。例如,當(dāng)六個月后用戶訪問他們的生活圖書館,從歷史中選擇該特定捕獲,并且從彈出菜單(其可以與在捕獲的時候可選地呈現(xiàn)的菜單相似或相同)中選擇“在亞馬遜購買該物品”時,可以對寫下出現(xiàn)在用戶從其捕獲數(shù)據(jù)的廣告的近旁的故事的作者以及出版該故事的出版者進行補償。11.操作系統(tǒng)和應(yīng)用集成
現(xiàn)代操作系統(tǒng)(OS)和其他軟件包具有許多特性,這些特性可以有利地利用以便與所描述的系統(tǒng)一起使用,并且這些特性也可以以不同的方式加以修改以提供甚至更好的平臺以供其使用。11. 1漏__港·、輔至丨隨概
新的和即將來臨的文件系統(tǒng)及其關(guān)聯(lián)的數(shù)據(jù)庫經(jīng)常具有存儲與每個文件關(guān)聯(lián)的各種各樣的元數(shù)據(jù)的能力。傳統(tǒng)上,該元數(shù)據(jù)包括了諸如創(chuàng)建文件的用戶的ID、創(chuàng)建日期、最近的修改和最近的使用之類的東西。更新的文件系統(tǒng)允許存儲諸如關(guān)鍵字、圖像特性、文檔源和用戶評論之類的額外信息,并且在一些系統(tǒng)中,該元數(shù)據(jù)可以任意地擴展。因此,文件系統(tǒng)可以用來存儲將在實現(xiàn)當(dāng)前系統(tǒng)中有用的信息。例如,文件系統(tǒng)可以存儲給定文檔最近被印刷的日期,正如可以存儲關(guān)于使用所描述的系統(tǒng)從紙張捕獲了來自它的哪個文本以及何時捕獲和由誰捕獲的細節(jié)。操作系統(tǒng)也開始合并允許用戶更容易地找到本地文件的搜索引擎裝置。這些裝置可以由系統(tǒng)有利地加以使用。這意味著第3和4節(jié)討論的許多搜索相關(guān)概念不僅僅適用于基于因特網(wǎng)的和類似的搜索引擎,而且也適用于每個個人計算機。在一些情況下,特定的軟件應(yīng)用也將包括對于上述以及OS提供的裝置之外的系統(tǒng)的支持。11. 2對于捕獲設(shè)備的OS支持
隨著諸如移動通信設(shè)備之類的具有集成的照相機和麥克風(fēng)的捕獲設(shè)備的使用變得日益普遍,可能希望的是以與對于鼠標(biāo)和打印機提供支持的大致相同的方式將對于它們的支持嵌入到操作系統(tǒng)中,因為捕獲設(shè)備的適用性超出單個軟件應(yīng)用之外。這對于系統(tǒng)操作的其他方面同樣是真實的。下面討論了一些實例。在一些實例中,整個描述的系統(tǒng)或者其核心由 OS(例如 Windows、Windows mobile、Linux、Max OS X、iPhone OS、Android 或者 Symbian) 提供。在一些實例中,對于系統(tǒng)的支持由可以被其他軟件包使用的應(yīng)用編程接口(API)提供,所述軟件包包括直接實現(xiàn)所述系統(tǒng)的各方面的那些軟件包。11.2. 1對于OCR和其他識別技術(shù)的支持
大多數(shù)捕獲來自再現(xiàn)的文檔的文本的方法要求某個識別軟件將源數(shù)據(jù),典型地為捕獲的圖像或一些說出的詞解釋為適合用于系統(tǒng)中的文本。一些OS包括對于語音或手寫識別的支持,盡管OS包括對于OCR的支持是不常見的,因為在過去OCR的使用典型地限于小范
31圍的應(yīng)用。由于識別部件變成OS的一部分,它們可以更好地利用OS提供的其他裝置。許多系統(tǒng)包括例如拼寫字典、語法分析工具、國際化和本地化裝置,所有這些可以由所描述的系統(tǒng)有利地用于其識別過程,這特別地因為它們可能已經(jīng)為特定用戶定制以包括他/她常常遇到的詞和詞組。如果操作系統(tǒng)包括全文本索引裝置,那么這些裝置也可以用來如第9. 3節(jié)中所描述的告知識別過程。11.2.2捕獲時采取的動作
如果捕獲發(fā)生并且提供給0S,那么它可以具有在沒有其他子系統(tǒng)聲明擁有該捕獲的那些情況下采取的缺省動作。缺省動作的一個實例是向用戶呈現(xiàn)可替換方案的選擇,或者將捕獲的數(shù)據(jù)提交到OS的嵌入式搜索裝置。11.2.3 OS肺■躺射當(dāng)$射當(dāng)__辭M乍
如果找到再現(xiàn)的文檔的數(shù)字源,那么OS可以具有其在該特定文檔或者該類別的文檔被捕獲時將采取的標(biāo)準(zhǔn)動作。應(yīng)用和其他子系統(tǒng)可以以應(yīng)用宣告其處理特定文件類型的類似方式向OS注冊為特定捕獲類型的潛在句柄。與再現(xiàn)的文檔或者與來自文檔的捕獲關(guān)聯(lián)的標(biāo)記數(shù)據(jù)可以包括給操作系統(tǒng)的啟動特定應(yīng)用、傳遞應(yīng)用變量、參數(shù)或數(shù)據(jù)等的指令。11.2.4解釋姿杰目.映射成標(biāo)準(zhǔn)動作
在第12. 1.3節(jié)中,討論了“姿態(tài)”的使用,其中利用捕獲設(shè)備做出的特定運動可能代表標(biāo)準(zhǔn)的動作,例如標(biāo)記文本區(qū)域的開始和結(jié)束。這類似于這樣的動作在使用光標(biāo)鍵選擇文本區(qū)域的同時按壓鍵盤上的shift 鍵,或者使用鼠標(biāo)上的滾輪滾動文檔。用戶的這樣的動作是充分標(biāo)準(zhǔn)的,使得它們由捕獲設(shè)備的OS以系統(tǒng)范圍的方式解釋,從而確保一致的行為。對于其他的捕獲設(shè)備相關(guān)動作,希望同樣如此。11.2.5設(shè)置對于標(biāo)準(zhǔn)(和非標(biāo)準(zhǔn))圖標(biāo)/文本印刷菜單項目的響應(yīng)
按照相似的方式,特定的文本項或者其他符號項在被捕獲時使得標(biāo)準(zhǔn)動作發(fā)生,并且 OS可以提供對于這些的選擇。一個實例可能是,捕獲任何文檔中的文本“[打印]”將使得 OS獲取并且打印該文檔的拷貝。OS也可以提供登記這樣的動作并且將其與特定捕獲關(guān)聯(lián)的方式。11. 3系統(tǒng)S形用戶界g部件寸于捕獲發(fā)走朗舌云力的支措大多數(shù)軟件應(yīng)用基本上基于OS提供的標(biāo)準(zhǔn)圖形用戶界面(GUI)部件。開發(fā)者使用這些部件有助于確??缍鄠€軟件包的一致的行為,例如在任何文本編輯上下文中按壓左光標(biāo)鍵應(yīng)當(dāng)將光標(biāo)移到左邊,而無需每個編程者獨立地實現(xiàn)相同的功能。當(dāng)通過文本捕獲或者所描述的系統(tǒng)的其他方面發(fā)起活動時,這些部件中的類似一致性是所希望的。下面給出了一些實例。11.3. 1找到特定文本內(nèi)容的接口
系統(tǒng)的典型用途可能是供用戶捕獲紙質(zhì)文檔的區(qū)域,以及供系統(tǒng)在能夠顯示或編輯它的軟件包中打開電子副本,并且使得該包滾動到且加亮掃描的文本(第12. 2. 1節(jié))。這個過程的第一部分,即找到且打開電子文檔,典型地由OS提供并且跨各軟件包是標(biāo)準(zhǔn)的。然而, 第二部分——在文檔內(nèi)定位一段特定文本并且使得包滾動到它且加亮它——尚未標(biāo)準(zhǔn)化, 并且經(jīng)常由每個包不同地實現(xiàn)。用于該功能的標(biāo)準(zhǔn)API的可用性可以大大地增強系統(tǒng)這個方面的操作。11.3.2文本交互
一旦在文檔內(nèi)定位了一段文本,那么系統(tǒng)可能希望對該文本執(zhí)行各種各樣的操作。作為一個實例,系統(tǒng)可以請求周圍的文本,從而用戶對于一些詞的捕獲可能導(dǎo)致系統(tǒng)訪問包含它們的整個句子或段落。同樣地,該功能可以有效地由OS提供,而不是在處理文本的每個軟件中實現(xiàn)。11.3.3上下文(彈出)菜單
系統(tǒng)啟用的一些操作將需要用戶反饋,并且這最佳地在處理數(shù)據(jù)的應(yīng)用的上下文中請求。在一些實例中,系統(tǒng)使用傳統(tǒng)上與在某個文本上點擊右鼠標(biāo)按鈕關(guān)聯(lián)的應(yīng)用彈出菜單。 系統(tǒng)將額外選項插入這樣的菜單中,并且使得它們作為諸如捕獲紙質(zhì)文檔的一部分之類的活動的結(jié)果而顯示。11. 4網(wǎng)絡(luò)/網(wǎng)絡(luò)接口
在今天越來越多地聯(lián)網(wǎng)的世界中,大多數(shù)單個機器上可用的功能也可以通過網(wǎng)絡(luò)訪問,并且與所描述的系統(tǒng)關(guān)聯(lián)的功能也不例外。作為一個實例,在辦公室環(huán)境中,用戶接收的許多紙質(zhì)文檔可以由相同企業(yè)網(wǎng)絡(luò)上其他用戶的機器打印。受適當(dāng)?shù)臋?quán)限控制,一臺計算機上的系統(tǒng)響應(yīng)于捕獲而可能能夠向其他機器查詢可能與該捕獲相應(yīng)的文檔。11.5文檔的打印造成保存
紙質(zhì)和數(shù)字文檔的集成中一個重要的因素是維護盡可能多的關(guān)于這二者之間的轉(zhuǎn)變的信息。在一些實例中,OS保持任何文檔何時被打印以及由誰打印的簡單記錄。在一些實例中,OS采取一個或多個另外的動作,這將使得其更適合于與所述系統(tǒng)一起使用。實例包括
與關(guān)于從其打印每個文檔的來源的信息一起保存打印的每個文檔的數(shù)字再現(xiàn)版本 保存關(guān)于打印版本的有用信息的子集,例如使用的字體以及何處出現(xiàn)換行,這可以幫助未來的捕獲解釋
保存與任何打印的拷貝關(guān)聯(lián)的源文檔的版本 在打印和存儲結(jié)果以供將來搜索的時候自動地索引文檔。11. 6我的(打印的/捕獲的)文檔
OS經(jīng)常維護具有特別的意義的特定文件夾或文件類別。按照慣例或設(shè)計,可以例如在 “我的文檔”文件夾中找到用戶的文檔。標(biāo)準(zhǔn)的文件打開對話框可以自動地包括最近打開的文檔的列表。在為了與所描述的系統(tǒng)一起使用而優(yōu)化的OS上,這樣的類別可以以考慮用戶與存儲的文件的紙質(zhì)版本交互的方式而被增強或擴充。諸如“我的打印的文檔”或“我的最近閱讀的文檔”之類的類別可能有效地被標(biāo)識且合并到其操作中。11.7 OS級標(biāo)記層次結(jié)構(gòu)
由于系統(tǒng)的重要方面典型地通過使用第5節(jié)中討論的“標(biāo)記”概念而提供,因而顯然有利的將是以對于多個應(yīng)用以及對于OS本身可訪問的方式具有對于OS提供的這種標(biāo)記的支持。此外,標(biāo)記層可以基于OS自身的在其控制下的文檔以及其能夠提供的裝置的知識而由 OS提供。11.8 OS DRM裝置的使用
越來越多數(shù)量的操作系統(tǒng)支持某種形式的“數(shù)字版權(quán)管理”依照授予特定用戶、軟件實體或機器的權(quán)利控制特定數(shù)據(jù)的使用的能力。它可以阻止例如特定文檔的未授權(quán)拷貝或分發(fā)。12.用戶接口
系統(tǒng)的用戶接口可以完全在捕獲設(shè)備上,如果它是復(fù)雜的且具有其自身的重大的處理能力的話,例如移動電話或PDA,或者完全在PC上,如果捕獲設(shè)備相對 且通過電纜連接到 PC的話。在一些情況下,一些功能駐留在每個部件中。因此,以下章節(jié)中的描述是特定實現(xiàn)方式中可能期望什么的指示,但是它們不一定適合于一切并且可以以若干方式進行修改。12. 1在捕獲設(shè)備上
對于大多數(shù)捕獲設(shè)備,用戶的注意力在捕獲的時候通常會在設(shè)備和紙張上。于是,非常希望的是,需要作為捕獲過程的一部分的任何輸入和反饋都不需要用戶的注意力過多地處于別處,例如計算機的屏幕上。12. 1. 1捕獲設(shè)備的反饋
捕獲設(shè)備可以具有向用戶提供關(guān)于特定狀況的反饋的各種各樣的方式。最明顯的類型是直接的視覺,其中捕獲設(shè)備合并捕獲的圖像的完全顯示或者指示燈,以及聽覺,其中捕獲設(shè)備可以發(fā)出蜂鳴聲、點擊或其他聲音。重要的可替換方案包括觸覺反饋,其中捕獲設(shè)備可以振動、嗡嗡作響或者以其他方式刺激用戶的觸覺,以及投影反饋,其中它通過將從彩色光斑到復(fù)雜顯示的任何東西投影到紙張上來指示狀態(tài)??梢栽诓东@設(shè)備上提供的重要的即時反饋包括
關(guān)于捕獲過程的反饋——用戶移動捕獲設(shè)備太快、以太大的角度移動或者漂移太高或太低
充分的內(nèi)容——已經(jīng)捕獲足夠以便相當(dāng)確定找到匹配(如果存在的話)——這對于斷開的操作是重要的
上下文已知——已經(jīng)定位了文本的來源
唯一上下文已知——已經(jīng)定位了文本的一個唯一來源
內(nèi)容可用性——內(nèi)容是否可為用戶免費獲得或者以一定成本獲得的指示。如果捕獲設(shè)備具有例如顯示文檔的一部分或全部的足夠能力的話,通常與系統(tǒng)的后期階段關(guān)聯(lián)的許多用戶交互也可以在捕獲設(shè)備上發(fā)生。12. 1. 2捕獲設(shè)備上的控件
捕獲設(shè)備可以提供各種各樣的方式以供用戶提供除了基本的文本捕獲之外的輸入,例如按鈕、滾輪/輕推輪、觸敏表面,和/或用于檢測設(shè)備的運動的加速度計。這些輸入中的一些允許在仍然拿著捕獲設(shè)備的同時實現(xiàn)一組更豐富的交互。例如,響應(yīng)于捕獲某個文本,捕獲設(shè)備向用戶呈現(xiàn)一組若干可能的匹配文檔。用戶使用捕獲設(shè)備的觸敏表面從列表中選擇一個。12. 1. 3 姿態(tài)跨紙張移動捕獲設(shè)備的主要原因是捕獲文本,但是一些運動可能被設(shè)備檢測并且用來指示其他的用戶交互。這樣的運動在這里稱為“姿態(tài)”。作為一個實例,用戶可以通過在從左至右的運動中捕獲頭幾個詞并且在從右至左的運動中捕獲最后幾個詞來指示大的文本區(qū)域。用戶也可以通過沿著頁面越過若干行移動捕獲設(shè)備來指示文本的豎直范圍。捕獲期間的后向運動可以指示取消先前的捕獲操作。12. 1. 4在線/離線行為
系統(tǒng)的許多方面可能取決于諸如捕獲設(shè)備之類的系統(tǒng)部件與無線網(wǎng)絡(luò)之間的網(wǎng)絡(luò)連接性,或者到企業(yè)數(shù)據(jù)庫和因特網(wǎng)搜索的連接形式的與外部世界的網(wǎng)絡(luò)連接性。然而,該連接性可能不是一直存在,因而會存在系統(tǒng)的一部分或全部可能被認(rèn)為“離線”時的場合。在這些情況下,希望的是允許系統(tǒng)繼續(xù)有效地起作用。當(dāng)捕獲設(shè)備與系統(tǒng)的其他部分失去聯(lián)系時,捕獲設(shè)備可以用來捕獲文本。非常簡單的設(shè)備可能僅僅能夠存儲與捕獲關(guān)聯(lián),理想地與指示其何時被捕獲的時間戳關(guān)聯(lián)的圖像或音頻數(shù)據(jù)。各個不同的捕獲可以在捕獲設(shè)備接下來與系統(tǒng)接觸時上傳到系統(tǒng)的其余部分并且然后進行處理。捕獲設(shè)備也可以上傳與捕獲關(guān)聯(lián)的其他數(shù)據(jù),例如話音注釋或位置信肩、ο更復(fù)雜的設(shè)備可能能夠本身執(zhí)行一些或所有系統(tǒng)操作,而不管其被斷開。第15. 3 節(jié)討論了用于提高它們這樣做的能力的各種不同的技術(shù)。通常,情況將會是一些而不是所有希望的動作可以在離線的同時執(zhí)行。例如,可以識別文本,但是來源的標(biāo)識可能取決于到基于因特網(wǎng)的搜索引擎的連接。因此,在一些實例中,設(shè)備存儲充分的關(guān)于每個操作進展多遠的信息以便在連接恢復(fù)時系統(tǒng)的其余部分有效地繼續(xù)。系統(tǒng)的操作通常將受益于立即可用的連接,但是存在其中執(zhí)行若干捕獲并且然后執(zhí)行它們作為批處理可能具有優(yōu)勢的一些情形。例如,如下面的第13節(jié)中所討論的,特定捕獲的來源的標(biāo)識可以通過檢查用戶在近似相同的時間做出的其他捕獲而大大地增強。在其中向用戶提供實時反饋的系統(tǒng)中,系統(tǒng)在處理當(dāng)前的捕獲時僅僅能夠使用過去的捕獲。 然而,如果捕獲是設(shè)備離線時存儲的批處理之一,那么系統(tǒng)在進行其分析時將能夠考慮可從后來的捕獲以及早先的捕獲獲得的任何數(shù)據(jù)。12. 2在主機設(shè)備上
捕獲設(shè)備可以與諸如PC之類的某個其他設(shè)備通信以便執(zhí)行系統(tǒng)的許多功能,包括與用戶的更詳細的交互。12. 2. 1響應(yīng)于捕獲而執(zhí)行的活動
當(dāng)主機設(shè)備接收捕獲時,它可以發(fā)起各種各樣的活動。系統(tǒng)在定位與捕獲關(guān)聯(lián)的電子副本文檔和該文檔內(nèi)的位置之后執(zhí)行的可能的活動的不完整列表如下?!た梢詫⒉东@的細節(jié)存儲到用戶的歷史中。(第6.1節(jié)) 可以從本地存儲裝置或遠程位置獲取文檔。(第8節(jié))
可以更新與文檔關(guān)聯(lián)的操作系統(tǒng)元數(shù)據(jù)和其他記錄。(第11. 1節(jié)) 可以檢查與文檔關(guān)聯(lián)的標(biāo)記以便確定接下來的相關(guān)操作。(第5節(jié)) 可以啟動軟件應(yīng)用以編輯、查看或者以其他方式對文檔操作。應(yīng)用的選擇可以取決于源文檔或者取決于捕獲的內(nèi)容或者取決于捕獲的其他方面。(第U. 2. 2,11. 2. 3節(jié)) 應(yīng)用可以滾動到、加亮、移動插入點到或者以其他方式指示捕獲的位置。(第11. 3節(jié)) 可以修改捕獲的文本的精確界限,以便例如選擇捕獲的文本周圍的全部詞、句子或段落。(第11. 3. 2節(jié))
可以給予用戶將捕獲文本拷貝到剪貼板或者對其執(zhí)行其他標(biāo)準(zhǔn)操作系統(tǒng)或?qū)S貌僮鞯倪x項。
可以將注釋與文檔或捕獲的文本關(guān)聯(lián)。這些注釋可以來自即時用戶輸入,或者例如在與捕獲的圖像關(guān)聯(lián)的話音注釋的情況下可以在早期被捕獲。(第19. 4節(jié)) 可以檢查標(biāo)記以便確定供用戶選擇的一組另外的可能的操作。12. 2. 2上下文彈出菜單
有時系統(tǒng)采取的適當(dāng)動作將是明顯的,但是有時它將要求用戶做出選擇。這樣做的一種良好的方式是通過使用靠近捕獲設(shè)備的顯示器上的內(nèi)容出現(xiàn)的“彈出菜單”或者所謂的 “上下文菜單”。(參見第11. 3.3節(jié))。在一些實例中,捕獲設(shè)備將彈出菜單投影到紙質(zhì)文檔上。用戶可以使用諸如鍵盤和鼠標(biāo)之類的傳統(tǒng)方法,或者通過使用捕獲設(shè)備上的控件(第 12. 1.2節(jié)),或者通過使用捕獲設(shè)備與計算機顯示器交互(第12. 2. 4節(jié))而從這樣的菜單中進行選擇。在一些實例中,可以作為捕獲的結(jié)果出現(xiàn)的彈出菜單包括缺省項,這些缺省項代表在用戶不響應(yīng)的情況下——例如,在用戶忽略菜單并且做出另一捕獲的情況下出現(xiàn)的動作。12. 2. 3消除歧義的反饋
當(dāng)用戶開始捕獲文本時,起初將存在它可以匹配的若干文檔或其他文本位置。隨著更多的文本被捕獲,并且考慮了其他因素(第13節(jié)),候選位置的數(shù)量將減少,直到實際的位置被標(biāo)識,進一步的消除歧義在沒有用戶輸入的情況下不可能。在一些實例中,系統(tǒng)例如以列表、縮略像或文本段形式提供找到的文檔或位置的實時顯示,并且對于該顯示中的元素數(shù)量,隨著捕獲的繼續(xù)而減少數(shù)量。在一些實例中,系統(tǒng)顯示所有候選文檔的縮略圖,其中縮略圖的大小或位置取決于它為正確的匹配的概率。當(dāng)明確地標(biāo)識捕獲時,可以例如使用音頻反饋向用戶強調(diào)這個事實。有時,捕獲的文本將出現(xiàn)在許多文檔中并且將被識別為引文。系統(tǒng)可以例如通過將包含引用的參考文獻的文檔分組在原始源文檔周圍而在屏幕上表明這點。12. 2. 4從屏幕捕獲
一些捕獲設(shè)備可能能夠捕獲屏幕以及紙張上顯示的文本。因此,術(shù)語再現(xiàn)的文檔在這里用來指示印刷到紙張上不是再現(xiàn)的唯一形式,并且供系統(tǒng)使用的文本或符號的捕獲在該文本顯示在電子顯示器上時同樣可以是有價值的。出于各種各樣的其他原因,所描述的系統(tǒng)的用戶可能需要與計算機屏幕交互,以便從選項列表中進行選擇。其他的章節(jié)描述了作為輸入方法的捕獲設(shè)備上的物理控件(第 12. 1. 2節(jié))或姿態(tài)(第12. 1. 3節(jié)),其可能甚至在捕獲信息時是方便的,形成與可替換輸入方法關(guān)聯(lián)的顯示設(shè)備,例如鍵盤或鼠標(biāo)。在一些實例中,捕獲設(shè)備可以在無需處理捕獲的文本的情況下、可能地通過計算機上的專用硬件或軟件感測它在屏幕上的位置。13.上下文解釋
所描述的系統(tǒng)的一個重要方面是除了文本串的簡單捕獲之外使用其他的因素以便幫助標(biāo)識使用的文檔。適度文本量的捕獲經(jīng)??梢晕ㄒ坏貥?biāo)識文檔,但是在許多情形下,它將標(biāo)識一些候選文檔。一種解決方案是提示用戶確認(rèn)捕獲的信息的來源,但是一個優(yōu)選的可替換方案是利用其他因素以自動地縮小可能性。這樣的補充信息可以急劇地減少需要捕獲的文本量和/或增大可以標(biāo)識電子副本中的位置的可靠性和速度。該額外的材料稱為“上下文”,并且它在第4. 2. 2節(jié)中進行了簡要的討論。我們現(xiàn)在更深入地考慮它。13. 1系統(tǒng)和捕獲上下文
也許,這種信息的最重要的實例是用戶的捕獲歷史。非常可能的是,任何給定的捕獲來自與先前的捕獲相同的文檔,或者來自關(guān)聯(lián)的文檔,在先前的捕獲發(fā)生在最近幾分鐘內(nèi)的情況下,尤其如此(第6. 1.2節(jié))。相反地,如果系統(tǒng)檢測到字體在兩個捕獲之間發(fā)生變化,那么更加可能的是它們來自不同的文檔。同樣有用的是用戶的較長期捕獲歷史和閱讀習(xí)慣。這些也可以用來開發(fā)用戶的興趣和關(guān)聯(lián)模型。13. 2用戶的真實世界上下文
有用的上下文的另一個實例是用戶的地理位置。例如,巴黎的用戶閱讀世界報比閱讀西雅圖時報更加可能得多。因此,文檔的印刷版本的時機、規(guī)模和地理分布可能是重要的, 并且可以在一定程度上從系統(tǒng)的操作中推斷出來。例如在上班的路上總是閱讀一種類型的出版物并且在午餐時間或者在回家的火車上閱讀不同類型的出版物的用戶的情況下,日時也可能是有意義的。13. 3相關(guān)的數(shù)字上下文
用戶最近對于電子文檔,包括通過更常規(guī)的手段搜索或獲取的那些文檔的使用也可以是有幫助的指示符。在一些情況下,例如在企業(yè)網(wǎng)絡(luò)上,可以有效地考慮其他的因素 最近打印了哪些文檔?
企業(yè)文件服務(wù)器上最近修改了哪些文檔? 最近通過電子郵件發(fā)送了哪些文檔?
所有這些實例或許暗示用戶更可能正在閱讀這些文檔的紙質(zhì)版本。與之形成對照的是,如果文檔駐留的倉庫可以肯定文檔從來未被打印或者發(fā)送到它可能被打印的任何地方,那么可以在來源于紙張的任何搜索中安全地消除該文檔。13. 4其他統(tǒng)計資料——全局上下文
第14節(jié)涵蓋了由基于紙張的搜索而得到的數(shù)據(jù)流分析,但是應(yīng)當(dāng)指出的是,在這里, 關(guān)于文檔在其他讀者中的流行性、關(guān)于該流行性的時機以及關(guān)于最頻繁地捕獲的文檔部分的統(tǒng)計資料都是可能在搜索過程中有益的另外的因素的實例。系統(tǒng)將谷歌式網(wǎng)頁排名的可能性帶到紙張世界。對于上下文用于搜索引擎的某些其他含義,也參見第4. 2. 2節(jié)。14.數(shù)據(jù)流分析
系統(tǒng)的使用作為副作用生成極其有價值的數(shù)據(jù)流。該流是用戶正在閱讀什么以及何時閱讀的記錄,并且在許多情況下是他們在他們閱讀的東西中發(fā)現(xiàn)什么特別有價值的記錄。 這樣的數(shù)據(jù)之前對于紙質(zhì)文檔從來未真正可用。第6. 1節(jié)中描述了其中該數(shù)據(jù)可能對于系統(tǒng)以及對于系統(tǒng)的用戶有用的一些方式。本節(jié)集中于其用于其他方面。當(dāng)然,對于關(guān)于人們正在閱讀什么的數(shù)據(jù)的任何分發(fā)存在大量的隱私問題,但是諸如保留數(shù)據(jù)的匿名之類的問題對于本領(lǐng)域技術(shù)人員是公知的。14. 1文檔跟蹤
當(dāng)系統(tǒng)知道任何給定用戶正在閱讀哪些文檔時,它也可以推斷誰正在閱讀任何給定文檔。這允許通過組織跟蹤文檔,允許分析例如誰正在閱讀它以及何時正在閱讀、它有多廣泛地分布、該分布花費多長時間以及誰在他人仍然使用過時的拷貝的時候已經(jīng)看見當(dāng)前的版本。對于具有廣泛分布的出版的文檔而言,跟蹤各個拷貝更加困難,但是分析讀者人數(shù)分布仍然是可能的。14. 2閱讀排名——文檔和子區(qū)的流行件
在其中用戶捕獲他們特別感興趣的文本或其他數(shù)據(jù)的情形中,系統(tǒng)可以推斷特定文檔以及那些文檔的特定子區(qū)的流行性。這形成到系統(tǒng)本身的有價值的輸入(第4. 2. 2節(jié))以及用于作者、出版者和廣告者的重要信息源(第7. 6節(jié)、第10. 5節(jié))。該數(shù)據(jù)在集成到搜索引擎和搜索索引中時也是有用的,例如以便幫助對來自再現(xiàn)的文檔的查詢的搜索結(jié)果進行排名,和/或幫助對鍵入網(wǎng)絡(luò)瀏覽器中的常規(guī)查詢進行排名。14. 3用戶分析——津立簡檔
用戶正在閱讀什么的知識使得系統(tǒng)能夠創(chuàng)建用戶的興趣和活動的相當(dāng)詳細的模型。這在抽象統(tǒng)計的基礎(chǔ)上可能是有用的——“購買該報紙的用戶的35%也閱讀該作者的最近圖書”——但是如下面所討論的,它也可以允許與個別用戶的其他交互。14. 3. 1社交網(wǎng)絡(luò)
一個實例是將一個用戶與具有相關(guān)興趣的其他人連接。這些人可以是該用戶已經(jīng)熟悉的人。系統(tǒng)可以詢問大學(xué)教授,“您知道您在MZ大學(xué)的同事也剛剛閱讀了這篇論文嗎?” 系統(tǒng)可以詢問用戶,“您想要與您的鄰居中也在閱讀《簡愛》的其他人聯(lián)系嗎? ”這樣的聯(lián)系可以是實體世界或在線的圖書俱樂部和類似社會結(jié)構(gòu)的自動形成的基礎(chǔ)。14. 3. 2
第10. 6節(jié)已經(jīng)提到了基于用戶與系統(tǒng)的交互向個別用戶提供產(chǎn)品和服務(wù)的思想。當(dāng)前的網(wǎng)上書商例如經(jīng)?;谟脩粝惹芭c書商的交互而向用戶做出推薦。這樣的推薦在它們基于與實際圖書的交互時變得有用得多。14. 4基于數(shù)據(jù)流其他方面的營銷
我們已經(jīng)討論了這樣的一些方式,其中系統(tǒng)可以影響出版文檔的那些方式、通過它們廣告的那些方式以及從紙張發(fā)起的其他銷售(第10節(jié))。一些商業(yè)活動可能與紙質(zhì)文檔根本沒有直接的交互,然而可能受它們影響。例如,一個社區(qū)中的人們在報紙的體育運動部分方面比在金融部分方面花費更多的時間的知識可能是成立健康俱樂部的某個人所感興趣的。14. 5可以被捕獲的數(shù)據(jù)類型
除了討論的統(tǒng)計資料(例如誰正在閱讀哪些文檔的哪些位以及何時和何處閱讀)之外, 可能有意義的是檢查被捕獲的文本的實際內(nèi)容,不管文檔是否被定位。在許多情形下,用戶也將不僅捕獲某個文本,而且作為結(jié)果將使得某個動作發(fā)生。 它可能是例如將對于文檔的引用通過電子郵件發(fā)送給熟人。甚至在不存在關(guān)于用戶的身份或者電子郵件的接收者的信息的情況下,某人認(rèn)為該文檔值得通過電子郵件發(fā)送的知識也是非常有用的。
除了針對推斷特定文檔或者一段文本的價值所討論的不同方法之外,在一些情況下,用戶將通過給其分配一個等級而明確表明該價值。最后,當(dāng)已知一組特定的用戶形成一個群組時,例如當(dāng)已知他們是特定公司的雇員時,該群組的匯總統(tǒng)計資料可以用來推斷特定文檔對于該群組的重要性。這適用于通過機器分類技術(shù)基于關(guān)于文檔、捕獲、用戶等等而標(biāo)識的群組,所述機器分類計數(shù)例如貝葉斯統(tǒng)計、聚類、k最近鄰(k-NN)、奇異值分解(SVD )等等。15.設(shè)備特征和功能
在一些實例中,捕獲設(shè)備可以與移動電話集成,其中電話硬件未被修改以便支持所述系統(tǒng),例如其中文本捕獲可以通過圖像捕獲而充分地完成并且由電話本身處理,或者由通過例如無線網(wǎng)絡(luò)連接或蜂窩連接而可被移動電話訪問的系統(tǒng)處理,或者存儲到電話的存儲器中以便未來處理。許多現(xiàn)代的電話具有下載適合于實現(xiàn)系統(tǒng)的某些部分的軟件的能力。 在一些實例中,嵌入到許多移動電話中的照相機用來捕獲文本的圖像。通常充當(dāng)照相機的測距儀的電話顯示器可以覆蓋在關(guān)于圖像質(zhì)量及其對于OCR的適用性、哪些文本段正被捕獲以及甚至在OCR可以在電話上執(zhí)行的情況下文本的轉(zhuǎn)寫的實時照相機圖像信息上。電話顯示器也可以提供接口,用戶可以通過該接口與捕獲的文本交互并且引起關(guān)聯(lián)的動作。類似地,話音數(shù)據(jù)可以由移動電話的麥克風(fēng)捕獲。然而,這樣的話音捕獲在許多情形下(例如在存在大量的背景噪聲時)很可能是次優(yōu)的,并且精確的話音識別在最佳的時候也是困難的任務(wù)。音頻裝置可以最好用來捕獲話音注釋。在一些實例中,修改電話以添加專用的捕獲裝置,或者在與電話通信的單獨的藍牙 連接外設(shè)或夾式適配器中提供這樣的功能。無論捕獲機制的性質(zhì)如何,系統(tǒng)與現(xiàn)代手機集成具有許多其他優(yōu)點。電話與更廣闊的世界連接,這意味著可以將查詢提交給遠程搜索引擎或者系統(tǒng)的其他部分,并且可以獲取文檔的拷貝以便立即存儲或查看。電話典型地具有足夠的處理能力以便本地地執(zhí)行系統(tǒng)的許多功能,以及足夠的存儲量以便捕獲合理的數(shù)據(jù)量。存儲量經(jīng)常也可以由用戶擴展。電話具有相當(dāng)好的顯示器和音頻裝置以便提供用戶反饋,并且經(jīng)常具有用于觸覺反饋的振動功能。它們也具有良好的電源。也許,明顯的是,許多預(yù)期的用戶已經(jīng)攜帶著移動電話。與系統(tǒng)一起使用的捕獲設(shè)備僅僅需要一種捕獲來自文檔的再現(xiàn)版本的文本的方式。如早先所描述的,該捕獲可以通過各種各樣的方法來實現(xiàn),這些方法包括對文檔的部分拍照或者將一些詞鍵入鍵區(qū)中。該捕獲可以使用具有圖像和音頻捕獲能力或者也記錄話音注釋的光學(xué)掃描儀來實現(xiàn)。15. 1輸入和輸出
第12. 1節(jié)描述了用于這種設(shè)備的許多可能有益的附加輸入和輸出裝置。它們包括按鈕、滾輪和用于輸入的觸摸板以及顯示器、指示燈、用于輸出的音頻和觸覺轉(zhuǎn)換器。有時,設(shè)備將合并這些裝置中的許多裝置,有時則合并非常少的裝置。有時,捕獲設(shè)備能夠例如使用無線鏈接與已經(jīng)具有它們的另一設(shè)備通信(第15. 6節(jié)),有時,捕獲功能將合并到這樣的其他設(shè)備中(第15.7節(jié))。15. 2 連接性
在一些實例中,設(shè)備實現(xiàn)系統(tǒng)本身的主要部分。然而,在一些實例中,它經(jīng)常使用通信裝置與PC或其他計算設(shè)備以及與更廣闊的世界通信。
這些通信裝置經(jīng)常處于通用數(shù)據(jù)網(wǎng)絡(luò)(例如以太網(wǎng)、802. 11或UWB)或者標(biāo)準(zhǔn)外設(shè)連接網(wǎng)絡(luò)(例如USB、IEEE-1394 (火線)、藍牙 或紅外)的形式。當(dāng)使用諸如火線或USB之類的有線連接時,設(shè)備可以通過相同的連接接收電力。在一些情況下,捕獲設(shè)備可能在連接的機器看來為諸如USB存儲設(shè)備之類的常規(guī)外設(shè)。最后,在一些情況下,設(shè)備可以與另一設(shè)備“對接”,或者與該設(shè)備一道使用或者用于方便的存儲。15. 3緩存和其他在線/離線功能
第3. 5節(jié)和第12. 1. 4節(jié)提出了斷開操作的話題。當(dāng)捕獲設(shè)備具有整個系統(tǒng)的功能的有限子集并且不與系統(tǒng)其他部分通信時,設(shè)備可能仍然是有用的,盡管可用的功能有時會減少。在最簡單的水平下,設(shè)備可以記錄被捕獲的原始圖像或音頻數(shù)據(jù)并且這可以在以后加以處理。然而,為了用戶的利益,可能重要的是在可能的情況下給出關(guān)于被捕獲的數(shù)據(jù)是否可能對于手邊的任務(wù)是足夠的、它是否能夠被識別或者很可能被識別以及數(shù)據(jù)源以后是否能夠被標(biāo)識或者很可能被標(biāo)識的反饋。然后,用戶將知道他們的捕獲活動是否值得。甚至在所有以上所述未知時,也仍然可以存儲原始數(shù)據(jù),使得至少用戶可以在以后引用它們。 例如,當(dāng)OCR過程不能識別捕獲時,可以向用戶呈現(xiàn)捕獲的圖像。為了說明可用的選項范圍中的一些選項,下面描述了最小限度的光學(xué)掃描設(shè)備以及然后是特征更全得多的光學(xué)掃描設(shè)備。許多設(shè)備占據(jù)這二者之間的中間地帶。15. 3. 1 SimpleScanner 一低端離線實例
SimpleScanner具有能夠在沿著文本行的長度移動時讀取來自頁面的像素的掃描頭。 它可以檢測其沿著頁面的運動并且記錄關(guān)于該運動的一些信息。它也具有時鐘,其允許對每次掃描加蓋時間戳。當(dāng)Simpl必carmer連接時,時鐘與主機設(shè)備同步。時鐘不可以代表實際的日時,但是可以從其確定相對的時間,使得主機可以推斷實際的掃描時間,或者在最壞的情況下推斷掃描之間經(jīng)過的時間。SimpleScanner本身沒有足夠的執(zhí)行任何OCR的處理能力,但是它的確具有關(guān)于典型的詞長度、詞間距及其與字體大小的關(guān)系的一些基本知識。它具有一些基本的指示燈, 這些指示燈告訴用戶掃描是否可能可讀取,掃描頭是否跨紙張移動得太快、太慢或者太不精確,以及何時它確定對于要標(biāo)識的文檔已經(jīng)掃描了足夠的給定大小的詞。SimpleScanner具有USB連接器并且可以插入到計算機上的USB端口,在該USB端口處將對其再充電。對于計算機而言,它看起來像是其上記錄了加蓋時間戳的數(shù)據(jù)文件并且系統(tǒng)軟件的其余部分從該點接管的USB存儲設(shè)備。15. 3. 2 SuperDevice 一高端離線實例
SuperDevice也取決于連接性以實現(xiàn)其完整的操作,但是它具有大量的板上存儲和處理,這可以幫助它在離線時對于捕獲的數(shù)據(jù)做出更好的判斷。當(dāng)SuperDevice通過例如處理由SuperDevice的照相機捕獲的文檔的圖像而捕獲文本時,捕獲的文本被傳遞給試圖識別該文本的OCR引擎。若干字體,包括來自用戶最多閱讀的出版物的那些字體,下載到設(shè)備以便幫助執(zhí)行該任務(wù),正如與用戶PC上的用戶拼寫檢查字典同步并且因而包含他們頻繁遇到的許多詞的字典。帶有其使用的典型頻率的詞和詞組的列表也存儲在SuperDevice上,這可以與字典組合。SuperDevice可以使用頻率統(tǒng)計資料以便幫助識別過程并且也告知其關(guān)于何時捕獲足夠的文本量的判斷;最頻繁使用的詞組不太可能可用作搜索查詢的基礎(chǔ)。此外,SuperDevice上存儲了用戶最常閱讀的報紙和期刊的最近期中的文章的完整索引,正如用戶最近從網(wǎng)上書商購買的或者最近幾個月用戶從其捕獲任何東西的圖書的索引。最后,存儲具有可用于系統(tǒng)的數(shù)據(jù)的數(shù)千最流行出版物的標(biāo)題,使得在不存在其他信息的情況下,用戶可以捕獲標(biāo)題并且具有關(guān)于以后是否可能以電子形式獲取來自特定作品的捕獲的好的主意。在捕獲過程期間,系統(tǒng)告知用戶捕獲的數(shù)據(jù)具有足夠的質(zhì)量和足夠的性質(zhì)以使得當(dāng)恢復(fù)連接時可以獲取捕獲的信息的電子拷貝成為可能。經(jīng)常,系統(tǒng)向用戶指示已知捕獲成功并且在板上索引之一中識別了上下文,或者已知有關(guān)的出版物使得其數(shù)據(jù)對于系統(tǒng)可用,從而以后的獲取應(yīng)當(dāng)是成功的。SuperDevice停靠在連接到PC的火線或USB端口的托架中,在該點處,除了上傳捕獲的數(shù)據(jù)之外,它的不同板上索引和其他數(shù)據(jù)庫基于最近的用戶活動和新的出版物而上傳。SuperDevice也具有連接到無線公共網(wǎng)絡(luò)、蜂窩網(wǎng)絡(luò)的裝置或者通過藍牙"^與移動電話通信并且因而在這樣的裝置可用時與公共網(wǎng)絡(luò)通信。在一些情況下,可以無線地更新板上索引和其他數(shù)據(jù)庫。該更新過程可以由用戶發(fā)起或者由系統(tǒng)自動地發(fā)起。15.4用于圖像捕獲的特征
我們現(xiàn)在考慮可能在捕獲設(shè)備中特別希望的一些特征。15. 4. 1靈活的定位和方便的光學(xué)器件
紙張持續(xù)流行的原因之一是其易于用在其中例如計算機將不實用或者不方便的各種各樣的情形中。預(yù)期捕獲用戶與紙張交互的相當(dāng)部分的設(shè)備因而應(yīng)當(dāng)類似地便于使用。對于過去的掃描儀而言,情況并非如此;甚至最小的手持式設(shè)備也有些笨重。設(shè)計成與頁面接觸的那些設(shè)備必須保持與紙張成精確的角度并且非常小心地沿著要掃描的文本的長度移動。這在辦公桌上掃描商業(yè)報告時是可接受的,但是在等待火車的時候掃描來自小說的詞組時則可能不實用。操作于離紙張一定距離處的基于照相機的捕獲設(shè)備可能類似地在許多情況下有用。系統(tǒng)的一些實例使用這樣的掃描儀,其與紙張接觸地掃描,并且其代替透鏡使用圖像導(dǎo)管光纖束將來自頁面的圖像傳輸?shù)焦鈱W(xué)傳感器設(shè)備。這樣的設(shè)備可以被定形為允許其保持在自然的位置;例如,在一些實例中,與頁面接觸的部分是楔形的,從而允許用戶的手以類似于使用熒光筆的運動在頁面上方更自然地移動。導(dǎo)管或者與紙張直接接觸,或者緊鄰紙張,并且可以具有可以保護圖像導(dǎo)管免受可能的損壞的可代替的透明尖端。如第 12. 2. 4節(jié)中已經(jīng)提到的,掃描儀可以用來從屏幕掃描以及從紙張掃描,并且尖端的材料可以被選擇成降低損壞這樣的顯示器的可能性。最后,設(shè)備的一些實例將在捕獲過程期間提供反饋給用戶,其將通過使用光、聲音或觸覺反饋指示何時用戶移動捕獲設(shè)備太快、太慢、太不均勻或者在捕獲行上漂移得太高或太低。15.5安全性、身份、認(rèn)證、個人化和計費
如第6節(jié)中所描述的,捕獲設(shè)備可以形成用于安全交易、購買和各種各樣的其他操作的標(biāo)識和授權(quán)的重要部分。因此,除了這種作用所需的電路和軟件之外,它可以合并可以使得其更安全的不同硬件特征,例如智能卡讀取器、RFID或者在其上鍵入PIN的鍵區(qū)。
它也可以包括幫助標(biāo)識用戶的各種不同的生物統(tǒng)計傳感器。在例如捕獲設(shè)備具有圖像捕獲能力的情況下,照相機也可能能夠讀取指紋。對于話音記錄器而言,可以使用用戶的話音模式。15. 6設(shè)備關(guān)聯(lián)
在一些實例中,捕獲設(shè)備能夠與其他附近設(shè)備形成關(guān)聯(lián)以便增加其自身或者它們的功能。在一些實例中,例如,它使用附近PC或電話的顯示器以給出關(guān)于其操作的補充反饋,或者使用它們的網(wǎng)絡(luò)連接性。另一方面,設(shè)備可以在其作為安全和標(biāo)識設(shè)備的角色中操作以認(rèn)證由其他設(shè)備執(zhí)行的操作?;蛘撸梢院唵蔚匦纬申P(guān)聯(lián)以便用作該設(shè)備的外設(shè)。這樣的關(guān)聯(lián)的一個有趣方面在于,它們可以使用設(shè)備的捕獲裝置來發(fā)起和認(rèn)證。 例如,希望向公共計算機終端安全地標(biāo)識自身的用戶可以使用設(shè)備的捕獲裝置以便捕獲終端屏幕的特定區(qū)域上顯示的代碼或符號并且因而實現(xiàn)關(guān)鍵的傳輸。類似過程可以使用話音記錄設(shè)備拾取的音頻信號執(zhí)行。15. 7與其他設(shè)備集成
在一些實例中,捕獲設(shè)備的功能集成到已在使用的某個其他設(shè)備中。集成的設(shè)備可能能夠共享電源、數(shù)據(jù)捕獲和存儲能力以及網(wǎng)絡(luò)接口。這樣的集成可以僅僅為了方便、降低成本或者啟用在別的情況下將不可用的功能而完成。可以將捕獲功能集成到其中的設(shè)備的一些實例包括
現(xiàn)有的外設(shè),例如鼠標(biāo)、鐵筆、USB “網(wǎng)絡(luò)攝像頭”照相機、藍牙 頭戴式耳機或者遙控器;
另一處理/存儲設(shè)備,例如PDA、MP3播放器、話音記錄器或者數(shù)碼相機; 其他經(jīng)常攜帶或者經(jīng)常配戴的物品,僅僅為了方便——手表、一件首飾、眼鏡、帽子、 筆、汽車鑰匙鏈;等等。第III部分一系統(tǒng)的示例應(yīng)用
本節(jié)列出系統(tǒng)的示例用途以及可以在其上構(gòu)建的應(yīng)用。該列表預(yù)期純粹是說明性的并且在任何意義上都不是詳盡無遺的。16.個人應(yīng)用 16.1生活圖書館
生活圖書館(第6. 1. 1節(jié))是訂戶希望保存的任何重要文檔的數(shù)字檔案館,并且是該系統(tǒng)的服務(wù)實例的集合。重要的圖書、雜志文章、報紙剪輯等等都可以以數(shù)字形式保存在生活圖書館中。此外,訂戶的注釋、評論和筆記可以與文檔一起保存。生活圖書館可以通過因特網(wǎng)和萬維網(wǎng)訪問。系統(tǒng)為訂戶創(chuàng)建和管理生活圖書館文檔檔案館。訂戶通過捕獲來自文檔的信息或者通過以其他方式向系統(tǒng)指示將該特定文檔添加到訂戶的生活圖書館而指示訂戶希望將哪些文檔保存在他的生活圖書館中。捕獲的信息典型地為來自文檔的文本,但是也可以是標(biāo)識文檔的條形碼或其他代碼。系統(tǒng)接受該代碼并且使用它來標(biāo)識源文檔。在標(biāo)識出文檔之后,系統(tǒng)可以將文檔的拷貝存儲到用戶的生活圖書館中或者存儲到其中可以獲得該文檔的來源的鏈接。生活圖書館系統(tǒng)的一個實例可以檢查是否授權(quán)訂戶獲得電子拷貝。例如,如果讀者捕獲來自紐約時報(NYT)的文章的拷貝的文本或標(biāo)識符,使得該文章將添加到讀者的生活圖書館,那么生活圖書館系統(tǒng)將與NYT驗證讀者是否訂閱了 NYT的在線版本;如果是,那么讀者讓文章的拷貝存儲到他的生活圖書館帳戶中;如果否,那么標(biāo)識文檔以及如何訂購它的信息存儲到他的生活圖書館帳戶中。在一些實例中,系統(tǒng)為每個訂戶維護包含訪問特權(quán)信息的訂戶簡檔。文檔訪問信息可以以若干方式編輯,其中兩種是1)訂戶將文檔訪問信息與他的帳戶名和口令等等一起提供給生活圖書館系統(tǒng);或者2)生活圖書館服務(wù)提供者向出版者查詢訂戶的信息,并且出版者在生活圖書館訂戶被授權(quán)訪問所述材料的情況下通過提供對于電子拷貝的訪問而做出響應(yīng)。如果生活圖書館訂戶未被授權(quán)擁有文檔的電子拷貝,那么出版者向生活圖書館服務(wù)提供者提供價格,該生活圖書館服務(wù)提供者然后向顧客提供購買電子文檔的選項。如果這樣,生活圖書館服務(wù)提供者直接付費給出版者并且以后向生活圖書館顧客開帳單,或者生活圖書館服務(wù)提供者立即針對該購買給顧客的信用卡開帳單。生活圖書館服務(wù)提供者將因為促進該交易而獲得購買價格的一定百分比或者小筆固定費用。系統(tǒng)可以在訂戶的個人圖書館和/或訂戶具有檔案特權(quán)的任何其他圖書館中為文檔存檔。例如,當(dāng)用戶捕獲來自印刷的文檔的文本時,生活圖書館系統(tǒng)可以標(biāo)識出再現(xiàn)的文檔及其電子副本。在標(biāo)識出源文檔之后,生活圖書館系統(tǒng)可以將關(guān)于源文檔的信息記錄到用戶的個人圖書館和訂戶具有檔案特權(quán)的群體圖書館中。群體圖書館是諸如文檔倉庫之類的協(xié)作檔案館,用于為某個項目一起工作的群體,學(xué)術(shù)研究人員群體,群網(wǎng)絡(luò)日志等等??梢砸栽S多方式組織生活圖書館按年代順序,按主題,按訂戶的興趣水平,按出版類型(報紙、圖書、雜志、技術(shù)論文等等)、何處閱讀、何時閱讀,按ISBN或者按杜威十進制等等。在一種可替換方案中,系統(tǒng)可以基于其他訂戶如何分類相同文檔而學(xué)習(xí)分類。系統(tǒng)可以向用戶建議分類或者自動地為用戶分類該文檔。在不同的實例中,可以直接將注釋插入到文檔中或者可以在單獨的文件中維護注釋。例如,當(dāng)訂戶捕獲來自報紙文章的文本時,對捕獲的文本加亮地將該文章存檔在他的生活圖書館中??商鎿Q地,將該文章與關(guān)聯(lián)的注釋文件一起存檔在他的生活圖書館中(從而保持存檔的文檔未被修改)。系統(tǒng)的實例可以在每個訂戶的圖書館中保持源文檔的拷貝、在許多訂戶可以訪問的主圖書館中保持拷貝,或者保持到出版者持有的拷貝的鏈接。在一些實例中,生活圖書館僅僅存儲用戶對文檔的修改(例如加亮等等)以及在文檔的在線版本(存儲在別處)的鏈接。系統(tǒng)或訂戶在訂戶隨后獲取文檔時將這些變化和文檔合并在一起。如果注釋保持在單獨的文件中,那么將源文檔和注釋文件提供給訂戶并且訂戶組合它們以創(chuàng)建修改的文檔??商鎿Q地,系統(tǒng)在將這兩個文件提供給訂戶之前組合這兩個文件。在另一個可替換方案中,注釋文件是文檔文件的覆蓋并且可以通過訂戶的計算機中的軟件覆蓋到文檔上。生活圖書館服務(wù)的訂戶按月付費以便讓系統(tǒng)維護訂戶的檔案館??商鎿Q地,訂戶為檔案館中存儲的每個文檔支付少量費用(例如小額支付)??商鎿Q地,訂戶按每次訪問費用支付以訪問訂戶的檔案館??商鎿Q地,訂戶可以編輯圖書館并且在與生活圖書館服務(wù)提供者和版權(quán)所有者的收入分成模型上允許他人訪問材料/注釋??商鎿Q地,生活圖書館服務(wù)提供者在生活圖書館訂戶訂購文檔時接收來自出版者的支付(與出版者的收入分成模型,其中生活圖書館服務(wù)提供者獲得出版者收入的分成)。
在一些實例中,生活圖書館服務(wù)提供者充當(dāng)訂戶和版權(quán)所有者(或者版權(quán)所有者的代理機構(gòu),例如版權(quán)結(jié)算中心,又稱CCC)之間的中介以便為版權(quán)材料促進開列帳單和支付。生活圖書館服務(wù)提供者使用訂戶的帳單信息和其他用戶帳戶信息以提供該中介服務(wù)。 基本上,生活圖書館服務(wù)提供者利用和訂戶的預(yù)先存在的關(guān)系以允許代表訂戶購買版權(quán)材料。在一些實例中,生活圖書館系統(tǒng)可以存儲來自文檔的摘錄。例如,當(dāng)訂戶捕獲來自紙質(zhì)文檔的文本時,捕獲的文本周圍的區(qū)域被摘錄并且置于生活圖書館中,而不是整個文檔存檔在生活圖書館中。這在文檔較長時是特別有利的,因為保留原始捕獲的情況防止了訂戶重新閱讀文檔以找出有趣的部分。當(dāng)然,可以與摘錄材料一起包括到紙質(zhì)文檔的整個電子副本的超級鏈接。在一些實例中,系統(tǒng)也將關(guān)于文檔的信息存儲到生活圖書館中,這些信息例如作者、出版物標(biāo)題、出版日期、出版者、版權(quán)所有者(或者版權(quán)所有者的授權(quán)代理機構(gòu))、ISBN、 到文檔的公共注釋的鏈接、閱讀排名等等。關(guān)于文檔的該附加信息中的一些是紙質(zhì)文檔元數(shù)據(jù)形式。第三方可以創(chuàng)建公共注釋文件以供不同于他們自己的人們(例如普通公眾)訪問。到第三方對于文檔的評論的鏈接是有利的,因為閱讀其他用戶的注釋文件增強了訂戶對于文檔的理解。在一些實例中,系統(tǒng)按類別對材料存檔。該特征允許生活圖書館訂戶快速地存儲整個類別的紙質(zhì)文檔的電子副本而不訪問每個紙質(zhì)文檔。例如,當(dāng)訂戶捕獲來自國家地理雜志的拷貝的某個文本時,系統(tǒng)向訂戶提供對《國家地理》的所有過期期刊存檔的選項。如果訂戶選擇存檔所有過期期刊,那么生活圖書館服務(wù)提供者將與國家地理學(xué)會一起驗證訂戶是否被授權(quán)這樣做。如果否,那么生活圖書館服務(wù)提供者可以居間促成購買存檔國家地理雜志集合的權(quán)利。16. 2生活保存器
生活圖書館概念的一種變型或增強是“生活保存器”,其中系統(tǒng)使用用戶捕獲的文本以推斷關(guān)于他們的其他活動的更多信息。來自特定餐館的菜單、來自特定戲劇表演的節(jié)目、特定火車站的時間表或者來自本地報紙的文章的捕獲允許系統(tǒng)對于用戶的位置和社會活動做出推斷,并且可以為他們構(gòu)造自動日記,例如作為網(wǎng)站。用戶將能夠編輯和修改日記、添加諸如照片之類的附加材料并且當(dāng)然再次看看捕獲的項目。17.學(xué)術(shù)應(yīng)用
所描述的系統(tǒng)支持的捕獲設(shè)備在學(xué)術(shù)環(huán)境中具有許多令人信服的用途。它們可以增強學(xué)生/老師交互并且擴充學(xué)習(xí)經(jīng)驗。除了其他用途之外,學(xué)生可以注釋適合其獨特需要的學(xué)習(xí)材料;老師可以監(jiān)控課堂表現(xiàn);并且老師可以自動地驗證學(xué)生作業(yè)中引用的源材料。17. 1兒童圖書
小孩與諸如圖書之類的紙質(zhì)文檔的交互由識字采集系統(tǒng)檢控,該識字采集系統(tǒng)采用該系統(tǒng)的一組特定實例。小孩使用與識字采集系統(tǒng)的其他元件通信的捕獲設(shè)備。除了捕獲設(shè)備之外,識字采集系統(tǒng)還包括顯示器和揚聲器以及可由捕獲設(shè)備訪問的數(shù)據(jù)庫。當(dāng)小孩看見圖書中的未知詞時,小孩利用捕獲設(shè)備捕獲它。在一個實例中,識字采集系統(tǒng)將捕獲的文本與其數(shù)據(jù)庫中的資源進行比較以便標(biāo)識該詞。數(shù)據(jù)庫包括字典、辭典和/或多媒體文件 (例如聲音、圖形等等)。在標(biāo)識詞之后,系統(tǒng)使用揚聲器向小孩讀出該詞的發(fā)音及其定義。在另一個實例中,詞及其定義由識字采集系統(tǒng)顯示在顯示器上。也可以通過顯示器和揚聲器播放關(guān)于捕獲的詞的多媒體文件。例如,如果閱讀“金發(fā)女孩與三只熊”的小孩捕獲了詞 “熊”,系統(tǒng)可以讀出詞“熊”的發(fā)音并且在顯示器上播放關(guān)于熊的短視頻。通過這種方式, 小孩學(xué)會念書面詞并且通過多媒體演示從視覺上被教導(dǎo)該詞的含義。識字采集系統(tǒng)提供即時的聽覺和/或視覺信息以增強學(xué)習(xí)過程。小孩使用該補充信息快速地獲得對于書面材料的更深理解。系統(tǒng)可以用來教導(dǎo)初學(xué)讀者閱讀、幫助兒童獲得更大的詞匯量等等。該系統(tǒng)向小孩提供關(guān)于小孩不熟悉的或者小孩欲知其更多信息的詞的信息。17. 2識字采集
在一些實例中,系統(tǒng)編輯個人字典。如果讀者看見新的、有趣的或者特別有用的或棘手的詞,讀者將它(與其定義一起)保存到計算機文件。該計算機文件變成讀者的個人化字典。該字典的大小通常比普通字典小,因而可以下載到移動站或關(guān)聯(lián)的設(shè)備,并且因而甚至在系統(tǒng)不能即時訪問時也可用。在一些實例中,個人字典條目包括幫助正確的詞發(fā)音的音頻文件以及標(biāo)識從其捕獲詞的紙質(zhì)文檔。在一些實例中,系統(tǒng)為學(xué)生創(chuàng)建定制的拼音和詞匯測驗。例如,當(dāng)學(xué)生閱讀作業(yè)時,學(xué)生可以利用捕獲設(shè)備捕獲不熟悉的詞。系統(tǒng)存儲學(xué)生捕獲的所有詞的列表。稍后,系統(tǒng)在關(guān)聯(lián)的監(jiān)視器上管理給學(xué)生的定制的拼音/詞匯測驗(或者將這樣的測驗打印在關(guān)聯(lián)的打印機上)。17. 3咅樂教學(xué)
將音符排列在音樂五線譜上類似于將字母排列在一行文本上。捕獲設(shè)備可以用來捕獲音樂符號,并且對已知音樂作品數(shù)據(jù)庫構(gòu)造搜索的類似過程允許標(biāo)識發(fā)生捕獲的作品,其然后可以被獲取、播放或者可以是某個進一步的動作的基礎(chǔ)。17. 4檢測剽竊
老師可以使用系統(tǒng)以便通過捕獲來自學(xué)生論文的文本并且將捕獲的文本提交給系統(tǒng)來檢測剽竊或者驗證來源。例如,希望驗證學(xué)生論文中的引文來自學(xué)生引用的來源的老師可以捕獲引文的一部分并且將系統(tǒng)標(biāo)識的文檔的標(biāo)題與學(xué)生引用的文檔的標(biāo)題進行比較。 同樣地,系統(tǒng)可以使用來自作為學(xué)生原創(chuàng)工作而提交的作業(yè)的文本的捕獲以便揭示該文本是否反而是拷貝的。17. 5增強的教科書
在一些實例中,捕獲來自學(xué)術(shù)教科書的文本將學(xué)生或教師與更詳細的解釋、進一步的練習(xí)、學(xué)生和教師對于材料的討論、有關(guān)的過去考題實例、關(guān)于主題的進一步讀物、關(guān)于主題的講座記錄等等相聯(lián)系(也參見第7. 1節(jié))。17. 6語言學(xué)習(xí)
在一些實例中,系統(tǒng)用來教授外語。捕獲例如西班牙語詞可以使得該詞與其定義用英語朗讀一起用西班牙語朗讀。系統(tǒng)提供即時聽覺和/或視覺信息以便增強新語言習(xí)得過程。讀者使用該補充信息快速地獲得對于材料的更深入理解。系統(tǒng)可以用來教導(dǎo)初學(xué)讀者閱讀外語、幫助學(xué)生獲得更大的詞匯量等等。系統(tǒng)提供關(guān)于讀者不熟悉的或者讀者欲知其更多信息的外語詞的信息。當(dāng)捕獲一門語言的文本時,捕獲設(shè)備可以以用戶更熟悉的另一門語言顯示該捕獲的文本。作為另一個實例,捕獲設(shè)備可以顯示捕獲的文本,如同它出現(xiàn)在文檔中一樣,但是允許用戶通過在捕獲設(shè)備的觸摸屏上點選詞而例如選擇性地翻譯和顯示用戶不熟悉或未知的特定詞。翻譯可以由捕獲設(shè)備執(zhí)行或者發(fā)送到用于翻譯的另一系統(tǒng)。讀者與諸如報紙或圖書之類的紙質(zhì)文檔的交互由語言技能系統(tǒng)監(jiān)控。讀者具有與語言技能系統(tǒng)通信的捕獲設(shè)備。在一些實例中,語言技能系統(tǒng)包括顯示器和揚聲器以及可由捕獲設(shè)備訪問的數(shù)據(jù)庫。當(dāng)讀者看見文章中的未知詞時,讀者利用捕獲設(shè)備捕獲它。數(shù)據(jù)庫包括外語字典、辭典和/或多媒體文件(例如聲音、圖形等等)。在一個實例中,系統(tǒng)將捕獲的文本與其數(shù)據(jù)庫中的資源進行比較以便標(biāo)識捕獲的詞。在標(biāo)識詞之后,系統(tǒng)使用揚聲器向讀者讀出該詞的發(fā)音及其定義。在一些實例中,詞及其定義均顯示在顯示器上。也可以通過顯示器和揚聲器播放與捕獲的詞有關(guān)的關(guān)于語法技巧的多媒體文件。例如,如果捕獲了詞“說話”,系統(tǒng)可以讀出詞“hablar”的發(fā)音,播放演示正確西班牙語發(fā)音的短音頻剪輯,并且顯示“hablar”的各種便體的完整列表。通過這種方式,學(xué)生學(xué)會書面詞的發(fā)音, 通過多媒體演示從視覺上被教導(dǎo)該詞的拼音,并且學(xué)會如何列出動詞的變化形式。系統(tǒng)也可以與常見詞組一起給出關(guān)于“hablar”的正確用法的語法技巧。在一些實例中,用戶捕獲來自與用戶本族語(或者用戶知道得相當(dāng)不錯的某種其他語言)不同的語言的再現(xiàn)文檔的詞或短詞組。在一些實例中,系統(tǒng)維護用戶“偏好的”語言的優(yōu)先列表。系統(tǒng)標(biāo)識再現(xiàn)的文檔的電子副本,并且確定該文檔內(nèi)的捕獲位置。系統(tǒng)也標(biāo)識翻譯成用戶偏好的語言之一的文檔的第二電子副本,并且確定與原始文檔中的捕獲位置相應(yīng)的翻譯文檔中的位置。當(dāng)未精確知道相應(yīng)的位置時,系統(tǒng)標(biāo)識包含捕獲的位置的相應(yīng)位置的小區(qū)域(例如段落)。然后,將相應(yīng)的翻譯位置呈現(xiàn)給用戶。這向用戶提供捕獲位置處的特定用法的精確翻譯,所述特定用法包括經(jīng)常難于在逐字基礎(chǔ)上精確翻譯的任何俚語或其他習(xí)慣用法。17. 7收集研究材料
研究特定主題的用戶可能遇到印刷的和屏幕上的各種材料,他們可能希望在某個個人檔案中將所述材料記錄為與主題相關(guān)。作為捕獲任何材料片段中的短詞組的結(jié)果,系統(tǒng)將使得該過程能夠是自動的,并且也可以創(chuàng)建適合于插入到主題出版物中的參考書目。18.商業(yè)應(yīng)用
顯然,商業(yè)活動可以由本文中討論的幾乎任何過程構(gòu)成,但是在這里我們集中于一些明顯的收益流。18. 1 基于費用的收縮和索引
常規(guī)的因特網(wǎng)搜索引擎典型地提供電子文檔的免費搜索,并且也不因?qū)⑵鋬?nèi)容包含在索引中而向內(nèi)容提供者收費。在一些實例中,系統(tǒng)在系統(tǒng)的操作和使用方面提供向用戶收費和/或付費給搜索引擎和/或內(nèi)容提供者。在一些實例中,系統(tǒng)服務(wù)的訂戶為來源于紙質(zhì)文檔的捕獲的搜索付費。例如,股票經(jīng)紀(jì)人可能正在閱讀關(guān)于X公司提供的新產(chǎn)品的華爾街日報的文章。通過從紙質(zhì)文檔捕獲 X公司名稱并且同意支付必要的費用,股票經(jīng)紀(jì)人使用所述系統(tǒng)搜索特殊的或?qū)S械臄?shù)據(jù)庫以獲得關(guān)于該公司的溢價信息,例如分析師報告。系統(tǒng)也可以作出安排以便例如通過確保特定日期出版的所有報紙被索引并且在它們上市時可用而讓很可能以紙張形式閱讀的文檔優(yōu)先索引。
內(nèi)容提供者可以支付與從紙質(zhì)文檔提交的搜索查詢中的特定項關(guān)聯(lián)的費用。例如,在一個實例中,系統(tǒng)基于關(guān)于提供者的附加上下文(在這種情況下,上下文是內(nèi)容提供者支付了前移結(jié)果列表的費用)選擇最優(yōu)選的內(nèi)容提供者。實際上,搜索提供者基于預(yù)先存在的與內(nèi)容提供者的財務(wù)安排而調(diào)節(jié)紙質(zhì)文檔搜索結(jié)果。也參見第5. 2節(jié)中的關(guān)鍵字和關(guān)鍵詞組的描述。在訪問特定內(nèi)容限于特定人群(例如客戶或雇員)的情況下,這樣的內(nèi)容可以受防火墻保護并且因而通常不可被第三方索引。然而,內(nèi)容提供者可能希望提供對受保護內(nèi)容的索引。在這種情況下,內(nèi)容提供者可以向服務(wù)提供者付費以便向系統(tǒng)訂戶提供內(nèi)容提供者的索引。例如,法律事務(wù)所可以索引所有的客戶文檔。這些文檔存儲在法律事務(wù)所的防火墻之后。然而,法律事務(wù)所想要它的雇員和客戶有權(quán)通過捕獲設(shè)備訪問文檔,因而它提供服務(wù)提供者的索引(或者索引的指針),服務(wù)提供者反過來在法律事務(wù)所的雇員或客戶提交捕獲設(shè)備捕獲的搜索項時搜索法律事務(wù)所的索引。法律事務(wù)所可以將雇員和/或客戶列表提供給服務(wù)提供者的系統(tǒng)以便允許該功能或系統(tǒng)可以通過在搜索法律事務(wù)所的索引之前查詢法律事務(wù)所而驗證訪問權(quán)限。注意,在前面的實例中,法律事務(wù)所提供的索引僅僅是客戶的文檔的索引,而不是法律事務(wù)所的所有文檔的索引。因此,服務(wù)提供者只能授予法律事務(wù)所的客戶訪問法律事務(wù)所為該客戶索引的文檔的權(quán)限。存在至少兩個單獨的可以由來源于紙質(zhì)文檔的搜索而引起的收益流一個收益流來自搜索功能,并且另一個收益流來自內(nèi)容交付功能。搜索功能收益可以由來自用戶的付費訂閱生成,但是也可以按每搜索收費生成。內(nèi)容交付收益可以與內(nèi)容提供者或版權(quán)所有者分成(服務(wù)提供者可以得到銷售的一定百分比或者固定費用,例如每次交互的小額支付),但是也可以由“轉(zhuǎn)診”模型生成,在該模型中,系統(tǒng)針對訂戶從在線目錄訂購的且系統(tǒng)已經(jīng)交付或貢獻的每個項目獲得一定費用或百分比,而不管服務(wù)提供者是否居間促成該交易。在一些實例中,系統(tǒng)服務(wù)提供者在某個預(yù)定時間段內(nèi)或者在做出對標(biāo)識的產(chǎn)品的購買時的任何后續(xù)時間,從內(nèi)容提供者接收訂戶做出的所有購買的收益。18. 2 目錄
吸收者可以使用捕獲設(shè)備根據(jù)論文目錄進行購買。訂戶從目錄捕獲標(biāo)識該目錄的信息。該信息是來自目錄的文本、條形碼或者目錄的另一標(biāo)識符。訂戶捕獲標(biāo)識他/她希望購買的產(chǎn)品的信息。目錄郵寄標(biāo)簽可以包含標(biāo)識目錄供應(yīng)商的顧客的顧客識別號碼。如果這樣,那么訂戶也可以捕獲該顧客識別號碼。系統(tǒng)充當(dāng)訂戶與供應(yīng)商之間的中介以便通過將顧客的選擇和顧客識別號碼提供給供應(yīng)商而促進目錄購買。18. 3 優(yōu)惠券
吸收者捕獲紙質(zhì)優(yōu)惠券并且將優(yōu)惠券的電子拷貝保存在捕獲設(shè)備中或者保存在諸如計算機之類的遠程設(shè)備中以供以后獲取和使用。電子存儲的一個優(yōu)點在于,吸收者沒有攜帶紙質(zhì)優(yōu)惠券的負擔(dān)。另一優(yōu)點在于,電子優(yōu)惠券可以從任何位置獲取。在一些實例中,系統(tǒng)可以跟蹤優(yōu)惠券到期日期,提醒吸收者有關(guān)很快將到期的優(yōu)惠券和/或從存儲裝置中刪除到期的優(yōu)惠券。對于優(yōu)惠券發(fā)行者的一個優(yōu)點在于接收更多關(guān)于誰正在使用優(yōu)惠券以及何時和何處捕獲和使用優(yōu)惠券的反饋的可能性。18. 3廣告門戶
廣告門戶可以允許廣告者創(chuàng)建和管理與各種不同廣告關(guān)聯(lián)的標(biāo)記層。在一個實例中,廣告門戶可以提供網(wǎng)絡(luò)接口,廣告者通過該網(wǎng)絡(luò)接口可以登記一個或多個廣告活動和關(guān)聯(lián)的信息,例如名稱、與活動關(guān)聯(lián)的標(biāo)記信息、關(guān)于應(yīng)當(dāng)何時顯示活動中的廣告以及應(yīng)當(dāng)向誰顯示廣告的信息、關(guān)于廣告的產(chǎn)品或服務(wù)的信息和/或與廣告活動關(guān)聯(lián)的廣告的產(chǎn)品、標(biāo)簽、關(guān)鍵字和/或關(guān)鍵詞組、與廣告關(guān)聯(lián)的文本或其他媒體等等。廣告門戶也可以提供這樣的接口,廣告者通過該接口可以指示應(yīng)當(dāng)出現(xiàn)在關(guān)聯(lián)的標(biāo)記層中的控件。例如,當(dāng)廣告被捕獲且顯示在捕獲設(shè)備上時,廣告者可以指示應(yīng)當(dāng)與控制覆蓋一起顯示的廣告文本內(nèi)的特定詞組或詞和/或廣告圖像內(nèi)的特定區(qū)域。在一些實例中,廣告門戶也可以允許廣告者提供實現(xiàn)規(guī)范,該規(guī)范可以包括一個或多個優(yōu)選的供應(yīng)商和/或“如何購買”過程。廣告門戶也可以提供這樣的接口,廣告者通過該接口可以控制顧客體驗的各方面,包括是否和/或何時提供特別優(yōu)惠,不同類型的媒體,切合特定用戶的興趣、需要、地理位置、口語的標(biāo)記層等等。例如,廣告門戶可以提供廣告的從廣告語言到捕獲廣告的捕獲設(shè)備的用戶偏好的語言的翻譯。在一些實例中,廣告門戶可以提供可以由吸收者利用的服務(wù)。例如,廣告門戶可以允許吸收者或者其他第三方發(fā)布與廣告交互層、供應(yīng)商、廣告者、產(chǎn)品、服務(wù)等等有關(guān)的評論和/或批評。在其他實例中,廣告門戶可以使得用戶能夠發(fā)布與再現(xiàn)的或印刷的廣告(包括鏈接、圖像、交叉引用等等)有關(guān)的批評。19. 一般應(yīng)用 19. 1表單
系統(tǒng)可以用來自動填充與紙張表單相應(yīng)的電子文檔。用戶捕獲唯一地標(biāo)識紙張表單的某個文本或條形碼。捕獲設(shè)備將該表單的身份和標(biāo)識用戶的信息傳送給附近的計算機。附近的計算機具有因特網(wǎng)連接。附近的計算機可以訪問表單的第一數(shù)據(jù)庫以及具有關(guān)于捕獲設(shè)備的用戶的信息的第二數(shù)據(jù)庫(例如服務(wù)提供者的訂戶信息數(shù)據(jù)庫)。附近的計算機訪問來自第一數(shù)據(jù)庫的紙張表單的電子版本并且根據(jù)從第二數(shù)據(jù)庫獲得的用戶信息自動填充表單的字段。附近的計算機然后將完成的表單通過電子郵件發(fā)送給預(yù)期的接收者??商鎿Q地,該計算機可以在附近的計算機上打印完成的表單。代替訪問外部數(shù)據(jù)庫,在一些實例中,系統(tǒng)具有例如在身份模塊、SIM或安全卡中包含用戶的信息的捕獲設(shè)備。捕獲設(shè)備將標(biāo)識表單的信息提供給附近的PC。附近的PC訪問電子表單并且向捕獲設(shè)備查詢?nèi)魏伪匾男畔⒁蕴顚懕韱巍?9. 2 名片
系統(tǒng)可以用來自動地填充電子地址簿或者來自紙質(zhì)文檔的其他聯(lián)系人列表。例如,當(dāng)接收到新熟人的名片時,用戶可以利用他/她的手機捕獲名片的圖像。系統(tǒng)將定位名片的電子拷貝,其可以用來利用新熟人的聯(lián)系信息更新手機的板上地址簿。電子拷貝可以包含比可能擠壓到名片上的信息更多的關(guān)于新熟人的信息。此外,板上地址簿也可以存儲到電子拷貝的鏈接,使得電子拷貝的任何變化將在手機地址簿中自動地更新。在該實例中,名片可選地包括指示電子拷貝的存在性的符號或文本。如果沒有電子拷貝存在,那么手機可以使用OCR和標(biāo)準(zhǔn)名片格式的知識填寫地址簿中的針對新熟人的條目。符號也可以幫助直接從圖像提取信息的過程。例如,可以識別名片上緊鄰電話號碼的電話圖標(biāo)以便確定電話號碼的位置。19. 3校對/編輯
系統(tǒng)可以增強校對和編輯過程。系統(tǒng)可以增強編輯過程的一種方式是將編者與紙質(zhì)文檔的交互鏈接到其電子副本。當(dāng)編者閱讀紙質(zhì)文檔并且捕獲文檔的不同部分時,系統(tǒng)將對紙質(zhì)文檔的電子副本做出適當(dāng)?shù)淖⑨尰蚓庉?。例如,如果編者捕獲了一部分文本并且利用捕獲設(shè)備做出“新段落”控制姿態(tài),那么與捕獲設(shè)備通信的計算機將在文檔的電子拷貝中捕獲的文本的位置處插入“新段落”換段符。19. 4話咅灃釋
用戶可以通過捕獲來自文檔的一部分文本并且然后做出與該捕獲的文本關(guān)聯(lián)的話音記錄而對文檔做出話音注釋。在一些實例中,捕獲設(shè)備具有記錄用戶對口頭注釋的麥克風(fēng)。 在記錄了口頭注釋之后,系統(tǒng)標(biāo)識從其捕獲文本的文檔、在文檔內(nèi)定位捕獲的文本并且在該點處附上話音注釋。在一些實例中,系統(tǒng)將語音轉(zhuǎn)換成文本并且附上作為文字評論的注釋。在一些實例中,系統(tǒng)僅僅利用與文檔一起的對于注釋的引用保持注釋與文檔分開。于是注釋變成用于特定訂戶或用戶群的文檔的注釋標(biāo)記層。在一些實例中,對于每個捕獲和關(guān)聯(lián)的注釋,系統(tǒng)標(biāo)識文檔、使用軟件包打開它、 滾動到捕獲的位置并且播放話音注釋。用戶然后可以在參考由自己或者由別人記錄的話音注釋、建議的修改或者其他評論的同時與文檔交互。19. 5文本幫助
所描述的系統(tǒng)可以用來利用電子幫助菜單增強紙質(zhì)文檔。在一些實例中,與紙質(zhì)文檔關(guān)聯(lián)的標(biāo)記層包含用于該文檔的幫助菜單信息。例如,當(dāng)用戶捕獲來自文檔特定部分的文本時,系統(tǒng)檢查與文檔關(guān)聯(lián)的標(biāo)記并且例如在捕獲設(shè)備的顯示器上將幫助菜單呈現(xiàn)給用戶。19. 6使用顯示器
在一些情形中,有利的是能夠捕獲來自電視、計算機監(jiān)視器或者其他類似顯示器的信息。在一些實例中,捕獲設(shè)備用來捕獲來自計算機監(jiān)視器和電視的信息。在一些實例中,捕獲設(shè)備具有照明傳感器,其被優(yōu)化成利用傳統(tǒng)的陰極射線管(CRT)顯示技術(shù)(例如柵格化、 屏幕消隱等等)工作。通過捕獲閱讀來自文檔的文本的用戶的音頻而操作的話音捕獲設(shè)備典型地將不管該文檔是在紙張上、在顯示器上還是在某種其他介質(zhì)上而工作。19. 6. 1公共電話亭和動態(tài)會話ID
顯示的直接捕獲的一種用途是如第15. 6節(jié)中所描述的設(shè)備關(guān)聯(lián)。例如,在一些實例中,公共電話亭在其監(jiān)視器上顯示動態(tài)會話ID。電話亭連接到諸如因特網(wǎng)或企業(yè)內(nèi)聯(lián)網(wǎng)之類的通信網(wǎng)絡(luò)。會話ID周期性地但是至少每次使用電話亭時改變,使得新會話ID顯示給每個用戶。為了使用電話亭,訂戶捕獲電話亭上顯示的會話ID;通過捕獲會話ID,用戶告知系統(tǒng)他希望臨時將電話亭與他的捕獲設(shè)備關(guān)聯(lián)以便交付由捕獲印刷文檔或者電話亭屏幕本身而得到的內(nèi)容。捕獲設(shè)備可以直接將會話ID和認(rèn)證捕獲設(shè)備的其他信息(例如序列號、帳號或者其他標(biāo)識信息)傳送給系統(tǒng)。例如,捕獲設(shè)備可以通過通過可由捕獲設(shè)備訪問的蜂窩網(wǎng)絡(luò)發(fā)送會話發(fā)起消息而直接地與系統(tǒng)通信(其中“直接”意味著不通過電話亭傳遞消息)??商鎿Q地,捕獲設(shè)備可以通過將會話發(fā)起信息傳輸?shù)诫娫捦?也許通過諸如藍牙 等等之類的短距離RF)而與電話亭建立無線鏈接并且使用電話亭的通信鏈路;作為響應(yīng), 電話亭通過其因特網(wǎng)連接將會話發(fā)起信息發(fā)送給系統(tǒng)。
系統(tǒng)可以在其中設(shè)備與捕獲設(shè)備關(guān)聯(lián)的時段(或會話)期間防止其他人使用已經(jīng)與捕獲設(shè)備關(guān)聯(lián)的該設(shè)備。這個特征可以用來防止其他人在另一人的會話結(jié)束之前使用公共電話亭。作為與在網(wǎng)吧使用計算機有關(guān)的這個概念的一個實例,用戶捕獲他/她希望使用的PC的監(jiān)視器上的條形碼;作為響應(yīng),系統(tǒng)發(fā)送它顯示的會話ID給監(jiān)視器;用戶通過捕獲來自監(jiān)視器的會話ID (或者通過捕獲設(shè)備上的鍵區(qū)或觸摸屏或麥克風(fēng)輸入它)而發(fā)起會話;并且系統(tǒng)在其數(shù)據(jù)庫中將會話ID與他/她的捕獲設(shè)備的序列號(或者唯一地標(biāo)識用戶的捕獲設(shè)備的其他標(biāo)識符)關(guān)聯(lián),從而另一個捕獲設(shè)備不能在他/她的會話期間捕獲會話 ID并且使用監(jiān)視器。捕獲設(shè)備和與監(jiān)視器關(guān)聯(lián)的PC通信(通過諸如藍牙 之類的無線鏈路、諸如擴展塢之類的硬接線鏈路等等),或者通過諸如手機之類的另一裝置直接(即不通過PC)與系統(tǒng)通信,等等。19. 7社交網(wǎng)絡(luò)或協(xié)作環(huán)境
系統(tǒng)可以提供社交網(wǎng)絡(luò)或協(xié)作環(huán)境,例如wiki,其有時稱為“wiqi”,在那里,用戶可以創(chuàng)建其中用戶可以發(fā)布相關(guān)信息的詞、詞組、句子等的頁面。例如,用戶可以創(chuàng)建來自圖書或電影的名言頁在那里,用戶可以發(fā)布被使用的引文的圖像、音頻、視頻等等或者包含關(guān)于該引文何處被使用或引用的信息的索引。在一些實例中,當(dāng)用戶通過捕獲設(shè)備捕獲相關(guān)文本時,系統(tǒng)可以自動地更新這些頁面。作為另一個實例,捕獲設(shè)備可以利用到與捕獲的文本相應(yīng)的Wiqi頁面的鏈接覆蓋捕獲的圖像。特定詞或詞組的Wiqi頁面可以對所有用戶可用, 或者可以為選擇的用戶群(例如一個家庭或一群朋友)創(chuàng)建。因此,在一些實例中,除其他的益處之外,系統(tǒng)還有利于將再現(xiàn)的文檔作為平臺用在協(xié)作信息交換數(shù)字環(huán)境中。19. 8禮賓服務(wù)
軟件禮賓系統(tǒng)或服務(wù)提供人類助手(例如虛擬禮賓),其接收關(guān)于用戶在使用應(yīng)用時面臨的問題的信息并且可以采取動作以提供解決方案或者糾正問題。該人類助手可以糾正自動過程難于糾正的問題,并且可以提供關(guān)于使用軟件時的摩擦區(qū)域的反饋給應(yīng)用作者。例如,搜索文檔的用戶可能在找到文檔方面有困難,但是人類助手可以檢查用戶用來搜索的關(guān)鍵字,了解用戶正在設(shè)法尋找什么,并且將更好的關(guān)鍵字注入用戶的搜索查詢中,使得用戶接收到更相關(guān)的搜索結(jié)果。作為另一個實例,如果系統(tǒng)不能夠標(biāo)識或識別捕獲的圖像中的文本或者標(biāo)識再現(xiàn)的文檔的相應(yīng)電子版本,那么可以將這些任務(wù)發(fā)送給軟件禮賓系統(tǒng)以獲得幫助。此外,用戶可以使用禮賓系統(tǒng)訂購由捕獲設(shè)備標(biāo)識的物品。這節(jié)省了用戶的時間,并且提高了用戶對于該應(yīng)用的滿意度以及總體意見。因此,軟件禮賓系統(tǒng)提供了一種新的軟件性能層,其改善了用戶體驗并且允許實現(xiàn)軟件開發(fā)者先前未能實現(xiàn)的若干使用軟件的方式。第IV部分——系統(tǒng)細節(jié)
如本文所討論的,在一些實例中,系統(tǒng)監(jiān)控從用戶接收的輸入并且自動地定位和顯示與接收的輸入關(guān)聯(lián)的內(nèi)容。除了其他的方法以外,系統(tǒng)在文本的創(chuàng)建、編輯或捕獲期間接收輸入并且定位來自靜態(tài)內(nèi)容源和/或動態(tài)內(nèi)容源的內(nèi)容,所述靜態(tài)內(nèi)容源提供在接收輸入之前創(chuàng)建的內(nèi)容,所述動態(tài)內(nèi)容源提供在接收輸入期間或之后創(chuàng)建的內(nèi)容,例如社交網(wǎng)絡(luò)內(nèi)的內(nèi)容。相關(guān)關(guān)聯(lián)信息的自動捕獲和顯示
諸如字處理應(yīng)用之類的軟件應(yīng)用可以用來創(chuàng)建、編輯和/或觀看文本形式的信息。因此,在一些情況下可能希望的是提供與文本有關(guān)的信息。如本文所描述的,系統(tǒng)自動地提供作為接收和/或捕獲的信息(例如在文本編輯器中接收的或者以其他方式鍵入或講入系統(tǒng)中的信息)的補充的信息。本發(fā)明人認(rèn)識到,在某個人書寫、編輯、審查和/或捕獲材料期間自動地提供這個人可能認(rèn)為有助于完成他從事的任務(wù)的信息將是有用的,該信息例如與所述材料或任務(wù)的主題相關(guān)的信息。本發(fā)明人意識到,在無需這個人執(zhí)行規(guī)定查詢、選擇要搜索的適當(dāng)信息體以及明確地請求使用該查詢執(zhí)行對信息體的搜索的常規(guī)過程的情況下這樣做將是特別有用的。描述了一種硬件、固件和/或軟件系統(tǒng)或者用于提供作為其他信息的補充的相關(guān)信息的系統(tǒng)。系統(tǒng)響應(yīng)于該系統(tǒng)可以觀察到的用戶提供的(例如通過用戶鍵入而提供的)文本而自動地提供相關(guān)信息。系統(tǒng)監(jiān)控用戶提供的文本并且自動地選擇文本的一部分。系統(tǒng)基于文本的選擇的部分形成查詢,使用該查詢選擇要搜索的索引,將查詢傳輸給選擇的索引,并且接收與該查詢相關(guān)的搜索結(jié)果。然后,系統(tǒng)顯示這些搜索結(jié)果中的至少一個,使得除其他的益處之外,用戶可以觀看與用戶提供的文本相關(guān)的信息。隨著用戶提供附加的文本,系統(tǒng)繼續(xù)監(jiān)控該附加的文本,并且重復(fù)選擇文本的一部分、基于選擇的部分形成查詢、選擇索引、將查詢傳輸給索引、接收搜索結(jié)果并且顯示搜索結(jié)果的步驟。通過這種方式,系統(tǒng)自動地、連續(xù)地且重復(fù)地提供與用戶提供和/或捕獲的文本相關(guān)的諸如補充信息之類的內(nèi)容。因此,系統(tǒng)自動地向用戶提供與提供的文本的主題關(guān)聯(lián)且可能地相關(guān)的內(nèi)容,例如用戶正在書寫、編輯和/或?qū)彶榈闹黝}。系統(tǒng)這樣做而無需用戶創(chuàng)建查詢、規(guī)定要搜索的適當(dāng)信息體或者明確地請求執(zhí)行搜索,其每一個在其他情況下將要求用戶進行動作并且潛在地阻礙用戶的書寫、編輯和/或?qū)彶檫^程。因此,本文描述的系統(tǒng)和技術(shù)可以為用戶改進書寫、編輯和/或?qū)彶樾畔⒌倪^程以及提供附加的益處。提供相關(guān)信息
圖4為結(jié)合顯示接收的文本和提供與接收的文本相關(guān)的信息而示出由系統(tǒng)呈現(xiàn)的樣本顯示400的顯示圖。如圖所示,顯示400由計算設(shè)備的字處理應(yīng)用提供并且由計算設(shè)備的信息輸出設(shè)備(例如計算設(shè)備的顯示設(shè)備)顯示。字處理應(yīng)用可以包括所述系統(tǒng)(例如,字處理應(yīng)用將系統(tǒng)集成到其一個或多個過程中),系統(tǒng)可以與字處理應(yīng)用分開(例如與字處理應(yīng)用分開的一個或多個過程包括系統(tǒng)),或者這些或者其他配置的某種組合。計算設(shè)備的其他應(yīng)用,例如瀏覽器應(yīng)用、電子郵件應(yīng)用、電子表格應(yīng)用、數(shù)據(jù)庫應(yīng)用、呈現(xiàn)應(yīng)用、軟件開發(fā)應(yīng)用和/或其他應(yīng)用,可以呈現(xiàn)顯示400。此外或者可替換地,計算設(shè)備的操作系統(tǒng)可以呈現(xiàn)顯示400。系統(tǒng)可以與任何數(shù)據(jù)集合(在這里稱為文檔)一起使用,所述數(shù)據(jù)集合包括在再現(xiàn)的文檔中呈現(xiàn)且由運行系統(tǒng)的捕獲設(shè)備捕獲的數(shù)據(jù)。顯示400包括文本顯示區(qū)405和信息顯示區(qū)410。文本顯示區(qū)405顯示用戶提供的文本,例如用戶通過諸如鍵盤之類的信息輸入設(shè)備提供的文本。用戶可以通過其他信息輸入設(shè)備提供信息,例如通過接收轉(zhuǎn)換成文本的口頭信息的麥克風(fēng)、捕獲來自再現(xiàn)的文檔的文本的捕獲部件以及本文描述的其他輸入設(shè)備,提供信息。用戶也可以以其他方式提供文本輸入,例如通過將文本粘貼到文本顯示區(qū)405而提供文本輸入。在一些實施例中,用戶可以通過將諸如具有關(guān)聯(lián)的文本(例如字幕、標(biāo)題、描述等等)的圖像之類的、具有關(guān)聯(lián)的文本的二進制對象粘貼到文本顯示區(qū)405中而提供文本。在該實例中,系統(tǒng)認(rèn)為與二進制對象關(guān)聯(lián)的文本是所提供的文本。信息顯示區(qū)410顯示系統(tǒng)確定為與文本顯示區(qū)405中顯示的提供的文本相關(guān)的多個信息項目。如圖所示,信息顯示區(qū)410顯示了六個不同的信息項目415(單獨地示為項目 415a-f)0信息顯示區(qū)410也包括允許用戶規(guī)定系統(tǒng)執(zhí)行的不同動作(例如顯示時間線、分析文本和其他動作)的“動作”菜單項目430以及允許用戶規(guī)定用于系統(tǒng)的選項(例如要搜索的索引、顯示的項目數(shù)和其他選項)的“選項”菜單項目435。圖5中示出了系統(tǒng)通過其接收文本并且提供與提供的文本相關(guān)的信息的例程,其參照圖4的實例加以描述。在一些實例中,系統(tǒng)在用戶提供文本的同時自動地、連續(xù)且重復(fù)地執(zhí)行例程500。參照圖4,文本顯示區(qū)405包含用戶提供的第一句子480。在步驟510中,系統(tǒng)在用戶提供文本時監(jiān)控接收的文本。例如,假設(shè)用戶使用鍵盤鍵入了第一句子,系統(tǒng)在用戶鍵入該文本時監(jiān)控該文本。系統(tǒng)可以通過掛接操作系統(tǒng)或應(yīng)用事件、利用供輸入設(shè)備用來提供文本的設(shè)備驅(qū)動器、話音識別引擎、屏幕OCR、捕獲文本和 /或使用其他技術(shù)而監(jiān)控文本。系統(tǒng)可以以各種不同的方式存儲監(jiān)控的文本,例如通過在緩沖器中創(chuàng)建鍵入的字符的輔助拷貝、利用文本的部分填充數(shù)據(jù)結(jié)構(gòu)和/或其他技術(shù)來存儲監(jiān)控的文本。系統(tǒng)可以在用戶添加、編輯和/或刪除文本時更新存儲的文本和/或數(shù)據(jù)結(jié)構(gòu)。在步驟515中,系統(tǒng)選擇監(jiān)控的文本的一部分以便形成查詢。系統(tǒng)可以使用各種不同的技術(shù)以選擇這部分監(jiān)控的文本。例如,系統(tǒng)可以確定用戶結(jié)束了句子或從句,并且然后標(biāo)識該句子或從句的各個不同成分,例如主語、謂語、賓語和/或其他成分。然后,系統(tǒng)可以選擇句子或從句的一個或多個成分,例如名詞、名詞詞組、專有名詞、專有名詞詞組、動詞、副詞和/或其他成分。作為另一個實例,系統(tǒng)可以在提供的文本中選擇名詞的第一實例。系統(tǒng)可以使用自然語言概括技術(shù)、同義詞匹配技術(shù)和/或其他技術(shù)以標(biāo)識和選擇監(jiān)控的文本的一部分。如圖4中的附圖標(biāo)記450表示的虛線所示,系統(tǒng)在步驟515中選擇名詞詞組“漫畫書”。在步驟520中,系統(tǒng)基于選擇的文本形成查詢。例如,系統(tǒng)可以使用選擇的文本 “漫畫書”以形成“漫畫+書”的查詢。系統(tǒng)可以將其他信息前置于或附加到該查詢。在步驟225處,系統(tǒng)使用該查詢來選擇要搜索的索引。系統(tǒng)可以從系統(tǒng)分組或分類的許多索引當(dāng)中進行選擇。例如,系統(tǒng)可以選擇要搜索的一般索引(例如由谷歌、雅虎、Bing等等提供的索引)。作為另一個實例,系統(tǒng)可以選擇要搜索的參考索引(例如由維基百科、其他百科全書網(wǎng)站、字典網(wǎng)站等等提供的索引)。作為另一個實例,系統(tǒng)可以選擇商品或服務(wù)的商業(yè)提供者的索引(例如由谷歌產(chǎn)品、亞馬遜、PriceGrabber等等提供的索引)。作為另一個實例, 系統(tǒng)可以選擇實時內(nèi)容提供者的索引(例如由Facebook、推特、Blogger, Flickr, Youtube, Vimeo和其他用戶生成內(nèi)容網(wǎng)站提供的索引)。此外或者可替換地,系統(tǒng)可以從索引的其他組或分類中選擇索引。系統(tǒng)可以基于選擇的文本和/或基于附加的信息選擇索引,所述附加的信息例如非選擇的文本、與文檔關(guān)聯(lián)的元數(shù)據(jù)(例如文檔標(biāo)題、所有者、摘要等等)和/ 或其他附加的信息(例如用戶的角色、日時、年期、用戶的地理位置、與用戶關(guān)聯(lián)的歷史數(shù)據(jù)等等)。在一些實例中,系統(tǒng)使用該查詢來選擇多個要搜索的索引。在步驟530中,系統(tǒng)將查詢傳輸?shù)竭x擇的索引(換言之,傳輸?shù)浇邮找獜倪x擇的索引服務(wù)的查詢的適當(dāng)?shù)囊粋€或多個計算系統(tǒng))。在步驟535中,系統(tǒng)從索引接收與查詢相關(guān)的一個或多個搜索結(jié)果。在步驟MO中,系統(tǒng)顯示搜索結(jié)果。返回到圖4,系統(tǒng)將針對查詢“漫畫+書”的搜索結(jié)果的一部分顯示為信息顯示區(qū)410中的項目415a。項目41 包括指示關(guān)于結(jié)果的標(biāo)題的信息的標(biāo)題區(qū)420a以及其中顯示了與結(jié)果有關(guān)的內(nèi)容的內(nèi)容區(qū) 42^1。如圖所示,標(biāo)題區(qū)420a顯示了與漫畫書有關(guān)的維基百科網(wǎng)頁的標(biāo)題。內(nèi)容區(qū)42 顯示了維基百科漫畫書網(wǎng)頁的內(nèi)容的一部分。盡管未在圖4中具體地示出,但是系統(tǒng)將標(biāo)題區(qū)420a和內(nèi)容區(qū)425中的任一個或二者鏈接到作為顯示的信息的來源的實際維基百科網(wǎng)頁,使得用戶可以容易地導(dǎo)航到實際的維基百科網(wǎng)頁。如圖所示,系統(tǒng)在信息顯示區(qū)410中以項目415的相應(yīng)查詢形成時間的相反順序顯示這些項目,最近形成的位于信息顯示區(qū)410的頂部。系統(tǒng)在信息顯示區(qū)410的顯示的 (未隱藏的)空間中一次顯示有限數(shù)量的項目415 (例如三至六個項目)。系統(tǒng)可以出于各種不同的原因而限制項目415的數(shù)量,例如為了避免潛在地因過多的搜索結(jié)果壓倒用戶和 /或為了占用最少量的顯示400。然而,系統(tǒng)并不限于僅僅顯示三至六個項目415并且可以顯示更少或更多的項目415。在一些實例中,系統(tǒng)在信息顯示區(qū)410中以最近形成的位于可用顯示的底部的順序顯示項目415。在一些實例中,系統(tǒng)顯示接近相應(yīng)文本的項目415。在一些實例中,系統(tǒng)將項目415顯示為覆蓋顯示400內(nèi)的文本的標(biāo)記。在步驟MO中顯示搜索結(jié)果之后或期間,例程500繼續(xù)到步驟M5,其中系統(tǒng)確定文本是否仍然正在例如由仍然向應(yīng)用提供文本的用戶接收。當(dāng)文本仍然正在被接收時,例程500返回到步驟510。再次參照圖4,文本顯示區(qū)405中顯示的由用戶提供的第二句子以 "Marvel Comics (奇跡漫畫廣455開始。系統(tǒng)在步驟510中監(jiān)控該第二句子,在步驟515中選擇文本“Marvel Comics” 455,并且在步驟520中基于選擇的文本形成查詢。在步驟525 中,系統(tǒng)使用該查詢選擇要搜索的索引,在步驟530中傳輸該查詢,在步驟535中接收搜索結(jié)果,并且在步驟MO中顯示搜索結(jié)果的一部分。與該查詢相關(guān)的這部分搜索結(jié)果在信息顯示區(qū)510中示為項目515b。當(dāng)用戶提供文本時,系統(tǒng)連續(xù)且重復(fù)地執(zhí)行參照圖5所描述的步驟。遵循圖4的實例,系統(tǒng)選擇第三句子中的文本“Man Lee" 4600系統(tǒng)在信息顯示區(qū)410中將與選擇的文本相關(guān)的信息顯示為項目415c。系統(tǒng)選擇的第四文本項如附圖標(biāo)記465(“20世紀(jì)60年代”)表示的那樣示出。系統(tǒng)形成與該選擇的文本相應(yīng)的查詢,搜索索引,并且響應(yīng)于該搜索而接收搜索結(jié)果,該搜索結(jié)果的一部分在信息顯示區(qū)410中顯示為項目415d。在用戶提供文本顯示區(qū)405中顯示的一些或所有文本之后,系統(tǒng)確定文本的主要主題涉及漫畫書歷史。系統(tǒng)可以基于文本的各個不同項目做出這種確定,所述各個不同項目例如第一句子的主題“漫畫書”、動詞過去時態(tài)的使用(第三句子中的“是”和最后句子中的“創(chuàng)建”)、對過去特定時間段的引用(“二十世紀(jì)六十年代”)和/或提供的文本中的附加信息。系統(tǒng)也可以分析響應(yīng)于被形成以做出這種確定的不同查詢而提供的搜索結(jié)果。因此, 系統(tǒng)可以不僅僅基于最近創(chuàng)建的句子的文本而且也基于其他句子的文本、搜索結(jié)果和/或其他信息來形成查詢。系統(tǒng)基于這些因素形成與“漫畫書歷史”相應(yīng)的查詢,并且選擇適當(dāng)?shù)乃饕缬梢粋€或多個商業(yè)書商提供的索引。系統(tǒng)可以選擇這樣的索引以便搜索比可以在因特網(wǎng)上提供的參考材料和/或未在因特網(wǎng)上提供的參考材料更冗長的參考材料。系統(tǒng)制定與詞組“漫畫書歷史”相應(yīng)的查詢,搜索商業(yè)書商的索引,并且接收來自亞馬遜的搜索結(jié)果,系統(tǒng)將該搜索結(jié)果顯示為項目415e。通過這種方式,系統(tǒng)可以向用戶提供可能不一定在互聯(lián)網(wǎng)網(wǎng)站上提供的參考材料或附加相關(guān)信息。如先前指出的,項目415 中的每一個也與網(wǎng)頁關(guān)聯(lián),使得用戶可以(例如通過點擊項目415)選擇項目415。選擇項目 415將使得系統(tǒng)啟動具有與項目415關(guān)聯(lián)的統(tǒng)一資源定位符(URL)的瀏覽器窗口,并且在瀏覽器窗口中顯示網(wǎng)頁的內(nèi)容。系統(tǒng)以類似于腳注字符的方式顯示如附圖標(biāo)記470所示的以虛線為邊界的“R”,以便指示文本顯示區(qū)405中的整個段落用作導(dǎo)致項目41 的查詢的基石出。系統(tǒng)也可以基于文本顯示區(qū)405中顯示的一些或所有文本確定用戶可能有興趣購買漫畫書。因此,系統(tǒng)形成與購買漫畫書相應(yīng)的查詢,搜索一般索引,并且接收系統(tǒng)顯示為項目415f的搜索結(jié)果。通過這種方式,系統(tǒng)可以向用戶提供到銷售用戶可能感興趣的物品的商業(yè)網(wǎng)站的鏈接或訪問。再一次地,“R”字符470可以指示文本顯示區(qū)405中的整個段落用作導(dǎo)致項目415f的查詢的基礎(chǔ)。在一些實例中,除了將文本信息顯示為項目415之外或者作為將文本信息顯示為項目415的可替換方案,系統(tǒng)在信息顯示區(qū)410中顯示非文本信息(例如圖像、視頻、聲音和 /或其他嵌入項)。在一些實施例中,系統(tǒng)不按時間而是按其他信息對項目415排序,所述其他信息例如項目與用戶提供的文本的相關(guān)性。為了按其相關(guān)性對項目排序,系統(tǒng)可以在每個項目415創(chuàng)建時計算該項目的相關(guān)性因子。系統(tǒng)也可以在以后的時間更新該相關(guān)性因子。例如,當(dāng)系統(tǒng)首次開始接收來自用戶的文本時系統(tǒng)認(rèn)為高度相關(guān)的搜索結(jié)果可以在系統(tǒng)基于接收自用戶的附加的文本而確定搜索結(jié)果不那么相關(guān)時使其相關(guān)性因子減小。在一些實例中,系統(tǒng)使得用戶能夠?qū)φ麄€項目415上下滾動和/或翻頁,使得用戶可以觀看除了信息顯示區(qū)415中主動顯示的那些項目之外的項目415。在一些實例中,除了將項目415鏈接到源網(wǎng)頁之外,系統(tǒng)將項目415鏈接到文本顯示區(qū)405中的用作導(dǎo)致項目415的查詢的基礎(chǔ)的文本,使得用戶可以容易地從項目導(dǎo)航到文本顯示區(qū)405中的鏈接的文本。在一些實例中,系統(tǒng)也將文本顯示區(qū)405中的用作查詢的基礎(chǔ)的文本鏈接到項目 415,使得用戶可以容易地從文本顯示區(qū)405中的文本導(dǎo)航到鏈接的項目415。在一些實例中,系統(tǒng)提供指示系統(tǒng)形成查詢和/或請求執(zhí)行搜索的時間的時間線。在一些實例中,系統(tǒng)對系統(tǒng)識別為遵循特定格式的文本加標(biāo)簽,所述特定格式例如適當(dāng)?shù)拿Q、電話號碼、位置和/或其他格式。在一些實例中,當(dāng)用戶刪除系統(tǒng)為其提供了項目415的文本時,系統(tǒng)從信息顯示區(qū)415中移除該項目415。在一些實例中,系統(tǒng)顯示信息顯示區(qū)410的視圖,這些視圖取決于文本顯示區(qū)405 的視圖。例如,系統(tǒng)可以在文本顯示區(qū)縮放到句子級別時在文本顯示區(qū)中顯示與特定文本片段關(guān)聯(lián)的信息,并且在文本顯示區(qū)顯示整個文檔時顯示與整個文檔關(guān)聯(lián)的信息。因此,例如通過放大和縮小文本顯示區(qū)405而改變視圖可以使得信息顯示區(qū)410示出不同類型和級別的信息。在一些實例中,系統(tǒng)在第一計算設(shè)備的第一顯示器上顯示文本顯示區(qū)405并且在第二計算設(shè)備的第二顯示器上顯示信息顯示區(qū)410。例如,系統(tǒng)可以使得用戶能夠在諸如桌面計算機或膝上型計算機之類的第一計算設(shè)備上創(chuàng)建、編輯和/或刪除書寫的材料,所述第一計算設(shè)備包含鍵盤以便使得用戶能夠容易地鍵入文本。然后,系統(tǒng)可以在連接到第一計算設(shè)備的諸如手持式計算設(shè)備(例如智能電話、平板計算設(shè)備等等)之類的第二計算設(shè)備的顯示器上顯示與書寫的材料相關(guān)的信息。系統(tǒng)可以出于各種不同的原因以這樣的設(shè)置配置,以便允許用戶選擇何時和/或如何觀看相關(guān)信息。在一些實例中,代替在確定文本不再被接收時結(jié)束圖2的例程500的是,系統(tǒng)響應(yīng)于另一個確定而結(jié)束例程200,所述另一個確定例如文檔不再激活的確定、用戶已經(jīng)請求系統(tǒng)不操作的確定和/或其他確定。在一些實例中,代替連續(xù)地監(jiān)控用戶提供的文本的是或者除了連續(xù)地監(jiān)控用戶提供的文本之外,系統(tǒng)使得用戶能夠延遲提供相關(guān)信息,直到用戶具體地請求這樣的提供。在用戶的特定請求之后,系統(tǒng)于是可以分析提供的文本,選擇提供的文本的一個或多個部分, 并且提供與選擇的部分相關(guān)的信息,如本文所描述的。例如,在創(chuàng)建字處理文檔中,用戶可以在開始時不利用所述系統(tǒng)。相反地,用戶可以等待,直到書寫了一定的文本量(例如段落、 節(jié)、章等等),并且然后請求系統(tǒng)提供相關(guān)信息。系統(tǒng)于是將分析書寫的文本,選擇該文本的多個部分,并且提供多個相關(guān)信息項目,每個項目與文本的不同選擇部分相應(yīng)。作為另一個實例,用戶可以打開已經(jīng)創(chuàng)建的文檔,并且請求系統(tǒng)提供與已經(jīng)創(chuàng)建的文檔相關(guān)的信息。在一些實例中,系統(tǒng)通過自動地提取用戶提供的文本的摘要或者使得該文本被自動地摘取而選擇用戶提供的文本的一部分。然后,系統(tǒng)基于文本的摘要形成查詢。在一些實例中,系統(tǒng)同時跨多個應(yīng)用(例如同時跨字處理應(yīng)用和跨瀏覽器應(yīng)用)工作或者通常這樣工作。在這些實施例中,系統(tǒng)可以跨多個應(yīng)用監(jiān)控用戶提供的文本并且提供與其相關(guān)的信息。圖6為結(jié)合存儲由系統(tǒng)利用的數(shù)據(jù)而示出系統(tǒng)使用的數(shù)據(jù)結(jié)構(gòu)600的數(shù)據(jù)結(jié)構(gòu)圖。圖6中所示的數(shù)據(jù)結(jié)構(gòu)600與圖4中所示的實例相應(yīng)。數(shù)據(jù)結(jié)構(gòu)600包含若干行,例如行650a和650b,每行劃分成以下各列標(biāo)識包含系統(tǒng)為其提供相關(guān)信息的文本的文檔的文檔ID列601,包含系統(tǒng)為其提供項目415的文檔的文本的文本列602,包含由系統(tǒng)響應(yīng)于用戶提供的文本而制定的查詢的查詢列605 ;包含系統(tǒng)使用查詢而選擇要搜索的索引的標(biāo)識符的索引列610 ;包含響應(yīng)于使用查詢搜索索引而提供的搜索結(jié)果的標(biāo)題的標(biāo)題列615 ;包含與搜索結(jié)果關(guān)聯(lián)的描述性信息的內(nèi)容列620 ;包含搜索結(jié)果的來源(例如URL)的來源列 625 ;以及包含指示系統(tǒng)相對于其他搜索結(jié)果處理該搜索結(jié)果的順序的號碼的順序列630。如圖所示,行650a包含文檔ID列601中的“445”、文本列602中的“漫畫書”、查詢列605中的“漫畫+書”、指示參考索引正被搜索的索引列610中的“參考”、標(biāo)題列615中的“維基百科”、內(nèi)容列620中的來自特定維基百科頁面的與漫畫書有關(guān)的內(nèi)容、來源列625 中的指向維基百科上的頁面的統(tǒng)一資源定位符(URL)以及指示這是系統(tǒng)提供的首次搜索結(jié)果的順序列630中的號碼“1”。其他行650包含與圖4的其他項目415相應(yīng)的類似信息。 行650e和650f中每行的文本列602包含[段落1],指示整個第一段用作系統(tǒng)提供的信息項目的基礎(chǔ)。數(shù)據(jù)結(jié)構(gòu)600可以包含未具體地繪出的其他列,例如包含系統(tǒng)形成查詢的日期和 /或時間的日期/時間列、指示系統(tǒng)是否應(yīng)當(dāng)將搜索結(jié)果顯示為項目415的顯示列、包含關(guān)于輔助搜索結(jié)果的信息的一個或多個列和/或包含或指示其他信息的其他列。系統(tǒng)也可以維護未具體地繪出的其他數(shù)據(jù)結(jié)構(gòu),例如包含用戶偏好的數(shù)據(jù)結(jié)構(gòu)、包含關(guān)于要搜索的索引的信息的數(shù)據(jù)結(jié)構(gòu)、包含關(guān)于信息項目歷史的信息的數(shù)據(jù)結(jié)構(gòu)和/或其他數(shù)據(jù)結(jié)構(gòu)。通過自動地向某個人提供與這個人感興趣主題相關(guān)的信息,系統(tǒng)允許這個人節(jié)省大量的時間。系統(tǒng)自動提供相關(guān)信息消除了這個人選擇文本以用于查詢以及請求搜索的需要。盡管參照用戶使用字處理或其他應(yīng)用進行書寫的實例描述了所述系統(tǒng),但是該系統(tǒng)可以用在其他情況和/或環(huán)境中,例如用在某個人編輯先前書寫的文檔(例如編輯者執(zhí)行書面材料的事實檢查和/或其他編輯)的情況中、用在某個人閱讀書面文檔的情況(例如某個人閱讀電子文檔或者捕獲來自印刷的文檔的文本)的情況中和/或用在其他情況中。因此, 系統(tǒng)的使用并不限于本文描述的實例。除了這里描述的環(huán)境和設(shè)備之外,圖7給出了示出其中系統(tǒng)可以操作的環(huán)境700 的高級框圖。該框圖示出了計算機系統(tǒng)750。計算機系統(tǒng)750包括存儲器760。存儲器760 包含結(jié)合了系統(tǒng)762和系統(tǒng)典型地使用的數(shù)據(jù)763的軟件761。存儲器進一步包括用于接收來自其他計算機的網(wǎng)頁和/或其他信息的web客戶端計算機程序766。盡管項目762和 763在使用時存儲于存儲器中,但是本領(lǐng)域技術(shù)人員將理解的是,出于存儲器管理、數(shù)據(jù)完整性和/或其他目的,這些項目或者其部分可以在存儲器與永久存儲設(shè)備773之間轉(zhuǎn)移。計算機系統(tǒng)750進一步包括用于執(zhí)行諸如程序761、762和766之類的程序的一個或多個中央處理單元(CPU) 771以及用于從諸如軟盤、⑶-ROM、DVD、USB閃速驅(qū)動器之類的有形計算機可讀存儲介質(zhì)和/或其他有形計算機可讀存儲介質(zhì)讀取信息或安裝程序(例如所述系統(tǒng))的計算機可讀介質(zhì)驅(qū)動器772。計算機系統(tǒng)750也包括以下中的一個或多個用于連接到網(wǎng)絡(luò)(例如因特網(wǎng)740)并且通過構(gòu)成網(wǎng)絡(luò)的路由器、交換機、主機和其他設(shè)備發(fā)送或接收數(shù)據(jù)的網(wǎng)絡(luò)連接設(shè)備774,信息輸入設(shè)備775,以及信息輸出設(shè)備776。所述框圖也示出了若干服務(wù)器計算機系統(tǒng),例如服務(wù)器計算機系統(tǒng)710、720和 730。每個服務(wù)器計算機系統(tǒng)包括web服務(wù)器計算機程序,例如web服務(wù)器711、720和731, 其用于響應(yīng)于來自諸如web客戶端計算機程序766之類的web客戶端計算機程序而提供網(wǎng)頁和/或其他信息服務(wù)。服務(wù)器計算機系統(tǒng)通過因特網(wǎng)740或者另一種類型的數(shù)據(jù)傳輸網(wǎng)絡(luò)連接到計算機系統(tǒng)750。然而,本領(lǐng)域技術(shù)人員將認(rèn)識到,服務(wù)器計算機系統(tǒng)可以通過不同于因特網(wǎng)的網(wǎng)絡(luò)連接到計算機系統(tǒng)750。盡管就本文描述的環(huán)境描述了不同的實例,但是本領(lǐng)域技術(shù)人員將理解,所述系統(tǒng)可以在各種各樣的其他環(huán)境中實現(xiàn),這些環(huán)境包括單個單片計算機系統(tǒng)以及以各種方式連接的計算機系統(tǒng)或類似設(shè)備的各種其他組合。在不同的實例中,可以代替web客戶端計算機系統(tǒng)使用各種各樣的計算系統(tǒng)或其他不同的客戶端設(shè)備,例如移動電話、個人數(shù)字助理、電視、照相機等等。例如,系統(tǒng)可以駐留在諸如智能電話之類的移動設(shè)備上,該移動設(shè)備允許通過輸入設(shè)備來輸入文本以及通過捕獲設(shè)備來捕獲文本。將再現(xiàn)的文檔集成到內(nèi)容流
如本文所討論的,在一些實例中,系統(tǒng)捕獲來自再現(xiàn)的文檔的文本并且執(zhí)行與捕獲的文本或再現(xiàn)的文檔關(guān)聯(lián)的動作和/或提供與其關(guān)聯(lián)的內(nèi)容。例如,系統(tǒng)可以提供來自社交網(wǎng)絡(luò)內(nèi)容源、用戶內(nèi)容倉庫、實時新聞和內(nèi)容文稿等等的內(nèi)容。圖8為示出用于自動地呈現(xiàn)從再現(xiàn)的文檔捕獲的信息的例程800的流程圖。在步驟810中,系統(tǒng)捕獲來自再現(xiàn)的文檔的信息。如本文所描述的,系統(tǒng)可以使用移動設(shè)備的成像部件捕獲來自再現(xiàn)的文檔的文本的圖像,或者可以執(zhí)行用于捕獲信息的其他技術(shù)。在步驟820中,系統(tǒng)自動地標(biāo)識與捕獲的信息關(guān)聯(lián)的內(nèi)容。在一些情況下,系統(tǒng)標(biāo)識與捕獲的信息關(guān)聯(lián)的特定內(nèi)容項,例如圖像、視頻、文本等等。在一些情況下,系統(tǒng)標(biāo)識與捕獲的信息關(guān)聯(lián)的內(nèi)容源,例如新聞和其他信息網(wǎng)站、博客、用戶生成內(nèi)容站點、播客 (podcast)倉庫、圖像和視頻倉庫、論壇等等。系統(tǒng)可以在標(biāo)識內(nèi)容時查詢本文描述的一個或多個索引,例如與包含用戶生成內(nèi)容的在線內(nèi)容源關(guān)聯(lián)的索引。這樣的內(nèi)容源的實例包括 YouTube、維基百科、Flickr、推特、雅虎、MSN、Boingboing. net、nytimes. com、谷歌等等。 在一些情況下,內(nèi)容是靜態(tài)內(nèi)容并且在發(fā)生信息的捕獲之前被創(chuàng)建。在一些情況下,內(nèi)容是在信息捕獲期間創(chuàng)建的動態(tài)或?qū)崟r內(nèi)容。在步驟830中,系統(tǒng)呈現(xiàn)標(biāo)識的內(nèi)容。例如,系統(tǒng)可以通過捕獲信息的設(shè)備的顯示部件來顯示內(nèi)容,該顯示部件例如智能電話的觸摸屏。系統(tǒng)可以使用本文描述的一些或所有技術(shù)顯示內(nèi)容,這些技術(shù)包括顯示接近捕獲的信息的內(nèi)容(或者內(nèi)容的指示)、覆蓋捕獲的信息上的內(nèi)容、在關(guān)聯(lián)的設(shè)備上顯示內(nèi)容等等。在步驟840中,系統(tǒng)確定系統(tǒng)是否接收到對捕獲信息的附加請求。例如,用戶可以將他/她的捕獲設(shè)備移動到再現(xiàn)的文檔的第二部分,指示希望找到與文檔的第二部分關(guān)聯(lián)的內(nèi)容。當(dāng)系統(tǒng)確定存在附加請求時,例程800繼續(xù)返回到步驟810,否則例程800結(jié)束。因此,在一些實例中,除了其他的益處之外,系統(tǒng)使得諸如移動設(shè)備之類的捕獲設(shè)備的用戶能夠自動地接收與他們正實時捕獲的信息關(guān)聯(lián)的內(nèi)容。如本文所描述的,在一些實例中,系統(tǒng)使得用戶能夠基于從再現(xiàn)的文檔和其他信息顯示進行捕獲以及標(biāo)識再現(xiàn)的文檔和其他信息顯示而訪問用戶生成內(nèi)容源和對用戶生成內(nèi)容源有貢獻。圖9為示出用于確定與標(biāo)識的再現(xiàn)的文檔關(guān)聯(lián)的內(nèi)容源的例程900的流程圖。在步驟910中,系統(tǒng)捕獲來自再現(xiàn)的文檔的信息。如本文所描述的,系統(tǒng)可以例如通過使用移動設(shè)備的成像部件對文本成像而捕獲文本。系統(tǒng)也可以捕獲其他類型的信息, 例如非文本信息。在步驟920中,系統(tǒng)基于捕獲的信息標(biāo)識文檔。如本文所描述的,系統(tǒng)可以通過定位包括從文檔捕獲的文本的文檔的電子版本而標(biāo)識文檔。在步驟930中,系統(tǒng)確定一個或多個內(nèi)容源與再現(xiàn)的文檔關(guān)聯(lián)。例如,系統(tǒng)標(biāo)識與再現(xiàn)的文檔關(guān)聯(lián)或者與再現(xiàn)的文檔的特定部分關(guān)聯(lián)的通道或標(biāo)簽,并且標(biāo)識供應(yīng)具有類似標(biāo)簽的內(nèi)容的內(nèi)容源。在步驟940中,系統(tǒng)向用戶提供確定的內(nèi)容源的指示。在一些情況下,系統(tǒng)與再現(xiàn)的文檔一起呈現(xiàn)來自確定的內(nèi)容源的內(nèi)容的指示。在一些情況下,系統(tǒng)訪問內(nèi)容源,從而除了其他益處之外使得用戶能夠?qū)?nèi)容源有貢獻。作為一個實例,系統(tǒng)在再現(xiàn)的文檔的圖像旁邊的方格中顯示來自確定的內(nèi)容源的數(shù)據(jù)流,并且跟隨用戶在再現(xiàn)的文檔之內(nèi)的進展,利用來自與用戶當(dāng)前正閱讀的區(qū)域相關(guān)的數(shù)據(jù)流的信息更新方格。該方格可以提供各種類型的內(nèi)容或者各種類型的內(nèi)容的指示, 包括博客發(fā)布/評論、元數(shù)據(jù)、相關(guān)文檔或內(nèi)容、超級鏈接、視頻、圖像、微博、論壇、新聞文稿、播客、對其他文檔或者當(dāng)前文檔內(nèi)的其他位置的交叉引用等等。作為另一個實例,用戶正在閱讀報紙并且使用他/她的移動設(shè)備捕獲來自商業(yè)版中的關(guān)于夫婦個人理財?shù)奈恼碌奈谋尽O到y(tǒng)標(biāo)識該文章和關(guān)聯(lián)的標(biāo)簽(例如“個人理財”、 “關(guān)系”)。系統(tǒng)確定包含具有類似標(biāo)簽的內(nèi)容的兩個內(nèi)容源——一個為來自處理夫婦如何預(yù)算的視頻共享網(wǎng)站的通道,并且另一個為流行投資圖書作者的網(wǎng)絡(luò)日志,并且通過移動設(shè)備的顯示部件向用戶提供這些來源的指示。當(dāng)然,系統(tǒng)可以標(biāo)識和提供本文沒有具體描述的其他內(nèi)容源。捕獲來自基于咅頻的信息源的信息
盡管所述系統(tǒng)在上文通常被描述為與印刷或顯示的文檔交互并且捕獲來自印刷或顯示的文檔的數(shù)據(jù),但是系統(tǒng)可以容易地被配置成可替換地或者附加地與基于音頻的信息 (例如從無線電或電視廣播接收的信息)交互并且捕獲基于音頻的信息。系統(tǒng)可以提供與從接收的音頻信號中提取的內(nèi)容相關(guān)的信息。在一些實例中,系統(tǒng)接收例如來自收音機的揚聲器的現(xiàn)場音頻信號,并且通過移動設(shè)備上的麥克風(fēng)將其轉(zhuǎn)換成電音頻信號。在音頻信號的一些可選的預(yù)處理之后,系統(tǒng)將音頻信號中的內(nèi)容(經(jīng)常是口頭語言)轉(zhuǎn)換成文本,并且然后基于該文本執(zhí)行某個動作。執(zhí)行的動作可以是標(biāo)識搜索詞語并且基于那些詞語進行查詢或搜索。然后,系統(tǒng)接收與音頻內(nèi)容相關(guān)或關(guān)聯(lián)的信息并且將其輸出到用戶,例如將其輸出到移動設(shè)備以便向用戶顯示。在一些實例中,呈現(xiàn)的信息包括與接收的音頻中提供的內(nèi)容關(guān)聯(lián)的視覺上可顯示的信息。例如,接收的音頻可以是關(guān)于給定主題的無線電廣播或現(xiàn)場講座。將該接收的音頻轉(zhuǎn)換成文本并且進行處理以標(biāo)識不僅與主題相關(guān)的詞語,而且標(biāo)識可能在接收的音頻的過程期間出現(xiàn)的或者根據(jù)接收的音頻在邏輯上導(dǎo)出的附加詞語或內(nèi)容。因此,在一個實例中,接收的音頻可能與來自當(dāng)前在電視上重播的星際旅行(Star Trek)劇集的音軌相應(yīng)。系統(tǒng)接收該音軌,其中音頻包括對作曲家Brahms (勃拉姆斯)的引用。系統(tǒng)于是可以不僅獲得與節(jié)目星際旅行相關(guān)的信息,而且獲得與勃拉姆斯相關(guān)的信息,例如勃拉姆斯的傳記、他的照片、到選擇的由他作曲的音樂記錄的鏈接(或下載的文件)等等。在一些實例中,系統(tǒng)對音頻序列采樣以便標(biāo)識該序列和/或該序列中的位置。例如,系統(tǒng)可以在標(biāo)識序列和/或序列中的位置時執(zhí)行語音-文本技術(shù)或非文本匹配技術(shù),如本文針對標(biāo)識文本和/或再現(xiàn)的文檔所討論的。系統(tǒng)然后可以使用標(biāo)識的位置來獲取音頻序列的干凈版本、音頻序列的抄本、與音頻序列關(guān)聯(lián)的標(biāo)記等等,以便標(biāo)識音頻序列呈現(xiàn)的信息的與音頻序列關(guān)聯(lián)的內(nèi)容或可執(zhí)行動作。在一些實例中,附加信息與音頻內(nèi)容相關(guān)并且不等效于音頻內(nèi)容(例如,它不是音頻內(nèi)容的抄本或摘要)。相反地,它提供音頻內(nèi)容的增強、澄清、啟示或出發(fā)點。事實上,附加的信息以及本文描述的系統(tǒng)提供了音頻內(nèi)容與補充信息之間的關(guān)系,其有助于進一步限定、澄清、擴展或以其他方式增強音頻內(nèi)容,并且可以代表任何不同形式的多個不同頁面的信息。圖10示出了響應(yīng)于接收的音頻而接收、分析和提供相關(guān)信息的功能部件或模塊的集合。盡管大體地描述為以軟件實現(xiàn)并且由一個或多個微處理器(或類似設(shè)備)執(zhí)行的功能模塊,但是圖10的部件可以例如通過一組邏輯門(例如現(xiàn)場可編程門陣列(FPGA))、專用集成電路(ASIC)等等以硬件實現(xiàn)。此外,盡管被示為一起組合成一個單元1000,但是圖10 中所示的一個或多個部件可以在外部實現(xiàn)。例如,大多數(shù)部件可以由捕獲設(shè)備實現(xiàn),其中一個或多個模塊由一個或多個服務(wù)器計算機實現(xiàn)。因此,一些部件可以在移動設(shè)備上安裝和執(zhí)行,而其他部件發(fā)送到網(wǎng)絡(luò)或云進行處理。音頻接收部件1002例如通過麥克風(fēng)接收音頻,并且接收的音頻信號可以根據(jù)需要進行放大或衰減。此外,音頻接收部件1002可以接收預(yù)記錄的音頻文件或者外部產(chǎn)生或公布的流送音頻序列。接收的音頻可以來自任何來源,但是可能對于內(nèi)容豐富的來源特別有用,所述內(nèi)容豐富的來源例如談話節(jié)目、呼入顯示、新聞小時、講座和研討會、播客等等。音頻處理部件1004可以執(zhí)行接收的音頻的特定處理,例如過濾掉不希望的信號的濾波。音頻接收和處理部件一起處理接收的音頻并且將其置入這樣的形式,使得它可以由語音-文本部件1006最佳地轉(zhuǎn)換成文本。例如,如果接收的音頻處于模擬形式,那么音頻接收和處理部件對音頻數(shù)字化以產(chǎn)生數(shù)字化的音頻流。如果接收的音頻文件或音頻流處于不希望的格式,那么這些音頻部件可以將其轉(zhuǎn)換成另一種格式(例如將較大的.wav文件轉(zhuǎn)換成壓縮的.MP3文件)。如果希望的音頻部分是口語音頻,那么這些音頻部件采用帶隙濾波器以從接收的音頻中過濾高頻和低頻音頻分量。語音-文本部件1006將接收的音頻中的口頭單詞轉(zhuǎn)換成文本。語音-文本部件也可以包括話音識別功能,其中針對一個特定的說話者或者一組特定的說話者訓(xùn)練系統(tǒng)以便試圖標(biāo)識說話的人并且基于說話者的已知興趣、創(chuàng)作傾向和/或其他語音和發(fā)音模式更佳地識別正在說什么。存在許多現(xiàn)有的文本-語音部件,例如Nuance通信公司、IBM、微軟等等生產(chǎn)的那些文本-語音部件。在一個實例中,音頻接收部件1002是接收和放大無線電廣播的麥克風(fēng),并且音頻處理部件1004對音頻低頻和高頻分量濾波,使得語音-文本部件 1006理想地僅接收希望的口語音頻。語音-文本部件然后將口語音頻轉(zhuǎn)換成文本,該文本可以存儲為文本文件以供進一步處理。文本分析部件1008使用一個或多個文本分析例程處理文本文件。例如,文本分析部件可以分析文本文件以確定用于文本文件的口頭語言,并且然后處理該文本文件以執(zhí)行校正,例如拼音檢查、語法解析等等。因此,通過識別與口語音頻關(guān)聯(lián)的語言,系統(tǒng)可以標(biāo)識最佳的字典以便幫助進一步的語音-文本轉(zhuǎn)換以及基于拼音檢查、語法校正等等的對得到的文本文件的可能的編輯或改進。文本分析部件可以通過針對特定標(biāo)記物分析接收的音頻而幫助確定文本文件中的主題或相關(guān)內(nèi)容以便標(biāo)識例如談話節(jié)目內(nèi)的重要主題。這些標(biāo)記物可以代表話音的變化(例如升高的話音)、兩個或更多人同時談話、特定詞語(例如“重要的是……”、“概而言之……”)的使用等等。這樣的標(biāo)記物可以代表文本文件的更多相關(guān)部分。音頻處理部件可以在升高的話音、可能的同時說話者等等的接收音頻實例中為文本文件標(biāo)記指示。文本分析部件1008可以創(chuàng)建詞語索引并且創(chuàng)建這樣的詞語的計數(shù)以便順序地標(biāo)識最常說出的詞語。搜索引擎通過解析和存儲文本而執(zhí)行自動索引化以利于快速且精確的信息檢索。在一個實例中,文本分析部件采用所有接收且轉(zhuǎn)換的音頻的全文本索引化以便產(chǎn)生自然語言文本文件,但是系統(tǒng)可以執(zhí)行部分文本索引化以便限制索引化的深度以減小索引尺寸??偟恼f來,為文本文件創(chuàng)建和存儲索引的一個目的是優(yōu)化在分析接收的音頻以便產(chǎn)生搜索查詢方面的速度和性能。在沒有索引的情況下,系統(tǒng)可能需要為執(zhí)行的每個分析或查詢掃描文本文件,這將需要相當(dāng)?shù)臅r間和計算能力??梢赃^濾常用的詞語,例如冠詞 (一、該),以及派生的(stemmed)詞語,使得對語法上相似的詞語分組(例如,分組所有的動詞形式,比如“跳躍”、“正在跳躍”、“已跳躍”)。提取詞干(stemming)是用于將屈折(或者有時是衍生)單詞約簡為它們的詞干、基礎(chǔ)形式或根部形式——通常為書寫的單詞形式的過程。詞干無需與單詞的形態(tài)學(xué)根部相同,而是僅僅相關(guān)的單詞映射到或相應(yīng)于相同的詞干, 即使該詞干本身不是有效的根部。提取詞干的過程不僅在創(chuàng)建索引方面而且在產(chǎn)生用于搜索引擎的查詢方面是有用的。文本分析部件1008可以不僅創(chuàng)建口語詞語的索引,而且創(chuàng)建它們被說出時的時間。如下面所描述的,時間有助于創(chuàng)建視覺界面以便例如在音頻節(jié)目過程期間向接收的音頻的用戶顯示相關(guān)信息。文本分析部件也通過將相鄰的詞語分組成語法詞組而幫助系統(tǒng)標(biāo)識詞組。例如,如果詞語“湖”頻繁地按時間緊緊出現(xiàn)在詞語“伊利”之前,那么系統(tǒng)確定專有名詞“伊利湖”比普通名詞“湖”更可能,并且專有名詞“伊利”用于城鎮(zhèn)。文本分析部件可以將文本文件與字典進行比較以便標(biāo)識專有名詞,并且給專有名詞排序更高或者以其他方式標(biāo)記它們以供本文描述的附加處理。這些專有名詞可以形成例如查詢外部數(shù)據(jù)庫以獲取相關(guān)信息的基礎(chǔ)。文本分析部件1008可以執(zhí)行如本文指出的許多其他操作。例如,文本分析部件 1008可以試圖過濾掉或刪除不想要的信息,例如廣告、站標(biāo)識消息、公共廣播消息等等。文本分析部件1008可以采用自動概括或自動摘取功能以便自動地生成接收的音頻的摘要。自動概括包括通過提取過程或者摘取過程創(chuàng)建文本文件的縮短版本,其中產(chǎn)生的摘要理想地包含原始文本的最重要點。提取技術(shù)僅僅將系統(tǒng)認(rèn)為最重要的信息拷貝到摘要(例如關(guān)鍵從句、句子或段落),而摘取涉及對文本文件的部分進行釋義。通常,摘取可以比提取更加精簡文本文件,但是可以這樣做的過程典型地使用自然語言生成技術(shù),這需要重大的處理能力并且可能產(chǎn)生不可接受的結(jié)果。文本分析部件1008可以分析文本文件以便試圖標(biāo)識離散的音頻片段。例如,文本分析部件可以解析文本文件并且搜索指示主題的轉(zhuǎn)變的常用詞組,例如搜索文本詞組“在相關(guān)問題上”、“現(xiàn)在轉(zhuǎn)向……”、“這引發(fā)了另一個問題……”以及類似的語法構(gòu)造。此外或者可替換地,文本分析部件可以基于文本文件中的單詞的順序和出現(xiàn)時間簡單地執(zhí)行這些單詞的統(tǒng)計分析以記下給定時間間隔期間的與該時間間隔期間涉及的主題或內(nèi)容相應(yīng)的使用頻率。當(dāng)然,可以執(zhí)行許多其他的文本分析技術(shù)以便自動地標(biāo)識文本文件內(nèi)的音頻片段。查詢生成部件1010獲得來自文本分析部件的信息并且生成可以提交給搜索引擎的查詢。在一個實例中,預(yù)定時間段期間最常用的一個或多個口語詞語通過網(wǎng)絡(luò)從移動設(shè)備傳輸?shù)剿阉饕嬉员惬@得與接收的音頻的內(nèi)容相關(guān)的信息。查詢生成部件可以通過自動地使用來自文本文件中的自然語言語句的詞語頻率考慮并且使用布爾連接器和布爾搜索公式來組合一定時間段內(nèi)的常用詞語而生成初始或種子查詢。查詢生成部件可以執(zhí)行查詢擴展或類似技術(shù)。查詢擴展是重新制定種子查詢以提高檢索相關(guān)信息的性能的過程。查詢擴展涉及評估系統(tǒng)創(chuàng)建的初始查詢(選擇了什么單詞, 例如兩分鐘間隔內(nèi)最常用的名詞或名詞詞組)并且擴展搜索查詢以試圖獲得附加的信息。 查詢擴展涉及若干技術(shù),例如尋找單詞的同義詞、通過對查詢中的每個單詞提取詞干來尋找單詞的所有不同的形態(tài)學(xué)形式、自動地搜索校正的形式(例如針對行話或俚語詞組)、對原始查詢中的詞語重新加權(quán)以及將未被原始查詢所包含的上下文信息添加到原始查詢。如上面所指出的,文本分析部件1008和查詢生成部件1010將文本文件或接收的音頻流解析成代表來自接收的音頻的內(nèi)容的內(nèi)容片段,例如音頻節(jié)目期間引發(fā)的各個主題或者提到的名詞,并且這些內(nèi)容片段中的每一個用來生成一個或多個查詢。然后,相關(guān)信息處理部件1012接收和處理系統(tǒng)檢索的相關(guān)信息。在一個實例中,這包括接收相關(guān)信息并且將其提供給顯示設(shè)備以便由用戶觀看。相關(guān)信息歷史部件1014保持基于提交的查詢而接收的所有相關(guān)信息的日志。這允許用戶以后在對于該用戶更方便的時間審查相關(guān)信息。因此,如果用戶在驅(qū)車參加會議時正收聽無線電廣播,那么與該節(jié)目相關(guān)的所有信息可以被存儲并且以后由用戶在方便的時間觀看。通信和路由部件1016處理信息的接收和路由。如上面所指出的,音頻可以通過麥克風(fēng)而被接收,或者作為通過網(wǎng)絡(luò)接收的音頻文件。同樣地,相關(guān)信息可以在移動設(shè)備上接收和顯示,或者路由到另一個設(shè)備。因此,用戶可以請求系統(tǒng)通過通信部件1016路由相關(guān)信息以便在附近的設(shè)備(例如PC計算機、無線相框、膝上型計算機、電視機頂盒)上顯示。因此,通信部件可以訪問用于這樣的設(shè)備的存儲的電子地址以便允許路由相關(guān)信息,例如手機號碼、URL、IP地址等等。本文例如在上面的第II和III節(jié)中描述了關(guān)于圖10的部件的另外的細節(jié)。圖11為用于處理接收的音頻的例程1100。在步驟1102中,系統(tǒng)接收基于音頻的信息,例如如上面所指出的現(xiàn)場或預(yù)記錄的信息。在步驟1104中,系統(tǒng)通過音頻處理部件 1004預(yù)處理接收的音頻,例如濾波。在步驟1106中,系統(tǒng)使用例如語音-文本部件1006將音頻轉(zhuǎn)換成文本。在步驟1108中,系統(tǒng)基于接收的音頻流的內(nèi)容執(zhí)行動作。如本文所描述的,該動作可以采取許多形式之一。圖12為示出步驟1108中執(zhí)行的步驟的流程圖。在步驟1202中,系統(tǒng)使用例如文本分析部件1008標(biāo)識搜索詞語。在步驟1204中,系統(tǒng)使用例如查詢生成部件1010進行查詢或搜索。在步驟1206中,系統(tǒng)(例如通過通信和路由部件1016)接收相關(guān)信息或內(nèi)容。在步驟1208中,系統(tǒng)將接收的和相關(guān)的信息輸出到標(biāo)識的設(shè)備以供顯示,例如輸出到捕獲信息的設(shè)備。例如,通信和路由部件1016以及相關(guān)信息處理部件1012將相關(guān)的信息路由到用戶的移動設(shè)備以及用戶的個人計算機。圖13示出了用于向用戶顯示補充信息的用戶界面。系統(tǒng)可以在上面指出的任何顯示設(shè)備上顯示用戶界面。相關(guān)信息處理部件1012可以生成圖形時間線1302,該圖形時間線被分段以便示出接收的音頻內(nèi)的不同內(nèi)容塊。在圖13的實例中,音頻從2:00:00延伸至 2:30:00,代表30分鐘的音頻節(jié)目。左手“上一個”箭頭1304和右手“下一個”箭頭1306允許用戶指向和點擊這些箭頭以便審查前一個和下一個音頻部分(例如上一個和后續(xù)30分鐘的無線電廣播)的圖形表示。如文本所指出的,系統(tǒng)將文本文件解析成代表音頻節(jié)目期間引發(fā)的各個主題或者來自接收的音頻的內(nèi)容的內(nèi)容片段。這些內(nèi)容片段中的每一個與系統(tǒng)生成的一個或多個查詢以及系統(tǒng)檢索的相關(guān)信息相應(yīng)。各個內(nèi)容片段中的每一個由顯示的矩形片段表示,其前三個分別在圖13中標(biāo)示為1310、1314和1318。相關(guān)信息處理部件1012獲得由相關(guān)信息歷史部件1014索引且存儲于存儲器中的一組相關(guān)信息。在該實例中,響應(yīng)于查詢生成部件1010提供的查詢而獲得三頁或三屏幕相關(guān)信息。提供的相關(guān)信息可以從至網(wǎng)頁的簡單鏈接顯著地變化到從網(wǎng)站拷貝的一個或多個頁面、到基于獲得的相關(guān)信息而創(chuàng)建的一個或多個頁面。創(chuàng)建的頁面可以包括從一個或多個網(wǎng)站獲得的相關(guān)信息,具有剪輯的廣告、聚集到單個頁面的多頁文本、在創(chuàng)建的頁面上整合為單獨部分的畫面等等。如圖13中所示,每個頁面或屏幕包括標(biāo)識從其找到相關(guān)信息頁面的地址的鏈接或URL,并且允許用戶點擊該鏈接并從而轉(zhuǎn)到該頁面。頁面1312也包含從查詢獲得的文本和圖像。
同樣地,第二音頻片段1314與單頁1316文本相應(yīng),而第三音頻片段1318與六個檢索和存儲的內(nèi)容頁面1320相應(yīng),每個內(nèi)容頁面具有鏈接、文本和圖像。從每組堆疊的頁面底部延伸且會聚到相應(yīng)音頻片段的直線在視覺上指示哪堆頁面與每個音頻片段關(guān)聯(lián)。盡管未示出,但是每個音頻片段可以包括由查詢生成部件310創(chuàng)建的搜索查詢以便幫助用戶容易地確定每個音頻片段的主題。因此,如果查詢中的關(guān)鍵詞語是“勃拉姆斯”,那么與該查詢關(guān)聯(lián)的顯示音頻片段被如此加標(biāo)簽。為了進一步幫助用戶,相關(guān)信息處理部件1012可以創(chuàng)建與存儲的相關(guān)信息相應(yīng)的索引1322。如圖所示,該索引代表所有音頻片段以及接收和存儲的相應(yīng)相關(guān)信息的列表或表格。因此,第一音頻片段相應(yīng)于第一時間〈時間1>,接著是該內(nèi)容的描述〈描述>1(例如查詢),接著是獲得的相關(guān)信息列表 < 相關(guān)信息列表1>。對于每個后續(xù)音頻片段,在索引中找到類似的條目,例如 < 時間2>、〈描述2>和 < 相關(guān)信息列表2>。代替如圖13中所示的那樣被存儲并且以后檢查,接收的音頻可以與其生成同時地接收,例如在講座或現(xiàn)場無線電廣播期間接收,并且因而系統(tǒng)可以同時地提供相關(guān)信息以便向用戶顯示。在該實例中,向用戶顯示的相關(guān)信息可以是最少的。例如,無線電廣播可能正描述世界的當(dāng)前騷亂并且提到非洲國家達爾富爾。系統(tǒng)然后可以提供到關(guān)于達爾富爾的維基百科頁面的鏈接或者獲取來自該頁面的內(nèi)容,但是歷史部件將存儲附加的相關(guān)信息以供以后觀看。因此,用戶可以例如在無線電廣播期間通過用戶的移動設(shè)備顯示關(guān)于達爾富爾的維基百科頁面,但是后來(例如當(dāng)晚)走向她的個人計算機以觀看已通過歷史部件存儲的關(guān)于達爾富爾的多個頁面。當(dāng)然,在接收的音頻與得到的呈現(xiàn)給用戶的相關(guān)信息之間可能存在時延。在一些情況下,系統(tǒng)認(rèn)識到該時延并且向用戶提供指示該延遲可能多大的反饋。在一些情況下,系統(tǒng)緩沖接收的音頻以最小化延遲,以便使音頻的呈現(xiàn)與任何呈現(xiàn)的信息同步。對于現(xiàn)場或?qū)崟r接收的音頻,相關(guān)信息處理部件可能沒有足夠的時間以精確地對音頻內(nèi)容消除歧義或者聚集音頻內(nèi)容,如圖13中所示。這可能歸因于移動設(shè)備上的處理限制、時間約束、接收的音頻以及其中的音頻內(nèi)容的容量、在處理音頻以提取文本時所采用的太多的處理開銷(例如具有多個人類說話者和背景音樂的噪聲非常大的環(huán)境)等等。結(jié)果, 系統(tǒng)可以簡單地將接收的音頻分段成周期性片段,例如兩分鐘寬的片段,并且提供與該片段期間解釋的最常用的詞語或詞組關(guān)聯(lián)的單頁相關(guān)信息。用戶可以具有放慢或加快接收的音頻的分段以及因而向用戶提供相關(guān)信息的速率的選項。在該同時顯示實例中提供了很少的相關(guān)信息,因為該信息可能與音頻內(nèi)容不相關(guān)或者對于用戶不重要。用戶可以具有向系統(tǒng)輸入可能具有若干功能之一的標(biāo)志的機會。它可以命令系統(tǒng)提供關(guān)于接收的音頻的內(nèi)容的比典型情況更相關(guān)的信息。另一個標(biāo)志可以簡單地為要向用戶顯示的書簽或視覺指示符。在圖13的實例中,可以以紅色或黃色加亮音頻片段之一以便指示用戶的標(biāo)志,或者可以將標(biāo)志與整個音頻節(jié)目本身關(guān)聯(lián)。另一個標(biāo)志可以與購買接收的音頻中標(biāo)識的物品關(guān)聯(lián)。例如,如果無線電節(jié)目提到圖書,那么用戶可以向移動設(shè)備提供自動地訂購提到的圖書的拷貝的、例如來自用戶的 Amazon, com帳戶的輸入。另一個標(biāo)志可以命令系統(tǒng)在關(guān)于相同的音頻內(nèi)容的后續(xù)文章或其他媒體(例如音頻流)可用時發(fā)送通知給用戶。這將允許用戶跟隨故事并且發(fā)現(xiàn)后續(xù)的事件。
也可以提供標(biāo)志來執(zhí)行其他動作。例如,一個標(biāo)志可以使得系統(tǒng)自動地發(fā)送通知給用戶(電子郵件、SMS、話音郵件等等)以便指示關(guān)于所述音頻內(nèi)容的電視節(jié)目安排在什么時間,并且另一個標(biāo)志可以使得系統(tǒng)命令機頂盒或數(shù)字視頻記錄器記錄節(jié)目。用戶可以輸入缺省和偏好。例如,用戶可以規(guī)定相關(guān)信息來自特定來源或者處于特定格式(例如,當(dāng)可用時,提供與音頻內(nèi)容關(guān)聯(lián)的任何公共電視內(nèi)容)??梢圆捎迷S多可替換的或附加的過程以增強系統(tǒng)的性能。例如,為了進一步幫助音頻處理,系統(tǒng)可以幫助試圖定位“最佳的”音頻版本。如果用戶例如在特定時間和日期期間收聽國家公共電臺,那么系統(tǒng)可以在■· npr. org訪問該音頻節(jié)目的文件或音頻流。根據(jù)該音頻,系統(tǒng)可能能夠更精確得多地將語音轉(zhuǎn)換成文本。如果系統(tǒng)有權(quán)訪問例如可能在電視廣播中可用的說話者嘴唇的視頻文稿,那么系統(tǒng)可以通過執(zhí)行幫助改進語音-文本轉(zhuǎn)換的自動唇讀而改進改進語音-文本轉(zhuǎn)換。文本分析部件1008 (和/或語音-文本部件)可以分析上下文信息以執(zhí)行更佳的文本分析(或語音-文本轉(zhuǎn)換)。因此,系統(tǒng)可以分析與接收的音頻關(guān)聯(lián)的時間并且將該時間與日歷或調(diào)度程序的日歷條目進行比較以標(biāo)識該音頻可能與什么相關(guān)。如果用戶的日歷表明,在接收音頻的時間,用戶正在往返會議,那么系統(tǒng)可以假定用戶在她的汽車?yán)锊⑶以隍?qū)車參加會議時正收聽收音機。這將與表明用戶參加關(guān)于瑪雅文學(xué)的講座的日歷形成對照。文本分析部件也可以獲得表明用戶正以每小時60英里的速度移動的位置信息,進一步指示用戶在她的汽車?yán)?。位置信息同樣地可以用來幫助確定用戶位于華盛頓大學(xué),這可以指示用戶在上她的瑪雅文學(xué)課。如果出現(xiàn)沖突,例如用戶移動設(shè)備上的本地日歷與別處存儲的遠程日歷之間的沖突,那么移動日歷可以為準(zhǔn)(control)。在另一個實例中,系統(tǒng)可以根據(jù)用戶的日歷確定在給定的時間和位置,用戶應(yīng)當(dāng)正在參加醫(yī)療講座。如果時間戳和地理坐標(biāo)或類似元數(shù)據(jù)指示用戶在預(yù)定的時間和預(yù)定義的位置,那么系統(tǒng)具有用戶在參加她的醫(yī)療講座的高概率。結(jié)果,系統(tǒng)可以采用醫(yī)學(xué)字典以幫助更佳地將語音轉(zhuǎn)換成文本。如上面所指出的,系統(tǒng)自動地試圖對文本文件消除歧義并且標(biāo)識其中的重要內(nèi)容。例如,如果文本包含緊接“不可能的”且在詞語“電影”附近的詞語“任務(wù)”,那么系統(tǒng)確定說話者正談及電影《不可能的任務(wù)》的較高概率。因此,查詢生成部件可以獲得關(guān)于電影 《不可能的任務(wù)》的相關(guān)信息,可能地具有放映時間和用戶當(dāng)前所處位置附近的影院位置。 事實上,系統(tǒng)可以試圖積累來自接收的音頻的內(nèi)容并且將其應(yīng)用到關(guān)于用戶位置和接收的音頻的時間戳之前和之后的矢量或模式的上下文信息。如果用戶在她的辦公地點達兩個小時,然后以每小時30英里的平均速度離開她的辦公室,接著停留在與用戶的個人電話簿中的客戶地址相應(yīng)的位置,那么系統(tǒng)具有用戶參加客戶會面的高概率,并且因而接收的音頻是來自與客戶的會面,即使日歷中沒有列出這樣的會面。移動設(shè)備的運動可以執(zhí)行特定的動作。如果用戶正在閱讀膝上型計算機或數(shù)字閱讀器(例如Amazon Kindle)上的圖書,并且系統(tǒng)認(rèn)識到用戶已經(jīng)從她的住宅移動到她的汽車并且開始驅(qū)車,那么系統(tǒng)可以命令汽車中的音頻系統(tǒng)以音頻形式重播圖書。這可以通過讓移動設(shè)備本地地或者從網(wǎng)絡(luò)定位圖書的音頻拷貝并且通過無線鏈接將其提供給汽車中的頭端音頻單元來實現(xiàn)。可替換地,移動設(shè)備可以從圖書的文本版本轉(zhuǎn)換文本-語音,并且通過移動設(shè)備上的揚聲器/藍牙鏈接/音頻插孔輸出它或者將它提供給汽車中的頭端單元,等等。系統(tǒng)可以例如在用戶正在閱讀的圖書或文章現(xiàn)在在用戶汽車中的一個或多個頻道或無線電臺/衛(wèi)星頻道上、在電視節(jié)目上可用的情況下自動地感測類似的上下文切換。查詢部件可以實現(xiàn)數(shù)據(jù)查詢和相關(guān)信息檢索功能的層次結(jié)構(gòu)以便幫助提高相關(guān)信息實際上與接收的音頻相關(guān)且為用戶感興趣的概率。因此,如果無線電廣播提到圖書,那么查詢部件可以檢索關(guān)于該圖書的作者的相關(guān)信息、該作者撰寫的社論或作品批評、廣播員提供的信息(如上面指出的)以及作為節(jié)目的結(jié)果而提供或生成的信息。這樣生成的內(nèi)容可以是討論論壇、附加的呼入信息、開放論壇和其他音頻信息以及可通過互聯(lián)網(wǎng)獲得的基于文本的信息(例如博客、RSS文稿、推特的帖子或者接收的音頻中提到的圖書、文章或出版物的其他版本)的形式。按照類似的方式,系統(tǒng)可以幫助自動地為用戶創(chuàng)建帖子,使得用戶可以公布她自己的反映她自己的關(guān)于音頻內(nèi)容的觀點或貢獻的關(guān)鍵頻道。因此,用戶可以通過博客、推特、撥入、播客等等自動地發(fā)布系統(tǒng)自動地檢索且由歷史部件存儲的內(nèi)容。采用該系統(tǒng)的不同用戶于是可以通過社交網(wǎng)絡(luò)社區(qū)而連接,使得他們可以在他們自己的“頻道”上對彼此的貢獻做出評價或投票、在彼此的頻道上添加或校正信息以及幫助為其內(nèi)容接收到更多投票、較少被第三方編輯的那些用戶建立證書等等。如上面指出的,系統(tǒng)可以試圖標(biāo)識接收的音頻的最佳版本。如果系統(tǒng)不能根據(jù)上下文(例如用戶的位置、用戶的運動、日時、日歷條目等等)進行確定,那么系統(tǒng)可以試圖根據(jù)音頻中的模式來標(biāo)識最佳的音頻版本,所述模式可以與存儲的音頻文件中的模式進行比較。音頻的模式可以代表靜默及其時間、音頻的動態(tài)范圍的變化等等的模式,其代表音頻文件的簡單分析以開發(fā)用于該音頻的基本上唯一的“簽名”。因此,無需復(fù)雜的語音-文本處理,并且事實上只需分析音頻的小部分。根據(jù)該簽名,系統(tǒng)可以將計算的簽名與簽名數(shù)據(jù)庫進行比較,其中所述數(shù)據(jù)庫包括簽名的表格和關(guān)聯(lián)的音頻文件。如果獲得匹配,那么系統(tǒng)然后可以訪問該短的音頻文件并且執(zhí)行語音-文本轉(zhuǎn)換或者本文描述的其他處理,而不是試圖基于具有較少保真度的噪聲更多的接收的音頻版本來執(zhí)行這樣的分析??偨Y(jié)
所述系統(tǒng)的實施例和實例的以上詳細描述并非預(yù)期是詳盡無遺的或者將該系統(tǒng)限于上面公開的精確形式。盡管上面出于說明的目的描述了該系統(tǒng)的特定實施例和實例,但是如相關(guān)領(lǐng)域技術(shù)人員將認(rèn)識到的,各種不同的等效修改可能處于該系統(tǒng)的范圍內(nèi)。作為一個實例,盡管過程和功能塊以給定的順序給出,但是可替換的實施例可以執(zhí)行具有不同順序的步驟的例程或者采用具有不同順序的功能塊的系統(tǒng),并且可以刪除、移動、添加、細分、 組合和/或修改一些過程或功能塊。這些過程或功能塊中的每一個可以以各種各樣的不同方式實現(xiàn)。此外,盡管過程或功能塊有時被示為串行地執(zhí)行,但是這些過程或功能塊可以改為并行地執(zhí)行,或者可以在不同的時間執(zhí)行。盡管上面描述的許多實施例和實例采用存儲在移動設(shè)備或其他計算系統(tǒng)內(nèi)的有形存儲介質(zhì)上的軟件,但是應(yīng)用和過程可以硬編碼到計算系統(tǒng)中(例如存儲到EEPR0M、PR0M
等等中)。本文提供的系統(tǒng)的教導(dǎo)可以應(yīng)用于其他系統(tǒng),不必一定是上面描述的系統(tǒng)。上面描述的不同實施例的元件和動作可以組合以提供另外的實施例。所有上面的專利和申請以及其他參考文獻,包括伴隨的提交文件中可能列出的任何文獻,都通過引用合并在內(nèi)。所述系統(tǒng)的各方面可以經(jīng)過修改(如果必要的話)以便采用上面描述的各個參考文獻的系統(tǒng)、功能和構(gòu)思以提供該系統(tǒng)的進一步的實施例??梢愿鶕?jù)上面的具體實施方式
對系統(tǒng)做出這些和其他改變。盡管上面的描述詳述了系統(tǒng)的特定實施例并且描述了設(shè)想的最佳模式,但是不管上述內(nèi)容在文字中出現(xiàn)得如何詳細,所述系統(tǒng)都可以以許多方式實施。因此,該系統(tǒng)的實際范圍不僅包含所公開的實施例,而且也包含在權(quán)利要求書中實施或?qū)崿F(xiàn)該系統(tǒng)的所有等效方式。盡管所述系統(tǒng)的特定方面在下文中以特定權(quán)利要求形式給出,但是本發(fā)明人預(yù)期系統(tǒng)的不同方面處于任何數(shù)量的權(quán)利要求形式中。例如,盡管僅僅系統(tǒng)的一個方面被記載為以計算機可讀介質(zhì)實施,但是其他方面同樣地可以以計算機可讀介質(zhì)實施。因此,本發(fā)明人保留在提交本申請之后添加附加權(quán)利要求的權(quán)利以便針對系統(tǒng)的其他方面追求這樣的附加權(quán)利要求形式。
權(quán)利要求
1.一種向用戶提供相關(guān)信息的方法,由一個或多個第一計算設(shè)備執(zhí)行,每個第一計算設(shè)備包括處理器和存儲器,該方法包括當(dāng)接收用戶提供的文本時,由所述一個或多個第一計算設(shè)備中的至少一個重復(fù)地自動執(zhí)行以下步驟監(jiān)控接收的文本; 選擇該文本的部分;至少部分地基于文本的選擇的部分來形成查詢;在沒有用戶對傳輸?shù)奶囟ㄕ埱蟮那闆r下,將所述查詢傳輸?shù)揭粋€或多個第二計算設(shè)備中的至少一個;從所述一個或多個第二計算設(shè)備中的至少一個接收與查詢相關(guān)的信息;以及由所述一個或多個第一計算設(shè)備中的至少一個顯示相關(guān)信息。
2.權(quán)利要求1的方法,其中接收用戶提供的文本包括作為生成文檔的一部分而接收用戶提供的文本。
3.權(quán)利要求1的方法,進一步包括選擇要搜索的至少一個索引;以及至少部分地基于選擇的索引來選擇所述一個或多個第二計算設(shè)備。
4.權(quán)利要求1的方法,其中接收用戶提供的文本包括接收由所述一個或多個第一計算設(shè)備光學(xué)捕獲的文本。
5.權(quán)利要求1的方法,其中至少部分地基于文本的選擇的部分來形成查詢包括形成包含與文本的選擇的部分中的單詞不同的單詞的查詢。
6.權(quán)利要求1的方法,其中至少部分地基于文本的選擇的部分來形成查詢包括形成與文本的選擇的部分關(guān)聯(lián)的第一查詢并且形成與文本的選擇的部分周圍的文本關(guān)聯(lián)的第二查詢。
7.權(quán)利要求1的方法,其中選擇文本的部分包括由所述一個或多個第一計算設(shè)備光學(xué)捕獲再現(xiàn)的文檔上印刷的文本;并且其中至少部分地基于文本的選擇的部分來形成查詢包括根據(jù)捕獲的文本標(biāo)識所述再現(xiàn)的文檔并且至少部分地基于標(biāo)識的文檔形成查詢。
8.權(quán)利要求1的方法,其中文本包括句子并且其中選擇文本的部分包括標(biāo)識該句子的多個成分并且選擇所述多個成分中的至少一個作為文本的選擇的部分。
9.一種計算機可讀介質(zhì),其內(nèi)容使得一個或多個第一計算設(shè)備執(zhí)行一種提供相關(guān)信息的方法,該方法包括監(jiān)控接收第一信息;分析第一信息;基于該分析,形成查詢;在沒有接收明確請求的情況下將所述查詢傳輸給一個或多個索引;從所述一個或多個索引接收與第一信息相關(guān)的第二信息;以及由所述一個或多個第一計算設(shè)備中的至少一個的信息輸出設(shè)備提供所述第二信息。
10.權(quán)利要求9的計算機可讀介質(zhì),其中第一信息由字處理應(yīng)用接收。
11.移動設(shè)備中的用于顯示與再現(xiàn)的文檔關(guān)聯(lián)的內(nèi)容的方法,該方法包括捕獲來自再現(xiàn)的文檔的文本的部分; 基于捕獲的文本,標(biāo)識所述再現(xiàn)的文檔; 確定所述再現(xiàn)的文檔與一個或多個電子內(nèi)容源關(guān)聯(lián);以及呈現(xiàn)來自關(guān)聯(lián)的一個或多個電子內(nèi)容源的內(nèi)容。
12.權(quán)利要求11的方法,其中確定所述再現(xiàn)的文檔與一個或多個電子內(nèi)容源關(guān)聯(lián)包括標(biāo)識與標(biāo)識的再現(xiàn)的文檔關(guān)聯(lián)的標(biāo)志并且定位包含與標(biāo)識的標(biāo)志相關(guān)的內(nèi)容的內(nèi)容源。
13.權(quán)利要求11的方法,其中捕獲來自再現(xiàn)的文檔的文本的部分包括使用移動設(shè)備的成像部件來光學(xué)捕獲文本的所述部分;并且其中呈現(xiàn)來自關(guān)聯(lián)的一個或多個電子內(nèi)容源的內(nèi)容包括通過移動設(shè)備的顯示部件顯示代表所述關(guān)聯(lián)的一個或多個電子內(nèi)容源的圖形元素。
14.權(quán)利要求11的方法,其中確定所述再現(xiàn)的文檔與一個或多個電子內(nèi)容源關(guān)聯(lián)包括響應(yīng)于所述再現(xiàn)的文檔的標(biāo)識而自動地確定所述一個或多個電子內(nèi)容源。
15.移動設(shè)備中的用于與電子內(nèi)容源交互的系統(tǒng),該系統(tǒng)包括光學(xué)捕獲部件,其中該光學(xué)捕獲部件被編程為使用移動設(shè)備的成像部件來捕獲來自再現(xiàn)的文檔的信息;文檔標(biāo)識部件,其中該文檔標(biāo)識部件被編程為基于捕獲的信息來標(biāo)識再現(xiàn)的文檔;以及內(nèi)容標(biāo)識部件,其中該內(nèi)容標(biāo)識部件被編程為響應(yīng)于從文檔標(biāo)識部件接收的指示再現(xiàn)的文檔被標(biāo)識的信息而自動地標(biāo)識與標(biāo)識的再現(xiàn)的文檔關(guān)聯(lián)的內(nèi)容源。
16.權(quán)利要求15的系統(tǒng),進一步包括內(nèi)容源部件,其中該內(nèi)容源部件被編程為基于從移動設(shè)備的用戶接收的輸入來更新標(biāo)識的內(nèi)容源。
17.一種用于響應(yīng)于音頻信息而提供補充信息的方法,該方法包括 接收音頻信息,其中該音頻信息包含口語信息;將該口語信息轉(zhuǎn)換成文本;處理該文本以標(biāo)識至少一個內(nèi)容項;以及基于該內(nèi)容項,獲得補充信息。
18.權(quán)利要求17的方法,其中音頻信息通過麥克風(fēng)實時地接收,其中所述處理包括生成查詢且將該查詢提交給基于web的搜索引擎,并且其中該方法包括響應(yīng)于該查詢而提供從基于web的搜索引擎接收的至少一些補充信息以供顯示。
19.一種計算機可讀介質(zhì),其內(nèi)容在由計算系統(tǒng)執(zhí)行時使得該計算系統(tǒng)執(zhí)行一種用于執(zhí)行與音頻流關(guān)聯(lián)的動作的方法,該方法包括捕獲來自音頻流的信息,其中捕獲的信息包含口語內(nèi)容;基于捕獲的信息來標(biāo)識要執(zhí)行的動作,其中該動作與來自音頻流的信息或者音頻流的來源關(guān)聯(lián);以及執(zhí)行該動作。
20.權(quán)利要求19的計算機可讀介質(zhì),其中基于捕獲的信息來標(biāo)識要執(zhí)行的動作包括標(biāo)識與捕獲的信息關(guān)聯(lián)的視覺內(nèi)容;并且其中執(zhí)行該動作包括通過與計算系統(tǒng)關(guān)聯(lián)的顯示器顯示標(biāo)識的視覺內(nèi)容。
21.權(quán)利要求W的計算機可讀介質(zhì),其中基于捕獲的信息來標(biāo)識要執(zhí)行的動作包括標(biāo)識與捕獲的信息關(guān)聯(lián)的內(nèi)容;并且其中執(zhí)行該動作包括將標(biāo)識的內(nèi)容存儲在與音頻流關(guān)聯(lián)的日志中,該日志將音頻流中的時間位置與標(biāo)識的內(nèi)容相關(guān)。
全文摘要
描述了一種用于自動地提供與捕獲的信息關(guān)聯(lián)的內(nèi)容的系統(tǒng)和方法。在一些實例中,系統(tǒng)接收用戶的輸入,并且自動地提供與輸入關(guān)聯(lián)的內(nèi)容或者到該內(nèi)容的鏈接。在一些實例中,系統(tǒng)通過文本輸入或者通過從再現(xiàn)的文檔(例如印刷文檔)、對象、音頻流等等中捕獲文本而接收輸入。
文檔編號G06Q50/00GK102349087SQ201080011222
公開日2012年2月8日 申請日期2010年3月12日 優(yōu)先權(quán)日2009年3月12日
發(fā)明者J. 達利-沃森 C., 彼得森 J., J. 史密斯 M., T. 金 M., 桑維泰爾 M., 斯蒂芬斯 R., 克雷斯-弗雷德里克·曼比 申請人:谷歌公司