專利名稱:感測、存儲、索引并檢索充分利用用戶活動、注意和興趣的數(shù)據(jù)的測量的制作方法
感測、存儲、索引并檢索充分利用用戶活動、注意和興趣的數(shù)據(jù)的測量 背景
計算機平臺提供多個用于存儲和處理大型且可變型數(shù)據(jù)集的工具。這些工具 包括字處理工具、數(shù)據(jù)呈現(xiàn)工具、計算機輔助圖形工具、電子郵件處理工具、日歷 與調(diào)度工具、以及各種數(shù)據(jù)庫操縱工具。假定數(shù)據(jù)在平臺上可以有多種利用,則己 經(jīng)隨時間逐漸形成多少是以內(nèi)容為中心的應(yīng)用程序。換句話說,當(dāng)數(shù)據(jù)已存儲在計 算機數(shù)據(jù)庫中時,則該數(shù)據(jù)隨后會以基于存儲數(shù)據(jù)的實際內(nèi)容的某種方式被檢索和 /或操縱。在一個特定示例中,可以基于關(guān)鍵詞而在電子郵件收件箱中搜索以前接 收的電子郵件,上述關(guān)鍵詞將搜索工具鏈接至與搜索詞(term)相關(guān)聯(lián)的各電子郵 件,其中該搜索詞則鏈接至所存儲電子郵件的實際內(nèi)容。因此,如果用戶搜索關(guān)鍵 詞"John",那么可以檢索任何與該關(guān)鍵詞相關(guān)聯(lián)的電子郵件并將其呈現(xiàn)給用戶, 由此用戶接著對與搜索詞"John"相關(guān)聯(lián)的所需的電子郵件的檢索列表進行篩選。 雖然可以在所得郵件列表中檢索用戶正搜索的特定電子郵件,但是為了找到所需的 電子郵件接著要搜索大量電子郵件(例如,三十封電子郵件包含搜索詞John)。 正如可以認(rèn)識到的那樣,上述示例所描述的電子郵件處理可以擴展至包括許多類的 數(shù)據(jù)處理和文件操縱活動。例如這些活動可包括己存儲數(shù)據(jù)的索引,已存儲數(shù)據(jù)的 呈現(xiàn),各類已存儲數(shù)據(jù)的搜索,數(shù)據(jù)排列,數(shù)據(jù)索引等等。
通常在涉及以內(nèi)容為中心的應(yīng)用程序的情況下, 一種"已完成"文檔由讀者 進行檢索、瀏覽、及利用的普遍觀點一般不足以為知識密集型任務(wù)提供充分支持。 因此,用戶或者用戶組也應(yīng)該能夠向知識源添加他們自己的信息。在一個示例中, 歷史學(xué)家可能想要向某本書的一個章節(jié)中添加詳細(xì)的分析。另一用戶可能想要用從 該分析中獲悉的經(jīng)驗來對該書的一部分做出注釋。
雖然所有文檔實際在Web上或通過Web可用,但是它們的超文本能力當(dāng)前沒 有廣泛用于直接修改或注釋現(xiàn)有信息(例如,書籍、論文、網(wǎng)頁、等等)。相反地, 當(dāng)內(nèi)容被確信"完成"時,它就被存儲為某種類型的檔案文件(例如,數(shù)字圖書館), 并最終被作為單片實體進行檢索,從而用于生成更多的內(nèi)容。此外,信息檢索的任 務(wù)通常無法與內(nèi)容逐漸形成(devd叩ment)的任務(wù)相結(jié)合。于是,用戶不得不檢索他們認(rèn)為任務(wù)所需的文檔并在隨后讓內(nèi)容的逐漸形成以找到的信息為基礎(chǔ)。雖然 新的文檔搜索通常能被手工啟動,但是更為強制的觀點是應(yīng)該將內(nèi)容的逐漸形成與 檢索合并。一種連續(xù)掃描和分析用戶輸入的新文本的系統(tǒng)應(yīng)該能夠搜索額外的相關(guān) 信息并將其呈現(xiàn)給用戶,然后該用戶可以例如審査該新數(shù)據(jù)、合并它、添加交叉引 用、或者拒絕所建議的資源。
另一方面則是來自一個源的知識在沒有文檔創(chuàng)建者或其讀者的上下文的描述 的情況下通常不能得到應(yīng)用。僅僅是兩個上下文框架的顯式表示才允許它們之間 (半自動的)的變換在上述示例中,舊知識能夠適合現(xiàn)代的標(biāo)準(zhǔn)和詞匯,但是當(dāng) 當(dāng)前以數(shù)字格式創(chuàng)建并存儲的所有文檔本身變成"歷史知識"時,類似的問題可能 會在中期和長期的將來越來越多地出現(xiàn)。
當(dāng)前,用戶通過某種索引和排列系統(tǒng)來獲取文檔普通網(wǎng)頁的網(wǎng)絡(luò)搜索引擎, 或者用于數(shù)字圖書館的某種信息檢索系統(tǒng)(歷史上,這些系統(tǒng)的根源不同,但是現(xiàn) 代的實現(xiàn)展示了這些技術(shù)間的交迭)。在任一情況下,這些系統(tǒng)通常返回完整的文 檔,可以是網(wǎng)頁、論文或整本書。這就是很多用戶都有的實際上是處理無止境信息 源的"信息超載"感覺的主要的原因之一。
概要
為了提供對這里描述的某些方面的基本理解,以下呈現(xiàn)簡明概要。該概要不 是廣泛的概觀也不旨在標(biāo)識關(guān)鍵/關(guān)鍵性元素或者敘述在此描述的各方面的范圍。 其唯一目的是呈現(xiàn)以簡化顯式呈現(xiàn)某些概念以作為下文呈現(xiàn)的更加詳細(xì)描述的序曰。
與純以內(nèi)容為中心的數(shù)據(jù)處理應(yīng)用程序形成對比的是,與文件或應(yīng)用程序相 關(guān)聯(lián)的元數(shù)據(jù)標(biāo)簽?zāi)軌蛴糜诖龠M有效信息的存儲和/或?qū)π畔⒌脑L問。對例如與個 別文件或應(yīng)用程序相關(guān)聯(lián)的數(shù)據(jù)的用戶活動或交互表示一種特別的興趣和有效的 元數(shù)據(jù)類型,并成為很多應(yīng)用程序的焦點。由于用戶隨時間處理數(shù)據(jù),則可根據(jù)活 動的類型和強度來監(jiān)視并加權(quán)各用戶對數(shù)據(jù)的活動。例如,如果用戶通過添加和從 文件中移除文本而頻繁與一特定文件進行大量的交互,則可以按元數(shù)據(jù)或其他指示 這種活動的方式向該文件分配分?jǐn)?shù)或權(quán)重。
在另一實例中,如果文件很少被交互(例如, 一年內(nèi)打開一次),則與文件 的這種相對不交互能夠引起較低權(quán)重的分配——指明該文件對用戶可能不太重要。 注意到,能夠根據(jù)大范圍的文件使用活動并有關(guān)多種不同的活動來分配分?jǐn)?shù)和權(quán)重,這些活動諸如創(chuàng)建、打開、瀏覽、滾動,編輯,打印、注解、保存、轉(zhuǎn)發(fā)等等。 活動的權(quán)重或模式隨后能夠與數(shù)據(jù)項、項的子部分、或項組相關(guān)聯(lián)(例如,在數(shù)據(jù) 庫的一列中標(biāo)記)。該活動權(quán)重隨后可由諸如搜索應(yīng)用程序的數(shù)據(jù)操縱工具使用, 用以例如將一組較大的數(shù)據(jù)項進一步限定為一組較小的或更容易管理的項。例如, 并不僅僅以內(nèi)容為中心關(guān)鍵詞來搜索一組數(shù)據(jù)項,還搜索經(jīng)由活動增強線索來搜索 可被增加的信息,從而更為有效地檢索感興趣的期望數(shù)據(jù)(例如,找出被轉(zhuǎn)發(fā)給一 特定用戶的所有文件,找出己經(jīng)被其他應(yīng)用程序最常使用的表示的子集,確定最后 編輯過的段落等等)。
為了實現(xiàn)上述和相關(guān)目標(biāo),在此連同下文的說明書和附圖描述某些示例性的 方面。這些特征是能夠?qū)嵺`的各種方式的表示,這些表示都旨在被此囊括。其他的 優(yōu)點和新穎特征會在結(jié)合附圖考慮時下文詳細(xì)描述中變得顯而易見。
附圖簡述
圖1是示出了一種利用用戶活動或交互數(shù)據(jù)的數(shù)據(jù)處理系統(tǒng)的示意框圖。 圖2示出了利用用戶活動或交互數(shù)據(jù)的示例性用戶接口 。 圖3示出了用戶活動決定與進程的流程圖。
圖4示出了能夠由用戶活動數(shù)據(jù)處理利用的信息檢索體系結(jié)構(gòu)的一個示例性系統(tǒng)。
圖5示出了能夠由用戶活動或交互數(shù)據(jù)利用的一個示例性用戶模型。 圖6是示出根據(jù)用戶活動或交互數(shù)據(jù)的基于訪問的信息檢索的系統(tǒng)圖。 圖7示出了能夠由用戶活動或交互數(shù)據(jù)利用的檢索服務(wù)應(yīng)用程序。 圖8是示出了適當(dāng)操作環(huán)境的示意框圖。 圖9是示例計算環(huán)境的示意框圖。
詳細(xì)說明
提供了能夠?qū)Χ喾N數(shù)據(jù)類型進行數(shù)據(jù)處理的各種組件和過程,在其中確定并 利用用戶的活動或與數(shù)據(jù)的交互以進一步根據(jù)上述活動處理該數(shù)據(jù)。例如,所述活 動或交互能被監(jiān)視并接著被標(biāo)記至數(shù)據(jù)項(例如,分配權(quán)重并應(yīng)用于數(shù)據(jù)庫中各列 的文件交互活動)以供稍后用于搜索、索引、編目錄、排列、或瀏覽駐留在數(shù)據(jù)庫 中的各種數(shù)據(jù)項(或項子集)。在一個具體方面,提供一種數(shù)據(jù)操縱系統(tǒng)。該系統(tǒng) 包括與一個或多個標(biāo)簽相關(guān)并指示與各數(shù)據(jù)項交互的至少一個用戶的一個或多個數(shù)據(jù)項。操縱工具(例如,搜索工具)處理所述數(shù)據(jù)項以至少部分基于用戶與各數(shù)
據(jù)項的交互來確定一數(shù)據(jù)項的子集。
如本申請所使用的,術(shù)語"組件"、"系統(tǒng)"、"標(biāo)簽"、"監(jiān)視"、"模 型"、"查詢"等等旨在涉及計算機相關(guān)的實體,可以是硬件、軟硬件結(jié)合、軟件、
或執(zhí)行中的軟件。例如,組件可以是但不限于在處理器上運行的進程、處理器、對 象、可執(zhí)行程序、執(zhí)行線程、程序、和/或計算機。作為說明,服務(wù)器上運行的應(yīng) 用程序和該服務(wù)器都可被稱為組件。 一個或多個組件可駐留在進程和/或執(zhí)行線程 中以及組件可被本地化在一個計算機上和/或分布在兩個或多個計算機之間。同樣 地,這些組件能運行其上存儲有多種數(shù)據(jù)結(jié)構(gòu)的各種計算機可讀介質(zhì)。這些組件可 通過本地和/或遠(yuǎn)程進程進行通信,例如根據(jù)具有一個或多個數(shù)據(jù)分組的信號(例 如,來自一組件的數(shù)據(jù)與本地系統(tǒng)、分布式系統(tǒng)中的另一組件交互和/或該數(shù)據(jù)經(jīng) 信號跨越諸如因特網(wǎng)的網(wǎng)絡(luò)來與另一組件交互)。
在此所使用的術(shù)語"推理"通常涉及推出或推斷來自一組觀察的系統(tǒng)、環(huán)境、 和/或用戶的狀態(tài)的過程,其中該組觀察是經(jīng)由事件和/或數(shù)據(jù)捕捉的。能夠利用推 理來標(biāo)識特定上下文或活動,或者能夠生成例如各狀態(tài)的概率分布。所述推理可以 是隨機的——即,對感興趣各狀態(tài)的概率分布的計算是基于對數(shù)據(jù)與事件的考慮而 進行的。推理也涉及用于從一組事件和/或數(shù)據(jù)中編寫更高標(biāo)準(zhǔn)事件的技術(shù)。這樣 的推理從一組觀測的事件和/或存儲的事件數(shù)據(jù)中產(chǎn)生新事件或活動的結(jié)構(gòu),無論 這些事件是否瞬時緊密相關(guān),也不論這些事件和數(shù)據(jù)是來自一個還是幾個事件或數(shù) 據(jù)源。此外,推理可以建立在邏輯模型或規(guī)則的基礎(chǔ)上,由此可以通過分析從中得 出的上述數(shù)據(jù)和附圖的結(jié)論來確定各組件或數(shù)據(jù)間的關(guān)系。例如,通過觀察一個用 戶與網(wǎng)絡(luò)上一個其他用戶的子集進行交互,就可確定或推斷這一用戶子集與多個其 他從不或很少與其交互的用戶相比,是屬于該用戶感興趣的期望社交網(wǎng)絡(luò)。
首先參考圖1,系統(tǒng)ioo示出一種利用用戶活動或交互數(shù)據(jù)來執(zhí)行各種計算機
相關(guān)任務(wù)的數(shù)據(jù)處理體系結(jié)構(gòu)。監(jiān)視組件110隨時觀察與存儲一個或多個數(shù)據(jù)項
130的一個或多個數(shù)據(jù)庫120所進行的數(shù)據(jù)交互。監(jiān)視經(jīng)由后臺和/或前臺組件(未 示出)進行并被用戶用于確定與數(shù)據(jù)項130的交互時間。例如,這可包括觀察文件 何時被打開或關(guān)閉、編輯、添加或刪除、讀取或?qū)懭?、剪切、粘貼、最后編輯、轉(zhuǎn) 發(fā)、答復(fù)、發(fā)送、最后瀏覽、瀏覽時間、隨時間范圍的交互時間、指明多久該項 130或該項的不同子組分是所關(guān)注的重點等等。
當(dāng)一個文件應(yīng)用程序被打開并且一特定數(shù)據(jù)項130由應(yīng)用程序內(nèi)部產(chǎn)生時,可以利用各種技術(shù)來確定應(yīng)用程序內(nèi)的活動。這些可包括監(jiān)視用戶在一組特定數(shù)據(jù) 或數(shù)據(jù)子集上研究多久,什么數(shù)據(jù)已被修改或觀察,數(shù)據(jù)每隔多久被操作以及在什 么時間間隔被操作等等。標(biāo)簽組件140根據(jù)被監(jiān)視的數(shù)據(jù)活動分配權(quán)重或分?jǐn)?shù)。如 果需要,這些能被隨機分配(或其他加權(quán)分類),并能夠反映用戶與數(shù)據(jù)或應(yīng)用程 序給定片段的交互數(shù)量或模式。例如,最小文件使用率比擴展編輯文件所產(chǎn)生的權(quán) 重低。當(dāng)己確定權(quán)重和分?jǐn)?shù)時,有關(guān)活動的確定的權(quán)重信息被關(guān)聯(lián)至或標(biāo)記至一個
或多個數(shù)據(jù)項并被示出為活動數(shù)據(jù)150。這種關(guān)聯(lián)可以在數(shù)據(jù)庫120中發(fā)生,例如 創(chuàng)建或修改數(shù)據(jù)庫120的一列或幾列中的值,從而為感興趣的元數(shù)據(jù)標(biāo)簽指明在數(shù) 據(jù)庫120的某行中標(biāo)識出的一特定項的權(quán)重或重要性??梢岳斫?,這些列是邏輯實 體并且既可以被明確地存儲也可以在使用時被動態(tài)計算。其他類型的關(guān)聯(lián)可以包括 直接或間接分配給一個或多個數(shù)據(jù)項130的元數(shù)據(jù)引用。
標(biāo)簽和數(shù)據(jù)項130能夠與一個或多個數(shù)據(jù)操縱工具一起應(yīng)用,而這些工具能 夠利用源于標(biāo)簽的用戶活動信息來增加信息存儲(例如,有效的索引創(chuàng)建)、信息 訪問(例如,搜索、過濾或排列各項)以及信息呈現(xiàn)(例如,組織,排列或呈現(xiàn)各 項)等等。在170處,來自數(shù)據(jù)操縱工具160的結(jié)果被自動生成并且能夠包括形成 大型數(shù)據(jù)項集合130的簡化數(shù)據(jù)項子集。由于在此沒有應(yīng)用,術(shù)語"子集"可包括 所有或部分?jǐn)?shù)據(jù)項BO。同樣地,可以在工具160中可設(shè)置活動極限以在結(jié)果170 中或多或少地包含數(shù)據(jù)項130。
另一方面,基于內(nèi)容的得分可被分配給各文檔。例如,可以基于用戶查詢與 文檔內(nèi)容的相似度來分配得分。這樣,當(dāng)排列時,例如可以向在已被編輯或用戶長 時間閱讀的文檔或部分文檔中出現(xiàn)的搜索詞給予更重的權(quán)重。在系統(tǒng)100的另一方 面中,活動數(shù)據(jù)150可用于指定感興趣的區(qū)域或搜索詞。這樣,文檔區(qū)域中的不同 權(quán)重可被用于
1) 壓縮索引以優(yōu)先包含感興趣區(qū)域中的搜索詞;
2) 有差別地加權(quán)感興趣區(qū)域中的搜索詞用于排列;
3) 有差別地加權(quán)感興趣區(qū)域中的搜索詞用于相關(guān)性反饋;
4) 根據(jù)當(dāng)前用戶聚焦區(qū)域自動或半自動地生成查詢;和/或
5) 有差別地呈現(xiàn)(通過高亮或其他技術(shù))感興趣的各項或項的區(qū)域。
在此描述的系統(tǒng)和方法支持多種數(shù)據(jù)處理應(yīng)用。這包括處理數(shù)據(jù)項例如文檔、 文件、電子郵件信息、日程約會、網(wǎng)頁、數(shù)據(jù)項或交叉項抽象中的子部分。將標(biāo)簽 用于數(shù)據(jù)項可表示用戶最后一次訪問該項的位置,或者表示用戶己訪問項或與項交
8互的各次歷史位置。標(biāo)簽表示用戶最后訪問項的時間、項已被訪問的總次數(shù),表示 延續(xù)至過去的周期內(nèi)項已被訪問的頻率,或者表示一個或多個任意指定的時間段內(nèi) 項已被訪問的頻率??梢蕴峁┢渌M件以編碼隨時間訪問頻率的高階統(tǒng)計。 一種情 況下,瀏覽器允許用戶基于一個或多個標(biāo)簽的功能來檢索項,允許用戶基于一個或 多個標(biāo)簽的功能來分類或過濾檢索出的各項,或者另選地基于一個或多個標(biāo)簽的功 能來呈現(xiàn)檢索出的各項。另一種情況下,標(biāo)簽可以是活動或興趣的隨機指定。
各種進程包括用數(shù)據(jù)項分析用戶活動。這包括自動標(biāo)注接收來自計算機用戶 的數(shù)據(jù)項的交互的數(shù)量和特性,利用該標(biāo)簽根據(jù)將來的數(shù)據(jù)活動進一步處理各數(shù)據(jù) 項。這些進程可以包括將數(shù)據(jù)存儲到與單獨數(shù)據(jù)庫中的各數(shù)據(jù)項相關(guān)聯(lián)的注意注解 內(nèi)或存儲到嵌入各數(shù)據(jù)項的數(shù)據(jù)結(jié)構(gòu)內(nèi)。同樣還能夠提供索引過程,該過程根據(jù)指 示對數(shù)據(jù)項的注意或與交互的注解狀態(tài)而有差別地權(quán)重數(shù)據(jù)項的子組分以供檢索。 這包括根據(jù)指示對數(shù)據(jù)項的注意或與交互的注解狀態(tài)來監(jiān)督或刪除數(shù)據(jù)項中的信 息的索引過程。索引能夠通過移除未被計算機用戶所注意或者未與其交互的組件或 者很少被注意或與數(shù)據(jù)項組件交互的組件而被壓縮。另一方面,排列得分可用于數(shù) 據(jù)檢索,為出現(xiàn)在用戶已注意或交互的數(shù)據(jù)項部分的搜索詞或?qū)ο笊筛氐臋?quán) 重。這能夠包括基于過去和/或現(xiàn)在己被注意或交互的區(qū)域利用注意的注解來自動 或半自動地生成查詢。關(guān)注的注解也可被用于提供已在過去和/或現(xiàn)在被注意或交 互的項的差別訪問或差別顯示。
注意到各注意的注解不僅可以被編碼為數(shù)據(jù)項本身的注意也可以被編碼為各 項子組分的注意,其中所述注意捕獲每個已被接收的子組分及注意的指針或其他指 示。例如,考慮一個諸如211頁文檔的大型文檔。該文檔可能已被打開交互并被注
意了23次,例如被捕獲作為該文檔的一類注意的注解。然而,其他的注意的注解 指示例如用戶己重復(fù)檢查第4-6、 89-93、 123-124、 198頁,——并快速掠過該文檔 的其他頁。于是,就能列出每個子組分并能在該注解中編碼該文本每一部分的注意 的量。
圖2示出利用用戶活動或交互數(shù)據(jù)的典型用戶接口 200。在這個示例中,操縱 工具210 (例如,應(yīng)用于數(shù)據(jù)庫的用戶接口)能夠與輸出或顯示220相關(guān)聯(lián)。工具 210可包括用于來自一個或多個數(shù)據(jù)庫的處理數(shù)據(jù)的多個特征。例如,工具210可 包括用于使能數(shù)據(jù)搜索、數(shù)據(jù)的索引或編目、數(shù)據(jù)的排列等等的選擇。這樣的數(shù)據(jù) 能夠包括文本數(shù)據(jù),例如XML數(shù)據(jù)或ASCII數(shù)據(jù)。其他數(shù)據(jù)包括圖像數(shù)據(jù)、音頻 數(shù)據(jù)、視頻數(shù)據(jù)、圖形數(shù)據(jù)、和/或呈現(xiàn)數(shù)據(jù),例如包含在一連串幻燈片中的數(shù)據(jù)。實質(zhì)上能夠利用任何數(shù)據(jù)類型或應(yīng)用程序,包括電子數(shù)據(jù)表,統(tǒng)一資源定位符
(URL)信息,因特網(wǎng)或Web數(shù)據(jù)等等。如上關(guān)于圖l所述,這些數(shù)據(jù)能夠例如
在列中被標(biāo)記或作為文件元數(shù)據(jù)以指示作為各交互過去使用率的分?jǐn)?shù)或權(quán)重。操縱 工具隨后就能搜索、檢索、或處理標(biāo)記的數(shù)據(jù),以便為用戶改進或確定更多可管理 的數(shù)據(jù)子集。
工具210的輸出220可以是文件或?qū)嶋H的用戶界面顯示。例如,如果該工具 被用作數(shù)據(jù)庫中的搜索引擎,則輸出可能是返回結(jié)果的顯示。返回的信息如230 中所示可以在本質(zhì)上更為全局。這可以包括加亮文件或?qū)D形應(yīng)用于文件以指示一 個文件或文件組因為其與用戶的活動增強而己被選擇。例如在電子郵件搜索工具 中,工具210可用于搜索具有關(guān)鍵詞計算機并已具有至少一個在上個月與該文件相 關(guān)聯(lián)的圖形圖像的所有文件。搜索能夠以多種方式開展并能夠包括內(nèi)容搜索的組 合、基于活動的搜索、和/或其組合。例如,在此示例中, 一組十封電子郵件中的 有三封由于具有比其他七封電子郵件更高的活動分?jǐn)?shù)而用一種顏色加亮顯示,而其 他七封電子郵件以一種不同顏色描繪。在240處的另一方面,返回的文件或數(shù)據(jù)集 中的信息能被加亮或注解以指示使用活動(例如,用不同的字體格式選擇的文件中 的段落以突出其在文檔中的使用區(qū)域)。
圖3示出用于確定并應(yīng)用用戶活動或交互數(shù)據(jù)的進程300。然而出于解釋簡要 的目的,該方法被顯示并描述為一系列或數(shù)個動作,但可以理解并認(rèn)識到該主題進 程不受動作的順序限制,由于一些動作能夠根據(jù)主題進程以不同順序發(fā)生和/或與 在此示出并描述的其他動作同時發(fā)生。例如,本領(lǐng)域普通技術(shù)人員將會理解并認(rèn)識 到可以另外地將一種方法表現(xiàn)為一系列相關(guān)的狀態(tài)或事件現(xiàn),例如狀態(tài)圖。此外, 根據(jù)主題進程,并非所有示出的動作都是實現(xiàn)一方法所必須的。
行進至310,監(jiān)視與一個或多個本地或遠(yuǎn)程數(shù)據(jù)庫的數(shù)據(jù)交互。這種監(jiān)視能在 后臺和/或前臺應(yīng)用程序中出現(xiàn)并用于確定數(shù)據(jù)或文件何時與用戶交互。例如,這 包括觀測文件何時被打開或關(guān)閉、編輯、添加或刪除、讀取或?qū)懭氲鹊取.?dāng)應(yīng)用程 序打開并且特定數(shù)據(jù)正在應(yīng)用程序中操作時,可使用各種技術(shù)來確定該應(yīng)用程序中 的活動。這些包括監(jiān)視用戶對一組特定數(shù)據(jù)或數(shù)據(jù)子集關(guān)注了多久,什么數(shù)據(jù)已被 修改或觀察等等。外部監(jiān)視也可以與該應(yīng)用程序相關(guān)聯(lián)以確定用戶交互的數(shù)據(jù)、文 件或應(yīng)用程序。例如,可使用音頻插入、自動面部識別技術(shù)、或者數(shù)據(jù)集與用戶高 度相關(guān)的顯式用戶指令。
在320,確定被監(jiān)視活動的權(quán)重。權(quán)重可被隨機分配并能反映用戶與數(shù)據(jù)或應(yīng)用程序給定片段的交互的量。例如,幾乎未被精讀的文檔可以產(chǎn)生比擴展編輯的文 檔更低的權(quán)重。在330,為活動確定的權(quán)重信息被關(guān)聯(lián)或標(biāo)記至一個或多個數(shù)據(jù)項。 該關(guān)聯(lián)能夠在數(shù)據(jù)庫的限制內(nèi)產(chǎn)生,例如標(biāo)注數(shù)據(jù)庫的一列或多列以指示在該數(shù)據(jù) 庫某行中被標(biāo)識的特定項的權(quán)重或重要性。其他類型的關(guān)聯(lián)包括直接或間接分配給
一個或多個數(shù)據(jù)項的元數(shù)據(jù)引用。在340,標(biāo)簽和數(shù)據(jù)項可與數(shù)據(jù)處理應(yīng)用程序一
并應(yīng)用。這可以包括利用源于標(biāo)簽的活動信息來增加對項的搜索、對項的索引、對
項的安排、對項的排列、對項的組織等等。在350,生成來自數(shù)據(jù)處理應(yīng)用程序的 結(jié)果。這包括諸如將大型結(jié)果集過濾為較小子集的顯式動作,或者更多精細(xì)動作, 諸如注解顯示器以在該顯示器上加亮顯示文件或數(shù)據(jù),從而指示那些項已與用戶更 頻繁交互。
參考圖4, 一示例性系統(tǒng)400示出可與用戶活動數(shù)據(jù)處理一起使用的信息檢索 體系結(jié)構(gòu)。系統(tǒng)100描述了用于個性化檢索結(jié)果的通用圖示,然而其他形式的數(shù)據(jù) 操縱可由上述方法實現(xiàn)。個性化組件410包括基于用戶活動的用戶模型420以及處 理組件(例如,根據(jù)用戶模型修改的檢索算法),用于通過修改查詢430和/或修 改搜索返回的結(jié)果440來使用該模型影響搜索的結(jié)果。用戶接口 450生成查詢430 并根據(jù)由個性化組件410提供的查詢修改470和/或結(jié)果修改460來接收修改的或 個性化的結(jié)果。如在此所利用的,術(shù)語"查詢修改"涉及關(guān)于查詢430中術(shù)語的替 代以及與文檔査詢430匹配的算法的替代以獲取個性化結(jié)果440。修改的查詢和/ 或結(jié)果440從一個或多個本地和/或遠(yuǎn)程搜索引擎480返回。用戶統(tǒng)計信息的全局 數(shù)據(jù)庫490可被保持以便于對用戶模型420的更新。值得注意的是,用戶模型420 和/或全局統(tǒng)計信息490可與前述的用戶活動或交互數(shù)據(jù)相關(guān)聯(lián)以便于數(shù)據(jù)的操縱 或處理。
通常,至少有兩種方法適應(yīng)基于用戶模型420的搜索結(jié)果。 一方面,查詢修 改處理最初的輸入查詢并且修改或重新生成該査詢(經(jīng)由用戶模型)以產(chǎn)生個性化 的結(jié)果。相關(guān)性反饋是該進程的雙循環(huán)變化,其中查詢生成導(dǎo)致修改查詢的結(jié)果(利 用對原始結(jié)果集顯式或隱式的判斷),其中該修改查詢基于該查詢和結(jié)果集產(chǎn)生個 性化短期模型的個性化結(jié)果。長期用戶模型也可在相關(guān)性反饋的上下文中使用。而 且,查詢修改還涉及對用于匹配査詢與文檔的算法做出的替代。另一方面,結(jié)果修 改把用戶輸入按現(xiàn)狀生成查詢,以產(chǎn)生隨后將被修改(經(jīng)由用戶模型)來生成個性 化結(jié)果的結(jié)果。需要注意的是結(jié)果的修改通常包括某種形式的重新排列和/或從能 夠包括對確定的數(shù)據(jù)活動的考慮或權(quán)重的較大替代集中做出的選擇。結(jié)果的修改還能夠包括所有結(jié)果或結(jié)果子集的各類聚集和匯總。
用于修改結(jié)果的方法包括統(tǒng)計相似性匹配(其中用戶興趣和內(nèi)容被描繪成向 量并與項匹配),以及分類匹配(其中利用較小的描述符集表示用戶興趣和內(nèi)容并
將其與項匹配)。上述査詢修改或結(jié)果修改的進程能夠以獨立或在一集成進程中的 方式被合并,在該集成進程中依賴性被引入兩個進程之間并被充分利用。
參考圖5,示出的用戶模型500可用于用戶活動或交互數(shù)據(jù)。該用戶模型500
用于將個性化搜索與通用搜索區(qū)分開來并根據(jù)確定的活動數(shù)據(jù)來促進豐富的數(shù)據(jù) 處理。成功的個性化一方面是創(chuàng)建準(zhǔn)確反映用戶興趣并易于維持且屬于有關(guān)長期與
短期興趣變化的用戶模型。該用戶模型可從各種源獲得,包括但不限于
1) 在510從計算上下文的豐富歷史中,該上下文可從本地、移動、或遠(yuǎn)程
源(例如,應(yīng)用程序公開、這些應(yīng)用程序的內(nèi)容、以及包括位置在內(nèi)的這些交互的 詳細(xì)歷史)獲得。
2) 在520從在前遇到的內(nèi)容(例如,文檔、網(wǎng)頁、電子郵件、即時消息、 附注、日程約會等等)的豐富索引中。
3) 在530從監(jiān)視包括最近或頻繁接觸、源于關(guān)鍵詞的感興趣的主題、組織 圖中的關(guān)系、約會等的客戶交互中。
4) 在540從包括在前搜索查詢的歷史的在前網(wǎng)頁或訪問的本地/遠(yuǎn)程數(shù)據(jù) 網(wǎng)站中的歷史或記錄中。
5) 在550從可被顯式指定或經(jīng)后臺監(jiān)視隱式導(dǎo)出的用戶興趣簡檔中。
6) 在560從人口統(tǒng)計信息(例如,位置、性別、年齡、背景、工作種類等 等)中。
上述實施例中需要注意用戶模型500可基于多種不同的信息源。例如,模型 500可源于用戶隨時間訪問的位置的歷史或記錄,正如像全球定位系統(tǒng)(GPS)裝 置所監(jiān)視的那樣。當(dāng)使用GPS監(jiān)視時,原始空間信息能被轉(zhuǎn)化成文本的城市名稱 及郵政編碼。原始的空間信息能被轉(zhuǎn)化成例如有關(guān)用戶暫?;蝰v留或發(fā)生GPS信 號丟失時位置的文本的城市名稱及郵政編碼。用戶暫?;蝰v留或發(fā)生GPS信號丟 失的位置可經(jīng)由商業(yè)數(shù)據(jù)庫和興趣點被識別并轉(zhuǎn)化成文本符號。其他因素包括記錄 日時或星期幾來確定位置和興趣點。
在其他方面,能夠提供組件來操縱參數(shù),以在基于類型、年齡、或其他組合 的個性化匹配的過程中控制如何能夠?qū)⒂脩舻男畔⑷?corpus)、約會、對文檔 或文件的瀏覽、活動或位置分組成有差別地子集或權(quán)重。例如,檢索算法可能被限
12制在屬于査詢(例如,包含査詢術(shù)語的文檔或過去交互數(shù)據(jù))的用戶全集的那些方 面。類似地,可以分析前一個月的電子郵件,而分析的網(wǎng)頁訪問則是前三天的,分 析的用戶內(nèi)容則是去年內(nèi)創(chuàng)建的??梢云谕荒苁褂媒裉旎蚱渌麜r間段的GPS定 位信息。各參數(shù)能夠被自動操縱以創(chuàng)建子集(例如,經(jīng)由改變參數(shù)并測試來自用戶 或系統(tǒng)的響應(yīng)的優(yōu)化處理)或者用戶能夠經(jīng)由用戶接口改變這些參數(shù)的一個或多 個,其中這些設(shè)置可以是查詢特性、日時、星期幾、或其他上下文或基于活動的觀 測的函數(shù)。
在570模型能夠諸如經(jīng)由協(xié)作過濾技術(shù)而從個體或個體組中導(dǎo)出,其中協(xié)作 過濾技術(shù)通過分析個體或個體組間的相似性來逐漸形成各簡檔。相似度計算可以以 內(nèi)容和/或各項的使用率為基礎(chǔ)。需要注意的是建模的基礎(chǔ)架構(gòu)和關(guān)聯(lián)處理可駐留 在客戶、多個客戶、 一個或多個服務(wù)器、或服務(wù)器與客戶的組合中。
在580,機器學(xué)習(xí)技術(shù)能夠被應(yīng)用于隨時間學(xué)習(xí)用戶特征和興趣以及怎樣與何 時同用戶交互數(shù)據(jù)。學(xué)習(xí)模型實質(zhì)上能夠包括諸如統(tǒng)計/數(shù)學(xué)模型的任何類型的系 統(tǒng),以及處理,用于建模用戶并包括使用貝葉斯學(xué)習(xí)來確定偏好與興趣的進程,上 述貝葉斯學(xué)習(xí)能夠生成貝葉斯依賴性模型,例如貝葉斯網(wǎng)絡(luò),自然貝葉斯分類器和 /或例如包括支持向量機(SVM)在內(nèi)的其他統(tǒng)計分類方法。其他類型的模型或系 統(tǒng)可以包括例如祌經(jīng)網(wǎng)絡(luò)以及隱藏馬爾可夫模型。盡管可使用精細(xì)推理模型,但應(yīng) 該認(rèn)識到也可以使用其他方法。例如,與其使用更全面的概率方法,還不如使用確 定性的假設(shè)(例如,在最近X長的時段內(nèi)為對一特定網(wǎng)站進行搜索按規(guī)則意味著 用戶不再對相應(yīng)的信息感興趣)。這樣,除了不確定性的推理外,還可以做出對用 戶的狀態(tài)、位置、環(huán)境、興趣、焦點等的邏輯判定。
學(xué)習(xí)模型能夠從收集或聚集來自多個不同數(shù)據(jù)源的數(shù)據(jù)的用戶事件數(shù)據(jù)存儲 (未示出)中得到訓(xùn)練。這些數(shù)據(jù)源可以包括多種錄制或記錄用戶事件數(shù)據(jù)(例如, 手機、由麥克風(fēng)錄制的聲音活動、全球定位系統(tǒng)(GPS)、電子日歷、可視監(jiān)視裝 置、桌面活動、網(wǎng)站交互等等)的各種數(shù)據(jù)采集組件。注意到該系統(tǒng)實質(zhì)上可由支 持個性化査詢和結(jié)果處理的任何方式實現(xiàn)。例如,該系統(tǒng)可被實現(xiàn)為服務(wù)器、服務(wù) 器場、客機內(nèi)應(yīng)用程序,或者更概括地包括網(wǎng)絡(luò)服務(wù)器或其他與諸如用戶界面與搜 索引擎的搜索功能交互的自動化應(yīng)用程序。
在繼續(xù)行進之前,將更為詳細(xì)地描述應(yīng)用于在570的用戶模型500的協(xié)作過 濾技術(shù)。這些技術(shù)可包括對協(xié)作過濾器的利用以分析數(shù)據(jù)并確定有關(guān)該用戶的簡 檔。協(xié)作過濾系統(tǒng)通常使用有關(guān)用戶偏好的集中數(shù)據(jù)庫來預(yù)測用戶可能想要的額外主題。協(xié)作過濾應(yīng)用于用戶模型500以處理來自一組用戶的在前用戶活動,這些活 動可能會指示給定用戶的預(yù)期偏好或系統(tǒng)新用戶的可能簡檔。可以使用包括基于相 關(guān)系數(shù)、基于向量的相似度計算、以及統(tǒng)計貝葉斯方法的技術(shù)在內(nèi)的各種算法。
參考圖6,系統(tǒng)600示出根據(jù)用戶活動或交互數(shù)據(jù)的基于存取的信息檢索。所 述系統(tǒng)600包括用戶訪問或考慮的一個或多個信息源610。這些源610可以是相似 的或?qū)嵸|(zhì)上具有完全不同的信息內(nèi)容,由此一些信息源可以表示諸如文件、文件夾、 應(yīng)用程序、圖像、音頻文件、約會、電子郵件等本地數(shù)據(jù)的位置,而其他資源610 則可以表示例如網(wǎng)絡(luò)信息的遠(yuǎn)程源。由于用戶隨時間訪問不同類型的信息,使用率 分析器614將該信息傳遞給內(nèi)容分析器620 (或監(jiān)視器)以及自動分度器630,其 中內(nèi)容分析器620可作為本地化在客戶上的后臺任務(wù)和/或根據(jù)遠(yuǎn)程服務(wù)器經(jīng)由過 濾器624處理訪問的數(shù)據(jù)用于分析數(shù)據(jù)內(nèi)容,而分度器630則創(chuàng)建訪問數(shù)據(jù)項的內(nèi) 容索引640 (或活動標(biāo)簽)。
通常,分析器620在索引640中創(chuàng)建訪問數(shù)據(jù)的表示。例如,如果用戶己經(jīng) 訪問一網(wǎng)頁,則內(nèi)容分析器620可創(chuàng)建該網(wǎng)頁的縮略圖表示并將超級鏈接引用與該 網(wǎng)頁和縮略圖表示相關(guān)聯(lián)以作為元數(shù)據(jù)文件的一部分。該表示可被進一步加工以反 映用戶與網(wǎng)頁交互的詳細(xì)模式。在另一種情況下,如果用戶隨后訪問其中包含圖像 的文本文檔,則分析器620可提取該文本或其部分,并關(guān)聯(lián)例如文件路徑的數(shù)據(jù)庫 鏈接作為元數(shù)據(jù)的一部分。分度器630隨后可以在內(nèi)容索引640內(nèi)自動創(chuàng)建具有兩 個項的索引(或向現(xiàn)有的索引中添加)——包括元數(shù)據(jù)的縮略圖表示和文本文檔表 示。通常,過濾器分析與項相關(guān)聯(lián)的內(nèi)容及元數(shù)據(jù)。這樣,對于字處理文檔而言, 例如過濾器624提取諸如文檔名稱、標(biāo)題、作者、關(guān)鍵詞、創(chuàng)建日期等的元數(shù)據(jù), 并連同該文檔中的詞。這就是創(chuàng)建索引640所使用的。如果需要,縮略圖的創(chuàng)建和 圖像的分析也可在過濾器624中被壓縮。可使用包含其他項諸如用戶和/或描述存 儲在內(nèi)容索引640內(nèi)各項的隱式標(biāo)簽的活動或交互元數(shù)據(jù)。注意到分度器630也可 以執(zhí)行過濾器624的功能(例如,分度器將元數(shù)據(jù)和過濾的內(nèi)容相關(guān)聯(lián))。
提供搜索組件650來接收有關(guān)包含在內(nèi)容索引640中的各信息項的用戶查詢 654。搜索組件650可被設(shè)為用戶界面的一部分,以響應(yīng)查詢654而在660將訪問 的項的鏈接和/或表示返回給用戶。例如,用戶可查詢"涉及去年性能審閱的項", 其中,搜索組件650從索引640中提取諸如電子郵件、同事評定、去年出版的文檔、 網(wǎng)頁圖像、音頻記錄等的涉及查詢654上下文的項。在另一示例中,可從查詢654 獲得隱式查詢(例如,每逢接到某人的電話,就阻止來自此人的最近五封電子郵件)。如下文將更為詳述的那樣,可以采用多種不同的格式來呈現(xiàn)訪問的項,這些 格式被設(shè)計用以對在前己被訪問的信息項進行高效及時的檢索。同樣地,這些鏈接 和/或表示660可包括用戶感興趣的其他項,諸如提供除了在前訪問的項之外的用 戶想看的信息項(例如,系統(tǒng)基于臨近査詢或從臨近查詢中推斷,以提供對感興趣 的內(nèi)容的鏈接,例如,除了顯示性能審閱項之外,還可任選地基于另一個內(nèi)容索引 提供對描述審閱策略的人力資源的鏈接,即使用戶可能已在前訪問這些項也可能尚 未訪問這些項。)
一方面,可提供一事件組件(未示出)(例如,監(jiān)視與使用率分析器614相 關(guān)聯(lián)的用戶活動的后臺任務(wù))。事件組件監(jiān)視諸如存儲、讀出、編輯、復(fù)制、覆蓋 信息、選擇信息、操縱信息和/或刪除文件的用戶活動并做出有關(guān)用戶活動的決定。 這可包括諸如麥克風(fēng)、攝影機的傳感器,以及連同監(jiān)視桌面活動以確定用戶活動或 目標(biāo)的其他裝置。在一個示例中,概率模型和/或邏輯判定可被用于確定諸如何時 用戶已觀測或考慮信息的事件。可以考慮以下與用戶活動模式相關(guān)聯(lián)的證據(jù)的示例
性分類來構(gòu)造邏輯和/或概率模型(例如,貝葉斯從屬模型、決策樹、支持向量機)
注意點選擇和/或駐留在各項上,駐留在文檔的各部分上或在滾動瀏 覽了整個文檔后駐留在一個特定的子文本(subtext)上。
自我測量活動周期后的暫?;蚪换ニ俾实娘@著減緩。
不需要的信息短暫掃視后立即關(guān)閉文檔,企圖在信息訪問動作后返回 前一狀態(tài)。這些觀察包括取消當(dāng)前活動的影響,包含發(fā)出取消命令,并刪除項。
指定域的語法和語義內(nèi)容考慮文檔內(nèi)容或結(jié)構(gòu)的特殊區(qū)別以及用戶如 何與這些特征或項進行交互。這些包括與任務(wù)相關(guān)聯(lián)的指定域的特征。(例如,考 慮電子郵件信息的速度和頻率,以及主標(biāo)題信息的時間和數(shù)量的壽命,其來源于用 戶注意焦點的信息的作者)。可以注意到,事件組件可用于以用戶活動為基礎(chǔ)來啟 動各類信息的索引。具有信息對象的用戶活動也可用于改進信息表達。
圖7示出各種檢索服務(wù)應(yīng)用程序700。 一方面,顯式查詢710和/或隱式查詢 714能被支持。顯式查詢710直接由用戶引導(dǎo)以找出感興趣的信息(例如,顯示所 有關(guān)于會議或日期的數(shù)據(jù)引用)。隱式査詢714在某些情況下能夠從顯式查詢710 導(dǎo)出。例如,用戶可能將他們的桌面電話消息與他們的電子郵件系統(tǒng)或其他消息系 統(tǒng)鏈接。如果有來自被選個體的電話,則電子郵件系統(tǒng)可經(jīng)由隱式查詢714自動檢 索與該個體相關(guān)的電子郵件。在另一示例中,在將召開會議前的預(yù)定間隔處,用戶 的日歷系統(tǒng)可啟動查詢以重新調(diào)用過去會議的數(shù)據(jù)或者與參加此將召開會議的各個個體相關(guān)的信息。同樣地,隱式査詢714還可基于與用戶當(dāng)前上下文或查詢相關(guān) 聯(lián)的推理進程而生成(例如,包含當(dāng)前讀取段落中重要詞的查詢)。
行進至716,其他類型的查詢支持上下文敏感查詢。這些類型的查詢包括提供
額外選項來編輯或進一步限定搜索。例如,查詢可被導(dǎo)向至特定類型的應(yīng)用或位置
(例如,僅將此查詢應(yīng)用于郵件箱)。在720,可以在執(zhí)行查詢時考慮應(yīng)用程序的 上下文。例如,如果正在使用照片應(yīng)用程序,則隨后該查詢可被進一歩限定為僅搜 索圖像。在724中,可執(zhí)行以項為中心的集中。這包括支持諸如鼠標(biāo)點擊功能、標(biāo) 記項、更新元數(shù)據(jù)文件、刪除項、編輯項或內(nèi)容等的界面活動的操作系統(tǒng)活動。 在730中,可以執(zhí)行文件共享。例如,用戶可以指定能夠?qū)彇嘶蛟L問所有查
詢/索引數(shù)據(jù)庫或其子集(例如,允許我任務(wù)組中的所有用戶訪問我的任務(wù)筆記) 的一個或多個其他用戶。在734中,索引擦除可能發(fā)生。隨著時間流逝,用戶可能 想要從其索引中移除一個或多個項。根據(jù)此活動,用戶能夠指定特定項以移除或指 定能夠被系統(tǒng)自動擦除的常用主題區(qū)域(例如,移除與我兩年前生日有關(guān)的縮略 圖)。其他活動可基于邏輯或推理進程發(fā)生,諸如若在預(yù)定時期內(nèi)對一項的訪問少 于一特定次數(shù),則該項可在需要時被自動移除。
在740,考慮有效的時間計算。作為一個示例,涉及文件的相關(guān)或有用日期(在 數(shù)據(jù)呈現(xiàn)給用戶期間)是那些被更改的日期,呈現(xiàn)給郵件的日期通常是郵件被投遞 的日期(于是也大約是用戶看見的時間),以及對約會有用的日期是約會發(fā)生的日 期。注意到所有被記錄和索引的時間信息以及那些有用的日期信息都可用于信息的 呈現(xiàn)。因此,對于約會而言,會出現(xiàn)各種任務(wù),諸如索引郵件的發(fā)送時間、更新時 間(如果發(fā)生的話)、用戶接受/拒絕的時間、以及會議發(fā)生的時間等等。雖然能 夠提供了一個以上的時間,但通常只會有一個時間被選中用于顯示。
如上所述,通過分析與文件類型相關(guān)聯(lián)的文件元素,某些數(shù)據(jù)能夠被標(biāo)記為 已被在前觀察。例如,文本文檔可包括一個指示文檔什么時候被打開或最后編輯的 字段。然而關(guān)于日歷約會,僅創(chuàng)建日程何時被創(chuàng)建的索引對人們來說很可能益處不 大,因為有時會議在實際會議日期之前是被很好地創(chuàng)建。因此,當(dāng)索引日歷約會時, 能夠跟蹤與創(chuàng)建日期相對的實際會議數(shù)據(jù)。此類有效時間的考慮能夠讓用戶以一種 更適于存儲器重新調(diào)用的方式來檢索信息。在744,數(shù)據(jù)的易失性被考慮和處理。 這類處理包括在中斷操作期間將數(shù)據(jù)索引為持久形式??梢宰⒁獾?,各種自動化的 后臺操作都是可能的。
參考圖8,用于實現(xiàn)在此描述的各方面的示例性環(huán)境810包括計算機812。所述計算機812包括處理單元814、系統(tǒng)存儲器816、以及系統(tǒng)總線818。系統(tǒng)總線 818將包括但不限于系統(tǒng)存儲器816的系統(tǒng)組件耦合至處理單元814。處理單元814 可以是任何可用的處理器。雙微處理器以及其他多處理器體系結(jié)構(gòu)也可被用作處理 單元814。
系統(tǒng)總線818可以是包括存儲器總線或存儲器控制器、外部總線或內(nèi)部總線, 和/或局部總線的各種總線結(jié)構(gòu)中的任一種,其中局部總線使用任一種可用的總線 結(jié)構(gòu),包括但不限于11位總線、工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)、微通道結(jié)構(gòu)(MSA)、 擴展ISA (EISA)、集成驅(qū)動器電子電路(IDE) 、 VESA本地總線(VLB)、外 圍元件互連(PCI)、通用串行總線(USB)、高級圖形接口 (AGP)、個人計算 機存儲卡國際聯(lián)合會總線(PCMCIA)、以及小型計算機系統(tǒng)接口 (SCSI)。
系統(tǒng)存儲器816包括易失性存儲器820以及非易失性存儲器822。包含例如在 啟動期間在計算機812內(nèi)部各元件之間傳送信息的基本例程的基本輸入輸出系統(tǒng) (BIOS)被存儲在非易失性存儲器822中。作為說明而非限制,非易失性存儲器 822可包括只讀存儲器(ROM)、可編程ROM(PROM)、電可編程ROM(EPROM)、 電可擦除ROM (EEPROM)、或閃速存儲器。易失性存儲器820包括作為外部高 速緩沖存儲器的隨機存取存儲器(RAM)。作為說明而非限制,RAM是多種形式 可用的,諸如同步RAM(SRAM)、動態(tài)RAM (DRAM)、同步DRAM (SDRAM)、 雙倍數(shù)據(jù)速率SDRAM (DDR SDRAM)、增強SDRAM (ESDRAM)、同步鏈接 DRAM (SLDRAM)、以及直接內(nèi)存總線RAM (DRRAM)。
計算機812還包括可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)。例如 圖8中示出磁盤存儲824。磁盤存儲824包括但不限于以下設(shè)備磁盤驅(qū)動器、軟 盤驅(qū)動器、磁帶驅(qū)動器、Jaz驅(qū)動器、Zip驅(qū)動器、LS-100驅(qū)動器、閃速存儲卡、 或存儲棒。此外,磁盤存儲824可包括分開的存儲介質(zhì)或與其他存儲媒體的組合, 包括但不限于諸如光盤ROM設(shè)備(CD-ROM) 、 CD可記錄驅(qū)動器(CD-R Drive)、 CD可重寫驅(qū)動器(CD-RW Drive)或數(shù)字化視頻光盤驅(qū)動器(DVD-ROM)的光 盤驅(qū)動器。為了簡化磁盤存儲設(shè)備824與系統(tǒng)總線818的連接,通常使用諸如接口 826的可移動或不可移動接口。
注意到圖8描述了用作用戶與在適當(dāng)操作環(huán)境810中描述的基本計算機資源 之間的中介物的軟件。這種軟件包括操作系統(tǒng)828。操作系統(tǒng)828可存儲在磁盤存 儲824中,用來控制和分配計算機系統(tǒng)812資源。系統(tǒng)應(yīng)用程序830通過存儲在系 統(tǒng)存儲器816或磁盤存儲824中的程序模塊832和程序數(shù)據(jù)834來利用由操作系統(tǒng)828管理的資源。注意到在此描述的各種組件可實現(xiàn)帶有各種操作系統(tǒng)或操作系統(tǒng) 的組合。
用戶通過輸入裝置836向計算機812中輸入指令或信息。輸入裝置836包括 但不限于指示設(shè)備,諸如鼠標(biāo)、跟蹤球、鐵筆、觸控板、鍵盤、麥克風(fēng)、操縱桿、 游戲墊、衛(wèi)星反射器、掃描儀、TV調(diào)諧器卡、數(shù)字照相機、數(shù)字?jǐn)z影機、網(wǎng)絡(luò)照 相機等等。這些以及其他輸入裝置經(jīng)由接口端口 838通過系統(tǒng)總線818連接至處理 單元814。接口端口 838例如包括串行端口、并行端口、游戲端口、以及通用串行 總線(USB)。輸出裝置840使用一些與輸入裝置836相同類型的端口。因此,例 如USB端口可用于向計算機812提供輸入,以及將計算機812中的信息輸出到輸 出裝置840。輸入適配器842被提供用于示出存在一些象是監(jiān)視器、揚聲器、以及 打印機一類的需要特定的適配器的輸出裝置840。作為說明而非限制,輸出適配器 842包括在輸出裝置840與系統(tǒng)總線818間提供一種連接途徑的顯卡或聲卡。應(yīng)該 注意到諸如遠(yuǎn)程計算機844的其他設(shè)備和/或設(shè)備系統(tǒng)可以同時提供輸入和輸出能 力。
計算機812利用對諸如遠(yuǎn)程計算機844的一個或幾個遠(yuǎn)程計算機的邏輯連接 而能夠在聯(lián)網(wǎng)環(huán)境中進行操作。遠(yuǎn)程計算機844可以是個人計算機、服務(wù)器、路由 器、網(wǎng)絡(luò)PC、工作站、基于微處理器的裝置、對等設(shè)備或其他公共網(wǎng)絡(luò)節(jié)點等, 并且通常包括相對于計算機812描述的的很多或所有元素。為了簡潔,僅僅示出了 遠(yuǎn)程計算機844的存儲器存儲846。遠(yuǎn)程計算機844通過網(wǎng)絡(luò)接口 848邏輯連接至 計算機812,并經(jīng)由通信連接850被物理連接。網(wǎng)絡(luò)接口 848包含諸如局域網(wǎng)(LAN) 和廣域網(wǎng)(WAN)的通信網(wǎng)絡(luò)。LAN技術(shù)包括光纖分布式數(shù)據(jù)接口 (FDDI)、銅 分布式數(shù)據(jù)接口 (CDDI)、以太網(wǎng)/IEEE802.3、令牌網(wǎng)/IEEE802.5等等。WAN技 術(shù)包括但不限于點對點鏈接、如綜合服務(wù)數(shù)字網(wǎng)(ISDN)及其變種的電路切換網(wǎng) 絡(luò)、分組交換網(wǎng)絡(luò)、以及數(shù)字訂戶線路(DSL)。
通信連接850涉及用于將網(wǎng)絡(luò)接口 848連接到總線818的硬件/軟件。雖然通 信連接850為顯示簡明而示出在計算機812內(nèi)部,但可以在計算機812外部。連接 網(wǎng)絡(luò)接口 848必要的硬件/軟件僅僅為了舉例可包括諸如調(diào)制解調(diào)器的各種內(nèi)部和 外部技術(shù),調(diào)制解調(diào)器包括普通電話級調(diào)制解調(diào)器、線纜調(diào)制解調(diào)器和DSL調(diào)制 解調(diào)器、ISDN適配器、以及以太網(wǎng)卡。
圖9是能夠使用的示例性計算環(huán)境900的示意框圖。系統(tǒng)900包括一個或多 個客戶910??蛻?10可以是硬件和/或軟件(例如,線程、進程、計算設(shè)備)。系
18統(tǒng)900還包括一個或多個服務(wù)器930。服務(wù)器930也可以是硬件和/或軟件(例如, 線程、進程、計算設(shè)備)。例如,該服務(wù)器930例如能夠通過使用在此描述的組件 而裝有線程以執(zhí)行變換。客戶910與服務(wù)器930間的一種可能通信可以具有適于在 兩個或多個計算機進程間傳送的數(shù)據(jù)分組的形式。系統(tǒng)900包括可用于促進客戶 910和服務(wù)器930之間通信的通信框架950??蛻?10可操作地連接一個或多個客 戶數(shù)據(jù)存儲960,用于存儲客戶910本地的信息。類似地,服務(wù)器930可操作地連 接一個或多個服務(wù)器數(shù)據(jù)存儲940,用于存儲服務(wù)器930本地的信息。
以上描述的內(nèi)容包括各種示例性方面。當(dāng)然不可能出于描述這些方面的目的 來描述各組件或方法的每一個可能的組合,但本領(lǐng)域普通技術(shù)人員可以認(rèn)識其他的 組合和置換也是可能的。因此,在此描述的各方面旨在包含所有這些落在所附權(quán)利 要求的精神和范圍內(nèi)的替換、修改以及變更。此外,在在詳細(xì)說明中或權(quán)利要求中 使用的術(shù)語"包括"的程度上,該術(shù)語旨在按一種類似于術(shù)語"包含"的方式的包 括,因為"包含"在被使用時可解釋為權(quán)利要求中的過渡詞。
19
權(quán)利要求
1. 一種數(shù)據(jù)操縱系統(tǒng),包括與一個或多個標(biāo)簽相關(guān)聯(lián)的一個或多個數(shù)據(jù)項,所述標(biāo)簽指示對所述數(shù)據(jù)項的至少一個用戶交互或注意;以及至少部分基于對所述數(shù)據(jù)項的至少一個用戶交互來處理所述數(shù)據(jù)項以確定數(shù)據(jù)項的一個子集的操縱工具。
2. 如權(quán)利要求l所述的系統(tǒng),其特征在于,所述數(shù)據(jù)項包括文檔、文件、電子郵件消息、日程約會、網(wǎng)頁、所述數(shù)據(jù)項中的子部分、或交叉項抽象。
3. 如權(quán)利要求l所述的系統(tǒng),其特征在于,所述標(biāo)簽表示用戶最后訪問項的位置,或者表示用戶已訪問項或與項交互的各次歷史位置。
4. 如權(quán)利要求l所述的系統(tǒng),其特征在于,所述標(biāo)簽表示用戶最后訪問項的時間、項已被訪問的總次數(shù)的表示,表示在延伸到過去的時間段內(nèi)項已被訪問的頻率,或者表示一個或多個任意指定的時段內(nèi)項已被訪問的頻率。
5. 如權(quán)利要求l所述的系統(tǒng),其特征在于,還包括編碼隨時間訪問的頻率的高階統(tǒng)計信息的組件。
6. 如權(quán)利要求l所述的系統(tǒng),其特征在于,還包括允許用戶基于一個或多個標(biāo)簽功能來檢索各項的瀏覽器,允許用戶基于一個或多個標(biāo)簽功能來分類或過濾已檢索項的瀏覽器,或者基于一個或多個標(biāo)簽功能呈現(xiàn)已檢索項的瀏覽器。
7. 如權(quán)利要求l所述的系統(tǒng),其特征在于,還包括是活動或興趣的概率表示的標(biāo)簽。
8. —種其上存儲有用于執(zhí)行如權(quán)利要求1所述各組件的計算機可執(zhí)行指令的計算機可讀介質(zhì)。
9. 一種分析用戶對數(shù)據(jù)項活動的方法,包括自動標(biāo)記數(shù)據(jù)項己接從計算機用戶接收的交互的數(shù)量或者特性;以及利用所述標(biāo)簽根據(jù)將來的數(shù)據(jù)活動進一步處理所述數(shù)據(jù)項。
10. 如權(quán)利要求9所述的方法,將數(shù)據(jù)存儲到與單獨數(shù)據(jù)庫中的各數(shù)據(jù)項相關(guān)聯(lián)的注意的注解內(nèi)或存儲到嵌入所述數(shù)據(jù)項的數(shù)據(jù)結(jié)構(gòu)內(nèi)。
11. 如權(quán)利要求io所述的方法,其特征在于,所述數(shù)據(jù)項包含計算機可讀存儲介質(zhì)。
12. 如權(quán)利要求ll所述的方法,其特征在于,所述存儲介質(zhì)是包括文本、圖形、及相關(guān)數(shù)據(jù)組件的數(shù)據(jù)項。
13. 如權(quán)利要求9所述的方法,其特征在于,還包括提供索引過程,所述索引過程根據(jù)指示對數(shù)據(jù)項的注意或交互的注解的狀態(tài)而有差別地加權(quán)數(shù)據(jù)項的子組分以供檢索。
14. 如權(quán)利要求13所述的方法,其特征在于,所述索引過程根據(jù)指示對數(shù)據(jù)項的注意或交互的注解的狀態(tài)來監(jiān)督或刪除數(shù)據(jù)項中的信息。
15. 如權(quán)利要求13所述的方法,其特征在于,還包括索引,所述索引通過移除尚未被計算機用戶注意或尚為與其交互的組件而被壓縮。
16. 如權(quán)利要求15所述的方法,其特征在于,還包括索引,所述索引通過移除很少被注意的組件或很少與數(shù)據(jù)項組件交互的組件而被壓縮。
17. 如權(quán)利要求15的方法,其特征在于,還包括提供用于檢索的排列得分,以對在用戶己經(jīng)注意或己經(jīng)與其交互的數(shù)據(jù)項部分出現(xiàn)的搜索詞和對象產(chǎn)生更重的權(quán)重。
18. 如權(quán)利要求15所述的方法,其特征在于,還包括基于過去和/或現(xiàn)在己被注意或交互的區(qū)域利用注意的注解來自動地或半自動地生成査詢,或利用注意的注解提供已在過去和/或現(xiàn)在被注意或交互的項的差別訪問或差別顯示。
19. 一種用于分析對數(shù)據(jù)項的用戶活動的系統(tǒng),包括用于確定與一個或多個數(shù)據(jù)項有關(guān)的用戶活動的裝置;至少部分基于所述用戶活動來標(biāo)記所述數(shù)據(jù)項的工具;以及部分基于所述已標(biāo)注的數(shù)據(jù)項用于存儲或檢索數(shù)據(jù)的工具。
20. 如權(quán)利要求19所述的系統(tǒng),其特征在于,還包括用于編碼對所述數(shù)據(jù)項的注意的注解的工具以及用于編碼對數(shù)據(jù)項中子組分的注意的注解的工具,其中所述注意捕獲每個子組分的以及已為子組分而被接收的所得用戶注意的指針或指示。
全文摘要
提供多種組件和進程以實現(xiàn)對多種數(shù)據(jù)類型的數(shù)據(jù)處理,并且增強信息的存儲和訪問,而在上述數(shù)據(jù)處理中用戶活動、注意、興趣、位置、或其他數(shù)據(jù)交互的歷史的各方面被確定。一方面,提供一種數(shù)據(jù)操縱系統(tǒng)。該系統(tǒng)包括與一個或多個標(biāo)簽相關(guān)聯(lián)并指示對數(shù)據(jù)的至少一個用戶交互或活動的一個或多個數(shù)據(jù)項。還包括一關(guān)注工具,該工具至少部分基于對各數(shù)據(jù)項的所述用戶交互來處理數(shù)據(jù)項以確定數(shù)據(jù)的一個子集。描述了方法,這些方法使用操縱工具在索引中加權(quán)搜索詞、壓縮索引、影響搜索中返回的各項的排列、自動或根據(jù)用戶導(dǎo)向生成數(shù)據(jù)項的額外查詢,或者用于改進數(shù)據(jù)項的呈現(xiàn)。
文檔編號G06F7/00GK101501627SQ200680022672
公開日2009年8月5日 申請日期2006年6月27日 優(yōu)先權(quán)日2005年6月29日
發(fā)明者E·J·霍維茨, S·T·杜梅斯 申請人:微軟公司