国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      生成或顯示網(wǎng)頁標(biāo)注的方法和裝置以及信息共享系統(tǒng)的制作方法

      文檔序號:6577760閱讀:159來源:國知局
      專利名稱:生成或顯示網(wǎng)頁標(biāo)注的方法和裝置以及信息共享系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明總體上涉及網(wǎng)頁標(biāo)注技術(shù),并且尤其涉及考慮到網(wǎng)頁上作為被標(biāo)注對象的 目標(biāo)網(wǎng)頁元素的內(nèi)容而生成或者顯示網(wǎng)頁標(biāo)注的技術(shù),以及基于這種網(wǎng)頁標(biāo)注實現(xiàn)信息共 享的技術(shù)。
      背景技術(shù)
      標(biāo)注是一種在文檔中添加信息的技術(shù)。這個概念最開始是在紙質(zhì)媒體中產(chǎn)生的, 包括對關(guān)鍵詞進行突出顯示、添加旁注等。隨著計算機及網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展及日漸普及, 當(dāng)前網(wǎng)絡(luò)媒體已經(jīng)成為人們了解信息的重要途徑之一。在這種情況下,網(wǎng)頁標(biāo)注技術(shù)也得 到了重視和發(fā)展,網(wǎng)頁標(biāo)注日漸成為包括數(shù)字圖書館、計算機輔助協(xié)同工作、信息共享及管 理在內(nèi)的多種領(lǐng)域內(nèi)的熱門話題之一。傳統(tǒng)的Web系統(tǒng)向內(nèi)容或者信息的提供者提供了很方便的信息發(fā)布平臺,比如網(wǎng) 頁制作平臺。但是,這種信息交流的方式基本上是單向的。網(wǎng)頁閱讀者能夠進行的交互僅 僅限于點擊鏈接或者添加書簽等。當(dāng)前流行的Web 2.0理念強調(diào)了廣大Web用戶的參與和 信息共享,這樣信息的流動就成為雙向的、甚至是多向的方式。目前常用的信息共享技術(shù)包 括-RSS(Really Simply Syndication)其中通過一個服務(wù)器對要發(fā)布的內(nèi)容進行 集成,然后由用戶選擇所要獲取的內(nèi)容。在這種方式下用戶只能被動地獲取RSS源所發(fā)布 的內(nèi)容,這樣的信息流動也是不對稱的;-交互式的Web發(fā)布平臺(例如,Wiki和Blog)用戶通過這樣的平臺,可以發(fā)表 自己的文章和意見,以達(dá)到信息共享的目的。但是,這種信息共享的方式需要在特定結(jié)構(gòu)化 的網(wǎng)頁中進行,不能對所看到的所有網(wǎng)頁隨時隨地的共享意見。網(wǎng)頁標(biāo)注系統(tǒng)和上述兩種信息共享方式不同,它實際上提供了一種標(biāo)注裝置來幫 助用戶對所瀏覽的網(wǎng)頁進行標(biāo)注,該標(biāo)注裝置可以是包含瀏覽器的單獨軟件工具,可以是 獨立于瀏覽器的單獨軟件工具,或者也可以是集成在瀏覽器中的擴展模塊。Armotea作為萬 維網(wǎng)(World Wide Web,W3C)提供的標(biāo)準(zhǔn)網(wǎng)頁標(biāo)注工具,使用了 RDF (Resource Description Format,資源描述格式)和XPointer作為描述被標(biāo)注網(wǎng)頁的方法。作為W3C的推薦計劃, Armotea為網(wǎng)頁標(biāo)注的表示及存儲提供了 一個標(biāo)準(zhǔn)的框架和實現(xiàn)方法。在Armotea系統(tǒng)中, 系統(tǒng)使用了一個RDF數(shù)據(jù)庫服務(wù)器來存儲所有的網(wǎng)頁標(biāo)注信息,用戶利用一個特定的軟件 客戶端對網(wǎng)頁進行標(biāo)注。在Armotea的基礎(chǔ)上,還出現(xiàn)了一些各有特色的網(wǎng)頁標(biāo)注系統(tǒng),比 如 Annoty、Crit、e-Marked、YAWAS 等??傮w來說,現(xiàn)有的網(wǎng)頁標(biāo)注系統(tǒng)的基本架構(gòu)可以如圖1所示。如圖1所示,現(xiàn)有技 術(shù)的網(wǎng)頁標(biāo)注系統(tǒng)主要包括用戶命令處理單元110、標(biāo)注查詢單元120、網(wǎng)頁獲得單元130 和網(wǎng)頁標(biāo)注合成單元140。其中,用戶命令處理單元110接收用戶的輸入信息(包括網(wǎng)頁 URL、顯示選項、用戶信息等),并把這些信息發(fā)送到標(biāo)注查詢單元120和網(wǎng)頁獲得單元130。 標(biāo)注查詢單元120根據(jù)用戶輸入的網(wǎng)頁URL信息,通過經(jīng)由諸如互聯(lián)網(wǎng)之類的網(wǎng)絡(luò)查詢遠(yuǎn)程的標(biāo)注服務(wù)器,得到網(wǎng)頁的標(biāo)注信息。網(wǎng)頁獲得單元130基于用戶提供的網(wǎng)頁URL信息, 通過互聯(lián)網(wǎng)取得所期望的網(wǎng)頁。網(wǎng)頁標(biāo)注合成單元140把取得的網(wǎng)頁和相關(guān)的標(biāo)注信息合 成在一起,提供給用戶,使用戶在看到所需網(wǎng)頁的同時還可以看到相關(guān)的網(wǎng)頁標(biāo)注信息。盡管現(xiàn)有的網(wǎng)頁標(biāo)注系統(tǒng)可以實現(xiàn)對網(wǎng)頁添加標(biāo)注,但是還存在著諸如以下所述 的各種問題_不能處理其中被標(biāo)注對象轉(zhuǎn)移到其它頁面的情況。在很多網(wǎng)站中,一個頁面內(nèi)的 特定元素往往隨著內(nèi)容的滾動而自動地列到其它頁面中,傳統(tǒng)的網(wǎng)頁標(biāo)注方法不能把這樣 的標(biāo)注顯示出來;-當(dāng)網(wǎng)頁中被標(biāo)注對象的格式發(fā)生某些可以容忍的變化(例如,被標(biāo)注對象中的 字體變?yōu)樾斌w或者加黑等)時,標(biāo)注不能被正確地顯示;-在很多情況下,往往會對被標(biāo)注對象的內(nèi)容進行若干修改,在傳統(tǒng)的網(wǎng)頁標(biāo)注系 統(tǒng)中經(jīng)過內(nèi)容修改的被標(biāo)注對象被認(rèn)為已經(jīng)不是原被標(biāo)注內(nèi)容,因而不再對其標(biāo)注進行顯示。因此,目前仍然需要提供一種能夠在考慮到被標(biāo)注對象的內(nèi)容的情況下生成網(wǎng)頁 標(biāo)注或者顯示網(wǎng)頁標(biāo)注的方法和裝置,以及能夠基于網(wǎng)頁標(biāo)注在用戶之間更有效地實現(xiàn)信 息共享的系統(tǒng),以克服現(xiàn)有技術(shù)中存在的上述一種或更多種缺陷。

      發(fā)明內(nèi)容
      在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本 理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的 關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概 念,以此作為稍后論述的更詳細(xì)描述的前序。為了解決現(xiàn)有技術(shù)的上述問題,本發(fā)明的一個目的是提供一種能夠考慮到網(wǎng)頁上 被標(biāo)注對象的內(nèi)容而生成或者顯示網(wǎng)頁標(biāo)注的方法和裝置,其中能夠?qū)⒕W(wǎng)頁標(biāo)注信息與被 標(biāo)注對象及網(wǎng)頁上緊鄰在被標(biāo)注對象之前和之后的上下文網(wǎng)頁元素的內(nèi)容聯(lián)系起來,從而 可以動態(tài)地跟蹤被標(biāo)注對象的變化。本發(fā)明的另一個目的是提供一種網(wǎng)頁標(biāo)注方法和裝置,利用該方法和裝置,能夠 在客戶端瀏覽器上顯示用戶期望載入和顯示的網(wǎng)頁,以及存儲在遠(yuǎn)程標(biāo)注服務(wù)器上的、先 前標(biāo)注在該網(wǎng)頁上的已有標(biāo)注,并在網(wǎng)頁上添加和顯示新標(biāo)注。本發(fā)明的再一個目的是提供一種利用上述網(wǎng)頁標(biāo)注方法和裝置實現(xiàn)基于網(wǎng)頁標(biāo) 注的信息共享的信息共享系統(tǒng)。為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種用于生成網(wǎng)頁標(biāo)注信息 的方法,該方法包括響應(yīng)于用戶在客戶端Web瀏覽器上載入的當(dāng)前網(wǎng)頁上選擇了目標(biāo)網(wǎng) 頁元素作為被標(biāo)注對象,提取被標(biāo)注對象在當(dāng)前網(wǎng)頁的文檔對象模型(D0M)樹中的XPath 路徑;基于被標(biāo)注對象及當(dāng)前網(wǎng)頁中緊鄰在被標(biāo)注對象之前和之后的上下文網(wǎng)頁元素的內(nèi) 容,生成被標(biāo)注對象的特征碼CF ;以及基于被標(biāo)注對象的XPath路徑、特征碼CF以及用戶 輸入的標(biāo)注,生成網(wǎng)頁標(biāo)注信息,其中,所述網(wǎng)頁標(biāo)注信息被存儲在遠(yuǎn)程標(biāo)注服務(wù)器的標(biāo)注 數(shù)據(jù)庫中,被標(biāo)注對象的特征碼CF由被標(biāo)注對象的基于內(nèi)容的特征(CBF)及其上下文網(wǎng)頁 元素的CBF構(gòu)成,以及網(wǎng)頁元素的CBF由該網(wǎng)頁元素的字母投影向量和字母順序向量組成,其中所述字母投影向量由該網(wǎng)頁元素中的所有字母在字母表A = {a,b,C,d,...,z}上的 統(tǒng)計個數(shù)組成,所述字母順序向量由該網(wǎng)頁元素中的所有字母在字母表A上的逆序統(tǒng)計 個數(shù)組成。根據(jù)本發(fā)明的另一個方面,還提供了一種用于生成網(wǎng)頁標(biāo)注信息的裝置,該裝置 包括用戶接口,用于接收用戶對在客戶端Web瀏覽器上載入的當(dāng)前網(wǎng)頁上的作為被標(biāo)注 對象的目標(biāo)網(wǎng)頁元素的選擇,以及用戶輸入的標(biāo)注;XPath生成器,用于提取用戶所選擇的 被標(biāo)注對象在當(dāng)前網(wǎng)頁的文檔對象模型(D0M)樹中的XPath路徑;基于內(nèi)容的特征(CBF) 生成器,用于基于網(wǎng)頁元素的內(nèi)容,生成網(wǎng)頁元素的基于內(nèi)容的特征(CBF);以及標(biāo)注生成 器,用于基于被標(biāo)注對象的XPath路徑、被標(biāo)注對象的特征碼CF以及用戶輸入的標(biāo)注,生成 網(wǎng)頁標(biāo)注信息,其中被標(biāo)注對象的特征碼CF由CBF生成器所生成的、被標(biāo)注對象的CBF以 及當(dāng)前網(wǎng)頁中緊鄰在被標(biāo)注對象之前和之后的上下文網(wǎng)頁元素的CBF構(gòu)成,其中,所述網(wǎng) 頁標(biāo)注信息被存儲在遠(yuǎn)程標(biāo)注服務(wù)器的標(biāo)注數(shù)據(jù)庫中,網(wǎng)頁元素的CBF由該網(wǎng)頁元素的字 母投影向量和字母順序向量組成,其中所述字母投影向量由該網(wǎng)頁元素中的所有字母在字 母表A = {a, b,c, d, ...,z}上的統(tǒng)計個數(shù)組成,所述字母順序向量由該網(wǎng)頁元素中的所 有字母在字母表A上的逆序統(tǒng)計個數(shù)組成。根據(jù)本發(fā)明的另一個方面,還提供了一種用于在客戶端Web瀏覽器上顯示網(wǎng)頁及 網(wǎng)頁上的標(biāo)注的方法,該方法包括a)響應(yīng)于用戶輸入要在瀏覽器上載入并顯示的網(wǎng)頁的 統(tǒng)一資源定位符(URL),對輸入的URL進行分析,以得到有效URL ;b)根據(jù)所述有效URL,從 遠(yuǎn)程標(biāo)注服務(wù)器中查詢出所有和有效URL有關(guān)的標(biāo)注,從而得到標(biāo)注候選集以及這些標(biāo)注 的網(wǎng)頁標(biāo)注信息;c)針對標(biāo)注候選集中的每一個標(biāo)注,根據(jù)該標(biāo)注的網(wǎng)頁標(biāo)注信息,確定 該標(biāo)注是否標(biāo)注了所述要載入的網(wǎng)頁中的網(wǎng)頁元素,即,確定該標(biāo)注是否應(yīng)當(dāng)存在于要載 入的網(wǎng)頁中,并且如果是的話,還進一步確定其所標(biāo)注的網(wǎng)頁元素在所述要載入的網(wǎng)頁中 的位置、即標(biāo)注位置;以及d)根據(jù)被確定為應(yīng)當(dāng)存在于要載入的網(wǎng)頁中的標(biāo)注的網(wǎng)頁標(biāo)注 信息及其標(biāo)注位置,將這些標(biāo)注與所述要載入的網(wǎng)頁合成起來,并經(jīng)由瀏覽器將合成后的 網(wǎng)頁顯示給用戶,其中,標(biāo)注的網(wǎng)頁標(biāo)注信息包含標(biāo)注所對應(yīng)的被標(biāo)注對象的XPath路徑、 被標(biāo)注對象的特征碼CF、標(biāo)注的內(nèi)容和格式、標(biāo)注所在網(wǎng)頁的URL、標(biāo)注所在網(wǎng)頁的內(nèi)容特 征碼,被標(biāo)注對象的特征碼CF由被標(biāo)注對象的基于內(nèi)容的特征(CBF)及緊鄰在被標(biāo)注對象 之前和之后的上下文網(wǎng)頁元素的CBF構(gòu)成,網(wǎng)頁元素的CBF由該網(wǎng)頁元素的字母投影向量 和字母順序向量組成,其中所述字母投影向量由該網(wǎng)頁元素中的所有字母在字母表A = {a, b,c,d,...,z}上的統(tǒng)計個數(shù)組成,所述字母順序向量由該網(wǎng)頁元素中的所有字母在字 母表A上的逆序統(tǒng)計個數(shù)組成。根據(jù)本發(fā)明的另一個方面,還提供了一種便于經(jīng)由客戶端Web瀏覽器顯示網(wǎng)頁及 網(wǎng)頁上的標(biāo)注的裝置,所述裝置包括URL分析器,用于響應(yīng)于用戶輸入的要在瀏覽器上載 入并顯示的網(wǎng)頁的統(tǒng)一資源定位符(URL),對輸入的URL進行分析,以得到有效URL ;標(biāo)注查 詢器,用于根據(jù)所述有效URL,從遠(yuǎn)程標(biāo)注服務(wù)器中查詢出所有和有效URL有關(guān)的標(biāo)注,從 而得到標(biāo)注候選集以及這些標(biāo)注的網(wǎng)頁標(biāo)注信息;標(biāo)注位置確定單元,用于針對標(biāo)注候選 集中的每一個標(biāo)注,根據(jù)該標(biāo)注的網(wǎng)頁標(biāo)注信息,確定該標(biāo)注是否標(biāo)注了所述要載入的網(wǎng) 頁中的網(wǎng)頁元素,即,確定該標(biāo)注是否應(yīng)當(dāng)存在于要載入的網(wǎng)頁中,并且如果是的話,還進 一步確定其所標(biāo)注的網(wǎng)頁元素在所述要載入的網(wǎng)頁中的位置、即標(biāo)注位置;以及合成單元,用于根據(jù)被確定為應(yīng)當(dāng)存在于要載入的網(wǎng)頁中的標(biāo)注的網(wǎng)頁標(biāo)注信息及其標(biāo)注位置,將這 些標(biāo)注與所述要載入的網(wǎng)頁合成起來,其中,合成后的網(wǎng)頁經(jīng)由瀏覽器顯示給用戶,標(biāo)注的 網(wǎng)頁標(biāo)注信息包含標(biāo)注所對應(yīng)的被標(biāo)注對象的XPath路徑、被標(biāo)注對象的特征碼CF、標(biāo)注 的內(nèi)容和格式、標(biāo)注所在網(wǎng)頁的URL、標(biāo)注所在網(wǎng)頁的內(nèi)容特征碼,被標(biāo)注對象的特征碼CF 由被標(biāo)注對象的基于內(nèi)容的特征(CBF)及緊鄰在被標(biāo)注對象之前和之后的上下文網(wǎng)頁元 素的CBF構(gòu)成,網(wǎng)頁元素的CBF由該網(wǎng)頁元素的字母投影向量和字母順序向量組成,其中所 述字母投影向量由該網(wǎng)頁元素中的所有字母在字母表A = {a,b,C,d,...,z}上的統(tǒng)計個 數(shù)組成,所述字母順序向量由該網(wǎng)頁元素中的所有字母在字母表A上的逆序統(tǒng)計個數(shù)組 成。另外,根據(jù)本發(fā)明的又一個方面,還提供了一種網(wǎng)頁標(biāo)注方法,該方法包括響應(yīng) 于用戶輸入的要在客戶端Web瀏覽器上載入和顯示的網(wǎng)頁的URL,通過執(zhí)行上述用于在客 戶端Web瀏覽器上顯示網(wǎng)頁及網(wǎng)頁上的標(biāo)注的方法,在瀏覽器上顯示所述網(wǎng)頁,以及存儲 在遠(yuǎn)程標(biāo)注服務(wù)器上的、先前標(biāo)注在該網(wǎng)頁上的已有標(biāo)注;通過執(zhí)行上述用于生成網(wǎng)頁標(biāo) 注信息的方法,在所述網(wǎng)頁上添加新標(biāo)注,該新標(biāo)注的網(wǎng)頁標(biāo)注信息被存儲在遠(yuǎn)程標(biāo)注服 務(wù)器上;以及經(jīng)由瀏覽器在所述網(wǎng)頁上顯示所添加的新標(biāo)注。根據(jù)本發(fā)明的又一個方面,還提供了 一種網(wǎng)頁標(biāo)注裝置,該裝置包括上述用于生 成網(wǎng)頁標(biāo)注信息的裝置;以及上述便于經(jīng)由客戶端Web瀏覽器顯示網(wǎng)頁及網(wǎng)頁上的標(biāo)注的
      直o根據(jù)本發(fā)明的又一個方面,還提供了一種基于網(wǎng)頁標(biāo)注的信息共享系統(tǒng),它包括 客戶端和遠(yuǎn)程標(biāo)注服務(wù)器,其中,所述客戶端包括上述網(wǎng)頁標(biāo)注裝置,以及所述遠(yuǎn)程標(biāo)注服 務(wù)器包括用于存儲網(wǎng)頁標(biāo)注信息的標(biāo)注數(shù)據(jù)庫,和用于對標(biāo)注數(shù)據(jù)庫進行存取控制的標(biāo)注 信息存取器。依據(jù)本發(fā)明的其它方面,還提供了相應(yīng)的計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。本發(fā)明的優(yōu)點在于,在以上所述的根據(jù)本發(fā)明的方法、裝置和系統(tǒng)中,在生成網(wǎng)頁 標(biāo)注信息時考慮了被標(biāo)注對象的XPath路徑,以及被標(biāo)注對象及其上下文網(wǎng)頁元素的內(nèi) 容,使得能夠?qū)崿F(xiàn)標(biāo)注對于被標(biāo)注對象的動態(tài)跟蹤,因此,相關(guān)的標(biāo)注信息會跟隨被標(biāo)注對 象移動。而且,即使被標(biāo)注對象的格式發(fā)生變化,標(biāo)注也可以被正確地顯示出來。甚至在被 標(biāo)注對象的內(nèi)容本身發(fā)生變化時,也可以對內(nèi)容變化進行評估,以決定是否可以顯示對應(yīng) 的標(biāo)注。通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細(xì)說明,本發(fā)明的這些以及其他優(yōu) 點將更加明顯。


      本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所 有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的 詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本 發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。在附圖中圖1是示出了現(xiàn)有技術(shù)中的網(wǎng)頁標(biāo)注系統(tǒng)的一般架構(gòu)的示意圖2是示出了根據(jù)本發(fā)明實施例的利用網(wǎng)頁標(biāo)注實現(xiàn)信息共享的系統(tǒng)的結(jié)構(gòu)的 示意圖;圖3是示出了根據(jù)本發(fā)明的實施例、利用圖2所示的系統(tǒng)在網(wǎng)頁上添加新標(biāo)注時 所執(zhí)行的處理過程的示例性流程圖;圖4是詳細(xì)地示出了圖2中所示的CBF生成器的示例性結(jié)構(gòu)及處理過程的示意 圖;圖5是詳細(xì)地示出了圖2中所示的標(biāo)注分析器的示例性結(jié)構(gòu)的方框圖;圖6是示出了根據(jù)本發(fā)明的實施例、在用戶利用圖2所示的系統(tǒng)在客戶端瀏覽器 中輸入要載入網(wǎng)頁的URL(統(tǒng)一資源定位符)以便顯示所述網(wǎng)頁及其中的已有標(biāo)注的處理 過程的流程圖;圖7是示出了在根據(jù)本發(fā)明的一個實施例中基于用戶輸入的URL獲得備選URL、并 將備選URL所對應(yīng)的網(wǎng)頁和瀏覽器當(dāng)前載入的網(wǎng)頁進行相同和相近頁面判定以得到有效 URL的過程(即圖6中所示的步驟S610的具體處理過程)的流程圖;圖8是示出了在根據(jù)本發(fā)明的一個實施例中確定所有可能的標(biāo)注是否存在于當(dāng) 前載入的網(wǎng)頁中及標(biāo)注在其中的標(biāo)注位置的過程(即圖6中的步驟S630的具體處理過程) 的流程圖;以及圖9是示出了在圖8所示的處理過程中用到的某標(biāo)注的特征碼CF(如圖9中的 (a)所示)及其對應(yīng)的當(dāng)前網(wǎng)頁的D0M樹(如圖9中的(b)所示)的結(jié)構(gòu)的示意圖。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的, 而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其他元件放大了,以 便有助于提高對本發(fā)明實施例的理解。
      具體實施例方式在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見, 在說明書中并未描述實際實施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實際實施 例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標(biāo),例如,符 合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有 所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費時的,但對得益于本公開 內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。在此,需要說明的是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示 出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不 大的其他細(xì)節(jié)。圖2是示出了根據(jù)本發(fā)明實施例的、利用網(wǎng)頁標(biāo)注實現(xiàn)信息共享的系統(tǒng)的結(jié)構(gòu)的 示意圖。該系統(tǒng)可以分為通過網(wǎng)絡(luò)(未示出)相連的客戶端和服務(wù)器端(即標(biāo)注服務(wù)器) 兩大部分。如圖2所示,在客戶端部分,網(wǎng)頁標(biāo)注裝置200主要包括用戶接口 210、XPath生成 器220、基于內(nèi)容的特征(CBF)生成器230、標(biāo)注生成器240、標(biāo)注分析器250和XML轉(zhuǎn)換器 260,而在服務(wù)器端部分主要包括標(biāo)注信息存取器270和標(biāo)注數(shù)據(jù)庫280。在圖2所示的系統(tǒng)的一個具體實現(xiàn)示例中,客戶端的網(wǎng)頁標(biāo)注裝置200可以以瀏覽器插件的方式實現(xiàn);而標(biāo)注服務(wù)器可以用Java Servelet來實現(xiàn),具體來說,服務(wù)器端的 標(biāo)注信息存取器240可以用Java Servelet的方式實現(xiàn),標(biāo)注數(shù)據(jù)庫250可以用已有的數(shù) 據(jù)庫管理系統(tǒng)實現(xiàn)。但是,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明白,本發(fā)明的原理并不僅僅局限于此,而 是完全可以根據(jù)需要采用其他不同的方式實現(xiàn)這些裝置或部件。在客戶端,用戶可以利用網(wǎng)頁標(biāo)注裝置200在瀏覽器所載入的網(wǎng)頁上添加并顯示 新的網(wǎng)頁標(biāo)注,以及正確地顯示先前已經(jīng)添加在該網(wǎng)頁上的已有網(wǎng)頁標(biāo)注。在網(wǎng)頁標(biāo)注裝 置200中,用戶接口 210負(fù)責(zé)接收整個裝置的輸入,它可以接收以下輸入信息中的任意一 個或者多個(1)與系統(tǒng)的配置參數(shù)有關(guān)的輸入信息;(2)與用戶在網(wǎng)頁上選擇的被標(biāo)注對 象有關(guān)的輸入信息;(3)與標(biāo)注內(nèi)容有關(guān)的輸入信息;(4)與標(biāo)注的顯示方式有關(guān)的輸入信息;等等。 XPath生成器220用于提取被標(biāo)注對象在網(wǎng)頁的D0M(文檔對象模型)樹中的 XPath路徑。XPath是W3C推薦的網(wǎng)頁內(nèi)任意一個元素的表示方式,網(wǎng)頁中的每一個元素都 對應(yīng)著一條XPath路徑,而且通過XPath路徑可以定位到網(wǎng)頁中的任何一個元素。在網(wǎng)頁 的D0M樹中的各個節(jié)點分別對應(yīng)于網(wǎng)頁中所包含的各個元素。也就是說,網(wǎng)頁中的被標(biāo)注 對象及緊鄰在被標(biāo)注對象之前和之后的網(wǎng)頁元素都可以被表示為D0M樹上的節(jié)點。為了便 于說明,將網(wǎng)頁中緊挨在被標(biāo)注對象之前和之后的網(wǎng)頁元素稱為上文和下文元素,其分別 對應(yīng)于該被標(biāo)注對象在D0M樹中的對應(yīng)節(jié)點的緊密相鄰的兄弟節(jié)點,因此也可以將其稱之 為上下文節(jié)點或上下文網(wǎng)頁元素。CBF (基于內(nèi)容的特征)生成器230依據(jù)被標(biāo)注對象的內(nèi)容,生成被標(biāo)注對象的 CBF。被標(biāo)注對象的CBF由被標(biāo)注對象的字母投影向量(CPF)和字母順序向量(CSF)組成, 即:CBF = CPF+CSF。其中,字母投影向量(CPF)由被標(biāo)注對象中的所有字母在字母表A = {a, b,c, d, z}上的統(tǒng)計個數(shù)組成,向量的長度即為字母表A的長度。例如,假設(shè)被標(biāo)注對象
      是網(wǎng)頁上的一段英文文字說明,則可以統(tǒng)計出在該段文字說明中每個字母a、b........z
      的個數(shù)Num(a)、Num(b)........Num(z),從而可以得到如下字母投影向量CPF [Num(a),
      Num(b), ... , Num(z)]。CPF的變化可以在一定程度上反映出對被標(biāo)注對象的內(nèi)容的刪除、 插入和替換等操作。字母順序向量(CSF)由表示被標(biāo)注對象中的所有字母在字母表A上的逆序統(tǒng) 計個數(shù)組成,向量的長度為字母表的長度。假設(shè)字母表A存在一個偏序關(guān)系a < b < c << Z,則被標(biāo)注對象X中的所有字母在字母a上的逆序個數(shù)為所有大于字母a (即,
      b、c........z)并且緊密地排在字母a之前的字母的統(tǒng)計個數(shù),被標(biāo)注對象X中的所有字
      母在字母b上的逆序統(tǒng)計個數(shù)為所有大于字母b (即,c、d........z)并且緊密地排在字
      母b前面的字母的統(tǒng)計個數(shù),以此類推,從而可以得到被標(biāo)注對象x中的所有字母在整個字 母表上的逆序統(tǒng)計個數(shù)。CSF的變化可以在一定程度上反映出被標(biāo)注對象的交換變化。例 如,對于bad和dab,它們的CPF相同,但是CSF不同,這反映出它們之間在字母順序方面存 在差異。為了能夠有效地跟蹤被標(biāo)注對象的上下文是否發(fā)生了變化,CBF生成器320除了 生成被標(biāo)注對象的CBF之外,還生成被標(biāo)注對象的上下文節(jié)點的CBF。被標(biāo)注對象的上下文 節(jié)點可以通過XPath生成器220所生成的被標(biāo)注對象的XPath路徑來確定。由被標(biāo)注對象(用DOM樹節(jié)點χ表示)的CBF及其上下文節(jié)點(分別用節(jié)點Xlrft和Xright表示)的CBF構(gòu) 成被標(biāo)注對象的特征碼 CF,即,CF (x) = CBF (xleft) +CBF (χ) +CBF (xright)。CBF生成器230的具體結(jié)構(gòu)及其處理過程,以及如何利用網(wǎng)頁標(biāo)注裝置在網(wǎng)頁中 添加新標(biāo)注的過程,將下面參照圖3和圖4來進行描述。
      標(biāo)注生成器240根據(jù)被標(biāo)注對象的有關(guān)信息(例如,被標(biāo)注對象的特征碼)和輸 入的標(biāo)注的內(nèi)容和格式等,生成網(wǎng)頁標(biāo)注信息,并且XML轉(zhuǎn)換器260將所生成的網(wǎng)頁標(biāo)注信 息轉(zhuǎn)換成適合于通過網(wǎng)絡(luò)與服務(wù)器端進行通信的XML消息格式,以便將網(wǎng)頁標(biāo)注信息傳輸 到服務(wù)器端并經(jīng)由標(biāo)注信息存取器270存儲到標(biāo)注數(shù)據(jù)庫280中。其中,網(wǎng)頁標(biāo)注信息包 含標(biāo)注的URL(即,標(biāo)注所在網(wǎng)頁的URL)、標(biāo)注在網(wǎng)頁上的位置(即,對應(yīng)的被標(biāo)注對象的 XPath路徑信息)、對應(yīng)的被標(biāo)注對象的有關(guān)特征(例如,特征碼CF信息等)、標(biāo)注所在的網(wǎng) 頁的內(nèi)容特征碼、標(biāo)注的內(nèi)容和格式等。在此,網(wǎng)頁的內(nèi)容特征碼是用于標(biāo)識網(wǎng)頁的內(nèi)容的 特征碼,兩個網(wǎng)頁的內(nèi)容特征碼相同,表明這兩個網(wǎng)頁的內(nèi)容相同,并且網(wǎng)頁的內(nèi)容特征碼 可以采用傳統(tǒng)的編碼方式、例如哈希編碼(MD5)來獲得。標(biāo)注分析器250基于當(dāng)前網(wǎng)頁的URL,把存儲在標(biāo)注數(shù)據(jù)庫250中的、和當(dāng)前網(wǎng) 頁在同一網(wǎng)站中且所對應(yīng)的網(wǎng)頁與當(dāng)前網(wǎng)頁相同或者相近的URL確定為有效URL,從標(biāo)注 數(shù)據(jù)庫中查詢所有和有效URL有關(guān)的標(biāo)注,并用查詢得到的所有標(biāo)注在當(dāng)前網(wǎng)頁中進行匹 配,以判斷其中哪些標(biāo)注應(yīng)當(dāng)標(biāo)注了當(dāng)前載入網(wǎng)頁中的元素(即,判斷其中哪些標(biāo)注應(yīng)當(dāng) 存在于當(dāng)前網(wǎng)頁中),并確定這些標(biāo)注應(yīng)當(dāng)被顯示在當(dāng)前網(wǎng)頁中的哪些位置上。標(biāo)注分析器 230可以支持其中被標(biāo)注對象的內(nèi)容被從一個頁面轉(zhuǎn)移到其它頁面的情況。有關(guān)標(biāo)注分析 器250的具體處理過程及其結(jié)構(gòu)將在下面參照圖5至圖9來進行描述。XML轉(zhuǎn)換器260用于將需要在客戶端與服務(wù)器端之間進行通信的信息進行XML消 息格式轉(zhuǎn)換,以使得客戶端的網(wǎng)頁標(biāo)注裝置200能夠與服務(wù)器端進行通信。然而,本領(lǐng)域技 術(shù)人員應(yīng)當(dāng)明白,XML格式的消息是為了便于客戶端與用Java Servelet實現(xiàn)的服務(wù)器端 進行通信而使用的,本發(fā)明的原理并不僅僅局限于轉(zhuǎn)換成XML格式的消息格式轉(zhuǎn)換,而是 可以根據(jù)如圖2所示的服務(wù)器端部分的實現(xiàn)方式的不同而選用其他不同消息格式在客戶 端與服務(wù)器端進行通信。如圖2所示,在服務(wù)器端,標(biāo)注信息存取器270響應(yīng)于來自客戶端的請求,對標(biāo)注 數(shù)據(jù)庫280進行存取,而標(biāo)注數(shù)據(jù)庫280中存儲了與信息共享系統(tǒng)所收集的各個標(biāo)注有關(guān) 的網(wǎng)頁標(biāo)注信息,其如上所述可以包括標(biāo)注的URL(即,標(biāo)注所在網(wǎng)頁的URL)、標(biāo)注在網(wǎng)頁 上的位置、對應(yīng)的被標(biāo)注對象的特征碼、標(biāo)注的內(nèi)容和格式等。下面結(jié)合圖3和圖4來進行說明。其中,圖3是示出了根據(jù)本發(fā)明的實施例、利用 圖2所示的系統(tǒng)在網(wǎng)頁上添加新標(biāo)注時所執(zhí)行的處理過程300的示例性流程圖,而圖4是 詳細(xì)地示出了圖2中所示的CBF生成器的示例性結(jié)構(gòu)及處理過程的示意圖。如圖3所示,在步驟S310,依據(jù)用戶在當(dāng)前網(wǎng)頁上選擇的被標(biāo)注對象,提取被標(biāo)注 對象在當(dāng)前網(wǎng)頁的DOM樹中的XPath路徑,然后在步驟S320,基于被標(biāo)注對象及其上下文節(jié) 點(可以基于步驟S310中所生成的XPath路徑來確定)的內(nèi)容,如上所述生成它們的CBF, 從而得到被標(biāo)注對象的特征碼CF。接下來,在步驟S330,根據(jù)被標(biāo)注對象和輸入的標(biāo)注內(nèi) 容等的有關(guān)信息,生成網(wǎng)頁標(biāo)注信息,在步驟S340,將來自步驟S330中所生成的網(wǎng)頁標(biāo)注 信息轉(zhuǎn)換成適合于與服務(wù)器端進行通信的XML格式的消息,然后在步驟S350中,在服務(wù)器端經(jīng)由標(biāo)注信息存取器270將客戶端所生成的網(wǎng)頁標(biāo)注信息存儲到標(biāo)注數(shù)據(jù)庫280中。圖4中詳細(xì)地示出了如圖2所示的CBF生成器230。如圖4所示,CBF生成器230 可以包括HTML (超文本標(biāo)記語言)清理(cleaning)單元410、HTML字母化單元420、字母 投影向量(CPF)生成單元430、字母順序向量(CSF)生成單元440。下面以利用CBF生成器 230生成被標(biāo)注對象的CBF為例來進行說明。HTML清理單元410用于根據(jù)預(yù)先存儲的HTML清理原則(例如,如圖4所示可以預(yù) 先存儲在HTML字典450中),從用戶所選擇的被標(biāo)注對象中去掉一些沒有作用的HTML標(biāo)記 (例如,諸如<bX/b>、<UX/U>等之類的格式標(biāo)記),以便降低HTML噪音以及減小網(wǎng)頁格式 變化對被標(biāo)注對象的影響。HTML字母化單元420用于對經(jīng)過HTML清理后的被標(biāo)注對象進行HTML字母化,從 而基于被標(biāo)注對象的內(nèi)容被標(biāo)注對象轉(zhuǎn)換為一個由a到z的字母構(gòu)成的字母串。對于其中 包含中文文字說明的被標(biāo)注對象,HTML字母化單元420需要先參考漢字字典460(它在被 標(biāo)注對象不包含中文文字說明時可以省略)將被標(biāo)注對象中的中文文字說明轉(zhuǎn)換為漢語 拼音,然后再得到字母串。對于多音字的情況,HTML字母化單元可以取該多音字的第一個 漢語拼音,但是顯然本發(fā)明的原理并不僅僅局限于此。字母投影向量(CPF)生成單元430和字母順序向量(CSF)生成單元440根據(jù)以上 給出的字母投影向量(CPF)和字母順序向量(CSF)的定義,基于經(jīng)過HTML字母化處理得到 的字母串,分別生成被標(biāo)注對象的字母投影向量和字母順序向量。然后,通過將字母投影向 量(CPF)和字母順序向量(CSF)拼接起來,就可以得到被標(biāo)注對象的基于內(nèi)容的特征CBF。返回參見圖2。當(dāng)用戶在客戶端瀏覽器中輸入某一網(wǎng)頁的URL以便瀏覽該網(wǎng)頁以 及網(wǎng)頁上的標(biāo)注信息時,客戶端的瀏覽器載入所期望的網(wǎng)頁,并把網(wǎng)頁的URL以及D0M樹結(jié) 構(gòu)傳送給標(biāo)注分析器240。圖5示出了根據(jù)本發(fā)明實施例的標(biāo)注分析器240的示例性結(jié)構(gòu)。如圖5所示,標(biāo) 注分析器230包括URL分析器510、標(biāo)注查詢器520以及網(wǎng)頁標(biāo)注合成器530。其中,URL分析器510對用戶輸入的URL進行分析,(經(jīng)由XML轉(zhuǎn)換器260和標(biāo)注 信息存取器270)從標(biāo)注數(shù)據(jù)庫280中取出所有和當(dāng)前要載入的網(wǎng)頁(即當(dāng)前輸入的URL 所對應(yīng)的網(wǎng)頁,也可簡單地為當(dāng)前網(wǎng)頁)在同一網(wǎng)站中的URL,形成一個備選URL集,將備選 URL集中的所有URL(以下將其稱為備選URL)所對應(yīng)的網(wǎng)頁與當(dāng)前網(wǎng)頁進行相同頁面判定 和相近頁面判定,并將所對應(yīng)的網(wǎng)頁與當(dāng)前網(wǎng)頁相同或者相近的備選URL確定為有效URL。標(biāo)注查詢器520根據(jù)URL分析器510所確定的有效URL,(經(jīng)由XML轉(zhuǎn)換器260和 標(biāo)注信息存取器270)在標(biāo)注數(shù)據(jù)庫280中查詢和有效URL有關(guān)的所有標(biāo)注(即在有效URL 所對應(yīng)的網(wǎng)頁上的所有標(biāo)注),即,在標(biāo)注數(shù)據(jù)庫280中查詢出所有可能與當(dāng)前網(wǎng)頁有關(guān)的 標(biāo)注,從而得到標(biāo)注候選集,并從標(biāo)注數(shù)據(jù)庫280中獲得所有這些可能標(biāo)注的網(wǎng)頁標(biāo)注信 肩、o網(wǎng)頁標(biāo)注合成器530用所有可能的標(biāo)注在當(dāng)前網(wǎng)頁中進行匹配,以判斷其中哪 些標(biāo)注最有可能標(biāo)注了當(dāng)前載入網(wǎng)頁中的哪些元素或?qū)ο?,即,確定每一個可能的標(biāo)注在 當(dāng)前網(wǎng)頁中是否存在及其存在的位置,并將標(biāo)注與網(wǎng)頁合成起來以便經(jīng)由瀏覽器顯示給用 戶。如圖5所示,網(wǎng)頁標(biāo)注合成器530可以進一步包括標(biāo)注位置確定單元532和合成單元 534。
      其中,標(biāo)注位置確定單元532針對所述標(biāo)注候選集中的每一個可能的標(biāo)注,根據(jù) 該標(biāo)注的網(wǎng)頁標(biāo)注信息(例如,該標(biāo)注所對應(yīng)的被標(biāo)注對象的XPath路徑及特征碼CF等信 息),確定該可能標(biāo)注是否標(biāo)注了當(dāng)前網(wǎng)頁中的網(wǎng)頁元素(即,確定該可能標(biāo)注在當(dāng)前網(wǎng)頁 中是否存在),并且在確定該可能標(biāo)注存在的情況下進一步確定其所標(biāo)注的網(wǎng)頁元素在當(dāng) 前網(wǎng)頁中的位置(即,標(biāo)注位置)。合成單元534根據(jù)被確定應(yīng)當(dāng)存在于當(dāng)前網(wǎng)頁中的可能標(biāo)注的網(wǎng)頁標(biāo)注信息,及 所確定的這些標(biāo)注在當(dāng)前網(wǎng)頁中的標(biāo)注位置,將這些標(biāo)注與當(dāng)前網(wǎng)頁合成,并經(jīng)由瀏覽器 將合成后的網(wǎng)頁顯示給用戶。圖6是示出了根據(jù)本發(fā)明的實施例、在用戶利用上述信息共享系統(tǒng)在客戶端瀏覽 器中輸入要載入網(wǎng)頁的URL以便顯示該網(wǎng)頁及其中的已有標(biāo)注的處理過程600的流程圖。如圖6所示,在步驟S610中,如上所述,對用戶輸入的URL進行分析,獲得備選URL 集,并將所有備選URL所對應(yīng)的網(wǎng)頁與要載入的網(wǎng)頁(即當(dāng)前網(wǎng)頁)進行相同和相近頁面 判定,從而確定出有效URL。有過步驟S610中的具體處理過程將在下文中參照圖7進行描 述。在步驟S620中,根據(jù)所確定的有效URL,在標(biāo)注數(shù)據(jù)庫中查詢所有可能與當(dāng)前網(wǎng) 頁有關(guān)的標(biāo)注,從而得到標(biāo)注候選集。然后,在步驟S630,確定所有可能標(biāo)注中的哪一些在 當(dāng)前網(wǎng)頁中存在,并確定這些存在的標(biāo)注在當(dāng)前網(wǎng)頁中的標(biāo)注位置。有關(guān)步驟S630的具體 處理過程將在下文中參照圖8和圖9來加以說明。然后,在步驟S640中,基于步驟S630中確定應(yīng)當(dāng)存在的標(biāo)注的網(wǎng)頁標(biāo)注信息以及 這些標(biāo)注的所確定的標(biāo)注位置,將標(biāo)注與當(dāng)前網(wǎng)頁合成,并且在步驟S650中將合成后的網(wǎng) 頁經(jīng)由瀏覽器顯示給用戶。在此,可以通過動態(tài)修改當(dāng)前網(wǎng)頁的D0M代碼,首先把標(biāo)注轉(zhuǎn)化 成html的格式,然后把轉(zhuǎn)換之后的html片段插入到網(wǎng)頁代碼中,并在瀏覽器中顯示出來。圖7是示出了在根據(jù)本發(fā)明的一個實施例中基于用戶輸入的URL獲得備選URL以 及將其所對應(yīng)的網(wǎng)頁和瀏覽器當(dāng)前載入的網(wǎng)頁(即當(dāng)前網(wǎng)頁)進行相同和相近頁面判定的 過程(即,圖6中所示的步驟S610的具體處理過程)的示例性流程圖。如圖7所示,在步驟S710中,如上所述,基于用戶輸入的URL,獲得和輸入的URL 在同一網(wǎng)站中的所有備選URL的集合、即備選URL集。然后,在步驟S720中,確定某一備選 URL所對應(yīng)的網(wǎng)頁與當(dāng)前網(wǎng)頁是否為相同的頁面。在此,如果備選URL所對應(yīng)的網(wǎng)頁的內(nèi)容 特征碼與當(dāng)前網(wǎng)頁的內(nèi)容特征碼相同,則可以確定所述兩個網(wǎng)頁為相同的頁面,否則上述 兩個網(wǎng)頁就是不相同的。在此借助于網(wǎng)頁的內(nèi)容特征碼來判斷標(biāo)注所在的網(wǎng)頁和當(dāng)前網(wǎng)頁 是否為相同的頁面,因此,如上文中所述,可以采用現(xiàn)有的編碼方式、例如MD5來獲得網(wǎng)頁 的內(nèi)容特征碼。這主要是針對一些網(wǎng)頁的URL不同但是內(nèi)容卻沒有改變的情況。如果在步驟S720中確定上述兩個網(wǎng)頁不相同,則在步驟S730中,確定這兩個網(wǎng)頁 是否是相近似的頁面。在此,在這兩個網(wǎng)頁之間滿足以下條件時,可以確定這兩個網(wǎng)頁是相 近似的,否則就是不相近的(1)網(wǎng)頁的標(biāo)題相同,而且(2)這兩個網(wǎng)頁之間存在參數(shù)傳遞的情況,URL中數(shù)字參數(shù)缺失,其它相同;這兩個網(wǎng)頁之間存在參數(shù)傳遞的情況,URL中的數(shù)字參數(shù)不同,而且備選URL所對 應(yīng)的網(wǎng)頁中的數(shù)字參數(shù)與當(dāng)前URL所對應(yīng)的網(wǎng)頁中的數(shù)字參數(shù)相比更小,其它相同;或者
      這兩個網(wǎng)頁之間不存在參數(shù)傳遞,URL的最后一個地址部分不同,其它相同。在此顯然可以看出,本發(fā)明的原理并不僅僅局限于上述這種相近頁面判定條件, 本領(lǐng)域技術(shù)人員完全可以根據(jù)需要設(shè)定其他不同的相近頁面判定條件。在步驟S720或者步驟S730中的判定結(jié)果是肯定的時,處理進行到步驟S740,將當(dāng) 前備選URL確定為有效URL。如果在經(jīng)步驟S720和步驟S730中的判定后確定上述兩個網(wǎng)頁既不相同也不相 近,則處理進行到步驟S750,確定備選URL集中是否還有未經(jīng)相同和相近頁面判定的URL。 如果是的話,則在步驟S760,從備選URL集中取出下一個備選URL,然后處理返回到步驟 S720,以便將該取出的下一個備選URL所對應(yīng)的網(wǎng)頁與當(dāng)前網(wǎng)頁進行相同和相近頁面判 定。重復(fù)步驟S720 步驟S760的處理,直至在步驟S750中確定備選URL集中的所有備選 URL都已經(jīng)經(jīng)過了相同和相近頁面判定為止,從而確定出備選URL集中的所有有效URL。圖8是詳細(xì)地示出了圖6中的步驟S630的處理過程(即,確定所有可能的標(biāo)注是 否存在于當(dāng)前網(wǎng)頁中及其在當(dāng)前網(wǎng)頁中的標(biāo)注位置)的流程圖,而圖9是示出了在圖8所 示的處理過程中用到的某標(biāo)注的特征碼CF(如圖9中的(a)所示)及其對應(yīng)的當(dāng)前網(wǎng)頁的 D0M樹(如圖9中的(b)所示)的結(jié)構(gòu)的示意圖。如圖8所示,在步驟S810中,基于當(dāng)前待確定的可能標(biāo)注的網(wǎng)頁標(biāo)注信息,例如 與該標(biāo)注對應(yīng)的被標(biāo)注對象的特征碼CF及XPath路徑等,以在當(dāng)前網(wǎng)頁的D0M樹中依據(jù) XPath路徑所確定的節(jié)點為基礎(chǔ),分別向上和向下依次對當(dāng)前網(wǎng)頁的D0M樹中的節(jié)點進行 檢測,以確定D0M樹中的與該標(biāo)注所對應(yīng)的被標(biāo)注對象及其上下文節(jié)點相同或最接近的節(jié) 點(在此,相似是指節(jié)點的內(nèi)容以及上下文的差異在可以允許的范圍內(nèi)),作為當(dāng)前網(wǎng)頁中 與該標(biāo)注對應(yīng)的D0M樹節(jié)點。例如,以圖9的(a)所示的某一待確定的可能標(biāo)注的特征碼CF為例,其中A、B和 C分別表示該標(biāo)注所對應(yīng)的被標(biāo)注對象及其上文節(jié)點和下文節(jié)點,以基于A的XPath路徑確 定的節(jié)點為基礎(chǔ)依次對D0M樹中的節(jié)點進行檢測,確定出A、B和C在當(dāng)前D0M樹中最接近 的節(jié)點分別是如圖9中的(b)所示的A’、B’和C’,在此可以將其稱為所述待確定標(biāo)注所對 應(yīng)的D0M樹節(jié)點。然后,在步驟S820中,基于所確定的與待確定的可能標(biāo)注對應(yīng)的D0M樹節(jié)點,按照 下述方式計算該標(biāo)注與D0M樹的距離D (A,A’ )D(A,A,)=d(A, A'
      其中,
      d(A,A,)=CFB(A)
      d(B,B,)=CFB(B)
      d(B,B,)=CFB(C)
      尤為樹結(jié)構(gòu)距離,a
      注對象的差異的影響程度,0表示D0M樹結(jié)構(gòu)的差異對標(biāo)注的相似度差異的影響程度,ds 表示當(dāng)前DOM樹中的上下文節(jié)點結(jié)構(gòu)和標(biāo)注的CF結(jié)構(gòu)(即,原上下文節(jié)點結(jié)構(gòu))的差異。假設(shè)在D0M樹中可以找到節(jié)點A’、B’、C’的最底層公共節(jié)點P,而且1A,、1B,、分 別表示從節(jié)點A’、B’、C’到節(jié)點P所經(jīng)過的節(jié)點的個數(shù),則ds可以按如下方式計算ds = 1A’ +1B’ +lc’
      在如圖9(b)中所示的情況下,ds = 1。返回參見圖8。在步驟S830中,判斷在步驟S820中所計算的所述待確定標(biāo)注的距 離D是否小于某一預(yù)定閾值。如果是的話,則在步驟S840中可以確定該標(biāo)注應(yīng)當(dāng)存在于當(dāng) 前網(wǎng)頁上,并確定它在當(dāng)前網(wǎng)頁上的存在位置。例如,如果所計算的D(A,A’ )小于預(yù)定閾 值,則確定所述待確定標(biāo)注仍然標(biāo)注了當(dāng)前網(wǎng)頁中的元素或?qū)ο?,因此?yīng)當(dāng)顯示在當(dāng)前網(wǎng) 頁上,并且節(jié)點A’在D0M樹中所處的位置就決定了該標(biāo)注應(yīng)當(dāng)顯示在當(dāng)前網(wǎng)頁上的位置。如果在步驟S830中確定所述待確定標(biāo)注的距離D不小于預(yù)定閾值,則在步驟S840 中,放棄該標(biāo)注,即確定該標(biāo)注不應(yīng)當(dāng)被顯示在當(dāng)前網(wǎng)頁上。從以上對被標(biāo)注對象的基于內(nèi)容的特征CBF及特征碼CF的定義中可以看出,CBF 對于被標(biāo)注對象而言在一般情況下都具有唯一性(尤其是在被標(biāo)注對象是以英文文本表 示的網(wǎng)頁內(nèi)容時更是如此),而且具有統(tǒng)一的長度,便于數(shù)據(jù)傳輸和存儲;CBF的變化能夠 真實反映出被標(biāo)注對象的內(nèi)容的變化;而且被標(biāo)注對象的CF之間的距離是對象變化的度量。在如上所述的根據(jù)本發(fā)明實施例的信息共享系統(tǒng)中,在使用XPath路徑對被標(biāo)注 對象進行標(biāo)識的同時,還利用了被標(biāo)注對象的特征碼CF信息,因此能夠?qū)崿F(xiàn)動態(tài)網(wǎng)頁中標(biāo) 注對于被標(biāo)注對象的動態(tài)跟蹤,而這在傳統(tǒng)的網(wǎng)頁信息標(biāo)注系統(tǒng)中是不可能實現(xiàn)的。這是 因為,在傳統(tǒng)的網(wǎng)頁信息標(biāo)注系統(tǒng)中一般采用哈希函數(shù)的形式(比如MD5編碼)來構(gòu)造被 標(biāo)注對象的特征,雖然這種特征在一般情況下是唯一的,而且長度統(tǒng)一,便于數(shù)據(jù)傳輸和存 儲,但是這種特征不能反映被標(biāo)注內(nèi)容的變化程度。這種哈希編碼使得被標(biāo)注對象的微 小的變化導(dǎo)致特征的巨大變化,從而不能通過特征之間的距離來度量被標(biāo)注對象變化的程 度。在以上結(jié)合附圖所描述的根據(jù)本發(fā)明實施例的基于網(wǎng)頁標(biāo)注的信息共享方法和 系統(tǒng)中,可以基于被標(biāo)注對象的內(nèi)容及其上下文內(nèi)容來生成被標(biāo)注對象的特征碼,這樣在 用所有可能標(biāo)注在當(dāng)前載入網(wǎng)頁中進行匹配的時候,可以對標(biāo)注的變化進行度量,從而使 得可以根據(jù)變化的程度來確定是否對標(biāo)注進行顯示,從而實現(xiàn)了動態(tài)跟蹤。而且,在標(biāo)注匹 配的過程中,采用了基于上下文內(nèi)容的特征的輕量級的D0M樹搜索方法,用來衡量被標(biāo)注 對象的內(nèi)容變化及其上下文變化。通過以上的描述不難看出,在以上所描述的根據(jù)本發(fā)明實施例的方法和系統(tǒng)中, 使用了動態(tài)跟蹤技術(shù),使得即使網(wǎng)頁中的被標(biāo)注對象發(fā)生了一定的變化,也可以將對應(yīng)的 標(biāo)注正確地顯示在網(wǎng)頁上的變化后的位置處,而對于從網(wǎng)頁中消失的內(nèi)容,則其對應(yīng)標(biāo)注 將不會被顯示出來。而且,在網(wǎng)頁中的被標(biāo)注對象是從其他網(wǎng)頁中轉(zhuǎn)移而來的情況下,對于 這類被標(biāo)注對象,也可以在網(wǎng)頁上正確的位置顯示出其對應(yīng)的標(biāo)注。另外,在當(dāng)前網(wǎng)頁可能 已經(jīng)通過不同的URL進行了標(biāo)注的情況下,這些標(biāo)注也會全部被正確地顯示出來。此外,當(dāng) 被標(biāo)注對象的格式發(fā)生變化時,其標(biāo)注也可以同時正確的顯示出來,比如加黑,斜體等,引 文等。格式的改變在網(wǎng)頁更新或者論壇內(nèi)容轉(zhuǎn)載的是很常見的。因此,可以以網(wǎng)頁標(biāo)注作 為手段來實現(xiàn)用戶之間共享信息的目的。此外,顯然,根據(jù)本發(fā)明的上述方法的各個操作過程也可以以存儲在各種機器可 讀的存儲介質(zhì)中的計算機可執(zhí)行程序的方式實現(xiàn)。而且,本發(fā)明的目的也可以通過下述方式實現(xiàn)將存儲有上述可執(zhí)行程序代碼的存儲介質(zhì)直接或者間接地提供給系統(tǒng)或設(shè)備,并且該系統(tǒng)或設(shè)備中的計算機或者中央處理 單元(CPU)讀出并執(zhí)行上述程序代碼。此時,只要該系統(tǒng)或者設(shè)備具有執(zhí)行程序的功能,則本發(fā)明的實施方式不局限于 程序,并且該程序也可以是任意的形式,例如,目標(biāo)程序、解釋器執(zhí)行的程序或者提供給操 作系統(tǒng)的腳本程序等。上述這些機器可讀存儲介質(zhì)包括但不限于各種存儲器和存儲單元,半導(dǎo)體設(shè)備, 磁盤單元例如光、磁和磁光盤,以及其它適于存儲信息的介質(zhì)等。另外,計算機通過連接到互聯(lián)網(wǎng)上的相應(yīng)網(wǎng)站,并且將依據(jù)本發(fā)明的計算機程序 代碼下載和安裝到計算機中然后執(zhí)行該程序,也可以實現(xiàn)本發(fā)明。還需要指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順 序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨立地執(zhí)行。最后,還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他 性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且 還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的
      要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,并不排除在包括
      所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。以上雖然已經(jīng)結(jié)合附圖詳細(xì)說明了本發(fā)明的實施例,但是應(yīng)當(dāng)明白,上面所描述 的實施方式只是用于說明本發(fā)明,而并不構(gòu)成對本發(fā)明的限制。在不背離由所附的權(quán)利要 求所限定的本發(fā)明的精神和范圍的情況下,可以進行各種改變、替代和變型。而且,本申請 的范圍不僅限于說明書所描述的過程、設(shè)備、制造、物質(zhì)的結(jié)構(gòu)、手段、方法和步驟的具體實 施例。本領(lǐng)域普通技術(shù)人員根據(jù)本發(fā)明的公開內(nèi)容將很容易理解,根據(jù)本發(fā)明可以使用執(zhí) 行與在此所述的相應(yīng)實施例基本相同的功能或者獲得與其基本相同的結(jié)果的、現(xiàn)有和將來 要被開發(fā)的過程、設(shè)備、制造、物質(zhì)的結(jié)構(gòu)、手段、方法或者步驟。因此,所附的權(quán)利要求旨在 它們的范圍內(nèi)包括這樣的過程、設(shè)備、制造、物質(zhì)的結(jié)構(gòu)、手段、方法或者步驟。
      19
      權(quán)利要求
      一種用于生成網(wǎng)頁標(biāo)注信息的方法,包括如下步驟響應(yīng)于用戶在客戶端Web瀏覽器上載入的當(dāng)前網(wǎng)頁上選擇了目標(biāo)網(wǎng)頁元素作為被標(biāo)注對象,提取被標(biāo)注對象在當(dāng)前網(wǎng)頁的文檔對象模型(DOM)樹中的XPath路徑;基于被標(biāo)注對象及當(dāng)前網(wǎng)頁中緊鄰在被標(biāo)注對象之前和之后的上下文網(wǎng)頁元素的內(nèi)容,生成被標(biāo)注對象的特征碼CF;以及基于被標(biāo)注對象的XPath路徑、特征碼CF以及用戶輸入的標(biāo)注,生成網(wǎng)頁標(biāo)注信息,其中,所述網(wǎng)頁標(biāo)注信息被存儲在遠(yuǎn)程標(biāo)注服務(wù)器的標(biāo)注數(shù)據(jù)庫中,被標(biāo)注對象的特征碼CF由被標(biāo)注對象的基于內(nèi)容的特征(CBF)及其上下文網(wǎng)頁元素的CBF構(gòu)成,以及網(wǎng)頁元素的CBF由該網(wǎng)頁元素的字母投影向量和字母順序向量組成,其中所述字母投影向量由該網(wǎng)頁元素中的所有字母在字母表Λ={a,b,c,d,...,z}上的統(tǒng)計個數(shù)組成,所述字母順序向量由該網(wǎng)頁元素中的所有字母在字母表Λ上的逆序統(tǒng)計個數(shù)組成。
      2.根據(jù)權(quán)利要求1所述的方法,其中,所述生成被標(biāo)注對象的特征碼CF的步驟進一步 包括按照下述方式生成被標(biāo)注對象及其上下文網(wǎng)頁元素的CBF 通過參考預(yù)先存儲的HTML清理原則,從網(wǎng)頁元素中去除無意義的HTML標(biāo)記; 對經(jīng)過HTML清理后的網(wǎng)頁元素進行HTML字母化,從而基于網(wǎng)頁元素的內(nèi)容將網(wǎng)頁元 素轉(zhuǎn)換為由a到z的字母構(gòu)成的字母串;統(tǒng)計所述字母串中的所有字母在字母表A = {a,b,C,d,...,z}上的個數(shù)以及逆序個 數(shù),以便生成網(wǎng)頁元素的字母投影向量和字母順序向量;將網(wǎng)頁元素的字母投影向量和字母順序向量拼接起來,從而得到網(wǎng)頁元素的CBF,以及 按如下方式得到被標(biāo)注對象的特征碼CF :CBF(上文網(wǎng)頁元素)+CBF(被標(biāo)注對 象)+CBF(下文網(wǎng)頁元素)。
      3.根據(jù)權(quán)利要求2所述的方法,其中,在被標(biāo)注對象及其上下文網(wǎng)頁元素包含中文文 字說明的情況下,在對經(jīng)過HTML清理后的網(wǎng)頁元素進行HTML字母化之前,參考漢字字典將 中文文字說明轉(zhuǎn)換為漢語拼音。
      4.根據(jù)權(quán)利要求1至3中任意一項所述的方法,其中,所述網(wǎng)頁標(biāo)注信息除了包含被標(biāo) 注對象的XPath路徑、特征碼CF以及標(biāo)注的內(nèi)容和格式外,還包括標(biāo)注所在網(wǎng)頁的URL、標(biāo) 注所在網(wǎng)頁的內(nèi)容特征碼。
      5.根據(jù)權(quán)利要求1至4中任意一項所述的方法,其中,所述遠(yuǎn)程標(biāo)注服務(wù)器以Java Servelet的形式實現(xiàn),以及所述方法進一步包括步驟將所生成的網(wǎng)頁標(biāo)注信息轉(zhuǎn)換成適合于與遠(yuǎn)程標(biāo)注服務(wù)器 進行通信的XML格式,以便將其傳輸給遠(yuǎn)程標(biāo)注服務(wù)器。
      6.一種用于生成網(wǎng)頁標(biāo)注信息的裝置,包括用戶接口,用于接收用戶對在客戶端Web瀏覽器上載入的當(dāng)前網(wǎng)頁上的作為被標(biāo)注對 象的目標(biāo)網(wǎng)頁元素的選擇,以及用戶輸入的標(biāo)注;XPath生成器,用于提取用戶所選擇的被標(biāo)注對象在當(dāng)前網(wǎng)頁的文檔對象模型(D0M) 樹中的XPath路徑;基于內(nèi)容的特征(CBF)生成器,用于基于網(wǎng)頁元素的內(nèi)容,生成網(wǎng)頁元素的基于內(nèi)容的特征(CBF);以及標(biāo)注生成器,用于基于被標(biāo)注對象的XPath路徑、被標(biāo)注對象的特征碼CF以及用戶輸 入的標(biāo)注,生成網(wǎng)頁標(biāo)注信息,其中被標(biāo)注對象的特征碼CF由CBF生成器所生成的、被標(biāo)注 對象的CBF以及當(dāng)前網(wǎng)頁中緊鄰在被標(biāo)注對象之前和之后的上下文網(wǎng)頁元素的CBF構(gòu)成,其中,所述網(wǎng)頁標(biāo)注信息被存儲在遠(yuǎn)程標(biāo)注服務(wù)器的標(biāo)注數(shù)據(jù)庫中,網(wǎng)頁元素的CBF由該網(wǎng)頁元素的字母投影向量和字母順序向量組成,其中所述字母投 影向量由該網(wǎng)頁元素中的所有字母在字母表A = {a,b,c,d,. . .,z}上的統(tǒng)計個數(shù)組成, 所述字母順序向量由該網(wǎng)頁元素中的所有字母在字母表A上的逆序統(tǒng)計個數(shù)組成。
      7.根據(jù)權(quán)利要求6所述的裝置,其中,所述CBF生成器進一步包括HTML清理單元,用于通過參考預(yù)先存儲的HTML清理原則,從網(wǎng)頁元素中去除無意義的 HTML標(biāo)記;HTML字母化單元,用于對經(jīng)過HTML清理后的網(wǎng)頁元素進行HTML字母化,從而基于網(wǎng)頁 元素的內(nèi)容將網(wǎng)頁元素轉(zhuǎn)換為由a到z的字母構(gòu)成的字母串;字母投影向量生成單元,用于統(tǒng)計所述字母串中的所有字母在字母表A = {a, b,c, d,. . .,z}上的個數(shù),以生成網(wǎng)頁元素的字母投影向量;字母順序向量生成單元,用于統(tǒng)計所述字母串中的所有字母在字母表A = {a, b,c, d,. . .,z}上的逆序個數(shù),以生成網(wǎng)頁元素的字母順序向量;以及用于將網(wǎng)頁元素的字母投影向量和字母順序向量拼接起來從而得到網(wǎng)頁元素的CBF 的單元,以及其中,按如下方式得到被標(biāo)注對象的特征碼CF :CBF(上文網(wǎng)頁元素)+CBF (被標(biāo)注對 象)+CBF(下文網(wǎng)頁元素)。
      8.根據(jù)權(quán)利要求7所述的裝置,其中,在被標(biāo)注對象及其上下文網(wǎng)頁元素包含中文文 字說明的情況下,所述HTML字母化單元參考漢字字典將經(jīng)過HTML清理后的網(wǎng)頁元素的中 文文字說明轉(zhuǎn)換為漢語拼音,然后對其進行HTML字母化。
      9.根據(jù)權(quán)利要求6至8中任意一項所述的裝置,其中,所述網(wǎng)頁標(biāo)注信息除了包含被標(biāo) 注對象的XPath路徑、特征碼CF以及標(biāo)注的內(nèi)容和格式外,還包括標(biāo)注所在網(wǎng)頁的URL、標(biāo) 注所在網(wǎng)頁的內(nèi)容特征碼。
      10.根據(jù)權(quán)利要求6至9中任意一項所述的裝置,其中,所述裝置以瀏覽器插件的形式 實現(xiàn),所述遠(yuǎn)程標(biāo)注服務(wù)器以Java Servelet的形式實現(xiàn),所述裝置進一步包括XML轉(zhuǎn)換器,用于將所生成的網(wǎng)頁標(biāo)注信息轉(zhuǎn)換成適合于與遠(yuǎn)程 標(biāo)注服務(wù)器進行通信的XML格式。
      11.一種用于在客戶端Web瀏覽器上顯示網(wǎng)頁及網(wǎng)頁上的標(biāo)注的方法,包括以下步驟a)響應(yīng)于用戶輸入要在瀏覽器上載入并顯示的網(wǎng)頁的統(tǒng)一資源定位符(URL),對輸入 的URL進行分析,以得到有效URL ;b)根據(jù)所述有效URL,從遠(yuǎn)程標(biāo)注服務(wù)器中查詢出所有和有效URL有關(guān)的標(biāo)注,從而得 到標(biāo)注候選集以及這些標(biāo)注的網(wǎng)頁標(biāo)注信息;c)針對標(biāo)注候選集中的每一個標(biāo)注,根據(jù)該標(biāo)注的網(wǎng)頁標(biāo)注信息,確定該標(biāo)注是否標(biāo) 注了所述要載入的網(wǎng)頁中的網(wǎng)頁元素,即,確定該標(biāo)注是否應(yīng)當(dāng)存在于要載入的網(wǎng)頁中,并 且如果是的話,還進一步確定其所標(biāo)注的網(wǎng)頁元素在所述要載入的網(wǎng)頁中的位置、即標(biāo)注位置;以及d)根據(jù)被確定為應(yīng)當(dāng)存在于要載入的網(wǎng)頁中的標(biāo)注的網(wǎng)頁標(biāo)注信息及其標(biāo)注位置,將 這些標(biāo)注與所述要載入的網(wǎng)頁合成起來,并經(jīng)由瀏覽器將合成后的網(wǎng)頁顯示給用戶,其中,標(biāo)注的網(wǎng)頁標(biāo)注信息包含標(biāo)注所對應(yīng)的被標(biāo)注對象的XPath路徑、被標(biāo)注對象 的特征碼CF、標(biāo)注的內(nèi)容和格式、標(biāo)注所在網(wǎng)頁的URL、標(biāo)注所在網(wǎng)頁的內(nèi)容特征碼,被標(biāo)注對象的特征碼CF由被標(biāo)注對象的基于內(nèi)容的特征(CBF)及緊鄰在被標(biāo)注對象 之前和之后的上下文網(wǎng)頁元素的CBF構(gòu)成,網(wǎng)頁元素的CBF由該網(wǎng)頁元素的字母投影向量和字母順序向量組成,其中所述字母投 影向量由該網(wǎng)頁元素中的所有字母在字母表A = {a,b,c,d,. . .,z}上的統(tǒng)計個數(shù)組成, 所述字母順序向量由該網(wǎng)頁元素中的所有字母在字母表A上的逆序統(tǒng)計個數(shù)組成。
      12.根據(jù)權(quán)利要求11所述的方法,其中,所述步驟a)進一步包括基于所述輸入的URL,從遠(yuǎn)程標(biāo)注服務(wù)器中取出所有和要載入的網(wǎng)頁在同一網(wǎng)站中的 URL作為備選URL,將備選URL所對應(yīng)的網(wǎng)頁與要載入的網(wǎng)頁進行相同和相近頁面判定,并 將所對應(yīng)的網(wǎng)頁與要載入的網(wǎng)頁相同或者相近的備選URL確定為有效URL。
      13.根據(jù)權(quán)利要求11或12所述的方法,其中,所述步驟c)進一步包括 針對標(biāo)注候選集中的每一個標(biāo)注基于該標(biāo)注所對應(yīng)的被標(biāo)注對象的特征碼CF及XPath路徑,以在要載入網(wǎng)頁的文檔 對象模型(D0M)樹中依據(jù)XPath路徑所確定的節(jié)點為基礎(chǔ),分別向上和向下依次對網(wǎng)頁的 D0M樹中的節(jié)點進行檢測,以確定D0M樹中的、與該標(biāo)注所對應(yīng)的被標(biāo)注對象及其上下文網(wǎng) 頁元素相同或最接近的節(jié)點,作為該標(biāo)注在D0M樹中的對應(yīng)D0M樹節(jié)點;基于所述標(biāo)注的特征碼以及它所對應(yīng)的D0M樹節(jié)點,計算該標(biāo)注與D0M樹的距離D ; 確定所計算的距離D是否小于預(yù)定閾值;以及在所述標(biāo)注的所述距離D小于預(yù)定閾值時,確定該標(biāo)注應(yīng)當(dāng)存在于要載入的網(wǎng)頁中, 并基于所確定的與該標(biāo)注所對應(yīng)的被標(biāo)注對象相同或最接近的D0M樹節(jié)點,確定該標(biāo)注在 要載入網(wǎng)頁中的標(biāo)注位置。
      14.根據(jù)權(quán)利要求13所述的方法,其中,按照下述方式計算標(biāo)注與D0M樹的距離D 假設(shè)標(biāo)注所對應(yīng)的被標(biāo)注對象及其上下文網(wǎng)頁元素為A、B和C,D0M樹中與它們相同或最接近的樹節(jié)點分別為A’、B’和C’,則D(A, A,)= d(A,A,)+ a (d(B, B,)+d(C, C,))+ 3 ds, 其中,d(A,A,) = CFB (A) -CFB (A'), d(B, B,) = CFB (B)-CFB (B,) |, d(B, B,) = | CFB (C)-CFB (C,) |,a、日為常數(shù),而且a表示被標(biāo)注對象的上下文的差異對被標(biāo)注對象的差異的影響程 度,0表示D0M樹結(jié)構(gòu)的差異對標(biāo)注的相似度差異的影響程度,ds表示D0M樹的結(jié)構(gòu)和標(biāo) 注的特征碼CF的差異。
      15.根據(jù)權(quán)利要求11至14中的任意一項所述的方法,其中,按照下述方式生成網(wǎng)頁元 素的CBF 通過參考預(yù)先存儲的HTML清理原則,從網(wǎng)頁元素中去除無意義的HTML標(biāo)記;對經(jīng)過HTML清理后的網(wǎng)頁元素進行HTML字母化,從而基于網(wǎng)頁元素的內(nèi)容將網(wǎng)頁元 素轉(zhuǎn)換為由a到ζ的字母構(gòu)成的字母串;統(tǒng)計所述字母串中的所有字母在字母表Λ = {a,b,C,d,...,z}上的個數(shù)以及逆序個 數(shù),以便生成網(wǎng)頁元素的字母投影向量和字母順序向量;將網(wǎng)頁元素的字母投影向量和字母順序向量拼接起來,從而得到網(wǎng)頁元素的CBF。
      16.根據(jù)權(quán)利要求11至15中的任意一項所述的方法,其中,所述遠(yuǎn)程標(biāo)注服務(wù)器以 Java Servelet的形式實現(xiàn),以及所述方法還包括步驟對于在客戶端與遠(yuǎn)程標(biāo)注服務(wù)器之間進行傳遞的信息,在發(fā)送 或者接收之前將其轉(zhuǎn)換成XML格式。
      17.一種便于經(jīng)由客戶端Web瀏覽器顯示網(wǎng)頁及網(wǎng)頁上的標(biāo)注的裝置,包括URL分析器,用于響應(yīng)于用戶輸入的要在瀏覽器上載入并顯示的網(wǎng)頁的統(tǒng)一資源定位 符(URL),對輸入的URL進行分析,以得到有效URL ;標(biāo)注查詢器,用于根據(jù)所述有效URL,從遠(yuǎn)程標(biāo)注服務(wù)器中查詢出所有和有效URL有關(guān) 的標(biāo)注,從而得到標(biāo)注候選集以及這些標(biāo)注的網(wǎng)頁標(biāo)注信息;標(biāo)注位置確定單元,用于針對標(biāo)注候選集中的每一個標(biāo)注,根據(jù)該標(biāo)注的網(wǎng)頁標(biāo)注信 息,確定該標(biāo)注是否標(biāo)注了所述要載入的網(wǎng)頁中的網(wǎng)頁元素,即,確定該標(biāo)注是否應(yīng)當(dāng)存在 于要載入的網(wǎng)頁中,并且如果是的話,還進一步確定其所標(biāo)注的網(wǎng)頁元素在所述要載入的 網(wǎng)頁中的位置、即標(biāo)注位置;以及合成單元,用于根據(jù)被確定為應(yīng)當(dāng)存在于要載入的網(wǎng)頁中的標(biāo)注的網(wǎng)頁標(biāo)注信息及其 標(biāo)注位置,將這些標(biāo)注與所述要載入的網(wǎng)頁合成起來, 其中,合成后的網(wǎng)頁經(jīng)由瀏覽器顯示給用戶,標(biāo)注的網(wǎng)頁標(biāo)注信息包含標(biāo)注所對應(yīng)的被標(biāo)注對象的XPath路徑、被標(biāo)注對象的特征 碼CF、標(biāo)注的內(nèi)容和格式、標(biāo)注所在網(wǎng)頁的URL、標(biāo)注所在網(wǎng)頁的內(nèi)容特征碼,被標(biāo)注對象的特征碼CF由被標(biāo)注對象的基于內(nèi)容的特征(CBF)及緊鄰在被標(biāo)注對象 之前和之后的上下文網(wǎng)頁元素的CBF構(gòu)成,以及網(wǎng)頁元素的CBF由該網(wǎng)頁元素的字母投影向量和字母順序向量組成,其中所述字母投 影向量由該網(wǎng)頁元素中的所有字母在字母表A= {a,b,C,d,...,z}上的統(tǒng)計個數(shù)組成,所 述字母順序向量由該網(wǎng)頁元素中的所有字母在字母表Λ上的逆序統(tǒng)計個數(shù)組成。
      18.根據(jù)權(quán)利要求17所述的裝置,其中,所述URL分析器基于所述輸入的URL,從遠(yuǎn)程 標(biāo)注服務(wù)器中取出所有和要載入的網(wǎng)頁在同一網(wǎng)站中的URL作為備選URL,將備選URL所對 應(yīng)的網(wǎng)頁與要載入的網(wǎng)頁進行相同和相近頁面判定,并將所對應(yīng)的網(wǎng)頁與要載入的網(wǎng)頁相 同或者相近的備選URL確定為有效URL。
      19.根據(jù)權(quán)利要求17或18所述的裝置,其中,所述標(biāo)注位置確定單元針對標(biāo)注候選集 中的每一個標(biāo)注執(zhí)行以下處理基于該標(biāo)注所對應(yīng)的被標(biāo)注對象的特征碼CF及XPath路徑,以在要載入網(wǎng)頁的文檔 對象模型(DOM)樹中依據(jù)XPath路徑所確定的節(jié)點為基礎(chǔ),分別向上和向下依次對網(wǎng)頁的 DOM樹中的節(jié)點進行檢測,以確定DOM樹中的、與該標(biāo)注所對應(yīng)的被標(biāo)注對象及其上下文網(wǎng) 頁元素相同或最接近的節(jié)點,作為該標(biāo)注在DOM樹中的對應(yīng)DOM樹節(jié)點;基于所述標(biāo)注的特征碼以及它所對應(yīng)的DOM樹節(jié)點,計算該標(biāo)注與DOM樹的距離D ;確定所計算的距離D是否小于預(yù)定閾值;以及在所述標(biāo)注的所述距離D小于預(yù)定閾值時,確定該標(biāo)注應(yīng)當(dāng)存在于要載入的網(wǎng)頁中, 并基于所確定的與該標(biāo)注所對應(yīng)的被標(biāo)注對象相同或最接近的DOM樹節(jié)點,確定該標(biāo)注在 要載入網(wǎng)頁中的標(biāo)注位置。
      20.根據(jù)權(quán)利要求19所述的裝置,其中,所述標(biāo)注位置確定單元按照下述方式計算標(biāo) 注與DOM樹的距離D 假設(shè)標(biāo)注所對應(yīng)的被標(biāo)注對象及其上下文網(wǎng)頁元素為A、B和C,D0M樹中與它們相同或 最接近的樹節(jié)點分別為A’、B’和C’,則D(A,A,) = d(A,A,)+ α (d(B,B,)+d(C,C,)) + β ds, 其中,d(A,A,) = I CFB (A)-CFB (A,), d(B, B,) = CFB (B)-CFB (B,) |, d(B, B,) = I CFB (C)-CFB (C,) |,α、β為常數(shù),而且α表示被標(biāo)注對象的上下文的差異對被標(biāo)注對象的差異的影響程 度,β表示DOM樹結(jié)構(gòu)的差異對標(biāo)注的相似度差異的影響程度,ds表示DOM樹的結(jié)構(gòu)和標(biāo) 注的特征碼CF的差異。
      21.根據(jù)權(quán)利要求17至20中的任意一項所述的裝置,還包括基于內(nèi)容的特征(CBF)生 成器,用于生成網(wǎng)頁元素的基于內(nèi)容的特征(CBF),所述CBF生成器進一步包括HTML清理單元,用于通過參考預(yù)先存儲的HTML清理原則,從網(wǎng)頁元素中去除無意義的 HTML標(biāo)記;HTML字母化單元,用于對經(jīng)過HTML清理后的網(wǎng)頁元素進行HTML字母化,從而基于網(wǎng)頁 元素的內(nèi)容將網(wǎng)頁元素轉(zhuǎn)換為由a到ζ的字母構(gòu)成的字母串;字母投影向量生成單元,用于統(tǒng)計所述字母串中的所有字母在字母表Λ = {a, b,c, d,. . .,ζ}上的個數(shù),以生成網(wǎng)頁元素的字母投影向量;字母順序向量生成單元,用于統(tǒng)計所述字母串中的所有字母在字母表Λ = {a, b,c, d, ...,ζ}上的逆序個數(shù),以生成網(wǎng)頁元素的字母順序向量;以及用于將網(wǎng)頁元素的字母投影向量和字母順序向量拼接起來從而得到網(wǎng)頁元素的CBF 的單元。
      22.根據(jù)權(quán)利要求17至21中的任意一項所述的裝置,其中,所述裝置以瀏覽器插件的 形式實現(xiàn),所述遠(yuǎn)程標(biāo)注服務(wù)器以Java Servelet的形式實現(xiàn),所述裝置進一步包括XML轉(zhuǎn)換器,用于在發(fā)送或者接收之前將在客戶端與遠(yuǎn)程標(biāo)注服 務(wù)器之間傳遞的信息轉(zhuǎn)換成XML格式。
      23.一種網(wǎng)頁標(biāo)注方法,包括響應(yīng)于用戶輸入的要在客戶端Web瀏覽器上載入和顯示的網(wǎng)頁的URL,通過執(zhí)行根據(jù) 權(quán)利要求11至16中的任意一項所述的方法,在瀏覽器上顯示所述網(wǎng)頁,以及存儲在遠(yuǎn)程標(biāo) 注服務(wù)器上的、先前標(biāo)注在該網(wǎng)頁上的已有標(biāo)注;通過執(zhí)行根據(jù)權(quán)利要求1至5中的任意一項所述的方法,在所述網(wǎng)頁上添加新標(biāo)注,該 新標(biāo)注的網(wǎng)頁標(biāo)注信息被存儲在遠(yuǎn)程標(biāo)注服務(wù)器上;以及經(jīng)由瀏覽器在所述網(wǎng)頁上顯示所添加的新標(biāo)注。
      24.—種網(wǎng)頁標(biāo)注裝置,包括根據(jù)權(quán)利要求6至10中的任意一項所述的用于生成網(wǎng)頁標(biāo)注信息的裝置;以及 根據(jù)權(quán)利要求17至22中的任意一項所述的便于經(jīng)由客戶端Web瀏覽器顯示網(wǎng)頁及網(wǎng) 頁上的標(biāo)注的裝置。
      25.一種基于網(wǎng)頁標(biāo)注的信息共享系統(tǒng),包括客戶端和遠(yuǎn)程標(biāo)注服務(wù)器,其中, 所述客戶端包括根據(jù)權(quán)利要求24所述的網(wǎng)頁標(biāo)注裝置,以及所述遠(yuǎn)程標(biāo)注服務(wù)器包括用于存儲網(wǎng)頁標(biāo)注信息的標(biāo)注數(shù)據(jù)庫,和用于對標(biāo)注數(shù)據(jù)庫 進行存取控制的標(biāo)注信息存取器。
      全文摘要
      公開了一種用于生成或顯示網(wǎng)頁標(biāo)注的方法和裝置,以及基于這種網(wǎng)頁標(biāo)注的信息共享系統(tǒng)。生成網(wǎng)頁標(biāo)注信息的方法,包括響應(yīng)于用戶在客戶端Web瀏覽器上載入的當(dāng)前網(wǎng)頁上選擇了目標(biāo)網(wǎng)頁元素作為被標(biāo)注對象,提取被標(biāo)注對象在當(dāng)前網(wǎng)頁的文檔對象模型(DOM)樹中的XPath路徑;基于被標(biāo)注對象及當(dāng)前網(wǎng)頁中緊鄰在被標(biāo)注對象之前和之后的上下文網(wǎng)頁元素的內(nèi)容,生成被標(biāo)注對象的特征碼CF;以及基于被標(biāo)注對象的XPath路徑、特征碼CF以及用戶輸入的標(biāo)注,生成網(wǎng)頁標(biāo)注信息,其中,網(wǎng)頁標(biāo)注信息被存儲在遠(yuǎn)程標(biāo)注服務(wù)器的標(biāo)注數(shù)據(jù)庫中,被標(biāo)注對象的特征碼CF由被標(biāo)注對象的基于內(nèi)容的特征(CBF)及其上下文網(wǎng)頁元素的CBF構(gòu)成。
      文檔編號G06F17/30GK101866342SQ20091013397
      公開日2010年10月20日 申請日期2009年4月16日 優(yōu)先權(quán)日2009年4月16日
      發(fā)明者于浩, 孟遙, 郝宇 申請人:富士通株式會社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1