專利名稱:用于提示電子文檔內(nèi)容變更的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及信息處理技術(shù)領(lǐng)域,特別地,涉及一種用于提示電子文檔內(nèi)容變更的方法及系統(tǒng)。
背景技術(shù):
在當今信息迅速增長的世界,存在著大量的電子文檔,這些電子文檔包括互聯(lián)網(wǎng)上的海量網(wǎng)頁,通過OCR(光學(xué)字符識別)等技術(shù)積累的電子文檔等等。通過各種應(yīng)用,用戶可以非常方便地獲得各種信息。比如,搜索引擎可以幫助用戶檢索到各種相關(guān)的電子文檔以方便用戶閱讀和使用。然而,用戶在關(guān)心現(xiàn)有的各種應(yīng)用所提供的信息的數(shù)量的同時,也對信息的質(zhì)量非常關(guān)心。尤其現(xiàn)在互聯(lián)網(wǎng)已經(jīng)進入Web 2.0時代,信息來源既有來自于權(quán)威的新聞單位或者大公司,同時也存在大量來自用戶個人提供的大量信息,因此信息的質(zhì)量存在很大的差異。另外由于各種文檔的信息在隨著時間而不斷地進行變更,讀者閱讀到的相關(guān)電子文檔的信息也許已經(jīng)過時,而如果用戶根據(jù)過時的信息作出判斷或者行動,往往會導(dǎo)致事與愿違的結(jié)果。另外,有時用戶對文檔的過去的信息更改也希望了解,而目前沒有相應(yīng)的技術(shù)來方便快捷地滿足用戶的相關(guān)需求。
發(fā)明內(nèi)容
本發(fā)明一方面提供一種用于提示電子文檔內(nèi)容變更的方法,所述方法包括響應(yīng)于客戶端瀏覽電子文檔的請求,分析所述請求以獲得相關(guān)信息;基于所述相關(guān)信息,確定所述電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更;以及如果所述關(guān)系信息存在變更,向客戶端發(fā)送至少部分所述關(guān)系信息的變更。優(yōu)選地,所述分析所述請求以獲得所述相關(guān)信息包括識別所述電子文檔的至少部分命名實體。優(yōu)選地,所述確定所述電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更包括檢索關(guān)系信息變更歷史數(shù)據(jù)庫以確定所述命名實體之間的關(guān)系信息是否存在變更。本發(fā)明另一方面提供一種用于建立所述關(guān)系信息變更歷史數(shù)據(jù)庫的方法,所述關(guān)系信息變更歷史數(shù)據(jù)庫用于上述確定用戶所請求的電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更,該方法包括提取多個所述電子文檔的命名實體之間的關(guān)系信息; 基于所述關(guān)系信息,建立關(guān)系信息變更歷史數(shù)據(jù)庫。本發(fā)明另一方面提供一種用于提示電子文檔的變更的系統(tǒng),所述系統(tǒng)包括用于響應(yīng)于客戶端瀏覽電子文檔的請求,分析所述請求以獲得相關(guān)信息的裝置;用于基于所述相關(guān)信息,確定所述電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更的裝置; 以及用于如果所述關(guān)系信息存在變更,向客戶端發(fā)送至少部分所述關(guān)系信息的變更的裝置。由此可見,本發(fā)明一方面可以提示相關(guān)電子文檔的更新,尤其是網(wǎng)絡(luò)電子文檔上過期的信息,從而提高萬維網(wǎng)上信息的質(zhì)量,這在Web 2.0時代顯得更為重要。本發(fā)明另一方面還可以使用戶可以方面查看信息變化歷史,這無疑都大大提高了用戶閱讀電子文檔的體驗和獲得準確信息的效率。
為了對本發(fā)明實施例的特征和優(yōu)點進行詳細說明,將參照以下附圖。如果可能的話,在附圖和描述中使用相同或者類似的參考標號以指代相同或者類似的部分。其中圖1示出了本發(fā)明用于提示電子文檔內(nèi)容變更的第一具體實施方式
;圖2示出了本發(fā)明用于提示電子文檔內(nèi)容變更的第二具體實施方式
;圖3示出了本發(fā)明用于提示電子文檔內(nèi)容變更的第三具體實施方式
;圖4示出了本發(fā)明用于建立關(guān)系信息變更歷史數(shù)據(jù)庫的具體實施方式
;圖5示出了本發(fā)明用于提示電子文檔內(nèi)容變更的第四具體實施方式
;圖6示出了本發(fā)明的一個具體應(yīng)用示例;圖7示出了本發(fā)明用于提示電子文檔內(nèi)容變更的系統(tǒng)的結(jié)構(gòu)框圖;圖8示出了本發(fā)明用于建立關(guān)系信息變更歷史數(shù)據(jù)庫的系統(tǒng)的結(jié)構(gòu)框圖。
具體實施例方式現(xiàn)在將參考本發(fā)明的示例性實施例進行詳細的描述,在附圖中圖解說明了所述實施例的示例,其中相同的參考數(shù)字始終指示相同的元件。應(yīng)當理解,本發(fā)明并不限于所公開的示例實施例。還應(yīng)當理解,并非所述方法和設(shè)備的每個特征對于實施任一權(quán)利要求所要求保護的本發(fā)明都是必要的。此外,在整個公開中,當顯示或描述處理或方法時,方法的步驟可以以任何順序或者同時執(zhí)行,除非從上下文中能清楚一個步驟依賴于先執(zhí)行的另一步驟。此外,步驟之間可以有顯著的時間間隔。現(xiàn)在參考圖1來詳細描述本發(fā)明用于提示電子文檔的變更的第一具體實施方式
。 在步驟101中,響應(yīng)于客戶端瀏覽電子文檔的請求,分析所述請求以獲得相關(guān)信息。比如, 用戶可能會通過點擊相關(guān)網(wǎng)站的相關(guān)鏈接,或者在應(yīng)用中提交所要瀏覽電子文檔的存儲路徑等來提交其瀏覽電子文檔的請求。所述分析所述請求以獲得所述請求相關(guān)信息可以包括分析該請求獲得電子文檔的URL(統(tǒng)一資源定位符)、存儲路徑、電子文檔的全局唯一代碼或者其它形式的電子文檔的唯一標識符,也可以包括基于用戶的請求獲得電子文檔而對所述電子文檔進行命名實體識別以獲得所述電子文檔的相關(guān)命名實體等所述請求相關(guān)信息。其中命名實體識別(Named Entity Recognition)是指自動識別文本中具有特定意義的實體(如果所述電子文檔不是文本形式,可以通過多種現(xiàn)有工具將其轉(zhuǎn)換為文本格式), 例如日期,數(shù)字,人名,組織名,化學(xué)名稱等等。命名實體識別問題可以定義成分類問題,即每一個詞屬于預(yù)先定義的表示區(qū)域位置信息的類別??梢杂肐wJ i=0,l,K,m表示文本的Token序列,目的是給每一個文本符號Wi分配一個類標簽ti;、的取值為預(yù)先定義的類標簽集合。一般使用傳統(tǒng)的BIO編碼系統(tǒng)作為文本符號的類標志。其中B表示當前的詞是名稱的起始部分,I表示當前的詞是名稱的一部分但是為非起始部分,0表示當前的詞不是名稱的一部分。學(xué)習(xí)系統(tǒng)的任務(wù)就是預(yù)測每一個文本符號Wi的類標簽、。已有的命名實體識別方法大致可分為三種基于字典的,基于規(guī)則的和基于機器學(xué)習(xí)的。目前基于學(xué)習(xí)的系統(tǒng)逐漸成為NER的主流,其又可進一步分為兩類基于分類器的系統(tǒng)和基于馬爾可夫模型的系統(tǒng)。前者包括支持向量機0等;后者包括HMMO、MEMMO, CRFO等,在解決諸如語音識別和詞性標注之類的序列標注問題時,優(yōu)勢尤為突出。具體可以參見[l]T.R.Leek. Information extractionusing hidden markov models. Master's thesis,UC San Diego, 1997、[2]A. McCallum, D. Freitag, and F. Pereira. Maximum entropy Markov models forinformation extraction and segmentation. In Proc.17th InternationalConf. on Machine Learning, pages 591-598、 [3]Morgan Kaufmann, SanFrancisco, CA,2000., J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields !Probabilistic models for segmenting andlabeling sequence data.In Proc.18th International Conf. on MachineLearning, pages 282-289. Morgan Kaufmann, San Francisco, CA,2001 禾口 [4]Nello Cristianini and John Shawe-Taylor. An Introduction to SupportVector Machines and other。在本發(fā)明中,命名實體識別用來尋找和定位無結(jié)構(gòu)文檔中人名,地址,日期等信息。對于具體的命名實體的識別方法在此不作進一步的闡述,以上具體的命名實體的識別方法僅是示例性的,對本發(fā)明的保護范圍不構(gòu)成限制。在步驟103中,基于在步驟101中所得到的所述相關(guān)信息,確定所述電子文檔的命名實體之間的關(guān)系信息是否存在變更。其中本發(fā)明對確定所述電子文檔的命名實體之間的關(guān)系信息是否存在變更存在多種實施方式,優(yōu)選地,基于本申請,可以將各種電子文檔的命名實體之間的關(guān)系信息的變更信息存儲為數(shù)據(jù)庫,根據(jù)由分析電子文檔的命名實體作為檢索條件,對該數(shù)據(jù)庫進行檢索,或者預(yù)先將電子文檔的變更提示存于數(shù)據(jù)庫,并記錄所述電子文檔的唯一標識符,而基于電子文檔的唯一標識符而至少將該變更信息發(fā)送給客戶端。 圖2、3示了兩種優(yōu)選的實施方式,具體細節(jié)將在討論圖2、3進行描述。本領(lǐng)域技術(shù)人基于本申請可以構(gòu)思出其它實施方式。在步驟105中,如果所述關(guān)系信息存在變更,則至少向客戶端發(fā)送所述關(guān)系信息的變更。如果在步驟103中判斷出電子文檔的命名實體之間的關(guān)系信息存在變更,則確定出命名實體之間的關(guān)系信息的變更,并將該變更發(fā)送給客戶端。在客戶端,可以通過浮動式提示欄、修改標記、透明顯示等方式對用戶進行提示。這些提示方式都可以通過在客戶端的瀏覽器增加功能插件,或者使用Javascript腳本語言,將信息的變化歷史在用戶瀏覽網(wǎng)頁的時候展現(xiàn)出來。圖6示出了本發(fā)明的一個具體應(yīng)用。圖2示出了本發(fā)明用于提示電子文檔內(nèi)容變更的方法的第二種具體實施方式
。其中,在步驟201中,識別所述電子文檔的至少部分命名實體。在該步驟中,可以利用上述介紹的各種命名實體識別方法進行命名實體的識別,從而可以獲得所述電子文檔的多個命名實體,優(yōu)選至少包括兩個相鄰的命名實體,比如在同一個句子中的兩個命名實體。在步驟 203中,根據(jù)所述電子文檔的命名實體檢索關(guān)系信息變更歷史數(shù)據(jù)庫。其中可以將兩個相鄰的命名實體作為檢索條件,在關(guān)系信息變更歷史數(shù)據(jù)庫進行檢索,優(yōu)選地,對關(guān)系信息變更歷史數(shù)據(jù)庫進行索引,以縮短檢索時間和提高檢索效率。基于本申請可以通過各種方式建立關(guān)系信息變更歷史數(shù)據(jù)庫。圖4、5示出了建立關(guān)系信息變更歷史數(shù)據(jù)庫的優(yōu)選方式,對此將在后面進行詳細描述。在步驟205中,如果在所述關(guān)系信息變更歷史數(shù)據(jù)庫檢索到所述命名實體之間的關(guān)系信息的變更,則確定所述命名實體之間的關(guān)系信息存在變更。在關(guān)系信息變更歷史數(shù)據(jù)庫中,將記錄電子文檔的命名實體的關(guān)系信息,比如以〈主語,關(guān)系, 對象,時間 > 這樣的表征關(guān)系信息的四元組對命名實體的關(guān)系信息變更歷史進行記錄,并對其進行索引。關(guān)系信息并不限于上述內(nèi)容,還可以由用戶定義其感興趣的相關(guān)信息,也可以采用其它不同的數(shù)據(jù)結(jié)構(gòu)來表述所述關(guān)系信息。在步驟207中,如果在步驟205中確定所述關(guān)系信息存在變更,則至少向客戶端發(fā)送所述至少部分命名實體的關(guān)系信息的變更。圖2 所示第二種實施方式可以實現(xiàn)對用戶瀏覽的任何形式的電子文檔的提示,對電子文檔的格式?jīng)]有特別的要求,并且大大地擴大了用戶對大量文檔的高質(zhì)量信息的要求。圖3示出了本發(fā)明用于提示電子文檔的變更的方法的第三種具體實施方式
。其中,在步驟301中,識別所述電子文檔的唯一標識符。電子文檔的URL,存儲路徑、電子文檔的全局唯一代碼或者其它形式的電子文檔的唯一標識符都可以作為該電子文檔的唯一標識符,電子文檔的唯一標識符可能存在于用戶的請求中,也可能在訪問的內(nèi)容服務(wù)器中,本領(lǐng)域技術(shù)人員可以基于本申請通過各種分析手段獲得。在步驟303中,根據(jù)所述唯一標識符檢索關(guān)系信息變更歷史數(shù)據(jù)庫。在該關(guān)系信息變更歷史數(shù)據(jù)庫中,存儲有由所述唯一標識符所標示的電子文檔以及提示的命名實體之間的關(guān)系信息的變更。該數(shù)據(jù)庫可以由電子文檔的唯一標識符來建立檢索的索引。在步驟305中,如果在所述關(guān)系信息變更歷史數(shù)據(jù)庫檢索到所述命名實體之間的關(guān)系信息的變更,則確定所述電子文檔的所述命名實體之間的關(guān)系信息存在變更。即如果在關(guān)系信息變更歷史數(shù)據(jù)庫中找到了通過分析客戶端請求得到的唯一標識符的檢索條目,且該檢索條目記錄了該電子文檔及其電子文檔的命名實體之間的關(guān)系信息的變更,則確定所述電子文檔的所述命名實體之間的關(guān)系信息存在變更。以及在步驟307中,向用戶發(fā)送所述電子文檔的相關(guān)所述變更。由于上面已經(jīng)檢索到記錄了該電子文檔及其電子文檔的命名實體之間的關(guān)系信息的變更的檢索條目,則可以向用戶發(fā)送所述電子文檔的相關(guān)變更。優(yōu)選地,如果服務(wù)方提供方本身就擁有所述電子文檔的版權(quán)或者版權(quán)使用權(quán),也可以同時向用戶發(fā)送該電子文檔,而無需向第三方請求該電子文檔。并采用以上所述的多種提示方式之一向用戶顯示,從而保證了用戶獲得最接近實際或者最新的信息,或者了解了命名實體之間的關(guān)系信息的演變歷史,大大地提高了用戶的使用體驗, 具有顯著的技術(shù)效果。這種方法結(jié)合到如Google,Baidu這樣的搜索引擎工具中,會使得用戶有更好的體驗。圖4本發(fā)明用于建立關(guān)系信息變更歷史數(shù)據(jù)庫的具體實施方式
。其中在步驟401 中,提取電子文檔中的命名實體的關(guān)系信息。其中包括對電子文檔的命名實體的識別,以及相鄰命名實體之間的關(guān)系信息的識別和分類。所述關(guān)系信息可以是一個四元組,包括主語和對象的命名實體、命名實體之間的關(guān)系以及時間信息。在步驟403中,對所述命名實體之間的關(guān)系信息建立索引。為了提高查詢效率,應(yīng)當對所述關(guān)系信息建立相關(guān)索引。優(yōu)選地可以根據(jù)時間信息判斷電子文檔是否存在相應(yīng)的命名實體之間的關(guān)系信息的變更,如果存在,則形成變更標記的所述電子文檔并存儲,并根據(jù)電子文檔的唯一標識符、命名實體、命名實體以及命名實體之間的關(guān)系建立相關(guān)索引。優(yōu)選地,還包括對所述命名實體之間的關(guān)系信息進行去重和歸并。在步驟405中,存儲所述關(guān)系信息以及對應(yīng)的索引以建立關(guān)系信息變更歷史數(shù)據(jù)庫。通過上述方法就可以初步建立起關(guān)系信息變更歷史數(shù)據(jù)庫。由于電子文檔隨著時間而會不斷地增多和電子文檔內(nèi)的信息會不斷地發(fā)生變更,因此在步驟407 中,就判斷是否要對所建立的關(guān)系信息變更歷史數(shù)據(jù)庫進行定時變更,如果是,則重復(fù)上述步驟401、403和405以確保能夠為用戶提供及時變更的信息。圖5示出了本發(fā)明用于提示電子文檔的變更的優(yōu)選第四具體實施方式
。其中包括了三個主要步驟提取多個所述電子文檔的命名實體之間的關(guān)系信息步驟500、基于所述關(guān)系信息,建立關(guān)系信息變更歷史數(shù)據(jù)庫步驟700以及內(nèi)容變更提示步驟900。其中,本領(lǐng)域技術(shù)人員明了,可以通過網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)中收集大量的新生成的網(wǎng)頁或者變更的網(wǎng)頁、維基百科或者百度百科的修改信息等等,也可以通過其它方式收集其它類型的電子文檔。在步驟501中,接收多個電子文檔,并且識別所述電子文檔中的所述命名實體。在步驟 503中,抽取相鄰的所述命名實體的相關(guān)特征。在該步驟中,可以提取所述電子文檔的時間信息,這可以通過抽取電子文檔的時間戳、識別電子文檔記載的日期等多種技術(shù)手段獲得。 值得注意的是,抽取文檔的時間信息可以在任何恰當?shù)牟襟E中進行,其順序并沒有特別的要求。特征抽取(Feature Extraction)是指從文本中抽取出特征,量化成計算機可以理解的抽象表達方式。在機器學(xué)習(xí)方法中,適合的特征抽取能大大提高機器學(xué)習(xí)模型的精度。例如,訓(xùn)練一個POS(Part-Of-Speech)分類器,也就是詞性分類器時。第一步就是進行特征選取,這里主要關(guān)注兩種特征。第一種是詞本身的特征,比如這個詞是否是大寫,是否是數(shù)字, 是否全是大寫,是否全是數(shù)字,前綴后綴等。第二種是上下文特征,比如一個詞的前后的詞, 前面詞的詞性等?;谶@些特征,可以構(gòu)建出一個機器學(xué)習(xí)模型,在標記好的數(shù)據(jù)集上訓(xùn)練得到這個模型的參數(shù),用來預(yù)測沒有標記的數(shù)據(jù)集。在本發(fā)明中,首先對文檔中進行命名實體識別;對于兩個鄰近的命名實體(比如出現(xiàn)在同一個句子),可以抽取出以下特征,這些特征可以用來判斷這兩個實體的關(guān)系(1)實體本身特征實體的名字,實體的類別,實體的詞性等;(2)實體關(guān)系特征兩個實體的距離字數(shù),實體中是否有相連的動詞,動詞的詞根等;(3)上下文特征兩個實體周邊的詞。值得注意的是,上述對特征抽取的方法僅僅是示例性的,本領(lǐng)域技術(shù)人員基于本發(fā)明可以使用現(xiàn)有的或者將來發(fā)現(xiàn)的相關(guān)方法,這些方法都對本發(fā)明的保護范圍不構(gòu)成限制。其它具體的方法還可以使用Latent Dirichlet Allocation方法得到隱含的特征等, 具體可參見 Blei DM,Ng AY, and Jordan MI. 2003. Latentdirichlet allocation. J. Mach. Learn. Res. 3 (Mar. 2003),993-1022。作為示例性的,比如,如果有相關(guān)電子文檔介紹了 IBM 中國研究院的地址情況,經(jīng)過上面的步驟后,就可以得到表征命名實體之間的關(guān)系信息的關(guān)系四元組如〈IBM中國研究院,座落于,昊海大廈,2003年 > 和〈IBM中國研究院,處于,鉆石大廈,2005年〉。在步驟505中,基于所述特征,分類相鄰的所述命名實體的關(guān)系。關(guān)系分類(Relation Extraction)在得到兩個鄰近的命名實體后,就要來判斷它們之間的關(guān)系,比如“座落于”,“任職”等。對于每一種關(guān)系,利用上面提到特征抽取方法,在事先標注好的數(shù)據(jù)集上的訓(xùn)練出一個分類模型。也就是說針對每一種關(guān)系都訓(xùn)練出一個分類器。對于兩個鄰近的命名實體,使用每個分類器中進行關(guān)系預(yù)測,找出確信度最高的那個分類,如果確信度超過閥值,就將這兩個實體符合該關(guān)系,反之就認為這兩個實體沒有關(guān)系。上述對特征抽取的方法僅僅是示例性的,本領(lǐng)域技術(shù)人員基于本發(fā)明可以使用現(xiàn)有的或者將來發(fā)現(xiàn)的相關(guān)方法,這些方法都對本發(fā)明的保護范圍不構(gòu)成限制。其它具體的方法還可以使用語法結(jié)構(gòu)來進行抽取,例如可以參考 Sahay S, Mukherjea S, Agichtein E, Garcia EV, Navathe SB and Ram Α. 2008. Discovering semantic biomedicalreIations utilizing the Web. ACM Trans. Knowl. Discov. Data 2,1 (Mar. 2008),1-15。經(jīng)過了上述分類步驟后,就可以獲得相應(yīng)的關(guān)系信息,其可以表示為 < 主語,關(guān)系,對象,時間 > 的關(guān)系四元組,比如〈IBM中國研究院,座落于,昊海大廈,2003年 > 和〈IBM中國研究院,處于,鉆石大廈,2005年 > 就會歸到同一類,因為“座落于”、“處于”都是表示地址的關(guān)系。值得注意的是,上述關(guān)系四元組僅僅是示例性的,本領(lǐng)域技術(shù)人員基于本中請完全可以構(gòu)思出其它任何合適的數(shù)據(jù)結(jié)構(gòu)表達所述關(guān)系信息。建立和變更信息變更歷史數(shù)據(jù)庫步驟700存在多個步驟。其中在步驟507中,判斷分類后的相鄰的所述命名實體之間的關(guān)系是否屬于預(yù)定的關(guān)系種類。預(yù)定關(guān)系可以有多種類型,比如“舉辦于”、“擔(dān)任職務(wù)”和“上下級關(guān)系”等,也可以由用戶指定其關(guān)心的預(yù)定關(guān)系類型,以滿足用戶的特殊需求。如果所述命名實體之間的關(guān)系不屬于預(yù)定關(guān)系種類,則這樣的關(guān)系信息將被丟棄。如果分類后的相鄰的所述命名實體之間的關(guān)系屬于預(yù)定的關(guān)系種類,則在步驟509中,對所述分類后的相鄰的所述命名實體的關(guān)系進行查重和歸并。首先排除重復(fù)的關(guān)系信息,然后對關(guān)系信息進行歸并,比如對于關(guān)系信息〈IBM中國研究院,座落于,昊海大廈,2003年 > 和〈IBM中國研究院,座落于,鉆石大廈,2005年 >,這是兩條具有相同主語和關(guān)系詞的關(guān)系,只是賓語在不同的時間有不同的取值,就可以歸并成為〈IBM中國研究院,座落于,(昊海大廈,2003年)(鉆石大廈,2005年)>,這就是一條關(guān)系信息變更歷史的數(shù)據(jù),包含IBM中國研究院不同時期的地址信息,存儲該關(guān)系信息變更歷史的數(shù)據(jù)到關(guān)系信息變更歷史數(shù)據(jù)庫中。否則,所述關(guān)系信息將在步驟508中丟棄。在步驟511中, 對查重和歸并處理后的所述分類后的相鄰的所述命名實體的關(guān)系建立信息變更數(shù)據(jù)索引。 為了能夠迅速的獲取關(guān)系信息變更歷史數(shù)據(jù),要對其進行索引,優(yōu)選進行兩種索引,一是針對主語和對象建立索引,這樣可以由相鄰命名實體檢索到“ IBM中國研究院”和“昊海大廈” 是“座落于”關(guān)系;二是對主語和關(guān)系建立索引,這樣基于上述檢索到的命名實體的關(guān)系類型結(jié)果,在使用(IBM中國研究院,座落于)作為條件來查詢的時候,(昊海大廈,2003年) (鉆石大廈,2005年)這種歷史變化都可以獲得。至于具體如何建立檢索條目,本領(lǐng)域技術(shù)人員基于本申請可以采用現(xiàn)有的多種技術(shù)進行,在此不再贅述。這樣通過檢索就能很快得到電子文檔的命名實體之間的關(guān)系信息的變更。在步驟513中,將所述信息變更數(shù)據(jù)索引存儲到關(guān)系信息變更歷史數(shù)據(jù)庫。由于電子文檔隨著時間而會不斷地增多和電子文檔內(nèi)的信息會不斷地發(fā)生變更,因此可以定時重復(fù)上述步驟501-513以確保能夠為用戶提供及時變更的信息,對此在圖5中沒有明確示出該步驟。內(nèi)容變更提示步驟900基于在步驟700中建立和變更的關(guān)系信息變更歷史數(shù)據(jù)庫向用戶提供電子文檔的內(nèi)容變更的提示。其中,在步驟514中響應(yīng)客戶端對網(wǎng)頁或者其它電子文檔的瀏覽請求,在步驟515中,首先對電子文檔進行命名實體識別。例如從文本中抽取出“IBM中國研究院”和“昊海大廈”兩個命名實體。如果這兩個命名實體非常鄰近,則在步驟517中將這兩個實體作為搜索條件送到關(guān)系信息變更歷史數(shù)據(jù)庫去查詢,基于上述建立的索引,就可以得到<1 BM中國研究院,地址(座落于),昊海大廈,2003年〉這類的關(guān)系四元組,然后再將(IBM中國研究院,地址)作為搜索條件進行查詢,可以得到關(guān)系的歷史變化是(昊海大廈,2003年)(鉆石大廈,2005年),然后通過步驟519、521將這個關(guān)系信息的變更返回給用戶,提醒IBM中國研究院的地址從2005年開始就改變成了“鉆石大廈”。這個過程可以由網(wǎng)絡(luò)運營商或者搜索引擎或者其它應(yīng)用提供方在后臺事先運算完成,定期更新,在用戶提出瀏覽電子文檔時根據(jù)電子文檔的唯一標識符其變更結(jié)果直接提供給用戶,另外優(yōu)選地,如果服務(wù)方本身就擁有所述電子文檔的版權(quán)或者版權(quán)使用權(quán),也可以由網(wǎng)絡(luò)運營商或者搜索引擎或者其它應(yīng)用提供方在后臺將所述電子文檔結(jié)合電子文檔的命名實體的。另外優(yōu)選地,考慮到電子文檔的數(shù)量,可以只針對讀者閱讀量比較大的電子文檔(比如互聯(lián)網(wǎng)中的點擊量高的熱門帖子)在關(guān)系信息變更歷史數(shù)據(jù)庫建立更新紀錄,這樣將顯著減少后臺服務(wù)器的負擔(dān)。當然也可以由服務(wù)器端或者用戶端的插件在用戶請求訪問電子文檔的過程中對電子文檔進行命名實體的識別,這樣相對而言可以減輕后臺的預(yù)備工作。除了上面所提到的IBM中國研究院地址變更的應(yīng)用實例外,圖6示出了本發(fā)明另一個具體應(yīng)用示例。圖6顯示了來自網(wǎng)上的一條blog(博客)的內(nèi)容,“World Cup”(世界杯)和“Germany”(德國)是從該條博客識別出來的部分命名實體,第二個“World Cup” 和“Germany”出現(xiàn)在同一個句子中,我們通過使用這兩個命名實體送到后臺建立的關(guān)系信息變更歷史數(shù)據(jù)庫數(shù)據(jù)庫進行檢索,就可以知道兩者存在“Hosted By”(主辦)關(guān)系,再根據(jù)檢索到的關(guān)系“HostedBy”,將“World Cup”和“Hosted By”送到后臺數(shù)據(jù)庫進行檢索, 就可以得到關(guān)系信息的歷史變更過程,然后將其提供給用戶??紤]到用戶界面的友好性,優(yōu)選在用戶界面設(shè)立可選項,由用戶決定是否使用該顯示變更的功能。還可以在文檔界面采用光標跟隨的方式,只有當用戶對一些內(nèi)容感興趣時,才顯示相關(guān)變更,這樣既可以保證用戶獲得變更的信息,同時也不會影響用戶閱讀原文。另外用戶也可以限定只顯示電子文檔的命名實體之間某特定類型的關(guān)系信息的更新,比如用戶只是關(guān)心地址、價格、名稱等的變更。優(yōu)選地,還可以顯示相關(guān)變更內(nèi)容的鏈接以方便用戶進一步的閱讀。當然本領(lǐng)域技術(shù)人員可以基于本申請而采用其它用戶喜歡的顯示方式。圖7示出了本發(fā)明用于提示電子文檔內(nèi)容變更的系統(tǒng)600。其中客戶端請求分析裝置701用于響應(yīng)于客戶端瀏覽電子文檔的請求,分析所述請求以獲得相關(guān)信息;更新確認裝置703則用于基于所述相關(guān)信息,確定所述電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更;更新發(fā)送裝置705則用于如果所述關(guān)系信息存在變更,向客戶端發(fā)送至少部分所述關(guān)系信息的變更。由于在上面已經(jīng)詳細闡述了相關(guān)裝置所涉及的相關(guān)方法的實現(xiàn),在此不再贅述。作為優(yōu)選,其中所述客戶端請求分析裝置701包括用于識別所述電子文檔的至少部分命名實體的裝置。作為優(yōu)選,其中所述更新確認裝置703包括用于檢索關(guān)系信息變更歷史數(shù)據(jù)庫以確定所述命名實體之間的關(guān)系信息是否存在變更的裝置。作為優(yōu)選,其中所述相關(guān)信息包括所述電子文檔的至少部分命名實體,所述更新確認裝置703包括用于根據(jù)所述電子文檔的至少部分命名實體檢索關(guān)系信息變更歷史數(shù)據(jù)庫的裝置;用于如果在所述關(guān)系信息變更歷史數(shù)據(jù)庫中檢索到所述命名實體之間的關(guān)系信息的變更,則確定所述命名實體之間的關(guān)系信息存在變更的裝置。作為優(yōu)選,其中所述相關(guān)信息包括所述電子文檔的唯一標識符,所述更新確認裝置703包括用于根據(jù)所述唯一標識符檢索關(guān)系信息變更歷史數(shù)據(jù)庫的裝置;用于如果在所述關(guān)系信息變更歷史數(shù)據(jù)庫中檢索到所述命名實體之間的關(guān)系信息的變更,則確定所述電子文檔的所述命名實體之間的關(guān)系信息存在變更的裝置。作為優(yōu)選,所述用于提示電子文檔內(nèi)容變更的系統(tǒng)600還進一步包括用于建立所述關(guān)系信息變更歷史數(shù)據(jù)庫的裝置,該裝置包括用于提取多個所述電子文檔的命名實體之間的關(guān)系信息的裝置;用于基于所述關(guān)系信息,建立關(guān)系信息變更歷史數(shù)據(jù)庫的裝置。作為優(yōu)選,所述用于提取多個所述電子文檔的命名實體之間的關(guān)系信息的裝置包括用于接收多個所述電子文檔的裝置;用于識別所述電子文檔中的所述命名實體的裝置;用于抽取相鄰的所述命名實體的相關(guān)特征的裝置;用于基于所述相關(guān)特征,分類相鄰的所述命名實體之間的關(guān)系的裝置。作為優(yōu)選,其中所述特征包括命名實體的本身特征;命名實體的關(guān)系特征;命名實體的上下文特征。作為優(yōu)選,其中所述用于基于所述關(guān)系信息,建立關(guān)系信息變更歷史數(shù)據(jù)庫的裝置包括用于判斷分類后的相鄰的所述命名實體之間的關(guān)系是否屬于預(yù)定的關(guān)系種類的裝置;用于對所述分類后的相鄰的所述命名實體之間的關(guān)系進行查重和歸并的裝置;用于對查重和歸并處理后的所述分類后的相鄰的所述命名實體之間的關(guān)系建立關(guān)系信息變更數(shù)據(jù)索引的裝置;以及用于將所述關(guān)系信息變更數(shù)據(jù)索引存儲到關(guān)系信息變更歷史數(shù)據(jù)庫的
直ο作為優(yōu)選,其中所述建立關(guān)系信息變更歷史數(shù)據(jù)庫的裝置進一步包括用于定時收集電子文檔以更新所述關(guān)系信息變更歷史數(shù)據(jù)庫的裝置。作為優(yōu)選,其中所述用于對查重和歸并處理后的所述分類后的相鄰的所述命名實體之間的關(guān)系建立關(guān)系信息變更數(shù)據(jù)索引的裝置包括用于針對關(guān)系信息中的命名實體、關(guān)系以及所述電子文檔的唯一標識符中的至少之一建立關(guān)系信息變更數(shù)據(jù)索引的裝置。作為優(yōu)選,其中所述唯一標識符包括以下之一電子文檔的URL、電子文檔的存儲路徑、電子文檔的全局唯一代碼。其中所述關(guān)系信息包括命名實體、命名實體之間的關(guān)系以及時間信息。圖8示出了本發(fā)明用于建立關(guān)系信息變更歷史數(shù)據(jù)庫的系統(tǒng)1000的結(jié)構(gòu)框圖。系統(tǒng)1000包括關(guān)系提取裝置801和關(guān)系信息變更歷史數(shù)據(jù)庫建立裝置803。其中,關(guān)系提取裝置801用于提取多個所述電子文檔的命名實體之間的關(guān)系信息;關(guān)系信息變更歷史數(shù)據(jù)庫建立裝置803用于基于所述關(guān)系信息,建立關(guān)系信息變更歷史數(shù)據(jù)庫。由于在上面已經(jīng)詳細闡述了相關(guān)裝置所涉及的相關(guān)方法的實現(xiàn),在此不再贅述。作為優(yōu)選,所述關(guān)系提取裝置801包括用于接收多個所述電子文檔的裝置;用于識別所述電子文檔中的所述命名實體的裝置;用于抽取相鄰的所述命名實體的相關(guān)特征的裝置;用于基于所述相關(guān)特征,分類相鄰的所述命名實體之間的關(guān)系的裝置。作為優(yōu)選,其中所述特征包括命名實體的本身特征;命名實體的關(guān)系特征;命名實體的上下文特征。作為優(yōu)選,其中所述關(guān)系信息變更歷史數(shù)據(jù)庫建立裝置803包括用于判斷分類后的相鄰的所述命名實體之間的關(guān)系是否屬于預(yù)定的關(guān)系種類的裝置;用于對所述分類后的相鄰的所述命名實體之間的關(guān)系進行查重和歸并的裝置;用于對查重和歸并處理后的所述分類后的相鄰的所述命名實體之間的關(guān)系建立關(guān)系信息變更數(shù)據(jù)索引的裝置;以及用于將所述關(guān)系信息變更數(shù)據(jù)索引存儲到關(guān)系信息變更歷史數(shù)據(jù)庫的裝置。作為優(yōu)選,其中所述關(guān)系信息變更歷史數(shù)據(jù)庫建立裝置803進一步包括用于定時收集電子文檔以更新所述關(guān)系信息變更歷史數(shù)據(jù)庫的裝置。作為優(yōu)選,其中所述用于對查重和歸并處理后的所述分類后的相鄰的所述命名實體之間的關(guān)系建立關(guān)系信息變更數(shù)據(jù)索引的裝置包括用于針對關(guān)系信息中的命名實體、關(guān)系以及所述電子文檔的唯一標識符中的至少之一建立關(guān)系信息變更數(shù)據(jù)索引的裝置。另外,根據(jù)本發(fā)明的用于提示電子文檔內(nèi)容變更的方法和用于建立所述關(guān)系信息變更歷史數(shù)據(jù)庫的方法還可以通過計算機程序產(chǎn)品來實施,該計算機程序產(chǎn)品包括用于當在計算機上運行所述計算機程序產(chǎn)品時執(zhí)行以實施本發(fā)明的仿真方法的軟件代碼部分。還可以通過在計算機可讀記錄介質(zhì)中記錄一計算機程序來實施本發(fā)明,該計算機程序包括用于當在計算機上運行所述計算機程序時執(zhí)行以實施根據(jù)本發(fā)明的仿真方法的軟件代碼部分。即,根據(jù)本發(fā)明的仿真方法的過程能夠以計算機可讀介質(zhì)中的指令的形式和各種其它形式分發(fā),而不管實際用來執(zhí)行分發(fā)的信號承載介質(zhì)的特定類型。計算機可讀介質(zhì)的例子包括諸如EPROM、ROM、磁帶、紙、軟盤、硬盤驅(qū)動器、RAM和CD-ROM的介質(zhì)以及諸如數(shù)字和模擬通信鏈路的傳輸型介質(zhì)。盡管參考本發(fā)明的優(yōu)選實施例具體展示和描述了本發(fā)明,但是本領(lǐng)域一般技術(shù)人員應(yīng)該明白,在不脫離所附權(quán)利要求限定的本發(fā)明的精神和范圍的情況下,可以對其進行形式和細節(jié)上的各種修改。
權(quán)利要求
1.一種用于提示電子文檔內(nèi)容變更的方法,所述方法包括 響應(yīng)于客戶端瀏覽電子文檔的請求,分析所述請求以獲得相關(guān)信息;基于所述相關(guān)信息,確定所述電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更;以及如果所述關(guān)系信息存在變更,向客戶端發(fā)送至少部分所述關(guān)系信息的變更。
2.一種如權(quán)利要求1所述的方法,其中所述相關(guān)信息至少包括所述電子文檔的至少部分命名實體,所述分析所述請求以獲得相關(guān)信息包括識別所述電子文檔的至少部分命名實體。
3.—種如權(quán)利要求1所述的方法,其中所述確定所述電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更包括基于所述相關(guān)信息檢索關(guān)系信息變更歷史數(shù)據(jù)庫以確定所述命名實體之間的關(guān)系信息是否存在變更。
4.一種如權(quán)利要求2所述的方法,其中所述確定所述電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更包括根據(jù)所述電子文檔的至少部分命名實體檢索關(guān)系信息變更歷史數(shù)據(jù)庫;以及如果在所述關(guān)系信息變更歷史數(shù)據(jù)庫中檢索到所述命名實體之間的關(guān)系信息的變更, 則確定所述命名實體之間的關(guān)系信息存在變更。
5.一種如權(quán)利要求1所述的方法,其中所述相關(guān)信息包括所述電子文檔的唯一標識符,所述確定所述電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更包括根據(jù)所述唯一標識符檢索關(guān)系信息變更歷史數(shù)據(jù)庫;以及如果在所述關(guān)系信息變更歷史數(shù)據(jù)庫中檢索到所述命名實體之間的關(guān)系信息的變更, 則確定所述電子文檔的所述命名實體之間的關(guān)系信息存在變更。
6.一種如權(quán)利要求3-5任一項所述的方法,所述方法還進一步包括建立所述關(guān)系信息變更歷史數(shù)據(jù)庫,所述建立所述關(guān)系信息變更歷史數(shù)據(jù)庫包括提取多個電子文檔的命名實體之間的關(guān)系信息; 基于所述關(guān)系信息,建立關(guān)系信息變更歷史數(shù)據(jù)庫。
7.—種如權(quán)利要求6所述的方法,所述提取多個電子文檔的命名實體之間的關(guān)系信息包括接收多個電子文檔;識別所述電子文檔中的所述命名實體;抽取相鄰的所述命名實體的相關(guān)特征;以及基于所述相關(guān)特征,分類相鄰的所述命名實體之間的關(guān)系。
8.—種如權(quán)利要求7所述的方法,其中所述相關(guān)特征包括至少以下之一命名實體的本身特征;命名實體的關(guān)系特征;命名實體的上下文特征。
9.一種如權(quán)利要求7所述的方法,所述基于所述關(guān)系信息,建立關(guān)系信息變更歷史數(shù)據(jù)庫還包括判斷分類后的相鄰的所述命名實體之間的關(guān)系是否屬于預(yù)定的關(guān)系種類; 如果是,則對所述分類后的相鄰的所述命名實體之間的關(guān)系進行查重和歸并; 對查重和歸并處理后的所述分類后的相鄰的所述命名實體之間的關(guān)系建立關(guān)系信息變更數(shù)據(jù)索引;以及將所述關(guān)系信息變更數(shù)據(jù)索引存儲到關(guān)系信息變更歷史數(shù)據(jù)庫。
10.一種如權(quán)利要求7-9任一項所述的方法,其中所述建立所述關(guān)系信息變更歷史數(shù)據(jù)庫進一步包括定時收集電子文檔以更新所述關(guān)系信息變更歷史數(shù)據(jù)庫。
11.一種如權(quán)利要求9所述的方法,其中所述對查重和歸并處理后的所述分類后的相鄰的所述命名實體之間的關(guān)系建立關(guān)系信息變更數(shù)據(jù)索引包括針對關(guān)系信息中的命名實體、關(guān)系以及所述電子文檔的唯一標識符中的至少之一建立關(guān)系信息變更數(shù)據(jù)索引。
12.—種如權(quán)利要求5所述的方法,其中所述唯一標識符包括以下之一電子文檔的 URL、電子文檔的存儲路徑、電子文檔的全局唯一代碼。
13.—種如權(quán)利要求1所述的方法,其中所述關(guān)系信息包括命名實體、命名實體之間的關(guān)系以及時間信息。
14.一種用于建立所述關(guān)系信息變更歷史數(shù)據(jù)庫的方法,所述關(guān)系信息變更歷史數(shù)據(jù)庫用于如權(quán)利要求1提示電子文檔內(nèi)容變更,該方法包括提取多個電子文檔的命名實體之間的關(guān)系信息; 基于所述關(guān)系信息,建立關(guān)系信息變更歷史數(shù)據(jù)庫。
15.一種如權(quán)利要求14所述的方法,所述提取所述電子文檔的命名實體之間的關(guān)系信息包括接收多個所述電子文檔;識別所述電子文檔中的所述命名實體;抽取相鄰的所述命名實體的相關(guān)特征;以及基于所述相關(guān)特征,分類相鄰的所述命名實體之間的關(guān)系。
16.一種如權(quán)利要求15所述的方法,所述基于所述關(guān)系信息,建立關(guān)系信息變更歷史數(shù)據(jù)庫包括判斷分類后的相鄰的所述命名實體之間的關(guān)系是否屬于預(yù)定的關(guān)系種類; 如果是,則對所述分類后的相鄰的所述命名實體之間的關(guān)系進行查重和歸并; 對查重和歸并處理后的所述分類后的相鄰的所述命名實體之間的關(guān)系建立關(guān)系信息變更數(shù)據(jù)索引;以及將所述關(guān)系信息變更數(shù)據(jù)索引存儲到關(guān)系信息變更歷史數(shù)據(jù)庫。
17.—種如權(quán)利要求16所述的方法,其中所述對查重和歸并處理后的所述分類后的相鄰的所述命名實體之間的關(guān)系建立關(guān)系信息變更數(shù)據(jù)索引包括針對關(guān)系信息中的命名實體、關(guān)系以及所述電子文檔的唯一標識符中的至少之一建立關(guān)系信息變更數(shù)據(jù)索引。
18.一種用于提示電子文檔的變更的系統(tǒng),所述系統(tǒng)包括客戶端請求分析裝置,用于響應(yīng)于客戶端瀏覽電子文檔的請求,分析所述請求以獲得相關(guān)信息的裝置;更新確認裝置,用于基于所述相關(guān)信息,確定所述電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更的裝置;以及更新發(fā)送裝置,用于如果所述關(guān)系信息存在變更,向客戶端發(fā)送至少部分所述關(guān)系信息的變更的裝置。
19.一種如權(quán)利要求18所述的系統(tǒng),所述系統(tǒng)進一步包括部件,所述部件用于實現(xiàn)如權(quán)利要求2-13任一項所述的方法。
20.一種用于建立所述關(guān)系信息變更歷史數(shù)據(jù)庫的系統(tǒng),所述系統(tǒng)包括用于實現(xiàn)如權(quán)利要求14-17任一項所述的方法的裝置。
全文摘要
本發(fā)明提供一種用于提示電子文檔內(nèi)容變更的方法、系統(tǒng)以及一種建立用于建立所述關(guān)系信息變更歷史數(shù)據(jù)庫的方法和系統(tǒng)。其中所述方法包括響應(yīng)于客戶端瀏覽電子文檔的請求,分析所述請求以獲得相關(guān)信息;基于所述相關(guān)信息,確定所述電子文檔的至少部分命名實體之間的關(guān)系信息是否存在變更;以及如果所述關(guān)系信息存在變更,向客戶端發(fā)送至少部分所述關(guān)系信息的變更。通過本發(fā)明用戶可以了解有關(guān)電子文檔的相關(guān)更改,從而可以高效地獲得有關(guān)信息。
文檔編號G06F17/30GK102207936SQ20101013697
公開日2011年10月5日 申請日期2010年3月30日 優(yōu)先權(quán)日2010年3月30日
發(fā)明者吳賢, 張夏天, 袁泉, 趙石頑 申請人:國際商業(yè)機器公司