用于表示為樹的分級的并基于索引的水印的系統(tǒng)和方法
【專利摘要】描述了提供表示為樹的、分級的并且基于索引的水印的方法。在一個實施例中,從特征水印形成水印樹,特征水印是從具有自然語言處理(NLP)分析術(shù)的NLP堆棧產(chǎn)生的。水印樹表示每個特征水印之間的分級關(guān)系。具體地,水印樹根據(jù)分級關(guān)系定義分級指針,分級指針指出存在于特征水印之間的繼承的水印。此外,水印樹包括指定訪問存在于文集中的數(shù)據(jù)集內(nèi)容的時間的時間戳。
【專利說明】用于表示為樹的分級的并基于索引的水印的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明總體地涉及對內(nèi)容加水印,更具體地涉及表示為樹的分級的并且基于索引的水印,其提供可以保護內(nèi)容不被修改同時關(guān)于具體文集狀態(tài)證實內(nèi)容源。
【背景技術(shù)】
[0002]傳統(tǒng)的水印技術(shù)通常提供防止偽造物品的安全機制。可以是可見和不可見的水印通常被放置在源文檔上并且可以用于提供原作者和版權(quán)保護、真實和防篡改機制。其中已經(jīng)使用水印的一個領(lǐng)域是可通過因特網(wǎng)訪問的數(shù)字內(nèi)容。具體地,水印已經(jīng)用于控制如何分發(fā)或再使用數(shù)字內(nèi)容(例如數(shù)字圖書館、在線新聞、雜志、科學期刊、百科全書、個人日志、材料(stores)、廣告等等)。自然語言(NL)加水印是已經(jīng)用于控制如何分發(fā)或再使用數(shù)字內(nèi)容的一種類型的水印技術(shù)。NL加水印通常設法通過操縱句子的語義和/或語法結(jié)構(gòu)來在文本文檔中嵌入信息。NL加水印不同于文本加水印,文本加水印通常修改文本格式的外觀或者字體,比如例如修改文本中的字間和字母間的間隔。
【發(fā)明內(nèi)容】
[0003]在一個實施例中,存在在計算機系統(tǒng)上進行的用于對存儲在多個全集(corpora)中的內(nèi)容加水印的方法,每個全集具有多個文集(corpuse )。在此實施例中,該方法包括使用該計算機系統(tǒng)來進行以下操作:從所述多個全集的一個內(nèi)的文集接收內(nèi)容的數(shù)據(jù)集;將該數(shù)據(jù)集應用于包括多個自然語言處理(NLP)分析術(shù)的NLP堆棧,該多個NLP分析術(shù)每個分析該數(shù)據(jù)集;從多個NLP分析術(shù)(analytics)的每個產(chǎn)生特征水?。灰约皬拿總€特征水印形成水印樹,水印樹表示從多個NLP分析術(shù)的每個產(chǎn)生的特征水印的每個之間的分級關(guān)系,該水印樹根據(jù)該分級關(guān)系定義分級指針,分級指針指出存在于特征水印之間的繼承的水印,該水印樹包括指定從文集訪問該數(shù)據(jù)集的時間的時間戳。
[0004]在第二實施例中,存在用于對存儲在多個全集中的內(nèi)容加水印的計算機系統(tǒng),每個全集具有多個文集。在此實施例中,該計算機系統(tǒng)包括至少一個處理單元以及與該至少一個處理單元操作地相關(guān)聯(lián)的存儲器。特征水印工具可存儲在存儲器中并且可由該至少一個處理單元執(zhí)行。該特征水印工具包括輸入組件,配置為從所述多個全集的一個內(nèi)的文集接收內(nèi)容的數(shù)據(jù)集。該特征水印工具還包括自然語言處理(NLP)堆棧,包括多個NLP分析術(shù),每個NLP分析術(shù)配置為從該數(shù)據(jù)集提取特征。另外,該特征水印工具包括特征水印產(chǎn)生器,配置為對于多個NLP分析術(shù)的每個針對從其提取的特征產(chǎn)生特征水印。該特征水印產(chǎn)生器還配置為從每個特征水印形成水印樹。該水印樹表示從多個NLP分析術(shù)的每個產(chǎn)生的特征水印的每個之間的分級關(guān)系。該水印樹根據(jù)該分級關(guān)系定義分級指針,分級指針指出存在于特征水印之間的繼承的水印。該水印樹包括指定訪問該數(shù)據(jù)集的時間的時間戳。
[0005]在第三實施例中,存在存儲計算及指令的計算機可使用的存儲器,該計算機指令在執(zhí)行時使得計算機系統(tǒng)能夠?qū)Υ鎯υ诙鄠€全集中的內(nèi)容加水印,每個全集具有多個文集。該執(zhí)行的計算及指令致使該計算機系統(tǒng)進行包括以下的方法:從所述多個全集的一個內(nèi)的文集接收內(nèi)容的數(shù)據(jù)集;將該數(shù)據(jù)集應用于包括每個分析該數(shù)據(jù)集的多個自然語言處理(NLP)分析術(shù)的NLP堆棧;從多個NLP分析術(shù)的每個產(chǎn)生特征水?。灰约皬拿總€特征水印形成水印樹,水印樹表示從多個NLP分析術(shù)的每個產(chǎn)生的特征水印的每個之間的分級關(guān)系,該水印樹根據(jù)該分級關(guān)系定義分級指針,分級指針指出存在于特征水印之間的繼承的水印,該水印樹包括指定從文集訪問該數(shù)據(jù)集的時間的時間戳。
【專利附圖】
【附圖說明】
[0006]圖1示出根據(jù)本發(fā)明的一個實施例的可以對存儲在多個全集(每個具有多個文集)中的內(nèi)容加水印的特征水印工具的示意圖;
[0007]圖2示出根據(jù)本發(fā)明的一個實施例的從經(jīng)過自然語言處理(NLP)堆棧的內(nèi)容產(chǎn)生特征水印和水印樹的圖1所示的特征水印工具的更詳細的示意圖;
[0008]圖3示出描述由圖1所示的特征水印工具進行的一般操作的流程圖;以及
[0009]圖4示出其中圖1所示的特征水印工具的要素可以操作的計算環(huán)境的示意。
【具體實施方式】
[0010]本發(fā)明的實施例針對用于將自然語言處理(NLP)加水印擴展為包括時域標記和基于繼承(inheritance)的標記的技術(shù),以保護作為來自全集的部分的文集中的內(nèi)容不被修改(例如刪除或更新),同時證實內(nèi)容源為具體文集狀態(tài)。在一個實施例中,可以在文集內(nèi)產(chǎn)生可見水印并且將其用作時域(temporal)標記和水印樹中的分級(hierarchical)指針。為了確保在具體時間時文集的真實,可以遞歸地遍歷水印樹中的水印指針以量度父親真實性。如果沿著鏈有任何父親驗證失敗,則從該無效水印到孩子的子鏈被標記為無效。另外,來自該無效標記的水印的整個子樹被認為無效。因此,當在給定時間時文集的一部分被認為無效時,則在具體時間時來自該文集上的任何delta搜索的結(jié)果將是無效的,并且可以從結(jié)果中過濾掉。在一個實施例中,在活動的文集可視化期間,當文集的一部分被毀壞(corrupt)時可以通知用戶,以便當選擇另外的數(shù)據(jù)源時,用戶不考慮臟數(shù)據(jù)(dirtydata)。
[0011]希望以此方式跟蹤文集改變,以便在向系統(tǒng)添加新的數(shù)據(jù)源時,可以確定源的相對相關(guān)性。另外,跟蹤文集改變使得其適合于用在基于時間的問題回答系統(tǒng)中,該問題回答系統(tǒng)使用在變化的時間時的文集狀態(tài)以提供諸如證實的出處和自動的源權(quán)重選擇的探索性的益處。
[0012]與在此所述的NLP加水印實施例相關(guān)聯(lián)的益處包括在無效水印的檢測期間使用基于樹的水印來無效文集或特征的部分。另外,基于樹的水印使能父親歸屬,即樹中的水印將知道父親或者相關(guān)的實體。還將存在時域消解(temporal resolution),即水印將具有依賴于水印樹的時域上下文。此時域消解可以超出水印樹進一步擴展到文集和全集級別。另一益處是本發(fā)明的NLP加水印實施例可以提供可見的暗淡的水印,與暗淡的代碼相反,可見的暗淡的水印提供了定義的清晰含義。其他益處是本發(fā)明的各個實施例支持delta負載和delta搜索。
[0013]參考附圖,圖1示出根據(jù)本發(fā)明的一個實施例的可以對存儲在多個全集4(每個具有多個文集6)中的內(nèi)容加水印的特征水印工具2的示意圖。全集4和文集6可以是以機器可讀形式存儲內(nèi)容的大量的數(shù)據(jù)集的任意數(shù)據(jù)庫。數(shù)字圖書館、在線新聞、雜志、科學期干IJ、百科全書、個人日志、材料、廣告集合是可以存儲在全集4和文集6中的內(nèi)容的例子。
[0014]如圖1所示,特征水印工具2包括預處理輸入組件8,其配置為從多個全集4中的一個內(nèi)的文集6接收內(nèi)容的數(shù)據(jù)集。另外,預處理輸入組件8可以進行預處理功能,預處理功能,包括額外的信息注釋內(nèi)容。例如,可以對每個詞的詞性進行詞性標注(例如動詞、名詞、形容詞)。語言變換是可以由預處理輸入組件8進行的另一預處理功能。語言變換可以包括同義詞替換、句法變換和語義變換。NLP解析是可以由預處理輸入組件8進行的另一項功能。NLP解析可以包括對于以原始形式接收的內(nèi)容,處理輸入語句以及產(chǎn)生某種結(jié)構(gòu)。NLP解析的輸出可以是語句的形態(tài)的、語法的或者語義的結(jié)構(gòu),或者可以是這些的組合。預處理輸入組件8的輸出是代表從具體全集4內(nèi)的文集6獲得的原始形式的內(nèi)容的文本塊。
[0015]NLP堆棧10接收來自預處理輸入組件8的文本塊,并且配置為從數(shù)據(jù)集中提取特征。NLP堆棧10可以包括多個NLP分析術(shù)(analytics),每個分析術(shù)配置為分析體現(xiàn)在文本塊中的數(shù)據(jù)集并且從其中提取特征。在一個實施例中,如以下關(guān)于圖2所述,NLP堆棧10可以采取根據(jù)預定的分級順序分析從預處理輸入組件8接收的內(nèi)容的居先管線(precedencepipeline)的形式??梢詫?nèi)容進行的NLP分析術(shù)的例子可以包括英語槽文法分析術(shù)、謂詞變量結(jié)構(gòu)分析術(shù)、命名的實體檢測分析術(shù)、時域消解分析術(shù)、聯(lián)合引用分析術(shù)、N-力特征提取分析術(shù)、時域算法分析術(shù)、代詞消解分析術(shù)、字替換分析術(shù)和統(tǒng)計語義關(guān)系分析術(shù)。這些分析術(shù)僅僅是可以用于從內(nèi)容提取特征的一些NLP分析術(shù)的例子,并且不意圖限制特征水印工具2的范圍。
[0016]不論使用什么NLP分析術(shù),它們都可以按預定的分級順序布置以便一些分析術(shù)先于其他分析術(shù)而進行。此外,一些分析術(shù)可能依賴于其他分析術(shù)。即,可能需要一個分析術(shù)的確定作為另一分析術(shù)的輸入,因此需要首先進行。本領(lǐng)域技術(shù)人員將理解,NLP堆棧10的分級順序不是永久的并且可以依賴于用戶指定而改變。如果分級順序改變,則探查特征水印的順序也將改變。
[0017]特征水印產(chǎn)生器12接收從每個NLP分析術(shù)提取的探知并且產(chǎn)生對于每個分析術(shù)特征的特征水印。在一個實施例中,按照符合在NLP堆棧10中建立的層級關(guān)系的順序確定對于NLP分析術(shù)的特征水印。例如,考慮按降序順序具有英語槽文法分析術(shù)、話語類型(type of speech)分析術(shù)、命名的實體檢測分析術(shù)、時域消解分析術(shù)和聯(lián)合引用分析術(shù)的NLP堆棧10。在此例子中,特征水印產(chǎn)生器12將首先確定對于從英語槽文法提取的特征的特征水印。特征水印產(chǎn)生器12然后將使用對于英語槽文法產(chǎn)生的特征水印作為話語類型特征水印確定的輸入。在一些例子中,可能出現(xiàn)下述情況,由于NLP分析術(shù)的層級關(guān)系,層級較低的一些分析術(shù)可能具有不是就在其上的其他分析術(shù)作為輸入。例如,在此例子的分級關(guān)系的底部的聯(lián)合引用分析術(shù)可能是命名的實體檢測分析術(shù)的孩子。在其中命名的實體檢測分析術(shù)是聯(lián)合引用分析術(shù)的父親的情況下,則特征水印產(chǎn)生器12將使用對于命名的實體檢測分析術(shù)產(chǎn)生的特征水印作為在確定對于聯(lián)合引用分析術(shù)的特征水印時的輸入。
[0018]如圖1所示,特征水印產(chǎn)生器12包括用于確定對于每個NLP分析術(shù)特定的特征水印的特征水印組件14。在一個實施例中,特征水印組件14根據(jù)以下關(guān)系確定特征水印:
[0019]F(CiJ^) = U ,其中(I)[0020]ζ是在時間t時的內(nèi)容向量,
[0021]T是在時間t時的時間戳,
[0022]瓦是在時間戳T時的超類型(supertype)向量,
[0023]?7是在時間戳T時的特征或?qū)傩訶的水印,以及
[0024]FO是可見水印或散列參數(shù)化的函數(shù)。
[0025]通常,對于在時間戳T時提取的特征X的特征水印》7是對于在具體數(shù)據(jù)集中的內(nèi)容計算的在時間t時的內(nèi)容向量()、在時間t時的時間戳(T)和在時間戳τ時的超類型向量(ξ )的函數(shù),這是當前正被確定的特征水印的父親的特征水印。
[0026]水印樹組件16從由特征水印組件14確定的每個特征水印形成水印樹。在一個實施例中,水印樹組件16形成水印樹,其表示每個NLP分析術(shù)的關(guān)系的從特征水印組件14產(chǎn)生的每個特征水印之間的層級關(guān)系。由水印樹組件16形成的水印樹通常根據(jù)每個特征水印之間的層級關(guān)系定義指出存在于特征水印之間的繼承的水印的分級指針的索引。如在此使用的,繼承的水印是父親屬性的緊湊表示。水印樹還可以包括指定從文集訪問由該樹表示的數(shù)據(jù)集的時間的時間戳。
[0027]水印樹組件16通常將在每次對具體文集6內(nèi)的內(nèi)容進行任何修改時形成水印樹。結(jié)果,將存在由水印樹組件16產(chǎn)生的范圍可以從數(shù)千到數(shù)百萬的大量的水印樹。每個水印樹將在形成時被加時間戳以反映對作為具體全集4的部分的具體文集6中的內(nèi)容進行改變的時間。因此,可以形成水印樹以示出內(nèi)容、文集和全集的時間戳。
[0028]通常,每個水印樹表示在給定維度向量處的水印特征的層級。在一個實施例中,時間向量提供對于具體樹的初始查找或索引。每個水印樹是對于水印構(gòu)造繼承的分量的組成部分?;A情況主要是在給定索引處的單個水印樹。通過歸納,對于具體的文集可以在各個時間戳時形成任意η+1個水印樹。在一個實施例中,每個索引由可以包含時間和空間的特征向量定義。以上在關(guān)系(I)中闡述的特征水印FO將時間參數(shù)化并且在需要時可以使用多維向量。在該情況下,代替時間戳,將對其使用向量戳。在任意情況下,以此方式產(chǎn)生多個水印樹使得本發(fā)明的各個實施例能夠?qū)υ诮o定的全集4和文集6內(nèi)的內(nèi)容所作的任意修改的源“采指紋(fingerprint)”。
[0029]由水印樹組件16形成的所有這些水印樹可以存儲回全集4和文集6中并且可以由用戶經(jīng)由計算設備20訪問。用戶可以以包括評價和分析對全集4和文集6中的內(nèi)容的使用、控制和分發(fā)的這些功能來使用水印樹。本領(lǐng)域技術(shù)人員將理解,水印樹不限于被存儲回全集4和文集6中。例如,水印樹可以存儲在另一數(shù)據(jù)庫中或者儲存庫中并且由用戶通過另一通信網(wǎng)絡經(jīng)由計算設備20訪問。
[0030]回去參考圖1,特征水印產(chǎn)生器12還包括內(nèi)容驗證組件18,其配置為如果希望探查全集4的具體文集6中的數(shù)據(jù)內(nèi)容在如何進行則使用加時間戳的水印樹來驗證文集的內(nèi)容??梢栽诙喾N場景下使用內(nèi)容驗證。例如,在基于時間的問題回答系統(tǒng)中,本發(fā)明的各個實施例可以用于驗證在這樣的系統(tǒng)中使用的數(shù)據(jù)的內(nèi)容。考慮其中醫(yī)生想要向在以上述方式加水印的文集上運行的與醫(yī)學有關(guān)的問題和回答系統(tǒng)添加新的數(shù)據(jù)源的場景。在這樣的場景下,內(nèi)容驗證組件18可以用于確保有關(guān)文集的新數(shù)據(jù)源中內(nèi)容的內(nèi)容有效性。在所有時間戳時來自該文集的所有有效數(shù)據(jù)將通過過濾器并且可用于該與醫(yī)學有關(guān)的問題和回答系統(tǒng)中。無效數(shù)據(jù)將不能通過過濾器并且因此不可用。這僅僅是一個例子,并且本領(lǐng)域技術(shù)人員將理解,存在內(nèi)容驗證組件18可以用于檢測對內(nèi)容做出的改變的許多其他情況。通常,在其中希望確保全集4中的數(shù)據(jù)的有效性的任何情況(例如響應于用新的數(shù)據(jù)源更新文集),都可以使用內(nèi)容驗證組件18。
[0031]在一個實施例中,內(nèi)容驗證組件18對數(shù)據(jù)內(nèi)容的驗證可以包括證實在某個時間時存儲內(nèi)容的具體文集和全集為由水印樹組件16形成的水印樹的函數(shù)。證實可以包括從存儲的水印樹中選擇具有與在文集和全集的證實中指定的具體時間戳對應的時間戳的水印樹。接下來,遞歸地遍歷水印樹中的分級指針以量度在體現(xiàn)在其中的分級關(guān)系中與每個父親相關(guān)聯(lián)的特征水印是否可以被驗證為具有有效的特征水印。如在此使用的,有效的特征水印遵循當前樹層級(ply level)和父親水印的特征集構(gòu)造,如果適用的話。
[0032]在分級關(guān)系中不具有有效的特征水印的父親被無效。如在此使用的,無效的特征水印不遵循對于在操作系統(tǒng)的上下文內(nèi)的時間點時的具體數(shù)據(jù)集的特征集構(gòu)造。除了無效不具有有效的特征水印的父親之外,在分級關(guān)系中從屬于無效的父親的所有孩子也被無效。此外,在分級關(guān)系的子鏈中從被無效的父親發(fā)散(emanate)的所有特征水印也被無效。在一個實施例中,與被無效的特征水印相關(guān)聯(lián)的所有內(nèi)容可以從響應于對其進行的搜索請求而從文集產(chǎn)生的任意搜索結(jié)果中過濾掉。
[0033]在其中分級關(guān)系中的某些父親和孩子被認為具有無效的特征水印的情況下,則可以在對在該關(guān)系中與這些節(jié)點相關(guān)聯(lián)的所有數(shù)據(jù)內(nèi)容的重新預處理(re-preprocess)中使用特征水印組件14和水印樹組件16。在一個實施例中,特征水印組件14和水印樹組件16將僅對于在分級關(guān)系中具有被無效的特征水印的父親和孩子產(chǎn)生新的特征水印,而在分級關(guān)系中具有被驗證的特征的父親和孩子將保留其當前的水印特征。這確保優(yōu)化的復制處理在于,僅重新預處理已經(jīng)改變的水印特征,而不重新預處理沒有改變的水印特征。在一個實施例中,由特征水印組件14和水印樹組件16進行的重新預處理可以發(fā)生在由預處理輸入組件8和NLP堆棧10進行的任意操作之后。
[0034]包括新的特征水印和任何未改變的特征水印兩者的被更新的水印樹然后可以存儲在全集4和文集6中用于將來使用。像其他水印樹那樣,被更新的水印樹包括被更新的分級指針,其根據(jù)分級關(guān)系指出存在于新的特征水印和未改變的水印之間的繼承的水印。另夕卜,被更新的水印樹可以包括指定形成被更新的水印樹時的時間的新的時間戳。
[0035]圖2示出根據(jù)本發(fā)明的一個實施例從經(jīng)過NLP堆棧10的內(nèi)容產(chǎn)生特征水印和水印樹的圖1所示的特征水印工具2的更詳細的示意圖。注意,為了清楚,圖2未示出特征水印產(chǎn)生器12。但是,如上所述,圖1所示的特征水印產(chǎn)生器12將用于從自NLP堆棧10提取的特征產(chǎn)生特征水印和水印樹。
[0036]如圖2所示,從全集4的文集6 (圖1)獲得并通過預處理輸入組件8 (圖1)構(gòu)建數(shù)據(jù)內(nèi)容塊22。數(shù)據(jù)內(nèi)容塊22被輸入到NLP堆棧10中并且被指派了文集時間戳以反映其被輸入到該具體文集的時間。盡管未在圖2中示出,但是數(shù)據(jù)內(nèi)容塊還可以包含全集時間戳以反映其被輸入到該具體全集的時間。
[0037]在圖2的例子中,NLP堆棧10包括英語槽文法、話語類型(type of speech)分析術(shù)、命名的實體檢測分析術(shù)、時域消解分析術(shù)和聯(lián)合引用分析術(shù)。NPL分析術(shù)的管線的分級順序以英語槽文法開始并且按照到話語類型分析術(shù)、命名的實體檢測分析術(shù)、時域消解分析術(shù)和聯(lián)合引用分析術(shù)的順序而降序。這些NLP分析術(shù)的每個提取特征,該特征由特征水印產(chǎn)生器12 (圖1)使用以產(chǎn)生對于每個分析術(shù)的特征水印。
[0038]在確定特征水印之后,特征水印產(chǎn)生器12然后可以根據(jù)在NLP堆棧10中指定的分級順序形成水印樹24。如圖2所示,對于英語槽文法分析術(shù)產(chǎn)生特征水印1,對于話語類型分析術(shù)產(chǎn)生特征水印2,對于命名的實體檢測分析術(shù)產(chǎn)生特征水印3,對于時域消解分析術(shù)產(chǎn)生特征水印4,并且對于聯(lián)合引用分析術(shù)產(chǎn)生特征水印5。
[0039]圖2還不出包括樹中的所有子鏈的水印樹24的父子關(guān)系。在圖2中,父未被指派了超類型變量。例如,特征水印I是特征水印2的父親,特征水印2是特征水印3的父親。如圖2的例子中所示,特征水印3是特征水印4和特征水印5的父親。在水印樹24中指定的分級指針指示從由NLP堆棧10建立的分級關(guān)系產(chǎn)生的所有繼承的水印。分級指針被用作用于建立樹中的所有節(jié)點的水印特征的索引。例如,圖2例示特征水印I被用作確定特征水印2的輸入。類似地,特征水印3被用作確定特征水印4和5的輸入。注意,在這些例子以及類似地有關(guān)的其他例子中,父親的輸入(即內(nèi)容向量和超類型向量)應該具有與在其中確定特征水印的孩子相同的時間戳。
[0040]圖3示出描述由圖1所示的特征水印工具2進行的一般操作的流程圖26。在圖3中,流程圖26在28開始接收來自全集內(nèi)的文集的內(nèi)容的數(shù)據(jù)集。以其原始形式的內(nèi)容然后在30被預處理以產(chǎn)生適合于NLP的文本的構(gòu)造塊。在32,文本的構(gòu)造塊被應用于NLP堆棧用于可以包括特征提取的數(shù)據(jù)分析。在34,特征水印產(chǎn)生器12產(chǎn)生對于每個NLP分析術(shù)的特征水印。在一個實施例中,根據(jù)上述的關(guān)系I確定每個特征水印。在36,水印樹組件16按上述的方式從每個特征水印產(chǎn)生水印樹。水印樹可以表示從多個NLP分析術(shù)的每個產(chǎn)生的每個特征水印之間的分級關(guān)系。具體地,水印樹可以定義指出存在于其每個層級關(guān)系的特征水印之間的繼承的水印的分級指針。然后在38,形成的水印樹可以被存儲并且用于內(nèi)容驗證(即證實從其獲得內(nèi)容的文集和全集)等。
[0041]以上流程圖示出了與產(chǎn)生特征水印和形成水印樹相關(guān)聯(lián)的處理功能中的一些。在這點上,每個塊表示與進行這些功能相關(guān)聯(lián)的處理動作。還應該注意,在一些替換的實施方式中,依賴于所涉及的動作,在框中標記的動作可以不按圖中標記的順序發(fā)生,或者事實上可以基本同時或者按相反的順序執(zhí)行。而且,本領(lǐng)域普通技術(shù)人員將認識到,可以添加描述處理功能的另外的塊。
[0042]圖4示出其中圖1所示的特征水印工具的要素可以操作的計算環(huán)境的示意。示例的計算環(huán)境100僅僅是適合的計算環(huán)境的一個例子并且不意圖給出對在此公開的方法的使用或功能的范圍的任何限制。計算環(huán)境100不應被解釋為具有與圖4所示的組件的任意一個或組合有關(guān)的任何依賴性或者要求。
[0043]在計算環(huán)境100中,存在可與多個其他通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置操作的計算機102。可以適合于與示例的計算機102 —起使用的公知的計算系統(tǒng)、環(huán)境和/或配置的例子包括但不限于個人計算機、服務器計算機、瘦客戶端、厚客戶端、手持或膝上設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費電子產(chǎn)品、網(wǎng)絡PC、迷你計算機、大型計算機、包括上述系統(tǒng)或設備的任意一個的分布式計算環(huán)境等。
[0044]可以在由計算機執(zhí)行的諸如程序模塊的計算機可執(zhí)行指令的一般背景下描述示例計算機102。通常,程序模塊包括進行具體任務或?qū)崿F(xiàn)具體抽象數(shù)據(jù)類型的例程、程序、對象、組件、邏輯、數(shù)據(jù)結(jié)構(gòu)等等。示例計算機102可以實踐在其中由通過通信網(wǎng)絡連接的遠程處理設備進行任務的分布式計算環(huán)境中。在分布式計算環(huán)境中,程序模塊可以位于包括存儲器存儲器件的本地和遠程計算機存儲介質(zhì)中。
[0045]如圖4所示,示出通用計算設備形式的計算環(huán)境100中的計算機102。計算機102的組件可以包括但不限于一個或多個處理器或處理單元104、系統(tǒng)存儲器106和將包括系統(tǒng)存儲器106的各種系統(tǒng)組件耦接到處理器104的總線108。
[0046]總線108表示任意幾種類型的總線結(jié)構(gòu)中的一個或多個,包括使用任意各種總線架構(gòu)的存儲器總線或存儲器控制器、外圍總線、加速圖形端口和處理器或本地總線。作為例子而非限制,這樣的架構(gòu)包括工業(yè)標準架構(gòu)(ISA)總線、微信道架構(gòu)(MCA)總線、增強ISA(EISA)總線、視頻電子標準協(xié)會(VESA)本地總線和外圍組件互連(PCI)總線。
[0047]計算機102通常包括各種計算機可讀介質(zhì)。這樣的介質(zhì)可以是可由計算機102訪問的任意可用的介質(zhì),并且其包括易失性和非易失性介質(zhì)、可移除和不可移除的介質(zhì)。
[0048]在圖4中,系統(tǒng)存儲器106包括諸如隨機存取存儲器(RAM)IlO的易失性存儲器形式的和/或諸如ROM 112的非易失性存儲器形式的計算機可讀介質(zhì)。包含幫助諸如在啟動期間在計算機102內(nèi)的要素之間傳遞信息的基本例程的BIOS 114存儲在ROM 112中。RAM110通常包含可由處理器104立即訪問和/或當前操作的數(shù)據(jù)和/或程序模塊。
[0049]計算機102還可以包括其他可移除/不可以移除、易失性/非易失性計算機存儲介質(zhì)。僅作為例子,圖4例示了用于從不可移除的非易失性磁介質(zhì)讀取和向其寫入的硬盤驅(qū)動器116 (未示出,通常稱為“硬盤”)、用于從可移除的非易失性磁盤120 (例如“軟盤”)讀取和向其寫入的磁盤驅(qū)動器118和用于從諸如CD-ROM、DVD-ROM或其他光介質(zhì)的可移除的非易失性光盤124讀取或向其寫入的光盤驅(qū)動器122。硬盤驅(qū)動器116、磁盤驅(qū)動器118和光盤驅(qū)動器122每個通過一個或多個數(shù)據(jù)介質(zhì)接口 126連接到總線108。
[0050]驅(qū)動器及其相關(guān)聯(lián)的計算機可讀介質(zhì)提供了計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和用于計算機102的其他數(shù)據(jù)的非易失性存儲。盡管在此所述的示例環(huán)境采用硬盤116、可移除磁盤118和可移除光盤122,但是本領(lǐng)域技術(shù)人員應該理解,可以存儲可由計算機訪問的數(shù)據(jù)的諸如磁帶、閃存卡、數(shù)字視頻盤、RAM、ROM等的其他類型的計算機可讀介質(zhì)也可以用在示例的操作環(huán)境中。
[0051]多個程序模塊可以存儲在硬盤116、磁盤120、光盤122、R0M112或RAM110中,包括,作為例子而非限制,操作系統(tǒng)128、一個或多個應用程序130 (例如特征水印工具2)、其他程序模塊132和程序數(shù)據(jù)134。操作系統(tǒng)128、一個或多個應用程序130、其他程序模塊132和程序數(shù)據(jù)134或其一些組合的每個可以包括圖1所示的特征水印工具2的實現(xiàn)。
[0052]用戶可以通過諸如鍵盤136和定點設備138 (比如“鼠標”)的可選的輸入設備將命令和信息輸入到計算機102中。其他輸入設備(未示出)可以包括麥克風、操縱桿、游戲臺、衛(wèi)星信號接收器、串行端口、掃描儀、相機等。這些和其他輸入設備通過耦接到總線108的用戶輸入接口 140連接到處理器單元104,但是可以通過諸如并行端口、游戲端口或通用串行總線(USB)的其他接口和總線結(jié)構(gòu)連接。
[0053]可選的監(jiān)視器142或其他類型的顯示設備也經(jīng)由諸如視頻適配器114的接口連接到總線108。除了監(jiān)視器之外,個人計算機通常包括其它外圍輸出設備(未示出),比如揚聲器和打印機,它們可以通過輸出外圍接口 146連接。
[0054]計算機102可以使用與一個或多個諸如遠程服務器/計算機148的遠程計算機的邏輯連接在聯(lián)網(wǎng)的環(huán)境中操作。遠程計算機148可以包括在此所述的與計算機102相關(guān)的許多或所有要素和特征。
[0055]圖4所示的邏輯連接是局域網(wǎng)(LAN) 150和一般廣域網(wǎng)(WAN) 152。這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)級計算機網(wǎng)絡、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。當用在LAN聯(lián)網(wǎng)環(huán)境中時,計算機102經(jīng)由網(wǎng)絡接口或適配器154連接到LAN150。當用在WAN聯(lián)網(wǎng)環(huán)境中時,計算機通常包括用于建立通過WAN152的通信的調(diào)制解調(diào)器156或其它部件??梢允莾?nèi)部的或者外部的調(diào)制解調(diào)器可以經(jīng)由用戶輸入接口 140或者其他適當?shù)臋C制連接到系統(tǒng)總線108。
[0056]在聯(lián)網(wǎng)的環(huán)境中,關(guān)于個人計算機102所述的程序模塊或者其部分可以存儲在遠程存儲器存儲設備中。作為例子而非限制,圖4例示了存在于遠程計算機148的存儲器器件上的遠程應用程序158。將理解,所示出和描述的網(wǎng)絡連接是示例性的并且可以使用用于建立計算機之間的通信鏈接的其他手段。
[0057]示例計算機102的實現(xiàn)可以存儲在某種形式的計算機可讀介質(zhì)上或者經(jīng)過某種形式的計算機可讀介質(zhì)而傳輸。計算機可讀介質(zhì)可以是可以由計算機訪問的任意可用的介質(zhì)。作為例子而非限制,計算機可讀介質(zhì)可以包括“計算機存儲介質(zhì)”和“通信介質(zhì)”。
[0058]“計算機存儲介質(zhì)”包括在用于存儲諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)的信息的任意方法和技術(shù)中實現(xiàn)的易失性和非易失性、可移除和不可移除的介質(zhì)。計算機存儲介質(zhì)包括但不限于RAM、ROM、EEPR0M、快閃存儲器或者其他存儲器技術(shù)、CD-ROM、數(shù)字通用盤(DVD)或者其他光存儲、盒式磁帶、磁帶、磁盤存儲或者其他磁存儲設備、或者可以用于存儲希望的信息并且可以由計算機訪問的任何其他介質(zhì)。
[0059]“通信介質(zhì)”通常包含計算機程序指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者調(diào)制的數(shù)據(jù)信號中的其他數(shù)據(jù),比如載波或者其他傳輸機制。通信介質(zhì)還包括任何信息傳遞介質(zhì)。
[0060]術(shù)語“調(diào)制的數(shù)據(jù)信號”意指具有其特性集中的一個或多個或者以編碼信號中的信息這樣的方式改變的信號。作為例子而非限制,通信介質(zhì)包括諸如有線網(wǎng)絡的或直接連線的連接的有線介質(zhì)或諸如聲學、RF、紅外和其他無線介質(zhì)的無線介質(zhì)。以上任意的組合也可以包括在計算機可讀介質(zhì)的范圍內(nèi)。
[0061]顯然本發(fā)明已經(jīng)提供了用于提供特征水印工具的方法。盡管結(jié)合本發(fā)明的一些實施例具體示出和描述了本發(fā)明,但是將理解,對于本領(lǐng)域技術(shù)人員而言,將發(fā)生變型和修改。因此,將理解,所附權(quán)利要求意圖覆蓋落在本發(fā)明的真實精神內(nèi)的所有這樣的修改和改變。
【權(quán)利要求】
1.一種在計算機系統(tǒng)上進行的用于對存儲在多個全集中的內(nèi)容加水印的方法,每個全集具有多個文集,該方法包括: 使用該計算機系統(tǒng)來進行以下操作: 從所述多個全集的一個內(nèi)的文集接收內(nèi)容的數(shù)據(jù)集; 將該數(shù)據(jù)集應用于包括多個自然語言處理(NLP)分析術(shù)的NLP堆棧,該多個NLP分析術(shù)每個分析該數(shù)據(jù)集; 從多個NLP分析術(shù)的每個產(chǎn)生特征水?。灰约? 從每個特征水印形成水印樹,水印樹表示從多個NLP分析術(shù)的每個產(chǎn)生的特征水印的每個之間的分級關(guān)系,該水印樹根據(jù)該分級關(guān)系定義分級指針,分級指針指出存在于特征水印之間的繼 承的水印,該水印樹包括指定從文集訪問該數(shù)據(jù)集的時間的時間戳。
2.根據(jù)權(quán)利要求1所述的方法,還包括利用文集時間戳將水印樹存儲在文集中,以及響應于將水印存儲在文集中,將全集時間戳應用于與該文集相關(guān)聯(lián)的全集,該文集包括每個在不同的時間戳處形成的多個水印樹,并且該全集包括多個全集時間戳,每個全集時間戳與將多個水印樹之一存儲在文集中相關(guān)聯(lián)。
3.根據(jù)權(quán)利要求2所述的方法,還包括響應于用新的數(shù)據(jù)源更新,使用加時間戳的多個水印樹來驗證文集的內(nèi)容。
4.根據(jù)權(quán)利要求3所述的方法,還包括證實在具體時間時的文集和全集為多個水印樹的函數(shù)。
5.根據(jù)權(quán)利要求4所述的方法,其中證實包括從多個水印樹中選擇具有與在文集和全集的證實中指定的具體時間對應的時間戳的水印樹,遞歸地遍歷該水印樹中的分級指針以量度在該分級關(guān)系中與每個父親相關(guān)聯(lián)的特征水印是否能夠被驗證為具有有效的特征水印。
6.根據(jù)權(quán)利要求5所述的方法,還包括將在分級關(guān)系中的不具有有效的特征水印的父親無效,并且將在分級關(guān)系中的從屬于該被無效的父親的所有孩子無效。
7.根據(jù)權(quán)利要求6所述的方法,還包括將從被無效的父親發(fā)散的分級關(guān)系的子鏈中的所有特征水印無效。
8.根據(jù)權(quán)利要求7所述的方法,還包括從響應于對文集做出的搜索請求而從文集產(chǎn)生的搜索結(jié)果中過濾掉與所有被無效的特征水印相關(guān)聯(lián)的所有內(nèi)容。
9.根據(jù)權(quán)利要求7所述的方法,還包括重新預處理與在分級關(guān)系中具有被無效的特征水印的父親和孩子相關(guān)聯(lián)的所有數(shù)據(jù)內(nèi)容。
10.根據(jù)權(quán)利要求9所述的方法,其中重新預處理包括僅對于在分級關(guān)系中具有被無效的特征水印的父親和孩子產(chǎn)生新的特征水印,而在分級關(guān)系中具有被驗證的特征的父親和孩子保留當前水印特征。
11.根據(jù)權(quán)利要求10所述的方法,還包括對于分級關(guān)系形成包括新的特征水印和任何未改變的水印兩者的被更新的水印樹,被更新的水印樹包括根據(jù)分級關(guān)系指出存在于新的特征水印和未改變的水印之間的繼承的水印的被更新的分級指針,被更新的水印樹包括指定形成被更新的水印樹的時間的新的時間戳。
12.根據(jù)權(quán)利要求11所述的方法,還包括利用新的文集時間戳和新的全集時間戳將被更新的水印樹存儲在文集中。
13.根據(jù)權(quán)利要求1所述的方法,其中根據(jù)以下公式確定每個特征水印: FC瓦)=R'其中 C在時間t時的內(nèi)容向量, T是在時間t時的時間戳, 5;是在時間戳T時的超類型向量 ?7是在時間戳T時的特征或?qū)傩訶的水印,以及 FO是可見水印或散列參數(shù)化的函數(shù)。
14.一種用于對存儲在多個全集中的內(nèi)容加水印的計算機系統(tǒng),每個全集具有多個文集,該計算機系統(tǒng)包括: 至少一個處理單元; 存儲器,與該至少一個處理單元操作地相關(guān)聯(lián);以及 特征水印工具,可存儲在存儲器中并且可由該至少一個處理單元執(zhí)行,該特征水印工具包括: 輸入組件,配置為從所述多個全集的一個內(nèi)的文集接收內(nèi)容的數(shù)據(jù)集; 自然語言處理(NLP)堆棧,包括多個NLP分析術(shù),每個NLP分析術(shù)配置為從該數(shù)據(jù)集提取特征;以及 特征水印產(chǎn)生器,配置為對于多個NLP分析術(shù)的每個針對從其提取的特征產(chǎn)生特征水印,該特征水印產(chǎn)生器還配置為從每個特征水印形成水印樹,該水印樹表示從多個NLP分析術(shù)的每個產(chǎn)生的特征水印的每個之間的分級關(guān)系,該水印樹根據(jù)該分級關(guān)系定義分級指針,分級指針指出存在于特征水印之間的繼承的水印,該水印樹包括指定從文集訪問該數(shù)據(jù)集的時間的時間戳。
15.根據(jù)權(quán)利要求14所述的計算機系統(tǒng),其中該特征水印產(chǎn)生器還配置為利用文集時間戳將水印樹存儲在文集中,以及響應于將水印存儲在文集中,將全集時間戳應用于與該文集相關(guān)聯(lián)的全集,該文集包括每個在不同的時間戳處形成的多個水印樹,并且該全集包括多個全集時間戳,每個全集時間戳與將多個水印樹之一存儲在文集中相關(guān)聯(lián)。
16.根據(jù)權(quán)利要求14所述的計算機系統(tǒng),其中該特征水印產(chǎn)生器從多個分級散列中產(chǎn)生特征水印,每個分級散列是被定義為如下的特征水印函數(shù)的分量:
F(ci,t,si)=wxt ,其中 G是在時間t時的內(nèi)容向量, T是在時間t時的時間戳, I是在時間戳T時的超類型向量 Mx是在時間戳T時的特征或?qū)傩訶的水印,以及 FO是可見水印或散列參數(shù)化的函數(shù)。
17.根據(jù)權(quán)利要求14所述的計算機系統(tǒng),其中該特征水印產(chǎn)生器還配置為響應于用新的數(shù)據(jù)源更新,使用被加時間戳的多個水印樹來驗證文集的內(nèi)容。
【文檔編號】G06F21/16GK103544204SQ201310292100
【公開日】2014年1月29日 申請日期:2013年7月12日 優(yōu)先權(quán)日:2012年7月13日
【發(fā)明者】A.K.鮑曼, R.L.達登, J.J.范, A.A.卡爾揚珀 申請人:國際商業(yè)機器公司