專利名稱:對文檔集合進行主題級別隱私保護的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明一般的涉及文檔集合的隱私保護,更具體而言,涉及對文檔集合進行主題級別隱私保護的方法和系統(tǒng)。
背景技術:
隨著計算機和網(wǎng)絡技術的快速發(fā)展,人們可獲得的信息已經(jīng)呈現(xiàn)數(shù)字化和海量化的特征。然而,數(shù)字化和網(wǎng)絡化也使得對信息進行隱私保護和管理變得更具挑戰(zhàn)性。特別是在涉及對健康信息、賬戶信息等高私密性信息的場合中,這個問題尤其迫切的需要得到解決。例如,目前為了便于醫(yī)療信息共享,電子病歷及電子健康檔案的使用已成為趨勢,醫(yī)務工作者、醫(yī)學研究者、衛(wèi)生部門、保險公司等醫(yī)療相關人員可以方便地基于電子醫(yī)療數(shù)據(jù)進行相關業(yè)務工作,然而從病人的角度看,他們應該對有關其本人的病歷或健康檔案擁有隱私控制權,最典型的情境則是病人不希望某些沒有經(jīng)過其授權的人,通過獲取到的電子醫(yī)療數(shù)據(jù)能夠得知其患有某種敏感疾病?,F(xiàn)在,搜索已經(jīng)成為人們處理海量數(shù)字信息的基本工具,而如何使得搜索者快速、 方便、準確的獲得其需要的信息,同時又能保護信息所有者或者信息內容相關人的隱私不被泄露,即實現(xiàn)搜索質量和隱私保護的平衡,成為搜索系統(tǒng)需要面對的一個難題。通常情況下,文檔所有者或者隱私相關人通過制定隱私策略(privacypolicy) 來個性化定義隱私的范圍以及對于隱私相關信息的保護策略。兼顧隱私保護的搜索 (privacy-preserving search)需要解決的問題就是如何在搜索系統(tǒng)中滿足隱私策略,同時保持盡可能高的搜索質量。在實際搜索系統(tǒng)中,訪問控制是最常用也是最有效的隱私控制方法,即隱私所有人對包含隱私信息的文檔設置訪問控制策略,設定有權限或者無權限獲取隱私文檔的搜索者?;谠L問控制的隱私保護通常包含三個步驟(1)隱私策略的定義隱私所有人確定隱私的涵義和范圍;(2)隱私文檔的判定判斷一個文檔是否包含隱私內容;(3)訪問控制的設定為每個隱私文檔設定訪問策略。面對大量文檔時,隱私所有人不可能手工的對每個文檔進行逐一的隱私判定和訪問控制設定。另外,當隱私所有人更改其隱私策略時,也不可能手工的再逐一的對文檔進行重新判定和設定?;陔[私策略,如何實現(xiàn)自動的判定隱私文檔以及設定訪問控制,同時保證訪問控制的準確性,是面對大量文檔時需要解決的問題。在現(xiàn)有技術中存在如下技術用于處理上述問題在題為"Method, System and Apparatus for Maintaining User Privacy in aKnowledge Interchange System”的歐洲專利 EP1638032A3 (遞交于 2005 年 9 月 6 日)所提出的系統(tǒng)中,允許用戶定義關鍵字級別(keyword-level)的隱私策略,即確定某些敏感關鍵字。包含這些敏感關鍵字的用戶文檔信息將不被傳送到服務器上供共享,從而達到訪問控制及隱私保護的目的。另夕卜,題為“Uniform Search System and Method for Selectively SharingDistributed Access-Controlled Documents” 的美國專利 US7409406B2 (遞交于2003年9月8日)將訪問控制的執(zhí)行權傳遞給文檔所有者(隱私相關人)自己,而不是由搜索服務器來擔當。每個文檔所有者存儲自己的文檔(包含隱私文檔及非隱私文檔)。服務器僅僅保存已做過隱私保護的文檔索引。當服務器接受到搜索查詢時,根據(jù)索引,服務器將查詢轉發(fā)給相關文檔所有者,然后由文檔所有者自行根據(jù)其隱私策略和訪問控制策略來響應查詢。還有,題為"Augmenting Privacy Policies with Inference Detection,,的美國專利US2009/0144255A1 (遞交于2007年11月四日)支持用戶定義主題級別 (topic-level)的隱私策略,即用戶可以定義特定的敏感主題,所有涉及敏感主題的文檔都應該被判定為隱私文檔。敏感主題是用一個或者一組主題關鍵字來表示的。該專利針對每個隱私策略(敏感主題),準備一組已經(jīng)人工判定好的相應敏感文檔作為訓練文檔,然后通過自然語言統(tǒng)計分析(statistical natural language analysis)的方法,從訓練文檔里面學習新的可以表示該敏感主題的關鍵字,隨和這些新生成的關鍵字聯(lián)合用于定義主題的關鍵字,一起作為用于判定隱私文檔的關鍵字集合。然而,現(xiàn)有技術存在一些缺陷。在上面介紹的已有工作中,專利EP1638032A3使用關鍵字級別的隱私策略,這種方法的缺點在于用戶很難窮盡隱私相關的關鍵字,從而導致很難實現(xiàn)可用的隱私保護。專利US7409406B2將訪問控制權從搜索服務器轉移到文檔所有者用以規(guī)避服務器的隱私泄露風險,這種方法在很多實際情況中是無法應用的,因為文檔所有者或者隱私相關人往往是處于離線狀態(tài)(比如電子醫(yī)療信息系統(tǒng)中的病人),讓他們實時的處理訪問請求是不合理的。專利US2009/0144255A1實現(xiàn)了對主題級別的隱私策略的支持,克服了專利EP1638032A3的缺點,但是該專利在擴展主題關鍵字的時候需要為每一個隱私策略準備訓練文檔,然而訓練文檔的準備需要人工標注,非常耗時。尤其當有大量文檔所有者建立了大量的隱私策略時,而且用戶可能在使用過程中變更隱私策略,這種情況下基于訓練文檔的方法缺乏柔性,在實際應用中是不適用的。
發(fā)明內容
本發(fā)明是針對上述問題而做出的。本發(fā)明提出了一種新的、全自動的、對文檔集合進行主題級別隱私保護的方法和系統(tǒng),該方法利用對文檔集合自身進行統(tǒng)計分析、或者使用本體(外部知識源)、或者文檔集合和文本的結合,來自動獲取敏感主題相關的關鍵詞,這些關鍵詞用于從文檔集合中判定隱私文檔。另外,利用判定出隱私文檔的文檔集合,可以實現(xiàn)兼顧主題級別隱私保護的文檔搜索。根據(jù)本發(fā)明第一方面,提供了一種對文檔集合進行主題級別隱私保護的方法,包括輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;基于文檔集合本身的內部特征擴展主題關鍵詞,以生成一個或多個敏感關鍵詞;以及基于生成的敏感關鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第二方面,提供了一種對文檔集合進行主題級別隱私保護的方法,包括輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;根據(jù)外部知識擴展主題關鍵詞,以生成一個或多個敏感關鍵詞;以及基于生成的敏感關鍵詞從文檔集合中判定隱私文檔。
根據(jù)本發(fā)明第三方面,提供了一種對文檔集合進行主題級別隱私保護的方法,包括輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;基于文檔集合本身的內部特征擴展主題關鍵詞,以生成第一敏感關鍵詞的集合;根據(jù)外部知識擴展主題關鍵詞,以生成第二敏感關鍵詞的集合;根據(jù)第二敏感關鍵詞的集合對第一敏感關鍵詞的集合進行修正;根據(jù)第一敏感關鍵詞的集合對第二敏感關鍵詞的集合進行補充;將經(jīng)過修正的第一敏感關鍵詞的集合和經(jīng)過補充的第二敏感關鍵詞的集合進行合并,以獲得最終的敏感關鍵詞的集合;以及基于敏感關鍵詞集合中的敏感關鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第四方面,提供了一種對文檔集合進行主題級別隱私保護的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;敏感關鍵詞生成裝置,用于基于文檔集合本身的內部特征擴展主題關鍵詞,以生成一個或多個敏感關鍵詞;以及隱私文檔判定裝置,用于基于生成的敏感關鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第五方面,提供了一種對文檔集合進行主題級別隱私保護的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;外部知識存儲器,用于存儲外部知識;敏感關鍵詞生成裝置,用于根據(jù)外部知識擴展主題關鍵詞,以生成一個或多個敏感關鍵詞;以及隱私文檔判定裝置, 用于基于生成的敏感關鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第六方面,提供了一種對文檔集合進行主題級別隱私保護的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;外部知識存儲器,用于存儲外部知識;第一敏感關鍵詞生成裝置,用于基于文檔集合本身的內部特征擴展主題關鍵詞,以生成第一敏感關鍵詞的集合;第二敏感關鍵詞生成裝置,用于根據(jù)外部知識擴展主題關鍵詞,以生成第二敏感關鍵詞的集合;修正裝置,用于根據(jù)第二敏感關鍵詞的集合對第一敏感關鍵詞的集合進行修正;補充裝置,用于根據(jù)第一敏感關鍵詞的集合對第二敏感關鍵詞的集合進行補充;合并裝置,用于將經(jīng)過修正的第一敏感關鍵詞的集合和經(jīng)過補充的第二敏感關鍵詞的集合進行合并,以獲得最終的敏感關鍵詞的集合;以及隱私文檔判定裝置,用于基于敏感關鍵詞集合中的敏感關鍵詞從文檔集合中判定隱私文檔。相對于面向關鍵字級別隱私策略方法,本發(fā)明支持主題級別隱私策略,從而實現(xiàn)更加智能、全面的隱私保護。另外,相對于已有面向主題級別的隱私保護方法,本發(fā)明由于不需要訓練文檔,可以使系統(tǒng)變得高效柔性和實用,可以同時處理大量隱私策略,并且方便的支持隱私策略的動態(tài)變化。
結合附圖,從下面對本發(fā)明實施例的詳細描述,將更好地理解本發(fā)明,附圖中類似的標號指示類似的部分,其中圖1示出根據(jù)本發(fā)明的實現(xiàn)了主題級別隱私保護的文檔搜索系統(tǒng)的內部結構的框圖;圖2進一步示出根據(jù)本發(fā)明的敏感關鍵詞生成裝置的內部結構的框圖3A示出根據(jù)本發(fā)明第一實施例的用于對文檔集合進行主題級別隱私保護的方法300的流程圖;圖;3B是用于說明圖3A所示方法的工作過程的一個示例的示意圖;圖4A示出根據(jù)本發(fā)明第二實施例的用于對文檔集合進行主題級別隱私保護的方法400的流程圖;圖4B是用于說明圖4A所示方法的工作過程的一個示例的示意圖;圖5A示出根據(jù)本發(fā)明第三實施例的用于對文檔集合進行主題級別隱私保護的方法500的流程圖;以及圖5B是用于說明圖5A所示方法的工作過程的一個示例的示意圖。
具體實施例方式圖1示出根據(jù)本發(fā)明的實現(xiàn)了主題級別隱私保護的文檔搜索系統(tǒng)的內部結構的框圖。圖ι所示系統(tǒng)包括主題級別隱私保護設備101、存儲設備102和兼顧隱私的文檔搜索設備103。主題級別隱私保護設備101包括輸入裝置1011、敏感關鍵詞生成裝置1012和隱私文檔判定裝置1013。存儲設備102包括隱私策略存儲單元1021、文檔存儲單元1022、本體存儲單元1023、敏感關鍵詞存儲單元IOM和隱私文檔存儲單元1025。針對存儲設備102中所存儲的各個單元,它們的功能如下隱私策略存儲單元 1021存儲文檔所有者或者隱私相關人定義的主題級別的隱私策略,即用戶可以定義的特定敏感主題。敏感主題可以用一個或一組主題關鍵字來表示。文檔存儲單元1022存儲文檔集合,文檔包含有用戶ID,標識文檔所有者。本體存儲單元1023存儲本體庫,本體庫中定義有概念以及概念之間的關系。本體存儲單元僅在使用基于本體的敏感詞生成(隨后將描述的第二實施例),或者基于混合方法的敏感詞生成(隨后將描述的第三實施例)時才需要。 敏感關鍵詞存儲單元IOM存儲由敏感詞生成裝置1012生成的敏感關鍵詞,每個敏感關鍵詞對應于相關的隱私主題,即隱私策略。隱私文檔存儲單元1025存儲根據(jù)隱私策略和敏感關鍵詞判定出來的包含有隱私信息的文檔,即隱私文檔。針對主題級別隱私保護設備101中的各個處理裝置,它們的功能如下輸入裝置 1011輸入文檔集合以及用戶定義的主題級別隱私策略,該主題級別隱私策略可以包括一個或多個需要隱私保護的主題關鍵詞。敏感關鍵詞生成裝置1012利用根據(jù)本發(fā)明的發(fā)明, 從隱私策略中所包括的主題關鍵詞擴展生成敏感關鍵詞。敏感關鍵詞生成裝置1012作為本發(fā)明的核心隨后將詳細描述。本發(fā)明分別提出通過對文檔集合自身進行統(tǒng)計分析、或者使用本體(外部知識源)、或者基于文檔集合和本體的結合來生成敏感關鍵詞的多個實施例。隱私文檔判定裝置1013根據(jù)生成的敏感關鍵詞在文檔庫中判定包含有隱私信息的文檔。例如,可以通過如下方法實現(xiàn)判定對于一篇文檔,如果其所有者定義有隱私策略,該隱私策略相關的敏感關鍵詞如果出現(xiàn)在這篇文檔中,這篇文檔即被判定為隱私文檔,否則為非隱私文檔。對于已標識出隱私文檔的文檔集合可以執(zhí)行各種兼顧隱私保護的操作。例如,兼顧隱私的文檔搜索設備103可以執(zhí)行文檔搜索,同時滿足用戶定義的隱私策略。最基本的實現(xiàn)方法是如果某用戶指定了隱私策略限定某個(或者某類)搜索者不能訪問某主題文檔,那么在這個(或者這類)搜索者搜索的時候,關聯(lián)于隱私策略的隱私文檔將不會在搜索結果中出現(xiàn)。該發(fā)明的核心處理單元即敏感關鍵詞生成裝置1012,其面向主題級別的隱私策略,實現(xiàn)自動的(不需要訓練文檔集的)敏感關鍵詞的生成。圖2示出根據(jù)本發(fā)明的敏感關鍵詞生成裝置的內部結構的框圖。請注意,圖2中省略了圖1所示系統(tǒng)中與敏感關鍵詞生成沒有直接關系的部件。本發(fā)明提供了三種不同的敏感關鍵詞自動生成裝置的具體實現(xiàn),S卩,基于文檔集合的生成單元201 (第一實施例)、基于本體的生成單元202 (第二實施例)和基于混合方法的生成單元203(第三實施例)?;谖臋n集的生成單元201分析文檔集合本身的內部特征,并將隱私策略中定義的主題關鍵詞作為敏感關鍵詞的種子詞,來擴展生成新的敏感關鍵詞?;诒倔w的生成單元202利用外部知識——本體定義的概念以及概念之間的關系,同樣也是以隱私策略里面定義的主題作為種子,得到擴展的敏感關鍵詞?;诨旌戏椒ǖ纳蓡卧?03是通過結合基于文檔集合和基于本體的方法,來獲得更準確有效的敏感關鍵詞。在圖2中,還示出了修正單元204,其用于根據(jù)外部知識(例如本體)對已基于文檔集合的內部特征所生成的敏感關鍵詞的集合(即,基于文檔集的生成單元201的擴展結果)進行修正。在圖2中,還示出了補充單元205,其用于利用根據(jù)文檔集合的內部特征所生成的敏感關鍵詞(基于文檔集的生成單元201的擴展結果)對根據(jù)外部知識所生成的敏感關鍵詞的集合(基于本體的生成單元202的擴展結果)進行補充。接下來將參考附圖對敏感關鍵詞自動生成的不同實現(xiàn)方法分別做具體的說明解釋。<基于文檔集合的內部特征的方法>圖3A示出根據(jù)本發(fā)明第一實施例的用于對文檔集合進行主題級別隱私保護的方法300(基于文檔集合的內部特征的方法)的流程圖;圖:3B是用于說明圖3A所示方法的工作過程的一個示例的示意圖?;谖臋n集合的敏感關鍵詞生成使用文本處理的方法對文檔集合進行分析,從而挖掘出與敏感主題相關的關鍵詞。在步驟301中,輸入裝置1011首先輸入文檔集合和主題級別的隱私策略,該隱私策略可以是一個或多個需要隱私保護的主題級別關鍵詞。在步驟302中,基于文檔集的生成單元201基于文檔集合的內部特征擴展主題關鍵詞,以生成敏感關鍵詞,這可以通過對文檔集合進行文本分析來實現(xiàn)。例如,潛在語義分析(Latent Semantic Analysis,LSA)是一種文本分析的實現(xiàn)方法。LSA通過對文檔集形成的文檔-關鍵詞矩陣進行矩陣奇異值分解,來獲得關鍵詞的之間的主題相似性度量。關鍵詞之間越相似,表示他們的主題性越相關。在用戶定義的主題級別的隱私策略中,我們把主題的名稱作為種子關鍵詞,根據(jù)在LSA得到的關鍵詞相似性結果,找出最相似的關鍵詞(可以根據(jù)預設的相似值閾值),然后把種子關鍵詞聯(lián)合這些最相似的關鍵詞作為對應于該敏感主題的敏感關鍵詞,用于對隱私文檔的判定。圖3B示出了利用LSA生成敏感關鍵詞的一個實例。在步驟303中,可選地,修正單元204可以根據(jù)外部知識(例如本體)對已生成的敏感關鍵詞的集合進行修正。具體的修正方法隨后將描述。
在步驟304中,隱私文檔判定裝置1013基于生成的敏感關鍵詞(或經(jīng)修正后的敏感關鍵詞)從文檔集合中判定隱私文檔。由于隱私文檔判定裝置1013可以使用已知方法進行操作,這里不作贅述。然后,過程300結束。<基于外部本體的方法>圖4A示出根據(jù)本發(fā)明第二實施例的用于對文檔集合進行主題級別隱私保護的方法400(基于外部本體的方法)的流程圖;圖4B是用于說明圖4A所示方法的工作過程的一個示例的示意圖?;诒倔w的敏感關鍵詞生成,是利用外部知識(本體)來得到對敏感主題的認識。本體是一種形式化的知識表達,本體中定義了領域概念以及概念之間的關系,其中最基本的概念之間的關系即是層次關系,表示其中一個概念是另外一個概念的父概念或者子概
ο在步驟401中,類似于第一實施例,輸入裝置1011首先輸入文檔集合和主題級別的隱私策略,該隱私策略可以是一個或多個需要隱私保護的主題級別關鍵詞。在步驟402中,基于本體的生成單元202根據(jù)外部知識(例如本體)擴展主題關鍵詞,以生成敏感關鍵詞集合Al。例如,在執(zhí)行基本本體的敏感關鍵詞生成時,可以將用戶定義的主題級別的隱私策略作為一個種子概念,在本體中找到相匹配的概念,然后獲得該種子概念的所有子概念(包含子概念的所有下位概念)。形成的概念集合可以構成對該敏感主題的完整描述。所有這些概念的代表關鍵詞(在本體中即為組成這些概念的名稱的關鍵詞,有時本體中也定義有表示相同概念的多個名稱,這些名稱中的關鍵詞都被選為概念的代表關鍵詞)則形成了對應于該敏感主題的敏感關鍵詞,用于對隱私文檔的判定。圖4B 示出了利用本體生成敏感關鍵詞的一個實例。步驟403和404是可選步驟,用于利用基于文檔集合的內部特征生成的敏感關鍵字對基于外部本體生成的敏感關鍵字進行補充。即,補充單元205所實現(xiàn)的功能。具體的補充方法隨后將描述。在步驟405中,類似于第一實施例,隱私文檔判定裝置1013基于生成的敏感關鍵詞(或經(jīng)補充后的敏感關鍵詞)從文檔集合中判定隱私文檔。然后,過程400結束。<基于文檔集合的內部特征和基于本體的混合方法>圖5A示出根據(jù)本發(fā)明第三實施例的用于對文檔集合進行主題級別隱私保護的方法500(混合方法)的流程圖;以及圖5B是用于說明圖5A所示方法的工作過程的一個示例的示意圖?;谖臋n集合和基于本體的生成方法各自都有其固有的缺點基于文檔集合的方法(比如LSA方法)通常會引入過多噪聲,而使得敏感關鍵詞生成過多,會形成隱私的過保護,從而影響搜索質量;而基于本體的方法依賴于來自外部知識源的本體,本體往往對領域的覆蓋不會很全面,因此可能造成某些隱私主題在本體中找不到對應,而實現(xiàn)不了主題關鍵詞的擴展生成,從而影響隱私保護的質量。鑒于此,本發(fā)明還提出一種混合方法,將上述兩種方法結合使用,可以互相克服對方的缺點,從而得到更好的隱私保護程度以及搜索質量。
如上所述,在本實施例中所提出的修正方法和補充方法可以被分別應用到上述第一和第二實施例,以用于提高搜索質量。參考圖5A,在步驟501中,類似于第一和第二實施例,輸入裝置1011首先輸入文檔集合和主題級別的隱私策略,該隱私策略可以是一個或多個需要隱私保護的主題級別關鍵詞。在步驟502中,基于文檔集合的內部特征擴展主題關鍵詞,以生成第一敏感關鍵詞集合Al (例如,使用文本分析LSA)。在步驟503中,根據(jù)外部知識(例如本體)擴展主題關鍵詞,以生成第二敏感關鍵詞集合A2。在步驟504中,利用集合A2中的敏感關鍵詞對Al進行修正。修正規(guī)則例如可以是如果關鍵詞A'是隱私策略中的主題關鍵詞A經(jīng)過文檔集分析得到的擴展結果,并且同時在本體中,A'表示的概念與A表示的概念沒有關聯(lián),則從該隱私主題的相關敏感關鍵詞集合中刪除掉A'。在步驟505中,利用集合Al中的敏感關鍵詞對A2進行補充。補充規(guī)則例如可以是如果關鍵詞A'是隱私策略中的主題關鍵詞A經(jīng)過文檔集分析得到的擴展結果,同時A 在本體中找不到可以對應的概念,那么可以用關鍵詞A'替代A作為隱私策略中的主題詞, 在本體中尋找對應概念,從而觸發(fā)基于本體的敏感詞生成過程。圖5B給出了上述修正過程和補充過程的一個實例。顯而易見,本發(fā)明所提出的上述結果修正方法和補充方法僅僅作為示例,而不是對本發(fā)明的限制。本領域技術人員可以設想其他方式來實現(xiàn)兩種敏感關鍵詞(基于文檔集生成的敏感關鍵詞和基于本體的敏感關鍵詞)的相互修正和補充。然后,在步驟506中,將修正后的Al’與補充后的A2’合并(聯(lián)合),從而將兩個集合的并集作為最終用于隱私文檔判定的敏感關鍵詞集合。參考圖5B實例。隨后,在步驟507中,類似于第一和第二實施例,隱私文檔判定裝置1013基于生成的敏感關鍵詞從文檔集合中判定隱私文檔。然后,過程500結束。上面已經(jīng)參考附圖對根據(jù)本發(fā)明的用于對文檔集合進行主題級別隱私保護的方法和系統(tǒng)進行了詳細描述。如前所述,本發(fā)明的方法能夠實現(xiàn)更加智能、全面的隱私保護。 相對于已有的面向主題級別的隱私保護方法,本發(fā)明由于不需要使用訓練文檔,可以使系統(tǒng)變得高效柔性和實用,可以同時處理大量隱私策略,并且方便的支持隱私策略的動態(tài)變化。但是,需要明確,本發(fā)明并不局限于上文所描述并在圖中示出的特定配置和處理。 并且,為了簡明起見,這里省略對已知方法技術的詳細描述。在上述實施例中,描述和示出了若干具體的步驟作為示例。但是,本發(fā)明的方法過程并不限于所描述和示出的具體步驟, 本領域的技術人員可以在領會本發(fā)明的精神之后,作出各種改變、修改和添加,或者改變步驟之間的順序。本發(fā)明的元素可以實現(xiàn)為硬件、軟件、固件或者它們的組合,并且可以用在它們的系統(tǒng)、子系統(tǒng)、部件或者子部件中。當以軟件方式實現(xiàn)時,本發(fā)明的元素是被用于執(zhí)行所需任務的程序或者代碼段。程序或者代碼段可以存儲在機器可讀介質中,或者通過載波中攜帶的數(shù)據(jù)信號在傳輸介質或者通信鏈路上傳送?!皺C器可讀介質”可以包括能夠存儲或傳輸信息的任何介質。機器可讀介質的例子包括電子電路、半導體存儲器設備、ROM、閃存、可擦除ROM(EROM)、軟盤、CD-ROM、光盤、硬盤、光纖介質、射頻(RF)鏈路,等等。代碼段可以經(jīng)由諸如因特網(wǎng)、內聯(lián)網(wǎng)等的計算機網(wǎng)絡被下載。 本發(fā)明可以以其他的具體形式實現(xiàn),而不脫離其精神和本質特征。例如,特定實施例中所描述的算法可以被修改,而系統(tǒng)體系結構并不脫離本發(fā)明的基本精神。因此,當前的實施例在所有方面都被看作是示例性的而非限定性的,本發(fā)明的范圍由所附權利要求而非上述描述定義,并且,落入權利要求的含義和等同物的范圍內的全部改變從而都被包括在本發(fā)明的范圍之中。
權利要求
1.一種對文檔集合進行主題級別隱私保護的方法,包括輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;基于所述文檔集合本身的內部特征擴展主題關鍵詞,以生成一個或多個敏感關鍵詞;以及基于生成的所述敏感關鍵詞從所述文檔集合中判定隱私文檔。
2.如權利要求1所述的方法,其中所述擴展步驟包括將所述隱私策略中包含的主題關鍵詞作為種子詞,通過對所述文檔集合進行文本分析來找到與種子詞之間的主題相似度大于一預定閾值的主題相似關鍵詞;并且將所述主題關鍵詞與它們的主題相似關鍵詞合并,作為所述敏感關鍵詞。
3.如權利要求2所述的方法,其中所述文本分析使用潛在語義分析方法LSA。
4.如權利要求1所述的方法,還包括根據(jù)外部知識對已基于所述文檔集合的內部特征所生成的敏感關鍵詞的集合進行修正。
5.如權利要求4所述的方法,其中所述外部知識是本體。
6.如權利要求5所述的方法,其中所述修正步驟包括如果一主題關鍵詞A與其基于所述文檔集合的內部特征所生成的敏感關鍵詞A’在所述本體上被確定為沒有關聯(lián),則從敏感關鍵詞的集合中刪除該敏感關鍵詞A’。
7.一種對文檔集合進行主題級別隱私保護的方法,包括輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;根據(jù)外部知識擴展主題關鍵詞,以生成一個或多個敏感關鍵詞;以及基于生成的所述敏感關鍵詞從所述文檔集合中判定隱私文檔。
8.如權利要求7所述的方法,其中所述外部知識是本體。
9.如權利要求8所述的方法,其中所述擴展步驟包括將所述隱私策略作為種子概念,在所述本體中找到所述種子概念的所有子概念;并且將所述子概念的代表關鍵詞與所述主題關鍵詞合并,作為所述敏感關鍵詞。
10.如權利要求9所述的方法,其中找到的所述子概念還包括孫子及所有下位概念。
11.如權利要求9所述的方法,其中所述代表關鍵詞是組成表示所述子概念的一個或多個名稱的關鍵詞。
12.如權利要求8所述的方法,還包括基于所述文檔集合本身的內部特征來擴展所述主題關鍵詞以生成敏感關鍵詞; 利用根據(jù)所述文檔集合的內部特征所生成的敏感關鍵詞對根據(jù)所述外部本體所生成的敏感關鍵詞的集合進行補充。
13.如權利要求12所述的方法,其中所述補充步驟包括如果一主題關鍵詞A在所述外部本體中找不到相應概念,則將其基于所述文檔集合的內部特征所生成的敏感關鍵詞A’作為種子概念在所述外部本體中尋找敏感關鍵詞。
14.一種對文檔集合進行主題級別隱私保護的方法,包括輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;基于所述文檔集合本身的內部特征擴展主題關鍵詞,以生成第一敏感關鍵詞的集合; 根據(jù)外部知識擴展主題關鍵詞,以生成第二敏感關鍵詞的集合; 根據(jù)所述第二敏感關鍵詞的集合對所述第一敏感關鍵詞的集合進行修正; 根據(jù)所述第一敏感關鍵詞的集合對所述第二敏感關鍵詞的集合進行補充; 將經(jīng)過修正的所述第一敏感關鍵詞的集合和經(jīng)過補充的所述第二敏感關鍵詞的集合進行合并,以獲得最終的敏感關鍵詞的集合;以及基于所述敏感關鍵詞集合中的敏感關鍵詞從文檔集合中判定隱私文檔。
15.一種對文檔集合進行主題級別隱私保護的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;敏感關鍵詞生成裝置,用于基于所述文檔集合本身的內部特征擴展主題關鍵詞,以生成一個或多個敏感關鍵詞;以及隱私文檔判定裝置,用于基于生成的所述敏感關鍵詞從所述文檔集合中判定隱私文檔。
16.如權利要求15所述的系統(tǒng),還包括兼顧隱私的文檔搜索裝置,用于對已標注出隱私文檔的所述文檔集合執(zhí)行兼顧隱私保護的文檔搜索。
17.如權利要求15所述的系統(tǒng),還包括 外部知識存儲器,用于存儲外部知識;修正裝置,用于根據(jù)所述外部知識對所述敏感關鍵詞生成裝置已基于所述文檔集合的內部特征所生成的敏感關鍵詞的集合進行修正。
18.—種對文檔集合進行主題級別隱私保護的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;外部知識存儲器,用于存儲外部知識;第一敏感關鍵詞生成裝置,用于根據(jù)所述外部知識擴展主題關鍵詞,以生成一個或多個敏感關鍵詞;以及隱私文檔判定裝置,用于基于生成的所述敏感關鍵詞從所述文檔集合中判定隱私文檔。
19.如權利要求18所述的系統(tǒng),還包括第二敏感關鍵詞生成裝置,用于基于所述文檔集合本身的內部特征來擴展所述主題關鍵詞以生成敏感關鍵詞;補充裝置,用于利用所述第二敏感關鍵詞生成裝置根據(jù)所述文檔集合的內部特征所生成的敏感關鍵詞對所述第一敏感關鍵詞生成裝置根據(jù)所述外部知識所生成的敏感關鍵詞的集合進行補充。
20.一種對文檔集合進行主題級別隱私保護的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;外部知識存儲器,用于存儲外部知識;第一敏感關鍵詞生成裝置,用于基于所述文檔集合本身的內部特征擴展主題關鍵詞, 以生成第一敏感關鍵詞的集合;第二敏感關鍵詞生成裝置,用于根據(jù)外部知識擴展主題關鍵詞,以生成第二敏感關鍵詞的集合;修正裝置,用于根據(jù)所述第二敏感關鍵詞的集合對所述第一敏感關鍵詞的集合進行修正;補充裝置,用于根據(jù)所述第一敏感關鍵詞的集合對所述第二敏感關鍵詞的集合進行補充;合并裝置,用于將經(jīng)過修正的所述第一敏感關鍵詞的集合和經(jīng)過補充的所述第二敏感關鍵詞的集合進行合并,以獲得最終的敏感關鍵詞的集合;以及隱私文檔判定裝置,用于基于所述敏感關鍵詞集合中的敏感關鍵詞從文檔集合中判定隱私文檔。
全文摘要
本發(fā)明提出了對文檔集合進行主題級別隱私保護的方法和系統(tǒng)。該方法包括輸入文檔集合以及主題級別隱私策略,所述隱私策略包括一個或多個需要隱私保護的主題關鍵詞;擴展主題關鍵詞,以生成一個或多個敏感關鍵詞;以及基于生成的敏感關鍵詞從文檔集合中判定隱私文檔。根據(jù)不同的實施例,本發(fā)明分別基于文檔集的內部特征、基于外部知識(本體)或它們兩者來生成敏感關鍵詞。由于本發(fā)明的方法不需要使用訓練文檔,因此可以使系統(tǒng)更加高效柔性和實用,可以同時處理大量隱私策略,并且可以方便的支持隱私策略的動態(tài)變化。
文檔編號G06F21/24GK102201048SQ20101013259
公開日2011年9月28日 申請日期2010年3月24日 優(yōu)先權日2010年3月24日
發(fā)明者劉博 , 李建強, 趙彧, 郭劍峰 申請人:日電(中國)有限公司