国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      有效檢測采指紋數據和信息的系統(tǒng)和方法

      文檔序號:7912618閱讀:164來源:國知局
      專利名稱:有效檢測采指紋數據和信息的系統(tǒng)和方法
      技術領域
      本發(fā)明的領域涉及用于有效并準確地檢測指紋信息的系統(tǒng)和方法。相關技術的描述在許多情況下,組織和企業(yè)創(chuàng)造并積累的信息和知識是他們最寶貴的財富。未經授權地傳播知識產權、財務信息以及其他機密或敏感信息會明顯破壞公司的聲譽和競爭優(yōu)勢。此外,組織內的個人隱私信息,以及客戶、消費者和商業(yè)伙伴的隱私信息可能包括被具有不良意圖的使用者濫用的敏感細節(jié)。除商業(yè)秘密和聲譽外,美國國內和國外的法規(guī)都為信息泄漏訂立了基本的法律責任。例如健康保險流通與責任法案(HIPAA)、金融服務現代化法案(GLBA)以及各州和各國的隱私保護法律的法規(guī)都意味著組織內的信息資產應該受到監(jiān)控并服從隱私保護政策,以便保護客戶的隱私并降低潛在濫用和造假的風險。文件可以被分成片段。然后這些片段的散列(hash)的子集可以被用作文檔的“指紋”。可以以兩種方式之一將文件分為片段1)分割和幻分句?!胺指睢卑▽⑽募殖杀环Q為η元語法(n-gram)的η項的子序列。由這些η元語法覆蓋的分割可重疊(稱為“疊蓋”情況)??梢酝ㄟ^在文本上應用“滑動窗ロ”來生成η元語法。每個“窗ロ”都包括給定數量的字符或單詞,并且通過每個“窗ロ”的內容計算散列值。“分句”包括使用例如逗號、分號或句界的分隔符將內容分成短語。從每個短語的內容中計算散列值。隨后,散列的集合被后期選擇,或“稀釋”,以便通過選擇可被某一整數 P整除的散列值來減少存儲并提高性能。例如,若P = 5,則平均將選出五分之一的散列。為了評估兩個文本(即,文檔)之間的相似水平,首先通過將文檔改為檢測系統(tǒng)所使用的標準格式來使每個文本規(guī)范化(例如,通過將文本內容轉換為小寫統(tǒng)ー碼字母、去除類似“這個(the)”、“是(is)”以及其他“噪聲”等的常用詞(也稱為“停用詞 (stopword)")) ο此外,可以執(zhí)行“取詞干”,其包括將屈折的(或有時衍生的)詞減少為其詞干、詞基或詞根形式。相似性度量被用于對兩個規(guī)范化文本的指紋進行比較。ー種相似性度量是杰卡德 (Jaccard)相似性度量,其中將文檔A與B之間的相似性定義為
      這里通過兩個文檔的共有指紋的散列數量來定義交集|Α η Β|。但是,申請人認識到至少由于指紋的尺寸與采指紋的內容的尺寸成比例的原因,所以以便于穩(wěn)健辨識的方式對大量內容采指紋需要分配相當多的存儲資源。通常難以在現有的隨機訪問內存(RAM)中維持較大的庫。檢測過程也需要對磁盤存儲進行昂貴的接入。 這些存儲器需求妨礙了性能,并且當例如膝上型電腦和臺式電腦的端點采用基于指紋檢測時這個問題尤其明顯。本實施方式設想了一種用于有效檢測采指紋信息的新方法和系統(tǒng),由此克服了上述當前方法的缺陷和低效。

      發(fā)明內容
      本發(fā)明的系統(tǒng)、方法和設備均具有多個方面,任何一個方面都不能單獨地負責其所需的屬性。在不限制本發(fā)明范圍的情況下,現將簡要論述本發(fā)明的更明顯的特征。在考慮此論述之后,尤其是在閱讀標題為“具體實施方式
      ”的部分后,人們將理解本發(fā)明的特征如何提供優(yōu)于其它顯示設備的優(yōu)勢。某些實施方式設想了一種用于使電子內容的指紋緊湊的系統(tǒng),其包括緊湊表示模塊,所述緊湊表示模塊具有處理器,所述處理器被配置成使所述電子內容中的內容散列,以創(chuàng)建所述內容的電子指紋。所述緊湊表示模塊的所述處理器可被配置成對所述電子內容執(zhí)行多次散列并生成所述電子內容的多個指紋。在一些實施方式中,該系統(tǒng)可進一步包括緊湊庫,所述緊湊庫用于存儲所述電子內容的所述指紋。在某些實施方式中,該系統(tǒng)包括分析模塊,所述分析模塊具有處理器,并且所述分析模塊被配置成使新內容散列并生成所述新內容的指紋。在一些實施方式中,該系統(tǒng)可包括匹配估計件,所述匹配估計件用于將所述緊湊庫中存儲的指紋與所述新內容的指紋進行比較,并且基于存在于所述緊湊庫中的匹配的概率來確定指紋是否匹配。在一些實施方式中,該系統(tǒng)包括決定模塊,所述決定模塊被配置成基于所述新內容的指紋與所述緊湊庫中存儲的指紋之間存在的匹配的概率來在所述新內容上應用傳輸策略。一些實施方式包括一種用于在電子網絡中存儲的電子內容上應用傳輸策略的系統(tǒng),所述系統(tǒng)包括掃描引擎,具有處理器,并且所述掃描引擎被配置為識別所述電子內容; 采指紋模塊,與所述掃描引擎進行電子通信,所述采指紋模塊被配置成使所述電子內容散列,以便生成由所述掃描引擎識別的所述電子內容的緊湊指紋;以及至少一個緊湊指紋庫, 與所述采指紋模塊進行電子通信,所述至少一個緊湊指紋庫被配置成存儲由所述采指紋模塊生成的指紋。該系統(tǒng)還可包括內容處理器,與所述電子網絡進行電子通信,所述內容處理器被配置成使所述電子網絡中的新電子內容散列;以及匹配估計件,與所述指紋庫和所述內容處理器進行電子通信。在一些實施方式中,所述匹配估計件可被配置成確定所述新電子內容的指紋與所述指紋庫中存儲的指紋之間的概率性匹配;該系統(tǒng)還包括決定模塊,與所述匹配估計件和所述電子網絡進行電子通信,所述決定模塊被配置成基于來自所述匹配估計件的輸出對所述新電子內容應用所述傳輸策略。在一些實施方式中,該系統(tǒng)還可包括指紋庫,所述指紋庫與所述采指紋模塊進行電子通信,所述采指紋模塊被配置為生成所述電子內容的散列并將所述電子內容的散列存儲于所述指紋庫中。在一些實施方式中,所述匹配估計件可被配置成基于被匹配的散列之間的距離來確定匹配。
      某些實施方式設想了一種在電子網絡中傳輸電子內容的方法,所述方法包括以下步驟利用掃描引擎識別所述電子網絡上的電子內容;利用至少ー個散列對所述電子內容進行采指紋,以生成所述電子內容的緊湊指紋;將至少ー個所述緊湊指紋存儲在緊湊指紋庫中;利用至少ー個散列對新電子內容進行采指紋,所述新電子內容將在所述電子網絡上傳輸;將所述新電子內容的指紋與所述緊湊指紋庫里存儲的指紋進行比較;以及響應于所述指紋的比較確定在所述電子網絡上是否傳輸所述新電子內容。在某些實施方式中,該方法進ー步包括響應于確定是否應傳輸所述新電子內容, 對所述新電子內容應用傳輸策略的步驟。確定是否應傳輸所述新電子內容的步驟可包括確定所述緊湊指紋庫中存儲的指紋與所述新電子內容的指紋之間的匹配。確定匹配的步驟可包括確定所述指紋的匹配之間的距離。某些實施方式設想了一種用于使電子內容的指紋緊湊的系統(tǒng),所述系統(tǒng)包括一個或多個處理器,其中所述ー個或多個處理器中的至少ー個處理器被配置成接收第一電子指紋中的至少一部分;并且所述ー個或多個處理器中的至少ー個處理器被配置成對陣列中的一個或多個地址進行標記,所述ー個或多個地址與所述第一電子指紋中的至少一部分關聯。在一些實施方式中,散列函數確定所述地址與所述第一指紋的至少一部分的關聯。在某些實施方式中,所述散列函數被配置成使得至少ー個所述地址與兩個或更多個所述指紋關聯。該系統(tǒng)可進ー步包括緊湊庫,所述緊湊庫包括地址陣列,與第二電子內容的第 ニ指紋關聯的所述地址將被標記。在一些實施方式中,具有與所述電子內容的所述第一指紋關聯的地址的所述陣列被存儲于所述緊湊庫中。在一些實施方式中,與所述第一指紋關聯的所述地址的陣列和與所述第二指紋關聯的所述地址的陣列中均沒有既與所述第一指紋又與所述第二指紋關聯的地址。在某些實施方式中,所述ー個或多個處理器中的至少ー個處理器被配置成將與所述第一指紋關聯的被標記的地址和與所述第二指紋關聯的被標記的地址進行比較,并確定所述指紋匹配的概率。在一些實施方式中,所述ー個或多個處理器中的至少ー個處理器被配置成基于所述電子內容的指紋與所述緊湊庫中表示的指紋之間存在的匹配的概率對所述電子內容應用傳輸策略。某些實施方式設想了一種用于在電子網絡中存儲的電子內容上應用傳輸策略的系統(tǒng)。所述系統(tǒng)可包括掃描引擎處理器,被配置成識別電子內容;散列處理器,被配置成接收由所述掃描引擎處理器識別的所述電子內容的電子指紋中的至少一部分,所述散列處理器進一歩被配置成對陣列中與所述電子指紋中的至少一部分關聯的多個地址進行標記, 所述散列處理器與所述掃描引擎處理器進行電通信;至少ー個緊湊指紋庫,可與所述散列處理器進行電通信,并且所述至少一個緊湊指紋庫被配置成存儲與所述電子指紋中的至少一部分關聯的陣列。該系統(tǒng)還可包括內容處理器,與所述電子網絡進行電通信,所述內容處理器被配置成生成所述電子網絡中的新電子內容的指紋。該系統(tǒng)還可包括匹配估計處理器,與所述指紋庫和所述內容處理器進行電通信,所述匹配估計處理器被配置成確定所述新電子內容的指紋與所述指紋庫中存儲的指紋之間的概率性匹配。該系統(tǒng)還可包括決定處理器,與所述匹配估計處理器和所述電子網絡進行電通信,所述決定處理器被配置成基于來自所述匹配估計處理器的輸出對所述新電子內容應用傳輸策略。
      在某些實施方式中,所述掃描引擎處理器、所述散列處理器、所述內容處理器、所述匹配估計處理器以及所述決定處理器中的至少兩個均包括單獨的處理器。一些實施方式還可包括非緊湊指紋庫,所述非緊湊指紋庫與所述散列處理器進行電通信。在一些實施方式中,所述匹配估計處理器可被進一步配置成基于兩個指紋之間的距離來確定匹配。某些實施方式設想了一種在電子網絡中傳輸電子內容的方法,其包括在一個或多個電子處理器上執(zhí)行以下步驟在所述電子網絡上識別電子內容;生成所述電子內容的新指紋;將所述電子內容的新指紋與緊湊指紋庫中存儲的指紋進行比較,包括當應用至散列函數時確定由所述新指紋標記的一個或多個地址以及當應用至所述散列函數時將這些地址與由所述庫的所述指紋標記的所述一個或多個地址進行比較;以及響應于所述指紋的比較確定在所述電子網絡中是否傳輸所述新電子內容。在一些實施方式中,確定是否傳輸所述新電子內容包括對所述新電子內容應用傳輸策略。在一些實施方式中,確定在所述電子網絡上是否傳輸所述新電子內容至少部分依賴于將所述電子內容的新指紋與所述緊湊指紋庫中存儲的指紋進行比較。在一些實施方式中,確定匹配的步驟包括確定所述指紋的匹配之間的距離。某些實施方式設想了一種計算機可讀介質,其包括被配置成使一個或多個處理器執(zhí)行以下步驟的代碼接收第一電子指紋中的至少一部分;將陣列中的一個或多個地址進行標記,所述一個或多個地址與所述第一電子指紋中的至少一部分關聯;存儲所述陣列; 接收第二電子指紋中的至少一部分;確定與所述第二電子指紋中的至少一部分關聯的地址是否和與所述第一電子指紋關聯的地址相同。在某些實施方式中,所述第一電子指紋與第一電子文檔關聯,所述第二電子指紋與第二電子文檔關聯。在某些實施方式中,權利要求31的計算機可讀介質,其中所述一個或多個處理器被進一步配置成至少基于確定與所述第二電子指紋中的至少一部分關聯的地址和與所述第一電子指紋關聯的地址是否相同,來確定所述第一電子文檔與第二電子文檔是相同的概率。在一些實施方式中,所述陣列被存儲于緊湊庫中。


      圖1是示出包括查找緊湊指紋庫的掃描系統(tǒng)的網絡化系統(tǒng)的框圖;圖2是示出采用指紋庫的緊湊表示的用于防止信息泄漏的方法的流程圖;圖3是示出采用采指紋文本的有效而緊湊的概率性表示的方法的流程圖;圖4是示出用于評估被分析的內容與服從某一策略的采指紋的內容之間的相似性的方法的流程圖;圖5是示出處理多種策略的方法的流程圖;圖6是示出包括端點上的本地緊湊庫和具有原始指紋庫的服務器的系統(tǒng)的框圖;圖7是示出被分析的內容包括來自采指紋的內容的一段和來自未采指紋的內容的另一段的情況的框圖;圖8是示出考慮存在散列的連串指示之間的距離以便決定內容是否包含明顯采指紋部分的系統(tǒng)的框圖;圖9是示出允許進一步減少誤報(false positive)并使更有效的更新機構方便的方法的流程圖10是示出用于同時查詢若干緊湊庫的方法的流程圖。
      具體實施例方式以下詳細的描述針對某些特定的實施方式。但是,本文中的教導能以多種不同方式應用。在本說明中將參照附圖,在整個附圖中同樣的部件用同樣的標號指定。各實施方式可以在包括計算功能性的多種設備中實現。具體地,設想各實施方式可以在多種電子設備上實現或與其關聯,這些電子設備例如,但不限于數據庫存儲系統(tǒng)、移動電話、無線設備、 個人數據助手(PDA)、手持式或便攜式電腦、GPS接收器/導航儀、照相機、MP3播放器、游戲控制器、便攜式電子閱讀設備等。應該認識到所描述的部件是示意性而非限制性的,而且可以以軟件、硬件及它們的組合的形式實現。具體地,以下附圖參考作為模塊、系統(tǒng)、存儲、引擎、接ロ等的各種實施方式的某些特征。應該認識到,這些特征中的每ー個均可以以軟件、硬件或固件的形式實現。另外,這些特征可以彼此獨立地存在于分立軟件或硬件部件上,或者一起出現于單個部件上。以下實施方式描述了用于有效檢測采指紋的內容的系統(tǒng)、方法和裝置。具體地,緊湊且有效的指紋成分庫被用于分析內容并確定該內容與先前采指紋的內容的相似性。ー些實施方式采用關于庫中指紋成分的存在的概率性指示。當應用于防止信息(或數據)泄露的系統(tǒng)時該系統(tǒng)特別有用處。信息采指紋是用于對機密和敏感信息的未授權傳播及使用進行監(jiān)控和阻擋的方法。以下的公開提供了采指紋方法的粗略概述 第20020U9140號美國專利公開;第 20050288939號美國專利公開;第20040255147號美國專利公開;第200402609 號美國專利公開;第7,493,650號美國專利;第20050025291號美國專利申請,這些公開中的每ー個的全部內容通過引用并入。指紋FP (Cm)可以被定義為以下集合FP (Cm) = {H (Xi) | g (Cm),H (Xi),ξ ) = 0}其中Cm=第M個信息項(例如,文檔或表格);H是通用散列函數;Xi是長度N的矢量,其中N是“滑動窗ロ”的尺寸。該矢量概括地描述為XiLk] =WkCri^k其中Wj =確定窗ロ的形狀的權重因子;{Cr}=限定窗ロ的基本分類單元(例如,單詞或字符);g=選擇函數,(例如僅選擇可被ξ整除的那些)。函數g可以是散列函數自身, 但通常還是待被采指紋的文檔的函數(其尺寸、平均單詞長度等)以及確定將保存多少散列的安全參數ξ的函數。直覺地,ξ可被視為確定“文本篩”中孔的尺寸的參數。這些孔可以確定不由散列值表示的最大摘錄的尺寸。一般來說,可以為較不敏感的內容選擇“較寬的孔”。可以通過多種方式來進行對將被保存的散列值的選擇,例如通過僅選擇可被數P整除(“除以P余數為0”)的散列。在此情況下,ξ =Ρ,并且g (CM,H (Xi),ξ ) = H (Xi) mod (ρ)有效的相似性度量需要指紋對其表示的原始內容足夠“忠實”,原始內容的相似性可以通過指紋的相似性來度量。具體來說,兩份文檔Ca和Cb之間的相似性水平d(CA,Cb)可以利用其各自的指紋之間的相似性d(FP(CA),FP(CB))來估計。將采指紋的方案FP定義為 “(ε,δ)忠實表示”,對于一些(ε,δ ) > 0,若d (FP (Ca),FP(Cb)) < ε — d(CA,CB) < δ如上所述,指紋尺寸包含對有效實現文檔識別的主要障礙。如果系統(tǒng)能夠檢測出原始內容中大于某些預定尺寸的任何片段(例如,具有多于50個單詞的每個片段或段落), 那么為了提供準確而穩(wěn)健的識別,指紋的尺寸需要與采指紋的內容的尺寸成比例。在大型且現代的組織中,這個尺寸會非常大。因此,在不妨礙準確性的同時基本減少指紋的尺寸至關重要,尤其在例如膝上型電腦和臺式電腦的端點處采用基于指紋的檢測的情況時。以下實施方式提供了克服這些障礙的方法,而且還有其他優(yōu)點。圖1示出了計算機網絡系統(tǒng)1000。在此系統(tǒng)中,多個客戶機lOOla-lOOlb通過內部網絡1002彼此進行交互,并且偶爾通過互聯網或外部網絡1005發(fā)送并接收數據。客戶機可包括多種計算設備,例如膝上型電腦、蜂窩電話、個人數字助手、固定客戶終端、工作站等。在某些實施方式中,掃描系統(tǒng)1003監(jiān)控通過內部網絡1002傳輸的文檔。某些文檔可包含機密信息,并且根據其包含的主題的敏感性服從各種安全策略(副本數、傳輸、僅某些用戶可讀等)。當掃描系統(tǒng)1003面對文檔時(即,當用戶請求傳輸文件時),系統(tǒng)1003將查閱“指紋”庫1004。掃描系統(tǒng)1003可掃描客戶機lOOla-lOOlb上的文件服務器、文檔管理系統(tǒng)和驅動以識別文檔。管理員可預先將給定的文檔或文檔格式與特定的安全策略關聯。 這種關聯反映在庫1004中,庫1004提供將一個或多個指紋與那個文檔的安全策略關聯的表或類似方式。掃描系統(tǒng)1003將庫1004中的指紋與引入的文檔的指紋進行比較,以確定該引入的文檔是否與關聯至特定的安全策略的文檔相同。如果確定匹配,那么系統(tǒng)1003可加強與匹配的文檔關聯的策略。盡管該附圖中示出了內部網絡1002和外部網絡1005之間的中間物,但是本領域的技術人員可容易確認掃描引擎可替代運行的眾多位置。另外,分立的系統(tǒng)可掃描發(fā)出的文檔并執(zhí)行指紋提取和比較。圖2是示出由掃描系統(tǒng)1003使用的實現用于檢測、存儲、隨后比較和識別指紋的方法的模塊的流程圖。通過預處理器110對內容Ci 100進行預處理。例如,在內容是文本文檔的情況下,該文本將首先被提取,然后通過將其改為標準格式(例如,將字母改為小寫,然后去除諸如“這個”、“和”、“或”等常用詞的“停用詞”)來規(guī)范化。預處理階段之后, 通過散列提取模塊120來提取散列,并隨后通過散列選擇器模塊130來選擇散列。為內容 C的指紋FP(Ci) 140選定的散列可能和提供內容C的識別的數或字符串、以及適用策略PLj 一起被存儲在指紋庫150中。識別可允許指紋與內容關聯。識別數或字符串與內容的其他基本特性(諸如名稱、位置、所有者等)關聯的表可以用于此目的。分配給內容的策略可以是確定諸如被允許的發(fā)送者、被允許的接收者、被允許的存儲設備、被允許的分配信道以及其他被允許的行動的分布和使用策略。在最實際的情形中,從一系列預定的組織策略(例如,“機密的R&D文檔不允許發(fā)送至組織外的人員,并且必須存儲于中央文件服務器X中?!?中選出分配和使用策略。將內容C服從策略PLi的事實用q卜PLi.標注。將從服從相同的策略PI^.的全部
      內容中采集全部散列用FPLiMFP(Ci) I C1トPLJ標注。通過共享相同的策略PLj的內容中的
      全部選定的散列,可創(chuàng)建的緊湊表示RPバ例如以下所述的概率性表示)并可將其存儲在緊湊庫1004中。為了決定應用或加強哪個策略,系統(tǒng)可評估受監(jiān)測的內容(例如,在受監(jiān)測的信道上傳播的內容諸如郵件或即時消息)與被限定為服從多種策略的內容之間的相似性。在此分析階段中,可分析新內容Ck 170(例如,發(fā)出的郵件所附的PDF文檔)。內容首先被預處理模塊112預處理。在預處理階段之后,通過散列提取模塊122來提取散列, 井隨后通過散列選擇器模塊132對這些散列進行后期選擇。(應該認識到在某些實施方式中,模塊112、122和132的功能性可相應地使用模塊110、120和130來執(zhí)行)。內容180的緊湊表示被創(chuàng)建,并且與存儲在緊湊庫1004中的FPLj的緊湊表示RPj匹配。隨后,基于采指紋的內容Ci與被分析的內容Ck之間評估的相似性,通過決定模塊190使用匹配的數來決定策略PLj是否可適用以及是否必須在Ck上加強。現參考圖3,其示出了用于利用采指紋的內容的有效而緊湊的概率性表示的模塊的流程圖。緊湊表示創(chuàng)建模塊(CRCM) 210從指紋庫150中取出散列X 220,并采用ー個或多個散列函數hi 212將每個散列值轉換為L比特的ニ進制數、(Χ)214,其中這些數的分布可近似于在1 浐的范圍上的均勻分布。對于每一個散列函數,存在長度浐的對應陣列 Bi 232,對應陣列存儲在緊湊表示庫1004中。這些陣列中的元素都是全部被初始化為具有零值的比持。在評價h (X)之后,地址Iii (X)處的陣列ら的元素被設定為1,即,元素被“標記”,其表示元素X的存在性。因為將元素映射至陣列中的地址是擬隨機的,所以兩個不同的項之間通常存在“沖突”的可能性,即hi (Xl) = hi (X2)而 Xl 乒 X2當項數基本大于地址數的平方根(S卩,2α/2))吋,沖突發(fā)生的概率會接近于“1”, 被稱為“生日問題”的現象。因此,通常來說,確定地表明某ー項的存在性并不實際。但是,如果在對應陣列^的至少ー個中存在“0”,那么可以肯定該項不存在。此特征提供了 “不存在性的快速證據”(考慮由H Bloom Burton在ACM通信(Communications of the ACM) 13 (7),422-426,1970上的具有容許誤差的散列編碼中的空間/時間權衡(Space/Time Trade-offs in Hash Coding with Allowable Errors)中所描述的布隆(Bloom)過濾器, 上述文件的全部內容以引用的方式并入本文)。因此,在遇到第一個“0”后停止檢索。陣列中的每ー個能因此被視為“過濾器”?;谡加昧縼碛嬎汴嚵械膬?yōu)化長度(以及散列函數的輸出中的比特數)。50%呈現優(yōu)化,其需要陣列的尺寸約是項數的1.44倍??紤]庫中不存在的元素Y。如果陣列i被占用一半,那么hi (Y)與被占用的元(cell)匹配的概率是1/2。如果存在使用不同的散列函數tv"hn占用的η個陣列,那么誤報(即,地址為對應陣列中的Ii1 (X) ···&( 的全部元都被占用)的概率是2_n。因此,將誤報的概率減少因子2的代價近似為每項1. 5比持。圖4示出了通過用于對被分析的內容與服從策略PLj的采指紋的內容之間的相似性評估的處理器執(zhí)行的方法的流程圖。在階段A 320中對新內容Ck 170進行分析。該分析階段可包括預處理322,散列提取324以及散列后期選擇326。在階段B 330中,可以為鋒個后期選定的散列X評價若干不同的散列函數Ii1⑴…ん⑴。指示MX)=ん,值ん被8/10 頁
      視為陣列 中的地址,該地址被存儲在緊湊庫1004中。對于i = 1……IiAi(Ai) = 1表明與緊湊庫1004中存儲的服從FPLj的內容的緊湊表示的正匹配。在階段C 340中,為了決定策略PLj是否適用以及是否應該在Ck上得到加強使用了匹配數。對匹配數的評價將考慮誤報的因素,如果N個散列中存在pN個正確匹配并且誤報的概率是PFP,那么期望的匹配數是pN = (p(l - Pfp ) + Pfp )N因此,ρ的最大似然估計量是
      權利要求
      1.一種用于使電子內容的指紋緊湊的系統(tǒng),所述系統(tǒng)包括緊湊表示模塊,具有處理器,所述處理器被配置成使所述電子內容中的內容散列,以創(chuàng)建所述內容的電子指紋。
      2.如權利要求1所述的系統(tǒng),其中,所述緊湊表示模塊的所述處理器被配置成對所述電子內容執(zhí)行多次散列并生成所述電子內容的多個指紋。
      3.如權利要求1所述的系統(tǒng),進一歩包括緊湊庫,所述緊湊庫用于存儲所述電子內容的所述指紋。
      4.如權利要求3所述的系統(tǒng),進ー步包括分析模塊,所述分析模塊具有處理器,并且所述分析模塊被配置成使新內容散列并生成所述新內容的指紋。
      5.如權利要求4所述的系統(tǒng),進ー步包括匹配估計件,所述匹配估計件用于將所述緊湊庫中存儲的指紋與所述新內容的指紋進行比較,并且基于存在于所述緊湊庫中的匹配的概率來確定指紋是否匹配。
      6.如權利要求5所述的系統(tǒng),進ー步包括決定模塊,所述決定模塊被配置成基于所述新內容的指紋與所述緊湊庫中存儲的指紋之間存在的匹配的概率在所述新內容上應用傳輸策略。
      7.一種用于在存儲于電子網絡中的電子內容上應用傳輸策略的系統(tǒng),所述系統(tǒng)包括 掃描引擎,具有處理器,并且所述掃描引擎被配置為識別所述電子內容;采指紋模塊,與所述掃描引擎進行電子通信,所述采指紋模塊被配置成使所述電子內容散列,以便生成由所述掃描引擎識別的所述電子內容的緊湊指紋;至少ー個緊湊指紋庫,與所述采指紋模塊進行電子通信,所述至少一個緊湊指紋庫被配置成存儲由所述采指紋模塊生成的指紋;內容處理器,與所述電子網絡進行電子通信,所述內容處理器被配置成使所述電子網絡中的新電子內容散列;匹配估計件,與所述指紋庫和所述內容處理器進行電子通信,所述匹配估計件被配置成確定所述新電子內容的指紋與所述指紋庫中存儲的指紋之間的概率性匹配;以及決定模塊,與所述匹配估計件和所述電子網絡進行電子通信,所述決定模塊被配置成基于來自所述匹配估計件的輸出對所述新電子內容應用所述傳輸策略。
      8.如權利要求7所述的系統(tǒng),進一歩包括指紋庫,所述指紋庫與所述采指紋模塊進行電子通信,所述采指紋模塊被配置為生成所述電子內容的散列并將其存儲于所述指紋庫中。
      9.如權利要求7所述的系統(tǒng),其中,所述匹配估計件被配置成基于被匹配的散列之間的距離來確定匹配。
      10.一種在電子網絡中傳輸電子內容的方法,所述方法包括以下步驟 利用掃描引擎識別所述電子網絡上的電子內容;利用至少ー個散列對所述電子內容進行采指紋,以生成所述電子內容的緊湊指紋; 將至少一個所述緊湊指紋存儲在緊湊指紋庫中;利用至少ー個散列對新電子內容進行采指紋,所述新電子內容將在所述電子網絡上傳;將所述新電子內容的指紋與所述緊湊指紋庫里存儲的指紋進行比較;響應于所述指紋的比較確定在所述電子網絡上是否傳輸所述新電子內容。
      11.如權利要求10所述的方法,進一步包括響應于確定是否應傳輸所述新電子內容, 對所述新電子內容應用傳輸策略的步驟。
      12.如權利要求10所述的方法,其中,確定是否應傳輸所述新電子內容的步驟包括確定所述緊湊指紋庫中存儲的指紋與所述新電子內容的指紋之間的匹配。
      13.如權利要求12所述的方法,其中,所述確定匹配的步驟包括確定所述指紋的匹配之間的距離。
      14.一種用于使電子內容的指紋緊湊的系統(tǒng),所述系統(tǒng)包括一個或多個處理器,其中所述一個或多個處理器中的至少一個處理器被配置成接收第一電子指紋中的至少一部分;并且所述一個或多個處理器中的至少一個處理器被配置成對陣列中的一個或多個地址進行標記,所述一個或多個地址與所述第一電子指紋中的至少一部分關聯。
      15.如權利要求14所述的系統(tǒng),其中,散列函數確定所述地址與所述第一指紋的至少一部分的關聯。
      16.如權利要求15所述的系統(tǒng),其中,所述散列函數被配置成使得至少一個所述地址與兩個或更多個所述指紋關聯。
      17.如權利要求14所述的系統(tǒng),進一步包括緊湊庫,所述緊湊庫包括地址陣列,與第二電子內容的第二指紋關聯的所述地址將被標記。
      18.如權利要求17所述的系統(tǒng),其中,具有與所述電子內容的所述第一指紋關聯的地址的所述陣列被存儲于所述緊湊庫中。
      19.如權利要求18所述的系統(tǒng),其中,與所述第一指紋關聯的所述地址的陣列和與所述第二指紋關聯的所述地址的陣列中均沒有既與所述第一指紋又與所述第二指紋關聯的地址。
      20.如權利要求17所述的系統(tǒng),其中,所述一個或多個處理器中的至少一個處理器被配置成將與所述第一指紋關聯的被標記的地址和與所述第二指紋關聯的被標記的地址進行比較,并確定所述指紋匹配的概率。
      21.如權利要求20所述的系統(tǒng),其中,所述一個或多個處理器中的至少一個處理器被配置成基于所述電子內容的指紋與所述緊湊庫中表示的指紋之間存在的匹配的概率對所述電子內容應用傳輸策略。
      22.一種用于對電子網絡中存儲的電子內容應用傳輸策略的系統(tǒng),所述系統(tǒng)包括掃描引擎處理器,被配置成識別電子內容;散列處理器,被配置成接收由所述掃描引擎處理器識別的所述電子內容的電子指紋中的至少一部分,所述散列處理器進一步被配置成對陣列中與所述電子指紋中的至少一部分關聯的多個地址進行標記,所述散列處理器與所述掃描引擎處理器進行電通信;至少一個緊湊指紋庫,與所述散列處理器進行電通信,并且所述至少一個緊湊指紋庫被配置成存儲與所述電子指紋中的至少一部分關聯的陣列;內容處理器,與所述電子網絡進行電通信,所述內容處理器被配置為生成所述電子網絡中的新電子內容的指紋;匹配估計處理器,與所述指紋庫和所述內容處理器進行電通信,所述匹配估計處理器被配置成確定所述新電子內容的指紋與所述指紋庫中存儲的指紋之間的概率性匹配;以及決定處理器,與所述匹配估計處理器和所述電子網絡進行電通信,所述決定處理器被配置成基于來自所述匹配估計處理器的輸出對所述新電子內容應用傳輸策略。
      23.如權利要求22所述的系統(tǒng),其中,所述掃描引擎處理器、所述散列處理器、所述內容處理器、所述匹配估計處理器以及所述決定處理器中的至少兩個包括單獨的處理器。
      24.如權利要求22所述的系統(tǒng),進一步包括非緊湊指紋庫,所述非緊湊指紋庫與所述散列處理器進行電通信。
      25.如權利要求22所述的系統(tǒng),其中,所述匹配估計處理器被進一步配置成基于兩個指紋之間的距離來確定匹配。
      26.—種在電子網絡中傳輸電子內容的方法,包括在一個或多個電子處理器上執(zhí)行以下步驟在所述電子網絡上識別電子內容;生成所述電子內容的新指紋;將所述電子內容的新指紋與緊湊指紋庫中存儲的指紋進行比較,包括當應用至散列函數時確定由所述新指紋標記的一個或多個地址以及當應用至所述散列函數時將這些地址與由所述庫的所述指紋標記的所述一個或多個地址進行比較;以及響應于所述指紋的比較確定在所述電子網絡中是否傳輸所述新電子內容。
      27.如權利要沈所述的方法,其中,確定是否傳輸所述新電子內容包括對所述新電子內容應用傳輸策略。
      28.如權利要求25所述的方法,其中,確定在所述電子網絡上是否傳輸所述新電子內容至少部分依賴于將所述電子內容的新指紋與所述緊湊指紋庫中存儲的指紋進行比較。
      29.如權利要27所述的方法,其中,確定匹配的步驟包括確定所述指紋的匹配之間的距離。
      30.一種計算機可讀介質,包括被配置成使一個或多個處理器執(zhí)行以下步驟的代碼接收第一電子指紋中的至少一部分;將陣列中的一個或多個地址進行標記,所述一個或多個地址與所述第一電子指紋中的至少一部分關聯;存儲所述陣列;接收第二電子指紋中的至少一部分;確定與所述第二電子指紋中的至少一部分關聯的地址是否和與所述第一電子指紋關聯的地址相同。
      31.如權利要求30所述的計算機可讀介質,其中,所述第一電子指紋與第一電子文檔關聯,所述第二電子指紋與第二電子文檔關聯。
      32.如權利要求31所述的計算機可讀介質,其中,所述一個或多個處理器被進一步配置成至少基于確定與所述第二電子指紋中的至少一部分關聯的地址和與所述第一電子指紋關聯的地址是否相同,來確定所述第一電子文檔與第二電子文檔是相同的概率。
      33.如權利要求30所述的計算機可讀介質,其中,所述陣列被存儲于緊湊庫中。
      全文摘要
      公開的實施方式提供了用于有效檢測采指紋的內容的系統(tǒng)、方法和裝置,概括地涉及防止信息(或數據)泄露的領域。具體地,緊湊而有效的指紋成分庫被用于分析內容并確定該內容與先前被采指紋的內容的相似性。一些實施方式采用了關于庫中指紋成分的存在的概率性指示。
      文檔編號H04L29/06GK102598007SQ201080032907
      公開日2012年7月18日 申請日期2010年5月24日 優(yōu)先權日2009年5月26日
      發(fā)明者大衛(wèi)·拉雜羅夫, 羅伊·巴堪, 耶夫翟妮·麥那可, 里卓爾·特洛彥斯基 申請人:韋伯森斯公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1