用于數(shù)據(jù)泄露防護(hù)的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)了用于數(shù)據(jù)泄露防護(hù)的方法和系統(tǒng)。包括:一種從文檔中提取數(shù)據(jù)特征以得到第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋和第三數(shù)據(jù)指紋的方法,利用所提取的數(shù)據(jù)特征判斷第一文檔和第二文檔是否相關(guān)的判斷方法、以及根據(jù)相關(guān)度判斷可疑文檔是否包含敏感內(nèi)容的方法。同時(shí)本發(fā)明也提供了相應(yīng)的提取文檔數(shù)據(jù)特征的設(shè)備、判斷第一文檔和第二文檔是否相關(guān)的判斷設(shè)備、以及判斷可疑文檔是否包含敏感內(nèi)容的設(shè)備。
【專利說(shuō)明】
用于數(shù)據(jù)泄露防護(hù)的方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明數(shù)據(jù)安全技術(shù)領(lǐng)域,尤其是用于數(shù)據(jù)泄露防護(hù)的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 近年來(lái),隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)安全在信息化企業(yè)的日常運(yùn)作過(guò)程中顯 得尤為重要。如果數(shù)據(jù)遭到惡意篡改或破壞,可能會(huì)給企業(yè)造成無(wú)法挽回的損失。為了提高 數(shù)據(jù)安全性,往往需要設(shè)定一些數(shù)據(jù)安全策略,以對(duì)數(shù)據(jù)進(jìn)行監(jiān)控和保護(hù)。在當(dāng)前大數(shù)據(jù)的 環(huán)境下,隨著企業(yè)數(shù)據(jù)量的增大,如何對(duì)不斷增加的數(shù)據(jù)進(jìn)行快速、有效地監(jiān)控和保護(hù),成 為當(dāng)前數(shù)據(jù)安全領(lǐng)域面對(duì)的一個(gè)重要問(wèn)題。
[0003] 目前,許多企業(yè)為了防止數(shù)據(jù)的泄漏,在內(nèi)網(wǎng)中部署了數(shù)據(jù)泄漏防護(hù)(Data Ieakage prevention,DLP)系統(tǒng),以確保敏感數(shù)據(jù)的安全。數(shù)據(jù)泄漏防護(hù)系統(tǒng)通過(guò)軟件對(duì)敏 感數(shù)據(jù)進(jìn)行監(jiān)控和保護(hù),并通過(guò)一定的技術(shù)手段,防止企業(yè)的指定數(shù)據(jù)或信息資產(chǎn)以違反 安全策略規(guī)定的形式流出企業(yè),以保證敏感數(shù)據(jù)不被丟失和泄露。所以在DLP系統(tǒng)中,數(shù)據(jù) 特征的提取和對(duì)敏感數(shù)據(jù)的匹配是甚為關(guān)鍵的一步。
[0004] 傳統(tǒng)的DLP系統(tǒng)中通常采用人工設(shè)置關(guān)鍵詞或者對(duì)整個(gè)文件生成數(shù)據(jù)指紋的方式 來(lái)提取數(shù)據(jù)特征,前者無(wú)法自動(dòng)完成特征提取,后者當(dāng)文件很大時(shí),提取的準(zhǔn)確性會(huì)降低。 另外,對(duì)于敏感數(shù)據(jù)的匹配,通常會(huì)采用規(guī)則匹配和哈希匹配算法,同樣地,當(dāng)面對(duì)較大文 件時(shí),算法性能和準(zhǔn)確度都會(huì)嚴(yán)重下降。
【發(fā)明內(nèi)容】
[0005] 為此,本發(fā)明提供了用于數(shù)據(jù)泄露防護(hù)的方法和系統(tǒng),以力圖解決或者至少緩解 上面存在的至少一個(gè)問(wèn)題。
[0006] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種從文檔中提取數(shù)據(jù)特征的方法,其中提取的 數(shù)據(jù)特征包括第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋和第三數(shù)據(jù)指紋,包括步驟:從文檔中提取第一 預(yù)定數(shù)目個(gè)詞語(yǔ),計(jì)算每個(gè)詞語(yǔ)對(duì)應(yīng)的數(shù)據(jù)特征串,并基于這第一預(yù)定數(shù)目個(gè)數(shù)據(jù)特征串 來(lái)構(gòu)造文檔的第一數(shù)據(jù)指紋;按照順序?qū)ξ臋n中的數(shù)據(jù)進(jìn)行分塊,基于每個(gè)數(shù)據(jù)塊中的數(shù) 據(jù)內(nèi)容來(lái)計(jì)算該數(shù)據(jù)塊的數(shù)據(jù)特征串,再組合每個(gè)數(shù)據(jù)塊的數(shù)據(jù)特征串來(lái)構(gòu)造該文檔的第 二數(shù)據(jù)指紋;按照順序?qū)ξ臋n的詞序列進(jìn)行分塊,基于每個(gè)詞塊中的數(shù)據(jù)內(nèi)容來(lái)計(jì)算該詞 塊的數(shù)據(jù)特征串,再組合每個(gè)詞塊的數(shù)據(jù)特征串來(lái)構(gòu)造該文檔的第三數(shù)據(jù)指紋。
[0007] 根據(jù)本發(fā)明的另一方面,提供了一種判斷第一文檔和第二文檔是否相關(guān)的判斷方 法,包括步驟:對(duì)第一文檔執(zhí)行如上所述的數(shù)據(jù)特征提取方法,提取文檔的數(shù)據(jù)特征得到第 一特征集合;對(duì)第二文檔執(zhí)行如上所述的數(shù)據(jù)特征提取方法,提取文檔的數(shù)據(jù)特征得到第 二特征集合;以及計(jì)算第一特征集合與第二特征集合的相似度,若相似度達(dá)到預(yù)定范圍,則 認(rèn)為該第一文檔和第二文檔相關(guān)。
[0008] 根據(jù)本發(fā)明的另一方面,提供了一種判斷可疑文檔是否包含敏感內(nèi)容的方法,包 括步驟:對(duì)受保護(hù)文檔執(zhí)行如上所述的數(shù)據(jù)特征提取方法,提取該文檔的數(shù)據(jù)特征,建立特 征庫(kù);再提取可疑文檔的數(shù)據(jù)特征,執(zhí)行上述判斷文檔是否相關(guān)的判斷方法,判斷可疑文檔 與特征庫(kù)中的受保護(hù)文檔是否相關(guān):若判斷可疑文檔與受保護(hù)文檔相關(guān),則認(rèn)為可疑文檔 包含敏感內(nèi)容;若判斷可疑文檔與受保護(hù)文檔不相關(guān),則認(rèn)為可疑文檔不包含敏感內(nèi)容。
[0009] 相應(yīng)地,本發(fā)明還提供了從文檔中提取數(shù)據(jù)特征的設(shè)備、判斷第一文檔和第二文 檔是否相關(guān)的判斷設(shè)備、判斷可疑文檔是否包含敏感內(nèi)容的設(shè)備。
[0010] 根據(jù)本發(fā)明的再一方面,提供了一種數(shù)據(jù)泄露防護(hù)系統(tǒng),包括:計(jì)算設(shè)備,與數(shù)據(jù) 安全防護(hù)設(shè)備相連;以及數(shù)據(jù)安全防護(hù)設(shè)備,包括:文檔獲取設(shè)備、如上所述的敏感內(nèi)容判 斷設(shè)備、控制策略獲取設(shè)備和控制設(shè)備。
[0011] 基于上文的描述,本方案采用自動(dòng)提取文檔關(guān)鍵詞、以及提取數(shù)據(jù)塊和詞塊的數(shù) 據(jù)指紋的方式,來(lái)提取文檔的數(shù)據(jù)特征。一方面,通過(guò)計(jì)算表征詞語(yǔ)重要性的特征值來(lái)選取 出文檔的關(guān)鍵詞,這樣就不用依靠人工設(shè)置關(guān)鍵詞;另一方面,將文檔進(jìn)行分塊處理,基于 數(shù)據(jù)塊和詞塊分別計(jì)算每個(gè)分塊的數(shù)據(jù)指紋,并且采用局部敏感哈希(LSH)算法來(lái)生成數(shù) 據(jù)指紋,能夠有效地防止相似數(shù)據(jù)的泄露,另外當(dāng)文檔很大時(shí),也能保證特征提取的準(zhǔn)確 性。
[0012] 在特征匹配方面,本方案采用單一匹配數(shù)據(jù)特征串的相似度(即,單一匹配)或者 計(jì)算相似數(shù)據(jù)特征串比重(即,基準(zhǔn)匹配)的方式,對(duì)文檔中的相似內(nèi)容進(jìn)行匹配判斷,可選 地,可以用漢明距離或Jaccard系數(shù)表征文檔間的相似度。這樣,能更加全方位地進(jìn)行敏感 數(shù)據(jù)匹配,防止敏感數(shù)據(jù)泄露,進(jìn)而有效避免各種文檔外泄手段。
【附圖說(shuō)明】
[0013] 為了實(shí)現(xiàn)上述以及相關(guān)目的,本文結(jié)合下面的描述和附圖來(lái)描述某些說(shuō)明性方 面,這些方面指示了可以實(shí)踐本文所公開(kāi)的原理的各種方式,并且所有方面及其等效方面 旨在落入所要求保護(hù)的主題的范圍內(nèi)。通過(guò)結(jié)合附圖閱讀下面的詳細(xì)描述,本公開(kāi)的上述 以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯。遍及本公開(kāi),相同的附圖標(biāo)記通常指代相同的 部件或元素。
[0014] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的數(shù)據(jù)泄露防護(hù)系統(tǒng)100的示意圖;
[0015] 圖2A示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的從文檔中提取數(shù)據(jù)特征的方法200的流程 圖;
[0016] 圖2B示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的從文檔中提取數(shù)據(jù)特征的方法200的流程 圖;
[0017] 圖2C示出了根據(jù)本發(fā)明又一個(gè)實(shí)施例的從文檔中提取數(shù)據(jù)特征的方法200的流程 圖;
[0018] 圖3A示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的從文檔中提取數(shù)據(jù)特征的設(shè)備300的示意 圖;
[0019] 圖3B示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的從文檔中提取數(shù)據(jù)特征的設(shè)備300的示意 圖;
[0020] 圖3C示出了根據(jù)本發(fā)明又一個(gè)實(shí)施例的從文檔中提取數(shù)據(jù)特征的設(shè)備300的示意 圖;
[0021] 圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的判斷第一文檔和第二文檔是否相關(guān)的判斷方 法400的流程圖;
[0022]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的判斷第一文檔和第二文檔是否相關(guān)的判斷設(shè) 備500的不意圖;
[0023]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的判斷可疑文檔是否包含敏感內(nèi)容的方法600 的流程圖;
[0024]圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的判斷可疑文檔是否包含敏感內(nèi)容的設(shè)備700 的不意圖;以及
[0025]圖8示例性地示出了分塊處理的示意圖。
【具體實(shí)施方式】
[0026] 下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi) 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0027] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的數(shù)據(jù)泄露防護(hù)系統(tǒng)100的示意圖。在企業(yè)內(nèi) 部,計(jì)算設(shè)備110之間通過(guò)局域網(wǎng)相連接,這里,計(jì)算設(shè)備110的組件可以包括但不限于:一 個(gè)或者多個(gè)處理器或者處理單元、系統(tǒng)存儲(chǔ)器、連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器和處理 單元)的總線。同時(shí)要注意的是,除了傳統(tǒng)的計(jì)算設(shè)備(例如,電腦),適于用來(lái)實(shí)現(xiàn)本發(fā)明實(shí) 施例的計(jì)算設(shè)備110還包括移動(dòng)電子設(shè)備,包括但不限于移動(dòng)電話、PDA、平板電腦等,以及 處于企業(yè)辦公環(huán)境中的服務(wù)器、打印機(jī)、⑶/DVD等。
[0028] 用于數(shù)據(jù)泄露防護(hù)的數(shù)據(jù)安全防護(hù)設(shè)備120布置在該局域網(wǎng)中,通過(guò)局域網(wǎng)與所 有計(jì)算設(shè)備11 〇相連接。如圖1所示,該防護(hù)設(shè)備120包括:文檔獲取設(shè)備122、敏感內(nèi)容判斷 設(shè)備700、控制策略獲取設(shè)備124、和控制設(shè)備126。
[0029] 文檔獲取設(shè)備122適于實(shí)時(shí)監(jiān)控處于局域網(wǎng)中的所有計(jì)算設(shè)備110,當(dāng)監(jiān)測(cè)到計(jì)算 設(shè)備110發(fā)送文檔時(shí),獲取計(jì)算設(shè)備110發(fā)送的文檔內(nèi)容。這里,文檔可以是即時(shí)通信的聊天 信息,和/或,即時(shí)通信傳輸?shù)膱D片/文檔。
[0030] 敏感內(nèi)容判斷設(shè)備700適于判斷獲取的文檔是否包含敏感內(nèi)容,對(duì)于該設(shè)備700會(huì) 在下文進(jìn)行詳細(xì)介紹。
[0031] 控制策略獲取設(shè)備124適于在判斷文檔是否包含敏感內(nèi)容的同時(shí),獲取與該文檔 相關(guān)的進(jìn)程對(duì)應(yīng)的控制策略??蛇x地,控制策略可以有:當(dāng)指定進(jìn)程為打印時(shí)采取禁止打印 的策略,當(dāng)指定進(jìn)程為發(fā)送文件時(shí)采取亂碼字符串的策略。
[0032] 控制設(shè)備126適于當(dāng)判斷可疑文檔包含敏感內(nèi)容時(shí),根據(jù)所獲取的控制策略對(duì)所 述文檔的操作行為進(jìn)行控制。例如,用標(biāo)識(shí)亂碼的字符串替換所述文檔中需要傳輸?shù)臄?shù)據(jù) 內(nèi)容中的敏感數(shù)據(jù)。
[0033] 基于上文對(duì)系統(tǒng)100的描述,在本系統(tǒng)中,如何準(zhǔn)確地匹配到敏感內(nèi)容是實(shí)現(xiàn)數(shù)據(jù) 安全防護(hù)的關(guān)鍵所在,也就是敏感內(nèi)容判斷設(shè)備700所要執(zhí)行的操作。簡(jiǎn)單來(lái)說(shuō),敏感內(nèi)容 判斷設(shè)備700中應(yīng)該包含有(但不限于)存儲(chǔ)模塊(用于存儲(chǔ)受保護(hù)文檔的所有數(shù)據(jù)特征)、 提取文檔數(shù)據(jù)特征的設(shè)備(用于提取可疑文檔中的數(shù)據(jù)特征)、文檔相關(guān)性判斷設(shè)備(用于 根據(jù)提取的數(shù)據(jù)特征判斷可疑文檔與存儲(chǔ)的受保護(hù)文檔之間是否相關(guān))、以及確定模塊(用 于依據(jù)相關(guān)性判斷結(jié)果確定可疑文檔是否包含敏感內(nèi)容)。
[0034] 下面將對(duì)上述各模塊的組成、以及它們執(zhí)行的流程進(jìn)行闡述。
[0035] 圖2A示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的從文檔中提取數(shù)據(jù)特征的方法200的流程 圖。如圖2A所示,該方法始于步驟S210。在步驟S210中,先對(duì)文檔進(jìn)行分詞處理,去掉停用 詞、標(biāo)點(diǎn)符號(hào)、回車換行等無(wú)用信息,以便獲得詞序列。根據(jù)本發(fā)明的實(shí)施例,在該方法200 中,采用基于詞典的分詞算法進(jìn)行分詞處理,例如MMSEG(A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm),MMSEG是中文分詞中一個(gè)常見(jiàn)的、基于詞典的分詞算法,具有簡(jiǎn)易直觀,實(shí)現(xiàn)不 復(fù)雜,運(yùn)行速度快的優(yōu)點(diǎn)。簡(jiǎn)單來(lái)講,該分詞算法包含"匹配算法"和"消除歧義規(guī)則",其中 匹配算法指如何根據(jù)詞典里保存的詞語(yǔ),對(duì)要切分的語(yǔ)句進(jìn)行匹配;"消除歧義規(guī)則"是說(shuō) 當(dāng)一句話可以這樣分,也可以那樣分的時(shí)候,用什么規(guī)則來(lái)判定使用哪種分法,比如"設(shè)施 和服務(wù)"這個(gè)短語(yǔ),可以分成"設(shè)施/和服/務(wù)",也可以分成"設(shè)施/和/服務(wù)",選擇哪個(gè)分詞 結(jié)果,就是"消除歧義規(guī)則"的功能。在MMSEG算法中,定義匹配算法有兩種:簡(jiǎn)單最大匹配和 復(fù)雜最大匹配;定義的消除歧義的規(guī)則有四種:最大匹配(Maximum matching,對(duì)應(yīng)上述兩 種匹配算法)、最大平均詞語(yǔ)長(zhǎng)度(Largest average word length)、詞語(yǔ)長(zhǎng)度的最小變化 率(Smallest variance of word lengths)、計(jì)算詞組中的所有單字詞詞頻的自然對(duì)數(shù),然 后將得到的值相加,取總和最大的詞組(Largest sum of degree of morphemic freedom of one-character words)〇
[0036] 例如對(duì)于如下的文檔A,經(jīng)過(guò)分詞處理后,得到文檔B。
[0037] 文檔 A:
[0038] "團(tuán)體人身意外傷害保險(xiǎn)實(shí)惠計(jì)劃
[0039]意外傷害:指遭受外來(lái)的、突發(fā)的、非本意的、非疾病的使身體受到傷害的客觀事 件。
[0040] 如交通事故被撞、發(fā)生火災(zāi)被燒傷、受到高空墜物打擊致傷、被歹徒襲擊受傷、液 化氣、煤氣爆炸、
[0041] 廚師被沸騰的油燙傷等等都屬意外傷害事件。
[0042] 推薦兩種組合方案,供單位結(jié)合實(shí)際情況選用:
[0043] 1、意外傷害保險(xiǎn):保險(xiǎn)費(fèi)150元/人(1、2級(jí)職業(yè))
[0044] (1)保險(xiǎn)期間:一年
[0045] (2)保險(xiǎn)責(zé)任:因意外傷害身故,給付10萬(wàn)元;或因意外傷害全殘、意外燒傷,給付 10萬(wàn)元(部分殘疾按比例給付);意外傷害醫(yī)療1萬(wàn)元。
[0046] 2、意外傷害及醫(yī)療保險(xiǎn):保險(xiǎn)費(fèi)100元/人(1、2級(jí)職業(yè))
[0047] (1)保險(xiǎn)期間:一年
[0048] (2)保險(xiǎn)責(zé)任:因意外傷害身故,給付5萬(wàn)元;或因意外傷害全殘或燒傷,給付5萬(wàn)元 (部分殘疾按比例給付);意外傷害醫(yī)療1萬(wàn)元。
[0049] 注:我公司可按貴單位的具體情況設(shè)計(jì)保險(xiǎn)方案
[0050] 出錢不多,保障不少;投保方便,理賠迅速。"
[0051] 文檔B(即分詞處理后得到的詞序列):
[0052] [團(tuán)體,人身,意外,傷害,保險(xiǎn),實(shí)惠,計(jì)劃,意外,傷害,指,遭受,外來(lái),突發(fā),非本 意,非,疾病,身體,傷害,客觀,事件,交通,事故,撞,發(fā)生,火災(zāi),燒傷,高空,墜,物,打擊,致 傷,歹徒,襲擊,受傷,液化氣,煤氣,爆炸,廚師,沸騰,油,燙傷,屬意,外,傷害,事件,推薦, 兩種,組合,方案,文案,供,單位,結(jié)合,實(shí)際情況,選用,意外,傷害,保險(xiǎn),保險(xiǎn)費(fèi),150元, 級(jí),職業(yè),保險(xiǎn),期間,一年,保險(xiǎn),責(zé)任,意外,傷害,身故,付,10,萬(wàn)元,或因,意外,傷害,全, 殘,意外,燒傷,付,10,萬(wàn)元,部分,殘疾,按比例,付,意外,傷害,醫(yī)療,1,萬(wàn)元,意外,傷害, 醫(yī)療保險(xiǎn),保險(xiǎn)費(fèi),100元,級(jí),職業(yè),保險(xiǎn),期間,一年,保險(xiǎn),責(zé)任,意外,傷害,身故,付,5,萬(wàn) 元,或因,意外,傷害,全,殘,燒傷,付,5,萬(wàn)元,部分,殘疾,按比例,付,意外,傷害,醫(yī)療,1, 萬(wàn)元,注,公司,可按,貴單位,具體,情況,設(shè)計(jì),保險(xiǎn),方案,文案,出錢,不多,保障,不少,投 保,方便,理賠,迅速]
[0053]應(yīng)當(dāng)注意的是,本發(fā)明不受限于具體的分詞方法,所有可以對(duì)文檔進(jìn)行分詞處理 以獲得該文檔中的有意義詞語(yǔ)的方法都在本發(fā)明的保護(hù)范圍之內(nèi)。
[0054]隨后在步驟S220中,對(duì)該詞序列中的每個(gè)詞語(yǔ),計(jì)算表征該詞語(yǔ)在本文檔中的重 要性的特征值,并基于特征值的大小從詞序列中選取第一預(yù)定數(shù)目個(gè)詞語(yǔ)。
[0055]根據(jù)本發(fā)明的一個(gè)實(shí)施例,采用TF-IDF值表征詞語(yǔ)在文檔中的重要性,計(jì)算TF-IDF值的過(guò)程如下:
[0056]①計(jì)算該詞語(yǔ)在該文檔中的出現(xiàn)頻率作為該詞語(yǔ)的詞頻TF: ΓΛΛΜ 抓I個(gè)同文檔Φ???見(jiàn)β勺?欠類女 _7] , ^文檔頓總次數(shù)^
[0058]②計(jì)算文檔庫(kù)中的文檔總數(shù)與文檔庫(kù)中包含該詞語(yǔ)的文檔數(shù)目之間的比例作為 該詞語(yǔ)的逆文檔頻率IDF: rnn.01 ,文檔庫(kù)的文檔總數(shù)、 _ 包含該詞的文檔數(shù)+1}
[0060] ③根據(jù)詞語(yǔ)的詞頻TF和逆文檔頻率IDF計(jì)算TF-IDF:
[0061] TF-IDF = TFX IDF
[0062]對(duì)于一個(gè)詞語(yǔ),其TF-IDF值越大,對(duì)該文檔的重要性就越大,因此根據(jù)TF-IDF值的 大小,選擇排在前面的第一預(yù)定數(shù)目個(gè)(例如,5個(gè))詞語(yǔ)作為這篇文檔的關(guān)鍵詞。
[0063]傳統(tǒng)的DLP系統(tǒng)中,主要是通過(guò)人工設(shè)置關(guān)鍵詞的方式來(lái)提取關(guān)鍵詞的特征,顯然 這種方法費(fèi)時(shí)費(fèi)力,本方案通過(guò)計(jì)算TF-IDF值自動(dòng)選取文檔的關(guān)鍵詞,在節(jié)省人力的同時(shí) 還保證了提取的準(zhǔn)確度。
[0064] 隨后在步驟S230中,對(duì)于所選擇的第一預(yù)定數(shù)目個(gè)詞語(yǔ)中的每個(gè)詞語(yǔ),計(jì)算該詞 語(yǔ)對(duì)應(yīng)的數(shù)據(jù)特征串,并基于數(shù)據(jù)特征串來(lái)構(gòu)造該文檔的第一數(shù)據(jù)指紋來(lái)作為文檔的數(shù)據(jù) 特征。具體地,對(duì)于所選取的每個(gè)關(guān)鍵詞,通過(guò)普通哈希算法將其散列成第五預(yù)定長(zhǎng)度的數(shù) 字串作為該詞語(yǔ)對(duì)應(yīng)的數(shù)據(jù)特征串,然后組合所獲得的數(shù)據(jù)特征串以獲得第一數(shù)據(jù)指紋來(lái) 作為該文檔的數(shù)據(jù)特征。
[0065] 如下示出了對(duì)于一個(gè)文檔提取關(guān)鍵詞生成第一數(shù)據(jù)指紋的示例:
[0066] doc_size:2278
[0067] word_num:284
[0068] keyword_num: 5 //第一預(yù)定數(shù)目
[0069] word:傷害 word_hash:4229635582offset: 18
[0070] word:意外word_hash:424898618offset: 12 [0071 ] word:保險(xiǎn) word_hash: 802497295offset: 24
[0072] word:給付word_hash:3684743136offset: 1594
[0073] word:文案 word_hash: 1412961926offset: 1051
[0074] 對(duì)于一篇2278字節(jié),含有284個(gè)詞語(yǔ)的文檔生成5個(gè)關(guān)鍵詞(傷害、意外、保險(xiǎn)、給 付、文案),再通過(guò)普通哈希算法將這5個(gè)關(guān)鍵詞分別生成1個(gè)數(shù)據(jù)特征串,在本實(shí)施例中,第 五預(yù)定長(zhǎng)度的數(shù)據(jù)特征串是32位無(wú)符號(hào)整型數(shù)字,將這5個(gè)數(shù)據(jù)特征串連起來(lái)就是該文檔 的第一數(shù)據(jù)指紋。根據(jù)一種實(shí)現(xiàn)方式,第一數(shù)據(jù)指紋中還包括這5個(gè)關(guān)鍵詞中每個(gè)詞語(yǔ)在文 檔中的偏移位置信息offset ,offset用于記錄關(guān)鍵詞在文檔中第一次出現(xiàn)的位置,記錄 offset主要用于敏感數(shù)據(jù)(也就是關(guān)鍵詞)的溯源,當(dāng)發(fā)現(xiàn)敏感數(shù)據(jù)泄露后向用戶發(fā)出的告 警可以攜帶off set信息。當(dāng)然,為了節(jié)省內(nèi)存,第一數(shù)據(jù)指紋也可以不包含off set信息,本 發(fā)明對(duì)此并不做限制。
[0075] 為了保證特征提取得足夠精確,根據(jù)本發(fā)明的實(shí)施方式,除了提取文檔的第一數(shù) 據(jù)指紋,還可以提取第二數(shù)據(jù)指紋作為文檔的數(shù)據(jù)特征,如圖2B示出了根據(jù)本發(fā)明另一個(gè) 實(shí)施方式的、從文檔中提取第二數(shù)據(jù)指紋的方法的流程圖,該方法的步驟如下:
[0076] 首先在步驟S240中,按照順序?qū)ξ臋n中的數(shù)據(jù)進(jìn)行分塊,以得到一個(gè)或者多個(gè)第 一預(yù)定長(zhǎng)度的數(shù)據(jù)塊,其中相鄰數(shù)據(jù)塊之間相互重疊第二預(yù)定長(zhǎng)度。換言之,將一個(gè)第一預(yù) 定長(zhǎng)度大小的滑動(dòng)窗口沿文檔滑動(dòng),每次滑動(dòng)第二預(yù)定長(zhǎng)度的位移,這樣,就將文檔劃分成 了多個(gè)第一預(yù)定長(zhǎng)度大小的數(shù)據(jù)塊。根據(jù)本發(fā)明的一個(gè)實(shí)施例,設(shè)置第一預(yù)定長(zhǎng)度是512字 節(jié),第二預(yù)定長(zhǎng)度是256字節(jié)。
[0077] 然后在步驟S250中,對(duì)于所得到的一個(gè)或者多個(gè)數(shù)據(jù)塊,基于每個(gè)數(shù)據(jù)塊中的數(shù) 據(jù)內(nèi)容來(lái)計(jì)算該數(shù)據(jù)塊的數(shù)據(jù)特征串,可選地,利用局部敏感哈希(LSH)算法對(duì)每個(gè)數(shù)據(jù)塊 的數(shù)據(jù)內(nèi)容生成一個(gè)數(shù)據(jù)簽名。
[0078] 在步驟S260中,再組合每個(gè)數(shù)據(jù)塊的數(shù)據(jù)特征串來(lái)構(gòu)造該文檔的第二數(shù)據(jù)指紋以 作為該文檔的數(shù)據(jù)特征。
[0079] 如果是對(duì)整個(gè)文檔生成數(shù)據(jù)指紋,當(dāng)文檔很大時(shí),算法的性能會(huì)嚴(yán)重下降并且準(zhǔn) 確性也會(huì)降低,所以本方案采用先對(duì)文檔進(jìn)行數(shù)據(jù)分塊,再提取每個(gè)分塊的數(shù)據(jù)特征作為 整個(gè)文檔的數(shù)據(jù)特征。同時(shí),常用的哈希算法如MD5,如果2個(gè)數(shù)據(jù)簽名相等,則表明原始數(shù) 據(jù)在一定概率下是相等的,但是如果不相等,除了表明原始數(shù)據(jù)是不同的外,不提供任何信 息,傳統(tǒng)的哈希算法顯然不能很好地防御相似數(shù)據(jù)的泄漏,因此本方法中采用的是局部敏 感哈希算法,LSH算法的優(yōu)點(diǎn)在于,對(duì)于相似的數(shù)據(jù)內(nèi)容能產(chǎn)生相同或者相似的數(shù)據(jù)簽名, 能夠提升后續(xù)特征匹配的效果。
[0080] 在步驟S250中計(jì)算每個(gè)數(shù)據(jù)塊的數(shù)據(jù)特征串的步驟又可以細(xì)分為如下幾步:
[0081] 先依次選擇數(shù)據(jù)塊中第六預(yù)定長(zhǎng)度的數(shù)據(jù)子塊,其中相鄰數(shù)據(jù)子塊之間相互重疊 第七預(yù)定長(zhǎng)度。同樣地,在實(shí)現(xiàn)中,可以用一個(gè)第六預(yù)定長(zhǎng)度(例如,5字節(jié))大小的滑動(dòng)窗口 沿著數(shù)據(jù)塊滑動(dòng),每次滑動(dòng)第七預(yù)定長(zhǎng)度(如1個(gè)字節(jié))大小的位移。如圖8所示,其中Dl代表 了第六預(yù)定長(zhǎng)度,D2代表了第七預(yù)定長(zhǎng)度,每?jī)蓚€(gè)相鄰的Dl之間重合有一個(gè)D2。
[0082]再根據(jù)數(shù)據(jù)子塊的內(nèi)容計(jì)算第八預(yù)定長(zhǎng)度(如,32字節(jié),即256位)的特征值列表。 [0083]最后基于所有數(shù)據(jù)子塊的特征值列表以構(gòu)造該數(shù)據(jù)塊的數(shù)據(jù)特征串。
[0084] 具體地,根據(jù)數(shù)據(jù)子塊的內(nèi)容計(jì)算第八預(yù)定長(zhǎng)度的特征值列表的步驟如下:
[0085] 1)提取由數(shù)據(jù)子塊中的部分內(nèi)容構(gòu)成的一個(gè)或者多個(gè)內(nèi)容子集,換句話說(shuō),提取 每個(gè)數(shù)據(jù)子塊中的所有三元組;
[0086] 2)再利用哈希算法將每個(gè)三元組散列到(0,256);
[0087] 3)根據(jù)與每個(gè)內(nèi)容子集對(duì)應(yīng)的值,設(shè)置特征值列表中的相應(yīng)值,例如對(duì)于一個(gè)三 元組igr,假設(shè)hash值為15,那么在特征值列表中的第15個(gè)位置處累加1。
[0088] 當(dāng)將一個(gè)數(shù)據(jù)塊中的所有的三元組都計(jì)算完時(shí),該特征值列表中的每個(gè)位置都會(huì) 有一個(gè)累加值,計(jì)算所有累加值的平均值作為閾值,若某個(gè)位置對(duì)應(yīng)處的累加值(也就是特 征值列表中某個(gè)單元的值)大于該平均值,則該單元值設(shè)為1,相反就設(shè)為〇,通過(guò)這樣二元 化的處理,得到一個(gè)第八預(yù)定長(zhǎng)度的二值化的特征值列表,將這個(gè)第八預(yù)定長(zhǎng)度的特征值 列表轉(zhuǎn)化為第八預(yù)定長(zhǎng)度的數(shù)字串,以作為該數(shù)據(jù)塊的數(shù)據(jù)特征串。
[0089] 如下示出了對(duì)于一個(gè)文檔生成第二數(shù)據(jù)指紋的示例:
[0090] doc_size:2278
[0091 ] sig_num:9 //數(shù)據(jù)塊個(gè)數(shù)
[0092] bin_block_size:512 //第一預(yù)定長(zhǎng)度
[0093] bin_step_size:256 //第二預(yù)定長(zhǎng)度
[0094] threshold: 75 //執(zhí)行LSH算法時(shí)的閾值
[0095] LSH:4f2745a4400f311cab5843643a9771299c9c5f4d81el669ce3554e4d75fed43a offset:0
[0096] LSH:ef2205c4808533748bda836571976d2196b81dec8dal54d6aad5366dfcb9d6d9 〇 ffset:256
[0097] LSH:ade326d490a64b77bbd349f0c0bced2096f874e9ad42dc7d24bef279ea05c5d9 〇 ffset:512
[0098] LSH:3b276695d8c63bdfebl340c0c450c0c096ea6e79cdc2bc596ce7e35cea28e7be offset:768
[0099] LSH:2faded8472873999e9154bcc684270ec92a67a7cc9c02cd8eae742dc2a58c21e offset:1024
[0100] LSH:afalf584d0a733a7a3559bc8530b78688aa473fclbe06df5aa23469clb78c28a offset:1280
[0101] LSH:8fa4f5cd80e533b6abcl964b520f306088b073f081616df52803461f2af9c78a offset:1536
[0102] LSH:lfa56499c0a7333ca05046cl520420608a9577a093fl2d586all4c3fl2e8e3ce offset:1792
[0103] LSH:180d2cba6027725c0010468030c08142c857e7808a91275e2a51097b9300a34e offset:2048
[0104] 在本實(shí)施例中,對(duì)于一篇2278字節(jié)的文檔,第一預(yù)定長(zhǎng)度是512字節(jié),第二預(yù)定長(zhǎng) 度是256字節(jié),生成了9個(gè)數(shù)據(jù)塊,利用LSH算法分別生成9個(gè)數(shù)據(jù)塊的數(shù)據(jù)特征串(設(shè)置第六 預(yù)定長(zhǎng)度是5字節(jié),第七預(yù)定長(zhǎng)度是1字節(jié),第八預(yù)定長(zhǎng)度是32字節(jié)),將這9個(gè)數(shù)據(jù)特征串連 起來(lái)就是該文檔的第二數(shù)據(jù)指紋。同第一數(shù)據(jù)指紋中所描述的那樣,第二數(shù)據(jù)指紋也可以 包括數(shù)據(jù)塊在文檔中的偏移位置信息offset。
[0105] 本發(fā)明還提供了一種提取文檔數(shù)據(jù)指紋的方法,即提取文檔的詞塊特征作為第三 數(shù)據(jù)指紋,如圖2C所示,詞塊特征與圖2B示出的數(shù)據(jù)塊特征的提取流程較為類似,但是對(duì)文 檔的分塊方式不同。第三數(shù)據(jù)指紋的提取步驟包括:
[0106] 在步驟S210中先對(duì)文檔進(jìn)行分詞處理得到詞序列。
[0107]隨后在步驟S270中,按照順序?qū)ξ臋n中的詞序列進(jìn)行分塊,以得到一個(gè)或者多個(gè) 第三預(yù)定長(zhǎng)度的詞塊,其中相鄰詞塊之間相互重疊第四預(yù)定長(zhǎng)度。也就是說(shuō),將一個(gè)第三預(yù) 定長(zhǎng)度大小的滑動(dòng)窗口沿詞序列滑動(dòng),每次滑動(dòng)第四預(yù)定長(zhǎng)度的位移,這樣,就將詞序列劃 分成了多個(gè)第三預(yù)定長(zhǎng)度大小的詞塊。根據(jù)本發(fā)明的一個(gè)實(shí)施例,設(shè)置第三預(yù)定長(zhǎng)度是64 個(gè)詞語(yǔ),第四預(yù)定長(zhǎng)度是32個(gè)詞語(yǔ)。
[0108] 例如,對(duì)上述文檔B的詞序列進(jìn)行分塊操作,得到如下4個(gè)詞塊:
[0109] 詞塊1:[團(tuán)體人身意外傷害保險(xiǎn)實(shí)惠計(jì)劃意外傷害指遭受外來(lái)突發(fā)非本意非疾病 身體傷害客觀事件交通事故撞發(fā)生火災(zāi)燒傷高空墜物打擊致傷歹徒襲擊受傷液化氣煤氣 爆炸廚師沸騰油燙傷屬意外傷害事件推薦兩種組合方案文案供單位結(jié)合實(shí)際情況選用意 外傷害保險(xiǎn)保險(xiǎn)費(fèi)150元級(jí)職業(yè)保險(xiǎn)期間]
[0110] 詞塊2:[襲擊受傷液化氣煤氣爆炸廚師沸騰油燙傷屬意外傷害事件推薦兩種組合 方案文案供單位結(jié)合實(shí)際情況選用意外傷害保險(xiǎn)保險(xiǎn)費(fèi)150元級(jí)職業(yè)保險(xiǎn)期間一年保險(xiǎn)責(zé) 任意外傷害身故付10萬(wàn)元或因意外傷害全殘意外燒傷付10萬(wàn)元部分殘疾按比例付意外傷 害醫(yī)療1萬(wàn)元意外傷害醫(yī)療保險(xiǎn)保險(xiǎn)費(fèi)]
[0111 ]詞塊3:[-年保險(xiǎn)責(zé)任意外傷害身故付10萬(wàn)元或因意外傷害全殘意外燒傷付10萬(wàn) 元部分殘疾按比例付意外傷害醫(yī)療1萬(wàn)元意外傷害醫(yī)療保險(xiǎn)保險(xiǎn)費(fèi)100元級(jí)職業(yè)保險(xiǎn)期間 一年保險(xiǎn)責(zé)任意外傷害身故付5萬(wàn)元或因意外傷害全殘燒傷付5萬(wàn)元部分殘疾按比例付意 外傷害醫(yī)療1萬(wàn)元]
[0112]詞塊4:[萬(wàn)元部分殘疾按比例付意外傷害醫(yī)療1萬(wàn)元意外傷害醫(yī)療保險(xiǎn)保險(xiǎn)費(fèi)100 元級(jí)職業(yè)保險(xiǎn)期間一年保險(xiǎn)責(zé)任意外傷害身故付5萬(wàn)元或因意外傷害全殘燒傷付5萬(wàn)元部 分殘疾按比例付意外傷害醫(yī)療1萬(wàn)元注公司可按貴單位具體情況設(shè)計(jì)保險(xiǎn)方案文案出錢不 多保障不少投保方便理賠迅速]
[0113]隨后在步驟S280中,對(duì)于所得到的一個(gè)或者多個(gè)詞塊,基于每個(gè)詞塊中的數(shù)據(jù)內(nèi) 容來(lái)計(jì)算該詞塊的數(shù)據(jù)特征串。
[0114] 可選地,利用局部敏感哈希(LSH)算法對(duì)每個(gè)詞塊的數(shù)據(jù)內(nèi)容生成一個(gè)數(shù)據(jù)簽名 作為該詞塊的數(shù)據(jù)特征串。根據(jù)本發(fā)明的一個(gè)實(shí)施例,可以采用相同的LSH算法處理詞塊和 數(shù)據(jù)塊,以得到數(shù)據(jù)簽名。故計(jì)算每個(gè)詞塊的數(shù)據(jù)特征串的步驟可以參考上文中計(jì)算每個(gè) 數(shù)據(jù)塊的數(shù)據(jù)特征串的步驟,此處不再贅述。
[0115] 若對(duì)上面的4個(gè)詞塊進(jìn)行LSH算法生成的4個(gè)數(shù)據(jù)特征串分別為:
[0116] LSHl:3f26258da0a5310d6b5203845ab0784eb29acff9814564946ce458fc086ac2a8
[0117] LSH2:2f2465c480a3312f215d80ce53863000a0ad6b78a3616595ae4c56bc00e9c2ba
[0118] LSH3:0fa077e500a531bfa95dd08e53862020a0896b58a362659d2a484ebf00e9cbaa
[0119] LSH4:0fa467edl0a5331da959d40e53802000b0897310al616d592a4844bb02a9c7ea
[0120] 隨后在步驟S290中,組合每個(gè)詞塊的數(shù)據(jù)特征串來(lái)構(gòu)造該文檔的第三數(shù)據(jù)指紋以 作為該文檔的數(shù)據(jù)特征。
[0121 ]如下示出了對(duì)于一個(gè)文檔生成第二數(shù)據(jù)指紋的示例:
[0122] doc-size:2278
[0123] word_num: 284 //詞語(yǔ)個(gè)數(shù)
[0124] sig_num:8 //詞塊個(gè)數(shù)
[0125] word_block_size:64 //第三預(yù)定長(zhǎng)度
[0126] word_step_size: 32 //第四預(yù)定長(zhǎng)度
[0127] LSH:bf32258f90e5390da35083045a83630ab6be5fe9al0577102dc40acd286bd2a8 〇 ffset:0
[0128] LSH:0f2205c490d01f2fa3d000904a87630896f83fa0al47d79424e446adfc5b50aa offset:254
[0129] LSH:b92355848cfa3b6fab5744fl4c92ad4892d86e89al43f4bee4a852386e09e2e8 〇 ffset:554
[0130] LSH:3baf75807cda31ede317c6c4745321ccd2966efd89422598ec62f3dca2f9e39a offset:840
[0131] LSH:2fafe588e0bl31ade3559a46f31b30c4929e6b7c89d2671cae66f2dc02e9caca offset:1080
[0132] LSH:2f2475cc40a731bd2155d0ce53a83000b88d7b5883d06594aa4244be04ebe2ca offset:1326
[0133] LSH:0fa467cd00a433bcaldld48f53a42021b889735481e241bd2a4844bf8ce9c78a offset:1594
[0134] LSH:07af6fbde0a5317c61dl544a02802142f29b730c93602cbe2e4ae83b83c9c7ee offset:1797
[0135] 對(duì)于一篇2278字節(jié)、含有284個(gè)詞語(yǔ)的文檔,利用LSH算法分別生成8個(gè)詞塊的數(shù)據(jù) 特征串(設(shè)置第六預(yù)定長(zhǎng)度是5字節(jié),第七預(yù)定長(zhǎng)度是1字節(jié),第八預(yù)定長(zhǎng)度是32字節(jié)),將這 8個(gè)數(shù)據(jù)特征串連起來(lái)就是該文檔的第三數(shù)據(jù)指紋。同第一、二數(shù)據(jù)指紋中所描述的那樣, 第三數(shù)據(jù)指紋也可以包括詞塊在文檔中的偏移位置信息offset。
[0136] 應(yīng)當(dāng)注意的是,在方法200執(zhí)行的過(guò)程中,可以根據(jù)文檔的重要程度設(shè)置第一預(yù)定 數(shù)目、第一預(yù)定長(zhǎng)度、第二預(yù)定長(zhǎng)度、第三預(yù)定長(zhǎng)度和第四預(yù)定長(zhǎng)度,以區(qū)分特征提取的精 細(xì)程度。也就是說(shuō),文檔的重要程度越高,提取的關(guān)鍵詞數(shù)目(第一預(yù)定數(shù)目)就越多,分塊 時(shí)每個(gè)分塊的大小(第一預(yù)定長(zhǎng)度、第三預(yù)定長(zhǎng)度)和位移的步進(jìn)(第二預(yù)定長(zhǎng)度、第四預(yù)定 長(zhǎng)度)就越小。
[0137] 從文檔中提取數(shù)據(jù)特征的步驟至此結(jié)束,通過(guò)方法200,從文檔中提取了第一數(shù)據(jù) 指紋、第二數(shù)據(jù)指紋和第三數(shù)據(jù)指紋作為文檔的數(shù)據(jù)特征。相應(yīng)地,圖3A到3C示出了根據(jù)本 發(fā)明實(shí)施例用于實(shí)現(xiàn)方法200的從文檔中提取第一、第二、第三數(shù)據(jù)特征的設(shè)備300的示意 圖。
[0138] 如圖3A所示,特征提取設(shè)備300包括:分詞模塊310、計(jì)算模塊320、選取模塊330、和 特征提取模塊340。
[0139] 分詞模塊310適于對(duì)文檔進(jìn)行分詞處理,以獲得詞序列。根據(jù)本發(fā)明的實(shí)施例,采 用基于詞典的分詞算法(例如,MMSEG)對(duì)文檔完成分詞處理。
[0140] 計(jì)算模塊320適于對(duì)詞序列中的每個(gè)詞語(yǔ),計(jì)算表征該詞語(yǔ)在文檔中的重要性的 特征值(例如,TF-IDF值)。
[0141] 選取模塊330適于基于特征值從詞序列中選取第一預(yù)定數(shù)目個(gè)詞語(yǔ),例如按特征 值從高到低的順序選取5個(gè)詞語(yǔ),再交由與之耦接的計(jì)算模塊320,由其計(jì)算所選取的每個(gè) 詞語(yǔ)對(duì)應(yīng)的數(shù)據(jù)特征串,可選地,計(jì)算模塊320適于通過(guò)普通哈希算法將每個(gè)詞語(yǔ)散列成第 五預(yù)定長(zhǎng)度的數(shù)字串作為該詞語(yǔ)對(duì)應(yīng)的數(shù)據(jù)特征串。
[0142] 特征提取模塊340適于基于計(jì)算得到的數(shù)據(jù)特征串來(lái)構(gòu)造文檔的第一數(shù)據(jù)指紋來(lái) 作為所述文檔的數(shù)據(jù)特征,可選地,特征提取模塊340適于組合所獲得的數(shù)據(jù)特征串以獲得 第一數(shù)據(jù)指紋來(lái)作為該文檔的數(shù)據(jù)特征。
[0143] 其中,分詞算法和表征詞語(yǔ)在文檔中的重要性的特征值(以TF-IDF值為例)的計(jì) 算,在基于圖2A的步驟描述中已經(jīng)詳細(xì)公開(kāi),此處不再贅述。
[0144] 根據(jù)一種實(shí)現(xiàn)方式,特征提取設(shè)備300還適于提取文檔的第二數(shù)據(jù)指紋,如圖3B所 示。此時(shí),特征提取設(shè)備300除了計(jì)算模塊320和特征提取模塊340外,還包括分塊模塊350, 分塊模塊350適于按照順序?qū)ξ臋n中的數(shù)據(jù)進(jìn)行分塊,以得到一個(gè)或者多個(gè)第一預(yù)定長(zhǎng)度 的數(shù)據(jù)塊,其中相鄰數(shù)據(jù)塊之間相互重疊第二預(yù)定長(zhǎng)度。
[0145] 同時(shí),計(jì)算模塊320還適于對(duì)所得到的一個(gè)或者多個(gè)數(shù)據(jù)塊,基于每個(gè)數(shù)據(jù)塊中的 數(shù)據(jù)內(nèi)容來(lái)計(jì)算該數(shù)據(jù)塊的數(shù)據(jù)特征串。特征提取模塊340還適于組合每個(gè)數(shù)據(jù)塊的數(shù)據(jù) 特征串來(lái)構(gòu)造該文檔的第二數(shù)據(jù)指紋以作為該文檔的數(shù)據(jù)特征。
[0146] 參照上文關(guān)于計(jì)算每個(gè)數(shù)據(jù)塊的數(shù)據(jù)特征串的步驟描述,計(jì)算模塊320還包括分 塊單元322和計(jì)算單元324。
[0147] 分塊單元322適于依次選擇數(shù)據(jù)塊中第六預(yù)定長(zhǎng)度的數(shù)據(jù)子塊,其中相鄰數(shù)據(jù)子 塊之間相互重疊第七預(yù)定長(zhǎng)度。
[0148] 計(jì)算單元324適于根據(jù)所述數(shù)據(jù)子塊的內(nèi)容計(jì)算第八預(yù)定長(zhǎng)度的特征值列表。可 選地,計(jì)算單元中可以包括提取子單元,適于提取數(shù)據(jù)子塊中的部分內(nèi)容構(gòu)成的一個(gè)或者 多個(gè)內(nèi)容子集。再由計(jì)算單元324利用哈希算法將每個(gè)內(nèi)容子集散列為在0到第八預(yù)定長(zhǎng)度 之間的一個(gè)值,根據(jù)與每個(gè)內(nèi)容子集對(duì)應(yīng)的值,設(shè)置第八預(yù)定長(zhǎng)度特征值列表中的相應(yīng)值。 計(jì)算單元324還可以包括計(jì)數(shù)子單元,適于通過(guò)將每個(gè)數(shù)據(jù)子塊相對(duì)應(yīng)的特征值列表中相 應(yīng)位置的值進(jìn)行疊加而進(jìn)行合并,以獲得對(duì)應(yīng)該數(shù)據(jù)塊的特征值列表、以及二元化子單元, 適于對(duì)該特征值列表中每個(gè)單元的值進(jìn)行二元化處理,而獲得每個(gè)單元值為〇或者1的特征 值列表。計(jì)算單元324還適于將這個(gè)第八預(yù)定長(zhǎng)度的特征值列表轉(zhuǎn)化為第八預(yù)定長(zhǎng)度位的 數(shù)字串,以作為該數(shù)據(jù)塊的數(shù)據(jù)特征串。
[0149] 其中,二元化子單元適于計(jì)算特征值列表中所有單元值的平均值、以及比較每個(gè) 單元的值與該平均值的大小,若某個(gè)單元的值大于平均值,則該單元的值為1,若某個(gè)單元 的值不大于平均值,則該單元的值為〇。
[0150] 根據(jù)一個(gè)實(shí)施例,選取第一預(yù)定長(zhǎng)度為512字節(jié),第二預(yù)定長(zhǎng)度為256字節(jié),第六預(yù) 定長(zhǎng)度是5字節(jié),第七預(yù)定長(zhǎng)度是1字節(jié),第八預(yù)定長(zhǎng)度是32字節(jié)。
[0151]根據(jù)一種實(shí)現(xiàn)方式,特征提取設(shè)備300還適于提取文檔的第三數(shù)據(jù)指紋,如圖3C所 示。此時(shí),特征提取設(shè)備300包含分詞模塊310、分塊模塊350、計(jì)算模塊320和特征提取模塊 340〇
[0152] 分詞模塊310同圖3Α中所描述的,適于對(duì)文檔進(jìn)行分詞處理,以獲得詞序列。
[0153] 分塊模塊350還適于按照順序?qū)ξ臋n中的詞序列進(jìn)行分塊,以得到一個(gè)或者多個(gè) 第三預(yù)定長(zhǎng)度的詞塊,其中相鄰詞塊之間相互重疊第四預(yù)定長(zhǎng)度。同時(shí),計(jì)算模塊320還適 于對(duì)所得到的一個(gè)或者多個(gè)詞塊,基于每個(gè)詞塊中的數(shù)據(jù)內(nèi)容來(lái)計(jì)算該詞塊的數(shù)據(jù)特征 串。特征提取模塊340還適于組合每個(gè)詞塊的數(shù)據(jù)特征串來(lái)構(gòu)造該文檔的第三數(shù)據(jù)指紋以 作為該文檔的數(shù)據(jù)特征。
[0154]參照上文關(guān)于計(jì)算每個(gè)詞塊的數(shù)據(jù)特征串的步驟描述,計(jì)算模塊320除了包含分 塊單元322和計(jì)算單元324外,還包括字符轉(zhuǎn)換單元326。
[0155] 字符轉(zhuǎn)換單元326適于將每個(gè)第三預(yù)定長(zhǎng)度的詞塊中的詞語(yǔ)轉(zhuǎn)換為字符,得到相 應(yīng)的字符串作為詞塊。分塊單元322還適于依次選擇詞塊中第六預(yù)定長(zhǎng)度的子詞塊,其中相 鄰子詞塊之間相互重疊第七預(yù)定長(zhǎng)度。計(jì)算單元324還適于根據(jù)子詞塊的內(nèi)容計(jì)算第八預(yù) 定長(zhǎng)度的特征值列表??蛇x地,計(jì)算單元324采用與數(shù)據(jù)塊同樣的LSH算法計(jì)算詞塊的數(shù)據(jù) 特征串,此處不再贅述。
[0156] 同方法200中所描述的一樣,可以根據(jù)文檔的重要程度設(shè)置第一預(yù)定數(shù)目、第一預(yù) 定長(zhǎng)度、第二預(yù)定長(zhǎng)度、第三預(yù)定長(zhǎng)度和第四預(yù)定長(zhǎng)度,以區(qū)分特征提取的精細(xì)程度。也就 是說(shuō),文檔的重要程度越高,提取的關(guān)鍵詞數(shù)目(第一預(yù)定數(shù)目)就越多,分塊時(shí)每個(gè)分塊的 大小(第一預(yù)定長(zhǎng)度、第三預(yù)定長(zhǎng)度)和位移的步進(jìn)(第二預(yù)定長(zhǎng)度、第四預(yù)定長(zhǎng)度)就越小。
[0157] 可選地,特征提取模塊340還適于提取第一預(yù)定數(shù)目個(gè)詞語(yǔ)中每個(gè)詞語(yǔ)在文檔中 的偏移位置信息,以包含在第一數(shù)據(jù)指紋中,以及提取數(shù)據(jù)塊/詞塊在文檔中的偏移位置信 息,以包含在第二數(shù)據(jù)指紋/第三數(shù)據(jù)指紋中。
[0158] 綜上,本方案采用自動(dòng)提取文檔關(guān)鍵詞、以及提取數(shù)據(jù)塊、詞塊的數(shù)據(jù)指紋的方 式,來(lái)提取文檔的數(shù)據(jù)特征。一方面,通過(guò)計(jì)算表征詞語(yǔ)重要性的特征值來(lái)選取出文檔的關(guān) 鍵詞,這樣就不用依靠人工設(shè)置關(guān)鍵詞;另一方面,將文檔進(jìn)行分塊處理,基于數(shù)據(jù)塊和詞 塊分別計(jì)算每個(gè)分塊的數(shù)據(jù)指紋,并且采用局部敏感哈希(LSH)算法來(lái)生成數(shù)據(jù)指紋,能夠 有效地防止相似數(shù)據(jù)的泄露,并且當(dāng)文檔很大時(shí),也能保證特征提取的準(zhǔn)確性。
[0159] 圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的判斷第一文檔和第二文檔是否相關(guān)的判斷方 法400的流程圖。
[0160]如圖4所示,該方法始于步驟S410,對(duì)第一文檔執(zhí)行方法200的步驟,提取文檔的數(shù) 據(jù)特征得到第一特征集合,其中所述第一特征集合包括:第一文檔的第一數(shù)據(jù)指紋、第二數(shù) 據(jù)指紋和第三數(shù)據(jù)指紋中的至少一個(gè)。
[0161]隨后在步驟S420中,對(duì)第二文檔同樣執(zhí)行方法200的步驟,提取文檔的數(shù)據(jù)特征得 到第二特征集合,其中第二特征集合包括:第二文檔的第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋和第三 數(shù)據(jù)指紋中的至少一個(gè)。
[0162] 隨后在步驟S430中,計(jì)算第一特征集合與第二特征集合的相似度,若相似度達(dá)到 預(yù)定范圍,則認(rèn)為該第一文檔和第二文檔相關(guān)。
[0163] 步驟S430中對(duì)特征進(jìn)行匹配、計(jì)算文檔間相似度的過(guò)程又可以分為如下3種。
[0164] ?第一種是單一匹配:
[0165] 計(jì)算第一特征集合中每個(gè)數(shù)據(jù)指紋的數(shù)據(jù)特征串與第二特征集合中對(duì)應(yīng)數(shù)據(jù)指 紋的數(shù)據(jù)特征串的漢明距離。
[0166] 其中,漢明距離(Hamming distance)指兩個(gè)(相同長(zhǎng)度)數(shù)據(jù)特征串對(duì)應(yīng)二進(jìn)制位 不同的數(shù)量。以d(x,y)表示兩個(gè)數(shù)據(jù)特征串x,y之間的漢明距離,對(duì)兩個(gè)數(shù)據(jù)特征串進(jìn)行異 或運(yùn)算,并統(tǒng)計(jì)結(jié)果為1的個(gè)數(shù),得到的值就是漢明距離,當(dāng)漢明距離大于第一閥值時(shí),就判 定這兩個(gè)數(shù)據(jù)特征串相似。例如:
[0167] 1011101與1001001之間的漢明距離是2;
[0168] "t one d"與"r 〇 s e s"之間的漢明距離是3 〇
[0169] 對(duì)于單一匹配,計(jì)算第一文檔的第二數(shù)據(jù)指紋或第三數(shù)據(jù)指紋中的數(shù)據(jù)特征串與 第二文檔的對(duì)應(yīng)第二數(shù)據(jù)指紋或第三數(shù)據(jù)指紋中的數(shù)據(jù)特征串的漢明距離,當(dāng)?shù)诙?shù)據(jù)指 紋或第三數(shù)據(jù)指紋中的任一個(gè)數(shù)據(jù)特征串被判定為相似時(shí),則認(rèn)為第一特征集合與第二特 征集合的相似度達(dá)到預(yù)定范圍。也就是說(shuō),只要有任何一個(gè)數(shù)據(jù)塊或者詞塊相似,文檔都有 泄漏數(shù)據(jù)的嫌疑。
[0170]以下是對(duì)兩個(gè)文檔的第二數(shù)據(jù)指紋做單一匹配并返回是否相關(guān)的偽代碼,分別用 signature_base和signature_cmp代表第一特征集合和第二特征集合,其中nilsima_base 和ni I s ima_cmp分別表示兩個(gè)文檔(也就是兩個(gè)特征集合)的第二數(shù)據(jù)指紋中的數(shù)據(jù)特征 串:
[0171] for nilsima_base in signature_base
[0172] for nilsima_cmp in signature_cmp
[0173] ham_dist = hamming_distance(nilsima_base,nilsima_cmp)
[0174] if(ham_dist>threshold)
[0175] {
[0176] return I
[0177] break
[0178] }
[0179] return 0
[0180] ?第二種是基準(zhǔn)匹配:
[0181] 同樣先計(jì)算第一特征集合中每個(gè)數(shù)據(jù)指紋的數(shù)據(jù)特征串與第二特征集合中對(duì)應(yīng) 數(shù)據(jù)指紋的數(shù)據(jù)特征串的漢明距離,以判定兩個(gè)數(shù)據(jù)特征串是否相似;然后統(tǒng)計(jì)第一特征 集合中與第二特征集合相似的數(shù)據(jù)特征串的數(shù)目,計(jì)算該數(shù)目占第一特征集合中數(shù)據(jù)特征 串總數(shù)目的比值,若該比值達(dá)到第二閾值,則認(rèn)為第一特征集合與第二特征集合的相似度 達(dá)到預(yù)定范圍。
[0182] 以下是對(duì)兩個(gè)文檔的第一數(shù)據(jù)指紋做基準(zhǔn)匹配并返回是否相關(guān)的偽代碼,W〇rd_ hash_base和word_hash_cmp分別表示兩個(gè)文檔的第一數(shù)據(jù)指紋中的數(shù)據(jù)特征串,keyword_ base_num表示第一特征集合中數(shù)據(jù)特征串總數(shù)目。
[0183] keyword_base_num = signature_base .keyword_num
[0184] simlar_num = 0
[0185] for word-hash-base in signature-base
[0186] for word-hash_cmp in signature_cmp
[0187] if (word-hash_cmp = =word-hash-base)
[0188] {
[0189] simlar_num+ = I
[0190] }
[0191 ] return(simlar_num/keyword_base_num)
[0192] ?第三種是整體匹配:
[0193] 計(jì)算第一特征集合的所有數(shù)據(jù)特征串與第二特征集合中所有數(shù)據(jù)特征串的 Jaccard系數(shù),當(dāng)Jaccard系數(shù)達(dá)到第三閾值時(shí),認(rèn)為第一特征集合與第二特征集合的相似 度達(dá)到預(yù)定范圍,第一文檔和第二文檔相關(guān)。
[0194] 其中Jaccard系數(shù)是指兩個(gè)集合的交集與兩個(gè)集合的并集的比值:
[0195] Jaccard= I SnT|/| SUT|,
[0196] 其中,S表示第一特征集合,T表示第二特征集合。
[0197] 以下是對(duì)兩個(gè)文檔的第一數(shù)據(jù)指紋做整體匹配并返回是否相關(guān)的偽代碼, keyword_base_num和keyword_cmp_num分別表示兩個(gè)特征集合中數(shù)據(jù)特征串總數(shù)目,word_ hash_base和word_hash_cmp分別表示兩個(gè)文檔的第一數(shù)據(jù)指紋中的數(shù)據(jù)特征串。
[0198] keyword_base_num = signature_base .keyword_num
[0199] keyword_cmp_num = s i gnature_cmp. keyword_num
[0200] simlar_num = 0
[0201] for word_hash_base in signature_base
[0202] for word_hash_cmp in signature_cmp
[0203] if(word_hash_cmp= =word_hash_base)
[0204] {
[0205] simlar_num+ = l
[0206] }
[0207] return(simlar_num/(keyword_base_num+keyword_cmp_num-simlar_num))
[0208] 方法400設(shè)計(jì)了 3種方式對(duì)兩個(gè)文檔中的相似內(nèi)容進(jìn)行匹配判斷,可選地,可以用 漢明距離或Jaccard系數(shù)表征文檔間的相似度。這樣,能更加全方位地進(jìn)行敏感數(shù)據(jù)匹配, 為防止敏感數(shù)據(jù)泄露提供有力保障。
[0209] 相應(yīng)地,圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于實(shí)現(xiàn)方法400的判斷第一文檔和 第二文檔是否相關(guān)的判斷設(shè)備500的示意圖。如圖5所示,該文檔相關(guān)性判斷設(shè)備500包括: 特征提取設(shè)備300、相似度計(jì)算模塊510和相似度判斷模塊520,其中相似度計(jì)算模塊510分 別與特征提取設(shè)備300和相似度判斷模塊520相耦接。
[0210] 特征提取設(shè)備300適于分別提取出第一文檔和第二文檔的第一特征集合和第二特 征集合,其中第一特征集合包括:第一文檔的第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋和第三數(shù)據(jù)指紋 中的至少一個(gè);第二特征集合包括:第二文檔的第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋和第三數(shù)據(jù)指 紋中的至少一個(gè)。
[0211]相似度計(jì)算模塊510適于計(jì)算第一特征集合與第二特征集合的相似度。
[0212] 相似度判斷模塊520適于在判斷相似度達(dá)到預(yù)定范圍時(shí),認(rèn)為第一文檔和第二文 檔相關(guān)。
[0213] 根據(jù)本發(fā)明的一個(gè)實(shí)施例,相似度計(jì)算模塊510還包括:相似度計(jì)算單元,用于計(jì) 算第一特征集合中每個(gè)數(shù)據(jù)指紋的數(shù)據(jù)特征串與第二特征集合中對(duì)應(yīng)數(shù)據(jù)指紋的數(shù)據(jù)特 征串的漢明距離。
[0214] 相似度判斷模塊520還適于當(dāng)漢明距離大于第一閾值時(shí),判定兩個(gè)對(duì)應(yīng)數(shù)據(jù)指紋 相似。具體地,對(duì)于單一匹配方式,相似度判斷模塊520適于當(dāng)?shù)诙?shù)據(jù)指紋或第三數(shù)據(jù)指 紋中的任一個(gè)數(shù)據(jù)特征串被判定為相似時(shí),認(rèn)為第一特征集合與第二特征集合的相似度達(dá) 到預(yù)定范圍。
[0215] 對(duì)于基準(zhǔn)匹配方式,相似度判斷模塊520還可以包括統(tǒng)計(jì)單元,用于統(tǒng)計(jì)第一特征 集合中與第二特征集合相似的數(shù)據(jù)特征串的數(shù)目、并計(jì)算該數(shù)目占第一特征集合中數(shù)據(jù)特 征串總數(shù)目的比值,相似度判斷模塊還適于當(dāng)該比值達(dá)到第二閾值時(shí),認(rèn)為第一特征集合 與第二特征集合的相似度達(dá)到預(yù)定范圍。
[0216] 根據(jù)本發(fā)明的又一個(gè)實(shí)施例,在整體匹配模式下,相似度計(jì)算單元還適于計(jì)算第 一特征集合的所有數(shù)據(jù)特征串與第二特征集合中所有數(shù)據(jù)特征串的Jaccard系數(shù),當(dāng)所述 Jaccard系數(shù)達(dá)到第三閾值時(shí),相似度判斷模塊520認(rèn)定第一特征集合與第二特征集合的相 似度達(dá)到預(yù)定范圍。Jaccard系數(shù)被用來(lái)表征兩個(gè)集合的相關(guān)度:
[0217] Jaccard= I SnT|/| SUT|,
[0218] 其中,S表示第一特征集合,T表示第二特征集合。
[0219] 圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的判斷可疑文檔是否包含敏感內(nèi)容的方法600 的流程圖。如圖6所示,該方法始于步驟S610,對(duì)受保護(hù)文檔執(zhí)行方法200的步驟,提取該文 檔的數(shù)據(jù)特征,并建立特征庫(kù),其中特征庫(kù)中包含:所有受保護(hù)文檔的第一數(shù)據(jù)指紋、第二 數(shù)據(jù)指紋和第三數(shù)據(jù)指紋。
[0220] 隨后在步驟S620中,對(duì)可疑文檔執(zhí)行方法400的步驟,在執(zhí)行方法400的過(guò)程中,提 取可疑文檔的數(shù)據(jù)特征作為第二特征集合,并將上一步中得到的特征庫(kù)作為第一特征集 合,也就是判斷可疑文檔與受保護(hù)文檔是否相關(guān);
[0221] 隨后在步驟S630中,若判斷可疑文檔與受保護(hù)文檔相關(guān),則認(rèn)為該可疑文檔中包 含敏感內(nèi)容;若判斷可疑文檔與受保護(hù)文檔不相關(guān),則認(rèn)為該可疑文檔不包含敏感內(nèi)容。
[0222] 相應(yīng)地,圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于實(shí)現(xiàn)方法600的判斷可疑文檔是 否包含敏感內(nèi)容的設(shè)備,也就是圖1中所述的敏感內(nèi)容判斷設(shè)備700的示意圖。該設(shè)備700包 括:特征提取設(shè)備300、存儲(chǔ)模塊710、文檔相關(guān)性判斷設(shè)備500、以及確定模塊720。根據(jù)本發(fā) 明的一個(gè)實(shí)施例,特征提取設(shè)備300也可以布置在文檔相關(guān)性判斷設(shè)備500中。
[0223] 如前文所述,特征提取設(shè)備300適于對(duì)受保護(hù)文檔提取數(shù)據(jù)特征、還適于提取可疑 文檔的數(shù)據(jù)特征作為第二特征集合。
[0224] 存儲(chǔ)模塊710適于存儲(chǔ)受保護(hù)文檔的數(shù)據(jù)特征,作為特征庫(kù),其中特征庫(kù)中包含: 受保護(hù)文檔的第一數(shù)據(jù)指紋和第二數(shù)據(jù)指紋。
[0225] 文檔相關(guān)性判斷設(shè)備500適于判斷可疑文檔與特征庫(kù)中的受保護(hù)文檔是否相關(guān); 以及
[0226] 確定模塊720適于當(dāng)判斷可疑文檔與受保護(hù)文檔相關(guān)時(shí),確定可疑文檔包含敏感 內(nèi)容、和當(dāng)判斷可疑文檔與受保護(hù)文檔不相關(guān)時(shí),確定該可疑文檔不包含敏感內(nèi)容。
[0227] 綜上,根據(jù)本發(fā)明的用于數(shù)據(jù)泄露防護(hù)的方法和系統(tǒng),所提供的文檔特征提取方 法能夠更便捷地提取出文檔的數(shù)據(jù)特征,并盡可能包含更多的數(shù)據(jù)特征信息;另外,設(shè)計(jì)了 單一匹配、基準(zhǔn)匹配、整體匹配3種方式全方位地進(jìn)行敏感數(shù)據(jù)匹配,可以有效避免各種文 檔外泄手段。
[0228]應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì) 本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或 者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā) 明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多特征。更確切地說(shuō),如下面的權(quán)利要求 書所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí) 施方式的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā) 明的單獨(dú)實(shí)施例。
[0229] 本領(lǐng)域那些技術(shù)人員應(yīng)當(dāng)理解在本文所公開(kāi)的示例中的設(shè)備的模塊或單元或組 件可以布置在如該實(shí)施例中所描述的設(shè)備中,或者可替換地可以定位在與該示例中的設(shè)備 不同的一個(gè)或多個(gè)設(shè)備中。前述示例中的模塊可以組合為一個(gè)模塊或者此外可以分成多個(gè) 子模塊。
[0230] 本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地 改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單 元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或 子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何 組合對(duì)本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任 何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(包括伴隨的權(quán) 利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代 替。
[0231] A5、如A4所述的方法,其中表征該詞語(yǔ)在文檔中重要性的特征值TF-IDF被定義為: TF-IDF = TF X IDF,其中,TF是該詞語(yǔ)的詞頻,IDF是該詞語(yǔ)的逆文檔頻率,TF和IDF分別為: Γ0〇ο〇1 F _針雕対當(dāng)43 is刪凝 - 文檔中的總次數(shù) rn〇〇〇1 I ,文檔庫(kù)的文檔總數(shù)、M M
[0233] IDF - Iogf- - -~-);以及
[0234] 基于所述特征值從所述詞序列中選取第一預(yù)定數(shù)目個(gè)詞語(yǔ)的步驟包括:按照所計(jì) 算得的TF-IDF值從高到低的順序選取第一預(yù)定數(shù)目個(gè)詞語(yǔ)。A6、如A1-5中任一項(xiàng)所述的方 法,其中基于所選擇的第一預(yù)定數(shù)目個(gè)詞語(yǔ)來(lái)構(gòu)造所述文檔的第一數(shù)據(jù)指紋來(lái)作為文檔的 數(shù)據(jù)特征的步驟包括:對(duì)于第一預(yù)定數(shù)目詞語(yǔ)中的每個(gè)詞語(yǔ),通過(guò)普通哈希算法散列成第 五預(yù)定長(zhǎng)度的數(shù)字串作為該詞語(yǔ)對(duì)應(yīng)的數(shù)據(jù)特征串;組合所獲得的數(shù)據(jù)特征串以獲得第一 數(shù)據(jù)指紋來(lái)作為該文檔的數(shù)據(jù)特征。A7、如A1-6中任一項(xiàng)所述的方法,其中對(duì)文檔進(jìn)行分詞 處理的步驟包括:采用基于詞典的分詞算法進(jìn)行分詞處理,其中分詞算法包含一個(gè)詞典、兩 種匹配算法和四個(gè)消除歧義的規(guī)則。A8、如A2-7中任一項(xiàng)所述的方法,其中基于數(shù)據(jù)塊中的 數(shù)據(jù)內(nèi)容來(lái)計(jì)算該數(shù)據(jù)塊的數(shù)據(jù)特征串的步驟包括:依次選擇數(shù)據(jù)塊中第六預(yù)定長(zhǎng)度的數(shù) 據(jù)子塊,其中相鄰數(shù)據(jù)子塊之間相互重疊第七預(yù)定長(zhǎng)度;對(duì)于每個(gè)數(shù)據(jù)子塊,根據(jù)數(shù)據(jù)子塊 的內(nèi)容計(jì)算第八預(yù)定長(zhǎng)度的特征值列表;以及基于所有數(shù)據(jù)子塊的特征值列表以構(gòu)造該數(shù) 據(jù)塊的數(shù)據(jù)特征串。A9、如A3-8中任一項(xiàng)所述的方法,其中基于詞塊中的數(shù)據(jù)內(nèi)容來(lái)計(jì)算該 詞塊的數(shù)據(jù)特征串的步驟包括:將每個(gè)第三預(yù)定長(zhǎng)度的詞塊中的詞語(yǔ)轉(zhuǎn)換為字符,得到相 應(yīng)的字符串作為詞塊;依次選擇詞塊中第六預(yù)定長(zhǎng)度的子詞塊,其中相鄰子詞塊之間相互 重疊第七預(yù)定長(zhǎng)度;對(duì)于每個(gè)子詞塊,根據(jù)子詞塊的內(nèi)容計(jì)算第八預(yù)定長(zhǎng)度的特征值列表; 以及基于所有子詞塊的特征值列表以構(gòu)造該詞塊的數(shù)據(jù)特征串。A10、如A8或9所述的方法, 其中根據(jù)數(shù)據(jù)子塊或子詞塊的內(nèi)容計(jì)算第八預(yù)定長(zhǎng)度的特征值列表的步驟包括:提取由數(shù) 據(jù)子塊或子詞塊中的部分內(nèi)容構(gòu)成的一個(gè)或者多個(gè)內(nèi)容子集;利用哈希算法將每個(gè)內(nèi)容子 集散列為在〇到第八預(yù)定長(zhǎng)度之間的一個(gè)值;根據(jù)與每個(gè)內(nèi)容子集對(duì)應(yīng)的值,設(shè)置第八預(yù)定 長(zhǎng)度特征值列表中的相應(yīng)值。All、如AlO所述的方法,其中基于所有數(shù)據(jù)子塊或子詞塊的特 征值列表以構(gòu)造該數(shù)據(jù)塊或詞塊的數(shù)據(jù)特征串的步驟包括:通過(guò)將每個(gè)數(shù)據(jù)子塊或子詞塊 相對(duì)應(yīng)的特征值列表中相應(yīng)位置的值進(jìn)行疊加而進(jìn)行合并,以獲得對(duì)應(yīng)該數(shù)據(jù)塊或詞塊的 特征值列表;對(duì)該特征值列表中每個(gè)單元的值進(jìn)行二元化處理,而獲得每個(gè)單元值為〇或者 1的特征值列表;以及將第八預(yù)定長(zhǎng)度的特征值列表轉(zhuǎn)化為第八預(yù)定長(zhǎng)度的數(shù)字串,以作為 該數(shù)據(jù)塊的數(shù)據(jù)特征串。A12、如All所述的方法,其中對(duì)該特征值列表中每個(gè)單元的值進(jìn)行 二元化處理的步驟包括:計(jì)算特征值列表中所有單元值的平均值;比較每個(gè)單元的值與該 平均值的大?。灰约叭裟硞€(gè)單元的值大于平均值,則該單元的值為1,若某個(gè)單元的值不大 于平均值,則該單元的值為L(zhǎng)A13、如A1-12中任一項(xiàng)所述的方法,其中第一預(yù)定數(shù)目是5;第 一預(yù)定長(zhǎng)度是512字節(jié),第二預(yù)定長(zhǎng)度是256字節(jié);第三預(yù)定長(zhǎng)度是64個(gè)詞語(yǔ),第四預(yù)定長(zhǎng)度 是32個(gè)詞語(yǔ);第五預(yù)定長(zhǎng)度是32位;和第六預(yù)定長(zhǎng)度是5字節(jié),第七預(yù)定長(zhǎng)度是1字節(jié),第八 預(yù)定長(zhǎng)度是32字節(jié)。A14、如A1-13中任一項(xiàng)所述的方法,其中第一數(shù)據(jù)指紋還包括第一預(yù)定 數(shù)目個(gè)詞語(yǔ)中每個(gè)詞語(yǔ)在文檔中的偏移位置信息。A15、如A2-14中任一項(xiàng)所述的方法,其中 第二數(shù)據(jù)指紋還包括數(shù)據(jù)塊在文檔中的偏移位置信息。A16、如A3-15中任一項(xiàng)所述的方法, 其中第三數(shù)據(jù)指紋還包括所述詞塊在文檔中的偏移位置信息。
[0235] B18、如B17所述的設(shè)備,設(shè)備還包括:分塊模塊,適于按照順序?qū)ξ臋n中的數(shù)據(jù)進(jìn) 行分塊,以得到一個(gè)或者多個(gè)第一預(yù)定長(zhǎng)度的數(shù)據(jù)塊,其中相鄰數(shù)據(jù)塊之間相互重疊第二 預(yù)定長(zhǎng)度;以及計(jì)算模塊還適于對(duì)所得到的一個(gè)或者多個(gè)數(shù)據(jù)塊,基于每個(gè)數(shù)據(jù)塊中的數(shù) 據(jù)內(nèi)容來(lái)計(jì)算該數(shù)據(jù)塊的數(shù)據(jù)特征串;特征提取模塊還適于組合每個(gè)數(shù)據(jù)塊的數(shù)據(jù)特征串 來(lái)構(gòu)造該文檔的第二數(shù)據(jù)指紋以作為該文檔的數(shù)據(jù)特征。B19、如B17或18所述的設(shè)備,其中 分塊模塊還適于按照順序?qū)Ψ衷~模塊得到的詞序列進(jìn)行分塊,以得到一個(gè)或者多個(gè)第三預(yù) 定長(zhǎng)度的詞塊,其中相鄰詞塊之間相互重疊第四預(yù)定長(zhǎng)度;計(jì)算模塊還適于對(duì)所得到的一 個(gè)或者多個(gè)詞塊,基于每個(gè)詞塊中的數(shù)據(jù)內(nèi)容來(lái)計(jì)算該詞塊的數(shù)據(jù)特征串;以及特征提取 模塊還適于組合每個(gè)詞塊的數(shù)據(jù)特征串來(lái)構(gòu)造該文檔的第三數(shù)據(jù)指紋以作為該文檔的數(shù) 據(jù)特征。B20、如B17-19中任一項(xiàng)所述的設(shè)備,其中計(jì)算模塊還適于:計(jì)算該詞語(yǔ)在該文檔中 的出現(xiàn)頻率作為該詞語(yǔ)的詞頻;計(jì)算文檔庫(kù)中的文檔總數(shù)與文檔庫(kù)中包含該詞語(yǔ)的文檔數(shù) 目之間的比例作為該詞語(yǔ)的逆文檔頻率;以及根據(jù)詞語(yǔ)的詞頻和逆文檔頻率計(jì)算表征該詞 語(yǔ)在文檔中重要性的特征值。B21、如B20所述的設(shè)備,其中表征該詞語(yǔ)在文檔中重要性的特 征值TF-IDF被定義為:TF-IDF = TFX IDF,其中TF是該詞語(yǔ)的詞頻,IDF是該詞語(yǔ)的逆文檔頻 率,TF和IDF分別為: 郵-某州(6:文豐當(dāng)柳麵次數(shù) [_ .-文檔中的總次數(shù)^ rno"n ,,文檔庫(kù)的文檔總數(shù)、
[0237] IDF = l〇g( ^ ?Α, .) ° 包含該詞的義檔數(shù)+ 1
[0238] Β22、如Β21所述的設(shè)備,其中選取模塊還適于按照所計(jì)算得的TF-IDF值從高到低 的順序選取第一預(yù)定數(shù)目個(gè)詞語(yǔ)。Β23、如Β17-22中任一項(xiàng)所述的設(shè)備,其中計(jì)算模塊還適 于對(duì)所選取的第一預(yù)定數(shù)目個(gè)詞語(yǔ)中的每個(gè)詞語(yǔ),通過(guò)普通哈希算法散列成第五預(yù)定長(zhǎng)度 的數(shù)字串作為該詞語(yǔ)對(duì)應(yīng)的數(shù)據(jù)特征串;以及特征提取模塊還適于組合所獲得的數(shù)據(jù)特征 串以獲得第一數(shù)據(jù)指紋來(lái)作為該文檔的數(shù)據(jù)特征。Β24、如Β17-23中任一項(xiàng)所述的設(shè)備,其 中分詞模塊還適于用基于詞典的分詞算法進(jìn)行分詞處理,其中分詞算法包含一個(gè)詞典、兩 種匹配算法和四個(gè)消除歧義的規(guī)則。25、如Β18-24中任一項(xiàng)所述的設(shè)備,其中計(jì)算模塊還包 括:分塊單元,適于依次選擇所述數(shù)據(jù)塊中第六預(yù)定長(zhǎng)度的數(shù)據(jù)子塊,其中相鄰數(shù)據(jù)子塊之 間相互重疊第七預(yù)定長(zhǎng)度;計(jì)算單元,適于對(duì)于每個(gè)數(shù)據(jù)子塊,根據(jù)數(shù)據(jù)子塊的內(nèi)容計(jì)算第 八預(yù)定長(zhǎng)度的特征值列表、以及基于所有數(shù)據(jù)子塊的特征值列表以構(gòu)造該數(shù)據(jù)塊的數(shù)據(jù)特 征串。Β26、如Β19-25中任一項(xiàng)所述的裝置,其中計(jì)算模塊還包括:字符轉(zhuǎn)換單元,適于將每 個(gè)第三預(yù)定長(zhǎng)度的詞塊中的詞語(yǔ)轉(zhuǎn)換為字符,得到相應(yīng)的字符串作為詞塊;分塊單元還適 于依次選擇詞塊中第六預(yù)定長(zhǎng)度的子詞塊,其中相鄰子詞塊之間相互重疊第七預(yù)定長(zhǎng)度; 以及計(jì)算單元還適于對(duì)每個(gè)子詞塊,根據(jù)子詞塊的內(nèi)容計(jì)算第八預(yù)定長(zhǎng)度的特征值列表、 以及基于所有子詞塊的特征值列表以構(gòu)造該詞塊的數(shù)據(jù)特征串。Β27、如Β25或26所述的設(shè) 備,其中計(jì)算單元還包括:提取子單元,適于提取由數(shù)據(jù)子塊或子詞塊中的部分內(nèi)容構(gòu)成的 一個(gè)或者多個(gè)內(nèi)容子集;以及計(jì)算單元還適于利用哈希算法將每個(gè)內(nèi)容子集散列為在〇到 第八預(yù)定長(zhǎng)度之間的一個(gè)值、以及根據(jù)與每個(gè)內(nèi)容子集對(duì)應(yīng)的值,設(shè)置第八預(yù)定長(zhǎng)度特征 值列表中的相應(yīng)值。Β28、如Β27所述的設(shè)備,其中計(jì)算單元還包括:計(jì)數(shù)子單元,適于通過(guò)將 每個(gè)數(shù)據(jù)子塊或子詞塊相對(duì)應(yīng)的特征值列表中相應(yīng)位置的值進(jìn)行疊加而進(jìn)行合并,以獲得 對(duì)應(yīng)該數(shù)據(jù)塊或詞塊的特征值列表;二元化子單元,適于對(duì)該特征值列表中每個(gè)單元的值 進(jìn)行二元化處理,而獲得每個(gè)單元值為0或者1的特征值列表;以及計(jì)算單元還適于將第八 預(yù)定長(zhǎng)度的特征值列表轉(zhuǎn)化為第八預(yù)定長(zhǎng)度的數(shù)字串,以作為該數(shù)據(jù)塊或詞塊的數(shù)據(jù)特征 串。Β29、如Β28所述的設(shè)備,其中二元化子單元還適于計(jì)算特征值列表中所有單元值的平均 值、以及比較每個(gè)單元的值與該平均值的大小,若某個(gè)單元的值大于平均值,則該單元的值 為1,若某個(gè)單元的值不大于平均值,則該單元的值為L(zhǎng)B30、如Β17-29中任一項(xiàng)所述的設(shè) 備,其中第一預(yù)定數(shù)目是5;第一預(yù)定長(zhǎng)度是512字節(jié),第二預(yù)定長(zhǎng)度是256字節(jié);第三預(yù)定長(zhǎng) 度是64個(gè)詞語(yǔ),第四預(yù)定長(zhǎng)度是32個(gè)詞語(yǔ);第五預(yù)定長(zhǎng)度是32位;和第六預(yù)定長(zhǎng)度是5字節(jié), 第七預(yù)定長(zhǎng)度是1字節(jié),第八預(yù)定長(zhǎng)度是32字節(jié)。Β31、如Β17-30中任一項(xiàng)所述的設(shè)備,其中 特征提取模塊還適于提取第一預(yù)定數(shù)目個(gè)詞語(yǔ)中每個(gè)詞語(yǔ)在文檔中的偏移位置信息,以包 含在第一數(shù)據(jù)指紋中。Β32、如Β18-31中任一項(xiàng)所述的設(shè)備,其中特征提取模塊還適于提取 數(shù)據(jù)塊在文檔中的偏移位置信息,以包含在第二數(shù)據(jù)指紋中。Β33、如Β19-32中任一項(xiàng)所述 的設(shè)備,其中特征提取模塊還適于提取詞塊在文檔中的偏移位置信息,以包含在第三數(shù)據(jù) 指紋中。
[0239] C35、如C34所述的判斷方法,其中計(jì)算第一特征集合與第二特征集合相似度的步 驟包括:計(jì)算第一特征集合中每個(gè)數(shù)據(jù)指紋的數(shù)據(jù)特征串與第二特征集合中對(duì)應(yīng)數(shù)據(jù)指紋 的數(shù)據(jù)特征串的漢明距離;當(dāng)漢明距離大于第一閾值時(shí),判定兩個(gè)對(duì)應(yīng)數(shù)據(jù)特征串相似。 C36、如C35所述的方法,還包括步驟:當(dāng)?shù)诙?shù)據(jù)指紋或第三數(shù)據(jù)指紋中的任一個(gè)數(shù)據(jù)特征 串被判定為相似時(shí),則認(rèn)為第一特征集合與第二特征集合的相似度達(dá)到預(yù)定范圍。C37、如 C35所述的方法,還包括步驟:統(tǒng)計(jì)第一特征集合中與第二特征集合相似的數(shù)據(jù)特征串的數(shù) 目;計(jì)算該數(shù)目占第一特征集合中數(shù)據(jù)特征串總數(shù)目的比值;若比值達(dá)到第二閾值,則認(rèn)為 第一特征集合與第二特征集合的相似度達(dá)到預(yù)定范圍。C38、如C34所述的方法,其中計(jì)算第 一特征集合與第二特征集合相似度的步驟還包括:計(jì)算第一特征集合的所有數(shù)據(jù)特征串與 第二特征集合中所有數(shù)據(jù)特征串的Jaccard系數(shù);以及當(dāng)Jaccard系數(shù)達(dá)到第三閾值時(shí),認(rèn) 為第一特征集合與第二特征集合的相似度達(dá)到預(yù)定范圍。C39、如C38所述的方法,其中 Jaccard系數(shù)是:Jaccard= I S Π T I / I S U T I,其中,S表示第一特征集合,T表示第二特征集 合。
[0240] D41、如D40所述的判斷設(shè)備,其中相似度計(jì)算模塊還包括:相似度計(jì)算單元,適于 計(jì)算第一特征集合中每個(gè)數(shù)據(jù)指紋的數(shù)據(jù)特征串與第二特征集合中對(duì)應(yīng)數(shù)據(jù)指紋的數(shù)據(jù) 特征串的漢明距離;以及相似度判斷模塊還適于當(dāng)漢明距離大于第一閾值時(shí),判定兩個(gè)對(duì) 應(yīng)數(shù)據(jù)特征串相似。D42、如D41所述的判斷設(shè)備,其中相似度判斷模塊還適于當(dāng)?shù)诙?shù)據(jù)指 紋或第三數(shù)據(jù)指紋中的任一個(gè)數(shù)據(jù)特征串被判定為相似時(shí),認(rèn)為第一特征集合與第二特征 集合的相似度達(dá)到預(yù)定范圍。D43、如D41所述的判斷設(shè)備,其中相似度判斷模塊還包括:統(tǒng) 計(jì)單元,適于統(tǒng)計(jì)第一特征集合中與第二特征集合相似的數(shù)據(jù)特征串的數(shù)目、并計(jì)算該數(shù) 目占第一特征集合中數(shù)據(jù)特征串總數(shù)目的比值;以及相似度判斷模塊還適于當(dāng)比值達(dá)到第 二閾值,認(rèn)為第一特征集合與第二特征集合的相似度達(dá)到預(yù)定范圍。D44、如D41所述的判斷 設(shè)備,其中相似度計(jì)算單元還適于計(jì)算第一特征集合的所有數(shù)據(jù)特征串與第二特征集合中 所有數(shù)據(jù)特征串的Jaccard系數(shù);以及相似度判斷模塊還適于當(dāng)Jaccard系數(shù)達(dá)到第三閾值 時(shí),認(rèn)為第一特征集合與第二特征集合的相似度達(dá)到預(yù)定范圍。D45、如D44所述的判斷設(shè) 備,其中Jaccard系數(shù)是:Jaccard= |snT|/|SUT|,其中,S表示第一特征集合,T表示第二 特征集合。
[0241] 此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例 中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的 范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任 意之一都可以以任意的組合方式來(lái)使用。
[0242] 此外,所述實(shí)施例中的一些在此被描述成可以由計(jì)算機(jī)系統(tǒng)的處理器或者由執(zhí)行 所述功能的其它裝置實(shí)施的方法或方法元素的組合。因此,具有用于實(shí)施所述方法或方法 元素的必要指令的處理器形成用于實(shí)施該方法或方法元素的裝置。此外,裝置實(shí)施例的在 此所述的元素是如下裝置的例子:該裝置用于實(shí)施由為了實(shí)施該發(fā)明的目的的元素所執(zhí)行 的功能。
[0243] 如在此所使用的那樣,除非另行規(guī)定,使用序數(shù)詞"第一"、"第二"、"第三"等等來(lái) 描述普通對(duì)象僅僅表示涉及類似對(duì)象的不同實(shí)例,并且并不意圖暗示這樣被描述的對(duì)象必 須具有時(shí)間上、空間上、排序方面或者以任意其它方式的給定順序。
[0244] 盡管根據(jù)有限數(shù)量的實(shí)施例描述了本發(fā)明,但是受益于上面的描述,本技術(shù)領(lǐng)域 內(nèi)的技術(shù)人員明白,在由此描述的本發(fā)明的范圍內(nèi),可以設(shè)想其它實(shí)施例。此外,應(yīng)當(dāng)注意, 本說(shuō)明書中使用的語(yǔ)言主要是為了可讀性和教導(dǎo)的目的而選擇的,而不是為了解釋或者限
【主權(quán)項(xiàng)】
1. 一種從文檔中提取數(shù)據(jù)特征的方法,包括步驟: 對(duì)所述文檔進(jìn)行分詞處理,以便獲得詞序列; 對(duì)于所述詞序列中的每個(gè)詞語(yǔ),計(jì)算表征該詞語(yǔ)在所述文檔中的重要性的特征值,并 基于所述特征值從所述詞序列中選取第一預(yù)定數(shù)目個(gè)詞語(yǔ);以及 對(duì)于所選擇的第一預(yù)定數(shù)目個(gè)詞語(yǔ)中的每個(gè)詞語(yǔ),計(jì)算該詞語(yǔ)對(duì)應(yīng)的數(shù)據(jù)特征串,并 基于所述數(shù)據(jù)特征串來(lái)構(gòu)造所述文檔的第一數(shù)據(jù)指紋來(lái)作為所述文檔的數(shù)據(jù)特征。2. 如權(quán)利要求1所述的方法,還包括步驟: 按照順序?qū)λ鑫臋n中的數(shù)據(jù)進(jìn)行分塊,以得到一個(gè)或者多個(gè)第一預(yù)定長(zhǎng)度的數(shù)據(jù) 塊,其中相鄰數(shù)據(jù)塊之間相互重疊第二預(yù)定長(zhǎng)度; 對(duì)于所得到的一個(gè)或者多個(gè)數(shù)據(jù)塊,基于所述每個(gè)數(shù)據(jù)塊中的數(shù)據(jù)內(nèi)容來(lái)計(jì)算該數(shù)據(jù) 塊的數(shù)據(jù)特征串;以及 組合每個(gè)數(shù)據(jù)塊的數(shù)據(jù)特征串來(lái)構(gòu)造該文檔的第二數(shù)據(jù)指紋以作為該文檔的數(shù)據(jù)特 征。3. 如權(quán)利要求1或2所述的方法,還包括步驟: 按照順序?qū)λ鑫臋n中的詞序列進(jìn)行分塊,以得到一個(gè)或者多個(gè)第三預(yù)定長(zhǎng)度的詞 塊,其中相鄰詞塊之間相互重疊第四預(yù)定長(zhǎng)度; 對(duì)于所得到的一個(gè)或者多個(gè)詞塊,基于所述每個(gè)詞塊中的數(shù)據(jù)內(nèi)容來(lái)計(jì)算該詞塊的數(shù) 據(jù)特征串;以及 組合每個(gè)詞塊的數(shù)據(jù)特征串來(lái)構(gòu)造該文檔的第三數(shù)據(jù)指紋以作為該文檔的數(shù)據(jù)特征。4. 如權(quán)利要求1-3中任一項(xiàng)所述的方法,其中所述計(jì)算表征該詞語(yǔ)在所述文檔中的重 要性的特征值的步驟包括: 計(jì)算該詞語(yǔ)在該文檔中的出現(xiàn)頻率作為該詞語(yǔ)的詞頻; 計(jì)算文檔庫(kù)中的文檔總數(shù)與文檔庫(kù)中包含該詞語(yǔ)的文檔數(shù)目之間的比例作為該詞語(yǔ) 的逆文檔頻率;以及 根據(jù)所述詞語(yǔ)的詞頻和逆文檔頻率計(jì)算所述表征該詞語(yǔ)在文檔中重要性的特征值。5. -種從文檔中提取數(shù)據(jù)特征的設(shè)備,所述設(shè)備包括: 分詞模塊,適于對(duì)所述文檔進(jìn)行分詞處理,以便獲得詞序列; 計(jì)算模塊,適于對(duì)所述詞序列中的每個(gè)詞語(yǔ),計(jì)算表征該詞語(yǔ)在所述文檔中的重要性 的特征值、還適于對(duì)所選擇的第一預(yù)定數(shù)目個(gè)詞語(yǔ)中的每個(gè)詞語(yǔ),計(jì)算該詞語(yǔ)對(duì)應(yīng)的數(shù)據(jù) 特征串; 選取模塊,適于基于所述特征值從所述詞序列中選取第一預(yù)定數(shù)目個(gè)詞語(yǔ);以及 特征提取模塊,適于基于所述數(shù)據(jù)特征串來(lái)構(gòu)造所述文檔的第一數(shù)據(jù)指紋來(lái)作為所述 文檔的數(shù)據(jù)特征。6. -種判斷第一文檔和第二文檔是否相關(guān)的判斷方法,所述方法包括步驟: 對(duì)所述第一文檔執(zhí)行如權(quán)利要求1-4中任一項(xiàng)所述的方法,提取文檔的數(shù)據(jù)特征得到 第一特征集合,其中所述第一特征集合包括:第一文檔的第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋、和 第三數(shù)據(jù)指紋中的至少一個(gè); 對(duì)所述第二文檔執(zhí)行如權(quán)利要求1-4中任一項(xiàng)所述的方法,提取文檔的數(shù)據(jù)特征得到 第二特征集合,其中所述第二特征集合包括:第二文檔的第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋和第 三數(shù)據(jù)指紋中的至少一個(gè);以及 計(jì)算第一特征集合與第二特征集合的相似度,若相似度達(dá)到預(yù)定范圍,則認(rèn)為該第一 文檔和第二文檔相關(guān)。7. -種判斷第一文檔和第二文檔是否相關(guān)的判斷設(shè)備,所述設(shè)備包括: 如權(quán)利要求5所述的從文檔中提取數(shù)據(jù)特征的設(shè)備,適于分別提取出所述第一文檔和 第二文檔的第一特征集合和第二特征集合,其中, 所述第一特征集合包括:第一文檔的第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋和第三數(shù)據(jù)指紋中 的至少一個(gè); 所述第二特征集合包括:第二文檔的第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋和第三數(shù)據(jù)指紋中 的至少一個(gè); 相似度計(jì)算模塊,適于計(jì)算第一特征集合與第二特征集合的相似度;以及 相似度判斷模塊,適于在判斷相似度達(dá)到預(yù)定范圍時(shí),認(rèn)為該第一文檔和第二文檔相 關(guān)。8. -種判斷可疑文檔是否包含敏感內(nèi)容的方法,所述方法包括步驟: 對(duì)受保護(hù)文檔執(zhí)行如權(quán)利要求1-4中任一項(xiàng)所述的方法,提取該文檔的數(shù)據(jù)特征,建立 特征庫(kù),其中特征庫(kù)中包含:受保護(hù)文檔的第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋和第三數(shù)據(jù)指紋; 對(duì)可疑文檔執(zhí)行如權(quán)利要求6所述的判斷方法,其中,提取所述可疑文檔的數(shù)據(jù)特征作 為第二特征集合,將所述特征庫(kù)作為第一特征集合; 若判斷所述可疑文檔與受保護(hù)文檔相關(guān),則認(rèn)為所述可疑文檔包含敏感內(nèi)容;以及 若判斷所述可疑文檔與受保護(hù)文檔不相關(guān),則認(rèn)為所述可疑文檔不包含敏感內(nèi)容。9. 一種判斷可疑文檔是否包含敏感內(nèi)容的設(shè)備,所述設(shè)備包括: 如權(quán)利要求5所述的從文檔中提取數(shù)據(jù)特征的設(shè)備,適于對(duì)受保護(hù)文檔提取數(shù)據(jù)特征、 還適于提取可疑文檔的數(shù)據(jù)特征作為第二特征集合; 存儲(chǔ)模塊,適于存儲(chǔ)所述受保護(hù)文檔的數(shù)據(jù)特征,作為特征庫(kù),其中特征庫(kù)中包含:受 保護(hù)文檔的第一數(shù)據(jù)指紋、第二數(shù)據(jù)指紋和第三數(shù)據(jù)指紋; 如權(quán)利要求7所述的判斷設(shè)備,適于判斷可疑文檔與特征庫(kù)中的受保護(hù)文檔是否相關(guān); 以及 確定模塊,適于當(dāng)判斷所述可疑文檔與受保護(hù)文檔相關(guān)時(shí),確定所述可疑文檔包含敏 感內(nèi)容、和當(dāng)判斷所述可疑文檔與受保護(hù)文檔不相關(guān)時(shí),確定所述可疑文檔不包含敏感內(nèi) 容。10. -種數(shù)據(jù)泄露防護(hù)系統(tǒng),包括: 計(jì)算設(shè)備,與數(shù)據(jù)安全防護(hù)設(shè)備相連;以及 數(shù)據(jù)安全防護(hù)設(shè)備,包括: 文檔獲取設(shè)備,適于獲取計(jì)算設(shè)備發(fā)送的文檔內(nèi)容; 如權(quán)利要求9所述的敏感內(nèi)容判斷設(shè)備,適于判斷獲取的文檔是否包含敏感內(nèi)容; 控制策略獲取設(shè)備,適于在判斷文檔是否包含敏感內(nèi)容時(shí),獲取與文檔相關(guān)的進(jìn)程對(duì) 應(yīng)的控制策略;和 控制設(shè)備,適于當(dāng)判斷可疑文檔包含敏感內(nèi)容時(shí),根據(jù)所獲取的控制策略對(duì)所述文檔 的操作行為進(jìn)行控制。
【文檔編號(hào)】G06F21/62GK105844118SQ201610236750
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年4月15日
【發(fā)明人】李唱, 康靖, 陳虎
【申請(qǐng)人】寶利九章(北京)數(shù)據(jù)技術(shù)有限公司