本申請涉及數(shù)據(jù)檢測技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)泄露的檢測方法及系統(tǒng)。
背景技術(shù):
在當今互聯(lián)網(wǎng)時代,越來越多的企業(yè)將業(yè)務數(shù)據(jù)遷移到互聯(lián)網(wǎng)上,越來越多的資產(chǎn)信息化,從而大大提高了企業(yè)的生產(chǎn)效率和管理水平。對于已經(jīng)高度依賴信息系統(tǒng)的企業(yè)而言,以二進制數(shù)據(jù)存在的資產(chǎn)已然成為了最重要的企業(yè)資產(chǎn),其中,這些數(shù)據(jù)往往存儲于數(shù)據(jù)庫中。
話分兩頭,互聯(lián)網(wǎng)化和信息化一方面提高了企業(yè)的生產(chǎn)效率和管理水平,一方面在數(shù)據(jù)庫中以二進制數(shù)據(jù)存儲的企業(yè)重要數(shù)據(jù)也為被某些不懷好意的攻擊者偷取并泄露敏感數(shù)據(jù)文件創(chuàng)造了機會。其中,泄露者通過各種方式偷取數(shù)據(jù)并泄露出去,例如,企業(yè)外部的黑客群體、企業(yè)內(nèi)部的員工甚至管理員等等。因此,保障企業(yè)存儲數(shù)據(jù)的安全已是企業(yè)管理者的當務之急。
在現(xiàn)有技術(shù)中,主要通過數(shù)據(jù)庫加密和數(shù)據(jù)庫防火墻等方式來保護數(shù)據(jù),前者主要方式是對存儲在數(shù)據(jù)庫中的企業(yè)數(shù)據(jù)進行加密,在使用時再進行解密,但是需要在企業(yè)內(nèi)各終端安裝插件,會影響性能和穩(wěn)定性,且存在加密后無法正常解密或解密后文件異常等問題,且如果業(yè)務上由對外的需求,則會造成諸多不便之處;后者主要方式是在企業(yè)內(nèi)網(wǎng)外圍建一堵墻,只讓有權(quán)限的人通過這堵墻,但是無法防范來自企業(yè)內(nèi)部的泄露。
那么,如何在無法完全避免發(fā)生數(shù)據(jù)泄露的情況下,提供一種改造量較小的、更全面的、更直觀的數(shù)據(jù)泄露的檢測機制,是本領(lǐng)域技術(shù)人員亟待解決的問題。
技術(shù)實現(xiàn)要素:
本申請的目的是提供一種數(shù)據(jù)泄露的檢測方法及系統(tǒng),能夠在無法完全避免發(fā)生數(shù)據(jù)泄露的情況下,以一種改造量較小的、更全面的、更直觀的數(shù)據(jù)泄露的檢測方法,能夠查詢到被泄露的具體數(shù)據(jù)文件以及追查泄露源頭并對泄露源頭進行后續(xù)的追責。
為解決上述技術(shù)問題,本申請?zhí)峁┮环N數(shù)據(jù)泄露的檢測方法,該方法包括:
利用探針采集數(shù)據(jù)庫到互聯(lián)網(wǎng)的數(shù)據(jù)流向上的數(shù)據(jù);其中,所述探針設(shè)置在所述數(shù)據(jù)流向上;
對所述數(shù)據(jù)進行匯總,并對匯總的所述數(shù)據(jù)執(zhí)行敏感數(shù)據(jù)指紋特征匹配操作,若匹配成功,則所述敏感數(shù)據(jù)已泄露至所述互聯(lián)網(wǎng)。
可選的,利用探針采集數(shù)據(jù)庫到互聯(lián)網(wǎng)的數(shù)據(jù)流向上的數(shù)據(jù);其中,所述探針設(shè)置在所述數(shù)據(jù)流向上,包括:
利用數(shù)據(jù)庫探針采集數(shù)據(jù)庫協(xié)議流量;其中,所述數(shù)據(jù)庫探針設(shè)置在所述數(shù)據(jù)庫的前端;
利用互聯(lián)網(wǎng)出口探針采集內(nèi)網(wǎng)用戶的外發(fā)信息;其中,所述互聯(lián)網(wǎng)出口探針設(shè)置在所述互聯(lián)網(wǎng)的出口處。
可選的,對匯總的所述數(shù)據(jù)執(zhí)行敏感數(shù)據(jù)指紋特征匹配操作,包括:
審計所述數(shù)據(jù)庫協(xié)議流量中的sql命令返回內(nèi)容;
分別識別所述sql命令返回內(nèi)容和所述外發(fā)信息中各字段的內(nèi)容屬性,得到第一內(nèi)容屬性和第二內(nèi)容屬性;
分別識別所述第一內(nèi)容屬性和所述第二內(nèi)容屬性的信息類型,相應得到第一敏感數(shù)據(jù)文件和第二敏感數(shù)據(jù)文件;
利用特征算法分別提取所述第一敏感數(shù)據(jù)文件和所述第二敏感數(shù)據(jù)文件的特征值,相應得到第一指紋特征庫和第二指紋特征庫;
對所述第一指紋特征庫與所述第二指紋特征庫執(zhí)行匹配操作。
可選的,本方案還包括:
利用業(yè)務系統(tǒng)探針采集對業(yè)務系統(tǒng)的訪問流量,并根據(jù)所述訪問流量進行訪問操作源頭的分析;其中,所述業(yè)務系統(tǒng)探針設(shè)置在所述業(yè)務系統(tǒng)的前端。
可選的,本方案還包括:
對所述第一敏感數(shù)據(jù)文件的泄露行為進行預警和記錄,得到第一日志文件;
上報審計所述sql命令返回內(nèi)容的結(jié)果,得到第二日志文件;
上報所述外發(fā)信息,得到第三日志文件;
上報所述訪問流量的分析結(jié)果,得到第四日志文件;
當所述第一日志文件、所述第二日志文件、所述第三日志文件以及所述第四日志文件的體積占磁盤總體積的比例超過預設(shè)比例時,通過預設(shè)路徑通知管理員。
可選的,本方案還包括:
將所述第一日志文件與所述第四日志文件進行關(guān)聯(lián),得到所述第一敏感數(shù)據(jù)文件的整體流向。
本申請還提供了一種數(shù)據(jù)泄露的檢測系統(tǒng),該系統(tǒng)包括:
探針單元,用于利用探針采集數(shù)據(jù)庫到互聯(lián)網(wǎng)的數(shù)據(jù)流向上的數(shù)據(jù);其中,所述探針設(shè)置在所述數(shù)據(jù)流向上;
匯總匹配單元,用于對所述數(shù)據(jù)進行匯總,并對匯總的所述數(shù)據(jù)執(zhí)行敏感數(shù)據(jù)指紋特征匹配操作,若匹配成功,則所述敏感數(shù)據(jù)已經(jīng)泄露至所述互聯(lián)網(wǎng)。
可選的,所述探針單元包括:
數(shù)據(jù)庫探針子單元,用于利用數(shù)據(jù)庫探針采集數(shù)據(jù)庫協(xié)議流量;其中,所述數(shù)據(jù)庫探針設(shè)置在所述數(shù)據(jù)庫的前端;
互聯(lián)網(wǎng)出口探針子單元,用于利用互聯(lián)網(wǎng)出口探針采集內(nèi)網(wǎng)用戶的外發(fā)信息;其中,所述互聯(lián)網(wǎng)出口探針設(shè)置在所述互聯(lián)網(wǎng)的出口處。
可選的,所述匯總匹配單元包括:
審計子單元,用于審計所述數(shù)據(jù)庫協(xié)議流量中的sql命令返回內(nèi)容;
內(nèi)容屬性識別子單元,用于分別識別所述sql命令返回內(nèi)容和所述外發(fā)信息中各字段的內(nèi)容屬性,得到第一內(nèi)容屬性和第二內(nèi)容屬性;
信息類型識別子單元,用于分別識別所述第一內(nèi)容屬性和所述第二內(nèi)容屬性的信息類型,相應得到第一敏感數(shù)據(jù)文件和第二敏感數(shù)據(jù)文件;
特征提取子單元,用于利用特征算法分別提取所述第一敏感數(shù)據(jù)文件和所述第二敏感數(shù)據(jù)文件的特征值,相應得到第一指紋特征庫和第二指紋特征庫;
匹配子單元,用于對所述第一指紋特征庫與所述第二指紋特征庫執(zhí)行匹配操作。
可選的,所述探針單元,還包括:
業(yè)務系統(tǒng)探針子單元,用于利用業(yè)務系統(tǒng)探針采集對業(yè)務系統(tǒng)的訪問流量,并根據(jù)所述訪問流量進行訪問操作源頭的分析;其中,所述業(yè)務系統(tǒng)探針設(shè)置在所述業(yè)務系統(tǒng)的前端。
可選的,本方案還包括:
第一上報單元,用于對所述第一敏感數(shù)據(jù)文件的泄露行為進行預警和記錄,得到第一日志文件;
第二上報單元,用于上報審計所述sql命令返回內(nèi)容的結(jié)果,得到第二日志文件;
第三上報單元,用于上報所述外發(fā)信息,得到第三日志文件;
第四上報單元,用于上報所述訪問流量的分析結(jié)果,得到第四日志文件;
磁盤預警單元,用于當所述第一日志文件、所述第二日志文件、所述第三日志文件以及所述第四日志文件的體積占磁盤總體積的比例超過預設(shè)比例時,通過預設(shè)路徑通知管理員。
可選的,本方案還包括:
關(guān)聯(lián)單元,用于將所述第一日志文件與所述第四日志文件進行關(guān)聯(lián),得到所述第一敏感數(shù)據(jù)文件的整體流向。
本申請所提供的一種數(shù)據(jù)泄露的檢測方法,通過利用探針采集數(shù)據(jù)庫到互聯(lián)網(wǎng)的數(shù)據(jù)流向上的數(shù)據(jù);其中,所述探針設(shè)置在所述數(shù)據(jù)流向上;對所述數(shù)據(jù)進行匯總,并對匯總的所述數(shù)據(jù)執(zhí)行敏感數(shù)據(jù)指紋特征匹配操作,若匹配成功,則所述敏感數(shù)據(jù)已泄露至所述互聯(lián)網(wǎng)。
顯然,本申請所提供的技術(shù)方案,通過設(shè)置在數(shù)據(jù)流向上的探針采集到的數(shù)據(jù)進行一系列比對分析,并根據(jù)分析結(jié)果判斷是否有內(nèi)網(wǎng)的數(shù)據(jù)文件被泄露至公網(wǎng),能夠在無法完全避免發(fā)生數(shù)據(jù)泄露的情況下,以一種改造量較小的、更全面的、更直觀的數(shù)據(jù)泄露的檢測方法,能夠查詢到被泄露的具體數(shù)據(jù)文件以及追查泄露源頭并對泄露源頭進行后續(xù)的追責。本申請同時還提供了一種數(shù)據(jù)泄露的檢測系統(tǒng),具有上述有益效果,在此不再贅述。
附圖說明
為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其它的附圖。
圖1為本申請實施例所提供的一種數(shù)據(jù)泄露的檢測方法的流程圖;
圖2為本申請實施例所提供的另一種數(shù)據(jù)泄露的檢測方法的流程圖;
圖3為本申請實施例所提供的又一種數(shù)據(jù)泄露的檢測方法的流程圖;
圖4為本申請實施例所提供的再一種數(shù)據(jù)泄露的檢測方法的流程圖;
圖5為本申請實施例所提供的一種數(shù)據(jù)泄露的檢測系統(tǒng)的結(jié)構(gòu)圖;
圖6為本申請實施例所提供的一種數(shù)據(jù)泄露的檢測系統(tǒng)中探針設(shè)置方式的結(jié)構(gòu)框圖;
圖7為本申請實施例所提供的一種數(shù)據(jù)泄露的檢測系統(tǒng)中特征匹配方式的結(jié)構(gòu)框圖。
具體實施方式
本申請的核心是提供一種數(shù)據(jù)泄露的檢測方法及系統(tǒng),能夠在無法完全避免發(fā)生數(shù)據(jù)泄露的情況下,以一種改造量較小的、更全面的、更直觀的數(shù)據(jù)泄露的檢測方法,能夠查詢到被泄露的具體數(shù)據(jù)文件以及追查泄露源頭并對泄露源頭進行后續(xù)的追責。
為使本申請實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本申請保護的范圍。
以下結(jié)合圖1,圖1為本申請實施例所提供的一種數(shù)據(jù)泄露的檢測方法的流程圖。
其具體包括以下步驟:
s101:利用探針采集數(shù)據(jù)庫到互聯(lián)網(wǎng)的數(shù)據(jù)流向上的數(shù)據(jù);其中,探針設(shè)置在數(shù)據(jù)流上;
本步驟旨在數(shù)據(jù)流向的關(guān)鍵位置采集數(shù)據(jù),其中,采集數(shù)據(jù)的方法有很多,此處所說的探針并非是狹義上的探針,而是只要能夠充當采集數(shù)據(jù)的事物都可以被稱為探針,只要是通過它能夠?qū)崿F(xiàn)對數(shù)據(jù)流向上的數(shù)據(jù)進行采集就應都在本申請的保護范圍內(nèi)。而之所以要采集數(shù)據(jù)庫到互聯(lián)網(wǎng)這一數(shù)據(jù)流向上的數(shù)據(jù),是出于對過去數(shù)據(jù)泄露事件的分析得到的。
通常存在以下幾種數(shù)據(jù)流向方式:方式一:企業(yè)內(nèi)部的內(nèi)網(wǎng)用戶通過對企業(yè)的業(yè)務系統(tǒng)執(zhí)行訪問操作實現(xiàn)對數(shù)據(jù)庫的訪問,并通過該業(yè)務系統(tǒng)將敏感數(shù)據(jù)導出到自己的個人pc機中,再通過im(instantmessaging,中文名為:即時通訊,包括常用的qq、微信、飛信等)等方式外發(fā)至互聯(lián)網(wǎng);方式二:企業(yè)內(nèi)部存在的用于極高管理權(quán)限的特權(quán)用戶,則可以通過直接對數(shù)據(jù)庫的訪問獲取敏感數(shù)據(jù)并導出至自己的個人pc機中,再外發(fā)至互聯(lián)網(wǎng);方式三:企業(yè)外部的黑客群體通過尋找到的企業(yè)業(yè)務系統(tǒng)的某個漏洞,突破對該業(yè)務系統(tǒng)的防護,然后通過被突破的業(yè)務系統(tǒng)向數(shù)據(jù)庫發(fā)起訪問,并因遠程操作無法導出到個人pc機中,直接以該業(yè)務系統(tǒng)為跳板向互聯(lián)網(wǎng)外發(fā)信息。
以上的三種數(shù)據(jù)流向是較為常見的幾種,并不代表不存在其它數(shù)據(jù)流向方式,通過對這幾種數(shù)據(jù)流向進行分析,得到在數(shù)據(jù)流向上總有些數(shù)據(jù)泄露者繞不開的點,即數(shù)據(jù)庫的前端、互聯(lián)網(wǎng)接收內(nèi)部外發(fā)信息的出口,因為既然要泄露敏感數(shù)據(jù),必然需要對存儲敏感數(shù)據(jù)的數(shù)據(jù)庫執(zhí)行訪問操作,數(shù)據(jù)庫才能根據(jù)訪問請求外發(fā)敏感數(shù)據(jù),而該敏感數(shù)據(jù)要最終能夠被泄露必然需要離開內(nèi)網(wǎng)進入互聯(lián)網(wǎng)這一公網(wǎng)才行。當然,也可以在其它多種的數(shù)據(jù)流向上另設(shè)置其它的探針來更好的幫助對數(shù)據(jù)泄露源頭的追蹤和追責。
例如,在業(yè)務系統(tǒng)的前面也設(shè)置一個探針,對在業(yè)務系統(tǒng)上進行操作的數(shù)據(jù)進行收集,可以很好的幫助判斷數(shù)據(jù)泄露的方式具體為哪一種,便于理清敏感數(shù)據(jù)泄露的完整流向,確定泄露源頭和后期追責。
本步驟并不對數(shù)據(jù)流向做具體的限定,只要包含由數(shù)據(jù)庫出發(fā)最終到達互聯(lián)網(wǎng)出口即可,至于除開這兩個節(jié)點外是否還有其它的起點并不做限制,可以存在多種數(shù)據(jù)流向,應允許因運營廠商的不同、配置情況不同以及設(shè)置習慣的不同而存在一定差異化。
s102:對數(shù)據(jù)進行匯總,并對匯總的數(shù)據(jù)執(zhí)行敏感數(shù)據(jù)指紋特征匹配操作;
對s101中設(shè)置的探針采集到的數(shù)據(jù)做匯總,并對匯總得到的數(shù)據(jù)執(zhí)行敏感數(shù)據(jù)指紋特征匹配操作,為能從匯總的數(shù)據(jù)執(zhí)行該操作還需要進行一系列的處理,最終的目的是判別從數(shù)據(jù)流向上的第一節(jié)點流出的敏感數(shù)據(jù)文件能否在數(shù)據(jù)流向上的終點匹配到一致的數(shù)據(jù)文件,并根據(jù)匹配結(jié)果進行后續(xù)的敏感數(shù)據(jù)文件是否泄漏的判斷。
在最終目標的引導下,可以通過不同的途徑、方式來達成這一目標,此處并不對具體進行了如何的處理才實現(xiàn)這一最終目標,只要經(jīng)過一系列處理可以達成這個目標即可。
進一步的,還可以在處理的過程中對處理過程和結(jié)果進行上報并記錄,以便于后續(xù)對于泄露方式和源頭的確定。更進一步的,還可以對記錄先來的各種上報文件進行備份,其中,各種上報文件可以以日志文件的方式被保存下來,也可以以其它形式被記錄下來,以免因出現(xiàn)各種意料之外的異常導致日志文件的丟失,若真出現(xiàn)了丟失現(xiàn)象,還可以根據(jù)備份的日志文件進行還原。其中,若存在設(shè)置多個探針的情況,則可能需要上傳各種數(shù)據(jù),相應得到多種日志文件,不同探針采集到的數(shù)據(jù)上報生成的不同種類日志文件可以保存在同一位置,也可以保存在不同位置,應視實際情況中運營廠商的不同、保存設(shè)置習慣的不同而定。
更近一步的,隨著時間的積累,當日志文件的體積占磁盤總體積的百分比超過一定容量時,可能會導致新寫入磁盤的日志文件覆蓋掉老的日志文件,為防止這種情況的方式,可以在達到設(shè)定的閾值時通過各種方式通知網(wǎng)絡(luò)管理員,并根據(jù)網(wǎng)絡(luò)管理員的判斷來做出相應的處理方式。同樣的,可能各種分別存在與不同的磁盤中,也有可能存在相同的磁盤,即,負責存儲各日志文件的磁盤可以各自執(zhí)行預警操作,閾值也可根據(jù)磁盤大小的不同和具體存儲文件的不同來在合理范圍內(nèi)進行調(diào)整,此處并不做具體限定。
s103:判斷是否匹配;
即根據(jù)匹配結(jié)果進行后續(xù)的敏感數(shù)據(jù)文件是否泄漏的判斷。
s104:若匹配成功,則敏感數(shù)據(jù)已泄露至互聯(lián)網(wǎng);其中,數(shù)據(jù)具體包括敏感數(shù)據(jù)以及一般數(shù)據(jù)。
若從數(shù)據(jù)流向上的第一節(jié)點流出的敏感數(shù)據(jù)文件在數(shù)據(jù)流向上的終點匹配到一致的數(shù)據(jù)文件,即說明存儲敏感數(shù)據(jù)的數(shù)據(jù)庫接收到請求向外發(fā)送了該敏感數(shù)據(jù),且該敏感數(shù)據(jù)被泄露至互聯(lián)網(wǎng)這一外網(wǎng)上。
此處對于數(shù)據(jù)庫中的文件按重要程度可粗略的劃分為敏感數(shù)據(jù)文件和一般數(shù)據(jù)文件,當然可以根據(jù)自己企業(yè)管理員的習慣進行自己的命名和劃分,并不做具體劃分方式的限定。
基于上述技術(shù)方案,本申請實施例提供的數(shù)據(jù)泄露的檢測方法,通過設(shè)置在數(shù)據(jù)流向上的探針采集到的數(shù)據(jù)進行一系列比對分析,并根據(jù)分析結(jié)果判斷是否有內(nèi)網(wǎng)的數(shù)據(jù)文件被泄露至公網(wǎng),能夠在無法完全避免發(fā)生數(shù)據(jù)泄露的情況下,以一種改造量較小的、更全面的、更直觀的數(shù)據(jù)泄露的檢測方法,能夠查詢到被泄露的具體數(shù)據(jù)文件以及追查泄露源頭并對泄露源頭進行后續(xù)的追責。
以下結(jié)合圖2,圖2為本申請實施例所提供的另一種數(shù)據(jù)泄露的檢測方法的流程圖。
本實施例是對s101做出的一個具體限定,其它步驟大體相同,可參見上一實施例中的相關(guān)描述,在此不再贅述。
其具體包括以下步驟:
s201:利用數(shù)據(jù)庫探針采集數(shù)據(jù)庫協(xié)議流量;其中,數(shù)據(jù)庫探針設(shè)置在數(shù)據(jù)庫的前端;
根據(jù)在上一實施例s101中提及的幾種數(shù)據(jù)流向,不管哪一種,數(shù)據(jù)庫都應是數(shù)據(jù)流向的起始點,所以在數(shù)據(jù)庫的前面部署一個數(shù)據(jù)庫探針,來采集包含有業(yè)務系統(tǒng)請求和特權(quán)管理用戶操作數(shù)據(jù)的數(shù)據(jù)庫協(xié)議流量。
s202:利用互聯(lián)網(wǎng)出口探針采集內(nèi)網(wǎng)用戶的外發(fā)信息;其中,互聯(lián)網(wǎng)出口探針設(shè)置在互聯(lián)網(wǎng)的出口處。
既然有了起始點數(shù)據(jù)的采集,相應的也應該在數(shù)據(jù)流向的終點,即互聯(lián)網(wǎng)的出口位置也設(shè)置一個探針來采集所有由企業(yè)內(nèi)網(wǎng)用戶向外發(fā)送的外發(fā)信息,包括各種外發(fā)文件、郵箱、qq、微信、各式論壇以及微博等。
以下結(jié)合圖3,圖3為本申請實施例所提供的又一種數(shù)據(jù)泄露的檢測方法的流程圖。
本實施例是對s102做出的一個具體限定,并沿用s201和s202設(shè)置探針的方式,其它步驟與實施例一相同,可參見實施例一中的相關(guān)描述,在此不再贅述。
其具體包括以下步驟:
s301:審計數(shù)據(jù)庫協(xié)議流量中的sql(structuredquerylanguage,中文名為:結(jié)構(gòu)化查詢語言)命令返回內(nèi)容;
該數(shù)據(jù)庫協(xié)議流量中包含有業(yè)務系統(tǒng)請求和特權(quán)管理用戶操作數(shù)據(jù),而一般需要對其中重要的sql命令返回內(nèi)容進行審計。
s302:分別識別sql命令返回內(nèi)容和外發(fā)信息中各字段的內(nèi)容屬性,得到第一內(nèi)容屬性和第二內(nèi)容屬性;
s303:分別識別第一內(nèi)容屬性和第二內(nèi)容屬性的信息類型,相應得到第一敏感數(shù)據(jù)文件和第二敏感數(shù)據(jù)文件;
本步驟為判斷該數(shù)據(jù)庫探針采集到的數(shù)據(jù)中的敏感數(shù)據(jù)文件能否在該互聯(lián)網(wǎng)出口探針采集到的數(shù)據(jù)中的敏感數(shù)據(jù)文件匹配的上,而做出的一系列處理。
首先識別出該sql命令返回內(nèi)容以及外發(fā)信息中各字段的內(nèi)容屬性,例如,姓名、身份證號、手機號、銀行卡號、社??ㄌ柕?,分別得到:由該sql命令返回內(nèi)容各字段識別得出的第一內(nèi)容屬性和由該外發(fā)信息各字段識別得出的第二內(nèi)容屬性。緊接著對得到的該第一內(nèi)容屬性和該第二內(nèi)容屬性從整體的角度上識別出信息類型,例如,個人隱私、銷售數(shù)據(jù)、財務數(shù)據(jù)等,這是為了從采集到的所有數(shù)據(jù)中分別那些是不能被泄露的敏感數(shù)據(jù)。
s304:利用特征算法分別提取第一敏感數(shù)據(jù)文件和第二敏感數(shù)據(jù)文件的特征值,相應得到第一指紋特征庫和第二指紋特征庫;
s305:對第一指紋特征庫與第二指紋特征庫執(zhí)行匹配操作。
在經(jīng)過s303步驟的識別后得到的第一敏感數(shù)據(jù)文件和第二敏感數(shù)據(jù)文件后,利用特征算法分別提取它們的特征值,因為只要同一個敏感數(shù)據(jù)文件不被改變,在通過特征算法提取后,就會存在一個唯一對應的特征值,而匹配就是拿數(shù)據(jù)庫探針采集得到的第一敏感數(shù)據(jù)文件形成的第一指紋特征庫在互聯(lián)網(wǎng)出口探針所采集的第二敏感數(shù)據(jù)文件形成的第二指紋特征庫進行匹配,一旦匹配上了,就說明該第一敏感數(shù)據(jù)文件已經(jīng)能夠在互聯(lián)網(wǎng)出口位置找到,即該敏感數(shù)據(jù)文件已經(jīng)被泄露。
其中,數(shù)據(jù)文件的特征值,是指不同的數(shù)據(jù)文件按照不同的算法可以得到由唯一的數(shù)據(jù)文件所對應的唯一值,一旦數(shù)據(jù)文件被篡改或經(jīng)過處理,其唯一對應的值也會變化,從而突出了數(shù)據(jù)文件的唯一性,在實際使用中,一般使用特征值來驗校數(shù)據(jù)文件的完整性,以避免用戶得不到發(fā)布者發(fā)布的第一手數(shù)據(jù)文件。此處是用目標數(shù)據(jù)文件的特征值來判別是哪類數(shù)據(jù)文件,因為一般情況下并不對所有的數(shù)據(jù)文件進行處理。
而特征值的選取有很多種算法,本步驟例并不對此進行限定,用戶可以根據(jù)實際硬件計算能力和需求進行選擇。一般可以選用哈希算法來計算特征值,當然不止哈希算法一種可以用來計算特征值。其算法原理是通過對數(shù)據(jù)文件進行一種散列運算,得到數(shù)據(jù)文件唯一對應的一個值,而只要改變了數(shù)據(jù)文件,它所對應的這個值也會隨之改變,而md5算法作為現(xiàn)行哈希算法中最為常用的一種算法,廣泛使用md5特征值來驗校數(shù)據(jù)文件的完整性和有沒有經(jīng)過二次修改。
下面請參見圖4,圖4為本申請實施例所提供的再一種數(shù)據(jù)泄露的檢測方法的流程圖。
本實施例建立在一個具體的實際情景下,一個企業(yè)內(nèi)部員工通過業(yè)務系統(tǒng)對數(shù)據(jù)庫中的銷售數(shù)據(jù)進行泄露。
s401:在數(shù)據(jù)庫前面設(shè)置數(shù)據(jù)庫探針,采集數(shù)據(jù)庫協(xié)議流量;
s402:在互聯(lián)網(wǎng)出口處設(shè)置互聯(lián)網(wǎng)出口探針,采集內(nèi)網(wǎng)用戶的外發(fā)信息;
s403:在業(yè)務系統(tǒng)前面設(shè)置業(yè)務系統(tǒng)探針,采集對業(yè)務系統(tǒng)的訪問流量;
s404:審計數(shù)據(jù)庫協(xié)議流量中的sql命令返回內(nèi)容,并上報審計結(jié)果生成第一日志文件;
s405:上報訪問流量生成第二日志文件;
s406:分別識別sql命令返回內(nèi)容和外發(fā)信息中各字段的內(nèi)容屬性,得到含有客戶手機號碼的第一內(nèi)容屬性和第二內(nèi)容屬性;
s407:識別第一內(nèi)容屬性和第二內(nèi)容屬性的信息類型,得到第一銷售數(shù)據(jù)文件和第二銷售數(shù)據(jù)文件;
s408:利用hash算法分別提取第一銷售數(shù)據(jù)文件和第二銷售數(shù)據(jù)文件的hash值,相應得到第一指紋特征庫和第二指紋特征庫;
s409:對第一指紋特征庫與第二指紋特征庫執(zhí)行匹配操作;
s410:判斷是否匹配;
s411:第一、第二銷售數(shù)據(jù)文件為同一文件,并已泄露至互聯(lián)網(wǎng);
s412:通過第一日志文件與第二日志文件的關(guān)聯(lián),得到銷售數(shù)據(jù)完整的流向,并追查到泄露的企業(yè)職員。
基于上述技術(shù)方案,本申請實施例提供的數(shù)據(jù)泄露的檢測方法,通過設(shè)置在數(shù)據(jù)流向上的探針采集到的數(shù)據(jù)進行一系列處理,以判斷在數(shù)據(jù)流向的起始點和終點位置能否匹配到一致的敏感數(shù)據(jù)文件,來判斷是否有內(nèi)網(wǎng)的敏感數(shù)據(jù)文件被泄露至公網(wǎng),能夠在無法完全避免發(fā)生數(shù)據(jù)泄露的情況下,以一種改造量較小的、更全面的、更直觀的數(shù)據(jù)泄露的檢測方法,能夠查詢到被泄露的具體數(shù)據(jù)文件以及追查泄露源頭并對泄露源頭進行后續(xù)的追責。
上面提及的幾種方式,只是從實際出發(fā)提出的幾種具體例子,當然可以有其他的方式來達到同樣的效果,此處并不做具體限定。
下面請參見圖5,圖5為本申請實施例所提供的一種數(shù)據(jù)泄露的檢測系統(tǒng)的結(jié)構(gòu)框圖。
該系統(tǒng)可以包括:
探針單元100,用于利用探針采集數(shù)據(jù)庫到互聯(lián)網(wǎng)的數(shù)據(jù)流向上的數(shù)據(jù);其中,探針設(shè)置在數(shù)據(jù)流上;
匯總匹配單元200,用于對數(shù)據(jù)進行匯總,并對匯總的數(shù)據(jù)執(zhí)行敏感數(shù)據(jù)指紋特征匹配操作,若匹配成功,則敏感數(shù)據(jù)已經(jīng)泄露至互聯(lián)網(wǎng);其中,數(shù)據(jù)具體包括敏感數(shù)據(jù)以及一般數(shù)據(jù)。
其中,該探針單元100包括:
數(shù)據(jù)庫探針子單元,用于利用數(shù)據(jù)庫探針采集數(shù)據(jù)庫協(xié)議流量;其中,數(shù)據(jù)庫探針設(shè)置在數(shù)據(jù)庫的前端;
互聯(lián)網(wǎng)出口探針子單元,用于利用互聯(lián)網(wǎng)出口探針采集內(nèi)網(wǎng)用戶的外發(fā)信息;其中,互聯(lián)網(wǎng)出口探針設(shè)置在互聯(lián)網(wǎng)的出口處。
其中,該匯總匹配單元200包括:
審計子單元,用于審計數(shù)據(jù)庫協(xié)議流量中的sql命令返回內(nèi)容;
內(nèi)容屬性識別子單元,用于分別識別sql命令返回內(nèi)容和外發(fā)信息中各字段的內(nèi)容屬性,得到第一內(nèi)容屬性和第二內(nèi)容屬性;
信息類型識別子單元,用于分別識別第一內(nèi)容屬性和第二內(nèi)容屬性的信息類型,相應得到第一敏感數(shù)據(jù)文件和第二敏感數(shù)據(jù)文件;
特征提取子單元,用于利用特征算法分別提取第一敏感數(shù)據(jù)文件和第二敏感數(shù)據(jù)文件的特征值,相應得到第一指紋特征庫和第二指紋特征庫;
匹配子單元,用于對第一指紋特征庫與第二指紋特征庫執(zhí)行匹配操作。
進一步的,該探針單元100還可以包括:
業(yè)務系統(tǒng)探針子單元,用于利用業(yè)務系統(tǒng)探針采集對業(yè)務系統(tǒng)的訪問流量,并對訪問流量進行分析;其中,業(yè)務系統(tǒng)探針設(shè)置在在業(yè)務系統(tǒng)的前端。
進一步的,該系統(tǒng)還可以包括:
第一上報單元,用于對第一敏感數(shù)據(jù)文件的泄露行為進行預警和記錄,得到第一日志文件;
第二上報單元,用于上報審計sql命令返回內(nèi)容的結(jié)果,得到第二日志文件;
第三上報單元,用于上報外發(fā)信息,得到第三日志文件;
第四上報單元,用于上報訪問流量的分析結(jié)果,得到第四日志文件;
關(guān)聯(lián)單元,用于將第一日志文件與第四日志文件進行關(guān)聯(lián),得到第一敏感數(shù)據(jù)文件的整體流向;
磁盤預警單元,用于當?shù)谝蝗罩疚募?、第二日志文件、第三日志文件以及第四日志文件的體積占磁盤總體積的比例超過預設(shè)比例時,通過預設(shè)路徑通知管理員。
在實施例四中所舉的實際例子可以對應上述各單元:
可參見圖6和圖7,圖6為本申請實施例所提供的一種數(shù)據(jù)泄露的檢測系統(tǒng)中探針設(shè)置方式的結(jié)構(gòu)框圖;圖7為本申請實施例所提供的一種數(shù)據(jù)泄露的檢測系統(tǒng)中特征匹配方式的結(jié)構(gòu)框圖。
探針單元100下包括:
數(shù)據(jù)庫探針子單元,用于將數(shù)據(jù)庫探針部署在數(shù)據(jù)庫前面,采集數(shù)據(jù)庫協(xié)議流量,該數(shù)據(jù)庫協(xié)議流量包含業(yè)務系統(tǒng)請求數(shù)據(jù)和特權(quán)用戶操作的數(shù)據(jù),審計子單元用于審計sql命令返回內(nèi)容;并通過第一上報單元將記錄的審計結(jié)果生成日志文件上報到匯總匹配單元200,此探針可以是但不限于現(xiàn)有已成熟的數(shù)據(jù)庫審計系統(tǒng)。
業(yè)務系統(tǒng)探針子單元,用于將業(yè)務系統(tǒng)探針部署在業(yè)務系統(tǒng)前面,采集業(yè)務系統(tǒng)訪問流量,主要是分析業(yè)務系統(tǒng)數(shù)據(jù)收到的暴露面,分析業(yè)務系統(tǒng)收到的攻擊行為;并通過第四上報單元將分析結(jié)果生成日志文件上報到匯總匹配單元200,此探針可以但不限于是現(xiàn)有已成熟的下一代應用防火墻系統(tǒng)。
互聯(lián)網(wǎng)出口探針子單元,用于將互聯(lián)網(wǎng)出口探針部署在企業(yè)的互聯(lián)網(wǎng)出口,采集內(nèi)網(wǎng)用戶所有外發(fā)的信息,包含外發(fā)的文件、郵箱、im聊天信息、論壇微博內(nèi)容等;并通過第二上報單元將外發(fā)信息生成日志文件上報到匯總匹配單元200,此探針可以但不限于是現(xiàn)有已成熟的上網(wǎng)行為管理系統(tǒng)。
匯總匹配單元200,用于通過匯集數(shù)據(jù)庫探針、業(yè)務系統(tǒng)探針、互聯(lián)網(wǎng)出口探針上報的日志,通過掌握敏感數(shù)據(jù)的流動方向,然后通過機器學習和關(guān)聯(lián)分析等數(shù)據(jù)分析技術(shù)識別出數(shù)據(jù)泄密風險,從而起到數(shù)據(jù)泄密追蹤和數(shù)據(jù)泄密預警的作用。
進一步的,匯總匹配單元200除了支持泄密檢測,還支持日志備份恢復、磁盤預警功能。
其中,日志備份恢復,可將日志備份到外部存儲介質(zhì),達到容備的目的;同時支持將備份出來的日志導入到系統(tǒng)中,進行追溯作用;磁盤預警,可限制存儲日志最大占用磁盤比例,超過該比例將自動刪除最早一天的訪問控制日志,并通過郵件、短信等方式通知管理員;同時為了避免磁盤滿導致的系統(tǒng)異常問題,還支持最大占用磁盤百分比不超過90%保證機制,如果超出這個最大的百分比,則觸發(fā)自動刪除,確保系統(tǒng)可正常穩(wěn)定的工作。
說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其它實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的裝置而言,由于其與實施例公開的方法相對應,所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
專業(yè)人員還可以進一步意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本申請的范圍。
以上對本申請所提供的數(shù)據(jù)泄露的檢測方法及系統(tǒng)進行了詳細介紹。本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想。應當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本申請原理的前提下,還可以對本申請進行若干改進和修飾,這些改進和修飾也落入本申請權(quán)利要求的保護范圍內(nèi)。
還需要說明的是,在本說明書中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其它變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其它要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。