国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備與流程

      文檔序號:12305866閱讀:472來源:國知局
      一種流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備與流程

      本發(fā)明涉及一種流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備,屬于信息通信技術(shù)領(lǐng)域。本發(fā)明應(yīng)用于互聯(lián)網(wǎng)絡(luò)非涉密大數(shù)據(jù)的按需等級化共享領(lǐng)域,用于解決對網(wǎng)絡(luò)流通大數(shù)據(jù)的分析和數(shù)據(jù)挖掘以及網(wǎng)絡(luò)安全威脅態(tài)勢感知的技術(shù)問題。



      背景技術(shù):

      目前,互聯(lián)網(wǎng)絡(luò)通信及其應(yīng)用催生并承載著大數(shù)據(jù)時代。大數(shù)據(jù)不僅是網(wǎng)絡(luò)傳輸?shù)膽?yīng)用數(shù)據(jù)流通量大、速度高、類型多,更重要的是由于個性化行為的涌現(xiàn),使得互聯(lián)網(wǎng)成為既是一個開放的復(fù)雜巨系統(tǒng),而且其動態(tài)地承載著復(fù)雜和未知的問題,包括網(wǎng)絡(luò)安全威脅和風(fēng)險。

      互聯(lián)網(wǎng)的涌現(xiàn)emerging指的是在同一時期內(nèi)突然、大量的出現(xiàn)規(guī)律性群體行為,所具備的特點(diǎn)是:整體才有而個體不具備的非還原性非加和性;個體之間僅遵循簡單的相互作用、相互補(bǔ)充、相互制約的規(guī)則;從而產(chǎn)生規(guī)模和結(jié)構(gòu)性效應(yīng)。所表現(xiàn)出的統(tǒng)計特性是:大量遵從簡單規(guī)律的元素形成復(fù)雜的宏觀運(yùn)動,且往往是小概率事件觸發(fā)一次相變,從而可能導(dǎo)致整個系統(tǒng)的狀態(tài)變化。

      因此,對于互聯(lián)網(wǎng)大數(shù)據(jù),《還原論》reductionism已不再是范式,在系統(tǒng)復(fù)雜性領(lǐng)域的研究也顯現(xiàn)出力不從心。以數(shù)據(jù)為基礎(chǔ)的數(shù)學(xué)模型所表述的復(fù)雜系統(tǒng)展現(xiàn)出新的前景,并正迅速發(fā)展為一門新的學(xué)科—網(wǎng)絡(luò)科學(xué)。

      事實(shí)證明,不論是加強(qiáng)網(wǎng)絡(luò)安全防御措施,還是提升態(tài)勢感知能力;無論是促進(jìn)社會和產(chǎn)業(yè)發(fā)展,或是對于科學(xué)研究的探索,其必要條件之一是共享數(shù)據(jù),尤其是,當(dāng)且僅當(dāng)大數(shù)據(jù)被共享,其價值和作用才能得以挖掘及體現(xiàn)。但是,目前共享數(shù)據(jù)面臨著挑戰(zhàn),包括:敏感數(shù)據(jù)的泄漏,個人隱私的曝光,甚至某些開放的數(shù)據(jù)被彼方作為開源情報osint收集。另一方面。值得關(guān)注的一個普遍現(xiàn)象是:一端是云建設(shè)的數(shù)據(jù)大遷徙后數(shù)據(jù)不得出門,而另一端卻是在缺少真實(shí)、完整數(shù)據(jù)的環(huán)境下做著大數(shù)據(jù)分析工作或經(jīng)驗(yàn)使然的千人一面解決方案。其中,大數(shù)據(jù)與大數(shù)據(jù)共享及分析之間存在一個亟待解決的瓶頸及剛需,即數(shù)據(jù)脫敏desensitization。

      確保數(shù)據(jù)隱私權(quán)已成為許多受監(jiān)管行業(yè)的法規(guī)之一,數(shù)據(jù)脫敏是生產(chǎn)系統(tǒng)強(qiáng)制執(zhí)行數(shù)據(jù)保護(hù)工作的手段之一,依據(jù)既定的敏感信息使用規(guī)則屏蔽業(yè)務(wù)系統(tǒng)中數(shù)據(jù)的敏感信息,保障生產(chǎn)數(shù)據(jù)在非生產(chǎn)環(huán)境中安全使用,防止敏感信息泄露。例如,電話號碼87652129能被屏蔽為****2129。

      然而,生產(chǎn)系統(tǒng)的綜合數(shù)據(jù)不同于網(wǎng)絡(luò)通信應(yīng)用的流式streaming數(shù)據(jù)。不失一般性,大數(shù)據(jù)能分為生產(chǎn)性即外延型及格式化存儲和流通性即密集型及非格式化交換,其差別包括:

      由于分析及處置必須區(qū)分?jǐn)?shù)據(jù)基本類型,數(shù)據(jù)脫敏的方法和所采用的技術(shù)手段也不盡相同。目前,對流式密集型數(shù)據(jù)的脫敏還處在相對薄弱或模糊階段,并由此襯托出大數(shù)據(jù)挑戰(zhàn)的實(shí)質(zhì):將海量的數(shù)據(jù)流轉(zhuǎn)換為信息,以發(fā)現(xiàn)關(guān)鍵未知和支持及時決策。

      從大數(shù)據(jù)的視角,網(wǎng)絡(luò)通信應(yīng)用所產(chǎn)生的是典型的流式密集型數(shù)據(jù)streamingdata-intensive。在數(shù)據(jù)采集和存儲的領(lǐng)域,網(wǎng)絡(luò)通信應(yīng)用數(shù)據(jù)流的集合有時被稱為全數(shù)據(jù)。對于如此高速、多變且持續(xù)增長的海量數(shù)據(jù),完整、可用地處理全數(shù)據(jù)幾乎不可能實(shí)現(xiàn),往往不得不采用傳統(tǒng)的采樣技術(shù)而導(dǎo)致數(shù)據(jù)不可恢復(fù)地丟失及信息不可避免地失真。

      鑒于數(shù)據(jù)脫敏的主要目的是為了信息共享及數(shù)據(jù)分析,因此根據(jù)流式密集型數(shù)據(jù)的基本屬性,本發(fā)明把全數(shù)據(jù)分為元數(shù)據(jù)和原數(shù)據(jù):

      參考都柏林核心元數(shù)據(jù)dublincore的規(guī)范和應(yīng)用,元數(shù)據(jù)的基本作用由兩個部分所組成:a.必要性-元數(shù)據(jù)定義的規(guī)范化,既與業(yè)務(wù)和應(yīng)用相關(guān)、簡單明了,又能夠成為一般或特殊分析需要的線索點(diǎn)或異常發(fā)現(xiàn)的索引;b.重要性-元數(shù)據(jù)的采集和分析,把大數(shù)據(jù)分解為小數(shù)據(jù),為線索點(diǎn)提供擴(kuò)展和關(guān)聯(lián)信息以及知識發(fā)現(xiàn)?;谠獢?shù)據(jù)的全景采集和全息分類,本發(fā)明針對流式密集型數(shù)據(jù)的脫敏是有規(guī)則、有策略、有訓(xùn)練和學(xué)習(xí)的有界泛化計算。

      對流式密集型數(shù)據(jù)中元數(shù)據(jù)的全景采集和全息分類是現(xiàn)有技術(shù)。

      由于流式密集型數(shù)據(jù)的脫敏綜合了通信密集型任務(wù)的重復(fù)性和計算密集型任務(wù)的學(xué)習(xí)性的特點(diǎn),依靠純軟件或軟件架構(gòu)的系統(tǒng)難以實(shí)現(xiàn)對流式密集型數(shù)據(jù)脫敏處理。對于通用cpu,元數(shù)據(jù)流脫敏的有界泛化計算靈活多變的任務(wù)越多,花費(fèi)在任務(wù)切換的時間就越多,cpu執(zhí)行任務(wù)的效率就越低。此外,cpu需要通過網(wǎng)卡接收和發(fā)送數(shù)據(jù),對流式數(shù)據(jù)的調(diào)度、等待、處理以及輸入和輸出,簡稱為io,的開銷也不可避免地增加了資源的浪費(fèi)和操作延時的不確定性。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明針對大數(shù)據(jù)的特點(diǎn)以及基本類型和屬性,克服通用cpu的技術(shù)和應(yīng)用缺陷,提出一種流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備。所述流式密集型數(shù)據(jù)脫敏方法即streamingdata-intensivedesensitization,以下簡稱sdid。

      本發(fā)明的流式密集型數(shù)據(jù)脫敏方法的核心技術(shù)構(gòu)思是:以在線采集、實(shí)時過濾、離線關(guān)聯(lián)網(wǎng)絡(luò)通信應(yīng)用中的元數(shù)據(jù)流為目標(biāo),有針對性地分類、聚合、關(guān)聯(lián)并依據(jù)規(guī)范化的數(shù)據(jù)共享等級規(guī)則和策略配置以及定制化白名單,創(chuàng)建有界的數(shù)據(jù)泛化應(yīng)用模型和技術(shù)以及創(chuàng)新流式密集型數(shù)據(jù)脫敏的模式和設(shè)備。

      本發(fā)明的流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備能夠及時、動態(tài)地按規(guī)則和策略對流式密集型數(shù)據(jù)脫敏,以可控的數(shù)據(jù)失真度,支持了網(wǎng)絡(luò)通信流通大數(shù)據(jù)的按需等級化共享和相應(yīng)的數(shù)據(jù)分析。

      在iso/iec27002:2005信息安全標(biāo)準(zhǔn)中定義了數(shù)據(jù)資產(chǎn)的三個安全屬性:保密性、完整性和可用性。尤其是對于國家關(guān)鍵信息基礎(chǔ)設(shè)施,信息安全需要數(shù)據(jù)分析,數(shù)據(jù)分析必須數(shù)據(jù)共享,數(shù)據(jù)共享涉及數(shù)據(jù)資產(chǎn),而三個安全屬性對于不同的應(yīng)用場景和受眾有不同的現(xiàn)實(shí)內(nèi)涵,例如:國家安全nationalsecurity與公共安全publicsafety。

      從網(wǎng)絡(luò)運(yùn)營類型的構(gòu)成,互聯(lián)網(wǎng)絡(luò)劃分為包括國內(nèi)和國際的公共互聯(lián)網(wǎng)絡(luò)和包括政府和行業(yè)專屬局域網(wǎng)絡(luò),專屬局域網(wǎng)絡(luò)接入公共互聯(lián)網(wǎng)絡(luò)的連接部即為網(wǎng)絡(luò)邊界perimeter,在本發(fā)明中稱之為網(wǎng)際,并與云際同義。從專屬局域網(wǎng)絡(luò)的角度來看,互聯(lián)網(wǎng)業(yè)務(wù)和應(yīng)用數(shù)據(jù)與公共互聯(lián)網(wǎng)絡(luò)的交互通過網(wǎng)際流通,而且是網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)奈ㄒ宦窂?,在本發(fā)明中稱之為第一公里。

      從應(yīng)用安全管理的需求,只有在網(wǎng)際所述第一公里所實(shí)時監(jiān)測和分類采集的流式密集型數(shù)據(jù)能夠具備全景和全息,其中元數(shù)據(jù)的集合被作為是大數(shù)據(jù)治理和支配的鳥瞰視圖birds-eye-view以適應(yīng)對網(wǎng)絡(luò)流通大數(shù)據(jù)分析的完整性和可用性。

      從元數(shù)據(jù)預(yù)處理的實(shí)現(xiàn)在實(shí)際應(yīng)用中得到改進(jìn)和完善,但是尚需要建立流式密集型數(shù)據(jù)脫敏方法的規(guī)則和技術(shù)手段以保障數(shù)據(jù)共享和數(shù)據(jù)分析的脫敏即保密性。

      本發(fā)明所述流式密集型數(shù)據(jù)脫敏方法的原理如下:數(shù)據(jù)脫敏的主要目的為了數(shù)據(jù)分析的數(shù)據(jù)共享,因此泛化計算不僅使數(shù)據(jù)脫敏,而且需要保留數(shù)據(jù)類與類之間的繼承關(guān)系,即泛化計算誤差最小。通常,在偏差bias和方差variance之間有這樣一種規(guī)律:如果應(yīng)用模型過于簡單,其具有大的偏差;而如果應(yīng)用模型過于復(fù)雜,其就有大的方差。調(diào)整模型的復(fù)雜度,建立適當(dāng)?shù)恼`差模型,就變得極其重要了。為此,針對具體的應(yīng)用目標(biāo),本發(fā)明的數(shù)據(jù)泛化計算簡化為二分類問題,即定義輸入元數(shù)據(jù)的類標(biāo)簽v{0,1},其中0標(biāo)記不需要脫敏的數(shù)據(jù),1標(biāo)記需要脫敏的數(shù)據(jù)。相應(yīng)地,定義第一級對于輸入元數(shù)據(jù)流所分割的數(shù)據(jù)域所包含m個字段域的有序集合f={f1,f2,…,fm},定義第二級對應(yīng)于f的m個脫敏字段域的有窮集合h={h1,h2,…,hm},其中h是由映射函數(shù)g構(gòu)成。進(jìn)一步,定義第三級的映射函數(shù)g(r,s,q),其中:r是共享規(guī)則;s是定制策略;q是分析需求。對應(yīng)于每一個脫敏字段域,映射函數(shù)g(r,s,q)被調(diào)用執(zhí)行泛化計算產(chǎn)生n個字段域,n作為線性決策范圍邊界,被量化為m×n的矩陣,并且g的匹配算法彈性地修正,使訓(xùn)練誤差和泛化誤差的接近程度小于一個常數(shù)c的概率有下界,保證泛化計算誤差在有界范圍內(nèi)趨于一致收斂。sdid包括了數(shù)據(jù)脫敏的訓(xùn)練和學(xué)習(xí),在所述的有窮集合和有界匹配的維度上對標(biāo)記元數(shù)據(jù)的泛化計算。所涉及的模型包括:策略和規(guī)則的量化,誤差訓(xùn)練和學(xué)習(xí),映射及匹配。sdid的基本工作流程是,通過規(guī)則仲裁,提取需要脫敏的字段域,并在完成所述的泛化計算后,對輸出元數(shù)據(jù)流進(jìn)行分片簽名以防篡改。sdid的基本工作流程通過管道pipeline并行異步操作,sdid的基本工作流程包括對非脫敏字段域的同步處理以及對元數(shù)據(jù)流輸入和輸出的調(diào)度。

      本發(fā)明的數(shù)據(jù)脫敏設(shè)備包括:現(xiàn)場可編程門陣列fpga,三態(tài)內(nèi)容尋址存儲器tcam,雙倍速率同步動態(tài)隨機(jī)存儲器ddrsdram,多核網(wǎng)絡(luò)處理器、可擴(kuò)展連接背板;所述fpga通過數(shù)據(jù)鏈路和數(shù)據(jù)通道連接元數(shù)據(jù)前端預(yù)處理設(shè)備,所述多核網(wǎng)絡(luò)處理器通過數(shù)據(jù)鏈路輸出脫敏數(shù)據(jù)流,所述fpga和所述tcam通過數(shù)據(jù)通道連接所述ddrsdram,所述多核網(wǎng)絡(luò)處理器通過數(shù)據(jù)通道連接可擴(kuò)展背板。所述雙倍速率同步動態(tài)隨機(jī)存儲器ddrsdram分別與現(xiàn)場可編程門陣列fpga、三態(tài)內(nèi)容尋址存儲器tcam連接;所述現(xiàn)場可編程門陣列fpga與三態(tài)內(nèi)容尋址存儲器tcam連接;所述現(xiàn)場可編程門陣列fpga、多核網(wǎng)絡(luò)處理器、可擴(kuò)展背板依次連接。

      本發(fā)明所述流式密集型數(shù)據(jù)脫敏方法包括以下步驟:

      1、當(dāng)元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流到達(dá)sdid設(shè)備時,fpga依據(jù)fpga中內(nèi)置的規(guī)則仲裁和調(diào)度軟件提取所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中的相應(yīng)字段及域段;執(zhí)行所述規(guī)則仲裁,并將所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中無需脫敏的其它字段有序傳遞給多核網(wǎng)絡(luò)處理器;

      2、所述fpga通過查詢tcam執(zhí)行對所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中的相應(yīng)字段脫敏策略的邊界學(xué)習(xí),完成數(shù)據(jù)脫敏泛化計算并傳遞給多核網(wǎng)絡(luò)處理器;

      3、所述tcam為數(shù)據(jù)脫敏的泛化計算提供量化策略的精確和模糊匹配,所述ddrsdram提供定制化的計算邊界及執(zhí)行狀態(tài)的可視化;

      4、所述多核網(wǎng)絡(luò)處理器對接收到的所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流進(jìn)行分片防篡改簽名,并定向地轉(zhuǎn)發(fā)輸出;

      5、所述fpga檢測所述多核網(wǎng)絡(luò)處理器的數(shù)據(jù)轉(zhuǎn)發(fā)延時狀態(tài),將檢測信息反饋給所述前端元數(shù)據(jù)預(yù)處理設(shè)備,動態(tài)地調(diào)度所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流的輸入和輸出速率以避免擁塞;

      6、所述fpga對當(dāng)前接收到所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流執(zhí)行所述規(guī)則仲裁,所述tcam訪問所述ddrsdram,更新量化的規(guī)則和策略;

      7、所述fpga采取多級流水線管道,以所述前端元數(shù)據(jù)預(yù)處理設(shè)備的傳輸網(wǎng)絡(luò)元數(shù)據(jù)流的協(xié)議特征和物理特點(diǎn)、邏輯屬性以及關(guān)系特征的組合為目標(biāo),實(shí)施并行異步的可編程操作;

      8、所述ddrsdram提供可視化的接口及可視化的圖形呈現(xiàn)并按需調(diào)整規(guī)則和策略配置;

      9、所述fpga記憶同一類型網(wǎng)絡(luò)通信業(yè)務(wù)應(yīng)用的所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中數(shù)據(jù)字段的段點(diǎn)和域點(diǎn)、數(shù)據(jù)類型、數(shù)據(jù)內(nèi)涵以及數(shù)據(jù)格式,且fpga的無指令、無需共享內(nèi)存的體系結(jié)構(gòu)具備重復(fù)性計算的高效和延時的穩(wěn)定以及可編程的靈活性和適用性;

      10、所述元數(shù)據(jù)前端預(yù)處理設(shè)備是一個級聯(lián)系統(tǒng),所述元數(shù)據(jù)前端預(yù)處理設(shè)備能夠?qū)λ鲈獢?shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流的目標(biāo)定義和規(guī)范實(shí)現(xiàn)以及對所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)傳輸流速率控制調(diào)度反饋信號的響應(yīng)。

      11、所述數(shù)據(jù)脫敏設(shè)備即sdid設(shè)備實(shí)現(xiàn)數(shù)據(jù)脫敏泛化計算功能、所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流輸入和輸出同步的調(diào)度功能、脫敏數(shù)據(jù)輸出防篡改簽名功能以及脫敏數(shù)據(jù)定向和重定向轉(zhuǎn)發(fā)輸出功能。

      所述sdid設(shè)備的電路板設(shè)置有高速背板接口,通過高速背板接口,一塊連接背板能將多個sdid設(shè)備連接在一起并擴(kuò)展成為更高性能的刀片式blade高集成度的系統(tǒng)。

      本發(fā)明流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備的優(yōu)點(diǎn)是能夠大大地提高網(wǎng)絡(luò)流通大數(shù)據(jù)的共享程度及范圍,改進(jìn)數(shù)據(jù)分析所必須的基本條件和環(huán)境,從而加強(qiáng)對互聯(lián)網(wǎng)絡(luò)所涌現(xiàn)個性行為和未知風(fēng)險的發(fā)現(xiàn)、威懾及深度監(jiān)管,為態(tài)勢感知和決策支持提供完整、可用的定量參考依據(jù)。本發(fā)明的流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備能夠及時、動態(tài)地按規(guī)則和策略對流式密集型數(shù)據(jù)脫敏,以可控的數(shù)據(jù)失真度支持了網(wǎng)絡(luò)通信流通大數(shù)據(jù)的按需等級化共享和相應(yīng)的數(shù)據(jù)分析。本發(fā)明流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備的優(yōu)點(diǎn)是能夠進(jìn)行并行異步的數(shù)據(jù)泛化計算、同步的策略匹配以及線性決策邊界擴(kuò)展,提供定制化可編程的能力,滿足了對流式密集型數(shù)據(jù)脫敏的應(yīng)用需求,支持了網(wǎng)絡(luò)通信應(yīng)用大數(shù)據(jù)的共享以及相應(yīng)數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用的發(fā)展剛需,并能夠高速、即時地按規(guī)則和策略進(jìn)行非涉密數(shù)據(jù)的脫敏。

      附圖說明

      圖1是本發(fā)明所述方法的元數(shù)據(jù)采集和預(yù)處理及元數(shù)據(jù)脫敏的應(yīng)用場景示意圖;

      圖2是本發(fā)明所述方法的元數(shù)據(jù)的基本集合和來源及其關(guān)聯(lián)關(guān)系示意圖;

      圖3是本發(fā)明所述方法的數(shù)據(jù)共享規(guī)則紅綠燈協(xié)議tlp示意圖;

      圖4是本發(fā)明所述方法的流式密集型數(shù)據(jù)脫敏泛化計算的三維邊界示意圖;

      圖5是本發(fā)明所述方法的流式密集型數(shù)據(jù)脫敏泛化計算的映射與量化矩陣關(guān)系示意圖;

      圖6是本發(fā)明所述方法的流式密集型數(shù)據(jù)脫敏泛化計算的流程示意圖;

      圖7是本發(fā)明所述方法的流式密集型數(shù)據(jù)脫敏泛化計算的并行異步處理示意圖;

      圖8是本發(fā)明所述流式密集型數(shù)據(jù)脫敏設(shè)備的結(jié)構(gòu)示意圖;

      圖9是本發(fā)明所述方法的流程示意圖;

      圖10是本發(fā)明所述方法的流式密集型數(shù)據(jù)流的二分類(0,1)及域和段標(biāo)識仲裁示意圖;

      附圖8-10標(biāo)記說明如下:

      1-搭載sdid設(shè)備的數(shù)據(jù)脫敏泛化計算模塊的fpga現(xiàn)場可編程門陣列,2-搭載sdid設(shè)備的量化策略匹配軟件模塊的tcam三態(tài)內(nèi)容尋址存儲器,3-搭載sdid設(shè)備的所執(zhí)行定制化規(guī)則和策略的ddrsdram雙倍速率同步動態(tài)隨機(jī)存儲器,4-搭載sdid設(shè)備的輸出數(shù)據(jù)防篡改簽名以及脫敏數(shù)據(jù)定向轉(zhuǎn)發(fā)軟件模塊的多核網(wǎng)絡(luò)處理器,5-可擴(kuò)展連接背板系統(tǒng),11-數(shù)據(jù)輸入鏈路ge或10ge,12-數(shù)據(jù)高速傳輸通道pci-e,13-信號傳輸通道,14-數(shù)據(jù)輸出鏈路ge,15-系統(tǒng)通信數(shù)據(jù)通道接口,20-元數(shù)據(jù)流輸入的時間戳,21-元數(shù)據(jù)輸入的流速f1,30-數(shù)據(jù)脫敏模塊泛化計算的時間戳,31-數(shù)據(jù)脫敏模塊傳遞數(shù)據(jù)的速率,40-脫敏數(shù)據(jù)輸出模塊操作的時間戳,41-元數(shù)據(jù)輸出的流速f2,50-元數(shù)據(jù)流輸入和輸出的延時補(bǔ)償t。60-輸入的元數(shù)據(jù)流,61-域點(diǎn)即記錄之間的劃分和62-段點(diǎn)即字段之間的分隔以及0-1分類的仲裁標(biāo)識。

      具體實(shí)施方式

      下面結(jié)合附圖1-10,詳細(xì)說明本發(fā)明的具體實(shí)施方式。

      如圖8所示,本發(fā)明的數(shù)據(jù)脫敏設(shè)備包括:現(xiàn)場可編程門陣列fpga1,三態(tài)內(nèi)容尋址存儲器tcam2,雙倍速率同步動態(tài)隨機(jī)存儲器ddrsdram3,多核網(wǎng)絡(luò)處理器4、可擴(kuò)展連接背板5;所述fpga1通過數(shù)據(jù)鏈路11和數(shù)據(jù)通道13連接元數(shù)據(jù)前端預(yù)處理設(shè)備,所述多核網(wǎng)絡(luò)處理器4通過數(shù)據(jù)鏈路14輸出脫敏數(shù)據(jù)流,所述fpga1和所述tcam2通過數(shù)據(jù)通道12連接所述ddrsdram3,所述多核網(wǎng)絡(luò)處理器4通過數(shù)據(jù)通道15連接可擴(kuò)展背板5。所述雙倍速率同步動態(tài)隨機(jī)存儲器ddrsdram3分別與現(xiàn)場可編程門陣列fpga1、三態(tài)內(nèi)容尋址存儲器tcam2連接;所述現(xiàn)場可編程門陣列fpga1與三態(tài)內(nèi)容尋址存儲器tcam2連接;所述現(xiàn)場可編程門陣列fpga1、多核網(wǎng)絡(luò)處理器4、可擴(kuò)展背板5依次連接。

      本發(fā)明所述流式密集型數(shù)據(jù)脫敏方法包括以下步驟:

      1、當(dāng)元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流到達(dá)sdid設(shè)備時,fpga1依據(jù)fpga1中內(nèi)置的規(guī)則仲裁和調(diào)度軟件提取所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中的相應(yīng)字段及域段;執(zhí)行所述規(guī)則仲裁,并將所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中無需脫敏的其它字段有序傳遞給多核網(wǎng)絡(luò)處理器4;

      2、所述fpga1通過查詢tcam2執(zhí)行對所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中的相應(yīng)字段脫敏策略的邊界學(xué)習(xí),完成數(shù)據(jù)脫敏泛化計算并傳遞給多核網(wǎng)絡(luò)處理器4;

      3、所述tcam2為數(shù)據(jù)脫敏的泛化計算提供量化策略的精確和模糊匹配,所述ddrsdram3提供定制化的計算邊界及執(zhí)行狀態(tài)的可視化;

      4、所述多核網(wǎng)絡(luò)處理器4對接收到的所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流進(jìn)行分片防篡改簽名,并定向地轉(zhuǎn)發(fā)輸出;

      5、所述fpga1檢測所述多核網(wǎng)絡(luò)處理器4的數(shù)據(jù)轉(zhuǎn)發(fā)延時狀態(tài),將檢測信息反饋給所述前端元數(shù)據(jù)預(yù)處理設(shè)備,動態(tài)地調(diào)度所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流的輸入和輸出速率以避免擁塞;

      6、所述fpga1對當(dāng)前接收到所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流執(zhí)行所述規(guī)則仲裁,所述tcam2訪問所述ddrsdram3,更新量化的規(guī)則和策略;

      7、所述fpga1采取多級流水線管道,以所述前端元數(shù)據(jù)預(yù)處理設(shè)備的傳輸網(wǎng)絡(luò)元數(shù)據(jù)流的協(xié)議特征和物理特點(diǎn)、邏輯屬性以及關(guān)系特征的組合為目標(biāo),實(shí)施并行異步的可編程操作;

      8、所述ddrsdram3提供可視化的接口及可視化的圖形呈現(xiàn)并按需調(diào)整規(guī)則和策略配置;

      9、所述fpga1記憶同一類型網(wǎng)絡(luò)通信業(yè)務(wù)應(yīng)用的所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中數(shù)據(jù)字段的段點(diǎn)和域點(diǎn)、數(shù)據(jù)類型、數(shù)據(jù)內(nèi)涵以及數(shù)據(jù)格式,且fpga1的無指令、無需共享內(nèi)存的體系結(jié)構(gòu)具備重復(fù)性計算的高效和延時的穩(wěn)定以及可編程的靈活性和適用性;

      10、所述元數(shù)據(jù)前端預(yù)處理設(shè)備是一個級聯(lián)系統(tǒng),所述元數(shù)據(jù)前端預(yù)處理設(shè)備能夠?qū)λ鲈獢?shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流的目標(biāo)定義和規(guī)范實(shí)現(xiàn)以及對所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)傳輸流速率控制調(diào)度反饋信號的響應(yīng)。

      11、所述數(shù)據(jù)脫敏設(shè)備即sdid設(shè)備實(shí)現(xiàn)數(shù)據(jù)脫敏泛化計算功能、所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流輸入和輸出同步的調(diào)度功能、脫敏數(shù)據(jù)輸出防篡改簽名功能以及脫敏數(shù)據(jù)定向和重定向轉(zhuǎn)發(fā)輸出功能。

      所述sdid設(shè)備的電路板設(shè)置有高速背板接口,通過高速背板接口,一塊連接背板能將多個sdid設(shè)備連接在一起并擴(kuò)展成為更高性能的刀片式blade高集成度的系統(tǒng)。

      互聯(lián)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)是一個復(fù)雜系統(tǒng),其表現(xiàn)為無界的互聯(lián)互通以及多種技術(shù)和多類應(yīng)用的融合;在互聯(lián)網(wǎng)絡(luò)中傳輸和流通的應(yīng)用數(shù)據(jù)是一個復(fù)雜問題,其表現(xiàn)為突現(xiàn)的或新加的涌現(xiàn)行為以及對其復(fù)合體行為特征和屬性的未知。

      因此,互聯(lián)網(wǎng)絡(luò)的流通大數(shù)據(jù)所面臨的問題是:將海量的數(shù)據(jù)流轉(zhuǎn)換為信息,以發(fā)現(xiàn)關(guān)鍵未知和支持及時決策;而所須應(yīng)對的是:復(fù)雜系統(tǒng)的復(fù)雜問題,并且是整體大于部分之和,即無法以孤立部分或加和還原的特征來解釋。

      對互聯(lián)網(wǎng)絡(luò)大數(shù)據(jù)深度分析和有效利用的必要條件之一是完整及可用的數(shù)據(jù)源,在網(wǎng)際采集互聯(lián)網(wǎng)絡(luò)流通大數(shù)據(jù)如圖1所示,不僅在第一公里具有全景和全息,而且有明確的應(yīng)用場景和受眾以及針對性和目標(biāo)性。另一方面,互聯(lián)網(wǎng)絡(luò)流通大數(shù)據(jù)的數(shù)據(jù)量并不等于信息量,從網(wǎng)絡(luò)傳輸?shù)娜珨?shù)據(jù)中過濾元數(shù)據(jù)的協(xié)議特征,并在實(shí)時監(jiān)測中附加觀察元數(shù)據(jù)的物理特點(diǎn);在預(yù)處理中分析關(guān)聯(lián)元數(shù)據(jù)的邏輯屬性;在深度解析中發(fā)現(xiàn)衍生元數(shù)據(jù)的關(guān)系特征,構(gòu)成多源互補(bǔ)的元數(shù)據(jù)集metadatasets,如圖2所示。其中,對網(wǎng)絡(luò)流通的應(yīng)用元數(shù)據(jù)的分類包括但不限于:通過檢測數(shù)據(jù)交互的協(xié)議特征采集元數(shù)據(jù);通過標(biāo)識數(shù)據(jù)傳輸?shù)奈锢硖攸c(diǎn)監(jiān)測元數(shù)據(jù);通過擴(kuò)展數(shù)據(jù)關(guān)系的邏輯屬性關(guān)聯(lián)元數(shù)據(jù);通過對過濾數(shù)據(jù)的行為分析衍生可追溯元數(shù)據(jù)。

      對互聯(lián)網(wǎng)絡(luò)大數(shù)據(jù)深度分析和有效利用的充分條件之一是數(shù)據(jù)共享,包括網(wǎng)絡(luò)安全威脅信息共享,為此對非涉密的數(shù)據(jù)共享的規(guī)則已被規(guī)范化,本發(fā)明中所述tlp是以圖3所示的“紅綠燈協(xié)議”trafficlightprotocol為共享數(shù)據(jù)的分類基礎(chǔ),用四種顏色:紅色1、黃色2、綠色3、白色4,直觀地定義并標(biāo)識共享數(shù)據(jù)的范圍等級,不僅靈活、直觀地適用于不同的應(yīng)用場景,而且能夠按需對共享數(shù)據(jù)做出適時的數(shù)據(jù)等級定義或數(shù)據(jù)等級調(diào)整。

      本發(fā)明所述的流式密集型數(shù)據(jù)脫敏泛化計算不同于對靜態(tài)存儲數(shù)據(jù)的一般性加密/解密、屏蔽、替換、置空、輪換的操作,而是基于如圖4所示有界的三個維度所建立學(xué)習(xí)模型、訓(xùn)練算法以及誤差評估及彈性修正模式。其中,數(shù)據(jù)共享等級規(guī)則r是基于tlp;量化的定制策略s是應(yīng)用于元數(shù)據(jù)流中具體字段域的泛化計算參數(shù)集合;數(shù)據(jù)訓(xùn)練及分析需求q是調(diào)整和修正泛化計算的參數(shù)集合,映射函數(shù)g所包含學(xué)習(xí)和訓(xùn)練算法在(r,s,q)三個維度的空間進(jìn)行泛化計算。

      本發(fā)明所述的量化包括,數(shù)字化、結(jié)構(gòu)化、非結(jié)構(gòu)化以及自定義的數(shù)據(jù)格式和定制化白名單,通過如圖4所示的映射函數(shù)g(r,s,q)計算表達(dá)為m×n的矩陣。如圖5所示,f={f1,f2,…,fm},即輸入元數(shù)據(jù)流的m個劃分字段域,通過映射函數(shù)g(r,s,q)轉(zhuǎn)換為h={h1,h2,…,hm},即輸出元數(shù)據(jù)流的m個脫敏字段域,其中,每個脫敏字段域?qū)?yīng)于一個有窮類泛化集合fi∈{aij},1≤i≤m,1≤j≤n,通過彈性調(diào)整誤差在集合{aij}線性決策并賦值fi。

      本發(fā)明的元數(shù)據(jù)泛化計算簡化為針對二分類(0-1)問題,即按既定規(guī)則仲裁元數(shù)據(jù)流中需要脫敏的數(shù)據(jù)字段域與不需要脫敏的數(shù)據(jù)字段域,如圖6所示描述元數(shù)據(jù)流的數(shù)據(jù)脫敏基本工作流程。

      為應(yīng)對元數(shù)據(jù)流輸入的實(shí)時和有序,本發(fā)明以管道pipeline模式流水處理所述的流式密集型數(shù)據(jù)及重復(fù)性任務(wù)的方法如下:

      由現(xiàn)場可編程門陣列完成所述數(shù)據(jù)脫敏泛化計算;三態(tài)內(nèi)容尋址存儲器提供量化策略的有界匹配;多核網(wǎng)絡(luò)處理器完成所述的防篡改數(shù)據(jù)的簽名計算,圖7給出并行異步計算以及同步輸入輸出過程的示意,其中的現(xiàn)場可編程門陣列fpga無指令、無需共享內(nèi)存的體系結(jié)構(gòu)提供強(qiáng)大的計算能力和足夠的靈活性;三態(tài)內(nèi)容尋址存儲器tcam的匹配速度不受表項(xiàng)空間數(shù)據(jù)大小影響,每個時鐘周期完成一次查找。如圖7所示,形成管道流水處理的現(xiàn)場可編程門陣列fpga是級聯(lián)方式或嵌入模式以滿足所述的計算功能以及必需性能;與tcam和ddrsdram異步完成調(diào)度、提取、學(xué)習(xí)、計算的操作;與多核網(wǎng)絡(luò)處理器并行輸出脫敏數(shù)據(jù)流,包括對元數(shù)據(jù)流輸入/輸出的控制反饋。

      如圖10所示,由于輸入的元數(shù)據(jù)流已做過分類預(yù)處理,數(shù)據(jù)流脫敏能對同類元數(shù)據(jù)流的數(shù)據(jù)域和字段域段執(zhí)行同結(jié)構(gòu)、同規(guī)則、同計算的可記憶操作。其中,對于所輸入的元數(shù)據(jù)流,數(shù)據(jù)域是由一個數(shù)據(jù)包或報文中承載的所有元數(shù)據(jù)所組成,以所述域點(diǎn)分隔;字段域是該數(shù)據(jù)域中的一個元數(shù)據(jù),以所述段點(diǎn)劃分。

      如圖8所示,當(dāng)經(jīng)過預(yù)處理的元數(shù)據(jù)流通過數(shù)據(jù)鏈路11到達(dá)所述sdid設(shè)備時,所述搭載sdid設(shè)備的數(shù)據(jù)脫敏泛化計算模塊的fpga1(以下簡稱模塊fpga1)進(jìn)行如下并行異步的操作:依據(jù)規(guī)則仲裁字段或字域,提取需要脫敏的字段,通過數(shù)據(jù)通道12與所述搭載sdid設(shè)備的量化策略匹配軟件模塊的tcam2(以下簡稱模塊tcam2)交互完成訓(xùn)練和學(xué)習(xí),包括泛化計算,并通過數(shù)據(jù)通道12向所述搭載sdid設(shè)備的輸出數(shù)據(jù)防篡改簽名以及脫敏數(shù)據(jù)定向轉(zhuǎn)發(fā)軟件模塊的多核網(wǎng)絡(luò)處理器4(以下簡稱模塊多核網(wǎng)絡(luò)處理器4)傳遞數(shù)據(jù),包括不需要脫敏的數(shù)據(jù);同步地,作為搭載sdid設(shè)備的所執(zhí)行定制化規(guī)則和策略的ddrsdram3(以下簡稱模塊ddrsdram3)通過可視化圖形呈現(xiàn)定義規(guī)則和表述策略;所述模塊fpga1和所述模塊tcam2通過數(shù)據(jù)通道12接受所述模塊ddrsdram3的信息更新;所述模塊多核網(wǎng)絡(luò)處理器4對已脫敏數(shù)據(jù)分片簽名防篡改以及通過數(shù)據(jù)通道14有序輸出,并將數(shù)據(jù)輸出狀態(tài)通過數(shù)據(jù)通道12傳遞給所述模塊fpga1;所述模塊fpga1通過數(shù)據(jù)通道13完成對輸入元數(shù)據(jù)流的流量控制。所述模塊和數(shù)據(jù)通道均在一塊高速電路板pcb上布局布線,包括內(nèi)嵌的系統(tǒng)通信數(shù)據(jù)通道接口15,與可擴(kuò)展的連接背板系統(tǒng)5構(gòu)成更大處理能力的數(shù)據(jù)脫敏系統(tǒng)。借助于現(xiàn)場可編程門陣列fpga和三態(tài)內(nèi)容尋址存儲器tcam以及多核網(wǎng)絡(luò)處理器multicorenp的硬件特點(diǎn)及能力,利用軟件定義的算法及編程,所述脫敏設(shè)備以穩(wěn)定的延時和吞吐量,實(shí)現(xiàn)對流式密集型數(shù)據(jù)脫敏的泛化計算及重復(fù)性多任務(wù)。

      如圖9所示,從元數(shù)據(jù)流輸入時間戳20到元數(shù)據(jù)流輸入時間戳40的延時是δ=t4-t0,其中所述數(shù)據(jù)脫敏泛化計算所需要的時間是δ1=t2-t1;所述脫敏數(shù)據(jù)簽名計算所需要的時間是δ2=t4-t3;延時δ=δ1+δ2,并且是線性常數(shù)c,因此所述脫敏設(shè)備的泛化計算算法及數(shù)據(jù)處理延時的時間復(fù)雜性是o(c)。利用這個特性,能確定所述元數(shù)據(jù)流輸入f1和輸出f2的延時補(bǔ)償t50,進(jìn)而作為流量控制反饋信號的驅(qū)動,以保障所述管道pipeline的數(shù)據(jù)流水處理有序,且不會出現(xiàn)擁塞。

      以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明公開的范圍內(nèi),能夠輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明權(quán)利要求的保護(hù)范圍內(nèi)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1