一種流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備與流程

文檔序號：12305866閱讀：472來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備與流程

本發(fā)明涉及一種流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備,屬于信息通信技術(shù)領(lǐng)域。本發(fā)明應(yīng)用于互聯(lián)網(wǎng)絡(luò)非涉密大數(shù)據(jù)的按需等級化共享領(lǐng)域，用于解決對網(wǎng)絡(luò)流通大數(shù)據(jù)的分析和數(shù)據(jù)挖掘以及網(wǎng)絡(luò)安全威脅態(tài)勢感知的技術(shù)問題。

背景技術(shù)：

目前，互聯(lián)網(wǎng)絡(luò)通信及其應(yīng)用催生并承載著大數(shù)據(jù)時代。大數(shù)據(jù)不僅是網(wǎng)絡(luò)傳輸?shù)膽?yīng)用數(shù)據(jù)流通量大、速度高、類型多，更重要的是由于個性化行為的涌現(xiàn)，使得互聯(lián)網(wǎng)成為既是一個開放的復(fù)雜巨系統(tǒng)，而且其動態(tài)地承載著復(fù)雜和未知的問題，包括網(wǎng)絡(luò)安全威脅和風(fēng)險。

互聯(lián)網(wǎng)的涌現(xiàn)emerging指的是在同一時期內(nèi)突然、大量的出現(xiàn)規(guī)律性群體行為，所具備的特點(diǎn)是：整體才有而個體不具備的非還原性非加和性；個體之間僅遵循簡單的相互作用、相互補(bǔ)充、相互制約的規(guī)則；從而產(chǎn)生規(guī)模和結(jié)構(gòu)性效應(yīng)。所表現(xiàn)出的統(tǒng)計特性是：大量遵從簡單規(guī)律的元素形成復(fù)雜的宏觀運(yùn)動，且往往是小概率事件觸發(fā)一次相變，從而可能導(dǎo)致整個系統(tǒng)的狀態(tài)變化。

因此，對于互聯(lián)網(wǎng)大數(shù)據(jù)，《還原論》reductionism已不再是范式，在系統(tǒng)復(fù)雜性領(lǐng)域的研究也顯現(xiàn)出力不從心。以數(shù)據(jù)為基礎(chǔ)的數(shù)學(xué)模型所表述的復(fù)雜系統(tǒng)展現(xiàn)出新的前景，并正迅速發(fā)展為一門新的學(xué)科—網(wǎng)絡(luò)科學(xué)。

事實(shí)證明，不論是加強(qiáng)網(wǎng)絡(luò)安全防御措施，還是提升態(tài)勢感知能力；無論是促進(jìn)社會和產(chǎn)業(yè)發(fā)展，或是對于科學(xué)研究的探索，其必要條件之一是共享數(shù)據(jù)，尤其是，當(dāng)且僅當(dāng)大數(shù)據(jù)被共享，其價值和作用才能得以挖掘及體現(xiàn)。但是，目前共享數(shù)據(jù)面臨著挑戰(zhàn)，包括：敏感數(shù)據(jù)的泄漏，個人隱私的曝光，甚至某些開放的數(shù)據(jù)被彼方作為開源情報osint收集。另一方面。值得關(guān)注的一個普遍現(xiàn)象是：一端是云建設(shè)的數(shù)據(jù)大遷徙后數(shù)據(jù)不得出門，而另一端卻是在缺少真實(shí)、完整數(shù)據(jù)的環(huán)境下做著大數(shù)據(jù)分析工作或經(jīng)驗(yàn)使然的千人一面解決方案。其中，大數(shù)據(jù)與大數(shù)據(jù)共享及分析之間存在一個亟待解決的瓶頸及剛需，即數(shù)據(jù)脫敏desensitization。

確保數(shù)據(jù)隱私權(quán)已成為許多受監(jiān)管行業(yè)的法規(guī)之一，數(shù)據(jù)脫敏是生產(chǎn)系統(tǒng)強(qiáng)制執(zhí)行數(shù)據(jù)保護(hù)工作的手段之一，依據(jù)既定的敏感信息使用規(guī)則屏蔽業(yè)務(wù)系統(tǒng)中數(shù)據(jù)的敏感信息，保障生產(chǎn)數(shù)據(jù)在非生產(chǎn)環(huán)境中安全使用，防止敏感信息泄露。例如，電話號碼87652129能被屏蔽為****2129。

然而，生產(chǎn)系統(tǒng)的綜合數(shù)據(jù)不同于網(wǎng)絡(luò)通信應(yīng)用的流式streaming數(shù)據(jù)。不失一般性，大數(shù)據(jù)能分為生產(chǎn)性即外延型及格式化存儲和流通性即密集型及非格式化交換，其差別包括：

由于分析及處置必須區(qū)分?jǐn)?shù)據(jù)基本類型，數(shù)據(jù)脫敏的方法和所采用的技術(shù)手段也不盡相同。目前，對流式密集型數(shù)據(jù)的脫敏還處在相對薄弱或模糊階段，并由此襯托出大數(shù)據(jù)挑戰(zhàn)的實(shí)質(zhì)：將海量的數(shù)據(jù)流轉(zhuǎn)換為信息，以發(fā)現(xiàn)關(guān)鍵未知和支持及時決策。

從大數(shù)據(jù)的視角，網(wǎng)絡(luò)通信應(yīng)用所產(chǎn)生的是典型的流式密集型數(shù)據(jù)streamingdata-intensive。在數(shù)據(jù)采集和存儲的領(lǐng)域，網(wǎng)絡(luò)通信應(yīng)用數(shù)據(jù)流的集合有時被稱為全數(shù)據(jù)。對于如此高速、多變且持續(xù)增長的海量數(shù)據(jù)，完整、可用地處理全數(shù)據(jù)幾乎不可能實(shí)現(xiàn)，往往不得不采用傳統(tǒng)的采樣技術(shù)而導(dǎo)致數(shù)據(jù)不可恢復(fù)地丟失及信息不可避免地失真。

鑒于數(shù)據(jù)脫敏的主要目的是為了信息共享及數(shù)據(jù)分析，因此根據(jù)流式密集型數(shù)據(jù)的基本屬性，本發(fā)明把全數(shù)據(jù)分為元數(shù)據(jù)和原數(shù)據(jù)：

參考都柏林核心元數(shù)據(jù)dublincore的規(guī)范和應(yīng)用，元數(shù)據(jù)的基本作用由兩個部分所組成：a.必要性-元數(shù)據(jù)定義的規(guī)范化，既與業(yè)務(wù)和應(yīng)用相關(guān)、簡單明了，又能夠成為一般或特殊分析需要的線索點(diǎn)或異常發(fā)現(xiàn)的索引；b.重要性-元數(shù)據(jù)的采集和分析，把大數(shù)據(jù)分解為小數(shù)據(jù)，為線索點(diǎn)提供擴(kuò)展和關(guān)聯(lián)信息以及知識發(fā)現(xiàn)?；谠獢?shù)據(jù)的全景采集和全息分類，本發(fā)明針對流式密集型數(shù)據(jù)的脫敏是有規(guī)則、有策略、有訓(xùn)練和學(xué)習(xí)的有界泛化計算。

對流式密集型數(shù)據(jù)中元數(shù)據(jù)的全景采集和全息分類是現(xiàn)有技術(shù)。

由于流式密集型數(shù)據(jù)的脫敏綜合了通信密集型任務(wù)的重復(fù)性和計算密集型任務(wù)的學(xué)習(xí)性的特點(diǎn)，依靠純軟件或軟件架構(gòu)的系統(tǒng)難以實(shí)現(xiàn)對流式密集型數(shù)據(jù)脫敏處理。對于通用cpu，元數(shù)據(jù)流脫敏的有界泛化計算靈活多變的任務(wù)越多，花費(fèi)在任務(wù)切換的時間就越多，cpu執(zhí)行任務(wù)的效率就越低。此外，cpu需要通過網(wǎng)卡接收和發(fā)送數(shù)據(jù)，對流式數(shù)據(jù)的調(diào)度、等待、處理以及輸入和輸出，簡稱為io，的開銷也不可避免地增加了資源的浪費(fèi)和操作延時的不確定性。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明針對大數(shù)據(jù)的特點(diǎn)以及基本類型和屬性，克服通用cpu的技術(shù)和應(yīng)用缺陷，提出一種流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備。所述流式密集型數(shù)據(jù)脫敏方法即streamingdata-intensivedesensitization，以下簡稱sdid。

本發(fā)明的流式密集型數(shù)據(jù)脫敏方法的核心技術(shù)構(gòu)思是：以在線采集、實(shí)時過濾、離線關(guān)聯(lián)網(wǎng)絡(luò)通信應(yīng)用中的元數(shù)據(jù)流為目標(biāo)，有針對性地分類、聚合、關(guān)聯(lián)并依據(jù)規(guī)范化的數(shù)據(jù)共享等級規(guī)則和策略配置以及定制化白名單，創(chuàng)建有界的數(shù)據(jù)泛化應(yīng)用模型和技術(shù)以及創(chuàng)新流式密集型數(shù)據(jù)脫敏的模式和設(shè)備。

本發(fā)明的流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備能夠及時、動態(tài)地按規(guī)則和策略對流式密集型數(shù)據(jù)脫敏，以可控的數(shù)據(jù)失真度，支持了網(wǎng)絡(luò)通信流通大數(shù)據(jù)的按需等級化共享和相應(yīng)的數(shù)據(jù)分析。

在iso/iec27002:2005信息安全標(biāo)準(zhǔn)中定義了數(shù)據(jù)資產(chǎn)的三個安全屬性：保密性、完整性和可用性。尤其是對于國家關(guān)鍵信息基礎(chǔ)設(shè)施，信息安全需要數(shù)據(jù)分析，數(shù)據(jù)分析必須數(shù)據(jù)共享，數(shù)據(jù)共享涉及數(shù)據(jù)資產(chǎn)，而三個安全屬性對于不同的應(yīng)用場景和受眾有不同的現(xiàn)實(shí)內(nèi)涵，例如：國家安全nationalsecurity與公共安全publicsafety。

從網(wǎng)絡(luò)運(yùn)營類型的構(gòu)成，互聯(lián)網(wǎng)絡(luò)劃分為包括國內(nèi)和國際的公共互聯(lián)網(wǎng)絡(luò)和包括政府和行業(yè)專屬局域網(wǎng)絡(luò)，專屬局域網(wǎng)絡(luò)接入公共互聯(lián)網(wǎng)絡(luò)的連接部即為網(wǎng)絡(luò)邊界perimeter，在本發(fā)明中稱之為網(wǎng)際，并與云際同義。從專屬局域網(wǎng)絡(luò)的角度來看，互聯(lián)網(wǎng)業(yè)務(wù)和應(yīng)用數(shù)據(jù)與公共互聯(lián)網(wǎng)絡(luò)的交互通過網(wǎng)際流通，而且是網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)奈ㄒ宦窂?，在本發(fā)明中稱之為第一公里。

從應(yīng)用安全管理的需求，只有在網(wǎng)際所述第一公里所實(shí)時監(jiān)測和分類采集的流式密集型數(shù)據(jù)能夠具備全景和全息，其中元數(shù)據(jù)的集合被作為是大數(shù)據(jù)治理和支配的鳥瞰視圖birds-eye-view以適應(yīng)對網(wǎng)絡(luò)流通大數(shù)據(jù)分析的完整性和可用性。

從元數(shù)據(jù)預(yù)處理的實(shí)現(xiàn)在實(shí)際應(yīng)用中得到改進(jìn)和完善，但是尚需要建立流式密集型數(shù)據(jù)脫敏方法的規(guī)則和技術(shù)手段以保障數(shù)據(jù)共享和數(shù)據(jù)分析的脫敏即保密性。

本發(fā)明所述流式密集型數(shù)據(jù)脫敏方法的原理如下：數(shù)據(jù)脫敏的主要目的為了數(shù)據(jù)分析的數(shù)據(jù)共享，因此泛化計算不僅使數(shù)據(jù)脫敏，而且需要保留數(shù)據(jù)類與類之間的繼承關(guān)系，即泛化計算誤差最小。通常，在偏差bias和方差variance之間有這樣一種規(guī)律：如果應(yīng)用模型過于簡單，其具有大的偏差；而如果應(yīng)用模型過于復(fù)雜，其就有大的方差。調(diào)整模型的復(fù)雜度，建立適當(dāng)?shù)恼`差模型，就變得極其重要了。為此，針對具體的應(yīng)用目標(biāo)，本發(fā)明的數(shù)據(jù)泛化計算簡化為二分類問題，即定義輸入元數(shù)據(jù)的類標(biāo)簽v{0,1}，其中0標(biāo)記不需要脫敏的數(shù)據(jù)，1標(biāo)記需要脫敏的數(shù)據(jù)。相應(yīng)地，定義第一級對于輸入元數(shù)據(jù)流所分割的數(shù)據(jù)域所包含m個字段域的有序集合f＝{f1,f2,…,fm}，定義第二級對應(yīng)于f的m個脫敏字段域的有窮集合h＝{h1,h2,…,hm}，其中h是由映射函數(shù)g構(gòu)成。進(jìn)一步，定義第三級的映射函數(shù)g(r,s,q)，其中：r是共享規(guī)則；s是定制策略；q是分析需求。對應(yīng)于每一個脫敏字段域，映射函數(shù)g(r,s,q)被調(diào)用執(zhí)行泛化計算產(chǎn)生n個字段域，n作為線性決策范圍邊界，被量化為m×n的矩陣，并且g的匹配算法彈性地修正，使訓(xùn)練誤差和泛化誤差的接近程度小于一個常數(shù)c的概率有下界，保證泛化計算誤差在有界范圍內(nèi)趨于一致收斂。sdid包括了數(shù)據(jù)脫敏的訓(xùn)練和學(xué)習(xí)，在所述的有窮集合和有界匹配的維度上對標(biāo)記元數(shù)據(jù)的泛化計算。所涉及的模型包括：策略和規(guī)則的量化，誤差訓(xùn)練和學(xué)習(xí)，映射及匹配。sdid的基本工作流程是，通過規(guī)則仲裁，提取需要脫敏的字段域，并在完成所述的泛化計算后，對輸出元數(shù)據(jù)流進(jìn)行分片簽名以防篡改。sdid的基本工作流程通過管道pipeline并行異步操作，sdid的基本工作流程包括對非脫敏字段域的同步處理以及對元數(shù)據(jù)流輸入和輸出的調(diào)度。

本發(fā)明的數(shù)據(jù)脫敏設(shè)備包括：現(xiàn)場可編程門陣列fpga，三態(tài)內(nèi)容尋址存儲器tcam，雙倍速率同步動態(tài)隨機(jī)存儲器ddrsdram，多核網(wǎng)絡(luò)處理器、可擴(kuò)展連接背板；所述fpga通過數(shù)據(jù)鏈路和數(shù)據(jù)通道連接元數(shù)據(jù)前端預(yù)處理設(shè)備，所述多核網(wǎng)絡(luò)處理器通過數(shù)據(jù)鏈路輸出脫敏數(shù)據(jù)流，所述fpga和所述tcam通過數(shù)據(jù)通道連接所述ddrsdram，所述多核網(wǎng)絡(luò)處理器通過數(shù)據(jù)通道連接可擴(kuò)展背板。所述雙倍速率同步動態(tài)隨機(jī)存儲器ddrsdram分別與現(xiàn)場可編程門陣列fpga、三態(tài)內(nèi)容尋址存儲器tcam連接；所述現(xiàn)場可編程門陣列fpga與三態(tài)內(nèi)容尋址存儲器tcam連接；所述現(xiàn)場可編程門陣列fpga、多核網(wǎng)絡(luò)處理器、可擴(kuò)展背板依次連接。

本發(fā)明所述流式密集型數(shù)據(jù)脫敏方法包括以下步驟：

1、當(dāng)元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流到達(dá)sdid設(shè)備時，fpga依據(jù)fpga中內(nèi)置的規(guī)則仲裁和調(diào)度軟件提取所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中的相應(yīng)字段及域段；執(zhí)行所述規(guī)則仲裁，并將所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中無需脫敏的其它字段有序傳遞給多核網(wǎng)絡(luò)處理器；

2、所述fpga通過查詢tcam執(zhí)行對所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中的相應(yīng)字段脫敏策略的邊界學(xué)習(xí)，完成數(shù)據(jù)脫敏泛化計算并傳遞給多核網(wǎng)絡(luò)處理器；

3、所述tcam為數(shù)據(jù)脫敏的泛化計算提供量化策略的精確和模糊匹配，所述ddrsdram提供定制化的計算邊界及執(zhí)行狀態(tài)的可視化；

4、所述多核網(wǎng)絡(luò)處理器對接收到的所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流進(jìn)行分片防篡改簽名，并定向地轉(zhuǎn)發(fā)輸出；

5、所述fpga檢測所述多核網(wǎng)絡(luò)處理器的數(shù)據(jù)轉(zhuǎn)發(fā)延時狀態(tài)，將檢測信息反饋給所述前端元數(shù)據(jù)預(yù)處理設(shè)備，動態(tài)地調(diào)度所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流的輸入和輸出速率以避免擁塞；

6、所述fpga對當(dāng)前接收到所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流執(zhí)行所述規(guī)則仲裁，所述tcam訪問所述ddrsdram，更新量化的規(guī)則和策略；

7、所述fpga采取多級流水線管道，以所述前端元數(shù)據(jù)預(yù)處理設(shè)備的傳輸網(wǎng)絡(luò)元數(shù)據(jù)流的協(xié)議特征和物理特點(diǎn)、邏輯屬性以及關(guān)系特征的組合為目標(biāo)，實(shí)施并行異步的可編程操作；

8、所述ddrsdram提供可視化的接口及可視化的圖形呈現(xiàn)并按需調(diào)整規(guī)則和策略配置；

9、所述fpga記憶同一類型網(wǎng)絡(luò)通信業(yè)務(wù)應(yīng)用的所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中數(shù)據(jù)字段的段點(diǎn)和域點(diǎn)、數(shù)據(jù)類型、數(shù)據(jù)內(nèi)涵以及數(shù)據(jù)格式，且fpga的無指令、無需共享內(nèi)存的體系結(jié)構(gòu)具備重復(fù)性計算的高效和延時的穩(wěn)定以及可編程的靈活性和適用性；

10、所述元數(shù)據(jù)前端預(yù)處理設(shè)備是一個級聯(lián)系統(tǒng)，所述元數(shù)據(jù)前端預(yù)處理設(shè)備能夠?qū)λ鲈獢?shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流的目標(biāo)定義和規(guī)范實(shí)現(xiàn)以及對所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)傳輸流速率控制調(diào)度反饋信號的響應(yīng)。

11、所述數(shù)據(jù)脫敏設(shè)備即sdid設(shè)備實(shí)現(xiàn)數(shù)據(jù)脫敏泛化計算功能、所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流輸入和輸出同步的調(diào)度功能、脫敏數(shù)據(jù)輸出防篡改簽名功能以及脫敏數(shù)據(jù)定向和重定向轉(zhuǎn)發(fā)輸出功能。

所述sdid設(shè)備的電路板設(shè)置有高速背板接口，通過高速背板接口，一塊連接背板能將多個sdid設(shè)備連接在一起并擴(kuò)展成為更高性能的刀片式blade高集成度的系統(tǒng)。

本發(fā)明流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備的優(yōu)點(diǎn)是能夠大大地提高網(wǎng)絡(luò)流通大數(shù)據(jù)的共享程度及范圍，改進(jìn)數(shù)據(jù)分析所必須的基本條件和環(huán)境，從而加強(qiáng)對互聯(lián)網(wǎng)絡(luò)所涌現(xiàn)個性行為和未知風(fēng)險的發(fā)現(xiàn)、威懾及深度監(jiān)管，為態(tài)勢感知和決策支持提供完整、可用的定量參考依據(jù)。本發(fā)明的流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備能夠及時、動態(tài)地按規(guī)則和策略對流式密集型數(shù)據(jù)脫敏，以可控的數(shù)據(jù)失真度支持了網(wǎng)絡(luò)通信流通大數(shù)據(jù)的按需等級化共享和相應(yīng)的數(shù)據(jù)分析。本發(fā)明流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備的優(yōu)點(diǎn)是能夠進(jìn)行并行異步的數(shù)據(jù)泛化計算、同步的策略匹配以及線性決策邊界擴(kuò)展，提供定制化可編程的能力，滿足了對流式密集型數(shù)據(jù)脫敏的應(yīng)用需求，支持了網(wǎng)絡(luò)通信應(yīng)用大數(shù)據(jù)的共享以及相應(yīng)數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用的發(fā)展剛需，并能夠高速、即時地按規(guī)則和策略進(jìn)行非涉密數(shù)據(jù)的脫敏。

附圖說明

圖1是本發(fā)明所述方法的元數(shù)據(jù)采集和預(yù)處理及元數(shù)據(jù)脫敏的應(yīng)用場景示意圖；

圖2是本發(fā)明所述方法的元數(shù)據(jù)的基本集合和來源及其關(guān)聯(lián)關(guān)系示意圖；

圖3是本發(fā)明所述方法的數(shù)據(jù)共享規(guī)則紅綠燈協(xié)議tlp示意圖；

圖4是本發(fā)明所述方法的流式密集型數(shù)據(jù)脫敏泛化計算的三維邊界示意圖；

圖5是本發(fā)明所述方法的流式密集型數(shù)據(jù)脫敏泛化計算的映射與量化矩陣關(guān)系示意圖；

圖6是本發(fā)明所述方法的流式密集型數(shù)據(jù)脫敏泛化計算的流程示意圖；

圖7是本發(fā)明所述方法的流式密集型數(shù)據(jù)脫敏泛化計算的并行異步處理示意圖；

圖8是本發(fā)明所述流式密集型數(shù)據(jù)脫敏設(shè)備的結(jié)構(gòu)示意圖；

圖9是本發(fā)明所述方法的流程示意圖；

圖10是本發(fā)明所述方法的流式密集型數(shù)據(jù)流的二分類(0,1)及域和段標(biāo)識仲裁示意圖；

附圖8-10標(biāo)記說明如下：

1-搭載sdid設(shè)備的數(shù)據(jù)脫敏泛化計算模塊的fpga現(xiàn)場可編程門陣列，2-搭載sdid設(shè)備的量化策略匹配軟件模塊的tcam三態(tài)內(nèi)容尋址存儲器，3-搭載sdid設(shè)備的所執(zhí)行定制化規(guī)則和策略的ddrsdram雙倍速率同步動態(tài)隨機(jī)存儲器，4-搭載sdid設(shè)備的輸出數(shù)據(jù)防篡改簽名以及脫敏數(shù)據(jù)定向轉(zhuǎn)發(fā)軟件模塊的多核網(wǎng)絡(luò)處理器，5-可擴(kuò)展連接背板系統(tǒng)，11-數(shù)據(jù)輸入鏈路ge或10ge，12-數(shù)據(jù)高速傳輸通道pci-e，13-信號傳輸通道，14-數(shù)據(jù)輸出鏈路ge，15-系統(tǒng)通信數(shù)據(jù)通道接口，20-元數(shù)據(jù)流輸入的時間戳，21-元數(shù)據(jù)輸入的流速f1，30-數(shù)據(jù)脫敏模塊泛化計算的時間戳，31-數(shù)據(jù)脫敏模塊傳遞數(shù)據(jù)的速率，40-脫敏數(shù)據(jù)輸出模塊操作的時間戳，41-元數(shù)據(jù)輸出的流速f2，50-元數(shù)據(jù)流輸入和輸出的延時補(bǔ)償t。60-輸入的元數(shù)據(jù)流，61-域點(diǎn)即記錄之間的劃分和62-段點(diǎn)即字段之間的分隔以及0-1分類的仲裁標(biāo)識。

具體實(shí)施方式

下面結(jié)合附圖1-10，詳細(xì)說明本發(fā)明的具體實(shí)施方式。

如圖8所示，本發(fā)明的數(shù)據(jù)脫敏設(shè)備包括：現(xiàn)場可編程門陣列fpga1，三態(tài)內(nèi)容尋址存儲器tcam2，雙倍速率同步動態(tài)隨機(jī)存儲器ddrsdram3，多核網(wǎng)絡(luò)處理器4、可擴(kuò)展連接背板5；所述fpga1通過數(shù)據(jù)鏈路11和數(shù)據(jù)通道13連接元數(shù)據(jù)前端預(yù)處理設(shè)備，所述多核網(wǎng)絡(luò)處理器4通過數(shù)據(jù)鏈路14輸出脫敏數(shù)據(jù)流，所述fpga1和所述tcam2通過數(shù)據(jù)通道12連接所述ddrsdram3，所述多核網(wǎng)絡(luò)處理器4通過數(shù)據(jù)通道15連接可擴(kuò)展背板5。所述雙倍速率同步動態(tài)隨機(jī)存儲器ddrsdram3分別與現(xiàn)場可編程門陣列fpga1、三態(tài)內(nèi)容尋址存儲器tcam2連接；所述現(xiàn)場可編程門陣列fpga1與三態(tài)內(nèi)容尋址存儲器tcam2連接；所述現(xiàn)場可編程門陣列fpga1、多核網(wǎng)絡(luò)處理器4、可擴(kuò)展背板5依次連接。

本發(fā)明所述流式密集型數(shù)據(jù)脫敏方法包括以下步驟：

1、當(dāng)元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流到達(dá)sdid設(shè)備時，fpga1依據(jù)fpga1中內(nèi)置的規(guī)則仲裁和調(diào)度軟件提取所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中的相應(yīng)字段及域段；執(zhí)行所述規(guī)則仲裁，并將所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中無需脫敏的其它字段有序傳遞給多核網(wǎng)絡(luò)處理器4；

2、所述fpga1通過查詢tcam2執(zhí)行對所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中的相應(yīng)字段脫敏策略的邊界學(xué)習(xí)，完成數(shù)據(jù)脫敏泛化計算并傳遞給多核網(wǎng)絡(luò)處理器4；

3、所述tcam2為數(shù)據(jù)脫敏的泛化計算提供量化策略的精確和模糊匹配，所述ddrsdram3提供定制化的計算邊界及執(zhí)行狀態(tài)的可視化；

4、所述多核網(wǎng)絡(luò)處理器4對接收到的所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流進(jìn)行分片防篡改簽名，并定向地轉(zhuǎn)發(fā)輸出；

5、所述fpga1檢測所述多核網(wǎng)絡(luò)處理器4的數(shù)據(jù)轉(zhuǎn)發(fā)延時狀態(tài)，將檢測信息反饋給所述前端元數(shù)據(jù)預(yù)處理設(shè)備，動態(tài)地調(diào)度所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流的輸入和輸出速率以避免擁塞；

6、所述fpga1對當(dāng)前接收到所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流執(zhí)行所述規(guī)則仲裁，所述tcam2訪問所述ddrsdram3，更新量化的規(guī)則和策略；

7、所述fpga1采取多級流水線管道，以所述前端元數(shù)據(jù)預(yù)處理設(shè)備的傳輸網(wǎng)絡(luò)元數(shù)據(jù)流的協(xié)議特征和物理特點(diǎn)、邏輯屬性以及關(guān)系特征的組合為目標(biāo)，實(shí)施并行異步的可編程操作；

8、所述ddrsdram3提供可視化的接口及可視化的圖形呈現(xiàn)并按需調(diào)整規(guī)則和策略配置；

9、所述fpga1記憶同一類型網(wǎng)絡(luò)通信業(yè)務(wù)應(yīng)用的所述元數(shù)據(jù)前端預(yù)處理設(shè)備傳輸?shù)木W(wǎng)絡(luò)元數(shù)據(jù)流中數(shù)據(jù)字段的段點(diǎn)和域點(diǎn)、數(shù)據(jù)類型、數(shù)據(jù)內(nèi)涵以及數(shù)據(jù)格式，且fpga1的無指令、無需共享內(nèi)存的體系結(jié)構(gòu)具備重復(fù)性計算的高效和延時的穩(wěn)定以及可編程的靈活性和適用性；

互聯(lián)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)是一個復(fù)雜系統(tǒng)，其表現(xiàn)為無界的互聯(lián)互通以及多種技術(shù)和多類應(yīng)用的融合；在互聯(lián)網(wǎng)絡(luò)中傳輸和流通的應(yīng)用數(shù)據(jù)是一個復(fù)雜問題，其表現(xiàn)為突現(xiàn)的或新加的涌現(xiàn)行為以及對其復(fù)合體行為特征和屬性的未知。

因此，互聯(lián)網(wǎng)絡(luò)的流通大數(shù)據(jù)所面臨的問題是：將海量的數(shù)據(jù)流轉(zhuǎn)換為信息，以發(fā)現(xiàn)關(guān)鍵未知和支持及時決策；而所須應(yīng)對的是：復(fù)雜系統(tǒng)的復(fù)雜問題，并且是整體大于部分之和，即無法以孤立部分或加和還原的特征來解釋。

對互聯(lián)網(wǎng)絡(luò)大數(shù)據(jù)深度分析和有效利用的必要條件之一是完整及可用的數(shù)據(jù)源，在網(wǎng)際采集互聯(lián)網(wǎng)絡(luò)流通大數(shù)據(jù)如圖1所示，不僅在第一公里具有全景和全息，而且有明確的應(yīng)用場景和受眾以及針對性和目標(biāo)性。另一方面，互聯(lián)網(wǎng)絡(luò)流通大數(shù)據(jù)的數(shù)據(jù)量并不等于信息量，從網(wǎng)絡(luò)傳輸?shù)娜珨?shù)據(jù)中過濾元數(shù)據(jù)的協(xié)議特征，并在實(shí)時監(jiān)測中附加觀察元數(shù)據(jù)的物理特點(diǎn)；在預(yù)處理中分析關(guān)聯(lián)元數(shù)據(jù)的邏輯屬性；在深度解析中發(fā)現(xiàn)衍生元數(shù)據(jù)的關(guān)系特征，構(gòu)成多源互補(bǔ)的元數(shù)據(jù)集metadatasets，如圖2所示。其中，對網(wǎng)絡(luò)流通的應(yīng)用元數(shù)據(jù)的分類包括但不限于：通過檢測數(shù)據(jù)交互的協(xié)議特征采集元數(shù)據(jù)；通過標(biāo)識數(shù)據(jù)傳輸?shù)奈锢硖攸c(diǎn)監(jiān)測元數(shù)據(jù)；通過擴(kuò)展數(shù)據(jù)關(guān)系的邏輯屬性關(guān)聯(lián)元數(shù)據(jù)；通過對過濾數(shù)據(jù)的行為分析衍生可追溯元數(shù)據(jù)。

對互聯(lián)網(wǎng)絡(luò)大數(shù)據(jù)深度分析和有效利用的充分條件之一是數(shù)據(jù)共享，包括網(wǎng)絡(luò)安全威脅信息共享，為此對非涉密的數(shù)據(jù)共享的規(guī)則已被規(guī)范化，本發(fā)明中所述tlp是以圖3所示的“紅綠燈協(xié)議”trafficlightprotocol為共享數(shù)據(jù)的分類基礎(chǔ)，用四種顏色：紅色1、黃色2、綠色3、白色4，直觀地定義并標(biāo)識共享數(shù)據(jù)的范圍等級，不僅靈活、直觀地適用于不同的應(yīng)用場景，而且能夠按需對共享數(shù)據(jù)做出適時的數(shù)據(jù)等級定義或數(shù)據(jù)等級調(diào)整。

本發(fā)明所述的流式密集型數(shù)據(jù)脫敏泛化計算不同于對靜態(tài)存儲數(shù)據(jù)的一般性加密/解密、屏蔽、替換、置空、輪換的操作，而是基于如圖4所示有界的三個維度所建立學(xué)習(xí)模型、訓(xùn)練算法以及誤差評估及彈性修正模式。其中，數(shù)據(jù)共享等級規(guī)則r是基于tlp；量化的定制策略s是應(yīng)用于元數(shù)據(jù)流中具體字段域的泛化計算參數(shù)集合；數(shù)據(jù)訓(xùn)練及分析需求q是調(diào)整和修正泛化計算的參數(shù)集合，映射函數(shù)g所包含學(xué)習(xí)和訓(xùn)練算法在(r,s,q)三個維度的空間進(jìn)行泛化計算。

本發(fā)明所述的量化包括，數(shù)字化、結(jié)構(gòu)化、非結(jié)構(gòu)化以及自定義的數(shù)據(jù)格式和定制化白名單，通過如圖4所示的映射函數(shù)g(r,s,q)計算表達(dá)為m×n的矩陣。如圖5所示，f＝{f1,f2,…,fm}，即輸入元數(shù)據(jù)流的m個劃分字段域，通過映射函數(shù)g(r,s,q)轉(zhuǎn)換為h＝{h1,h2,…,hm}，即輸出元數(shù)據(jù)流的m個脫敏字段域，其中，每個脫敏字段域?qū)?yīng)于一個有窮類泛化集合fi∈{aij}，1≤i≤m,1≤j≤n，通過彈性調(diào)整誤差在集合{aij}線性決策并賦值fi。

本發(fā)明的元數(shù)據(jù)泛化計算簡化為針對二分類(0-1)問題，即按既定規(guī)則仲裁元數(shù)據(jù)流中需要脫敏的數(shù)據(jù)字段域與不需要脫敏的數(shù)據(jù)字段域，如圖6所示描述元數(shù)據(jù)流的數(shù)據(jù)脫敏基本工作流程。

為應(yīng)對元數(shù)據(jù)流輸入的實(shí)時和有序，本發(fā)明以管道pipeline模式流水處理所述的流式密集型數(shù)據(jù)及重復(fù)性任務(wù)的方法如下:

由現(xiàn)場可編程門陣列完成所述數(shù)據(jù)脫敏泛化計算；三態(tài)內(nèi)容尋址存儲器提供量化策略的有界匹配；多核網(wǎng)絡(luò)處理器完成所述的防篡改數(shù)據(jù)的簽名計算，圖7給出并行異步計算以及同步輸入輸出過程的示意，其中的現(xiàn)場可編程門陣列fpga無指令、無需共享內(nèi)存的體系結(jié)構(gòu)提供強(qiáng)大的計算能力和足夠的靈活性；三態(tài)內(nèi)容尋址存儲器tcam的匹配速度不受表項(xiàng)空間數(shù)據(jù)大小影響，每個時鐘周期完成一次查找。如圖7所示，形成管道流水處理的現(xiàn)場可編程門陣列fpga是級聯(lián)方式或嵌入模式以滿足所述的計算功能以及必需性能；與tcam和ddrsdram異步完成調(diào)度、提取、學(xué)習(xí)、計算的操作；與多核網(wǎng)絡(luò)處理器并行輸出脫敏數(shù)據(jù)流，包括對元數(shù)據(jù)流輸入/輸出的控制反饋。

如圖10所示，由于輸入的元數(shù)據(jù)流已做過分類預(yù)處理，數(shù)據(jù)流脫敏能對同類元數(shù)據(jù)流的數(shù)據(jù)域和字段域段執(zhí)行同結(jié)構(gòu)、同規(guī)則、同計算的可記憶操作。其中，對于所輸入的元數(shù)據(jù)流，數(shù)據(jù)域是由一個數(shù)據(jù)包或報文中承載的所有元數(shù)據(jù)所組成，以所述域點(diǎn)分隔；字段域是該數(shù)據(jù)域中的一個元數(shù)據(jù)，以所述段點(diǎn)劃分。

如圖8所示，當(dāng)經(jīng)過預(yù)處理的元數(shù)據(jù)流通過數(shù)據(jù)鏈路11到達(dá)所述sdid設(shè)備時，所述搭載sdid設(shè)備的數(shù)據(jù)脫敏泛化計算模塊的fpga1(以下簡稱模塊fpga1)進(jìn)行如下并行異步的操作：依據(jù)規(guī)則仲裁字段或字域，提取需要脫敏的字段，通過數(shù)據(jù)通道12與所述搭載sdid設(shè)備的量化策略匹配軟件模塊的tcam2(以下簡稱模塊tcam2)交互完成訓(xùn)練和學(xué)習(xí)，包括泛化計算，并通過數(shù)據(jù)通道12向所述搭載sdid設(shè)備的輸出數(shù)據(jù)防篡改簽名以及脫敏數(shù)據(jù)定向轉(zhuǎn)發(fā)軟件模塊的多核網(wǎng)絡(luò)處理器4(以下簡稱模塊多核網(wǎng)絡(luò)處理器4)傳遞數(shù)據(jù)，包括不需要脫敏的數(shù)據(jù)；同步地，作為搭載sdid設(shè)備的所執(zhí)行定制化規(guī)則和策略的ddrsdram3(以下簡稱模塊ddrsdram3)通過可視化圖形呈現(xiàn)定義規(guī)則和表述策略；所述模塊fpga1和所述模塊tcam2通過數(shù)據(jù)通道12接受所述模塊ddrsdram3的信息更新；所述模塊多核網(wǎng)絡(luò)處理器4對已脫敏數(shù)據(jù)分片簽名防篡改以及通過數(shù)據(jù)通道14有序輸出，并將數(shù)據(jù)輸出狀態(tài)通過數(shù)據(jù)通道12傳遞給所述模塊fpga1；所述模塊fpga1通過數(shù)據(jù)通道13完成對輸入元數(shù)據(jù)流的流量控制。所述模塊和數(shù)據(jù)通道均在一塊高速電路板pcb上布局布線，包括內(nèi)嵌的系統(tǒng)通信數(shù)據(jù)通道接口15，與可擴(kuò)展的連接背板系統(tǒng)5構(gòu)成更大處理能力的數(shù)據(jù)脫敏系統(tǒng)。借助于現(xiàn)場可編程門陣列fpga和三態(tài)內(nèi)容尋址存儲器tcam以及多核網(wǎng)絡(luò)處理器multicorenp的硬件特點(diǎn)及能力，利用軟件定義的算法及編程，所述脫敏設(shè)備以穩(wěn)定的延時和吞吐量，實(shí)現(xiàn)對流式密集型數(shù)據(jù)脫敏的泛化計算及重復(fù)性多任務(wù)。

如圖9所示，從元數(shù)據(jù)流輸入時間戳20到元數(shù)據(jù)流輸入時間戳40的延時是δ＝t4-t0，其中所述數(shù)據(jù)脫敏泛化計算所需要的時間是δ1＝t2-t1；所述脫敏數(shù)據(jù)簽名計算所需要的時間是δ2＝t4-t3；延時δ＝δ1+δ2，并且是線性常數(shù)c，因此所述脫敏設(shè)備的泛化計算算法及數(shù)據(jù)處理延時的時間復(fù)雜性是o(c)。利用這個特性，能確定所述元數(shù)據(jù)流輸入f1和輸出f2的延時補(bǔ)償t50，進(jìn)而作為流量控制反饋信號的驅(qū)動，以保障所述管道pipeline的數(shù)據(jù)流水處理有序，且不會出現(xiàn)擁塞。

以上所述，僅為本發(fā)明的具體實(shí)施方式，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明公開的范圍內(nèi)，能夠輕易想到的變化或替換，都應(yīng)涵蓋在本發(fā)明權(quán)利要求的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐萍;徐茂;邵國安;王硯方;石進(jìn)中;徐旻;徐昊
技術(shù)所有人：徐萍
我是此專利的發(fā)明人

上一篇：一種可防止異味防堵塞型廚房垃圾處理器的制作方法與工藝
上一篇：一種椒鹽米麩桃酥及其制備方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

數(shù)據(jù)脫敏相關(guān)技術(shù)

數(shù)據(jù)庫脫敏相關(guān)技術(shù)

數(shù)據(jù)脫敏處理方法相關(guān)技術(shù)

數(shù)據(jù)脫敏處理相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種流式密集型數(shù)據(jù)脫敏方法及其數(shù)據(jù)脫敏設(shè)備與流程