本說明書實施例屬于隱私計算,尤其涉及基于差分隱私的文本脫敏方法、程序產(chǎn)品和計算設備。
背景技術:
1、大語言模型(large?language?model,以下也簡稱為大模型)在近些年取得了巨大成功,被廣泛用于各個領域,而大語言模型應用過程中的數(shù)據(jù)隱私也隨之受到關注。預訓練的大模型通常會經(jīng)過微調(diào)(fine-tuning)后再去執(zhí)行下游具體任務,執(zhí)行下游任務的過程中往往會包括基于大模型的推理(inference)過程。在微調(diào)和推理這兩個過程中,都存在著明顯的隱私泄露的隱患。
2、在微調(diào)過程中,下游任務方需要使用自己特有的數(shù)據(jù)集來微調(diào)得到一個垂直領域的大模型。直接使用特定領域數(shù)據(jù)訓練容易使最終得到的模型受到白盒攻擊的威脅,導致隱私泄露。一個可選的方案是使用差分隱私技術微調(diào)模型,但這樣會帶來巨大的時間和內(nèi)存開銷,同時也會對模型性能造成較大的影響。并且,微調(diào)大模型對于算力有限的下游任務方來說也是難以進行的,這樣的下游任務方可能會選擇委托第三方機構幫助自己微調(diào)模型,但這樣需要將數(shù)據(jù)傳遞給第三方,直接進行數(shù)據(jù)傳輸仍然會有極大的隱私泄露的風險。
3、在推理過程中,用戶往往會使用大模型服務提供商提供的接口進行推理,而大模型服務商在實際中往往是不可信的,用戶在輸入提示詞(prompt)進行推理的時候,提示詞中涉及到敏感信息也會帶來隱私風險。
4、在上述場景中,使用文本脫敏技術可以高效保護數(shù)據(jù)隱私,并且相較于其他隱私保護技術,文本脫敏更加輕量級,并且具有一次脫敏,多次使用的特性。相關技術中已經(jīng)存在的一些文本脫敏方法,然而,這些方法都有各自的不足。
5、一些相關技術使用逐詞替換策略,對于固定詞表中的每個詞,計算該詞與詞表中其他詞的歐式距離,并使用類似于指數(shù)機制(因此該技術使用的是松弛差分隱私定義)的方式挑選一個詞進行替換。此外,它還會根據(jù)詞出現(xiàn)的頻率篩選出不敏感詞,對不敏感詞按一定概率不進行替換。然而,該技術存在著如下的問題:由于使用的是松弛差分隱私定義,實際的隱私預算與詞之間的最大距離有關。當詞表過大時,需要保存一個規(guī)模非常大的概率矩陣。此外,該技術對于不敏感詞的定義不準確,詞表過大時容易替換成毫不相干的詞。
6、另一些技術脫敏數(shù)據(jù)并調(diào)用遠端推理,再將推理結果反脫敏,由脫敏和反脫敏兩個過程組成。脫敏過程有兩個方案,一個是使用固定命名實體識別,提取敏感詞并將敏感詞替換成實體類別標記。然后進行遠端推理。反脫敏過程則是使用一個大語言模型,將被替換詞的替換關系作為提示文本輸入,將遠端推理結果和提示文本一起輸入模型,從而得到還原的結果。該技術存在如下問題:首先,整體來說,該技術需要訓練大語言模型,同時需要在本地部署模型執(zhí)行推理,相對較為重量級。使用命名實體識別會將詞替換為特殊標記,會影響句子可讀性,而特殊標記也容易讓遠端知道句子中哪些信息重要,從而結合一些其他知識進行一些推理,存在隱私泄露的風險。
7、根據(jù)以上內(nèi)容可知,現(xiàn)有的文本脫敏技術存在隱私保障不嚴格,對文本影響大,脫敏后文本可讀性差等問題。因此,需要一種文本脫敏方法,在提高隱私保障、防止隱私泄露的同時,降低對原文本的影響程度,提高脫敏后的文本可讀性。
技術實現(xiàn)思路
1、本說明書的目的在于提供基于差分隱私的文本脫敏方法、程序產(chǎn)品和計算設備,旨在對文本脫敏防止隱私泄露的同時,提高脫敏文本的可讀性,并提高脫敏過程的速度。
2、本說明書第一方面提供一種基于差分隱私的文本脫敏方法,包括:
3、獲取聚類集合,任一聚類中的任一目標詞具有預設的替換概率分布,所述替換概率分布基于指數(shù)機制確定,用于描述將所述目標詞替換為該聚類中的各個詞的概率;
4、對輸入的待脫敏文本進行命名實體識別,確定其中各個詞所歸屬的實體類型,其中包括被預設為敏感詞類型的實體類型;
5、對于任一屬于敏感詞類型的目標敏感詞,判斷其是否存在于聚類集合的任一聚類中,當所述目標敏感詞存在于第一目標聚類時,按照所述目標敏感詞在所述第一目標聚類中的替換概率分布進行采樣,得到目標替換詞;
6、使用所述目標替換詞替換所述待脫敏文本中的目標敏感詞,得到脫敏文本。
7、本說明書第二方面提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,當所述計算機程序在計算機中執(zhí)行時,令計算機執(zhí)行第一方面所述的方法。
8、本說明書第三方面提供一種計算設備,包括存儲器和處理器,所述存儲器中存儲有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)第一方面所述的方法。
9、本說明書第四方面提供一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)第一方面所述方法的步驟。
10、本說明書實施例提出的于差分隱私的文本脫敏方法、程序產(chǎn)品和計算設備,方法首先基于聚類對預設詞表(詞集合)中的各個詞進行聚類和劃分,使得同類型的詞被劃分到同一個聚類中。然后,對每個聚類中的詞,使用指數(shù)機制確定每個詞替換成聚類中其它詞的概率,此做法可以確保文本脫敏過程的純差分隱私(epsilon?differential?privacy,ε-dp)保障。對于沒有包含在詞集合中的詞,本說明書提出兜底處理方法,通過將詞和聚類的實體類型匹配,可以確保一些未見詞(詞集合中沒有的詞)也能被替換為語義相似的詞,確保了系統(tǒng)的穩(wěn)定性。此外,本說明書將時間開銷較大的詞聚類和差分隱私計算安排在預處理階段,生成的聚類集合可以在后續(xù)的在線文本脫敏的過程中重復使用。使得脫敏的過程快速、高效且節(jié)約計算資源。
1.一種基于差分隱私的文本脫敏方法,包括:
2.根據(jù)權利要求1所述的方法,其中,所述對輸入的待脫敏文本進行命名實體識別還包括,確定各個詞所歸屬的實體類型的第一置信度;所述聚類集合的任一聚類還具有預設的聚類實體類型和對應的第二置信度;所述方法還包括:
3.根據(jù)權利要求1所述的方法,獲取聚類集合,包括:
4.根據(jù)權利要求3所述的方法,獲取聚類集合,還包括:
5.根據(jù)權利要求3所述的方法,獲取聚類集合,還包括:
6.根據(jù)權利要求3所述的方法,獲取詞集合中各個詞對應的嵌入表征,包括:
7.根據(jù)權利要求3所述的方法,其中,所述距離函數(shù)經(jīng)過歸一化處理。
8.根據(jù)權利要求1所述的方法,還包括:
9.根據(jù)權利要求8所述的方法,還包括:
10.根據(jù)權利要求2所述的方法,其中,所述數(shù)值類型至少包括以下之一:數(shù)字、日期、時間、編號。
11.一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權利要求1-10中任一項所述方法的步驟。
12.一種計算設備,包括存儲器和處理器,所述存儲器中存儲有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)權利要求1-10中任一項所述的方法。