本發(fā)明涉及機器學(xué)習(xí)(ml)可解釋性(mlx)。本文介紹了一種基于由數(shù)據(jù)集樣本的特征置換建立的超特征重要性的黑盒ml模型的局部解釋技術(shù)。
背景技術(shù):
1、機器學(xué)習(xí)(ml)和深度學(xué)習(xí)之所以變得無處不在,主要有兩個原因:它們能夠解決各種不同領(lǐng)域的復(fù)雜問題,以及現(xiàn)代計算資源的性能和效率不斷提高。但是,隨著問題的復(fù)雜性不斷增加,應(yīng)用于這些問題的ml模型的復(fù)雜性也在不斷增加。
2、深度學(xué)習(xí)是這一趨勢的一個典型示例。其他ml算法(諸如神經(jīng)網(wǎng)絡(luò))可能只包含幾層密集連接的神經(jīng)元,而深度學(xué)習(xí)算法(諸如卷積神經(jīng)網(wǎng)絡(luò))可能包含數(shù)十到數(shù)百層執(zhí)行非常不同操作的神經(jīng)元。增加神經(jīng)模型的深度和層的異質(zhì)性帶來許多益處。例如,更深入可以增加模型的容量、提高模型的泛化、以及為模型提供過濾掉不重要特征的機會,而包含執(zhí)行不同操作的層可以大大提高模型的性能。但是,這些優(yōu)化是以增加復(fù)雜性和降低模型操作的人類可解讀性(interpretability)為代價的。
3、與許多其他ml模型相比,解釋和解讀復(fù)雜深度學(xué)習(xí)模型的結(jié)果是一項具有挑戰(zhàn)性的任務(wù)。例如,決策樹可以基于n個輸入特征執(zhí)行二元分類。在訓(xùn)練期間,對類別預(yù)測影響最大的特征被插入到樹的根附近,而對類別預(yù)測影響較小的特征則位于樹的葉子附近??梢酝ㄟ^測量決策節(jié)點到?jīng)Q策樹的根的距離直接確定特征重要性。
4、此類模型通常被稱為本質(zhì)上可解讀的。但是,隨著模型的復(fù)雜性增加(例如,特征數(shù)量或決策樹深度增加),解讀對模型推斷的解釋變得越來越具有挑戰(zhàn)性。同樣,即使是相對簡單的幾層神經(jīng)網(wǎng)絡(luò)也可能難以解讀,因為多層結(jié)合了特征的影響并增加了模型輸入和輸出之間的操作數(shù)量。因此,需要替代技術(shù)來幫助解讀復(fù)雜的ml和深度學(xué)習(xí)模型。
5、ml可解釋性(mlx)是解釋和解讀ml和深度學(xué)習(xí)模型的處理。mlx大致可以被歸類為局部可解釋性和全局可解釋性:
6、·局部:解釋為什么ml模型做出與給定樣本對應(yīng)的特定預(yù)測,以回答諸如為什么ml模型做出特定預(yù)測之類的問題。
7、·全局:理解ml模型作為整體的一般行為,以回答諸如ml模型如何工作或ml模型從訓(xùn)練數(shù)據(jù)中學(xué)到了什么之類的問題。
8、ml模型接受實例作為輸入,諸如基于各種數(shù)據(jù)類型的許多特征的特征向量,這些特征分別具有許多或無限數(shù)量的可能值。每個特征在巨大的多維問題空間中提供一個維度,其中給定的多特征輸入只是一個點。即使全局解釋可能基于許多輸入實例,但這些實例錯過了大多數(shù)多維問題空間,并且這些實例彼此之間有巨大的空間間隙。因此,對于解釋ml模型對特定輸入的特定推斷,該推斷幾乎總是落在ml模型的未知行為的這種空間間隙內(nèi),全局解釋的準(zhǔn)確性可能低。諸如shapley之類的局部解釋方法需要大量輸入實例和輸出推斷,這些輸入實例和輸出推斷的數(shù)量會隨著特征數(shù)量的增加而呈指數(shù)增長,因為shapley的設(shè)計探索了特征之間的關(guān)系,這是組合上難以解決的。換句話說,最佳品種的局部解釋器不可擴展,并且可能會因?qū)捥卣飨蛄慷鴮?dǎo)致計算不堪重負(fù)。
技術(shù)實現(xiàn)思路
1.一種計算機實現(xiàn)的方法,包括:
2.如權(quán)利要求1所述的方法,還包括基于選自由以下各項組成的組中的至少一項來訪問所述多個原始元組中的原始元組的超特征的值:
3.如權(quán)利要求1所述的方法,其中選自由以下各項組成的組中的至少一項:
4.如權(quán)利要求1所述的方法,還包括基于所述特定元組生成ml模型的局部解釋。
5.如權(quán)利要求4所述的方法,其中所述生成ml模型的局部解釋是基于所述多個超特征中的至少一個超特征的重要性的。
6.如權(quán)利要求5所述的方法,其中所述局部解釋包括基于所述多個超特征中的至少兩個超特征的重要性對所述至少兩個超特征的排名。
7.如權(quán)利要求1所述的方法,其中選自由以下各項組成的組中的至少一項:
8.如權(quán)利要求1所述的方法,其中所述多個超特征中的特定超特征表示選自由以下各項組成的組中的一項:數(shù)據(jù)庫連接、數(shù)據(jù)庫表、查詢條件、數(shù)據(jù)庫語句的結(jié)果和數(shù)據(jù)庫語句的種類。
9.如權(quán)利要求1所述的方法,其中所述訓(xùn)練代理模型包括填充選自由以下各項組成的組中的至少一項:
10.如權(quán)利要求1所述的方法,其中選自由以下各項組成的組中的至少一項:
11.一個或多個存儲指令的非暫態(tài)計算機可讀介質(zhì),所述指令在由一個或多個計算設(shè)備執(zhí)行時,使得執(zhí)行如權(quán)利要求1-10中的任一項中所述的方法。
12.一種系統(tǒng),包括: