到對應的FT化參數: 陽0巧]對于特征項Ml來說,通過其特征值進行hash索引在W□數組中找到對應的hash(Ml)數組下標,該數組下標對應的W比ash(Ml)]即為Μ對應的FT化參數;
[0096] 對每個特征項的特征值通過hash索引找到對應的FM參數:
[0097] 對與特征項Ml來說,通過其特征值進行hash索引在FM□數組中找到對應的 hash(Ml)數組下標,該數組下標對應的FM比ash(Ml)]即為Ml對應的FM參數。 陽09引找出選訓練數據Μ中每個特征項的FT化參數和FM參數后,將所有的FT化參數相 加得到參數hi;
[0099] 訓練數據Μ中相鄰特征項的FM參數相乘,再將所有得到的乘積進行求和,得到參 數h2,(即將訓練數據中第i個特征項的FM參數與第i+1個特征項的FM參數相乘,在將所 有乘積疊加可得參數s2)
[0100] 例如,某條訓練數據有5個特征項,將5個特征項對應的FT化參數分別找出并相 加就能夠得到hi;將5個特征項的FM參數分別找出,并將第一個特征項的FM參數與第二 個特征項的FM參數相乘,將第二個特征項的FM參數與第Ξ個特征項的FM參數相乘,將第 Ξ個特征項的FM參數與第四個特征項的FM參數相乘,將第四個特征項的FM參數與第五個 特征項的FM參數相乘,再將四個乘積的和加起來即可得到參數h2 ;
[0101] 得到參數hi和參數h2后,將hi和h2相加得到參數S;利用公式
即可求出檢測值y。
[0102] S23.計算檢測值y與標簽X之間的差值,記為損失β= |x-y|,利用損失β= x-y|對訓練模型的參數進行調整; 陽103] 具體來說,是對當前訓練數據的每一條特征項對應的FT化參數和FM參數進行調 整,在調整過程中采用梯度下降思想: 陽104] W'比ash(Mi)]=W比ash(Mi)]-a*e,調整后的FT化參數W'比ash(Mi)]等于: 調整前的FT化參數W比ash(Ml)]減去a與β的乘積。 陽1〇5] FM'比ash(Mi)] =FM比ash(Mi)]-a*e沖Μ比ash(Mi)],調整后的FM參數等于,調 整前的FM參數減去調整前的FM參數、a與βΞ者的乘積。 陽106] 其中a采用在線自適應方法,其值為η表示當前模型已經學習的訓練數據條 數。 陽107] 進一步地,作為優(yōu)選方案,在每次調整FT化參數和FM參數的過程中,可W考慮引 入L1正則化思想來進行調整:(引入q□數組與z[]) 陽10引
[0109] 式中,式中丫1為Li正則闊值,α為學習率控制系數,可W自行設置;q比ash(Mi)] 引入的q□數組中對應于W比ash(Ml)]的參數;Z比ash(Ml)]為引入的Z□數組中對應于 W比ash(Ml)]的參數;q比ash(Ml)]與Z比ash(Ml)]初始化為 0 ;Clash(Ml)為q[],z□和W[] Ξ個數組中對應參數的q[hash(Mi) ]、z比ash(Mi) ]、W[hash(Mi)]的數組下標)。
[0110] 在每次調節(jié)過程中,除了調整對應的W比ash(Mi)],還需要調節(jié)q比ash(Mi)]和 Z比ash(Ml)](作為下一次調整的基礎參數來使用):
[0111] 調節(jié)后的q比ash(Mi)]參數等于調節(jié)前的q比ash(Mi)]參數加上β2: 陽11引 q'比ash (Mi) ] = q比ash (Mi) ] + β 2;
[0113] 引入中間參1
表示累加學習變 換率. 陽114] Ζ'比ash(Mi) ] =Ζ[hash(Mi) ] +β-σ*W比ash(Mi)];即調整后的Ζ[hash(Mi)]參 數等于調節(jié)前的z[hash(Mi)]參數加上β,再減去σ與調節(jié)前W[hash(Mi)]的乘積。 陽11引FM參數的調整同理,不再詳細說明。
[0116] S24.計算當前訓練模型的成熟度,作為在線學習階段模型成熟的依據;判斷訓練 模型的成熟度是否滿足預設條件:
[0117] (1)訓練模型成熟度滿足條件時,定義認為模型訓練成熟,即可W使用,同時保存 成熟模型的參數,訓練結束;
[0118] (2)訓練模型成熟度不滿足條件時,保存當前的模型并且跳轉至步驟S22,再次從 待訓練數據集中提取數據,在保存的當前模型的基礎上繼續(xù)進行訓練。 陽119] 成熟度的計算公式為ma化re=ε*rate,ma化re表示當前模型的成熟度,ε表示 式中的因子權重,可W通過配置軟件進行設定;rate表示模型的準確率,表示樣本檢測值 與實際值的評估之間的差距。
[0120] 預設條件指的是預先設定的成熟值,當計算得到的成熟度達到或者超過該值時, 認為訓練模型成熟度滿足條件;如成熟度標準設定為0. 8時,當成熟度達到或者超過0. 8就 認為模型成熟度滿足條件。
[0121] 進一步地,成熟度的計算可W將準確率與log函數損失的權重組合來進行: ma1:ure=ε*rate+(l-ε)loss;loss為log函數的損失。
[0122] 如圖4所示,所述的步驟S3包括W下子步驟: 陽123] S31.讀取成熟的模型參數初始化相應模型,生成模型實例;
[0124] S32.將當前待檢測醫(yī)保數據輸入模型實例;
[01巧]S33.模型實例檢測當前輸入的醫(yī)保數據,得到當前醫(yī)保數據的檢測值,使用檢測 值標記當前輸入的醫(yī)保數據;
[01%] 具體而言,模型實例檢測當前醫(yī)保數據得到檢測值的方法,和步驟S22中訓練模 型檢測訓練數據的方法一致,具體過程為: 陽127] 將待測醫(yī)保數據M'輸入模型實例中時:待測醫(yī)保數據M' -般具有多個特征項 Ml',在該條待測醫(yī)保數據中,每個特征項Ml'對應一個確定的特征值,即每個數據特征項 對應一個FT化參數和一個FM參數;
[0128] 對每個特征項Ml'的特征值通過hash索引找到對應的FT化參數:
[0129] 對于特征項Ml'來說,通過其特征值進行hash索引在W□數組中找到對應的 hash(Ml')數組下標,該數組下標對應的W比ash(Ml')]即為Ml'對應的FT化參數;
[0130] 對每個特征項Ml'的特征值通過hash索引找到對應的FM參數:
[0131] 對與特征項Ml'來說,通過其特征值進行hash索引在FM□數組中找到對應的 hash(Ml')數組下標,該數組下標對應的FM比ash(Ml')]即為Ml'對應的FM參數。 陽13引找出待測醫(yī)保數據Μ'中每個特征項的FT化參數和FM參數后,將所有的FT化參 數相加得到參數hi';
[013引待測醫(yī)保數據M'中相鄰特征項的FM參數相乘,再將所有得到的乘積進行求和, 得到參數h2'; 陽134] 得到參數hi'和參數hi'后,將hi'和hi'相加得到參數U;利用公式
巧可求出檢測值待測醫(yī)保數據M'的檢測值y'; 陽135] 判斷當前醫(yī)保數據M'的檢測值y'的大?。?陽136] (1)如果y' > 0. 5,更新y',更新后的y' = 1 ; 陽137] 似如果y' <0.5,更新y',更新后的y' =0;
[013引再利用更新后的檢測值y'標記當前醫(yī)保數據M'。
[0139] S34.根據當前醫(yī)保數據的檢測值,判斷醫(yī)保數據是否異常(若y' =0,數據正常, y' = 1代表數據異常):
[0140] (1)醫(yī)保數據正常,跳轉至步驟S35 ; 陽141] (2)醫(yī)保數據異常,將當前的醫(yī)保數據存儲到異常數據庫中,并跳轉至步驟S35 ; 陽142] S35.依次輸入所有待檢測的醫(yī)保數據,每次輸入數據后重復進行步驟S32~步驟 S34,直到沒有待檢測醫(yī)保數據輸入為止。
[0143] 步驟S12中所述的數據篩選器采用DBSCAN聚類算法進行構造。
【主權項】
1. 一種醫(yī)療保險異常數據在線智能檢測方法,其特征在于:包括以下步驟:5