基于設(shè)置總的錯分率的可控置信機器算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于機器學(xué)習(xí)領(lǐng)域,尤其涉及一種基于設(shè)置總的錯分率的可控置信機器算 法。
【背景技術(shù)】
[0002] 置信機器就是在機器學(xué)習(xí)的過程中對學(xué)習(xí)的結(jié)果同時提供一個可信的程度判斷 或可以對學(xué)習(xí)結(jié)果進行預(yù)設(shè)的分類處理。置信機器在醫(yī)療診斷等高風(fēng)險的應(yīng)用領(lǐng)域有著 重要的現(xiàn)實意義。置信機器是機器學(xué)習(xí)領(lǐng)域中研宄時間不長的一個分支,實現(xiàn)置信機器學(xué) 習(xí)的理論基礎(chǔ)與方法并不多,有直接構(gòu)造置信度的方法,有間接構(gòu)造置信度的方法,有通過 設(shè)置拒絕選項,可以進行預(yù)設(shè)的分類處理,來排除低可信的部分,從而提高剩余部分的可信 度,實現(xiàn)置信分類,并對錯分率可控。
[0003] 2005 年由 Vladimir Vovk,Alexander Gammerman,Glenn Shafer 出版了關(guān)于信任 機器學(xué)習(xí)的專著《Algorithmic Learning in a Random World》。2004年邱德紅等在計算 機研宄與發(fā)展期刊Vol. 41,No. 9中發(fā)表了《基于算法隨機性理論和奇異描述的置信學(xué)習(xí)機 器》,根據(jù)Kolmogorov算法隨機性理論,為學(xué)習(xí)機器建立了一種置信機制,描述了置信學(xué)習(xí) 機器的算法。
[0004] 現(xiàn)有的方案有以下幾個問題:
[0005] (1)置信控制的精度不夠。目前上述的置信機器學(xué)習(xí)方法是通過設(shè)置Bin的方法 來計算錯分率,并根據(jù)計算結(jié)果設(shè)置閾值,但最后總的錯分率控制與當(dāng)初預(yù)設(shè)值比較,有時 差距會很大。
[0006] (2)置信控制不夠靈活。設(shè)置Bin的方法有一定的限制,不能任意設(shè)置數(shù)值,進行 靈活多變的控制,滿足不同的要求。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明實施例的目的在于提供一種基于設(shè)置總的錯分率的可控置信機器算法,其 解決現(xiàn)有技術(shù)的置信控制的精度不夠,置信控制不夠靈活的問題。
[0008] 本發(fā)明實施例是這樣實現(xiàn)的,一方面,一種基于設(shè)置總的錯分率的可控置信機器 算法,所述方法包括如下步驟:
[0009] 確定待分類的未知二元樣本;
[0010] 利用二類分類器對未知二元樣本進行二元置信分類;
[0011] 將二元置信分類結(jié)果轉(zhuǎn)換成未知二元樣本的輸出值(Output Score);
[0012] 根據(jù)未知二元樣本的理想錯分率計算該理想錯分率對應(yīng)的閾值范圍(-t,t);
[0013] 如未知二元樣本的輸出值(Output Score)屬于該閾值范圍,將未知樣本分配到拒 絕域,如未知二元樣本的輸出值(Output Score)不屬于該閾值范圍,將未知樣本分配到接 受域。
[0014] 可選的,所述根據(jù)未知二元樣本的理想錯分率計算該理想錯分率對應(yīng)的閾值范圍 (-t,t)的實現(xiàn)方法具體為:
[0015] 設(shè)定等距離步長和理想錯分率,以原點為基準(zhǔn),以等距離步長向左、右一步步的移 動閾值范圍(-ti,ti),當(dāng)閾值(-ti,ti)滿足已知二元樣本的理想錯分率時,確定閾值(-ti, ti)為未知二元樣本的理想錯分率對應(yīng)的閾值范圍(-t,t)。
[0016] 可選的,,所述以等距離步長向左、右一步步的移動閾值范圍(-tp 具體為:
[0017] 如向左移動閾值范圍的已知二元樣本的錯分率多,則先向左移動閾值,然后在向 右移動閾值;
[0018] 如向右移動閾值范圍的已知二元樣本的錯分率多,則先向右移動閾值,然后在向 左移動閾值。
[0019] 在本發(fā)明實施例中,本發(fā)明提供的技術(shù)方案從原點出發(fā),并設(shè)置等距離步長及總 的錯分率,向兩邊一步一步地尋求滿足錯分率的閾值,控制精度,實現(xiàn)靈活控制。
【附圖說明】
[0020] 圖1是本發(fā)明提供的一種基于設(shè)置總的錯分率的可控置信機器算法的流程圖。
【具體實施方式】
[0021] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0022] 本發(fā)明【具體實施方式】提供一種基于設(shè)置總的錯分率的可控置信機器算法,上述方 法由置信機器執(zhí)行,該方法如圖1所示,包括如下步驟:
[0023] 101、確定待分類的未知二元樣本;
[0024] 102、利用二類分類器對未知二元樣本進行二元置信分類;
[0025] 103、將二元置信分類結(jié)果轉(zhuǎn)換成未知二元樣本的輸出值(Output Score);
[0026] 104、根據(jù)未知二元樣本的理想錯分率計算該理想錯分率對應(yīng)的閾值范圍(_t, t);
[0027] 105、如未知二元樣本的輸出值(Output Score)屬于該閾值范圍,將未知樣本分配 到拒絕域,如未知二元樣本的輸出值(Output Score)不屬于該閾值范圍,將未知樣本分配 到接受域。
[0028] 本發(fā)明提供的具體方案通過理想輸出值(Output Score)值計算該錯分率的閾值 范圍,所以其能夠根據(jù)實際情況調(diào)整閾值,所以其具有分類準(zhǔn)確率高的優(yōu)點,
[0029] 可選的,上述104的實現(xiàn)方法具體可以為:
[0030] 設(shè)定等距離步長和理想錯分率,以原點為基準(zhǔn),以等距離步長向左、右一步步(即 等距離逐步移動)的移動閾值范圍(-tp h),當(dāng)閾值(-tp h)滿足已知二元樣本的理想錯 分率時,確定閾值(-tph)為未知二元樣本的理想錯分率對應(yīng)的閾值范圍
[0031] 可選的,上述以等距離步長向左、右一步步的移動閾值范圍(-ti,ti)具體可以為:
[0032] 如向左移動閾值范圍的已知二元樣本的錯分率多,則先向左移動閾值,然后在向 右移動閾值;如向右移動閾值范圍的已知二元樣本的錯分率多,則先向右移動閾值,然后在 向左移動閾值。
[0033] 本發(fā)明提供的技術(shù)方案提高控制精度,實現(xiàn)靈活控制可控的置信機器以二元問題 為基礎(chǔ),運用該種算法,具有適應(yīng)不同場合的需要、滿足不同應(yīng)用需求的特點,同時也易于 推廣到多元分類問題。該方法實現(xiàn)了提高控制精度、具有控制靈活的特點,在心臟病和糖尿 病等多個實驗數(shù)據(jù)集上進行了驗證,取得了較好的實驗效果。
[0034] 本發(fā)明提供的技術(shù)方案的軟件算法流程如下:
[0035] 訓(xùn)練算法流程:
[0036] 輸入
[0037] X:二元訓(xùn)練數(shù)據(jù)樣本
[0038] Y:二元訓(xùn)練樣本標(biāo)簽
[0039] Train Set : (X, Y)
[0040] p:準(zhǔn)確率
[0041] s :步長
[0042] 輸出
[0043] 正例閾值:t
[0044] 負(fù)例閾值:_t
[0045] 過程
[0046] 1、用Train Set訓(xùn)練二類分類器,取得二元分類器的有關(guān)參數(shù)值
[0047] 2、用二類分類器在訓(xùn)練集Train Set上進行分類
[0048] 3、將分類結(jié)果轉(zhuǎn)換成score輸出
[0049] 4、四種情況判斷
[0050] 5、計算準(zhǔn)確率
[0051] 6、if 準(zhǔn)確率 > =p
[0052] goto 9
[0053] endif
[0054] 7、增加步長s
[0055] 8、goto 4
[0056] 9、輸出 t 和-t
[0057] 10、結(jié)束
[0058] 分類算法流程:
[0059] 輸入
[0060] x :未知樣本
[0061] 輸出
[0062] 未知樣本的類別
[0063] or
[0064] 人工處理未知樣本
[0065] 過程
[0066] 1、用二元分類器對未知x進行分類
[0067] 2、將分類結(jié)果轉(zhuǎn)換成score輸出
[0068] 3、if score 值〈=_t or score 值 > =t
[0069] 輸出未知樣本的類別
[0070] else
[0071] 人工處理
[0072] endif
[0073] 4、結(jié)束
[0074] 采用本發(fā)明提供的方案進行實驗情況
[0075] 表1實驗使用數(shù)據(jù)集情況表
[0076]
【主權(quán)項】
1. 一種基于設(shè)置總的錯分率的可控置信機器算法,其特征在于,所述方法包括如下步 驟: 確定待分類的未知二元樣本; 利用二類分類器對未知二元樣本進行二元置信分類; 將二元置信分類結(jié)果轉(zhuǎn)換成未知二元樣本的輸出值(Ou化ut Score); 根據(jù)未知二元樣本的理想錯分率計算該理想錯分率對應(yīng)的闊值范圍; 如未知二元樣本的輸出值(Ou化ut Score)屬于該闊值范圍,將未知樣本分配到拒絕 域,如未知二元樣本的輸出值(Ou化ut Score)不屬于該闊值范圍,將未知樣本分配到接受 域。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)未知二元樣本的理想錯分率計 算該理想錯分率對應(yīng)的闊值范圍(-t,t)的實現(xiàn)方法具體為: 設(shè)定等距離步長和理想錯分率,W原點為基準(zhǔn),W等距離步長向左、右一步步的移動闊 值范圍當(dāng)闊值滿足已知二元樣本的理想錯分率時,確定闊值為 未知二元樣本的理想錯分率對應(yīng)的闊值范圍
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述W等距離步長向左、右一步步的移動 闊值范圍(-ti,ti)具體為; 如向左移動闊值范圍的已知二元樣本的錯分率多,則先向左移動闊值,然后在向右移 動闊值; 如向右移動闊值范圍的已知二元樣本的錯分率多,則先向右移動闊值,然后在向左移 動闊值。
【專利摘要】本發(fā)明適用機器學(xué)習(xí)領(lǐng)域,提供了一種基于設(shè)置總的錯分率的可控置信機器算法,所述方法包括如下步驟:確定待分類的未知二元樣本;利用二類分類器對未知二元樣本進行二元置信分類;將二元置信分類結(jié)果轉(zhuǎn)換成未知二元樣本的輸出值(Output?Score);根據(jù)未知二元樣本的理想錯分率計算該理想錯分率對應(yīng)的閾值范圍(-t,t);如未知二元樣本的輸出值(Output?Score)屬于該閾值范圍,將未知樣本分配到拒絕域,如未知二元樣本的輸出值(Output?Score)不屬于該閾值范圍,將未知樣本分配到接受域。本發(fā)明提供的技術(shù)方案具有控制精度,實現(xiàn)靈活控制的優(yōu)點。
【IPC分類】G06K9-62
【公開號】CN104573709
【申請?zhí)枴緾N201410817003
【發(fā)明人】蔣方純
【申請人】深圳信息職業(yè)技術(shù)學(xué)院
【公開日】2015年4月29日
【申請日】2014年12月24日