類(lèi)噪音檢測(cè)方法、裝置和損失函數(shù)計(jì)算方法、裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種類(lèi)噪音檢測(cè)方法、裝置和損失函數(shù)計(jì)算 方法、裝置。
【背景技術(shù)】
[0002] 在機(jī)器學(xué)習(xí) (Machine learning)領(lǐng)域,主要有三類(lèi)不同的學(xué)習(xí)方法:監(jiān)督學(xué)習(xí) (Supervised learning)、半監(jiān)督學(xué)習(xí)(Semi-supervised learning)和非監(jiān)督學(xué)習(xí) (Unsupervised learning)。
[0003] 目前基于有標(biāo)簽數(shù)據(jù)的有監(jiān)督學(xué)習(xí)方法是機(jī)器學(xué)習(xí)領(lǐng)域用于解決實(shí)際應(yīng)用中分 類(lèi)問(wèn)題的主流方法。此類(lèi)方法利用訓(xùn)練數(shù)據(jù)中有標(biāo)注的樣本訓(xùn)練分類(lèi)器,用于預(yù)測(cè)未標(biāo)注 樣本的類(lèi)別標(biāo)簽。
[0004] 但是,在實(shí)際應(yīng)用問(wèn)題中,來(lái)自人工標(biāo)注或?qū)嶒?yàn)結(jié)果的樣本標(biāo)注,往往因?yàn)楦鞣N原 因,存在一定比例的誤標(biāo)注情況,即用于訓(xùn)練的有標(biāo)注樣本其標(biāo)注標(biāo)簽有一定比例的錯(cuò)誤。
[0005] 針對(duì)這一情況,目前基于統(tǒng)計(jì)權(quán)重邊切割的方法在解決這一問(wèn)題上顯示出了一定 的能力。但是,這一方法往往依賴(lài)于先驗(yàn)知識(shí),即數(shù)據(jù)的期望和方差的先驗(yàn)分布;其對(duì)噪音 的估計(jì)往往比實(shí)際噪音比例要高,而過(guò)高的估計(jì)了噪音的比例則會(huì)影響最終用于訓(xùn)練數(shù)據(jù) 的規(guī)模,這一現(xiàn)象往往比噪音本身對(duì)分類(lèi)器性能的傷害更大。
【發(fā)明內(nèi)容】
[0006] 為解決上述問(wèn)題,本申請(qǐng)?zhí)峁┮环N類(lèi)噪音檢測(cè)方法、裝置和損失函數(shù)計(jì)算方法、裝 置。
[0007] 根據(jù)本申請(qǐng)的第一方面,本申請(qǐng)?zhí)峁┮环N類(lèi)噪音檢測(cè)方法,用于有監(jiān)督學(xué)習(xí)中,包 括以下步驟:
[0008] 最相似樣本選擇步驟:對(duì)于訓(xùn)練集之中任一訓(xùn)練樣本使用無(wú)參數(shù)分類(lèi)方 法選擇訓(xùn)練集之中與其最相似的若干個(gè)樣本0/,?),其中j = l、2、3、…、k,k為正整數(shù);
[0009] 信號(hào)函數(shù)計(jì)算步驟:計(jì)算信號(hào)函數(shù)I&其中
[0010] 相似度計(jì)算步驟:分別計(jì)算所述訓(xùn)練樣本與選擇出的最相似的各樣本之 間的相似度wij,wij = sim(xi,xj);
[0011] ^范數(shù)計(jì)算步驟:計(jì)算|wi| |ι,其中
[0012]12范數(shù)計(jì)算步驟:計(jì)算12范數(shù)||¥川2,其中
[0013]噪音率計(jì)算步驟:計(jì)算所述訓(xùn)練樣本(?灸)的噪音率Pc(Xl),其中矸(X,)=
[0014] 根據(jù)本申請(qǐng)的第二方面,本申請(qǐng)?zhí)峁┮环N損失函數(shù)計(jì)算方法,包括以下步驟:
[0015] 使用如權(quán)利要求1至4中任一項(xiàng)所述的類(lèi)噪音檢測(cè)方法對(duì)所述優(yōu)化學(xué)習(xí)方法中的 原損失函數(shù)KfOi),負(fù))加權(quán),以計(jì)算新?lián)p失函數(shù)〖(/(而),?),計(jì)算公式為
其中η為訓(xùn)練集之中訓(xùn)練樣本的總 數(shù)。
[0016] 根據(jù)本申請(qǐng)的第三方面,本申請(qǐng)?zhí)峁┮环N類(lèi)噪音檢測(cè)裝置,用于有監(jiān)督學(xué)習(xí)中,其 特征在于,包括:
[0017] 最相似樣本選擇模塊,用于對(duì)于訓(xùn)練集之中任一訓(xùn)練樣本使用無(wú)參數(shù)分 類(lèi)方法選擇訓(xùn)練集之中與其最相似的若干個(gè)樣本h)其中j = l、2、3、…、k,k為正整 數(shù);
[0018] 信號(hào)函數(shù)計(jì)算模塊,用于計(jì)算信號(hào)函數(shù)I&其弓
[0019] 相似度計(jì)算模塊,用于分別計(jì)算所述訓(xùn)練樣本(%只)與選擇出的最相似的各樣本 之間的相似度wij,wij = simUi,xj);
[0020] li范數(shù)計(jì)算模塊,用于計(jì)算li范數(shù)| |wi| |ι,其c
[0021] 12范數(shù)計(jì)算模塊,用于計(jì)算12范數(shù)| |wi| h,其c
[0022] 噪音率計(jì)算模塊,用于計(jì)算所述訓(xùn)練樣本〇^,為)的噪音率Pc (Xl),其中
[0023] 根據(jù)本申請(qǐng)的第四方面,本申請(qǐng)?zhí)峁┮环N損失函數(shù)計(jì)算裝置,包括:
[0024] -模塊,其用于使用如權(quán)利要求8至9中任一項(xiàng)所述的類(lèi)噪音檢測(cè)模塊對(duì)原損失函 數(shù)只)加權(quán),以計(jì)算新?lián)p失函數(shù),計(jì)算公式為
其中η為訓(xùn)練集之中訓(xùn)練樣本的總 數(shù)。
[0025]本申請(qǐng)的有益效果是:
[0026]依上述實(shí)施的類(lèi)噪音檢測(cè)方法和裝置,計(jì)算訓(xùn)練樣本的噪音率過(guò)程中不需要任何 先驗(yàn)知識(shí),且計(jì)算出來(lái)的結(jié)果不存在傳統(tǒng)技術(shù)中對(duì)于訓(xùn)練樣本的類(lèi)噪音往往過(guò)高估計(jì)的現(xiàn) 象,因而能更加準(zhǔn)確的反應(yīng)出標(biāo)注的訓(xùn)練樣本其標(biāo)簽錯(cuò)誤的概率。
[0027] 依上述實(shí)施的損失函數(shù)計(jì)算方法和裝置,由于對(duì)訓(xùn)練集的損失函數(shù)進(jìn)行基于類(lèi)噪 音的加權(quán),因而所訓(xùn)練的分類(lèi)器具有良好的抗類(lèi)噪音性能。
【附圖說(shuō)明】
[0028] 圖1為本申請(qǐng)一種實(shí)施例的類(lèi)噪音檢測(cè)方法的流程示意圖;
[0029] 圖2為本申請(qǐng)一種實(shí)施例的類(lèi)噪音檢測(cè)方法的結(jié)構(gòu)示意圖;
[0030] 圖3為本申請(qǐng)一種實(shí)施例的結(jié)果性能說(shuō)明圖。
【具體實(shí)施方式】
[0031] 下面通過(guò)【具體實(shí)施方式】結(jié)合附圖對(duì)本申請(qǐng)作進(jìn)一步詳細(xì)說(shuō)明。
[0032] 實(shí)施例一:
[0033] 基于有標(biāo)簽數(shù)據(jù)的有監(jiān)督學(xué)習(xí)方法,利用訓(xùn)練數(shù)據(jù)中有標(biāo)注的樣本訓(xùn)練分類(lèi)器, 用于預(yù)測(cè)未標(biāo)注樣本的類(lèi)別標(biāo)簽。這里樣本可以看成是輸入,樣本的標(biāo)簽可以看成是輸出, 有標(biāo)注的樣本,是指已知一個(gè)樣本和它的標(biāo)簽,從數(shù)學(xué)角度上看,就是已知輸入和輸出,因 此,這些有標(biāo)注的樣本構(gòu)成了訓(xùn)練集,利用已知的樣本和其標(biāo)簽,可以訓(xùn)練分類(lèi)器。這里的 一個(gè)關(guān)鍵是,有標(biāo)注的樣本的正確性,即樣本和其標(biāo)簽的正確性,若不正確,都會(huì)極大影響 到所訓(xùn)練的分類(lèi)器。對(duì)有監(jiān)督學(xué)習(xí)中的分類(lèi)問(wèn)題,需要處理有標(biāo)注的樣本中,其中就可能存 在有標(biāo)注的樣本的標(biāo)簽錯(cuò)誤的情況,對(duì)于半監(jiān)督分類(lèi)問(wèn)題,需要先處理無(wú)標(biāo)注的樣本,對(duì)無(wú) 標(biāo)注的樣本的可能類(lèi)別標(biāo)簽的判斷可以會(huì)出現(xiàn)錯(cuò)誤的情況;以上情況都需要識(shí)別出來(lái)。
[0034] 現(xiàn)有技術(shù)也嘗試解決這一問(wèn)題,但現(xiàn)有技術(shù)在解決此問(wèn)題時(shí),依賴(lài)于先驗(yàn)知識(shí),即 訓(xùn)練樣本的期望和方差的先驗(yàn)分布,并且其對(duì)噪音的估計(jì)往往比實(shí)際噪音比例要高,而過(guò) 高的估計(jì)了噪音的比例則會(huì)影響最終用于訓(xùn)練數(shù)據(jù)的規(guī)模,這一現(xiàn)象往往比噪音本身對(duì)分 類(lèi)器性能的傷害更大。
[0035] 為此,本申請(qǐng)?zhí)岢鲆环N類(lèi)噪音檢測(cè)方法,具體地,提出一種有監(jiān)督學(xué)習(xí)中的類(lèi)噪音 檢測(cè)方法。
[0036]請(qǐng)參照?qǐng)D1,本實(shí)施的有監(jiān)督學(xué)習(xí)中的類(lèi)噪音檢測(cè)方法包括以下步驟:
[0037] S11、最相似樣本選擇步驟:對(duì)于訓(xùn)練集之中任一訓(xùn)練樣本(%,%),使用無(wú)參數(shù)分 類(lèi)方法選擇訓(xùn)練集之中與其最相似的若干個(gè)樣本為),其中j = 1、2、3、…、k,k為正整 數(shù)。在一實(shí)施例中,上述的無(wú)參數(shù)分類(lèi)方法為k近鄰圖方法或帕森窗方法。這里所選取的若 干個(gè)樣本以及k的值,依據(jù)所使用的無(wú)參數(shù)分類(lèi)方法,有可能會(huì)有不同。
[0038] S13、信號(hào)函數(shù)計(jì)算步驟:計(jì)算信號(hào)函數(shù)I&其中
[0039] S15、相似度計(jì)算步驟:分別計(jì)算所述訓(xùn)練樣本,於)與選擇出的最相似的各樣 本之間的相似度¥^,'\¥^ = 8;[1]1^,1」)。在一實(shí)施例中,可采用可標(biāo)準(zhǔn)化的連續(xù)且對(duì)稱(chēng)的相似 度計(jì)算方法來(lái)計(jì)算相似度Wij。例如,相似度計(jì)算方法為基于漢明距離的相似度計(jì)算方法、基 于余弦的相似度計(jì)算方法、基于歐幾里得距離的相似度計(jì)算方法或基于In范數(shù)的相似度計(jì) 算方法等。
[0040] S17、li范數(shù)計(jì)算步驟:計(jì)算li范數(shù)I I Wi I 11,其中
[0041] S19、l2范數(shù)計(jì)算步驟:計(jì)算12范數(shù)| | Wi | 12,其中
[0042] S21、噪音率計(jì)算步驟:計(jì)算所述訓(xùn)練樣本(X/,負(fù))的噪音率Pc (Xl),其中
[0043] 相就地,本實(shí)施還提出一種類(lèi)噪音檢測(cè)裝置,具體地,提出一種有監(jiān)督學(xué)習(xí)中的類(lèi) 噪音檢測(cè)裝置。
[0044] 請(qǐng)參照?qǐng)D2,本實(shí)施例的有監(jiān)督學(xué)習(xí)中的類(lèi)噪音檢測(cè)裝置包括最相似樣本選擇模 塊11、信號(hào)函數(shù)計(jì)算模塊13、相似度計(jì)算模塊15、h范數(shù)計(jì)算模塊17、1 2范數(shù)