一種多標(biāo)簽主動(dòng)學(xué)習(xí)分類方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,更具體地說,設(shè)及一種多標(biāo)簽主動(dòng)學(xué)習(xí)分類方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的發(fā)展,多標(biāo)簽數(shù)據(jù)分類技術(shù)的重要性逐漸突顯,W至于對應(yīng)的多 標(biāo)簽數(shù)據(jù)分類技術(shù)的應(yīng)用也在不斷增加,例如,圖像視頻的語義標(biāo)注、生物基因功能分類、 文本分類等。作為一種多義性對象的建模工具,多標(biāo)簽學(xué)習(xí)是一種更符合真實(shí)客觀世界規(guī) 律的學(xué)習(xí)方法,在此框架下,每個(gè)對象不再對應(yīng)唯一的標(biāo)簽,多標(biāo)簽學(xué)習(xí)的目的是為未見的 對象賦予合適的標(biāo)簽集。由于多標(biāo)簽分類問題的復(fù)雜性,在構(gòu)建分類器模型時(shí)需要耗費(fèi)發(fā) 亮的時(shí)間和精力來收集帶標(biāo)簽的樣本。但在真實(shí)世界中,我們能夠獲取的標(biāo)注數(shù)據(jù)是非常 少的,而且像在多標(biāo)簽學(xué)習(xí)框架下,每個(gè)對象都對應(yīng)多個(gè)標(biāo)簽,依據(jù)與此便增加了獲取標(biāo)注 數(shù)據(jù)的難度。
[0003] 現(xiàn)有的多標(biāo)簽數(shù)據(jù)分類技術(shù)在獲取標(biāo)注數(shù)據(jù)的過程中僅僅考慮了單個(gè)待測樣本 標(biāo)簽的不確定性,但并沒有設(shè)及到待測樣本標(biāo)簽間的不確定性,W至于在對標(biāo)注后的待標(biāo) 注樣本標(biāo)簽進(jìn)行標(biāo)注時(shí),影響了標(biāo)注的準(zhǔn)確性,進(jìn)行影響了分類器分類的準(zhǔn)確率。
[0004] 綜上所述,如何提供一種分類準(zhǔn)確率高的分類器,是目前本領(lǐng)域技術(shù)人員亟待解 決的問題。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明的目的是提供一種多標(biāo)簽主動(dòng)學(xué)習(xí)分類方法及系統(tǒng),W提高分 類準(zhǔn)確率。
[0006] 為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0007] 一方面,本發(fā)明提供了一種多標(biāo)簽主動(dòng)學(xué)習(xí)分類方法,包括:
[000引分別采用對數(shù)似然獲取已標(biāo)注樣本標(biāo)簽對的似然度及采用滴的方式獲取待標(biāo)注 樣本標(biāo)簽對的不確定性;
[0009] 分別計(jì)算多個(gè)相同樣本的不同標(biāo)簽間的化距離及多個(gè)所述不同標(biāo)簽間的權(quán)重因 子;
[0010] 將每個(gè)所述化距離和與之相應(yīng)的所述權(quán)重因子進(jìn)行乘法運(yùn)算,獲取相應(yīng)的結(jié)果, 將多個(gè)所述結(jié)果進(jìn)行相加,獲取與待標(biāo)注樣本標(biāo)簽對相關(guān)的待標(biāo)注樣本標(biāo)簽對的化距離 和,采用所述化距離和確定交叉標(biāo)簽不確定性;
[0011] 確定待標(biāo)注樣本標(biāo)簽對的最終不確定性;所述待標(biāo)注樣本標(biāo)簽對的最終不確定性 為依據(jù)所述交叉標(biāo)簽不確定性和所述待標(biāo)注樣本標(biāo)簽對的不確定性確定的;
[0012] 依據(jù)所述似然度和所述待標(biāo)注樣本標(biāo)簽對的最終不確定性獲取得分函數(shù),并依據(jù) 所述得分函數(shù)確定最優(yōu)待標(biāo)注樣本標(biāo)簽對,并對所述最優(yōu)待標(biāo)注樣本標(biāo)簽對進(jìn)行標(biāo)注;
[0013] 將標(biāo)注完成的所述最優(yōu)待標(biāo)注標(biāo)簽對添加到樣本標(biāo)簽對訓(xùn)練集W獲取新的所述 樣本標(biāo)簽對訓(xùn)練集,并采用新的所述樣本標(biāo)簽對訓(xùn)練集訓(xùn)練分類器。
[0014] 優(yōu)選的,所述分別采用對數(shù)似然獲取已標(biāo)注樣本標(biāo)簽對的似然度及采用滴的方式 獲取待標(biāo)注樣本標(biāo)簽對的不確定性前所述方法還包括:
[0015] 構(gòu)建樣本標(biāo)簽樹,所述樣本標(biāo)簽樹是依據(jù)所述樣本標(biāo)簽對訓(xùn)練集訓(xùn)練獲取的。
[0016] 優(yōu)選的,所述計(jì)算多個(gè)所述不同標(biāo)簽間的權(quán)重因子包括:
[0017] 定義標(biāo)簽距離矩陣;所述標(biāo)簽距離矩陣為通過所述樣本標(biāo)簽樹獲取的;
[0018] 定義共現(xiàn)矩陣;所述共現(xiàn)矩陣為通過所述樣本標(biāo)簽對訓(xùn)練集中的所述樣本標(biāo)簽對 構(gòu)建的;
[0019] 依據(jù)所述標(biāo)簽距離矩陣和所述共現(xiàn)矩陣構(gòu)建代價(jià)標(biāo)簽矩陣,并采用所述代價(jià)標(biāo)簽 矩陣獲取每個(gè)所述待標(biāo)注樣本標(biāo)簽對的權(quán)重因子。
[0020] 優(yōu)選的,所述依據(jù)所述標(biāo)簽距離矩陣和所述共現(xiàn)矩陣構(gòu)建代價(jià)標(biāo)簽矩陣,并采用 所述代價(jià)標(biāo)簽矩陣獲取每個(gè)所述待標(biāo)注樣本標(biāo)簽對的權(quán)重因子包括:
[0021] 計(jì)算所述共現(xiàn)矩陣中任意兩個(gè)位置處所述待標(biāo)注樣本標(biāo)簽對的內(nèi)積和,獲取所述 任意兩個(gè)位置處所述待標(biāo)注樣本標(biāo)簽對出現(xiàn)的頻率,并依據(jù)所述頻率構(gòu)建共現(xiàn)頻率矩陣;
[0022] 結(jié)合所述標(biāo)簽距離矩陣和所述共現(xiàn)頻率矩陣按照下式獲取每個(gè)所述待標(biāo)注樣本 標(biāo)簽的權(quán)重因子:
[002引 5。日=0。日.5。0
[0024] 其中,a與P分別表示任意兩個(gè)待標(biāo)注樣本標(biāo)簽;是標(biāo)簽a和標(biāo)簽P之間 的距離;Sa,p是標(biāo)簽a和標(biāo)簽P共同出現(xiàn)的頻率。
[0025] 另一方面,本發(fā)明還提供了一種多標(biāo)簽主動(dòng)學(xué)習(xí)分類系統(tǒng),包括:
[0026] 第一獲取模塊,用于分別采用對數(shù)似然獲取已標(biāo)注樣本標(biāo)簽對的似然度及采用滴 的方式獲取待標(biāo)注樣本標(biāo)簽對的不確定性;
[0027] 計(jì)算模塊,用于分別計(jì)算多個(gè)相同樣本的不同標(biāo)簽間的化距離及多個(gè)所述不同 標(biāo)簽間的權(quán)重因子;
[002引第二獲取模塊,用于將每個(gè)所述化距離和與之相應(yīng)的所述權(quán)重因子進(jìn)行乘法運(yùn) 算,獲取相應(yīng)的結(jié)果,將多個(gè)所述結(jié)果進(jìn)行相加,獲取與待標(biāo)注樣本標(biāo)簽對相關(guān)的待標(biāo)注樣 本標(biāo)簽對的化距離和,采用所述化距離和確定交叉標(biāo)簽不確定性;
[0029] 第一確定模塊,用于確定待標(biāo)注樣本標(biāo)簽對的最終不確定性;所述待標(biāo)注樣本標(biāo) 簽對的最終不確定性為依據(jù)所述交叉標(biāo)簽不確定性和所述待標(biāo)注樣本標(biāo)簽對的不確定性 確定的;
[0030] 第二確定模塊,用于依據(jù)所述似然度和所述待標(biāo)注樣本標(biāo)簽對的最終不確定性獲 取得分函數(shù),并依據(jù)所述得分函數(shù)確定最優(yōu)待標(biāo)注樣本標(biāo)簽對,并對所述最優(yōu)待標(biāo)注樣本 標(biāo)簽對進(jìn)行標(biāo)注;
[0031] 訓(xùn)練模塊,用于將標(biāo)注完成的所述最優(yōu)待標(biāo)注標(biāo)簽對添加到樣本標(biāo)簽對訓(xùn)練集W 獲取新的所述樣本標(biāo)簽對訓(xùn)練集,并采用新的所述樣本標(biāo)簽對訓(xùn)練集訓(xùn)練分類器。
[0032] 優(yōu)選的,所述系統(tǒng)還包括:
[0033] 構(gòu)建模塊,用于構(gòu)建樣本標(biāo)簽樹,所述樣本標(biāo)簽樹是依據(jù)所述樣本標(biāo)簽對訓(xùn)練集 訓(xùn)練獲取的。
[0034] 優(yōu)選的,計(jì)算模塊包括:
[0035] 第一定義單元,用于定義標(biāo)簽距離矩陣;所述標(biāo)簽距離矩陣為通過所述樣本標(biāo)簽 樹獲取的;
[0036] 第二定義單元,用于定義共現(xiàn)矩陣;所述共現(xiàn)矩陣為通過所述樣本標(biāo)簽對訓(xùn)練集 中的所述樣本標(biāo)簽構(gòu)建的;
[0037] 構(gòu)建單元,用于依據(jù)所述標(biāo)簽距離矩陣和所述共現(xiàn)矩陣構(gòu)建代價(jià)標(biāo)簽矩陣,并采 用所述代價(jià)標(biāo)簽矩陣獲取每個(gè)所述待標(biāo)注樣本標(biāo)簽對的權(quán)重因子。
[003引優(yōu)選的,所述構(gòu)建單元包括:
[0039] 計(jì)算單元,用于計(jì)算所述共現(xiàn)矩陣中任意兩個(gè)位置處所述待標(biāo)注樣本標(biāo)簽對的內(nèi) 積和,獲取所述任意兩個(gè)位置處所述待標(biāo)注樣本標(biāo)簽對出現(xiàn)的頻率,并依據(jù)所述頻率構(gòu)建 共現(xiàn)頻率矩陣;
[0040] 獲取單元,用于結(jié)合所述標(biāo)簽距離矩陣和所述共現(xiàn)頻率矩陣按照下式獲取每個(gè)所 述待標(biāo)注樣本標(biāo)簽的權(quán)重因子:
[0041] 5。日=C。日?Sap
[0042] 其中,a與P分別表示任意兩個(gè)待標(biāo)注樣本標(biāo)簽;是標(biāo)簽a和標(biāo)簽P之間 的距離;Sa,p是標(biāo)簽a和標(biāo)簽P共同出現(xiàn)的頻率。
[0043] 與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)如下:
[0044] 本發(fā)明提供了一種多標(biāo)簽主動(dòng)學(xué)習(xí)分類方法及系統(tǒng),首先,分別采用對數(shù)似然獲 取已標(biāo)注樣本標(biāo)簽對的似然度及采用滴的方式獲取待標(biāo)注樣本標(biāo)簽對的不確定性;其次, 通過化距離和權(quán)重因子的關(guān)系獲取化距離和W確定交叉標(biāo)簽不確定性;再者,根據(jù)交叉標(biāo) 簽不確定性和待標(biāo)注樣本標(biāo)簽對的不確定性確定待標(biāo)注樣本標(biāo)簽對的最終不確定性,最后 依據(jù)似然度和待標(biāo)注樣本標(biāo)簽對的最終不確定性確定得分函數(shù),并依據(jù)得分函數(shù)確定最優(yōu) 待標(biāo)注樣本標(biāo)簽對,并對最優(yōu)待標(biāo)注樣本標(biāo)簽對進(jìn)行標(biāo)注;最后將標(biāo)注完成的最優(yōu)待標(biāo)注 標(biāo)簽對添加到樣本標(biāo)簽對訓(xùn)練集W獲取新的樣本標(biāo)簽對訓(xùn)練集,并采用樣本標(biāo)簽對訓(xùn)練集 訓(xùn)練分類器。與現(xiàn)有技術(shù)相比,本發(fā)明提供的多標(biāo)簽主動(dòng)學(xué)習(xí)分類方法及系統(tǒng),通過綜合交 叉標(biāo)簽不確定性和待標(biāo)注樣本標(biāo)簽對的不確定性確定待標(biāo)注樣本標(biāo)簽對的最終不確定性, 進(jìn)而依據(jù)待標(biāo)注樣本標(biāo)簽對的最終不確定性和似然度獲取最優(yōu)的待標(biāo)注樣本標(biāo)簽對,并對 最優(yōu)待標(biāo)注樣本標(biāo)簽對進(jìn)行標(biāo)注;最后將標(biāo)注完成的最優(yōu)待標(biāo)注標(biāo)簽對添加到樣本標(biāo)簽對 訓(xùn)練集W獲取新的樣本標(biāo)簽對訓(xùn)練集,并采用樣本標(biāo)簽對訓(xùn)練集訓(xùn)練分類器,進(jìn)而有效的 提高了分類的準(zhǔn)確率。
【附圖說明】
[0045] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù) 提供的附圖獲得其他的附圖。
[0046] 圖1為本發(fā)明實(shí)施例提供一種多標(biāo)簽主動(dòng)學(xué)習(xí)分類方法的流程圖;
[0047] 圖2為本發(fā)明實(shí)施例提供另一種多標(biāo)簽主動(dòng)學(xué)習(xí)分類方法的流程圖
[0048] 圖3為本發(fā)明實(shí)施例提供的一種樣本標(biāo)簽樹的示意圖;
[0049] 圖4為本發(fā)明實(shí)施例提供一種多標(biāo)簽主動(dòng)學(xué)習(xí)分類系統(tǒng)的結(jié)構(gòu)示意圖;
[0化0] 圖5為本發(fā)明實(shí)施例提供另一種多標(biāo)簽主動(dòng)學(xué)習(xí)分類系統(tǒng)的結(jié)構(gòu)示意圖