本發(fā)明涉及多標(biāo)簽學(xué)習(xí)分類,具體而言,涉及一種基于加權(quán)流形消歧和動(dòng)態(tài)局部標(biāo)記相關(guān)性的偏多標(biāo)記分類方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、偏多標(biāo)記學(xué)習(xí)(partial?multi-label?learning,?pml)是多標(biāo)記學(xué)習(xí)領(lǐng)域中的一個(gè)重要分支。在pml問題中,每個(gè)訓(xùn)練實(shí)例都與一組候選標(biāo)記相關(guān)聯(lián),但其中只有一部分標(biāo)記是正確的,其余的則是噪聲標(biāo)記。這種學(xué)習(xí)場(chǎng)景在現(xiàn)實(shí)世界中非常普遍,例如在文本分類、生物信息學(xué)和多媒體內(nèi)容分析等領(lǐng)域,都可能遇到只有部分標(biāo)簽是正確的情況。
2、傳統(tǒng)的多標(biāo)記學(xué)習(xí)方法通常假設(shè)所有提供的標(biāo)簽都是準(zhǔn)確的,但在pml問題中,這種假設(shè)往往不成立。因此,pml的目標(biāo)是從這些含有噪聲的候選標(biāo)記中識(shí)別出正確的標(biāo)記子集?,F(xiàn)有的pml學(xué)習(xí)方法主要依賴于平滑假設(shè),即相關(guān)聯(lián)的標(biāo)記傾向于同時(shí)出現(xiàn)在相似的實(shí)例上,從而利用訓(xùn)練實(shí)例的特征空間中的拓?fù)浣Y(jié)構(gòu)和標(biāo)記相關(guān)性來恢復(fù)出正確的標(biāo)記分布。
3、然而,現(xiàn)有方法在處理特征與標(biāo)記之間的負(fù)信息時(shí)存在局限性,并且基于候選標(biāo)記集構(gòu)造的標(biāo)記相關(guān)性容易受到噪聲標(biāo)記的影響,這會(huì)顯著降低模型的預(yù)測(cè)性能。此外,大多數(shù)現(xiàn)有工作忽略了特征空間中特征與標(biāo)記之間的復(fù)雜關(guān)系,以及如何有效地從含有噪聲的標(biāo)記中學(xué)習(xí)到準(zhǔn)確的標(biāo)記分布。因此,研究者們一直在尋求更有效的pml學(xué)習(xí)方法,以提高在噪聲環(huán)境下的分類性能,并準(zhǔn)確地從候選標(biāo)記集中識(shí)別出正確的標(biāo)記集。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種基于加權(quán)流形消歧和動(dòng)態(tài)局部標(biāo)記相關(guān)性的偏多標(biāo)記分類方法、裝置、設(shè)備及介質(zhì),以改善上述技術(shù)問題中的至少一個(gè)。
2、第一方面、本發(fā)明提供了一種基于加權(quán)流形消歧和動(dòng)態(tài)局部標(biāo)記相關(guān)性的偏多標(biāo)記分類方法,其包含s1至s5。
3、s1、獲取待處理的偏多標(biāo)記數(shù)據(jù)集,將偏多標(biāo)記數(shù)據(jù)的候選標(biāo)記轉(zhuǎn)化為邏輯標(biāo)記矩陣,然后構(gòu)建特征空間矩陣和標(biāo)記分布矩陣。并根據(jù)所述特征空間矩陣和標(biāo)記分布矩陣構(gòu)建損失函數(shù)。
4、s2、計(jì)算所述邏輯標(biāo)記矩陣的語義相似度,然后根據(jù)語義相似度和-近鄰方法尋找訓(xùn)練實(shí)例的近鄰樣本,并計(jì)算訓(xùn)練實(shí)例與其近鄰樣本的相似圖權(quán)重矩陣。
5、s3、根據(jù)所述邏輯標(biāo)記矩陣計(jì)算初始局部標(biāo)記相關(guān)性矩陣。并根據(jù)所述初始局部標(biāo)記相關(guān)性矩陣和所述標(biāo)記分布矩陣,構(gòu)建局部標(biāo)記相關(guān)性動(dòng)態(tài)學(xué)習(xí)機(jī)制,獲取新的局部標(biāo)記相關(guān)性矩陣。然后基于訓(xùn)練實(shí)例的相似圖權(quán)重矩陣和新的局部標(biāo)記相關(guān)性矩陣,構(gòu)建流形正則項(xiàng)誘導(dǎo)標(biāo)記分布矩陣學(xué)習(xí)。
6、s4、根據(jù)所述損失函數(shù)和所述流形正則項(xiàng)構(gòu)建偏多標(biāo)記分類器的目標(biāo)函數(shù),進(jìn)行迭代更新處理,直到所述目標(biāo)函數(shù)值收斂,或者迭代達(dá)到預(yù)設(shè)最大迭代次數(shù),完成標(biāo)記消歧得到最優(yōu)的模型參數(shù),獲取訓(xùn)練后的偏多標(biāo)記分類器。
7、s5、獲取待測(cè)實(shí)例,并輸入所述訓(xùn)練后的偏多標(biāo)記分類器,以預(yù)測(cè)所述待測(cè)實(shí)例所有可能的類別。
8、在一個(gè)可選的實(shí)施方式中,步驟s1具體包括步驟s11至步驟s15。
9、s11、獲取待處理的偏多標(biāo)記數(shù)據(jù)集,記為,其中表示第個(gè)訓(xùn)練實(shí)例、表示的候選標(biāo)記集合,為總樣本數(shù)量。
10、s12、對(duì)于每一個(gè)偏多標(biāo)記樣本,使用硬閾值方法構(gòu)建的邏輯標(biāo)記向量:對(duì)于任意,如果,則,否則;其中,表示類別的數(shù)量,為第個(gè)類別標(biāo)記,表示的第個(gè)候選標(biāo)記的邏輯值。
11、s13、構(gòu)造所有訓(xùn)練實(shí)例的邏輯標(biāo)記矩陣和特征空間矩陣。其中,表示矩陣的轉(zhuǎn)置、表示實(shí)數(shù)集、為總樣本數(shù)量、表示特征空間的維度。
12、s14、根據(jù)所述特征空間矩陣,獲取標(biāo)記分布矩陣:,式中,表示的標(biāo)記分布、表示特征映射函數(shù),為模型的權(quán)重矩陣,表示偏移向量。
13、s15、根據(jù)所述特征空間矩陣和所述標(biāo)記分布矩陣,采用最小二乘回歸模型構(gòu)建損失函數(shù)。損失函數(shù)公式為:
14、
15、其中,表示映射后的特征矩陣、表示維的全1向量、為向量的范數(shù)、為矩陣的frobenius范數(shù)。
16、在一個(gè)可選的實(shí)施方式中,步驟s2具體包括步驟s21至步驟s25。
17、s21、采用余弦相似性構(gòu)造語義相似度矩陣。,。其中,表示第個(gè)實(shí)例和第個(gè)實(shí)例對(duì)應(yīng)的相似度、為總樣本數(shù)量、和分別表示第個(gè)實(shí)例和第個(gè)實(shí)例對(duì)應(yīng)的邏輯標(biāo)記向量、表示矩陣的轉(zhuǎn)置、為向量的范數(shù)。
18、s22、計(jì)算訓(xùn)練實(shí)例之間的距離矩陣,。其中,表示第個(gè)實(shí)例和第個(gè)實(shí)例之間的距離。
19、s23、構(gòu)造訓(xùn)練實(shí)例的加權(quán)距離矩陣,。其中,表示第個(gè)實(shí)例和第個(gè)實(shí)例之間的加權(quán)距離。
20、s24、對(duì)于每一個(gè)訓(xùn)練實(shí)例,通過加權(quán)距離選出與其距離最近的個(gè)訓(xùn)練實(shí)例,構(gòu)成的鄰域。
21、s25、根據(jù)所述鄰域計(jì)算訓(xùn)練實(shí)例的相似圖權(quán)重矩陣。通過求解以下線性最小二乘問題來構(gòu)建:
22、
23、其中,表示訓(xùn)練實(shí)例為的鄰域里的元素。為第個(gè)實(shí)例和第個(gè)實(shí)例之間的相似圖權(quán)重。
24、在一個(gè)可選的實(shí)施方式中,步驟s3具體包括步驟s31至步驟s33。
25、s31、利用邏輯標(biāo)記矩陣計(jì)算初始局部標(biāo)記相關(guān)性矩陣,,其中,表示第個(gè)類和第個(gè)類的初始局部標(biāo)記相關(guān)性、和分別表示第個(gè)類和第個(gè)類的邏輯向量、表示核大小。
26、s32、基于所述初始局部標(biāo)記相關(guān)性矩陣和標(biāo)記分布矩陣進(jìn)行動(dòng)態(tài)學(xué)習(xí),獲取新的局部標(biāo)記相關(guān)性矩陣,。的學(xué)習(xí)公式為:
27、
28、其中,表示第個(gè)類和第個(gè)類的新的局部標(biāo)記相關(guān)性、和分別表示第個(gè)類和第個(gè)類的標(biāo)記分布向量、表示的轉(zhuǎn)置,表示的對(duì)角元素,表示維的全1向量。
29、s33、基于訓(xùn)練實(shí)例的相似圖權(quán)重矩陣和新的局部標(biāo)記相關(guān)性矩陣,構(gòu)建流形正則項(xiàng)誘導(dǎo)標(biāo)記分布矩陣學(xué)習(xí)。其中,所述流形正則項(xiàng)公式為:
30、
31、其中,,為代換符號(hào)用以連接上下兩個(gè)公式無實(shí)際含義、表示維的單位矩陣、為總樣本數(shù)量、和分別表示第個(gè)實(shí)例和第個(gè)實(shí)例的標(biāo)記分布、為第個(gè)實(shí)例和第個(gè)實(shí)例之間的相似圖權(quán)重、為向量的范數(shù)、表示矩陣的轉(zhuǎn)置、表示類別的數(shù)量、表示第個(gè)類和第個(gè)類的新的局部標(biāo)記相關(guān)性、和分別表示第個(gè)類和第個(gè)類的標(biāo)記分布向量、為新的局部標(biāo)記相關(guān)性矩陣的拉普拉斯矩陣,為對(duì)角矩陣,其對(duì)角元素為,表示矩陣的秩。
32、在一個(gè)可選的實(shí)施方式中,步驟s4具體包括步驟s41至步驟s42。
33、s41、根據(jù)所述損失函數(shù)和所述流形正則項(xiàng)構(gòu)建偏多標(biāo)記分類器的目標(biāo)函數(shù)。
34、所述目標(biāo)函數(shù)公式為:
35、
36、其中,,為代換符號(hào)用以連接上下兩個(gè)公式無實(shí)際含義、表示維的單位矩陣、為相似圖權(quán)重矩陣、、和表示正則參數(shù)、為模型的權(quán)重矩陣、表示偏移向量、為標(biāo)記分布矩陣、為新的局部標(biāo)記相關(guān)性矩陣、表示映射后的特征矩陣、表示維的全1向量、為總樣本數(shù)量、表示矩陣的轉(zhuǎn)置、為矩陣的frobenius范數(shù)、表示矩陣的秩、為新的局部標(biāo)記相關(guān)性矩陣的拉普拉斯矩陣、為對(duì)角矩陣、為初始局部標(biāo)記相關(guān)性矩陣、表示維的全1向量、表示的對(duì)角元素。
37、s42、采用交替迭代更新策略對(duì)所述目標(biāo)函數(shù)進(jìn)行優(yōu)化直到收斂或者達(dá)到最大迭代次數(shù),完成標(biāo)記消歧得到偏多標(biāo)記分類器的最優(yōu)的模型參數(shù)和,獲取訓(xùn)練后的偏多標(biāo)記分類器。,式中,表示特征映射函數(shù)、表示第個(gè)訓(xùn)練實(shí)例、和為訓(xùn)練得到的最優(yōu)的模型參數(shù)、表示矩陣的轉(zhuǎn)置。
38、第二方面、本發(fā)明提供了一種基于加權(quán)流形消歧和動(dòng)態(tài)局部標(biāo)記相關(guān)性的偏多標(biāo)記學(xué)習(xí)裝置,其特征在于,包含訓(xùn)練數(shù)據(jù)獲取模塊、相似圖權(quán)重計(jì)算模塊、流形正則項(xiàng)構(gòu)建模塊、迭代模塊和識(shí)別模塊。
39、訓(xùn)練數(shù)據(jù)獲取模塊,用于獲取待處理的偏多標(biāo)記數(shù)據(jù)集,將偏多標(biāo)記數(shù)據(jù)的候選標(biāo)記轉(zhuǎn)化為邏輯標(biāo)記矩陣,然后構(gòu)建特征空間矩陣和標(biāo)記分布矩陣。并根據(jù)所述特征空間矩陣和標(biāo)記分布矩陣構(gòu)建損失函數(shù)。
40、相似圖權(quán)重計(jì)算模塊,用于計(jì)算所述邏輯標(biāo)記矩陣的語義相似度,然后根據(jù)語義相似度和-近鄰方法尋找訓(xùn)練實(shí)例的近鄰樣本,并計(jì)算訓(xùn)練實(shí)例與其近鄰樣本的相似圖權(quán)重矩陣。
41、流形正則項(xiàng)構(gòu)建模塊,用于根據(jù)所述邏輯標(biāo)記矩陣計(jì)算初始局部標(biāo)記相關(guān)性矩陣。并根據(jù)所述初始局部標(biāo)記相關(guān)性矩陣和所述標(biāo)記分布矩陣,構(gòu)建局部標(biāo)記相關(guān)性動(dòng)態(tài)學(xué)習(xí)機(jī)制,獲取新的局部標(biāo)記相關(guān)性矩陣。然后基于訓(xùn)練實(shí)例的相似圖權(quán)重矩陣和新的局部標(biāo)記相關(guān)性矩陣,構(gòu)建流形正則項(xiàng)誘導(dǎo)標(biāo)記分布矩陣學(xué)習(xí)。
42、迭代模塊,用于根據(jù)所述損失函數(shù)和所述流形正則項(xiàng)構(gòu)建偏多標(biāo)記分類器的目標(biāo)函數(shù),進(jìn)行迭代更新處理,直到所述目標(biāo)函數(shù)值收斂,或者迭代達(dá)到預(yù)設(shè)最大迭代次數(shù),完成標(biāo)記消歧得到最優(yōu)的模型參數(shù),獲取訓(xùn)練后的偏多標(biāo)記分類器。
43、識(shí)別模塊,用于獲取待測(cè)圖像實(shí)例,并輸入所述訓(xùn)練后的偏多標(biāo)記分類器,以識(shí)別所述預(yù)測(cè)所述待測(cè)圖像中包含實(shí)例所有可能的元素類別。
44、第三方面、本發(fā)明提供了一種基于加權(quán)流形消歧和動(dòng)態(tài)局部標(biāo)記相關(guān)性的偏多標(biāo)記學(xué)習(xí)設(shè)備,其包括處理器、存儲(chǔ)器,以及存儲(chǔ)在所述存儲(chǔ)器內(nèi)的計(jì)算機(jī)程序。所述計(jì)算機(jī)程序能夠被所述處理器執(zhí)行,以實(shí)現(xiàn)如第一方面任意一段所述的一種基于加權(quán)流形消歧和動(dòng)態(tài)局部標(biāo)記相關(guān)性的偏多標(biāo)記分類方法。
45、第四方面、本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如第一方面任意一段所述的一種基于加權(quán)流形消歧和動(dòng)態(tài)局部標(biāo)記相關(guān)性的偏多標(biāo)記分類方法。
46、通過采用上述技術(shù)方案,本發(fā)明可以取得以下技術(shù)效果:
47、所述基于加權(quán)流形消歧和動(dòng)態(tài)局部標(biāo)記相關(guān)性的偏多標(biāo)記分類方法首先通過非線性核函數(shù)技術(shù)構(gòu)建標(biāo)記分布矩陣與樣本特征矩陣之間的關(guān)系,利用訓(xùn)練實(shí)例的語義相似度構(gòu)建訓(xùn)練實(shí)例與其近鄰的相似圖權(quán)重矩陣,基于相似圖權(quán)重矩陣和局部標(biāo)記相關(guān)性矩陣引導(dǎo)標(biāo)記分布矩陣學(xué)習(xí),進(jìn)而完成偏多標(biāo)記消歧。然后構(gòu)建局部標(biāo)記相關(guān)性矩陣動(dòng)態(tài)學(xué)習(xí)機(jī)制以消除噪聲標(biāo)記對(duì)模型的影響。最后構(gòu)建模型更新策略使得模型可以有效預(yù)測(cè)偏多標(biāo)記數(shù)據(jù)的標(biāo)記集。
48、所述基于加權(quán)流形消歧和動(dòng)態(tài)局部標(biāo)記相關(guān)性的偏多標(biāo)記分類方法將核技術(shù)與流形學(xué)習(xí)應(yīng)用于基于加權(quán)流形消歧和動(dòng)態(tài)局部標(biāo)記相關(guān)性的偏多標(biāo)記學(xué)習(xí)算法,為偏多標(biāo)記環(huán)境提供了一個(gè)高性能的分類算法。