国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于多原型學(xué)習(xí)的場(chǎng)景語義信息提取方法

      文檔序號(hào):39623025發(fā)布日期:2024-10-11 15:41閱讀:47來源:國知局
      一種基于多原型學(xué)習(xí)的場(chǎng)景語義信息提取方法

      本發(fā)明屬于語義信息提取,具體涉及一種基于多原型學(xué)習(xí)的場(chǎng)景語義信息提取方法。


      背景技術(shù):

      1、隨著計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,場(chǎng)景理解作為這些領(lǐng)域核心的研究方向之一,是科研和工業(yè)界的研究熱點(diǎn)。場(chǎng)景語義信息提取旨在從圖像或視頻中識(shí)別并提取出有意義的語義信息,如物體、事件、關(guān)系等,它是許多高級(jí)視覺任務(wù)的基礎(chǔ),如目標(biāo)檢測(cè)、圖像分類、語義分割等。此外,有效的場(chǎng)景語義信息提取對(duì)于眾多現(xiàn)實(shí)應(yīng)用都至關(guān)重要,如自動(dòng)駕駛、機(jī)器人導(dǎo)航和增強(qiáng)現(xiàn)實(shí)等。

      2、傳統(tǒng)的場(chǎng)景語義信息提取方法往往基于規(guī)則、統(tǒng)計(jì)或深度學(xué)習(xí)等技術(shù)。其中,基于規(guī)則的方法需要手動(dòng)編寫大量規(guī)則,難以應(yīng)對(duì)復(fù)雜場(chǎng)景;基于統(tǒng)計(jì)的方法對(duì)標(biāo)注數(shù)據(jù)依賴性較高,且難以捕捉豐富的語義信息;基于深度學(xué)習(xí)的方法主要采用卷積神經(jīng)網(wǎng)絡(luò)(cnn)、循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)和圖神經(jīng)網(wǎng)絡(luò)(gnn)等,這些方法需要在大量標(biāo)注數(shù)據(jù)下經(jīng)過復(fù)雜的訓(xùn)練流程,才能在特定場(chǎng)景下展現(xiàn)出良好的性能。然而,當(dāng)遇到場(chǎng)景變動(dòng)大、場(chǎng)景中各個(gè)類別內(nèi)部特征豐富多樣的復(fù)雜情形時(shí),這些方法往往因?yàn)槿狈ψ銐虻撵`活性和適應(yīng)性,而難以滿足現(xiàn)實(shí)應(yīng)用對(duì)高精度和高效率的要求。

      3、目前,基于原型對(duì)場(chǎng)景語義信息進(jìn)行提取的方式有以下幾種:

      4、第一種是以參數(shù)化方式為每一類訓(xùn)練單個(gè)原型作為該類的典型代表。具體地,這種方式在特征提取層后面附加一個(gè)原型層,每類的單個(gè)原型均是隨機(jī)初始化的。在訓(xùn)練階段,通過隨機(jī)梯度下降共同優(yōu)化特征提取層和原型層,網(wǎng)絡(luò)采用交叉熵?fù)p失懲罰訓(xùn)練數(shù)據(jù)集中的誤分類,使原型能夠區(qū)分不同類別的關(guān)鍵特征,從而獲得每個(gè)類別對(duì)應(yīng)的原型。原型用于表示每個(gè)類別的典型特征,通過比較輸入圖像與原型之間的相似性來進(jìn)行分類。然而,該方法存在一定的限制。首先,一旦原型學(xué)習(xí)完畢,更新原型需要重新訓(xùn)練,缺乏靈活性。其次,隨著類別數(shù)量的增加,原型層的參數(shù)量也會(huì)相應(yīng)增加,這可能導(dǎo)致模型泛化能力下降,特別是在類別數(shù)目龐大的情況下。此外,該方法僅依賴交叉熵?fù)p失來優(yōu)化類內(nèi)和類間距離的相對(duì)關(guān)系,忽視了像素和原型之間的實(shí)際距離度量,這可能導(dǎo)致對(duì)圖像語義信息的細(xì)節(jié)捕捉不夠精確。

      5、第二種是將每一類的訓(xùn)練像素的平均特征作為單元型。這類方法通過計(jì)算每個(gè)類別中所有像素特征的平均值,得到一個(gè)代表性的特征向量,以此作為該類別的單元型。這些特征可以包括顏色、紋理、形狀等多種屬性,能夠整體反映訓(xùn)練集中各個(gè)類別的典型特征。在提取場(chǎng)景語義信息時(shí),新場(chǎng)景的像素特征與事先得到的單元型進(jìn)行比較,從而判斷其語義類別。這種方法簡(jiǎn)單直觀,但同樣無法捕捉到場(chǎng)景信息的復(fù)雜性和多樣性。

      6、綜上所述,現(xiàn)有的場(chǎng)景語義信息提取方法雖然從原型的角度去描述各個(gè)類別,并取得了一定的進(jìn)展,但仍存在一些不足和局限性。


      技術(shù)實(shí)現(xiàn)思路

      1、為了克服上述現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種基于多原型學(xué)習(xí)的場(chǎng)景語義信息提取方法,該方法中每個(gè)類別由一組原型抽象出來,很好地捕捉了類別特征和類內(nèi)差異性,原型被定義為嵌入空間中像素的“子類中心”,每個(gè)像素的預(yù)測(cè)可以直觀地理解為嵌入空間中與其最近原型中心的類別,增強(qiáng)了模型的可解釋性。

      2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:

      3、一種基于多原型學(xué)習(xí)的場(chǎng)景語義信息提取方法,包括以下步驟;

      4、步驟(1):對(duì)輸入圖像進(jìn)行預(yù)處理,預(yù)處理后的圖像將作為步驟(2)骨干網(wǎng)絡(luò)的輸入;

      5、步驟(2):訓(xùn)練backbone(骨干網(wǎng)絡(luò))更新其參數(shù),利用訓(xùn)練所得backbone從預(yù)處理后的圖像提取特征,作為步驟(3)的輸入;

      6、步驟(3):類內(nèi)在線聚類構(gòu)建多原型:將步驟(2)提取的特征,在每一類的稠密特征內(nèi)進(jìn)行在線聚類,為每個(gè)類別構(gòu)建多個(gè)原型,作為步驟(4)中語義知識(shí)庫構(gòu)建的輸入;

      7、步驟(4):語義知識(shí)庫的構(gòu)建:收集步驟(3)中每個(gè)類別的多個(gè)原型,完成語義知識(shí)庫的構(gòu)建;語義知識(shí)庫為步驟(5)中的最近原型匹配提供先驗(yàn)知識(shí),并幫助解釋步驟(6)中提取的語義信息;

      8、步驟(5):最近原型匹配:對(duì)于輸入圖像中的每個(gè)像素,將其特征表示與語義知識(shí)庫中的原型進(jìn)行匹配,找到最相似的原型,最近原型匹配的結(jié)果將用于步驟(6)中的場(chǎng)景語義提取,同時(shí)也為步驟(2)中的骨干網(wǎng)絡(luò)參數(shù)更新提供損失函數(shù)的計(jì)算依據(jù);

      9、步驟(6):場(chǎng)景語義提取:對(duì)步驟(5)輸出的逐像素語義標(biāo)簽進(jìn)行重要性評(píng)估,最終得到整個(gè)場(chǎng)景的語義信息。

      10、所述步驟(1)通常包括圖像縮放、歸一化和增強(qiáng)的操作來改善數(shù)據(jù)集質(zhì)量,利于后續(xù)網(wǎng)絡(luò)模型的學(xué)習(xí),預(yù)處理后的圖像將作為步驟(2)骨干網(wǎng)絡(luò)的輸入。

      11、所述步驟(1)具體為:

      12、(1a)對(duì)輸入圖像進(jìn)行歸一化處理;將圖像的像素值調(diào)整到一個(gè)統(tǒng)一的范圍內(nèi),幫助模型更快地收斂,加速模型的訓(xùn)練過程;

      13、(1b)將歸一化后的圖像數(shù)據(jù)轉(zhuǎn)換為深度學(xué)習(xí)框架能夠處理的張量格式;

      14、(1c)將(1b)中要輸入網(wǎng)絡(luò)的圖像張量通過中心裁剪方式調(diào)整為固定尺寸,中心裁剪后的圖像可以消除部分冗余信息,保留更多的感興趣區(qū)域,固定尺寸便于使用合適的批次大小進(jìn)行訓(xùn)練;

      15、(1d)將經(jīng)過上述三個(gè)步驟得到的固定尺寸的歸一化圖像張量進(jìn)行數(shù)據(jù)增強(qiáng),包括旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、平移和改變顏色操作,生成更多的訓(xùn)練樣本,從而幫助模型更好地泛化到新的未見過的數(shù)據(jù)。

      16、所述步驟(2)骨干網(wǎng)絡(luò)通常由卷積層堆疊而成,用于從輸入圖像提取特征作為步驟(3)的輸入,在訓(xùn)練過程中,骨干網(wǎng)絡(luò)的參數(shù)根據(jù)步驟(5)中網(wǎng)絡(luò)輸出的結(jié)果計(jì)算損失進(jìn)行更新,以優(yōu)化網(wǎng)絡(luò)性能;

      17、所述步驟(2)具體為:

      18、backbone(骨干網(wǎng)絡(luò))作為特征提取器,由去掉全連接層的resnet101網(wǎng)絡(luò)構(gòu)成,并使用imagenet1k預(yù)訓(xùn)練得到的權(quán)重完成參數(shù)初始化;訓(xùn)練階段,將經(jīng)過預(yù)處理的批量訓(xùn)練樣本輸入網(wǎng)絡(luò)進(jìn)行前向傳播得到預(yù)測(cè)輸出用于和真實(shí)標(biāo)簽計(jì)算損失;backbone(骨干網(wǎng)絡(luò))的參數(shù)更新通過梯度下降的方式,最小化所有訓(xùn)練像素樣本上的組合損失,如式(1)所示:

      19、loss=celoss+λ1pceloss+λ2pcosloss???????(1)

      20、其中,λ1和λ2分別為pceloss和pcosloss的權(quán)重參數(shù),訓(xùn)練過程中根據(jù)網(wǎng)絡(luò)輸出進(jìn)行人為調(diào)整。本步驟的作用為:網(wǎng)絡(luò)參數(shù)通過多次在訓(xùn)練集的樣本上進(jìn)行迭代更新,模型能夠逐漸學(xué)習(xí)到數(shù)據(jù)的內(nèi)在規(guī)律和結(jié)構(gòu),從而提高其預(yù)測(cè)能力。

      21、以下對(duì)三個(gè)損失分別進(jìn)行詳細(xì)的介紹:

      22、(2a)celoss

      23、首先定義像素i在c類上的概率分布如式(2)所示:

      24、

      25、其中像素到類的距離si,c∈[-1,1]被計(jì)算為到類c的最近原型的距離,給定每個(gè)像素i的真實(shí)類別,即ci∈{1,…,c},使用交叉熵?fù)p失進(jìn)行訓(xùn)練:

      26、

      27、式(3)推動(dòng)像素i更接近其所屬類,并遠(yuǎn)離不相關(guān)類;

      28、(2b)pceloss

      29、在第c類中,訓(xùn)練集中的像素表示為它們被在線分組為k個(gè)原型在當(dāng)前批次的所有樣本處理完畢后,每個(gè)像素i被分配到類ci的第ki個(gè)原型,其中引入一個(gè)新的損失函數(shù)來最大化原型分配的后驗(yàn)概率;

      30、

      31、其中,為分配概率矩陣,式(4)強(qiáng)制每個(gè)像素i與其分配的“正”原型相似,與其他ck-1個(gè)無關(guān)的“負(fù)”原型p-不同;

      32、(2c)pcosloss

      33、引入一個(gè)衡量同種原型內(nèi)緊湊性的損失函數(shù)pcosloss:

      34、

      35、該損失函數(shù)通過直接最小化每個(gè)像素與其分配到的原型之間的距離,最大程度地減少同一原型內(nèi)的差異,同時(shí)保持不同原型之間的分離,從而使模型對(duì)異常值更具魯棒性。

      36、所述步驟(3)具體為:

      37、(3a)類內(nèi)在線聚類

      38、采用類內(nèi)在線聚類的方法來為每類選擇和分配原型:將同一類中的像素樣本分配給屬于該類的k種原型,然后根據(jù)分配的情況更新原型;聚類迫使模型發(fā)現(xiàn)類內(nèi)的差異,但丟棄特定于實(shí)例的細(xì)節(jié),最終選擇子集群的中心作為原型的典型代表;在形式上,給定一個(gè)訓(xùn)練批中屬于c類(即cin=c)的像素將像素i?c映射到c類的k個(gè)原型把這個(gè)像素到原型的映射表示為其中是該像素在k個(gè)原型上的one-hot分配向量,優(yōu)化lc是通過最大化像素嵌入即和原型之間的相似度實(shí)現(xiàn)的,即:

      39、

      40、其中1k表示全1的k維向量,是唯一的分配約束,確保每個(gè)像素被分配給唯一一個(gè)原型,是均分約束,強(qiáng)制每個(gè)原型在批處理中平均至少被選擇次;

      41、(3b)原型更新

      42、模型中的原型是通過非參數(shù)學(xué)習(xí)的模型提取來的,由相應(yīng)的嵌入像素樣本的中心來表示,通過不斷更新在線聚類的結(jié)果,讓原型不斷進(jìn)化,使之更具代表性。在每次訓(xùn)練迭代之后,每個(gè)原型都更新為:

      43、

      44、其中μ∈[0,1]是動(dòng)量系數(shù),表示通過在線聚類分配給原型pc,k歸一化向量,在不斷地迭代更新中使得原型的代表性進(jìn)一步提高。

      45、每類的多個(gè)原型被初始化為隨機(jī)正態(tài)分布,在每次訓(xùn)練迭代中,模型首先執(zhí)行類內(nèi)在線聚類(3a),為每個(gè)類別選擇和分配像素代表作為本次迭代的原型。步驟(3b)使用本次迭代分配的原型來更新上一輪迭代得到的每個(gè)類別的原型表示,更新后的原型又將用于下一次訓(xùn)練迭代中的在線聚類過程,原型隨著訓(xùn)練的進(jìn)行而不斷進(jìn)化,使模型能夠適應(yīng)數(shù)據(jù)的變化和復(fù)雜性。

      46、所述步驟(4)具體為:

      47、通過類內(nèi)在線聚類的方式為每一類學(xué)到多個(gè)原型,所有類別遍歷完成就得到了語義知識(shí)庫其中共有c類事物,每個(gè)類c∈{1,···,c}又由共k種原型表示,并且原型pc,k被確定為在嵌入空間中屬于訓(xùn)練像素樣本集群的第c類的第k個(gè)子中心;原型全面捕獲相應(yīng)類的特征屬性,而無需在特征提取器之外引入額外的參數(shù)。

      48、所述步驟(5)具體為:

      49、如式所示,通過最近原型匹配的方式實(shí)現(xiàn)每個(gè)像素的分類,計(jì)算像素i和所有原型的距離,選擇距離最近的原型對(duì)應(yīng)的類別作為該像素的預(yù)測(cè)類別:

      50、

      51、其中表示像素i的歸一化嵌入,距離度量<·,·>定義為負(fù)余弦相似度,即

      52、所述步驟(6)具體為:

      53、對(duì)步驟(5)輸出的逐像素語義標(biāo)簽進(jìn)行重要性評(píng)估的后處理,最終得到整個(gè)場(chǎng)景的語義信息。分兩步完成,首先需要獲得場(chǎng)景圖像基于語義知識(shí)庫的語義基元組成,接著再求得場(chǎng)景特征向量基于語義基元的尺度表征。

      54、定義圖像特征圖為f:f∈rw×h×c,語義基元庫為:lb∈rn×c,其中,n為語義基元個(gè)數(shù),將特征圖逐像素與語義知識(shí)庫中每個(gè)原型做內(nèi)積,選出匹配度最高的原型作為該像素對(duì)應(yīng)的原型,g(f,lb)表示f中每個(gè)向量與lb每個(gè)原型做內(nèi)積并做相應(yīng)的變換,分別定義兩種輸出g(0)、g(1),其中g(shù)(0)為特征圖逐像素被分配的原型索引,即結(jié)果最大的內(nèi)積對(duì)應(yīng)的語義基元序號(hào),而g(1)則表示取到最大內(nèi)積時(shí)對(duì)應(yīng)的語義匹配度。

      55、(6a)獲取場(chǎng)景語義基元組成

      56、在得到每個(gè)像素對(duì)應(yīng)的原型后,取匹配度最高的k個(gè)原型作為該場(chǎng)景圖像的語義基元組成,丟棄掉不重要的原型信息來更好的描述場(chǎng)景中的重要目標(biāo),對(duì)g(0)、g(1)做一個(gè)加權(quán)直方圖的處理,定義為w_hist為直方圖處理的過程,其中

      57、t=w_hist(g(0),g(1)),t∈rn?????(9)

      58、

      59、其中,n∈{0,1,2…,n-1},t[n]為每個(gè)基元的加權(quán)出現(xiàn)次數(shù),其中權(quán)重為語義匹配度g(1);

      60、為了得到所有像素中匹配度最高的k個(gè)原型,引入oi,

      61、

      62、其中,oi是對(duì)目標(biāo)基元的one-hot編碼,指示描述該場(chǎng)景語義信息所需的前k個(gè)重要基元在語義知識(shí)庫中的位置;

      63、(6b)語義基元投影

      64、得到圖像的語義基元組成后,將目標(biāo)特征和語義知識(shí)庫中最近原型的投影進(jìn)行加權(quán)求和,作為目標(biāo)向量基于語義基元的尺度表征,通過加權(quán)最大平均池化mask?globalaverage?pooling(mgap)的策略來完成上述尺度信息的獲取,將feature?map從rw×h×c降維至rn×c,

      65、

      66、其中,

      67、oi是目標(biāo)基元組成的one-hot編碼,用oi分別對(duì)lb和q進(jìn)行索引,即可將lb和q從rn×c降維至rk×c,得到尺度表征向量op;

      68、op=lb[oi]·q[oi]????????(13)

      69、其中l(wèi)b[oi]表示使用oi對(duì)lb進(jìn)行索引,op∈rk×1。

      70、本發(fā)明的有益效果:

      71、1.本發(fā)明為每個(gè)類別學(xué)習(xí)一組原型來抽象類別特征和類內(nèi)差異性,有效捕捉了同一類別內(nèi)不同實(shí)例之間的細(xì)微差異,提高了場(chǎng)景語義信息提取的準(zhǔn)確性;

      72、2.本發(fā)明將原型明確定義為像素嵌入空間中的子類中心,每個(gè)像素的預(yù)測(cè)都可以直觀地理解為在嵌入空間中與其最近的子類中心對(duì)應(yīng)的類別,模型的可解釋性顯著增強(qiáng);

      73、3.本發(fā)明中類內(nèi)多原型學(xué)習(xí)具有非參數(shù)化的性質(zhì),與傳統(tǒng)的參數(shù)化方法相比,原型參數(shù)的數(shù)量不再受限于類別數(shù)量,避免了參數(shù)數(shù)量的爆炸式增長。這種特性使得我們的模型能夠輕松應(yīng)對(duì)大規(guī)模數(shù)據(jù)集和復(fù)雜場(chǎng)景,展現(xiàn)出強(qiáng)大的可擴(kuò)展性;

      74、4.本發(fā)明通過基于原型的度量學(xué)習(xí),引入兩個(gè)額外的損失函數(shù),提高了類內(nèi)不同原型間的離散性和同一原型內(nèi)像素特征的緊湊性,使學(xué)到的原型更具代表性,為場(chǎng)景語義信息的提取提供了更可靠的依據(jù)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1