国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      分類(lèi)裝置、分類(lèi)方法以及電子設(shè)備的制作方法

      文檔序號(hào):6489030閱讀:630來(lái)源:國(guó)知局
      分類(lèi)裝置、分類(lèi)方法以及電子設(shè)備的制作方法
      【專(zhuān)利摘要】本發(fā)明提供了分類(lèi)裝置、分類(lèi)方法以及電子設(shè)備,以克服利用傳統(tǒng)的基于圖的學(xué)習(xí)方法所獲得的測(cè)試樣本的類(lèi)別分值不準(zhǔn)確的問(wèn)題。上述分類(lèi)裝置包括:用于對(duì)目標(biāo)樣本進(jìn)行聚類(lèi)的聚類(lèi)單元;用于確定與目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本的確定單元;用于刪除類(lèi)別分值不準(zhǔn)確的訓(xùn)練樣本的類(lèi)別分值的刪除單元;以及用于將上述目標(biāo)樣本作為測(cè)試樣本并根據(jù)每個(gè)測(cè)試樣本與每個(gè)剩下的訓(xùn)練樣本之間的相似度、以及每?jī)蓚€(gè)測(cè)試樣本之間的相似度來(lái)計(jì)算上述測(cè)試樣本的類(lèi)別分值的計(jì)算單元。上述分類(lèi)方法用于執(zhí)行能夠?qū)崿F(xiàn)上述分類(lèi)裝置的功能的處理。上述電子設(shè)備包括上述分類(lèi)裝置。本發(fā)明的上述技術(shù)能夠應(yīng)用于信息處理領(lǐng)域。
      【專(zhuān)利說(shuō)明】分類(lèi)裝置、分類(lèi)方法以及電子設(shè)備
      【技術(shù)領(lǐng)域】
      [0001 ] 本發(fā)明涉及信息處理領(lǐng)域,尤其涉及一種分類(lèi)裝置、分類(lèi)方法以及電子設(shè)備。
      【背景技術(shù)】
      [0002]作為一種能夠有效描述數(shù)據(jù)之間關(guān)系的方法,基于圖的學(xué)習(xí)已經(jīng)被廣泛地應(yīng)用于諸多領(lǐng)域,比如網(wǎng)頁(yè)分類(lèi)、圖像檢索、視頻概念檢測(cè)等。上述網(wǎng)頁(yè)分類(lèi)、圖像檢索以及視頻概念檢測(cè)等,從廣義上都可以看成一個(gè)分類(lèi)過(guò)程。需要注意的是,這里所說(shuō)的圖是帶權(quán)圖,它是一種數(shù)據(jù)關(guān)系,而并非真正意義上的圖像。
      [0003]傳統(tǒng)的基于圖的學(xué)習(xí)方法,通常是在某種優(yōu)化的框架下利用訓(xùn)練樣本之間的相似度,通過(guò)最優(yōu)解的解析表達(dá)式或者迭代的求解方法,來(lái)為每個(gè)訓(xùn)練樣本計(jì)算出一個(gè)能夠反映其類(lèi)別屬性的類(lèi)別分值。為了將學(xué)習(xí)結(jié)果推廣到測(cè)試樣本,一般需要基于平滑性約束設(shè)計(jì)另一個(gè)待優(yōu)化的代價(jià)函數(shù)。
      [0004]然而,在上述傳統(tǒng)的基于圖的學(xué)習(xí)方法中,在將學(xué)習(xí)結(jié)果推廣到測(cè)試樣本的過(guò)程中,訓(xùn)練樣本的類(lèi)別分值往往保持不變,這使得一些類(lèi)別分值可能不準(zhǔn)確的訓(xùn)練樣本會(huì)對(duì)測(cè)試樣本類(lèi)別分值的計(jì)算造成負(fù)面的影響,也即,使得計(jì)算所得的測(cè)試樣本的類(lèi)別分值不準(zhǔn)確。此外,為了將學(xué)習(xí)結(jié)果推廣到測(cè)試樣本,上述傳統(tǒng)的基于圖的學(xué)習(xí)方法通常是依次處理各個(gè)測(cè)試樣本,而完全沒(méi)有考慮測(cè)試樣本之間的關(guān)系,這也同樣有可能使得測(cè)試樣本的類(lèi)別分值計(jì)算不準(zhǔn)確。

      【發(fā)明內(nèi)容】

      [0005]在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
      [0006]鑒于此,本發(fā)明提供了一種分類(lèi)裝置、分類(lèi)方法以及電子設(shè)備,以至少解決利用傳統(tǒng)的基于圖的學(xué)習(xí)方法所獲得的測(cè)試樣本的類(lèi)別分值不準(zhǔn)確的問(wèn)題。
      [0007]根據(jù)本發(fā)明的一個(gè)方面,提供了一種分類(lèi)裝置,該分類(lèi)裝置包括:聚類(lèi)單元,其被配置用于對(duì)目標(biāo)樣本進(jìn)行聚類(lèi),以獲得目標(biāo)樣本的至少一個(gè)聚類(lèi);確定單元,其被配置用于分別確定與上述目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本,其中,上述訓(xùn)練樣本中的每一個(gè)均具有類(lèi)別分值;刪除單元,其被配置用于針對(duì)上述目標(biāo)樣本的每個(gè)聚類(lèi),獲得與該聚類(lèi)相關(guān)的訓(xùn)練樣本的類(lèi)別分值中的最大值和最小值之差,并在上述差大于第一預(yù)定閾值時(shí),刪除與該聚類(lèi)相關(guān)的訓(xùn)練樣本的類(lèi)別分值;以及計(jì)算單元,其被配置用于將上述目標(biāo)樣本作為測(cè)試樣本,根據(jù)每個(gè)測(cè)試樣本與每個(gè)剩下的訓(xùn)練樣本之間的相似度、以及每?jī)蓚€(gè)測(cè)試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類(lèi)別分值,通過(guò)求解優(yōu)化問(wèn)題的方法獲得上述測(cè)試樣本的類(lèi)別分值。
      [0008]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種分類(lèi)方法,該分類(lèi)方法包括:對(duì)目標(biāo)樣本進(jìn)行聚類(lèi),以獲得上述目標(biāo)樣本的至少一個(gè)聚類(lèi);分別確定與上述目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本,其中,上述訓(xùn)練樣本中的每一個(gè)均具有類(lèi)別分值;針對(duì)上述目標(biāo)樣本的每個(gè)聚類(lèi),獲得與該聚類(lèi)相關(guān)的訓(xùn)練樣本的類(lèi)別分值中的最大值和最小值之差,并在上述差大于第一預(yù)定閾值時(shí),刪除與該聚類(lèi)相關(guān)的訓(xùn)練樣本的類(lèi)別分值;以及將上述目標(biāo)樣本作為測(cè)試樣本,根據(jù)每個(gè)測(cè)試樣本與每個(gè)剩下的訓(xùn)練樣本之間的相似度、以及每?jī)蓚€(gè)測(cè)試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類(lèi)別分值,通過(guò)求解優(yōu)化問(wèn)題的方法獲得上述測(cè)試樣本的類(lèi)別分值。
      [0009]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種電子設(shè)備,該電子設(shè)備包括如上所述的分類(lèi)裝置。
      [0010]上述根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置、分類(lèi)方法以及電子設(shè)備,能夠至少實(shí)現(xiàn)以下益處之一:通過(guò)確定類(lèi)別分值不準(zhǔn)確的訓(xùn)練樣本并刪除這些訓(xùn)練樣本的類(lèi)別分值,使得訓(xùn)練樣本能夠更加準(zhǔn)確地反映數(shù)據(jù)的真實(shí)分布信息;保證了在計(jì)算測(cè)試樣本的類(lèi)別分值的過(guò)程中所使用的訓(xùn)練樣本的類(lèi)別分值的準(zhǔn)確性;以及通過(guò)在計(jì)算過(guò)程中引入測(cè)試樣本之間的相似性關(guān)系,使得獲得的測(cè)試樣本的類(lèi)別分值更加準(zhǔn)確。
      [0011]通過(guò)以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說(shuō)明,本發(fā)明的這些以及其他優(yōu)點(diǎn)將更加明顯。
      【專(zhuān)利附圖】

      【附圖說(shuō)明】
      [0012]本發(fā)明可以通過(guò)參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來(lái)表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說(shuō)明一起包含在本說(shuō)明書(shū)中并且形成本說(shuō)明書(shū)的一部分,而且用來(lái)進(jìn)一步舉例說(shuō)明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中:
      [0013]圖1是示意性地示出根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置的一種示例結(jié)構(gòu)的框圖。
      [0014]圖2A-2C是示意性地示出傳統(tǒng)的分類(lèi)技術(shù)在處理測(cè)試樣本時(shí)的基本原理圖。
      [0015]圖2D是示意性地示出根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置在處理測(cè)試樣本時(shí)的基本原理圖。
      [0016]圖3是示意性地示出如圖1所示的計(jì)算單元的一種可能的示例結(jié)構(gòu)的框圖。
      [0017]圖4是示意性地示出根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置的另一種示例結(jié)構(gòu)的框圖。
      [0018]圖5是示意性地示出根據(jù)本發(fā)明的實(shí)施例的分類(lèi)方法的一種示例性處理的流程圖。
      [0019]圖6是示出了可用來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置和分類(lèi)方法的一種可能的信息處理設(shè)備的硬件配置的結(jié)構(gòu)簡(jiǎn)圖。
      [0020]本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,附圖中的元件僅僅是為了簡(jiǎn)單和清楚起見(jiàn)而示出的,而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對(duì)于其他元件放大了,以便有助于提高對(duì)本發(fā)明實(shí)施例的理解。
      【具體實(shí)施方式】
      [0021]在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見(jiàn),在說(shuō)明書(shū)中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開(kāi)發(fā)任何這種實(shí)際實(shí)施例的過(guò)程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開(kāi)發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開(kāi)發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開(kāi)內(nèi)容的本領(lǐng)域技術(shù)人員來(lái)說(shuō),這種開(kāi)發(fā)工作僅僅是例行的任務(wù)。
      [0022]在此,還需要說(shuō)明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。
      [0023]本發(fā)明的實(shí)施例提供了一種分類(lèi)裝置,該分類(lèi)裝置包括:聚類(lèi)單元,其被配置用于對(duì)目標(biāo)樣本進(jìn)行聚類(lèi),以獲得目標(biāo)樣本的至少一個(gè)聚類(lèi);確定單元,其被配置用于分別確定與上述目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本,其中,上述訓(xùn)練樣本中的每一個(gè)均具有類(lèi)別分值;刪除單元,其被配置用于針對(duì)上述目標(biāo)樣本的每個(gè)聚類(lèi),獲得與該聚類(lèi)相關(guān)的訓(xùn)練樣本的類(lèi)別分值中的最大值和最小值之差,并在上述差大于第一預(yù)定閾值時(shí),刪除與該聚類(lèi)相關(guān)的訓(xùn)練樣本的類(lèi)別分值;以及計(jì)算單元,其被配置用于將上述目標(biāo)樣本作為測(cè)試樣本,根據(jù)每個(gè)測(cè)試樣本與每個(gè)剩下的訓(xùn)練樣本之間的相似度、以及每?jī)蓚€(gè)測(cè)試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類(lèi)別分值,通過(guò)求解優(yōu)化問(wèn)題的方法獲得上述測(cè)試樣本的類(lèi)別分值。
      [0024]下面結(jié)合圖1來(lái)詳細(xì)描述根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置的一個(gè)示例。
      [0025]如圖1所示,根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置100包括聚類(lèi)單元110、確定單元120、刪除單元130和計(jì)算單元140。
      [0026]在分類(lèi)裝置100中,聚類(lèi)單元110用于對(duì)目標(biāo)樣本進(jìn)行聚類(lèi),以獲得目標(biāo)樣本的至少一個(gè)聚類(lèi)。其中,這里所說(shuō)的目標(biāo)樣本可以是圖像,也可以是視頻,還可以是文本、網(wǎng)頁(yè)等對(duì)象。
      [0027]在根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置的一個(gè)具體實(shí)現(xiàn)方式中,可以通過(guò)聚類(lèi)單元110對(duì)目標(biāo)樣本的聚類(lèi)處理,來(lái)使得每個(gè)聚類(lèi)中的每個(gè)目標(biāo)樣本與該聚類(lèi)下的至少一個(gè)其他目標(biāo)樣本的相似度大于第四預(yù)定閾值。
      [0028]例如,可以采用分級(jí)聚類(lèi)算法來(lái)實(shí)現(xiàn)上述實(shí)現(xiàn)方式中的聚類(lèi)處理,具體過(guò)程如下:al)初始時(shí)構(gòu)建若干個(gè)集合,使得每個(gè)集合僅包括一個(gè)目標(biāo)樣本;a2)計(jì)算每?jī)蓚€(gè)集合之間的相似度,其中,任兩個(gè)集合之間的相似度可以定義為該兩個(gè)集合的元素之間相似度的最大值,即&>?(々= max Sim{a,h)唭中,A和B表示任意兩個(gè)集合,a和b分別表示兩個(gè)集
      合中的任意元素,Sim(A,B)表示集合A和集合B之間的相似度;a3)在所計(jì)算的每?jī)蓚€(gè)集合之間的相似度中,判斷其中最大的相似度是否大于第四預(yù)定閾值,若是,則將上述最大的相似度對(duì)應(yīng)的兩個(gè)集合(即所有集合中相似度最大的兩個(gè)集合)合并為一個(gè)集合,然后返回執(zhí)行a2),直至所有集合中的任意兩個(gè)集合之間的相似度均小于第四預(yù)定閾值為止。
      [0029]需要說(shuō)明的是,第四預(yù)定閾值可以根據(jù)經(jīng)驗(yàn)值設(shè)定,也可以通過(guò)試驗(yàn)的方式來(lái)確定,這里不再詳述。
      [0030]此外,如圖1所示,確定單元120用于分別確定與目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本。其中,訓(xùn)練樣本是與目標(biāo)樣本種類(lèi)相同的對(duì)象,例如,訓(xùn)練樣本和目標(biāo)樣本可以同是以下對(duì)象中的任一種:圖像;視頻;文本;以及網(wǎng)頁(yè)等。
      [0031]在根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置的具體實(shí)現(xiàn)方式中,上述“與目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本”可以有多種不同的確定方式。
      [0032]在一個(gè)實(shí)現(xiàn)方式中,針對(duì)目標(biāo)樣本的每個(gè)聚類(lèi),確定單元120可以將與該聚類(lèi)中的至少一個(gè)目標(biāo)樣本之間的相似度高于第二預(yù)定閾值的訓(xùn)練樣本確定為與該聚類(lèi)相關(guān)的訓(xùn)練樣本。
      [0033]在上述實(shí)現(xiàn)方式的一個(gè)例子中,假設(shè)目標(biāo)樣本的聚類(lèi)M是聚類(lèi)單元110對(duì)目標(biāo)樣本進(jìn)行聚類(lèi)處理之后所得到的任意一個(gè)聚類(lèi),則針對(duì)聚類(lèi)M,確定單元120可以首先計(jì)算每一個(gè)訓(xùn)練樣本與聚類(lèi)M中的每個(gè)目標(biāo)樣本之間的相似度,然后,將與聚類(lèi)M中的至少一個(gè)目標(biāo)樣本之間的相似度高于上述第二預(yù)定閾值的那些訓(xùn)練樣本確定為與聚類(lèi)M相關(guān)的訓(xùn)練樣本。
      [0034]或者,在上述實(shí)現(xiàn)方式的其他例子中,針對(duì)每一個(gè)訓(xùn)練樣本來(lái)說(shuō),確定單元120也可以不必計(jì)算這個(gè)訓(xùn)練樣本與聚類(lèi)M中的每個(gè)目標(biāo)樣本之間的相似度。以訓(xùn)練樣本SbS例,當(dāng)確定單元120所計(jì)算的聚類(lèi)M中的某個(gè)目標(biāo)樣本Sa與訓(xùn)練樣本Sb之間的相似度高于上述第二預(yù)定閾值時(shí),確定單元120則可以不再計(jì)算聚類(lèi)M中剩余的目標(biāo)樣本與訓(xùn)練樣本Sb之間的相似度,而直接將訓(xùn)練樣本Sb確定為與聚類(lèi)M相關(guān)的其中一個(gè)訓(xùn)練樣本。
      [0035]需要說(shuō)明的是,訓(xùn)練樣本與目標(biāo)樣本之間的相似度可以根據(jù)具體情況來(lái)選擇計(jì)算方法。例如,可以采用一些現(xiàn)有的用于計(jì)算圖像相似度、文本相似度等的相似度計(jì)算方法,來(lái)分別在訓(xùn)練樣本與目標(biāo)樣本是圖像、文本以及其他種類(lèi)對(duì)象的情況下實(shí)現(xiàn)上述訓(xùn)練樣本與目標(biāo)樣本之間的相似度計(jì)算。
      [0036]此外,需要說(shuō)明的是,上述第二預(yù)定閾值可以根據(jù)經(jīng)驗(yàn)值設(shè)定,也可以通過(guò)試驗(yàn)的方式來(lái)確定,這里不再詳述。在一個(gè)例子中,第二預(yù)定閾值可以設(shè)定成與第四預(yù)定閾值相同的值。
      [0037]在另一個(gè)實(shí)現(xiàn)方式中,針對(duì)目標(biāo)樣本的每個(gè)聚類(lèi),確定單元120不僅可以將上述與該聚類(lèi)中的至少一個(gè)目標(biāo)樣本之間的相似度高于第二預(yù)定閾值的訓(xùn)練樣本確定為與該聚類(lèi)相關(guān)的訓(xùn)練樣本,還可以將與上述“與該聚類(lèi)中的至少一個(gè)目標(biāo)樣本之間的相似度高于第二預(yù)定閾值的訓(xùn)練樣本”之間的相似度高于第三預(yù)定閾值的那些訓(xùn)練樣本也確定為與該聚類(lèi)相關(guān)的訓(xùn)練樣本。
      [0038]仍以上述目標(biāo)樣本的任一聚類(lèi)M為例,通過(guò)與上文所說(shuō)方式相類(lèi)似的方式,確定單元120可以將那些與聚類(lèi)M中的至少一個(gè)目標(biāo)樣本之間的相似度高于上述第二預(yù)定閾值的訓(xùn)練樣本確定為與聚類(lèi)M相關(guān)的訓(xùn)練樣本。為方便起見(jiàn),下文中將“與聚類(lèi)M中的至少一個(gè)目標(biāo)樣本之間的相似度高于上述第二預(yù)定閾值的訓(xùn)練樣本”簡(jiǎn)稱(chēng)為第一類(lèi)訓(xùn)練樣本。除上述第一類(lèi)訓(xùn)練樣本之外,確定單元120還可以將那些與上述第一類(lèi)訓(xùn)練樣本中的任意一個(gè)之間的相似度高于上述第三預(yù)定閾值的訓(xùn)練樣本確定為與聚類(lèi)M相關(guān)的訓(xùn)練樣本。同樣,為方便起見(jiàn),下文中將上述“與上述第一類(lèi)訓(xùn)練樣本中的任意一個(gè)之間的相似度高于上述第三預(yù)定閾值的訓(xùn)練樣本”簡(jiǎn)稱(chēng)為第二類(lèi)訓(xùn)練樣本。由此,在該例子中,“與聚類(lèi)M相關(guān)的訓(xùn)練樣本”可以包括第一類(lèi)訓(xùn)練樣本和第二類(lèi)訓(xùn)練樣本。需要說(shuō)明的是,上述第三預(yù)定閾值可以根據(jù)經(jīng)驗(yàn)值設(shè)定,也可以通過(guò)試驗(yàn)的方式來(lái)確定,這里不再詳述。
      [0039]此外,這里所說(shuō)的訓(xùn)練樣本中的每一個(gè)均具有類(lèi)別分值。需要說(shuō)明的是,這里所說(shuō)的類(lèi)別分值是用于描述其所屬樣本的類(lèi)別與預(yù)定類(lèi)別之間的匹配程度的一種度量。換句話說(shuō),類(lèi)別分值可以描述其所屬樣本的類(lèi)別符合預(yù)定類(lèi)別的程度。一般地,可以認(rèn)為類(lèi)別分值越高,該類(lèi)別分值所屬樣本符合預(yù)定類(lèi)別的可能性就越大;相反地,類(lèi)別分值越低,則該類(lèi)別分值所屬樣本符合預(yù)定類(lèi)別的可能性就越小。例如,類(lèi)別分值通??梢栽?1到I之間取值。
      [0040]需要說(shuō)明的是,在一些實(shí)施例中,根據(jù)訓(xùn)練樣本的類(lèi)別分值的獲得方式的不同,訓(xùn)練樣本可以分為兩類(lèi)。
      [0041]其中,一類(lèi)訓(xùn)練樣本是一般的標(biāo)注樣本。這類(lèi)標(biāo)注樣本通常具有預(yù)定的類(lèi)別分值,例如,其類(lèi)別分值可以是由人手工地預(yù)先標(biāo)注的。然而,由于人力所限,這類(lèi)具有預(yù)定類(lèi)別分值的訓(xùn)練樣本通常數(shù)量也是有限的。
      [0042]此外,另一類(lèi)訓(xùn)練樣本是機(jī)器標(biāo)注樣本。這類(lèi)機(jī)器標(biāo)注樣本的類(lèi)別分值例如可以是在訓(xùn)練階段(一般的分類(lèi)器在使用前都需要利用訓(xùn)練樣本進(jìn)行訓(xùn)練的過(guò)程)基于上述標(biāo)注樣本的預(yù)定類(lèi)別分值獲得的。
      [0043]由此,在根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置的一些實(shí)現(xiàn)方式中,訓(xùn)練樣本可以包括以上兩類(lèi)樣本,也即,可以包括如上所述的標(biāo)注樣本和機(jī)器標(biāo)注樣本。其中,這兩類(lèi)訓(xùn)練樣本的類(lèi)別分值也可以分別采用與上文所述方式相類(lèi)似的方式獲得或確定,這里不再贅述。需要說(shuō)明的是,在這種情況下,確定單元120所確定的“與目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本”可以全部是機(jī)器標(biāo)注樣本。
      [0044]由此,通過(guò)確定單元120的處理可以分別確定與目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本。
      [0045]根據(jù)平滑性假設(shè)可知,相似樣本的類(lèi)別分值不應(yīng)相差太大。因此,如果某兩個(gè)訓(xùn)練樣本(特別是在這兩個(gè)訓(xùn)練樣本是機(jī)器標(biāo)注樣本的情況下)分別與某兩個(gè)目標(biāo)樣本相似,而這兩個(gè)目標(biāo)樣本彼此也很相似(例如屬于如上所述的某一個(gè)聚類(lèi)),那么這兩個(gè)訓(xùn)練樣本的類(lèi)別分值應(yīng)該不會(huì)彼此相差過(guò)大。若情況并非如此,例如,若與某一個(gè)聚類(lèi)下的兩個(gè)目標(biāo)樣本分別相似的兩個(gè)訓(xùn)練樣本的類(lèi)別分值之間的差異大于第一預(yù)定閾值的話,則可以認(rèn)為這兩個(gè)訓(xùn)練樣本的類(lèi)別分值是不準(zhǔn)確的,因此,去除這些類(lèi)別分值來(lái)設(shè)計(jì)推廣算法則可以獲得更加可靠的結(jié)果。
      [0046]于是,針對(duì)目標(biāo)樣本的每個(gè)聚類(lèi),刪除單元130可以首先計(jì)算那些“與該聚類(lèi)相關(guān)的訓(xùn)練樣本”的類(lèi)別分值中的最大值和最小值之差,然后,在所計(jì)算的差大于第一預(yù)定閾值時(shí),刪除這些“與該聚類(lèi)相關(guān)的訓(xùn)練樣本”的類(lèi)別分值。
      [0047]例如,以目標(biāo)樣本的任一聚類(lèi)M為例,如上文所述,通過(guò)確定單元120可以確定與聚類(lèi)M相關(guān)的訓(xùn)練樣本。然后,刪除單元130可以找到與聚類(lèi)M相關(guān)的所有訓(xùn)練樣本的類(lèi)別分值中的最大值和最小值,并計(jì)算該最大值和最小值之差(該差大于或等于0),當(dāng)該差大于上述第一預(yù)定閾值時(shí),則將這些與聚類(lèi)M相關(guān)的所有訓(xùn)練樣本的類(lèi)別分值全部刪除。
      [0048]特別地,在一個(gè)優(yōu)選例子中,在確定單元120所確定的“與該聚類(lèi)相關(guān)的訓(xùn)練樣本”全部是機(jī)器標(biāo)注樣本的情況下,刪除單元130所刪除的是這些機(jī)器標(biāo)注樣本的類(lèi)別分值。
      [0049]需要說(shuō)明的是,上述第一預(yù)定閾值可以根據(jù)經(jīng)驗(yàn)值設(shè)定,也可以通過(guò)試驗(yàn)的方式來(lái)確定,這里不再詳述。
      [0050]這樣,計(jì)算單元140可以利用剩下的訓(xùn)練樣本(即除去那些被刪除了類(lèi)別分值的訓(xùn)練樣本之外的其他訓(xùn)練樣本)的類(lèi)別分值,通過(guò)求解優(yōu)化問(wèn)題的方法獲得上述目標(biāo)樣本的類(lèi)別分值,進(jìn)而可以基于所計(jì)算的類(lèi)別分值來(lái)確定其類(lèi)別。
      [0051]在根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置的一個(gè)實(shí)現(xiàn)方式中,計(jì)算單元140可以將目標(biāo)樣本作為測(cè)試樣本,然后根據(jù)每個(gè)測(cè)試樣本與每個(gè)剩下的訓(xùn)練樣本之間的相似度、以及每?jī)蓚€(gè)測(cè)試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類(lèi)別分值,通過(guò)求解優(yōu)化問(wèn)題的方法獲得測(cè)試樣本的類(lèi)別分值。
      [0052]需要說(shuō)明的是,傳統(tǒng)的基于圖的學(xué)習(xí)方法通常是依次處理各個(gè)測(cè)試樣本,只考慮了每個(gè)測(cè)試樣本與訓(xùn)練樣本之間的關(guān)系,而完全沒(méi)有利用測(cè)試樣本與測(cè)試樣本之間的關(guān)系。圖2A-2C示意性地示出了傳統(tǒng)的基于圖的學(xué)習(xí)方法在處理測(cè)試樣本時(shí)采用的基本思想。在圖2A-2C以及下文中將要描述的圖2D中,“O”表示訓(xùn)練樣本(即SBfSB5),“A”表示測(cè)試樣本(即SAfSA3),其中的連線表示所連對(duì)象之間的相似度。
      [0053]由圖2A-2C可以看出,傳統(tǒng)的方法在處理測(cè)試樣本時(shí)只考慮了測(cè)試樣本與訓(xùn)練樣本之間的相似度,也即,分別處理每個(gè)測(cè)試樣本來(lái)對(duì)其進(jìn)行分類(lèi)。需要注意的是,圖2A-2C中并未示出測(cè)試樣本與每個(gè)訓(xùn)練樣本之間的連線,而是僅示出了與其相似度較高的前幾個(gè)訓(xùn)練樣本與其之間的連線。
      [0054]圖2D示意性地示出了計(jì)算單元140對(duì)測(cè)試樣本的處理思想。通過(guò)比較圖2D與先前所描述的圖2A-2C,可以看出,計(jì)算單元140在處理測(cè)試樣本時(shí)不僅考慮了測(cè)試樣本與訓(xùn)練樣本之間的相似度,而且還考慮了測(cè)試樣本與測(cè)試樣本之間的相似度(如圖2D中SaI與Sa2、Sa2與SA3之間的連線)。
      [0055]需要說(shuō)明的是,圖2A-2D中所示出的各個(gè)訓(xùn)練樣本之間的連線(即訓(xùn)練樣本之間的相似度)并非是指在計(jì)算測(cè)試樣本的類(lèi)別分值的過(guò)程中所需要的,而是在一些實(shí)施例的訓(xùn)練階段中,在獲得上文所述的機(jī)器標(biāo)注樣本的類(lèi)別分值時(shí)所使用的。
      [0056]下面結(jié)合圖3來(lái)描述計(jì)算單元140的一種可能的示例配置。
      [0057]如圖3所示,在該示例中,計(jì)算單元140可以包括代價(jià)函數(shù)構(gòu)造模塊310和代價(jià)函數(shù)求解模塊320。
      [0058]其中,代價(jià)函數(shù)構(gòu)造模塊310用于構(gòu)造能夠反映預(yù)定的約束條件的代價(jià)函數(shù),代價(jià)函數(shù)求解模塊320則用于通過(guò)求解該代價(jià)函數(shù)的最小化問(wèn)題來(lái)獲得測(cè)試樣本的類(lèi)別分值。
      [0059]上述預(yù)定的約束條件例如可以包括如下兩個(gè)條件:相似度越高的測(cè)試樣本與訓(xùn)練樣本的類(lèi)別分值越接近;以及相似度越高的兩個(gè)測(cè)試樣本的類(lèi)別分值越接近。
      [0060]根據(jù)以上預(yù)定的約束條件,在根據(jù)本發(fā)明的實(shí)施例的分類(lèi)裝置的一個(gè)實(shí)現(xiàn)方式中,代價(jià)函數(shù)構(gòu)造模塊310所構(gòu)造的代價(jià)函數(shù)可以包括如下函數(shù)項(xiàng)或者其變形:
      【權(quán)利要求】
      1.一種分類(lèi)裝置,包括: 聚類(lèi)單元,其被配置用于對(duì)目標(biāo)樣本進(jìn)行聚類(lèi),以獲得所述目標(biāo)樣本的至少一個(gè)聚類(lèi); 確定單元,其被配置用于分別確定與所述目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本,其中,所述訓(xùn)練樣本中的每一個(gè)均具有類(lèi)別分值; 刪除單元,其被配置用于針對(duì)所述目標(biāo)樣本的每個(gè)聚類(lèi),獲得與該聚類(lèi)相關(guān)的訓(xùn)練樣本的類(lèi)別分值中的最大值和最小值之差,并在所述差大于第一預(yù)定閾值時(shí),刪除與該聚類(lèi)相關(guān)的訓(xùn)練樣本的類(lèi)別分值;以及 計(jì)算單元,其被配置用于將所述目標(biāo)樣本作為測(cè)試樣本,根據(jù)每個(gè)測(cè)試樣本與每個(gè)剩下的訓(xùn)練樣本之間的相似度、以及每?jī)蓚€(gè)測(cè)試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類(lèi)別分值,通過(guò)求解優(yōu)化問(wèn)題的方法獲得所述測(cè)試樣本的類(lèi)別分值。
      2.根據(jù)權(quán)利要求1所述的分類(lèi)裝置,其中,所述計(jì)算單元包括: 代價(jià)函數(shù)構(gòu)造模塊,其被配置用于構(gòu)造反映下述約束條件的代價(jià)函數(shù): 相似度越高的測(cè)試樣本與訓(xùn)練樣本的類(lèi)別分值越接近,以及 相似度越高的兩個(gè)測(cè)試樣本的類(lèi)別分值越接近; 代價(jià)函數(shù)求解模塊,其被配置用于通過(guò)求解所述代價(jià)函數(shù)的最小化問(wèn)題來(lái)獲得所述測(cè)試樣本的類(lèi)別分值。
      3.根據(jù)權(quán)利要求1或2所述的分類(lèi)裝置,其中,所述訓(xùn)練樣本包括具有預(yù)定的類(lèi)別分值的標(biāo)注樣本和類(lèi)別分值是在`訓(xùn)練階段基于所述標(biāo)注樣本的類(lèi)別分值而獲得的機(jī)器標(biāo)注樣本。
      4.根據(jù)權(quán)利要求3所述的分類(lèi)裝置,其中,所述確定單元所確定的與所述目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本是所述機(jī)器標(biāo)注樣本。
      5.根據(jù)權(quán)利要求3或4所述的分類(lèi)裝置,其中,所述計(jì)算單元被配置成: 將被刪除了類(lèi)別分值的訓(xùn)練樣本與所述目標(biāo)樣本一起作為所述測(cè)試樣本,并基于獲得的所述目標(biāo)樣本的類(lèi)別分值來(lái)確定分類(lèi)結(jié)果。
      6.根據(jù)權(quán)利要求3-5中任一所述的分類(lèi)裝置,還包括: 樣本更新單元,其被配置用于將新獲得類(lèi)別分值的測(cè)試樣本作為下次分類(lèi)中的機(jī)器標(biāo)注樣本。
      7.根據(jù)權(quán)利要求1-6中任一所述的分類(lèi)裝置,其中,所述確定單元被配置成: 針對(duì)所述目標(biāo)樣本的每個(gè)聚類(lèi),將與該聚類(lèi)中的至少一個(gè)目標(biāo)樣本之間的相似度高于第二預(yù)定閾值的訓(xùn)練樣本確定為與該聚類(lèi)相關(guān)的訓(xùn)練樣本。
      8.根據(jù)權(quán)利要求7所述的分類(lèi)裝置,其中,所述確定單元還被配置成: 針對(duì)所述目標(biāo)樣本的每個(gè)聚類(lèi),將和所述與該聚類(lèi)中的至少一個(gè)目標(biāo)樣本之間的相似度高于第二預(yù)定閾值的訓(xùn)練樣本之間的相似度高于第三預(yù)定閾值的訓(xùn)練樣本確定為與該聚類(lèi)相關(guān)的訓(xùn)練樣本。
      9.一種分類(lèi)方法,包括: 對(duì)目標(biāo)樣本進(jìn)行聚類(lèi),以獲得所述目標(biāo)樣本的至少一個(gè)聚類(lèi); 分別確定與所述目標(biāo)樣本的每個(gè)聚類(lèi)相關(guān)的訓(xùn)練樣本,其中,所述訓(xùn)練樣本中的每一個(gè)均具有類(lèi)別分值;針對(duì)所述目標(biāo)樣本的每個(gè)聚類(lèi),獲得與該聚類(lèi)相關(guān)的訓(xùn)練樣本的類(lèi)別分值中的最大值和最小值之差,并在所述差大于第一預(yù)定閾值時(shí),刪除與該聚類(lèi)相關(guān)的訓(xùn)練樣本的類(lèi)別分值;以及 將所述目標(biāo)樣本作為測(cè)試樣本,根據(jù)每個(gè)測(cè)試樣本與每個(gè)剩下的訓(xùn)練樣本之間的相似度、以及每?jī)蓚€(gè)測(cè)試樣本之間的相似度,利用剩下的訓(xùn)練樣本的類(lèi)別分值,通過(guò)求解優(yōu)化問(wèn)題的方法獲得所述測(cè)試樣本的類(lèi)別分值。
      10.一種電子設(shè)備 ,包括如權(quán)利要求1-8中任一所述的分類(lèi)裝置。
      【文檔編號(hào)】G06F17/30GK103679190SQ201210352239
      【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2012年9月20日 優(yōu)先權(quán)日:2012年9月20日
      【發(fā)明者】李斐, 劉汝杰, 杉村昌彥, 馬場(chǎng)孝之, 上原祐介 申請(qǐng)人:富士通株式會(huì)社
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1