国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種數(shù)據(jù)識(shí)別方法及裝置制造方法

      文檔序號(hào):6489222閱讀:155來(lái)源:國(guó)知局
      一種數(shù)據(jù)識(shí)別方法及裝置制造方法
      【專利摘要】本發(fā)明公開了一種數(shù)據(jù)識(shí)別方法及裝置,涉及數(shù)據(jù)處理技術(shù),根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集,使得各識(shí)別器分別根據(jù)各數(shù)據(jù)子集進(jìn)行訓(xùn)練,保證了各個(gè)識(shí)別器的差異性,因此,在對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別時(shí),獲得訓(xùn)練后的識(shí)別器給出的識(shí)別結(jié)果,再根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,提高了大數(shù)據(jù)識(shí)別的精確度。
      【專利說(shuō)明】一種數(shù)據(jù)識(shí)別方法及裝置
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種數(shù)據(jù)識(shí)別方法及裝置。
      【背景技術(shù)】
      [0002]目前,現(xiàn)實(shí)和虛擬世界的數(shù)據(jù)產(chǎn)生速度越來(lái)越大,對(duì)數(shù)據(jù)進(jìn)行自動(dòng)識(shí)別會(huì)便于用戶對(duì)數(shù)據(jù)的查找和使用,因此,很多應(yīng)用或系統(tǒng)在獲得新的數(shù)據(jù)時(shí),需要通過(guò)對(duì)已有數(shù)據(jù)的識(shí)別方式,對(duì)所獲得的數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別。
      [0003]目前進(jìn)行數(shù)據(jù)識(shí)別的方法主要為:先從標(biāo)注數(shù)據(jù)中選取相應(yīng)訓(xùn)練數(shù)據(jù)由識(shí)別器進(jìn)行學(xué)習(xí),在獲得新的數(shù)據(jù)時(shí),即可使用學(xué)習(xí)后的識(shí)別器對(duì)該數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別。
      [0004]在進(jìn)行識(shí)別器的學(xué)習(xí)時(shí),和本專利最相關(guān)的技術(shù)包括大規(guī)模機(jī)器學(xué)習(xí)以及集成學(xué)習(xí),下面分別對(duì)這兩種學(xué)習(xí)方式進(jìn)行具體說(shuō)明:
      [0005]大規(guī)模機(jī)器學(xué)習(xí)是指能夠利用大規(guī)模數(shù)據(jù)來(lái)監(jiān)督識(shí)別器學(xué)習(xí)以解決大數(shù)據(jù)分析基本問(wèn)題的理論或方法,大數(shù)據(jù)(大規(guī)模數(shù)據(jù),通常至少包括IOW標(biāo)注數(shù)據(jù)樣本)概念的出現(xiàn)使很多只關(guān)心識(shí)別精度的傳統(tǒng)的機(jī)器學(xué)習(xí)方法不再適用。
      [0006]集成學(xué)習(xí)是通過(guò)利用不同的訓(xùn)練標(biāo)注數(shù)據(jù)集合或者不同的特征集合訓(xùn)練得到多個(gè)識(shí)別器,在應(yīng)用過(guò)程中這多個(gè)識(shí)別器以某種組合策略,比如投票,來(lái)解決某個(gè)識(shí)別問(wèn)題。集成學(xué)習(xí)主要用來(lái)改善單個(gè)識(shí)別器的識(shí)別或預(yù)測(cè)等的性能精度。這種機(jī)器學(xué)習(xí)范式相對(duì)于單個(gè)識(shí)別器的學(xué)習(xí)算法來(lái)說(shuō),更容易擴(kuò)展到大規(guī)模數(shù)據(jù)的學(xué)習(xí)任務(wù)。比較有影響的集成學(xué)習(xí)方法包括boosting (增強(qiáng)學(xué)習(xí)方法),bagging (基于可放回采樣的學(xué)習(xí)方法)等。
      [0007]集成學(xué)習(xí)方法可以使得識(shí)別精度較高,其主要原因是它能夠通過(guò)群體決策的方式來(lái)克服單個(gè)識(shí)別器可能犯得一些識(shí)別錯(cuò)誤,而這主要?dú)w功于多個(gè)識(shí)別器的差異性。因此,要實(shí)現(xiàn)多個(gè)弱識(shí)別器的組合以實(shí)現(xiàn)強(qiáng)識(shí)別器,需要不同的個(gè)體識(shí)別器在不同的識(shí)別任務(wù)中需要犯不同的錯(cuò)誤,以造成這種差異性。
      [0008]基于不同的訓(xùn)練集合,不同的識(shí)別器參數(shù),或者不同的特征集合而獲得的多個(gè)識(shí)別器模型需要以某種策略組合起來(lái)使用來(lái)最終決定某個(gè)測(cè)試實(shí)例的最終識(shí)別結(jié)果,這種群體決策的策略就是識(shí)別器組合。
      [0009]集成學(xué)習(xí)方法具有對(duì)于大規(guī)模數(shù)據(jù)上的機(jī)器學(xué)習(xí)具有很強(qiáng)的可擴(kuò)展性,但如果直接將他們應(yīng)用到大規(guī)模數(shù)據(jù)學(xué)習(xí)問(wèn)題中,由于差異性不明顯,會(huì)造成最終的數(shù)據(jù)挖掘精度不是很高,不能取得理想的效果。雖然實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)學(xué)習(xí),但不能充分體現(xiàn)大規(guī)模數(shù)據(jù)學(xué)習(xí)的優(yōu)勢(shì)。
      [0010]目前,可以通過(guò)重采樣技術(shù)和劃分子集的方式,使得集成學(xué)習(xí)方法能夠應(yīng)用到大規(guī)模學(xué)習(xí)中去,可是,不同的識(shí)別器通過(guò)不同的采樣技術(shù)在大數(shù)據(jù)中進(jìn)行采樣,能夠?qū)崿F(xiàn)所訓(xùn)練的識(shí)別器的差異性,但由于只有部分的訓(xùn)練數(shù)據(jù)被采樣并用來(lái)識(shí)別器的構(gòu)建,所以標(biāo)注樣本中蘊(yùn)含的知識(shí)并沒(méi)有都用于識(shí)別器的訓(xùn)練。而直接將整個(gè)標(biāo)注數(shù)據(jù)集分成多個(gè)子集,這種隨機(jī)的標(biāo)注數(shù)據(jù)集拆分的方法不能保證不同子標(biāo)注集合之間的差異性,從而不能保證多個(gè)識(shí)別器之間差異性。
      【發(fā)明內(nèi)容】

      [0011]本發(fā)明實(shí)施例提供一種數(shù)據(jù)識(shí)別方法及裝置,以提高大數(shù)據(jù)識(shí)別的精確度。
      [0012]一種數(shù)據(jù)識(shí)別方法,包括:
      [0013]分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果,所述多個(gè)識(shí)別器為分別通過(guò)根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識(shí)別器;
      [0014]根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果。
      [0015]一種數(shù)據(jù)識(shí)別裝置,包括:
      [0016]第一確定單元,用于分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果,所述多個(gè)識(shí)別器為分別通過(guò)根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識(shí)別器;
      [0017]第二確定單元,用于根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果。
      [0018]本發(fā)明實(shí)施例提供一種數(shù)據(jù)識(shí)別方法及裝置,根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集,使得各識(shí)別器分別根據(jù)各數(shù)據(jù)子集進(jìn)行訓(xùn)練,保證了各個(gè)識(shí)別器的差異性,因此,在對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別時(shí),獲得訓(xùn)練后的識(shí)別器給出的識(shí)別結(jié)果,再根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,提高了大數(shù)據(jù)識(shí)別的精確度。
      【專利附圖】

      【附圖說(shuō)明】
      [0019]圖1為本發(fā)明實(shí)施例提供的數(shù)據(jù)識(shí)別方法流程圖;
      [0020]圖2為本發(fā)明實(shí)施例提供的根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分多個(gè)數(shù)據(jù)子集的方法流程圖;
      [0021]圖3為本發(fā)明實(shí)施例提供的根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果的方法流程圖之一;
      [0022]圖4為本發(fā)明實(shí)施例提供的根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果的方法流程圖之二;
      [0023]圖5為本發(fā)明實(shí)施例提供的數(shù)據(jù)識(shí)別裝置結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0024]本發(fā)明實(shí)施例提供一種數(shù)據(jù)識(shí)別方法及裝置,根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集,使得各識(shí)別器分別根據(jù)各數(shù)據(jù)子集進(jìn)行訓(xùn)練,保證了各個(gè)識(shí)別器的差異性,因此,在對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別時(shí),獲得訓(xùn)練后的識(shí)別器給出的識(shí)別結(jié)果,再根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,提高了大數(shù)據(jù)識(shí)別的精確度。
      [0025]在將整個(gè)標(biāo)注集合分成多個(gè)子集過(guò)程中,將數(shù)據(jù)子集之間的差異性作為一個(gè)優(yōu)化的指標(biāo)來(lái)考慮進(jìn)來(lái),從而保證最后獲得的多個(gè)子集之間具有最大的差異性。
      [0026]進(jìn)一步,在進(jìn)行數(shù)據(jù)識(shí)別時(shí),可以基于標(biāo)注數(shù)據(jù)樣本的差異性對(duì)多個(gè)識(shí)別器進(jìn)行選擇(只有最相關(guān)的領(lǐng)域?qū)<也艆⒓幼詈蟮耐镀?,同時(shí)在投票過(guò)程中,不只是多個(gè)識(shí)別器之間的差異性被考慮進(jìn)來(lái),還將每個(gè)識(shí)別器局部的特征,即每個(gè)識(shí)別器的置信度信息也考慮到最后的識(shí)別器組合過(guò)程中,從而進(jìn)一步提高識(shí)別的精度。
      [0027]具體的,如圖1所示,本發(fā)明實(shí)施例提供的數(shù)據(jù)識(shí)別方法,包括:
      [0028]步驟S101、分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果,多個(gè)識(shí)別器為分別通過(guò)根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識(shí)別器;
      [0029]步驟S102、根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果。
      [0030]由于將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集根據(jù)樣本差異性劃分成了多個(gè)數(shù)據(jù)子集,又通過(guò)各個(gè)數(shù)據(jù)子集分別對(duì)各個(gè)識(shí)別器進(jìn)行訓(xùn)練,保證了各個(gè)識(shí)別器之間的差異性,從而提高了對(duì)數(shù)據(jù)進(jìn)行識(shí)別的精度。
      [0031]具體的,在將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個(gè)數(shù)據(jù)子集時(shí),需要進(jìn)行如下三個(gè)方面的考慮:
      [0032]I)每個(gè)數(shù)據(jù)子集應(yīng)該足夠大,從而能夠被用來(lái)訓(xùn)練單個(gè)的識(shí)別器;
      [0033]2)每個(gè)數(shù)據(jù)子集的大小應(yīng)該使其在進(jìn)行識(shí)別器的訓(xùn)練時(shí),訓(xùn)練時(shí)間不能過(guò)長(zhǎng),即每個(gè)子標(biāo)注數(shù)據(jù)集不能過(guò)大到不能順利完成單個(gè)識(shí)別器的構(gòu)建;
      [0034]3)為了實(shí)現(xiàn)識(shí)別器的差異性(這一點(diǎn)是能夠保證集成學(xué)習(xí)方法能夠具有較高識(shí)別精度的關(guān)鍵),需要使多個(gè)數(shù)據(jù)子集之間的相似度盡量低。在本發(fā)明以下的實(shí)施例中,是通過(guò)圖論來(lái)表示數(shù)據(jù)子集之間的相似度。如果數(shù)據(jù)子集之間的相似度越高,則在圖中兩者的距離則越小。本領(lǐng)域內(nèi)技術(shù)人員可以理解,還可以應(yīng)用其他方式來(lái)表示數(shù)據(jù)子集之間的相似度,在此不再贅述。
      [0035]本發(fā)明實(shí)施例提供一種標(biāo)注數(shù)據(jù)集的劃分方法,將實(shí)現(xiàn)多個(gè)標(biāo)注數(shù)據(jù)集合之間距離的最大化(也就是差異最大化)轉(zhuǎn)換為它的對(duì)偶問(wèn)題,也就是,找到一個(gè)拆分方案使每個(gè)子標(biāo)注數(shù)據(jù)集合中的樣本之間的距離之和最小化,此時(shí),可以首先獲取數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)樣本;再?gòu)臉?biāo)注數(shù)據(jù)樣本中,確定每組相似度最大的設(shè)定數(shù)量的標(biāo)注數(shù)據(jù)樣本為一個(gè)數(shù)據(jù)子集,直至數(shù)據(jù)集中的每個(gè)標(biāo)注數(shù)據(jù)樣本均被劃分至數(shù)據(jù)子集中。進(jìn)而使得每一數(shù)據(jù)子集內(nèi)所包含的標(biāo)注數(shù)據(jù)樣本之間的相似度最高,且數(shù)據(jù)子集之間的相似度最低。
      [0036]具體的,如圖2所示,根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個(gè)數(shù)據(jù)子集,具體包括:
      [0037]步驟S201、將標(biāo)注數(shù)據(jù)集中的每個(gè)標(biāo)注數(shù)據(jù)樣本作為初始的數(shù)據(jù)子集;
      [0038]步驟S202、對(duì)于每個(gè)所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值的數(shù)據(jù)子集,將其和與其距離最小的數(shù)據(jù)子集合并,對(duì)每個(gè)所包含標(biāo)注數(shù)據(jù)樣本數(shù)量大于設(shè)定的第二閾值的數(shù)據(jù)子集,將其切分為多個(gè)數(shù)據(jù)子集,并保證切分后的每個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均小于設(shè)定的第二閾值,且至多有一個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值,其中,數(shù)據(jù)子集間的距離可以通過(guò)圖論的方式來(lái)進(jìn)行量化,也可以通過(guò)其它方式進(jìn)行量化;
      [0039]步驟S203、確定每個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均大于設(shè)定的第一閾值且小于設(shè)定的第二閾值時(shí),將當(dāng)前所劃分的數(shù)據(jù)子集結(jié)果作為根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集。
      [0040]其中,第一閾值根據(jù)條件I)設(shè)定,即,使得每個(gè)數(shù)據(jù)子集足夠大,從而能夠被用來(lái)訓(xùn)練單個(gè)的識(shí)別器,第二閾值根據(jù)條件2)設(shè)定,即,使得每個(gè)子標(biāo)注數(shù)據(jù)集不能過(guò)大到不能順利完成單個(gè)識(shí)別器的構(gòu)建。
      [0041]根據(jù)步驟S202可知,第二閾值必然大于第一閾值,當(dāng)?shù)诙撝敌∮诘谝婚撝档亩稌r(shí),可能出現(xiàn)切分后的數(shù)據(jù)子集中,有一個(gè)數(shù)據(jù)子集必然不能滿足條件I)或條件2),此時(shí),則保證切分后的每個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均小于設(shè)定的第二閾值,且至多有一個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值,從而可以使得小于設(shè)定的第一閾值的數(shù)據(jù)子集與其它子集進(jìn)行進(jìn)一步合并,當(dāng)然,為進(jìn)一步便于標(biāo)注數(shù)據(jù)集的劃分,第二閾值設(shè)定為第一閾值的整數(shù)倍較佳。
      [0042]通常,數(shù)據(jù)子集的大小和訓(xùn)練識(shí)別器的關(guān)系為,隨著數(shù)據(jù)子集中的數(shù)據(jù)數(shù)量從O開始增大,訓(xùn)練識(shí)別器的效果越來(lái)越好,直至數(shù)據(jù)子集中的數(shù)據(jù)數(shù)量達(dá)到某一最佳值,此時(shí)訓(xùn)練識(shí)別器的效果達(dá)到最佳,隨后,隨著數(shù)據(jù)子集中的數(shù)據(jù)數(shù)量繼續(xù)增大,訓(xùn)練識(shí)別器的效果也越來(lái)越差,因此,第一閾值和第二閾值的設(shè)定,可以參考數(shù)據(jù)子集的大小和訓(xùn)練識(shí)別器的關(guān)系曲線進(jìn)行。
      [0043]當(dāng)然,在本實(shí)施例中是每次只與一個(gè)相似度最高的數(shù)據(jù)子集進(jìn)行合并。本領(lǐng)域內(nèi)技術(shù)人員可以理解,還可以每次與兩個(gè)或多個(gè)數(shù)據(jù)子集進(jìn)行合并,其原理與上述實(shí)施例相似,在此不再贅述。
      [0044]進(jìn)一步,在對(duì)待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別時(shí),可以僅使用與該待識(shí)別數(shù)據(jù)關(guān)聯(lián)程度較大的識(shí)別器進(jìn)行識(shí)別,從而避免與該待識(shí)別數(shù)據(jù)關(guān)聯(lián)程度較小的識(shí)別器給出的錯(cuò)誤識(shí)別結(jié)果造成的干擾,從而進(jìn)一步提高識(shí)別精度。
      [0045]具體的,在步驟SlOl分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果前,還包括:
      [0046]確定將與待識(shí)別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個(gè)數(shù)的識(shí)別器,作為多個(gè)識(shí)別器;或者
      [0047]確定將與待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識(shí)別器,作為多個(gè)識(shí)別器。
      [0048]其中,確定將與待識(shí)別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個(gè)數(shù)的識(shí)別器,作為多個(gè)識(shí)別器,具體包括:
      [0049]確定各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);
      [0050]將分?jǐn)?shù)最高的設(shè)定個(gè)數(shù)個(gè)識(shí)別器,作為多個(gè)識(shí)別器;
      [0051]相應(yīng)的,確定將與待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識(shí)別器,作為多個(gè)識(shí)別器,具體包括:
      [0052]確定各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);
      [0053]將分?jǐn)?shù)超過(guò)設(shè)定分?jǐn)?shù)值的識(shí)別器,作為多個(gè)識(shí)別器。
      [0054]各個(gè)識(shí)別器可以根據(jù)待識(shí)別數(shù)據(jù)與訓(xùn)練自身的數(shù)據(jù)子集中各數(shù)據(jù)的關(guān)聯(lián)程度給出該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù),具體的,本發(fā)明實(shí)施例中確定各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù),具體為:
      [0055]各識(shí)別器分別計(jì)算待識(shí)別數(shù)據(jù)和該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集的相似度,并將該相似度作為該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);或者
      [0056]從標(biāo)注數(shù)據(jù)集中選取設(shè)定數(shù)量的與待識(shí)別數(shù)據(jù)最相近的標(biāo)注數(shù)據(jù)樣本,各識(shí)別器分別確定該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集包含的所選取的標(biāo)注數(shù)據(jù)樣本的數(shù)量與該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集中的標(biāo)注數(shù)據(jù)樣本數(shù)量的比值,為該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)。[0057]在步驟S102中,根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,可以直接采用相同識(shí)別結(jié)果數(shù)量最多的識(shí)別結(jié)果作為該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,為進(jìn)一步提高識(shí)別精度,本發(fā)明實(shí)施例還提供一種較佳的根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果的方式,此時(shí),如圖3所示,步驟S102包括:
      [0058]步驟S301、對(duì)于每個(gè)識(shí)別器,根據(jù)該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值,確定該識(shí)別器的投票權(quán)重;
      [0059]步驟S302、根據(jù)多個(gè)識(shí)別器的識(shí)別結(jié)果以及其投票權(quán)重,確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果。
      [0060]其中,步驟S301中,對(duì)于每個(gè)識(shí)別器,根據(jù)該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值,確定該識(shí)別器的投票權(quán)重,具體為:
      [0061]對(duì)于每個(gè)識(shí)別器,確定該識(shí)別器的投票權(quán)重為該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)與該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值的乘積。
      [0062]如圖4所示,步驟S302中,根據(jù)多個(gè)識(shí)別器的識(shí)別結(jié)果以及其投票權(quán)重,確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,具體包括:
      [0063]步驟S401、根據(jù)多個(gè)識(shí)別器的識(shí)別結(jié)果將多個(gè)識(shí)別器進(jìn)行分組;
      [0064]步驟S402、根據(jù)各個(gè)識(shí)別器的投票權(quán)重,確定每個(gè)分組的加權(quán)求和值;
      [0065]步驟S403、將加權(quán)求和值最大的分組所對(duì)應(yīng)的識(shí)別結(jié)果,確定為該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果。
      [0066]例如,若10個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別,其中3個(gè)識(shí)別器給出的識(shí)別結(jié)果為A,且權(quán)重分別為0.1,0.2,0.3,3個(gè)識(shí)別器給出的識(shí)別結(jié)果為B,且權(quán)重分別為0.5,0.5、
      0.4,4個(gè)識(shí)別器給出的識(shí)別結(jié)果為C,且權(quán)重分別為0.2,0.2,0.3,0.1,可以得出,識(shí)別結(jié)果為A的分組的加權(quán)求和值為0.1+0.2+0.3=0.6,識(shí)別結(jié)果為B的分組的加權(quán)求和值為
      0.5+0.5+0.4=1.4,識(shí)別結(jié)果為C的分組的加權(quán)求和值為0.2+0.2+0.3+0.1=0.8,則可以確定識(shí)別結(jié)果為B的分組的加權(quán)求和值最大,最終識(shí)別結(jié)果為B。
      [0067]相應(yīng)的,本發(fā)明實(shí)施例還提供一種數(shù)據(jù)識(shí)別裝置,如圖5所示,該裝置包括:
      [0068]第一確定單元501,用于分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果,多個(gè)識(shí)別器為分別通過(guò)根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識(shí)別器;
      [0069]第二確定單元502,用于根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果。
      [0070]其中,第一確定單元501根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個(gè)數(shù)據(jù)子集,具體包括:
      [0071]獲取數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)樣本;
      [0072]從標(biāo)注數(shù)據(jù)樣本中,確定每組相似度最大的設(shè)定數(shù)量的標(biāo)注數(shù)據(jù)樣本為一個(gè)數(shù)據(jù)子集,直至數(shù)據(jù)集中的每個(gè)標(biāo)注數(shù)據(jù)樣本均被劃分至數(shù)據(jù)子集中。
      [0073]具體的,第一確定單元501根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個(gè)數(shù)據(jù)子集,具體包括:
      [0074]將標(biāo)注數(shù)據(jù)集中的每個(gè)標(biāo)注數(shù)據(jù)樣本作為初始的數(shù)據(jù)子集;
      [0075]對(duì)于每個(gè)所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值的數(shù)據(jù)子集,將其和與其距離最小的數(shù)據(jù)子集合并,對(duì)每個(gè)所包含標(biāo)注數(shù)據(jù)樣本數(shù)量大于設(shè)定的第二閾值的數(shù)據(jù)子集,將其切分為多個(gè)數(shù)據(jù)子集,并保證切分后的每個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均小于設(shè)定的第二閾值,且至多有一個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值;
      [0076]確定每個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均大于設(shè)定的第一閾值且小于設(shè)定的第二閾值時(shí),將當(dāng)前所劃分的數(shù)據(jù)子集結(jié)果作為根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集。
      [0077]第一確定單元501還用于:
      [0078]在分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果前,確定將與待識(shí)別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個(gè)數(shù)的識(shí)別器,作為多個(gè)識(shí)別器;或者
      [0079]在分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果前,確定將與待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識(shí)別器,作為多個(gè)識(shí)別器。
      [0080]第一確定單元501確定將與待識(shí)別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個(gè)數(shù)的識(shí)別器,作為多個(gè)識(shí)別器,具體包括:
      [0081]確定各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);
      [0082]將分?jǐn)?shù)最高的設(shè)定個(gè)數(shù)個(gè)識(shí)別器,作為多個(gè)識(shí)別器;
      [0083]第一確定單元501確定將與待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識(shí)別器,作為多個(gè)識(shí)別器,具體包括:
      [0084]確定各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);
      [0085]將分?jǐn)?shù)超過(guò)設(shè)定分?jǐn)?shù)值的識(shí)別器,作為多個(gè)識(shí)別器。
      [0086]其中,各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù),具體為:
      [0087]各識(shí)別器分別計(jì)算待識(shí)別數(shù)據(jù)和該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集的相似度,并將該相似度作為該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);或者
      [0088]從標(biāo)注數(shù)據(jù)集中選取設(shè)定數(shù)量的與待識(shí)別數(shù)據(jù)最相近的標(biāo)注數(shù)據(jù)樣本,各識(shí)別器分別確定該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集包含的所選取的標(biāo)注數(shù)據(jù)樣本的數(shù)量與該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集中的標(biāo)注數(shù)據(jù)樣本數(shù)量的比值,為該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)。
      [0089]第二確定單元502具體用于:
      [0090]對(duì)于每個(gè)識(shí)別器,根據(jù)該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值,確定該識(shí)別器的投票權(quán)重;
      [0091]根據(jù)多個(gè)識(shí)別器的識(shí)別結(jié)果以及其投票權(quán)重,確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)
      果O
      [0092]第二確定單元502對(duì)于每個(gè)識(shí)別器,根據(jù)該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值,確定該識(shí)別器的投票權(quán)重,具體為:
      [0093]對(duì)于每個(gè)識(shí)別器,確定該識(shí)別器的投票權(quán)重為該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)與該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值的乘積。
      [0094]第二確定單元502根據(jù)多個(gè)識(shí)別器的識(shí)別結(jié)果以及其投票權(quán)重,確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,具體包括:
      [0095]根據(jù)多個(gè)識(shí)別器的識(shí)別結(jié)果將多個(gè)識(shí)別器進(jìn)行分組;[0096]根據(jù)各個(gè)識(shí)別器的投票權(quán)重,確定每個(gè)分組的加權(quán)求和值;
      [0097]將加權(quán)求和值最大的分組所對(duì)應(yīng)的識(shí)別結(jié)果,確定為該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)
      果O
      [0098]本發(fā)明實(shí)施例提供一種數(shù)據(jù)識(shí)別方法及裝置,根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集,使得各識(shí)別器分別根據(jù)各數(shù)據(jù)子集進(jìn)行訓(xùn)練,保證了各個(gè)識(shí)別器的差異性,因此,在對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別時(shí),獲得訓(xùn)練后的識(shí)別器給出的識(shí)別結(jié)果,再根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,提高了大數(shù)據(jù)識(shí)別的精確度。
      [0099]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
      [0100]本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
      [0101]這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
      [0102]這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
      [0103]盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
      [0104]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
      【權(quán)利要求】
      1.一種數(shù)據(jù)識(shí)別方法,其特征在于,包括: 分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果,所述多個(gè)識(shí)別器為分別通過(guò)根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識(shí)別器; 根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果。
      2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個(gè)數(shù)據(jù)子集,具體包括: 獲取所述數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)樣本; 從所述標(biāo)注數(shù)據(jù)樣本中,確定每組相似度最大的設(shè)定數(shù)量的標(biāo)注數(shù)據(jù)樣本為一個(gè)數(shù)據(jù)子集,直至所述數(shù)據(jù)集中的每個(gè)標(biāo)注數(shù)據(jù)樣本均被劃分至數(shù)據(jù)子集中。
      3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個(gè)數(shù)據(jù)子集,具體包括: 將標(biāo)注數(shù)據(jù)集中的每個(gè)標(biāo)注數(shù)據(jù)樣本作為初始的數(shù)據(jù)子集; 對(duì)于每個(gè)所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值的數(shù)據(jù)子集,根據(jù)該數(shù)據(jù)子集與其他數(shù)據(jù)子集之間的相似度,將該數(shù)據(jù)子集與其他數(shù)據(jù)子集進(jìn)行合并;對(duì)每個(gè)所包含標(biāo)注數(shù)據(jù)樣本數(shù)量大于設(shè)定的第二閾值的數(shù)據(jù)子集,將其切分為多個(gè)數(shù)據(jù)子集,并保證切分后的每個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均小于設(shè)定的第二閾值,且至多有一個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值; 確定每個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均大于設(shè)定的第一閾值且小于設(shè)定的第二閾值時(shí),將當(dāng)前所劃分的數(shù)據(jù)子集結(jié)果作為根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集。`
      4.如權(quán)利要求1-3任一所述的方法,其特征在于,所述分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果前,還包括: 確定將與待識(shí)別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個(gè)數(shù)的識(shí)別器,作為所述多個(gè)識(shí)別器;或者 確定將與待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識(shí)別器,作為所述多個(gè)識(shí)別器。
      5.如權(quán)利要求4所述的方法,其特征在于,所述確定將與待識(shí)別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個(gè)數(shù)的識(shí)別器,作為所述多個(gè)識(shí)別器,具體包括: 確定各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù); 將分?jǐn)?shù)最高的設(shè)定個(gè)數(shù)個(gè)識(shí)別器,作為所述多個(gè)識(shí)別器; 所述確定將與待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識(shí)別器,作為所述多個(gè)識(shí)別器,具體包括: 確定各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù); 將分?jǐn)?shù)超過(guò)設(shè)定分?jǐn)?shù)值的識(shí)別器,作為所述多個(gè)識(shí)別器。
      6.如權(quán)利要求5所述的方法,其特征在于,所述各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù),具體為: 各識(shí)別器分別計(jì)算待識(shí)別數(shù)據(jù)和該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集的相似度,并將該相似度作為該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);或者 從所述標(biāo)注數(shù)據(jù)集中選取設(shè)定數(shù)量的與所述待識(shí)別數(shù)據(jù)最相近的標(biāo)注數(shù)據(jù)樣本,各識(shí)別器分別確定該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集包含的所選取的標(biāo)注數(shù)據(jù)樣本的數(shù)量與該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集中的標(biāo)注數(shù)據(jù)樣本數(shù)量的比值,為該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)。
      7.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,具體包括: 對(duì)于每個(gè)識(shí)別器,根據(jù)該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值,確定該識(shí)別器的投票權(quán)重; 根據(jù)所述多個(gè)識(shí)別器的識(shí)別結(jié)果以及其投票權(quán)重,確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果O
      8.如權(quán)利要求7所述的方法,其特征在于,所述對(duì)于每個(gè)識(shí)別器,根據(jù)該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度 分?jǐn)?shù)以及該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值,確定該識(shí)別器的投票權(quán)重,具體為: 對(duì)于每個(gè)識(shí)別器,確定該識(shí)別器的投票權(quán)重為該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)與該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值的乘積。
      9.如權(quán)利要求7所述的方法,其特征在于,所述根據(jù)所述多個(gè)識(shí)別器的識(shí)別結(jié)果以及其投票權(quán)重,確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,具體包括: 根據(jù)多個(gè)識(shí)別器的識(shí)別結(jié)果將所述多個(gè)識(shí)別器進(jìn)行分組; 根據(jù)各個(gè)識(shí)別器的投票權(quán)重,確定每個(gè)分組的加權(quán)求和值; 將加權(quán)求和值最大的分組所對(duì)應(yīng)的識(shí)別結(jié)果,確定為該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果。
      10.一種數(shù)據(jù)識(shí)別裝置,其特征在于,包括: 第一確定單元,用于分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果,所述多個(gè)識(shí)別器為分別通過(guò)根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集進(jìn)行訓(xùn)練形成的識(shí)別器; 第二確定單元,用于根據(jù)各個(gè)識(shí)別結(jié)果確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果。
      11.如權(quán)利要求10所述的裝置,其特征在于,所述第一確定單元根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個(gè)數(shù)據(jù)子集,具體包括: 獲取所述數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)樣本; 從所述標(biāo)注數(shù)據(jù)樣本中,確定每組相似度最大的設(shè)定數(shù)量的標(biāo)注數(shù)據(jù)樣本為一個(gè)數(shù)據(jù)子集,直至所述數(shù)據(jù)集中的每個(gè)標(biāo)注數(shù)據(jù)樣本均被劃分至數(shù)據(jù)子集中。
      12.如權(quán)利要求11所述的裝置,其特征在于,所述第一確定單元根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成多個(gè)數(shù)據(jù)子集,具體包括: 將標(biāo)注數(shù)據(jù)集中的每個(gè)標(biāo)注數(shù)據(jù)樣本作為初始的數(shù)據(jù)子集; 對(duì)于每個(gè)所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值的數(shù)據(jù)子集,根據(jù)該數(shù)據(jù)子集與其他數(shù)據(jù)子集之間的相似度,將該數(shù)據(jù)子集與其他數(shù)據(jù)子集進(jìn)行合并;對(duì)每個(gè)所包含標(biāo)注數(shù)據(jù)樣本數(shù)量大于設(shè)定的第二閾值的數(shù)據(jù)子集,將其切分為多個(gè)數(shù)據(jù)子集,并保證切分后的每個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均小于設(shè)定的第二閾值,且至多有一個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量小于設(shè)定的第一閾值; 確定每個(gè)數(shù)據(jù)子集中所包含標(biāo)注數(shù)據(jù)樣本數(shù)量均大于設(shè)定的第一閾值且小于設(shè)定的第二閾值時(shí),將當(dāng)前所劃分的數(shù)據(jù)子集結(jié)果作為根據(jù)標(biāo)注數(shù)據(jù)樣本的差異性將包含標(biāo)注數(shù)據(jù)樣本的標(biāo)注數(shù)據(jù)集劃分成的多個(gè)數(shù)據(jù)子集。
      13.如權(quán)利要求10-12任一所述的裝置,其特征在于,所述第一確定單元還用于:在分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果前,確定將與待識(shí)別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個(gè)數(shù)的識(shí)別器,作為所述多個(gè)識(shí)別器;或者 在分別確定多個(gè)識(shí)別器對(duì)待識(shí)別數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別的識(shí)別結(jié)果前,確定將與待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識(shí)別器,作為所述多個(gè)識(shí)別器。
      14.如權(quán)利要求13所述的裝置,其特征在于,所述第一確定單元確定將與待識(shí)別數(shù)據(jù)關(guān)聯(lián)程度最大的設(shè)定個(gè)數(shù)的識(shí)別器,作為所述多個(gè)識(shí)別器,具體包括: 確定各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù); 將分?jǐn)?shù)最高的設(shè)定個(gè)數(shù)個(gè)識(shí)別器,作為所述多個(gè)識(shí)別器; 所述第一確定單元確定將與待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度大于設(shè)定閾值的識(shí)別器,作為所述多個(gè)識(shí)別器,具體包括: 確定各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù); 將分?jǐn)?shù)超過(guò)設(shè)定分?jǐn)?shù)值的識(shí)別器,作為所述多個(gè)識(shí)別器。
      15.如權(quán)利要求14所述的裝置,其特征在于,所述各識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù),具體為: 各識(shí)別器分別計(jì)算待識(shí)別數(shù)據(jù)和該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集的相似度,并將該相似度作為該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù);或者 從所述標(biāo)注數(shù)據(jù)集中選取設(shè)定數(shù)量的與所述待識(shí)別數(shù)據(jù)最相近的標(biāo)注數(shù)據(jù)樣本,各識(shí)別器分別確定該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集包含的所選取的標(biāo)注數(shù)據(jù)樣本的數(shù)量與該識(shí)別器對(duì)應(yīng)的數(shù)據(jù)子集中的標(biāo)注數(shù)據(jù)樣本數(shù)量的比值,為該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)。
      16.如權(quán)利要求14所述的裝置,其特征在于,所述第二確定單元具體用于: 對(duì)于每個(gè)識(shí)別器,根據(jù)該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值,確定該識(shí)別器的投票權(quán)重; 根據(jù)所述多個(gè)識(shí)別器的識(shí)別結(jié)果以及其投票權(quán)重,確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果O
      17.如權(quán)利要求16所述的裝置,其特征在于,所述第二確定單元對(duì)于每個(gè)識(shí)別器,根據(jù)該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)以及該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值,確定該識(shí)別器的投票權(quán)重,具體為: 對(duì)于每個(gè)識(shí)別器,確定該識(shí)別器的投票權(quán)重為該識(shí)別器給出的該待識(shí)別數(shù)據(jù)的關(guān)聯(lián)程度分?jǐn)?shù)與該識(shí)別器對(duì)該待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別后給出的置信值的乘積。
      18.如權(quán)利要求16所述的裝置,其特征在于,所述第二確定單元根據(jù)所述多個(gè)識(shí)別器的識(shí)別結(jié)果以及其投票權(quán)重,確定該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果,具體包括: 根據(jù)多個(gè)識(shí)別器的識(shí)別結(jié)果將所述多個(gè)識(shí)別器進(jìn)行分組; 根據(jù)各個(gè)識(shí)別器的投票權(quán)重,確定每個(gè)分組的加權(quán)求和值; 將加權(quán)求和值最大的分組所對(duì)應(yīng)的識(shí)別結(jié)果,確定為該待識(shí)別數(shù)據(jù)的最終識(shí)別結(jié)果。
      【文檔編號(hào)】G06F17/30GK103678419SQ201210362300
      【公開日】2014年3月26日 申請(qǐng)日期:2012年9月25日 優(yōu)先權(quán)日:2012年9月25日
      【發(fā)明者】李建強(qiáng), 劉春辰 申請(qǐng)人:日電(中國(guó))有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1