国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于可信度面向大數(shù)據(jù)及普通數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)的制作方法

      文檔序號:10489015閱讀:458來源:國知局
      基于可信度面向大數(shù)據(jù)及普通數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)的制作方法
      【專利摘要】本發(fā)明涉及一種數(shù)據(jù)采集方法和系統(tǒng),其方法包括:獲取采集條件,根據(jù)采集條件獲取多個(gè)目標(biāo)數(shù)據(jù);根據(jù)預(yù)設(shè)特征匹配度對目標(biāo)數(shù)據(jù)進(jìn)行分類,得到數(shù)據(jù)群體;分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度,并根據(jù)個(gè)體可信度獲取數(shù)據(jù)群體的群體可信度;判斷群體可信度是否大于或等于預(yù)設(shè)值;若是,采集數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。如此,根據(jù)群體可信度和預(yù)設(shè)值對目標(biāo)數(shù)據(jù)組成的數(shù)據(jù)群體進(jìn)行篩選,當(dāng)群體可信度大于或等于預(yù)設(shè)值時(shí)才采集對應(yīng)的目標(biāo)數(shù)據(jù),避免采集到不可靠的數(shù)據(jù),提高數(shù)據(jù)采集的正確率。
      【專利說明】
      基于可信度面向大數(shù)據(jù)及普通數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)
      技術(shù)領(lǐng)域
      [0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種基于可信度面向大數(shù)據(jù)及普通數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)。
      【背景技術(shù)】
      [0002]對數(shù)據(jù)進(jìn)行采集時(shí),例如對大數(shù)據(jù)進(jìn)行采集,傳統(tǒng)的方法通常只是根據(jù)系統(tǒng)或數(shù)據(jù)庫指定需要的數(shù)據(jù)類型進(jìn)行采集后,直接將被采集數(shù)據(jù)存入系統(tǒng)或數(shù)據(jù)庫以備用。例如,存放語言信息的語言數(shù)據(jù)庫需要某個(gè)字詞的正確釋義或發(fā)音時(shí),直接采集有這個(gè)字詞釋義或發(fā)音的語言信息放入語言數(shù)據(jù)庫,而不會檢驗(yàn)被采集的語言信息對該字詞的釋義或發(fā)音是否正確。對于被采集數(shù)據(jù)的來源可信度不明確以及同一數(shù)據(jù)對應(yīng)多個(gè)不同來源的采集數(shù)據(jù)的情況,這種傳統(tǒng)的數(shù)據(jù)采集方法不會對數(shù)據(jù)的正確性進(jìn)行檢驗(yàn),易出現(xiàn)存入數(shù)據(jù)錯誤或矛盾的情況,采集正確率低。

      【發(fā)明內(nèi)容】

      [0003]基于此,有必要針對上述問題,提供一種提高采集正確率的數(shù)據(jù)采集方法和系統(tǒng)。
      [0004]—種數(shù)據(jù)采集方法,包括以下步驟:
      [0005]獲取采集條件,根據(jù)所述采集條件獲取多個(gè)目標(biāo)數(shù)據(jù);
      [0006]對所述目標(biāo)數(shù)據(jù)進(jìn)行分類,得到數(shù)據(jù)群體;
      [0007]分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度,并根據(jù)所述個(gè)體可信度獲取所述數(shù)據(jù)群體的群體可信度;
      [0008]判斷所述群體可信度是否大于或等于預(yù)設(shè)值;
      [0009]若是,則采集所述數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。
      [0010]一種數(shù)據(jù)采集系統(tǒng),包括:
      [0011]數(shù)據(jù)獲取模塊,用于獲取采集條件,根據(jù)所述采集條件獲取多個(gè)目標(biāo)數(shù)據(jù);
      [0012]數(shù)據(jù)分類模塊,用于對所述目標(biāo)數(shù)據(jù)進(jìn)行分類,得到數(shù)據(jù)群體;
      [0013]群體可信度計(jì)算模塊,用于分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度,并根據(jù)所述個(gè)體可信度獲取所述數(shù)據(jù)群體的群體可信度;
      [0014]可信度分析模塊,用于判斷所述群體可信度是否大于或等于預(yù)設(shè)值;
      [0015]數(shù)據(jù)采集模塊,用于在所述群體可信度大于或等于所述預(yù)設(shè)值時(shí),采集所述數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。
      [0016]上述數(shù)據(jù)采集方法和系統(tǒng),通過獲取采集條件,根據(jù)采集條件獲取多個(gè)目標(biāo)數(shù)據(jù)后,對目標(biāo)數(shù)據(jù)進(jìn)行分類得到數(shù)據(jù)群體;然后分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度,并根據(jù)個(gè)體可信度獲取數(shù)據(jù)群體的群體可信度;判斷群體可信度是否大于或等于預(yù)設(shè)值,若是,則采集數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。如此,根據(jù)群體可信度和預(yù)設(shè)值對目標(biāo)數(shù)據(jù)組成的數(shù)據(jù)群體進(jìn)行篩選,當(dāng)群體可信度大于或等于預(yù)設(shè)值時(shí)才采集對應(yīng)的目標(biāo)數(shù)據(jù),避免采集到不可靠的數(shù)據(jù),提高數(shù)據(jù)采集的正確率。
      【附圖說明】
      [0017]圖1為一實(shí)施例中本發(fā)明數(shù)據(jù)采集方法的流程圖;
      [0018]圖2為一實(shí)施例中根據(jù)身份信息查找被采集對象的可信度,將被采集對象的可信度作為對應(yīng)目標(biāo)數(shù)據(jù)的個(gè)體可信度的流程圖;
      [0019]圖3為另一實(shí)施例中本發(fā)明數(shù)據(jù)采集方法的流程圖;
      [0020]圖4為一實(shí)施例中根據(jù)反饋信息修正被采集對象的可信度得到被采集對象新的初始可信度的步驟的流程圖;
      [0021 ]圖5為一實(shí)施例中本發(fā)明數(shù)據(jù)采集系統(tǒng)的模塊圖;
      [0022]圖6為另一實(shí)施例中本發(fā)明數(shù)據(jù)采集系統(tǒng)的模塊圖;
      [0023]圖7為一實(shí)施例中可信度修正模塊的單元圖。
      【具體實(shí)施方式】
      [0024]大數(shù)據(jù)指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,具有數(shù)量巨大、難于收集、處理、分析等特點(diǎn)。
      [0025]本發(fā)明所指的普通數(shù)據(jù)指非大數(shù)據(jù)。
      [0026]可信度指人或事物被信賴的程度,是根據(jù)經(jīng)驗(yàn)對作為群體為真的相信程度。
      [0027]參考圖1,本發(fā)明一實(shí)施例中的一種數(shù)據(jù)采集方法,基于可信度、面向大數(shù)據(jù)及普通數(shù)據(jù)實(shí)現(xiàn),包括以下步驟。
      [0028]SI 10:獲取采集條件,根據(jù)采集條件獲取多個(gè)目標(biāo)數(shù)據(jù)。
      [0029]采集條件指用于指定需要采集數(shù)據(jù)特征的信息,包括對象和屬性。通過根據(jù)采集條件可以獲取同時(shí)符合該采集條件的多個(gè)目標(biāo)數(shù)據(jù)。目標(biāo)數(shù)據(jù)可以是大數(shù)據(jù)或普通數(shù)據(jù)。
      [0030]在其中一實(shí)施例中,采集條件為某個(gè)指定字詞的文本信息、普通話發(fā)音信息、某種方言發(fā)音信息等,即對象為某個(gè)指定字詞,屬性包括文本信息、普通話發(fā)音信息、某種方言發(fā)音信息等。對應(yīng)地,根據(jù)該采集條件獲取的目標(biāo)數(shù)據(jù)包括文本信息和/或語音信息。目標(biāo)數(shù)據(jù)可以為多個(gè),例如,用戶A、用戶B和用戶C均錄制有某同一字詞的語音,采集條件為該字詞的語音信息時(shí),對應(yīng)采集用戶A、用戶B和用戶C錄制的語音得到多個(gè)目標(biāo)數(shù)據(jù)。
      [0031]SI 30:對目標(biāo)數(shù)據(jù)進(jìn)行分類,得到數(shù)據(jù)群體。
      [0032]在其中一實(shí)施例中,步驟S130包括步驟11和步驟12。
      [0033]步驟11:提取目標(biāo)數(shù)據(jù)的預(yù)設(shè)特征。
      [0034]其中,預(yù)設(shè)特征可以根據(jù)目標(biāo)數(shù)據(jù)的采集條件進(jìn)行選擇。例如,本實(shí)施例中,預(yù)設(shè)特征為采集條件中指定字詞的文本信息和/或語音信息。
      [0035]步驟12:將預(yù)設(shè)特征的匹配度大于或等于預(yù)設(shè)匹配度的目標(biāo)數(shù)據(jù)作為一個(gè)數(shù)據(jù)群體。
      [0036]其中,預(yù)設(shè)匹配度可以根據(jù)實(shí)際情況進(jìn)行選擇。預(yù)設(shè)特征匹配度大于或等于預(yù)設(shè)匹配度,則表示對應(yīng)的目標(biāo)數(shù)據(jù)的預(yù)設(shè)特征較相似,可以歸為一類。通過根據(jù)預(yù)設(shè)特征的匹配度分類,便于對相似目標(biāo)數(shù)據(jù)進(jìn)行統(tǒng)一處理,提高多數(shù)據(jù)采集的效率。
      [0037]S150:分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度,并根據(jù)個(gè)體可信度獲取數(shù)據(jù)群體的群體可信度。
      [0038]可以理解,因?yàn)橐粋€(gè)數(shù)據(jù)群體中的每個(gè)目標(biāo)數(shù)據(jù)的預(yù)設(shè)特征較相似,所以一個(gè)數(shù)據(jù)群體中的每個(gè)目標(biāo)數(shù)據(jù)的真實(shí)可信度類似,因此一個(gè)數(shù)據(jù)群體中的群體可信度可以代表該個(gè)數(shù)據(jù)群體中每個(gè)目標(biāo)數(shù)據(jù)的真實(shí)可信度。
      [0039]在其中一實(shí)施例中,步驟S150中分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度的步驟包括步驟21和步驟22。
      [0040]步驟21:分別根據(jù)各目標(biāo)數(shù)據(jù)獲取提供目標(biāo)數(shù)據(jù)的被采集對象的身份信息。
      [0041]被采集對象的身份信息指用于識別被采集人身份的信息。每一個(gè)被采集對象對應(yīng)一個(gè)唯一的身份信息。本實(shí)施例中,被采集對象為人,即目標(biāo)數(shù)據(jù)由被采集人提供。例如,目標(biāo)數(shù)據(jù)為某字詞的語音信息,該語音消息由用戶A錄制,則用戶A為該目標(biāo)數(shù)據(jù)的被采集人。具體地,本實(shí)施例中,被采集對象的身份信息為被采集人的身份證號碼??梢岳斫?,在其他的實(shí)施例中,被采集對象也可以是網(wǎng)站等,對應(yīng)地,被采集對象的身份信息為網(wǎng)址。
      [0042]步驟22:根據(jù)身份信息查找被采集對象的可信度,將被采集對象的可信度作為對應(yīng)目標(biāo)數(shù)據(jù)的個(gè)體可信度。
      [0043]例如,目標(biāo)數(shù)據(jù)包括某字詞的文本信息和/或語音信息的實(shí)施例中,步驟22具體為從語言數(shù)據(jù)庫獲取被采集對象的可信度。其中,語言數(shù)據(jù)庫包括多個(gè)文本信息和/或語音信息、每個(gè)文本信息和/或語音信息的被采集對象的身份信息、每個(gè)身份信息的可信度,并且包括文本信息和/或語音信息與身份信息與可信度之間的關(guān)聯(lián)關(guān)系。
      [0044]可以理解,在其他的實(shí)施例中,個(gè)體可信度也可以是對應(yīng)目標(biāo)數(shù)據(jù)預(yù)先存儲,即每一個(gè)目標(biāo)數(shù)據(jù)對應(yīng)一個(gè)個(gè)體可信度,只要獲取了目標(biāo)數(shù)據(jù),即可根據(jù)關(guān)聯(lián)性對應(yīng)獲取個(gè)體可信度。
      [0045]在其中一實(shí)施例中,步驟S150中根據(jù)個(gè)體可信度獲取數(shù)據(jù)群體的群體可信度的步驟包括:計(jì)算數(shù)據(jù)群體中所有目標(biāo)數(shù)據(jù)的個(gè)體可信度的平均值,得到數(shù)據(jù)群體的群體可信度。
      [0046]例如,某一數(shù)據(jù)群體中各目標(biāo)數(shù)據(jù)的個(gè)體可信度分別為:0.5,0.4,0.6,I,則該數(shù)據(jù)群體的群體可信度=(0.5+0.4+0.6+1)/4 = 0.625。可以理解,在其他的實(shí)施例中,還可以采用其他的計(jì)算方式獲取群體可信度。
      [0047]S170:判斷群體可信度是否大于或等于預(yù)設(shè)值。若否,則表示當(dāng)前獲取的該數(shù)據(jù)群體不滿足要求,可能為錯誤數(shù)據(jù)群體,不采集;若是,則執(zhí)行步驟S190。
      [0048]其中,預(yù)設(shè)值可以根據(jù)需要的數(shù)據(jù)采集正確率進(jìn)行具體設(shè)置。本實(shí)施例中,預(yù)設(shè)值為0.6。可以理解,在其他實(shí)施例中,若對數(shù)據(jù)采集正確率要求較高,則適當(dāng)設(shè)置增加預(yù)設(shè)值,例如0.8;若對數(shù)據(jù)采集正確率要求較低,則適當(dāng)設(shè)置減小預(yù)設(shè)值,例如0.5。
      [0049]S190:采集數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。
      [0050]其中,目標(biāo)數(shù)據(jù)庫指用于存儲普通數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)庫,例如關(guān)系型數(shù)據(jù)庫;大數(shù)據(jù)存儲庫指用于存儲大數(shù)據(jù)的存儲庫。當(dāng)采集的數(shù)據(jù)為普通數(shù)據(jù)時(shí),存入目標(biāo)數(shù)據(jù)庫,當(dāng)采集的數(shù)據(jù)為大數(shù)據(jù)時(shí),存入大數(shù)據(jù)存儲庫。
      [0051]例如,目標(biāo)數(shù)據(jù)為某字詞的文本信息和/或語音信息的實(shí)施例中,采集數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入語言數(shù)據(jù)庫。
      [0052]通過將群體可信度大于或等于預(yù)設(shè)值的數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)采集存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫,根據(jù)群體可信度對目標(biāo)數(shù)據(jù)進(jìn)行篩選,可以提高數(shù)據(jù)采集的正確率。
      [0053]在其中一實(shí)施例中,步驟S190包括:采集數(shù)據(jù)群體中包含的所有目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。
      [0054]通過采集群體可信度大于或等于預(yù)設(shè)值的數(shù)據(jù)群體中所有的目標(biāo)數(shù)據(jù),在驗(yàn)證數(shù)據(jù)正確性的同時(shí)實(shí)現(xiàn)多數(shù)據(jù)采集,提高數(shù)據(jù)采集效率。
      [0055]在另一實(shí)施例中,步驟S190包括:查找數(shù)據(jù)群體中個(gè)體可信度最高的目標(biāo)數(shù)據(jù)并存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。
      [0056]通過采集群體可信度大于或等于預(yù)設(shè)值的數(shù)據(jù)群體中個(gè)體可信度最高的目標(biāo)數(shù)據(jù),選擇一個(gè)最優(yōu)的目標(biāo)數(shù)據(jù),可最大程度的提高數(shù)據(jù)采集的正確率。
      [0057]在其中一實(shí)施例中,參考圖2,步驟22包括步驟S151至步驟S157。
      [0058]S151:根據(jù)身份信息判斷目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫中是否存在被采集對象的初始可信度。若是,則執(zhí)行步驟S153;若否,則執(zhí)行步驟S155。
      [0059]S153:將初始可信度作為被采集對象的可信度。
      [0060]S155:將預(yù)設(shè)可信度作為被采集對象的可信度。
      [0061 ] S157:將被采集對象的可信度作為對應(yīng)目標(biāo)數(shù)據(jù)的個(gè)體可信度。
      [0062]預(yù)設(shè)可信度可以根據(jù)實(shí)際情況具體設(shè)置。本實(shí)施例中,預(yù)設(shè)可信度為0.5。
      [0063]通過判斷是否存在被采集對象的初始可信度,若否則默認(rèn)預(yù)設(shè)可信度作為被采集對象的可信度,可以保證每一個(gè)被采集人都對應(yīng)一個(gè)可信度,從而避免出現(xiàn)目標(biāo)數(shù)據(jù)不存在對應(yīng)的個(gè)體可信度的情況。
      [0064]在其中一實(shí)施例中,參考圖3,步驟S190之后,還包括:步驟S210和步驟S230。
      [0065]S210:獲取目標(biāo)數(shù)據(jù)的反饋信息。
      [0066]其中,反饋信息指用戶對目標(biāo)數(shù)據(jù)是否正確的反饋。例如,反饋信息可以包括“正確”或類似含義的信息,以及“錯誤”或類似含義的信息。
      [0067]S230:根據(jù)反饋信息修正被采集對象的可信度得到被采集對象新的初始可信度,并將新的初始可信度與被采集對象關(guān)聯(lián)存儲至目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫中。
      [0068]通過以用戶的反饋為依據(jù)對被采集對象的初始可信度進(jìn)行修正,可以及時(shí)提高初始可信度的準(zhǔn)確性,可以給后續(xù)數(shù)據(jù)采集提供更準(zhǔn)確的參考,提高數(shù)據(jù)采集的正確率。
      [0069]在其中一實(shí)施例中,反饋信息包括正反饋和負(fù)反饋。例如“正確”表示正反饋,“錯誤”表示負(fù)反饋。參考圖4,步驟S230根據(jù)反饋信息修正被采集對象的可信度得到被采集對象新的初始可信度的步驟包括步驟S231和步驟S235。
      [0070]S231:判斷反饋信息的類型是否為正反饋。若是,表示該目標(biāo)數(shù)據(jù)正確,執(zhí)行步驟S233,若否,表示反饋信息的類型為負(fù)反饋,目標(biāo)數(shù)據(jù)錯誤,執(zhí)行步驟S235。
      [0071 ] S233:按預(yù)設(shè)差值提尚被米集對象的可彳目度得到被米集對象新的初始可彳目度。
      [0072]S235:按預(yù)設(shè)差值降低被采集對象的可信度得到被采集對象新的初始可信度。
      [0073]預(yù)設(shè)差值可以根據(jù)實(shí)際情況具體設(shè)置。例如,本實(shí)施例中,預(yù)設(shè)預(yù)值0.1。因此,每獲得一次正反饋,對應(yīng)被采集對象的初始可信度在原來的基礎(chǔ)上提高0.1;每獲得一次負(fù)反饋,對應(yīng)被采集對象的初始可信度在原來的基礎(chǔ)上降低0.1。
      [0074]本實(shí)施例中,初始可信度為大于等于O且小于等于I。步驟S233具體為:
      [0075]Y=min( I,(X+0.I));
      [0076]步驟S235具體為:
      [0077]Y=max(0,(X-0.I));
      [0078]其中,X為修正之前被采集對象的初始可信度,Y為修正后被采集對象的初始可信度。
      [0079]上述數(shù)據(jù)采集方法,通過獲取采集條件,根據(jù)采集條件獲取多個(gè)目標(biāo)數(shù)據(jù)后,根據(jù)預(yù)設(shè)特征匹配度對目標(biāo)數(shù)據(jù)進(jìn)行分類,得到數(shù)據(jù)群體;然后分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度,并根據(jù)個(gè)體可信度獲取數(shù)據(jù)群體的群體可信度;判斷群體可信度是否大于或等于預(yù)設(shè)值,若是,則采集數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。如此,根據(jù)群體可信度和預(yù)設(shè)值對目標(biāo)數(shù)據(jù)組成的數(shù)據(jù)群體進(jìn)行篩選,當(dāng)群體可信度大于或等于預(yù)設(shè)值時(shí)才采集對應(yīng)的目標(biāo)數(shù)據(jù),避免采集到不可靠的數(shù)據(jù),提高數(shù)據(jù)采集的正確率。
      [0080]參考圖5,本發(fā)明一實(shí)施例中的一種數(shù)據(jù)采集系統(tǒng),基于可信度、面向大數(shù)據(jù)和普通數(shù)據(jù)實(shí)現(xiàn),包括數(shù)據(jù)獲取模塊110、數(shù)據(jù)分類模塊130、群體可信度計(jì)算模塊150、可信度分析模塊170和數(shù)據(jù)采集模塊190。
      [0081]數(shù)據(jù)獲取模塊110用于獲取采集條件,根據(jù)采集條件獲取多個(gè)目標(biāo)數(shù)據(jù)。
      [0082]采集條件指用于指定需要采集數(shù)據(jù)特征的信息,包括對象和屬性。通過根據(jù)采集條件可以獲取同時(shí)符合該采集條件的多個(gè)目標(biāo)數(shù)據(jù)。目標(biāo)數(shù)據(jù)可以是大數(shù)據(jù)或普通數(shù)據(jù)。
      [0083]在其中一實(shí)施例中,采集條件為某個(gè)指定字詞的文本信息、普通話發(fā)音信息、某種方言發(fā)音信息等,即對象為某個(gè)指定字詞,屬性包括文本信息、普通戶話發(fā)音信息、某種方言發(fā)音信息。對應(yīng)地,根據(jù)該采集條件獲取的目標(biāo)數(shù)據(jù)包括文本信息和/或語音信息。目標(biāo)數(shù)據(jù)可以為多個(gè),例如,用戶A、用戶B和用戶C均錄制有某同一字詞的語音,采集條件為該字詞的語音信息時(shí),對應(yīng)采集用戶A、用戶B和用戶C錄制的語音得到多個(gè)目標(biāo)數(shù)據(jù)。
      [0084]數(shù)據(jù)分類模塊130用于對目標(biāo)數(shù)據(jù)進(jìn)行分類,得到數(shù)據(jù)群體。
      [0085]在其中一實(shí)施例中,數(shù)據(jù)分類模塊130具體用于:提取目標(biāo)數(shù)據(jù)的預(yù)設(shè)特征,將預(yù)設(shè)特征的匹配度大于或等于預(yù)設(shè)匹配度的目標(biāo)數(shù)據(jù)作為一個(gè)數(shù)據(jù)群體。
      [0086]其中,預(yù)設(shè)特征可以根據(jù)目標(biāo)數(shù)據(jù)的采集條件進(jìn)行選擇。例如,本實(shí)施例中,預(yù)設(shè)特征為采集條件中指定字詞的文本信息和/或語音信息。
      [0087]其中,預(yù)設(shè)匹配度可以根據(jù)實(shí)際情況進(jìn)行選擇。預(yù)設(shè)特征匹配度大于或等于預(yù)設(shè)匹配度,則表示對應(yīng)的目標(biāo)數(shù)據(jù)為相似數(shù)據(jù),可以歸為一類。通過根據(jù)預(yù)設(shè)特征匹配度分類,便于對相似目標(biāo)數(shù)據(jù)進(jìn)行統(tǒng)一處理,提高多數(shù)據(jù)采集的效率。
      [0088]群體可信度計(jì)算模塊150用于分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度,并根據(jù)個(gè)體可信度獲取數(shù)據(jù)群體的群體可信度。
      [0089]可以理解,因?yàn)橐粋€(gè)數(shù)據(jù)群體中的每個(gè)目標(biāo)數(shù)據(jù)的預(yù)設(shè)特征較相似,所以一個(gè)數(shù)據(jù)群體中的每個(gè)目標(biāo)數(shù)據(jù)的真實(shí)可信度類似,因此一個(gè)數(shù)據(jù)群體中的群體可信度可以代表該個(gè)數(shù)據(jù)群體中每個(gè)目標(biāo)數(shù)據(jù)的真實(shí)可信度。
      [0090]在其中一實(shí)施例中,群體可信度計(jì)算模塊150包括身份信息獲取單元(圖未示)、個(gè)體可信度獲取單元(圖未示)和計(jì)算單元(圖未示)。
      [0091 ]身份信息獲取單元用于分別根據(jù)各目標(biāo)數(shù)據(jù)獲取提供目標(biāo)數(shù)據(jù)的被采集對象的身份信息。被采集對象的身份信息指用于識別被采集人身份的信息。每一個(gè)被采集對象對應(yīng)一個(gè)唯一的身份信息。本實(shí)施例中,被采集對象為人,即目標(biāo)數(shù)據(jù)由被采集人提供。例如,目標(biāo)數(shù)據(jù)為某字詞的語音信息,該語音消息由用戶A錄制,則用戶A為該目標(biāo)數(shù)據(jù)的被采集人。具體地,本實(shí)施例中,被采集對象的身份信息為被采集人的身份證號碼??梢岳斫?,在其他的實(shí)施例中,被采集對象也可以是網(wǎng)站等,對應(yīng)地,被采集對象的身份信息為網(wǎng)址。
      [0092]個(gè)體可信度獲取單元用于根據(jù)身份信息查找被采集對象的可信度,將被采集對象的可信度作為對應(yīng)目標(biāo)數(shù)據(jù)的個(gè)體可信度。例如,目標(biāo)數(shù)據(jù)包括某字詞的文本信息和/或語音信息的實(shí)施例中,個(gè)體可信度獲取單元具體從語言數(shù)據(jù)庫獲取被采集對象的可信度。其中,語言數(shù)據(jù)庫包括多個(gè)文本信息和/或語音信息、每個(gè)文本信息和/或語音信息的被采集對象的身份信息、每個(gè)身份信息的可信度,并且包括文本信息和/或語音信息與身份信息與可信度之間的關(guān)聯(lián)關(guān)系。
      [0093]可以理解,在其他的實(shí)施例中,個(gè)體可信度也可以是對應(yīng)目標(biāo)數(shù)據(jù)預(yù)先存儲,即每一個(gè)目標(biāo)數(shù)據(jù)對應(yīng)一個(gè)個(gè)體可信度,只要獲取了目標(biāo)數(shù)據(jù),即可根據(jù)關(guān)聯(lián)性對應(yīng)獲取個(gè)體可信度。
      [0094]計(jì)算單元用于根據(jù)個(gè)體可信度獲取數(shù)據(jù)群體的群體可信度。
      [0095]在其中一實(shí)施例中,計(jì)算單元具體用于:計(jì)算數(shù)據(jù)群體中所有目標(biāo)數(shù)據(jù)的個(gè)體可信度的平均值,得到數(shù)據(jù)群體的群體可信度。
      [0096]例如,某一數(shù)據(jù)群體中各目標(biāo)數(shù)據(jù)的個(gè)體可信度分別為:0.5,0.4,0.6,I,則該數(shù)據(jù)群體的群體可信度=(0.5+0.4+0.6+1)/4 = 0.625??梢岳斫?,在其他的實(shí)施例中,還可以采用其他的計(jì)算方式獲取群體可信度。
      [0097]可信度分析模塊170用于判斷群體可信度是否大于或等于預(yù)設(shè)值。若否,則表示當(dāng)前獲取的該數(shù)據(jù)群體的正確率不滿足要求,可能為錯誤數(shù)據(jù)群體,不采集;若是,則表示該數(shù)據(jù)群體的正確率滿足要求。
      [0098]其中,預(yù)設(shè)值可以根據(jù)需要的數(shù)據(jù)采集正確率進(jìn)行具體設(shè)置。本實(shí)施例中,預(yù)設(shè)值為0.6??梢岳斫?,在其他實(shí)施例中,若對數(shù)據(jù)采集正確率要求較高,則適當(dāng)設(shè)置增加預(yù)設(shè)值,例如0.8;若對數(shù)據(jù)采集正確率要求較低,則適當(dāng)設(shè)置減小預(yù)設(shè)值,例如0.5。
      [0099]數(shù)據(jù)采集模塊190用于在群體可信度大于或等于預(yù)設(shè)值時(shí),采集數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。
      [0100]其中,目標(biāo)數(shù)據(jù)庫指用于存儲普通數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)庫,例如關(guān)系型數(shù)據(jù)庫;大數(shù)據(jù)存儲庫指用于存儲大數(shù)據(jù)的存儲庫。當(dāng)采集的數(shù)據(jù)為普通數(shù)據(jù)時(shí),存入目標(biāo)數(shù)據(jù)庫,當(dāng)采集的數(shù)據(jù)為大數(shù)據(jù)時(shí),存入大數(shù)據(jù)存儲庫。
      [0101]通過將群體可信度大于或等于預(yù)設(shè)值的數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)采集存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫,根據(jù)群體可信度對目標(biāo)數(shù)據(jù)進(jìn)行篩選,可以提高數(shù)據(jù)采集的正確率。例如,目標(biāo)數(shù)據(jù)為某字詞的文本信息和/或語音信息的實(shí)施例中,采集數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入語言數(shù)據(jù)庫。
      [0102]在其中一實(shí)施例中,數(shù)據(jù)采集模塊190具體用于采集數(shù)據(jù)群體中包含的所有目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。通過采集群體可信度大于或等于預(yù)設(shè)值的數(shù)據(jù)群體中所有的目標(biāo)數(shù)據(jù),在驗(yàn)證數(shù)據(jù)正確性的同時(shí)實(shí)現(xiàn)多數(shù)據(jù)采集,提高數(shù)據(jù)采集效率。
      [0103]在另一實(shí)施例中,數(shù)據(jù)采集模塊190具體用于查找數(shù)據(jù)群體中個(gè)體可信度最高的目標(biāo)數(shù)據(jù)并存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。通過采集群體可信度大于或等于預(yù)設(shè)值的數(shù)據(jù)群體中個(gè)體可信度最高的目標(biāo)數(shù)據(jù),選擇一個(gè)最優(yōu)的目標(biāo)數(shù)據(jù),可最大程度的提高數(shù)據(jù)采集的正確率。
      [0104]在其中一實(shí)施例中,群體可信度計(jì)算模塊150中的個(gè)體可信度獲取單元具體用于根據(jù)身份信息判斷目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫中是否存在對應(yīng)被采集對象的初始可信度。在存在初始可信度時(shí),將初始可信度作為對應(yīng)被采集對象的可信度;否則,將預(yù)設(shè)可信度作為被采集對象的可信度,以及用于將被采集對象的可信度作為對應(yīng)目標(biāo)數(shù)據(jù)的個(gè)體可信度。
      [0105]其中,預(yù)設(shè)可信度可以根據(jù)實(shí)際情況具體設(shè)置。本實(shí)施例中,預(yù)設(shè)可信度為0.5。
      [0106]通過判斷是否存在被采集對象的初始可信度,若否則默認(rèn)預(yù)設(shè)可信度作為被采集對象的可信度,可以保證每一個(gè)被采集人都對應(yīng)一個(gè)可信度,從而避免出現(xiàn)目標(biāo)數(shù)據(jù)不存在對應(yīng)的個(gè)體可信度的情況。
      [0107]在其中一實(shí)施例中,參考圖6,上述數(shù)據(jù)采集系統(tǒng)還包括反饋信息獲取模塊210和可信度修正模塊230。
      [0108]反饋信息獲取模塊210用于獲取目標(biāo)數(shù)據(jù)的反饋信息。
      [0109]其中,反饋信息指用戶對目標(biāo)數(shù)據(jù)是否正確的反饋。例如,反饋信息可以包括“正確”或類似含義的信息,以及“錯誤”或類似含義的信息。
      [0110]可信度修正模塊230用于根據(jù)反饋信息修正被采集對象的可信度得到被采集對象新的初始可信度,并將新的初始可信度與被采集對象關(guān)聯(lián)存儲至目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫中。
      [0111]通過以用戶的反饋為依據(jù)對被采集對象的初始可信度進(jìn)行修正,可以及時(shí)提高初始可信度的準(zhǔn)確性,可以給后續(xù)數(shù)據(jù)采集提供更準(zhǔn)確的參考,提高數(shù)據(jù)采集的正確率。
      [0112]在其中一實(shí)施例中,反饋信息包括正反饋和負(fù)反饋。例如“正確”表示正反饋,“錯誤”表示負(fù)反饋。參考圖7,可信度修正模塊230包括反饋信息判斷單元231、可信度提高單元233、可信度降低單元235和數(shù)據(jù)存儲單元237。
      [0113]反饋信息判斷單元231用于判斷反饋信息的類型是否為正反饋。若是,表示該目標(biāo)數(shù)據(jù)正確,若否,表示反饋信息的類型為負(fù)反饋,該目標(biāo)數(shù)據(jù)錯誤。
      [0114]可信度提高單元233用于在反饋信息的類型為正反饋時(shí),按預(yù)設(shè)差值提高被采集對象的可信度得到被采集對象新的初始可信度。
      [0115]可信度降低單元235用于在反饋信息的類型為負(fù)反饋時(shí),按預(yù)設(shè)差值降低被采集對象的可信度得到被采集對象新的初始可信度。
      [0116]數(shù)據(jù)存儲單元237用于將新的初始可信度與被采集對象關(guān)聯(lián)存儲至目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫中。通過將修正后的初始可信度與被采集對象關(guān)聯(lián)存儲,便于后續(xù)使用。
      [0117]其中,預(yù)設(shè)差值可以根據(jù)實(shí)際情況具體設(shè)置。例如,本實(shí)施例中,預(yù)設(shè)預(yù)值0.1。因此,每獲得一次正反饋,對應(yīng)被采集對象的初始可信度在原來的基礎(chǔ)上提高0.1;每獲得一次負(fù)反饋,對應(yīng)被采集對象的初始可信度在原來的基礎(chǔ)上降低0.1。
      [0118]本實(shí)施例中,初始可信度為大于等于O且小于等于I??尚哦忍岣邌卧?33具體根據(jù):
      [0119]Y=min( I,(X+0.I));
      [0120]獲取新的個(gè)體可信度。可信度降低單元235具體根據(jù):
      [0121]Y=max(0,(X-0.I));
      [0122]獲取新的個(gè)體可信度。其中,X為修正之前被采集對象的初始可信度,Y為修正后被采集對象的初始可信度。
      [0123]上述數(shù)據(jù)采集系統(tǒng),數(shù)據(jù)獲取模塊110獲取采集條件,根據(jù)采集條件獲取多個(gè)目標(biāo)數(shù)據(jù)后,數(shù)據(jù)分類模塊130根據(jù)預(yù)設(shè)特征匹配度對目標(biāo)數(shù)據(jù)進(jìn)行分類,得到數(shù)據(jù)群體;群體可信度計(jì)算模塊150分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度,并根據(jù)個(gè)體可信度獲取數(shù)據(jù)群體的群體可信度;可信度分析模塊170判斷群體可信度是否大于或等于預(yù)設(shè)值,若是,則數(shù)據(jù)采集模塊190采集數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。如此,根據(jù)群體可信度和預(yù)設(shè)值對目標(biāo)數(shù)據(jù)組成的數(shù)據(jù)群體進(jìn)行篩選,當(dāng)群體可信度大于或等于預(yù)設(shè)值時(shí)才采集對應(yīng)的目標(biāo)數(shù)據(jù),避免采集到不可靠的數(shù)據(jù),提高數(shù)據(jù)采集的正確率。
      [0124]以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡潔,未對上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。
      [0125]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
      【主權(quán)項(xiàng)】
      1.一種數(shù)據(jù)采集方法,其特征在于,包括以下步驟: 獲取采集條件,根據(jù)所述采集條件獲取多個(gè)目標(biāo)數(shù)據(jù); 對所述目標(biāo)數(shù)據(jù)進(jìn)行分類,得到數(shù)據(jù)群體; 分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度,并根據(jù)所述個(gè)體可信度獲取所述數(shù)據(jù)群體的群體可信度; 判斷所述群體可信度是否大于或等于預(yù)設(shè)值; 若是,則采集所述數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)采集方法,其特征在于,所述對所述目標(biāo)數(shù)據(jù)進(jìn)行分類,得到數(shù)據(jù)群體的步驟包括: 提取所述目標(biāo)數(shù)據(jù)的預(yù)設(shè)特征; 將預(yù)設(shè)特征的匹配度大于或等于預(yù)設(shè)匹配度的目標(biāo)數(shù)據(jù)作為一個(gè)數(shù)據(jù)群體。3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)采集方法,其特征在于,所述分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度的步驟包括: 分別根據(jù)各目標(biāo)數(shù)據(jù)獲取提供所述目標(biāo)數(shù)據(jù)的被采集對象的身份信息; 根據(jù)所述身份信息查找所述被采集對象的可信度,將所述被采集對象的可信度作為對應(yīng)所述目標(biāo)數(shù)據(jù)的個(gè)體可信度。4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)采集方法,其特征在于,所述根據(jù)所述身份信息查找所述被采集對象的可信度,將所述被采集對象的可信度作為對應(yīng)所述目標(biāo)數(shù)據(jù)的個(gè)體可信度的步驟包括: 根據(jù)所述身份信息判斷所述目標(biāo)數(shù)據(jù)庫或所述大數(shù)據(jù)存儲庫中是否存在所述被采集對象的初始可信度; 若是,則將所述初始可信度作為所述被采集對象的可信度; 若否,則將預(yù)設(shè)可信度作為所述被采集對象的可信度; 將所述被采集對象的可信度作為對應(yīng)所述目標(biāo)數(shù)據(jù)的個(gè)體可信度。5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)采集方法,其特征在于,所述采集所述數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫的步驟之后,還包括: 獲取所述目標(biāo)數(shù)據(jù)的反饋信息; 根據(jù)所述反饋信息修正所述被采集對象的可信度得到所述被采集對象新的初始可信度,并將所述新的初始可信度與所述被采集對象關(guān)聯(lián)存儲至所述目標(biāo)數(shù)據(jù)庫或所述大數(shù)據(jù)存儲庫中。6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)采集方法,其特征在于,所述根據(jù)所述反饋信息修正所述被采集對象的可信度得到所述被采集對象新的初始可信度的步驟包括: 判斷所述反饋信息的類型是否為正反饋; 若是,則按預(yù)設(shè)差值提高所述被采集對象的可信度得到所述被采集對象新的初始可信度; 若否,則按預(yù)設(shè)差值降低所述被采集對象新的可信度得到所述被采集對象新的初始可信度。7.一種數(shù)據(jù)采集系統(tǒng),其特征在于,包括: 數(shù)據(jù)獲取模塊,用于獲取采集條件,根據(jù)所述采集條件獲取多個(gè)目標(biāo)數(shù)據(jù); 數(shù)據(jù)分類模塊,用于對所述目標(biāo)數(shù)據(jù)進(jìn)行分類,得到數(shù)據(jù)群體; 群體可信度計(jì)算模塊,用于分別獲取對應(yīng)各目標(biāo)數(shù)據(jù)的個(gè)體可信度,并根據(jù)所述個(gè)體可信度獲取所述數(shù)據(jù)群體的群體可信度; 可信度分析模塊,用于判斷所述群體可信度是否大于或等于預(yù)設(shè)值; 數(shù)據(jù)采集模塊,用于在所述群體可信度大于或等于所述預(yù)設(shè)值時(shí),采集所述數(shù)據(jù)群體中對應(yīng)的目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫或大數(shù)據(jù)存儲庫。8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)采集系統(tǒng),其特征在于,所述數(shù)據(jù)分類模塊具體用于:提取所述目標(biāo)數(shù)據(jù)的預(yù)設(shè)特征,將預(yù)設(shè)特征的匹配度大于或等于預(yù)設(shè)匹配度的目標(biāo)數(shù)據(jù)作為一個(gè)數(shù)據(jù)群體。9.根據(jù)權(quán)利要求7所述的數(shù)據(jù)采集系統(tǒng),其特征在于,所述群體可信度計(jì)算模塊包括: 身份信息獲取單元,用于分別根據(jù)各目標(biāo)數(shù)據(jù)獲取提供所述目標(biāo)數(shù)據(jù)的被采集對象的身份信息; 個(gè)體可信度獲取單元,用于根據(jù)所述身份信息查找所述被采集對象的可信度,將所述被采集對象的可信度作為對應(yīng)所述目標(biāo)數(shù)據(jù)的個(gè)體可信度; 計(jì)算單元,用于根據(jù)所述個(gè)體可信度獲取所述數(shù)據(jù)群體的群體可信度。10.根據(jù)權(quán)利要求8所述的數(shù)據(jù)采集系統(tǒng),其特征在于,還包括: 反饋信息獲取模塊,用于獲取所述目標(biāo)數(shù)據(jù)的反饋信息; 可信度修正模塊,用于根據(jù)所述反饋信息修正所述被采集對象的可信度得到所述被采集對象新的初始可信度,并將所述新的初始可信度與所述被采集對象關(guān)聯(lián)存儲至所述目標(biāo)數(shù)據(jù)庫或所述大數(shù)據(jù)存儲庫中。
      【文檔編號】G06F17/30GK105843889SQ201610164635
      【公開日】2016年8月10日
      【申請日】2016年3月21日
      【發(fā)明人】朱定局
      【申請人】華南師范大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1