国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      大數(shù)據(jù)的處理方法和系統(tǒng)的制作方法_2

      文檔序號(hào):9911077閱讀:來源:國知局
      功,則修改類型字段為"身份證",若失敗轉(zhuǎn)到 b);
      [0062] b)按照護(hù)照類別識(shí)別;
      [0063] c)若識(shí)別失敗,且設(shè)定類別為"其他"。
      [0064] 5)固話、移動(dòng)電話處理規(guī)則:對固話和移動(dòng)電話的處理規(guī)則如下:
      [0065] 1、以7'為分隔符,對電話進(jìn)行分割,若分割后只有一個(gè)子串,則轉(zhuǎn) 到步驟2,否則轉(zhuǎn)到步驟3
      [0066] 2、若子串包含字母,則識(shí)別失敗,返回;否則安裝下面邏輯處理:
      [0067] a)以為分隔符,分割字符串,若只有一個(gè)子串,進(jìn)入b),否則進(jìn)入c)
      [0068] b)根據(jù)子串長度進(jìn)行一下處理:
      [0069] i.若長度為11位,且第一個(gè)為字符為'1',識(shí)別成功,為手機(jī)號(hào);若為否則返回;
      [0070] ii.若長度為22位,且第一位,第11位為'1',則識(shí)別為兩個(gè)手機(jī)號(hào)碼,例如 "1378995455613789954556";
      [0071] iii.若長度為[17,19]位,若長度為18為,且第7位第8位為'19'則識(shí)別失敗(可能 是身份證);否則若第1位為'Γ則前11位為移動(dòng)號(hào)碼,后面為固話;若倒數(shù)第11位為1,則前 面為固話,后面為手機(jī)號(hào);若都不是以上情況,則識(shí)別失敗。
      [0072] c)若子串個(gè)數(shù)大于3個(gè),識(shí)別失敗,返回:
      [0073] i .若子串中有長度為11位的字符串,按照步驟a處理,若所有長度為11位的子串都 不是手機(jī)號(hào),則進(jìn)行ii處理;
      [0074] ii.子串個(gè)數(shù)為3個(gè),若第一個(gè)子串和第三個(gè)子串長度為[2,4]之間,第二個(gè)子串長 度為[6,8]之間,則第一個(gè)子串為區(qū)號(hào),第二個(gè)子串為固話,第三個(gè)子串為分機(jī)號(hào):將區(qū)號(hào)與 固話號(hào)碼連接并以連接分機(jī)號(hào),例如"010-87554568-123"處理后為"01087554568-123" ;
      [0075] iii.子串長度為兩個(gè),第一個(gè)子串長度在[2,4]之間且第二個(gè)子串長度[6,8]之 間,則第一個(gè)子串為區(qū)號(hào),第二個(gè)為座機(jī)號(hào),將區(qū)號(hào)與固話號(hào)碼連接;第一個(gè)子串長度在[6, 8]之間且第二個(gè)子串長度[2,4]之間,則對子串不處理,識(shí)別成功。
      [0076] 3、若子串個(gè)數(shù)大于兩個(gè),若存在11位子串,則將其按照步驟2處理,若識(shí)別成功,則 返回;若不存在11位子串,則識(shí)別失??;
      [0077]算法說明如下:
      [0078] 1)置信度
      [0079] P1~Pn為各表各字段基礎(chǔ)置信度,基礎(chǔ)置信度為經(jīng)驗(yàn)值,若無經(jīng)驗(yàn)值或無法判斷, 則認(rèn)為對錯(cuò)可能性各50 %,基礎(chǔ)置信度就是0.5,每多出現(xiàn)一次匹配,最終總置信度增加一 部分,計(jì)算公式如下:
      [0080]置信度 P = 1-( 1-PA1PB1 )ml (1-PA2PB2 )m2......(l_PAnPBn)mn
      [0081 ] 其中PAnPBn為在第η個(gè)表A,B同時(shí)正確的概率,ml~mn為在第η個(gè)表同時(shí)出現(xiàn)A,B匹 配的次數(shù)。
      [0082] 2)關(guān)系強(qiáng)度
      [0083]設(shè)置不同關(guān)系的關(guān)系強(qiáng)度上限表1所示:
      [0084] LUUB;)」 衣丄
      [0086] 其中,同戶、同單位出現(xiàn)一次即達(dá)到該類關(guān)系強(qiáng)度上限,通信,同行每增加通信或 同行一次增加該類關(guān)系強(qiáng)度上限的10%,10次及以上達(dá)到該類別關(guān)系強(qiáng)度上限,最終關(guān)系 強(qiáng)度為各種關(guān)系強(qiáng)度之和,計(jì)算公式為:
      [0087] 關(guān)系強(qiáng)度=同戶關(guān)系強(qiáng)度上限*(是否同戶)+同單位關(guān)系強(qiáng)度上限*(是否同單位) +(通信關(guān)系強(qiáng)度上限Λ〇Μ通信次數(shù))+(同行關(guān)系強(qiáng)度上限Λ〇Μ同行次數(shù))。
      [0088] 3)最優(yōu)關(guān)系路徑
      [0089] 先建立兩兩關(guān)系,然后利用圖計(jì)算,建立點(diǎn)邊圖,然后利用迪杰斯特拉最短路徑算 法實(shí)現(xiàn)。
      [0090] 本發(fā)明設(shè)計(jì)實(shí)現(xiàn)了一種面向海量多源異構(gòu)數(shù)據(jù)進(jìn)行挖掘分析的數(shù)據(jù)處理方法,可 以從多源異構(gòu)數(shù)據(jù)中分析出各類信息之間(包括虛實(shí)信息)的置信度、關(guān)系強(qiáng)度,分析出行 為信息、行蹤信息以及人員關(guān)系拓?fù)浜腿后w發(fā)現(xiàn),從而為各類數(shù)據(jù)分析、行為分析、用戶畫 像分析、關(guān)系發(fā)現(xiàn)提供數(shù)據(jù)支撐。
      [0091 ]根據(jù)本發(fā)明的實(shí)施例,還提供了一種大數(shù)據(jù)的處理系統(tǒng)。
      [0092]如圖4所示,根據(jù)本發(fā)明實(shí)施例的處理系統(tǒng)包括:
      [0093]抽取轉(zhuǎn)換模塊41,用于從多個(gè)數(shù)據(jù)源抽取大數(shù)據(jù),并對大數(shù)據(jù)進(jìn)行規(guī)則轉(zhuǎn)換;
      [0094]處理模塊42,用于對進(jìn)行規(guī)則轉(zhuǎn)換后的大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理;
      [0095]建庫模塊43,用于根據(jù)數(shù)據(jù)處理后的大數(shù)據(jù)建立數(shù)據(jù)庫。
      [0096] 其中,在一個(gè)實(shí)施例中,從多個(gè)數(shù)據(jù)源抽取的大數(shù)據(jù)包括:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化 數(shù)據(jù)。
      [0097] 此外,在一個(gè)實(shí)施例中,對大數(shù)據(jù)進(jìn)行規(guī)則轉(zhuǎn)換的方式包括數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處 理,數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理包括以下至少之一:
      [0098]格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、錯(cuò)誤糾正、去重。
      [0099]另外,在一個(gè)實(shí)施例中,在大數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù)的情況下,對進(jìn)行規(guī)則轉(zhuǎn)換后的大 數(shù)據(jù)進(jìn)行數(shù)據(jù)處理的方式包括以下至少之一:
      [0100]對象抽取、數(shù)據(jù)關(guān)聯(lián)、置信度計(jì)算、標(biāo)簽計(jì)算、模型計(jì)算。
      [0101]綜上所述,借助于本發(fā)明的上述技術(shù)方案,通過從多源異構(gòu)數(shù)據(jù)中分析出各類信 息并構(gòu)建數(shù)據(jù)庫,從而為各類數(shù)據(jù)分析、行為分析、用戶畫像分析、關(guān)系發(fā)現(xiàn)提供數(shù)據(jù)支撐。 [0102]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
      【主權(quán)項(xiàng)】
      1. 一種大數(shù)據(jù)的處理方法,其特征在于,包括: 從多個(gè)數(shù)據(jù)源抽取所述大數(shù)據(jù),并對所述大數(shù)據(jù)進(jìn)行規(guī)則轉(zhuǎn)換; 對進(jìn)行規(guī)則轉(zhuǎn)換后的所述大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理; 根據(jù)數(shù)據(jù)處理后的所述大數(shù)據(jù)建立數(shù)據(jù)庫。2. 根據(jù)權(quán)利要求1所述的處理方法,其特征在于,從多個(gè)數(shù)據(jù)源抽取的所述大數(shù)據(jù)包 括:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。3. 根據(jù)權(quán)利要求1所述的處理方法,其特征在于,對所述大數(shù)據(jù)進(jìn)行規(guī)則轉(zhuǎn)換的方式包 括數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理,所述數(shù)據(jù)清洗和所述數(shù)據(jù)預(yù)處理包括以下至少之一: 格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、錯(cuò)誤糾正、去重。4. 根據(jù)權(quán)利要求2所述的處理方法,其特征在于,在所述大數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù)的情況 下,對進(jìn)行規(guī)則轉(zhuǎn)換后的所述大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理的方式包括以下至少之一: 對象抽取、數(shù)據(jù)關(guān)聯(lián)、置信度計(jì)算、標(biāo)簽計(jì)算、模型計(jì)算。5. 根據(jù)權(quán)利要求2所述的處理方法,其特征在于,在所述大數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)的情況 下,對進(jìn)行規(guī)則轉(zhuǎn)換后的所述大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理的方式包括以下至少之一: 分詞處理、特征值提取。6. 根據(jù)權(quán)利要求1所述的處理方法,其特征在于,所述數(shù)據(jù)庫包括以下至少之一: 基礎(chǔ)數(shù)據(jù)庫、對象庫、全文庫。7. -種大數(shù)據(jù)的處理系統(tǒng),其特征在于,包括: 抽取轉(zhuǎn)換模塊,用于從多個(gè)數(shù)據(jù)源抽取所述大數(shù)據(jù),并對所述大數(shù)據(jù)進(jìn)行規(guī)則轉(zhuǎn)換; 處理模塊,用于對進(jìn)行規(guī)則轉(zhuǎn)換后的所述大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理; 建庫模塊,用于根據(jù)數(shù)據(jù)處理后的所述大數(shù)據(jù)建立數(shù)據(jù)庫。8. 根據(jù)權(quán)利要求7所述的處理系統(tǒng),其特征在于,從多個(gè)數(shù)據(jù)源抽取的所述大數(shù)據(jù)包 括:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。9. 根據(jù)權(quán)利要求7所述的處理系統(tǒng),其特征在于,對所述大數(shù)據(jù)進(jìn)行規(guī)則轉(zhuǎn)換的方式包 括數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理,所述數(shù)據(jù)清洗和所述數(shù)據(jù)預(yù)處理包括以下至少之一: 格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、錯(cuò)誤糾正、去重。10. 根據(jù)權(quán)利要求8所述的處理系統(tǒng),其特征在于,在所述大數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù)的情況 下,對進(jìn)行規(guī)則轉(zhuǎn)換后的所述大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理的方式包括以下至少之一: 對象抽取、數(shù)據(jù)關(guān)聯(lián)、置信度計(jì)算、標(biāo)簽計(jì)算、模型計(jì)算。
      【專利摘要】本發(fā)明公開了一種大數(shù)據(jù)的處理方法和系統(tǒng),該方法包括:從多個(gè)數(shù)據(jù)源抽取大數(shù)據(jù),并對大數(shù)據(jù)進(jìn)行規(guī)則轉(zhuǎn)換;對進(jìn)行規(guī)則轉(zhuǎn)換后的大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理;根據(jù)數(shù)據(jù)處理后的大數(shù)據(jù)建立數(shù)據(jù)庫。本發(fā)明通過從多源異構(gòu)數(shù)據(jù)中分析出各類信息并構(gòu)建數(shù)據(jù)庫,從而為各類數(shù)據(jù)分析、行為分析、用戶畫像分析、關(guān)系發(fā)現(xiàn)提供數(shù)據(jù)支撐。
      【IPC分類】G06F17/30
      【公開號(hào)】CN105677710
      【申請?zhí)枴緾N201511001368
      【發(fā)明人】惠潤海, 郭慶, 張建磊, 謝瑩瑩, 宋懷明
      【申請人】曙光信息產(chǎn)業(yè)(北京)有限公司
      【公開日】2016年6月15日
      【申請日】2015年12月28日
      當(dāng)前第2頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1