国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法及其系統(tǒng)與流程

      文檔序號(hào):11432333閱讀:514來源:國(guó)知局
      基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法及其系統(tǒng)與流程
      本發(fā)明涉及數(shù)據(jù)處理,更具體地說是指基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法及其系統(tǒng)。
      背景技術(shù)
      :隨著科技的發(fā)展,越來越多的企業(yè)采用互聯(lián)網(wǎng)公布數(shù)據(jù)的形式進(jìn)行自身企業(yè)的宣傳或者尋找投資對(duì)象,因此,企業(yè)在互聯(lián)網(wǎng)上的數(shù)據(jù)越來越多,互聯(lián)網(wǎng)上的企業(yè)數(shù)據(jù)庫(kù)越來越龐大。在宣傳或者尋找投資對(duì)象過程中,需要從互聯(lián)網(wǎng)上的海量數(shù)據(jù)中尋找與企業(yè)間數(shù)據(jù)的關(guān)聯(lián)關(guān)系,以此作為定位條件,準(zhǔn)確定位到所需找的企業(yè)。但是,目前的尋找企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系只能通過人工篩選和分析,這導(dǎo)致很難對(duì)企業(yè)進(jìn)行全方位的分析以及企業(yè)全息畫像,而且人工篩選和分析效率低下,準(zhǔn)確率也低。中國(guó)專利201510810811.2提供了一種基于關(guān)系數(shù)據(jù)庫(kù)從大數(shù)據(jù)下檢索相同主從關(guān)系數(shù)據(jù)的算法,是海量數(shù)據(jù)中進(jìn)行數(shù)據(jù)比對(duì)的一種算法,采用“大而化小,先面后點(diǎn)”,利用分組遍歷、中間表存儲(chǔ)等算法逐步縮小數(shù)據(jù)比對(duì)范圍,高效檢索出相同的記錄。上述發(fā)明針對(duì)企業(yè)數(shù)據(jù)中海量主從結(jié)構(gòu)數(shù)據(jù),快速檢索出相同記錄的方法適用于企業(yè)管控中的需要檢索相同主從結(jié)構(gòu)數(shù)據(jù)的各種情形,增強(qiáng)企業(yè)的管控能力,為企業(yè)營(yíng)造更好的市場(chǎng)環(huán)境,提高企業(yè)競(jìng)爭(zhēng)力。上述的專利采用的是快速檢索出相同記錄的方法,這種方式只能尋找類似的記錄,準(zhǔn)確度不高。因此,有必要設(shè)計(jì)一種基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法,實(shí)現(xiàn)提高捕捉的準(zhǔn)確度,且從海量數(shù)據(jù)中,對(duì)企業(yè)有效的數(shù)據(jù)進(jìn)行自動(dòng)關(guān)聯(lián)以及自動(dòng)分類,效率高。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷,提供基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法及其系統(tǒng)。為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法,所述方法包括:獲取海量企業(yè)相關(guān)數(shù)據(jù);對(duì)海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行積累,形成基礎(chǔ)數(shù)據(jù);對(duì)獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行處理,形成處理數(shù)據(jù);根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù),獲取訓(xùn)練集數(shù)據(jù)庫(kù);利用訓(xùn)練集數(shù)據(jù)庫(kù)對(duì)新數(shù)據(jù)進(jìn)行處理,獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。其進(jìn)一步技術(shù)方案為:對(duì)海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行積累,形成基礎(chǔ)數(shù)據(jù)的步驟,包括以下具體步驟:對(duì)所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行定期更新;對(duì)所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行挖掘以及分類,建立基礎(chǔ)數(shù)據(jù)庫(kù);存儲(chǔ)所述海量企業(yè)相關(guān)數(shù)據(jù)于所述基礎(chǔ)數(shù)據(jù)庫(kù);獲取所述基礎(chǔ)數(shù)據(jù)庫(kù)內(nèi)的基礎(chǔ)數(shù)據(jù)。其進(jìn)一步技術(shù)方案為:對(duì)獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行處理,形成處理數(shù)據(jù)的步驟,包括以下具體步驟:對(duì)獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行清洗、歸類、提取摘要以及提取關(guān)鍵字;對(duì)所述摘要和關(guān)鍵字建立索引;對(duì)所述信息、摘要以及關(guān)鍵字進(jìn)行分類,獲取分類結(jié)果;對(duì)分類結(jié)果進(jìn)行實(shí)時(shí)匹配及統(tǒng)計(jì),形成處理數(shù)據(jù)。其進(jìn)一步技術(shù)方案為:根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù),獲取訓(xùn)練集數(shù)據(jù)庫(kù)的步驟,包括以下具體步驟:根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù),做成訓(xùn)練集;對(duì)處理數(shù)據(jù)進(jìn)行抽樣調(diào)查和調(diào)整;將調(diào)整后的處理數(shù)據(jù)存儲(chǔ)至訓(xùn)練集內(nèi);對(duì)訓(xùn)練集進(jìn)行訓(xùn)練;利用權(quán)值進(jìn)行訓(xùn)練改進(jìn),形成訓(xùn)練集數(shù)據(jù)庫(kù)。其進(jìn)一步技術(shù)方案為:利用訓(xùn)練集數(shù)據(jù)庫(kù)對(duì)新數(shù)據(jù)進(jìn)行處理,獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系的步驟,包括以下具體步驟:利用訓(xùn)練集數(shù)據(jù)對(duì)訓(xùn)練集數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,獲取使用模型;采用使用模型對(duì)新數(shù)據(jù)進(jìn)行分類和預(yù)測(cè),獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。本發(fā)明還提供了基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉系統(tǒng),包括獲取單元、基礎(chǔ)數(shù)據(jù)形成單元、處理數(shù)據(jù)形成單元、數(shù)據(jù)庫(kù)獲取單元以及關(guān)系獲取單元;所述獲取單元,用于獲取海量企業(yè)相關(guān)數(shù)據(jù);所述基礎(chǔ)數(shù)據(jù)形成單元,用于對(duì)海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行積累,形成基礎(chǔ)數(shù)據(jù);所述處理數(shù)據(jù)形成單元,用于對(duì)獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行處理,形成處理數(shù)據(jù);所述數(shù)據(jù)庫(kù)獲取單元,用于根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù),獲取訓(xùn)練集數(shù)據(jù)庫(kù);所述關(guān)系獲取單元,用于利用訓(xùn)練集數(shù)據(jù)庫(kù)對(duì)新數(shù)據(jù)進(jìn)行處理,獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。其進(jìn)一步技術(shù)方案為:所述基礎(chǔ)數(shù)據(jù)形成單元包括更新模塊、數(shù)據(jù)庫(kù)建立模塊、存儲(chǔ)模塊以及基礎(chǔ)數(shù)據(jù)獲取模塊;所述更新模塊,用于對(duì)所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行定期更新;所述數(shù)據(jù)庫(kù)建立模塊,用于對(duì)所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行挖掘以及分類,建立基礎(chǔ)數(shù)據(jù)庫(kù);所述存儲(chǔ)模塊,用于存儲(chǔ)所述海量企業(yè)相關(guān)數(shù)據(jù)于所述基礎(chǔ)數(shù)據(jù)庫(kù);所述基礎(chǔ)數(shù)據(jù)獲取模塊,用于獲取所述基礎(chǔ)數(shù)據(jù)庫(kù)內(nèi)的基礎(chǔ)數(shù)據(jù)。其進(jìn)一步技術(shù)方案為:所述處理數(shù)據(jù)形成單元包括處理模塊、索引建立模塊、分類模塊以及匹配統(tǒng)計(jì)模塊;所述處理模塊,用于對(duì)獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行清洗、歸類、提取摘要以及提取關(guān)鍵字;所述索引建立模塊,用于對(duì)所述摘要和關(guān)鍵字建立索引;所述分類模塊,用于對(duì)所述信息、摘要以及關(guān)鍵字進(jìn)行分類,獲取分類結(jié)果;所述匹配統(tǒng)計(jì)模塊,用于對(duì)分類結(jié)果進(jìn)行實(shí)時(shí)匹配及統(tǒng)計(jì),形成處理數(shù)據(jù)。其進(jìn)一步技術(shù)方案為:所述數(shù)據(jù)庫(kù)獲取單元包括訓(xùn)練集形成模塊、調(diào)整模塊、處理數(shù)據(jù)存儲(chǔ)模塊、訓(xùn)練模塊以及改進(jìn)模塊;所述訓(xùn)練集形成模塊,用于根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù),做成訓(xùn)練集;所述調(diào)整模塊,用于對(duì)處理數(shù)據(jù)進(jìn)行抽樣調(diào)查和調(diào)整;所述處理數(shù)據(jù)存儲(chǔ)模塊,用于將調(diào)整后的處理數(shù)據(jù)存儲(chǔ)至訓(xùn)練集內(nèi);所述訓(xùn)練模塊,用于對(duì)訓(xùn)練集進(jìn)行訓(xùn)練;所述改進(jìn)模塊,用于利用權(quán)值進(jìn)行訓(xùn)練改進(jìn),形成訓(xùn)練集數(shù)據(jù)庫(kù)。其進(jìn)一步技術(shù)方案為:所述關(guān)系獲取單元包括模型獲取模塊以及分類預(yù)測(cè)模塊;所述模型獲取模塊,用于利用訓(xùn)練集數(shù)據(jù)對(duì)訓(xùn)練集數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,獲取使用模型;所述分類預(yù)測(cè)模塊,用于采用使用模型對(duì)新數(shù)據(jù)進(jìn)行分類和預(yù)測(cè),獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。本發(fā)明與現(xiàn)有技術(shù)相比的有益效果是:本發(fā)明的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法,通過采集海量的企業(yè)相關(guān)數(shù)據(jù),獲取成本低,采用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)處理,保證海量數(shù)據(jù)的安全存儲(chǔ),保證海量數(shù)據(jù)分布式處理,效率高,準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升,以大數(shù)據(jù)技術(shù)驅(qū)動(dòng)以及基于分布式并行計(jì)算架構(gòu)解決海量數(shù)據(jù)的存儲(chǔ)和計(jì)算的問題,使用機(jī)器學(xué)習(xí)和自然語言處理的理論,讓機(jī)器智能處理企業(yè)相關(guān)信息,進(jìn)行摘要、歸類以及提取,實(shí)現(xiàn)提高捕捉的準(zhǔn)確度,且從海量數(shù)據(jù)中,對(duì)企業(yè)有效的數(shù)據(jù)進(jìn)行自動(dòng)關(guān)聯(lián)以及自動(dòng)分類,識(shí)別效率高。下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。附圖說明圖1為本發(fā)明具體實(shí)施例提供的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法的流程圖;圖2為本發(fā)明具體實(shí)施例提供的形成基礎(chǔ)數(shù)據(jù)的具體流程圖;圖3為本發(fā)明具體實(shí)施例提供的形成處理數(shù)據(jù)的具體流程圖;圖4為本發(fā)明具體實(shí)施例提供的獲取訓(xùn)練集數(shù)據(jù)庫(kù)的具體流程圖;圖5為本發(fā)明具體實(shí)施例提供的獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系的具體流程圖;圖6為本發(fā)明具體實(shí)施例提供的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉系統(tǒng)的結(jié)構(gòu)框圖;圖7為本發(fā)明具體實(shí)施例提供的基礎(chǔ)數(shù)據(jù)形成單元的結(jié)構(gòu)框圖;圖8為本發(fā)明具體實(shí)施例提供的處理數(shù)據(jù)形成單元的結(jié)構(gòu)框圖;圖9為本發(fā)明具體實(shí)施例提供的數(shù)據(jù)庫(kù)獲取單元的結(jié)構(gòu)框圖;圖10為本發(fā)明具體實(shí)施例提供的關(guān)系獲取單元的結(jié)構(gòu)框圖。具體實(shí)施方式為了更充分理解本發(fā)明的技術(shù)內(nèi)容,下面結(jié)合具體實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)一步介紹和說明,但不局限于此。如圖1~10所示的具體實(shí)施例,本實(shí)施例提供的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法,可以運(yùn)用在企業(yè)的宣傳或者尋找投資對(duì)象過程,實(shí)現(xiàn)提高捕捉的準(zhǔn)確度,且從海量數(shù)據(jù)中,對(duì)企業(yè)有效的數(shù)據(jù)進(jìn)行自動(dòng)關(guān)聯(lián)以及自動(dòng)分類,效率高。如圖1所示,是本實(shí)施例提供的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法,該方法包括:s1、獲取海量企業(yè)相關(guān)數(shù)據(jù);s2、對(duì)海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行積累,形成基礎(chǔ)數(shù)據(jù);s3、對(duì)獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行處理,形成處理數(shù)據(jù);s4、根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù),獲取訓(xùn)練集數(shù)據(jù)庫(kù);s5、利用訓(xùn)練集數(shù)據(jù)庫(kù)對(duì)新數(shù)據(jù)進(jìn)行處理,獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。對(duì)于s1步驟,獲取海量企業(yè)相關(guān)數(shù)據(jù)的步驟,具體是采用數(shù)據(jù)爬取技術(shù),每天從互聯(lián)網(wǎng)上采集和爬取企業(yè)相關(guān)數(shù)據(jù)。更進(jìn)一步的,上述的s2步驟,對(duì)海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行積累,形成基礎(chǔ)數(shù)據(jù)的步驟,包括以下具體步驟:s21、對(duì)所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行定期更新;s22、對(duì)所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行挖掘以及分類,建立基礎(chǔ)數(shù)據(jù)庫(kù);s23、存儲(chǔ)所述海量企業(yè)相關(guān)數(shù)據(jù)于所述基礎(chǔ)數(shù)據(jù)庫(kù);s24、獲取所述基礎(chǔ)數(shù)據(jù)庫(kù)內(nèi)的基礎(chǔ)數(shù)據(jù)。對(duì)于上述s21步驟,對(duì)海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行定期更新,起到積累數(shù)據(jù)的作用。對(duì)于上述s22步驟,具體是使用機(jī)器學(xué)習(xí)技術(shù),通過對(duì)互聯(lián)網(wǎng)上海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行挖掘以及分類,以此來建立基礎(chǔ)數(shù)據(jù)數(shù)據(jù)庫(kù)。對(duì)于上述的s23步驟,具體是使用大數(shù)據(jù)hdfs技術(shù)分布式存儲(chǔ)海量企業(yè)相關(guān)數(shù)據(jù)。上述的s24步驟,基礎(chǔ)數(shù)據(jù)庫(kù)內(nèi)的基礎(chǔ)數(shù)據(jù)是由海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行積累以及處理后的數(shù)據(jù)。更進(jìn)一步的,上述的s3步驟,對(duì)獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行處理,形成處理數(shù)據(jù)的步驟,包括以下具體步驟:s31、對(duì)獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行清洗、歸類、提取摘要以及提取關(guān)鍵字;s32、對(duì)所述摘要和關(guān)鍵字建立索引;s33、對(duì)所述信息、摘要以及關(guān)鍵字進(jìn)行分類,獲取分類結(jié)果;s34、對(duì)分類結(jié)果進(jìn)行實(shí)時(shí)匹配及統(tǒng)計(jì),形成處理數(shù)據(jù)。上述的s31步驟,具體是基于自然語言處理的理論和技術(shù),對(duì)采集返回的海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行清洗、歸類、提取摘要以及提取關(guān)鍵字。對(duì)于上述s32步驟,具體是對(duì)采用自然語言處理的理論與技術(shù)處理后的摘要和關(guān)鍵字,建立索引。上述的s33步驟,具體采用的是使用k最近鄰(k-nearestneighbor,knn)分類對(duì)上述的信息、摘要以及關(guān)鍵字進(jìn)行分類,獲取分類結(jié)果。上述的s34步驟,具體采用的是使用大數(shù)據(jù)spark對(duì)分類結(jié)果的進(jìn)行實(shí)時(shí)匹配及統(tǒng)計(jì),以此形成處理數(shù)據(jù)。上述的s1步驟至s3步驟,均是基于成熟的大數(shù)據(jù)技術(shù)對(duì)從互聯(lián)網(wǎng)上獲取到的海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行處理,保證海量數(shù)據(jù)的安全存儲(chǔ),保證海量數(shù)據(jù)分布式處理,效率高,準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升。并且以大數(shù)據(jù)技術(shù)驅(qū)動(dòng),基于分布式并行計(jì)算架構(gòu),解決海量數(shù)據(jù)的存儲(chǔ)以及計(jì)算的問題,使用機(jī)器學(xué)習(xí)和自然語言處理的理論,讓機(jī)器智能處理企業(yè)相關(guān)信息,進(jìn)行摘要、歸類以及提取等?;诨ヂ?lián)網(wǎng)公開信息收集和處理,不存在敏感信息,數(shù)據(jù)獲取成本較低。更進(jìn)一步的,上述的s4步驟,根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù),獲取訓(xùn)練集數(shù)據(jù)庫(kù)的步驟,包括以下具體步驟:s41、根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù),做成訓(xùn)練集;s42、對(duì)處理數(shù)據(jù)進(jìn)行抽樣調(diào)查和調(diào)整;s43、將調(diào)整后的處理數(shù)據(jù)存儲(chǔ)至訓(xùn)練集內(nèi);s44、對(duì)訓(xùn)練集進(jìn)行訓(xùn)練;s45、利用權(quán)值進(jìn)行訓(xùn)練改進(jìn),形成訓(xùn)練集數(shù)據(jù)庫(kù)。上述的s41步驟,利用基礎(chǔ)數(shù)據(jù)庫(kù)內(nèi)的基礎(chǔ)數(shù)據(jù)以及分類、匹配和統(tǒng)計(jì)后的處理數(shù)據(jù)進(jìn)行綜合和匹配,以此作為訓(xùn)練集,以明確基礎(chǔ)數(shù)據(jù)與處理數(shù)據(jù)的關(guān)聯(lián)關(guān)系,便于捕捉新數(shù)據(jù)的關(guān)聯(lián)關(guān)系。上述的s42步驟,主要是為了提高基礎(chǔ)數(shù)據(jù)與處理數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的準(zhǔn)確度,因此,需要人工對(duì)處理數(shù)據(jù)進(jìn)行抽樣調(diào)查和調(diào)整,以確保處理數(shù)據(jù)的準(zhǔn)確度,從而確保關(guān)聯(lián)關(guān)系的準(zhǔn)確度。上述的s43步驟,主要是為了更正訓(xùn)練集內(nèi)的處理數(shù)據(jù),以調(diào)整后的處理數(shù)據(jù)為準(zhǔn),與基礎(chǔ)數(shù)據(jù)進(jìn)行綜合,形成準(zhǔn)確度較高的數(shù)據(jù)關(guān)聯(lián)關(guān)系。對(duì)于上述的s45步驟,隨著數(shù)據(jù)的累計(jì),采用權(quán)值的方式進(jìn)行訓(xùn)練改進(jìn),權(quán)值的方式主要是和該樣本距離小的鄰居權(quán)值大。具體而言,權(quán)值設(shè)置過小會(huì)降低分類精度,若設(shè)置過大,且測(cè)試樣本屬于訓(xùn)練集中包含數(shù)據(jù)較少的類,則會(huì)增加噪聲,降低分類效果。因此,權(quán)值要設(shè)置妥當(dāng),才可以提高企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉的準(zhǔn)確度,通常,k值的設(shè)定采用交叉檢驗(yàn)的方式(以k=1為基準(zhǔn)),經(jīng)驗(yàn)規(guī)則:k一般低于訓(xùn)練樣本數(shù)的平方根。更進(jìn)一步的,上述的s5步驟,利用訓(xùn)練集數(shù)據(jù)庫(kù)對(duì)新數(shù)據(jù)進(jìn)行處理,獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系的步驟,包括以下具體步驟:s51、利用訓(xùn)練集數(shù)據(jù)對(duì)訓(xùn)練集數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,獲取使用模型;s52、采用使用模型對(duì)新數(shù)據(jù)進(jìn)行分類和預(yù)測(cè),獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。上述的s51步驟,對(duì)訓(xùn)練集數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,有利于提高訓(xùn)練集數(shù)據(jù)庫(kù)的真實(shí)度,以此提高企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉的準(zhǔn)確度。對(duì)于上述的s52步驟,以訓(xùn)練后的訓(xùn)練集數(shù)據(jù)庫(kù)作為使用模型,利用使用模型對(duì)新數(shù)據(jù)進(jìn)行分類和預(yù)測(cè),獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)自動(dòng)分類,同時(shí)隨著數(shù)據(jù)量的累積,準(zhǔn)確率越來越高。上述的s51步驟至s52步驟,可參照下述實(shí)施例:#將訓(xùn)練集代入到knn模型中;clf=kneighborsclassifier(n_neighbors=3);clf.fit(x_train,y_train);#使用測(cè)試集衡量模型準(zhǔn)確度;clf.score(x_test,y_test);#設(shè)置新數(shù)據(jù);new_data=np.array([[5000,40000]]);#對(duì)新數(shù)據(jù)進(jìn)行分類預(yù)測(cè);clf.predict(new_data)。如上述的例子而言,訓(xùn)練集數(shù)據(jù)庫(kù)的數(shù)據(jù)如下表所示:點(diǎn)號(hào)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)類別11.02.03.0121.02.13.1130.92.22.9143.46.78.9253.07.08.7263.36.98.8272.53.310.0382.42.98.03新數(shù)據(jù)如下表所示:點(diǎn)號(hào)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)類別12.15.57.2021.12.54.2034.13.59.20分類后的新數(shù)據(jù)如下表所示:點(diǎn)號(hào)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)類別11.12.54..2122.15.57.2234.13.59.23上述的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法,通過采集海量的企業(yè)相關(guān)數(shù)據(jù),獲取成本低,采用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)處理,保證海量數(shù)據(jù)的安全存儲(chǔ),保證海量數(shù)據(jù)分布式處理,效率高,準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升,以大數(shù)據(jù)技術(shù)驅(qū)動(dòng)以及基于分布式并行計(jì)算架構(gòu)解決海量數(shù)據(jù)的存儲(chǔ)和計(jì)算的問題,使用機(jī)器學(xué)習(xí)和自然語言處理的理論,讓機(jī)器智能處理企業(yè)相關(guān)信息,進(jìn)行摘要、歸類以及提取,實(shí)現(xiàn)提高捕捉的準(zhǔn)確度,且從海量數(shù)據(jù)中,對(duì)企業(yè)有效的數(shù)據(jù)進(jìn)行自動(dòng)關(guān)聯(lián)以及自動(dòng)分類,識(shí)別效率高。如圖6所示,是本實(shí)施例提供的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉系統(tǒng),其包括獲取單元1、基礎(chǔ)數(shù)據(jù)形成單元2、處理數(shù)據(jù)形成單元3、數(shù)據(jù)庫(kù)獲取單元4以及關(guān)系獲取單元5。獲取單元1,用于獲取海量企業(yè)相關(guān)數(shù)據(jù)?;A(chǔ)數(shù)據(jù)形成單元2,用于對(duì)海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行積累,形成基礎(chǔ)數(shù)據(jù)。處理數(shù)據(jù)形成單元3,用于對(duì)獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行處理,形成處理數(shù)據(jù)。數(shù)據(jù)庫(kù)獲取單元4,用于根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù),獲取訓(xùn)練集數(shù)據(jù)庫(kù)。關(guān)系獲取單元5,用于利用訓(xùn)練集數(shù)據(jù)庫(kù)對(duì)新數(shù)據(jù)進(jìn)行處理,獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。獲取單元1具體是采用數(shù)據(jù)爬取技術(shù),每天從互聯(lián)網(wǎng)上采集和爬取企業(yè)相關(guān)數(shù)據(jù)。更進(jìn)一步的,基礎(chǔ)數(shù)據(jù)形成單元2包括更新模塊21、數(shù)據(jù)庫(kù)建立模塊22、存儲(chǔ)模塊23以及基礎(chǔ)數(shù)據(jù)獲取模塊24。更新模塊21,用于對(duì)所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行定期更新。數(shù)據(jù)庫(kù)建立模塊22,用于對(duì)所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行挖掘以及分類,建立基礎(chǔ)數(shù)據(jù)庫(kù)。存儲(chǔ)模塊23,用于存儲(chǔ)所述海量企業(yè)相關(guān)數(shù)據(jù)于所述基礎(chǔ)數(shù)據(jù)庫(kù)?;A(chǔ)數(shù)據(jù)獲取模塊24,用于獲取所述基礎(chǔ)數(shù)據(jù)庫(kù)內(nèi)的基礎(chǔ)數(shù)據(jù)。更新模塊21對(duì)海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行定期更新,起到積累數(shù)據(jù)的作用數(shù)據(jù)庫(kù)建立模塊22具體是使用機(jī)器學(xué)習(xí)技術(shù),通過對(duì)互聯(lián)網(wǎng)上海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行挖掘以及分類,以此來建立基礎(chǔ)數(shù)據(jù)數(shù)據(jù)庫(kù)。存儲(chǔ)模塊23具體是使用大數(shù)據(jù)hdfs技術(shù)分布式存儲(chǔ)海量企業(yè)相關(guān)數(shù)據(jù)。上述的基礎(chǔ)數(shù)據(jù)庫(kù)內(nèi)的基礎(chǔ)數(shù)據(jù)是由海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行積累以及處理后的數(shù)據(jù)。更進(jìn)一步的,處理數(shù)據(jù)形成單元3包括處理模塊31、索引建立模塊32、分類模塊33以及匹配統(tǒng)計(jì)模塊34。處理模塊31,用于對(duì)獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行清洗、歸類、提取摘要以及提取關(guān)鍵字。索引建立模塊32,用于對(duì)所述摘要和關(guān)鍵字建立索引。分類模塊33,用于對(duì)所述信息、摘要以及關(guān)鍵字進(jìn)行分類,獲取分類結(jié)果。匹配統(tǒng)計(jì)模塊34,用于對(duì)分類結(jié)果進(jìn)行實(shí)時(shí)匹配及統(tǒng)計(jì),形成處理數(shù)據(jù)。處理模塊31具體是基于自然語言處理的理論和技術(shù),對(duì)采集返回的海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行清洗、歸類、提取摘要以及提取關(guān)鍵字。索引建立模塊32具體是對(duì)采用自然語言處理的理論與技術(shù)處理后的摘要和關(guān)鍵字,建立索引。分類模塊33具體采用的是使用k最近鄰(k-nearestneighbor,knn)分類對(duì)上述的信息、摘要以及關(guān)鍵字進(jìn)行分類,獲取分類結(jié)果。匹配統(tǒng)計(jì)模塊34具體采用的是使用大數(shù)據(jù)spark對(duì)分類結(jié)果的進(jìn)行實(shí)時(shí)匹配及統(tǒng)計(jì),以此形成處理數(shù)據(jù)。上述的獲取單元1、基礎(chǔ)數(shù)據(jù)形成單元2以及理數(shù)據(jù)形成單元均是基于成熟的大數(shù)據(jù)技術(shù)對(duì)從互聯(lián)網(wǎng)上獲取到的海量企業(yè)相關(guān)數(shù)據(jù)進(jìn)行處理,保證海量數(shù)據(jù)的安全存儲(chǔ),保證海量數(shù)據(jù)分布式處理,效率高,準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升。并且以大數(shù)據(jù)技術(shù)驅(qū)動(dòng),基于分布式并行計(jì)算架構(gòu),解決海量數(shù)據(jù)的存儲(chǔ)以及計(jì)算的問題,使用機(jī)器學(xué)習(xí)和自然語言處理的理論,讓機(jī)器智能處理企業(yè)相關(guān)信息,進(jìn)行摘要、歸類以及提取等?;诨ヂ?lián)網(wǎng)公開信息收集和處理,不存在敏感信息,數(shù)據(jù)獲取成本較低。另外,數(shù)據(jù)庫(kù)獲取單元4包括訓(xùn)練集形成模塊41、調(diào)整模塊42、處理數(shù)據(jù)存儲(chǔ)模塊43、訓(xùn)練模塊44以及改進(jìn)模塊45。訓(xùn)練集形成模塊41,用于根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù),做成訓(xùn)練集。調(diào)整模塊42,用于對(duì)處理數(shù)據(jù)進(jìn)行抽樣調(diào)查和調(diào)整。處理數(shù)據(jù)存儲(chǔ)模塊43,用于將調(diào)整后的處理數(shù)據(jù)存儲(chǔ)至訓(xùn)練集內(nèi)。訓(xùn)練模塊44,用于對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。改進(jìn)模塊45,用于利用權(quán)值進(jìn)行訓(xùn)練改進(jìn),形成訓(xùn)練集數(shù)據(jù)庫(kù)。上述的訓(xùn)練集形成模塊41利用基礎(chǔ)數(shù)據(jù)庫(kù)內(nèi)的基礎(chǔ)數(shù)據(jù)以及分類、匹配和統(tǒng)計(jì)后的處理數(shù)據(jù)進(jìn)行綜合和匹配,以此作為訓(xùn)練集,以明確基礎(chǔ)數(shù)據(jù)與處理數(shù)據(jù)的關(guān)聯(lián)關(guān)系,便于捕捉新數(shù)據(jù)的關(guān)聯(lián)關(guān)系。調(diào)整模塊42主要是為了提高基礎(chǔ)數(shù)據(jù)與處理數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的準(zhǔn)確度,因此,需要人工對(duì)處理數(shù)據(jù)進(jìn)行抽樣調(diào)查和調(diào)整,以確保處理數(shù)據(jù)的準(zhǔn)確度,從而確保關(guān)聯(lián)關(guān)系的準(zhǔn)確度。處理數(shù)據(jù)存儲(chǔ)模塊43主要是為了更正訓(xùn)練集內(nèi)的處理數(shù)據(jù),以調(diào)整后的處理數(shù)據(jù)為準(zhǔn),與基礎(chǔ)數(shù)據(jù)進(jìn)行綜合,形成準(zhǔn)確度較高的數(shù)據(jù)關(guān)聯(lián)關(guān)系。隨著數(shù)據(jù)的累計(jì),改進(jìn)模塊45采用權(quán)值的方式進(jìn)行訓(xùn)練改進(jìn),權(quán)值的方式主要是和該樣本距離小的鄰居權(quán)值大。具體而言,權(quán)值設(shè)置過小會(huì)降低分類精度,若設(shè)置過大,且測(cè)試樣本屬于訓(xùn)練集中包含數(shù)據(jù)較少的類,則會(huì)增加噪聲,降低分類效果。因此,權(quán)值要設(shè)置妥當(dāng),才可以提高企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉的準(zhǔn)確度,通常,k值的設(shè)定采用交叉檢驗(yàn)的方式(以k=1為基準(zhǔn)),經(jīng)驗(yàn)規(guī)則:k一般低于訓(xùn)練樣本數(shù)的平方根。更進(jìn)一步的,關(guān)系獲取單元5包括模型獲取模塊51以及分類預(yù)測(cè)模塊52。模型獲取模塊51,用于利用訓(xùn)練集數(shù)據(jù)對(duì)訓(xùn)練集數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,獲取使用模型。分類預(yù)測(cè)模塊52,用于采用使用模型對(duì)新數(shù)據(jù)進(jìn)行分類和預(yù)測(cè),獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。模型獲取模塊51對(duì)訓(xùn)練集數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,有利于提高訓(xùn)練集數(shù)據(jù)庫(kù)的真實(shí)度,以此提高企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉的準(zhǔn)確度。分類預(yù)測(cè)模塊52以訓(xùn)練后的訓(xùn)練集數(shù)據(jù)庫(kù)作為使用模型,利用使用模型對(duì)新數(shù)據(jù)進(jìn)行分類和預(yù)測(cè),獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)自動(dòng)分類,同時(shí)隨著數(shù)據(jù)量的累積,準(zhǔn)確率越來越高。上述的模型獲取模塊51以及分類預(yù)測(cè)模塊52的工作過程,可參照下述實(shí)施例:#將訓(xùn)練集代入到knn模型中;clf=kneighborsclassifier(n_neighbors=3);clf.fit(x_train,y_train);#使用測(cè)試集衡量模型準(zhǔn)確度;clf.score(x_test,y_test);#設(shè)置新數(shù)據(jù);new_data=np.array([[5000,40000]]);#對(duì)新數(shù)據(jù)進(jìn)行分類預(yù)測(cè);clf.predict(new_data)。上述的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉系統(tǒng),通過采集海量的企業(yè)相關(guān)數(shù)據(jù),獲取成本低,采用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)處理,保證海量數(shù)據(jù)的安全存儲(chǔ),保證海量數(shù)據(jù)分布式處理,效率高,準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升,以大數(shù)據(jù)技術(shù)驅(qū)動(dòng)以及基于分布式并行計(jì)算架構(gòu)解決海量數(shù)據(jù)的存儲(chǔ)和計(jì)算的問題,使用機(jī)器學(xué)習(xí)和自然語言處理的理論,讓機(jī)器智能處理企業(yè)相關(guān)信息,進(jìn)行摘要、歸類以及提取,實(shí)現(xiàn)提高捕捉的準(zhǔn)確度,且從海量數(shù)據(jù)中,對(duì)企業(yè)有效的數(shù)據(jù)進(jìn)行自動(dòng)關(guān)聯(lián)以及自動(dòng)分類,識(shí)別效率高。上述僅以實(shí)施例來進(jìn)一步說明本發(fā)明的技術(shù)內(nèi)容,以便于讀者更容易理解,但不代表本發(fā)明的實(shí)施方式僅限于此,任何依本發(fā)明所做的技術(shù)延伸或再創(chuàng)造,均受本發(fā)明的保護(hù)。本發(fā)明的保護(hù)范圍以權(quán)利要求書為準(zhǔn)。當(dāng)前第1頁(yè)12
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1