国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng)的制作方法

      文檔序號(hào):6630257閱讀:529來(lái)源:國(guó)知局
      一種基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng)的制作方法
      【專利摘要】本發(fā)明公開(kāi)了一種基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),包括:數(shù)據(jù)采集入庫(kù)部件,用于數(shù)據(jù)源頭偵測(cè)、互聯(lián)網(wǎng)數(shù)據(jù)采集和HTML預(yù)處理,并將第三方數(shù)據(jù)資源接入;實(shí)時(shí)數(shù)據(jù)流處理部件,用于數(shù)據(jù)流的實(shí)時(shí)處理;存儲(chǔ)體系部件,用于存儲(chǔ)Hadoop集群和mysql集群;底層支持部件,用于從文本中抽取語(yǔ)義信息,支持其他需要語(yǔ)義抽取、語(yǔ)義分析塊,處理與文本檢索、文本處理與語(yǔ)義搜索、文本處理相關(guān)的事務(wù);業(yè)務(wù)層部件,用于具體業(yè)務(wù)執(zhí)行、調(diào)度、展現(xiàn)的,與具體應(yīng)用密切相關(guān)的應(yīng)用集合。本發(fā)明實(shí)現(xiàn)基于web的大數(shù)據(jù)分析,不但精準(zhǔn)度高、提供語(yǔ)義信息豐富,而且極具實(shí)用性和可產(chǎn)業(yè)化。
      【專利說(shuō)明】一種基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng)

      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及數(shù)據(jù)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及一種基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng)。

      【背景技術(shù)】
      [0002]在2012年早些時(shí)候,包括軟件、硬件以及服務(wù)在內(nèi)的大數(shù)據(jù)市場(chǎng)規(guī)模約為50億美元。隨著時(shí)間的推移,大數(shù)據(jù)的能量將逐步引起更多的關(guān)注,企業(yè)需要相關(guān)的分析能力以取得競(jìng)爭(zhēng)優(yōu)勢(shì)進(jìn)而改善運(yùn)營(yíng)效率,而相關(guān)的技術(shù)以及服務(wù)會(huì)相繼部署,大數(shù)據(jù)市場(chǎng)規(guī)模將大幅壯大。目前市場(chǎng)上類似產(chǎn)品提供的系統(tǒng)的重心在于對(duì)企業(yè)的內(nèi)部數(shù)據(jù)得分析,對(duì)于海量的來(lái)自web —些文本等非結(jié)構(gòu)數(shù)據(jù)由于獲取難度相對(duì)較大、單位價(jià)值相對(duì)較低等難點(diǎn),其價(jià)值目前尚未被業(yè)充分開(kāi)發(fā)和利用。


      【發(fā)明內(nèi)容】

      [0003]為了解決【背景技術(shù)】中存在的技術(shù)問(wèn)題,本發(fā)明提出了一種基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),實(shí)現(xiàn)基于web的大數(shù)據(jù)分析,不但精準(zhǔn)度高、提供語(yǔ)義信息豐富,而且極具實(shí)用性和可產(chǎn)業(yè)化。
      [0004]本發(fā)明提出的一種基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),包括:
      [0005]數(shù)據(jù)采集入庫(kù)部件,用于數(shù)據(jù)源頭偵測(cè)、互聯(lián)網(wǎng)數(shù)據(jù)采集和HTML預(yù)處理,并將第三方數(shù)據(jù)資源接入;
      [0006]實(shí)時(shí)數(shù)據(jù)流處理部件,用于數(shù)據(jù)流的實(shí)時(shí)處理;
      [0007]存儲(chǔ)體系部件,用于存儲(chǔ)Hadoop集群和mysql集群;
      [0008]底層支持部件,用于從文本中抽取語(yǔ)義信息,支持其他需要語(yǔ)義抽取、語(yǔ)義分析塊,處理與文本檢索、文本處理與語(yǔ)義搜索、文本處理相關(guān)的事務(wù);
      [0009]業(yè)務(wù)層部件,用于具體業(yè)務(wù)執(zhí)行、調(diào)度、展現(xiàn)的,與具體應(yīng)用密切相關(guān)的應(yīng)用集合。
      [0010]優(yōu)選地,所述數(shù)據(jù)采集入庫(kù)部件包括:
      [0011]分布式爬蟲(chóng)模塊,用于數(shù)據(jù)源頭偵測(cè)、互聯(lián)網(wǎng)數(shù)據(jù)采集和HTML預(yù)處理;
      [0012]數(shù)據(jù)源適配器,用于將第三方數(shù)據(jù)資源接入。
      [0013]優(yōu)選地,所述實(shí)時(shí)數(shù)據(jù)流處理部件包括:
      [0014]臨時(shí)存儲(chǔ)模塊,以集群的內(nèi)存作為緩存環(huán)境,將實(shí)時(shí)采集到的數(shù)據(jù)臨時(shí)存儲(chǔ)起來(lái),供有實(shí)時(shí)性要求的模塊讀??;
      [0015]流數(shù)據(jù)鉤子模塊,提供實(shí)時(shí)數(shù)據(jù)處理模塊掛載的鉤子,基本機(jī)制為訂閱-消費(fèi)模型,當(dāng)有數(shù)據(jù)到達(dá),將數(shù)據(jù)的基本描述掛載起來(lái),以便掛載到鉤子系統(tǒng)的模塊取閱。
      [0016]優(yōu)選地,所述實(shí)時(shí)數(shù)據(jù)流處理模塊不保證數(shù)據(jù)的永久可讀,超過(guò)一定時(shí)限后,數(shù)據(jù)將被清空,較老數(shù)據(jù)將不再可讀,只能在永久存儲(chǔ)體系中取閱。
      [0017]優(yōu)選地,
      [0018]所述Hadoop集群用于大量網(wǎng)頁(yè)數(shù)據(jù)的永久性存儲(chǔ)和沒(méi)有隨機(jī)讀寫(xiě)需求的分析結(jié)果;
      [0019]所述mysql集群,用于存儲(chǔ)運(yùn)營(yíng)數(shù)據(jù)、數(shù)據(jù)挖掘結(jié)果、語(yǔ)義分析結(jié)果。
      [0020]優(yōu)選地,所述底層支持部件包括:
      [0021]語(yǔ)義信息提取模塊,用于從文本中抽取語(yǔ)義信息,支持其他需要語(yǔ)義抽取、語(yǔ)義分析塊;
      [0022]語(yǔ)義搜索引擎,用于處理與文本檢索、語(yǔ)義搜索引擎文本處理與語(yǔ)義搜索、文本處理相關(guān)的事務(wù);
      [0023]優(yōu)選地,所述業(yè)務(wù)層部件具體用于報(bào)告生成、商業(yè)情報(bào)分析、輿情分析和數(shù)據(jù)業(yè)務(wù)。
      [0024]本發(fā)明中,基于組合理論的類自然語(yǔ)言規(guī)則的文本語(yǔ)義處理系統(tǒng),有效的解決了基于web的大數(shù)據(jù)分析問(wèn)題,不但精準(zhǔn)度高、提供語(yǔ)義信息豐富,而且極具實(shí)用性和可產(chǎn)業(yè)化等特點(diǎn),因此市場(chǎng)前景非常廣闊。本發(fā)明,通過(guò)研究中小型企業(yè)的特點(diǎn)及信息需求,從互聯(lián)網(wǎng)大數(shù)據(jù)中提取、分析滿足其需求的個(gè)性化的商機(jī)信息和情報(bào)分析服務(wù),幫助其實(shí)現(xiàn)精準(zhǔn)營(yíng)銷、洞察行業(yè)內(nèi)及上下游產(chǎn)業(yè)的動(dòng)態(tài)趨勢(shì)、把握商機(jī)和規(guī)避風(fēng)險(xiǎn)、迅速做出科學(xué)的決策等方面的商業(yè)智能服務(wù),產(chǎn)業(yè)化應(yīng)用前景廣闊。

      【專利附圖】

      【附圖說(shuō)明】
      [0025]圖1為本發(fā)明實(shí)施例提出的一種基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng)結(jié)構(gòu)圖。

      【具體實(shí)施方式】
      [0026]如圖1所示,本發(fā)明實(shí)施例提出了一種基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),包括:數(shù)據(jù)采集入庫(kù)部件10、實(shí)時(shí)數(shù)據(jù)流處理部件20、存儲(chǔ)體系部件30、底層支持部件40和業(yè)務(wù)輸出部件50。
      [0027]數(shù)據(jù)采集入庫(kù)部件10,包括:分布式爬蟲(chóng)模塊11,用于數(shù)據(jù)源頭偵測(cè)、互聯(lián)網(wǎng)數(shù)據(jù)采集和HTML (HyperText Mark-up Language,超文本標(biāo)記語(yǔ)言)預(yù)處理等方面的工作;數(shù)據(jù)源適配器12,用于將第三方數(shù)據(jù)資源的接入工作,例如客戶指定的需要分析的數(shù)據(jù),可通過(guò)數(shù)據(jù)源適配器介入到系統(tǒng)的處理流程。
      [0028]實(shí)時(shí)數(shù)據(jù)流處理部件20,用于數(shù)據(jù)流的實(shí)時(shí)處理;包括臨時(shí)存儲(chǔ)模塊21,以集群的內(nèi)存作為緩存環(huán)境,將實(shí)時(shí)采集到的數(shù)據(jù)臨時(shí)存儲(chǔ)起來(lái),供有實(shí)時(shí)性要求的模塊讀取;流數(shù)據(jù)鉤子模塊22,提供實(shí)時(shí)數(shù)據(jù)處理模塊掛載的鉤子,基本機(jī)制為訂閱-消費(fèi)模型,當(dāng)有數(shù)據(jù)到達(dá),鉤子系統(tǒng)將數(shù)據(jù)的基本描述掛載起來(lái),以便掛載到鉤子系統(tǒng)的模塊取閱。掛載到鉤子系統(tǒng)的基本要求是數(shù)據(jù)處理速度夠快,以免數(shù)據(jù)堵塞。另外,實(shí)時(shí)數(shù)據(jù)流處理模塊不保證數(shù)據(jù)的永久可讀,超過(guò)一定時(shí)限后(例如5分鐘),數(shù)據(jù)將被清空,較老數(shù)據(jù)將不再可讀,只能在永久存儲(chǔ)體系中取閱。
      [0029]存儲(chǔ)體系部件30,包括Hadoop集群和mysql集群;其中,Hadoop集群負(fù)責(zé)大量網(wǎng)頁(yè)數(shù)據(jù)的永久性存儲(chǔ),某些沒(méi)有隨機(jī)讀寫(xiě)需求的分析結(jié)果也被存儲(chǔ)于Hadoop ;而mysql集群則存儲(chǔ)運(yùn)營(yíng)數(shù)據(jù)、數(shù)據(jù)挖掘結(jié)果、語(yǔ)義分析結(jié)果等體積較小、需要經(jīng)常隨機(jī)讀寫(xiě)的數(shù)據(jù)。
      [0030]底層支持部件40,由語(yǔ)義信息提取模塊41和42構(gòu)成。其中,語(yǔ)義信息提取模塊41,用于從文本中抽取語(yǔ)義信息,支持其他需要語(yǔ)義抽取、語(yǔ)義分析;語(yǔ)義搜索引擎42,用于處理與文本檢索、文本處理等各類與語(yǔ)義搜索、文本處理等相關(guān)的事務(wù);并且API模塊均被集成至語(yǔ)義搜索引擎模塊下,所以語(yǔ)義搜索引擎也被架構(gòu)在此層。
      [0031]業(yè)務(wù)層部件50,用于具體業(yè)務(wù)執(zhí)行、調(diào)度、展現(xiàn)的,與具體應(yīng)用密切相關(guān)的應(yīng)用集合。其中,基本功能包括報(bào)告生成、商業(yè)情報(bào)分析、輿情分析和數(shù)據(jù)業(yè)務(wù)等。其中,精準(zhǔn)營(yíng)銷是為精準(zhǔn)營(yíng)銷所提供的數(shù)據(jù)搜集、分析和營(yíng)銷手段的技術(shù)支持等業(yè)務(wù);數(shù)據(jù)業(yè)務(wù),是為滿足客戶特定數(shù)據(jù)需求而開(kāi)展的數(shù)據(jù)搜集和語(yǔ)義分析等方面業(yè)務(wù);報(bào)告生成,是為客戶生成簡(jiǎn)短的、概要性的、圖文結(jié)合的概要的模塊,支持定期自動(dòng)生成和報(bào)告匯總和撰寫(xiě);商業(yè)情報(bào)分析,包括招投標(biāo)等商機(jī)信息、競(jìng)爭(zhēng)對(duì)手分析,產(chǎn)業(yè)上下游動(dòng)態(tài)和數(shù)據(jù)分析等具體業(yè)務(wù)。輿情分析主要包括話題跟蹤、事件和人物的相關(guān)跟蹤分析,也包括網(wǎng)評(píng)等網(wǎng)絡(luò)輿情類數(shù)據(jù)搜集和集成分析。
      [0032]本發(fā)明中,基于組合理論的類自然語(yǔ)言規(guī)則的文本語(yǔ)義處理系統(tǒng),有效的解決了基于web的大數(shù)據(jù)分析問(wèn)題,不但精準(zhǔn)度高、提供語(yǔ)義信息豐富,而且極具實(shí)用性和可產(chǎn)業(yè)化等特點(diǎn),因此市場(chǎng)前景非常廣闊。本發(fā)明,通過(guò)研究中小型企業(yè)的特點(diǎn)及信息需求,從互聯(lián)網(wǎng)大數(shù)據(jù)中提取、分析滿足其需求的個(gè)性化的商機(jī)信息和情報(bào)分析服務(wù),幫助其實(shí)現(xiàn)精準(zhǔn)營(yíng)銷、洞察行業(yè)內(nèi)及上下游產(chǎn)業(yè)的動(dòng)態(tài)趨勢(shì)、把握商機(jī)和規(guī)避風(fēng)險(xiǎn)、迅速做出科學(xué)的決策等方面的商業(yè)智能服務(wù),產(chǎn)業(yè)化應(yīng)用前景廣闊。
      [0033]以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
      【權(quán)利要求】
      1.一種基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),其特征在于,包括: 數(shù)據(jù)采集入庫(kù)部件,用于數(shù)據(jù)源頭偵測(cè)、互聯(lián)網(wǎng)數(shù)據(jù)采集和HTML預(yù)處理,并將第三方數(shù)據(jù)資源接入; 實(shí)時(shí)數(shù)據(jù)流處理部件,用于數(shù)據(jù)流的實(shí)時(shí)處理; 存儲(chǔ)體系部件,用于存儲(chǔ)Hadoop集群和mysql集群; 底層支持部件,用于從文本中抽取語(yǔ)義信息,支持其他需要語(yǔ)義抽取、語(yǔ)義分析塊,處理與文本檢索、文本處理與語(yǔ)義搜索、文本處理相關(guān)的事務(wù); 業(yè)務(wù)層部件,用于具體業(yè)務(wù)執(zhí)行、調(diào)度、展現(xiàn)的,與具體應(yīng)用密切相關(guān)的應(yīng)用集合。
      2.根據(jù)權(quán)利要求1所述的基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),其特征在于,所述數(shù)據(jù)采集入庫(kù)部件包括: 分布式爬蟲(chóng)模塊,用于數(shù)據(jù)源頭偵測(cè)、互聯(lián)網(wǎng)數(shù)據(jù)采集和HTML預(yù)處理; 數(shù)據(jù)源適配器,用于將第三方數(shù)據(jù)資源接入。
      3.根據(jù)權(quán)利要求1所述的基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),其特征在于,所述實(shí)時(shí)數(shù)據(jù)流處理部件包括: 臨時(shí)存儲(chǔ)模塊,以集群的內(nèi)存作為緩存環(huán)境,將實(shí)時(shí)采集到的數(shù)據(jù)臨時(shí)存儲(chǔ)起來(lái),供有實(shí)時(shí)性要求的模塊讀??; 流數(shù)據(jù)鉤子模塊,提供實(shí)時(shí)數(shù)據(jù)處理模塊掛載的鉤子,基本機(jī)制為訂閱-消費(fèi)模型,當(dāng)有數(shù)據(jù)到達(dá),將數(shù)據(jù)的基本描述掛載起來(lái),以便掛載到鉤子系統(tǒng)的模塊取閱。
      4.根據(jù)權(quán)利要求1或3所述的基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),其特征在于,所述實(shí)時(shí)數(shù)據(jù)流處理模塊不保證數(shù)據(jù)的永久可讀,超過(guò)一定時(shí)限后,數(shù)據(jù)將被清空,較老數(shù)據(jù)將不再可讀,只能在永久存儲(chǔ)體系中取閱。
      5.根據(jù)權(quán)利要求1所述的基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),其特征在于, 所述Hadoop集群用于大量網(wǎng)頁(yè)數(shù)據(jù)的永久性存儲(chǔ)和沒(méi)有隨機(jī)讀寫(xiě)需求的分析結(jié)果; 所述mysql集群,用于存儲(chǔ)運(yùn)營(yíng)數(shù)據(jù)、數(shù)據(jù)挖掘結(jié)果、語(yǔ)義分析結(jié)果。
      6.根據(jù)權(quán)利要求1所述的基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),其特征在于,所述底層支持部件包括: 語(yǔ)義信息提取模塊,用于從文本中抽取語(yǔ)義信息,支持其他需要語(yǔ)義抽取、語(yǔ)義分析塊; 語(yǔ)義搜索引擎,用于處理與文本檢索、語(yǔ)義搜索引擎文本處理與語(yǔ)義搜索、文本處理相關(guān)的事務(wù)。
      7.根據(jù)權(quán)利要求1所述的基于語(yǔ)義的大數(shù)據(jù)分析系統(tǒng),其特征在于,所述業(yè)務(wù)層部件具體用于報(bào)告生成、商業(yè)情報(bào)分析、輿情分析和數(shù)據(jù)業(yè)務(wù)。
      【文檔編號(hào)】G06F17/30GK104281697SQ201410545306
      【公開(kāi)日】2015年1月14日 申請(qǐng)日期:2014年10月15日 優(yōu)先權(quán)日:2014年10月15日
      【發(fā)明者】賈巖 申請(qǐng)人:安徽華貞信息科技有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1