国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法

      文檔序號(hào):8430843閱讀:197來源:國知局
      一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法
      【專利說明】一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法
      [0001]
      技術(shù)領(lǐng)域
      [0002]本發(fā)明涉及數(shù)據(jù)采集技術(shù),具體的說就是一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法。
      【背景技術(shù)】
      [0003]隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,現(xiàn)在已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,在互聯(lián)網(wǎng)時(shí)代所產(chǎn)生的數(shù)據(jù)越來越多,各個(gè)大數(shù)據(jù)公司對(duì)數(shù)據(jù)的應(yīng)用也已經(jīng)越來越多,目前數(shù)據(jù)的來源大部分來自于互聯(lián)網(wǎng),由于互聯(lián)網(wǎng)上存在結(jié)構(gòu)化、半結(jié)構(gòu)化、跟非結(jié)構(gòu)化的數(shù)據(jù),這樣就給數(shù)據(jù)的采集增加了難度。
      [0004]數(shù)據(jù)挖掘是指從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫的大量數(shù)據(jù)中挖掘有效知識(shí)的過程。數(shù)據(jù)挖掘從大量數(shù)據(jù)中提取出隱含的、有價(jià)值的和可理解的信息,以指導(dǎo)人們的活動(dòng)。數(shù)據(jù)挖掘技術(shù)主要有關(guān)聯(lián)規(guī)則,分類規(guī)則,聚類分析和序列模式等等。
      [0005]在通過各種數(shù)據(jù)挖掘技術(shù)挖掘互聯(lián)網(wǎng)數(shù)據(jù)的時(shí)候,由于存在不同的數(shù)據(jù)結(jié)構(gòu),因此各個(gè)數(shù)據(jù)采集工作就急需一種能夠通過簡(jiǎn)單的配置就可以采集各種數(shù)據(jù)的工具。現(xiàn)行的數(shù)據(jù)采集方式是通過分析網(wǎng)頁后按照網(wǎng)頁的結(jié)構(gòu)編寫數(shù)據(jù)采集程序,這樣的話就會(huì)出現(xiàn)每采集一個(gè)不同的網(wǎng)站,就需要重新分析網(wǎng)頁重新編寫程序的問題,極大的降低了數(shù)據(jù)采集的效率以及代碼的重用行。

      【發(fā)明內(nèi)容】

      [0006]針對(duì)現(xiàn)有技術(shù)存在的不足之處,本發(fā)明提出了一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)米集方法。
      [0007]本發(fā)明所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,解決上述技術(shù)問題采用的技術(shù)方案如下:該數(shù)據(jù)自動(dòng)采集方法運(yùn)用網(wǎng)頁分析技術(shù),利用程序分析網(wǎng)頁的源代碼,利用網(wǎng)頁的標(biāo)簽,以及手動(dòng)配置采集的位置,針對(duì)互聯(lián)網(wǎng)上結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一采集;其主要步驟包括:編寫共用程序和配置采集。
      [0008]優(yōu)選的,所述編寫共用程序是指,編寫采集程序,利用統(tǒng)一的網(wǎng)頁標(biāo)簽獲取內(nèi)容的方法進(jìn)行采集網(wǎng)頁內(nèi)容,并留有接口進(jìn)行手動(dòng)配置采集內(nèi)容的位置。
      [0009]優(yōu)選的,利用網(wǎng)頁標(biāo)簽分析技術(shù)編寫采集程序,通過采集程序利用用戶配置的標(biāo)簽位置及其內(nèi)容,采集到所需要的互聯(lián)網(wǎng)站數(shù)據(jù)。
      [0010]優(yōu)選的,所述配置采集,通過配置采集網(wǎng)站的類型以及采集的頁數(shù),自動(dòng)生成訪問的URL,自動(dòng)訪問網(wǎng)頁并獲取網(wǎng)頁數(shù)據(jù),通過配置的前后連接符來抓取互聯(lián)網(wǎng)數(shù)據(jù)。
      [0011]優(yōu)選的,分析采集的網(wǎng)站,分析是否有分頁,以及分頁的參數(shù)標(biāo)識(shí);并在系統(tǒng)上統(tǒng)一配置網(wǎng)頁及分頁參數(shù)標(biāo)識(shí)。
      [0012]優(yōu)選的,利用系統(tǒng)的網(wǎng)址采集功能,采集數(shù)據(jù)所在的網(wǎng)址得到分頁網(wǎng)址。
      [0013]優(yōu)選的,分析采集數(shù)據(jù)所在的網(wǎng)頁,找出數(shù)據(jù)所在的標(biāo)簽位置,并在程序中進(jìn)行配置;并配置所關(guān)聯(lián)的數(shù)據(jù)庫以及表名。
      [0014]優(yōu)選的,通過系統(tǒng)的數(shù)據(jù)采集功能對(duì)個(gè)網(wǎng)頁進(jìn)行采集。
      [0015]本發(fā)明的一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法與現(xiàn)有技術(shù)相比具有的有益效果是:該數(shù)據(jù)自動(dòng)采集方法運(yùn)用網(wǎng)頁分析技術(shù),利用網(wǎng)頁的標(biāo)簽,以及手動(dòng)配置采集的位置,針對(duì)互聯(lián)網(wǎng)上結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一采集;解決了現(xiàn)有技術(shù)所造成的數(shù)據(jù)采集效率低下等問題,降低了數(shù)據(jù)采集的難度,提高了數(shù)據(jù)采集效率。
      【附圖說明】
      [0016]附圖1為所述基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法的結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0017]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參考附圖,對(duì)本發(fā)明所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法進(jìn)一步詳細(xì)說明。
      [0018]本發(fā)明所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,運(yùn)用網(wǎng)頁分析技術(shù),利用程序分析網(wǎng)頁的源代碼,利用網(wǎng)頁的標(biāo)簽,以及手動(dòng)配置采集的位置,針對(duì)互聯(lián)網(wǎng)上結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一采集;其主要步驟包括:編寫共用程序和配置采集。
      [0019]實(shí)施例:
      本實(shí)施例所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,進(jìn)行編寫共用程序,編寫采集程序,利用統(tǒng)一的網(wǎng)頁標(biāo)簽獲取內(nèi)容的方法進(jìn)行采集網(wǎng)頁內(nèi)容,并留有接口讓用戶進(jìn)行手動(dòng)配置采集內(nèi)容的位置。
      [0020]所述配置采集,通過配置采集網(wǎng)站的類型,需要采集的頁數(shù),自動(dòng)生成訪問的URL,自動(dòng)訪問網(wǎng)頁并獲取網(wǎng)頁數(shù)據(jù),通過配置的前后連接符來抓取互聯(lián)網(wǎng)數(shù)據(jù)。
      [0021]本實(shí)施例所述基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法的具體實(shí)施過程,如附圖1所示:
      第一步,利用網(wǎng)頁標(biāo)簽分析技術(shù)編寫采集程序,通過采集程序利用用戶配置的標(biāo)簽位置及其內(nèi)容,采集到用戶所需要的互聯(lián)網(wǎng)站數(shù)據(jù);
      第二步,分析采集的網(wǎng)站,分析是否有分頁,以及分頁的參數(shù)標(biāo)識(shí);并在系統(tǒng)上進(jìn)行統(tǒng)一配置網(wǎng)頁及分頁參數(shù)標(biāo)識(shí);
      第三步,利用系統(tǒng)的網(wǎng)址采集功能,首先采集數(shù)據(jù)所在的網(wǎng)址得到分頁網(wǎng)址;
      第四步,分析采集數(shù)據(jù)所在的網(wǎng)頁,找出數(shù)據(jù)所在的標(biāo)簽位置,并在程序中進(jìn)行配置(采集內(nèi)容的位置);并配置所關(guān)聯(lián)的數(shù)據(jù)庫以及表名;
      第五步,通過系統(tǒng)的數(shù)據(jù)采集功能對(duì)個(gè)網(wǎng)頁進(jìn)行采集,得到采集完畢的互聯(lián)網(wǎng)數(shù)據(jù)。
      [0022]上述【具體實(shí)施方式】?jī)H是本發(fā)明的具體個(gè)案,本發(fā)明的專利保護(hù)范圍包括但不限于上述【具體實(shí)施方式】,任何符合本發(fā)明的權(quán)利要求書的且任何所屬技術(shù)領(lǐng)域的普通技術(shù)人員對(duì)其所做的適當(dāng)變化或替換,皆應(yīng)落入本發(fā)明的專利保護(hù)范圍。
      【主權(quán)項(xiàng)】
      1.一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,其特征在于,運(yùn)用網(wǎng)頁分析技術(shù),利用程序分析網(wǎng)頁的源代碼,利用網(wǎng)頁的標(biāo)簽,以及手動(dòng)配置采集的位置,針對(duì)互聯(lián)網(wǎng)上結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一采集;其主要步驟包括:編寫共用程序和配置采集。
      2.根據(jù)權(quán)利要求1所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,其特征在于,所述編寫共用程序是指,編寫采集程序,利用統(tǒng)一的網(wǎng)頁標(biāo)簽獲取內(nèi)容的方法進(jìn)行采集網(wǎng)頁內(nèi)容,并留有接口進(jìn)行手動(dòng)配置采集內(nèi)容的位置。
      3.根據(jù)權(quán)利要求2所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,其特征在于,利用網(wǎng)頁標(biāo)簽分析技術(shù)編寫采集程序,通過采集程序利用用戶配置的標(biāo)簽位置及其內(nèi)容,采集到所需要的互聯(lián)網(wǎng)站數(shù)據(jù)。
      4.根據(jù)權(quán)利要求1至3任一所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,其特征在于,所述配置采集,通過配置采集網(wǎng)站的類型以及采集的頁數(shù),自動(dòng)生成訪問的URL,自動(dòng)訪問網(wǎng)頁并獲取網(wǎng)頁數(shù)據(jù),通過配置的前后連接符來抓取互聯(lián)網(wǎng)數(shù)據(jù)。
      5.根據(jù)權(quán)利要求4所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,其特征在于,分析采集的網(wǎng)站,分析是否有分頁,以及分頁的參數(shù)標(biāo)識(shí);并在系統(tǒng)上統(tǒng)一配置網(wǎng)頁及分頁參數(shù)標(biāo)識(shí)。
      6.根據(jù)權(quán)利要求5所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,其特征在于,利用系統(tǒng)的網(wǎng)址采集功能,采集數(shù)據(jù)所在的網(wǎng)址得到分頁網(wǎng)址。
      7.根據(jù)權(quán)利要求6所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,其特征在于,分析采集數(shù)據(jù)所在的網(wǎng)頁,找出數(shù)據(jù)所在的標(biāo)簽位置,并在程序中進(jìn)行配置;并配置所關(guān)聯(lián)的數(shù)據(jù)庫以及表名。
      8.根據(jù)權(quán)利要求7所述一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,其特征在于,通過系統(tǒng)的數(shù)據(jù)采集功能對(duì)個(gè)網(wǎng)頁進(jìn)行采集。
      【專利摘要】本發(fā)明公開一種基于網(wǎng)頁標(biāo)簽分析的數(shù)據(jù)自動(dòng)采集方法,涉及數(shù)據(jù)采集技術(shù),運(yùn)用網(wǎng)頁分析技術(shù),利用程序分析網(wǎng)頁的源代碼,利用網(wǎng)頁的標(biāo)簽,以及手動(dòng)配置采集的位置,針對(duì)互聯(lián)網(wǎng)上結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一采集;其主要步驟包括:編寫共用程序和配置采集。本發(fā)明利用網(wǎng)頁的標(biāo)簽,以及手動(dòng)配置采集的位置,針對(duì)互聯(lián)網(wǎng)上結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一采集,降低了數(shù)據(jù)采集的難度,提高了數(shù)據(jù)采集效率。
      【IPC分類】G06F17-30
      【公開號(hào)】CN104750812
      【申請(qǐng)?zhí)枴緾N201510143077
      【發(fā)明人】趙虎, 徐宏偉, 王傳超
      【申請(qǐng)人】浪潮集團(tuán)有限公司
      【公開日】2015年7月1日
      【申請(qǐng)日】2015年3月30日
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1