国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于PPPoE網(wǎng)絡(luò)接入的高集成度網(wǎng)絡(luò)采集系統(tǒng)及方法

      文檔序號:9330414閱讀:279來源:國知局
      基于PPPoE網(wǎng)絡(luò)接入的高集成度網(wǎng)絡(luò)采集系統(tǒng)及方法【
      技術(shù)領(lǐng)域
      】[0001]本發(fā)明屬于網(wǎng)絡(luò)爬蟲相關(guān)
      技術(shù)領(lǐng)域
      ,涉及一種基于PPPoE網(wǎng)絡(luò)接入的爬蟲系統(tǒng),具體涉及一種基于PPPoE網(wǎng)絡(luò)接入的高集成度網(wǎng)絡(luò)采集系統(tǒng)及方法?!?br>背景技術(shù)
      】[0002]互聯(lián)網(wǎng)以及移動互聯(lián)網(wǎng)的蓬勃發(fā)展帶來了網(wǎng)絡(luò)數(shù)據(jù)的極大豐富,從網(wǎng)絡(luò)上自動進行數(shù)據(jù)獲取-網(wǎng)絡(luò)爬蟲具有重要價值。目前常見的互聯(lián)網(wǎng)數(shù)據(jù)包括普通網(wǎng)頁、博客、論壇、微博等。對這些數(shù)據(jù)的采集一般通過發(fā)送模擬用戶操作的網(wǎng)絡(luò)請求包來獲得對應(yīng)數(shù)據(jù),這些數(shù)據(jù)再經(jīng)內(nèi)容解析,抽取結(jié)構(gòu)化信息來達到采集的需求。[0003]采集系統(tǒng)的效率在很大程度上取決于網(wǎng)頁下載速度,而網(wǎng)頁下載速度由網(wǎng)絡(luò)帶寬、服務(wù)器允許的友好訪問間隔決定。具體地,采集系統(tǒng)在網(wǎng)頁下載上面臨的兩個主要問題是:一是采集的帶寬受限;二是采集客戶端可用的IP數(shù)有限。目前多數(shù)公開的互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)只是簡單實現(xiàn)了抓取數(shù)據(jù)的功能,系統(tǒng)對于如何低成本的增加帶寬、并且突破IP限制都沒有很好地體現(xiàn),尤其針對小規(guī)模量的數(shù)據(jù)采集應(yīng)用來說,公開范圍內(nèi)缺乏有效的持續(xù)穩(wěn)定的采集系統(tǒng)方案?!?br/>發(fā)明內(nèi)容】[0004]本發(fā)明提供了一種基于PPPoE網(wǎng)絡(luò)接入的高集成度網(wǎng)絡(luò)采集系統(tǒng)及方法,能夠有效突破IP限制、低成本地增加帶寬,同時可以節(jié)省空間資源。PPPoE是point-to-pointprotocoloverethernet的簡稱,協(xié)議中集成了PPP協(xié)議,實現(xiàn)了傳統(tǒng)以太網(wǎng)不能提供的身份驗證、加密以及壓縮等功能,是目前常見的網(wǎng)絡(luò)運營商向終端個人用戶提供網(wǎng)絡(luò)接入的上網(wǎng)協(xié)議。[0005]本發(fā)明的高集成度是指可以使用單臺機器控制接入多條線路進行采集,采集系統(tǒng)可以精確控制數(shù)據(jù)包的網(wǎng)絡(luò)發(fā)送出口,從而達到充分利用線路資源的效果。該系統(tǒng)具有構(gòu)造簡單、成本低廉、采集穩(wěn)定的特點。本發(fā)明的互聯(lián)網(wǎng)數(shù)據(jù)泛指可以通過上網(wǎng)訪問到的數(shù)據(jù),包括各種匿名以及非匿名可以訪問到的網(wǎng)站數(shù)據(jù),多種業(yè)務(wù)類型的網(wǎng)絡(luò)數(shù)據(jù)以及多種使用不同上層應(yīng)用協(xié)議提供用戶訪問的網(wǎng)絡(luò)數(shù)據(jù)等等。[0006]為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:[0007]-種基于PPPoE網(wǎng)絡(luò)接入的高集成度網(wǎng)絡(luò)采集系統(tǒng),具體包括:[0008]設(shè)備部分:用于為采集系統(tǒng)提供硬件支持。計算機硬件(采集服務(wù)器)要具備一塊或多塊網(wǎng)卡,以達到單機管理多條線路的高集成度目標(biāo)。[0009]網(wǎng)絡(luò)部分:在網(wǎng)絡(luò)運營商處辦理PPPoE網(wǎng)絡(luò)接入業(yè)務(wù)(如家用ADSL寬帶),拉網(wǎng)線入戶;并且開通對應(yīng)的賬號及密碼,用于網(wǎng)絡(luò)接入。[0010]軟件部分,包括[0011](1)操作系統(tǒng):支持PPPoE接入、支持多用戶路由功能的Iinux系統(tǒng)。[0012]⑵采集模塊:用于獲取采集任務(wù)、向遠端服務(wù)器發(fā)起數(shù)據(jù)采集請求、接收并處理遠端服務(wù)器返回的網(wǎng)頁數(shù)據(jù)。[0013](3)撥號斷開模塊:使用PPPoE網(wǎng)絡(luò)接口名作為參數(shù),關(guān)閉對應(yīng)的PPPoE連接(斷網(wǎng))。[0014](4)撥號連接模塊:完成2個動作,一是PPPoE線路撥號,從而系統(tǒng)能夠上網(wǎng);二是配置網(wǎng)絡(luò)路由,確保采集系統(tǒng)的網(wǎng)頁請求能夠從不同的網(wǎng)絡(luò)接口發(fā)送出去。路由表的形式為〈用戶標(biāo)識_>PPP〇E接口〉,這里用戶標(biāo)識指的是系統(tǒng)的用戶名或者用戶ID(https://en.wikipedia.org/wiki/User_identifier,也稱UID)或者用戶所在的用戶組名或者用戶組的ID(https://en.wikipedia.org/wiki/Group_identifier,也稱GID),路由時根據(jù)米集進程的用戶標(biāo)識將采集請求從對應(yīng)的PPPoE接口發(fā)送出去。[0015](5)撥號管理模塊:用于管理多條PPPoE線路接入,負(fù)責(zé)執(zhí)行斷線、連接等操作,是對撥號斷開模塊、撥號連接模塊的封裝。[0016](6)IP管理模塊:該模塊負(fù)責(zé)對采集使用的IP進行管理。提供2種基本操作,一是IP注冊,即接收注冊請求,注冊請求可以來自撥號連接模塊或者采集模塊,記錄的數(shù)據(jù)包括〈IP、來源模塊、IP描述信息〉;二是IP查詢,接收IP,返回IP是否可用的信息,記錄IP查詢動作,為后續(xù)IP查詢作參考。[0017]-種基于PPPoE網(wǎng)絡(luò)接入的高集成度網(wǎng)絡(luò)采集實現(xiàn)方法,步驟包括:[0018]1)為系統(tǒng)創(chuàng)建多個用戶,使用Iinux下的useradd命令;[0019]2)進行PPPoE配置,設(shè)置PPPoE的撥號配置文件,便于系統(tǒng)進行斷線、撥號連接的控制;每個網(wǎng)口對應(yīng)的網(wǎng)絡(luò)接入配置使用一個單獨的撥號配置文件,路徑一般在/etc/ppp/peers/下;[0020]3)以不同用戶標(biāo)識啟動采集模塊,系統(tǒng)會基于用戶身份來確定采集請求包發(fā)送所使用的PPPoE網(wǎng)絡(luò)接口;[0021]4)采集模塊向采集目標(biāo)發(fā)送數(shù)據(jù)采集請求、獲取遠端服務(wù)器返回的數(shù)據(jù)并進行后處理;[0022]5)重復(fù)步驟4)直到采集任務(wù)執(zhí)行結(jié)束為止。[0023]由于采集網(wǎng)站的限制,步驟4)在執(zhí)行采集任務(wù)時可能需要更換IP才能繼續(xù)采集,更換IP有如下2種執(zhí)行方式:[0024](1)定期更換。撥號管理模塊定時進行PPPoE線路的斷開以及PPPoE撥號連接操作,并配合IP管理模塊進行查詢,確保撥號管理模塊獲得的IP地址為可用IP地址。以上PPPoE線路的斷開以及PPPoE撥號連接可能會重復(fù)多次。這種方式下,撥號管理模塊不需要與采集模塊進行交互。[0025](2)根據(jù)需要進行更換。采集模塊根據(jù)需要調(diào)用撥號管理模塊進行PPPoE線路的斷開以及PPPoE撥號連接操作,并配合IP管理模塊的IP查找功能,確保撥號管理模塊獲得的IP地址可用。這種方式下,撥號管理模塊需要與采集模塊進行交互,發(fā)送線路斷開以及撥號連接命令。[0026]本發(fā)明的撥號管理模塊可以是一個單獨的進程,也可以嵌入到采集模塊中。對于第2種IP更換的執(zhí)行方式,采集模塊必須能夠同撥號管理模塊進行通信,采集模塊發(fā)往撥號管理模塊的內(nèi)容包括斷線指令、撥號指令;撥號管理模塊發(fā)往采集模塊的內(nèi)容可以包括PPPoE撥號產(chǎn)生的IP、撥號IP是否可用等信息。如果采集模塊與撥號管理模塊不在同一進程,依托操作系統(tǒng)的進程間通信功能完成2個模塊間通信。[0027]本發(fā)明的IP管理模塊可以是一個單獨的進程,也可以嵌入到采集模塊或者撥號管理模塊中。采集模塊必須能夠同IP管理模塊進行通信,用于進行撥號IP的注冊和查詢。[0028]與現(xiàn)有技術(shù)相比,本發(fā)明可以有效突破IP限制、低成本地增加帶寬,同時可以節(jié)省空間資源。具體地,突破IP限制是通過撥號管理模塊進行IP更換;PPPoE網(wǎng)絡(luò)接入(一般常見的家用ADSL上網(wǎng))可以降低自行構(gòu)建采集系統(tǒng)的成本;單機多網(wǎng)卡的采集方案可以確保同時利用多條線路進行采集?!靖綀D說明】[0029]圖1是IP管理模塊運行原理示意圖。[0030]圖2是采集模塊控制撥號的采集流程示意圖。[0031]圖3是采集模塊調(diào)用撥號管理模塊示意圖。[0032]圖4是撥號管理模塊定期撥號的采集流程示意圖。[0033]圖5是撥號管理模塊示意圖。【具體實施方式】[0034]下面通過具體實施例和附圖,對本發(fā)明做進一步說明。[0035]硬件準(zhǔn)備:一個裝有1塊PCI-E千兆四口RJ45網(wǎng)卡的服務(wù)器,共有4個網(wǎng)口用于米集。[0036]網(wǎng)絡(luò)接入準(zhǔn)備:為了能夠充分利用4個網(wǎng)口的采集能力,從網(wǎng)絡(luò)運營商處接4條線路,并開通4個賬號。[0037]軟件程序準(zhǔn)備:[0038](1)創(chuàng)建4個Linux系統(tǒng)賬號,假設(shè)分別為userl,user2,user3,user4。構(gòu)建賬號可以使用useradd命令,一個命令示例為:[0039]useradduserl#添加userl賬號[0040](2)創(chuàng)建PPPoE的撥號配置文件[0041]在/etc/ppp/peers/下建立4個撥號配置文件,分別起名為dsl-pppl,dsl_ppp2,dsl_ppp3,dsl_ppp4;[0042]配置文件追加一行unit{X}的配置,用于指定撥號成功后系統(tǒng)新建的PPP網(wǎng)絡(luò)接口名稱,鏈路名稱格式為PPP+[數(shù)字],配置項指定[數(shù)字]為{X},網(wǎng)絡(luò)接口名稱可以通過ifconfig查看到。如果不添加unit{X}配置,撥號成功后的[數(shù)字]由系統(tǒng)自行決定。[0043](3)撥號斷開模塊。調(diào)用系統(tǒng)的PPPoE撥號斷開命令:[0044]poff[配置文件名],其中[配置文件名]作為參數(shù),在運行時由撥號管理模塊傳遞。本例中,配置文件名對應(yīng)于步驟(2)中的dsl-pppl,dsl-ppp2,dsl-ppp3,dsl-ppp4。[0045](4)撥號連接模塊。完成2部分功能,一是PPPoE撥號連接,二是配置系統(tǒng)路由。[0046](a)PPPoE撥號連接命令[0047]pon[配置文件名],其中[配置文件名]作為參數(shù),在運行時由撥號管理模塊傳遞。本例的[配置文件名]對應(yīng)于步驟(2)中的dsl-pppl,dsl-ppp2,dsl-ppp3,dsl-ppp4。[0048](b)配置系統(tǒng)路由[0049]使用Iinux下的iptables程序進行配置,如表1所示。[0050]表1配置系統(tǒng)路由[0051][0053]上述命令會向系統(tǒng)路由表中添加一條路由項,指定由用戶名為userl創(chuàng)建的進程發(fā)送的請求包從pppl端口出去,同理可以指定用戶名為user2當(dāng)前第1頁1 2 
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1