一種基于互聯(lián)網(wǎng)的數(shù)據(jù)信息傳輸和采集系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其是一種基于互聯(lián)網(wǎng)的數(shù)據(jù)信息傳輸和采集系統(tǒng),包括數(shù)據(jù)信息中心、互聯(lián)網(wǎng)模塊、數(shù)據(jù)傳輸模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和數(shù)據(jù)庫組,互聯(lián)模塊通過數(shù)據(jù)采集模塊與數(shù)據(jù)信息中心連接,數(shù)據(jù)信息中心通過數(shù)據(jù)傳輸模塊與數(shù)據(jù)處理模塊連接、數(shù)據(jù)處理模塊與數(shù)據(jù)庫組連接,數(shù)據(jù)處理模塊包括內(nèi)容提取、網(wǎng)頁批量下載和自動(dòng)分類,數(shù)據(jù)庫組包括全文數(shù)據(jù)庫,關(guān)系型數(shù)據(jù)庫和指定文件夾。本發(fā)明有益效果是:基于互聯(lián)網(wǎng)模塊下,利用了數(shù)據(jù)采集模塊和數(shù)據(jù)傳輸模塊之間的結(jié)合傳輸,使得數(shù)據(jù)處理更為便攜,安全可靠性較好,系統(tǒng)結(jié)構(gòu)簡單,同時(shí)具有很強(qiáng)的實(shí)用性。
【專利說明】
一種基于互聯(lián)網(wǎng)的數(shù)據(jù)信息傳輸和采集系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其是一種基于互聯(lián)網(wǎng)的數(shù)據(jù)信息傳輸和采集系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)采集和挖掘技術(shù)也在不斷發(fā)展。因此,如何準(zhǔn)確、高效、完整地從互聯(lián)網(wǎng)中獲取海量數(shù)據(jù),就成為大數(shù)據(jù)技術(shù)群中的一項(xiàng)重要技術(shù)點(diǎn)。
[0003]為了獲取互聯(lián)網(wǎng)中的數(shù)據(jù),通常是結(jié)合爬行技術(shù),試圖下載目標(biāo)網(wǎng)站所有的網(wǎng)頁的HTML源碼,理論上這樣確實(shí)能夠保證下載內(nèi)容的完整性。然而,在具體實(shí)踐中,如果直接在客戶端使用HTTP/HTTPS協(xié)議下載目標(biāo)網(wǎng)站的HTML源碼會(huì)出現(xiàn)以下問題:部分目標(biāo)網(wǎng)站使用ajax技術(shù),并通過JavaScript將數(shù)據(jù)灌入頁面中,由于不同網(wǎng)站的ajax方式均不同,需要額外分析XHR數(shù)據(jù)流;部分目標(biāo)網(wǎng)站通過登錄身份驗(yàn)證等外圍手段對網(wǎng)站數(shù)據(jù)進(jìn)行保護(hù),因此需要對登錄過程進(jìn)行逆向分析和模擬,由于涉及加解密的JS通常經(jīng)過了代碼混淆,逆向分析的難度很大;直接對目標(biāo)網(wǎng)站進(jìn)行HTTP請求時(shí),無法控制緩存Cache,經(jīng)常會(huì)出現(xiàn)重復(fù)下載的情況,造成了資源的極大浪費(fèi)。
【發(fā)明內(nèi)容】
[0004]針對上述現(xiàn)有技術(shù)中存在的不足,本發(fā)明的目的在于提供一種基于互聯(lián)網(wǎng)的數(shù)據(jù)信息傳輸和采集系統(tǒng)。
[0005]為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:一種基于互聯(lián)網(wǎng)的數(shù)據(jù)信息傳輸和采集系統(tǒng),包括數(shù)據(jù)信息中心、互聯(lián)網(wǎng)模塊、數(shù)據(jù)傳輸模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和數(shù)據(jù)庫組,所述互聯(lián)模塊通過數(shù)據(jù)采集模塊與數(shù)據(jù)信息中心連接,所述數(shù)據(jù)信息中心通過數(shù)據(jù)傳輸模塊與數(shù)據(jù)處理模塊連接,所述數(shù)據(jù)處理模塊與數(shù)據(jù)庫組連接,所述數(shù)據(jù)處理模塊包括內(nèi)容提取、網(wǎng)頁批量下載和自動(dòng)分類,所述數(shù)據(jù)庫組包括全文數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫和指定文件夾。
[0006]優(yōu)選地,所述數(shù)據(jù)采集模塊包括控制平臺(tái)、配置芯片、指示燈、復(fù)位模塊、子板擴(kuò)展插槽、時(shí)鐘模塊、以太網(wǎng)接口、USB接口、固態(tài)存儲(chǔ)器、第一串口和第二串口,所述控制平臺(tái)包括單片機(jī)、總線模塊、定時(shí)器、三態(tài)總線橋、IP核、異步收發(fā)傳輸器、子板接口、SDRAM控制器、輸出/輸入模塊和RAM模塊。
[0007]優(yōu)選地,所述單片機(jī)、SDRAM控制器、子板接口、異步收發(fā)傳輸器、USB接口、IP核和三態(tài)總線橋均與總線模塊連接。
[0008]優(yōu)選地,所述配置芯片與RAM模塊連接,所述指示燈和復(fù)位模塊均與輸出/輸入模塊連接,所述子板擴(kuò)展插槽與子板接口連接,所述第一串口和第二串口均與異步收發(fā)傳輸器連接,所述以太網(wǎng)接口和固態(tài)存儲(chǔ)器均與三態(tài)總線橋連接,所述時(shí)鐘模塊與定時(shí)器連接。
[0009]由于采用上述技術(shù)方案,本發(fā)明有益效果是:基于互聯(lián)網(wǎng)模塊下,利用了數(shù)據(jù)采集模塊和數(shù)據(jù)傳輸模塊之間的結(jié)合傳輸,使得數(shù)據(jù)處理更為便攜,安全可靠性較好,系統(tǒng)結(jié)構(gòu)簡單,同時(shí)具有很強(qiáng)的實(shí)用性。
【附圖說明】
[0010]圖1是本發(fā)明的系統(tǒng)框圖;
[0011 ]圖2是本發(fā)明的數(shù)據(jù)采集模塊原理框圖。
【具體實(shí)施方式】
[0012]以下結(jié)合附圖對本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說明,但是本發(fā)明可以由權(quán)利要求限定和覆蓋的多種不同方式實(shí)施。
[0013]如圖1并結(jié)合圖2所示,一種基于互聯(lián)網(wǎng)的數(shù)據(jù)信息傳輸和采集系統(tǒng),包括數(shù)據(jù)信息中心、互聯(lián)網(wǎng)模塊、數(shù)據(jù)傳輸模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和數(shù)據(jù)庫組,所述互聯(lián)模塊通過數(shù)據(jù)采集模塊與數(shù)據(jù)信息中心連接,所述數(shù)據(jù)信息中心通過數(shù)據(jù)傳輸模塊與數(shù)據(jù)處理模塊連接,所述數(shù)據(jù)處理模塊與數(shù)據(jù)庫組連接,所述數(shù)據(jù)處理模塊包括內(nèi)容提取、網(wǎng)頁批量下載和自動(dòng)分類,所述數(shù)據(jù)庫組包括全文數(shù)據(jù)庫,關(guān)系型數(shù)據(jù)庫和指定文件夾。
[0014]進(jìn)一步的,所述數(shù)據(jù)采集模塊包括控制平臺(tái)、配置芯片、指示燈、復(fù)位模塊、子板擴(kuò)展插槽、時(shí)鐘模塊、以太網(wǎng)接口、USB接口、固態(tài)存儲(chǔ)器、第一串口和第二串口,所述控制平臺(tái)包括單片機(jī)、總線模塊、定時(shí)器、三態(tài)總線橋、IP核、異步收發(fā)傳輸器、子板接口、SDRAM控制器、輸出/輸入模塊和RAM模塊;所述單片機(jī)、SDRAM控制器、子板接口、異步收發(fā)傳輸器、USB接口、IP核和三態(tài)總線橋均與總線模塊連接;所述配置芯片與RAM模塊連接,所述指示燈和復(fù)位模塊均與輸出/輸入模塊連接,所述子板擴(kuò)展插槽與子板接口連接,所述第一串口和第二串口均與異步收發(fā)傳輸器連接,所述以太網(wǎng)接口和固態(tài)存儲(chǔ)器均與三態(tài)總線橋連接,所述時(shí)鐘模塊與定時(shí)器連接。
[0015]本發(fā)明有益效果是:基于互聯(lián)網(wǎng)模塊下,利用了數(shù)據(jù)采集模塊和數(shù)據(jù)傳輸模塊之間的結(jié)合傳輸,使得數(shù)據(jù)處理更為便攜,安全可靠性較好,系統(tǒng)結(jié)構(gòu)簡單,同時(shí)具有很強(qiáng)的實(shí)用性。
[0016]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于互聯(lián)網(wǎng)的數(shù)據(jù)信息傳輸和采集系統(tǒng),其特征在于:包括數(shù)據(jù)信息中心、互聯(lián)網(wǎng)模塊、數(shù)據(jù)傳輸模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和數(shù)據(jù)庫組,所述互聯(lián)模塊通過數(shù)據(jù)采集模塊與數(shù)據(jù)信息中心連接,所述數(shù)據(jù)信息中心通過數(shù)據(jù)傳輸模塊與數(shù)據(jù)處理模塊連接,所述數(shù)據(jù)處理模塊與數(shù)據(jù)庫組連接,所述數(shù)據(jù)處理模塊包括內(nèi)容提取、網(wǎng)頁批量下載和自動(dòng)分類,所述數(shù)據(jù)庫組包括全文數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫和指定文件夾。2.根據(jù)權(quán)利要求1所述的一種基于互聯(lián)網(wǎng)的數(shù)據(jù)信息傳輸和采集系統(tǒng),其特征在于:所述數(shù)據(jù)采集模塊包括控制平臺(tái)、配置芯片、指示燈、復(fù)位模塊、子板擴(kuò)展插槽、時(shí)鐘模塊、以太網(wǎng)接口、USB接口、固態(tài)存儲(chǔ)器、第一串口和第二串口,所述控制平臺(tái)包括單片機(jī)、總線模塊、定時(shí)器、三態(tài)總線橋、IP核、異步收發(fā)傳輸器、子板接口、SDRAM控制器、輸出/輸入模塊和RAM模塊; 所述單片機(jī)、SDRAM控制器、子板接口、異步收發(fā)傳輸器、USB接口、IP核和三態(tài)總線橋均與總線模塊連接; 所述配置芯片與RAM模塊連接,所述指示燈和復(fù)位模塊均與輸出/輸入模塊連接,所述子板擴(kuò)展插槽與子板接口連接,所述第一串口和第二串口均與異步收發(fā)傳輸器連接,所述以太網(wǎng)接口和固態(tài)存儲(chǔ)器均與三態(tài)總線橋連接,所述時(shí)鐘模塊與定時(shí)器連接。
【文檔編號】G06F17/30GK105912695SQ201610262043
【公開日】2016年8月31日
【申請日】2016年4月25日
【發(fā)明人】陶軍
【申請人】全球電氣資源(深圳)有限公司